企业未来十年最重要的智能化工作 | 附5个关键追问

2026-04-20 17:56
北京

「AI进化论」是长江商学院推出的AI+主题栏目,汇聚全球AI领域的原创洞见、产业实践及前瞻研判。从技术突破到产业应用,从战略布局到伦理边界,在这里,一起与AI同频进化。

不少AI项目上线惊艳,三个月后便归于沉寂,很可能踩了企业AI转型最大的坑——只把数据当资产,却忘了把“判断”写进系统。企业家最珍贵、最难复制的东西,从来不是数据库本身,而是判断、资源、边界和责任。胜负手在于将这些转化成一种可计算、可执行、可验证、可进化的组织能力。

今天和你分享长江商学院张维宁教授近日发表于FT中文网的署名文章。文章指出:企业真正的AI资产不止是私有数据,更是在于“判断”和“协议”——什么是好、什么是危险、什么情况下必须叫停。未来领先的企业,不是最早用上AI的,而是最早能把自己的判断变成系统、把自己的系统变成闭环的企业。

作者 | 张维宁

来源 | FT中文网

原标题 | 谁先把判断写进系统,谁先拥有下一代企业能力

张维宁

长江商学院教授

高层管理教育项目学术主任

MBA项目学术主任

01

企业真正要转的,不是模型

而是结果系统

今天一个重要变化是,模型之间在静态基准上的差距正在缩小,但一旦任务变长、步骤变多、涉及真实工具与环境,差距就会迅速拉大。

原因不复杂:真正困难的,不是回答问题,而是在几十次、上百次工具调用之后,仍然不偏航、不自满、不忘记、不把半成品当成果。

Anthropic、LangChain与OpenAI最近几篇关于Harness的文章,实际上都在指向同一个结论:在长链路任务上,决定系统表现的,越来越不是模型本身,而是围绕模型搭建的运行环境、验证机制和反馈闭环。

企业家如果只盯模型,很容易做出错误判断。

你会把一次demo的惊艳当成长期交付能力;会把“回答更顺”误判为“流程被完成”;会把“模型更强”误判为“业务就能自动化”。

但客户不会为排行榜买单,也不会为token花样买单。客户只会为一件事买单:事情是不是被稳定地做成了。

02

数据不是终点,判断才是资产

因此,企业应重新理解自己的资产。

很多人以为企业最重要的AI资产是私有数据。其实,私有数据只是第一层。真正更深的资产至少还有四层:

第一,过程与场景经验,也就是老员工“知道怎么处理”的那些例外;

第二,专家判断与品味,也就是“什么叫好、什么叫危险、什么叫不值得做”的阈值;

第三,行业资源与关系网络,也就是谁能被调动、什么路径可行;

第四,执行入口与控制权,也就是API、系统权限、审批节点、现场流程和真实动作的抓手。

如果把资产再向上抽象,可以看到一条更重要的阶梯:

● 数据回答“发生了什么”

● 信息回答“它意味着什么”

● 知识回答“在什么情境下该如何理解”

● 判断回答“什么才算好”

● 协议则回答“下一步怎么做、怎么验证、何时升级给人”

绝大多数企业今天停留在前两层,做得好一点的到达第三层,建立了一个能检索的知识库。

但只有当企业把“判断”和“协议”也写进去,AI才开始具有真正的经营价值。否则,它只是在更快地复述材料,而不是在更稳地完成任务。

03

给AI的不是知识库

而是知识架构

这也解释了为什么“知识库”这个词,今天常常被用得太轻。很多企业把上传文档、做向量检索、接上RAG,当成知识系统的完成。

但对智能体来说,知识从来不只是“能搜到”。它至少还涉及四个问题:

● 从哪里开始看

● 哪一份才是权威版本

● 哪些内容可以直接转成动作

● 跨轮任务结束后状态如何被下一轮继承。

OpenAI在Codex的实践里给出了一个非常有启发的做法:不要给智能体一本1000页的说明书,而要先给它一张地图。

AGENTS.md不应是百科全书,而应是目录;docs/不应是资料堆,而应是记录系统;计划、决策日志、技术债、产品规格、架构约束,都应被版本化、索引化、交叉链接化。

这背后体现的,不是文档勤奋,而是知识架构。它让智能体先从一个小而稳定的入口开始,再沿着索引、技能、链接与搜索,逐层深入。这种“渐进式披露”不是细节优化,而是多轮任务能否持续推进的前提。

一句更直白的话是:what the agent can't see doesn't exist。

对智能体来说,不能在运行时访问到的内容一一无论它藏在Google Docs、聊天记录、口头共识还是专家脑中一一都等于不存在。

企业若不把隐性判断外化进系统,就会不停抱怨模型“听不懂我们公司”,而真相通常是:公司从未把“什么叫懂”写给任何机器。

04

为什么单个Agent不够

Harness才是分水岭?

但即便有了知识架构,单个Agent仍然远远不够。原因是,单体智能体有一组稳定而顽固的失败模式。Anthropic在长周期应用开发中观察到,模型很容易犯几类错误:

一上来就试图一步到位做完整个应用;

做了一半就宣布大功告成;

把自己写出来的代码看一眼便觉得“应该没问题”;

上一轮留下半成品与脏状态,下一轮又从错误的基础上继续;

局部单测过了,却从不真正站在用户视角做端到端验证。

LangChain则进一步展示了另一类问题:

模型会围绕同一个错误方案反复小修小补,掉进“doom loop”;

会在退出前忘记验证;

会因为没有被清楚告知环境约束,而把大量时间浪费在搜索与猜测上。

这也是为什么Harness会成为分水岭。

Harness不是把Agent“包一层”的技术名词,而是把一整套管理动作制度化:

● 先把任务拆成可以验证的小单元

● 把完成定义写清楚

● 把可用工具与权限边界说清楚

● 把进度、状态与交接痕迹持续外化

● 把自评与外评分离

● 把验证前置成强制动作, 而不是事后补救。

Anthropic的initializer agent、 feature list JSON、 progress file、git提交和browser automation,本质上都在做这件事。它们不是在教模型“更聪明”,而是在教系统“更负责”。

如果继续向前一步,Anthropic后续提出的planner/generator/evaluator三智能体结构就更值得企业家重视。它的重要性并不在于“多智能体”本身,而在于它把规划、执行和评审这三种本该分开的职责,从一个自说自话的Agent身上拆开了。

更关键的是,在每个sprint开始之前,generator和evaluator先谈好一份sprint contract:这一轮到底要做什么,如何验证,什么情况算失败。也就是说,不是先动手,再靠人猜“做对没有”;而是在行动之前就把done的证据说清楚。

05

Harness的本质

是企业里的控制闭环

从操作层面看,Harness可以被理解为“模型的操作系统”:

模型像CPU,提供原始推理能力;上下文窗口像RAM,容量有限且易失;Agent像应用,承接具体业务逻辑;Harness则像OS负责启动、调度、记忆、工具驱动、错误恢复与安全边界。

这个类比已经很有帮助。但从更深层看,Harness的本质其实更接近控制论。

James Watt的离心调速器,让蒸汽机不再依赖工人持续手拧阀门;Kubernetes的controller,让工程师不必盯着服务是否崩溃,而是让系统持续对齐到“期望状态”。

今天,Harness正在对企业中的智能体做同样的事。

它先定义目标状态,再布置传感器(测试、日志、指标、用户反馈),然后设计评估器(rubric、阈值、独立QA),再通过执行器(Agent+tools+workflow)作用于世界状态,最后把失败轨迹回流成新的规则、文档和工件。

这不是“多加几个钩子”,而是把企业里原本依赖管理者盯着跑的纠偏动作,改造成一个持续收敛的系统。

基于这一点,我更愿意把企业Harness概括为“七环”:规、图、工、忆、验、控、学。

规,是标准与红线;

图,是上下文地图与送达机制;

工,是动作空间与工具封装;

忆,是进度、状态与交接;

验,是测试、rubric与完成证明;

控,是权限、预算、升级与回滚;

学,是把失败轨迹转成下一轮系统改进。

今天许多企业最多做到“图”和“工”:给AI一点检索,再接几个工具。真正缺的,往往恰恰是“规”“验”“学”。没有这三项,系统只会显得能干,却很难真正越跑越稳。

06

企业家和管理者的新角色:

从转阀门到掌舵

这会直接重写企业家、管理者和专家的角色。

过去,优秀管理者常常通过亲自盯流程、拍判断、压细节来保证质量;未来,越来越多价值会迁移到另一类工作上;定义目标状态,写清边界,指定升级条件,观察偏差,并把一次次失败转成系统规则。

换句话说,人的工作从“亲自转阀门”,变成“设计调速器并持续掌舵”。

OpenAI的Codex实验最值得玩味的,不是“一百万行代码且零人工手写”这个数字本身,而是角色变化。

工程师不再主要通过写代码推动系统,而是通过设计环境、明晰意图、接入可观察性、定义架构不变量、维护记录系统,让Agent能可靠工作。

人类最稀缺的资源,不再是劳动时间,而是注意力与判断力。于是,组织也会随之变化:

● 文档从培训材料变成基础设施

● 审阅从“每一项都看”转向“只看高风险例外”

● 架构从“以后长大了再管”变成一开始就要给机器读懂的约束

● 品味与共识,不再停留在口头,而是要被编码进lint、测试、rubric和“黄金原则”里。

这恰恰是很多企业家最该尽早介入的地方。

因为“什么叫好”“什么必须升级”“哪些错误不可接受”,从来不是技术团队单独能定义的。那是经营判断,是品牌判断,是风险判断,也是资源配置判断。

没有企业家参与,Harness最终就会退化成一个技术系统,而不是经营系统。

07

先做一个90天闭环

而不是先做一个大平台

因此,真正务实的路径,不是上来就建一个宏大的AI平台,而是先做一个90天闭环。

先选一个高频、高价值、结果可验证、边界可控的场景;然后把隐性经验写成地图、原则、案例与完成定义;

再让第一个Agent在沙箱里完成真实动作;

接着补齐Harness,把进度记录、验证清单、独立评审、trace和升级机制接进来;

最后在影子模式下并行跑真实任务,比较完成率、验证通过率、返工率、人工介入率、成本与时效。

90天的目标,不是彻底重构企业,而是证明三件事:隐性判断能被外化,Agent能完成真实动作,Harness能显著降低漂移与人工盯防成本。

在投资上,也应有新的分层。

●基础模型访问、通用算力、通用运行时和标准连接器,更适合“买”;

●知识架构、领域标准、评估语料、关键工具封装、权限与升级规则,更适合“自建”;

● 而那些大量弥补当前模型缺陷的硬编码控制流、脆弱的promp技巧和深度绑定单一模型的小聪明,则必须准备随时删除。

因为模型会持续进步,真正应该沉淀的,不是今天的一套花活,而是完成定义、例外处理和失败轨迹。

某种意义上,Harness本身就在不断生成企业自己的数据集:它记录的不只是答案,而是“什么叫对”“哪里会错”“系统如何被纠正”。

下一轮竞争,护城河越来越不在prompt,而在这些轨迹里。

08

谁先把判断写进系统

谁先拥有下一代企业能力

如果说过去二十年,企业最重要的数字化工作是把流程搬进系统;那么接下来十年,最重要的智能化工作,就是把判断写进系统。

谁先完成这一步,谁就不只是拥有一个更聪明的助手,而是拥有一个会持续变强的经营系统。

这也许正是Harness真正重要的地方。

它让我们第一次可以把企业家最珍贵、最难复制的东西——不是数据库本身,而是判断、资源、边界和责任一一转化成一种可计算、可执行、可验证、可进化的组织能力。

未来真正领先的企业,不一定是最早使用AI的企业,而更可能是最早把自己的判断变成系统、把自己的系统变成闭环的企业。

企业家现在就该追问的5个问题

► 我们到底在自动化一个问题,还是在重写一段经营能力?

► 我们是否已经写清楚什么叫“做好”、什么叫“不能做”、什么情况必须升级给人?

► 我们的知识是资料堆,还是带索引、权威性与继承机制的知识架构?

► 我们让Agent看见了什么?它能否看到环境、日志、指标与真实结果?

► 我们积累下来的,是零散的prompt,还是可复用的评估语料、失败轨迹与规则更新?

原标题:《企业未来十年最重要的智能化工作 | 附5个关键追问》

阅读原文

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。