企业未来十年最重要的智能化工作 | 附5个关键追问

2026-04-20 17:56

北京

「AI进化论」是长江商学院推出的AI+主题栏目，汇聚全球AI领域的原创洞见、产业实践及前瞻研判。从技术突破到产业应用，从战略布局到伦理边界，在这里，一起与AI同频进化。

不少AI项目上线惊艳，三个月后便归于沉寂，很可能踩了企业AI转型最大的坑——只把数据当资产，却忘了把“判断”写进系统。企业家最珍贵、最难复制的东西，从来不是数据库本身，而是判断、资源、边界和责任。胜负手在于将这些转化成一种可计算、可执行、可验证、可进化的组织能力。

今天和你分享长江商学院张维宁教授近日发表于FT中文网的署名文章。文章指出：企业真正的AI资产不止是私有数据，更是在于“判断”和“协议”——什么是好、什么是危险、什么情况下必须叫停。未来领先的企业，不是最早用上AI的，而是最早能把自己的判断变成系统、把自己的系统变成闭环的企业。

作者 | 张维宁

来源 | FT中文网

原标题 | 谁先把判断写进系统，谁先拥有下一代企业能力

张维宁

长江商学院教授

高层管理教育项目学术主任

MBA项目学术主任

企业真正要转的，不是模型

而是结果系统

今天一个重要变化是，模型之间在静态基准上的差距正在缩小，但一旦任务变长、步骤变多、涉及真实工具与环境，差距就会迅速拉大。

原因不复杂：真正困难的，不是回答问题，而是在几十次、上百次工具调用之后，仍然不偏航、不自满、不忘记、不把半成品当成果。

Anthropic、LangChain与OpenAI最近几篇关于Harness的文章，实际上都在指向同一个结论：在长链路任务上，决定系统表现的，越来越不是模型本身，而是围绕模型搭建的运行环境、验证机制和反馈闭环。

企业家如果只盯模型，很容易做出错误判断。

你会把一次demo的惊艳当成长期交付能力；会把“回答更顺”误判为“流程被完成”；会把“模型更强”误判为“业务就能自动化”。

但客户不会为排行榜买单，也不会为token花样买单。客户只会为一件事买单：事情是不是被稳定地做成了。

数据不是终点，判断才是资产

因此，企业应重新理解自己的资产。

很多人以为企业最重要的AI资产是私有数据。其实，私有数据只是第一层。真正更深的资产至少还有四层：

第一，过程与场景经验，也就是老员工“知道怎么处理”的那些例外；

第二，专家判断与品味，也就是“什么叫好、什么叫危险、什么叫不值得做”的阈值；

第三，行业资源与关系网络，也就是谁能被调动、什么路径可行；

第四，执行入口与控制权，也就是API、系统权限、审批节点、现场流程和真实动作的抓手。

如果把资产再向上抽象，可以看到一条更重要的阶梯：

● 数据回答“发生了什么”

● 信息回答“它意味着什么”

● 知识回答“在什么情境下该如何理解”

● 判断回答“什么才算好”

● 协议则回答“下一步怎么做、怎么验证、何时升级给人”

绝大多数企业今天停留在前两层，做得好一点的到达第三层，建立了一个能检索的知识库。

但只有当企业把“判断”和“协议”也写进去，AI才开始具有真正的经营价值。否则，它只是在更快地复述材料，而不是在更稳地完成任务。

给AI的不是知识库

而是知识架构

这也解释了为什么“知识库”这个词，今天常常被用得太轻。很多企业把上传文档、做向量检索、接上RAG，当成知识系统的完成。

但对智能体来说，知识从来不只是“能搜到”。它至少还涉及四个问题：

● 从哪里开始看

● 哪一份才是权威版本

● 哪些内容可以直接转成动作

● 跨轮任务结束后状态如何被下一轮继承。

OpenAI在Codex的实践里给出了一个非常有启发的做法：不要给智能体一本1000页的说明书，而要先给它一张地图。

AGENTS.md不应是百科全书，而应是目录；docs/不应是资料堆，而应是记录系统；计划、决策日志、技术债、产品规格、架构约束，都应被版本化、索引化、交叉链接化。

这背后体现的，不是文档勤奋，而是知识架构。它让智能体先从一个小而稳定的入口开始，再沿着索引、技能、链接与搜索，逐层深入。这种“渐进式披露”不是细节优化，而是多轮任务能否持续推进的前提。

一句更直白的话是：what the agent can't see doesn't exist。

对智能体来说，不能在运行时访问到的内容一一无论它藏在Google Docs、聊天记录、口头共识还是专家脑中一一都等于不存在。

企业若不把隐性判断外化进系统，就会不停抱怨模型“听不懂我们公司”，而真相通常是：公司从未把“什么叫懂”写给任何机器。

为什么单个Agent不够

Harness才是分水岭?

但即便有了知识架构，单个Agent仍然远远不够。原因是，单体智能体有一组稳定而顽固的失败模式。Anthropic在长周期应用开发中观察到，模型很容易犯几类错误：

一上来就试图一步到位做完整个应用；

做了一半就宣布大功告成；

把自己写出来的代码看一眼便觉得“应该没问题”；

上一轮留下半成品与脏状态，下一轮又从错误的基础上继续；

局部单测过了，却从不真正站在用户视角做端到端验证。

LangChain则进一步展示了另一类问题：

模型会围绕同一个错误方案反复小修小补，掉进“doom loop”；

会在退出前忘记验证；

会因为没有被清楚告知环境约束，而把大量时间浪费在搜索与猜测上。

这也是为什么Harness会成为分水岭。

Harness不是把Agent“包一层”的技术名词，而是把一整套管理动作制度化：

● 先把任务拆成可以验证的小单元

● 把完成定义写清楚

● 把可用工具与权限边界说清楚

● 把进度、状态与交接痕迹持续外化

● 把自评与外评分离

● 把验证前置成强制动作, 而不是事后补救。

Anthropic的initializer agent、 feature list JSON、 progress file、git提交和browser automation，本质上都在做这件事。它们不是在教模型“更聪明”，而是在教系统“更负责”。

如果继续向前一步，Anthropic后续提出的planner/generator/evaluator三智能体结构就更值得企业家重视。它的重要性并不在于“多智能体”本身，而在于它把规划、执行和评审这三种本该分开的职责，从一个自说自话的Agent身上拆开了。

更关键的是，在每个sprint开始之前，generator和evaluator先谈好一份sprint contract：这一轮到底要做什么，如何验证，什么情况算失败。也就是说，不是先动手，再靠人猜“做对没有”；而是在行动之前就把done的证据说清楚。

Harness的本质

是企业里的控制闭环

从操作层面看，Harness可以被理解为“模型的操作系统”：

模型像CPU，提供原始推理能力；上下文窗口像RAM，容量有限且易失；Agent像应用，承接具体业务逻辑；Harness则像OS负责启动、调度、记忆、工具驱动、错误恢复与安全边界。

这个类比已经很有帮助。但从更深层看，Harness的本质其实更接近控制论。

James Watt的离心调速器，让蒸汽机不再依赖工人持续手拧阀门；Kubernetes的controller，让工程师不必盯着服务是否崩溃，而是让系统持续对齐到“期望状态”。

今天，Harness正在对企业中的智能体做同样的事。

它先定义目标状态，再布置传感器（测试、日志、指标、用户反馈），然后设计评估器（rubric、阈值、独立QA），再通过执行器（Agent+tools+workflow）作用于世界状态，最后把失败轨迹回流成新的规则、文档和工件。

这不是“多加几个钩子”，而是把企业里原本依赖管理者盯着跑的纠偏动作，改造成一个持续收敛的系统。

基于这一点，我更愿意把企业Harness概括为“七环”：规、图、工、忆、验、控、学。

规，是标准与红线；

图，是上下文地图与送达机制；

工，是动作空间与工具封装；

忆，是进度、状态与交接；

验，是测试、rubric与完成证明；

控，是权限、预算、升级与回滚；

学，是把失败轨迹转成下一轮系统改进。

今天许多企业最多做到“图”和“工”：给AI一点检索，再接几个工具。真正缺的，往往恰恰是“规”“验”“学”。没有这三项，系统只会显得能干，却很难真正越跑越稳。

企业家和管理者的新角色：

从转阀门到掌舵

这会直接重写企业家、管理者和专家的角色。

过去，优秀管理者常常通过亲自盯流程、拍判断、压细节来保证质量；未来，越来越多价值会迁移到另一类工作上；定义目标状态，写清边界，指定升级条件，观察偏差，并把一次次失败转成系统规则。

换句话说，人的工作从“亲自转阀门”，变成“设计调速器并持续掌舵”。

OpenAI的Codex实验最值得玩味的，不是“一百万行代码且零人工手写”这个数字本身，而是角色变化。

工程师不再主要通过写代码推动系统，而是通过设计环境、明晰意图、接入可观察性、定义架构不变量、维护记录系统，让Agent能可靠工作。

人类最稀缺的资源，不再是劳动时间，而是注意力与判断力。于是，组织也会随之变化：

● 文档从培训材料变成基础设施

● 审阅从“每一项都看”转向“只看高风险例外”

● 架构从“以后长大了再管”变成一开始就要给机器读懂的约束

● 品味与共识，不再停留在口头，而是要被编码进lint、测试、rubric和“黄金原则”里。

这恰恰是很多企业家最该尽早介入的地方。

因为“什么叫好”“什么必须升级”“哪些错误不可接受”，从来不是技术团队单独能定义的。那是经营判断，是品牌判断，是风险判断，也是资源配置判断。

没有企业家参与，Harness最终就会退化成一个技术系统，而不是经营系统。

先做一个90天闭环

而不是先做一个大平台

因此，真正务实的路径，不是上来就建一个宏大的AI平台，而是先做一个90天闭环。

先选一个高频、高价值、结果可验证、边界可控的场景；然后把隐性经验写成地图、原则、案例与完成定义；

再让第一个Agent在沙箱里完成真实动作；

接着补齐Harness，把进度记录、验证清单、独立评审、trace和升级机制接进来；

最后在影子模式下并行跑真实任务，比较完成率、验证通过率、返工率、人工介入率、成本与时效。

90天的目标，不是彻底重构企业，而是证明三件事：隐性判断能被外化，Agent能完成真实动作，Harness能显著降低漂移与人工盯防成本。

在投资上，也应有新的分层。

●基础模型访问、通用算力、通用运行时和标准连接器，更适合“买”；

●知识架构、领域标准、评估语料、关键工具封装、权限与升级规则，更适合“自建”；

● 而那些大量弥补当前模型缺陷的硬编码控制流、脆弱的promp技巧和深度绑定单一模型的小聪明，则必须准备随时删除。

因为模型会持续进步，真正应该沉淀的，不是今天的一套花活，而是完成定义、例外处理和失败轨迹。

某种意义上，Harness本身就在不断生成企业自己的数据集：它记录的不只是答案，而是“什么叫对”“哪里会错”“系统如何被纠正”。

下一轮竞争，护城河越来越不在prompt，而在这些轨迹里。

谁先把判断写进系统

谁先拥有下一代企业能力

如果说过去二十年，企业最重要的数字化工作是把流程搬进系统；那么接下来十年，最重要的智能化工作，就是把判断写进系统。

谁先完成这一步，谁就不只是拥有一个更聪明的助手，而是拥有一个会持续变强的经营系统。

这也许正是Harness真正重要的地方。

它让我们第一次可以把企业家最珍贵、最难复制的东西——不是数据库本身，而是判断、资源、边界和责任一一转化成一种可计算、可执行、可验证、可进化的组织能力。

未来真正领先的企业，不一定是最早使用AI的企业，而更可能是最早把自己的判断变成系统、把自己的系统变成闭环的企业。

企业家现在就该追问的5个问题

► 我们到底在自动化一个问题，还是在重写一段经营能力？

► 我们是否已经写清楚什么叫“做好”、什么叫“不能做”、什么情况必须升级给人？

► 我们的知识是资料堆，还是带索引、权威性与继承机制的知识架构？

► 我们让Agent看见了什么？它能否看到环境、日志、指标与真实结果？

► 我们积累下来的，是零散的prompt，还是可复用的评估语料、失败轨迹与规则更新？

原标题：《企业未来十年最重要的智能化工作 | 附5个关键追问》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。