企业未来十年最重要的智能化工作 | 附5个关键追问
「AI进化论」是长江商学院推出的AI+主题栏目,汇聚全球AI领域的原创洞见、产业实践及前瞻研判。从技术突破到产业应用,从战略布局到伦理边界,在这里,一起与AI同频进化。
不少AI项目上线惊艳,三个月后便归于沉寂,很可能踩了企业AI转型最大的坑——只把数据当资产,却忘了把“判断”写进系统。企业家最珍贵、最难复制的东西,从来不是数据库本身,而是判断、资源、边界和责任。胜负手在于将这些转化成一种可计算、可执行、可验证、可进化的组织能力。
今天和你分享长江商学院张维宁教授近日发表于FT中文网的署名文章。文章指出:企业真正的AI资产不止是私有数据,更是在于“判断”和“协议”——什么是好、什么是危险、什么情况下必须叫停。未来领先的企业,不是最早用上AI的,而是最早能把自己的判断变成系统、把自己的系统变成闭环的企业。
作者 | 张维宁
来源 | FT中文网
原标题 | 谁先把判断写进系统,谁先拥有下一代企业能力
张维宁
长江商学院教授
高层管理教育项目学术主任
MBA项目学术主任
01
企业真正要转的,不是模型
而是结果系统
今天一个重要变化是,模型之间在静态基准上的差距正在缩小,但一旦任务变长、步骤变多、涉及真实工具与环境,差距就会迅速拉大。
原因不复杂:真正困难的,不是回答问题,而是在几十次、上百次工具调用之后,仍然不偏航、不自满、不忘记、不把半成品当成果。
Anthropic、LangChain与OpenAI最近几篇关于Harness的文章,实际上都在指向同一个结论:在长链路任务上,决定系统表现的,越来越不是模型本身,而是围绕模型搭建的运行环境、验证机制和反馈闭环。
企业家如果只盯模型,很容易做出错误判断。
你会把一次demo的惊艳当成长期交付能力;会把“回答更顺”误判为“流程被完成”;会把“模型更强”误判为“业务就能自动化”。
但客户不会为排行榜买单,也不会为token花样买单。客户只会为一件事买单:事情是不是被稳定地做成了。
02
数据不是终点,判断才是资产
因此,企业应重新理解自己的资产。
很多人以为企业最重要的AI资产是私有数据。其实,私有数据只是第一层。真正更深的资产至少还有四层:
第一,过程与场景经验,也就是老员工“知道怎么处理”的那些例外;
第二,专家判断与品味,也就是“什么叫好、什么叫危险、什么叫不值得做”的阈值;
第三,行业资源与关系网络,也就是谁能被调动、什么路径可行;
第四,执行入口与控制权,也就是API、系统权限、审批节点、现场流程和真实动作的抓手。
如果把资产再向上抽象,可以看到一条更重要的阶梯:
● 数据回答“发生了什么”
● 信息回答“它意味着什么”
● 知识回答“在什么情境下该如何理解”
● 判断回答“什么才算好”
● 协议则回答“下一步怎么做、怎么验证、何时升级给人”
绝大多数企业今天停留在前两层,做得好一点的到达第三层,建立了一个能检索的知识库。
但只有当企业把“判断”和“协议”也写进去,AI才开始具有真正的经营价值。否则,它只是在更快地复述材料,而不是在更稳地完成任务。
03
给AI的不是知识库
而是知识架构
这也解释了为什么“知识库”这个词,今天常常被用得太轻。很多企业把上传文档、做向量检索、接上RAG,当成知识系统的完成。
但对智能体来说,知识从来不只是“能搜到”。它至少还涉及四个问题:
● 从哪里开始看
● 哪一份才是权威版本
● 哪些内容可以直接转成动作
● 跨轮任务结束后状态如何被下一轮继承。
OpenAI在Codex的实践里给出了一个非常有启发的做法:不要给智能体一本1000页的说明书,而要先给它一张地图。
AGENTS.md不应是百科全书,而应是目录;docs/不应是资料堆,而应是记录系统;计划、决策日志、技术债、产品规格、架构约束,都应被版本化、索引化、交叉链接化。
这背后体现的,不是文档勤奋,而是知识架构。它让智能体先从一个小而稳定的入口开始,再沿着索引、技能、链接与搜索,逐层深入。这种“渐进式披露”不是细节优化,而是多轮任务能否持续推进的前提。
一句更直白的话是:what the agent can't see doesn't exist。
对智能体来说,不能在运行时访问到的内容一一无论它藏在Google Docs、聊天记录、口头共识还是专家脑中一一都等于不存在。
企业若不把隐性判断外化进系统,就会不停抱怨模型“听不懂我们公司”,而真相通常是:公司从未把“什么叫懂”写给任何机器。
04
为什么单个Agent不够
Harness才是分水岭?
但即便有了知识架构,单个Agent仍然远远不够。原因是,单体智能体有一组稳定而顽固的失败模式。Anthropic在长周期应用开发中观察到,模型很容易犯几类错误:
一上来就试图一步到位做完整个应用;
做了一半就宣布大功告成;
把自己写出来的代码看一眼便觉得“应该没问题”;
上一轮留下半成品与脏状态,下一轮又从错误的基础上继续;
局部单测过了,却从不真正站在用户视角做端到端验证。
LangChain则进一步展示了另一类问题:
模型会围绕同一个错误方案反复小修小补,掉进“doom loop”;
会在退出前忘记验证;
会因为没有被清楚告知环境约束,而把大量时间浪费在搜索与猜测上。
这也是为什么Harness会成为分水岭。
Harness不是把Agent“包一层”的技术名词,而是把一整套管理动作制度化:
● 先把任务拆成可以验证的小单元
● 把完成定义写清楚
● 把可用工具与权限边界说清楚
● 把进度、状态与交接痕迹持续外化
● 把自评与外评分离
● 把验证前置成强制动作, 而不是事后补救。
Anthropic的initializer agent、 feature list JSON、 progress file、git提交和browser automation,本质上都在做这件事。它们不是在教模型“更聪明”,而是在教系统“更负责”。
如果继续向前一步,Anthropic后续提出的planner/generator/evaluator三智能体结构就更值得企业家重视。它的重要性并不在于“多智能体”本身,而在于它把规划、执行和评审这三种本该分开的职责,从一个自说自话的Agent身上拆开了。
更关键的是,在每个sprint开始之前,generator和evaluator先谈好一份sprint contract:这一轮到底要做什么,如何验证,什么情况算失败。也就是说,不是先动手,再靠人猜“做对没有”;而是在行动之前就把done的证据说清楚。
05
Harness的本质
是企业里的控制闭环
从操作层面看,Harness可以被理解为“模型的操作系统”:
模型像CPU,提供原始推理能力;上下文窗口像RAM,容量有限且易失;Agent像应用,承接具体业务逻辑;Harness则像OS负责启动、调度、记忆、工具驱动、错误恢复与安全边界。
这个类比已经很有帮助。但从更深层看,Harness的本质其实更接近控制论。
James Watt的离心调速器,让蒸汽机不再依赖工人持续手拧阀门;Kubernetes的controller,让工程师不必盯着服务是否崩溃,而是让系统持续对齐到“期望状态”。
今天,Harness正在对企业中的智能体做同样的事。
它先定义目标状态,再布置传感器(测试、日志、指标、用户反馈),然后设计评估器(rubric、阈值、独立QA),再通过执行器(Agent+tools+workflow)作用于世界状态,最后把失败轨迹回流成新的规则、文档和工件。
这不是“多加几个钩子”,而是把企业里原本依赖管理者盯着跑的纠偏动作,改造成一个持续收敛的系统。
基于这一点,我更愿意把企业Harness概括为“七环”:规、图、工、忆、验、控、学。
规,是标准与红线;
图,是上下文地图与送达机制;
工,是动作空间与工具封装;
忆,是进度、状态与交接;
验,是测试、rubric与完成证明;
控,是权限、预算、升级与回滚;
学,是把失败轨迹转成下一轮系统改进。
今天许多企业最多做到“图”和“工”:给AI一点检索,再接几个工具。真正缺的,往往恰恰是“规”“验”“学”。没有这三项,系统只会显得能干,却很难真正越跑越稳。
06
企业家和管理者的新角色:
从转阀门到掌舵
这会直接重写企业家、管理者和专家的角色。
过去,优秀管理者常常通过亲自盯流程、拍判断、压细节来保证质量;未来,越来越多价值会迁移到另一类工作上;定义目标状态,写清边界,指定升级条件,观察偏差,并把一次次失败转成系统规则。
换句话说,人的工作从“亲自转阀门”,变成“设计调速器并持续掌舵”。
OpenAI的Codex实验最值得玩味的,不是“一百万行代码且零人工手写”这个数字本身,而是角色变化。
工程师不再主要通过写代码推动系统,而是通过设计环境、明晰意图、接入可观察性、定义架构不变量、维护记录系统,让Agent能可靠工作。
人类最稀缺的资源,不再是劳动时间,而是注意力与判断力。于是,组织也会随之变化:
● 文档从培训材料变成基础设施
● 审阅从“每一项都看”转向“只看高风险例外”
● 架构从“以后长大了再管”变成一开始就要给机器读懂的约束
● 品味与共识,不再停留在口头,而是要被编码进lint、测试、rubric和“黄金原则”里。
这恰恰是很多企业家最该尽早介入的地方。
因为“什么叫好”“什么必须升级”“哪些错误不可接受”,从来不是技术团队单独能定义的。那是经营判断,是品牌判断,是风险判断,也是资源配置判断。
没有企业家参与,Harness最终就会退化成一个技术系统,而不是经营系统。
07
先做一个90天闭环
而不是先做一个大平台
因此,真正务实的路径,不是上来就建一个宏大的AI平台,而是先做一个90天闭环。
先选一个高频、高价值、结果可验证、边界可控的场景;然后把隐性经验写成地图、原则、案例与完成定义;
再让第一个Agent在沙箱里完成真实动作;
接着补齐Harness,把进度记录、验证清单、独立评审、trace和升级机制接进来;
最后在影子模式下并行跑真实任务,比较完成率、验证通过率、返工率、人工介入率、成本与时效。
90天的目标,不是彻底重构企业,而是证明三件事:隐性判断能被外化,Agent能完成真实动作,Harness能显著降低漂移与人工盯防成本。
在投资上,也应有新的分层。
●基础模型访问、通用算力、通用运行时和标准连接器,更适合“买”;
●知识架构、领域标准、评估语料、关键工具封装、权限与升级规则,更适合“自建”;
● 而那些大量弥补当前模型缺陷的硬编码控制流、脆弱的promp技巧和深度绑定单一模型的小聪明,则必须准备随时删除。
因为模型会持续进步,真正应该沉淀的,不是今天的一套花活,而是完成定义、例外处理和失败轨迹。
某种意义上,Harness本身就在不断生成企业自己的数据集:它记录的不只是答案,而是“什么叫对”“哪里会错”“系统如何被纠正”。
下一轮竞争,护城河越来越不在prompt,而在这些轨迹里。
08
谁先把判断写进系统
谁先拥有下一代企业能力
如果说过去二十年,企业最重要的数字化工作是把流程搬进系统;那么接下来十年,最重要的智能化工作,就是把判断写进系统。
谁先完成这一步,谁就不只是拥有一个更聪明的助手,而是拥有一个会持续变强的经营系统。
这也许正是Harness真正重要的地方。
它让我们第一次可以把企业家最珍贵、最难复制的东西——不是数据库本身,而是判断、资源、边界和责任一一转化成一种可计算、可执行、可验证、可进化的组织能力。
未来真正领先的企业,不一定是最早使用AI的企业,而更可能是最早把自己的判断变成系统、把自己的系统变成闭环的企业。
企业家现在就该追问的5个问题
► 我们到底在自动化一个问题,还是在重写一段经营能力?
► 我们是否已经写清楚什么叫“做好”、什么叫“不能做”、什么情况必须升级给人?
► 我们的知识是资料堆,还是带索引、权威性与继承机制的知识架构?
► 我们让Agent看见了什么?它能否看到环境、日志、指标与真实结果?
► 我们积累下来的,是零散的prompt,还是可复用的评估语料、失败轨迹与规则更新?
原标题:《企业未来十年最重要的智能化工作 | 附5个关键追问》

