Omdia詹墨磊：Token经济时代，智能体才是产业胜负手

2026-06-30 12:26

北京

本文来自微信公众号：潮涌AI（ichaoyongai）。

无论是在海外，还是在国内，有关巨头收紧了内部AI Token消耗指标的消息层出不穷，毫无疑问，企业们已经要集体开始算Token账了——Token到底花了多少钱，这些钱换回了什么？更高的Token消耗，真的换来了同比例更多的、对用户真正有用的功能吗？

为此，2026年6月26日，在中关村朝阳园管委会（区科信局）、北京市朝阳区人才工作局指导之下，由潮涌AI与O-hub举办的“潮涌之界系列沙龙暨ITEC2026 OPC人才赛之Token经济专场”在北京数字人基地举行，活动以“狂烧Token之后，你的公司真的赚到钱了吗？”为主题，邀请了多位业内人士，共话Token经济的发现新周期。

其中，Omdia数据集团高级首席分析师詹墨磊发表了《数字经济时代的智能体效能计量》主题分享，给出了有关Token经济时代的新认知与新思辨。

以下为詹墨磊分享实录，经潮涌AI整理：

大家下午好，很高兴能有这个机会跟大家分享Omdia对于Token，以及中国智能体技术趋势的一些观察和思考。

先简单介绍我的个人背景和任职公司。我之前在百度智能云，负责产业科技研究院的行业洞察、研究分析以及战略运营。去年加入了Omdia数据集团，这是一家覆盖全球云计算和AI全领域的国际化研究机构。

今天分享的主题是“数字经济时代的智能体效能计量”，也顺势对应了百度前段时间提出的DAA（Daily Active Agents，日活智能体数）概念。

这一指标试图回答一个核心问题：当AI从“对话”走向“做事”，我们该如何衡量智能体创造的真实价值？

01 Token经济时代，两种用大模型的逻辑

在这个主题之下，目前业界存在两种截然不同的大模型使用理念。也许大家在日常工作中已经有所体会。

直接用模型：第一种是纯粹调用API，或者在对话框里直接使用大模型。

用智能体：第二种是构建一套复杂的逻辑链和工作流，让智能体去完成任务。

这两种模式在全球范围内都广泛存在。

值得注意的是第一种情况：今年年初，OpenAI将原本属于智能体的多项能力内化到了模型本身之中。这意味着头部大模型厂商正在不断向上游延展自身能力边界，持续提升基础模型的原生能力。

一部分从业者认为，直接用模型就足够了；另一部分则认为，必须构建复杂的工作流，让智能体更贴近企业或个人的实际业务需求。

目前看来，这两种理念形成了明显的分化。

在中国，前段时间掠起的智能体热潮让许多人开始“疯狂烧Token”。不同企业消耗的Token金额参差不齐，但全球范围内都已经形成了这种意识——智能体正在从概念验证走向规模化应用。

02 Token越用越贵？表面降价，实则消耗暴涨

很多人有个错觉：Token单价一直在降，用AI应该越来越便宜吧？

确实，从全球范围来看，Token单价呈现持续下降趋势。

以GPT-4o为例，2024年时的价格约为每百万Token 60美元，到如今已下降约95%。这是大家能直观看到的表面现象。

语言模型推理价格随时间变化趋势数据来源：Artificial Analysis

但更深层的矛盾在于：单个用户席位创造的价值，与Token消耗的积极程度之间，会形成一道“剪刀差”——也就是价值增长与成本膨胀之间的差距。这个gap若不加控制，会逐渐吞噬掉AI应用本应带来的收益。

AI商业模式经济压力分析——订阅模式与Token成本之间的矛盾

实际情况是：在市场竞争和大厂推动下，单Token成本确实在下降，但完成一个任务所需的整体Token价值却在上涨。与此同时，海量工作负载带来了更多的Token消耗。说白了，Token便宜了，但用的量大了，总价反而上去了。

大型企业越来越依赖智能体，通过私有化部署来解决复杂的业务问题。企业内部有大量数据并不对外公开，而是沉淀在自有知识库中。再加上每个企业的业务场景和工作流程各不相同，因此，企业在使用AI时，更倾向于私有化部署应用系统，再调用大模型能力。这种模式下，Token的消耗量往往远超个人用户的简单对话。

从全球统计数据来看，三种典型场景的Token消耗差异巨大：

一次智能体任务的消耗，是一次简单对话的近1000倍。

全球日均Token生成量方面，2025年已达到约442万亿个。如果按此增速推算，到2030年将达到约1.87亿亿个，未来5年增长约42倍，对应的年化复合增长率（CAGR）约为85.7%。当然，如此高速的增长必须与实际产出挂钩来衡量，这也正是本次沙龙举办的意义所在。

03 怎么算ROI，怎么省Token

Token成本持续上升，ROI（投资回报率）的计算就变得尤为关键。ROI的本质是价值除以成本。成本端是Token消耗，那么价值端是什么？

很多人认为价值等于直接带来的营收，但实际上还包括替代人工所节省的成本等。

当前企业使用大模型，核心诉求集中在两个方面：提效和降本。

提效方面：替代人工完成重复性任务，减少开发过程中的bug，降低应用流程中的工作流错误，提升项目交付速度。据统计，中国利用AI大模型直接生成APP的能力较去年提升了近一倍。

降本方面：每一块GPU显卡带来的收益价值，在不同场景下有显著差异：

各场景Token ROI行业基准区间

有了ROI的感知之后，业界普遍在思考如何优化Token的使用效率。从技术层面来看，有四条主要的优化路径：

1. Prompt加速优化：精简指令和上下文，去除冗余填充词，降低无效Token消耗。

2. 语义缓存：将通用、高频使用的内容预置到缓存中，提升服务响应速度并减少重复调用。

3. RAG精炼：通过精准检索，确保模型只处理最相关的知识片段，避免无关信息的Token浪费。

4. 模型能力升级：全球各大云厂商持续优化模型架构。以AWS为例，其提出的意图前置架构——先理解用户意图，再匹配最合适的模型——虽然能有效提升效率，但在复杂多变的企业场景中仍面临挑战。

Token消耗效率优化路径——四阶段优化可节省约60%

由于企业场景多变，选择合适的模型至关重要。

从当前主流大模型的能力分布来看：

GPT和Mistral在综合任务中表现优秀；长文本处理方面，Claude和Gemini具备明显优势；中文场景下，国内大模型（如文心一言、通义千问等）的表现更为出色；多模态任务和长文本任务也有各自的优选模型。

没有一个模型能在所有benchmark上全面领先，每个模型都有自己的“一技之长”。企业需要根据实际业务场景的需求来选择最合适的大模型，而非盲目追求某一模型的全面部署。

主流大语言模型任务适配能力矩阵（2025Q4）

04 智能体：未来2-3年的关键战场

当前，智能体已成为大模型应用落地的关键决胜因素，预计在未来2-3年内将持续扮演核心角色。

从市场空间来看，全球智能体市场目前规模尚不大，但未来增速极高，5年CAGR预计可达91%。

不过上述预测偏向保守，尚未充分考虑智能体未来可能替代大量SaaS应用和软件外包开发所带来的增量空间。

从应用场景来看，Omdia对全球383个企业需求的统计显示，智能体应用的优先级分布如下：自动化工具降低成本（代码开发、智能流程自动化、文档处理、招聘）渗透率最高；其次是提升员工生产力；然后是增强客户互动（搜索引擎、智能CRM、广告投放、产品设计）；客户支持工作流（智能客服）已相对普及。

智能体能力在飞速提升。

AI的引入对整个软件工程全生命周期产生了颠覆性影响：传统的瀑布式开发演进为敏捷开发，如今则进一步发展为AI原生开发模式——一个小组加上智能体，就能发挥出过去一个完整团队的生产力。这正是OPC（One-Person Company，一人公司）概念的核心理念。

国内大厂也在同步演进：前端和后端开发人员组成混合小组，互相学习三个月，掌握开发逻辑、模型调优、结果审计、报告优化和工作流编排等AI时代的核心技能。

从全球趋势来看，存在两种截然不同的路线：设备端部署主要由海外玩家主导，国外用户开发能力较强，倾向于自行配置端口和保密策略；云端部署则是国内厂商和用户更倾向采用的方案，在自己的沙箱环境中运行，以便更好地控制安全和合规。

AI智能体自主完成任务的能力呈指数级增长（每两个月翻一倍）

百度智能体的两条路线：以百度为例，其技术布局较为领先。通用智能体覆盖直播、群聊、数字人等通用场景，具备多种内置技能，致力于打造生态级智能体；企业级智能体则针对垂类行业特殊场景构建，在金融领域的投研分析、审计等方向已持续布局。

SaaS会被替代吗？

今年年初（2026年年初）市场曾出现一波担忧：Anthropic发布了Claude Co-Work平台，微软、Salesforce等SaaS巨头股价一度受到冲击。但后来市场情绪平复，因为SaaS企业的真正护城河在于数据，而非软件本身。

不过，所有层级的厂商都在向上游索取价值。AI Factory正在布局基础设施，包括业务编排、版本管理等能力。NetApp的AI Data Engine、AWS的Bedrock AgentCore Gateway、Cohere的Command模型、Anthropic的Claude Co-Work——各大巨头之间的明争暗斗正在加速行业格局的重塑。

当前智能体尚不能完全替代SaaS，因为企业应用场景依然复杂，大量工作流需要定制化制定。尤其是OPC模式下的SOP（Standard Operating Procedure，标准操作流程）往往具有高度个性化特征，需要复杂的框架设计和工程实现。

Omdia对全球前30家提供数字服务的集团型公司进行了调研，智能体在企业级内部应用中的渗透率如下：

渗透率差异的背后有三个关键限制因素：一是概率与确定性的平衡，后台流程固定、确定性高的场景（如HR和财务）应用程度更高；二是内部闭环与外部商业分析的矛盾，供应链管理和采购需要大量外部市场信息输入，带来更多不确定性；三是内部API和数据准备，中国企业在这方面仍有较大提升空间。

05 DAA和AI工厂：智能体的价值底座

围绕从“消耗Token”到“创造价值”这个问题，百度提出了DAA（Daily Active Agents，日活智能体数）这一核心指标。

其核心理念是：聚焦价值创造，而非Token的消耗。Token只是成本侧的计量单位。DAA旨在揭示智能体对生产力的真实影响、生产系统的健康度，以及AI转型的趋势方向。Salesforce今年提出的AWU（Agentic Work Units，智能体工作单元），本质上也是基于类似逻辑——将AI的投入转化为可衡量的业务产出。

Token价值的评估面临多重挑战：任务产出可以预估，但成本本身呈非线性增长，需要持续进行费率优化；成本曲线肯定追不上生产力提升曲线，这中间存在质量盲区需要评估。

DAA衡量的是单日内为特定任务产生结果、协同流程、服务用户的活跃智能体数量。它一定是结果导向的，这与DAU（日活跃用户）有本质区别——一个人可能同时拥有多个智能体，每个智能体是否在“干活”才是需要统计的关键数据。

DAA的统计需要结合四个维度的指标，形成一个完整的评估链条：

在实际联合评估时，需要考虑多系统、多智能体的编排情况：有多少智能体在协作？用AWU与DA的比值可以衡量产出效率；Revenue和单智能体营收则体现最终的业务价值。

只有综合评估这四个维度，才能完整反映完成一项任务所需的Token消耗与所提供的实际价值之间的关系。

还有一个Token经济不得不提到的，便是AI工厂。

AI工厂是生产智能的新型重工业，是Token输出的重要底座。

这个底座可能是企业自建的小型数据中心或一体机，也可能是大型云厂商或中型智能计算中心改造后的设施。建设路径非常曲折，难度很大。

芯片供应与Token产出效能息息相关，这是贯穿整个产业链的逻辑链条。AI工厂本质上是一种新型重工业基础设施，其核心目标是生产智能。与传统工厂类似，它的运作逻辑包括三个环节：输入端（基础材料、基础数据、原始数据）、生产流（数据标注、模型后训练、评估与部署）、输出端（持续产生功能性智能服务）。

AI工厂正在将传统的业务支撑中心转变为数字化生产中心。

国内浪潮集团提出的一体机方案，就是这一理念的完整落地——提供从基础设施到应用层的全流程建设。

AI工厂目前分为四种形态：

以上就是我今天想跟大家分享的全部内容，感谢！

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。