Omdia詹墨磊:Token经济时代,智能体才是产业胜负手

2026-06-30 12:26
北京

本文来自微信公众号:潮涌AI(ichaoyongai)。

无论是在海外,还是在国内,有关巨头收紧了内部AI Token消耗指标的消息层出不穷,毫无疑问,企业们已经要集体开始算Token账了——Token到底花了多少钱,这些钱换回了什么?更高的Token消耗,真的换来了同比例更多的、对用户真正有用的功能吗?

为此,2026年6月26日,在中关村朝阳园管委会(区科信局)、北京市朝阳区人才工作局指导之下,由潮涌AI与O-hub举办的“潮涌之界系列沙龙暨ITEC2026 OPC人才赛之Token经济专场”在北京数字人基地举行,活动以“狂烧Token之后,你的公司真的赚到钱了吗?”为主题,邀请了多位业内人士,共话Token经济的发现新周期。

其中,Omdia数据集团高级首席分析师詹墨磊发表了《数字经济时代的智能体效能计量》主题分享,给出了有关Token经济时代的新认知与新思辨。

以下为詹墨磊分享实录,经潮涌AI整理:

大家下午好,很高兴能有这个机会跟大家分享Omdia对于Token,以及中国智能体技术趋势的一些观察和思考。

先简单介绍我的个人背景和任职公司。我之前在百度智能云,负责产业科技研究院的行业洞察、研究分析以及战略运营。去年加入了Omdia数据集团,这是一家覆盖全球云计算和AI全领域的国际化研究机构。

今天分享的主题是“数字经济时代的智能体效能计量”,也顺势对应了百度前段时间提出的DAA(Daily Active Agents,日活智能体数)概念。

这一指标试图回答一个核心问题:当AI从“对话”走向“做事”,我们该如何衡量智能体创造的真实价值?

01 Token经济时代,两种用大模型的逻辑

在这个主题之下,目前业界存在两种截然不同的大模型使用理念。也许大家在日常工作中已经有所体会。

直接用模型:第一种是纯粹调用API,或者在对话框里直接使用大模型。

用智能体:第二种是构建一套复杂的逻辑链和工作流,让智能体去完成任务。

这两种模式在全球范围内都广泛存在。

值得注意的是第一种情况:今年年初,OpenAI将原本属于智能体的多项能力内化到了模型本身之中。这意味着头部大模型厂商正在不断向上游延展自身能力边界,持续提升基础模型的原生能力。

一部分从业者认为,直接用模型就足够了;另一部分则认为,必须构建复杂的工作流,让智能体更贴近企业或个人的实际业务需求。

目前看来,这两种理念形成了明显的分化。

在中国,前段时间掠起的智能体热潮让许多人开始“疯狂烧Token”。不同企业消耗的Token金额参差不齐,但全球范围内都已经形成了这种意识——智能体正在从概念验证走向规模化应用。

02 Token越用越贵?表面降价,实则消耗暴涨

很多人有个错觉:Token单价一直在降,用AI应该越来越便宜吧?

确实,从全球范围来看,Token单价呈现持续下降趋势。

以GPT-4o为例,2024年时的价格约为每百万Token 60美元,到如今已下降约95%。这是大家能直观看到的表面现象。

语言模型推理价格随时间变化趋势 数据来源:Artificial Analysis

但更深层的矛盾在于:单个用户席位创造的价值,与Token消耗的积极程度之间,会形成一道“剪刀差”——也就是价值增长与成本膨胀之间的差距。这个gap若不加控制,会逐渐吞噬掉AI应用本应带来的收益。

AI商业模式经济压力分析——订阅模式与Token成本之间的矛盾

实际情况是:在市场竞争和大厂推动下,单Token成本确实在下降,但完成一个任务所需的整体Token价值却在上涨。与此同时,海量工作负载带来了更多的Token消耗。说白了,Token便宜了,但用的量大了,总价反而上去了。

大型企业越来越依赖智能体,通过私有化部署来解决复杂的业务问题。企业内部有大量数据并不对外公开,而是沉淀在自有知识库中。再加上每个企业的业务场景和工作流程各不相同,因此,企业在使用AI时,更倾向于私有化部署应用系统,再调用大模型能力。这种模式下,Token的消耗量往往远超个人用户的简单对话。

从全球统计数据来看,三种典型场景的Token消耗差异巨大:

一次智能体任务的消耗,是一次简单对话的近1000倍。

全球日均Token生成量方面,2025年已达到约442万亿个。如果按此增速推算,到2030年将达到约1.87亿亿个,未来5年增长约42倍,对应的年化复合增长率(CAGR)约为85.7%。当然,如此高速的增长必须与实际产出挂钩来衡量,这也正是本次沙龙举办的意义所在。

03 怎么算ROI,怎么省Token

Token成本持续上升,ROI(投资回报率)的计算就变得尤为关键。ROI的本质是价值除以成本。成本端是Token消耗,那么价值端是什么?

很多人认为价值等于直接带来的营收,但实际上还包括替代人工所节省的成本等。

当前企业使用大模型,核心诉求集中在两个方面:提效和降本。

提效方面:替代人工完成重复性任务,减少开发过程中的bug,降低应用流程中的工作流错误,提升项目交付速度。据统计,中国利用AI大模型直接生成APP的能力较去年提升了近一倍。

降本方面:每一块GPU显卡带来的收益价值,在不同场景下有显著差异:

各场景Token ROI行业基准区间

有了ROI的感知之后,业界普遍在思考如何优化Token的使用效率。从技术层面来看,有四条主要的优化路径:

1. Prompt加速优化:精简指令和上下文,去除冗余填充词,降低无效Token消耗。

2. 语义缓存:将通用、高频使用的内容预置到缓存中,提升服务响应速度并减少重复调用。

3. RAG精炼:通过精准检索,确保模型只处理最相关的知识片段,避免无关信息的Token浪费。

4. 模型能力升级:全球各大云厂商持续优化模型架构。以AWS为例,其提出的意图前置架构——先理解用户意图,再匹配最合适的模型——虽然能有效提升效率,但在复杂多变的企业场景中仍面临挑战。

Token消耗效率优化路径——四阶段优化可节省约60%

由于企业场景多变,选择合适的模型至关重要。

从当前主流大模型的能力分布来看:

GPT和Mistral在综合任务中表现优秀;长文本处理方面,Claude和Gemini具备明显优势;中文场景下,国内大模型(如文心一言、通义千问等)的表现更为出色;多模态任务和长文本任务也有各自的优选模型。

没有一个模型能在所有benchmark上全面领先,每个模型都有自己的“一技之长”。企业需要根据实际业务场景的需求来选择最合适的大模型,而非盲目追求某一模型的全面部署。

主流大语言模型任务适配能力矩阵(2025Q4)

04 智能体:未来2-3年的关键战场

当前,智能体已成为大模型应用落地的关键决胜因素,预计在未来2-3年内将持续扮演核心角色。

从市场空间来看,全球智能体市场目前规模尚不大,但未来增速极高,5年CAGR预计可达91%。

不过上述预测偏向保守,尚未充分考虑智能体未来可能替代大量SaaS应用和软件外包开发所带来的增量空间。

从应用场景来看,Omdia对全球383个企业需求的统计显示,智能体应用的优先级分布如下:自动化工具降低成本(代码开发、智能流程自动化、文档处理、招聘)渗透率最高;其次是提升员工生产力;然后是增强客户互动(搜索引擎、智能CRM、广告投放、产品设计);客户支持工作流(智能客服)已相对普及。

智能体能力在飞速提升。

AI的引入对整个软件工程全生命周期产生了颠覆性影响:传统的瀑布式开发演进为敏捷开发,如今则进一步发展为AI原生开发模式——一个小组加上智能体,就能发挥出过去一个完整团队的生产力。这正是OPC(One-Person Company,一人公司)概念的核心理念。

国内大厂也在同步演进:前端和后端开发人员组成混合小组,互相学习三个月,掌握开发逻辑、模型调优、结果审计、报告优化和工作流编排等AI时代的核心技能。

从全球趋势来看,存在两种截然不同的路线:设备端部署主要由海外玩家主导,国外用户开发能力较强,倾向于自行配置端口和保密策略;云端部署则是国内厂商和用户更倾向采用的方案,在自己的沙箱环境中运行,以便更好地控制安全和合规。

AI智能体自主完成任务的能力呈指数级增长(每两个月翻一倍)

百度智能体的两条路线:以百度为例,其技术布局较为领先。通用智能体覆盖直播、群聊、数字人等通用场景,具备多种内置技能,致力于打造生态级智能体;企业级智能体则针对垂类行业特殊场景构建,在金融领域的投研分析、审计等方向已持续布局。

SaaS会被替代吗?

今年年初(2026年年初)市场曾出现一波担忧:Anthropic发布了Claude Co-Work平台,微软、Salesforce等SaaS巨头股价一度受到冲击。但后来市场情绪平复,因为SaaS企业的真正护城河在于数据,而非软件本身。

不过,所有层级的厂商都在向上游索取价值。AI Factory正在布局基础设施,包括业务编排、版本管理等能力。NetApp的AI Data Engine、AWS的Bedrock AgentCore Gateway、Cohere的Command模型、Anthropic的Claude Co-Work——各大巨头之间的明争暗斗正在加速行业格局的重塑。

当前智能体尚不能完全替代SaaS,因为企业应用场景依然复杂,大量工作流需要定制化制定。尤其是OPC模式下的SOP(Standard Operating Procedure,标准操作流程)往往具有高度个性化特征,需要复杂的框架设计和工程实现。

Omdia对全球前30家提供数字服务的集团型公司进行了调研,智能体在企业级内部应用中的渗透率如下:

渗透率差异的背后有三个关键限制因素:一是概率与确定性的平衡,后台流程固定、确定性高的场景(如HR和财务)应用程度更高;二是内部闭环与外部商业分析的矛盾,供应链管理和采购需要大量外部市场信息输入,带来更多不确定性;三是内部API和数据准备,中国企业在这方面仍有较大提升空间。

05 DAA和AI工厂:智能体的价值底座

围绕从“消耗Token”到“创造价值”这个问题,百度提出了DAA(Daily Active Agents,日活智能体数)这一核心指标。

其核心理念是:聚焦价值创造,而非Token的消耗。Token只是成本侧的计量单位。DAA旨在揭示智能体对生产力的真实影响、生产系统的健康度,以及AI转型的趋势方向。Salesforce今年提出的AWU(Agentic Work Units,智能体工作单元),本质上也是基于类似逻辑——将AI的投入转化为可衡量的业务产出。

Token价值的评估面临多重挑战:任务产出可以预估,但成本本身呈非线性增长,需要持续进行费率优化;成本曲线肯定追不上生产力提升曲线,这中间存在质量盲区需要评估。

DAA衡量的是单日内为特定任务产生结果、协同流程、服务用户的活跃智能体数量。它一定是结果导向的,这与DAU(日活跃用户)有本质区别——一个人可能同时拥有多个智能体,每个智能体是否在“干活”才是需要统计的关键数据。

DAA的统计需要结合四个维度的指标,形成一个完整的评估链条:

在实际联合评估时,需要考虑多系统、多智能体的编排情况:有多少智能体在协作?用AWU与DA的比值可以衡量产出效率;Revenue和单智能体营收则体现最终的业务价值。

只有综合评估这四个维度,才能完整反映完成一项任务所需的Token消耗与所提供的实际价值之间的关系。

还有一个Token经济不得不提到的,便是AI工厂。

AI工厂是生产智能的新型重工业,是Token输出的重要底座。

这个底座可能是企业自建的小型数据中心或一体机,也可能是大型云厂商或中型智能计算中心改造后的设施。建设路径非常曲折,难度很大。

芯片供应与Token产出效能息息相关,这是贯穿整个产业链的逻辑链条。AI工厂本质上是一种新型重工业基础设施,其核心目标是生产智能。与传统工厂类似,它的运作逻辑包括三个环节:输入端(基础材料、基础数据、原始数据)、生产流(数据标注、模型后训练、评估与部署)、输出端(持续产生功能性智能服务)。

AI工厂正在将传统的业务支撑中心转变为数字化生产中心。

国内浪潮集团提出的一体机方案,就是这一理念的完整落地——提供从基础设施到应用层的全流程建设。

AI工厂目前分为四种形态:

以上就是我今天想跟大家分享的全部内容,感谢!

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。