在腾讯拆墙的人

2026-05-08 15:16
河北

出品 | 智械岛

作者 | 沈怀铮(上海)

马化腾说腾讯慢了,慢了9个月到1年,这话是年会上当着所有人的面说的。

刘炽平接着又补了一刀,说过去的混元是高中生背题,成绩单好看,上了考场就露馅。

慢了,是因为有墙。

模型和产品之间有墙,训模型的人不懂业务场景,做产品的人等不起迭代周期。

研发和工程之间有墙,研究归研究,落地归落地,两条线各跑各的。

混元团队和腾讯生态之间有墙,自家业务接入自家模型,比接入外部方案还费劲。

背题能刷出好看的成绩单,是因为考题是封闭的。而真实场景是开放的,墙不拆,模型永远走不进现实。

所以姚顺雨到了腾讯,做的第一件事不是把模型调得更快,是拆墙,先拆墙,再赶路。

拆墙本身就是一种慢,它不直接产生速度,只是在清除那些让速度无法持续的障碍。

马化腾说完慢88天后,Hy3 preview上线,不到三个月,姚顺雨把一个自家业务都不敢接的混元,重新捏成了一个能用的东西。

一、自家模型,坐不上自家的主桌

姚顺雨到腾讯做的第一件事,是查问题。

晚点报道过,这位新任首席AI科学家和同事、实习生聊到深夜,一个模块一个模块地排查混元长期表现不佳的原因,然后把诊断结果直接报给了刘炽平。

那段时间,混元在腾讯内部的位置可以用一句话概括:自家业务都坐不上主桌。

微信、游戏、广告、企服,都需要AI能力,但混元接不住;一些核心业务宁可绕开自研模型,自己找方案。

一个大厂自研的模型,在自己家里当客人,这道墙比任何跑分都更致命。

姚顺雨到任后,先拆了离地基最近的那面墙:数据。

过去混元的SFT数据没有去重,重复、冗余的数据能到上千万条。工期一紧,数据审核就被排到最后。

姚顺雨拉起一个20多人的预训练数据团队,专做最脏最累的数据审核,几个月把冗余数据控制在一万多条。

然后是Infra,姚顺雨主导重建了强化学习管线,让万卡集群能稳定跑起来。

同期,成立十年的腾讯AI Lab被撤销,核心人员并入混元,统一汇报。

AI Lab曾是腾讯AI体系里独立于混元的存在,研究归研究,产品归产品,两套体系各自运行。

这面组织墙存在了十年,姚顺雨直接拆了。

二、所有人都在冲榜,

姚顺雨在问模型到底学会了没有

Hy3 preview发布那天,行业正处在一轮密集交卷的高潮。前有阿里、Kimi、小米,后有GPT-5.5和DeepSeek V4。

一个295B的模型被扔进这个池子,几乎听不见水花。

但有一个动作被很多人忽略了:发布前,CL-bench论文先放了出来。这篇论文测的是上下文学习能力,最好模型的解题率只有23.7%,核心短板不在“读不全、找不到”,而在“学不会、用不对、执行不了”。

这是一个被行业长期回避的问题。上下文窗口越做越长,大海捞针测试接近满分,但一进真实场景就掉链子。

姚顺雨的判断是:这个问题不解决,Agent永远只能是demo。

所以Hy3 preview的首个动作,就是把“上下文学习和指令遵循”写进了核心能力清单第一条。

没追SWE-Bench Verified,没追Terminal-Bench 2.0。放出来的是AdvancedIF、AA-LCR和自己搞的CL-bench。

这是姚顺雨做研究的底层逻辑,ReAct在探索推理和行动怎么协同,CL-bench在追问模型能不能从上下文里真学会点什么,Hy3 preview是这两个方向在产品上的第一次合拢。

当行业在追热点,这个人在追问题本身。

三、能做,但还不够稳

Hy3 preview是1月底开训、4月上线的,不到三个月,从零到可用。

不是参数的魔法,是重建了预训练和强化学习的整套基础设施。用腾讯内部的话说,混元团队在过去几个月做的事情,比过去两年加起来都重。

但Preview终究是Preview,代码能力大致追到智谱去年12月的水平,差了约四个月。

在WorkBuddy上实测,能稳跑495步的复杂工作流,但换个场景,抓金融数据、算相关性、写资产配置报告,就会在数据获取阶段反复碰壁,最后交出来的分析只有几行要点,不是成文的段落。

腾讯内部对这版模型的定位是“混元重建的第一步”。

注意这个措辞,不是追赶的一步,不是超越的一步,是重建的第一步。姚顺雨说希望通过开源自社区拿真实反馈,帮正式版提升实用性。

混元定下的三条原则里,有一条叫“评测真实性”:跳出容易被刷榜的公开数据集,自建50多套内部评测,用真实考题、人工评测、产品众测来验证。

翻译过来就是:别再背题了,去真实世界做事。

四、知道差多少,所以不装

很多人拿Hy3 preview和DeepSeek V4比。这种比较对姚顺雨其实不公平。

V4是在已经跑通的体系上做极限突破,不急着商业化,专注向上捅天花板。Hy3 preview是推倒重来,在废墟上先搭一个能用的框架。二者不在一个阶段。

但有一点值得比。DeepSeek开源,坦诚得要命,技术报告里直接写“落后GPT-5.4三到六个月”。姚顺雨这次也开源了Hy3 preview,在国产厂商纷纷闭源的当口,说的是拿真实反馈,磨实用能力。

潜台词是:知道还差多少,所以不装。

今年1月的AGI-Next峰会上,姚顺雨说生产力Agent才刚刚开始,即使今天所有模型训练都停止,把现有模型部署到企业里,已经能带来10倍甚至100倍的收益。

真正的战场不在训练端,在落地端。

腾讯手里有中国最大的社交生态、最多的用户触点、最密的产品矩阵。但这些牌要打得出来,地基得先搭稳。

姚顺雨三个月搭了一个预览版的地基,证明了一件事:腾讯的AI能干真活了。

至于能干到什么份上,Hy3 preview给不了答案。

墙拆完以后,考验才真正开始。腾讯内部的墙姚顺雨拆得动,但还有一些墙不在手上。

行业进度不等人,竞争对手不减速,市场耐心有限度。

Hy3 preview只证明了方法论通了,新团队能打仗了,重建方向是对的。更大的模型还在训,正式版才是这套方法论能不能站住的第一场硬仗。

五、结语

姚顺雨说过,自己最喜欢的工作是ReAct。

那个框架的核心逻辑是:推理完就行动,行动完再观察,观察完再推理,一个不停歇的循环。

现在他就卡在这个循环里,交了一个预览版的答卷。

接下来是观察,拿开源社区的反馈,腾讯业务的实测数据,看哪里裂了、哪里歪了,再进行下一轮推理和行动。

27岁,执掌一个大厂的AI命脉。外界看到的是光环,姚顺雨面对的却是墙。

旧的墙拆了,新的墙还会长出来。组织有惯性,文化有惰性,大厂尤其如此。

拆墙不是一次性的事。一个人,对着一个千亿帝国的内部结构,只能一堵一堵地拆。

而拆墙这件事,从来不在某个版本号里宣告完工。

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。