在腾讯拆墙的人

智械岛科技领域创作者

2026-05-08 15:16

河北

出品 | 智械岛

作者 | 沈怀铮（上海）

马化腾说腾讯慢了，慢了9个月到1年，这话是年会上当着所有人的面说的。

刘炽平接着又补了一刀，说过去的混元是高中生背题，成绩单好看，上了考场就露馅。

慢了，是因为有墙。

模型和产品之间有墙，训模型的人不懂业务场景，做产品的人等不起迭代周期。

研发和工程之间有墙，研究归研究，落地归落地，两条线各跑各的。

混元团队和腾讯生态之间有墙，自家业务接入自家模型，比接入外部方案还费劲。

背题能刷出好看的成绩单，是因为考题是封闭的。而真实场景是开放的，墙不拆，模型永远走不进现实。

所以姚顺雨到了腾讯，做的第一件事不是把模型调得更快，是拆墙，先拆墙，再赶路。

拆墙本身就是一种慢，它不直接产生速度，只是在清除那些让速度无法持续的障碍。

马化腾说完慢88天后，Hy3 preview上线，不到三个月，姚顺雨把一个自家业务都不敢接的混元，重新捏成了一个能用的东西。

一、自家模型，坐不上自家的主桌

姚顺雨到腾讯做的第一件事，是查问题。

晚点报道过，这位新任首席AI科学家和同事、实习生聊到深夜，一个模块一个模块地排查混元长期表现不佳的原因，然后把诊断结果直接报给了刘炽平。

那段时间，混元在腾讯内部的位置可以用一句话概括：自家业务都坐不上主桌。

微信、游戏、广告、企服，都需要AI能力，但混元接不住；一些核心业务宁可绕开自研模型，自己找方案。

一个大厂自研的模型，在自己家里当客人，这道墙比任何跑分都更致命。

姚顺雨到任后，先拆了离地基最近的那面墙：数据。

过去混元的SFT数据没有去重，重复、冗余的数据能到上千万条。工期一紧，数据审核就被排到最后。

姚顺雨拉起一个20多人的预训练数据团队，专做最脏最累的数据审核，几个月把冗余数据控制在一万多条。

然后是Infra，姚顺雨主导重建了强化学习管线，让万卡集群能稳定跑起来。

同期，成立十年的腾讯AI Lab被撤销，核心人员并入混元，统一汇报。

AI Lab曾是腾讯AI体系里独立于混元的存在，研究归研究，产品归产品，两套体系各自运行。

这面组织墙存在了十年，姚顺雨直接拆了。

二、所有人都在冲榜，

姚顺雨在问模型到底学会了没有

Hy3 preview发布那天，行业正处在一轮密集交卷的高潮。前有阿里、Kimi、小米，后有GPT-5.5和DeepSeek V4。

一个295B的模型被扔进这个池子，几乎听不见水花。

但有一个动作被很多人忽略了：发布前，CL-bench论文先放了出来。这篇论文测的是上下文学习能力，最好模型的解题率只有23.7%，核心短板不在“读不全、找不到”，而在“学不会、用不对、执行不了”。

这是一个被行业长期回避的问题。上下文窗口越做越长，大海捞针测试接近满分，但一进真实场景就掉链子。

姚顺雨的判断是：这个问题不解决，Agent永远只能是demo。

所以Hy3 preview的首个动作，就是把“上下文学习和指令遵循”写进了核心能力清单第一条。

没追SWE-Bench Verified，没追Terminal-Bench 2.0。放出来的是AdvancedIF、AA-LCR和自己搞的CL-bench。

这是姚顺雨做研究的底层逻辑，ReAct在探索推理和行动怎么协同，CL-bench在追问模型能不能从上下文里真学会点什么，Hy3 preview是这两个方向在产品上的第一次合拢。

当行业在追热点，这个人在追问题本身。

三、能做，但还不够稳

Hy3 preview是1月底开训、4月上线的，不到三个月，从零到可用。

不是参数的魔法，是重建了预训练和强化学习的整套基础设施。用腾讯内部的话说，混元团队在过去几个月做的事情，比过去两年加起来都重。

但Preview终究是Preview，代码能力大致追到智谱去年12月的水平，差了约四个月。

在WorkBuddy上实测，能稳跑495步的复杂工作流，但换个场景，抓金融数据、算相关性、写资产配置报告，就会在数据获取阶段反复碰壁，最后交出来的分析只有几行要点，不是成文的段落。

腾讯内部对这版模型的定位是“混元重建的第一步”。

注意这个措辞，不是追赶的一步，不是超越的一步，是重建的第一步。姚顺雨说希望通过开源自社区拿真实反馈，帮正式版提升实用性。

混元定下的三条原则里，有一条叫“评测真实性”：跳出容易被刷榜的公开数据集，自建50多套内部评测，用真实考题、人工评测、产品众测来验证。

翻译过来就是：别再背题了，去真实世界做事。

四、知道差多少，所以不装

很多人拿Hy3 preview和DeepSeek V4比。这种比较对姚顺雨其实不公平。

V4是在已经跑通的体系上做极限突破，不急着商业化，专注向上捅天花板。Hy3 preview是推倒重来，在废墟上先搭一个能用的框架。二者不在一个阶段。

但有一点值得比。DeepSeek开源，坦诚得要命，技术报告里直接写“落后GPT-5.4三到六个月”。姚顺雨这次也开源了Hy3 preview，在国产厂商纷纷闭源的当口，说的是拿真实反馈，磨实用能力。

潜台词是：知道还差多少，所以不装。

今年1月的AGI-Next峰会上，姚顺雨说生产力Agent才刚刚开始，即使今天所有模型训练都停止，把现有模型部署到企业里，已经能带来10倍甚至100倍的收益。

真正的战场不在训练端，在落地端。

腾讯手里有中国最大的社交生态、最多的用户触点、最密的产品矩阵。但这些牌要打得出来，地基得先搭稳。

姚顺雨三个月搭了一个预览版的地基，证明了一件事：腾讯的AI能干真活了。

至于能干到什么份上，Hy3 preview给不了答案。

墙拆完以后，考验才真正开始。腾讯内部的墙姚顺雨拆得动，但还有一些墙不在手上。

行业进度不等人，竞争对手不减速，市场耐心有限度。

Hy3 preview只证明了方法论通了，新团队能打仗了，重建方向是对的。更大的模型还在训，正式版才是这套方法论能不能站住的第一场硬仗。

五、结语

姚顺雨说过，自己最喜欢的工作是ReAct。

那个框架的核心逻辑是：推理完就行动，行动完再观察，观察完再推理，一个不停歇的循环。

现在他就卡在这个循环里，交了一个预览版的答卷。

接下来是观察，拿开源社区的反馈，腾讯业务的实测数据，看哪里裂了、哪里歪了，再进行下一轮推理和行动。

27岁，执掌一个大厂的AI命脉。外界看到的是光环，姚顺雨面对的却是墙。

旧的墙拆了，新的墙还会长出来。组织有惯性，文化有惰性，大厂尤其如此。

拆墙不是一次性的事。一个人，对着一个千亿帝国的内部结构，只能一堵一堵地拆。

而拆墙这件事，从来不在某个版本号里宣告完工。

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。