具身智能为何难现 “ChatGPT 时刻” :模型训练无统一范式,数据质量良莠不齐

澎湃新闻记者 喻琰
2026-06-15 07:15
来源:澎湃新闻

具身智能当下的热度与其发展成熟度并不匹配,机器人的“ChatGPT时刻”还远未到来,其中制约模型发展的数据问题更是“老大难”。

6月13日,在2026北京智源大会“具身智能与人形机器人”圆桌论坛上,参与讨论的嘉宾一致认为,目前具身智能在模型、数据和商业闭环方面均处于早期探索阶段。

2026北京智源大会“具身智能与人形机器人”圆桌论坛。直播截图

模型训练范式远未收敛

具身模型是今年以来的热门话题。北京大学计算机学院长聘副教授、智在无界(BeingBeyond)创始人卢宗青指出,当前具身基础模型的训练范式尚未形成共识。与大语言模型已确立行业公认的技术路线不同,具身智能尚未构建出类似的成熟路径,预训练后如何通过后训练实现模型的泛化能力,仍是核心挑战。尽管数据层面可探讨真实数据与仿真数据的配比,但“如何训练模型”本身尚未形成公认范式。

具身智能预训练阶段究竟需要何种数据?什么样的数据适配具身模型?需要场景化数据还是通用化数据?

上海创智学院副教授、智元机器人首席科学家罗剑岚认为,具身智能预训练阶段“各类数据都不可或缺”,其中真实世界数据应作为基础。因为真实世界数据能强化模型对物理世界的底层理解——基础模型越强大,处理其他数据的能力也会随之提升。

它石智航联合创始人兼首席科学家、复旦大学青年研究员丁文超则指出,当前具身行业严重低估了一个关键指标:数据效率(Data efficiency),即单位数据对智能提升的贡献。

丁文超表示,行业讨论数据时,往往聚焦于数据量、多样性、任务覆盖和场景覆盖,但更重要的是每类数据对模型能力的具体提升效果。“不能仅将数据输入模型,或在闭环实验中看到模糊的泛化能力,而应系统刻画数据对模型能力提升的贡献。”在他看来,判断数据是否有效,关键看模型吸收后,其泛化效果能否超越人类——“要看泛化能力是否超过人类,而非关注Demo中四倍速、五倍速执行任务等表面现象。”

低质量无效数据的困扰

数据质量也是圆桌讨论的焦点话题。当前具身智能行业数据缺口巨大,但数据采集供应商提供的数据质量参差不齐,低质量数据、无效数据等问题困扰着与会嘉宾。

银河通用的王鹤结合内部实践举例:当前市场上的第一人称视角数据(ego-centric data),很多供应商依赖开源算法完成基础标注后直接对外销售,银河通用每次都需对数据进行系统性质检,“数据质量良莠不齐,高质量数据非常少。”

卢宗青也表达了类似困扰:数据供应商质量参差不齐,多数采用“按需采集”模式,但模型公司真正需要的是多样化的存量数据,而非过于特定的数据。“尤其是第一人称视角数据走红后,部分供应商连文本标注、动作标注的标准都未统一,甚至反过来向模型公司询问标注方法。”

丁文超认为,模态越多,数据采集越复杂。许多无本体数据采集设备未经训练管线验证,仅从形态和配置即可判断其数据难以真正用于训练。他提出,未来数据将形成金字塔结构:互联网视频和低成本第一视角数据会越来越廉价,价值持续降低;中间层是包含精确末端动作、触觉等信息的数据;塔尖则是高质量遥操作数据。真正有价值的不仅是数据数量,更是数据系统中的每个细节。

创业公司如何突围

在大众频繁讨论具身智能、机器人距离“ChatGPT时刻”还有多远之前,王鹤认为,首先需要明确具身智能(Embodied AI)的“ChatGPT时刻”定义。

他给出的定义是:机器人能在真实场景中,将人类无需专门学习的技能以70%至80%的成功率完成,同时具备良好的可部署性。这包含两个具体指标:判断标准有二:一是能力(Capability),即机器人需具备相对通用的任务执行能力;二是可部署性(Accessibility),即这种能力要足够易用、便于落地。

王鹤判断,若未来两三年内这两个关键问题取得突破,行业出货量有望在2028年底前后迎来增长。不过,这种增长将率先出现在B端场景,而非直接进入C端家庭。即便如此,从轮式机器人到全人形机器人、从传统夹爪到灵巧手的技术演进,仍意味着行业还有很长的路要走。

“未来24个月,具身智能行业面临的核心问题是:预训练技术与支持快速部署的后训练能否取得突破,让机器人真正实现自主作业,而非停留在‘卖跑跳功能’‘卖预编程表演’的阶段。只有当数万台具备自主工作能力的机器人投入应用,才能标志着行业进入新的发展阶段。”王鹤表示。

王鹤认为,长远来看,具身智能必然会形成完整产业链,不可能由一家或几家公司垄断全部市场。但在迎来“ChatGPT时刻”之前,构建闭环至关重要。初创企业若想在当前阶段突围,必须以快制胜——对于硬件中其他企业难以做好的部分,必须纳入自身技术闭环自主掌控,否则依赖外部供给只会拖慢发展节奏。

罗剑岚也指出,当前硬件虽非完美,但已足以支撑特定几类任务的闭环运行。相比之下,数据闭环、模型闭环以及持续迭代的数据飞轮更为关键。他判断,未来半年至18个月内,谁能在有限但非完全封闭的半开放场景中率先跑通首个闭环,将成为决定竞争格局的重要因素。这个闭环无需覆盖所有场景,但需能在真实环境中持续运行、采集数据并优化模型。

丁文超则强调,模型、数据与本体之间需要系统化优化,硬件、本体与人类数据(human data)也需实现对齐。“许多真正影响机器人执行效果的关键因素,往往隐藏在大语言模型(VLA)、世界模型(World model)等高端概念背后,比如末端传感器配置、硬件形态设计、数据采集方式、模型推理效率与吞吐能力等细节。”

    责任编辑:宦艳红
    图片编辑:李晶昀