具身智能为何难现 “ChatGPT 时刻” ：模型训练无统一范式，数据质量良莠不齐

澎湃新闻记者喻琰

2026-06-15 07:15

来源：澎湃新闻

具身智能当下的热度与其发展成熟度并不匹配，机器人的“ChatGPT时刻”还远未到来，其中制约模型发展的数据问题更是“老大难”。

6月13日，在2026北京智源大会“具身智能与人形机器人”圆桌论坛上，参与讨论的嘉宾一致认为，目前具身智能在模型、数据和商业闭环方面均处于早期探索阶段。

2026北京智源大会“具身智能与人形机器人”圆桌论坛。直播截图

模型训练范式远未收敛

具身模型是今年以来的热门话题。北京大学计算机学院长聘副教授、智在无界（BeingBeyond）创始人卢宗青指出，当前具身基础模型的训练范式尚未形成共识。与大语言模型已确立行业公认的技术路线不同，具身智能尚未构建出类似的成熟路径，预训练后如何通过后训练实现模型的泛化能力，仍是核心挑战。尽管数据层面可探讨真实数据与仿真数据的配比，但“如何训练模型”本身尚未形成公认范式。

具身智能预训练阶段究竟需要何种数据？什么样的数据适配具身模型？需要场景化数据还是通用化数据？

上海创智学院副教授、智元机器人首席科学家罗剑岚认为，具身智能预训练阶段“各类数据都不可或缺”，其中真实世界数据应作为基础。因为真实世界数据能强化模型对物理世界的底层理解——基础模型越强大，处理其他数据的能力也会随之提升。

它石智航联合创始人兼首席科学家、复旦大学青年研究员丁文超则指出，当前具身行业严重低估了一个关键指标：数据效率（Data efficiency），即单位数据对智能提升的贡献。

丁文超表示，行业讨论数据时，往往聚焦于数据量、多样性、任务覆盖和场景覆盖，但更重要的是每类数据对模型能力的具体提升效果。“不能仅将数据输入模型，或在闭环实验中看到模糊的泛化能力，而应系统刻画数据对模型能力提升的贡献。”在他看来，判断数据是否有效，关键看模型吸收后，其泛化效果能否超越人类——“要看泛化能力是否超过人类，而非关注Demo中四倍速、五倍速执行任务等表面现象。”

低质量无效数据的困扰

数据质量也是圆桌讨论的焦点话题。当前具身智能行业数据缺口巨大，但数据采集供应商提供的数据质量参差不齐，低质量数据、无效数据等问题困扰着与会嘉宾。

银河通用的王鹤结合内部实践举例：当前市场上的第一人称视角数据（ego-centric data），很多供应商依赖开源算法完成基础标注后直接对外销售，银河通用每次都需对数据进行系统性质检，“数据质量良莠不齐，高质量数据非常少。”

卢宗青也表达了类似困扰：数据供应商质量参差不齐，多数采用“按需采集”模式，但模型公司真正需要的是多样化的存量数据，而非过于特定的数据。“尤其是第一人称视角数据走红后，部分供应商连文本标注、动作标注的标准都未统一，甚至反过来向模型公司询问标注方法。”

丁文超认为，模态越多，数据采集越复杂。许多无本体数据采集设备未经训练管线验证，仅从形态和配置即可判断其数据难以真正用于训练。他提出，未来数据将形成金字塔结构：互联网视频和低成本第一视角数据会越来越廉价，价值持续降低；中间层是包含精确末端动作、触觉等信息的数据；塔尖则是高质量遥操作数据。真正有价值的不仅是数据数量，更是数据系统中的每个细节。

创业公司如何突围

在大众频繁讨论具身智能、机器人距离“ChatGPT时刻”还有多远之前，王鹤认为，首先需要明确具身智能（Embodied AI）的“ChatGPT时刻”定义。

他给出的定义是：机器人能在真实场景中，将人类无需专门学习的技能以70%至80%的成功率完成，同时具备良好的可部署性。这包含两个具体指标：判断标准有二：一是能力（Capability），即机器人需具备相对通用的任务执行能力；二是可部署性（Accessibility），即这种能力要足够易用、便于落地。

王鹤判断，若未来两三年内这两个关键问题取得突破，行业出货量有望在2028年底前后迎来增长。不过，这种增长将率先出现在B端场景，而非直接进入C端家庭。即便如此，从轮式机器人到全人形机器人、从传统夹爪到灵巧手的技术演进，仍意味着行业还有很长的路要走。

“未来24个月，具身智能行业面临的核心问题是：预训练技术与支持快速部署的后训练能否取得突破，让机器人真正实现自主作业，而非停留在‘卖跑跳功能’‘卖预编程表演’的阶段。只有当数万台具备自主工作能力的机器人投入应用，才能标志着行业进入新的发展阶段。”王鹤表示。

王鹤认为，长远来看，具身智能必然会形成完整产业链，不可能由一家或几家公司垄断全部市场。但在迎来“ChatGPT时刻”之前，构建闭环至关重要。初创企业若想在当前阶段突围，必须以快制胜——对于硬件中其他企业难以做好的部分，必须纳入自身技术闭环自主掌控，否则依赖外部供给只会拖慢发展节奏。

罗剑岚也指出，当前硬件虽非完美，但已足以支撑特定几类任务的闭环运行。相比之下，数据闭环、模型闭环以及持续迭代的数据飞轮更为关键。他判断，未来半年至18个月内，谁能在有限但非完全封闭的半开放场景中率先跑通首个闭环，将成为决定竞争格局的重要因素。这个闭环无需覆盖所有场景，但需能在真实环境中持续运行、采集数据并优化模型。

丁文超则强调，模型、数据与本体之间需要系统化优化，硬件、本体与人类数据（human data）也需实现对齐。“许多真正影响机器人执行效果的关键因素，往往隐藏在大语言模型（VLA）、世界模型（World model）等高端概念背后，比如末端传感器配置、硬件形态设计、数据采集方式、模型推理效率与吞吐能力等细节。”

责任编辑：宦艳红

图片编辑：李晶昀