百万真机数据只是杯水车薪,数据匮乏成为具身智能行业困境

澎湃新闻记者 喻琰 实习生 江雅雯
2025-01-20 07:56
来源:澎湃新闻

·目前具身智能领域正处在类似于从GPT-1到GPT-2的过渡阶段,连最基础的物理世界的数据都还十分匮乏。遥操作方式获取的数据成本过于高昂且采集效率低,导致行业内很难获取。除了缺乏高质量数据,徐良威认为,具身智能数据服务行业内面临的首要难题是缺乏统一的数据集定义标准。

过去的一年,具身智能、人形机器人引发的关注与日俱增,但喧嚣过后,这一行业的发展也正面临着艰巨的挑战,其中训练具身智能大模型所需要的高质量数据在哪的问题成为眼下行业的一大共同的困扰。

日前,上海机器人初创公司智元机器人正式开源百万真机数据集AgiBot World使得数据缺乏问题再次被提起。智元机器人联合创始人、首席技术官彭志辉(网名为“稚晖君”)表示,在具身智能领域,真机数据的采集成本和门槛非常高,此次开源希望众多科研团队基于真实数据进行具身智能算法的训练,加速技术创新和产品应用。但在业内人士看来,“百万条真机数据量”对于行业来说只是杯水车薪,“只能训练一个动作的泛化,譬如分拣,对实现理想状态中的具身智能还远不够。”

除了数据缺乏的困扰之外,已有数据的标准化也是一个待解难题。

连最基础的数据都缺乏

不同于语言大模型的训练得益于互联网上海量的数据,具身智能“大脑”的训练则需要更多来自物理世界即真实世界动态环境中的交互数据,如何解决物理世界数据匮乏问题,成为眼下人形机器人技术演进路上最大的难题。

人形机器人创业企业之一——银河通用的创始人兼CTO、北京大学助理教授王鹤此前在不同场合多次提及具身智能领域面临数据集短缺的难题。王鹤认为,通用机器人背后的技术一定是具身大模型,要用数据驱动基础机器人大模型,让机器人能够有极高的泛化性和跨行业应用能力。但现有数据量不足以支持通用机器人的发展。

泛化性是指模型经过训练后,能够将一项行为应用到陌生的应用场景中的能力,在陌生场景中能自主识别任务并采取行动。国家地方共建人形机器人创新中心(以下简称“国地中心”)相关数据负责人在接受澎湃科技(www.thepaper.cn)采访时表示,行业内对于机器人泛化数据的获取始终是一大难题,现阶段,特斯拉的Optimus仍需要人为远程操作来帮助机器人完成任务,还不具备泛化能力。

国家地方共建人形机器人创新中心具身智能数据看板,澎湃科技记者拍摄。

北京航空航天大学机器人研究所名誉所长王田苗此前在接受澎湃科技采访时也指出,数据的匮乏让人形机器人很难具备泛化性。当前,机器人任务泛化、感知泛化和运动操作的三个泛化数据很难获取,比如让机器人叠衣服、骑自行车等这些数据很难得到。

王鹤团队从2023年开始探索大规模的灵巧手数据合成和大规模的泛化,2024年合成了10亿规模的数据体量,用于训练机器人的灵巧手。

总部位于深圳的一家向具身智能机器人提供基础场景数据和解决方案的创业公司艾欧智能联合创始人徐良威告诉澎湃科技,经过一年多对于机器人技术路径的探索发现,“只有通过海量数据训练才能够真正地通向具身智能”已经成为行业共识,通过仿真数据实现智能的可能性远远小于使用真实数据。然而,目前具身智能领域正处在类似于从GPT-1到GPT-2的过渡阶段,连最基础的物理世界的数据都还十分匮乏。

在徐良威看来,对于训练具身智能泛化能力来说,AgiBot World这种百万量级的数据集虽然已经取得明显的进步,但只是“杯水车薪,洒洒水而已”,达到理想的效果需要更大量的数据。

高质量数据获取采集成本过于昂贵

澎湃科技记者了解到,在具身智能领域实践中发展出四种具身智能采集训练数据:第一种是遥操作机器人数据,即需要一位人工数据采集员戴着遥操作手套,手把手示教,获取真机操作数据。通过这种方式获取的数据质量最高,但成本昂贵。第二种是仿真合成数据,在虚拟的3D仿真环境里从无到有地积累训练数据,这类训练数据以生成数据为主,与真实世界仍有较大差异。第三种是通过人类动作捕捉数据,也称为动作捕捉或动作追踪数据,是通过传感器、摄像头或其他设备,精确记录和分析人体运动的技术。这类方式获取的数据质量较高,但通过人类动作捕捉获取的数据,与机器人能否适配仍存在一定差异,需要后期继续做构型对齐相关工作。第四种数据来源是通过互联网获取人类动作视频或图像数据。这类方式的特点是能获得海量数据,但都是单一模态、非结构化且无标注的二维图像或视频信息,质量很差。

国地中心数据负责人指出,目前行业内最匮乏的是通过遥操作方式获取的高质量数据,仿真合成类数据获取成本低,但仍需要弥合仿真与现实世界的差距。然而,遥操作方式获取的数据成本过于高昂且采集效率低,导致行业内很难获取。

数据训练员穿上特制的动作捕捉服装训练人形机器人捕捉数据 

“一台遥操设备投入约35万元,再加上人工数据采集员的成本,每人每天大约采集500条数据,人工成本至少需要300元,即便长期投入也无法保证成功。”国地中心数据负责人估算,特斯拉的人形机器人Optimus至少需要数百万小时的数据才能完全准备好在特斯拉工厂工作,这期间可能需要至少5亿美元的数据采集成本。

上述国地中心数据负责人向澎湃科技透露,即便银河通用专注于强化机器人大脑模型,强调仿真合成数据的使用,但仍面临一定挑战。“在仿真环境中参数看似正确,但在物理世界中,即使是微小的偏差也会导致完全不同的结果。比如,人形机器人执行蹲下起身这类动作时,不同机器人可能会有不同表现,电机参数任何微小变化可能会导致机器人出现完全不同的行为,很难控制。”

由于泛化数据采集成本高、获取难度大,国地中心数据负责人透露,现阶段行业内大部分按照1:9或者1:10的数据比例训练机器人,即一条遥操作机器人数据配以9条或者10条仿真合成数据,但这个比例目前还没有定论。

缺乏统一标准的数据集

徐良威认为,另一个关键问题是如何实现高效的数据采集。虽然通过人工操作机器人可以获取高质量的数据,但这种方式的效率极低。徐良威称,智元对外称一周可采集50万条数据,综合一年数据量也不过只能达到千万量级,这对具身智能训练效率非常低,难以提速。

除了缺乏高质量数据,徐良威认为,具身智能数据服务行业内面临的首要难题是缺乏统一的数据集定义标准。尽管海外有Google这类科技巨头已开源部分数据集,国内也有智元机器人开源百万条真机数据集等,但不同公司开放的数据集格式能否兼容、能否保持数据质量的一致性很难说。

“北京和上海的开源数据集能否兼容、数据格式是否一致,以及数据托管的方式有哪些不同,这些还有待出台统一的数据标准。”徐良威说,目前国内众多机器人公司正处于“百花齐放”的状态,在数据管理上也各自为政,这导致公司之间沟通成本非常高。

在数据处理上,目前行业内也缺少统一的数据处理标准。“不同公司、机构或平台对处理数据的方法不一,机器人如果要有效利用这些数据,还需进一步处理。”徐良威说,每个团队或公司可能都需要从头开始处理标注数据,这会浪费大量时间和资源,且无法保证训练结果的通用性。

近期,国家地方共建具身智能机器人创新中心牵头立项的《人工智能具身智能数据采集规范》工信部行业标准,规范了具身智能数据集采集的格式,使不同公司采集的数据可以互相共享开源,加速模型“涌现”,在徐良威看来,对从业者来说无疑是一个积极的信号。

2025年会出现更多的数据采集训练场

世界模型的出现似乎给人形机器人带来一些新的希望。去年12月,李飞飞的世界模型开启了从数字世界向物理世界的跨越征程,实现了从一维数字智能向三维空间智能的重大转变。2025年1月6日,英伟达创始人兼首席执行官黄仁勋在2025CES(国际消费类电子产品展览会)期间,推出了涵盖生成世界基础模型的Cosmos世界基础模型平台,旨在加速自动驾驶汽车、机器人等物理AI系统开发。黄仁勋认为,“机器人的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型对于推进机器人和自动驾驶汽车的开发至关重要。”

徐良威称,这一类世界模型为通用智能提供空间、时间、物理、语义等各方面的模型表征。理论上来说,一方面,世界模型的成功使得机器人“理解世界”具备可能性;另一方面,世界模型能够在各维度下生成符合世界规律的数据,有潜力成为机器人合成数据的新范式。不过,虽然世界已经有一些阶段性的成果推出,但真正在机器人上应用,直至能够商业落地也还需要进一步发展。

数据缺乏在成为业内共识的同时,各方也在采取解决方案。2024年8月,特斯拉对外高薪招募“数据采集员”;2024年12月27日,北京国地共建具身智能机器人创新数据采集基地亮相。

据了解,从2024年下半年开始,位于上海张江的国家地方共建人形机器人创新中心也在搭建基于自己平台的数据采集训练场,目前,训练场的场地搭建工作以及数据采集机器人设备也基本到位,2025年计划招聘一些数据采集员来配合遥操作数据采集。2025年预期量产机器人的数量会上升,随之带来的数据采集量也会大幅增长,在数据采集成本方面也会下降。“今后可能会有一批便携式数据采集工具出现,这样会进一步降低数据采集成本。”相关人士透露。

在徐良威看来,北京、上海相继表示要共建具身智能机器人创新数据采集基地和搭建实训、模拟应用场景建设,核心价值远不止数据采集本身,更重要的是能够集中资源、缩短数据积累的时间,也相应地缩短了具身智能市场准入时间。他预测,2025年不同地区会加快建设数据采集训练场,以便从0到1的过程中尽快实现机器人的落地应用,此外数据采集方式将更加多样化。

    责任编辑:宦艳红
    图片编辑:沈轲
    校对:施鋆