前苹果AI平台技术负责人发布具身模型，演示机器人打领带

澎湃新闻记者喻琰

2026-06-26 16:43

来源：澎湃新闻

具身智能企业竞相展示模型能力。

继破壳机器人创始人许华哲展示机器人制作麻婆豆腐后，6月24日，深圳通用具身智能企业RoboScience正式发布通用具身大模型Visics，展示了以物体为中心的VLOA（Vision-Language-Object-Action）模型架构，并在发布会现场展示了一段两台机械臂打领带的视频。

RoboScience 演示两条机械臂打领带

RoboScience机器科学成立于2024年12月，由前苹果AI平台技术负责人、斯坦福大学AI Lab硕士田野和新加坡国立大学助理教授、斯坦福大学AI Lab博士邵林联合创立，聚焦机器人与物理世界交互，布局机器人本体、末端执行器、多模态物理仿真等方向。

在RoboScience看来，选择打领带这一场景，并不是为了展示机器人未来要替人穿衣，而是为了验证模型对复杂柔性物体和长程操作任务的理解能力。RoboScience机器科学创始人兼CEO田野告诉澎湃科技（www.thepaper.cn），相比抓取杯子、搬运物品，打领带涉及柔性物体的连续形变、穿环、扭结以及中途失败后的状态恢复，这一任务没有使用任何真机数据，是在仿真环境中学习完成。

不过，视频展示的是模型能力的一面，能否从演示走向真实场景落地，仍需要持续观察。

Visica通用具身大模型架构来源：机器科学

VLOA更强调理解物体运动轨迹

在具身智能行业中，VLA（Vision-Language-Action）是被讨论较多的一类技术路线，它通常指模型根据视觉输入和语言指令，直接生成机器人动作。通俗理解，就是机器人看到环境、听懂指令，然后输出动作。

RoboScience提出的VLOA，则是在VLA中间加入了一个“O”，即Object。这里的Object并不是简单指“物体”这一模态，而是Object Trajectory，被操作物体的3D点云轨迹。按照RoboScience的定义，它指的是被操作物体在三维空间中的运动轨迹和状态变化，包括位置变化和形变。

田野认为，当前机器人操作面临泛化能力差、精细操作难、长程任务误差累积三大核心瓶颈。Visics并不是一个单一的机器人动作模型，而是由“具身世界模型”和“通用操作模型”组成的具身大模型系统。

其中，具身世界模型属于规划层，负责理解环境、语言指令和任务目标，并预演物体在物理世界中的运动轨迹；通用操作模型负责执行，将物体轨迹转化为机器人可以执行的接触点、接触力和关节控制信号，指导不同机器人完成操作。

通俗理解，Visics试图把“理解任务”和“执行动作”拆成上下两层：上层负责预演物体如何变化，下层负责让不同机器人执行动作。

RoboScience认为，这有助于解决具身智能中的泛化难题。当前机器人操作模型常见的问题是，换一个物体、换一个场景，甚至换一个机器人本体或末端执行器，原有技能就可能失效。原因在于，许多模型学习的是特定机器人和特定任务下的动作数据，与硬件绑定较强。

如果模型学习的核心对象从“机器人动作”转向“物体状态变化”，理论上可以降低对具体硬件的依赖。同一个物体轨迹，可以由二指夹爪、三指灵巧手、五指灵巧手，或不同形态的机器人执行。由此，模型才有可能实现跨本体、跨物体和跨任务泛化。

从仿真数据切入

RoboScience选择VLOA路线，也和行业内目前缺乏数据有关。

在发布会现场，RoboScience联合创始人兼执行总裁汪涛表示，对具身大模型来说，数据和模型架构是两个最核心的问题，二者不能分开看。模型架构决定了需要什么样的数据，也决定了数据如何反哺模型。

目前，不少具身智能企业选择自建数据采集场，通过遥操作、真机演示等方式采集真实世界物理数据。这类数据更接近真实场景，包含真实的接触、摩擦、失败和恢复，但问题也很明显：采集成本高、产能有限，并且往往和具体机器人平台绑定。

RoboScience选择的是“互联网视频+物理仿真”的数据路线。该公司称，Visics的预训练主要依赖两类数据：一类是从互联网视频中提取的物体运动相关数据，另一类是由自研物理仿真引擎RoboMirage生成的仿真操作数据。

据公司披露，RoboScience已经积累了数百万小时以物体为中心的视频数据，并计划在2026年构建上千万小时级数据集；同时通过RoboMirage积累数百亿次高质量操作轨迹，目标是构建超过1T操作轨迹数据集。

这一选择的核心逻辑是，用更低成本、更高产能的数据方式，解决具身智能面临的数据规模瓶颈。汪涛认为，如果完全依赖人工采集或真机遥操作，数据产能和成本都会成为限制；而仿真和视频数据可以通过算力扩展，从而更快支撑模型预训练。

将分阶段推进商业化落地

对具身智能企业而言，Demo只是第一步，最终仍要回到真实场景和商业化验证。

目前，模型层面的具身智能公司尚未真正进入大规模复制阶段，较明确的落地方向集中在智慧药房、无人零售、咖啡取送、物流搬运和部分工业工位等场景。例如，银河通用Galbot已围绕智慧药房、商业无人值守和工业物流搬运等场景进行验证；穹彻智能也将药房作为重要落地场景，其首家智慧药房已在沈阳线下门店试运营；海外公司Skild AI则将机器人“大脑”部署到富士康位于休斯敦的英伟达Blackwell GPU服务器机架产线上，被视为通用物理AI的早期商业部署。

整体来看，模型层具身公司仍在证明三件事：一是模型能否在复杂真实场景中稳定运行；二是能否形成可复制的行业解决方案；三是能否在具体场景中跑通成本收益模型。

汪涛表示，RoboScience将分阶段推进商业化落地。现阶段重点打磨Visics大模型能力，聚焦模型泛化能力，在商超、电商物流等高频、多品类场景完成POC验证；中短期目标是推动自研硬件本体量产落地，推出具身智能操作系统与开发平台，并将应用场景拓展至酒店、工厂等更多B端领域。

在商业落地上，该公司计划今年实现面向工业与商业场景的标准化机器人本体产品量产，不绑定自己的硬件销售，基于跨本体的技术原理，模型学习不依赖特定硬件数据，可灵活选择纯软件授权、控制器方案等多种交付方式。

责任编辑：宦艳红

图片编辑：沈轲

校对：张艳