李飞飞空间智能首个模型诞生！一张图可生成交互式3D场景

澎湃新闻记者贾利略实习生马小雨

2024-12-03 15:25

来源：澎湃新闻

作为AI领域影响力最大的女性和华人之一，AI学者、斯坦福大学教授李飞飞在当地时间12月2日公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。

虽然已有众多AI工具可以将照片转换为3D模型和场景，而World Labs称，他们所生成场景的独特之处在于它们具有交互性，而且是可修改的。

“（我们的技术）能让你走进任何一张图像，并以3D的形式对其进行探索。” World Labs在一篇博客文章中写道。

纽约大学助理教授谢赛宁在社交平台上表示，“想象是生成式的，控制是3D的。”

World Labs网站演示的视频(03:06)

在World Labs网站的演示里，这些由AI生成的场景均通过浏览器实时渲染而成，用户可以使用箭头键或键盘（WASD）键移动，然后单击并拖动鼠标实现交互，从而自由探索场景。具体来看，该AI工具配备了可操控的滑块来调节模拟景深（DoF）与模拟推拉变焦（dolly zoom），当使用者将景深效果调至越强时，背景中的物体便会越发模糊，为整个视觉体验增添了更多层次感与真实感。

World Labs官网演示的步骤

此外，该工具也支持调整摄像机的位置和视野、更改对象颜色，通过3D场景结构创建聚光灯特效、创建自动运行的动态效果等交互方式。

据了解，World Labs的系统属于一类新兴的人工智能范畴，即 “世界模型”，能够模拟游戏和3D环境。不过，现有的多数模型存在着伪影和一致性方面的问题。例如，初创公司Decart的Minecraft模拟世界模型Oasis就存在分辨率低下、容易“遗忘”场景布局等问题。

World Labs提到，大多数生成模型预测的是像素，而预测3D场景则具有许多优势，比如场景更加持久，一旦生成，它就会一直存在。即使把视线移开然后又回来，场景也不会改变。此外，用户可以实时控制、实时移动场景。用户可以仔细观察花朵的细节，也可以偷看角落里露出的物体。

“大多数生成式AI工具生成的都是图像或视频等二维内容，” World Labs表示，“而生成三维内容能够提升操控性和一致性。这将改变我们制作电影、游戏、模拟器以及物理世界其他数字呈现形式的方式。”

目前，World Labs已经对公众开放了Waitlist候补名单申请，不过作为开发和测试的一部分，有的创作者已经受邀并将其整合到了现有的工作流程中。例如，内容创作者埃里克·索洛里奥（Eric Solorio）发现，这项技术完美地填补了他创作过程中的空白，可以“让角色布置和精确的镜头调度变得更容易”。

不过，World Labs在博客中说明，目前披露的只是“3D原生生成AI未来的一个缩影”。AI工具仍有改进的空间，例如用户的移动范围仍然受限于较小的区域，一旦超出边界就会遇到限制。有时还会出现渲染错误，例如物体之间会以不自然的方式混合在一起。

据Tech Crunch报道， World Labs已从包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在内的投资者处筹集了2.3亿美元的投资，现公司估值超过10亿美元，计划在2025年推出首款正式产品。

World Labs于今年1月成立，由李飞飞和贾斯汀·约翰逊（Justin Johnson）、克里斯托夫·拉斯纳（Christoph Lassner）和本·米尔登霍尔（Ben Mildenhall）联合创立，三人均在AI领域拥有丰富的经验。其中贾斯汀·约翰逊是李飞飞的博士生，现为密歇根大学的助理教授，World Labs目前总部位于旧金山，拥有20名员工。

在李飞飞的构想里，“所有空间智能的生物所具备的行动能力，是与生俱来的。因为，它能够将感知与行动进行关联。”她曾表示，“如果想让AI超越其自身当前的能力，我们需要的是，不仅仅能够看到、会说话的AI，而且是一个可以行动的AI。”

然而，《连线》杂志的记者曾指出，World Labs的愿景与此前迅速消退的热炒概念“元宇宙”有些相似。对此，World Labs的创始人则解释说，元宇宙之所以短暂，是因为当时的热潮基于一些有前景的硬件，但缺乏真正的互动内容，而他们认为，世界模型或能够填补这一空白。

责任编辑：喻琰

图片编辑：朱伟辉

校对：丁晓