李飞飞空间智能首个模型诞生!一张图可生成交互式3D场景

澎湃新闻记者 贾利略 实习生 马小雨
2024-12-03 15:25
来源:澎湃新闻

作为AI领域影响力最大的女性和华人之一 ,AI学者、斯坦福大学教授李飞飞在当地时间12月2日公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。

虽然已有众多AI工具可以将照片转换为3D模型和场景,而World Labs称,他们所生成场景的独特之处在于它们具有交互性,而且是可修改的。

“(我们的技术)能让你走进任何一张图像,并以3D的形式对其进行探索。” World Labs在一篇博客文章中写道。

纽约大学助理教授谢赛宁在社交平台上表示,“想象是生成式的,控制是3D的。”

World Labs网站演示的视频(03:06)
在World Labs网站的演示里,这些由AI生成的场景均通过浏览器实时渲染而成,用户可以使用箭头键或键盘(WASD)键移动,然后单击并拖动鼠标实现交互,从而自由探索场景。具体来看,该AI工具配备了可操控的滑块来调节模拟景深(DoF)与模拟推拉变焦(dolly zoom),当使用者将景深效果调至越强时,背景中的物体便会越发模糊,为整个视觉体验增添了更多层次感与真实感。

World Labs官网演示的步骤

此外,该工具也支持调整摄像机的位置和视野、更改对象颜色,通过3D场景结构创建聚光灯特效、创建自动运行的动态效果等交互方式。               

据了解,World Labs的系统属于一类新兴的人工智能范畴,即 “世界模型”,能够模拟游戏和3D环境。不过,现有的多数模型存在着伪影和一致性方面的问题。例如,初创公司Decart的Minecraft模拟世界模型Oasis就存在分辨率低下、容易“遗忘”场景布局等问题。

World Labs提到,大多数生成模型预测的是像素,而预测3D场景则具有许多优势,比如场景更加持久,一旦生成,它就会一直存在。即使把视线移开然后又回来,场景也不会改变。此外,用户可以实时控制、实时移动场景。用户可以仔细观察花朵的细节,也可以偷看角落里露出的物体。

“大多数生成式AI工具生成的都是图像或视频等二维内容,” World Labs表示,“而生成三维内容能够提升操控性和一致性。这将改变我们制作电影、游戏、模拟器以及物理世界其他数字呈现形式的方式。”

目前,World Labs已经对公众开放了Waitlist候补名单申请,不过作为开发和测试的一部分,有的创作者已经受邀并将其整合到了现有的工作流程中。例如,内容创作者埃里克·索洛里奥(Eric Solorio)发现,这项技术完美地填补了他创作过程中的空白,可以“让角色布置和精确的镜头调度变得更容易”。

不过,World Labs在博客中说明,目前披露的只是“3D原生生成AI未来的一个缩影”。AI工具仍有改进的空间,例如用户的移动范围仍然受限于较小的区域,一旦超出边界就会遇到限制。有时还会出现渲染错误,例如物体之间会以不自然的方式混合在一起。

据Tech Crunch报道, World Labs已从包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在内的投资者处筹集了2.3亿美元的投资,现公司估值超过10亿美元,计划在2025年推出首款正式产品。

World Labs于今年1月成立,由李飞飞和贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)和本·米尔登霍尔(Ben Mildenhall)联合创立,三人均在AI领域拥有丰富的经验。其中贾斯汀·约翰逊是李飞飞的博士生,现为密歇根大学的助理教授,World Labs目前总部位于旧金山,拥有20名员工。

在李飞飞的构想里,“所有空间智能的生物所具备的行动能力,是与生俱来的。因为,它能够将感知与行动进行关联。”她曾表示,“如果想让AI超越其自身当前的能力,我们需要的是,不仅仅能够看到、会说话的AI,而且是一个可以行动的AI。”

然而,《连线》杂志的记者曾指出,World Labs的愿景与此前迅速消退的热炒概念“元宇宙”有些相似。对此,World Labs的创始人则解释说,元宇宙之所以短暂,是因为当时的热潮基于一些有前景的硬件,但缺乏真正的互动内容,而他们认为,世界模型或能够填补这一空白。

    责任编辑:喻琰
    图片编辑:朱伟辉
    校对:丁晓