李飞飞空间智能首个模型诞生!一张图可生成交互式3D场景
作为AI领域影响力最大的女性和华人之一 ,AI学者、斯坦福大学教授李飞飞在当地时间12月2日公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。
虽然已有众多AI工具可以将照片转换为3D模型和场景,而World Labs称,他们所生成场景的独特之处在于它们具有交互性,而且是可修改的。
“(我们的技术)能让你走进任何一张图像,并以3D的形式对其进行探索。” World Labs在一篇博客文章中写道。
纽约大学助理教授谢赛宁在社交平台上表示,“想象是生成式的,控制是3D的。”
World Labs官网演示的步骤
此外,该工具也支持调整摄像机的位置和视野、更改对象颜色,通过3D场景结构创建聚光灯特效、创建自动运行的动态效果等交互方式。
据了解,World Labs的系统属于一类新兴的人工智能范畴,即 “世界模型”,能够模拟游戏和3D环境。不过,现有的多数模型存在着伪影和一致性方面的问题。例如,初创公司Decart的Minecraft模拟世界模型Oasis就存在分辨率低下、容易“遗忘”场景布局等问题。
World Labs提到,大多数生成模型预测的是像素,而预测3D场景则具有许多优势,比如场景更加持久,一旦生成,它就会一直存在。即使把视线移开然后又回来,场景也不会改变。此外,用户可以实时控制、实时移动场景。用户可以仔细观察花朵的细节,也可以偷看角落里露出的物体。
“大多数生成式AI工具生成的都是图像或视频等二维内容,” World Labs表示,“而生成三维内容能够提升操控性和一致性。这将改变我们制作电影、游戏、模拟器以及物理世界其他数字呈现形式的方式。”
目前,World Labs已经对公众开放了Waitlist候补名单申请,不过作为开发和测试的一部分,有的创作者已经受邀并将其整合到了现有的工作流程中。例如,内容创作者埃里克·索洛里奥(Eric Solorio)发现,这项技术完美地填补了他创作过程中的空白,可以“让角色布置和精确的镜头调度变得更容易”。
不过,World Labs在博客中说明,目前披露的只是“3D原生生成AI未来的一个缩影”。AI工具仍有改进的空间,例如用户的移动范围仍然受限于较小的区域,一旦超出边界就会遇到限制。有时还会出现渲染错误,例如物体之间会以不自然的方式混合在一起。
据Tech Crunch报道, World Labs已从包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在内的投资者处筹集了2.3亿美元的投资,现公司估值超过10亿美元,计划在2025年推出首款正式产品。
World Labs于今年1月成立,由李飞飞和贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)和本·米尔登霍尔(Ben Mildenhall)联合创立,三人均在AI领域拥有丰富的经验。其中贾斯汀·约翰逊是李飞飞的博士生,现为密歇根大学的助理教授,World Labs目前总部位于旧金山,拥有20名员工。
在李飞飞的构想里,“所有空间智能的生物所具备的行动能力,是与生俱来的。因为,它能够将感知与行动进行关联。”她曾表示,“如果想让AI超越其自身当前的能力,我们需要的是,不仅仅能够看到、会说话的AI,而且是一个可以行动的AI。”
然而,《连线》杂志的记者曾指出,World Labs的愿景与此前迅速消退的热炒概念“元宇宙”有些相似。对此,World Labs的创始人则解释说,元宇宙之所以短暂,是因为当时的热潮基于一些有前景的硬件,但缺乏真正的互动内容,而他们认为,世界模型或能够填补这一空白。