【专栏】世界的元宇宙化：Sora的技术哲学探究

2024-05-24 21:54

上海

吴冠军

上海市欧美同学会副会长

华东师范大学政治与国际关系学院院长

OpenAI于2024年2月15日，发布文生视频大模型Sora，旋即激起了堪比该公司2023年11月30日发布ChatGPT时的现象级热浪，并使得“人工智能生成内容”（Artificial Intelligence Generated Content, AIGC）又一次地跃升成为全球关注的焦点。谷歌同期推出的大模型Gemini 1.5 Pro，革命性地将上下文容量一举扩展至 100 万个“标记”，但其影响力完全被Sora的风头所淹没。那么，Sora何以独特？

根据目前OpenAI的展示，Sora能够根据自然语言的描述提示，输出长达一分钟、有多个角色、多种场景、多角度运镜的视频画面。这使得Sora的能力，远远超过同赛道上的其他竞品——仅就生成的视频长度而言，此前大领风骚的Gen-2、Pika 1.0等文生视频模型，至多只能形成几秒具有连贯性的视频（仅够做表情包动图），而Sora的60秒已达到了一个商业广告的长度。

但在我看来，Sora的重要性并不仅仅落在视频生成能力的强劲跃升上。要理解这一点，我们有必要回到ChatGPT：这个大语言模型所展现出的重要性，真的仅仅在于知识全面、具有接近“通用智能”的聊天助手？绝非如此。在Chat GPT刚问世时我就提出，AIGC一定会通向AIGW（Artificial Intelligence Generated Worlds）——人工智能所生成的“世界”。

ChatGPT实际上介入了对作为符号性秩序的人类世界的模拟与重新生成上。而DALL•E这款文生图模型则进一步介入到想象性秩序的模拟与重新生成上。Sora延续了作为“世界模型”的ChatGPT（它具备直接调用DALL•E 3的能力），并且进一步介入了物理性秩序的模拟与重新生成上。

OpenAI于发布Sora的当日，同步发布了研究报告，题为《视频生成模型作为世界模拟器》。在这篇报告中，开发团队初步解释了研发Sora的技术路径，并开宗明义地表明Sora追随了ChatGPT的成功经验。不同于那些采用生成对抗网络（generative adversarial networks, GAN）或递归网络（recurrent networks）的开发路径，Sora采取建立在转化器架构上的扩散模型。此处值得予以重视的关键是：扩散转化器（Diffusion Transformer, DiT）归根结底所达成的，是对“世界”的一种有效压缩。

转化器能自主提取出信息之间的关联并用“标记”的方式进行统一化重组。而扩散模型则通过控制增噪/去噪的过程，将文本信息（“能指”）依照模型对世界的潜表征进行具像化的渲染（转化后的“所指”）。作为文生视频模型，Sora在训练数据上使用嵌有文本标识的各类视频与图像，并用“补丁包”来统一不同类型的视频和图像。在转化器架构下，用“补丁包”对图像与视频进行“补丁化”操作，就对应ChatGPT对各类文本的“标记化”。

人工神经网络参数里关于世界的潜表征，使得建立在转化器架构上的大模型成为了“世界模型”。世界模型，其实就是能够（a）有效构建对世界的潜表征，并基于其上（b）做出关于世界化成的预测——它能根据一个观察（亦即，输入的“提示”）来从潜变量中预测“世界”会随后进入的状态。潜变量参数化了关于可靠预测的分布（或集合）。换言之，从一个分布中采样（或在一个集合中变化）的潜变量，结构性地定义了一个可能性区域，模型则根据这个区域来预测未来可能发生的情况。

作为世界模型的Sora根据输入的“提示”在其潜空间中完成预测后，就进入输出（内容生成）环节，亦即，通过相应的解压缩器将预测的补丁包从低维度的潜空间映射回像素空间，转化为可视的视频或图像，亦即，对干净补丁包进行特定的增噪（添加高斯噪声、提升信息熵），从而达成“渲染”。通过这样的方式，Sora就能够经由有损压缩再重建出同预训练数据相似但又新颖的视频。

通过上述分析我们可以看到，归根结底，Sora实际上是在符号、想像（影像）与物理三重面向上，对“世界”做出了一个有效的有损压缩，并进而能够根据“提示”（文字、图片或视频）重新渲染进行输出。Sora能够理解语言，并自行推演（“预测”）世界中能动者（人、非人类）之间的符号性与物理性互动，以及同周遭环境的互动。当然，Sora生成的视频内容中仍会包含“故障”，譬如玻璃以违反物理学的方式碎裂。但这些“故障”就如同大语言模型的“幻觉”，是所有经由有损压缩再重新生成的世界模型所无法避免的——根据从潜变量中做出的预测重新渲染出来的“世界”，就会包含着“故障”。实际上，动画片乃至科幻片，恰恰皆可以有效利用这样的“故障”，来进行艺术性的创作。

对于Sora，就像ChatGPT一样，我们无法直接进入其神经网络参数里的世界模型（其潜空间里关于世界的表征），而只能把整个模型作为经验性的对象来观察，亦即，对其输入与输出进行观察。通过参数数量与训练数据数量这两个变量的规模提升，我们可以期待对于相同输入（“提示”），模型输出质量的大幅提升（这也包括“幻觉/故障”的减少）。实际上，目前我们亦无从获悉任何一个人之神经网络里的计算（思考、创作、决策……）过程，故此，我们只能把人作为经验性的对象来观察，亦即，对其输入与输出进行观察。我们根据输出结果的质量（如下围棋、作画……），来衡量能动者的智能（而不是通过直接检查其计算过程来进行衡量）。我们找到了大幅提升大模型输出质量的方法（规模提升），但人显然无法用这种方式来提升其输出质量。

OpenAI发布Sora后，在YouTube上从事视频创作超过15年的大V帕蒂•加洛韦从创作者角度表示，“内容创作永远改变了”。我想进一步强调的是：从ChatGPT、DALL•E到Sora，基于转化器的AIGC大模型并不只是使得内容创作永远改变了，而且使得“世界”在最字面的意义上，永远改变了。世界化成的过程，越来越多被以有损压缩-重新生成为发生学机制的AIGC之创造性活动所介入，这就导致“宇宙”（亦即我们眼里的“物理宇宙”）与“元宇宙”不断深层次地相互叠加，“自然进程”与“人工创造”不断深层次地交织以至于进入无可区分之域。

这就意味着，我们所熟悉的那个“世界”，将一去不复返：讨论“深伪”将越来越没有意义，当AIGC“深”到参与到世界化成本身之中。

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。