等待Sora上线的8个月，AI 视频到底什么水平了？

澎湃新闻记者杜海燕孔家兴卫瑶

2024-10-23 21:07

来源：澎湃新闻

一觉醒来，AI 圈又大变天了。现在 AI，已经进化到这种程度了！?

2024 年 10 月 22 日，多家 AI 产品带来了新版本和新功能：

Claude 3.5 模型升级，AI 可以模仿人类访问电脑，帮我们自动干活了；

Runway 推出了生成式角色表演工具 Act-One，人人都可以做动画片；

Midjourney 准备发布 V7 版本，支持 ControlNet 功能精准控制 AI 图像；

Stable Diffusion 3.5 发布了，ComfyUI 也即将支持桌面版；

还有新的开源视频模型工具在路上......

Runway 新工具 Act-One(00:59)

在 Sora 被调侃为“期货”的 8 个月里，国内外已经涌现出了一批可圈可点的 AI 视频大模型和工具产品，各家轮流登上 AI 视频王座。目前，MiniMax 海螺和快手可灵等国产 AI 产品，凭借高质量、稳定性、影视级的特性，在海外迅速走红。

MiniMax 海螺 AI 的情感演绎实例视频图

一张图一句话，人人都能搞定大师级镜头

AI 技术的不断发展，也推动了 AI 视频开始往影视领域探索。快手可灵 AI 联手李少红、贾樟柯、俞白眉等 9 位知名导演，尝试制作 AIGC 电影短片。而 Runway CEO 在接受专访时放言，“明年或将见证首部 AI 主导创作的电影诞生，并赢得奥斯卡奖。”

在此之际，澎湃新闻对齐 Lab 栏目上线了首部以马兰基地“核二代”为原型的 AI 非虚构微电影《马兰花开》。影片前 40 秒除航拍镜头使用垫图外，其余画面均使用前沿 AI 技术生成，实现了影视级的画面效果，AI 辅助完成了包括 360°旋转镜头等在内的多个复杂运镜。

AI微电影《马兰花开》(02:11)

在这部片子中，我们把当下最新的 AI 功能，都摸了个透。AI 功能千千万，怎么样才能搞定大师级电影镜头呢？

以 360°旋转镜头为例，大致有两种思路，最直接的就是“文生视频”，我们在最初的尝试里，体验了这种路径的效果：生成画面也挺有味道的，但是不是我们想要的。

直接文生视频效果，源自澎湃对齐Lab

为了画面的可控性，我们选择了“文生图——图生视频”的思路：增加一个中间环节，以确保最终画面的调性。如果需要控制角色，这种思路也可能效果更好。

首先，我们借助目前 stable diffusion 里面超强的图像生成模型——Flux，通过输入提示词和提供参考图生成理想的电影感画面。

360 旋转镜头的第一张图，源自澎湃对齐Lab

有了第一张图，视频的基本风格就定下来了，接下来就是最关键的运镜环节了。综合考量了制作需求、效果以及成本等因素后，我们最终选择了目前“图生视频”中相对简单可控的方法——利用现成视频工具，依靠一张图、一句话来生成 360°镜头。

当前大多数视频工具一次最长能做 10-12 秒的视频，但 AI 未必能在短时间内完成复杂的镜头调度。为此，我们可以结合AI视频工具的“拓展延长”功能，将 360°的镜头分成几个小部分（比如 180°、270°）一步步实现。

值得一提的是，以上操作思路都是我们基于 9 月中旬的调研得出的。但 AI 的发展实在太快了，截至 10 月 21 日，各大视频工具的功能又做了很多的迭代升级。海螺推出了“图生视频”功能，即梦开启了 S2.0 和 P2.0版本的内测......这些更新使得 360°旋转镜头的制作有了更多的可能性。

不会的题，人怎么找解题思路

AI 崩坏的画面，图源自澎湃对齐Lab

虽然 AI 视频已经具备影视化能力，但在细节的表现上仍旧充满难题。在制作《马兰花开》的过程中，最让我们崩溃和头疼的，莫过于小孩跳皮筋和数飞机这两个画面。

比如，AI 并不能很好地理解，什么是“跳皮筋”。我们用“跳皮筋”的提示词描述直接生成图片，会出现语义理解偏差。最终，我们给 AI 喂经过高清修复、PS 处理后的正确照片，让 AI 图片里面的人物动作和姿态更加接近理想效果。

在视频生成中也有同样的问题，直接输入“跳皮筋”的提示词，AI 反馈的是活蹦乱跳的小孩、奇怪飘起的扬沙……我们只好退而求其次，用简化提示词的方式，让小孩原地轻轻跳一跳、动一动，完成跳皮筋的动势。

AI 视频还有哪些有趣的玩法？

除了正儿八经的影视化方向，AI 视频现在还能做很多开脑洞的效果。对于没有任何影视后期制作经验的人来说，AI 确实能花小钱办大事。

Pika AI影视特效，源自X @Ethan Mollick

最近一口气上线了 10 种 AI 影视特效，包括溶解、挤压、消失、爆炸等。推特上的一位可视化爱好者，用 AI 特效实现了真·用手抠图，给人一种打破次元壁的感觉。

Runway 视频转绘效果，源自X @oFaleco

Runway 则在近期上线了视频生视频（video to video）的转绘功能。能够根据提示词改变用户上传视频的场景、风格，并保留视频的主体框架。

除了这些闭源工具推出的彩蛋功能，开源社区中也有很多对 AI 视频形式的探索，比如用运动视频驱动植物跳舞、用人物肖像视频驱动小动物说话等。

全民健身日｜AI一下，“早C晚A”都陪你动起来(01:00)

AI街采｜假如动物会说话，它们会怎么说城市生态(02:55)

今年的全民健身日，我们使用 ComfyUI 让十款甜品、饮料开始了自己的“运动表演”。这套开源工作流的本质是对运动视频进行抠像后，再根据物体形态、场景两种参考图对抠像视频进行视频转绘。在全国生态日，我们使用开源技术 Liveportrait，把人的面部表情“移植”到了小动物身上，完成了一次野生动物的“街头采访”。

AI 视频创作，难在哪里？

在 9 月 22 日举行的 Runway Meetup Shanghai 创作者分享会上，AI Talk 创始人汗青表示，“AI 没问题，我建议有一些局部调整：视频的困境在于，不同于互联网和移动时代，AI 视频尚未等到一个适配其特性的新媒介”。

汗青还强调，许多人觉得 AI 视频能降本增效，但看视频的人其实并不关心。在微短剧、短视频、直播当道的今天，AI 视频靠什么去获得受众的注意力，是 AI 视频创作者值得去深思的问题。

而对于新闻机构从业者来说，AI 视频创作的主要顾虑是新闻真实性和 AI 虚构能力之间存在一定的矛盾。但如果用到非虚构领域，就能让 AI 肆意发挥他的创意。

在构思《马兰开花》的故事时，我们抛弃了用 AI 视频来还原历史事件的创作方向，一方面是因为公开的资料有限，生成 AI 视频缺乏依据；另一方面，AI 视频在细节还原的准确性上还存在不足，在重要的历史事件中容易造成误读和偏差。

海外主流AI视频工具流量对比，源自Similarweb

随着 AI 视频产品逐渐进入“祛魅”期，许多主流 AI 视频产品的热度也出现了下滑的趋势。流量分析工具 Similarweb 的数据显示，Luma AI 于 9 月初上线了 1.6 版本，但当月访问量环比下降了 38.49%。作为全球 AI 视频的第一梯队产品，Luma AI 每月的访问量大约只有 ChatGPT 的 1/413。

AI 视频产品的升级迭代，往往伴随着“尝鲜”式的挤兑体验和漫长的排队，反而会给用户带来负面的体验。从主流 AI 视频工具近年来的迭代变化来看，还并没有出现真正改变游戏规则的模型和产品。

信达证券在今年 7 月发布的一份研报中指出，AI 视频行业的风险因素包括：AI 底层大模型发展、AI 视频技术迭代和 AI 视频产品付费渗透率提升均不及预期。

但是人人都是导演的愿景，或许本来就需要更多等待的耐心。

责任编辑：吕妍

校对：刘威