等待Sora上线的8个月,AI 视频到底什么水平了?

澎湃新闻记者 杜海燕 孔家兴 卫瑶
2024-10-23 21:07
来源:澎湃新闻

一觉醒来,AI 圈又大变天了。现在 AI,已经进化到这种程度了!? 

2024 年 10 月 22 日,多家 AI 产品带来了新版本和新功能:

Claude 3.5 模型升级,AI 可以模仿人类访问电脑,帮我们自动干活了;

Runway 推出了生成式角色表演工具 Act-One,人人都可以做动画片;

Midjourney 准备发布 V7 版本,支持 ControlNet 功能精准控制 AI 图像;

Stable Diffusion 3.5 发布了,ComfyUI 也即将支持桌面版;

还有新的开源视频模型工具在路上......

Runway 新工具 Act-One(00:59)

在 Sora 被调侃为“期货”的 8 个月里,国内外已经涌现出了一批可圈可点的 AI 视频大模型和工具产品,各家轮流登上 AI 视频王座。目前,MiniMax 海螺和快手可灵等国产 AI 产品,凭借高质量、稳定性、影视级的特性,在海外迅速走红。

MiniMax 海螺 AI 的情感演绎实例视频图

一张图一句话,人人都能搞定大师级镜头

AI 技术的不断发展,也推动了 AI 视频开始往影视领域探索。快手可灵 AI 联手李少红、贾樟柯、俞白眉等 9 位知名导演,尝试制作 AIGC 电影短片。而 Runway CEO 在接受专访时放言,“明年或将见证首部 AI 主导创作的电影诞生,并赢得奥斯卡奖。”

在此之际,澎湃新闻对齐 Lab 栏目上线了首部以马兰基地“核二代”为原型的 AI 非虚构微电影《马兰花开》。影片前 40 秒除航拍镜头使用垫图外,其余画面均使用前沿 AI 技术生成,实现了影视级的画面效果,AI 辅助完成了包括 360°旋转镜头等在内的多个复杂运镜。

AI微电影《马兰花开》(02:11)

在这部片子中,我们把当下最新的 AI 功能,都摸了个透。AI 功能千千万,怎么样才能搞定大师级电影镜头呢?

以 360°旋转镜头为例,大致有两种思路,最直接的就是“文生视频”,我们在最初的尝试里,体验了这种路径的效果:生成画面也挺有味道的,但是不是我们想要的。

直接文生视频效果,源自澎湃对齐Lab

为了画面的可控性,我们选择了“文生图——图生视频”的思路:增加一个中间环节,以确保最终画面的调性。如果需要控制角色,这种思路也可能效果更好。

首先,我们借助目前 stable diffusion 里面超强的图像生成模型——Flux,通过输入提示词和提供参考图生成理想的电影感画面。

360 旋转镜头的第一张图,源自澎湃对齐Lab

有了第一张图,视频的基本风格就定下来了,接下来就是最关键的运镜环节了。综合考量了制作需求、效果以及成本等因素后,我们最终选择了目前“图生视频”中相对简单可控的方法——利用现成视频工具,依靠一张图、一句话来生成 360°镜头。

当前大多数视频工具一次最长能做 10-12 秒的视频,但 AI 未必能在短时间内完成复杂的镜头调度。为此,我们可以结合AI视频工具的“拓展延长”功能,将 360°的镜头分成几个小部分(比如 180°、270°)一步步实现。

值得一提的是,以上操作思路都是我们基于 9 月中旬的调研得出的。但 AI 的发展实在太快了,截至 10 月 21 日,各大视频工具的功能又做了很多的迭代升级。海螺推出了“图生视频”功能,即梦开启了 S2.0 和 P2.0版本的内测......这些更新使得 360°旋转镜头的制作有了更多的可能性。

不会的题,人怎么找解题思路

AI 崩坏的画面,图源自澎湃对齐Lab

虽然 AI 视频已经具备影视化能力,但在细节的表现上仍旧充满难题。在制作《马兰花开》的过程中,最让我们崩溃和头疼的,莫过于小孩跳皮筋和数飞机这两个画面。

比如,AI 并不能很好地理解,什么是“跳皮筋”。我们用“跳皮筋”的提示词描述直接生成图片,会出现语义理解偏差。最终,我们给 AI 喂经过高清修复、PS 处理后的正确照片,让 AI 图片里面的人物动作和姿态更加接近理想效果。

在视频生成中也有同样的问题,直接输入“跳皮筋”的提示词,AI 反馈的是活蹦乱跳的小孩、奇怪飘起的扬沙……我们只好退而求其次,用简化提示词的方式,让小孩原地轻轻跳一跳、动一动,完成跳皮筋的动势。

AI 视频还有哪些有趣的玩法?

除了正儿八经的影视化方向,AI 视频现在还能做很多开脑洞的效果。对于没有任何影视后期制作经验的人来说,AI 确实能花小钱办大事。

Pika AI影视特效,源自X @Ethan Mollick

最近一口气上线了 10 种 AI 影视特效,包括溶解、挤压、消失、爆炸等。推特上的一位可视化爱好者,用 AI 特效实现了真·用手抠图,给人一种打破次元壁的感觉。

Runway 视频转绘效果,源自X @oFaleco

Runway 则在近期上线了视频生视频(video to video)的转绘功能。能够根据提示词改变用户上传视频的场景、风格,并保留视频的主体框架。

除了这些闭源工具推出的彩蛋功能,开源社区中也有很多对 AI 视频形式的探索,比如用运动视频驱动植物跳舞、用人物肖像视频驱动小动物说话等。

全民健身日|AI一下,“早C晚A”都陪你动起来(01:00)
AI街采|假如动物会说话,它们会怎么说城市生态(02:55)

今年的全民健身日,我们使用 ComfyUI 让十款甜品、饮料开始了自己的“运动表演”。这套开源工作流的本质是对运动视频进行抠像后,再根据物体形态、场景两种参考图对抠像视频进行视频转绘。在全国生态日,我们使用开源技术 Liveportrait,把人的面部表情“移植”到了小动物身上,完成了一次野生动物的“街头采访”

AI 视频创作,难在哪里?

在 9 月 22 日举行的 Runway Meetup Shanghai 创作者分享会上,AI Talk 创始人汗青表示,“AI 没问题,我建议有一些局部调整:视频的困境在于,不同于互联网和移动时代,AI 视频尚未等到一个适配其特性的新媒介”。

汗青还强调,许多人觉得 AI 视频能降本增效,但看视频的人其实并不关心。在微短剧、短视频、直播当道的今天,AI 视频靠什么去获得受众的注意力,是 AI 视频创作者值得去深思的问题。

而对于新闻机构从业者来说,AI 视频创作的主要顾虑是新闻真实性和 AI 虚构能力之间存在一定的矛盾。但如果用到非虚构领域,就能让 AI 肆意发挥他的创意。

在构思《马兰开花》的故事时,我们抛弃了用 AI 视频来还原历史事件的创作方向,一方面是因为公开的资料有限,生成 AI 视频缺乏依据;另一方面,AI 视频在细节还原的准确性上还存在不足,在重要的历史事件中容易造成误读和偏差。

海外主流AI视频工具流量对比,源自Similarweb

随着 AI 视频产品逐渐进入“祛魅”期,许多主流 AI 视频产品的热度也出现了下滑的趋势。流量分析工具 Similarweb 的数据显示,Luma AI 于 9 月初上线了 1.6 版本,但当月访问量环比下降了 38.49%。作为全球 AI 视频的第一梯队产品,Luma AI 每月的访问量大约只有 ChatGPT 的 1/413。

AI 视频产品的升级迭代,往往伴随着“尝鲜”式的挤兑体验和漫长的排队,反而会给用户带来负面的体验。从主流 AI 视频工具近年来的迭代变化来看,还并没有出现真正改变游戏规则的模型和产品。

信达证券在今年 7 月发布的一份研报中指出,AI 视频行业的风险因素包括:AI 底层大模型发展、AI 视频技术迭代和 AI 视频产品付费渗透率提升均不及预期。

但是人人都是导演的愿景,或许本来就需要更多等待的耐心。

    责任编辑:吕妍
    校对:刘威