马斯克说人类愿赌服输!OpenAI首个文生视频模型炸街,哪些行业又将颠覆
当地时间2月15日,OpenAI宣布,正在研发“文生视频”模型Sora,可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。
根据OpenAI官网,Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。Sora不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
尽管OpenAI也展示了多个目前Sora的缺陷,但是已公布且未经修改的“原生AI视频”足以震撼全场。
OpenAI 视频截图
外媒援引人智能专家和分析师的话称,Sora视频的长度和质量超出了迄今为止所见的水平,部分视频已经难辨真假。2022年11月推出的ChatGPT引领了全球大模型的蓬勃发展,并开始在特定行业展现生产力,今年推出的Sora是否能承接ChatGPT的衣钵?
暴走游戏CEO张均在接受澎湃新闻记者采访时表示,虽然舆论对这款产品很沸腾,但相关从业者依然要用开放心态学习,同时冷静观望,“从技术来看,之前Runway、Pika、Google和Meta都推出过文生视频工具,Sora的优势主要是三方面,首先是可以生成长达60秒钟的超长视频,包括多个角色、特定类型动作和主题背景;第二,可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格。第三,能够理解物体在现实世界中的物理规律和存在方式,不会做出画面精美但到处穿帮的内容。”
张均表示,Open AI在此前推出的ChatGPT主要还是应用于没有艺术性和不确定的场景,现在很多公司在使用ChatGPT做文本优化,非常节省时间,“用A工具把视频链接直接变成文本,再用GPT秒改,再排查相关词组后,只需要几分钟完成。”
澜码科技CEO周健则告诉澎湃新闻记者,和其他视频模型相比,最大的区别是Sora是用所谓的文本编码去生成物理世界的模型,大家觉得惊艳也是认为它生成的内容看上去和真的一样。Open AI认为,通过压缩可以对这个世界进行建模,然后能对这个世界进行预测,这是Open AI一直以来的信仰。如果是3、4秒的视频可能能躲避一些bug,60秒的时长对视频里的世界一致性要求更高,否则大家一下子就能看出区别。
如果说ChatGPT重塑了文本相关行业,那视频模型Sora是否会改写视频行业,甚至是电影产业?
周健表示,生产力会大大提升,就如之前的文生图,对游戏、广告行业起到的作用是不再靠初级的绘图师通过画来表达创意。但Sora对复杂的交互还是有问题,比如,敲碎一个杯子它就做不到,因为杯子可能通过一定的物理规律进行拆碎,很多碎片弹出来,每一片碎片其实都得遵循物理规律。
韬蕴资本合伙人常惠芳告诉澎湃新闻记者,Sora对小屏短视频制作可能产生一定影响,小屏图像视频需要处理的数据量不大,网速和普通电脑硬件配置能达到要求的情况下,如果AI有成本优势,某些场景可以替代人工拍摄。在大银幕方面,受制于算力等基础设施的限制,还做不到替代。从投资角度来看,外界会对AI视频类的产品更为关注,例如此前推出的Runway、Pika、Google和Meta等产品。
张均认为,从行业影响来看,对基础性的画师人才需求会有很大影响,但涉及到艺术和创意类,实际上AI的作用还是非常有限的,Sora可能只能应用于非常有限的重复性制作场景。
周健也持有类似观点,“不管是《热辣滚烫》还是《流浪地球》,电影里有价值观,有一致性,你现在把剧本拆成1000段prompt,对生成视频‘不一致’的地方,你再靠人去修整,这是很难的事情。但是我也相信,虚拟和现实肯定会融合在一起,肯定会有很多创意出现。”周健认为,对游戏行业会有一些影响,原本的游戏视频要花很大的力气,现在用这个工具变得简单。
电影导演和视觉特效专家Michael Gracey在接受外媒采访时表示,以后或许不再需要一个由100名-200名艺术家组成的团队来用3年时间完成动画长片,像Sora这样的人工智能工具将使电影制作者能够仔细控制他们的输出,从头开始制作各种视频。
不过,也有影视后期从业者告诉澎湃新闻记者,AI生成视频技术要真正应用到影视行业制作,要求还是很高,例如要做到能对细节之处随时调整,并且生成的视频具有一定稳定性,不能有变化,目前Sora都不能做到。但该人士也指出,从成本来看,目前专业3D的后期处理,3分钟的视频总价格约为30万元,初步估算一分钟价格约10万元,其中主要是人力成本,需要3人团队投入一个月时间才能制作完成。如果未来Sora真的能投入影视行业商业应用的话,确实有广泛的空间,但现在还有一定差距。
就如此前ChatGPT问世时,曾有担心是否会取代部分人类工作,尤其是非创意类的岗位。
一名不愿具名的互联网传媒首席分析师告诉澎湃新闻记者,OpenAI此次推出的Sora是OpenAI多模态能力在应用层面的又一个新高度,也是AI领域新的里程碑。从功能来看,能够用文字生成长达60秒的视频,意味着Sora可以极大程度地降低创意视频的制作门槛,解放生产力,实现“1分钟视频自由”。但同时,也会更加凸显创意和IP的价值,因为AI智能做到辅助生成,但具体的创意还是需要人类来设计和策划,“随着AI时代到来,工具会变得很普及,如果大家都使用工具,那么如何体现自己的竞争力?最后还是会回到创意能力上。”
还有行业人士认为,国内文本模型的进步速度已经很快,但算力会把差距放大。当然,国内企业的强项是数据,和国外科技企业相比,国内在应用端有优势。
中国社会科学院法学研究所副研究员唐林垚告诉澎湃新闻记者,从公布的视频来看,相较于其他视频类生成式AI,Sora在画面清晰度、内容流畅度、表意深度和精彩程度方面均有大幅提升:“如果Sora的能力真如官方公布一样强大,且之后可以像ChatGPT一样便捷访问,那么Sora将给广告行业、影视行业和特效行业带来极大的冲击。”
从法律监管角度,唐林垚表示,AI生成视频带来的监管挑战包括但不限于如何有效区分真实和虚假内容,以及如何确保人工智能作品不被用于误导公众或其他非法目的;更进一步的法治挑战在于,如何平衡强监管与行业发展之间的张力。而在法律之外,网民和受众的“反欺诈意识”和“防范意识”也亟待提高:“不同于早期深度伪造视频粗糙且拙劣,今天的Sora样片可谓叹为观止,这无疑表明,在技术主导且迭代迅猛的当今互联网生态下,‘眼见为实’已经是过去时。”
有意思的是,就在Sora发布后数小时,特斯拉CEO马斯克就在X平台上接连回复多条帖子“输出”观点。有网友在评论Sora生成的60秒时尚女子在东京街头散步时称,“gg Pixar(皮克斯动画制作公司)”(编注:gg为Good Games缩写,代指“打得好,我认输” ),随后马斯克回复,“gg humans(人类)”。之后马斯克还称,通过AI增强的人类将在未来几年创造出最好的作品。