如何辨别真假“AI刘强东”?10亿参数,数字人实时生成视频

2024-04-28 19:56
北京

原创 亲爱的数据 亲爱的数据

01

最近,在京东直播间,

带货主播,“刘强东”突然现身。

恭喜各位围观的朋友,

你们参与了一场,

史无前例的图灵测试。

4月16日,直播总观看人数超2000万人,

直播四场总观看超4000万。

首先,图灵测试并不是一个完美的方法,

但它仍然是一个很有影响力的思想实验。

其次,感慨一句,不愧是公元2024年,

直播间买个东西,居然参与了图灵测试。

预告,AI数字人。

实际,AI数字人。

虽然真人没来,

但卖的货都是爆品,

一下就抢没了

这真是一个好创意,

围观人工智能,

抢到低价好物。

买家与卖家,

科技与零售,

内心OS:“我赢了两次”。

这样的直播多来几场,

不过,数字人“营业”还是要花钱的,

我就是说,电费,咱管够。

02

我有一个朋友,

抱着了解“AI刘强东”的目的走进直播间,

结果,下单买了六盒蓝莓。

我就问,你对科学求真务实的态度在哪?

他告诉我,货好,还实惠。为啥不买?

我竟无言以对。

说好的图灵测试呢……

谈到测试,京东内部有一个标准,

结合心理学和实验综合而来,

120秒之内,没有察觉出非真人。

那么观众就会对“主播”产生一定信任。

120秒还有个名字,叫“恐怖谷”。

我推想,这些经验,

可能来自干了多年的京东AI客服,

“一听假”

电话挂机。

京东内部KPI叫做“首句挂断率”。

大哥,你声音这么假,半句都听不下去。

有些“数字人”一眼假直播间。

这五毛钱特效,不是接地气,而是接地府。

信任,来源于真实。

AI客服如此,

AI直播数字人亦如此。

流量的尽头是带货,

带货的尽头是AI。

不,应该是,令人信任的AI。

03

该聊聊如何辨别真假“AI刘强东”了:

1.细听刘强东的宿迁味普通话,

2.注意刘强东说话时的唇形,

3.留意表情,头部,手部动作,

4.细看皮肤毛孔,毛发,

表面看上去假,那大概率就是假。

接下来,谭老师我,就要向欧亨利致敬了。

以上这些旧思路,都没啥用。

AI动不动就以假乱真,

甚至投钱多,效果更真。

为什么说是“传统玩法”?

我来解释一下,

第一,AI刘强东的声音。

先用TTS(文本内容转语音)技术,

该技术发展了好多年了,

还可有不同音色和音调。

甚至都不用很大的模型,但模型大了,

花钱更多,效果更好。

第二,AI刘强东的形象,

用少量人脸素材建模,

再用一种三维网格,比如上面有30000个点,

理解起来,“点”就是几何图形的顶点,

顶点在动,人就有表情,

动得合理,表情就自然,

我想用的比喻是,

用微小的积木搭建一个人脸的3D模型。

当顶点数量高达好几万的时候,

手工调那就费力了。

第三,AI刘强东的表达思路和动作。

驱动数字人,就像遥控器驱动机器人,

多个技术点各负其责。

甚至哪个点做得不好,可单拎出来改。

遗憾,这种数字人路线(方案)的发展空间很是有限。

更遗憾,这些老的观察手段不能作为辨别AI的好方法了。

04

其实,直播数字人的技术路线还有另一条。

这是一条OpenAI刚刚踩出来的路。

要不然说,通用人工智能的梦想确实很伟大。

对,就是著名视频生成模型Sora。

一经问世,惊艳世界。

这是一条更难的路,

效果的提升空间和潜力变得空前大。

有了Sora,全球在这个方向前进上的团队,谁不想比肩。

可惜人家闭源,还不给用,想用就得从零建,

当然,可以借力开源社区(Open Sora)。

但投入依然巨大,就算投入的起,也考虑用户是否用得起。

换而言之,Sora就算有了中国版,

那背后的创业公司也很可能是百亿市值。

我目前就发现部分自动驾驶公司对Sora生成街景等数据,

饶有兴致。

而这类公司前期很难关注和覆盖稍小一些的场景,

简单说,土豪也不能蛮干,思考两个问题:

一,你的业务(客户),

需要什么样的人工智能(Sora)?

二,模型研发投入,用户使用成本,

如何达到一个微妙的平衡?

05

是时候,让谭老师拿出真正的“料”了。

“AI刘强东”选择了类似Sora的技术路线,

这个生成视频的路线有两个重点:

第一,“一气呵成式”,

你不能说,中间停一下,

把刘强东发型改短,

可以实现,但那是另一段视频了。

更核心的 “料”来了。

第二,实时生成视频,

也就是说,这个AI刘强东是实时生成的,

特别是互动,必须要实时

如果不知道方案,

那会有很多疑虑,

更不要说辨别真假,

有网友说:“很多店都是拿录播重复播放,

拿刘强东的直播录像直接再复用不就完了,假装自己有数字人。”

我听完这种说法,都笑了,

东哥肯定不会录几十个小时的直播,重复播放。

我推测,这次也是支持京东云言犀团队。

录了20分钟小样本。

还有网友说:“没有与直播间观众互动,

给人很强的距离感。”

而我的京东朋友听完这种说法,

一脸严肃,他说:

“我很负责任的告诉你,AI刘强东的每一帧都是AI。”

“很负责任”这几个字,他还特意加重了语气。

实时生成视频,这个问题太核心了。

要有巧思,

模型大小是很重要的考量,

模型再大跑不动,

实时的时候,生成得很慢,

模型再小“五毛特效”,

据我所知,京东云言犀系里,有的是更大规模的模型,

在平均万卡的互联网大厂里,谁还没有个千亿模型。

马斯卡的开源模型Grok-1,惊人的3140亿参数。

只能说,部署之时需要昂贵的硬件和基础设施。

生成直播带货的AI刘强东,只能用较小的模型。

想要又小又要效果好的目标,很苛刻。

我推测,数字人背后的模型有10亿参数。

这个参数量不意外,Sora也不大。

而是,10亿参数的选择,

很有点“专业技术含量”,

平衡发生在“模型相对小”和“逼真效果”之间,

在相反力量的微妙中取得平衡。

这既考验技术含量,也考验商业理解。

我再推测,

可能是在千亿参数的言犀模型上“知识蒸馏”而来,

改天有机会,我再去问问呢。

我观察京东,想做带货直播领域的中国Sora。

也就是说,先弄好带货直播中主播人物视频生成,

搭配一系列配套运营玩法。

毕竟,京东的场景是我见过所有电商里,最复杂的。

很多零售商的毛利很低,想让市场广泛使用,

“奢华靡费”版数字人,打不下市场。

说到底,这是一个在“花钱更多,效果更好”的规律中如何平衡的故事。

实时的AI刘强东,挺酷的,

仅用10亿参数,

精巧务实,也挺酷的。

06

直播常常团队作战,人手不够,手忙脚乱,

观看直播人数一多,需求从四面八方涌来,

5号链接

没货

讲下

蓝莓……

讲解

电视机

卖货直播数字人,不懂零售可不行。

直播间里,光有数字人也不行。

真正决定效果的,不是数字人逼真程度100%,

也要看直播运营怎么玩。

智能供应链就不说了,

有货的灵魂。

数字人直播间里,

中控台用来监测和调整直播间商品库存,

调节观众关注度,

比如,跳过缺货的商品,

或为爆品增加讲解频率,

实际上, 2年数字人直播商用,到2024年“AI刘强东”爆火,

整个历史数据告诉我们,已经有4000家品牌用了。

某场的“AI刘强东”直播,

只是某个版本,

甚至连着的四场直播,

每场都在进化,

运营私下告诉我,

第一场,没有经验,他们保守了,

互动得少,显得东哥很高冷,

巧了,互动是实时数字人的长板,

运营甩开膀子,

仅到第三场直播,

AI方案就全面了。

我至少观察到三个技术点:

1.弹幕用RAG搭配知识库。

2.观众和数字人实时互动回答,

3.再上一个数字人和“AI刘强东”对话,

但是,你要问刘强东是如何从中关村起家,如何经营京东。

不好意思,闲聊问题,超纲了,

数字人不回答,有情可原,

也不能批评人家高冷。

那是新闻采访,

不是直播带货时候的痛点。

直播主要“聊货”。

另外,还有个技术点,

Sora是无声视频,像默片电影,

而直播数字人的视频,不仅是有声的,而且是一个整体。

画面和语音同步且和谐搭配这件事,

他们内部说有绝活,我没有打听到。

我再拿市面上的常见方案对比:

数字人短视频生成平台。

输入一句话,直接生成有声视频。

这种产品也很好用,

但“AI刘强东”这款产品,

一体化程度更高。

比起技术单点更强的产品,

在带货直播场景里,

所需的关键点,“一气呵成式”生成了。

说实话,你拿这个产品生成的数字人,

去干别的,也不适合。

带货主播都是讲解产品、带货冲单的专家,

不是科目三舞王,

另外,我补充一个细节,

有商家给研发团队反馈,当主播,声音需特别有激情,

主打一种,不买就赶不上的氛围感,

这种反馈很是触动团队。

直播数字人产品就是瞄准带货直播,

进化,有的放矢。

2023年,我也见识过京东内部生成的数字人,

那是京东探索研究院院长他自己,

带货宁夏枸杞的一段视频。

侃侃而谈枸杞的保健功效。

看上去,少说喝了十年保温杯配枸杞。

他告诉我,自己真实的口播水平可没有这么流利。

罗马不是一日建成,

今年效果更甚去年,

直播是个重运营的生意,

不能凭空造一个数字人,扔给运营团队,

做AI产品不能“强塞”科技含量,

自嗨,

而是用产品跨越技术与运营的割裂。

我还听说,

他们内部发现,人们观看直播的时候,

非常重视局部。

比如,商品故事讲解,

看主播眼睛,

示范商品使用,看手部,

人的注意力有强有弱,

画面高清点随注意力变化,

那为何不把有限的资源聚焦于高清点?

找到带宽成本和体验的平衡点。

同时活跃在京东直播间的,

还有很多“主播小姐姐”,

我看过她们的表现,也很好,

比不上知名主播,水平也在中等之上。

市面上,高段位的“直播达人”都各有特色,

主播的特色遵守吸引力法则,

AI都可以学习,就看想发展出个什么特色。

刘强东的性格特色是质朴,

数字分身也延续了这一特点,

董宇辉身上的人文和书香,

那是另一款数字人值得学习的特色。

最近,我又去京东2号楼食堂混饭,

人群中,几位技术小姐姐朝我招手,一脸笑容,

她们迫不及待地告诉我,

京东云言犀数字人的业务,多得接不过来,

超百位企业CEO想用数字分身“亲自”带货。

看来,总裁圈刮起了产品旋风,

好主播,好货,好平台,好的零售科技,

记得东哥有句话,

我很喜欢:

正道成功,

我想,无外乎AI。

One More Thing

不能标题党,

我高低得讲一个辨别真假的点,

数字人的动作中,肢体重叠动作比较容易出错,

比如收拢肩膀,双臂交叉……

不过这种“高难度”怪动作,带货数字人一般不会在直播间里表演,

毕竟,这不是刘耕宏的健身直播间……

《我看见了风暴:人工智能基建革命》,

作者:谭婧

原标题:《如何辨别真假“AI刘强东”?10亿参数,数字人实时生成视频》

阅读原文

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。