如何辨别真假“AI刘强东”？10亿参数，数字人实时生成视频

亲爱的数据科技领域创作者

2024-04-28 19:56

浙江

原创亲爱的数据亲爱的数据

最近，在京东直播间，

带货主播，“刘强东”突然现身。

恭喜各位围观的朋友，

你们参与了一场，

史无前例的图灵测试。

4月16日，直播总观看人数超2000万人，

直播四场总观看超4000万。

首先，图灵测试并不是一个完美的方法，

但它仍然是一个很有影响力的思想实验。

其次，感慨一句，不愧是公元2024年，

直播间买个东西，居然参与了图灵测试。

预告，AI数字人。

实际，AI数字人。

虽然真人没来，

但卖的货都是爆品，

一下就抢没了

这真是一个好创意，

围观人工智能，

抢到低价好物。

买家与卖家，

科技与零售，

内心OS：“我赢了两次”。

这样的直播多来几场，

不过，数字人“营业”还是要花钱的，

我就是说，电费，咱管够。

我有一个朋友，

抱着了解“AI刘强东”的目的走进直播间，

结果，下单买了六盒蓝莓。

我就问，你对科学求真务实的态度在哪？

他告诉我，货好，还实惠。为啥不买？

我竟无言以对。

说好的图灵测试呢……

谈到测试，京东内部有一个标准，

结合心理学和实验综合而来，

120秒之内，没有察觉出非真人。

那么观众就会对“主播”产生一定信任。

120秒还有个名字，叫“恐怖谷”。

我推想，这些经验，

可能来自干了多年的京东AI客服，

“一听假”

电话挂机。

京东内部KPI叫做“首句挂断率”。

大哥，你声音这么假，半句都听不下去。

有些“数字人”一眼假直播间。

这五毛钱特效，不是接地气，而是接地府。

信任，来源于真实。

AI客服如此，

AI直播数字人亦如此。

流量的尽头是带货，

带货的尽头是AI。

不，应该是，令人信任的AI。

该聊聊如何辨别真假“AI刘强东”了：

1.细听刘强东的宿迁味普通话，

2.注意刘强东说话时的唇形，

3.留意表情，头部，手部动作，

4.细看皮肤毛孔，毛发，

表面看上去假，那大概率就是假。

接下来，谭老师我，就要向欧亨利致敬了。

以上这些旧思路，都没啥用。

AI动不动就以假乱真，

甚至投钱多，效果更真。

为什么说是“传统玩法”？

我来解释一下，

第一，AI刘强东的声音。

先用TTS（文本内容转语音）技术，

该技术发展了好多年了，

还可有不同音色和音调。

甚至都不用很大的模型，但模型大了，

花钱更多，效果更好。

第二，AI刘强东的形象，

用少量人脸素材建模，

再用一种三维网格，比如上面有30000个点，

理解起来，“点”就是几何图形的顶点，

顶点在动，人就有表情，

动得合理，表情就自然，

我想用的比喻是，

用微小的积木搭建一个人脸的3D模型。

当顶点数量高达好几万的时候，

手工调那就费力了。

第三，AI刘强东的表达思路和动作。

驱动数字人，就像遥控器驱动机器人，

多个技术点各负其责。

甚至哪个点做得不好，可单拎出来改。

遗憾，这种数字人路线（方案）的发展空间很是有限。

更遗憾，这些老的观察手段不能作为辨别AI的好方法了。

其实，直播数字人的技术路线还有另一条。

这是一条OpenAI刚刚踩出来的路。

要不然说，通用人工智能的梦想确实很伟大。

对，就是著名视频生成模型Sora。

一经问世，惊艳世界。

这是一条更难的路，

效果的提升空间和潜力变得空前大。

有了Sora，全球在这个方向前进上的团队，谁不想比肩。

可惜人家闭源，还不给用，想用就得从零建，

当然，可以借力开源社区（Open Sora）。

但投入依然巨大，就算投入的起，也考虑用户是否用得起。

换而言之，Sora就算有了中国版，

那背后的创业公司也很可能是百亿市值。

我目前就发现部分自动驾驶公司对Sora生成街景等数据，

饶有兴致。

而这类公司前期很难关注和覆盖稍小一些的场景，

简单说，土豪也不能蛮干，思考两个问题：

一，你的业务（客户），

需要什么样的人工智能（Sora）？

二，模型研发投入，用户使用成本，

如何达到一个微妙的平衡？

是时候，让谭老师拿出真正的“料”了。

“AI刘强东”选择了类似Sora的技术路线，

这个生成视频的路线有两个重点：

第一，“一气呵成式”，

你不能说，中间停一下，

把刘强东发型改短，

可以实现，但那是另一段视频了。

更核心的 “料”来了。

第二，实时生成视频，

也就是说，这个AI刘强东是实时生成的，

特别是互动，必须要实时

如果不知道方案，

那会有很多疑虑，

更不要说辨别真假，

有网友说：“很多店都是拿录播重复播放，

拿刘强东的直播录像直接再复用不就完了，假装自己有数字人。”

我听完这种说法，都笑了，

东哥肯定不会录几十个小时的直播，重复播放。

我推测，这次也是支持京东云言犀团队。

录了20分钟小样本。

还有网友说：“没有与直播间观众互动，

给人很强的距离感。”

而我的京东朋友听完这种说法，

一脸严肃，他说：

“我很负责任的告诉你，AI刘强东的每一帧都是AI。”

“很负责任”这几个字，他还特意加重了语气。

实时生成视频，这个问题太核心了。

要有巧思，

模型大小是很重要的考量，

模型再大跑不动，

实时的时候，生成得很慢，

模型再小“五毛特效”，

据我所知，京东云言犀系里，有的是更大规模的模型，

在平均万卡的互联网大厂里，谁还没有个千亿模型。

马斯卡的开源模型Grok-1，惊人的3140亿参数。

只能说，部署之时需要昂贵的硬件和基础设施。

生成直播带货的AI刘强东，只能用较小的模型。

想要又小又要效果好的目标，很苛刻。

我推测，数字人背后的模型有10亿参数。

这个参数量不意外，Sora也不大。

而是，10亿参数的选择，

很有点“专业技术含量”，

平衡发生在“模型相对小”和“逼真效果”之间，

在相反力量的微妙中取得平衡。

这既考验技术含量，也考验商业理解。

我再推测，

可能是在千亿参数的言犀模型上“知识蒸馏”而来，

改天有机会，我再去问问呢。

我观察京东，想做带货直播领域的中国Sora。

也就是说，先弄好带货直播中主播人物视频生成，

搭配一系列配套运营玩法。

毕竟，京东的场景是我见过所有电商里，最复杂的。

很多零售商的毛利很低，想让市场广泛使用，

“奢华靡费”版数字人，打不下市场。

说到底，这是一个在“花钱更多，效果更好”的规律中如何平衡的故事。

实时的AI刘强东，挺酷的，

仅用10亿参数，

精巧务实，也挺酷的。

直播常常团队作战，人手不够，手忙脚乱，

观看直播人数一多，需求从四面八方涌来，

5号链接

没货

讲下

蓝莓……

讲解

电视机

卖货直播数字人，不懂零售可不行。

直播间里，光有数字人也不行。

真正决定效果的，不是数字人逼真程度100%，

也要看直播运营怎么玩。

智能供应链就不说了，

有货的灵魂。

数字人直播间里，

中控台用来监测和调整直播间商品库存，

调节观众关注度，

比如，跳过缺货的商品，

或为爆品增加讲解频率，

实际上， 2年数字人直播商用，到2024年“AI刘强东”爆火，

整个历史数据告诉我们，已经有4000家品牌用了。

某场的“AI刘强东”直播，

只是某个版本，

甚至连着的四场直播，

每场都在进化，

运营私下告诉我，

第一场，没有经验，他们保守了，

互动得少，显得东哥很高冷，

巧了，互动是实时数字人的长板，

运营甩开膀子，

仅到第三场直播，

AI方案就全面了。

我至少观察到三个技术点：

1.弹幕用RAG搭配知识库。

2.观众和数字人实时互动回答，

3.再上一个数字人和“AI刘强东”对话，

但是，你要问刘强东是如何从中关村起家，如何经营京东。

不好意思，闲聊问题，超纲了，

数字人不回答，有情可原，

也不能批评人家高冷。

那是新闻采访，

不是直播带货时候的痛点。

直播主要“聊货”。

另外，还有个技术点，

Sora是无声视频，像默片电影，

而直播数字人的视频，不仅是有声的，而且是一个整体。

画面和语音同步且和谐搭配这件事，

他们内部说有绝活，我没有打听到。

我再拿市面上的常见方案对比：

数字人短视频生成平台。

输入一句话，直接生成有声视频。

这种产品也很好用，

但“AI刘强东”这款产品，

一体化程度更高。

比起技术单点更强的产品，

在带货直播场景里，

所需的关键点，“一气呵成式”生成了。

说实话，你拿这个产品生成的数字人，

去干别的，也不适合。

带货主播都是讲解产品、带货冲单的专家，

不是科目三舞王，

另外，我补充一个细节，

有商家给研发团队反馈，当主播，声音需特别有激情，

主打一种，不买就赶不上的氛围感，

这种反馈很是触动团队。

直播数字人产品就是瞄准带货直播，

进化，有的放矢。

2023年，我也见识过京东内部生成的数字人，

那是京东探索研究院院长他自己，

带货宁夏枸杞的一段视频。

侃侃而谈枸杞的保健功效。

看上去，少说喝了十年保温杯配枸杞。

他告诉我，自己真实的口播水平可没有这么流利。

罗马不是一日建成，

今年效果更甚去年，

直播是个重运营的生意，

不能凭空造一个数字人，扔给运营团队，

做AI产品不能“强塞”科技含量，

自嗨，

而是用产品跨越技术与运营的割裂。

我还听说，

他们内部发现，人们观看直播的时候，

非常重视局部。

比如，商品故事讲解，

看主播眼睛，

示范商品使用，看手部，

人的注意力有强有弱，

画面高清点随注意力变化，

那为何不把有限的资源聚焦于高清点？

找到带宽成本和体验的平衡点。

同时活跃在京东直播间的，

还有很多“主播小姐姐”，

我看过她们的表现，也很好，

比不上知名主播，水平也在中等之上。

市面上，高段位的“直播达人”都各有特色，

主播的特色遵守吸引力法则，

AI都可以学习，就看想发展出个什么特色。

刘强东的性格特色是质朴，

数字分身也延续了这一特点，

董宇辉身上的人文和书香，

那是另一款数字人值得学习的特色。

最近，我又去京东2号楼食堂混饭，

人群中，几位技术小姐姐朝我招手，一脸笑容，

她们迫不及待地告诉我，

京东云言犀数字人的业务，多得接不过来，

超百位企业CEO想用数字分身“亲自”带货。

看来，总裁圈刮起了产品旋风，

好主播，好货，好平台，好的零售科技，

记得东哥有句话，

我很喜欢：

正道成功，

我想，无外乎AI。

One More Thing

不能标题党，

我高低得讲一个辨别真假的点，

数字人的动作中，肢体重叠动作比较容易出错，

比如收拢肩膀，双臂交叉……

不过这种“高难度”怪动作，带货数字人一般不会在直播间里表演，

毕竟，这不是刘耕宏的健身直播间……

《我看见了风暴：人工智能基建革命》，

作者：谭婧

原标题：《如何辨别真假“AI刘强东”？10亿参数，数字人实时生成视频》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。