AI刘强东007带货，背后大模型也就10亿参数，京东：我家数字人平均水平-品论天涯网

声明:本文来自于微信公众号量子位（ID:QbitAI），作者:衡宇，授权站长之家转载发布。dAh品论天涯网

京东创始人刘强东啊，他昨天又加班了。dAh品论天涯网

准确来说，是他的AI数字人形象“采销东哥”，昨晚开启了自己生涯第四场直播。dAh品论天涯网

dAh品论天涯网

这次东哥干的是图书采销工作。dAh品论天涯网

与上两次直播不同，这一回直播间不仅有了数字人助理，还有多机位切换等展现方式。与此同时，和留言区及屏幕前观众的互动方式也有所增强。dAh品论天涯网

量子位就此事询问了京东云言犀算法总监，得到答案是:dAh品论天涯网

每一场想侧重表示的不一样。技术的手段比较丰富，很难一场里面都推出来。dAh品论天涯网

不得不说，京东这回拿自家的京东云言犀数字人挤牙膏，还挺有自己的节奏（doge）。dAh品论天涯网

一周时间里，四场刘强东数字人连播，可谓出师大捷——dAh品论天涯网

据公开的“战报”，其首秀不到1小时，直播间观看量超2000万，带货GMV超5000万。dAh品论天涯网

难怪网上冲浪的时候，有人评价道，AI东哥真的是“数字人带货的天花板”了。dAh品论天涯网

而且京东自己放话，这就是京东云言犀数字人的平均技术水平，且成本不到真人直播的1/10。dAh品论天涯网

“自己的狗粮自己先吃”

刘强东AI数字人“采销东哥”上播第一天起，就有许多质疑。dAh品论天涯网

质疑一，真的是数字人吗?真的不是让刘强东提前坐那儿，录好视频然后再播吗?dAh品论天涯网

且看采销东哥的表现:dAh品论天涯网

形象和真人刘强东几乎一毛一样，寸头、西装、左手腕带表，肉眼难辨真伪。dAh品论天涯网

dAh品论天涯网

口音能较好贴合唇部动作，语速快、连音多，一般语句吐字较轻，一些重点会重音表强调，寻求认同时用“啊”来衔接;耳朵尖的朋友可能还能听出他的宿迁口音。dAh品论天涯网

动作姿态不算僵硬，能有头部、手部的动态动作，且动起来后整个人也受光均匀。dAh品论天涯网

dAh品论天涯网

但随着直播场数的增加，这种疑惑声渐渐下去了。dAh品论天涯网

可能大家都觉得，是在没什么可能让刘强东忙中拨冗，每天坐在那儿提前录播吧。dAh品论天涯网

质疑二，如果真的是数字人刘强东，那大伙儿看到的效果，会不会是面对自家一号位做的“特供版”?dAh品论天涯网

换言之，其他公司如果同样想用京东云言犀数字人来做主播，是不是根本达不到这个效果?dAh品论天涯网

就这个问题，京东云言犀负责人是站出来给了解释的:“刘总数字人技术，代表了我们现在的通用技术。”dAh品论天涯网

大白话就是说，用了京东云言犀数字人，所有的大V/CEO主播都能有同样的这个效果，至少在120秒之内“惟妙惟肖”。dAh品论天涯网

如果不信，可以亲自验证——前段时间京东618招商，给所有品牌商家免费开放了数字人基础版使用30天权益，都能用上。dAh品论天涯网

京东云言犀负责人笑着表示，去年京东云就已经基于言犀大模型升级了数字人技术。dAh品论天涯网

用句软件公司的梗，“Eat your own dog food”，自己的狗粮自己先吃，最开始团队内部先给京东云言犀负责人做了个AI数字人出来，但回头看和现在刘强东的数字人没法比。dAh品论天涯网

2022年开始，京东云言犀数字人就已经开始商业化，目前有4000多家品牌使用。dAh品论天涯网

去年双十一后，京东云言犀团队开始制作采销AI数字人，首先是在大时尚事业部测试，包括公众接受程度，停留时长，用户转换率，交互程度等。dAh品论天涯网

团队心想，既然要追求刺激，那就把“Eat your own dog food”贯彻到底，干脆给公司老大也搞一个吧!dAh品论天涯网

刘强东AI数字人“采销东哥”就这么诞生了。dAh品论天涯网

10亿参数数字人大模型轻量上阵

采销东哥身后，是京东云言犀大模型团队，及其大模型做小后打造的10亿参数数字人大模型。dAh品论天涯网

总的技术来看，言犀2年多前就选择了端到端的方式，即建模——驱动——渲染的一体化。以至于Sora出来后，团队惊喜发现端到端的技术方向是可取、可喜的。dAh品论天涯网

不过，虽然和Sora是同一条路子，但最后应用的场景不太一样，言犀大模型数字人的赛道更聚焦，专注人物生成（原因是团队评估人物视频生成商业价值和社会影响力可能都更大）。dAh品论天涯网

而关于端到端的路线，这里展开说两句。dAh品论天涯网

现在基本分为两大类，一类是完全端到端，中间不对任何环节进行显示的建模，完全是隐性的，都在一个空间里面做;另一类是对简单基本素材的人脸建3万多个点Mesh模型，再去控制人物的表情、唇型，然后做纹理的渲染。dAh品论天涯网

京东云言犀说得很明白，2种方案会根据场景需求做不同使用。dAh品论天涯网

京东云言犀负责人表示，其间比较得意的是人物大姿态的动作。dAh品论天涯网

“早期真人数字人，动作幅度比较小。基本上脸部不会怎么动，因为一旦头动了，可能就剩半个嘴唇了。”他透露，在大姿态方面做了较多技术投入，才有了现在AI刘强东的活动自如。dAh品论天涯网

dAh品论天涯网

此外，身为主播，语音表达无疑也十分重要。dAh品论天涯网

既要复现真人主播的语音、语调，又要学习真人说话的习惯，如语速、语调、重音、倒吸气。dAh品论天涯网

就拿刘强东本人来说，他讲话很少有辅助词，也较少清晰读出连接词，如“跟着”的“着”字经常被一笔带过。dAh品论天涯网

因为出生江苏宿迁，他的话语里还是会“露馅”，冒出宿迁口音来。比如“时间”中的“sh”会有更重的鼻音;后鼻音有时会被吞掉，变成前鼻音。dAh品论天涯网

就，还挺有特色的。dAh品论天涯网

原本呢，京东云言犀技术团队的计划是用刘强东2017年的一段演讲音频作学习素材，但测试发现，演讲时刘强东的语气太过正式了，和直播带货有点画风不搭。dAh品论天涯网

团队无奈把刘强东“抓”到镜头前，录了30分钟的音视频，让他闲聊自己的经历什么的。dAh品论天涯网

用这段音频为底提取出声学特征，就能通过已经被喂了5万小时语音数据训练的言犀语音大模型合成出人工语音。dAh品论天涯网

不过据量子位了解，京东云言犀大模型团队的最新战绩，是使用6秒素材复现具体某个人的声音。dAh品论天涯网

团队成员还分享了其他一些关于AI数字人背后的事:dAh品论天涯网

训练过程中，主赛道锚定人物向，因此不管是从数据的采集、清洗和各方面都做了精细化聚焦。dAh品论天涯网

推理实现方面，除了模型代码压缩、量化等常规操作，还对INT4和INT8进行了精度调改。dAh品论天涯网

团队下一步计划，是把语音、视频生成两块综合到一起。dAh品论天涯网

当然，另一部分挑战是尝试用非常小样本或零样本学习的方式就能抓住真人本尊的特点，继而生成惟妙惟肖的数字人。dAh品论天涯网

“采销东哥是京东数字人平均水平”

京东云言犀负责人表示，其实京东内部对数字人有一个分级。dAh品论天涯网

第一级的数字人效果，可以做真人的补充工作，处于向真人看齐阶段。dAh品论天涯网

第二级数字人可以媲美真人，真人不在，也可以承担重要场合、重要时间的主播工作。dAh品论天涯网

并且播出后，会有人分不清主播是真是假——从这个角度来说，图灵测试应该算是通过了。dAh品论天涯网

不过，虽然在形象、表情、语音、动作复刻尚佳，但是本尊的深度思想，大模型数字人还没有办法1:1同步。dAh品论天涯网

到了第三阶段，本尊和数字人之间不是替代关系，更像是真人有了个数字分身，能够真正深度抓住本尊的思想、文化、知识背景、一些理念。dAh品论天涯网

而且，京东自家直播间有一个120s战斗。dAh品论天涯网

简单说就是直播时，如果用户在120s之内都不觉得眼前的数字人让自己别扭，就会跨过恐怖谷效应，接受这个数字人，看他的展示、听他的解说。dAh品论天涯网

而且看到120s，因为对主播产生了信任，往往很大概率会下单。dAh品论天涯网

“目前来看，数字人直播带货有很大机会会成为一个大的爆点。”京东云言犀负责人解释道，“主要是内容层次达到了新的水准，大家的接受度和信任度已经过了关键点了。”dAh品论天涯网

说回“采销东哥”，他现在几乎能很完美地被生成120s以上的形象，并且足以以假乱真。dAh品论天涯网

也就是说，“采销东哥”现在处于京东数字人分级里的第二阶段，这也是京东云言犀数字人的平均水平。dAh品论天涯网

团队还提到，其实目前AI大模型数字人大规模商用，技术已经不是难点了。dAh品论天涯网

难点是什么呢?是主播个人的形象要跟整体调性相匹配，在选品、互动方面还需要下很多功夫。dAh品论天涯网

One More Thing

聊着聊着，一个有趣的问题被抛出来。dAh品论天涯网

问，未来在京东直播间，有没有可能诞生一个类似于董宇辉的AI数字人超级主播?dAh品论天涯网

京东云言犀负责人和算法总监相视一笑，说:dAh品论天涯网

（这件事）技术上是有可能的，但在伦理和感情上不一定能成立。dAh品论天涯网
比如很多丈母娘喜欢董宇辉，是因为这个人有很实在的特质，很文雅，有知识。dAh品论天涯网
我不知道在伦理上到底之后会怎么解决……dAh品论天涯网

—联系作者—dAh品论天涯网