今天这个「主播」，有点不一样！-技术圈

新智元报道

编辑：好困

【新智元导读】万物皆可播，人人皆主播。不过现在直播间里和你对话的可不一定是个「真人」了哦。

直播带货，这有啥新鲜的？

别急，今天给你来点儿不一样的。

请看上面这两位长相差不多的主播，像不像是一对双胞胎？

但实际上，她们是「同一个人」！

至于原因，这里先卖个关子。

半夜还要直播，太「费人」了吧

我们先说说直播带货这件事。

顾名思义，重点就是为了「带货」。

但每次都要卡着点进去，一不小心就会错过。

一来二去，可能也就不想再看了。

商家们似乎也发现了这个问题，于是虚拟带货主播就应运而生了。

7x24小时不间断，啥时候点进去都可以。

然而问题又来了，想要获得好的表现，基本只能靠「真人驱动」，原理和我们熟知的「虚拟偶像」差不太多。

屏幕中看起来好像是一位美少女坐在桌子前面带货，实际上是一位演员置身于偌大的「动捕房」里，穿戴一身繁琐的设备来实现表情和动作的「复刻」。除此之外，还需要演员自己进行配音。

这要是来个「007」工作制……

而另一种方法倒是实现了「全自动」，但是目前多数还停留在自说自话的阶段。

比如你想咨询一号宝贝的信息，但是人家正按照设定的程序跳舞，还完全没有要停下来的意思。

而造成现在这种「食之无味，弃之可惜」的状况，和定制虚拟人形象、维护或租用动捕设备等环节的费用太高有直接联系。‍

要是能有一个价格便宜，操作起来也简单的系统就好了。

直播「双胞胎」大揭秘！

说到这里，你还记得最开始提到的那对「双胞胎」吗？

她的「孪生」虚拟人就是借助科大讯飞的AI虚拟人交互平台上训练出来的，而且只需采集0.5小时的视频就可以了。

如果你仔细观察下面这张动图的话，甚至可以从虚拟人的唇语中读出她说的是：「比个小爱心」。

如此逼真的实现靠的就是讯飞基于大数据多模态预训练的口唇驱动框架，它在保证高真实度的口唇合成效果的同时，可以实现不同语种以及不同方言的口唇驱动。

此外，在表情和动作的驱动方面，基于情感的语义空间可以实现从语音到表情动作的上的情感表现，也就是让情感贯穿于虚拟人的交互过程之中。

虽说叫「口唇驱动」，但实际上是利用AI对整个人脸区域进行编辑的，除了口型和发音是一一对应的以外，其他部位的肌肉以及下巴也是要同步跟着移动的。

如果觉得用视频训练太麻烦了的话，还可以用科大讯飞的融合人技术像游戏里那样捏一个新的出来。‍

‍

这套系统可根据不同应用场景和审美需求，支持对眉眼、鼻子、嘴巴进行高自由度编辑和融合，并供不同性别、职业、服装等丰富的融合人脸资源。

仅需编辑单张人脸即可实现完整视频的驱动，其中采用可控编辑人脸区域创造的全新虚拟人脸。

除了这种2D真人以外，科大讯飞在3D虚拟形象的构建上也结合了基于单张照片的人脸重建和表情迁移，并以此实现了3D可驱动个性化虚拟形象的快速生成，而且未来还将向全身扩展。

现在，脸已经「捏」好了，接下来要做的就是「教」虚拟人说话了。

这对于深耕语音技术23年讯飞来说，可以称得上是「老本行」。

想「复刻」自己的声音？小case！而且还能顺便让虚拟人用你的声音说方言，讲外语。

效果的话，来感受一段东北老铁版的「虚拟冰冰」吧！

当然了，英语也同样不在话下。

而这只需要上传一段10-15分钟的录音数据到讯飞开放平台，机器就可以快速学习并生成独一无二的语音合成音库。

相较于以往整个训练和调优过程需要花费数月时间的标准流程，声音复刻让声音快速定制应用成为现实。

在到了这一步，我们已经搞定了虚拟人的形象和声音，那么之后要解决的问题就是怎么用虚拟人进行直播了。

虚拟人如何才能吸粉？

目前来说，真人主播和中之人能吸引粉丝的主要原因便是背后的那个「人」。

不管是介绍产品时候的「哦买噶，买它！」，还是及时准确地回答公屏上的问题，都让观众有了切实的参与感，而这是很多全自动虚拟人主播并不具备的。

那如果能开发一套能兼顾真人的优点的同时，又能简化流程、降低成本的直播系统，又会如何呢？

话不多说，先上效果看看。

和「中之人」类似，科大讯飞AI虚拟人直播系统的「人工播」模式，也是由真人主播进行配音的。

不过，在设备方面只用准备一台电脑和一个麦克风就可以了，无需繁琐的「动捕套装」。

其中的面部表情通过口唇驱动框架实现，而动作上的互动则可以进行个性化的定制，或者直接使用丰富的内置动作库。

如此看来，这个「Lite版」的维护成本和使用时的工作量，比传统意义上的中之人能少不止一个量级。

科大讯飞AI虚拟人直播系统更厉害的一点在于，真人主播甚至不需要自己进行配音。

你要做的就是把每个产品的介绍以及其他环节的文字稿准备好，剩下的交给系统就可以了。

在「脚本播」这个模式下，虚拟人终于做到了一个主播本应该做的事情。

没错，说的就是和观众的「互动」。

毕竟有的时候主播没有办法面面俱到地介绍一款产品，这时，不管是自己还是看别人提问，都可以便捷地让观众获得更多地信息。

从直觉上来讲，通常只有用户了解了某一款产品之后，才可能会下单购买。

而在科大讯飞AI虚拟人直播系统中，运营仅需点击已经准备好的内容，之后虚拟人会即刻中断正在进行的介绍，转而回答观众的提问。

虽说现在这种方式「人工」程度相对较高，但在即将发布的新版本中，系统可以通过AI对问题进行识别，然后自动给出相应的回答。

在操作上，科大讯飞的AI虚拟人直播系统为各家的直播助手都提供了支持。

此外，也可以利用OBS通用推流方案实现全面的覆盖。

为何要用虚拟人直播？

说回到直播带货上来，在这个领域内流传一句话：「万物皆可播，人人皆主播。」

凭借着优惠的价格和陪伴式的体验，直播带货也确实俘获了越来越多消费者的心。

据统计，我国电商直播用户规模为3.84亿，占网民整体的38%。另据企查查数据显示，全国共有1.6万家电商直播相关企业，其中2021年新注册8364家。

如今，不仅农土特产、口红、面膜等小件商品「走」进直播间，还扩展到家具、汽车甚至房子。

那么问题来了，明明用真人就可以做到的事情，为什么要用虚拟人呢？

的确，直播产业的发展催生出了无数的机会，但同样也带来了日益激烈的竞争。

在黄金时段，也就是流量最高的时候，每个商家都会派出自己最强的主播，尽可能多的进行销售转化。

然而，到了其他时段，事情就会变得复杂了起来。对于品牌方来说，花大价钱请真人来直播，却只能在零散的流量中寻求为数不多的订单，着实不太划算。与此同时，对主播来说，日夜颠倒的作息对身体的负担也实在太大。

此外，对于一些相对专业的领域来说，商家可能也很难找到能够真正理解产品的主播。很可能造成钱花了，但是毫无收益的后果。

在这样的需求之下，虚拟人直播便逐渐展露出了它的锋芒。

不过，就像最开始所说，中之人在前期的形象建模和直播时的动作捕捉上，开销巨大。而全自动虚拟人想要在后期进行人物的更新迭代时，同样需要面临建模和重新动捕的问题，成本居高不下。

针对这些问题，科大讯飞掏出了它的「三板斧」。

首先，在现有算力的制约之下，科大讯飞AI虚拟人直播系统主要采用了2D真人作为虚拟人的形象。

对于用户来说，操作更加便捷。只需要上传0.5小时的视频素材或者采用捏脸地方式，就可以得到一个全新定制的虚拟人。

此外，2D虚拟形象的另一项优势在于，当主播自己就是非常引流的IP时，复刻一张一模一样的脸进行直播的话，很可能会产生意想不到的效果。

其次，科大讯飞AI虚拟人直播系统中的「人工播」，可以让更多不方便出境的人也能胜任主播的职位。而且在AI的加持下，任何一个人在后面说话，都能转化成设定好的虚拟人的声音。如此一来，也就能够让直播覆盖到更多时间段了。

最后的「脚本播」，可以说是虚拟人直播的理想形态。在之后的升级中，虚拟人不仅可以按照设定好的稿子介绍产品，同时还能自动抓取观众提问中的关键词，智能回答相应地问题。

总结来说，科大讯飞通过人机耦合这种方式，让虚拟人承担了更多琐碎繁重的劳动，有效地减少了真人主播的负担和公司的成本。再加上7x24小时的不间断直播，任何潜在的机会都不会被放过。

就像罗马不是一天建成的，科大讯飞的AI直播虚拟人也不是一朝一夕就能做出来的。

科大讯飞的一站式解决方案

自从2018年5月AI虚拟主播「康晓辉」亮相央视《直播长江》特别节目以来，科大讯飞的虚拟人就一直在不停地迭代和更新。

到了2021年，科大讯飞正式发布了AI虚拟人交互平台1.0。

基于此，科大讯飞整合了自主研发的语音合成、语音识别、自然语言、图像处理等技术。

一方面提升了虚拟人在感知、表达、情感上的技术，让未来人机交互更真实，另一方面支持自主定制，包括声音、形象、服装、场景等等。并且还建立了更大更方便的数字资产库，赋予虚拟人更多的个性。

时间来到2022年，科大讯飞又对AI虚拟人交互平台进行了升级。

现在，平台不仅可以提供虚拟人形象构建、AI驱动、API接入、多场景解决方案，更能实现一站式的虚拟形象打造服务。

未来，科大讯飞在虚拟人上还想做到更多。

Ta们将越来越可爱，越来越有个性。

Ta们不仅可以提供协助，而且也会被人们所喜爱。

最重要的是，能让所有人都拥有属于自己的虚拟人。