阿里小蜜数字人多模态交互实践-技术圈

来源：DataFunTalk

本文约7000字，建议阅读10分钟 
本次分享主要围绕多模态与人机交互技术在电商直播中的应用。

分享嘉宾：赵中州阿里巴巴高级算法专家

编辑整理：贾惠然北京理工大学

出品平台：DataFunTalk

[ 导读 ]直播作为一种新的电商形态，电商直播化与直播电商化的现象已经逐渐普遍。本次分享主要围绕多模态与人机交互技术在电商直播中的应用。小蜜数字人从去年双11作为集团十大黑科技正式公开亮相，该产品从以前的窗口式问答，升级为直播间的多维度互动，这背后面临的挑战驱动着小蜜的问答技术有了新的发展，这也是我今天主要分享的内容。

双十一的变化以及小蜜数字人的演变

提到双十一，我们先来快速看一下双11的变化以及背后小蜜的演进。我们知道去年双11它最大的变化来自于一天变成了两个时段。同时，直播带货的GMV在整个电商场景里也占到了一个更大的比重。在服务这块同样有了新变化，从18年开始，小蜜在平台的服务，以及面向商家的服务支持上面，已经达到了相当的一个规模。

到了最近的双11，我们已经可以把这种问答或者说服务的能力扩展到像热线等不同的渠道，或者像海外的更多国家和地区，目前是有18种语言，200多个国家和地区。同时小蜜也实现了交互形态的新升级，去年阿里CTO鲁肃发布了阿里集团的十大双11黑科技。数字人就是作为其中之一。在具体展开技术细节之前，先介绍一下我们为什么要做这件事儿。

1. 为什么要做数字人？

直播作为一种新的电商形态，电商直播化与直播电商化的现象已经逐渐普遍。但在电商的实际市场上，人们会更加地关注李佳琪这样的头部大V。而真正的商家在直播过程中面临很多困难。比如说某个服饰国内top大品牌，它在直播兴起以后，在杭州这边开了一个分公司，为什么？是因为他们总部所在地很难去招到相关的一些直播人才，难以去满足或者说符合他们现在今天直播的品质的要求。但是另一方面，商家也会发现，其实他们很难去给到特别大的一些支持或者说资源去支持主播，比如说打造他们自己的一些人设，因为等主播有一定成长以后，它的流失也会比较大。

针对符合要求的直播人才难培养、主播培养成熟需要的成本大且成熟主播易流失的问题。这个时候我们引入小蜜数字人，一方面可以降低商家开播的成本；一方面数字人的形象可以与商家的品牌形象更好地结合达到品效合一。例如像海尔兄弟，三只松鼠。我们可以用数字人的形式获得更加鲜活品牌形象的具象化；此外像二次元的形象可以作为新的媒介触达年轻消费人群提供为商品提供差异化竞争。

2. 双11十大黑科技 — 围绕虚拟主播的交互新形态

这种新形态体现在小蜜数字人具有货品展现、人物驱动以及场景交互的能力。具体包括了智能播报剧本的创作；与剧本内容相关的呈现和演示，包括商品的呈现，以及数字人在声音上的情绪表达和动作肢体上的驱动演绎等；另外在实时互动的场景中，我们还需要使数字人具有做相关的问答以及暖场游戏的能力。

3. 从问答到直播，面临的新挑战

问答主要以用户问题和知识库或者文档库内容的匹配为主，而直播需要将匹配进化为内容的创作。
内容创作会涉及文字、图片、视频等多种素材，多模态处理能力必不可少。
用户在直播间的个性化互动支持。主播在直播间中做1 v N互动，也可以通过端上卡片做1v1的推荐互动，如何融合千人千面的个性化推荐和数字人的动态行为决策是一个我们正在探索的课题。

4. 从问答到直播的技术演进

从最开始基于知识库的问答(FAQ的匹配，NLU与意图路由，任务型对话）我们进一步引入了非结构化内容问答（例如面向文档的阅读理解和面向详情页的视觉问答），再进一步演进到多模态内容合成：围绕着文本生成能力和知识图谱构建，将不同素材进行有机的组合和表现，包括故事线的编排，行为的驱动，情感的计算，直播间氛围感知及实时推荐等等。

5. 从虚拟主播知识大图

接下来会围绕数字人交互分两部分介绍：剧本构建和互动呈现。

从问答到直播，长剧本创作是首要挑战

在这里我举例一些播报比较好的真人话术和他们相对应卖点。可以看到一般好的真人主播会针对特定的选品，挑选专业性的爆点性的内容，它通常都是一两个点，但是也会注重用户在真实使用场景的这种连接和共鸣，达到种草的效果。

1. 学术定义

① Text / Story Generation

对于剧本生成，在学术上类似的任务是Text / Story Generation。目前工业上常用的方法是Data2Text Generation。这篇文章是清华与淘宝推荐理由生成一起合作的工作，可以看到这里边利用到了很多的KV信息，以及一个两阶段的生成来实现最终的短文本的生成关系。

他主要依赖于输入的数据并且专注于短文本的生成。还有一些方法更加偏向于开放式的Story Generation。比如说GPT3，以及达摩院的PLUG模型等等，它们可以根据一两个线索或者一个文章的开头来去补全后续的内容。但考虑这些模型的可控性比较差，目前使用在直播场景落地仍然具有挑战性。

② Story Telling / Story Visualization

在我们将视觉的呈现考虑进来以后，它就变成了一种多模态任务。例如微软提出的基于视觉素材story telling的工作。任务要求是给定一些具有差异性的图片，围绕这些图片的差异性生成一个简短的介绍。最近的一些工作会尝试融合一些图像的Scene Graph来保证整个生成的逻辑性和顺畅性。

还有一种从文本出发，做Story Visualizatioin。做的效果比较好工作有微软的StoryGAN，它可以根据相关文本内容，生成类似于卡通动画的场景。文本可视化目前还处在偏创新探索的阶段。

2. 虚拟主播剧本构建流程

纵轴来看，我们对剧本预先设定了框架，框架一部分来自于业务的定制性，另一部分来自于我们对用户的关注点挖掘，比如检索日志或历史点击内容，或者说从真人主播历史中挖掘好的脚本套路，然后来形成一体化的框架。
在这个框架之上，我们会去沿着图中横轴的步骤去构建整体剧本，整体成型的剧本里边涉及到多种素材来源。既包括了关键词， pv属性等结构化的数据，也包括了一些非结构化的比如文本、图片、视频等内容。最终，这些内容在构建过程中通过匹配的方式，或者在素材来源追溯的方式得到最终的呈现。

3. 素材的挑战

① 多来源知识挖掘与对齐

第一步要解决的是素材从哪里来的问题。在我们的业务场景中，更多是要用轻量高效的方法快速实现素材的构建。虽然淘系或者电商域已经积累了大量的这种素材，但它的形态非常丰富，关键词、三元组、短句、单句到整个篇章，以及面临着多渠道的一些来源，比如说用户的、有UGC的，有商家PGC的，还有平台积累的一些比如说知识图谱，商品图谱这样的信息，它会带来极大的知识质量控制挑战。在这里面的话，我们基于现有的淘系商品图谱做了进一步的扩展。

在右边这个例子中可以看到我们对于历史文本进行短语挖掘和实体的识别与挂载，会从商品属性扩展到卖点，例如宝宝餐具，因为它的材质是食品级硅胶，这种食品级硅胶它带来的卖点就包括了可以支持高温的消毒，更加安全，不含BPA等信息。其实不只是卖点，我们会把用户使用场景相关的痛点，同样关联在图谱中。这些关系最终会作为基础的框架来去组织素材，达到剧本的整体逻辑性。

② 详情页结构化改写

但是对于一些新上架的商品，它基本上没有历史数据，所以我们也引入了这些商品的详情页作为冷启动来源。我们处理的思路和Layout LM的思路类似，因为如果直接做image caption，结果不可控；但是如果拿OCR挖掘，会由于布局的关系会显得比较杂乱。

所以我们会结合一些相关的object或者layout embedding，然后来实现对句子相对位置的感知和最终改写完整性的保障。比如说我们针对这张抽取的相关的片段，形成一句卖点的介绍。在最终的业务数据集上也有明显提升。同时在素材方面还有一些比如像短文本生成，模板自动生成，这里就不再展开了。

4. 结构的挑战 — 引入知识图谱增强逻辑性

但是我们只有素材的话，其实有一个挑战在于我们没有办法以一个很好的逻辑去展开。这里举一个具体的例子，就是在我们做的第一版的剧本里边，我们的数字人可能更多的去围绕着商品的成分和功效来去介绍，就听起来的观感就有点像王婆卖瓜，自卖自夸，这样它很难去与用户真正产生一个连接，或者说让他们有一种真实感。

所以说在这个例子里，我们会先从近期天气炎热比较干燥，或者说熬夜会遇到的皮肤衰老角质化问题，从真正用户遇到的痛点问题，以及它对应的生活场景出发，再回归到我们具体介绍的商品属性，或者说卖点的介绍上来。在这个过程中，我们会引入到一个场景化的知识图谱，这个也是我们在之前的基于成分卖点的基础上做了进一步扩充的，目前主要覆盖了美妆食品等热点类目。在剧本的生成过程中，我们最终会分成两步。第一步将虚拟人讲解的大纲基于图谱做生成。第二步，围绕着大纲展开，填充具体的内容形成剧本的血肉。

5. 衔接的挑战 — 流畅表述

有了结构以后，他可以在宏观上保证我们顺畅的去讲述这件事，但是在微观上怎么去流畅的表述呢？例如我们讲棉布的亲肤感、透气性、卫生性的卖点来说，会面临着很多冗余的素材。围绕着预训练通过预构建数据集，比如说句子的顺序的打乱；丢弃和重复样本的过滤等等，这样可以使大规模训练的模型具有一定的重点抽取能力，类似摘要的解法。但如果用纯生成的方法，在遇到线上百万千万甚至亿级的商品规模时，它的延时性就会达不到要求。

所以我们在这里又进一步引入了一种基于块拷贝/block copy方法，在里面比较好的内容，我们会以成句或者说短句集的形式直接拷贝过来。在这个过程中，相比较原始的一些pipeline的方法，或者说是一些比较简单的像BART这样的基于预训练模型的生成方法的话，无论是在数值上比如BLEU、ROUGE的指标上，还是在人工评分上都有更好的效果。

具体可以看一下case。最终的话，我们会把棉布里边相关的一种吸湿性吸汗性亲肤感等等特征抽取出来，并且根据这里边的前后的语义逻辑，形成最终的整体性的介绍。

从问答到直播，关注点变化引发的问答新挑战

下面我们主要介绍虚拟人互动方面的技术。作为比较，列举出某一个直播间的对话分布，可以看到相比较小蜜之前做的偏售中后的场景来说，用户直播间的问题更加值得关注。比如说有活动优惠或者商品问答的一些产品里，它面临着更多的一些非标准的，答案会实时变化，并且问题的跨度比较大以及问题长尾等现象。针对这个问题，我们基于之前的FAQ的知识库进一步的引入比如说像活动的这种文档操作的说明书，还有一些百科内容，去构建起一种基于阅读理解的问答能力。

1. 通过阅读理解，降低人工配置成本

刚才也有同学提到了关于MRC的一些任务，在学术的数据集上，比如说高达这样的，它很多都是一些span，当然到后面我们也可以看到基于多跳推理和长文本，甚至说带有生成式答案的阅读理解的过程。在我们的工作中更多会是从业务实用的角度去考虑这件事，比如说我们会结合不同的一些任务，像Retrieval & Ranking、基础的预训练来去做整个model，通过Multi-Task Learning去共享相关的数据和不同的训练阶段来获得整体的提升。

2. 从答到问 — 通过QAMaker辅助知识构建

但是在上线以后也会发现一些问题，如果只通过MRC做内容抽取的话，它的业务可控性其实不如FAQ这样灵活，比如说FAQ我可以去加一些相似问法或者干预手段。同时它领域迁移的成本也比较高，但另一方面的话，我们又面临着大量的不管是我们域内还是域外的客户，其业务都涉及到大量非结构化文档，所以在这里的话我们就进一步引入了MRC的对偶能力Learn to Ask,构建了QAmaker。

关于QAmaker我们今年在WWW上被接收了一篇文章，这也是业界第一个把这两个能力去做了一个one-stop联合式的方案。它的思路很简单，但效果非常不错。主要方法是MRC的抽取和生成做了Joint Training，同时对答案span预测的过程和问题的过程做进一步的attention，这就可以使模型在问和答上相互指导。

它的好处就在于我们相比较这种两阶段式的，比如说先抽取再生成问题，或者先生成问题再抽取来说，它的生成问题和答案的抽取可以是并行，并且是能够相互一致性，相比两阶段有更好的一个效果。具体的话可大家可以去看我们的文章。

3. 引入详情页内容支持轻量化问答

让我们把目光回到详情页，因为详情页还是一个对于冷启动商品或者说长尾问题很好的解决内容来源。所以说在这里我们也引入了VQA视觉问答任务，首先把详情页去做了一定的采取裁切和匹配，根据用户的问题会返回相关的图片，并且高亮其中的区域，同时也会生成一个简短的文字内容回复。

4. 多模态阅读理解

① 支持主观、长尾问题回复

在这里面的话，如果单纯利用OCR的话，其实它有很多问题是难以解决的。比如说有一些偏向于主观类的，它可能更需要去理解这个图片。有一些在吊牌图和同样的视觉信息都包含的情况下，我们更希望去展示一种视觉相关的内容，更不用说可能很多图片其实是没有文字标注的。

② 多模态阅读理解挑战

除了对图片和文字的理解外，对整个详情图做细粒度语义切分同样很有挑战，怎么去选取带有语义一致性的，但是颗粒度又比较细适合做回复的，也需要通过多模态技术解决。

③ 支持视觉 - 文字的匹配与对齐

在这个过程中的话，我们利用了多模态的预训练技术。最终的效果可以看到一些主观类的一些问题，然后还有一些使用步骤的问题，我们都可以在直播间或者问答的时候去做一个呈现。这里是一些视觉呈现和播报文字对齐配合的示例。

5. 多模态训练如火如荼

由于预训练这里前面的老师已经做了非常详细的介绍，我就不再展开了，包括了单流的模型，双流的模型……这里我写的比较是之前比较早期的一些工作，包括近期我们可以看到有UNIMO，还有像视频的MMT等等的，都会有很多这样的工作。

6. 小蜜多模态算法

① MMTK（MultiModel Toolkit）

我们也是在这个基础上，针对详情页这种形态，引入了额外的任务。比如说详情页这里边的话，我有一张大的一张图片，我把它通过一些视觉的方式切分开以后，这些小图和大图之间的关系，天然就具有一定的语义包含的信息，通过这样来去学习到他们局部的文字和图像之间的语义关联。

我们也在公开的VQA challenge上连续几年取得了Top成绩，同时在业务效果上相对来说比之前单模态拿到了更好的结果。但是这种直接基于详情页图片的这种大小关系，其实是一个很弱的对齐，包括我们也看到了，大家在整个领域发展过程中，也在不断尝试利用到一些细度match的信息，包括OSCAR它可以用一些图像的scene graph，然后像ERNIE-VIL，然后之前应该在早期也有一个针对文字的这样的信息的融入。

② ROSITA：细粒度跨模态预训练

我们进一步提出了ROSITA模型，最近刚刚被ACMMM会议所接收。这里面、有一个很直接的motivation，我们会将这个图像里边的scene graph的物体和文字里相关的一些实体做更精细粒度的对齐。在具体的实现上面，我们会将同模态中出现在scene graph的实体，与其有直接连接并且连接关系比较强的部分元素以更高的概率去做作MLP任务，因为相对来说它们之间容易导致信息泄露。

同时，在跨模态之间做对齐的元素，我们会降低它们同时被mask的概率，因为这部分其实可以提供很好的模态之间的互补信息。通过这样的方法，进一步改进了mask language model里边的token prediction的任务效果，然后在不侵入模型结构的情况下去进一步提升它细粒度的一个学习能力。可以看到右边的话，我们在对比这样的基线的UNITER 模型时，我们在不同的物体和token之间的定位都有更好的效果。比如对于children这个词，我们会进一步的把图片里边的两个小孩都会高亮出来然后再识别出来。包括在child和cat这样的重叠视觉区域里边，模型会将文字里边相关词赋予更高的attention权重。

感兴趣的话大家可以去，我们近期应该会公开相关的论文和代码。这部分的话也是在包括对比OSCAR、VILLA等一些模型，也拿到了多模态多种数据集的SOTA效果。

7. 从图像到直播

① LiveQA的演进

但是其实对于直播间整个形态的话，它不只有图片，也不只是视频，进一步的也可以结合直播流做一些互动。我们开创了Live QA的工作，在这里我快速提一下它的演进过程，对于视频会有Grounding的任务，比如说可以检测里边的物体、动作、时间等，是比较经典的视频任务，再进一步的话，目前也有VideoQA的任务，会针对一些具体的问题去截取相关的视频clip，或者说基于给到的文字，回复相关的音视频片段。那么在直播这个场景，LiveQA的差异点一个是在于音视频流往往都是实时的，相比离线的VideoQA对于食品表示和匹配的延迟会有很高要求。

另外直播间里因为涉及到用户的互动行为，还存在点击、评论等异构化数据，怎么根据用户的问题来去快速跳转到之前曾经播报过的某一个时间段，也同样需要融合这些异构数据。所以我们今天定义的Live QA任务，目前它会作为一个独特于静态视频的形态，会有新的挑战需要去解决，未来或许也会结合这种Live的这种形式来去做streaming base预训练的工作。

② LiveQA处理流程

目前为了更好的落地，我们把它分解成了一整个链路，在视频的表示方面融合了ASR/音频和视频中检测出实体等结构化信息与统一的高维表示。因为这个场景相对来说是强商品驱动的，也会涉及到大量属性或卖点等。同样对于用户Query也会做NLU的结构化表示和识别，由于用户经常会包含类似13号商品的指代信息，这时候还涉及到上下文的消歧，有些情况还需要做反问确认等等。

再进一步我们会综合这些信息到视频的预训练模型上面去做跨模态对齐和信息融合。这里的展现是在回放场景，通过主播小助理点进去了以后，可以看到它推荐的热门问题部分可以做视觉呈现，支持快速跳转回放。目前整个工作还在不断的进展中，我们也在去覆盖到更多的行业和场景，后面有机会的话可以再去做分享。

总结

做个小结，我们看到人机交互已经变成了多模态或者全模态融合的交互形式，以数字人为例今天提供了更多的维度和空间，帮助我们去构建一个更加人性化、更加友好的交互体验。同时随着生成技术发展以及结合知识图谱的扩展与推理能力，能够让整个内容生产跟得上今天交互形态的发展。最后，预训练技术其实从文本到多模态已经形成了明确的发展趋势，未来在面向直播的这种低延时，高噪声的场景里边，可能有更多的问题和挑战需要我们去解决。

今天的分享就到这里，谢谢大家。

编辑：黄继彦

校对：林亦霖