两会上的这位虚拟人小姐姐,火了!

共 3129字,需浏览 7分钟

 ·

2021-03-14 12:00



  新智元报道  

编辑:Q

【新智元导读】今年看两会,又有新花样。来认识下这位两会助手小姐姐,她不仅能够与你进行交互,还能解答关于两会的一些问题。「爱加」出道!简直比王冰冰还甜!

 

今年经济增长有哪些支撑因素?

 

2021年中国经济走势如何?

 

除此之外,关于两会你还有哪些问题?

 

不妨问问

 

 

她叫「爱加(i+)」,是个A.I.虚拟人,担任了本届两会的虚拟助手,能够与你进行交互,解答关于两会的一些问题。

 

在与央视网联合发布的《2021两会邀你来阅卷》H5中,爱加的互动效果可谓与真人无异。基于语义理解技术,爱加可以对用户的提问进行实时的问答,帮助用户迅速掌握两会要点。

 

 

这位超逼真、真智能的「爱加(i+)」利用了科大讯飞的语音合成、人脸建模、唇形预测、图形处理等多项人工智能技术,只要对她提出问题,就能为你解答,可以实现与用户“面对面”的互动交流。

 

其实,这并不是爱加小姐姐的第一次亮相,早在春节期间,她就担当起了「云拜年」的重任,用户通过输入姓名、选择拜年文案及场景的操作,就能通过爱加声情并茂地向各地亲朋好友传递祝福。

 


不仅如此,爱加还可以更换多种服装和造型,祝福语也支持合肥话、东北话、四川话等多种方言,甚至还可以说外语和唱歌。
 
除此之外,科大讯飞虚拟人也在人民网正式“上岗”,为大家带来“A.I.主播说两会”,及时呈上快讯播报、以及对重大事件的精准解读。
 
在爱加之前,科大讯飞就已经发布过以虚拟主播「小晴」为代表的虚拟主播家族:
 
科大讯飞早期的「小晴」虚拟人
 
作为科大讯飞早先发布的虚拟形象,小晴更多的承担单向信息输出的播报工作,而随着技术的迭代以及场景的多元需求,虚拟人与用户的双向交互也越来越受到重视。

和小晴1.0相比,爱加在声音、动作、造型乃至于微表情的表达上更丰富,用户通过爱加来拜年,能让天南海北的朋友倍感亲切。
 
如果说之前的爱加,让我们看到了虚拟人在视频合成内容上的技术突破,那么本次科大讯飞的两会A.I.助手,则让我们看到未来虚拟人在与人交互中的无限可能。
 

虚拟人「爱加」,更注重与人交互
 

虽然爱加已经有了巨大的进步,但多数虚拟人项目还存在如下问题:
 
图像合成在复杂场景下的效果不理想,语言的表达上也比较单一,适合新闻播报场景但在其他场景的应用上稍显不足。比如,在情感语音的合成方面也还有很大的差距,从人物的形象合成上来讲,大角度的走动和舞蹈状态下的合成效果也比较难以处理。
 
但科大讯飞凭借多年的技术和语音数据的积累,正在逐一解决这些行业难题:
 
在科大讯飞的A.I.虚拟人已有的多语种、多方言合成能力之外,科大讯飞提出了基于歌唱音准的无监督歌唱标注方法,将发音和音准分离,利用神经网络分层级预测,结合高精度神经网络声码器合成高品质歌曲,同时提出姿态自适应的表情合成技术,解决了舞动状态面部姿态大角度以及多角度快速切换场景下的唇形合成难题,在使得虚拟人在精通各种语言的同时,还能倾情演唱。
 
为了给虚拟人注入情感,使其在互动表达中更有人情味,科大讯飞还结合了认知心理学理论对虚拟人进行交互情感设计,利用无监督表征学习方法,分离并获取语音中的情感表征。同时,利用海量文本无监督语义模型对各类文本进行情感分类预测,实现人性化的端到端情感合成系统,让虚拟人“活泼”起来。
 
此外,基于科大讯飞提出的海量说话人的音视频数据预训练技术,虚拟人爱加能够做到基于少量数据就完成快速的建模,满足多种场景多种风格形象的快速定制。
 
单从虚拟人来看,科大讯飞并不是第一家。
 
在过去的几年中,已经出现了许多虚拟人项目,比如搜狗的AI合成主播:
 
 
还有腾讯与软银投资的Oben等:
 
 
而跟早前的虚拟人不同的是,爱加的方案融入了更多智能化、自动化、决策判断的AI技术元素。
 
爱加不仅声音音色、讲话风格、表情唇动、肢体动作都更加精细和准确,表达效果也更加丰富、生动、人性化,使得虚拟人的形象更加生动真实。
 
而这正是利用了科大讯飞提出的基于音视频联合约束优化的人脸参数提取技术,让不同角度下的人脸参数都能够准确提取,保障了不同角度下的口唇合成效果,让虚拟形象可以展现得更灵动。
 
除了爱加本身形象更多样表达更灵动,科大讯飞还创新性的引入自然语义理解技术,对文字内容进行智能理解和决策,实现背景、音效等更多丰富视频元素的自动化、场景化搭配,自动生成元素丰富、形式多样的视频,大幅提升了用户与虚拟人交互过程中的视觉效果和交互体验,在AI多模态虚拟人方向进一步探索。
 
如果借助面部捕捉技术的辅助,未来也许可以生成更加逼真的虚拟人:
 
 
加州大学伯克利分校的学生曾在2018年发表了一篇论文,提出了深度学习图像处理的一种更有趣的应用:通过机器学习采集素材,可以将一个人的动作投射到另一个人的身上,让不会跳舞的宅男宅女化身舞蹈大神。
 
 
通过各种技术的整合,实现科幻电影和3A游戏里面常见的可以交互和对话的虚拟人,或许真的没有想象得那么遥远。
 
随着过去几年深度学习技术的不断进步、数据的扩增和算力的提升,未来的虚拟人项目可能会更加的惊艳。例如最近超火的汤姆克鲁斯的“Deepfake”,就是通过深度学习技术,用一个人的脸演绎另一个人的表情:
 
 
由此看来,爱加只是虚拟人实际落地的一个尝试,随着全息投影技术的进步、VR、AR等设备的普及,未来通过这种人和虚拟人的人机协作,一定可以实现真正把人从重复性的工作中解放出来,极大地解放生产力,提高生活和工作的效率。


两会虚拟助手只是起点
 

在音视频内容生产方向,科大讯飞已经有了讯飞配音、讯飞有声、A.I.虚拟主播系统等落地应用,面向不同用户群体,通过智能化音视频技术,辅助日常使用,实现不同场景下,快速生产音视频内容。
 
 
在交互场景方向,科大讯飞运用新升级的A.I.虚拟形象技术,结合语音识别、语义理解、语音合成、虚拟形象驱动等A.I.核心技术,实现用户与A.I.虚拟人之间的互动交流、业务咨询、智能问答、服务导览,虚拟站务员、虚拟金融理财顾问、虚拟面试官等的推出,使得科大讯飞虚拟人的多模态得到了广泛应用。
 
随着5G时代的到来,虚拟人更是可以深度匹配不同行业的更多场景需求,如A.I.客服、A.I.经理、A.I.店长、A.I.演示员,甚至是A.I.医生,A.I.老师等多种社会角色。
 
几年前,科大讯飞团队通过“声音复刻”技术在一档综艺里为辽宁女孩圆梦,助其实现“留住已故爸爸”的心愿。通过A.I.语音合成,女孩爸爸的声音在节目现场重现,并为女儿读了一封信,给予了她生活的信念与希望,也给予了观众无限的感动和震撼。
 
未来,科大讯飞通过虚拟人技术,或许可以解决各种需求,让虚拟人不再「格式化」,实现「千人千面」,带有更多的人格化特征。
 
也许这才是科技赋能生活的真正意义,未来值得期待。
 
浏览 39
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报