【行业资讯】“数字人”造福听障人士!全球首个手语AI合成主播“小聪”发布
共 4352字,需浏览 9分钟
·
2021-05-22 18:20
正文共:4194字-5图
预计阅读时间:11分钟
❑ 导 读
全球首个手语AI合成主播“小聪”,基于搜狗领先的人工智能和AI分身技术,以“黑科技”的力量帮助听障人士更好融入社会,更好享受数字化生活。
5月17日,搜狐科技5G & AI峰会在北京举行,搜狗CEO王小川应邀出席发表主题演讲。活动中,王小川正式发布最新一代搜狗AI合成主播——全球首个手语AI合成主播“小聪”,基于搜狗领先的人工智能和AI分身技术,以“黑科技”的力量帮助听障人士更好融入社会,更好享受数字化生活。
王小川指出,早在2018年,搜狗推出了第一款“数字人”,这是以新华社的崔浩命名合作了“新小浩”的形象,这也是全球第一款AI合成主播的亮相。第一代“数字人”的表情和手势还非常拘束。“之后我们在道路上一直引领着发展,现在已经推出了七代‘数字人’产品。”
为什么会考虑推出“数字人”?王小川指出,源头是搜狗基因里涵盖着搜索,表达了知识获取、和人对话的能力,输入法更强调沟通,输入法和搜索背后的原始核心都是强调的语言。
技术突破解决听障难题
根据世界卫生组织发布的数据,全球听力障碍人群高达4.66亿,在我国则有2700万人。因无法常态化、高质量地接受资讯信息,很多听障人士难以融入社会,最终成为被遗忘和边缘化群体。
目前,在以电脑、手机为载体的各类新闻资讯、文娱节目中,引入手语协助的少之又少。即使有能力的电视节目提供手语解说时,也多以正常语序编排,很少照顾到手语的特殊表达结构,造成绝大部分听障者只能理解不足60% 的内容。因此,通过技术创新实现听障人士真正可懂的手语播报能力,对于帮助听障者克服沟通障碍,更好融入社会非常有价值。
“小聪”以打造听障人士真正可懂的通用手语播报为目标,立足于搜狗领先的数字人技术体系——搜狗分身,集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项领先AI技术,实现了超写实3D数字人自然可懂的手语主播能力,使机器可以基于输入口语文本生成逼真度高、手语表达准确的3D数字人视频内容,从而具备“超写实的逼真数字人效果”、“高可懂度的手语表达能力”、“高接受度的手语展现效果”三大特点。
三大优势凸显“小聪”能力超群
数字人效果方面,“小聪”使用了行业最领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型,数字人写实度的大幅突破则能够显著提升手语播报的真实感与亲切感,从而提高播报用户体验。
手语表达方面,“小聪”基于《国家通用手语词典》,能够实现健听人语言与听障者手语语言的机器翻译能力,基于输入的健听人语言能够低延迟生成高准确率的手语语言表征,通过搜狗分身的多模态生成技术,实时预测生成对应的超写实3D数字人驱动参数,进而快速生成数字人手语播报视频,在测评中可懂度可以达到85%以上,能有效帮助听障者克服理解障碍,达成信息有效传递。
手语展现方面,“小聪”可以完整实现手控信息及非手控信息的表达,通过机器翻译生成手语表征信息,覆盖手部动作、面部表情、口动唇动等多个维度,并基于搜狗多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列,从而达成自然、地道、接受度更高的手语表达效果。
在此过程中,“小聪”还运用了业内领先的搜狗SLMT(Sign Langure Machine Translation)技术,在输出符合听障人士习惯自然手语的基础上,进一步提高了手语的可懂度、丰富和逼真了AI合成主播的表情与唇动能力,除了可以解决听障人士在日常生活、公共服务、特殊教育等多个场景下的信息不畅问题,还可以快速生成、批量复制,全年无休、随时随地提供服务。
以下为王小川演讲全文:
搜狗更让人熟悉的产品是输入法搜索,背后也有一套AI的理念和产品,这次和搜狐一块推出柳岩主播形象,背后有更多的内容跟大家分享。
早在2018年,搜狗推出了第一款“数字人”,这是以新华社的崔浩命名合作了“新小浩”的形象,这也是全球第一款AI合成主播的亮相。引起了国际上面的热议,尤其是全球的顶尖媒体,包括像华盛顿邮报、Times,从主流到扩展开有500多家媒体报道事件,当时新华社的人物成为了全球AI人物的亮点。
当然,第一代“数字人”的整个表情和手势还是非常拘束的。之后我们在道路上一直引领着发展,现在我们已经推出了七代“数字人”产品,从第一代,之后2019年第一季度推出了表情更加丰富的“数字人”。
第一代还很僵硬,第二代的时候从坐立的形象走向站起来,有肢体语言。三季度的时候发布了第四代技术,开始有多种语言,从中文走向英文、俄文,应用也是在海淀知识产权法庭使用。
2019年“数字人”有完整的能力,一个感知的人的表情和语言能力,另一方面语言的问答能力合并,客服的能力,这个产品在平安进行了使用。2019年的时候有了第六代的大规模肢体语言,到了2020年的时候走向3D,这是更大的突破,从2D到3D使它的肢体和场景有无限的展开。
在行业应用中,新闻主播是第一代的原型,之后有了AI营养师,在搜狗产品里面跟用户交互,能够使用户的体验度有更多的好感。还有AI的法官,下面的客服和证券也是在使用的,包括平安有“数字人”,我们还有数字人分身。这是著名的气象主播杨丹,我们也数字化了。
为什么会考虑推出“数字人”?源头是搜狗基因里涵盖着搜索,表达了知识获取、和人对话的能力,输入法更强调沟通,输入法和搜索背后的原始核心都是强调的语言。
语言存在两个能力。首先语言承载了沟通的能力,通过语言人和人进行交流。其次语言承载了认知能力,如果没有语言人类是没办法进行深层次思考的。以语言为核心以交互的技术进行沟通,从文字走向语音、图像、视觉。在认知层面的知识计算,语言搜索的核心加进去,里面有对话、翻译的能力,把沟通能力和它的计算思考合在一块。
我们认为有机会给行业人士去制造他们的分身,让他们的知识能力拓展到不止一个肉身去工作,同时让他一天24小时无休地做更多的服务。在行业当中今天有另一个走向是偶像,是打造一个虚拟的情感和崇拜能力,解决行业效率提升的问题。
除了刚才讲的以外,搜狗在语音识别合成里面做了非常多年的积累,今天可以秀一下口音里面背后有大量的技术,包括语音音节的表征迁移技术。比如特朗普口音,下载素材并通过半个小时声音皮肤技术处理,把他的音色提取出来,他就可以说中文了。
这是原始的工作,他的口音还带有川普的音色,我们现在也有更多的技术对他的底层皮肤声音的音节进行更多的修正,一种情况是修正成普通话。同时也有能力修正为其它的各种方言,可以把口音修成普通话,也可以把普通话做成其它的口音,比如陕西口音的合成,有不同方言的合成,也有韵味带进来,有非常多的工作可以让这种口音播报更加自然和有趣。
除了合成里面蕴含的黑科技,搜狗也是行业当中最早实现唇语识别工作。深度学习可以做到的一项工作就是做到了唇语识别,还可以独立工作,不需要语音提取,只看嘴型变化就可以到60%的识别。把语音和口型放在一块,语音非常嘈杂的情况里面几乎只用视觉也可以达到90%的高度,在电梯以及外部环境听不清的地方都可以使用。这不止是处理文字、语音或者简单图像的合成,而是在语音图像的合成里面找到核心的技术。
基于这样的技术,我们可以看到全面的能力,有图像识别、人体识别、语音合成,嘴部语言合成,耳朵听声音,大脑思考变化,面部的表情和嘴唇言语的合成,打造全方位互动的形象,成为更多的分身。
比如银行客服人员,她有真实的原型,但是一旦用自数字合成之后就有孪生的系统。国家在定的法规在保险行业是必须要进行面签,网络上的面签希望节省客服人员的工作量,最后就有这样的虚拟形象和面签,对消费者有一个告知和全程数据录像,解决了金融行业出现的问题。
还有什么工种更有社会意义呢?搜狗跟搜狐完成媒体的升级的同时,我们考虑自己的社会责任。全球大概有4.6亿的听障人士,中国有2700万人,他们直接看电视和网络新闻的时候声音的敏感度不够。
国际公约要求媒体能够提供有听障人士需要的节目,大家看到新闻能够提供听障人士的版本供他们使用,中国08年参与这项公约。在听障人士的节目制作上,与欧美发达国家和港台地区相比,我们相对都是落后的状态,这样的情况并没有引起学界高度重视和跟进,整个的研究水平和实验水平相对偏低。
这样一个技术背后的原因也是有相当大的挑战,国外在发达国家有更多的真实人士配置。我们提倡数字分身的技术是否能够把更多手语主播的能力合成进来变成分身。这是蛮难的,我们有非常多的技术难点。
第一件事情,手语语言并不是纯正的汉语,语法规则不一样。普通话猫追老鼠,手语就是猫、老鼠追,还有开车不准喝酒,开车喝酒不准,要进行一层一层语义的翻译工作。在这种情况下,我们今天看到在新闻电视主播的使用离残疾人士和听障人士是有距离的,打手势的优化程度不足理解度只有60%。而翻译技术上反而帮助我们把正常语序翻译成听障人士需要的语序。
第二件事情,当我们在做手语的时候,“数字人”的表达动作需要非常丰富,尤其是有大的肢体动作和细腻的手势表达,不简单是语言语音的问题,肢体本身成为他们获取信息最重要的场景。随着我们从期待的“数字人”技术进步到今天到大的肢体表演和小的肢体里面,有机会完全手语的表现能力。
第三件事情,不仅是手语,我们发现听障人士表达的时候他们的表情在传递信息,表情参与了整个语义里面。比如他打的手势——“他究竟什么意思”有不同的表情传递不同的意思。比如问句、感叹句、陈述句。在合成的时候不仅要有一个大范围手势和细腻手势,对于表情的联合建模也非常关键,极大提高了他们对语义的理解。
在这样一个大的情况里面把搜狗的语言和语音、图像相关的很多能力用到了,在前期有文本的预处理之后开始用了手语翻译,里面借鉴了机器翻译能力,把手语表征进行合成,形成了自然语言到手语切分的表达,所有的生成一方面是生成手势能力,一方面是生成面部表情,最后合成得到一个新的“数字人”。最终就合成了全球首个AI合成手语主播。
我们今天正式做一个“手语AI合成主播”发布。希望在今年年底之前这样的产品能正式上线,帮助中国人民和全体人民享受更好的数字生活。