AI手语「翻译官」上岗!看鹅厂「小聪」解说谷爱凌人生最高兴1秒钟

新智元

共 2805字,需浏览 6分钟

 ·

2022-02-12 01:18



  新智元报道  

编辑:好困 桃子

【新智元导读】北京冬奥会上,鹅厂AI手语数字人正式上岗。她们用手语解说为2780多万特殊群体献上了中国人的专属浪漫。

 

北京冬奥会上,赛道是冰冷的,这2780多万人的心却是暖的。

 

何出此言?

 

8日上午,谷爱凌夺冠,一时间全网刷屏。

 

3D手语数字人小聪在腾讯体育用流畅的手语解说了中国女子雪上项目夺得首金后激动人心的瞬间。

 

 

在短道速滑混合团体2000米接力的比赛上夺得金牌后,「冰坛新秀」范可新采访时已经泣不成声。

 

在这热泪盈眶的1分半钟,同样是小聪让听障人士也能和其他人一样分享获胜的喜悦。

 

 

冬奥会期间,同样24小时在岗播报的手语主播除了小聪,还有3D手语数字人聆语。

 

「中国队,率先冲过终点!」

 

在2月5日的短道速滑混合团体接力决赛,聆语通过手语播报向听障人士表达了中国队获得冠军的激动心情。

 

 

这两位AI手语主播都是腾讯3D手语数字人,她们用活灵活现,准确无误的手语,为无声世界的人们带去冬奥冰雪赛事的精彩内容。

 

她们做的这一切,不为别的,只为这些人。


他们是谁?

 

据统计在全世界有超过4.66亿的人有听力障碍,我国达到听力残疾标准的人士超过2780万,占残疾人群体的30%以上。

 

由于无法像健听人一样聆听世界,听障人士通过手部动作、面部表情,甚至是口型变化的结合,打造了一套有别于其他任何一种语言的,完全依靠视觉传达信息的语言系统:手语。

 

然而,即便有了能够互相交流的方法,他们和健全人之间依然隔着一堵无形的墙。

 

从电视新闻到长篇科普,再到现在风靡全球的短视频,媒体及视频平台一直都是大众了解世界、融入社会的基础路径。

 

然而,现有的媒体平台不仅缺乏规模化的手语老师,而且较小的手语播放窗口也限制了表情、肢体动作等非手控信息的清晰呈现。此外,电视节目在提供手语解说时多以正常语序编排,很少照顾到手语的特殊表达结构。

 

因此,绝大多数听障人士只能理解手语新闻中不到60%的内容。

 

你可能会问,能不能通过字幕的方式解决呢?

 

答案是,能但是很难。

 

其中一个非常重要的因素在于,手语的表达和文字之间存在着很大差别。

 

对于那些受教育程度较高的年轻人来说,阅读字幕可能没有什么问题。然而以手语作为「母语」的听障人士想要单独依靠字幕进行理解还是相当困难,不过配合上手语之后对视频内容的理解就会轻松很多。

 

另外,手语中有些表情动作可以传递程度、好恶等有感情色彩的含义,单纯通过字幕来表达可能会有所欠缺。

  

因此,想要让听障人士正确地get到新闻播报中的内容就必须解决以下三个难题:

 

1. 手语与汉语完全不同的表达语序

 

比如,普通话的「猫追老鼠」,手语的表达就是「猫、老鼠、追」。而「北京 常常 堵车」的手语表达是「北京、堵车、常常」。

 

2. 手语中不仅仅只有手部动作,还有表情、口型等等

 

比如,「我做得好不好」和「我做得对不对」的手势是一样的,两者的区分就需要依据口型去判断。此外,如果想要表达「疑问」的语气,就需要配合皱眉的表情,而「感叹」的语气则对应一个挑眉的动作

 

3. 手语中没有虚词和量词,转换的时候需要适当删减

 

比如,「我买两只铅笔、一本书」表达出来就是「我买铅笔、二、书、一」。「大雪纷飞」的手语中,既不会有「大」,也没有「纷飞」,而是在「雪」的基础上加大身体的摆动来体现程度副词。

AI也被拉去做冬奥「特训」


那么,如何才能听障人士更好地收看并理解冬奥赛事呢?
 
作为全球首个3D手语数字人,小聪肩负起了此项重任。
 
在正式上岗之前,小聪经过严格的训练的训练,完全依照《国家通用手语词典》,并可以顺利地完成汉语到手语的语序转化和翻译过程。
 
此外,在中国聋人协会、手语老师以及听障人士组成的顾问团队的帮助下,小聪不仅能更好地理解需要播报的内容,而且还完成了手语动作和面部表情同步,完善了手语的表现力。
 
前期的准备工作完成之后,就是针对冬奥的「特训」了。
 
 
对于体育赛事来说,当进入到白热化阶段的时候,解说员的语速可能会变得非常快。此外,在赛后采访中,音频中可能带有环境噪声和混响。而对于冬奥这个特殊的场景,则缺少相关的数据。这些都会对小聪的翻译造成极大的影响。
 
针对这类的问题,团队定向抓取了大量体育赛事解说数据,并且还研发了数据增强方案和多语种融合训练算法,分别从数据和模型训练两个层面对最终效果进行了优化。
 
在经过针对体育赛事中手语词汇的专项训练之后,小聪拿到了冬奥会体育赛事手语解说的通行证。
 

 
经评测,小聪手语表达的可懂度可以达到90%以上,手语与口播播报速度的延迟时间也从降低了 20%。
 
小聪能够取得如此出众的效果,是依托于国内首个完备的Text to Pose ,Video to Pose手语翻译系统。
 
作为一个成熟的 PaaS 系统,其可以快速实现从文本、视频等到手语视频的转换和输出。
 
 
此外,有了PaaS系统的加持,以视频流的形式为直播节目加入手语解说也就不是什么难事了。
 
 
作为背后的研发团队,腾讯PCG AI交互部有着深厚的AI能力积累,在语音、数字人、计算机视觉、自然语言处理等多个赛道均有突破。
 

鹅厂下一步

 
一场冬奥冰雪赛事,小聪和聆语为2780多万人带去了便利和温暖,也恰恰践行了腾讯一直以来坚持「科技向善」的理念。
 
在接下来的冰雪赛事里,小聪和聆语还将提供手语翻译,让更多的人一起见证中国队夺金时刻!
 
历经数年积累,从实验室走向台前的AI手语数字人,让科技变得有温度。
 
未来,腾讯3D手语数字人应用场景也将无限扩大。不仅在传统新闻报道,实时现场直播等新闻发布类场景下继续提供流畅的手语解说。

还将开展线下景区景点,机场医院等文化、生活服务场所的探索,解决听障人群在日常生活中遇到的问题。

同时,越来越多的手语人形象也将不断涌现,为听障人群提供多元化个性化的服务,填平信息传递的鸿沟,逐步落实全社会信息无障碍的建设目标。


 

浏览 36
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报