搜狗发布全球首个手语AI合成主播,用技术造福听障人群
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
看央视新闻,你一定对“段子手”朱广权逼疯手语老师的画面印象深刻吧。
手语新闻帮助听障人群更好地了解这个世界。
可是你有没有想过,自动生成字幕技术已经非常成熟的今天,AI能够迅速将语音转成文字,为什么电视新闻还需要手语播报?
一群程序员为聋哑人打造手语主持人
在中国14亿人中,有2700万听障人士。
这些人的年龄、受教育状况参差不齐。很多听障人士文化水平不高,他们当中很多人对手语比对文字更加熟悉。
而且手语的思维方式、顺序和语音的方式并不相同。
比如我们一般说“开车不喝酒”,但是在手语中,却是按顺序打出“开车”、“喝酒”、“不许”这三个手势。
一般的电视节目多是按照正常语序编排,很少照顾到手语的特殊表达结构,导致绝大部分听障人士只能理解不足60%的内容。
尤其是播报突发疫情等新闻消息,往往没有实时字幕,这些人就更难获得信息了。
当我们在用手机刷短视频、看新闻的时候,由于缺乏手语播报,那些听障人群却无法和我们一样接受这些资讯,他们当中很多人难以融入社会,处在被遗忘的边缘。
所以,有一群的搜狗程序员们,想到为听障人群做点事。
在今年的搜狐5G&AI峰会上,搜狗发布了最新一代AI合成主播——全球首个手语AI合成主播“小聪”。
AI打手语,没那么简单
2018年,搜狗与新华社新媒体合作,以新华社邱浩和屈萌为原型,制作出全球首款AI合成主播“新小浩”和“新小萌”。
现在,搜狗的分身技术升级,这让“段子手”朱广权遇到了一个真正的AI“对手”——手语AI合成主播“小聪”,能够把各种复杂的语言转化成听障人士更容易理解的手语。
“小聪”使用了行业最领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型,数字人写实度的大幅突破则能够显著提升手语播报的真实感与亲切感,从而提高播报用户体验。
搜狗说,在测评中“小聪”的可懂度达到了85%以上,相比纯文字传达信息的效率有明显提高,能有效帮助听障人士克服理解障碍。
从AI新闻主播到AI手语主播,这看似一个常规的迭代升级后,背后却有着诸多不易。
首先,开发手语AI合成主播的程序员们,他们都是普通人,对手语不够了解。
最开始他们以为只需做一个从语音到视觉的转换模型即可,然而实际上手后,问题并不像想象的那么简单。
一位参加开发的搜狗员工说,他们主要面临着三大难点:一个是前面提到的手语与口语语序不一样的问题,还有手语中缺乏一些口语中的词汇,最后是表情气态也是手语表达中极为重要的一部分。
这些因素都决定了,手语AI合成主播没那么简单。
其次,国家手语标准在2019年才制定完成,行业内根本没有现成的手语视频图像数据集可用。为此搜狗请来了三组人群组成的“顾问团”出谋划策。
他们当中有制定手语标准的专家,有手语教师,还有正在使用手语的听障人士。
搜狗通过采集他们的手语数据,倾听他们的使用感受,经过一年多的打磨,“小聪”终于成功上线。
为何会是搜狗
在众多AI科技公司中,为何是搜狗率先推出了手语AI合成主播?
其实并不意外,从2018年开始,搜狗就一直在探索AI数字人技术,在AI合成主播这条路上已经有了3年多成功的落地经验。
这一次,搜狗不仅发布了手语AI合成主播,还发布了柳岩同款“数字人”,它可以在一条新闻中无缝切换多种方言,即使是柳岩本人不会的方言。
这项技术只需少量真实语音、视频数据,即可定制出高逼真度的分身模型,已经成功运用在新华社、央视等媒体上。
由于搜狗AI团队在超写实3D数字人领域持续研发并取得了新的突破,这一次发布的手语数字人“小聪”,结合原力科技的行业最领先3D重光照扫描还原手语数字人高精度模型及采集的动画数据,辅助自研的表情肢体手势捕捉技术,造就了这样一个高度还原真人发肤、形象逼真、动作自然生动的数字人模型。
在积极探索AI落地之外,搜狗技术团队同时也“悄悄”积累了大量基础技术。
其中有多模态语言处理,用图像视频提高AI的文字处理能力。
例如2019年,搜狗一篇研究唇语提升语音识别准确率的论文论文,发表在信号处理领域顶级学术会议ICASSP上。
搜狗在数字人肢体驱动技术也有颇多探索,去年的ACM MM 2020上还发表了一篇虚拟人随音乐节奏起舞的论文。
当然最重要可能也是搜狗AI团队的技术情怀。
搜狗AI交互技术部总经理陈伟说,有一件事给了他很大的触动。
2019年一天深夜,他在微博上看到有聋哑人在吐槽搜狗的语音转文字功能。在经过一番沟通后,搜狗解决了这个技术问题。
其实早在手语主播之前,这些听障人已经在使用搜狗的语音识别技术来与其他普通人对话沟通。
所以在2020年以后,当搜狗3D数字人技术逐渐成熟后,搜狗团队萌生了一个想法:为这群人打造一个真正有价值的AI主播。
搜狗是AI合成主播的开创者,站在技术最前沿的同时,也在思考技术所背负的社会责任感。
作为全球首个手语AI合成主播,“小聪”能够帮助广大听障人士更好地接收资讯、更好地生活,也体现了搜狗AI技术的人文关怀。
至于我们何时能在电视上看到“小聪”,“今年年底预计会做到大规模的应用”,陈伟说。
— 完 —