2021年AI Labs报告发布!创办17年,这家「不专心」做语音的研究院入选
新智元报道
新智元报道
编辑:桃子 好困
【新智元导读】2021人工智能创新研究院揭晓了,看看都有谁?
22年前,十几位工科生在中科大校园租下了一间三室一厅,撸起袖子准备大干一场。
创业之初,他们的想法很纯粹:研究一个像人一样能听会说的机器。
带着这样的憧憬,26岁的刘庆峰带队便以一项技术为主开启了创业历程。
然而,创业并非易事。更重要的是,他们选择以一项在当时不被看好的技术——语音合成起家。
说干就干,可是忙了一年多,几乎不见任何成果。
创业前那些豪言壮语瞬间成了一眼浮云,军心动摇。许多人甚至开始怀疑,智能语音是未来正确的发展方向吗?
残酷的是,这家刚刚成立的公司在当时面临两个抉择:要么继续做语音,要么改行做其他的,比如房地产。
一场会议,他们最终决定了自己的命运:还是要做最喜欢的事情——智能语音。
就这样,刘庆峰和团队明确了未来的发展发向,将语音交互技术的自主研发作为公司核心战略方向。
一切证明,当初的选择终不负所愿。这个以源头技术创新为核心的AI王国——科大讯飞20多年来持续推动智能语音与人工智能走在世界前列。
这背后便是,讯飞研究团队22年来始终坚持「顶天立地」的理念和追求,通过不懈努力取得的成果。
做研究是讯飞的基因,尤其是对源头技术的研发。所以,从科大讯飞创立开始,讯飞研究院就相伴而生。
近日,MIT科技评论中国发布了2021人工智能创新研究院(AI Labs)报告。
讯飞研究院凭借着在智能语音、计算机视觉、自然语言处理等多个领域的杰出成就,成功入选。
始于语音,不止语音
早在2008年之前,科大讯飞在语音合成、语音评测和语音识别上,已经到了全球语音技术领域内全面领先的地位。
随着技术的不断发展和积累,时间来到了2020年1月。在韩国釜山举行的ISO/IEC JTC 1/SC 35全会上,由科大讯飞主导,联合中国电子技术标准化研究院和中科院自动化所,提出的全双工语音交互国际标准正式获批立项。
这也是在人机交互领域中,首个由中国牵头制定的智能语音交互国际标准。
此外,科大讯飞还主导承建了语音及语言信息处理国家工程实验室、认知智能国家重点实验室等国家级平台。
而在最擅长的语音方面,科大讯飞也连续多次获得CHiME、Blizzard Challenge、IWSLT等国际评测冠军,并在业界率先实现口语自动评测达到人工专家水平。
「俗话」说得好,再强的SOTA终究是会被刷掉的。于是我们就看看2021年,科大讯飞都有哪些不俗的表现。
在低资源多语种语音识别方面,由世界语音学术领域的权威组织美国国家标准与技术研究院NIST(National Institute of Standards and Technology)举办的OpenASR (Open Automatic Speech Recognition) 比赛就非常具有代表性。
2021年11月,科大讯飞-中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得第一名的成绩。
说到这里,其实不难发现,科大讯飞能做的已经远远不止有语音这一个点了。
毕竟,想要理解这15种语言的对话都在说什么,除了要准确地识别出来以外,还得能「听懂」才行。
这个时候,就要祭出人工智能最常用到的自然语言处理了,而且,还得是多语种的才行。
正好,谷歌举办的XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)多语种自然语言理解评测,就涵盖了12个语系的40种语言,并包括对不同层次的语法或语义进行推理的4大类9个任务。
2021年10月,哈工大讯飞联合实验室(HFL)团队以总平均分84.1分位列榜首,刷新了微软9月份才刚刚达到的世界纪录。
除了最新的这次屠榜以外,科大讯飞近5年在NLP领域共获得20余项国际评测冠军,并于2021年获吴文俊人工智能科技进步奖一等奖。
当然了,CV领域也不例外,科大讯飞近几年在图文分析、虚拟形象等方向提出十余项原创成果。
等下,道理我都懂,但一个搞语音的是怎么和计算机视觉扯上关系的?
这,就要从2014年说起了。
当时,研究院发现人工智能在教育里非常富有潜力,而OCR技术可以称得上是进入这个领域的必由之路。
然而,摆在科大讯飞面前的问题有两个:
1. 文本行大段的手写连笔让字符很难被切分
2. 公式的识别需要处理上下左右以及嵌套等各种顺序
对此,研究院的小伙伴们发现,在语音识别中,需要将连续的波形转化出分离的字符,而波形和手写字类似,也是无法拆分的。
很快,语音识别到计算机视觉之间的算法框架迁移和借鉴就完成了。通过将语音识别中的HMM模型框架引入到文本行中,识别精度得到了大幅提升。
既然语音的成果能够借鉴,那NLP的是不是也可以?
没错,研究院的小伙伴们又一次发现,公式识别和机器翻译任务很像。
于是,团队便引入基于注意力机制的Encoder-Decoder模型并构建了新的无切分公式识别算法,成功地将识别率拉到了96%。
2020年6月,科大讯飞AI研究院联合中科大语音及语言信息处理国家工程实验室,以显著优势获得ICFHR 2020 OffRaSHME数学公式识别挑战赛冠军。
此外,还在ICDAR ReCTS评测任务中刷新了单字识别、文本行识别、文本行检测和端到端识别全部四项榜单世界纪录。
当然了,科大讯飞的计算机视觉也不止能识别公式。
2021年8月,科大讯飞在智能驾驶的道路目标检测领域,刷新了Cityscapes 3D目标检测任务的全球最好成绩,得到检测分数(DS)42.9,取得了该项评测的第一名。
就这样,科大讯飞的计算机视觉在语音识别技术+自然语言处理的基础上构建了起来。
一股注入血里的基因
可以看到,不论是语音、还是NLP、CV都是单点技术上取得的突破。
不得不承认,得益于源头技术创新,讯飞在人工智能发展史上树立了语音合成、语音识别、认知智能等多个里程碑。
源头技术创新是讯飞从创立初始注入血里的基因。
但是,单点应用还只是窄人工智能,而现实并不是只有加法运算,加减乘除都得会,就需要AI系统性创新。
同样,科大讯飞董事长刘庆峰在2021第五届全球1024开发者节上提出,「为了让人工智能更好地切实解决社会重大命题,就必须要从单点应用突破到系统性创新。」
那么,何为系统性创新?他给出了系统性创新的三个关键要素:
第一是重大系统性命题到科学问题的转化能力;
第二是从单点的核心技术效果上要取得突破,跨过应用门槛;
第三是把创新链条上各个关键技术深度融合,实现真正意义上的系统性创新。
如何去实现系统性创新?
科大讯飞坚持在人工智能的技术层面进行源头技术的突破和多技术的融合,来推动实现系统性创新。
就比如,讯飞在去年全球1024开发者节上推出的虚拟人交互平台1.0便是很好的印证。
虚拟人的交互需要集成语音识别、对话理解、对话生成、语音合成、虚拟人形象生成等多项的人工智能单点技术,需要实现多项技术贯穿,才能实现更一致更和谐的虚拟人交互系统。
以情感维度为例,虚拟人的微表情是最难实现的,也是业界令人头痛的问题。
目前,讯飞实现了基于多模态信息的情绪感知,基于情绪的回复对话文本生成,以及可展现对应情绪的虚拟人的表情和语音合成。
基于全局的系统性的规划设计,以及全链条单点技术的有效配合,造就爱加有情感、有个性的多模态虚拟人。
此外,还有其他用到系统性创新的案例,比如讯飞AI学习机,就融合了图像、语音、机器阅读理解、知识图谱等技术,可以做到学生作业批改,以及基于学情的个性化学习。
不论是源头技术创新,还是系统性创新,都面向社会刚需,推动真正问题的解决。
AI花开,不负22年坚守
如今,科大讯飞在「平台+赛道」齐开花。
通系统性技术创新解决社会重大命题,同时推动人工智能规模化落地,实现「科技为民」的价值追求。
回看过往,2010年,讯飞首次推出了人工智能开放平台,那时能提供的能力还只有3项。
2021年科大讯飞全球1024开发者节正式发布了讯飞开放平台2.0战略,从二维升级到三维,联合各行业中资源充沛、平台能力强的龙头,共同搭建行业的基线底座,同时汇聚开发者的创造力。
现在,讯飞开放平台提供了449多项人工智能能力,给293万的开发者团队,总应用数超137万,覆盖终端设备数33亿+。
此外,讯飞也积极布局「赛道」,通过系统性创新,推动人工智能在教育、医疗、城市、消费品、工业等场景的规模化应用。
从教育领域看,讯飞推出「因材施教」解决方案,促进师生减负增效,实现覆盖全国32个省级行政单位五万多所学校超1亿师生的规模化应用;
比如,2021年刚刚发布的AI学习机T10,将「因材施教」梦想照进现实。
从医疗看,面向基层医疗构建人工智能辅助诊疗系统,覆盖全国200余个区县5万名基层医生,累计提供超过3亿次辅助诊断服务;
从消费者领域看,以AI技术引领电子消费品类升级,开创性推出讯飞输入法、学习机、办公本、录音笔、翻译机等标杆产品。
比如2021年5月份发布的双屏翻译机,除了做到精准实时的翻译、多语言多语种翻译外,也创新了产品外观,双屏的形式也更符合后疫情下的交往方式。
不止于此,未来讯飞要持续做到核心技术的引领,这才是其最基础的和最底层的目标。
讯飞AI研究院的发展,很大程度解决了技术从科研到商业落地的转化难题,把新技术转化成现实生产力,最终完成商业化闭环。
科大讯飞研究院执行院长刘聪谈道,「十七年来,有幸经历了从几个人到1000多人的发展历程,亲自见证了讯飞研究院的探索、成长、突破、重构、革新等不同时期的关键阶段。
新的一年,新的时代,讯飞研究院将责无旁贷继续前行,用系统性创新解决重大社会刚需,立志于代表中国成为世界一流的研究院。」
未来,讯飞研究院依然会坚持深耕,继续推动推动智能语音及人工智能走在世界前列。