中科院博士论文致谢登上热搜:计算机终成一生事业与希望!网友:他把自己活成了光
大数据文摘出品
作者:Caleb
根据2019年的一项数据显示,在我国,每年被授予博士学位的人数超过了6.5万人。
也就是说,每年都有6.5万份博士论文被提交。
那为何一篇博士论文会突然火起来?火的还是其中的致谢部分?
别急,听文摘菌慢慢说来。
这篇论文题为《人机交互式机器翻译方法研究与实现》,撰写这篇博士论文的是2017年毕业于中国科学院大学的工学博士黄国平。
在博士论文的致谢部分中,他黄国平细数了发生在自己家庭中的种种不幸,年幼时母亲离家,十七岁时经历了父亲和婆婆的相继离世等等。但从小学一直到大学,再到中科院自动化所,黄国平怀揣的信念是,“把书念下去,然后走出去,不枉活一世”。
据了解,黄国平在校期间学科专业为模式识别与智能系统,机器翻译方向硕博连读,具体研究方向为人机交互式机器翻译。对于计算机领域,他表示,“进入大学后,计算机终于成了我一生的事业与希望”。
2017年毕业后,黄国平在腾讯人工智能实验室“腾讯AI Lab”担任高级研究员,“继续博士期间确定的研究课题,持续向目标靠近”。
致谢部分全文如下:
在知乎上,“如何看到中科院自动化所的博士论文致谢”这一话题就登上热榜,目前的浏览量已经超过了680万。
正如最热评留言到,“他的世界本无光,他把自己活成了光”。
对于网友们的种种评论与激励,黄国平也向网友留言和朋友关心表示歉意和谢意。
博士论文:提出人机交互式机器翻译方法和实现技术
我们知道,随着技术的发展,机器翻译的速度和精度都得到了相当大的改善。
比如宗成庆老师此前就分享到,机器翻译的运用要基于场景和任务,在一些场景下,机器翻译确实能帮助人,比如旅游问路,但是在某些领域,比如高层次的翻译,要对机器翻译寄予太多的希望还为时过早。
对于此,黄国平在论文中写到,基于翻译记忆的计算机辅助翻译软件在专业翻译市场仍具有得天独厚的优势。这是因为在特定领域中,如果待翻译文本与记忆库中的文本匹配程度很高时,翻译记忆的译文质量明显优于机器翻译的自动译文。大多数情况下,专业译员甚至不想花费太多的时间阅读自动译文。
“从某种意义上讲,现在神经网络机器翻译的性能已经接近天花板”,如果要进一步提高人工翻译效率,提升机器翻译的译文质量,人机交互式机器翻译方法和实现技术就显得尤为重要。
在论文中,黄国平就提出了一种融合统计机器翻译技术的中文输入方法。该方法能够充分融合统计翻译中的翻译规则、翻译假设列表和翻译结果候选列表等相关信息,只需较少的按键次数就可以生成准确的译文结果。
此外,为了指导统计机器翻译系统生成更适合该输入方法的翻译结果,他提出了面向输入方法的译文自动评价指标。实验结果表明,该输入方法能大幅减少翻译人员的译文修改强度,显著提高翻译效率和译文质量。同时,自动评价指标能使该输入方法利用更合适的统计翻译结果,进一步提升人工翻译效率,显著改善人机交互体验。
在术语翻译方面,黄国平也提出了一种基于术语识别边界信息的术语识别和翻译方法。
该方法借助术语识别边界信息建立术语解码方法,主要利用从平行句对和互联网单语语料中挖掘得到的术语翻译知识,包括三个部分:从平行句对中挖掘术语翻译知识的融合双语术语识别的联合词对齐模型,从单语语料中挖掘术语翻译知识的基于双语括号句子的术语翻译挖掘方法,以及基于术语识别边界信息的统计翻译术语解码方法。
为了使机器翻译系统能够在人机交互过程中有效利用译员已完成的双语句对,实时获取翻译知识并改善自动译文的质量,黄国平提出了一种基于随机森林的统计翻译在线学习方法。
该方法通过在人机交互过程中实时从输入源文和用户反馈构成的平行句对中抽取翻译知识,不断更新基于随机森林的统计翻译模型,从而改善译文的质量。
由于低频词和未登录词直接影响词对齐和翻译知识抽取的性能,因此,他还提出了一种基于锚点的隐马尔可夫增量式词对齐方法。该词对齐方法有效利用互信息和词典等先验知识生成对齐锚点,然后联合执行基于锚点的双语短语划分和隐马尔可夫词对齐算法。
博士导师宗成庆,国内NLP“泰斗级人物”
说到黄国平的博士导师宗成庆,那也是响当当的大人物。
近年来,宗成庆的主要研究领域集中在机器翻译、人机对话系统和文本数据挖掘等自然语言处理相关技术上。
在国内机器翻译领域,不说别的,宗成庆翻译的Philipp Koehn的《统计机器翻译》当属国内中文第一本SMT的书,同时《统计自然语言处理》可以称得上是几乎所有自然语言处理者的入门教材,可见其地位之高。
当然就更不用提宗老师2013年当选国际计算语言学委员会(ICCL)委员、2015年担任国际顶级学术会议 ACL-IJCNLP 程序委员会共同主席(PC Co-Chair)、2019年当选中国人工智能学会会士、2020年担任第28届国际计算语言学大会(COLING)程序委员会共同主席、现为亚洲自然语言处理学会(AFNLP)主席等多重身份了。
在知乎上,有网友还分享了自己在宗老师课上的经验。
比如网友@太黑桃就表示,宗老师为人十分谦逊、接地气。
宗老师人还很谦逊,课堂上如果被学生问住了会认真地向学生道歉,课件如果有小错误也会向大家道歉并且及时更新。讲课也比较幽默,是那种严肃方式表达的幽默,很接地气。
此外,根据用户@lmbg附上的图片,宗老师会告诫学生,“计算机知识传递人类声音和文字的工具,在情感和心智方面它永远替代不了人”。
可以看到,宗老师还是相当“有情怀”的。
目前仍“持续向目标靠近”
相信也有不少读者关心,黄国平的现状如何。
根据公开资料显示,黄国平在腾讯人工智能实验室“腾讯AI Lab”担任高级研究员。
在2020年,他也合作在ACL上发表了一篇题为Evaluating Explanation Methods for Neural Machine Translation的论文。
论文链接:
论文提出,许多人致力于解释黑盒NMT模型,但在评价解释方法的度量上进展甚微。词对齐错误率(Word Alignment Error Rate)可以作为这样一个与人类理解相匹配的度量,然而,它无法衡量那些没有与任何源词对齐的目标词的解释方法。
论文从另一个角度对解释方法的评价进行了初步尝试。研究人员提出了一个基于保真度的原则性度量方法,关于NMT模型的预测行为。由于这个度量的精确计算是难以解决的,研究人员采用了一种有效的方法作为其近似值。
这种方法不依赖于人工标注,可以用来评估所有目标词的解释方法。在6个标准翻译任务上,该指标对两种流行的翻译模型的4种不同解释方法进行了定量评价和比较。
不忘初心方得始终,也正如黄国平在致谢部分所写一样,“理想不伟大,只愿年过半百,归来仍是少年,希望还有机会重新认识这个世界,不辜负这一生吃过的苦。最后如果还能做出点让别人生活更美好的事,那这辈子就赚了”。