清华大学孙茂松:自然语言处理的过去、现在与未来
共 6977字,需浏览 14分钟
·
2022-03-15 19:50
作者 | 孙茂松
人类语言(即自然语言)的重要性无论怎么讲都不为过。社会生物学之父爱德华·威尔逊曾说过:“语言是继真核细胞之后最伟大的进化成就。”科普畅销书《信息简史》的作者詹姆斯·格雷克也深刻地指出:“语言本身就是人类有史以来最大的技术发明。”这些断言带有科学哲学的意味,反映了现代人类对语言本质理解的不断深化。
众所周知,语言是人类所独有的,是思维的载体,是人类交流思想、表达情感最自然、最深刻、最方便的工具。其中这几个“最”字非同小可。语言之于人类就如同空气之于生物,它时时刻刻、无声无息地融通于我们生活的世界中;它是如此的自然以至于我们常常意识不到它的存在,但一旦没有了它,人类将举步维艰。很不幸,人类语言能力正是现代计算机系统所不具备的,呈现出整体性缺失。一个显而易见的逻辑是,没有语言能力的机器,不可能有真正的智能。
自然语言具有无穷语义组合性、高度歧义性和持续进化性等,机器要实现完全意义上的自然语言理解,“难于上青天”。自然语言理解(一个退而求其次的提法——自然语言处理),因其兼具无与伦比的科学意义与学术挑战度,吸引了一代代学者殚思竭虑、前赴后继。
“却顾所来径、苍苍横翠微。”笔者认为,自然语言处理研究(包括文本处理和语音处理两个相辅相成的方面)在世界人工智能发展史上有三个里程碑式的“开风气之先”贡献。不揣孤陋寡闻,一孔之见,不一定对,抛砖引玉而已。
第一个里程碑式贡献
现代意义的人工智能技术研究发端于自然语言处理。对机器智能的痴迷与摸索由来已久,1946年第一台通用计算机ENIAC面世,无疑是一个历史分水岭。早在1947年,时任美国洛克菲勒基金会自然科学部主任的 Warren Weaver,在写给控制论之父维纳的一封信中就讨论了利用数字计算机翻译人类语言的可能性,1949年他发布了著名的《翻译》备忘录,正式提出机器翻译任务并设计了科学合理的发展路径(其内容实际上涵盖了理性主义和经验主义两大研究范式)。1951 年以色列哲学家、语言学家及数学家Yehoshua Bar-Hillel在麻省理工学院便开始了机器翻译研究。1954年Georgetown大学与IBM合作的机器翻译实验系统进行了公开演示。机器翻译是典型的认知任务,显然属于人工智能领域。
第二个里程碑式贡献
自然语言处理在人工智能领域乃至整个计算机科学与技术领域较早提出并系统性践行了非结构化“大数据”理念,整体上实现了理性主义研究范式向经验主义研究范式的嬗变。下面举两个典型工作。
一是连续语音识别。自上个世纪70年代中期开始,著名学者Frederick Jelinek领导的IBM研发小组即提出了基于语料库n-gram语言模型(实际上就是n阶马尔科夫模型)的大词表连续语音识别方法,使语音识别的性能上了一个大台阶。这个思路对语音识别领域产生了20年左右的深远影响,甚至包括90年代推出的开创了机器翻译新格局的IBM统计机器翻译模型(该模型使机器翻译研究回归到1949年Warren Weaver建议的经验主义研究范式下,充分展示了他的先见之明)。
二是词性自动标注。1971年曾有学者精心设计过一个TAGGIT英语词性标注系统,使用了3300条人工编制的上下文敏感规则,在100万词次的布朗语料库上获得了77%的标注正确率。1983-1987年间,英国兰开斯特大学的一个研究小组另辟蹊径,提出了不需要人工规则的数据驱动新方法,利用已带有词性标记的布朗语料库,构造了基于隐马尔科夫模型的CLAWS英语词性标注系统,并对100万词次的LOB语料库进行词性自动标注,正确率一举跃升到96%。
第三个里程碑式贡献
当前这一波席卷全球的人工智能高潮肇始于自然语言处理。2009-2010年间著名学者Geoffrey Hinton与微软邓力博士合作,率先提出了基于深层神经网络的语音识别方法,使得语音识别的性能突破了近10年的瓶颈制约,更上一层楼,令学界初步体会到了深度学习的威力,信心顿增,一扫对深度学习框架半信半疑之状态,其后各研究领域遂从者如云,争先恐后如过江之鲫。2016年谷歌推出了深层神经网络机器翻译系统GNMT,彻底终结了IBM统计机器翻译模型,翻开了新篇章。
自2010年以来,深度学习异军突起,日新月异,强力推动了人工智能的全面发展。10年发展的结果是:一方面,深度学习使人工智能技术从几乎完全“不可用”走向了“可用”,取得了历史性的非凡进步;另一方面,虽然它使得人工智能系统在几乎所有经典任务上的性能表现均得以明显提升,但受囿于深度学习方法所存在的深刻短板,在很多应用场景尚达不到“能用、管用、好用”。自然语言处理领域基本上也是这样,本文不赘述。
宏观上看,人工智能领域的发展无例外地得益于两大类型的方法利器:针对图像的卷积神经网络(CNN),以及针对自然语言文本的循环神经网络(RNN)。最初两三年前者风头尤劲,近些年后者贡献更为卓著。若干影响深度学习全局的主要思想,如注意力机制、自注意力机制、Transformer架构,均出自后者。
基于深度学习的自然语言处理,在短短10年中即完成了模型框架上的三次华丽迭代,“从山阴道上行,山川自相映发,使人应接不暇”,先后达至三重境界(实际上这也是深度学习的三重境界)。
第一重境界
针对每个不同的自然语言处理任务,独立准备一套人工标注数据集,各自几乎从零开始(常辅以word2vec 词向量),训练一个该任务专属的神经网络模型。其特点我称之为“白手起家 + 各家自扫门前雪”。
第二重境界
首先基于大规模生语料库,自学习、无监督地训练一个大规模预训练语言模型(PLM),然后针对每个不同的自然语言处理任务(此时也称作下游任务),独立准备一套人工标注数据集,以PLM为共同支撑,训练一个该下游任务专属的轻量级全连接前馈神经网络。在这个过程中,PLM的参数会做适应性调整。其特点我称之为“预训练大模型+大小联调”。
第三重境界
首先基于极大规模生语料库,自学习、无监督地训练一个极大规模的PLM;然后针对每个不同的自然语言处理下游任务,以PLM为共同支撑,通过少次学习(few-shot learning)或提示学习(prompt learning)等手段来完成该任务。在这个过程中,PLM的参数不做调整(实际上由于模型规模太过庞大,下游任务也无力调整)。其特点我称之为“预训练巨模型 + 一巨托众小”。
这三重境界, 一重比一重来得深刻;一重比一重有更多的“ 形而上” 感 觉。在GLUE和SuperGLUE公开评测集上的性能表现,也是一重比一重要好(目前正处于第三重)。
近年来,在世界范围内人工智能界各路英豪围绕预训练语言模型展开了巅峰对决,模型规模急剧膨胀(如 2020年6月OpenAI推出的GPT-3模型参数规模达1750亿个,2021年10月微软和英伟达联合推出的MT-NLG 模型飙升到了5300亿个参数),你争我夺,你争我赶,好不热闹。2021年8月,斯坦福大学专门举办了两天的学术研讨会,将第三重境界中的“预训练巨模型”命名为“基础模型”(foundation model),并随即发表了一篇数百页的长文,全面阐述其观点。文中绘制了一张示意图(见图1),揭示了“基础模型”在智能信息处理的中枢作用(其作用疆域已扩展至全数据类型和多模态)。
目前构造及使用“基础模型”的算法本身还是偏粗放型的。前文给出的百度文心 NLP 大模型表现的一些“毛病”,可望通过积极改进算法部分地予以解决。
对少次学习、提示学习、基于适配器的学习(adapter-based learning)等与“基础模型”配套的新手段的研发工作应予加强。
训练数据包罗万象一定就好吗?是否应对大数据中明显存在着的大量噪声进行筛选?
排行榜对模型研发无疑非常重要。但排行榜不是唯一的金标准,应用才是最终的金标准。
研发“基础模型”的企业不能“王婆卖瓜,自卖自夸”,要开放给学术界测试。不开放给学术界测试的“基础模型”,其性能是存疑的。学术界不宜盲信盲从。
“基础模型”亟需找到杀手级应用,才能令人信服地证明自己的能力。
探索性(exploration)则更多注重“基础模型”的科学性。鉴于“基础模型”确实呈现出了一些令人惊奇(或者“奇怪”)的现象,目前尚未给出科学的解释。典型如:
为什么大规模预训练语言模型会出现deep double descent现象 ( 这一点似乎超越了机器学习中“数据复杂度与模型复杂度应基本匹配”的金科玉律 ) ?
为什么“基础模型”具有少次学习甚至零次学习的能力?这些能力是怎么获得的?其中是否出现了复杂巨系统的涌现现象?
为什么提示学习能奏效?这是否暗示“基础模型”内部可能自发地产生了若干功能分区,而一个个提示学习恰好提供了启用一个个功能分区的钥匙?
如果是这样,功能分区的分布可能是怎样的?由于“基础模型”的核心训练算法极其简单(语言模型或完形填空模型),这又隐含着什么深意?
往期精彩: