谷歌微软阿里华为都爱上大模型，AI开发边界被打破-技术圈

《中智观察》第1586篇推送

作者：赵满满

编辑：小瑞瑞

头图来源：中国软件网

蛋白质折叠问题被认为是人类在21世纪需要解决的重要科学前沿问题之一。理解蛋白质的结构有助于确定蛋白质的功能，了解各种突变的作用。

谷歌旗下的人工智能超大模型DeepMind在2021年准确地预测了蛋白质折叠成的结构AlphaFold2，解决了一个延续了50年的“重大挑战”，为更好地了解疾病和药物发现铺平道路。

大模型悟道1.0在推出时在医疗方面的一个应用方向是癌症早筛，如上传乳腺癌图像，找到乳腺癌相关预测亚类，通过影像识别宫颈癌亚类等。

而另一个超大规模AI模型GPT-3 所表现出来的零样本与小样本学习能力，则刷新了人们的认知。基本的生成、分类、搜索、问答应用都已经被开发成对应的API，一个模型，对应解决不同用户的不同问题。

AI超大模型正在不同的领域表现出惊人的智能水平，给企业带来更多的希望。谷歌、亚马逊、微软、英伟达、智源人工智能研究院、阿里、百度、华为、浪潮等国内外科技巨头纷纷展开大模型研究和探索。

2021年，预训练大模型迎来大爆发，引爆AI大模型研究的热潮。那么，2022年，AI大模型会给人们带来哪些惊喜呢？

‖2021年，超大规模预训练模型爆发

过去三年来，国外超大规模预训练模型参数指标不断创出新高，“大模型”已成为行业巨头发力的一个方向。

国外的超大规模预训练模型起步于2018年，2021年进入“军备竞赛”阶段。

2018年，谷歌提出3亿参数BERT模型，惊艳四座，由此大规模预训练模型开始逐渐走进人们的视野，成为人工智能领域的一大焦点。

2019年2月，OpenAI推出了15亿参数的GPT-2，能够生成连贯的文本段落，做到初步的阅读理解、机器翻译等。

紧接着，英伟达推出了83亿参数的Megatron-LM，谷歌推出了110亿参数的T5，微软推出了170亿参数的图灵Turing-NLG。

2020年6月，大模型迎来了一个分水岭，OpenAI以1750亿参数的GPT-3，直接将参数规模提高到千亿级别。而作诗、聊天、生成代码等无所不能。

之后，微软和英伟达在2020年10月联手发布了5300亿参数的Megatron-Turing自然语言生成模型(MT-NLG)。

2021 年 1 月，谷歌推出的Switch Transformer模型以高达1.6 万亿的参数量打破了GPT-3作为最大AI模型的统治地位，成为史上首个万亿级语言模型。

2021年，12月，谷歌还提出了1.2万亿参数的通用稀疏语言模型GLaM，在7项小样本学习领域的性能超过GPT-3。

国内，超大模型研发厚积薄发，充分展示了中国企业的技术实力和应用需求。

2021年是中国超大规模AI模型的爆发年。在国内超大模型研发比国外公司晚，但是发展却异常的迅速。

4月，华为云联合循环智能发布盘古NLP超大规模预训练语言模型，参数规模达1000亿；联合北京大学发布盘古α超大规模预训练模型，参数规模达2000亿。

阿里达摩院发布270亿参数的中文预训练语言模型PLUG，联合清华大学发布参数规模达到1000亿的中文多模态预训练模型M6。

6 月，北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”，参数达到 1.75 万亿，成为当时全球最大的预训练模型。

7月，百度推出ERNIE 3.0 知识增强大模型，参数规模达到百亿。10月，浪潮发布约2500亿的超大规模预训练模型“源1.0”。

12月，百度推出ERNIE 3.0 Titan模型，参数规模达2600亿。而达摩院的M6模型参数达到10万亿，将大模型参数直接提升了一个量级。

AI超大模型爆发的原因是什么？

中国软件网认为，AI超大模型爆发的原因有三：

一是需要且必要。AI对企业的渗透率逐年提升，正在加速进入不同的行业。但AI的短板如AI应用的碎片化等却越来越凸显。

具体而言，一个团队开发了一个AI模型，但在应用过程中，往往会因为场景的多样性、复杂性，无法达到“以一敌十”的效果。

强悍地自我学习、应万变的能力，正让大模型“需要且必要”。

二是预训练模型技术问题被化解。2018年出现的预训练模型成功激活了深度神经网络，以及对大规模无标注数据的自监督学习能力，并在一定程度上打开了深度学习模型规模与性能齐飞的局面，尤其是自然语言处理。

同时，大模型对一些复杂性问题的解决带来了希望。国际巨头们在尝到预训练模型带来的“甜头”之后，开始展开了激烈的竞争，竞相追逐模型规模和性能的新高度。

三是更多示范应用案例出现。在商业落地方面成果丰硕的大模型GPT-3，已经有300多个衍生应用，其相关创业公司也有好几十个，有些公司还拿到了融资。

在“悟道2.0”的基础上，OPPO小布助手建设了直接给出开放域长尾问题答案的能力。

智源研究院院长、北京大学信息科学技术学院教授黄铁军表示，近年来人工智能的发展应该从家家户户“大炼模型”的状态，逐渐变为把资源汇聚起来，训练超大规模模型的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练大模型，供大量企业使用。

‖预训练大模型技术与应用难题正在被破解

预训练大模型发展的首要特点就是降低了AI应用的门槛。

作为当前人工智能发展的重要方向，预训练大模型已成为AI领域的技术新高地。

据介绍，目前行业内的AI技术应用存在两大困难：一是数据标注非常昂贵，特定场景内无法完成大批量数据批注；二是行业自身的知识积累相对较弱。

预训练大模型降低了AI应用的门槛，解决了AI 应用的数据和行业知识两个难题，既不需要大量的标注数据，又保障了基础底座。

预训练大模型的推出，则能够在不具备大量数据标注的同时保证了技术基础底座，叠加行业“基本功”，便能够实现AI技术的快速落地。

AI预训练大模型的规模和性能不断推向新的高度，打开了深度学习模型规模与性能齐飞的局面。

在GPU多机多卡算力和海量无标注文本数据的双重支持下，预训练模型打开了深度学习模型规模与性能齐飞的局面，成为人工智能和深度学习领域的革命性突破，引发了国际著名互联网企业和研究机构的激烈竞争，将模型规模和性能不断推向新的高度。

预训练语言模型是让AI具备认知能力的关键技术，突破了传统深度学习方法的瓶颈，是一种新型AI训练思路。

预训练语言模型即首先自动学习大量语言文字和图像数据，记忆和理解人类丰富的先验知识，再进一步学习专业领域信息，从而让AI同时掌握常识和专业知识。

目前，谷歌、微软和 Facebook等企业已投入该技术的研发。

与经典的机器学习流程相比，预训练语言模型具有参数规模大、模型通用能力强、模型综合性能好等优势。

因此，大规模预训练模型成为自然语言处理甚至整个人工智能领域的重要技术突破，有望将数据驱动的深度学习技术推向新的发展阶段。

AI预训练大模型的参数不断飙升，采用单体模型和混合模型两种技术路线。

在2021年1月，谷歌发布了全球首个万亿级模型Switch Transformer。11月，阿里巴巴达摩院的多模态大模型M6的参数规模更是跃升至10万亿级别。参数数量成为AI预训练大模型规模的一个衡量指标。

现在业界提高模型参数数量主要有两种技术路线：

一种是单体模型，将所有数据中学习得到的规律都记录在一张网络内，使用时网络上的任何点位都会被计算到。

浪潮的源大模型、华为的盘古大模型、百度的文心大模型、英伟达联合微软发布的自然语言生成模型MT-NLG等走的都是单体模型路线。

另一种是混合模型，由多个不同网络通过门控机制集成在一起，在单次计算中可能只会使用部分子网络的参数。智源的悟道模型、阿里M6等走的就是混合模型路线。

‖国内5大AI预训练大模型风采各异

阿里达摩院M6三连跳：万亿、商用、低功耗。

2021年1月，阿里达摩院M6达成百亿参数，3月达成千亿参数，5月在全球范围内首次大幅降低了万亿参数超大模型的训练能耗，12月参数达到10万亿。

其中达摩院训练出万亿参数模型M6，仅仅使用了480卡V100 32G GPU，节省算力资源超80%，且训练效率提升近11倍。

M6拥有超越传统AI的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。

M6还是国内首个实现商业化落地的多模态大模型。例如，经过一段时间的试用，M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造。

百度ERNIE 3.0 Titan：知识增强体现出学习效率更高、学习能力更强的优势。

鹏城实验室与百度共同研发的鹏城-百度·文心（ERNIE 3.0 Titan）模型参数规模达到2600亿。

知识增强是该大模型的最大特点，在学习过程中融入知识，进而实现将海量知识与海量数据融合学习。

同时，在融入知识的基础上，该模型也会进行跨语言学习、跨模态学习，从而体现出学习效率更高、学习能力更强的优势。

ERNIE 3.0 Titan在包括机器阅读理解、文本分类、语义相似度计算等60多项任务上取得好的效果，并在30余项小样本和零样本任务上刷新基准。

浪潮人工智能研究院“源1.0”，以开放API、开放数据集、开源代码等多种形式开放合作。

浪潮人工智能研究院的浪潮源1.0大模型在算法、数据、算力三个层面上实现超大规模，其中在算法上，大模型总共用了 2457亿的参数，超过1750亿参数的GPT-3。

在数据上，研制高质量文本分类模型，形成新中文数据集生成方法，最终获得5000GB高质量数据集，是迄今业界最大的高质量中文数据集。

在算力上，共4095PD（PetaFlop/s-day）的计算量，获得高达2457亿的参数量，相对于GPT-3消耗3640PD计算量得到1750亿参数，源1.0大模型计算效率大幅提升。

2021年10月，源1.0宣布开源开放计划，将以开放API、开放数据集、开源代码等多种形式为业界提供开放合作，用户可基于“源1.0”模型探索算法创新以及开发各类智能化应用。

华为云盘古大模型：实现人工智能工业化开发。

于2021年4月亮相的华为云盘古大模型括中文语言（NLP）、视觉（CV）大模型，多模态大模型、科学计算大模型，旨在建立一套通用、易用的人工智能开发工作流，实现人工智能工业化开发。

未来，华为云盘古预训练大模型将上线华为云AI资产共享社区（AI Gallery）。

盘古研发团队将继续对盘古多模态大模型进行迭代演进，持续开发上游通用能力。

同时也会将把大模型拓展到更多的行业领域，让盘古多模态大模型演化成诸多盘古行业多模态大模型，加速盘古系列预训练大模型的“上天”（通用能力打造）与“入地”（行业落地）步伐。

悟道：大模型变得更加好用、易用。

北京智源人工智能研究院自2020年10月启动大模型研究，2021年3月发布我国首个超大规模智能信息模型“悟道1.0”，训练出包括中文、多模态、认知、蛋白质预测在内的系列模型，并在模型预训练范式、规模和性能扩增技术、训练语料数据库建设等方面取得了多项国际领先的技术突破。

2021年6月参数规模高达1.75万亿“悟道2.0”推出。智源正在做的即是将悟道的应用门槛降下来，将AI的效率和情商提起来，给更多人带来便利。

无论是降低AI大模型开发门槛的悟道开发平台，还是“一卡顶四卡”的高效推理工具包、4倍提速4倍清晰的AI文图绘画、最大中文对话模型等技术创新，都让悟道大模型变得更加好用、易用。

‖克服挑战，预训练大模型往哪儿走？

那么，在预训练大模型发展中，面临最大问题是什么，未来的发展方向又在哪儿呢？

随着模型规模扩大的是训练对资源的消耗越来大，而参数数量增加所带来的性能提升与消耗提升不成比例。

在这方面，不少研究开始对“模型参数越多，性能也越好”是否始终成立提出了质疑。

例如，谷歌的研究人员开发了一个参数量远小于GPT-3的模型——微调语言网络（fine-tuned language net, FLAN），这个1370亿个参数的模型在许多有难度的基准测试中性能都大幅超过GPT-3。

阿里达摩院在发布的报告里认为，未来大模型的参数规模发展将进入冷静期，大模型与相关联的小模型协同将是未来的发展方向。

其中，大模型沉淀的知识与认知推理能力向小模型输出，小模型基于大模型的基础叠加垂直场景的感知、认知、决策、执行能力，再将执行与学习的结果反馈给大模型，让大模型的知识与能力持续进化，形成一套有机循环的智能系统。参与者越多，模型进化的速度也越快。

大模型正在诞生不同应用领域的小模型或者应用。

阿里达摩院预测，在未来的三年内，个别领域将以大规模预训练模型为基础，对协同进化的智能系统进行试点探索。

在未来的五年内，协同进化的智能系统将成为体系标准，让全社会能够容易地获取并贡献智能系统的能力，向通用人工智能再迈进一步。

对预训练大模型的性能优化仍在持续推进中。

相对而言，大量研究在预训练模型的落地能力上将持续努力，压缩、剪枝、蒸馏的工作仍起到重要作用。不止于算法本身，编译、引擎、硬件等方面的优化也在大步迈进。

整体而言，现在大规模预训练模型的研究，包括模型结构的演进和落地仍处在探索阶段，各家的持续探索正在不断扩大对大规模预训练模型的认知边界。

毫不讳言，AI超大模型应该成为普惠性的科技进步力量，让行业用户甚至是中小用户也能使用超大模型寻求深度创新，促进业务可持续健康发展。

这一成果的取得必须依靠更多的产、学、研、用机构和开发者，从技术创新、场景融合、应用开发等不同维度，共同促进AI超大模型的健康发展与产业落地。