10万亿！达摩院发布全球最大AI预训练模型，能耗仅为GPT-3的1%-技术圈

大数据文摘作品

11月8日，阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，规模远超谷歌、微软此前发布的万亿级模型，成为全球最大的AI预训练模型。同时，M6做到了业内极致的低碳高效，使用512 GPU在10天内即训练出具有可用水平的10万亿模型。相比去年发布的大模型GPT-3，M6实现同等参数规模，能耗仅为其1%。

与传统AI相比，大模型拥有成百上千倍“神经元”数量，且预先学习过海量知识，表现出像人类一样“举一反三”的学习能力。因此，大模型被普遍认为是未来的“基础模型”，将成下一代AI基础设施。然而，其算力成本相当高昂，训练1750亿参数语言大模型GPT-3所需能耗，相当于汽车行驶地月往返距离。

今年5月，通过专家并行策略及优化技术，达摩院M6团队将万亿模型能耗降低超八成、效率提升近11倍。10月，M6再次突破业界极限，通过更细粒度的CPU offload、共享-解除算法等创新技术，让收敛效率进一步提升7倍，这使得模型规模扩大10倍的情况下，能耗未显著增加。这一系列突破极大降低了大模型研究门槛，让一台机器训练出一个千亿模型成为可能。

同时，达摩院联合阿里云推出了M6服务化平台，为大模型训练及应用提供完备工具，首次让大模型实现“开箱即用”，算法人员及普通用户均可方便地使用平台。达摩院还推出了当前最大规模的中文多模态评测数据集MUGE，覆盖图文描述、文本生成图像、跨模态检索任务，填补了缺少中文多模态权威评测基准的空白。

【达摩院技术同学自述】挑战极限规模，落地实际应用！十万亿M6及服务化平台发布

此前达摩院陆续发布了多个版本的M6模型，从大规模稠密模型到超大规模的混合专家模型的探索，逐步从百亿参数升级到万亿参数规模，在致力于推动超大规模预训练及Green AI的同时，也在发力超大规模预训练模型的落地应用和服务化，为现实场景中各式各样丰富的下游任务提供强大的表示学习底座。在近期，M6团队在多个方向上持续积累，做出了如下成果：

超低碳训练和推理：达摩院联合阿里云PAI、阿里云EFLOPS大计算集群团队和蚂蚁EFLOPs工程团队，仅用EFLOPS集群的512张V100-32G，训练仅用时10天，打造目前业界最大的预训练模型10万亿参数模型M6-10T，效果超出此前万亿参数模型M6-T，之前业界最好水平是微软最新发布的DeepSpeed，其使用了512张A100才完成3.5万亿参数基于MoE的GPT；从千亿、万亿到十万亿参数，单机承载的参数量从64亿，168亿增长至1563亿，相比去年，M6自身规模扩大了1000倍，但训练能耗仅为此前3%，大力推动了低碳大模型和Green AI发展。

M6能力升级：此前M6图像生成分辨率达到业界最高的1024*1024，在此基础上进一步提升了生成质量，以及在少样本情况下的生成拓展性和创造力，且范围扩展到企业Logo生成，NFT图片生成等；文案生成继达到工业级后陆续收到业务反馈，帮助多个业务实现5%及以上的业务效果提升；打造金融大脑，预训练融入金融知识，覆盖10个以上理解和生成任务。

正式推出M6服务化平台：日常服务阿里巴巴超过40个业务团队，日调用量上亿，提供上手简便的基于M6的finetune和inference方案，覆盖多项理解和生成任务，包括Seq2Seq文本生成、自回归文本续写、图片描述、文本分类、多模态分类、文本匹配、图文检索、多模态对比学习、文本流畅度评估等，是目前业界覆盖最广泛的大模型生态的服务化平台，并同时打造算法社区，推动普惠AI发展。

一、背景介绍

进入2021年，大规模预训练模型成为学术界和工业界都非常关注的一大研究领域，而斯坦福等科研机构也在近期提出基础模型（Foundation Model）的概念，并且强调基础模型的重要性。自2020年中GPT-3提出以来，一系列国内外大企业都在大模型的研发上开展探索，专注各个领域任务的大模型相继提出，在各大下游任务都展现出优越的表现。无疑，超大规模预训练模型蕴含着巨大的学术研究价值和商业落地价值。

此前达摩院智能计算实验室在阿里打响了超大规模预训练的第一枪，相继提出百亿、千亿和万亿参数规模的超大规模预训练模型M6。除了首先通过扩展稠密模型观察到和Neural scaling law一致的现象，后续M6团队开始研究超大规模MoE模型，是在全球范围继谷歌后首个在此领域深入探索的团队。随后打造了第一个基于稀疏专家模型的多模态预训练模型-千亿参数M6，用非常高效的方式完成如此大规模的多模态预训练模型的训练。完成第一步之后，M6团队在此前研究的基础上，开始思考如何让MoE模型变得更加强大的同时，也能更加低碳、环保。最终，在今年5月，在相比千亿M6显著提效的同时，万亿参数M6-T仅用480张GPU耗时3天即训练完成。

但如果要训练极限规模的模型，比如10万亿参数的规模，是此前万亿参数模型的10倍。即便使用此前万亿参数M6的方法，也需要10倍的资源，即近4800 GPU才可能完成10万亿参数的训练。在需要限制资源投入的现实情况下，团队希望找到一条路径，能够用此前万亿参数M6训练的资源规模，去训练1个参数规模增加10倍的极限模型，同时保证较高的训练效率，为学界和工业界提供一种在有限资源的条件下高效训练超大规模模型的范式。

此外，除了深入探索大模型研发的技术，M6团队同时也高度关注大模型的落地应用和服务。针对不同的业务场景，团队将M6模型和各类单模态和跨模态的下游任务，包括理解类和生成类任务深度结合，推出了服务化组件，日均实现上亿调用，得到了业务方的认可和积极的意见反馈。同时团队将M6模型的生成和理解能力，落地到服饰制造、智能文案生产、金融领域对话与问答等应用场景中，将技术能力转化为工业落地价值。

二、十万亿M6技术实现

过去的一年中，一系列大模型的工作都在说明，参数规模的扩展带来的便是模型能力边界的扩展，更多的数据+更大的模型=更强的能力。此前，M6实现了480张GPU训练万亿参数模型，说明MoE模型结合高效的分组机制能够用有限资源快速训练完成一个效果优越的大模型。但如果要训练的是极限规模的十万亿参数模型，是不是就需要成倍地增加机器呢？

M6团队提出的命题是，如何在有限资源的条件下高效地训练极限规模模型？近期，微软DeepSpeed团队相继提出了CPU offload以及NVMe offload等技术，大力推动民主AI的发展。但事实上，采用各种offload的方法，自然可以缓解存储的问题，但是用时间换空间的方式，势必会大大延长训练时间。而像NVMe offload甚至还有SSD硬盘的设备要求，并且SSD硬盘写的次数还是有限的，这样的做法会带来大量资源损耗。那么有没有比较简单的方式可以用少量资源快速训练一个大模型呢？

M6团队提出了一种简单的方法解决此类极限规模模型训练的问题，不仅关注如何用有限的资源训练极限规模模型，还关注如何将其训练至真实可用。团队使用512张GPU将十万亿参数的模型训练至可用的水平，而如果训练此前的万亿参数模型也只需要64张GPU即可实现。相比此前的M6模型，M6-10T具有如下优势：

相比此前的万亿参数M6，M6-10T的参数量是原先的10倍没有显著的资源增加（480 vs 512 GPU）；
相比万亿参数M6，M6-10T在样本量的维度上具有更快的收敛速度；
提出的共享解除机制将十万亿参数模型的训练速度提升7倍以上，并可广泛应用于其他同类大模型的训练。

达摩院智能计算实验室联合阿里云PAI团队，在Whale框架下实现M6模型。此前发布的千亿和万亿参数M6模型，均在Whale上实现，利用其强大的数据并行、模型并行以及专家并行的能力实现超大规模模型的训练和推理。Whale通过一系列优化，为M6模型的训练节约资源，提升效率。显存优化方面，Whale的自动Gradient Checkpointing、Group-wise Apply、CPU Offload技术和通信池化等技术均有效节约显存的使用，而在计算和通信方面，Whale支持了MoE所需的DP+EP的机制，并在EFLOPS集群高速通信能力的基础上，采用分组融合通信、半精度通信、拓扑感知的All2All通信算子等技术来提高通信效率，以及结合混合精度、编译优化等技术提高训练效率等。同时，EFLOPS团队联合PAI团队对attention进行优化，将访存密集型算子融合成一个cuda kernel实现，将multihead attention性能提升30%。

而在十万亿M6模型的训练上，团队首先解决有限资源（512 GPU）“放下”10万亿参数的极限规模模型，而模型结构则采用此前万亿参数M6-T使用的结合expert prototyping的MoE模型。团队在分布式框架Whale中利用CPU offload的方法成功将十万亿参数的M6-10T模型在512张GPU的机器中放下并实现训练。相比其他的CPU offload方案，M6的CPU offload粒度可控，可以灵活地选择offload的模型层，可以不用将所有的权重offload到CPU memory中，而选择保留部分权重在GPU memory上进行计算，这样的做法可以进一步地提高GPU利用率。

解决了放入模型的问题后，团队针对训练效率的问题设计了Pseudo-to-Real（共享解除）机制，其核心思想为利用训练好的小模型初始化大模型。该算法首先利用参数共享的机制构建并快速训练小模型，此阶段无需使用CPU内存存放模型同时可以使用更大的批次。配合上专家拆分和合并的机制，算法团队只需要使用256张GPU即可快速训练一个Pseudo Giant。随后，训练好的模型层的参数用于为Real Giant的每一层提供初始化，大模型即可在训练好的小模型的基础上继续优化。尽管大模型的训练速度较慢，但无需经历漫长的收敛过程，只需从一个低点开始优化。

团队也通过实验证明该方案在收敛和下游迁移的有效性，同时在十万亿参数规模的M6-10T模型上做出成功实践，仅用10天左右的时间即得到非常突出的收敛效果。样本维度上收敛效果显著优于此前千亿参数M6和万亿参数模型M6-T。如上图所示，在经过了10M样本的训练后，同等实验设置下M6-10T的log PPL显著低于M6-MoE和M6-T，分别降低了34.7%和10.1%。在实验中，对比不使用Pseudo-to-Real机制直接训练的十万亿模型，Pseudo-to-Real机制达到相同预训练loss用时仅为原先的6%。对比M6万亿模型，Pseudo-to-Real十万亿模型达到相同预训练loss所需的样本量仅需约40%，充分显示出Pseudo-to-Real机制对于超大模型训练的优势。

三、M6能力再升级

除了在超大规模的基础技术以及低碳大模型开展深入探索以外，达摩院还希望M6在下游场景能力更加全面和强大。相比此前的发布，M6的图像生成能力在实际效果上进一步提升了效果，同时文本生成能力实现了更全面的覆盖，扩展到金融领域的问答与对话等。

（1）AI设计师，智能新制造

此前M6团队发现了图像生成在设计领域的巨大潜力以及商业价值，并和犀牛智造合作。近期，通过近一步探索将在细节生成上有不俗表现的StyleGAN和M6结合，提升了生成细节质量以及可编辑性。同时根据此前提出的M6-UFC的工作，团队大大提升了图像在少样本情况下的生成拓展性和创造力，通过自动图像生成来打造全新款式。

M6生成的“国风汉服长裙”

同时，M6团队发现，对于样本中数量极少的款式图片，少样本场景下的文生图效果会急剧下降。但利用图像编辑的方式，创新款式也很容易被快速扩展，可以生成更多扩展款式。

目前，M6通过犀牛智造与品牌的合作已完成从设计到生产的闭环。双11期间，多款由M6的AI设计款在淘宝平台上线。通过M6助力智能智造，可将传统新品服饰开发周期从数月降低至两周内。具体链路如下：

在设计环节，基于M6的生成+选款设计师的AI元生款链路，一周能稳定产出100款以上新款式，相比传统设计师一周20款的款式图产出，元生款链路的设计效率提升至少五倍以上。

同样，在生产环节，一款衣服在已有的设计图上会经历设计-打样-下单-大货的全流程，传统的设计是画款式图或者效果图，和真实衣服出来的效果有一定差异，往往要打实物样衣3次或者更多才能进入下单生产环节，其中物料成本，人力成本，时间成本都较高。AI服装生成的方式，视觉呈现上是更接近实物的类照片效果，版师和设计师则更容易对齐需求，结合AI实现的虚拟试穿，能减少打样次数，提升效率，并节约成本，响应低碳号召。

经过M6元生款数智制造的努力，结合犀牛环保面料的研发应用，能在全链路减少30%以上的碳排放。根据测算，每一件元生款链路生产的服装，能减排0.35千克二氧化碳；卖出50件就相当于种下一棵树。

传统设计款式图

基于M6的元生款设计模型

为了进一步验证并应用M6的超强图像生成以及创新能力，M6团队与内外部合作，尝试了用M6进行概念车型设计、家装设计、LOGO配图设计、宠物头像设计等，通过少样本或者文本描述即可生成符合要求的图像，同时还在进一步优化模型以产出更多丰富且符合业务标准的图像。

M6生成的现代风及科幻风车型

M6生成的宠物猫的头像图

（2）工业级文案生成

M6大模型也拥有极强的文本生成能力，包括基于图像的文本生成或者基于上下文的文本生成等。在中文摘要LCSTS数据集和对话数据集STC上，M6相较此前SOTA均取得了效果的提升：

而在业务落地方面，M6在多个业务场景中都得到应用。其中包括但不限于手淘、支付宝、小蜜智能客服内容文案供给，取得了3%～13%的效果提升。

此外，M6还在剧本生成和金融大脑等多个场景实现落地，实现了较为突出的业务效果。

剧本生成

值得一提的是，近几年，直播热度不断飙升，虚拟主播也在这样的背景下应孕而生。M6与相关团队开展合作，为小蜜虚拟主播自动生成播报剧本，较此前剧本更加流畅连贯。在有限的标注数据下（不到1000条），通过M6+NAR相结合的技术，在评测指标BLEU上提升了10个点，人工评测通过率超过71%，大大提高了智能剧本的生产效率。

金融预训练

内容理解和金融的结合一直备受相关领域研究人员的高度重视，在学术界有不少论文研究、Kaggle中有相关竞赛、一些公募私募基金的报告也经常进行讨论。M6的理解和生成能力相比以往模型已经有了长足的进步，所以团队关注到了金融领域，尝试研发一个金融预训练大脑，能够对金融领域带来帮助。近期M6在金融对话、投资问答、时间评论、新闻摘要等能力建设上，取得了较好的离线效果。

上述大部分应用主要还是在数据、下游任务及具体任务模型创新等方面。后面，M6将努力把金融领域至关重要的时效性、知识性、内容与金融市场的影响引入预训练模型，从而进一步强化训练大脑、产生更高的价值。

四、M6服务化平台发布

凭借平台的易用性、训练高效低碳、下游任务覆盖广泛等特点，M6服务化平台已日常服务了阿里巴巴近40项业务，包括淘系技术部、支付宝搜索、阿里健康、阿里云、飞猪等。

今年双11，M6也活跃在阿里不同业务场景中：作为AI助理设计师，M6与犀牛制造联手为近10个商家提供元生款服饰设计；M6凭借多模态特征提取能力，助力每屋每平团队更好理解商品和内容的不同维度信息；M6智能生成的内容文案成为手淘和支付宝内容供给之一；认知图谱团队基于M6产出的商品多模态特征进行商品属性标签补充，用于进行认知召回；M6的通用知识也帮助支付宝服务搜索更好的理解用户的Query语义，更好地理解平台大量的长尾服务。

M6服务业务案例：每平每屋

每平每屋轻应用是是淘系大家装垂类中的主要流量入口，以内容导购的形式满足用户在家居领域的购买需求。每平每屋算法团队基于M6服务化平台提供的多模态特征提取能力，全面优化了已有的家居商品及相关内容的特征抽取过程。对比线上已有模型和其他公开模型，具有强大跨模态理解能力M6的能够更好地捕捉商品的风格、场景等维度的信息。在实际业务场景中取得了风格召回一致率，用户点击率及转化率等多项指标的显著提升。

除了对内服务以外，M6服务化平台也通过阿里云对外发布，详情可点击portal链接。外部用户可以在阿里云上体验M6的服务，并且可以根据需求以合作的形式定制化地使用M6的功能，通过给M6团队更多反馈意见，推动多模态大模型及整个大模型生态的发展。

目前，M6平台集成了此前M6接口提供的多种finetune形式的源码，并且将陆续提供data2text文案生成、搜索召回、服饰设计、智能对话、金融问答等内部孵化成熟的解决方案。同时，平台提供了高效&低碳的分布式训练、低延迟的模型serving、统一的数据&模型管理、一键式模型部署方案。用户可以根据自身数据情况，选择使用SDK调用、Finetune、自定义模型等方式来灵活支持自己的下游任务。整体框架如下：

综合M6超大规模多模态预训练模型的跨模态理解和生成能力，团队在不同平台上的预训练&finetune模型&inference时的工程实践经验，以及团队与下游业务合作中抽象出的finetune模型与业务解决方案，本次发布的M6多模态预训练服务化平台具有以下三个核心能力点：

任务形式覆盖广：平台可以覆盖多模态（图文）输入输出的常见任务。
高性能 & 简单易用：用户快速试用只需要准备数据和简单修改参数，无需关注底层细节；平台底层实现集成系列优化提升效率，其中包括自研MoE分组策略等。
下游任务内源 + 支持自定义模型改造：用户可以编写自定义模型，只需开发少量接口。

此外，在以固定形式提供下游任务finetune接口并开源这些下游任务实现代码的同时，M6团队更希望借这一契机促进经济体内的算法社区的建立，期望更多的算法同学甚至产品运营同学都能在这样一个开放的算法社区中贡献自己的idea，在不同业务场景挖掘出大规模预训练模型的更大潜力，建立代码、模型ckpt以及数据在一定程度上的分享与重用。

五、大规模中文多模态评测基准MUGE发布

针对学术界缺少统一且有效验证多模态预训练算法效果的基准评测，达摩院提出了MUGE评测基准，拥有当前最大规模的中文多模态评测数据集，任务类型包括图像描述生成、基于文本的图像生成等、跨模态检索等。在当前中文多模态领域下游任务数据集匮乏的大背景下，该基准让广大研究人员能有效评估大模型多模态理解和生成的效果，让技术落地不再困难。

目前，MUGE评测挑战已经在阿里云天池平台开放（比赛链接https://tianchi.aliyun.com/muge），来自中科院、天津大学、武汉大学等多个机构的挑战队伍进行了提交，挑战热度持续上升。

对于已开放的评测任务，MUGE正不断完善评测标准和基准模型，便于选手更好参与。未来MUGE会持续地扩增更多的多模态任务及数据规模，延伸到更多的多模态落地场景和形式中，更进一步契合其作为通用评测基准的宗旨。与此同时，MUGE也在积极准备英文数据集，使评测不再受限于语言类型的限制，进一步为研究人员和开发者提升算法模型效果而提供支持。

六、潜在科学应用方向

未来，团队希望M6能积极探索与科学应用的结合，通过AI for science让大模型的潜力充分发挥。潜在科学应用方向可能包括：

1.脑神经连接图谱绘制：脑科学是自然科学中最前沿的部分，绘制脑神经连接图谱则是其中最基础、最核心的工作之一，对了解智力形成、发展人工智能技术具有重要意义。但脑神经连接图谱绘制上有若干重要难题，首先是数据规模非常大，斑马鱼和果蝇的脑神经连接的切片数据就已经是千亿TB级别；其次是脑神经元的轴突、树突和突触都难以确定，能否基于已有数据展开研究也充满不确定性，这部分或许是由于以前的分析技术不够导致，M6潜在可以发挥较大贡献；

2.脑机接口：脑机接口的本质是将介观层面或者微观层面的脑区活动信息与特定含义联系起来，这涉及两方面工作，首先是硬件要有很高的集成度和敏感度，其次是要有软件能很好地分析脑区活动成像信息的含义。目前，科学界对脑区活动的测量还积累不够，对很多微弱信号的理解尚显不足，M6潜在可以提高模型理解能力；

3.透明海洋：透明海洋就是通过水下无人机、水下探测器以及海面声呐设备等装备，将海面以下的状况图像化，以提升人类对海洋的理解，但如何更好地分析包括声音、图像在内的极其庞大的海洋数据是个巨大的挑战，M6潜在能发挥作用。

同时，团队也希望M6未来可以充分使用国产芯片，在加强软硬一体化研究，解决显存瓶颈、GPU利用率和sparsity等问题做出突破，帮助国产芯片打造壁垒。同时在结构化知识结合，保证下游产出事实准确性，更加灵活适用于广泛下游复杂任务的pretrain+finetune和与端计算结合等方向，有巨大的技术发展空间。

总结

在这一年里，M6团队从小规模的探索开始，逐步探索超大规模多模态预训练，针对超大规模预训练基础技术和各类型下游任务应用都取得了一定的进展，推动了大模型尤其是低碳大模型的发展。

但值得进一步探索的问题还有很多，比如当前的预训练模型随着参数规模的扩大虽然在语言模型建模之类的任务上取得不错的进展，但如何真正发挥大模型的潜力，设计更好的大模型结构，如何有效迁移到多种类型的下游任务上等，都是值得广大研究人员进一步探索的问题。

此外，目前的预训练模型对知识的理解往往还比较浅薄，而如何让大模型真正地理解并运用知识，也许也是一个值得长时间投入的研究方向。未来，M6团队在这些方面也会展开研究，希望能为大模型和预训练尽绵薄之力。

点「在看」的人都变好看了哦！