入选Gartner全球AI魔力象限，阿里云解读AI工程化为什么需具备这三大基础能力？-技术圈


来源：机器之心

本文约3600字，建议阅读8分钟
本文针对 AI 工程化落地的实践经验，阿里云给出了需要具备的三大基础能力：平台云原生化、模型超大规模化、AI 服务场景化。

2021 年，AI 工程化的未来令人充满期待。

Gartner 将「AI 工程化」列为 2021 年度九大重要战略科技趋势之一。在 Gartner 看来，只有 53% 的项目能够从 AI 原型转化为生产。AI 要成为企业生产力，就必须以工程化的技术来解决模型开发、部署、管理、预测等全链路生命周期管理的问题。

也就是说，如果没有 AI 工程，企业无法将 AI 项目从概念证明和原型转移到全面生产。那么对需要用到 AI 的企业来说，该选择什么样的方式和服务商来获得 AI 工程化能力？

权威市场报告是一份不错的参考。Gartner 最新发布了两份 AI 魔力象限《Magic Quadrant for Data Science and Machine Learning Platforms（数据科学与机器学习平台）》（下称「DSML 报告」）和《Magic Quadrant for Cloud AI Developer Services（云 AI 开发者服务）》（下称「CAIDS」报告），对全球厂商进行了年度评估。这两份报告可以看作是 AI 工程化领域的盘点，给予希望选择正确的 DSML 和 CAIDS 解决方案，并提升 AI 生产力的企业以权威的参考。

从厂商分布格局来看，阿里云成为 DSML 报告 4 年历史以来首个入选的中国厂商；CAIDS 报告中，阿里云、百度云、腾讯云都进入报告，其中阿里云成为唯一跻身远见者象限的中国厂商。

这意味着，阿里云凭借产品矩阵、技术实力、商业化能力以及开发者服务等优势，在帮助企业建设 AI 工程化这件事上取得了先机。

针对 AI 工程化落地的实践经验，阿里云给出的答案是具备三大基础能力：平台云原生化、模型超大规模化、AI 服务场景化。

平台云原生化

AI 工程化落地的首个基础能力就是平台云原生化。其实 AI 平台的构建有很多实现方法，但云原生是目前最普适的方法。因为云原生门槛不高，没有具体限制技术选型，尤其是它所倡导的开放、弹性和生态等原则可以迅速拉低 AI 平台的实现门槛。

开放意味着需要把 OpenAPI 放到产品的第一优先级来考虑，支持用户和其他云产品通过 OpenAPI 访问产品所有功能，可以被第二方和第三方厂商工具自由集成；同时能够擅于调用其他云上产品来构建自己的服务，比如云上数据库 RDS、云日志服务 SLS 等。
弹性是在设计之初就要设想产品的规模大小，物理资源尽量不要自建，充分利用云的弹性。
生态有两层含义，一是与业界开源社区保持合作，尽量不要重复造轮子和发明新规范，二是开放的内容生态，能够吸引个人开发者和企业共同建设 AI 平台，繁荣生态。

接着再来看机器学习领域，特别是现在热门的深度学习，平台需要的大算力主要依靠异构计算硬件来完成。典型例子就是 NVIDIA GPU 卡，但是自建 GPU 机房成本很高，并且配套的软件环境也会非常复杂，不易运维。

这个时候，云原生可以很好地解决这个问题：基于开放的容器化技术，仅需开发一次，就可以批量复制软件环境，灵活部署，有利于 DevOps 的实践。同时，机器学习中的 MLOps 强调模型效果的可复现性，容器技术一键打包所有配置和参数，确保环境的一致性，大大提高了开发效率。

从应用角度来看，机器学习模型构建和训练只是业务系统中的一环，需要与企业的其他系统集成，这就对机器学习平台的 OpenAPI 服务部署提出了更高的要求。

也就是说，云原生强调的统一部署、标准化、OpenAPI、弹性等要素都非常契合当下机器学习平台的环境复杂、需要快速迭代等特点，AI 平台云原生化是技术发展和市场发展的需求。

阿里云机器学习 PAI 已经全面拥抱云原生，通过与阿里云 IaaS 的产品无缝对接，充分利用云资源的弹性能力，遵循阿里云 OpenAPI 规范，开放 API、SDK 和命令行，保证 GPU 卡的弹性调度，降低客户自建 GPU 环境的复杂度和成本，为其提供灵活、易用和功能丰富的机器学习全栈产品。

依托云原生技术，PAI 平台陆续完善 EAS 云原生弹性推理服务平台、DSW 云原生交互式建模平台、DLC 云原生 AI 基础平台后，可实现 100% 兼容开源的轻量化、小型化灵活输出。一个典型的例子是 PAI-DSW 的用户可以轻松拿到一个完全配置好的机器学习环境，并且每次登录环境都保持一致。

模型超大规模化

机器学习平台对超大规模模型的支持能力一定程度反应了其自身的成熟程度，是其支持 AI 业务模型和能力升级的体现。这也是模型超大规模化成为 AI 工程化落地第二个基础能力的主要因素。

2021 年初，阿里云机器学习 PAI、达摩院智能计算实验室联合清华大学共同开发了业界最大规模的中文多模态预训练模型 M6。该模型参数规模超千亿，具备超越传统 AI 的文本、图像的理解和生成能力，图像设计效率超越人类，可应用于产品设计、信息检索、机器人对话、文学创作等领域。以图像生成为例，模型可设计包括服饰、鞋类、家具等 30 多个物品类别的图像，最短可以在一分钟内完成作品创作。

千亿多模态预训练模型对当前深度学习框架提出来很多挑战，包括模型计算效率、模型分布式训练性能、数据 IO、模型训练收敛性等。针对这些挑战，PAI 团队自研了 Whale 分布式训练框架，在计算效率、通信效率、显存消耗等多个方面进行了深度优化，从而帮助千亿多模态预训练模型快速迭代训练。

这背后的技术实现是：Whale 分布式训练框架基于 Graph IR，针对数据并行、模型并行、流水并行、混合并行等多种并行模型进行了统一架构设计，并对用户提供并行策略原语，用户在仅仅添加几行 API 调用的情况下就可以实现丰富的分布式并行策略。同时，Whale 实现了包括自动 Gradient Checkpointing、Optimizer 峰值显存优化、通信分组和线程池技术、混合精度、编译优化等优化技术。算法同学不需要修改模型代码，只需添加简单几行的 API 调用就可以快速构建高效的分布式训练任务。

在千亿多模态预训练模型这个任务上，PAI 团队和算法建模同学进行了紧密的合作。模型结构上，借鉴近期 Gshard 和 switch transformer 等工作，M6 模型实现中加入了 Gshard 的 Mixture-of-Experts 设计。

借助 Whale 分布式训练框架，M6 首次在 2 天以内完成 1 亿样本的预训练，相比于 OpenAI 整个任务训练成本大幅下降；在语言模型实验上，M6 对比同等 flops 的非 MoE 模型能够实现语言模型困惑度（PPL）的显著降低；在中文图文描述的下游任务实验上，M6 生成的准确率对比 baseline 取得 19.2% 的提升，对比百亿 M6 还能取得约 12.1% 的提升。

稠密模型的复杂度急剧提升，直观的表现是模参数越来越多，规模越来越大，需要的硬件资源（内存、GPU）越来越多，不利于模型的部署和应用推广，因此需要更小、更精炼的模型。

模型蒸馏是一种优化的思路，能将训练好的复杂模型迁移到结构更为简单的网络中。PAI-EasyTexMiner 知识蒸馏具备了将大规模预训练模型蒸馏到小模型上的能力，且在阿里不同的场景业务中取得了不错的效果。例如，大家每天都使用的淘宝客服机器人“阿里小蜜“，在热线意图识别方面，通过知识蒸馏，在效果基本一致的前提下，模型大幅简化，推理效率提升了 8.5 倍。

和稠密模型蒸馏出小模型不同，超大规模稀疏模型备受关注是训练能力。PAI-TensorFlow 超大规模分布式训练能力，支持万亿样本、千亿特征规模的模型训练。针对稀疏模型场景，PAI 团队在通信、图优化、算子、Runtime 等方面进行了深度性能优化，提供稀疏场景下的动态弹性特征、特征淘汰及准入、增量模型加载及更新等能力，支撑阿里巴巴核心的搜索、推荐、广告业务场景的同时，支持了大量公共云稀疏场景下的模型训练及预测。在某公共云业务场景中，PAI-TensorFlow 对比开源 TensorFlow 训练性能提升 10 倍以上，并基于动态弹性特征及增量模型更新的能力，实现了稀疏场景下 Online DeepLearning 秒级模型更新的能力。

可以看到，无论是业界最大规模的中文多模态预训练模型 M6 还是超大规模稀疏模型领先于业界数倍的训练能力，阿里云通过不同方式将稠密模型和稀疏模型的工程化能力输出给用户。

AI 服务场景化

AI 工程化如何把 AI 转化为生产力？行业 AI 落地是第三条必不可少的能力。也就是说，AI 服务要与场景结合，你不仅要懂 AI、更要懂行业。

只是，行业 AI 想要做好落地，并没有那么简单。

企业一般有定制 AI 模型和通用 AI 模型两种选择，前者购买后无法实现自我迭代，行业数据复杂度高、专家知识难以有效传承等因素导致相似项目难以简单复用；后者具有局限性，不支持行业特定业务需求。

针对这些问题，依托阿里巴巴内部电商、金融、游戏、直播等多个业务场景，PAI 在推荐、广告、用户增长、金融风控、音视频文本多模态等个性化场积累了丰富的实战经验及企业级 AI 解决方案。同时，也沉淀了大量成熟算法、框架及工程化组件。在阿里云，这些能力称之为原子能力。PAI 平台提供的这些原子能力，可以帮助用户更快地孵化和构建新场景业务。

如今，PAI 的行业场景化服务通过阿里云开放给所有企业。通过场景化插件，企业只需要按标准的数据接口接入就可以轻松完成整个建模链路，带来业务效率的快速提升。

例如在众多互联网客户中被广泛应用的 PAI 智能推荐解决方案，可以帮助企业开发者 10 天左右快速搭建企业级智能推荐系统。平台提供了 GraphSage、DeepFM、DIN 等业内经典推荐类算法，企业客户可以获得从召回到排序的全链路白盒化推荐能力，自主可控的掌握推荐业务的全部核心技术环节。

除了互联网行业之外，PAI 还支持金融、教育、城市管理等行业场景，提供专家服务，贴身结合企业业务场景和痛点提供定制 AI 方案。通过 PAI 模型的持续迭代优化，某城市大脑成功地完成了企业变更风险预测、食品抽检风险预测、执法人员画像、职业打假预警等市场监管模型，提升了市场监管的效率，有效降低各个场景的风险。

总结来说，平台云原生化、模型超大规模化、AI 服务场景化是 AI 工程化落地具备的三大基础能力，阿里云依托云原生能力，提供灵活组合的机器学习平台，提升 AI 工程效率的同时，帮助企业将 AI 转化为生产力。

编辑：王菁

校对：林亦霖