中国Al开发平台市场分析(2021)

共 6206字,需浏览 13分钟

 ·

2021-10-17 00:25



自研Al芯片、云原生架构、弹性分布式训练服务以及MLOps能力成为平台核心评价指标。人工智能开发平台是集成了Al算法、算力与开发工具的平台,开放机器学习、深度学习、训练模型等开发架构,同时提供开发所需的算力支持,通过接口调用的形式使开发者可高效使用平台中的Al能力实现Al产品开发或Al赋能。


下载链接:

中国AI平台市场报告(汇总)

《2021年中国AI开发平台市场报告》

《2021中国AI商业落地市场研究报告》

《中国AI开放平台精品报告》


Al开放平台为开发者设计了众多可帮助降低开发成本的开发工具与框架,例如AI数据集、Al模型与算力等。开发者可利用平台的数据集训练自己的模型,或利用平台中的算法框架定制出自己所需的功能。


Al开发平台架构由下至上可分为基础设施、框架工具、训练平台以及技术服务四层。


1、基础设施∶自研Al芯片是企业核心竞争力,自研芯片呈现架构创新、形态演进、软硬一体趋势

1.1 底层硬件


目前主流的Al处理器本质是一个片上系统(SoC),主要可应用在与图像、视频、语音、文字处理相关的场景。Al处理器主要的架构组成部件包括特制的计算单元、大容量的存储单元和相应的控制单元。企业通过自研Al芯片的方式,让芯片线路架构适配自身算法,最大化运算效率,自研Al芯片也将逐渐成为AI开发平台企业的核心竞争力之一。



1.1.1 AI芯片架构创新

云端Al芯片主要用于Al的训练场景,算力是其核心衡量指标之一。Al开发平台供应商为了适应Al训练中需要运用的应用和算法,需要研发特定域架构(DSA)芯片,以进行架构创新,达到芯片性能优化的目标。以华为异腾芯片为例,华为通过达芬奇架构提升Al 芯片的运算能力。其中,计算单元作为其三大组成部分之一(计算、存储和控制),可执行标量、向量和矩阵三种运算。而华为对达芬奇架构中的矩阵运算进行了深度优化并定制相应的矩阵计算单元支持高吞吐量的矩阵处理,具体体现为异腾芯片可用一条指令完成两个16*16矩阵的相乘运算。


为解决现存的内存存取速度严重滞后于处理器的计算速度的问题,新的完全可编程、可重构架构(CGRA)芯片、内存计算芯片,以及具有高存储带宽的全新处理器架构IPU或将引入Al芯片底层生态。


此外,芯片编程方法和软件架构设计也将成为Al芯片创新中的重要环节。例如NVIDIA借
助其推出的CUDA框架,大幅降低其GPU的编程难度,让GPU在Al加速中得到了广泛应用。未来,将有更多的Al处理器提供多层软件栈与开发工具链,帮助开发者更有效地使用底层硬件资源,提升开发效率,并通过软件的多样性减轻专用芯片灵活性低的缺陷。


1.1.2 AI芯片形态演进

Al芯片创新的目标之一在于保持芯片高能效比的同时适应AI算法的演进,未来通用加专
用芯片的片上系统形态将成为主流(CPU+NPU,CPU+ASIC等),并且适用范围更广。


传统的处理器指令集(包括x86和ARM等)为了进行通用计算而不断演进,其基本操作为
算术操作(加减乘除)和逻辑操作(与或非),往往需要数百条指令才能完成深度学习中一个神经元的处理,深度学习的处理效率不高。为解决次痛点,芯片形态需要打破传统的冯·诺伊曼结构。神经网络处理器NPU用电路来模拟人类的神经元和突触结构。在NPU中,神经网络中存储和处理实现一体化,通过突触权重来体现。如寒武纪提出的全球首个深度学习处理器指令集DianNaoYu可直接面对大规模神经元和突触的处理,通过一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。在云端应用中,搭载平头哥含光NPU的阿里云服务器AN1,在ResNet50模型的推理应用中,含光NPU每秒钟可处理高达78,000IPS的图片,较同类处理器的性能成倍提升。


1.1.3 Al芯片软硬一体化

围绕Al芯片的软件工具开始从基础计算向场景计算转变。过去,以NVIDIA为代表的芯片企业不断构建以CUDA编程模型为核心的高性能算子库、通信算法、推理加速引擎等多层次基础软件工具生态。现阶段,头部Al芯片企业开始构建面向差异化场景的软硬一体平台,商业模式由提供硬件支撑服务扩展至提供技术生产工具与技术服务等,实现底层芯片、编程框架、行业算法库、细分场景研发平台等全栈高效整合,以培育多样化行业场景的计算生态、抢占细分市场。同时,企业也可根据客户需求提供模块化服务,为客户供应其能力较弱的服务,提升服务的客制化程度。



1.2 云原生

云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可
弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。基础设施层面,容器在云的基础架构和应用之间,解耦了应用和技术架构资源;应用层面,用户可以根据场景选择微服务架构或无服务器架构;在复杂的架构场景中, 通过服务网格对服务组件的通讯进行管控;最后通过DevOps对于系统不断迭代更新。


基础设施的提升∶基于云原生的深度学习训练平台可以做到完全的容器化部署和使用,并且基于Kubernetes(K8s)提供资源的弹性弹性扩展,进行不同任务下的资源调度和分配,向下兼容多种CPU及GPU处理器。因此基于云原生的AI开发平台无论面向大规模稀疏数据的训练,还是面向感知类场景的训练,都可以快速适配合适的云原生资源。例如,阿里云PAI可以提供支持接近线性加速的内核,让训练任务在多种引擎上做到性能增强与性能加速。


训练环节的提升∶基于云原生的容器架构可灵活调配机器学习训练的算力资源,通过弹性训练的方式为Al开发降本增效。Al开发平台的云端可实时监控资源池的算力情况,在出现空闲的计算资源时将空闲资源分配给正在训练中的任务,提升该任务的算力,从而使该训练作业快速收敛。在任务提交后,弹性训练方案还可根据资源池空闲资源和弹性作业的使用情况,将资源回收后分配给新机器学习训练任务,保证新的机器学习训练的算力。


2、框架工具∶由Google TensorFlow与Facebook PyTorch主导

AI开发平台建设初期需要搭建底层技术框架,主要指深度学习框架。在搭建平台底层框架时,平台运营商可选择自主研发或使用外部框架,两种方式各有优缺点,由于自主研发的技术门槛高,多数厂家使用外部开源框架。


自主研发∶自主研发的优势在于平台将不会受到生态限制,以谷歌的TensorFlow为例,平台运营商若使用TensorFlow作为深度学习的底层框架,其硬件API将只能接入TensorFlow上,而TensorFlow部署在谷歌云上,就导致平台需要依赖谷歌的生态体系。自主研发的深度学习框架将赋予平台运营商更自由的发挥空间,减少对外部生态的依赖。但框架开发的门槛高,周期长,成本大,以百度为例,百度在2013年成立深度学习研究院,期间大量相关科学家与工程师参与研发,耗时三年才发布深度学习框架PaddlePaddle。


使用外部框架∶使用外部框架的主要优点在于多数外部框架是开源的,平台运营商可直接使用,可有效降低平台建设成本,缩短研发周期,省下的多余时间与成本可用于其配套工具的开发。缺点是使用外部框架需要依赖外部生态,不益于平台自身生态的建设。


全球深度学习框架超90%的份额由谷歌开发的TensorFlow与脸书开发的Pytorch占领∶


TensorFlow是现阶段最热门的深度学习框架,拥有可视化、性能强悍、多用途等特点。TensorFlow自带tensorboard可视化工具,能够让用户实时监控观察训练过程同时支持多GPU、分布式训练,跨平台运行能力强。TensorFlow具备不局限于深度学习的多种用途,还拥有支持强化学习和其他算法的工具。


PyTorch由脸书开源,具备简洁易用、细节化等特征。PyTorch具备更少的抽象,更直观的设计,建模过程简单透明,所思即所得,代码易于理解,同时可为使用者提供更多关于深度学习实现的细节,如反向传播和其他训练过程等。PyTorch拥有更为活跃的社区,可为开发者提供完整的文档和指南,供用户交流和求教问题,但与Tensorflow的社区相比规模更小。


其他的典型框架还包括Keras(由Google工程师开源)、mxnet(由亚马逊开源)、PP飞浆(由百度开源)、theano(有蒙特利尔大学开源)、CNTK(由微软开源)。其中,CNTK、日本初创企业首选网络(preferred networks)Chainer、Theano等早期热点框架已通过与主流框架合并或直接停止更新的方式退出历史舞台。


Al开发平台框架的竞争格局已逐步清晰∶ TensorFlow依托工业界的部署优势持续位于第
一,市场关注度第二名PyTorch 3倍以上。而PyTorch在合并Caffe2后凭借其易用性优势,应用数量大幅提升,在各大顶级学术会议论文中占比超过50%。


中国也在快速进行开源开发框架的系统化布局,代表项目有百度飞桨、旷视MegEngine、华为MindSpore、清华大学Jittor等。百度飞桨推出时间最早,已初步应用于工业、农业、服务业等场景,应用深度正逐渐完善。百度飞桨开发者人数超过230万,是中国最大的开源开发框架。


3、训练平台∶弹性分布式训练为客户降本增效

3.1 资源配置

根据对实际数据的拟合,Al计算量每年至少增长10倍,速度远超远超摩尔定律的18个月
两倍,因此深度学习训练中调整任务资源的能力变得尤为重要。现阶段,随着集群规模的扩大,集群中给定时刻出现机器故障的概率在增加。且随着训练模型复杂度的提升,训练资源与训练时间均显著增长,任务的容错性在下降。此外集群规模的提升让空闲资源的浪费变得不可忽视,集群资源配置的灵活性需求不断提升。


分布式训练可提供底层资源的弹性配置,提升系统的资源利用率。例如,百度飞桨通用异构参数服务器可以对任务进行切分,让用户可以在硬件异构集群中部署分布式训练任务,实现对不同算力的芯片高效利用,为用户提供更高吞吐,更低资源消耗的训练能力。但分布式训练的应用也存在较大阻碍。在各个框架上实现弹性控制的模块,以及进行对应调度系统的适配来实现弹性训练需要极大的工作量。此外,如果不同的框架都拥有各自的弹性训练方案,在AI开发平台层面整合不同的框架方案也需要投入很高的维护成本。


弹性分布式训练是Al开发平台服务的趋势,可以为用户实现降本增效的体验∶当用户需要大量运算资源时扩容,提升算力和稳定性,降低模型训练时间;当用户需求量小时,降低底层资源配置,为客户降低因资源占用而产生的服务费用。


3.2 算法升级

算法是Al与大数据的关联节点。社交媒介、定位技术、搜索引擎等互联网应用实时生成和储存着大量数据。在海量数据的基础上,Al持续对用户的兴趣偏好和需求进行推断,生成不同的用户画像,实现数字文化从生产、传播到接受的全程个性化、精准化定制。


现阶段,Al训练平台已集成或将集成多种人工智能技术,如计算机视觉、自然语言处理、跨媒体分析推理、智适应学习、群体智能、自主无人系统以及脑机接口等∶


  • 计算机视觉技术∶通过摄影机和电脑代替人眼对目标进行识别、跟踪和测量,对环
境进行三维感知。

  • 自然语言处理技术∶通过建立形式化的计算模型来分析、理解和处理自然语言
跨媒体分析推理技术∶协同综合处理多种形式,如文本、音频、视频、图像等混合
并存的复合媒体对象。

  • 智适应学习技术∶模拟教师学生一对一教学过程,赋予学习系统个性化教学的能力

  • 群体智能技术∶集结多个意见转化为决策的过程,降低单一个体做出随机性决策的风险


  • 自主无人系统技术∶通过先进技术进行操作或管理而不需要人工干预的系统。

  • 脑机接口技术∶在人或动物脑与外部设备间建立的直接连接通路,以完成信息交换。




4、技术服务∶ MLOps提升团队协作效率

伴随着产业智能化的发展趋势,Al正成为诸多行业转型升级的通用技术。目前,Al最为成熟和广泛的应用领域包括公安、交通、金融、教育等。Al在其他行业的应用需求分散程度高、场景亦具有多样性特征,但Al的应用需求仍广泛存在。针对不同的应用场景,Al开发平台均可提供云端的自然语言理解 、自动语音识别、视觉搜索、图像识别、文本语音转换、机器学习托管等服务内容。Al开发平台可为开发者或企业用户提供构建高级文本和语音聊天机器人、智能机器学习应用程序等的便捷操作。



MLOps概念∶ MLOps=ML+DevOps

对于个人或企业开发者而言,开发时间与开发成本是搭建Al应用程序的主要考虑指标。借助云原生及弹性分布式运算的架构可为用户在Al模型的训练与推断层面降本增效,而借助MLOps,团队的开发与部署效率会得到显著提升。


MLOps是ML的DevOps。数据科学家构建的机器学习(ML)模型需要与其他团队(业务
团队、工程团队、运营团队等)紧密合作。团队工作为沟通、协作和协调方面提出了挑战,而MLOps的目标正是通过完善的实践来简化此类挑战。MLOps为系统带来灵活性与速度∶MLOps通过可靠且有效的ML生命周期管理,减少开发时间并得到高质量的结果;MLOps从DevOps中延续的持续开发(CD)、持续集成(CI)、持续训练(CT)等方法和工具保障Al工作流程和模型的可重复性,开发者可随时随地轻松部署高精度机器学习模型并 集成管理系统可连续监测机器学习资源。


MLOPs也对平台的数据和超参数版本控制、迭代开发和试验、测试、安全性、生产监控、基础设施等环节提出了更高要求。MLOps平台数据在定义输出时起着与书面代码同等重要的作用,因此数据复杂性较DevOps平台相比有所提升。针对MLOps平台面临的挑战,MLOps的实现流程包括用例发现、数据工程、机器学习管道、生产部署、生产监控等五个阶段,其工作流程主要通过敏捷方式实现。


下载链接:

中国AI平台市场报告(汇总)

《2021年中国AI开发平台市场报告》

《2021中国AI商业落地市场研究报告》

《中国AI开放平台精品报告》

ARM架构参考手册及文档

ARM的体系结构与编程.pdf

ARM架构参考手册.pdf

ARM架构参考手册ARM V9.pdf

CPU之战:ARM vs Intel.pdf

ARM系列处理器应用技术完全手册

CPU和GPU研究框架合集

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。

获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


浏览 199
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报