2021年11月3日，寒武纪发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4、全新升级的Cambricon Neuware软件栈。

下载链接：

1、寒武纪Caffe用户手册.pdf

2、寒武纪PyTorch用户手册.pdf

3、寒武纪TensorFlow融合模式用户手册.pdf

4、寒武纪TensorFlow用户手册.pdf

▲ 寒武纪第三代云端AI芯片思元370

基于7nm制程工艺，思元370是寒武纪首款采用chiplet（芯粒）技术的AI芯片，集成了390亿个晶体管，最大算力高达256TOPS(INT8)，是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03，相较于峰值算力的提升，思元370实测性能表现更为优秀：以ResNet-50为例，MLU370-S4加速卡（半高半长）实测性能为同尺寸主流GPU的2倍；MLU370-X4加速卡（全高全长）实测性能与同尺寸主流GPU相当，能效则大幅领先。

▲ 寒武纪MLU370-S4（左）与MLU370-X4加速卡

思元370也是国内第一颗支持LPDDR5内存的云端AI芯片，内存带宽是上一代产品的3倍，访存能效达GDDR6的1.5倍。

同时，寒武纪全新升级了Cambricon Neuware软件栈，新增推理加速引擎MagicMind，实现训推一体，显著提升了开发部署的效率，降低用户的学习成本、开发成本和运营成本。

新一代智能处理器架构MLUarch03

寒武纪智能处理器架构MLUarch03，拥有新一代张量运算单元，内置Supercharger模块大幅提升各类卷积效率；采用全新的多算子硬件融合技术，在软件融合的基础上大幅减少算子执行时间；片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍；推出全新MLUv03指令集，更完备，更高效且向前兼容。

▲ Supercharger和多算子硬件融合技术

有7nm先进工艺和全新MLUarch03架构的加持，思元370芯片算力最高可达256TOPS(INT8)，是上一代产品思元270算力的2倍。相较于峰值算力的提升，思元370在实测性能和能效方面的表现更为优秀：以ResNet-50为例，MLU370-S4加速卡（半高半长）实测性能为同尺寸主流GPU的2倍；MLU370-X4加速卡（全高全长）实测性能与同尺寸主流GPU相当，能效则大幅领先。

▲ 7nm先进工艺和全新MLUarch03架构加持，

思元370实测性能和实测能效超市场主流GPU产品

*测试环境：

MLU370-S4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

MLU370-X4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU数据：ResNet-50来自于相关产品官网，Transformer、VGG16、YOLOv3均取自实测最大吞吐性能。

思元370全面加强了FP16、BF16以及FP32的浮点算力，同时支持推理和训练任务。此外，思元370还是国内第一颗支持LPDDR5的云端AI芯片，内存带宽是上一代产品的3倍，访存能效达GDDR6的1.5倍。

值得强调的是，寒武纪坚持自研智能芯片架构、指令集，是全球范围内在该技术方向积累最为深厚的公司之一。

▲ 寒武纪智能芯片架构演进

先进chiplet技术

思元370采用chiplet（芯粒）技术，在一颗芯片中封装2颗AI计算芯粒（MLU-Die），每一个MLU-Die具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口，通过MLU-Fabric保证两个MLU-Die间的高速通讯，可以通过不同MLU-Die组合规格多样化的产品，为用户提供适用不同场景的高性价比AI芯片。

▲ 思元370采用chiplet技术，

可实现不同算力、内存和编解码器的组合

MLU-Fabric是实现芯粒技术的关键所在。它为两个MLU-Die提供低功耗、低延时和超高带宽的互联，支持芯片上实现统一的内存获取和地址映射，创建虚拟通路避免进程死锁，支持数据校验错误发生时进行数据重传，保证数据准确性。

得益于芯粒技术，思元370可通过不同的组合为客户提供更多样化的产品选择，此次寒武纪发布了两款加速卡，未来还将推出更多基于思元370的产品。

全新推理加速引擎MagicMind

MagicMind是寒武纪全新打造的推理加速引擎，也是业界首个基于MLIR图编译技术达到商业化部署能力的推理引擎。MagicMind支持跨框架的模型解析、自动后端代码生成及优化。在MLU、GPU、CPU训练好的算法模型上，借助MagicMind，用户仅需投入极少的开发成本，即可将推理业务部署到寒武纪全系列产品上，并获得颇具竞争力的性能。

MagicMind的优势不仅在于可以提供极致的性能、可靠的精度以及简洁的编程接口，让用户能够专注于业务本身，无需理解芯片更多底层细节就可实现模型的快速高效部署，MagicMind插件化的设计还可以满足在性能或功能上追求差异化竞争力的客户需求。

▲ 推理加速引擎MagicMind是寒武纪软件栈Cambricon Neuware全新升级的重要组成部分

训推一体的Cambricon Neuware

为了加快用户端到端业务落地的速度，减少模型训练研发到模型部署之间的繁琐流程，寒武纪的统一基础软件平台Cambricon Neuware整合了训练和推理的全部底层软件栈，包括底层驱动、运行时库、算子库以及工具链等，将MagicMind和深度学习框架Tensorflow，Pytorch深度融合，实现训推一体。依托于训推一体，在寒武纪全系列计算平台上，从云端到边缘端，用户均可以无缝地完成从模型训练到推理部署的全部流程，进行灵活的训练推理业务混布和潮汐式的业务切换，可快速响应业务变化，提升算力利用率，降低运营成本。

在通用性方面，Cambricon Neuware支持FP32、FP16混合精度、BF16和自适应精度训练等多种训练方式并提供灵活高效的训练工具，高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用，可满足用户对于算子覆盖率以及模型精度的需求。

全新推理加速引擎MagicMind和训推一体特性，将为用户带来更为便捷、高效的开发体验，大幅降低学习成本、开发成本和运营成本。

领先的媒体性能，支持8K解码

思元370升级了视频图像编解码单元，可提供更高效的视频处理能力和更优的编码质量，支持更复杂、更繁重、低延时要求的计算机视觉任务。

解码方面，思元370集成了强大的媒体性能，可支持132路1080p视频解码或10路8K视频解码。编码方面，全新编码器通过灵活的码率优化（RDO）控制、多参考帧、二次编码等特性组合，在相同图像质量（全高清视频PSNR）的情况下比上一代产品节省42%带宽，有效降低带宽成本。

▲ 思元370视频编码质量显著提升

*测试环境：

MLU270-S4：SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz

MLU370-S4：NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz

视频内容：BQTerrace_1920x1080_60.yuv

内置安全模块，加强数据安全保护

寒武纪高度重视用户隐私，保护数据和模型的安全，在思元370芯片内置安全模块，切实保障用户信息安全。思元370是寒武纪第一颗支持国内外主流加密标准的云端芯片，支持用户数据、深度学习模型的加解密以及计算结果的加密输出，通过信任根的方式，保障AI芯片在启动及运行过程中加载的所有代码的安全性，还支持远程认证，用户可在业务运行过程中远程验证AI环境安全性。通过多方面的安全特性，思元370系列产品将更好地确保用户AI业务安全。

▲ 安全启动验证过程

搭载思元370的两款AI加速卡正式亮相

此次发布中，两款基于思元370的加速卡正式亮相：高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡。与上一代产品相比，370系列加速卡在性能、能效方面都有更为卓越的表现。例如，对标准ResNet-50v1进行软件定制优化后，MLU370-X4加速卡性能高达30204fps。

▲ 寒武纪MLU370-S4加速卡

在Cambricon Neuware SDK上实测，在常用的4个深度学习网络模型上，MLU370-S4加速卡的性能平均接近市场主流70W GPU的2倍。而在能效方面，MLU370-S4优势更为明显，处理相同AI任务相较于70W GPU用电量减少50%以上，将有力地帮助用户实现“双碳”目标。

▲ 相比主流同尺寸GPU产品，

MLU370-S4加速卡性能优势明显

*测试环境：

MLU370-S4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU数据来自于相关产品官网。

MLU370-S4加速卡在解码方面具有强劲竞争力，相较于同尺寸GPU，可提供3倍的解码能力和1.5倍的编码能力。总体而言，MLU370-S4加速卡的能效出色，体积小巧，可在服务器中实现高密度部署。

▲ 寒武纪MLU370-X4加速卡

MLU370-X4加速卡的优势则表现为高性能，算力可达256TOPS(INT8)，加强了FP16、FP32的计算性能，新增BF16计算类型。

在Cambricon Neuware SDK上实测，常用的4个深度学习网络模型中，MLU370-X4加速卡与市场主流150W GPU相比，性能表现2项持平2项更优，实测能效则为GPU的2倍。比如YOLOv3网络中，MLU370-X4的性能是150W GPU性能的1.5倍，能效为GPU的2.5倍。

▲ 相比主流GPU产品，MLU370-X4性能领先

*测试环境：

MLU370-X4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU数据：ResNet-50来自于相关产品官网，Transformer、VGG16、YOLOv3均取自实测最大吞吐性能。

▲ MLU370-S4、MLU370-X4加速卡规格

370系列加速卡广受客户期待，思元全系列产品为产业升级提供算力支撑

从云端推理思元270、边缘推理思元220、云端训练思元290，到最新发布的推训一体思元370，寒武纪为用户提供了覆盖不同场景、不同算力规模的全系列产品。此次发布的256TOPS算力的思元370主要面向中高端推训场景，与主要面向训练的512TOPS高端产品思元290形成协同，共同为客户提供全功能、全场景的智能算力。

思元370在2020年三季度流片，相关加速卡产品于2021年二季度陆续送测客户。目前，部分客户已完成测试、导入，产品进入早期销售阶段。

思元370系列加速卡已与国内主流互联网厂商开展深入的应用适配，在语音、视觉等场景的性能表现超出客户预期。

阿里云基础设施异构计算负责人张伟丰博士表示：“阿里云基础设施异构计算团队已经完成了思元370的测试及导入，结合阿里云震旦异构计算加速平台完成了ODLA的接口适配，总体性能表现超出预期。双方将在vODLA池化，HALO编译以及面向业务场景的性能调优等技术领域深度合作。”

百度异构计算架构师黎世勇对思元370也同样充满期待，他说：“自2018年起，百度与寒武纪展开了多维度的软硬件协作，思元100等产品服务百度语音合成等多种业务场景。我们相信，随着思元370等新产品的落地，双方软硬件充分结合的生态势必将发挥更大的效能，助力人工智能行业多场景落地。”

除互联网之外，近年来，寒武纪在智慧金融、智慧能源、智慧交通等行业与合作伙伴共同完成了诸多落地案例。

“今年年初，招商银行已成功上线基于寒武纪上一代云端推理产品思元270的智能模型推理服务，并凭借高效、便捷、安全的服务赢得了金融客户的高度认可。”招商银行人工智能实验室负责人李金龙介绍了寒武纪与招商银行的合作内容，就未来深化合作表示说：“寒武纪第三代产品思元370，在性能、通用性和软件易用性等方面均达到业内领先水平，我们希望与寒武纪继续深化合作，一同为智慧金融等应用场景提供更高质量的人工智能计算服务。”

思元370系列加速卡已与国内主流服务器合作伙伴完成适配。浪潮信息副总裁、人工智能和高性能产品线总经理刘军表示：“浪潮跟寒武纪长久以来保持着紧密合作，思元370在性能、能效等方面较之思元270均有大幅提升，我们期待双方未来能够携手为更多行业和领域提供人工智能计算相关服务。”刘军还介绍了与寒武纪之前合作的进展：“浪潮搭载寒武纪芯片的AI服务器已经在中国移动、互联网、智算中心等客户和行业中实现落地。”

下载链接：

寒武纪AI框架技术手册

1、寒武纪Caffe用户手册.pdf

2、寒武纪PyTorch用户手册.pdf

3、寒武纪TensorFlow融合模式用户手册.pdf

4、寒武纪TensorFlow用户手册.pdf

异构芯片研究框架合集

中国数据处理器行业概览（2021）