寒武纪第三代云端AI芯片思元370发布:7nm工艺,算力高达256TOPS
共 5956字,需浏览 12分钟
·
2021-11-06 17:11
▲ 寒武纪第三代云端AI芯片思元370
▲ 寒武纪MLU370-S4(左)与MLU370-X4加速卡
思元370也是国内第一颗支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。
同时,寒武纪全新升级了Cambricon Neuware软件栈,新增推理加速引擎MagicMind,实现训推一体,显著提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
新一代智能处理器架构MLUarch03
有7nm先进工艺和全新MLUarch03架构的加持,思元370芯片算力最高可达256TOPS(INT8),是上一代产品思元270算力的2倍。相较于峰值算力的提升,思元370在实测性能和能效方面的表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。
GPU数据:ResNet-50来自于相关产品官网,Transformer、VGG16、YOLOv3均取自实测最大吞吐性能。
思元370采用chiplet(芯粒)技术,在一颗芯片中封装2颗AI计算芯粒(MLU-Die),每一个MLU-Die具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口,通过MLU-Fabric保证两个MLU-Die间的高速通讯,可以通过不同MLU-Die组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。
▲ 思元370采用chiplet技术,
可实现不同算力、内存和编解码器的组合
全新推理加速引擎MagicMind
MagicMind是寒武纪全新打造的推理加速引擎,也是业界首个基于MLIR图编译技术达到商业化部署能力的推理引擎。MagicMind支持跨框架的模型解析、自动后端代码生成及优化。在MLU、GPU、CPU训练好的算法模型上,借助MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。
MagicMind的优势不仅在于可以提供极致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需理解芯片更多底层细节就可实现模型的快速高效部署,MagicMind插件化的设计还可以满足在性能或功能上追求差异化竞争力的客户需求。
▲ 推理加速引擎MagicMind是寒武纪软件栈Cambricon Neuware全新升级的重要组成部分
训推一体的Cambricon Neuware
领先的媒体性能,支持8K解码
思元370升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。
解码方面,思元370集成了强大的媒体性能,可支持132路1080p视频解码或10路8K视频解码。编码方面,全新编码器通过灵活的码率优化(RDO)控制、多参考帧、二次编码等特性组合,在相同图像质量(全高清视频PSNR)的情况下比上一代产品节省42%带宽,有效降低带宽成本。
*测试环境:
MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz
MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz
视频内容:BQTerrace_1920x1080_60.yuv
内置安全模块,加强数据安全保护
▲ 安全启动验证过程
在Cambricon Neuware SDK上实测,在常用的4个深度学习网络模型上,MLU370-S4加速卡的性能平均接近市场主流70W GPU的2倍。而在能效方面,MLU370-S4优势更为明显,处理相同AI任务相较于70W GPU用电量减少50%以上,将有力地帮助用户实现“双碳”目标。
GPU数据来自于相关产品官网。
MLU370-S4加速卡在解码方面具有强劲竞争力,相较于同尺寸GPU,可提供3倍的解码能力和1.5倍的编码能力。总体而言,MLU370-S4加速卡的能效出色,体积小巧,可在服务器中实现高密度部署。
▲ 寒武纪MLU370-X4加速卡
在Cambricon Neuware SDK上实测,常用的4个深度学习网络模型中,MLU370-X4加速卡与市场主流150W GPU相比,性能表现2项持平2项更优,实测能效则为GPU的2倍。比如YOLOv3网络中,MLU370-X4的性能是150W GPU性能的1.5倍,能效为GPU的2.5倍。
▲ 相比主流GPU产品,MLU370-X4性能领先
370系列加速卡广受客户期待,
思元全系列产品为产业升级提供算力支撑
思元370系列加速卡已与国内主流服务器合作伙伴完成适配。浪潮信息副总裁、人工智能和高性能产品线总经理刘军表示:“浪潮跟寒武纪长久以来保持着紧密合作,思元370在性能、能效等方面较之思元270均有大幅提升,我们期待双方未来能够携手为更多行业和领域提供人工智能计算相关服务。”刘军还介绍了与寒武纪之前合作的进展:“浪潮搭载寒武纪芯片的AI服务器已经在中国移动、互联网、智算中心等客户和行业中实现落地。”
寒武纪长期秉承“云边端一体、训推一体、软硬件协同”的技术理念。370新品发布和寒武纪统一基础软件平台Cambricon Neuware的全新升级,将这一技术理念的落实又向前推进了重要的一步。
IGBT6.0年底推出!比亚迪半导体:明年国内新能源汽车销量将突破600万辆
闻泰科技拿到Macbook订单是假消息?相关知情人士:纯属“野鸡机构”的臆测!
终端节点已突破2.8亿个!LoRa将拿下50%的LPWAN物联网市场?
张忠谋:英特尔CEO基辛格是个人才,但美国半导体本地制造不会成功!
重磅!闻泰科技取代台厂成为苹果2022款MacBook独家组装厂
过去6个月,华为、中芯国际供应商获得价值数十亿美元的许可证!美国鹰派欲彻底封堵
平头哥半导体副总裁孟建熠专访:揭开玄铁RISC-V处理器开源背后的秘密
行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116