性能提升10倍以上：阿里达摩院成功研发新型存算一体芯片-技术圈

↑ 点击蓝字关注极市平台

来源丨机器之心

编辑丨极市平台

极市导读

人脑的特性就是存算一体，神经元在处理任务时具有极高的并行度，并且功耗极低。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本周五，阿里巴巴达摩院宣布成功研发新型存算一体架构芯片。

据达摩院介绍，该芯片是全球首款基于 DRAM 的 3D 键合堆叠存算一体 AI 芯片，可突破冯 · 诺依曼架构的性能瓶颈，满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定 AI 场景中，该芯片性能提升 10 倍以上，能效比提升高达 300 倍。

从诞生之日起，计算机系统就是在冯 · 诺依曼架构下运行。在经典架构中，计算与内存是分离的，计算单元从内存中读取数据，计算完成后再存回内存。然而，随着人工智能等对性能要求极高的场景爆发，这一技术架构的短板逐渐显露，如功耗墙、性能墙、内存墙的问题。

AI 模型的算力需求每两年提升 750 倍，而在同样的时间内芯片的峰值算力只有 3 倍左右的提升，中间存在高达 20 倍的差距。目前我们采用的算法还只能是增大并行规模和运行时长。

相比之下，内存的性能提升速度要比芯片算力更慢，而且我们还不能简单通过增加内存系统节点的方法来解决需求，如果我们使用过多内存的话，通信成本将会出现指数级增加。

应用正在对内存系统提出严苛的要求。数据显示，在传统架构下，数据从内存单元传输到计算单元需要的功耗是计算本身的 200 倍左右，真正用于计算的能耗和时间其实占比很低。

存算一体芯片是解决这一问题的有效途径，它类似于人脑，将数据存储单元和计算单元融合为一体，大幅减少数据搬运，从而极大提高计算并行度和能效。

这一技术早在 90 年代就被提出，但受限于技术的复杂度、高昂的设计成本，以及缺少应用场景，过去几十年业界对存算一体芯片的研究进展不断，但没有出现大规模商用化的技术。随着 AI 场景的爆发，业界迫切需要该技术来解决算力瓶颈，达摩院希望通过自研创新技术解决业界难题。

实现存算一体有三种技术路线：

近存储计算（Processing Near Memory）：计算操作由位于存储芯片外部的独立计算芯片完成。
内存储计算（Processing In Memory）：计算操作由位于存储芯片内部的独立计算单元完成，存储单元和计算单元相互独立存在。
内存执行计算（Processing With Memory）：存储芯片内部的存储单元完成计算操作，存储单元和计算单元完全融合，没有一个独立的计算单元。

其中，近存计算通过将计算资源和存储资源距离拉近，实现对能效和性能的大幅度提升，被认为是现阶段能解决内存墙问题的最佳途径。达摩院本次也是沿着这一方向进行突破。

达摩院计算技术实验室自 2019 年成立以来，一直在尝试使用各种方法解决内存墙瓶颈问题。

此次，达摩院研发的芯片首次采用混合键合（Hybrid Bonding）的 3D 堆叠技术——将计算芯片和存储芯片 face-to-face 地用特定金属材质和工艺进行互联。最终的测试芯片显示，这种存算技术和架构的优势明显，能通过拉近存储单元与计算单元的距离增加带宽，降低数据搬运的代价，缓解由于数据搬运产生的瓶颈，而且与数据中心的推荐系统对于带宽 / 内存的需求完美匹配。

在今年 10 月 20 日的云栖大会上，平头哥半导体研究科学家牛迪民对存算一体技术研究进行了介绍。

在设计方面，该芯片内存单元采用异质集成嵌入式 DRAM，拥有超大内存容量和带宽优势，相比传统 SRAM 获得了数量级上的提升，片上内存带宽可高达 37.5GB/s/mm2。

计算芯片方面，达摩院研发设计了流式的定制化加速器架构，对推荐系统进行「端到端」加速，包括匹配、粗排序、神经网络计算、细排序等任务。这种近存架构也有效解决了带宽受限的问题，最终内存、算法以及计算模块完美融合，大幅提升带宽的同时还实现了超低功耗，展示了近存计算在数据中心场景的潜力。

在阿里自身推荐系统任务的测试中，存算一体芯片已经展示了先进性。

该芯片的研究成果已被即将在明年 2 月举行的 IEEE 国际固态电路顶级会议 ISSCC 2022 收录。

达摩院在存算一体架构方向上已拥有大量成果，在 ISCA、MICRO、HPCA 等顶级计算机体系结构会议上发表多篇论文。

「我们认为，存算一体的未来基于存内计算的架构，它会是通向通用人工智能道路上不可或缺的关键技术，」牛迪民说道。

达摩院表示，存算一体芯片在海量数据计算场景中拥有天然的优势，在终端、边缘端以及云端都有广阔的应用前景。例如 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景中，存算一体芯片都可以发挥高带宽、低功耗的优势。从长远来看，存算一体技术还将成为类脑计算的关键技术。

目前，整个行业对存算一体芯片技术的研究依旧处于探索阶段，在工艺成熟度、典型应用、生态系统等方面仍不成熟，达摩院希望逐步攻克技术难题，基于三维堆叠的近存芯片，通过拉近存储单元与计算单元的距离、增加带宽，来降低数据搬运的代价，缓解由于数据搬运产生的瓶颈。

参考内容：

http://submissions.mirasmart.com/ISSCC2022/PDF/ISSCC2022AdvanceProgram.pdf

https://yunqi.aliyun.com/2021/agenda/session126?

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“transformer”获取最新Transformer综述论文下载～

极市干货

课程/比赛：珠港澳人工智能算法大赛｜保姆级零基础人工智能教程

算法trick：目标检测比赛中的tricks集锦｜从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

技术综述：一文弄懂各种loss function｜工业图像异常检测最新研究总结（2019-2020）

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~