性能提升10倍以上:阿里达摩院成功研发新型存算一体芯片

极市平台

共 2806字,需浏览 6分钟

 ·

2021-12-09 20:48

↑ 点击蓝字 关注极市平台

来源丨机器之心
编辑丨极市平台

极市导读

 

人脑的特性就是存算一体,神经元在处理任务时具有极高的并行度,并且功耗极低。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

本周五,阿里巴巴达摩院宣布成功研发新型存算一体架构芯片。

据达摩院介绍,该芯片是全球首款基于 DRAM 的 3D 键合堆叠存算一体 AI 芯片,可突破冯 · 诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定 AI 场景中,该芯片性能提升 10 倍以上,能效比提升高达 300 倍。


从诞生之日起,计算机系统就是在冯 · 诺依曼架构下运行。在经典架构中,计算与内存是分离的,计算单元从内存中读取数据,计算完成后再存回内存。然而,随着人工智能等对性能要求极高的场景爆发,这一技术架构的短板逐渐显露,如功耗墙、性能墙、内存墙的问题。

AI 模型的算力需求每两年提升 750 倍,而在同样的时间内芯片的峰值算力只有 3 倍左右的提升,中间存在高达 20 倍的差距。目前我们采用的算法还只能是增大并行规模和运行时长。

相比之下,内存的性能提升速度要比芯片算力更慢,而且我们还不能简单通过增加内存系统节点的方法来解决需求,如果我们使用过多内存的话,通信成本将会出现指数级增加。


应用正在对内存系统提出严苛的要求。数据显示,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的 200 倍左右,真正用于计算的能耗和时间其实占比很低。
 
存算一体芯片是解决这一问题的有效途径,它类似于人脑,将数据存储单元和计算单元融合为一体,大幅减少数据搬运,从而极大提高计算并行度和能效。

这一技术早在 90 年代就被提出,但受限于技术的复杂度、高昂的设计成本,以及缺少应用场景,过去几十年业界对存算一体芯片的研究进展不断,但没有出现大规模商用化的技术。随着 AI 场景的爆发,业界迫切需要该技术来解决算力瓶颈,达摩院希望通过自研创新技术解决业界难题。
 
实现存算一体有三种技术路线:

  1. 近存储计算(Processing Near Memory):计算操作由位于存储芯片外部的独立计算芯片完成。

  2. 内存储计算(Processing In Memory):计算操作由位于存储芯片内部的独立计算单元完成,存储单元和计算单元相互独立存在。

  3. 内存执行计算(Processing With Memory):存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。


其中,近存计算通过将计算资源和存储资源距离拉近,实现对能效和性能的大幅度提升,被认为是现阶段能解决内存墙问题的最佳途径。达摩院本次也是沿着这一方向进行突破。
 
达摩院计算技术实验室自 2019 年成立以来,一直在尝试使用各种方法解决内存墙瓶颈问题。

此次,达摩院研发的芯片首次采用混合键合(Hybrid Bonding)的 3D 堆叠技术——将计算芯片和存储芯片 face-to-face 地用特定金属材质和工艺进行互联。最终的测试芯片显示,这种存算技术和架构的优势明显,能通过拉近存储单元与计算单元的距离增加带宽,降低数据搬运的代价,缓解由于数据搬运产生的瓶颈,而且与数据中心的推荐系统对于带宽 / 内存的需求完美匹配。

在今年 10 月 20 日的云栖大会上,平头哥半导体研究科学家牛迪民对存算一体技术研究进行了介绍。

在设计方面,该芯片内存单元采用异质集成嵌入式 DRAM,拥有超大内存容量和带宽优势,相比传统 SRAM 获得了数量级上的提升,片上内存带宽可高达 37.5GB/s/mm2。

计算芯片方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行「端到端」加速,包括匹配、粗排序、神经网络计算、细排序等任务。这种近存架构也有效解决了带宽受限的问题,最终内存、算法以及计算模块完美融合,大幅提升带宽的同时还实现了超低功耗,展示了近存计算在数据中心场景的潜力。

在阿里自身推荐系统任务的测试中,存算一体芯片已经展示了先进性。 

该芯片的研究成果已被即将在明年 2 月举行的 IEEE 国际固态电路顶级会议 ISSCC 2022 收录。


达摩院在存算一体架构方向上已拥有大量成果,在 ISCA、MICRO、HPCA 等顶级计算机体系结构会议上发表多篇论文。

「我们认为,存算一体的未来基于存内计算的架构,它会是通向通用人工智能道路上不可或缺的关键技术,」牛迪民说道。
 
达摩院表示,存算一体芯片在海量数据计算场景中拥有天然的优势,在终端、边缘端以及云端都有广阔的应用前景。例如 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景中,存算一体芯片都可以发挥高带宽、低功耗的优势。从长远来看,存算一体技术还将成为类脑计算的关键技术。


目前,整个行业对存算一体芯片技术的研究依旧处于探索阶段,在工艺成熟度、典型应用、生态系统等方面仍不成熟,达摩院希望逐步攻克技术难题,基于三维堆叠的近存芯片,通过拉近存储单元与计算单元的距离、增加带宽,来降低数据搬运的代价,缓解由于数据搬运产生的瓶颈。

参考内容:
http://submissions.mirasmart.com/ISSCC2022/PDF/ISSCC2022AdvanceProgram.pdf
https://yunqi.aliyun.com/2021/agenda/session126?

如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取最新CV干货

公众号后台回复“transformer”获取最新Transformer综述论文下载~


极市干货
课程/比赛:珠港澳人工智能算法大赛保姆级零基础人工智能教程
算法trick目标检测比赛中的tricks集锦从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述:一文弄懂各种loss function工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~



觉得有用麻烦给个在看啦~  
浏览 30
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报