NVLink到底Link了啥?

共 1290字,需浏览 3分钟

 ·

2020-10-29 02:52



        几个月前,NVIDIA创始人兼首席执行官黄仁勋从厨房烤箱端出了世上首款基于NVIDIA® Ampere架构的GPU —— NVIDIA A100,顿时吸引了一众网友的前排关注,小伙伴们纷纷表示被(丧)震(心)惊(病)了(狂)!


 最新A100 GPU有五大技术性突破设计:

  • NVIDIA Ampere架构

  • 具有TF32的第三代Tensor Core核心

  • 多实例GPU (MIG)

  • 第三代NVIDIA NVLink

  • 结构化稀疏


其中一个关键性创新就是采用了第三代NVIDIA NVLink,不知不觉就已经第三代了,今天,我们就主要来说道说道这个NVLink!







简单来说,NVIDIA® NVLink®是一个能够在GPU-GPU以及GPU-CPU之间实现高速大带宽直连通讯的快速互联机制



随着开发人员在人工智能 (AI) 计算等应用领域中越来越依赖并行结构,各行各业中的多GPU和多CPU系统愈发普及。其中包括采用PCIe系统互联技术的4 GPU和 8 GPU系统配置来解决非常复杂的重大难题。然而,在多GPU系统层面,PCIe带宽逐渐成为瓶颈,为了解决这一问题,NVIDIA提出了NVLink技术


NVIDIA最早在2014年GTC大会上首次提出NVLink技术,直到2016年,发布了P100,这是搭载NVLink的第一款产品,单个GPU具有160GB/s的带宽,相当于PCIe Gen3 * 16带宽的5倍。在GTC 2017上发布的V100搭载的NVLink 2.0更是将GPU带宽提升到了300G/s,差不多是PCIe的10倍了。再到今年的线上GTC大会,A100集成了最新的第三代NVLink,单个NVIDIA A100 Tensor核心GPU支持多达12个第三代NVLink连接,总带宽为每秒600G/s,几乎是PCIe Gen 4带宽的10倍





NVLink的受众相当广泛,不仅可以依据不同需求完成GPU-GPU节点内部的高速互联,同时还能在GPU-CPU甚至CPU-CPU之间形成高速互联。它既可以像PCIe,也可以像QPI。所有多GPU并行工作的场合,无论是价值数亿美元的超级计算机集群还是桌面的SLI都将会从中获得更高的并行通讯带宽。


可能大家觉得NVLink比较适用于对数据交换带宽敏感的HPC应用,而往往忽视掉了它在图形应用场景领域的价值,其所带来的更大的GPU之间与GPU的互联带宽可以让SLI场合,尤其是多卡SLI以及单卡多芯场合从中获益


利用NVLink桥接器,能够连接两块NVIDIA® Quadro®显卡,从而实现显存和性能扩展,满足最大视觉计算工作负载的需求。






提到NVLink不得不提到NVSwitch, NVIDIA NVSwitch™是将多个NVLink加以整合,在单个节点内以NVLink的较高速度实现多对多的GPU通信,从而进一步提高互联性能。NVLink和NVSwitch的结合使NVIDIA得以高效地将AI性能扩展到多个GPU。

 


上图NVSwitch拓扑图显示的是两个GPU的连接。8个或16个GPU以相同方式通过 NVSwitch进行多对多连接。


由于PCIe带宽经常会在多GPU系统级别造成瓶颈,因此深度学习技术的快速应用使得对速度更快、可扩展性更强的互连的需求日益迫切。要扩展深度学习工作负载,需要显著提高带宽并降低延迟。


NVIDIA NVSwitch以NVLink的先进通信能力为基础,能够解决该问题。它采用可在一台服务器中支持更多GPU以及GPU之间的全带宽连接的GPU架构,可将深度学习性能提升到更高水平。每个GPU都有12个连接NVSwitch的NVLink链路,可实现高速的多对多通信。




转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。


推荐阅读

更多架构相关技术知识总结请参考“架构师技术全联盟书店”相关电子书(35本技术资料打包汇总详情可通过“阅读原文”获取)。

内容持续更新,现下单“架构师技术全店打包汇总(全)”,后续可享全店内容更新“免费”赠阅,格仅收188元(原总价270元)。



温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


浏览 315
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报