GPU在深度学习中究竟起了什么作用-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

围绕深度学习的“噪声”经常误导外行人以为这是一种新发明的技术，使他们为之一振的是当他们知道深度学习早在1940-1950年代就奠定了基础。还有很长的历史，其中最流行的深层神经网络结构和理论已经在整个20世纪后半期提出深的学问。如果是这种情况，那么你们可能会问，为什么在当前时代发生了深度学习革命，为什么不回溯几十年。

简单来说，在那些时期内，不存在有效训练大型神经网络所需的正确硬件和计算能力。因此所有的理论大部分都在纸上，没有实际的支持。尽管专门的研究人员继续在神经网络上开展工作，直到2000年代下半叶，当硬件革命开始兴起时，但它大部分都是不切实际的理论。

深度学习中早期使用GPU的极简史

NVIDIA于1999年推出了首款商用GPU GeForce 256，并在2000年代开始将自己定位为GPU技术的领先创新者，以推动图形业发展。代表图形处理单元的GPU由于其并行处理能力可以使游戏的图形帧比CPU快得多，因此开始获得游戏玩家的青睐，从而提供了无缝的游戏体验。NVIDIA在2007年发布了面向软件程序员的框架CUDA（计算机统一设备架构），他们可以利用CUDA API在NVIDIA GPU上进行GPU上的通用计算（GPGPU）。

除了在图形处理中的传统用途外，CUDA还允许工程师和科学家在需要并行计算的其他领域使用GPU，尤其是在那些令人尴尬的并行且无需任何操作的任务中。如果你们了解神经网络的数学原理，则应该认识到它的矩阵运算属于令人尴尬的并行计算类别，因此使其成为GPGPU的理想选择。

图1 并行执行神经网络的矩阵计算

Kumar Chellapilla于2006年在GPU上实现CNN是已知的将GPU用于深度学习的最早尝试。斯坦福大学教授和Coursera的创始人安德鲁·伍（Andrew NG）自2008年以来就是使用GPU进行深度神经网络的早期支持者之一，其他很少有研究人员在CUDA的帮助下，在2008-2009年之后开始积极地进行GPU实验。但是，它是2012年Imagenet挑战图像分类模型Alexnet的获胜者事实证明，这是具有GPU加速功能的具有里程碑意义的深度学习模型。绝对不是在深度学习中首次使用GPU，而是在这一盛大的阶段赢得了它的狂热地位和主流媒体的关注，从而引发了深度学习革命。

GPU与CPU架构

图2 GPU与CPU架构

让我们比较一下CPU和GPU的体系结构，以了解为什么GPU在神经网络上执行操作要比CPU更好。

第一个主要的明显区别是CPU仅具有几个内核来执行算术运算，而GPU可以具有成千上万个这样的内核。从一个角度来看，一个标准的性能良好的CPU有8个内核，而功能强大的CPU Intel Core i9-10980XE有18个内核。另一方面，出色的GeForce GTX TITAN Z NVIDIA GPU具有5760个CUDA内核。如此多的内核使GPU可以非常高效地进行并行计算以产生高吞吐量。GPU还具有比CPU高的内存带宽，从而使GPU可以一次在存储单元之间移动大量数据。

由于其高内存带宽和并行化，GPU可以立即加载神经网络矩阵的很大一部分，并进行并行计算以产生输出。另一方面，与GPU相比，CPU将以几乎可以忽略的并行化顺序加载数字。这就是为什么对于具有大型矩阵运算的大型深度神经网络而言，GPU可以胜过CPU的原因。

应该注意的是，拥有如此多的内核并不能使GPU在所有操作上都优于CPU。由于其低延迟，CPU可以更快地处理无法分解为并行化的任何操作。因此，CPU将比GPU更快地计算顺序浮点运算。

张量核心的奇迹

图3 Voltas Tensor核心性能

随着GPU在深度学习中的广泛采用，NVIDIA在2017年推出了GPU Tesla Tesla V100，它具有新型的Voltas架构，该架构具有称为Tensor Core的专用内核，以支持神经网络的特定张量操作。NVIDIA声称，Volta Tensor Core的吞吐率比使用常规CUDA的前代产品高出12倍。

图4 矩阵的计算操作支持张量核心

其背后的基本方法是Tensor Core专门用于将两个4x4 FP16矩阵相乘并在其中添加4x4 FP16或FP32矩阵（FP代表浮点数）。这样的矩阵运算在神经网络中非常普遍，因此具有一个专用的Tensor Core进行优化的优势，以使其比传统的CUDA内核执行得更快。