三巨头激战GPU数据中心市场

共 4588字,需浏览 10分钟

 ·

2022-05-23 13:30


现代图形处理单元 (GPU) 最初是作为Windows 视频游戏的加速器,但在过去 20 年中已演变为用于高性能计算和人工智能应用程序的企业服务器处理器。


现在,GPU 在超级计算、人工智能训练和推理、药物研究、金融建模和医学成像中处于性能领先地位。在 CPU 不够快的情况下,它们也被应用于更主流的任务,例如在 GPU 驱动的关系数据库中。


随着对 GPU 需求的增长,为服务器制造 GPU 的供应商之间的竞争也越来越激烈。


GPU在数据中心的重要性


这三个供应商认识到数据中心对 GPU 的需求是一个不断增长的机会。这是因为 GPU 比 CPU 更适合处理企业数据中心和超大规模网络中人工智能和机器学习所需的许多计算。CPU可以处理工作,但需要更长的时间。


由于 GPU 旨在通过将复杂的数学问题分解为它们同时处理的单独任务来并行解决复杂的数学问题,因此它们可以更快地解决这些问题。为了实现这一点,它们具有多个内核,比通用 CPU 多得多。例如,Intel 的 Xeon 服务器 CPU 有多达 28 个内核,而 AMD 的 Epyc 服务器 CPU 有多达 64 个。相比之下,Nvidia 当前一代的 GPU Ampere 有 6,912 个内核,所有内核并行运行以做一件事:数学处理,特别是浮点数学。


GPU 的性能是通过它们每秒或 FLOPS 可以执行多少次浮点数学运算来衡量的。此数字有时指定进行测量时使用的标准化浮点格式,例如 FP64。


那么服务器 GPU 的这一年会怎样呢?事实证明,相当多。英伟达、AMD 和英特尔已经将他们的近期计划摆在桌面上,看起来这将是一场激烈的竞争。


英伟达


英伟达在 3 月份发布了其Hopper GPU架构,并宣布了其今年的 GPU 路线图。根据使用情况,它可以提供其先前架构 Ampere 的三到六倍的性能,速度为 9.7 TFLOPS FP64。Nvidia 表示,Hopper H100 的 FP64 性能将达到 60TFLOPS。


与以前的 GPU 一样,Hopper H100 GPU 可以作为独立处理器运行,在服务器的附加 PCI Express 板上运行。但英伟达还将把它与定制的 Arm 处理器上的 CPU 配对,该处理器名为 Grace,它开发并预计在 2023 年上市。


对于 Hopper,Nvidia 所做的不仅仅是增强 GPU 处理器。它还修改了通常用于智能手机的低功耗双倍数据速率 (LPDDR) 5 内存,以创建 LPDDR5X。它支持纠错码 (ECC) 和两倍于传统 DDR5 内存的内存带宽,吞吐量为 1TBps。


与 Hopper 一起,Nvidia 宣布了其最新的 GPU 到 GPU 互连 NVLink 4。NVLink 4C2C 允许 Hopper GPU 直接相互通信,最大总带宽为 900GB——比通过 PCIe Gen5 总线连接快七倍。


“如果您考虑数据中心产品,您将拥有三个组件,并且它们都必须以相同的速度向前发展。那就是内存、处理器和通信,”Jon Peddie Research 总裁 Jon Peddie 说。“而 Nvidia 已经通过 Hopper 做到了这一点。这三种技术不会同步发展,但英伟达已经做到了。”


Nvidia 计划从 2022 年第三季度开始出货 Hopper GPU。而其OEM 合作伙伴包括 Atos、BOXX Technologies、Cisco、Dell Technologies、Fujitsu、GIGABYTE、H3C、Hewlett Packard Enterprise、Inspur、Lenovo、Nettrix 和 Supermicro。


由于其芯片制造商台积电的持续供应压力,英伟达打开了可能与英特尔的代工业务合作的大门,但警告称这样的交易将需要数年时间。


AMD


AMD 逆风而行。销售额逐季增长,x86 CPU 市场份额不断增长,2 月份完成了对 Xilinx 及其现场可编程门阵列 (FPGA)、自适应片上系统 (SoC)、AI 引擎和软件专业知识的收购. 预计 AMD 将在 2022 年底推出其 Zen 4 CPU。


AMD 基于其 RDNA 3 架构的新游戏 GPU 也将于今年推出。


AMD 一直对 RDNA 3 规格守口如瓶,但游戏爱好者的博主已经散布了未经证实的消息,即性能比 RDNA 2 提高了 50% 到 60%。


与此同时,AMD 已经开始推出用于企业计算的Instinct MI250系列 GPU 加速器,新产品比之前的 MI100 系列快得多,内存总线从 4096 位翻倍到 8192 位,内存带宽从 1.23TBps 翻了一倍多到 3.2TBps,性能从 FP64 的 11.5 TFLOPS 翻了两番多到 47.9TFLOPS。这比 AMD 的 Hopper 60TFLOPS 慢,但它仍然具有竞争力。


Futurum Research 首席分析师 Daniel Newman 表示,AMD 抢占市场份额的机会将随着 AI 市场的增长而到来。他表示,他相信 AMD 在 CPU 市场上的成功可以帮助其 GPU 销售。


“AMD 在过去五七年真正创造的是一种非常强大的忠诚度,这种忠诚度可能会延续下去,”他说。“问题是,他们能否显着增加 AI/HPC 市场份额?”


他说答案可能是“是的”,因为该公司一直非常擅长寻找市场机会和管理其供应链以实现其目标。在首席执行官 Lisa Su 的掌舵下,“我发现在他们决定在这一点上竞争的任何领域都很难排除 AMD,”他说。


Omdia 高级计算、人工智能和物联网首席分析师 Jonathan Cassell 表示,他认为 AMD 在 Epyc 服务器 CPU 方面的成功将为 Instinct 处理器提供一个机会。


“我认为,随着时间的推移,我们可以看到 AMD 在数据中心微处理器方面利用其成功,并利用这一点让公司了解 [Instinct]。我认为我们将看到 AMD 试图利用其与客户的关系来扩大其在国外的影响力,”他说。


Instinct 自 2022 年第一季度以来一直在发货。到目前为止,其最引人注目的用例是橡树岭国家实验室的一台超级计算机,它将大量性能打包到一个非常小的空间中。但这些实验室也在建造一台名为 Frontier 的全 AMD 百亿亿级超级计算机,这将于今年晚些时候部署。Instinct 提供产品的 OEM 合作伙伴包括华硕、ATOS、戴尔科技、技嘉、惠普企业 (HPE)、联想、企鹅计算和 Supermicro。


英特尔


长期以来,英特尔一直在努力为其台式机 CPU 制造除基本集成 GPU 之外的任何产品。对于台式机,它拥有新的 Intel Xe 系列,而服务器等效产品称为 Intel Server GPU。


现在,该公司表示今年将使用代号为 Ponte Vecchio 的处理器进入数据中心 GPU 领域,据报道该处理器在 FP64 时可提供 45TFLOPS——几乎与 AMD 的 MI250 相同,比 Nvidia 的 Hopper 落后 25%。


“这真的会破坏环境,”佩迪说。“从他们告诉我们的情况来看——我们从谣言和其他泄密事件中听到——它非常具有可扩展性。” Ponte Vecchio 将于今年晚些时候推出。


Newman 也听到了关于 Ponte Vecchio 的积极消息,但表示英特尔的真正机会在于其oneAPI 软件战略。


oneAPI 是该公司正在开发的统一软件开发平台,旨在在编译应用程序时选择英特尔制造的最合适的芯片类型(x86、GPU、FPGA、AI 处理器),而不是强迫开发人员选择一种类型的芯片并对其进行编码。它还为视频处理、通信、分析和神经网络等功能提供了许多 API 库。


这种抽象消除了确定最佳目标处理器的需要,以及使用不同工具、库和编程语言的需要。因此,开发人员可以专注于业务逻辑并使用 Data Parallel C++ (DPC++) 编写代码,而不是使用特定语言对特定处理器进行编码,DPC++ 是 C++ 的一种开源变体,专为数据并行和异构编程而设计。


将英特尔与 Nvidia 和 AMD 区分开来的一个因素是它制造芯片的地方。虽然其他公司使用台湾芯片制造商台积电,但英特尔在美国生产许多自己的芯片,在爱尔兰、马来西亚和以色列设有其他工厂。并且 intel有在美国建造更多晶圆厂的宏伟计划。卡塞尔说,这给了它一定的优势。“[它拥有]对自己制造的控制权使其以某种方式控制了自己的命运,”他说。“我将这些东西视为公司的资产。”


纽曼说,英伟达、AMD 和英特尔之间的竞争最终可能归结为软件竞赛。“如果你问 [Nvidia 的] 顶级工程师,他们会说我们不是一家芯片公司。我们是一家软件公司。我真的相信英特尔到目前为止还没有像软件公司那样真正考虑过人工智能,但如果他们能够正确地 [oneAPI],我看到了一些真正的机会,”他说。


来源:半导体行业观察

https://www.networkworld.com/article/3659836/the-three-way-race-for-gpu-dominance-in-the-data-center.html


下载链接:

ARM架构参考手册及文档

ARM的体系结构与编程.pdf

ARM架构参考手册.pdf

ARM架构参考手册ARM V9.pdf

CPU之战:ARM vs Intel.pdf

ARM系列处理器应用技术完全手册

CPU和GPU研究框架合集

ARM CPU处理器资料汇总(1)

ARM CPU处理器资料汇总(2)

ARM系列处理器应用技术完全手册

CPU和GPU研究框架合集

1、行业深度报告:GPU研究框架

2、信创产业研究框架

3、ARM行业研究框架

4、CPU研究框架

5、国产CPU研究框架

6、行业深度报告:GPU研究框架

Arm架构服务器的开源应用

Arm架构服务器和存储

服务器硬件体系架构浅析

服务器市场现状研究

RISC-V指令架构与实践(1)

RISC-V指令架构与实践(2)

2021年RISC-V行业概览

ARM系列处理器应用技术完全手册

CPU和GPU研究框架合集

面向AIoT的RISC-V原生操作系统研究

深度报告:RISC-V异构IoT全新架构

RISC-V芯片产业指令集架构研究

玄铁C910实现RISC-V用户自定义指令

面向AIoT的RISC-V原生操作系统研究

RISC-V手册开源指令集指南

新时代“芯”生态:龙芯CPU技术与生态体系

龙芯架构参考手册卷一:基础架构

龙芯架构32位精简版参考手册

龙芯LoongArch指令集全集


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



电子书<服务器基础知识全解(终极版)>更新完毕。

获取方式:点击“阅读原文”即可查看182页 PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。



浏览 36
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报