英伟达首款 CPU 面世，性能提升十倍，全面拥抱 ARM 生态-技术圈

技术编辑：宗恩丨发自思否编辑部

SegmentFault 思否报道丨公众号：SegmentFault

4 月 13 日凌晨，NVIDIA 创始人兼首席执行官黄仁勋又一次在自家厨房「举办」了一年一度的 GTC 2021 大会，会上黄教主围绕芯片、软件、服务、边缘计算、数据中心以及云，为粉丝们描述了NVIDIA对计算产业的未来愿景。

会上出现了非常多让人惊喜的产品，特别是基于 Arm 架构全球首款专为 TB 级加速计算而设计的 CPU NVIDIA Grace、全新 BlueField-3 DPU，以及业界首款 1000TOPS 算力的自动驾驶汽车 SoC-Atlan。

小编也为你整理了以下精彩看点 ——

英伟达首款 CPU 面世

黄仁勋宣布的第一个重磅新品，是一款专为大规模人工智能和高性能计算应用而设计的 CPU —— NVIDIA Grace，它也是英伟达的第一款 CPU。

它以美国海军少将、计算机编程先驱 Grace Hopper 的名字命名，她也是最早的女性程序员之一。她创造了现代第一个编译器 A-0 系统，以及第一个高级商用计算机程序语言「COBOL」。计算机术语「Debug」便是她在受到从电脑中驱除蛾子的启发而开始使用的，于是她也被冠以「Debug 之母」的称号。

不同于我们日常经常使用的应用于电脑、手机等商业产品上的 CPU，Grace 的定位是一款高度专用型处理器，主要面向大型数据密集型 HPC（数据中心）和 AI 应用。

Grace 在创新性上，可以总结为以下三点：

内置下一代 Arm Neoverse 内核，每个CPU能在 SPECrate2017_int_base 基准测试中单位时间运行超过 300 个实例；
采用第四代 NVIDIA NVLink，从 CPU 到 GPU 连接速度超过 900GB/s，相当于目前服务器 14 倍的带宽速度；从 CPU 到 CPU 的速度超过 600GB/s。
拥有最高的内存带宽，采用的新内存 LPDDR5x 技术，带宽是 LPDDR4 的 2 倍，能源效率提高了 10 倍，能提供更多计算能力。

结合 GPU 和 DPU，Grace 让 NVIDIA 拥有了第三种基础计算技术，并具有重新构建数据中心以推进技术的能力，NVIDIA 有望改变英特尔占据服务器处理器 90％以上市场的格局，甚至有可能取代英特尔「老大」的地位。

并且 NVIDIA 相信，定制设计的 CPU-GPU 平台是它能够实现下一代超大规模人工智能并开始接近基于计算机的“通用智能”水平的唯一方法，也就是说 Grace 能够解决比当今现有难题大几个数量级的人工智能问题。

包括美国能源部下属的洛斯阿拉莫斯国家实验室和瑞士国家超级计算中心的研究人员也认可这一计划，并开始着手使用 Grace 芯片制造超级计算机。

瑞士国家超级计算中心 Alps 超级计算机

NVIDIA 全面拥抱 ARM 生态

除了 Grace 的发布，此次发布会令人最印象深刻的就是 NVIDIA 全面拥抱 ARM 生态 。黄仁勋解释：「理由很充分，因为它超级节能，而且其开放式授权许可模式激励了全世界的创新者。」

发布会上，黄仁勋宣布与多家重要的 Arm 合作伙伴展开合作，包括 AWS、Ampere Computing、Marvel、联发科等 ——

NVIDIA Grace 内置下一代 Arm Neoverse 内核，为系统训练大型人工智能模型提供了巨大的性能飞跃。具体讲，基于 Grace 的系统与 NVIDIA GPU 紧密结合，性能将比目前最先进的 NVIDIA DGX 系统（在 x86 CPU 上运行）高出10倍。
基于 AWS Graviton2 的 Amazon EC2 实例将与 NVIDIA GPU 相结合，在云端部署。这一新组合将实现降低成本、支持更丰富的游戏串流体验、优化云上安卓游戏和人工智能推理、以更低成本提供更高的 AI 推理性能等优势。黄仁勋说：“我们致力于将 Arm 生态系统扩展到移动和嵌入式系统以外的市场，而今日宣布的新合作伙伴，正是我们迈出的第一步。”
为了更好地支持科学和 AI 应用开发，面向高性能计算领域，NVIDIA 推出了全新 HPC 开发者套件。NVIDIA 全新 HPC 开发者套件为超级计算机提供了一个高性能、高能效的平台，该平台结合了 1 个 Ampere Altra CPU（包含 80 个 Arm Neoverse 核，运行频率高达 3.3GHz）、双 NVIDIA A100 GPU（每个 GPU 可提供 312TFLOPS 的 FP16 深度学习性能）、两个用于加速网络、存储和安全的 NVIDIA BlueField-2 DPU。该开发者套件包含一套 NVIDIA 编译器、库和工具，可用于创建 HPC 和 AI 应用，以及将其迁移到 GPU 加速的 Arm 计算系统中，将于 2021 年第三季度上市，多家顶尖研究机构已率先展开部署。
今天 NVIDIA 还宣布了提升边缘视频分析和安全功能、打造新一类基于 Arm 并搭载 NVIDIA RTX GPU 的新款 PC 。
在边缘计算领域，NVIDIA 正扩大与 Marvell 的合作，将基于 Arm 的 OCTEON DPU 与 GPU 相结合，加速 AI 工作负载，实现网络优化和安全。
在 PC 领域，NVIDIA 与全球最大的基于 Arm 的 SoC 供应商之一联发科合作，共同打造一个采用 Arm 核与 NVIDIA 显卡、支持 Chromium、Linux 和 NVIDIA SDK 的参考平台，将 GPU 的性能及先进的 AI、光线追踪图形等技术带入 Arm PC 平台。
此外，NVIDIA 也正与富士通、SiPearl 等其他合作伙伴共同致力于扩展 Arm 生态系统。

本次发布会还有什么新鲜看点？

1、BlueField-3 DPU

BlueField-3 DPU 将拥有 200 亿晶体管，采用 16 个 Arm A78 CPU 核心、18M IOPs弹性块存储。不仅能够向下兼容前一代产品，还拥有 4 倍的性能。黄仁勋宣布 NVIDIA BlueField-3 DPU 将为构建超大规模数据中心、工作站和超级计算机所需的基础设施提供进一步的加速。

这款产品预计将于 2022 年第一季度发布样品。其下一代 BlueField-4 DPU 将包含 640 个晶体管，算力甚至可以达 1000TOPS，网络速率高达 800Gbps。

2、NVIDIA DRIVE Atlan

NVIDIA DRIVE Atlan 单颗 SoC 的算力能够达到 1000TOPS，相比上一代 Orin SoC 算力提升接近 4 倍（上代为 254TOPS），比如今大多数 L4 级自动驾驶车辆整车的算力还要强。

Atlan SoC 拥有安培架构 GPU 核心、基于 Arm 的 Grace CPU 核心、深度学习和计算机视觉加速器单元以及 BlueField DPU 核心，Atlan SoC 将于 2023 年向开发者提供样品，2025 年大量装车。

从算力的绝对数量上看，我们也能发现 NVIDIA DRIVE Atlan 的算力升级是四代自动驾驶芯片中提升最大的。

黄仁勋毫不掩饰对 NVIDIA DRIVE Atlan 喜爱，他表示：“Atlan 集 NVIDIA 在 AI、汽车、机器人、安全和 BlueField 安全数据中心领域的所有技术之大成，堪称一项技术奇迹。”

总结

英伟达今天发布的一系列产品，让它在几乎所有行业和领域都能为你提供最强大的机器学习算力。简而言之，黄仁勋表示：「几乎可以说，NVIDIA将助力您成就毕生的事业。」

在黄仁勋发表 Keynote 演讲时，这家公司的股票一度突破了 600 美元大关。现在 NVIDIA 的市值已经超越了英特尔达到 3771 亿美元，而英特尔仅为 2663 亿美元。

而本次发布会全面拥抱 Arm 生态，也让我们看到行业和市场对基于 Arm 解决方案的兴趣也正逐日提升。Grace 的推出是否会带领开发者进入全新的 Arm 时代，我们拭目以待！

参考链接：

https://blogs.nvidia.com/blog/2021/04/12/nvidia-drive-atlan-autonomous-vehicle-platform/

- END -