英伟达颠覆CPU！长发黄仁勋杀入英特尔地盘，Arm架构CPU性能高10倍-技术圈

新智元报道

来源：NVIDIA

编辑：小匀、LQ、yaxin

【新智元导读】英伟达凡尔赛一号玩家黄仁勋来了！他带着自家ARM架构CPU从加速器辅路杀进了CPU三环主路，战火直接烧到了英特尔后院，帕特·基辛格同志要小心了！

黄仁勋、皮衣、自家厨房。

这一次，老黄的头发有点长。

今日凌晨，NVIDIA GTC2021开幕。

今年，「GPU大哥」英伟达居然「不讲武德」，发布一个基于Arm架构的新数据中心CPU Nvidia Grace，它将直接挑战英特尔在服务器和数据中心计算领域的主导地位。

毫不奇怪，英特尔和AMD的股价在这一消息上下跌了几个百分点。

随着英伟达进军CPU领域，且能大大超越Intel和AMD的处理器，英特尔和AMD或将在这一技术领域输掉竞争？

先来看看英伟达的CPU有多强。

英伟达CPU：因AI而生，进击英特尔最赚钱的领域

对英特尔和AMD来说，这是个坏消息。

英伟达宣布出算力强大的CPU, 把战火烧到了英特尔后院。

十年前在英特尔试图狙击Nvidia GPU杀进HPC异构并行的努力，画了一张图，今天随手在手机上指头画了一下，CPU和GPU分别从高浮点算力和高通量处理的南北山头向顶端攀登，

现在看，借助AI兴起，英伟达势头更猛一些，帕特基辛格同志要小心了。

专攻GPU的英伟达在这次GTC大会上推出了基于Arm架构的中央处理器（CPU）—— Grace，用于大规模人工智能和高性能计算应用。

黄仁勋表示，「这是英伟达第一个数据中心CPU，专为大型应用建立」。

这款CPU以美国海军少将、计算机编程先驱Grace Hopper的名字命名。

Grace Hopper是计算机科学的先驱之一，也是哈佛Mark 1的第一批程序员和第一个链接器的发明者。

她在20世纪50年代开创了计算机编程，发明了世界上第一个编译器，被称为「计算机软件工程第一夫人」。

GPU用于运行视频游戏和数据中心的数据密集型计算任务。而CPU更像是「通才芯片」，可以执行诸如运行操作系统之类的基本任务。

这款名为Grace的CPU使用了节能 Arm 核心—— Neoverse，为系统训练大型人工智能模型提供了巨大的性能飞跃。

具体讲，基于Grace的系统与NVIDIA GPU紧密结合，性能将比目前最先进的NVIDIA DGX系统（在x86 CPU上运行）高出10倍。

它能够满足世界上最先进应用的计算需求，包括自然语言处理、推荐系统和人工智能超级计算，这些应用分析需要超快计算性能和大容量内存中的巨大数据集。

Grace还是一款高度专用型处理器，主要面向大型数据密集型HPC和AI应用。新一代NLP模型的训练会有超过一万亿的参数。

‍

这款CPU的基本性能是第四代Nvidia NVLink互连技术，该技术在Grace和Nvidia图形处理单元之间提供每秒900 GB的连接，使总带宽比目前领先的服务器高出30倍。

英伟达表示，新产品将于2023年初上市。

黄表示，使用经过授权的 ARM IP，英伟达将 Grace 设计成专门用于大规模人工智能和高性能计算的 CPU。

「加上 GPU 和 DPU，Grace 为我们提供了计算的第三个基础技术，以及重新构建数据中心的能力，以推进人工智能。英伟达现在是一家三芯片公司。」

英伟达新推出CPU将会在明年两台性能强大的AI超算上实现首次应用。

黄表示，「这是世界上第一个为 TB 级计算设计的 CPU」。

作为首批客户，瑞士超级计算中心（CSCS）和美国洛斯阿拉莫斯国家实验室（Los Alamos National Laboratory）将是第一个使用由惠普打造的Grace驱动的超级计算机的机构。

Grace将为世界上最快的超级计算机提供驱动力。这台被称为阿尔卑斯山的超算将具有20亿次浮点运算的能力。

这比当今领先的人工智能超级计算机——2.8亿次运算的 Nvidia Seline 超级计算机的计算能力高出约7倍。

GTC 2021推出的第一款服务器微处理器Grace，代表了英伟达想要在CPU领域一展宏图，抢占英特尔最赚钱的市场领域。

BlueField-3 DPU

黄仁勋宣布NVIDIA BlueField-3 DPU将为构建超大规模数据中心、工作站和超级计算机所需的基础设施提供进一步的加速。

这款新一代数据处理器将提供最强大的软件定义网络、存储和网络安全加速功能。

BlueField-2能够卸载相当于30个CPU核的工作负载，而BlueField-3实现了「10倍」的性能飞跃，能够替代300个CPU核，以400Gbps的速率，对网络流量进行保护、卸载和加速。

英伟达「三芯」

数据中心路线图包括CPU、GPU和DPU这三类芯片，Grace和BlueField是其中必不可少的关键组成部分。

每个芯片架构历经两年的打磨周期（周期内可能出现转变），一年专注于 x86 平台，另一年专注于 Arm 平台。

「我们每年都会发布激动人心的新品。三类芯片，逐年飞跃，一个架构。」

Arm无可比拟

Arm是全球最受欢迎的CPU，黄仁勋解释：「理由很充分，因为它超级节能，而且其开放式授权许可模式激励了全世界的创新者。」

在云计算、企业和边缘数据中心、超级计算、PC等其他市场中，Arm也开始崭露头角。

黄仁勋宣布与多家重要的Arm合作伙伴展开合作，包括云计算领域的AWS、科学和云计算领域的Ampere Computing、超融合边缘服务器领域的Marvel、以及将打造Chrome OS和Linux PC SDK与参考系统的联发科。

面向AI的计算机DGX

软硬件双管齐下，黄仁勋宣布升级NVIDIA专为工作组打造的「便携式AI数据中心」——NVIDIA DGX Station，以及NVIDIA专为密集型AI研发打造的AI数据中心产品——NVIDIA DGX SuperPod。

全新DGX Station 320G借助320GB超快速HBM2e连接至4个NVIDIA A100 GPU，内存带宽达到每秒8TB。然而，仅需将其插入普通的壁装电源插座即可使用，耗电量只有1500瓦。

DGX SuperPOD使用全新80GB NVIDIA A100，将其HBM2e内存提升至90TB。目前它已经升级至采用NVIDIA BlueField-2，且NVIDIA如今还为该产品提供配套的NVIDIA Base Command DGX管理和编排工具。

Omniverse：还原尼尔·斯蒂芬森的《雪崩》世界

人类与AI和机器人共存的虚拟实时3D世界不再只是科幻小说中的故事情节。

NVIDIA Omniverse是一个云原生平台，其特点包括：可以扩展至多个GPU、具有高物理精度、能够充分运用RTX实时路径追踪和DLSS、可以使用NVIDIA MDL模拟材料、可以使用NVIDIA PhysX模拟物理学并且与NVIDIA AI完全集成。

黄仁勋表示：「Omniverse旨在创建共享虚拟3D世界，就像尼尔·斯蒂芬森在1990年代早期的小说《雪崩》中所描述的科幻虚拟空间那样。」

黄仁勋还宣布将从今年夏季开始提供Omniverse企业授权许可。自公测版发布以来，建筑领域的福斯特建筑事务所（Foster and Partners）、娱乐领域的ILM、游戏领域的Activision以及大型广告公司WPP等合作伙伴都将Omniverse运用到了其工作中。

NVIDIA Jarvis，加速AI对话

此次NVIDIA还发布了用于训练Transformers的框架—— NVIDIA Megatron。

在keynote中，黄仁勋详细介绍了NVIDIA用于计算药物研发加速库Clara Discovery的一些新模型，以及与Schrodinger的合作。

Schrodinger是一个基于物理学和机器学习的顶尖药物研发与材料科学计算平台。

为加快有赖于量子比特的量子计算研究，黄仁勋发布了cuQuantum，其能够为量子电路模拟器提供加速，以助力研究人员设计出更完善的量子计算机。

为加快对话式AI的发展，黄仁勋宣布先进的深度学习AI——NVIDIA Jarvis已经可用，其能够实现语音识别、语言理解、翻译和表达性语音。

为帮助客户将自身专业知识应用于AI领域，黄仁勋发布了NVIDIA TAO，其可以运用客户和合作伙伴的数据，对NVIDIA预训练模型进行微调和适配，同时保护数据隐私。

最后出场的是推理服务器NVIDIA Triton，它可以从进入客户EGX服务器或云实例的连续数据流中获取洞察。

黄仁勋说：「这包括任何在cuDNN上运行的AI模型，也就是几乎所有的AI ，包括来自TensorFlow、Pytorch、ONNX、OpenVINO、TensorRT或自定义C++/python后台等的任何框架。」

NVIDIA Drive Orin：汽车的中央大脑

最后是自动驾驶。

黄仁勋表示，自动驾驶汽车领域是「机器学习和机器人技术所面对的最严峻的挑战之一，同时也是最棘手、影响最大的挑战之一。」

NVIDIA正在为价值「10万亿美元」的交通运输行业构建模块化的端到端解决方案，使合作伙伴能够充分利用所需要的部件。

黄仁勋表示，将于2022年投产的NVIDIA自动驾驶汽车计算系统级芯片——NVIDIA DRIVE Orin，旨在成为汽车的「中央电脑」。

沃尔沃从2016年开始应用NVIDIA DRIVE的算力，基于NVIDIA DRIVE Xavier，为新车型开发AI辅助驾驶功能，软件则由沃尔沃汽车旗下的自动驾驶软件开发公司Zenseact自主研发。

沃尔沃新一代汽车的自动驾驶计算机将配备NVIDIA DRIVE Orin。

‍

这也是英伟达和合作伙伴致力推广的「软件定义车型」的概念。

与此同时，黄仁勋宣布了NVIDIA新一代车载系统级芯片NVIDIA DRIVE Atlan，为汽车带来真正的数据中心。

Atlan可以达到每秒超过1000万亿次（TOPS）运算次数，这是DRIVE平台首次集成DPU，通过Arm核为自动驾驶汽车带来数据中心级的网络，致力于应用到2025年的车型。

Atlan约是上一代Orin处理器的4倍，超过了绝大多数现有无人驾驶出租车的计算能力。

NVIDIA DRIVE Orin - 2019年年底公布但至今没有出货的芯片方案算力254 TOPS；2020年的Xavier方案有30 TOPS，而2018年的Parker仅可以提供1 TOPS。

TOPS就是新马力

黄仁勋表示：「Atlan集NVIDIA在AI、汽车、机器人、安全和BlueField安全数据中心领域的所有技术之大成，堪称一项技术奇迹。」

黄仁勋还发布了NVIDIA第八代Hyperion汽车平台，包括参考传感器、自动驾驶汽车和中央计算机、3D地面真实数据记录仪、网络以及所有必要的软件。

黄仁勋还宣布DRIVE Sim将于今年夏季开放供业界使用。

正如Omniverse能够构建汽车生产工厂的数字孪生一样，DRIVE Sim也可用于创建自动驾驶汽车的「数字孪生」，并将其用于自动驾驶汽车的开发。

In a word, 黄仁勋表示：「几乎可以说，NVIDIA将助力您成就毕生的事业。」

参考资料：

https://blogs.nvidia.com/blog/2021/04/12/nvidia-drive-atlan-autonomous-vehicle-platform/

https://venturebeat.com/2021/04/12/nvidia-unveils-grace-arm-based-cpu-for-giant-scale-ai-and-hpc-apps/

https://nvidianews.nvidia.com/news/nvidia-unveils-nvidia-drive-atlan-an-ai-data-center-on-wheels-fornext-gen-autonomous-vehicles