老黄狂拼CPU!英伟达掏出800亿晶体管显卡,外加世界最快AI超算Eos
新智元报道
编辑:编辑部
【新智元导读】「拼装」CPU,4纳米显卡,世界最快AI超算,还有游戏开发者的元宇宙。这次,老黄的百宝箱里都有啥?

800亿个晶体管的Hopper H100
随着拔地而起的平台,英伟达推出了为超算设计的最新AI显卡Hopper H100。 相比于「只有」540亿个晶体管的前辈A100,英伟达在H100中装入了800亿个晶体管,并采用了定制的台积电4纳米工艺。 也就是说,H100将具有更好的功率/性能特性,并在密度方面有一定程度上的改进。

H100 | A100 (80GB) | |
CUDA核心 | 16896 | 6912 |
张量核心 | 528 | 432 |
超频频率 | 约1.78GHz | 1.41GHz |
内存 | 4.8Gbps HBM3 | 3.2Gbps HBM2e |
内存带宽 | 3TB/s | 2TB/s |
FP32矢量 | 60 TFLOPS | 19.5 TFLOPS |
FP64矢量 | 30 TFLOPS | 9.7 TFLOPS(1/2 FP32) |
INT8张量 | 2000 TOPS | 624 TOPS |
FP16张量 | 1000 TFLOPS | 312 TFLOPS |
TF32张量 | 500 TFLOPS | 156 TFLOPS |
FP64张量 | 60 TFLOPS | 19.5 TFLOPS |
总线 | NVLink 418条 (900GB/s) | NVLink 312条 (600GB/s) |
GPU | GH100(814平方毫米) | GA100(826平方毫米) |
晶体管数量 | 800亿 | 542亿 |
TDP | 700W | 400W |
制造工艺 | TSMC 4N | TSMC 7N |
架构 | Hopper | Ampere |

DGX服务器系统
第四代英伟达DGX服务器系统,将世界上第一个采用H100显卡构建的AI服务器平台。 DGX H100服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。 其中,每个服务器系统包含8个H100显卡,通过NVLink链接为单个整体,晶体管总计6400亿个。 在FP8精度下,DGX H100可以提供32 PFLOPS的性能,比上一代高6倍。

世界上最快的AI超算
由576个DGX H100服务器系统和4608个DGX H100显卡组成的「Eos」超级计算机预计将提供18.4 EFLOPS的AI计算性能,比目前世界上最快的超算——日本的「富岳」快4倍。 对于传统的科学计算,Eos有望提供275 PFLOPS的性能。
Transformer Engine
作为新Hopper架构的一部分,将显著提高AI的性能,大型模型的训练可以在数天甚至数小时内完成。 传统的神经网络模型在训练过程中采用的精度是固定的,因此也难以将FP8应用在整个模型之中。 而Transformer Engine则可以在FP16和FP8之间逐层训练,并利用英伟达提供的启发式方法来选择所需的最低精度。 此外,Transformer Engine可以用2倍于FP16的速度打包和处理FP8数据,于是模型的每一层可以用FP8处理的数据都可以提升2倍的速度。
Grace CPU超级芯片
除了显卡,英伟达今天还推出了其首款基于Arm Neoverse架构的处理器——Grace CPU超级芯片。 它基于此前发布的Grace Hopper CPU+GPU设计,只不过把显卡换成了CPU。 据英伟达实验室估计,在使用同类编译器时,Grace CPU超级芯片性能可以提升1.5倍以上。 在技术规格上,可以概括为:- 2个72核芯片,高达144个Arm v9 CPU核心
- 采用ECC技术的新一代LPDDR5x内存,总带宽为1TB/s
- SPECrate 2017_int_base得分预计超过740
- 900GB/s 一致性接口,比PCIe 5.0快7倍
- 封装密度比DIMM解决方案提高了2倍
- 每瓦性能2倍于当今领先的CPU



安培架构再添新品
今天,英伟达为笔记本电脑和台式机提供了七种基于Ampere架构的显卡——RTX A500、RTX A1000、RTX A2000 8GB、RTX A3000 12GB、RTX A4500和RTX A5500。 新的RTX A5500台式机显卡可实现出色的渲染、AI、图形和计算性能。其光线追踪渲染比上一代快2倍,其运动模糊渲染性能最高可提高9倍。
游戏开发者也有元宇宙了
已经在元宇宙拥有一席之地的Omniverse再次得到了加强。
- Omniverse Audio2Face,一款由NVIDIA AI驱动的应用,使角色艺术家通过音频文件生成高质量的面部动画。Audio2Face支持完整的面部动画,艺术家们还能控制表演的情感。有了Audio2Face,游戏开发者可以快速、轻松地为其游戏角色添加逼真的表情,促进玩家和游戏角色之间更强的情感连接,增强沉浸感。
- Omniverse Nucleus Cloud现已开放抢先体验版,可实现Omniverse场景的一键式简单共享,无需在本地或私有云中部署Nucleus。通过Nucleus Cloud,游戏开发者可轻松地在内、外部开发团队之间实时分享和协作3D资产。
- Omniverse DeepSearch是一项AI服务,现在可供Omniverse企业用户使用,它允许游戏开发者使用自然语言输入和图像来即时搜索其整个未标记的3D资产、物体对象和角色目录。
- Omniverse Connectors实现第三方设计工具和Omniverse之间的「实时同步」协作工作流的插件。全新虚幻引擎5 Omniverse Connector允许游戏艺术家在游戏引擎和Omniverse之间交换USD和材料定义语言数据。
将数据中心转变为「AI工厂」
不管是Hopper显卡架构还是AI加速软件,抑或是强大的数据中心系统。 所有的这些都将由Omniverse汇集起来,从而更好地模拟和理解现实世界,并作为新型机器人的试验场,即所谓「下一波AI」。 由于加速计算技术的发展,AI的进展惊人,人工智能已经从根本上改变了软件可以做什么,以及如何开发软件。 老黄表示,Transformer摆脱了对人类标记数据的需求,使自监督学习成为可能,而人工智能一跃以空前的速度发展。 用于语言理解的谷歌BERT,用于药物发现的英伟达MegaMolBART,以及DeepMind AlphaFold2都是Transformer带来的突破。 英伟达的AI平台也得到了重大的更新,包括Triton推理服务器、用于训练大型语言模型的NeMo Megatron 0.9框架,以及用于音频和视频质量增强的Maxine框架。

参考资料:
https://www.nvidia.cn/gtc-global/keynote/
评论