比A100性能高4.5倍!英伟达H100横扫AI推理基准测试
新智元
共 2978字,需浏览 6分钟
· 2022-09-10
新智元报道
编辑:武穆【新智元导读】 NVIDIA H100 Tensor Core GPU在MLPerf行业 标准 AI基准测试中首次亮相,创下了所有工作负载推理的世界纪录,提供的性能比上一代GPU高4.5 倍。
不久前,英伟达公布了旗下的芯片,在MLPerf行业标准AI基准测试的结果。
根据英伟达的说法,H100(又名 Hopper),提高了所有六个神经网络在每个加速器上的表现标准,比上一代的A100,性能高了4.5倍,创造了所有工作负载推断的世界纪录。
所谓的推理,不同于机器学习 (ML)。
机器学习是创建训练模型并让系统「学习」的,而推理是用于在一系列数据点上运行学习模型,并获得结果。
英伟达认为,这个测试结果确立了H100在单独服务器和离线场景下的吞吐量和速度方面的领先地位,如果用户想要最高性能的高级AI模型,H100是首选。
英伟达为何看重MLPerf测试的结果
MLPerf可为各种工作负载建模,包括自然语言处理、语音识别、图像分类、医学成像和物体检测等项目。
该基准测试很有用,因为它可以跨越从高端数据中心和云的机器到小规模的边缘计算系统,并且可以为各个供应商的产品提供一致的基准测试,哪怕并非所有子测试中的基准测试都由所有测试人员运行。
它还可以创建用于运行离线、单流或多流测试的场景,这些测试创建一系列 AI 功能来模拟完整工作流管道的真实示例(例如,语音识别、自然语言处理、搜索和推荐、文本转语音等)。
虽然许多厂商认为只运行部分测试(ResNet是最常见的)的结果,是芯片性能的有效指标,比完整的MLPerf更适用。
比如,在上面的图表中也能看到,许多被比较的芯片在MLPerf的其他组件中没有测试结果,因为厂商根本不打算测。
但MLPerf测试依然被业界广泛接受,如果能在MLPerf测试中取得不错的成绩,很少有人会质疑结果的准确性和权威性。
英伟达在市场上还处于领先地位吗?
此次,对于在MLPerf测试中取得的结果,英伟达还是比较满意的。
这意味着,很可能在今年年底之前,英伟达就会首次公开演示H100 GPU。
而且,H100 GPU将参与未来的MLPerf轮次进行训练。
H100能取得如此不俗的表现,部分要归功于英伟达的Transformer Engine。
Transformer Engine使用软件和定制的NVIDIA Hopper Tensor Core技术,旨在加速对由流行的AI模型构建块变压器构建的模型的训练。
这些张量核心可以应用混合的FP8和FP16格式,以显著加速变压器的AI计算,这种加速有时是数量级的提升,从而最适合手头的任务。
Transformer Engine这样的工具,带来的优势是显而易见的:开发人员能够专注于解决方案,而不是试图为没有相应平台的系统进行低级硬件和相关代码优化。
更重要的是,Transformer Engine这样的工具,体现了英伟达的真正优势——平台方法。
英伟达的许多竞争对手,虽然能为市场提供芯片或系统,但英伟达已经建立了一个强大的生态系统,包括芯片,相关硬件以及针对其芯片和系统优化的完全稳定的软件和开发系统。
用英伟达方面的话说,本轮MLPerf测试上,有70多份参赛作品在NVIDIA平台上运行,例如,Microsoft Azure提交了在其云服务上运行NVIDIA AI的结果。
这表明,NVIDIA AI得到了业界最广泛的机器学习生态系统的支持。
事实上,英伟达的竞争对手英特尔以及高通都强调了平台方法。
而初创公司通常只支持开源选项,这些选项可能与主要供应商提供的功能水平不同。
此外,英伟达还针对特定细分市场优化了框架,为解决方案提供商提供了一个有价值的起点,使解决方案提供商能够以更少的工作量实现更快的上市时间。
而初创AI芯片供应商无法提供这种级别的资源。
当然,英伟达并非没有弱点。
比如,虽然英伟达展示了其芯片与标准英特尔x86处理器的比较,但它没有与英特尔新的Habana Gaudi 2芯片进行比较。
而Habana Gaudi 2芯片可能会显示出高水平的人工智能计算能力,可以接近或超过一些英伟达产品。
另外,英伟达可能不是所有细分市场的NO.1,特别是在低功耗细分市场,像高通这样的公司可能具有优势。
不过,尽管如此,由于英伟达仍然提供最广泛的产品系列,其对完整平台生态系统的重视,使其在人工智能竞赛中处于领先地位,并且竞争对手很难轻易取代。
评论
真高!比亚迪员工爆料比亚迪在越南的薪资水平:基本工资480万,全勤奖35万,交通补助20万,餐补110万,每周6天,每天10小时
上一篇:某大公司为逼迫员工离职,竟然把他的工位安排到厕所旁,没想到他直接开始记录领导的如厕时间,还发到公司大群...对此,你怎么看?--完--PS:欢迎在留言区留下你的观点,一起讨论提高。如果今天的文章让你有新的启发,欢迎转发分享给更多人。全文完,感谢你的耐心阅读。如果你还想看到我的文章,请一定给本
开发者全社区
0
英伟达Blackwell平台网络配置分析
本文来自“英伟达Blachwell平台网络配置详解”。GTC大会英伟达展示了全新的 Blackwell 平台系列产品,包括 HGX B100 服务器、NVLINK Switch、GB200Superchip Computer Node、Quantum X800 交换机和 CX8 网卡(InfiniB
架构师技术联盟
0
CXL:破解AI时代“内存墙”新途径
AI大模型的快速发展推动“算力”和“存力”需求快速增长,“内存墙”问题由来已久,在 AI 时代表现的愈发明显,“算力”和“运力”之间的差距越来越大。Transformer 类的模型参数的数量呈现指数增长,每两年增加 410 倍,而 GPU 内存仅以每两年 2 倍的速度扩展。1、AI时代“内存墙”问题
架构师技术联盟
0
测试新人,如何快速上手一个陌生的系统!
大家好,我是狂师!作为刚入行不久的测试新人,面对一个陌生的系统时,可能会感到有些手足无措。面对一个全新的系统系统,如何快速上手并展开有效的测试工作是一个重要的挑战。本文将探讨测试新人如何通过一系列步骤和策略,快速熟悉并掌握新系统的测试要点,从而提高测试效率和质量。本文旨在为测试新手提供一份指导,帮助
测试开发技术
0
OpenAI的Sora竟然造假:生成的AI大片只有1%的AI,剩下的99%是人工!
点蓝色字关注“机器学习算法工程师”设为星标,干货直达!啊?Sora火爆短片《气球人》,也“造假”了???背后艺术家团队的最新揭秘,可谓一石激起千层浪:原来,视频画面并非完全由AI生成,其中有大量视觉效果需要人类后期实现。be like:这下网友不干了,合着大家伙儿跟OpenAI玩真心,OpenAI背
机器学习算法工程师
1
APP 安全测试项总结
一、安装包测试 1.1、关于反编译 目的是为了保护公司的知识产权和安全方面的考虑等,一些程序开发人员会在源码中硬编码一些敏感信息,如密码。而且若程序内部一些设计欠佳的逻辑,也可能隐含漏洞,一旦源码泄漏,安全隐患巨大。 为了避免这些问题,除了代码审核外,通常开发的做法是对代码进行混淆,混淆后源代
测试开发技术
0
自动化测试做得好的标准是什么
自动化测试要做得好的标准,主要包括以下几个方面:一、高覆盖率与精准定位1、测试用例覆盖全面:自动化测试应覆盖产品的核心功能、关键业务流程以及常见的异常场景,确保测试范围广泛,降低遗漏风险。2、问题定位准确:自动化测试应能够精准地识别并定位问题,包括缺陷的位置、产生的原因以及可能的影响,为开发团队提供
测试开发社区
0
聊一聊我最常关注的9个计算机视觉、自动驾驶、AI方向高质量圈子
随着计算机视觉(2D/3D)、SLAM、自动驾驶、AI技术的快速迭代更新,可落地的技术也成为人们争先学习的重点。这使得从业者对于最前沿技术的获取能力变得至关重要。微信公众号便是一个非常有效的前沿信息分享平台。这里给大家推荐9个最常打开的计算机视觉、自动驾驶、SLAM、机器学习和AI方向的优质公众号平
机器学习初学者
0