想“看见”高性能计算嘛?戳这里开始
对于非 IT 专业人士而言,大家接触较多的信息和通信设备,通常是个人电脑和手机,再或者,曾与服务器、存储和网络系统打过照面,但要谈到被称为 IT 圈,或者说计算机界“皇冠上明珠”的高性能计算 (HPC) 或者超级计算到底是个什么样儿?恐怕就见者寥寥了。今天,我们就借近日在珠海举办的第十七届全国高性能计算学术年会 (CCF HPC China 2021) 上搜集的素材,带大家踏上一场高性能计算领域的“可视化”之旅。
★
在这里我们要先插播广告介绍一下 CCF HPC China,它如今已和德国的 ISC 及美国的 SC并列为全球三大高性能计算行业峰会,是国内相关行业从业者、用户、产品技术和解决方案提供商最为关注的活动。而从它开办至今,英特尔一直都是积极的支持和参与者,今年已是第十七次参会,我们这次的视角,也会将投射在英特尔的展位,来看看英特尔针对高性能计算有哪些新鲜看点,同时对这个高深领域中的产品和应用来上一次“眼见为实”。
英特尔展区全景图
01
实实在在的硬件产品,一直是英特尔在各种计算负载或应用领域中的定海神针,只不过与多年前“一 U 打天下”的情况不同,英特尔在企业计算,包括高性能计算领域中早就不是 CPU,甚至不是硬件独军奋战的状态,取而代之的,是计算+存储+网络+软件工具的完整产品组合。如果只看其中的硬件,那么论计算,有至强® 可扩展处理器、GPU、FPGA、AI ASIC 等成员;看内存和存储,有傲腾™ 持久内存和傲腾™ 固态盘担纲;谈网络和互连,也有非常成熟的高速以太网和即将出世的 CXL 技术。
英特尔面向高性能计算的硬件产品组合
这一组合很快就会更新换代+“添丁进口”
虽然 CPU 不再是惟一,但我们还是会从它开始看起,毕竟它仍是目前英特尔高性能计算产品组合中妥妥的“C 位”。下图展示的就是英特尔今年上半年发布的、面向单双路系统的第三代英特尔® 至强® 可扩展处理器(代号 Ice Lake)。得益于内核架构的创新、内存带宽的提升以及 AI 加速技术和增强型安全技术的集成,这款处理器可为 HPC 和AI 的真实应用带来出色的性能支持——其 HPC 性能可提升至上一代产品的 1.53 倍,AI 推理能力则提升到了上代产品1.74 倍。
现场展示的第三代英特尔® 至强® 可扩展处理器
英特尔® Arria® 10 FPGA、英特尔® 服务器 GPU 在展位上的亮相,可不是“走错了场子”,它们也是英特尔高性能计算产品组合中与算力输出密切相关的成员。前者是关键的通用加速器产品,可以根据多样化应用的需求重新编程来为其提供定向加速,后者则专门为媒体类应用提供了优化。它们都是英特尔为高性能计算或 AI 提供异构支持,落地英特尔 XPU 战略的先锋。Habana® GOYA AI 推理加速卡也是英特尔定位 AI 推理加速场景的 ASIC 芯片的代表,在 HPC 与 AI 开始融合的今天,是构建更灵活、更高效的高性能计算系统时所需的重要助力。
现场展示的英特尔® Arria® 10 FPGA
现场展示的英特尔® 服务器 GPU
现场展示的 Habana® GOYA AI 推理加速卡
与上述算力创新上的“四芯并出”形成鲜明对比的,就是傲腾™ 持久内存的实物展示。它在现场虽然只有一根出场,但其散热片上“512 GB”的规格标记,对比还在单条 64 GB 或 128 GB 水平上徘徊的 DRAM 内存,仍显得“份量”十足。它和第三代至强® 可扩展处理器搭配后,能让系统中单路内存容量冲上 6 TB(2 TB DRAM 和 4 TB 持久内存),这意味着它能帮助用户,以更优的性价比把更多数据存放在距算力更近的地方,从而突破存储瓶颈,减少算力的空转和浪费。当然,对于时时需要处理海量数据的高性能计算和 AI 场景而言,持久内存独有的数据非易失能力,更是在关键时刻争分夺秒恢复数据必需的特性。
现场展示的英特尔® 傲腾™ 持久内存
02
不难看出,英特尔现在这套产品组合,除了锁定高性能计算,还时时考虑到了 AI 的要求。HPC 和 AI 正在走向融合,基于统一的基础设施来兼顾这两类应用已成大势所趋。
因此英特尔在本次 HPC China 上公开展示的第二个重点区域,就与基于处理器平台优化和落地 AI 应用密不可分。与会者在这里都会被三个大屏幕上播放的视频所吸引。其中两个分别演示了使用经典 ResNet-50 骨干网络和 YOLOv3 模型的图像分类任务和目标检测任务的优化过程及成果。借助英特尔® 至强® 可扩展处理器集成的深度学习加速技术和相关的软件工具,用户可以将这两个任务中原本采用的 FLOAT 32 类型的乘法或乘加计算,改用 INT8 类型来代替,进而在牺牲微小模型精度的前提下,大幅提升 CNN 推理的计算性能。
第三块大屏上演示的是基于第三代英特尔® 至强® 可扩展处理器和英特尔® 傲腾™ 持久内存的多流 AlphaFold2 (AF2) 优化。AF2 深度学习模型将“给定一个氨基酸序列,理论上就能预测出蛋白质的 3D 结构”这一理论推向了实用。而借助英特尔的产品技术组合和 numactl 工具,可以实现 AF2 通量最大化,进一步加速结构生物学研究。而且,运用在这个场景中的、来自英特尔的软硬件协同调优技术和经验,还有非常强的通用性和可扩展性,可在更多行业和应用场景中得到复用。
AI 展区的英特尔讲师正在为观展者讲述三个 AI 优化用例的细节
这些演示,证明加速 AI 或 AI 与 HPC 融合的应用,除要有强力可靠的硬件底座,还需要高效的软硬件协同。在软件性能调优和硬件设计间建立恰当的联系是一个十分复杂的工程。但经过英特尔架构师多代产品的打磨,跨越软硬件界面的系统优化已能顺利实现。
03
现场展示的 One API内容
除了 AI 相关的演示,英特尔在本次年会还为 oneAPI 专门开辟了一方天地。oneAPI 是构建在开放行业标准之上的,以 Data Parallel C++ (DPC++) 为基础的统一编程模型,或者说,是英特尔专门为即将爆炸式发展的异构架构,或 XPU 时代准备的,能横跨 CPU、GPU、FPGA 等不同的计算架构提供高效、易用的软件开发和优化能力,是英特尔“软实力”的全面体现。
据展位现场的英特尔专家介绍,英特尔 oneAPI 不仅打包了原有的英特尔编译器等功能,还发布了基础工具包以及相关的 HPC、AI、渲染等多个工具包,实现了单源异构编程和代码重用新方法。例如,oneAPI 可支持第三代英特尔® 至强® 可扩展处理器的 AVX-512 技术,也可通过基础工具包扩展插件大幅优化原本繁杂的代码开发任务等。令人印象深刻的是,现场的 oneART 介绍展示了 oneAPI 对跨 CPU 和 GPU 软件执行的支持。创作大师 Matt Wilson 使用基于英特尔® 至强® 的工作站,调用 oneART 的英特尔® Embree 和英特尔® Open Image Denoise 创造出了 1350 帧、4k 分辨率版本的 1080p 实时漫游场景。
现场展示的 3D 艺术家 Matt Wilson 的作品
点击观看英特尔 OneArt 介绍
04
展区中合作伙伴部分
有硬件组合,有场景演示,也有软件铺助,重视生态的英特尔的展位,自然还少不了合作伙伴的戏份。例如新华三集团基于第三代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 持久内存、英特尔® SSD Optimizer 存储构建的通用液冷服务器 H3C UniServer R4900 G5 以及整体液冷解决方案就引来了很多围观。H3C UniServer R4900 G5 是 H3C 自主研发的基于英特尔® 产品的通用机架式服务器,经过固件升级和泵驱动的水冷散热系统,不仅提升了服务器性能,也可有效的减低噪音,助力“双碳”目标实现。
H3C 的通用液冷服务器
又如联想基于第三代英特尔® 至强® 可扩展处理器的 ThinkSystem SD650 V2 温水水冷服务器,也是英特尔展位上的吸睛焦点,它使用铜质水回路实现成本缩减和更高的散热效率,同时也能为要求严苛的 HPC 工作负载提供更可靠的支持。再如,同样基于第三代英特尔® 至强® 可扩展处理器的宝德 HPC&AI 集群解决方案,能更好地兼顾大规模科学并行计算与事务处理和网络信息服务的需求,充分释放英特尔® 深度学习加速技术(英特尔® DL Boost)的潜能,助用户获得将 HPC 和 AI 有机融合的应用体验。
联想的温水水冷服务器
宝德 HPC&AI 集群解决方案
除了在英特尔展位上客场效力的这三个高性能计算系统外,很多合作伙伴在本次 HPC China 上也有自己的展位,虽然各有自己的创新产品和能力在其中亮相,但大家也有一条相似的风景线,那就是英特尔或至强® 的 LOGO 也在他们的展示中频频亮相,充分见证了他们与英特尔在高性能计算领域的合作是多么的密切和深入。
此外,英特尔在自己的展位,还布置出了一个特别的小课堂“HPC 大咖说”,连续三天邀请了合作伙伴的专家进行高性能计算产品、应用的现场讲解,例如戴尔就在这里介绍与英特尔开源社区合作的、应用于数据分析、AI 和高性能计算场景的开源软件 Omnia;并行科技也在这里分享了基于各类型号英特尔® 至强® 处理器的超算云服务。
英特尔 HPC 大咖说小课堂
04
虽然英特尔展位对现有产品技术组合、高性能计算与 AI 的融合、oneAPI 提供的软件优化力量以及来自合作伙伴的领先系统和方案有了全方位、高可视的展现,但还有两个“暂不可见”的产品让参观者念兹在兹,频频问及,这就是英特尔即将发布的、代号为 Sapphire Rapids 的下一代至强® 可扩展处理器以及基于 Xe HPC 架构,能为高性能计算和 AI 应用提供更强加速能力的 Ponte Vecchio GPU。
根据英特尔公司副总裁 Trish Damkroger 在本次年会主题演讲环节中的介绍,采用全新模块化 SoC 架构的 Sapphire Rapids 将集成更多核心(56 核,112 线程),并支持 DDR5、PCIe5 和 CXL 技术,以进一步增强内存、存储和互联性能方面带来的潜能。对 AMX(高级矩阵扩展)技术的集成,同将为 CPU 运行矩阵运算任务带来显著加速效果。
Sapphire Rapids 的规格特性
Ponte Vecchio 是一款由 47 种不同芯片模块组合而成的 GPU,将有助于加速 E 级计算愿景的实现。它会采用灵活的数据并行向量矩阵引擎来处理一系列高度并行的工作负载,可提供超高的双精度浮点运算吞吐量,以及超高缓存和内存带宽,在 AI 训练和推理场景的初步测试中,都取得了行业领先的性能成绩。
集领先架构和多种先进制造、封装技术于一身的 Ponte Vecchio
可以预见,未来的一到两年,不论是国内的 HPC China 盛会,还是全球其他以超算为主题的行业活动,这两款产品都大概率会是万众瞩目的焦点。
延伸阅读
长按识别二维码,查看更多精彩内容!
“芯”有灵犀,你也“在看”!