HPC和数据中心融合网络研究综述-技术圈

在较新的国际高性能计算排行榜TOP500中，大部分机器并非应用在传统的科学计算领域，而是应用在新兴的互联网云计算和大数据领域。HPC应用已从过去的高精尖向更平民化、普惠化的方向发展。HPC正与云计算、大数据、AI不断融合创新。HPCN与互联网技术进行融合，拓展传统HPCN支持DCN协议栈已成为当前国际高速互连领域的重要发展趋势。

本文选自“HPC和数据中心融合网络研究综述”，对融合网络进行详细阐述，全面展示该领域的最新技术和动态；提出融合网络面临的技术挑战。

下载链接：

HPC和数据中心融合网络研究综述

华为王者归来系列：新鸿蒙、新PC、新底座

2023年中国联通DPU网络域场景应用白皮书

《浅谈超融合、服务器虚拟化技术合集》1、浅谈服务器虚拟化核心技术 2、浅谈超融合基础架构 3、企业桌面虚拟化系统的设计与实现

面向算力应用环节的计算绿色化白皮书（2023）

《混合AI是AI的未来合集》《混合AI是AI的未来》第二部分高通在推动混合AI规模化扩展方面独具优势《混合AI是AI的未来》第一部分终端侧AI和混合AI开启AI的未来

计算机行业深度分析报告：大语言模型的前世、今生与未来

全球生成式AI应用全景图：AI应用进入大爆发时代

NICC新型智算中心算力池化技术白皮书（2023年）

AI算力行业深度：昇腾万里，力算未来（2023）

随着大型DC采用具有更高带宽需求的高性能加速器，数据中心网络通过支持远程直接内存访问（RDMA）、RDMA融合以太网（RDMA over converged Ethernet，RoCE）、互联网广域RDMA协议（iWarp）等新技术不断向HPCN融合。

融合网络研究现状

NV的IB高性能互连网络通过开发多模芯片，设计基于IB的以太网协议向以太网融合，已经推出多款多网络融合的芯片产品，具有低延迟和高带宽等高性能，可以极大地提高高性能计算系统和数据中心的性能。
Cray的Slingshot技术以HPC为中心增加了以太网兼容性，其交换机兼容传统以太网并对RoCE的一些不足进行了改进，同时支持高性能计算和数据中心。
国防科技大学在自主定制高速互连网络的基础上提出一种融合网络创新架构，实现高速网/以太网无缝兼容，灵活支持科学计算和云计算等多领域应用。

“天河”融合网络架构包含PCIE主机接口处理模块、高速网网卡核心逻辑、交叉开关XBAR、以太网网卡核心逻辑、以太网报文拆分/拼装模块、物理层逻辑、高速网/以太网报文转换模块（Ethernet over high performance express,EoH)以及高速网/以太网可配的网络端口。EoH将高速网虚拟为以太网，使得连接在高速网中的节点直接与连接在以太网中的节点通信，通过高速网传输以太网报文，实现高速网/以太网无缝兼容，在一套物理硬件上灵活支持科学计算和云计算应用。

微软云平台、亚马逊云平台、百度机器学习和腾讯云都利用rdma来满足在线服务。大规模数据中心和云计算对网络延迟、吞吐量和CPU计算性能的严格要求形成了一切都在RDMA之上的局面。

RDMA技术最早在IB专用传输网络上实现，技术先进，性能最优，但价格高昂，应用局限在ＨＰＣ领域。随着以太网性能的大幅提升，越来越多的人想要选择能兼容传统以太网的高性能网络解决方案，而传统TCP/IP堆栈应用无法支撑ＨＰＣ网络通信。业界厂家把RDMA技术移植到传统以太网上，降低了RDMA的使用成本，推动了 RDMA技术普及。如图４所示，根据协议栈融合度的差异，分为 RoCE和iWARP两种技术，而 RoCE又包括 RoCE ｖ１和 RoCEｖ２两个版本。

谷歌的Aquila是一种实验性的数据中心网络架构，将超低延迟作为核心设计目标，同时也支持传统的数据中心业务。Aquila芯片架构基于GNet协议设计了融合交换和网卡的定制芯片，具有低延迟远程存储访问。Aquila芯片架构包含100Gbps的IP网卡、1RMA网卡、基于信元的GNet交换芯片以及IP协议引擎。当流量进入交换机时，一部分通过IP网卡走传统的基于数据包的以太网交换，一部分通过1RMA网卡走基于信元的GNet交换。芯片中间的IP协议引擎负责两种交换单位的转换，将IP数据包切割处理为多个信元或者将信元重新组装为IP数据包。