HPC和数据中心融合网络研究综述

智能计算芯世界

共 3425字,需浏览 7分钟

 · 2023-09-21

在较新的国际高性能计算排行榜TOP500中,大部分机器并非应用在传统的科学计算领域,而是应用在新兴的互联网云计算和大数据领域。HPC应用已从过去的高精尖向更平民化、普惠化的方向发展。HPC正与云计算、大数据、AI不断融合创新。HPCN与互联网技术进行融合,拓展传统HPCN支持DCN协议栈已成为当前国际高速互连领域的重要发展趋势。

本文选自“HPC和数据中心融合网络研究综述”,对融合网络进行详细阐述,全面展示该领域的最新技术和动态;提出融合网络面临的技术挑战。

下载链接:

HPC和数据中心融合网络研究综述
华为王者归来系列:新鸿蒙、新PC、新底座
2023年中国联通DPU网络域场景应用白皮书
《浅谈超融合、服务器虚拟化技术合集》1、浅谈服务器虚拟化核心技术 2、浅谈超融合基础架构 3、企业桌面虚拟化系统的设计与实现
面向算力应用环节的计算绿色化白皮书(2023)
《混合AI是AI的未来合集》《混合AI是AI的未来》第二部分 高通在推动混合AI规模化扩展方面独具优势 《混合AI是AI的未来》第一部分 终端侧AI和混合AI开启AI的未来
计算机行业深度分析报告:大语言模型的前世、今生与未来
全球生成式AI应用全景图:AI应用进入大爆发时代
NICC新型智算中心算力池化技术白皮书(2023年)
AI算力行业深度:昇腾万里,力算未来(2023)

随着大型DC采用具有更高带宽需求的高性能加速器,数据中心网络通过支持远程直接内存访问(RDMA)、RDMA融合以太网(RDMA over converged Ethernet,RoCE)、互联网广域RDMA协议(iWarp)等新技术不断向HPCN融合。

融合网络研究现状

  • NV的IB高性能互连网络通过开发多模芯片,设计基于IB的以太网协议向以太网融合,已经推出多款多网络融合的芯片产品,具有低延迟和高带宽等高性能,可以极大地提高高性能计算系统和数据中心的性能。

  • Cray的Slingshot技术以HPC为中心增加了以太网兼容性,其交换机兼容传统以太网并对RoCE的一些不足进行了改进,同时支持高性能计算和数据中心。

  • 国防科技大学在自主定制高速互连网络的基础上提出一种融合网络创新架构,实现高速网/以太网无缝兼容,灵活支持科学计算和云计算等多领域应用。

“天河”融合网络架构包含PCIE主机接口处理模块、高速网网卡核心逻辑、交叉开关XBAR、以太网网卡核心逻辑、以太网报文拆分/拼装模块、物理层逻辑、高速网/以太网报文转换模块(Ethernet over high performance express,EoH)以及高速网/以太网可配的网络端口。EoH将高速网虚拟为以太网,使得连接在高速网中的节点直接与连接在以太网中的节点通信,通过高速网传输以太网报文,实现高速网/以太网无缝兼容,在一套物理硬件上灵活支持科学计算和云计算应用。

微软云平台、亚马逊云平台、百度机器学习和腾讯云都利用rdma来满足在线服务。大规模数据中心和云计算对网络延迟、吞吐量和CPU计算性能的严格要求形成了一切都在RDMA之上的局面。

RDMA技术最早在IB专用传输网络上实现,技术先进,性能最优,但价格高昂,应用局限在HPC领域。随着以太网性能的大幅提升,越来越多的人想要选择能兼容传统以太网的高性能网络解决方案,而传统TCP/IP堆栈应用无法支撑HPC网络通信。业界厂家把RDMA技术移植到传统以太网上,降低了RDMA的使用成本,推动了 RDMA技术普及。如图 4所示,根据协议栈融合度的差异,分为 RoCE和iWARP两种技术,而 RoCE又包括 RoCE v1和 RoCEv2两个版本。

谷歌的Aquila是一种实验性的数据中心网络架构,将超低延迟作为核心设计目标,同时也支持传统的数据中心业务。Aquila芯片架构基于GNet协议设计了融合交换和网卡的定制芯片,具有低延迟远程存储访问。Aquila芯片架构包含100Gbps的IP网卡、1RMA网卡、基于信元的GNet交换芯片以及IP协议引擎。当流量进入交换机时,一部分通过IP网卡走传统的基于数据包的以太网交换,一部分通过1RMA网卡走基于信元的GNet交换。芯片中间的IP协议引擎负责两种交换单位的转换,将IP数据包切割处理为多个信元或者将信元重新组装为IP数据包。

阿里自主研发了高性能网络,以应用为中心,通过“阿里云全栈自研+端网融合技术”,实现高性能可预期网络。2022年8月阿里在顶级会议SIGCOMM上发表端网融合架构,提出了要将数据中心网络从“低时延大带宽”演进到“确定性可预期”的目标,开启了确定性数据中心网络研究的新纪元。

展望

随着HPC、大数据和AI计算呈融合发展趋势,高性能计算机和数据中心之间的界限越来越模糊,HPCN和DCN融合网络成为互连网络发展的重要趋势,从而支撑同一套基础设施高带宽、低延迟运行HPC、云计算、大数据处理和AI计算多领域应用,降低网络成本。

论文分析了当前融合网络研究现状,针对当前最具代表性的融合网络进行了详细阐述,全面展示了该领域的最新技术动态,提出了融合网络面临的技术挑战。基于技术挑战,对融合网络的发展趋势进行了展望,包括融合网络协议栈设计中融合与分化并存、基于在网计算实现融合网络性能加速,面向新兴应用需求,优化融合网络性能。

下载链接:
全球生成式AI应用全景图:AI应用进入大爆发时代(2023)
通信行业专题研究:AI算力的复盘与展望(2023)
九天人工智能大模型创新实践
联邦学习算力加速方案
400+份重磅ChatGPT专业报告(合集)
隐私计算中的多层次计算技术
端云协同隐私计算系统的设计和落地探索
《大模型和AIGC技术合集(2023.9)》
1、AI大模型落地的前景和痛点,兼谈工程师架构师所面临的机会和挑战 
2、AIGC驱动下高校数字化转型 
3、大模型趋势下的企业数据体系思考 
4、大模型时代下数据中台该何去 
5、大模型重塑软件开发以及实践案例展示 
6、当GPT遇到低代码低代码平台AIGC开发落地实战
7、迈向通用人工智能时代之路——边缘与管力网络演进及思考
8、网宿边缘智能平台与AIGC探索
人工智能和虚拟现实将如何改变职场世界
2023年生成式人工智能的突破年
华为昇腾:国产AI算力的扛旗者(2023)
中国联通新一代AI计算基础设施白皮书
开放加速规范AI服务器设计指南(2023)
《未来网络白皮书(2023)合集》
1、未来网络白皮书(2023):算网操作系统白皮书 
2、未来网络白皮书(2023):以网络IO为中心的无服务器数据中心白皮书 
3、未来网络白皮书(2023):光电融合服务定制广域网白皮书

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


浏览 758
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报