如何配置InfiniBand和RDMA网络?

架构师技术联盟

共 4684字,需浏览 10分钟

 ·

2022-03-11 03:30



本文档描述InfiniBand 程直接访问(RDMA)是什么以及如何配置 InfiniBand 硬件。外,本文档解了如何配置与 InfiniBand 相关的服本文请参看“配置InfiniBand和RDMA网络”。


下载链接:

RDMA技术专题汇总(1)

RDMA技术专题汇总(2)



1、InfiniBandRDMA介绍

InfiniBand 代表个不同的因素:

  • InfiniBand 的物理协议 

  • InfiniBand Verbs APIRDMAremote direct memory access)技的一个实现 


RDMA 可在不涉及算机操作系的情况下,从一个算机访问另一台算机的内存。此技术启用了高吞 吐量和低延迟联网,且 CPU 使用率低。 


在典型的 IP 数据传输中,当机器中的某个用程序向一台机器上的用程序送数据,在接收层时 会出以下情况: 


  • 1. 内核必接收数据。

  • 2. 内核必确定数据是否属于该应用程序。 

  • 3. 内核用程序。

  • 4. 内核会等待用程序行系统调用到内核。

  • 5. 用程序将内核本身的内部内存空数据复制到用程序提供的冲中。 


程意味着,如果主机适配器使用直接内存访问(DMA),或者至少次,大多数网流量会被复制 到系的主内存中。外,算机行很多上下文开关以在内核和用程序上下文间进行切些上下 文切都可能造成高流量率的 CPU 负载,并可能造成其他任的性能下降。 


RDMA 绕过内核在程中的干和普通的 IP 不同CPU RDMA 协议 让主机适配器知道数据包何来自网用程序应该接收它,并在用程序的内存空中保存数据包。InfiniBand,主机适配器不将数据包送到内核,然后将其复制到用户应用程序的内存中,而是,主机适 配器将数据包的内容直接放置在用程序的冲中。此程需要独的 APIInfiniBand Verbs API用 程序必支持API才能使用 RDMA。 


Red Hat Enterprise Linux 8支持 InfiniBand 硬件和 InfiniBand Verbs API外,Red Hat Enterprise Linux 支持以下技,以便在非 InfiniBand 硬件中使用 InfiniBand Verbs API: 


  • 网广域 RDMA 协议(iWARP):通IP 络实RDMA 的网络协议。 

  • RDMA over Converged Ethernet(RoCE),也称以太网的 InfiniBand(IBoE):通以太网实现 RDMA 的网络协议


2、配置 ROCE

比如 MellanoxBroadcom QLogic 都提供 RoCE 硬件。配置细节,请参看“配置InfiniBand和RDMA网络”。


RoCE 是一种网络协议,可实现以太网的程直接访问(RDMA)。以下是不同的 RoCE 版本: 


  • RoCE v1 


RoCE 版本 1 协议ethertype 0x8915 的以太网层协议,它允同一以太网广播域中任何个主机之间进行通信。


情况下,在使用 Mellanox ConnectX-3 适配器Red Hat Enterprise Linux 使用 RoCE v1 RDMA 接管理器(RDMA_CM)。


  • RoCE v2 


RoCE 版本 2 协议IPv4 IPv6 协议UDP 上存在。RoCE v2 保留 UDP 端口号 4791。默情况下,在使用 Mellanox ConnectX-3 ProConnectX-4 Lx ConnectX-5 适配器Red Hat Enterprise LinuxRoCE v2 用于 RDMA_CM,但硬件支持 RoCE v1 RoCE v2。 


RDMA_CM 置客端和服器之用来传输数据的可靠接。RDMA_CM 建立接提供了一个与 RDMA 传输相关的接口。通信使用特定的 RDMA设备数据传输是基于消息的。


在客端使用 RoCE v2,在服器使用 RoCE v1 不被支持。在种情况下,将服器和客 端都配置RoCE v1 行通信。


不支持在客端和服器上的 RoCE v1 使用 RoCE v2 协议。如果您的服器中硬件只支持 RoCE v1将 您的客端配置使用 RoCE v1 与服器通信。部分述了如何在将 mlx5_0 驱动程序用于 Mellanox ConnectX-5 Infiniband 设备的客端上RoCE v1


Soft-RoCE RDMA over Ethernet 的一个实现,它也称RXE。在没有 RoCE 主机道适配器 (HCA)的主机上使用 Soft-RoCE


Soft-RoCE 功能术预览提供。品服务级别协议SLA)不支持技术预览功 能,且其功能可能并不完善,因此帽不建在生产环境中使用它


配置细节,请参看“配置InfiniBand和RDMA网络”。


3、配置核心RDMA子系

情况下,内核命名 IP over InfiniBand(IPoIB)设备,如 ib0,ib1 等。避免冲突,帽建udev 设 备管理器中建一条规则建持久且有意的名称,如 mlx4_ib0


RDMA 操作需要固定物理内存。意味着内核不允把内存写入到 swap 中。如果用固定太多内 存,系会耗尽内存,并且内核会程来放更多内存。因此,内存固定是一个特操作。如果非 root 户运行大型 RDMA 用程序,可能需要增加些用可在系中的内存量。部分述 了如何rdma 配置无限内存。


配置RDMA务,rdma 在内核中管理RDMA。如果Red Hat Enterprise Linux 检测InfiniBandiWARP RoCE 设备udev 设备管理器会指示 systemd 启动 rdma 配置细节,请参看“配置InfiniBand和RDMA网络”。


4、配置InfiniBand子网管理器

所有 InfiniBand 都必须运行子网管理器才能正常工作。即使台机器没有使用交机直接接, 也是如此。有可能有一个以上的子网管理器。在那种情况下,当主子网管理器出故障外一个作从网管理器 的系会接管。大多数 InfiniBand 机都包含一个嵌入式子网管理器。


但是,如果您需要一个更新的子网管理器,需使用 Red Hat Enterprise Linux 提供的 OpenSM 子网管理器。配置细节,请参看“配置InfiniBand和RDMA网络”。


5、配置 IPOIB

情况下,InfiniBand 不使用 IP 行通信。但是,IP over InfiniBand(IPoIB)InfiniBand 程直接访问 (RDMA)之上提供一个 IP 拟层许现有未修改的用程序通InfiniBand 络传输数 据,但性能低于用程序原生使用 RDMA 的数据。


网广域 RDMA 协议(iWARP)RoCE 已基于 IP。因此,您不能在 IWARP RoCE 设备之上IPoIB 设备Mellanox 设备ConnectX-4 及更高版本开始,默使用 Enhanced IPoIB 模式(限数 据)。设备不支持接的模式。


IPOIB模式,在 Datagram Connected 模式下配置 IPoIB 设备。不同之在,IPoIB 层试图使用什么型的 在通信的一端的机器中打开:


Datagram 模式中,系打开了一个不可靠、断开接的个模式不支持大于 InfiniBand link-layer 的最大传输单(MTU)件包。IPoIB 传输IP 数据包之上添加了一个 4 IPoIB 标头。因此,IPoIB MTU 需要比 InfiniBand link-layer MTU 4 。因2048 是一个常InfiniBand MTU,数据数 模式中常IPoIB 设备 MTU 2044。 


Connected 模式中,系会打开一个可靠、接的。此模式允大于 InfiniBand MTU 的消息,主机适配器理数据包分段和重新传输。因 此,InfiniBand 适配器以 Connected 模式送的 IPoIB 信息大小没有限制。但是,IP 数据包会受 size 字段和 TCP/IP 标头的限制。因此,Connected 模式中的 IPoIB MTU 最大65520


接 模式模 的性能更高,但消耗的内核内存更多。 


如果系被配置使用 Connected 模式,它仍然会以 Datagram 模式送多播流量,因InfiniBand 机和光无法在 Connected 模式下传递多播流量。外,当与任何未在 Connected 模式中配置的主 机通信,系将返回 Datagram 模式。

行将多播数据送到接口上最大 MTU 用程序,您必将接口配置Datagram 模式,或者将 用程序配置以数据包大小数据包的大小封数据包送的大小。配置细节,请参看“配置InfiniBand和RDMA网络”。


相关阅读:

下载链接:

RDMA技术专题汇总(1)

RDMA技术专题汇总(2)

总线级数据中心网络技术白皮书

超融合数据中心网络

中国联通的开放网络研究与实践

中国联通开放硬件网络设备白皮书

白牌网络及交换机白皮书汇总
1、掘金云数据中心白盒化趋势.pdf
2、商用交换芯片SDN支持现状分析.pdf
3、白盒交换机技术白皮书.pdf
4、协议无关交换机架构应用白皮书.pdf
5、中国联通开放硬件网络设备白皮书.pdf
6、中兴通讯CO重构技术白皮书.pdf

来源:全栈云技术架构


‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧  END  ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。


推荐阅读

更多架构相关技术总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。

内容持续更新,现下单“全店铺技术资料打包(全)”,后续可享全店更新“免费”赠阅,价格仅收198元(原总价350元)。



温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取“IT技术全店资料打包汇总(全)电子书资料详情


浏览 47
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报