NVMe over RoCEv2网络技术要求和测试规范

架构师技术联盟

共 4541字,需浏览 10分钟

 ·

2021-04-01 00:03



长久以来存储的关键应用和高性能诉求场景主要是基于 FC 网络,随着传输速率的提升,介质从机械硬盘发展到固态存储,协议从 SCSI 演进到 NVMe,而新 的 NVMe 技术的出现带来了新的机会。NVMe over RoCEv2 是 NVMe over Fabric最契合 NVMe 语义的一种实现,在性能、成本、网络管理等方面超越 FC,是未来高速存储网络的发展趋势。


NVMe over RoCEv2 在 NVM express 组织中已经有标准定义,本规范在网络控制如易用性、易维护性和可靠性方面进行优化,使得NVMe over RoCEv2 更适宜关键应用对高可靠性要求的诉求,提升系统易用性和易维护性。


NVMe over RoCEv2组网架构

NVMe over RoCEv2网络中主要包括三类角色:启动器(后续简称为主机)、交换机、目标器(后续简称为存储),启动器和目标器也称为端点设备。主机与存储通过NVMe over RoCEv2协议在网络中传输数据,提供高性能存储服务。

网络控制优化需要主机、交换机、存储联合实现,达成即插即用和故障快速感知;即插即用功能要求设备接入网络时,交换机能够自动发现设备,同步给网络中的其他交换机并通知IP业务域内订阅通知消息的主机,主机识别接入设备并自动建立与存储的连接。即插即用功能主要应用于开局、扩容和维护(故障更换)。


故障快速感知要求网络故障时,交换机能够快速检测到故障状态,同步给网络中的其他交换机并通知到 IP 业务域内订阅通知消息的主机,主机识别网络故障影响的是否是存储设备,如果是则快速断开与存储的连接,触发多路径软件快速切换业务到冗余路径。


网络控制优化技术要求


一、业务功能和流程


交换机作为网络核心,实现 IP 业务域管理功能,管理接入设备信息,监控网络状态,网络中交换机之间需要实现 IP 业务域和设备状态信息同步,及时通知IP 业务域中订阅网络设备状态信息变化的节点。


主机作为存储服务使用方,接入网络时,发送设备接入信息并定期通告,订阅网络状态变化消息,接收并处理网络变化消息。如果状态变化的设备是主机,针对主机接入,如果当前有存储在线,需要建立主机和存储的链接;针对主机离开,忽略。如果状态变化的设备是存储,根据状态变化进行相应的处理:如果状态是设备接入,则建立与存储的连接;如果状态是设备离开,则快速断开与存储的连接,触发多路径软件快速切换到冗余路径重试 IO。


存储作为服务提供方,接入网络时,发送设备接入信息并定期通告;订阅网络设备信息变化消息为可选项,可以订阅消息用作网络定位。即插即用和故障快速感知业务流程中涉及如下消息定义和交互。



二、IP 业务域管理 

交换机实现 IP 业务域管理功能,由用户根据业务规划配置 IP 业务域,交换机需要将 IP 业务域同步给网络中的其他交换机。IP 业务域管理符合以下技术能力:


a) 应支持 IP 业务域配置功能,提供添加、删除、修改、查询功能,宜支持配置导入(或批量配置)功能;

b) 宜支持默认 IP 业务域,没有配置的 IP 归属默认 IP 业务域。

c) IP 业务域配置时宜支持 IP 别名,宜支持配置 IP 地址段。

d) 应支持交换机之间的 IP 业务域信息同步,应保障 IP 业务域信息在交换机间的一致性。


三、LLDP 通告 

1、LLDP 通告消息格式定义

主机、存储与交换机信息通告的协议采用 LLDP 扩展 TLV 实现,同时为了与其余的 LLDP TLV 兼容和隔离,通过 LLDP 通告的关键索引信息区分。


LLDP 关键索引信息由 2 个构成:chassis ID 和 portID。chassis ID 采用端口的 MAC 地址。portID 构成采用 2 部分:前缀+IP 对应的端口名称,前缀采用特定字符:snsd_,表示用于设备自动发现的名称。交换机 LLDP 老化时间定义为 120 秒,端点设备发送 LLDP 报文周期为 30 秒(默认采用网络字节序)。


2、主机和存储技术要求

主机和存储作为 LLDP 通告的发送端,应具备以下技术能力:


a) 应按照协议定义周期性(每隔 30 秒)发送 LLDP 通告;

b) 每个提供服务的 IP 均应发送 LLDP 通告;

c) 网络端口信息变更后应按照更新的信息发送 LLDP 通告;

d) 网络故障后不需要发送 LLDP 通告,故障恢复后应重新发送 LLDP 通告;

e) IP 地址删除或 VLAN 配置删除时应停止发送 LLDP 通告;

f) 聚合端口的每个成员端口都应发送 LLDP 通告。


3、交换机技术要求

交换机作为 LLDP 通告消息的接收端,应具备以下技术能力:


a) 应支持接收并解析 LLDP 消息,LLDP 消息不转发;

b) 应同步设备接入信息到网络中其他交换机;

c) 接入交换机应根据 LLDP 接入信息通知 IP 业务域内设备有设备接入;

d) LLDP 通告中设备信息更新时应更新设备信息;

e) 超过老化周期(120 秒)未接收 LLDP 消息,应删除该设备,并同步删除信息到网络中其他交换机;应通知 IP 业务域内端点设备,有设备离线;

f) 交换机每个端口支持的 LLDP 通告邻居数宜不小于 64。


四、状态通知

1、状态通知消息格式定义

网络状态变化通知消息由多条 TLV 组成,一个状态通知消息可以有 1 条或多条状态通知。状态通知消息仅能由接入交换机产生,交换机之间不转发此消息。订阅消息的主机或存储在收到状态通知消息后应回复 ACK。说下:消息格式所有的字段均按网络节节序。


2、交换机技术要求

状态消息通知分为上线和离线2类,只在接入交换机产生,并发送给端点设备;交换机作为网络状态管理和状态通知的发送端,应具备以下技术能力:


a) 交换机状态通知消息应只发送给订阅消息的设备;

b) 交换机应支持检测网络故障和配置变更,将设备状态变化信息同步给网络中的所有交换机,然后再由接入交换机发送状态通知消息给域内的其他订阅设备。

c) 交换机收到新设备 LLDP 通告后,应将域内所有设备信息状态通告给新接入设备,同时将新接入设备信息同步给其他交换机,再由接入交换机根据 IP业务域配置通知订阅消息的设备。

d) 状态通知消息发送后需要等待端点设备回复确认消息;交换机在未收到确认消息时,应支持重试发送通知消息;建议重试次数为 3 次,重试间隔建议为 100ms、1s、10s;

e) 交换机在网络故障后,应在 500ms 以内将网络状态消息通知到订阅消息的设备。


3、主机技术要求

主机作为存储服务使用方,应具备以下技术能力:


a) 应在 LLDP 通告报文中订阅状态通知消息;

b) 收到状态通知后应回复 ACK;

c) 应支持对通知消息去重,避免对重复消息进行处理;

d) 收到存储设备接入消息后,应向存储设备建立 NVMe-oF 业务连接;

e) 收到存储设备离线消息后,应断开存储设备 NOF 业务连接;宜在 500ms 内断开业务连接。


4、存储技术要求

存储作为服务提供方,应具备以下技术能力:


a) 宜通过 LLDP 通告报文订阅状态通知消息;

b) 如果订阅,收到状态通知后应回复 ACK;

c) 如果订阅,应对通知消息去重,避免对重复消息进行处理。


五、信息同步 

交换机间的信息同步保证全网统一管理,包括 IP 业务域配置信息,接入设备信息和状态,信息同步应满足如下技术要求:


a) 同步的信息应包括 IP 业务域配置、设备状态信息;

b) IP 业务域信息和设备状态信息应保障及时性和一致性。


六、网络安全技术要求

1、交换机技术要求

交换机应符合如下安全技术要求:


a) 应支持有效性检查,避免异常报文攻击;

b) 应支持DDOS攻击防护,避免影响正常的端口工作,避免交换机功能受影响;

c) 应防止LLDP仿冒攻击,端口发送不属于本端口IP的LLDP报文,避免影响正常运行的业务端口,避免交换机功能受影响;

d) 交换机间信息同步应防止仿冒、篡改、DDOS攻击,避免信息同步异常,导致功能异常;

e) 检测到网络异常后应记录日志或告警。


2、主机和存储技术要求

主机和存储应满足如下安全技术要求:


a) 应支持有效性检查,避免异常报文攻击;

b) 应支持DDOS攻击防护,避免影响业务正常功能;

c) 防止网络通知消息仿冒攻击,收到的网络通知消息应只影响本端口配置的业务IP,不能影响其他端口;

d) 检测到网络异常后要记录日志或告警。

e) 存储端如果订阅网络通知消息,应支持网络安全防护;


网络控制优化测试规范

一、测试场景分析 

针对网络控制器优化技术,主要涉及场景如下:


上面四个场景可以归为两个大的场景,即插即用场景和快速感知场景除了客户应用场景的测试覆盖外,还需要针对网络安全场景进行验收,主要覆盖异常报文攻击场景、


二、测试工具

网络快速感知应用场景:网络在:设备接入场景、网络故障、配置变化、组网变更四大场景下的业务快速感知或业务切换。 


测试场景 1:主机和存储已经在前端网络中,且已经完成了与交换机的注册,之后存储节点被移除或其他无法进行业务连续的通信故障(包括链路拥塞,被交换机隔离),主机节点能够自动发现存储退出,并通知多路径软件该路径断开;


测试场景 2:主机和存储已经在前端网络中,且已经完成了与交换机的注册,之后主机节点被移除或其他无法进行业务连续的通信故障(包括链路拥塞,被交换机隔离),主机节点能够识别端口物理和逻辑链路 LinkDown,并通知多路径软件该路径断开;


测试场景 3:主机和存储已经处于前端网络中,交换机与交换机级联网络之间的链路故障(所有通路都故障),交换机网络分裂为两个独立网络,主机能够自动感知到自己所归属的独立网络已经无法访问的存储节点(可能存在部分节点可以访问,部分节点不能访问,取决于存储与交换机是否共物理实体交换机),并通知多路径软件该路径断开。


测试场景 4:用户更新了 IP 配置域信息,原配置 IP 域内删除了某些主机或存储,被删除的主机能够快速断开与该存储的路径,并通知多路径软件该路径不可用。


下载链接:NVMe over RoCEv2 网络优化要求和测试规范


相关链接:

云计算研究报告

RDMA技术原理白皮书

NVMe存储基于SPDK加速I/O性能




转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。


推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(35本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“全店铺技术资料打包(全)”,后续可享全店内容更新“免费”赠阅,价格仅收188元(原总价290元)。



温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


浏览 253
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报