CN119835212A

CN119835212A - 报文发送方法、装置、Spine设备、Leaf设备及计算机可读存储介质

Info

Publication number: CN119835212A
Application number: CN202411972673.3A
Authority: CN
Inventors: 孙文婷; 汤伟
Original assignee: Maipu Communication Technology Co Ltd
Current assignee: Maipu Communication Technology Co Ltd
Priority date: 2024-12-30
Filing date: 2024-12-30
Publication date: 2025-04-15
Anticipated expiration: 2044-12-30
Also published as: CN119835212B

Abstract

本发明涉及数据通信技术，提供一种报文发送方法、装置、Spine设备、Leaf设备及计算机可读存储介质，所述方法包括：接收数据报文，数据报文为待通过多个Leaf设备中的目标Leaf设备转发的报文；当检测到与目标Leaf设备之间的直连链路故障时，通过备份路径组中的第一下一跳将故障通知报文发送至除目标Leaf设备之外的其余Leaf设备，并通过备份路径组中的第二下一跳将数据报文发送至中转Leaf设备，以通过中转Leaf设备到达第二Spine设备，并通过第二Spine设备将数据报文发送至目标Leaf设备转发。本发明能够绕过故障链路，快速转发数据，缩短故障收敛时间，提升网络性能。

Description

报文发送方法、装置、Spine设备、Leaf设备及计算机可读存储介质

技术领域

本发明涉及数据通信技术领域，具体而言，涉及一种报文发送方法、装置、Spine设备、Leaf设备及计算机可读存储介质。

背景技术

随着人工智能技术快速发展，智算中心网络逐渐成为当下业界研究热点。AI训练由于其分布式计算、长周期运行、实时响应等特点，对网络故障极为敏感。由于智算网络通常会用到大量的光模块等易损部件，因此AI训练过程中难免发生网络故障。目前业界都非常重视提升智算中心网络中的故障收敛速度，减少网络故障对AI训练任务的影响。这就涉及到远端故障收敛，其中一种思路是故障通告结合故障切换来实现。

智算中心通常会采用较规则的拓扑形式组网，其中Fat-Tree(胖树)就是当下智算中心很常见的一种组网形式。对于智算中心的Fat-tree，又分为二级组网和三级组网两种情形。典型二级Fat-Tree组网中，每个Leaf设备一半端口接服务器/GPU(GraphicsProcessing Unit，图形处理器)，一半端口接Spine设备(脊设备)。每个Spine设备所有端口都接Leaf设备(叶子设备)，网络所能连接的GPU极限数量受交换机端口数量限制。

对于64端口盒子设备的二级盒盒组网，最大支持32个Spine设备和64个Leaf设备，支持2048张GPU。对于128端口盒子设备的二级盒盒组网，最大支持64个Spine设备，128个Leaf设备，支持8192张GPU。

在实际组网中GPU数量会非常多，同时也会有较多的Leaf设备和Spine设备。Leaf设备上下行带宽收敛比1:1，每一对Leaf设备和Spine设备两两之间通常只有1条链路。当网络中发生链路故障时，需要由设备直接或间接地感知到链路变化，进而通知网络中其他设备更新转发表项进行收敛。

当前解决方案：按照标准的路由协议处理逻辑，故障收敛主要依赖设备控制面，在Spine设备感知到连接的Leaf设备的链路故障后，通过路由协议向其他Leaf设备发送协议报文通知路由撤销，当其他Leaf设备收到协议报文更新本地路由表项后业务才能恢复，典型场景收敛时间为秒级，业务丢包时间过长。

发明内容

本发明目的在于提供一种报文发送方法、装置、Spine设备、Leaf设备及计算机可读存储介质。

本发明的实施例可以这样实现：

第一方面，本发明提供一种报文发送方法，应用于智算网络中的第一Spine设备的交换芯片，所述第一Spine设备与多个Leaf设备直接连接，所述交换芯片中设置有所述第一Spine设备到达每个所述Leaf设备的直连链路的备份路径组，所述方法包括：

接收数据报文，所述数据报文为待通过所述多个Leaf设备中的目标Leaf设备转发的报文；

当检测到与所述目标Leaf设备之间的直连链路故障时，通过所述备份路径组中的第一下一跳将根据所述数据报文生成的故障通知报文发送至除所述目标Leaf设备之外的其余Leaf设备，并通过所述备份路径组中的第二下一跳将所述数据报文发送至中转Leaf设备，以通过所述中转Leaf设备到达第二Spine设备，并通过所述第二Spine设备将所述数据报文发送至所述目标Leaf设备转发。

在可选的实施方式中，所述通过所述备份路径组中的第一下一跳将故障通知报文发送至除所述目标Leaf设备之外的其余Leaf设备的步骤包括：

根据所述第一下一跳，对所述数据报文进行编辑，得到携带有故障链路信息的所述故障通知报文；

将所述故障通知报文以预设的限速速率转发至预先创建的组播组，以被其余每一Leaf设备收到；其中，所述组播组包括所述多个Leaf设备中的每个Leaf设备。

在可选的实施方式中，所述对所述数据报文进行编辑，得到携带有故障链路信息的所述故障通知报文的步骤包括：

修改所述数据报文的源MAC地址为所述第一Spine设备的MAC地址，修改所述数据报文的目的MAC地址为所述目标Leaf设备的MAC地址，修改所述数据报文的以太网类型为自定义值，以使接收到所述故障通知报文任一所述其余Leaf设备根据源目的MAC地址和所述以太网类型，确定所述第一Spine设备与所述目标Leaf设备之间的直连链路故障。

在可选的实施方式中，所述通过所述备份路径组中的第二下一跳将所述数据报文发送至中转Leaf设备的步骤包括：

根据所述第二下一跳，为所述数据报文添加预设标记；

根据所述预设标记从所有其余Leaf设备中确定中转Leaf设备；

通过所述中转Leaf设备将所述数据报文发送至所述第二Spine设备，并通过所述第二Spine设备将所述数据报文发送至所述目标Leaf设备。

在可选的实施方式中，所述根据所述预设标记从所有其余Leaf设备中确定中转Leaf设备的步骤包括：

通过查找与所述预设标记匹配的访问控制列表对应的转发动作，根据预设负载分担策略从预先创建的ECMP组中可达的每一Leaf设备中确定所述中转Leaf设备；所述ECMP组包括所述多个Leaf设备中除所述目标Leaf设备外的所有其余Leaf设备。

在可选的实施方式中，所述通过所述中转Leaf设备将所述数据报文发送至所述第二Spine设备，并通过所述第二Spine设备将所述数据报文发送至所述目标Leaf设备的步骤包括：

为所述数据报文封装隧道外层IP头，并将所述中转Leaf设备的IP地址作为所述隧道外层IP头的目的IP地址，得到隧道封装报文；

将所述隧道封装报文发送至所述中转Leaf设备，以使所述中转Leaf设备从所述隧道封装报文中解封装出所述数据报文并通过所述第二Spine设备发送至所述目标Leaf设备。

第二方面，本发明提供一种报文发送方法，应用于智算网络中与第一Spine设备直接连接的任一Leaf设备，所述第一Spine设备与多个Leaf设备直接连接，所述Leaf设备包括交换芯片和CPU，所述方法包括：

交换芯片接收所述第一Spine设备发送的故障通知报文，其中，所述故障通知报文由所述第一Spine设备在检测到与目标Leaf设备之间的直连链路故障时发送的；

所述交换芯片查找与所述故障通知报文的以太网类型匹配的访问控制列表，根据所述访问控制列表对应的转发动作将所述故障通知报文上送CPU；

所述CPU根据所述故障通知报文的源MAC地址和目的MAC地址，确定所述第一Spine设备与所述目标Leaf设备之间的直连链路故障，通知所述交换芯片从预先创建的ECMP组中删除所述第一Spine设备对应的下一跳，所述ECMP中包括本设备直接连接的所有Spine设备对应的下一跳。

在可选的实施方式中，所述交换芯片接收所述第一Spine设备通过IP隧道发送的隧道封装报文，从所述隧道封装报文中解封装出所述数据报文，根据预设负载分担策略从所述ECMP组中确定第二Spine设备，并通过所述第二Spine设备发送至所述目标Leaf设备。

第三方面，本发明提供一种报文发送装置，应用于智算网络中的第一Spine设备的交换芯片，所述第一Spine设备与多个Leaf设备直接连接，所述交换芯片中设置有所述第一Spine设备到达每个所述Leaf设备的直连链路的备份路径组，所述装置包括：

接收模块，用于接收数据报文，所述数据报文为待通过所述多个Leaf设备中的目标Leaf设备转发的报文；

故障检测模块，用于当检测到与所述目标Leaf设备之间的直连链路故障时，通知发送模块；

所述发送模块，用于根据故障检测模块的通知，通过所述备份路径组中的第一下一跳将根据所述数据报文生成的故障通知报文发送至除所述目标Leaf设备之外的其余Leaf设备，并通过所述备份路径组中的第二下一跳将所述数据报文发送至中转Leaf设备，以通过所述中转Leaf设备到达第二Spine设备，并通过所述第二Spine设备将所述数据报文发送至所述目标Leaf设备转发。

第四方面，本发明提供一种Spine设备，包括处理器和交换芯片，所述交换芯片在所述处理器的控制下实现如第一方面所述的报文发送方法。

第五方面，本发明提供一种Leaf设备，所述Leaf设备与第一Spine设备直接连接，所述Leaf设备包括交换芯片和CPU；

所述交换芯片，用于接收所述第一Spine设备发送的故障通知报文，其中，所述故障通知报文由所述第一Spine设备在检测到与目标Leaf设备之间的直连链路故障时发送的；

所述交换芯片，还用于查找与所述故障通知报文的以太网类型匹配的访问控制列表，根据所述访问控制列表对应的转发动作将所述故障通知报文上送CPU；

所述CPU，用于根据所述故障通知报文的源MAC地址和目的MAC地址，确定所述第一Spine设备与所述目标Leaf设备之间的直连链路故障，通知所述交换芯片从预先创建的ECMP组中删除所述第一Spine设备对应的下一跳，所述ECMP中包括本设备直接连接的所有Spine设备对应的下一跳。

第六方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现第一方面所述的报文发送方法。

相对于现有技术而言，本发明具有以下有益效果：

本发明在Spine设备检测到与目标Leaf设备之间的直连链路故障时，通过备份路径组中的第一下一跳将故障通知报文发送至除目标Leaf设备之外的其余Leaf设备，并通过备份路径组中的第二下一跳将数据报文发送至中转Leaf设备，再通过中转Leaf设备到达第二Spine设备，通过第二Spine设备将所述数据报文发送至目标Leaf设备，通过利用不同的下一跳分别发送故障通知报文和数据报文，同时通过绕过故障链路实现了数据报文的正常发送，避免了链路故障时依赖控制面通过路由协议进行故障处理而导致的故障收敛时间长，缩短了故障收敛时间，提升了收敛性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本实施例提供的智算场景故障的示例图。

图2为本实施例提供的网络设备的方框示例图。

图3为本实施例提供的报文发送方法的流程示例图。

图4为本实施例提供的智算场景故障时报文绕行示例图。

图5为本实施例提供的智算场景故障的整体处理过程的示例图。

图6为本实施例提供的报文发送装置的流程示例图。

图标：10-Spine设备；20-Leaf设备；30-网络设备；31-处理器；32-交换芯片；100-报文发送装置；110-接收模块；120-故障检测模块；130-发送模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

请参照图1，图1为本实施例提供的智算场景故障的示例图，图1中仅Fat-Tree包括两个Spine设备：Spine1和Spine2，两个Leaf设备：Leaf1和Leaf2，Leaf1和GPU1、GPU2同时通信连接，Leaf2和GPU3、GPU4同时通信连接。Spine1和Leaf1、Leaf2同时通信连接，Spine2和Leaf1、Leaf2同时通信连接。需要说明的是，实际Fat-Tree组网中，Leaf设备和Spine设备非常多，图1仅仅是为了说明本发明解决的技术问题所作的网络简化图。

以图1为例，正常情况下，GPU3发出的报文是按照图1中的路径1转发的，但是，当Spine1感知到和Leaf1之间的链路故障后，现有技术是通过路由协议向Leaf2发送协议报文通知路由撤销，当Leaf2收到协议报文更新本地路由表项后业务才能恢复，此时，GPU3发出的报文才会切换至图1中的路径2发送，故障收敛时间过长。

有鉴于此，本实施例提供一种报文发送方法、装置、Spine设备、Leaf设备及计算机可读存储介质，其核心改进点在于：在智算网络的Spine设备检测到与目标Leaf设备之间的链路出现故障时，不通过路由协议报文进行链路故障处理，实现报文切换至正常路径转发，而是通过利用不同的下一跳分别发送故障通知报文和数据报文，同时通过绕过故障链路实现了数据报文的正常发送，避免了链路故障时依赖控制面通过路由协议进行故障处理而导致的故障收敛时间长，缩短了故障收敛时间，提升了收敛性能，下面将对其进行详细描述。

请参照图2，图2为本实施例提供的网络设备30的方框示例图，网络设备30可以是图1中的Spine设备，实现本实施例中用于实现Spine设备的交换芯片的报文发送方法，也可以是图1中的Leaf设备，其中的处理器31是Leaf设备中的CPU，用于实现本实施例中的用于Leaf设备的报文发送方法。网络设备30包括处理器31和交换芯片32，处理器31和交换芯片32通过总线连接。

处理器31可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述实施例的报文发送方法的各步骤可以通过处理器31中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器31可以是通用处理器，包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等；还可以是DSP(Digital SignalProcessor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Logic Gate Array,现场可编程逻辑门阵列)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

交换芯片32负责数据包的高速转发和处理，交换芯片内置了多种路由算法，能够在检测到链路故障时迅速进行路径切换。

在本实施例中，作为一种实现方式，Spine设备的交互芯片32还创建有多个eloop口(engress loop，出口环回口)和iloop口(ingress loop，入口环回口)，iloop口是交换芯片的入口流程中的环回口，eloop口是交换芯片的出口流程上的环回口。

Spine设备的交换芯片32在Spine设备的处理器31的控制下实现本实施例中应用于Spine设备的交换芯片32报文发送方法。

基于图1和图2，本实施例提供了一种应用于Spine设备的报文发送方法，请参照图3，图3为本实施例提供的报文发送方法的流程示例图，该方法包括以下步骤：

步骤S101，接收数据报文，数据报文为待通过多个Leaf设备中的目标Leaf设备转发的报文；

在本实施例中，数据报文为Spine设备需要发送至目标Leaf设备的业务报文，通过目标Leaf设备，数据报文能够达到与目标Leaf设备直接连接的GPU。

步骤S102，当检测到与目标Leaf设备之间的直连链路故障时，通过备份路径组中的第一下一跳将根据所述数据报文生成的故障通知报文发送至除目标Leaf设备之外的其余Leaf设备，并通过备份路径组中的第二下一跳将数据报文发送至中转Leaf设备，以通过中转Leaf设备到达第二Spine设备，并通过第二Spine设备将数据报文发送至目标Leaf设备转发。

在本实施例中，备份路径组包括两条路径，一条路径用于发送故障通知报文，另一条路径用于发送数据报文。两条路径分别对应不同的下一跳，通过第一下一跳，可以将故障通知报文发送至除目标Leaf设备之外的其余Leaf设备，从而可以实现链路快速收敛；通过第二下一跳，可以将数据报文发送至中转Leaf设备，由中转Leaf设备进行转发。中转Leaf设备是与目标Leaf设备不同的Leaf设备，通过中转Leaf设备，数据报文能够绕过故障链路，实现数据报文的正常转发，避免丢包。

本实施例提供的上述方法，通过绕过故障链路实现了数据报文的正常发送，避免了链路故障时依赖控制面通过路由协议进行故障处理而导致的故障收敛时间长，缩短了故障收敛时间，提升了收敛性能，避免丢包。

在可选的实施方式中，作为一种发送故障通知报文的实现方式可以是：

首先，根据第一下一跳，对数据报文进行编辑，得到携带有故障链路信息的故障通知报文；

在本实施例中，为了使其他Leaf设备能够识别接收到的报文为故障通知报文，可以对数据报文中的以太网类型字段(EtherType)进行编辑，将其设置为特定值，为了使其他Leaf设备能够根据接收到故障通知报文得知发生故障的链路，可以在数据报文中设置故障链路的信息，一种实现方式是：

修改数据报文的源MAC地址为第一Spine设备的MAC地址，修改数据报文的目的MAC地址为目标Leaf设备的MAC地址，修改数据报文的以太网类型为自定义值，以使接收到故障通知报文任一其余Leaf设备根据源目的MAC地址和以太网类型，确定第一Spine设备与目标Leaf设备之间的直连链路故障。

其次，将故障通知报文以预设的限速速率转发至预先创建的组播组，以被其余每一Leaf设备收到；其中，组播组包括多个Leaf设备中的每个Leaf设备。

在本实施例中，第一Spine设备的交换芯片中预先创建有组播组，组播组包括多个Leaf设备中的每个Leaf设备，通过组播组，故障通知报文会发送至每一Leaf设备，但是，由于第一Spine设备和目标Leaf设备之间的链路发生了故障，因此，目标Leaf设备不会收到故障通知报文，即，故障通知报文会被除目标Leaf设备之外的其余每一Leaf设备收到。

为了尽量减少故障通知报文对带宽的影响，本实施例还对故障通知报文进行限速处理，以预设的限速速率，通过组播组转发故障通知报文。

在本实施例中，Leaf设备在接收到故障通知报文后，为了根据故障通知报文中故障链路信息及时进行故障处理，使得Leaf设备在进行后续报文转发时不会将报文发送至故障链路，本实施例提供了一种应用于Leaf设备的处理方式：

首先，Leaf设备的交换芯片接收第一Spine设备发送的故障通知报文，其中，故障通知报文由第一Spine设备在检测到与目标Leaf设备之间的直连链路故障时发送的；

其次，Leaf设备的交换芯片查找与故障通知报文的以太网类型匹配的访问控制列表，根据访问控制列表对应的转发动作将故障通知报文上送CPU；

最后，Leaf设备的CPU根据故障通知报文的源MAC地址和目的MAC地址，确定第一Spine设备与目标Leaf设备之间的直连链路故障，通知交换芯片从预先创建的ECMP组中删除所述第一Spine设备对应的下一跳，所述ECMP中包括本设备直接连接的所有Spine设备对应的下一跳。

在本实施例中，在发送故障通知报文的同时，数据报文也会绕过故障链路正常转发，一种转发数据报文的实现方式为：

首先，根据第二下一跳，为数据报文添加预设标记；

在本实施例中，为了使数据报文能够通过第二Spine设备转发至目标Leaf设备，数据报文在转发出去之前，通过为数据报文添加预设标记，以和正常直接转发的其他数据报文的处理进行区别。

其次，根据预设标记从所有其余Leaf设备中确定中转Leaf设备；

在本实施例中，第一Spine设备的交换芯片预先下发一条ACL(Access ControlList，访问控制列表)的表项，该表项用于匹配与预设标记对应的转发动作。

在本实施例中，第一Spine设备和多个Leaf设备直接连接，第一Spine设备预先创建ECMP(Equal-Cost Multi-PathRouting，等价多路径路由)组，组中的每一ECMP成员和一个Leaf设备关联，即通过第一Spine设备通过对应的ECMP成员能够到达与之关联的Leaf设备。

一种确定中转Leaf设备的方式为：通过查找与预设标记匹配的访问控制列表对应的转发动作，根据预设负载分担策略从预先创建的ECMP组中可达的每一Leaf设备中确定中转Leaf设备；ECMP组包括多个Leaf设备中除目标Leaf设备外的所有其余Leaf设备。

最后，通过中转Leaf设备将数据报文发送至第二Spine设备，并通过第二Spine设备将数据报文发送至目标Leaf设备。

在本实施例中，为了将数据报文发送至中转Leaf设备，需要将中转Leaf设备的IP地址作为目的IP地址，为了不影响数据报文的正常发送，本实施例通过在数据报文之外再封装一层隧道IP头，具体实方式可以是：

(1)为数据报文封装隧道外层IP头，并将中转Leaf设备的IP地址作为隧道外层IP头的目的IP地址，得到隧道封装报文；

(2)将隧道封装报文发送至中转Leaf设备，以使中转Leaf设备从隧道封装报文中解封装出数据报文；

(3)并通过第二Spine设备发送至目标Leaf设备。

在本实施例中，为了使中转Leaf设备将数据报文通过第二Spine设备发送至目标Leaf设备，本实施例提供了一种实现方式：

首先，中转Leaf设备的交换芯片接收隧道封装报文，所述隧道封装报文是第一Spine设备为数据报文封装隧道外层IP头后、并将中转Leaf设备的IP地址作为隧道外层IP头的目的IP地址得到的；

其次，中转Leaf设备的交换芯片从隧道封装报文中解封装出数据报文；

最后，中转Leaf设备的交换芯片根据预设负载分担策略从ECMP组中确定第二Spine设备，并通过第二Spine设备发送至目标Leaf设备。

在本实施例中，中转Leaf设备在接收到故障通知报文后，已经得知第一Spine设备和目标Leaf设备之间的链路故障，因此，中转Leaf设备会将本地ECMP组中与第一Spine设备对应的下一跳删除，将接收的数据报文通过第二Spine设备发送出去。

在本实施例中，中转Leaf设备将从第一Spine设备收到的数据报文，解除隧道封装后，通过预先创建ECMP(Equal-Cost Multi-PathRouting，等价多路径路由)组发送到第二Spine设备。数据报文到达第二Spine设备后，第二Spine设备能够根据数据报文中的目标Leaf设备的目的IP地址，通过查询路由表，将数据报文发送至目标Leaf设备。

为了更直观地展示数据报文绕道转发的过程，请参照图4，图4为本实施例提供的智算场景故障时报文绕行示例图，图4中，GPU2需要发送数据报文给GPU1，GPU2发出的数据报文，经过Leaf2，到达Spine1，Spine1检测到与Leaf1之间的链路出现故障，为数据报文添加预设标记，根据预设标记选择ECMP成员，为数据报文封装隧道外层IP头，发送到Leaf2设备，Leaf2设备解封装隧道最外层IP头后，将数据报文发送至Spine2，通过Spine2将数据报文发送至Leaf1，最终到达GPU1。

在本实施例中，作为一种具体实现方式，为了实现故障通知报文和数据报文的同时转发，第一Spine设备为与其相连的每个Leaf设备均预先创建一个aps(automaticprotection switch，自动保护倒换)组，每个Leaf设备的aps组均包括两条路径：主路径和备份路径组。主路径为到达对应Leaf设备的下一跳构成的路径，链路正常时通过主路径发送数据报文，备份路径组属于组播组是在主路径发生链路故障时，利用备份路径组中的第一下一跳进行故障处理，并利用备份路径组中的第二下一跳进行数据报文的绕行转发。

本实施例在第一Spine设备创建两个eloop口(engress loop,出口环回口)：第一eloop口和第二eloop口、两个iloop口(ingress loop，入口环回口)：第一iloop口和第二iloop口。创建指向第一eloop口的第一下一跳(即备份路径组的第一下一跳)，第一iloop口和第一eloop口关联，创建指向第二eloop口作的第二下一跳(即备份路径组的第二下一跳)，第二iloop口和第二eloop口关联。

在主路径发生链路故障时，数据报文会同时被发送至第一eloop口和第二eloop口。

为了对上述整体处理过程进行示例，请参照图5，图5为本实施例提供的智算场景故障的整体处理过程的示例图，图5中，以第一Spine设备为Leaf-x(目标Leaf设备)创建的aps组为例，对于发送至第一eloop口的数据报文，其处理方式为：

(1)第一Spine设备对数据报文进行编辑，得到携带有故障链路信息的故障通知报文；

(2)将故障通知报文通过第一eloop口，按照预设的限速速率发送至第一iloop口；

本实施例可以通过在第一eloop口绑定预设速率的QoS(Quality of Service，服务质量)策略的限速硬件表项，预设速率可以根据实际场景的需要进行设置，例如预设速率设置为1PPS(Packets Per Second，每秒处理的数据包数量)。

(3)通过第一iloop口交叉连接(cross-connect)的组播组，将故障通知报文发送至其余每一Leaf设备。

在本实施例中，为了将故障通知报文发送至其余每一Leaf设备，在第一Spine设备建立组播组，组播组中每一成员与其余每一Leaf设备相关联，将第一iloop口交叉连接到组播组，具体实现方式可以是：通过第一iloop口将故障通知报文转发至组播组，以通过组播组中每一成员发送至其余每一Leaf设备。图5中，第一Spine设备编辑数据报文得到故障通知报文，通过限速发送至第一iloop口，第一iloop口以交叉连接(cross-connect)的方式发送至组播组2，组播组2中包括Leaf-1～Leaf-n这n个成员，每一个成员到达一个Leaf设备，由此，将故障通知报文发送至与Spine设备连接链路正常的所有Leaf设备。

对于发送至第二eloop口的数据报文，其处理方式为：

(1)为数据报文添加LogicPort标记作为预设标记；

(2)将带有预设标记的数据报文发送至第二eloop口，并通过第二eloop口发送至第二iloop口；

(3)通过在第二iloop口下发一条匹配预设标记的访问控制列表项，动作是重定向到ECMP组，根据预设负载分担策略从所有其余Leaf设备中确定中转Leaf设备；

在本实施例中，第二iloop口预先设置有与预设标记对应的转发动作，作为一种实现方式，Spine设备可以在第二iloop口下发一条ACL表项，该表项用于匹配与logicPort标记对应的转发动作，转发动作为重定向到ECMP组。

通过匹配的ACL表项的预先设置的转发动作，根据预设负载分担策略从ECMP组中的所有ECMP成员中选择目标ECMP成员，根据目标ECMP成员对应的下一跳到达中转Leaf设备。

(4)通过中转Leaf设备将数据报文发送至第二Spine设备，并通过第二Spine设备将数据报文发送至目标Leaf设备。

图5所示的是第一Spine设备接收的需要发送Leaf-x的流量大致均衡地通过ECMP组中的Leaf-1～Leaf-k各成员进行转发，通过封装隧道外层IP头，发送至中转Leaf设备，通过中转Leaf设备解封装得到原始数据报文转发到达第二Spine设备，第二Spine设备通过查找路由表将其中的数据报文发送至Leaf-x，完成了数据报文的绕行转发。

在本实施例中，除了Spine设备能够检测到与Leaf设备之间的链路故障，Leaf设备也可以检测到与Spine设备之间的故障，此时，Leaf设备也会做相应的处理，一种处理方式为：Leaf设备创建一个ECMP组，该ECMP组中的每一成员为与Leaf设备连接的Spine设备的下一跳，ECMP组被预先设置为使能failover，即当Leaf设备与某个Spine设备之间的链路故障时，故障链路的流量会负载到其余Spine设备中的一个Spine设备上，例如，图1中，当Leaf1与Spine1的链路故障时，原来负载到Spine1的流量会负载到其他Spine(如Spine2)上，其他的流量负载的出口不会发生变化，如果Leaf1还与Spine3之间存在链路，则Spine3的流量负载不受影响，Spine1的流量只会负载到Spine2。

为了执行上述实施例及各个可能的实施方式中应用于第一Spine设备交换芯片相应步骤，下面给出一种报文发送装置100的实现方式。请参照图6，图6为本实施例提供的报文发送装置的方框示意图，报文发送装置100应用于本实施例中的第一Spine设备的交换芯片，需要说明的是，本发明所提供的报文发送装置100，其基本原理及产生的技术效果和对应的上述实施例相同，为简要描述，本实施例部分未提及指出。

报文发送装置100包括接收模块110和故障检测模块120。

接收模块110，用于接收数据报文，数据报文为待通过多个Leaf设备中的目标Leaf设备转发的报文；

故障检测模块120，用于当检测到与目标Leaf设备之间的直连链路故障时，通知发送模块130；

发送模块130，用于根据故障检测模块120的通知，通过备份路径组中的第一下一跳将根据所述数据报文生成的故障通知报文发送至除目标Leaf设备之外的其余Leaf设备，并通过备份路径组中的第二下一跳将数据报文发送至中转Leaf设备，以通过中转Leaf设备到达第二Spine设备，并通过第二Spine设备将数据报文发送至目标Leaf设备转发。

在可选的实施方式中，发送模块130具体用于：

在可选的实施方式中，发送模块130在用于对数据报文进行编辑，得到携带有故障链路信息的故障通知报文时具体用于：

修改数据报文的源MAC地址为第一Spine设备的MAC地址，修改数据报文的目的MAC地址为标Leaf设备的MAC地址，修改所数据报文的以太网类型为自定义值，以使接收到所述故障通知报文任一其余Leaf设备根据源目的MAC地址和以太网类型值，确定第一Spine设备与述目标Leaf设备之间的直连链路故障。

在可选的实施方式中，发送模块130在用于通过备份路径组中的第二下一跳将数据报文发送至中转Leaf设备时具体用于：

根据第二下一跳，为数据报文添加预设标记；

根据预设标记从所有其余Leaf设备中确定中转Leaf设备；

通过中转Leaf设备将数据报文发送至第二Spine设备，并通过第二Spine设备将数据报文发送至目标Leaf设备。

在可选的实施方式中，发送模块130在用于根据预设标记从所有其余Leaf设备中确定中转Leaf设备时具体用于：

通过查找与预设标记匹配的访问控制列表对应的转发动作，根据预设负载分担策略从预先创建的ECMP组中可达的每一Leaf设备中确定中转Leaf设备；ECMP组包括多个Leaf设备中除目标Leaf设备外的所有其余Leaf设备。

在可选的实施方式中，发送模块130在用于通过中转Leaf设备将数据报文发送至第二Spine设备，并通过第二Spine设备将数据报文发送至目标Leaf设备时具体用于：

为数据报文封装隧道外层IP头，并将中转Leaf设备的IP地址作为隧道外层IP头的目的IP地址，得到隧道封装报文；

将隧道装报文发送至所中转Leaf设备，以使中转Leaf设备从隧道封装报文中解封装出数据报文并通过第二Spine设备发送至目标Leaf设备。

在本实施例中，为了执行上述实施例及各个可能的实施方式中应用于Leaf设备的相应步骤，本实施例提供了一种Leaf设备的实现方式：

Leaf设备的交换芯片，用于接收第一Spine设备发送的故障通知报文，其中，故障通知报文由第一Spine设备在检测到与目标Leaf设备之间的直连链路故障时发送的；

Leaf设备的交换芯片，还用于查找与故障通知报文的以太网类型匹配的访问控制列表，根据访问控制列表对应的转发动作将故障通知报文上送Leaf设备的CPU；

Leaf设备的CPU，用于根据故障通知报文的源MAC地址和目的MAC地址，确定第一Spine设备与目标Leaf设备之间的直连链路故障，通知交换芯片从预先创建的ECMP组中删除所述第一Spine设备对应的下一跳。

Leaf设备的交换芯片，还用于从预先创建的ECMP组中删除所述第一Spine设备对应的下一跳，所述ECMP中包括本设备直接连接的所有Spine设备对应的下一跳。

在可选的实施方式中，Leaf设备的交换芯片，还用于接收第一Spine设备通过IP隧道发送的隧道封装报文，从隧道封装报文中解封装出数据报文，根据预设负载分担策略从ECMP组中确定第二Spine设备，并通过第二Spine设备发送至目标Leaf设备。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现前述实施方式中的应用于第一Spine设备的报文发送方法。

综上所述，本发明实施例提供了一种报文发送方法、装置、Spine设备、Leaf设备及计算机可读存储介质，应用于智算网络中的第一Spine设备的交换芯片，第一Spine设备与多个Leaf设备直接连接，交换芯片中设置有第一Spine设备到达每个Leaf设备的直连链路的备份路径组，所述方法包括：接收数据报文，数据报文为待通过多个Leaf设备中的目标Leaf设备转发的报文；当检测到与目标Leaf设备之间的直连链路故障时，通过备份路径组中的第一下一跳将故障通知报文发送至除目标Leaf设备之外的其余Leaf设备，并通过备份路径组中的第二下一跳将数据报文发送至中转Leaf设备，以通过中转Leaf设备到达第二Spine设备，并通过第二Spine设备将数据报文发送至目标Leaf设备转发。与现有技术相比，本实施例至少具有以下优势：(1)通过将数据报文发送至中转Leaf设备，再通过中转Leaf设备到达第二Spine设备，通过第二Spine设备将数据报文发送至目标Leaf设备，通过绕过故障链路实现了数据报文的正常发送，避免了链路故障时依赖控制面通过路由协议进行故障处理而导致的故障收敛时间长，缩短了故障收敛时间，提升了收敛性能；(2)分别通过两个不同的路径实现了故障通知报文的及时发送和数据报文的绕行发送，一方面，能够及时通知其他Leaf设备移除故障链路，另一方面又保证了数据报文的及时正常转发，进一步降低了故障收敛时间；(3)发送故障通知报文时，进行了限速，以避免故障通知报文过多地占用数据报文的带宽。

以上所述，仅为本发明的各种实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种报文发送方法，其特征在于，应用于智算网络中的第一Spine设备的交换芯片，所述第一Spine设备与多个Leaf设备直接连接，所述交换芯片中设置有所述第一Spine设备到达每个所述Leaf设备的直连链路的备份路径组，所述方法包括：

2.根据权利要求1所述的报文发送方法，其特征在于，所述通过所述备份路径组中的第一下一跳将故障通知报文发送至除所述目标Leaf设备之外的其余Leaf设备的步骤包括：

3.根据权利要求2所述的报文发送方法，其特征在于，所述对所述数据报文进行编辑，得到携带有故障链路信息的所述故障通知报文的步骤包括：

4.根据权利要求1所述的报文发送方法，其特征在于，所述通过所述备份路径组中的第二下一跳将所述数据报文发送至中转Leaf设备的步骤包括：

根据所述第二下一跳，为所述数据报文添加预设标记；

根据所述预设标记从所有其余Leaf设备中确定中转Leaf设备；

5.根据权利要求4所述的报文发送方法，其特征在于，所述根据所述预设标记从所有其余Leaf设备中确定中转Leaf设备的步骤包括：

6.根据权利要求4所述的报文发送方法，其特征在于，所述通过所述中转Leaf设备将所述数据报文发送至所述第二Spine设备，并通过所述第二Spine设备将所述数据报文发送至所述目标Leaf设备的步骤包括：

7.一种报文发送方法，其特征在于，应用于智算网络中与第一Spine设备直接连接的任一Leaf设备，所述第一Spine设备与多个Leaf设备直接连接，所述Leaf设备包括交换芯片和CPU，所述方法包括：

8.根据权利要求7所述的报文发送方法，其特征在于，所述方法还包括：

所述交换芯片接收所述第一Spine设备通过IP隧道发送的隧道封装报文，从所述隧道封装报文中解封装出所述数据报文，根据预设负载分担策略从所述ECMP组中确定第二Spine设备，并通过所述第二Spine设备发送至所述目标Leaf设备。

9.一种报文发送装置，其特征在于，应用于智算网络中的第一Spine设备的交换芯片，所述第一Spine设备与多个Leaf设备直接连接，所述交换芯片中设置有所述第一Spine设备到达每个所述Leaf设备的直连链路的备份路径组，所述装置包括：

10.一种Spine设备，其特征在于，包括处理器和交换芯片，所述交换芯片在所述处理器的控制下实现如权利要求1-6中任一项所述的报文发送方法。

11.一种Leaf设备，其特征在于，所述Leaf设备与第一Spine设备直接连接，所述Leaf设备包括交换芯片和CPU；

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1-6中任一项所述的报文发送方法。