WO2019109961A1

WO2019109961A1 - 故障诊断方法及装置

Info

Publication number: WO2019109961A1
Application number: PCT/CN2018/119426
Authority: WO
Inventors: 尚兴宏
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-12-08
Filing date: 2018-12-05
Publication date: 2019-06-13
Anticipated expiration: 2020-06-08
Also published as: CN109905261A

Abstract

本申请实施例涉及一种故障诊断方法及装置，该方法具体包括：确定发生虚拟网络功能VNF业务故障，获取VNF业务故障的诊断规则，将VNF业务故障关联的资源关联数据与诊断规则相匹配，确定VNF业务故障的故障原因。本方案中，通过对VNF业务故障关联的资源关联数据与诊断规则相匹配，可以实现通过确定NFV业务层故障和NFVI底层资源故障的关系，实现快速进行NFV业务层的故障定位与处理。

Description

故障诊断方法及装置

本申请要求于2017年12月8日提交中国国家知识产权局、申请号为201711297407.5、发明名称为“故障诊断方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信网络领域，尤其涉及一种网络中故障诊断的方法及装置。

背景技术

为了提高通信网络的部署灵活性，降低运营成本，网络功能虚拟化(network functions virtualization，NFV)技术快速发展起来。通过NFV技术，网络功能由虚拟化设备完成，并使得网络功能与具体硬件解耦。NFV技术已经成为云服务提供商(Cloud Service Provider，CSP)发展的主要驱动力。对于NFV的故障诊断也成为了NFV技术规模商用时关注的重点问题。

目前，NFV的故障诊断技术仅在虚拟网络功能(virtual network function，VNF)内部、或者在底层的网络功能虚拟化基础设施(network functions virtualization infrastructure，NFVI)层内部进行。例如，在NFVI层发生故障并产生警告后通过虚拟化基础设施管理器(virtualised infrastructure manager，VIM)接口发送至VNF管理器(VNF manager，VNFM)，并通知到网元管理系统(element management system，EMS)。

但是，现有技术无法确定NFV业务层故障和NFVI底层资源故障的关系，无法快速进行NFV业务层的故障定位与处理。

发明内容

本发明实施例提供了一种诊断方法及装置，可以实现通过确定NFV业务层故障和NFVI底层资源故障的关系，实现快速进行NFV业务层的故障定位与处理。

第一方面，本申请实施例提供了一种诊断方法，该方法具体包括：确定发生虚拟网络功能VNF业务故障，获取VNF业务故障的诊断规则，将VNF业务故障关联的资源关联数据与诊断规则相匹配，确定VNF业务故障的故障原因。

本方案中，通过对VNF业务故障关联的资源关联数据与诊断规则相匹配，可以实现通过确定NFV业务层故障和NFVI底层资源故障的关系，实现快速进行NFV业务层的故障定位与处理。

在一个可选的实现方式中，上述“获取VNF业务故障的诊断规则”可以包括：根据历史记录的与VNF业务故障关联的资源关联数据，使用第一算法计算出VNF业务故障的诊断规则。

在另一个可选的实现方式中，上述“第一算法”可以包括：频繁项挖掘算法。

在又一个可选的实现方式中，上述“资源关联数据”可以包括下列至少一项，资源关键性能指标(key performance indicator，KPI)统计数据、资源告警信息、资源日志信息。

在再一个可选的实现方式中，上述“资源KPI统计数据”可以包括统计周期内资源KPI 采样数据的下列至少一项：累积和、平均值、最大值和实时值。

在再一个可选的实现方式中，上述“资源关联数据”可以通过周期性轮询方式获取，或者通过订阅方式获取。

在再一个可选的实现方式中，上述“确定发生所述VNF业务故障”可以包括：通过动态阈值或静态阈值方法判断出所述VNF业务故障。

第二方面，本申请实施例提供了一种诊断装置，该装置具体包括：处理模块，用于确定发生虚拟网络功能VNF业务故障；通信模块，用于获取VNF业务故障的诊断规则；该处理模块，用于将VNF业务故障关联的资源关联数据与诊断规则相匹配，确定VNF业务故障的故障原因。

其中，处理模块具体用于，通过动态阈值或静态阈值方法判断出所述VNF业务故障。通信模块具体用于，根据历史记录的与所述VNF业务故障关联的资源关联数据，使用第一算法计算出所述VNF业务故障的诊断规则。

需要说明的是，第二方面中各模块可以实现上述第一方面方法设计中所执行的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在此不做赘述。

第三方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面的任意一种可能的设计中所述的方法。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第二方面或第二方面的任意一种可能的设计中所述的方法。

第五方面，本发明实施例提供了一种计算机程序产品，其包含指令，当所述程序被计算机所执行时，该指令使得计算机执行上述第一方面或第一方面的任意一种可能的设计中所述的方法。

第六方面，本发明实施例提供了一种计算机程序产品，其包含指令，当所述程序被计算机所执行时，该指令使得计算机执行上述第二方面或第二方面的任意一种可能的设计中所述的方法。

附图说明

图1为本发明实施例提供的一种诊断故障的系统架构示意图；

图2为本发明实施例提供的一种订阅方式获取资源数据方法的示意图；

图3为本发明实施例提供的一种轮询方式获取资源数据方法的示意图；

图4为本发明实施例提供的一种业务故障产生关联数据的方法示意图；

图5为本发明实施例提供的一种诊断业务故障的方法示意图；

图6为本发明实施例提供的一种诊断装置的结构示意图；

图7为本发明实施例提供的另一种诊断装置的结构示意图。

具体实施方式

为便于对本发明的理解，下面将结合附图及具体实施例做进一步的解释说明。

图1为本发明实施例提供的一种故障诊断的系统架构示意图。如图1所示，该系统主要包括VNF业务层和NFVI资源层。VNF实现业务功能，每个VNF还对应一个网元管理系统(element management system，EMS)，对VNF进行管理。NFVI层包括硬件资源和虚拟资源，硬件资源在底层，可以包括计算硬件、存储硬件、网络硬件等资源。虚拟资源在硬件资源的基础上构成，包括虚拟计算资源、虚拟存储资源、虚拟网络资源等，形成虚拟资源池。VNF业务层和NFVI业务层各有其管理系统，VNF管理器(VNFM)和NFV基础设施管理器(VIM)。

此外，图1所示的系统还包括数据库(DB)，用于存储故障诊断需要的数据。业务层的VNF和EMS可以直接访问数据库，也可以通过VNFM访问数据库。NFVI资源层的各项数据，例如KPI数据，各项告警信息等，可以通过VIM上报至VNFM，并存储在数据库中。

应用于上述系统，本发明实施例提供一种故障诊断的方法，主要包括源数据的获取，关联数据的生成、业务故障的诊断。这些诊断方法可以由VNF执行，也可以由EMS来执行，后面的实施例以VNF执行为例来说明。

数据源可以有多种，例如，NFVI资源告警信息、NFVI资源KPI数据以及NFVI日志等，获取的方式也可以有多种，例如：订阅的方式、轮询的方式等。

图2为本发明实施例提供的一种订阅方式获取资源数据方法的示意图，如图2所示，具体包括：

S201，VNF业务通过VNFM请求订阅NFVI层中资源告警信息。

VNF请求订阅NFVI层的告警。VNF发送订阅请求消息至VNFM，订阅请求消息中的参数包括VNF标识、告警标识。VNFM收到订阅消息后，向VNFI订阅告警信息。

底层资源在运行过程中，会产生一些告警信息，例如：CPU占用率过高、内存不足、网络拥塞等。当VNF订阅了告警信息后，如果NFVI层在运行过程中产生告警，就会将告警信息发送至VNFM，VNFM再将该告警信息发送至业务层。

S202：VNF业务接收到NFVI资源告警消息。

当NFVI中的资源出现故障告警时，VNFM接收NFVI层发送的资源告警消息，VNFM将该告警消息发送到订阅告警信息的VNF业务。资源告警消息中包含了资源标识、告警标识、订阅的VNF标识等相关信息。

S203：VNF业务将接收的告警信息存入数据库中。

VNF业务将收到的资源告警信息存入数据库中，存储的资源告警信息包括如下字段：告警时间、资源标识、告警标识和告警名称等。

图3为本发明实施例提供的一种轮询方式获取资源数据方法的示意图，如图3所示，具体可以包括：

S301，VNF业务生成NFVI层资源KPI采样任务。

业务层获取资源层的KPI数据，通常采用周期性采样的方式，例如，采样周期可以是10秒或1分钟等。

S302，VNF业务获取相关资源信息。

任务生成后，每到采样时间，就执行此采样任务。具体地，VNF业务层获取到业务所在的虚拟机(virtual machine，VM)、主机(host)等虚拟资源和物理资源信息。

S303：VNF业务请求采样NFVI层中资源的KPI数据。

业务层发送采样请求消息至VNFM，VNFM收到采样请求消息后，向NFVI请求相关数据。采样请求消息中包括：VNF标识、VM的信息、host的信息和KPI标识。NFVI资源的KPI数据可以包括多个，例如当前网速、硬盘数据访问量、VM上一个周期内处理的业务量等。

S304：VNF业务根据采样的资源KPI数据，生成KPI统计数据。

业务层在接收到采样的KPI数据后，计算一个统计周期内的KPI统计数据。统计周期可以是采样周期的N倍，例如，当采样周期为10秒时，N为6倍时，统计周期为1分钟。

统计数据可以有多种，例如下列统计数据：

累积和(SUM)：统计周期内采样的资源KPI数据的累计值。

平均值(SVG)：统计周期内采样的资源KPI数据的平均值(采样值的累积和除以采样次数)。

最大值(MAX)：统计周期内采样的资源KPI数据的最大值。

实时值(REAL)：统计周期内资源KPI数据的最后一个采样值。

S305：VNF业务将上述资源KPI统计数据存入数据库中。

在数据库可存储上述资源KPI的统计数据，存储的资源KPI统计数据表中可以包括如下字段：统计周期、KPI标识、KPI名称，KPI统计数据等。

通过上述订阅方式和周期性轮询的方法，VNF业务持续获得底层资源的告警信息和KPI统计数据。为后续的业务故障提供了诊断的数据源。

图4为本发明实施例提供的一种业务故障产生关联数据的方法示意图，如图4所示，当检测到业务发生故障后，建立与此故障相关联的资源故障和资源告警的关联数据，具体包括：

S401：VNF业务判断该业务运行的业务数据发生故障。

VNF业务通过动态阈值或者静态阈值的方法判断该业务运行的业务数据，如果业务数据超过动态阈值或静态阈值，则确定VNF业务发生故障。

S402：VNF业务读取数据库中存储的NFVI资源KPI统计数据。

VNF业务根据上述检测到的业务故障，从数据库获取关联时长内的NFVI的资源KPI统计数据。关联时长为与业务故障可能存在关联的时间长度，例如，可配置为几分钟或几十分钟。这样，数据库中后续不必保留所有的数据，只保留与业务故障可能相关的资源数据即可。不同的资源数据类型，例如资源告警信息和资源KPI统计数据，可以配置不同的关联时长。

S403：VNF业务确定资源KPI故障。

VNF业务通过动态阈值或者静态阈值等方法确定哪些资源KPI统计数据存在故障。例如CPU占用率超过阈值。

S404：VNF业务读取数据库中存储的资源告警信息。

同样，VNF业务根据上述检测到的业务故障，从数据库获取关联时长内的资源告警信息表。

S405：VNF业务确定业务故障的关联数据。

VNF业务将上述步骤S403确定的存在故障的资源KPI统计数据、步骤S404获取的资源告警信息作为VNF业务故障的关联数据。

S406：VNF业务将业务故障的关联数据存入数据库中。

VNF业务将关联数据存入数据库中的业务故障关联表中，该关联表可包括：业务故障时间、业务故障标识、关联的资源KPI统计数据、关联的资源告警信息等。

这样，数据库中存储了业务故障与资源KPI和资源告警的关联数据。后续每次VNF业务运行中发生业务故障时，都重复执行图4的过程，从而不断地为业务故障关联表增加关联数据，为后续故障诊断提供丰富的历史数据。

图5为本发明实施例提供的一种诊断业务故障的方法示意图，如图所示，根据数据库中的历史数据，和一定的算法，诊断出导致VNF发生业务故障的底层资源的原因，具体包括：

S501：VNF业务发起业务故障诊断。

VNF业务在运行过程中发生业务故障时，发起业务故障诊断，以确定业务故障发生的原因。

S502：VNF业务读取数据库中的业务故障关联表。

VNF业务从数据库中读取历史记录的业务故障关联表内容，包括与业务故障关联的资源KPI统计数据，以及与业务故障关联的资源告警信息。

S503：VNF业务根据业务故障关联表确定诊断规则。

VNF业务根据业务故障关联表中的关联数据，通过相关第一算法，计算出该业务故障的诊断规则。第一算法有很多，例如频繁项挖掘算法。根据频繁项挖掘算法，可以由VNF业务故障在历史时间内的关联数据，获取到VNF业务故障和相应的资源KPI故障或资源告警的关联性，也就是所述诊断规则。

S504：VNF业务从数据库中获取本次关联时长内的业务故障的关联数据。

VNF业务从数据库中获取本周期内与需要诊断的业务故障相关联的关联数据，包括资源KPI统计数据和资源告警信息。

S505：VNF业务根据诊断规则和关联数据，确定诊断结果。

将上述业务故障相关的资源KPI统计数据和资源告警信息，与诊断规则相配，可确定诊断结果。即确定业务故障的根因是最可有哪个资源告警信息或资源KPI统计数据异常引起的。例如，VNF业务故障表现为用户4G流量大幅下滑，最终定位到一个硬件资源(网卡)产生告警。

本发明实施例通过对底层资源KPI数据和告警信息的收集，以及与VNF业务故障的关联，实现了快速定位业务故障，极大地提高了故障恢复的能力和系统可靠性。

本发明实施例可以根据上述方法示例对诊断装置进行功能模块的划分，在采用集成的模块的情况下，图6为本发明实施例提供的一种诊断装置的结构示意图。诊断装置600包括：存储模块601、处理模块602和通信模块603。处理模块602用于对诊断装置的动作进行控制管理，例如：处理模块602，用于支持诊断装置执行图5中的过程501和503，和/或用于本文所描述的技术的其它过程。通信模块403用于获取VNF业务故障的诊断规则。诊断装置还可以包括存储模块601，用于存储资源KPI的统计数据等。

其中，处理模块602可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块603可以是通信接口、收发器、收发电路等，其中，通信接口是统称，可以包括一个或多个接口。存储模块601可以是存储器。

当处理模块602为处理器，通信模块603为通信接口，存储模块601为存储器时，本发明实施例所涉及的终端设备可以为图7所示的终端设备。

参阅图7所示，图7为本发明实施例提供的另一种诊断装置的结构示意图，该诊断装置700包括：处理器701、通信接口703、存储器701。其中，通信接口703、处理器702以及存储器701可以通过通信连接相互连接。

上述实施例中，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。诊断装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种虚拟网络功能VNF业务故障诊断方法，其特征在于，包括：

确定发生虚拟网络功能VNF业务故障；

获取所述VNF业务故障的诊断规则；

将所述VNF业务故障关联的资源关联数据与所述诊断规则相匹配，确定所述VNF业务故障的故障原因。
根据权利要求1所述的方法，其特征在于，所述获取VNF业务故障的诊断规则，包括：

根据历史记录的与所述VNF业务故障关联的资源关联数据，使用第一算法计算出所述VNF业务故障的诊断规则。
根据权利要求2所述的方法，其特征在于，所述第一算法包括：频繁项挖掘算法。
根据权利要求1-3任一项所述的方法，其特征在于，所述资源关联数据包括下列至少一项：资源KPI统计数据、资源告警信息、资源日志信息。
根据权利要求4所述的方法，其特征在于，所述资源KPI统计数据包括统计周期内资源KPI采样数据的下列至少一项：累积和、平均值、最大值和实时值。
根据权利要求4所述的方法，其特征在于，所述资源关联数据通过周期性轮询方式获取，或者通过订阅方式获取。
根据权利要求1-6任一项所述的方法，其特征在于，确定发生所述VNF业务故障包括：通过动态阈值或静态阈值方法判断出所述VNF业务故障。
一种诊断装置，其特征在于，包括：

处理模块，用于确定发生虚拟网络功能VNF业务故障；

通信模块，用于获取所述VNF业务故障的诊断规则；

所述处理模块，用于将所述VNF业务故障关联的资源关联数据与所述诊断规则相匹配，确定所述VNF业务故障的故障原因。
根据权利要求8所述的装置，其特征在于，所述通信模块具体用于，根据历史记录的与所述VNF业务故障关联的资源关联数据，使用第一算法计算出所述VNF业务故障的诊断规则。
根据权利要求9所述的装置，其特征在于，所述第一算法包括：频繁项挖掘算法。
根据权利要求8-10任一项所述的装置，其特征在于，所述资源关联数据包括下列至少一项：资源KPI统计数据、资源告警信息、资源日志信息。
根据权利要求11所述的装置，其特征在于，所述资源KPI统计数据包括统计周期内资源KPI采样数据的下列至少一项：累积和、平均值、最大值和实时值。
根据权利要求11所述的装置，其特征在于，所述资源关联数据通过周期性轮询方式获取，或者通过订阅方式获取。
根据权利要求8-13任一项所述的装置，其特征在于，所述处理模块具体用于，通过动态阈值或静态阈值方法判断出所述VNF业务故障。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的方法。
一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的方法。