[go: up one dir, main page]

CN107204879B - 一种基于指数移动平均的分布式系统自适应故障检测方法 - Google Patents

一种基于指数移动平均的分布式系统自适应故障检测方法 Download PDF

Info

Publication number
CN107204879B
CN107204879B CN201710413817.5A CN201710413817A CN107204879B CN 107204879 B CN107204879 B CN 107204879B CN 201710413817 A CN201710413817 A CN 201710413817A CN 107204879 B CN107204879 B CN 107204879B
Authority
CN
China
Prior art keywords
heartbeat
delay
heartbeat delay
sequence
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710413817.5A
Other languages
English (en)
Other versions
CN107204879A (zh
Inventor
姜晓红
代长波
李金昌
杜定益
陈广
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710413817.5A priority Critical patent/CN107204879B/zh
Publication of CN107204879A publication Critical patent/CN107204879A/zh
Application granted granted Critical
Publication of CN107204879B publication Critical patent/CN107204879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本发明公开了一种基于指数移动平均的分布式系统自适应故障检测方法,包含四个步骤:时序数据收集、心跳预测、输出诊断值以及故障判别。该故障检测方法可以用于分布式系统中的故障检测,及时发现系统故障隐患,降低系统宕机风险。本发明利用历史心跳序列,输出一个随时间动态累积的诊断值,根据系统初始化时设定的阈值,判断系统中节点是否故障。在计算心跳预测值时,基于指数移动平均计算各历史心跳消息的影响权值,使影响权值随时间的递增而指数递减,同时通过方差比降低突变历史心跳的影响权值。

Description

一种基于指数移动平均的分布式系统自适应故障检测方法
技术领域
本发明属于分布式系统技术领域,具体涉及一种基于指数移动平均的分布式系统自适应故障检测方法。
背景技术
随着分布式技术的发展,分布式系统正应用到人们日常生活的方方面面,电子商务、云存储、网络通信以及银行和证券等行业都将其核心业务构建在分布式系统上以向客户提供快速稳定且安全的服务。故障检测是分布式系统的基础组成部分,是保证系统可靠和稳定运行的必要手段之一;随着系统规模和复杂度的不断增加,故障检测的难度也越来越高。
自适应故障检测器能够根据系统或网络状态,动态调整检测参数,如心跳超时时间等,相对于传统固定的故障检测器具有更好的检测效果。目前,自适应故障检测技术的研究已经较为成熟,许多基于心跳自适应的故障检测器被出,大致可以总结成两类:一类是通过历史心跳序列,使用不同算法计算下一心跳的预测值并根据预测值设定检测超时时间,这种故障检测器的检测结果具有二值性,要么故障要么正常;另外一类是将故障的监测与解释权分离的自适应故障检测器,该检测器也是利用心跳技术,但是输出一个随时间变化的累积决策值,用户通过设定预测来判断是否故障,这种检测器可以针对统一系统上的不同应用产生不一样的检测效果,具有更高的灵活性。
发明内容
本发明提供了一种基于指数移动平均的分布式系统自适应故障检测方法,能够在保证检测准确性地同时缩减故障检测时间,提高故障检测效率,且具有更强的适用性。
一种基于指数移动平均的分布式系统自适应故障检测方法,包括如下步骤:
(1)每隔固定时间向系统中的被测节点发送心跳消息并接收其返回的响应消息,从而维持更新一个指定长度为n的心跳延时序列,n为大于1的自然数;
(2)根据所述心跳延时序列,在最近一次心跳响应到达时刻计算出下一心跳延时的预测值EIA0
(3)根据下一心跳延时的预测值EIA0计算出一个随时间累积增长的诊断值并根据该诊断值对被测节点进行故障判别。
所述步骤(1)中的心跳延时序列由n个心跳延时IA1~IAn按时序从近到远排列组成,序列中的任一心跳延时等于其对应的一次心跳响应的到达时刻减去其前一次心跳响应的到达时刻;若心跳延时序列已满,则在存入最新的心跳延时同时移除最远的心跳延时。
所述步骤(2)中计算下一心跳延时的预测值EIA0,具体过程如下:
2.1对于心跳延时序列中的任一心跳延时IAi,采用指数移动平均法计算其对于下一心跳延时的影响权值φi
2.2采用方差比法对影响权值φi进行调整优化,得到心跳延时IAi对于下一心跳延时的最终影响权值θi
2.3使心跳延时序列中心跳延时与其预测值的误差均值作为下一次预测的安全余量α,并根据最终影响权值θi计算出下一心跳延时的预测值EIA0
所述步骤2.1中指数移动平均法的计算表达式如下:
其中:表示向上取整,i为自然数且1≤i≤n。
所述步骤2.2中采用方差比法对影响权值φi进行调整优化,具体计算过程如下:
其中:μ和δ分别为心跳延时序列的均值和标准差,vi=IAi-μ,Ψ(vi)为心跳延时IAi对应的方差比。
所述步骤2.3中根据以下公式计算下一次预测的安全余量α:
其中:EIAi为心跳延时IAi的预测值。
所述步骤23中根据以下公式计算下一心跳延时的预测值EIA0
所述步骤(3)中根据以下公式计算诊断值
其中:Tlast为最近一次心跳响应的到达时刻,t为时间。
与现有分布式系统故障检测技术相比,本发明分布式系统故障检测方法基于指数移动平均法预测下一心跳延时并以此预测值作为输入,输出一随时间累积的诊断值,在保证检测准确性地同时缩减了故障检测时间,提高了故障检测效率;特别是在网络消息丢失率允许的环境中,本发明故障检测方法具有更强的适用性,能够及时发现系统故障隐患,降低系统宕机风险。
附图说明
图1为本发明分布式系统故障检测方法的流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本实施方式将分布式系统抽象成包含两个节点{p,q}的集群,其中p作为检测节点,q作为被检测节点;如图1所示,该分布式系统自适应故障检测方法包括如下步骤:
(1)时序数据收集。
检测节点p每隔η时间向被检测节点q发送心跳消息,q在接收到心跳消息时返回响应消息。节点p在内部维持一指定长度n的心跳时序序列,每当p收到q的心跳响应消息时,更新本地时序序列中的数据。
时序序列中存储最近n的心跳的延时{IA1,IA2,...,IAi,...,IAn},其中IA1表示最近一次心跳延时,IAn表示序列中最远一次心跳延时。假设第i个心跳响应到达时刻为Ti,则:
IAi=Ti-Ti-1
当节点p的本地心跳时序序列已满时,在存入最新心跳延时前移除最旧数据,保证数据的时效性。
(2)心跳预测。
心跳预测的具体步骤进一步可分为:指数移动平均权值计算、方差比法权值调整、安全余量α计算。
2-1指数移动平均权值计算:历史心跳延时对下一心跳延时的影响力随时间而指数递减,距离当前越近的点影响力越大,相反,距离越远的点影响力越小。对于心跳消息序列{IA1,IA2,...,IAi,...,IAn},影响权值为{φ1(β),φ2(β),...,φi(β),...,φn(β)},其中β为调解权值的常数,介于0~1之间。
影响权值φi(β)定义为:
φi(β)=β(1-β)i-1,1≤i≤n
可见0<φi(β)<1,且时序序列中心跳延时的影响权值随时间呈指数递减。
2-2方差比法权值调整:对指数移动平均法计算的权值φi(β)作进一步优化,假设变量μ和δ分别表示时序序列内心跳延时的均值和统计标准差,即:
则方差比ψ(vi)定义为:
其中,νi=IAi-μ,即历史心跳延时的波动性越大ψ(νi)越小,且ψ(νi)≤1。
最终每个历史心跳延时的影响权值θi为:
θi=φi(β)*ψ(νi),1≤i≤n
2-3安全余量α计算:利用时序序列中心跳延时预测的误差均值作为下一次预测的安全余量,计算公式如下:
最后,计算下一心跳延时的预测值,计算公式如下:
(3)输出诊断值
将心跳延时预测以及当前时间t作为输入,诊断值计算公式为:
其中:Tlast为最近一次心跳到达时刻,取值范围0~+∞。
(4)故障判别。
节点p在t时刻计算则认定节点q正常,否则认定节点q故障。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (1)

1.一种基于指数移动平均的分布式系统自适应故障检测方法,包括如下步骤:
(1)每隔固定时间向系统中的被测节点发送心跳消息并接收其返回的响应消息,从而维持更新一个指定长度为n的心跳延时序列,n为大于1的自然数;
所述心跳延时序列由n个心跳延时IA1~IAn按时序从近到远排列组成,序列中的任一心跳延时等于其对应的一次心跳响应的到达时刻减去其前一次心跳响应的到达时刻;若心跳延时序列已满,则在存入最新的心跳延时同时移除最远的心跳延时;
(2)根据所述心跳延时序列,在最近一次心跳响应到达时刻计算出下一心跳延时的预测值EIA0,具体过程如下:
2.1对于心跳延时序列中的任一心跳延时IAi,采用指数移动平均法计算其对于下一心跳延时的影响权值φi,具体计算表达式如下:
其中:表示向上取整,i为自然数且1≤i≤n;
2.2采用方差比法对影响权值φi进行调整优化,得到心跳延时IAi对于下一心跳延时的最终影响权值θi,具体计算表达式如下:
其中:μ和δ分别为心跳延时序列的均值和标准差,vi=IAi-μ,Ψ(vi)为心跳延时IAi对应的方差比;
2.3使心跳延时序列中心跳延时与其预测值的误差均值作为下一次预测的安全余量α,具体计算表达式如下:
其中:EIAi为心跳延时IAi的预测值;
进而根据最终影响权值θi通过以下公式计算出下一心跳延时的预测值EIA0
(3)根据下一心跳延时的预测值EIA0通过以下公式计算出一个随时间累积增长的诊断值并根据该诊断值对被测节点进行故障判别;
其中:Tlast为最近一次心跳响应的到达时刻,t为时间。
CN201710413817.5A 2017-06-05 2017-06-05 一种基于指数移动平均的分布式系统自适应故障检测方法 Active CN107204879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710413817.5A CN107204879B (zh) 2017-06-05 2017-06-05 一种基于指数移动平均的分布式系统自适应故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710413817.5A CN107204879B (zh) 2017-06-05 2017-06-05 一种基于指数移动平均的分布式系统自适应故障检测方法

Publications (2)

Publication Number Publication Date
CN107204879A CN107204879A (zh) 2017-09-26
CN107204879B true CN107204879B (zh) 2019-09-20

Family

ID=59906687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710413817.5A Active CN107204879B (zh) 2017-06-05 2017-06-05 一种基于指数移动平均的分布式系统自适应故障检测方法

Country Status (1)

Country Link
CN (1) CN107204879B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019178714A1 (zh) * 2018-03-19 2019-09-26 华为技术有限公司 一种故障检测的方法、装置及系统
CN115190051B (zh) * 2021-04-01 2023-09-05 中国移动通信集团河南有限公司 心跳数据识别方法及电子装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100123817A (ko) * 2007-11-08 2010-11-25 제네틱 파이넨스 (바베이도스) 리미티드 복잡한 알고리즘들을 수행하기 위한 분산 네트워크
CN103117901B (zh) * 2013-02-01 2016-06-15 华为技术有限公司 一种分布式心跳检测方法、装置及系统
CN107133478A (zh) * 2017-05-10 2017-09-05 南京航空航天大学 一种高速增量式航空发动机异常检测方法

Also Published As

Publication number Publication date
CN107204879A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN110830289B (zh) 一种容器异常监测方法及监测系统
CN104809051B (zh) 用于预测计算机应用中的异常和故障的方法和装置
CN104994539B (zh) 一种基于arima模型的无线传感器网络流量异常检测方法
CN103455842B (zh) 贝叶斯算法和MapReduce相结合的信任度量方法
US7075894B2 (en) Algorithm for prioritization of event datum in generic asynchronous telemetric streams
US20150341238A1 (en) Identifying slow draining devices in a storage area network
JP2022501994A (ja) ネットワーク化されたマイクログリッドのためのセキュアな分散型状態推定
CN104811987B (zh) 确定无线传感器网络内的故障节点
CN109728981A (zh) 一种云平台故障监测方法及装置
EP3430767B1 (en) Method and device for real-time network event processing
CN113778805A (zh) 一种dcgw集群告警方法及系统
CN113326132B (zh) 一种信息调节方法、设备及存储介质
CN109120463A (zh) 流量预测方法及装置
CN112508316A (zh) 实时异常检测系统中的自适应异常判定方法和装置
CN119743270B (zh) 基于零知识证明的工业物联网安全认证方法及系统
WO2017000536A1 (zh) 一种bfd检测方法与装置
CN115913967A (zh) 一种云环境下基于资源需求预测的微服务弹性伸缩方法
CN107204879B (zh) 一种基于指数移动平均的分布式系统自适应故障检测方法
US20250086521A1 (en) Systems and methods for detecting anomalous data in federated learning using historical data profiles
CN114548205A (zh) 一种飞机刹车系统故障诊断方法及其电子设备
CN104486786B (zh) 一种无线传感器网络的故障检测方法
CN111901134A (zh) 一种基于循环神经网络模型rnn的预测网络质量的方法和装置
CN119449676B (zh) 一种分布式网络节点心跳消息的传输优化方法及装置
CN116668452B (zh) 一种区块链核心网络构建方法和装置
CN112764994B (zh) 一种容器云存储系统的灰色故障检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant