[go: up one dir, main page]

CN108599977A - 基于统计方法监控系统可用性的系统及方法 - Google Patents

基于统计方法监控系统可用性的系统及方法 Download PDF

Info

Publication number
CN108599977A
CN108599977A CN201810150782.5A CN201810150782A CN108599977A CN 108599977 A CN108599977 A CN 108599977A CN 201810150782 A CN201810150782 A CN 201810150782A CN 108599977 A CN108599977 A CN 108599977A
Authority
CN
China
Prior art keywords
abnormal
alarm
fnum
threshold
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810150782.5A
Other languages
English (en)
Other versions
CN108599977B (zh
Inventor
梅存兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tuniu Technology Co Ltd
Original Assignee
Nanjing Tuniu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tuniu Technology Co Ltd filed Critical Nanjing Tuniu Technology Co Ltd
Priority to CN201810150782.5A priority Critical patent/CN108599977B/zh
Publication of CN108599977A publication Critical patent/CN108599977A/zh
Application granted granted Critical
Publication of CN108599977B publication Critical patent/CN108599977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephonic Communication Services (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了基于统计方法监控系统可用性的系统及方法,系统包括:系统间服务调用日志模块、报警阈值分析模块、告警分析模块、监控告警展示模块;通过采集系统间的调用日志,定期对历史数据进行分析学习,取得每个系统的一般表现;对最近一个单位时间t内的数据进行分析,辨别每个系统当前的错误数是否反常、系统间调用的错误率是否异常、系统各服务各实例的可用性是否异常;并在系统拓扑图上以告警形式标记出异常的系统、异常的系统间调用关系。在展示告警信息时,本发明在系统拓扑图上显示了系统状态、系统间调用的状态、系统服务和实例的状态,以便在大面积系统出现问题时快速定位出问题系统。

Description

基于统计方法监控系统可用性的系统及方法
技术领域
本发明属于软件系统监控技术领域,涉及一种基于统计方法监控系统可用性的系统及方法。
背景技术
互联网企业一般包含了大量的应用系统,除了对外开放的网站、APP等,内部也会有很多应用系统支撑企业的运营、管理。内部的应用系统间一般存在较复杂的调用关系,一个系统提供给另一个系统调用的功能称之为服务。应用系统的可用性监控业界一般采取以下手段:
方法一:使用zabbix等工具,监控系统服务器的某一些指标,如:Web系统进程数/线程数、CPU负载、可用内存、http异常状态码数量、请求响应时间等。当指标超过设定阈值时进行报警。
方法二:模拟客户端进行周期性调用,检测服务端系统响应的内容、速度等指标是否符合设定阈值。当指标超过设定阈值时进行报警。
但现有的监控方式存在多种缺陷:
1.方法一及方法二中的阈值都需要人工设定,不同系统的阈值千差万别、同一系统不同时期阈值也截然不同,阈值的设定与维护都有很大的工作量。实际操作中,一般采用试错法,即误报后放宽阈值、漏报后收紧阈值,这样误报率、漏报率都很高。
2.方法一的监控只能部分反应可用性,而不能作为实际的可用性指标,检测出来的异常不代表系统可用性降低、系统不可用时也不都反应在这些监控指标上。
3.方法二的监控直接反应了可用性,但其作为抽检手段样本数量较少、覆盖面较窄,仅能监测读操作而较少用于写操作。
4.当系统较多、较复杂时,上述两种监控方法的指标过多、告警数量多、告警噪音大,会影响问题的判断及定位。
5.在新系统上线、新的服务上线、系统及服务部署发生变更时,上述两种监控方法都需要人工维护监控项,不适用于具有故障自动切换、动态扩充服务能力的系统。
6.在进行错误率监测告警时,阈值法常常造成误报,例如当错误率要求不超过1%时,如果只发生了一次操作并且失败了(错误率100%)就会告警,但多数情况下无需告警。
7.复杂系统集群多个系统同时出现故障时,难以快速定位出真正出现故障的系统,只能胡子眉毛一把抓,浪费了宝贵的时间。
发明内容
为解决上述问题,本发明提出了基于统计方法监控系统可用性的系统及方法,通过采集系统间的调用日志,定期对历史数据进行分析学习,取得每个系统的一般表现;对最近一个单位时间t内的数据进行分析,辨别每个系统当前的错误数是否反常、系统间调用的错误率是否异常、系统各服务各实例的可用性是否异常;并在系统拓扑图上以告警形式标记出异常的系统、异常的系统间调用关系。
为了达到上述目的,本发明提供如下技术方案:
基于统计方法监控系统可用性的系统,包括:系统间服务调用日志模块、报警阈值分析模块、告警分析模块、监控告警展示模块;
系统间服务调用日志模块用于采集记录系统间所有调用的日志信息,调用时间、调用方 IP和端口号、被调用方IP和端口号、调用的服务标识、成功与否;
报警阈值分析模块用于定期对历史数据进行学习,找出每一个系统一般情境下的表现,获得了当前系统的n份样本,每一个样本描述了单位时间t内错误数,并去除样本集中的异常点,去除异常点的过程包括:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2;
iii.如果满足条件,则完成异常点的去除,继续执行以下步骤;否则,执行步骤 i;
计算该系统的错误数告警线alertNum=u+std*3;
告警分析模块用于定时采集最近一个t时间段内的日志,逐次分析每个系统的错误数是否异常、每个系统的每个服务错误率是否异常、实例错误率是否异常、任意两个系统间的错误数情况,并遍历系统列表后具体进行如下判断:
a)如果该系统的累计错误数大于该系统的告警阈值,则标记该系统异常;
b)遍历该系统的每一个服务,应用异常判断方法,判定其错误率是否异常;
c)遍历该系统的每一个实例,应用异常判断方法,以判定其错误率是否异常;
所述异常判断方法包括:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<第一阈值,返回正常;否则下一步;
c)如果num>=第二阈值则下一步,否则当fNum=第一阈值时返回正常,否则返回异常;
d)如果fNum/num<第三阈值,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+第四阈值,否则k=fNum-第五阈值;
f)计算
如果z>第六阈值则返回异常,否则返回正常;
判断完成后整理数据,计算每一组clientInstance调用serverInstance的错误数;
从系统拓扑图上反查clientInstance和serverInstance对应的系统client和server,统计每一组client系统调用server系统的累计错误数;
告警展示模块用于基于系统拓扑图,在告警数据分析完成后将其展示在系统拓扑图上。
进一步的,报警阈值分析模块还用于设置告警阈值,在计算该系统的错误数告警线之后,如果alertNum<告警阈值则alertNum设置为告警阈值。
进一步的,所述去除异常点过程中条件如下:
n1=0或者(n-n2)>30或者(n-n2)>n/3。
进一步的,告警展示模块还用于:
1、当系统异常时,在系统图标上添加警告的标志:
2、当系统的服务、实例异常时,点击系统图标,弹层显示错误信息;
3、当系统间调用错误数不为0时,绘制连线和指向性箭头。
进一步的,所述连线的宽度与错误数相关。
基于统计方法监控系统可用性的方法,包括如下步骤:
步骤一,采集记录系统间所有调用的日志信息,调用时间、调用方IP和端口号、被调用方IP和端口号、调用的服务标识、成功与否;
步骤二,定期对历史数据进行学习,找出每一个系统一般情境下的表现,获得了当前系统的n份样本,每一个样本描述了单位时间t内错误数,并去除样本集中的异常点,去除异常点的过程包括:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2;
iii.如果满足条件,则完成异常点的去除,继续执行以下步骤;否则,执行步骤 i;
计算该系统的错误数告警线alertNum=u+std*3;
步骤三,定时采集最近一个t时间段内的日志,逐次分析每个系统的错误数是否异常、每个系统的每个服务错误率是否异常、实例错误率是否异常、任意两个系统间的错误数情况,并遍历系统列表后具体进行如下判断:
a)如果该系统的累计错误数大于该系统的告警阈值,则标记该系统异常;
b)遍历该系统的每一个服务,应用异常判断方法,判定其错误率是否异常;
c)遍历该系统的每一个实例,应用异常判断方法,以判定其错误率是否异常;
所述异常判断方法包括:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<第一阈值,返回正常;否则下一步;
c)如果num>=第二阈值则下一步,否则当fNum=第一阈值时返回正常,否则返回异常;
d)如果fNum/num<第三阈值,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+第四阈值,否则k=fNum-第五阈值;
f)计算
如果z>第六阈值则返回异常,否则返回正常;
判断完成后整理数据,计算每一组clientInstance调用serverInstance的错误数;
从系统拓扑图上反查clientInstance和serverInstance对应的系统client和server,统计每一组client系统调用server系统的累计错误数;
步骤四,基于系统拓扑图,在告警数据分析完成后将其展示在系统拓扑图上。
进一步的,步骤一还包括:
设置告警阈值,在计算该系统的错误数告警线之后,如果alertNum<告警阈值则alertNum 设置为告警阈值。
进一步的,步骤二去除异常点过程中条件如下:
n1=0或者(n-n2)>30或者(n-n2)>n/3。
进一步的,步骤四还包括如下步骤:
1、当系统异常时,在系统图标上添加警告的标志:
2、当系统的服务、实例异常时,点击系统图标,弹层显示错误信息;
3、当系统间调用错误数不为0时,绘制连线和指向性箭头。
进一步的,所述连线的宽度与错误数相关。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明能够通过分析实例间服务调用日志来监控系统、系统的服务、系统的实例是否异常,并结合系统拓扑图展示告警信息;在展示告警信息时,本发明在系统拓扑图上显示了系统状态、系统间调用的状态、系统服务和实例的状态,以便在大面积系统出现问题时快速定位出问题系统。
2.本发明通过分析过去一段时间系统的正常表现,获得了告警阈值;在告警分析时,错误数超过该阈值就告警;对于数量型告警,提供了告警阈值的自动设置方法,减少了人工,提高了告警的准确率,大大降低了误报和漏报这两种情况。新系统上线运行一段时间后,本发明可以自动为其设置告警阈值。
3.能够检验分析系统的服务、实例是否异常,对于比例型告警,提高了告警的准确率,减少了误报和漏报。
4.监控方法取样的是实际数据,比定期采样覆盖更全面。
附图说明
图1为正态分布示意图。
图2为日志格式示例图。
图3为报警阈值分析流程图。
图4为调用Logstash接口得到的系统内样本错误数示意图。
图5为实例间调用数据图。
图6为添加警告标志的系统拓扑图。
图7为弹层显示错误信息的系统拓扑图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
我们认为,一个系统单位时间t内的错误数受到许多独立随机因素的因素的影响,一般情况下每个因素的影响都很小,故我们可以将其作为一个服从正态分布的随机变量来研究。正态分布的密度函数为:
通过采集该系统过去一段时间一般情况下的表现数据,我们可以计算出单位时间t内错误数的平均值u和标准差std。将最近一个单位时间t内的错误数记为failNum,如图1所示,我们很容易可以计算出概率P(failNum>=u+3*std)远小于0.01,即其是一个极端的小概率事件。所以我们去观测该系统最近一个单位时间t内出现的错误数,其值超出均值加上三个标准差的情况一定是极端情况,需要人工关注,应当发出告警信息。
我们在通过观察系统的错误数研究系统和服务的错误率时,很容易就发现:即便错误率 p0最高可接受的值为0.01,实际观察100次调用时,超过1次调用失败也不能说明系统有问题,因为这是发生概率较大的事件。
当调用次数比较少时(这里我们取少于40次),我们来计算当系统本质上的错误率p不高于p0,但n次调用中观察到的错误数failNum大于failLevel的条件概率p1:
我们将发生概率低于0.05的事件称作小概率事件。在少量的有限次试验中,小概率事件不应该发生,即当小概率事件发生时,我们不能认为p不高于p0,而应当认为p高于p0,此时系统错误率过高、应当发出告警。通过数值运算,我们找到了所有使得p<0.05的failLevel 的临界点:当n<=5时,failLvel的临界点是0,当5<n<=35时,failLevel的临界点是1,当35<n<40时,failLevel的临界点是2。即:观察n次调用,如果错误数高于对应的failLevel,就认为发生了一个小概率事件,需要关注;如果不高于则认为系统正常。为便于处理,我们将n<40时的failLevel统一设定为1,实践中其误差在可接受范围内。
当调用次数比较多时(这里我们认为不少于40次),我们观察到的错误率为p1,系统本质上的错误率为p,正常情况下不高于p0。根据中心极限定理,我们知道p1近似服从均值为p、方差为p(1-p)/n的正态分布,亦即统计量服从标准正态分布。当p<=p0时,近似服从标准正态分布;由标准正态分布分位数表可知,当时,其概率低于0.05,是小概率事件,应当关注、发出告警。为方便应用,我们将变形为:其中n*p1就是实际观察到的错误数。
相应的异常判断方法包括如下步骤:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<1,返回正常;否则下一步;
c)如果num>=40则下一步,否则当fNum=1时返回正常,否则返回异常;
d)如果fNum/num<0.01,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+0.5,否则k=fNum-0.5(因为是近似正态分布,通过修正可以使统计量更加逼近正态分布);
f)计算
如果z>1.645则返回异常,否则返回正常。
异常判断方法中的各数据均可以根据需要调整。
本发明提供的基于统计方法监控系统可用性的系统,包括:系统间服务调用日志模块、报警阈值分析模块、告警分析模块、监控告警展示模块。从系统拓扑图中可以直接获取各个系统的服务列表和实例列表。本司提交的申请号为2017109039551,名称为系统部署与依赖关系自动绘制系统及方法的发明专利中较为详细地阐述了服务列表、实例列表及有关服务和实例的日志。
系统间服务调用日志模块采集和记录了系统间所有调用的日志信息。具体来说:我们将系统(Application)在服务器上的一个具体部署称之为实例(Instance),实例由所在服务器的 IP和实例占用的端口号唯一标识。一个实例调用另一个实例的某一服务后,调用方会记录下调用日志(如图所示),日志中包含:调用时间(startTime)、调用方IP(consumerIp)和端口号(consumerPort)、被调用方IP(serviceIp)和端口号(servicePort)、调用的服务标识(serviceName)、成功与否(success)。系统间服务调用日志模块使用Logstash这一开源工具存储了这些日志,在调用行为结束后2秒内就能将数据保存下来。存储日志如图2所示。
报警阈值分析模块定期对历史数据进行学习,找出每一个系统一般情境下的表现,具体实现过程如图3所示,包括以下步骤:
1、遍历系统列表:
a)取得当前系统的所有服务列表;
b)调用Logstash接口,取最近n*t的时间范围内的该系统所有服务的累计错误数,并以t为单位分为n份,即我们获得了当前系统的n份样本,每一个样本都描述了单位时间t内错误数,如图4所示;
c)去除样本集中的异常点:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2,本步骤是将历史上的异常情况找出并剔除,避免其影响到对系统一般表现的评估;
iii.如果n1=0或者(n-n2)>30或者(n-n2)>n/3,则完成异常点的去除,继续执行步骤d);否则,执行步骤i;
d)计算新样本集的均值u和标准差std;
计算该系统的错误数告警线alertNum=u+std*3;如果alertNum<100则alertNum设置为 100。
告警分析模块定时采集(例如每分钟采集一次,采集间隔可根据需要调整)最近一个t时间段内的日志,逐次分析每个系统的错误数是否异常、每个系统的每个服务错误率是否异常、实例错误率是否异常、任意两个系统间的错误数情况,具体方法如下:
1、从Logstash中抽取最近t时间的日志,即穷举出所有存在的a实例调用b实例c服务成功数、失败数这样的关系,如图5所示,将其记作data:
2、整理data,将字段consumerIp和字段consumerPort合并成字段clientInstance,将字段 serviceIp和字段servicePort合并成字段serverInstance;
3、整理数据,计算每一个serverInstance和每一个serviceName的累计正确数、累计错误数;
4、遍历系统列表:
a)统计每一个系统的累计错误数,即该系统下所有服务的错误数之和;
b)如果该系统的累计错误数大于该系统的告警阈值alertNum,则标记该系统异常;
c)遍历该系统的每一个服务(serviceName),应用前述异常判断方法,代入serviceName的累计正确数、累计错误数,以判定其是否异常;
d)遍历该系统的每一个实例(serverInstance),应用前述异常判断方法,代入serverInstance的累计正确数、累计错误数,以判定其是否异常;
5、整理数据,计算每一组clientInstance调用serverInstance的错误数;
从系统拓扑图上反查clientInstance和serverInstance对应的系统client和server,统计每一组client系统调用server系统的累计错误数。
告警展示模块基于系统拓扑图,在告警数据分析完成后将其展示在系统拓扑图上。
1、当系统异常时,在系统图标上添加警告的标志,如图6所示;
2、当系统的服务、实例异常时,点击系统图标,弹层显示错误信息,如图7所示;
3、当系统间调用错误数不为0时,绘制连线和指向性箭头,线的宽度为错误数的对数。也可采用其他代入错误数的常规公式来计算线的宽度,只要令线的宽度或者颜色与错误数相关即可满足本发明要求。
当系统出现故障时,我们可以很容易的从图上看出:哪些系统出现了问题、影响到了哪些系统、系统的哪些实例和服务出现了问题。
本发明还提供了基于统计方法监控系统可用性的方法,包括系统间服务调用日志步骤;报警阈值分析步骤;告警分析步骤;监控告警展示步骤;系统间服务调用日志步骤执行系统间服务调用日志模块实现的内容,报警阈值分析步骤执行报警阈值分析模块实现的内容,告警分析步骤执行告警分析模块实现的内容,监控告警展示步骤执行监控告警展示模块实现的内容。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.基于统计方法监控系统可用性的系统,其特征在于,包括:系统间服务调用日志模块、报警阈值分析模块、告警分析模块、监控告警展示模块;
系统间服务调用日志模块用于采集记录系统间所有调用的日志信息,调用时间、调用方IP和端口号、被调用方IP和端口号、调用的服务标识、成功与否;
报警阈值分析模块用于定期对历史数据进行学习,找出每一个系统一般情境下的表现,获得了当前系统的n份样本,每一个样本描述了单位时间t内错误数,并去除样本集中的异常点,去除异常点的过程包括:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2;
iii.如果满足条件,则完成异常点的去除,继续执行以下步骤;否则,执行步骤i;
计算该系统的错误数告警线alertNum=u+std*3;
告警分析模块用于定时采集最近一个t时间段内的日志,逐次分析每个系统的错误数是否异常、每个系统的每个服务错误率是否异常、实例错误率是否异常、任意两个系统间的错误数情况,并遍历系统列表后具体进行如下判断:
a)如果该系统的累计错误数大于该系统的告警阈值,则标记该系统异常;
b)遍历该系统的每一个服务,应用异常判断方法,判定其错误率是否异常;
c)遍历该系统的每一个实例,应用异常判断方法,以判定其错误率是否异常;
所述异常判断方法包括:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<第一阈值,返回正常;否则下一步;
c)如果num>=第二阈值则下一步,否则当fNum=第一阈值时返回正常,否则返回异常;
d)如果fNum/num<第三阈值,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+第四阈值,否则k=fNum-第五阈值;
f)计算
如果z>第六阈值则返回异常,否则返回正常;
判断完成后整理数据,计算每一组clientInstance调用serverInstance的错误数;
从系统拓扑图上反查clientInstance和serverInstance对应的系统client和server,统计每一组client系统调用server系统的累计错误数;
告警展示模块用于基于系统拓扑图,在告警数据分析完成后将其展示在系统拓扑图上。
2.根据权利要求1所述的基于统计方法监控系统可用性的系统,其特征在于:报警阈值分析模块还用于设置告警阈值,在计算该系统的错误数告警线之后,如果alertNum<告警阈值则alertNum设置为告警阈值。
3.根据权利要求1所述的基于统计方法监控系统可用性的系统,其特征在于:所述去除异常点过程中条件如下:
n1=0或者(n-n2)>30或者(n-n2)>n/3。
4.根据权利要求1所述的基于统计方法监控系统可用性的系统,其特征在于:告警展示模块还用于:
1、当系统异常时,在系统图标上添加警告的标志:
2、当系统的服务、实例异常时,点击系统图标,弹层显示错误信息;
3、当系统间调用错误数不为0时,绘制连线和指向性箭头。
5.根据权利要求4所述的基于统计方法监控系统可用性的系统,其特征在于:所述连线的宽度与错误数相关。
6.基于统计方法监控系统可用性的方法,其特征在于,包括如下步骤:
步骤一,采集记录系统间所有调用的日志信息,调用时间、调用方IP和端口号、被调用方IP和端口号、调用的服务标识、成功与否;
步骤二,定期对历史数据进行学习,找出每一个系统一般情境下的表现,获得了当前系统的n份样本,每一个样本描述了单位时间t内错误数,并去除样本集中的异常点,去除异常点的过程包括:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2;
iii.如果满足条件,则完成异常点的去除,继续执行以下步骤;否则,执行步骤i;
计算该系统的错误数告警线alertNum=u+std*3;
步骤三,定时采集最近一个t时间段内的日志,逐次分析每个系统的错误数是否异常、每个系统的每个服务错误率是否异常、实例错误率是否异常、任意两个系统间的错误数情况,并遍历系统列表后具体进行如下判断:
a)如果该系统的累计错误数大于该系统的告警阈值,则标记该系统异常;
b)遍历该系统的每一个服务,应用异常判断方法,判定其错误率是否异常;
c)遍历该系统的每一个实例,应用异常判断方法,以判定其错误率是否异常;
所述异常判断方法包括:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<第一阈值,返回正常;否则下一步;
c)如果num>=第二阈值则下一步,否则当fNum=第一阈值时返回正常,否则返回异常;
d)如果fNum/num<第三阈值,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+第四阈值,否则k=fNum-第五阈值;
f)计算
如果z>第六阈值则返回异常,否则返回正常;
判断完成后整理数据,计算每一组clientInstance调用serverInstance的错误数;
从系统拓扑图上反查clientInstance和serverInstance对应的系统client和server,统计每一组client系统调用server系统的累计错误数;
步骤四,基于系统拓扑图,在告警数据分析完成后将其展示在系统拓扑图上。
7.根据权利要求6所述的基于统计方法监控系统可用性的方法,其特征在于,步骤一还包括:
设置告警阈值,在计算该系统的错误数告警线之后,如果alertNum<告警阈值则alertNum设置为告警阈值。
8.根据权利要求6所述的基于统计方法监控系统可用性的方法,其特征在于,步骤二去除异常点过程中条件如下:
n1=0或者(n-n2)>30或者(n-n2)>n/3。
9.根据权利要求6所述的基于统计方法监控系统可用性的方法,其特征在于,步骤四还包括如下步骤:
1、当系统异常时,在系统图标上添加警告的标志:
2、当系统的服务、实例异常时,点击系统图标,弹层显示错误信息;
3、当系统间调用错误数不为0时,绘制连线和指向性箭头。
10.根据权利要求9所述的基于统计方法监控系统可用性的方法,其特征在于:所述连线的宽度与错误数相关。
CN201810150782.5A 2018-02-13 2018-02-13 基于统计方法监控系统可用性的系统及方法 Active CN108599977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810150782.5A CN108599977B (zh) 2018-02-13 2018-02-13 基于统计方法监控系统可用性的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810150782.5A CN108599977B (zh) 2018-02-13 2018-02-13 基于统计方法监控系统可用性的系统及方法

Publications (2)

Publication Number Publication Date
CN108599977A true CN108599977A (zh) 2018-09-28
CN108599977B CN108599977B (zh) 2021-09-28

Family

ID=63608860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810150782.5A Active CN108599977B (zh) 2018-02-13 2018-02-13 基于统计方法监控系统可用性的系统及方法

Country Status (1)

Country Link
CN (1) CN108599977B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617740A (zh) * 2018-12-28 2019-04-12 广东亿迅科技有限公司 一种应用故障快速定位的方法及装置
CN110086682A (zh) * 2019-05-22 2019-08-02 四川新网银行股份有限公司 基于tcp的服务链路调用关系视图和故障根因定位方法
CN111510351A (zh) * 2020-04-10 2020-08-07 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控系统的异常检测方法和装置
CN113962273A (zh) * 2021-09-22 2022-01-21 北京必示科技有限公司 一种基于多指标的时间序列异常检测方法、系统及存储介质
CN114002233A (zh) * 2021-04-09 2022-02-01 住华科技股份有限公司 监控自动光学检测装置的方法及系统
CN114201201A (zh) * 2021-12-15 2022-03-18 建信金融科技有限责任公司 一种对业务系统异常检测方法、装置及设备
CN114500326A (zh) * 2022-02-25 2022-05-13 北京百度网讯科技有限公司 异常检测方法、装置、电子设备以及存储介质
CN115037636A (zh) * 2022-06-06 2022-09-09 阿里云计算有限公司 服务质量的感知方法、装置、电子设备和存储介质
CN115665232A (zh) * 2022-11-07 2023-01-31 首约科技(北京)有限公司 报警方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102299897A (zh) * 2010-06-23 2011-12-28 电子科技大学 基于特征关联的对等网络特征分析方法
CN102932466A (zh) * 2012-11-07 2013-02-13 网宿科技股份有限公司 基于内容分发网络的分布式源监控方法和系统
CN103514259A (zh) * 2013-08-13 2014-01-15 江苏华大天益电力科技有限公司 一种基于数值关联性模型的异常数据探测及修正方法
US20140115400A1 (en) * 2012-10-23 2014-04-24 Electronics And Telecommunications Research Institute Device and method for fault management of smart device
CN106407082A (zh) * 2016-09-30 2017-02-15 国家电网公司 一种信息系统告警方法和装置
CN107612756A (zh) * 2017-10-31 2018-01-19 广西宜州市联森网络科技有限公司 一种具有智能故障分析处理功能的运维管理系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102299897A (zh) * 2010-06-23 2011-12-28 电子科技大学 基于特征关联的对等网络特征分析方法
US20140115400A1 (en) * 2012-10-23 2014-04-24 Electronics And Telecommunications Research Institute Device and method for fault management of smart device
CN102932466A (zh) * 2012-11-07 2013-02-13 网宿科技股份有限公司 基于内容分发网络的分布式源监控方法和系统
CN103514259A (zh) * 2013-08-13 2014-01-15 江苏华大天益电力科技有限公司 一种基于数值关联性模型的异常数据探测及修正方法
CN106407082A (zh) * 2016-09-30 2017-02-15 国家电网公司 一种信息系统告警方法和装置
CN107612756A (zh) * 2017-10-31 2018-01-19 广西宜州市联森网络科技有限公司 一种具有智能故障分析处理功能的运维管理系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617740A (zh) * 2018-12-28 2019-04-12 广东亿迅科技有限公司 一种应用故障快速定位的方法及装置
CN110086682A (zh) * 2019-05-22 2019-08-02 四川新网银行股份有限公司 基于tcp的服务链路调用关系视图和故障根因定位方法
CN110086682B (zh) * 2019-05-22 2022-06-24 四川新网银行股份有限公司 基于tcp的服务链路调用关系视图和故障根因定位方法
CN111510351A (zh) * 2020-04-10 2020-08-07 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控系统的异常检测方法和装置
CN111510351B (zh) * 2020-04-10 2021-09-14 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控系统的异常检测方法和装置
CN114002233A (zh) * 2021-04-09 2022-02-01 住华科技股份有限公司 监控自动光学检测装置的方法及系统
CN113962273A (zh) * 2021-09-22 2022-01-21 北京必示科技有限公司 一种基于多指标的时间序列异常检测方法、系统及存储介质
CN114201201A (zh) * 2021-12-15 2022-03-18 建信金融科技有限责任公司 一种对业务系统异常检测方法、装置及设备
CN114500326A (zh) * 2022-02-25 2022-05-13 北京百度网讯科技有限公司 异常检测方法、装置、电子设备以及存储介质
CN114500326B (zh) * 2022-02-25 2023-08-11 北京百度网讯科技有限公司 异常检测方法、装置、电子设备以及存储介质
CN115037636A (zh) * 2022-06-06 2022-09-09 阿里云计算有限公司 服务质量的感知方法、装置、电子设备和存储介质
CN115665232A (zh) * 2022-11-07 2023-01-31 首约科技(北京)有限公司 报警方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108599977B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN108599977B (zh) 基于统计方法监控系统可用性的系统及方法
WO2020052147A1 (zh) 监测设备故障检测方法及装置
CN109034423B (zh) 一种故障预警判定的方法、装置、设备及存储介质
CN105095747A (zh) 一种Java应用健康度评估方法及系统
CN112699007B (zh) 监控机器性能的方法、系统、网络设备及存储介质
CN107302469B (zh) 分布式服务集群系统数据更新的监控装置及方法
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN112256548B (zh) 异常数据的监听方法、装置、服务器及存储介质
CN110662024A (zh) 基于多帧的视频质量诊断方法、装置及电子设备
CN115190039A (zh) 一种设备健康评测方法、系统、设备以及存储介质
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN102982037B (zh) 检测数据库节点健康状况的方法及装置
CN104579737A (zh) 一种分布式web系统的运行维护的方法及系统
CN106911519A (zh) 一种数据采集监控方法及装置
CN117950947A (zh) 一种基于互联网的计算机故障监测系统及方法
CN116541728A (zh) 一种基于密度聚类的故障诊断方法及装置
CN111240936A (zh) 一种数据完整性校验的方法及设备
CN113342596A (zh) 一种设备指标的分布式监控方法、系统及装置
CN120196510A (zh) 服务器监控方法和监控装置、存储介质、电子设备
CN115345190A (zh) 信号异常的检测方法、装置及服务器
CN111309537A (zh) 一种检测服务器诊断系统报错的方法和设备
CN119127559A (zh) 异常定位方法、装置、电子设备及存储介质
CN115314360B (zh) 消息队列服务性能监控系统及方法
CN114386630B (zh) 电力现货交易数据监控分析方法、装置、计算机设备
CN117743473B (zh) 一种数据管理同步性能监测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant