[go: up one dir, main page]

CN119806967B - 一种基于深度学习的设备监控方法及其系统 - Google Patents

一种基于深度学习的设备监控方法及其系统 Download PDF

Info

Publication number
CN119806967B
CN119806967B CN202510308616.3A CN202510308616A CN119806967B CN 119806967 B CN119806967 B CN 119806967B CN 202510308616 A CN202510308616 A CN 202510308616A CN 119806967 B CN119806967 B CN 119806967B
Authority
CN
China
Prior art keywords
electronic device
target electronic
real
data
operation data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202510308616.3A
Other languages
English (en)
Other versions
CN119806967A (zh
Inventor
康俊燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyulian Cloud Computing Service Shanghai Co ltd
Original Assignee
Zhongyulian Cloud Computing Service Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongyulian Cloud Computing Service Shanghai Co ltd filed Critical Zhongyulian Cloud Computing Service Shanghai Co ltd
Priority to CN202510308616.3A priority Critical patent/CN119806967B/zh
Publication of CN119806967A publication Critical patent/CN119806967A/zh
Application granted granted Critical
Publication of CN119806967B publication Critical patent/CN119806967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明属于计算机技术领域,提供了一种基于深度学习的设备监控方法及其系统。方法包括:监控端的Agent模块获取被监控的各电子设备的第一实时运行数据,将超出了对应的风险阈值的电子设备确定为目标电子设备;评估目标电子设备的重要等级,若重要等级高于等级阈值,则获取并根据与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据与对应的风险阈值评估得出关联异常指数,将目标电子设备的风险阈值调低为第二预设阈值;若目标电子设备的第一实时运行数据超出了第二预设阈值,则输出针对目标电子设备的异常报警信号。本发明考虑了电子设备之间的关联性以及周边环境因素,可提升故障预警的准确性和及时性。

Description

一种基于深度学习的设备监控方法及其系统
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于深度学习的设备监控方法及其系统。
背景技术
在当今的电子设备监控领域,随着电子设备数量的不断增加和应用场景的日益复杂,对电子设备运行状态的有效监控显得尤为重要。目前,监控端与多个电子设备建立通信连接,以此接收各个电子设备的实时运行数据,随后运用异常分析算法对这些数据展开分析判断。当实时运行数据超出预设阈值时,便判定设备存在异常,也就是可能出现了故障。
然而,现有技术存在明显的缺陷。当前设计的预设阈值通常是与各个电子设备一一对应的,这种方式仅仅依据单一电子设备自身的预设阈值来判断其是否存在故障;而且,为了避免误判,通常还会将预设阈值设计的略高一些,过高的预设阈值可能会导致电子设备不能被及时的进行故障报警及处置,不利于电子设备尤其是对于那些重要程度较高的电子设备的健康,导致系统的稳定性较差。
所以,如何提高对电子设备的预设阈值进行动态调整,进而实现对电子设备进行更有效的监控及故障预警处理,是目前亟需解决的技术问题。
发明内容
针对上述技术问题,本发明提供了一种基于深度学习的设备监控方法、系统、电子设备、计算机存储介质及计算机程序产品。
本发明公开了一种基于深度学习的设备监控方法,所述方法包括如下步骤:
监控端的Agent模块采用eBPF技术实时获取被监控的各电子设备的第一实时运行数据,将第一实时运行数据超出了对应的风险阈值的电子设备确定为目标电子设备;其中,所述风险阈值低于标准预设阈值;
评估目标电子设备的重要等级,若所述重要等级高于等级阈值,则获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据;
根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,根据所述关联异常指数将目标电子设备的标准预设阈值调节为临时标准预设阈值;
若目标电子设备的第一实时运行数据超出了临时标准预设阈值,则输出针对目标电子设备的异常报警信号。
可选地,所述评估目标电子设备的重要等级,包括:
获取目标电子设备自身的性能参数,根据所述性能参数评估得出第一重要分值、第二重要分值;其中,所述运行记录数据中包括可用于评估目标电子设备的运行可靠性的数据;
获取目标电子设备在所被部署的整个系统中所属于的功能环节信息,根据所述功能环节信息评估得出第三重要分值;
对所述第一重要分值、所述第二重要分值、所述第三重要分值进行加权融合获得第四重要分值,根据所述第四重要分值匹配得出所述重要等级。
可选地,所述获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据,包括:
根据目标电子设备的所述重要等级从预先设定的第一关联数据中匹配得出第一筛选距离;
获取目标电子设备的所有历史故障记录,将各所述历史故障记录依次分为内因故障类型和外因故障类型,统计得出外因故障类型的类型数量,根据所述类型数量从预先设定的第二关联数据中匹配得出增距权值系数;
使用所述增距权值系数将所述第一筛选距离调节为更大的第二筛选距离。
可选地,所述根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,包括:
计算各关联电子设备的各所述第二实时运行数据与对应的风险阈值的第一差值,并计算所有第一差值的归一化值的等效值;
若所述等效值高于预设值,则进一步计算目标电子设备的所述第一实时运行数据与对应的风险阈值的第二差值,根据所述第二差值的归一化值和所述等效值得出第一关联异常指数;
若所述等效值不高于预设值,则进一步获取各关联电子设备的近期的各历史运行数据,根据所述历史运行数据与同类的所述第二实时运行数据拟合得出运行趋势曲线,识别得出其中的异常趋势曲线段;
使用卷积网络对向量化的各所述异常趋势曲线段进行特征提取,得到任一关联电子设备的运行子特征,将各所述运行子特征拼接整合为运行特征,使用关联异常预测模型对所述运行特征和目标电子设备的所述第一实时运行数据及对应的风险阈值进行预测分析,得出第二关联异常指数。
可选地,Agent模块定期收集并更新目标电子设备的历史故障记录,使用所述历史故障记录构造训练数据集,使用所述训练数据集中的训练数据对所述关联异常预测模型进行本地训练;
以及,Agent模块还定期将所述关联异常预测模型发布至联盟链网络中进行分布式训练,并将分布式训练得出的模型的重要参数整合至本地训练后的所述关联异常预测模型中,再进行二次训练。
本发明还公开了一种基于深度学习的设备监控系统,所述系统包括处理装置、存储装置,所述存储装置中存储的计算机代码被所述处理装置调用并执行,以实现如下步骤:
监控端的Agent模块采用eBPF技术实时获取被监控的各电子设备的第一实时运行数据,将第一实时运行数据超出了对应的风险阈值的电子设备确定为目标电子设备;其中,所述风险阈值低于标准预设阈值;
评估目标电子设备的重要等级,若所述重要等级高于等级阈值,则获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据;
根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,根据所述关联异常指数将目标电子设备的标准预设阈值调节为临时标准预设阈值;
若目标电子设备的第一实时运行数据超出了临时标准预设阈值,则输出针对目标电子设备的异常报警信号。
本发明还公开了一种电子设备,包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现如前任一所述的方法。
本发明还公开了一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如前任一所述的方法。
本发明还公开了一种计算机程序产品,所述计算机程序产品中包含计算机代码,所述计算机代码被电子设备的处理器执行时,实现如前任一所述的方法。
本发明的有益效果至少在于:
相较于传统的单一固定阈值判断方式,本发明的上述方法能够更全面地考虑电子设备之间的关联性以及周边环境因素,大大提高了故障预警的准确性和及时性。对于重要电子设备,能够提前发现潜在故障风险,有效降低设备损坏的概率,提升了整个系统的稳定性和可靠性,减少了因设备故障导致的业务中断和经济损失,为电子设备的稳定运行提供了有力保障。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1是本发明实施例公开的一种基于深度学习的设备监控方法的流程示意图;
图2是本发明实施例公开的一种基于深度学习的设备监控系统的结构示意图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
针对上述技术问题,如图1所示,本发明实施例公开了一种基于深度学习的设备监控方法,所述方法包括如下步骤:
S101,监控端的Agent模块采用eBPF技术实时获取被监控的各电子设备的第一实时运行数据,将第一实时运行数据超出了对应的风险阈值的电子设备确定为目标电子设备;其中,所述风险阈值低于标准预设阈值。
监控端的Agent模块采用eBPF(extended Berkeley Packet Filter)技术实时获取被监控的各电子设备的第一实时运行数据。eBPF技术是一种高效的内核态可编程技术,它能够在不影响系统性能的前提下,深入操作系统内核,精准地捕获各类系统数据。例如在一个大型云计算数据中心,里面有成千上万台服务器,Agent模块利用eBPF技术可以实时获取每台服务器的CPU使用率、内存占用率、磁盘I/O速率等第一实时运行数据。另外,Agent模块还可支持OTLP(Open Telemetry Protocol)和Prometheus协议,以便能够在极低的系统开销下采集百万级别的时序数据。
如果某台电子设备的任一第一实时运行数据虽然没有超出标准预设阈值,但超出了对应的风险阈值,则认定该电子设备存在异常倾向,此时将其认定为目标电子设备。比如某台服务器的CPU使用率超过80%的阈值(但低于标准预设阈值90%),那么这台服务器就会被确定为目标电子设备。
S102,评估目标电子设备的重要等级,若所述重要等级高于等级阈值,则获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据。
重要等级的评估可以基于电子设备在整个系统中的功能、所承载业务的关键程度等因素确定。例如在金融交易系统中,负责核心交易处理的服务器,其重要等级就会远远高于负责日志记录的服务器。若所述重要等级高于等级阈值,就说明该目标电子设备非常关键,一旦出现故障会对整个系统造成严重影响。此时,为了更全面准确地判断目标电子设备的状态,需要获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据。比如在一个数据中心的同一机房内,若一台关键的数据库服务器被确定为目标电子设备,那么就需要获取同一机房内其他服务器、网络设备等关联电子设备的实时运行数据,如网络设备的流量数据、其他服务器的负载数据等。
S103,根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,根据所述关联异常指数将目标电子设备的标准预设阈值调节为临时标准预设阈值。
该步骤是通过对比关联电子设备的实时运行数据与它们各自的风险阈值(同样低于标准预设阈值),综合分析得出一个关联异常指数,用以衡量这些关联电子设备与目标电子设备的同步异常程度。例如,若同一机房内多台服务器的CPU使用率都接近或超过自身的风险阈值(但都低与标准预设阈值),网络设备的流量也远超正常水平;又或者,机房内出现了强电磁干扰,该机房内多台服务器出现数据传输速率明显下降的情况等。上述情况下,对应的关联异常指数就会较高。
如果上述关联异常指数很高,说明目标电子设备所处的环境存在较大风险,为了及时发现目标电子设备可能出现的故障,就需要对目标电子设备的标准预设阈值进行调节,比如原本目标电子设备的CPU使用率的标准预设阈值是90%,当关联异常指数显示周边设备也存在明显异常时,可设置将其阈值调低至80%;又或者,原本目标电子设备的数据传输速率的标准预设阈值(下限值)是50GT/s,当关联异常指数显示周边设备也存在明显异常时,可设置将其阈值调高至60GT/s。
S104,若目标电子设备的第一实时运行数据超出了临时标准预设阈值,则输出针对目标电子设备的异常报警信号。
经过前面的步骤,对目标电子设备的阈值进行了更合理的调整,此时一旦其第一实时运行数据(例如是超出对应风险阈值最大幅度的)超出(即高于或低于)调整后的临时标准预设阈值,就可以确定该目标电子设备存在异常,及时输出报警信号。例如,当目标电子设备的CPU使用率超过了调低后的80%阈值,或者数据传输速率低于了调高后的60GT/s阈值,监控系统就会立即发出报警,通知运维人员进行处理,避免故障进一步恶化。另外,在完成报警之后,将临时标准预设阈值恢复为标准预设阈值。
相较于传统的单一固定阈值判断方式,本发明的上述方法能够更全面地考虑电子设备之间的关联性以及周边环境因素,大大提高了故障预警的准确性和及时性。对于重要电子设备,能够提前发现潜在故障风险,有效降低设备损坏的概率,提升了整个系统的稳定性和可靠性,减少了因设备故障导致的业务中断和经济损失,为电子设备的稳定运行提供了有力保障。
可选地,所述评估目标电子设备的重要等级,包括:
获取目标电子设备自身的性能参数,根据所述性能参数评估得出第一重要分值、第二重要分值;其中,所述运行记录数据中包括可用于评估目标电子设备的运行可靠性的数据;
获取目标电子设备在所被部署的整个系统中所属于的功能环节信息,根据所述功能环节信息评估得出第三重要分值;
对所述第一重要分值、所述第二重要分值、所述第三重要分值进行加权融合获得第四重要分值,根据所述第四重要分值匹配得出所述重要等级。
在该实施例中,目标电子设备自身的性能参数是衡量其重要性的关键指标之一。例如在数据中心,服务器的CPU核心数、内存容量、硬盘读写速度等参数决定了它处理任务的能力。高性能的服务器能够快速响应大量业务请求,若其性能下降或出现故障,对整个系统的影响会很大。通过特定的评估算法(例如层次分析法AHP、多层感知器MLP等),将这些性能参数量化为第一重要分值,参数越优,分值越高。
为了控制成本,对于重要的关键部件,设计人员一般会选择基于更高的产品设计和生产标准生产出的设备,而对于那些不重要的非关键部件则会选择基于更低的产品设计和生产标准生产出的设备。所以,通过对目标电子设备的运行记录数据中的故障次数、平均无故障运行时间等进行统计分析,评估得出其故障率,根据故障率的高低判断其是属于关键设备还是非关键设备。如果统计发现某台设备故障率高,说明其大概率属于非关键设备,在整个生产系统中的重要性较低,进而设置其被评估出的第二重要分值为较低值;反之,如果某台电子设备的故障率很低,说明其很重要、大概率属于关键设备,进而设置其被评估出的第二重要分值为较高值。
目标电子设备在所被部署的整个系统中所属于的功能环节信息,对于判断其重要等级也十分关键。例如在一个电商平台系统中,负责订单处理的服务器处于核心功能环节,直接关系到交易的完成,其重要性较高;而负责用户评论展示的服务器,虽然也有一定作用,但相对订单处理环节来说,重要性较低。通过分析功能环节在整个系统中的关键程度,评估得出第三重要分值,功能越关键,分值越高。
将上述得到的第一重要分值、第二重要分值、第三重要分值进行加权融合。不同的分值权重可以根据实际情况和经验来设定,比如如果系统更注重设备的性能,那么第一重要分值的权重可以设置得高一些;如果更看重设备的运行可靠性,第二重要分值的权重就可以加大。通过加权计算得到第四重要分值,这个分值综合反映了设备多方面的重要因素。
最后,根据预先设定好的分值与重要等级的匹配规则,例如将重要分值划分为不同区间,每个区间对应不同的重要等级(高、中、低等),从而匹配得出目标电子设备的重要等级。
可选地,所述获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据,包括:
根据目标电子设备的所述重要等级从预先设定的第一关联数据中匹配得出第一筛选距离;
获取目标电子设备的所有历史故障记录,将各所述历史故障记录依次分为内因故障类型和外因故障类型,统计得出外因故障类型的类型数量,根据所述类型数量从预先设定的第二关联数据中匹配得出增距权值系数;
使用所述增距权值系数将所述第一筛选距离调节为更大的第二筛选距离。
在该实施例中,目标电子设备的异常情况可能是外因(例如电磁干扰)导致,而外因通常会对区域内的其它电子设备也一同产生影响,此时可通过参考处于同一地理区域(例如同一服务器机房)的其它电子设备是否也普遍出现异常,来对目标电子设备是否存在外因异常进行辅助分析。而对于地理区域的范围大小,可通过下述方式确定:
预先设定用于表征设备重要等级与筛选距离对应关系的第一关联数据,进而根据评估得出的目标电子设备的重要等级从该第一关联数据中得出匹配的第一筛选距离。例如,对于重要等级高的目标电子设备,在第一关联数据中会匹配到一个较大的第一筛选距离。例如,在一个大型数据中心,核心服务器的重要等级高,其第一筛选距离可能设定为以该服务器为中心,半径20米范围内的关联电子设备;而对于重要等级较低的非核心服务器,筛选距离可以为半径10米。
同时,不同的目标电子设备对于抵抗外因影响的能力不同,通过分析目标电子设备的所有历史故障记录中外因类型的故障的数量,可以用于间接分析其该能力。具体地:
获取目标电子设备的所有历史故障记录,并将其分为内因故障类型和外因故障类型。内因故障通常是设备过载、软件错误等内部因素导致的故障;外因故障则是如电磁干扰、供电异常、物理振动等外部因素引起的。
统计外因故障类型的数量,该数量反映了目标电子设备易受外部环境影响的程度。与第一关联数据类似,预先设定的第二关联数据用于表征外因故障类型数量与增距权值系数对应关系。如果外因故障类型数量多,说明目标电子设备抵抗外界影响的能力越小,即多种外因都容易导致该目标电子设备故障,从第二关联数据中匹配出的增距权值系数就大;反之则小。例如,若目标电子设备历史上因电磁干扰、电压波动等10种外因而发生故障,匹配出的增距权值系数为1.5;若外因故障类型为5种,设置增距权值系数为1.1。
接着,使用得出的增距权值系数将第一筛选距离调节为更大的第二筛选距离。如此,便可以基于目标电子设备自身受外因影响的难以程度来决策对前述得出的第一筛选距离进行何种程度的调高。当目标电子设备更容易受多种外部环境影响时,仅依据第一筛选距离获取关联电子设备数据可能不够全面(例如第一筛选距离内的某些电子设备并不会受电磁干扰的影响,此时这些电子设备不能用于辅助分析目标电子设备是否在受电磁干扰的影响),需要扩大范围以获取更多可能受相同外部因素影响的关联电子设备的实时运行数据,从而提升对目标电子设备的异常分析的准确性、及时性。
需要说明的是,历史故障记录指的是管理人员对于出现故障的电子设备进行手动分析后得出的故障原因记录数据,或者是管理系统根据监测到的故障数据自动分析得出并记录的故障原因记录数据。
可选地,所述根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,包括:
计算各关联电子设备的各所述第二实时运行数据与对应的风险阈值的第一差值,并计算所有第一差值的归一化值的等效值;
若所述等效值高于预设值,则进一步计算目标电子设备的所述第一实时运行数据与对应的风险阈值的第二差值,根据所述第二差值的归一化值和所述等效值得出第一关联异常指数;
若所述等效值不高于预设值,则进一步获取各关联电子设备的近期的各历史运行数据,根据所述历史运行数据与同类的所述第二实时运行数据拟合得出运行趋势曲线,识别得出其中的异常趋势曲线段;
使用卷积网络对向量化的各所述异常趋势曲线段进行特征提取,得到任一关联电子设备的运行子特征,将各所述运行子特征拼接整合为运行特征,使用关联异常预测模型对所述运行特征和目标电子设备的所述第一实时运行数据及对应的风险阈值进行预测分析,得出第二关联异常指数。
在该实施例中,获取每一个关联电子设备的多条第二实时运行数据(每条第二实时运行数据对应该关联电子设备的不同部件或模块,或者相同部件或模块的不同运行参数),计算每条第二实时运行数据与对应的风险阈值之间的第一差值(风险阈值-第二实时运行数据)。例如,关联电子设备的CPU使用率这一第二实时运行数据为65%,而其对应的风险阈值是70%,那么第一差值就是70%-65%=5%。计算出各个关联电子设备的多个第一差值后,再计算这些第一差值的归一化值(去除不同运行参数的量纲的影响)的等效值。等效值可以是各第一差值的归一化值中的中位值或最大值等,具体不作限定。
当计算得到的等效值高于预设值时,说明有关联电子设备出现了明显偏离正常范围的趋势,侧面反映关联电子设备与目标电子设备大概率一同出现了异常情况。此时,关联电子设备的上述等效值就可以直接用于计算目标电子设备的关联异常指数:首先计算目标电子设备的第一实时运行数据(例如是超出对应风险阈值最大幅度的)与对应的风险阈值的第二差值(第一实时运行数据-风险阈值);然后,根据这个第二差值的归一化值和之前计算得到的等效值计算(例如计算二者的差值)得出第一关联异常指数。第一关联异常指数与二者的差值符合负相关关系。
若等效值不高于预设值,说明关联电子设备当前运行数据与预设阈值的偏离程度在可接受范围内,没有明显异常但仍可能存在潜在异常。此时,获取各关联电子设备近期(例如20s内)的各历史运行数据,将这些历史运行数据与同类的(例如同是数据传输速率)第二实时运行数据进行拟合,生成运行趋势曲线。通过数据分析方法识别出其中的异常趋势曲线段,比如数据传输速率的曲线中突然出现急剧下降的部分。
将识别出的异常趋势曲线段进行向量化处理,使其能够被卷积网络处理。卷积网络具有强大的特征提取能力,通过对向量化的异常趋势曲线段进行卷积运算、池化等操作,提取出任一关联电子设备的运行子特征。例如,提取出曲线变化的频率、幅度等特征。然后将各运行子特征拼接整合为运行特征,这个运行特征综合反映了所有关联电子设备的异常情况。最后,使用预先训练好的关联异常预测模型对运行特征、连同目标电子设备的第一实时运行数据及对应的风险阈值进行预测分析,得出第二关联异常指数。其中,可以得出多条对应于不同运行参数的异常趋势曲线段,将这些异常趋势曲线段对应的被预测分析出的关联异常指数中的最大值作为第二关联异常指数。
其中,关联异常预测模型可以是基于机器学习算法(如支持向量机、随机森林等)或深度学习算法(如循环神经网络等)构建的,通过对大量历史数据的学习,能够根据输入的运行特征、目标电子设备的第一实时运行数据及对应的风险阈值预测出当前关联电子设备的异常程度。但是,关联异常预测模型还可通过对通用大模型(例如DeepSeek、GPT-4)进行本地的微调训练得出,具体不作限定。
可选地,Agent模块定期收集并更新目标电子设备的历史故障记录,使用所述历史故障记录构造训练数据集,使用所述训练数据集中的训练数据对所述关联异常预测模型进行本地训练;
以及,Agent模块还定期将所述关联异常预测模型发布至联盟链网络中进行分布式训练,并将分布式训练得出的模型的重要参数整合至本地训练后的所述关联异常预测模型中,再进行二次训练。
在该实施例中,Agent模块在运行过程中,还承担着定期收集并更新目标电子设备历史故障记录的关键任务。这些历史故障记录包含了设备在过去运行中出现的各类故障信息,如故障发生的时间、故障类型、故障时设备的运行参数等。通过对这些丰富且详细的数据进行整理和筛选,Agent模块能够构造出用于模型训练的训练数据集。例如,将相同故障类型的数据归为一类,同时提取出与故障相关的关键运行参数作为特征,这样就形成了具有明确特征和标签的训练数据。
利用构造好的训练数据集,Agent模块先使用训练数据对关联异常预测模型进行本地训练。通过反复迭代训练,模型逐渐优化,能够更准确地根据输入的设备运行数据预测是否存在关联异常。
Agent模块还具备将关联异常预测模型发布至联盟链网络中进行分布式训练的能力。联盟链网络由多个节点组成,每个节点都可以利用自身的计算资源和数据对模型进行训练。这种分布式训练方式能够充分利用各方的资源和数据,增加训练数据的多样性和规模,从而提升模型的泛化能力。在分布式训练完成后,Agent模块会将各个节点训练得出的模型的重要参数(根据模型的类型的不同而不同,例如CNN模型的学习率、卷积核数量等)整合至本地训练后的关联异常预测模型中。例如,将不同节点训练得到的模型中关于特定故障类型的预测参数进行加权平均,然后更新到本地模型中。
完成参数整合后,Agent模块会对模型进行二次训练,以对新整合的参数进行微调,使其与本地已有的参数更好地协同工作,从而在面对复杂多变的设备运行情况时,能够更准确地预测关联异常。
如图2所示本发明实施例还公开了一种基于深度学习的设备监控系统,所述系统包括处理装置、存储装置,所述存储装置中存储的计算机代码被所述处理装置调用并执行,以实现如下步骤:
监控端的Agent模块采用eBPF技术实时获取被监控的各电子设备的第一实时运行数据,将第一实时运行数据超出了对应的风险阈值的电子设备确定为目标电子设备;其中,所述风险阈值低于标准预设阈值;
评估目标电子设备的重要等级,若所述重要等级高于等级阈值,则获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据;
根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,根据所述关联异常指数将目标电子设备的标准预设阈值调节为临时标准预设阈值;
若目标电子设备的第一实时运行数据超出了临时标准预设阈值,则输出针对目标电子设备的异常报警信号。
本发明实施例还公开了一种电子设备,包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现如前述实施例所述的方法。
本发明实施例还公开了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如前述实施例所述的方法。
本发明实施例还公开了一种计算机程序产品,所述计算机程序产品中包含计算机代码,所述计算机代码被电子设备的处理器执行时,实现如前述实施例所述的方法。
上述的计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (9)

1.一种基于深度学习的设备监控方法,其特征在于:所述方法包括如下步骤:
监控端的Agent模块采用eBPF技术实时获取被监控的各电子设备的第一实时运行数据,将第一实时运行数据超出了对应的风险阈值的电子设备确定为目标电子设备;其中,所述风险阈值低于标准预设阈值;
评估目标电子设备的重要等级,若所述重要等级高于等级阈值,则获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据;
根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,根据所述关联异常指数将目标电子设备的标准预设阈值调节为临时标准预设阈值;所述关联异常指数用以衡量各关联电子设备与目标电子设备的同步异常程度;
若目标电子设备的第一实时运行数据超出了临时标准预设阈值,则输出针对目标电子设备的异常报警信号;
所述根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,包括:
计算各关联电子设备的各所述第二实时运行数据与对应的风险阈值的第一差值,并计算所有第一差值的归一化值的等效值;
若所述等效值高于预设值,则进一步计算目标电子设备的所述第一实时运行数据与对应的风险阈值的第二差值,根据所述第二差值的归一化值和所述等效值得出第一关联异常指数;
若所述等效值不高于预设值,则进一步获取各关联电子设备的近期的各历史运行数据,根据所述历史运行数据与同类的所述第二实时运行数据拟合得出运行趋势曲线,识别得出其中的异常趋势曲线段;
使用卷积网络对向量化的各所述异常趋势曲线段进行特征提取,得到任一关联电子设备的运行子特征,将各所述运行子特征拼接整合为运行特征,使用关联异常预测模型对所述运行特征和目标电子设备的所述第一实时运行数据及对应的风险阈值进行预测分析,得出第二关联异常指数。
2.根据权利要求1所述的一种基于深度学习的设备监控方法,其特征在于:所述评估目标电子设备的重要等级,包括:
获取目标电子设备自身的性能参数,根据所述性能参数量化得到第一重要分值;获取目标电子设备的运行记录数据,基于所述运行记录数据评估得出第二重要分值;其中,所述运行记录数据中包括可用于评估目标电子设备的运行可靠性的数据;
获取目标电子设备在所被部署的整个系统中所属于的功能环节信息,根据所述功能环节信息在整个系统中的关键程度评估得出第三重要分值;
对所述第一重要分值、所述第二重要分值、所述第三重要分值进行加权融合获得第四重要分值,根据所述第四重要分值匹配得出所述重要等级。
3.根据权利要求2所述的一种基于深度学习的设备监控方法,其特征在于:所述获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据,包括:
根据目标电子设备的所述重要等级从预先设定的第一关联数据中匹配得出第一筛选距离;
获取目标电子设备的所有历史故障记录,将各所述历史故障记录依次分为内因故障类型和外因故障类型,统计得出外因故障类型的类型数量,根据所述类型数量从预先设定的第二关联数据中匹配得出增距权值系数;
使用所述增距权值系数将所述第一筛选距离调节为更大的第二筛选距离。
4.根据权利要求1所述的一种基于深度学习的设备监控方法,其特征在于:Agent模块定期收集并更新目标电子设备的历史故障记录,使用所述历史故障记录构造训练数据集,使用所述训练数据集中的训练数据对所述关联异常预测模型进行本地训练;
以及,Agent模块还定期将所述关联异常预测模型发布至联盟链网络中进行分布式训练,并将分布式训练得出的模型的重要参数整合至本地训练后的所述关联异常预测模型中,再进行二次训练。
5.一种基于深度学习的设备监控系统,所述系统包括处理装置、存储装置,其特征在于:所述存储装置中存储的计算机代码被所述处理装置调用并执行,以实现如下步骤:
监控端的Agent模块采用eBPF技术实时获取被监控的各电子设备的第一实时运行数据,将第一实时运行数据超出了对应的风险阈值的电子设备确定为目标电子设备;其中,所述风险阈值低于标准预设阈值;
评估目标电子设备的重要等级,若所述重要等级高于等级阈值,则获取与目标电子设备处于同一地理区域的各关联电子设备的第二实时运行数据;
根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,根据所述关联异常指数将目标电子设备的标准预设阈值调节为临时标准预设阈值;所述关联异常指数用以衡量各关联电子设备与目标电子设备的同步异常程度;
若目标电子设备的第一实时运行数据超出了临时标准预设阈值,则输出针对目标电子设备的异常报警信号;
所述根据各所述第二实时运行数据与对应的风险阈值评估得出关联异常指数,包括:
计算各关联电子设备的各所述第二实时运行数据与对应的风险阈值的第一差值,并计算所有第一差值的归一化值的等效值;
若所述等效值高于预设值,则进一步计算目标电子设备的所述第一实时运行数据与对应的风险阈值的第二差值,根据所述第二差值的归一化值和所述等效值得出第一关联异常指数;
若所述等效值不高于预设值,则进一步获取各关联电子设备的近期的各历史运行数据,根据所述历史运行数据与同类的所述第二实时运行数据拟合得出运行趋势曲线,识别得出其中的异常趋势曲线段;
使用卷积网络对向量化的各所述异常趋势曲线段进行特征提取,得到任一关联电子设备的运行子特征,将各所述运行子特征拼接整合为运行特征,使用关联异常预测模型对所述运行特征和目标电子设备的所述第一实时运行数据及对应的风险阈值进行预测分析,得出第二关联异常指数。
6.根据权利要求5所述的一种基于深度学习的设备监控系统,其特征在于:所述评估目标电子设备的重要等级,包括:
获取目标电子设备自身的性能参数,根据所述性能参数量化得到第一重要分值;获取目标电子设备的运行记录数据,基于所述运行记录数据评估得出第二重要分值;其中,所述运行记录数据中包括可用于评估目标电子设备的运行可靠性的数据;
获取目标电子设备在所被部署的整个系统中所属于的功能环节信息,根据所述功能环节信息评估得出第三重要分值;
对所述第一重要分值、所述第二重要分值、所述第三重要分值进行加权融合获得第四重要分值,根据所述第四重要分值匹配得出所述重要等级。
7.一种电子设备,包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序以实现如权利要求1-4任一所述的方法。
8.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行以实现如权利要求1-4任一所述的方法。
9.一种计算机程序产品,其特征在于:所述计算机程序产品中包含计算机代码,所述计算机代码被电子设备的处理器执行时,实现如权利要求1-4任一所述的方法。
CN202510308616.3A 2025-03-17 2025-03-17 一种基于深度学习的设备监控方法及其系统 Active CN119806967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202510308616.3A CN119806967B (zh) 2025-03-17 2025-03-17 一种基于深度学习的设备监控方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202510308616.3A CN119806967B (zh) 2025-03-17 2025-03-17 一种基于深度学习的设备监控方法及其系统

Publications (2)

Publication Number Publication Date
CN119806967A CN119806967A (zh) 2025-04-11
CN119806967B true CN119806967B (zh) 2025-05-30

Family

ID=95273323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202510308616.3A Active CN119806967B (zh) 2025-03-17 2025-03-17 一种基于深度学习的设备监控方法及其系统

Country Status (1)

Country Link
CN (1) CN119806967B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120067868B (zh) * 2025-04-25 2025-08-22 华芯(嘉兴)智能装备有限公司 天车故障预测方法、装置、存储介质和电子设备
CN120406270B (zh) * 2025-07-01 2025-09-19 山西万家寨水控水利机电科技服务有限公司 一种基于运行状态智能检测的水利工程机电设备控制系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766247A (zh) * 2018-12-19 2019-05-17 平安科技(深圳)有限公司 基于系统数据监控的报警设置方法及系统
KR102698085B1 (ko) * 2023-07-17 2024-08-23 오케스트로 주식회사 딥 러닝 기반의 설명 가능한 클라우드 이상탐지 장치 및 이상탐지 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE513188C2 (sv) * 1998-03-25 2000-07-24 Ericsson Telefon Ab L M Kvotalgoritm för övervakning av störningsprocesser
US9218232B2 (en) * 2011-04-13 2015-12-22 Bar-Ilan University Anomaly detection methods, devices and systems
WO2020023015A1 (en) * 2018-07-23 2020-01-30 Hewlett-Packard Development Company, L.P. Adjusting an alert threshold
CN118504991B (zh) * 2024-07-18 2025-01-21 国网浙江省电力有限公司杭州供电公司 一种电力保障区域的停电处理方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766247A (zh) * 2018-12-19 2019-05-17 平安科技(深圳)有限公司 基于系统数据监控的报警设置方法及系统
KR102698085B1 (ko) * 2023-07-17 2024-08-23 오케스트로 주식회사 딥 러닝 기반의 설명 가능한 클라우드 이상탐지 장치 및 이상탐지 방법

Also Published As

Publication number Publication date
CN119806967A (zh) 2025-04-11

Similar Documents

Publication Publication Date Title
CN119806967B (zh) 一种基于深度学习的设备监控方法及其系统
CN118101421B (zh) 一种基于机器学习的智能告警阈值自适应方法
US20240036963A1 (en) Multi-contextual anomaly detection
CN118761745B (zh) 应用于企业oa协同工作流程优化方法
CN111309565B (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
CN118784379A (zh) 动态安全基线建模方法
CN120181315A (zh) 一种基于大数据的互联网设备故障预测方法
CN115086139A (zh) 通信网络告警故障处理优先级调整方法及装置
CN119624661B (zh) 一种基于大数据技术的金融风险预警方法及系统
CN111756560A (zh) 一种数据处理方法、装置及存储介质
CN120856621A (zh) 一种通信网业务健康度分析方法、系统、设备及介质
CN114116389A (zh) 一种针对业务访问量的监控方法及相关设备
CN113407428A (zh) 人工智能系统的可靠性评估方法、装置和计算机设备
CN120508428A (zh) 一种数据中心智能运维与故障预测系统及方法
CN120378281A (zh) 异常检测方法及装置、非易失性存储介质、电子设备
CN120358147A (zh) 监控指标依赖关系分析与拓扑建立方法、装置及计算机设备
CN118822491B (zh) 一种基于大数据分析的运维故障提前推送方法
CN114338348A (zh) 一种智能告警方法、装置、设备及可读存储介质
CN119743299A (zh) 一种基于区块链的网络传输环境安全监管系统
CN119383169A (zh) 一种区域性服务中断的ip恢复方法、系统、设备及介质
CN116720084A (zh) 数据识别方法、装置、电子设备及计算机可读存储介质
CN115936493A (zh) 模型评估方法、装置、计算机可读存储介质及电子设备
CN111934895B (zh) 网络管理系统的智能预警方法、装置、计算设备
JP2022037107A (ja) 障害分析装置、障害分析方法および障害分析プログラム
CN111737093A (zh) 一种ambari服务状态的预警方法、系统、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant