[go: up one dir, main page]

CN117135099A - 一种网络设备状态巡检的方法和系统 - Google Patents

一种网络设备状态巡检的方法和系统 Download PDF

Info

Publication number
CN117135099A
CN117135099A CN202311271894.3A CN202311271894A CN117135099A CN 117135099 A CN117135099 A CN 117135099A CN 202311271894 A CN202311271894 A CN 202311271894A CN 117135099 A CN117135099 A CN 117135099A
Authority
CN
China
Prior art keywords
inspection
comparison
file
module
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311271894.3A
Other languages
English (en)
Inventor
金翔
李平青
石珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Financial Futures Information Technology Co ltd
Original Assignee
Shanghai Financial Futures Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Financial Futures Information Technology Co ltd filed Critical Shanghai Financial Futures Information Technology Co ltd
Priority to CN202311271894.3A priority Critical patent/CN117135099A/zh
Publication of CN117135099A publication Critical patent/CN117135099A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络设备状态巡检的方法和系统,在面对大规模网络设备和巡检命令时能批量执行采集和比对,发现网络设备的状态异常和风险,以期能够提高网络设备的日常维护和故障处置的能力,提高工作效率,降低安全风险。其技术方案为:系统包括配置管理模块、巡检订阅模块、命令解析模块、稽核比对模块、基准维护模块、通知告警模块、分布式采集器以及数据库、文件库,有巡检配置化、解析模板化、稽核多样化、基准动态化的四个特点。

Description

一种网络设备状态巡检的方法和系统
技术领域
本发明涉及网络运维技术,具体涉及一种网络设备状态巡检的方法和系统。
背景技术
目前,网络已成为企业内部最重要的基础设施支撑之一,且伴随着企业的业务发展,网络基础设施的规模也日益扩张,一个企业甚至会面临一个甚至多个数据中心的运维压力。
对于网络运维工程师而言,需要及时掌握网络设备的运行状态、配置情况等,试图发现设备和系统的故障和潜在风险隐患,如果单纯依靠网络设备的事件告警则相对被动,因此还需要主动地对网络设备进行定期或不定期的状态巡检。
传统模式下,网络工程师对于传统网络设备的管理主要是以SSH协议登录命令行管理界面,输入特定的命令以完成相应的操作。网络设备的命令行输出,主要是以文本的形式呈现。在巡检时工程师往往需要将命令行输出保存至文件,通过肉眼观察、文件比对等方式人工判断,极为耗时耗力。当设备数量达到一定规模时,人工巡检的方式效率急剧下降,且极易发生遗漏从而影响生产安全。
另一方面,当线上发现网络故障事件,有些时候不一定能够快速同时又准确地判断出故障的位置和原因,需要网络工程师逐一登录可疑的设备硬件,输入命令进行查看、分析和排查,很有可能会大大延长事件处置和故障恢复的时间,耽误业务抢修和恢复运行,为企业带来不必要的损失。
因此,当传统网络硬件设备数量规模较大时,通过人工命令巡检的方式已不适用,需要一种能够提高效率、保障安全的网络设备巡检方式。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供一种网络设备状态巡检的方法和系统,在面对大规模网络设备和巡检命令时能批量执行采集和比对,发现网络设备的状态异常和风险,以期能够提高网络设备的日常维护和故障处置的能力,提高工作效率,降低安全风险。
本发明的技术方案为:本发明揭示了一种网络设备状态巡检的系统,系统包括配置管理模块、巡检订阅模块、命令解析模块、稽核比对模块、基准维护模块、通知告警模块、分布式采集器以及数据库、文件库,其中:
配置管理模块,用于维护包括设备登录信息、设备品牌型号信息、设备的特定品牌型号所涉及的巡检命令集、每台设备每条命令所对应的巡检配置的在内的信息,相关配置信息维护在数据库中;
命令解析模块,用于维护一系列解析脚本,根据品牌、命令的不同进行区分,根据网络设备命令执行后的文本输出,从中解析提取关键信息,形成特定的数据格式,以便于在巡检的稽核比对中进行精细化的比较;
巡检订阅模块,用于供用户创建巡检任务;
稽核比对模块,用于根据不同的比较类型,根据品牌和命令的不同对采集的结果进行相应方式的比对,发现其中存在的异常;
基准维护模块,用于根据比较类型的需要,维护稽核比对时所需的基准文件;
通知告警模块,用于将稽核比对中发现的异常问题通知给用户;
分布式采集器,用于在各个相互隔离的数据中心、网络区域内独立执行采集任务,登录网络设备并创建连接,将收到的网络命令下发至网络设备,并将输出结果以文件的形式保存;
数据库,用于存储配置管理模块所维护的配置信息;
文件库,用于存储采集的结果文件、稽核比较所需的基准文件。
根据本发明的网络设备状态巡检的系统的一实施例,配置管理模块、巡检订阅模块、命令解析模块、稽核比对模块、基准维护模块、通知告警模块都配置于网络管理系统中,网络管理系统一方面与分布式采集器建立数据连接,一方面与数据库和文件库建立数据连接。
根据本发明的网络设备状态巡检的系统的一实施例,巡检订阅模块所创建的任务是定时任务,或者是根据包括网络区域、设备列表、巡检命令列表在内的信息确定实时巡检的范围,并以此创建任务。
本发明还揭示了一种网络设备状态巡检的方法,在如上所述的网络设备状态巡检的系统上实施,方法包括:
步骤S1:用户提供并维护网络设备采集所需的信息和巡检的配置,存储在数据库中;
步骤S2:用户针对需要巡检的每种品牌、每条命令,设置独立的解析脚本,该脚本用于对采集结果和基准文件同时进行解析,从中提取关键信息,形成固定的数据格式;
步骤S3:用户订阅巡检任务;
步骤S4:巡检任务形成后,自动创建对应的采集任务,网络管理系统根据巡检范围中涉及设备的数据中心、网络区域,将对应设备的巡检采集任务指派给独立部署于各数据中心或网络管理区域内的分布式采集器,由采集器执行;
步骤S5:采集器根据采集任务的内容,执行命令的下发,将依次将命令执行的结果保存至文件中,存储于采集文件库;
步骤S6:根据巡检任务的范围,解析模块根据巡检配置中的解析脚本路径,按需对同一设备同一命令的采集结果文件和基准文件进行解析,转化成相同的格式;
步骤S7:对于所采集到的命令输出结果,稽核比对模块根据巡检配置中的比较类型设置,以指定的方式对当前所采集的结果进行稽核比对;
步骤S8:对于在稽核比对过程中发现存在差异或异常的值和内容,重新组织成适合用户阅读的语言,发出通知告警,最终由工程师确认;
步骤S9:对于巡检的比较类型中涉及基准文件的,若稽核比较后判定无异常或经人工确认后无影响的,对应的采集结果文件更新至基准库中作为下一次巡检的基准文件,形成闭环。
根据本发明的网络设备状态巡检的方法的一实施例,在步骤S1中,存储到数据库中的信息和配置的内容包括:
(1)设备登录信息、设备品牌型号信息、设备的特定品牌型号所涉及的巡检命令集;
(2)每台设备的每条命令所对应的巡检配置信息;
(3)每台设备每条命令所对应的巡检配置信息包括巡检比较类型、对比项、解析脚本、阈值在内的信息。
根据本发明的网络设备状态巡检的方法的一实施例,对于第(3)项的巡检配置信息,从巡检配置信息中归纳巡检比较类型,包括:基准型、存在型、阈值型、差值阈值型、内置阈值型、行比较型。
根据本发明的网络设备状态巡检的方法的一实施例,在步骤S3中,用户设置定时任务,在空闲时间段自动发起全量的巡检任务,或从所预先配置的设备列表和命令列表中选择巡检的范围,实时发起巡检任务。
根据本发明的网络设备状态巡检的方法的一实施例,步骤S5进一步包括:
步骤S5-1:采集器根据用户所配置的登录信息,以SSH协议登录至设备,创建网络设备连接;
步骤S5-2:采集器通过网络设备的连接,将每条巡检命令依次发送至网络设备进行执行,并将完整的输出结果保存至文本文件中;
步骤S5-3:采集器将所有的采集结果文件上传至采集文件库进行存储。
根据本发明的网络设备状态巡检的方法的一实施例,步骤S7中的稽核比对进一步包括:
对于比较类型为基准型的巡检任务,先从基准文件库中获取该设备该命令的基准文件,并与采集结果文件一同进行解析,得到相同的数据格式,交由稽核比对模块进行比较,当存在字段的值不一致时则认为发现异常,生成告警信息;
对于比较类型为存在型的巡检任务,解析采集文件,得到所关注记录的列表,从巡检的配置文件中获取预先配置的存在项列表,比较关键数据项是否存在,如有遗失则生成告警信息;
对于比较类型为阈值型的巡检任务,解析采集文件,得到字段的数据值,并从巡检配置文件中获取用户的阈值设定,二者进行比较,判断当前数值是否超出阈值,当数值存在异常时生成告警信息;
对于比较类型为差值阈值型的巡检任务,先从基准文件库中获取该设备该命令的基准文件,并与采集结果文件一同进行解析,得到相同的数据格式,并求得二者的差值,并且从巡检配置文件中获取用户所设定的该差值的阈值,判断该差值是否超出阈值,当差值超出阈值时,生成告警信息;
对于比较类型为内置阈值型的巡检任务,解析采集文件,得到字段的数据值,以及厂商对于该字段所建议的阈值,根据阈值判断该数据值的指标是否正常,如有异常则生成告警信息;
对于比较类型为行比较型的巡检任务,从基准库中获取基准文件,并与采集文件进行基于文本的逐行比较,判断文本直接的差异,并生成告警信息。
根据本发明的网络设备状态巡检的方法的一实施例,在步骤S9中,当某一设备的某条命令在第一次巡检时,其基准文件在基准库中尚未存在,此时稽核比对操作无法继续,需要用户确认并维护基准,其中可行的基准更新方案包括:以本次巡检采集的结果作为基准、以选定的某次历史采集任务的结果作为基准。
本发明对比现有技术有如下的有益效果:本发明的方案在实施中,有巡检配置化、解析模板化、稽核多样化、基准动态化的四个特点。
对巡检配置化来说,本发明按照“品牌+命令”的维度,逐一设置巡检配置,其技术效果如下:
(1)同一品牌的多台设备,巡检时可复用相同的配置;
(2)设置了多种巡检“比较类型”,满足日常巡检的场景需要;
(3)配置中包含多项参量,以满足各种“比较方式”下的定制化需求;
(4)用户订阅巡检任务时只需将待巡检的设备名与已预设的巡检配置模板关联即可。
对解析模板化来说,本发明按照“品牌+命令”的维度,逐一设置解析脚本,形成通用模板,其技术效果:
(1)同一品牌的多台设备,其命令输出可复用同一解析脚本;
(2)同一命令的采集结果文件和基准文件,可复用同一解析脚本。
对稽核多样化来说,本发明设置多样化的巡检“比较类型”,以不同的配置和流程进行处理,其技术效果:
(1)梳理归纳巡检场景和比对模式,分析其特征,固化成6套稽核比较流程;
(2)稽核模块按照“比较类型”的设置,与解析产生的数据格式无缝对接。
对基准动态化来说,本发明设计了由用户动态维护的基准库,其技术效果:
(1)基准的设置需由用户确认,确保基准内容的可靠性;
(2)基准的更新来源于采集结果,保证解析输入的一致性;
(3)保持以设备最准确最稳定的状态作为基准状态,增强基准的准确性。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的网络设备状态巡检的系统的一实施例的结构示意图。
图2示出了图1所示的网络设备状态巡检的系统实施例的各个模块的关系示意图。
图3示出了本发明的网络设备状态巡检的方法的一实施例的流程图。
图4示出了图3所示的网络设备状态巡检的方法实施例的稽核比对的核心逻辑的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1示出了本发明的网络设备状态巡检的系统的一实施例的结构。请参见图1,本实施例的系统包括:配置管理模块、巡检订阅模块、命令解析模块、稽核比对模块、基准维护模块、通知告警模块、分布式采集器以及数据库、文件库。
配置管理模块、巡检订阅模块、命令解析模块、稽核比对模块、基准维护模块、通知告警模块都配置于网络管理系统中。网络管理系统一方面与分布式采集器建立数据连接,一方面与数据库和文件库建立数据连接。
配置管理模块用于维护设备登录信息、设备品牌型号信息、设备的特定品牌型号所涉及的巡检命令集、每台设备每条命令所对应的巡检配置等信息,相关配置信息维护在数据库中。
命令解析模块用于维护一系列解析脚本,根据品牌、命令的不同进行区分,由用户提前编写调试后上传。其根据网络设备命令执行后的文本输出,从中解析提取关键信息,形成特定的数据格式,以便于在巡检的稽核比对中进行更精细化的比较。其中,关键信息是用户关注的、稽核比对时所需的关键对象的内容或数值。
巡检订阅模块用于供用户创建巡检任务,所创建的任务可以是定时任务,或是根据网络区域、设备列表、巡检命令列表等信息确定实时巡检的范围,以此创建任务。
稽核比对模块用于根据不同的比较类型,根据品牌和命令的不同对采集的结果进行相应方式的比对,发现其中存在的异常,其详细业务逻辑详见图4。
基准维护模块用于根据比较类型的需要,维护稽核比对时所需的基准文件。
通知告警模块用于将稽核比对中发现的异常问题通知给用户。
分布式采集器用于在各个相互隔离的数据中心、网络区域内独立执行采集任务,以SSH协议登录网络设备并创建连接,将收到的网络命令下发至网络设备,并将输出结果以文件的形式保存。
数据库用于存储配置管理模块所维护的配置信息等。
文件库用于存储采集的结果文件、稽核比较所需的基准文件等。
图2示出了上述图1所示的各个模块之间的关联关系和数据流向。图3示出了建立在上述系统实施例基础上的网络设备状态巡检方法的实施例的详细流程,如下所述。
步骤S1:用户提供并维护网络设备采集所需的信息和巡检的配置,存储在数据库中。
在步骤S1的具体处理中,存储到数据库中的信息和配置的内容具体包括:
(1)设备登录信息、设备品牌型号信息、设备的特定品牌型号所涉及的巡检命令集;
用户维护网络采集和巡检所需的配置信息,实施步骤为:设备登录信息,包括设备所在的数据中心、网络区域、登录用户名、密码;设备品牌型号信息,包括设备的制造商(品牌)、型号、系统类型;设备的巡检命令集,针对常用的品牌型号,如思科、华为、H3C、Juniper等,罗列日常运维工作中可能涉及的全部巡检命令,形成命令列表。上述相关的配置信息均维护在数据库表中。
(2)还需要维护每台设备的每条命令所对应的巡检配置信息,该巡检配置信息用于指明在针对某一设备的某一命令所执行的一次巡检时,需要执行何种操作,以及在进行稽核比对时需要关注的重点;
(3)每台设备每条命令所对应的巡检配置信息包括巡检比较类型、对比项、解析脚本、阈值等信息。根据对常用网络设备巡检命令和巡检关注内容的梳理,从巡检配置信息中归纳巡检比较类型包括:基准型、存在型、阈值型、差值阈值型、内置阈值型、行比较型。
对于第(3)项中的巡检比较类型,分别说明如下:
1、基准型,表示当前采集的结果,需要与特定的基准进行比较,当且仅当二者完全一致时则认为无差异。典型的场景如网络设备的版本信息,以思科为例,其命令为showversion,其中设备型号、序列号、系统版本号等内容,理论上在无变更的情况下需始终与基准保持一致。
2、存在型,表示在当前的采集结果中,无需关心其是否与基准完全一致,只需要保证必要的内容存在(未丢失)即可。典型的场景如路由器设备上的路由信息,其上可能存在成百上千条路由项,且由于动态路由的存在这些路由项可能会经常发生变化,此时只需关注某些关键性的路由项不丢失即可。
3、阈值型,表示在当前的采集结果中,某些关键性指标是以数值的形式呈现,且通过该值的变化能反映设备的状态,当该值超出(大于或小于)某一特定的阈值时则可认为系统存在一定程度的异常。该阈值通常需要工程师根据经验或参考文档给出。典型的场景如设备的CPU空闲率、内存使用率等,当超出一定的范围时需要引起用户的关注。
4、差值阈值型,表示在当前的采集结果中,某些关键性指标是以数值的形式呈现,且用户对该数值的实际大小并不关注,但是一旦该数值发生变化(即产生差值),且差值超出一定的阈值时则需要引起用户的关注。典型的场景如网络设备接口的发送错包数、接收错包数等数值,偶尔发生1-2个错包并无太大影响,但是当采集结果与基准比较时发现该错包数的差值超出一定的范围时需要提醒用户分析其原因。
5、内置阈值型,表示在当前的采集结果中,某些关键性指标是以数值的形式呈现,且判断该数值是否正常的阈值已在设备的输出结果中给定,用户只需要以此来做出判断即可。典型的场景如网络设备接口(光模块)的光功率值,以思科为例,其查看命令为showinterfaces transceiver detail,其内容中除了给出接口当前的收发光功率外,还给出了判断光功率是否正常的dBm值区间范围。
6、行比较型,表示除以上所述类型外,默认还提供了简单的逐行文本比较,用于简单判断采集结果文件与基准文件的一致性。典型的场景如设备的运行配置文件,以思科为例,其查看命令为show running-config,以行比较的方式即可判断出配置是否发生过变动。
对于第(3)项中的对比项来说,巡检配置中需包含“对比项”字段,用于从众多记录中锁定需要比较的数据项的key值,默认为空,表示全部记录。为增加灵活性,该“对比项”字段可扩展为以正则表达式、排除项等方式进行匹配,以此锁定用户最关心的内容。例如,根据运维经验,对于普通的园区网接入交换机设备接口状态的巡检,通常仅需重点关注其上联的光接口即可,无需关心连接普通办公终端的接口,此时可以通过枚举或者正则匹配的方式,对需要比对的接口名称进行筛选。
对于第(3)项中的解析脚本来说,巡检配置中需包含“解析脚本”字段,用于指定该命令所采集的结果文件解析时所用到的解析脚本的名称和位置。相应地,对每种品牌的网络设备,每条巡检命令都需要设置专用的解析脚本,从大量的文本中提取关键性的信息用于比较。通常该脚本用Python语言编写,详见步骤S2。
对于第(3)项中的阈值来说,巡检配置中需包含“阈值”字段,用于设定上述“阈值型”、“差值阈值型”比较方式中所涉及的阈值,以及与该阈值比较时所使用的操作符(Operator)、比较的方向(Direction)、该指标数值的计量单位(Unit)。
进一步,用于值比较的操作符包括:大于(GT)、小于(LT)、大于等于(GE)、小于等于(LE)、等于(EQ)、不等于(NE)、在范围内(RANGE)。
进一步,比较的方向包括:双向(Both)、增长(Increase)、减少(Decrease),常用于指标当前值和基准值的差值与阈值进行比较的场景。例如,用户设置某网络指标的巡检比较类型为“差值阈值型”,阈值为1.0,比较方向为双向,比较操作符为LT(小于),表示当前值与基准值的差值,其绝对值需要小于1.0。假设其基准值为5.0,则当采集的结果为4.0或6.0时,都会判定为异常。如果比较方向设定为“增长”,则仅当该指标达到6.0后会判定为异常,在4.0时则会忽略。
此外,巡检配置中需包含“存在项列表”字段,用于设定上述“存在型”比较方式中所涉及的存在项,所列举的这些数据项是在众多数据中用户最关心的内容,务必不能存在丢失遗漏,否则即视为存在巡检异常。
此外,巡检配置中可包含“告警级别”字段,用于设定此类命令的巡检发现异常时需要告警的严重程度,以不同的通知方式或显示颜色来展现。
步骤S2:用户针对需要巡检的每种品牌、每条命令,设置独立的解析脚本,该脚本可对采集结果和基准文件同时进行解析,从中提取关键信息,形成固定的数据格式。
这些解析脚本可由用户编写后上传,支持Python语言,以正则表达式、TextFSM(一个Python模块,利用基于模板的状态机引擎以解析半结构化文本)等方式,从非结构化的文本中提取关键字段信息,形成结构化的数据,数据的具体格式根据每条命令的输出内容提前约定。
解析脚本需要提前上传维护,当订阅某一设备的巡检任务时,如果“设备品牌+命令”所对应的解析脚本不存在,则“比较类型”只能选用默认的“行比较”方式。
步骤S3:巡检任务订阅,即用户设置定时任务,在空闲时间段自动发起全量的巡检任务,或从所预先配置的设备列表和命令列表中选择巡检的范围,实时发起巡检任务。
步骤S4:巡检任务形成后,自动创建对应的采集任务,网络管理系统根据巡检范围中涉及设备的数据中心、网络区域,将对应设备的巡检采集任务指派给独立部署于各数据中心或网络管理区域内的分布式采集器,由采集器执行。
步骤S5:采集器根据采集任务的内容,执行命令的下发,将依次将命令执行的结果保存至文件中,存储于采集文件库。
步骤S5的细化处理步骤如下。
步骤S5-1:采集器根据用户所配置的登录信息,以SSH协议登录至设备,创建网络设备连接。
步骤S5-2:采集器通过网络设备的连接,将每条巡检命令依次发送至网络设备进行执行,并将完整的输出结果保存至文本文件中。文件名例如设计为“设备名称--命令名称.txt”。
步骤S5-3:采集器将所有的采集结果文件上传至采集文件库进行存储。
步骤S6:根据巡检任务的范围,解析模块根据巡检配置中的解析脚本路径,按需对同一设备同一命令的采集结果文件和基准文件进行解析,转化成相同的格式。所使用的解析脚本参考上述的步骤S2。
步骤S7:对于所采集到的命令输出结果,稽核比对模块根据巡检配置中的“比较类型”设置,以指定的方式对当前所采集的结果进行稽核比对。
稽核比对的逻辑请参考图4所示。
对于比较类型为“基准型”的巡检任务,需要首先从基准文件库中获取该设备该命令的基准文件,并与采集结果文件一同进行解析,得到相同的数据格式,交由稽核比对模块进行比较。当存在字段的值不一致时则认为发现异常,生成告警信息;
对于比较类型为“存在型”的巡检任务,直接解析采集文件,得到所关注记录的列表,此时从巡检的配置文件中获取预先配置的“存在项列表”,比较关键数据项是否存在。如有遗失则生成告警信息;
对于比较类型为“阈值型”的巡检任务,直接解析采集文件,得到字段的数据值,并从巡检配置文件中获取用户的阈值设定,二者进行比较,判断当前数值是否超出阈值。当数值存在异常(过高/过低)时生成告警信息;
对于比较类型为“差值阈值型”的巡检任务,需要首先从基准文件库中获取该设备该命令的基准文件,并与采集结果文件一同进行解析,得到相同的数据格式,并求得二者的差值。此时从巡检配置文件中获取用户所设定的该差值的阈值,判断该差值是否超出阈值。当其差值超出阈值时,生成告警信息;
对于比较类型为“内置阈值型”的巡检任务,直接解析采集文件,得到字段的数据值,以及厂商对于该字段所建议的阈值(范围),判断该数据指标是否正常,如有异常则生成告警信息;
对于比较类型为“行比较型”的巡检任务,只需从基准库中获取基准文件,并与采集文件进行基于文本的逐行比较,判断文本直接的差异,并生成告警信息。
步骤S8:对于在稽核比对过程中发现存在差异或异常的值和内容,重新组织成适合用户阅读的语言,以邮件、手机消息等方式发出通知告警,最终由工程师确认。
步骤S9:对于巡检的“比较类型”中涉及基准文件的,如基准型、差值阈值型、行比较型,若稽核比较后判定无异常或经人工确认后无影响的,对应的采集结果文件更新至基准库中作为下一次巡检的基准文件,形成闭环。
特别地,当某一设备的某条命令在第一次巡检时,其基准文件在基准库中尚未存在,此时稽核比对操作无法继续,需要用户确认并维护基准。可行的基准更新方案包括:以本次巡检采集的结果作为基准、以选定的某次历史采集任务的结果作为基准。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (10)

1.一种网络设备状态巡检的系统,其特征在于,系统包括配置管理模块、巡检订阅模块、命令解析模块、稽核比对模块、基准维护模块、通知告警模块、分布式采集器以及数据库、文件库,其中:
配置管理模块,用于维护包括设备登录信息、设备品牌型号信息、设备的特定品牌型号所涉及的巡检命令集、每台设备每条命令所对应的巡检配置的在内的信息,相关配置信息维护在数据库中;
命令解析模块,用于维护一系列解析脚本,根据品牌、命令的不同进行区分,根据网络设备命令执行后的文本输出,从中解析提取关键信息,形成特定的数据格式,以便于在巡检的稽核比对中进行精细化的比较;
巡检订阅模块,用于供用户创建巡检任务;
稽核比对模块,用于根据不同的比较类型,根据品牌和命令的不同对采集的结果进行相应方式的比对,发现其中存在的异常;
基准维护模块,用于根据比较类型的需要,维护稽核比对时所需的基准文件;
通知告警模块,用于将稽核比对中发现的异常问题通知给用户;
分布式采集器,用于在各个相互隔离的数据中心、网络区域内独立执行采集任务,登录网络设备并创建连接,将收到的网络命令下发至网络设备,并将输出结果以文件的形式保存;
数据库,用于存储配置管理模块所维护的配置信息;
文件库,用于存储采集的结果文件、稽核比较所需的基准文件。
2.根据权利要求1所述的网络设备状态巡检的系统,其特征在于,配置管理模块、巡检订阅模块、命令解析模块、稽核比对模块、基准维护模块、通知告警模块都配置于网络管理系统中,网络管理系统一方面与分布式采集器建立数据连接,一方面与数据库和文件库建立数据连接。
3.根据权利要求1所述的网络设备状态巡检的系统,其特征在于,巡检订阅模块所创建的任务是定时任务,或者是根据包括网络区域、设备列表、巡检命令列表在内的信息确定实时巡检的范围,并以此创建任务。
4.一种网络设备状态巡检的方法,在如权利要求1至3中任一项所述的网络设备状态巡检的系统上实施,其特征在于,方法包括:
步骤S1:用户提供并维护网络设备采集所需的信息和巡检的配置,存储在数据库中;
步骤S2:用户针对需要巡检的每种品牌、每条命令,设置独立的解析脚本,该脚本用于对采集结果和基准文件同时进行解析,从中提取关键信息,形成固定的数据格式;
步骤S3:用户订阅巡检任务;
步骤S4:巡检任务形成后,自动创建对应的采集任务,网络管理系统根据巡检范围中涉及设备的数据中心、网络区域,将对应设备的巡检采集任务指派给独立部署于各数据中心或网络管理区域内的分布式采集器,由采集器执行;
步骤S5:采集器根据采集任务的内容,执行命令的下发,将依次将命令执行的结果保存至文件中,存储于采集文件库;
步骤S6:根据巡检任务的范围,解析模块根据巡检配置中的解析脚本路径,按需对同一设备同一命令的采集结果文件和基准文件进行解析,转化成相同的格式;
步骤S7:对于所采集到的命令输出结果,稽核比对模块根据巡检配置中的比较类型设置,以指定的方式对当前所采集的结果进行稽核比对;
步骤S8:对于在稽核比对过程中发现存在差异或异常的值和内容,重新组织成适合用户阅读的语言,发出通知告警,最终由工程师确认;
步骤S9:对于巡检的比较类型中涉及基准文件的,若稽核比较后判定无异常或经人工确认后无影响的,对应的采集结果文件更新至基准库中作为下一次巡检的基准文件,形成闭环。
5.根据权利要求4所述的网络设备状态巡检的方法,其特征在于,在步骤S1中,存储到数据库中的信息和配置的内容包括:
(1)设备登录信息、设备品牌型号信息、设备的特定品牌型号所涉及的巡检命令集;
(2)每台设备的每条命令所对应的巡检配置信息;
(3)每台设备每条命令所对应的巡检配置信息包括巡检比较类型、对比项、解析脚本、阈值在内的信息。
6.根据权利要求5所述的网络设备状态巡检的方法,其特征在于,对于第(3)项的巡检配置信息,从巡检配置信息中归纳巡检比较类型,包括:基准型、存在型、阈值型、差值阈值型、内置阈值型、行比较型。
7.根据权利要求4所述的网络设备状态巡检的方法,其特征在于,在步骤S3中,用户设置定时任务,在空闲时间段自动发起全量的巡检任务,或从所预先配置的设备列表和命令列表中选择巡检的范围,实时发起巡检任务。
8.根据权利要求4所述的网络设备状态巡检的方法,其特征在于,步骤S5进一步包括:
步骤S5-1:采集器根据用户所配置的登录信息,以SSH协议登录至设备,创建网络设备连接;
步骤S5-2:采集器通过网络设备的连接,将每条巡检命令依次发送至网络设备进行执行,并将完整的输出结果保存至文本文件中;
步骤S5-3:采集器将所有的采集结果文件上传至采集文件库进行存储。
9.根据权利要求4所述的网络设备状态巡检的方法,其特征在于,步骤S7中的稽核比对进一步包括:
对于比较类型为基准型的巡检任务,先从基准文件库中获取该设备该命令的基准文件,并与采集结果文件一同进行解析,得到相同的数据格式,交由稽核比对模块进行比较,当存在字段的值不一致时则认为发现异常,生成告警信息;
对于比较类型为存在型的巡检任务,解析采集文件,得到所关注记录的列表,从巡检的配置文件中获取预先配置的存在项列表,比较关键数据项是否存在,如有遗失则生成告警信息;
对于比较类型为阈值型的巡检任务,解析采集文件,得到字段的数据值,并从巡检配置文件中获取用户的阈值设定,二者进行比较,判断当前数值是否超出阈值,当数值存在异常时生成告警信息;
对于比较类型为差值阈值型的巡检任务,先从基准文件库中获取该设备该命令的基准文件,并与采集结果文件一同进行解析,得到相同的数据格式,并求得二者的差值,并且从巡检配置文件中获取用户所设定的该差值的阈值,判断该差值是否超出阈值,当差值超出阈值时,生成告警信息;
对于比较类型为内置阈值型的巡检任务,解析采集文件,得到字段的数据值,以及厂商对于该字段所建议的阈值,根据阈值判断该数据值的指标是否正常,如有异常则生成告警信息;
对于比较类型为行比较型的巡检任务,从基准库中获取基准文件,并与采集文件进行基于文本的逐行比较,判断文本直接的差异,并生成告警信息。
10.根据权利要求4所述的网络设备状态巡检的方法,其特征在于,在步骤S9中,当某一设备的某条命令在第一次巡检时,其基准文件在基准库中尚未存在,此时稽核比对操作无法继续,需要用户确认并维护基准,其中可行的基准更新方案包括:以本次巡检采集的结果作为基准、以选定的某次历史采集任务的结果作为基准。
CN202311271894.3A 2023-09-27 2023-09-27 一种网络设备状态巡检的方法和系统 Pending CN117135099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311271894.3A CN117135099A (zh) 2023-09-27 2023-09-27 一种网络设备状态巡检的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311271894.3A CN117135099A (zh) 2023-09-27 2023-09-27 一种网络设备状态巡检的方法和系统

Publications (1)

Publication Number Publication Date
CN117135099A true CN117135099A (zh) 2023-11-28

Family

ID=88856534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311271894.3A Pending CN117135099A (zh) 2023-09-27 2023-09-27 一种网络设备状态巡检的方法和系统

Country Status (1)

Country Link
CN (1) CN117135099A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119728422A (zh) * 2024-12-12 2025-03-28 北京天融信网络安全技术有限公司 配置文件管理方法、电子设备、计算机存储介质及产品
CN119766617A (zh) * 2024-11-08 2025-04-04 贵州电网有限责任公司 一种变电站交换机运维巡检方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119766617A (zh) * 2024-11-08 2025-04-04 贵州电网有限责任公司 一种变电站交换机运维巡检方法及系统
CN119766617B (zh) * 2024-11-08 2025-10-17 贵州电网有限责任公司 一种变电站交换机运维巡检方法及系统
CN119728422A (zh) * 2024-12-12 2025-03-28 北京天融信网络安全技术有限公司 配置文件管理方法、电子设备、计算机存储介质及产品

Similar Documents

Publication Publication Date Title
CN111030857B (zh) 网络告警方法、装置、系统与计算机可读存储介质
CN117135099A (zh) 一种网络设备状态巡检的方法和系统
CN105159964A (zh) 一种日志监控方法及系统
CN104036365A (zh) 一种企业级数据服务平台建设方法
CN115396289A (zh) 一种故障告警确定方法、装置、电子设备及存储介质
CN111522729A (zh) 规则发布的确定方法、装置及系统
CN109639756A (zh) 一种终端网络关联关系展示和设备接入实时监测系统
CN117493133A (zh) 告警方法、装置、电子设备和介质
CN105632248A (zh) 一种安全监控系统及其数据处理方法
CN115615732A (zh) 一种质量检测器异常状态监测方法及系统
CN113242254B (zh) 通信报文处理方法、装置、终端设备和存储介质
CN118260294B (zh) 基于ai的制造业痛觉信号汇总方法、系统、介质及设备
CN114968696A (zh) 指标监控方法、电子设备及芯片系统
CN117930779B (zh) 一种基于opc ua协议的生产信息对象化建模方法
CN106506207A (zh) 基于树型结构的电力通信报文监视分析方法及系统
CN109412861B (zh) 一种终端网络建立安全关联展示方法
CN117539873A (zh) 智慧轨交系统多设备关联方法、系统、设备及存储介质
CN115118754B (zh) 针对电动汽车的远程监控测试系统和监控测试方法
WO2016127483A1 (zh) 一种采集适配器管理系统的处理方法和装置
CN114428715B (zh) 一种日志处理方法、装置、系统及存储介质
CN116016601A (zh) 一种基于态势感知设备运行数据采集方法、设备及介质
TWI847064B (zh) 設備檢測裝置及設備檢測方法
CN116192611B (zh) 一种基于多个微服务场景的统一告警方法、系统及设备
CN114297141B (zh) 一种对Fab厂设备生产数据文件处理的方法及系统
CN120378321B (zh) 一种网卡管理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination