[go: up one dir, main page]

CN119806960A - 一种服务器状态监测方法、装置及服务器集群系统 - Google Patents

一种服务器状态监测方法、装置及服务器集群系统 Download PDF

Info

Publication number
CN119806960A
CN119806960A CN202411864368.2A CN202411864368A CN119806960A CN 119806960 A CN119806960 A CN 119806960A CN 202411864368 A CN202411864368 A CN 202411864368A CN 119806960 A CN119806960 A CN 119806960A
Authority
CN
China
Prior art keywords
server
tested
hardware
file
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411864368.2A
Other languages
English (en)
Inventor
谢东晨
赵凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202411864368.2A priority Critical patent/CN119806960A/zh
Publication of CN119806960A publication Critical patent/CN119806960A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种服务器状态监测方法、装置及服务器集群系统,该方法包括:获取待测服务器的基准文件;对待测服务器中的硬件设备进行定期扫描,以得到各硬件设备的当前状态信息;根据各硬件设备的当前状态信息,生成待测服务器的当前状态文件;对比待测服务器的基准文件和当前状态文件之间的差异,得到待测服务器的状态变化信息;根据待测服务器的状态变化信息,生成待测服务器的状态监测日志。上述方案提供的方法,通过定期对待测服务器进行硬件设备状态信息进行自动扫描,并通过对比基准文件,确定待测服务器的状态监测结果,提高了服务器的状态监测效率和及时性。

Description

一种服务器状态监测方法、装置及服务器集群系统
技术领域
本申请涉及计算机技术领域,尤其涉及一种服务器状态监测方法、装置及服务器集群系统。
背景技术
随着信息技术的不断发展,服务器已经得到的广泛的应用到各个应用场景,服务器的性能和可靠性成为各类应用场景的关键指标,其中,服务器硬件的稳定性往往直接影响服务器的性能,因此,如何对服务器硬件设备进行状态监控成为了重点研究内容。
在相关技术中,通常采用人工检测的方式,对服务器上部署的各个硬件设备进行状态指标的检测。但是,人工检测流程较为繁琐,降低了状态检测效率和及时性。
发明内容
本申请提供一种服务器状态监测方法、装置及服务器集群系统,以解决相关技术降低了对服务器的状态监测效率和及时性等缺陷。
本申请第一个方面提供一种服务器状态监测方法,包括:
获取待测服务器的基准文件;
对所述待测服务器中的硬件设备进行定期扫描,以得到各所述硬件设备的当前状态信息;
根据各所述硬件设备的当前状态信息,生成所述待测服务器的当前状态文件;
对比所述待测服务器的基准文件和当前状态文件之间的差异,得到所述待测服务器的状态变化信息;
根据所述待测服务器的状态变化信息,生成所述待测服务器的状态监测日志。
在一种可选的实施方式中,所述方法还包括:
将所述待测服务器的当前状态文件作为新的基准文件,以根据所述待测服务器的实际状态更新所述基准文件,并返回至所述对所述待测服务器中的硬件设备进行定期扫描,以得到各所述硬件设备的当前状态信息的步骤。
在一种可选的实施方式中,所述方法还包括:
获取所述待测服务器的硬件设备列表;所述硬件设备列表包括所述待测服务器中所有已识别的硬件设备信息;
遍历所述硬件设备列表,以逐一检查所述硬件设备列表中的硬件设备信息,得到所述待测服务器中各硬件设备的热插拔特性检查结果;
根据所述待测服务器中各硬件设备的热插拔特性检查结果,在所述待测服务器中筛选目标硬件设备;
针对任一所述目标硬件设备,根据该目标硬件设备的设备类型和设备型号,确定与该目标硬件设备相匹配的目标接口;
基于与所述目标硬件设备相匹配的目标接口,采集所述目标硬件设备的当前目标状态信息;
或者,从所述目标硬件设备的状态寄存器,采集所述目标硬件设备的当前目标状态信息;
按照所述待测服务器的当前状态文件的数据格式,将所述目标硬件设备的当前目标状态信息与所述待测服务器的当前状态文件进行整合,以完善所述待测服务器的当前状态文件;
其中,所述目标硬件设备包括不支持热插拔的硬件设备。
在一种可选的实施方式中,各所述硬件设备的当前状态信息包括:设备类型、设备型号、设备位置和设备性能参数。
在一种可选的实施方式中,所述根据所述待测服务器的状态变化信息,生成所述待测服务器的状态监测日志,包括:
根据所述待测服务器的状态变化信息,对所述待测服务器发生的硬件变化进行分类,得到所述待测服务器的硬件变化分类结果;
根据所述待测服务器的硬件变化分类结果,生成所述待测服务器的状态监测日志;
其中,所述待测服务器的硬件变化类别至少分为设备异常、设备丢失和设备性能下降三种类型。
在一种可选的实施方式中,所述方法还包括:
根据所述待测服务器的状态监测日志,确定所述待测服务器的硬件维护策略;
其中,待测服务器的硬件维护策略至少包括告警策略和修复策略。
本申请第二个方面提供一种服务器状态监测装置,包括:
获取模块,用于获取待测服务器的基准文件;
扫描模块,用于对所述待测服务器中的硬件设备进行定期扫描,以得到各所述硬件设备的当前状态信息;
生成模块,用于根据各所述硬件设备的当前状态信息,生成所述待测服务器的当前状态文件;
对比模块,用于对比所述待测服务器的基准文件和当前状态文件之间的差异,得到所述待测服务器的状态变化信息;
监测模块,用于根据所述待测服务器的状态变化信息,生成所述待测服务器的状态监测日志。
本申请第三个方面提供一种服务器集群系统,包括:基准服务器和多个待测服务器;
所述基准服务器基于如上第一个方面以及第一个方面各种可能的设计所述的方法,对各所述待测服务器进行状态监测;
本申请第四个方面提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法。
本申请第五个方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一个方面以及第一个方面各种可能的设计所述的方法。
本申请第六个方面提供一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行如上第一个方面以及第一个方面各种可能的设计所述的方法。
本申请技术方案,具有如下优点:
本申请提供一种服务器状态监测方法、装置及服务器集群系统,该方法包括:获取待测服务器的基准文件;对待测服务器中的硬件设备进行定期扫描,以得到各硬件设备的当前状态信息;根据各硬件设备的当前状态信息,生成待测服务器的当前状态文件;对比待测服务器的基准文件和当前状态文件之间的差异,得到待测服务器的状态变化信息;根据待测服务器的状态变化信息,生成待测服务器的状态监测日志。上述方案提供的方法,通过定期对待测服务器进行硬件设备状态信息进行自动扫描,并通过对比基准文件,确定待测服务器的状态监测结果,提高了服务器的状态监测效率和及时性。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例基于的服务器状态监测系统的结构示意图;
图2为本申请实施例提供的服务器状态监测方法的流程示意图;
图3为本申请实施例提供的服务器状态监测方法的整体流程示意图;
图4为本申请实施例提供的服务器状态监测装置的结构示意图;
图5为本申请实施例提供的服务器集群系统的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在现代信息化社会中,服务器在各行各业中扮演着至关重要的角色,提供了数据存储、处理和传输等多种功能。随着技术的进步,服务器的性能和可靠性成为各类应用场景的关键指标。在研发、测试及产品出货等不同阶段,确保服务器硬件特别是PCIe设备的稳定性显得尤为重要。PCIe(外围组件互连快速)是当今计算机系统中广泛使用的高速串行计算机扩展总线标准,广泛应用于显卡、网络接口卡(NIC)、存储控制器以及固态硬盘(SSD)等设备的连接。
在服务器的研发阶段,工程师们通常需要反复进行硬件配置和软件调试,以确保系统在各种工作负载下的稳定性和性能。然而,由于各种原因,例如硬件故障、连接不良或固件问题,服务器中的PCIe设备可能会出现丢失、降速或降lane等问题。这些问题不仅会影响到系统的整体性能,还可能在服务器投入使用后导致严重的业务中断。因此,在研发阶段就需要对服务器进行严格的监控,以及时发现并解决潜在的问题。
测试阶段是产品生命周期中的另一个关键环节。在这一阶段,服务器会进行各种压力测试、兼容性测试和功能测试,以验证其在实际应用中的表现。此时,确保PCIe设备的稳定性变得尤为重要,特别是在高负载与长时间运行的测试中,PCIe设备的状态变化可能会影响测试结果的准确性。传统的测试方法依赖于人工检查和系统日志的分析,这不仅费时费力,而且可能导致一些细微的设备变化无法被及时发现。
在产品出货阶段,服务器通常已经通过了各种严格的测试,准备交付给客户。然而,即便如此,出货前的最后检测仍然至关重要。服务器在运输和交付过程中可能会遭受物理冲击或环境变化,这些因素都有可能对PCIe设备造成影响。出货前的最后检测确保客户收到的产品是完全合格的。然而,同样的问题在于,PCIe设备的状态变化如果不被实时监控和记录,可能会在产品交付给客户后才被发现,降低了客户对产品的满意度。
目前,服务器操作系统的系统日志并不会自动记录所有PCIe设备的状态变化,工程师只有通过主动查看才能发现设备丢失或性能不符合预期的问题。这种被动监控方法存在明显的不足,尤其在需要实时了解设备状态的场景中显得尤为不便。及时掌握和处理PCIe设备故障不仅能够提升服务器的可靠性,还能显著减少维修和停机时间,从而提高整体运营效率。
总之,如何在研发、测试、出货等各个阶段实现对服务器上PCIe设备的实时监控,及时发现并记录设备状态的变化,以保证设备不丢失、不降速降lane,成为当前技术领域亟待解决的重要问题。
针对上述问题,本申请实施例提供一种服务器状态监测方法、装置及服务器集群系统,该方法包括:获取待测服务器的基准文件;对待测服务器中的硬件设备进行定期扫描,以得到各硬件设备的当前状态信息;根据各硬件设备的当前状态信息,生成待测服务器的当前状态文件;对比待测服务器的基准文件和当前状态文件之间的差异,得到待测服务器的状态变化信息;根据待测服务器的状态变化信息,生成待测服务器的状态监测日志。上述方案提供的方法,通过定期对待测服务器进行硬件设备状态信息进行自动扫描,并通过对比基准文件,确定待测服务器的状态监测结果,提高了服务器的状态监测效率和及时性。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明实施例进行描述。
首先,对本申请所基于的服务器状态监测系统的结构进行说明:
本申请实施例提供的服务器状态监测方法、装置及服务器集群系统,适用于在服务器研发、测试、出货和应用等阶段,对服务器进行状态监测。如图1所示,为本申请实施例基于的服务器状态监测系统的结构示意图,主要包括数据采集装置、服务器状态监测装置和待测服务器。其中,待测服务器设有多个硬件设备,数据采集设备用于对待测服务器上的硬件设备进行定期扫描,并将扫描得到的状态信息发送给服务器状态监测装置,以基于该服务器状态监测装置生成待测服务器的状态监测日志。
本申请实施例提供了一种服务器状态监测方法,用于在服务器研发、测试、出货和应用等阶段,对服务器进行状态监测。本申请实施例的执行主体为电子设备,比如服务器、台式电脑、笔记本电脑、平板电脑及其他可用于对待测服务器进行状态监测的电子设备。
如图2所示,为本申请实施例提供的服务器状态监测方法的流程示意图,该方法包括:
步骤201,获取待测服务器的基准文件。
其中,基准文件包括待测服务器中各硬件设备的设备类型、设备型号、设备位置和设备性能参数等硬件设备的详细信息,以供作为参考标准。
步骤202,对待测服务器中的硬件设备进行定期扫描,以得到各硬件设备的当前状态信息。
具体地,可以按照待测服务器的系统需求和设备监测重要性等,确定待测服务器的状态监测周期(如每小时或每天),并设置相应的扫描频率,以基于设置的扫描频率实现对待测服务器中的硬件设备的定期扫描,也可以实现实时扫描,以实现对待测服务器状态信息的持续监测。
步骤203,根据各硬件设备的当前状态信息,生成待测服务器的当前状态文件。
其中,各硬件设备的当前状态信息包括:设备类型、设备型号、设备位置和设备性能参数。设备类型用于标记硬件设备的种类,如固态硬盘和网卡等,设备型号用于标记硬件设备的型号和版本信息,设备位置用于标记硬件设备在待测服务器中的物理位置,如插槽号、端口号等,设备性能参数包括硬件设备的带宽、速率和误码率等。
具体地,可以按照基准文件的文件格式,生成待测服务器的当前状态文件,并将当前状态文件存储至指定位置,以便后续对比和分析两个文件的差异。
步骤204,对比待测服务器的基准文件和当前状态文件之间的差异,得到待测服务器的状态变化信息。
具体地,基于预设对比算法或工具,对比待测服务器的基准文件和当前状态文件之间的差异,比对结果将显示任何设备状态的变化,包括新增、丢失、或设备参数的变化等,具体可以判断待测服务器中各硬件设备的设备类型、设备型号、设备位置和设备性能参数是否发生变化,以得到待测服务器的状态变化信息。待测服务器的状态变化信息包括待测服务器上各个硬件设备的变化情况。
步骤205,根据待测服务器的状态变化信息,生成待测服务器的状态监测日志。
具体地,可以以硬件设备的当前状态信息的扫描时间作为时间戳,根据待测服务器的状态变化信息,生成待测服务器的状态监测日志。其中,状态检测日志用于记录待测服务器在状态监测过程中的硬件状态变化。
在上述实施例的基础上,作为一种可实施的方式,在一实施例中,该方法还包括:
步骤301,将待测服务器的当前状态文件作为新的基准文件,以根据待测服务器的实际状态更新基准文件,并返回至对待测服务器中的硬件设备进行定期扫描,以得到各硬件设备的当前状态信息的步骤。
需要说明的是,初次状态变化信息对比采用的基准文件为待测服务器的项目产品规格书,之后将最新得到的当前状态文件作为新的基准文件,以不断更新待测服务器的基准文件,确保差异对比采用的基准文件与待测服务器的实际状态相匹配,也避免硬件设备变化信息的重复上报,如避免某个硬件设备丢失后的重复报错情况,提高了状态监控的准确性和效率。当待测服务器的硬件设备状态发生变化时,当前状态文件会把新的硬件设备状态记录下来,并替换旧的基准文件,将当前状态文件保存至基准文件存储位置,以作为新的基准键,确保下次检测的基准文件是最新的。
在上述实施例的基础上,作为一种可实施的方式,在一实施例中,该方法还包括:
步骤401,获取待测服务器的硬件设备列表;硬件设备列表包括待测服务器中所有已识别的硬件设备信息;
步骤402,遍历硬件设备列表,以逐一检查硬件设备列表中的硬件设备信息,得到待测服务器中各硬件设备的热插拔特性检查结果;
步骤403,根据待测服务器中各硬件设备的热插拔特性检查结果,在待测服务器中筛选目标硬件设备;
步骤404,针对任一目标硬件设备,根据该目标硬件设备的设备类型和设备型号,确定与该目标硬件设备相匹配的目标接口;
步骤405,基于与目标硬件设备相匹配的目标接口,采集目标硬件设备的当前目标状态信息;或者,从目标硬件设备的状态寄存器,采集目标硬件设备的当前目标状态信息;
步骤406,按照待测服务器的当前状态文件的数据格式,将目标硬件设备的当前目标状态信息与待测服务器的当前状态文件进行整合,以完善待测服务器的当前状态文件。
其中,目标硬件设备包括不支持热插拔的硬件设备,经过筛选确定服务器中不支持热拔插的设备列表,以增加对这些不支持热拔插设备的专门检查功能。
需要说明的是,本申请实施例中的硬件设备主要指PCIe硬件设备,本申请实施例基于待测服务器系统通用接口(如系统管理BIOS/UEFI接口),对待测服务器中各个硬件设备进行状态信息扫描。但是,针对不支持热插拔的硬件设备,在系统运行过程中,其通过系统通用接口获取设备状态信息的功能有限,即通过系统通用接口无法采集目标硬件设备的状态信息,即便采集到状态信息,采集到的状态信息的可靠性也无法保证。
具体地,可以首先获取待测服务器的硬件设备列表,该列表包含了服务器中所有已识别的硬件设备信息。具体可以通过与服务器硬件管理接口进行通信,读取并解析其返回的数据,从而得到完整的硬件设备清单。然后遍历该硬件设备列表,逐一检查每个硬件设备的特性和属性信息,以对于不支持热插拔特性进行识别和检查,最后根据待测服务器中各硬件设备的热插拔特性检查结果,在待测服务器中筛选目标硬件设备。
具体地,在通过系统通用接口实现待测服务器的硬件状态信息的扫描后,再在待测服务器中筛选目标硬件设备,然后基于与目标硬件设备相匹配的目标接口(更低级别的系统接口),采集目标硬件设备的当前目标状态信息,以保证获取到的当前目标状态信息的准确性和可靠性。最后按照待测服务器的当前状态文件的数据格式,将目标硬件设备的当前目标状态信息与待测服务器的当前状态文件进行整合,即按照当前状态文件的数据格式,将当前状态文件中缺少的当前目标状态信息,填充至当前状态文件中响应的记录位置或创建新的记录条目,以对之前经过扫描得到的待测服务器的当前状态文件进行完善,以确保最终与基准文件对比的当前状态文件的可靠性。
其中,与目标硬件设备相匹配的目标接口至少包括直接访问PCIe总线接口,也可以从目标硬件设备的状态寄存器(硬件监控芯片)中采集目标硬件设备的当前目标状态信息。其中,目标硬件设备的目标接口可以根据目标硬件设备的设备类型和型号确定,例如,对于PCIe设备,优先选择直接访问PCIe总线接口作为其目标接口。
需要进一步说明的是,通过直接访问PCIe总线接口进行目标硬件设备的当前目标状态信息的采集,可以绕过一些高级操作系统可能存在的缓存或者抽象层的干扰,直接读取设备的真实状态,从而提高了目标硬件设备的当前目标状态信息采集结果的可靠性。
具体地,如图3所示,为本申请实施例提供的服务器状态监测方法的整体流程示意图,如图3所示的方法为如图2所示的方法的一种示例性的实施方式,二者实现原理相同,不再赘述。本申请实施例通过实时扫描和基准文件对比,实现了对服务器各类硬件设备特别是PCIe设备的高效监控,提高了设备状态检测的准确性和及时性。首先,实时扫描和基准文件对比机制大幅提高了设备状态检测的准确性和及时性,确保了任何异常状况能在第一时间被发现。动态更新基准文件的方法避免了设备丢失后的重复报错问题,提高了监控系统的准确性和效率。通过增加对目标硬件设备的二次检查机制,特别是对不支持热拔插设备的复查,进一步提升了设备状态监控的可靠性。
在上述实施例的基础上,作为一种可实施的方式,在一实施例中,根据待测服务器的状态变化信息,生成待测服务器的状态监测日志,包括:
步骤2051,根据待测服务器的状态变化信息,对待测服务器发生的硬件变化进行分类,得到待测服务器的硬件变化分类结果;
步骤2052,根据待测服务器的硬件变化分类结果,生成待测服务器的状态监测日志。
其中,待测服务器的硬件变化类别至少分为设备异常、设备丢失和设备性能下降三种类型。
具体地,可以根据待测服务器的状态变化信息表征的待测服务器的状态表现,进行待测服务器硬件变化分类。其中,设备异常主要指性能参数波动异常,如带宽波动异常、速率下降幅度大和误码率严重升高等。设备丢失主要表现为物理连接丢失,如插槽松动和线缆断开等,设备丢失也可能表现为设备硬件故障等。设备性能下降表现为性能指标的小幅度波动情况。
具体地,对于状态监测日志中记载的每个硬件变化事件,可以根据硬件变化分类结果进行详细描述。例如,如果是设备异常类型中的带宽波动问题,记录具体的设备名称(如网卡型号)、变化前的带宽值、变化后的带宽值、变化时间以及可能的原因分析。如果是设备丢失类型,记录丢失的设备名称、物理位置(如插槽号或端口号)、丢失时间以及可能的丢失原因。对于设备性能下降类型,同样详细记录设备名称、性能下降的具体指标(如CPU的处理速度下降幅度、硬盘读写速度变化等)、变化时间和原因分析。
进一步地,在一实施例中,可以根据待测服务器的状态监测日志,确定待测服务器的硬件维护策略。
其中,待测服务器的硬件维护策略至少包括告警策略和修复策略。
具体地,针对告警策略,可以在状态监测日志表征待测服务器发生设备异常或设备丢失的情况下,根据状态监测日志中记载的设备异常事件或设备丢失事件,生成对应的报警信息,设备异常告警信息至少包括异常设备名称、异常设备的异常因素(如带宽因素)和异常发生时间(如带宽变化时间)等。设备丢失告警信息至少包括丢失设备名称、丢失设备的位置信息和丢失时间。
具体地,针对修复策略,可以在状态监测日志表征待测服务器存在存储性能下降缺陷的情况下,确定待测服务器的硬盘修复策略,具体可以进行磁盘碎片整理和优化,删除不必要的文件以释放存储空间。如果硬盘老化严重,可以考虑更换新的硬盘或使用固态硬盘(SSD)来提升存储性能。对于数据库服务器等对存储性能要求较高的场景,可以考虑使用RAID阵列或分布式存储系统来提高读写速度和数据可靠性。如果状态监测日志表征待测服务器的内存访问速度发生下降,可以检查内存使用情况,关闭不必要的程序释放内存。
本申请实施例提供服务器状态监测方法,通过获取待测服务器的基准文件;对待测服务器中的硬件设备进行定期扫描,以得到各硬件设备的当前状态信息;根据各硬件设备的当前状态信息,生成待测服务器的当前状态文件;对比待测服务器的基准文件和当前状态文件之间的差异,得到待测服务器的状态变化信息;根据待测服务器的状态变化信息,生成待测服务器的状态监测日志。上述方案提供的方法,通过定期对待测服务器进行硬件设备状态信息进行自动扫描,并通过对比基准文件,确定待测服务器的状态监测结果,提高了服务器的状态监测效率和及时性。并且,通过对基准文件进行更新,避免出现重复报错的情况下,提高了服务器状态监测结果的准确性。并且,通过对目标硬件设备进行二次检查,以确保丢失或故障设备的异常情况能够被准确捕捉和处理,进一步提高了服务器状态监测结果的可靠性。
本申请实施例提供了一种服务器状态监测装置,用于执行上述实施例提供的服务器状态监测方法。
如图4所示,为本申请实施例提供的服务器状态监测装置的结构示意图。该服务器状态监测装置40包括:获取模块401、扫描模块402、生成模块403、对比模块404和监测模块405。
其中,获取模块,用于获取待测服务器的基准文件;扫描模块,用于对待测服务器中的硬件设备进行定期扫描,以得到各硬件设备的当前状态信息;生成模块,用于根据各硬件设备的当前状态信息,生成待测服务器的当前状态文件;对比模块,用于对比待测服务器的基准文件和当前状态文件之间的差异,得到待测服务器的状态变化信息;监测模块,用于根据待测服务器的状态变化信息,生成待测服务器的状态监测日志。
关于本实施例中的服务器状态监测装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例提供的服务器状态监测装置,用于执行上述实施例提供的服务器状态监测方法,其实现方式与原理相同,不再赘述。
本申请实施例提供了一种服务器集群系统,用于执行上述实施例提供的服务器状态监测方法。
如图5所示,为本申请实施例提供的服务器集群系统的结构示意图。该系统包括:基准服务器和多个待测服务器。
其中,基准服务器基于上述实施例提供的服务器状态监测方法,对各待测服务器进行状态监测。服务器集群中每个服务器的硬件配置相同。
具体地,可以在集群系统中选择一台具备代表性的服务器作为基准服务器。该服务器应包含集群中所有服务器的典型硬件配置。确保基准服务器的硬件配置稳定且无故障,作为后续比对的标准。对基准服务器进行全面扫描,获取其所有硬件设备的详细状态信息,包括设备类型、型号、位置、性能参数等。将扫描结果生成基准文件,确保基准文件准确、完整,记录基准服务器的硬件配置信息。
具体地,可以将生成的基准文件分发到集群中的其他服务器。确保每台服务器都可以访问基准文件,用以进行设备状态比对。在集群中其他服务器上部署监控工具,配置其定期或实时执行硬件设备扫描,获取当前服务器的硬件状态数据。
在实际应用中,可以定期对基准服务器进行重新扫描,以确保基准文件的时效性和准确性。根据实际情况对基准文件进行更新,并重新分发到集群中的其他服务器,保持基准文件的同步。
本申请实施例提供的服务器集群系统,通过选取某一服务器作为基准服务器,以其设备状态为标准,快速比对其他服务器的扫描结果,检测设备故障。并且,通过基准服务器通过采用上述实施例提供的服务器状态监测方法,对各待测服务器进行状态监测,简化了集群系统的设备监控过程,提高了检测效率和准确性。这种自动化、精准的监控方法大幅减少了人工干预,提高了运维效率,显著减少了因硬件故障引发的系统停机时间,提升了整体运行效率。
本申请实施例提供了一种电子设备,用于执行上述实施例提供的服务器状态监测方法。
如图6所示,为本申请实施例提供的电子设备的结构示意图。该电子设备60包括:至少一个处理器61和存储器62。
存储器存储计算机执行指令;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如上实施例提供的服务器状态监测方法。
本申请实施例提供的电子设备,用于执行上述实施例提供的服务器状态监测方法,其实现方式与原理相同,不再赘述。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上任一实施例提供的服务器状态监测方法。
本申请实施例提供的包含计算机可执行指令的存储介质,可用于存储前述实施例中提供的服务器状态监测方法的计算机执行指令,其实现方式与原理相同,不再赘述。
本申请实施例提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行前述实施例中提供的服务器状态监测方法。
本申请实施例提供的包含计算机程序产品,可用于执行前述实施例中提供的服务器状态监测方法的计算机指令,其实现方式与原理相同,不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种服务器状态监测方法,其特征在于,包括:
获取待测服务器的基准文件;
对所述待测服务器中的硬件设备进行定期扫描,以得到各所述硬件设备的当前状态信息;
根据各所述硬件设备的当前状态信息,生成所述待测服务器的当前状态文件;
对比所述待测服务器的基准文件和当前状态文件之间的差异,得到所述待测服务器的状态变化信息;
根据所述待测服务器的状态变化信息,生成所述待测服务器的状态监测日志。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述待测服务器的当前状态文件作为新的基准文件,以根据所述待测服务器的实际状态更新所述基准文件,并返回至所述对所述待测服务器中的硬件设备进行定期扫描,以得到各所述硬件设备的当前状态信息的步骤。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待测服务器的硬件设备列表;所述硬件设备列表包括所述待测服务器中所有已识别的硬件设备信息;
遍历所述硬件设备列表,以逐一检查所述硬件设备列表中的硬件设备信息,得到所述待测服务器中各硬件设备的热插拔特性检查结果;
根据所述待测服务器中各硬件设备的热插拔特性检查结果,在所述待测服务器中筛选目标硬件设备;
针对任一所述目标硬件设备,根据该目标硬件设备的设备类型和设备型号,确定与该目标硬件设备相匹配的目标接口;
基于与所述目标硬件设备相匹配的目标接口,采集所述目标硬件设备的当前目标状态信息;
或者,从所述目标硬件设备的状态寄存器,采集所述目标硬件设备的当前目标状态信息;
按照所述待测服务器的当前状态文件的数据格式,将所述目标硬件设备的当前目标状态信息与所述待测服务器的当前状态文件进行整合,以完善所述待测服务器的当前状态文件;
其中,所述目标硬件设备包括不支持热插拔的硬件设备。
4.根据权利要求1所述的方法,其特征在于,各所述硬件设备的当前状态信息包括:设备类型、设备型号、设备位置和设备性能参数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待测服务器的状态变化信息,生成所述待测服务器的状态监测日志,包括:
根据所述待测服务器的状态变化信息,对所述待测服务器发生的硬件变化进行分类,得到所述待测服务器的硬件变化分类结果;
根据所述待测服务器的硬件变化分类结果,生成所述待测服务器的状态监测日志;
其中,所述待测服务器的硬件变化类别至少分为设备异常、设备丢失和设备性能下降三种类型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待测服务器的状态监测日志,确定所述待测服务器的硬件维护策略;
其中,待测服务器的硬件维护策略至少包括告警策略和修复策略。
7.一种服务器状态监测装置,其特征在于,包括:
获取模块,用于获取待测服务器的基准文件;
扫描模块,用于对所述待测服务器中的硬件设备进行定期扫描,以得到各所述硬件设备的当前状态信息;
生成模块,用于根据各所述硬件设备的当前状态信息,生成所述待测服务器的当前状态文件;
对比模块,用于对比所述待测服务器的基准文件和当前状态文件之间的差异,得到所述待测服务器的状态变化信息;
监测模块,用于根据所述待测服务器的状态变化信息,生成所述待测服务器的状态监测日志。
8.一种服务器集群系统,其特征在于,包括:基准服务器和多个待测服务器;
所述基准服务器基于如权利要求1至6任一项所述的方法,对各所述待测服务器进行状态监测。
9.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的方法。
CN202411864368.2A 2024-12-17 2024-12-17 一种服务器状态监测方法、装置及服务器集群系统 Pending CN119806960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411864368.2A CN119806960A (zh) 2024-12-17 2024-12-17 一种服务器状态监测方法、装置及服务器集群系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411864368.2A CN119806960A (zh) 2024-12-17 2024-12-17 一种服务器状态监测方法、装置及服务器集群系统

Publications (1)

Publication Number Publication Date
CN119806960A true CN119806960A (zh) 2025-04-11

Family

ID=95267134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411864368.2A Pending CN119806960A (zh) 2024-12-17 2024-12-17 一种服务器状态监测方法、装置及服务器集群系统

Country Status (1)

Country Link
CN (1) CN119806960A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120492279A (zh) * 2025-07-17 2025-08-15 苏州元脑智能科技有限公司 服务器的监控方法、基板控制器、介质和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120492279A (zh) * 2025-07-17 2025-08-15 苏州元脑智能科技有限公司 服务器的监控方法、基板控制器、介质和系统

Similar Documents

Publication Publication Date Title
KR102773346B1 (ko) 자동 테스팅 동안 디바이스 결함의 근본 원인을 식별하기 위한 트래픽 캡쳐 및 디버깅 툴
US8176552B2 (en) Computer system, computer program product and method for assessing a profile of a computer system
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
US20160019131A1 (en) Methods and Arrangements to Collect Data
US11636028B2 (en) Stress test impact isolation and mapping
CN111522703A (zh) 监控访问请求的方法、设备和计算机程序产品
US8291379B2 (en) Runtime analysis of a computer program to identify improper memory accesses that cause further problems
CN111813585A (zh) 慢盘的预测和处理
US8843781B1 (en) Managing drive error information in data storage systems
CN119806960A (zh) 一种服务器状态监测方法、装置及服务器集群系统
CN120614276A (zh) 基于大数据分析的机房设备远程监测预警方法及系统
CN111209146A (zh) 一种raid卡老化测试方法及系统
CN114840599B (zh) 半导体源数据解析方法、etl系统、计算机设备和产品
CN114048085B (zh) 一种磁盘故障分析方法、装置、设备及可读存储介质
CN1889053A (zh) 系统信息的自动诊断方法
CN113806119A (zh) 存储卡处理方法、装置、设备及存储介质
CN119252317A (zh) Ram存储器的测试方法、装置、计算机设备及存储介质
CN118747165A (zh) 读取日志数据的方法、装置、计算机设备及存储介质
CN119088282A (zh) 一种硬盘信息获取方法、计算设备及存储介质
CN116820846A (zh) 一种优化smart信息位的固态硬盘分层测试方法、装置及介质
TW202138942A (zh) 用於流量捕獲及除錯工具之圖形使用者介面
CN116248543B (zh) 一种区块链性能测试方法、装置、电子设备及存储介质
CN120892275B (zh) 服务器内存的异常检测方法和电子设备
CN102789406B (zh) 主板测试辅助诊断方法及系统
CN111324543B (zh) 一种基于Dual BIOS中IE信息测试的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination