CN120803540A - 一种bmc配置管理方法、装置、设备及可读存储介质 - Google Patents
一种bmc配置管理方法、装置、设备及可读存储介质Info
- Publication number
- CN120803540A CN120803540A CN202510766191.0A CN202510766191A CN120803540A CN 120803540 A CN120803540 A CN 120803540A CN 202510766191 A CN202510766191 A CN 202510766191A CN 120803540 A CN120803540 A CN 120803540A
- Authority
- CN
- China
- Prior art keywords
- configuration
- bmc
- health
- current
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computer Security & Cryptography (AREA)
- Debugging And Monitoring (AREA)
Abstract
本说明书提供一种BMC配置管理方法、装置、设备及可读存储介质,该方法包括:响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度;根据当前使用的BMC配置更新最近一次正确配置还原点;根据当前使用的BMC配置更新最近一次错误配置还原点,调用并根据最近一次正确配置还原点还原BMC的配置。通过本说明书的技术方案,通过响应运行状态变更事件并评估BMC运行健康度,能及时更新最近一次正确和错误配置还原点。在系统异常时,可快速调用最近一次正确配置还原点还原BMC配置,有效减少因错误配置导致的数据丢失和服务中断风险,提升服务器运维效率,助力业务快速恢复,同时为问题定位提供依据。
Description
技术领域
本说明书涉及通信技术领域,尤其是涉及一种BMC配置管理方法、装置、设备及可读存储介质。
背景技术
在实际应用中,服务器配置变更已成为引发系统性风险的关键因素,导致了一系列的问题,包括但不限于BMC网络故障导致的带外管理中断、管理用户的信息丢失、防火墙黑白名单安全策略的篡改、固件参数配置引发的部件相关性能降低或兼容性问题、RAID卡缓存策略损坏造成的数据完整性质破坏等。这些问题基本都包含在BMC配置、BIOS配置和RAID卡配置中。统计显示,主要的服务器非计划停止事件与配置变更存在直接关联,严重影响关键业务的连续性和稳定性。
当前行业普遍采用用户手动备份配置文件机制来归档服务器系统历史配置信息,这种方式存在明显的缺陷。首先,无法生成可靠的还原点,因为用户主动创建的还原点可能不够及时和精准;其次,传统回滚方案需要人工介入流程,平均恢复时间往往超过行业可接受的恢复时间目标阈值。此外,手动导出和导入配置文件的过程繁琐,容易因本地配置文件损坏而导致恢复失败,不能确保在关键时间点进行有效的配置备份。
发明内容
有鉴于此,本说明书提供一种BMC配置管理方法、装置、设备及可读存储介质,以改善上述配置还原点创建不精确及时的问题。
具体地技术方案如下:
本说明书提供了一种BMC配置管理方法,应用于服务器,所述方法包括:响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度;响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点;响应于当前BMC运行健康度小于预设错误阈值的事件,根据当前使用的BMC配置更新最近一次错误配置还原点,调用并根据最近一次正确配置还原点还原BMC的配置。
作为一种技术方案,所述方法还包括:响应于诊断信令,调用并比较最近一次正确配置还原点、最近一次错误配置还原点,获取并示出最近一次正确配置还原点、最近一次错误配置还原点的差异。
作为一种技术方案,所述响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度,包括:响应于配置变更事件和/或负载异常变动事件和/或硬件变更事件,根据预设加权算法评估当前BMC运行健康度,所述预设加权算法的输入参数关联于当前配置和/或当前负载和/或当前硬件。
作为一种技术方案,所述响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点,包括:响应于当前BMC运行健康度大于预设健康阈值的事件,将现有最近一次正确配置还原点根据预设规则命名后存储,根据当前使用的BMC配置更新最近一次正确配置还原点。
本说明书同时提供了一种BMC配置管理装置,应用于服务器,所述装置包括:第一模块,用于响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度;第二模块,用于响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点;第三模块,用于响应于当前BMC运行健康度小于预设错误阈值的事件,根据当前使用的BMC配置更新最近一次错误配置还原点,调用并根据最近一次正确配置还原点还原BMC的配置。
作为一种技术方案,所述装置还包括:第四模块,用于响应于诊断信令,调用并比较最近一次正确配置还原点、最近一次错误配置还原点,获取并示出最近一次正确配置还原点、最近一次错误配置还原点的差异。
作为一种技术方案,所述响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度,包括:响应于配置变更事件和/或负载异常变动事件和/或硬件变更事件,根据预设加权算法评估当前BMC运行健康度,所述预设加权算法的输入参数关联于当前配置和/或当前负载和/或当前硬件。
作为一种技术方案,所述响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点,包括:响应于当前BMC运行健康度大于预设健康阈值的事件,将现有最近一次正确配置还原点根据预设规则命名后存储,根据当前使用的BMC配置更新最近一次正确配置还原点。
本说明书同时提供了一种电子设备,包括处理器和可读存储介质,所述可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的BMC配置管理方法。
本说明书同时提供了一种可读存储介质,所述可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的BMC配置管理方法。
本说明书提供的上述技术方案至少带来了以下有益效果:
通过响应运行状态变更事件并评估BMC运行健康度,能及时更新最近一次正确和错误配置还原点。在系统异常时,可快速调用最近一次正确配置还原点还原BMC配置,有效减少因错误配置导致的数据丢失和服务中断风险,提升服务器运维效率,助力业务快速恢复,同时为问题定位提供依据。
附图说明
为了更加清楚地说明本说明书实施方式或者现有技术中的技术方案,下面将对本说明书实施方式或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,还可以根据本说明书实施方式的这些附图获得其他的附图。
图1是本说明书一种实施方式中的BMC配置管理方法的流程图;
图2是本说明书一种实施方式中的BMC配置管理装置的结构图;
图3是本说明书一种实施方式中的BMC配置管理装置的结构图;
图4是本说明书一种实施方式中的电子设备的硬件结构图。
附图标记:第一模块21,第二模块22,第三模块23,第四模块24。
具体实施方式
在本说明书实施方式使用的术语仅仅是出于描述特定实施方式的目的,而非限制本说明书。本说明书和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书实施方式可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
有鉴于此,本说明书提供一种BMC配置管理方法、装置、设备及可读存储介质,以至少改善上述技术问题之一。
具体地技术方案如后述。
在一种实施方式中,本说明书提供了一种BMC配置管理方法,应用于服务器,所述方法包括:响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度;响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点;响应于当前BMC运行健康度小于预设错误阈值的事件,根据当前使用的BMC配置更新最近一次错误配置还原点,调用并根据最近一次正确配置还原点还原BMC的配置。
具体地,如图1,包括以下步骤:
步骤S11,响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度。
在服务器运行过程中,每当检测到BMC配置发生变更事件时,系统会自动启动预设算法评估当前BMC的运行健康度。该算法综合考虑多个因素,如网络连接状况、用户访问响应时间、错误日志数量等,通过加权计算得出一个实时健康评分。这个评分能够反映BMC当前运行状态的好坏程度,是后续操作的重要依据。例如,如果某次变更后,BMC出现了频繁的网络中断现象,这将导致其健康评分显著下降;相反,如果变更未引起任何异常,健康评分则保持较高水平。
步骤S12,响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点。
当BMC运行健康度大于预设的健康阈值时,表明当前配置是可靠的且没有影响到系统的正常运作,根据当前使用的BMC配置更新最近一次正确配置还原点,以便于在未来出现问题时能够迅速恢复。
比如,在进行固件升级之后,若所有监控指标均显示正常,系统就会自动生成更新“最近一次正确配置”快照,保存此次成功的变更。这样做不仅记录了最新的稳定配置,也为未来可能出现的问题提供了解决方案。同时,由于这些快照可以存储在BMC flash或嵌入式eMMC等非易失性存储介质上,即使发生掉电也不会丢失数据,进一步增强了数据的安全性和可靠性。
步骤S13,响应于当前BMC运行健康度小于预设错误阈值的事件,根据当前使用的BMC配置更新最近一次错误配置还原点,调用并根据最近一次正确配置还原点还原BMC的配置。
如果当前BMC运行健康度低于预设的错误阈值,则意味着现有配置存在问题,可能导致系统不稳定或服务中断,系统根据当前使用的BMC配置更新最近一次错误配置还原点。与正确配置不同的是,这个还原点仅在检测到问题时才会更新一次,主要用于记录导致故障的具体配置情况。
例如,如果某个固件参数调整导致了严重的性能下降,系统会在第一时间捕捉到这一变化并生成一个错误配置快照。这使得管理员可以轻松地回溯至故障发生前的状态,对比分析两个还原点之间的差异,快速定位问题根源。此外,通过调用并根据最近一次正确配置还原点来恢复BMC的配置,可以在最短时间内恢复正常服务,减少因配置错误造成的损失。
在一种实施方式中,所述方法还包括:响应于诊断信令,调用并比较最近一次正确配置还原点、最近一次错误配置还原点,获取并示出最近一次正确配置还原点、最近一次错误配置还原点的差异。
在一种实施方式中,所述响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度,包括:响应于配置变更事件和/或负载异常变动事件和/或硬件变更事件,根据预设加权算法评估当前BMC运行健康度,所述预设加权算法的输入参数关联于当前配置和/或当前负载和/或当前硬件。
在一种实施方式中,所述响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点,包括:响应于当前BMC运行健康度大于预设健康阈值的事件,将现有最近一次正确配置还原点根据预设规则命名后存储,根据当前使用的BMC配置更新最近一次正确配置还原点。
在一种实施方式中,实现对服务器BMC配置的智能化、动态化管理,以便在服务器配置发生变更时,能够及时准确地评估当前BMC的运行健康度,并根据评估结果动态更新相应的配置还原点,从而为快速恢复正确的BMC配置提供有力支持。
首先,在服务器的BMC中预设一套专门用于评估BMC运行健康度的算法。该算法综合考虑了多个与BMC运行状态密切相关的指标,例如BMC网络的连通性、响应延迟、管理用户信息的完整性和一致性、防火墙黑白名单安全策略的有效性、固件参数配置的合理性以及RAID卡缓存策略的稳定性等。通过对这些关键指标进行实时监测和数据采集,然后按照预设算法中设定的权重和计算规则进行综合处理,得出一个能够反映当前BMC运行健康状况的量化值,即BMC运行健康度。
当服务器的运行状态发生变更事件时,例如服务器进行了BMC配置的更新操作、系统重启或者检测到某些关键硬件参数的变化等,BMC触发对当前BMC运行健康度的评估流程。此时,预设的健康评估算法开始发挥作用,根据上述提到的各个监测指标的实时数据,计算出当前的BMC运行健康度数值。
将计算出的BMC运行健康度与预设的健康阈值进行比较。这个预设健康阈值是根据服务器正常运行时BMC的理想健康状态以及业务对服务器性能和稳定性的要求而设定的一个基准值,通常代表了BMC运行在较为稳定、可靠的水平。
如果当前BMC运行健康度大于或等于这个预设健康阈值,说明此时BMC的配置处于一个良好的状态,能够支撑服务器的正常稳定运行。根据当前正在使用的BMC配置,更新存储在BMC本地闪存或者嵌入式eMMC等非易失性存储介质中的最近一次正确配置还原点。
这个更新操作可以并非简单的替换原有数据,可以采用一种数据备份和验证机制,确保新的正确配置还原点能够完整、准确地保存当前BMC的配置参数,并且在存储过程中不会对服务器的正常运行造成干扰。例如,在更新过程中,系统可能会先将当前的BMC配置数据生成一个临时的快照文件,然后对该快照文件进行完整性校验和格式验证,只有在确认无误后,才会将其作为新的最近一次正确配置还原点存储起来,同时保留之前的若干个历史正确配置还原点,以便在需要时用户可以有多个选择进行回滚操作。
若当前BMC运行健康度小于预设的错误阈值,这表明服务器的BMC配置已经出现了较为严重的问题,可能导致服务器出现各种异常情况,如网络管理功能失效、安全策略失效等。此时,一方面根据当前使用的BMC配置更新最近一次错误配置还原点,这一步骤同样是基于对当前配置状态的完整记录,保存下出现故障时的配置快照,为后续的问题分析和诊断提供依据;另一方面,自动调用之前保存的最近一次正确配置还原点,并依据该还原点所包含的配置参数,对BMC的配置进行还原操作。
在还原过程中,系统会严格按照还原点中的配置信息,逐步恢复BMC的各项设置,包括网络参数、用户权限配置、安全策略等。同时,在还原操作执行的过程中,还会实时监测服务器的各项运行指标,以确保还原操作的顺利进行以及还原后BMC的正常工作。例如,在还原BMC络参数时,系统会先断开原有的网络连接,然后按照正确配置还原点中的IP地址、子网掩码、网关等信息重新配置网络接口,并在配置完成后立即验证网络的连通性,确保BMC能够重新恢复对外的网络管理功能。
在用户可交互的管理界面中,用户可以手动触发配置还原点的创建操作,例如在进行一次重大的BMC配置升级之前,提前生成一个手动的正确配置还原点,以便在升级出现问题时能够快速回滚。同时,用户也可以对已有的还原点进行删除、重命名等操作,以保持存储空间的合理利用和还原点的有序管理。并且,当系统自动更新正确或错误配置还原点时,用户会在管理界面上收到相应的通知信息,包括更新的时间、更新的原因以及新旧还原点的对比差异等,使用户能够及时了解服务器BMC配置的变化情况。
以一个应用场景为例,某数据中心服务器在运行过程中,由于误操作,修改了BMC的网络配置,导致BMC的带外管理功能出现故障,无法通过网络对服务器进行远程监控和管理。此时,服务器的BMC运行健康度评估算法会迅速检测到网络连通性指标的异常下降,从而计算出当前BMC运行健康度低于预设的错误阈值。系统立即响应,一方面根据当前错误的BMC配置更新最近一次错误配置还原点,记录下错误的网络参数配置情况;另一方面,自动调用之前保存的最近一次正确配置还原点,开始还原BMC的网络配置。在还原过程中,系统根据正确还原点中的网络参数,重新配置BMC的IP地址、子网掩码、网关等信息,并验证网络连通性。完成还原后,BMC的带外管理功能恢复正常,管理员再次可以通过网络对服务器进行正常的远程管理操作,从而将因配置错误导致的业务中断时间缩短到最短限度。
在服务器进行固件升级的过程中,新的固件版本可能与现有的RAID卡配置存在兼容性问题,导致服务器的存储性能下降,甚至出现数据丢失的风险。此时,BMC的运行健康度评估算法会根据RAID卡缓存策略稳定性指标以及存储性能指标的变化,计算出当前BMC运行健康度低于错误阈值。系统随即更新最近一次错误配置还原点,记录下因固件升级导致的配置问题。同时,调用最近一次正确配置还原点,将RAID卡的相关配置参数恢复到升级前的稳定状态,从而确保服务器的存储系统恢复正常运行,保护数据的完整性和安全性。
通过上述实施方式,服务器能够在面对配置变更带来的各种风险时,实现自动化的配置状态监测、健康评估和动态还原点更新,大大提高了服务器运维的效率和可靠性,降低了因配置错误导致的业务中断风险,为企业的关键业务提供了更加稳定、安全的运行环境。
为了确保BMC配置管理方法的高效性和准确性,还可以对以下几个方面进行优化和改进。
首先是健康评估算法的优化。在实际应用中,不同的服务器环境和业务需求可能对BMC的各个运行指标的敏感度和重要性有所不同。因此,需要根据具体的使用场景,对健康评估算法中的各个指标权重进行动态调整。例如,在一个对网络安全要求极高的数据中心,防火墙黑白名单安全策略的有效性指标的权重可能会被设置得更高;而在一个注重服务器性能优化的计算集群中,固件参数配置对部件性能的影响指标权重则会相对更大。通过对算法的不断优化和调整,使得BMC运行健康度的评估结果更加符合实际的运行状况,从而提高配置还原点更新的及时性和准确性。
其次是存储介质的选择和管理。由于BMC配置还原点的数据需要在服务器掉电后依然能够完整保存,因此通常会选择非易失性存储介质进行存储,如BMC本地闪存、嵌入式eMMC或者服务器的SSD等。不同的存储介质在存储容量、读写速度、数据可靠性等方面各有优缺点。例如,BMC本地闪存和嵌入式eMMC具有读写速度快、延迟低的优点,但存储容量相对较小;而服务器的SSD存储容量较大,能够保存更多的历史配置还原点,但读写速度相对较慢,并且频繁的读写操作可能会对SSD的寿命产生一定影响。因此,在实际应用中,需要根据服务器的配置情况和业务需求,合理选择存储介质,并且制定相应的存储策略,如自动清理过期的还原点、对存储空间进行动态分配等,以确保有足够的存储空间用于保存重要的配置还原点数据。
另外,为了提高系统的安全性和数据的完整性,在存储和更新配置还原点时,可以采用加密算法对数据进行加密处理,防止配置信息被恶意篡改或者泄露。同时,在每次更新还原点之前,可以对当前的BMC配置进行完整性校验和病毒扫描,确保保存的还原点数据是安全可靠的。
为了实现更加全面的服务器配置管理,可与服务器的硬件监控系统相结合,将BMC的运行健康度评估结果与服务器的硬件状态信息(如CPU温度、内存使用率、硬盘健康状况等)进行综合分析,从而更全面地了解服务器的整体运行状况。当出现配置变更导致BMC运行健康度下降时,可以同时检查硬件状态是否也存在异常,以便准确判断问题的根源是纯配置问题还是配置与硬件相互影响的结果。比如,若BMC的配置变更导致服务器的风扇转速控制出现异常,进而引起CPU温度过高,通过与硬件监控系统的协同工作,能够及时发现这一连锁反应,并采取相应的措施,如先恢复BMC的正确配置还原点,再对硬件散热系统进行检查和维护,从而有效避免因单一配置问题引发的硬件故障,提高服务器的整体可靠性。
也可以与服务器的软件管理系统相集成,当服务器上的应用程序或者操作系统进行更新、升级等操作时,BMC可以提前感知这些变化,并根据应用程序对BMC配置的依赖关系,自动调整BMC的运行健康评估算法中的相关指标权重,或者提前生成相应的配置还原点。例如,当服务器上运行的关键业务软件升级后,可能对BMC的网络带宽响应和速度有了更高的要求,此时BMC配置管理方法可以与软件管理系统协同,增加网络相关指标在健康评估算法中的权重,并在软件升级完成的同时,根据当前新的BMC配置生成一个正确配置还原点,以便在后续出现因软件升级引发的BMC配置兼容性问题时,能够快速恢复到与新软件相适应的正确配置状态,确保业务软件的正常运行。
此外,在多服务器集群环境中,可以对整个集群内所有服务器的BMC配置进行统一管理和监控。通过在集群管理软件中集成BMC配置管理功能,管理员可以方便地对集群内每一台服务器的BMC运行健康度进行实时监测,批量创建、更新和回滚配置还原点,并且能够对集群内服务器之间的BMC配置进行一致性检查和同步管理。例如,在一个大型的数据中心,拥有成百上千台服务器,通过集群管理系统的集成,管理员可以一键生成所有服务器的BMC配置还原点,或者在发现某一台服务器的BMC出现配置问题时,快速定位到相关的错误配置还原点,并将其BMC配置恢复到正确的状态,同时还可以将该正确配置推广到其他可能存在类似风险的服务器上,从而大大提高数据中心的运维效率和管理质量。
在安全防护方面,进一步加强BMC配置管理方法的安全机制,防止恶意攻击者利用BMC配置管理功能对服务器进行破坏。例如,采用多因素认证技术,对用户访问BMC配置管理界面和执行还原点操作进行严格的身份验证,确保只有授权的管理员能够进行相关的配置管理操作。同时,对BMC配置还原点的存储和传输过程进行更高级别的加密保护,防止配置数据被窃取或者篡改。此外,还可以设置访问控制策略,限制不同用户对BMC配置还原点的查看和操作权限,例如普通运维人员只能查看和回滚到特定的还原点,而高级管理员则拥有对所有还原点的完全管理权限,从而形成多层次的安全防护体系,保障服务器BMC配置管理的安全性。
在一种实施方式中,如图2,本说明书同时提供了一种BMC配置管理装置,应用于服务器,所述装置包括:第一模块,用于响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度;第二模块,用于响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点;第三模块,用于响应于当前BMC运行健康度小于预设错误阈值的事件,根据当前使用的BMC配置更新最近一次错误配置还原点,调用并根据最近一次正确配置还原点还原BMC的配置。
在一种实施方式中,如图3,所述装置还包括:第四模块,用于响应于诊断信令,调用并比较最近一次正确配置还原点、最近一次错误配置还原点,获取并示出最近一次正确配置还原点、最近一次错误配置还原点的差异。
在一种实施方式中,所述响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度,包括:响应于配置变更事件和/或负载异常变动事件和/或硬件变更事件,根据预设加权算法评估当前BMC运行健康度,所述预设加权算法的输入参数关联于当前配置和/或当前负载和/或当前硬件。
在一种实施方式中,所述响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点,包括:响应于当前BMC运行健康度大于预设健康阈值的事件,将现有最近一次正确配置还原点根据预设规则命名后存储,根据当前使用的BMC配置更新最近一次正确配置还原点。
在一种实施方式中,依赖于服务器中BMC固件内实现的一个持续运行的监控进程(通常可称为HealthMonitor进程)。该进程具备实时或近实时(例如,按预设周期,如每秒、每5秒或每分钟,具体周期可根据服务器负载和精度要求配置)采集一系列关键性能指标(KPIs)和状态信号的能力。这些被监控的指标是判断BMC乃至服务器整体健康度的基础,它们广泛覆盖了影响系统稳定性的关键领域。
典型的监控指标包括但不限于:BMC网络连通性指标(如带外管理端口的链路状态、与上游交换机或管理站的Ping成功率、ARP表状态、TCP连接建立成功率等)、BMC核心服务进程状态(如Web服务、Redfish/RESTful API服务、IPMI服务、SNMP代理、KVM over IP服务、虚拟媒体服务的运行状态与资源占用率)、BMC硬件传感器读数(如BMC自身及关联的CPU/内存/PCH等关键组件的温度、电压、风扇转速是否在安全范围内)、用户会话与管理活动状态(如当前活跃的管理员会话数、认证失败频率、配置修改操作的频率与类型)、BMC日志信息(如系统事件日志SEL中记录的严重错误、警告事件的数量和类型,特别是与配置变更或服务失败相关的条目)、与主机系统及关键固件的通信状态(如与主机BIOS的通信心跳是否正常、能否成功读取BIOS配置、与RAID控制器管理模块的通信状态)、BMC自身资源利用率(如CPU占用率、内存使用量、文件系统空间状况)等。
这些指标构成了评估BMC运行健康度的原始数据池。为了将这些异构的、量纲不同的原始数据转化为一个统一的、可量化的健康度分值,预设一个健康度评估算法,该算法采用加权评分模型。
具体实施时,对每一个监控指标定义一个权重系数(Weight),该权重反映了该指标对整体健康度影响的重要程度。例如,网络连通性的权重可能非常高(例如0.4),因为它是带外管理的基础;核心服务进程宕机的权重也很高(例如0.3);而日志中的非关键警告权重可能较低(例如0.05)。每个指标根据其当前状态或数值,被映射到一个0到100分(或0到1.0)的单项得分(Score)。单项得分的计算规则可以多样化,例如:布尔型状态(如网络通/断)可用100分(通)和0分(断)表示;范围型指标(如CPU占用率)可设计为线性或非线性的扣分函数(如占用率<70%得100分,70%-80%得80分,80%-90%得60分,>90%得0分);计数型指标(如错误日志条数)可设定阈值进行扣分(如0条错误100分,1-2条80分,3-5条50分,>5条0分)。最终,当前BMC运行健康度(HealthScore)通过加权求和公式计算得出:HealthScore=Σ(Weight_i*Score_i),其中i遍历所有被监控的指标。这个计算出的HealthScore是一个动态变化的数值,实时反映了BMC及关联系统的综合健康状态。系统管理员可以根据业务需求和对风险的容忍度,预先配置两个关键阈值:预设健康阈值(HealthyThreshold)和预设错误阈值(FaultThreshold)。通常,HealthyThreshold设定为一个较高的值(例如85分),表明系统处于良好状态;FaultThreshold设定为一个较低的值(例如50分),表明系统已进入不稳定或故障状态。这两个阈值是触发还原点创建和恢复操作的门限。
整个方法的运行是由运行状态的变更事件驱动的。这里的“变更事件”是一个广义的概念,它既包括由监控进程周期性地计算并发现HealthScore发生变化(无论变化大小),也包括一些特定的、能显著改变系统状态的离散事件被触发。后者例如:管理员通过Web界面、Redfish API或IPMI命令显式修改了BMC的任何配置项(如IP地址、用户密码、SNMP Trap目标、KVM加密设置、电源策略等);BMC检测到自身或关联硬件(如风扇故障、温度超限)触发了严重告警(SEL记录Critical事件);关键服务进程意外终止或重启;检测到与主机BIOS或RAID卡的通信中断等。当此类变更事件发生时(无论是周期性监控发现HealthScore变化,还是特定事件触发),监控进程会立即(或在下一个监控周期)启动健康度评估流程,即根据预设算法计算出当前的HealthScore。
接下来,系统会根据计算出的HealthScore与预设阈值的比较结果,执行不同的操作。
响应于当前BMC运行健康度大于预设健康阈值的事件(即HealthScore>HealthyThreshold)。这种情况表明服务器在经历了可能的配置变更或事件后,其状态仍然被评估为健康稳定,是创建或更新“黄金标准”还原点的理想时机。因此,系统会执行“根据当前使用的BMC配置更新最近一次正确配置还原点”的操作。该操作的详细步骤如下:首先,BMC会生成一份其当前使用的完整配置数据的快照。这份快照包含了BMC所有关键的、可管理的配置项,例如:网络配置(IP地址、子网掩码、网关、VLAN ID、DNS服务器)、用户账户信息(用户名、权限、密码哈希值或加密凭证)、安全设置(SSL/TLS证书、密码复杂度策略、访问控制列表ACL、IP过滤规则)、服务配置(启用的服务端口、会话超时、KVM视频质量与压缩设置)、硬件监控阈值(温度、电压、风扇转速的告警门限)、固件更新设置(自动更新策略)、电源与重启策略、日志设置(SEL存储策略、远程Syslog服务器)、以及与主机相关的配置桥接信息等。这份配置快照数据需要被序列化成一种结构化的、便于存储和后续比较的格式,例如JSON、XML或自定义的二进制格式。然后,这份序列化后的配置数据,连同精确的时间戳(例如UTC时间,精确到毫秒)以及可选的健康度分值、触发原因(如“周期监控”或“配置修改后”)等元数据,被写入一个特定的、被系统内部标识为LastKnownGoodConfig的文件或存储块中。无论之前是否存在LastKnownGoodConfig,该操作都会用当前的健康配置完全覆盖旧的存储内容。这意味着在这种配置下LastKnownGoodConfig永远只保存一份数据——即最近一次满足健康阈值条件时的配置快照。它不是一个历史列表,而是一个动态更新的、始终代表“已知可靠的最新良好状态”的单点还原基准。此配置还原点需要存储在非易失性存储器中,以确保服务器断电后数据不丢失。具体存储位置可以是BMC板载的Flash芯片的专用分区、嵌入式eMMC存储芯片的预留空间,或者如果BMC有访问权限,也可以加密后存储在服务器主机操作系统的SSD/NVMe硬盘上的特定安全目录内。选择存储在SSD时需要确保主机OS或文件系统故障不会影响BMC独立访问该还原点。
响应于当前BMC运行健康度小于预设错误阈值的事件(即HealthScore<FaultThreshold)。这种情况表明系统检测到严重问题,BMC或受其管理的相关部分处于非健康或不稳定状态,通常伴随着功能性故障(如带外管理网络中断、Web服务不可访问、关键告警频发)。此时,根据当前使用的BMC配置更新最近一次错误配置还原点。此操作与更新正确还原点类似:首先,捕获BMC的当前完整配置(此时很可能包含引发问题的错误配置),序列化并附加上时间戳、触发时的健康度分值、错误事件详情(如关联的SEL事件ID)等元数据。然后,将这份数据写入另一个特定的、被标识为LastKnownFaultConfig的文件或存储块。同样,“更新”意味着覆盖旧内容,因此LastKnownFaultConfig也仅保存最近一次触发错误阈值时的配置快照。存储位置要求与非易失性要求与LastKnownGoodConfig相同。创建此还原点的核心目标是精确记录问题发生时刻的系统配置状态,为后续的问题诊断提供关键证据。调用并根据最近一次正确配置还原点还原BMC的配置。在生成错误还原点的同时或之后(通常是立即,以最小化故障影响),系统会自动启动配置恢复流程。该操作首先读取存储在LastKnownGoodConfig位置的最新数据。然后,BMC会解析这份序列化的配置数据,并将其与当前运行的有问题的配置进行比对。系统设计一个安全的、原子性的配置还原引擎。此引擎执行还原操作,可能包括:首先,根据还原点数据,逐项恢复网络设置、用户账户、安全策略、服务参数等。这个过程需要处理依赖关系(如先恢复网络才能连接外部验证源)和潜在冲突。还原引擎需要具备回滚能力,如果在还原过程中遇到无法解决的错误(例如还原点中的某个配置项在当前环境下不合法或应用失败),引擎应能够中止还原操作,并尝试恢复到还原开始前的状态(或者至少记录详细的错误日志),避免造成更严重的系统僵死。
重启后,BMC加载的将是来自LastKnownGoodConfig的“正确配置”。系统(或监控进程)在BMC重启并完成初始化后,会再次进行健康度评估。预期结果是HealthScore应回升到高于FaultThreshold,甚至可能接近或超过HealthyThreshold,表明系统已从错误状态中恢复,业务连续性得到保障。该操作的核心目标是无需人工干预,在检测到严重故障时,自动、快速地将系统回滚到已知的良好配置状态,最大限度缩短服务中断时间(MTTR)。
在一个场景中,错误网络配置导致带外管理中断,管理员在Web界面修改BMC的IP地址时输入错误,将子网掩码255.255.255.0误输为255.255.0.0。保存后,由于IP地址与子网不匹配,导致BMC无法与网关通信,带外管理网络中断。Web界面无法访问,SSH连接断开。
配置修改事件触发健康度评估。网络连通性指标(Ping网关失败)得分骤降,导致HealthScore急剧下降至FaultThreshold以下(例如30分)。系统立即创建LastKnownFaultConfig,记录下包含错误子网掩码的当前配置。系统立即读取LastKnownGoodConfig(其HealthScore保存时是95分,包含正确的网络配置)。还原引擎应用正确配置(特别是子网掩码)。BMC自动重启。重启后,BMC加载正确网络配置,带外管理网络恢复。管理员重新登录后,在还原点管理界面看到LastKnownFaultConfig和LastKnownGoodConfig的时间戳。使用Diff功能,立即发现子网掩码是唯一变更且错误的配置项。
管理中断时间从可能的手动恢复所需小时级(需现场操作或串口连接),缩短到几分钟(BMC重启时间)。问题配置被精确锁定。
在一种实施方式中,本说明书提供了一种电子设备,包括处理器和可读存储介质,所述可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的BMC配置管理方法,从硬件层面而言,硬件架构示意图可以参见图4所示。
在一种实施方式中,本说明书提供了一种可读存储介质,所述可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的BMC配置管理方法。
这里,可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,可读存储介质可以是:RAM(RadomAccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施方式可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本说明书实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域技术人员应明白,本说明书的实施方式可提供为方法、系统或计算机程序产品。因此,本说明书可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且,本说明书可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本说明书的实施方式而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种BMC配置管理方法,其特征在于,应用于服务器,所述方法包括:
响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度;
响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点;
响应于当前BMC运行健康度小于预设错误阈值的事件,根据当前使用的BMC配置更新最近一次错误配置还原点,调用并根据最近一次正确配置还原点还原BMC的配置。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于诊断信令,调用并比较最近一次正确配置还原点、最近一次错误配置还原点,获取并示出最近一次正确配置还原点、最近一次错误配置还原点的差异。
3.根据权利要求1所述的方法,其特征在于,所述响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度,包括:
响应于配置变更事件和/或负载异常变动事件和/或硬件变更事件,根据预设加权算法评估当前BMC运行健康度,所述预设加权算法的输入参数关联于当前配置和/或当前负载和/或当前硬件。
4.根据权利要求1所述的方法,其特征在于,所述响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点,包括:
响应于当前BMC运行健康度大于预设健康阈值的事件,将现有最近一次正确配置还原点根据预设规则命名后存储,根据当前使用的BMC配置更新最近一次正确配置还原点。
5.一种BMC配置管理装置,其特征在于,应用于服务器,所述装置包括:
第一模块,用于响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度;
第二模块,用于响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点;
第三模块,用于响应于当前BMC运行健康度小于预设错误阈值的事件,根据当前使用的BMC配置更新最近一次错误配置还原点,调用并根据最近一次正确配置还原点还原BMC的配置。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第四模块,用于响应于诊断信令,调用并比较最近一次正确配置还原点、最近一次错误配置还原点,获取并示出最近一次正确配置还原点、最近一次错误配置还原点的差异。
7.根据权利要求5所述的装置,其特征在于,所述响应于运行状态的变更事件,根据预设算法评估当前BMC运行健康度,包括:
响应于配置变更事件和/或负载异常变动事件和/或硬件变更事件,根据预设加权算法评估当前BMC运行健康度,所述预设加权算法的输入参数关联于当前配置和/或当前负载和/或当前硬件。
8.根据权利要求5所述的装置,其特征在于,所述响应于当前BMC运行健康度大于预设健康阈值的事件,根据当前使用的BMC配置更新最近一次正确配置还原点,包括:
响应于当前BMC运行健康度大于预设健康阈值的事件,将现有最近一次正确配置还原点根据预设规则命名后存储,根据当前使用的BMC配置更新最近一次正确配置还原点。
9.一种电子设备,其特征在于,包括:处理器和可读存储介质,所述可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令,以实现权利要求1-4任一所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-4任一所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510766191.0A CN120803540A (zh) | 2025-06-10 | 2025-06-10 | 一种bmc配置管理方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510766191.0A CN120803540A (zh) | 2025-06-10 | 2025-06-10 | 一种bmc配置管理方法、装置、设备及可读存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN120803540A true CN120803540A (zh) | 2025-10-17 |
Family
ID=97316545
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510766191.0A Pending CN120803540A (zh) | 2025-06-10 | 2025-06-10 | 一种bmc配置管理方法、装置、设备及可读存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN120803540A (zh) |
-
2025
- 2025-06-10 CN CN202510766191.0A patent/CN120803540A/zh active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11108859B2 (en) | Intelligent backup and recovery of cloud computing environment | |
| US7975165B2 (en) | Management of information technology risk using virtual infrastructures | |
| JP7436737B1 (ja) | マルチベンダーを支援するサーバ管理システム | |
| TWI474213B (zh) | 具攻擊防護機制的雲端系統及其防護方法 | |
| US11706080B2 (en) | Providing dynamic serviceability for software-defined data centers | |
| WO2019169724A1 (zh) | 服务器并发数控制方法、装置、计算机设备及存储介质 | |
| CN105607973B (zh) | 一种虚拟机系统中设备故障处理的方法、装置及系统 | |
| CN103875210A (zh) | 在通信环境中提供动态可靠性和安全性 | |
| CN111752800B (zh) | 一种计算机系统及应用程序的监控方法及监控装置 | |
| CN110224880B (zh) | 一种心跳监测方法及监控设备 | |
| EP3591530A1 (en) | Intelligent backup and recovery of cloud computing environment | |
| WO2021217239A1 (en) | Endpoint security using an action prediction model | |
| WO2015034619A1 (en) | Rootkit detection in a computer network | |
| CN103916376A (zh) | 具攻击防护机制的云端系统及其防护方法 | |
| CN117472623A (zh) | 处理内存故障的方法、装置、设备及存储介质 | |
| RU2573783C1 (ru) | Система и способ изменения функционала приложения | |
| CN120872675A (zh) | 设备自修复方法、智能设备、存储介质与产品 | |
| CN120386547A (zh) | 一种动态库的热更新方法及系统 | |
| JP6041727B2 (ja) | 管理装置、管理方法及び管理プログラム | |
| KR101783201B1 (ko) | 서버 통합 관리 시스템 및 방법 | |
| CN120803540A (zh) | 一种bmc配置管理方法、装置、设备及可读存储介质 | |
| CN119806745A (zh) | 云平台虚拟机操作系统异常检测及恢复方法、设备和介质 | |
| CN118869788A (zh) | 一种适配多企业的堡垒机处理方法、堡垒机、产品及介质 | |
| CN111819557B (zh) | 监控IoT设备的方法及其在IoT设备电池保护看门狗上的用途 | |
| KR20230073469A (ko) | 장애 대응이 가능한 서버 관리 시스템 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |