CN111722954A - 服务器异常定位方法、装置、存储介质及服务器 - Google Patents
服务器异常定位方法、装置、存储介质及服务器 Download PDFInfo
- Publication number
- CN111722954A CN111722954A CN202010623604.7A CN202010623604A CN111722954A CN 111722954 A CN111722954 A CN 111722954A CN 202010623604 A CN202010623604 A CN 202010623604A CN 111722954 A CN111722954 A CN 111722954A
- Authority
- CN
- China
- Prior art keywords
- server
- bios
- restart
- event log
- system event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2268—Logging of test results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供了一种服务器异常定位方法、装置、存储介质及服务器,所述方法包括:当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型;根据所述系统事件日志获取所述服务器的重启状态信息;根据所述重启状态信息判断所述服务器的故障位置。本申请根据所述重启状态信息判断所述服务器的故障位置,从而实现故障定位,便于快速找到故障位置,提高服务器维护效率。
Description
技术领域
本申请涉及服务器维护技术领域,具体而言,涉及一种服务器异常定位方法、装置、存储介质及服务器。
背景技术
随着云计算的兴起,数据中心中部署的X86服务器数量成倍增加。监控和诊断这些服务器出现的异常现象,特别是异常的宕机和重启,是服务器研发和运维部门非常重要的一个工作。服务器的主板管理器承担了这一监控故障和异常重启的责任。
目前使用的技术中,主板管理器依赖于其记录BIOS端发送的SEL事件记录。通过这些BIOS发来的事件记录来判断服务器启动到了哪个阶段,是否发生了异常重启。但是,实际服务器异常故障的时候,BIOS还没有来得及跑第一条指令。在这种情况下,很难判断系统出现的黑屏现象原因是什么,也无法判断系统是否已经发生了重启,从而造成了故障现象无法定位。
针对上述问题,目前尚未有有效的技术解决方案。
发明内容
本申请实施例的目的在于提供一种服务器异常定位方法、装置、存储介质及服务器,提高服务器维护效率。
第一方面,本申请实施例提供了一种服务器异常定位方法,所述服务器包括处理器、复杂可编程逻辑器件、主板管理器、BIOS、南桥芯片,所述复杂可编程逻辑器件分别与所述主板管理器、所述南桥芯片以及所述处理器连接,所述南桥芯片分别与所述BIOS以及所述处理器连接,所述BIOS与所述主板管理器连接;所述方法应用于所述主板管理器中;所述方法应用于所述主板管理器中,所述方法包括:
当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型;
根据所述系统事件日志获取所述服务器的重启状态信息;
根据所述重启状态信息判断所述服务器的故障位置。
可选地,在本申请实施例所述的服务器异常定位方法中,所述查询存储在所述主板管理器中的系统事件日志的步骤之前,还包括:
当检测到复杂可编程逻辑器件的EventTrigger中断信号时,读取所述复杂可编程逻辑器件内存储的计数器的计数值以及重启类型参数;
当所述计数器的计数值相对上次读取的计数器的计数值发生变化时,则判断所述服务器发生重启,并根据重启类型参数生成对应的重启事件记录;
根据所述重启事件记录对所述系统事件日志中的第一系统事件日志进行更新。
可选地,在本申请实施例所述的服务器异常定位方法中,所述系统事件日志还包括第二系统事件日志;所述第二系统事件日志用于判断系统重启进入BIOS后的达到的阶段,所述第二系统事件日志基于所述BIOS的多个运行事件记录生成。
可选地,在本申请实施例所述的服务器异常定位方法中,所述重启状态信息包括:所述服务器的重启类型以及所述服务器重启达到的阶段。
可选地,在本申请实施例所述的服务器异常定位方法中,所述多个运行事件记录包括BIOS启动事件记录;
所述方法还包括以下步骤:
接收所述BIOS发送的BIOS启动事件记录,所述BIOS启动事件记录在所述BIOS开始启动时生成;
根据所述BIOS启动事件记录对所述第二系统事件日志进行更新。
可选地,在本申请实施例所述的服务器异常定位方法中,所述多个运行事件记录还包括显示初始化完成事件记录;
所述方法还包括以下步骤:
接收所述BIOS发送的显示参数初始化完成事件记录,所述显示参数初始化完成事件记录在所述BIOS完成对显示参数初始化操作后生成;
根据所述显示参数初始化完成事件记录对所述第二系统事件日志进行更新。
可选地,在本申请实施例所述的服务器异常定位方法中,所述多个运行事件记录还包括BIOS启动完成事件记录;
所述方法还包括以下步骤:
接收所述BIOS发送的BIOS启动完成事件记录,所述BIOS启动完成事件记录在所述BIOS完成启动并将控制权传递给所述服务器的操作系统后生成;
根据所述BIOS启动完成事件记录对所述第二系统事件日志进行更新。
可选地,在本申请实施例所述的服务器异常定位方法中,所述根据所述重启状态信息判断所述服务器的故障位置,包括:
根据所述重启类型以及所述服务器重启达到的阶段初步筛选出发生故障概率较大的服务器模块;
从筛选出的发生故障概率较大的服务器模块确认出所述服务器的故障位置。
第二方面,本申请实施例还提供了一种服务器异常定位装置,所述服务器包括处理器、复杂可编程逻辑器件、主板管理器、BIOS、南桥芯片,所述复杂可编程逻辑器件分别与所述主板管理器、所述南桥芯片以及所述处理器连接,所述南桥芯片分别与所述BIOS以及所述处理器连接,所述BIOS与所述主板管理器连接;所述方法应用于所述主板管理器中;所述装置包括:
查询模块,用于当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型;
获取模块,用于根据所述系统事件日志获取所述服务器的重启状态信息;
判断模块,用于根据所述重启状态信息判断所述服务器的故障位置。
第三方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述任一项所述的方法。
第四方面,本申请实施例还提供了一种服务器,包括处理器、复杂可编程逻辑器件、主板管理器、BIOS、南桥芯片,所述复杂可编程逻辑器件分别与所述主板管理器、所述南桥芯片以及所述处理器连接,所述BIOS与所述主板管理器、BIOS、南桥芯片以及所述处理器依次连接;
所述主板管理器用于执行上述任一项所述的方法。
由上可知,本申请实施例提供的服务器异常定位方法、装置、存储介质及服务器通过当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型;根据所述系统事件日志获取所述服务器的重启状态信息;根据所述重启状态信息判断所述服务器的故障位置,从而实现故障定位,便于快速找到故障位置,提高服务器维护效率。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的服务器异常定位方法的一种流程图。
图2为本申请实施例提供的服务器的一种结构示意图。
图3为本申请实施例提供的服务器异常定位装置的一种结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请一些实施例中的服务器异常定位方法的流程图。请同时参照图2,图2是本申请实施例中的服务器的结构示意图,该服务器包括处理器11、复杂可编程逻辑器件12、主板管理器13、BIOS(Basic Input Output System,基本输入输出系统)14、南桥芯片15,该复杂可编程逻辑器件12分别与所述主板管理器13、所述南桥芯片15以及所述处理器11连接,所述南桥芯片15分别与所述BIOS14以及所述处理器11连接,所述BIOS14与所述主板管理器13连接;所述方法应用于所述主板管理器13中;该服务器异常定位方法应用于所述主板管理器13中。
其中,该服务器异常定位方法包括以下步骤:
S101、当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型。
S102、根据所述系统事件日志获取所述服务器的重启状态信息。
S103、根据所述重启状态信息判断所述服务器的故障位置。
其中,在该步骤S101中,该系统事件日志包括第一系统事件日志以及第二系统事件日志。其中,该第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型。该第二系统事件日志为基于BIOS发送的事件记录生成的,第一系统事件日志用于判断系统重启进入BIOS之前达到的阶段以及重启类型。第二系统事件日志用于判断系统重启进入BIOS后的达到的阶段。
可以理解地,在一些实施例中,在执行该步骤S101之前,还包括以下步骤:S1001、当检测到复杂可编程逻辑器件的EventTrigger中断信号时,读取所述复杂可编程逻辑器件内存储的计数器的计数值以及重启类型参数。S1002、当所述计数器的计数值相对上次读取的计数器的计数值发生变化时,则判断所述服务器发生重启,并根据重启类型参数生成对应的重启事件记录。S1003、根据所述重启事件记录对所述系统事件日志中的第一系统事件日志进行更新。
其中,该复杂可编程逻辑器件监控该南桥芯片的PLTRST#信号和SLP_SX#信号,当服务器主机系统重启的时候,X86系统机制里这两组信号会根据重启类型的不同发生相应变化,当发生热重启时,只有PLTRST#信号会有效,当发生冷重启时,PLTRST#信号和SLP_SX#信号会同时有效。复杂可编程逻辑器件基于PLTRST#信号和SLP_SX#信号对不同重启类型的规律,记录相应的重启类型到内部寄存器,同时计数器的计数值加1,该计数器的计数值用于表征该服务器的启动次数。然后,复杂可编程逻辑器件通过EventTrigger#这一GPIO信号来中断通知主板管理器。当主板管理器检测到复杂可编程逻辑器件的EventTrigger中断信号时,就会读取所述复杂可编程逻辑器件内存储的计数器的计数值以及重启类型参数,该复杂可编程逻辑器件将读取的计数器的计数值与上次读取的计数器的计数值进行比较,如果相同则说明未发生重启,如果不同,则说明发生了重启。如果发生了重启,则生成重启事件记录,然后对第一系统事件日志进行更新。
可以理解地,系统事件日志还包括第二系统事件日志;第二系统事件日志基于所述BIOS的多个运行事件记录生成。其中,该多个运行事件记录包括:BIOS启动事件记录、显示参数初始化完成事件记录、BIOS启动完成事件记录,当然,其并不限于此。
具体地,在一些实施例中,在执行该步骤S101之前,还包括以下步骤:
S1004、接收所述BIOS发送的BIOS启动事件记录,所述BIOS启动事件记录在所述BIOS开始启动时生成。
S1005、根据BIOS启动事件记录对所述第二系统事件日志进行更新。
S1006、接收BIOS发送的显示参数初始化完成事件记录,所述显示参数初始化完成事件记录在所述BIOS完成对显示参数初始化操作后生成。
S1007、根据显示参数初始化完成事件记录对第二系统事件日志进行更新。
S1008、接收BIOS发送的BIOS启动完成事件记录,BIOS启动完成事件记录在BIOS完成启动并将控制权传递给服务器的操作系统后生成。
S1009、根据BIOS启动完成事件记录对第二系统事件日志进行更新。
其中,该系统事件日志中的多个事件记录按照事件的发生时间进行排序,从而便于找到故障节点。
其中,在该步骤S102中,重启状态信息包括:所述服务器的重启类型以及所述服务器重启达到的阶段。其中,该重启达到的阶段可以为以下多个阶段中的一个:重启初始阶段、BIOS开始启动阶段、显示参数初始化完成阶段、BIOS启动完成阶段。当然,其并不限于此。其中,如果该服务器黑屏且主板管理器中的系统事件日志未更新,则说明服务器的操作系统故障导致发生黑屏,并且没有发生重启动作。如果该主板管理器的系统事件日志中只更新了重启事件记录,则说明该服务器发生了重启,并且重启未进行到BIOS的开始启动阶段。如果该主板管理器的系统事件日志中只更新了重启事件记录以及BIOS启动事件记录,则说明系统重启后卡在了显示参数初始化完成阶段之前。
其中,在该步骤S103中,根据重启状态信息判断故障位置时,基于重启进行到的阶段来进行初步判断。
例如,如果该服务器黑屏且主板管理器中的系统事件日志未更新,则说明服务器的操作系统下发生黑屏,并且没有发生重启动作,则说明故障发生在显示屏或者显示驱动部分。
例如,如果该主板管理器的系统事件日志中只更新了重启事件记录,则说明该服务器发生了重启,并且重启未进行到BIOS的开始启动阶段,则说明故障发生在BIOS或者处理器。
例如,如果该主板管理器的系统事件日志中只更新了重启事件记录以及BIOS启动事件记录,则说明系统重启后卡在了显示参数初始化完成节点之前,则说明故障发生在显示屏或者显卡部分。
当然,具体故障发生的位置还可以结合其他参数进行判断,从而提高故障定位的准确性。
例如,在一些实施例中,该步骤S103包括:S1031、根据所述重启类型以及所述服务器重启达到的阶段初步筛选出发生故障概率较大的服务器模块;S1032、从筛选出的发生故障概率较大的服务器模块确认出所述服务器的故障位置。例如,如果该主板管理器的系统事件日志中只更新了重启事件记录以及BIOS启动事件记录,则说明系统重启后卡在了显示参数初始化完成阶段之前,因此可以初步筛选出发生故障的服务器模块可能为:显示器、显卡。然后,维护人员可以获取该显示器以及显卡的一些状态信息,从而使得可以判断出发生故障的具体位置。
由上可知,本申请实施例通过当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型;根据所述系统事件日志获取所述服务器的重启状态信息;根据所述重启状态信息判断所述服务器的故障位置,从而实现故障定位,便于快速找到故障位置,提高服务器维护效率。
请参照图3,图3是本申请一些实施例中的一种服务器异常定位装置的结构图。
其中,该服务器异常定位装置包括:查询模块201、获取模块202以及判断模块203。
其中,该查询模块201用于当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型。该系统事件日志包括第一系统事件日志以及第二系统事件日志。其中,该第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型。该第二系统事件日志为基于BIOS发送的事件记录生成的。
可以理解地,在一些实施例中查询模块201还用于:当检测到复杂可编程逻辑器件的EventTrigger中断信号时,读取所述复杂可编程逻辑器件内存储的计数器的计数值以及重启类型参数;当所述计数器的计数值相对上次读取的计数器的计数值发生变化时,则判断所述服务器发生重启,并根据重启类型参数生成对应的重启事件记录;根据所述重启事件记录对所述系统事件日志中的第一系统事件日志进行更新。该复杂可编程逻辑器件监控该南桥芯片的PLTRST#信号和SLP_SX#信号,当服务器主机系统重启的时候,X86系统机制里这两组信号会根据重启类型的不同发生相应变化,当发生热重启时,只有PLTRST#信号会有效,当发生冷重启时,PLTRST#信号和SLP_SX#信号会同时有效。复杂可编程逻辑器件基于PLTRST#信号和SLP_SX#信号对不同重启类型的规律,记录相应的重启类型到内部寄存器,同时计数器的计数值加1,该计数器的计数值用于表征该服务器的启动次数。然后,复杂可编程逻辑器件通过EventTrigger#这一GPIO信号来中断通知主板管理器。当主板管理器检测到复杂可编程逻辑器件的EventTrigger中断信号时,就会读取所述复杂可编程逻辑器件内存储的计数器的计数值以及重启类型参数,该复杂可编程逻辑器件将读取的计数器的计数值与上次读取的计数器的计数值进行比较,如果相同则说明未发生重启,如果不同,则说明发生了重启。如果发生了重启,则生成重启事件记录,然后对第一系统事件日志进行更新。
可以理解地,系统事件日志还包括第二系统事件日志;所述第二系统事件日志基于所述BIOS14的多个运行事件记录生成。其中,该多个运行事件记录包括:BIOS启动事件记录、显示参数初始化完成事件记录、BIOS启动完成事件记录,当然,其并不限于此。
其中,该查询模块还用于:接收所述BIOS发送的BIOS启动事件记录,所述BIOS启动事件记录在所述BIOS开始启动时生成;根据BIOS启动事件记录对所述第二系统事件日志进行更新;接收BIOS发送的显示参数初始化完成事件记录,所述显示参数初始化完成事件记录在所述BIOS完成对显示参数初始化操作后生成;根据显示参数初始化完成事件记录对第二系统事件日志进行更新;接收BIOS发送的BIOS启动完成事件记录,BIOS启动完成事件记录在BIOS完成启动并将控制权传递给服务器的操作系统后生成;根据BIOS启动完成事件记录对第二系统事件日志进行更新。其中,该系统事件日志中的多个事件记录按照事件的发生时间进行排序,从而便于找到故障节点。
其中,该获取模块202用于根据所述系统事件日志获取所述服务器的重启状态信息。重启状态信息包括:所述服务器的重启类型以及所述服务器重启达到的阶段。其中,该重启达到的阶段可以为以下多个阶段中的一个:重启初始阶段、BIOS开始启动阶段、显示参数初始化完成阶段、BIOS启动完成阶段。当然,其并不限于此。其中,如果该服务器黑屏且主板管理器中的系统事件日志未更新,则说明服务器的操作系统故障导致发生黑屏,并且没有发生重启动作。如果该主板管理器的系统事件日志中只更新了重启事件记录,则说明该服务器发生了重启,并且重启未进行到BIOS的开始启动阶段。如果该主板管理器的系统事件日志中只更新了重启事件记录以及BIOS启动事件记录,则说明系统重启后卡在了显示参数初始化完成阶段之前。
其中,该判断模块203用于根据所述重启状态信息判断所述服务器的故障位置。根据重启状态信息判断故障位置时,基于重启进行到的阶段来进行初步判断。
例如,如果该服务器黑屏且主板管理器中的系统事件日志未更新,则说明服务器的操作系统下发生黑屏,并且没有发生重启动作,则说明故障发生在显示屏或者显示驱动部分。
例如,如果该主板管理器的系统事件日志中只更新了重启事件记录,则说明该服务器发生了重启,并且重启未进行到BIOS的开始启动阶段,则说明故障发生在BIOS或者处理器。
例如,如果该主板管理器的系统事件日志中只更新了重启事件记录以及BIOS启动事件记录,则说明系统重启后卡在了显示参数初始化完成节点之前,则说明故障发生在显示屏或者显卡部分。
当然,具体故障发生的位置还可以结合其他参数进行判断,从而提高故障定位的准确性。
由上可知,本申请实施例通过当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型;根据所述系统事件日志获取所述服务器的重启状态信息;根据所述重启状态信息判断所述服务器的故障位置,从而实现故障定位,便于快速找到故障位置,提高服务器维护效率。
本申请实施例提供一种存储介质,所述计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种服务器异常定位方法,所述服务器包括处理器、复杂可编程逻辑器件、主板管理器、BIOS、南桥芯片,所述复杂可编程逻辑器件分别与所述主板管理器、所述南桥芯片以及所述处理器连接,所述南桥芯片分别与所述BIOS以及所述处理器连接,所述BIOS与所述主板管理器连接;所述方法应用于所述主板管理器中,其特征在于,所述方法包括:
当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型;
根据所述系统事件日志获取所述服务器的重启状态信息;
根据所述重启状态信息判断所述服务器的故障位置。
2.根据权利要求1所述的服务器异常定位方法,其特征在于,所述查询存储在所述主板管理器中的系统事件日志的步骤之前,还包括:
当检测到复杂可编程逻辑器件的EventTrigger中断信号时,读取所述复杂可编程逻辑器件内存储的计数器的计数值以及重启类型参数;
当所述计数器的计数值相对上次读取的计数器的计数值发生变化时,则判断所述服务器发生重启,并根据重启类型参数生成对应的重启事件记录;
根据所述重启事件记录对所述系统事件日志中的第一系统事件日志进行更新。
3.根据权利要求1或2所述的服务器异常定位方法,其特征在于,所述重启状态信息包括:所述服务器的重启类型以及所述服务器重启达到的阶段。
4.根据权利要求2所述的服务器异常定位方法,其特征在于,所述系统事件日志还包括第二系统事件日志;所述第二系统事件日志用于判断系统重启进入BIOS后的达到的阶段,所述第二系统事件日志基于所述BIOS的多个运行事件记录生成。
5.根据权利要求4所述的服务器异常定位方法,其特征在于,所述多个运行事件记录包括BIOS启动事件记录;
所述方法还包括以下步骤:
接收所述BIOS发送的BIOS启动事件记录,所述BIOS启动事件记录在所述BIOS开始启动时生成;
根据所述BIOS启动事件记录对所述第二系统事件日志进行更新。
6.根据权利要求4所述的服务器异常定位方法,其特征在于,所述多个运行事件记录还包括显示初始化完成事件记录;
所述方法还包括以下步骤:
接收所述BIOS发送的显示参数初始化完成事件记录,所述显示参数初始化完成事件记录在所述BIOS完成对显示参数初始化操作后生成;
根据所述显示参数初始化完成事件记录对所述第二系统事件日志进行更新;
或者,所述多个运行事件记录还包括BIOS启动完成事件记录;
所述方法还包括以下步骤:
接收所述BIOS发送的BIOS启动完成事件记录,所述BIOS启动完成事件记录在所述BIOS完成启动并将控制权传递给所述服务器的操作系统后生成;
根据所述BIOS启动完成事件记录对所述第二系统事件日志进行更新。
7.根据权利要求4所述的服务器异常定位方法,其特征在于,所述根据所述重启状态信息判断所述服务器的故障位置,包括:
根据所述重启类型以及所述服务器重启达到的阶段初步筛选出发生故障概率较大的服务器模块;
从筛选出的发生故障概率较大的服务器模块确认出所述服务器的故障位置。
8.一种服务器异常定位装置,所述服务器包括处理器、复杂可编程逻辑器件、主板管理器、BIOS、南桥芯片,所述复杂可编程逻辑器件分别与所述主板管理器、所述南桥芯片以及所述处理器连接,所述南桥芯片分别与所述BIOS以及所述处理器连接,所述BIOS与所述主板管理器连接;所述方法应用于所述主板管理器中;其特征在于,所述装置包括:
查询模块,用于当所述服务器出现故障时,查询存储在所述主板管理器中的系统事件日志,所述系统事件日志包括第一系统事件日志,所述第一系统事件日志为通过读取复杂可编程逻辑器件中存储的计数器的计数值及重启类型参数生成,所述计数器的计数值用于计量所述服务器的重启次数,所述重启类型参数用于表征所述服务器最近一次的启动类型;
获取模块,用于根据系统事件日志获取所述服务器的重启状态信息;
判断模块,用于根据所述重启状态信息判断所述服务器的故障位置。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7任一项所述的方法。
10.一种服务器,其特征在于,包括处理器、复杂可编程逻辑器件、主板管理器、BIOS、南桥芯片,所述复杂可编程逻辑器件分别与所述主板管理器、所述南桥芯片以及所述处理器连接,所述BIOS与所述主板管理器、BIOS、南桥芯片以及所述处理器依次连接;
所述主板管理器用于执行权利要求1-7任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010623604.7A CN111722954A (zh) | 2020-06-30 | 2020-06-30 | 服务器异常定位方法、装置、存储介质及服务器 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010623604.7A CN111722954A (zh) | 2020-06-30 | 2020-06-30 | 服务器异常定位方法、装置、存储介质及服务器 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111722954A true CN111722954A (zh) | 2020-09-29 |
Family
ID=72571038
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010623604.7A Pending CN111722954A (zh) | 2020-06-30 | 2020-06-30 | 服务器异常定位方法、装置、存储介质及服务器 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111722954A (zh) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112667462A (zh) * | 2020-12-15 | 2021-04-16 | 苏州浪潮智能科技有限公司 | 一种服务器的双闪存运行监测的系统、方法及介质 |
| CN112948157A (zh) * | 2021-01-29 | 2021-06-11 | 苏州浪潮智能科技有限公司 | 服务器故障定位方法、装置、系统及计算机可读存储介质 |
| CN113254304A (zh) * | 2021-04-28 | 2021-08-13 | 中国长城科技集团股份有限公司 | 一种服务器关机类型的确定方法、服务器及存储介质 |
| CN113806123A (zh) * | 2021-08-14 | 2021-12-17 | 苏州浪潮智能科技有限公司 | 一种服务器的宕机定位系统、方法及服务器 |
| CN117234812A (zh) * | 2023-11-16 | 2023-12-15 | 中科泓泰电子有限公司 | 一种控制服务器重启的系统及方法 |
| CN119557146A (zh) * | 2025-02-06 | 2025-03-04 | 深圳市迪太科技有限公司 | 电动车显示仪表的异常重启保护方法及系统 |
| US12554570B2 (en) | 2021-01-29 | 2026-02-17 | Inspur Suzhou Intelligent Technology Co., Ltd. | Method, apparatus and system for locating fault of server, and computer-readable storage medium |
Citations (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1713156A (zh) * | 2004-06-25 | 2005-12-28 | 联想(北京)有限公司 | 检测和诊断计算机硬件故障的方法和装置 |
| CN103176873A (zh) * | 2011-12-23 | 2013-06-26 | 鸿富锦精密工业(深圳)有限公司 | 计数卡 |
| CN104391765A (zh) * | 2014-10-27 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种自动诊断服务器启动故障的方法 |
| TW201706844A (zh) * | 2015-08-04 | 2017-02-16 | 英業達股份有限公司 | 電源失效偵測系統與其方法 |
| CN106598790A (zh) * | 2015-10-16 | 2017-04-26 | 中兴通讯股份有限公司 | 一种服务器硬件故障检测方法及其装置和服务器 |
| CN107193708A (zh) * | 2017-05-17 | 2017-09-22 | 郑州云海信息技术有限公司 | 一种状态检测方法及系统 |
| CN109086155A (zh) * | 2018-07-27 | 2018-12-25 | 郑州云海信息技术有限公司 | 服务器故障定位方法、装置、设备及计算机可读存储介质 |
| CN109634796A (zh) * | 2018-12-14 | 2019-04-16 | 郑州云海信息技术有限公司 | 一种计算机的故障诊断方法、装置及系统 |
| CN110134540A (zh) * | 2019-05-21 | 2019-08-16 | 苏州浪潮智能科技有限公司 | 一种日志信息收集方法、装置、设备及可读存储介质 |
| CN110609778A (zh) * | 2019-08-16 | 2019-12-24 | 苏州浪潮智能科技有限公司 | 一种保存服务器宕机日志的方法及系统 |
| CN111290918A (zh) * | 2020-02-26 | 2020-06-16 | 苏州浪潮智能科技有限公司 | 服务器运行状态监控方法、装置及计算机可读存储介质 |
-
2020
- 2020-06-30 CN CN202010623604.7A patent/CN111722954A/zh active Pending
Patent Citations (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1713156A (zh) * | 2004-06-25 | 2005-12-28 | 联想(北京)有限公司 | 检测和诊断计算机硬件故障的方法和装置 |
| CN103176873A (zh) * | 2011-12-23 | 2013-06-26 | 鸿富锦精密工业(深圳)有限公司 | 计数卡 |
| CN104391765A (zh) * | 2014-10-27 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种自动诊断服务器启动故障的方法 |
| TW201706844A (zh) * | 2015-08-04 | 2017-02-16 | 英業達股份有限公司 | 電源失效偵測系統與其方法 |
| CN106598790A (zh) * | 2015-10-16 | 2017-04-26 | 中兴通讯股份有限公司 | 一种服务器硬件故障检测方法及其装置和服务器 |
| CN107193708A (zh) * | 2017-05-17 | 2017-09-22 | 郑州云海信息技术有限公司 | 一种状态检测方法及系统 |
| CN109086155A (zh) * | 2018-07-27 | 2018-12-25 | 郑州云海信息技术有限公司 | 服务器故障定位方法、装置、设备及计算机可读存储介质 |
| CN109634796A (zh) * | 2018-12-14 | 2019-04-16 | 郑州云海信息技术有限公司 | 一种计算机的故障诊断方法、装置及系统 |
| CN110134540A (zh) * | 2019-05-21 | 2019-08-16 | 苏州浪潮智能科技有限公司 | 一种日志信息收集方法、装置、设备及可读存储介质 |
| CN110609778A (zh) * | 2019-08-16 | 2019-12-24 | 苏州浪潮智能科技有限公司 | 一种保存服务器宕机日志的方法及系统 |
| CN111290918A (zh) * | 2020-02-26 | 2020-06-16 | 苏州浪潮智能科技有限公司 | 服务器运行状态监控方法、装置及计算机可读存储介质 |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112667462A (zh) * | 2020-12-15 | 2021-04-16 | 苏州浪潮智能科技有限公司 | 一种服务器的双闪存运行监测的系统、方法及介质 |
| CN112948157A (zh) * | 2021-01-29 | 2021-06-11 | 苏州浪潮智能科技有限公司 | 服务器故障定位方法、装置、系统及计算机可读存储介质 |
| WO2022160756A1 (zh) * | 2021-01-29 | 2022-08-04 | 苏州浪潮智能科技有限公司 | 服务器故障定位方法、装置、系统及计算机可读存储介质 |
| CN112948157B (zh) * | 2021-01-29 | 2022-12-23 | 苏州浪潮智能科技有限公司 | 服务器故障定位方法、装置、系统及计算机可读存储介质 |
| US12554570B2 (en) | 2021-01-29 | 2026-02-17 | Inspur Suzhou Intelligent Technology Co., Ltd. | Method, apparatus and system for locating fault of server, and computer-readable storage medium |
| CN113254304A (zh) * | 2021-04-28 | 2021-08-13 | 中国长城科技集团股份有限公司 | 一种服务器关机类型的确定方法、服务器及存储介质 |
| CN113806123A (zh) * | 2021-08-14 | 2021-12-17 | 苏州浪潮智能科技有限公司 | 一种服务器的宕机定位系统、方法及服务器 |
| CN113806123B (zh) * | 2021-08-14 | 2023-08-08 | 苏州浪潮智能科技有限公司 | 一种服务器的宕机定位系统、方法及服务器 |
| CN117234812A (zh) * | 2023-11-16 | 2023-12-15 | 中科泓泰电子有限公司 | 一种控制服务器重启的系统及方法 |
| CN117234812B (zh) * | 2023-11-16 | 2024-01-30 | 中科泓泰电子有限公司 | 一种控制服务器重启的系统及方法 |
| CN119557146A (zh) * | 2025-02-06 | 2025-03-04 | 深圳市迪太科技有限公司 | 电动车显示仪表的异常重启保护方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111722954A (zh) | 服务器异常定位方法、装置、存储介质及服务器 | |
| TWI584196B (zh) | 基本輸入輸出系統回復管理系統、電腦程式產品 以及基本輸入輸出系統回復方法 | |
| US6934879B2 (en) | Method and apparatus for backing up and restoring data from nonvolatile memory | |
| WO2022198972A1 (zh) | 一种服务器启动过程中的故障定位方法、系统及装置 | |
| US6502208B1 (en) | Method and system for check stop error handling | |
| US8041936B2 (en) | Persisting value relevant to debugging of computer system during reset of computer system | |
| US10430267B2 (en) | Determine when an error log was created | |
| US11360839B1 (en) | Systems and methods for storing error data from a crash dump in a computer system | |
| US7783872B2 (en) | System and method to enable an event timer in a multiple event timer operating environment | |
| CN115964218A (zh) | 高速串行计算机扩展总线设备故障的识别方法及装置 | |
| WO2018095107A1 (zh) | 一种bios程序的异常处理方法及装置 | |
| US6725396B2 (en) | Identifying field replaceable units responsible for faults detected with processor timeouts utilizing IPL boot progress indicator status | |
| CN112506693A (zh) | 一种记录异常信息的方法、装置、存储介质和电子设备 | |
| US11010249B2 (en) | Kernel reset to recover from operating system errors | |
| CN119829098A (zh) | 固件集更新方法 | |
| JP7389877B2 (ja) | ネットワークの最適なブートパスの方法及びシステム | |
| TWI832188B (zh) | 電腦系統以及在電腦系統中執行的方法 | |
| US11354109B1 (en) | Firmware updates using updated firmware files in a dedicated firmware volume | |
| CN107368315A (zh) | 一种双硬盘双系统的启动方法及装置 | |
| US20260030085A1 (en) | Automatic recovery of node resource memory devices | |
| TWI715005B (zh) | 用於監控基板管理控制器之常駐程序的方法 | |
| CN107608829A (zh) | 一种验证服务器是否存在硬件丢失的方法 | |
| US10691444B1 (en) | Launching updated firmware files stored in a dedicated firmware volume | |
| CN115576750A (zh) | 带外下电方法、计算机设备及存储介质 | |
| CN120104197A (zh) | 一种触摸屏识别方法、装置、电子设备和可读存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200929 |