CN118819940B - 存储链路故障原因定位方法、存储子系统及计算机设备 - Google Patents
存储链路故障原因定位方法、存储子系统及计算机设备 Download PDFInfo
- Publication number
- CN118819940B CN118819940B CN202411303460.1A CN202411303460A CN118819940B CN 118819940 B CN118819940 B CN 118819940B CN 202411303460 A CN202411303460 A CN 202411303460A CN 118819940 B CN118819940 B CN 118819940B
- Authority
- CN
- China
- Prior art keywords
- log
- information
- command execution
- execution information
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及服务器技术领域,公开了存储链路故障原因定位方法、存储子系统及计算机设备,方法包括:获取扩展背板的串行日志记录模块的开关状态,在扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用串行日志记录模块记录服务器下发的目标命令的命令执行信息;在存储链路出现故障的情况下,获取磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和串行日志记录模块记录的目标命令执行信息;将第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位。本发明提高了存储链路故障原因定位的准确性。
Description
技术领域
本发明涉及服务器技术领域,具体涉及存储链路故障原因定位方法、存储子系统及计算机设备。
背景技术
随着服务器产业的不断发展,用户对服务器安全性和可靠性要求越来越高。由磁盘阵列卡、硬盘、扩展背板、线缆等部件组成的存储子系统,为服务器整机的重要组成部分,因此,存储子系统的安全性和可靠性至关重要。
相关技术中,在存储子系统的存储链路出现故障的情况下,可以通过存储链路上各个部件的日志文件来确定存储链路出现故障的原因。
然而,在通过存储链路上各个部件的日志文件来确定存储链路出现故障的原因时,由于扩展背板的日志文件只能记录扩展背板的基本异常事件,无法记录命令执行相关的信息,导致确定出的存储链路出现故障的原因的准确性较低。
发明内容
有鉴于此,本发明提供了一种存储链路故障原因定位方法、存储子系统及计算机设备,以解决相关技术中由于扩展背板的日志文件只能记录扩展背板的基本异常事件,无法记录命令执行相关的信息,导致确定出的存储链路出现故障的原因的准确性较低的问题。
第一方面,本发明提供了一种存储链路故障原因定位方法,所述方法包括:
获取扩展背板的串行日志记录模块的开关状态;
在所述扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用所述串行日志记录模块记录服务器下发的目标命令的命令执行信息;
在所述存储链路出现故障的情况下,获取磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和所述串行日志记录模块记录的目标命令执行信息;
将所述第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位。
本实施例提供的存储链路故障原因定位方法,通过在扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,在存储链路出现故障的情况下,将磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和串行日志记录模块记录的目标命令执行信息发送至服务器主机端,以使技术人员基于服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位。通过利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,使得基于第一日志信息、第二日志信息和目标命令执行信息确定出的存储链路故障原因更加准确,提高了存储链路故障原因定位的准确性。
在一种可选的实施方式中,所述利用所述串行日志记录模块记录服务器下发的目标命令的命令执行信息,包括:
接收服务器下发的命令;
在所述命令的类型为目标命令类型的情况下,确定所述命令为目标命令,其中,所述目标命令类型为读写类命令、监控类命令、自我监控分析类命令、节能类命令和链路重置类命令;
利用所述串行日志记录模块,采用覆盖写的方式记录服务器下发的目标命令的命令执行信息。
本实施例提供的存储链路故障原因定位方法,通过串行日志记录模块记录服务器下发的目标命令的命令执行信息,提高了确定存储链路故障原因定位的效率。
采用覆盖写的方式记录日志,可以有效利用有限的存储空间实现最大的性能,避免了日志无限累计导致的存储空间耗尽的问题,保证了日志记录的稳定运行。
在一种可选的实施方式中,在所述存储链路出现故障的情况下,获取所述串行日志记录模块记录的目标命令执行信息,包括:
在所述存储链路出现故障的情况下,判断所述串行日志记录模块是否设置有关键字触发条件;
在所述串行日志记录模块设置有关键字触发条件的情况下,利用所述关键字触发条件中包含的关键字对所述串行日志记录模块记录的命令执行信息进行筛选,以获得目标命令执行信息。
本实施例提供的存储链路故障原因定位方法,通过在存储链路出现故障的情况下,引入关键字触发条件,根据关键字触发条件从串行日志记录模块记录的命令执行信息中筛选出与故障原因定位关联度高的目标命令执行信息,不仅减少了后期对命令执行信息的分析负担,还提高了存储链路故障原因定位的效率和准确性。
在一种可选的实施方式中,所述利用所述关键字触发条件中包含的关键字对所述串行日志记录模块记录的命令执行信息进行筛选,以获得目标命令执行信息,包括:
针对任一命令执行信息,若所述命令执行信息中包括至少一个所述关键字,则确定所述命令执行信息为目标命令执行信息。
本实施例提供的存储链路故障原因定位方法,通过关键字匹配,能够从大量日志数据中迅速识别出与故障原因定位相关的命令执行信息,提高了存储链路故障原因定位的效率和准确性。
在一种可选的实施方式中,所述方法还包括:
在所述串行日志记录模块未设置有关键字触发条件的情况下,将所述串行日志记录模块当前记录的命令执行信息作为目标命令执行信息。
本实施例提供的存储链路故障原因定位方法,通过在串行日志记录模块未设置有关键字触发条件的情况下,将串行日志记录模块当前记录的命令执行信息作为目标命令执行信息,确保了进行存储链路故障原因定位的稳定性和业务连续性。
在一种可选的实施方式中,所述方法还包括:
在所述存储链路出现故障的情况下,暂停利用所述串行日志记录模块记录服务器下发的目标命令的命令执行信息。
本实施例提供的存储链路故障原因定位方法,通过在存储链路出现故障的情况下,暂停利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,防止关键日志被覆盖,提高了存储链路故障原因定位的准确性。
在一种可选的实施方式中,所述方法还包括:
在将所述第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端之后,继续利用所述串行日志记录模块记录服务器下发的目标命令的命令执行信息。
本实施例提供的存储链路故障原因定位方法,在将第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端之后,继续利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,确保了日志记录的连续性。
在一种可选的实施方式中,所述方法还包括:
在所述存储链路出现故障的情况下,获取扩展背板对应的基本日志信息;
所述将所述第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位,包括:
将所述第一日志信息、第二日志信息、基本日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息、基本日志信息和目标命令执行信息进行存储链路故障原因定位。
本实施例提供的存储链路故障原因定位方法,通过基于第一日志信息、第二日志信息、基本日志信息和目标命令执行信息确定存储链路故障原因定位,使得确定出的存储链路故障原因更加准确,提高了存储链路故障原因定位的准确性。
在一种可选的实施方式中,所述方法还包括:
在所述扩展背板的串行日志记录模块的开关状态为关闭状态的情况下,利用扩展背板日志记录模块记录扩展背板对应的基本日志信息。
本实施例提供的存储链路故障原因定位方法,通过在扩展背板的串行日志记录模块的开关状态为关闭状态的情况下,只利用扩展背板日志记录模块记录扩展背板对应的基本日志信息,提升了系统的稳定性,实现资源的高效利用。
在一种可选的实施方式中,所述命令执行信息包括:命令响应时间、命令类型、命令模式、执行状态信息和错误状态信息。
本实施例提供的存储链路故障原因定位方法,通过利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,使得基于第一日志信息、第二日志信息和目标命令执行信息确定出的存储链路故障原因更加准确,提高了存储链路故障原因定位的准确性。
第二方面,本发明提供了一种扩展背板,所述扩展背板包括:串行日志记录模块,其中,所述串行日志记录模块包括开关控制模块和串行日志记录子单元;
所述开关控制模块用于响应于用户的操作,控制所述串行日志记录子单元的开关状态;
所述串行日志记录子单元用于在开启状态下记录服务器主机下发的目标命令的命令执行信息。
第三方面,本发明提供了一种存储子系统,所述存储子系统包括:磁盘阵列卡、扩展背板和硬盘,其中,所述存储子系统用于基于上述第一方面或其对应的任一实施方式的存储链路故障原因定位方法进行存储链路故障原因定位。
第四方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的存储链路故障原因定位方法。
第五方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的存储链路故障原因定位方法。
第六方面,本发明提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的存储链路故障原因定位方法。
附图说明
为了更清楚地说明本发明具体实施方式或相关技术中的技术方案,下面将对具体实施方式或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的存储链路故障原因定位方法的流程示意图;
图2是根据本发明实施例的另一存储链路故障原因定位方法的流程示意图;
图3是根据本发明实施例的串行日志记录模块中记录的命令执行信息的数据结构示意图;
图4是根据本发明实施例的串行日志记录模块记录的命令执行信息的示意图;
图5是根据本发明实施例的扩展背板的结构示意图;
图6是根据本发明实施例的获取目标命令执行信息的流程图;
图7是根据本发明实施例的存储子系统的结构示意图;
图8是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着服务器产业的不断发展,服务器市场逐步覆盖各个领域,尤其是金融、互联网、通信等主流领域。
随着互联网的高速发展,用户对信息的高安全性和系统的高可靠性要求越来越高。内存、硬盘、固态硬盘(Solid State Drive,简称:SSD)、独立冗余磁盘阵列(RedundantArray of Independent Disks,简称:RAID)卡、网卡等关键部件,作为服务器整机最重要的组成部分,其稳定性和可靠性直接影响到用户和业务应用和数据安全性,因此,需要保证上述组成部分的安全性。
由RAID卡/串行连接小型计算机系统接口(Small Computer System Interface,简称:SCSI)(Serial Attached SCSI,简称:SAS)卡、硬盘/SSD、Expander(扩展)卡/背板、线缆等部件组成的存储子系统,作为服务器整机最重要的组成部分之一,其稳定性和可靠性直接影响服务器的安全性。需要说明的是,存储链路包括存储子系统和组成存储子系统的多个部件之间的连接通路。由于存储子系统的组成部件的多样性和存储子系统的组成部件互相连接的复杂性,导致发生兼容性故障的概率较大。据统计平均每年存储链路的故障占整个服务器故障的百分之六十以上,因此,准确定位存储链路故障的根因和快速提供解决方案对保证存储链路的安全性至关重要。
其中,准确定位存储链路故障的根因和快速提供解决方案不仅需要丰富的经验和专业的工具,更需要有创新的思维和多样化的分析手段。
相关技术中,针对服务器存储链路常见的故障类型,例如掉盘、命令超时、降速、延迟高、报错等故障类型,业界和各部件厂商都有丰富的调试(debug)手段和标准的处理手法。
定位存储链路故障原因的通用做法包括借助存储链路相关日志定位存储链路出现故障的原因。还包括借助SAS协议分析仪定位存储链路出现故障的原因。
其中,借助存储链路相关日志定位存储链路出现故障的原因包括:首先根据故障现象和报错日志,明确故障发生的时间点,初步分析问题的指向,同时通过软硬件对比、机型对比、客户应用、故障规律、交叉验证分析排查,确定初步怀疑方向;其次,从部件的固件和驱动方面排查,查看新发布版本中是否有解决类似问题;再结合RAIS卡日志、硬盘日志、基板管理控制器日志、操作系统日志等,综合分析定位问题原因。
借助SAS协议分析仪定位存储链路出现故障的原因包括:利用SAS协议分析仪抓取故障时刻链路的trace(传输路径)做进一步的定位分析,直至故障解决。通常情况下,只要能成功抓取故障时刻的trace,基本都可以定位存储链路出现故障的原因。
然而,由于部件本身的功能定位、技术能力以及日志存储空间大小等限制因素,部件的日志文件不能记录所有的故障类型和信息通信过程,尤其是扩展背板的日志文件,只能记录一些硬件固件信息、背板SAS地址、物理(phy)拓扑、固件致命事件、phy错误技术、背板发送/接收(Tx/Rx)信号、速率等信息,对于其他故障类型以及命令处理异常等详细信息都无法记录,Expander背板作为存储链路最重要的组成部分之一,其日志记录功能的强弱直接影响着存储链路故障原因定位,相关技术中的Expander日志记录功能相对薄弱,仅记录上述基本信息,导致确定出的存储链路出现故障的原因的准确性较低。
SAS协议分析仪可以串联在Expander背板和硬盘之间,是通过抓取故障时刻的链路的通信情况,来确认到底是主机(host)端还是设备(device)端的问题。但是SAS协议分析仪最多支持4个接口,如果故障能够在固定硬盘槽位位置稳定复现,则可以抓取trace定位存储链路出现故障的原因,但是对于低概率复现、无法稳定复现或无法固定复现的问题,就没法采用当前手段进行存储链路出现故障的原因的定位。
本发明实施例提供了一种存储链路故障原因定位方法,通过在扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,在存储链路出现故障的情况下,将磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和串行日志记录模块记录的目标命令执行信息发送至服务器主机端,以使技术人员基于服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位以达到提高存储链路故障原因定位的准确性,且能够对低概率复现、无法稳定复现或无法固定复现的问题进行记录和分析以进行存储链路故障原因定位的效果。
根据本发明实施例,提供了一种存储链路故障原因定位方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种存储链路故障原因定位方法,可用于存储子系统,图1是根据本发明实施例的存储链路故障原因定位方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取扩展背板的串行日志记录模块的开关状态。
其中,扩展背板的串行日志记录模块的开关状态默认为开启状态。
需要说明的是,串行日志记录模块的开启会消耗部分资源进行额外的数据统计和记录,势必会影响系统的输入输出性能。用户可以根据实际的业务情况选择关闭,当出现存储链路故障时再选择使用命令打开。
步骤S102,在扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用串行日志记录模块记录服务器下发的目标命令的命令执行信息。
其中,扩展背板的串行日志记录模块的开关状态为开启状态,说明可以利用串行日志记录模块进行日志记录,则利用串行日志记录模块记录服务器下发的目标命令的命令执行信息。
需要说明的是,Expander背板的串行日志记录模块直接与Expander芯片相连,服务器主机端下发的串行高级技术附件(Serial Advanced Technology Attachment,简称:SATA)协议命令、SAS协议命令都是由该Expander芯片转发而来。
需要说明的是,串行日志记录模块设计为只记录最为关键、最容易出问题的协议命令和关键事件。
步骤S103,在存储链路出现故障的情况下,获取磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和串行日志记录模块记录的目标命令执行信息。
其中,磁盘阵列卡即RAID卡,RAID卡和硬盘部件都有强大完整的日志记录功能,能够详细记录各类报错、超时等异常事件,因此,在存储链路出现故障的情况下,直接从RAID卡获取RAID卡对应的第一日志信息、硬盘对应的第二日志信息,结合串行日志记录模块记录的目标命令执行信息,可以实现存储链路故障原因的定位。
步骤S104,将第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位。
其中,在获取到RAID卡对应的第一日志信息、硬盘对应的第二日志信息和串行日志记录模块记录的目标命令执行信息之后,将这些日志信息发送至服务器主机端,以使技术人员根据这些日志信息进行存储链路故障原因定位。
本实施例提供的存储链路故障原因定位方法,通过在扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,在存储链路出现故障的情况下,将磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和串行日志记录模块记录的目标命令执行信息发送至服务器主机端,以使技术人员基于服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位。通过利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,使得基于第一日志信息、第二日志信息和目标命令执行信息确定出的存储链路故障原因更加准确,提高了存储链路故障原因定位的准确性,且能够对低概率复现、无法稳定复现或无法固定复现的问题进行记录和分析以进行存储链路故障原因定位。
在本实施例中提供了一种存储链路故障原因定位方法,可用于存储子系统,图2是根据本发明实施例的存储链路故障原因定位方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取扩展背板的串行日志记录模块的开关状态。详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S202,在扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用串行日志记录模块记录服务器下发的目标命令的命令执行信息。
具体地,上述步骤S202包括:
步骤S2021,接收服务器下发的命令。
其中,存储子系统接收服务器下发的各类命令。
步骤S2022,在命令的类型为目标命令类型的情况下,确定命令为目标命令,其中,目标命令类型为读写类命令、监控类命令、自我监控分析类命令、节能类命令和链路重置类命令。
其中,在接收到服务器下发的命令之后,判断命令的类型是否为目标命令类型,若命令的类型为目标命令类型,则确定命令为目标命令,利用串行日志记录模块记录目标命令的命令执行信息。
需要说明的是,读写类命令包括读(read)命令和写(write)命令。监控类命令可以是Read Log Ext命令。自我监控分析类命令为自我监测、分析及报告技术(Self-Monitoring Analysis and Reporting Technology,简称:SMART)类命令(SMART CommandSet)。节能类命令为Check Power Mode命令。链路重置类命令为Reset命令。
步骤S2023,利用串行日志记录模块,采用覆盖写的方式记录服务器下发的目标命令的命令执行信息。
其中,由于收到芯片大小和成本限制,串行日志记录模块的容量最小可以设置为64MB,预计可以记录约一个小时的日志,并且采取覆盖写方式循环记录服务器下发的目标命令的命令执行信息。
需要说明的是,串行日志记录模块还被设计为断电日志不丢失。
步骤S203,在存储链路出现故障的情况下,获取磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和串行日志记录模块记录的目标命令执行信息。
具体地,上述步骤S203包括:
步骤S2031,在存储链路出现故障的情况下,判断串行日志记录模块是否设置有关键字触发条件。
其中,关键字触发条件由用户进行设置,在存储链路出现故障的情况下,判断串行日志记录模块是否设置有关键字触发条件,以确定是否获取当前串行日志记录模块所记录的全部日志还是部分日志。
步骤S2032,在串行日志记录模块设置有关键字触发条件的情况下,利用关键字触发条件中包含的关键字对串行日志记录模块记录的命令执行信息进行筛选,以获得目标命令执行信息。
串行日志记录模块设置有关键字触发条件,说明在存储链路出现故障的情况下,需要对串行日志记录模块中记录的命令执行信息进行筛选,以获得目标命令执行信息。
关键字触发条件中包含有关键字,该关键字可以是挂起、丢弃、错误(Fail)等。利用关键字对串行日志记录模块中当前记录的命令执行信息进行筛选,获得目标命令执行信息。
步骤S204,将第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位。详细请参见图1所示实施例的步骤S104,在此不再赘述。
本实施例提供的存储链路故障原因定位方法,通过串行日志记录模块记录服务器下发的目标命令的命令执行信息,提高了确定存储链路故障原因定位的效率。
采用覆盖写的方式记录日志,可以有效利用有限的存储空间实现最大的性能,避免了日志无限累计导致的存储空间耗尽的问题,保证了日志记录的稳定运行。
通过在存储链路出现故障的情况下,引入关键字触发条件,根据关键字触发条件从串行日志记录模块记录的命令执行信息中筛选出与故障原因定位关联度高的目标命令执行信息,不仅减少了后期对命令执行信息的分析负担,还提高了存储链路故障原因定位的效率和准确性。
在一些可选的实施方式中,上述步骤S2032包括:
步骤a1,针对任一命令执行信息,若命令执行信息中包括至少一个关键字,则确定命令执行信息为目标命令执行信息。
其中,关键字触发条件中可以包括至少一个关键字,在任一命令执行信息中包括关键字触发条件中的至少一个关键字的情况下,将该命令执行信息确定为目标命令执行信息,实现命令执行信息的筛选。
本实施例提供的存储链路故障原因定位方法,通过关键字匹配,能够从大量日志数据中迅速识别出与故障原因定位相关的命令执行信息,提高了存储链路故障原因定位的效率和准确性。
在一些可选的实施方式中,存储链路故障原因定位方法还包括:
步骤b1,在串行日志记录模块未设置有关键字触发条件的情况下,将串行日志记录模块当前记录的命令执行信息作为目标命令执行信息。
其中,串行日志记录模块未设置有关键字触发条件,则无需对串行日志记录模块记录的命令执行信息进行筛选,将串行日志记录模块当前记录的所有命令执行信息作为目标命令执行信息,参与后续存储链路故障原因的定位。
本实施例提供的存储链路故障原因定位方法,通过在串行日志记录模块未设置有关键字触发条件的情况下,将串行日志记录模块当前记录的命令执行信息作为目标命令执行信息,确保了进行存储链路故障原因定位的稳定性和业务连续性。
在一些可选的实施方式中,存储链路故障原因定位方法还包括:
步骤c1,在存储链路出现故障的情况下,暂停利用串行日志记录模块记录服务器下发的目标命令的命令执行信息。
其中,在存储链路出现故障的情况下,为避免关键日志被覆盖,暂停利用串行日志记录模块记录服务器下发的目标命令的命令执行信息。
本实施例提供的存储链路故障原因定位方法,通过在存储链路出现故障的情况下,暂停利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,防止关键日志被覆盖,提高了存储链路故障原因定位的准确性。
在一些可选的实施方式中,存储链路故障原因定位方法还包括:
步骤d1,在将第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端之后,继续利用串行日志记录模块记录服务器下发的目标命令的命令执行信息。
可以理解的是,在将第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端之后,关键日志已经发送至服务器主机端,则可以继续利用串行日志记录模块记录服务器下发的目标命令的命令执行信息。
也就是说,在将第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端之后,串行日志记录模块继续记录服务器下发的目标命令的命令执行信息。
本实施例提供的存储链路故障原因定位方法,在将第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端之后,继续利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,确保了日志记录的连续性。
在一些可选的实施方式中,存储链路故障原因定位方法还包括:
步骤e1,在存储链路出现故障的情况下,获取扩展背板对应的基本日志信息。
其中,扩展背板对应的基本日志信息利用相关技术中的扩展背板日志得到,该扩展背板日志的记录功能相对薄弱,仅记录链路拓扑基本信息、固件致命事件、phy错误计数、背板Tx/Rx速率等基本异常事件。也就是说,基本日志信息即为扩展背板日志记录的信息。
上述步骤S204包括:
步骤f1,将第一日志信息、第二日志信息、基本日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于服务器主机端接收到的第一日志信息、第二日志信息、基本日志信息和目标命令执行信息进行存储链路故障原因定位。
其中,在存储链路出现故障,且获取到第一日志信息、第二日志信息、基本日志信息和目标命令执行信息的情况下,将第一日志信息、第二日志信息、基本日志信息和目标命令执行信息发送至服务器主机端,以使技术人员进行存储链路故障原因定位。
本实施例提供的存储链路故障原因定位方法,通过基于第一日志信息、第二日志信息、基本日志信息和目标命令执行信息确定存储链路故障原因定位,使得确定出的存储链路故障原因更加准确,提高了存储链路故障原因定位的准确性。
在一些可选的实施方式中,存储链路故障原因定位方法还包括:
步骤g1,在扩展背板的串行日志记录模块的开关状态为关闭状态的情况下,利用扩展背板日志记录模块记录扩展背板对应的基本日志信息。
可以理解的是,扩展背板的串行日志记录模块的开关状态为关闭状态,无法利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,只能利用扩展背板日志记录模块记录扩展背板对应的基本日志信息。其中,扩展背板日志记录模块即为相关技术中的扩展(Expander)背板日志。
本实施例提供的存储链路故障原因定位方法,通过在扩展背板的串行日志记录模块的开关状态为关闭状态的情况下,只利用扩展背板日志记录模块记录扩展背板对应的基本日志信息,提升了系统的稳定性,实现资源的高效利用。
在一些可选的实施方式中,命令执行信息包括:命令响应时间、命令类型、命令模式、执行状态信息和错误状态信息。
图3是根据本发明实施例的串行日志记录模块中记录的命令执行信息的数据结构示意图。其中,串行日志记录模块设置为可访问、可记录属性,并且设计为可以通过扩展背板或RAID卡工具抓取和解析日志。如图3所示,命令执行信息包括:日志生成时间、时间戳、逻辑地址、命令标签、命令类型、数据块大小、命令响应时间、命令模式、执行状态信息和错误状态信息。
其中,日志生成时间为记录串行日志生成的具体时间,格式为:Y/M/D_H:M:S。其中串行日志为目标命令的命令执行信息。
时间戳用于记录每条命令从接收、执行过程及完成的时间。也就是记录接收到目标命令的时间、执行目标命令的执行以及完成目标命令的时间。
逻辑地址即逻辑块地址(Logical Block Addressing,简称:LBA),用于记录每条命令操作的逻辑地址空间。
命令标签是命令的唯一识别标签,用于记录每条命令执行过程。
命令类型用于记录命令的类型,共涵盖Read、Write、Read log Ext、SMARTCommand Set、Check Power Mode、Reset六大类协议类命令的记录。
数据块大小用于记录读写命令的数据块大小,比如4K、64K、128K等。
命令响应时间用于统计每条命令从接收到执行完成所使用的时间,单位为毫秒ms。
命令模式主要用于记录命令执行的顺序和随机性,主要分为顺序读、顺序写、随机读、随机写以及其他命令。
执行状态信息用于记录每条命令的最终执行状态,分为完成、挂起和丢弃三种,分别代表命令执行完成、没有执行完成命令挂起以及命令被丢弃。
错误状态信息用于记录命令执行过程中有没有出现错误,主要有Pass(通过)和Fail(失败)两种状态。
图4是根据本发明实施例的串行日志记录模块记录的命令执行信息的示意图。如图4所示,示例性地展示了命令执行信息中的时间戳、命令类型、命令响应时间、逻辑地址、数据块大小、执行状态信息和错误状态信息等。
根据如图4所示的命令执行信息可以清楚的知道每条目标指令的执行情况,从而技术人员可以根据命令执行信息分析掉盘问题、性能问题以及命令超时等存储链路的典型问题。
例如通过分析日志即命令执行信息,确定哪些命令超时,哪些命令挂起,哪些命令被丢弃以确定命令超时问题。
例如通过分析日志即命令执行信息,确定哪条或哪些命令耗时较长,集中在哪些LBA地址,是否有频繁Read log的温度监控影响或SMART日志监控影响、Check power的节能模式影响,或者是否突然有异常的reset事件影响以确定性能问题。
本实施例提供的存储链路故障原因定位方法,通过利用串行日志记录模块记录服务器下发的目标命令的命令执行信息,使得基于第一日志信息、第二日志信息和目标命令执行信息确定出的存储链路故障原因更加准确,提高了存储链路故障原因定位的准确性。
在一些可选的实施方式中,存储链路故障原因定位方法还包括:
响应于关键字更新操作,对关键字触发条件中的关键字进行更新。
其中,技术人员在进行存储链路故障原因定位之后,可以根据存储链路故障的原因对关键字进行更新,以能够获取到更加利于存储链路故障原因定位的命令执行信息。
在串行日志记录模块设置有关键字触发条件的情况下,利用关键字触发条件中包含的关键字对串行日志记录模块记录的命令执行信息进行筛选,以获得目标命令执行信息,包括:
在串行日志记录模块设置有关键字触发条件的情况下,利用更新后的关键字触发条件中包含的关键字对串行日志记录模块记录的命令执行信息进行筛选,以获得目标命令执行信息。
本实施例提供的存储链路故障原因定位方法,通过根据存储链路故障原因实时对关键字触发条件中的关键字进行更新,使得获取到的命令执行信息更加有利于存储链路故障原因定位,提升存储链路故障原因定位的准确性。
在本实施例中还提供了一种扩展背板,图5是根据本发明实施例的扩展背板的结构示意图。如图5所示,该扩展背板包括:扩展背板芯片(Expander 芯片)和串行日志记录模块。
其中,串行日志记录模块包括开关控制模块和串行日志记录子单元。其中,开关控制模块用于响应于用户的操作,控制串行日志记录子单元的开关状态。
串行日志记录子单元用于在开启状态下记录服务器主机下发的目标命令的命令执行信息。其中,串行日志记录子单元即为串行日志记录芯片。
也就是说,开关控制模块主要负责串行日志记录功能的开关。开关控制模块还可以根据日志记录内容,通过设置关键字的方式暂停日志的记录,防止关键日志被覆盖。也就是说,开关控制模块还用于设置关键字触发条件。
一般情况下,在命令执行信息中出现关键字的情况下,存储链路出现故障。
图6是根据本发明实施例的获取目标命令执行信息的流程图,如图6所示,该获取目标命令执行信息的流程包括以下步骤:
第一步:判断开关控制模块是否开启日志记录功能,即判断扩展背板的串行日志记录模块的开关状态是否为开启状态。需要说明的是,判断扩展背板的串行日志记录模块的开关状态是否为开启状态即判断串行日志记录子单元的开关状态是否为开启状态。
第二步:在开关控制模块开启日志记录功能的情况下,进行串行日志记录。对应前述的在扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用串行日志记录模块记录服务器下发的目标命令的命令执行信息。
在开关控制模块未开启日志记录功能的情况下,流程结束。
第三步:判断是否读取日志,即判断存储链路是否发生故障,需要对串行日志记录模块中的命令执行信息进行读取。
第四步:在不读取日志的情况下,日志循环记录实时更新,也即在存储链路未出现故障的情况下,利用串行日志记录模块,采用覆盖写的方式记录服务器下发的目标命令的命令执行信息。
第五步:在读取日志的情况下,判断开关控制模块是否设置触发条件,也即在存储链路出现故障的情况下,判断串行日志记录模块是否设置有关键字触发条件。
第六步:在开关控制模块设置触发条件的情况下,生成精简日志。
在开关控制模块未设置触发条件的情况下,生成完成串行日志文件。
对应于前述在串行日志记录模块设置有关键字触发条件的情况下,利用关键字触发条件中包含的关键字对串行日志记录模块记录的命令执行信息进行筛选,以获得目标命令执行信息。在串行日志记录模块未设置有关键字触发条件的情况下,将串行日志记录模块当前记录的命令执行信息作为目标命令执行信息。详细参见对应描述,在此不再赘述。
本实施例提供的扩展背板,通过内置串行日志记录模块,在服务器运行时可以实时获取通过扩展背板的命令的命令类型、数据块大小、逻辑地址、命令标签、命令响应时间、命令模式、执行状态、错误状态等信息,实现了对读写类命令、监控类命令、SMART类命令、节能类命令、链路重置类命令的实时监控和命令执行信息统计,以在存储链路出现故障的情况下,通过对命令执行信息进行解析,快速定位掉盘、命令超时、性能、报错等存储链路典型问题,提升存储链路故障的解决时效。
本发明实施例还提供了一种存储子系统,图7是根据本发明实施例的存储子系统的结构示意图。如图7所示,存储子系统通过高速串行计算机扩展总线标准(PeripheralComponent Interconnect Express,简称:PCIE)协议接口与服务器主板相连。
存储子系统包括磁盘阵列卡即RAID卡、扩展背板(Expander 背板)和硬盘。各个部件都遵循SATA/SAS协议,通过该协议实现链路之间的通信。存储子系统用于基于上述实施例示出的存储链路故障原因定位方法进行存储链路故障原因定位。
服务器中的扩展背板作为存储链路最重要的组成部分之一,串联在RAID卡/SAS卡和硬盘(包含SSD)之间,起着纽带和桥梁的作用。RAID卡和硬盘部件有强大完整的日志记录功能,能够详细记录各类报错、超时等异常事件,结合当前扩展背板中的串行日志记录模块能够快速定位存储链路故障根因。
本实施例提供的存储子系统,通过在服务器运行时可以实时获取通过扩展背板的命令的命令类型、数据块大小、逻辑地址、命令标签、命令响应时间、命令模式、执行状态、错误状态等信息,同时还实现了串行日志记录模块的开关功能和指定关键字触发条件,通过对命令执行信息进行解析,快速定位掉盘、命令超时、性能、报错等存储链路兼容性相关的典型问题,提高了存储链路故障原因定位的准确性,提升存储链路故障的解决能力和解决时效。
本发明实施例还提供一种计算机设备,请参阅图8,图8是本发明可选实施例提供的一种计算机设备的结构示意图,如图8所示,该计算机设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
处理器801可以是中央处理器,网络处理器或其组合。其中,处理器801还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器802存储有可由至少一个处理器801执行的指令,以使至少一个处理器801执行实现上述实施例示出的方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器802可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器802还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口803,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (13)
1.一种存储链路故障原因定位方法,其特征在于,所述方法包括:
获取扩展背板的串行日志记录模块的开关状态,其中,所述扩展背板的串行日志记录模块的开关状态默认为开启状态;
在所述扩展背板的串行日志记录模块的开关状态为开启状态的情况下,利用所述串行日志记录模块记录服务器下发的目标命令的命令执行信息;
在所述存储链路出现故障的情况下,获取磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和所述串行日志记录模块记录的目标命令执行信息;
将所述第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位;
在所述存储链路出现故障的情况下,获取扩展背板对应的基本日志信息;
所述将所述第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位,包括:
将所述第一日志信息、第二日志信息、基本日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息、基本日志信息和目标命令执行信息进行存储链路故障原因定位;
所述利用所述串行日志记录模块记录服务器下发的目标命令的命令执行信息,包括:
接收服务器下发的命令;
在所述命令的类型为目标命令类型的情况下,确定所述命令为目标命令,其中,所述目标命令类型为读写类命令、监控类命令、自我监控分析类命令、节能类命令和链路重置类命令;
利用所述串行日志记录模块,采用覆盖写的方式记录服务器下发的目标命令的命令执行信息。
2.根据权利要求1所述的方法,其特征在于,在所述存储链路出现故障的情况下,获取所述串行日志记录模块记录的目标命令执行信息,包括:
在所述存储链路出现故障的情况下,判断所述串行日志记录模块是否设置有关键字触发条件;
在所述串行日志记录模块设置有关键字触发条件的情况下,利用所述关键字触发条件中包含的关键字对所述串行日志记录模块记录的命令执行信息进行筛选,以获得目标命令执行信息。
3.根据权利要求2所述的方法,其特征在于,所述利用所述关键字触发条件中包含的关键字对所述串行日志记录模块记录的命令执行信息进行筛选,以获得目标命令执行信息,包括:
针对任一命令执行信息,若所述命令执行信息中包括至少一个所述关键字,则确定所述命令执行信息为目标命令执行信息。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述串行日志记录模块未设置有关键字触发条件的情况下,将所述串行日志记录模块当前记录的命令执行信息作为目标命令执行信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述存储链路出现故障的情况下,暂停利用所述串行日志记录模块记录服务器下发的目标命令的命令执行信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在将所述第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端之后,继续利用所述串行日志记录模块记录服务器下发的目标命令的命令执行信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述扩展背板的串行日志记录模块的开关状态为关闭状态的情况下,利用扩展背板日志记录模块记录扩展背板对应的基本日志信息。
8.根据权利要求1所述的方法,其特征在于,所述命令执行信息包括:命令响应时间、命令类型、命令模式、执行状态信息和错误状态信息。
9.一种扩展背板,其特征在于,所述扩展背板包括:串行日志记录模块,其中,所述串行日志记录模块包括开关控制模块和串行日志记录子单元,所述扩展背板的串行日志记录模块的开关状态默认为开启状态;
所述开关控制模块用于响应于用户的操作,控制所述串行日志记录子单元的开关状态;
所述串行日志记录子单元用于在开启状态下记录服务器主机下发的目标命令的命令执行信息;
其中,存储子系统在存储链路出现故障的情况下,获取磁盘阵列卡对应的第一日志信息、硬盘对应的第二日志信息和所述串行日志记录模块记录的目标命令执行信息,将所述第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位;
存储子系统在所述存储链路出现故障的情况下,获取扩展背板对应的基本日志信息;
所述将所述第一日志信息、第二日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息和目标命令执行信息进行存储链路故障原因定位,包括:
将所述第一日志信息、第二日志信息、基本日志信息和目标命令执行信息发送至服务器主机端,以使技术人员基于所述服务器主机端接收到的第一日志信息、第二日志信息、基本日志信息和目标命令执行信息进行存储链路故障原因定位;
所述记录服务器主机下发的目标命令的命令执行信息,包括:
接收服务器下发的命令;
在所述命令的类型为目标命令类型的情况下,确定所述命令为目标命令,其中,所述目标命令类型为读写类命令、监控类命令、自我监控分析类命令、节能类命令和链路重置类命令;
利用所述串行日志记录模块,采用覆盖写的方式记录服务器下发的目标命令的命令执行信息。
10.一种存储子系统,其特征在于,所述存储子系统包括:磁盘阵列卡、扩展背板和硬盘,其中,所述存储子系统用于基于权利要求1-8中任一项所述的存储链路故障原因定位方法进行存储链路故障原因定位。
11.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至8中任一项所述的存储链路故障原因定位方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至8中任一项所述的存储链路故障原因定位方法。
13.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至8中任一项所述的存储链路故障原因定位方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411303460.1A CN118819940B (zh) | 2024-09-19 | 2024-09-19 | 存储链路故障原因定位方法、存储子系统及计算机设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411303460.1A CN118819940B (zh) | 2024-09-19 | 2024-09-19 | 存储链路故障原因定位方法、存储子系统及计算机设备 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN118819940A CN118819940A (zh) | 2024-10-22 |
| CN118819940B true CN118819940B (zh) | 2024-12-20 |
Family
ID=93077107
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202411303460.1A Active CN118819940B (zh) | 2024-09-19 | 2024-09-19 | 存储链路故障原因定位方法、存储子系统及计算机设备 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118819940B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114661505A (zh) * | 2022-03-03 | 2022-06-24 | 阿里巴巴(中国)有限公司 | 存储部件故障处理方法、装置、设备和存储介质 |
| CN117811903A (zh) * | 2023-12-08 | 2024-04-02 | 苏州元脑智能科技有限公司 | 一种sas链路故障诊断方法、装置、设备及存储介质 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109086155A (zh) * | 2018-07-27 | 2018-12-25 | 郑州云海信息技术有限公司 | 服务器故障定位方法、装置、设备及计算机可读存储介质 |
| CN112463560B (zh) * | 2020-11-19 | 2022-06-14 | 苏州浪潮智能科技有限公司 | 一种日志记录方法、装置、计算机设备及存储介质 |
| CN113064470A (zh) * | 2021-03-12 | 2021-07-02 | 山东英信计算机技术有限公司 | 一种服务器背板扩展装置及其工作方法 |
| CN113568806A (zh) * | 2021-06-28 | 2021-10-29 | 济南浪潮数据技术有限公司 | 一种sas卡链路状态监控方法、系统、装置及可读存储介质 |
| CN114924924B (zh) * | 2022-05-31 | 2024-06-28 | 苏州浪潮智能科技有限公司 | 基于oses的sas链路测试方法、平台、设备、介质 |
| CN117234771A (zh) * | 2023-09-08 | 2023-12-15 | 苏州浪潮智能科技有限公司 | 故障内存定位方法、系统、装置、计算机设备及存储介质 |
-
2024
- 2024-09-19 CN CN202411303460.1A patent/CN118819940B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114661505A (zh) * | 2022-03-03 | 2022-06-24 | 阿里巴巴(中国)有限公司 | 存储部件故障处理方法、装置、设备和存储介质 |
| CN117811903A (zh) * | 2023-12-08 | 2024-04-02 | 苏州元脑智能科技有限公司 | 一种sas链路故障诊断方法、装置、设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN118819940A (zh) | 2024-10-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9952963B2 (en) | System on chip and corresponding monitoring method | |
| WO2025123552A1 (zh) | 可恢复故障的固件检测系统、方法、存储介质及服务器 | |
| CN114003445B (zh) | Bmc的i2c监控功能测试方法、系统、终端及存储介质 | |
| US11347573B2 (en) | In-drive bus trace | |
| CN118656307B (zh) | 基板管理控制器的故障检测方法、服务器、介质和产品 | |
| CN120474904B (zh) | 交换芯片的故障解析方法及装置 | |
| CN117573455B (zh) | 一种pcie设备检测系统、方法、装置及产品 | |
| CN111309570A (zh) | 压力测试方法、介质、装置和计算设备 | |
| CN111459863A (zh) | 一种基于nvme-mi的机箱管理系统及方法 | |
| CN118550747A (zh) | 一种PCIe致命错误的快速定位方法、系统、电子设备及介质 | |
| CN117194198A (zh) | Io性能测试方法、系统、终端及存储介质 | |
| CN118796128A (zh) | 磁盘阵列硬盘更换方法、装置、计算机设备及存储介质 | |
| CN113590405A (zh) | 硬盘错误的检测方法、装置、存储介质和电子装置 | |
| CN101593218A (zh) | 芯片维护方法 | |
| WO2024124862A1 (zh) | 基于服务器的内存处理方法和装置、处理器及电子设备 | |
| CN118819940B (zh) | 存储链路故障原因定位方法、存储子系统及计算机设备 | |
| CN116361111A (zh) | 一种数据获取方法、装置及电子设备 | |
| CN112069202A (zh) | 基于追踪技术的sql性能分析方法、系统、设备及介质 | |
| US10348605B2 (en) | Embedding analyzer functionality in storage devices | |
| CN118245300A (zh) | 芯片筛选方法、装置、电子设备、存储介质和程序产品 | |
| CN118916202A (zh) | 一种针对程序跑飞的数据处理方法、装置、设备和介质 | |
| CN118796703A (zh) | 命令测试方法、装置、电子设备、存储介质和程序产品 | |
| CN118747165A (zh) | 读取日志数据的方法、装置、计算机设备及存储介质 | |
| CN117217240A (zh) | 一种RAID卡task abort问题的测试验证方法及系统、设备及介质 | |
| CN116662085A (zh) | 磁盘故障模拟测试方法、测试装置和电子设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |