[go: up one dir, main page]

CN117811903A - 一种sas链路故障诊断方法、装置、设备及存储介质 - Google Patents

一种sas链路故障诊断方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117811903A
CN117811903A CN202311682215.1A CN202311682215A CN117811903A CN 117811903 A CN117811903 A CN 117811903A CN 202311682215 A CN202311682215 A CN 202311682215A CN 117811903 A CN117811903 A CN 117811903A
Authority
CN
China
Prior art keywords
fault
feature
log
database
sas link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311682215.1A
Other languages
English (en)
Inventor
刘波
宋成磊
胡令超
朱英豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311682215.1A priority Critical patent/CN117811903A/zh
Publication of CN117811903A publication Critical patent/CN117811903A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种SAS链路故障诊断方法、装置、计算机设备和存储介质。方法包括:响应于SAS链路发生故障,获取SAS链路上各个部件的日志文件,检查日志文件是否存在故障信息;响应于日志文件存在故障信息,对日志文件分别进行故障特征的提取,故障特征为至少一个;将提取出的故障特征与预设特征数据库进行匹配,判断SAS链路故障的原因及位置;当故障特征与特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。采用本方法能够收集SAS链路上各个部件的日志文件提取相应的故障特征,并将提取出的故障特征与预设特征数据库进行匹配,快速定位到故障发生的位置,给出相应的故障处理方案。

Description

一种SAS链路故障诊断方法、装置、设备及存储介质
技术领域
本申请涉及服务器技术领域,特别是涉及一种SAS链路故障诊断方法、装置、设备及存储介质。
背景技术
SAS链路在服务器/存储系统中,为数据的安全存储起到了重要地位。如图1所示,在某厂商服务器硬件某阶段故障占比的统计中,与SAS链路相关的故障占据了一半以上的比例,而在存储型服务器中这个比例会变得更大。一旦SAS链路出现了故障,将会导致数据无法正常读写,因此需要快速定位故障位置并修复。SAS存储链路涉及的物理硬件设备较多,位于存储链路上的主要器件有:Raid/SAS卡,SAS线缆,Expander硬盘背板和硬盘。如果不能快速定位故障位置,一般是从硬盘、背板、Raid/SAS卡,线缆等替换难易的顺序依次进行更换,存在问题处理效率低下的问题。
因此,如何能够一步到位,直接判断出故障位置,并形成技术积累,是本专利要解决的主要技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够快速对故障位置进行判断的SAS链路故障诊断方法、装置、设备和存储介质。
一方面,提供一种SAS链路故障诊断方法,所述方法包括:
响应于所述SAS链路发生故障,获取所述SAS链路上各个部件的日志文件,检查所述日志文件中是否存在故障信息;
响应于所述日志文件存在故障信息,对所述日志文件分别进行故障特征的提取,所述故障特征为至少一个;
将提取出的故障特征与预设特征数据库进行匹配,判断所述SAS链路故障的原因及位置,并根据所述特征数据库给出相应的故障处理方案;
当所述故障特征与所述特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
在其中一个实施例中,所述获取SAS存储链路上各个部件的日志文件之前,包括:
获取所述SAS链路故障的历史排查修复记录及历史日志信息,对所述SAS链路的历史故障进行分析,建立并维护特征数据库,所述特征数据库包括用于故障诊断的故障信息。
在其中一个实施例中,所述日志文件包括系统日志、BMC日志、Raid/SAS卡日志、Expander日志及硬盘日志,所述检查所述日志文件中是否存在故障信息,包括:
将所述日志文件与所述SAS链路正常工作时的状态日志进行对比,判断所述日志文件中是否存在故障信息;或
根据所述特征数据库获取诊断关键词,将所述诊断关键词与所述日志文件中的每一行内容进行匹配,若所述日志文件中存在能够与所述诊断关键词相匹配的至少一行内容,则确定所述日志文件存在故障信息。
在其中一个实施例中,所述特征数据库中的故障信息包括故障原因及故障特征,其中每种故障原因对应至少一个故障特征;所述将提取出的故障特征与预设特征数据库进行匹配,判断所述SAS链路故障的原因及位置,包括:
将提取出的故障特征与所述特征数据库进行匹配,确定所述特征数据库中是否存在所述故障特征;
响应于所述特征数据库中不存在所述故障特征,根据每种故障原因的占比分别计算其后验概率,并给出按照所述后验概率由高到低的顺序依次进行部件维修更换的故障处理方案;
响应于所述特征数据库中存在所述故障特征,将所述故障特征与所述特征数据库中的每一种故障原因进行匹配,确定所述特征数据库中是否存在与所述故障特征完全匹配的故障原因。
在其中一个实施例中,所述响应于所述特征数据库中存在所述故障特征,将所述故障特征与所述特征数据库中的每一种故障原因进行匹配,确定所述特征数据库中是否存在与所述故障特征完全匹配的故障原因,包括:
响应于所述特征数据库中存在与所述故障特征完全匹配的故障原因,利用所述特征数据库获取所述故障原因对应的故障处理方案,并定位到故障发生的位置。
在其中一个实施例中,所述响应于所述特征数据库中存在所述故障特征,将所述故障特征与所述特征数据库中的每一种故障原因进行匹配,确定所述特征数据库中是否存在与所述故障特征完全匹配的故障原因,还包括:
响应于所述特征数据库中不存在与所述故障特征完全匹配的故障原因,计算当前发生的故障与所述特征数据库中每一种故障原因的近似度;
将所述近似度从高到低排列,采用所述近似度最高的故障原因对应的故障处理方案进行维修。
在其中一个实施例中,所述计算当前发生的故障与所述特征数据库中每一种故障原因的近似度,包括:
S=1-|F1-F2|/(F1+F2);
其中,S为故障近似度,F1为当前提取的故障特征数目,F2为所述特征数据库中待匹配故障原因对应的故障特征数目,|F1-F2|为故障特征差异数目,F1+F2为故障特征去重后数目。
另一方面,提供了一种SAS链路故障诊断装置,所述装置包括:
日志获取模块,用于响应于所述SAS链路发生故障,获取所述SAS链路上各个部件的日志文件,检查所述日志文件是否存在故障信息;
特征提取模块,用于响应于所述日志文件存在故障信息,对所述日志文件分别进行故障特征的提取,所述故障特征为至少一个;
特征匹配模块,用于将提取出的故障特征与预设特征数据库进行匹配,判断所述SAS链路故障的原因及位置;
计算模块,用于当所述故障特征与所述特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
响应于所述SAS链路发生故障,获取所述SAS链路上各个部件的日志文件,检查所述日志文件中是否存在故障信息;
响应于所述日志文件存在故障信息,对所述日志文件分别进行故障特征的提取,所述故障特征为至少一个;
将提取出的故障特征与预设特征数据库进行匹配,判断所述SAS链路故障的原因及位置;
当所述故障特征与所述特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
响应于所述SAS链路发生故障,获取所述SAS链路上各个部件的日志文件,检查所述日志文件中是否存在故障信息;
响应于所述日志文件存在故障信息,对所述日志文件分别进行故障特征的提取,所述故障特征为至少一个;
将提取出的故障特征与预设特征数据库进行匹配,判断所述SAS链路故障的原因及位置,并根据所述特征数据库给出相应的故障处理方案;
当所述故障特征与所述特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
本申请具有的有益效果如下:
1.通过收集SAS链路上各个部件的日志文件提取故障特征,并将提取出的故障特征与预设特征数据库进行匹配,可以帮助维护人员快速准确地定位到故障原因及位置,避免了传统排查方法的繁琐过程,大大提高了维护效率;
2.通过对历史故障的分析,生成故障案例特征数据库,该数据库经过不断的补充完善,能够形成技术积累,为后续的故障维修提供参考;
3.可以根据不同的系统环境和故障情况自动调整诊断策略和参数,具有较强的自适应性和鲁棒性,可以更好地满足不同用户的需求;
4.可以减少因故障排查和维修而耗费的时间和人力成本,同时可以降低因故障而导致的业务中断等间接成本,从而降低了整体维护成本;
5.通过建立特征数据库、计算故障近似度及后验概率等方法进行故障诊断,可以减少因人为误判而导致的错误维修,从而提高了维修的准确性和效率。
附图说明
图1为某厂商服务器硬件某阶段故障占比统计的饼状图;
图2为一个实施例中SAS链路故障诊断方法的应用环境图;
图3为一个实施例中SAS链路故障诊断方法的流程示意图;
图4为一个实施例中SAS存储链路部件示意图;
图5为一个实施例中SAS存储链路主要部件连接关系示意图;
图6为一个实施例中SAS链路故障分布统计图;
图7为一个实施例中SAS链路故障诊断装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为解决上述问题,本发明实施例创造性地提出了一种SAS链路故障诊断方法,能够通过收集SAS链路上各个部件的日志文件提取相应的故障特征,并将提取出的故障特征与预设特征数据库进行匹配,快速定位到故障发生的位置,给出相应的故障处理方案。
本申请提供的SAS链路故障诊断方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。通过终端102可对服务器104的特征数据库进行读写。在其他应用环境中,终端102为服务器104的输入装置,服务器104可以是计算机设备等个人电脑,该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,如图3所示,提供了一种SAS链路故障诊断方法,包括以下步骤:
步骤S1,响应于SAS链路发生故障,获取SAS链路上各个部件的日志文件,检查日志文件是否存在故障信息。
应说明的是,服务器经过长期的使用,会存在部分机器因为老化、线缆磨损,机房搬迁、位置移动撞件等原因导致物理损坏。这些关键部件会产生记录系统的关键运行信息的日志文件。如图4和图5所示,位于SAS存储链路上的主要器件包括Raid/SAS卡、SAS线缆、Expander硬盘背板和硬盘,其中主板CPU通过PCIE槽位与Raid/SAS卡通过金手指相连,Raid/SAS卡与Expander硬盘背板通过线缆(Cable)相连,硬盘背板与硬盘通过硬盘连接器相连,BMC与主板、Raid/SAS卡、Expander硬盘背板通过管理链路相连。
当SAS链路发生故障时,故障会出现在一个或者多个部件,其相邻的部件的日志也会跟随发生改变,因此需要收集SAS存储链路上各个部件的日志文件,包括系统日志、BMC日志、Raid/SAS卡日志、Expander日志及硬盘日志,建立全链路日志信息库,并从中提取有关故障的特征信息,通过一个或多个故障特征综合判断SAS链路故障的原因或者位置。
在执行步骤S1之前,首先需要根据SAS链路故障的排查修复记录及日志信息,对历史故障案例进行分析,建立并维护用于故障诊断的特征数据库,该特征数据库包含各种故障信息,可以为后续的故障维修提供直接的参考。
应说明的是,硬件故障不同于软件故障,在检测是否存在故障信息时,除了查看累积的日志输出外,还可以实时查看和导出硬件的当前状态。通过将正常运行时的日志文件或状态参数存储下来,将发生故障时获取的各部件日志文件与之进行对比,进而可以判断两者之间是否存在差异,若有,则可以作为差异点确认当前获取的日志文件中是否存在故障信息。
可以理解的是,检查日志文件中是否存在故障信息的方法并不局限,可以采用日志文件内容分析、关键词搜索、日志格式解析或专门的日志分析工具等多种方式,只要能够实现对故障信息的检查即可。
示例性地,日志文件内容分析是通过阅读日志文件的内容,寻找与故障相关的信息,如错误消息、异常行为、服务中断等,这些信息可能是直接或间接表明故障存在的线索;关键词搜索是通过特征数据库获取诊断关键词,如“错误”、“异常”、“失败”、“中断”等,将这些诊断关键词与日志文件中的每一行内容进行匹配,若日志文件中存在能够与诊断关键词相匹配的至少一行内容,则确定日志文件存在故障信息并进行故障特征的提取;日志格式解析是在日志文件有固定的格式或结构的情况下,如包含特定的字段或标签来表示不同的状态和事件,可以用于提取故障信息。进一步的,还可以使用专门的日志分析工具,自动检测和提取日志文件中的故障信息,这些工具通常具有强大的过滤、筛选和分析功能,能够快速准确地识别故障信息。
步骤S2,响应于日志文件存在故障信息,对日志文件分别进行故障特征的提取。
应说明的是,由于日志文件中可能记录大量与故障无关的运行状态信息,或者其他非故障时段的信息,而这些信息对进行故障分析是没有实际价值的,因此需要提取出关键的故障特征信息,准确对故障进行标识。示例性地,能够从日志中提取的故障特征描述如表1所示。
表1日志文件中提取的故障特征描述
如表2所示,是一组服务器报修的故障案例简化数据示例。其中,故障描述为服务器对外表现出的故障形态;故障特征为从各部件日志文件中提取出的与故障相关的关键特征,一般有一个或者多个故障特征;故障原因为服务器故障的根本原因;处理方案为修复故障服务器最终使用的方案。
表2故障案例示例数据
可以理解的是,特征数据库就是根据表1的日志特征和表2的故障案例建立的,当有一种新的未遇到过的故障类型发生时,要仔细对日志文件进行分析过滤,找出新的故障特征,以标识这种故障类型。并且,特征的提取是一个不断完善的过程,要不断补充新的特征提取方法。某些特征的提取可以通过黑盒名单的方法进行,比如某些带问题的FW版本,某些内核故障输出,某些故障日志信息;某些特征的提取,可能需要复杂的逻辑判断,比如Expander重启判断。只要能够提取特征信息即可,不必拘泥于实现形式。
以发生链路降速为例,此时提取的Raid卡状态日志如表3所示,可以发现有些链路从SAS-12.0G变成了SAS-Down,因此判定为故障相关信息并进行故障特征的提取,定义此特征为Raid_SAS_Down。
表3链路降速特征Raid卡日志
Expander状态日志如表4所示,可以发现有些PHY发生了异常,速率不是12G的终端设备(End),提取此特征并定义为Exp_PHY_NoLink。
表4链路降速特征Expander日志
Raid降速日志如下所示,可以看到日志中出现downgraded字样,为便于说明,提取此特征并定义为Raid_Downgrade:
root@home:/#lspci-vvv丨grep-i lsi-A 70丨grep-i downgraded
LnkCap:Port#0,Speed 16GT/s,Width x8,ASPM L0s L1,Exit Latency L0sunlimited,L1<64us
LnkSta:Speed 8GT/s(downgraded),Width x8(ok)
LnkCap2:Supported Link Speeds:2.5-16GT/s,Crosslink-Retimer+2Retimers+DRS-
LnkCt12:Target Link Speed:16GT/s,EnterCompliance-SpeedDis-Capabilities:[188v1]Physical Layer 16.0GT/s<?>
root@home:/#
Expander降速日志如表5所示,可以看到日志中一个PHY速度从12G变成了6G,提取此特征并定义为Exp_12_to_6。
表5链路降速Expander日志
Expander链路误码日志如表6所示,提取此特征并定义为Exp_PHY_Error。
表6链路误码Expander日志
13 00000000 00000000 00000000 00000000
14 00000000 00000000 00000000 00000000
15 00000000 00000000 00000000 00000000
16 00000032 00000005 0000000c 00000127
同理本申请还提取并定义了Raid_12_to_6故障特征用于标识Raid卡存在链路降速,以及Raid_PHY_Error故障特征用于标识Raid卡存在链路误码。
步骤S3,将提取出的故障特征与预设特征数据库进行匹配,判断SAS链路故障的原因及位置,并根据特征数据库给出相应的故障处理方案。其中,特征数据库中的故障信息包括故障原因及故障特征,每种故障原因对应至少一个故障特征。
首先将提取出的故障特征与特征数据库进行匹配,确定特征数据库中是否存在该故障特征。若不存在该故障特征,则说明当前故障的类型之前没有遇到过,因此没有收录在特征数据库中,可以根据每种故障原因的占比计算后验概率,并给出按照后验概率由高到低的顺序依次进行部件维修更换的故障处理方案。
示例性地,如图6所示,在某存储机型1137例SAS链路故障统计中,硬盘故障1059例,硬盘背板故障66例,Raid/SAS卡故障6例,线缆故障6例。根据每种故障的占比可以计算出后验概率,其中硬盘故障后验概率为93.14%,硬盘背板故障后验概率为5.80%,Raid/SAS卡故障后验概率为0.53%,线缆故障后验概率为0.53%,因此,按照后验概率由高到低的顺序,应该优先考虑硬盘故障,其次时硬盘背板故障,最后才是Raid/SAS卡和线缆,可以按顺序依次进行部件维修更换。
进一步的,若特征数据库中存在该故障特征,则将故障特征与特征数据库中的每一种故障原因对应的故障特征进行匹配,确定特征数据库中是否存在与当前提取出的一个或多个故障特征完全匹配的故障原因。若存在,则可以通过表2中的故障原因和处理方案之间的一一对应关系,根据匹配到的故障原因定位到故障发生的位置,并给出相应的故障处理方案。
进一步的,当SAS链路上多个部件存在故障时,此时从各个部件的日志文件中提取的故障特征为多个故障的特征信息的集合,因此无法直接与特征数据库中的某一种故障原因完全匹配,并且我们也无法得知这是单个部件故障还是几个部件出现故障,需要综合判断故障原因。
首先,通过机器学习算法(如决策树、神经网络、支持向量机等)或统计学方法(如主成分分析、因子分析等)将提取出的故障特征进行组合和分析,以获得对多个部件故障的综合描述;
根据部件的关键性、历史故障频率及故障影响的范围等因素,为不同的部件设定优先级,并按照优先级的顺序通过模糊匹配算法将组合后的故障特征与特征数据库进行匹配,获得匹配结果,这里的模糊匹配算法可以使用相似度计算方法、聚类分析或机器学习分类器等;
由于一个部件的故障可能导致其他部件也出现故障,因此需要进行关联分析,通过关联分析工具对匹配结果进行分析,以确定哪些部件的故障可能是相互关联的,从而缩小故障原因的范围,并确定可能的传播路径,其中关联分析工具可以使用网络分析工具或时间序列分析工具;
根据匹配结果和关联性分析结果进行综合判断,确定最终的故障原因、主要故障部件、次要故障部件等信息,并将故障诊断的结果和经验反馈到特征数据库中,更新或增加新的故障数据,以提高未来故障诊断的准确性。
步骤S4,当故障特征与特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
具体地,若特征数据库中不存在与当前提取出的故障特征完全匹配的故障原因,则计算当前故障与特征数据库中每一种故障原因的近似度,计算公式为:
S=1-|F1-F2|/(F1+F2);
其中,S为故障近似度,F1为当前提取的故障特征数目,F2为所述特征数据库中待匹配故障原因对应的故障特征数目,|F1-F2|为故障特征差异数目,F1+F2为故障特征去重后数目。
应说明的是,故障近似度是特征相似度的度量,值在0到1之间,值越接近0表示故障相似度越低,值越接近1表示故障相似度越高。
示例性地,以发生链路降速为例,如表7所示,是用于对算法进行说明的示例数据,这些都是链路降速现象时出现的故障特征及对应的日志文件。为了简化说明,这里只列出了链路降速问题时关键的三个日志类型:OS日志、Raid卡日志和Expander日志。其中维修方法包括对部件进行更换和重新插拔。
表7发生链路降速时的故障特征
当SAS链路上发生故障G5时,此时从相应的日志文件中可以检测到故障G5的三个故障特征:Raid_12_to_6、Exp_12_to_6以及Exp_PHY_Error,通过与特征数据库的匹配可知,特征数据库中存在上述故障特征但是不存在与G5完全匹配的故障原因,因此进一步通过公式分别计算G5与G1、G2、G3、G4之间的故障近似度,寻找最接近的故障案例,其中故障近似度的计算如下:
S(G1,G5)=1-(5/5)=0;
S(G2,G5)=1-(5/5)=0;
S(G3,G5)=1-(4/4)=0;
S(G4,G5)=1-(1)/(4)=3/4;
可知G5与G4的故障近似性的值最大,即可以认为G5与G4最为接近,因此采用G4的故障处理方案进行维修,若没有修复成功,则可以按照后验概率对其他可能的故障进行排查。
当SAS链路上发生故障G6时,此时从相应的日志文件中可以检测G6到两个特征:Raid_SAS_Down,和Exp_PHY_NoLink。同样地,通过公式进行近似性计算:
S(G1,G6)=1-(2/2)=1;
S(G2,G6)=1-(2/2)=1;
S(G3,G6)=1-(3/3)=0;
S(G4,G6)=1-(6)/(6)=0;
可知G6与G1、G2的故障近似性的值最大,因此采用G1和G2中的维修策略。此时,为了进一步确定故障原因可以通过提取更多的故障特征,综合判断对两种故障类型进行区分。
进一步的,在维修完成后,需要将故障特征、故障原因以及相应的故障处理方案反馈录入到特征数据库中进行补充,以标识这种故障类型,进行参考维修。
应该理解的是,虽然图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种SAS链路故障诊断装置,包括:日志获取模块、特征提取模块、特征匹配模块及计算模块,其中:
日志获取模块,用于响应于SAS链路发生故障,获取SAS链路上各个部件的日志文件,检查日志文件是否存在故障信息;
特征提取模块,用于响应于日志文件存在故障信息,对日志文件分别进行故障特征的提取,故障特征为至少一个;
特征匹配模块,用于将提取出的故障特征与预设特征数据库进行匹配,判断SAS链路故障的原因及位置,并通过特征数据库给出相应的故障处理方案;
计算模块,用于当故障特征与特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
在一个具体的实施例中,根据SAS链路故障的排查修复记录及日志信息,对SAS链路的历史故障进行分析,建立并维护特征数据库,特征数据库包括用于故障诊断的故障信息。
在一个具体的实施例中,日志文件包括系统日志、BMC日志、Raid/SAS卡日志、Expander日志及硬盘日志;将日志文件与SAS链路正常工作时的状态日志进行对比,判断日志文件中是否存在故障信息;或,根据特征数据库获取诊断关键词,将诊断关键词与日志文件中的每一行内容进行匹配,若日志文件中存在能够与诊断关键词相匹配的至少一行内容,则确定日志文件存在故障信息。
在一个具体的实施例中,特征数据库中的故障信息包括故障原因及故障特征,其中每种故障原因对应至少一个故障特征;将提取出的故障特征与特征数据库进行匹配,确定特征数据库中是否存在故障特征;响应于特征数据库中不存在故障特征,根据每种故障原因的占比分别计算其后验概率,并给出按照后验概率由高到低的顺序依次进行部件维修更换的故障处理方案;响应于特征数据库中存在故障特征,将故障特征与特征数据库中的每一种故障原因进行匹配,确定特征数据库中是否存在与故障特征完全匹配的故障原因。
在一个具体的实施例中,响应于特征数据库中存在与故障特征完全匹配的故障原因,利用特征数据库获取故障原因对应的故障处理方案,并定位到故障发生的位置。
在一个具体的实施例中,响应于特征数据库中不存在与故障特征完全匹配的故障原因,计算当前发生的故障与特征数据库中每一种故障原因的近似度;将近似度从高到低排列,采用近似度最高的故障原因对应的故障处理方案进行维修。
在一个具体的实施例中,计算故障近似度采用的公式为:S=1-|F1-F2|/(F1+F2);其中,S为故障近似度,F1为当前提取的故障特征数目,F2为特征数据库中待匹配故障原因对应的故障特征数目,|F1-F2|为故障特征差异数目,F1+F2为故障特征去重后数目。
关于SAS链路故障诊断装置的具体限定可以参见上文中对于SAS链路故障诊断方法的限定,在此不再赘述。上述SAS链路故障诊断装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史故障案例数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种SAS链路故障诊断方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
响应于SAS链路发生故障,获取SAS链路上各个部件的日志文件,检查日志文件中是否存在故障信息;
响应于日志文件存在故障信息,对日志文件分别进行故障特征的提取,故障特征为至少一个;
将提取出的故障特征与预设特征数据库进行匹配,判断SAS链路故障的原因及位置,并根据特征数据库给出相应的故障处理方案;
当故障特征与特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据SAS链路故障的排查修复记录及日志信息,对SAS链路的历史故障进行分析,建立并维护特征数据库,特征数据库包括用于故障诊断的故障信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将日志文件与SAS链路正常工作时的状态日志进行对比,判断日志文件中是否存在故障信息;或,根据特征数据库获取诊断关键词,将诊断关键词与日志文件中的每一行内容进行匹配,若日志文件中存在能够与诊断关键词相匹配的至少一行内容,则确定日志文件存在故障信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将提取出的故障特征与特征数据库进行匹配,确定特征数据库中是否存在故障特征;响应于特征数据库中不存在故障特征,根据每种故障原因的占比分别计算其后验概率,并给出按照后验概率由高到低的顺序依次进行部件维修更换的故障处理方案;响应于特征数据库中存在故障特征,将故障特征与特征数据库中的每一种故障原因进行匹配,确定特征数据库中是否存在与故障特征完全匹配的故障原因。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:响应于特征数据库中存在与故障特征完全匹配的故障原因,利用特征数据库获取故障原因对应的故障处理方案,并定位到故障发生的位置。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:响应于特征数据库中不存在与故障特征完全匹配的故障原因,计算当前发生的故障与特征数据库中每一种故障原因的近似度;将近似度从高到低排列,采用近似度最高的故障原因对应的故障处理方案进行维修。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算故障近似度采用的公式为:S=1-|F1-F2|/(F1+F2);其中,S为故障近似度,F1为当前提取的故障特征数目,F2为特征数据库中待匹配故障原因对应的故障特征数目,|F1-F2|为故障特征差异数目,F1+F2为故障特征去重后数目。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
响应于SAS链路发生故障,获取SAS链路上各个部件的日志文件,检查日志文件中是否存在故障信息;
响应于日志文件存在故障信息,对日志文件分别进行故障特征的提取,故障特征为至少一个;
将提取出的故障特征与预设特征数据库进行匹配,判断SAS链路故障的原因及位置,并根据特征数据库给出相应的故障处理方案;
当故障特征与特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据SAS链路故障的排查修复记录及日志信息,对SAS链路的历史故障进行分析,建立并维护特征数据库,特征数据库包括用于故障诊断的故障信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将日志文件与SAS链路正常工作时的状态日志进行对比,判断日志文件中是否存在故障信息;或,根据特征数据库获取诊断关键词,将诊断关键词与日志文件中的每一行内容进行匹配,若日志文件中存在能够与诊断关键词相匹配的至少一行内容,则确定日志文件存在故障信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将提取出的故障特征与特征数据库进行匹配,确定特征数据库中是否存在故障特征;响应于特征数据库中不存在故障特征,根据每种故障原因的占比分别计算其后验概率,并给出按照后验概率由高到低的顺序依次进行部件维修更换的故障处理方案;响应于特征数据库中存在故障特征,将故障特征与特征数据库中的每一种故障原因进行匹配,确定特征数据库中是否存在与故障特征完全匹配的故障原因。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于特征数据库中存在与故障特征完全匹配的故障原因,利用特征数据库获取故障原因对应的故障处理方案,并定位到故障发生的位置。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于特征数据库中不存在与故障特征完全匹配的故障原因,计算当前发生的故障与特征数据库中每一种故障原因的近似度;将近似度从高到低排列,采用近似度最高的故障原因对应的故障处理方案进行维修。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:计算故障近似度采用的公式为:S=1-|F1-F2|/(F1+F2);其中,S为故障近似度,F1为当前提取的故障特征数目,F2为特征数据库中待匹配故障原因对应的故障特征数目,|F1-F2|为故障特征差异数目,F1+F2为故障特征去重后数目。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种SAS链路故障诊断方法,其特征在于,包括:
响应于所述SAS链路发生故障,获取所述SAS链路上各个部件的日志文件,检查所述日志文件中是否存在故障信息;
响应于所述日志文件存在故障信息,对所述日志文件分别进行故障特征的提取,所述故障特征为至少一个;
将提取出的故障特征与预设特征数据库进行匹配,判断所述SAS链路故障的原因及位置,并根据所述特征数据库给出相应的故障处理方案;
当所述故障特征与所述特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
2.根据权利要求1所述的SAS链路故障诊断方法,其特征在于:所述获取SAS存储链路上各个部件的日志文件之前,包括:
获取所述SAS链路故障的历史排查修复记录及历史日志信息,对所述SAS链路的历史故障进行分析,建立并维护特征数据库,所述特征数据库包括用于故障诊断的故障信息。
3.根据权利要求1所述的SAS链路故障诊断方法,其特征在于:所述日志文件包括系统日志、BMC日志、Raid/SAS卡日志、Expander日志及硬盘日志,所述检查所述日志文件中是否存在故障信息,包括:
将所述日志文件与所述SAS链路正常工作时的状态日志进行对比,判断所述日志文件中是否存在故障信息;或
根据所述特征数据库获取诊断关键词,将所述诊断关键词与所述日志文件中的内容进行匹配,若所述日志文件中存在能够与所述诊断关键词相匹配的内容,则确定所述日志文件存在故障信息。
4.根据权利要求1所述的SAS链路故障诊断方法,其特征在于:所述特征数据库中的故障信息包括故障原因及故障特征,其中每种故障原因对应至少一个故障特征;所述将提取出的故障特征与预设特征数据库进行匹配,判断所述SAS链路故障的原因及位置,包括:
将提取出的故障特征与所述特征数据库进行匹配,确定所述特征数据库中是否存在所述故障特征;
响应于所述特征数据库中不存在所述故障特征,根据每种故障原因的占比分别计算其后验概率,并给出按照所述后验概率由高到低的顺序依次进行部件维修更换的故障处理方案;
响应于所述特征数据库中存在所述故障特征,将所述故障特征与所述特征数据库中的每一种故障原因进行匹配,确定所述特征数据库中是否存在与所述故障特征完全匹配的故障原因。
5.根据权利要求4所述的SAS链路故障诊断方法,其特征在于:所述响应于所述特征数据库中存在所述故障特征,将所述故障特征与所述特征数据库中的每一种故障原因进行匹配,确定所述特征数据库中是否存在与所述故障特征完全匹配的故障原因,包括:
响应于所述特征数据库中存在与所述故障特征完全匹配的故障原因,利用所述特征数据库获取所述故障原因对应的故障处理方案,并定位到故障发生的位置。
6.根据权利要求4所述的SAS链路故障诊断方法,其特征在于:所述响应于所述特征数据库中存在所述故障特征,将所述故障特征与所述特征数据库中的每一种故障原因进行匹配,确定所述特征数据库中是否存在与所述故障特征完全匹配的故障原因,还包括:
响应于所述特征数据库中不存在与所述故障特征完全匹配的故障原因,计算当前发生的故障与所述特征数据库中每一种故障原因的近似度;
将所述近似度从高到低排列,采用所述近似度最高的故障原因对应的故障处理方案进行维修。
7.根据权利要求6所述的SAS链路故障诊断方法,其特征在于:所述计算当前发生的故障与所述特征数据库中每一种故障原因的近似度,包括:
S=1-|F1-F2|/(F1+F2);
其中,S为故障近似度,F1为当前提取的故障特征数目,F2为所述特征数据库中待匹配故障原因对应的故障特征数目,|F1-F2|为故障特征差异数目,F1+F2为故障特征去重后数目。
8.一种SAS链路故障诊断装置,其特征在于,所述装置包括:
日志获取模块,用于响应于所述SAS链路发生故障,获取所述SAS链路上各个部件的日志文件,检查所述日志文件是否存在故障信息;
特征提取模块,用于响应于所述日志文件存在故障信息,对所述日志文件分别进行故障特征的提取,所述故障特征为至少一个;
特征匹配模块,用于将提取出的故障特征与预设特征数据库进行匹配,判断所述SAS链路故障的原因及位置,并根据所述特征数据库给出相应的故障处理方案;
计算模块,用于当所述故障特征与所述特征数据库无法完全匹配时,通过近似度计算及后验概率进行原因排查和处理。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202311682215.1A 2023-12-08 2023-12-08 一种sas链路故障诊断方法、装置、设备及存储介质 Pending CN117811903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311682215.1A CN117811903A (zh) 2023-12-08 2023-12-08 一种sas链路故障诊断方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311682215.1A CN117811903A (zh) 2023-12-08 2023-12-08 一种sas链路故障诊断方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117811903A true CN117811903A (zh) 2024-04-02

Family

ID=90424387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311682215.1A Pending CN117811903A (zh) 2023-12-08 2023-12-08 一种sas链路故障诊断方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117811903A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118819940A (zh) * 2024-09-19 2024-10-22 苏州元脑智能科技有限公司 存储链路故障原因定位方法、存储子系统及计算机设备
CN118984267A (zh) * 2024-07-19 2024-11-19 苏州元脑智能科技有限公司 一种故障报文的定位方法、装置、计算机设备及存储介质
CN120353631A (zh) * 2025-06-19 2025-07-22 苏州元脑智能科技有限公司 存储链路故障诊断方法、装置、设备、介质及程序产品
CN120823974A (zh) * 2025-09-18 2025-10-21 精微视达医疗科技(苏州)有限公司 共聚焦显微内镜的故障处理方法、装置、介质和终端

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118984267A (zh) * 2024-07-19 2024-11-19 苏州元脑智能科技有限公司 一种故障报文的定位方法、装置、计算机设备及存储介质
CN118984267B (zh) * 2024-07-19 2025-09-19 苏州元脑智能科技有限公司 一种故障报文的定位方法、装置、计算机设备及存储介质
CN118819940A (zh) * 2024-09-19 2024-10-22 苏州元脑智能科技有限公司 存储链路故障原因定位方法、存储子系统及计算机设备
CN118819940B (zh) * 2024-09-19 2024-12-20 苏州元脑智能科技有限公司 存储链路故障原因定位方法、存储子系统及计算机设备
CN120353631A (zh) * 2025-06-19 2025-07-22 苏州元脑智能科技有限公司 存储链路故障诊断方法、装置、设备、介质及程序产品
CN120823974A (zh) * 2025-09-18 2025-10-21 精微视达医疗科技(苏州)有限公司 共聚焦显微内镜的故障处理方法、装置、介质和终端

Similar Documents

Publication Publication Date Title
CN117811903A (zh) 一种sas链路故障诊断方法、装置、设备及存储介质
Yuan et al. Automated known problem diagnosis with event traces
CN108923952B (zh) 基于服务监控指标的故障诊断方法、设备及存储介质
US9424157B2 (en) Early detection of failing computers
US9720758B2 (en) Diagnostic analysis tool for disk storage engineering and technical support
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
US9489379B1 (en) Predicting data unavailability and data loss events in large database systems
Xu et al. General feature selection for failure prediction in large-scale SSD deployment
CN104598367A (zh) 数据中心故障事件管理自动化系统及方法
CN118211170B (zh) 服务器故障诊断方法、产品、计算机设备和存储介质
Tomer et al. Hard disk drive failure prediction using SMART attribute
CN104603779A (zh) 文本挖掘设备、文本挖掘方法和计算机可读记录介质
CN115878400A (zh) 测试方法、装置、计算机设备、存储介质和程序产品
US10776240B2 (en) Non-intrusive performance monitor and service engine
Shilpika et al. Toward an in-depth analysis of multifidelity high performance computing systems
CN114416581A (zh) 一种测试失败原因确定方法、装置及设备
CN120276978A (zh) 区块链的缺陷分析方法、电子设备及存储介质
JP2008198123A (ja) 障害検知システム及び障害検知プログラム
CN119806960A (zh) 一种服务器状态监测方法、装置及服务器集群系统
CN118113622A (zh) 应用于批量作业排程的检测与修复方法、装置和设备
CN115617604A (zh) 基于图像模式匹配的磁盘故障预测方法及系统
CN117520039A (zh) 一种内存优化方法和系统
ChuahM et al. Failure diagnosis for cluster systems using partial correlations
Rojas et al. Understanding failures through the lifetime of a top-level supercomputer
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination