JP5370591B2 - システムおよび障害処理方法 - Google Patents
システムおよび障害処理方法 Download PDFInfo
- Publication number
- JP5370591B2 JP5370591B2 JP2012531618A JP2012531618A JP5370591B2 JP 5370591 B2 JP5370591 B2 JP 5370591B2 JP 2012531618 A JP2012531618 A JP 2012531618A JP 2012531618 A JP2012531618 A JP 2012531618A JP 5370591 B2 JP5370591 B2 JP 5370591B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- unit
- location
- information
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0784—Routing of error reports, e.g. with a specific transmission path or data flow
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0745—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2048—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Description
障害原因箇所を推定する方法を、図9を用いて説明する。図9は従来のシステムのハードウェア構成を示す図である。ここで、システム200は、CPU(Central Processing Unit)210,チップセット220,PCI(Peripheral Component Interconnect)-Expressスイッチ(以下、単にスイッチという場合がある)230−235およびPCI-Card240をそなえる。スイッチ230は、スイッチ231およびスイッチ232とPCI-Expressバスを介して通信可能に接続され、スイッチ233は、スイッチ234およびスイッチ235とPCI-Expressバスを介して相互に接続されている。さらに、チップセット220は、スイッチ230およびスイッチ233とPCI-Expressバスを介して通信可能に接続されている。また、スイッチ231,232,234,235のそれぞれに、PCI-Expressバスを介してPCI-Card240が接続されている。
図10に示すように、例えば、チップセット220とスイッチ230との間のPCI-Expressバスがリンク切れを起こしている場合、CPU210は、スイッチ230−232や、スイッチ231,232に接続されているPCI-Card240がそれぞれそなえるレジスタの読み出しができなくなる。
本件は、Master Abort発生時においても、高精度に障害の原因箇所を推定することを目的の一つとする。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本件の他の目的の1つとして位置付けることができる。
図1は、実施形態の一例に係るシステムの構成を示す図である。図2は、実施形態の一例に係るシステムの詳細なハードウェア構成を示す図である。システム1は、第1記憶部2,第2記憶部3,CPU10,チップセット20,PCI-Expressスイッチ30−32,MC(Micro Controller)40,PCI-Expressバス50−54,I2C(Inter-Integrated Circuit)バス60,複数のPCI-Card80および複数のPCI-Card81をそなえている。ここで、システム1は、例えば、IO(Input/Output)サブシステムである。
スイッチ30−32のそれぞれは、回線やパケットの交換(スイッチング)機能を持った通信装置である。スイッチ30−32のそれぞれは、例えば、PCI-Expressバスによって接続された複数のポートをそなえ、所定のポートにおいて受信した情報を、任意のポートから出力する。
スイッチ31,32についても、スイッチ30と同様の構成を有するものであり、その詳細な説明は省略する。なお、図1に示す例では、スイッチ31,32は、5つ以上のポートをそれぞれそなえる。スイッチ31がそなえる複数のポートそれぞれは、障害を検出した場合に、Fatal-Error Messageパケットを、スイッチ30経由で、チップセット20のIOハブ21宛てに送信する。具体的には、スイッチ31がそなえる複数のポートそれぞれは、障害を検出した場合、Fatal-Error Messageパケットをスイッチ30送信し、Fatal-Error Messageパケット受信したスイッチ30がIOハブ21に受信したFatal-Error Messageパケットを送信する。
チップセット20は、CPU10とスイッチ30とを接続する回路であり、例えば、QPIをPCI-Expressに変換する処理を行なう。具体的には、図2に示すように、チップセット20は、IOハブ21,サウスブリッジ22およびBMC(Baseboard Management Controller)23をそなえる。なお、IOハブ21とサウスブリッジ22とは、例えば、ESI(Enterprise Southbridge Interface)バスを介して相互に通信可能に接続される。さらに、サウスブリッジ22とBMC23とは、例えば、LPC(Low Pin Count)バスを介して相互に通信可能に接続される。また、BMC23は、LANを介してMC40と相互に通信可能に接続されている。さらに、IOハブ21は、I2C60を介してBMC23と相互に通信可能に接続されている。
サウスブリッジ22は、例えば、LPCバス上のデバイスを制御する。BMC23は、例えば、CPU10の状態を監視するなど、システム1におけるハードウェアエラーを監視する。
第1記憶部2は、例えば、ROM(Read Only Memory)であり、各種の情報を記憶する。具体的には、第1記憶部2はBIOSを記憶する。
CPU10は、例えば、第1記憶部2に記憶されたBIOSや図示しない補助記憶装置(内蔵HDD(Hard Disk Drive)や外付けのストレージシステム)に記憶されたOSや各種アプリケーションプログラムを実行することにより種々の演算や制御を行ない、各種機能を実現する処理装置である。CPU10は、第1処理部として機能する。
Master Abortが発生した場合には、第1取得部12は、AERレジスタの読み出しを中止するとともに、Master Abortが発生したバス番号を、例えば、CPU10がそなえるレジスタに記録する。ここで、Master Abortが発生したバス番号とは、第1取得部12がMaster Abortを検知する際に、第1取得部12がAERレジスタの読み出しに使用するバス番号である。言い換えれば、Master Abortが発生したバス番号とは、第1取得部12が情報を読み出すことができなかったAERレジスタの上位側に接続されたバスの番号である。
依頼部15は、例えば、MC40に対して、後述するシステム障害情報の生成を依頼する。具体的には、依頼部15は、MC40に対して、第1障害箇所推定部14が推定した障害原因箇所および当該障害原因箇所から第1取得部12が取得したAERレジスタの内容を通知する。依頼部15は、障害箇所とAERレジスタ内容との通知と同時または略同時に、MC40に対して後述するシステム障害情報の生成を依頼する。すなわち、依頼部15は、第1障害箇所推定部14が推定した障害原因箇所および当該障害原因箇所のAERレジスタの内容を、MC40に対して通知する第3通知部として機能する。
さらに、依頼部15は、例えば、MC40に対してシステム障害情報の生成を依頼するとともに、CPU10に対して、NMI(Non-Maskable Interrupt)割り込みを行なう。ここで、NMI割り込みとは、ソフトウェアから禁止不可能な割り込みである。
ここで、「主体」とは、例えば、アプリケーションや仮想マシンや、これらのアプリケーションや仮想マシンが用いているハードウェア資源である。すなわち、判断部16は、障害箇所を使用している主体を特定する特定部として機能する。
終了部17は、判断部16によって、障害箇所を切り離すことが可能と判断された場合に、例えば、第2障害箇所推定部42または第1障害箇所推定部14によって推定された障害原因箇所を使用するアプリケーションや仮想マシンを終了させる。
リセット指示部18は、例えば、MC40に対して、システム1のリセットを行なうよう指示する。例えば、具体的には、リセット指示部18はMC40がそなえるレジスタにリセットフラグを書き込むことでリセットの指示を行なう。
例えば、MC40は、システム管理ファームを実行することにより、第2取得部41,第2障害箇所推定部42,第2通知部43,生成部44およびリセット部45として機能する。
ここで、割当部11によるバス番号の割当は、PCIのバス割り当て規則に従うため、MC40は、どのようにバス番号が割当てられるかを把握することができる。さらに、I2Cアドレスはシステム1内の装置に固定的に割当てられ、MC40は、システム1内の装置の位置を把握しているため、MC40は、システム1内の装置の位置と、I2Cアドレスとの対応付けを把握している。したがって、第2取得部41は、バス番号とI2Cアドレスとを対応付けることが可能であり、バス番号に基づいて、システム1内の装置の位置を特定することができる。すなわち、第2取得部41は、バス番号に基づいて、読み出すべきAERレジスタを特定することができる。
第2通知部43は、例えば、第2障害箇所推定部42によって推定された障害原因箇所および/または第2障害箇所推定部42によって推定された障害原因箇所のAERレジスタの内容を、CPU10に通知する。この第2通知部43からCPU10への通知は、例えば、IPMI通信を用いて行なわれる。
また、生成部44は、Master Abortが発生しなかった場合には、例えば、依頼部15から通知される情報に基づいて、システム障害情報を生成する。
なお、上述した判断部16,終了部17,リセット指示部18としての機能を実現するためのプログラム(OS)は、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
バス番号割当部11,第1取得部12,第1通知部13,第1障害箇所推定部14,依頼部15,判断部16,終了部17,リセット指示部18としての機能を実現する際には、内部記憶装置(本実施形態では第1記憶部2等)に格納されたプログラム(BIOS)と補助記憶装置(内蔵HDDや外付けストレージシステム等)に格納されたプログラム(OS)がコンピュータのマイクロプロセッサによって実行される。このとき、補助記憶装置に格納されたプログラムは、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。
なお、本実施形態において、コンピュータとは、ハードウェアとオペレーティングシステムとを含む概念であり、オペレーティングシステムの制御の下で動作するハードウェアを意味している。又、オペレーティングシステムが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウェアは、少なくとも、CPU等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえており、本実施形態においては、システム1がCPU10をそなえたコンピュータとしての機能を有するとともに、システム1がMC40をそなえたコンピュータとしての機能を有しているのである。
まず、システム1内において何らかのエラーが生じると、エラーが生じた装置(例えば、スイッチ32)が、Fatal-Error MessageパケットをIOハブ21宛てに送信する。そして、IOハブ21は、Fatal-Error Messageパケット受信すると、CPU10に対してSMI割り込みを発行する。
図6は、IOハブ21が、CPU10に対してSMI割り込みを発生することを説明するための図である。なお、図6中、スイッチ31については、図示を省略している。
また、第1取得部12はAERレジスタの読み出しを中止し、第1障害箇所推定部14は、第1取得部12が取得したAERレジスタの内容に基づいて、障害原因箇所の推定を行なう。ここでは、スイッチ30のport1に対応するAERレジスタに記録されているSurprise Down Errorに基づいて、スイッチ30のport1およびスイッチ30の下位に接続されているスイッチ32およびPCI-Card81を障害原因箇所として推定する。次に、依頼部15が、スイッチ30のAERレジスタの内容、および、障害原因箇所としてスイッチ30,スイッチ32およびPCI-Card81をMC40に通知する。なお、依頼部15は、この通知と同時に、システム障害情報の生成をMC40に対して依頼する。また、依頼部15は、MC40に対して、第1障害箇所推定部14が障害原因箇所であると推定した箇所のうち、最上位の箇所のみを通知することとしてもよい。すなわち、依頼部15は、MC40に対して、障害原因箇所としてスイッチ30およびスイッチ30のAERレジスタの内容のみを通知することとしてもよい。
ここで、図7に示すように、スイッチ32のport2に対応するコンフィグレーションレジスタ33のAERレジスタに、例えば、Internal Uncorrectable Errorが記録されている場合について考えると、第2取得部41が、このAERレジスタの内容を読み出す。そして、第2障害箇所推定部42が、この第2取得部41に読み出されたAERレジスタの内容に基づいて、障害原因箇所をスイッチ32のport2であると推定する。
さらに、判断部16が、第2障害箇所推定部42によって推定された障害原因箇所に基づいて、障害箇所を切り離すことが可能か否かを判断するため、Master Abort発生時においても、システム1を、できるだけリセットを行なわずに運用することができる。
なお、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
また、本実施形態の一例では、PCI-Expressについて記載しているが、これに限定されるものではなく、PCIやPCI-Xに対しても適用可能である。
また、本実施形態の一例では、システム1は、8つのPCI-Card80,81をそなえているがこれに限定されるものではない。例えば、システム1は、7以下または9以上PCI-Cardをそなえてもよい。
また、本実施形態の一例においては、Master Abort発生しているか否かに関わらず、判断部16が、システム1から障害箇所を切り離すことが可能か否かを判断しているが、これに限定されるものではない。例えば、Master Abort発生しなかった場合のみ、判断部16は、システム1から障害箇所を切り離すことが可能か否かを判断することとしてもよく、この場合、第2通知部43は、CPU10に対して情報を通知しない。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1処理部と、第2処理部と、第1処理部と第1の経路を介して接続され、第2処理部と第2の経路を介して接続される装置とをそなえたシステムであって、
該第1処理部が、
該システムにおいて障害が発生した場合、前記装置が保持する障害情報を、該第1の経路を介して取得する第1取得部と、
該第1取得部によって該障害情報を前記装置から取得できない場合に、該障害情報が取得できない状態を示す無応答情報を該第2処理部に通知する第1通知部と、をそなえ、
該第2処理部が、
該第1通知部から該無応答情報の通知があった場合に、該障害情報を、該第2の経路を介して前記装置から取得する第2取得部と、
該第2取得部が取得した障害情報に基づいて、障害原因箇所を推定する第2障害箇所推定部と、
該第2障害箇所推定部により推定された障害箇所を、該第1処理部に通知する第2通知部と、をそなえるとともに、
さらに、該第1処理部が、
該第2障害箇所推定部により推定された障害箇所を使用している主体を特定する特定部と、
該特定部により特定された主体を終了させる、終了部と、をそなえたことを特徴とするシステム。
(付記2)
該装置を複数そなえ、
該複数の装置同士が、該第1処理部を上位として、該第1の経路を介して多段に接続され、
該第2取得部が、該第1取得部によって取得できなかった障害情報を、該第2の経路を介して取得することを特徴とする付記1記載のシステム。
(付記3)
該第1通知部は、該第1取得部によって取得できなかった障害情報の格納位置を示す位置情報を該第2処理部に通知し、
該第2取得部は、該位置情報に基づいて、該第1取得部によって取得できなかった障害情報を取得することを特徴とする付記2記載のシステム。
(付記4)
該位置情報は、該第1取得部によって取得できなかった障害情報のうち、最上位の装置が保持する障害情報の格納位置を示し、
該第2取得部は、該位置情報に基づいて、該最上位の装置が保持する障害情報および該最上位の装置の下位に接続された装置が保持する障害情報を取得することを特徴とする付記3記載のシステム。
(付記5)
該第2障害箇所推定部によって推定された障害原因箇所(以下、第2障害原因箇所という)と、該第2障害原因箇所の障害情報と、に基づいて、システム障害情報を生成する生成部をそなえたことを特徴とする付記4記載のシステム。
(付記6)
該第1処理部が、
該第1取得部が取得した障害情報に基づいて、障害原因箇所を推定する第1障害箇所推定部と、
該第1障害箇所推定部によって推定された障害原因箇所(以下、第1障害原因箇所という)、および、該第1障害原因箇所の障害情報を、該第2処理部に通知する第3通知部と、をそなえ、
該生成部は、該第3通知部により通知された第1障害原因箇所と、該第1障害原因箇所の障害情報と、該第2障害原因箇所と、該第2障害原因箇所の障害情報と、該無応答情報と、該位置情報とに基づいて、システム障害情報を生成することを特徴とする付記5記載のシステム。
(付記7)
該第1通知部は、所定時間、該第1取得部が障害情報を取得できない場合に、該無応答情報を該第2処理部に通知することを特徴とする付記1記載のシステム。
(付記8)
第1処理部と、第2処理部とをそなえたシステムにおける障害処理方法であって、
第1処理部が、該システムにおいて障害が発生した場合、該第1処理部および該第2処理部とそれぞれ第1の経路および第2の経路を介して接続された装置が保持する障害情報を、該第1の経路を介して取得する第1取得ステップと、
該第1取得ステップによって障害情報が取得できない場合に、該装置が無応答である旨を示す無応答情報を第1処理部が該第2処理部に通知する第1通知ステップと、
該第1通知ステップによって該無応答情報の通知があった場合に、第2処理部が、該第2の経路を介して障害情報を装置から取得する第2取得ステップと、
該第2取得ステップによって取得された障害情報に基づいて、第2処理部が障害原因箇所を推定する第2障害箇所推定ステップと、
第2処理部が、該第2障害箇所推定ステップにより推定された障害箇所を、該第1処理部に通知する第2通知ステップと、
第1処理部が、該第2障害箇所推定ステップにより推定された障害箇所を使用している主体を特定する特定ステップと、
該特定ステップにより特定された主体を終了させる終了ステップと、をそなえたことを特徴とする障害処理方法。
2 第1記憶部
3 第2記憶部
10 CPU
11 バス番号割当部
12 第1取得部
13 第1通知部
14 第1障害箇所推定部
15 依頼部
16 判断部
17 終了部
18 リセット指示部
20 チップセット
21 IOハブ
22 サウスブリッジ
23 BMC
30,31,32 スイッチ
33 コンフィグレーションレジスタ
40 MC
50,51,52,53,54 PCI-Expressバス
55 QPIバス
60 I2Cバス
80,81 PCI-Card
Claims (7)
- 第1処理部と、第2処理部と、第1処理部と第1の経路を介して接続され、第2処理部と第2の経路を介して接続される装置とをそなえたシステムであって、
該第1処理部が、
該システムにおいて障害が発生した場合、前記装置が保持する障害情報を、該第1の経路を介して取得する第1取得部と、
該第1取得部によって該障害情報を前記装置から取得できない場合に、該障害情報が取得できない状態を示す無応答情報を該第2処理部に通知する第1通知部と、をそなえ、
該第2処理部が、
該第1通知部から該無応答情報の通知があった場合に、該障害情報を、該第2の経路を介して前記装置から取得する第2取得部と、
該第2取得部が取得した障害情報に基づいて、障害原因箇所を推定する第2障害箇所推定部と、
該第2障害箇所推定部により推定された障害箇所を、該第1処理部に通知する第2通知部と、をそなえるとともに、
さらに、該第1処理部が、
該第2障害箇所推定部により推定された障害箇所を使用している主体を特定する特定部と、
該特定部により特定された主体を終了させる、終了部と、をそなえたことを特徴とするシステム。 - 該装置を複数そなえ、
該複数の装置同士が、該第1処理部を上位として、該第1の経路を介して多段に接続され、
該第2取得部が、該第1取得部によって取得できなかった障害情報を、該第2の経路を介して取得することを特徴とする請求項1記載のシステム。 - 該第1通知部は、該第1取得部によって取得できなかった障害情報の格納位置を示す位置情報を該第2処理部に通知し、
該第2取得部は、該位置情報に基づいて、該第1取得部によって取得できなかった障害情報を取得することを特徴とする請求項2記載のシステム。 - 該位置情報は、該第1取得部によって取得できなかった障害情報のうち、最上位の装置が保持する障害情報の格納位置を示し、
該第2取得部は、該位置情報に基づいて、該最上位の装置が保持する障害情報および該最上位の装置の下位に接続された装置が保持する障害情報を取得することを特徴とする請求項3記載のシステム。 - 該第2障害箇所推定部によって推定された障害原因箇所(以下、第2障害原因箇所という)と、該第2障害原因箇所の障害情報と、に基づいて、システム障害情報を生成する生成部をそなえたことを特徴とする請求項4記載のシステム。
- 該第1処理部が、
該第1取得部が取得した障害情報に基づいて、障害原因箇所を推定する第1障害箇所推定部と、
該第1障害箇所推定部によって推定された障害原因箇所(以下、第1障害原因箇所という)、および、該第1障害原因箇所の障害情報を、該第2処理部に通知する第3通知部と、をそなえ、
該生成部は、該第3通知部により通知された第1障害原因箇所と、該第1障害原因箇所の障害情報と、該第2障害原因箇所と、該第2障害原因箇所の障害情報と、該無応答情報と、該位置情報とに基づいて、システム障害情報を生成することを特徴とする請求項5記載のシステム。 - 第1処理部と、第2処理部とをそなえたシステムにおける障害処理方法であって、
第1処理部が、該システムにおいて障害が発生した場合、該第1処理部および該第2処理部とそれぞれ第1の経路および第2の経路を介して接続された装置が保持する障害情報を、該第1の経路を介して取得する第1取得ステップと、
該第1取得ステップによって障害情報が取得できない場合に、該装置が無応答である旨を示す無応答情報を第1処理部が該第2処理部に通知する第1通知ステップと、
該第1通知ステップによって該無応答情報の通知があった場合に、第2処理部が、該第2の経路を介して障害情報を装置から取得する第2取得ステップと、
該第2取得ステップによって取得された障害情報に基づいて、第2処理部が障害原因箇所を推定する第2障害箇所推定ステップと、
第2処理部が、該第2障害箇所推定ステップにより推定された障害箇所を、該第1処理部に通知する第2通知ステップと、
第1処理部が、該第2障害箇所推定ステップにより推定された障害箇所を使用している主体を特定する特定ステップと、
該特定ステップにより特定された主体を終了させる終了ステップと、をそなえたことを特徴とする障害処理方法。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2010/064966 WO2012029147A1 (ja) | 2010-09-01 | 2010-09-01 | システムおよび障害処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2012029147A1 JPWO2012029147A1 (ja) | 2013-10-28 |
| JP5370591B2 true JP5370591B2 (ja) | 2013-12-18 |
Family
ID=45772283
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012531618A Active JP5370591B2 (ja) | 2010-09-01 | 2010-09-01 | システムおよび障害処理方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US8832501B2 (ja) |
| JP (1) | JP5370591B2 (ja) |
| WO (1) | WO2012029147A1 (ja) |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103136083A (zh) * | 2011-11-29 | 2013-06-05 | 鸿富锦精密工业(深圳)有限公司 | 通用串行总线的测试设备及方法 |
| AU2014232838A1 (en) * | 2013-03-15 | 2015-09-24 | Nec Corporation | Information processing device |
| JP2014186376A (ja) * | 2013-03-21 | 2014-10-02 | Fujitsu Ltd | 障害箇所特定方法、スイッチング装置、障害箇所特定装置、及び情報処理装置 |
| US9146797B2 (en) * | 2013-08-09 | 2015-09-29 | American Megatrends, Inc. | Method for ensuring remediation of hung multiplexer bus channels |
| US9256489B2 (en) * | 2013-10-30 | 2016-02-09 | International Business Machines Corporation | Synchronized debug information generation |
| JP6303405B2 (ja) * | 2013-11-01 | 2018-04-04 | 富士通株式会社 | 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法 |
| BR112016012902A2 (pt) * | 2014-01-16 | 2017-08-08 | Intel Corp | Aparelho, método e sistema para um mecanismo de configuração rápida |
| JP6427979B2 (ja) * | 2014-06-19 | 2018-11-28 | 富士通株式会社 | 原因特定方法、原因特定プログラム、情報処理システム |
| US10489232B1 (en) * | 2015-09-29 | 2019-11-26 | Amazon Technologies, Inc. | Data center diagnostic information |
| JP2018055337A (ja) * | 2016-09-28 | 2018-04-05 | 富士通株式会社 | 情報処理装置およびプログラム |
| CN108108254B (zh) * | 2016-11-24 | 2021-07-06 | 英业达科技有限公司 | 交换器错误排除方法 |
| US11163659B2 (en) * | 2019-04-25 | 2021-11-02 | Intel Corporation | Enhanced serial peripheral interface (eSPI) signaling for crash event notification |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008176564A (ja) * | 2007-01-18 | 2008-07-31 | Fujitsu Ltd | ログメモリアクセス回路、情報処理装置および情報処理装置のログ採取システム |
| JP2009217435A (ja) * | 2008-03-10 | 2009-09-24 | Fujitsu Ltd | 制御方法、情報処理装置及びストレージシステム |
| JP2010092112A (ja) * | 2008-10-03 | 2010-04-22 | Fujitsu Ltd | 情報システム |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05282167A (ja) | 1992-04-03 | 1993-10-29 | Hitachi Ltd | 障害処理方法 |
| JPH11259383A (ja) | 1998-03-12 | 1999-09-24 | Hitachi Ltd | Ras情報取得回路及びそれを備えた情報処理システム |
| US7020076B1 (en) * | 1999-10-26 | 2006-03-28 | California Institute Of Technology | Fault-tolerant communication channel structures |
| US6704812B2 (en) * | 2000-11-30 | 2004-03-09 | International Business Machines Corporation | Transparent and dynamic management of redundant physical paths to peripheral devices |
| JP2005251078A (ja) * | 2004-03-08 | 2005-09-15 | Hitachi Ltd | 情報処理装置、及び情報処理装置の制御方法 |
| JP2005011379A (ja) | 2004-09-27 | 2005-01-13 | Ricoh Co Ltd | Agpバスシステム |
| US7370224B1 (en) * | 2005-02-17 | 2008-05-06 | Alcatel Usa Sourcing, Inc | System and method for enabling redundancy in PCI-Express architecture |
| US7487403B2 (en) * | 2004-11-12 | 2009-02-03 | International Business Machines Corporation | Method for handling a device failure |
| US7779308B2 (en) * | 2007-06-21 | 2010-08-17 | International Business Machines Corporation | Error processing across multiple initiator network |
| CN102906303B (zh) | 2010-06-03 | 2015-01-28 | 株式会社爱发科 | 溅射成膜装置 |
| US8381027B1 (en) * | 2010-09-28 | 2013-02-19 | Emc Corporation | Determining alternate paths in faulted systems |
-
2010
- 2010-09-01 WO PCT/JP2010/064966 patent/WO2012029147A1/ja not_active Ceased
- 2010-09-01 JP JP2012531618A patent/JP5370591B2/ja active Active
-
2013
- 2013-02-26 US US13/777,808 patent/US8832501B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008176564A (ja) * | 2007-01-18 | 2008-07-31 | Fujitsu Ltd | ログメモリアクセス回路、情報処理装置および情報処理装置のログ採取システム |
| JP2009217435A (ja) * | 2008-03-10 | 2009-09-24 | Fujitsu Ltd | 制御方法、情報処理装置及びストレージシステム |
| JP2010092112A (ja) * | 2008-10-03 | 2010-04-22 | Fujitsu Ltd | 情報システム |
Also Published As
| Publication number | Publication date |
|---|---|
| US8832501B2 (en) | 2014-09-09 |
| JPWO2012029147A1 (ja) | 2013-10-28 |
| US20130166953A1 (en) | 2013-06-27 |
| WO2012029147A1 (ja) | 2012-03-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5370591B2 (ja) | システムおよび障害処理方法 | |
| TWI632462B (zh) | 開關裝置及偵測積體電路匯流排之方法 | |
| JP6333410B2 (ja) | 障害処理方法、関連装置、およびコンピュータ | |
| US7613861B2 (en) | System and method of obtaining error data within an information handling system | |
| US9141463B2 (en) | Error location specification method, error location specification apparatus and computer-readable recording medium in which error location specification program is recorded | |
| US20120174112A1 (en) | Application resource switchover systems and methods | |
| TW440755B (en) | Method and system for environmental sensing and control within a computer system | |
| JP2012203636A (ja) | 仮想計算機の制御方法及び計算機 | |
| JP2014071576A (ja) | ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム | |
| US10275330B2 (en) | Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus | |
| US9286178B2 (en) | Controller, storage apparatus, method of testing storage apparatus, and computer-readable storage medium | |
| US8145956B2 (en) | Information processing apparatus, failure processing method, and recording medium in which failure processing program is recorded | |
| JP6183931B2 (ja) | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 | |
| US20160283305A1 (en) | Input/output control device, information processing apparatus, and control method of the input/output control device | |
| JP2015162000A (ja) | 情報処理装置,制御装置及びログ情報収集方法 | |
| CN100375960C (zh) | 用于调试输入/输出故障的方法和系统 | |
| JP5689783B2 (ja) | コンピュータ、コンピュータシステム、および障害情報管理方法 | |
| JPWO2011051999A1 (ja) | 情報処理装置及び情報処理装置の制御方法 | |
| US11334421B2 (en) | Method and apparatus to identify a problem area in an information handling system based on latencies | |
| CN112804115B (zh) | 一种虚拟网络功能的异常检测方法、装置及设备 | |
| US20120124195A1 (en) | Reducing Redundant Error Messages In A Computing System | |
| JP6212947B2 (ja) | 情報処理装置、制御装置及び制御プログラム | |
| WO2014147699A1 (ja) | 管理装置、方法及びプログラム | |
| WO2017072904A1 (ja) | 計算機システム、及び、障害検知方法 | |
| JP5651004B2 (ja) | 計算機切替システム、計算機切替プログラム、および計算機切替方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130820 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130902 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5370591 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |