[go: up one dir, main page]

JP2000215086A - Device and method for gathering fault information of fc-al and recording medium - Google Patents

Device and method for gathering fault information of fc-al and recording medium

Info

Publication number
JP2000215086A
JP2000215086A JP11016272A JP1627299A JP2000215086A JP 2000215086 A JP2000215086 A JP 2000215086A JP 11016272 A JP11016272 A JP 11016272A JP 1627299 A JP1627299 A JP 1627299A JP 2000215086 A JP2000215086 A JP 2000215086A
Authority
JP
Japan
Prior art keywords
information
file
failure
loop
hub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11016272A
Other languages
Japanese (ja)
Other versions
JP3211799B2 (en
Inventor
Keiko Yamamoto
恵子 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP01627299A priority Critical patent/JP3211799B2/en
Publication of JP2000215086A publication Critical patent/JP2000215086A/en
Application granted granted Critical
Publication of JP3211799B2 publication Critical patent/JP3211799B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

PROBLEM TO BE SOLVED: To actualize a method which bypasses a device connected to a hub through association of various monitors, port by port, executes T and D to gather fault information, and manages it in a pair with log information if a fault occurs to a FC-AL(fiber channel arbitrated loop) system. SOLUTION: A syslog monitor 26 monitors a syslog file 21 and when log information of a FC-AL fault is present, a loop closure monitor 27 closes the loop through fault closure and switches it to an alternative loop. A hub control indication monitor 28 forces one connection port of a node or device connected to the faulty loop to bypass the hub by using a hub management AP 29. A T and D execution indication monitor 2A instructs a T and D executing means 2B to execute T and D. A T and D execution result monitor 2C checks the execution result in a T and D execution result file 24 and outputs an error to an FC-AL fault information file 22 in a pair with the log information if the error is found.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、複数のコンピュー
タシステム(以下、ノードと記す。)ディスクアレイ装
置がハブ(hub:集線装置)を介してファイバー・チャ
ネル・アービトレイテッド・ループ(Fiber Channel Ar
bitrated Loop、以下FC-ALと記す。)と接続されている
システムにおけるFC-ALの障害情報収集装置および障害
情報収集方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer system (hereinafter, referred to as a node) in which a disk array device is connected to a fiber channel arbitrated loop (hub) via a hub.
Bitrated Loop, hereinafter referred to as FC-AL. The present invention relates to an FC-AL fault information collecting device and a fault information collecting method in a system connected to the system.

【0002】[0002]

【従来の技術】複数のノードとアレイ装置がハブを介し
てFC-AL接続されているシステム構成における障害は、
ノードとディスクアレイ装置間をポイント・ツー・ポイ
ント(point-to-point)接続したしシステム構成時の障
害と比べて障害箇所の特定が困難であるが、迅速かつ正
確な障害箇所の特定が必要とされることには相違はな
い。 従来、この種のシステムにおける障害情報収集の
ための診断プログラム起動方式の一例が、特開平4−3
49541号公報に記載されている。この技術は、稼働
中の装置に発生した異常情報を格納するログファイルを
有する診断プログラム起動方式であって、ログファイル
中のログ情報の書き換えを管理するログ情報書き換え管
理手段と、ログファイル全領域の更新を契機としてログ
ファイルの内容を解析するログ情報解析手段と、解析し
たログ情報を参照して診断プログラムを起動する診断プ
ログラム起動手段と、診断結果表示手段とを有すること
を特徴とし、ログファイルに記録されている情報を有効
に活用し早期に装置の異常を発見することを目的とする
ものである。
2. Description of the Related Art A failure in a system configuration in which a plurality of nodes and an array device are FC-AL connected via a hub is as follows.
A point-to-point connection between the node and the disk array device makes it difficult to locate the failure point compared to the failure in the system configuration, but it is necessary to quickly and accurately locate the failure point There is no difference. Conventionally, an example of a diagnostic program starting method for collecting fault information in this type of system is disclosed in Japanese Unexamined Patent Publication No.
No. 49541. This technique is a diagnostic program start-up method having a log file for storing abnormality information generated in an operating device, a log information rewriting management means for managing rewriting of log information in a log file, and a log file entire area. Log information analyzing means for analyzing the contents of the log file in response to the update of the log file, diagnostic program starting means for starting a diagnostic program with reference to the analyzed log information, and diagnostic result display means, An object of the present invention is to effectively utilize information recorded in a file and to detect an abnormality of an apparatus at an early stage.

【0003】[0003]

【発明が解決しようとする課題】しかし、この従来技術
には、次のような問題点がある。第1の問題点は、障害
発生時のシステムの情報を収集できないということであ
る。その理由は、ログファイルの全領域の更新を契機に
ログファイルを退避させ、退避したログファイルの内容
を解析し、解析したログ情報を参照して診断プログラム
を起動し実行しているためである。すなわち、障害発生
時に即時に診断プログラムを実行させていないため、障
害発生時のシステムの稼働情報を収集できず、また間欠
障害時のような障害箇所特定が難しいケースにおいては
障害情報を収集できない可能性が高いのである。また、
第2の問題点は、診断プログラムの実行結果の再確認と
その実行結果がログファイル内のどの異常情報に対する
診断結果であるかを把握することができないということ
である。その理由は、診断プログラムの実行結果は表示
されるが、ファイル出力されず、またログファイルの異
常情報と対応づけをしていないためである。
However, this prior art has the following problems. The first problem is that information on the system at the time of the failure cannot be collected. The reason is that the log file is evacuated when the entire area of the log file is updated, the contents of the evacuated log file are analyzed, and the diagnostic program is started and executed by referring to the analyzed log information. . In other words, because the diagnostic program is not immediately executed when a failure occurs, it is not possible to collect system operation information at the time of the failure, and it is not possible to collect failure information in cases where it is difficult to identify the failure location such as an intermittent failure The nature is high. Also,
The second problem is that it is not possible to reconfirm the execution result of the diagnostic program and to grasp which abnormality information in the log file corresponds to the diagnostic result. The reason is that the execution result of the diagnostic program is displayed, but is not output to a file, and is not associated with the abnormal information in the log file.

【0004】したがって、この技術においては、検出し
たログファイルの異常情報を解析し、診断すべき装置と
診断プログラムを決定し診断プログラムを起動する手段
は最良なものではあるが、診断プログラムの実行結果を
再確認する必要が生じた場合や、ログファイルの異常情
報と診断プログラムの実行結果との関係を対応づける場
合には、前に行った診断プログラムの実行結果を利用す
ることができない。さらに、第3の問題点は、間欠障害
に対する障害情報の収集を考慮していないということで
ある。その理由は、長時間システムの稼働状況を監視し
障害情報を収集するよう考慮されていないためである。
間欠障害は、固定障害と異なり障害が発生したままでは
ないため、1回の診断プログラムの実行だけでは障害が
発生せず、エラー検出されないケースがあり、障害情報
の精度の低下や保守作業の滞りや保守漏れが起こる可能
性があるのである。したがって、本発明の目的は、障害
発生時のシステムのより詳細な障害情報と稼動情報を自
動収集できるFC-ALの障害情報収集装置、障害情報収集
方法、およびこの方法にかかる処理手順を記録した記録
媒体を提供することにある。また、本発明の他の目的
は、障害箇所特定のために必要な情報を少ない工数で得
ることができるFC-ALの障害情報収集装置、障害情報収
集方法、および、この方法にかかる処理手順を記録した
記録媒体を提供することにある。また、本発明の他の目
的は、間欠障害時にも障害情報を収集できるFC-ALの障
害情報収集装置、障害情報収集方法、および、この方法
にかかる処理手順を記録した記録媒体を提供することに
ある。
Therefore, in this technique, the means for analyzing the abnormal information of the detected log file, determining the device to be diagnosed and the diagnostic program, and activating the diagnostic program is the best, but the execution result of the diagnostic program is the best. If it becomes necessary to reconfirm the error, or if the relationship between the abnormality information in the log file and the execution result of the diagnostic program is associated with each other, the result of the previously executed diagnostic program cannot be used. Further, a third problem is that collection of fault information for intermittent faults is not considered. The reason is that it is not considered to monitor the operation status of the system for a long time and collect the fault information.
Intermittent failures, unlike fixed failures, do not remain as failures, so failure of a single execution of the diagnostic program does not cause failures, and in some cases errors are not detected. This reduces the accuracy of failure information and delays maintenance work. And maintenance omissions can occur. Therefore, an object of the present invention is to record a failure information collection device of FC-AL, a failure information collection method, and a processing procedure according to the method, which can automatically collect more detailed failure information and operation information of a system when a failure occurs. It is to provide a recording medium. Another object of the present invention is to provide an FC-AL fault information collecting apparatus, a fault information collecting method, and a processing procedure according to the method, which can obtain information necessary for fault location identification with a small number of steps. An object of the present invention is to provide a recorded recording medium. Further, another object of the present invention is to provide an FC-AL fault information collecting apparatus, a fault information collecting method, and a recording medium on which a processing procedure according to this method can be collected even when an intermittent fault occurs. It is in.

【0005】[0005]

【課題を解決するための手段】本発明のFC-AL障害情報
収集装置は、複数のノードと複数のディスクアレイ装置
とがハブを介してファイバー・チャネル・アービトレイ
テッド・ループ(FC-AL)接続されたシステムにおける
障害情報収集装置において、前記各ノードは、前記シス
テムまたは装置に障害が発生した場合に採集されるログ
情報を管理するためのシスログファイルと、FC-AL関連
のログ情報やT&Dの実行結果を管理するためのFC-AL障害
情報ファイルと、T&D実行結果を管理するためのT&D実行
結果ファイルと、前記シスログファイルの出力内容を監
視するシスログ監視モニターと、該監視によってFC-AL
障害のログ情報が存在するときは障害ループの閉塞を行
って代替ループに切り替えるループ閉塞モニターと、前
記ハブをポート単位に強制バイパスする機能を有するハ
ブ管理アプリケーションと、前記ループの切り替え後
に、前記ハブ管理アプリケーションを使用して前記障害
ループに接続されているノードまたはディスクアレイ装
置のうちの一つの接続ポートをハブから強制バイパスす
るハブ制御指示モニターと、前記ハブ制御指示モニター
からの指示によりT&Dの実行指示をするT&D実行指示モニ
ターと、T&Dを実行しその結果を前記T&D実行結果ファイ
ルに出力するT&D実行手段と、T&Dの実行結果をチェック
してエラー情報があれば前記FC-AL障害情報ファイルへ
出力するT&D実行結果監視モニターとを有し、以上の一
連の処理を前記障害ループに接続されている全ての前記
ノードとディスクアレイ装置について繰り返し行うこと
を特徴とする。また、本発明のFC-AL障害情報収集方法
は、複数のノードと複数のディスクアレイ装置とがハブ
を介してファイバー・チャネル・アービトレイテッド・
ループ(FC-AL)接続されたシステムにおける障害情報
収集方法において、システムまたは装置に障害が発生し
た場合に採集されるシスログファイルの出力内容を監視
する手順と、該監視によってFC-AL障害のログ情報が存
在するときは障害ループの閉塞を行って代替ループに切
り替える手順と、前記ループの切り替え後に、ハブをポ
ート単位に強制バイパスする機能を有するハブ管理アプ
リケーションを使用して前記障害ループに接続されてい
るノードまたはディスクアレイ装置のうちの一つの接続
ポートをハブから強制バイパスする手順と、T&Dを実行
する手順と、T&Dの実行結果をファイルに出力する手順
と、T&Dの実行結果をチェックしてエラー情報があればF
C-AL障害情報ファイルへ出力する手順とを有し、以上の
一連の処理を前記障害ループに接続されている全ての前
記ノードとディスクアレイ装置について繰り返し行うこ
とを特徴とする。また本発明の記録媒体は、上記方法の
各手順を実行するプログラムを記録することを特徴とす
る。本発明では、システムまたは装置に障害が発生した
場合採取されるシステムのログ情報をある一定間隔毎に
監視するシスログ(syslog)監視モニターにより、シス
テムのログ情報内のFC-AL障害のログ情報の有無をチェ
ックし、当該ログ情報が存在した場合、FC-AL障害情報
ファイルに出力し、障害ループを閉塞するループ閉塞モ
ニターへ動作指示する。ループ閉塞モニターは、障害ル
ープを閉塞し、運用を代替ループに切り換えた後、障害
ループに接続されているノードやディスクアレイ装置を
ハブからポート単位で強制バイパスすることを可能にす
るハブ制御モニターへ動作指示する。ハブ制御モニター
は、ハブの管理APとインターフェースをとり、障害ルー
プに接続されているノードやディスクアレイ装置のうち
1装置の接続ポートをハブから強制バイパスし、試験・
診断プログラム(T&D)を投入するT&D実行指示モニター
へ動作指示する。T&D実行指示モニターは、T&Dコマンド
を投入してT&Dを実行させ、実行結果をT&D実行結果ファ
イルに出力し、T&Dの実行結果をチェックするT&D実行結
果監視モニターへ動作指示する。T&D実行結果監視モニ
ターは、T&D実行結果内のT&Dのエラー情報の有無をチェ
ックし、当該エラー情報が存在した場合は、先のログ情
報と対にしてFC-AL障害情報ファイルへ出力した後、当
該エラー情報が存在しない場合は出力しないでFC-AL障
害情報ファイルを削除する。この一連の処理を障害ルー
プに接続されているノードとディスクアレイ装置に対し
て、1装置ずつ順次強制バイパスとT&D実行を繰り返し
行いながら、全ノードとディスクアレイ装置に対する処
理が終了するまで行う。また、障害ループに接続されて
いる全ノードとディスクアレイ装置に対する処理を予め
設定しておいたT&D実行回数/時間を満足するまで繰り
返し行う。収集した障害情報は、T&D実行結果監視モニ
ターにより、保守センターに自動通報され、保守員によ
る障害箇所特定作業のために利用する。なお、本発明に
おける前提条件として、ハブはハブ管理APにより強制バ
イパス可能なインテリジェント・ハブを使用し、また、
ハブ管理APは、ハブの各ポート毎の強制バイパス機能を
有し、イーサネットを介してハブ制御モニターからの強
制バイパス指示の受信とハブの制御を可能とするアプリ
ケーションインターフェースを有していることとする。
According to the FC-AL fault information collecting apparatus of the present invention, a plurality of nodes and a plurality of disk array devices are connected via a hub to a fiber channel arbitrated loop (FC-AL). In the failure information collection device in the connected system, each of the nodes includes a system log file for managing log information collected when a failure occurs in the system or the device, and log information and T & D related to FC-AL. FC-AL failure information file for managing the execution result of T & D execution result file for managing the execution result of T & D, a syslog monitoring monitor for monitoring the output contents of the syslog file, and FC-AL
When there is log information of a failure, a loop closure monitor that performs closure of the failure loop and switches to an alternative loop, a hub management application having a function of forcibly bypassing the hub on a port basis, and after switching the loop, Using a management application, a hub control instruction monitor forcibly bypassing a connection port of one of the nodes or disk array devices connected to the failed loop from the hub, and executing T & D according to an instruction from the hub control instruction monitor T & D execution instruction monitor for instructing, T & D execution means for executing T & D and outputting the result to the T & D execution result file, and checking the execution result of T & D to the FC-AL failure information file if there is error information It has a T & D execution result monitoring monitor to output the above series of processes to the fault loop. And performing repeated for all of the nodes and disk array device being. Further, in the FC-AL failure information collection method of the present invention, a plurality of nodes and a plurality of disk array devices are connected via a hub to a Fiber Channel arbitrated system.
In the method for collecting fault information in a loop (FC-AL) connected system, a procedure for monitoring the output contents of a syslog file collected when a fault occurs in the system or the device, and a log of the FC-AL fault by the monitoring. When the information is present, a procedure for closing the failed loop to switch to the alternative loop, and after the switching of the loop, connected to the failed loop using a hub management application having a function of forcibly bypassing the hub on a port basis. Check the procedure for forcibly bypassing the connection port of one of the connected nodes or disk array devices from the hub, executing the T & D, outputting the T & D execution result to a file, and checking the T & D execution result. F if there is error information
Outputting to a C-AL failure information file, and repeating the above series of processing for all the nodes and disk array devices connected to the failure loop. The recording medium of the present invention is characterized by recording a program for executing each procedure of the above method. In the present invention, the log information of the FC-AL failure in the system log information is provided by a syslog monitoring monitor that monitors the system log information collected when a failure occurs in the system or the device at certain intervals. It checks for the presence or absence, and if the log information exists, outputs the log information to the FC-AL failure information file and instructs the loop closure monitor that closes the failure loop to operate. The loop blocking monitor closes the failed loop, switches the operation to the alternative loop, and then to the hub control monitor that enables the node and disk array device connected to the failed loop to be forcibly bypassed from the hub on a port basis. Instruct operation. The hub control monitor interfaces with the management AP of the hub, and forcibly bypasses the connection port of one of the nodes and disk array devices connected to the failed loop from the hub, and performs test / test.
Instructs the T & D execution instruction monitor that inputs the diagnostic program (T & D) to operate. The T & D execution instruction monitor inputs a T & D command to execute T & D, outputs an execution result to a T & D execution result file, and instructs a T & D execution result monitoring monitor that checks the T & D execution result. The T & D execution result monitoring monitor checks whether there is T & D error information in the T & D execution result, and if the error information exists, outputs it to the FC-AL failure information file in combination with the previous log information, If the error information does not exist, delete the FC-AL failure information file without outputting it. This series of processing is repeated until the processing for all the nodes and the disk array device is completed while repeatedly performing the forced bypass and the T & D execution one by one for the nodes and the disk array devices connected to the failure loop. Further, the processing for all the nodes and the disk array device connected to the failure loop is repeatedly performed until the predetermined number of times of T & D execution / time is satisfied. The collected failure information is automatically notified to the maintenance center by the T & D execution result monitoring monitor and used for maintenance work by maintenance personnel to identify the failure location. As a precondition in the present invention, the hub uses an intelligent hub that can be forcibly bypassed by the hub management AP, and
The hub management AP has a forced bypass function for each port of the hub, and has an application interface capable of receiving a forced bypass instruction from a hub control monitor via Ethernet and controlling the hub. .

【0006】[0006]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。図2は、本発明が適用され
るシステム構成例を示す。本システムは、複数のノード
11n(1≦n 実施形態では3つ)と複数のファイバー・
チャネル・ケーブル(以下、FCケーブルと記す。)12n
(1≦n 実施形態では6本)と、複数のハブ13n(1≦
n 実施形態では4つ)と、複数のディスクアレイ装置1
4n(1≦n 実施形態では5つ)によって構成される。
ノード11nとディスクアレイ装置14n間を接続するチャネ
ル部分は、中間にハブ13nを介するFC-AL接続形態にて構
成され、ハブ13nにはノード11nまたはディスクアレイ装
置14nがFCケーブル12nで接続される。FC-ALは、運用時
に使用する運用ループ15と運用ループ15が障害等により
使用不可となった場合に使用する待機ループ16の二重化
構成で、ノード11nまたはディスクアレイ装置14nは各々
のループ15,16に接続されている。図1を参照すると、
本発明の一実施形態(第1実施形態)であるノード111
の構成が示されており、ソフトウェア(モニターを含
む)と各種ファイルとの関係が明らかにされている。ノ
ード111内のファイルは、システムのログ情報を管理す
るためのsyslogファイル21と、FC-AL関連のログ情報やT
&Dの実行結果を管理するためのFC-AL障害情報ファイル2
2と、システムの構成情報を管理するための構成情報フ
ァイル23と、T&Dの実行結果を管理するためのT&D実行結
果ファイル24と、モニターの制御情報やT&Dの実行・終
了情報や障害情報の収集状況を管理するための制御情報
ファイル25から成る。
Next, embodiments of the present invention will be described with reference to the drawings. FIG. 2 shows an example of a system configuration to which the present invention is applied. This system uses multiple nodes
11n (3 in the embodiment of 1 ≦ n) and a plurality of fibers
Channel cable (hereinafter referred to as FC cable) 12n
(6 in the embodiment of 1 ≦ n) and a plurality of hubs 13n (1 ≦ n
n In the embodiment, four) and a plurality of disk array devices 1
4n (1 ≦ n, 5 in the embodiment).
A channel portion connecting the node 11n and the disk array device 14n is configured in an FC-AL connection mode via a hub 13n in the middle, and the node 11n or the disk array device 14n is connected to the hub 13n by an FC cable 12n. . The FC-AL is a duplex configuration of an operation loop 15 used during operation and a standby loop 16 used when the operation loop 15 becomes unavailable due to a failure or the like. The node 11n or the disk array device 14n Connected to 16. Referring to FIG.
Node 111 according to one embodiment (first embodiment) of the present invention
Is shown, and the relationship between software (including a monitor) and various files is clarified. The files in the node 111 include a syslog file 21 for managing system log information, FC-AL-related log information and T
FC-AL failure information file 2 for managing & D execution results
2, configuration information file 23 for managing system configuration information, T & D execution result file 24 for managing T & D execution results, collection of monitor control information, T & D execution / end information, and fault information It comprises a control information file 25 for managing the situation.

【0007】また、ノード111内のソフトウェア(以
下、SWと記す。)は、syslogファイル21の出力内容を監
視するsyslog監視モニター26と、障害ループの閉塞を行
うループ閉塞モニター27と、ループ接続されている装置
を強制バイパス指示する(ハブ管理AP29へのインターフ
ェースである)ハブ制御指示モニター28と、ハブ111を
ポート単位に強制バイパスするハブ管理AP29と、T&Dの
実行指示を行うT&D実行指示モニター2Aと、T&D実行手段
2Bと、T&Dの実行結果の監視や障害情報収集の終了時に
障害情報を自動通報するT&D実行結果監視モニター2Cと
で構成される。SW間とSWとファイル間の関係は図1で示
す通りである。なお、全てのノード11nが、図1に示し
たのと同一のSWとファイルを有する同一構成である。図
3に、本発明を実施する時に使用する各種モニターとT&
Dの制御情報や、T&Dの実行・終了情報や、障害情報の収
集状況を管理するための制御情報ファイル25の構成を示
す。この制御情報ファイル25中のsyslog監視間隔31と、
FC-AL障害メッセージコード32と、T&D終了条件(回数/
時間)33と、T&D名称34と、T&Dエラーコード35とは、予
め保守員や利用者により登録しておく必要がある。sysl
og監視間隔31は、syslog監視モニター26がsyslogファイ
ル21を監視(検索)するタイミングを示す。FC-AL障害
メッセージコード32は、FC-AL関連で障害が発生したこ
とを認識・判断することが可能なコードであり、syslog
監視モニター26がsyslogファイル21の出力内容を基に、
FC-ALの障害情報の有無をチェックする時に使用するキ
ーとなるコードである。
The software (hereinafter referred to as SW) in the node 111 is connected to a syslog monitoring monitor 26 for monitoring the output contents of the syslog file 21 and a loop closing monitor 27 for closing a faulty loop. A hub control instruction monitor 28 (which is an interface to the hub management AP 29) for instructing a device to be forced, a hub management AP 29 forcibly bypassing the hub 111 in port units, and a T & D execution instruction monitor 2A for instructing T & D execution And T & D execution means 2B, and a T & D execution result monitoring monitor 2C for automatically notifying the failure information at the end of monitoring the execution result of T & D and collecting failure information. The relationship between SWs and the relationship between SWs and files are as shown in FIG. Note that all the nodes 11n have the same configuration having the same SW and file as shown in FIG. FIG. 3 shows various monitors and T & D used in practicing the present invention.
7 shows the configuration of a control information file 25 for managing the control information of D, the execution and termination information of T & D, and the collection status of fault information. Syslog monitoring interval 31 in this control information file 25,
FC-AL failure message code 32 and T & D termination condition (number of times /
The time) 33, the T & D name 34, and the T & D error code 35 need to be registered in advance by a maintenance person or a user. sysl
The og monitoring interval 31 indicates the timing at which the syslog monitoring monitor 26 monitors (searches) the syslog file 21. FC-AL failure message code 32 is a code that can recognize and determine that a failure has
The monitoring monitor 26, based on the output contents of the syslog file 21,
This is a key code used to check whether there is FC-AL fault information.

【0008】T&D終了条件(回数/時間)33は、T&D実行
時の終了条件を回数又は時間で示すもので、この条件を
満足した場合に当該FC-ALの障害情報に対するT&Dの実行
を終了させる。T&D名称34は、実行するT&Dの名称を示
す。T&Dエラーコード35は、T&Dの実行結果にエラーが
発生したことを認識・判断することが可能なコードであ
り、T&D実行結果監視モニター2CがT&D実行結果ファイル
24の出力内容を基にT&Dのエラー情報の有無をチェック
する時に使用するキーとなるコードである。また、イン
デックスコード36は、syslog監視モニター26がFC-AL障
害情報ファイル22に出力するFC-AL障害のログ情報と、T
&D実行結果監視モニター2CがT&D実行結果ファイル24か
ら抽出したT&Dのエラー情報とを対にさせFC-AL障害情報
ファイル22に出力する時に使用するキーとなるユニーク
なコードである。このT&Dのエラー情報は、syslog監視
モニター26が抽出したFC-AL障害のログ情報に対するT&D
の実行結果に含まれる。運用ループ(閉塞前)37はルー
プ閉塞前の運用ループを示し、運用ループ(閉塞後)38
はループ閉塞後の運用ループを示す。バイパス装置情報
39はバイパスさせた装置情報(HWパス、スペシャルファ
イル名等)を示す。ハブバイパス状況3Aはループ接続さ
れている全装置に対するバイパスが終了したか否かを示
す。T&D実行回数3BはT&Dの実行回数を示し、ハブ制御指
示モニター28がT&Dは終了したか否かを判断する時に使
用する。T&D実行開始時間3CはT&Dの実行開始時間を示
し、ハブ制御指示モニター28がT&Dは終了しやか否かを
判断する時に使用する。障害情報収集状況3Dは、syslog
監視モニター26が抽出したFC-AL障害のログ情報に対す
る障害情報の収集作業が終了したか否かを示す。
The T & D end condition (number / time) 33 indicates the end condition at the time of executing the T & D by the number of times or the time. When this condition is satisfied, the execution of the T & D for the fault information of the FC-AL is ended. . The T & D name 34 indicates the name of the T & D to be executed. The T & D error code 35 is a code capable of recognizing and judging that an error has occurred in the execution result of the T & D.
This is the key code used to check for the presence of T & D error information based on the output contents of 24. The index code 36 is used to store FC-AL failure log information output by the syslog monitoring monitor 26 to the FC-AL failure information file 22 and T
The & D execution result monitoring monitor 2C is a unique code that is a key used when paired with the T & D error information extracted from the T & D execution result file 24 and output to the FC-AL failure information file 22. This T & D error information is based on the FC & AL failure log information extracted by the syslog monitor 26.
Is included in the execution result. The operation loop (before shutdown) 37 indicates the operation loop before the loop shutdown, and the operation loop (after shutdown) 38
Indicates an operation loop after the loop is closed. Bypass device information
Reference numeral 39 denotes bypassed device information (HW path, special file name, etc.). The hub bypass status 3A indicates whether or not the bypass for all devices connected in a loop has been completed. The T & D execution count 3B indicates the number of T & D executions, and is used when the hub control instruction monitor 28 determines whether or not the T & D has been completed. The T & D execution start time 3C indicates the T & D execution start time, and is used when the hub control instruction monitor 28 determines whether or not the T & D is about to end. Error information collection status 3D is syslog
This indicates whether the work of collecting the failure information for the FC-AL failure log information extracted by the monitoring monitor 26 has been completed.

【0009】図4に、本発明を実施する時に各種モニタ
ーにより収集される障害情報のうち、FC-AL障害情報フ
ァイル22の管理項目と管理情報例を示す。収集されるタ
イミングと基となる情報の所在は後述する。FC-AL障害
情報ファイル22は、世代管理を行い、障害情報の収集作
業が終了後、T&D実行結果監視モニター2Cにより保守セ
ンターへ自動通報される。次に図1〜図9を参照して、
本実施形態の動作について詳細に説明する。図1に示し
た各種モニターは、システムが立ち上がると立ち上が
り、動作可能な状態となる。以下、図5〜図9に示すフ
ローチャートを参照しながら、モニター毎の動作を説明
する。図5は、syslog監視モニター26の処理フローを示
す。syslog監視モニター26は、予め保守員や利用者によ
り登録された制御情報ファイル25のsyslog監視間隔31毎
に以下の処理を行う。まず、syslogファイル21の出力内
容を検索し(図5のステップ51)、制御情報ファイル25
からFC-AL障害メッセージコード32を取得し、インデッ
クスコード36を設定し(ステップ52)、取得したFC-AL
障害メッセージコード32と一致するログ情報の有無をチ
ェックする(ステップ53)。その結果、一致するログ情
報を検出すると(ステップ54)、そのログ情報を抽出し
(ステップ55)、構成情報ファイル23から障害装置に対
するHWパスやスペシャルファイル名等の装置情報を取得
し(ステップ56)、ユニークなインデックスコードと障
害装置の装置情報を付加してFC-AL障害情報ファイル22
に出力し(ステップ57)、障害ループを閉塞するために
ループ閉塞モニター27へ動作指示し(ステップ58)、処
理を終了する。一方、取得したFC-AL障害メッセージコ
ード32と一致するログ情報が存在しない場合(ステップ
54)は、FC-AL障害情報ファイル22への出力処理(ステ
ップ55〜57)とループ閉塞モニターへの動作指示(ステ
ップ58)は行わず処理を終了する。
FIG. 4 shows management items and examples of management information of the FC-AL failure information file 22 among failure information collected by various monitors when the present invention is carried out. The collected timing and the location of the base information will be described later. The FC-AL failure information file 22 performs generation management, and after completion of the failure information collection work, is automatically notified to the maintenance center by the T & D execution result monitoring monitor 2C. Next, referring to FIGS.
The operation of the present embodiment will be described in detail. The various monitors shown in FIG. 1 start up when the system starts up, and become operable. Hereinafter, the operation of each monitor will be described with reference to the flowcharts shown in FIGS. FIG. 5 shows a processing flow of the syslog monitoring monitor 26. The syslog monitoring monitor 26 performs the following processing for each syslog monitoring interval 31 of the control information file 25 registered in advance by a maintenance person or a user. First, the output contents of the syslog file 21 are searched (step 51 in FIG. 5), and the control information file 25 is searched.
The FC-AL error message code 32 is obtained from the server, the index code 36 is set (step 52), and the obtained FC-AL
It is checked whether there is log information matching the failure message code 32 (step 53). As a result, when matching log information is detected (step 54), the log information is extracted (step 55), and device information such as an HW path and a special file name for the failed device is obtained from the configuration information file 23 (step 56). ), Adding a unique index code and device information of the faulty device to the FC-AL fault information file 22
(Step 57), an operation instruction is issued to the loop closing monitor 27 to close the faulty loop (step 58), and the process is terminated. On the other hand, if there is no log information that matches the acquired FC-AL failure message code 32 (step
In the step 54), the output processing to the FC-AL failure information file 22 (steps 55 to 57) and the operation instruction to the loop closing monitor (step 58) are not performed, and the processing ends.

【0010】図6は、ループ閉塞モニター27の処理フロ
ーチャートを示す。ループ閉塞モニター27は、構成情報
ファイル23を検索し運用ループ(障害ループ)情報と代
替パスのループ情報を取得し(ステップ61)、ループ閉
塞実行コマンドにパラメータを指示し(ステップ62)、
制御情報ファイル25の運用ループ(閉塞前)37に閉塞前
の運用ループ(障害ループ)情報をセットし更新し(ス
テップ63)、ループ閉塞実行コマンドを投入する(ステ
ップ64)。そして、ループ閉塞を実行させ(ステップ6
5)、閉塞後の運用ループ(代替パス)情報を制御情報
ファイル25の運用ループ(閉塞後)38にセットし更新し
(ステップ66)、ループ接続されている装置を強制バイ
パス指示するためにハブ制御指示モニター28へ動作指示
し(ステップ67)、処理を終了する。図7は、ハブ制御
指示モニター28の処理フローチャートを示す。ハブ制御
指示モニター28は、制御情報ファイル25を検索し、障害
ループ情報である運用ループ(閉塞前)37とバイパス装
置情報39とハブバイパス状況3AとT&D終了条件(回数/
時間)33とT&D実行回数3BとT&D実行開始時間3Cとを取得
し(ステップ71)、取得したT&D終了条件33とT&D実行
回数3BまたはT&D実行開始時間3Cを基にT&Dの終了条件を
満足しているか否かをチェックする(ステップ72)。そ
の結果、終了条件を満足していない場合は(ステップ7
3)、構成情報ファイル23を検索し、ループ閉塞したル
ープの接続装置のうち取得したバイパス装置情報39の装
置が接続されているポートの次のポートに接続されてい
る装置の情報を取得し(ステップ74)、取得したバイパ
ス装置情報39と次ポートに接続されている装置の情報を
基にバイパスの制御状況をチェックする(ステップ7
5)。
FIG. 6 shows a processing flowchart of the loop closing monitor 27. The loop block monitor 27 searches the configuration information file 23 to obtain operation loop (failed loop) information and loop information of the alternative path (step 61), and instructs parameters to the loop block execution command (step 62).
The operation loop (failure loop) information before the closure is set and updated in the operation loop (before closure) 37 of the control information file 25 (step 63), and a loop closure execution command is input (step 64). Then, execute loop blocking (step 6
5), the operation loop (alternate path) information after the blockage is set in the operation loop (after the blockage) 38 of the control information file 25 and updated (step 66), and the hub is used to instruct the loop-connected device to forcibly bypass. An operation instruction is issued to the control instruction monitor 28 (step 67), and the process is terminated. FIG. 7 shows a processing flowchart of the hub control instruction monitor 28. The hub control instruction monitor 28 searches the control information file 25 and finds an operation loop (before blocking) 37, bypass device information 39, hub bypass status 3A, and T & D end condition (number of times /
Time) 33, the number of T & D executions 3B, and the T & D execution start time 3C are obtained (step 71), and the T & D end condition is satisfied based on the obtained T & D end condition 33 and T & D execution number 3B or T & D execution start time 3C. It is checked whether or not it has been performed (step 72). As a result, if the termination condition is not satisfied (step 7
3) Retrieve the configuration information file 23 and acquire information on the device connected to the port next to the port to which the device of the acquired bypass device information 39 is connected among the connected devices of the closed loop ( Step 74), the bypass control status is checked based on the acquired bypass device information 39 and the information of the device connected to the next port (Step 7).
Five).

【0011】全装置に対して終了していない場合は(ス
テップ76)、ハブ管理AP29へのインターフェース・パラ
メータを指示し(ステップ77)、ハブ管理AP29へインタ
ーフェースし(ステップ78)、ハブ管理AP29はハブ制御
モニター28からの制御指示によりハブ上のポートを強制
バイパスし(ステップ79)、ハブ管理AP29は制御結果を
戻し(ステップ7A)、制御情報ファイル25のバイパス装
置情報39に強制バイパス指示した装置情報をセットし更
新し(ステップ7B)、T&D実行手段28を機能させるため
にT&D実行指示モニター2Aへ動作指示し(ステップ7
C)、処理を終了する。また、ハブ制御が全装置に対し
て終了した場合は(ステップ76)、制御情報ファイル25
のハブバイパス状況3Aに終了ステータスをセットし更新
し(ステップ7D)、処理を終了する。また、終了条件を
満足した場合は(ステップ73)、制御情報ファイル25の
障害情報収集状況3Dに終了ステータスをセットして更新
し(ステップ7E)処理を終了する。図8は、T&D実行指
示モニター2Aの処理フローチャートを示す。T&D実行指
示モニター2Aは構成情報ファイル23を検索し、障害が発
生した装置のHWパスやスペシャルファイル名等の装置情
報を取得し(図8のステップ81)、制御情報ファイル25
からT&D名称34とインデックスコード36を取得し(ステ
ップ82)、T&D実行コマンドに取得したT&D名称34等のパ
ラメータを指示する(ステップ83)。また、制御情報フ
ァイル25にT&D実行回数(初期値=0 同一名称のT&Dを
繰り返し実行させる場合は+1する)3BとT&D実行開始
時間3Cをセットして更新し(ステップ84)、T&D実行コ
マンドを投入し(ステップ85)、T&D実行手段2Bを機能
させ、その実行結果は取得したインデックスコード36を
付加してT&D実行結果ファイル24に格納し(ステップ8
6)、T&D実行結果を監視するためにT&D実行結果監視モ
ニター2Cへ動作指示して(ステップ87)、処理を終了す
る。図9は、T&D実行結果監視モニター2Cの処理フロー
チャートを示す。T&D実行結果監視モニター2Cは、制御
情報ファイル25からT&Dエラーコード35とインデックス
コード36と障害情報収集状況3Dを取得し(図9のステッ
プ91)、取得した障害情報収集状況3Dを基に、syslog監
視モニター26が抽出したFC-AL障害のログ情報に対する
障害情報の収集状況をチェックする(ステップ92)。そ
の結果、情報収集が終了していない場合は(ステップ9
3)、T&D実行結果ファイル24を検索し(ステップ94)、
取得したT&Dエラーコード35と一致するエラー情報の有
無をチェックする(ステップ95)。
If the processing has not been completed for all the devices (step 76), an interface parameter to the hub management AP 29 is specified (step 77), and the hub management AP 29 is interfaced (step 78). The port on the hub is forcibly bypassed according to the control instruction from the hub control monitor 28 (step 79), the hub management AP 29 returns the control result (step 7A), and the device that forcibly instructed the bypass device information 39 in the control information file 25 to the bypass device information 39. The information is set and updated (step 7B), and an operation instruction is issued to the T & D execution instruction monitor 2A to make the T & D execution means 28 function (step 7).
C), end the process. If the hub control has been completed for all devices (step 76), the control information file 25
The end status is set and updated in the hub bypass status 3A (step 7D), and the process ends. When the end condition is satisfied (step 73), the end information is set and updated in the failure information collection status 3D of the control information file 25 (step 7E), and the process ends. FIG. 8 shows a processing flowchart of the T & D execution instruction monitor 2A. The T & D execution instruction monitor 2A searches the configuration information file 23, acquires device information such as the HW path and the special file name of the failed device (Step 81 in FIG. 8), and acquires the control information file 25.
Then, the T & D name 34 and the index code 36 are obtained (step 82), and the parameters such as the obtained T & D name 34 are specified in the T & D execution command (step 83). Also, the control information file 25 is updated by setting the number of times of T & D execution (initial value = 0 is added when the T & D of the same name is repeatedly executed) 3B and the T & D execution start time 3C (step 84). (Step 85), the T & D execution means 2B is made to function, and the execution result is added to the obtained index code 36 and stored in the T & D execution result file 24 (Step 8).
6) Instruct the T & D execution result monitor 2C to monitor the T & D execution result (step 87), and end the process. FIG. 9 shows a processing flowchart of the T & D execution result monitoring monitor 2C. The T & D execution result monitoring monitor 2C acquires the T & D error code 35, the index code 36, and the failure information collection status 3D from the control information file 25 (Step 91 in FIG. 9), and performs syslog based on the acquired failure information collection status 3D. The monitoring monitor 26 checks the collection status of the fault information for the extracted FC-AL fault log information (step 92). As a result, if the information collection has not been completed (step 9
3), search the T & D execution result file 24 (step 94),
It is checked whether there is error information that matches the acquired T & D error code 35 (step 95).

【0012】一致するエラー情報を検出すると (ステ
ップ96)、そのエラー情報を抽出し(ステップ97)、取
得したインデックスコード36をキーにFC-AL障害情報フ
ァイル22を検索し位置づけ(ステップ98)、syslog監視
モニター26が出力した当該ログ情報と対応づけてFC-AL
障害情報ファイル22へ出力し(ステップ99)、T&D実行
結果ファイル24を削除し(ステップ9A)、ループ接続さ
れている次装置を強制バイパスするためにハブ制御指示
モニター28へ動作指示し(ステップ9B)、処理を終了す
る。一方、取得したT&Dエラーコード35と一致するエラ
ー情報が存在しない場合は(ステップ96)、FC-AL障害
情報ファイル22への出力処理(ステップ97〜99)は行わ
ず、T&D実行結果ファイル24を削除し(ステップ9A)、
ハブ制御指示モニター28へ動作指示し(ステップ9B)、
処理を終了する。また、情報収集が終了している場合は
(ステップ93)、FC-AL障害情報ファイル22内の障害情
報を保守センターへ自動通報指示し(ステップ9C)、処
理を終了する。
When matching error information is detected (step 96), the error information is extracted (step 97), and the FC-AL failure information file 22 is searched and positioned using the obtained index code 36 as a key (step 98). FC-AL in association with the log information output by the syslog monitoring monitor 26
The data is output to the failure information file 22 (step 99), the T & D execution result file 24 is deleted (step 9A), and an operation instruction is issued to the hub control instruction monitor 28 to forcibly bypass the next device connected in a loop (step 9B). ), And terminate the process. On the other hand, if there is no error information that matches the acquired T & D error code 35 (step 96), the output processing to the FC-AL failure information file 22 (steps 97 to 99) is not performed, and the T & D execution result file 24 is output. Delete (step 9A)
An operation instruction is issued to the hub control instruction monitor 28 (step 9B),
The process ends. If the information collection has been completed (step 93), the failure information in the FC-AL failure information file 22 is automatically notified to the maintenance center (step 9C), and the process is terminated.

【0013】次に、本発明の他の実施形態について説明
する。図10を参照すると、本実施形態は図1に示され
た第1実施形態が各ノード11n毎に独立して情報収集を
行うのに対して、ノード17n間で連携をとり、あるノー
ド17nでsyslog監視モニター26がFC-ALの障害情報を検出
した場合には、syslog監視モニター動作指示手段2dが、
他ノード17nへネットワークを介してsyslog監視モニタ
ー26への動作指示を行う。syslog監視モニター26の起動
指示を受けたノード17nでは、第1実施形態におけるの
と同様の処理を開始し、収集したFC-ALの障害情報はネ
ットワークを介して、システム内のあるノード内に、シ
ステムを構成する全ノード17nのFC-ALの障害情報を格納
し管理する。各ノード17nは、ノード17n毎に独立して第
1実施形態と同様の処理を行う他に、他ノード17nでFC-
ALの障害情報を検出した場合は、これを契機に自syslog
ファイル21を監視しFC-ALの障害情報を収集することに
より、障害情報の精度を上げることができる。これは、
特に間欠障害時のような障害情報が収集され難い場合に
は有益である。また、全ノード17nのFC-ALの障害情報
を、あるノード17nで集中管理することにより、保守員
は障害箇所特定を行うために集中管理されているファイ
ルの障害情報のみを参照すればよく、障害情報の検出作
業工数の削減が図れるという点でも本実施形態は優れて
いる。なお、上記FC-AL の障害情報収集方法にかかる処
理手順をプログラミングし、半導体メモリ、磁気ディス
ク等の記録媒体に記録してノードに読み込ませ、実行さ
せるようにしてもよい。
Next, another embodiment of the present invention will be described. Referring to FIG. 10, in the present embodiment, the first embodiment shown in FIG. 1 independently collects information for each node 11n, while the nodes 17n cooperate and a certain node 17n When the syslog monitor 26 detects FC-AL fault information, the syslog monitor monitor operation instructing means 2d
An operation instruction is sent to the other node 17n to the syslog monitor 26 via the network. The node 17n that has received the start instruction of the syslog monitoring monitor 26 starts the same processing as in the first embodiment, and the collected failure information of the FC-AL is transmitted to a certain node in the system via the network. Stores and manages FC-AL failure information for all nodes 17n that make up the system. Each node 17n performs the same processing as in the first embodiment independently for each node 17n.
If AL error information is detected, this will trigger the local syslog
By monitoring the file 21 and collecting the failure information of the FC-AL, the accuracy of the failure information can be improved. this is,
This is particularly useful when trouble information is difficult to collect, such as during an intermittent trouble. In addition, by centrally managing the failure information of the FC-ALs of all the nodes 17n in a certain node 17n, the maintenance staff only needs to refer to the failure information of the centrally managed file to specify the failure location. This embodiment is also excellent in that the number of steps for detecting failure information can be reduced. The processing procedure of the FC-AL fault information collection method may be programmed, recorded on a recording medium such as a semiconductor memory or a magnetic disk, read by a node, and executed.

【0014】[0014]

【発明の効果】本発明の第1の効果は、システムで障害
が発生した直後に、各種モニターと管理APの連携で自動
的に障害ループを閉塞させ、ループ接続されている全ノ
ードとディスクアレイ装置を被擬と仮定し、1装置ずつ
ハブ上の接続ポートを強制バイパス機能を使用してルー
プから切り離し、T&Dを実行させるという一連の動作を
人手を介することなく順次に行い、障害箇所を特定させ
るために必要な情報を得るようにしたため、障害発生時
のシステムのより詳細な障害情報と稼働情報を自動収集
することができ、保守員によるT&Dの実行作業工数及び
情報収集工数を削減することができるということであ
る。また、第2の効果は、大量のsyslogからFC-ALの障
害情報を別ファイルに抽出・管理し、その情報にT&Dの
実行結果を付加して管理することとしたため、FC-ALの
障害情報を即時に確認することができ、障害情報の検出
作業工数の削減が図れるということである。また、第3
の効果は、一回のT&D実行でエラーが検出されず障害箇
所特定の為に必要な情報が収集できない場合を考慮し
て、予め設定しておいた回数、または時間内でT&Dを複
数回実行させることとしたため、エラーを確実に検出
し、障害情報の精度を上げ、また間欠障害時のような障
害箇所特定が難しいケースにおいても、障害情報が収集
される可能性を高くすることができるということであ
る。また、第4の効果は、収集した障害情報を保守セン
ターに自動通報すれば、保守拠点間にスキルの差がある
場合にも、保守センター内のある高スキルの保守員によ
り送られた障害情報を解析することで高い確率で障害箇
所を特定することが可能となり、その解析結果を基にサ
イトの保守員へ被擬部品の交換等の指示を行うことがで
きるということである。
The first effect of the present invention is that immediately after a failure occurs in the system, the failure loop is automatically closed by the cooperation of various monitors and the management AP, and all the nodes connected to the loop are connected to the disk array. Assuming the devices to be simulated, disconnect the connection ports on the hub one by one from the loop by using the forced bypass function, and perform a series of operations to execute T & D sequentially without human intervention, and identify the fault location In order to obtain the necessary information to perform the operation, it is possible to automatically collect more detailed failure information and operation information of the system at the time of failure occurrence, and to reduce the number of T & D execution work and information collection work by maintenance personnel. It is possible to do. The second effect is that FC-AL fault information is extracted and managed in a separate file from a large amount of syslog, and T & D execution results are added to that information and managed. Can be confirmed immediately, and the number of steps for detecting failure information can be reduced. Also, the third
The effect of is to execute T & D multiple times in a preset number of times or within the time considering the case where no error is detected in one T & D execution and necessary information for pinpointing the failure cannot be collected. It is possible to reliably detect errors, increase the accuracy of fault information, and increase the possibility that fault information will be collected even in cases where it is difficult to identify a fault location such as an intermittent fault. That is. The fourth effect is that if the collected fault information is automatically reported to the maintenance center, even if there is a skill difference between the maintenance bases, the fault information sent by a highly skilled maintenance person in the maintenance center can be obtained. By analyzing the error, it is possible to specify a failure location with a high probability, and it is possible to instruct maintenance staff at the site to replace a simulated part or the like based on the analysis result.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の第1実施形態を示すブロック図。FIG. 1 is a block diagram showing a first embodiment of the present invention.

【図2】 本発明が適用されるシステムを示す図。FIG. 2 is a diagram showing a system to which the present invention is applied.

【図3】 図1における制御情報ファイル25の内容例を
示す図。
FIG. 3 is a view showing an example of the contents of a control information file 25 in FIG. 1;

【図4】 図1におけるFC-AL障害情報ファイル22の内
容例を示す図。
FIG. 4 is a view showing an example of the contents of an FC-AL failure information file 22 in FIG. 1;

【図5】 図1におけるSyslog監視モニター26の処理フ
ローチャート。
FIG. 5 is a processing flowchart of a Syslog monitoring monitor 26 in FIG. 1;

【図6】 図1におけるループ閉塞モニター27の処理フ
ローチャート。
FIG. 6 is a processing flowchart of a loop closing monitor 27 in FIG. 1;

【図7】 図1におけるハブ制御指示モニター28の処理
フローチャート。
FIG. 7 is a processing flowchart of a hub control instruction monitor 28 in FIG. 1;

【図8】 図1におけるT&D実行指示モニター2Aの処理
フローチャート。
FIG. 8 is a processing flowchart of a T & D execution instruction monitor 2A in FIG. 1;

【図9】 図1におけるT&D実行結果監視モニタ2Cの処
理フローチャート。
FIG. 9 is a processing flowchart of a T & D execution result monitoring monitor 2C in FIG. 1;

【図10】 本発明の第2実施形態を示すブロック図。FIG. 10 is a block diagram showing a second embodiment of the present invention.

【符号の説明】[Explanation of symbols]

11n、17n(1≦n) ノード 12n(1≦n) FCケーブル 13n(1≦n) ハブ 14n(1≦n) ディスクアレイ装置 15 FC-ALケーブル(運用) 16 FC-ALケーブル(待機) 21 syslogファイル 22 FC-AL障害情報ファイル 23 構成情報ファイル 24 T&D実行結果ファイル 25 制御情報ファイル 26 syslog監視モニター 27 ループ閉塞モニター 28 ハブ制御指示モニター 29 ハブ管理AP 2A T&D実行指示モニター 2B T&D実行手段 2C T&D実行結果監視モニター 2D syslog監視モニター動作指示手段 11n, 17n (1 ≦ n) Node 12n (1 ≦ n) FC cable 13n (1 ≦ n) Hub 14n (1 ≦ n) Disk array device 15 FC-AL cable (operation) 16 FC-AL cable (standby) 21 syslog file 22 FC-AL fault information file 23 configuration information file 24 T & D execution result file 25 control information file 26 syslog monitoring monitor 27 loop closing monitor 28 hub control instruction monitor 29 hub management AP 2A T & D execution instruction monitor 2B T & D execution means 2C T & D Execution result monitoring monitor 2D syslog monitoring monitor operation instruction means

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】 複数のノードと複数のディスクアレイ装
置とがハブを介してファイバー・チャネル・アービトレ
イテッド・ループ(FC-AL)接続されたシステムにおけ
る障害情報収集装置において、前記各ノードは、 前記システムまたは装置に障害が発生した場合に採集さ
れるログ情報を管理するためのシスログファイルと、 FC-AL関連のログ情報やT&Dの実行結果を管理するための
FC-AL障害情報ファイルと、 T&D実行結果を管理するためのT&D実行結果ファイルと、 前記シスログファイルの出力内容を監視するシスログ監
視モニターと、 該監視によってFC-AL障害のログ情報が存在するときは
障害ループの閉塞を行って代替ループに切り替えるルー
プ閉塞モニターと、 前記ハブをポート単位に強制バイパスする機能を有する
ハブ管理アプリケーションと、 前記ループの切り替え後に、前記ハブ管理アプリケーシ
ョンを使用して前記障害ループに接続されているノード
またはディスクアレイ装置のうちの一つの接続ポートを
ハブから強制バイパスするハブ制御指示モニターと、 前記ハブ制御指示モニターからの指示によりT&Dの実行
指示をするT&D実行指示モニターと、 T&Dを実行しその結果を前記T&D実行結果ファイルに出力
するT&D実行手段と、T&Dの実行結果をチェックしてエラ
ー情報があれば前記FC-AL障害情報ファイルへ出力するT
&D実行結果監視モニターとを有し、 以上の一連の処理を前記障害ループに接続されている全
ての前記ノードとディスクアレイ装置について繰り返し
行うことを特徴とするFC-AL障害情報収集装置。
1. A failure information collecting apparatus in a system in which a plurality of nodes and a plurality of disk array devices are connected via a hub through a fiber channel arbitrated loop (FC-AL), wherein each of the nodes comprises: A syslog file for managing log information collected when a failure occurs in the system or device, and a log file for managing FC-AL-related log information and T & D execution results
An FC-AL failure information file, a T & D execution result file for managing T & D execution results, a syslog monitoring monitor for monitoring the output contents of the syslog file, and log information of FC-AL failures by the monitoring A loop closing monitor for closing a failed loop and switching to an alternative loop, a hub management application having a function of forcibly bypassing the hub on a port basis, and after switching the loop, using the hub management application to perform the fault. A hub control instruction monitor that forcibly bypasses a connection port of one of the nodes or disk array devices connected to the loop from the hub, and a T & D execution instruction monitor that issues a T & D execution instruction according to an instruction from the hub control instruction monitor. Execute T & D and output the result to the T & D execution result file T for outputting the row unit, to check the execution result of T & D to the FC-AL fault information file any error information
An FC-AL failure information collection device, comprising: a & D execution result monitoring monitor, wherein the above series of processing is repeated for all the nodes and the disk array devices connected to the failure loop.
【請求項2】 前記シスログ監視モニターがFC-ALの障
害情報を検出した場合には、ネットワークを介して他の
ノードのシスログ監視モニターへ起動指示を行うシスロ
グ監視モニター動作指示手段を付加したことを特徴とす
る請求項1記載のFC-AL障害情報収集装置。
2. The system according to claim 1, further comprising a means for instructing, when the syslog monitoring monitor detects FC-AL failure information, an activation instruction to the syslog monitoring monitor of another node via a network. 2. The FC-AL failure information collection device according to claim 1, wherein:
【請求項3】 前記シスログ監視モニターは、予め設定
した時間毎に前記シスログファイルを監視し、FC-AL障
害のログ情報のみを前記FC-AL障害情報ファイルに出力
することを特徴とする請求項1または請求項2記載のFC
-AL障害情報収集装置。
3. The system according to claim 1, wherein the system log monitor monitors the system log file at predetermined time intervals and outputs only log information on FC-AL failures to the FC-AL failure information file. FC according to claim 1 or claim 2.
-AL failure information collection device.
【請求項4】 前記一連の処理は、予め設定した回数ま
たは時間だけ継続して行うことを特徴とする請求項1な
いし請求項3のいずれかに記載のFC-AL障害情報収集装
置。
4. The FC-AL fault information collection device according to claim 1, wherein the series of processes is continuously performed a preset number of times or for a predetermined time.
【請求項5】 前記ログ情報と前記一連の処理で収集し
たT&Dのエラー情報とを対にして管理することを特徴と
する請求項1ないし請求項4のいずれかに記載のFC-AL
障害情報収集装置。
5. The FC-AL according to claim 1, wherein the log information and the T & D error information collected in the series of processes are managed in pairs.
Failure information collection device.
【請求項6】 前記一連の処理により収集した障害情報
を前記T&D実行結果監視モニターにより保守センターへ
自動通報することを特徴とする請求項1ないし請求項5
のいずれかに記載のFC-AL障害情報収集装置。
6. The T & D execution result monitoring monitor automatically notifies the maintenance center of the failure information collected by the series of processes.
The FC-AL failure information collection device according to any of the above.
【請求項7】 複数のノードと複数のディスクアレイ装
置とがハブを介してファイバー・チャネル・アービトレ
イテッド・ループ(FC-AL)接続されたシステムにおけ
る障害情報収集方法において、 システムまたは装置に障害が発生した場合に採集される
シスログファイルの出力内容を監視する手順と、 該監視によってFC-AL障害のログ情報が存在するときは
障害ループの閉塞を行って代替ループに切り替える手順
と、 前記ループの切り替え後に、ハブをポート単位に強制バ
イパスする機能を有するハブ管理アプリケーションを使
用して前記障害ループに接続されているノードまたはデ
ィスクアレイ装置のうちの一つの接続ポートをハブから
強制バイパスする手順と、 T&Dを実行する手順と、 T&Dの実行結果をファイルに出力する手順と、 T&Dの実行結果をチェックしてエラー情報があればFC-AL
障害情報ファイルへ出力する手順とを有し、 以上の一連の処理を前記障害ループに接続されている全
ての前記ノードとディスクアレイ装置について繰り返し
行うことを特徴とするFC-AL障害情報収集方法。
7. A failure information collecting method in a system in which a plurality of nodes and a plurality of disk array devices are connected via a hub through a fiber channel arbitrated loop (FC-AL). A procedure for monitoring the output contents of a syslog file collected when a failure occurs, a procedure for closing a failure loop and switching to an alternative loop when log information of an FC-AL failure exists by the monitoring; and After switching, forcibly bypassing one connection port of a node or a disk array device connected to the failed loop from the hub using a hub management application having a function of forcibly bypassing the hub on a port basis. , T & D execution procedure, T & D execution result output to file, T & D execution If there is an error information to check the results FC-AL
Outputting a failure information file to the failure information file, and repeating the above series of processes for all the nodes and disk array devices connected to the failure loop.
【請求項8】 前記シスログファイルの出力内容の監視
によってFC-AL の障害情報を検出した場合に、ネットワ
ークを介して他のノードへシスログファイルの出力内容
の監視起動指示を行う手順を付加したことを特徴とする
請求項7記載のFC-AL 障害情報収集方法。
8. A method has been added in which, when failure information of FC-AL is detected by monitoring the output contents of the syslog file, an instruction to start the monitoring of the output contents of the syslog file is issued to another node via a network. The method for collecting FC-AL failure information according to claim 7, wherein:
【請求項9】 予め設定された時間毎に前記シスログフ
ァイルを監視し、FC-AL 障害のログ情報のみをFC-AL 障
害情報ファイルに出力することを特徴とする請求項7ま
たは8記載のFC-AL 障害情報収集方法。
9. The FC according to claim 7, wherein the system log file is monitored at predetermined time intervals, and only the log information of the FC-AL failure is output to the FC-AL failure information file. -AL Failure information collection method.
【請求項10】 前記一連の処理は、予め設定された回
数または時間だけ継続されることを特徴とする請求項7
ないし9のいずれかに記載のFC-AL 障害情報収集方法。
10. The method according to claim 7, wherein the series of processing is continued for a preset number of times or time.
9. The method for collecting FC-AL failure information according to any one of claims 9 to 9.
【請求項11】 前記ログ情報と前記一連の処理で収集
したT&D のエラー情報とを対にして管理することを特徴
とする請求項7ないし10のいずれかに記載のFC-AL 障
害情報収集方法。
11. The FC-AL failure information collection method according to claim 7, wherein the log information and the T & D error information collected in the series of processing are managed in pairs. .
【請求項12】 前記一連の処理により収集した障害情
報を保守センターへ自動通報することを特徴とする請求
項7ないし11のいずれかに記載のFC-AL 障害情報収集
方法。
12. The FC-AL fault information collection method according to claim 7, wherein the fault information collected by the series of processing is automatically notified to a maintenance center.
【請求項13】 複数のノードと複数のディスクアレイ
装置とがハブを介してファイバー・チャネル・アービト
レイテッド・ループ(FC-AL)接続されたシステムにお
ける障害情報収集方法におけるシステムまたは装置に障
害が発生した場合に採集されるシスログファイルの出力
内容を監視する手順と、 該監視によってFC-AL障害のログ情報が存在するときは
障害ループの閉塞を行って代替ループに切り替える手順
と、 前記ループの切り替え後に、ハブをポート単位に強制バ
イパスする機能を有するハブ管理アプリケーションを使
用して前記障害ループに接続されているノードまたはデ
ィスクアレイ装置のうちの一つの接続ポートをハブから
強制バイパスする手順と、 T&Dを実行する手順と、 T&Dの実行結果をファイルに出力する手順と、 T&Dの実行結果をチェックしてエラー情報があればFC-AL
障害情報ファイルへ出力する手順とを有し、 以上の一連の処理を前記障害ループに接続されている全
ての前記ノードとディスクアレイ装置について繰り返し
実行させるプログラムが記録された記録媒体。
13. A failure in a system or a device in a failure information collecting method in a system in which a plurality of nodes and a plurality of disk array devices are connected via a hub through a fiber channel arbitrated loop (FC-AL). A procedure for monitoring the output contents of a syslog file collected when an error occurs, a procedure for closing a failure loop and switching to an alternative loop when log information of an FC-AL failure exists by the monitoring; After switching, forcibly bypassing one connection port of the node or the disk array device connected to the failed loop from the hub using a hub management application having a function of forcibly bypassing the hub on a port basis, T & D execution procedure, T & D execution result output to file, T & D execution result Check the result and if there is error information, FC-AL
And outputting the information to a failure information file. The recording medium stores a program for repeatedly executing the above series of processing for all the nodes and the disk array device connected to the failure loop.
【請求項14】 前記シスログファイルの出力内容の監
視によってFC-AL の障害情報を検出した場合には、ネッ
トワークを介して他のノードへシスログファイルの出力
内容の監視動作指示を行うことを特徴とする請求項12
記載の記録媒体。
14. When the failure information of the FC-AL is detected by monitoring the output contents of the syslog file, an instruction to monitor the output contents of the syslog file is issued to another node via a network. Claim 12
The recording medium according to the above.
【請求項15】 予め設定された時間毎に前記シスログ
ファイルを監視し、FC-AL 障害のログ情報のみをFC-AL
障害情報ファイルに出力することを特徴とする請求項1
3または14記載の記録媒体。
15. The system monitors the syslog file at predetermined time intervals and stores only FC-AL failure log information in the FC-AL.
2. The output to a failure information file.
15. The recording medium according to 3 or 14.
【請求項16】 前記一連の処理は、予め設定された回
数または時間だけ継続して行うことを特徴とする請求項
13ないし15のいずれかに記載の記録媒体。
16. The recording medium according to claim 13, wherein the series of processing is continuously performed a preset number of times or for a predetermined time.
【請求項17】 前記ログ情報と前記一連の処理で収集
したT&D のエラー情報とを対にして管理することを特徴
とする請求項13ないし16のいずれかに記載の記録媒
体。
17. The recording medium according to claim 13, wherein said log information and T & D error information collected in said series of processing are managed in pairs.
【請求項18】 前記一連の処理により収集した障害情
報を保守センターへ自動通報することを特徴とする請求
項13ないし17のいずれかに記載の記録媒体。
18. The recording medium according to claim 13, wherein fault information collected by said series of processing is automatically notified to a maintenance center.
JP01627299A 1999-01-25 1999-01-25 FC-AL fault information collecting device, fault information collecting method, and recording medium Expired - Fee Related JP3211799B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01627299A JP3211799B2 (en) 1999-01-25 1999-01-25 FC-AL fault information collecting device, fault information collecting method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01627299A JP3211799B2 (en) 1999-01-25 1999-01-25 FC-AL fault information collecting device, fault information collecting method, and recording medium

Publications (2)

Publication Number Publication Date
JP2000215086A true JP2000215086A (en) 2000-08-04
JP3211799B2 JP3211799B2 (en) 2001-09-25

Family

ID=11911920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01627299A Expired - Fee Related JP3211799B2 (en) 1999-01-25 1999-01-25 FC-AL fault information collecting device, fault information collecting method, and recording medium

Country Status (1)

Country Link
JP (1) JP3211799B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7280485B2 (en) 2001-06-14 2007-10-09 Nec Corporation Method and apparatus for diagnosing FC-AL system link
US7779203B2 (en) 2006-05-09 2010-08-17 Fujitsu Limited RAID blocking determining method, RAID apparatus, controller module, and recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7280485B2 (en) 2001-06-14 2007-10-09 Nec Corporation Method and apparatus for diagnosing FC-AL system link
US7779203B2 (en) 2006-05-09 2010-08-17 Fujitsu Limited RAID blocking determining method, RAID apparatus, controller module, and recording medium

Also Published As

Publication number Publication date
JP3211799B2 (en) 2001-09-25

Similar Documents

Publication Publication Date Title
US6904544B2 (en) Method, system, program, and data structures for testing a network system including input/output devices
US9900226B2 (en) System for managing a remote data processing system
EP1279211B1 (en) Topology-based reasoning apparatus for root-cause analysis of network faults
US5822302A (en) LAN early warning system
JPH0325629A (en) Method and system for detecting error in program
CN102110485B (en) Automated periodic surveillance testing method and apparatus in digital reactor protection system
US20170308422A1 (en) Method, system, and apparatus for debugging networking malfunctions within network nodes
JP3536829B2 (en) Link diagnosis method and apparatus for FC-AL system
CN114546747B (en) BMC cold restarting pressure test system and method
WO2007147327A1 (en) Method, system and apparatus of fault location for communicaion apparatus
US20130185592A1 (en) Automatic problem diagnosis
CN102075368A (en) Method, device and system for diagnosing service failure
US6212653B1 (en) Logging of events for a state driven machine
US7962800B2 (en) Method and system for triggering a protocol analyzer
CN112631841A (en) Method, system and medium for cyclic aging test and data collection
CN116781488A (en) Database high availability implementation methods, devices, database architectures, equipment and products
Kalmanek et al. Darkstar: Using exploratory data mining to raise the bar on network reliability and performance
US20090259890A1 (en) Method & apparatus for hardware fault management
JP3211799B2 (en) FC-AL fault information collecting device, fault information collecting method, and recording medium
CN116340045A (en) Database exception processing method, device, equipment and computer-readable storage medium
JP4485344B2 (en) Server apparatus, failure path diagnosis method, and failure path diagnosis program
JP2014078067A (en) Database system, database device, failure recovery method for database and program
CN111597095A (en) Monitoring method, monitoring device, electronic apparatus, and medium
KR100506248B1 (en) How to Diagnose Links in a Private Switching System
CN115529253A (en) Data center interconnection equipment testing method and system, electronic equipment and storage medium

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010619

LAPS Cancellation because of no payment of annual fees