JP2014053658A

JP2014053658A - 障害部位推定システムおよび障害部位推定プログラム

Info

Publication number: JP2014053658A
Application number: JP2012194743A
Authority: JP
Inventors: Taro Shibahara; 太郎芝原; Kenji Suzuki; 賢治鈴木
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2012-09-05
Filing date: 2012-09-05
Publication date: 2014-03-20

Abstract

【課題】大規模なネットワークシステムにおける障害の際に、論理障害の場合も含めて障害の被疑部位を迅速に推定して絞り込むことを可能とする。
【解決手段】監視対象ＮＷ３００の正常時に、各ノードに至る通信経路上のインタフェースからなる経路情報を取得して経路情報ＤＢ１３０に記録する経路情報取得部１１０と、監視対象ＮＷ３００の障害時に、障害ノードに至る経路情報を経路情報ＤＢ１３０からそれぞれ取得し、経路情報に含まれる各インタフェースに対して逐次ポーリングを行って、ＯＫもしくはＮＧの結果を収集するホップバイホップポーリング部１２１と、ＮＧとなった最も手前のインタフェースとその１つ手前のＯＫとなったインタフェースとを被疑ペアとし、各障害ノードについて被疑ペアを抽出して被疑ペア集合を取得する被疑ペア抽出部１２２と、被疑ペア集合と経路情報とに基いて障害被疑部位を抽出して出力する障害部位出力部１２３とを有する。
【選択図】図１

Description

本発明は、ネットワークの管理技術に関し、特に、ネットワーク障害の際に障害部位を推定する障害部位推定システムおよび障害部位推定プログラムに適用して有効な技術に関するものである。

通常、ネットワークシステムを運用・管理する際には、例えばネットワーク監視システム等により障害の監視・検知と障害部位の特定などが行われる。一般的に、ネットワーク監視システムは、例えば、ベンダー等から提供・市販されているソフトウェアやシステム、装置等により構成される。

しかしながら、大規模なネットワークシステムでは、例えば、コアとなるネットワーク機器に障害が発生したような場合には、他の機器にも影響が及び、ネットワーク監視システムで障害として検知されるネットワーク機器が一時的に膨大な数となる場合も多く、正確な障害部位を特定することが困難な場合がある。特に、障害となったネットワーク機器がハードウェア障害等により完全に停止等してしまったような状態ではなく、正常な処理とエラー処理とが繰り返されるような「半死」の状態の場合は、ネットワーク監視システムにより障害部位を特定することはさらに困難となる。

通常このような場合は、ＳＥ（System Engineer）等の当該ネットワークシステムに精通した技術者や開発者が手動で障害を解析し切り分けて、障害部位を特定することになる。しかしながら、このような障害解析や障害部位の特定手法は属人的であり、また、効率も悪く、対応策（例えば、特定のネットワーク機器の再起動など）の実施までに長時間を要する結果となる場合も多い。

これに対し、ネットワークシステムにおける障害部位の特定を効率的に行う仕組みとして、例えば、特開２００６−２２９４２１号公報（特許文献１）には、分岐と端末で構成されたツリー型のネットワークのトポロジを、ツリーの根本側が上層側で先端側が下層側であり、各分岐にて１つ下の層が現れ、各分岐とその下層側の端末が関連づけられた階層構造で表現する階層構造テーブルを用い、ある分岐からツリー先端に向かうすべての下層側端末の故障が検出されたときに、当該分岐部分を推定故障箇所として求めることで、ネットワークの端末以外の故障を容易に診断する技術が記載されている。

また、特開２００６−２３８０５２号公報（特許文献２）には、ネットワークの利用者が流しているフローの送信者アドレス、受信者アドレス及び通信品質を含むフロー品質情報を収集するフロー品質情報収集部と、ネットワークの構成情報を収集する経路情報収集手段と、収集されたフロー品質情報及びネットワークの構成情報とに基づき、フローが経由するリンクを求め、かつフローの品質劣化の有無を判定し、その結果をテーブルとして管理するフロー品質／経由リンクテーブル管理部及びテーブル記憶部と、管理されているテーブルにおいて、１つ以上のフローに品質劣化があった場合、その品質劣化を起こした任意のフローの集合が経由するリンクの集合の部分集合の中で、品質劣化を起こした任意のフローが経由しているリンクを含む部分集合であって、かつ、最小の要素数をもつ部分集合を、品質劣化箇所として出力する品質劣化箇所推定部とを有することで、精度高くかつ高速な品質劣化箇所推定を可能にする技術が記載されている。

また、特開２０１０−１４７５９５号公報（特許文献３）には、管理対象装置とその装置への経路上の管理対象装置を示す経路情報とを対応づけて保持するネットワーク構成ＤＢ記憶部と、送達確認に対する応答がなかった場合は、その応答がなかった管理対象装置の経路情報を保持している情報から抽出して、その経路情報の管理対象装置に対する送達確認を実施し、その送達確認に対する応答のなかった管理対象装置を障害発生装置として特定するネットワーク管理部とを備えることで、ネットワーク層における障害監視を送達確認により実施し、ネットワーク障害の原因装置を迅速に切り分ける技術が記載されている。

特開２００６−２２９４２１号公報特開２００６−２３８０５２号公報特開２０１０−１４７５９５号公報

特許文献１に記載されたような技術では、ツリー型のネットワークトポロジから故障箇所の分岐部分を推定することができる。しかしながら、そのためには、例えばＣＡＤ等により予めネットワークのトポロジに係る情報を作成しておく必要があり、ネットワークの構成変更などを考慮すると、簡潔性や柔軟性に欠ける場合がある。また、ポーリングに対する応答の有無によって故障を判断しており、ネットワーク機器が論理障害等による「半死」の状態では的確に障害を判断することができない場合も生じ得る。

また、特許文献２に記載されたような技術では、パケットロスや遅延などの通信品質に基づいてフローの品質劣化を判断し、品質劣化を起こしたフローの集合が経由しているリンクの集合の情報に基づいて品質劣化箇所を推定することができる。しかしながら、ネットワークの障害により末端部分の機器等からは品質情報自体が収集できない場合も想定され、障害の態様によっては推定の精度が維持できない場合も生じ得る。

また、特許文献３に記載されたような技術では、管理対象装置への送達確認に対する応答がなかった場合は、その経路上の管理対象装置への送達確認を行うことで、障害の原因装置を特定することができるが、やはり、送達確認に対する応答の有無によって障害を判断しているため、ネットワーク機器が論理障害等による「半死」の状態では的確に障害を判断することができない場合も生じ得る。

そこで本発明の目的は、大規模なネットワークシステムにおける障害の際に、障害原因となったネットワーク機器が論理障害の場合も含めて、障害の被疑部位を迅速に推定して絞り込むことを可能とする障害部位推定システムおよび障害部位推定プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。

本発明の代表的な実施の形態による障害部位推定システムは、ネットワーク機器からなるノードがツリー型に接続された構成を有する監視対象ネットワークにおいて障害が発生した場合に障害被疑部位を推定する障害部位推定システムであって、以下の特徴を有するものである。

すなわち、前記監視対象ネットワークの正常時に、前記監視対象ネットワーク内の各ノードについて、当該ノードに至る通信経路上の各ノードのインタフェースからなる経路情報を取得して、経路情報記録手段に記録する経路情報取得部と、前記監視対象ネットワークの障害時に、障害となっている各ノードに至る経路情報を前記経路情報記録手段からそれぞれ取得し、当該経路情報に含まれる各インタフェースに対して逐次ポーリングを行って、ＯＫもしくはＮＧの結果を収集する逐次ポーリング部と、経路情報に含まれる各インタフェースにおいて、前記ポーリングの結果がＮＧとなった最も手前のインタフェースと、その１つ手前の前記ポーリングの結果がＯＫとなったインタフェースとを被疑ペアとし、障害となっている各ノードについて被疑ペアを抽出して被疑ペア集合を取得する被疑ペア抽出部と、前記被疑ペア集合と前記経路情報記録手段に記録された経路情報とに基いて、障害被疑部位を抽出して出力する障害部位出力部とを有することを特徴とする。

また、本発明は、コンピュータを上記のような障害部位推定システムとして動作させるプログラムにも適用することができる。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

すなわち、本発明の代表的な実施の形態によれば、大規模なネットワークシステムにおける障害の際に、障害原因となったネットワーク機器が論理障害の場合も含めて、障害の被疑部位を迅速に推定して絞り込むことが可能となる。

本発明の一実施の形態における障害部位推定システムを有するネットワーク監視システムの構成例について概要を示した図である。本発明の一実施の形態におけるネットワーク監視の例について概要を示した図である。本発明の一実施の形態における経路情報および品質情報を取得する処理の例について概要を示した図である。本発明の一実施の形態における経路情報および品質情報を取得する処理の例について概要を示した図である。本発明の一実施の形態における経路情報および品質情報を取得する処理の例について概要を示した図である。本発明の一実施の形態におけるホップバイホップリストを得るためのソースコードの例を示した図である。本発明の一実施の形態における障害が検知されたノードに対して被疑ペア集合を取得する処理の例について概要を示した図である。本発明の一実施の形態における障害被疑部位を推定して出力する処理の例について概要を示したフローチャートである。本発明の一実施の形態における被疑ペア集合に基いて障害被疑部位を推定する処理の例について概要を示した図である。従来技術におけるネットワーク監視の例について概要を示した図である。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。また、以下においては、本発明の特徴を分かり易くするために、従来の技術と比較して説明する。

＜概要＞
図１０は、従来技術におけるネットワーク監視の例について概要を示した図である。図１０では、複数のルータ等のネットワーク（ＮＷ）機器３１０により構成されるツリー型の監視対象ネットワーク（ＮＷ）３００に対して、ベンダー各社から提供される市販のツール等により構成される障害監視システム２００が接続され、監視対象ＮＷ３００での障害発生を常時監視する構成を示している。ここでは、障害監視システム２００は、各ＮＷ機器３１０に対して、例えば、ＩＣＭＰ（Internet Control Message Protocol）／ＳＮＭＰ（Simple Network Management Protocol）ポーリングにより死活監視を行う。

ここで例えば、ＮＷ機器３１０ａで障害が発生した場合、一般的な障害監視システム２００では、ネットワーク構成上で配下の各機器（図中の網掛けされたＮＷ機器３１０）についても、オペレータが確認する監視画面上で障害として表示してしまう。特に、ＮＷ機器３１０ａが論理障害等による「半死」状態のような場合には、障害監視システム２００による死活監視のポーリングのタイミングによって、障害機器がランダムかつ大量に表示され、監視画面上では、どの部位が障害の根本原因となっているのかを判別することが困難となる。

このような場合には、ＳＥ等の技術者が呼ばれて障害解析・切り分け等を行い、障害部位をＮＷ機器３１０ａであると特定することになる。しかしながら、ハードウェア障害ではなく論理障害の場合には、機器のログ等を参照しても障害の発生状況が不明である場合もあり、このような人手による手法では、障害部位を特定するまでに数十分から数時間という長時間を要してしまう場合がほとんどである。特に大規模システムでは、より迅速な障害部位の特定と対応策の実施が望まれる。

障害部位の正確な特定をシステムで自動的に行うには、これに応じた大掛かりな監視システムや解析システム等が必要となる。一方で、より低コストで簡易的に行うには、例えば、障害の被疑部位をある程度絞り込んで通知するところまでを自動化し、その後は絞り込まれた対象のＮＷ機器３１０の全部、もしくはそこから人手によりさらに絞り込んだ一部の機器に対して対応策を実施することで、迅速に復旧を図ることが可能となる場合もある。

論理障害（例えば、ルーティングテーブルの異常など）の場合には、一般的な傾向として、例えば、ＮＷ機器３１０からエラーや異常なログなどは出力されず、一見して正常に稼働しているように見える場合がある。また、ｐｉｎｇが通らなくなるケースの他にｐｉｎｇが通ったり通らなかったりするケースがあること、ショートフレームのｐｉｎｇは通るがロングフレームのｐｉｎｇは通らなかったりするケースがあることなどから、ｐｉｎｇのやり方を工夫することで論理障害を把握することが可能である。また、論理障害の迅速な復旧のためには障害部位を特定して切り離す（電源断や再起動など）ことが効果的である。

そこで、本発明の一実施の形態である障害部位推定システムは、例えば、ハードウェア障害で障害監視システム２００に大量に障害メッセージ等が表示されるような場合であっても、迅速に障害部位を特定して効率的にログの確認などが行えるようにするとともに、論理障害の場合にも迅速に障害の被疑部位を推定して絞り込み、対応策の実施を可能とする。

簡易的に迅速に障害部位を推定して絞り込むことを可能とするために、本実施の形態では、正常時に定期的に監視対象ＮＷ３００における経路情報と品質情報を収集して記録しておき、障害時・異常時（障害監視システム２００で障害を検知した場合）に、正常時に取得しておいた通信経路に従ってホップバイホップでｐｉｎｇによるポーリングを行う。このポーリングの成否（死活情報）に基づいて障害部位の集合を抽出し、そこから所定のロジックにより原因となる障害被疑部位を推定して抽出する。ここで、ポーリングの成否は、応答の有無だけに限らず、正常時の品質情報との比較に基づいて一定以上品質の劣化があった場合に障害部位と判断することで、論理障害のような「半死」の場合でも障害部位の推定を可能とする。

図２は、本発明の一実施の形態におけるネットワーク監視の例について概要を示した図である。ここでは、従来の障害監視システム２００に加えて、障害部位の推定を行う障害部位推定システム１００を有し、障害監視システム２００等においてＮＷ機器３１０ａが原因の障害を検知した場合に（図１０の場合と同様に、配下のＮＷ機器３１０が障害状態として検知される）、障害部位推定システム１００において、障害となっている各ＮＷ機器３１０への経路情報と、通信経路上の死活情報とを分析して、ＮＷ機器３１０ａが障害の被疑部位であると推定することを可能とするものである。

＜システム構成＞
図１は、本発明の一実施の形態である障害部位推定システム１００を有するネットワーク監視システムの構成例について概要を示した図である。ネットワーク監視システムは、上述の図２において示したように、監視対象ＮＷ３００に対して、障害監視システム２００と障害部位推定システム１００が接続される構成を有している。

監視対象ＮＷ３００は、ルータ等の多数のＮＷ機器３１０から構成されるツリー型のネットワークであり、各ＮＷ機器３１０は必要に応じて経路情報を保持するルーティングテーブル３１１を有している。また、障害監視システム２００は、上述したような、ベンダー各社から提供される市販のツール等により構成され、監視対象ＮＷ３００の各ＮＷ機器３１０に対して、例えば、ＩＣＭＰ／ＳＮＭＰポーリングにより死活監視を行って障害を検知し、これをネットワークトポロジを表現したマップ上に表示したり、障害通知メッセージとして表示したりして通知する情報処理システムである。

障害部位推定システム１００は、障害監視システム２００において監視対象ＮＷ３００内の複数のノード（ＮＷ機器３１０）での障害を検知した場合に、各ノードへの経路情報と通信経路上の各ノードにおける死活情報とに基づいて、各ノード障害の原因となる通信経路上の共通部位を特定して障害部位として推定するシステムである。なお、本実施の形態では、障害部位推定システム１００を障害監視システム２００とは別個のシステムとして構成する例を示しているが、これらを１つのシステムとして構成することも当然可能である。

この障害部位推定システム１００は、例えば、ＰＣ（Personal Computer）やサーバ機器などにより構成される情報処理システムであり、ソフトウェアとして実装される経路情報取得部１１０および障害部位推定部１２０と、データベースやファイルテーブル等として実装される経路情報データベース（ＤＢ）１３０などを有する。

経路情報取得部１１０は、監視対象ＮＷ３００が正常時に、監視対象ＮＷ３００内の全ノード（ＮＷ機器３１０）に対してｐｉｎｇ／ｔｒａｃｅｒｏｕｔｅおよびＳＮＭＰによる経路探索を実行して正常時の経路情報を取得し、経路情報ＤＢ１３０に記録する機能を有する。経路情報の取得処理の内容については後述する。

障害部位推定部１２０は、監視対象ＮＷ３００が障害時・異常時（障害監視システム２００等によって障害を検知した場合）に、障害が検知されているＮＷ機器３１０から原因となる障害の被疑部位を推定して出力する機能を有し、例えば、ホップバイホップ（逐次）ポーリング部１２１、被疑ペア抽出部１２２および障害部位出力部１２３などの各部を有する。ホップバイホップポーリング部１２１は、障害が検知されているＩＰアドレスに対して、経路情報ＤＢ１３０から正常時の経路情報を取得し、当該通信経路上にある全てのＩＰアドレス（ホップバイホップリスト）に対して逐次（ホップバイホップで）ｐｉｎｇによるポーリングを行なって、結果（ＯＫ／ＮＧ）を収集することにより各ノードの状態を把握する機能を有する。

被疑ペア抽出部１２２は、ホップバイホップポーリング部１２１によるポーリングにおいて、ｐｉｎｇの結果に異常があったＩＰアドレスのうち、通信経路上最も手前の（障害部位推定システム１００に最も近い）ＩＰアドレスと、通信経路上その１つ手前のホップのＩＰアドレス（ｐｉｎｇの結果は正常）とを被疑ペアとして抽出し、これを障害が検知されている各ＩＰアドレスに対して行なって、被疑ペア集合を得る機能を有する。障害部位出力部１２３は、被疑ペア抽出部１２２により抽出された被疑ペア集合をユニーク処理し、その結果に基づいて所定のロジックにより障害被疑部位を抽出して出力する機能を有する。障害被疑部位を推定する処理の内容についても後述する。

＜経路情報取得処理＞
以下では、まず、正常時における経路情報取得部１１０による経路情報の取得処理の内容について説明する。ここでは、監視対象ＮＷ３００における全ての監視対象のノード（ＮＷ機器３１０）に至る正常時の通信経路上の完全なＩＰアドレスのリストを作成して経路情報とするとともに、当該通信経路（監視対象のノード）における正常時の品質情報を取得して経路情報ＤＢ１３０に記録する。なお、この処理は正常時に定期的に実行するか、少なくとも通信経路や通信品質に影響を与え得るシステムやネットワークの構成変更があった場合に実行するのが望ましい。

図３〜図５は、経路情報および品質情報を取得する処理の例について概要を示した図である。ここでは、障害部位推定システム１００をノード“ｎ００”とし、監視対象ＮＷ３００内のルータ等の各ＮＷ機器３１０をノード“ｎ０１”、“ｎ２１”、“ｎ２２”、“ｎ４１”、“ｎ４２”、“ｎ４３”として表したツリー型のネットワーク構成の例を示している（レイヤー２スイッチ等の機器については省略している）。また、各ノードは、それぞれ、“ｉ００”〜“ｉ４３”として表したインタフェース（ＩＦ）３１２を有していることを示している。なお、図３〜図５の例では、“ｉ４１”のインタフェース３１２（ＩＰアドレス）についての経路情報および品質情報を取得する場合を例として説明している。

まず、正常時の品質情報を取得するため、図３に示すように、障害部位推定システム１００（ノード“ｎ００”）の経路情報取得部１１０は、監視対象のインタフェース３１２（“ｉ４１”）に対してｐｉｎｇコマンドを発行し、その応答からパケットロス率（ｌｏｓｓｒａｔｅ）および平均遅延時間を取得する。図３の例では、ｐｉｎｇによる“ｉ４１”のインタフェース３１２に対するｅｃｈｏパケットに対して応答としてｅｃｈｏ−ｒｅｐｌｙパケットを受け取る状態を矢印で示している。なお、取得した品質情報は、対象のインタフェース３１２と関連付けて経路情報ＤＢ１３０に記録する。なお、この品質情報を一定期間蓄積しておき、これに対して所定の統計処理を施すことで品質のベースラインを得るようにしてもよい。

次に、正常時の経路情報を取得するため、図４に示すように、監視対象のインタフェース３１２（“ｉ４１”）に対してｔｒａｃｅｒｏｕｔｅコマンドを発行し、当該インタフェース３１２に至るまでに経由するノードの情報を取得する。図４の例では、通信経路上のノード“ｎ０１”、“ｎ２１”、“ｎ４１”に対して順次ｅｃｈｏパケットを送信し、応答としてｔｉｍｅ−ｅｘｃｅｅｄｅｄパケットを受け取る状態を矢印で示している。

次に、ｔｒａｃｅｒｏｕｔｅにより取得した各経由ノードに対して、それぞれＳＮＭＰによる経路探索を実行し、ホップするノード毎の入力のインタフェース３１２と出力のインタフェース３１２を全て取得する。図５の例では、宛先のノード“ｎ４１”に対する経由ノード“ｎ０１”、“ｎ２１”のそれぞれについて、ｓｎｍｐｇｅｔコマンドを発行した状態を矢印で示している。当該コマンドにより、各ノードのルーティングテーブル３１１等に基づいて得られるＭＩＢ（Management Information Base）の管理情報から、入力および出力のインタフェース３１２の情報を取得することができる。

上記の図４の例に示す処理により取得した経由ノードの情報と、図５の例に示す処理により取得した各経由ノードでの入力および出力のインタフェース３１２の情報とに基づいて、図５の下段の表に示すように、障害部位推定システム１００（ノード“ｎ００”）のインタフェース３１２（“ｉ００”）から監視対象のＮＷ機器３１０（ノード“ｎ４１”）のインタフェース３１２（“ｉ４１”）に至る通信経路上におけるインタフェース３１２のリスト（ホップバイホップリスト１３１）を作成する。作成したホップバイホップリスト１３１の情報は、監視対象のインタフェース３１２と関連付けて経路情報ＤＢ１３０に記録する。なお、品質情報と経路情報を取得する順序は上記の順に限らず、経路情報を先に取得してもよい。

図６は、ホップバイホップリスト１３１を得るためのソースコードの例を参考情報として示した図である。上段の図では、対象のネットワーク構成例として、障害部位推定システム１００（ノード“ｎ００”）およびそのインタフェース３１２のＩＰアドレスと、ターゲットのノード（ＮＷ機器３１０）およびインタフェース３１２、中継するノード（ＮＷ機器３１０）およびその入力と出力のインタフェース３１２とルーティングテーブル３１１を示している。また、下段の図では、上段の図に示したような構成において、ターゲットのインタフェース３１２に至るまでのインタフェース３１２のリストを得るためのソースコード１１１の一例を示している。

＜障害部位推定処理＞
以下では、障害時・異常時における障害部位推定部１２０による障害部位の推定処理の内容について説明する。障害監視システム２００もしくは障害部位推定システム１００が、例えば、監視対象ＮＷ３００内の各ノードに対して定期的にｐｉｎｇによるポーリングを行う等して監視することによりネットワーク障害を検知した場合、障害部位推定部１２０のホップバイホップポーリング部１２１は、障害が検知された各インタフェース３１２（ＩＰアドレス）に対してホップバイホップでｐｉｎｇを実行する。すなわち、対象のインタフェース３１２に至る経路情報（ホップバイホップリスト１３１）を経路情報ＤＢ１３０から取得し、リストに含まれる各インタフェース３１２のＩＰアドレスに対してそれぞれｐｉｎｇによるポーリングを行なって、通信のＯＫ／ＮＧを判定する。

なお、ｐｉｎｇによるポーリングにおける障害の検知や、通信のＯＫ／ＮＧの判定の際は、ｐｉｎｇの応答を受信したか否かのみで判定するのではなく、パケットロス率や平均遅延などの品質情報の値について、経路情報ＤＢ１３０に記録された正常時の品質情報（ベースライン）と比較することで判定する。例えば、現在の各品質情報の値がベースラインから所定の閾値以上低下しているか否かにより判定してもよいし、統計的な手法を利用して障害か否かを推測するようにしてもよい。

さらに、障害部位推定部１２０の被疑ペア抽出部１２２が、上記のポーリングの結果がＮＧであったインタフェース３１２のうち、通信経路上最も手前のインタフェース３１２と、通信経路上その１つ手前のホップのインタフェース３１２とを被疑ペアとして抽出する。これを障害が検知されている各インタフェース３１２に対して行なって、被疑ペア集合１３２を取得する。

図７は、障害が検知されたノードに対して被疑ペア集合１３２を取得する処理の例について概要を示した図である。ここでは、図の上段左側に示した監視対象ＮＷ３００の構成（図３〜図５の例で示したものと同様）において、“ｉ２１”のインタフェース３１２が障害となった場合を例としている。

このとき、障害監視システム２００において障害が検知される（ｐｉｎｇによるポーリングがＮＧとなる）各ノード（“ｎ２１”、“ｎ４１”、“ｎ４２”）に対して、ホップバイホップポーリング部１２１が、通信経路上の各インタフェース３１２に対してホップバイホップでｐｉｎｇによるポーリングを行う。このとき、図７の例では、例えば、“ｉ２１”、“ｉ３１”、“ｉ３２”、“ｉ４１”、“ｉ４２”の各インタフェース３１２（上段左側の図中で網掛けで示したもの）ではポーリングがＮＧとなり、他のインタフェース３１２ではＯＫとなる。このポーリングの結果をホップバイホップリスト１３１の表に追記・反映させたものが図７の上段右側の表である。表中のＯＫ／ＮＧの値は、対象のインタフェース３１２に対するｐｉｎｇによるポーリングの結果を示している。

ここで、各インタフェース３１２に対するホップバイホップでのポーリングの結果がＮＧであった経路上のインタフェース３１２のうち、最も手前のインタフェース３１２と、その１つ手前のホップのインタフェース３１２とを被疑ペアとして抽出する。すなわち、ホップバイホップリスト１３１において、ポーリングの結果がＯＫからＮＧに変わる境界部分のインタフェース３１２を被疑ペアとして抽出し、被疑ペア集合１３２（図７の下段の表）を作成する。

被疑ペア集合１３２において、“ＮＧ”の項目は境界部分におけるポーリング結果がＮＧのインタフェース３１２を示し、“ＰＲＥＶ”の項目はその手前のホップのポーリング結果がＯＫのインタフェース３１２を示している。図７の例では、全ての監視対象のインタフェース３１２において、“ＰＲＥＶ”が“ｉ１１”、“ＮＧ”が“ｉ２１”となっている。

次に、障害部位推定部１２０の障害部位出力部１２３が、被疑ペア集合１３２および経路情報ＤＢ１３０に記録された経路情報に基いて、障害被疑部位を推定して出力する。図８は、障害被疑部位を推定して出力する処理の例について概要を示したフローチャートである。まず、被疑ペア集合１３２の各エントリのＮＧ項目のインタフェース３１２に対してユニーク処理（重複するものを排除）する（Ｓ０１）。次に、ユニーク処理した結果のエントリ数（ＮＧ項目のインタフェース３１２の数）が１であるか否かを判定する（Ｓ０２）。エントリ数が１である場合は、当該エントリのＮＧ項目のインタフェース３１２を障害被疑部位として出力する（パターン１）（Ｓ０３）。すなわち、図示するように、ＯＫとＮＧの境界におけるＮＧのインタフェース３１２（１つだけ存在する）を障害被疑部位として出力する。

ステップＳ０２においてＮＧ項目のエントリが複数ある場合は、さらに、被疑ペア集合１３２の各エントリ（ＮＧ項目についてユニーク処理済み）のＰＲＥＶ項目のインタフェース３１２に対してユニーク処理する（Ｓ０４）。次に、ユニーク処理した結果のエントリ数（ＰＲＥＶ項目のインタフェース３１２の数）が１であるか否かを判定する（Ｓ０５）。エントリ数が１である場合は、当該エントリのＰＲＥＶ項目のインタフェース３１２と、ＮＧ項目のインタフェース３１２との間の区間を障害被疑部位として出力する（パターン２）（Ｓ０６）。すなわち、図示するように、ＯＫとＮＧの境界部分の区間（図示するようにこの部分にプロバイダ等により提供されるネットワークを含む場合もある）を障害被疑部位として出力する。

ステップＳ０５においてＰＲＥＶ項目のエントリが複数ある場合は、これらのインタフェース３１２のユニーク集合を障害被疑部位として出力する（パターン３）（Ｓ０７）。すなわち、図示するように、ＯＫとＮＧの境界におけるＯＫのインタフェース３１２（複数存在する）を障害被疑部位として出力する。

図９は、被疑ペア集合１３２に基いて障害被疑部位を推定する処理の例について概要を示した図である。ここでは、図７に示した例において取得した被疑ペア集合１３２に基いて、図８に示した障害被疑部位の推定手法の例によって障害被疑部位を推定する場合を示している。図９の例では、被疑ペア集合１３２に対して、図８のステップＳ０１の処理によりＮＧ項目のインタフェース３１２についてユニーク処理を行った結果、ＮＧ項目のエントリは“ｉ２１”の１レコードのみとなるため、パターン１により、当該インタフェース“ｉ２１”を障害被疑部位と推定して出力する。

出力の態様は特に限定されず、例えば、障害監視システム２００などの画面における監視対象ＮＷ３００のトポロジを表したマップ上に障害被疑部位を特定可能なように強調表示してもよい。また、障害被疑部位に該当するＩＰアドレスやインタフェース３１２、ＮＷ機器３１０の識別情報などをメッセージとして表示する構成であってもよい。ここで出力される障害被疑部位は、障害の原因部位であると疑われる部位であり、正確な原因部位以外の構成要素を含む場合もあり得るが、迅速な障害対応という観点では非常に重要な情報となるものである。

以上に説明したように、本発明の一実施の形態である障害部位推定システム１００によれば、正常時に定期的に監視対象ＮＷ３００における経路情報と品質情報を収集して記録しておき、障害時・異常時（障害監視システム２００で障害を検知した場合）に、正常時に取得した通信経路に従ってホップバイホップでｐｉｎｇによるポーリングを行う。このポーリングの成否（死活情報）に基づいて障害部位の集合を抽出し、そこから所定のロジックにより原因となる障害被疑部位を推定して抽出する。ここで、ポーリングの成否は、応答の有無だけに限らず、正常時の品質情報との比較に基づいて一定以上品質の劣化があった場合に障害部位と判断することで、論理障害のような「半死」の場合でも障害部位の推定を可能とする。

これにより、大規模なネットワーク障害の場合でも、障害部位推定システム１００において、障害となっている各ノード（ＮＷ機器３１０）への経路情報と、通信経路上の死活情報とを分析して、簡易的に迅速に障害被疑部位を推定して絞り込むことが可能となる。また、難しい操作を必要とせず、オペレータ等でも容易に障害被疑部位の推定を行うことが可能であるため、早期に障害被疑部位を絞り込み、状況によっては即時に対応策をとることも可能となる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

本発明は、ネットワーク障害の際に障害部位を推定する障害部位推定システムおよび障害部位推定プログラムに利用可能である。

１…ネットワーク（ＮＷ）監視システム、
１００…障害部位推定システム、１１０…経路情報取得部、１１１…ソースコード、１２０…障害部位推定部、１２１…ホップバイホップ（逐次）ポーリング部、１２２…被疑ペア抽出部、１２３…障害部位出力部、１３０…経路情報データベース（ＤＢ）、１３１…ホップバイホップリスト、１３２…被疑ペア集合、
２００…障害監視システム、
３００…監視対象ネットワーク（ＮＷ）、３１０、３１０ａ…ネットワーク（ＮＷ）機器、３１１…ルーティングテーブル、３１２…インタフェース。

Claims

ネットワーク機器からなるノードがツリー型に接続された構成を有する監視対象ネットワークにおいて障害が発生した場合に障害被疑部位を推定する障害部位推定システムであって、
前記監視対象ネットワークの正常時に、前記監視対象ネットワーク内の各ノードについて、当該ノードに至る通信経路上の各ノードのインタフェースからなる経路情報を取得して、経路情報記録手段に記録する経路情報取得部と、
前記監視対象ネットワークの障害時に、障害となっている各ノードに至る経路情報を前記経路情報記録手段からそれぞれ取得し、当該経路情報に含まれる各インタフェースに対して逐次ポーリングを行って、ＯＫもしくはＮＧの結果を収集する逐次ポーリング部と、
経路情報に含まれる各インタフェースにおいて、前記ポーリングの結果がＮＧとなった最も手前のインタフェースと、その１つ手前の前記ポーリングの結果がＯＫとなったインタフェースとを被疑ペアとし、障害となっている各ノードについて被疑ペアを抽出して被疑ペア集合を取得する被疑ペア抽出部と、
前記被疑ペア集合と前記経路情報記録手段に記録された経路情報とに基いて、障害被疑部位を抽出して出力する障害部位出力部とを有することを特徴とする障害部位推定システム。
請求項１に記載の障害部位推定システムにおいて、
前記経路情報取得部は、前記監視対象ネットワークの正常時に、前記監視対象ネットワーク内の各ノードに至る通信経路についての品質情報を取得して前記経路情報記録手段に記録し、
前記逐次ポーリング部は、前記逐次ポーリングの際に取得した品質情報と、前記経路情報記録手段に記録された対応する通信経路についての正常時の品質情報との比較に基いて、前記逐次ポーリングの結果がＯＫもしくはＮＧであるかを判断することを特徴とする障害部位推定システム。
請求項２に記載の障害部位推定システムにおいて、
前記経路情報記録手段に記録する品質情報は、ｐｉｎｇコマンドに対する応答に含まれるパケットロス率および／または平均遅延時間の情報であることを特徴とする障害部位推定システム。
請求項１〜３のいずれか１項に記載の障害部位推定システムにおいて、
前記経路情報取得部は、前記監視対象ネットワーク内の各ノードに対してｔｒａｃｅｒｏｕｔｅコマンドを発行して通信経路上のノードの情報を取得し、取得した通信経路上の各ノードに対してＳＮＭＰによる経路探索を行なって、入力および／または出力のインタフェースの情報を取得することによって経理情報を取得することを特徴とする障害部位推定システム。
請求項１〜４のいずれか１項に記載の障害部位推定システムにおいて、
前記障害部位出力部は、前記被疑ペア集合における、前記ポーリングの結果がＮＧとなったインタフェースについて重複を排除したエントリの数が１の場合は、当該エントリに係る前記ポーリングの結果がＮＧとなったインタフェースを障害被疑部位として出力することを特徴とする障害部位推定システム。
請求項１〜５のいずれか１項に記載の障害部位推定システムにおいて、
前記障害部位出力部は、前記被疑ペア集合における、前記ポーリングの結果がＮＧとなったインタフェースについて重複を排除したエントリの数が複数であり、かつ、これらのエントリにおいて、前記ポーリングの結果がＯＫとなったインタフェースについて重複を排除したエントリの数が１の場合は、当該エントリに係る前記ポーリングの結果がＯＫとなったインタフェースと、前記ポーリングの結果がＮＧとなったインタフェースとの間の区間を障害被疑部位として出力することを特徴とする障害部位推定システム。
請求項１〜６のいずれか１項に記載の障害部位推定システムにおいて、
前記障害部位出力部は、前記被疑ペア集合における、前記ポーリングの結果がＮＧとなったインタフェースについて重複を排除したエントリの数が複数であり、かつ、これらのエントリにおいて、前記ポーリングの結果がＯＫとなったインタフェースについて重複を排除したエントリの数が複数である場合は、当該エントリに係る前記ポーリングの結果がＯＫとなったインタフェースを障害被疑部位として出力することを特徴とする障害部位推定システム。
ネットワーク機器からなるノードがツリー型に接続された構成を有する監視対象ネットワークにおいて障害が発生した場合に障害被疑部位を推定する障害部位推定システムとしてコンピュータを動作させる障害部位推定プログラムであって、
前記監視対象ネットワークの正常時に、前記監視対象ネットワーク内の各ノードについて、当該ノードに至る通信経路上の各ノードのインタフェースからなる経路情報を取得して、経路情報記録手段に記録する経路情報取得処理と、
前記監視対象ネットワークの障害時に、障害となっている各ノードに至る経路情報を前記経路情報記録手段からそれぞれ取得し、当該経路情報に含まれる各インタフェースに対して逐次ポーリングを行って、ＯＫもしくはＮＧの結果を収集する逐次ポーリング処理と、
経路情報に含まれる各インタフェースにおいて、前記ポーリングの結果がＮＧとなった最も手前のインタフェースと、その１つ手前の前記ポーリングの結果がＯＫとなったインタフェースとを被疑ペアとし、障害となっている各ノードについて被疑ペアを抽出して被疑ペア集合を取得する被疑ペア抽出処理と、
前記被疑ペア集合と前記経路情報記録手段に記録された経路情報とに基いて、障害被疑部位を抽出して出力する障害部位出力処理とをコンピュータに実行させることを特徴とする障害部位推定プログラム。