[go: up one dir, main page]

JP4412031B2 - ネットワーク監視システム及びその方法、プログラム - Google Patents

ネットワーク監視システム及びその方法、プログラム Download PDF

Info

Publication number
JP4412031B2
JP4412031B2 JP2004101827A JP2004101827A JP4412031B2 JP 4412031 B2 JP4412031 B2 JP 4412031B2 JP 2004101827 A JP2004101827 A JP 2004101827A JP 2004101827 A JP2004101827 A JP 2004101827A JP 4412031 B2 JP4412031 B2 JP 4412031B2
Authority
JP
Japan
Prior art keywords
monitoring information
monitoring
information
network
collected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004101827A
Other languages
English (en)
Other versions
JP2005285040A (ja
Inventor
到 西岡
伸治 加美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004101827A priority Critical patent/JP4412031B2/ja
Publication of JP2005285040A publication Critical patent/JP2005285040A/ja
Application granted granted Critical
Publication of JP4412031B2 publication Critical patent/JP4412031B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Description

本発明はネットワーク監視システム及びその方法、プログラムに関し、特に通信ネットワークにおける障害監視方式および障害情報分析方式に関するものである。
近年の高度情報社会化により、データセンターなどでは様々なサービスを提供するサーバが絶えず稼動しており、これらを接続するために様々な種類にわたる膨大な数のネットワーク装置が導入されている。これらのネットワーク装置に障害があるとサービス利用者に迷惑をかけるだけではなく、サービス提供者が莫大な損失を被る。そのために、管理者が監視装置を使ってネットワーク装置を絶えず監視する必要がある。管理者は、監視しているネットワーク装置に障害があった場合、この障害の原因を特定して迅速に復旧する必要がある。
ネットワーク装置を監視する形態には、一般的に、SNMP(Simple Network Management Protocol)を使って監視する方法がある。この形態での監視情報の収集方法としては、定期的に装置の稼動状態をポーリングにより収集する方法、装置側に予め閾値を設定しておき閾値を超えるとアラームを上げるトラップによる方法がある。障害が発生した場合、上記2種類の収集方法を使って監視装置が集めた情報を元に管理者は障害原因の特定や影響範囲の分析を行う必要があるが、この作業を全て人手で行っており、分析に莫大な時間がかかるという問題がある。
この問題を解決するために、自動で障害情報の分析する技術が特許文献1に開示されている。この技術では、ネットワーク装置から収集した複数の情報をファジールールに基づいて、障害が発生しているかどうか、障害が発生していると判断した場合には、どの部分が障害となっているかを詳しく診断するというものである。
しかしながら、昨今の装置自体の複雑化およびネットワークの大規模化により、ネットワーク装置をきめ細やかに監視しようとすると、収集する監視情報の数が膨大になり、監視情報の収集のためにネットワーク自体に負荷をかけてしまうという問題が発生する。一方、ネットワークへの負荷を低減しようとすると、監視情報の量を減らさなければならず、詳細にネットワークの状態を管理者が把握することが難しくなるという問題が発生する。
この問題を解決するために、特許文献2では、予め限定された監視情報だけを収集し、この監視情報の判定に異常があった場合、予め関連づけされた監視情報を収集し、さらに判定するという動作を繰り返す方式が開示されている。また、その他の問題解決方法として、特許文献3では、過去の障害発生頻度の高い装置に対して優先的にポーリングにより監視情報を収集するという方式が開示されている。
特許文献2及び3の技術では、障害となったネットワーク装置や障害の項目のみを集中的に管理するので、ネットワークの負荷を軽減することが可能であるが、障害が発生してから動作を起こすため、障害に関連する情報が取得できない場合があり、障害の原因の分析ができない可能性がある。また、管理者が人手で分析をしなければならないという問題は改善されていない。
特開平7−30540号公報 特開平8−065302号公報 特開平4−239242号公報
上記した3つの従来技術の課題は、障害が発生してから動作を起こすため、すでに障害が発生しているネットワーク装置からは、監視情報が収集できない場合があるということである。例えば、データトラヒックによりネットワーク装置の負荷が非常に大きくなるといった問題が発生した場合、この装置から監視情報を収集しようとしても、ネットワーク装置は、負荷が大きいため、監視情報取得の要求にこたえられない。また、その他の例として、ネットワーク装置が何かの理由により再起動したとき、再起動前の情報が欠落しているため、管理者が再起動した理由を分析するための十分な情報を得ることができないという問題点がある。
本発明の目的は、ネットワーク装置に負荷をかけることなく、ネットワーク装置が障害となる前に関連情報を取得するネットワーク監視システム及びその方法、プログラムを提供することである。
また、本発明の他の目的は、情報収集の課程で、同時に障害原因や障害影響範囲の分析結果を管理者に通知するようにしたネットワーク監視システム及びその方法、プログラムを提供することである。
本発明によるネットワーク監視システムは、
複数のネットワーク機器の情報を収集して監視する監視システムであって、
前記ネットワーク機器の各々から収集されるべき初期監視情報およびそれに関連する監視情報を監視ルールとして予め格納した監視ルール格納手段と、
前記ネットワーク機器から収集される初期監視情報を処理することによって障害の予兆を発見する予兆発見手段と、
前記予兆発見手段による予兆発見に応答して前記初期監視情報に関連し前記障害の原因を特定する監視情報を前記監視ルール格納手段から検索して、この検索した前記監視情報を収集する収集監視情報決定手段と、
前記収集監視情報決定手段により収集された監視情報により障害詳細の判定処理をなす事後発見手段と、
を含むことを特徴とする。
本発明によるネットワーク監視方法は、
複数のネットワーク機器の情報を収集して監視する監視方法であって、
前記ネットワーク機器の各々から収集されるべき初期監視情報およびそれに関連する監視情報を監視ルールとして予め格納した監視ルール格納手段を準備しておき、
前記ネットワーク機器から収集される前記初期監視情報を処理することによって障害の予兆を発見する予兆発見ステップと、
前記予兆発見ステップにおける予兆発見に応答して前記初期監視情報に関連し前記障害の原因を特定する監視情報を前記監視ルール格納手段から検索して、この検索した前記監視情報を収集する収集監視情報決定ステップと、
前記収集監視情報決定ステップにより収集された監視情報により障害詳細の判定処理をなす事後発見ステップと、
を含むことを特徴とする。
本発明によるプログラムは、
複数のネットワーク機器の情報を収集して監視する監視方法をコンピュータにより実行させるためのプログラムであって、
前記ネットワーク機器から収集される初期監視情報を処理することによって、障害の予兆を発見する処理と、
前記予兆発見に応答して前記初期監視情報に関連し前記障害の原因を特定する監視情報を監視ルール格納手段から検索して、この検索した前記監視情報を収集する処理と、
前記関連する監視情報により障害詳細の判定処理をなす事後発見処理と、
を含むことを特徴とする。
本発明の作用を述べる。複数のネットワーク装置からの監視情報を取得する通信機能を有するネットワーク監視システムにおいて、監視情報収集部で、初期監視情報として連続量情報を収集し、監視情報判定部で、この連続量情報の統計的な振舞いを監視し、通常と異なる振舞いを検出した場合には、異常が発生する予兆を発見したとみなして、収集監視情報決定部で、監視ルールデータベースを参照して、監視情報収集部に対して、関連する複数の監視情報を収集する様指示する。そして、監視情報判定部で、その値を判定することにより、障害の原因を特定する。
本発明の第一の効果は、ネットワーク監視システムがネットワーク装置を監視するときに、ネットワーク装置およびネットワークに与える負荷を最小限に抑えることである。その理由は、監視情報全てを同時にネットワーク装置から取るのではなく、発生した管理情報のアラームに対して関連する必要最低限の監視情報を決定し、その決定に基づいた監視情報のみを必要な期間だけ収集する手段を有するためである。
本発明の第二の効果は、ネットワーク監視システムがネットワークの障害を迅速に発見できることである。その理由は、ネットワーク監視システムが障害の予兆を検出し、その予兆に関する障害を動的かつ詳細に監視し始めるためである。予兆に基づいて関連する情報を動的に監視し始めることにより、同時に監視している情報を削減できるため、これまで全てのパラメータを監視するときには30分程度の監視間隔であったのに対し、本発明では、これまでと同程度の負荷で監視間隔を1分程度にまで短縮が実現できるためである。
本発明の第三の効果は、ネットワーク管理者が、ネットワークの障害に対して迅速に対処することできることである。その理由は、本発明のネットワーク管理システムでは、予兆発見、障害発見の後に、障害の原因特定および影響範囲を検査し、その結果をネットワーク管理者に報告するためである。
以下に、図面を参照しつつ本発明の実施の形態について詳細に説明する。本発明では、図1における情報収集部101が情報を収集する手段として、IETF(Internet Engineering Task Force )で標準化されているSNMP(Simple Network Management Protocol)を用いることを前提とする。本発明の説明では、ネットワーク監視システムは装置で、管理者はネットワーク監視システムを使ってネットワークを管理する人を表すものとする。
図1は本発明の第一の実施例におけるネットワーク監視システムならびに本発明のネットワーク監視システムを用いて監視される監視対象ネットワークを示すブロック図である。図1において、ネットワーク監視システム100は、複数のネットワーク装置111から監視情報を収集する監視情報収集部101と、判定機能部103で予め定義された判定機能のいずれかを使って収集した監視情報に異常があるかどうかを判断する監視情報判定部102と、監視ルールを規定する監視ルールDB(データベース)105と、次に収集する監視情報を監視ルールDB105を参照して決定する収集監視情報決定部104と、監視システムが収集した情報やアラームの有無を保管するログ蓄積部106とを含んで構成されている。
ログ蓄積部106の情報には、監視サイト120にある監視端末121を通してネットワークを監視する管理者がアクセスすることができると共に、ログ蓄積部に異常情報が入力された場合には、監視端末121に自動的に通知される。
監視ルールDB105の情報は、図2に示すように、複数の監視オブジェクトからなり、この監視オブジェクトのそれぞれには、管理者が監視している情報を識別するための監視情報名、監視情報収集部101がSNMPを使って監視情報を収集するためのMIB(Management Information Base )オブジェクト名、監視情報の関係を示す監視ツリー番号、監視するネットワーク装置を示す監視ノードアドレス、監視時間を示すタイムアウト時間、収集した情報を判定するために利用する判定値、および次に監視をする監視情報を示す子監視ツリー番号が記載されている。
また、各監視情報の監視ツリー番号は、”1.1”や”1.1.1.1”のように、”.(ドット)”で区切られており、これにより親監視情報に異常があった場合に監視する子監視情報を関連付けることができる。この監視ツリーはこれまで発生した障害の経験を元に、管理者により予め構築されて、監視ルールDB105に格納されているものとする。
収集した監視情報を分析する判定機能部103は、時系列情報判定機能103a、複数時系列情報判定機能103b、整数型情報判定機能103c、配列型情報判定機能103dからなる。これら判定機能の選択方法について説明する。
SNMPが収集した監視情報がMIBの表記形式であるSMI(Structure of Management Information )であることから、本発明で監視する監視情報のデータ型は、Counter(時間に伴い増加する負でない整数)、Gauge(最大値を維持する負でない整数)、Integer(整数値)、IP Address(IPアドレス)、Physical Address(物理的なアドレスで、例として、MACアドレスがある)および、List(他のデータ型の値を複数並べたリスト)とTable(Listを複数並べたもの)がある。
これらの型に従って、データ型がCounter、Gaugeであるならば時系列情報判定機能103aが、単一のInteger、IP Address、Physical Addressであるならば整数型情報判定機能103dが、複数のネットワーク装置から収集したCounter、Gaugeであるならば複数時系列情報判定機能が103bが、Integer、IP Address、Physical AddressのListまたはTable、または複数のネットワーク装置から収集したデータであるならば配列型情報判定機能103dが、それぞれ選択される。
以下に、監視情報のデータ型のそれぞれについて判定方法を説明する。入力監視情報が、単一のCounter、またはGaugeの場合、図3に示す時系列情報判定機能を用いて、図4に示す動作フローに従って、ネットワークの状態を診断する。すなわち、時系列情報判定機能では、過去のデータを統計処理し、統計処理したデータと新たなデータを比較してその外れ値の大きさを算出し、異常を判定する。情報収集装置101から収集した監視情報At を保存期間Wの間、監視情報DB10に保存し(S10)、時系列情報A[t]を作成する。そして、統計処理装置11では、この時系列情報A[t]を統計的に処理して発生分布関数θを導き出す(S11)。
異常判定装置12では、新たな監視情報At+1 と分布関数θを比較して、At+1 と分布関数θの差分を算出し(S12)、この差分を監視ルールDB105のエラー条件と比較し(S13)、真(異常)であるならば、監視情報決定部104に対して異常を通知すると共に、ログ蓄積部106に異常を保管する(S14)。また、偽(正常)であるならば、収集監視情報決定部104に正常を通知し、同時に、監視情報DB10は、保存している最も古い情報At-w を廃棄し、At+1 を保存する(S15)。
入力監視情報が、複数のCounter、またはGaugeの場合、図5に示す複数時系列情報判定機能を用いて、図6に示す動作フローに従って、ネットワークの状態を診断する。複数時系列情報判定機能では、過去の複数のデータを相関処理し、相関処理したデータを統計処理したものと新たな複数のデータの相関処理したデータを比較してその外れ値の大きさを算出し、異常を判定する。情報収集装置101から収集した複数の監視情報At 、Bt 、Ct を保存期間Wの間、監視情報DB10に保存し(S20)、時系列情報A[t]、B[t]、C[t]を作成する(S21)。
相関処理装置11では、この時系列情報A[t]、B[t]、C[t]をそれぞれの間で相関処理して、共分散ΓAB、ΓBC、ΓCAを導き出す(S22)。さらにこれらの共分散の発生分布関数θAB、θBC、θCAを導き出す(S23)。異常判定装置12では、新たな監視情報At+1 、Bt+1 、Ct+1 の共分散を計算し(S24)、その共分散とそれぞれの分布関数θを比較して、新たなデータと分布関数θとの差分を算出する(S25)。
この差分を監視ルールDB105のエラー条件と比較し(S26)、真(異常)であるならば、収集監視情報決定部104に対して異常を通知すると共に、ログ蓄積部106に異常を保管する(S27)。また、偽(正常)であるならば、収集監視情報決定部104に正常を通知する。同時に、監視情報DB10は、保存している最も古い情報At-w 、Bt-w 、Ct-w を廃棄し、At+1 、Bt+1 、Ct+1 を保存する(S28)。
入力監視情報が、単一のInteger、IP Address、Physical Addressである場合、図7に示す整数型情報判定機能を用いて、図8に示す動作フローに従って、ネットワークの状態を診断する。整数型情報判定機能では、収集した監視情報の値が正常かどうか判定する。情報収集装置101から収集した監視情報Aと監視ルールDB105のエラー条件を比較する(S30,S31)。真(異常)であるならば、収集監視情報決定部104に対して異常を通知すると共に、ログ蓄積部106に異常を保管し(S32)、偽(正常)であるならば、収集監視情報決定部104に正常を通知する(S33)。
入力監視情報が、複数のIP Address、Physical Addressである場合、図9に示す配列型情報判定機能を用いて、図10に示す動作フローに従って、ネットワークの状態を診断する。配列型情報判定機能では複数のネットワーク機器から収集した監視情報の論理的なつながり(例えば、IPルーティングテーブルやL2 Forwarding Tableなど)が正常であるかどうかを判定する。情報収集装置101から収集した監視情報A[x]、B[x]、C[x]の各テーブルは、図11にその例を示す様に、テーブル結合装置14により、宛先毎に各ネットワーク装置での転送先をならべた一つのテーブル(結合テーブルΩ)に結合される(S40)。異常判定装置12は、構成情報DB13を参照して、宛先毎に経路を検査する(S41)。経路の検査により、ループの発見、経路なしの発見が可能である。
IPルーティングテーブルの経路の検査方法を例に挙げ、図11を参照しながら説明する。結合テーブルΩのDest1の経路に対して、ネットワーク装置Aは、インターフェースA−1に転送することがわかる。構成情報DB13を参照して、インターフェースA−1は、同じくネットワーク装置Aに属するので、この経路は正常であると判断する。次に、Dest1の経路に対して、ネットワーク装置Bは、インターフェースA−2に転送する。構成情報DB13を参照して、インターフェースA−2は、ネットワーク装置Aのインターフェースなので、すでにDest1に対するネットワーク装置Aは検査済みであり、よってこの経路も正常と判断する。
次に、Dest1の経路に対するネットワーク装置Cでは、ネットワーク装置Bと同様、ネットワーク装置Aに転送されるので、この経路も正常と判断し、Dest1に対する経路は、全て正常であると判断する。
結合テーブルΩのDest2に対して、ネットワーク装置Aは、インターフェースB−2宛てにパケットを転送することがわかる。次に、構成情報DB13を参照して、インターフェースB−2を持つネットワーク装置を検索し、ネットワーク装置Bであることがわかる。次に、結合テーブルΩにおいて、Dest2に対してネットワーク装置Bが、インターフェースB−1に転送し、インターフェースB−1は同じネットワーク装置Bに属するインターフェースであるので、正常なルートと判断し、結合テーブルΩのなかでDest2に対する次のネットワーク装置Cに対しての検査に移る。
ネットワーク装置Cでは、Dest2に対して経路を持たないので、経路なしのエラーと判断する。このエラー情報は、全ての経路の検査が終了するまで、保持される。結合テーブルΩのDest3に対して、ネットワーク装置Aは、インターフェースC−3宛てにパケットを転送することがわかる。
次に、構成情報DB13を参照して、インターフェースC−3を持つネットワーク装置を検索し、ネットワーク装置Cであることがわかる。次に、結合テーブルΩにおいて、Dest3に対してネットワーク装置Cが、インターフェースA−3に転送し、インターフェースA−3はネットワーク装置Aに属するインターフェースであることが判明する。ネットワーク装置Aは、Dest3での経路においてすでにチェック済みであるので、この経路でループ発生のエラーが検出される。このエラー情報は、全ての経路の検査が終了するまで保持される(S42)。
次に、未検査のネットワーク装置Bの検査に移る。ネットワーク装置Bは、インターフェースC−2宛てにパケットを転送することがわかる。構成情報DB13を参照して、インターフェースC−2は、ネットワーク装置Cに属することがわかり、ネットワーク装置Cでは、Dest3に対して、既にループ検出エラーが発生しているので、経路検査は終了する。経路検査が終了すると(S43)、収集監視情報決定部104に対して異常を検査時に検出したエラーと含めて通知すると共に、ログ蓄積部106に異常情報を保管する(S44)。
本説明では、IPルーティングテーブルの経路検査を例に挙げて説明したが、この手法はEthernet(登録商標)などのMACフォワーディングテーブルの経路検査でも同様に適用可能である。
次に、これら4つの判定機能の組み合わせ方について述べる。図12は4つの判定機能103a〜103dの性質を記載した表である。時系列情報判定機能および複数時系列情報判定機能は事前発見型手段として、整数型情報判定機能や配列型情報判定機能は事後発見型手段として分類される。事前発見型手段は、監視情報の統計処理や相関処理を行い、これまでになかったパターンを異常の兆候として検出する。異常の兆候を検出できるため、監視システムは異常の事前検出が可能であるが、その反面、その後に実際には異常は発生しない場合も検出する可能性があるため、異常検出の精度は低い。
一方、事後発見型手段では、ネットワーク装置からのリアルタイムな監視情報を使って判定を行い、異常を検出する。このため、実際にネットワーク装置に異常が発生した後に、監視システムは異常検出するという事後検出となるが、異常検出の精度は高い。これらの特性から、事前発見手段をルールDBのツリー構造の上流側、事後発見手段をルールDBのツリー構造の下流側に配置することにより、迅速に障害の予兆を発見し、その予兆が本当に障害となるかを迅速かつ様々な種類の障害に対して確認することができる。
以下、事前発見手段および事後発見手段を組み合わせて、ネットワークの状態を監視するネットワーク監視システムの動作について以下に説明する。図13は、図1に示すネットワーク監視システム100の動作の手順を示したフローチャートである。初めに、図1と図13を用いて発生したイベントに基づきネットワーク装置が監視情報を順次、収集し判定する手順について説明する。
監視情報収集部101が、監視ルールDB105から初期監視情報(監視ルールDBにおいて最初に収集を始める監視情報)を読込み(S200)、監視ルールDBに指定された間隔で監視情報a(図2参照)の収集をSNMPのポーリングを用いて開始する(S201)。
ネットワーク装置111から収集された監視情報は、監視情報判定部102に渡され、監視情報判定部102は監視情報のデータ型に基づいて判定機能部103から適切な判定機能を選択し、監視情報の判定を行う(S202)。この場合の適切な判定機能の選択は、図2に示したMIBオブシェクト名の示されたデータ型に基づいて行われる。監視情報判定部の応答と監視ルールDBの判定値を比較して、判定値より小さければ正常、大きければ異常と判断する(S203)。
異常である場合、収集監視情報決定部104は、ルールDBを参照して異常である監視情報aの子監視ツリー番号を検索し、子監視ツリー番号1.1の監視情報b(図2参照)の収集を開始するように監視情報収集部に通知する(S205)。通知を受けた監視情報収集部101は、監視情報bを監視ルールDBに指定された間隔で収集し(S201)、以下、同様の手順でこれら監視情報の判定を順次繰り返す。このとき、それぞれの監視情報ではアラーム状態を保持しており、親の監視情報aのアラーム状態はエラー状態のまま監視情報を収集し、判定を継続する。このとき、仮に監視情報の値が、監視ルールDBに示す判定値と比較して偽となった場合でも、アラーム状態はエラー状態のままであるものとする。
次に、図1と図13とを用いて、発生しているアラーム解放の手順について説明する。アラームの解放は、ネットワーク監視者により問題が対処された場合やネットワークの自己修復機能が対処した場合などに、ネットワークの状態が変化し、監視している監視情報の判定値が変化することにより開始される。
S203において、監視情報判定部102の応答が正常である場合、収集監視情報決定部103は、監視している監視情報のうち最下層の当たる監視情報が初期監視情報であるかどうかを判断し(S204)、初期監視情報であるならば(つまり、図2の監視情報a)、アラームが発生していない状態なので、監視情報決定部103は何もしない。S204において、最下層の監視情報が初期監視情報でないならば(つまり、図2の監視情報bまたは監視情報c)、現在監視している監視情報の収集を終了するよう監視情報収集部に通知する(S206)。
次に、監視していた監視情報の親の監視情報がアラーム状態であれば、直接の親監視情報の監視情報判定部102の判定結果を監視する(S207)。判定結果が真(異常)であるなら、判定結果が偽(正常)になるまで、判定結果の監視を続ける(S207)。判定結果が偽(正常)となると、その監視情報が初期監視情報かどうかを判断し(S204)、監視している監視情報の最下層が初期監視情報になるまで、つまり、全てのアラームが解放されるまで、S206以降の動作を続ける。
全てのアラームが解放されたあとは、初期監視情報のみの監視を実行しており、再び初期監視情報に異常が発生した場合、同様の動作を繰り返す。このアラーム解放動作により、事前発見手段において異常を誤検出した場合でも、初期状態に戻り、通常の監視動作を継続することが可能である。
以上の本発明の実施の形態において、監視ルールDBを使った動的な監視情報の収集により、監視情報収集のためにネットワークに与える負荷を最小限に抑制することが可能、事前発見手段を監視ルールDBのツリー構造の上流に配置することによりネットワーク管理者が障害の兆候の迅速な発見が可能、事後発見手段を監視ルールDBのツリー構造の下流側に配置することにより、発生した障害の原因が何であるか、または、障害の影響範囲がどこまで及ぶかをネットワーク管理者が瞬時に判断することが可能となる。
また、本発明の実施の形態においては、監視ルールDBのツリー構造の上流に事前発見手段を、下流に事後発見手段を配置した場合の形態について説明したが、本発明は、これに限定されることなく、任意の形で監視ルールDBの構築が可能である。
次に、本発明の実施例を説明する。以下に述べる実施例では、ネットワーク管理者が障害を監視する際に構築する監視ルールDB105の構築例とそれを用いた動作例を、詳細に説明するものとする。図14は本発明の第一、第二、第三の実施例で用いるネットワーク構成を示した図である。図14に示すように、ネットワーク構成は、ルータR1〜R3およびそれぞれローカルネットワークL1〜L3に所属するクライアントH1、H2、ストリーミングサーバH3、H4、ハブHUBからなる。ここで、お互いを接続しているリンクは、100Mbt/sのFast Ethernet(登録商標)であるものとする。
ネットワーク監視装置100が監視する対象は、ルータR1〜R3のネットワーク機器である。ネットワーク監視装置100はルータR2に接続されており、その他の各ルータに対して、ルータR2を介して到達可能である。
以下、図14と図15とを参照して本発明の第一の実施例を説明する。図15は、第一の実施例でのネットワーク監視装置100内の監視ルールDBの各監視情報のつながりを記述するツリーを示す図である。図15に示すように、第一の実施例では、トラヒックの急増を検出し(予兆発見)、それに関連するパケット落ち障害が無いかどうかを監視し(障害発見)、もし障害が発生していた場合は、どの方路(インターフェース)からのトラヒックが原因で障害が発生しているかを特定する(原因特定)という手順である。
初期監視情報として、ネットワーク監視装置100は、各ルータのローカルネットワークへのインターフェースの出力トラヒック量であるMIB情報ifOutOctes(M1、M2、M3)を取得し、この情報を時系列情報判定機能を使って監視する。ここで、ストリーミングサーバH3からクライアントH1に20Mbit/sでストリーミングを配信中に、ストリーミングサーバH4から60Mbit/sでストリーミングの配信を開始するとする。ストリーミングサーバH4から配信が始まった時、監視情報M1で突然のトラヒック増を検出する。
監視情報M1が異常となるので、ネットワーク監視装置100は、次の監視情報であるパケット落ちを監視するために、図2における子監視ツリー番号1.1および1.2に相当する、インターフェースのMIB情報ifOutDiscard(M11)およびルータのMIB ipOutDiscard(M12)を取得して、整数型情報判定機能を使って監視する。
ここで、いずれかの監視情報において閾値異常のパケット落ちを検出すると、次に、ネットワーク監視装置100はルータR2、ルータR3からの入力トラヒック量を調べるために、それぞれのインターフェースのMIB情報ipInOctes(M111、M112)を整数型情報判定機能を使って監視を開始する。
ストリーミングサーバH4からのトラヒックは60Mbit/sであるので、予めルールDBの監視情報M112に設定してある閾値である50Mbit/sを越えているという異常を検出するため、ネットワーク管理者は、パケット落ち障害の主たる原因がインターフェースIF:192.168.31.2/24に入ってくるトラヒックが原因であることがわかる。
なお、図15において、IF IDがNode IDと同一となっている部分があるが、この場合には、IFをチェックするのではなく、ルータをチェックすることを意味するものとし、以下の図16,17においても同様である。
次に、図14と図16とを参照して本発明の第二の実施例を説明する。図16は、第二の実施例でのネットワーク監視装置100内の監視ルールDBの監視情報のつながりを記述するツリーを示す図である。図16に示すように、第二の実施例では、エラーによるパケットの棄却の増加傾向を検出し(予兆発見)、検出後、各ルータが持つルーティングテーブルを検査し(障害発見)、もし経路障害が発生していれば、障害となっている経路の通知と経路障害の原因がルーティングプロトコルによる経路棄却であるかどうかを検査する(障害原因特定)という手順である。
初期監視情報として、ネットワーク監視装置100は、各ルータでTTL(Time To Live)値が“0”となったために棄却されたパケット数を示すMIB情報icmpOutTimeExcds(M4、M5、M6)と、経路が無いため棄却されたパケット数を示すMIB情報icmpOutDestUnreach(M7、M8、M9)とを取得し、この情報を時系列情報判定機能を使って監視する。
なお、上記TTL値は、伝送されるIPパケットのヘッダに付加された情報であって、このパッケットがルータを一つ通過する毎に、TTL値が“1”減算され、値が“0”になると、そのときのルータはこのパケットを棄却するようになっている。
ここで、各ルータにOSPF(Open Shortest Path First)やRIP(Routing Information Protocol)などの複数のルーティングプロトコルが動作している環境で、ルーティングテーブルを決定する際に、異なるルータ間で違うルーティングプロトコルの経路を採用してしまったことが原因で、ルータR1とR2間で経路にループが発生したとする。このとき、ネットワーク監視装置100は、監視情報M4および監視情報M5で、パケット棄却数が急激な増加を検出する。監視情報M4および監視情報M5が異常となったので、ネットワーク監視装置100は、次の監視情報である経路検査を行うために、ルータの経路情報であるMIB情報ipRouteEntry(M41)を全ルータから取得して、配列型情報判定機能を使って経路を検査する。
この検査においてループが発見され、ループの位置が特定されると、管理者は、このループの位置情報を見て適切な処置を施すことができる。次に、ループが発生した原因が経路の棄却であるかどうかを判定するために、ネットワーク監視装置100は、ルータの経路棄却数を示すipRouteDiscard(M411、M412、M413)を整数型情報判定機能を使って検査する。ここでは、ループ発生の原因が異なるプロトコルの経路を採用したことが原因であるので、監視情報M411と監視情報M412は異常とならない。
また、ルーティングプロトコルの異常で、ルーティングテーブルから経路が削除されてしまったことを想定すると、監視情報M7、監視情報M8、監視情報M9のいずれかが異常となり、監視情報M41にて経路検査により経路なしを検出したあと、監視情報M411、監視情報M412、監視情報M413のいずれかが異常となるため、管理者はルーティングプロトコルの異常がどのルータで発生しているのか迅速に発見することができる。
次に、図14と図17とを参照して本発明の第三の実施例を説明する。図17は、第三の実施例でのネットワーク監視装置100内の監視ルールDBの監視情報のつながりを記述するツリーを示す図である。図17に示すように、第三の実施例は、正常なパケット棄却数の増加傾向を検出し(予兆発見)、パケット棄却につながるCPUオーバロード障害、または温度障害が発生していないか監視し(障害発見)、CPUオーバロードが発生しているとプロセスが暴走していないかどうか調べ、温度異常であるとファンの状態を調べる(障害原因特定)という手順である。
初期監視情報として、ネットワーク監視装置100は、各インターフェースで正常なパケットが棄却された数を示すMIB情報ifOutDiscard(MM10、MM12、MM14)と、各ルータで正常なパケットが棄却された数を示すMIB情報ipOutDiscard(MM11、MM13、MM15)を取得し、時系列情報判定機能を使って監視する。
ここで、ルータR1内で動作しているプロトコルの暴走が原因となり、CPUがオーバフローしたとする。オーバフローが原因でルーティングプロトコルが正しく動作しなくなり、現在のルーティングテーブルにない経路はR1で棄却される。このとき、ネットワーク監視装置100は、監視情報MM10もしくは監視情報MM11で、正常なパケットの棄却数が次第に増加するのを検出する。
監視情報MM10または監視情報MM11が異常となったので、ネットワーク監視装置100は、次の監視情報であるCPUオーバロードおよび温度異常を監視するために、ルータのCPU使用率を示すMIB情報cpmCPUTotal5sec(MM101)と温度状態を示すMIB情報ciscoEnvMonTemperatureStatusValue(MM111)をそれぞれ取得し、整数型情報判定機能にて検査を行う。
この検査において、CPU使用率が監視情報MM101の閾値より大きいと、ネットワーク監視装置100は障害が発生しているとみなし、次にどのプロセスが原因となっているかを検査するために、プロセスごとのCPU占有率を示すMIB情報cpmProcessAverageUSecs(MM1011)を取得し、整数型情報判定機能を使って検査する。ここで、監視情報MM1011の閾値より大きいと、ネットワーク監視装置100は異常であるとみなし、そのプロセスIDを管理者に通知する。
これにより、管理者は、どのプロセスが異常であるかが迅速に発見することができる。また、温度障害が発生したことを想定しても、上記と同様の動作で、どのファンに原因があるかを迅速に管理者に知らせることが可能である。
なお、上述した実施の形態および各実施例に示した動作フローは、その動作手順を予めプログラムとしてROMなどの記録媒体に記録しておき、これをコンピュータ(CPU)に読取らせて実行させる様に構成できることは勿論である。
本発明の実施の形態におけるネットワーク管理システムの構成および監視対象ネットワークの構成を示すブロック図である。 本発明の実施の形態におけるネットワーク管理システムが使用する、監視ルールDB内の監視ルールの例を示す図である。 本発明の実施の形態における判定機能である時系列情報判定機能の構成を示すブロック図である。 図3の動作フローを示す図である。 本発明の実施の形態における判定機能である複数時系列情報判定機能の構成を示すブロック図である。 図5の動作フローを示す図である。 本発明の実施の形態における判定機能である整数型情報判定機能の構成を示すブロック図である。 図7の動作フローを示す図である。 本発明の実施の形態における判定機能である配列型情報判定機能の構成を示すブロック図である。 図9の動作フローを示す図である。 本発明の実施の形態における配列型判定機能の処理の流れを示す図である。 本発明の実施の形態における判定機能のそれぞれの特徴を示す図である。 本発明の実施の形態におけるネットワーク管理システムの動作の流れを示すフローチャートである。 本発明の実施例の説明に用いるネットワーク構成例を示したブロック図である。 本発明の第一の実施例における監視ルールを示す図である。 本発明の第二の実施例における監視ルールを示す図である。 本発明の第三の実施例における監視ルールを示す図である。
符号の説明
100 ネットワーク監視システム
101 監視情報収集部
102 監視情報判定部
103 判定機能部
104 収集監視情報決定部
105 監視ルールDB(データベース)
106 ログ蓄積部
120 監視サイト
121 監視端末

Claims (17)

  1. 複数のネットワーク機器の情報を収集して監視する監視システムであって、
    前記ネットワーク機器の各々から収集されるべき初期監視情報およびそれに関連する監視情報を監視ルールとして予め格納した監視ルール格納手段と、
    前記ネットワーク機器から収集される初期監視情報を処理することによって障害の予兆を発見する予兆発見手段と、
    前記予兆発見手段による予兆発見に応答して前記初期監視情報に関連し前記障害の原因を特定する監視情報を前記監視ルール格納手段から検索して、この検索した前記監視情報を収集する収集監視情報決定手段と、
    前記収集監視情報決定手段により収集された監視情報により障害詳細の判定処理をなす事後発見手段と、
    を含むことを特徴とするネットワーク監視システム。
  2. 前記初期監視情報は時系列に変化する時系列監視情報であり、
    前記予兆発見手段は、現在までに収集されている時系列監視情報を統計処理する手段と、この統計処理された結果と最新の収集情報とを比較判定することにより、障害の予兆を検出する手段とを有すること特徴とする請求項1記載のネットワーク監視システム。
  3. 前記初期監視情報は時系列に変化する時系列監視情報であり、
    前記予兆発見手段は、現在までに収集されている複数の時系列監視情報の相関関係を統計処理する手段と、この統計処理された結果と最新の収集情報とを比較判定することにより、障害の予兆を検出する手段とを有すること特徴とする請求項1記載のネットワーク監視システム。
  4. 前記関連する監視情報は前記ネットワーク機器が保持する経路情報であり、前記事後発見手段は前記経路情報を検査することにより、経路の正常性を確認するようにしたこと特徴とする請求項1〜3いずれか記載のネットワーク監視システム。
  5. 前記関連する監視情報は整数型の情報(整数型監視情報)であり、事後発見手段は整数値の判定を行うようにしたことを特徴とする請求項1〜3いずれか記載のネットワーク監視システム。
  6. 前記格納手段に格納されている前記初期監視情報に関連する監視情報は、順次詳細な関連する監視情報として、ツリー構造とされており、前記収集監視情報決定手段は、前記ツリー構造からより詳細な関連する監視情報を順次検索して当該監視情報の収集を決定し、前記事後発見手段は、収集された監視情報により障害詳細の判定処理をなすようにしたことを特徴とする請求項1〜5いずれか記載のネットワーク監視システム。
  7. 前記監視情報の収集はSNMP(Simple Network Management Protocol)を用いて行われ、前記事後発見手段は、前記判定処理時にMIB(Management Information Base )に定義されるデータ形式に基づいて判定処理機能を決定するようにしたことを特徴とする請求項1〜6いずれか記載のネットワーク監視システム。
  8. 前記収集監視情報決定手段により収集を指示された監視情報の判定の結果が正常であった場合には、前記監視情報の収集を終了すると共に、前記監視情報を監視するトリガとなった監視情報の異常状態を解放する手段を、更に含むことを特徴とする請求項1〜7いずれか記載のネットワーク監視システム。
  9. 複数のネットワーク機器の情報を収集して監視する監視方法であって、
    前記ネットワーク機器の各々から収集されるべき初期監視情報およびそれに関連する監視情報を監視ルールとして予め格納した監視ルール格納手段を準備しておき、
    前記ネットワーク機器から収集される前記初期監視情報を処理することによって障害の予兆を発見する予兆発見ステップと、
    前記予兆発見ステップにおける予兆発見に応答して前記初期監視情報に関連し前記障害の原因を特定する監視情報を前記監視ルール格納手段から検索して、この検索した前記監視情報を収集する収集監視情報決定ステップと、
    前記収集監視情報決定ステップにより収集された監視情報により障害詳細の判定処理をなす事後発見ステップと、
    を含むことを特徴とするネットワーク監視方法。
  10. 前記初期監視情報は時系列に変化する時系列監視情報であり、
    前記予兆発見ステップは、現在までに収集されている時系列監視情報を統計処理するステップと、この統計処理された結果と最新の収集情報とを比較判定することにより、障害の予兆を検出するステップとを有すること特徴とする請求項9記載のネットワーク監視方法。
  11. 前記初期監視情報は時系列に変化する時系列監視情報であり、
    前記予兆発見ステップは、現在までに収集されている複数の時系列監視情報の相関関係を統計処理するステップと、この統計処理された結果と最新の収集情報とを比較判定することにより、障害の予兆を検出するステップとを有すること特徴とする請求項9記載のネットワーク監視方法。
  12. 前記関連する監視情報は前記ネットワーク機器が保持する経路情報であり、前記事後発見ステップは前記経路情報を検査することにより、経路の正常性を確認するようにしたこと特徴とする請求項9〜11いずれか記載のネットワーク監視方法。
  13. 前記関連する監視情報は整数型の情報(整数型監視情報)であり、事後発見ステップは整数値の判定を行うようにしたことを特徴とする請求項9〜11いずれか記載のネットワーク監視方法。
  14. 前記格納手段に格納されている前記初期監視情報に関連する監視情報は、順次詳細な関連する監視情報として、ツリー構造とされており、前記収集監視情報決定ステップは、前記ツリー構造からより詳細な関連する監視情報を順次検索して当該監視情報の収集を決定し、前記事後発見ステップは、収集された監視情報により障害詳細の判定処理をなすようにしたことを特徴とする請求項9〜13いずれか記載のネットワーク監視方法。
  15. 前記監視情報の収集はSNMP(Simple Network Management Protocol)を用いて行われ、前記事後発見ステップは、前記判定処理時にMIB(Management Information Base )に定義されるデータ形式に基づいて判定処理機能を決定するようにしたことを特徴とする請求項9〜14いずれか記載のネットワーク監視方法。
  16. 前記収集監視情報決定ステップにより収集を指示された監視情報の判定の結果が正常であった場合には、前記監視情報の収集を終了すると共に、前記監視情報を監視するトリガとなった監視情報の異常状態を解放するステップを、更に含むことを特徴とする請求項9〜15いずれか記載のネットワーク監視方法。
  17. 複数のネットワーク機器の情報を収集して監視する監視方法をコンピュータにより実行させるためのプログラムであって、
    前記ネットワーク機器から収集される初期監視情報を処理することによって、障害の予兆を発見する処理と、
    前記予兆発見に応答して前記初期監視情報に関連し前記障害の原因を特定する監視情報を監視ルール格納手段から検索して、この検索した前記監視情報を収集する処理と、
    前記関連する監視情報により障害詳細の判定処理をなす事後発見処理と、
    を含むことを特徴とするコンピュータ読取り可能なプログラム。
JP2004101827A 2004-03-31 2004-03-31 ネットワーク監視システム及びその方法、プログラム Expired - Fee Related JP4412031B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004101827A JP4412031B2 (ja) 2004-03-31 2004-03-31 ネットワーク監視システム及びその方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004101827A JP4412031B2 (ja) 2004-03-31 2004-03-31 ネットワーク監視システム及びその方法、プログラム

Publications (2)

Publication Number Publication Date
JP2005285040A JP2005285040A (ja) 2005-10-13
JP4412031B2 true JP4412031B2 (ja) 2010-02-10

Family

ID=35183309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004101827A Expired - Fee Related JP4412031B2 (ja) 2004-03-31 2004-03-31 ネットワーク監視システム及びその方法、プログラム

Country Status (1)

Country Link
JP (1) JP4412031B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4390649B2 (ja) 2004-07-14 2009-12-24 富士通株式会社 ネットワークループ検知装置
WO2007069702A1 (ja) * 2005-12-15 2007-06-21 Cyber Solutions Inc. ネットワーク管理情報収集方法およびネットワーク管理システム
JP4594869B2 (ja) 2006-01-24 2010-12-08 富士通株式会社 状態監視装置
JP4758259B2 (ja) * 2006-01-31 2011-08-24 株式会社クラウド・スコープ・テクノロジーズ ネットワーク監視装置及び方法
JP4572211B2 (ja) * 2007-03-30 2010-11-04 エヌイーシーコンピュータテクノ株式会社 ネットワーク・システム、ネットワーク中継装置
JP5459608B2 (ja) 2007-06-06 2014-04-02 日本電気株式会社 通信網の障害原因分析システムと障害原因分析方法、及び障害原因分析用プログラム
JP5098821B2 (ja) * 2008-06-02 2012-12-12 富士通株式会社 監視対象システムの障害等の予兆を検出する監視装置及び監視方法
KR101547721B1 (ko) 2008-11-27 2015-08-26 인터내셔널 비지네스 머신즈 코포레이션 검출 이벤트에 따른 액션 실행을 지원하는 시스템, 검출 이벤트에 다른 액션 실행을 지원하는 방법, 지원 장치 및 컴퓨터 프로그램
US8645769B2 (en) 2010-01-08 2014-02-04 Nec Corporation Operation management apparatus, operation management method, and program storage medium
WO2012067031A1 (ja) 2010-11-17 2012-05-24 日本電気株式会社 違反予兆条件設定支援システム、違反予兆条件設定支援方法および違反予兆条件設定支援プログラム
JP2012169958A (ja) * 2011-02-16 2012-09-06 Kddi Corp リアルタイム品質分析装置および方法
JP5772112B2 (ja) * 2011-03-18 2015-09-02 富士通株式会社 伝送装置、及び情報取得制御方法
JP5883770B2 (ja) 2012-11-15 2016-03-15 株式会社日立製作所 ネットワーク異常検知システム、および、分析装置
JP5958354B2 (ja) 2013-01-16 2016-07-27 富士通株式会社 通信監視装置、発生予測方法及び発生予測プログラム
JP5987701B2 (ja) 2013-01-16 2016-09-07 富士通株式会社 通信監視装置、予測方法及び予測プログラム
JP6125625B2 (ja) * 2013-05-16 2017-05-10 株式会社日立製作所 検出装置、検出方法、および記録媒体
IN2013MU03382A (ja) * 2013-10-25 2015-07-17 Tata Consultancy Services Ltd
JP6574332B2 (ja) * 2015-03-26 2019-09-11 株式会社日立システムズ データ分析システム
CN109491856B (zh) 2017-09-12 2022-08-02 中兴通讯股份有限公司 总线监控系统、方法及装置
JP7128615B2 (ja) * 2017-09-15 2022-08-31 株式会社Fuji ストッカ
JP6915484B2 (ja) * 2017-09-28 2021-08-04 日本電気株式会社 監視システム、監視装置、監視方法および監視プログラム
CN112636458A (zh) * 2019-10-08 2021-04-09 中国电力科学研究院有限公司 一种配电自动化系统运行状态监测方法和系统

Also Published As

Publication number Publication date
JP2005285040A (ja) 2005-10-13

Similar Documents

Publication Publication Date Title
JP4412031B2 (ja) ネットワーク監視システム及びその方法、プログラム
CN103081407B (zh) 故障分析装置、故障分析系统及故障分析方法
JP4667437B2 (ja) 異常トラフィック検知装置、異常トラフィック検知方法および異常トラフィック検知プログラム
US7281172B2 (en) Fault information collection program and apparatus
US20070177523A1 (en) System and method for network monitoring
US8356093B2 (en) Apparatus and system for estimating network configuration
US20110270957A1 (en) Method and system for logging trace events of a network device
JP5207082B2 (ja) コンピュータシステム、及びコンピュータシステムの監視方法
JP5201415B2 (ja) ログ情報発行装置、ログ情報発行方法およびプログラム
EP2795841B1 (en) Method and arrangement for fault analysis in a multi-layer network
Herodotou et al. Scalable near real-time failure localization of data center networks
CN112311580B (zh) 报文传输路径确定方法、装置及系统、计算机存储介质
JP2010088031A (ja) アンダーレイネットワーク障害検知方法及びネットワークシステム
JP5342082B1 (ja) ネットワーク障害解析システムおよびネットワーク障害解析プログラム
EP1703671B1 (en) Device and method for network monitoring
CN111865667A (zh) 网络连通性故障根因定位方法及装置
JP4985435B2 (ja) 監視分析装置、方法、及び、プログラム
JP4464256B2 (ja) ネットワーク上位監視装置
KR100964392B1 (ko) 망 관리에서의 장애 관리 시스템 및 그 방법
JP2014053658A (ja) 障害部位推定システムおよび障害部位推定プログラム
JP2008059114A (ja) Snmpを利用した自動ネットワーク監視システム
US8467301B2 (en) Router misconfiguration diagnosis
KR20090038123A (ko) 네트워크 관리 시스템, 방법 및 방법 프로그램을 기록한저장매체
JP2025025833A (ja) ネットワーク障害分析装置およびネットワーク障害分析方法
Gupta et al. NEWS: Towards an Early Warning System for Network Faults.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091027

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4412031

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131127

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees