[go: up one dir, main page]

JP2003067264A - Network system monitoring interval control method - Google Patents

Network system monitoring interval control method

Info

Publication number
JP2003067264A
JP2003067264A JP2001252585A JP2001252585A JP2003067264A JP 2003067264 A JP2003067264 A JP 2003067264A JP 2001252585 A JP2001252585 A JP 2001252585A JP 2001252585 A JP2001252585 A JP 2001252585A JP 2003067264 A JP2003067264 A JP 2003067264A
Authority
JP
Japan
Prior art keywords
monitoring
agent
time
network system
life
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001252585A
Other languages
Japanese (ja)
Inventor
Toshio Hirozawa
敏夫 廣澤
Nobuaki Tsuge
信昭 柘植
Katsunobu Okuda
克信 奥田
Kazunari Takenoshita
和成 竹之下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001252585A priority Critical patent/JP2003067264A/en
Publication of JP2003067264A publication Critical patent/JP2003067264A/en
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the accuracy of an active/non-active check, which is performed by a monitor system, for devices in a network system. SOLUTION: A monitor manager (MGR) in a center monitor system 4 issues an active/non-active check request to a monitor agent (AGT) 2 in each site monitor device 1 at a time when a first time passes from the latest active/non- active check monitor time and then waits a response from the AGT 2. If not receiving the response from the AGT 2 within a predetermined time, the monitor manager re-issues an active/non-active check request to the agent at a time when a second time, which may be variably set, passes.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、ネットワークシス
テムの監視間隔の制御方法に係り、特に監視対象物の生
死監視間隔をダイナミックに変更することにより生死監
視の確認精度の向上を図る監視間隔制御方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method of controlling a monitoring interval of a network system, and more particularly, to a monitoring interval control method for dynamically improving the life / death monitoring confirmation accuracy by dynamically changing the life / dead monitoring interval of a monitored object. Regarding

【0002】[0002]

【従来の技術】近年の企業内ネットワーク基盤の普及に
伴い、ネットワーク系を基本にして大型計算機システ
ム、ワークステーション、パーソナルコンピュータ群な
どのサーバ類が相互に接続され、各種業務が実行されて
いる。これに伴い、ネットワークシステムが情報インフ
ラの基盤となり、ネットワークシステムは24時間、3
65日連続して監視する必要がある。ネットワークシス
テムの監視は、監視装置がSNMP(Simple N
etwork Management Protoco
l)に基づいて、ネットワークシステム内の各サーバや
ルータなどの機器の監視を行うのが一般的である。なお
SNMPに関しては、SNMPインターネットワーク管
理に関するRFC(Request For Comm
ent)1157に開示されている。
2. Description of the Related Art With the recent widespread use of corporate network infrastructure, servers such as large-scale computer systems, workstations, and personal computers are connected to each other on the basis of a network system to perform various tasks. Along with this, the network system becomes the basis of the information infrastructure, and the network system is available 24 hours a day, 3 days a week.
It is necessary to monitor continuously for 65 days. For monitoring the network system, the monitoring device uses SNMP (Simple N
etwork Management Protocol
It is general to monitor devices such as servers and routers in the network system based on l). Regarding SNMP, RFC (Request For Comm) relating to SNMP internetwork management.
ent) 1157.

【0003】SNMPに基づいた監視装置は、ネットワ
ークシステムからの障害通知割り込み(トラップ)に付
加された障害情報MIB(Media Informa
tion Base)の内容をその監視画面に表示し、
かつ障害履歴情報としてファイル装置に格納する。さら
に監視対象物となるサーバやルータ等の生死を確認する
方法として、上記RFCに記載のように、PING(P
acket Internet Groper)を監視
サーバから発行し、その応答を確認する方法が一般的に
知られている。従って上述のネットワークシステムの管
理技術を応用すれば、ネットワークシステムとサーバシ
ステムを結合して監視することも可能である。
A monitoring device based on SNMP is provided with fault information MIB (Media Information) added to a fault notification interrupt (trap) from a network system.
display the contents of the (Action Base) on the monitoring screen,
Further, it is stored in the file device as failure history information. Further, as a method of confirming the life or death of a server, a router, or the like to be monitored, as described in the above RFC, PING (P
A method of issuing an "acket Internet Group" from a monitoring server and confirming its response is generally known. Therefore, by applying the network system management technology described above, it is possible to combine and monitor the network system and the server system.

【0004】また特開平11−96043号公報は、分
散システムにおけるセンタ監視システムを開示する。す
なわち多数の分散システムからの障害、または自動復旧
の情報に対応して、障害メッセージを監視コンソール画
面に表示し、削除コマンドで当該障害メッセージの表示
削除を実行することによって、大規模の分散システムの
状況を監視センターのコンソール画面で監視する際の表
示メッセージ数を削減してオペレータによる状況把握を
容易ならしめようとするものである。
Further, Japanese Patent Laid-Open No. 11-96043 discloses a center monitoring system in a distributed system. That is, in response to failure or automatic recovery information from a large number of distributed systems, a failure message is displayed on the monitoring console screen, and a delete command is executed to delete and display the failure message. The number of messages displayed when monitoring the situation on the console screen of the monitoring center is reduced so that the operator can easily understand the situation.

【0005】従ってネットワークの監視要員は、上記の
監視機能を有する監視装置の監視画面に表示された障害
情報やサーバのCPU利用率などの性能データを見て、
ネットワーク系やサーバ系の障害個所を判断したり、性
能監視を行っている。特に前述のPINGによる方法が
監視対象物の生死を簡単に把握する上で強力な方法であ
り、一般的に良く知られた方法である。
Therefore, the network monitoring staff looks at the performance data such as the failure information and the CPU utilization rate of the server displayed on the monitoring screen of the monitoring device having the above monitoring function,
Judges faults in network systems and server systems and monitors performance. In particular, the above-mentioned PING method is a powerful method for easily grasping the life and death of the monitored object, and is a generally well-known method.

【0006】[0006]

【発明が解決しようとする課題】上記PINGによる監
視対象の生死確認は、監視対象装置の負荷に比較的余裕
があり負荷変動が小さい場合には充分効果を発揮する。
しかし監視対象装置の負荷が比較的大きく負荷変動が大
きい場合には、監視センタからの生死確認指令に対して
監視対象物は無応答状態となることがあり、このような
場合、実際には当該監視対象物が動作しているにもかか
わらず、死状態、すなわちダウン状態と誤認識される可
能性が高くなる。特にネットワークシステムの監視業務
を外部業者に委託、すなわちアウトソーシングする場合
には、このような問題が生じ易い。ネットワークシステ
ムのアウトソーシング事業者は、通常監視センタの監視
装置からネットワークを介して複数顧客のネットワーク
システムを監視するため、監視対象物が置かれる負荷環
境は顧客側のシステムによって様々であり、上記のよう
な問題が生じる場合がある。
The above-mentioned PING confirmation of whether the monitoring target is alive or not is sufficiently effective when the load of the monitoring target device has a relatively large margin and the load fluctuation is small.
However, when the load on the monitored device is relatively large and the load fluctuation is large, the monitored object may become unresponsive to the life-and-death confirmation command from the monitoring center. Although the monitored object is operating, there is a high possibility that it will be erroneously recognized as a dead state, that is, a down state. In particular, when outsourcing the monitoring work of the network system to an external company, that is, outsourcing, such a problem is likely to occur. Since network system outsourcing companies usually monitor the network system of multiple customers via the network from the monitoring device of the monitoring center, the load environment in which the monitored object is placed varies depending on the system on the customer side. Problems may occur.

【0007】本発明の目的は、上記の問題点に対処する
ものであり、監視対象物の生死確認の精度を向上させる
ことにある。
An object of the present invention is to address the above-mentioned problems and to improve the accuracy of confirming whether a monitored object is alive or dead.

【0008】[0008]

【課題を解決するための手段】本発明は、監視側環境に
設けられた監視マネージャがネットワークシステム内の
監視対象環境のエージェントの生死を確認する監視マネ
ージャによって実行される監視方法であって、最近の生
死確認監視時刻から第1の時間間隔を経過時にエージェ
ントに生死確認要求を発行するステップと、エージェン
トからの応答を待つステップと、所定時間内にエージェ
ントからの応答がないとき、可変的に設定される第2の
時間間隔を経過時に当該エージェントに生死確認要求を
再発行するステップとを含むネットワークシステムの監
視間隔制御方法を特徴とする。
SUMMARY OF THE INVENTION The present invention is a monitoring method executed by a monitoring manager provided in an environment of a monitoring side, which is performed by a monitoring manager for confirming whether an agent in an environment to be monitored in a network system is alive or dead. When a first time interval elapses from the life-and-death confirmation monitoring time of, a step of issuing a life-and-death confirmation request to the agent, a step of waiting for a response from the agent, and a variable setting when there is no response from the agent within a predetermined time And reissuing a life-and-death confirmation request to the agent when the second time interval has elapsed, the monitoring interval control method of the network system.

【0009】[0009]

【発明の実施の形態】以下、本発明の実施形態につい
て、図面を用いて詳細に説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described in detail below with reference to the drawings.

【0010】図1は、本実施形態の稼動監視システムの
構成図である。監視システムは、監視対象のサーバセン
タ100、顧客サイト200などの情報処理システム
と、これらの情報処理システムを監視する監視センタ3
00の情報処理システムとから構成される。
FIG. 1 is a block diagram of the operation monitoring system of this embodiment. The monitoring system includes an information processing system such as a server center 100 to be monitored and a customer site 200, and a monitoring center 3 that monitors these information processing systems.
00 information processing system.

【0011】サーバセンタ100及び顧客サイト200
のシステムは、ワークステーション(WS)101、サ
ーバ102、ファイアウォール(F/W)104、ルー
タ105などの被監視装置がローカルエリアネットワー
ク(LAN)103を介してサイト監視装置1に接続さ
れる構成となっている。サイト監視装置1は、プログラ
ムとして監視エージェント(AGT)2を実装する。な
お本実施例では、監視エージェント2を独立したサイト
監視装置1に搭載しているが、一般には監視エージェン
ト2をサーバ102など他の装置に搭載しても構わな
い。
The server center 100 and the customer site 200
In this system, monitored devices such as a workstation (WS) 101, a server 102, a firewall (F / W) 104, and a router 105 are connected to a site monitoring device 1 via a local area network (LAN) 103. Has become. The site monitoring device 1 mounts a monitoring agent (AGT) 2 as a program. In this embodiment, the monitoring agent 2 is installed in the independent site monitoring device 1, but in general, the monitoring agent 2 may be installed in another device such as the server 102.

【0012】監視センタ300のシステムは、センタ監
視装置4を有する。センタ監視装置4は、LAN、ワイ
ドエリアネットワーク(WAN)などのネットワークを
介してサーバセンタ100及び顧客サイト200の情報
処理システムと接続される。センタ監視装置4は、プロ
グラムとして監視マネージャ(MGR)5を実装し、ま
たそのメモリ上に監視管理テーブル10及びエージェン
ト管理テーブル11を格納する。
The system of the monitoring center 300 has a center monitoring device 4. The center monitoring device 4 is connected to the information processing system of the server center 100 and the customer site 200 via a network such as a LAN or a wide area network (WAN). The center monitoring device 4 mounts a monitoring manager (MGR) 5 as a program, and stores a monitoring management table 10 and an agent management table 11 on its memory.

【0013】サイト監視装置1の監視エージェント2
は、ワークステーション101、サーバ102、ファイ
アウォール104、ルータ105などの情報処理装置や
ネットワーク機器に対して生死確認などの監視を行い、
その監視結果の情報を収集してログ情報ファイル3に記
録する。センタ監視装置4の監視マネージャ5は、監視
管理テーブル10及びエージェント管理テーブル11を
参照して各サイト監視装置1へ生死確認指令を送信す
る。各サイト監視装置1の監視エージェント2は、この
生死確認指令を受信すると、監視対象の各情報処理装置
やネットワーク機器の生死確認を行い、その結果を監視
マネージャ5に送信する。監視マネージャ5は、各サイ
ト監視装置1から収集した生死確認結果を監視情報デー
タベース(DB)6に格納する。
Monitoring agent 2 of site monitoring device 1
Monitors the information processing devices such as the workstation 101, the server 102, the firewall 104, and the router 105, and network devices such as life and death confirmation,
Information on the monitoring result is collected and recorded in the log information file 3. The monitoring manager 5 of the center monitoring device 4 refers to the monitoring management table 10 and the agent management table 11 to send a life / death confirmation command to each site monitoring device 1. When the monitoring agent 2 of each site monitoring device 1 receives this life-and-death confirmation command, it performs life-and-death confirmation of each information processing device or network device to be monitored, and sends the result to the monitoring manager 5. The monitoring manager 5 stores the live / dead confirmation result collected from each site monitoring device 1 in the monitoring information database (DB) 6.

【0014】監視エージェント2は、SNMPの動作規
約に基づいて監視対象の装置群の状態を監視する。監視
エージェント2がいずれかの装置の障害発生を検知する
と、監視マネージャ5に対して障害通知割込み(トラッ
プ)を発生させ、障害情報をMIB(Media In
formation Base)として監視マネージャ
5に送出する。なおトラップおよびMIBに関しては、
SNMPインターネットワーク管理に関するRFC11
57及びRFC792に記載されている。
The monitoring agent 2 monitors the state of a device group to be monitored based on the operating rules of SNMP. When the monitoring agent 2 detects the occurrence of a failure in any of the devices, it issues a failure notification interrupt (trap) to the monitoring manager 5 and sends failure information to MIB (Media In).
It is sent to the monitoring manager 5 as a formation base). Regarding the trap and MIB,
RFC 11 for SNMP internetwork management
57 and RFC792.

【0015】図2は、監視マネージャ5によって管理さ
れる監視管理テーブル10及びエージェント管理テーブ
ル11のデータ構成を示す図である。監視管理テーブル
10の監視間隔(Tn)は、エージェントに対する標準
の監視時間間隔であり、単位はms,秒,分など任意で
ある。マネージャ・リトライ回数(R)は、生死確認指
令に対して監視先のエージェントから応答がない場合
に、当該指令のリトライ回数である。エージェント数
(N)は、監視対象のエージェント数であり、エージェ
ント管理テーブル11の数である。エージェントポイン
タ(Ai)は、各エージェント対応に設けられたエージ
ェント管理テーブル11へのポインタが格納される。
FIG. 2 is a diagram showing the data structure of the monitoring management table 10 and the agent management table 11 managed by the monitoring manager 5. The monitoring interval (Tn) of the monitoring management table 10 is a standard monitoring time interval for the agent, and the unit is arbitrary such as ms, seconds, minutes. The number of manager retries (R) is the number of retries of the command when there is no response from the monitoring destination agent to the life confirmation command. The number of agents (N) is the number of agents to be monitored, and is the number in the agent management table 11. The agent pointer (Ai) stores a pointer to the agent management table 11 provided for each agent.

【0016】各エージェント管理テーブル11のエージ
ェント・タイプ(TPE)は、0又は1の値が設定され
る。 TPEが‘0’のときには、監視時間間隔として
監視管理テーブル10の監視間隔(Tn)が使用され、
TPEが‘1’のときには、エージェント管理テーブル
11の一定監視間隔値(TA)又は可変監視間隔(T
V)の値が使用される。監視間隔タイプ(TM)は、0
又は1の値が設定される。生死監視をリトライすると
き、TMが‘0’のときには、監視時間間隔としてTP
Eの値に従ってTn又はTAの値が使用され、TMが
‘1’のときには、TVの値が使用される。TPEが
‘0’のとき、TMが‘0’でなければならない。レン
ジ(TR)は、TVが使用されるとき発生させる乱数の
範囲を設定する。応答待ち時間(TW)は、監視マネー
ジャ5が監視エージェント2に生死確認指令を発行して
から応答を待つ時間である。最終確認時刻(TL)は、
最後に生死確認をした時刻を格納する。TLの初期値は
0である。
The agent type (TPE) of each agent management table 11 is set to a value of 0 or 1. When TPE is '0', the monitoring interval (Tn) of the monitoring management table 10 is used as the monitoring time interval,
When TPE is “1”, the constant monitoring interval value (TA) or the variable monitoring interval (T) of the agent management table 11 is used.
The value of V) is used. Monitoring interval type (TM) is 0
Alternatively, a value of 1 is set. When retrying life-or-death monitoring, when TM is "0", TP is set as the monitoring time interval.
The value of Tn or TA is used according to the value of E, and when TM is '1', the value of TV is used. When TPE is '0', TM must be '0'. Range (TR) sets the range of random numbers generated when the TV is used. The response waiting time (TW) is a time period during which the monitoring manager 5 waits for a response after issuing the life confirmation instruction to the monitoring agent 2. The final confirmation time (TL) is
The time of the last confirmation of life and death is stored. The initial value of TL is 0.

【0017】監視エージェント2及び監視対象がその負
荷に比較的余裕があり負荷変動の小さい装置に搭載され
る場合には、監視時間間隔としてTn又はTAを使用す
れば充分である。また監視エージェント2及び監視対象
が負荷に余裕が少なく負荷変動の大きい装置に搭載され
ている場合には、TVを使用することによって監視エー
ジェント2又はサイト監視装置1が死状態と誤認識され
るケースを削減できる。
When the monitoring agent 2 and the monitored object are mounted on a device having a relatively large load and a small load fluctuation, it is sufficient to use Tn or TA as the monitoring time interval. Further, when the monitoring agent 2 and the monitoring target are installed in a device with a small load and large load fluctuation, the case where the monitoring agent 2 or the site monitoring device 1 is erroneously recognized as a dead state by using a TV Can be reduced.

【0018】図3は、監視マネージャ5の監視処理の流
れを示すフローチャートである。監視マネージャ5は、
監視対象の監視エージェント2について、監視管理テー
ブル10のエージェントポインタ(Ai)が指すエージ
ェント管理テーブル11のエージェント・タイプ(TP
E)の値を判定する(ステップ31)。 TPEが
‘0’であれば、監視間隔(Tn)をメモリの作業領域
の監視間隔(Tc)に移動する(ステップ32)。 T
PEが‘1’であれば、一定監視間隔(TA)をTcに
移動する(ステップ33)。
FIG. 3 is a flow chart showing the flow of the monitoring process of the monitoring manager 5. The monitoring manager 5
For the monitoring agent 2 to be monitored, the agent type (TP) of the agent management table 11 pointed to by the agent pointer (Ai) of the monitoring management table 10.
The value of E) is determined (step 31). If TPE is "0", the monitoring interval (Tn) is moved to the monitoring interval (Tc) of the work area of the memory (step 32). T
If PE is '1', the constant monitoring interval (TA) is moved to Tc (step 33).

【0019】次に監視マネージャ5は、生死確認時刻に
なったか否かを判定する(ステップ34)。最終確認時
刻(TL)が0ならば生死確認時刻である。TLが0で
なければ、現在時刻≧TL+Tcであれば生死確認時刻
である。監視間隔タイプ(TM)として‘1’、すなわ
ち可変監視間隔(TV)が選択される場合にも、1回目
の生死確認指令については監視間隔を可変にする必要が
ないので、本実施形態では一定監視間隔(TA)を適用
している。生死確認時刻でなければ、ステップ40へ行
く。生死確認時刻であれば、当該監視エージェント2に
対して生死確認指令を発行する(ステップ35)。次に
応答待ち時間(TW)だけ応答待ちをする(ステップ3
6)。
Next, the monitoring manager 5 determines whether it is the life confirmation time (step 34). If the final confirmation time (TL) is 0, it is the life and death confirmation time. If TL is not 0, it is the life-and-death confirmation time if the current time ≧ TL + Tc. Even when "1" is selected as the monitoring interval type (TM), that is, when the variable monitoring interval (TV) is selected, the monitoring interval does not need to be variable for the first life-or-death confirmation command, and therefore, it is constant in this embodiment. The monitoring interval (TA) is applied. If it is not the life confirmation time, go to step 40. If it is the life-and-death confirmation time, a life-and-death confirmation command is issued to the monitoring agent 2 (step 35). Next, wait for a response for the response waiting time (TW) (step 3).
6).

【0020】待ち時間内に応答があれば(ステップ37
YES)、監視マネージャ5は、現在時刻を最終確認時
刻(TL)に格納し(ステップ38)、応答に従って監
視対象の生死確認結果を監視情報DB6に格納する(ス
テップ39)。例えば監視対象装置のIPアドレスとM
IBを格納する。次に次の順番の監視エージェント2を
選択し(ステップ40)、ステップ31に戻る。
If there is a response within the waiting time (step 37)
(YES), the monitoring manager 5 stores the current time at the final confirmation time (TL) (step 38), and stores the live / dead confirmation result of the monitoring target in the monitoring information DB 6 according to the response (step 39). For example, the IP address of the monitored device and M
Store the IB. Next, the monitoring agent 2 in the next order is selected (step 40) and the process returns to step 31.

【0021】待ち時間内に応答がなければ(ステップ3
7NO)、監視マネージャ5は、作業領域上のリトライ
回数がマネージャ・リトライ回数(R)に達したか否か
を判定する(ステップ41)。リトライ回数(R)に達
していなければ、監視間隔タイプ(TM)が‘0’か否
かを判定する(ステップ42)。TMが‘0’であれ
ば、監視間隔(Tc)の値の時間だけ待ち(ステップ4
3)、メモリの作業領域上のリトライ回数に1を加えて
ステップ35に戻る。TMが‘1’であれば、図4に示
す処理ルーチンに従って可変監視間隔(TV)の値を計
算し(ステップ44)、TVの値の時間だけ待ち(ステ
ップ45)、作業領域上のリトライ回数に1を加えてス
テップ35に戻る。作業領域上のリトライ回数がマネー
ジャ・リトライ回数(R)に達したとき(ステップ41
YES)、対象物が障害状態の旨を監視情報DB6に格
納し、表示画面にエラー表示し(ステップ46)、ステ
ップ40へ行く。
If there is no response within the waiting time (step 3
7 NO), the monitoring manager 5 determines whether or not the number of retries on the work area has reached the number of manager retries (R) (step 41). If the number of retries (R) has not been reached, it is determined whether the monitoring interval type (TM) is "0" (step 42). If TM is '0', wait for the value of the monitoring interval (Tc) (step 4
3), 1 is added to the number of retries on the work area of the memory, and the process returns to step 35. If TM is "1", the value of the variable monitoring interval (TV) is calculated according to the processing routine shown in FIG. 4 (step 44), and the value of the TV is waited for (step 45). 1 is added to and the process returns to step 35. When the number of retries on the work area reaches the number of manager retries (R) (step 41)
YES), the fact that the target object is in the failure state is stored in the monitoring information DB 6, an error is displayed on the display screen (step 46), and the process goes to step 40.

【0022】図4は、可変監視間隔(TV)の値計算の
一例として、一様乱数を計算する処理手順を示す図であ
る。監視マネージャ5は、現在時刻タイマー値の下位8
ビットを取得しその値を作業領域WKに置く(ステップ
51)。次に0〜(TR−1)の範囲の乱数値を算出す
る(ステップ52)。具体的には、WKの値に素数を掛
けてWK1とし、WK1の値をTRで割ってその商にT
Rを掛けたものをWK1から引いてWK2とする。WK
2はTRを法とするWK1のモジュロである。次にWK
2の値を可変監視間隔(TV)に設定する(ステップ5
3)。
FIG. 4 is a diagram showing a processing procedure for calculating uniform random numbers as an example of calculating the value of the variable monitoring interval (TV). The monitoring manager 5 is the lower 8 of the current time timer value.
The bit is acquired and its value is placed in the work area WK (step 51). Next, a random number value in the range of 0 to (TR-1) is calculated (step 52). Specifically, the value of WK is multiplied by a prime number to obtain WK1, and the value of WK1 is divided by TR to obtain T as the quotient.
The product of R is subtracted from WK1 to obtain WK2. WK
2 is the modulo of WK1 modulo TR. Next WK
Set the value of 2 to the variable monitoring interval (TV) (step 5)
3).

【0023】なお以上、監視マネージャ5の処理を中心
とした処理動作について説明したが、監視エージェント
2は、監視マネージャ5に対してはエージェントの役割
を果たす一方で、監視対象の装置をエージェントとして
監視マネージャ5の役割を果たすように動作する。この
ような監視エージェント2の監視マネージャ5部分につ
いて、上記の監視管理テーブル10、エージェント管理
テーブル11及び監視マネージャ5の処理手順が同様に
適用できる。
Although the processing operation centering on the processing of the monitoring manager 5 has been described above, the monitoring agent 2 plays the role of an agent for the monitoring manager 5, while monitoring the device to be monitored as an agent. Operates to play the role of manager 5. The processing procedures of the monitoring management table 10, the agent management table 11, and the monitoring manager 5 described above can be similarly applied to the monitoring manager 5 portion of the monitoring agent 2.

【0024】以上述べたように本実施形態によれば、監
視エージェント2及び監視対象の負荷が変動する場合
に、可変監視間隔(TV)を使用することによって監視
エージェント2及び監視対象に対する生死確認時刻を負
荷の増大時からずらすことが可能であり、よって監視エ
ージェント2の無応答状態を削減し、もって生死確認の
誤認識を削減することが可能であり、監視対象の生死確
認監視の精度を向上させることが可能である。
As described above, according to the present embodiment, when the load of the monitoring agent 2 and the monitoring target varies, the life and death confirmation time for the monitoring agent 2 and the monitoring target is used by using the variable monitoring interval (TV). Can be shifted from the time when the load increases, so that the non-response state of the monitoring agent 2 can be reduced, and false recognition of life and death confirmation can be reduced, and the accuracy of life and death confirmation monitoring of the monitoring target can be improved. It is possible to

【0025】[0025]

【発明の効果】以上述べたように本発明によれば、監視
マネージャは、生死確認指令のリトライ時に可変の監視
時間間隔を用いることによって監視対象物が高負荷とな
る時点を避けるように生死確認指令を発行することがで
き、監視対象物の生死確認の精度を向上させることがで
きる。
As described above, according to the present invention, the monitoring manager uses the variable monitoring time interval at the time of retry of the life confirmation command so as to confirm the life and death so as to avoid the time point when the monitored object has a high load. It is possible to issue a command, and it is possible to improve the accuracy of confirming whether the monitored object is alive or dead.

【図面の簡単な説明】[Brief description of drawings]

【図1】実施形態の稼動監視システムの構成図である。FIG. 1 is a configuration diagram of an operation monitoring system according to an embodiment.

【図2】実施形態の監視管理テーブル10及びエージェ
ント管理テーブル11のデータ構成を示す図である。
FIG. 2 is a diagram showing a data configuration of a monitoring management table 10 and an agent management table 11 of the embodiment.

【図3】実施形態の監視マネージャ5の監視処理の流れ
を示すフローチャートである。
FIG. 3 is a flowchart showing a flow of monitoring processing of a monitoring manager 5 according to the embodiment.

【図4】可変監視間隔(TV)の値計算の一例として、
一様乱数を計算する処理手順を示す図である。
FIG. 4 shows an example of calculating the value of a variable monitoring interval (TV).
It is a figure which shows the process sequence which calculates a uniform random number.

【符号の説明】[Explanation of symbols]

1:サイト監視装置、2:監視エージェント、4:セン
タ監視装置、5:監視マネージャ、10:監視管理テー
ブル、11:エージェント管理テーブル
1: Site monitoring device, 2: Monitoring agent, 4: Center monitoring device, 5: Monitoring manager, 10: Monitoring management table, 11: Agent management table

フロントページの続き (72)発明者 奥田 克信 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所情報サービス事業部内 (72)発明者 竹之下 和成 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所情報サービス事業部内 Fターム(参考) 5B089 GA11 GA21 GA31 GB02 JA35 JB14 KA12 KA13 KB04 MC06 5K030 HC01 HC14 HD03 HD06 JA10 LA08 MA01 Continued front page    (72) Inventor Katsunobu Okuda             890 Kashimada, Sachi-ku, Kawasaki City, Kanagawa Stock             Company Information Service Division, Hitachi, Ltd. (72) Inventor Kazunari Takenoshita             890 Kashimada, Sachi-ku, Kawasaki City, Kanagawa Stock             Company Information Service Division, Hitachi, Ltd. F-term (reference) 5B089 GA11 GA21 GA31 GB02 JA35                       JB14 KA12 KA13 KB04 MC06                 5K030 HC01 HC14 HD03 HD06 JA10                       LA08 MA01

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】監視側環境に設けられた監視マネージャが
ネットワークシステム内の監視対象環境のエージェント
の生死を確認する前記監視マネージャによって実行され
る監視方法であって、 最近の生死確認監視時刻から第1の時間間隔を経過時に
前記エージェントに生死確認要求を発行するステップ
と、前記エージェントからの応答を待つステップと、所
定時間内に前記エージェントからの応答がないとき、可
変的に設定される第2の時間間隔を経過時に前記エージ
ェントに生死確認要求を再発行するステップとを含むこ
とを特徴とするネットワークシステムの監視間隔制御方
法。
1. A monitoring method executed by a monitoring manager provided in a monitoring environment, wherein the monitoring manager confirms whether an agent in a monitored environment in a network system is alive or dead. A step of issuing a life-and-death confirmation request to the agent when a time interval of 1 has elapsed, a step of waiting for a response from the agent, and a variably set second time when there is no response from the agent within a predetermined time. Re-issuing a life-and-death confirmation request to the agent when the time interval of is passed, the monitoring interval control method of the network system.
【請求項2】前記第1の時間間隔は、あらかじめ設定さ
れた一定時間であることを特徴とする請求項1記載のネ
ットワークシステムの監視間隔制御方法。
2. The method according to claim 1, wherein the first time interval is a preset constant time.
【請求項3】前記第2の時間間隔は、算出された乱数値
であることを特徴とする請求項1記載のネットワークシ
ステムの監視間隔制御方法。
3. The method according to claim 1, wherein the second time interval is a calculated random value.
【請求項4】前記監視マネージャが監視する複数の前記
エージェントのうち、一部のエージェントについて前記
第2の時間間隔の代わりに前記第1の時間間隔を適用す
ることを特徴とする請求項1記載のネットワークシステ
ムの監視間隔制御方法。
4. The first time interval is applied instead of the second time interval for some of the plurality of agents monitored by the monitoring manager. Method for controlling monitoring interval of network system.
【請求項5】前記エージェントは、さらに下位の監視対
象のエージェントの生死確認をするとき、前記監視マネ
ージャによる前記ステップの各々を実行することを特徴
とする請求項1記載のネットワークシステムの監視間隔
制御方法。
5. The monitoring interval control of a network system according to claim 1, wherein said agent executes each of said steps by said monitoring manager when confirming the life or death of an agent to be monitored further lower. Method.
JP2001252585A 2001-08-23 2001-08-23 Network system monitoring interval control method Pending JP2003067264A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001252585A JP2003067264A (en) 2001-08-23 2001-08-23 Network system monitoring interval control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001252585A JP2003067264A (en) 2001-08-23 2001-08-23 Network system monitoring interval control method

Publications (1)

Publication Number Publication Date
JP2003067264A true JP2003067264A (en) 2003-03-07

Family

ID=19081034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001252585A Pending JP2003067264A (en) 2001-08-23 2001-08-23 Network system monitoring interval control method

Country Status (1)

Country Link
JP (1) JP2003067264A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007005905A (en) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp Monitoring target terminal device, monitoring program, monitoring system, and monitoring method
JP2009501371A (en) * 2005-07-13 2009-01-15 トムソン ライセンシング Method for detecting device activity in a network of distributed stations and network station for carrying out this method
JP2012015762A (en) * 2010-06-30 2012-01-19 Hitachi Systems Ltd Agent implementation scheme in remote monitoring system
JP2013544408A (en) * 2010-11-17 2013-12-12 アルカテル−ルーセント Method and system for client recovery strategy in redundant server configurations
JP2014529828A (en) * 2011-09-02 2014-11-13 トレーディング テクノロジーズ インターナショナル インコーポレイテッド Message stream integrity
US11425207B2 (en) 2018-08-27 2022-08-23 Mitsubishi Electric Corporation Receiving device estimating that a communication device is in an incommunicable state

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007005905A (en) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp Monitoring target terminal device, monitoring program, monitoring system, and monitoring method
JP2009501371A (en) * 2005-07-13 2009-01-15 トムソン ライセンシング Method for detecting device activity in a network of distributed stations and network station for carrying out this method
JP4898804B2 (en) * 2005-07-13 2012-03-21 トムソン ライセンシング Method for detecting device activity in a network of distributed stations and network station for carrying out this method
US8335818B2 (en) 2005-07-13 2012-12-18 Thomson Licensing Method for detection of the activity of a device in a network of distributed stations, as well as a network station for carrying out the method
JP2012015762A (en) * 2010-06-30 2012-01-19 Hitachi Systems Ltd Agent implementation scheme in remote monitoring system
JP2013544408A (en) * 2010-11-17 2013-12-12 アルカテル−ルーセント Method and system for client recovery strategy in redundant server configurations
JP2014529828A (en) * 2011-09-02 2014-11-13 トレーディング テクノロジーズ インターナショナル インコーポレイテッド Message stream integrity
US9154393B2 (en) 2011-09-02 2015-10-06 Trading Technologies International, Inc. Order feed message stream integrity
US10152751B2 (en) 2011-09-02 2018-12-11 Trading Technologies International, Inc. Order feed message stream integrity
US10311518B2 (en) 2011-09-02 2019-06-04 Trading Technologies International, Inc. Order feed message stream integrity
US11425207B2 (en) 2018-08-27 2022-08-23 Mitsubishi Electric Corporation Receiving device estimating that a communication device is in an incommunicable state

Similar Documents

Publication Publication Date Title
US6279001B1 (en) Web service
US7581006B1 (en) Web service
US6317786B1 (en) Web service
US7017082B1 (en) Method and system for a process manager
US8010840B2 (en) Generation of problem tickets for a computer system
US6314463B1 (en) Method and system for measuring queue length and delay
JP3765138B2 (en) Improved network management system with node discovery and monitoring
US7630313B2 (en) Scheduled determination of network resource availability
US7076696B1 (en) Providing failover assurance in a device
US10198338B2 (en) System and method of generating data center alarms for missing events
US7581003B2 (en) System and method for automatic recovery from fault conditions in networked computer services
US20040243709A1 (en) System and method for cluster-sensitive sticky load balancing
US5781737A (en) System for processing requests for notice of events
WO2009021318A1 (en) Cache expiry in multiple-server environment
JP2016536920A (en) Apparatus and method for network performance monitoring
WO2007073429A2 (en) Distributed and replicated sessions on computing grids
US9485156B2 (en) Method and system for generic application liveliness monitoring for business resiliency
US20060072707A1 (en) Method and apparatus for determining impact of faults on network service
JP2003067264A (en) Network system monitoring interval control method
JP2004206634A (en) Monitoring method, operation monitoring device, monitoring system, and computer program
JP4515262B2 (en) A method for dynamically switching fault tolerance schemes
US7769844B2 (en) Peer protocol status query in clustered computer system
JP2002215424A (en) Operation monitoring data filtering method
JP6015056B2 (en) Network management system, network management method, network monitoring system, and network management program
JP4110129B2 (en) Computer system control method, computer system, and control program