JP2000250833A - Operating information acquisition method in multiple server operation management and recording medium recording the program - Google Patents
Operating information acquisition method in multiple server operation management and recording medium recording the programInfo
- Publication number
- JP2000250833A JP2000250833A JP11049422A JP4942299A JP2000250833A JP 2000250833 A JP2000250833 A JP 2000250833A JP 11049422 A JP11049422 A JP 11049422A JP 4942299 A JP4942299 A JP 4942299A JP 2000250833 A JP2000250833 A JP 2000250833A
- Authority
- JP
- Japan
- Prior art keywords
- management
- server
- server computer
- log data
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000012545 processing Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 abstract description 31
- 238000001914 filtration Methods 0.000 abstract description 11
- 238000004891 communication Methods 0.000 abstract description 10
- 238000012790 confirmation Methods 0.000 abstract description 4
- 238000007726 management method Methods 0.000 description 95
- 238000012544 monitoring process Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 102100036738 Guanine nucleotide-binding protein subunit alpha-11 Human genes 0.000 description 1
- 101100283445 Homo sapiens GNA11 gene Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
Abstract
(57)【要約】
【課題】サーバ毎に運用管理者を配置する場合と同じ程
度のきめ細かい管理を行うことと、ネットワークや管理
サーバの負荷を軽減して、運用管理の効率向上と信頼性
の大幅な向上を図る。
【解決手段】複数サーバの集中管理システムにおいて、
ログデータの種類を特定する管理項目を当該のサーバ2
0,30,40に持たせ、エージェントモジュール2
0,30,40でセルフ確認できるようにし、またフィ
ルタリング機構22,32,42の照合により必要な情
報のみ通信機構23,33,43から管理サーバ10に
送信する。管理サーバ10は、定義された管理項目とそ
の条件とを管理対象サーバ20,30,40に配布する
と同時に、当該管理項目に該当するログデータを取得
し、対象サーバ識別子とともに記憶装置110に格納す
る。
(57) [Summary] [Problem] To improve the efficiency and reliability of operation management by performing the same fine-grained management as in the case where an operation manager is assigned to each server, and by reducing the load on the network and the management server. Significant improvement. In a centralized management system of a plurality of servers,
The management item for specifying the type of log data is set in the
0, 30, 40, agent module 2
Self-confirmation is made at 0, 30, and 40, and only necessary information is transmitted from the communication mechanisms 23, 33, and 43 to the management server 10 by collation of the filtering mechanisms 22, 32, and 42. The management server 10 distributes the defined management items and their conditions to the managed servers 20, 30, and 40, acquires log data corresponding to the managed items, and stores the log data in the storage device 110 together with the target server identifier. .
Description
【0001】[0001]
【発明の属する技術分野】本発明は、複数のサーバコン
ピュータの運用を一元的に管理する方法に係り、特にサ
ーバ毎に管理項目を持たせて、あたかもサーバ毎に運用
管理者がいるようなきめの細かな管理ができる,複数サ
ーバ運用管理における稼動情報取得方法、およびそのプ
ログラムを記録した記録媒体に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for centrally managing the operation of a plurality of server computers. In particular, the present invention relates to a method in which a management item is provided for each server and an operation manager is provided for each server. The present invention relates to a method for acquiring operation information in a multiple server operation management, and a recording medium on which the program is recorded.
【0002】[0002]
【従来の技術】最近は、情報処理システムのダウンサイ
ジング化・オープン化等の進展で、企業情報システムを
クライアント/サーバ型システム(以下、C/S型シス
テムと略記する)で構築する場合が増えている。これに
伴い、分散したシステムの運用管理が重要課題となって
きた。一方、システムの運用管理を集中管理するソフト
ウエア技術は、既に実用化されている。この種の従来技
術に関しては、例えば、「情報処理学会研究報告98−
DSM−10」に掲載されたものが知られている。この
技術について、以下に説明する。このシステムの全体構
成は、管理対象になる複数のサーバコンピュータ(以
下、サーバと略記する)とこれら複数のサーバと通信回
線で結ばれた監視用サーバで構成されている。管理対象
であるサーバ群は、エージェントと呼ばれるモジュール
で監視データを集める機能と、後述するマネージャと通
信する機能を持っている。管理用サーバは、マネージャ
と呼ばれるモジュールでエージェントとの通信により、
エージェントからのデータを集約する機能を持ってい
る。エージェントでは、当該サーバで発生した障害情報
や構成情報(例えば、CPUの型式,I/Oの構成
等)、稼働のロギング情報などのデータを採取し、マネ
ージャに送信している。また、マネージャは、エージェ
ントからのデータ以外にそのサーバの生死確認をPIN
Gコマンド(Packet Internet Groper:インターネット
などのTIP/IPネットワークで、相手のコンピュータに小
さなパケットデータを送り、その戻り時間により相手先
コンピュータや通信回線の状況をチェックするのに利用
するコマンド)を用いて一定のインターバルで実行して
いる。2. Description of the Related Art Recently, with the progress of downsizing and openness of information processing systems, the number of cases in which a corporate information system is constructed by a client / server type system (hereinafter abbreviated as C / S type system) has increased. ing. Along with this, operation management of distributed systems has become an important issue. On the other hand, software technology for centrally managing system operation management has already been put to practical use. Regarding this kind of conventional technology, for example, see “Information Processing Society of Japan 98-
DSM-10 "is known. This technique will be described below. The overall configuration of this system includes a plurality of server computers (hereinafter, abbreviated as servers) to be managed and a monitoring server connected to the plurality of servers via a communication line. The group of servers to be managed has a function of collecting monitoring data using a module called an agent, and a function of communicating with a manager described later. The management server communicates with agents using a module called a manager,
Has a function to aggregate data from agents. The agent collects data such as fault information and configuration information (for example, CPU type, I / O configuration, etc.) that has occurred in the server, and operation logging information, and transmits the data to the manager. In addition, the manager confirms whether the server is alive or dead in addition to the data from the agent by PIN.
Using the G command (Packet Internet Groper: a command used to send small packet data to the other computer over a TIP / IP network such as the Internet and use the return time to check the status of the other computer or communication line) Running at regular intervals.
【0003】従来における装置等の集中管理方式として
は、例えば特開平9−167126号公報に記載された
ネットワーク管理システムがある。これは、障害が発生
したときに、どのクライアントで障害が発生し、何が原
因しているかを突き止めるため、サーバにLAN/WA
Nネットワーク上のクライアント上で実行されるアプリ
ケーションの識別子を登録し、その識別子を各クライア
ントに登録し、さらにログの取得を行う方式である。し
かし、この方式では、全ての情報を管理サーバに収集す
るので、トラヒック過多になる。As a conventional centralized management method for devices and the like, there is, for example, a network management system described in JP-A-9-167126. This is because when a failure occurs, the server can determine which client has failed and what is the cause of the failure.
In this method, an identifier of an application executed on a client on the N network is registered, the identifier is registered in each client, and a log is obtained. However, in this method, all information is collected in the management server, resulting in excessive traffic.
【0004】[0004]
【発明が解決しようとする課題】(a)従来の集中監視
システムは、稼働しているサーバのOS(Operat
ing System),AP(Aplication
Program)が発行するロギング情報等をネット
ワークを利用して管理サーバに集約しているが、きめ細
かい運用管理を行うためには大量の(全ての)情報を管
理サーバに収集するのでトラヒック過多となり、その情
報の加工工数が増大し、回線障害等が発生するという問
題があった。 (b)また、PINGコマンドでは、サーバの物理的生
死の確認は可能であるが、サービスしているAPの生死
の確認はできないという問題もある。 (c)サービスAPが生きていても、APで使用するD
B(Data Base)等のファイル容量の空き状態
の確認手段を管理対象サーバが有していないという問題
もある。 (d)管理対象サーバがそれぞれ業務の異なる運用をす
る場合には、業務毎に管理作業と監視作業が必要となる
ため、管理および監視用PC・端末が業務毎に必要と
なること、サーバの台数が多く、かつ監視端末が分散
設置されているため、人手では管理が困難であること、
集中管理ができる市販製品があるが、業務毎に異なる
管理項目を集中して(一元)管理することはできないこ
と、トラヒック過多のために、障害の検知が遅くなる
おそれがあること、等の各問題がある。(A) The conventional centralized monitoring system uses an OS (Operat) of an operating server.
ing System), AP (Application)
(Program) is aggregated in the management server using a network, but in order to perform detailed operation management, a large amount (all) of information is collected in the management server, resulting in excessive traffic. There has been a problem that the number of processing steps for information increases and a line failure or the like occurs. (B) In addition, although the PING command can confirm the physical life of the server, there is also a problem that the life of the serving AP cannot be confirmed. (C) Even if the service AP is alive, D used by the AP
There is also a problem that the managed server does not have a means for checking the free space of the file capacity such as B (Data Base). (D) When the managed servers operate in different tasks, management and monitoring are required for each task. Therefore, a management and monitoring PC / terminal is required for each task. Due to the large number and the distributed monitoring terminals, it is difficult to manage manually,
There are commercially available products that can be centrally managed, but it is not possible to centrally (integrally) manage different management items for each task, and there is a risk that fault detection may be delayed due to excessive traffic. There's a problem.
【0005】そこで、本発明の目的は、上記従来技術の
問題点を解決し、管理対象の複数サーバに対して、あた
かもサーバ毎に運用管理者が存在するようなきめの細か
な管理ができ、かつネットワークや管理サーバの負荷を
少なくし、障害通知情報の収集ができ、運用管理の効率
化と信頼性の向上が可能な複数サーバ運用管理における
稼動情報取得方法及びそのプログラムを記録した記録媒
体を提供することにある。Accordingly, an object of the present invention is to solve the above-mentioned problems of the prior art, and to perform a fine-grained management of a plurality of servers to be managed as if an operation manager exists for each server. In addition, a method for acquiring operation information in a multi-server operation management capable of reducing the load on a network or a management server, collecting failure notification information, and improving the efficiency and reliability of operation management, and a recording medium storing the program are provided. To provide.
【0006】[0006]
【課題を解決するための手段】上記目的を達成するた
め、本発明による複数サーバ運用管理における稼働情報
取得方法では、複数の管理対象サーバ毎に管理している
ログデータの中で、必要なデータのみを効率的に管理サ
ーバに送信するようにしている。すなわち、第1番目と
して、複数のクライアントコンピュータがサーバコンピ
ュータに接続されたクライアント/サーバシステムと、
複数のクライアント/サーバシステムのサーバコンピュ
ータに接続された管理サーバコンピュータとから構成さ
れるシステムの複数サーバ運用管理における稼働情報取
得方法であって、前記管理サーバコンピュータは、前記
サーバコンピュータで取得するログデータの種類を特定
する管理項目と該管理項目の条件とを、該サーバコンピ
ュータの識別子に対応させて定義するステップと、定義
された管理項目と該管理項目の条件とを前記管理サーバ
コンピュータから該当する前記サーバコンピュータに各
々配布するステップとを有し、複数の管理対象である前
記サーバコンピュータは、該サーバコンピュータの稼動
時に、前記配布された管理項目に該当するログデータを
取得するステップと、取得したログデータを格納するス
テップと、取得したログデータが前記管理項目の条件を
満たすか否かによって、前記管理サーバコンピュータに
対して、取得したログデータを自身のサーバコンピュー
タの識別子と共に送信するステップとを有することを特
徴としている。In order to achieve the above-mentioned object, in the operation information acquisition method in the multiple server operation management according to the present invention, necessary data among log data managed for each of a plurality of managed servers is provided. Only to the management server efficiently. That is, first, a client / server system in which a plurality of client computers are connected to a server computer,
An operation information acquisition method in a multiple server operation management of a system including a management server computer connected to a server computer of a plurality of client / server systems, wherein the management server computer includes log data acquired by the server computer. Defining a management item for specifying the type of the management item and the condition of the management item in association with the identifier of the server computer, and the defined management item and the condition of the management item correspond from the management server computer. Distributing to each of the server computers, wherein the plurality of managed server computers acquire log data corresponding to the distributed management items when the server computers operate, The step of storing log data and the acquired Transmitting the acquired log data to the management server computer together with the identifier of its own server computer depending on whether or not the log data satisfies the condition of the management item.
【0007】第2番目として、複数サーバ運用管理にお
ける稼働情報取得方法を実現するためのプログラムを記
録した記録媒体であって、サーバコンピュータで取得す
るログデータの種類を特定する管理項目と該管理項目の
条件とを、該サーバコンピュータの識別子と対応させて
定義する処理と、定義された管理項目と該管理項目の条
件とを前記管理サーバコンピュータから該当する前記サ
ーバコンピュータに各々配布する処理を、管理サーバコ
ンピュータで行ない、前記サーバコンピュータの稼動時
に、前記配布された管理項目に該当するログデータを取
得する処理と、取得したログデータを格納する処理と、
取得したログデータが前記管理項目の条件を満たすか満
たさないかによって、前記管理サーバコンピュータに対
して、取得したログデータを自身のサーバコンピュータ
の識別子と共に送信する処理を、前記サーバコンピュー
タで行うプログラムを記録することを特徴とする。Second, a storage medium storing a program for realizing a method for obtaining operation information in the operation management of a plurality of servers, wherein a management item for specifying a type of log data to be obtained by a server computer and the management item And a process of distributing the defined management items and the conditions of the management items from the management server computer to the corresponding server computers, respectively. Performed by a server computer, when the server computer is operating, a process of acquiring log data corresponding to the distributed management item, a process of storing the acquired log data,
A program that causes the server computer to transmit the acquired log data to the management server computer together with its own server computer identifier depending on whether the acquired log data satisfies or does not satisfy the condition of the management item. It is characterized by recording.
【0008】[0008]
【発明の実施の形態】以下、本発明の実施例を、図面に
より詳細に説明する。図1は、本発明の一実施例を示す
複数サーバ集中管理システムのブロック図である。図1
に於いて、10はクライアント/サーバ型システムに接
続してこれを管理する管理サーバ、20〜40は管理対
象となるサーバ(A)、(B),(C)、50〜70は
管理サーバ10と管理対象サーバ(A)20,(B)3
0,(C)40を結ぶ通信回線である。管理サーバ10
は外部記憶装置110を持っており、これと同様に管理
対象サーバ20、30、40もそれぞれ外部記憶装置1
20、130、140を持っている。また、80,90
は管理対象サーバ20に接続されたクライアントコンピ
ュータである。管理対象サーバ30,40にもクライア
ントコンピュータが複数台接続されているが、ここでは
図示省略している。管理サーバ10は、管理項目登録・
配布機構11、受信データ蓄積機構12、通信機構13
を有している。管理項目登録・配布機構11は、管理対
象サーバ名(例えば管理対象サーバ20、名称サーバ
(A))とそのサーバ(A)の管理項目をサーバ(A)
20を介して外部記憶装置120に登録する、併せて管
理対象サーバ20の当該サーバ(A)に登録情報のコピ
ーを配布する。この後、管理サーバ10は、自分の外部
記憶装置110にも前記サーバ(A)の管理項目を格納
するとともに、管理対象サーバ20〜40からその後に
送信された障害等の稼働情報を格納する。Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a block diagram of a multiple server centralized management system according to an embodiment of the present invention. FIG.
In the figure, reference numeral 10 denotes a management server which connects to and manages a client / server type system; 20 to 40, servers (A), (B), (C) to be managed; and 50 to 70, management servers 10 And managed servers (A) 20, (B) 3
0, (C) 40. Management server 10
Has an external storage device 110, and similarly, the managed servers 20, 30, and 40 each have an external storage device 1
It has 20, 130, 140. Also, 80, 90
Is a client computer connected to the managed server 20. Although a plurality of client computers are also connected to the managed servers 30, 40, they are not shown here. The management server 10 registers management items
Distribution mechanism 11, received data storage mechanism 12, communication mechanism 13
have. The management item registration / distribution mechanism 11 stores the management target server name (for example, the management target server 20, the name server (A)) and the management items of the server (A) in the server (A).
In addition, a copy of the registration information is distributed to the server (A) of the managed server 20, which is registered in the external storage device 120 via the management server 20. Thereafter, the management server 10 stores the management items of the server (A) in its own external storage device 110 and also stores operation information such as failures transmitted from the managed servers 20 to 40 thereafter.
【0009】管理対象サーバ20〜40は、監視情報取
得機構21、31、41と、フィルタリング機構22、
32、42と、通信機構23、33、43を有してい
る。監視情報取得機構21〜41は、当該サーバ(たと
えば(A))に登録されている(管理サーバ10から配
布された)管理項目、例えば状態確認のための生死を確
認する重要AP名、応答状態を確認するためのAPから
の応答が正しいか、APで使用しているファイル容量の
しきい値、性能維持のしきい値、及びOSやAPが発行
するロギング情報を一定間隔で監視し、その情報をフィ
ルタリング機構(22〜42)に渡す機能をもつ。フィ
ルタリング機構22〜42は、管理項目のしきい値や障
害通知が登録されている管理項目と一致しているか否か
を照合し、一致している場合、例えばファイル容量の空
き状態がしきい値を越えた時に、通信機構23〜43に
依頼して、この旨を管理サーバ10に送信してもらう。
外部記憶装置120〜140は、当該サーバに配布され
てきた管理項目の格納に使用される。The managed servers 20 to 40 include monitoring information acquisition mechanisms 21, 31, 41, and a filtering mechanism 22,
32, 42 and communication mechanisms 23, 33, 43. The monitoring information acquisition mechanisms 21 to 41 are management items registered in the server (for example, (A)) (distributed from the management server 10), for example, an important AP name for confirming life and death for status confirmation, a response status At regular intervals, monitor whether the response from the AP for confirming is correct, the threshold of the file capacity used by the AP, the threshold of the performance maintenance, and the logging information issued by the OS and the AP. It has a function of passing information to the filtering mechanism (22 to 42). The filtering mechanisms 22 to 42 check whether or not the threshold value of the management item and the failure notification match the registered management item. Is exceeded, the request is sent to the management server 10 by requesting the communication mechanisms 23 to 43.
The external storage devices 120 to 140 are used for storing management items distributed to the server.
【0010】図3は、管理サーバから管理対象サーバに
配布される管理項目テーブルの一例を示す図である。図
3に示すテーブル25は、管理サーバ10から管理対象
サーバ20に配布され、外部記憶装置120に格納され
た状態のテーブル内容を示している。同時に、管理サー
バ10の外部記憶装置110内にも、同様の情報が各管
理対象サーバ毎に格納される。管理項目登録のテーブル
に記述される図3の事例では、管理項目、範囲、管理内
容またはしきい値、および備考が記述される。備考欄に
示すように、第1番目のprc26とは、サービスプロ
セス(サービスAP)の監視を表しており、範囲とは、
監視するサービスプロセスの件数(サービスAPの件
数)であり、管理内容欄には管理するAPの名称が件数
分記入される。第2番目のCPU27に対しては、CP
Uの使用率の設定としてしきい値80%が設定されてい
る。第3番目のMemory28に対しては、メモリー
の使用率の設定としてしきい値90%が設定されてい
る。第4番目のDisc29に対しては、DISKの空
き容量の設定として、パーティション1は使用率が85
%を限界とし、パーティション2は使用率が75%を限
界としている。FIG. 3 is a diagram showing an example of a management item table distributed from the management server to the managed server. The table 25 shown in FIG. 3 shows the contents of the table distributed from the management server 10 to the managed server 20 and stored in the external storage device 120. At the same time, similar information is stored in the external storage device 110 of the management server 10 for each managed server. In the case of FIG. 3 described in the management item registration table, management items, ranges, management contents or thresholds, and remarks are described. As shown in the remarks column, the first prc 26 represents monitoring of a service process (service AP), and the range is
This is the number of service processes to be monitored (the number of service APs), and the management content column is filled with the names of the APs to be managed. For the second CPU 27, CP
A threshold of 80% is set as the setting of the usage rate of U. For the third Memory 28, a threshold of 90% is set as the setting of the memory usage rate. For the fourth Disc 29, the partition 1 has a usage rate of 85
%, And the partition 2 has a usage rate of 75%.
【0011】図2は、本発明の一実施例を示す稼働情報
取得の動作フローチャートである。ここでは、管理対象
サーバ20でサービスAP(B)と監視情報取得機構2
1が既に起動をしている場合の処理を示している。監視
情報取得機構21は、配布されている当該サーバ20の
管理項目を読み込み、あるいは外部記憶装置120から
読み込み、これをテーブルとして内部展開する(ステッ
プ101)。サービスAP(B)の生死を確認するコマ
ンドを発行する(ステップ102)。このコマンドは、
監視情報取得機構21がOSに対して現在動作している
APを列挙させるコマンドであり、例えば、「RegQuery
ValueEx関数で引数はProcess」である。異常の検知を含
め、結果を受け取ってフィルタリング機構22にそのデ
ータと制御を渡す(ステップ103)。サービスAP
(A)が動作している場合、サービスAP(A)が正常
に稼働しているか否かを確認するために、疑似コマンド
を発行して応答を待つ(ステップ104)。この擬似コ
マンドは、例えばサービスAP(A)が基幹業務APの
場合、そのAPから定期的にイベントログを発行させ、
そのイベントログを読み込むようなコマンドである。ま
た、サービスAP(A)が電子メールプログラムの場合
には、管理者にメールを発行させるようなコマンドであ
る。FIG. 2 is an operation flowchart of operation information acquisition according to an embodiment of the present invention. Here, in the managed server 20, the service AP (B) and the monitoring information acquisition mechanism 2
No. 1 shows the processing when it has already been started. The monitoring information acquisition mechanism 21 reads the distributed management items of the server 20 or reads the management items from the external storage device 120, and internally develops them as a table (step 101). A command for confirming the life or death of the service AP (B) is issued (step 102). This command
This is a command by which the monitoring information acquisition mechanism 21 causes the OS to list the APs currently operating, for example, “RegQuery”.
In the ValueEx function, the argument is Process. The result including the abnormality detection is received and the data and control are passed to the filtering mechanism 22 (step 103). Service AP
If (A) is operating, a pseudo command is issued and a response is waited for in order to confirm whether the service AP (A) is operating normally (step 104). For example, when the service AP (A) is a core business AP, this pseudo command causes the AP to periodically issue an event log,
It is a command that reads the event log. When the service AP (A) is an e-mail program, the command is a command for causing the administrator to issue an e-mail.
【0012】一定時間内に応答が無い場合、或いは応答
内容に不正がある場合等含め、その結果情報と制御をフ
ィルタリング機構22に渡す(ステップ105)。サー
ビスAP(A)で使用しているファイル容量の空きが、
しきい値を越えているか否かを確認する(ステップ10
6)。なお、使用しているファイルとしきい値は管理項
目としてテーブル25内に展開されている。ファイルの
空き情報やしきい値を越えている場合を含め、結果の情
報と制御をフィルタリング機構22に渡す(ステップ1
07)。以下、同様にテーブル25で展開されている全
ての管理項目を確認する(ステップ省略)。管理項目全
てを確認したか否かのチェックを行い、管理項目全てが
終了した場合は一定のインターバルで待つ(ステップ1
08)。監視情報取得機構11は、上述した処理を所定
時間間隔で繰り返し行なう。すなわち、インターバル終
了時の割り込みによってステップ102から再実行を行
う(ステップ109)。If there is no response within a certain period of time, or if the content of the response is incorrect, the result information and control are passed to the filtering mechanism 22 (step 105). The free space of the file used by the service AP (A)
Check whether the threshold is exceeded (Step 10)
6). The used files and thresholds are developed in the table 25 as management items. The result information and control, including the free space information of the file and the case where the threshold is exceeded, are passed to the filtering mechanism 22 (step 1).
07). Hereinafter, all the management items developed in the table 25 are similarly confirmed (step omitted). It is checked whether or not all the management items have been confirmed, and if all the management items have been completed, the process waits at certain intervals (step 1).
08). The monitoring information acquisition mechanism 11 repeats the above-described processing at predetermined time intervals. That is, re-execution is performed from step 102 by interruption at the end of the interval (step 109).
【0013】フィルタリング機構22は、渡された情報
をロギング情報として外部記憶装置120に記録する
(ステップ201)と共に、情報が正常か異常かを判断
し、正常の場合には制御を監視情報取得機構に戻す(ス
テップ202)。異常時のみ管理サーバ10に通知する
データを作成し(ステップ203)、管理サーバ10に
送信する(ステップ204)。管理サーバ10は、管理
対象サーバ20からの情報を受信する(ステップ30
1)。受信した情報を外部記憶装置110に記録する
(ステップ302)とともに、モニタなどへの表示、音
声による報告、メールによる通報等の通知を行う(ステ
ップ303)The filtering mechanism 22 records the passed information as logging information in the external storage device 120 (step 201), and determines whether the information is normal or abnormal. (Step 202). Data to be notified to the management server 10 only at the time of abnormality is created (step 203) and transmitted to the management server 10 (step 204). The management server 10 receives the information from the managed server 20 (step 30).
1). The received information is recorded in the external storage device 110 (step 302), and a notification such as a display on a monitor, a report by voice, a report by mail, etc. is made (step 303).
【0014】図4は、本発明の一実施例を示す管理サー
バに送信するデータフォーマット図である。フィルタリ
ング機構22からの依頼により通信機構23から管理サ
ーバ10に送信されるデータ35は、例えば図4に示す
ようなフォーマットの情報(異常時情報)である。デー
タフォーマットは項目毎に備考が記述されており、例え
ば、図4に示すように、サーバ種類36に対しては、メ
ールサーバ、業務サーバ等のサーバの種類が記述され、
サーバ名称37に対しては、サーバの種類の中でサーバ
を特定する名称が記載される。また、管理項目事象38
に対しては、管理項目対応の日本語表示、サービスレベ
ルのしきい値を超えているか否か、またはサービスAP
ダウン等の事象が記述される。事例としては、『メール
サーバ群Exchangeサーバ10番のアプリケーシ
ョンがダウンしました。』あるいは『メールサーバ群E
xchangeサーバ10番のパーティション2デスク
の容量が76%を越しました。』等が送信される。FIG. 4 is a diagram showing a data format transmitted to a management server according to an embodiment of the present invention. The data 35 transmitted from the communication mechanism 23 to the management server 10 at the request of the filtering mechanism 22 is, for example, information (abnormality information) in a format as shown in FIG. In the data format, remarks are described for each item. For example, as shown in FIG. 4, for the server type 36, the types of servers such as a mail server and a business server are described.
For the server name 37, a name for specifying the server among the server types is described. Also, management item event 38
Is displayed in Japanese for the management item, whether the service level exceeds the threshold,
An event such as a down event is described. As an example, "The application of the 10th mail server group Exchange server went down. Or "Mail server group E
The capacity of partition 2 desk of xchange server 10 has exceeded 76%. Is transmitted.
【0015】図2に示す実施例で示した各処理フロー
は、主に管理対象サーバ20で実行されるプログラムの
動作を示しているが、本発明を実施するに際しては、こ
の処理を行うプログラムをCD-ROM等の記録媒体に記録し
ておき、管理対象サーバ20のCD-ROMドライブが、この
CD-ROMに記録されたプログラムを読込んで管理対象サー
バ20のディスクにインストールしてから実行されるの
が一般的である。さらに、最近の流通形態として、管理
対象サーバ20のディスクにネットワークを介して接続
された他のコンピュータからプログラムをロードして実
行する形態も増えてきており、このような形態で本発明
のプログラムを管理対象サーバ20にインストールた
後、実行しても本実施例と同一の効果が得られる。いず
れにしても、プログラムを記録媒体に格納しておけば、
任意の場所で任意の時間に実行させることにより、本発
明を実現することができる。Each processing flow shown in the embodiment shown in FIG. 2 mainly shows the operation of a program executed on the managed server 20, but when implementing the present invention, a program for performing this processing is executed by the program. It is recorded on a recording medium such as a CD-ROM, and the CD-ROM drive of the managed server 20
In general, the program is read from a CD-ROM, installed on a disk of the managed server 20, and then executed. Furthermore, as a recent distribution form, a form in which a program is loaded from another computer connected to the disk of the managed server 20 via a network and executed is increasing, and the program of the present invention is loaded in such a form. Even if the program is installed in the managed server 20 and executed, the same effect as that of the present embodiment can be obtained. In any case, if the program is stored on a recording medium,
The present invention can be realized by executing the program at any place and at any time.
【0016】[0016]
【発明の効果】以上説明したように、本発明によれば、
複数サーバの集中管理システムに対して、管理項目を当
該のサーバ毎に持たせ、エージェントモジュールでセル
フ確認できるため、あたかもサーバ毎に運用管理者がい
るようなきめ細かい管理ができるとともに、フィルタリ
ング機構で必要な情報のみ管理サーバに送信するため、
ネットワークや管理サーバへの負荷を低減させることが
でき、かつ容易に障害通知情報等の収集ができるので、
運用管理の効率性及び信頼性を大幅に向上できる。As described above, according to the present invention,
In a centralized management system with multiple servers, management items are assigned to each server, and self-confirmation can be performed with the agent module, so that it is possible to perform detailed management as if there is an operation manager for each server, and it is necessary for the filtering mechanism Because only necessary information is sent to the management server,
Since the load on the network and management server can be reduced, and failure notification information can be easily collected.
The efficiency and reliability of operation management can be greatly improved.
【図1】本発明の一実施例を示す複数サーバ運用管理に
おける稼働情報取得システムの全体構成図である。FIG. 1 is an overall configuration diagram of an operation information acquisition system in a multiple server operation management according to an embodiment of the present invention.
【図2】本発明の一実施例を示す情報確認および収集の
動作フローチャートである。FIG. 2 is an operation flowchart of information confirmation and collection showing one embodiment of the present invention.
【図3】本発明の一実施例を示す管理項目登録のテーブ
ルフォーマット図である。FIG. 3 is a table format diagram of management item registration according to an embodiment of the present invention.
【図4】本発明の一実施例を示す管理サーバに送信する
データフォーマット図である。FIG. 4 is a diagram illustrating a data format transmitted to a management server according to an embodiment of the present invention.
10…管理サーバ、11…管理項目登録・配布機構、1
2…データ蓄積機構、13…通信機構、21,31,4
1…監視機構取得機構、22,32,42…フィルタリ
ング機構、23,33,43…通信機構、110,12
0,130,140…外部記憶装置、50,60,70
…通信回線、80,90…クライアントコンピュータ、
25…管理項目登録テーブル、26〜29…管理項目、
35…管理サーバに送信するデータフォーマット、36
〜38…送信項目。10 management server, 11 management item registration / distribution mechanism, 1
2 ... data storage mechanism, 13 ... communication mechanism, 21, 31, 4
1 ... monitoring mechanism acquisition mechanism, 22, 32, 42 ... filtering mechanism, 23, 33, 43 ... communication mechanism, 110, 12
0, 130, 140 ... external storage device, 50, 60, 70
... communication lines, 80, 90 ... client computers,
25: management item registration table, 26 to 29: management items,
35 ... data format to be transmitted to the management server, 36
-38: transmission items.
フロントページの続き Fターム(参考) 5B042 GA12 JJ03 MC40 5B045 BB02 BB03 BB12 BB28 BB49 JJ08 5B089 GA11 GB02 GB08 JA35 JB15 KA06 KA07 KA13 KB03 KC15 KC30 MC03 Continued on the front page F term (reference) 5B042 GA12 JJ03 MC40 5B045 BB02 BB03 BB12 BB28 BB49 JJ08 5B089 GA11 GB02 GB08 JA35 JB15 KA06 KA07 KA13 KB03 KC15 KC30 MC03 MC03
Claims (2)
バコンピュータに接続されたクライアント/サーバシス
テムと、複数のクライアント/サーバシステムのサーバ
コンピュータに接続された管理サーバコンピュータとか
ら構成される複数サーバ運用管理システムの稼働情報取
得方法であって、 前記管理サーバコンピュータは、前記サーバコンピュー
タで取得するログデータの種類を特定する管理項目と該
管理項目の条件とを、該サーバコンピュータの識別子と
対応させて定義するステップと、 定義された管理項目と該管理項目の条件とを前記管理サ
ーバコンピュータから該当する前記サーバコンピュータ
にそれぞれ配布するステップとを有し、 前記サーバコンピュータの各々は、該サーバコンピュー
タの稼動時に、先に配布された管理項目に該当するログ
データを取得するステップと、 取得したログデータを格納するステップと、 取得したログデータが前記管理項目の条件を満たすか否
を照合し、前記管理サーバコンピュータに対して、照合
した結果のログデータを自身のサーバコンピュータの識
別子と共に送信するステップとを有することを特徴とす
る複数サーバ運用管理における稼働情報取得方法。1. Operation of a multiple server operation management system including a client / server system in which a plurality of client computers are connected to a server computer, and a management server computer connected to a server computer in the plurality of client / server systems. An information acquisition method, wherein the management server computer defines a management item for specifying a type of log data to be obtained by the server computer and a condition of the management item in association with an identifier of the server computer. Distributing the defined management items and the conditions of the management items from the management server computer to the corresponding server computers, respectively, wherein each of the server computers first operates when the server computer operates. Management items distributed Obtaining the relevant log data; storing the obtained log data; collating whether the acquired log data satisfies the condition of the management item; Transmitting the log data together with the identifier of its own server computer.
得方法を実現するためのプログラムを記録した記録媒体
であって、 管理サーバコンピュータは、サーバコンピュータで取得
するログデータの種類を特定する管理項目と該管理項目
の条件とを、該サーバコンピュータの識別子と対応させ
て定義する処理と、定義された管理項目と該管理項目の
条件とを前記管理サーバコンピュータから該当する前記
サーバコンピュータに各々配布する処理を行ない、 前記サーバコンピュータは、該サーバコンピュータの稼
動時に、前記配布された管理項目に該当するログデータ
を取得する処理と、取得したログデータを格納する処理
と、取得したログデータが前記管理項目の条件を満たす
か否かを照合し、前記管理サーバコンピュータに対し
て、照合した結果のログデータを自身のサーバコンピュ
ータの識別子と共に送信する処理を行なうプログラムを
格納したことを特徴とするプログラムを記録した記録媒
体。2. A recording medium on which a program for realizing an operation information acquisition method in a multiple server operation management is recorded, wherein the management server computer includes a management item for specifying a type of log data to be acquired by the server computer. A process of defining a condition of the management item in association with the identifier of the server computer; and a process of distributing the defined management item and the condition of the management item from the management server computer to the corresponding server computer. The server computer, during operation of the server computer, a process of acquiring log data corresponding to the distributed management item, a process of storing the acquired log data, and the acquired log data is Whether or not the condition is satisfied is checked, and the management server computer is checked against Recording medium for recording a program characterized by storing a program for performing processing of transmitting the result of the log data together with an identifier of its own server computer.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11049422A JP2000250833A (en) | 1999-02-26 | 1999-02-26 | Operating information acquisition method in multiple server operation management and recording medium recording the program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11049422A JP2000250833A (en) | 1999-02-26 | 1999-02-26 | Operating information acquisition method in multiple server operation management and recording medium recording the program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2000250833A true JP2000250833A (en) | 2000-09-14 |
Family
ID=12830656
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11049422A Pending JP2000250833A (en) | 1999-02-26 | 1999-02-26 | Operating information acquisition method in multiple server operation management and recording medium recording the program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2000250833A (en) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005531070A (en) * | 2002-06-25 | 2005-10-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method and system for monitoring application performance in a distributed environment |
| JP2006500654A (en) * | 2002-09-20 | 2006-01-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Adaptive problem determination and recovery in computer systems |
| US7085764B2 (en) | 2002-05-13 | 2006-08-01 | International Business Machines Corporation | System, method and program product for centrally managing agents |
| JP2007148738A (en) * | 2005-11-28 | 2007-06-14 | Hitachi Ltd | Information monitoring method, system and program |
| US7266564B2 (en) | 2003-05-20 | 2007-09-04 | Hitachi, Ltd. | Control system and method for management items |
| JP2008026305A (en) * | 2006-06-23 | 2008-02-07 | Toshiba Corp | Mode S secondary monitoring radar |
| WO2009057682A1 (en) * | 2007-10-31 | 2009-05-07 | Daikin Industries, Ltd. | Data collection device and data management system |
| JP2010532503A (en) * | 2007-01-26 | 2010-10-07 | サムスン エスディーエス カンパニー リミテッド | Fault and performance information integrated monitoring method and system in integrated management system environment |
| US7840635B2 (en) | 2003-08-15 | 2010-11-23 | International Business Machines Corporation | Method and system for monitoring performance of processes across multiple environments and servers |
| JP2011060323A (en) * | 2010-12-06 | 2011-03-24 | Hitachi Ltd | Information monitoring method, system, and program |
| US7953848B2 (en) | 2002-04-08 | 2011-05-31 | International Business Machines Corporation | Problem determination in distributed enterprise applications |
| WO2013105128A1 (en) * | 2012-01-11 | 2013-07-18 | 株式会社日立製作所 | Data processing method, data processing system and data processing device |
| US11888939B2 (en) | 2019-06-03 | 2024-01-30 | Mitsubishi Electric Corporation | Remote monitoring system and remote monitoring method |
-
1999
- 1999-02-26 JP JP11049422A patent/JP2000250833A/en active Pending
Cited By (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7953848B2 (en) | 2002-04-08 | 2011-05-31 | International Business Machines Corporation | Problem determination in distributed enterprise applications |
| US8990382B2 (en) | 2002-04-08 | 2015-03-24 | International Business Machines Corporation | Problem determination in distributed enterprise applications |
| US9727405B2 (en) | 2002-04-08 | 2017-08-08 | International Business Machines Corporation | Problem determination in distributed enterprise applications |
| US8090851B2 (en) | 2002-04-08 | 2012-01-03 | International Business Machines Corporation | Method and system for problem determination in distributed enterprise applications |
| US7085764B2 (en) | 2002-05-13 | 2006-08-01 | International Business Machines Corporation | System, method and program product for centrally managing agents |
| US9053220B2 (en) | 2002-06-25 | 2015-06-09 | International Business Machines Corporation | Method, system, and computer program for monitoring performance of applications in a distributed environment |
| US9678964B2 (en) | 2002-06-25 | 2017-06-13 | International Business Machines Corporation | Method, system, and computer program for monitoring performance of applications in a distributed environment |
| US8037205B2 (en) | 2002-06-25 | 2011-10-11 | International Business Machines Corporation | Method, system, and computer program for monitoring performance of applications in a distributed environment |
| US7870244B2 (en) | 2002-06-25 | 2011-01-11 | International Business Machines Corporation | Monitoring performance of applications in a distributed environment |
| JP2005531070A (en) * | 2002-06-25 | 2005-10-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method and system for monitoring application performance in a distributed environment |
| JP2006500654A (en) * | 2002-09-20 | 2006-01-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Adaptive problem determination and recovery in computer systems |
| US7266564B2 (en) | 2003-05-20 | 2007-09-04 | Hitachi, Ltd. | Control system and method for management items |
| US7840635B2 (en) | 2003-08-15 | 2010-11-23 | International Business Machines Corporation | Method and system for monitoring performance of processes across multiple environments and servers |
| JP2007148738A (en) * | 2005-11-28 | 2007-06-14 | Hitachi Ltd | Information monitoring method, system and program |
| JP2008026305A (en) * | 2006-06-23 | 2008-02-07 | Toshiba Corp | Mode S secondary monitoring radar |
| JP2010532503A (en) * | 2007-01-26 | 2010-10-07 | サムスン エスディーエス カンパニー リミテッド | Fault and performance information integrated monitoring method and system in integrated management system environment |
| WO2009057682A1 (en) * | 2007-10-31 | 2009-05-07 | Daikin Industries, Ltd. | Data collection device and data management system |
| JP2011060323A (en) * | 2010-12-06 | 2011-03-24 | Hitachi Ltd | Information monitoring method, system, and program |
| JP5677592B2 (en) * | 2012-01-11 | 2015-02-25 | 株式会社日立製作所 | Data processing method, data processing system, and data processing apparatus |
| WO2013105128A1 (en) * | 2012-01-11 | 2013-07-18 | 株式会社日立製作所 | Data processing method, data processing system and data processing device |
| US11888939B2 (en) | 2019-06-03 | 2024-01-30 | Mitsubishi Electric Corporation | Remote monitoring system and remote monitoring method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6986076B1 (en) | Proactive method for ensuring availability in a clustered system | |
| US5758071A (en) | Method and system for tracking the configuration of a computer coupled to a computer network | |
| US5696701A (en) | Method and system for monitoring the performance of computers in computer networks using modular extensions | |
| US5796633A (en) | Method and system for performance monitoring in computer networks | |
| US7886295B2 (en) | Connection manager, method, system and program product for centrally managing computer applications | |
| US6947972B2 (en) | Alarm management system and method thereof for network management system | |
| US6904458B1 (en) | System and method for remote management | |
| US6138249A (en) | Method and apparatus for monitoring computer systems during manufacturing, testing and in the field | |
| US7174557B2 (en) | Method and apparatus for event distribution and event handling in an enterprise | |
| US20030196148A1 (en) | System and method for peer-to-peer monitoring within a network | |
| US8959530B1 (en) | Messaging middleware processing thread count based events | |
| US20030158933A1 (en) | Failover clustering based on input/output processors | |
| US20100017364A1 (en) | Systems, methods, and software for distributed loading of databases | |
| JP2004086792A (en) | Failure information collection program and failure information collection device | |
| JP2000250833A (en) | Operating information acquisition method in multiple server operation management and recording medium recording the program | |
| CN105610648A (en) | Operation and maintenance monitoring data collection method and server | |
| US8010654B2 (en) | Method, system and program product for monitoring resources servicing a business transaction | |
| US8832259B1 (en) | Virtual service mode methods for network remote monitoring and managing system | |
| US7836351B2 (en) | System for providing an alternative communication path in a SAS cluster | |
| CN112416638B (en) | A message middleware fault self-healing system and method | |
| CN114296909B (en) | Automatic capacity expansion and contraction method and system for nodes according to kubernetes events | |
| JP2004206634A (en) | Monitoring method, operation monitoring device, monitoring system, and computer program | |
| CN114844809B (en) | Multi-factor arbitration method and device based on network heartbeat and kernel disk heartbeat | |
| JP2010231293A (en) | Monitoring device | |
| US7475076B1 (en) | Method and apparatus for providing remote alert reporting for managed resources |