JP2018169737A - System monitoring method and computer device - Google Patents
System monitoring method and computer device Download PDFInfo
- Publication number
- JP2018169737A JP2018169737A JP2017065756A JP2017065756A JP2018169737A JP 2018169737 A JP2018169737 A JP 2018169737A JP 2017065756 A JP2017065756 A JP 2017065756A JP 2017065756 A JP2017065756 A JP 2017065756A JP 2018169737 A JP2018169737 A JP 2018169737A
- Authority
- JP
- Japan
- Prior art keywords
- management controller
- management
- data
- monitoring
- sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims description 49
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000002093 peripheral effect Effects 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 36
- 230000006870 function Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 16
- 230000005856 abnormality Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、コンピュータにおける監視に関するシステム監視方法、および管理コントローラを備えたコンピュータ装置に関する。 The present invention relates to a system monitoring method related to monitoring in a computer and a computer apparatus including a management controller.
コンピュータ装置において、OS(Operating System)が動作するCPU(Central Processing Unit )とは独立した管理コントローラ(BMC:Baseboard Management Controller )が実装されていることが多い。管理コントローラは、コンピュータ装置においてシステム監視を行う。管理コントローラ側の機能が増えると、ハードウェアやファームウェア制御が複雑になる。その結果、例えば、管理コントローラの動作が不安定になって、システム管理者が、明示的に管理コントローラをリセットしたり、ファームウェアを更新したりする状況が発生する。 In many computer apparatuses, a management controller (BMC: Baseboard Management Controller) independent of a CPU (Central Processing Unit) on which an OS (Operating System) operates is mounted. The management controller performs system monitoring in the computer device. As functions on the management controller increase, hardware and firmware control becomes more complex. As a result, for example, the operation of the management controller becomes unstable, and a situation occurs in which the system administrator explicitly resets the management controller or updates the firmware.
また、管理コントローラは、一般に、自己リセット機能を有している。システム管理者は、管理コントローラにアクセスできない場合に明示的にリセットを発行することがある。また、管理コントローラ自身のウォッチドッグタイマ機能によって自動的にリセットが発行されることがある。また、管理コントローラのファームウェアアップデート時にリセットが発行される。 The management controller generally has a self-reset function. The system administrator may explicitly issue a reset when the management controller is not accessible. In addition, a reset may be automatically issued by the watchdog timer function of the management controller itself. A reset is issued when the firmware of the management controller is updated.
リセットを発行した場合、管理コントローラのリセットが行われている間(例えば、数分間)、初期化処理などに起因して、管理コントローラの各種管理機能や障害監視機能が停止する。その結果、管理コントローラが、リセット中(リセット状態にあるとき)に発生したイベントを捕捉できず、発生したイベント情報が消失するおそれがある。すなわち、管理コントローラのリセットが行われている間、管理系の動作履歴の記録、センサ監視、障害発生の検出や記録などができない。 When a reset is issued, various management functions and fault monitoring functions of the management controller are stopped due to initialization processing or the like while the management controller is being reset (for example, for several minutes). As a result, the management controller cannot capture an event that occurs during reset (when in a reset state), and the event information that has occurred may be lost. That is, while the management controller is being reset, it is impossible to record the operation history of the management system, monitor the sensor, and detect and record the occurrence of a failure.
また、リセット後(リセット状態が解除された後)に、管理コントローラが起動しない可能性もある。従って、コンピュータ装置を運用するときに、リセットに伴うリスクを回避したいという要求が増えている。例えば、リセットを実施しても、その間の監視を継続したいという要求がある。 In addition, there is a possibility that the management controller does not start after resetting (after the reset state is released). Therefore, there is an increasing demand for avoiding the risk associated with reset when operating a computer device. For example, there is a request to continue monitoring during resetting.
特許文献1には、管理コントローラが障害の情報を管理することができない場合でも、他の手段によって障害の情報を管理できるようにするシステムが記載されている。 Japanese Patent Application Laid-Open No. 2005-228561 describes a system that enables failure information to be managed by other means even when the management controller cannot manage failure information.
特許文献1に記載されたシステムでは、管理コントローラを監視する役割を担う障害情報生成モジュールが、管理コントローラが障害の情報を管理することができないことを検知すると、障害の情報を管理サーバに送信する。そして、管理サーバが、障害の情報を記憶する。
In the system described in
管理コントローラのリセットに関する上記の問題に対する対策として、管理コントローラをハードウェアレベルで二重化する方式が考えられる。その場合、片方の管理コントローラがリセットされたときには、スタンバイ状態の他方の管理コントローラが活性化されて、管理コントローラの機能が維持される。 As a countermeasure against the above-mentioned problem concerning the reset of the management controller, a method of duplicating the management controller at the hardware level can be considered. In that case, when one management controller is reset, the other management controller in the standby state is activated, and the function of the management controller is maintained.
しかし、その方式では、ハードウェアレベルで二重化される。ハードウェアに対する変更や作りこみが必要であることから、その方式は、大規模サーバ向けである。その方式は、制御方式の変更等が難しい小規模サーバには不向きである。 However, in this method, it is duplicated at the hardware level. The method is intended for large-scale servers because hardware changes and modifications are required. This method is not suitable for small-scale servers where it is difficult to change the control method.
なお、特許文献1に記載されたシステムも、管理コントローラと管理サーバとで、管理コントローラの機能が二重化されたシステムに相当する。
Note that the system described in
本発明は、ハードウェアレベルでの二重化を行わなくても、管理コントローラにリセットが発生したときに、管理コントローラの機能が維持されるようにすることを目的とする。 An object of the present invention is to maintain the function of the management controller when a reset occurs in the management controller without duplication at the hardware level.
本発明によるシステム監視方法は、OSが動作し、少なくとも周辺ハードウェアの監視処理を行って監視にもとづくデータを収集して保持する管理コントローラを備えたコンピュータ装置で実行されるシステム監視方法であって、管理コントローラがリセット状態に入るときに、管理コントローラが保持するデータを取得し、取得されたデータをOS側データ保持手段に格納し、OSの管理の下で監視処理を実行し、監視処理によって収集されたデータをOS側データ保持手段に格納し、管理コントローラのリセット状態が解除されると、OS側データ保持手段が保持しているデータを管理コントローラに送信することを特徴とする。 A system monitoring method according to the present invention is a system monitoring method that is executed by a computer device that includes an administrative controller that operates an OS and collects and holds data based on monitoring by performing at least peripheral hardware monitoring processing. When the management controller enters the reset state, the data held by the management controller is acquired, the acquired data is stored in the OS-side data holding means, and the monitoring process is executed under the management of the OS. The collected data is stored in the OS-side data holding unit, and when the reset state of the management controller is released, the data held by the OS-side data holding unit is transmitted to the management controller.
本発明によるコンピュータ装置は、OSが動作し、少なくとも周辺ハードウェアの監視処理を行う管理コントローラを備えたコンピュータ装置であって、管理コントローラがリセット状態に入るときに、管理コントローラが保持するデータを取得するOS側データ取得手段と、OS側データ取得手段が取得したデータを保持するOS側データ保持手段と、OSの管理の下で監視処理を実行し、監視処理によって収集したデータをOS側データ保持手段に格納するOS側監視手段と、管理コントローラのリセット状態が解除されると、OS側データ保持手段が保持しているデータを管理コントローラに送信するOS側保持データ送信手段とを備えたことを特徴とする。 The computer device according to the present invention is a computer device including a management controller that operates an OS and performs at least peripheral hardware monitoring processing, and acquires data held by the management controller when the management controller enters a reset state. OS-side data acquisition means, OS-side data holding means for holding data acquired by the OS-side data acquisition means, monitoring processing is executed under the management of the OS, and data collected by the monitoring processing is stored in the OS-side data And an OS-side monitoring means for storing data stored in the OS-side data holding means to the management controller when the reset state of the management controller is released. Features.
本発明によれば、ハードウェアレベルでの二重化を行わなくても、管理コントローラにリセットが発生したときに、管理コントローラの機能が維持される。 According to the present invention, the function of the management controller is maintained when a reset occurs in the management controller without duplication at the hardware level.
以下、本発明の実施形態を図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
実施形態1.
図1は、コンピュータ装置1を管理用端末11とともに示すブロック図である。外部の管理用端末11は、管理コントローラ6が保持するイベント情報(イベントデータ)を取得したりするための端末である。なお、コンピュータ装置1の実現例として、例えば、パーソナルコンピュータやサーバがある。
FIG. 1 is a block diagram showing the
図1に示す例では、コンピュータ装置1には、CPU2、メモリ3、チップセットコントローラ4、ディスク(例えば、ハードディスク)5、管理コントローラ6、ファンセンサ7、温度センサ8、電圧センサ9、およびshared LAN(shared LANポート)10を含む。
In the example shown in FIG. 1, the
CPU2は、チップセットコントローラ4およびメモリ3に接続されている。チップセットコントローラ4には、I/Oとして、ディスク5とshared LAN10とが接続されている。OSは、CPU2、メモリ3、チップセットコントローラ4、ディスク5、shared LAN10上の各コンポーネントを利用して稼働している。
The
チップセットコントローラ4には、管理コントローラ6が接続されている。管理コントローラ6は、ファンセンサ7、温度センサ8、電圧センサ9など、チップセットコントローラ4とシリアルバス(例えば、I2Cバス)で接続されている各種センサのセンサ値を、ポーリングすることによって定期的に取得する。
A
管理コントローラ6は、取得したセンサ値が異常を呈している場合に、センサ値をイベント情報として、内部ログとして記録する機能を持つ。また、管理コントローラ6は、OS側でも使用されるshared LAN10に接続されている。なお、管理用端末11は、例えばIPMI(Intelligent Platform Management Interface) over LAN(Local Area Network)の機能を使って管理コントローラ6をアクセスし、管理コントローラ6が保持するイベント情報を取得できる構成であるとする。
The
図2は、管理コントローラ6を制御する管理コントローラファームウェア12の内部の各機能を示すブロック図である。図2には、各機能がコンポーネントとして表された一例が示されている。なお、管理コントローラファームウェア12の機能を、仮想マシンにおけるゲストOS(仮想OS)で実現してもよい。
FIG. 2 is a block diagram showing functions inside the
管理制御部13は、ファームウェア全体の管理機能を制御している。管理制御部13は、OS側の要求に応対したり、ネットワーク制御部21からのIPMI over LAN による要求に応対したりする機能を有する。また、管理制御部13は、イベント情報格納部やセンター情報の管理も行う。
The
センサ値収集部20は、図1に示されたファンセンサ7、温度センサ8および電圧センサ9からセンサ情報を収集する。センサ仕様格納部19には、センサ情報が示すセンサ値が正常であるか否かを判定するためのデータ(例えば、IPMI仕様におけるSensor Data Record: SDR )が格納されている。管理制御部13は、センサ値とセンサ仕様格納部19に格納されているデータとを比較して、センサ値が異常であるかどうか判定する。
The sensor
なお、管理制御部13は、ファンセンサ7のセンサ値の異常を示すデータを、一旦、イベント情報仮格納部18に格納する。そして、次に、ファンセンサ7のセンサ値の異常が検出されたときに、管理制御部13は、イベント情報仮格納部18の内容をチェックする。そして、管理制御部13は、同じイベントが再び発生したと判断した場合に、イベント情報格納部17に、センサ値の異常を示すデータを本イベントとして登録する。
The
また、管理制御部13は、温度センサ8と電圧センサ9については、センサ異常を検出した場合は、直ちにイベント情報格納部17にセンサ値の異常を示すデータをイベント情報として登録する。
In addition, when the sensor control abnormality is detected for the
また、管理コントローラファームウェア12は、管理コントローラ6のリセット指示を受け付けるリセット指示部14、リセット指示が行われたことをOS側に伝えるためのOS側への割り込みを生成する割り込み生成部16、および、リセット指示部14からのリセット指示を受けて、管理コントローラ6のリセットを行うリセット処理部15を含む。リセット処理部15によるリセット処理は、割り込み生成部16によって割り込みが発行されてから、時間をおいて行われる。
Further, the
図3は、OS上で動作する管理制御プロセス22を示すブロック図である。管理制御プロセス22は、OSの管理の下で動作するソフトウェア(プログラム)で作成されている。管理制御プロセス22を構成する各コンポーネントは、図2に示された管理コントローラファームウェア12における各コンポーネントと同様に構成され、管理コントローラファームウェア12における各コンポーネントと同様に動作する。
FIG. 3 is a block diagram showing the
すなわち、センサ値の取得やイベント情報の登録を行う、イベント情報格納部25、イベント情報仮格納部26、センサ仕様格納部27、およびセンサ値収集部28の動作は、図2に示された対応する各コンポ―ネントの動作と同じである。なお、図3に示す管理制御プロセス22は、イベント情報を生成するイベント情報生成部29を有しているが、その機能は、管理制御部23に含まれていてもよい。
That is, the operations of the event
ネットワークインタフェース(LANドライバ)30は、外部からのIPMI Over LAN によるイベント取得要求に対して応対を行う。管理コントローラインタフェース(IPMIドライバ)24は、一般的にIPMIドライバとして知られているドライバソフトウェアである。管理コントローラインタフェース24は、管理コントローラ6でリセットが行われる直前に発行される割り込みを受ける役割を担う。割り込みを受けると、管理制御部23は、管理コントローラインタフェース24に対して引き継ぎのための内部データ(すなわち、イベント情報)の取得要求を行う。管理制御部23は、取得した内部データをイベント情報仮格納部26に格納する。また、管理制御部23は、センサ値収集部28に対して、収集開始を指示する。
The network interface (LAN driver) 30 responds to an event acquisition request by IPMI Over LAN from the outside. The management controller interface (IPMI driver) 24 is driver software generally known as an IPMI driver. The
図4は、センサ値収集部28によって収集されたセンサ一覧情報の一例を示す説明図である。図4には、センサ一覧情報として、センサ名およびセンサ値を保持する簡易なテーブルデータが例示されている。
FIG. 4 is an explanatory diagram showing an example of sensor list information collected by the sensor
図5は、イベント情報格納部25に格納されているイベント情報の一例を示す説明図である。図5には、イベント情報として、センサ名と発生時刻とセンサ値とを保持する簡易なテーブルデータが例示されている。
FIG. 5 is an explanatory diagram illustrating an example of event information stored in the event
図6は、イベント情報仮格納部26に格納されているイベント情報の一例を示す説明図である。図6には、イベント情報として、センサ名と発生時刻とセンサ値を保持する簡易なテーブルデータが例示されている。
FIG. 6 is an explanatory diagram illustrating an example of event information stored in the event information
図7は、センサ仕様格納部27に格納されているセンサ仕様情報(Sensor Data Record:SDR 情報)の一例を示す説明図である。図7には、センサ仕様情報として、センサ名とイベント登録判定値と上限および下限のしきい値とを保持する簡易なテーブルデータが例示されている。なお、センサ値が、上限しきい値と下限しきい値の間の値であれば正常値と判定され、それ以外の値の場合には、異常値であると判定される。
FIG. 7 is an explanatory diagram illustrating an example of sensor specification information (Sensor Data Record: SDR information) stored in the sensor
また、イベント登録判定値「2」は、異常検出時に一旦イベント情報仮格納部26に登録され、再度異常が検出されたときに、イベント情報格納部25に登録されるイベントであることを示す。イベント登録判定値「1」は、異常検出時に直ちにイベント情報格納部25に登録されるイベントであることを示す。
The event registration determination value “2” indicates that the event is temporarily registered in the event information
次に、コンピュータ装置1の動作を説明する。
Next, the operation of the
図8は、OS側の動作を示すフローチャートである。コンピュータ装置1が起動されると(ステップS11)、OSが起動する(ステップS12)。OSが起動した後、直ちに管理制御プロセス22が起動する(ステップS13)。
FIG. 8 is a flowchart showing the operation on the OS side. When the
管理制御プロセス22における管理制御部23は、管理コントローラインタフェース24を介して管理コントローラ6へのアクセス可否を確認する(ステップS14)。管理コントローラ6へのアクセスが不可の場合には、アクセスが可能となるまで待機する(ステップS17)。
The
管理コントローラ6へのアクセスが可であった場合には、管理制御部23は、管理コントローラ6から、センサ仕様データおよびネットワーク設定データを取得する(ステップS15)。そして、管理制御部23は、センサ仕様データをセンサ仕様格納部27に格納する。管理制御部23は、ネットワーク設定データにもとづいてネットワークインタフェース30のドライバに対する設定を行う。
If access to the
以上のような初期設定を完了したら、管理制御プロセス22は準備完了となって、待機状態になる(ステップS16)。
When the initial setting as described above is completed, the
図9は、管理コントローラ6の動作を示すフローチャートである。管理コントローラ6は、コンピュータ装置1へのスタンバイ電源供給が開始された時点で起動する(ステップS21)。管理コントローラ6は、システムの監視および管理を実現するための様々な機能を提供するが、以下、センサの監視とセンサのイベント生成に着目した動作について説明する。
FIG. 9 is a flowchart showing the operation of the
センサ値収集部20は、ファンセンサ7、温度センサ8および電圧センサ9をアクセスして、センサ値を収集する(ステップS22)。収集された値は、例えば、図4に示された一覧情報のようになっているとする。
The sensor
管理制御部13は、一覧情報と、センサ仕様格納部19に格納されているデータ(図7参照)とを比較して、センサ値が上限しきい値または下限しきい値を越えているか判定する(ステップS23)。越えていない場合には、センサ値の収集処理(ステップS22)に戻り、管理制御部13は、センサチェックを繰り返す。
The
センサ値しきい値が越えている場合には、管理制御部13は、該当センサのイベント登録判定値(図7参照)をチェックする(ステップS24)。イベント登録判定値が「1」のイベントである場合には、管理制御部13は、イベント情報格納部17にイベント情報を記録する(ステップS25,S26)。
If the sensor value threshold is exceeded, the
イベント登録判定値が「1」ではない値である場合は、管理制御部13は、イベント情報仮格納部18に格納されているイベントデータ(図6参照)をチェックする(ステップS27)、当該イベントが登録されている場合には、管理制御部13は、イベント情報格納部17にイベント情報を登録する(ステップS28およびステップS26)。当該イベントがイベント情報格納部17に登録されていない場合は、管理制御部13は、イベント情報仮格納部18にイベント情報を記録する(ステップS29)。その後、ステップS22に移行する。
If the event registration determination value is not “1”, the
次に、管理コントローラ6がリセットされるときの管理コントローラ6およびOS側の動作を説明する。図10は、管理コントローラ6がリセットされるときの管理コントローラ6およびOS側の動作を示すフローチャートである。
Next, operations on the
管理コントローラ6の動作中に(ステップS31)、リセット指示部14に対して、管理コントローラファームウェア12の外部または内部からリセット要求が発生したとする(ステップS31)ステップS32)。それに応じて、割り込み生成部16は、OS側に対して割り込みを送信する(ステップS33)。
Assume that a reset request is generated from outside or inside the
OS側では、管理制御プロセス22は、準備完了で待機状態となっている(ステップ41)。すなわち、管理コントローラインタフェース24は、管理コントローラ6側からの割り込み待機状態である(ステップS42)。
On the OS side, the
割り込みがあった場合は(ステップS43)、管理コントローラインタフェース24は、管理コントローラ6側にIPMIアクセスして、イベント情報仮格納部18から図6に例示されたようなイベントデータ(仮イベント格納情報)を取得する(ステップS44)。そして、管理制御部23は、取得したイベントデータをイベント情報仮格納部26に格納する。この結果、管理コントローラ6側からのデータがOS側の管理制御プロセス22に引き継がれる。
If there is an interruption (step S43), the
その後、ネットワークインタフェース30が有効化され(ステップS45)、管理制御プロセス22によるセンサ値の収集が開始される(ステップS46)。
Thereafter, the
管理コントローラ6は、OS側からのイベント情報仮格納部18に格納されているイベントデータの要求(ステップS44)に対して応対する(ステップS34)。具体的には、管理制御部13は、仮イベント格納情報をOS側に供給する。応対が終わったら、リセット処理部15によって、リセット処理が実行される(ステップS35)。管理コントローラ6がリセット中は、管理コントローラ6の全機能が停止する(ステップS36)。
The
次に、管理コントローラ6がリセットされ機能が停止しているときのOS側の動作を説明する。なお、OS側の動作において、図9に示された管理コントローラ6の処理と同じ処理を行う部分がある。
Next, the operation on the OS side when the
図11は、管理コントローラ6が停止しているときのOS側の動作を示すフローチャートである。
FIG. 11 is a flowchart showing the operation on the OS side when the
管理制御プロセス22のセンサ値収集部28は、ファンセンサ7、温度センサ8および電圧センサ9をアクセスして、センサ値を収集する(ステップS51,S52)。収集された値は、例えば、図4に示された一覧情報のようになっているとする。
The sensor
イベント情報生成部29(管理制御部23でもよい。)は、一覧情報と、センサ仕様格納部27に格納されているデータ(図7参照)とを比較して、センサ値が上限しきい値または下限しきい値を越えているか判定する(ステップS53)。越えていない場合には、センサ値の収集処理(ステップS52)に戻り、管理制御部23は、センサチェックを繰り返す。
The event information generation unit 29 (which may be the management control unit 23) compares the list information with the data stored in the sensor specification storage unit 27 (see FIG. 7), and the sensor value is the upper threshold value or It is determined whether the lower limit threshold is exceeded (step S53). If not, the process returns to the sensor value collection process (step S52), and the
センサ値しきい値が越えている場合には、イベント情報生成部29(管理制御部23でもよい。)は、該当センサのイベント登録判定値(図7参照)をチェックする(ステップS54)。イベント登録判定値が「1」のイベントである場合には、管理制御部23は、イベント情報格納部25にイベント情報を記録する(ステップS55,S56)。
When the sensor value threshold value is exceeded, the event information generation unit 29 (which may be the management control unit 23) checks the event registration determination value (see FIG. 7) of the corresponding sensor (step S54). When the event registration determination value is “1”, the
イベント登録判定値が「1」ではない値である場合は、イベント情報生成部29(管理制御部23でもよい。)は、イベント情報仮格納部26に格納されているイベントデータ(図6参照)をチェックする(ステップS57)、当該イベントが登録されている場合には、イベント情報生成部29(管理制御部23でもよい。)は、イベント情報格納部25にイベント情報を登録する(ステップS58およびステップS56)。当該イベントがイベント情報格納部25に格納されていない場合は、イベント情報生成部29(管理制御部23でもよい。)は、イベント情報仮格納部26にイベント情報を格納する(ステップS59)。その後、ステップS52に移行する。
When the event registration determination value is a value other than “1”, the event information generation unit 29 (may be the management control unit 23) stores the event data stored in the event information temporary storage unit 26 (see FIG. 6). (Step S57), if the event is registered, the event information generation unit 29 (may be the management control unit 23) registers the event information in the event information storage unit 25 (steps S58 and S57). Step S56). If the event is not stored in the event
次に、管理コントローラ6のリセットからの復旧時の管理コントローラ側およびOS側の動作を説明する。図12は、管理コントローラ6のリセットからの復旧時の管理コントローラ6およびOS側の動作を示すフローチャートである。
Next, operations on the management controller side and the OS side at the time of recovery from the reset of the
管理コントローラ6はリセット中の状況であるとする(ステップS61)。そして、リセットが完了すると、管理コントローラ6が再起動されて、各機能が動作を開始する(ステップS62)。
It is assumed that the
管理制御部13は、OS側に管理コントローラ6が復帰したことを知らせるために、割り込み生成部16にOSへの割り込みを指示する。指示に応じて、割り込み生成部16は、OSへの割り込みを発生する(ステップS63)。
The
OS側では、管理制御プロセス22が動作中に(ステップS71)、管理コントローラインタフェース24が管理コントローラ6側からの割り込みを受けた場合は(ステップS72)、管理コントローラインタフェース24は、管理コントローラ6に、イベント情報格納部25のイベントデータ(イベント格納情報)とイベント情報仮格納部26のイベントデータ(仮イベント格納情報)をIPMIで送信し、書き込みの要求を行う(ステップS73)。
On the OS side, when the
管理コントローラ6は、OS側からの書き込みの要求(ステップS73)に対して応対する(ステップS64)。すなわち、管理制御部13は、OS側から送信されたイベントデータを、イベント情報格納部17とイベント情報仮格納部18に書き込む。この結果、OS側からのデータが管理コントローラ6に引き継がれる。
The
引き継ぎ完了後、OS側において、管理制御部13は、ネットワークインタフェース30の機能を無効化して停止する(ステップS75)。そして、管理制御プロセス22は、待機状態になる(ステップS75)。
After the takeover is completed, on the OS side, the
管理コントローラ側では、引き継ぎ完了後、センサ監視が再開する(ステップS65)。 On the management controller side, after the takeover is completed, sensor monitoring resumes (step S65).
実施形態2.
第1の実施形態(実施形態1)では、リセットが管理コントローラファームウェア12によって制御され、割り込み生成部16が、OS側にリセット発生を通知し、また、リセット完了後の再起動を通知した。
In the first embodiment (embodiment 1), the reset is controlled by the
第2の実施形態(実施形態2)では、管理コントローラ6がストール(機能作停止)した場合に管理コントローラ6の機能を、OS側に引き継がせる。なお。コンピュータ装置1、管理コントローラファームウェア12,および管理制御プロセス22の構成は、第1の実施形態における構成と同じでよい。
In the second embodiment (Embodiment 2), the function of the
図13は、管理コントローラ6がストールした場合の管理コントローラ6およびOS側の動作を示すフローチャートである。
FIG. 13 is a flowchart showing operations on the
管理コントローラ6の動作中に(ステップS81)、管理コントローラ6に障害が発生し(ステップS82)、管理コントローラ6の全機能が停止したとする(ステップS83)。
Assume that a failure occurs in the
OS側では、管理制御プロセス22は、準備完了し、待機状態であるとする(ステップS91)。第2の実施形態では、管理コントローラインタフェース24には、第1の実施形態の場合のように割り込みを待つ機能に加えて、管理コントローラ6に対してポーリングアクセスすることによって、管理コントローラ6の状態をチェックする機能が追加されている。管理コントローラインタフェース24は、例えば定期的に管理コントローラ6をポーリングアクセスする(ステップS92)。
On the OS side, the
管理コントローラインタフェース24が管理コントローラ6をアクセスができていれば(ステップS93)、管理制御プロセスは待機状態に戻り、定期的なポーリングアクセスを継続する。
If the
しかし、管理コントローラ6へのアクセスが不可になった場合には、管理制御部23は、ネットワークインタフェース30を有効化する。そして、管理制御プロセス22によるセンサ値の収集が開始される(ステップS95)。すなわち、管理制御プロセス22は、管理コントローラ6が復旧するまで、管理コントローラ6に代わって監視を継続する。
However, when access to the
以上に説明したように、上記の各実施形態では、システム側(図1に示す構成例では、CPU2、メモリ3およびディスク5によるシステム)のOSの管理下のプロセス、または、システム側の仮想OSが、ソフトウェアレベルで、管理コントローラ機能を肩代りする。例えば、管理コントローラに対するリセット指示が行われるときに、リセットの直前に管理コントローラ6からOS側に対して割り込みが発行される。OS側の管理制御プロセス22は、割り込みによって、管理コントローラ6のリセットが行われることを事前に検知する。管理制御プロセス22は、管理コントローラ6がリセットされる前に、管理コントローラ6に保持されている内部情報を取得し、管理制御プロセス22が、内部情報を引き継ぐ。
As described above, in each of the above embodiments, the process under the management of the OS on the system side (in the configuration example shown in FIG. 1, the system using the
内部情報には、管理コントローラ6が管理および監視の対象としている様々な情報が含まれる。なお、上記の各実施形態では、コンピュータ装置1の周辺ハードウェアとしてのファン/温度/電圧の各種センサの異常を検出したときにイベント情報仮格納部に仮登録された仮イベント格納情報を例にしたが、他のハードウェアに関するイベント情報を対象にしてもよい。
The internal information includes various information that is managed and monitored by the
なお、イベント情報仮格納部18に格納されたイベント情報は、次に、同じセンサのイベントが検出された際に、イベント情報仮格納部18から、イベント情報格納部17に格納されるようになる。イベント情報仮格納部18に格納されている情報は外部から参照できない情報であるが、イベント情報格納部17に格納されている情報は、外部から参照できる情報である。例えば、ファンセンサに関するイベントについては、ファンの回転数がしきい値の範囲外になったことを検出したとしても、即座にファンのイベント情報として登録されず、次に同じファンセンサに関するイベントが検知された際に、イベント情報格納部17に登録される。
The event information stored in the event information
内部情報の引き継ぎが完了した後、管理コントローラ6はリセットされ、管理コントローラ6の機能が停止する。管理コントローラ6が停止した後、OS側の管理制御プロセス22が、管理コントローラ6に代わって、センサの監視を実行する。OS側の管理制御プロセス22は、センサ値の異常を検出し、管理コントローラ6と同じように動作して、センサに関するイベント情報のイベント情報仮格納部26への格納や、イベント情報格納部25への登録を行う。
After the transfer of the internal information is completed, the
管理コントローラ6が再起動して管理機能および監視機能が復旧したときに、管理コントローラ6は、OS側に再度割り込みを送信して、復旧したことを知らせる。OS側が割り込みを受けると、管理制御プロセス22は、センサ監視を停止して、OS側のイベント情報格納部25およびイベント情報仮格納部26に格納されているイベント情報を管理コントローラ6に送信する。管理コントローラ6において、イベント情報は、イベント情報格納部17およびイベント情報仮格納部18に反映される。すなわち、データの引き継ぎが行われる。引き継ぎ完了後、OS側の制御プログラム(管理制御プロセス22)は機能を停止し、管理コントローラ6は、監視および管理を再開する。
When the
以上に説明した各実施形態では、以下のような効果を得ることができる。 In each embodiment described above, the following effects can be obtained.
管理コントローラ6が実装されたサーバ等のコンピュータ装置1において、一時的な管理コントローラ6のリセット中や、障害等による管理コントローラ6の動作不可状態でも、その間のハードウェアの監視や管理を継続できる。また、ハードウェアレベルでの二重化でなく、ソフトウェアレベルで管理コントローラ6の代替が実現されるので、管理コントローラ6の代替機能を備えたハードウェアの実装は不要であり、小型のコンピュータ装置1に対する実装が容易である。
In the
図14は、本発明によるコンピュータ装置の主要部を示すブロック図である。図14に示すコンピュータ装置100は、管理コントローラ101がリセット状態に入るときに、管理コントローラ101が保持するデータを取得するOS側データ取得手段102(実施形態では、管理コントローラインタフェース24および管理制御部23で実現される。)と、OS側データ取得手段102が取得したデータを保持するOS側データ保持手段103(実施形態では、イベント情報格納部25およびイベント情報仮格納部26で実現される。)と、OSの管理の下で監視処理を実行し、監視処理によって収集したデータをOS側データ保持手段103に格納するOS側監視手段104(実施形態では、センサ値収集部20およびイベント情報生成部29で実現される。)と、管理コントローラのリセット状態が解除されると、OS側データ保持手段103が保持しているデータを管理コントローラ101に送信するOS側保持データ送信手段105(実施形態では、管理コントローラインタフェース24で実現される。)とを備えている。
FIG. 14 is a block diagram showing the main part of the computer apparatus according to the present invention. The
図15は、本発明による他の態様のコンピュータ装置の主要部を示すブロック図である。図15に示すコンピュータ装置100は、管理コントローラがリセット状態に入るとき、および、リセット状態が解除されたときに、OSの側に割り込みを発行する割込手段106(実施形態では、割り込み生成部16で実現される。)を備えている。
FIG. 15 is a block diagram showing a main part of a computer apparatus according to another aspect of the present invention. The
図16は、本発明によるさらに他の態様のコンピュータ装置の主要部を示すブロック図である。図16に示すコンピュータ装置100は、OSの管理の下で、管理コントローラ101に対する問い合わせを行う(例えば、ポーリングする。)問い合わせ手段107(実施形態では、管理コントローラインタフェース24で実現される。)を備え、OS側監視手段104は、管理コントローラ101が問い合わせに対して応答しない場合に、監視処理を開始する。
FIG. 16 is a block diagram showing a main part of a computer apparatus according to still another aspect of the present invention. A
1 コンピュータ装置
2 CPU
3 メモリ
4 チップセットコントローラ
5 ディスク
6 管理コントローラ
7 ファンセンサ
8 温度センサ
9 電圧センサ
10 shared LAN
11 管理用端末
12 管理コントローラファームウェア
13 管理制御部
14 リセット指示部
15 リセット処理部
16 割り込み生成部
17 イベント情報格納部
18 イベント情報仮格納部
19 センサ仕様格納部
20 センサ値収集部
21 ネットワーク制御部
22 管理制御プロセス
23 管理制御部
24 管理コントローラインタフェース
25 イベント情報格納部
26 イベント情報仮格納部
27 センサ仕様格納部
28 センサ値収集部
29 イベント情報生成部
30 ネットワークインタフェース
100 コンピュータ装置
101 管理コントローラ
102 OS側データ取得手段
103 OS側データ保持手段
104 OS側監視手段
105 OS側保持データ送信手段
106 割込手段
107 問い合わせ手段
1
3 Memory 4 Chipset controller 5
DESCRIPTION OF
Claims (8)
前記管理コントローラがリセット状態に入るときに、前記管理コントローラが保持するデータを取得し、
取得されたデータをOS側データ保持手段に格納し、
前記OSの管理の下で前記監視処理を実行し、該監視処理によって収集されたデータを前記OS側データ保持手段に格納し、
前記管理コントローラのリセット状態が解除されると、前記OS側データ保持手段が保持しているデータを前記管理コントローラに送信する
ことを特徴とするシステム監視方法。 A system monitoring method that is executed by a computer device that includes a management controller that operates an OS and collects and holds data based on monitoring by performing at least peripheral hardware monitoring processing,
When the management controller enters a reset state, obtain data held by the management controller;
Store the acquired data in the OS side data holding means,
Executing the monitoring process under the management of the OS, storing the data collected by the monitoring process in the OS-side data holding means,
When the reset state of the management controller is released, the data held by the OS-side data holding unit is transmitted to the management controller.
請求項1記載のシステム監視方法。 The system monitoring method according to claim 1, wherein monitoring processing is executed when the management controller is in a reset state by software operating under management of the OS.
請求項1または請求項2記載のシステム監視方法。 The system monitoring method according to claim 1 or 2, wherein an interrupt is issued to the OS when the management controller enters a reset state and when the reset state is released.
管理コントローラが前記問い合わせに対して応答しない場合に、OSの管理の下での監視処理を開始する
請求項1から請求項3のうちのいずれか1項に記載のシステム監視方法。 Make an inquiry to the management controller under the management of the OS,
The system monitoring method according to any one of claims 1 to 3, wherein when the management controller does not respond to the inquiry, monitoring processing under management of the OS is started.
前記管理コントローラがリセット状態に入るときに、前記管理コントローラが保持するデータを取得するOS側データ取得手段と、
前記OS側データ取得手段が取得したデータを保持するOS側データ保持手段と、
前記OSの管理の下で前記監視処理を実行し、該監視処理によって収集したデータを前記OS側データ保持手段に格納するOS側監視手段と、
前記管理コントローラのリセット状態が解除されると、前記OS側データ保持手段が保持しているデータを前記管理コントローラに送信するOS側保持データ送信手段と
を備えたことを特徴とするコンピュータ装置。 A computer device including a management controller on which an OS operates and performs at least monitoring processing of peripheral hardware,
OS-side data acquisition means for acquiring data held by the management controller when the management controller enters a reset state;
OS side data holding means for holding data acquired by the OS side data acquisition means;
An OS-side monitoring unit that executes the monitoring process under management of the OS and stores data collected by the monitoring process in the OS-side data holding unit;
A computer apparatus comprising: OS-side retained data transmitting means for transmitting data retained by the OS-side data retaining means to the management controller when the reset state of the management controller is released.
請求項5記載のコンピュータ装置。 The computer apparatus according to claim 5, wherein the OS side monitoring unit executes monitoring processing by software operating under management of the OS.
請求項5または請求項6記載のコンピュータ装置。 The computer apparatus according to claim 5 or 6, further comprising interrupt means for issuing an interrupt to the OS side when the management controller enters the reset state and when the reset state is released.
OS側監視手段は、管理コントローラが前記問い合わせに対して応答しない場合に、監視処理を開始する
請求項5から請求項7のうちのいずれか1項に記載のコンピュータ装置。 Inquiry means for making an inquiry to the management controller under the management of the OS,
The computer apparatus according to any one of claims 5 to 7, wherein the OS-side monitoring unit starts monitoring processing when the management controller does not respond to the inquiry.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017065756A JP6844375B2 (en) | 2017-03-29 | 2017-03-29 | System monitoring method and computer equipment |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017065756A JP6844375B2 (en) | 2017-03-29 | 2017-03-29 | System monitoring method and computer equipment |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018169737A true JP2018169737A (en) | 2018-11-01 |
| JP6844375B2 JP6844375B2 (en) | 2021-03-17 |
Family
ID=64020382
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017065756A Active JP6844375B2 (en) | 2017-03-29 | 2017-03-29 | System monitoring method and computer equipment |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6844375B2 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009193492A (en) * | 2008-02-18 | 2009-08-27 | Nec Computertechno Ltd | Computer system, information processing method, and program |
| JP2015146063A (en) * | 2014-01-31 | 2015-08-13 | キヤノン株式会社 | Handling process of memory leak and abnormal termination of management process |
| JP2015230720A (en) * | 2014-06-09 | 2015-12-21 | 株式会社日立製作所 | Computer system |
| US20170083425A1 (en) * | 2015-09-23 | 2017-03-23 | Hon Hai Precision Industry Co., Ltd. | Detection system and method for baseboard management controller |
-
2017
- 2017-03-29 JP JP2017065756A patent/JP6844375B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009193492A (en) * | 2008-02-18 | 2009-08-27 | Nec Computertechno Ltd | Computer system, information processing method, and program |
| JP2015146063A (en) * | 2014-01-31 | 2015-08-13 | キヤノン株式会社 | Handling process of memory leak and abnormal termination of management process |
| JP2015230720A (en) * | 2014-06-09 | 2015-12-21 | 株式会社日立製作所 | Computer system |
| US20170083425A1 (en) * | 2015-09-23 | 2017-03-23 | Hon Hai Precision Industry Co., Ltd. | Detection system and method for baseboard management controller |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6844375B2 (en) | 2021-03-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9021317B2 (en) | Reporting and processing computer operation failure alerts | |
| JP4940967B2 (en) | Storage system, storage device, firmware hot replacement method, firmware hot swap program | |
| US8788636B2 (en) | Boot controlling method of managed computer | |
| US8245077B2 (en) | Failover method and computer system | |
| JP6996602B1 (en) | BMC, server system, device stability determination method and program | |
| US20170109235A1 (en) | Baseboard management controller recovery | |
| CN100383748C (en) | Policy-based responses to system errors that occur during OS runtime | |
| TW201417536A (en) | Method and system for automatically managing servers | |
| US20160277271A1 (en) | Fault tolerant method and system for multiple servers | |
| JP6124644B2 (en) | Information processing apparatus and information processing system | |
| KR20040047209A (en) | Method for automatically recovering computer system in network and recovering system for realizing the same | |
| JP2017091077A (en) | Simulated fault generation program, generation method, and generation apparatus | |
| CN120492200A (en) | Hardware detection process exception handling method and device and electronic equipment | |
| CN111488050B (en) | Power supply monitoring method, system and server | |
| US7684654B2 (en) | System and method for fault detection and recovery in a medical imaging system | |
| CN114138574B (en) | Controller testing methods, apparatus, servers, and storage media | |
| JP5332257B2 (en) | Server system, server management method, and program thereof | |
| JP4495248B2 (en) | Information processing apparatus and failure processing method | |
| JP6844375B2 (en) | System monitoring method and computer equipment | |
| JP2007025933A (en) | Storage system and firmware automatic update method thereof | |
| US12047442B1 (en) | Configuring a replacement node using a configuration backup of a failed node being replaced | |
| CN119806745A (en) | Cloud platform virtual machine operating system anomaly detection and recovery method, device and medium | |
| JP2001331330A (en) | Process error detection and recovery system | |
| JP2018116477A (en) | Information processing apparatus and information processing system | |
| WO2017072904A1 (en) | Computer system and failure detection method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200205 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210118 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210208 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6844375 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |