[go: up one dir, main page]

JP2018169737A - System monitoring method and computer device - Google Patents

System monitoring method and computer device Download PDF

Info

Publication number
JP2018169737A
JP2018169737A JP2017065756A JP2017065756A JP2018169737A JP 2018169737 A JP2018169737 A JP 2018169737A JP 2017065756 A JP2017065756 A JP 2017065756A JP 2017065756 A JP2017065756 A JP 2017065756A JP 2018169737 A JP2018169737 A JP 2018169737A
Authority
JP
Japan
Prior art keywords
management controller
management
data
monitoring
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017065756A
Other languages
Japanese (ja)
Other versions
JP6844375B2 (en
Inventor
孝史 佛木
Takashi Hotokegi
孝史 佛木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017065756A priority Critical patent/JP6844375B2/en
Publication of JP2018169737A publication Critical patent/JP2018169737A/en
Application granted granted Critical
Publication of JP6844375B2 publication Critical patent/JP6844375B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PROBLEM TO BE SOLVED: To maintain a function of a management controller when a reset occurs in the management controller without duplexing in a hardware level.SOLUTION: A computer device comprises: OS side data acquisition means 102 for acquiring data held by a management controller 101 when the management controller 101 is to be in a reset state; OS side data holding means 103 for holding the data acquired by the OS side data acquisition means 102; OS side monitoring means 104 for executing monitoring processing under OS's management and storing data collected by the monitoring processing in the OS side data holding means 103; and OS side holding data transmission means 105 for transmitting the data held by the OS side data holding means 103 to the management controller 101 when the reset state of the management controller is released.SELECTED DRAWING: Figure 14

Description

本発明は、コンピュータにおける監視に関するシステム監視方法、および管理コントローラを備えたコンピュータ装置に関する。   The present invention relates to a system monitoring method related to monitoring in a computer and a computer apparatus including a management controller.

コンピュータ装置において、OS(Operating System)が動作するCPU(Central Processing Unit )とは独立した管理コントローラ(BMC:Baseboard Management Controller )が実装されていることが多い。管理コントローラは、コンピュータ装置においてシステム監視を行う。管理コントローラ側の機能が増えると、ハードウェアやファームウェア制御が複雑になる。その結果、例えば、管理コントローラの動作が不安定になって、システム管理者が、明示的に管理コントローラをリセットしたり、ファームウェアを更新したりする状況が発生する。   In many computer apparatuses, a management controller (BMC: Baseboard Management Controller) independent of a CPU (Central Processing Unit) on which an OS (Operating System) operates is mounted. The management controller performs system monitoring in the computer device. As functions on the management controller increase, hardware and firmware control becomes more complex. As a result, for example, the operation of the management controller becomes unstable, and a situation occurs in which the system administrator explicitly resets the management controller or updates the firmware.

また、管理コントローラは、一般に、自己リセット機能を有している。システム管理者は、管理コントローラにアクセスできない場合に明示的にリセットを発行することがある。また、管理コントローラ自身のウォッチドッグタイマ機能によって自動的にリセットが発行されることがある。また、管理コントローラのファームウェアアップデート時にリセットが発行される。   The management controller generally has a self-reset function. The system administrator may explicitly issue a reset when the management controller is not accessible. In addition, a reset may be automatically issued by the watchdog timer function of the management controller itself. A reset is issued when the firmware of the management controller is updated.

リセットを発行した場合、管理コントローラのリセットが行われている間(例えば、数分間)、初期化処理などに起因して、管理コントローラの各種管理機能や障害監視機能が停止する。その結果、管理コントローラが、リセット中(リセット状態にあるとき)に発生したイベントを捕捉できず、発生したイベント情報が消失するおそれがある。すなわち、管理コントローラのリセットが行われている間、管理系の動作履歴の記録、センサ監視、障害発生の検出や記録などができない。   When a reset is issued, various management functions and fault monitoring functions of the management controller are stopped due to initialization processing or the like while the management controller is being reset (for example, for several minutes). As a result, the management controller cannot capture an event that occurs during reset (when in a reset state), and the event information that has occurred may be lost. That is, while the management controller is being reset, it is impossible to record the operation history of the management system, monitor the sensor, and detect and record the occurrence of a failure.

また、リセット後(リセット状態が解除された後)に、管理コントローラが起動しない可能性もある。従って、コンピュータ装置を運用するときに、リセットに伴うリスクを回避したいという要求が増えている。例えば、リセットを実施しても、その間の監視を継続したいという要求がある。   In addition, there is a possibility that the management controller does not start after resetting (after the reset state is released). Therefore, there is an increasing demand for avoiding the risk associated with reset when operating a computer device. For example, there is a request to continue monitoring during resetting.

特許文献1には、管理コントローラが障害の情報を管理することができない場合でも、他の手段によって障害の情報を管理できるようにするシステムが記載されている。   Japanese Patent Application Laid-Open No. 2005-228561 describes a system that enables failure information to be managed by other means even when the management controller cannot manage failure information.

特許文献1に記載されたシステムでは、管理コントローラを監視する役割を担う障害情報生成モジュールが、管理コントローラが障害の情報を管理することができないことを検知すると、障害の情報を管理サーバに送信する。そして、管理サーバが、障害の情報を記憶する。   In the system described in Patent Literature 1, when the failure information generation module responsible for monitoring the management controller detects that the management controller cannot manage the failure information, the failure information is transmitted to the management server. . Then, the management server stores failure information.

特開2013−109722号公報JP 2013-109722 A

管理コントローラのリセットに関する上記の問題に対する対策として、管理コントローラをハードウェアレベルで二重化する方式が考えられる。その場合、片方の管理コントローラがリセットされたときには、スタンバイ状態の他方の管理コントローラが活性化されて、管理コントローラの機能が維持される。   As a countermeasure against the above-mentioned problem concerning the reset of the management controller, a method of duplicating the management controller at the hardware level can be considered. In that case, when one management controller is reset, the other management controller in the standby state is activated, and the function of the management controller is maintained.

しかし、その方式では、ハードウェアレベルで二重化される。ハードウェアに対する変更や作りこみが必要であることから、その方式は、大規模サーバ向けである。その方式は、制御方式の変更等が難しい小規模サーバには不向きである。   However, in this method, it is duplicated at the hardware level. The method is intended for large-scale servers because hardware changes and modifications are required. This method is not suitable for small-scale servers where it is difficult to change the control method.

なお、特許文献1に記載されたシステムも、管理コントローラと管理サーバとで、管理コントローラの機能が二重化されたシステムに相当する。   Note that the system described in Patent Document 1 also corresponds to a system in which the management controller and the management server have the functions of the management controller duplicated.

本発明は、ハードウェアレベルでの二重化を行わなくても、管理コントローラにリセットが発生したときに、管理コントローラの機能が維持されるようにすることを目的とする。   An object of the present invention is to maintain the function of the management controller when a reset occurs in the management controller without duplication at the hardware level.

本発明によるシステム監視方法は、OSが動作し、少なくとも周辺ハードウェアの監視処理を行って監視にもとづくデータを収集して保持する管理コントローラを備えたコンピュータ装置で実行されるシステム監視方法であって、管理コントローラがリセット状態に入るときに、管理コントローラが保持するデータを取得し、取得されたデータをOS側データ保持手段に格納し、OSの管理の下で監視処理を実行し、監視処理によって収集されたデータをOS側データ保持手段に格納し、管理コントローラのリセット状態が解除されると、OS側データ保持手段が保持しているデータを管理コントローラに送信することを特徴とする。   A system monitoring method according to the present invention is a system monitoring method that is executed by a computer device that includes an administrative controller that operates an OS and collects and holds data based on monitoring by performing at least peripheral hardware monitoring processing. When the management controller enters the reset state, the data held by the management controller is acquired, the acquired data is stored in the OS-side data holding means, and the monitoring process is executed under the management of the OS. The collected data is stored in the OS-side data holding unit, and when the reset state of the management controller is released, the data held by the OS-side data holding unit is transmitted to the management controller.

本発明によるコンピュータ装置は、OSが動作し、少なくとも周辺ハードウェアの監視処理を行う管理コントローラを備えたコンピュータ装置であって、管理コントローラがリセット状態に入るときに、管理コントローラが保持するデータを取得するOS側データ取得手段と、OS側データ取得手段が取得したデータを保持するOS側データ保持手段と、OSの管理の下で監視処理を実行し、監視処理によって収集したデータをOS側データ保持手段に格納するOS側監視手段と、管理コントローラのリセット状態が解除されると、OS側データ保持手段が保持しているデータを管理コントローラに送信するOS側保持データ送信手段とを備えたことを特徴とする。   The computer device according to the present invention is a computer device including a management controller that operates an OS and performs at least peripheral hardware monitoring processing, and acquires data held by the management controller when the management controller enters a reset state. OS-side data acquisition means, OS-side data holding means for holding data acquired by the OS-side data acquisition means, monitoring processing is executed under the management of the OS, and data collected by the monitoring processing is stored in the OS-side data And an OS-side monitoring means for storing data stored in the OS-side data holding means to the management controller when the reset state of the management controller is released. Features.

本発明によれば、ハードウェアレベルでの二重化を行わなくても、管理コントローラにリセットが発生したときに、管理コントローラの機能が維持される。   According to the present invention, the function of the management controller is maintained when a reset occurs in the management controller without duplication at the hardware level.

コンピュータ装置を管理用端末とともに示すブロック図である。It is a block diagram which shows a computer apparatus with the terminal for management. 管理コントローラを制御する管理コントローラファームウェアの内部の各機能を示すブロック図である。It is a block diagram which shows each function inside the management controller firmware which controls a management controller. OS上で動作する管理制御プロセスを示すブロック図である。It is a block diagram which shows the management control process which operate | moves on OS. センサ一覧情報の一例を示す説明図である。It is explanatory drawing which shows an example of sensor list information. イベント情報格納部に格納されているイベント情報の一例を示す説明図である。It is explanatory drawing which shows an example of the event information stored in the event information storage part. イベント情報仮格納部に格納されているイベント情報の一例を示す説明図である。It is explanatory drawing which shows an example of the event information stored in the event information temporary storage part. センサ仕様格納部に格納されているセンサ仕様情報の一例を示す説明図である。It is explanatory drawing which shows an example of the sensor specification information stored in the sensor specification storage part. OS側の動作を示すフローチャートである。It is a flowchart which shows operation | movement by OS side. 管理コントローラの動作を示すフローチャートである。It is a flowchart which shows operation | movement of a management controller. 管理コントローラがリセットされるときの管理コントローラおよびOS側の動作を示すフローチャートである。It is a flowchart which shows operation | movement by the management controller and OS side when a management controller is reset. 管理コントローラが停止しているときのOS側の動作を示すフローチャートである。It is a flowchart which shows the operation | movement by the side of OS when the management controller has stopped. 管理コントローラのリセットからの復旧時の管理コントローラおよびOS側の動作を示すフローチャートである。It is a flowchart which shows the operation | movement by the management controller and OS side at the time of recovery from reset of a management controller. 管理コントローラがストールした場合の管理コントローラおよびOS側の動作を示すフローチャートである。It is a flowchart which shows the operation | movement by the management controller and OS side when a management controller stalls. 本発明によるコンピュータ装置の主要部を示すブロック図である。It is a block diagram which shows the principal part of the computer apparatus by this invention. 本発明による他の態様のコンピュータ装置の主要部を示すブロック図である。It is a block diagram which shows the principal part of the computer apparatus of the other aspect by this invention. 本発明によるさらに他の態様のコンピュータ装置の主要部を示すブロック図である。It is a block diagram which shows the principal part of the computer apparatus of the further another aspect by this invention.

以下、本発明の実施形態を図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

実施形態1.
図1は、コンピュータ装置1を管理用端末11とともに示すブロック図である。外部の管理用端末11は、管理コントローラ6が保持するイベント情報(イベントデータ)を取得したりするための端末である。なお、コンピュータ装置1の実現例として、例えば、パーソナルコンピュータやサーバがある。
Embodiment 1. FIG.
FIG. 1 is a block diagram showing the computer apparatus 1 together with the management terminal 11. The external management terminal 11 is a terminal for acquiring event information (event data) held by the management controller 6. Examples of the implementation of the computer apparatus 1 include a personal computer and a server.

図1に示す例では、コンピュータ装置1には、CPU2、メモリ3、チップセットコントローラ4、ディスク(例えば、ハードディスク)5、管理コントローラ6、ファンセンサ7、温度センサ8、電圧センサ9、およびshared LAN(shared LANポート)10を含む。   In the example shown in FIG. 1, the computer device 1 includes a CPU 2, a memory 3, a chipset controller 4, a disk (for example, hard disk) 5, a management controller 6, a fan sensor 7, a temperature sensor 8, a voltage sensor 9, and a shared LAN. (Shared LAN port) 10 is included.

CPU2は、チップセットコントローラ4およびメモリ3に接続されている。チップセットコントローラ4には、I/Oとして、ディスク5とshared LAN10とが接続されている。OSは、CPU2、メモリ3、チップセットコントローラ4、ディスク5、shared LAN10上の各コンポーネントを利用して稼働している。   The CPU 2 is connected to the chipset controller 4 and the memory 3. The chip set controller 4 is connected with a disk 5 and a shared LAN 10 as I / O. The OS is operating using each component on the CPU 2, the memory 3, the chipset controller 4, the disk 5, and the shared LAN 10.

チップセットコントローラ4には、管理コントローラ6が接続されている。管理コントローラ6は、ファンセンサ7、温度センサ8、電圧センサ9など、チップセットコントローラ4とシリアルバス(例えば、I2Cバス)で接続されている各種センサのセンサ値を、ポーリングすることによって定期的に取得する。   A management controller 6 is connected to the chipset controller 4. The management controller 6 periodically polls the sensor values of various sensors connected to the chipset controller 4 such as the fan sensor 7, the temperature sensor 8, and the voltage sensor 9 via a serial bus (for example, I2C bus). get.

管理コントローラ6は、取得したセンサ値が異常を呈している場合に、センサ値をイベント情報として、内部ログとして記録する機能を持つ。また、管理コントローラ6は、OS側でも使用されるshared LAN10に接続されている。なお、管理用端末11は、例えばIPMI(Intelligent Platform Management Interface) over LAN(Local Area Network)の機能を使って管理コントローラ6をアクセスし、管理コントローラ6が保持するイベント情報を取得できる構成であるとする。   The management controller 6 has a function of recording the sensor value as event information as an internal log when the acquired sensor value is abnormal. The management controller 6 is connected to a shared LAN 10 that is also used on the OS side. The management terminal 11 is configured to access the management controller 6 using, for example, an IPMI (Intelligent Platform Management Interface) over LAN (Local Area Network) function and acquire event information held by the management controller 6. To do.

図2は、管理コントローラ6を制御する管理コントローラファームウェア12の内部の各機能を示すブロック図である。図2には、各機能がコンポーネントとして表された一例が示されている。なお、管理コントローラファームウェア12の機能を、仮想マシンにおけるゲストOS(仮想OS)で実現してもよい。   FIG. 2 is a block diagram showing functions inside the management controller firmware 12 that controls the management controller 6. FIG. 2 shows an example in which each function is represented as a component. The function of the management controller firmware 12 may be realized by a guest OS (virtual OS) in the virtual machine.

管理制御部13は、ファームウェア全体の管理機能を制御している。管理制御部13は、OS側の要求に応対したり、ネットワーク制御部21からのIPMI over LAN による要求に応対したりする機能を有する。また、管理制御部13は、イベント情報格納部やセンター情報の管理も行う。   The management control unit 13 controls the management function of the entire firmware. The management control unit 13 has a function of responding to requests on the OS side and responding to requests from the network control unit 21 using IPMI over LAN. The management control unit 13 also manages an event information storage unit and center information.

センサ値収集部20は、図1に示されたファンセンサ7、温度センサ8および電圧センサ9からセンサ情報を収集する。センサ仕様格納部19には、センサ情報が示すセンサ値が正常であるか否かを判定するためのデータ(例えば、IPMI仕様におけるSensor Data Record: SDR )が格納されている。管理制御部13は、センサ値とセンサ仕様格納部19に格納されているデータとを比較して、センサ値が異常であるかどうか判定する。   The sensor value collection unit 20 collects sensor information from the fan sensor 7, the temperature sensor 8, and the voltage sensor 9 illustrated in FIG. 1. Data for determining whether or not the sensor value indicated by the sensor information is normal is stored in the sensor specification storage unit 19 (for example, Sensor Data Record: SDR in the IPMI specification). The management control unit 13 compares the sensor value with the data stored in the sensor specification storage unit 19 to determine whether the sensor value is abnormal.

なお、管理制御部13は、ファンセンサ7のセンサ値の異常を示すデータを、一旦、イベント情報仮格納部18に格納する。そして、次に、ファンセンサ7のセンサ値の異常が検出されたときに、管理制御部13は、イベント情報仮格納部18の内容をチェックする。そして、管理制御部13は、同じイベントが再び発生したと判断した場合に、イベント情報格納部17に、センサ値の異常を示すデータを本イベントとして登録する。   The management control unit 13 temporarily stores data indicating abnormality of the sensor value of the fan sensor 7 in the event information temporary storage unit 18. Next, when an abnormality in the sensor value of the fan sensor 7 is detected, the management control unit 13 checks the contents of the event information temporary storage unit 18. When the management control unit 13 determines that the same event has occurred again, the management control unit 13 registers data indicating an abnormality in the sensor value in the event information storage unit 17 as the event.

また、管理制御部13は、温度センサ8と電圧センサ9については、センサ異常を検出した場合は、直ちにイベント情報格納部17にセンサ値の異常を示すデータをイベント情報として登録する。   In addition, when the sensor control abnormality is detected for the temperature sensor 8 and the voltage sensor 9, the management control unit 13 immediately registers data indicating sensor value abnormality as event information in the event information storage unit 17.

また、管理コントローラファームウェア12は、管理コントローラ6のリセット指示を受け付けるリセット指示部14、リセット指示が行われたことをOS側に伝えるためのOS側への割り込みを生成する割り込み生成部16、および、リセット指示部14からのリセット指示を受けて、管理コントローラ6のリセットを行うリセット処理部15を含む。リセット処理部15によるリセット処理は、割り込み生成部16によって割り込みが発行されてから、時間をおいて行われる。   Further, the management controller firmware 12 includes a reset instruction unit 14 that receives a reset instruction of the management controller 6, an interrupt generation unit 16 that generates an interrupt to the OS side to notify the OS side that the reset instruction has been performed, A reset processing unit 15 that resets the management controller 6 in response to a reset instruction from the reset instruction unit 14 is included. The reset processing by the reset processing unit 15 is performed after a time from when the interrupt generation unit 16 issues an interrupt.

図3は、OS上で動作する管理制御プロセス22を示すブロック図である。管理制御プロセス22は、OSの管理の下で動作するソフトウェア(プログラム)で作成されている。管理制御プロセス22を構成する各コンポーネントは、図2に示された管理コントローラファームウェア12における各コンポーネントと同様に構成され、管理コントローラファームウェア12における各コンポーネントと同様に動作する。   FIG. 3 is a block diagram showing the management control process 22 operating on the OS. The management control process 22 is created by software (program) that operates under the management of the OS. Each component constituting the management control process 22 is configured in the same manner as each component in the management controller firmware 12 illustrated in FIG. 2 and operates in the same manner as each component in the management controller firmware 12.

すなわち、センサ値の取得やイベント情報の登録を行う、イベント情報格納部25、イベント情報仮格納部26、センサ仕様格納部27、およびセンサ値収集部28の動作は、図2に示された対応する各コンポ―ネントの動作と同じである。なお、図3に示す管理制御プロセス22は、イベント情報を生成するイベント情報生成部29を有しているが、その機能は、管理制御部23に含まれていてもよい。   That is, the operations of the event information storage unit 25, the event information temporary storage unit 26, the sensor specification storage unit 27, and the sensor value collection unit 28, which acquire sensor values and register event information, correspond to the correspondence shown in FIG. This is the same as the operation of each component. The management control process 22 shown in FIG. 3 includes an event information generation unit 29 that generates event information, but the function may be included in the management control unit 23.

ネットワークインタフェース(LANドライバ)30は、外部からのIPMI Over LAN によるイベント取得要求に対して応対を行う。管理コントローラインタフェース(IPMIドライバ)24は、一般的にIPMIドライバとして知られているドライバソフトウェアである。管理コントローラインタフェース24は、管理コントローラ6でリセットが行われる直前に発行される割り込みを受ける役割を担う。割り込みを受けると、管理制御部23は、管理コントローラインタフェース24に対して引き継ぎのための内部データ(すなわち、イベント情報)の取得要求を行う。管理制御部23は、取得した内部データをイベント情報仮格納部26に格納する。また、管理制御部23は、センサ値収集部28に対して、収集開始を指示する。   The network interface (LAN driver) 30 responds to an event acquisition request by IPMI Over LAN from the outside. The management controller interface (IPMI driver) 24 is driver software generally known as an IPMI driver. The management controller interface 24 plays a role of receiving an interrupt issued immediately before the management controller 6 is reset. When receiving the interrupt, the management control unit 23 requests the management controller interface 24 to acquire internal data (that is, event information) for taking over. The management control unit 23 stores the acquired internal data in the event information temporary storage unit 26. Further, the management control unit 23 instructs the sensor value collection unit 28 to start collection.

図4は、センサ値収集部28によって収集されたセンサ一覧情報の一例を示す説明図である。図4には、センサ一覧情報として、センサ名およびセンサ値を保持する簡易なテーブルデータが例示されている。   FIG. 4 is an explanatory diagram showing an example of sensor list information collected by the sensor value collection unit 28. FIG. 4 illustrates simple table data holding sensor names and sensor values as sensor list information.

図5は、イベント情報格納部25に格納されているイベント情報の一例を示す説明図である。図5には、イベント情報として、センサ名と発生時刻とセンサ値とを保持する簡易なテーブルデータが例示されている。   FIG. 5 is an explanatory diagram illustrating an example of event information stored in the event information storage unit 25. FIG. 5 illustrates simple table data that holds a sensor name, an occurrence time, and a sensor value as event information.

図6は、イベント情報仮格納部26に格納されているイベント情報の一例を示す説明図である。図6には、イベント情報として、センサ名と発生時刻とセンサ値を保持する簡易なテーブルデータが例示されている。   FIG. 6 is an explanatory diagram illustrating an example of event information stored in the event information temporary storage unit 26. FIG. 6 illustrates simple table data that holds a sensor name, an occurrence time, and a sensor value as event information.

図7は、センサ仕様格納部27に格納されているセンサ仕様情報(Sensor Data Record:SDR 情報)の一例を示す説明図である。図7には、センサ仕様情報として、センサ名とイベント登録判定値と上限および下限のしきい値とを保持する簡易なテーブルデータが例示されている。なお、センサ値が、上限しきい値と下限しきい値の間の値であれば正常値と判定され、それ以外の値の場合には、異常値であると判定される。   FIG. 7 is an explanatory diagram illustrating an example of sensor specification information (Sensor Data Record: SDR information) stored in the sensor specification storage unit 27. FIG. 7 illustrates simple table data holding sensor names, event registration determination values, and upper and lower threshold values as sensor specification information. In addition, if a sensor value is a value between an upper limit threshold value and a lower limit threshold value, it will determine with a normal value, and in other than that value, it will determine with it being an abnormal value.

また、イベント登録判定値「2」は、異常検出時に一旦イベント情報仮格納部26に登録され、再度異常が検出されたときに、イベント情報格納部25に登録されるイベントであることを示す。イベント登録判定値「1」は、異常検出時に直ちにイベント情報格納部25に登録されるイベントであることを示す。   The event registration determination value “2” indicates that the event is temporarily registered in the event information temporary storage unit 26 when an abnormality is detected, and is registered in the event information storage unit 25 when an abnormality is detected again. The event registration determination value “1” indicates that the event is immediately registered in the event information storage unit 25 when an abnormality is detected.

次に、コンピュータ装置1の動作を説明する。   Next, the operation of the computer apparatus 1 will be described.

図8は、OS側の動作を示すフローチャートである。コンピュータ装置1が起動されると(ステップS11)、OSが起動する(ステップS12)。OSが起動した後、直ちに管理制御プロセス22が起動する(ステップS13)。   FIG. 8 is a flowchart showing the operation on the OS side. When the computer apparatus 1 is activated (step S11), the OS is activated (step S12). The management control process 22 starts immediately after the OS starts (step S13).

管理制御プロセス22における管理制御部23は、管理コントローラインタフェース24を介して管理コントローラ6へのアクセス可否を確認する(ステップS14)。管理コントローラ6へのアクセスが不可の場合には、アクセスが可能となるまで待機する(ステップS17)。   The management control unit 23 in the management control process 22 confirms whether the management controller 6 is accessible via the management controller interface 24 (step S14). If access to the management controller 6 is not possible, the system waits until access becomes possible (step S17).

管理コントローラ6へのアクセスが可であった場合には、管理制御部23は、管理コントローラ6から、センサ仕様データおよびネットワーク設定データを取得する(ステップS15)。そして、管理制御部23は、センサ仕様データをセンサ仕様格納部27に格納する。管理制御部23は、ネットワーク設定データにもとづいてネットワークインタフェース30のドライバに対する設定を行う。   If access to the management controller 6 is possible, the management control unit 23 acquires sensor specification data and network setting data from the management controller 6 (step S15). Then, the management control unit 23 stores the sensor specification data in the sensor specification storage unit 27. The management control unit 23 performs setting for the driver of the network interface 30 based on the network setting data.

以上のような初期設定を完了したら、管理制御プロセス22は準備完了となって、待機状態になる(ステップS16)。   When the initial setting as described above is completed, the management control process 22 is ready and enters a standby state (step S16).

図9は、管理コントローラ6の動作を示すフローチャートである。管理コントローラ6は、コンピュータ装置1へのスタンバイ電源供給が開始された時点で起動する(ステップS21)。管理コントローラ6は、システムの監視および管理を実現するための様々な機能を提供するが、以下、センサの監視とセンサのイベント生成に着目した動作について説明する。   FIG. 9 is a flowchart showing the operation of the management controller 6. The management controller 6 is activated when standby power supply to the computer apparatus 1 is started (step S21). The management controller 6 provides various functions for realizing system monitoring and management. Hereinafter, operations focusing on sensor monitoring and sensor event generation will be described.

センサ値収集部20は、ファンセンサ7、温度センサ8および電圧センサ9をアクセスして、センサ値を収集する(ステップS22)。収集された値は、例えば、図4に示された一覧情報のようになっているとする。   The sensor value collection unit 20 accesses the fan sensor 7, the temperature sensor 8, and the voltage sensor 9 and collects sensor values (step S22). Assume that the collected values are, for example, the list information shown in FIG.

管理制御部13は、一覧情報と、センサ仕様格納部19に格納されているデータ(図7参照)とを比較して、センサ値が上限しきい値または下限しきい値を越えているか判定する(ステップS23)。越えていない場合には、センサ値の収集処理(ステップS22)に戻り、管理制御部13は、センサチェックを繰り返す。   The management control unit 13 compares the list information with the data stored in the sensor specification storage unit 19 (see FIG. 7) to determine whether the sensor value exceeds the upper threshold value or the lower threshold value. (Step S23). If not, the process returns to the sensor value collection process (step S22), and the management control unit 13 repeats the sensor check.

センサ値しきい値が越えている場合には、管理制御部13は、該当センサのイベント登録判定値(図7参照)をチェックする(ステップS24)。イベント登録判定値が「1」のイベントである場合には、管理制御部13は、イベント情報格納部17にイベント情報を記録する(ステップS25,S26)。   If the sensor value threshold is exceeded, the management control unit 13 checks the event registration determination value (see FIG. 7) of the corresponding sensor (step S24). If the event registration determination value is “1”, the management control unit 13 records event information in the event information storage unit 17 (steps S25 and S26).

イベント登録判定値が「1」ではない値である場合は、管理制御部13は、イベント情報仮格納部18に格納されているイベントデータ(図6参照)をチェックする(ステップS27)、当該イベントが登録されている場合には、管理制御部13は、イベント情報格納部17にイベント情報を登録する(ステップS28およびステップS26)。当該イベントがイベント情報格納部17に登録されていない場合は、管理制御部13は、イベント情報仮格納部18にイベント情報を記録する(ステップS29)。その後、ステップS22に移行する。   If the event registration determination value is not “1”, the management control unit 13 checks the event data (see FIG. 6) stored in the event information temporary storage unit 18 (step S27), and the event Is registered, the management control unit 13 registers event information in the event information storage unit 17 (steps S28 and S26). If the event is not registered in the event information storage unit 17, the management control unit 13 records the event information in the event information temporary storage unit 18 (step S29). Thereafter, the process proceeds to step S22.

次に、管理コントローラ6がリセットされるときの管理コントローラ6およびOS側の動作を説明する。図10は、管理コントローラ6がリセットされるときの管理コントローラ6およびOS側の動作を示すフローチャートである。   Next, operations on the management controller 6 and the OS side when the management controller 6 is reset will be described. FIG. 10 is a flowchart showing operations on the management controller 6 and the OS side when the management controller 6 is reset.

管理コントローラ6の動作中に(ステップS31)、リセット指示部14に対して、管理コントローラファームウェア12の外部または内部からリセット要求が発生したとする(ステップS31)ステップS32)。それに応じて、割り込み生成部16は、OS側に対して割り込みを送信する(ステップS33)。   Assume that a reset request is generated from outside or inside the management controller firmware 12 to the reset instruction unit 14 during operation of the management controller 6 (step S31) (step S32). In response, the interrupt generation unit 16 transmits an interrupt to the OS side (step S33).

OS側では、管理制御プロセス22は、準備完了で待機状態となっている(ステップ41)。すなわち、管理コントローラインタフェース24は、管理コントローラ6側からの割り込み待機状態である(ステップS42)。   On the OS side, the management control process 22 is in a standby state upon completion of preparation (step 41). That is, the management controller interface 24 is in an interrupt standby state from the management controller 6 side (step S42).

割り込みがあった場合は(ステップS43)、管理コントローラインタフェース24は、管理コントローラ6側にIPMIアクセスして、イベント情報仮格納部18から図6に例示されたようなイベントデータ(仮イベント格納情報)を取得する(ステップS44)。そして、管理制御部23は、取得したイベントデータをイベント情報仮格納部26に格納する。この結果、管理コントローラ6側からのデータがOS側の管理制御プロセス22に引き継がれる。   If there is an interruption (step S43), the management controller interface 24 makes IPMI access to the management controller 6 side, and the event data (temporary event storage information) as illustrated in FIG. Is acquired (step S44). Then, the management control unit 23 stores the acquired event data in the event information temporary storage unit 26. As a result, data from the management controller 6 side is taken over by the management control process 22 on the OS side.

その後、ネットワークインタフェース30が有効化され(ステップS45)、管理制御プロセス22によるセンサ値の収集が開始される(ステップS46)。   Thereafter, the network interface 30 is activated (step S45), and collection of sensor values by the management control process 22 is started (step S46).

管理コントローラ6は、OS側からのイベント情報仮格納部18に格納されているイベントデータの要求(ステップS44)に対して応対する(ステップS34)。具体的には、管理制御部13は、仮イベント格納情報をOS側に供給する。応対が終わったら、リセット処理部15によって、リセット処理が実行される(ステップS35)。管理コントローラ6がリセット中は、管理コントローラ6の全機能が停止する(ステップS36)。   The management controller 6 responds to a request for event data (step S44) stored in the event information temporary storage unit 18 from the OS side (step S34). Specifically, the management control unit 13 supplies temporary event storage information to the OS side. When the response is completed, the reset processing unit 15 executes a reset process (step S35). While the management controller 6 is being reset, all functions of the management controller 6 are stopped (step S36).

次に、管理コントローラ6がリセットされ機能が停止しているときのOS側の動作を説明する。なお、OS側の動作において、図9に示された管理コントローラ6の処理と同じ処理を行う部分がある。   Next, the operation on the OS side when the management controller 6 is reset and the function is stopped will be described. In the operation on the OS side, there is a part that performs the same processing as the processing of the management controller 6 shown in FIG.

図11は、管理コントローラ6が停止しているときのOS側の動作を示すフローチャートである。   FIG. 11 is a flowchart showing the operation on the OS side when the management controller 6 is stopped.

管理制御プロセス22のセンサ値収集部28は、ファンセンサ7、温度センサ8および電圧センサ9をアクセスして、センサ値を収集する(ステップS51,S52)。収集された値は、例えば、図4に示された一覧情報のようになっているとする。   The sensor value collection unit 28 of the management control process 22 accesses the fan sensor 7, the temperature sensor 8 and the voltage sensor 9 to collect sensor values (steps S51 and S52). Assume that the collected values are, for example, the list information shown in FIG.

イベント情報生成部29(管理制御部23でもよい。)は、一覧情報と、センサ仕様格納部27に格納されているデータ(図7参照)とを比較して、センサ値が上限しきい値または下限しきい値を越えているか判定する(ステップS53)。越えていない場合には、センサ値の収集処理(ステップS52)に戻り、管理制御部23は、センサチェックを繰り返す。   The event information generation unit 29 (which may be the management control unit 23) compares the list information with the data stored in the sensor specification storage unit 27 (see FIG. 7), and the sensor value is the upper threshold value or It is determined whether the lower limit threshold is exceeded (step S53). If not, the process returns to the sensor value collection process (step S52), and the management control unit 23 repeats the sensor check.

センサ値しきい値が越えている場合には、イベント情報生成部29(管理制御部23でもよい。)は、該当センサのイベント登録判定値(図7参照)をチェックする(ステップS54)。イベント登録判定値が「1」のイベントである場合には、管理制御部23は、イベント情報格納部25にイベント情報を記録する(ステップS55,S56)。   When the sensor value threshold value is exceeded, the event information generation unit 29 (which may be the management control unit 23) checks the event registration determination value (see FIG. 7) of the corresponding sensor (step S54). When the event registration determination value is “1”, the management control unit 23 records event information in the event information storage unit 25 (steps S55 and S56).

イベント登録判定値が「1」ではない値である場合は、イベント情報生成部29(管理制御部23でもよい。)は、イベント情報仮格納部26に格納されているイベントデータ(図6参照)をチェックする(ステップS57)、当該イベントが登録されている場合には、イベント情報生成部29(管理制御部23でもよい。)は、イベント情報格納部25にイベント情報を登録する(ステップS58およびステップS56)。当該イベントがイベント情報格納部25に格納されていない場合は、イベント情報生成部29(管理制御部23でもよい。)は、イベント情報仮格納部26にイベント情報を格納する(ステップS59)。その後、ステップS52に移行する。   When the event registration determination value is a value other than “1”, the event information generation unit 29 (may be the management control unit 23) stores the event data stored in the event information temporary storage unit 26 (see FIG. 6). (Step S57), if the event is registered, the event information generation unit 29 (may be the management control unit 23) registers the event information in the event information storage unit 25 (steps S58 and S57). Step S56). If the event is not stored in the event information storage unit 25, the event information generation unit 29 (may be the management control unit 23) stores the event information in the event information temporary storage unit 26 (step S59). Thereafter, the process proceeds to step S52.

次に、管理コントローラ6のリセットからの復旧時の管理コントローラ側およびOS側の動作を説明する。図12は、管理コントローラ6のリセットからの復旧時の管理コントローラ6およびOS側の動作を示すフローチャートである。   Next, operations on the management controller side and the OS side at the time of recovery from the reset of the management controller 6 will be described. FIG. 12 is a flowchart showing operations on the management controller 6 and the OS side when the management controller 6 is recovered from the reset.

管理コントローラ6はリセット中の状況であるとする(ステップS61)。そして、リセットが完了すると、管理コントローラ6が再起動されて、各機能が動作を開始する(ステップS62)。   It is assumed that the management controller 6 is in a resetting state (step S61). When the reset is completed, the management controller 6 is restarted and each function starts operating (step S62).

管理制御部13は、OS側に管理コントローラ6が復帰したことを知らせるために、割り込み生成部16にOSへの割り込みを指示する。指示に応じて、割り込み生成部16は、OSへの割り込みを発生する(ステップS63)。   The management control unit 13 instructs the interrupt generation unit 16 to interrupt the OS in order to notify the OS side that the management controller 6 has returned. In response to the instruction, the interrupt generation unit 16 generates an interrupt to the OS (step S63).

OS側では、管理制御プロセス22が動作中に(ステップS71)、管理コントローラインタフェース24が管理コントローラ6側からの割り込みを受けた場合は(ステップS72)、管理コントローラインタフェース24は、管理コントローラ6に、イベント情報格納部25のイベントデータ(イベント格納情報)とイベント情報仮格納部26のイベントデータ(仮イベント格納情報)をIPMIで送信し、書き込みの要求を行う(ステップS73)。   On the OS side, when the management control process 22 is operating (step S71) and the management controller interface 24 receives an interrupt from the management controller 6 side (step S72), the management controller interface 24 Event data (event storage information) in the event information storage unit 25 and event data (temporary event storage information) in the event information temporary storage unit 26 are transmitted by IPMI, and a write request is made (step S73).

管理コントローラ6は、OS側からの書き込みの要求(ステップS73)に対して応対する(ステップS64)。すなわち、管理制御部13は、OS側から送信されたイベントデータを、イベント情報格納部17とイベント情報仮格納部18に書き込む。この結果、OS側からのデータが管理コントローラ6に引き継がれる。   The management controller 6 responds to the write request (step S73) from the OS side (step S64). That is, the management control unit 13 writes the event data transmitted from the OS side in the event information storage unit 17 and the event information temporary storage unit 18. As a result, data from the OS side is taken over by the management controller 6.

引き継ぎ完了後、OS側において、管理制御部13は、ネットワークインタフェース30の機能を無効化して停止する(ステップS75)。そして、管理制御プロセス22は、待機状態になる(ステップS75)。   After the takeover is completed, on the OS side, the management control unit 13 invalidates and stops the function of the network interface 30 (step S75). Then, the management control process 22 enters a standby state (step S75).

管理コントローラ側では、引き継ぎ完了後、センサ監視が再開する(ステップS65)。   On the management controller side, after the takeover is completed, sensor monitoring resumes (step S65).

実施形態2.
第1の実施形態(実施形態1)では、リセットが管理コントローラファームウェア12によって制御され、割り込み生成部16が、OS側にリセット発生を通知し、また、リセット完了後の再起動を通知した。
Embodiment 2. FIG.
In the first embodiment (embodiment 1), the reset is controlled by the management controller firmware 12, and the interrupt generation unit 16 notifies the OS side of the occurrence of reset and also notifies the restart after completion of the reset.

第2の実施形態(実施形態2)では、管理コントローラ6がストール(機能作停止)した場合に管理コントローラ6の機能を、OS側に引き継がせる。なお。コンピュータ装置1、管理コントローラファームウェア12,および管理制御プロセス22の構成は、第1の実施形態における構成と同じでよい。   In the second embodiment (Embodiment 2), the function of the management controller 6 is handed over to the OS side when the management controller 6 stalls (function stop). Note that. The configurations of the computer apparatus 1, the management controller firmware 12, and the management control process 22 may be the same as those in the first embodiment.

図13は、管理コントローラ6がストールした場合の管理コントローラ6およびOS側の動作を示すフローチャートである。   FIG. 13 is a flowchart showing operations on the management controller 6 and the OS side when the management controller 6 is stalled.

管理コントローラ6の動作中に(ステップS81)、管理コントローラ6に障害が発生し(ステップS82)、管理コントローラ6の全機能が停止したとする(ステップS83)。   Assume that a failure occurs in the management controller 6 during operation of the management controller 6 (step S81) (step S82), and all functions of the management controller 6 are stopped (step S83).

OS側では、管理制御プロセス22は、準備完了し、待機状態であるとする(ステップS91)。第2の実施形態では、管理コントローラインタフェース24には、第1の実施形態の場合のように割り込みを待つ機能に加えて、管理コントローラ6に対してポーリングアクセスすることによって、管理コントローラ6の状態をチェックする機能が追加されている。管理コントローラインタフェース24は、例えば定期的に管理コントローラ6をポーリングアクセスする(ステップS92)。   On the OS side, the management control process 22 is ready and is in a standby state (step S91). In the second embodiment, in addition to the function of waiting for an interrupt as in the first embodiment, the management controller interface 24 changes the state of the management controller 6 by polling access to the management controller 6. A check function has been added. The management controller interface 24 performs polling access to the management controller 6, for example, periodically (step S92).

管理コントローラインタフェース24が管理コントローラ6をアクセスができていれば(ステップS93)、管理制御プロセスは待機状態に戻り、定期的なポーリングアクセスを継続する。   If the management controller interface 24 is able to access the management controller 6 (step S93), the management control process returns to the standby state and continues periodic polling access.

しかし、管理コントローラ6へのアクセスが不可になった場合には、管理制御部23は、ネットワークインタフェース30を有効化する。そして、管理制御プロセス22によるセンサ値の収集が開始される(ステップS95)。すなわち、管理制御プロセス22は、管理コントローラ6が復旧するまで、管理コントローラ6に代わって監視を継続する。   However, when access to the management controller 6 becomes impossible, the management control unit 23 activates the network interface 30. Then, collection of sensor values by the management control process 22 is started (step S95). That is, the management control process 22 continues monitoring on behalf of the management controller 6 until the management controller 6 is restored.

以上に説明したように、上記の各実施形態では、システム側(図1に示す構成例では、CPU2、メモリ3およびディスク5によるシステム)のOSの管理下のプロセス、または、システム側の仮想OSが、ソフトウェアレベルで、管理コントローラ機能を肩代りする。例えば、管理コントローラに対するリセット指示が行われるときに、リセットの直前に管理コントローラ6からOS側に対して割り込みが発行される。OS側の管理制御プロセス22は、割り込みによって、管理コントローラ6のリセットが行われることを事前に検知する。管理制御プロセス22は、管理コントローラ6がリセットされる前に、管理コントローラ6に保持されている内部情報を取得し、管理制御プロセス22が、内部情報を引き継ぐ。   As described above, in each of the above embodiments, the process under the management of the OS on the system side (in the configuration example shown in FIG. 1, the system using the CPU 2, the memory 3, and the disk 5), or the virtual OS on the system side However, it takes over the management controller function at the software level. For example, when a reset instruction is issued to the management controller, an interrupt is issued from the management controller 6 to the OS side immediately before the reset. The OS-side management control process 22 detects in advance that the management controller 6 is reset by an interrupt. The management control process 22 acquires the internal information held in the management controller 6 before the management controller 6 is reset, and the management control process 22 takes over the internal information.

内部情報には、管理コントローラ6が管理および監視の対象としている様々な情報が含まれる。なお、上記の各実施形態では、コンピュータ装置1の周辺ハードウェアとしてのファン/温度/電圧の各種センサの異常を検出したときにイベント情報仮格納部に仮登録された仮イベント格納情報を例にしたが、他のハードウェアに関するイベント情報を対象にしてもよい。   The internal information includes various information that is managed and monitored by the management controller 6. In each of the above embodiments, the temporary event storage information temporarily registered in the event information temporary storage unit when an abnormality is detected in various sensors of the fan / temperature / voltage as peripheral hardware of the computer apparatus 1 is taken as an example. However, event information related to other hardware may be targeted.

なお、イベント情報仮格納部18に格納されたイベント情報は、次に、同じセンサのイベントが検出された際に、イベント情報仮格納部18から、イベント情報格納部17に格納されるようになる。イベント情報仮格納部18に格納されている情報は外部から参照できない情報であるが、イベント情報格納部17に格納されている情報は、外部から参照できる情報である。例えば、ファンセンサに関するイベントについては、ファンの回転数がしきい値の範囲外になったことを検出したとしても、即座にファンのイベント情報として登録されず、次に同じファンセンサに関するイベントが検知された際に、イベント情報格納部17に登録される。   The event information stored in the event information temporary storage unit 18 is stored in the event information storage unit 17 from the event information temporary storage unit 18 when an event of the same sensor is detected next time. . The information stored in the event information temporary storage unit 18 is information that cannot be referred to from outside, but the information stored in the event information storage unit 17 is information that can be referred to from outside. For example, for an event related to a fan sensor, even if it is detected that the number of fan rotations is outside the threshold range, it is not immediately registered as fan event information, and the next event related to the fan sensor is detected. Is registered in the event information storage unit 17.

内部情報の引き継ぎが完了した後、管理コントローラ6はリセットされ、管理コントローラ6の機能が停止する。管理コントローラ6が停止した後、OS側の管理制御プロセス22が、管理コントローラ6に代わって、センサの監視を実行する。OS側の管理制御プロセス22は、センサ値の異常を検出し、管理コントローラ6と同じように動作して、センサに関するイベント情報のイベント情報仮格納部26への格納や、イベント情報格納部25への登録を行う。   After the transfer of the internal information is completed, the management controller 6 is reset and the function of the management controller 6 is stopped. After the management controller 6 stops, the management control process 22 on the OS side performs sensor monitoring on behalf of the management controller 6. The management control process 22 on the OS side detects an abnormality in the sensor value and operates in the same manner as the management controller 6, and stores event information related to the sensor in the event information temporary storage unit 26 or the event information storage unit 25. Register.

管理コントローラ6が再起動して管理機能および監視機能が復旧したときに、管理コントローラ6は、OS側に再度割り込みを送信して、復旧したことを知らせる。OS側が割り込みを受けると、管理制御プロセス22は、センサ監視を停止して、OS側のイベント情報格納部25およびイベント情報仮格納部26に格納されているイベント情報を管理コントローラ6に送信する。管理コントローラ6において、イベント情報は、イベント情報格納部17およびイベント情報仮格納部18に反映される。すなわち、データの引き継ぎが行われる。引き継ぎ完了後、OS側の制御プログラム(管理制御プロセス22)は機能を停止し、管理コントローラ6は、監視および管理を再開する。   When the management controller 6 is restarted and the management function and the monitoring function are restored, the management controller 6 sends an interrupt again to the OS side to notify the restoration. When the OS side receives an interrupt, the management control process 22 stops monitoring the sensor and transmits event information stored in the event information storage unit 25 and event information temporary storage unit 26 on the OS side to the management controller 6. In the management controller 6, the event information is reflected in the event information storage unit 17 and the event information temporary storage unit 18. That is, data is taken over. After the takeover is completed, the OS-side control program (management control process 22) stops functioning and the management controller 6 resumes monitoring and management.

以上に説明した各実施形態では、以下のような効果を得ることができる。   In each embodiment described above, the following effects can be obtained.

管理コントローラ6が実装されたサーバ等のコンピュータ装置1において、一時的な管理コントローラ6のリセット中や、障害等による管理コントローラ6の動作不可状態でも、その間のハードウェアの監視や管理を継続できる。また、ハードウェアレベルでの二重化でなく、ソフトウェアレベルで管理コントローラ6の代替が実現されるので、管理コントローラ6の代替機能を備えたハードウェアの実装は不要であり、小型のコンピュータ装置1に対する実装が容易である。   In the computer apparatus 1 such as a server in which the management controller 6 is mounted, hardware monitoring and management can be continued during the temporary reset of the management controller 6 or even when the management controller 6 cannot be operated due to a failure or the like. Further, since the replacement of the management controller 6 is realized at the software level, not at the hardware level, it is not necessary to mount hardware having the replacement function of the management controller 6, and the mounting to the small computer apparatus 1 is not necessary. Is easy.

図14は、本発明によるコンピュータ装置の主要部を示すブロック図である。図14に示すコンピュータ装置100は、管理コントローラ101がリセット状態に入るときに、管理コントローラ101が保持するデータを取得するOS側データ取得手段102(実施形態では、管理コントローラインタフェース24および管理制御部23で実現される。)と、OS側データ取得手段102が取得したデータを保持するOS側データ保持手段103(実施形態では、イベント情報格納部25およびイベント情報仮格納部26で実現される。)と、OSの管理の下で監視処理を実行し、監視処理によって収集したデータをOS側データ保持手段103に格納するOS側監視手段104(実施形態では、センサ値収集部20およびイベント情報生成部29で実現される。)と、管理コントローラのリセット状態が解除されると、OS側データ保持手段103が保持しているデータを管理コントローラ101に送信するOS側保持データ送信手段105(実施形態では、管理コントローラインタフェース24で実現される。)とを備えている。   FIG. 14 is a block diagram showing the main part of the computer apparatus according to the present invention. The computer apparatus 100 shown in FIG. 14 has an OS-side data acquisition unit 102 (in the embodiment, the management controller interface 24 and the management control unit 23) that acquires data held by the management controller 101 when the management controller 101 enters a reset state. And the OS-side data holding unit 103 that holds the data acquired by the OS-side data acquisition unit 102 (in the embodiment, it is realized by the event information storage unit 25 and the event information temporary storage unit 26). And OS-side monitoring means 104 that executes monitoring processing under the management of the OS and stores the data collected by the monitoring processing in the OS-side data holding means 103 (in the embodiment, the sensor value collection unit 20 and the event information generation unit) 29)), and when the reset state of the management controller is released (In the embodiment, is realized by the management controller interface 24.) OS side holding data transmitting means 105 for transmitting data OS-side data holding means 103 holds the management controller 101 and a.

図15は、本発明による他の態様のコンピュータ装置の主要部を示すブロック図である。図15に示すコンピュータ装置100は、管理コントローラがリセット状態に入るとき、および、リセット状態が解除されたときに、OSの側に割り込みを発行する割込手段106(実施形態では、割り込み生成部16で実現される。)を備えている。   FIG. 15 is a block diagram showing a main part of a computer apparatus according to another aspect of the present invention. The computer apparatus 100 shown in FIG. 15 includes an interrupt unit 106 that issues an interrupt to the OS side when the management controller enters the reset state and when the reset state is released (in the embodiment, the interrupt generation unit 16). Is realized.)

図16は、本発明によるさらに他の態様のコンピュータ装置の主要部を示すブロック図である。図16に示すコンピュータ装置100は、OSの管理の下で、管理コントローラ101に対する問い合わせを行う(例えば、ポーリングする。)問い合わせ手段107(実施形態では、管理コントローラインタフェース24で実現される。)を備え、OS側監視手段104は、管理コントローラ101が問い合わせに対して応答しない場合に、監視処理を開始する。   FIG. 16 is a block diagram showing a main part of a computer apparatus according to still another aspect of the present invention. A computer apparatus 100 shown in FIG. 16 includes inquiry means 107 (implemented by the management controller interface 24 in the embodiment) for making an inquiry (for example, polling) to the management controller 101 under management of the OS. The OS-side monitoring unit 104 starts the monitoring process when the management controller 101 does not respond to the inquiry.

1 コンピュータ装置
2 CPU
3 メモリ
4 チップセットコントローラ
5 ディスク
6 管理コントローラ
7 ファンセンサ
8 温度センサ
9 電圧センサ
10 shared LAN
11 管理用端末
12 管理コントローラファームウェア
13 管理制御部
14 リセット指示部
15 リセット処理部
16 割り込み生成部
17 イベント情報格納部
18 イベント情報仮格納部
19 センサ仕様格納部
20 センサ値収集部
21 ネットワーク制御部
22 管理制御プロセス
23 管理制御部
24 管理コントローラインタフェース
25 イベント情報格納部
26 イベント情報仮格納部
27 センサ仕様格納部
28 センサ値収集部
29 イベント情報生成部
30 ネットワークインタフェース
100 コンピュータ装置
101 管理コントローラ
102 OS側データ取得手段
103 OS側データ保持手段
104 OS側監視手段
105 OS側保持データ送信手段
106 割込手段
107 問い合わせ手段
1 Computer device 2 CPU
3 Memory 4 Chipset controller 5 Disk 6 Management controller 7 Fan sensor 8 Temperature sensor 9 Voltage sensor 10 shared LAN
DESCRIPTION OF SYMBOLS 11 Management terminal 12 Management controller firmware 13 Management control part 14 Reset instruction | indication part 15 Reset process part 16 Interrupt generation part 17 Event information storage part 18 Event information temporary storage part 19 Sensor specification storage part 20 Sensor value collection part 21 Network control part 22 Management control process 23 Management control unit 24 Management controller interface 25 Event information storage unit 26 Event information temporary storage unit 27 Sensor specification storage unit 28 Sensor value collection unit 29 Event information generation unit 30 Network interface 100 Computer device 101 Management controller 102 OS side data Acquisition means 103 OS-side data holding means 104 OS-side monitoring means 105 OS-side holding data transmission means 106 Interrupt means 107 Inquiry means

Claims (8)

OSが動作し、少なくとも周辺ハードウェアの監視処理を行って監視にもとづくデータを収集して保持する管理コントローラを備えたコンピュータ装置で実行されるシステム監視方法であって、
前記管理コントローラがリセット状態に入るときに、前記管理コントローラが保持するデータを取得し、
取得されたデータをOS側データ保持手段に格納し、
前記OSの管理の下で前記監視処理を実行し、該監視処理によって収集されたデータを前記OS側データ保持手段に格納し、
前記管理コントローラのリセット状態が解除されると、前記OS側データ保持手段が保持しているデータを前記管理コントローラに送信する
ことを特徴とするシステム監視方法。
A system monitoring method that is executed by a computer device that includes a management controller that operates an OS and collects and holds data based on monitoring by performing at least peripheral hardware monitoring processing,
When the management controller enters a reset state, obtain data held by the management controller;
Store the acquired data in the OS side data holding means,
Executing the monitoring process under the management of the OS, storing the data collected by the monitoring process in the OS-side data holding means,
When the reset state of the management controller is released, the data held by the OS-side data holding unit is transmitted to the management controller.
OSの管理の下で動作するソフトウエアで、管理コントローラがリセット状態であるときの監視処理を実行する
請求項1記載のシステム監視方法。
The system monitoring method according to claim 1, wherein monitoring processing is executed when the management controller is in a reset state by software operating under management of the OS.
管理コントローラがリセット状態に入るとき、および、リセット状態が解除されたときに、OSの側に割り込みを発行する
請求項1または請求項2記載のシステム監視方法。
The system monitoring method according to claim 1 or 2, wherein an interrupt is issued to the OS when the management controller enters a reset state and when the reset state is released.
OSの管理の下で、管理コントローラに対する問い合わせを行い、
管理コントローラが前記問い合わせに対して応答しない場合に、OSの管理の下での監視処理を開始する
請求項1から請求項3のうちのいずれか1項に記載のシステム監視方法。
Make an inquiry to the management controller under the management of the OS,
The system monitoring method according to any one of claims 1 to 3, wherein when the management controller does not respond to the inquiry, monitoring processing under management of the OS is started.
OSが動作し、少なくとも周辺ハードウェアの監視処理を行う管理コントローラを備えたコンピュータ装置であって、
前記管理コントローラがリセット状態に入るときに、前記管理コントローラが保持するデータを取得するOS側データ取得手段と、
前記OS側データ取得手段が取得したデータを保持するOS側データ保持手段と、
前記OSの管理の下で前記監視処理を実行し、該監視処理によって収集したデータを前記OS側データ保持手段に格納するOS側監視手段と、
前記管理コントローラのリセット状態が解除されると、前記OS側データ保持手段が保持しているデータを前記管理コントローラに送信するOS側保持データ送信手段と
を備えたことを特徴とするコンピュータ装置。
A computer device including a management controller on which an OS operates and performs at least monitoring processing of peripheral hardware,
OS-side data acquisition means for acquiring data held by the management controller when the management controller enters a reset state;
OS side data holding means for holding data acquired by the OS side data acquisition means;
An OS-side monitoring unit that executes the monitoring process under management of the OS and stores data collected by the monitoring process in the OS-side data holding unit;
A computer apparatus comprising: OS-side retained data transmitting means for transmitting data retained by the OS-side data retaining means to the management controller when the reset state of the management controller is released.
OS側監視手段は、OSの管理の下で動作するソフトウエアによって監視処理を実行する
請求項5記載のコンピュータ装置。
The computer apparatus according to claim 5, wherein the OS side monitoring unit executes monitoring processing by software operating under management of the OS.
管理コントローラがリセット状態に入るとき、および、リセット状態が解除されたときに、OSの側に割り込みを発行する割込手段を備えた
請求項5または請求項6記載のコンピュータ装置。
The computer apparatus according to claim 5 or 6, further comprising interrupt means for issuing an interrupt to the OS side when the management controller enters the reset state and when the reset state is released.
OSの管理の下で、管理コントローラに対する問い合わせを行う問い合わせ手段を備え、
OS側監視手段は、管理コントローラが前記問い合わせに対して応答しない場合に、監視処理を開始する
請求項5から請求項7のうちのいずれか1項に記載のコンピュータ装置。
Inquiry means for making an inquiry to the management controller under the management of the OS,
The computer apparatus according to any one of claims 5 to 7, wherein the OS-side monitoring unit starts monitoring processing when the management controller does not respond to the inquiry.
JP2017065756A 2017-03-29 2017-03-29 System monitoring method and computer equipment Active JP6844375B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017065756A JP6844375B2 (en) 2017-03-29 2017-03-29 System monitoring method and computer equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017065756A JP6844375B2 (en) 2017-03-29 2017-03-29 System monitoring method and computer equipment

Publications (2)

Publication Number Publication Date
JP2018169737A true JP2018169737A (en) 2018-11-01
JP6844375B2 JP6844375B2 (en) 2021-03-17

Family

ID=64020382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017065756A Active JP6844375B2 (en) 2017-03-29 2017-03-29 System monitoring method and computer equipment

Country Status (1)

Country Link
JP (1) JP6844375B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193492A (en) * 2008-02-18 2009-08-27 Nec Computertechno Ltd Computer system, information processing method, and program
JP2015146063A (en) * 2014-01-31 2015-08-13 キヤノン株式会社 Handling process of memory leak and abnormal termination of management process
JP2015230720A (en) * 2014-06-09 2015-12-21 株式会社日立製作所 Computer system
US20170083425A1 (en) * 2015-09-23 2017-03-23 Hon Hai Precision Industry Co., Ltd. Detection system and method for baseboard management controller

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193492A (en) * 2008-02-18 2009-08-27 Nec Computertechno Ltd Computer system, information processing method, and program
JP2015146063A (en) * 2014-01-31 2015-08-13 キヤノン株式会社 Handling process of memory leak and abnormal termination of management process
JP2015230720A (en) * 2014-06-09 2015-12-21 株式会社日立製作所 Computer system
US20170083425A1 (en) * 2015-09-23 2017-03-23 Hon Hai Precision Industry Co., Ltd. Detection system and method for baseboard management controller

Also Published As

Publication number Publication date
JP6844375B2 (en) 2021-03-17

Similar Documents

Publication Publication Date Title
US9021317B2 (en) Reporting and processing computer operation failure alerts
JP4940967B2 (en) Storage system, storage device, firmware hot replacement method, firmware hot swap program
US8788636B2 (en) Boot controlling method of managed computer
US8245077B2 (en) Failover method and computer system
JP6996602B1 (en) BMC, server system, device stability determination method and program
US20170109235A1 (en) Baseboard management controller recovery
CN100383748C (en) Policy-based responses to system errors that occur during OS runtime
TW201417536A (en) Method and system for automatically managing servers
US20160277271A1 (en) Fault tolerant method and system for multiple servers
JP6124644B2 (en) Information processing apparatus and information processing system
KR20040047209A (en) Method for automatically recovering computer system in network and recovering system for realizing the same
JP2017091077A (en) Simulated fault generation program, generation method, and generation apparatus
CN120492200A (en) Hardware detection process exception handling method and device and electronic equipment
CN111488050B (en) Power supply monitoring method, system and server
US7684654B2 (en) System and method for fault detection and recovery in a medical imaging system
CN114138574B (en) Controller testing methods, apparatus, servers, and storage media
JP5332257B2 (en) Server system, server management method, and program thereof
JP4495248B2 (en) Information processing apparatus and failure processing method
JP6844375B2 (en) System monitoring method and computer equipment
JP2007025933A (en) Storage system and firmware automatic update method thereof
US12047442B1 (en) Configuring a replacement node using a configuration backup of a failed node being replaced
CN119806745A (en) Cloud platform virtual machine operating system anomaly detection and recovery method, device and medium
JP2001331330A (en) Process error detection and recovery system
JP2018116477A (en) Information processing apparatus and information processing system
WO2017072904A1 (en) Computer system and failure detection method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R150 Certificate of patent or registration of utility model

Ref document number: 6844375

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150