JP2010009293A - Computer system and system switching method - Google Patents
Computer system and system switching method Download PDFInfo
- Publication number
- JP2010009293A JP2010009293A JP2008167443A JP2008167443A JP2010009293A JP 2010009293 A JP2010009293 A JP 2010009293A JP 2008167443 A JP2008167443 A JP 2008167443A JP 2008167443 A JP2008167443 A JP 2008167443A JP 2010009293 A JP2010009293 A JP 2010009293A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- standby
- active
- monitoring
- computers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
【課題】現用系及び待機系のコンピュータから構成されるコンピュータシステムの系切替を高速に行うことを可能とする。
【解決手段】現用系及び待機系のコンピュータ101、102がOS116を格納した1つのディスク104を共有し、また、これらのコンピュータの状態を監視し、系切替の制御を行う監視系コンピュータ103が現用系及び待機系のコンピュータに接続されている。監視系コンピュータ103は、システムの立ち上げ時、現用系及び待機系のコンピュータの電源をオンとさせ、現用系及び待機系のコンピュータにハードウェア初期化及びセルフテストを行わせ、その後、現用系コンピュータにサービスを提供する処理を実行させ、待機系コンピュータをその状態で待機させ、現用系コンピュータの障害を検出したとき、待機系コンピュータに現用系コンピュータが行っていた処理を引き継がせる。
【選択図】図1It is possible to perform high-speed system switching of a computer system composed of an active computer and a standby computer.
An active computer and a standby computer share a single disk that stores an OS, and a monitoring computer that monitors the status of these computers and controls system switching is used. It is connected to the primary and standby computers. When the system is started up, the monitoring computer 103 turns on the power of the active and standby computers, causes the active and standby computers to perform hardware initialization and self-test, and then the active computer When the failure of the active computer is detected, the standby computer is made to take over the processing performed by the active computer.
[Selection] Figure 1
Description
本発明は、コンピュータシステム及び系切替方法に係り、特に、複数のコンピュータを現用系と待機系とにより多重化し、系切替を可能としたコンピュータシステム及び系切替方法に関する。 The present invention relates to a computer system and a system switching method, and more particularly to a computer system and a system switching method in which a plurality of computers are multiplexed by an active system and a standby system to enable system switching.
現代の社会では、コンピュータシステムを用いて24時間365日休みなくインターネット等を介して各種のサービスを提供することが求められている。そのため、コンピュータシステムとしては、障害が発生した場合でも、できるだけ短時間で障害から復旧し、サービスの提供を継続することができる高信頼なものが求められている。 In the modern society, it is required to provide various services through the Internet etc. without using a computer system for 24 hours 365 days a day. Therefore, a highly reliable computer system is required that can recover from a failure and continue providing services in the shortest possible time even when a failure occurs.
信頼性の高いコンピュータシステムを実現する方法の1つとして、複数のコンピュータを多重化して利用する方法がある。この方法は、現用系コンピュータの処理を引継ぐ待機系のコンピュータを設けてコンピュータシステムを構成するというものである。これにより、現用系のコンピュータに障害が発生した場合でも、待機系のコンピュータへ系の切替を行うことができ、待機系コンピュータが処理を継続することが可能となる。 One method for realizing a highly reliable computer system is to use a plurality of computers in a multiplexed manner. In this method, a computer system is configured by providing a standby computer that takes over the processing of the active computer. As a result, even when a failure occurs in the active computer, the system can be switched to the standby computer, and the standby computer can continue processing.
そして、系の切替を行う方法として、コールドスタンバイと呼ばれる方法が知られている。このコールドスタンバイと呼ばれる系切替の方法は、サービスの提供に必要なOSやアプリケーションを格納したシステムディスクを共有した現用系コンピュータと待機系コンピュータとによりコンピュータシステムを構成し、現用系のコンピュータに障害が発生した場合に、待機系のコンピュータを起動し、系切替を行うことにより処理を継続するというものである。前述したようなコールドスタンバイによる系の切替を用いることにより、コンピュータシステムの信頼性を向上させることができるが、この方法は、障害発生後に待機系を起動するために、待機系が起動を完了し、サービスを提供するまでに、30分から1時間程度の時間が掛かるという欠点があった。 A method called cold standby is known as a method for switching the system. In this system switching method called cold standby, a computer system is configured by an active computer and a standby computer that share a system disk storing an OS and applications necessary for providing a service, and there is a problem with the active computer. When this occurs, the standby computer is started and the processing is continued by switching the system. Although the reliability of the computer system can be improved by using the system switching by the cold standby as described above, this method starts the standby system after the failure occurs. However, it takes about 30 minutes to 1 hour to provide the service.
コンピュータを高速に起動させることを可能とした従来技術として、高速ブート技術がある。この高速ブート技術は、コンピュータの起動時に行われるハードウェアのセルフテストを省略することにより、起動の高速化を実現することを可能としたものである。しかし、この技術は、起動するコンピュータのハードウェアに障害があった場合に、OSやアプリケーションを起動することができないため、ハードウェアをリセットして、ハードウェアのセルフテストを実施し、障害のある部位を切り離す処理を行わなければならないため、高速な起動ができなくなってしまうものである。 As a conventional technique that enables a computer to be started at high speed, there is a high-speed boot technique. This high-speed boot technology makes it possible to realize a high-speed startup by omitting the hardware self-test performed at the time of startup of the computer. However, since this technology cannot start the OS or application when there is a failure in the computer hardware to be started, the hardware is reset and the hardware self-test is performed. Since the process of separating the part has to be performed, high-speed activation cannot be performed.
なお、前述したコンピュータを高速に起動させる技術である高速ブート技術に関する従来技術として、例えば、特許文献1等に記載された技術が知られている。
前述で説明したサービスの提供に必要なOSやアプリケーションを格納したシステムディスクを共有した現用系のコンピュータと待機系のコンピュータとによりコンピュータシステムを構成し、コールドスタンバイによる系の切替が可能にしたコンピュータ処理は、現用系のコンピュータに障害が発生した後、待機系のコンピュータを起動するために、待機系のコンピュータが起動を完了し、サービスを提供するまでに30分から1時間程度の大きな時間が掛かり、その間、サービスが停止するという問題点を有している。 Computer processing in which a computer system is configured by the active computer and the standby computer sharing the system disk storing the OS and applications necessary for providing the service described above, and the system can be switched by cold standby. In order to start the standby computer after a failure occurs in the active computer, it takes about 30 minutes to 1 hour until the standby computer completes startup and provides the service. Meanwhile, there is a problem that the service is stopped.
前述の問題は、待機系のコンピュータに前述した高速ブート技術を適用することによりある程度解決することができる。しかし、高速ブート技術を適用しても、その場合のコンピュータシステムは、待機系コンピュータのハードウェアに障害があった場合、OSやアプリケーションを起動できないため、ハードウェアをリセットして、ハードウェアのセルフテストを実施し、障害のある部位を切り離して、起動する必要があるため、待機系が起動を完了し、サービスを提供するまでに必要な時間を短縮できないという問題点を生じさせてしまう。 The above-described problem can be solved to some extent by applying the above-described high-speed boot technique to a standby computer. However, even if fast boot technology is applied, the computer system in that case cannot start the OS or application if there is a failure in the hardware of the standby computer. Since it is necessary to perform a test, isolate the faulty part, and start up, the standby system completes the start-up and the time required to provide the service cannot be shortened.
本発明の目的は、前述したような点に鑑み、現用系コンピュータと待機系コンピュータとから構成されるコンピュータシステムにおける系切替を高速に行うことができるようにしたコンピュータシステム及び系切替方法を提供することにある。 In view of the above-described points, an object of the present invention is to provide a computer system and a system switching method that can perform system switching at high speed in a computer system composed of an active computer and a standby computer. There is.
本発明によれば前記目的は、現用系コンピュータと待機系コンピュータとがオペレーティングシステムを格納したディスクを共有するコンピュータシステムにおいて、前記待機系コンピュータは、前記コンピュータシステムの立ち上げ時、ハードウェア初期化及びセルフテストを行った状態で待機し、前記現用系コンピュータの障害が通知されたとき、現用系コンピュータが行っていた処理を引き継ぐことにより達成される。 According to the present invention, the object is to provide a computer system in which the active computer and the standby computer share the disk storing the operating system, and the standby computer performs hardware initialization and startup when the computer system is started up. This is achieved by waiting in a state where a self-test has been performed and taking over the processing performed by the active computer when the failure of the active computer is notified.
また、前記目的は、現用系コンピュータと待機系コンピュータとがオペレーティングシステムを格納したディスクを共有するコンピュータシステムにおいて、前記現用系コンピュータと前記待機系コンピュータとの状態を監視し、系切替の制御を行う監視系コンピュータが前記現用系コンピュータと前記待機系コンピュータとに接続されており、前記監視系コンピュータは、前記コンピュータシステムの立ち上げ時、前記現用系及び待機系のコンピュータの電源をオンとさせ、前記現用系及び待機系のコンピュータにハードウェア初期化及びセルフテストを行わせ、その後、前記現用系コンピュータにサービスを提供する処理を実行させ、前記待機系コンピュータをその状態で待機させ、前記現用系コンピュータの障害を検出したとき、前記待機系コンピュータに前記現用系コンピュータが行っていた処理を引き継がせることにより達成される。 The object is to monitor the status of the active computer and the standby computer and control the system switching in a computer system in which the active computer and the standby computer share the disk storing the operating system. A monitoring computer is connected to the active computer and the standby computer, and when the computer system is started up, the monitoring computer turns on the power of the active computer and the standby computer, and Causing the active computer and the standby computer to perform hardware initialization and self-test; then, causing the active computer to execute a process of providing a service; causing the standby computer to wait in that state; and the active computer When a failure is detected, Is accomplished by to take over the active computer is performing processing to the machine system computer.
本発明によれば、待機系コンピュータのハードウェアに、起動可能な程度の障害があるような場合にも、待機系コンピュータを速やかに稼動状態にすることが可能となり、系切替を高速に行うことが可能となり、これにより、現用系コンピュータで行われていた処理を、速やかに待機系コンピュータで継続することが可能となる。 According to the present invention, even when there is a failure that can be activated in the hardware of the standby computer, it becomes possible to quickly bring the standby computer into an operating state and perform system switching at high speed. As a result, the processing performed on the active computer can be promptly continued on the standby computer.
以下、本発明によるコンピュータシステム及び系切替方法の実施形態を図面により詳細に説明する。 Embodiments of a computer system and a system switching method according to the present invention will be described below in detail with reference to the drawings.
図1は本発明の一実施形態によるコンピュータシステムの構成を示すブロック図である。 FIG. 1 is a block diagram showing the configuration of a computer system according to an embodiment of the present invention.
図1に示す本発明の実施形態によるコンピュータシステムは、現用系コンピュータ101と、待機系コンピュータ102と、監視系コンピュータ103とが、現用系及び待機系コンピュータ101、102が備えるネットワーク制御装置114と監視系コンピュータ103が備えるネットワーク制御装置126とを介して接続されて構成されている。
The computer system according to the embodiment of the present invention shown in FIG. 1 includes an
現用系コンピュータ101は、CPU111、メモリ105、ディスク制御装置112、電源制御装置113、ネットワーク制御装置114を備えて構成されている。待機系コンピュータ102は、図1にはその内部構成を示していないが、現用系コンピュータ101と全く同一に構成されている。そして、現用系コンピュータ101と待機系コンピュータ102とは、1つのディスク104を共有している。ディスク104には、OSブートローダ115、OS116、アプリケーション117が格納されている。
The
現用系コンピュータ101または待機系コンピュータ102は、それらのコンピュータが起動された際、ディスク104の内容がメモリ105に読み込まれる。また、メモリ105には、コンピュータ内の図示しないROMに格納されているファームウェアが読み込まれる。これにより、メモリ105には、アプリケーション106と、OS108と、ファームウェア109が読み込まれることになる。アプリケーション106の中には、ハートビート命令列107が含まれている。また、ファームウェア109の中には、起動再開命令列110が含まれている。
When the
監視系コンピュータ103は、CPU125、メモリ118、ネットワーク制御装置126、ディスク制御装置127、ディスク128、コンソール制御装置129を備えて構成されている。この監視系コンピュータ103は、起動された際、メモリ118には、アプリケーション119、OS123がディスク128から、図示しないROMからファームウェア124が読み込まれることになる。アプリケーション119の中には、現用系待機系管理テーブル120、起動命令列121、復帰命令列122が含まれている。
The
前述した本発明の実施形態は、現用系、待機系、監視系のコンピュータをそれぞれ1台備えてコンピュータシステムを構成しているものとしているが、本発明は、現用系コンピュータ複数台に対して、待機系コンピュータ1台を設けてコンピュータシステムを構成することもできる。 In the embodiment of the present invention described above, a computer system is configured by including one active computer, one standby computer, and one monitoring computer, but the present invention is provided for a plurality of active computers. A computer system can be configured by providing one standby computer.
図2は監視系コンピュータ103のアプリケーション119の中に含まれる現用系待機系管理テーブル120の構成例を示す図である。この管理テーブル120は、コンピュータ識別子202の列、現用系か待機系かを示す現用系/待機系203の列、コンピュータの状態を示す状態204の列が設けられて構成されている。
FIG. 2 is a diagram showing a configuration example of the active standby system management table 120 included in the
コンピュータ識別子202の列には、本発明の実施形態でのコンピュータシステムを構成しているコンピュータのIPアドレス205、206の情報が格納される。また、現用系か待機系かを示す現用系/待機系203の列には、コンピュータのIPアドレス205、206の行に対応させてそれらのコンピュータが現用系か待機系かを示す現用系207、待機系208の情報が格納される。さらに、状態の列204には、現用系あるいは待機系となっているコンピュータの状態として、停止、待機、稼動の3種類の状態の情報が格納される。図示例では、いずれにも停止209、210が格納されている。
In the column of the
図3は現用系コンピュータ101及び待機系コンピュータ102のアプリケーション106の中にあるハートビート命令列107の処理動作を説明するフローチャートであり、次に、これについて説明する。
FIG. 3 is a flowchart for explaining the processing operation of the
(1)ハートビート命令列は、監視系コンピュータ103から送られてくるハートビート確認パケットを受信したか否かを判定し、受信しなかった場合、受信するまでハートビート確認パケット受信の有無の判定を繰り返す(ステップ302)。
(1) The heartbeat command sequence determines whether or not a heartbeat confirmation packet sent from the
(2)ステップ302の判定で、ハートビート確認パケットを受信した場合、ハートビート応答パケットを監視系コンピュータ103に送信する(ステップ303)。
(2) If a heartbeat confirmation packet is received in the determination in
ハートビート命令列107は、前述した一連の処理を繰り返すことにより、監視系コンピュータ103に、自コンピュータが生きていることを知らせることができる。
The
図4は現用系及び待機系の各コンピュータのファームウェア109の処理動作を説明するフローチャートであり、次に、これについて説明する。
FIG. 4 is a flowchart for explaining the processing operation of the
(1)現用系及び待機系の各コンピュータは、電源がオンとされると、ファームウェア109を起動し、ファームウェア109は、ハードウェアの初期化処理及びセルフテストを実行し、実行の結果、障害のあったハードウェアを切り離す(ステップ402)。
(1) When the power supply is turned on, the active computer and the standby computer start up the
(2)次に、ファームウェア109は、起動再開命令列110を呼び出し、その後、OSブートローダ115に処理を渡して、ここでの処理を終了する(ステップ403〜405)。
(2) Next, the
前述において、OSブートローダ115は、ディスク104内のOS116をメモリ105にロードして、現用系及び待機系の各コンピュータを動作可能な状態にする。
As described above, the
図5は現用系及び待機系の各コンピュータのファームウェア109の中にある起動再開命令列110の処理動作を説明するフローチャートであり、次に、これについて説明する。
FIG. 5 is a flowchart for explaining the processing operation of the activation /
(1)起動再開命令列110は、図4で説明したステップ402の処理で、コンピュータの電源オンによってハードウェアの初期化処理及びセルフテストが実行されて完了すると、セルフテスト完了パケットを監視系コンピュータ103に対して送信する。現用系及び待機系の各コンピュータ101、102は、監視系コンピュータ103を特定する情報を持っていないため、セルフテスト完了パケットは、ブロードキャストにより送信される(ステップ502)。
(1) The start /
(2)その後、起動再開命令列110は、監視系コンピュータ103から起動再開パケットを受信したか否かを判定し、受信した場合、起動の処理を再開する。すなわち、図4のステップ404からの処理を開始させる。起動再開パケットを受信できなかった場合、受信するまで、自コンピュータの起動がセルフテスト完了の状態で中断されたままとなる(ステップ503)。
(2) Thereafter, the activation
図6A、図6B、図6Cは監視系コンピュータ103のアプリケーション119が持つ起動命令列121の処理動作を説明するフローチャートであり、次に、これについて説明する。なお、図6A、図6B、図6Cは、一連の処理動作を示しているので、以下の説明も、一連の処理として説明することとし、また、監視系コンピュータが実行する処理として説明する。
6A, 6B, and 6C are flowcharts for explaining the processing operation of the
(1)監視系コンピュータ103は、現用系と待機系との各コンピュータ101、102に対して、各コンピュータの電源をオンにするためのパケットを送信する(ステップ602)。
(1) The
(2)電源をオンにするためのパケットを受信した現用系と待機系との各コンピュータ101、102のそれぞれは、自コンピュータの電源をオンとし、図4により説明した処理を行って、セルフテスト完了後に完了パケットを送信してくるので、現用系と待機系との各コンピュータ101、102からのセルフテスト完了パケットを受信したか否かを判定し、受信した場合、管理テーブル120の状態204の列における現用系209、待機系210の状態を、初期状態の停止から待機に変更する(ステップ603、604)。
(2) Each of the active and
(3)ステップ603の判定で、セルフテスト完了パケットを受信しなかた場合、受信するまで、監視系コンピュータ103の動作は中断されることになる。
(3) If it is determined in
(4)監視系コンピュータ103は、管理テーブル120の状態204を変更した後、現用系コンピュータ101に対して、起動再開パケットを送信すると共に、ハートビート確認パケットを送信する(ステップ605、606)。
(4) After changing the
(5)現用系コンピュータ101からハートビート応答パケットを受信したか否かを判定し、ハートビート応答パケットを受信した場合、現用系コンピュータ101が稼動したとみなし、管理テーブル120の現用系の状態209を待機から稼動に変更する(ステップ607、608)。
(5) It is determined whether or not a heartbeat response packet has been received from the
(6)ステップ607の判定で、ハートビート応答パケットを受信しなかった場合、ステップ606からの処理に戻って、ハートビート確認パケットを再び送信し、ハートビート応答パケットを受信するまで処理を繰り返す。
(6) If the heartbeat response packet is not received in the determination in
(7)ステップ608の処理で管理テーブル120の状態204を変更した後、タイマーを設定し、現用系コンピュータ101にハートビート確認パケットを送信する(ステップ609、610)。
(7) After changing the
(8)現用系コンピュータ101からハートビート応答パケットを受信したか否かを判定し、ハートビート応答パケットを受信した場合、ステップ609からの処理に戻り、再びタイマーを設定する処理からの処理を続ける(ステップ611)。
(8) It is determined whether or not a heartbeat response packet has been received from the
(9)ステップ611の判定で、ハートビート応答パケットを受信しなかった場合、タイマーを進め、タイマーが規定した時間経過したか否かを判定し、規定した時間経過していなければ、ステップ611からの処理に戻って、ハートビート応答パケットを受信したか否かの判断処理からの処理を続ける(ステップ612、613)。
(9) If the heartbeat response packet is not received in the determination in
(10)ステップ613の判定で、タイマーが一定時間経過した場合、現用系コンピュータ101の障害によるハートビートタイムアウトとみなし、現用系コンピュータ101の電源をオフにし、管理テーブル120の状態204の現用系の状態209を稼動から停止に変更する(ステップ614、615)。
(10) If it is determined in
(11)その後、監視系コンピュータ103は、待機系コンピュータ102に起動再開パケットを送信すると共に、ハートビート確認パケットを送信する(ステップ616、617)。
(11) Thereafter, the
(12)待機系コンピュータ102からハートビート応答パケットを受信したか否かを判定し、ハートビート応答パケットを受信した場合、待機系コンピュータ102が稼動したとみなし、管理テーブル120の待機系の状態210を待機から稼動に変更する(ステップ618、619)。
(12) It is determined whether or not a heartbeat response packet has been received from the
(13)ステップ618の判定で、ハートビート応答パケットを受信しなかった場合、ステップ617からの処理に戻って、ハートビート確認パケットを再び送信し、ハートビート応答パケットを受信するまで処理を繰り返す。
(13) If the heartbeat response packet is not received in
(14)監視系コンピュータ103は、管理テーブル120の待機系の状態210を待機から稼動に変更した後、管理テーブル120の現用系か待機系かを示す現用系/待機系203の列の現用系の表示207を待機系の表示に変更し、待機系の表示208を現用系表示に変更する(ステップ620)。
(14) The
(15)次に、監視系コンピュータ103は、管理テーブル120で、待機系表示となったコンピュータを交換する旨のメッセージをコンソール制御装置129を介して表示する(ステップ621)。
(15) Next, the
(16)ステップ621でのメッセージ表示後、保守員が速やかにコンピュータの交換を行うものとし、さらに、交換後、保守員が監視系コンピュータ103のアプリケーション119の中にある復帰命令列122を実行するものとする。これにより、待機系コンピュータ102と現用系コンピュータ101とが使用可能となり、ステップ609からの処理に戻ってタイマー設定からの処理を続けることができる。
(16) After the message is displayed in
図7は監視系コンピュータ103のアプリケーション119が持つ復帰命令列122の処理動作を説明するフローチャートであり、次に、これについて説明する。
FIG. 7 is a flowchart for explaining the processing operation of the
(1)コンピュータの交換後、保守員が復帰命令列122を立ち上げると、監視系コンピュータ103は、待機系コンピュータ102(説明している本発明の実施形態での例では、障害となって停止したコンピュータを交換した後のコンピュータ)に対して、電源をオンにするためのパケットを送信する(ステップ702)。
(1) When the maintenance engineer starts up the
(2)待機系コンピュータ102は、監視系コンピュータ103からの指示により電源をオンとし、ハードウェアのセルフテストが完了するとセルフテスト完了パケットを監視系コンピュータ103へ送信してくるので、監視系コンピュータ103は、そのパケットを受信するまで待つ(ステップ703)。
(2) The
(3)監視系コンピュータ103は、セルフテスト完了パケットを受信した場合、管理テーブル120の状態204の列の待機系の状態209(復帰命令列は、待機系と現用系の系切替後に実行される命令列のため、ここでの待機系の状態を表す情報の場所は209に該当する)を停止から待機に変更して、ここでの処理を終了する(ステップ704)。
(3) When the
図8は図6A〜図6C及び図7に示して監視系コンピュータの処理として説明した本発明の実施形態での処理を、現用、待機、監視の各コンピュータ間の処理として示したシーケンスチャートであり、次に、これについて説明する。 FIG. 8 is a sequence chart showing the processing in the embodiment of the present invention described as the processing of the monitoring computer shown in FIGS. 6A to 6C and FIG. 7 as processing among the active, standby, and monitoring computers. Next, this will be described.
(1)監視系コンピュータ103は、現用系と待機系との各コンピュータ101、102に対して、各コンピュータの電源をオンにするように指示する(ステップ801、802)。
(1) The
(2)現用系と待機系との各コンピュータ101、102は、ステップ801、802での監視系コンピュータ103からの指示を受けて、自コンピュータの電源をオンとし、ハードウェアの初期化及びセルフテストを実行する(ステップ803、804)。
(2) In response to an instruction from the
(3)現用系と待機系との各コンピュータ101、102は、ハードウェアのセルフテストの完了後に、完了パケットを監視系コンピュータ103に送信する(ステップ805、806)。
(3) After completion of the hardware self-test, each of the active and
(4)監視系コンピュータ103は、現用系と待機系との各コンピュータ101、102からセルフテスト完了パケットを受信すると、現用系コンピュータ101に起動再開パケットを送信し、待機系コンピュータ102に対しては、何もしない。この結果、待機系コンピュータ102は、この時点から、待機中となる(ステップ807)。
(4) When the
(5)起動再開パケットを受信した現用系コンピュータ101は、OSの初期化、アプリケーションの初期化を行って、サービスを開始してサービス提供中の状態となる(ステップ808〜810)。
(5) The
(6)現用系コンピュータ101がサービスの提供中、監視系コンピュータ103は、一定時間毎に、現用系コンピュータ101へのハートビート確認パケットの送信と現用系コンピュータ101からのハートビート応答パケットの受信を繰り返して、現用系コンピュータ101が正常にサービスを提供していることを確認する(ステップ811、812)。
(6) While the
(7)現用系コンピュータ101がサービスの提供中に障害となりサービスを停止すると、現用系コンピュータ101は、監視系コンピュータ103からのハートビート確認パケットに対するハートビート応答パケットの送信を行うことができなくなる。これにより、監視系コンピュータ103は、現用系コンピュータ101の障害を検出する(ステップ813〜816)。
(7) If the
(8)現用系コンピュータ101の障害を検出した監視系コンピュータ103は、現用系コンピュータ101に対して電源オフを指示すると共に、待機系コンピュータ102に対して起動再開パケットを送信する(ステップ817、818)。
(8) The
(9)起動再開パケットを受信した待機系コンピュータ102は、OSの初期化、アプリケーションの初期化を行って、現用系コンピュータとしてサービスを開始してサービス提供中の状態となる(ステップ819〜821)。
(9) The
(10)待機系コンピュータ102がサービスの提供中、監視系コンピュータ103は、一定時間毎に、待機系コンピュータ102へのハートビート確認パケットの送信と待機系コンピュータ102からのハートビート応答パケットの受信を繰り返して、待機系コンピュータ102が正常にサービスを提供していることを確認する(ステップ822、823)。
(10) While the
(11)一方、障害となりサービスを停止していた現用系コンピュータ101は、保守員によりコンピュータ交換等の対処がなされ、その後、保守員により監視系コンピュータ103の復帰命令列が起動される(ステップ824、825)。
(11) On the other hand, the
(12)監視系コンピュータ103は、復帰命令列が起動されたことにより、停止中の現用系コンピュータ101に対して電源をオンとするように指示する(ステップ826)。
(12) When the return instruction sequence is activated, the
(13)現用系コンピュータ101は、監視系コンピュータ103からの指示を受けて、自コンピュータの電源をオンとし、ハードウェアの初期化及びセルフテストを実行し、ハードウェアのセルフテストの完了後に、完了パケットを監視系コンピュータ103に送信して、待機中の状態となる(ステップ827、828)。
(13) In response to the instruction from the
前述した本発明の実施形態での各処理は、プログラムにより構成し、本発明が備えるCPUに実行させることができ、また、それらのプログラムは、FD、CDROM、DVD等の記録媒体に格納して提供することができ、また、ネットワークを介してディジタル情報により提供することができる。 Each process in the above-described embodiment of the present invention is configured by a program and can be executed by a CPU included in the present invention. These programs are stored in a recording medium such as an FD, CDROM, or DVD. It can be provided and can be provided by digital information via a network.
101 現用系コンピュータ
102 待機系コンピュータ
103 監視系コンピュータ
104、128 ディスク
105、118 メモリ
106、117、119 アプリケーション
107 ハートビート命令列
108、116、123 OS
109、124 ファームウェア
110 起動再開命令列
111、125 CPU
112、127 ディスク制御装置
113 電源制御装置
114、126 ネットワーク制御装置
115 OSブートローダ
120 現用系待機系管理テーブル
121 起動命令列
122 復帰命令列
129 コンソール制御装置
101
109, 124
112, 127
Claims (3)
前記待機系コンピュータは、前記コンピュータシステムの立ち上げ時、ハードウェア初期化及びセルフテストを行った状態で待機し、前記現用系コンピュータの障害が通知されたとき、現用系コンピュータが行っていた処理を引き継ぐことを特徴とするコンピュータシステム。 In a computer system in which an active computer and a standby computer share a disk storing an operating system,
The standby computer waits in a state where hardware initialization and self-test are performed when the computer system is started up, and when the failure of the active computer is notified, the processing performed by the active computer A computer system characterized by taking over.
前記現用系コンピュータと前記待機系コンピュータとの状態を監視し、系切替の制御を行う監視系コンピュータが前記現用系コンピュータと前記待機系コンピュータとに接続されており、
前記監視系コンピュータは、前記コンピュータシステムの立ち上げ時、前記現用系及び待機系のコンピュータの電源をオンとさせ、前記現用系及び待機系のコンピュータにハードウェア初期化及びセルフテストを行わせ、その後、前記現用系コンピュータにサービスを提供する処理を実行させ、前記待機系コンピュータをその状態で待機させ、前記現用系コンピュータの障害を検出したとき、前記待機系コンピュータに前記現用系コンピュータが行っていた処理を引き継がせることを特徴とするコンピュータシステム。 In a computer system in which an active computer and a standby computer share a disk storing an operating system,
A monitoring computer that monitors the status of the active computer and the standby computer and controls system switching is connected to the active computer and the standby computer;
When the computer system is started up, the monitoring computer turns on the active and standby computers to cause the active and standby computers to perform hardware initialization and self-test. The active computer was executed on the standby computer when the active computer was caused to execute a process of providing a service, the standby computer was in that state, and a failure of the active computer was detected. A computer system characterized in that processing can be taken over.
前記現用系コンピュータと前記待機系コンピュータとの状態を監視し、系切替の制御を行う監視系コンピュータが前記現用系コンピュータと前記待機系コンピュータとに接続されており、
前記監視系コンピュータは、前記コンピュータシステムの立ち上げ時、前記現用系及び待機系のコンピュータの電源をオンとさせ、前記現用系及び待機系のコンピュータにハードウェア初期化及びセルフテストを行わせ、その後、前記現用系コンピュータにサービスを提供する処理を実行させ、前記待機系コンピュータをその状態で待機させ、前記現用系コンピュータの障害を検出したとき、前記待機系コンピュータに前記現用系コンピュータが行っていた処理を引き継がせることを特徴とする系切替方法。 In a system switching method in a computer system in which a working computer and a standby computer share a disk storing an operating system,
A monitoring computer that monitors the status of the active computer and the standby computer and controls system switching is connected to the active computer and the standby computer;
When the computer system is started up, the monitoring computer turns on the active and standby computers to cause the active and standby computers to perform hardware initialization and self-test. The active computer was executed on the standby computer when the active computer was caused to execute a process of providing a service, the standby computer was in that state, and a failure of the active computer was detected. A system switching method characterized in that the processing is taken over.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008167443A JP2010009293A (en) | 2008-06-26 | 2008-06-26 | Computer system and system switching method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008167443A JP2010009293A (en) | 2008-06-26 | 2008-06-26 | Computer system and system switching method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2010009293A true JP2010009293A (en) | 2010-01-14 |
Family
ID=41589716
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008167443A Pending JP2010009293A (en) | 2008-06-26 | 2008-06-26 | Computer system and system switching method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2010009293A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012190128A (en) * | 2011-03-09 | 2012-10-04 | Nec Corp | Fast startup method, fast startup device and fast startup program against degeneration of hardware configuration |
| JP2013045224A (en) * | 2011-08-23 | 2013-03-04 | Nec Computertechno Ltd | Multiplexer and method of controlling the same |
| JP5921782B2 (en) * | 2013-09-26 | 2016-05-24 | 三菱電機株式会社 | Communication system, standby apparatus, communication method, and standby program |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04268643A (en) * | 1991-02-22 | 1992-09-24 | Nec Corp | Information processing system |
| JPH0540649A (en) * | 1991-08-05 | 1993-02-19 | Nec Corp | Redundant switching system |
| JPH05303509A (en) * | 1992-04-27 | 1993-11-16 | Fujitsu Ltd | Standby control system |
| WO2007094041A1 (en) * | 2006-02-14 | 2007-08-23 | Fujitsu Limited | Server managing device and server managing program |
-
2008
- 2008-06-26 JP JP2008167443A patent/JP2010009293A/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04268643A (en) * | 1991-02-22 | 1992-09-24 | Nec Corp | Information processing system |
| JPH0540649A (en) * | 1991-08-05 | 1993-02-19 | Nec Corp | Redundant switching system |
| JPH05303509A (en) * | 1992-04-27 | 1993-11-16 | Fujitsu Ltd | Standby control system |
| WO2007094041A1 (en) * | 2006-02-14 | 2007-08-23 | Fujitsu Limited | Server managing device and server managing program |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012190128A (en) * | 2011-03-09 | 2012-10-04 | Nec Corp | Fast startup method, fast startup device and fast startup program against degeneration of hardware configuration |
| JP2013045224A (en) * | 2011-08-23 | 2013-03-04 | Nec Computertechno Ltd | Multiplexer and method of controlling the same |
| JP5921782B2 (en) * | 2013-09-26 | 2016-05-24 | 三菱電機株式会社 | Communication system, standby apparatus, communication method, and standby program |
| US9934114B2 (en) | 2013-09-26 | 2018-04-03 | Mistubishi Electric Corporation | Communication system, standby device, communication method, and standby program |
| DE112013007469B4 (en) | 2013-09-26 | 2018-10-04 | Mitsubishi Electric Corporation | Communication system, standby device, communication method, and standby program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103559108B (en) | Method and system for carrying out automatic master and slave failure recovery on the basis of virtualization | |
| JP4572250B2 (en) | Computer switching method, computer switching program, and computer system | |
| US10778506B1 (en) | Coordinated switch of activity in virtual network function components | |
| US11563626B1 (en) | EMS assisted fault handling in virtual network function components | |
| JP5707355B2 (en) | Hot-standby client-server system | |
| JP2005209191A (en) | Remote enterprise management of high availability system | |
| CN102487342A (en) | Device and method for controlling virtual internet protocol address binding | |
| JPWO2012053110A1 (en) | Fault monitoring apparatus, fault monitoring method and program | |
| JP5775473B2 (en) | Edge device redundancy system, switching control device, and edge device redundancy method | |
| JP2010009293A (en) | Computer system and system switching method | |
| JP5285045B2 (en) | Failure recovery method, server and program in virtual environment | |
| JP5056504B2 (en) | Control apparatus, information processing system, control method for information processing system, and control program for information processing system | |
| JP5387767B2 (en) | Update technology for running programs | |
| US7657734B2 (en) | Methods and apparatus for automatically multi-booting a computer system | |
| JP2004355446A (en) | Cluster system and control method thereof | |
| JP2019197352A (en) | Service continuing system and service continuing method | |
| JPH08185330A (en) | Redundant computer system switching method | |
| JP2011053780A (en) | Restoration system, restoration method and backup control system | |
| JP6364773B2 (en) | Information processing apparatus, information processing system, memory replication method, and computer program | |
| JP5277228B2 (en) | Cluster system recovery method, server and software | |
| KR100832890B1 (en) | Process failure monitoring and recovery method of information and communication system | |
| JP5082901B2 (en) | In-vehicle communication system and in-vehicle communication control method | |
| CN105306256A (en) | Hot-standby implementation method based on VxWorks equipment | |
| JP2010055509A (en) | System, method, and program for fault recovery, and cluster system | |
| JPH1165868A (en) | Redundant actuation system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100608 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120613 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120619 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121120 |