WO2013073022A1

WO2013073022A1 - 計算機システム及び障害検出方法

Info

Publication number: WO2013073022A1
Application number: PCT/JP2011/076401
Authority: WO
Inventors: 展之山本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2011-11-16
Filing date: 2011-11-16
Publication date: 2013-05-23
Anticipated expiration: 2014-05-16

Abstract

　ハートビートよりも高速に障害を検出する計算機システムを実現する。　ネットワーク上に確立されたコネクションを介して複数の計算機が接続される計算機システムであって、複数の計算機は、各計算機が有する記憶領域から構成されたデータベースを用いて業務を実行する計算機を含み、計算機システムは、複数の計算機間のコネクションの接続の状態を監視し、コネクションの接続の異常を検出することによってデータベースを構成する複数の計算機の障害発生を検出する接続管理部と、データベースを構成する複数の計算機の各々に分散して配置されたデータの管理範囲を管理し、データベースを構成する複数の計算機の障害発生時に、管理範囲を更新する管理範囲管理部とを有する。

Description

計算機システム及び障害検出方法

　本発明は、複数の計算機から構成される分散データベースに関する。特に、分散データベースを構成する計算機の障害を検出するための計算機システム及び方法に関する。

　近年、Ｗｅｂを用いたアプリケーションを実行する計算システムにおいてデータ量が爆発的に増大しており、ＫＶＳ（Ｋｅｙ　Ｖａｌｕｅ　Ｓｔｏｒｅ）等のＮｏＳＱＬ（Ｎｏｔ　ｏｎｌｙ　ＳＱＬ）データベースを有する計算機システムが普及している。現在、このようなシステムは様々なエンタープライズシステムに導入されており、今後のさらなる活用が見込まれている。

　ＫＶＳでは、データに高速にアクセス可能な揮発性の記憶媒体、例えば、メモリにデータが格納される構成や、データ格納の永続性に優れる不揮発性の記録媒体、例えば、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｉｓｋ）やＨＤＤ等にデータを格納する構成や、これらを併用する構成等の種々の構成が採られている。併用する構成では、高速アクセス性重視や永続性重視等の種々の運用方針によって、複数台の計算機のメモリを仮想的に統合して構成されるメモリストア及び１台以上の計算機の不揮発性記憶媒体から構成されるディスクストアのバランスを種々変更可能となっている。

　メモリストア及びディスクストアには、データ（バリュー）と、データの識別子（キー）とをペアとしたデータが格納される。

　また、ＫＶＳでは、複数のサーバからクラスタを構成して、そのクラスタに含まれるサーバにデータを分散して配置することによって並列処理を実現している。具体的には、キーの範囲（キーレンジ）毎に、各サーバにデータが格納される。各サーバは、担当するキーレンジに含まれるデータのマスタとして処理を実行する。すなわち、所定のキーを含む読み出し要求に対して、そのキーが含まれるキーレンジのデータを担当するサーバが、キーに対応するデータを読み出すこととなる。

　したがって、ＫＶＳでは、スケールアウトによって並列処理の性能を向上させることができる。

　なお、クラスタはサーバをリング状に接続した構成となっており、各サーバには一意な識別番号が割り当てられる。また、各サーバに対するデータの配置方法は、Ｃｏｎｓｉｓｔｅｎｔ　Ｈａｓｈｉｎｇ法、Ｒａｎｇｅ法及びＬｉｓｔ法等の種々の方法が用いられる。

　代表してＣｏｎｓｉｓｔｅｎｔ　Ｈａｓｈｉｎｇ法について説明する。Ｃｏｎｓｉｓｔｅｎｔ　Ｈａｓｈｉｎｇ法は、まず、キーに対するハッシュ値を算出し、算出したハッシュ値をサーバの台数で除算した余りを算出する。その余りがサーバの識別番号に一致するサーバにデータが配置されるようになっている。

　さて、ＫＶＳでは、データの信頼性を確保する要請から、クラスタを構成するサーバには他のサーバが管理するデータの複製データが格納される構成を採るものが知られている。すなわち、各々のサーバは、所定のキーレンジに含まれるデータを管理するマスタであると同時に、他のサーバが管理するデータの複製データを保持するスレーブでもある。これによって、あるサーバに障害が発生した場合であっても、その障害サーバがマスタとして管理するデータを、スレーブである他のサーバが、自己が保持する複製データの格上げを行うことでマスタとなり、処理を継続することができる。

　なお、以下、マスタであるサーバをマスタサーバと記載し、スレーブであるサーバをスレーブサーバとも記載する。

　前述したようにＫＶＳを構成するサーバには、管理サーバのような特別なサーバが存在しないため単一点障害が存在しない。すなわち、任意のサーバに障害が発生した場合であっても他のサーバが処理を継続できるため、計算機システムが停止することがない。したがって、ＫＶＳは、耐障害性も確保される。

　なお、スレーブサーバの台数、すなわち、複製データの格納先となるサーバの台数は、計算機システムによって任意に設定することができる。

　前述したようなデータベースを構成するサーバの障害を検出する方法として、ハートビートが知られている（例えば、特許文献１参照）。ハートビートでは、監視装置がハートビート信号を送信してから一定期間応答がなくタイムアウトした場合に、ノードに障害が発生したと判定する。

特開平１１－２２０４６６号公報

　障害を検出するためにハートビートを用いた場合、ハートビート信号のタイムアウト時間が経過して初めてサーバの障害が検出される。このため、ハートビート信号のタイムアウト時間分だけ、障害が発生したサーバの処理が停止することとなる。

　そのため、サーバの処理の停止時間を短くするためにタイムアウト時間を短くすることが考えられる。しかし、タイムアウト時間を短くすると、ハートビート信号のネットワーク上での遅延や消滅などによってタイムアウトが発生し、障害が発生していないにも関わらず誤った障害検出を行う場合がある。したがって、タイムアウト時間は十分に長くする必要があり、ハートビートを用いた障害検出方法ではサービスの中断時間を短縮することが困難である。

　本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、ネットワーク上に確立されたコネクションを介して複数の計算機が接続される計算機システムであって、前記複数の計算機の各々は、プロセッサと、前記プロセッサに接続されるメモリと、前記プロセッサと接続され、前記ネットワークを介して他の装置と通信するためのネットワークインタフェースとを有し、前記複数の計算機は、前記各計算機が有する記憶領域から構成されたデータベースを用いて業務を実行する計算機を含み、前記データベースを構成する前記複数の計算機の各々には、データの管理範囲毎にデータが分散して配置され、前記計算機システムは、前記複数の計算機間のコネクションの接続の状態を監視し、前記コネクションの接続の異常を検出することによって前記データベースを構成する複数の計算機の障害発生を検出する接続管理部と、前記データベースを構成する複数の計算機の各々に分散して配置された前記データの前記管理範囲を管理し、前記データベースを構成する何れかの計算機の障害発生時に、前記管理範囲を更新する管理範囲管理部と、有することを特徴とする。

　本発明によれば、コネクションの状態に基づいて、データベースを構成する計算機の障害発生を検出することができる。ハートビートより高速に障害を復旧できる。

本発明の第１の実施形態における計算機システムの構成を示すブロック図である。本発明の第１の実施形態におけるサーバ、クライアント装置及び構成情報管理サーバのハードウェア構成を説明するブロック図である。本発明の第１の実施形態におけるデータストアに格納されるデータの形式を示す説明図である。本発明の第１の実施形態における構成情報の一例を示す説明図である。本発明の第１の実施形態におけるクライアント装置が格納するコネクションテーブルの一例を示す説明図である。本発明の第１の実施形態におけるクライアント装置が格納するコネクションテーブルの一例を示す説明図である。本発明の第１の実施形態におけるサーバが格納するコネクションテーブルの一例を示す説明図である。本発明の第１の実施形態におけるサーバが格納するコネクションテーブルの一例を示す説明図である。本発明の第１の実施形態におけるクライアント装置が実行するアクセス要求の発行処理を説明するフローチャートである。本発明の第１の実施形態の更新後のコネクションテーブルを示す説明図である。本発明の第１の実施形態におけるクライアント装置が実行する障害通知処理を説明するフローチャートである。本発明の第１の実施形態におけるサーバが実行する中継処理を説明するフローチャートである。本発明の第１の実施形態における構成情報管理サーバが実行する構成情報の更新処理を説明するフローチャートである。本発明の第１の実施形態の更新後の構成情報を示す説明図である。本発明の第１の実施形態におけるサーバが実行する構成情報の更新処理を説明するフローチャートである。本発明の第１の実施形態におけるクライアント装置の更新後のコネクションテーブルを示す説明図である。本発明の第１の実施形態におけるクライアント装置の更新後のコネクションテーブルを示す説明図である。本発明の第２の実施形態におけるクライアント装置が実行するコネクション状態の確認処理を説明するフローチャートである。本発明の第２の実施形態におけるクライアント装置の更新後のコネクションテーブルを示す説明図である。本発明の第４の実施形態におけるサーバが実行する構成情報の更新処理を説明するフローチャートである。本発明の第４の実施形態におけるクライアント装置が実行する構成情報の更新処理を説明するフローチャートである。

　［第１の実施形態］

　図１は、本発明の第１の実施形態における計算機システムの構成を示すブロック図である。

　計算機システムは、サーバ１００Ａ、１００Ｂ、クライアント装置２００Ａ、２００Ｂ、構成情報管理サーバ３００及びネットワーク４００から構成される。サーバ１００Ａ、１００Ｂ、クライアント装置２００Ａ、２００Ｂ及び構成情報管理サーバ３００は、ネットワーク４００を介して互いに接続される。以下、サーバ１００Ａ、１００Ｂを区別しない場合、サーバ１００と記載し、クライアント装置２００Ａ、２００Ｂを区別しない場合、クライアント装置２００と記載する。

　また、本実施形態では、サーバ１００及びクライアント装置２００は、それぞれ２台ずつであるが、本発明はこれに限定されない。すなわち、計算機システムが、１台又は３台以上のサーバ１００及びクライアント装置２００を備えていてもよい。

　ネットワーク４００は、ＬＡＮ、ＷＡＮ及びＳＡＮ等の有線及び無線の種々構成が考えられる。本発明は、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００が通信できるものであればどのようなネットワークであってもよい。なお、ネットワーク４００には、複数のネットワーク装置（図示省略）が含まれる。ネットワーク装置は、例えば、スイッチ及びゲートウェイなどが含まれる。

　また、一つのクライアント装置２００と全サーバ１００との間にはコネクションが確立される。これによって、各クライアント装置２００は計算機システムに含まれる全サーバ１００と接続され、全サーバ１００と通信を行うことができる。

　なお、本実施形態では、全てのサーバ１００とコネクションを確立するものとして説明するが、本発明は、一部のサーバ１００とコネクションを確立する構成でもよい。

　本実施形態では、複数のサーバ１００からクラスタを構成し、それらサーバ１００が備える記憶領域上にＮｏＳＱＬデータベースが構築される。本実施形態ではＮｏＳＱＬデータベースとして、ＫＶＳを用いるものとする。また、データは、キーの範囲（キーレンジ）毎に各サーバ１００に配置されているものとする。

　サーバ１００は、ＫＶＳを構成する計算機である。サーバ１００は、クライアント装置２００からの要求にしたがって各種処理を実行する。本実施形態では、各サーバ１００の構成は同一であるものとする。

　サーバ１００には、所定のキーレンジ毎にデータが配置されており、キーレンジに含まれるデータを管理するマスタサーバとして稼動する。また、サーバ１００は、他のサーバ１００が管理するキーレンジに含まれるデータの複製データを保持しており、スレーブサーバとして稼動する。以下では、マスタサーバとして管理するデータをマスタデータと記載し、スレーブサーバとして管理するデータをスレーブデータとも記載する。

　また、本実施形態のクラスタは、計算機システム全体の管理を行う管理サーバとなる唯一のサーバが存在せず、全てのサーバ１００が同等のサーバとして扱われる。これによって、１つのサーバに障害が発生しても、他のスレーブサーバが新たなマスタサーバとして処理を継続することができるため、計算機システムを停止することなく処理を継続することができる。

　サーバ１００は、コネクション管理部１１０、データ管理部１２０、構成情報管理部１３０、ハートビート制御部１４０、障害通知中継部１５０及びＯＳ（オペレーティングシステム）１６０を実現するためのプログラムを格納する。また、サーバ１００は、構成情報１８０を格納する。

　さらに、サーバ１００上には、ＫＶＳを構成するデータベースであるデータストア１７０が格納される。データストア１７０には、キーと、バリューとを一組としたデータが格納される。本実施形態では、サーバ１００がマスタとして管理するマスタデータ１７１と、他のサーバ１００のマスタデータの複製であるスレーブデータ１７２とが格納される。

　コネクション管理部１１０は、当該サーバ１００とクライアント装置２００との間に確立されたコネクションの状態を管理する。コネクション管理部１１０は、コネクションの状態を管理するためのコネクションテーブル１１５を保持する。コネクションテーブル１１５の詳細については、図６Ａ及び図６Ｂを用いて後述する。

　データ管理部１２０は、サーバ１００が管理するデータに対する各種処理を制御する。データ管理部１２０は、クライアント装置２００からの要求を受け付け、その要求に基づいて、データの読み出しや書き込み等の処理を制御する。構成情報管理部１３０は、データの格納先を管理する構成情報１８０を管理する。

　ハートビート制御部１４０は、サーバ１００間で送受信されるハートビート信号を制御し、また、監視する。障害通知中継部１５０は、サーバ１００の障害発生を構成情報管理サーバ３００に通知する。ＯＳ１６０は、サーバ１００全体を管理する。

　構成情報１８０は、データの格納先を示す情報を格納する。すなわち、各サーバ１００のキーレンジを示す情報が格納される。

　次に、クライアント装置２００について説明する。

　クライアント装置２００は、サーバ１００に対して各種処理の要求を送信する。クライアント装置２００は、コネクション管理部２１０、アクセス要求部２２０、構成情報管理部２３０及び障害通知部２４０を実現するためのプログラムを格納する。また、クライアント装置２００は、構成情報２６０を格納する。

　コネクション管理部２１０は、クライアント装置２００と各サーバ１００との間に確立されたコネクションの状態を管理する。コネクション管理部２１０は、コネクションの状態を管理するためのコネクションテーブル２１５を保持する。コネクションテーブル２１５の詳細については、図５Ａ及び図５Ｂを用いて後述する。

　アクセス要求部２２０は、サーバ１００に対してアクセス要求を送信する。アクセス要求は、データの読み出し処理及び書き込み処理等の実行を要求するためのものである。なお、書き込み処理には、データの書き込みとデータの上書きとが含まれるものとする。

　構成情報管理部２３０は、データの格納先を管理する構成情報２６０を管理する。障害通知部２４０は、サーバ１００の障害を通知する。ＯＳ２５０は、クライアント装置２００全体を管理する。

　構成情報管理サーバ３００は、計算機システムにおけるデータの格納先を管理するための構成情報を管理する。構成情報管理サーバ３００は、構成情報管理部３１０及びＯＳ３２０を実現するためのソフトウェアを格納する。また、構成情報管理サーバ３００は、構成情報３３０を格納する。

　構成情報管理部３１０は、構成情報３３０を管理する。具体的には、構成情報管理部３１０は、サーバ１００の障害発生の通知を受信した場合に、新たな構成情報３３０を生成し、新たな構成情報３３０を各サーバ１００に送信する。ＯＳ３２０は、構成情報管理サーバ３００全体を制御する。

　構成情報１８０、構成情報２６０及び構成情報３３０は、データの格納先を示す情報を格納する。

　なお、本実施形態では、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００が備える機能をソフトウェアを用いて実現しているが、専用のハードウェアを用いて同一の機能を実現してもよい。

　また、本実施形態では、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００のハードウェア構成は同一のものとして説明する。

　図２は、本発明の第１の実施形態におけるサーバ１００、クライアント装置２００及び構成情報管理サーバ３００のハードウェア構成を説明するブロック図である。図２では、サーバ１００を例に説明する。

　サーバ１００は、プロセッサ１０１、主記憶装置１０２及びネットワークインタフェース１０３を備える。

　プロセッサ１０１は、主記憶装置１０２に格納されるプログラムを実行する。プロセッサ１０１がプログラムを実行することによって、サーバ１００が備える機能を実現することができる。以下、プログラムを主語に処理を説明する場合には、プロセッサ１０１によって、プログラムが実行されていることを示すものとする。

　主記憶装置１０２は、プロセッサ１０１が実行するプログラム及び当該プログラムの実行に必要な情報を格納する。主記憶装置１０２は、例えば、メモリ等が考えられる。ネットワークインタフェース１０３は、ネットワーク４００を介して他の装置と接続するためのインタフェースである。

　なお、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００は、ＨＤＤ又はＳＳＤ等の補助記憶装置（図示省略）、キーボード及びディスプレイ等の入出力装置（図示省略）など他の構成を含んでもよい。

　また、本実施形態では、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００は同一の構成であるものとしたが、異なる構成であってもよい。例えば、サーバ１００が補助記憶装置を備え、クライアント装置２００が入出力装置を備える構成などが考えられる。

　図３は、本発明の第１の実施形態におけるデータストア１７０に格納されるデータの形式を示す説明図である。

　データストア１７０は、データ管理情報１７００を格納する。データ管理情報１７００には、キーとバリューとがペアとなったデータが複数含まれる。以下、キーとバリューとがペアとなったデータをキーバリュー型データとも記載する。

　データ管理情報１７００は、Ｋｅｙ１７０１及びＶａｌｕｅ１７０２を含む。Ｋｅｙ１７０１は、データを識別するための識別子（キー）を格納する。Ｖａｌｕｅ１７０２は、実際のデータ（バリュー）を格納する。

　クライアント装置２００を操作するユーザは、Ｋｅｙ１７０１を指定してＫＶＳにデータを格納し、また、Ｋｅｙ１７０１を指定してＫＶＳから所望のデータを取得することができる。

　各サーバ１００は、所定のＫｅｙ１７０１の範囲（キーレンジ）毎にキーバリュー型データを管理する。すなわち、キーレンジ毎にキーバリュー型データが各サーバ１００に分散して配置される。サーバ１００は、指定されたキーレンジのデータのマスタサーバとして処理を実行することとなる。これによって、大量のデータを並列的かつ高速に処理できる。

　図４は、本発明の第１の実施形態における構成情報３３０の一例を示す説明図である。なお、計算機システムに障害が発生する前では、構成情報１８０、構成情報２６０及び構成情報３３０は全て同一の情報が格納されるものとする。

　本実施形態では、計算機システムに障害が発生した場合、後述するように構成情報管理サーバ３００が構成情報３３０を更新し、その後、構成情報１８０、構成情報２６０の順に更新される。

　構成情報３３０は、キーレンジ毎のデータの格納先を管理するための情報を格納する。具体的には、構成情報３３０は、キーレンジ３３０１、種類３３０２及び格納先３３０３を含む。

　キーレンジ３３０１は、サーバに分散配置するデータの範囲であるキーレンジを示す情報を格納する。なお、Ｃｏｎｓｉｓｔｅｎｔ　Ｈａｓｈｉｎｇ法を用いて分散配置する場合には、キーレンジ３３０１はハッシュ値の範囲となる。

　種類３３０２は、キーレンジに含まれるデータをマスタサーバ又はスレーブサーバとして管理するかを示す情報を格納する。本実施形態では、マスタサーバとしてキーレンジに含まれるキーバリュー型データを管理する場合には「マスタ」が格納され、スレーブサーバとしてキーレンジに格納されるキーバリュー型データを管理する場合には「スレーブ」が格納される。

　格納先３３０３は、キーレンジに含まれるデータを格納するサーバ１００の識別情報を格納する。サーバ１００を識別する情報としては、サーバ１００の識別子、ＩＰアドレス及びＭＡＣアドレス等が考えられる。本実施形態では、格納先３３０３にはサーバ１００の識別子が格納されるものとする。

　図５Ａ及び図５Ｂは、本発明の第１の実施形態におけるクライアント装置２００が格納するコネクションテーブル２１５の一例を示す説明図である。図５Ａは、クライアント装置２００Ａが格納するコネクションテーブル２１５を示す。図５Ｂは、クライアント装置２００Ｂが格納するコネクションテーブル２１５を示す。

　コネクションテーブル２１５は、コネクションの状態及びネットワーク接続の状態を示す情報を格納する。具体的には、コネクションテーブル２１５は、接続先２１５１、アクセス状態２１５２及び接続状態２１５３を含む。

　接続先２１５１は、コネクションの接続相手であるサーバ１００の識別情報を格納する。サーバ１００を識別する情報としては、サーバ１００の識別子、ＩＰアドレス及びＭＡＣアドレス等が考えられる。本実施形態では、接続先２１５１にはサーバ１００の識別子が格納されるものとする。

　アクセス状態２１５２は、サーバ１００とのネットワーク接続の状態を示す情報、すなわち、サーバ１００にアクセスできるか否かを示す情報を格納する。本実施形態では、サーバ１００にアクセスできる場合には「正常」が格納され、サーバ１００にアクセスできない場合には「異常」が格納される。

　接続状態２１５３は、コネクションの接続状態を示す情報を格納する。例えば、コネクションが接続される場合には「接続」が格納され、コネクションが切断された場合には「切断」が格納される。

　図６Ａ及び図６Ｂは、本発明の第１の実施形態におけるサーバ１００が格納するコネクションテーブル１１５の一例を示す説明図である。図６Ａは、サーバ１００Ａが格納するコネクションテーブル１１５を示す。図６Ｂは、サーバ１００Ｂが格納するコネクションテーブル１１５を示す。

　コネクションテーブル１１５は、コネクションの状態を示す情報を格納する。具体的には、コネクションテーブル１１５は、接続先１１５１及び接続状態１１５２を含む。

　接続先１１５１は、コネクションの接続相手であるクライアント装置２００の識別情報を格納する。クライアント装置２００の識別情報としては、クライアント装置２００の識別子、ＩＰアドレス及びＭＡＣアドレス等が考えられる。本実施形態では、接続先１１５１にはクライアント装置２００の識別子が格納されるものとする。

　接続状態１１５２は、コネクションの接続状態を示す情報を格納する。例えば、コネクションが接続される場合には「接続」が格納され、コネクションが切断された場合には「切断」が格納される。

　次に、サーバ１００及びクライアント装置２００が実行する処理について説明する。

　図７は、本発明の第１の実施形態におけるクライアント装置２００が実行するアクセス要求の発行処理を説明するフローチャートである。アクセス要求の発行処理は、アクセス要求部２２０によって実行される。

　アクセス要求部２２０は、データ操作ＡＰＩを発行する（ステップＳ１００）。発行されたデータ操作ＡＰＩに基づいて、処理対象となるデータが決定される。以下、処理対象となるデータを対象データとも記載する。

　アクセス要求部２２０は、構成情報２６０を参照して、対象データが格納されるサーバ１００を特定する（ステップＳ１０２）。ここでは、構成情報２６０は、最新のものとする。

　なお、構成情報２６０が最新のものでない場合、アクセス要求を受け付けたサーバ１００が、構成情報１８０に基づいて対象データを格納するサーバ１００に当該アクセス要求を転送することとなる。

　アクセス要求部２２０は、対象データの識別情報（キー）を含むアクセス要求を特定されたサーバ１００に送信する（ステップＳ１０４）。

　アクセス要求部２２０は、一定期間内に、サーバ１００からアクセス要求に対する応答を受信したか否かを判定する（ステップＳ１０６）。一定期間内に、サーバ１００からの応答を受信したと判定された場合、アクセス要求部２２０は処理を終了する。

　一定期間内に、サーバ１００からの応答を受信していないと判定された場合、アクセス要求部２２０は、コネクションテーブル２１５を更新する（ステップＳ１０８）。具体的には、アクセス要求部２２０は、応答がないサーバ１００に対応するエントリのアクセス状態２１５２を「正常」から「異常」に更新する。すなわち、クライアント装置２００は、サーバ１００との間のネットワーク接続に異常が発生したものとして検出する。

　以下では、障害が発生したサーバ１００として検出されたサーバ１００を障害サーバとも記載する。

　アクセス要求部２２０は、障害通知部２４０を呼び出して障害通知処理の実行を指示し、処理を終了する（ステップＳ１１０）。

　なお、複数のアクセス要求を一度に送信した場合には、各アクセス要求についてステップＳ１０６～ステップＳ１１０の処理が実行される。

　以下では、クライアント装置２００Ａがサーバ１００Ａからの応答を受信していない場合を例に説明する。この場合、ステップＳ１０８において、クライアント装置２００Ａのコネクションテーブル２１５は、図８に示すように更新される。すなわち、サーバ１００Ａに対応するエントリのアクセス状態２１５２が「正常」から「異常」に変更される。なお、クライアント装置２００Ｂのコネクションテーブル２１５は更新されないため、図５Ｂのままである。

　図９は、本発明の第１の実施形態におけるクライアント装置２００が実行する障害通知処理を説明するフローチャートである。

　アクセス要求部２２０から呼び出された障害通知部２４０は、コネクションテーブル２１５を参照して障害サーバ１００を特定し、障害サーバ情報を生成する（ステップＳ２００）。ここで、障害サーバ情報には、少なくとも障害サーバ１００の識別子が含まれる。ただし、障害の理由等、その他の情報が障害サーバ情報に含まれてもよい。

　本実施形態では、障害通知部２４０は、アクセス状態２１５２に「異常」が格納されるエントリに対応するサーバ１００を障害サーバ１００として検出する。ここでは、サーバ１００Ａが障害サーバとして検出される。

　障害通知部２４０は、コネクションテーブル２１５を参照して、生成された障害サーバ情報の送信先となるサーバ１００を特定する（ステップＳ２０２）。具体的には、以下のような処理が実行される。

　障害通知部２４０は、コネクションテーブル２１５を参照して、コネクションが確立され、かつ、アクセス可能なサーバ１００を特定する。以下では、コネクションが確立され、かつ、アクセス可能なサーバ１００を接続サーバ１００とも記載する。

　具体的には、障害通知部２４０は、接続状態２１５３が「接続」であり、かつ、アクセス状態２１５２が「正常」であるエントリを検索する。本実施形態では、サーバ１００Ｂが接続サーバ１００として特定される。なお、ステップＳ２０２では、複数台の接続サーバ１００が特定されてもよい。

　障害通知部２４０は、接続サーバ１００に障害サーバ情報を送信し、処理を終了する（ステップＳ２０４）。障害サーバ情報は、接続サーバ１００の障害通知中継部１５０が受信することとなる。

　なお、接続サーバ１００が複数台ある場合には、マルチキャスト通信等を用いて複数の接続サーバ１００に障害サーバ情報を送信してもよいし、ユニキャスト通信等を用いて１台の接続サーバ１００に障害サーバ情報を送信してもよい。障害サーバ情報を送信する接続サーバ１００の選択方法としては、例えば、コネクションテーブル２１５の上位のエントリに対応する接続サーバ１００を選択する方法、又は、通信負荷が低い接続サーバ１００を選択する方法などが考えられる。

　本実施形態では、クライアント装置２００Ａから、サーバ１００Ｂに障害サーバ情報が送信される。

　図１０は、本発明の第１の実施形態におけるサーバ１００が実行する中継処理を説明するフローチャートである。中継処理は、障害通知中継部１５０によって実行される。

　障害通知中継部１５０は、クライアント装置２００から障害サーバ情報を受信すると（ステップＳ３００）、受信した障害サーバ情報を構成情報管理サーバ３００に送信し（ステップＳ３０２）、処理を終了する。

　図１１は、本発明の第１の実施形態における構成情報管理サーバ３００が実行する構成情報の更新処理を説明するフローチャートである。構成情報の更新処理は、構成情報管理部３１０によって実行される。

　構成情報管理部３１０は、障害サーバ情報を受信すると処理を開始する（ステップＳ４００）。

　構成情報管理部３１０は、構成情報３３０を参照し、障害サーバ１００に対応するエントリを削除する（ステップＳ４０２）。本実施形態では、サーバ１００Ａに対応するエントリが構成情報３３０から削除される。

　構成情報管理部３１０は、障害サーバ１００がマスタと管理していたデータのスレーブデータを保持するサーバ１００がマスタサーバとなるように、構成情報３３０を更新する（ステップＳ４０４）。

　構成情報管理部３１０は、更新された構成情報３３０を各サーバ１００に送信し、処理を終了する（ステップＳ４０６）。このとき、更新された構成情報３３０に含まれるサーバ１００に対して送信される。

　本実施形態では、図１１に示す構成情報の更新処理が実行されることによって図１２に示すような構成情報３３０に更新される。図１２に示すように、削除されたサーバＡがマスタとして管理していたキーレンジのデータを、サーバ１００Ｂが新たなマスタサーバ１００として管理することとなる。また、更新された構成情報３３０は、サーバ１００Ｂに送信される。

　図１３は、本発明の第１の実施形態におけるサーバ１００が実行する構成情報の更新処理を説明するフローチャートである。構成情報の更新処理は、構成情報管理部１３０によって実行される。

　構成情報管理部１３０は、構成情報管理サーバ３００から更新された構成情報３３０を受信する（ステップＳ５００）。

　構成情報管理部１３０は、受信した構成情報３３０に基づいて構成情報１８０を更新し、処理を終了する（ステップＳ５０２）。更新方法としては、構成情報１８０に構成情報３３０を上書きする方法、又は、構成情報１８０と構成情報３３０とをマージする方法などが考えられる。ただし、本発明は更新方法に限定されない。

　本実施形態では、クライアント装置２００Ａ及びクライアント装置２００Ｂのコネクションテーブル２１５は、図１４Ａ及び図１４Ｂに示すように更新される。

　なお、構成情報管理サーバ３００又はサーバ１００は、サーバ１００の障害発生を検出した場合に、サーバ１００の復旧処理を実行してもよい。なお、サーバ１００の復旧処理は公知の技術であるため説明を省略する。

　第１の実施形態によれば、クライアント装置２００がサーバ１００からのアクセス要求に対する応答の有無に基づいて、障害が発生したサーバ１００を検出することができる。特に、ＫＶＳ等のＮｏＳＱＬデータベースでは、アクセス要求が頻繁に送信されるため、ハートビート信号の監視時間よりも短時間にサーバ１００の障害を検出することができる。

　［変形例］

　第１の実施形態では、計算機システムが構成情報管理サーバ３００を備えるものとしていたが、各サーバ１００に同一の機能を追加する構成でもよい。すなわち、各サーバ１００が構成情報管理サーバ３００と同一の処理を実現するような構成でもよい。この場合、障害通知中継部１５０は必要ない。

　また、一つのハードウェア上にサーバ１００、クライアント装置２００及び構成情報管理サーバ３００を構成し、複数のハードウェアを有する計算機システムを構築してもよい。

　また、仮想化技術を用いて、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００を仮想計算機として実現してもよい。この場合、一つの計算機上にサーバ１００、クライアント装置２００及び構成情報管理サーバ３００を構成することができる。

　［第２の実施形態］

　第２の実施形態では、コネクションの切断を検出することによって、障害サーバ１００を特定する点が第１の実施形態と異なる。以下、第１の実施形態との差異を中心に第２の実施形態について説明する。

　第２の実施形態における計算機システム、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００の構成は同一であるため説明を省略する。

　第２の実施形態では、コネクションの接続状態を用いて障害が発生したサーバ１００を検出する点が異なる。以下、具体的な処理について説明する。

　図１５は、本発明の第２の実施形態におけるクライアント装置２００が実行するコネクション状態の確認処理を説明するフローチャートである。

　コネクション状態の確認処理は、コネクション管理部２１０によって実行される。なお、コネクション状態の確認処理は、アクセス要求の発行処理とは独立した処理として実行される。

　コネクション管理部２１０は、コネクション状態を確認し、サーバ１００からコネクションが切断されたか否かを判定する（ステップＳ６００）。コネクション状態を確認する方法としては、周期的にポーリングを実行する方法が考えられる。なお、本発明は、コネクション状態の確認方法に限定されない。

　また、コネクション状態の変化は、ハートビートの監視時間より短い時間で検出できるため、ハートビートを用いたサーバ１００の障害検出方法より早くサーバ１００の障害を検出することができる。

　コネクションが切断されていないと判定された場合、コネクション管理部２１０は、コネクションの切断が検出されるまで同様の監視を継続する。

　コネクションが切断されていると判定された場合、コネクション管理部２１０は、コネクションテーブル２１５を更新する（ステップＳ６０２）。具体的には、コネクション管理部２１０は、コネクションが切断されたサーバ１００に対応するエントリの接続状態２１５３を「接続」から「切断」に更新する。

　コネクション管理部２１０は、障害通知部２４０を呼び出して障害通知処理の実行を指示し、処理を終了する（ステップＳ６０４）。当該処理は、ステップＳ１１０と同一の処理である。

　ここで、サーバ１００Ａとクライアント装置２００Ａとの間のコネクションが切断された場合を例に説明する。この場合、ステップＳ６０２において、クライアント装置２００Ａのコネクションテーブル２１５は、図１６に示すように更新される。すなわち、サーバ１００Ａに対応するエントリの接続状態２１５３が、「接続」から「切断」に変更される。

　なお、サーバ１００Ａとクライアント装置２００との間のコネクションが切断された場合には、クライアント装置２００Ｂのコネクションテーブル２１５は更新されないため、図５Ｂのままの状態である。一方、サーバ１００Ａが停止等することによって、サーバ１００Ａに接続される全てのクライアント装置２００との間のコネクションが切断された場合には、クライアント装置２００Ｂのコネクションテーブル２１５も図１６と同様に更新される。

　その他の処理は、第１の実施形態と同一であるため説明を省略する。

　第２の実施形態によれば、アクセス要求の発行時以外のタイミングでも、サーバ１００の障害を検出できる。これによって、サーバ１００の障害発生を検出する時間を短縮することができる。

　［第３の実施形態］

　第３の実施形態では、ハートビート信号を用いて障害サーバ１００を特定する点が第１の実施形態と異なる。以下、第１の実施形態との差異を中心に第３の実施形態について説明する。なお、第３の実施形態は、第１の実施形態及び第２の実施形態の障害サーバ１００の特定方法との併用が望ましい。

　第３の実施形態における計算機システム、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００の構成は第１の実施形態と同一であるため説明を省略する。

　第３の実施形態では、ハートビート用いて障害サーバ１００を検出する点が異なる。ハートビート信号の監視処理は、ハートビート制御部１４０によって実行される。以下、具体的な処理について説明する。

　ハートビート制御部１４０は、周期的に、他のサーバ１００へハートビート信号を送信する。

　次に、ハートビート制御部１４０は、ハートビート信号を送信したサーバ１００から応答の信号を受信したか否かを判定する。ハートビート信号を送信した全てのサーバ１００から応答の信号を受信したと判定された場合、ハートビート制御部１４０は、処理を終了する。

　少なくとも１つ以上のサーバ１００から応答の信号を受信していないと判定された場合、ハートビート制御部１４０は、応答の信号が送信されていないサーバ１００を障害サーバとして特定し、障害サーバ情報を生成する。

　次に、ハートビート制御部１４０は、障害通知中継部１５０を呼び出して障害通知処理の実行を指示し、処理を終了する。このとき、指示には障害サーバ情報が含まれる。

　その他の処理は第１の実施形態と同一であるため説明を省略する。

　第３の実施形態によれば、アクセス要求の発行時、又は、コネクションの切断検出時以外のタイミングで実行される処理に基づいて、サーバ１００の障害を検出することができる。したがって、計算機システムの可用性を高めることができる。

　［第４の実施形態］

　第４の実施形態では、サーバ１００が更新された構成情報１８０をクライアント装置２００に送信する点が第１の実施形態と異なる。以下、第１の実施形態との差異を中心に説明する。

　第４の実施形態における計算機システム、サーバ１００、クライアント装置２００及び構成情報管理サーバ３００の構成は第１の実施形態と同一であるため説明を省略する。

　第４の実施形態では、サーバ１００が実行する構成情報の更新処理が異なる。また、第４の実施形態では、新たに、クライアント装置２００が実行する構成情報の更新処理が含まれる点が第１の実施形態と異なる。その他の処理は第１の実施形態と同一であるため説明を省略する。

　図１７は、本発明の第４の実施形態におけるサーバ１００が実行する構成情報の更新処理を説明するフローチャートである。構成情報の更新処理は、構成情報管理部１３０によって実行される。

　ステップＳ５００及びステップＳ５０２の処理は、第１の実施形態と同一であるため説明を省略する。

　構成情報管理部１３０は、構成情報１８０を更新した後、コネクションテーブル１１５を参照して、コネクションによって接続されるクライアント装置２００に、受信した構成情報３３０を送信し、処理を終了する（ステップＳ７００）。

　図１８は、本発明の第４の実施形態におけるクライアント装置２００が実行する構成情報の更新処理を説明するフローチャートである。構成情報の更新処理は、構成情報管理部２３０によって実行される。

　構成情報管理部２３０は、サーバ１００から構成情報３３０を受信する（ステップＳ８００）。

　構成情報管理部２３０は、受信した構成情報３３０に基づいて構成情報２６０を更新する（ステップＳ８０２）。なお、ステップＳ８０２の処理はステップＳ５０２と同一の処理が実行されるものとする。

　構成情報管理部２３０は、更新後の構成情報２６０を参照して、コネクションテーブル２１５を更新し、処理を終了する（ステップＳ８０４）。具体的には、構成情報管理部２３０は、構成情報２６０とコネクションテーブル２１５とを比較して、構成情報２６０に含まれないサーバ１００を特定し、当該サーバ１００に対応するエントリをコネクションテーブル２１５から削除する。

　第４の実施形態によれば、クライアント装置２００が更新後の構成情報２６０に基づいて、障害サーバ１００へのアクセス要求の送信を抑制できる。また、クライアント装置２００は、マスタサーバ１００に直接アクセス要求を送信することができるため、高速に処理結果を取得することができる。

　以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。

Claims

　ネットワーク上に確立されたコネクションを介して複数の計算機が接続される計算機システムであって、
　前記複数の計算機の各々は、プロセッサと、前記プロセッサに接続されるメモリと、前記プロセッサと接続され、前記ネットワークを介して他の装置と通信するためのネットワークインタフェースとを有し、
　前記複数の計算機は、前記各計算機が有する記憶領域から構成されたデータベースを用いて業務を実行する計算機を含み、
　前記データベースを構成する前記複数の計算機の各々には、データの管理範囲毎にデータが分散して配置され、
　前記計算機システムは、
　前記複数の計算機間のコネクションの接続の状態を監視し、前記コネクションの接続の異常を検出することによって前記データベースを構成する複数の計算機の障害発生を検出する接続管理部と、
　前記データベースを構成する複数の計算機の各々に分散して配置された前記データの前記管理範囲を管理し、前記データベースを構成する何れかの計算機の障害発生時に、前記管理範囲を更新する管理範囲管理部と、を有することを特徴とする計算機システム。
　請求項１に記載の計算機システムであって、
　前記複数の計算機は、前記データベースを構成する複数のサーバ計算機と、前記データベースに対してアクセス要求を送信する複数のクライアント計算機とを含み、
　前記複数のクライアント計算機の各々は、全ての前記複数のサーバ計算機と通信可能なように接続され、
　前記サーバ計算機は、前記管理範囲管理部を有し、
　前記クライアント計算機は、前記接続管理部を有することを特徴とする計算機システム。
　請求項２に記載の計算機システムであって、
　前記複数のサーバ計算機の各々は、さらに、前記管理範囲に関する情報である管理範囲情報を格納し、
　前記複数のサーバ計算機は、第１サーバ計算機及び第２サーバ計算機を含み、
　前記クライアント計算機は、前記第１サーバ計算機との間の前記コネクションの状態に基づいて、前記第１サーバ計算機の障害を検出し、
　前記クライアント計算機は、前記第１サーバ計算機に障害が発生した旨を前記第２サーバ計算機に通知し、
　前記第２サーバ計算機は、前記管理範囲情報を更新することを特徴とする計算機システム。
　請求項３に記載の計算機システムであって、
　前記管理範囲は、前記複数のサーバ計算機の各々が管理するデータの範囲である第１管理範囲と、前記他のサーバ計算機が管理するデータの複製データの範囲である第２管理範囲とを含み、
　前記複数のサーバ計算機の各々は、前記第１管理範囲に含まれる前記データと、前記第２管理範囲に含まれる前記複製データとを格納し、
　前記複数のサーバ計算機のうち前記障害が発生した旨を受信した前記サーバ計算機は、前記管理範囲情報を更新する場合に、障害の発生が検出された前記サーバ計算機の第１管理範囲に含まれる前記データの前記複製データを保持する前記他のサーバ計算機を特定し、
　前記他のサーバ計算機が保持する前記複製データを前記第１管理範囲に含めるように前記管理範囲情報を更新することを特徴とする計算機システム。
　請求項２から４のいずれか一つに記載の計算機システムであって、
　前記クライアント計算機は、前記アクセス要求を送信した前記複数のサーバ計算機のうちの一つの前記サーバ計算機から応答がない通信障害を、当該サーバ計算機の障害として検出することを特徴とする計算機システム。
　請求項２から５のいずれか一つに記載の計算機システムであって、
　前記クライアント計算機は、前記コネクションの切断を、前記コネクションを介して接続されたサーバ計算機の障害として検出することを特徴とする計算機システム。
　請求項２から６のいずれか一つに記載の計算機システムであって、
　前記複数のクライアント計算機の各々は、前記管理範囲情報を保持し、前記管理範囲情報に基づいて前記アクセス要求を前記サーバ計算機に送信し、
　前記複数のサーバ計算機のうち前記障害が発生した旨を受信した前記サーバ計算機は、前記管理範囲情報を更新した後に、前記コネクションを介して接続される前記複数のクライアント計算機の各々に、更新後の前記管理範囲情報を送信することを特徴とする計算機システム。
　請求項２から７のいずれか一つに記載の計算機システムであって、
　前記複数のサーバ計算機の各々は、ハートビートによって障害を検出するハートビート制御部を有し、
　前記他のサーバ計算機からのハートビートの応答の有無に基づいて、前記他の計算機の障害を検出することを特徴とする計算機システム。
　ネットワーク上に確立されたコネクションを介して複数の計算機が接続される計算機システムにおける障害検出方法であって、
　前記複数の計算機の各々は、プロセッサと、前記プロセッサに接続されるメモリと、前記プロセッサと接続され、前記ネットワークを介して他の装置と通信するためのネットワークインタフェースとを有し、
　前記複数の計算機は、前記各計算機が有する記憶領域から構成されたデータベースを用いて業務を実行する計算機を含み、
　前記データベースを構成する前記複数の計算機の各々には、データの管理範囲毎にデータが分散して配置され、
　前記方法は、
　前記複数の計算機のうちの少なくとも一つの前記計算機が、前記計算機間のコネクションの接続の状態を監視し、前記コネクションの接続の異常を検出することによって前記計算機の障害発生を検出する第１のステップと、
　前記複数の計算機のうちの少なくとも一つの前記計算機が、前記データベースを構成する何れかの計算機の障害の発生を検出した場合に、前記管理範囲を更新する第２のステップと、を含むことを特徴とする障害検出方法。
　請求項９に記載の障害検出方法であって、
　前記複数の計算機は、前記データベースを構成する複数のサーバ計算機と、前記データベースに対してアクセス要求を送信する複数のクライアント計算機とを含み、
　前記複数のクライアント計算機の各々が、全ての前記複数のサーバ計算機と通信可能なように接続され、
　前記第１のステップでは、前記複数のクライアント計算機の各々が、何れかの前記サーバ計算機の障害発生を検出し、
　前記第２のステップでは、前記複数のサーバ計算機の各々が、前記管理範囲を更新する、ことを特徴とする障害検出方法。
　請求項１０に記載の障害検出方法であって、
　前記複数のサーバ計算機の各々は、さらに、前記管理範囲に関する情報である管理範囲情報を格納し、
　前記複数のサーバ計算機は、第１サーバ計算機及び第２サーバ計算機を含み、
　前記第１のステップは、
　前記クライアント計算機が、前記第１サーバ計算機との間の前記コネクションの状態に基づいて、前記第１サーバ計算機の障害を検出するステップと、
　前記クライアント計算機が、前記第１サーバ計算機に障害が発生した旨を前記第２サーバ計算機に通知するステップと、を含み、
　前記第２のステップでは、前記第２サーバ計算機が前記管理範囲情報を更新することを特徴とする障害検出方法。
　請求項１１に記載の障害検出方法であって、
　前記管理範囲は、前記複数のサーバ計算機の各々が管理するデータの範囲である第１管理範囲と、前記他のサーバ計算機が管理するデータの複製データの範囲である第２管理範囲とを含み、
　前記複数のサーバ計算機の各々は、前記第１管理範囲に含まれる前記データと、前記第２管理範囲に含まれる前記複製データとを格納し、
　前記第２のステップは、
　前記複数のサーバ計算機のうち前記障害が発生した旨を受信した前記サーバ計算機が、障害の発生が検出された前記サーバ計算機の第１管理範囲に含まれる前記データの前記複製データを保持する前記他のサーバ計算機を特定するステップと、
　前記障害が発生した旨を受信したサーバ計算機が、前記他のサーバ計算機が保持する前記複製データを前記第１管理範囲に含めるように前記管理範囲情報を更新するステップと、を含むことを特徴とする障害検出方法。
　請求項１０から１２のいずれか一つに記載の障害検出方法であって、
　前記第１のステップでは、前記アクセス要求を送信した前記複数のサーバ計算機のうち一つの前記サーバ計算機から応答がない通信障害を、当該サーバ計算機の障害として検出することを特徴とする障害検出方法。
　請求項１０から１３のいずれか一つに記載の障害検出方法であって、
　前記第１のステップでは、前記コネクションの切断を、当該コネクションを介して接続されたサーバ計算機の障害として検出することを特徴とする障害検出方法。
　請求項１０から１４のいずれか一つに記載の障害検出方法であって、
　前記複数のクライアント計算機の各々は、前記管理範囲情報を保持し、前記管理範囲情報に基づいて前記アクセス要求を前記サーバ計算機に送信し、
　前記方法は、さらに、
　前記複数のサーバ計算機のうち前記障害が発生した旨を受信した前記サーバ計算機が、前記管理範囲情報を更新した後に、前記コネクションを介して接続される前記複数のクライアント計算機の各々に、更新後の前記管理範囲情報を送信するステップを含むことを特徴とする障害検出方法。
　請求項１０から１５のいずれか一つに記載の障害検出方法であって、
　前記方法は、さらに、
　前記複数のサーバ計算機の各々が、前記他のサーバ計算機からのハートビートの応答の有無に基づいて、前記他の計算機の障害を検出するステップを含むことを特徴とする障害検出方法。