[go: up one dir, main page]

JP2008107896A - Physical resource control management system, physical resource control management method and physical resource control management program - Google Patents

Physical resource control management system, physical resource control management method and physical resource control management program Download PDF

Info

Publication number
JP2008107896A
JP2008107896A JP2006287536A JP2006287536A JP2008107896A JP 2008107896 A JP2008107896 A JP 2008107896A JP 2006287536 A JP2006287536 A JP 2006287536A JP 2006287536 A JP2006287536 A JP 2006287536A JP 2008107896 A JP2008107896 A JP 2008107896A
Authority
JP
Japan
Prior art keywords
physical resource
physical
failure
resource
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006287536A
Other languages
Japanese (ja)
Inventor
Shinji Kami
伸治 加美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006287536A priority Critical patent/JP2008107896A/en
Publication of JP2008107896A publication Critical patent/JP2008107896A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem that a virtual environment, it is difficult to implement fast fail-over while hiding failures in physical resources from applications (processes). <P>SOLUTION: A physical resource control management system comprises a hardware space 6100 including physical resources in the system, and a software space 6500 including software programs. In the hardware space, at least one central processing part 6121 and other physical resources are connected by a data transfer line 6131, and part or all of the physical resources have active state check parts. The software space has a virtualization means 6550, at least one virtual resource space 6520, and a virtual device 6510 operating thereon, and the virtualization means has a resource allocation means 6551, a failure management means 6552 and a resource access means 6554. In this configuration, the failure management means controls the resource allocation means by coordinating hardware failure management and software failure management. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、CPUおよびI/Oデバイスなどを物理資源として利用するITシステムやCPUとラインカードなどを物理資源として利用するネットワーク(NW)システムにおける制御管理手法、特に障害管理の制御管理手法に関する。   The present invention relates to a control management method in an IT system that uses a CPU and an I / O device as physical resources, and a network (NW) system that uses a CPU and a line card as physical resources, and particularly relates to a control management method for fault management.

ITやネットワークシステムなどにおける障害管理システムとして、耐障害性を高めるために、二重化構造がよく採用される。二重化構造とは現用資源に加え、待機資源を設定し、冗長度を高めることで、現用系に何らかの障害が発生しても、待機資源に切替え、サービスの停止を防ぐ手法である。一般にはN+M構成(N:現用系の数、M:待機系の数)の構成が取れる。また、障害からの復旧はサービスと物理資源の間で行い、サービスには障害を隠蔽する構成をとり、サービスに特別な仕組みを組み込まずにすむようにすることが一般的である。   As a failure management system in IT and network systems, a duplex structure is often adopted to enhance fault tolerance. The duplex structure is a method of setting a standby resource in addition to the active resource and increasing redundancy so that even if a failure occurs in the active system, the standby resource is switched to prevent the service from being stopped. In general, an N + M configuration (N: number of active systems, M: number of standby systems) can be used. In general, recovery from a failure is performed between the service and the physical resource, and the service is configured to conceal the failure so that a special mechanism is not included in the service.

この障害管理の方式として、ソフトウェア的、ハードウェア的に行う2つに分類される。   There are two types of failure management methods, software and hardware.

ソフトウェア的管理の例として1.VMM、2.SW RAIDなどがあげられ、ハードウェア的管理の例としてH/W RAIDなどがあげられる (非特許文献2) 。   As an example of software management: VMM, 2. SW RAID etc. are mentioned, and H / W RAID etc. are mentioned as an example of hardware management (nonpatent literature 2).

近年、コンピュータ環境において、資源の仮想化による仮想装置構成が主流となってきている。この仮想化はたとえば図8に示すように物理資源1001と従来のデバイスアクセス手段1006の間に仮想化層を挟み、仮想化手段1003が仮想資源1002を、複数のデバイスアクセス手段1006を含む仮想装置1004に提供することで、一組の資源の上で複数の異なる仮想装置1004を駆動することが可能となる。仮想化手段1003は複数の仮想装置1004からの物理資源1001へのアクセスをスケジューリングすることで、仮想的に各プロセス1005は従来と変更なくデバイスアクセス手段1006を用いてデバイスにアクセスすることが可能になる。仮想化により、物理資源1001の詳細は仮想装置1004(もしくは仮想装置1004にインストールされるゲストOS)には隠蔽される。   In recent years, virtual device configurations based on resource virtualization have become mainstream in computer environments. For example, as shown in FIG. 8, the virtualization includes a virtualization layer sandwiched between a physical resource 1001 and conventional device access means 1006. The virtualization means 1003 includes a virtual resource 1002 and a plurality of device access means 1006. By providing to 1004, a plurality of different virtual devices 1004 can be driven on a set of resources. The virtualization unit 1003 schedules access to the physical resource 1001 from a plurality of virtual devices 1004, so that each process 1005 can virtually access the device by using the device access unit 1006 without any change. Become. The details of the physical resource 1001 are hidden by the virtual device 1004 (or the guest OS installed in the virtual device 1004) by virtualization.

仮想化のアーキテクチャは様々だが、一例として、非特許文献1に記載のXENのアーキテクチャを図9に示す。XENでは、物理資源2001に対して、仮想化層としてハイパーバイザー(hypervisor)2002を有し、また、デバイスアクセスのためにデバイスドライバなどを有し、仮想装置2004の物理資源2001へのアクセスを仲介する専用の特権ドメイン2003を有する。   Although there are various virtualization architectures, the XEN architecture described in Non-Patent Document 1 is shown in FIG. 9 as an example. XEN has a hypervisor 2002 as a virtualization layer for the physical resource 2001, and also has a device driver for device access and mediates access to the physical resource 2001 of the virtual device 2004. A dedicated privileged domain 2003.

この隠蔽構造を利用して、物理資源に障害が起きてもゲストOSには隠蔽したまま対応する仮想資源を切り替えることで障害を隠蔽することが原理的に可能になる。この方式は特許文献1などに記載がある。   Using this concealment structure, even if a physical resource failure occurs, it is possible in principle to conceal the failure by switching the corresponding virtual resource while concealing the guest OS. This method is described in Patent Document 1 and the like.

図10に示すように、ソフトウェアによる冗長管理方式の基本的な構成は、ハードウェア空間3002に属する物理資源3001とソフトウェア空間3003に属するデバイスアクセス手段3004と冗長管理手段3005とプロセス3006からなる。冗長管理手段3005は複数の物理資源3001および対応するデバイスアクセス手段3004にアクセス可能であり、たとえば二重化構成をとる物理資源の組をひとつの抽象的なデバイスとしてプロセス3006に見せる。プロセス3006は実際の物理資源3001の状態にかかわらず冗長管理手段3005との間で規定されたインターフェースに従ってデバイスアクセスを行うため、実際は二重化されていても、ひとつのデバイスにアクセスするようにプロセスを設計することが可能である。もし二重化された物理資源のうち一方が故障しても、冗長化手段3005はもう一方のデバイスアクセス手段、および物理資源に設定を切り替えることで、障害をプロセス3006に隠蔽することが可能である。   As shown in FIG. 10, the basic configuration of the software redundancy management system includes a physical resource 3001 belonging to the hardware space 3002, device access means 3004 belonging to the software space 3003, redundancy management means 3005, and a process 3006. The redundancy management unit 3005 can access the plurality of physical resources 3001 and the corresponding device access unit 3004. For example, a set of physical resources having a duplex configuration is shown to the process 3006 as one abstract device. Since the process 3006 performs device access according to the interface defined with the redundancy management unit 3005 regardless of the actual state of the physical resource 3001, the process is designed to access one device even if it is actually duplicated. Is possible. If one of the duplicated physical resources fails, the redundancy unit 3005 can conceal the failure in the process 3006 by switching the setting to the other device access unit and physical resource.

上記のソフトウェア処理は専用ハードウェアが必要ないことなどから柔軟性に優れるが、障害検出から切替処理がソフトウェアプロセスで行われるため、どうしても処理時間が長いという欠点がある。   The above software processing is excellent in flexibility because it does not require dedicated hardware. However, since the switching processing is performed in the software process from the failure detection, there is a disadvantage that the processing time is long.

また、その他の例としてハードウェア方式によるRAIDシステムがある。   Another example is a hardware RAID system.

図11に、ハードウェア的冗長管理方式の一例としてRAIDシステムの概要図を示す。本システムはディスク装置4005とソフトウェアプログラム4004からなり、ディスク装置4005はハードディスクなどの物理ディスク4001とメモリ4007を有し、ソフトウェアプログラム4004はプロセス4006とデバイスアクセス手段4008を有する。ある物理ディスクに格納されるデータ4011は常に他の物理ディスクのデータ4012としてミラーリング(コピー)しておいて、ユーザ(プロセス4006、デバイスアクセス手段4008などのソフトウェア演算手段4004)にはその詳細を隠蔽し、メモリ4007にあるひとつのデータ4013にアクセスしているようにする手法である。これにより、たとえそのデータ4011が存在する一方の物理ディスクが故障しても、もう一方の物理ディスクのデータ4012をプロセスに供給することで、プロセスには障害の影響は及ばない。この冗長化管理、専用HWであるコントローラ4002が行っており、デバイスアクセス手段4008およびプロセス4006といったソフトウェア演算手段4004は意識する必要がない。これは専用ハードウェアを用いたハードウェアレベルでの冗長管理の隠蔽である。   FIG. 11 shows a schematic diagram of a RAID system as an example of a hardware redundancy management method. This system includes a disk device 4005 and a software program 4004. The disk device 4005 has a physical disk 4001 such as a hard disk and a memory 4007. The software program 4004 has a process 4006 and device access means 4008. Data 4011 stored on a physical disk is always mirrored (copied) as data 4012 on another physical disk, and the details are hidden from the user (software operation means 4004 such as process 4006 and device access means 4008). In this method, one data 4013 in the memory 4007 is accessed. As a result, even if one physical disk in which the data 4011 exists fails, the data 4012 of the other physical disk is supplied to the process, so that the process is not affected by the failure. The controller 4002 which is the redundant management and dedicated HW is performed, and the software operation unit 4004 such as the device access unit 4008 and the process 4006 need not be aware of it. This is a concealment of redundancy management at the hardware level using dedicated hardware.

また、障害復旧の高速化手法としては冗長構成をとるハードウェア同士で、自立的に死活を監視する方法がある。マスタ(現用)とスレーブ(待機)を決め、お互いに死活を監視しあう事で、たとえばマスタに障害が生じ、スレーブがそれを感知すると、スレーブがマスタとして動作するように設定しておく方式である。障害をハードウェア的に検出し、切り替えるため、障害回復が高速に行える。これはたとえば図12に示すように、ネットワークにおける現用パス5003と待機パス5004において、正常時は分岐点5001でデータをコピーし、常に両方とものパスでデータを転送しておき、分岐点5002で現用パスからデータを受け取り転送する。現用パスと待機パスはたとえば定期的に試験信号を送信するなどして常にハードウェア的に死活が確認されており、現用パスに障害が観測されると、ハードウェア的に待機パスからのデータを転送するように分岐点5002で切り替える。本方式により、高速な障害回復が可能となる。   Further, as a method for speeding up failure recovery, there is a method of independently monitoring the life and death between hardware having a redundant configuration. By determining the master (active) and slave (standby) and monitoring each other's life and death, for example, when a failure occurs in the master and the slave detects it, the slave is set to operate as a master. is there. Since faults are detected and switched by hardware, fault recovery can be performed at high speed. For example, as shown in FIG. 12, in the working path 5003 and the standby path 5004 in the network, data is copied at the branch point 5001 in the normal state, the data is always transferred through both paths, and at the branch point 5002 Receive and transfer data from the working path. The working path and standby path are always confirmed to be alive and dead by hardware, for example, by periodically sending test signals. If a failure is observed in the working path, data from the standby path is hardware-based. Switching is performed at the branch point 5002 so as to transfer. This method enables fast failure recovery.

以上のハードウェア的処理は復旧が早いが専用ハードウェアが必要であったり、冗長構成設定などの管理柔軟性にかけるなどの欠点がある。
米国特許出願公開第2005/0246718明細書 Paul Barham et. Al. “Xen and the Art of Virtualization” Proceedings of the nineteenth ACM symposium on Operating systems principles, pp 164-177, Bolton Landing, NY, USA, 2003 David A. Patterson, et. Al. “A case for redundant arrays of inexpensive disks (RAID)”, Proceedings of the 1988 ACM SIGMOD international conference on Management of data, Pages: 109 - 116
Although the above hardware processing is quick to recover, there are drawbacks such as the need for dedicated hardware and management flexibility such as redundant configuration settings.
US Patent Application Publication No. 2005/0246718 Paul Barham et. Al. “Xen and the Art of Virtualization” Proceedings of the nineteenth ACM symposium on Operating systems principles, pp 164-177, Bolton Landing, NY, USA, 2003 David A. Patterson, et. Al. “A case for redundant arrays of inexpensive disks (RAID)”, Proceedings of the 1988 ACM SIGMOD international conference on Management of data, Pages: 109-116

しかしながら、上記の構成では、仮想化環境において、専用のハードウェアコントローラを用いることなく、物理資源の障害をアプリケーション(プロセス)に隠蔽しつつ、高速フェールオーバーを行うことが困難であるということである。   However, in the above configuration, it is difficult to perform high-speed failover while concealing a physical resource failure in an application (process) without using a dedicated hardware controller in a virtual environment. .

その理由は、現在の仮想化環境でのフェールオーバーはソフトウェア的な障害管理であるため、復旧に時間がかかるためである。また、ハードウェア的な高速復旧方式とソフトウェア復旧方式の連携ができないため、専用のハードウェアコントローラを用いてソフトウェアに対して隠蔽しない限り、キープアライブ方式などのハードウェア的な高速自立復旧方式をそのまま高速性を保ったまま仮想化環境に適用することが困難であったためである。   The reason is that failover in the current virtual environment is software failure management, and thus recovery takes time. In addition, since hardware fast recovery method and software recovery method cannot be linked, hardware fast independent recovery method such as keep alive method is used as it is unless it is concealed from software using a dedicated hardware controller. This is because it was difficult to apply to a virtual environment while maintaining high speed.

(発明の目的)
本発明の目的は、高価で専用ハードウェアコントローラを用いずに、仮想化環境において、物理障害を仮想装置、仮想装置内にインストールされるゲストOS、もしくはプロセスに隠蔽しながら、ハードウェア方式とソフトウェア方式が連携可能な柔軟な高速フェールオーバーを行うシステムを提供することにある。
(Object of invention)
An object of the present invention is to provide a hardware method and software while concealing a physical failure in a virtual device, a guest OS installed in the virtual device, or a process in a virtual environment without using an expensive and dedicated hardware controller. The object is to provide a system that performs flexible high-speed failover that can be coordinated.

また、本発明のほかの目的は、キープアライブ方式などの高速障害復旧機能を持ったハードウェアとそうでない通常ハードウェアが混在するような複雑な管理環境でも、各仮想装置の優先度などの管理ポリシーを満足するよう自立的に最適な冗長化設定ができるシステムを提供することにある。   Another object of the present invention is to manage the priority of each virtual device even in a complicated management environment in which hardware with a high-speed failure recovery function such as a keep alive method and other normal hardware are mixed. An object of the present invention is to provide a system in which optimal redundancy can be set independently to satisfy the policy.

本発明の物理資源制御管理システムは、複数の物理資源と、
少なくとも一つのソフトウェアプログラムが動作する仮想装置、および前記仮想装置で前記複数の物理資源を共有することを可能とする仮想化手段、として機能するソフトウェアを搭載するコンピュータ構成部と、を備え、
前記仮想化手段は、前記複数の物理資源の前記仮想装置への割り当てを行う資源割当手段と、前記複数の物理資源の一つ又は複数で障害が発生し、ハードウェアによる他の物理資源への切り替え制御が実行された場合に、該切り替え制御と連携して、前記資源割当手段でのソフトウェアによる前記他の物理資源への切り替えを制御する障害管理手段とを有することを特徴とする。
The physical resource control management system of the present invention includes a plurality of physical resources,
A virtual machine in which at least one software program operates, and a computer component that includes software functioning as a virtualization unit that enables the virtual apparatus to share the plurality of physical resources, and
The virtualization means includes a resource allocation means for allocating the plurality of physical resources to the virtual device, and one or more of the plurality of physical resources have failed, and the hardware is allocated to another physical resource. It comprises fault management means for controlling switching to the other physical resource by software in the resource allocation means in cooperation with the switching control when switching control is executed.

本発明の物理資源制御管理方法は、複数の物理資源と、少なくとも一つのソフトウェアプログラムが動作する仮想装置、および前記仮想装置で前記複数の物理資源を共有することを可能とする仮想化手段、として機能するソフトウェアを搭載するコンピュータ構成部と、を備え、
前記仮想化手段は、前記複数の物理資源の前記仮想装置への割り当てを行う資源割当手段を有する物理資源制御管理システムの物理資源制御管理方法において、
複数の物理資源の一つ又は複数で障害が発生した場合に、ハードウェアによる他の物理資源への切り替えを行うステップと、
前記切り替え制御に連携して、前記資源割当手段でのソフトウェアによる前記他の物理資源への切り替えを行うステップと、とを有することを特徴とする。
The physical resource control management method of the present invention includes a plurality of physical resources, a virtual device in which at least one software program operates, and a virtualization unit that enables the virtual device to share the plurality of physical resources. And a computer configuration unit having functioning software,
In the physical resource control management method of the physical resource control management system, the virtualization means includes resource allocation means for allocating the plurality of physical resources to the virtual device.
A step of switching to another physical resource by hardware when a failure occurs in one or more of the plurality of physical resources;
And switching to the other physical resource by software in the resource allocating means in cooperation with the switching control.

本発明の物理資源制御管理用プログラムは、コンピュータを、少なくとも一つのソフトウェアプログラムが動作する仮想装置、および前記仮想装置で複数の物理資源を共有することを可能とする仮想化手段、として機能させるための物理資源制御管理用プログラムであって、
前記仮想化手段は、前記複数の物理資源の前記仮想装置への割り当てを行う資源割当手段と、前記複数の物理資源の一つ又は複数で障害が発生し、ハードウェアによる他の物理資源への切り替え制御が実行された場合に、該切り替え制御と連携して、前記資源割当手段でのソフトウェアによる前記他の物理資源への切り替えを制御する障害管理手段として機能することを特徴とする。
The physical resource control management program according to the present invention causes a computer to function as a virtual device in which at least one software program operates, and a virtualization unit that enables the virtual device to share a plurality of physical resources. The physical resource control management program of
The virtualization means includes a resource allocation means for allocating the plurality of physical resources to the virtual device, and one or more of the plurality of physical resources have failed, and the hardware is allocated to another physical resource. When switching control is executed, it functions as a failure management unit that controls switching to the other physical resource by software in the resource allocation unit in cooperation with the switching control.

本発明によれば、仮想化環境において、専用のハードウェアコントローラを用いることなく、物理資源の障害をアプリケーションおよびプロセスに隠蔽しつつ、高速フェールオーバーを行うことができる。その理由は、仮想化環境における隠蔽構造の中で、ハードウェア障害復旧方式とソフトウェア障害復旧方式が復旧速度を損なわずに連携するためである。   According to the present invention, high-speed failover can be performed in a virtual environment while concealing physical resource failures in applications and processes without using a dedicated hardware controller. The reason is that, in the concealment structure in the virtual environment, the hardware failure recovery method and the software failure recovery method cooperate without impairing the recovery speed.

本発明の代表的な実施形態は、システムシステム内の物理資源の集合であるハードウェア空間と、その上で動作するソフトウェアプログラムの集合であるソフトウェア空間からなり、ハードウェア空間には少なくともひとつ以上の中央演算部とその他の物理資源がデータ転送路によって接続されており、また物理資源の一部もしくは全部には死活確認部を有し、ソフトウェア空間は仮想化手段と、少なくともひとつ以上の仮想資源空間およびその上で動作する仮想装置を有し、仮想化手段は、資源割当手段、障害管理手段、資源アクセス手段を有する構成である。このような構成を採用し、障害管理手段がハードウェアによる障害管理とソフトウェアによる障害管理間の連携をとり、資源割当手段を制御することができる。   A typical embodiment of the present invention includes a hardware space that is a set of physical resources in a system system and a software space that is a set of software programs that operate on the hardware space, and the hardware space includes at least one or more. The central processing unit and other physical resources are connected by a data transfer path, and part or all of the physical resources have a life / death confirmation unit, and the software space is a virtualization means and at least one virtual resource space. And a virtual device that operates on the virtual device, and the virtualization unit includes a resource allocation unit, a failure management unit, and a resource access unit. By adopting such a configuration, the failure management means can coordinate the failure management by hardware and the failure management by software to control the resource allocation means.

以下図面を用いた本発明の各実施形態について説明する。   Embodiments of the present invention will be described below with reference to the drawings.

[第1の実施形態]
まず、本発明の第1の実施形態について図面を参照して詳細に説明する。
[First Embodiment]
First, a first embodiment of the present invention will be described in detail with reference to the drawings.

図1を参照すると、本発明の第1の実施の形態は、ハードウェア空間6100とソフトウェア空間6500からなる。ハードウェア空間6100には少なくともI/Oデバイスなどに代表される物理資源6101、物理資源6102、CPUなどに代表される中央演算部(中央演算手段)6121が設けられ、これらはデータ転送路(データ転送手段)6131によって接続されている。データ転送路は例えばPCIバスなどに代表されるシステムバスであるが、これに限定されるものではない。また、物理資源6101には死活確認部(死活確認手段)6111が設けられ、物理資源6102には死活確認部6112が設けられている。   Referring to FIG. 1, the first embodiment of the present invention includes a hardware space 6100 and a software space 6500. The hardware space 6100 includes at least a physical resource 6101 typified by an I / O device, a physical resource 6102, and a central processing unit (central processing means) 6121 typified by a CPU. (Transfer means) 6131. The data transfer path is a system bus represented by, for example, a PCI bus, but is not limited to this. The physical resource 6101 is provided with a life / death confirmation unit (life / life confirmation means) 6111, and the physical resource 6102 is provided with a life / death confirmation unit 6112.

ソフトウェア空間6500は、仮想化手段6550と、少なくともひとつ以上の仮想資源空間6520およびその上で動作する仮想装置6510を有する。仮想化手段6550は、資源割当手段6551、障害管理手段6552、資源アクセス手段6553、資源アクセス手段6554を有する。仮想装置6510は資源アクセス手段6511を有する。仮想化手段6550、仮想資源空間6520、仮想装置6510はDRAM等の半導体メモリやハードディスク装置に記憶されたプログラムやデータであり、ハードウェア空間6100のCPUなどに代表される中央演算部により処理が実行される。   The software space 6500 includes a virtualization unit 6550, at least one virtual resource space 6520, and a virtual device 6510 operating thereon. The virtualization unit 6550 includes a resource allocation unit 6551, a failure management unit 6552, a resource access unit 6553, and a resource access unit 6554. The virtual device 6510 has resource access means 6511. The virtual means 6550, the virtual resource space 6520, and the virtual device 6510 are programs and data stored in a semiconductor memory such as a DRAM or a hard disk device, and are processed by a central processing unit represented by a CPU in the hardware space 6100. Is done.

次にこれらの手段の動作の概略を説明する。   Next, an outline of the operation of these means will be described.

ハードウェア空間6100において、I/Oデバイスなどに代表される物理資源6101と、物理資源6102と、CPUなどに代表される中央演算部6121とが、PCIバスなどに代表されるデータ転送路6131によって接続されている。現用系に設定された物理資源6101と、待機系に設定された物理資源6102とは、それぞれ死活確認部6111と死活確認部6112によってキープアライブ信号に代表される死活確認信号6113を交換することでお互いに死活確認を行う。物理資源6101と物理資源6102とは、冗長ペアを構成する。死活確認信号6113が途切れて、相手の物理資源の障害を検出すると、それを通知する信号を、データ転送路6131を通して中央演算部6121に送信する。中央演算部6121はその信号を受信すると、現在の処理を中断し、障害発生信号をソフトウェア空間6500内の障害管理手段6552に送信する。   In the hardware space 6100, a physical resource 6101 typified by an I / O device or the like, a physical resource 6102, and a central processing unit 6121 typified by a CPU or the like are connected by a data transfer path 6131 typified by a PCI bus or the like. It is connected. The physical resource 6101 set in the active system and the physical resource 6102 set in the standby system are exchanged by the life / death confirmation unit 6111 and the life / death confirmation unit 6112 by the life / life confirmation signal 6113 typified by the keep alive signal. Confirm each other's life and death. The physical resource 6101 and the physical resource 6102 constitute a redundant pair. When the life / death confirmation signal 6113 is interrupted and a failure of the physical resource of the other party is detected, a signal for notifying it is transmitted to the central processing unit 6121 through the data transfer path 6131. When the central processing unit 6121 receives the signal, the central processing unit 6121 interrupts the current processing and transmits a failure occurrence signal to the failure management means 6552 in the software space 6500.

ソフトウェア空間6500はハードウェア空間(物理資源空間)6100上で動作するソフトウェアプログラムである。ソフトウェア空間6500に属する仮想化手段6550は仮想装置6510に対して、ハードウェア空間6100を仮想化した、仮想資源6521を有する仮想資源空間6520を提供する。仮想装置6510はその仮想資源空間6520上で、あたかも同様のハードウェア空間上で動作するかのごとくに動作する。仮想装置6510はデバイスドライバに代表される資源アクセス手段6511を有し、仮想装置6510内で動作する各種ソフトウェアプロセスに資源へのアクセス手段を提供する。資源アクセス手段6511は、各種ソフトウェアプロセスに仮想資源6510空間の存在を提示し、その仮想資源空間6510内の資源のアクセス要求に対し、実際はその処理を仮想化手段6550の資源割当手段6551に転送する。   The software space 6500 is a software program that operates on a hardware space (physical resource space) 6100. The virtualization unit 6550 belonging to the software space 6500 provides the virtual device 6510 with a virtual resource space 6520 having a virtual resource 6521 obtained by virtualizing the hardware space 6100. The virtual device 6510 operates on the virtual resource space 6520 as if it operates on the same hardware space. The virtual device 6510 has resource access means 6511 typified by a device driver, and provides resource access means to various software processes operating in the virtual device 6510. The resource access unit 6511 presents the existence of the virtual resource 6510 space to various software processes, and actually transfers the processing to the resource allocation unit 6551 of the virtualization unit 6550 in response to an access request for the resource in the virtual resource space 6510. .

仮想化手段6550は一般に複数の仮想装置6510を同一システム内に有することができ、それぞれに仮想資源空間6520を提供し、それらからの物理資源アクセスを仲介することで、それらの複数の仮想装置6510でハードウェア空間6100を共有することを可能とする。   The virtualization means 6550 can generally have a plurality of virtual devices 6510 in the same system, each providing a virtual resource space 6520 and mediating physical resource access from them, thereby the plurality of virtual devices 6510. Allows the hardware space 6100 to be shared.

この目的のために、仮想化手段6550において、物理資源6101および物理資源6102に直接アクセスする資源アクセス手段6553および資源アクセス手段6554を制御するとともに、それらの資源アクセス手段と仮想装置6510内の資源アクセス手段6511との接続を、資源割当手段6551で制御することで、ハードウェア空間(物理資源空間)6100の共有を実現する。   For this purpose, the virtualization unit 6550 controls the resource access unit 6553 and the resource access unit 6554 that directly access the physical resource 6101 and the physical resource 6102, and the resource access unit and the resource access unit in the virtual device 6510. The hardware allocation (physical resource space) 6100 is shared by controlling the connection with the 6511 by the resource allocation unit 6551.

資源割当手段6551は、あらかじめ指定された設定により、仮想装置6510に対してアクセス可能な物理資源への資源アクセス手段との接続を容認することで、複数の仮想装置6510の資源アクセス手段6511からの物理資源アクセスを制御する。また、資源割当手段6551は冗長構成の設定も行う。たとえば、仮想資源6521の可用性レベルを高めるため、実際は物理資源6101と物理資源6102を二重化して用いるとする。現用系を物理資源6101、待機系を物理資源6102とすると、通常時は、資源割当手段6551は仮想装置6510の資源アクセス手段6511と資源アクセス手段6553を接続しておく。物理資源6101に障害が発生した段階で接続を資源アクセス手段6553から資源アクセス手段6554に切り替えることで障害復旧が可能である。これは上記のソフトウェア的障害復旧手法であり、仮想装置6510に対して障害が隠蔽され、仮想装置6510は冗長構成をとるための何ら設定を行う必要はない。   The resource allocation unit 6551 accepts the connection with the resource access unit to the physical resource accessible to the virtual device 6510 according to the setting designated in advance, so that the resource access unit 6511 of the plurality of virtual devices 6510 Control physical resource access. The resource allocation unit 6551 also sets a redundant configuration. For example, in order to increase the availability level of the virtual resource 6521, it is assumed that the physical resource 6101 and the physical resource 6102 are actually used in duplicate. Assuming that the active system is the physical resource 6101 and the standby system is the physical resource 6102, the resource allocation unit 6551 normally connects the resource access unit 6511 and the resource access unit 6553 of the virtual device 6510. The failure can be recovered by switching the connection from the resource access means 6553 to the resource access means 6554 when a failure occurs in the physical resource 6101. This is the above-described software failure recovery method, in which a failure is concealed from the virtual device 6510, and the virtual device 6510 does not need to make any settings for taking a redundant configuration.

さらに仮想化手段6550は障害管理手段6552を有する。障害管理手段6552は中央演算処理手段6121からの割り込みに代表される信号により、どの処理を行うかをあらかじめ登録しておいたテーブルから検索し、実行する機能を有する。たとえば、障害時に割り込みを契機に上記の接続設定を変更する命令を出す、などの動作を行う。   Further, the virtualization unit 6550 has a failure management unit 6552. The fault management unit 6552 has a function of searching and executing from the table registered in advance which processing is performed by a signal represented by an interrupt from the central processing unit 6121. For example, an operation such as issuing a command to change the above connection setting upon interruption in the event of a failure is performed.

次に本発明の実施の形態における障害発生から障害復旧までの動作を図2に示すフローチャートを用いて説明する。   Next, the operation from failure occurrence to failure recovery in the embodiment of the present invention will be described with reference to the flowchart shown in FIG.

(ステップS101)
物理資源6101は現用系資源に設定され、物理資源6102は待機系資源に設定されているとする。両者の物理資源は死活確認部6111および6112の死活確認信号6113の交信を通して定期的にお互いの死活状態を確認している。また、仮想装置6510の仮想資源6521は1+1冗長が設定されており、資源割当手段6551によって、正常動作時は現用系の物理資源6101にアクセスする資源アクセス手段6553と、仮想装置6510の資源アクセス手段6511とを接続している。
(Step S101)
Assume that the physical resource 6101 is set as an active resource and the physical resource 6102 is set as a standby resource. Both physical resources regularly confirm each other's life / death state through the communication of the life / death confirmation signal 6113 of the life / death confirmation units 6111 and 6112. Further, the virtual resource 6521 of the virtual device 6510 is set to 1 + 1 redundancy, and the resource allocation unit 6551 accesses the active physical resource 6101 during normal operation, and the resource access unit of the virtual device 6510. 6511 is connected.

(ステップS102)
現用系に設定されている物理資源6101に電源故障などに代表される障害が発生し、サービス継続が不可能となる。
(Step S102)
A failure represented by a power failure or the like occurs in the physical resource 6101 set in the active system, and the service cannot be continued.

(ステップS103)
死活確認部6111は物理資源6102の死活確認部6112と死活確認信号6113の交信不可となるため、死活確認部6112は最短で信号送信間隔時間で応答なしを検出することで物理資源6101の障害を確認し、物理資源6102を現用系に状態設定変更する。
(Step S103)
The life and death confirmation unit 6111 cannot communicate between the life and death confirmation unit 6112 of the physical resource 6102 and the life and death confirmation signal 6113. Therefore, the life and death confirmation unit 6112 detects the failure of the physical resource 6101 by detecting no response at the shortest signal transmission interval time. Confirm and change the status setting of the physical resource 6102 to the active system.

(ステップS104)
物理資源6102は割り込み信号に代表される障害検出通知信号および待機系から現用系への状態変更通知信号を中央演算部6121に送信する。
(Step S104)
The physical resource 6102 transmits a failure detection notification signal represented by an interrupt signal and a state change notification signal from the standby system to the active system to the central processing unit 6121.

(ステップS105)
中央演算部6121は物理資源6112からの信号を受信すると、現在行っている処理を停止し、割り込み信号を障害管理手段6552に通知する。
(Step S105)
When the central processing unit 6121 receives a signal from the physical resource 6112, the central processing unit 6121 stops the current processing and notifies the failure management unit 6552 of an interrupt signal.

(ステップS106)
障害管理手段6552は割り込み信号に対して、あらかじめ登録しておいたテーブルから該当する処理を検索する。
(Step S106)
The fault management unit 6552 searches for a corresponding process from a previously registered table for the interrupt signal.

(ステップS107)
障害管理手段6552は検索した処理に応じて、接続変更命令を資源割当手段6551に送信し、資源割当手段6551は命令に従い、接続先を資源アクセス手段6553から資源アクセス手段6554へと切替制御を行い、現用系が物理資源6102に状態設定変更された、ハードウェア空間での運用状態との同期をとる。
(Step S107)
The failure management unit 6552 transmits a connection change command to the resource allocation unit 6551 according to the searched processing, and the resource allocation unit 6551 performs switching control of the connection destination from the resource access unit 6553 to the resource access unit 6554 according to the command. The active system is synchronized with the operation state in the hardware space in which the state setting is changed to the physical resource 6102.

(ステップS108)
資源アクセス手段6511は物理資源6102へのアクセスが可能となり、サービス継続が可能となる。
(Step S108)
The resource access unit 6511 can access the physical resource 6102 and can continue the service.

次に本実施形態の効果を説明する。   Next, the effect of this embodiment will be described.

従来のソフトウェア的障害復旧手法は、物理資源での障害発生時に、仮想装置の資源アクセス手段対する物理資源6101からの応答がなくなり、タイムアウトなどの処理により障害を検出し、現用系から待機系に接続を変更し、必要に応じてその他ソフトウェアおよびハードウェアの運用状態を変更して障害復旧処理が終了する。このため障害発生から復旧までの処理時間は一般に長い。処理時間を早くするために常に仮想化手段の資源アクセス手段から死活確認信号を送るなどの代替手段が考えられるが、障害検出時間を短くするにはその分CPU負荷が増加する。それに対し、本実施形態によれば、死活確認はハードウェア手法によって行うことで高速性を最大限に引き出し、ハードウェアから割り込みをあげることで大きな遅延なく資源割当手段6551によるソフトウェア的な切替と同期を図ることが可能になるため、仮想装置には隠蔽したまま特別なハードウェア障害隠蔽構造をとらずに高速な障害復旧が可能となる。   In the conventional software failure recovery method, when a failure occurs in a physical resource, there is no response from the physical resource 6101 to the resource access means of the virtual device, the failure is detected by processing such as timeout, and the active system is connected to the standby system Is changed, and the operation status of other software and hardware is changed as necessary, and the failure recovery processing is completed. For this reason, the processing time from failure occurrence to recovery is generally long. In order to shorten the processing time, alternative means such as always sending a life / death confirmation signal from the resource access means of the virtualization means can be considered, but in order to shorten the fault detection time, the CPU load increases accordingly. On the other hand, according to the present embodiment, the life and death confirmation is performed by a hardware method to maximize the high speed, and by interrupting from the hardware, the resource allocation unit 6551 synchronizes and synchronizes with software without significant delay. Therefore, it is possible to quickly recover from a failure without using a special hardware failure concealment structure while concealing the virtual device.

[第2の実施形態]
次に本発明の第2の実施の形態について図3を参照して詳細に説明する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described in detail with reference to FIG.

本発明の第2の実施の形態は、ハードウェア空間7100とソフトウェア空間7500とから構成される。   The second embodiment of the present invention includes a hardware space 7100 and a software space 7500.

ハードウェア空間7100は、データ転送路7150によって相互に接続されたI/Oデバイス7101、I/Oデバイス7102、およびCPU7103を少なくともひとつずつ以上有する。I/Oデバイス7101および7102は死活確認部7111および7112によってキープアライブ信号7201を通して互いに死活確認を行っている。ここで、I/Oデバイス7101および7102がネットワークカードであった場合、I/Oデバイス7101および7102との間での死活確認部部7111および7112によるネットワークの端点同士の死活確認のほかに、ネットワーク上のノードとの死活確認信号によるそれぞれのパスの死活確認部が別に搭載されていてもよい。   The hardware space 7100 includes at least one I / O device 7101, I / O device 7102, and CPU 7103 connected to each other via a data transfer path 7150. The I / O devices 7101 and 7102 confirm each other's life and death through the keep alive signal 7201 by the life and death confirmation units 7111 and 7112. Here, when the I / O devices 7101 and 7102 are network cards, in addition to the alive confirmation between the network end points by the alive confirmation units 7111 and 7112 between the I / O devices 7101 and 7102, the network The life and death confirmation part of each path by the life and death confirmation signal with the upper node may be mounted separately.

ソフトウェア空間7500は、オペレーティングシステムなどに代表される仮想化手段7580および一つ以上の仮想装置7530を有する。仮想化手段7580は、I/Oデバイス7101へのアクセス手段であるデバイスドライバ7501、I/Oデバイス7102へのアクセス手段であるデバイスドライバ7502、障害管理手段7550、資源割当手段7503、バックエンドデバイスドライバ7504を有する。さらに障害管理手段7550は、管理者7900にアクセス手段を提供するインターフェース手段7551、処理管理手段7554、情報格納手段7553を有する。また、仮想装置7530はプロセス7532およびフロントエンドデバイスドライバ7531を有する。   The software space 7500 includes virtualization means 7580 typified by an operating system and one or more virtual devices 7530. The virtualization unit 7580 includes a device driver 7501 that is an access unit to the I / O device 7101, a device driver 7502 that is an access unit to the I / O device 7102, a failure management unit 7550, a resource allocation unit 7503, and a back-end device driver. 7504. Further, the failure management unit 7550 includes an interface unit 7551 that provides an access unit to the administrator 7900, a process management unit 7554, and an information storage unit 7553. The virtual device 7530 includes a process 7532 and a front-end device driver 7531.

次に、これらの手段の動作について説明する。I/Oデバイス7101および7102はNIC(ネットワークインターフェースカード)やディスクに代表されるInput/Outputデバイスであるが、必ずしもこれらに限定するものではない。一般にユーザプロセスはこれらのI/Oデバイスを外部システムとの通信やディスクへのデータアクセスなどの目的に用いる。CPU7103はPentium(登録商標)やXeonなどに代表される中央演算処理装置であり、データ転送路7150はPCIバスなどに代表されるシステムバスであるが必ずしもこれらに限定されるものではない。I/Oデバイス7101および7102は冗長ペアを構成しており片方が現用系、もう一方が待機系に設定される(ここではI/Oデバイス7101が現用系とする)。死活確認部7111および7112はキープアライブ信号7201を一定間隔で交信することで互いに死活確認をしている。   Next, the operation of these means will be described. The I / O devices 7101 and 7102 are input / output devices represented by NIC (network interface card) and disk, but are not necessarily limited to these. In general, a user process uses these I / O devices for purposes such as communication with an external system and data access to a disk. The CPU 7103 is a central processing unit typified by Pentium (registered trademark) and Xeon, and the data transfer path 7150 is a system bus typified by a PCI bus, but is not necessarily limited thereto. The I / O devices 7101 and 7102 form a redundant pair, and one is set as the active system and the other is set as the standby system (here, the I / O device 7101 is set as the active system). The life and death confirmation units 7111 and 7112 mutually confirm the life and death by communicating keep-alive signals 7201 at regular intervals.

もしI/Oデバイス7101に障害が発生し、死活確認部7112がキープアライブ信号7201の交信に異常を検出すると、I/Oデバイス7101を障害と判定し、自分の運用状態を待機系から現用系に変更し、障害通知割り込み信号7202をCPU7103に送信する。CPU7103はこの割り込み信号7202を検出すると、現在の処理を一旦停止し、障害管理手段7550に割り込み信号7203を送信する。   If a failure occurs in the I / O device 7101 and the life and death confirmation unit 7112 detects an abnormality in the communication of the keep-alive signal 7201, the I / O device 7101 is determined as a failure, and its own operating state is changed from the standby system to the active system. The failure notification interrupt signal 7202 is transmitted to the CPU 7103. When the CPU 7103 detects the interrupt signal 7202, the CPU 7103 temporarily stops the current processing and transmits the interrupt signal 7203 to the failure management unit 7550.

デバイスドライバ7501および7502はそれぞれI/Oデバイス7101および7102へのアクセス手段を提供するソフトウェアプログラムであり、デバイス固有に作成される。仮想装置7530内のフロントエンドデバイスドライバ7531は、プロセス7532に、仮想資源7301の存在を示し、プロセス7532が普通の物理資源にアクセスする場合と同様のインターフェースを提供している。なお、プロセス7532が直接フロントエンドデバイスドライバ7531にアクセスする場合もあり、またカーネルプロセスのような別プロセスが間に介在する場合もある。フロントエンドデバイスドライバ7531は仮想資源7301へのアクセス要求を受け、あらかじめ対応付けされているバックエンドデバイスドライバ7504に対してアクセス要求を転送する。この対応付けは非特許文献1に記載のXENのように、実態は共有メモリへのアクセスという形でデータ転送を行う手法などによって実現されるが、必ずしもこれに限定するものではない。   Device drivers 7501 and 7502 are software programs that provide access means to the I / O devices 7101 and 7102, respectively, and are created unique to the device. The front-end device driver 7531 in the virtual device 7530 indicates the existence of the virtual resource 7301 to the process 7532 and provides an interface similar to that used when the process 7532 accesses a normal physical resource. Note that the process 7532 may directly access the front-end device driver 7531, and another process such as a kernel process may intervene. The front-end device driver 7531 receives an access request to the virtual resource 7301 and transfers the access request to the back-end device driver 7504 associated in advance. This association is realized by a method of transferring data in the form of access to a shared memory, such as XEN described in Non-Patent Document 1, but is not necessarily limited to this.

バックエンドデバイスドライバ7504はフロントエンドデバイスドライバ7531およびデバイスドライバ7501,7502と対応付けられており、デバイスドライバ7501,7502との仲介を行う。バックエンドデバイスドライバ7504とデバイスドライバ7501,7502の間に資源割当手段7503を介することで、ソフトウェア方式による障害隠蔽構造を形成している。正常動作時はバックエンドデバイスドライバ7504は現用系I/Oデバイスへのアクセス手段であるデバイスドライバ7501に接続されている。   The back-end device driver 7504 is associated with the front-end device driver 7531 and the device drivers 7501 and 7502, and mediates between the device drivers 7501 and 7502. A software-based fault concealment structure is formed by interposing resource allocation means 7503 between the back-end device driver 7504 and the device drivers 7501 and 7502. During normal operation, the back-end device driver 7504 is connected to a device driver 7501 that is an access means to the active I / O device.

障害管理手段7550は物理資源に障害が発生したときにハードウェア障害復旧方式とソフトウェア障害復旧方式を同期動作させるものである。この目的のため、管理者7900とのインターフェース手段7551、情報格納手段7553、処理管理手段7554を有する。管理者7900はあらかじめ、仮想資源7301の冗長構成、障害が発生した時の処理方法についての設定をインターフェース手段7551を通して行う。たとえば具体的には、冗長構成としてI/Oデバイス7101を現用系、I/Oデバイス7102を待機系とする1+1冗長とし、I/Oデバイス7102からの障害通知の割り込み信号が検出されたら、資源割当手段7503でのバックエンドデバイスドライバ7504とデバイスドライバ7501との接続を、バックエンドデバイスドライバ7504とデバイスドライバ7502との接続に切り替える、という処理を登録しておく。割り込み信号はたとえば各障害や割り込み信号送信元デバイスに対して唯一の値となるIDとして管理される。この処理情報はたとえば各割り込み信号のIDに対してテーブルとして管理され、メモリやディスクに代表される情報格納手段7553に格納される。処理管理手段7554はCPU7103からの割り込み信号を契機に、その割り込み信号IDから該当処理を上記の情報格納手段7553内のテーブルを検索し、その処理を実行する(ここでは資源制御手段7503に接続切替命令を発行する)。ここで、該当処理が見つからない場合はエラーメッセージをインターフェース手段7551を通して管理者7900に通知する、などの処理も登録しておくことも可能である。   The failure management means 7550 operates the hardware failure recovery method and the software failure recovery method in synchronization when a failure occurs in the physical resource. For this purpose, an interface unit 7551 with an administrator 7900, an information storage unit 7553, and a process management unit 7554 are provided. The administrator 7900 makes settings in advance through the interface means 7551 for the redundant configuration of the virtual resources 7301 and the processing method when a failure occurs. For example, specifically, as a redundant configuration, the I / O device 7101 is the active system, the I / O device 7102 is the standby system, and 1 + 1 redundancy is established. If a fault notification interrupt signal from the I / O device 7102 is detected, the resource A process of switching the connection between the back-end device driver 7504 and the device driver 7501 in the assignment unit 7503 to the connection between the back-end device driver 7504 and the device driver 7502 is registered. The interrupt signal is managed as an ID which is a unique value for each fault or interrupt signal transmission source device, for example. This processing information is managed as a table for each ID of each interrupt signal, for example, and stored in information storage means 7553 represented by a memory or a disk. In response to an interrupt signal from the CPU 7103, the process management unit 7554 searches the table in the information storage unit 7553 for the corresponding process from the interrupt signal ID, and executes the process (in this case, the connection switch to the resource control unit 7503) Issue an order). Here, it is also possible to register a process such as notifying the administrator 7900 of an error message through the interface means 7551 when the corresponding process is not found.

死活確認部7111が搭載されたI/Oデバイス7101および死活確認部7111が搭載された7102が、たとえばネットワークカードであった場合、ネットワーク上のノードの障害によるサービス断も、I/Oデバイス7101および7102のハードウェアカウンタなどの値を監視し、カウンタ値の変化の異常の検出により、障害と判断することができる。そして、キープアライブ信号を通してマスタからスレーブに障害通知を行うことで同様の障害切り替えが可能である。   When the I / O device 7101 on which the life / death confirmation unit 7111 is mounted and the 7102 on which the life / death confirmation unit 7111 is mounted are, for example, a network card, a service interruption due to a failure of a node on the network may be caused by the I / O device 7101 and A value such as a hardware counter 7102 is monitored, and a failure can be determined by detecting an abnormal change in the counter value. Then, similar failure switching is possible by notifying the slave from the master through the keep-alive signal.

また、ネットワークカードとネットワーク上のノードとの死活確認信号により、ネットワーク上の障害においても同様に割り込み信号7203を発行し、高速切り替えが可能である。   In addition, an interruption signal 7203 is issued in the same way in the case of a failure on the network by a life / death confirmation signal between the network card and the node on the network, and high-speed switching is possible.

以下、I/Oデバイス7101での障害発生から障害復旧までの動作を図4に示すフローチャートを用いて詳細に説明する。ここで、上記のとおり、管理者7900によって必要設定および処理登録はすでに行われているとする。   Hereinafter, the operation from the failure occurrence to the failure recovery in the I / O device 7101 will be described in detail with reference to the flowchart shown in FIG. Here, as described above, it is assumed that necessary settings and process registration have already been performed by the administrator 7900.

(ステップS201)
I/Oデバイス7101に障害が発生し、デバイスドライバ7501、バックエンドデバイスドライバ7504、フロントエンドデバイスドライバ7531およびプロセス7532はI/Oデバイス7101へのアクセスが不可となり、サービスが停止する。またその障害により、キープアライブ信号7201の交信異常が発生する。
(Step S201)
When a failure occurs in the I / O device 7101, the device driver 7501, the back-end device driver 7504, the front-end device driver 7531, and the process 7532 cannot access the I / O device 7101, and the service stops. Further, due to the failure, a communication abnormality of the keep alive signal 7201 occurs.

(ステップS202)
I/Oデバイス7102は死活確認部7112のキープアライブ信号交信異常検出からI/Oデバイス7101の障害を検出し、自分の運用状態を待機から運用に変更する。
(Step S202)
The I / O device 7102 detects a failure of the I / O device 7101 from the keepalive signal communication abnormality detection of the life and death confirmation unit 7112, and changes its operation state from standby to operation.

(ステップS203)
I/Oデバイス7102は、割り込み信号7202をCPU7103に送信する。
(Step S203)
The I / O device 7102 transmits an interrupt signal 7202 to the CPU 7103.

(ステップS204)
CPU7103は割り込み信号7203を障害管理手段7550に送信する。
(ステップS205)
障害管理手段7550における処理管理手段7554は割り込み信号のID(Identification)から情報格納手段7553にアクセスし、処理テーブルから該当する処理を検索する。
(Step S204)
The CPU 7103 transmits an interrupt signal 7203 to the failure management unit 7550.
(Step S205)
The process management unit 7554 in the failure management unit 7550 accesses the information storage unit 7553 from the ID (Identification) of the interrupt signal, and retrieves the corresponding process from the process table.

(ステップS206)
処理管理手段7554は検索した処理を実行する命令を発行する(ここでは資源割当手段7503に対して、バックエンドデバイスドライバ7504をデバイスドライバ7502に接続変更するように命令(契機信号)を発行する)。
(Step S206)
The process management unit 7554 issues a command to execute the searched processing (here, a command (trigger signal) is issued to the resource allocation unit 7503 to change the connection of the back-end device driver 7504 to the device driver 7502). .

(ステップS207)
資源割当手段7503は上記の命令に従って、バックエンドデバイスドライバ7504とデバイスドライバ7501の接続をデバイスドライバ7502との接続に変更する。
(Step S207)
The resource allocation unit 7503 changes the connection between the back-end device driver 7504 and the device driver 7501 to the connection with the device driver 7502 in accordance with the above command.

(ステップS208)
上記の接続が確立されると、バックエンドデバイスドライバ7504、フロントエンドデバイスドライバ7531およびプロセス7532はデバイスドライバ7502およびすでに現用系として動作しているI/Oデバイス7102へのアクセスが可能となり、サービスが復旧する。
(Step S208)
When the above connection is established, the back-end device driver 7504, the front-end device driver 7531, and the process 7532 can access the device driver 7502 and the I / O device 7102 that is already operating as the active system, and the service is Restore.

次に本実施形態による効果について説明する。プロセス7532とデバイスドライバ7501および7502、さらにI/Oデバイス7101および7102との接続はフロントエンドデバイスドライバ7531とバックエンドデバイスドライバ7504の間の接続を介して実現されているため、資源割当手段7503による切替により、デバイスドライバおよびI/Oデバイスでの障害は完全に隠蔽される。これはソフトウェア障害復旧方式の利点である。さらに、障害検出および運用状態切替は高速なハードウェア方式を用い、処理管理手段7554によるハードウェア方式とソフトウェア方式の連携同期動作によって、死活確認部以外の特別な隠蔽構造をとるハードウェアなしに高速障害復旧が可能となる。   Next, the effect by this embodiment is demonstrated. Since the connection between the process 7532 and the device drivers 7501 and 7502 and the I / O devices 7101 and 7102 is realized through the connection between the front-end device driver 7531 and the back-end device driver 7504, the resource allocation unit 7503 By switching, faults in the device driver and I / O device are completely hidden. This is an advantage of the software failure recovery method. Further, failure detection and operation state switching use a high-speed hardware method, and by the cooperative synchronization operation of the hardware method and the software method by the processing management unit 7554, high-speed operation can be performed without hardware having a special concealment structure other than the alive confirmation unit. Disaster recovery is possible.

さらに、上記の可用性(availability)を基準(メトリック)とした制御以外に、ハードウェア上で監視可能な項目に対する統計値をメトリックとしたハードウェアとソフトウェアの連携資源割当制御も同様の方法で実現可能である。統計値として、たとえばカウンタ値による帯域測定、試験信号などによる遅延測定、ビットエラー検査による信頼性などがあるが、必ずしもこれらに限るものではない。連携による実現機能として、たとえば帯域測定の場合は、冗長構成を組むペアの間で状況の変化に応じた動的なロードバランスなどが実現可能である。   Furthermore, in addition to the above-mentioned control based on availability (metric), hardware and software linked resource allocation control using the statistical values for items that can be monitored on hardware as a metric can be realized in the same way. It is. Statistical values include, for example, bandwidth measurement using a counter value, delay measurement using a test signal, and reliability using a bit error test, but are not necessarily limited thereto. As an implementation function by cooperation, for example, in the case of bandwidth measurement, it is possible to realize a dynamic load balance according to a change in a situation between pairs forming a redundant configuration.

[第3の実施形態]
次に本発明の第3の実施の形態について図5を参照して詳細に説明する。
[Third Embodiment]
Next, a third embodiment of the present invention will be described in detail with reference to FIG.

本発明の第3の実施の形態は、ハードウェア空間8100とソフトウェア空間8500から構成される。   The third embodiment of the present invention includes a hardware space 8100 and a software space 8500.

ハードウェア空間8100は通信手段8150によって相互に接続されたI/Oデバイス8101、I/Oデバイス8102、I/Oデバイス8103およびCPU8104を少なくともひとつずつ以上有する。I/Oデバイス8102および8103は死活確認部によって上記の第2の実施の形態と同様にキープアライブ信号を通して互いに死活確認を行っている。I/Oデバイス8101は死活確認部を有しない通常のI/Oデバイスである。I/Oデバイス8101、I/Oデバイス8102、I/Oデバイス8103は物理資源を構成し、I/Oデバイス8101は死活確認部を有せず、異なる性能を有する。
ソフトウェア空間8500は、オペレーティングシステムなどに代表される仮想化手段8580および少なくとも二つ以上の仮想装置8530および8540を有する。仮想化手段8580は、I/Oデバイス8101〜8103それぞれへのアクセス手段であるデバイスドライバ8501〜8503、資源割当手段8506、バックエンドデバイスドライバ8504および8505、障害管理手段8550を有する。さらに障害管理手段8550は、管理者8900にアクセス手段を提供するインターフェース手段8551、設定管理手段8552、情報格納手段8553、処理管理手段8554、および物理資源管理手段8555を有する。また、仮想装置8530および8540は、それぞれプロセス8532および8542と、フロントエンドデバイスドライバ8531および8541を有する。
The hardware space 8100 includes at least one I / O device 8101, I / O device 8102, I / O device 8103, and CPU 8104 connected to each other by the communication unit 8150. The I / O devices 8102 and 8103 confirm each other's life and death through a keep alive signal by the life and death confirmation unit as in the second embodiment. The I / O device 8101 is a normal I / O device that does not have a life / death confirmation unit. The I / O device 8101, the I / O device 8102, and the I / O device 8103 constitute a physical resource, and the I / O device 8101 does not have a life / death confirmation unit and has different performance.
The software space 8500 includes virtualization means 8580 represented by an operating system and the like, and at least two or more virtual devices 8530 and 8540. The virtualization unit 8580 includes device drivers 8501 to 8503, resource allocation units 8506, back-end device drivers 8504 and 8505, and failure management units 8550 that are access units to the I / O devices 8101 to 8103. The failure management unit 8550 further includes an interface unit 8551 that provides an access unit to the administrator 8900, a setting management unit 8552, an information storage unit 8553, a process management unit 8554, and a physical resource management unit 8555. The virtual devices 8530 and 8540 have processes 8532 and 8542 and front-end device drivers 8531 and 8541, respectively.

また管理者8900は、障害管理手段8550に対して、管理情報として、構成設定情報8701、管理ポリシー情報8702を入力することができる。   The administrator 8900 can input configuration setting information 8701 and management policy information 8702 as management information to the failure management unit 8550.

次に、これらの手段の動作について説明する。上記の第2の実施の形態と同様に、I/Oデバイス8101〜8103はそれぞれNIC(ネットワークインターフェースカード)やディスクに代表されるInput/Outputデバイスであり、CPU8104はPentium(登録商標)やXeonに代表される中央演算処理装置であるが、必ずしもこれらに限定するものではない。   Next, the operation of these means will be described. As in the second embodiment, the I / O devices 8101 to 8103 are input / output devices represented by NIC (network interface card) and disk, respectively, and the CPU 8104 is connected to Pentium (registered trademark) or Xeon. Although it is a representative central processing unit, it is not necessarily limited to these.

I/Oデバイス8102および8103は冗長ペアを構成しており片方が現用系、もう一方が待機系に設定される(ここではI/Oデバイス8102が現用系とする)。そして、I/Oデバイス8102および8103は、第2の実施の形態同様に死活確認部によるキープアライブ信号の一定間隔での交信によって互いに死活確認をしている。I/Oデバイス8101はこのような死活確認部を持たない通常のハードウェア資源とする。   The I / O devices 8102 and 8103 form a redundant pair, and one is set as the active system and the other is set as the standby system (here, the I / O device 8102 is set as the active system). Then, the I / O devices 8102 and 8103 confirm each other's life and death by communicating at regular intervals of keep alive signals by the life and death confirmation unit, as in the second embodiment. The I / O device 8101 is a normal hardware resource that does not have such a life / death confirmation unit.

このため、もしI/Oデバイス8101に障害が発生した場合は、プロセスやデバイスドライバによるタイムアウトなどの応答異常検出によって障害が検出され、従来のソフトウェア障害復旧方式のみによって障害復旧されるため、障害復旧は一般に時間のかかるものとなる。一方でI/Oデバイス8102および8103における障害は死活確認部によって検出されるため、第2の実施の形態に記載と同様の処理により高速検出および運用状態変更が可能である。   For this reason, if a failure occurs in the I / O device 8101, the failure is detected by detecting a response abnormality such as a timeout by a process or device driver, and the failure is recovered only by the conventional software failure recovery method. Is generally time consuming. On the other hand, since the failure in the I / O devices 8102 and 8103 is detected by the life and death confirmation unit, high-speed detection and operation state change can be performed by the same processing as described in the second embodiment.

デバイスドライバ8501〜8503はそれぞれI/Oデバイス8101〜8103へのアクセス手段を提供するソフトウェアプログラムであり、デバイス固有に作成される。第2の実施の形態と同様に、仮想装置8530および8540内のフロントエンドデバイスドライバ8531および8541は、プロセス8532および8542に、仮想資源8301および8302の存在を示し、プロセス8532および8542が普通の物理資源にアクセスする場合と同様のインターフェースを提供している。フロントエンドデバイスドライバ8531および8541は、それぞれバックエンドデバイスドライバ8504および8505に対応付けられており、仮想資源8301および8302のアクセス要求を転送する。   The device drivers 8501 to 8503 are software programs that provide access means to the I / O devices 8101 to 8103, respectively, and are created unique to the device. Similar to the second embodiment, the front-end device drivers 8531 and 8541 in the virtual devices 8530 and 8540 indicate to the processes 8532 and 8542 the existence of the virtual resources 8301 and 8302, and the processes 8532 and 8542 perform normal physical processing. Provides an interface similar to that used to access resources. The front-end device drivers 8531 and 8541 are associated with the back-end device drivers 8504 and 8505, respectively, and transfer access requests for the virtual resources 8301 and 8302.

バックエンドデバイスドライバ8504および8505は、資源割当手段8506を通して、デバイスドライバ8501〜8503と接続制御され、ソフトウェア方式による障害隠蔽構造を形成しており、冗長構成をとっている場合はその構成に指定の現用系デバイスドライバに接続を許可する。   The back-end device drivers 8504 and 8505 are connected and controlled with the device drivers 8501 to 8503 through the resource allocation unit 8506 to form a fault concealment structure by a software method. If a redundant configuration is adopted, the configuration is designated as the configuration. Allow the active device driver to connect.

障害管理手段8550は第2の実施の形態に加えて、設定管理手段8552と物理資源管理手段8555を有する。   The fault management unit 8550 includes a setting management unit 8552 and a physical resource management unit 8555 in addition to the second embodiment.

物理資源管理手段8555は、現在システム内にある物理資源の情報を管理し、また必要に応じて物理資源に設定を行う。物理資源の情報はたとえば物理資源ID(物理資源識別情報)や種類、性能に加え、上記の死活確認部の有無といった障害復旧性能に関する情報を有する。たとえば、I/Oデバイス8101は通常デバイスであり、I/Oデバイス8102および8103は死活確認部を有し、ハードウェア方式による冗長構成を組むことが可能である、などの情報である。さらに、I/Oデバイス8102と8103で冗長ペアを組むことを決めた時、両者の間でキープアライブ信号に代表される死活確認信号の交信の設定を行い、運用系および待機系の運用状態設定を行う。   The physical resource management unit 8555 manages information on physical resources currently in the system, and sets the physical resources as necessary. The physical resource information includes, for example, information related to failure recovery performance such as the presence / absence of the alive confirmation unit in addition to the physical resource ID (physical resource identification information), type, and performance. For example, the information is that the I / O device 8101 is a normal device, the I / O devices 8102 and 8103 have a life / death confirmation unit, and a redundant configuration by a hardware method can be built. Furthermore, when it is decided to form a redundant pair with the I / O devices 8102 and 8103, the life and death confirmation signal communication represented by the keep alive signal is set between the two, and the operation state setting of the active system and the standby system is performed. I do.

設定管理手段8552はシステム内の仮想装置に割り当てられた仮想資源構成、プライオリティ、冗長構成や障害復旧速度などの可用性レベルといった仮想装置毎に定められた管理情報を有する。仮想装置の資源割当構成は、仮想装置を生成時に取得・保存し、可用性レベルやプライオリティの情報は、それぞれ構成設定情報8701および管理ポリシー8702によって定められる。構成設定情報8701および管理ポリシー8702はインターフェース手段8551を通して管理者8900から入力される。   The setting management unit 8552 has management information determined for each virtual device such as a virtual resource configuration assigned to a virtual device in the system, a priority, an availability level such as a redundant configuration and a failure recovery speed. The resource allocation configuration of the virtual device is acquired and stored when the virtual device is generated, and the availability level and priority information are determined by the configuration setting information 8701 and the management policy 8702, respectively. The configuration setting information 8701 and the management policy 8702 are input from the administrator 8900 through the interface unit 8551.

構成設定情報8701はシステム内の仮想装置の有する仮想資源の冗長構成や障害復旧速度などの可用性レベル情報を有する。管理ポリシー情報8702はシステム内の仮想装置の優先度を記載したプライオリティ情報を有する。   The configuration setting information 8701 includes availability level information such as a redundant configuration of a virtual resource possessed by a virtual device in the system and a failure recovery speed. The management policy information 8702 has priority information describing the priority of the virtual device in the system.

設定管理手段8552は構成設定情報8701および管理ポリシー情報8702と、仮想装置に割り当てられている仮想資源構成情報と、物理資源管理手段の有する物理資源情報から、可能な資源割当方法の組み合わせを計算し、最適構成を探索し、その設定反映命令を資源割当手段8506に発行し、その設定情報を保持する。また、同時に、決定した冗長構成情報から、各種割り込み信号IDに対して障害発生時の処理を情報格納手段8553のテーブルに格納する。   The setting management unit 8552 calculates a combination of possible resource allocation methods from the configuration setting information 8701 and the management policy information 8702, the virtual resource configuration information allocated to the virtual device, and the physical resource information of the physical resource management unit. The optimum configuration is searched, the setting reflection command is issued to the resource allocation unit 8506, and the setting information is held. At the same time, from the determined redundant configuration information, the processing at the time of occurrence of failure for each interrupt signal ID is stored in the table of the information storage unit 8553.

以下、構成設定情報8701および管理ポリシー情報8702の入力から、冗長構成の決定および設定処理について図6に示すフローチャートを用いて詳細に説明する。   The redundant configuration determination and setting processing from the input of the configuration setting information 8701 and the management policy information 8702 will be described in detail below with reference to the flowchart shown in FIG.

(ステップS301)
構成設定情報8701および管理ポリシー8702を入力する。
(Step S301)
Input configuration setting information 8701 and management policy 8702.

(ステップS302)
設定管理手段8552は物理資源管理手段8555から物理資源情報を取得する。また、現在の仮想装置の仮想資源に対して、入力された構成設定情報8701に記載の可用性レベルを達成する物理資源割当構成を計算し、上記の取得した物理資源情報と比較する。
(Step S302)
The setting management unit 8552 acquires physical resource information from the physical resource management unit 8555. In addition, a physical resource allocation configuration that achieves the availability level described in the input configuration setting information 8701 is calculated for the virtual resource of the current virtual device, and compared with the acquired physical resource information.

(ステップS303)
要求の可用性レベルを満たす物理資源割当が可能であれば(ステップS304)に進む。不可能なら、エラーメッセージを、インターフェース手段8551を通して管理者8900に出力して終了する。
(Step S303)
If physical resource allocation that satisfies the requested availability level is possible (step S304), the process proceeds. If not possible, an error message is output to the administrator 8900 through the interface means 8551 and the process is terminated.

(ステップS304)
管理ポリシー情報8702から仮想装置のプライオリティ情報を取得し、要求の可用性レベルを満たす物理資源割当組み合わせのうち、プライオリティに応じて物理資源割当組み合わせをソートし、一番可用性レベルが高い仮想装置の物理資源割当方法を決定する。
(Step S304)
The virtual device priority information is acquired from the management policy information 8702, and among the physical resource allocation combinations satisfying the requested availability level, the physical resource allocation combinations are sorted according to the priority, and the physical resource of the virtual device having the highest availability level Determine the allocation method.

(ステップS305)
決定した組み合わせを設定反映する命令を資源割当手段8506に発行し、資源割当を決定し、その設定を保存する。
(Step S305)
A command to reflect the determined combination for setting is issued to the resource allocation unit 8506, the resource allocation is determined, and the setting is stored.

(ステップS306)
設定した資源割当構成に対して、各物理資源での障害に対する処理を作成し、情報格納手段8553のテーブルに登録し、処理管理手段8554が障害発生通知の割り込み信号取得時に処理を検索できるようにする。
(Step S306)
For the set resource allocation configuration, a process for a failure in each physical resource is created and registered in the table of the information storage unit 8553 so that the process management unit 8554 can search for the process when acquiring the interrupt signal of the failure occurrence notification. To do.

たとえば、図5に記載の例で、仮想装置8530より仮想装置8540の方がプライオリティが高いとし、両者の仮想デバイスとも1+1の冗長構成(ただし待機系は共有可)であったとする。I/Oデバイス8101で障害が発生した場合は、ハードウェアによる死活確認部がなく、一般に障害復旧処理はタイムアウトなどのソフトウェア処理になるため、処理時間が長くなるため可用性レベルは低い。一方I/Oデバイス8102で障害が発生した場合は、第2の実施の形態に記載のように、障害復旧が高速で行えるため、可用性レベルは高い。   For example, in the example shown in FIG. 5, it is assumed that the virtual device 8540 has a higher priority than the virtual device 8530, and both virtual devices have a 1 + 1 redundant configuration (however, the standby system can be shared). When a failure occurs in the I / O device 8101, there is no hardware alive confirmation unit, and generally the failure recovery processing is software processing such as timeout, so that the processing time is long and the availability level is low. On the other hand, when a failure occurs in the I / O device 8102, the failure level can be recovered at a high speed as described in the second embodiment, so the availability level is high.

そこで、仮想装置8540の仮想デバイス8302の現用系にはI/Oデバイス8102が、待機系にはI/Oデバイス8103が設定され、仮想装置8530の仮想デバイス8301の現用系にはI/Oデバイス8101が、待機系にはI/Oデバイス8103が設定されることになる。I/Oデバイス8103を現用系にし、I/Oデバイス8102を待機系にする組み合わせも同様の可用性レベルで実現可能であるが両者は区別がないため、どちらか一方を選ぶこととする。   Therefore, the I / O device 8102 is set for the active system of the virtual device 8302 of the virtual apparatus 8540, the I / O device 8103 is set for the standby system, and the I / O device is set for the active system of the virtual device 8301 of the virtual apparatus 8530. 8101 and the I / O device 8103 is set in the standby system. A combination in which the I / O device 8103 is used as the active system and the I / O device 8102 is used as the standby system can be realized with the same availability level.

次に本実施形態による効果について説明する。障害復旧性能、ひいては可用性レベルの異なる物理資源を複数有するハードウェア空間(物理資源空間)をシステム内に有するシステムにおいて、本実施形態によれば、第2の実施の形態による効果は引き継いだまま仮想装置の優先度に応じた最適障害復旧構成を自動的に選ぶことが可能になる。
そして、キープアライブ方式などの高速障害復旧機能を持ったハードウェアとそうでない通常ハードウェアが混在するような多様な障害回復性能が存在する複雑な管理環境で、管理ポリシーを満足するよう自立的に最適な冗長化設定を行う管理柔軟性を提供することができる。その理由は、設定情報、管理ポリシーや資源情報などを管理しながら、状態に合わせた最適な設定を自動的に選択し、構成設定・障害復旧を行うためである。
Next, the effect by this embodiment is demonstrated. In a system having a hardware space (physical resource space) having a plurality of physical resources having different failure recovery performance and availability levels in the system, according to the present embodiment, the effect of the second embodiment is maintained while taking the virtual effect. It becomes possible to automatically select the optimum failure recovery configuration according to the priority of the device.
And in a complex management environment with various failure recovery performances such as hardware that has a high-speed failure recovery function such as keep alive method and other hardware that is not so, it is autonomous to satisfy the management policy. Management flexibility for optimal redundancy setting can be provided. The reason is that, while managing the setting information, management policy, resource information, etc., the optimum setting according to the state is automatically selected, and the configuration setting / failure recovery is performed.

[第4の実施形態]
次に本発明の第4の実施の形態について図7を参照して詳細に説明する。
本発明の第4の実施の形態は、第2および第3の実施の形態のハードウェア空間の生成の方法およびその方法とソフトウェア空間の連携に関する。
[Fourth Embodiment]
Next, a fourth embodiment of the present invention will be described in detail with reference to FIG.
The fourth embodiment of the present invention relates to a method for generating a hardware space according to the second and third embodiments, and cooperation between the method and the software space.

図7を参照すると、第4の実施の形態は、物理資源を収容するシャーシ9101および9201と、スイッチ9400と、ハードウェア空間9000と、ソフトウェア空間9500から構成される。ハードウェア空間9000とソフトウェア空間9500は例えばパーソナルコンピュータで構成され、ソフトウェア空間9500はDRAM等の半導体メモリやハードディスク装置に記憶されたプログラムやデータで構成され、ハードウェア空間6100のCPUなどに代表される中央演算部により処理が実行される。   Referring to FIG. 7, the fourth embodiment includes chassis 9101 and 9201 that accommodate physical resources, a switch 9400, a hardware space 9000, and a software space 9500. The hardware space 9000 and the software space 9500 are composed of, for example, a personal computer. The software space 9500 is composed of a semiconductor memory such as a DRAM or a program or data stored in a hard disk device, and is represented by a CPU of the hardware space 6100. Processing is executed by the central processing unit.

シャーシ9101はI/Oデバイス9111、I/Oデバイス9112、CPU9113および各デバイスに電力を供給する電源9121を収容する。また、シャーシ9201はI/Oデバイス9211、I/Oデバイス9212、CPU9213およびを各デバイスに電力を供給する電源9221を収容する。スイッチ9400はシャーシ9101および9201及びハードウェア空間9000の各デバイスを相互に接続する。ハードウェア空間9000は、スイッチ9400によりパーティションに論理的に分割されグループ化された資源であるI/Oデバイス9001、I/Oデバイス9002、I/Oデバイス9003、CPU9004を有する。ソフトウェア空間9500は、物理資源管理手段9501および少なくとも一つ以上の仮想装置9502を有する。   The chassis 9101 houses an I / O device 9111, an I / O device 9112, a CPU 9113, and a power source 9121 that supplies power to each device. The chassis 9201 houses an I / O device 9211, an I / O device 9212, a CPU 9213, and a power source 9221 that supplies power to each device. The switch 9400 connects the devices in the chassis 9101 and 9201 and the hardware space 9000 to each other. The hardware space 9000 includes an I / O device 9001, an I / O device 9002, an I / O device 9003, and a CPU 9004 that are resources logically divided into partitions by the switch 9400 and grouped. The software space 9500 includes physical resource management means 9501 and at least one virtual device 9502.

ここで、シャーシの数や各シャーシに収容されるI/Oデバイスなどの物理資源の数や種類は図7の構成に限るものではない。   Here, the number of chassis and the number and types of physical resources such as I / O devices accommodated in each chassis are not limited to the configuration shown in FIG.

また、スイッチによってグループ化されるように選択された物理資源も一例であり、この構成に限るものではない。   The physical resources selected to be grouped by the switch are also an example, and the present invention is not limited to this configuration.

ここでいうグループ化とは、グループ化されたハードウェア空間9000内の物理資源が、スイッチの論理分割機能、たとえばEthernet(登録商標)スイッチのVLAN機能に代表される機能によって、お互いに通信することが可能であり、かつ、異なるグループとは基本的に接続が分離される処理のことである。   Grouping here means that the physical resources in the grouped hardware space 9000 communicate with each other by the logical division function of the switch, for example, the function represented by the VLAN function of the Ethernet (registered trademark) switch. In addition, different groups are processes in which connections are basically separated.

またスイッチ9400はEthernet(登録商標)スイッチなどに代表されるネットワーク装置であるが、プロトコルやその物理構成などはそれに限定するものではない。   The switch 9400 is a network device typified by an Ethernet (registered trademark) switch, but the protocol and the physical configuration thereof are not limited thereto.

ソフトウェア空間9500は第3の実施例に記述のソフトウェア空間に代表される、仮想化によるソフトウェア方式による障害隠蔽手段と障害管理手段を有する。   The software space 9500 includes failure concealment means and failure management means by a software method based on virtualization, represented by the software space described in the third embodiment.

I/Oデバイスに代表される物理資源は死活確認部などのハードウェア方式による障害復旧機能を有していてもよいし、有していなくてもよい。   A physical resource represented by an I / O device may or may not have a failure recovery function by a hardware method such as a life / death confirmation unit.

物理資源管理手段9502はハードウェア空間9000に属する物理資源の性能、可用性、物理位置、グループ化構成などの情報を管理する。
次に、これらの手段の動作について説明する。図7に示すように、ソフトウェア空間9500に提供されるハードウェア空間9000に属する物理資源は、設定の違いによりシャーシ9101およびシャーシ9102のどちらかからもしくは両方から選択されグループ化される可能性がある。
The physical resource management unit 9502 manages information such as the performance, availability, physical location, and grouping configuration of physical resources belonging to the hardware space 9000.
Next, the operation of these means will be described. As shown in FIG. 7, physical resources belonging to the hardware space 9000 provided in the software space 9500 may be selected and grouped from either or both of the chassis 9101 and the chassis 9102 depending on the setting. .

図7に示す構成はCPU9004とI/Oデバイス9001とI/Oデバイス9002はそれぞれシャーシ9001に属するCPU9113とI/Oデバイス9111とI/Oデバイス9112と接続され、1つのCPU、それぞれ独立した2つのI/Oデバイスとして機能する。また、I/Oデバイス9003はシャーシ9201に属するI/Oデバイス9211と接続され、1つのI/Oデバイスとして機能する。ここで、第3の実施の形態と同様にソフトウェア空間9500に属する2つのプライオリティが異なる仮想装置の仮想資源の冗長構成としてI/Oデバイスの1+1構成(現用系1つ、待機系に1つのI/Oデバイス)を設定するとする。
ここで、すべてのI/Oデバイス、シャーシ、電源の性能、可用性などの特性は等しいとし、等価な効果を生む選択肢は省略すると、I/Oデバイス9001とI/Oデバイス9002は完全に等価であり、両者を交換しただけの構成は省略する。すると現用系としてシャーシ9101のI/Oデバイスにするか、シャーシ9201のI/Oデバイスにするかの選択があるが、完全に等価であることを仮定しているため、可用性という観点ではどちらか一方を考えれば十分である。
In the configuration illustrated in FIG. 7, the CPU 9004, the I / O device 9001, and the I / O device 9002 are connected to the CPU 9113, the I / O device 9111, and the I / O device 9112 that belong to the chassis 9001, respectively. Functions as one I / O device. The I / O device 9003 is connected to the I / O device 9211 belonging to the chassis 9201 and functions as one I / O device. Here, as in the third embodiment, as a redundant configuration of virtual resources of two virtual devices having different priorities belonging to the software space 9500, a 1 + 1 configuration of I / O devices (one active system and one I / O in the standby system). / O device) is set.
Here, if the characteristics such as performance and availability of all I / O devices, chassis, and power supplies are equal, and options that produce an equivalent effect are omitted, the I / O device 9001 and the I / O device 9002 are completely equivalent. There is no need to replace the two. Then, as an active system, there is a choice between an I / O device of the chassis 9101 or an I / O device of the chassis 9201, but since it is assumed that they are completely equivalent, it is either from the viewpoint of availability. It is enough to consider one.

そこで図7に示すハードウェア空間9000では1+1冗長に対して、
(選択肢1)現用系:I/Oデバイス9001、待機系:I/Oデバイス9002
(選択肢2)現用系:I/Oデバイス9001、待機系:I/Oデバイス9003
の2通りが考えられる。これは同一シャーシ内での冗長構成か、シャーシをまたいだ冗長構成かの違いである。
Therefore, in the hardware space 9000 shown in FIG.
(Option 1) Active system: I / O device 9001, standby system: I / O device 9002
(Option 2) Active system: I / O device 9001, standby system: I / O device 9003
There are two possible ways. This is the difference between a redundant configuration within the same chassis or a redundant configuration across chassis.

電源故障という観点からは(選択肢1)は同じ電源で駆動される同一のシャーシ内のI/Oデバイス9111とI/Oデバイス9112に接続されているので、故障リスクを共有しており、(選択肢2)のほうが異なる電源で駆動されるため可用性が高い。そのため、第3の実施の形態で記載のように、管理者によって指定された仮想装置の仮想資源の冗長構成およびプライオリティに対して資源割当制御を決定する際に、物理資源管理手段9501より物理資源情報を参照し、上記のようなグループ化の違いによる可用性の違いを考慮し、よりプライオリティの高い仮想装置により可用性の高い構成を割り当てる。   From the viewpoint of power failure, (Option 1) is connected to the I / O device 9111 and I / O device 9112 in the same chassis driven by the same power source, and therefore shares the risk of failure (option Since 2) is driven by a different power source, the availability is high. Therefore, as described in the third embodiment, when the resource allocation control is determined for the redundant configuration and priority of the virtual resource of the virtual device designated by the administrator, the physical resource management unit 9501 determines the physical resource. By referring to the information and considering the difference in availability due to the difference in grouping as described above, a configuration with higher availability is assigned to a virtual device with higher priority.

なお、本例では可用性を例とり、たとえば物理的な位置やネットワーク性能などによるデータ転送速度の違いなどに代表される性能、その他の制限事項を考慮からはずしたが、可用性に加え、管理ポリシーおよび構成設定情報に考慮したい制限事項を加え、最適設定選択時にその制限事項を含めることでその他の設定も可能であり、これに限るものではない。   In this example, availability is taken as an example. For example, performance represented by differences in data transfer speed due to physical location and network performance, and other restrictions have been removed from consideration, but in addition to availability, management policy and By adding restrictions to be considered in the configuration setting information and including the restrictions when selecting the optimum setting, other settings are possible, and the present invention is not limited to this.

次に第4の実施の形態による効果について説明する。第4の実施の形態によれば、第2、第3の実施の形態の効果を引き継いだまま、物理的な位置情報や共有リスク情報などに代表される物理資源そのものの性能、および死活確認部の有無などに代表される可用性情報の他の情報を考慮したうえで、管理ポリシーや構成設定情報などの管理者の設定意思にもっとも沿う構成を自動的に選択することが可能である。   Next, effects of the fourth embodiment will be described. According to the fourth embodiment, the performance of the physical resource represented by physical location information, shared risk information, etc., and the life / death confirmation unit, while taking over the effects of the second and third embodiments. It is possible to automatically select a configuration that best suits the administrator's intention to set, such as a management policy and configuration setting information, in consideration of other information such as availability information typified by the presence or absence.

そして、物理資源の障害リスクが一様でない場合にも、最適な構成をとることができる。その理由は、最適構成検索過程において、各物理資源の障害リスクを考慮して最適化できるためである。
以上、本発明の代表的な実施形態について説明したが、本実施形態は種々の変形が可能であり、本願の請求の範囲によって定義される本発明の精神及び範囲から逸脱しないかぎり、置換、変更が可能である。
Even when the physical resource failure risk is not uniform, an optimal configuration can be adopted. This is because the optimization can be optimized in consideration of the failure risk of each physical resource in the optimum configuration search process.
While typical embodiments of the present invention have been described above, the present embodiments can be variously modified and replaced without departing from the spirit and scope of the present invention defined by the claims of the present application. Is possible.

本発明は、複数の物理資源と、これら複数の物理資源を共有するためのソフトウェアを搭載するコンピュータ構成部とを備えたシステム、例えば、CPUおよびI/Oデバイスなどを物理資源として利用するITシステムやCPUとラインカードなどを物理資源として利用するネットワーク(NW)システムに用いることができる。   The present invention relates to a system including a plurality of physical resources and a computer configuration unit having software for sharing the plurality of physical resources, for example, an IT system using a CPU and an I / O device as physical resources. And network (NW) systems that use CPU and line cards as physical resources.

本発明の最良の形態を示す図である。It is a figure which shows the best form of this invention. 本発明の最良の形態における動作フローの図である。It is a figure of the operation | movement flow in the best form of this invention. 障害発生時に、ハードウェア方式とソフトウェア方式が連携し、高速障害回復を行う図である。When a failure occurs, the hardware method and the software method cooperate to perform high-speed failure recovery. 障害発生時に、ハードウェア方式とソフトウェア方式が連携し、高速障害回復を行う際の動作フロー図である。FIG. 10 is an operation flowchart when a hardware method and a software method cooperate to perform high-speed failure recovery when a failure occurs. 複数のプライオリティの異なる仮想装置に対して、最適な資源を選択して冗長構成を設定する図である。FIG. 10 is a diagram for selecting a suitable resource and setting a redundant configuration for a plurality of virtual devices having different priorities. 複数のプライオリティの異なる仮想装置に対して、最適な資源を選択して冗長構成を設定する際の動作フロー図である。It is an operation | movement flowchart at the time of selecting an optimal resource and setting a redundant structure with respect to the several virtual apparatus from which a priority differs. 物理資源の障害リスクが一様でない場合に、それを設定に反映させる本発明の実施例の構成図である。It is a block diagram of the Example of this invention which is reflected in a setting when the failure risk of a physical resource is not uniform. VMMによる仮想化の図である。It is a figure of virtualization by VMM. XENにおける仮想化アーキテクチャの図である。It is a figure of the virtualization architecture in XEN. ソフトウェア方式による障害隠蔽方式の図である。It is a figure of the fault concealment system by a software system. RAIDによるハードウェアを用いた障害隠蔽方式の図である。It is a figure of the fault concealment method using the hardware by RAID. 死活確認装置による障害時の高速切替の図である。It is a figure of the high-speed switching at the time of the failure by the life and death confirmation apparatus.

符号の説明Explanation of symbols

6100 ハードウェア空間
6101,6102 物理資源
6111,6112 死活確認部
6113 死活確認信号
6121 中央演算部
6131 データ転送路(バス)
6500 ソフトウェア空間
6510 仮想装置
6511 資源アクセス手段
6520 仮想資源空間
6521 仮想資源
6550 仮想化手段
6551 資源割当手段
6552 障害管理手段
6553,6554 資源アクセス手段
7100 ハードウェア空間
7500 ソフトウェア空間
7101,7102 I/Oデバイス
7103 CPU
7111,7112 死活確認部
7150 データ転送路
7201 キープアライブ信号
7202 障害通知割り込み信号
7203 割り込み信号
7301 仮想資源
7501,7502 デバイスドライバ
7503 資源割当制御手段
7504 バックエンドデバイスドライバ
7530 仮想装置
7531 フロントエンドデバイスドライバ
7532 プロセス
7550 障害管理手段
7551 インターフェース手段
7553 情報格納手段
7554 処理管理手段
7580 仮想化手段
7900 管理者
8100 ハードウェア空間
8150 通信手段
8101,8102,8103 I/Oデバイス
8104 CPU
8500 ソフトウェア空間
8501,8502,8503 デバイスドライバ
8504,8505 バックエンドデバイスドライバ
8506 資源割当手段
8531,8541 フロントエンドデバイスドライバ
8532,8542 プロセス
8580 仮想化手段
8530,8540 仮想装置
8550 障害管理手段
8551 インターフェース手段
8552 設定管理手段
8553 情報格納手段
8554 処理管理手段
8555 物理資源管理手段
8701 構成設定情報
8702 管理ポリシー情報
8301,8302 仮想資源
8900 管理者
9000 ハードウェア空間
9001,9002,9003 I/Oデバイス
9004 CPU
9101,9201 シャーシ
9111,9112 I/Oデバイス
9113 CPU
9211,9212 I/Oデバイス
9213 CPU
9121,9221 電源
9400 スイッチ
9301 冗長ペア
9302 冗長ペア
9500 ソフトウェア空間
9501 物理資源管理手段
9502 仮想装置
6100 Hardware space 6101, 6102 Physical resource 6111, 6112 Alive check unit 6113 Alive check signal 6121 Central processing unit 6131 Data transfer path (bus)
6500 Software space 6510 Virtual device 6511 Resource access means 6520 Virtual resource space 6521 Virtual resource 6550 Virtualization means 6551 Resource assignment means 6552 Failure management means 6553, 6554 Resource access means 7100 Hardware space 7500 Software space 7101, 7102 I / O device 7103 CPU
7111, 7112 Life confirmation unit 7150 Data transfer path 7201 Keep-alive signal 7202 Failure notification interrupt signal 7203 Interrupt signal 7301 Virtual resource 7501, 7502 Device driver 7503 Resource allocation control means 7504 Back-end device driver 7530 Virtual device 7531 Front-end device driver 7532 Process 7550 Fault management means 7551 Interface means 7553 Information storage means 7554 Processing management means 7580 Virtualization means 7900 Administrator 8100 Hardware space 8150 Communication means 8101, 8102, 8103 I / O device 8104 CPU
8500 Software space 8501, 8502, 8503 Device driver 8504, 8505 Back-end device driver 8506 Resource allocation means 8531, 8541 Front-end device driver 8532, 8542 Process 8580 Virtualization means 8530, 8540 Virtual device 8550 Fault management means 8551 Interface means 8552 Setting Management unit 8553 Information storage unit 8554 Processing management unit 8555 Physical resource management unit 8701 Configuration setting information 8702 Management policy information 8301, 8302 Virtual resource 8900 Administrator 9000 Hardware space 9001, 9002, 9003 I / O device 9004 CPU
9101, 9201 Chassis 9111, 9112 I / O device 9113 CPU
9211, 9212 I / O device 9213 CPU
9121, 9221 Power supply 9400 Switch 9301 Redundant pair 9302 Redundant pair 9500 Software space 9501 Physical resource management means 9502 Virtual device

Claims (14)

複数の物理資源と、
少なくとも一つのソフトウェアプログラムが動作する仮想装置、および前記仮想装置で前記複数の物理資源を共有することを可能とする仮想化手段、として機能するソフトウェアを搭載するコンピュータ構成部と、を備え、
前記仮想化手段は、前記複数の物理資源の前記仮想装置への割り当てを行う資源割当手段と、前記複数の物理資源の一つ又は複数で障害が発生し、ハードウェアによる他の物理資源への切り替え制御が実行された場合に、該切り替え制御と連携して、前記資源割当手段でのソフトウェアによる前記他の物理資源への切り替えを制御する障害管理手段とを有することを特徴とする物理資源制御管理システム。
Multiple physical resources,
A virtual machine in which at least one software program operates, and a computer component that includes software functioning as a virtualization unit that enables the virtual apparatus to share the plurality of physical resources, and
The virtualization means includes a resource allocation means for allocating the plurality of physical resources to the virtual device, and one or more of the plurality of physical resources have failed, and the hardware is allocated to another physical resource. Physical resource control, comprising: fault management means for controlling switching to the other physical resource by software in the resource allocation means in cooperation with the switching control when switching control is executed Management system.
請求項1に記載の物理資源制御管理システムにおいて、前記複数の物理資源の二以上又は全部は死活確認部を有し、
前記死活確認部を有する物理資源は、該死活確認部により他の物理資源の障害を検出した場合にあらかじめ設定された動作による状態変更を行い、前記障害管理手段に通知することを特徴とする物理資源制御管理システム。
In the physical resource control management system according to claim 1, two or more or all of the plurality of physical resources have a life and death confirmation unit,
The physical resource having the alive confirmation unit performs a state change by a preset operation when a failure of another physical resource is detected by the alive confirmation unit, and notifies the failure management means of the physical resource Resource control management system.
請求項1に記載の物理資源制御管理システムにおいて、前記障害管理手段は、障害発生時に行うべき動作の情報を格納する情報格納手段と、他の物理資源への切り替えを行うべき契機信号により、前記情報格納手段の情報に基づき前記資源割当手段を制御し、障害回復処理を行う処理管理手段とを有することを特徴とする物理資源制御管理システム。   2. The physical resource control management system according to claim 1, wherein the failure management means includes an information storage means for storing information on an operation to be performed when a failure occurs, and an opportunity signal for switching to another physical resource. A physical resource control management system comprising processing management means for controlling the resource allocation means on the basis of information in the information storage means and performing failure recovery processing. 請求項3に記載の物理資源制御管理システムにおいて、前記情報格納手段は、障害発生時に行うべき動作と、前記契機信号から判別する識別情報とを対応づけた一覧テーブルを有することを特徴とする物理資源制御管理システム。   4. The physical resource control management system according to claim 3, wherein the information storage means includes a list table that associates an operation to be performed when a failure occurs with identification information determined from the trigger signal. Resource control management system. 請求項3に記載の物理資源制御管理システムにおいて、前記複数の物理資源の二以上又は全部は死活確認部を有し、
前記死活確認部を有する物理資源は、該死活確認部により他の物理資源の障害を検出した場合にあらかじめ設定された動作による状態変更を行い、前記契機信号は状態変更を行った物理資源により通知された信号であることを特徴とする物理資源制御管理システム。
In the physical resource control management system according to claim 3, two or more or all of the plurality of physical resources have a life and death confirmation unit,
The physical resource having the life and death confirmation unit performs a state change by a preset operation when a failure of another physical resource is detected by the life and death confirmation unit, and the trigger signal is notified by the physical resource that has performed the state change. A physical resource control management system, characterized in that the signal is a generated signal.
請求項1から5のいずれか1項に記載の物理資源制御管理システムにおいて、前記複数の物理資源の少なくとも1つの物理資源は、他の物理資源と比べて、物理資源の信頼性、帯域、遅延のいずれかを含む性能、物理資源の種類、死活確認機能の有無、および障害リスクのいずれかが異なることを特徴とする物理資源制御管理システム。   6. The physical resource control management system according to claim 1, wherein at least one physical resource of the plurality of physical resources is more reliable, bandwidth, and delay of physical resources than other physical resources. A physical resource control management system characterized in that any one of the performance, physical resource type, existence / non-existence confirmation function, and failure risk is different. 請求項1に記載の物理資源制御管理システムにおいて、前記障害管理手段は、システム内の物理資源の信頼性、帯域、遅延のいずれかを含む性能、物理資源識別情報、物理資源の種類、死活確認機能の有無、および障害リスクの少なくともいずれかの物理資源情報を管理する物理資源管理手段を有することを特徴とする物理資源制御管理システム。   2. The physical resource control management system according to claim 1, wherein the failure management means includes performance including physical resource reliability, bandwidth, and delay, physical resource identification information, physical resource type, and alive confirmation in the system. A physical resource control management system comprising physical resource management means for managing physical resource information of at least one of presence / absence of function and failure risk. 請求項7に記載の物理資源制御管理システムにおいて、前記障害管理手段は、前記物理資源管理手段から取得する物理資源情報と、管理者から入力される仮想装置毎に設定された資源の冗長構成、可用性レベルに関する情報を少なくとも1つ含む構成設定情報と、仮想装置に対するプライオリティ情報に関する管理ポリシーとから、前記仮想装置の資源に対して物理資源割当計算を行い、前記資源割当手段の設定制御を行う設定管理手段を有することを特徴とする物理資源制御管理システム。   8. The physical resource control management system according to claim 7, wherein the failure management unit includes physical resource information acquired from the physical resource management unit, and a redundant configuration of resources set for each virtual device input from an administrator. A setting for performing physical resource allocation calculation for the resource of the virtual device and performing setting control of the resource allocation means from configuration setting information including at least one information regarding availability level and a management policy regarding priority information for the virtual device A physical resource control management system comprising management means. 請求項8に記載の物理資源制御管理システムにおいて、前記物理資源管理手段は障害リスクの情報として、故障確率を有し、前記設定管理手段は、当該故障確率を考慮に入れて前記資源割当手段の設定制御を行うことを特徴とする物理資源制御管理システム。   9. The physical resource control management system according to claim 8, wherein the physical resource management means has a failure probability as failure risk information, and the setting management means takes into account the failure probability and A physical resource control management system characterized by performing setting control. 請求項1に記載の物理資源制御管理システムにおいて、前記障害管理手段は、物理資源に搭載されたハードウェア監視手段によって測定された統計値をメトリックに前記資源割当手段の設定制御を行うことを特徴とする物理資源制御管理システム。   2. The physical resource control management system according to claim 1, wherein the failure management unit performs setting control of the resource allocation unit based on a statistical value measured by a hardware monitoring unit mounted on the physical resource. A physical resource control management system. 請求項10に記載の物理資源制御管理システムにおいて、前記統計値は、帯域、遅延、ビットエラー率の少なくとも1つの動的な性能の測定値であることを特徴とする物理資源制御管理システム。   11. The physical resource control management system according to claim 10, wherein the statistical value is at least one dynamic performance measurement value of bandwidth, delay, and bit error rate. 請求項7に記載の物理資源制御管理システムにおいて、前記複数の物理資源はそれぞれネットワークを通じてグループ化された物理資源に接続され、前記物理資源管理手段はグループ化構成を管理する物理資源制御管理システム。   8. The physical resource control management system according to claim 7, wherein each of the plurality of physical resources is connected to a physical resource grouped through a network, and the physical resource management means manages a grouped configuration. 複数の物理資源と、少なくとも一つのソフトウェアプログラムが動作する仮想装置、および前記仮想装置で前記複数の物理資源を共有することを可能とする仮想化手段、として機能するソフトウェアを搭載するコンピュータ構成部と、を備え、
前記仮想化手段は、前記複数の物理資源の前記仮想装置への割り当てを行う資源割当手段を有する物理資源制御管理システムの物理資源制御管理方法において、
複数の物理資源の一つ又は複数で障害が発生した場合に、ハードウェアによる他の物理資源への切り替えを行うステップと、
前記切り替え制御に連携して、前記資源割当手段でのソフトウェアによる前記他の物理資源への切り替えを行うステップと、とを有することを特徴とする物理資源制御管理方法。
A computer component having software that functions as a plurality of physical resources, a virtual device in which at least one software program operates, and a virtualization unit that enables the virtual devices to share the plurality of physical resources; With
In the physical resource control management method of the physical resource control management system, the virtualization means includes resource allocation means for allocating the plurality of physical resources to the virtual device.
A step of switching to another physical resource by hardware when a failure occurs in one or more of the plurality of physical resources;
A physical resource control management method comprising: switching to the other physical resource by software in the resource allocation means in cooperation with the switching control.
コンピュータを、少なくとも一つのソフトウェアプログラムが動作する仮想装置、および前記仮想装置で複数の物理資源を共有することを可能とする仮想化手段、として機能させるための物理資源制御管理用プログラムであって、
前記仮想化手段は、前記複数の物理資源の前記仮想装置への割り当てを行う資源割当手段と、前記複数の物理資源の一つ又は複数で障害が発生し、ハードウェアによる他の物理資源への切り替え制御が実行された場合に、該切り替え制御と連携して、前記資源割当手段でのソフトウェアによる前記他の物理資源への切り替えを制御する障害管理手段として機能することを特徴とする物理資源制御管理用プログラム。
A physical resource control management program for causing a computer to function as a virtual device in which at least one software program operates, and a virtualization unit that enables the virtual device to share a plurality of physical resources,
The virtualization means includes a resource allocation means for allocating the plurality of physical resources to the virtual device, and one or more of the plurality of physical resources have failed, and the hardware is allocated to another physical resource. A physical resource control that functions as a failure management unit that controls switching to the other physical resource by software in the resource allocation unit in cooperation with the switching control when the switching control is executed Administrative program.
JP2006287536A 2006-10-23 2006-10-23 Physical resource control management system, physical resource control management method and physical resource control management program Withdrawn JP2008107896A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006287536A JP2008107896A (en) 2006-10-23 2006-10-23 Physical resource control management system, physical resource control management method and physical resource control management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006287536A JP2008107896A (en) 2006-10-23 2006-10-23 Physical resource control management system, physical resource control management method and physical resource control management program

Publications (1)

Publication Number Publication Date
JP2008107896A true JP2008107896A (en) 2008-05-08

Family

ID=39441225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006287536A Withdrawn JP2008107896A (en) 2006-10-23 2006-10-23 Physical resource control management system, physical resource control management method and physical resource control management program

Country Status (1)

Country Link
JP (1) JP2008107896A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009396A (en) * 2008-06-27 2010-01-14 Toshiba Corp Computer system, and device control method for the same
JP2010066931A (en) * 2008-09-09 2010-03-25 Fujitsu Ltd Information processor having load balancing function
KR101070431B1 (en) 2008-12-22 2011-10-06 한국전자통신연구원 Physical System on the basis of Virtualization and Resource Management Method thereof
JP2011527047A (en) * 2008-06-30 2011-10-20 ピボット3 Method and system for execution of applications associated with distributed RAID
JP2011254303A (en) * 2010-06-02 2011-12-15 Nippon Telegr & Teleph Corp <Ntt> Network communication system and network communication method
WO2012070102A1 (en) * 2010-11-22 2012-05-31 三菱電機株式会社 Computing device and program
JP2012514803A (en) * 2009-01-07 2012-06-28 ヒューレット・パッカード・カンパニー Network connection manager
JP2012531676A (en) * 2009-06-26 2012-12-10 ヴイエムウェア インク Virtual mobile device
US8527699B2 (en) 2011-04-25 2013-09-03 Pivot3, Inc. Method and system for distributed RAID implementation
US8621147B2 (en) 2008-06-06 2013-12-31 Pivot3, Inc. Method and system for distributed RAID implementation
CN103699428A (en) * 2013-12-20 2014-04-02 华为技术有限公司 Method and computer device for affinity binding of interrupts of virtual network interface card
US8799895B2 (en) 2008-12-22 2014-08-05 Electronics And Telecommunications Research Institute Virtualization-based resource management apparatus and method and computing system for virtualization-based resource management
JP2016148973A (en) * 2015-02-12 2016-08-18 日本電信電話株式会社 Life and death monitoring device, life and death monitoring system, life and death monitoring method, and life and death monitoring method program
JP2020008999A (en) * 2018-07-04 2020-01-16 富士通株式会社 Information processing system, information processing apparatus, and control program

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9146695B2 (en) 2008-06-06 2015-09-29 Pivot3, Inc. Method and system for distributed RAID implementation
US8621147B2 (en) 2008-06-06 2013-12-31 Pivot3, Inc. Method and system for distributed RAID implementation
US9465560B2 (en) 2008-06-06 2016-10-11 Pivot3, Inc. Method and system for data migration in a distributed RAID implementation
US9535632B2 (en) 2008-06-06 2017-01-03 Pivot3, Inc. Method and system for distributed raid implementation
JP2010009396A (en) * 2008-06-27 2010-01-14 Toshiba Corp Computer system, and device control method for the same
JP2011527047A (en) * 2008-06-30 2011-10-20 ピボット3 Method and system for execution of applications associated with distributed RAID
US9086821B2 (en) 2008-06-30 2015-07-21 Pivot3, Inc. Method and system for execution of applications in conjunction with raid
JP2010066931A (en) * 2008-09-09 2010-03-25 Fujitsu Ltd Information processor having load balancing function
KR101070431B1 (en) 2008-12-22 2011-10-06 한국전자통신연구원 Physical System on the basis of Virtualization and Resource Management Method thereof
US8799895B2 (en) 2008-12-22 2014-08-05 Electronics And Telecommunications Research Institute Virtualization-based resource management apparatus and method and computing system for virtualization-based resource management
JP2012514803A (en) * 2009-01-07 2012-06-28 ヒューレット・パッカード・カンパニー Network connection manager
US8364825B2 (en) 2009-01-07 2013-01-29 Hewlett-Packard Development Company, L.P. Network connection manager
JP2012531676A (en) * 2009-06-26 2012-12-10 ヴイエムウェア インク Virtual mobile device
JP2011254303A (en) * 2010-06-02 2011-12-15 Nippon Telegr & Teleph Corp <Ntt> Network communication system and network communication method
WO2012070102A1 (en) * 2010-11-22 2012-05-31 三菱電機株式会社 Computing device and program
JP5335150B2 (en) * 2010-11-22 2013-11-06 三菱電機株式会社 Computer apparatus and program
US8527699B2 (en) 2011-04-25 2013-09-03 Pivot3, Inc. Method and system for distributed RAID implementation
CN103699428A (en) * 2013-12-20 2014-04-02 华为技术有限公司 Method and computer device for affinity binding of interrupts of virtual network interface card
US10768960B2 (en) 2013-12-20 2020-09-08 Huawei Technologies Co., Ltd. Method for affinity binding of interrupt of virtual network interface card, and computer device
JP2016148973A (en) * 2015-02-12 2016-08-18 日本電信電話株式会社 Life and death monitoring device, life and death monitoring system, life and death monitoring method, and life and death monitoring method program
JP2020008999A (en) * 2018-07-04 2020-01-16 富士通株式会社 Information processing system, information processing apparatus, and control program

Similar Documents

Publication Publication Date Title
US11755435B2 (en) Cluster availability management
CN1554055B (en) High availability cluster virtual server system
US8443232B1 (en) Automatic clusterwide fail-back
US8832372B2 (en) Network storage systems having clustered raids for improved redundancy and load balancing
JP5508798B2 (en) Management method and system for managing replication in consideration of clusters
US7318138B1 (en) Preventing undesired trespass in storage arrays
KR101107899B1 (en) Dynamic Physical and Virtual Multipath I / O
US8713362B2 (en) Obviation of recovery of data store consistency for application I/O errors
US9298566B2 (en) Automatic cluster-based failover handling
US7941602B2 (en) Method, apparatus and program storage device for providing geographically isolated failover using instant RAID swapping in mirrored virtual disks
US11768724B2 (en) Data availability in a constrained deployment of a high-availability system in the presence of pending faults
JP5959733B2 (en) Storage system and storage system failure management method
US11226753B2 (en) Adaptive namespaces for multipath redundancy in cluster based computing systems
US20140173330A1 (en) Split Brain Detection and Recovery System
CN110674539B (en) Hard disk protection device, method and system
JP2008107896A (en) Physical resource control management system, physical resource control management method and physical resource control management program
US20130061086A1 (en) Fault-tolerant system, server, and fault-tolerating method
CN113849136A (en) Automatic FC block storage processing method and system based on domestic platform
US20190334990A1 (en) Distributed State Machine for High Availability of Non-Volatile Memory in Cluster Based Computing Systems
JP2019125075A (en) Storage device and storage system and program
US20120150985A1 (en) VIOS Cluster Alert Framework
JP5353378B2 (en) HA cluster system and clustering method thereof
JP2019536167A (en) Method and apparatus for dynamically managing access to logical unit numbers in a distributed storage area network environment
JP2010033379A (en) Virtualization system and restoration method for virtualization

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080613

A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100105