[go: up one dir, main page]

CN104427002B - 集群系统及用于在集群系统中提供服务可用性的方法 - Google Patents

集群系统及用于在集群系统中提供服务可用性的方法 Download PDF

Info

Publication number
CN104427002B
CN104427002B CN201410455215.2A CN201410455215A CN104427002B CN 104427002 B CN104427002 B CN 104427002B CN 201410455215 A CN201410455215 A CN 201410455215A CN 104427002 B CN104427002 B CN 104427002B
Authority
CN
China
Prior art keywords
server
physical
virtual machine
registration information
physical server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410455215.2A
Other languages
English (en)
Other versions
CN104427002A (zh
Inventor
朴诚美
李光炫
崔光民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung SDS Co Ltd
Original Assignee
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung SDS Co Ltd filed Critical Samsung SDS Co Ltd
Publication of CN104427002A publication Critical patent/CN104427002A/zh
Application granted granted Critical
Publication of CN104427002B publication Critical patent/CN104427002B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1425Reconfiguring to eliminate the error by reconfiguration of node membership
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/85Active fault masking without idle spares
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种集群系统及用于在集群系统中提供服务可用性的方法。所述集群系统包括注册有活动(active)虚拟机的第一物理服务器;及多个物理服务器,所述多个物理服务器包括对应于所述活动虚拟机且注册有在所述第一物理服务器发生故障时对所述活动虚拟机进行故障转移(failover)的备用(standby)虚拟机的第二物理服务器,在发生所述故障时,所述多个物理服务器中的每个存储故障后(post‑failure)的注册信息,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,所述一个物理服务器与所述第二物理服务器不同。

Description

集群系统及用于在集群系统中提供服务可用性的方法
技术领域
本发明涉及一种用于在集群系统中提供服务可用性的方法,更具体地讲,涉及一种在集群系统中基于虚拟化环境提供高水平的服务可用性的方法及其集群系统。
背景技术
在提供服务的计算机环境中,存在多种高可用性(High Availability:HA)技术以减少因发生物理故障(failure)而无法利用服务的停机时间(downtime)。例如,包括被连接为能够进行通信的多个服务器计算机的集群(cluster)系统提供预定服务的活动(active)服务器和所述活动服务器产生故障时用于恢复服务的备用(standby)服务器。
如上所述,在活动服务器发生故障的情况下,在备用服务器进行故障转移(failover)的期间,系统的管理员通过掌握在活动服务器中发生的故障的主要原因来修复活动服务器或者代替为新的服务器。
[现有技术文献]
[专利文献]
第930576号韩国授权专利
发明内容
如前述的HA技术,在活动服务器和备用服务器成为冗余的情况下,如果在备用服务器发生故障之后,在管理员对所述故障采取措施之前在活动服务器发生故障,则无法持续由活动服务器提供的服务。
此外,如果表示这种活动服务器和备用服务器的冗余的信息不准确,则在活动服务器发生故障时备用服务器无法正常进行故障转移。
公开的实施例涉及一种在包括多个物理服务器的集群系统中基于虚拟化环境(virtualized environment)提供高水平的服务可用性的方法,无论集群系统中的哪个物理服务器发生故障,也使得活动虚拟机和与其对应的备用虚拟机的对(pair)存在,进而可将表示这种对的信息基于物理服务器的可用资源来进行更新。
根据一个实施例,提供一种集群系统,所述集群系统包括:注册有活动(active)虚拟机的第一物理服务器;及多个物理服务器,所述多个物理服务器包括对应于所述活动虚拟机且注册有在所述第一物理服务器发生故障时对所述活动虚拟机进行故障转移(failover)的备用(standby)虚拟机的第二物理服务器,在发生所述故障时,所述多个物理服务器中的每一个存储故障后(post-failure)的注册信息,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,所述一个物理服务器与所述第二物理服务器不同。
根据所述集群系统的一方面,为了构成所述故障后的注册信息,所述一个物理服务器基于与所述多个物理服务器中的与所述第二物理服务器不同的物理服务器中的每一个的可用资源,从与所述第二物理服务器不同的所述物理服务器中被选择。
根据所述集群系统的一方面,所述活动虚拟机根据所述故障后的注册信息被注册到所述一个物理服务器。
根据所述集群系统的一方面,所述故障后的注册信息将注册到所述第一物理服务器的其他的备用虚拟机与所述多个物理服务器中的另一个物理服务器关联起来,所述另一个物理服务器与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的物理服务器不同。
根据所述集群系统的一方面,为了构成所述故障后的注册信息,所述另一个物理服务器基于所述多个物理服务器中的与注册有所述其他的活动虚拟机的物理服务器不同的物理服务器中的每一个的可用资源,从与注册有所述其他的活动虚拟机的物理服务器不同的所述物理服务器中被选择。
根据所述集群系统的一方面,所述其他的备用虚拟机根据所述故障后的注册信息被注册到所述另一个物理服务器。
根据所述集群系统的一方面,在发生所述故障之前,所述第一物理服务器及所述多个物理服务器中的每一个存储故障前(pre-failure)的注册信息,所述故障后的注册信息通过更新所述故障前的注册信息来构成,所述故障前的注册信息表示在发生所述故障之前注册到所述第一物理服务器及所述多个物理服务器中的每一个的虚拟机。
根据所述集群系统的一方面,在发生所述故障之前,可基于所述第一物理服务器的状态及所述多个物理服务器中的每一个的状态而变更所述故障前的注册信息。
根据所述集群系统的一方面,所述故障前的注册信息还表示所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源。
根据所述集群系统的一方面,所述故障前的注册信息的变更在所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源中的至少一个的变化量为临界值以上的情况下执行。
根据其他的实施例,提供一种服务可用性提供方法,所述方法用于在集群系统中提供服务可用性,包括如下步骤:在注册有活动虚拟机的第一物理服务器中发生故障时,使得注册到多个物理服务器中的第二物理服务器并与所述活动虚拟机对应的备用虚拟机对所述活动虚拟机进行故障转移;在发生所述故障时,将故障后的注册信息存储到所述多个物理服务器中的每一个,其中,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,所述一个物理服务器与所述第二物理服务器不同。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:为了构成所述故障后的注册信息,所述一个物理服务器基于所述多个物理服务器中的与所述第二物理服务器不同的物理服务器中的每一个的可用资源,从与所述第二物理服务器不同的所述物理服务器中被选择。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:将所述活动虚拟机注册到所述一个物理服务器。
根据所述服务可用性提供方法的一方面,所述故障后的注册信息还将注册到所述第一物理服务器的其他的备用虚拟机与所述多个物理服务器中的另一个物理服务器关联起来,所述另一个物理服务器与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的物理服务器不同。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:为了构成所述故障后的注册信息,所述另一个物理服务器基于所述多个物理服务器中的与注册有所述其他的活动虚拟机的物理服务器不同的物理服务器中的每一个的可用资源,从与注册有所述其他的活动虚拟机的物理服务器不同的所述物理服务器中被选择。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:所述其他的备用虚拟机根据所述故障后的注册信息被注册到所述另一个物理服务器。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:在发生所述故障之前,所述第一物理服务器及所述多个物理服务器中的每一个存储故障前的注册信息;通过更新所述故障前的注册信息来构成所述故障后的注册信息,其中,所述故障前的注册信息表示在发生所述故障之前注册到所述第一物理服务器及所述多个物理服务器中的每一个的虚拟机。
根据所述服务可用性提供方法的一方面,所述服务可用性提供方法还包括如下步骤:在发生所述故障之前,可基于所述第一物理服务器的状态及所述多个物理服务器中的每一个的状态而变更所述故障前的注册信息。
根据所述服务可用性提供方法的一方面,所述故障前的注册信息还表示所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源。
根据所述服务可用性提供方法的一方面,所述故障前的注册信息的变更在所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源中的至少一个的变化量为临界值以上的情况下执行。
根据其他的实施例,提供一种服务器计算机,所述服务器计算机包括处理器及存储器,所述存储器包括:注册信息,表示注册到包括所述服务器计算机的多个服务器计算机及其他的服务器计算机中的每一个的虚拟机;备用虚拟机,与注册到所述其他的服务器计算机的活动虚拟机对应;及计算机可执行命令,在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:响应于判定所述其他服务器计算机发生故障,所述备用虚拟机对所述活动虚拟机进行故障转移;响应于所述判定,执行更新所述注册信息,其中,更新的所述注册信息将所述活动虚拟机与所述多个服务器计算机中的一个服务器计算机关联起来,所述一个服务器计算机与所述服务器计算机不同。
根据所述服务器计算机的一方面,在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:为了更新所述注册信息,基于所述多个服务器计算机中的与所述服务器计算机不同的服务器计算机中的每一个的可用资源,从与所述服务器计算机不同的服务器计算机中选择所述一个服务器计算机。
根据所述服务器计算机的一方面,所述其他的服务器计算机还注册有其他的备用虚拟机,更新的所述注册信息也将所述其他的备用虚拟机与所述多个服务器计算机中的另一个服务器计算机关联起来,所述另一个服务器计算机与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的服务器计算机不同。
根据所述服务器计算机的一方面,在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:为了更新所述注册信息,基于所述多个服务器计算机中的与注册有所述其他的活动虚拟机的服务器计算机不同的服务器计算机中的每一个的可用资源,从与注册有所述其他的活动虚拟机的服务器计算机不同的服务器计算机中选择所述另一个服务器计算机。
根据所述服务器计算机的一方面,在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:在发生所述故障之前,可基于所述多个服务器计算机中的每一个的状态及所述其他的服务器计算机的状态而变更所述注册信息。
根据所述服务器计算机的一方面,所述注册信息还表示所述其他的服务器计算机的可用资源及所述多个服务器计算机中的每一个的可用资源。
根据所述服务器计算机的一方面,变更所述注册信息的操作在所述多个服务器计算机中的每一个的可用资源及所述其他的服务器计算机的可用资源中的至少一个的变化量为临界值以上的情况下执行。
根据本发明的多个实施例的其他具体事项在以下的详细说明及附图中被揭示。
根据预定的实施例,包括多个物理服务器的集群系统中提供更高的服务可用性,因此可最小化在集群系统中的任一物理服务器发生故障时的服务的停机时间。
附图说明
图1示出根据本发明的实施例的包括多个服务器计算机的集群(cluster)系统;
图2示出本发明的实施例中的包含于物理服务器中的信息表的示例;
图3是示出根据本发明的实施例而在集群系统中提供服务可用性的过程的顺序图。
符号说明:
100:集群系统
110、120、130、140:物理服务器
111、121、131、141:活动虚拟机
112、122、132、142;备用虚拟机
116、126、136、146;信息表
具体实施方式
以下,将参照附图对本发明的具体实施方式进行描述。然而,这只不过是示例,并且本发明不限于此。
在对本发明进行描述时,在对与本发明相关的公知技术的具体描述被认为是会使本发明的主旨不清楚的情况下,省略其详细描述。并且,后述的术语作为考虑本发明中的功能而定义的术语,可根据使用者、运用者的意图或者惯例等而不同。因此,其定义应基于贯穿整个本说明书的内容而做出。
本发明的技术构思由权利要求书确定,并且以下的实施例只是用于有效地将本发明的技术思想解释给本发明所属的技术领域中具有普通的知识的技术人员的一种方式而已。
图1示出根据本发明的实施例的包括多个服务器计算机的集群(cluster)系统。
如图1所示,示例性的集群系统100包括第一物理服务器110、第二物理服务器120、第三物理服务器130及第四物理服务器140。各个物理服务器110、120、130、140被连接为能够通过网络180进行通信。例如,各个物理服务器110、120、130、140可通过网络180相互交换包含表示各自的状态的信息的信号(例如,心跳(heartbeat)信号)。网络180可以是环(ring)型、星(star)型、总线(bus)型、网(mesh)型或树(tree)型,但这毕竟是示例性的。
作为计算装置的各个物理服务器110、120、130、140包括:一个以上的处理器、一个以上的存储器、一个以上的存储装置(例如,硬盘驱动器)、一个以上的网络接口及一个以上的输入输出适配器之类的硬件。存储器可包括计算机可执行的命令,处理器可执行存储于存储器中的命令。在存储于存储器中的命令由处理器执行的情况下可执行根据以下记载的实施例的操作。
各个物理服务器110、120、130、140可提供虚拟化环境。例如,各个物理服务器110、120、130、140可注册有虚拟机(Virtual Machine:VM)。各个注册的虚拟机被分配有虚拟化的CPU、存储器等的资源。此外,各个物理服务器110、120、130、140包括用于运行虚拟机的软件、固件和/或操作系统组件。从而,存储于各个物理服务器110、120、130、140的存储器中的虚拟机可被运行。
根据预定的实施例,在集群系统100中基于虚拟化环境提供供高水平的服务可用性。如图1所示,在集群系统100中正常工作中的物理服务器110、120、130、140中的每个包括至少一个活动(active)虚拟机111、121、131、141。例如,活动虚拟机111、121、131、141中的每个根据复制(replication)/反射(mirroring)到与自己对应的备用(standby)虚拟机112、122、132、142的方式而被备份(backup),从而活动虚拟机111、121、131、141和备用虚拟机112、122、132、142可同步。与各个活动虚拟机111、121、131、141对应的备用虚拟机112、122、132、142位于与包括活动虚拟机111、121、131、141的物理服务器不同的物理服务器。作为一个示例,与第一物理服务器110的第一活动虚拟机111对应的第一备用虚拟机122包含于第二物理服务器120。
可在各个物理服务器110、120、130、140中存储表示包含于该物理服务器110、120、130、140的虚拟机的注册信息。换句话说,注册到各个物理服务器110、120、130、140的虚拟机被记录于这样的注册信息中。因此,该注册信息可用于在集群系统100中确认注册到某个物理服务器的虚拟机是什么或者注册有某个虚拟机的物理服务器是什么。
在另一方面,该注册信息可用于将其他的虚拟机添加到各个物理服务器110、120、130、140或者删除现有的虚拟机。例如,在各个物理服务器110、120、130、140的注册信息被改变/更新之后,物理服务器110、120、130、140中的至少一个可根据这样的注册信息将之前没有注册的虚拟机注册到自身上。
包含于各个物理服务器110、120、130、140的注册信息可以是表形态。根据图1,物理服务器110、120、130、140中的每个包括信息表116、126、136、146。信息表116、126、136、146可被构成为都包括相同的信息。
图2示出本发明的实施例中的包含于物理服务器中的信息表的示例。
示例性的信息表200包括用于识别物理服务器的信息210及用于识别包含于各个物理服务器中的虚拟机的信息220。信息表200还可包括用于识别与由信息220识别的虚拟机对应的虚拟机所在的物理服务器的信息230。
例如,信息表200可被构成为如下。以下举例示出的信息表200在图1中所示的集群系统100中可被用作包含于各个物理服务器110、120、130、140中的信息表116、126、136、146。
信息210(即,名为“物理服务器”的标题的列)表示集群系统100的第一物理服务器110、第二物理服务器120、第三物理服务器130及第四物理服务器140。
信息220(即,名为“虚拟机(VM)”的标题的列)表示注册到由信息210识别的各个物理服务器的虚拟机。具体地讲,信息220将第一活动虚拟机111及第四备用虚拟机112与第一物理服务器110关联起来而表示,将第二活动虚拟机121及第一备用虚拟机122与第二物理服务器120关联起来而表示,将第三活动虚拟机131及第二备用虚拟机132与第三物理服务器130关联起来而表示,将第四活动虚拟机141及第三备用虚拟机142与第四物理服务器140关联起来而表示。
信息230(即,名为“对应的虚拟机所在的物理服务器”的标题的列)表示包含与由信息220表示的虚拟机对应的虚拟机的物理服务器。例如,与第一活动虚拟机111同步的第一备用虚拟机122包含于第二物理服务器120,信息230将第二物理服务器120与第一活动虚拟机111关联起来而表示。作为另一示例,与第四备用虚拟机112同步的第四活动虚拟机141包含于第四物理服务器140,信息230将第四物理服务器140与第四备用虚拟机112关联起来而表示。以同样的方式,信息230是与包含于信息220中的其他虚拟机关联起来而表示预定的物理服务器。
此外,信息表200可包括表示信息210所表示的物理服务器的可用资源的信息(未示出)。例如,预定的物理服务器的可用资源可包括该物理服务器可用的CPU和/或存储器。
信息表200可变更。在信息表200变更的情况下,物理服务器110、120、130、140中的至少一个可根据变更的信息表200将之前没有注册到自身上的虚拟机注册到自身上。
信息表200在第一物理服务器110、第二物理服务器120、第三物理服务器130及第四物理服务器140中的任意一个生成和/或变更之后,可被提供到其余的物理服务器。生成和/或变更信息表200的物理服务器可动态变更。例如,如果第一物理服务器110在负责信息表200的变更的过程中在第一物理服务器110中发生故障,则至少一个其他的物理服务器(例如,第二物理服务器120)可负责信息表200的变更。与此不同,信息表200的生成和/或变更可由物理服务器110、120、130、140中的每个分别执行。
此外,如图2中所示,生成的信息表200可基于各个物理服务器110、120、130、140的状态而变更。表示各个物理服务器110、120、130、140的状态的信息可被包含于各个物理服务器110、120、130、140发送的信号(例如,各个物理服务器110、120、130、140可周期性地发送的心跳信号)中。例如,假设由第一物理服务器110负责信息表200的变更。第二物理服务器120、第三物理服务器130及第四物理服务器140中的每个可发送心跳信号,第一物理服务器110可变更信息表200,以基于包含于各个心跳信号的物理服务器的状态及自身的状态来再分配包含于物理服务器110、120、130、140中的全部或者一部分的虚拟机。进而,第二物理服务器120、第三物理服务器130及第四物理服务器140中的每个可将关于自己的可用资源的信息与心跳信号一起进行发送。在这种情况下,第一物理服务器110可基于各个物理服务器110、120、130、140的可用资源信息来变更信息表200。
信息表200变更的时间点可根据预定的策略来确定。例如,为了防止由于信息表200过于频繁地更新而导致的开销,可在各个物理服务器110、120、130、140的可用资源中的至少一个的变化量为临界值(例如,现有的可用资源的10%)以上的情况下变更信息表200。
再次参照图1,来说明在集群系统100中的预定物理服务器发生故障时提供服务可用性的方法。
将在注册有第一活动虚拟机111的第一物理服务器110中发生故障的情况为例。假设在发生故障之前存储于各个物理服务器110、120、130、140的信息表116、126、136、146包含图2中所示的信息表200。
在第一物理服务器110发生故障的情况下,第一备用虚拟机122对第一活动虚拟机111进行故障转移(failover)。这样的故障转移可参照信息表116、126、136、146而揭示。根据信息表116、126、136、146,集群系统100的第二物理服务器120注册有与第一活动虚拟机111对应的第一备用虚拟机122。例如,第二物理服务器120通过感测没有来自第一物理服务器110的针对从第二物理服务器120发送的心跳信号的响应,来判定在第一物理服务器110中发生故障。此外,第二物理服务器120参照自己的信息表126使得第一备用虚拟机122对第一活动虚拟机111进行故障转移。
如上所述,如果第一备用虚拟机122对第一活动虚拟机111进行故障转移,则原本由第一活动虚拟机111提供的服务被转移到第一备用虚拟机122,从而由第一备用虚拟机122来进行恢复。
此外,在第一物理服务器110发生故障时,信息表200被更新/重新构成。执行这样的更新以使注册在发生故障的第一物理服务器110中的虚拟机被适当地再分配到其余的物理服务器120、130、140。通过第一备用虚拟机122而被故障转移之后,除发生故障的第一物理服务器110以外的其余的物理服务器120、130、140中的至少一个物理服务器可更新信息表200。这样的更新可基于构成注册信息的逻辑,以免某个活动虚拟机和与之对应的备用虚拟机被注册到相同的物理服务器。
作为一个示例,更新的信息表200将第一活动虚拟机111与物理服务器120、130、140中的一个物理服务器关联起来。只是,如上所述,与第一活动虚拟机111相关联的物理服务器与第二物理服务器120不同。例如,根据更新的信息表200,第三物理服务器130与第一活动虚拟机111相关联。此外,更新的信息表200将注册到第一物理服务器110的第四备用虚拟机112与物理服务器120、130、140中的一个物理服务器关联起来。只是,如上所述,与第四备用虚拟机112相关联的物理服务器与注册有对应于第四备用虚拟机112的第四活动虚拟机141的第四物理服务器140不同。例如,根据更新的信息表200,第三物理服务器130与第一活动虚拟机111相关联。
进而,为了更新信息表200,与第一活动虚拟机111相关联的物理服务器及与第四备用虚拟机112相关联的物理服务器可基于物理服务器110、120、130、140中的一部分的可用资源而被选择。具体地讲,与第一活动虚拟机111相关联的物理服务器可基于除发生故障的第一物理服务器110及第一备用虚拟机122对第一活动虚拟机111进行故障转移的第二物理服务器120之外的其余物理服务器130、140中的每个的可用资源而由物理服务器130、140选择。例如,在第三物理服务器130比第四物理服务器140具有更充足的可用资源的情况下,将第一活动虚拟机111与第三物理服务器130关联起来。与第四备用虚拟机112相关联的物理服务器可基于除发生故障的第一物理服务器110及注册有第四活动虚拟机141的第四物理服务器140之外的其余物理服务器120、130中的每个的可用资源而由物理服务器120、130选择。例如,在第二物理服务器120比第三物理服务器130具有更充足的可用资源的情况下,将第四备用虚拟机112与第二物理服务器120关联起来。
概括而言,图2所示的信息表200根据如上所述的更新,作为与第二物理服务器120对应的虚拟机而在现有的第二活动虚拟机121及第一备用虚拟机122的基础上还显示第四备用虚拟机112,作为与第三物理服务器130对应的虚拟机而在现有的第三活动虚拟机131及第二备用虚拟机132的基础上还显示第一活动虚拟机111。此外,更新的信息表200作为对应于第四物理服务器140的虚拟机而与更新之前一样表示第四活动虚拟机141及第三备用虚拟机142。
根据更新的信息表200,注册在发生故障的第一物理服务器110的第一活动虚拟机111及第四备用虚拟机112分别被注册到其他的物理服务器。在前述的示例中,第一活动虚拟机111被注册到第三物理服务器130,第四备用虚拟机112被注册到第二物理服务器120。这样的注册可伴随着在第一物理服务器110发生故障之前对第一活动虚拟机111及第四备用虚拟机112中的每个的存储器快照或者对应的虚拟机进行复制。例如,将第一活动虚拟机111注册到第三物理服务器130可伴随着从共享存储器获取第一活动虚拟机111的最终快照,或者伴随着对包含于第二物理服务器120的存储器中的第一备用虚拟机122进行反射。
图3是示出根据本发明的实施例而在集群系统中提供服务可用性的过程的顺序图。
一旦开始服务可用性提供过程300,则集群系统100中的物理服务器110、120、130、140周期性地发送分别表示自己的状态的心跳信号(310)。表示注册到各个物理服务器110、120、130、140的虚拟机的注册信息可包含于各个物理服务器110、120、130、140。这样的注册信息可具有前述的信息表200的格式。
如果不存在不对心跳信号响应的物理服务器(320),则各个物理服务器110、120、130、140继续发送心跳信号(310)。
如果存在不对心跳信号响应的物理服务器(320),则可判定在相关的物理服务器中发生了故障。在这种情况下,在与注册到发生故障的物理服务器的活动虚拟机对应且注册到其他的物理服务器的备用虚拟机中进行故障转移(330)。例如,响应于判定在第一物理服务器110中发生了故障,第二物理服务器120使得与第一活动虚拟机111对应且注册到第二物理服务器120的第一备用虚拟机122对第一活动虚拟机111进行故障转移。
在进行这样的故障转移之后,针对除发生故障的物理服务器之外的其余的物理服务器重新构成注册信息(340)。这样的重新构成可基于如下的逻辑:使得活动虚拟机和与之对应的备用虚拟机不被注册到相同的物理服务器,并且将发生故障的物理服务器的虚拟机优先与可用资源充足的物理服务器关联起来而进行注册。为了方便起见,将发生故障之前的注册信息称为故障前(pre-failure)的注册信息,将发生故障之后被重新构成/更新的注册信息称为故障后(post-failure)的注册信息。
例如,在第一物理服务器110中发生故障时,故障后的注册信息将第一物理服务器110的第一活动虚拟机111与其他的物理服务器中的一个物理服务器关联起来,并将第一物理服务器110的第四备用虚拟机112与其他的物理服务器中的另一个物理服务器关联起来,只是,与第一活动虚拟机111相关联的物理服务器与注册有对第一活动虚拟机111进行故障转移的第一备用虚拟机122的第二物理服务器120不同,与第四备用虚拟机112相关联的物理服务器与注册有对应于第四备用虚拟机112的第四活动虚拟机141的第四物理服务器140不同。如上所述,为了构成故障后的注册信息,与发生故障的第一物理服务器110的活动虚拟机111、112相关联的物理服务器可基于物理服务器120、130、140中的一部分的可用资源而被选择。
这样的故障后的注册信息分别被存储到第二物理服务器120、第三物理服务器130及第四物理服务器140。在发生故障之后第一物理服务器110重新正常运行的情况下,故障后的注册信息(在故障后的注册信息动态变更的情况下则是和它一起变更的注册信息)也可被存储到第一物理服务器110。
根据故障后的注册信息(即,重新构成的信息),将发生故障的物理服务器中的各个虚拟机注册到其他的物理服务器(350)。如果在除发生故障的物理服务器以外的其余的物理服务器中的每个中存在没有根据重新构成的注册信息而进行注册的虚拟机(360),则继续将该虚拟机注册到相关的物理服务器(350)。如果根据重新构成的注册信息注册到与虚拟机相关的物理服务器(350),则过程300终止。
此外,本发明的实施例可包括记录有用于在计算机上执行本说明书中记载的方法的程序的计算机可读记录介质。所述计算机可读记录介质可单独地包括程序命令、本地数据文件、本地数据结构等,或者包括它们的组合。所述介质可以是为本发明而专门设计并构成的介质,或者可以是计算机软件领域的普通技术人员所公知而可以使用的介质。所述计算机可读记录介质的示例包括为了存储并执行程序命令而专门构成的硬件装置:诸如硬盘、软盘及磁带的磁介质、诸如CD-ROM、DVD的光记录介质、诸如软盘的磁光介质及ROM、RAM、闪存等。程序命令的示例可包括:由编译器编写的机器语言代码以及使用解释器等而由计算机来执行的高级语言代码。
虽然已通过代表性实施例对本发明进行了详细描述,但本发明所属的技术领域中具有公知常识的技术人员应该理解在不脱离本发明的范围的情况下可对上述实施例进行各种变形。
因此,本发明的权利范围不应局限于所描述的实施例而确定,而是应当由权利要求书及其等同物来确定。

Claims (24)

1.一种集群系统,包括:
注册有活动虚拟机的第一物理服务器;及
多个物理服务器,
所述多个物理服务器包括对应于所述活动虚拟机且注册有在所述第一物理服务器发生故障时对所述活动虚拟机进行故障转移的备用虚拟机的第二物理服务器,
在发生所述故障时,所述多个物理服务器中的每一个存储故障后的注册信息,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,且所述一个物理服务器与所述第二物理服务器不同,
其中,所述故障后的注册信息还将注册到所述第一物理服务器的其他的备用虚拟机与所述多个物理服务器中的另一个物理服务器关联起来,且所述另一个物理服务器与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的物理服务器不同。
2.根据权利要求1所述的集群系统,其中,
基于与所述多个物理服务器中的、与所述第二物理服务器不同的物理服务器中的每一个的可用资源,从与所述第二物理服务器不同的所述物理服务器中选择所述一个物理服务器,以构成所述故障后的注册信息。
3.根据权利要求1所述的集群系统,其中,
所述活动虚拟机根据所述故障后的注册信息被注册到所述一个物理服务器。
4.根据权利要求1所述的集群系统,其中,
基于所述多个物理服务器中的、与注册有所述其他的活动虚拟机的物理服务器不同的物理服务器中的每一个的可用资源,从与注册有所述其他的活动虚拟机的物理服务器不同的所述物理服务器中选择所述另一个物理服务器,以构成所述故障后的注册信息。
5.根据权利要求1所述的集群系统,其中,
所述其他的备用虚拟机根据所述故障后的注册信息被注册到所述另一个物理服务器。
6.根据权利要求1所述的集群系统,其中,
在发生所述故障之前,所述第一物理服务器及所述多个物理服务器中的每一个存储故障前的注册信息,所述故障后的注册信息通过更新所述故障前的注册信息来构成,所述故障前的注册信息表示在发生所述故障之前注册到所述第一物理服务器及所述多个物理服务器中的每一个的虚拟机。
7.根据权利要求6所述的集群系统,其中,
在发生所述故障之前,所述故障前的注册信息能够基于所述第一物理服务器的状态及所述多个物理服务器中的每一个的状态而变更。
8.根据权利要求6所述的集群系统,其中,
所述故障前的注册信息还表示所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源。
9.根据权利要求7所述的集群系统,其中,
所述故障前的注册信息的变更在所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源中的至少一个的变化量为临界值以上的情况下执行。
10.一种服务可用性提供方法,所述方法用于在集群系统中提供服务可用性,包括如下步骤:
在注册有活动虚拟机的第一物理服务器中发生故障时,使得注册到多个物理服务器中的第二物理服务器并与所述活动虚拟机对应的备用虚拟机对所述活动虚拟机进行故障转移;
在发生所述故障时,将故障后的注册信息存储到所述多个物理服务器中的每一个,
其中,所述故障后的注册信息将所述活动虚拟机与所述多个物理服务器中的一个物理服务器关联起来,且所述一个物理服务器与所述第二物理服务器不同,
其中,所述故障后的注册信息还将注册到所述第一物理服务器的其他的备用虚拟机与所述多个物理服务器中的另一个物理服务器关联起来,且所述另一个物理服务器与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的物理服务器不同。
11.根据权利要求10所述的服务可用性提供方法,还包括如下步骤:
基于所述多个物理服务器中的与所述第二物理服务器不同的物理服务器中的每一个的可用资源,从与所述第二物理服务器不同的所述物理服务器中选择所述一个物理服务器,以构成所述故障后的注册信息。
12.根据权利要求10所述的服务可用性提供方法,还包括如下步骤:
根据故障后的注册信息,将所述活动虚拟机注册到所述一个物理服务器。
13.根据权利要求10所述的服务可用性提供方法,还包括如下步骤:
基于所述多个物理服务器中的与注册有所述其他的活动虚拟机的物理服务器不同的物理服务器中的每一个的可用资源,从所述多个物理服务器中的与注册有所述其他的活动虚拟机的物理服务器不同的所述物理服务器中选择所述另一个物理服务器,以构成所述故障后的注册信息。
14.根据权利要求10所述的服务可用性提供方法,还包括如下步骤:
所述其他的备用虚拟机根据所述故障后的注册信息被注册到所述另一个物理服务器。
15.根据权利要求10所述的服务可用性提供方法,还包括如下步骤:
发生所述故障之前,在所述第一物理服务器及所述多个物理服务器中的每一个存储故障前的注册信息;
通过更新所述故障前的注册信息来构成所述故障后的注册信息,
其中,所述故障前的注册信息表示在发生所述故障之前注册到所述第一物理服务器及所述多个物理服务器中的每一个的虚拟机。
16.根据权利要求15所述的服务可用性提供方法,还包括如下步骤:
在发生所述故障之前,基于所述第一物理服务器的状态及所述多个物理服务器中的每一个的状态而变更所述故障前的注册信息。
17.根据权利要求15所述的服务可用性提供方法,其中,
所述故障前的注册信息还表示所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源。
18.根据权利要求16所述的服务可用性提供方法,其中,
所述故障前的注册信息的变更在所述第一物理服务器的可用资源及所述多个物理服务器中的每一个的可用资源中的至少一个的变化量为临界值以上的情况下执行。
19.一种服务器计算机,包括处理器及存储器,所述存储器包括:
注册信息,表示注册到包括所述服务器计算机的多个服务器计算机及其他的服务器计算机中的每一个的虚拟机;
备用虚拟机,与注册到所述其他的服务器计算机的活动虚拟机对应;及
计算机可执行命令,
在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:
响应于所述其他服务器计算机发生故障的判定,使所述备用虚拟机对所述活动虚拟机进行故障转移;
响应于所述判定,执行更新所述注册信息,
其中,更新的所述注册信息将所述活动虚拟机与所述多个服务器计算机中的一个服务器计算机关联起来,且所述一个服务器计算机与所述服务器计算机不同,
其中,所述其他的服务器计算机还注册有其他的备用虚拟机,
其中,更新的所述注册信息还将所述其他的备用虚拟机与所述多个服务器计算机中的另一个服务器计算机关联起来,所述另一个服务器计算机与注册有对应于所述其他的备用虚拟机的其他的活动虚拟机的服务器计算机不同。
20.根据权利要求19所述的服务器计算机,其中,
在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:基于所述多个服务器计算机中的与所述服务器计算机不同的服务器计算机中的每一个的可用资源,从与所述服务器计算机不同的服务器计算机中选择所述一个服务器计算机,以更新所述注册信息。
21.根据权利要求19所述的服务器计算机,其中,
在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:
基于所述多个服务器计算机中的与注册有所述其他的活动虚拟机的服务器计算机不同的服务器计算机中的每一个的可用资源,从与注册有所述其他的活动虚拟机的服务器计算机不同的服务器计算机中选择所述另一个服务器计算机,以更新所述注册信息。
22.根据权利要求19所述的服务器计算机,其中,
在所述计算机可执行命令由所述处理器执行的情况下,被构成为执行如下操作:
在发生所述故障之前,基于所述多个服务器计算机中的每一个的状态及所述其他的服务器计算机的状态而变更所述注册信息。
23.根据权利要求19所述的服务器计算机,其中,
所述注册信息还表示所述其他的服务器计算机的可用资源及所述多个服务器计算机中的每一个的可用资源。
24.根据权利要求22所述的服务器计算机,其中,
变更所述注册信息的操作在所述多个服务器计算机中的每一个的可用资源及所述其他的服务器计算机的可用资源中的至少一个的变化量为临界值以上的情况下执行。
CN201410455215.2A 2013-09-09 2014-09-09 集群系统及用于在集群系统中提供服务可用性的方法 Expired - Fee Related CN104427002B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0108007 2013-09-09
KR1020130108007A KR101558047B1 (ko) 2013-09-09 2013-09-09 클러스터 시스템 및 클러스터 시스템에서 서비스 가용성을 제공하기 위한 방법

Publications (2)

Publication Number Publication Date
CN104427002A CN104427002A (zh) 2015-03-18
CN104427002B true CN104427002B (zh) 2018-02-16

Family

ID=52626747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410455215.2A Expired - Fee Related CN104427002B (zh) 2013-09-09 2014-09-09 集群系统及用于在集群系统中提供服务可用性的方法

Country Status (3)

Country Link
US (1) US9575785B2 (zh)
KR (1) KR101558047B1 (zh)
CN (1) CN104427002B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102239177B1 (ko) * 2014-09-03 2021-04-09 주식회사 케이티 클라우드 서버 관리 방법, 이를 수행하는 클라우드 서버 관리 장치 및 클라우드 서비스 관리 시스템
WO2017042894A1 (ja) * 2015-09-08 2017-03-16 株式会社東芝 多重化処理システム、多重化処理方法及びプログラム
CN105183588B (zh) * 2015-09-30 2018-10-30 华为技术有限公司 一种虚拟机的重建方法和装置
KR101883251B1 (ko) 2015-10-07 2018-07-31 주식회사 엘지유플러스 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
US10341128B2 (en) * 2016-03-12 2019-07-02 Wipro Limited Method and system for optimizing usage of network resources in a communication network
US10552272B2 (en) * 2016-12-14 2020-02-04 Nutanix, Inc. Maintaining high availability during N-node failover
CN108183473A (zh) * 2017-12-13 2018-06-19 国网上海市电力公司 一种集群电动汽车参与辅助服务市场的优化投标方法
JP6813010B2 (ja) * 2018-08-31 2021-01-13 横河電機株式会社 可用性のシステム、方法、およびプログラム
JP7332280B2 (ja) * 2018-09-10 2023-08-23 横河電機株式会社 冗長化システム、冗長化プログラム、及び情報処理装置
CN110149366B (zh) * 2019-04-16 2022-03-18 平安科技(深圳)有限公司 提高集群系统可用性的方法、装置和计算机设备
CN110286937B (zh) * 2019-07-04 2021-06-15 深圳市指尖互动娱乐有限公司 一种分布式软件运行的方法及其系统
KR102084031B1 (ko) * 2019-08-07 2020-05-29 주식회사 도시엔컴 복수 서버의 로컬 저장소를 통합 관리하는 방법 및 그 장치
KR102328384B1 (ko) 2020-07-23 2021-11-18 아콘소프트 주식회사 관리형 클러스터 자동 프로비저닝 엔진 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체
US12327147B2 (en) 2021-10-21 2025-06-10 EMC IP Holding Company LLC Standby data center as a service
US12204923B2 (en) 2021-10-21 2025-01-21 EMC IP Holding Company LLC Data center restoration
US12541386B2 (en) 2021-10-21 2026-02-03 EMC IP Holding Company LLC Distributed data center
US12001303B2 (en) * 2021-10-21 2024-06-04 EMC IP Holding Company LLC Data center restoration and migration
KR20230174137A (ko) * 2022-06-20 2023-12-27 삼성전자주식회사 컨테이너 기반 다중 클러스터 환경에서 데이터 동기화를 위한 방법 및 장치
KR20240061995A (ko) * 2022-11-01 2024-05-08 삼성전자주식회사 컨테이너 기반 다중 클러스터 환경에서 서비스의 가중치 기반 고 가용성 제어 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876926A (zh) * 2009-11-26 2010-11-03 北京航空航天大学 一种非对称结构的软件三机热备容错方法
CN102271145A (zh) * 2010-06-04 2011-12-07 国云科技股份有限公司 一种虚拟计算机集群及其实施方法
CN102346779A (zh) * 2011-10-18 2012-02-08 中国联合网络通信集团有限公司 分布式文件系统和主控节点的备份方法
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155912A1 (en) * 2005-01-12 2006-07-13 Dell Products L.P. Server cluster having a virtual server
KR100930576B1 (ko) * 2006-12-04 2009-12-09 한국전자통신연구원 가상화 기반 고가용성 클러스터 시스템 및 고가용성클러스터 시스템에서 장애 관리 방법
KR100832543B1 (ko) 2006-12-08 2008-05-27 한국전자통신연구원 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법
US9354927B2 (en) * 2006-12-21 2016-05-31 Vmware, Inc. Securing virtual machine data
WO2010122709A1 (ja) * 2009-04-23 2010-10-28 日本電気株式会社 若化処理装置、若化処理システム、コンピュータプログラムおよびデータ処理方法
US8352482B2 (en) * 2009-07-21 2013-01-08 Vmware, Inc. System and method for replicating disk images in a cloud computing based virtual machine file system
US8429449B2 (en) * 2010-03-01 2013-04-23 International Business Machines Corporation Optimized placement of virtual machines in a network environment
US8639815B2 (en) * 2011-08-31 2014-01-28 International Business Machines Corporation Selecting a primary-secondary host pair for mirroring virtual machines
KR101471879B1 (ko) * 2012-10-31 2014-12-11 삼성에스디에스 주식회사 하이퍼바이저 기반 서버 이중화 시스템, 그 방법 및 서버 이중화 컴퓨터 프로그램이 기록된 기록매체
WO2014080949A1 (ja) * 2012-11-21 2014-05-30 日本電気株式会社 クラウド環境提供システム、サービス管理装置、経路制御方法及びプログラム
US9032157B2 (en) * 2012-12-11 2015-05-12 International Business Machines Corporation Virtual machine failover
US9405642B2 (en) * 2013-01-29 2016-08-02 Red Hat Israel, Ltd. Providing virtual machine migration reliability using an intermediary storage device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876926A (zh) * 2009-11-26 2010-11-03 北京航空航天大学 一种非对称结构的软件三机热备容错方法
CN102271145A (zh) * 2010-06-04 2011-12-07 国云科技股份有限公司 一种虚拟计算机集群及其实施方法
CN102346779A (zh) * 2011-10-18 2012-02-08 中国联合网络通信集团有限公司 分布式文件系统和主控节点的备份方法
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法

Also Published As

Publication number Publication date
KR101558047B1 (ko) 2015-10-06
US9575785B2 (en) 2017-02-21
US20150074447A1 (en) 2015-03-12
KR20150029181A (ko) 2015-03-18
CN104427002A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
CN104427002B (zh) 集群系统及用于在集群系统中提供服务可用性的方法
US11016857B2 (en) Microcheckpointing with service processor
JP5600361B2 (ja) ハイパーバイザベースのサーバ二重化システム、その方法およびサーバ二重化コンピュータプログラムが記録された記録媒体
US9590843B2 (en) Method and system for providing distributed management in a networked virtualization environment
US8688642B2 (en) Systems and methods for managing application availability
CN103842969B (zh) 信息处理系统
US8539087B2 (en) System and method to define, visualize and manage a composite service group in a high-availability disaster recovery environment
US10509705B2 (en) Application protection through a combined functionality failure manager
US9965357B1 (en) Virtual backup and restore of virtual machines
US11720457B2 (en) Remote direct memory access (RDMA)-based recovery of dirty data in remote memory
US10455019B2 (en) Highly performant reliable message storage using in-memory replication technology
US20210089379A1 (en) Computer system
CN105242990A (zh) 基于云平台的数据备份方法和装置
US8683258B2 (en) Fast I/O failure detection and cluster wide failover
JP6540334B2 (ja) システム、情報処理装置、および情報処理方法
US11422904B2 (en) Identifying fault domains for delta components of a distributed data object
JP6356822B2 (ja) 計算機システム及びメモリダンプ方法
US11507545B2 (en) System and method for mirroring a file system journal
WO2016046951A1 (ja) 計算機システム及びそのファイル管理方法
CN105049244A (zh) 一种负载均衡的方法及系统
JP5703860B2 (ja) フォールトトレラントシステム、メモリ制御方法、及びプログラム
US11327841B2 (en) Identifying a fault domain for a delta component of a distributed data object
JP2008305213A (ja) ストレージに関する方法、製品、装置、システム
JP5664348B2 (ja) 仮想マシンシステム、仮想マシンサーバ、仮想マシン運用方法、及び仮想マシン運用プログラム
CN114296875A (zh) 基于容错系统的数据同步方法、系统及计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180216

Termination date: 20200909