[go: up one dir, main page]

CN111488247A - 一种管控节点多次容错的高可用方法及设备 - Google Patents

一种管控节点多次容错的高可用方法及设备 Download PDF

Info

Publication number
CN111488247A
CN111488247A CN202010277503.9A CN202010277503A CN111488247A CN 111488247 A CN111488247 A CN 111488247A CN 202010277503 A CN202010277503 A CN 202010277503A CN 111488247 A CN111488247 A CN 111488247A
Authority
CN
China
Prior art keywords
control node
management
control
failed
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010277503.9A
Other languages
English (en)
Other versions
CN111488247B (zh
Inventor
赵胜龑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yunzhou Technology Co ltd
Original Assignee
Shanghai Zstack Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zstack Information Technology Co ltd filed Critical Shanghai Zstack Information Technology Co ltd
Priority to CN202010277503.9A priority Critical patent/CN111488247B/zh
Publication of CN111488247A publication Critical patent/CN111488247A/zh
Application granted granted Critical
Publication of CN111488247B publication Critical patent/CN111488247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请的目的是提供一种管控节点多次容错的高可用方法及设备,本申请通过根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。可以实现多次容错的情况下对外提供服务恢复时间可保持在秒级,同时满足保证恢复时间和具备多次容错的要求。

Description

一种管控节点多次容错的高可用方法及设备
技术领域
本申请涉及计算机领域,尤其涉及一种管控节点多次容错的高可用方法及设备。
背景技术
云管平台的管控节点是分配、管理各项云资源的中心节点,它的可用性极为重要。传统管控节点往往运行在单台服务器上,存在单点故障的问题,当这台服务器失效(例如电源故障、网络故障等)时,存在管控节点不可访问的风险。
生产环境中,越是大规模的集群对云管节点的高可用性要求也就越高;而某些特殊领域,如金融,需要高频操作的场合,则一开始就对管控节点的高可用性提出了更高的要求。目前业界内采用的方案虽然一定程度解决了高可用的需求,但仍存在一些缺点:如使用的方案在心跳检测、虚机操作系统启动、管控节点启动都需要额外的时间,而且这些时间是累加在一起的。这期间管控节点无法对外提供访问,通常等管控节点恢复访问需要几分钟。或者,由于数据库的同步机制的逻辑限制,无法实现2个以上节点同时为主节点的需求。所以单靠这种架构只能最多2个节点同时在线,因此该方案只能容错1次。
目前的解决方案要么只保证多次容错,牺牲了恢复时间;要么只保证恢复时间,牺牲了多次容错;难以同时满足保证恢复时间和具备多次容错的要求。
发明内容
本申请的一个目的是提供一种管控节点多次容错的高可用方法及设备,解决现有技术中管控节点难以同时满足保证恢复时间和具备多次容错的要求的问题。
根据本申请的一个方面,提供了一种管控节点多次容错的高可用方法,该方法包括:
根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;
确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;
根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。
进一步地,所述主FT管控节点和次FT管控节点包含相同的数据内容且对应的数据库封装在各自对应的虚拟机中。
进一步地,确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点,包括:
定位所述管控服务系统中失效的物理主机,确定所述失效的物理主机上的虚拟机为失效的FT管控节点;
确定应用层上的主管控节点的位置,根据所述主管控节点的位置确定所述管控服务系统中虚拟访问地址所在的FT管控节点。
进一步地,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述应用层上的主管控节点中的主FT管控节点为失效的FT管控节点时,与所述主FT管控节点受同一FT保护的次FT管控节点切换为主FT管控节点,同时所述失效的FT管控节点离线;
通过保护所述失效的FT管控节点的FT外层的网卡进行自动对接,以通过所述网卡将数据包转发至所述虚拟访问地址上;
通过保护所述失效的FT管控节点的FT在所述主管控节点所在的集群中查找满足条件的物理机,以在所述满足条件的物理机上创建新的次FT管控节点。
进一步地,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若每对受FT保护的FT管控节点中均存有一个失效的FT管控节点时,判断失效的FT管控节点是否为主FT管控节点,若是,则与所述主FT管控节点受同一FT保护的次FT管控节点切换为主FT管控节点,同时所述失效的FT管控节点离线;
通过所述虚拟访问地址所在的FT管控节点对应的FT外层的网卡进行自动对接,以通过所述网卡将数据包转发至所述虚拟访问地址上;
通过保护所述失效的FT管控节点的FT在所述主管控节点所在的集群中查找满足条件的物理机,以在所述满足条件的物理机上创建新的次FT管控节点。
进一步地,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述应用层上的从管控节点中的主FT管控节点和次FT管控节点均为失效的FT管控节点时,则通过所述应用层上的主管控节点中的主FT管控节点和次FT管控节点继续完成所述管控服务系统的容错处理。
进一步地,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述主管控节点上的主FT管控节点和次FT管控节点均为失效的FT管控节点时,则将所述虚拟访问地址切换为所述从管控节点中的主FT管控节点上;
通过所述从管控节点中的主FT管控节点和次FT管控节点继续完成所述管控服务系统的容错处理。
进一步地,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述主管控节点上的主FT管控节点和次FT管控节点均失效以及所述从管控节点中存在一FT管控节点失效时,则将所述虚拟访问地址切换至所述从管控节点中未失效的FT管控节点上,通过所述虚拟访问地址新在的未失效的FT管控节点继续进行所述管控服务系统的容错处理。
进一步地,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述从管控节点上的主FT管控节点和次FT管控节点均失效以及所述主管控节点中存在一FT管控节点失效时,则通过剩下的未失效的FT管控节点继续进行所述管控服务系统的容错处理。
根据本申请另一个方面,还提供了一种管控节点多次容错的高可用的设备,该设备包括:
组建装置,用于根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;
确定装置,用于确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;
容错处理装置,用于根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。
根据本申请又一个方面,还提供了一种管控节点多次容错的高可用的设备,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。
根据本申请再一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述所述的方法。
与现有技术相比,本申请通过根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。可以实现多次容错的情况下对外提供服务恢复时间可保持在秒级,同时满足保证恢复时间和具备多次容错的要求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请的一个方面提供的一种管控节点多次容错的高可用方法的流程示意图;
图2示出本申请一实施例中管控节点服务系统的架构示意图;
图3示出本申请一实施例中有1个物理节点失效情况的示意图;
图4示出本申请一实施例中有2个物理节点失效的第一种情况的示意图;
图5示出本申请一实施例中有2个物理节点失效的第二种情况的示意图;
图6示出本申请一实施例中有2个物理节点失效的第三种情况的示意图;
图7示出本申请一实施例中有3个物理节点失效的第一种情况的示意图;
图8示出本申请一实施例中有3个物理节点失效的第二种情况的示意图;
图9示出本申请另一个方面提供的一种管控节点多次容错的高可用的设备的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change RAM,PRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disk,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
图1示出根据本申请的一个方面提供的一种管控节点多次容错的高可用方法的流程示意图,该方法包括:步骤S11和步骤S13,
在步骤S11中,根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;在此,管控节点服务(mn services)由多个内部子服务组成,将服务封装到虚拟机的镜像中,再利用这个镜像分别创建一对受FT保护的虚机,从而形成4个同时在线的虚机共同支撑的管控节点服务;同时,为了分散风险,4个虚机部署到4个物理节点上,FT为容错(Fault Tolerance)。其中,所述主FT管控节点和次FT管控节点包含相同的数据内容且对应的数据库封装在各自对应的虚拟机中。具体地,部署4个虚机,两两一对,分别为主的一对和从的一对,如图2所示,mn1、mn2、mn3、mn4都为管控节点服务,连同各自的数据库服务被封装到各自的虚机中,每一对mn和对应的一个数据库构成了对外支撑访问的管控节点服务。PVM、SVM各自表示受FT保护的主虚拟机(主VM)和从虚拟机(从VM),一对受FT保护的主从VM中的内容始终保持一致,即每对FT管控节点中包含主FT管控节点和次FT管控节点的内容始终保持一致。需要说明的是,在该管控服务系统中存有2层同步机制保证4个节点同步,一层为FT机制(底层虚拟化),一层为数据库(应用层)的主从机制,如图2,mn1和mn2为一对FT虚机,mn3和mn4为另外一对FT虚机;对于应用层,当前的2个节点为mn2和mn4,而mn2在虚拟化层还有一个主从关系的mn1,mn3在虚拟化层还有一个主从关系的mn4。
在步骤S12中,确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;在此,虚拟访问地址(vip)为外界访问管控节点的入口ip,对于应用层,该系统只有2个PVM构成的节点,系统中有服务提供vip,并计算哪个PVM节点上是主节点,vip就会对应在哪个节点上的配置上。通过计算应用层上的哪个管控节点为主管控节点确定vip所在的FT管控节点。失效的FT管控节点为出现故障的节点,可为两对受FT保护的主FT管控节点和次管控节点中的任一个或任几个组合,即可为mn1、mn2、mn3及mn4中任一个或任几个组合。
在步骤S13中,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。在此,根据判断出的失效的FT管控节点以及确定出vip所在的管控节点可进行后续的容错处理,该容错处理与失效的FT管控节点的个数、所在位置以及vip所在位置关联,如失效的FT管控节点的个数为1个,且为主管控节点上的PVM失效,vip在该PVM上,则该系统还可以通过FT进行自行恢复进行原有次数的容错或仍有3个节点同时工作下还可以再容错2次。即故障之后,最糟糕的情况只有一个vip切换,切换后所有的服务都是准备好的,不需要重启系统,而即便有vip的切换,也就是1s左右,用户也几乎是无感的。
通过本申请的方法,通过FT可以检查并自恢复,每个故障节点还能自动寻找复活条件满足的节点并再次重启恢复,而这个过程管控节点是完全无感的。使用本申请所述的方法,至少可以容错3次,若只有1次故障或者主备各故障1次,FT都会找机会自行恢复成4条命。
在本申请一实施例中,在步骤S12中,定位所述管控服务系统中失效的物理主机,确定所述失效的物理主机上的虚拟机为失效的FT管控节点;确定应用层上的主管控节点的位置,根据所述主管控节点的位置确定所述管控服务系统中虚拟访问地址所在的FT管控节点。在此,继续参考图2,判断系统中失效的物理节点的个数以及位置,比如存有1个物理节点失效、2个物理节点失效或3个物理节点失效,再比如存有1个物理节点失效时为主管控节点上的PVM。计算由mn1和mn2构成的应用层上的管控节点为主管控节点还是由mn3和mn4构成的应用层上的管控节点为主管控节点,确定vip所在的FT管控节点,比如计算得到由mn1和mn2构成的应用层上的管控节点为主管控节点,则确定vip所在的FT管控节点为mn2。Dbsync表示虚机之间通过数据同步的过程,2个PVM之间的管控节点服务互为数据库主备节点,但同一时刻,只有一个主节点对外提供访问,也就是虚拟访问地址(vip)所在节点。
在本申请一实施例中,在步骤S13中,若所述应用层上的主管控节点中的主FT管控节点为失效的FT管控节点时,与所述主FT管控节点受同一FT保护的次FT管控节点切换为主FT管控节点,同时所述失效的FT管控节点离线;通过保护所述失效的FT管控节点的FT外层的网卡进行自动对接,以通过所述网卡将数据包转发至所述虚拟访问地址上;通过保护所述失效的FT管控节点的FT在所述主管控节点所在的集群中查找满足条件的物理机,以在所述满足条件的物理机上创建新的次FT管控节点。在此,当系统中有1个物理节点失效时,若该物理节点为应用层上的主管控节点中的主FT管控节点,即为vip所在的节点PVM(mn2)失效时,如图3所示,mn2所在节点故障,则原来作为从节点的mn1所在节点从SVM变为PVM,同时原来的PVM离线。Vip和ip均为虚拟机中的设置,受FT保护的虚机同一时刻只有PVM对外提供访问,在PVM对应切换时,FT外层的网卡会自动对接,在虚拟化层自动适配,应用层无感。新的PVM内(即原来的mn1)跟原来的PVM(mn2)内部网络配置一样,网络包也会直接通过FT的网卡转发到vip上,外界用户通过vip访问管控节点,此时的切换对于用户无感。在有1个节点失效的场景下,FT后端会在后台寻找满足条件的FT物理节点,若系统中存在满足条件的健康物理节点,则新的FT从节点会重新被创建,从而自行恢复FT组合;若没有则当前环境仍有3个节点同时工作,仍可以再容错2次。在1个节点失效的恢复过程中,只有FT服务切换时间,FT切换无需任何重启过程,最开始服务也是一直准备着,所以恢复时间秒级;而寻找符合条件节点重新构造FT的过程完全为后台运行,跟用户访问管控节点服务无关,用户在应用层无感知。其中,FT的虚机被创建、删除等是在同一个集群中进行,具有完全相同配置的物理机可以被添加到同一集群中。虚拟机需要物理机为宿主,若FT保护的虚拟机1个节点失效,则FT尝试再其他满足条件的物理机上自动创建再次候补FT的SVM,而满足的条件为FT能够创建SVM的条件,包括但不限于集群中的还有其他的物理机,有充足的计算资源(比如CPU内存等),可以在其上自动创建新的SVM。如,同一集群下,配置跟失效的物理机完全相同的其他物理机,CPU内存资源充足,并且已经添加到管控节点中,管控节点会自动安排在其上尝试创建SVM。
在本申请一实施例中,在步骤S13中,若每对受FT保护的FT管控节点中均存有一个失效的FT管控节点时,判断失效的FT管控节点是否为主FT管控节点,若是,则与所述主FT管控节点受同一FT保护的次FT管控节点切换为主FT管控节点,同时所述失效的FT管控节点离线;通过所述虚拟访问地址所在的FT管控节点对应的FT外层的网卡进行自动对接,以通过所述网卡将数据包转发至所述虚拟访问地址上;通过保护所述失效的FT管控节点的FT在所述主管控节点所在的集群中查找满足条件的物理机,以在所述满足条件的物理机上创建新的次FT管控节点。在此,当有2个物理节点失效(第2次容错的场景),则存在3种情况,第一种为每对受FT保护的FT管控节点中均存有一个失效的FT管控节点,即2对受FT保护的虚机各失效1个,在第一次容错时发生的失效节点为vip所在的主FT管控节点的情况下第2次发生容错,另一个主FT管控节点失效,如图4所示,mn2和mn4失效,则mn1切换为PVM,原来的PVM离线,FT通过查找同一集群内的满足条件的物理机自动恢复为3个或4个节点,或者降级为上述存有1个失效物理节点的情况,原本部署在物理机上的服务被部署到虚拟机中。在节点失效的恢复过程中,只有FT服务切换时间,FT切换无需任何重启过程,这种场景仍能继续容错1次,恢复时间只涉及FT切换时间,为秒级。
继续接上述实施例,第二种2个物理节点失效的情况,若所述应用层上的从管控节点中的主FT管控节点和次FT管控节点均为失效的FT管控节点时,则通过所述应用层上的主管控节点中的主FT管控节点和次FT管控节点继续完成所述管控服务系统的容错处理。在此,应用层上的从管控节点即为非vip所在的节点,当非vip所在的1对虚拟机对应的物理机失效时,如图5所示,mn3和mn4失效,则原来的vip不切换,由于失效节点为一对受FT保护的虚拟机且2个节点均失效,这种情况下,FT不再自行恢复,vip无需切换,vip所在节点仍受FT保护,可以再容错一次,恢复时间不涉及FT切换和vip切换,原始网络连接都没有中断。
在本申请一实施例中,第三种2个物理节点失效的情况,若所述主管控节点上的主FT管控节点和次FT管控节点均为失效的FT管控节点时,则将所述虚拟访问地址切换为所述从管控节点中的主FT管控节点上;通过所述从管控节点中的主FT管控节点和次FT管控节点继续完成所述管控服务系统的容错处理。在此,主管控节点为vip所在的节点,当vip所在的1对虚拟机对应物理机失效,则主管控节点上的主FT管控节点和次FT管控节点均失效,如图6所示,mn1和mn2失效,此时需要vip进行切换,mn3为受保护的一对FT虚拟机中的PVM,在mn1和mn2都失效的情况下,vip切换到从管控节点中的PVM,即切换到mn3上。由于失效节点为一对受FT保护虚机且2个节点都失效,这种情况下,FT不再自行恢复,另一对虚机仍受FT保护,仍可以再容错1次,恢复时间涉及vip切换,为秒级。综上可知,容错2次的所有情况最坏也只有一个vip切换,而vip切换也是秒级恢复时间,所以容错2次的恢复时间仍为秒级。
在本申请一实施例中,在步骤S13中,若所述主管控节点上的主FT管控节点和次FT管控节点均失效以及所述从管控节点中存在一FT管控节点失效时,则将所述虚拟访问地址切换至所述从管控节点中未失效的FT管控节点上,通过所述虚拟访问地址新在的未失效的FT管控节点继续进行所述管控服务系统的容错处理。在此,当一对FT失效,只有数据库(应用层)同步保护的情况,在这种情况下再有物理节点失效,即系统中有3个物理节点失效时,有两种情况,一种主管控节点上的主FT管控节点和次FT管控节点均失效以及所述从管控节点中存在一FT管控节点失效,即失效的节点中包括vip所在节点失效,如图7所示,mn1、mn2以及mn4失效,则需要切换vip,此时恢复时间因仅涉及到切换vip,所以为秒级。
继续接上述实施例,系统中有3个物理节点失效时。第二种情况为,若所述从管控节点上的主FT管控节点和次FT管控节点均失效以及所述主管控节点中存在一FT管控节点失效时,则通过剩下的未失效的FT管控节点继续进行所述管控服务系统的容错处理。在此,若非vip所在的节点失效,如图8所示,在第一次失效为mn2情况下,mn3和mn4失效,此时不需要vip切换,此时虽然不能再容错了,但仍能对外提供访问。
需要说明的是,以上所有失效的情况,任何节点的离线都会发出对应的警告至用户层,用户可以配置自己的接收端,当任何节点离线时,随时能够收到系统发出的警告通知。通过本申请的设计,通过FT虚机来承载数据库同步的多管控节点实现对云管控节点可以至少容错3次,条件满足时可以自恢复,同时在容错过程中,对外提供服务恢复时间可保持在秒级。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述一种管控节点多次容错的高可用方法。
与上文所述的方法相对应的,本申请还提供一种终端,其包括能够执行上述图1或各个实施例所述的方法步骤的模块或单元,这些模块或单元可以通过硬件、软件或软硬结合的方式来实现,本申请并不限定。例如,在本申请一实施例中,还提供了一种管控节点多次容错的高可用方法的设备,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:
根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;
确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;
根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。
图9示出本申请另一个方面提供的一种管控节点多次容错的高可用的设备的结构示意图,该设备包括:组建装置11、确定装置12和容错处理装置13,其中,组建装置11用于根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;确定装置12用于确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;容错处理装置13用于根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。
需要说明的是,组建装置11、确定装置12和容错处理装置13执行的内容分别与上述步骤S11、S12和S13中的内容相同或相应相同,为简明起见,在此不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (12)

1.一种管控节点多次容错的高可用方法,其特征在于,所述方法包括:
根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;
确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;
根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。
2.根据权利要求1所述的方法,其特征在于,所述主FT管控节点和次FT管控节点包含相同的数据内容且对应的数据库封装在各自对应的虚拟机中。
3.根据权利要求1或2所述的方法,其特征在于,确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点,包括:
定位所述管控服务系统中失效的物理主机,确定所述失效的物理主机上的虚拟机为失效的FT管控节点;
确定应用层上的主管控节点的位置,根据所述主管控节点的位置确定所述管控服务系统中虚拟访问地址所在的FT管控节点。
4.根据权利要求3所述的方法,其特征在于,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述应用层上的主管控节点中的主FT管控节点为失效的FT管控节点时,与所述主FT管控节点受同一FT保护的次FT管控节点切换为主FT管控节点,同时所述失效的FT管控节点离线;
通过保护所述失效的FT管控节点的FT外层的网卡进行自动对接,以通过所述网卡将数据包转发至所述虚拟访问地址上;
通过保护所述失效的FT管控节点的FT在所述主管控节点所在的集群中查找满足条件的物理机,以在所述满足条件的物理机上创建新的次FT管控节点。
5.根据权利要求3所述的方法,其特征在于,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若每对受FT保护的FT管控节点中均存有一个失效的FT管控节点时,判断失效的FT管控节点是否为主FT管控节点,若是,则与所述主FT管控节点受同一FT保护的次FT管控节点切换为主FT管控节点,同时所述失效的FT管控节点离线;
通过所述虚拟访问地址所在的FT管控节点对应的FT外层的网卡进行自动对接,以通过所述网卡将数据包转发至所述虚拟访问地址上;
通过保护所述失效的FT管控节点的FT在所述主管控节点所在的集群中查找满足条件的物理机,以在所述满足条件的物理机上创建新的次FT管控节点。
6.根据权利要求3所述的方法,其特征在于,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述应用层上的从管控节点中的主FT管控节点和次FT管控节点均为失效的FT管控节点时,则通过所述应用层上的主管控节点中的主FT管控节点和次FT管控节点继续完成所述管控服务系统的容错处理。
7.根据权利要求3所述的方法,其特征在于,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述主管控节点上的主FT管控节点和次FT管控节点均为失效的FT管控节点时,则将所述虚拟访问地址切换为所述从管控节点中的主FT管控节点上;
通过所述从管控节点中的主FT管控节点和次FT管控节点继续完成所述管控服务系统的容错处理。
8.根据权利要求3所述的方法,其特征在于,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述主管控节点上的主FT管控节点和次FT管控节点均失效以及所述从管控节点中存在一FT管控节点失效时,则将所述虚拟访问地址切换至所述从管控节点中未失效的FT管控节点上,通过所述虚拟访问地址新在的未失效的FT管控节点继续进行所述管控服务系统的容错处理。
9.根据权利要求3所述的方法,其特征在于,根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理,包括:
若所述从管控节点上的主FT管控节点和次FT管控节点均失效以及所述主管控节点中存在一FT管控节点失效时,则通过剩下的未失效的FT管控节点继续进行所述管控服务系统的容错处理。
10.一种管控节点多次容错的高可用的设备,其特征在于,所述设备包括:
组建装置,用于根据应用层上的主管控节点和从管控节点组建管控服务系统,其中,所述主管控节点和从管控节点中均包含一对受FT保护的FT管控节点,每对FT管控节点中包含主FT管控节点和次FT管控节点;
确定装置,用于确定所述管控服务系统中失效的FT管控节点及虚拟访问地址所在的FT管控节点;
容错处理装置,用于根据所述失效的FT管控节点及虚拟访问地址所在的FT管控节点进行所述管控服务系统的容错处理。
11.一种管控节点多次容错的高可用的设备,其特征在于,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至9中任一项所述方法的操作。
12.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至9中任一项所述的方法。
CN202010277503.9A 2020-04-08 2020-04-08 一种管控节点多次容错的高可用方法及设备 Active CN111488247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010277503.9A CN111488247B (zh) 2020-04-08 2020-04-08 一种管控节点多次容错的高可用方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277503.9A CN111488247B (zh) 2020-04-08 2020-04-08 一种管控节点多次容错的高可用方法及设备

Publications (2)

Publication Number Publication Date
CN111488247A true CN111488247A (zh) 2020-08-04
CN111488247B CN111488247B (zh) 2023-07-25

Family

ID=71797869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277503.9A Active CN111488247B (zh) 2020-04-08 2020-04-08 一种管控节点多次容错的高可用方法及设备

Country Status (1)

Country Link
CN (1) CN111488247B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157393A (zh) * 2021-04-09 2021-07-23 上海云轴信息科技有限公司 管理节点高可用方法及设备
CN113595899A (zh) * 2021-06-30 2021-11-02 上海云轴信息科技有限公司 一种用于多节点云路由实现的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859263A (zh) * 2010-06-12 2010-10-13 中国人民解放军国防科学技术大学 一种支持在线迁移的虚拟机间快速通信方法
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
CN104360943A (zh) * 2014-11-11 2015-02-18 浪潮电子信息产业股份有限公司 一种面向服务架构的资源保障模型
CN104536842A (zh) * 2014-12-17 2015-04-22 中电科华云信息技术有限公司 基于kvm虚拟化的虚拟机容错方法
CN105743995A (zh) * 2016-04-05 2016-07-06 北京轻元科技有限公司 一种可移植高可用部署和管理容器集群的系统和方法
CN107992351A (zh) * 2016-10-26 2018-05-04 阿里巴巴集团控股有限公司 一种硬件资源分配方法及装置、电子设备
US20190102265A1 (en) * 2017-03-23 2019-04-04 Dh2I Company Highly available stateful containers in a cluster environment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859263A (zh) * 2010-06-12 2010-10-13 中国人民解放军国防科学技术大学 一种支持在线迁移的虚拟机间快速通信方法
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
CN104360943A (zh) * 2014-11-11 2015-02-18 浪潮电子信息产业股份有限公司 一种面向服务架构的资源保障模型
CN104536842A (zh) * 2014-12-17 2015-04-22 中电科华云信息技术有限公司 基于kvm虚拟化的虚拟机容错方法
CN105743995A (zh) * 2016-04-05 2016-07-06 北京轻元科技有限公司 一种可移植高可用部署和管理容器集群的系统和方法
CN107992351A (zh) * 2016-10-26 2018-05-04 阿里巴巴集团控股有限公司 一种硬件资源分配方法及装置、电子设备
US20190102265A1 (en) * 2017-03-23 2019-04-04 Dh2I Company Highly available stateful containers in a cluster environment

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周利敏;傅妍芳;高武奇;高祥;程兵;: "基于云仿真平台的高可用技术研究", no. 04 *
王伟成;罗宇;: "基于分布式架构的星载并行计算机容错技术" *
王伟成;罗宇;: "基于分布式架构的星载并行计算机容错技术", 计算机工程与科学, no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157393A (zh) * 2021-04-09 2021-07-23 上海云轴信息科技有限公司 管理节点高可用方法及设备
CN113595899A (zh) * 2021-06-30 2021-11-02 上海云轴信息科技有限公司 一种用于多节点云路由实现的方法及系统

Also Published As

Publication number Publication date
CN111488247B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US11163653B2 (en) Storage cluster failure detection
US11709743B2 (en) Methods and systems for a non-disruptive automatic unplanned failover from a primary copy of data at a primary storage system to a mirror copy of the data at a cross-site secondary storage system
US8533171B2 (en) Method and system for restarting file lock services at an adoptive node during a network filesystem server migration or failover
US9747179B2 (en) Data management agent for selective storage re-caching
US8655851B2 (en) Method and system for performing a clean file lock recovery during a network filesystem server migration or failover
CN111314479B (zh) 一种数据处理方法和设备
US9311328B2 (en) Reference volume for initial synchronization of a replicated volume group
US9817721B1 (en) High availability management techniques for cluster resources
US9275060B1 (en) Method and system for using high availability attributes to define data protection plans
US10430217B2 (en) High availability using dynamic quorum-based arbitration
US20120066678A1 (en) Cluster-aware virtual input/output server
CN105095245B (zh) 基于关联型数据库的归档日志同步方法及系统
WO2016202051A1 (zh) 一种通信系统中管理主备节点的方法和装置及高可用集群
WO2020143410A1 (zh) 数据存储方法及装置、电子设备、存储介质
WO2018157605A1 (zh) 一种集群文件系统中消息传输的方法及装置
RU2643642C2 (ru) Использование кэш-памяти и памяти другого типа в распределённой запоминающей системе
WO2025246814A1 (zh) 高可用数据管理
CN111488247B (zh) 一种管控节点多次容错的高可用方法及设备
CN112328368B (zh) 一种基于云平台的应用层存储方法及设备
US8621260B1 (en) Site-level sub-cluster dependencies
CN107528703B (zh) 一种用于管理分布式系统中节点设备的方法与设备
WO2015196692A1 (zh) 一种云计算系统以及云计算系统的处理方法和装置
CN112202601A (zh) 副本集模式运行的两物理节点mongo集群的应用方法
US11842063B2 (en) Data placement and recovery in the event of partition failures
CN113157392B (zh) 镜像仓库高可用方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 502A, dinglou, 555 Dongchuan Road, Minhang District, Shanghai, 200241

Patentee after: Shanghai Yunzhou Technology Co.,Ltd.

Country or region after: China

Address before: Room 4159, building e, 555 Dongchuan Road, Minhang District, Shanghai 200241

Patentee before: SHANGHAI YUNZHOU INFORMATION TECHNOLOGY CO.,LTD.

Country or region before: China