[go: up one dir, main page]

CN114201473A - 日志管理方法及服务器集群 - Google Patents

日志管理方法及服务器集群 Download PDF

Info

Publication number
CN114201473A
CN114201473A CN202111533752.0A CN202111533752A CN114201473A CN 114201473 A CN114201473 A CN 114201473A CN 202111533752 A CN202111533752 A CN 202111533752A CN 114201473 A CN114201473 A CN 114201473A
Authority
CN
China
Prior art keywords
server
log
log server
idle
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111533752.0A
Other languages
English (en)
Inventor
郭琰
韩朱忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dameng Database Co Ltd
Original Assignee
Shanghai Dameng Database Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dameng Database Co Ltd filed Critical Shanghai Dameng Database Co Ltd
Priority to CN202111533752.0A priority Critical patent/CN114201473A/zh
Publication of CN114201473A publication Critical patent/CN114201473A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种日志管理方法及服务器集群。所述日志管理方法包括:在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求;响应于所述更换请求,所述目录服务器将所述空闲日志服务器标记为所述非故障服务器的备日志服务器;所述非故障服务器与所述空闲日志服务器同步日志数据。利用该方法,在日志服务器故障的情况下,通过将空闲日志服务器标记为非故障服务器的备日志服务器,实现了非故障服务器与空闲日志服务器同步日志数据,从而保证了分布式数据库系统的可靠运行,并且可以减少部署代价。

Description

日志管理方法及服务器集群
技术领域
本发明实施例涉及数据库技术领域,尤其涉及一种日志管理方法及服务器集群。
背景技术
分布式数据库系统(DDBS)包含分布式数据库管理系统(DDBMS)和分布式数据库(DDB)。分布式数据库系统中包括数据库服务器、存储服务器与日志服务器等,日志服务器作为连接数据库服务器和存储服务器的桥梁,在整个分布式数据库系统中承担着重要作用。
为了防止日志服务器运行过程中出现故障所带来的系统运行异常,现有的技术方案通常是配置多个日志服务器形成一个主备环境,例如是一主一备,或一主多备,当主日志服务器出现故障时可以把备日志服务器切换成主日志服务器继续提供服务。
对于可靠性要求较高的场景,如果多个设备节点均故障且未及时修复,即这些设备节点中的主日志服务器都无法工作,则需要部署更多的备日志服务器,以确保集群整体运行不受影响。但是,集群部署的代价相应明显提升,如所需的实例与存储翻倍增加。
发明内容
本发明实施例提供了一种日志管理方法及服务器集群,以在日志服务器发生故障时,既能够保证分布式数据库系统的运行可靠,也不必增加过多的部署代价。
第一方面,本发明实施例提供了一种日志管理方法,所述方法应用于服务器集群,所述服务器集群包括:日志服务器组、空闲日志服务器以及目录服务器,其中,所述日志服务器组包括一个主日志服务器以及主日志服务器关联的备日志服务器;
所述日志管理方法包括:
在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求;
响应于所述更换请求,所述目录服务器将所述空闲日志服务器标记为所述非故障服务器的备日志服务器;
所述非故障服务器与所述空闲日志服务器同步日志数据。
第二方面,本发明实施例还提供了一种服务器集群,包括:日志服务器组、空闲日志服务器以及目录服务器,其中,所述日志服务器组包括一个主日志服务器以及主日志服务器关联的备日志服务器;
所述主日志服务器用于管理根据数据操作生成的日志;
所述备日志服务器用于在关联的主日志服务器故障的情况下替代所述关联的主日志服务器;
所述空闲日志服务器用于在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,作为非故障服务器关联的备日志服务器;
所述目录服务器用于管理所述服务器集群的元数据信息。
本发明实施例提供了一种日志管理方法及服务器集群。所述方法应用于服务器集群,所述服务器集群包括:日志服务器组、空闲日志服务器以及目录服务器,其中,所述日志服务器组包括一个主日志服务器以及主日志服务器关联的备日志服务器;所述日志管理方法包括:在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求;响应于所述更换请求,所述目录服务器将所述空闲日志服务器标记为所述非故障服务器的备日志服务器;所述非故障服务器与所述空闲日志服务器同步日志数据。利用上述技术方案,在日志服务器故障的情况下,通过将空闲日志服务器标记为非故障服务器的备日志服务器,实现了非故障服务器与空闲日志服务器同步日志数据,从而保证了分布式数据库系统的可靠运行,并且可以减少部署代价。
附图说明
图1为本发明实施例一提供的一种日志管理方法的流程示意图;
图2为本发明实施例一提供的一种服务器集群的结构示意图;
图3为本发明实施例二提供的一种日志管理方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对相应内容进行区分,并非用于限定顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
实施例一
图1为本发明实施例一提供的一种日志管理方法的流程示意图,该方法可适用于日志服务器发生故障的情况,该方法可以应用于服务器集群。
图2为本发明实施例一提供的一种服务器集群的结构示意图,如图2所示,服务器集群包括:日志服务器组2、空闲日志服务器5以及目录服务器6,其中,日志服务器组2包括一个主日志服务器3以及主日志服务器3关联的备日志服务器4。
其中,日志服务器组2在整个分布式数据库系统中承担着接收数据库服务器1生成的日志,并对日志进行处理再分发的关键作用,因此在分布式数据库系统运行过程中,若日志服务器组2中的任意日志服务器发生故障,那么整个系统将无法继续运行。
本发明实施例中的服务器集群可以基于分布式数据库系统的体系架构,例如包括计算、日志、存储三层分离架构,分布式数据库系统可以包括数据库服务节点、日志节点以及存储节点,数据库服务节点上配置有至少一个数据库服务器1(即计算节点),用于记录分布式数据库中各项数据的逻辑存储地址;此外,对于存储层,还可以通过在存储节点上配置有至少一个存储服务器(图未示),用于记录分布式数据库中各项数据的物理存储地址,日志服务器组2可以作为连接数据库服务器1和存储服务器的桥梁;日志节点上配置有至少一个日志服务器组2,用于记录逻辑存储地址与物理存储地址之间的映射关系。
现有的解决技术方案通常是为每个主日志服务器配置多个专用的备日志服务器,但是集群部署的代价随之提升,假设服务器集群中部署10个日志服务器,那么每增加一套备服务器,就实际需要增加10个新的日志服务器,相应所需的实例与存储也翻倍增加。
基于此,本发明实施例提供了一种日志管理方法,基于共享使用的原理,将原本各个主日志服务器的专用备日志服务器,改为所有主日志服务器共享,以此减少实际所需的日志服务器数量,同时,相应的日志服务器传递所需的网络带宽,以及存储所需空间也随之减少,且不会对集群的整体运行产生副作用干扰。
具体的,如图1所示,本发明实施例一提供的一种日志管理方法,包括如下步骤:
S110、在日志服务器组中的主日志服务器或备日志服务器故障的情况下,日志服务器组中的非故障服务器向目录服务器发送更换请求。
具体的,可以将多个数据库服务器(Date Server,DS)划分为不同的日志服务器组,每个数据库服务器仅属于一个组。在每个日志服务器组中,配置一个主日志服务器(Primary Redo Log Server,PRS)负责提供日志分发及数据读写服务。同时,为主日志服务器配置一个备日志服务器(Standby Redo Log Server,SRS),因此,每个日志服务器组中可以包括一个主日志服务器以及主日志服务器关联的备日志服务器。
同时,可以在目录服务器(Catalog Server,CS)上注册每个日志服务器组信息,包括每个日志服务器组的PRS和SRS的IP地址,还可以选择性地注册若干个空闲日志服务器(Free Redo Log Server,FRS),FRS的模式为自由模式(FREE),所属日志组为空,即没有专属日志组。
数据库服务器和日志服务器上可以配置目录服务器的地址,以便在分布式数据库系统运行过程中与目录服务器进行通信交互。
其中,DS可以认为是计算节点,用于接收数据库操作请求,并对数据库操作请求进行分析、优化及执行,期间可以产生对应本次数据库操作的数据库日志;PRS可以用于接收数据库服务器生成的日志,对日志进行处理再分发到存储服务器;SRS可以理解为主日志服务器的备机,当主日志服务器发生故障时,备日志服务器用于切换为主日志服务器并为分布式数据库系统提供服务;目录服务器可以认为是为其他服务器提供目录服务的服务器,例如可以提供整个分布式数据库系统的元数据信息等。
非故障服务器可以理解为日志服务器组中除了故障日志服务器之外的日志服务器,例如当故障日志服务器为主日志服务器时,非故障服务器可以为同组的备日志服务器;当故障日志服务器为备日志服务器时,非故障服务器可以为同组的主日志服务器。更换请求的内容及类型不限,例如可以包括日志服务器组的注册信息、故障日志服务器的身份标记信息等。
具体的,在日志服务器组中的主日志服务器或备日志服务器故障的情况下,日志服务器组中的非故障服务器可以向目录服务器发送更换请求。本实施例不对发送更换请求方式进行限定,例如非故障服务器可以直接向目录服务器发送更换请求,也可以通过其他服务器转发更换请求至目录服务器。
S120、响应于更换请求,目录服务器将空闲日志服务器标记为非故障服务器的备日志服务器。
空闲日志服务器可以理解为空闲的日志服务器,用于等待后续角色的标记处理,如由空闲日志服务器标记为非故障服务器的备日志服务器。在本实施例中,空闲日志服务器与非故障服务器处于不同故障域以避免同时发生故障或频繁发生故障,其中,不同故障域的内容不限,例如可以包括故障类型不同、故障时间不同等。
具体的,在目录服务器接收到更换请求后,目录服务器可以响应于该更换请求,选取一个空闲日志服务器并将选取的空闲日志服务器标记为非故障服务器的备日志服务器,以恢复正常的每个主日志服务器关联一个备日志服务器的状态。
可选的,目录服务器在将选取的空闲日志服务器标记为非故障服务器的备日志服务器后,可以发送更换响应消息至非故障服务器以将选取的空闲日志服务器的地址信息发送至非故障服务器;非故障服务器在收到选取空闲日志服务器的地址信息后,可以向空闲日志服务器发送握手请求以确认彼此身份;空闲日志服务器在收到握手请求后,可以向目录服务器确认自身的身份标记信息,若身份标记信息确认标记为非故障服务器的备日志服务器则回应非故障服务器,以切换为本日志服务器组中非故障服务器的备日志服务器。
S130、非故障服务器与空闲日志服务器同步日志数据。
在本步骤中,非故障服务器与空闲日志服务器可以同步日志数据以恢复正常的每个主日志服务器关联一个备日志服务器的状态。同步日志数据的手段不限,例如非故障服务器可以将与接收到的日志发送至空闲日志服务器,以保证非故障服务器与空闲日志服务器之间的日志数据是一致的。
本发明实施例一提供的一种日志管理方法,在日志服务器故障的情况下,通过将空闲日志服务器标记为非故障服务器的备日志服务器,实现了非故障服务器与空闲日志服务器同步日志数据,从而保证了分布式数据库系统的可靠运行,并且可以减少部署代价。
实施例二
图3为本发明实施例二提供的一种日志管理方法的流程示意图,本实施例二在上述各实施例的基础上进行优化。在本实施例中,将在日志服务器组中的主日志服务器或备日志服务器故障的情况下,日志服务器组中的非故障服务器向目录服务器发送更换请求之前的情况和在日志服务器组中的主日志服务器或备日志服务器故障的情况下,日志服务器组中的非故障服务器向目录服务器发送更换请求进行具体化。
在本实施例中,在日志服务器组中的主日志服务器或备日志服务器故障的情况下,日志服务器组中的非故障服务器向目录服务器发送更换请求之前,还包括:目录服务器生成服务器集群的注册信息,注册信息包括每个日志服务器组中主日志服务器和备日志服务器的身份标记信息和地址信息;注册信息还包括空闲服务器的身份标记信息和地址信息,空闲服务器不属于任意一个日志服务器组。在此基础上,实现了服务器集群启动前的准备工作,即目录服务器生成服务器集群的注册信息,以根据注册信息进行后续故障日志服务器的处理。
在本实施例中,将在日志服务器组中的主日志服务器或备日志服务器故障的情况下,日志服务器组中的非故障服务器向目录服务器发送更换请求进一步具体化为:在日志服务器组中的主日志服务器或备日志服务器故障的情况下,若在故障时间阈值内故障的服务器未修复,则日志服务器组中的非故障服务器向目录服务器发送更换请求。在此基础上,通过判断故障时间阈值内故障的服务器是否修复,能够针对不同情况采取对应的故障处理措施,以保证处理故障日志服务器的准确无误。
本实施例尚未详尽的内容请参考实施例一。
如图3所示,本发明实施例二提供的一种日志管理方法,包括如下步骤:
S210、目录服务器生成服务器集群的注册信息。
其中,注册信息可以认为是日志服务器启动时的注册信息,注册信息可以包括每个日志服务器组中主日志服务器和备日志服务器的身份标记信息和地址信息;注册信息还可以包括空闲服务器的身份标记信息和地址信息,空闲服务器不属于任意一个日志服务器组。
可以理解的是,在日志服务器(即PRS、SRS或FRS)启动时,需要先在目录服务器中登录,以获取自身的注册信息(即身份标记信息和地址信息),然后PRS或SRS可以直接进入自身角色运行;FRS则暂时处于空闲状态,等待后续角色切换处理。日志服务器在目录服务器中首次登录后,会在本地记录自身的身份标记(即身份标记信息),并在下次启动时与上次记录的身份标记进行对比,如果身份发生变换,则进行相应处理。
DS启动时,也需先访问日志服务器,获取同组日志服务器(即PRS、SRS或FRS)的地址信息,之后访问PRS。
S220、在日志服务器组中的主日志服务器或备日志服务器故障的情况下,判断在故障时间阈值内故障服务器是否修复,若是,则执行S230;若否,则执行S240-S260。
其中,故障时间阈值可以是指故障处理时间的临界值,可以由相关人员进行设置,本实施例对此不作限定。
在日志服务器组中的主日志服务器或备日志服务器故障的情况下,可以首先根据故障服务器的不同,转入单主日志服务器的状态下运行,同时判断在故障时间阈值内故障服务器是否修复,若在故障时间阈值内故障的服务器修复,则说明故障的服务器修复成功,非故障服务器与修复后的故障服务器可以同步当前的日志数据,以恢复正常主备日志服务器状态运行;若在故障时间阈值内故障的服务器未修复,则说明故障的服务器当前还不能正常工作,此时日志服务器组中的非故障服务器可以向目录服务器发送更换请求以恢复正常的主备日志服务器状态。
例如,若PRS发生故障,则同组的SRS可切换为PRS继续服务,发生故障的PRS则被置为SRS且处于故障状态;若SRS发生故障,则不需要进行角色切换。在集群设置的故障时间阈值内(例如为1分钟),PRS会等待故障SRS重启加入,并经过日志同步追加,恢复正常主备状态运行。如果超过时间阈值,SRS仍未修复,则PRS会向CS发出请求,申请更换SRS。
S230、非故障服务器与修复后的故障日志服务器同步日志数据。
S240、日志服务器组中的非故障服务器向目录服务器发送更换请求。
S250、响应于更换请求,目录服务器将空闲日志服务器标记为非故障服务器的备日志服务器。
S260、非故障服务器与空闲日志服务器同步日志数据。
本发明实施例二提供的一种日志管理方法,通过目录服务器生成服务器集群的注册信息,实现了服务器集群启动前的准备工作,保证了根据注册信息进行后续故障日志服务器的处理;同时,通过判断故障时间阈值内故障的服务器是否修复,能够针对不同情况采取对应的故障处理措施,以保证处理故障日志服务器的准确无误。
在一个实施例中,在日志服务器组中的非故障服务器向目录服务器发送更换请求之后,还包括:目录服务器向非故障服务器发送更换响应消息,更换响应消息包括空闲日志服务器的地址信息。
其中,更换响应消息的内容不限,例如可以包括空闲日志服务器的地址信息等。
在目录服务器接收到非故障服务器的更换请求后,可以向非故障服务器发送更换响应消息,本实施例不对发送更换响应消息方式进行限定,例如目录服务器可以直接向非故障服务器发送更换响应消息,也可以通过其他服务器转发更换响应消息至非故障服务器。在此基础上,使得非故障服务器明确更换后的备日志服务器,保证备日志服务器更换的可靠性。
在一个实施例中,在非故障服务器与空闲日志服务器同步日志数据之前,还包括:
非故障服务器根据更换响应消息中的地址信息,向空闲服务器发送握手请求;
空闲服务器根据握手请求向目录服务器确认身份标记信息;
根据身份标记信息的确认结果,空闲服务器向非故障服务器发送握手响应消息。在此基础上,非故障服务器和空闲服务器都可向目录服务器确认对方的信息,从而准确确定主备服务器的关系。
其中,握手请求可以理解为非故障服务器向空闲服务器确认身份的请求,握手请求中可以包括非故障服务器的身份标记信息和地址信息等;握手响应消息可以理解为非故障服务器回应空闲服务器确认身份的消息,握手响应消息中可以包括确认消息、拒绝消息等。
具体的,在目录服务器将空闲日志服务器标记为非故障服务器的备日志服务器后,目录服务器向非故障服务器发送更换响应消息,非故障服务器在收到更换响应消息后,可以根据更换响应消息中的地址信息向空闲服务器发送握手请求。
空闲服务器在收到握手请求后,可以根据握手请求向目录服务器进行身份标记信息的确认,本步骤不对身份标记信息确认的步骤进行限定,示例性的,空闲服务器可以向目录服务器发送身份标记信息的消息,然后根据目录服务器返回的身份标记信息的响应消息进行身份标记信息的确认,得到身份标记信息的确认结果,确认结果中可以包括确认成为非故障服务器的备日志服务器,还可以包括确认没有成为非故障服务器的备日志服务器;空闲服务器可以根据身份标记信息的确认结果向非故障服务器发送握手响应消息以进行备日志服务器的切换。
在一个实施例中,在日志服务器组中的非故障服务器向目录服务器发送更换请求之后,还包括:目录服务器将日志服务器组中故障的服务器从日志服务器组中移除。
具体的,在目录服务器接收到日志服务器组中非故障服务器的更换请求之后,目录服务器可以将日志服务器组中故障的服务器从日志服务器组中移除,移除的手段不限,只要能使得故障服务器不再参与此日志服务器组的日志管理工作即可,例如可以从日志服务器组中删除故障服务器的身份标记信息和/或地址信息等,从而减少不必要的服务器部署。
在一个实施例中,在日志服务器组中的非故障服务器向目录服务器发送更换请求之后,还包括:在故障的服务器的故障修复后,目录服务器将故障的服务器标记为空闲日志服务器。
在本实施例中,当故障的服务器的故障修复后,目录服务器可以将故障的服务器标记为空闲日志服务器,以在本日志服务器组或者其他日志服务器组的主备日志服务器发生故障的情况时,可以重新被选择为备日志服务器。在此基础上,以利于日志服务器资源的循环使用。
可以看出,由于在服务器集群环境中,日志服务器同时故障的几率,要远低于连续故障的几率,因此本发明实施例提供的日志管理方法,可以为每个主日志服务器配置1个备日志服务器,保证日志的双副本运行,同时,在服务器集群内配置若干个空闲日志服务器,空闲日志服务器通常情况下不需要参与日志处理。当主日志服务器或者备日志服务器发生故障时,可以触发主备日志服务器的切换;若故障服务器在一段时间内仍未恢复,则可以选取一个空闲日志服务器,作为新主日志服务器的备日志服务器,以恢复正常的主备状态。而故障服务器被修复重启后,则可以转为空闲日志服务器,以备后续故障使用。
可以理解的是,日志服务器的备份服务器(即空闲日志服务器)可共享,是由其自身特点所决定的。因为日志服务器本身只需要保存少量的日志文件,所以重构一个备份日志服务器代价并不大,所需时间也很短。而现有的技术方案,在生成新备机时,需要花费大量代价进行数据文件的复制以及后续的日志同步与回放,重建备机所需时间可能还远大于修复故障机。
以下对本发明实施例进行示例性描述。当日志服务器组中某个日志服务器(即主日志服务器或备日志服务器)发生故障时,首先根据常规主备处理逻辑,转入单主机运行模式:若PRS发生故障,同组的SRS切换为PRS继续服务,发生故障的PRS则被置为SRS且处于故障状态;若SRS发生故障,不需要进行切换,在服务器集群设置的故障时间阈值内(例如为1分钟),PRS会等待故障SRS重启加入,并经过日志同步追加,恢复正常主备状态运行;如果超过故障时间阈值,SRS仍未修复,则PRS会向CS发出请求(即发送更换请求),申请更换SRS。
CS选择一个活动的FRS将其加入请求PRS所在日志服务器组,并将其模式更改为备日志服务器,同时将日志组内原有故障SRS模式改为FREE,并移除出日志服务器组。其中,新选取的FRS,应该与PRS处于不同故障域,以减小节点同时故障失效的概率。
更换SRS成功后,CS将新的SRS地址发给PRS并通知其SRS更换成功(即发送更换响应消息)。PRS收到CS返回消息(即更换响应消息)后连接新的SRS,与其握手确认后,执行日志修复追加处理,恢复正常主备状态。
新切换生成的SRS(即原FRS)在收到PRS的握手请求后,也需要先与CS通信确认其身份变换(即身份标记信息),才响应后继日志修复处理。这是因为,日志服务器的身份切换只能由CS来执行,而且CS不会主动向日志服务器发送通知消息。所以原来的FRS必须从CS读取自身最新身份信息,才可以切换成为对应模式执行。这样可以避免PRS的过期消息引起日志错误分发。
发生故障的原SRS重启后,连接CS发现自身身份已切换为FREE,则清除本地原有的日志文件,释放出存储空间,以利于日志服务器资源的循环使用。
数据库服务器DS一旦与RS(即日志服务器)连接产生异常,需要首先访问CS,获取可能更新的日志服务器组内RS信息,然后再进行重连尝试。
需要说明的是,在日志服务器发生故障后,PRS、SRS、FRS可能会发生相互的身份变换。故障的PRS可能切换为SRS,也可能被切换为FRS;故障的SRS可能被切换为FRS;FRS则可能被切入日志服务器组变为SRS,但FRS不能直接变为PRS,因为FRS中不存在日志组内的原有日志。
实施例三
参见上述的图2,本发明实施例三提供的服务器集群可以包括:日志服务器组2、空闲日志服务器5以及目录服务器6,其中,日志服务器组2包括一个主日志服务器3以及主日志服务器3关联的备日志服务器4。
主日志服务器3可以用于管理根据数据操作生成的日志;备日志服务器4可以用于在关联的主日志服务器3故障的情况下替代关联的主日志服务器3;空闲日志服务器5可以用于在日志服务器组2中的主日志服务器3或备日志服务器4故障的情况下,作为非故障服务器关联的备日志服务器;目录服务器6可以用于管理服务器集群的元数据信息,其中,元数据信息例如可以包括身份标记信息、地址信息、网络拓扑、数据分布等。
可选的,服务器集群还可以包括存储服务器,用于记录分布式数据库中各项数据的物理存储地址。
可选的,空闲日志服务器5的数量少于日志服务器组2的数量,即,空闲日志服务器5的数量可以不多于日志服务器组2的数量,且空闲日志服务器5不需要一对一日志服务器组2。在此基础上,进一步实现了共享使用空闲日志服务器,减少了实际所需的服务器数量,降低了部署代价,同时,共享的空闲日志服务器通常情况下不需要参与日志处理,使得相应的日志服务器传递所需的网络带宽,以及存储所需空间也随之减少,且不会对集群的整体运行产生副作用干扰。
本发明实施例三提供的服务器集群可以用于实现上述任意实施例提供的日志管理方法,具备相应的功能和有益效果。

Claims (10)

1.一种日志管理方法,其特征在于,应用于服务器集群,所述服务器集群包括:日志服务器组、空闲日志服务器以及目录服务器,其中,所述日志服务器组包括一个主日志服务器以及主日志服务器关联的备日志服务器;
所述日志管理方法包括:
在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求;
响应于所述更换请求,所述目录服务器将所述空闲日志服务器标记为所述非故障服务器的备日志服务器;
所述非故障服务器与所述空闲日志服务器同步日志数据。
2.根据权利要求1所述的方法,其特征在于,在所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求之后,还包括:
所述目录服务器向所述非故障服务器发送更换响应消息,所述更换响应消息包括所述空闲日志服务器的地址信息。
3.根据权利要求2所述的方法,其特征在于,在所述非故障服务器与所述空闲日志服务器同步日志数据之前,还包括:
所述非故障服务器根据所述更换响应消息中的地址信息,向所述空闲服务器发送握手请求;
所述空闲服务器根据所述握手请求向所述目录服务器确认身份标记信息;
根据身份标记信息的确认结果,所述空闲服务器向所述非故障服务器发送握手响应消息。
4.根据权利要求1所述的方法,其特征在于,在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求,包括:
在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,若在故障时间阈值内故障的服务器未修复,则所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求。
5.根据权利要求1所述的方法,其特征在于,在所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求之后,还包括:
所述目录服务器将所述日志服务器组中故障的服务器从所述日志服务器组中移除。
6.根据权利要求1所述的方法,其特征在于,在所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求之后,还包括:
在所述故障的服务器的故障修复后,所述目录服务器将所述故障的服务器标记为空闲日志服务器。
7.根据权利要求1所述的方法,其特征在于,所述空闲日志服务器与所述日志服务器组中的非故障服务器处于不同故障域。
8.根据权利要求1所述的方法,其特征在于,在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,所述日志服务器组中的非故障服务器向所述目录服务器发送更换请求之前,还包括:
所述目录服务器生成所述服务器集群的注册信息,所述注册信息包括每个日志服务器组中主日志服务器和备日志服务器的身份标记信息和地址信息;
所述注册信息还包括空闲服务器的身份标记信息和地址信息,所述空闲服务器不属于任意一个日志服务器组。
9.一种服务器集群,其特征在于,包括:日志服务器组、空闲日志服务器以及目录服务器,其中,所述日志服务器组包括一个主日志服务器以及主日志服务器关联的备日志服务器;
所述主日志服务器用于管理根据数据操作生成的日志;
所述备日志服务器用于在关联的主日志服务器故障的情况下替代所述关联的主日志服务器;
所述空闲日志服务器用于在所述日志服务器组中的主日志服务器或备日志服务器故障的情况下,作为非故障服务器关联的备日志服务器;
所述目录服务器用于管理所述服务器集群的元数据信息。
10.根据权利要求9所述的服务器集群,其特征在于,所述空闲日志服务器的数量少于所述日志服务器组的数量。
CN202111533752.0A 2021-12-15 2021-12-15 日志管理方法及服务器集群 Pending CN114201473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111533752.0A CN114201473A (zh) 2021-12-15 2021-12-15 日志管理方法及服务器集群

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111533752.0A CN114201473A (zh) 2021-12-15 2021-12-15 日志管理方法及服务器集群

Publications (1)

Publication Number Publication Date
CN114201473A true CN114201473A (zh) 2022-03-18

Family

ID=80653925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111533752.0A Pending CN114201473A (zh) 2021-12-15 2021-12-15 日志管理方法及服务器集群

Country Status (1)

Country Link
CN (1) CN114201473A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114070A (zh) * 2022-07-01 2022-09-27 济南浪潮数据技术有限公司 一种故障诊断方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899648A (zh) * 2016-06-20 2017-06-27 阿里巴巴集团控股有限公司 一种数据处理方法和设备
CN108897641A (zh) * 2018-06-21 2018-11-27 武汉达梦数据库有限公司 一种数据库主备环境下的日志分析服务实时同步系统
CN112352228A (zh) * 2019-04-10 2021-02-09 北京航迹科技有限公司 数据存储系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899648A (zh) * 2016-06-20 2017-06-27 阿里巴巴集团控股有限公司 一种数据处理方法和设备
CN108897641A (zh) * 2018-06-21 2018-11-27 武汉达梦数据库有限公司 一种数据库主备环境下的日志分析服务实时同步系统
CN112352228A (zh) * 2019-04-10 2021-02-09 北京航迹科技有限公司 数据存储系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114070A (zh) * 2022-07-01 2022-09-27 济南浪潮数据技术有限公司 一种故障诊断方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109729129B (zh) 存储集群系统的配置修改方法、存储集群及计算机系统
US6314526B1 (en) Resource group quorum scheme for highly scalable and highly available cluster system management
US7197632B2 (en) Storage system and cluster maintenance
US8055735B2 (en) Method and system for forming a cluster of networked nodes
CN107291787B (zh) 主备数据库切换方法和装置
CN112486718B (zh) 数据库故障自动切换方法、装置和计算机存储介质
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
WO2016070375A1 (zh) 一种分布式存储复制系统和方法
US20080052327A1 (en) Secondary Backup Replication Technique for Clusters
TWI677797B (zh) 主備資料庫的管理方法、系統及其設備
CN114168636B (zh) 基于缓存一致性的数据处理方法、装置、设备及存储介质
WO2023082800A1 (zh) 主节点选择方法、分布式数据库及存储介质
CN112866408B (zh) 一种集群中业务切换方法、装置、设备及存储介质
CN105511987A (zh) 一种强一致性且高可用的分布式任务管理系统
CN115202917A (zh) 一种用于虚拟化平台下的分布式集群容错恢复方法及系统
CN106325768B (zh) 一种双机存储系统及方法
CN116346582A (zh) 一种实现主备双网冗余方法、装置、设备及存储介质
CN108600284B (zh) 一种基于Ceph的虚拟机高可用实现方法及系统
CN114328033B (zh) 保持高可用设备组业务配置一致性的方法及装置
CN118018463A (zh) 一种故障处理方法、装置、设备及可读存储介质
CN110830582B (zh) 一种基于服务器集群选主方法和装置
CN108509296B (zh) 一种处理设备故障的方法和系统
CN112202601B (zh) 副本集模式运行的两物理节点mongo集群的应用方法
CN105323271A (zh) 一种云计算系统以及云计算系统的处理方法和装置
CN114201473A (zh) 日志管理方法及服务器集群

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220318