[go: up one dir, main page]

CN108092857A - 一种分布式系统心跳检测方法及相关装置 - Google Patents

一种分布式系统心跳检测方法及相关装置 Download PDF

Info

Publication number
CN108092857A
CN108092857A CN201810034982.4A CN201810034982A CN108092857A CN 108092857 A CN108092857 A CN 108092857A CN 201810034982 A CN201810034982 A CN 201810034982A CN 108092857 A CN108092857 A CN 108092857A
Authority
CN
China
Prior art keywords
node
common node
common
heartbeat
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810034982.4A
Other languages
English (en)
Inventor
穆向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810034982.4A priority Critical patent/CN108092857A/zh
Publication of CN108092857A publication Critical patent/CN108092857A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种分布式系统心跳检测方法、系统、普通节点、监控节点,其中方法包括:第一普通节点间隔预设时间检测是否接收到第二普通节点发送的心跳信息;若否,则所述第一普通节点向监控节点发送所述第二普通节点故障的信息,以使所述监控节点确定所述第二普通节点离线。由此可见,本发明实施例提供的中分布式系统心跳检测方法,可以通过普通节点之间相互检测心跳数据,当第一普通节点没有接收到第二普通节点的心跳信息时,再想监控节点发送第二普通节点故障的信息,因此心跳信息只在普通节点之间发送,并不会集中向监控节点发送,也就不会造成分布式集群内的网络风暴,不会造成监控节点过大的压力。

Description

一种分布式系统心跳检测方法及相关装置
技术领域
本发明涉及分布式存储系统领域,更具体地说,涉及一种分布式系统心跳检测方法、系统、普通节点、监控节点。
背景技术
在分布式存储中,存储节点的某些状态需要及时通知监控节点,监控节点根据这些心跳状态作为基础进行计算,已确定相应节点的状态,例如在线或离线。
传统分布式系统需要普通节点定时主动向监控节点发送心跳信息,监控节点根据心跳信息判断存储节点的在线、离线等信息。由于监控节点每间隔一段时间就会收到每个节点的大量信息,因此会对集群监控节点造成较大压力,使得监控节点成为系统的瓶颈。
因此,如何降低监控节点的压力,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种分布式系统心跳检测方法、系统、普通节点、监控节点,以降低监控节点的压力。
为实现上述目的,本发明实施例提供了如下技术方案:
一种分布式系统心跳检测方法,包括:
第一普通节点间隔预设时间检测是否接收到第二普通节点发送的心跳信息;
若否,则所述第一普通节点向监控节点发送所述第二普通节点故障的信息,以使所述监控节点确定所述第二普通节点离线。
其中,所述第一普通节点为分布式系统中预设子集中除所述第二普通节点以外的任意普通节点;所述第二普通节点为所述预设子集中除所述第一普通节点以外的任意普通节点。
本发明还提供了一种分布式系统心跳检测系统,设置于第一普通节点,包括:
检测模块,用于间隔预设时间检测是否接收到第二普通节点发送的心跳信息;
发送模块,用于当所述检测模块间隔预设时间没有接收到所述第二普通节点发送的心跳信息时,向监控节点发送所述第二普通节点故障的信息,以使所述监控节点确定所述第二普通节点离线。
本发明还提供了一种普通节点,包括:
第一存储器,用于存储计算机程序;
第一处理器,用于执行所述计算机程序时实现所述分布式系统心跳检测方法的步骤。
本发明还提供了一种分布式系统心跳检测方法,包括:
监控节点接收由第一普通节点发送的第二普通节点故障的信息;所述第二普通节点故障的信息为所述第一普通节点间隔预设时间检测没有接收到第二普通节点发送的心跳信息时,向所述监控节点发送的信息;
所述监控节点确定所述第二普通节点为离线状态。
其中,所述确定所述第二普通节点为离线状态之前,还包括:
判断发送同一个所述第二普通节点故障的信息的第一普通节点个数是否达到预设阈值;
若是,则确定该第二普通节点为离线状态。
本发明还提供了一种分布系统心跳检测系统,设置于监控节点,包括:
接收模块,用于接收由第一普通节点发送的第二普通节点故障的信息;所述第二普通节点故障的信息为所述第一普通节点间隔预设时间检测没有接收到第二普通节点发送的心跳信息时,向所述监控节点发送的信息;
确定模块,用于确定所述第二普通节点为离线状态。
本发明还提供了一种监控节点,包括:
第二存储器,用于存储计算机程序;
第二处理器,用于执行所述计算机程序时实现如权利要求5或6所述分布式系统心跳检测方法的步骤。
本发明还提供了一种分布式系统心跳检测系统,包括:
位于普通节点的检测模块,用于间隔预设时间检测是否接收到其他普通节点发送的心跳信息;
位于所述普通节点的发送模块,用于当所述检测模块间隔预设时间没有接收到任意所述其他普通节点发送的心跳信息时,向监控节点发送相应的普通节点故障的信息;
位于所述监控节点的接收模块,用于接收由所述发送模块发送的普通节点故障的信息;
位于所述监控节点的确定模块,用于确定相应的普通节点为离线状态。
其中,还包括:
位于所述监控节点的判断模块,用于判断发送同一普通节点故障的信息的普通节点个数是否达到预设阈值;若是则继续调用所述确定模块。
通过以上方案可知,本发明提供的一种分布式系统心跳检测方法,包括:第一普通节点间隔预设时间检测是否接收到第二普通节点发送的心跳信息;若否,则所述第一普通节点向监控节点发送所述第二普通节点故障的信息,以使所述监控节点确定所述第二普通节点离线。
由此可见,本发明实施例提供的中分布式系统心跳检测方法,可以通过普通节点之间相互检测心跳数据,当第一普通节点没有接收到第二普通节点的心跳信息时,再想监控节点发送第二普通节点故障的信息,因此心跳信息只在普通节点之间发送,并不会集中向监控节点发送,也就不会造成分布式集群内的网络风暴,不会造成监控节点过大的压力。本发明还提供了一种分布式系统心跳检测系统、普通节点、监控节点,同样可以实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种分布式系统心跳检测方法流程图;
图2为本发明实施例公开的一种分布式系统心跳检测系统结构示意图;
图3为本发明实施例公开的一种分布式系统心跳检测方法流程图;
图4为本发明实施例公开的一种分布式系统心跳检测系统结构示意图;
图5为本发明实施例公开的一种分布式系统心跳检测系统结构示意图;
图6为本发明实施例公开的一种分布式系统心跳检测流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种分布式系统心跳检测方法,降低监控节点的压力。
参见图1,本发明实施例提供的一种分布式系统心跳检测方法,具体包括:
S101,第一普通节点间隔预设时间检测是否接收到第二普通节点发送的心跳信息。
在本方案中,分布式集群的心跳数据不再由普通节点向监控节点发送,而是由普通节点之间相互发送。
具体地,在集群中普通节点分为两种,即第一普通节点和第二普通节点,当普通节点接收其他普通节点发送的心跳数据时,该普通节点相对于发送方,即为第一普通节点;当普通节点发送自己的心跳数据至某个第一普通节点时,则该普通节点相对于接收方的这个第一普通节点就作为第二普通节点。需要说明的是,由于普通节点之间的心跳数据是相互发送,第一普通节点与第二普通节点是相对的,一个普通节点可以既是第一普通节点也是第二普通节点。
第一普通节点间隔预设时间进行检测,判断是否接收到第二普通节点的心跳数据,如果没有接收到第二普通节点的心跳数据,则说明这个第二普通节点没有向该第一普通节点发送心跳数据,则这个第二普通节点可能出现故障离线;而当接收到第二普通节点发送的心跳数据时,则说明这个第二普通节点正常,而正常情况下,就无需将信息发送至监控节点。
S102,若否,则所述第一普通节点向监控节点发送所述第二普通节点故障的信息,以使所述监控节点确定所述第二普通节点离线。
具体地,当第一普通节点没有接收到第二普通节点的信条信息时,第一普通节点向监控节点发送信息,告知监控节点这个第二普通节点故障。
在本方案中,对于一个第一普通节点,可以对应多个第二普通节点,即一个普通节点可以接收多个其他普通节点的心跳信息;对于一个第二普通节点,可以对应多个第一普通节点,即一个普通节点可以向多个其他普通节点发送自己的心跳数据。
需要说明的是,监控节点接收到某个第二普通节点故障的信息后,可以不立即判定该节点故障,而是等待是否有其他第一普通节点也发送了该节点故障的信息,当报告该节点故障的第一普通节点达到预定数量时,再确定这个第二普通节点故障,以保证判断的准确性。此外,预定数量的计算可以是预设时间内的预定数量,即10分钟内达到2个第一普通节点汇报了某个第二普通节点故障,则判定该第二普通节点故障。
由此可见,本发明实施例提供的中分布式系统心跳检测方法,可以通过普通节点之间相互检测心跳数据,当第一普通节点没有接收到第二普通节点的心跳信息时,再想监控节点发送第二普通节点故障的信息,因此心跳信息只在普通节点之间发送,并不会集中向监控节点发送,也就不会造成分布式集群内的网络风暴,不会造成监控节点过大的压力。
本发明实施例提供一种具体的分布式系统心跳检测方法,区别于上述实施例,本发明实施例对上述实施例中第一普通节点与第二普通节点做了进一步的限定和说明,其他步骤内容与上述实施例大致相同,具体可以参考上述实施例,此处不再赘述。
具体地,第一普通节点为分布式系统中预设子集中除所述第二普通节点以外的任意普通节点;所述第二普通节点为所述预设子集中除所述第一普通节点以外的任意普通节点。
在本方案中,利用预定的算法,将集群中所有的普通节点划分子集,同一子集内的普通节点相互发送心跳信息,这样可以降低每个普通节点发送信息与接收信息的数量,降低每个普通节点的压力。
下面对本发明提供的一种分布式系统心跳检测系统进行介绍,下文描述的一种分布式系统心跳检测系统与上文描述的一种分布式系统心跳检测方法可以相互参照。
参见图2,本发明实施例提供的一种分布式系统心跳检测系统,具体包括:
检测模块201,用于间隔预设时间检测是否接收到第二普通节点发送的心跳信息。
在本方案中,分布式集群的心跳数据不再由普通节点向监控节点发送,而是由普通节点之间相互发送。
具体地,在集群中普通节点分为两种,即第一普通节点和第二普通节点,当普通节点接收其他普通节点发送的心跳数据时,该普通节点相对于发送方,即为第一普通节点;当普通节点发送自己的心跳数据至某个第一普通节点时,则该普通节点相对于接收方的这个第一普通节点就作为第二普通节点。需要说明的是,由于普通节点之间的心跳数据是相互发送,第一普通节点与第二普通节点是相对的,一个普通节点可以既是第一普通节点也是第二普通节点。
第一普通节点的检测模块201间隔预设时间进行检测,判断是否接收到第二普通节点的心跳数据,如果没有接收到第二普通节点的心跳数据,则说明这个第二普通节点没有向该第一普通节点发送心跳数据,则这个第二普通节点可能出现故障离线;而当接收到第二普通节点发送的心跳数据时,则说明这个第二普通节点正常,而正常情况下,就无需将信息发送至监控节点。
作为优选的,利用预定的算法,将集群中所有的普通节点划分子集,第一普通节点为分布式系统中预设子集中除第二普通节点以外的任意普通节点;第二普通节点为预设子集中除所述第一普通节点以外的任意普通节点。同一子集内的普通节点相互发送心跳信息,这样可以降低每个普通节点发送信息与接收信息的数量,降低每个普通节点的压力。
发送模块202,用于当所述检测模块间隔预设时间没有接收到所述第二普通节点发送的心跳信息时,向监控节点发送所述第二普通节点故障的信息,以使所述监控节点确定所述第二普通节点离线。
具体地,当第一普通节点没有接收到第二普通节点的信条信息时,第一普通节点的发送模块202向监控节点发送信息,告知监控节点这个第二普通节点故障。
在本方案中,对于一个第一普通节点,可以对应多个第二普通节点,即一个普通节点可以接收多个其他普通节点的心跳信息;对于一个第二普通节点,可以对应多个第一普通节点,即一个普通节点可以向多个其他普通节点发送自己的心跳数据。
需要说明的是,监控节点接收到某个第二普通节点故障的信息后,可以不立即判定该节点故障,而是等待是否有其他第一普通节点也发送了该节点故障的信息,当报告该节点故障的第一普通节点达到一定数量时,再确定这个第二普通节点故障,以保证判断的准确性。
由此可见,本发明实施例提供的中分布式系统心跳检测系统,可以通过普通节点之间相互检测心跳数据,检测模块201检测到没有接收到第二普通节点的心跳信息时,发送模块202再向监控节点发送第二普通节点故障的信息,因此心跳信息只在普通节点之间发送,并不会集中向监控节点发送,也就不会造成分布式集群内的网络风暴,不会造成监控节点过大的压力。
下面对本发明实施例提供的一种普通节点进行介绍,下文描述的一种普通节点与上文描述的一种分布式系统心跳检测方法可以相互参照。
本发明实施例提供的一种普通节点,具体包括:
第一存储器,用于存储计算机程序;
第一处理器,用于执行所述计算机程序时实现如上述任一实施例所述分布式系统心跳检测方法的步骤。
下面对本发明实施例提供的一种分布式系统心跳检测方法进行介绍,本发明实施例提供的方法应用于监控节点,与上文描述的一种分布式系统心跳检测方法可以相互参照。
参见图3,本发明实施例提供的一种分布式系统心跳检测方法,具体包括:
S301,监控节点接收由第一普通节点发送的第二普通节点故障的信息;所述第二普通节点故障的信息为所述第一普通节点间隔预设时间检测没有接收到第二普通节点发送的心跳信息时,向所述监控节点发送的信息,。
在本方案中,监控节点不需要接收每个普通节点的心跳,而只需要接收已经故障节点的信息。也就是当第一普通节点没有接收到第二普通节点的心跳信息时,向监控节点发送信息告知该第二普通节点故障。
S302,所述监控节点确定所述第二普通节点为离线状态。
具体地,当监控节点接收到一个或多个第二普通节点故障的信息后,确定对应的第二普通节点为离线状态。
作为优选的,监控节点接收到某个第二普通节点故障的信息后,可以不立即判定该节点故障,而是等待是否有其他第一普通节点也发送了该节点故障的信息,当报告该节点故障的第一普通节点个数达到预设阈值时,再确定这个第二普通节点故障,以保证判断的准确性。
由此可见,本发明提供的一种分布式系统心跳检测方法,监控系统只需要在有节点故障时接收对应该故障节点的信息,而不需要每间隔一定时间就接收来自所有普通节点发送的信息,因此大大降低了监控节点的压力。
下面对本发明实施例提供的一种分布式系统心跳检测系统进行介绍,本系统设置于监控节点中,本发明实施例提供的一种分布式系统心跳检测系统与上文描述的应用于监控节点的一种分布式系统心跳检测方法可以相互参照。
参见图4,本发明实施例提供的一种分布式系统心跳检测系统,具体包括:
接收模块401,用于接收由第一普通节点发送的第二普通节点故障的信息;所述第二普通节点故障的信息为所述第一普通节点间隔预设时间检测没有接收到第二普通节点发送的心跳信息时,向所述监控节点发送的信息。
在本方案中,监控节点不需要接收每个普通节点的心跳,而只需要利用接收模块401接收已经故障节点的信息。也就是当第一普通节点没有接收到第二普通节点的心跳信息时,向监控节点发送信息告知该第二普通节点故障。
确定模块402,用于确定所述第二普通节点为离线状态。
具体地,当接收模块401接收到一个或多个第二普通节点故障的信息后,确定模块402确定对应的第二普通节点为离线状态。
作为优选的,接收模块401接收到某个第二普通节点故障的信息后,可以不立即判定该节点故障,而是等待是否有其他第一普通节点也发送了该节点故障的信息,当报告该节点故障的第一普通节点个数达到预设阈值时,确定模块402再确定这个第二普通节点故障,以保证判断的准确性。
由此可见,本发明提供的一种分布式系统心跳检测系统,监控系统只需要在有节点故障时接收对应该故障节点的信息,而不需要每间隔一定时间就接收来自所有普通节点发送的信息,因此大大降低了监控节点的压力。
下面对本发明实施例提供的一种监控节点进行介绍,下文描述的一种监控节点与上文描述的应用于监控节点的一种分布式系统心跳检测方法可以相互参照。
本发明实施例提供的一种监控节点,具体包括:
第二存储器,用于存储计算机程序;
第二处理器,用于执行所述计算机程序时实现如上述实施例所述分布式系统心跳检测方法的步骤。
下面对本发明实施例提供的一种分布式系统心跳检测系统进行介绍。下文描述的一种分布式系统心跳检测系统与上文描述的一种分布式系统心跳检测方法、系统、普通节点、监控节点可以相互参照。
参见图5,本发明实施例提供的一种分布式系统心跳检测系统,具体包括:
位于普通节点的检测模块501,用于间隔预设时间检测是否接收到其他普通节点发送的心跳信息;
位于所述普通节点的发送模块502,用于当所述检测模块间隔预设时间没有接收到任意所述其他普通节点发送的心跳信息时,向监控节点发送相应的普通节点故障的信息;
位于所述监控节点的接收模块503,用于接收由所述发送模块发送的普通节点故障的信息;
位于所述监控节点的确定模块504,用于确定相应的普通节点为离线状态。
作为优选的,监控节点中还可以设置判断模块505,用于判断发送同一普通节点故障的信息的普通节点个数是否达到预设阈值;若是则继续调用所述确定模块。
下面对本发明实施例提供的一种具体的分布式心跳检测系统进行介绍,下文描述的一种具体的分布式心跳检测系统与上文描述的一种分布式系统心跳检测方法、系统、普通节点、监控节点可以相互参照。
参见图6,分布式存储系统中有监控节点A和普通节点B到J,其中普通节点B到D为一个子集,E到G为一个子集,H到J为一个子集。
每个子集中的普通节点定义有心跳交互,并且监控节点A如果收到超过一个节点的汇报信息,则认为此信息为真。例如,整个集群运行过程中,C突然故障,B连续n秒没有收到C发送过来的信条信息,则上报A。此时A并不认为此次汇报的内容即B故障的信息为真,并继续按照原有的方式工作。在预设时间内,D也没有收到C发送过来的心跳信息,D也向A汇报此信息,此时A收到的回报信息有2个,则按照规则,判定C故障,此时A调整整个集群的状态信息,然后再运行。
由此可见,心跳信息只在子集内的普通节点间定时发送,并不会造成分布式集群内的网络风暴,影响整个集群性能,也不会对监控节点造成过大压力影响集群的扩展性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种分布式系统心跳检测方法,其特征在于,包括:
第一普通节点间隔预设时间检测是否接收到第二普通节点发送的心跳信息;
若否,则所述第一普通节点向监控节点发送所述第二普通节点故障的信息,以使所述监控节点确定所述第二普通节点离线。
2.根据权利要求1所述的方法,其特征在于,所述第一普通节点为分布式系统中预设子集中除所述第二普通节点以外的任意普通节点;所述第二普通节点为所述预设子集中除所述第一普通节点以外的任意普通节点。
3.一种分布式系统心跳检测系统,其特征在于,设置于第一普通节点,包括:
检测模块,用于间隔预设时间检测是否接收到第二普通节点发送的心跳信息;
发送模块,用于当所述检测模块间隔预设时间没有接收到所述第二普通节点发送的心跳信息时,向监控节点发送所述第二普通节点故障的信息,以使所述监控节点确定所述第二普通节点离线。
4.一种普通节点,其特征在于,包括:
第一存储器,用于存储计算机程序;
第一处理器,用于执行所述计算机程序时实现如权利要求1或2所述分布式系统心跳检测方法的步骤。
5.一种分布式系统心跳检测方法,其特征在于,包括:
监控节点接收由第一普通节点发送的第二普通节点故障的信息;所述第二普通节点故障的信息为所述第一普通节点间隔预设时间检测没有接收到第二普通节点发送的心跳信息时,向所述监控节点发送的信息;
所述监控节点确定所述第二普通节点为离线状态。
6.根据权利要求5所述的方法,其特征在于,所述确定所述第二普通节点为离线状态之前,还包括:
判断发送同一个所述第二普通节点故障的信息的第一普通节点个数是否达到预设阈值;
若是,则确定该第二普通节点为离线状态。
7.一种分布系统心跳检测系统,其特征在于,设置于监控节点,包括:
接收模块,用于接收由第一普通节点发送的第二普通节点故障的信息;所述第二普通节点故障的信息为所述第一普通节点间隔预设时间检测没有接收到第二普通节点发送的心跳信息时,向所述监控节点发送的信息;
确定模块,用于确定所述第二普通节点为离线状态。
8.一种监控节点,其特征在于,包括:
第二存储器,用于存储计算机程序;
第二处理器,用于执行所述计算机程序时实现如权利要求5或6所述分布式系统心跳检测方法的步骤。
9.一种分布式系统心跳检测系统,其特征在于,包括:
位于普通节点的检测模块,用于间隔预设时间检测是否接收到其他普通节点发送的心跳信息;
位于所述普通节点的发送模块,用于当所述检测模块间隔预设时间没有接收到任意所述其他普通节点发送的心跳信息时,向监控节点发送相应的普通节点故障的信息;
位于所述监控节点的接收模块,用于接收由所述发送模块发送的普通节点故障的信息;
位于所述监控节点的确定模块,用于确定相应的普通节点为离线状态。
10.根据权利要求9所述的系统,其特征在于,还包括:
位于所述监控节点的判断模块,用于判断发送同一普通节点故障的信息的普通节点个数是否达到预设阈值;若是则继续调用所述确定模块。
CN201810034982.4A 2018-01-15 2018-01-15 一种分布式系统心跳检测方法及相关装置 Pending CN108092857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810034982.4A CN108092857A (zh) 2018-01-15 2018-01-15 一种分布式系统心跳检测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810034982.4A CN108092857A (zh) 2018-01-15 2018-01-15 一种分布式系统心跳检测方法及相关装置

Publications (1)

Publication Number Publication Date
CN108092857A true CN108092857A (zh) 2018-05-29

Family

ID=62182104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810034982.4A Pending CN108092857A (zh) 2018-01-15 2018-01-15 一种分布式系统心跳检测方法及相关装置

Country Status (1)

Country Link
CN (1) CN108092857A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995254A (zh) * 2019-12-13 2021-06-18 北京金山云网络技术有限公司 传输心跳信息的方法、设备、系统、装置及组件
CN112988463A (zh) * 2021-02-23 2021-06-18 新华三大数据技术有限公司 一种故障节点隔离方法及装置
CN113010337A (zh) * 2021-01-21 2021-06-22 腾讯科技(深圳)有限公司 故障检测方法、总控节点、工作节点及分布式系统
CN114666252A (zh) * 2022-05-25 2022-06-24 苏州英特模汽车科技有限公司 台架测试系统及方法
CN114697243A (zh) * 2020-12-25 2022-07-01 中移动信息技术有限公司 节点心跳处理方法、装置、系统及计算机存储介质
CN114815745A (zh) * 2021-01-28 2022-07-29 西门子股份公司 工业监控设备的灾备方法、装置及工业监控系统
CN118433078A (zh) * 2024-04-19 2024-08-02 新华三技术有限公司 一种心跳交互方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102412988A (zh) * 2011-11-14 2012-04-11 浪潮(北京)电子信息产业有限公司 一种业务信息系统及其实现持续运营的方法
CN103117901A (zh) * 2013-02-01 2013-05-22 华为技术有限公司 一种分布式心跳检测方法、装置及系统
CN103699606A (zh) * 2013-12-16 2014-04-02 华中科技大学 一种基于顶点切割与社区聚集的大规模图划分方法
CN104639347A (zh) * 2013-11-07 2015-05-20 北大方正集团有限公司 一种多集群监控方法、装置及系统
CN106170782A (zh) * 2013-04-26 2016-11-30 华为技术有限公司 用于在网络中的机器的大规模并行处理集群中创建高度可扩展的高可用性集群的系统和方法
CN106301853A (zh) * 2015-06-05 2017-01-04 华为技术有限公司 集群系统中节点的故障检测方法和装置
CN106656682A (zh) * 2017-02-27 2017-05-10 网宿科技股份有限公司 集群心跳检测方法、系统及装置
CN107018041A (zh) * 2017-03-31 2017-08-04 杭州数梦工场科技有限公司 集群中数据迁移方法和装置
CN107426003A (zh) * 2017-05-02 2017-12-01 华为技术有限公司 一种故障检测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102412988A (zh) * 2011-11-14 2012-04-11 浪潮(北京)电子信息产业有限公司 一种业务信息系统及其实现持续运营的方法
CN103117901A (zh) * 2013-02-01 2013-05-22 华为技术有限公司 一种分布式心跳检测方法、装置及系统
CN106170782A (zh) * 2013-04-26 2016-11-30 华为技术有限公司 用于在网络中的机器的大规模并行处理集群中创建高度可扩展的高可用性集群的系统和方法
CN104639347A (zh) * 2013-11-07 2015-05-20 北大方正集团有限公司 一种多集群监控方法、装置及系统
CN103699606A (zh) * 2013-12-16 2014-04-02 华中科技大学 一种基于顶点切割与社区聚集的大规模图划分方法
CN106301853A (zh) * 2015-06-05 2017-01-04 华为技术有限公司 集群系统中节点的故障检测方法和装置
CN106656682A (zh) * 2017-02-27 2017-05-10 网宿科技股份有限公司 集群心跳检测方法、系统及装置
CN107018041A (zh) * 2017-03-31 2017-08-04 杭州数梦工场科技有限公司 集群中数据迁移方法和装置
CN107426003A (zh) * 2017-05-02 2017-12-01 华为技术有限公司 一种故障检测方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995254A (zh) * 2019-12-13 2021-06-18 北京金山云网络技术有限公司 传输心跳信息的方法、设备、系统、装置及组件
CN112995254B (zh) * 2019-12-13 2022-07-19 北京金山云网络技术有限公司 传输心跳信息的方法、设备、系统、装置及组件
CN114697243A (zh) * 2020-12-25 2022-07-01 中移动信息技术有限公司 节点心跳处理方法、装置、系统及计算机存储介质
CN113010337A (zh) * 2021-01-21 2021-06-22 腾讯科技(深圳)有限公司 故障检测方法、总控节点、工作节点及分布式系统
CN114815745A (zh) * 2021-01-28 2022-07-29 西门子股份公司 工业监控设备的灾备方法、装置及工业监控系统
CN112988463A (zh) * 2021-02-23 2021-06-18 新华三大数据技术有限公司 一种故障节点隔离方法及装置
CN112988463B (zh) * 2021-02-23 2022-08-30 新华三大数据技术有限公司 一种故障节点隔离方法及装置
CN114666252A (zh) * 2022-05-25 2022-06-24 苏州英特模汽车科技有限公司 台架测试系统及方法
CN118433078A (zh) * 2024-04-19 2024-08-02 新华三技术有限公司 一种心跳交互方法及装置

Similar Documents

Publication Publication Date Title
CN108092857A (zh) 一种分布式系统心跳检测方法及相关装置
EP3627767B1 (en) Fault processing method and device for nodes in cluster
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
CN105991325B (zh) 处理至少一个分布式集群中的故障的方法、设备和系统
CN106533805B (zh) 一种微服务请求处理方法、微服务控制器及微服务架构
CN103560898B (zh) 一种端口状态设置方法、端口优先级的选择方法及装置
CN107360239A (zh) 一种客户端连接状态检测方法及系统
CN102970167B (zh) 集群系统中网络节点的故障检测方法、网络节点和系统
CN103580902A (zh) 一种计算机信息系统及其动态容灾方法
CN106603261B (zh) 热备份方法、第一主用设备、备用设备和通信系统
CN107508694B (zh) 一种集群内的节点管理方法及节点设备
CN113726556B (zh) 边缘物联代理节点运维方法、系统、存储介质及计算设备
CN108173911A (zh) 一种微服务故障检测处理方法及装置
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN111142801B (zh) 分布式存储系统网络亚健康检测方法及装置
CN106656604A (zh) 微服务请求管理方法、微服务控制器及高并发微服务架构
CN101826984A (zh) 日志信息处理方法及装置
CN101989933A (zh) 一种故障检测的方法和系统
CN104065526A (zh) 一种服务器故障报警的方法和装置
CN109194521B (zh) 一种流量转发方法及设备
CN101237314A (zh) 一种保障复制业务传输的方法及接入设备
CN110740064A (zh) 分布式集群节点故障处理方法、装置、设备及存储介质
CN111314443A (zh) 基于分布式存储系统的节点处理方法、装置和设备及介质
CN104883279A (zh) 心跳报文处理方法、设备和系统
CN105847092A (zh) 一种web网站即时监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529

RJ01 Rejection of invention patent application after publication