[go: up one dir, main page]

CN110188008B - 作业调度主备切换方法、装置、计算机设备及存储介质 - Google Patents

作业调度主备切换方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110188008B
CN110188008B CN201910372318.5A CN201910372318A CN110188008B CN 110188008 B CN110188008 B CN 110188008B CN 201910372318 A CN201910372318 A CN 201910372318A CN 110188008 B CN110188008 B CN 110188008B
Authority
CN
China
Prior art keywords
preset
information
scheduling
job
standby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910372318.5A
Other languages
English (en)
Other versions
CN110188008A (zh
Inventor
周广洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910372318.5A priority Critical patent/CN110188008B/zh
Publication of CN110188008A publication Critical patent/CN110188008A/zh
Application granted granted Critical
Publication of CN110188008B publication Critical patent/CN110188008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种作业调度主备切换方法、装置、计算机设备及存储介质,所述方法包括:以预设时间间隔,获取预设守护进程的属性信息,并对属性信息进行安全性检查;若安全性检查的结果为异常,则获取预设备机的设备状态;若预设备机的设备状态为备用状态,则将预设主备切换指令发送到预设备机;暂停工作进程,并保存主机中的调度信息和作业流信息;若接收到预设备机返回的确认消息,则将调度信息和作业流信息发送到预设备机,以使预设备机继续执行作业调度任务;结束工作进程,并将本端的设备状态设置为备用状态。本发明的技术方案解决了作业调度主备系统切换过程中,切换效率低,影响作业调度任务正常执行的问题。

Description

作业调度主备切换方法、装置、计算机设备及存储介质
技术领域
本发明涉及信息处理领域,尤其涉及作业调度主备切换方法、装置、计算机设备及存储介质。
背景技术
在现代化的企业信息管理中,事务性的作业调度系统起着重要作用。例如,Tws系统是一种流行的公共调度系统。其中,Tws,即Tivoli Workload Scheduler,企业作业调度软件,是一款国际商业机器公司提供的商业软件。
然而,在实际应用中,由于机器硬件故障、系统宕机、系统关键进程缺失等不可预知的原因,而导致作业不能正常调度,使得运维人员需要在主备机之间进行切换,以确保作业调度系统正常运行。
在传统切换的方法中,通常采用人工或半人工的方式,对该调度系统的主机器与备用机器进行切换,即通过运维人员手动输入切换指令,或通过执行预设脚本的方式进行,其RTO(Recovery Time Object,恢复时间目标)时间相对较长,从而对作业调度造成影响。在电商、物流、金融交易等对调度时效要求严格的领域,传统方式已逐渐不能满足时效要求。
因此,寻找一种高效、低成本的调度系统切换方法成为本领域技术人员亟需解决的问题。
发明内容
本发明实施例提供一种作业调度主备切换方法、装置、计算机设备及存储介质,以解决作业调度主备系统切换过程中,切换效率低,影响作业调度任务正常执行的问题。
一种作业调度主备切换方法,包括:
以预设时间间隔,获取预设守护进程的属性信息,并对所述属性信息进行安全性检查,得到安全性检查结果;
若所述安全性检查结果为异常,则获取预设备机的设备状态;
若所述预设备机的设备状态为备用状态,则将预设主备切换指令发送到所述预设备机;
暂停工作进程,并从所述工作进程中获取调度信息和作业流信息,其中,所述调度信息和所述作业流信息用于执行作业调度任务;
保存所述调度信息和所述作业流信息;
若接收到所述预设备机返回的确认消息,则将所述调度信息和所述作业流信息发送到所述预设备机,以使所述预设备机继续执行所述作业调度任务;
结束所述工作进程,并将本端的所述设备状态设置为所述备用状态。
一种作业调度主备切换装置,包括:
检测模块,用于以预设时间间隔,获取预设守护进程的属性信息,并对所述属性信息进行安全性检查,得到安全性检查结果;
切换预备模块,用于若所述安全性检查结果为异常,则获取预设备机的设备状态;
指令发送模块,用于若所述预设备机的设备状态为备用状态,则将预设主备切换指令发送到所述预设备机;
信息获取模块,用于暂停工作进程,并从所述工作进程中获取调度信息和作业流信息,其中,所述调度信息和所述作业流信息用于执行作业调度任务;
信息保存模块,用于保存所述调度信息和所述作业流信息;
信息发送模块,用于若接收到所述预设备机返回的确认消息,则将所述调度信息和所述作业流信息发送到所述预设备机,以使所述预设备机继续执行所述作业调度任务;
切换完成模块,用于结束所述工作进程,并将本端的所述设备状态设置为所述备用状态。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述作业调度主备切换方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述作业调度主备切换方法。
上述作业调度主备切换方法、装置、计算机设备及存储介质,以预设时间间隔,获取预设守护进程的属性信息,并对属性信息进行安全性检查,即,以进程级的粒度,对主机运行状态进行实时监控,使得能够及时发现主机异常,并作出响应;与基于应用层的检测主机异常的方式相比,进程级的检查可以提前预测到主机异常,并尽早进入主备切换,从而最大限度的避免主备切换对作业调度造成的影响;在检测到主机异常之后,暂停主机中的工作进程,保存主机中的调度信息和作业流信息,并在接收到预设备机返回的确认消息后,将调度信息和作业流信息发送到预设备机,并结束工作进程,将主机设备状态设为备用状态,即,对主机正在进行中的,以及待处理的调度信息和作业流信息进行保存,并发送到预设备机,以用于预设备机继续执行作业调度任务,使得主备机之间能无缝对接,不影响作业调度任务的执行,提高主备切换效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中作业调度主备切换方法的一应用环境示意图;
图2是本发明一实施例中作业调度主备切换方法的流程图;
图3是本发明一实施例中将作业流信息发送到预设备机的流程图;
图4是本发明一实施例中作业调度主备切换方法中步骤S1的流程图;
图5是本发明一实施例中作业调度主备切换方法中步骤S4的流程图;
图6是本发明一实施例中作业调度主备切换装置的示意图;
图7是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的作业调度主备切换方法,可应用在如图1的应用环境中,其中,主机是为用户提供作业调度服务的服务器;预设备机是主机的备用服务器,为用户提供同样的作业调度服务;主机与预设备机在数量上可以是一对一或一对多的关系;主机与预设备机之间通过网络连接,网络可以是有线网络或无线网络。本发明实施例提供的作业调度主备切换方法应用于主机。
在一实施例中,如图2所示,提供了一种作业调度主备切换方法,其具体实现流程包括如下步骤:
S1:以预设时间间隔,获取预设守护进程的属性信息,并对属性信息进行安全性检查,得到安全性检查结果。
预设守护进程,是主机为用户提供作业调度服务时包括的进程。其中,作业调度服务是指以作业为单位,对用户数据进行提交、上传、复制、备份、恢复、打印等一系列数据操作;用户通常是指多用户,即多用户同时向主机请求数据服务,主机为之产生相应的作业调度服务。可以理解地,作业调度服务是根据每个作业对系统软硬件资源的需求、每个作业的执行时长等因素,将主机需要处理的作业组织成一个数据结构,使得作业之间形成依赖关系,然后按序执行的过程。
在进程层面,作业调度服务可以分解为若干在后台运行的进程协同处理用户数据,以保证作业调度能顺利执行。
预设守护进程的属性信息,具体是指进程信息表中的相关信息,包括但不限于进程的标识、所占的存储空间、运行状态、睡眠状态、死锁状态等。其中,进程信息表是系统内核在运行过程中,为进程分配的数据链表,以存储进程相关的信息。
对属性进行安全性检查,是指按照主机正常运行时的标准值,对各属性的属性值进行一致性检查,从而确保预设守护进程处于正常工作状态。例如,主机在为用户进行作业调度时,各预设守护进程不能出现死锁状态或僵尸状态等。
以预设时间间隔,即根据实际应用的需要,每隔一定时间获取预设守护进程的属性信息,并进行安全性检查。其中,预设时间间隔的单位可以是毫秒或秒。
具体地,在主机启动作业调度的同时,由主机建立新的进程,并将该进程作为跟踪者(tracker)进程,同时,为跟踪者进程设置定时器任务。其中,定时器任务包括以一定时间间隔,获取预设守护进程的属性信息,并将属性信息与属性信息的预设正常值进行比较,从而得到安全性检查结果。即,主机建立的进程与预设守护进程之间进行进程间通信(IPC,InterProcess Communication),进程间通信的具体方式包括管道、消息队列、信号量、共享存储等,此处不做限制。
S2:若安全性检查结果为异常,则获取预设备机的设备状态。
安全性检查结果为异常,即代表主机为用户提供的作业调度服务处于不稳定状态中。安全性检查结果为异常的情形,包括但不限于进程死锁、预设守护进程缺失、主机重启后作业调度服务不能正常启动或恢复等。
预设备机,是同样为用户提供作业调度服务的服务器。
设备状态,代表了预设备机是否处于就绪状态,并继续为用户提供作业调度服务。设备状态主要包括备用状态、就绪状态和未就绪状态。其中,备用状态是指预设备机处于待机中,等待进行主备切换;就绪状态,是指预设备机可以进行主备切换;未就绪状态是指预设备机未准备完毕,尚不能进行主备切换。
具体地,主机与预设备机之间可以通过socket(套接字)进行通信,即,若安全性检查结果为异常,则主机可以向预设备机发起socket通信,获取预设备机的设备状态;在预设备机端,socket服务程序将响应主机的通信请求,向主机返回预设备机的设备状态。
S3:若预设备机的设备状态为备用状态,则将预设主备切换指令发送到预设备机。
备用状态,可以是主机与预设备机之间预先约定的特定字符串,例如,“Standby”等。
预设主备切换指令,是用于启用预设备机,进行主备切换的信息码。预设主备切换指令可以是主机与预设备机之间预先约定的特定字符串,例如,“Action”等。
具体地,当预设备机的设备状态为备用状态,主机可以向预设备机发起socket通信,将预设主备切换指令发送到预设备机。
与之相对应的,在预设备机端,当预设备机在接收到预设主备切换指令后,将对自身进行初始化操作,以达到就绪状态。其中,初始化操作,是指启动作业调度服务、启用预设守护进程等。
S4:暂停工作进程,并从工作进程中获取调度信息和作业流信息,其中,调度信息和作业流信息用于执行作业调度任务。
工作进程,是主机系统内存中与作业调度相关的进程。
在作业调度过程中,主机以作业调度任务为单位进行执行;作业调度任务主要包括调度信息和作业流信息两部分。
其中,调度信息,是作业调度过程中,主机对作业流执行顺序的排序队列。调度信息包括但不限于,当前作业调度任务被执行之前和/或之后作业调度任务的id(identification,身份标识信息),当前作业调度任务的子任务id以及子任务的执行顺序等。
作业流信息,是主要是用户数据。例如,用户从数据库中读取或存入的数据,不同系统之间交换的数据等。
具体地,在主机端,可以调用系统函数kill()对工作进程进行暂停,并通过跟踪者进程与工作进程之间的IPC通信,从工作进程所对应的进程信息表中获取调度信息和作业流信息。
S5:保存调度信息和作业流信息。
具体地,可以将调度信息和作业流信息保存到主机存储器内。其中,主机存储器包括内存中的临时缓存区、磁盘存储空间等。
S6:若接收到预设备机返回的确认消息,则将调度信息和作业流信息发送到预设备机,以使预设备机继续执行作业调度任务。
预设备机返回的确认消息,即预设备机达到就绪状态时,预设备机向主机发送的可以开始主备切换的信息码。与预设主备切换指令相类似,确认消息可以是主机与预设备机之间预先约定的特定字符串,例如,“Ready”等。
具体地,当主机接收到预设备机返回的确认消息,则可以将调度信息和作业流信息以socket通信的方式,发送到预设备机。与之相对应的,在预设备机端,预设备机将根据调度信息和作业流信息建立工作进程,从而实现继续执行作业调度任务的目的。
S7:结束工作进程,并将本端的设备状态设置为备用状态。
具体地,主机可以调用kill()函数直接杀死工作进程,释放主机的内存空间,同时,将本端的设备状态设置为备用状态。可以理解地,此时,主机与预设备机的角色进行了互换,从而完成作业调度的主备切换。
在本实施例中,以预设时间间隔,获取预设守护进程的属性信息,并对属性信息进行安全性检查,即,以进程级的粒度,对主机运行状态进行实时监控,使得能够及时发现主机异常,并作出响应;与基于应用层的检测主机异常的方式相比,进程级的检查可以提前预测到主机异常,并尽早进入主备切换,从而最大限度的避免主备切换对作业调度造成的影响;在检测到主机异常之后,暂停主机中的工作进程,保存主机中的调度信息和作业流信息,并在接收到预设备机返回的确认消息后,将调度信息和作业流信息发送到预设备机,并结束工作进程,将主机设备状态设为备用状态,即,对主机正在进行中的,以及待处理的调度信息和作业流信息进行保存,并发送到预设备机,以用于预设备机继续执行作业调度任务,使得主备机之间能无缝对接,不影响作业调度任务的执行,提高主备切换效率。
进一步地,在一实施例中,如图3所示,实现了将作业流信息发送到预设备机的另一实施例,具体地,针对步骤S5,即保存调度信息和作业流信息,包括如步骤:
S51:检测调度信息和作业流信息占用的空间大小。
具体地,主机可以先将调度信息和作业流信息以文件的形式保存到磁盘存储空间文件,例如,通过dump()函数对调度信息和作业流信息进行保存;然后通过df()函数获取文件所占空间大小,即代表了调度信息和作业流信息占用的空间大小。
S52:若调度信息和作业流信息占用的空间大小超过预设阈值,则保存作业流信息。
预设阈值,用于判断调度信息和作业流信息占用的空间大小是否达到影响预设备机响应速度的地步。
即,主机需要先将调度信息和作业流信息保存后,再发送到预设备机;若调度信息和作业流信息占用的空间大小超过预设阈值,则主机需要花费较长时间进行保存,从而使得在预设备机返回的确认消息到达后,仍不能立即进行主备切换,进而影响主备切换的速度。
同时,由于在主备切换过程中,若应用层的数据处理失败后,会触发回退机制,使得预设备机按照预设作业处理流程重启作业调度服务,即可以重新生成调度信息;因此,若调度信息和作业流信息占用的空间大小超过预设阈值,则只保存作业流信息,舍去调度信息,有利于节省主机存储空间,加快将作业流信息发送到预设备机的过程。
其中,预设作业处理流程,是由应用层定义,由作业调度服务负责执行的业务逻辑。
具体地,预设阈值可以是MB(兆字节)或GB(千兆字节)为单位,例如,若预设阈值为1GB,调度信息和作业流信息占用的空间大小为1.5GB,则该空间大小超过预设阈值,主机端只保存作业流信息信息,其具体实现过程与步骤S5相同,此处不再赘述。
并且,在步骤S51至步骤S2实现的保存作业流信息的基础上,针对步骤S6,即若接收到预设备机返回的确认消息,则将调度信息和作业流信息发送到预设备机,包括如下步骤:
S61:若接收到预设备机返回的确认消息,则将作业流信息发送到预设备机。
具体地,当接收到预设备机返回的确认消息,只将作业流信息发送到预设备机,其发送的具体实现过程与步骤S6相同,此处不再赘述。
在本实施例中,根据调度信息和作业流信息占用的空间大小与预设阈值之间的大小关系,确定是否需要将调度信息发送到预设备机;若调度信息和作业流信息占用的空间大小超过预设阈值,则只保存和发送作业流信息,可以节省主机的存储空间,减少主备之间需要传输的数据量,加快数据传输过程,从而让预设备机更快进入工作状态,完成主备切换过程。
进一步地,在一实施例中,如图4所示,属性信息包括进程数量和进程标识信息,进程数量为当前正常运行的预设守护进程的数量,每个预设守护进程分别对应一个进程标识信息,进程标识信息用于唯一标识其对应的预设守护进程。针对步骤S1,即对所述属性信息进行安全性检查,得到安全性检查结果,具体包括如下步骤:
S11:将进程数量与预设数量进行一致性比较,并且将进程标识信息与预设标识信息进行一致性比较。
预设数量,即主机中作业调度正常运行的情况下,预设守护进程的总数量。
预设标识信息,是主机中作业调度正常运行的情况下,每个预设守护进程的标识信息,其具体可以是预设守护进行的进程名。
在一具体实施例中,预设守护进程可以包括7个进程,分别是netman(主控进程),JOBMananger(动态作业控制进程),writer(主域通信进程),mailman(内部通信进程),batchman(执行计划相关进程),jobman(作业相关),monman(监控相关)。
具体地,主机端可以通过top()函数获取当前内存中运行的预设守护进程的进程数量和每个进程的进程标识信息,然后根据预设数量和预设标识信息进行筛选。
S12:若进程数量与预设数量相等,并且进程标识信息与预设标识信息一致,则安全性检查结果为正常。
具体地,若当前正在运行的预设守护进程的进程数量与预设数量相等,并且预设守护进程的进程标识信息与预设标识信息一一对应,则所得安全性检查结果为正常。
S13:若进程数量与预设数量不相等,或者存在至少一个进程标识信息与预设标识信息不一致,则安全性检查结果为异常。
具体地,若当前正在运行的预设守护进程的进程数量与预设数量不相等,或者预设守护进程的进程标识信息有任意一个或多个与预设标识信息不对应,则所得安全性检查结果为异常。
在本实施例中,根据预设守护进程的预设数量和预设标识信息对主机内存中的进程进行筛选,得到安全性检查结果,可以更加简便、快捷的获取预设守护进程的运行状态。
进一步地,在一实施例中,如图5所示,针对步骤S4,即暂停工作进程,并从工作进程中获取调度信息和作业流信息,具体包括如下步骤:
S41:获取工作进程中的作业标识信息。
作业标识信息,是用于唯一标识一个以作业为单位的数据结构。可以理解地,一个复杂的作业可能需要多个进程协同工作完成。
例如,比如“jc01”标识netman(主控进程),“jc02”标识JOBMananger(动态作业控制进程),“jc03”标识writer(主域通信进程),“jc04”标识mailman(内部通信进程),“jc05”标识batchman(执行计划相关进程),“jc06”标识jobman(作业相关)和“jc07”标识monman(监控相关)。可以理解地,针对多用户的数据提交、复制、备份等操作,可以由若干进程共同完成,并且,每个进程的进程信息表中包括作业标识信息。
具体地,可以通过进程信息表中的特定字段获取工作进程中的作业标识信息。
S42:从预设作业调度任务配置文件中,获取与作业标识信息相对应的调度信息和作业流信息。
预设作业调度任务配置文件,用以记载作业标识信息与调度信息和作业流信息的对应关系,即,一个作业标识信息对应一条调度信息和一条作业流信息。
具体地,预设作业调度任务配置文件可以以文本文件的形式,包括但不限于XML格式、JSON格式等。其中,XML(Extensible Markup Language,可扩展标记语言),是一种用于标记电子文件使其具有结构性的标记语言;JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。JSON文件是以ASCII编码方式存储的,不依赖于操作系统,能被计算机程序快速的读取或生成,是一种流行的数据交换格式。
预设作业调度任务配置文件,具体可以部署在主机本端,或其他与本机相连的预设数据库中,此处不做限制。
具体地,主机端读取预设作业调度任务配置文件,并根据作业标识信息查询得到与之相对应的调度信息和作业流信息。
在本实施例中,相对于从工作进程中获取调度信息和作业流信息,主机端通过从预设作业调度任务配置文件中获取,可以减少IPC通信,进而节省IPC通信的成本,提高系统处理效率。
进一步地,在一实施例中,在步骤S6之后,并且在步骤S7之前,即在若接收到预设备机返回的确认消息,则将调度信息和作业流信息发送到预设备机之后,并且在结束工作进程,并将本端的设备状态设置为备用状态之前,具体还包括步骤:
S8:删除调度信息和作业流信息。
具体地,将调度信息和作业流信息从本机端删除,以释放存储空间。
在本实施例中,由于已经将调度信息和作业流信息发送到预设备机,即已完成主备切换最关键的步骤,此时,预设备机可以接替主机继续执行作业调度任务,删除调度信息和作业流信息可以释放主机端的存储空间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种作业调度主备切换装置,该作业调度主备切换装置与上述实施例中作业调度主备切换方法一一对应。如图6所示,该作业调度主备切换装置包括检测模块61、切换预备模块62、指令发送模块63、信息获取模块64、信息保存模块65、信息发送模块66和切换完成模块67。各功能模块详细说明如下:
检测模块61,用于以预设时间间隔,获取预设守护进程的属性信息,并对属性信息进行安全性检查,得到安全性检查结果;
切换预备模块62,用于若安全性检查结果为异常,则获取预设备机的设备状态;
指令发送模块63,用于若预设备机的设备状态为备用状态,则将预设主备切换指令发送到预设备机;
信息获取模块64,用于暂停工作进程,并从工作进程中获取调度信息和作业流信息,其中,调度信息和作业流信息用于执行作业调度任务;
信息保存模块65,用于保存调度信息和作业流信息;
信息发送模块66,用于若接收到预设备机返回的确认消息,则将调度信息和作业流信息发送到预设备机,以使预设备机继续执行作业调度任务;
切换完成模块67,用于结束工作进程,并将本端的设备状态设置为备用状态。
进一步地,信息保存模块65,包括:
空间检测子模块651,用于检测调度信息和作业流信息占用的空间大小;
信息保存子模块652,用于若调度信息和作业流信息占用的空间大小超过预设阈值,则保存作业流信息;
并且,信息发送模块66,包括:
信息发送子模块661,用于若接收到预设备机返回的确认消息,则将作业流信息发送到预设备机。
进一步地,检测模块61,包括
进程数量比较子模块611,用于将进程数量与预设数量进行一致性比较,并且将进程标识信息与预设标识信息进行一致性比较;
进行标识信息比较子模块612,用于若进程数量与预设数量相等,并且进程标识信息与预设标识信息一致,则安全性检查结果为正常;
检测结果确认模块613,用于若进程数量与预设数量不相等,或者存在至少一个进程标识信息与预设标识信息不一致,则安全性检查结果为异常.
进一步地,信息获取模块64,包括:
作业标识信息获取子模块641,用于获取工作进程中的作业标识信息;
信息读取子模块642,用于从预设作业调度任务配置文件中,获取与作业标识信息相对应的调度信息和作业流信息。
进一步地,作业调度主备切换装置,还包括:
信息删除模块68,用于删除调度信息和作业流信息。
关于作业调度主备切换装置的具体限定可以参见上文中对于作业调度主备切换方法的限定,在此不再赘述。上述作业调度主备切换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种作业调度主备切换方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中作业调度主备切换方法的步骤,例如图2所示的步骤S1至步骤S7。或者,处理器执行计算机程序时实现上述实施例中作业调度主备切换装置的各模块/单元的功能,例如图6所示模块61至模块67的功能。为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中作业调度主备切换方法,或者,该计算机程序被处理器执行时实现上述装置实施例中作业调度主备切换装置中各模块/单元的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种作业调度主备切换方法,其特征在于,所述作业调度主备切换方法包括:
以预设时间间隔,获取预设守护进程的属性信息,并对所述属性信息进行安全性检查,得到安全性检查结果;
若所述安全性检查结果为异常,则获取预设备机的设备状态;
若所述预设备机的设备状态为备用状态,则将预设主备切换指令发送到所述预设备机;
暂停工作进程,并从所述工作进程中获取调度信息和作业流信息,其中,所述调度信息和所述作业流信息用于执行作业调度任务;
检测所述调度信息和所述作业流信息占用的空间大小;
若所述调度信息和所述作业流信息占用的空间大小超过预设阈值,则保存所述作业流信息;若接收到所述预设备机返回的确认消息,则将所述作业流信息发送到所述预设备机,以使所述预设备机继续执行所述作业调度任务;
若所述调度信息和所述作业流信息占用的空间大小不超过预设阈值,则保存所述调度信息和所述作业流信息;若接收到所述预设备机返回的确认消息,则将所述调度信息和所述作业流信息发送到所述预设备机,以使所述预设备机继续执行所述作业调度任务;
结束所述工作进程,并将本端的所述设备状态设置为所述备用状态。
2.如权利要求1所述的作业调度主备切换方法,其特征在于,所述属性信息包括进程数量和进程标识信息,所述对所述属性信息进行安全性检查,得到安全性检查结果,包括:
将所述进程数量与预设数量进行一致性比较,并且将所述进程标识信息与预设标识信息进行一致性比较;
若所述进程数量与预设数量相等,并且所述进程标识信息与所述预设标识信息一致,则所述安全性检查结果为正常;
若所述进程数量与预设数量不相等,或者存在至少一个所述进程标识信息与所述预设标识信息不一致,则所述安全性检查结果为异常。
3.如权利要求1所述的作业调度主备切换方法,其特征在于,所述从所述工作进程中获取调度信息和作业流信息,包括:
获取所述工作进程中的作业标识信息;
从预设作业调度任务配置文件中,获取与所述作业标识信息相对应的所述调度信息和所述作业流信息。
4.如权利要求1所述的作业调度主备切换方法,其特征在于,在所述若接收到所述预设备机返回的确认消息,则将所述调度信息和所述作业流信息发送到所述预设备机,以使所述预设备机继续执行所述作业调度任务之后,并且在所述结束所述工作进程,并将本端的所述设备状态设置为所述备用状态之前,所述作业调度主备切换方法,还包括:
删除所述调度信息和所述作业流信息。
5.一种作业调度主备切换装置,其特征在于,所述作业调度主备切换装置,包括:
检测模块,用于以预设时间间隔,获取预设守护进程的属性信息,并对所述属性信息进行安全性检查,得到安全性检查结果;
切换预备模块,用于若所述安全性检查结果为异常,则获取预设备机的设备状态;
指令发送模块,用于若所述预设备机的设备状态为备用状态,则将预设主备切换指令发送到所述预设备机;
信息获取模块,用于暂停工作进程,并从所述工作进程中获取调度信息和作业流信息,其中,所述调度信息和所述作业流信息用于执行作业调度任务;
空间检测模块,用于检测所述调度信息和所述作业流信息占用的空间大小;
第一信息保存和发送模块,用于若所述调度信息和所述作业流信息占用的空间大小超过预设阈值,则保存所述作业流信息;若接收到所述预设备机返回的确认消息,则将所述作业流信息发送到所述预设备机,以使所述预设备机继续执行所述作业调度任务;
第二信息保存和发送模块,用于若所述调度信息和所述作业流信息占用的空间大小不超过预设阈值,则保存所述调度信息和所述作业流信息;若接收到所述预设备机返回的确认消息,则将所述调度信息和所述作业流信息发送到所述预设备机,以使所述预设备机继续执行所述作业调度任务;
切换完成模块,用于结束所述工作进程,并将本端的所述设备状态设置为所述备用状态。
6.如权利要求5所述的作业调度主备切换装置,其特征在于,所述检测模块,包括:
进程数量比较子模块,用于将所述进程数量与预设数量进行一致性比较,并且将进程标识信息与预设标识信息进行一致性比较;
进行标识信息比较子模块,用于若所述进程数量与预设数量相等,并且所述进程标识信息与所述预设标识信息一致,则所述安全性检查结果为正常;
检测结果确认模块,用于若所述进程数量与预设数量不相等,或者存在至少一个所述进程标识信息与所述预设标识信息不一致,则所述安全性检查结果为异常。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述作业调度主备切换方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述作业调度主备切换方法。
CN201910372318.5A 2019-05-06 2019-05-06 作业调度主备切换方法、装置、计算机设备及存储介质 Active CN110188008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910372318.5A CN110188008B (zh) 2019-05-06 2019-05-06 作业调度主备切换方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910372318.5A CN110188008B (zh) 2019-05-06 2019-05-06 作业调度主备切换方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110188008A CN110188008A (zh) 2019-08-30
CN110188008B true CN110188008B (zh) 2022-10-21

Family

ID=67715687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910372318.5A Active CN110188008B (zh) 2019-05-06 2019-05-06 作业调度主备切换方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110188008B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035262B (zh) * 2020-09-22 2024-07-26 中国建设银行股份有限公司 多主机动态管理调整的方法和装置
CN113986265B (zh) * 2021-10-26 2025-05-27 中国工商银行股份有限公司 一种主机版本安装方法和装置
CN116225652A (zh) * 2023-02-28 2023-06-06 中国农业银行股份有限公司 一种任务执行方的切换方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136900A (zh) * 2006-10-16 2008-03-05 中兴通讯股份有限公司 一种面向服务的快速透明故障转移装置及实现方法
JP2009098715A (ja) * 2007-10-12 2009-05-07 Nec Corp 冗長システム装置並びに冗長システム装置におけるジョブの実行方法及び実行プログラム
CN104270462A (zh) * 2014-10-21 2015-01-07 浪潮电子信息产业股份有限公司 一种windows渲染集群作业调度的高可用方法
CN106874090A (zh) * 2017-01-23 2017-06-20 北京思特奇信息技术股份有限公司 基于云系统的作业调度方法和系统
CN109491843A (zh) * 2018-11-13 2019-03-19 郑州云海信息技术有限公司 一种应用的故障监测方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866395B (zh) * 2014-02-24 2017-11-21 中国移动通信集团福建有限公司 数据备份方法及系统、主备切换方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136900A (zh) * 2006-10-16 2008-03-05 中兴通讯股份有限公司 一种面向服务的快速透明故障转移装置及实现方法
JP2009098715A (ja) * 2007-10-12 2009-05-07 Nec Corp 冗長システム装置並びに冗長システム装置におけるジョブの実行方法及び実行プログラム
CN104270462A (zh) * 2014-10-21 2015-01-07 浪潮电子信息产业股份有限公司 一种windows渲染集群作业调度的高可用方法
CN106874090A (zh) * 2017-01-23 2017-06-20 北京思特奇信息技术股份有限公司 基于云系统的作业调度方法和系统
CN109491843A (zh) * 2018-11-13 2019-03-19 郑州云海信息技术有限公司 一种应用的故障监测方法和装置

Also Published As

Publication number Publication date
CN110188008A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
US10152382B2 (en) Method and system for monitoring virtual machine cluster
CN109739482B (zh) 一种基于动态语言的业务逻辑执行系统及方法
CN107016480B (zh) 任务调度方法、装置及系统
CN113422692A (zh) 一种K8s集群内节点故障检测及处理方法、装置及存储介质
US10635473B2 (en) Setting support program, setting support method, and setting support device
CN106789141B (zh) 一种网关设备故障处理方法及装置
CN104915263A (zh) 基于容器技术的进程故障处理方法及装置
CN111258591B (zh) 程序部署任务执行方法、装置、计算机设备和存储介质
CN113157569B (zh) 自动化测试方法、装置、计算机设备和存储介质
CN110188008B (zh) 作业调度主备切换方法、装置、计算机设备及存储介质
CN107729213B (zh) 一种后台任务监控方法及装置
CN113157426B (zh) 一种任务调度方法、系统、设备及存储介质
CN111400104A (zh) 数据同步方法及装置、电子设备、存储介质
CN110109741B (zh) 循环任务的管理方法、装置、电子设备及存储介质
CN111309456B (zh) 一种任务执行方法及系统
CN106250254A (zh) 一种任务处理方法及系统
CN113157411B (zh) 一种基于Celery的可靠可配置任务系统及装置
CN112445549A (zh) 运维方法、运维装置、电子设备和介质
CN115499493B (zh) 异步事务处理方法、装置、存储介质及计算机设备
TWI740886B (zh) 日誌收集客戶端及其升級方法
CN112214323B (zh) 一种资源回收方法、装置及计算机可读存储介质
CN120704926A (zh) 多智能体协同系统中的故障回退方法、装置、设备及介质
CN119415230A (zh) 一种面向大数据开发的任务调度方法及系统
WO2024139011A1 (zh) 信息处理方法
CN114791900A (zh) 基于Operator的Redis运维方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant