CN104915259A - 一种应用于分布式采集系统的任务调度方法 - Google Patents
一种应用于分布式采集系统的任务调度方法 Download PDFInfo
- Publication number
- CN104915259A CN104915259A CN201510327473.7A CN201510327473A CN104915259A CN 104915259 A CN104915259 A CN 104915259A CN 201510327473 A CN201510327473 A CN 201510327473A CN 104915259 A CN104915259 A CN 104915259A
- Authority
- CN
- China
- Prior art keywords
- task
- acquisition
- cluster
- tasks
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012544 monitoring process Methods 0.000 claims abstract description 8
- 238000007726 management method Methods 0.000 claims 2
- 238000004321 preservation Methods 0.000 claims 1
- 238000013480 data collection Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Multi Processors (AREA)
Abstract
本发明公开了一种应用于分布式采集系统的任务调度方法,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。该一种应用于分布式采集系统的任务调度方法与现有技术相比,让批量采集任务或者不断变化的采集任务,能够被动态的分配到多个服务区的应用中并行执行。所有的任务能够被不重复,不遗漏的快速处理。
Description
技术领域
本发明涉及大数据技术领域,具体地说是一种实用性强、应用于分布式采集系统的任务调度方法。
背景技术
随者互联网的飞速发展,大数据这个概念越来越受到人们的关注。企业通过采集互联网中的数据,可以从大量数据中找出有价值数据进行分析,并通过分析结果提供决策支持,驱动企业的加速发展。数据的价值越来越受到人们的关注。
但互联网中的信息各种各样,互联网的规模也越来越庞大,传统的采集方式需要在大量服务器中部署采集系统,采集时需要逐个服务器进行管理和配置。各采集系统之间没有关联,也非常容易出现重复采集或者少采集的情况,导致采集的效率不高,维护起来也十分不便。
任务调度管理作为基础架构通常会出现于我们的业务系统中,目的是让各种任务能够按计划有序执行。在数据采集系统中,我们需要对不同网站的多个种类进行采集,采集时需要针对网站地址、采集分类进行大量配置,然后在多个服务器上分别进行采集,这些相对耗时的操作通过任务调度系统来异步并行执行,既能提高任务的执行效率又能保障任务执行的可靠性。基于此,现提供一种可解决上述问题、应用于分布式采集系统的任务调度方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、应用于分布式采集系统的任务调度方法。
一种应用于分布式采集系统的任务调度方法,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。
所述任务调度过程的详细步骤为:
部署服务器集群和控制该集群的控制台,在集群内的每台服务器上均配置采集程序;
在控制台上设置任务调度策略,即确定任务名称、最大线程数、执行任务的所有采集程序服务器地址信息;
通过控制台配置采集任务信息,该信息包括任务名称、任务执行类、任务执行的开始时间和结束时间、数据任务项;
将上述信息配置完成后保存,由控制台系统自动分发任务给集群并执行采集任务,完成采集过程。
所述采集用的集群为ZooKeeper服务器集群,该集群内的服务器实现对各个采集节点的监控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相关信息;采集程序中集成分布试调试管理框架,以实现任务的动态分发调度。
所述分布试调试管理框架是指TbSchedule开源框架,并实现IScheduleTaskDealMulti批量任务接口。
所述IScheduleTaskDealMulti接口实现类的selectTasks,获取要采集的网站及采集类型信息,获取参数由调度器自行分配,该selectTasks参数为采集网站、网站类别的数据集合,集合信息存储在数据库中。
所述采集任务的分配通过调度程序完成,该调度程序自动查询出selectTasks参数,并根据配置信息,对数据ID的哈希值取模,将任务均分,使得系统按任务项将任务均分给采集服务器。
本发明的一种应用于分布式采集系统的任务调度方法,具有以下优点:
该发明的一种应用于分布式采集系统的任务调度方法可以让让一种批量采集任务或者不断变化的采集任务,能够被动态的分配到多个服务区的应用中并行执行。所有的任务能够被不重复,不遗漏的快速处理;可以指定调度的时间区间,灵活性强,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的系统架构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明的提供一种应用于分布式采集系统的任务调度方法,让多个采集任务动态的分配到多台服务器的采集程序中并行执行,所有的任务能够被不重复,不遗漏的快速处理,并且能动态的监控、管理采集任务的执行。
如附图1所示,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。
所述任务调度过程的详细步骤为:
部署服务器集群和控制该集群的控制台,在集群内的每台服务器上均配置采集程序;
在控制台上设置任务调度策略,即确定任务名称、最大线程数、执行任务的所有采集程序服务器地址信息;
通过控制台配置采集任务信息,该信息包括任务名称、任务执行类、任务执行的开始时间和结束时间、数据任务项;
将上述信息配置完成后保存,由控制台系统自动分发任务给集群并执行采集任务,完成采集过程。
所述采集用的集群为ZooKeeper服务器集群,该集群内的服务器实现对各个采集节点的监控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相关信息;采集程序中集成分布试调试管理框架,以实现任务的动态分发调度。
所述分布试调试管理框架是指TbSchedule开源框架,并实现IScheduleTaskDealMulti批量任务接口。
所述IScheduleTaskDealMulti接口实现类的selectTasks,获取要采集的网站及采集类型信息,获取参数由调度器自行分配,该selectTasks参数为采集网站、网站类别的数据集合,集合信息存储在数据库中。
所述采集任务的分配通过调度程序完成,该调度程序会自动查询出集合,并根据配置信息,对数据ID的哈希值取模,将任务均分,比如将一个网站类别数据表的数据ID哈希后按1000取模,即可得到最多1000个任务项,系统可以按任务项将任务均分给指定的采集服务器。
具体实施例:在实际操作中,通过以下步骤实现任务调度过程。
步骤一,本方法依赖于Hadoop ZooKeeper组件,首先要配好ZooKeeper集群,以便实现任务的分布式配置及各服务间的交互通信。
步骤二,在各ZooKeeper服务器上部署采集程序。
步骤三,部署TbSchedule的TbScheduleConsole程序,这个是对调度任务配置、部署、监控的终端。
步骤四,在TbScheduleConsole控制台中配置ZooKeeper服务器的连接。
步骤四,在任务管理页面配置调度策略,填写任务名称、最大线程数、执行任务的所有采集程序服务器地址等信息(多个服务器以逗号分隔)。
步骤五,配置任务,配置信息包含任务名称、任务执行类、任务执行的开始结束时间、数据任务项等信息,其中任务名称要和策略中的任务名称对应;任务执行类和采集程序中配置的执行类对应;开始结束时间为Crontab格式,见下表:
数据任务项对应采集资源的分组信息,控制台调度器将数据任务项均分给各采集服务器。
步骤六,将以上设置配置完并保存后,系统自动分发执行采集任务,可以在管理页面看到各服务器节点的任务执行情况。
在上述技术方案中,相类似的采集任务可以统一维护,根据网站、资源类型等参数信息通过调度程序自动分类,并分发给各个采集服务器进行自动采集;少数特殊任务也可以进行单个维护配置,从而对所有任务进行统一管理。避免了在多个采集服务器中进行大量而重复的配置维护工作。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种应用于分布式采集系统的任务调度方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (6)
1.一种应用于分布式采集系统的任务调度方法,其特征在于,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。
2.根据权利要求1所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述任务调度过程的详细步骤为:
部署服务器集群和控制该集群的控制台,在集群内的每台服务器上均配置采集程序;
在控制台上设置任务调度策略,即确定任务名称、最大线程数、执行任务的所有采集程序服务器地址信息;
通过控制台配置采集任务信息,该信息包括任务名称、任务执行类、任务执行的开始时间和结束时间、数据任务项;
将上述信息配置完成后保存,由控制台系统自动分发任务给集群并执行采集任务,完成采集过程。
3.根据权利要求2所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述采集用的集群为ZooKeeper服务器集群,该集群内的服务器实现对各个采集节点的监控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相关信息;采集程序中集成分布试调试管理框架,以实现任务的动态分发调度。
4.根据权利要求3所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述分布试调试管理框架是指TbSchedule开源框架,并实现IScheduleTaskDealMulti批量任务接口。
5.根据权利要求4所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述IScheduleTaskDealMulti接口实现类的selectTasks,获取要采集的网站及采集类型信息,获取参数由调度器自行分配,该selectTasks参数为采集网站、网站类别的数据集合,集合信息存储在数据库中。
6.根据权利要求5所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述采集任务的分配通过调度程序完成,该调度程序自动查询出selectTasks参数,并根据配置信息,对数据ID的哈希值取模,将任务均分,使得系统按任务项将任务均分给采集服务器。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510327473.7A CN104915259A (zh) | 2015-06-15 | 2015-06-15 | 一种应用于分布式采集系统的任务调度方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510327473.7A CN104915259A (zh) | 2015-06-15 | 2015-06-15 | 一种应用于分布式采集系统的任务调度方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN104915259A true CN104915259A (zh) | 2015-09-16 |
Family
ID=54084340
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510327473.7A Pending CN104915259A (zh) | 2015-06-15 | 2015-06-15 | 一种应用于分布式采集系统的任务调度方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN104915259A (zh) |
Cited By (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105338086A (zh) * | 2015-11-04 | 2016-02-17 | 浪潮软件股份有限公司 | 一种分布式的消息转发方法 |
| CN105373428A (zh) * | 2015-12-09 | 2016-03-02 | 北京奇虎科技有限公司 | 一种任务调度方法和系统 |
| CN105446812A (zh) * | 2016-01-04 | 2016-03-30 | 中国南方电网有限责任公司 | 一种多任务调度配置方法 |
| CN105631006A (zh) * | 2015-12-28 | 2016-06-01 | 杭州东方通信软件技术有限公司 | 一种数据调度采集装置与方法 |
| CN105791166A (zh) * | 2016-04-14 | 2016-07-20 | 北京思特奇信息技术股份有限公司 | 一种负载均衡分配的方法及系统 |
| CN106095483A (zh) * | 2016-05-31 | 2016-11-09 | 乐视控股(北京)有限公司 | 服务的自动化部署方法及装置 |
| CN106599116A (zh) * | 2016-11-30 | 2017-04-26 | 中国南方电网有限责任公司 | 云平台数据集成管理系统和方法 |
| CN107205040A (zh) * | 2017-06-29 | 2017-09-26 | 麦格创科技(深圳)有限公司 | 网络信息采集方法及系统 |
| CN107222564A (zh) * | 2017-07-04 | 2017-09-29 | 贵州数据宝网络科技有限公司 | 数据采集方法及装置 |
| CN107871009A (zh) * | 2017-11-17 | 2018-04-03 | 山东浪潮云服务信息科技有限公司 | 一种采集目录元数据的方法及装置 |
| CN108132837A (zh) * | 2018-01-02 | 2018-06-08 | 中国工商银行股份有限公司 | 一种分布式集群调度系统及方法 |
| CN108241528A (zh) * | 2017-01-19 | 2018-07-03 | 上海直真君智科技有限公司 | 一种用户自定义海量网络安全数据动态采集方法 |
| CN108268549A (zh) * | 2016-12-31 | 2018-07-10 | 中国移动通信集团湖北有限公司 | 数据稽核系统和方法 |
| CN108647093A (zh) * | 2018-05-09 | 2018-10-12 | 厦门南讯软件科技有限公司 | 一种分布式任务处理系统及其使用方法 |
| CN110209475A (zh) * | 2019-05-07 | 2019-09-06 | 北京明略软件系统有限公司 | 数据采集方法及装置 |
| CN110246006A (zh) * | 2019-05-26 | 2019-09-17 | 必成汇(成都)科技有限公司 | 分布式环境动态分配撮合任务量的方法 |
| CN110750341A (zh) * | 2018-07-24 | 2020-02-04 | 深圳市优必选科技有限公司 | 任务调度方法、装置、系统、终端设备及存储介质 |
| CN111984505A (zh) * | 2020-08-21 | 2020-11-24 | 豪越科技有限公司 | 一种运维数据采集引擎及采集方法 |
| CN115543737A (zh) * | 2022-09-23 | 2022-12-30 | 国电南瑞科技股份有限公司 | 一种电力自动化系统历史数据分布式采样方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102739775A (zh) * | 2012-05-29 | 2012-10-17 | 宁波东冠科技有限公司 | 物联网数据采集服务器集群的监控和管理方法 |
| CN103605764A (zh) * | 2013-11-26 | 2014-02-26 | Tcl集团股份有限公司 | 一种网络爬虫系统及网络爬虫多任务执行和调度方法 |
| CN104036025A (zh) * | 2014-06-27 | 2014-09-10 | 蓝盾信息安全技术有限公司 | 一种基于分布式的海量日志采集系统 |
| CN104065741A (zh) * | 2014-07-04 | 2014-09-24 | 用友软件股份有限公司 | 数据采集系统和数据采集方法 |
-
2015
- 2015-06-15 CN CN201510327473.7A patent/CN104915259A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102739775A (zh) * | 2012-05-29 | 2012-10-17 | 宁波东冠科技有限公司 | 物联网数据采集服务器集群的监控和管理方法 |
| CN103605764A (zh) * | 2013-11-26 | 2014-02-26 | Tcl集团股份有限公司 | 一种网络爬虫系统及网络爬虫多任务执行和调度方法 |
| CN104036025A (zh) * | 2014-06-27 | 2014-09-10 | 蓝盾信息安全技术有限公司 | 一种基于分布式的海量日志采集系统 |
| CN104065741A (zh) * | 2014-07-04 | 2014-09-24 | 用友软件股份有限公司 | 数据采集系统和数据采集方法 |
Non-Patent Citations (1)
| Title |
|---|
| LAZY TEST: "《TBschedule入门》", 《互联网资源HTTP://BLOG.CSDN.NET/KAKA1121/ARTICLE/DETAILS/45060247》 * |
Cited By (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105338086A (zh) * | 2015-11-04 | 2016-02-17 | 浪潮软件股份有限公司 | 一种分布式的消息转发方法 |
| CN105338086B (zh) * | 2015-11-04 | 2019-06-25 | 浪潮软件股份有限公司 | 一种分布式的消息转发方法 |
| CN105373428A (zh) * | 2015-12-09 | 2016-03-02 | 北京奇虎科技有限公司 | 一种任务调度方法和系统 |
| CN105631006A (zh) * | 2015-12-28 | 2016-06-01 | 杭州东方通信软件技术有限公司 | 一种数据调度采集装置与方法 |
| CN105631006B (zh) * | 2015-12-28 | 2019-03-29 | 杭州东方通信软件技术有限公司 | 一种数据调度采集装置与方法 |
| CN105446812A (zh) * | 2016-01-04 | 2016-03-30 | 中国南方电网有限责任公司 | 一种多任务调度配置方法 |
| CN105791166A (zh) * | 2016-04-14 | 2016-07-20 | 北京思特奇信息技术股份有限公司 | 一种负载均衡分配的方法及系统 |
| CN106095483A (zh) * | 2016-05-31 | 2016-11-09 | 乐视控股(北京)有限公司 | 服务的自动化部署方法及装置 |
| CN106599116A (zh) * | 2016-11-30 | 2017-04-26 | 中国南方电网有限责任公司 | 云平台数据集成管理系统和方法 |
| CN108268549A (zh) * | 2016-12-31 | 2018-07-10 | 中国移动通信集团湖北有限公司 | 数据稽核系统和方法 |
| CN108241528B (zh) * | 2017-01-19 | 2020-10-09 | 上海直真君智科技有限公司 | 一种用户自定义海量网络安全数据动态采集方法 |
| CN108241528A (zh) * | 2017-01-19 | 2018-07-03 | 上海直真君智科技有限公司 | 一种用户自定义海量网络安全数据动态采集方法 |
| CN107205040A (zh) * | 2017-06-29 | 2017-09-26 | 麦格创科技(深圳)有限公司 | 网络信息采集方法及系统 |
| CN107222564A (zh) * | 2017-07-04 | 2017-09-29 | 贵州数据宝网络科技有限公司 | 数据采集方法及装置 |
| CN107871009A (zh) * | 2017-11-17 | 2018-04-03 | 山东浪潮云服务信息科技有限公司 | 一种采集目录元数据的方法及装置 |
| CN108132837A (zh) * | 2018-01-02 | 2018-06-08 | 中国工商银行股份有限公司 | 一种分布式集群调度系统及方法 |
| CN108132837B (zh) * | 2018-01-02 | 2022-04-15 | 中国工商银行股份有限公司 | 一种分布式集群调度系统及方法 |
| CN108647093A (zh) * | 2018-05-09 | 2018-10-12 | 厦门南讯软件科技有限公司 | 一种分布式任务处理系统及其使用方法 |
| CN110750341A (zh) * | 2018-07-24 | 2020-02-04 | 深圳市优必选科技有限公司 | 任务调度方法、装置、系统、终端设备及存储介质 |
| CN110209475A (zh) * | 2019-05-07 | 2019-09-06 | 北京明略软件系统有限公司 | 数据采集方法及装置 |
| CN110246006A (zh) * | 2019-05-26 | 2019-09-17 | 必成汇(成都)科技有限公司 | 分布式环境动态分配撮合任务量的方法 |
| CN111984505A (zh) * | 2020-08-21 | 2020-11-24 | 豪越科技有限公司 | 一种运维数据采集引擎及采集方法 |
| CN111984505B (zh) * | 2020-08-21 | 2023-06-16 | 豪越科技有限公司 | 一种运维数据采集装置及采集方法 |
| CN115543737A (zh) * | 2022-09-23 | 2022-12-30 | 国电南瑞科技股份有限公司 | 一种电力自动化系统历史数据分布式采样方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN104915259A (zh) | 一种应用于分布式采集系统的任务调度方法 | |
| EP3180695B1 (en) | Systems and methods for auto-scaling a big data system | |
| CN104391918B (zh) | 基于对等部署的分布式数据库查询优先级管理的实现方法 | |
| US9563474B2 (en) | Methods for managing threads within an application and devices thereof | |
| CN105183564B (zh) | 基于云测试平台的设备调度方法、装置及系统 | |
| CN103369054B (zh) | 一种采集任务管理方法及系统 | |
| CN104243617B (zh) | 一种异构集群中面向混合负载的任务调度方法及系统 | |
| CN104866378A (zh) | 一种协调执行任务的系统及方法 | |
| CN110868435B (zh) | 一种裸金属服务器调度方法、装置及存储介质 | |
| CN104253850A (zh) | 一种任务分布式调度方法和系统 | |
| CN106209482A (zh) | 一种数据中心监控方法及系统 | |
| CN103491024B (zh) | 一种面向流式数据的作业调度方法及装置 | |
| CN103944769A (zh) | 基于rpc协议的集群资源统一管理系统 | |
| CN107562541B (zh) | 一种负载均衡分布式的爬虫方法、爬虫系统 | |
| CN106033373A (zh) | 一种云计算平台中虚拟机资源调度方法和调度系统 | |
| CN106874189A (zh) | 一种电网实时数据库系统的自动化测试系统的实现方法 | |
| WO2016061935A1 (zh) | 一种资源调度方法、装置及计算机存储介质 | |
| CN108509256B (zh) | 调度运行设备的方法、设备和运行设备 | |
| CN109450694B (zh) | 基于自主可控软硬件的多节点异构运维管理方法及系统 | |
| CN109800081A (zh) | 一种大数据任务的管理方法及相关设备 | |
| CN105404549B (zh) | 基于yarn架构的虚拟机调度系统 | |
| CN105791166A (zh) | 一种负载均衡分配的方法及系统 | |
| CN115048771A (zh) | 批量仿真方法、装置及系统 | |
| CN106293911A (zh) | 分布式调度系统、方法 | |
| CN104714875A (zh) | 一种分布式的自动化采集的方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150916 |
|
| WD01 | Invention patent application deemed withdrawn after publication |