[go: up one dir, main page]

CN104102475A - 分布式并行任务处理的方法、装置及系统 - Google Patents

分布式并行任务处理的方法、装置及系统 Download PDF

Info

Publication number
CN104102475A
CN104102475A CN201310125254.1A CN201310125254A CN104102475A CN 104102475 A CN104102475 A CN 104102475A CN 201310125254 A CN201310125254 A CN 201310125254A CN 104102475 A CN104102475 A CN 104102475A
Authority
CN
China
Prior art keywords
data
processing
node
fragmentation
fragmentations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310125254.1A
Other languages
English (en)
Other versions
CN104102475B (zh
Inventor
廖龙
秦晓强
答治茜
罗建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310125254.1A priority Critical patent/CN104102475B/zh
Publication of CN104102475A publication Critical patent/CN104102475A/zh
Application granted granted Critical
Publication of CN104102475B publication Critical patent/CN104102475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种分布式并行任务处理的方法、装置及系统,涉及计算机技术领域,解决了现有技术中的分布式并行任务处理系统的复杂度较高,分布式并行任务处理的速度较慢的问题。所述方法包括:接收待处理的数据;将所述待处理的数据切分为多个数据分片;将所述多个数据分片分别分配给多个处理节点进行处理;接收各个处理节点处理后的子结果数据;将所述子结果数据进行合并,形成结果数据。本发明适用于大数据量的数据的并行处理。

Description

分布式并行任务处理的方法、装置及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种分布式并行任务处理的方法、装置及系统。
背景技术
当前,随着计算机技术的发展,计算机等设备需要处理的数据的数量也越来越大。目前,可以通过多台计算机等设备进行数据量较大的数据的并行处理。一般情况下,在进行数据量较大的数据的快速处理时,需要应用到分布式并行任务处理系统。分布式并行任务处理系统是一种将不同地点的、具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,通过统一管理控制下,协调地完成信息处理任务的计算机系统。
当前的分布式并行任务处理系统一般具有控制节点和多个处理节点,控制节点接收待处理数据,并将待处理数据首先进行分组、排序操作,之后再将分组、排序后的待处理数据分给多个处理节点进行处理。在现有技术的分布式并行任务处理中,均需要对待处理数据进行分组、排序操作,增加了整个分布式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。
发明内容
本发明的实施例提供一种分布式并行任务处理的方法、装置及系统,能够解决现有技术中的分布式并行任务处理系统的复杂度较高,分布式并行任务处理的速度较慢的问题。
第一方面,本发明实施例提供一种分布式并行任务处理的方法,包括:
接收待处理的数据;
将所述待处理的数据切分为多个数据分片;
将所述多个数据分片分别分配给多个处理节点进行处理;
接收各个处理节点处理后的子结果数据;
将所述子结果数据进行合并,形成结果数据。
第二方面,本发明实施例提供一种分布式并行任务处理的方法,包括:
接收控制节点发送的数据分片;其中,所述数据分片是所述控制节点切分待处理的数据而得,所述待处理的数据未被分组和排序;
将所述数据分片中的数据进行处理,形成子结果数据;
将所述子结果数据发送给所述控制节点。
第三方面,本发明实施例提供一种控制节点,包括:
接收单元,用于接收待处理的数据;
切分单元,用于将所述接收单元接收的所述待处理的数据切分为多个数据分片;
分配单元,用于将所述多个数据分片分别分配给多个处理节点进行处理;
所述接收单元,还用于接收各个处理节点处理后的子结果数据;
合并单元,用于将所述接收单元接收的所述子结果数据进行合并,形成结果数据。
第四方面,本发明实施例提供一种处理节点,包括:
接收单元,用于接收控制节点发送的数据分片;其中,所述数据分片是所述控制节点切分待处理的数据而得,所述待处理的数据未被分组和排序;
处理单元,用于将接收单元接收的所述数据分片中的数据进行处理,形成子结果数据;
发送单元,用于将所述处理单元形成的子结果数据发送给所述控制节点。
第五方面,本发明实施例提供一种分布式并行任务处理的系统,包括控制节点和多个处理节点,其中,
所述控制节点,用于接收待处理的数据,将所述待处理的数据切分为多个数据分片,将所述多个数据分片分别分配给多个处理节点进行处理;
所述处理节点,用于接收所述控制节点发送的数据分片,将所述数据分片中的数据进行处理,形成子结果数据,并将所述子结果数据发送给所述控制节点;
所述控制节点,还用于接收各个处理节点处理后的子结果数据,将所述子结果数据进行合并,形成结果数据。
本发明提供的分布式并行任务处理的方法、装置及系统,控制节点接收待处理的数据,将所述待处理的数据切分为多个数据分片,将所述多个数据分片分别分配给多个处理节点进行处理,并接收各个处理节点处理后的子结果数据,将所述子结果数据进行合并,形成结果数据。而在现有技术中,控制节点在接收到待处理的数据,需要先对待处理的数据进行分组和排序,在一些不需要数据分组排序的场景下,现有技术的方式增加了整个分布式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的方式无需对待处理的数据进行分组和排序,能够降低整个分布式并行任务处理系统的复杂度,可以提升分布式并行任务处理的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的分布式并行任务处理的方法的流程图一;
图2为本发明实施例提供的分布式并行任务处理的方法的流程图二;
图3为本发明又一实施例提供的分布式并行任务处理的方法的流程图;
图4为本发明实施例提供的控制节点的结构示意图一;
图5为本发明实施例提供的控制节点的结构示意图二;
图6为本发明实施例提供的处理节点的结构示意图;
图7为本发明实施例提供的分布式并行任务处理的系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
如图1所示,本发明实施例提供的分布式并行任务处理的方法,从控制节点侧进行阐述,所述方法包括:
101、接收待处理的数据。
在分布式并行任务中,所述待处理的数据的数据量一般较大,数据量的大小一般在1万亿字节(Terabyte,简称TB)以上,但不仅局限于此。
102、将所述待处理的数据切分为多个数据分片。
其中,所述待处理的数据可以按照所述处理节点的数量进行切分为数据分片,所述数据分片的数量与所述处理节点的数量相同,且各个数据分片存储的数据的大小可以相同,但不仅局限于此。
103、将所述多个数据分片分别分配给多个处理节点进行处理。
将所述多个数据分片分别分配给多个处理节点进行处理可以是按照各个处理节点的负载信息来分配,在每次分配时将多个数据分片中的一个数据分片分配给负载最低的处理节点;另外,还可以将所述多个数据分片中的一个数据分片随机分配给一个未获取到数据分片的处理节点,但不仅局限于此,将所述多个数据分片分别分配给多个处理节点进行处理还可以有其他多种方式,此处不再一一列举。
104、接收各个处理节点处理后的子结果数据。
其中,所述子结果数据是所述处理节点处理后形成的,所述处理节点可以对其获取到的数据分片进行逐行读取并处理,每行的数据之间独立无关,使得在处理节点上进行的运算逻辑能够在多行数据上同时执行。
105、将所述子结果数据进行合并,形成结果数据。
其中,所述控制节点可以将各个处理节点返回的子结果数据进行合并,形成结果数据。所述结果数据可以存储数据库等,以供后续的数据分析应用。
本发明实施例提供的分布式并行任务处理的方法,控制节点接收待处理的数据,将所述待处理的数据切分为多个数据分片,将所述多个数据分片分别分配给多个处理节点进行处理,并接收各个处理节点处理后的子结果数据,将所述子结果数据进行合并,形成结果数据。而在现有技术中,控制节点在接收到待处理的数据,需要先对待处理的数据进行分组和排序,在一些不需要数据分组排序的场景下,现有技术的方式增加了整个分布式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的方式无需对待处理的数据进行分组和排序,能够降低整个分布式并行任务处理系统的复杂度,提升了分布式并行任务处理的速度。
与控制节点对应的另一侧为处理节点侧,如图2所示,本发明实施例提供的分布式并行任务处理的方法,从处理节点侧进行阐述,包括:
201、接收控制节点发送的数据分片。
所述数据分片的来源是控制节点接收到的待处理的数据。所述待处理的数据未经过控制节点的分组和排序,直接被所述控制节点进行切分而形成了所述数据分片。
202、将所述数据分片中的数据进行处理,形成子结果数据。
所述处理节点可以对其获取到的数据分片进行逐行读取并处理,每行的数据之间独立无关,使得在处理节点上进行的运算逻辑能够在多行数据上同时执行。
203、将所述子结果数据发送给所述控制节点。
上述步骤203的目的是在各个处理节点处理数据分片后的子结果数据均到达控制节点后,由所述控制节点进行合并,形成结果数据。
本发明实施例提供的分布式并行任务处理的方法,处理节点接收数据分片,其中,所述数据分片是所述控制节点切分待处理的数据而得,所述待处理的数据未被分组和排序,所述处理节点对数据分片进行处理形成子结果数据,再将子结果数据发送给所述控制节点。而在现有技术中,控制节点在接收到待处理的数据,需要先对待处理的数据进行分组和排序,在一些不需要数据分组排序的场景下,现有技术的方式增加了整个分布式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的方式无需对待处理的数据进行分组和排序,能够降低整个分布式并行任务处理系统的复杂度,可以提升分布式并行任务处理的速度。
下面针对图1或图2所示的方法进行详细说明及进一步扩展:
如图3所示,本发明又一实施例提供的分布式并行任务处理的方法,包括:
301、控制节点接收待处理的数据。
在分布式并行任务中,所述待处理的数据的数据量一般较大,数据量的大小一般在1万亿字节(Terabyte,简称TB)以上,但不仅局限于此。例如,所述待处理的数据可以是某应用程序在一天内的登陆信息,所述登陆信息中包括该应用程序下的账户的上线时间,下线时间等,但不仅局限于此。
302、所述控制节点根据所述处理节点的数量,将所述待处理的数据切分为多个数据分片。在步骤302之后,可以执行步骤303或者步骤304。
其中,所述待处理的数据可以按照所述处理节点的数量进行切分为数据分片,所述数据分片的数量与所述处理节点的数量相同,且各个数据分片存储的数据的大小可以相同,但不仅局限于此。
303、控制节点将所述多个数据分片中的一个数据分片随机分配给一个未获取到数据分片的处理节点,直到多个数据分片分配完毕。之后,继续执行步骤308。
为了保证每个处理节点的负载不会过大,需要对所述数据分片进行合理分配,具体可以对数据分片进行随机分配,并在处理节点已经接受到数据分片后,将不会再次接受到该待处理数据的数据分片。
304、处理节点将其自身的负载信息发送给控制节点。之后执行步骤305-306。
同样的,为了能够合理分配所述数据分片,还可以根据各个处理节点的负载的大小来进行分配。所述负载信息中即携带有处理节点处的负载。
305、控制节点根据接收到的各个处理节点的负载信息,根据所述负载信息确定负载最低的处理节点。
具体的,在所述控制节点获取到各个处理节点的负载信息后,由于所述负载信息中携带有处理节点的负载,因此能够获知到负载最低的处理节点。
306、控制节点将所述多个数据分片中的一个数据分片分配给所述负载最低的处理节点。继续执行步骤307。
这样,在多个数据分片中的每个数据分片进行分配时,均能够分配给负载最低的处理节点,使得数据分片的分配较为均衡,保证了处理节点的负载均衡。
307、控制节点判断所述多个数据分片是否分配完毕。若所述数据分片分配完毕,执行步骤308,否则返回执行步骤304。
308、处理节点对所述数据分片中的多行数据进行逐行处理,形成子结果数据。
所述处理节点可以对其获取到的数据分片进行逐行读取并处理,每行的数据之间独立无关,使得在处理节点上进行的运算逻辑能够在多行数据上同时执行。
以上述的待处理的数据是某应用程序在一天内的登陆信息为例,若需要筛选出某一时刻的在线账户,则所述登陆信息可以被所述控制节点切分为数据分片,由各个处理节点继续处理,根据登陆信息中的各个账户的上线时间和下线时间,筛选出在某一时刻在线的账户。由于多个处理节点同时进行筛选,筛选出某一时刻的在线账户的速度也较快。
309、处理节点将所述子结果数据发送给所述控制节点。
310、控制节点将所述子结果数据进行合并,形成结果数据。
值得说明的是,本发明实施例中的控制节点和处理节点均可以是计算机等具有运算能力的电子设备。
本发明又一实施例提供的分布式并行任务处理的方法,控制节点接收待处理的数据,将所述待处理的数据切分为多个数据分片,并将所述多个数据分片分别分配给多个处理节点进行处理,并接收各个处理节点处理后的子结果数据,并将所述子结果数据进行合并,形成结果数据。而在现有技术中,控制节点在接收到待处理的数据,需要先对待处理的数据进行分组和排序,在一些不需要数据分组排序的场景下,现有技术的方式增加了整个分布式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的方式无需对待处理的数据进行分组和排序,能够降低整个分布式并行任务处理系统的复杂度,可以提升分布式并行任务处理的速度。
参考上述图1及图3所示的方法的实现,如图4所示,本发明实施例提供的控制节点,包括:
接收单元41,用于接收待处理的数据。
切分单元42,用于将所述接收单元41接收的所述待处理的数据切分为多个数据分片。
分配单元43,用于将所述多个数据分片分别分配给多个处理节点进行处理。
所述接收单元41,还用于接收各个处理节点处理后的子结果数据。
合并单元44,用于将所述接收单元41接收的所述子结果数据进行合并,形成结果数据。
具体的,如图5所示,所述切分单元42,用于:
根据所述处理节点的数量,将所述接收单元41接收的所述待处理的数据切分为多个数据分片。
其中,所述数据分片的数量与所述处理节点的数量相同。
进一步的,如图5所示,所述分配单元43,还用于:
将所述切分单元42切分后的所述多个数据分片中的一个数据分片随机分配给一个未获取到数据分片的处理节点。
进一步的,如图5所示,所述控制节点还包括:确定单元45。
所述接收单元41,还用于接收各处理节点的负载信息。
所述确定单元45,用于根据所述接收单元41接收的负载信息,确定负载最低的处理节点。
所述分配单元43,还用于将所述切分单元42切分后的多个数据分片中的一个数据分片分配给所述负载最低的处理节点。
值得说明的是,本发明实施例提供的控制节点的具体实现方式可以参见图3中的分布式并行任务处理的方法的具体实现方式,此处不再赘述。所述控制节点可以是计算机等具有运算能力的电子设备。
本发明实施例提供的控制节点,控制节点接收待处理的数据,将所述待处理的数据切分为多个数据分片,并将所述多个数据分片分别分配给多个处理节点进行处理,并接收各个处理节点处理后的子结果数据,并将所述子结果数据进行合并,形成结果数据。而在现有技术中,控制节点在接收到待处理的数据,需要先对待处理的数据进行分组和排序,在一些不需要数据分组排序的场景下,现有技术的方式增加了整个分布式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的方式无需对待处理的数据进行分组和排序,能够降低整个分布式并行任务处理系统的复杂度,可以提升分布式并行任务处理的速度。
参考上述图2及图3所示的方法的实现,如图6所示,本发明实施例提供的处理节点,包括:
接收单元51,用于接收控制节点发送的数据分片。
其中,所述数据分片是所述控制节点切分待处理的数据而得,所述待处理的数据未被分组和排序。
处理单元52,用于将接收单元51接收的所述数据分片中的数据进行处理,形成子结果数据。
发送单元53,用于将所述处理单元52形成的子结果数据发送给所述控制节点。
值得说明的是,所述数据分片包括多行数据。
如图6所示,所述处理单元52,具体用于:
对所述数据分片中的多行数据进行逐行处理。
具体的,如图6所示,所述发送单元53,还用于:
向所述控制节点发送负载信息。其中,所述负载信息携带有处理节点的负载。
值得说明的是,本发明实施例提供的处理节点的具体实现方式可以参见图3中的分布式并行任务处理的方法的具体实现方式,此处不再赘述。所述处理节点可以是计算机等具有运算能力的电子设备。
本发明实施例提供的处理节点,处理节点接收数据分片,其中,所述数据分片是所述控制节点切分待处理的数据而得,所述待处理的数据未被分组和排序,所述处理节点对数据分片进行处理形成子结果数据,再将子结果数据发送给所述控制节点。而在现有技术中,控制节点在接收到待处理的数据,需要先对待处理的数据进行分组和排序,在一些不需要数据分组排序的场景下,现有技术的方式增加了整个分布式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的方式无需对待处理的数据进行分组和排序,能够降低整个分布式并行任务处理系统的复杂度,可以提升分布式并行任务处理的速度。
如图7所示,本发明实施例提供的分布式并行任务处理的系统,包括控制节点61和多个处理节点62,其中,
所述控制节点61,用于接收待处理的数据,将所述待处理的数据切分为多个数据分片,将所述多个数据分片分别分配给多个处理节点62进行处理;
所述处理节点62,用于接收所述控制节点61发送的数据分片,将所述数据分片中的数据进行处理,形成子结果数据,并将所述子结果数据发送给所述控制节点61;
所述控制节点61,还用于接收各个处理节点62处理后的子结果数据,将所述子结果数据进行合并,形成结果数据。
值得说明的是,本发明实施例提供的分布式并行任务处理的系统的具体实现方式可以参见图3中的分布式并行任务处理的方法的具体实现方式,此处不再赘述。
本发明实施例提供的分布式并行任务处理的系统,控制节点接收待处理的数据,将所述待处理的数据切分为多个数据分片,并将所述多个数据分片分别分配给多个处理节点进行处理,并接收各个处理节点处理后的子结果数据,并将所述子结果数据进行合并,形成结果数据。而在现有技术中,控制节点在接收到待处理的数据,需要先对待处理的数据进行分组和排序,在一些不需要数据分组排序的场景下,现有技术的方式增加了整个分布式并行任务处理系统的复杂度,使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的方式无需对待处理的数据进行分组和排序,能够降低整个分布式并行任务处理系统的复杂度,可以提升分布式并行任务处理的速度。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (17)

1.一种分布式并行任务处理的方法,其特征在于,包括:
接收待处理的数据;
将所述待处理的数据切分为多个数据分片;
将所述多个数据分片分别分配给多个处理节点进行处理;
接收各个处理节点处理后的子结果数据;
将所述子结果数据进行合并,形成结果数据。
2.根据权利要求1所述的分布式并行任务处理的方法,其特征在于,所述将所述待处理的数据切分为多个数据分片的步骤,包括:
根据所述处理节点的数量,将所述待处理的数据切分为多个数据分片;其中,所述数据分片的数量与所述处理节点的数量相同。
3.根据权利要求2所述的分布式并行任务处理的方法,其特征在于,所述将所述多个数据分片分别分配给多个处理节点进行处理的步骤,包括:
将所述多个数据分片中的一个数据分片随机分配给一个未获取到数据分片的处理节点。
4.根据权利要求2所述的分布式并行任务处理的方法,其特征在于,所述将所述多个数据分片分别分配给多个处理节点进行处理的步骤,包括:
接收各处理节点的负载信息;
根据所述负载信息确定负载最低的处理节点;
将所述多个数据分片中的一个数据分片分配给所述负载最低的处理节点。
5.一种分布式并行任务处理的方法,其特征在于,包括:
接收控制节点发送的数据分片;其中,所述数据分片是所述控制节点切分待处理的数据而得,所述待处理的数据未被分组和排序;
将所述数据分片中的数据进行处理,形成子结果数据;
将所述子结果数据发送给所述控制节点。
6.根据权利要求5所述的分布式并行任务处理的方法,其特征在于,所述数据分片包括多行数据。
7.根据权利要求6所述的分布式并行任务处理的方法,其特征在于,所述将所述数据分片中的数据进行处理,形成子结果数据的步骤,包括:
对所述数据分片中的多行数据进行逐行处理。
8.根据权利要求5所述的分布式并行任务处理的方法,其特征在于,所述方法还包括:
向所述控制节点发送自身的负载信息;其中,所述负载信息携带有处理节点的负载。
9.一种控制节点,其特征在于,包括:
接收单元,用于接收待处理的数据;
切分单元,用于将所述接收单元接收的所述待处理的数据切分为多个数据分片;
分配单元,用于将所述多个数据分片分别分配给多个处理节点进行处理;
所述接收单元,还用于接收各个处理节点处理后的子结果数据;
合并单元,用于将所述接收单元接收的所述子结果数据进行合并,形成结果数据。
10.根据权利要求9所述的控制节点,其特征在于,所述切分单元,用于:
根据所述处理节点的数量,将所述接收单元接收的所述待处理的数据切分为多个数据分片;其中,所述数据分片的数量与所述处理节点的数量相同。
11.根据权利要求10所述的控制节点,其特征在于,所述分配单元,还用于:
将所述切分单元切分后的所述多个数据分片中的一个数据分片随机分配给一个未获取到数据分片的处理节点。
12.根据权利要求10所述的控制节点,其特征在于,所述控制节点还包括:确定单元;
所述接收单元,还用于接收各处理节点的负载信息;
所述确定单元,用于根据所述接收单元接收的负载信息,确定负载最低的处理节点;
所述分配单元,还用于将所述切分单元切分后的多个数据分片中的一个数据分片分配给所述负载最低的处理节点。
13.一种处理节点,其特征在于,包括:
接收单元,用于接收控制节点发送的数据分片;其中,所述数据分片是所述控制节点切分待处理的数据而得,所述待处理的数据未被分组和排序;
处理单元,用于将接收单元接收的所述数据分片中的数据进行处理,形成子结果数据;
发送单元,用于将所述处理单元形成的子结果数据发送给所述控制节点。
14.根据权利要求13所述的控制节点,其特征在于,所述数据分片包括多行数据。
15.根据权利要求14所述的控制节点,其特征在于,所述处理单元,用于:
对所述数据分片中的多行数据进行逐行处理。
16.根据权利要求13所述的控制节点,其特征在于,所述发送单元,还用于:
向所述控制节点发送自身的负载信息;其中,所述负载信息携带有处理节点的负载。
17.一种分布式并行任务处理的系统,其特征在于,包括控制节点和多个处理节点,其中,
所述控制节点,用于接收待处理的数据,将所述待处理的数据切分为多个数据分片,将所述多个数据分片分别分配给多个处理节点进行处理;
所述处理节点,用于接收所述控制节点发送的数据分片,将所述数据分片中的数据进行处理,形成子结果数据,并将所述子结果数据发送给所述控制节点;
所述控制节点,还用于接收各个处理节点处理后的子结果数据,将所述子结果数据进行合并,形成结果数据。
CN201310125254.1A 2013-04-11 2013-04-11 分布式并行任务处理的方法、装置及系统 Active CN104102475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310125254.1A CN104102475B (zh) 2013-04-11 2013-04-11 分布式并行任务处理的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310125254.1A CN104102475B (zh) 2013-04-11 2013-04-11 分布式并行任务处理的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN104102475A true CN104102475A (zh) 2014-10-15
CN104102475B CN104102475B (zh) 2018-10-02

Family

ID=51670655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310125254.1A Active CN104102475B (zh) 2013-04-11 2013-04-11 分布式并行任务处理的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN104102475B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104581149A (zh) * 2015-01-27 2015-04-29 北京正奇联讯科技有限公司 视音频文件的技审方法和系统
CN105740063A (zh) * 2014-12-08 2016-07-06 杭州华为数字技术有限公司 一种数据处理方法及装置
CN105740085A (zh) * 2014-12-11 2016-07-06 华为技术有限公司 容错处理方法及装置
CN105892996A (zh) * 2015-12-14 2016-08-24 乐视网信息技术(北京)股份有限公司 一种批量数据处理的流水线作业方法及装置
CN106095832A (zh) * 2016-06-01 2016-11-09 东软集团股份有限公司 分布式并行数据处理方法以及装置
CN106354828A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 一种分布式数据库数据的分片方法及装置
CN106598552A (zh) * 2016-12-22 2017-04-26 郑州云海信息技术有限公司 基于Gridding模块的数据点转换方法及装置
CN106681991A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 用于连续时间信号数据检测的方法和设备
CN106980538A (zh) * 2017-02-16 2017-07-25 平安科技(深圳)有限公司 数据处理的方法及装置
CN107180017A (zh) * 2016-03-11 2017-09-19 阿里巴巴集团控股有限公司 一种样本序列化方法和装置
CN107707592A (zh) * 2017-01-24 2018-02-16 贵州白山云科技有限公司 任务处理方法、节点及内容分发网络
CN107743246A (zh) * 2017-01-24 2018-02-27 贵州白山云科技有限公司 任务处理方法、系统及数据处理系统
CN107888684A (zh) * 2017-11-13 2018-04-06 小草数语(北京)科技有限公司 分布式系统计算任务处理方法、装置及控制器
CN108052646A (zh) * 2017-12-25 2018-05-18 北京车联天下信息技术有限公司 实时计算大数据系统和方法
CN108784685A (zh) * 2018-05-24 2018-11-13 北京维康恒科技有限公司 心电波形数据处理方法及装置
CN109522138A (zh) * 2018-11-14 2019-03-26 北京中电普华信息技术有限公司 一种分布式流数据的处理方法及系统
WO2019140567A1 (zh) * 2018-01-17 2019-07-25 新联智慧信息技术(深圳)有限公司 大数据的分析方法及系统
CN110209496A (zh) * 2019-05-20 2019-09-06 中国平安财产保险股份有限公司 基于数据处理的任务分片方法、装置及分片服务器
CN111143393A (zh) * 2018-11-03 2020-05-12 广州市明领信息科技有限公司 一种大数据的处理系统
CN111522662A (zh) * 2020-04-23 2020-08-11 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN112162839A (zh) * 2020-09-25 2021-01-01 太平金融科技服务(上海)有限公司 任务调度方法、装置、计算机设备和存储介质
CN112162859A (zh) * 2020-09-24 2021-01-01 成都长城开发科技有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN112181289A (zh) * 2014-12-31 2021-01-05 三星电子株式会社 电子系统及其操作方法以及计算机可读介质
CN116302426A (zh) * 2023-03-20 2023-06-23 京东科技控股股份有限公司 任务处理方法、装置、设备及电子介质
CN117076696A (zh) * 2022-05-10 2023-11-17 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021781A (zh) * 2007-03-19 2007-08-22 中国人民解放军国防科学技术大学 灵活分配运算群资源的流处理器扩展方法
US20070213064A1 (en) * 2004-11-26 2007-09-13 Fujitsu Limited Computer system and information processing method
WO2010060283A1 (zh) * 2008-11-28 2010-06-03 上海芯豪微电子有限公司 一种数据处理的方法与装置
CN101819651A (zh) * 2010-04-16 2010-09-01 浙江大学 粒子群算法在多机上并行执行的方法
CN102129394A (zh) * 2010-01-14 2011-07-20 优必达科技有限公司 分布式计算方法及系统
CN102279730A (zh) * 2010-06-10 2011-12-14 阿里巴巴集团控股有限公司 一种并行的数据处理方法、装置和并行的数据处理系统
CN102883145A (zh) * 2012-09-28 2013-01-16 安科智慧城市技术(中国)有限公司 一种动态对象识别方法及系统
CN103034618A (zh) * 2012-03-22 2013-04-10 富士施乐株式会社 图像处理设备
CN103034475A (zh) * 2011-10-08 2013-04-10 中国移动通信集团四川有限公司 分布式并行计算方法、装置及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070213064A1 (en) * 2004-11-26 2007-09-13 Fujitsu Limited Computer system and information processing method
CN101021781A (zh) * 2007-03-19 2007-08-22 中国人民解放军国防科学技术大学 灵活分配运算群资源的流处理器扩展方法
WO2010060283A1 (zh) * 2008-11-28 2010-06-03 上海芯豪微电子有限公司 一种数据处理的方法与装置
CN102129394A (zh) * 2010-01-14 2011-07-20 优必达科技有限公司 分布式计算方法及系统
CN101819651A (zh) * 2010-04-16 2010-09-01 浙江大学 粒子群算法在多机上并行执行的方法
CN102279730A (zh) * 2010-06-10 2011-12-14 阿里巴巴集团控股有限公司 一种并行的数据处理方法、装置和并行的数据处理系统
CN103034475A (zh) * 2011-10-08 2013-04-10 中国移动通信集团四川有限公司 分布式并行计算方法、装置及系统
CN103034618A (zh) * 2012-03-22 2013-04-10 富士施乐株式会社 图像处理设备
CN102883145A (zh) * 2012-09-28 2013-01-16 安科智慧城市技术(中国)有限公司 一种动态对象识别方法及系统

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740063A (zh) * 2014-12-08 2016-07-06 杭州华为数字技术有限公司 一种数据处理方法及装置
CN105740085A (zh) * 2014-12-11 2016-07-06 华为技术有限公司 容错处理方法及装置
CN105740085B (zh) * 2014-12-11 2019-04-19 华为技术有限公司 容错处理方法及装置
CN112181289A (zh) * 2014-12-31 2021-01-05 三星电子株式会社 电子系统及其操作方法以及计算机可读介质
CN104581149A (zh) * 2015-01-27 2015-04-29 北京正奇联讯科技有限公司 视音频文件的技审方法和系统
CN106681991A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 用于连续时间信号数据检测的方法和设备
CN105892996A (zh) * 2015-12-14 2016-08-24 乐视网信息技术(北京)股份有限公司 一种批量数据处理的流水线作业方法及装置
CN107180017A (zh) * 2016-03-11 2017-09-19 阿里巴巴集团控股有限公司 一种样本序列化方法和装置
CN106095832A (zh) * 2016-06-01 2016-11-09 东软集团股份有限公司 分布式并行数据处理方法以及装置
CN106354828A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 一种分布式数据库数据的分片方法及装置
CN106598552A (zh) * 2016-12-22 2017-04-26 郑州云海信息技术有限公司 基于Gridding模块的数据点转换方法及装置
CN107707592A (zh) * 2017-01-24 2018-02-16 贵州白山云科技有限公司 任务处理方法、节点及内容分发网络
CN107743246A (zh) * 2017-01-24 2018-02-27 贵州白山云科技有限公司 任务处理方法、系统及数据处理系统
CN106980538A (zh) * 2017-02-16 2017-07-25 平安科技(深圳)有限公司 数据处理的方法及装置
CN107888684A (zh) * 2017-11-13 2018-04-06 小草数语(北京)科技有限公司 分布式系统计算任务处理方法、装置及控制器
CN108052646A (zh) * 2017-12-25 2018-05-18 北京车联天下信息技术有限公司 实时计算大数据系统和方法
WO2019140567A1 (zh) * 2018-01-17 2019-07-25 新联智慧信息技术(深圳)有限公司 大数据的分析方法及系统
CN108784685A (zh) * 2018-05-24 2018-11-13 北京维康恒科技有限公司 心电波形数据处理方法及装置
CN111143393A (zh) * 2018-11-03 2020-05-12 广州市明领信息科技有限公司 一种大数据的处理系统
CN109522138A (zh) * 2018-11-14 2019-03-26 北京中电普华信息技术有限公司 一种分布式流数据的处理方法及系统
CN110209496A (zh) * 2019-05-20 2019-09-06 中国平安财产保险股份有限公司 基于数据处理的任务分片方法、装置及分片服务器
CN111522662A (zh) * 2020-04-23 2020-08-11 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN111522662B (zh) * 2020-04-23 2020-11-27 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN112162859A (zh) * 2020-09-24 2021-01-01 成都长城开发科技有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN112162839A (zh) * 2020-09-25 2021-01-01 太平金融科技服务(上海)有限公司 任务调度方法、装置、计算机设备和存储介质
CN117076696A (zh) * 2022-05-10 2023-11-17 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN116302426A (zh) * 2023-03-20 2023-06-23 京东科技控股股份有限公司 任务处理方法、装置、设备及电子介质

Also Published As

Publication number Publication date
CN104102475B (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN104102475A (zh) 分布式并行任务处理的方法、装置及系统
US20110295855A1 (en) Graph-Processing Techniques for a MapReduce Engine
CN103558959B (zh) 一种应用于Android平台的显示窗口的方法和装置
CN104168222A (zh) 一种报文传输方法和设备
CN105740063A (zh) 一种数据处理方法及装置
CN114281521B (zh) 优化深度学习异构资源通信效率方法、系统、设备及介质
CN105005521A (zh) 测试方法及装置
WO2012167378A1 (en) System and method of optimization of in-memory data grid placement
CN104598316B (zh) 一种存储资源分配方法及装置
CN104572182A (zh) 一种流应用的配置方法、节点及流计算系统
CN104503868B (zh) 数据同步方法、装置以及系统
CN103581273B (zh) 一种分布式系统执行业务的方法、装置及系统
WO2015088557A1 (en) Data stream processing based on a boundary parameter
CN103905544A (zh) 一种集群存储系统及集群存储系统中的节点分配方法
CN103326887A (zh) 一种接口管理方法及系统
CN102685266B (zh) 区文件签名方法及系统
CN108563668A (zh) Hybrid页面跳转H5页面的方法、装置及终端设备
CN106447755A (zh) 一种动画渲染系统
CN105487928A (zh) 一种控制方法、装置及Hadoop系统
CN107025131A (zh) 一种任务调度方法及装置
CN106059940A (zh) 一种流量控制方法及装置
CN105095199A (zh) 业务数据处理方法、装置和系统
CN108089910A (zh) 配置虚拟机ip地址的方法和装置
CN104503885A (zh) 一种定时看门装置及系统
CN112631716A (zh) 数据库容器调度方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190730

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

TR01 Transfer of patent right