[go: up one dir, main page]

CN107301094A - 面向大规模动态事务查询的动态自适应数据模型 - Google Patents

面向大规模动态事务查询的动态自适应数据模型 Download PDF

Info

Publication number
CN107301094A
CN107301094A CN201710325734.0A CN201710325734A CN107301094A CN 107301094 A CN107301094 A CN 107301094A CN 201710325734 A CN201710325734 A CN 201710325734A CN 107301094 A CN107301094 A CN 107301094A
Authority
CN
China
Prior art keywords
data
processing
dynamic
workload
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710325734.0A
Other languages
English (en)
Inventor
郭蒙雨
康宏
袁晓洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN201710325734.0A priority Critical patent/CN107301094A/zh
Publication of CN107301094A publication Critical patent/CN107301094A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1443Transmit or communication errors
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及面向大规模动态事务查询时的动态自适应数据模型构建方法,包括以下步骤:从console、RPC、text、tail、日志系统、exec等数据源上实时地收集数据;对于高吞吐量的情况,调节实时性场景中数据采集与数据处理的速度,降低系统处理大规模动态工作负载的延时,保证系统的稳定性;对工作负载中的每一条数据库查询请求进行处理,提取出有效的分区信息,得到实时的数据模型;持续处理工作负载中的数据,处理单元的数量可以根据工作负载的规模动态调整,多个处理单元,可实现并行处理;将结果写入分布式文件系统,存储在MySQL数据库。本发明使用了流式框架,在分布式集群中合理分配资源,健壮性上得以提高。

Description

面向大规模动态事务查询的动态自适应数据模型
技术领域
本发明涉及面向大规模动态事务查询的动态自适应数据模型构建方法,特别涉及面向大规模动态事务查询的动态自适应数据模型构建系统。
背景技术
在面向大数据的云计算环境下,伴随着海量数据的快速生成,用户与应用之间,应用与应用之间的交互越来越频繁。用户需求呈现出个性化、实时化的特点。因此,大型OLAP(On-Line Analytical Processing)和OLTP(On-Line Transaction Processing)应用需要对工作负载进行即时处理。
发明内容
本发明所要解决的技术问题是面向大规模动态事务查询的动态自适应数据模型方法及基于Storm流式框架的系统实现。
本发明解决上述技术问题的技术方案如下:面向大规模动态事务查询的动态自适应数据模型构建方法,包括以下步骤:
步骤1:从console、RPC、text、tail、日志系统、exec等数据源上实时地收集数据;
步骤2:对于高吞吐量的情况,调节实时性场景中数据采集与数据处理的速度,降低系统处理大规模动态工作负载的延时,保证系统的稳定性;
步骤3:对工作负载中的每一条数据库查询请求进行处理,提取出有效的分区信息,得到实时的数据模型;
步骤4:持续处理工作负载中的数据,处理单元的数量可以根据工作负载的规模动态调整,多个处理单元,可实现并行处理;
步骤5:将结果写入分布式文件系统,存储在MySQL数据库。
本发明的有益效果是:提出了与流式框架相结合的面向大规模动态事务查询的动态自适应数据模型构建方法,通过构建关联矩阵映射分区信息,并采用流式框架的水平扩展机制实现了高扩展性和高吞吐量适应性。实验结果表明该算法是大数据环境下针对大规模、动态工作负载进行实时数据分区的有效手段.。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤3进一步包括:利用流式框架的并行计算机制降,在计算关联矩阵M的各属性对之间的关联度时,将每一行的计算分配到流式框架的不同计算单元中同时执行,再将所有中间结果一起加和,得到最终结果。
采用上述进一步方案的有益效果是时间复杂度降为了O(1),从而提高了数据分区算法的执行效率。
进一步,面向大规模动态事务查询时的动态自适应数据模型构建系统,包括数据接入模块,吞吐量调节模块,数据处理模块,水平扩展模块和数据存储模块;
所述数据接入模块,采集流式数据和适应高吞吐量。从console、RPC、 text、tail、日志系统、exec等数据源上实时地收集数据,为流式框架的进一步处理提供实时数据;
所述吞吐量调节模块,在大数据流式计算环境中,数据采集速度和数据处理速度不一定同步,对于高吞吐量的情况,吞吐量调节模块可以调节实时性场景中数据采集与数据处理的速度,降低系统处理大规模动态工作负载的延时,保证系统的稳定性;
所述数据处理模块,对工作负载中的每一条数据库查询请求进行处理,并得到实时的数据模型,对输入的工作负载进行预处理,提取出有效的分区信息;有多个处理单元,可实现并行处理,降低时间复杂度;
所述水平扩展模块,大数据情况下,数据规模超过了单机的处理能力,面对大规模负载,水平扩展模块可以通过增加处理单元,灵活地进行水平扩展,增加算法并行度,降低算法复杂度;
所述数据存储模块,将分区结果持久化,将分区结果写入分布式文件系统,存储在MySQL数据库,根据这些实时结果,用于进一步的研究计算。
采用上述进一步方案的有益效果是解决了大数据环境下,面向大规模、动态、未知工作负载进行数据建模的时效性问题,需要将数据模型构建技术与流式计算框架相结合,提出一套基于流式框架的数据模型构建方案及相关系统。
进一步,面向大规模动态事务查询时的动态自适应数据模型构建系统,其特征在于:
1)动态自适应数据模型构建:分区策略生成与动态更新模块,在每次数据处理之后对分区策略进行动态更新;
2)容错管理:利用流式框架的容错校验机制,实现容错管理.例如,使用 Kafka实现数据重放,当数据处理过程出现错误时,将这些流数据在系统中保存一段时间,以便于从某个点开始重新进行传输;
3)可靠性:数据接入模块动态抓取数据,并通过吞吐量调节,保证高吞吐量情况下系统处理的稳定性。吞吐量调节模块通过调度适配和负载均衡实现了对未知数据的处理,可以随着工作负载的变化对数据模型进行动态调整;
4)水平扩展:水平扩展模块在面对大规模、动态负载时扩展数据处理单元,实现系统的高扩展性和高可用性。
附图说明
图1为本发明方法步骤流程图;
图2为本发明装置结构图。
附图标记说明:1—数据接入模块;2—吞吐量调节模块;3—数据处理模块;4—水平扩展模块;5—数据存储模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明方法步骤流程图;图2为本发明装置结构图。
实施例1
面向大规模动态事务查询时的动态自适应数据模型构建方法,包括以下步骤:
步骤1:用Flume实现数据的采集。Flume是Cloudera提供的一个分布式、可靠和高可用的海量日志采集、聚合和传输的数据收集系统,它可以从不同的数据源上持续采集数据。构建一个数据生成器,实时生成日志文件,以日志文件作为数据源进行数据采集;
步骤2:Kafka针对于实时性场景中高吞吐量的情况,作为中间件进行高吞吐量的调节,可以适应负载的动态变化;
步骤3:进行负载预处理,运行分区算法,获取实时分区方案。在数据处理实现时,Storm提供了应用编程接口,只需定制Spout和Bolt的功能,并规定数据流在各个Bolt间的流向,便可通过数据流作业的执行实现对流式大数据的实时计算;
所述步骤3进一步包括:利用流式框架的并行计算机制降,在计算关联矩阵M的各属性对之间的关联度时,将每一行的计算分配到流式框架的不同计算单元中同时执行,再将所有中间结果一起加和,得到最终结果。
此阶段将工作负载中的分区信息提取出来,进行统计计算。此阶段的输入是步骤1中大规模、动态、未知的工作负载,流式框架实时处理的特性保证了未知流数据能被及时处理,经负载映射可以得到一个包含分区信息的关联矩阵。
步骤4:Storm中的计算任务可以在多个线程、进程和服务器之间并行进行。此外,Zookeeper提供了分布式协调服务,可以通过添加物理节点灵活地进行水平扩展。
在大量数据访问到来时,可以在一台机器上开启多个进程,也可以添加多个物理节点来增加处理单元的数量,增大系统处理的并行度,实现水平扩展,降低处理时间;
步骤5:使用MySQL数据库实现数据存储模块,在Storm实现了MySQL 的接口,将分区结果保存到MySQL数据库,实现数据存储。
面向大规模动态事务查询时的动态自适应数据模型构建系统,包括数据接入模块1,吞吐量调节模块2,数据处理模块3,水平扩展模块4和数据存储模块5;
所述数据接入模块(1),采集流式数据和适应高吞吐量。从console、 RPC、text、tail、日志系统、exec等数据源上实时地收集数据,为流式框架的进一步处理提供实时数据;
所述吞吐量调节模块(2),在大数据流式计算环境中,数据采集速度和数据处理速度不一定同步,对于高吞吐量的情况,吞吐量调节模块可以调节实时性场景中数据采集与数据处理的速度,降低系统处理大规模动态工作负载的延时,保证系统的稳定性;
所述数据处理模块(3),对工作负载中的每一条数据库查询请求进行处理,并得到实时的数据模型,对输入的工作负载进行预处理,提取出有效的分区信息;有多个处理单元,可实现并行处理,降低时间复杂度;
所述水平扩展模块(4),大数据情况下,数据规模超过了单机的处理能力,面对大规模负载,水平扩展模块可以通过增加处理单元,灵活地进行水平扩展,增加算法并行度,降低算法复杂度;
所述数据存储模块(5),将分区结果持久化,将分区结果写入分布式文件系统,存储在MySQL数据库,根据这些实时结果,用于进一步的研究计算。
所述步骤3进一步包括:利用流式框架的并行计算机制降,在计算关联矩阵M的各属性对之间的关联度时,将每一行的计算分配到流式框架的不同计算单元中同时执行,再将所有中间结果一起加和,得到最终结果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种面向大规模动态事务查询时的动态自适应数据模型构建方法,其特征在于,包括以下步骤:
步骤1:从console、RPC、text、tail、日志系统、exec等数据源上实时地收集数据;
步骤2:对于高吞吐量的情况,调节实时性场景中数据采集与数据处理的速度,降低系统处理大规模动态工作负载的延时,保证系统的稳定性;
步骤3:对工作负载中的每一条数据库查询请求进行处理,提取出有效的分区信息,得到实时的数据模型;
步骤4:持续处理工作负载中的数据,处理单元的数量可以根据工作负载的规模动态调整,多个处理单元,可实现并行处理;
步骤5:将结果写入分布式文件系统,存储在MySQL数据库。
2.根据权利要求1所述的面向大规模动态事务查询时的动态自适应数据模型构建方法,其特征在于:步骤3进一步包括:利用流式框架的并行计算机制降,在计算关联矩阵M的各属性对之间的关联度时,将每一行的计算分配到流式框架的不同计算单元中同时执行,再将所有中间结果一起加和,得到最终结果。
3.根据权利要求1至2中任一所述的面向大规模动态事务查询时的动态自适应数据模型构建方法,其特征在于:动态增量更新;处理未知工作负载;实时处理,利用流式框架的并行计算机制提高执行效率。水平扩展与高吞吐量适应能力,WSPA将算法处理与流式框架结合,利用流式框架所具有的水平扩展机制,在处理大规模、动态工作负载时,可以通过添加物理节点灵活地实现水平扩展.此外,通过与数据接入组件相结合,例如Flume和Kafka,可以实现在面对高吞吐量的工作负载情况下,算法依然具有良好的性能。
4.面向大规模动态事务查询时的动态自适应数据模型构建系统,其特征在于:包括数据接入模块(1),吞吐量调节模块(2),数据处理模块(3),水平扩展模块(4)和数据存储模块(5);
所述数据接入模块(1),采集流式数据和适应高吞吐量。从console、RPC、text、tail、日志系统、exec等数据源上实时地收集数据,为流式框架的进一步处理提供实时数据;
所述吞吐量调节模块(2),在大数据流式计算环境中,数据采集速度和数据处理速度不一定同步,对于高吞吐量的情况,吞吐量调节模块可以调节实时性场景中数据采集与数据处理的速度,降低系统处理大规模动态工作负载的延时,保证系统的稳定性;
所述数据处理模块(3),对工作负载中的每一条数据库查询请求进行处理,并得到实时的数据模型,对输入的工作负载进行预处理,提取出有效的分区信息;有多个处理单元,可实现并行处理,降低时间复杂度;
所述水平扩展模块(4),大数据情况下,数据规模超过了单机的处理能力,面对大规模负载,水平扩展模块可以通过增加处理单元,灵活地进行水平扩展,增加算法并行度,降低算法复杂度;
所述数据存储模块(5),将分区结果持久化,将分区结果写入分布式文件系统,存储在MySQL数据库,根据这些实时结果,用于进一步的研究计算。
5.根据权利要求4所述的面向大规模动态事务查询时的动态自适应数据模型构建系统,其特征在于:
1)动态自适应数据模型构建:分区策略生成与动态更新模块,在每次数据处理之后对分区策略进行动态更新;
2)容错管理:利用流式框架的容错校验机制,实现容错管理.例如,使用Kafka实现数据重放,当数据处理过程出现错误时,将这些流数据在系统中保存一段时间,以便于从某个点开始重新进行传输;
3)可靠性:数据接入模块动态抓取数据,并通过吞吐量调节,保证高吞吐量情况下系统处理的稳定性。吞吐量调节模块通过调度适配和负载均衡实现了对未知数据的处理,可以随着工作负载的变化对数据模型进行动态调整;
4)水平扩展:水平扩展模块在面对大规模、动态负载时扩展数据处理单元,实现系统的高扩展性和高可用性。根据权利要求1所述的婴儿服装舒适标示带,其特征在于,所述标示带内层的颜色比外层的颜色深。
CN201710325734.0A 2017-05-10 2017-05-10 面向大规模动态事务查询的动态自适应数据模型 Pending CN107301094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710325734.0A CN107301094A (zh) 2017-05-10 2017-05-10 面向大规模动态事务查询的动态自适应数据模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710325734.0A CN107301094A (zh) 2017-05-10 2017-05-10 面向大规模动态事务查询的动态自适应数据模型

Publications (1)

Publication Number Publication Date
CN107301094A true CN107301094A (zh) 2017-10-27

Family

ID=60137069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710325734.0A Pending CN107301094A (zh) 2017-05-10 2017-05-10 面向大规模动态事务查询的动态自适应数据模型

Country Status (1)

Country Link
CN (1) CN107301094A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121645A (zh) * 2017-12-25 2018-06-05 深圳市分期乐网络科技有限公司 一种日志质量评估方法、装置、服务器以及存储介质
CN109271395A (zh) * 2018-09-11 2019-01-25 南京轨道交通系统工程有限公司 用于综合监控系统的大规模实时数据更新发布系统及方法
CN109327329A (zh) * 2018-08-31 2019-02-12 华为技术有限公司 数据模型更新方法及装置
CN112685403A (zh) * 2019-10-18 2021-04-20 上海同是科技股份有限公司 一种隐患排查数据存储的高可用框架系统及其实现方法
CN115329003A (zh) * 2022-08-18 2022-11-11 国家石油天然气管网集团有限公司 一种油气管道多业务数据的动态传输、加载方法以及系统
CN115329003B (zh) * 2022-08-18 2026-02-10 国家石油天然气管网集团有限公司 一种油气管道多业务数据的动态传输、加载方法以及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747060A (zh) * 2013-12-26 2014-04-23 惠州华阳通用电子有限公司 一种基于流媒体服务集群的分布式监控系统及方法
CN103853844A (zh) * 2014-03-24 2014-06-11 南开大学 基于Hadoop的关系表非冗余键集合识别方法
US20160105352A1 (en) * 2014-10-09 2016-04-14 Fujitsu Limited File system, control program of file system management device, and method of controlling file system
CN106446126A (zh) * 2016-09-19 2017-02-22 哈尔滨航天恒星数据系统科技有限公司 一种海量空间信息数据存储管理方法及存储管理系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747060A (zh) * 2013-12-26 2014-04-23 惠州华阳通用电子有限公司 一种基于流媒体服务集群的分布式监控系统及方法
CN103853844A (zh) * 2014-03-24 2014-06-11 南开大学 基于Hadoop的关系表非冗余键集合识别方法
US20160105352A1 (en) * 2014-10-09 2016-04-14 Fujitsu Limited File system, control program of file system management device, and method of controlling file system
CN106446126A (zh) * 2016-09-19 2017-02-22 哈尔滨航天恒星数据系统科技有限公司 一种海量空间信息数据存储管理方法及存储管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
康宏 等: "应用驱动的基于流式框架的实时数据分区算法", 《计算机应用研究》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121645A (zh) * 2017-12-25 2018-06-05 深圳市分期乐网络科技有限公司 一种日志质量评估方法、装置、服务器以及存储介质
CN109327329A (zh) * 2018-08-31 2019-02-12 华为技术有限公司 数据模型更新方法及装置
CN109327329B (zh) * 2018-08-31 2021-11-09 华为技术有限公司 数据模型更新方法及装置
CN109271395A (zh) * 2018-09-11 2019-01-25 南京轨道交通系统工程有限公司 用于综合监控系统的大规模实时数据更新发布系统及方法
CN112685403A (zh) * 2019-10-18 2021-04-20 上海同是科技股份有限公司 一种隐患排查数据存储的高可用框架系统及其实现方法
CN115329003A (zh) * 2022-08-18 2022-11-11 国家石油天然气管网集团有限公司 一种油气管道多业务数据的动态传输、加载方法以及系统
CN115329003B (zh) * 2022-08-18 2026-02-10 国家石油天然气管网集团有限公司 一种油气管道多业务数据的动态传输、加载方法以及系统

Similar Documents

Publication Publication Date Title
CN115718644B (zh) 一种面向云数据中心的计算任务跨区迁移方法及系统
CN104050042B (zh) Etl作业的资源分配方法及装置
CN103345514B (zh) 大数据环境下的流式数据处理方法
CN106022245B (zh) 一种基于算法分类的多源遥感卫星数据并行处理系统及方法
CN105045856B (zh) 一种基于Hadoop的大数据遥感卫星数据处理系统
CN108469988B (zh) 一种基于异构Hadoop集群的任务调度方法
CN102662639A (zh) 一种基于Mapreduce的多GPU协同计算方法
CN109740037A (zh) 多源、异构流态大数据分布式在线实时处理方法及系统
CN104503826B (zh) 一种云计算数据中心的虚拟机映射方法及装置
CN103198097B (zh) 一种基于分布式文件系统的海量地学数据并行处理方法
CN106354729B (zh) 一种图数据处理方法、装置和系统
CN105117497B (zh) 基于Spark云网络的海洋大数据主从索引系统及方法
CN114637650B (zh) 一种基于Kubernetes集群的弹性伸缩方法
CN110308984B (zh) 一种用于处理地理分布式数据的跨集群计算系统
CN101986661B (zh) 一种改进的虚拟机群下MapReduce数据处理方法
CN111586091A (zh) 一种实现算力组配的边缘计算网关系统
CN105471985A (zh) 负载均衡方法及云平台计算方法、云平台
CN103595780A (zh) 基于消重的云计算资源调度方法
CN103188346A (zh) 支持分布式决策的大规模高并发访问i/o服务器负载均衡系统
CN112035995B (zh) 基于gpu计算技术的非结构网格潮汐潮流数值模拟方法
CN103116525A (zh) 一种Internet环境下MapReduce计算方法
CN110287391A (zh) 基于Hadoop的多层次轨迹数据存储方法、存储介质和终端
CN107301094A (zh) 面向大规模动态事务查询的动态自适应数据模型
CN108595255A (zh) 地理分布式云中基于最短路径算法的工作流任务调度方法
CN112015765B (zh) 基于缓存价值的Spark缓存淘汰方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171027