CN102737126B - 云计算环境下的分类规则挖掘方法 - Google Patents
云计算环境下的分类规则挖掘方法 Download PDFInfo
- Publication number
- CN102737126B CN102737126B CN201210203816.5A CN201210203816A CN102737126B CN 102737126 B CN102737126 B CN 102737126B CN 201210203816 A CN201210203816 A CN 201210203816A CN 102737126 B CN102737126 B CN 102737126B
- Authority
- CN
- China
- Prior art keywords
- classification
- key
- value
- control center
- atomic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005065 mining Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000002068 genetic effect Effects 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 230000004044 response Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000001514 detection method Methods 0.000 claims 1
- 230000008092 positive effect Effects 0.000 abstract description 2
- 238000013500 data storage Methods 0.000 abstract 1
- 230000001419 dependent effect Effects 0.000 description 16
- 238000009412 basement excavation Methods 0.000 description 12
- 238000007405 data analysis Methods 0.000 description 6
- 238000010353 genetic engineering Methods 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000010977 unit operation Methods 0.000 description 2
- 238000013398 bayesian method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种云计算环境下的分类规则挖掘方法,其特征在于:采用由一个控制中心和多个从属服务器构成的主从式组织结构,首先由控制中心将待分类数据集划分为训练样本和测试样本,并将训练样本均匀划分为相同大小的各数据块分配到各处理单元上;然后由处理单元采用遗传算法训练数据块,得到分类的原子规则;最后由分类器约简原子规则,并选择满足分类精度要求的约简结果作为分类规则挖掘的最终结果。本发明适用于云计算环境下分布式数据存储上的数据分类,可进行云计算环境下数据分类任务的分布式并行处理,对云计算环境下海量数据的分类处理问题起到了积极的效果。
Description
技术领域
本发明属于云计算环境下数据分析技术领域,具体涉及一种云计算环境下的分类规则挖掘方法。
背景技术
分类技术研究是云计算环境下数据分析与管理的重要研究领域。一方面,分类是数据挖掘重要的任务类型,云计算环境下的数据具有海量性、分布性和动态性等特征,这些特征给云计算环境下的数据管理带来了挑战,通过分类规则挖掘对这些数据进行分析,有助于提高云计算环境下海量数据分析与管理的效率。另一方面,云环境具有超大规模的存储和计算能力,资源和结构具有动态伸缩性,并且通过虚拟化技术和庞大的资源池按需提供服务,使得高效的数据分类成为可能。分类规则挖掘是数据分析管理中的重要任务,有助于更好地理解云计算环境下的海量数据,辅助云计算环境下的运营决策;同时,云计算高性能的计算和存储能力,为分类规则挖掘提供了高效运行的保障。因此,分类规则挖掘是云计算环境下的数据分析处理的重要技术,其理论和应用的研究具有重要意义。
在分类规则挖掘技术的研究中,国内外学者提出了诸多解决方案,包括以贝叶斯法为代表的统计学方法、以决策树法和规则归纳法为代表的及其学习方法,以及神经网络方法等,这些方法应用于小规模静态数据集的分类规则挖掘时,具有较高的分类精度。然而这些方法仍存在瓶颈问题,包括需要对数据集进行多次的扫描和排序,导致算法的低效;对噪声和确实数据比较敏感,易出现过拟合;对于大训练集的可伸缩性不是很好等。特别在云计算环境下,分布式海量数据集的大规模性和动态性,导致数据分类过程搜索空间和维度的激增,增加了分类的计算复杂性,降低了传统分类方法的效率,因而现有的分类规则挖掘方法无法直接应用于云计算环境中。
发明内容
为了解决上述问题,本发明克服现有技术的局限性,提供一种云计算环境下的分类规则挖掘方法。本发明适用于云计算环境下分布式数据存储上的数据分类,可进行云计算环境下数据分类任务的分布式并行处理,对云计算环境下海量数据的分类处理问题起到了积极的效果。利用云计算环境下大规模计算节点的规模计算效应,有效提高云计算环境下海量数据分类规则挖掘的效率;并通过主从式的组织结构和基于遗传算法的规则训练过程,解决分类规则挖掘在云计算环境下的分布式实现。
本发明为解决技术问题采用如下技术方案:
本发明云计算环境下的分类规则挖掘方法的特点是:
所述云计算环境由多个分布式的服务器构成;在所述云计算环境下实施分类规则挖掘时,采取主从式组织结构,所述主从式组织结构为设置一台服务器为控制中心,其它服务器为从属服务器;由所述控制中心安排部署整个挖掘任务的执行、调度管理并协调各从属服务器的操作;所述各从属服务器是任务的具体执行单元,所述分类规则挖掘方法按如下步骤进行:
a、由控制中心将待分类的数据集划分为训练样本和测试样本,对所述训练样本进行均匀划分,得到相同大小的各数据块,为每个数据块指定一个执行分类挖掘任务的从属服务器作为处理单元,将所述各数据块分配到对应的各处理单元上;
b、由所述处理单元采用遗传算法对分配得到的数据块实施用于分类的原子规则的训练,将训练得到的原子规则存入缓冲区;
c、由所述控制中心对缓冲区内的原子规则进行划分,选择闲置的从属服务器作为分类器,安排分类器进行原子规则的冗余约简,并检测约简结果的分类精度,筛选出满足分类精度要求的约简结果,作为分类规则挖掘的最终结果。
本发明云计算环境下的分类规则挖掘方法的特点也在于:
所述步骤a的执行过程是:
控制中心在接到分类挖掘任务的请求后,将待分类的数据集划分为训练样本和测试样本,根据用户所提出分类挖掘任务的要求以及训练样本的特征,搜索合适的从属服务器作为处理单元,并将训练样本均匀划分成大小相同的数据块;设满足条件的处理单元数量为N,训练样本大小为M,则所划分的数据块大小为M/N;
所述合适的从属服务器满足的条件是:存储空间不小于M/N,响应时间不大于用户所要求的最晚时间;
控制中心访问所述训练样本,将划分所得的数据块复制到相应的处理单元上,并向处理单元传递利用遗传算法训练原子规则的操作指令。
所述步骤b中的原子规则的训练过程是:
处理单元对构成数据块的每一条数据记录进行遗传编码,通过遗传操作的循环迭代生成原子规则,将所述原子规则以<key,value>键值对的形式存入缓冲区,所述<key,value>键值对中的key为类标签,value为该类标签下的原子规则;
控制中心周期性地读取缓冲区中的<key,value>键值对,生成<key,value list>键值对列表存入缓冲区,所述<key,value list>键值对列表中的key为类标签,value list为该类标签下的原子规则列表;
处理单元完成对数据块中所有数据记录的操作之后,向控制中心发送处理单元操作完毕的消息。
所述步骤c按如下过程进行:
由控制中心搜索闲置的从属服务器作为分类器,分类器的个数为<key,value list>键值对列表中key值的个数,每个分类器对应一个key值;控制中心将<key,value list>键值对列表中的原子规则列表和测试样本中具有相同类标签的记录传送到的分类器中,并向分类器传递冗余约简和分类精度检测的操作指令;
分类器对同一类标签下的多个相同原子规则只记录一次,删除冗余的原子规则,得到约简后的原子规则;
分类器利用约简后的原子规则对测试样本进行分类,检测分类结果是否与测试样本的类标签相一致,假设被原子规则a分类的测试样本中,有Y条记录的类标签与分类结果相一致,有N条记录的类标签与分类结果不一致,则原子规则a的分类精度为Y/(Y+N);假定用户提出的分类挖掘任务要求中,分类精度要求为α,将所有分类精度不小于α的原子规则作为分类规则挖掘的最终结果传送给控制中心;
控制中心汇总所有分类器生成的最终结果,再将汇总结果反馈至分类规则挖掘任务的请求者。
与已有的数据分类方法相比,本发明的有益效果体现在:
1、本发明将海量数据的分类规则挖掘任务划分成多个子任务,分配到云计算环境中的大规模服务器集群上处理,降低单个任务的计算复杂度,利用云计算服务器集群的规模计算效应,显著提高整个分类规则挖掘任务的效率;
2、本发明中主从式组织结构,实现了云计算环境下任务的分配、调度与管理,为分类规则挖掘提供了分布式的实现机制;同时,规则训练采用的遗传算法本身具有良好的并行性,解决了常规分类技术在分布式环境中并行性差的问题。
附图说明
图1为本发明云计算环境下分类规则挖掘方法的原理图
图2为本发明中基于遗传操作循环迭代的原子规则生成的流程图
具体实施方式
在本实施例云计算环境下的分类规则挖掘方法中:
云计算环境由多个分布式的服务器构成;在云计算环境下实施分类规则挖掘时,采取主从式组织结构,主从式组织结构为设置一台服务器为控制中心,其它服务器为从属服务器;由控制中心安排部署整个挖掘任务的执行、调度管理并协调各从属服务器的操作;各从属服务器是任务的具体执行单元。分类规则挖掘方法如图1所示,按如下步骤进行:
1、由控制中心将待分类的数据集划分为训练样本和测试样本,对训练样本进行均匀划分,得到相同大小的各数据块,为每个数据块指定一个执行分类挖掘任务的从属服务器作为处理单元,将各数据块分配到对应的各处理单元上;
2、由处理单元采用遗传算法对分配得到的数据块实施用于分类的原子规则的训练,将训练得到的原子规则存入缓冲区;
3、由控制中心对缓冲区内的原子规则进行划分,选择闲置的从属服务器作为分类器,安排分类器进行原子规则的冗余约简,并检测约简结果的分类精度,筛选出满足分类精度要求的约简结果,作为分类规则挖掘的最终结果。
假设数据集由关系模式R(a1,a2,…,ak)表示,其中ai(i=1,2,…,k)为属性。将属性组<a1,a2,…,ak>分为两部分,包括k-1个条件属性与1个类标签,属性a1,a2,…,ak-1为条件属性,属性ak为类标签。数据集中的每一条数据记录均为一个k维向量[c1,c2,…,ck],ci为该数据记录中属性ai的取值。
原子规则的表现形式为:If(a1=c1)∧(a2=c2)∧…∧(ak-1=ck-1),Then ak=ck。
步骤1的执行过程是:
控制中心在接到分类挖掘任务的请求后,将待分类的数据集划分为训练样本和测试样本,根据用户所提出分类挖掘任务的要求以及训练样本的特征,搜索合适的从属服务器作为处理单元,并将训练样本均匀划分成大小相同的数据块;设满足条件的处理单元数量为N,训练样本大小为M,则所划分的数据块大小为M/N;
合适的从属服务器需满足如下条件:存储空间不小于M/N,响应时间不大于用户所要求的最晚时间。
控制中心访问训练样本,将划分所得的数据块复制到相应的处理单元上,并向处理单元传递利用遗传算法训练原子规则的操作指令。
步骤2中原子规则的训练过程是:
处理单元对构成数据块的每一条数据记录进行遗传编码,通过遗传操作的循环迭代生成原子规则,将原子规则以<key,value>键值对的形式存入缓冲区,<key,value>键值对中的key为类标签,value为该类标签下的原子规则;
数据记录的遗传编码过程为:每条数据记录表示为一条染色体,染色体基因值由k个属性值的二进制码值构成。若属性值为离散值,可直接进行二进制编码;若属性值为连续值,则要对连续属性值进行离散化后,再进行二进制编码。二进制编码过程为:设属性ai有s个离散属性值v1,v2,…,vs,则用含s个码位的二进制数表示属性ai的值。若ai的值为vj,则该属性值二进制码的第j位值为1,其余码位的值位为0。例如,性别属性有“男”、“女”两个值,若属性值为“男”,则该属性的二进制编码为“0 1”;若属性值为“女”,编码为“1 0”。遗传算法中,每条染色体为一个遗传个体,所有的遗传个体构成一个种群,种群规模用遗传个体的数量n表示,由遗传编码过程得到的种群为初始种群,一个二进制码位对应染色体的一个基因位。
遗传操作的循环迭代过程如图2所示:第t次迭代中,首先评价第t代种群P(t)的适应度,之后判断是否停止迭代,若满足迭代停止条件,则停止迭代,将P(t)输出作为原子规则;若不满足迭代停止条件,则进行选择、交叉和变异操作,生成第t+1代种群P(t+1),令t=t+1,实施下一次迭代。
迭代停止条件为以下两个条件的任意一个:
①迭代次数t>100;
②适应度fitness>0.75。
适应度评价为:设某一遗传个体对应的数据记录为[c1,c2,…,ck],该遗传个体的适应度为fitness=TT/n+TT/(TT+TF),其中TT为数据块中满足“(a1=c1)∧(a2=c2)∧…∧(ak=ck)”的数据记录条数,TF为数据快中满足“(a1=c1)∧(a2=c2)∧…∧(ak-1=ck-1)∧(ak≠ck)”的数据记录条数,FT为数据块中满足“┐[(a1=c1)∧(a2=c2)∧…∧(ak-1=ck-1)]∧(ak=ck)”的数据记录条数,FF为数据块中满足“┐[(a1=c1)∧(a2=c2)∧…∧(ak-1=ck-1)]∧(ak≠ck)”的数据记录条数。
交叉操作为:按照交叉概率pc随机选择两个遗传个体Xi和Xj,随机选择染色体上的一个基因位w,将Xi和Xj上基因位w后面的基因段交换形成两个新的个体,作为下一次遗传操作种群中的个体。其中,交叉概率pc为[0.4,0.9]之间的数值,也可采用自适应的交叉概率。
变异操作为:按照变异概率pm随机选择一个遗传个体Xi,随机选择Xi上一个基因位,对该基因位上的二进制码进行取反。其中,变异概率pm为[0.01,0.1]之间的数值,也可采用自适应的变异概率。
控制中心周期性地读取缓冲区中的<key,value>键值对,生成<key,value list>键值对列表存入缓冲区,<key,value list>键值对列表中的key为类标签,value list为该类标签下的原子规则列表;
处理单元完成对数据块中所有数据记录的操作之后,向控制中心发送处理单元操作完毕的消息。
步骤3按如下过程进行:
由控制中心搜索闲置的从属服务器作为分类器,分类器的个数为<key,value list>键值对列表中key值的个数,每个分类器对应一个key值;控制中心将<key,value list>键值对列表中的原子规则列表和测试样本中具有相同类标签的记录传送到的分类器中,并向分类器传递冗余约简和分类精度检测的操作指令;
分类器对同一类标签下的多个相同原子规则只记录一次,删除冗余的原子规则,得到约简后的原子规则;
分类器利用约简后的原子规则对测试样本进行分类,检测分类结果是否与测试样本的类标签相一致,假设被原子规则a分类的测试样本中,有Y条记录的类标签与分类结果相一致,有N条记录的类标签与分类结果不一致,则原子规则a的分类精度为Y/(Y+N)。用户提出的分类挖掘任务要求中,分类精度要求为α,将所有分类精度不小于α的原子规则作为分类规则挖掘的最终结果,传送给控制中心;
控制中心汇总所有分类器生成的最终结果,再将汇总结果反馈至分类规则挖掘任务的请求者。
Claims (3)
1.一种云计算环境下的分类规则挖掘方法,其特征在于:
所述云计算环境由多个分布式的服务器构成;在所述云计算环境下实施分类规则挖掘时,采取主从式组织结构,所述主从式组织结构为设置一台服务器为控制中心,其它服务器为从属服务器;由所述控制中心安排部署整个挖掘任务的执行、调度管理并协调各从属服务器的操作;所述各从属服务器是任务的具体执行单元,所述分类规则挖掘方法按如下步骤进行:
a、由控制中心将待分类的数据集划分为训练样本和测试样本,对所述训练样本进行均匀划分,得到相同大小的各数据块,为每个数据块指定一个执行分类挖掘任务的从属服务器作为处理单元,将所述各数据块分配到对应的各处理单元上;
b、由所述处理单元采用遗传算法对分配得到的数据块实施用于分类的原子规则的训练,将训练得到的原子规则存入缓冲区;所述原子规则的训练过程是:
处理单元对构成数据块的每一条数据记录进行遗传编码,通过遗传操作的循环迭代生成原子规则,将所述原子规则以<key,value>键值对的形式存入缓冲区,所述<key,value>键值对中的key为类标签,value为该类标签下的原子规则;
控制中心周期性地读取缓冲区中的<key,value>键值对,生成<key,value list>键值对列表存入缓冲区,所述<key,value list>键值对列表中的key为类标签,value list为该类标签下的原子规则列表;
处理单元完成对数据块中所有数据记录的操作之后,向控制中心发送处理单元操作完毕的消息;
c、由所述控制中心对缓冲区内的原子规则进行划分,选择闲置的从属服务器作为分类器,安排分类器进行原子规则的冗余约简,并检测约简结果的分类精度,筛选出满足分类精度要求的约简结果,作为分类规则挖掘的最终结果。
2.根据权利要求书1所述的云计算环境下的分类规则挖掘方法,其特征在于,所述步骤a的执行过程是:
控制中心在接到分类挖掘任务的请求后,将待分类的数据集划分为训练样本和测试样本,根据用户所提出分类挖掘任务的要求以及训练样本的特征,搜索合适的从属服务器作为处理单元,并将训练样本均匀划分成大小相同的数据块;设满足条件的处理单元数量为N,训练样本大小为M,则所划分的数据块大小为M/N;
所述合适的从属服务器满足的条件是:存储空间不小于M/N,响应时间不大于用户所要求的最晚时间;
控制中心访问所述训练样本,将划分所得的数据块复制到相应的处理单元上,并向处理单元传递利用遗传算法训练原子规则的操作指令。
3.根据权利要求书1所述的云计算环境下的分类规则挖掘方法,其特征在于,所述步骤c按如下过程进行:
由控制中心搜索闲置的从属服务器作为分类器,分类器的个数为<key,value list>键值对列表中key值的个数,每个分类器对应一个key值;控制中心将<key,value list>键值对列表中的原子规则列表和测试样本中具有相同类标签的记录传送到分类器中,并向分类器传递冗余约简和分类精度检测的操作指令;
分类器对同一类标签下的多个相同原子规则只记录一次,删除冗余的原子规则,得到约简后的原子规则;
分类器利用约简后的原子规则对测试样本进行分类,检测分类结果是否与测试样本的类标签相一致,假设被原子规则a分类的测试样本中,有Y条记录的类标签与分类结果相一致,有N条记录的类标签与分类结果不一致,则原子规则a的分类精度为Y/(Y+N);假定用户提出的分类挖掘任务要求中,分类精度要求为α,将所有分类精度不小于α的原子规则作为分类规则挖掘的最终结果传送给控制中心;
控制中心汇总所有分类器生成的最终结果,再将汇总结果反馈至分类规则挖掘任务的请求者。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201210203816.5A CN102737126B (zh) | 2012-06-19 | 2012-06-19 | 云计算环境下的分类规则挖掘方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201210203816.5A CN102737126B (zh) | 2012-06-19 | 2012-06-19 | 云计算环境下的分类规则挖掘方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN102737126A CN102737126A (zh) | 2012-10-17 |
| CN102737126B true CN102737126B (zh) | 2014-03-12 |
Family
ID=46992627
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201210203816.5A Expired - Fee Related CN102737126B (zh) | 2012-06-19 | 2012-06-19 | 云计算环境下的分类规则挖掘方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN102737126B (zh) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104113516A (zh) * | 2013-04-19 | 2014-10-22 | 中国移动通信集团设计院有限公司 | 一种识别防火墙的规则冲突的方法和终端 |
| EP2988230A4 (en) * | 2014-06-27 | 2016-10-19 | Huawei Tech Co Ltd | DATA PROCESSING METHOD AND COMPUTER SYSTEM |
| WO2016078008A1 (zh) * | 2014-11-19 | 2016-05-26 | 华为技术有限公司 | 调度数据流任务的方法和装置 |
| CN104468239B (zh) * | 2014-12-22 | 2018-08-21 | 上海大唐移动通信设备有限公司 | 一种基于规则的数据处理方法及装置 |
| US10430429B2 (en) | 2015-09-01 | 2019-10-01 | Cognizant Technology Solutions U.S. Corporation | Data mining management server |
| CN107153630B (zh) * | 2016-03-04 | 2020-11-06 | 阿里巴巴集团控股有限公司 | 一种机器学习系统的训练方法和训练系统 |
| CN105912674A (zh) * | 2016-04-13 | 2016-08-31 | 精硕世纪科技(北京)有限公司 | 数据降噪及分类方法、装置及系统 |
| CN105975331A (zh) * | 2016-04-26 | 2016-09-28 | 浪潮(北京)电子信息产业有限公司 | 一种数据并行处理方法及装置 |
| CN106372185B (zh) * | 2016-08-31 | 2017-07-04 | 广东京奥信息科技有限公司 | 一种异构数据源的数据预处理方法 |
| CN107169513B (zh) * | 2017-05-05 | 2019-10-18 | 第四范式(北京)技术有限公司 | 控制数据使用顺序的分布式机器学习系统及其方法 |
| CN107590263B (zh) * | 2017-09-22 | 2020-07-07 | 辽宁工程技术大学 | 一种基于多变量决策树模型的分布式大数据分类方法 |
| CN108763952B (zh) * | 2018-05-03 | 2022-04-05 | 创新先进技术有限公司 | 一种数据分类方法、装置及电子设备 |
| CN110109753A (zh) * | 2019-04-25 | 2019-08-09 | 成都信息工程大学 | 基于多维度约束遗传算法的资源调度方法及系统 |
| TWI739229B (zh) | 2019-12-03 | 2021-09-11 | 財團法人工業技術研究院 | 快篩派工法則方法和裝置 |
| CN111814882B (zh) * | 2020-07-10 | 2021-06-22 | 辽东学院 | 一种基于计算机大数据的数据分类系统 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1282106C (zh) * | 2004-11-29 | 2006-10-25 | 南京大学 | 快速学习分类方法 |
| KR20100123817A (ko) * | 2007-11-08 | 2010-11-25 | 제네틱 파이넨스 (바베이도스) 리미티드 | 복잡한 알고리즘들을 수행하기 위한 분산 네트워크 |
| CN101556650B (zh) * | 2009-04-01 | 2011-07-06 | 东北大学 | 一种分布式自适应肺结节计算机检测方法及系统 |
| US9275048B2 (en) * | 2009-09-09 | 2016-03-01 | Tapicu, Inc. | System and methods for solving information retrieval problem sets |
| CN102143022B (zh) * | 2011-03-16 | 2013-09-25 | 北京邮电大学 | 用于ip网络的云测量装置和测量方法 |
-
2012
- 2012-06-19 CN CN201210203816.5A patent/CN102737126B/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| CN102737126A (zh) | 2012-10-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102737126B (zh) | 云计算环境下的分类规则挖掘方法 | |
| Gao et al. | Classifying data streams with skewed class distributions and concept drifts | |
| Cai et al. | A new clustering mining algorithm for multi-source imbalanced location data | |
| CN110519128A (zh) | 一种基于随机森林的操作系统识别方法 | |
| Jia et al. | A grid and density-based clustering algorithm for processing data stream | |
| CN104156463A (zh) | 一种基于MapReduce的大数据聚类集成方法 | |
| CN103336790A (zh) | 基于Hadoop的邻域粗糙集快速属性约简方法 | |
| CN106874478A (zh) | 基于Spark的并行化随机标签子集多标签文本分类方法 | |
| CN104008420A (zh) | 一种基于自动编码机的分布式离群点检测方法及系统 | |
| CN111159406A (zh) | 基于并行改进的K-means算法的大数据文本聚类方法及系统 | |
| Sardar | Reflecting on a decade of evolution: MapReduce‐based advances in partitioning‐based, hierarchical‐based, and density‐based clustering (2013–2023) | |
| CN106909942A (zh) | 一种面向高维度大数据的子空间聚类方法及装置 | |
| Senthilkumar et al. | An efficient FP-Growth based association rule mining algorithm using Hadoop MapReduce | |
| Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
| Chen et al. | Clustering in big data | |
| Xu | Research and implementation of improved random forest algorithm based on Spark | |
| Li et al. | Scalable random forests for massive data | |
| Wen et al. | Challenges and Opportunities of Building Fast GBDT Systems. | |
| Hai et al. | A performance comparison of big data processing platform based on parallel clustering algorithms | |
| Saxena et al. | A framework for multi-sensor data fusion in the context of IoT smart city parking data | |
| Xu et al. | Applying an improved elephant herding optimization algorithm with spark-based parallelization to feature selection for intrusion detection | |
| Makarov et al. | Agent-based supercomputer demographic model of Russia: approbation analysis | |
| CN105740604A (zh) | 基于冗余距离消除和极端点优化的并行k-means聚类方法 | |
| Chen et al. | Optimization simulation of big data analysis model based on k-means algorithm | |
| Chen et al. | Naive bayes classifier based partitioner for mapreduce |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140312 Termination date: 20210619 |