[go: up one dir, main page]

CN104376057A - 一种基于最大最小距离和K-means的自适应聚类方法 - Google Patents

一种基于最大最小距离和K-means的自适应聚类方法 Download PDF

Info

Publication number
CN104376057A
CN104376057A CN201410621601.4A CN201410621601A CN104376057A CN 104376057 A CN104376057 A CN 104376057A CN 201410621601 A CN201410621601 A CN 201410621601A CN 104376057 A CN104376057 A CN 104376057A
Authority
CN
China
Prior art keywords
distance
bunch
clustering
center
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410621601.4A
Other languages
English (en)
Inventor
成卫青
卢艳红
仲伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201410621601.4A priority Critical patent/CN104376057A/zh
Publication of CN104376057A publication Critical patent/CN104376057A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于最大最小距离和K-means的自适应聚类方法,该方法解决了传统K-means聚类算法存在的对初始中心敏感,以及簇个数需事先确定的问题。本发明是一种策略性方法。本发明对初始中心以及新增簇的初始中心的选择都不是随机的,而是经过计算得到的,以数据(子)集中分别与相距最大的两个点相距最小的两个点作为初始中心,能够有效地避免选取到孤立点作为初始中心,同时能有效地减少聚类过程的迭代次数,并得到较好的聚类结果;本发明针对各簇SSE(误差平方和)情况和总的SSE变化趋势决定是否增加簇以及是否结束聚类,从而能自适应确定簇数,特别适合那些簇数难以确定的应用场景。

Description

一种基于最大最小距离和K-means的自适应聚类方法
技术领域
本发明涉及一种基于最大最小距离和K-means聚类算法的自适应聚类方法,属于数据挖掘技术领域。
背景技术
聚类分析将数据划分成有意义或有用的组(簇),其目标为:组内的对象相互之间是相似的,而不同组中的对象是不同的。组内的相似性越大,组间差别越大,聚类就越好。在某种意义下,聚类分析只是解决其他问题的起点。在信息检索方面,万维网包含数以亿计的Web页面,网络搜索引擎可能返回数以千计的页面。可以使用聚类将搜索结果分成若干簇,每个簇捕获查询的某个特定方面,每个类别(簇)又可以划分成若干子类别(子簇),从而产生一个层次结构,帮助用户进一步探索查询结果。在气候方面,聚类分析已经用来发现对陆地气候具有显著影响的极地和海洋大气压力模式。在心里学和医学方面,聚类已经用来识别不同类型的抑郁症,同时聚类分析也可以用来检测疾病的时间和空间分布模式。因此无论是旨在理解还是实用,聚类分析在诸多领域都扮演着重要的角色,这些领域包括:统计学、模式识别、信息检索、机器学习和数据挖掘。
国际权威学术会议IEEE International Conference on Data Mining(ICDM)2006年12月评选出了数据挖掘领域的十大经典算法,K-means聚类算法是其中之一。K-means算法比较简单,首先,选择K个初始中心,其中K是用户指定的参数,即所期望的簇的个数。将每个点划分到最近的中心,而划分到一个中心的点集为一个簇。然后,计算各簇的质心,将其作为各簇的中心。重复划分点和更新簇中心步骤,直到簇不再发生变化,或者等价地,直到中心不发生变化。然而,随机地选择K-means聚类算法初始中心,不仅会使聚类陷入局部最优解,而且可能得不到最优的聚类结果。选择合适的初始中心,不仅可以减少聚类过程的迭代次数,而且可以提高聚类的效果,而且随机选取初始中心可能会选取到孤立点作为初始中心,导致迭代次数过多,抑或得到不合理的聚类结果。K-means聚类算法不仅对初始中心敏感,同时簇个数的选择也是影响聚类结果的重要因素。而本发明能够较好地解决上面的问题。
发明内容
本发明目的在于提供一种基于最大最小距离和K-means聚类算法的自适应聚类方法,该方法解决了传统K-means聚类算法存在的对初始中心敏感,以及簇个数需事先确定的问题。该方法能有效地避免选取到孤立点作为初始中心,同时能有效地减少聚类过程的迭代次数,并且能得到较好的聚类结果。
本发明解决其技术问题所采用的技术方案是:本发明是一种策略性方法。K-means是基于原型的、划分的聚类技术,以其简单的算法、较快的聚类速度和稳定的聚类结果得到了广泛应用,然而基本K-means算法还存在一些问题,比如K-means难处理非球形的簇和不同大小的簇,并且受噪声和离群点的影响。同时聚类结果也很受聚类中心个数和初始中心选择的影响。
本发明针对K-means聚类算法的缺点提出了一个基于最大最小距离和K-means算法,以数据集总的SSE(Sum of Square Error,误差平方和)出现拐点作为聚类结束条件的自适应聚类方法。该方法对初始中心的选择不是随机的,而是经过计算得到的,可以较有效地避免选取到孤立点作为初始中心,同时能有效地减少聚类过程的迭代次数,并得到较好的聚类结果;此外针对各簇SSE情况和总的SSE变化趋势决定是否增加簇以及是否结束聚类,从而能自适应确定簇数,特别适合那些簇数难以确定的应用场景。
传统K-means聚类算法是将n个数据点划分到K个簇中,使每个数据点到其簇中心的距离之和最小,算法处理过程:
(1)随机选择K个数据点作为初始中心
(2)将每个数据点划分到最近的中心,形成K个簇
(3)计算每个簇的质心,将其作为簇的中心
(4)重复步骤(2)和(3)直到中心不再发生变化
本发明中使用如下的定义和计算公式:
(1)数据点之间的相似程度可以通过计算两两数据之间的距离来确定,欧氏距离是最为人所知的距离测度,在n维欧式空间中,每个点都是n维实数向量,空间中x和y两点之间的欧几里得距离定义为:
d ( x , y ) = Σ i = 1 n ( x i - y i ) 2 - - - ( 1 )
(2)聚类目标函数用来度量聚类质量,本发明使用误差平方和作为度量聚类质量的目标函数,数据集总的误差平方和SSE定义为:
SSE = Σ i = 1 K Σ x ∈ S i ( d ( c i , x ) ) 2 - - - ( 2 )
其中ci是第i个簇Si的中心。
方法流程:
本发明提出一种基于最大最小距离和K-means聚类算法的自适应聚类方法,该方法对数据集S={x1,x2,...,xn}的聚类包括如下步骤:
步骤1:计算数据集S中任意两个数据点之间的欧几里得距离;
步骤2:找到数据集S中相距最远的两个点xi和xj,再找到距离xi最近的点xp和距离xj最近的点xq
步骤3:将xp和xq作为初始聚类(簇)中心,此时聚类(簇)中心集合C(0)={xp,xq},另设t=1,SSE(0)=∞;
步骤4:采用K-means聚类算法,划分数据集S、更新各个簇中心,得到新的簇中心集合C(t)和|C(t)|个簇,此时
步骤5:分别计算各个簇中各点到簇中心的距离平方和k=1,2,…,|C(t)|,并累加得到总的误差平方和SSE{t},如果其中δ为阈值,转步骤9;否则继续;
步骤6:选择最大的簇,记为Smax,其中心记为cmax,去除C(t)中该簇的聚类中心,即令C(t)=C(t)-{cmax};
步骤7:找到数据子集Smax中相距最远的两个点xi和xj,再找到距离xi最近的点xp和距离xj最近的点xq
步骤8:将xp和xq并入C(t),即令C(t)=C(t)∪{xp,xq},再令t=t+1,转步骤4;
步骤9:取上一次聚类结果为最终聚类结果,即最终的聚类中心集C=C(t-1)
本发明的步骤2、步骤3首先找到数据集S中相距最远的两个点xi和xj,避免了K-means算法初始中心选取时有可能过于邻近的问题;再找到距离xi最近的点xp和距离xj最近的点xq,选取相距最远两个点的最近邻点是为了避免相距最远两个点是孤立点;并以这两个最远最近点xp和xq为初始中心,进行第一次K-means聚类。步骤5、步骤6针对各簇SSE情况和总的SSE变化趋势决定是否增加簇以及是否结束聚类,从而能自适应确定簇数,特别适合那些簇数难以确定的应用场景。步骤6~8分裂簇并采用本发明特有的最大最小距离方法为新簇选择初始中心。
有益效果:
1、本发明对初始中心以及新增簇的初始中心的选择都不是随机的,而是经过计算得到的,能够有效地避免选取到孤立点作为初始中心,同时能够有效地减少聚类过程的迭代次数,并且能够得到较好的聚类结果。
2、本发明针对各簇SSE情况和总的SSE变化趋势决定是否增加簇以及是否结束聚类,从而能自适应确定簇数,特别适合那些簇数难以确定的应用场景。
3、本发明应用于数据挖掘技术领域。
附图说明
图1为本发明的方法流程图。
具体实施方式
以下结合说明书附图对本发明创造作进一步的详细说明。
为了方便描述,下面举一个例子进行简要说明:
已知数据集:x1=(0,0),x2=(1,1),x3=(2,2),x4=(4,4),x5=(5,5),x6=(2,1),x7=(5,4),x8=(3,6),x9=(7,4),x10=(8,5),阈值σ=0.3
如图1所示,本发明提供一种基于最大最小距离和K-means的自适应聚类方法,该方法包括如下步骤:
(1)根据上述公式(1),算出数据集中两两数据之间的距离,选择最远的两个点,对于已知数据集可知点x1=(0,0)和点x10=(8,5)是距离最远的两个点;
(2)同时点x2=(1,1)是x1=(0,0)距离最小的点,点x9=(7,4)是x10=(8,5)距离最小的点;
(3)令初始中心点c1和c2分别存储最大最小距离点x2=(1,1)和点x9=(7,4)
(4)将初始中心点c1和c2代入K-means聚类算法,得到两个簇S1和S2,S1={x1,x2,x3,x6}和S2={x4,x5,x7,x8,x9,x10},计算SSE1、SSE2、SSE(1)=SSE1+SSE2
(5)因SSE1/|S1|<SSE2/|S2|,将簇S2中的数据看成新的数据集,计算此时最大最小距离点为x5=(5,5)和x9=(7,4)并用c21和c22存储;
(6)新的初始中心C={c1,c21,c22}并代入K-means聚类算法,得到3个簇S21、S22和S23,S21={x1,x2,x3,x6},S22={x4,x5,x7,x8},S23={x9,x10},计算SSE21、SSE22、SSE23、SSE(2)=SSE21+SSE22+SSE23,因聚类结束。

Claims (3)

1.一种基于最大最小距离和K-means聚类算法的自适应聚类方法,其特征在于,所述方法对数据集S={x1,x2,...,xn}的聚类包括如下步骤:
步骤1:计算数据集S中任意两个数据点之间的欧几里得距离;
步骤2:找到数据集S中相距最远的两个点xi和xj,再找到距离xi最近的点xp和距离xj最近的点xq
步骤3:将xp和xq作为初始聚类(簇)中心,此时聚类(簇)中心集合C(0)={xp,xq},另设t=1,SSE(0)=∞;
步骤4:采用K-means聚类算法,划分数据集S、更新各个簇中心,得到新的簇中心集合C(t)和|C(t)|个簇,此时
步骤5:分别计算各个簇中各点到簇中心的距离平方和并累加得到总的误差平方和SSE{t},如果其中δ为阈值,转步骤9;否则继续;
步骤6:选择最大的簇,记为Smax,其中心记为cmax,去除C(t)中该簇的聚类中心,即令C(t)=C(t)-{cmax};
步骤7:找到数据子集Smax中相距最远的两个点xi和xj,再找到距离xi最近的点xp和距离xj最近的点xq
步骤8:将xp和xq并入C(t),即令C(t)=C(t)∪{xp,xq},再令t=t+1,转步骤4;
步骤9:取上一次聚类结果为最终聚类结果,即最终的聚类中心集C=C(t-1)
2.根据权利要求1所述的一种基于最大最小距离和K-means聚类算法的自适应聚类方法,其特征在于:所述方法对初始中心以及新增簇的初始中心的选择都不是随机的,而是经过计算得到的。
3.根据权利要求1所述的一种基于最大最小距离和K-means聚类算法的自适应聚类方法,其特征在于:所述方法应用于数据挖掘技术领域。
CN201410621601.4A 2014-11-06 2014-11-06 一种基于最大最小距离和K-means的自适应聚类方法 Pending CN104376057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410621601.4A CN104376057A (zh) 2014-11-06 2014-11-06 一种基于最大最小距离和K-means的自适应聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410621601.4A CN104376057A (zh) 2014-11-06 2014-11-06 一种基于最大最小距离和K-means的自适应聚类方法

Publications (1)

Publication Number Publication Date
CN104376057A true CN104376057A (zh) 2015-02-25

Family

ID=52554964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410621601.4A Pending CN104376057A (zh) 2014-11-06 2014-11-06 一种基于最大最小距离和K-means的自适应聚类方法

Country Status (1)

Country Link
CN (1) CN104376057A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850629A (zh) * 2015-05-21 2015-08-19 杭州天宽科技有限公司 一种基于改进k-means算法的海量智能用电数据分析方法
CN105426387A (zh) * 2015-10-23 2016-03-23 北京锐安科技有限公司 一种基于K-means算法的地图聚合方法
CN106650228A (zh) * 2016-11-08 2017-05-10 浙江理工大学 改进k‑means算法的噪声数据去除方法及实施系统
WO2017181660A1 (zh) * 2016-04-21 2017-10-26 华为技术有限公司 基于K-Means算法的数据聚类方法和装置
CN107784597A (zh) * 2017-09-19 2018-03-09 平安科技(深圳)有限公司 出行方式识别方法、装置、终端设备及存储介质
CN107886071A (zh) * 2017-11-10 2018-04-06 南京航空航天大学 一种纤维增强复合材料损伤声发射信号的处理方法
CN108268611A (zh) * 2017-12-29 2018-07-10 天津南大通用数据技术股份有限公司 一种基于MapReduce的k-means文本聚类的方法及装置
CN108733003A (zh) * 2017-04-20 2018-11-02 南京理工大学 基于kmeans聚类算法的回转类零件工序工时预测方法及系统
CN108804520A (zh) * 2018-04-27 2018-11-13 厦门快商通信息技术有限公司 一种访客行为分类方法及系统
CN108983251A (zh) * 2018-07-27 2018-12-11 杭州电子科技大学 一种便携式立定跳远测量方法
CN109271462A (zh) * 2018-11-23 2019-01-25 河北航天信息技术有限公司 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法
CN109615426A (zh) * 2018-12-05 2019-04-12 重庆锐云科技有限公司 一种基于客户聚类的营销方法、系统
CN109685092A (zh) * 2018-08-21 2019-04-26 中国平安人寿保险股份有限公司 基于大数据的聚类方法、设备、存储介质及装置
CN109948657A (zh) * 2019-02-25 2019-06-28 湖北同诚通用航空有限公司 基于可见光图像的枯死树木识别方法及设备
CN109977803A (zh) * 2019-03-07 2019-07-05 北京超维度计算科技有限公司 一种基于Kmeans监督学习的人脸识别方法
CN110717551A (zh) * 2019-10-18 2020-01-21 中国电子信息产业集团有限公司第六研究所 流量识别模型的训练方法、装置及电子设备
CN110738272A (zh) * 2019-10-23 2020-01-31 智洋创新科技股份有限公司 一种输电线路通道可视化机械类连续告警样本的标注方法
CN110781963A (zh) * 2019-10-28 2020-02-11 西安电子科技大学 基于K-means聚类的空中目标分群方法
CN110837873A (zh) * 2019-11-18 2020-02-25 上海吉七物联网科技有限公司 一种三维点云聚类的算法
CN111061865A (zh) * 2018-10-17 2020-04-24 武汉斗鱼网络科技有限公司 一种会话场景文本挖掘的方法及计算装置
CN111476449A (zh) * 2019-10-09 2020-07-31 北京交通大学 一种基于改进k均值聚类算法的地铁车站运营时段划分方法
CN111966951A (zh) * 2020-07-06 2020-11-20 东南数字经济发展研究院 一种基于社交电商交易数据的用户群体阶层划分方法
CN112100497A (zh) * 2020-09-14 2020-12-18 北京嘀嘀无限科技发展有限公司 一种数据处理方法、装置、电子设备及可读存储介质
CN112383932A (zh) * 2021-01-12 2021-02-19 华东交通大学 基于分簇的用户关联和资源分配联合优化方法
CN112699913A (zh) * 2020-11-25 2021-04-23 国网湖南省电力有限公司 一种台区户变关系异常诊断方法及装置
CN113301600A (zh) * 2021-07-27 2021-08-24 南京中网卫星通信股份有限公司 卫星与无线通信融合网络性能的异常数据检测方法和装置
CN114462538A (zh) * 2022-02-10 2022-05-10 广东电网有限责任公司 基于kmeans的电网异常设备检测方法及装置
CN114625952A (zh) * 2020-12-10 2022-06-14 中国人民解放军93216部队 一种基于VSM和AMMK-means的信息推荐方法及系统
US11664129B2 (en) 2019-08-13 2023-05-30 International Business Machines Corporation Mini-batch top-k-medoids for extracting specific patterns from CGM data
CN118212001A (zh) * 2024-03-19 2024-06-18 涅生科技(广州)股份有限公司 基于大数据分析的电子商务市场趋势预测系统

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850629A (zh) * 2015-05-21 2015-08-19 杭州天宽科技有限公司 一种基于改进k-means算法的海量智能用电数据分析方法
CN105426387A (zh) * 2015-10-23 2016-03-23 北京锐安科技有限公司 一种基于K-means算法的地图聚合方法
CN105426387B (zh) * 2015-10-23 2020-02-07 北京锐安科技有限公司 一种基于K-means算法的地图聚合方法
WO2017181660A1 (zh) * 2016-04-21 2017-10-26 华为技术有限公司 基于K-Means算法的数据聚类方法和装置
CN106650228B (zh) * 2016-11-08 2019-02-26 浙江理工大学 改进k-means算法的噪声数据去除方法及实施系统
CN106650228A (zh) * 2016-11-08 2017-05-10 浙江理工大学 改进k‑means算法的噪声数据去除方法及实施系统
CN108733003A (zh) * 2017-04-20 2018-11-02 南京理工大学 基于kmeans聚类算法的回转类零件工序工时预测方法及系统
CN107784597A (zh) * 2017-09-19 2018-03-09 平安科技(深圳)有限公司 出行方式识别方法、装置、终端设备及存储介质
CN107886071A (zh) * 2017-11-10 2018-04-06 南京航空航天大学 一种纤维增强复合材料损伤声发射信号的处理方法
CN108268611A (zh) * 2017-12-29 2018-07-10 天津南大通用数据技术股份有限公司 一种基于MapReduce的k-means文本聚类的方法及装置
CN108268611B (zh) * 2017-12-29 2021-03-26 天津南大通用数据技术股份有限公司 一种基于MapReduce的k-means文本聚类的方法及装置
CN108804520A (zh) * 2018-04-27 2018-11-13 厦门快商通信息技术有限公司 一种访客行为分类方法及系统
CN108983251A (zh) * 2018-07-27 2018-12-11 杭州电子科技大学 一种便携式立定跳远测量方法
CN109685092B (zh) * 2018-08-21 2024-02-06 中国平安人寿保险股份有限公司 基于大数据的聚类方法、设备、存储介质及装置
CN109685092A (zh) * 2018-08-21 2019-04-26 中国平安人寿保险股份有限公司 基于大数据的聚类方法、设备、存储介质及装置
CN111061865A (zh) * 2018-10-17 2020-04-24 武汉斗鱼网络科技有限公司 一种会话场景文本挖掘的方法及计算装置
CN109271462A (zh) * 2018-11-23 2019-01-25 河北航天信息技术有限公司 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法
CN109615426A (zh) * 2018-12-05 2019-04-12 重庆锐云科技有限公司 一种基于客户聚类的营销方法、系统
CN109948657A (zh) * 2019-02-25 2019-06-28 湖北同诚通用航空有限公司 基于可见光图像的枯死树木识别方法及设备
CN109977803A (zh) * 2019-03-07 2019-07-05 北京超维度计算科技有限公司 一种基于Kmeans监督学习的人脸识别方法
US11664129B2 (en) 2019-08-13 2023-05-30 International Business Machines Corporation Mini-batch top-k-medoids for extracting specific patterns from CGM data
CN111476449A (zh) * 2019-10-09 2020-07-31 北京交通大学 一种基于改进k均值聚类算法的地铁车站运营时段划分方法
CN111476449B (zh) * 2019-10-09 2022-05-24 北京交通大学 基于改进k均值聚类算法的地铁车站运营时段划分方法
CN110717551A (zh) * 2019-10-18 2020-01-21 中国电子信息产业集团有限公司第六研究所 流量识别模型的训练方法、装置及电子设备
CN110717551B (zh) * 2019-10-18 2023-01-20 中国电子信息产业集团有限公司第六研究所 流量识别模型的训练方法、装置及电子设备
CN110738272A (zh) * 2019-10-23 2020-01-31 智洋创新科技股份有限公司 一种输电线路通道可视化机械类连续告警样本的标注方法
CN110781963A (zh) * 2019-10-28 2020-02-11 西安电子科技大学 基于K-means聚类的空中目标分群方法
CN110781963B (zh) * 2019-10-28 2022-03-04 西安电子科技大学 基于K-means聚类的空中目标分群方法
CN110837873A (zh) * 2019-11-18 2020-02-25 上海吉七物联网科技有限公司 一种三维点云聚类的算法
CN111966951A (zh) * 2020-07-06 2020-11-20 东南数字经济发展研究院 一种基于社交电商交易数据的用户群体阶层划分方法
CN112100497B (zh) * 2020-09-14 2021-10-19 北京嘀嘀无限科技发展有限公司 一种数据处理方法、装置、电子设备及可读存储介质
CN112100497A (zh) * 2020-09-14 2020-12-18 北京嘀嘀无限科技发展有限公司 一种数据处理方法、装置、电子设备及可读存储介质
CN112699913A (zh) * 2020-11-25 2021-04-23 国网湖南省电力有限公司 一种台区户变关系异常诊断方法及装置
CN112699913B (zh) * 2020-11-25 2023-08-29 国网湖南省电力有限公司 一种台区户变关系异常诊断方法及装置
CN114625952A (zh) * 2020-12-10 2022-06-14 中国人民解放军93216部队 一种基于VSM和AMMK-means的信息推荐方法及系统
CN112383932B (zh) * 2021-01-12 2021-04-09 华东交通大学 基于分簇的用户关联和资源分配联合优化方法
CN112383932A (zh) * 2021-01-12 2021-02-19 华东交通大学 基于分簇的用户关联和资源分配联合优化方法
CN113301600A (zh) * 2021-07-27 2021-08-24 南京中网卫星通信股份有限公司 卫星与无线通信融合网络性能的异常数据检测方法和装置
CN114462538A (zh) * 2022-02-10 2022-05-10 广东电网有限责任公司 基于kmeans的电网异常设备检测方法及装置
CN118212001A (zh) * 2024-03-19 2024-06-18 涅生科技(广州)股份有限公司 基于大数据分析的电子商务市场趋势预测系统
CN118212001B (zh) * 2024-03-19 2024-11-08 涅生科技(广州)股份有限公司 基于大数据分析的电子商务市场趋势预测系统

Similar Documents

Publication Publication Date Title
CN104376057A (zh) 一种基于最大最小距离和K-means的自适应聚类方法
CN111553127B (zh) 一种多标记的文本类数据特征选择方法及装置
CN110135494A (zh) 基于最大信息系数和基尼指标的特征选择方法
CN104408483B (zh) 基于深度神经网络的sar纹理图像分类方法
CN110674940B (zh) 一种基于神经网络的多指标异常检测方法
CN109271441B (zh) 一种高维数据可视化聚类分析方法及系统
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN109359135B (zh) 一种基于分段权重的时间序列相似性搜索方法
CN106056134A (zh) 一种基于Spark的半监督随机森林分类方法
Bhatnagar et al. Comparative performance evaluation of clustering algorithms for grouping manufacturing firms
CN107783998A (zh) 一种数据处理的方法以及装置
CN102915451A (zh) 基于混沌不变量的动态纹理识别方法
CN104035983A (zh) 基于属性权重相似度的分类变量聚类方法
CN106919955A (zh) 一种基于密度划分准则的二分k均值算法
CN110378272B (zh) 基于矩阵分块Isomap算法的高光谱遥感影像特征提取方法
CN108985462A (zh) 基于互信息和分形维数的无监督特征选择方法
CN109508735A (zh) 一种基于神经动力学的软间隔支持向量机分类方法
CN108549936A (zh) 基于深度学习的自组织神经网络拓扑保持的增强方法
Liping Feature Selection Algorithm Based On Conditional Dynamic Mutual Information.
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
WO2015109781A1 (zh) 基于期望最大确定统计模型参数的方法和装置
Dou et al. V-SOINN: A topology preserving visualization method for multidimensional data
US20160283862A1 (en) Multi-distance similarity analysis with tri-point arbitration
CN107729918B (zh) 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法
CN107203916B (zh) 一种用户信用模型建立方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150225