[go: up one dir, main page]

CN102955857A - 一种搜索引擎中基于类中心压缩变换的文本聚类方法 - Google Patents

一种搜索引擎中基于类中心压缩变换的文本聚类方法 Download PDF

Info

Publication number
CN102955857A
CN102955857A CN201210447277XA CN201210447277A CN102955857A CN 102955857 A CN102955857 A CN 102955857A CN 201210447277X A CN201210447277X A CN 201210447277XA CN 201210447277 A CN201210447277 A CN 201210447277A CN 102955857 A CN102955857 A CN 102955857A
Authority
CN
China
Prior art keywords
text
class
center
similarity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210447277XA
Other languages
English (en)
Other versions
CN102955857B (zh
Inventor
欧阳元新
谢舒翼
刘文琦
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Haotengzhisheng Technology Co Ltd
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201210447277.XA priority Critical patent/CN102955857B/zh
Publication of CN102955857A publication Critical patent/CN102955857A/zh
Application granted granted Critical
Publication of CN102955857B publication Critical patent/CN102955857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种搜索引擎中基于类中心压缩变换的文本聚类方法,该方法利用改进的tf-idf公式计算文本集中每个文档的词汇权重,计算初始类中心,挖掘同义词组和共现高频词组,计算词汇中心,依据初始类中心与各文档的相似度进行初次分类;根据标题词汇,文章长度,同义词,共现关联词等信息,压缩中心词汇,使得同一个词汇只出现在与其相似高的一些类中心里,利用新的聚类中心对文档集进行重新聚类。计算每个类的核心相似度,对最大的类进行分裂,对较小的类进行合并以产生新的类。对压缩,聚类,分裂操作进行迭代,直到类的个数收敛,且同一个类中的文本与类中心相似度到达一定阈值。本发明聚类精度明显高于传统的KMeans,DBSCAN等方法。

Description

一种搜索引擎中基于类中心压缩变换的文本聚类方法
技术领域
本发明属于文本挖掘,机器学习研究的技术领域,特别涉及一种搜索引擎中基于类中心压缩变换的文本聚类方法,通过结合同义词组,共现关联词组,词汇中心,类中心,标题内容,文档长度等多种因素,对文本集进行反复的聚类、分裂迭代方法来提高聚类精度。该方法适用于搜索引擎,信息检索系统。
背景技术
在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。特别是在互联网上,文本数据广泛地存在于各种形式,如新闻报道、电子图书、研究论文、数字图书馆、网页、电子邮件等等。文本聚类技术可以应用于信息过滤、个性化的信息推荐,使人们能够准确地检索到所需要的信息,缩短信息检索的时间。同时,文本聚类是不需训练集即可划分出类属的一种方法,它能够有效解决文本的自动划分问题。文本聚类由于不需要预先对文本手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。
目前已有的文本聚类方法大部分是基于VSM(文本向量模型)模型来计算文本与文本之间的相似度,在构造文本向量的时候假设词语之间是互相独立的。这种方法忽略了同一篇文档词语和词语之间的关联性,不同文档词语和词语之间的潜在联系等。传统的聚类模型受限制于文档的输入顺序,初始类的个数,最初中心点的选择等多种条件的限制。词语之间的位置聚类和同义词的挖掘也是常规文本聚类方法忽略的内容。因而文档相似度的计算受到影响,致使聚类的结果不够精确。因此,本专利提出的方法将针对数据集的特征提取关键词,去除无意义的词汇,过滤影响因子较小的词汇,挖掘文档主题,同义词组,共现高频词组等潜在语义关系来提高聚类精度,通过压缩中心词汇,利用改进的tf-idf方法来计算词汇间的相似权重,迭代聚类和分裂新类的方法来消除文档输入顺序的影响。最终达到使同类文本相似度尽量大,不同类文本相似度尽量小。
发明内容
本发明要解决的技术问题为:克服现有技术的局限性,提供一种基于类中心压缩变换的文本聚类方法,该方法挖掘文档主题,同义词组,共现高频词组等潜在语义关系,采用类中心压缩,中心重聚类,分裂新类等变换,来提高文本聚类精度。
本发明解决上述技术问题的技术方案为:一种搜索引擎中基于类中心压缩变换的文本聚类方法,该方法包括以下步骤:
步骤1、对聚类文本集中的每一个文本进行分词;
步骤2、去除停用词,过滤影响因子较小的词;
步骤3、计算每个文本中每个词出现的次数tf;
步骤4、计算词语的反文本频率
Figure BDA00002377038200021
其中fileNum是文本的总数,freOccur是出现该词语的文本数量);
步骤5、挖掘同义词组;
步骤6、挖掘共现高频词组,即同时出现在多个不同文本中的词组对;
步骤7、根据同义词组和高频共现词组,产生原始的类中心,每个类中心由一系列高频词汇组成,统计高频词汇的tf和idf,标记高频词汇所属的类中心;
步骤8、计算每个文本的内容长度,提取文章的标题,对标题进行分词;如果没有标题,则标题title设为空;提取段首词语与段尾词汇并加以标记以便后面的加权计算;
步骤9、计算任意两个文本之间的相似度,标题或内容中有相同或同义的词语时增加权重,段首词语与段尾词汇分别赋予不同的权重,计算公式如下:
pureFileSim(i,j)=(contentSimilarity(i,j)+titleSimilarity(i,j)/(log(fileLengthi*fileLengthj));
contentSimilarity ( i , j ) = Σ x , y ( log ( fileKeywodTf ( i , x ) ) + 1 ) * fileKeywodIdf ( i , x ) * ∂ + ( log ( fileKeywodTf ( j , y ) ) + 1 ) * fileKeywodIdf ( j , y ) * ∂ ;
titleSimilarity ( i , j ) = Σ x , y ( fileTitleWordTf ( i , x ) * fileTitleWordIdf ( i , x ) ) * ∂ + ( fileTitleWordTf ( j , y ) * fileTitleWordIdf ( j , y ) ) * ∂ ;
式中:pureFileSim(i,j):文本i与文本j的纯相似度;
contentSimilarity(i,j):文本i与文本j的内容相似度;
titleSimilarity(i,j):文本i与文本j的标题相似度;
fileKeywordTf(x,i):文本i中关键字x的tf;
fileKeywordIdf(x,i):文本i中关键字x的idf;
fileTitleWordTf(j,y):类中心j关键词y的tf;
fileTitleWordIdf(j,y):类中心j关键词y的idf;
fileLengthi:文本i的内容长度;
Figure BDA00002377038200031
步骤10、随机化文本的输入顺序:根据原始聚类中心对聚类文本集进行初始聚类,其算法如下:对每一篇文本,计算它与所有聚类中心的相似度,选择相似度最大的一个聚类中心id作为这个文本所属的类;文本i与类中心j的相似度计算公式如下:
fileSim ( i , j ) = ( Σ fileKeyword ( i , x ) ∈ center j ( log ( fileKeywordIf ( x , i ) ) + 1 ) * fileKeywordIdf ( x , i )
+ Σ fileTitleWord ( i , x ) ∈ center j ( log ( centerKeywordTf ( j , y ) ) + 1 ) * ( centerKeywordIdf ( j , y ) ) / fileContentLength i ;
式中:
fileKeywordTf(x,i):文本i中关键字x的tf;
fileKeywordIdf(x,i):文本i中关键字x的idf;
centerKeywordTf(j,y):类中心j关键词y的tf;
centerKeywordIdf(j,y):类中心j关键词y的idf;
fileContentLengthi:文本i的内容长度;
同时计算与每个词汇最接近的类中心,记录下词汇的wordid;
计算最相似的类中心比第二相似的类中心多出的百分比,记录到文本的diffRatio中;
步骤11、剔除diffRatio小于10%的文本,在剩下的文本中对属于同一个类的文本集进行关键词提取和统计,利用这些词汇重新生成该类的中心;被选的词汇要求tf和idf都不小于某个阈值;更新词汇的中心id,对类中心进行压缩,让同一个词汇只出现在与其相似高的一些类中心里,合并相似度较高的类中心;
步骤12、根据新的聚类中心重新计算每个文本所属的聚类中心,相似度计算同步骤9;
步骤13、计算每个类的核心相似度,尝试对最大的类进行分裂以产生新的类,其分裂算法如下:计算该类中最活跃的文本fx,即其它文本最相似文本中文本fx出现的次数最高,且相似值较大,在类中计算与文本fx相似度最低的文本fy,以fx及与fx最相似的文本集建立新的类中心ctx,以fy及与fy最相似的文本集建立新的类中心cty,对该类中剩下的文本计算其与ctx,cty的相似度,将它们分别并入两者之一;
步骤14、在步骤11的基础上对与类中心相似度较小的文本,根据其大多数词汇的中心id并入属于该id的类;
步骤15.重复步骤10-14,直到类的个数收敛,且同一个类中的文本与类中心相似度到达一定阈值,则终止。
本发明的原理在于:
一种搜索引擎中基于类中心压缩变换的文本聚类方法,改进了传统的tf-idf(termfrequency–inverse document frequency)公式,计算文本集中每个文档的词汇权重,通过大数据集产生初始类中心,挖掘同义词组和共现高频词组,计算词汇中心,文档间的纯相似度及关联相似度,依据初始类中心与各文档的相似度进行初次分类。根据标题词汇,文章长度,同义词,共现关联词,词汇中心,最相似的类中心比第二相似的类中心多出的百分比等信息,压缩中心词汇,使得同一个词汇只出现在与其相似高的一些类中心里,利用新的聚类中心对文档集进行重新聚类。计算每个类的核心相似度,对最大的类进行分裂以产生新的类。对压缩,聚类,分裂操作进行迭代,直到类的个数收敛,且同一个类中的文本与类中心相似度到达一定阈值。
本发明与现有技术相比的优点在于:
在文本聚类的研究领域中,KMeans(K均值方法:给定要构建的划分的数目k,划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分),DBSCAN(将簇看成是数据空间中被低密度区域分割开的高密度对象区域,对于一个簇中的每一文本对象,在其给定半径(用£表示)的领域中包含的文本对象数目不小于某一给定的最小数目(用MinPts表示),只要临近区域的密度(对象的数目)超过某个阈值,就继续聚类)是比较常用的方法。但是都存在一些缺点,如KMeans方法受初始簇中心影响较大,要预先指定聚类数k,容易受孤立点和文件输入顺序的影响。而DBSCAN方法,虽然能发现任意形状的簇,但对参数£和MinPts敏感,容易将同一类型的文本划分成多个不同的类。传统的方法产生的聚类效果都不太理想。
本发明克服了传统方法中所显现出来的缺点,不需要预先指定聚类数目,文档的输入顺序不影响聚类结果,对相似半径等参数不敏感。
附图说明
图1是基于类中心压缩变换的文本聚类方法步骤图;
图2是基于类中心压缩变换的文本聚类方法结构图;
图3是随着初始K值上升KMeans方法和类中心压缩变换方法聚类精度的变化图;
图4是随着类中心相似度半径增长,DBSCAN方法和类中心压缩变换方法聚类数目的变化图;
图5是KMeans方法,DBSCAN方法和类中心压缩变换方法平均聚类精度的对比图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明的一种基于类中心压缩变换的文本聚类方法,其充分挖掘文本词汇之间的潜在语义关联,计算词汇中心,压缩类中心,提高文本聚类的精度。计算类中心与文本的相似度,迭代分裂与合并,重组类中心,直至满足一定标准。所述的挖掘文本词汇之间的潜在语义关联,利用改进的tf-idf来计算文本之间的相似度,以此作为衡量文本词汇间关联度的一项重要指标。同时提取每篇文档的标题并进行分词,对标题词汇的相似度进行加权计算。
tfnew=log(tf)+1
其中fileNum是文本的总数,freOccur是出现该词语的文本数量;
所述的挖掘文本词汇之间的潜在语义关联,挖掘同义词组,共现高频词组(共同出现在多篇文档中)来提高词汇相似度的计算精度,并以此作为初始词汇聚类中心。
所述的计算词汇中心,利用词汇出现在同一篇文档的次数,出现在不同文档的频率,与其近义的词,共现相关词汇等特征,对词汇进行分类标记,计算词汇最接近的词汇中心。
所述的压缩类中心,更新词汇的中心id,对类中心进行压缩,让同一个词汇只出现在与其相似高的一些类中心里。
所述的计算类中心与文本的相似度,随机化文本的输入顺序。根据聚类中心和文本预处理之后的信息计算相似度。对每一篇文本,计算它与所有聚类中心的相似度,选择相似度最大的一个聚类中心id作为这个文本所属的类。
所述的分裂类中心,计算每个类的核心相似度,尝试对最大的类进行分裂以产生新的类。分裂算法如下:计算该类中最活跃的文本fx,即其它文本最相似文本中文本fx出现的次数最高,且相似值较大。在类中计算与文本fx相似度最低的文本。以fx及与fx最相似的文本集建立新的类中心ctx,以fy及与fy最相似的文本集建立新的类中心cty。对该类中剩下的文本计算其与ctx,cty的相似度,将它们分别并入两者之一。
所述的合并类中心,计算类中心之间的相似度,将相似度达到一定标准的类合并,利用这些类的词汇重新生成该类的中心。被选的词汇要求tf和idf都不小于某个阈值。
所述的迭代操作,重复分裂类中心,重组类中心,直到类的个数收敛,且同一个类中的文本与类中心相似度到达一定阈值。
本发明的一种搜索引擎中基于类中心压缩变换的文本聚类方法主要分为以下15个步骤。
1.对聚类文本集中的每一个文本进行分词。
2.去除停用词,过滤影响因子较小的词。
3.计算每个文本中每个词出现的次数tf。
4.计算词语的反文本频率idf。
5.挖掘同义词组。
6.挖掘共现高频词组,即同时出现在多个不同文本中的词组对。
7.根据同义词组和高频共现词组,产生原始的类中心,每个类中心由一系列高频词汇组成,统计高频词汇的tf和idf,标记高频词汇所属的类中心。
8.计算每个文本的内容长度,提取文章的标题(如果没有标题,则title设为空),对标题进行分词;提取段首词语与段尾词汇并加以标记以便后面的加权计算。
9.计算任意两个文本之间的相似度(标题或内容中有相同或同义的词语才增加权重),段首词语与段尾词汇分别赋予不同的权重。计算公式:
pureFileSim(i,j)=(contentSimilarity(i,j)+titleSimilarity(i,j)/(log(fileLengthi*fileLengthj));
contentSimilarity ( i , j ) = Σ x , y ( log ( fileKeywodTf ( i , x ) ) + 1 ) * fileKeywodIdf ( i , x ) * ∂ + ( log ( fileKeywodTf ( j , y ) ) + 1 ) * fileKeywodIdf ( j , y ) * ∂ ;
titleSimilarity ( i , j ) = Σ x , y ( fileTitleWordTf ( i , x ) * fileTitleWordIdf ( i , x ) ) * ∂ + ( fileTitleWordTf ( j , y ) * fileTitleWordIdf ( j , y ) ) * ∂ ;
式中:pureFileSim(i,j):文本i与文本j的纯相似度;
contentSimilarity(i,j):文本i与文本j的内容相似度;
titleSimilarity(i,j):文本i与文本j的标题相似度;
fileKeywordTf(x,i):文本i中关键字x的tf;
fileKeywordIdf(x,i):文本i中关键字x的idf;
fileTitleWordTf(j,y):类中心j关键词y的tf;
fileTitleWordIdf(j,y):类中心j关键词y的idf;
fileLengthi:文本i的内容长度。
Figure BDA00002377038200072
10.随机化文本的输入顺序。根据原始聚类中心对聚类文本集进行初始聚类。算法如下:对每一篇文本,计算它与所有聚类中心的相似度,选择相似度最大的一个聚类中心id作为这个文本所属的类。文本i与类中心j的相似度计算公式如下:
fileSim ( i , j ) = ( Σ fileKeyword ( i , x ) ∈ center j ( log ( fileKeywordIf ( x , i ) ) + 1 ) * fileKeywordIdf ( x , i )
+ Σ fileTitleWord ( i , x ) ∈ center j ( log ( centerKeywordTf ( j , y ) ) + 1 ) * ( centerKeywordIdf ( j , y ) ) / fileContentLength i ;
式中:
fileKeywordTf(x,i):文本i中关键字x的tf
fileKeywordIdf(x,i):文本i中关键字x的idf
centerKeywordTf(j,y):类中心j关键词y的tf
centerKeywordIdf(j,y):类中心j关键词y的idf
fileContentLengthi:文本i的内容长度
同时计算与每个词汇最接近的类中心,记录下词汇的wordid。
计算最相似的类中心比第二相似的类中心多出的百分比,记录到文本的diffRatio中。
11.剔除diffRatio小于10%的文本,在剩下的文本中对属于同一个类的文本集进行关键词提取和统计,利用这些词汇重新生成该类的中心。被选的词汇要求tf和idf都不小于某个阈值。更新词汇的中心id,对类中心进行压缩,让同一个词汇只出现在与其相似高的一些类中心里。合并相似度较高的类中心。
12.根据新的聚类中心重新计算每个文本所属的聚类中心,相似度计算同步骤9。
13.计算每个类的核心相似度,尝试对最大的类进行分裂以产生新的类。分裂算法如下:计算该类中最活跃的文本fx,即其它文本最相似文本中文本fx出现的次数最高,且相似值较大。在类中计算与文本fx相似度最低的文本fy。以fx及与fx最相似的文本集建立新的类中心ctx,以fy及与fy最相似的文本集建立新的类中心cty。对该类中剩下的文本计算其与ctx,cty的相似度,将它们分别并入两者之一。
14.在步骤11的基础上对与类中心相似度较小的文本,根据其大多数词汇的中心id并入属于该id的类。
15.重复步骤10-14,直到类的个数收敛,且同一个类中的文本与类中心相似度到达一定阈值,终止。

Claims (1)

1.一种搜索引擎中基于类中心压缩变换的文本聚类方法,其特征在于:该方法包括以下步骤:
步骤1、对聚类文本集中的每一个文本进行分词;
步骤2、去除停用词,过滤影响因子较小的词;
步骤3、计算每个文本中每个词出现的次数tf;
步骤4、计算词语的反文本频率idf;
步骤5、挖掘同义词组;
步骤6、挖掘共现高频词组,即同时出现在多个不同文本中的词组对;
步骤7、根据同义词组和高频共现词组,产生原始的类中心,每个类中心由一系列高频词汇组成,统计高频词汇的tf和idf,标记高频词汇所属的类中心;
步骤8、计算每个文本的内容长度,提取文章的标题,对标题进行分词;如果没有标题,则标题title设为空;提取段首词语与段尾词汇并加以标记以便后面的加权计算;
步骤9、计算任意两个文本之间的相似度,标题或内容中有相同或同义的词语时增加权重,段首词语与段尾词汇分别赋予不同的权重,计算公式如下:pureFileSim(i,j)=(contentSimilarity(i,j)+titleSimilarity(i,j))/(log(fileLengthi*fileLengthj));
contentSimilarity ( i , j ) = Σ x , y ( log ( fileKeywodTf ( i , x ) ) + 1 ) * fileKeywodIdf ( i , x ) * ∂ + ( log ( fileKeywodTf ( j , y ) ) + 1 ) * fileKeywodIdf ( j , y ) * ∂ ;
titleSimilarity ( i , j ) = Σ x , y ( fileTitleWordTf ( i , x ) * fileTitleWordIdf ( i , x ) ) * ∂ + ( fileTitleWordTf ( j , y ) * fileTitleWordIdf ( j , y ) ) * ∂ ;
式中:pureFileSim(i,j):文本i与文本j的纯相似度;
contentSimilarity(i,j):文本i与文本j的内容相似度;
titleSimilarity(i,j):文本i与文本j的标题相似度;
fileKeywordTf(x,i):文本i中关键字x的tf;
fileKeywordIdf(x,i):文本i中关键字x的idf;
fileTitleWordTf(j,y):类中心j关键词y的tf;
fileTitleWordIdf(j,y):类中心j关键词y的idf;
fileLengthi:文本i的内容长度;
Figure FDA00002377038100021
步骤10、随机化文本的输入顺序:根据原始聚类中心对聚类文本集进行初始聚类,其算法如下:对每一篇文本,计算它与所有聚类中心的相似度,选择相似度最大的一个聚类中心id作为这个文本所属的类;文本i与类中心j的相似度计算公式如下:
fileSim ( i , j ) = ( Σ fileKeyword ( i , x ) ∈ center j ( log ( fileKeywordIf ( x , i ) ) + 1 ) * fileKeywordIdf ( x , i )
+ Σ fileTitleWord ( i , x ) ∈ center j ( log ( centerKeywordTf ( j , y ) ) + 1 ) * ( centerKeywordIdf ( j , y ) ) / fileContentLength i ;
式中:
fileKeywordTf(x,i):文本i中关键字x的tf;
fileKeywordIdf(x,i):文本i中关键字x的idf;
centerKeywordTf(j,y):类中心j关键词y的tf;
centerKeywordIdf(j,y):类中心j关键词y的idf;
fileContentLengthi:文本i的内容长度;
同时计算与每个词汇最接近的类中心,记录下词汇的wordid;
计算最相似的类中心比第二相似的类中心多出的百分比,记录到文本的diffRatio中;
步骤11、剔除diffRatio小于10%的文本,在剩下的文本中对属于同一个类的文本集进行关键词提取和统计,利用这些词汇重新生成该类的中心;被选的词汇要求tf和idf都不小于某个阈值;更新词汇的中心id,对类中心进行压缩,让同一个词汇只出现在与其相似高的一些类中心里,合并相似度较高的类中心;
步骤12、根据新的聚类中心重新计算每个文本所属的聚类中心,相似度计算同步骤9;
步骤13、计算每个类的核心相似度,尝试对最大的类进行分裂以产生新的类,其分裂算法如下:计算该类中最活跃的文本fx,即其它文本最相似文本中文本fx出现的次数最高,且相似值较大,在类中计算与文本fx相似度最低的文本fy,以fx及与fx最相似的文本集建立新的类中心ctx,以fy及与fy最相似的文本集建立新的类中心cty,对该类中剩下的文本计算其与ctx,cty的相似度,将它们分别并入两者之一;
步骤14、在步骤11的基础上对与类中心相似度较小的文本,根据其大多数词汇的中心id并入属于该id的类;
步骤15.重复步骤10-14,直到类的个数收敛,且同一个类中的文本与类中心相似度到达一定阈值,则终止。
CN201210447277.XA 2012-11-09 2012-11-09 一种搜索引擎中基于类中心压缩变换的文本聚类方法 Active CN102955857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210447277.XA CN102955857B (zh) 2012-11-09 2012-11-09 一种搜索引擎中基于类中心压缩变换的文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210447277.XA CN102955857B (zh) 2012-11-09 2012-11-09 一种搜索引擎中基于类中心压缩变换的文本聚类方法

Publications (2)

Publication Number Publication Date
CN102955857A true CN102955857A (zh) 2013-03-06
CN102955857B CN102955857B (zh) 2015-07-08

Family

ID=47764663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210447277.XA Active CN102955857B (zh) 2012-11-09 2012-11-09 一种搜索引擎中基于类中心压缩变换的文本聚类方法

Country Status (1)

Country Link
CN (1) CN102955857B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104216931A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 实时推荐系统及方法
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN106294868A (zh) * 2016-08-23 2017-01-04 达而观信息科技(上海)有限公司 一种基于搜索引擎的个性化推荐方法及系统
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN106778880A (zh) * 2016-12-23 2017-05-31 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN108052659A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备
CN104331510B (zh) * 2014-11-24 2018-09-04 小米科技有限责任公司 信息管理方法和装置
CN110196974A (zh) * 2019-06-11 2019-09-03 吉林大学 一种用于大数据清洗的快速数据聚合方法
CN110750963A (zh) * 2018-07-02 2020-02-04 北京四维图新科技股份有限公司 一种新闻文档去重的方法、装置及存储介质
CN111161819A (zh) * 2019-12-31 2020-05-15 重庆亚德科技股份有限公司 一种中医病历数据处理系统及方法
WO2021109787A1 (zh) * 2019-12-05 2021-06-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质
CN113254584A (zh) * 2021-05-28 2021-08-13 北京明略昭辉科技有限公司 一种文档检索方法、系统、电子设备及存储介质
CN113255341A (zh) * 2021-05-20 2021-08-13 中国传媒大学 一种基于高频共现的热点话题识别方法
CN113673684A (zh) * 2021-08-24 2021-11-19 东北大学 基于输入修剪的边缘端dnn模型加载系统及方法
CN113806524A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种文本内容的层级类目构建和层级结构调整方法及装置
CN114491009A (zh) * 2020-11-11 2022-05-13 中国电信股份有限公司 包含近似词语的文本的分组方法、装置及介质
CN114912534A (zh) * 2022-05-24 2022-08-16 中国电信股份有限公司 一种异常用户检测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640488A (en) * 1995-05-05 1997-06-17 Panasonic Technologies, Inc. System and method for constructing clustered dictionary for speech and text recognition
CN101339553A (zh) * 2008-01-14 2009-01-07 浙江大学 面向海量数据近似快速聚类和索引方法
CN101706790A (zh) * 2009-09-18 2010-05-12 浙江大学 搜索引擎中包含web对象的聚类方法
US7827168B2 (en) * 2007-05-30 2010-11-02 Red Hat, Inc. Index clustering for full text search engines
CN102629272A (zh) * 2012-03-14 2012-08-08 北京邮电大学 一种基于聚类的考试系统试题库优化方法
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640488A (en) * 1995-05-05 1997-06-17 Panasonic Technologies, Inc. System and method for constructing clustered dictionary for speech and text recognition
US7827168B2 (en) * 2007-05-30 2010-11-02 Red Hat, Inc. Index clustering for full text search engines
CN101339553A (zh) * 2008-01-14 2009-01-07 浙江大学 面向海量数据近似快速聚类和索引方法
CN101706790A (zh) * 2009-09-18 2010-05-12 浙江大学 搜索引擎中包含web对象的聚类方法
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN102629272A (zh) * 2012-03-14 2012-08-08 北京邮电大学 一种基于聚类的考试系统试题库优化方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216931A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 实时推荐系统及方法
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104331510B (zh) * 2014-11-24 2018-09-04 小米科技有限责任公司 信息管理方法和装置
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN106294868A (zh) * 2016-08-23 2017-01-04 达而观信息科技(上海)有限公司 一种基于搜索引擎的个性化推荐方法及系统
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN106778880B (zh) * 2016-12-23 2020-04-07 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN106778880A (zh) * 2016-12-23 2017-05-31 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
US11275898B2 (en) 2017-12-28 2022-03-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Search method and device based on artificial intelligence
CN108052659B (zh) * 2017-12-28 2022-03-11 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备
CN108052659A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备
CN110750963B (zh) * 2018-07-02 2023-09-26 北京四维图新科技股份有限公司 一种新闻文档去重的方法、装置及存储介质
CN110750963A (zh) * 2018-07-02 2020-02-04 北京四维图新科技股份有限公司 一种新闻文档去重的方法、装置及存储介质
CN110196974B (zh) * 2019-06-11 2023-07-07 吉林大学 一种用于大数据清洗的快速数据聚合方法
CN110196974A (zh) * 2019-06-11 2019-09-03 吉林大学 一种用于大数据清洗的快速数据聚合方法
WO2021109787A1 (zh) * 2019-12-05 2021-06-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质
US11977838B2 (en) 2019-12-05 2024-05-07 Boe Technology Group Co., Ltd. Synonym mining method, application method of synonym dictionary, medical synonym mining method, application method of medical synonym dictionary, synonym mining device and storage medium
CN111161819A (zh) * 2019-12-31 2020-05-15 重庆亚德科技股份有限公司 一种中医病历数据处理系统及方法
CN113806524A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种文本内容的层级类目构建和层级结构调整方法及装置
CN113806524B (zh) * 2020-06-16 2024-05-24 阿里巴巴集团控股有限公司 一种文本内容的层级类目构建和层级结构调整方法及装置
CN114491009A (zh) * 2020-11-11 2022-05-13 中国电信股份有限公司 包含近似词语的文本的分组方法、装置及介质
CN113255341A (zh) * 2021-05-20 2021-08-13 中国传媒大学 一种基于高频共现的热点话题识别方法
CN113254584A (zh) * 2021-05-28 2021-08-13 北京明略昭辉科技有限公司 一种文档检索方法、系统、电子设备及存储介质
CN113673684A (zh) * 2021-08-24 2021-11-19 东北大学 基于输入修剪的边缘端dnn模型加载系统及方法
CN113673684B (zh) * 2021-08-24 2024-08-02 东北大学 基于输入修剪的边缘端dnn模型加载系统及方法
CN114912534A (zh) * 2022-05-24 2022-08-16 中国电信股份有限公司 一种异常用户检测方法及装置

Also Published As

Publication number Publication date
CN102955857B (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN102955857A (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
US10346257B2 (en) Method and device for deduplicating web page
CN104391835B (zh) 文本中特征词选择方法及装置
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN103761264B (zh) 基于商品评论文档集的概念层次创建方法
CN104462378A (zh) 用于文本识别的数据处理方法及装置
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN106021272A (zh) 基于分布式表达词向量计算的关键词自动提取方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN109960799A (zh) 一种面向短文本的优化分类方法
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN102567308A (zh) 一种信息处理特征提取方法
CN106372208A (zh) 一种基于语句相似度的话题观点聚类方法
CN102033922A (zh) 一种基于词汇链的关键短语抽取方法
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN101894129A (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN104679731A (zh) 提取页面中关键词的方法及装置
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
Campbell et al. Content+ context networks for user classification in twitter
Yang et al. Research on Chinese text classification based on Word2vec
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
Alghamdi et al. Improved text clustering using k-mean bayesian vectoriser

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Ouyang Yuanxin

Inventor after: Yuan Man

Inventor after: Xie Shuyi

Inventor after: Liu Wenqi

Inventor after: Xiong Zhang

Inventor before: Ouyang Yuanxin

Inventor before: Xie Shuyi

Inventor before: Liu Wenqi

Inventor before: Xiong Zhang

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: OUYANG YUANXIN XIE SHUYI LIU WENQI XIONG ZHANG TO: OUYANG YUANXIN YUAN MAN XIE SHUYI LIU WENQI XIONG ZHANG

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200110

Address after: 519080 5th floor, building 8, science and Technology Innovation Park, No.1 Gangwan, Jintang Road, Tangjiawan, Xiangzhou District, Zhuhai City, Guangdong Province

Patentee after: Zhuhai haotengzhisheng Technology Co., Ltd

Address before: 100191 Haidian District, Xueyuan Road, No. 37,

Patentee before: Beijing University of Aeronautics and Astronautics