CN107180075A - 文本分类集成层次聚类分析的标签自动生成方法 - Google Patents
文本分类集成层次聚类分析的标签自动生成方法 Download PDFInfo
- Publication number
- CN107180075A CN107180075A CN201710249462.0A CN201710249462A CN107180075A CN 107180075 A CN107180075 A CN 107180075A CN 201710249462 A CN201710249462 A CN 201710249462A CN 107180075 A CN107180075 A CN 107180075A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- text
- clusters
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本分类集成层次聚类分析的标签自动生成方法,包括以下步骤:文本预处理,文本表示,特征降维,选取候选集合,聚类分析:根据所得到的次数最多的候选集合,进行聚类分析,得到聚类簇;排序聚类簇,选择簇代表词得到标签:选取聚类簇中最高的分数作为簇代表词,然后对聚类后的簇进行排序,其对应的聚类代表词串,就是自动生成的标签顺序。本发明通过人工构建了训练语料,以目标类别作为候选集合;再通过聚类分析对候选集合作为关键词,计算相似度,聚类分析,排序聚类簇,选取代表词最后得到用户标签。基于类别和关键词的方法集成可以生成更加准确的标签,对于大规模数据亦或是稀疏性数据、复杂数据处理具有更加显著的效果。
Description
技术领域
本发明涉及大数据算法领域,尤其涉及了一种文本分类集成层次聚类分析的标签自动生成方法。
背景技术
大数据时代下,越来越多的互联网企业的兴起,比如微博、QQ等。“标签”是由于互联网上涌入了海量异构的信息内容,为了加强信息的管理和利用而产生的,它是一种信息描述形式。利用标签可以帮助我们更有效的认知各类资源的主题和内容,也有利于对信息的发现、管理、传播和利用。使用标签描述信息资源的核心要素有两点:获取标签和控制标签的质量。标签的数量和质量均对标签的描述能力有较大的影响。对于标签自动生成的方法不光是能够生成标签,标签的质量也是极其重要的一个指标。标签的质量可以从两个维度解释:一是生成的结果是否体现了这件物品或者人物固有的属性或兴趣爱好;二是生成结果是否适合作为标签。当然目前使用比较广泛的baseline系统在一定情况下也能够基本完成这一目标。但是由于方法的某些片面性(比如避免同义标签堆积等)不能够更好的生成更加准确的标签。也是由于一些传统的数据分析和挖掘技术无法满足现有的技术要求,也给实现生成标签带来困难。
现有的标签生成方法有基于类别的生成方法,基于百度百科等生成方法,还有基于关键词的TextRank生成方法。大多是抽取出较为重要的词语,用于生成标签;也有利用词条信息,选取能体现某属性的细粒度类别作为标签。这些方法大多都避免不了同义标签的堆积现象。
发明内容
本发明针对现有技术中同义标签容易出现堆积的缺点,提供了一种文本分类集成层次聚类分析的标签自动生成方法。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
文本分类集成层次聚类分析的标签自动生成方法,包括以下步骤:
对文本预处理:对英文文本和/或中文文本做文本预处理,得到单词;
文本表示:给通过处理得到的单词确定好特征,再建立能描述文本的文本表示模型;
特征降维:进行特征选择,对选取的特征进行降维处理;
选取候选集合:降维处理后,根据区分度来抽取相应类别作为特征,抽取文本集合,对文本集合进行预测,选取出现的次数最多的作为候选集合;
聚类分析:根据所得到的次数最多的候选集合,进行聚类分析,得到聚类簇;
排序聚类簇,选择簇代表词得到标签:选取聚类簇中最高的分数作为簇代表词,然后对聚类后的簇进行排序,其对应的聚类代表词串,就是自动生成的标签顺序。
作为一种可实施方式,所述文本表示模型为经过归一化处理得到的,文本表示模型表示为
公式(1)中,为词项u在文本中的词频,nu为训练语料中包含词项u的文本数目,N为训练语料中文本的总数,表示文本表示模型。
作为一种可实施方式,所述进行特征选择,对选取的特征进行降维处理,具体过程为:
计算特征项和文本类别之间的相关度,公式如下:
公式2用来计算相关度,其中χ2(u,e)表示特征项和文本类别之间的相关度,
其中,W表示包含特征项u且属于类别e的文本数,X表示包含特征项u但不属于特征项e的文本数,Y表示属于特征项e但不包含u的文本数,Z是既不属于特征项e也不包含u的文本数,N为训练语料的文本总数;
对已经确定的文本类别e进行分类处理,处理的具体过程为:
对文本类别e中文本集合中的任一文档w生成文档长度L,L服从泊松分布;
对于文档w,抽样得到文档上k个隐含主题的多项式分布;
考虑文档中每一个词语,进一步得到更精确的文本类别。
作为一种可实施方式,所述选取候选集合,具体过程为:
根据更精确的文本类别区分度的大小程度,找出明显的特征;
随即抽取文本集合V={v1,...,vn},文本数目为n,使用训练的文本分类器进行预测,得到n条文本对应的预测类别列表L={l1,...,ln},在预测类别列表上定义一个计数器count(x,L),x,L∈C,C表示候选集合,返回其在列表中出现的次数,
rank(c)=count(c,L),c∈C (3)
n表示自然数,c表示候选词,由高到低排序,选取Top(n),选取Top(n)表示的就是候选集合C。
作为一种可实施方式,所述聚类分析的具体过程:根据所得到的Top(n)候选集合,对Top(n)候选集合进行层次聚类。
作为一种可实施方式,所述对Top(n)候选集合进行层次聚类,层次聚类时根据衡量方式的不同,包括单连接算法、全连接算法和均值距离算法;
所述单连接算法表示为:
单连接算法使用两个簇中最近对象的距离作为簇间的距离,当距离超过设定好的范围值时候聚类终止,其中,r1、r2是属于簇P1、P2;
所述全连接算法的表示为:
全连接算法是使用两个簇中最远对象的距离作为簇间的距离,当距离超过设定好的范围值时聚类终止,其中,r1、r2是属于簇P1、P2;
所述均值距离算法表示为:
其中q1、q2是两个簇的均值,n1、n2分别是两个簇中对象的数目。
作为一种可实施方式,所述排序聚类簇,选择代表词得到标签,具体过程为:
H=(S,F)代表文本中由词语构成的有向图,S是词语的节点,F是边,Si表示第i个节点,Sj表示第j个节点,计算节点Si的分数,计算如下公式:
其中,v表示从给定的一个节点跳向图中随机的一个节点的概率,其数值为0-1之间的值,In(Si)是节点集合,Out(Si)是节点Si指向的节点集合,ωij指的是两节点间边的权重,即相当于是一个文本中包含了k个词,选择最高的分数作为簇代表词,簇代表词对应的聚类代表词串,即为标签。
本发明由于采用了以上技术方案,具有显著的技术效果:
本发明在基于文本的标签生成方法的基础上,提出了一种基于文本分类的聚类分析标签自动生成的方法,该方法通过人工构建了训练语料,以目标类别作为候选集合;再通过聚类分析对候选集合作为关键词,计算相似度,聚类分析,排序聚类簇,选取代表词最后得到用户标签。这样通过基于类别和关键词的方法集成可以生成更加准确,更高质量的标签,对于大规模数据亦或是稀疏性数据、复杂数据处理具有更加显著的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的整体流程示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1:
文本分类集成层次聚类分析的标签自动生成方法,如图1所示,包括以下步骤:
文本分类集成层次聚类分析的标签自动生成方法,包括以下步骤:
S1、对文本预处理:对英文文本和/或中文文本做文本预处理,得到单词;
S2、文本表示:给通过处理得到的单词确定好特征,再建立能描述文本的文本表示模型;
S3、特征降维:进行特征选择,对选取的特征进行降维处理;
S4、选取候选集合:降维处理后,根据区分度来抽取相应类别作为特征,抽取文本集合,对文本集合进行预测,选取出现的次数最多的作为候选集合;
S5、聚类分析:根据所得到的次数最多的候选集合,进行聚类分析,得到聚类簇;
S6、排序聚类簇,选择簇代表词得到标签:选取聚类簇中最高的分数作为簇代表词,然后对聚类后的簇进行排序,其对应的聚类代表词串,就是自动生成的标签顺序。
在S2中,所述文本表示模型为经过归一化处理得到的,文本表示模型表示为
公式(1)中,为词项u在文本中的词频,nu为训练语料中包含词项u的文本数目,N为训练语料中文本的总数,表示文本表示模型。
文本分类中常遇到特征维数过高和数据稀疏性的问题,因此要先对特征进行降维,降维之后再进一步对处理后的特征进行分类,步骤S3的具体过程为:
计算特征项和文本类别之间的相关度,公式如下:
公式2用来计算相关度,其中χ2(u,e)表示特征项和文本类别之间的相关度,
其中,W表示包含特征项u且属于类别e的文本数,X表示包含特征项u但不属于特征项e的文本数,Y表示属于特征项e但不包含u的文本数,Z是既不属于特征项e也不包含u的文本数,N为训练语料的文本总数;
对已经确定的文本类别e进行分类处理,处理的具体过程是选用三层贝叶斯概率模型对词、主题和文档进行分类处理,处理过程为:
对文本类别e中文本集合中的任一文档w生成文档长度L,L服从泊松分布;
对于文档w,抽样得到文档上k个隐含主题的多项式分布;
考虑文档中每一个词语,进一步得到更精确的文本类别。
在步骤S4中,所述选取候选集合,具体过程为:
根据更精确的文本类别区分度的大小程度,找出明显的特征;
随即抽取文本集合V={v1,...,vn},文本数目为n,使用训练的文本分类器进行预测,得到n条文本对应的预测类别列表L={l1,...,ln},在预测类别列表上定义一个计数器count(x,L),x,L∈C,C表示候选集合,返回其在列表中出现的次数,
rank(c)=count(c,L),c∈C (3)
n表示自然数,c表示候选词,由高到低排序,选取Top(n),选取Top(n)表示的就是候选集合C,根据所得到的Top(n)候选集合,对Top(n)候选集合进行层次聚类,所述对Top(n)候选集合进行层次聚类;
在层次聚类时,可以根据衡量方式的不同,层次聚类包括单连接算法、全连接算法和均值距离算法;
所述单连接算法表示为:
单连接算法使用两个簇中最近对象的距离作为簇间的距离,当距离超过设定好的范围值时候聚类终止,其中,r1、r2是属于簇P1、P2;
所述全连接算法的表示为:
全连接算法是使用两个簇中最远对象的距离作为簇间的距离,当距离超过设定好的范围值时聚类终止,其中,r1、r2是属于簇P1、P2;
所述均值距离算法表示为:
其中q1、q2是两个簇的均值,n1、n2分别是两个簇中对象的数目。
在步骤S6中,所述排序聚类簇,选择代表词得到标签,具体过程为:
H=(S,F)代表文本中由词语构成的有向图,S是词语的节点,F是边,Si表示第i个节点,Sj表示第j个节点,计算节点Si的分数,计算如下公式:
其中,v表示从给定的一个节点跳向图中随机的一个节点的概率,其数值为0-1之间的值,In(Si)是节点集合,Out(Si)是节点Si指向的节点集合,ωij指的是两节点间边的权重,即相当于是一个文本中包含了k个词,选择最高的分数作为簇代表词,簇代表词对应的聚类代表词串,即为标签。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (7)
1.文本分类集成层次聚类分析的标签自动生成方法,其特征在于包括以下步骤:
对文本预处理:对英文文本和/或中文文本做文本预处理,得到单词;
文本表示:给通过处理得到的单词确定好特征,再建立能描述文本的文本表示模型;
特征降维:进行特征选择,对选取的特征进行降维处理;
选取候选集合:降维处理后,根据区分度来抽取相应类别作为特征,抽取文本集合,对文本集合进行预测,选取出现的次数最多的作为候选集合;
聚类分析:根据所得到的次数最多的候选集合,进行聚类分析,得到聚类簇;
排序聚类簇,选择簇代表词得到标签:选取聚类簇中最高的分数作为簇代表词,然后对聚类后的簇进行排序,其对应的聚类代表词串,就是自动生成的标签顺序。
2.根据权利要求1所述的文本分类集成层次聚类分析的标签自动生成方法,其特征在于:所述文本表示模型为经过归一化处理得到的,文本表示模型表示为
<mrow>
<mi>w</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mover>
<mi>d</mi>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>u</mi>
<mi>f</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mover>
<mi>d</mi>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>*</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mi>N</mi>
<msub>
<mi>n</mi>
<mi>u</mi>
</msub>
</mfrac>
<mo>+</mo>
<mn>0.01</mn>
<mo>)</mo>
</mrow>
</mrow>
<msup>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>u</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mo>&lsqb;</mo>
<mi>u</mi>
<mi>f</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mover>
<mi>d</mi>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>*</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mi>N</mi>
<msub>
<mi>n</mi>
<mi>u</mi>
</msub>
</mfrac>
<mo>+</mo>
<mn>0.01</mn>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
</msqrt>
<mn>2</mn>
</msup>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
公式(1)中,为词项u在文本中的词频,nu为训练语料中包含词项u的文本数目,N为训练语料中文本的总数,表示文本表示模型。
3.根据权利要求2所述的文本分类集成层次聚类分析的标签自动生成方法,其特征在于:所述进行特征选择,对选取的特征进行降维处理,具体过程为:
计算特征项和文本类别之间的相关度,公式如下:
<mrow>
<msup>
<mi>&chi;</mi>
<mn>2</mn>
</msup>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>e</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mo>*</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mi>Z</mi>
<mo>-</mo>
<mi>X</mi>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>+</mo>
<mi>Y</mi>
<mo>)</mo>
<mo>(</mo>
<mi>X</mi>
<mo>+</mo>
<mi>Z</mi>
<mo>)</mo>
<mo>(</mo>
<mi>W</mi>
<mo>+</mo>
<mi>X</mi>
<mo>)</mo>
<mo>(</mo>
<mi>Y</mi>
<mo>+</mo>
<mi>Z</mi>
<mo>)</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
公式2用来计算相关度,其中χ2(u,e)表示特征项和文本类别之间的相关度,
其中,W表示包含特征项u且属于类别e的文本数,X表示包含特征项u但不属于特征项e的文本数,Y表示属于特征项e但不包含u的文本数,Z是既不属于特征项e也不包含u的文本数,N为训练语料的文本总数;
对已经确定的文本类别e进行分类处理,处理的具体过程为:
对文本类别e中文本集合中的任一文档w生成文档长度L,L服从泊松分布;
对于文档w,抽样得到文档上k个隐含主题的多项式分布;
考虑文档中每一个词语,进一步得到更精确的文本类别。
4.根据权利要求3所述的文本分类集成层次聚类分析的标签自动生成方法,其特征在于:所述选取候选集合,具体过程为:
根据更精确的文本类别区分度的大小程度,找出明显的特征;
随即抽取文本集合V={v1,...,vn},文本数目为n,使用训练的文本分类器进行预测,得到n条文本对应的预测类别列表L={l1,...,ln},在预测类别列表上定义一个计数器count(x,L),x,L∈C,C表示候选集合,返回其在列表中出现的次数,
rank(c)=count(c,L),c∈C (3)
n表示自然数,c表示候选词,由高到低排序,选取Top(n),选取Top(n)表示的就是候选集合C。
5.根据权利要求4所述的文本分类集成层次聚类分析的标签自动生成方法,其特征在于:所述聚类分析的具体过程:根据所得到的Top(n)候选集合,对Top(n)候选集合进行层次聚类。
6.根据权利要求5所述的文本分类集成层次聚类分析的标签自动生成方法,其特征在于:所述对Top(n)候选集合进行层次聚类,层次聚类时根据衡量方式的不同,包括单连接算法、全连接算法和均值距离算法;
所述单连接算法表示为:
<mrow>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>P</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>P</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>min</mi>
<mrow>
<msub>
<mi>r</mi>
<mn>1</mn>
</msub>
<mo>&Element;</mo>
<msub>
<mi>P</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>r</mi>
<mn>2</mn>
</msub>
<mo>&Element;</mo>
<msub>
<mi>P</mi>
<mn>2</mn>
</msub>
</mrow>
</msub>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>r</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>r</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
单连接算法使用两个簇中最近对象的距离作为簇间的距离,当距离超过设定好的范围值时候聚类终止,其中,r1、r2是属于簇P1、P2;
所述全连接算法的表示为:
<mrow>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>P</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>P</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>max</mi>
<mrow>
<msub>
<mi>r</mi>
<mn>1</mn>
</msub>
<mo>&Element;</mo>
<msub>
<mi>P</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>r</mi>
<mn>2</mn>
</msub>
<mo>&Element;</mo>
<msub>
<mi>P</mi>
<mn>2</mn>
</msub>
</mrow>
</msub>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>r</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>r</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
全连接算法是使用两个簇中最远对象的距离作为簇间的距离,当距离超过设定好的范围值时聚类终止,其中,r1、r2是属于簇P1、P2;
所述均值距离算法表示为:
d(P1,P2)=d(q1,q2),
其中q1、q2是两个簇的均值,n1、n2分别是两个簇中对象的数目。
7.根据权利要求6所述的文本分类集成层次聚类分析的标签自动生成方法,其特征在于,所述排序聚类簇,选择代表词得到标签,具体过程为:
H=(S,F)代表文本中由词语构成的有向图,S是词语的节点,F是边,Si表示第i个节点,Sj表示第j个节点,计算节点Si的分数,计算如下公式:
<mrow>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>v</mi>
<mo>*</mo>
<munder>
<mi>&Sigma;</mi>
<mrow>
<msub>
<mi>S</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>I</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mfrac>
<mrow>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>j</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>*</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munder>
<mi>&Sigma;</mi>
<mrow>
<msub>
<mi>S</mi>
<mi>k</mi>
</msub>
<mo>&Element;</mo>
<mi>O</mi>
<mi>u</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>&omega;</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,v表示从给定的一个节点跳向图中随机的一个节点的概率,其数值为0-1之间的值,In(Si)是节点集合,Out(Si)是节点Si指向的节点集合,ωij指的是两节点间边的权重,即相当于是一个文本中包含了k个词,选择最高的分数作为簇代表词,簇代表词对应的聚类代表词串,即为标签。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710249462.0A CN107180075A (zh) | 2017-04-17 | 2017-04-17 | 文本分类集成层次聚类分析的标签自动生成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710249462.0A CN107180075A (zh) | 2017-04-17 | 2017-04-17 | 文本分类集成层次聚类分析的标签自动生成方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN107180075A true CN107180075A (zh) | 2017-09-19 |
Family
ID=59831984
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710249462.0A Pending CN107180075A (zh) | 2017-04-17 | 2017-04-17 | 文本分类集成层次聚类分析的标签自动生成方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN107180075A (zh) |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107784105A (zh) * | 2017-10-26 | 2018-03-09 | 平安科技(深圳)有限公司 | 基于海量问题的知识库构建方法、电子装置及存储介质 |
| CN108062377A (zh) * | 2017-12-12 | 2018-05-22 | 百度在线网络技术(北京)有限公司 | 标签图片集的建立、标签的确定方法、装置、设备及介质 |
| CN108446276A (zh) * | 2018-03-21 | 2018-08-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌单关键词的方法和装置 |
| CN108595585A (zh) * | 2018-04-18 | 2018-09-28 | 平安科技(深圳)有限公司 | 样本数据分类方法、模型训练方法、电子设备及存储介质 |
| CN110188189A (zh) * | 2019-05-21 | 2019-08-30 | 浙江工商大学 | 一种基于知识的自适应事件索引认知模型提取文档摘要的方法 |
| CN110297901A (zh) * | 2019-05-14 | 2019-10-01 | 广州数说故事信息科技有限公司 | 基于距离参数的大规模文本聚类方法 |
| CN111738009A (zh) * | 2019-03-19 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
| CN111797945A (zh) * | 2020-08-21 | 2020-10-20 | 成都数联铭品科技有限公司 | 一种文本分类方法 |
| CN112860900A (zh) * | 2021-03-23 | 2021-05-28 | 上海壁仞智能科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
| CN113920536A (zh) * | 2021-10-12 | 2022-01-11 | 广东电网有限责任公司广州供电局 | 一种基于在线层次聚类的无监督行人重识别方法 |
| CN114443850A (zh) * | 2022-04-06 | 2022-05-06 | 杭州费尔斯通科技有限公司 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
| CN114676796A (zh) * | 2022-05-27 | 2022-06-28 | 浙江清大科技有限公司 | 一种基于大数据的聚类采集与识别的系统 |
| CN114722195A (zh) * | 2022-03-24 | 2022-07-08 | 阳光保险集团股份有限公司 | 文本数据的标注方法、装置和电子设备 |
| CN115577715A (zh) * | 2022-10-27 | 2023-01-06 | 深圳市东信时代信息技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
| CN115600610A (zh) * | 2022-11-09 | 2023-01-13 | 平安国际融资租赁有限公司(Cn) | 客户意图分析方法、系统、设备及存储介质 |
| CN116484079A (zh) * | 2022-01-14 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 属性词挖掘方法及相关产品 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
| CN104391835A (zh) * | 2014-09-30 | 2015-03-04 | 中南大学 | 文本中特征词选择方法及装置 |
| CN104834940A (zh) * | 2015-05-12 | 2015-08-12 | 杭州电子科技大学 | 一种基于支持向量机的医疗影像检查疾病分类方法 |
| CN106104512A (zh) * | 2013-09-19 | 2016-11-09 | 西斯摩斯公司 | 用于主动获取社交数据的系统和方法 |
-
2017
- 2017-04-17 CN CN201710249462.0A patent/CN107180075A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
| CN106104512A (zh) * | 2013-09-19 | 2016-11-09 | 西斯摩斯公司 | 用于主动获取社交数据的系统和方法 |
| CN104391835A (zh) * | 2014-09-30 | 2015-03-04 | 中南大学 | 文本中特征词选择方法及装置 |
| CN104834940A (zh) * | 2015-05-12 | 2015-08-12 | 杭州电子科技大学 | 一种基于支持向量机的医疗影像检查疾病分类方法 |
Non-Patent Citations (2)
| Title |
|---|
| 吕海燕等: "基于聚类分析的微博用户标签自动生成", 《电子设计工程》 * |
| 宋巍等: "基于微博分类的用户兴趣识别", 《智能计算机与应用》 * |
Cited By (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107784105A (zh) * | 2017-10-26 | 2018-03-09 | 平安科技(深圳)有限公司 | 基于海量问题的知识库构建方法、电子装置及存储介质 |
| CN108062377A (zh) * | 2017-12-12 | 2018-05-22 | 百度在线网络技术(北京)有限公司 | 标签图片集的建立、标签的确定方法、装置、设备及介质 |
| CN108446276A (zh) * | 2018-03-21 | 2018-08-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌单关键词的方法和装置 |
| CN108595585A (zh) * | 2018-04-18 | 2018-09-28 | 平安科技(深圳)有限公司 | 样本数据分类方法、模型训练方法、电子设备及存储介质 |
| CN111738009A (zh) * | 2019-03-19 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
| CN111738009B (zh) * | 2019-03-19 | 2023-10-20 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
| CN110297901B (zh) * | 2019-05-14 | 2023-11-17 | 广州数说故事信息科技有限公司 | 基于距离参数的大规模文本聚类方法 |
| CN110297901A (zh) * | 2019-05-14 | 2019-10-01 | 广州数说故事信息科技有限公司 | 基于距离参数的大规模文本聚类方法 |
| CN110188189B (zh) * | 2019-05-21 | 2021-10-08 | 浙江工商大学 | 一种基于知识的自适应事件索引认知模型提取文档摘要的方法 |
| CN110188189A (zh) * | 2019-05-21 | 2019-08-30 | 浙江工商大学 | 一种基于知识的自适应事件索引认知模型提取文档摘要的方法 |
| CN111797945B (zh) * | 2020-08-21 | 2020-12-15 | 成都数联铭品科技有限公司 | 一种文本分类方法 |
| CN111797945A (zh) * | 2020-08-21 | 2020-10-20 | 成都数联铭品科技有限公司 | 一种文本分类方法 |
| CN112860900A (zh) * | 2021-03-23 | 2021-05-28 | 上海壁仞智能科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
| CN113920536A (zh) * | 2021-10-12 | 2022-01-11 | 广东电网有限责任公司广州供电局 | 一种基于在线层次聚类的无监督行人重识别方法 |
| CN116484079A (zh) * | 2022-01-14 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 属性词挖掘方法及相关产品 |
| CN114722195A (zh) * | 2022-03-24 | 2022-07-08 | 阳光保险集团股份有限公司 | 文本数据的标注方法、装置和电子设备 |
| CN114443850B (zh) * | 2022-04-06 | 2022-07-22 | 杭州费尔斯通科技有限公司 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
| CN114443850A (zh) * | 2022-04-06 | 2022-05-06 | 杭州费尔斯通科技有限公司 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
| CN114676796B (zh) * | 2022-05-27 | 2022-09-06 | 浙江清大科技有限公司 | 一种基于大数据的聚类采集与识别的系统 |
| CN114676796A (zh) * | 2022-05-27 | 2022-06-28 | 浙江清大科技有限公司 | 一种基于大数据的聚类采集与识别的系统 |
| CN115577715A (zh) * | 2022-10-27 | 2023-01-06 | 深圳市东信时代信息技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
| CN115600610A (zh) * | 2022-11-09 | 2023-01-13 | 平安国际融资租赁有限公司(Cn) | 客户意图分析方法、系统、设备及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107180075A (zh) | 文本分类集成层次聚类分析的标签自动生成方法 | |
| Liang et al. | Two-stage three-way enhanced technique for ensemble learning in inclusive policy text classification | |
| CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
| CN107577785B (zh) | 一种适用于法律识别的层次多标签分类方法 | |
| Noh et al. | Keyword selection and processing strategy for applying text mining to patent analysis | |
| US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
| CN114265935B (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
| CN105389354B (zh) | 面向社交媒体文本的无监督的事件抽取和分类方法 | |
| CN108052593A (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
| CN104036010B (zh) | 一种基于半监督cbow的用户搜索词主题分类的方法 | |
| CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
| CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
| CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
| CN105760493A (zh) | 一种电力营销服务热点95598工单自动分类方法 | |
| CN101694670A (zh) | 一种基于公共子串的中文Web文档在线聚类方法 | |
| CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
| CN101004761A (zh) | 大规模文本逐次二分的层次聚类方法 | |
| CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
| WO2020063071A1 (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
| CN107391565A (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
| CN114997288A (zh) | 一种设计资源关联方法 | |
| Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
| Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
| US20240168999A1 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
| CN112417082B (zh) | 一种科研成果数据消歧归档存储方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170919 |