CN107180075A

CN107180075A - 文本分类集成层次聚类分析的标签自动生成方法

Info

Publication number: CN107180075A
Application number: CN201710249462.0A
Authority: CN
Inventors: 刘东升; 许翀寰
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2017-09-19

Abstract

本发明公开了一种文本分类集成层次聚类分析的标签自动生成方法，包括以下步骤：文本预处理，文本表示，特征降维，选取候选集合，聚类分析：根据所得到的次数最多的候选集合，进行聚类分析，得到聚类簇；排序聚类簇，选择簇代表词得到标签：选取聚类簇中最高的分数作为簇代表词，然后对聚类后的簇进行排序，其对应的聚类代表词串，就是自动生成的标签顺序。本发明通过人工构建了训练语料，以目标类别作为候选集合；再通过聚类分析对候选集合作为关键词，计算相似度，聚类分析，排序聚类簇，选取代表词最后得到用户标签。基于类别和关键词的方法集成可以生成更加准确的标签，对于大规模数据亦或是稀疏性数据、复杂数据处理具有更加显著的效果。

Description

文本分类集成层次聚类分析的标签自动生成方法

技术领域

本发明涉及大数据算法领域，尤其涉及了一种文本分类集成层次聚类分析的标签自动生成方法。

背景技术

大数据时代下，越来越多的互联网企业的兴起，比如微博、QQ等。“标签”是由于互联网上涌入了海量异构的信息内容，为了加强信息的管理和利用而产生的，它是一种信息描述形式。利用标签可以帮助我们更有效的认知各类资源的主题和内容，也有利于对信息的发现、管理、传播和利用。使用标签描述信息资源的核心要素有两点：获取标签和控制标签的质量。标签的数量和质量均对标签的描述能力有较大的影响。对于标签自动生成的方法不光是能够生成标签，标签的质量也是极其重要的一个指标。标签的质量可以从两个维度解释：一是生成的结果是否体现了这件物品或者人物固有的属性或兴趣爱好；二是生成结果是否适合作为标签。当然目前使用比较广泛的baseline系统在一定情况下也能够基本完成这一目标。但是由于方法的某些片面性(比如避免同义标签堆积等)不能够更好的生成更加准确的标签。也是由于一些传统的数据分析和挖掘技术无法满足现有的技术要求，也给实现生成标签带来困难。

现有的标签生成方法有基于类别的生成方法，基于百度百科等生成方法，还有基于关键词的TextRank生成方法。大多是抽取出较为重要的词语，用于生成标签；也有利用词条信息，选取能体现某属性的细粒度类别作为标签。这些方法大多都避免不了同义标签的堆积现象。

发明内容

本发明针对现有技术中同义标签容易出现堆积的缺点，提供了一种文本分类集成层次聚类分析的标签自动生成方法。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

文本分类集成层次聚类分析的标签自动生成方法，包括以下步骤：

对文本预处理：对英文文本和/或中文文本做文本预处理，得到单词；

文本表示：给通过处理得到的单词确定好特征，再建立能描述文本的文本表示模型；

特征降维：进行特征选择，对选取的特征进行降维处理；

选取候选集合：降维处理后，根据区分度来抽取相应类别作为特征，抽取文本集合，对文本集合进行预测，选取出现的次数最多的作为候选集合；

聚类分析：根据所得到的次数最多的候选集合，进行聚类分析，得到聚类簇；

排序聚类簇，选择簇代表词得到标签：选取聚类簇中最高的分数作为簇代表词，然后对聚类后的簇进行排序，其对应的聚类代表词串，就是自动生成的标签顺序。

作为一种可实施方式，所述文本表示模型为经过归一化处理得到的，文本表示模型表示为

公式(1)中，为词项u在文本中的词频，n_u为训练语料中包含词项u的文本数目，N为训练语料中文本的总数，表示文本表示模型。

作为一种可实施方式，所述进行特征选择，对选取的特征进行降维处理，具体过程为：

计算特征项和文本类别之间的相关度，公式如下：

公式2用来计算相关度，其中χ²(u,e)表示特征项和文本类别之间的相关度，

其中，W表示包含特征项u且属于类别e的文本数，X表示包含特征项u但不属于特征项e的文本数，Y表示属于特征项e但不包含u的文本数，Z是既不属于特征项e也不包含u的文本数，N为训练语料的文本总数；

对已经确定的文本类别e进行分类处理，处理的具体过程为：

对文本类别e中文本集合中的任一文档w生成文档长度L，L服从泊松分布；

对于文档w，抽样得到文档上k个隐含主题的多项式分布；

考虑文档中每一个词语，进一步得到更精确的文本类别。

作为一种可实施方式，所述选取候选集合，具体过程为：

根据更精确的文本类别区分度的大小程度，找出明显的特征；

随即抽取文本集合V＝{v₁,...,v_n}，文本数目为n，使用训练的文本分类器进行预测，得到n条文本对应的预测类别列表L＝{l₁,...,l_n}，在预测类别列表上定义一个计数器count(x,L)，x,L∈C，C表示候选集合，返回其在列表中出现的次数，

rank(c)＝count(c,L),c∈C (3)

n表示自然数，c表示候选词，由高到低排序，选取Top(n)，选取Top(n)表示的就是候选集合C。

作为一种可实施方式，所述聚类分析的具体过程：根据所得到的Top(n)候选集合，对Top(n)候选集合进行层次聚类。

作为一种可实施方式，所述对Top(n)候选集合进行层次聚类，层次聚类时根据衡量方式的不同，包括单连接算法、全连接算法和均值距离算法；

所述单连接算法表示为：

单连接算法使用两个簇中最近对象的距离作为簇间的距离，当距离超过设定好的范围值时候聚类终止，其中，r₁、r₂是属于簇P₁、P₂；

所述全连接算法的表示为：

全连接算法是使用两个簇中最远对象的距离作为簇间的距离，当距离超过设定好的范围值时聚类终止，其中，r₁、r₂是属于簇P₁、P₂；

所述均值距离算法表示为：

其中q₁、q₂是两个簇的均值，n₁、n₂分别是两个簇中对象的数目。

作为一种可实施方式，所述排序聚类簇，选择代表词得到标签，具体过程为：

H＝(S,F)代表文本中由词语构成的有向图，S是词语的节点，F是边，S_i表示第i个节点，S_j表示第j个节点，计算节点S_i的分数，计算如下公式：

其中，v表示从给定的一个节点跳向图中随机的一个节点的概率，其数值为0-1之间的值，In(S_i)是节点集合，Out(S_i)是节点S_i指向的节点集合，ω_ij指的是两节点间边的权重，即相当于是一个文本中包含了k个词，选择最高的分数作为簇代表词，簇代表词对应的聚类代表词串，即为标签。

本发明由于采用了以上技术方案，具有显著的技术效果：

本发明在基于文本的标签生成方法的基础上，提出了一种基于文本分类的聚类分析标签自动生成的方法，该方法通过人工构建了训练语料，以目标类别作为候选集合；再通过聚类分析对候选集合作为关键词，计算相似度，聚类分析，排序聚类簇，选取代表词最后得到用户标签。这样通过基于类别和关键词的方法集成可以生成更加准确，更高质量的标签，对于大规模数据亦或是稀疏性数据、复杂数据处理具有更加显著的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的整体流程示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1：

文本分类集成层次聚类分析的标签自动生成方法，如图1所示，包括以下步骤：

S1、对文本预处理：对英文文本和/或中文文本做文本预处理，得到单词；

S2、文本表示：给通过处理得到的单词确定好特征，再建立能描述文本的文本表示模型；

S3、特征降维：进行特征选择，对选取的特征进行降维处理；

S4、选取候选集合：降维处理后，根据区分度来抽取相应类别作为特征，抽取文本集合，对文本集合进行预测，选取出现的次数最多的作为候选集合；

S5、聚类分析：根据所得到的次数最多的候选集合，进行聚类分析，得到聚类簇；

S6、排序聚类簇，选择簇代表词得到标签：选取聚类簇中最高的分数作为簇代表词，然后对聚类后的簇进行排序，其对应的聚类代表词串，就是自动生成的标签顺序。

在S2中，所述文本表示模型为经过归一化处理得到的，文本表示模型表示为

文本分类中常遇到特征维数过高和数据稀疏性的问题，因此要先对特征进行降维，降维之后再进一步对处理后的特征进行分类，步骤S3的具体过程为：

计算特征项和文本类别之间的相关度，公式如下：

对已经确定的文本类别e进行分类处理，处理的具体过程是选用三层贝叶斯概率模型对词、主题和文档进行分类处理，处理过程为：

对于文档w，抽样得到文档上k个隐含主题的多项式分布；

考虑文档中每一个词语，进一步得到更精确的文本类别。

在步骤S4中，所述选取候选集合，具体过程为：

rank(c)＝count(c,L),c∈C (3)

n表示自然数，c表示候选词，由高到低排序，选取Top(n)，选取Top(n)表示的就是候选集合C，根据所得到的Top(n)候选集合，对Top(n)候选集合进行层次聚类，所述对Top(n)候选集合进行层次聚类；

在层次聚类时，可以根据衡量方式的不同，层次聚类包括单连接算法、全连接算法和均值距离算法；

所述单连接算法表示为：

所述全连接算法的表示为：

所述均值距离算法表示为：

在步骤S6中，所述排序聚类簇，选择代表词得到标签，具体过程为：

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.文本分类集成层次聚类分析的标签自动生成方法，其特征在于包括以下步骤：

特征降维：进行特征选择，对选取的特征进行降维处理；

2.根据权利要求1所述的文本分类集成层次聚类分析的标签自动生成方法，其特征在于：所述文本表示模型为经过归一化处理得到的，文本表示模型表示为

<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mover> <mi>d</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>u</mi> <mi>f</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mover> <mi>d</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>u</mi> </msub> </mfrac> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> </mrow> <msup> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>&lsqb;</mo> <mi>u</mi> <mi>f</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mover> <mi>d</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>u</mi> </msub> </mfrac> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> </msqrt> <mn>2</mn> </msup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

3.根据权利要求2所述的文本分类集成层次聚类分析的标签自动生成方法，其特征在于：所述进行特征选择，对选取的特征进行降维处理，具体过程为：

计算特征项和文本类别之间的相关度，公式如下：

对已经确定的文本类别e进行分类处理，处理的具体过程为：

对于文档w，抽样得到文档上k个隐含主题的多项式分布；

考虑文档中每一个词语，进一步得到更精确的文本类别。

4.根据权利要求3所述的文本分类集成层次聚类分析的标签自动生成方法，其特征在于：所述选取候选集合，具体过程为：

rank(c)＝count(c,L),c∈C (3)

5.根据权利要求4所述的文本分类集成层次聚类分析的标签自动生成方法，其特征在于：所述聚类分析的具体过程：根据所得到的Top(n)候选集合，对Top(n)候选集合进行层次聚类。

6.根据权利要求5所述的文本分类集成层次聚类分析的标签自动生成方法，其特征在于：所述对Top(n)候选集合进行层次聚类，层次聚类时根据衡量方式的不同，包括单连接算法、全连接算法和均值距离算法；

所述单连接算法表示为：

<mrow> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>P</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>min</mi> <mrow> <msub> <mi>r</mi> <mn>1</mn> </msub> <mo>&Element;</mo> <msub> <mi>P</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>r</mi> <mn>2</mn> </msub> <mo>&Element;</mo> <msub> <mi>P</mi> <mn>2</mn> </msub> </mrow> </msub> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>r</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

所述全连接算法的表示为：

<mrow> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>P</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>max</mi> <mrow> <msub> <mi>r</mi> <mn>1</mn> </msub> <mo>&Element;</mo> <msub> <mi>P</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>r</mi> <mn>2</mn> </msub> <mo>&Element;</mo> <msub> <mi>P</mi> <mn>2</mn> </msub> </mrow> </msub> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>r</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

所述均值距离算法表示为：

d(P₁,P₂)＝d(q₁,q₂)，

7.根据权利要求6所述的文本分类集成层次聚类分析的标签自动生成方法，其特征在于，所述排序聚类簇，选择代表词得到标签，具体过程为：

<mrow> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>v</mi> <mo>*</mo> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>I</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <msub> <mi>&omega;</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mo>*</mo> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>S</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <mi>O</mi> <mi>u</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <msub> <mi>&omega;</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>