CN102831119B

CN102831119B - 短文本聚类设备及方法

Info

Publication number: CN102831119B
Application number: CN201110160561.4A
Authority: CN
Inventors: 赵凯; 胡长建; 王大亮; 许洪志
Original assignee: NEC China Co Ltd
Current assignee: Data Hall (beijing) Polytron Technologies Inc
Priority date: 2011-06-15
Filing date: 2011-06-15
Publication date: 2016-08-17
Anticipated expiration: 2031-06-15
Also published as: CN102831119A

Abstract

本发明提供了一种短文本聚类设备，包括：主题分析单元，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性；向量生成单元，将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化，以生成向量；以及聚类单元，基于生成的向量对短文本集合中的短文本进行聚类。本发明还提供了一种短文本聚类方法。本发明实现了辅助文本主题和短文本主题的各自发现，从而能够更准确地对短文本进行聚类。

Description

短文本聚类设备及方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种短文本聚类设备及方法。

背景技术

随着手机短信、微博、搜索引擎、在线广告等的广泛应用，短文本被人们使用的越来越频繁，这些文本通常较短，例如一条手机短信不能超过70个字，搜索引擎返回的结果一般也只有几十个字。

短文本与长文本(例如新闻)有较大的区别。例如，在长文本环境下，一个主题可以被充分地描述，因而人们可以从这个长文本中了解到主题的几乎所有内容。与此不同，由于短文本的字数受到限制，所以通常只对主题的核心内容进行描述，很多相关信息被省略。

传统的文本挖掘的方法通常是针对长文本的，而应用在短文本上会遇到困难，例如聚类。由于实现聚类常常要使用文字的并发信息(同时出现)，而短文本中文字的并发信息比长文本少很多，因此聚类效果会受到影响。例如下面两段新闻文本L1和L2：

L1：“清华大学第四教学楼被更名为“真维斯楼”，校园内和互联网上一片奚落之声。反对意见主要是：清华的教学楼和真维斯的服装品牌形象太不搭。从高校楼房冠名的正当程序这一角度看，清华大学显然有可挑剔之处。抛开这一点不谈，单就清华学子所关注的实质问题--教学楼冠名的所谓品牌形象角度而言，“真维斯楼”是否过于折损清华的形象？”

L2：“近日，清华大学一教学楼取名为“真维斯”，在网络上引起了轩然大波。真维斯不是一服装品牌吗？清华大学的教学楼怎么也叫“真维斯”？23日中午，清华大学第四教学楼外墙挂上“真维斯楼”的牌匾。几个字的右下方，还悬挂有另一牌匾，专用来介绍真维斯这一服装品牌。教学楼以企业品牌冠名，引发清华大学学生和网友的争议。有人认为高校过分的商业化，不应该用企业来冠名。而新浪博友@Young_pig认为，企业给学校提供了赞助，冠个名不影响学校形象。”

L1和L2因为都有“清华大学，第四教学楼，真维斯，服装，高校，冠名，形象”等词，所以容易判断出它们很相似，可以聚为一类。而以下两个短文本S1和S2就不那么容易聚为一类了，因为它们共有的重要文字只有“清华大学”(“也，了”这种词因为使用非常普遍，所以不太重要，常常在聚类之前去掉)：

S1：“听说了吗，真维斯楼，和清华大学的形象也太不搭了”

S2：“不就是一服装品牌吗，清华大学冠名过于商业化了”

为了提高短文本聚类的正确性，现有技术中已经提出采用辅助信息来帮助进行聚类。例如，如果要聚类上述S1和S2这样的短文本，就引入L1和L2这样的长文本作为辅助信息，因为S1和L1比较相似(共享“真维斯，清华大学，形象，不搭”等词)，而S2和L2比较相似(共享“服装，清华大学，冠名，商业化”等词)。而且，由于L1和L2比较相似，因此S1和S2也就相似了，可以聚为一类。

参考文献1(XH Phan，LM Nguyen，S Horiguchi.，“Learning to classifty shortand sparse text & web with hidden topics from large-scale data collections”，WWW2008)描述了一种根据辅助本文进行聚类的方法。如图1所示，该方法包括以下步骤：

在步骤S100，对辅助文本集合执行主题分析，得到一些主题和对应的词汇。具体地，参考文献1中采用从维基百科(Wikipedia)下载的文本作为辅助信息，形成辅助文本集合。主题分析使用潜在狄利克雷分配(Latent Dirichlet Allocation，LDA)方法。图2示出了LDA的模型。LDA是一种生成模型，其主要思想是模拟文本的生成过程：对每一个词，先从分布中选一个主题，再从主题中选一个词。参考图2，LDA的算法流程包括：

1对每一个主题k∈[1，K]，从Dir(β)分布中做一个采样，得到一个主题下的词的分布

2对每一个文本m∈[1，M]，

2.1从Dir(α)分布做一个采样，得到一个主题分布

2.2对每一个词n，

2.2.1从多项式分布中做一个采样，得到一个主题z_m，n。

2.2.2从多项式分布中做一个采样，得到一个词w_m，n。

算法1-LDA

其中，α的值表示各个话题在取样之前的权重分布，β的值表示各个主题词的先验分布。它们是预先确定的参数，称为超参数。

LDA的任务是估计参数和θ_d。其中，所有显变量和隐变量的联合分布密度如下：

一篇文本的似然函数如下：

整个文本集合上的似然函数如下：

理论上说，通过最大化上述似然函数可以解出和但是，这个方法没有解析解。所以，在现实中一般用估计的方式求解。例如，参考文献1选用吉布斯采样(GibbsSampling)来估计参数。参考文献2(Thomas L.Griffiths，Mark Steyvers，“Findingscientific topics”，Proceedings of the National Academy of Sciences of theUnited States of America，Vol.101，No.Suppl 1.(6 April 2004)，pp.5228-5235)和参考文献3(Gregor Heinrich，“Parameter estimation for text analysis”，TechnicalReport，2004)详细描述了利用吉布斯采样来实现LDA的过程和算法。

在步骤S110，基于步骤S100中得到的主题，对短文本集合执行推理，得到与这些短文本对应的主题。推理的方式还是使用吉布斯采样。

在步骤S120，以步骤S110的结果为基础构造训练样本集。训练数据是向量式的，也就是说每一个短文本对应一个向量。对一个短文本集合中的每一条短文本都生成对应的向量，然后对每一条短文本给出一个类别，这样就构成了训练样本集。

在步骤S130，选择机器学习方法，对训练样本集进行分类，以便获得分类模型。例如，可以选择机器学习方法对训练样本集进行分类，以便获得分类模型。有多种方法可供选择，例如决策树、SVM、最大熵等。参考文献1中使用的是最大熵方法。

然而，在将短文本在辅助文本形成的主题上进行推理的步骤S110中，参考文献1假设短文本的主题都能被辅助文本所覆盖。在现实中的很多情况下，该假设并不能满足或被很好地满足，这是因为很多情况和事件是新出现的，不能保证有一个全面的知识库能覆盖所有情况和事件中出现的主题。在这种情况下，辅助文本只能覆盖短文本的部分主题。因此，参考文献1所描述的方法不能发现和利用短文本中新出现的内在的主题，从而会降低分类或聚类的效果。

发明内容

为了解决上述技术问题，本发明提出对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性。本发明不要求存在一个能覆盖短文本所有主题的辅助文本集合，而只要求辅助文本与短文本部分相关。具体来说，本发明利用两组潜在狄利克雷分配(DoubleLatent Dirichlet Allocation，DLDA)对短文本进行聚类。通过建立两组LDA并在其中加入转换开关，DLDA实现了辅助文本主题和短文本主题的各自发现，并能确定任何一个短文本对应于辅助文本主题和短文本主题的可能性。

根据本发明的一个方面，提供了一种短文本聚类设备，包括：主题分析单元，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性；向量生成单元，将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化，以生成向量；以及聚类单元，基于生成的向量对短文本集合中的短文本进行聚类。

优选地，主题分析单元通过开关参数来确定辅助文本集合与短文本集合中的每一个文本中的词对应于辅助文本集合的主题还是短文本集合的主题；如果对应于辅助文本集合的主题，则所述主题分析单元通过第一潜在狄利克雷分配执行主题分析，如果对应于短文本集合的主题，则所述主题分析单元通过第二潜在狄利克雷分配执行主题分析。

优选地，主题分析单元利用吉布斯采样算法来估计第一潜在狄利克雷分配和第二潜在狄利克雷分配中使用的参数，其中辅助文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中辅助文本集合的主题的次数，短文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中短文本集合的主题的次数。

优选地，向量生成单元在辅助文本集合的主题和短文本集合的主题的合集上生成向量。

优选地，开关参数的值服从二项分布。

优选地，主题分析单元确定开关参数以保证辅助文本中的词对应于辅助文本集合的主题的可能性大于对应于短文本集合的主题的可能性，并且短文本中的词对应于短文本集合的主题的可能性大于对应于辅助文本集合的主题的可能性。

根据本发明的另一个方面，提供了一种短文本聚类方法，包括：主题分析步骤，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性；向量生成步骤，将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化，以生成向量；以及聚类步骤，基于生成的向量对短文本集合中的短文本进行聚类。

优选地，主题分析步骤包括：通过开关参数来确定辅助文本集合与短文本集合中的每一个文本中的词对应于辅助文本集合的主题还是短文本集合的主题；如果对应于辅助文本集合的主题，则通过第一潜在狄利克雷分配执行主题分析，如果对应于短文本集合的主题，则通过第二潜在狄利克雷分配执行主题分析。

优选地，利用吉布斯采样算法来估计第一潜在狄利克雷分配和第二潜在狄利克雷分配中使用的参数，其中辅助文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中辅助文本集合的主题的频率，短文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中短文本集合的主题的频率。

优选地，向量生成步骤包括：在辅助文本集合的主题和短文本集合的主题的合集上生成向量。

优选地，开关参数的值服从二项分布。

优选地，确定开关参数以保证辅助文本中的词对应于辅助文本集合的主题的可能性大于对应于短文本集合的主题的可能性，并且短文本中的词对应于短文本集合的主题的可能性大于对应于辅助文本集合的主题的可能性。

本发明实现了辅助文本主题和短文本主题的各自发现，从而能够更准确地对短文本进行聚类。

附图说明

通过下文结合附图的详细描述，本发明的上述和其它特征将会变得更加明显，其中：

图1是示出了现有技术的短文本聚类方法的流程图；

图2是示出了图1中的短文本聚类方法所采用的LDA模型的框图；

图3是示出了根据本发明一个实施例的短文本聚类设备的框图；

图4是示出了根据本发明一个实施例的短文本聚类设备所采用的DLDA模型的框图；以及

图5是示出了根据本发明一个实施例的短文本聚类方法的流程图。

具体实施方式

下面，通过结合附图对本发明的具体实施例的描述，本发明的原理和实现将会变得明显。应当注意的是，本发明不应局限于下文所述的具体实施例。另外，为了简便起见，省略了对与本发明没有直接关联的公知技术的详细描述。

图3是示出了根据本发明一个实施例的短文本聚类设备30的框图。如图3所示，短文本聚类设备30包括主题分析单元310、向量生成单元320和聚类单元330。

主题分析单元310对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得各自的主题。在一个具体实施例中，主题分析单元310采用如图4所示的DLDA模型来执行主题分析。从图4中可以看出，DLDA包括两组LDA，分别对应于辅助文本和短文本的主题分析(其中，“aux”表示辅助文本，“tar”表示短文本)。为了对两组LDA进行协调，引入了开关变量γ。开关变量γ负责选择每一个词是从辅助文本中选择主题还是从短文本中选择主题。

在本实施例中，主题分析单元310通过如下算法对辅助文本和短文本的主题进行分析：

1对辅助文本集合的每一个主题z∈[1，...，K^aux]，从Dir(β^aux)分布中做一个采样，得到一个主题下的词的分布

2对短文本集合的每一个主题z∈[1，...，K^tar]，从Dir(β^tar)分布中做一个采样，得到一个主题下的词的分布

3对每一个文本集合c∈[aux，tar]，

3.1对每一个文本d∈[1，...，D^c]，

3.2从Dir(α^aux)分布采样得到一个辅助文本集合的主题分布

3.3从Dir(α^tar)分布采样得到一个短文本集合的主题分布

3.4从Beta(γ^c)分布中采样得到一个二项分布π_d。

3.5对每一个词w_d，n，

3.5.1从二项分布π_d中采样得到开关值x_d，n，

3.5.2如果x_d，n＝aux，从辅助文本集合的多项式分布中采样得到一个主题z_d，n。

3.5.3如果x_d，n＝tar，从短文本集合的多项式分布中采样得到一个主题z_d，n。

3.5.4从多项式分布中做一个采样，得到一个词w_d，n。

算法2-DLDA

下面描述一个具体应用示例。假设有辅助文本100篇，短文本50篇。取K^aux＝15，K^tar＝10，α^aux＝0.3，α^tar＝0.2，β^aux＝β^tar＝0.01。需要注意的是，α，β通常都是多维向量，理论上各维的值可能不同，不过在实际应用中各维的值常常简化为同一个值。其中注意，这里的设置应该是且其中c与～c代表一个文本集合与另一个文本集合，例如c＝aux，则～c＝tar。反之，若c＝tar，则～c＝aux。

首先，主题分析单元310统计辅助文本和短文本的所有词汇(出现多次只算一次)，记为V。这里，假设V包括5000个词汇。

然后，主题分析单元310对辅助文本集合的每一个主题z∈[1，...，15]，从Dir(0.01)分布中做采样，得到每一个主题下的词的分布例如，这个向量的维数是5000，所有维的值的和为1，意思是对这个主题而言，选中第一个词的概率是0.001，选中第二个词的概率是0，...。此外，

此外，主题分析单元310对短文本集合的每一个主题z∈[1，...，10]，从Dir(0.01)分布中做采样，得到每一个主题下词的分布例如，这个向量的维数是5000。此外，

然后，主题分析单元310对辅助文本集合c＝aux中的第一个辅助文本d＝1，从Dir(0.3)分布采样得到一个辅助文本集合的主题分布这个向量的维数是15，所有维的值的和为1，意思是选中第一个主题的概率是0.1，选中第二个主题的概率是0.2，等等。此外，主题分析单元310还从Dir(0.2)分布采样得到一个短文本集合的主题分布这个向量的维数是10，所有维的值的和为1。接下来，主题分析单元310从Beta(0.5，0.2)分布中采样得到一个二项分布π₁＝[0.7，0.3]，其含义是选中辅助文本主题的概率是0.7，选中短文本主题的概率是0.3。假设文本1包含30个词，那么对第一个词w1，1，从π₁中采样得到开关值x_1，1＝aux。由于x_1，1＝aux，则从辅助文本集合的多项式分布

Multinomial (θ_{1}^{aux}) = [0.1,0.2,0, . . ., 0.034]

中采样得到一个主题。假设抽中第15个主题z_1，1＝15。之后，主题分析单元310从多项式分布中进行一个采样，例如抽到第1200个词，则对应w_1，1＝“电视”。

求解DLDA需要解出参数具体求解方法可以采用变分法(VariationalMethod)、期望传播(Expectation propagation)、或者吉布斯采样(Gibbs Sampling)等等。在本实施例中，采用以下描述的吉布斯采样算法来求解参数

1对所有辅助文本主题z∈[1，…，K^aux]，所有词w和文本d，对所有短文本主题z∈[1，…，T^tar]，所有词w和文本d，对所有文本d，其中，和的含义分别是主题选定辅助文本主题和短文本主题z时选定词w的次数。和分别是文本d选中辅助文本主题和短文本主题z的次数。和分别是文本d中的词选定辅助文本主题和短文本主题的次数。

2对每一个文本集合c∈[aux，tar]，

2.1对每一个文本d∈[1，...，D^c]，

2.1.1对每一个词w，

2.1.1.1从二项分布π＝[0.5，0.5]分布采样得到一个开关值x。

2.1.1.2如果x＝aux，则从多项式分布Multinomial(1/Kaux)采样得到一个主题z，

n_{d}^{aux, z} = n_{d}^{aux, z} + 1 .

n_{w}^{aux, z} = n_{w}^{aux, z} + 1 .

2.1.1.3如果x＝tar，则从多项式分布Multinomial(1/K^tar)采样得到一个主题z，

n_{d}^{tar, z} = n_{d}^{tar, z} + 1 .

n_{w}^{tar, z} = n_{w}^{tar, z} + 1 .

3循环

3.1对每一个文本集合c∈[aux，tar]，

3.1.1对每一个文本d∈[1，...，D^c]，

3.1.1.1对每一个词w，

3.1.1.1.1若x和z为上一个循环w所采样得到的文本集合与主题，则

3.1.1.1.2从二项分布

π = [n_{d}^{aux} / (n_{d}^{aux} + n_{d}^{tar}), n_{d}^{tar} / (n_{d}^{aux} + n_{d}^{tar})

分布采样得到一个开关值x。

3.1.1.1.3如果x＝aux，则从公式(1)(参见下文)决定的多项式分布中采样得到一个主题z，

n_{d}^{aux, z} = n_{d}^{aux, z} + 1 .

n_{w}^{aux, z} = n_{w}^{aux, z} + 1 .

3.1.1.1.4如果x＝tar，则从公式(2)(参见下文)决定的多项式分布中采样得到一个主题z，

n_{d}^{tar, z} = n_{d}^{tar, z} + 1 .

n_{w}^{tar, z} = n_{w}^{tar, z} + 1 .

3.2如果达到收敛条件，则根据公式(3)和(4)(参见下文)计算参数，并退出循环。否则，继续执行循环。

算法3-吉布斯采样

下面详细描述上文的吉布斯采样算法中提到的公式(1)-(4)。

公式(1)：对所有辅助文本主题z∈[1，…，K^aux]，

p (x_{i} = x, z_{i} = z | w_{i} = w, x_{&Not; i}, z_{&Not; i}, w_{&Not; i}, α, β, γ) &Proportional; \frac{n_{w, &Not; i}^{aux, z} + β_{w}^{c}}{Σ_{v = 1}^{V} (n_{v, &Not; i}^{aux, z} + β_{v}^{c})} \cdot \frac{n_{d, &Not; i}^{aux, z} + α_{z}^{c}}{Σ_{k = 1}^{K^{aux}} (n_{d, &Not; i}^{aux, k} + α_{k}^{c})} \cdot (n_{d, &Not; i}^{aux} + γ_{x}^{c_{i}})

公式(1)的含义是：采样选中文本集合x和主题z的概率正比于3个数值(也就是公式(1)右边的三个相乘的部分)。第三部分中，的含义是除去当前词在上一个循环中的采样后、所有其它词选中辅助文本主题的次数，加的目的是避免这个数为0。第二部分的含义是除去当前词在上一个循环中的采样后、文本d选中辅助文本主题z的比例，第一部分的含义是除去当前词在上一个循环中的采样后、选中辅助文本主题z时选中词w的比例。符号中的含义是“除去当前词(w_i)的选择”(对应于步骤3.1.1.1.1的含义)。

公式(2)：对所有短文本主题z∈[1，…，K^tar]，

p (x_{i} = x, z_{i} = z | w_{i} = w, x_{&Not; i}, z_{&Not; i}, w_{&Not; i}, α, β, γ) &Proportional; \frac{n_{w, &Not; i}^{tar, z} + β_{w}^{c}}{Σ_{v = 1}^{V} (n_{v, &Not; i}^{tar, z} + β_{v}^{c})} \cdot \frac{n_{d, &Not; i}^{tar, z} + α_{z}^{c}}{Σ_{k = 1}^{K^{tar}} (n_{d, &Not; i}^{tar, k} + α_{k}^{c})} \cdot (n_{d, &Not; i}^{tar} + γ_{x}^{c_{i}})

公式(2)的含义与(1)类似，只是由辅助文本主题换为短文本主题。其中c_i表示文本d所属的文本集合(即，辅助文本集合或者短文本集合)。

公式(3)：

θ_{d, z}^{c} = \frac{n_{d}^{c, z} + α_{z}^{c}}{Σ_{k = 1}^{K^{c}} (n_{d}^{c, k} + α_{k}^{c})}

公式(4)：

其中c∈[aux，tar]。

收敛条件可以有多种，例如：达到预先设定的迭代次数、变化很小、或者文本集合的似然函数变化很小。

采用上述吉布斯采样算法进行求解，可以得出每个短文本对应辅助文本集合的主题和短文本集合的主题的可能性(即公式(3)的结果)。

向量生成单元320将对应主题的可能性归一化后生成向量。注意，这里的向量是在辅助文本集合的主题和短文本集合的主题的合集上生成的。对任何一个短文本d，向量的每一维是公式(3)中c取aux或者tar，z取任意一个主题：

f_{d} = [\frac{θ_{d, 1}^{θ_{d, 1}^{aux}}}{S_{1}^{aux}}, . . ., \frac{θ_{d, K^{aux}}^{aux}}{S_{K^{aux}}^{aux}}, \frac{θ_{d, 1}^{tar}}{S_{1}^{tar}}, . . ., \frac{θ_{d, K^{tar}}^{tar}}{S_{K^{tar}}^{tar}}]

其中x∈{aux，rar}。例如，向量生成单元320可生成f_d＝[0.1，0.5，0，0，0.02,...，0]这样的向量。

聚类单元330基于向量生成单元320所生成的向量进行短文本聚类。具体地，当针对所有的短文本生成上述向量后，可以使用例如K-均值等聚类方法执行短文本聚类，从而获得短文本的聚类结果。

图5是示出了根据本发明一个实施例的短文本聚类方法50的流程图。如图5所示，短文本聚类方法50包括步骤S510-S530。

在步骤S510，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得各自的主题。具体地，可以采用上文描述的DLDA算法对辅助文本和短文本的主题进行分析。在DLDA算法的求解过程中，可以采用变分法(Variational Method)、期望传播(Expectation propagation)、或者吉布斯采样(Gibbs Sampling)等等。优选地，采用上文描述的吉布斯采样算法来实现DLDA。

在步骤S520，根据每个短文本对应辅助文本集合的主题和短文本集合的主题的可能性，将对应主题的可能性归一化后生成向量。优选地，该向量是在辅助文本集合的主题和短文本集合的主题的合集上生成的。

在步骤S530，基于生成的向量对短文本进行聚类。例如，当针对所有的短文本生成向量后，可以使用K-均值等聚类方法执行短文本聚类。

下面描述将本发明的短文本聚类设备或方法应用于在线广告集合所得到的结果。假设从某商业网站上收集了42类产品的在线广告共182209篇，平均每篇文本包含29.06个字。另外，根据产品名收集了99737篇网页作为辅助文本，平均每篇文本包含560.4个字。每类产品作为一个聚类。

评价标准选用如下的熵形式：

H (\tilde{x}) = - \underset{c &Element; C}{Σ} p (c | \tilde{x}) \log_{2} p (c | \tilde{x}),

其中表示计算机完成的一个聚类，C代表正确的聚类类别，c是某一个正确的聚类(某一类产品)，其中：

l(x)表示短文本c的正确聚类标记，表示这个聚类的文本数目。越小，说明算法性能越好。

下表1列出了根据本发明的DLDA方法和其它几种方法应用于在线广告集合的结果：

表1

在表1中，Direct表示直接使用聚类方法。LDA-one是在辅助文本集合上产生主题，然后短文本在这些主题上进行推理(类似参考文献1)。LDA-both是在辅助文本集合和短文本集合的并集上产生主题。STC是一种转换领域时采用的聚类方法。可以看出，由于DLDA的结果最小，所以DLDA在短文本聚类方面的性能最好。

尽管以上已经结合本发明的优选实施例示出了本发明，但是本领域的技术人员将会理解，在不脱离本发明的精神和范围的情况下，可以对本发明进行各种修改、替换和改变。因此，本发明不应由上述实施例来限定，而应由所附权利要求及其等价物来限定。

Claims

1.一种短文本聚类设备，包括：

主题分析单元，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本属于辅助文本集合的主题和短文本集合的主题的可能性；

向量生成单元，将每个短文本属于辅助文本集合的主题和短文本集合的主题的可能性进行归一化，以生成向量；以及

聚类单元，基于生成的向量对短文本集合中的短文本进行聚类。

2.根据权利要求1所述的短文本聚类设备，其中，所述主题分析单元通过开关参数来确定辅助文本集合与短文本集合中的每一个文本中的词属于辅助文本集合的主题还是短文本集合的主题；如果属于辅助文本集合的主题，则所述主题分析单元通过第一潜在狄利克雷分配执行主题分析，如果属于短文本集合的主题，则所述主题分析单元通过第二潜在狄利克雷分配执行主题分析。

3.根据权利要求2所述的短文本聚类设备，其中，所述主题分析单元利用吉布斯采样算法来估计第一潜在狄利克雷分配和第二潜在狄利克雷分配中使用的参数，其中辅助文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中辅助文本集合的主题的次数，短文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中短文本集合的主题的次数。

4.根据权利要求1所述的短文本聚类设备，其中，所述向量生成单元在辅助文本集合的主题和短文本集合的主题的合集上生成向量。

5.根据权利要求2所述的短文本聚类设备，其中，所述开关参数的值服从二项分布。

6.根据权利要求2所述的短文本聚类设备，其中，所述主题分析单元确定开关参数以保证辅助文本中的词属于辅助文本集合的主题的可能性大于属于短文本集合的主题的可能性，并且短文本中的词属于短文本集合的主题的可能性大于属于辅助文本集合的主题的可能性。

7.一种短文本聚类方法，包括：

主题分析步骤，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本属于辅助文本集合的主题和短文本集合的主题的可能性；

向量生成步骤，将每个短文本属于辅助文本集合的主题和短文本集合的主题的可能性进行归一化，以生成向量；以及

聚类步骤，基于生成的向量对短文本集合中的短文本进行聚类。

8.根据权利要求7所述的短文本聚类方法，其中，所述主题分析步骤包括：通过开关参数来确定辅助文本集合与短文本集合中的每一个文本中的词属于辅助文本集合的主题还是短文本集合的主题；如果属于辅助文本集合的主题，则通过第一潜在狄利克雷分配执行主题分析，如果属于短文本集合的主题，则通过第二潜在狄利克雷分配执行主题分析。

9.根据权利要求8所述的短文本聚类方法，其中，利用吉布斯采样算法来估计第一潜在狄利克雷分配和第二潜在狄利克雷分配中使用的参数，其中辅助文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中辅助文本集合的主题的次数，短文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中短文本集合的主题的次数。

10.根据权利要求7所述的短文本聚类方法，其中，所述向量生成步骤包括：在辅助文本集合的主题和短文本集合的主题的合集上生成向量。

11.根据权利要求8所述的短文本聚类方法，其中，所述开关参数的值服从二项分布。

12.根据权利要求8所述的短文本聚类方法，其中，确定开关参数以保证辅助文本中的词属于辅助文本集合的主题的可能性大于属于短文本集合的主题的可能性，并且短文本中的词属于短文本集合的主题的可能性大于属于辅助文本集合的主题的可能性。