CN111339296B

CN111339296B - 基于在hdp模型中引入自适应窗口的文档主题提取方法

Info

Publication number: CN111339296B
Application number: CN202010104259.6A
Authority: CN
Inventors: 罗瑜; 常锦鹏; 彭湾湾; 曾叶; 吴晓华
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-03-28
Anticipated expiration: 2040-02-20
Also published as: CN111339296A

Abstract

本发明公开了一种基于在HDP模型中引入自适应窗口的文档主题提取方法，将HDP模型与ADWIM相结合，通过似然变化检测主题漂移，在没有发现主题漂移时直接合并窗口更新模型，在主题发生漂移时划分子窗口重新判断是否进行窗口合并。该模型利用自适应窗口把文档划分为较小的文档块，通过移动窗口保证了词与词之间的顺序，同时通过自适应的方式来选取模型训练窗口划分，避免了像大多数方法那样定义任意的时间片和文档块。

Description

基于在HDP模型中引入自适应窗口的文档主题提取方法

技术领域

本发明属于文档主题提取方法技术领域，具体涉及基于在HDP模型中引入自适应窗口的文档主题提取方法。

背景技术

随着网络文本的爆炸式增长，从海量文本提取合理的信息是件非常困难的事。在众多的文本处理方法中，主体模型能够对大规模文档集进行文本聚类，使得人们较快地获取到想要的信息。近二十年来，主题模型得到了快速的发展，并扩展出很多模型。

现有的主题模型中，LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)主题模型虽然在文本聚类中取得了较好的效果，但是需要手动确定最优的主题聚类个数，而在海量文本数据中，文档主题数并不能确定。HDP(分层狄利克雷过程)模型是LDA主题模型无参数的一个扩展，它能够自动确定文档的主题个数，训练前不需要预设文档的主题个数，解决了人工确定文档主题数的问题。现有的LDA模型和HDP模型是根据定义的一批文档推断主题分布，此设置没有考虑文档中词与词之间的顺序，而基于时间片的变体模型需要按固定时间片对文档进行分组，但是面临时间片难以定义的问题。

发明内容

针对现有技术中的上述不足，本发明提供的基于在HDP模型中引入自适应窗口的文档主题提取方法解决了现有的HDP模型提取文档信息时需要预先定义时间片和文档块的问题。

为了达到上述发明目的，本发明采用的技术方案为：基于在HDP模型中引入自适应窗口的文档主题提取方法，包括以下步骤：

S1、基于待提取信息的文档生成初始HDP模型；

S2、在生成的初始HDP模型中引入自适应窗口机制，构建AWIHDP模型；

S3、将当前待提取信息的文本输入到当前AWIHDP模型中，并对其进行更新；

S4、判断是否有新的待提取信息文本到达；

若是，则返回步骤S3；

若否，则进入步骤S5；

S5、将当前AWIHDP模型提取到所有文本的主题词分布作为文档主题提取结果。

进一步地，所述步骤S1具体为：

A1、从基分布H和第一聚集参数γ构成的狄利克雷过程中，抽样出基分布G₀；

A2、从基分布G₀和第二聚集参数α₀构成的狄利克雷过程中，为每篇文档抽取主题词分布G_j，生成HDP模型。

进一步地，所述步骤S2中的引入自适应窗口机制的WAIHDP模型包括HDP_m子模型和HDP_d子模型；

所述HDP_m子模型用于文档建模；

所述HDP_d子模型用于根据滑动窗口算法对当前窗口进行漂移检测。

进一步地，所述步骤S3具体为：

S31、将当前待提取信息的文档划分为长度为n的文档块，并将其中的第一个文档块添加到窗口W₀中。

S32、将当前窗口滑动至下一文档块，通过HDP_m子模型计算当前窗口W_i中文档数据分布变化，并通过HDP_d子模型判断当前窗口是否发生主题漂移；

其中，下标i＝1,2,…；

若是，则进入步骤S33；

若否，则进入步骤S37；

S33、将当前窗口平均分割为W_i1和W_i2，并使用HDP_m子模型分别计算窗口W_i1和窗口W_i2中的文档数据分布变化，然后通过HDP_d子模型判断窗口W_i1和窗口W_i2发生主题漂移的情况；

若仅窗口W_i1发生主题漂移，则进入步骤S34；

若仅窗口W_i2发生主题漂移，则进入步骤S35；

若窗口W_i1和窗口W_i2皆发生主题漂移，则进入步骤S36；

S34、根据窗口W_i1中的文档，基于HDP算法重新生成HDP模型，并进入步骤S38；

S35、将窗口W_i1和窗口W_i-1合并，根据新窗口中的文档，基于HDP算法更新HDP_m子模型，然后根据窗口W_i2中的文档，基于HDP算法重新生成HDP模型，并进入步骤S38；

S36、根据窗口W_i中的文档，基于HDP算法重新生成HDP模型，并进入步骤S38；

S37、将窗口W_i和窗口W_i-1合并，根据新窗口中的文档，基于HDP算法更新HDP_m子模型，并进入步骤S38；

S38、通过更新得到的HDP_m子模型或重新生成的HDP模型，实现对AWIHDP模型的更新；

S39、重复步骤S32～S38，当待检测文档全部训练完成后，迭代结束，完成对当前AWIHDP模型的更新。

进一步地，所述步骤S32和S33中将文档添加到HDP_d子模型的当前窗口W中，并使用滑动窗口算法检测该文档是否发生主题漂移，检测方法具体为：

将长度为n的当前窗口W划分成大小为n₀的子窗口W₀和大小为n₁的子窗口W₁，根据式(1)计算该窗口的调和均值m：

然后根据式(2)计算该窗口的主题漂移判断常数ε_cut：

式中，δ为窗口滑动算法参数，且δ∈(0,1)。

当式(3)成立时，该窗口发生主题漂移。

式中，

和

分别为子窗口W₀和子窗口W₁中的文档主题分布的平均值；

进一步地，其特征在于，所述步骤S35中，更新HDP_m子模型的公式为：

式中，

为当前主题分布，ω^δ为更新时的权重向量。

本发明的有益效果为：

本发明提供的基于在HDP模型中引入自适应窗口的文档主题提取方法，将HDP模型与ADWIM相结合，通过似然变化检测主题漂移，在没有发现主题漂移时直接合并窗口更新模型，在主题发生漂移时划分子窗口重新判断是否进行窗口合并。该模型理论保障可以直接从ADWIN的理论推导出来，在提取文档信息时克服了固定窗口的一些缺点，避免了像大多数方法那样定义固定大小的时间片和文档块，获取了合理的时间窗口划分。

附图说明

图1为本发明提供的基于在HDP模型中引入自适应性窗口机制的文档主题提取方法流程图。

图2位本发明提供的初始化HDP模型的方法流程图。

图3为本发明提供的更新AWIHDP模型的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例：

如图1所示，基于在HDP模型中引入自适应窗口的文档主题提取方法，具体实施步骤如下：

S1、基于待提取信息的文档生成初始HDP模型；

S2、在生成的初始HDP模型中引入自适应窗口机制，构建AWIHDP模型(引入自适应窗口机制的HDP模型)；

S3、将当前待提取信息的文档输入到当前AWIHDP模型中，并对其进行更新；

S4、判断是否有新的待提取信息文档到达；

若是，则返回步骤S3；

若否，则进入步骤S5；

S5、将当前AWIHDP模型提取到所有文档的主题词分布作为文档主题提取结果。

本发明实施例中的文档主题提取方法的思想是为每个任务关联一个不同模型来分离文档建模和主题漂移检测任务，用于文档建模的HDP模型用HDP_m表示，用于漂移检测的HDP模型用HDP_d表示。

本发明实施例中的步骤S1具体为：

上述过程表示为：G₀γ,H～DP(γ,H)；

A2、从基分布G₀和第二聚集参数α₀构成的狄利克雷过程中，为每篇文档抽取主题词分布G_j，生成HDP模型；

上述过程表示为：G_jα₀,G₀～DP(α₀,G₀)；

在本发明实施例中，对文档j中的单词W_ji，其生成过程为：

(1)选择文档主题：从G_j中抽样生成文档j中单词的主题，该过程表示为：θ_jiG_j～G_j；

(2)生成一个词：从所述主题中抽样生成词，该过程表示为：W_jiθ_ji～Mult(θ_ji)

式中，DP(·)为狄利克雷过程；

θ_ji指示了W_ji的主题词分布G_j；

Mult(·)为多项分布。

本发明实施例的步骤S2中的引入自适应窗口机制的AWIHDP模型包括HDP_m子模型和HDP_d子模型；

其中，HDP_m子模型用于计算当前文档的相关似然性，即根据现有的HDP模型中的词汇表计算文档与模型的可能关联性，然后将其添加到当前窗口；HDP_d子模型用于根据滑动窗口算法对当前文档进行漂移检测，具体使用ADWIN(滑动窗口算法)检测它是否发生了漂移。

本发明实施例的步骤S3具体为：

其中，下标i＝1,2,…；

若是，则进入步骤S33；

若否，则进入步骤S37；

若仅窗口W_i1发生主题漂移，则进入步骤S34；

若仅窗口W_i2发生主题漂移，则进入步骤S35；

若窗口W_i1和窗口W_i2皆发生主题漂移，则进入步骤S36；

S37、将窗口W_i和窗口W_i-1合并，根据新窗口中的文档数据，基于HDP算法更新HDP_m子模型，并进入步骤S38；

S38、通过更新得到的HDP_m子模型或重新生成的HDP模型，实现对AWIHDP模型的更新。

上述步骤S32和S33中将文档添加到HDP_d子模型的当前窗口W中，并使用滑动窗口算法检测该文档是否发生主题漂移，检测方法具体为：

然后根据式(2)计算该窗口的主题漂移判断常数ε_cut：

式中，δ为窗口滑动算法参数，且δ∈(0,1)。

当式(3)成立时，该窗口发生主题漂移。

式中，

和

分别为子窗口W₀和子窗口W₁中的文档主题分布的平均值；

上述步骤S35中，更新HDP_m子模型的公式为：

式中，

为当前主题分布；

ω^δ为更新时的权重向量。

更新上述HDP_m子模型即更新了HDP模型，需要说明的是，本发明AWIHDP模型中的HDP_d子模型仅用于对文档进行主题漂移检测，不会随着接收到更多的文档而更新。

本发明的有益效果为：

本发明提供的基于在HDP模型中引入自适应窗口的文档主题提取方法，将HDP模型与ADWIM相结合，通过似然变化检测主题漂移，在没有发现主题漂移时直接合并窗口更新模型，在主题发生漂移时划分子窗口重新判断是否进行窗口合并。该模型利用自适应窗口把文档划分为较小的文档块，通过移动窗口保证了词与词之间的顺序，同时通过自适应的方式来选取模型训练窗口划分，避免了像大多数方法那样定义任意的时间片和文档块。