CN111339296B - 基于在hdp模型中引入自适应窗口的文档主题提取方法 - Google Patents
基于在hdp模型中引入自适应窗口的文档主题提取方法 Download PDFInfo
- Publication number
- CN111339296B CN111339296B CN202010104259.6A CN202010104259A CN111339296B CN 111339296 B CN111339296 B CN 111339296B CN 202010104259 A CN202010104259 A CN 202010104259A CN 111339296 B CN111339296 B CN 111339296B
- Authority
- CN
- China
- Prior art keywords
- window
- model
- hdp
- document
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于在HDP模型中引入自适应窗口的文档主题提取方法,将HDP模型与ADWIM相结合,通过似然变化检测主题漂移,在没有发现主题漂移时直接合并窗口更新模型,在主题发生漂移时划分子窗口重新判断是否进行窗口合并。该模型利用自适应窗口把文档划分为较小的文档块,通过移动窗口保证了词与词之间的顺序,同时通过自适应的方式来选取模型训练窗口划分,避免了像大多数方法那样定义任意的时间片和文档块。
Description
技术领域
本发明属于文档主题提取方法技术领域,具体涉及基于在HDP模型中引入自适应窗口的文档主题提取方法。
背景技术
随着网络文本的爆炸式增长,从海量文本提取合理的信息是件非常困难的事。在众多的文本处理方法中,主体模型能够对大规模文档集进行文本聚类,使得人们较快地获取到想要的信息。近二十年来,主题模型得到了快速的发展,并扩展出很多模型。
现有的主题模型中,LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型虽然在文本聚类中取得了较好的效果,但是需要手动确定最优的主题聚类个数,而在海量文本数据中,文档主题数并不能确定。HDP(分层狄利克雷过程)模型是LDA主题模型无参数的一个扩展,它能够自动确定文档的主题个数,训练前不需要预设文档的主题个数,解决了人工确定文档主题数的问题。现有的LDA模型和HDP模型是根据定义的一批文档推断主题分布,此设置没有考虑文档中词与词之间的顺序,而基于时间片的变体模型需要按固定时间片对文档进行分组,但是面临时间片难以定义的问题。
发明内容
针对现有技术中的上述不足,本发明提供的基于在HDP模型中引入自适应窗口的文档主题提取方法解决了现有的HDP模型提取文档信息时需要预先定义时间片和文档块的问题。
为了达到上述发明目的,本发明采用的技术方案为:基于在HDP模型中引入自适应窗口的文档主题提取方法,包括以下步骤:
S1、基于待提取信息的文档生成初始HDP模型;
S2、在生成的初始HDP模型中引入自适应窗口机制,构建AWIHDP模型;
S3、将当前待提取信息的文本输入到当前AWIHDP模型中,并对其进行更新;
S4、判断是否有新的待提取信息文本到达;
若是,则返回步骤S3;
若否,则进入步骤S5;
S5、将当前AWIHDP模型提取到所有文本的主题词分布作为文档主题提取结果。
进一步地,所述步骤S1具体为:
A1、从基分布H和第一聚集参数γ构成的狄利克雷过程中,抽样出基分布G0;
A2、从基分布G0和第二聚集参数α0构成的狄利克雷过程中,为每篇文档抽取主题词分布Gj,生成HDP模型。
进一步地,所述步骤S2中的引入自适应窗口机制的WAIHDP模型包括HDPm子模型和HDPd子模型;
所述HDPm子模型用于文档建模;
所述HDPd子模型用于根据滑动窗口算法对当前窗口进行漂移检测。
进一步地,所述步骤S3具体为:
S31、将当前待提取信息的文档划分为长度为n的文档块,并将其中的第一个文档块添加到窗口W0中。
S32、将当前窗口滑动至下一文档块,通过HDPm子模型计算当前窗口Wi中文档数据分布变化,并通过HDPd子模型判断当前窗口是否发生主题漂移;
其中,下标i=1,2,…;
若是,则进入步骤S33;
若否,则进入步骤S37;
S33、将当前窗口平均分割为Wi1和Wi2,并使用HDPm子模型分别计算窗口Wi1和窗口Wi2中的文档数据分布变化,然后通过HDPd子模型判断窗口Wi1和窗口Wi2发生主题漂移的情况;
若仅窗口Wi1发生主题漂移,则进入步骤S34;
若仅窗口Wi2发生主题漂移,则进入步骤S35;
若窗口Wi1和窗口Wi2皆发生主题漂移,则进入步骤S36;
S34、根据窗口Wi1中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S35、将窗口Wi1和窗口Wi-1合并,根据新窗口中的文档,基于HDP算法更新HDPm子模型,然后根据窗口Wi2中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S36、根据窗口Wi中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S37、将窗口Wi和窗口Wi-1合并,根据新窗口中的文档,基于HDP算法更新HDPm子模型,并进入步骤S38;
S38、通过更新得到的HDPm子模型或重新生成的HDP模型,实现对AWIHDP模型的更新;
S39、重复步骤S32~S38,当待检测文档全部训练完成后,迭代结束,完成对当前AWIHDP模型的更新。
进一步地,所述步骤S32和S33中将文档添加到HDPd子模型的当前窗口W中,并使用滑动窗口算法检测该文档是否发生主题漂移,检测方法具体为:
将长度为n的当前窗口W划分成大小为n0的子窗口W0和大小为n1的子窗口W1,根据式(1)计算该窗口的调和均值m:
然后根据式(2)计算该窗口的主题漂移判断常数εcut:
式中,δ为窗口滑动算法参数,且δ∈(0,1)。
当式(3)成立时,该窗口发生主题漂移。
进一步地,其特征在于,所述步骤S35中,更新HDPm子模型的公式为:
本发明的有益效果为:
本发明提供的基于在HDP模型中引入自适应窗口的文档主题提取方法,将HDP模型与ADWIM相结合,通过似然变化检测主题漂移,在没有发现主题漂移时直接合并窗口更新模型,在主题发生漂移时划分子窗口重新判断是否进行窗口合并。该模型理论保障可以直接从ADWIN的理论推导出来,在提取文档信息时克服了固定窗口的一些缺点,避免了像大多数方法那样定义固定大小的时间片和文档块,获取了合理的时间窗口划分。
附图说明
图1为本发明提供的基于在HDP模型中引入自适应性窗口机制的文档主题提取方法流程图。
图2位本发明提供的初始化HDP模型的方法流程图。
图3为本发明提供的更新AWIHDP模型的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例:
如图1所示,基于在HDP模型中引入自适应窗口的文档主题提取方法,具体实施步骤如下:
S1、基于待提取信息的文档生成初始HDP模型;
S2、在生成的初始HDP模型中引入自适应窗口机制,构建AWIHDP模型(引入自适应窗口机制的HDP模型);
S3、将当前待提取信息的文档输入到当前AWIHDP模型中,并对其进行更新;
S4、判断是否有新的待提取信息文档到达;
若是,则返回步骤S3;
若否,则进入步骤S5;
S5、将当前AWIHDP模型提取到所有文档的主题词分布作为文档主题提取结果。
本发明实施例中的文档主题提取方法的思想是为每个任务关联一个不同模型来分离文档建模和主题漂移检测任务,用于文档建模的HDP模型用HDPm表示,用于漂移检测的HDP模型用HDPd表示。
本发明实施例中的步骤S1具体为:
A1、从基分布H和第一聚集参数γ构成的狄利克雷过程中,抽样出基分布G0;
上述过程表示为:G0γ,H~DP(γ,H);
A2、从基分布G0和第二聚集参数α0构成的狄利克雷过程中,为每篇文档抽取主题词分布Gj,生成HDP模型;
上述过程表示为:Gjα0,G0~DP(α0,G0);
在本发明实施例中,对文档j中的单词Wji,其生成过程为:
(1)选择文档主题:从Gj中抽样生成文档j中单词的主题,该过程表示为:θjiGj~Gj;
(2)生成一个词:从所述主题中抽样生成词,该过程表示为:Wjiθji~Mult(θji)
式中,DP(·)为狄利克雷过程;
θji指示了Wji的主题词分布Gj;
Mult(·)为多项分布。
本发明实施例的步骤S2中的引入自适应窗口机制的AWIHDP模型包括HDPm子模型和HDPd子模型;
其中,HDPm子模型用于计算当前文档的相关似然性,即根据现有的HDP模型中的词汇表计算文档与模型的可能关联性,然后将其添加到当前窗口;HDPd子模型用于根据滑动窗口算法对当前文档进行漂移检测,具体使用ADWIN(滑动窗口算法)检测它是否发生了漂移。
本发明实施例的步骤S3具体为:
S31、将当前待提取信息的文档划分为长度为n的文档块,并将其中的第一个文档块添加到窗口W0中。
S32、将当前窗口滑动至下一文档块,通过HDPm子模型计算当前窗口Wi中文档数据分布变化,并通过HDPd子模型判断当前窗口是否发生主题漂移;
其中,下标i=1,2,…;
若是,则进入步骤S33;
若否,则进入步骤S37;
S33、将当前窗口平均分割为Wi1和Wi2,并使用HDPm子模型分别计算窗口Wi1和窗口Wi2中的文档数据分布变化,然后通过HDPd子模型判断窗口Wi1和窗口Wi2发生主题漂移的情况;
若仅窗口Wi1发生主题漂移,则进入步骤S34;
若仅窗口Wi2发生主题漂移,则进入步骤S35;
若窗口Wi1和窗口Wi2皆发生主题漂移,则进入步骤S36;
S34、根据窗口Wi1中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S35、将窗口Wi1和窗口Wi-1合并,根据新窗口中的文档,基于HDP算法更新HDPm子模型,然后根据窗口Wi2中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S36、根据窗口Wi中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S37、将窗口Wi和窗口Wi-1合并,根据新窗口中的文档数据,基于HDP算法更新HDPm子模型,并进入步骤S38;
S38、通过更新得到的HDPm子模型或重新生成的HDP模型,实现对AWIHDP模型的更新。
S39、重复步骤S32~S38,当待检测文档全部训练完成后,迭代结束,完成对当前AWIHDP模型的更新。
上述步骤S32和S33中将文档添加到HDPd子模型的当前窗口W中,并使用滑动窗口算法检测该文档是否发生主题漂移,检测方法具体为:
将长度为n的当前窗口W划分成大小为n0的子窗口W0和大小为n1的子窗口W1,根据式(1)计算该窗口的调和均值m:
然后根据式(2)计算该窗口的主题漂移判断常数εcut:
式中,δ为窗口滑动算法参数,且δ∈(0,1)。
当式(3)成立时,该窗口发生主题漂移。
上述步骤S35中,更新HDPm子模型的公式为:
ωδ为更新时的权重向量。
更新上述HDPm子模型即更新了HDP模型,需要说明的是,本发明AWIHDP模型中的HDPd子模型仅用于对文档进行主题漂移检测,不会随着接收到更多的文档而更新。
本发明的有益效果为:
本发明提供的基于在HDP模型中引入自适应窗口的文档主题提取方法,将HDP模型与ADWIM相结合,通过似然变化检测主题漂移,在没有发现主题漂移时直接合并窗口更新模型,在主题发生漂移时划分子窗口重新判断是否进行窗口合并。该模型利用自适应窗口把文档划分为较小的文档块,通过移动窗口保证了词与词之间的顺序,同时通过自适应的方式来选取模型训练窗口划分,避免了像大多数方法那样定义任意的时间片和文档块。
Claims (3)
1.基于在HDP模型中引入自适应窗口的文档主题提取方法,其特征在于,包括以下步骤:
S1、基于待提取信息的文档生成初始HDP模型;
S2、在生成的初始HDP模型中引入自适应窗口机制,构建AWIHDP模型;
S3、将当前待提取信息的文本输入到当前AWIHDP模型中,并对其进行更新;
S4、判断是否有新的待提取信息文本到达;
若是,则返回步骤S3;
若否,则进入步骤S5;
S5、将当前AWIHDP模型提取到所有文本的主题词分布作为文档主题提取结果;
所述步骤S1具体为:
A1、从基分布H和第一聚集参数γ构成的狄利克雷过程中,抽样出基分布G0;
A2、从基分布G0和第二聚集参数α0构成的狄利克雷过程中,为每篇文档抽取主题词分布Gj,生成HDP模型;
所述步骤S2中的引入自适应窗口机制的WAIHDP模型包括HDPm子模型和HDPd子模型;
所述HDPm子模型用于文档建模;
所述HDPd子模型用于根据滑动窗口算法对当前窗口进行漂移检测;
所述步骤S3具体为:
S31、将当前待提取信息的文档划分为长度为n的文档块,并将其中的第一个文档块添加到窗口W0中;
S32、将当前窗口滑动至下一文档块,通过HDPm子模型计算当前窗口Wi中文档数据分布变化,并通过HDPd子模型判断当前窗口是否发生主题漂移;
其中,下标i=1,2,…;
若是,则进入步骤S33;
若否,则进入步骤S37;
S33、将当前窗口平均分割为Wi1和Wi2,并使用HDPm子模型分别计算窗口Wi1和窗口Wi2中的文档数据分布变化,然后通过HDPd子模型判断窗口Wi1和窗口Wi2发生主题漂移的情况;
若仅窗口Wi1发生主题漂移,则进入步骤S34;
若仅窗口Wi2发生主题漂移,则进入步骤S35;
若窗口Wi1和窗口Wi2皆发生主题漂移,则进入步骤S36;
S34、根据窗口Wi1中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S35、将窗口Wi1和窗口Wi-1合并,根据新窗口中的文档,基于HDP算法更新HDPm子模型,然后根据窗口Wi2中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S36、根据窗口Wi中的文档,基于HDP算法重新生成HDP模型,并进入步骤S38;
S37、将窗口Wi和窗口Wi-1合并,根据新窗口中的文档,基于HDP算法更新HDPm子模型,并进入步骤S38;
S38、通过更新得到的HDPm子模型或重新生成的HDP模型,实现对AWIHDP模型的更新;
S39、重复步骤S32~S38,当待检测文档全部训练完成后,迭代结束,完成对当前AWIHDP模型的更新。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010104259.6A CN111339296B (zh) | 2020-02-20 | 2020-02-20 | 基于在hdp模型中引入自适应窗口的文档主题提取方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010104259.6A CN111339296B (zh) | 2020-02-20 | 2020-02-20 | 基于在hdp模型中引入自适应窗口的文档主题提取方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111339296A CN111339296A (zh) | 2020-06-26 |
| CN111339296B true CN111339296B (zh) | 2023-03-28 |
Family
ID=71181719
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010104259.6A Active CN111339296B (zh) | 2020-02-20 | 2020-02-20 | 基于在hdp模型中引入自适应窗口的文档主题提取方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111339296B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115204149B (zh) * | 2022-06-30 | 2023-06-27 | 广东坚美铝型材厂(集团)有限公司 | 基于hdp等价描述的文本主题提取方法、设备及存储介质 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1622014A (zh) * | 2003-11-25 | 2005-06-01 | 联想(北京)有限公司 | 一种实现文本输入的遥控系统及其处理方法 |
| CN106874365A (zh) * | 2016-12-30 | 2017-06-20 | 中国科学院自动化研究所 | 基于社会媒体平台上社会事件的跟踪方法 |
| CN106919557A (zh) * | 2017-02-22 | 2017-07-04 | 中山大学 | 一种结合主题模型的文档向量生成方法 |
| CN108090042A (zh) * | 2016-11-23 | 2018-05-29 | 北京京东尚科信息技术有限公司 | 用于识别文本主题的方法和装置 |
| US10204143B1 (en) * | 2011-11-02 | 2019-02-12 | Dub Software Group, Inc. | System and method for automatic document management |
| CN109726402A (zh) * | 2019-01-11 | 2019-05-07 | 中国电子科技集团公司第七研究所 | 一种文档主题词自动提取方法 |
| US10558657B1 (en) * | 2016-09-19 | 2020-02-11 | Amazon Technologies, Inc. | Document content analysis based on topic modeling |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9477785B2 (en) * | 2013-03-15 | 2016-10-25 | NutraSpace LLC | Customized query application and data result updating procedure |
| US11397744B2 (en) * | 2018-07-19 | 2022-07-26 | Bank Of Montreal | Systems and methods for data storage and processing |
-
2020
- 2020-02-20 CN CN202010104259.6A patent/CN111339296B/zh active Active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1622014A (zh) * | 2003-11-25 | 2005-06-01 | 联想(北京)有限公司 | 一种实现文本输入的遥控系统及其处理方法 |
| US10204143B1 (en) * | 2011-11-02 | 2019-02-12 | Dub Software Group, Inc. | System and method for automatic document management |
| US10558657B1 (en) * | 2016-09-19 | 2020-02-11 | Amazon Technologies, Inc. | Document content analysis based on topic modeling |
| CN108090042A (zh) * | 2016-11-23 | 2018-05-29 | 北京京东尚科信息技术有限公司 | 用于识别文本主题的方法和装置 |
| CN106874365A (zh) * | 2016-12-30 | 2017-06-20 | 中国科学院自动化研究所 | 基于社会媒体平台上社会事件的跟踪方法 |
| CN106919557A (zh) * | 2017-02-22 | 2017-07-04 | 中山大学 | 一种结合主题模型的文档向量生成方法 |
| CN109726402A (zh) * | 2019-01-11 | 2019-05-07 | 中国电子科技集团公司第七研究所 | 一种文档主题词自动提取方法 |
Non-Patent Citations (1)
| Title |
|---|
| 基于分层狄利克雷过程模型的文本分割;李天彩等;《数据采集与处理》(第02期);全文 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111339296A (zh) | 2020-06-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106156004B (zh) | 基于词向量的针对电影评论信息的情感分析系统及方法 | |
| CN111090736B (zh) | 问答模型的训练方法、问答方法、装置及计算机存储介质 | |
| CN113792855B (zh) | 一种模型训练及字库建立方法、装置、设备和存储介质 | |
| CN104008166B (zh) | 一种基于形态和语义相似度的对话短文本聚类方法 | |
| CN109635291A (zh) | 一种基于协同训练的融合评分信息和物品内容的推荐方法 | |
| CN108427670A (zh) | 一种基于语境词向量和深度学习的情感分析方法 | |
| CN103793501B (zh) | 基于社交网络的主题社团发现方法 | |
| CN107066555B (zh) | 面向专业领域的在线主题检测方法 | |
| CN104050556B (zh) | 一种垃圾邮件的特征选择方法及其检测方法 | |
| CN113159738B (zh) | 业务项目处理方法、装置、电子设备及存储介质 | |
| CN106022392A (zh) | 一种深度神经网络样本自动取舍的训练方法 | |
| CN105976070A (zh) | 基于重点元素的矩阵分解及微调方法 | |
| CN104298787A (zh) | 一种基于融合策略的个性化推荐方法及装置 | |
| CN106296286A (zh) | 广告点击率的预估方法和预估装置 | |
| CN106445915A (zh) | 一种新词发现方法及装置 | |
| CN109766435A (zh) | 弹幕类别识别方法、装置、设备及存储介质 | |
| CN106202053A (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
| CN110717103A (zh) | 基于堆栈降噪编码器改进的协同过滤方法 | |
| CN103714168B (zh) | 在具有触摸屏的电子智能设备中获取词条的方法及装置 | |
| CN111339296B (zh) | 基于在hdp模型中引入自适应窗口的文档主题提取方法 | |
| CN103559174A (zh) | 语义情感分类特征值提取方法及系统 | |
| CN111291182B (zh) | 热点事件发现方法、装置、设备及存储介质 | |
| CN105718509A (zh) | 一种基于有向图关联规则音乐云推荐算法 | |
| CN117851598A (zh) | 一种大语言模型辅助分类方法、装置、设备及介质 | |
| CN110032642B (zh) | 基于词嵌入的流形主题模型的建模方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |