CN111813934A - 一种基于dma模型和特征划分多源文本主题模型聚类方法 - Google Patents
一种基于dma模型和特征划分多源文本主题模型聚类方法 Download PDFInfo
- Publication number
- CN111813934A CN111813934A CN202010570956.0A CN202010570956A CN111813934A CN 111813934 A CN111813934 A CN 111813934A CN 202010570956 A CN202010570956 A CN 202010570956A CN 111813934 A CN111813934 A CN 111813934A
- Authority
- CN
- China
- Prior art keywords
- model
- text
- source
- feature
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题‑特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。
Description
技术领域
本发明涉及一种模型聚类方法,尤其涉及一种基于DMA模型和特征划分多源文本主题模型聚类方法,属于机器学习和自然语言处理技术领域。
背景技术
随着Internet技术的飞速发展,越来越多的应用可以产生文本信息,本文将多个应用产生的文本数据集称之为多源文本数据集。从多源文本数据集中挖掘其主题信息以及文本结构对于很多应用程序都是非常有必要的。例如,新闻热点分析的应用可以发现来自各种新闻网站、论坛和社交媒体的文本信息,以了解社会关注的热点问题。人们通过分析市民热线、交通公告牌等各种来源的交通信息,发现突发交通事故。主题模型是目前较为流行的文本挖掘方法之一。因此,有必要研究一种多源文档主题模型,挖掘多源文本数据集中的文本信息。
用传统的主题模型挖掘多源文本数据集的信息有很多困难,比如说:1)在多源文本数据集中,每一篇文档都由大量的词来表示,包括特征词和大量的无关噪声词。而且由于书写风格的偏向,来自不同数据源的噪声词不同。不相关的噪声词会干扰模型的构建,影响模型性能。2)每个数据源相同主题的词分布相关但不相同。例如,新闻网站的文章倾向于用标准术语描述一个主题,而社交媒体文档中的词汇则更随意。因此,直接采用传统的主题模型挖掘多源文本的词特征等信息是不可行的,因为不同来源的主题的书写风格差异以及描述角度的不同严重影响了模型的性能。3)在多源文本数据集中估计簇类数N也是困难的。对于大多数传统的主题模型来说,N被认为是用户事先确定的一个参数,但在挖掘前提供正确的N值是困难和不切实际的。此外,对于不同的数据源,N通常是不同的,这大大增加了估计正确N的难度。因此,如果多源文本主题模型能够自动地估计每个数据源的聚类数N,对于模型的推广和应用是非常有用的。
因此,针对上述三个问题,需要研究一种新的针对多源文本数据的主题模型以挖掘准确的信息。
发明内容
本发明要解决的技术问题是:提供一种基于DMA模型和特征划分多源文本主题模型聚类方法,它能挖掘多源文本数据集中每个数据源的结构信息,还能自动推断每个数据源各自的文本簇类数目N,而不需要人为提前给定,有效的解决了上述存在的问题。
本发明的技术方案为:一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数λ;五、根据采样结果进行文本聚类。
所述步骤二中,预处理方法是进行分词,去停用词、低频词及标点数字。
所述步骤三中,构建的多源主题模型的文本生成过程为:
对于每个数据源χs∈{χ1,χ2,...,χS}:
a)选择γj s|ωs~B(1,ωs),j=1,2,...,W
b)选择η0 s|β~Dirichlet(β1,...βW)
d)对于每个主题i∈N:
e)选择Θs|α~Dirichlet(α/N,...,α/N)
f)对于ds∈{1,2,...,Ds}:
所述步骤四中,基于步骤三所构建的主题模型,利用Blocked Gibbs采样算法,采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数λ进行更新操作。
所述步骤四进一步包括下列具体步骤:
g)更新潜在特征词指示符γ;
j)采样更新主题分布Θ;
当采样结果趋于稳定后,更新产生主题-特征词分布参数的狄利克雷参数λ,并重复Blocked Gibbs采样过程。
所述步骤五中,基于Blocked Gibbs采样结果,对进行文本聚类。
本发明的有益效果是:与现有技术相比,采用本发明的技术方案,本发明通过更新多源文本的主题-词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。
本发明提出了一种基于狄利克雷多项分配(DMA)模型和特征划分的多源文本主题模型,即MCDMAfp模型。该模型采用特征划分的方法区分特征词和噪音词,并为每个数据源都分配了专有的特征词分布以及噪音词分布参数来学习源级别的用词特征,本发明使用Gibbs采样算法自动估计每个数据源的簇数,不需要提前人为设定。
附图说明
图1为本发明的流程图;
图2为本发明的主题模型。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。
实施例1:如附图1~2所示,一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行BlockedGibbs采样并更新参数λ;五、根据采样结果进行聚类。
执行本发明的方法,首先执行步骤一,获取待聚类的来自多个数据源的文本集。
本实施例的第一个多源文本集是HASet数据。该数据集包含9986篇文本,其中5000个文本是从HuffPost网站(下文表示为NewSet)收集的新闻文章,剩余4986个文档是从Amazon网站(表示为ASet)收集的评论文本。该数据集包含了两个主题,分别是“food”与“sport”。本实施例的第二个文本集为BTset。该数据集包含10000篇文本,共四个主题。其中5000篇文本是来自BBC网站(下文表示为bbcSet)收集的新闻文章,共四个主题,分别为“travel”,“bussiness”,“sport”和“politic”。另外5000篇文本是来自Twitter(下文表示为TSet)收集的文章,共三个主题,分别为“bussiness”,“sport”和“politic”。
其次,执行步骤二,对获取的文本集进行文本预处理工作,对文本集进行分词、去停用词、去低频词等工作。经过预处理之后,去除文本中冗余的信息,使得文本集变得简洁工整非常节省资源且便于计算。
第三,文本集处理好之后,执行步骤三建模,建立基于DMA模型和特征划分的多源文本主题模型。该模型能够自动判别每个数据源的文本集中簇的数目,而不需要人为提前给定;多源文本数据集中每个数据源的文本集具有各自的主题 -词分布以及主题分布来学习各自独特的信息。
所述步骤三中,构建的多源主题模型的文本生成过程为:
对于每个数据源χs∈{χ1,χ2,...,χS}:
a)选择γj s|ωs~B(1,ωs),j=1,2,...,W
b)选择η0 s|β~Dirichlet(β1,...βW)
d)对于每个主题i∈N:
e)选择Θs|α~Dirichlet(α/N,...,α/N)
f)对于ds∈{1,2,...,Ds}:
其中,N表示文本簇类数;S表示数据源的个数;Ds表示数据源s中的文本个数;α表示狄利克雷分布的参数,是一个向量,维度等于主题的个数;λi表示生成主题i的词分布的狄利克雷分布参数,维度等于语料库词汇总数;Θs表示多源文本集中数据源s的主题分布;表示多源文本集中数据源s中主题i的特征词分布;表示多源文本数据集中数据源s中所有文本共享的噪音词分布;γs由伯努利分布B(1,ω)生成,γ=1表示该词为特征词,γ=0表示该词为噪音词。表示从Θs中为文本d采样的文本主题;表示源文本集中数据源s的第d篇文本中的特征词集;表示源文本集中数据源s的第d篇文本中的噪音词集。
其中表示sth数据源中dth文档的单词数量;表示数据源s中dth文档的潜在簇分配。表示sth数据源中主题为zd的词分布;表示sth数据源中所有文档共享的噪音词分布;和分别表示和 表示sth数据源中dth文档的特征词的数量;表示sth数据源中dth文档的噪音词数量。N是簇的数目;N 维向量Θs是簇的混合比例。本文假设特征词集和噪声词集之间没有相关性。因此,的条件概率密度函数由式下给出:
第四,基于上述模型,执行本发明的步骤四,基于步骤三所构建的主题模型,利用Blocked Gibbs采样算法,采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数进行更新操作。
所述步骤四包括下列具体步骤:首先初始化模型参数,需要初始化的模型参数包括超参数{α,ω,λ,β}和隐藏变量初始化模型参数之后,再进行Blocked Gibbs sampling,当采样结果趋于稳定后,更新产生主题-特征词分布参数的狄利克雷参数λ,并重复Blocked Gibbs sampling过程。
所述Blocked Gibbs sampling的推断过程如下:
g)通过重复以下步骤R次更新潜在特征词指示符γ:通过随机选取γold中的W个索引之一并改变其值,生成新的候选γnew,添加或删除特征词。新候选值被接受的概率为:
其中f(γ|χs,zs)∝f(χs|γs,zs)p(γs),而且上文已经给出f(χs|γ,zs)的运算公式。
j)以下式为Dirichlet分布的参数,采样更新Θ:
其中I(zd=i)为示性函数,当zd=i时,I(zd=i)=1,否则等于0。
在执行步骤四时,还需要进行参数λ的更新。
当采样结果趋于稳定后,本发明通过优化生成整个数据集的后验概率来更新λ,已知多源文本数据集的概率近似于:
为了方便计算,本发明采用其对数似然函数进行运算,如下式所示:
得到参数λ的梯度函数:
第五,执行本发明的步骤五,进行文本主题聚类。根据采样得到每篇目标文本的主题分配情况进行聚类。
本实施例中符号说明如表1所示。
表1
本发明通过更新多源文本的主题-词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。
本发明提出了一种基于狄利克雷多项分配(DMA)模型和特征划分的多源文本主题模型,即MCDMAfp模型。该模型采用特征划分的方法区分特征词和噪音词,并为每个数据源都分配了专有的特征词分布以及噪音词分布参数来学习源级别的用词特征,本发明使用Gibbs采样算法自动估计每个数据源的簇数,不需要提前人为设定。
本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于DMA模型和特征划分多源文本主题模型聚类方法,其特征在于:所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数λ;五、根据采样结果进行文本聚类。
2.根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法,其特征在于:所述步骤二中,预处理方法是进行分词,去停用词、低频词及标点数字。
4.根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法,其特征在于:所述步骤四中,基于步骤三所构建的主题模型,利用Blocked Gibbs采样算法,采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数λ进行更新操作。
6.根据根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法,其特征在于:所述步骤五中,基于Blocked Gibbs采样结果,对进行文本聚类。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010570956.0A CN111813934B (zh) | 2020-06-22 | 2020-06-22 | 一种基于dma模型和特征划分多源文本主题模型聚类方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010570956.0A CN111813934B (zh) | 2020-06-22 | 2020-06-22 | 一种基于dma模型和特征划分多源文本主题模型聚类方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111813934A true CN111813934A (zh) | 2020-10-23 |
| CN111813934B CN111813934B (zh) | 2024-04-30 |
Family
ID=72846333
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010570956.0A Active CN111813934B (zh) | 2020-06-22 | 2020-06-22 | 一种基于dma模型和特征划分多源文本主题模型聚类方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111813934B (zh) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20080097938A1 (en) * | 1998-05-01 | 2008-04-24 | Isabelle Guyon | Data mining platform for bioinformatics and other knowledge discovery |
| JP2013134752A (ja) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | トピックモデル学習方法、装置、及びプログラム |
| US20160247061A1 (en) * | 2015-02-19 | 2016-08-25 | Digital Reasoning Systems, Inc. | Systems and Methods for Neural Language Modeling |
| WO2016179419A1 (en) * | 2015-05-05 | 2016-11-10 | Kyndi, Inc. | Quanton representation for emulating quantum-like computation on classical processors |
| CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
| CN109299364A (zh) * | 2018-09-26 | 2019-02-01 | 贵州大学 | 一种具有新主题偏向性的短文本动态聚类方法 |
-
2020
- 2020-06-22 CN CN202010570956.0A patent/CN111813934B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20080097938A1 (en) * | 1998-05-01 | 2008-04-24 | Isabelle Guyon | Data mining platform for bioinformatics and other knowledge discovery |
| JP2013134752A (ja) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | トピックモデル学習方法、装置、及びプログラム |
| US20160247061A1 (en) * | 2015-02-19 | 2016-08-25 | Digital Reasoning Systems, Inc. | Systems and Methods for Neural Language Modeling |
| WO2016179419A1 (en) * | 2015-05-05 | 2016-11-10 | Kyndi, Inc. | Quanton representation for emulating quantum-like computation on classical processors |
| CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
| CN109299364A (zh) * | 2018-09-26 | 2019-02-01 | 贵州大学 | 一种具有新主题偏向性的短文本动态聚类方法 |
Non-Patent Citations (3)
| Title |
|---|
| 徐立洋;黄瑞章;陈艳平;钱志森;黎万英;: "基于狄利克雷多项分配模型的多源文本主题挖掘模型", 计算机应用, no. 11 * |
| 潘晓英;伍哲;陈柳;杨芳;: "基于WBLDA的学术文献摘要主题聚类", 计算机应用研究, no. 08 * |
| 王晰巍;邢云菲;韦雅楠;王铎;: "大数据驱动的社交网络舆情用户情感主题分类模型构建研究――以"移民"主题为例", 信息资源管理学报, no. 01 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111813934B (zh) | 2024-04-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112836029B (zh) | 一种基于图的文档检索方法、系统及其相关组件 | |
| CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
| CN111832289B (zh) | 一种基于聚类和高斯lda的服务发现方法 | |
| EP3940582A1 (en) | Method for disambiguating between authors with same name on basis of network representation and semantic representation | |
| CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
| KR20200007713A (ko) | 감성 분석에 의한 토픽 결정 방법 및 장치 | |
| CN110249341A (zh) | 分类器训练 | |
| WO2018218708A1 (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
| CN107798043B (zh) | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 | |
| CN107545033B (zh) | 一种基于表示学习的知识库实体分类的计算方法 | |
| Chen et al. | Bilinear joint learning of word and entity embeddings for entity linking | |
| CN111339247B (zh) | 一种微博子话题用户评论情感倾向性分析方法 | |
| CN112434134A (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
| CN114138966A (zh) | 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法 | |
| CN117473316A (zh) | 用于样本生成的方法、装置、设备和存储介质 | |
| CN105912602A (zh) | 一种基于实体属性的真值发现方法 | |
| CN118093860A (zh) | 一种基于文本嵌入向量聚类的多层次科研主题挖掘方法 | |
| CN110413726B (zh) | 一种关系对库表建设方法 | |
| CN108256055B (zh) | 一种基于数据增强的主题建模方法 | |
| CN115730033A (zh) | 一种生物医学文献层次主题树构建方法及装置 | |
| CN111899832B (zh) | 基于上下文语义分析的医疗主题管理系统与方法 | |
| CN105205075A (zh) | 基于协同自扩展的命名实体集合扩展方法及查询推荐方法 | |
| CN111813934A (zh) | 一种基于dma模型和特征划分多源文本主题模型聚类方法 | |
| CN119760057A (zh) | 基于分层簇索引结构的应答大模型检索增强方法及装置 | |
| CN108763400B (zh) | 基于对象行为和主题偏好的对象划分方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |