[go: up one dir, main page]

CN104239285A - 文章新章节的检测方法及装置 - Google Patents

文章新章节的检测方法及装置 Download PDF

Info

Publication number
CN104239285A
CN104239285A CN201310223253.0A CN201310223253A CN104239285A CN 104239285 A CN104239285 A CN 104239285A CN 201310223253 A CN201310223253 A CN 201310223253A CN 104239285 A CN104239285 A CN 104239285A
Authority
CN
China
Prior art keywords
article
candidate word
chapters
sections
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310223253.0A
Other languages
English (en)
Inventor
蔡兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310223253.0A priority Critical patent/CN104239285A/zh
Priority to CN201910649833.3A priority patent/CN110347931A/zh
Publication of CN104239285A publication Critical patent/CN104239285A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文章新章节的检测方法及装置,属于互联网技术领域。所述方法包括:确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;计算所述第一主题词向量和所述第二主题词向量的相似度;根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。通过采用本发明的技术方案,在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。

Description

文章新章节的检测方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种文章新章节的检测方法及装置。
背景技术
随着互联网网络科技的发展,越累越多的人们可以通过互联网进行各种活动,例如人们可以通过互联网阅读一些连载的文章等等。
现有技术中,随着网络文章的日益火爆也催生了越来越多的文章网站的诞生,据不完全统计,各种中小型文章网站数量已经达到数十万个,其质量良莠不齐,经常存在一些盗取内容甚至制造虚假的新章节以骗取文章用户点击,伤害用户体验的行为。作为文章聚合平台,在抓取这些网站的文章的新章节数据后,对文章的新章节进行人工审核,将虚假的新章节识别出来并及时过滤掉,以向用户提供较高质量的文章。该方案为提高文章聚合平台质量、优化用户阅读体验的重要环节。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:上述现有的采用人工审核的方式审核文章的新章节的方法,审核时间较长,导致文章的新章节不能被及时推送。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种文章新章节的检测方法及装置。所述技术方案如下:
一方面,提供了一种文章新章节的检测方法,所述方法包括:
确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;
确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;
计算所述第一主题词向量和所述第二主题词向量的相似度;
根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。
另一方面,提供了一种文章新章节的检测装置,所述装置包括:
第一确定模块,用于确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;
第二确定模块,用于确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;
计算模块,用于计算所述第一主题词向量和所述第二主题词向量的相似度;
判断模块,用于根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。
本发明实施例的文章新章节的检测方法及装置,通过确定文章的已检测章节的第一主题词向量;第一主题词向量用于标识文章的已检测章节的内容;确定文章的新章节的第二主题词向量;第二主题词向量用于标识文章的新章节的内容;计算第一主题词向量和第二主题词向量的相似度;根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节。采用本发明实施例的技术方案,整个文章新章节的检测流程不需要人工干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本发明实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确地确定出新章节是否为虚假章节。本发明实施例的技术方案在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的文章新章节的检测方法的流程图;
图2为本发明另一实施例提供的文章新章节的检测方法的流程图;
图3为本发明一实施例提供的文章新章节的检测装置的结构示意图;
图4为本发明另一实施例提供的文章新章节的检测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1为本发明一实施例提供的文章新章节的检测方法的流程图。如图1所示,本实施例的文章新章节的检测方法,具体可以包括如下步骤:
100、确定文章的已检测章节的第一主题词向量;
其中第一主题词向量用于标识文章的已检测章节的内容;本实施例的已检测章节为该文章的已经确定的有效章节,该有效章节可以理解为采用本发明实施例的方法已经确定为有效章节的章节。需要说明的是,在确定该文章的第一章节时,由于不存在已检测章节,不能采用本发明实施例的方法,可以采用人工审核的方法审核第一章节是否为有效章节。
例如,确定文章的已检测章节的第一主题词向量的过程可以理解为对已检测章节进行训练提取第一主题词向量的过程。
101、确定文章的新章节的第二主题词向量;
其中第二主题词向量用于标识文章的新章节的内容。
本实施例中,步骤101“确定文章的新章节的第二主题词向量“与步骤“确定文章的已检测章节的第一主题词向量”的具体实现过程可以相同。例如,确定文章的新章节的第二主题词向量的过程可以理解为对新章节进行训练提取第二主题词向量的过程。其中优选地,本实施例中第二主题词向量与第一主题词向量包括的主题词的数量相同。
102、计算第一主题词向量和第二主题词向量的相似度;
103、根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节。
本实施例的文章新章节的检测方法的执行主体可以为一文章新章节的检测装置。例如该文章新章节的检测装置可以设置在文章聚合平台中。
本实施例的文章新章节的检测方法,通过确定文章的已检测章节的第一主题词向量;第一主题词向量用于标识文章的已检测章节的内容;确定文章的新章节的第二主题词向量;第二主题词向量用于标识文章的新章节的内容;计算第一主题词向量和第二主题词向量的相似度;根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节。采用本实施例的技术方案,整个文章新章节的检测流程不需要人工干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确地确定出新章节是否为虚假章节。本实施例的技术方案在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。
可选地,在上述图1所示实施例的技术方案的基础上,其中步骤100“确定文章的已检测章节的第一主题词向量”,具体可以包括如下步骤:
(1)对文章的已检测章节进行文字拆分,得到多个候选词;
(2)计算多个候选词中每个候选词的权重;
(3)根据多个候选词以及多个候选词中每个候选词的权重,生成第一主题词向量。
例如其中步骤(2)“计算多个候选词中每个候选词的权重”,具体可以包括:计算每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵;并根据每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵,计算每个候选词的权重。左邻字符集是指一段话里某个词左边出现的字符集的集合,右邻字符集是指一段话里某个词右边出现的字符集的集合。比如“看他们的样子,觉得他们特别难受,也为他们祝福。”这句话,侯选词“他们”的左邻字符集={看,得,为},右邻字符集={的,特,祝}。具体地左邻字符集和右邻字符集的确定可以参考相关现有技术,在此不再赘述。
进一步可选地,其中“根据每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵,计算每个候选词的权重”,具体采用如下公式计算每个候选词的权重:
其中,W是候选词的权重,TF为候选词在文章中出现的频率,Ha为左邻字符集的熵,Hb为右邻字符集的熵,L为候选词的长度。
进一步可选地,其中上述步骤(3)“根据多个候选词以及多个候选词中每个候选词的权重,生成第一主题词向量”具体可以包括:从多个候选词中,按照权重由高到低的顺序取出M个候选词,生成第一主题词向量。具体地,第二主题词向量与第一主题词向量包括的主题词的数量M的大小可以根据实际情况选择,例如可以取权重较高的Top10,也可以取权重较高的Top100,或者Top200等等。
例如其中候选词的长度在2-5个汉字之间。例如“abcd”会拆分得到“ab”,“bc”,“cd”,“abc”,“bcd”,“abcd”的候选词。并统计每个候选词在这本文章里出现的频数、长度、左邻近字符集的熵和右邻近字符集的熵,其中熵越大则表达此候选词越重要。最后利用公式计算每个候选词的权重,并按权重由高到底排序,例如可以取权重最高的TOP500个词组成第一主题词向量,作为此本文章的第一主题词向量。其中熵的公式是:H=-plogp。P表示字符集中每个字符在该字符集中的概率。比如若某个候选词其左字符集是{a,a,b,c},则其左字符集的熵是 Ha = - 2 4 log ( 2 4 ) - 1 4 log ( 1 4 ) - 1 4 log ( 1 4 ) . 显然熵越大表明这个候选串独立性越强,越有可能是文章的主题词。例如表1为某一本文章计算出来的前10个权重最高的候选词,可以看到主要以文章中人物名字、机构等为主,具有很明显的独特性。实际应用中,可以采用这10个权重最高的候选词作为该本文章的第一主题词向量。
表1
进一步可选地,在上述实施例的技术方案的基础上,其中在步骤(2)“计算多个候选词中每个候选词的权重”之后,步骤(3)“根据多个候选词以及多个候选词中每个候选词的权重,生成第一主题词向量”之前,还可以包括如下步骤:
(a)统计多个候选词中每个候选词的文档频率;
本实施例的文档频率为候选词在文章池所包括的N篇文章中出现的文章篇数。比如文章池共有100本文章,词x在其中20本文章的候选主题词向量里出现过,则其文档频率DF=20。一个主题词的文档频率DF越大,则这个词独特性越差,因此其相对某本文章来讲越不够重要。相反,若一个主题词的文档频率DF=1,即只在一本文章的主题词向量里出现过,则这个词很有可能是此本文章的专属词,独特性非常高。
(c)根据多个候选词中每个候选词的文档频率和文章池所包括的N篇文章,更新多个候选词中每个候选词的权重。
例如可以具体采用如下公式计算每个候选词的权重:
W=W*log(N/DF),其中W为候选词的权重,DF为候选词的文档频率。
步骤(c)之后,然后可以按照更新后的权重重新排序,挑选M个如TOP200作为每本文章的最终的第一主题词向量。
需要说明的是,上述实施例都是解释了第一主题词向量的确定方式,其中第二主题词向量的确定方式与第一主题词向量的确定方式相同,详细可以参考上述实施例的记载,在此不再赘述。
进一步可选地,在上述图1所示实施例的技术方案的基础上,步骤102“计算第一主题词向量和第二主题词向量的相似度”,具体可以包括采用如下公式计算第一主题词向量和第二主题词向量的相似度:
其中D表示第一主题词向量,Di表示第一主题词向量中第i个主题词;Q表示所述第二主题词向量,Qi表示第二主题词向量中第i个主题词;m表示第一主题词向量和第二主题词向量各所包括的主题词的数目;sim(D,Q)表示第一主题词向量和第二主题词向量的相似度。其中sim(D,Q)取值范围在0-1之间,值越大表示两向量相似度越高。
进一步可选地,在上述图1所示实施例的技术方案的基础上,步骤103“根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节”,具体可以包括:当相似度大于等于预设相似度阈值,确定新章节为文章的有效章节;当相似度小于预设相似度阈值,确定新章节为文章的虚假章节。
进一步可选地,在上述实施例的技术方案的基础上,当确定新章节为文章的虚假章节之后,还可以包括:过滤文章的新章节。也就是说,不向文章聚合平台的用户显示该虚假的新章节,从而提高文章聚合平台的文章质量,提高用户的体验度。
上述实施例的所有可选技术方案,可以采用可以结合的方式任意组合形成本发明的可选实施例,在此不再一一赘述。
上述实施例的文章新章节的检测方法,整个文章新章节的检测流程不需要人工干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本发明实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确地确定出新章节是否为虚假章节。本发明实施例的技术方案在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。
图2为本发明另一实施例提供的文章新章节的检测方法的流程图。本实施例的文章新章节的检测方法在上述图1及其可选实施例的基础上,进一步更加详细地介绍本发明的技术方案。如图2所示,本实施例的文章新章节的检测方法,具体可以包括如下步骤:
200、对文章的已检测章节进行文字拆分,得到多个候选词;
201、计算多个候选词中每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵;
202、根据每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵,计算每个候选词的权重;
具体可以采用上述实施例的相关方法,在此不再赘述。
203、统计多个候选词中每个候选词的文档频率;
204、根据多个候选词中每个候选词的文档频率和文章池所包括的N篇文章,根据如下公式更新多个候选词中每个候选词的权重;
根据公式W=W*log(N/DF)更新多个候选词中每个候选词的权重其中W为候选词的权重,DF为候选词的文档频率。等号左边的W为更新后的候选词的权重,等号右边的W为步骤202计算得到的候选词的权重,即更新前的候选词的权重。
205、从多个候选词中,按照权重由高到低的顺序取出Top200个候选词,生成第一主题词向量;
206、确定文章的新章节的第二主题词向量;
确定文章的新章节的第二主题词向量具体实现过程与上述步骤200-205确定第一主题词向量的过程相同,详细可以参考上述步骤200-205的记载,在此不再赘述。需要说明的是,第一主题词向量中包括的主题词与第二主题词向量中包括的主题词的数量相同。
207、采用如下公式计算第一主题词向量和第二主题词向量的相似度:
其中D表示第一主题词向量,Di表示第一主题词向量中第i个主题词;Q表示所述第二主题词向量,Qi表示第二主题词向量中第i个主题词;m表示第一主题词向量和第二主题词向量各所包括的主题词的数目;sim(D,Q)表示第一主题词向量和第二主题词向量的相似度。其中sim(D,Q)取值范围在0-1之间,值越大表示两向量相似度越高。
208、判断相似度是否大于或等于预设相似度阈值T,当大于或等于时,执行步骤209;否则当小于时,执行步骤210;
209、确定新章节为该文章的有效章节;
210、确定新章节为该文章的虚假章节,执行步骤211;
211、过滤文章的该新章节。
例如以下表2为文章名为novel_tiancaixiangshi的文章的一些信息,其中第2列是某文章名称,第3列是来自不同文章的章节,第1列是2、3列相似度值。第一行表示来自本文章的一些已经检测过的章节,第8行表示虚假章节。可以看到只有第一行表示的本文章章节,其与第2列文章向量的相似度大于0.3,而剩下其它文章的章节以及虚假章节相似度都小于0.05,因此能够非常准确地将有效章节与虚假章节进行区分开来。
表2
本实施例的文章新章节的检测方法,整个文章新章节的检测流程不需要人工干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本发明实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确地确定出新章节是否为虚假章节。本发明实施例的技术方案在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。
图3为本发明一实施例提供的文章新章节的检测装置的结构示意图。如图3所示,本实施例的文章新章节的检测装置包括:第一确定模块10、第二确定模块11、计算模块12和判断模块13。
其中第一确定模块10用于确定文章的已检测章节的第一主题词向量;该第一主题词向量用于标识文章的已检测章节的内容;第二确定模块11用于确定文章的新章节的第二主题词向量;该第二主题词向量用于标识文章的新章节的内容;计算模块12分别与第一确定模块10和第二确定模块11连接,计算模块12用于计算第一确定模块10确定的第一主题词向量和第二确定模块11确定的第二主题词向量的相似度;判断模块13与计算模块12连接,判断模块13用于根据计算模块12计算得到的相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节。
本实施例的文章新章节的检测装置、通过采用上述模块实现文章新章节的检测与上述相关方法实施例的实现机制相同,详细可以参考上述相关实施例的记载,在此不再赘述。
本实施例的文章新章节的检测装置、通过采用上述模块实现确定文章的已检测章节的第一主题词向量;第一主题词向量用于标识文章的已检测章节的内容;确定文章的新章节的第二主题词向量;第二主题词向量用于标识文章的新章节的内容;计算第一主题词向量和第二主题词向量的相似度;根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节。采用本实施例的技术方案,整个文章新章节的检测流程不需要人工干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确地确定出新章节是否为虚假章节。本实施例的技术方案在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。
图4为本发明另一实施例提供的文章新章节的检测装置的结构示意图。如图4所示,本实施例的文章新章节的检测装置在上述图3所示实施例的基础上,进一步包括如下技术方案。
如图4所示,本实施例的文章新章节的检测装置中的第一确定模块10包括拆分单元101、计算单元102和生成单元103。
其中拆分单元101用于对文章的已检测章节进行文字拆分,得到多个候选词;计算单元102与拆分单元101连接,计算单元102用于计算拆分单元101拆分得到的多个候选词中每个候选词的权重;生成单元103分别与拆分单元101和计算单元102连接,生成单元103用于根据拆分单元101拆分得到的多个候选词以及计算单元102计算得到的多个候选词中每个候选词的权重,生成第一主题词向量。
进一步可选地,本实施例的文章新章节的检测装置中,计算单元102具体用于计算拆分单元101拆分得到的多个候选词中每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵;并根据每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵,计算每个候选词的权重。
进一步可选地,本实施例的文章新章节的检测装置中,计算单元102具体采用如下公式计算拆分单元101拆分得到的多个候选词中每个候选词的权重:
其中,W是候选词的权重,TF为候选词在文章中出现的频率,Ha为左邻字符集的熵,Hb为右邻字符集的熵,L为候选词的长度。
进一步可选地,本实施例的文章新章节的检测装置中,生成单元103具体用于从拆分单元101拆分得到的多个候选词中,按照计算单元102计算得到的每个候选词的权重权重由高到低的顺序取出M个候选词,生成第一主题词向量。
进一步可选地,本实施例的文章新章节的检测装置中,第一确定模块20还包括统计单元104和更新单元105。
统计单元104与拆分单元101连接,统计单元104用于在计算单元102计算多个候选词中每个候选词的权重之后,生成单元103根据多个候选词以及多个候选词中每个候选词的权重,生成第一主题词向量之前,统计拆分单元101拆分得到的多个候选词中每个候选词的文档频率;该文档频率为候选词在文章池所包括的N篇文章中出现的文章篇数。更新单元105分别与统计单元104和计算单元102连接;更新单元105用于根据统计单元104统计得到的多个候选词中每个候选词的文档频率和文章池所包括的N篇文章,以及计算单元102计算得到的多个候选词中每个候选词的权重,更新计算单元102计算得到的多个候选词中每个候选词的权重。
此时对应的生成单元103与更新单元105连接,生成单元103用于根据拆分单元101拆分得到的多个候选词以及更新单元105更新得到的多个候选词中每个候选词的权重,生成第一主题词向量。
例如更新单元105具体采用如下公式计算每个候选词的权重:
W=W*log(N/DF),其中W为候选词的权重,DF为候选词的文档频率。等号左边的W为更新后的候选词的权重,等号右边的W为步骤202计算得到的候选词的权重,即更新前的候选词的权重。
进一步可选地,本实施例的文章新章节的检测装置中,计算模块12具体可以与生成单元103连接,具体采用如下公式计算生成单元103生成的第一主题词向量和第二主题词向量的相似度:
其中D表示第一主题词向量,Di表示第一主题词向量中第i个主题词;Q表示所述第二主题词向量,Qi表示第二主题词向量中第i个主题词;m表示第一主题词向量和第二主题词向量各所包括的主题词的数目;sim(D,Q)表示第一主题词向量和第二主题词向量的相似度。
具体地,第二确定模块11也包括像第一确定模块10中的上述拆分单元101、计算单元102和生成单元103,以及统计单元104和更新单元105,实现第一主题词向量的确定,详细可以参考上述实施例的记载,在此不再赘述。
进一步可选地,本实施例的文章新章节的检测装置中,判断模块13具体用于判断计算模块12计算得到的相似度与预设相似度阈值的大小关系,当相似度大于等于预设相似度阈值,确定新章节为文章的有效章节;当相似度小于预设相似度阈值,确定新章节为文章的虚假章节。
进一步可选地,本实施例的文章新章节的检测装置中还包括过滤模块14。该过滤模块14与判断模块13连接,过滤模块14用于在判断模块13确定新章节为文章的虚假章节之后,过滤文章的新章节。
本实施例的文章新章节的检测装置中的所有可选技术方案,可以采用可以结合的方式任意组合形成本发明的可选实施例,在此不再一一赘述。
本实施例的文章新章节的检测装置,通过采用上述模块实现文章新章节的检测与上述相关方法实施例的实现机制相同,详细可以参考上述相关实施例的记载,在此不再赘述。
本实施例的文章新章节的检测装置,通过采用上述模块实现整个文章新章节的检测流程不需要人工干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本发明实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确地确定出新章节是否为虚假章节。本发明实施例的技术方案在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。
本发明实施例还可以提供一种文章聚合平台,在该文章聚合平台上设置有如上图3或者图4所示实施例的文章新章节的检测装置,该文章新章节的检测装置具体可以采用上述图1或者图2所示实施例的文章新章节的检测方法实现文章新章节的检测,详细可以采用上述相关实施例的记载,在此不再赘述。
需要说明的是:上述实施例提供的文章新章节的检测装置在文章新章节的检测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文章新章节的检测装置与文章新章节的检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种文章新章节的检测方法,其特征在于,所述方法包括:
确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;
确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;
计算所述第一主题词向量和所述第二主题词向量的相似度;
根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。
2.根据权利要求1所述的方法,其特征在于,所述确定文章的已检测章节的第一主题词向量,包括:
对所述文章的已检测章节进行文字拆分,得到多个候选词;
计算所述多个候选词中每个所述候选词的权重;
根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成所述第一主题词向量。
3.根据权利要求2所述的方法,其特征在于,计算所述多个候选词中每个所述候选词的权重,包括:
计算每个所述候选词的长度、在所述文章中出现的频率、左邻字符集的熵和右邻字符集的熵;
根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重。
4.根据权利要求3所述的方法,其特征在于,根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重,具体采用如下公式计算每个所述候选词的权重:
其中,所述W是所述候选词的权重,所述TF为所述候选词在所述文章中出现的频率,所述Ha为所述左邻字符集的熵,所述Hb为所述右邻字符集的熵,所述L为所述候选词的长度。
5.根据权利要求2所述的方法,其特征在于,根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成所述第一主题词向量,包括:
从所述多个候选词中,按照权重由高到低的顺序取出M个候选词,生成所述第一主题词向量。
6.根据权利要求2-5任一所述的方法,其特征在于,计算所述多个候选词中每个所述候选词的权重之后,根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成所述第一主题词向量之前,所述方法还包括:
统计所述多个候选词中每个所述候选词的文档频率;所述文档频率为所述候选词在文章池所包括的N篇文章中出现的文章篇数;
根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的N篇文章,更新所述多个候选词中每个所述候选词的权重。
7.根据权利要求6所述的方法,其特征在于,根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的N篇文章,更新所述多个候选词中每个所述候选词的权重,具体采用如下公式计算每个所述候选词的权重:
W=W*log(N/DF),其中所述W为所述候选词的权重,所述DF为所述候选词的文档频率。
8.根据权利要求1所述的方法,其特征在于,计算所述第一主题词向量和所述第二主题词向量的相似度,包括采用如下公式计算所述第一主题词向量和所述第二主题词向量的相似度:
其中所述D表示所述第一主题词向量,所述Di表示第一主题词向量中第i个主题词;所述Q表示所述第二主题词向量,所述Qi表示第二主题词向量中第i个主题词;所述m表示所述第一主题词向量和所述第二主题词向量各所包括的主题词的数目;所述sim(D,Q)表示所述第一主题词向量和所述第二主题词向量的相似度。
9.根据权利要求7或者8所述的方法,其特征在于,根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节,包括:
当所述相似度大于等于所述预设相似度阈值,确定所述新章节为所述文章的有效章节;
当所述相似度小于所述预设相似度阈值,确定所述新章节为所述文章的虚假章节。
10.根据权利要求9所述的方法,其特征在于,确定所述新章节为所述文章的虚假章节之后,所述方法还包括:
过滤所述文章的所述新章节。
11.一种文章新章节的检测装置,其特征在于,所述装置包括:
第一确定模块,用于确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;
第二确定模块,用于确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;
计算模块,用于计算所述第一主题词向量和所述第二主题词向量的相似度;
判断模块,用于根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。
12.根据权利要求11所述的装置,其特征在于,所述第一确定模块包括:
拆分单元,用于对所述文章的已检测章节进行文字拆分,得到多个候选词;
计算单元,用于计算所述多个候选词中每个所述候选词的权重;
生成单元,用于根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成所述第一主题词向量。
13.根据权利要求12所述的装置,其特征在于,所述计算单元,具体用于计算每个所述候选词的长度、在所述文章中出现的频率、左邻字符集的熵和右邻字符集的熵;并根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重。
14.根据权利要求13所述的装置,其特征在于,所述计算单元,具体采用如下公式计算每个所述候选词的权重:
其中,所述W是所述候选词的权重,所述TF为所述候选词在所述文章中出现的频率,所述Ha为所述左邻字符集的熵,所述Hb为所述右邻字符集的熵,所述L为所述候选词的长度。
15.根据权利要求12所述的装置,其特征在于,所述生成单元,具体用于从所述多个候选词中,按照权重由高到低的顺序取出M个候选词,生成所述第一主题词向量。
16.根据权利要求12-15任一所述的装置,其特征在于,所述第一确定模块还包括:
统计单元,用于在所述计算单元计算所述多个候选词中每个所述候选词的权重之后,所述生成单元根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成所述第一主题词向量之前,统计所述多个候选词中每个所述候选词的文档频率;所述文档频率为所述候选词在文章池所包括的N篇文章中出现的文章篇数;
更新单元,用于根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的N篇文章,更新所述多个候选词中每个所述候选词的权重。
17.根据权利要求16所述的装置,其特征在于,所述更新单元,具体采用如下公式计算每个所述候选词的权重:
W=W*log(N/DF),其中所述W为所述候选词的权重,所述DF为所述候选词的文档频率。
18.根据权利要求11所述的装置,其特征在于,所述计算模块,具体采用如下公式计算所述第一主题词向量和所述第二主题词向量的相似度:
其中所述D表示所述第一主题词向量,所述Di表示第一主题词向量中第i个主题词;所述Q表示所述第二主题词向量,所述Qi表示第二主题词向量中第i个主题词;所述m表示所述第一主题词向量和所述第二主题词向量各所包括的主题词的数目;所述sim(D,Q)表示所述第一主题词向量和所述第二主题词向量的相似度。
19.根据权利要求17或者18所述的装置,其特征在于,所述判断模块,具体用于当所述相似度大于等于所述预设相似度阈值,确定所述新章节为所述文章的有效章节;当所述相似度小于所述预设相似度阈值,确定所述新章节为所述文章的虚假章节。
20.根据权利要求19所述的装置,其特征在于,所述装置还包括:
过滤模块,用于在所述判断模块确定所述新章节为所述文章的虚假章节之后,过滤所述文章的所述新章节。
CN201310223253.0A 2013-06-06 2013-06-06 文章新章节的检测方法及装置 Pending CN104239285A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310223253.0A CN104239285A (zh) 2013-06-06 2013-06-06 文章新章节的检测方法及装置
CN201910649833.3A CN110347931A (zh) 2013-06-06 2013-06-06 文章新章节的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310223253.0A CN104239285A (zh) 2013-06-06 2013-06-06 文章新章节的检测方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910649833.3A Division CN110347931A (zh) 2013-06-06 2013-06-06 文章新章节的检测方法及装置

Publications (1)

Publication Number Publication Date
CN104239285A true CN104239285A (zh) 2014-12-24

Family

ID=52227382

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201310223253.0A Pending CN104239285A (zh) 2013-06-06 2013-06-06 文章新章节的检测方法及装置
CN201910649833.3A Pending CN110347931A (zh) 2013-06-06 2013-06-06 文章新章节的检测方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910649833.3A Pending CN110347931A (zh) 2013-06-06 2013-06-06 文章新章节的检测方法及装置

Country Status (1)

Country Link
CN (2) CN104239285A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677641A (zh) * 2016-01-13 2016-06-15 夏峰 一种论文自检方法及系统
CN105701076A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN105701085A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种网络查重方法及系统
CN106294292A (zh) * 2016-07-20 2017-01-04 腾讯科技(深圳)有限公司 章节目录筛选方法及装置
WO2017080183A1 (zh) * 2015-11-12 2017-05-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
WO2021159760A1 (zh) * 2020-09-09 2021-08-19 平安科技(深圳)有限公司 文章截断点的设定方法、装置以及计算机设备
CN117290528A (zh) * 2023-09-19 2023-12-26 山西灌木文化传媒有限公司 一种线上剧本的多媒体编创方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
US20110055332A1 (en) * 2009-08-28 2011-03-03 Stein Christopher A Comparing similarity between documents for filtering unwanted documents
CN102081598A (zh) * 2011-01-27 2011-06-01 北京邮电大学 一种检测文本重复的方法
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN103077157A (zh) * 2013-01-22 2013-05-01 清华大学 一种文本集合相似性的可视化方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711312B2 (en) * 2005-02-03 2010-05-04 Educational Testing Service Method and system for detecting off-topic essays without topic-specific training
JP5379138B2 (ja) * 2007-08-23 2013-12-25 グーグル・インコーポレーテッド 領域辞書の作成
CN103020022B (zh) * 2012-11-20 2016-01-27 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
US20110055332A1 (en) * 2009-08-28 2011-03-03 Stein Christopher A Comparing similarity between documents for filtering unwanted documents
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN102081598A (zh) * 2011-01-27 2011-06-01 北京邮电大学 一种检测文本重复的方法
CN103077157A (zh) * 2013-01-22 2013-05-01 清华大学 一种文本集合相似性的可视化方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
丁溪源: "基于大规模语料的中文新词抽取算法的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李文翔 等: "《基于内容主题的语料库系统设计与实现》", 《计算机应用研究》 *
聂金慧 等: "中文新词提取与过滤研究综述", 《中国科技论文在线》 *
阮一峰: "TF-IDF与余弦相似性的应用(二):找出相似文章", 《HTTP://WWW.RUANYIFENG.COM/BLOG/2013/03/COSINE_SIMILARITY.HTML》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080183A1 (zh) * 2015-11-12 2017-05-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN105701085B (zh) * 2016-01-13 2018-05-22 湖南通远网络科技有限公司 一种网络查重方法及系统
CN105701076A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN105701085A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种网络查重方法及系统
CN105677641A (zh) * 2016-01-13 2016-06-15 夏峰 一种论文自检方法及系统
CN105701076B (zh) * 2016-01-13 2018-05-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN105677641B (zh) * 2016-01-13 2018-03-16 夏峰 一种论文自检方法及系统
CN106294292A (zh) * 2016-07-20 2017-01-04 腾讯科技(深圳)有限公司 章节目录筛选方法及装置
CN106294292B (zh) * 2016-07-20 2020-12-25 腾讯科技(深圳)有限公司 章节目录筛选方法及装置
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
WO2021159760A1 (zh) * 2020-09-09 2021-08-19 平安科技(深圳)有限公司 文章截断点的设定方法、装置以及计算机设备
CN117290528A (zh) * 2023-09-19 2023-12-26 山西灌木文化传媒有限公司 一种线上剧本的多媒体编创方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN110347931A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN104239285A (zh) 文章新章节的检测方法及装置
CN104462126B (zh) 一种实体链接方法及装置
CN106874435B (zh) 用户画像构建方法和装置
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
JP6987209B2 (ja) ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム
CN106776544A (zh) 人物关系识别方法及装置和分词方法
CN108920649B (zh) 一种信息推荐方法、装置、设备和介质
US20140032207A1 (en) Information Classification Based on Product Recognition
CN103605691B (zh) 用于处理社交网络中发布内容的装置和方法
US11954097B2 (en) Intelligent knowledge-learning and question-answering
CN103455485A (zh) 自动更新用户兴趣模型方法及装置
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
CN105005616B (zh) 基于文本图片特征交互扩充的文本图解方法及系统
CN103617192B (zh) 一种数据对象的聚类方法和装置
CN105095391A (zh) 利用分词程序识别机构名称的装置及方法
CN115131058B (zh) 账号识别方法、装置、设备及存储介质
CN105550169A (zh) 一种基于字符长度识别兴趣点名称的方法和装置
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN101114282A (zh) 一种分词处理方法及设备
CN107369066B (zh) 一种评论对象之间的特征比较方法及装置
WO2017000341A1 (zh) 一种信息处理方法、装置以及终端
CN114782720A (zh) 文案的配图确定方法、装置、电子设备、介质及程序产品
CN111091812B (zh) 小语种语料的生成方法及系统
CN110569504B (zh) 一种关系词确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141224