具体实施方式
下面结合附图对本发明实施例提供的一种网络不良信息的过滤方法以及装置进行详细描述。
如图1所述,为本发明实施例提供的一种网络不良信息的过滤方法;该方法包括:
101:获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
102:对所述待过滤文本信息进行预处理;
103:将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
104:将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
105:根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
如图2所述,为本发明实施例提供的另一种网络不良信息的过滤方法,该方法包括:
201:获取所述系统预研模型信息的语料与所述用户反馈模型信息的语料。其中,所述用户反馈模型信息的语料可以包括:用户反馈语料和/或被过滤语料。通常所述系统预研模型与所述用户反馈模型的训练语料的选择分为正向语料与负向语料;例如:正向语料的准备的不良信息内容文本的收集可以主要包括:广告、色情、暴力、反动等内容文本,共10000篇;负向语料的准备的非不良信息内容文本的收集主要包含任务主要的文本类别,如经济、政治、体育、文化、医药、交通、环境、军事、文艺、历史、计算机、教育、法律、房产、科技、汽车、人才、娱乐等,共30000篇。
需要说明的是,所述训练语料的收集过程中,经常出现正负语料不均衡;一个类别的语料范围很广,另一个类别语料范围则相对较少。本发明中的解决方案是允许这种不均衡的语料分布,对于语料范围很大的类别的准备策略是求全不求量。
202:获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
203:对所述待过滤文本信息进行预处理;
该步骤具体包括:对所述待过滤文本信息进行切分处理;例如:根据标点和常见词对语料进行断句,常见词是指常用且对判定无意义的词汇,如“的”、“了”等,但“您”较常见于正向语料,“我”较常见于负向语料,不适合作为常用词。
需要注意的是,自然语言处理中常用的禁用词表不适合作为常用词表。通常可采用方正智思分词4.0对语料进行分词及词性标注工作。所述切分处理后的切分单元是后续工作最小的处理单元。
统计所述切分处理后的候选特征项数量。例如:对所述切分处理后的切分单元统计其中非汉字部分数量;如:所述切分单元总数为N1,非汉字部分为N2,若N2/N1大于阈值,则判定此候选特征项所对应的待滤文本信息为不良信息。依据是此信息中含有大量噪音字符,可能是广告等垃圾文本;或者,统计所述切分单元中的网址、电话、邮箱、QQ等联系方式出现数量num(ad),此类信息常用于广告中,并赋予默认权重
204:将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;该步骤具体可以包括:
2041:获取所述预处理后的待过滤文本信息以及所述系统预研模型信息;所述系统预研模型信息包括:规则索引库和所述系统预研模型特征项信息;其中,所述规则索引库中的用户规则索引库和用户关键词索引库的生成过程如下:
步骤S1:关键词解析;所述关键词解析方法为:首先,对常用字的汉语拼音建索引,依据关键词中每个字的汉语拼音索引生成整体关键词的索引;然后,再对关键词中的每个字进行结构上的拆分,依据拆分结果递归重组关键词;最后,将关键词索引及拆分集合形成键值对,保存所有解析结果生成用户关键词索引库。如“法轮功”关键词解析后,会生成一个索引值,且有多种拆分结果,具体可以包括,“三去车仑工力”,“法车仑功”等等。
步骤S2:语法解析;计算机将规则语法解析为能够处理的形式。所述规则语法包括:AND、OR、NEAR、NOT。如“A ANDB”,其中A与B都是待解析的关键词,AND语法表示在上下文环境中,当A与B同时出现时,该条规则匹配成功。对关键词及规则语法形成键值对,保存所有解析结果生成用户规则索引库。
需要注意的是,以上所述索引库规则可以是用户配置的规则,还可以系统预置规则;以上所述步骤是对用户配置规则进行解析生成相应的索引库过程,该索引库可以优化以下匹配过程。
2042:将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项;其中,所述系统预研模型信息包括:规则索引库和所述系统预研模型特征项信息;该步骤获取系统预研模型特征项信息的过程具体可以为:
步骤S1,将所述切分单元组成词串作为候选特征项;例如:
(1)对连续的切分单元组合成词串。对于每句中的切分单元,从第1个切分单元开始,组合窗口最大为N,进行组合。如有序切分单元“ABCD”,最大窗口为3,则生成词串的组合共有9种:ABC、BCD、AB、BC、CD、A、B、C、D。
(2)对非连续的切分单元组合成词串。对(1)中的生成的词串计算汉语拼音索引,依据所述2041中的步骤S1生成的用户关键词索引库中进行匹配。若有匹配成功的集合,统计匹配成功数量num(user);然后,再依据所述2041中的步骤S2生成的用户规则索引库中进行匹配,若匹配成功,对于非连续的切分单元生成一个词串。如(1)中9个词串,若在用户关键词索引库中匹配成功两个词串A、D。在用户规则索引库中有规则“A NEAR2 D”,则生成新的特征项AD。这里的2代表A与D的距离不超过2。累加统计匹配成功数量num(user),赋予默认权重
步骤S2,对所述候选特征项进行频次过滤;具体的讲,就是在训练语料中统计候选特征项的出现次数,以频次作为指标进行过滤,对频次大于等于阈值的候选特征项保留,小于阈值的候选特征项剔除,可以调整阈值对保留的范围进行控制。
步骤S3,对所述候选特征项进行频次再过滤;具体的过滤过程包括:
首先,对不合理的频次进行重新估计,比如,若所有出现B时都是AB的情况,则B的频次变为零。频次重新估计公式为:
其中,a表示特征项;f(a)表示a的词频;b表示包含了a的长串特征项;
表示b的集合;
表示集合大小。
然后,以重新评估后的频次作为指标进行再次过滤,对频次大于等于阈值的候选特征项保留,小于阈值的候选特征项剔除,可以调整阈值,对保留的范围进行控制。
步骤S4:对所述候选特征项进行自动选择,从而提取特征项。具体的讲,就是该步骤将正向语料从所述步骤S3中获取到的候选特征项与负向语料从所述步骤S3中获取的候选特征项进行合并,因此合并后这些候选特征项有两个词频,分别对应正向频次和负向频次。采用统计学的卡方统计量来进行特征项的自动选择,保留卡方值最大的前N个候选特征项作为最终特征项信息。卡方统计量公式为:
其中A、B、C、D、N的含义如下:
表中k只取0或1,代表两种类别,即正向类别和负向类别。
需要说明的是,所述特征项包括单字词和多字词。单字词对负向文本的判定影响较大。特别是论坛文本信息的内容,单字的切分单元较常见,如果不考虑单字,对负向文本很容易造成误判。
2043:统计所述特征项的语料信息得分;在步骤S4中已保存了所述特征项的频次,且每个特征项都有两个频次,分别代表正向频次和负向频次,比如,“发票”的正向频次要远远大于负向频次,因为“发票”更常见于广告的不良信息中。将每个特征项的正向频次看作是特征项的正向权重,将每个特征项的负向频次看作是特征项的负向权重。对于所有特征项,分别对正负向权重进行归一化,这样,权重值才有比较意义。归一化的公式为:
由于生成的特征项及其权重是根据系统预先准备的标准两类语料训练得到的,保存生成结果作为系统预研模型特征项信息。
将所述预处理后的待过滤文本信息与所述系统预研模型特征项信息进行特征信息匹配,获得待过滤文本特征项信息,计算所述特征项信息正向得分,其计算公式为:
计算所述特征项信息负向得分,其计算公式为:
同时,考虑到num(ad)与num(user),上述计算公式右侧变化为:
2044:根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;若
则系统预研模型信息判定此待处理文本为不良文本;若
则此模型失效,判定失败:若
则系统预研模型信息判定此待处理文本为正常文本。
2045:根据判断结果,给出所述第一匹配结果。
205:将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;该步骤具体可以包括的流程与步骤204所述流程大致相同。
需要说明的是,所述获取用户反馈模型信息的过程与获取系统预研模型信息的过程主要不同的地方是步骤201中训练语料的选择。所述用户反馈模型信息的训练语料的来源还可以包括如下两方面:
(1)用户反馈机制。用户在实际体验过程中发现判定出现问题的信息,主要是将不良信息判定为正常信息的情况,对系统进行报错,系统接收用户标准答案作为反馈语料。
(2)判定模型机制。待处理文本进入步骤206的不良信息判定流程,输出对该文本的判定结果。结果包括的两种情况,即不良文本或者正常文本。根据判定可信度情况决定待处理文本是否参与反馈训练。
206:根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。具体的讲,就是判断所述第一匹配结果与所述第二匹配结果的判定结果是否一致,即系统预研模型信息与用户反馈模型信息的判定结果。若判定相同,同为不良信息文本或正常信息文本,则判定结果可信度较大,可用于反馈训练;若判定不同,则判定结果可信度有损失,但若采取较为严格的过滤策略,则过滤此文本,但不可用于反馈训练;若其中有一模型失效,则结果依据剩余模型的判定结果,且认为有一定可信度,可用于反馈训练;若两个模型皆失效,则返回失效标志,不可用于反馈训练。
需要注意的是,每完成一个待过滤文本信息的判定过程后,该方法还可以包括:
获取所述用户反馈模型信息的语料数量以及其对应的阈值;具体的讲,就是统计可以用于反馈训练的语料数量,判断所述语料数量是否超出其对应阈值。
根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。若语料数量大于阈值,则对反馈语料进行重新训练,更新用户反馈模型信息。调整阈值的大小,可以调整更新周期。
如图3所示,为本发明实施例提供的一种网络不良信息的过滤装置;该装置包括:
信息获取单元301,用于获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
预处理单元302,用于对所述待过滤文本信息进行预处理;
第一匹配单元303,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
第二匹配单元304,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
过滤单元305,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本进行过滤处理。
如图4所示,为本发明实施例提供的一种网络不良信息的过滤装置;该装置包括:
信息获取单元401,用于获取待过滤文本、系统预研模型信息以及用户反馈模型信息;还用于获取所述用户反馈模型信息的训练语料。其中,所述用户反馈模型信息的语料包括:用户反馈语料和/或被过滤语料。
预处理单元402,用于对所述待过滤文本信息进行预处理;该单元具体包括:
切分子单元4021,用于对所述待过滤文本信息进行切分处理;
统计子单元4022,用于统计所述切分处理后的候选特征项数量。
第一匹配单元403,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;该单元具体可以包括:
信息获取子单元4031,用于获取所述预处理后的待过滤文本信息以及所述系统预研模型信息;其中,所述系统预研模型信息包括:规则索引库和所述系统预研模型特征项信息;
匹配子单元4032,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项;
统计子单元4033,用于统计所述特征项的语料信息得分;
判断子单元4034,用于根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;
结果输出子单元4035,用于根据判断结果,给出所述第一匹配结果。
第二匹配单元404,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;该单元具体可以包括:
信息获取子单元4041,用于获取所述预处理后的待过滤文本信息以及所述用户反馈模型信息;其中,所述用户反馈模型信息包括:规则索引库和所述用户反馈模型特征项信息;
匹配子单元4042,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行匹配,获取特征项;
统计子单元4043,用于统计所述特征项的语料信息得分;
判断子单元4044,用于根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;
结果输出子单元4045,用于根据判断结果,给出所述第二匹配结果。
过滤单元405,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
需要注意的是,该装置还包括:
阈值获取单元406,用于获取所述用户反馈模型信息的语料数量以及其对应的阈值;
更新单元407,用于根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。当所述阈值获取单元获取到的用户反馈模型信息的语料数量达到其对应的阈值时,所述更新单元根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。
本发明实施例提供的网络不良信息的过滤方法以及装置,通过获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。由于本发明中采用了两次匹配进行系统过滤,所以系统自动过滤不良信息的准确性较高,从而提高了系统的性能;还由于本发明实施例采用了用户反馈模型信息进行不良信息的过滤,使得用户反馈信息能够及时的应用于系统自动过滤不良信息的过程中,从而实现了系统的匹配信息自动更新的功能。
通过以上的实施方式的描述,本领域普通技术人员可以理解:实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如上述方法实施例的步骤,所述的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。