CN103136266A - 邮件分类的方法及装置 - Google Patents
邮件分类的方法及装置 Download PDFInfo
- Publication number
- CN103136266A CN103136266A CN2011103924898A CN201110392489A CN103136266A CN 103136266 A CN103136266 A CN 103136266A CN 2011103924898 A CN2011103924898 A CN 2011103924898A CN 201110392489 A CN201110392489 A CN 201110392489A CN 103136266 A CN103136266 A CN 103136266A
- Authority
- CN
- China
- Prior art keywords
- category
- conditional probability
- emails
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种邮件分类的方法及装置,该方法包括:将待分类的邮件进行文本分词以获得一个词条集;将词条集中的词条与特征词库中表征邮件类别的特征词相匹配,并根据匹配结果计算邮件属于类别的条件概率;根据条件概率确定邮件的类别。该邮件分类的方法解决了现有技术中邮件分类的方法较少且正确率低的问题,进而达到了高效且准确的对邮件进行分类,过滤垃圾邮件的效果,提升系统的性能的同时也提高了用户体验。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种邮件分类的方法及装置。
背景技术
随着时代的进步,人们的通信方式也各种各样,邮件作为一种通信方式,已成为人们交流中扮演了重要角色。邮件的用途日益广泛,邮件的种类也日益增加。众所周知,当前网络安全环境及SMTP协议的弱点导致产生了大量的垃圾邮件,在过去几年中,这种情况愈演愈烈。不可否认,垃圾邮件已经是当今电子邮件系统中最令人头痛的问题,垃圾邮件足以让企业和用户蒙受巨大损失,更为严重的是,垃圾邮件的危害已不再局限于电子邮件内容本身,更涉及网络安全,如果无法有效控制这些威胁,就可能使整个企业网络陷入遭受安全攻击的危险之中。因此,近几年各种反垃圾邮件技术接踵而出。其中,过滤是一种相对来说最简单且直接的处理垃圾邮件的技术。这种技术主要用于邮件的接收系统来辨别和处理垃圾邮件。应用普遍且简单易行的过滤技术有:黑白名单技术,关键词技术,规则技术。
黑白名单技术是分别已知垃圾邮件发送者或可信任的发送者IP地址或者邮件地址,如果邮件地址或IP地址在白名单中,就认为是合法的邮件,如果邮件地址或IP地址在黑名单中,就认为是垃圾邮件。这种技术也存在一定的缺陷,因为不能在黑白名单中包含所有的(即便是大量)的IP地址,而且垃圾邮件发送者很容易通过不同的IP地址来制造垃圾。
关键词技术是指通过设定一些关键词来判断当前邮件为垃圾邮件的可能性大小。一般来说关键词过滤技术需要根据垃圾邮件的特点构建一系列的关键词列表,同时该关键词列表需要不断的更新。
基于规则过滤技术,主要根据某些特征(比如单词、词组、位置、大小、附件等)来形成规则,通过这些规则来描述垃圾邮件,要使得过滤器有效,就意味着管理人员要维护一个庞大的规则库。
现有技术中,邮件分类的方法较少且正确率低,导致了在垃圾邮件日益增多的情况下,无法对邮件进行高效且准确的过滤,对人们在日常使用邮件造成了极大的不便,对垃圾邮件的处理浪费用户大量的时间,垃圾邮件的存在还有可能对个人或企业的网络造成安全威胁。
发明内容
本发明提供了一种邮件分类的方法及装置,以至少解决现有技术中,邮件分类的方法较少且正确率低,导致了在垃圾邮件日益增多的情况下,无法对邮件进行高效且准确的过滤的问题。
根据本发明的一个方面,提供了一种邮件分类的方法,包括:将待分类的邮件进行文本分词以获得一个词条集;将词条集中的词条与特征词库中表征邮件类别的特征词相匹配,并根据匹配结果计算邮件属于类别的条件概率;根据条件概率确定邮件的类别。
优选地,在将待分类的邮件进行文本分词以获得一个词条集之前,对待分类的邮件进行以下预处理,包括:按发送者地址和/或邮件中包含的关键词对待分类的邮件进行过滤;提取未过滤掉的邮件的标题和正文以组成文本文件;对文本文件进行去噪处理。
优选地,在将待分类的邮件进行文本分词以获得一个词条集之前,按以下方法建立特征词库,包括:计算训练集中邮件的词条的熵值;将属于相同类别的词条按熵值进行排序;选取熵值大于预设阈值的词条作为特征词库中表征该邮件类别的特征词。
优选地,根据匹配结果使用贝叶斯的分类算法计算邮件属于类别的条件概率。
优选地,将词条集中的词条与特征词库中表征邮件类别的特征词相匹配,并根据匹配结果使用贝叶斯的分类算法计算邮件属于类别的条件概率包括:将词条集中的词条与特征词库中表征邮件类别的特征词逐一匹配,得到匹配词条集;逐一计算匹配词条集中的词条属于所匹配的类别的第一条件概率,并根据第一条件概率计算匹配词条集属于类别的第二条件概率;根据第二条件概率计算邮件属于类别的条件概率。
优选地,采用最大匹配法将待分类的邮件进行文本分词以获得词条集。
优选地,邮件的类别包括:垃圾邮件和正常邮件。
根据本发明的另一方面,提供了一种邮件分类的装置,包括:分词模块,用于将待分类的邮件进行文本分词以获得一个词条集;匹配模块,用于将词条集中的词条与特征词库中表征邮件类别的特征词相匹配;计算模块,用于根据匹配结果计算邮件属于类别的条件概率;确定模块,用于根据条件概率确定邮件的类别。
优选地,邮件分类的装置还包括:过滤子模块,用于按发送者地址和/或邮件中包含的关键词对待分类的邮件进行过滤;提取子模块,用于提取未过滤掉的邮件的标题和正文以组成文本文件;去噪子模块,用于对文本文件进行去噪处理。
优选地,邮件类别包括:垃圾邮件和正常邮件。
通过本发明,采用提取待分类邮件中的词条与特征词库的特征词进行匹配处理,并根据上述的匹配结果计算邮件所属类别的条件概率,通过上述条件概率确定邮件的类别的方法,解决了现有技术中,邮件分类的方法较少且正确率低的问题,进而达到了高效且准确的对邮件进行分类,过滤垃圾邮件的效果,提升了系统的性能的同时也提高了用户体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的邮件分类的方法的流程图;
图2是根据本发明优选实施例的邮件分类的方法的流程示意图;
图3是根据本发明优选实施例的邮件分类的方法中文本分词的流程图;
图4是根据本发明优选实施例的基于贝叶斯分类算法的邮件分类的方法的流程图;
图5是根据本发明实施例的邮件分类的装置的结构框图一;以及
图6是根据本发明实施例的邮件分类的装置的结构框图二。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
针对现有技术中没有一种能高效且准确将邮件进行分类的方法,本发明提供了一种邮件分类的方法,如图1所示,是根据本发明实施例的邮件分类的方法的流程图。该邮件分类的方法包括:
步骤S102,将待分类的邮件进行文本分词以获得一个词条集;
步骤S104,将词条集中的词条与特征词库中表征邮件类别的特征词相匹配,并根据匹配结果计算邮件属于类别的条件概率;
步骤S106,根据条件概率确定邮件的类别。
通过本实施例,采用提取待分类邮件中的词条与特征词库的特征词进行匹配处理,并计算邮件所属类别的条件概率,并根据上述条件概率确定邮件类别的方法,解决了现有技术中,邮件分类的方法较少且正确率低的问题,进而达到了高效且准确的对邮件进行分类,过滤垃圾邮件的效果,提升系统的性能的同时也提高了用户体验。
在步骤S102之前,还可以对待分类的邮件进行以下预处理,该预处理过程可以包括:按发送者地址和/或邮件中包含的关键词对待分类的邮件进行过滤;提取未过滤掉的邮件的标题和正文以组成文本文件;对文本文件进行去噪处理。
在实施过程中,可以按现有的关键词技术对待分类的邮件进行过滤,也可以通过黑名单技术过滤发送者地址,也可以将两种技术进行结合使用。在处理垃圾有件时,将两种技术结合使用可以对邮件进行双重过滤,使后续需要处理的邮件数量减少,且可以保证需要处理的邮件的质量一般都较高。提取进行上述过滤后留下的邮件的标题和正文内容组成的文本文件。该过滤后留下的邮件可能是标题为文本格式、正文为图片格式的邮件,也可能是标题和正文都为文本格式的邮件。对上述文本文件进行去噪处理,即用预设的映射表中的词组替代文本文件中经过变异的词组。该映射表用于储存变异文本与正常文本的对照关系,例如,邮件中出现了经过变异的文本“政%治”“腐%败”等,可以在映射表中进行记录,以便把变异后的文本转换为正常文本文件。在使用过程中,需不断更新该映射表,以使映射表的内容更加丰富,满足辨别不同垃圾邮件的变异文本的功能。对待分类的邮件进行预处理可以使邮件的分类处理做好准备工作,使邮件的质量提高,提升系统的性能。
在将待分类的邮件进行文本分词以获得一个词条集之前,还可以按以下方法建立一个特征词库。包含不同类别的特征词的特征词库的建立过程可以包括以下处理:
(1)计算训练集中邮件的词条的熵值;
(2)将属于相同类别的词条按熵值进行排序;
(3)选取熵值大于预设阈值的词条作为特征词库中表征该邮件类别的特征词。
在实施过程中,用户可以在曾经收到的所有邮件中选择一些特定的邮件作为训练集,也可以是用户在系统中请求一个已经设定好的训练集。该训练集中的邮件的类别是事先已经制定的,从不同类别的邮件中提取的词条就定为该词条的类型,当选定该词条为特征词时,则该特征词的类别就已经确定。根据熵的计算法则计算提取到的词条的熵值,对属于相同类别的词条按熵值进行排序,可以是由大到小,也可以是由小到大。对完成排序的词条与预设阈值(即预设熵值)进行比较,当词条的熵值大于预设阈值时,则表明该词条具备一定的分类特征,则将该词条作为特征词加入到特征词库中。通过计算词条熵值的方法来确定特征词,使系统特征词的有用性更高。
在实施过程中,可以根据匹配结果使用贝叶斯的分类算法计算邮件属于类别的条件概率,可以包括以下处理:将词条集中的词条与特征词库中表征邮件类别的特征词逐一匹配,得到匹配词条集;逐一计算匹配词条集中的词条属于所匹配的类别的第一条件概率,并根据第一条件概率计算匹配词条集属于类别的第二条件概率;根据第二条件概率计算邮件属于类别的条件概率。
当需要进行文本分词时,也可以采用最大匹配法将待分类的邮件进行文本分词。即预设待匹配字段长度,对提取出的待匹配字段进行匹配。例如,可以选择4个汉字作为待匹配字段,如不满足匹配要求,可去掉尾字,重新组成新的待匹配字段。
在对邮件进行分类的过程中,邮件的类别可以包括:垃圾邮件和正常邮件,也可以把邮件分为医学领域、化学领域、生物领域等。根据不同类别的特征词可以将邮件分为不同类型。
优选实施例
本实施例选取用户在曾经收到的所有邮件中选择一些特定的邮件作为训练集为例,对整个过程进行解释。如图2所示,是根据本发明优选实施例的邮件分类的方法的流程示意图。本实施例给出了一种对垃圾邮件进行分类的方法,主要包括两个步骤:分类训练和分类应用。首先是训练过程,给定训练集,进行预处理,然后在中文词典的支持下把训练集的文本按照最大匹配法进行分词,再通过特征提取降维,建立特征词库;接着是分类过程,给定待分类的邮件,同训练邮件一样,经过文本分词之后,基于最小风险的贝叶斯算法进行匹配,并计算邮件的类别,输出该邮件所属类别。基于上述总体思路,下面将对各个过程做进一步解释。
步骤S202,确定样本邮件类型。因为这种分类的训练属于有指导的训练过程,所以,需要预先知道训练集中哪些邮件属于正常邮件,哪些邮件属于垃圾邮件,需要人工标注。
步骤S204,邮件采集与预处理。电子邮件是一种半结构化的文本文件,包括邮件标题和正文。邮件标题通常是正文内容的概括,正文则是收发双发交互的主要内容。一封E-mail从用户发出,通过发送邮件客户端程序送到SMTP服务器,再转发到目的信箱,最后,由POP3服务器程序配合帐号、口令接收信箱的邮件。
其中,邮件的采集与预处理可以包括:(1)通过用户或系统自主学习方式制定的“恶意地址规则库”,采用简单的地址过滤或地址过滤加简单的关键词匹配过滤方法将一部分邮件过滤掉。(2)对未过滤掉的邮件进行预处理,即去掉对邮件分类无用的结构信息,只提取邮件的标题和正文组成的文本文件。(3)对取出的文本文件进行去噪处理,例如,有些垃圾邮件对文字进行变形,如“中共政.治局”,“法轮功”拆分为“法车仑功”或“法轮工力”。对于这样的变异文本,需要事先创建映射表,通过映射关系表,把变异的文本转换成正常的文本。
步骤S206,文本分词。文本分词是在中文词典的支持下把一个邮件的文本切分为有意义的中文词条。对样本邮件文本切分后获得的所有词条,再通过“特征选取”后,其中一部分词条将作为对邮件进行分类的特征词条保存在特征词库中。
其中,的中文词典的存储结构由4个哈希表组成,其中,哈希表可以作为映射表中的子表进行比对,也可以将哈希表放入特征词库中,当比较特征词是否匹配时,在哈希表中进行特征词的查找。上述哈希表分别存储四个字、三个字、双字词和单字词,词条在相应哈希表中的存放位置由词条的哈希码决定。如果词条s为s[0]s[1]...s[n-1]组成的汉子字符序列,那么该词条的哈希码Hash_code为:Hash_code=s[0]n-1+s[1]n-2...+s[n-1](式中S[i]是汉字字符S[i]的Unicode编码值)。
本发明实施例采用的分词方法是最大匹配法,最大匹配法的步骤如图3所示,处理过程如下:
步骤S302,初始化数据。确定待匹配字段的最大长度。
步骤S304,判断待匹配字段是否存在匹配词条。若存在,则执行步骤S306,否则执行步骤S308。例如,取文本的当前汉字序列的前4个汉子作为匹配字段,查找四字词哈希表,若四字词哈希表中有这样的一个词条,继续执行步骤S306,否则执行步骤S308。
步骤S306,匹配成功,输出结果。待匹配字段作为一个词条从当前汉字序列中被切分出来,放入词条集中。
步骤S308,去掉待匹配字段的末尾字,重新匹配。例如,去掉4个汉字匹配字段最后一个汉字,成为一个新的匹配字段,再与词典的相应的三字哈希表中的词条进行匹配。
步骤S310,判断是否匹配。如果匹配,则继续执行步骤S306,否则执行步骤S312。
步骤S312,去掉待匹配字段的末尾字,重新匹配,直到匹配为止。
文本分词采用的词条最大长度和分词方法对文本分词的正确率是有影响的。本发明采用的词条最大长度为4个字,例如,“中华人名共和国”将被切分为2个词条,即“中华人民”和“共和国”;但是词条最大切分长度过大,最大匹配法切分长度较小的词条时,将重复执行多次无效的切分。词条最大长度为4个字可以兼顾邮件过滤的正确率和实时要求。
步骤S208,特征选择。对若干样本邮件文本分词后,需要从词条集中选取最适合分类的若干特征词条放入特征词库中,样本邮件的类别是事先指定的,从一个样本邮件中切分出的词条的类别也就是该样本邮件的类别;当然,从不同类别样本邮件中切分出的相同词条将具有多个类,用ti(cj)表示词条集记录的词条ti及其类属cj。本发明采用基于熵的算法来选取特征词条,该算法可以包括:
对词条集{ti(cj)}中的全部词条逐一统计出词条ti属于类cj的概率P(cj|ti)。若词条集的词条总数为N,词条ti(cj)的出现次数为nij,则P(cj|ti)=nij/N。
逐一计算词条的熵 其中m为样本邮件的分类数,此处为2(即垃圾邮件与正常邮件)。
对属于同一类的全部词条按熵的值从大到小排序,对类cj设置阀值λj,将E(ti(cj))>=λj的全部词条装入特征词库的一个哈希表中(j=1,2...,m),得到由m个哈希表组成的特征词库。熵E(ti(cj))的值越大,说明词条ti对邮件分类的影响越大。阀值λj可以依据属于cj类的词条数量确定,若词条数较少,则相应的阀值可以较小,以保证用于分类的哈希表中有足够数量的特征词。得到的特征词库形象表示如表1和表2所示,实际存储的是词条的哈希码值。
表1正常邮件词库
| ... |
| 计算机技术 |
| 课程 |
| 合作 |
| ... |
表2垃圾邮件词库
| ... |
| 政治局 |
| 腐败 |
| 动荡 |
| ... |
步骤S210,对待分类的邮件进行分类。任何一个待分类的邮件经过步骤2和步骤3的处理后,都可以得到该邮件文本的词条集,把邮件文本词条集中的词条逐一与特征词库中的特征词进行匹配,然后采用基于贝叶斯的分类算法得出该邮件所属类别。分类过程如图4所示,结合图4,将邮件分类的方法如下:
步骤S402,设待分类邮件文本的词条集为T={t1,t2,……,tk,……,tn}。
步骤S404,从词条集T中依序逐一取出词条与特征词库的哈希表中的特征词进行匹配,判断词条集T是否为空集。如果是,则执行步骤S406,否则执行步骤S408。
步骤S406,若tk与ti(cj)匹配,则将类别cj赋予tk,记为tk(cj)。执行步骤S410。
步骤S408,若tk与所有特征词匹配失败,则取下一个词条。执行步骤S404,直到T为空集,得到分类后的词条集为{tk(cj)}(k=1,2,..,n;j=1,2,...m)。
步骤S410,逐一计算词条的类条件概率P(tk|cj)=P(cj|tk)P(tk)/P(cj)。其中,若{tk(cj)}的词条总数为N,属于类cj的词条数为nj,则P(cj)=nj/N;若词条tk在{tk(cj)}中的出现次数为nk,则P(tk)=nk/N,若tk(cj)的出现次数为nkj,则P(cj|tk)=nkj/N。
步骤S412,计算文本的类条件概率
步骤S414,计算文本T属于某个类别的概率P(cj|T)=P(cj)P(T|cj)/P(T),其中,P(T)=P(cj)P(T|cj)的求和(j=1,...,m)。
步骤S416,取max{P(c1|T),P(c2|T),...,P(cm|T)}的文本类别为邮件文本T的类别。
需要指出的是,若tk与所有特征词匹配失败,将导致P(tk|cj)=0,这时会出现两个问题:其一,产生了一个过低估计概率;其二,步骤S412中的各项是相乘关系,若其中的某个因素P(tk|cj)=0,则乘积为0。为了解决此问题,本发明提出了m-估计算法,公式如下:P(tk|cj)=(nkj+mp)/(nj+m),式中nkj、nj与前面定义的相同,p是将要确定的概率的先验估计,而m是一个常量,称为等效样本大小,在缺少p的先验概率的知识背景的情况下,一种典型的方法是假定遵循均匀先验的概率,也就是说,如果有k个分类,可取p=1/k。因为只需要把邮件分为正常邮件和垃圾邮件两类,本发明采用基于最小风险的贝叶斯分类方法,用最小风险贝叶斯决策,首先需要定义决策表,如表3所示。
表3
| 邮件真实状态 | 决策 | 决策损失 |
| 垃圾邮件 | 垃圾邮件 | 0 |
| 垃圾邮件 | 正常邮件 | 1 |
| 正常邮件 | 垃圾邮件 | x |
| 正常邮件 | 正常邮件 | 0 |
将垃圾邮件误判为正常邮件的损失设为1,将正常邮件误判为垃圾邮件的损失为x,因为正常邮件误判为垃圾邮件造成的损失更大,所以x>1。正常邮件和垃圾邮件的分类值分别为cj=0和cj=1。
将邮件T分类为垃圾邮件的条件风险为:R(spam|T)=0*P(c1|T)+x*P(c0|T)=x(1-P(c1|T))
分类为正常邮件的条件风险为:R(legitimate|T)=1*P(c1|T)+0*P(c0|T)=P(c1|T)
若T为垃圾邮件,则需要满足R(spam|T)<R(legitimate|T),即,x(1-P(c1|T))<P(c1|T)可得P(c1|T)>1/(x+1),即,当满足上式要求时,把邮件分类为垃圾邮件的风险比分类为正常邮件的风险要小。实验表明,x=9可获得比较理想的分类效果。
因此,实际分类过程中,可根据最小风险贝叶斯公式,算出P(c1|T),带入公式P(tk|cj)=(nkj+mp)/(nj+m)(公式中的p即为贝叶斯公式算出的值),即可得到邮件分类结果。
根据本发明的另一方面,本发明实施例提供了一种邮件分类的装置,如图5所示,该装置包括:分词模块10,用于将待分类的邮件进行文本分词以获得一个词条集;匹配模块20,用于将词条集中的词条与特征词库中表征邮件类别的特征词相匹配;计算模块30,用于根据匹配结果计算邮件属于类别的条件概率;确定模块40,用于根据条件概率确定邮件的类别。分词模块10、匹配模块20、计算模块30以及确定模块40依次连接或耦合。
如图6所示,上述邮件分类的装置还可以包括:过滤模块50,用于按发送者地址和/或邮件中包含的关键词对待分类的邮件进行过滤;提取模块60,用于提取未过滤掉的邮件的标题和正文以组成文本文件;去噪模块70,用于对文本文件进行去噪处理。过滤模块50、提取模块60、去噪模块70依次连接或耦合,去噪模块70与分词模块10连接或耦合。
其中,邮件类别可以包括:垃圾邮件和正常邮件。
另外,上述邮件分类的装置还可以包括特征词库。其中,可以按以下方法建立特征词库,包括:计算训练集中邮件的词条的熵值;将属于相同类别的词条按熵值进行排序;选取熵值大于预设阈值的词条作为特征词库中表征该邮件类别的特征词。
上述装置的匹配模块20还可以用于将词条集中的词条与特征词库中表征邮件类别的特征词逐一匹配,得到匹配词条集;计算模块30还可以用于逐一计算匹配词条集中的词条属于所匹配的类别的第一条件概率,并根据第一条件概率计算匹配词条集属于类别的第二条件概率;根据第二条件概率计算邮件属于类别的条件概率。
从以上的描述中,可以看出,本发明实现了如下技术效果:
本发明实施例采用了基于最小风险的贝叶斯算法实现文本分类,通过对邮件内容的识别实现对邮件的自动分类,然后根据邮件的类别过滤掉垃圾邮件,也可以根据邮件类别有目的地实现安全转发,提高了正确率的同时降低了把正常邮件判断为垃圾邮件的风险,同时,通过邮件预处理的操作,大大提高了垃圾邮件的召回率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种邮件分类的方法,其特征在于,包括:
将待分类的邮件进行文本分词以获得一个词条集;
将所述词条集中的词条与特征词库中表征邮件类别的特征词相匹配,并根据所述匹配结果计算所述邮件属于所述类别的条件概率;
根据所述条件概率确定所述邮件的类别。
2.根据权利要求1所述的方法,其特征在于,在将待分类的邮件进行文本分词以获得一个词条集之前,对所述待分类的邮件进行以下预处理,包括:
按发送者地址和/或邮件中包含的关键词对所述待分类的邮件进行过滤;
提取未过滤掉的邮件的标题和正文以组成文本文件;
对所述文本文件进行去噪处理。
3.根据权利要求1或2所述的方法,其特征在于,在将待分类的邮件进行文本分词以获得一个词条集之前,按以下方法建立所述特征词库,包括:
计算训练集中邮件的词条的熵值;
将属于相同类别的所述词条按所述熵值进行排序;
选取所述熵值大于预设阈值的词条作为所述特征词库中表征该邮件类别的特征词。
4.根据权利要求1所述的方法,其特征在于,根据所述匹配结果使用贝叶斯的分类算法计算所述邮件属于所述类别的条件概率。
5.根据权利要求4所述的方法,其特征在于,将所述词条集中的词条与特征词库中表征邮件类别的特征词相匹配,并根据所述匹配结果使用贝叶斯的分类算法计算所述邮件属于所述类别的条件概率包括:
将所述词条集中的词条与特征词库中表征邮件类别的特征词逐一匹配,得到匹配词条集;
逐一计算所述匹配词条集中的词条属于所匹配的类别的第一条件概率,并根据所述第一条件概率计算所述匹配词条集属于所述类别的第二条件概率;
根据所述第二条件概率计算所述邮件属于所述类别的条件概率。
6.根据权利要求1所述的方法,其特征在于,采用最大匹配法将所述待分类的邮件进行文本分词以获得所述词条集。
7.根据权利要求1所述的方法,其特征在于,所述邮件的类别包括:垃圾邮件和正常邮件。
8.一种邮件分类的装置,其特征在于,包括:
分词模块,用于将待分类的邮件进行文本分词以获得一个词条集;
匹配模块,用于将所述词条集中的词条与特征词库中表征邮件类别的特征词相匹配;
计算模块,用于根据所述匹配结果计算所述邮件属于所述类别的条件概率;
确定模块,用于根据所述条件概率确定所述邮件的类别。
9.根据权利要求8所述的装置,其特征在于,所述邮件分类的装置还包括:
过滤模块,用于按发送者地址和/或邮件中包含的关键词对所述待分类的邮件进行过滤;
提取模块,用于提取未过滤掉的邮件的标题和正文以组成文本文件;
去噪模块,用于对所述文本文件进行去噪处理。
10.根据权利要求8所述的装置,其特征在于,所述邮件类别包括:垃圾邮件和正常邮件。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2011103924898A CN103136266A (zh) | 2011-12-01 | 2011-12-01 | 邮件分类的方法及装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2011103924898A CN103136266A (zh) | 2011-12-01 | 2011-12-01 | 邮件分类的方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN103136266A true CN103136266A (zh) | 2013-06-05 |
Family
ID=48496098
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN2011103924898A Pending CN103136266A (zh) | 2011-12-01 | 2011-12-01 | 邮件分类的方法及装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN103136266A (zh) |
Cited By (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103490979A (zh) * | 2013-09-03 | 2014-01-01 | 福建伊时代信息科技股份有限公司 | 电子邮件鉴定方法和系统 |
| CN103684991A (zh) * | 2013-12-12 | 2014-03-26 | 深圳市彩讯科技有限公司 | 基于邮件特征和内容的垃圾邮件过滤方法 |
| CN103984703A (zh) * | 2014-04-22 | 2014-08-13 | 新浪网技术(中国)有限公司 | 邮件分类方法和装置 |
| CN104063515A (zh) * | 2014-07-14 | 2014-09-24 | 福州大学 | 一种基于机器学习的社交网络垃圾消息过滤方法 |
| CN104809109A (zh) * | 2014-01-23 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 一种社交信息展示方法、装置及服务器 |
| CN105339978A (zh) * | 2013-07-30 | 2016-02-17 | 惠普发展公司,有限责任合伙企业 | 确定电子邮件线程的话题相关性 |
| CN105825367A (zh) * | 2016-03-16 | 2016-08-03 | 聚相投资管理(上海)有限公司 | 一种云端智能服务器及其在邮件分类中的应用 |
| CN105868183A (zh) * | 2016-05-09 | 2016-08-17 | 陈包容 | 一种预测员工离职的方法及装置 |
| CN105975480A (zh) * | 2016-04-20 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种指令识别方法及系统 |
| CN106169974A (zh) * | 2016-07-05 | 2016-11-30 | 马岩 | 本地邮件数据的搜集方法及系统 |
| CN106330670A (zh) * | 2016-08-18 | 2017-01-11 | 无锡云商通科技有限公司 | 基于邮件指纹对相同邮件进行判定的方法 |
| CN106357508A (zh) * | 2016-08-31 | 2017-01-25 | 成都启力慧源科技有限公司 | 基于用户行为关系的邮件分类方法 |
| WO2017036341A1 (en) * | 2015-09-03 | 2017-03-09 | Huawei Technologies Co., Ltd. | Random index pattern matching based email relations finder system |
| WO2018006256A1 (zh) * | 2016-07-05 | 2018-01-11 | 马岩 | 本地邮件数据的搜集方法及系统 |
| WO2018014316A1 (zh) * | 2016-07-22 | 2018-01-25 | 王晓光 | 局域网邮件数据的搜集方法及系统 |
| CN108133009A (zh) * | 2017-12-22 | 2018-06-08 | 新奥(中国)燃气投资有限公司 | 一种信息存储方法及装置 |
| CN108153728A (zh) * | 2017-12-22 | 2018-06-12 | 新奥(中国)燃气投资有限公司 | 一种关键词确定方法及装置 |
| CN108230037A (zh) * | 2018-01-12 | 2018-06-29 | 北京深极智能科技有限公司 | 广告库建立方法、广告数据识别方法及存储介质 |
| CN108388601A (zh) * | 2018-02-02 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 故障的分类方法、存储介质及计算机设备 |
| CN104951791B (zh) * | 2014-03-26 | 2018-10-09 | 华为技术有限公司 | 数据分类方法和装置 |
| CN111177719A (zh) * | 2019-08-13 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 地址类别判定方法、装置、计算机可读存储介质及设备 |
| CN112700081A (zh) * | 2020-11-26 | 2021-04-23 | 郑州大学 | 一种基于熵值法的标签翻转攻击方法 |
| CN113886569A (zh) * | 2020-06-16 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
| CN114328935A (zh) * | 2022-01-29 | 2022-04-12 | 深圳市小满科技有限公司 | 邮件自动分类聚合方法、装置、计算机设备及介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1760901A (zh) * | 2005-11-03 | 2006-04-19 | 上海交通大学 | 电子邮件过滤系统 |
| CN1889108A (zh) * | 2005-06-29 | 2007-01-03 | 腾讯科技(深圳)有限公司 | 一种识别垃圾邮件的方法 |
| CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
| CN101106539A (zh) * | 2007-08-03 | 2008-01-16 | 浙江大学 | 基于支持向量机的垃圾邮件过滤方法 |
| CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
-
2011
- 2011-12-01 CN CN2011103924898A patent/CN103136266A/zh active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1889108A (zh) * | 2005-06-29 | 2007-01-03 | 腾讯科技(深圳)有限公司 | 一种识别垃圾邮件的方法 |
| CN1760901A (zh) * | 2005-11-03 | 2006-04-19 | 上海交通大学 | 电子邮件过滤系统 |
| CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
| CN101106539A (zh) * | 2007-08-03 | 2008-01-16 | 浙江大学 | 基于支持向量机的垃圾邮件过滤方法 |
| CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
Cited By (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105339978A (zh) * | 2013-07-30 | 2016-02-17 | 惠普发展公司,有限责任合伙企业 | 确定电子邮件线程的话题相关性 |
| CN103490979A (zh) * | 2013-09-03 | 2014-01-01 | 福建伊时代信息科技股份有限公司 | 电子邮件鉴定方法和系统 |
| CN103490979B (zh) * | 2013-09-03 | 2016-09-14 | 福建伊时代信息科技股份有限公司 | 电子邮件鉴定方法和系统 |
| CN103684991A (zh) * | 2013-12-12 | 2014-03-26 | 深圳市彩讯科技有限公司 | 基于邮件特征和内容的垃圾邮件过滤方法 |
| CN104809109B (zh) * | 2014-01-23 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 一种社交信息展示方法、装置及服务器 |
| CN104809109A (zh) * | 2014-01-23 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 一种社交信息展示方法、装置及服务器 |
| CN104951791B (zh) * | 2014-03-26 | 2018-10-09 | 华为技术有限公司 | 数据分类方法和装置 |
| CN103984703A (zh) * | 2014-04-22 | 2014-08-13 | 新浪网技术(中国)有限公司 | 邮件分类方法和装置 |
| CN103984703B (zh) * | 2014-04-22 | 2017-04-12 | 新浪网技术(中国)有限公司 | 邮件分类方法和装置 |
| CN104063515A (zh) * | 2014-07-14 | 2014-09-24 | 福州大学 | 一种基于机器学习的社交网络垃圾消息过滤方法 |
| US10936638B2 (en) | 2015-09-03 | 2021-03-02 | Huawei Technologies Co., Ltd. | Random index pattern matching based email relations finder system |
| WO2017036341A1 (en) * | 2015-09-03 | 2017-03-09 | Huawei Technologies Co., Ltd. | Random index pattern matching based email relations finder system |
| CN105825367A (zh) * | 2016-03-16 | 2016-08-03 | 聚相投资管理(上海)有限公司 | 一种云端智能服务器及其在邮件分类中的应用 |
| CN105975480A (zh) * | 2016-04-20 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种指令识别方法及系统 |
| CN105975480B (zh) * | 2016-04-20 | 2019-06-07 | 广东精点数据科技股份有限公司 | 一种指令识别方法及系统 |
| CN105868183A (zh) * | 2016-05-09 | 2016-08-17 | 陈包容 | 一种预测员工离职的方法及装置 |
| CN105868183B (zh) * | 2016-05-09 | 2019-04-02 | 陈包容 | 一种预测员工离职的方法及装置 |
| CN106169974A (zh) * | 2016-07-05 | 2016-11-30 | 马岩 | 本地邮件数据的搜集方法及系统 |
| WO2018006256A1 (zh) * | 2016-07-05 | 2018-01-11 | 马岩 | 本地邮件数据的搜集方法及系统 |
| WO2018014316A1 (zh) * | 2016-07-22 | 2018-01-25 | 王晓光 | 局域网邮件数据的搜集方法及系统 |
| CN106330670A (zh) * | 2016-08-18 | 2017-01-11 | 无锡云商通科技有限公司 | 基于邮件指纹对相同邮件进行判定的方法 |
| CN106357508A (zh) * | 2016-08-31 | 2017-01-25 | 成都启力慧源科技有限公司 | 基于用户行为关系的邮件分类方法 |
| CN108153728A (zh) * | 2017-12-22 | 2018-06-12 | 新奥(中国)燃气投资有限公司 | 一种关键词确定方法及装置 |
| CN108133009A (zh) * | 2017-12-22 | 2018-06-08 | 新奥(中国)燃气投资有限公司 | 一种信息存储方法及装置 |
| CN108153728B (zh) * | 2017-12-22 | 2021-05-25 | 新奥(中国)燃气投资有限公司 | 一种关键词确定方法及装置 |
| CN108230037A (zh) * | 2018-01-12 | 2018-06-29 | 北京深极智能科技有限公司 | 广告库建立方法、广告数据识别方法及存储介质 |
| CN108230037B (zh) * | 2018-01-12 | 2022-10-11 | 北京字节跳动网络技术有限公司 | 广告库建立方法、广告数据识别方法及存储介质 |
| CN108388601A (zh) * | 2018-02-02 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 故障的分类方法、存储介质及计算机设备 |
| CN111177719A (zh) * | 2019-08-13 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 地址类别判定方法、装置、计算机可读存储介质及设备 |
| CN113886569A (zh) * | 2020-06-16 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
| CN113886569B (zh) * | 2020-06-16 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
| CN112700081A (zh) * | 2020-11-26 | 2021-04-23 | 郑州大学 | 一种基于熵值法的标签翻转攻击方法 |
| CN114328935A (zh) * | 2022-01-29 | 2022-04-12 | 深圳市小满科技有限公司 | 邮件自动分类聚合方法、装置、计算机设备及介质 |
| CN114328935B (zh) * | 2022-01-29 | 2025-09-16 | 深圳市小满科技有限公司 | 邮件自动分类聚合方法、装置、计算机设备及介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103136266A (zh) | 邮件分类的方法及装置 | |
| US10785176B2 (en) | Method and apparatus for classifying electronic messages | |
| US7930351B2 (en) | Identifying undesired email messages having attachments | |
| US7644127B2 (en) | Email analysis using fuzzy matching of text | |
| US8429178B2 (en) | Reliability of duplicate document detection algorithms | |
| Ning et al. | Spam message classification based on the Naïve Bayes classification algorithm | |
| CN103441924B (zh) | 一种基于短文本的垃圾邮件过滤方法及装置 | |
| US20130173562A1 (en) | Simplifying Lexicon Creation in Hybrid Duplicate Detection and Inductive Classifier System | |
| CN101877837A (zh) | 一种短信过滤的方法和装置 | |
| US7624274B1 (en) | Decreasing the fragility of duplicate document detecting algorithms | |
| WO2013009540A1 (en) | Systems and methods for providing a spam database and identifying spam communications | |
| Issac et al. | Implementing spam detection using Bayesian and Porter Stemmer keyword stripping approaches | |
| Vejendla et al. | Score based support vector machine for spam mail detection | |
| CN101068217B (zh) | 一种简化电子邮件操作的方法及装置 | |
| Reddy et al. | Classification of spam messages using random forest algorithm | |
| Kulkarni et al. | Effect of header-based features on accuracy of classifiers for spam email classification | |
| Vinothkumar et al. | Detection of spam messages in e-messaging platform using machine learning | |
| CN1889108B (zh) | 一种识别垃圾邮件的方法 | |
| Gupta et al. | Spam filter using Naïve Bayesian technique | |
| Jawale et al. | Hybrid spam detection using machine learning | |
| CN101329668A (zh) | 一种信息规则生成方法及装置、信息类型判断方法及系统 | |
| You et al. | Web service-enabled spam filtering with naive Bayes classification | |
| RU2583713C2 (ru) | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама | |
| Zhang et al. | Content based spam text classification: An empirical comparison between english and Chinese | |
| Čavor | Decision Tree Model for Email Classification |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130605 |