CN103874033A

CN103874033A - 一种基于中文分词识别不规则垃圾短信的方法

Info

Publication number: CN103874033A
Application number: CN201210533577.XA
Authority: CN
Inventors: 肖克华
Original assignee: LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd
Current assignee: LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd
Priority date: 2012-12-12
Filing date: 2012-12-12
Publication date: 2014-06-18
Anticipated expiration: 2032-12-12
Also published as: CN103874033B

Abstract

本发明公开了一种基于中文分词识别不规则垃圾短信的方法，对于同一短信，依据短信的内容，先按照正常的横向读取进行中文分词，根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点，判定不规则短信内容的范围，对不规则排列短信内容范围内的字符采取竖向转换为横向排列，然后进行中文分词，根据总体的分词结果的单词个数计算权重。然后根据两次权重比较，判断此短信是正常排列的短信，还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字，识别是否垃圾短信，进而避免了垃圾短信的漏判，提高垃圾短信的查全率和查准率。

Description

一种基于中文分词识别不规则垃圾短信的方法

技术领域

本发明涉及一种垃圾短信的识别方法，尤其涉及一种基于中文分词识别不规则垃圾短信的方法。

背景技术

目前，短信息服务作为移动通信网络的一种基本业务，在为用户提供便捷消息通信服务的同时，也成为反动、涉黄和诈骗等非法短信的发送渠道。在垃圾短信治理领域，具有申请号：200710036831.4的专利《一种基于信令处理技术的短信净化系统》，该专利定义的系统由若干台连接于七号信令网中信令链路的信令消息检测处理装置MPM和一业务管理中心CSM构成。MPM对流经的短信消息进行分析处理,根据业务规则与黑白名单，实现短信的选通与拦截处理，将相关消息传送给CSM，CSM进行频次统计、业务规则与用户数据管理与同步。

在MPM和CSM系统中，针对垃圾短信的发送特征多为诈骗或者广告，采用发送行为分析（流量）和文本特征分析（关键字等）方式进行短信治理，对于垃圾短信的发现和治理是一定成效的。而在短信内容过滤上，一般按照短信的编码顺序，分析短信，判断是否符合关键字过滤规则，也就是在手机上通常看到的从左到右的短信排列方式。但是，为了规避关键字过滤，垃圾短信出现了采用了不规则排列方式，如仿照古文从上至下的文本排列方式，区别与正常短信排列方式，以逃避关键字过滤。

对于此种不规则垃圾短信，目前多采用单个关键字组合联合判定的方式，判定短信是否符合关键字规则，即把关键字“发票”拆分为“发”和“票”两个关键字，同时符合“发”和“票”的短信等同于“发票”。此种方法虽然一定程度上识别出符合关键字的不规则垃圾短信，但也同时造成部分不是包含“发票”的正常短信被判别为垃圾短信，降低了垃圾短信识别的准确率。

发明内容

本发明的目的在于提供一种基于中文分词识别不规则垃圾短信的方法，该方法采用中文分词技术，从横向和竖向两方面分别分析短信的词语组成，分别计算短信权重，判定是否为不规则垃圾短信，对于通过竖排试图规避内容过滤的短信，判定为不规则短信后，可以根据竖排的读取方式，过滤短信，避免了垃圾短信的漏判，进而提高垃圾短信的查全率和查准率。

实现上述目的的技术方案是：

一种基于中文分词识别不规则垃圾短信的方法，包括下列步骤：

步骤S1，接收短信，读取短信内容；

步骤S2，根据短信内容，按照从左到右的横向排列方式，进行中文分词；

步骤S 3，按步骤S2的中文分词结果，记录单词个数W1，W1为正整数，计算短信横排权重Q1=1/(1+W1)；

步骤S4，根据不规则排列短信用控制字符控制每行短信字符数的特点，计算上述接收的短信的不规则区域，将不规则区域中的短信内容按照竖向排列方式读取，按照读取的短信内容，将上述接收的短信转换为横向排列的短信；

步骤S5，对步骤S4中转换得到的短信，按照从左到右的横向排列方式进行中文分词；

步骤S6，按步骤S5的中文分词结果，记录单词个数W2，W2为正整数，计算短信竖排权重Q2=1/(1+W2)；

步骤S7，比较短信横排权重Q1与短信竖排权重Q2，若Q1＜Q2，进入步骤S8b；若Q1＞＝Q2，进入步骤S8a；

步骤S8a，判定短信为正常排列短信；

步骤S8b，判定短信为不规则排列短信。

上述的基于中文分词识别不规则垃圾短信的方法，其中，所述步骤S4中，所述的计算上述接收的短信的不规则区域，指：计算每行字符的个数，按照每行的字符个数模型，确定短信的不规则区域。

上述的基于中文分词识别不规则垃圾短信的方法，其中，所述的每行的字符个数模型，指：等长规则或者等差规则，其中，等长规则指：当前行的字符个数和上一行的字符个数相等；等差规则指：当前行的字符个数与上一行的字符个数的差等于同一个常数。

上述的基于中文分词识别不规则垃圾短信的方法，其中，所述的不规则排列短信包括：竖排短信、横竖混排短信和竖排异形短信。

上述的基于中文分词识别不规则垃圾短信的方法，其中，根据判定的短信类型，采用内容分析匹配关键字，依据规则识别出是否符合关键字，从而识别是否为垃圾短信。

上述的基于中文分词识别不规则垃圾短信的方法，其中，所述方法基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。

本发明的有益效果是：本发明通过分析短信内容，采用中文分词技术，从横向和竖向两方面分别分析短信的词语组成，根据分词单词个数，分别计算短信权重，按语义判定短信应该是正常的从左至右排列方式读取，还是不规则排列的读取。进而为短信内容分析提供依据，完成短信内容过滤，提高垃圾短信的查全率和查准率。本发明对于通过竖排试图规避内容过滤的短信，在判定为不规则短信后，可以根据竖排的读取方式，过滤短信，避免了垃圾短信的漏判。

附图说明

图1是本发明的基于中文分词识别不规则垃圾短信的方法的流程图。

具体实施方式

下面将结合附图对本发明作进一步说明。

为了便于本领域技术人员理解和实现本发明，以下列短信为例，描述本发明的实施例：

如上，为规避关键字识别，垃圾短信采用不规则排列方式。在通常设置“发票”或者“提供”等关键字时，正常排短信短信能够匹配关键字，而采用不规则排列方式，按照正常排列无法匹配关键字。

请参阅图1，本发明的基于中文分词识别不规则垃圾短信的方法，包括下列步骤：

步骤S1，接收短信，读取短信内容；以上述短信为例：

内容实际对应的一种编码(UCS2)：

通用字符集（Universal Character Set，UCS）是由ISO制定的ISO 10646标准所定义的标准字符集。短信可以采用三种编码方式来对内容进行编码，它们是7-bit、8-bit和UCS2编码，对于包含中文的短信采用UCS2编码。UCS2用两个字节编码。

步骤S2，根据上述短信内容，按照传统正常的从左到右的横向排列方式，进行中文分词，如下：

步骤S3，按步骤S2的中文分词结果，记录单词个数W1，W1为正整数，计算短信横排权重Q1=1/(1+W1)；计算结果为：W1=11，Q1=0.0833。

步骤S4，根据不规则排列短信的控制字符的特点，即必须控制每行短信字符数（因为电话屏幕宽度不同，必须控制每行字符数），计算上述接收的短信的不规则区域，即计算每行字符的个数，按照每行的字符个数模型，确定短信的不规则区域，将不规则区域中的短信内容按照竖向排列方式读取，然后按照读取的短信内容，将上述接收的短信转换为横向排列的短信，转换后的短信如下：

上述的每行的字符个数模型指：等长规则或者等差规则，其中，等长规则指：当前行的字符个数和上一行的字符个数相等；等差规则指：当前行的字符个数与上一行的字符个数的差等于同一个常数。

步骤S5，对步骤S4中转换得到的短信，按照从左到右的横向排列方式进行中文分词，如下；

步骤S6，按步骤S5的中文分词结果，记录单词个数W2，W2为正整数，计算短信竖排权重Q2=1/(1+W2)；计算结果为：W2=7，Q2=0.125。

步骤S8a，判定短信为正常排列短信；

步骤S8b，判定短信为不规则排列短信。显然，因为Q1=0.0833＜Q2=0.125，所以上述接收短信为不规则排列短信。不规则排列短信包括：竖排短信、横竖混排短信和竖排异形短信。

最后，根据判定的短信类型，采用内容分析匹配关键字，依据排列规则识别出是否符合关键字，从而识别是否为垃圾短信。

本发明基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。

综上，本发明对于同一短信，依据短信的内容，按照正常的横向读取进行中文分词，根据分词结果的单词个数计算权重；然后根据不规则短信必须控制每行短信字符数的技术特点，判定不规则短信内容的范围，对不规则排列短信内容范围内的字符按照竖向读取，转换为横向排列，进行中文分词，根据总体的分词结果的单词个数计算权重。根据两次权重大小，判断此短信是正常排列的短信，还是不规则排列的短信。进而依据排列类型采用内容分析匹配关键字，识别是否垃圾短信。进而为短信内容分析提供依据，完成短信内容过滤，提高垃圾短信的查全率和查准率。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案也应该属于本发明的范畴，应由各权利要求所限定。

Claims

1.一种基于中文分词识别不规则垃圾短信的方法，其特征在于，包括下列步骤：

步骤S1，接收短信，读取短信内容；

步骤S8a，判定短信为正常排列短信；

步骤S8b，判定短信为不规则排列短信。

2.根据权利要求1所述的基于中文分词识别不规则垃圾短信的方法，其特征在于，所述步骤S4中，所述的计算上述接收的短信的不规则区域，指：计算每行字符的个数，按照每行的字符个数模型，确定短信的不规则区域。

3.根据权利要求2所述的基于中文分词识别不规则垃圾短信的方法，其特征在于，所述的每行的字符个数模型，指：等长规则或者等差规则，其中，等长规则指：当前行的字符个数和上一行的字符个数相等；等差规则指：当前行的字符个数与上一行的字符个数的差等于同一个常数。

4.根据权利要求1或2或3所述的基于中文分词识别不规则垃圾短信的方法，其特征在于，所述的不规则排列短信包括：竖排短信、横竖混排短信和竖排异形短信。

5.根据权利要求4所述的基于中文分词识别不规则垃圾短信的方法，其特征在于，根据判定的短信类型，采用内容分析匹配关键字，依据规则识别出是否符合关键字，从而识别是否为垃圾短信。

6.根据权利要求1或2或3所述的基于中文分词识别不规则垃圾短信的方法，其特征在于，所述方法基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。