CN103874033A - 一种基于中文分词识别不规则垃圾短信的方法 - Google Patents
一种基于中文分词识别不规则垃圾短信的方法 Download PDFInfo
- Publication number
- CN103874033A CN103874033A CN201210533577.XA CN201210533577A CN103874033A CN 103874033 A CN103874033 A CN 103874033A CN 201210533577 A CN201210533577 A CN 201210533577A CN 103874033 A CN103874033 A CN 103874033A
- Authority
- CN
- China
- Prior art keywords
- note
- short message
- word segmentation
- irregular
- chinese word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001788 irregular Effects 0.000 title claims abstract description 54
- 230000011218 segmentation Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000011664 signaling Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于中文分词识别不规则垃圾短信的方法,对于同一短信,依据短信的内容,先按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符采取竖向转换为横向排列,然后进行中文分词,根据总体的分词结果的单词个数计算权重。然后根据两次权重比较,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字,识别是否垃圾短信,进而避免了垃圾短信的漏判,提高垃圾短信的查全率和查准率。
Description
技术领域
本发明涉及一种垃圾短信的识别方法,尤其涉及一种基于中文分词识别不规则垃圾短信的方法。
背景技术
目前,短信息服务作为移动通信网络的一种基本业务,在为用户提供便捷消息通信服务的同时,也成为反动、涉黄和诈骗等非法短信的发送渠道。在垃圾短信治理领域,具有申请号:200710036831.4的专利《一种基于信令处理技术的短信净化系统》,该专利定义的系统由若干台连接于七号信令网中信令链路的信令消息检测处理装置MPM和一业务管理中心CSM构成。MPM对流经的短信消息进行分析处理,根据业务规则与黑白名单,实现短信的选通与拦截处理,将相关消息传送给CSM,CSM进行频次统计、业务规则与用户数据管理与同步。
在MPM和CSM系统中,针对垃圾短信的发送特征多为诈骗或者广告,采用发送行为分析(流量)和文本特征分析(关键字等)方式进行短信治理,对于垃圾短信的发现和治理是一定成效的。而在短信内容过滤上,一般按照短信的编码顺序,分析短信,判断是否符合关键字过滤规则,也就是在手机上通常看到的从左到右的短信排列方式。但是,为了规避关键字过滤,垃圾短信出现了采用了不规则排列方式,如仿照古文从上至下的文本排列方式,区别与正常短信排列方式,以逃避关键字过滤。
对于此种不规则垃圾短信,目前多采用单个关键字组合联合判定的方式,判定短信是否符合关键字规则,即把关键字“发票”拆分为“发”和“票”两个关键字,同时符合“发”和“票”的短信等同于“发票”。此种方法虽然一定程度上识别出符合关键字的不规则垃圾短信,但也同时造成部分不是包含“发票”的正常短信被判别为垃圾短信,降低了垃圾短信识别的准确率。
发明内容
本发明的目的在于提供一种基于中文分词识别不规则垃圾短信的方法,该方法采用中文分词技术,从横向和竖向两方面分别分析短信的词语组成,分别计算短信权重,判定是否为不规则垃圾短信,对于通过竖排试图规避内容过滤的短信,判定为不规则短信后,可以根据竖排的读取方式,过滤短信,避免了垃圾短信的漏判,进而提高垃圾短信的查全率和查准率。
实现上述目的的技术方案是:
一种基于中文分词识别不规则垃圾短信的方法,包括下列步骤:
步骤S1,接收短信,读取短信内容;
步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;
步骤S 3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);
步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;
步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;
步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);
步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;
步骤S8a,判定短信为正常排列短信;
步骤S8b,判定短信为不规则排列短信。
上述的基于中文分词识别不规则垃圾短信的方法,其中,所述步骤S4中,所述的计算上述接收的短信的不规则区域,指:计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域。
上述的基于中文分词识别不规则垃圾短信的方法,其中,所述的每行的字符个数模型,指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。
上述的基于中文分词识别不规则垃圾短信的方法,其中,所述的不规则排列短信包括:竖排短信、横竖混排短信和竖排异形短信。
上述的基于中文分词识别不规则垃圾短信的方法,其中,根据判定的短信类型,采用内容分析匹配关键字,依据规则识别出是否符合关键字,从而识别是否为垃圾短信。
上述的基于中文分词识别不规则垃圾短信的方法,其中,所述方法基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。
本发明的有益效果是:本发明通过分析短信内容,采用中文分词技术,从横向和竖向两方面分别分析短信的词语组成,根据分词单词个数,分别计算短信权重,按语义判定短信应该是正常的从左至右排列方式读取,还是不规则排列的读取。进而为短信内容分析提供依据,完成短信内容过滤,提高垃圾短信的查全率和查准率。本发明对于通过竖排试图规避内容过滤的短信,在判定为不规则短信后,可以根据竖排的读取方式,过滤短信,避免了垃圾短信的漏判。
附图说明
图1是本发明的基于中文分词识别不规则垃圾短信的方法的流程图。
具体实施方式
下面将结合附图对本发明作进一步说明。
为了便于本领域技术人员理解和实现本发明,以下列短信为例,描述本发明的实施例:
如上,为规避关键字识别,垃圾短信采用不规则排列方式。在通常设置“发票”或者“提供”等关键字时,正常排短信短信能够匹配关键字,而采用不规则排列方式,按照正常排列无法匹配关键字。
请参阅图1,本发明的基于中文分词识别不规则垃圾短信的方法,包括下列步骤:
步骤S1,接收短信,读取短信内容;以上述短信为例:
内容实际对应的一种编码(UCS2):
通用字符集(Universal Character Set,UCS)是由ISO制定的ISO 10646标准所定义的标准字符集。短信可以采用三种编码方式来对内容进行编码,它们是7-bit、8-bit和UCS2编码,对于包含中文的短信采用UCS2编码。UCS2用两个字节编码。
步骤S2,根据上述短信内容,按照传统正常的从左到右的横向排列方式,进行中文分词,如下:
步骤S3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);计算结果为:W1=11,Q1=0.0833。
步骤S4,根据不规则排列短信的控制字符的特点,即必须控制每行短信字符数(因为电话屏幕宽度不同,必须控制每行字符数),计算上述接收的短信的不规则区域,即计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,然后按照读取的短信内容,将上述接收的短信转换为横向排列的短信,转换后的短信如下:
上述的每行的字符个数模型指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。
步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词,如下;
步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);计算结果为:W2=7,Q2=0.125。
步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;
步骤S8a,判定短信为正常排列短信;
步骤S8b,判定短信为不规则排列短信。显然,因为Q1=0.0833<Q2=0.125,所以上述接收短信为不规则排列短信。不规则排列短信包括:竖排短信、横竖混排短信和竖排异形短信。
最后,根据判定的短信类型,采用内容分析匹配关键字,依据排列规则识别出是否符合关键字,从而识别是否为垃圾短信。
本发明基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。
综上,本发明对于同一短信,依据短信的内容,按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重;然后根据不规则短信必须控制每行短信字符数的技术特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符按照竖向读取,转换为横向排列,进行中文分词,根据总体的分词结果的单词个数计算权重。根据两次权重大小,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列类型采用内容分析匹配关键字,识别是否垃圾短信。进而为短信内容分析提供依据,完成短信内容过滤,提高垃圾短信的查全率和查准率。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。
Claims (6)
1.一种基于中文分词识别不规则垃圾短信的方法,其特征在于,包括下列步骤:
步骤S1,接收短信,读取短信内容;
步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;
步骤S 3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);
步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;
步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;
步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);
步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;
步骤S8a,判定短信为正常排列短信;
步骤S8b,判定短信为不规则排列短信。
2.根据权利要求1所述的基于中文分词识别不规则垃圾短信的方法,其特征在于,所述步骤S4中,所述的计算上述接收的短信的不规则区域,指:计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域。
3.根据权利要求2所述的基于中文分词识别不规则垃圾短信的方法,其特征在于,所述的每行的字符个数模型,指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。
4.根据权利要求1或2或3所述的基于中文分词识别不规则垃圾短信的方法,其特征在于,所述的不规则排列短信包括:竖排短信、横竖混排短信和竖排异形短信。
5.根据权利要求4所述的基于中文分词识别不规则垃圾短信的方法,其特征在于,根据判定的短信类型,采用内容分析匹配关键字,依据规则识别出是否符合关键字,从而识别是否为垃圾短信。
6.根据权利要求1或2或3所述的基于中文分词识别不规则垃圾短信的方法,其特征在于,所述方法基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201210533577.XA CN103874033B (zh) | 2012-12-12 | 2012-12-12 | 一种基于中文分词识别不规则垃圾短信的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201210533577.XA CN103874033B (zh) | 2012-12-12 | 2012-12-12 | 一种基于中文分词识别不规则垃圾短信的方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN103874033A true CN103874033A (zh) | 2014-06-18 |
| CN103874033B CN103874033B (zh) | 2017-11-24 |
Family
ID=50912083
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201210533577.XA Expired - Fee Related CN103874033B (zh) | 2012-12-12 | 2012-12-12 | 一种基于中文分词识别不规则垃圾短信的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN103874033B (zh) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105898722A (zh) * | 2016-03-31 | 2016-08-24 | 联想(北京)有限公司 | 一种非正常短信息的鉴别方法、装置和电子设备 |
| CN108052508A (zh) * | 2017-12-29 | 2018-05-18 | 北京嘉和美康信息技术有限公司 | 一种信息抽取方法及装置 |
| CN112380323A (zh) * | 2020-12-01 | 2021-02-19 | 合肥大多数信息科技有限公司 | 一种基于中文分词识别技术的垃圾信息剔除系统及方法 |
| TWI749349B (zh) * | 2018-10-25 | 2021-12-11 | 開曼群島商創新先進技術有限公司 | 文本還原方法、裝置及電子設備與電腦可讀儲存媒體 |
| CN115410207A (zh) * | 2021-05-28 | 2022-11-29 | 国家计算机网络与信息安全管理中心天津分中心 | 一种针对竖排文本的检测方法及装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101329668A (zh) * | 2007-06-18 | 2008-12-24 | 电子科技大学 | 一种信息规则生成方法及装置、信息类型判断方法及系统 |
| CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及系统 |
| US20100042402A1 (en) * | 2008-08-15 | 2010-02-18 | Electronic Data Systems Corporation | Apparatus, and associated method, for detecting fraudulent text message |
| CN102761872A (zh) * | 2012-08-01 | 2012-10-31 | 成都四方信息技术有限公司 | 一种垃圾短信拦截方法 |
-
2012
- 2012-12-12 CN CN201210533577.XA patent/CN103874033B/zh not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101329668A (zh) * | 2007-06-18 | 2008-12-24 | 电子科技大学 | 一种信息规则生成方法及装置、信息类型判断方法及系统 |
| US20100042402A1 (en) * | 2008-08-15 | 2010-02-18 | Electronic Data Systems Corporation | Apparatus, and associated method, for detecting fraudulent text message |
| CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及系统 |
| CN102761872A (zh) * | 2012-08-01 | 2012-10-31 | 成都四方信息技术有限公司 | 一种垃圾短信拦截方法 |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105898722A (zh) * | 2016-03-31 | 2016-08-24 | 联想(北京)有限公司 | 一种非正常短信息的鉴别方法、装置和电子设备 |
| US10231129B2 (en) | 2016-03-31 | 2019-03-12 | Lenovo (Beijing) Limited | Malicious text message identification |
| CN105898722B (zh) * | 2016-03-31 | 2019-07-26 | 联想(北京)有限公司 | 一种非正常短信息的鉴别方法、装置和电子设备 |
| CN108052508A (zh) * | 2017-12-29 | 2018-05-18 | 北京嘉和美康信息技术有限公司 | 一种信息抽取方法及装置 |
| TWI749349B (zh) * | 2018-10-25 | 2021-12-11 | 開曼群島商創新先進技術有限公司 | 文本還原方法、裝置及電子設備與電腦可讀儲存媒體 |
| CN112380323A (zh) * | 2020-12-01 | 2021-02-19 | 合肥大多数信息科技有限公司 | 一种基于中文分词识别技术的垃圾信息剔除系统及方法 |
| CN115410207A (zh) * | 2021-05-28 | 2022-11-29 | 国家计算机网络与信息安全管理中心天津分中心 | 一种针对竖排文本的检测方法及装置 |
| CN115410207B (zh) * | 2021-05-28 | 2023-08-29 | 国家计算机网络与信息安全管理中心天津分中心 | 一种针对竖排文本的检测方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN103874033B (zh) | 2017-11-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103067896B (zh) | 垃圾短信过滤方法及装置 | |
| CN101150756B (zh) | 一种垃圾短信过滤方法 | |
| CN103874033A (zh) | 一种基于中文分词识别不规则垃圾短信的方法 | |
| CN101784022A (zh) | 短信过滤、分类方法及系统 | |
| CN101137087A (zh) | 短信息监控中心及监控方法 | |
| CN103415004B (zh) | 一种检测垃圾短消息的方法及装置 | |
| CN101938565A (zh) | 短信处理方法及移动终端 | |
| CN103391547A (zh) | 一种信息处理的方法和终端 | |
| CN107968730A (zh) | 监测物联网卡被盗用的方法和系统 | |
| CN101909261A (zh) | 一种垃圾短信监控的方法和系统 | |
| CN101335968B (zh) | 一种垃圾短消息监控后续处理的方法及系统 | |
| CN102932775A (zh) | 一种利用imei与ua结合进行终端识别的方法及装置 | |
| CN102340424A (zh) | 不良报文的检测方法及不良报文的检测装置 | |
| CN106255082A (zh) | 一种垃圾短信的识别方法及系统 | |
| CN106383862A (zh) | 一种违规短信检测方法及系统 | |
| CN103369486A (zh) | 诈骗短信防范系统与防范方法 | |
| CN113596846A (zh) | 一种5g消息管理平台及方法 | |
| CN101389085A (zh) | 基于发送行为的垃圾短消息识别系统及方法 | |
| CN103188635A (zh) | 一种基于频次和被叫分布规则识别垃圾短信源的方法 | |
| CN110677825A (zh) | 基于推广短信触达率的处理方法以及装置、存储介质 | |
| CN102905236B (zh) | 一种垃圾短消息监控方法、装置及系统 | |
| CN106102082A (zh) | 一种嫌疑号码确定方法、装置、系统 | |
| CN105323751A (zh) | 一种手机短信监控装置 | |
| CN112311933B (zh) | 敏感信息屏蔽方法及系统 | |
| CN201066901Y (zh) | 短信息监控中心 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171124 Termination date: 20201212 |
|
| CF01 | Termination of patent right due to non-payment of annual fee |