[go: up one dir, main page]

JP2011034417A - Device, method and program for determining junk mail - Google Patents

Device, method and program for determining junk mail Download PDF

Info

Publication number
JP2011034417A
JP2011034417A JP2009181137A JP2009181137A JP2011034417A JP 2011034417 A JP2011034417 A JP 2011034417A JP 2009181137 A JP2009181137 A JP 2009181137A JP 2009181137 A JP2009181137 A JP 2009181137A JP 2011034417 A JP2011034417 A JP 2011034417A
Authority
JP
Japan
Prior art keywords
mail
feature vector
label
unit
email
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009181137A
Other languages
Japanese (ja)
Inventor
Yukiko Sawatani
雪子 澤谷
Masaru Miyake
優 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009181137A priority Critical patent/JP2011034417A/en
Publication of JP2011034417A publication Critical patent/JP2011034417A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】FP及びFNが既存のルールよりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムを提供すること。
【解決手段】電子メールを受信する受信部11と、セッションの過程で受信部11により受信したヘッダ情報を解析する解析部12と、解析部12により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部13と、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部14と、特徴ベクトルを分類器に入力し、特徴ベクトルに付与されているラベルを判定する第1の判定部15と、特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する制御部16とを備える。
【選択図】図1
A spam mail determination apparatus and a spam mail determination method for determining whether or not a spam mail is efficiently sent without leaking host information of a communication destination to the outside without FP and FN being smaller than existing rules, and Provide a junk mail determination program.
A receiving unit that receives an e-mail, an analysis unit that analyzes header information received by the receiving unit in the course of a session, and characteristics of the e-mail based on a result analyzed by the analyzing unit. A first feature vector generation unit 13 that generates a feature vector to be shown; a classifier creation unit 14 that generates a junk mail classifier by associating the feature vector and the label; and the feature vector is input to the classifier; A first determination unit 15 that determines a label attached to the feature vector, and a receiving unit so as not to receive the body text of the email corresponding to the feature vector when the label attached to the feature vector is a junk mail And a control unit 16 that controls the control unit 11.
[Selection] Figure 1

Description

本発明は、受信した電子メールが迷惑メールであるか又は正常メールであるかを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムに関する。   The present invention relates to a spam mail determination device, a spam mail determination method, and a spam mail determination program for determining whether a received electronic mail is a spam mail or a normal mail.

近年、ネットワークの発展により、気軽に電子メール(以下、メールという)を送受信できるようになったことに伴い、スパムメール(spammail)の数も増大している。ここで、「スパムメール」とは、受信者の意図を無視して事前の要請や同意なしに、無差別かつ大量発信されるメールを意味するものである。なお、このスパムメールの同義語として、「迷惑メール」、「ジャンクメール」、「UCE(UnsolicitedCommercialEmail)」、「UBE(UnsolicitedBulkEmail)」等がある。   In recent years, the number of spam mails has been increasing due to the fact that it has become possible to easily send and receive electronic mails (hereinafter referred to as mails) due to the development of networks. Here, “spam mail” means mail that is sent indiscriminately and in large quantities without ignoring the recipient's intention and without prior request or consent. Synonyms for this spam mail include “junk mail”, “junk mail”, “UCE (Unsolicited Commercial Email)”, “UBE (Unsolicited Bulk Email)”, and the like.

このようなスパムメールは、添付ファイル等によるウイルス感染や、不要なメールの増加による受信者の業務生産性及び効率の低下や、トラフィックの増加によるサーバ及びネットワークへの負荷増大や、詐欺サイトへの誘導等によるプライバシーや機密情報の漏洩等の点において、個人及び団体を問わずに脅威となり得るものである。   Such spam emails include virus infections due to attachments, etc., decreased productivity and efficiency of recipients due to an increase in unnecessary emails, increased load on servers and networks due to increased traffic, and fraudulent sites It can be a threat regardless of individuals or organizations in terms of privacy or leakage of confidential information due to guidance.

上記のようなスパムメールによる問題は、既に社会問題の域にまで達している。メールアドレスが安価に入手可能であることや、定額料金の高速通信が安価で提供されていること等を鑑みると、今後、スパムメールは減少することなくますます増加していくと考えられ、スパムメールに対する有効な対策が早急に要求されている。   The problems caused by spam emails as described above have already reached the level of social problems. In view of the fact that email addresses are available at low cost and that high-speed communications with a flat rate are provided at a low cost, spam emails are expected to increase without decreasing in the future. Effective measures against email are urgently required.

ここで、メール本文を受信する前に得られる情報(ヘッダ情報)からスパムメールかどうかを判断し、メール本文を受信することを拒否する技術が提案されている(非特許文献1を参照。)。この技術によると、スパムメールやスパムメール送信サーバに頻繁に出現する性質(文字列の特徴)を画一的なルールにしている。また、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定して、メール本文を受信することを拒否する技術が提案されている(非特許文献2を参照。)。なお、「ヘッダ情報」とは、SMTPセッション中のコマンドやIPアドレスも含めた概念である。   Here, a technique has been proposed in which it is determined whether or not the mail is a spam mail from information (header information) obtained before the mail text is received, and the reception of the mail text is rejected (see Non-Patent Document 1). . According to this technology, the characteristics (character string characteristics) that frequently appear in spam mails and spam mail transmission servers are made uniform. In addition, a technique has been proposed in which it is determined whether or not a spam mail is based on header information using a blacklist of IP addresses created based on a user report, and the mail body is rejected (non-patent) See reference 2.) The “header information” is a concept including a command and an IP address during the SMTP session.

スパムメール判定方法(S25R)、[平成21年7月15日]、インターネット<http://www.gabacho−net.jp/anti−spam/paper.html>Spam mail determination method (S25R), [July 15, 2009], Internet <http: // www. gabacho-net. jp / anti-spam / paper. html> スパムメール判定方法(spamhaus)、[平成21年7月15日]、インターネット<http://www.spamhaus.org/>Spam mail determination method (spamhaus), [July 15, 2009], Internet <http: // www. spamhaus. org />

ところで、非特許文献1に係る技術では、ヘッダ情報に基づいてスパムメールか否かを判定するため、外部に通信先のホスト情報(SMTPサーバがどのメールサーバから電子メールを受信しているか等の情報)が漏洩することはないが、発明者等の研究によると、正常なメールをスパムメールと判断してしまう割合(false positive:FP)は10%以上も存在することが分かった。   By the way, in the technique according to Non-Patent Document 1, in order to determine whether or not the mail is spam mail based on the header information, the host information of the communication destination (such as which mail server the SMTP server has received the e-mail from, etc.) (Information) does not leak, but according to research by the inventors, it has been found that there is as much as 10% or more of the ratio of normal mail to be determined as spam mail (FP).

一方、非特許文献2に記載のspamhausのDNSBL(Domain Name System Black List)は、発明者等の研究によると、ユーザからの報告をもとにするため、スパムメールを見逃す割合(false negative:FN)が20%程度存在することが分かった。さらに、spamhausのDNSBLでは、通信先のホスト情報を全てクエリとして外部のDSNBLサーバに問い合わせを行うため、DNSBLサーバは、どのメールサーバとどのメールサーバが情報をやり取りしているのかを把握できてしまう。   On the other hand, spamhaus's DNSBL (Domain Name System Black List) described in Non-Patent Document 2 is based on a report from a user, according to the research of the inventors, etc., and therefore a ratio of missing spam mail (false negative: FN) ) Was found to be present at about 20%. Furthermore, in the spamhouse DNSBL, an inquiry is made to an external DSNBL server using all the host information of the communication destination as a query, so that the DNSBL server can grasp which mail server and which mail server exchange information. .

本発明は、FP及びFNが非特許文献1、2に示す技術よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムを提供することを目的とする。   The present invention is nuisance mail determination in which FP and FN are smaller than the techniques shown in Non-Patent Documents 1 and 2, and whether or not the host information of the communication destination is spam mail efficiently without leaking to the outside An object is to provide a device, a spam mail determination method, and a spam mail determination program.

本発明では、以下のような解決手段を提供する。   The present invention provides the following solutions.

(1)本発明に係る迷惑メール判定装置は、上記課題を解決するために、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信部と、前記セッションの過程で前記受信部により受信した前記ヘッダ情報を解析する解析部と、前記解析部により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部と、前記第1の特徴ベクトル生成部により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する第1の判定部と、前記第1の判定部により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信部を制御する制御部とを備える。   (1) In order to solve the above-described problem, the spam mail determination device according to the present invention receives an email composed of header information and a text through a series of sessions, and receives the email in the course of the session. An analysis unit that analyzes the header information received by the unit, a first feature vector generation unit that generates a feature vector indicating a feature of the e-mail based on a result analyzed by the analysis unit, and a plurality of teacher data in advance Mail log data or e-mail is collected, a feature vector indicating the characteristics of the mail log data or e-mail is generated from each mail log data or e-mail header information, and based on each mail log data or e-mail header information To determine whether the mail log data or e-mail is junk mail using a predetermined method. A classifier creating unit for generating a spam mail classifier by associating the feature vector with the label, and adding a label indicating whether the feature vector is spam or not based on the result of A feature vector generated by a first feature vector generator is input to the classifier, a first determiner that determines a label attached to the feature vector, and the feature vector by the first determiner And a control unit that controls the receiving unit so as not to receive the body of the e-mail corresponding to the feature vector.

このような構成によれば、迷惑メール判定装置は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。   According to such a configuration, the junk mail determination device analyzes the header information received before receiving the body of the email, generates a feature vector indicating the feature of the email, and uses the feature vector as a predetermined method. It is determined whether or not the e-mail is a junk e-mail by inputting it into the classifier created in the above.

よって、迷惑メール判定装置は、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。   Therefore, the spam mail determination device determines whether the FP and FN are smaller than the existing rules (for example, S25R, DSNBL, etc.) and is efficiently spam mail without leaking the host information of the communication destination to the outside. Can be determined.

(2)上記迷惑メール判定装置では、前記分類器作成部は、前記教師データとして複数のメールログデータ又は電子メールを収集する収集部と、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する第2の特徴ベクトル生成部と、前記所定の判定方法に基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する第2の判定部と、前記第2の判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する前記分類器を作成する作成部とを備えることが好ましい。   (2) In the junk mail determination device, the classifier creation unit includes a collection unit that collects a plurality of mail log data or emails as the teacher data, and mail log data or emails collected by the collection unit. Analyzing header information, and based on the result of the analysis, a second feature vector generation unit that generates a feature vector indicating a feature of mail log data or email, and the collection unit based on the predetermined determination method A second determination unit that refers to the mail log data or the header information of the email collected by the above and determines whether the email log data or the email is a junk mail or a normal mail; and the second Based on the result determined by the determination unit, the number determined to be junk mail and the number determined to be normal mail for each feature vector. A comparison unit for comparing, a label adding unit for adding a label indicating spam mail or a label indicating normal mail to the feature vector based on a comparison result of the comparison unit, and labeling The classifier for classifying whether the mail is junk mail or normal mail based on the received mail log data or the header information of the e-mail based on the label given to the feature vector by the section It is preferable to provide a creation unit.

このような構成によれば、迷惑メール判定装置は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール(例えば、S25Rや、DNSBL等)によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。   According to such a configuration, the junk mail determination device collects a plurality of mail log data or e-mails as teacher data in advance, generates a feature vector from each mail log data or e-mail header information, A rule (for example, S25R or DNSBL) is used to determine whether the message is spam based on mail log data or email header information, and a label is assigned to the feature vector based on the determination result. Create a classifier based on the label.

よって、迷惑メール判定装置は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、迷惑メール判定装置は、受信する電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器にかけることにより、電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合(false positive:FP)を低減することができる。   Therefore, the spam mail determination device does not determine whether or not it is simply spam mail from the header information based on the existing rules, and spam mail based on learning using a lot of header information without manual intervention for labeling in learning. Classifiers can be created. Further, the junk mail determination device generates a feature vector based on the header information of the received e-mail, and determines whether the e-mail is spam mail by applying the generated feature vector to the created classifier. In addition, it is possible to reduce the false detection by simply using the existing rule, that is, the rate of false detection of normal mail as spam mail (false positive: FP).

また、迷惑メール判定装置は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて電子メールがスパムメールであるか否かを判定できるので、電子メールの本文(Body)を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、迷惑メール判定装置は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。   Moreover, since the spam mail determination device can determine whether or not the email is spam mail based on the feature vector generated from the analysis result of the header information, it receives the body text of the email and Without analyzing the main text, it is possible to determine whether or not the mail is spam mail with high accuracy based on the feature vector generated from the analysis result of the header information. In addition, since the spam mail determination device can create a classifier regardless of the manual operation, it can perform a cold start operation by eliminating artificial elements in the process of creating the classifier.

(3)上記迷惑メール判定装置では、前記ラベル付与部は、第1の条件のみを満たす場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、第2の条件を満たす場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与することが好ましい。

Figure 2011034417
(3) In the junk mail determination device, when only the first condition is satisfied, the label adding unit adds a label S indicating junk mail to the feature vector ri, and the second condition If it satisfies, it is preferable to assign a label H indicating that the feature vector ri is a normal mail.
Figure 2011034417

このような構成によれば、迷惑メール判定装置は、k1とk2を任意に設定することにより(例えば、k1=0.001、k2=0)、正常なメールをスパムメールであると誤って判定されることがなくなる。   According to such a configuration, the spam mail determination device erroneously determines that normal mail is spam mail by arbitrarily setting k1 and k2 (for example, k1 = 0.001, k2 = 0). It will not be done.

(4)上記迷惑メール判定装置では、前記ラベル付与部は、前記特徴ベクトル生成部により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、第3の条件を満たす場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、前記第3の条件を満たさないが、第4の条件を満たす場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与し、前記第3の条件及び前記第4の条件を満たさない場合であって、第5の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第1のラベルs1を付与し、前記第5の条件を満たさないが第6の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第2のラベルh1を付与し、前記第5の条件及び前記第6の条件を満たさない場合には、前記第1の特徴ベクトルsiに対して第3のラベルn1を付与し、第7の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第4のラベルs2を付与し、前記第7の条件を満たさないが第8の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第5のラベルh2を付与し、前記第7の条件及び前記第8の条件を満たさない場合には、前記第2の特徴ベクトルtiに対して第6のラベルn2を付与し、前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、前記第1のラベルs1と前記第4のラベルs2の組み合わせ、前記第1のラベルs1と前記第6のラベルn2の組み合わせ、又は前記第3のラベルn1と前記第4のラベルs2の組み合わせの場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与することが好ましい。

Figure 2011034417
但し、kr1,ks1,kt1、kr2,ks2,kt2は、0≦kr1<1、0≦ks1<1、0≦kt1<1、0≦kr2<1、0≦ks2<1、0≦kt2<1を満たす任意の値である。 (4) In the junk mail determination device, the label assigning unit is based on information included in the result of analyzing the mail log data or the header information of the e-mail using the feature vector ri generated by the feature vector generating unit. When the third feature vector ti is divided into the first feature vector si and the second feature vector ti and the third condition is satisfied, a label S indicating spam mail is assigned to the feature vector ri, If the third condition is not satisfied but the fourth condition is satisfied, a label H indicating normal mail is given to the feature vector ri, and the third condition and the fourth condition are given. If the fifth condition is satisfied, a first label s1 is assigned to the first feature vector si, and the fifth condition is not satisfied but the sixth condition is satisfied. When satisfying, the second label h1 is given to the first feature vector si, and when the fifth condition and the sixth condition are not satisfied, the first feature vector si is set. On the other hand, when the third label n1 is assigned and the seventh condition is satisfied, the fourth label s2 is assigned to the second feature vector ti, and the seventh condition is not satisfied. When the condition of 8 is satisfied, a fifth label h2 is assigned to the second feature vector ti, and when the seventh condition and the eighth condition are not satisfied, the second feature vector ti A sixth label n2 is assigned to the feature vector ti, and a combination of the labels assigned to the first feature vector si and the second feature vector ti is the first label s1 and the fourth label. Combination of labels s2 of the first In the case of a combination of a label s1 and the sixth label n2, or a combination of the third label n1 and the fourth label s2, a label S indicating spam is applied to the feature vector ri. If the combination of the labels assigned to the first feature vector si and the second feature vector ti is a combination other than the above-mentioned combinations, it is a normal mail for the feature vector ri. It is preferable to apply a label H indicating that this is the case.
Figure 2011034417
However, kr1, ks1, kt1, kr2, ks2, kt2 are 0 ≦ kr1 <1, 0 ≦ ks1 <1, 0 ≦ kt1 <1, 0 ≦ kr2 <1, 0 ≦ ks2 <1, 0 ≦ kt2 <1 Any value that satisfies

このような構成によれば、迷惑メール判定装置は、kr1、kr2、ks1、ks2、kt1及びkt2を任意に設定することにより(例えば、kr1=ks1=kt1=0.001、kr2=ks2=kt2=0)、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。   According to such a configuration, the spam mail determination device can arbitrarily set kr1, kr2, ks1, ks2, kt1, and kt2 (for example, kr1 = ks1 = kt1 = 0.001, kr2 = ks2 = kt2). = 0) All received mails are judged to be spam mails or normal mails, and normal mails are not mistakenly judged to be spam mails.

(5)本発明に係る迷惑メール判定方法は、上記課題を解決するために、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とを備えることを特徴とする。   (5) In order to solve the above-described problem, the spam mail determination method according to the present invention receives an email composed of header information and a body text through a series of sessions, and receives the email in the course of the session. An analysis step for analyzing the header information received by the step, a feature vector generation step for generating a feature vector indicating the feature of the e-mail based on the result analyzed by the analysis step, and a plurality of mail logs as teacher data in advance Collect data or e-mail, generate a feature vector indicating the characteristics of e-mail log data or e-mail from each e-mail log data or e-mail header information, and generate a predetermined vector based on each e-mail log data or e-mail header information Judgment method determines whether mail log data or e-mail is junk mail. A classifier creating step of generating a spam mail classifier by associating the feature vector with the label indicating whether it is spam based on a result of the determination, and associating the feature vector with the label; The feature vector generated by the feature vector generation step is input to the classifier, the determination step for determining the label attached to the feature vector, and the label attached to the feature vector by the determination step is annoying In the case of a mail, it is characterized by comprising a control step of controlling the reception step so as not to receive the body of the electronic mail corresponding to the feature vector.

このような構成によれば、迷惑メール判定方法は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。   According to such a configuration, the junk mail determination method analyzes the header information received before receiving the body of the email, generates a feature vector indicating the feature of the email, and uses the feature vector as a predetermined method. It is determined whether or not the e-mail is a junk e-mail by inputting it into the classifier created in the above.

よって、迷惑メール判定方法は、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。   Therefore, the spam mail determination method is such that FP and FN are smaller than existing rules (for example, S25R, DSNBL, etc.), and whether or not spam mail is efficiently made without leaking the host information of the communication destination to the outside. Can be determined.

(6)本発明に係る迷惑メール判定プログラムは、上記課題を解決するために、迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための迷惑メール判定プログラムであって、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とをコンピュータによって実現することを特徴とする。   (6) A spam mail determination program according to the present invention is a spam mail determination program for realizing, by a computer, a method for determining whether a mail is a spam mail or a normal mail in order to solve the above problem. A receiving step for receiving an email composed of header information and body text through a series of sessions, an analyzing step for analyzing the header information received by the receiving step in the course of the session, and an analysis step A feature vector generation step for generating a feature vector indicating the feature of the email based on the result, and a plurality of email log data or emails are collected in advance as teacher data, and email is sent from each email log data or email header information. Generate a feature vector indicating the characteristics of log data or email, and send each email Whether or not the mail log data or the e-mail is a junk e-mail by a predetermined determination method based on the header information of the message data or the e-mail A classifier creating step of generating a junk mail classifier by associating the feature vector with the label, and inputting the feature vector generated by the feature vector generating step to the classifier A determination step for determining a label attached to the feature vector; and when the label attached to the feature vector in the determination step is junk mail, the body text of the email corresponding to the feature vector is The control step of controlling the reception step so as not to receive is realized by a computer.

このような構成によれば、迷惑メール判定プログラムは、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。   According to such a configuration, the junk mail determination program analyzes the header information received before receiving the body of the email, generates a feature vector indicating the feature of the email, and uses the feature vector as a predetermined method. It is determined whether or not the e-mail is a junk e-mail by inputting it into the classifier created in the above.

よって、迷惑メール判定プログラムは、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。   Therefore, the junk mail determination program determines whether FP and FN are smaller than existing rules (for example, S25R, DSNBL, etc.) and is efficiently spam mail without leaking the host information of the communication destination to the outside. Can be determined.

本発明によれば、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。   According to the present invention, whether FP and FN are smaller than existing rules (for example, S25R, DSNBL, etc.) and whether or not it is spam mail efficiently without leaking the host information of the communication destination to the outside. Can be determined.

本実施形態に係る迷惑メール判定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the junk mail determination apparatus which concerns on this embodiment. 本実施形態に係る迷惑メール判定装置の分類器生成部の構成を示すブロック図である。It is a block diagram which shows the structure of the classifier production | generation part of the junk mail determination apparatus which concerns on this embodiment. 本実施形態に係る迷惑メール判定装置を利用したスパムメール判定システムの構成を示すブロック図である。It is a block diagram which shows the structure of the spam mail determination system using the junk mail determination apparatus concerning this embodiment. スパムメールか否かを判定する手順についての説明に供するフローチャートである。It is a flowchart with which it uses for description about the procedure which determines whether it is a spam mail.

以下、本発明の実施形態の一例について図1から図4を参照しながら説明する。本発明の実施形態に係る迷惑メール判定装置1は、電子メールの送受信を行う一連のセッションにおいて、ヘッダ情報を受信した状態、すなわち本文を受信する前の状態において、電子メールが迷惑メール(以下、スパムメールという。)であるか否かを判定し、スパムメールであると判定した場合には、電子メールの本文の受信を破棄(ブロック)する装置である。なお、「ヘッダ情報」とは、SMTPセッション中のコマンドやIPアドレスも含めた概念である。   Hereinafter, an exemplary embodiment of the present invention will be described with reference to FIGS. 1 to 4. The spam mail determination device 1 according to the embodiment of the present invention, in a series of sessions in which emails are transmitted and received, in a state in which header information is received, that is, in a state before the text is received, This is an apparatus that discards (blocks) reception of the body text of an e-mail if it is determined whether it is spam mail. The “header information” is a concept including a command and an IP address during the SMTP session.

迷惑メール判定装置1は、図1に示すように、受信部11と、解析部12と、第1の特徴ベクトル生成部13と、分類器作成部14と、第1の判定部15と、制御部16とを備える。
受信部11は、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する。また、受信部11は、MTA(message transfer agent)としての機能を有しており、ユーザの端末から送信されてきた電子メールを受信して、他のサーバと連携して目的地となるサーバまで配送したり、他のサーバから配送されてきた電子メールをユーザの端末が受信するまで保管したりする機能を有している。
As shown in FIG. 1, the junk mail determination device 1 includes a reception unit 11, an analysis unit 12, a first feature vector generation unit 13, a classifier creation unit 14, a first determination unit 15, and a control. Part 16.
The receiving unit 11 receives an electronic mail composed of header information and a text through a series of sessions. The receiving unit 11 has a function as an MTA (message transfer agent), receives an electronic mail transmitted from a user terminal, and cooperates with other servers to reach a destination server. It has a function of delivering or storing an electronic mail delivered from another server until the user's terminal receives it.

解析部12は、電子メールを受信する一連のセッションの過程で受信部11により受信したヘッダ情報を解析する。解析部12は、具体的には、ヘッダ情報に含まれている情報から、マッピングテーブルを参照して国情報を取得したり、IPアドレスの逆引き等を行ったりする。
第1の特徴ベクトル生成部13は、解析部12により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの具体的な生成方法については後述する。
The analysis unit 12 analyzes the header information received by the reception unit 11 in the course of a series of sessions for receiving electronic mail. Specifically, the analysis unit 12 obtains country information by referring to the mapping table from information included in the header information, or performs reverse lookup of the IP address or the like.
The first feature vector generation unit 13 generates a feature vector indicating the feature of the electronic mail based on the result analyzed by the analysis unit 12. A specific method for generating feature vectors will be described later.

分類器作成部14は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する。なお、メールログデータとは、SMTPサーバ上に残される記録データのことである。また、分類器の具体的な生成方法については後述する。   The classifier creating unit 14 collects a plurality of mail log data or e-mails as teacher data in advance, generates a feature vector indicating the characteristics of the mail log data or e-mail from each mail log data or e-mail header information, Based on each mail log data or e-mail header information, it is determined whether or not the mail log data or e-mail is a junk e-mail by a predetermined determination method. A label indicating whether or not there is provided, and a feature vector and a label are associated with each other to generate a junk mail classifier. The mail log data is recorded data that remains on the SMTP server. A specific method for generating the classifier will be described later.

第1の判定部15は、第1の特徴ベクトル生成部13により生成された特徴ベクトルを分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する。
制御部16は、第1の判定部15により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する。
The first determination unit 15 inputs the feature vector generated by the first feature vector generation unit 13 to the classifier, and determines the label given to the feature vector.
When the label given to the feature vector by the first determination unit 15 is a junk mail, the control unit 16 controls the receiving unit 11 so as not to receive the body text of the email corresponding to the feature vector. .

このような構成によれば、迷惑メール判定装置1は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。   According to such a configuration, the junk mail determination device 1 analyzes the received header information before receiving the body of the email, generates a feature vector indicating the feature of the email, and sets the feature vector as a predetermined value. By inputting into the classifier created by the method, it is determined whether or not the electronic mail is spam mail.

よって、迷惑メール判定装置1は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。   Therefore, the junk e-mail determination device 1 does not simply allow or reject clients that cannot be reversed based on the header information, nor does it permit or reject clients that are estimated not to be mail servers from the reverse name. Since it is not intended to determine whether or not it is spam mail from header information using a blacklist of IP addresses created based on the report and to receive the mail body, FP and FN are not subject to existing rules (for example, S25R, DSNBL, etc.), and it is possible to determine whether or not it is spam mail safely and efficiently without leaking the host information of the communication destination to the outside like DSNBL. .

つぎに、分類器作成部14の具体的な構成と動作について説明する。分類器作成部14は、図2に示すように、収集部21と、第2の特徴ベクトル生成部22と、第2の判定部23と、比較部24と、ラベル付与部25と、作成部26とを備える。   Next, a specific configuration and operation of the classifier creating unit 14 will be described. As shown in FIG. 2, the classifier creation unit 14 includes a collection unit 21, a second feature vector generation unit 22, a second determination unit 23, a comparison unit 24, a label addition unit 25, and a creation unit. 26.

収集部21は、教師データとして複数のメールログデータ又は電子メールを収集する。具体的には、収集部21は、過去に受信したメールログデータ又は電子メールや、ネットワーク50を介して他のサーバに蓄積されているメールログデータ又は電子メールを教師データとして収集する。なお、収集したメールログデータ又は電子メールには、スパムメールと判定されたメールや、正常なメールであると判定されたメールが含まれている。   The collection unit 21 collects a plurality of mail log data or emails as teacher data. Specifically, the collection unit 21 collects mail log data or e-mail received in the past, or mail log data or e-mail stored in another server via the network 50 as teacher data. Note that the collected mail log data or electronic mail includes mail determined to be spam mail and mail determined to be normal mail.

第2の特徴ベクトル生成部22は、収集部21により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの生成方法については後述する。また、第2の特徴ベクトル生成部22は、第1の特徴ベクトル生成部13と同一の機能を有するので、第1の特徴ベクトル生成部13を兼用する構成であっても良い。   The second feature vector generation unit 22 analyzes the mail log data or email header information collected by the collection unit 21, and based on the result of the analysis, a feature vector indicating the feature of the mail log data or email Is generated. A feature vector generation method will be described later. In addition, since the second feature vector generation unit 22 has the same function as the first feature vector generation unit 13, the second feature vector generation unit 22 may be configured to also serve as the first feature vector generation unit 13.

第2の判定部23は、所定の判定ルール(例えば、S25Rや、DNSBL等)に基づいて、収集部21により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールがスパムメールであるか又は正常メールであるかを判定する。本実施例においては、第2の判定部23は、S25RとDNSBLの双方においてスパムメールであると判定された場合には、スパムメールであると判定するが、これに限られない。   The second determination unit 23 refers to the mail log data collected by the collection unit 21 or the header information of the email based on a predetermined determination rule (for example, S25R, DNSBL, etc.), and It is determined whether the e-mail is spam mail or normal mail. In the present embodiment, the second determination unit 23 determines that it is spam mail when it is determined as spam mail in both S25R and DNSBL, but is not limited thereto.

比較部24は、第2の判定部23によって判定された結果に基づいて、特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する。ラベル付与部25は、比較部24の比較結果に基づいて、特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与する。   Based on the result determined by the second determination unit 23, the comparison unit 24 compares the number determined to be junk mail for each feature vector with the number determined to be normal mail. Based on the comparison result of the comparison unit 24, the label assigning unit 25 assigns a label indicating spam mail or a label indicating normal mail to the feature vector.

作成部26は、ラベル付与部25により特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する。   The creation unit 26 classifies whether the mail is junk mail or normal mail based on the received mail log data or the header information of the e-mail based on the label given to the feature vector by the label giving unit 25. Create a classifier to do.

このような構成によれば、迷惑メール判定装置1は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール(例えば、S25RやDNSBL等)によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。   According to such a configuration, the spam mail determination device 1 collects a plurality of mail log data or e-mails as teacher data in advance, generates a feature vector from each mail log data or e-mail header information, Judgment rules (for example, S25R, DNSBL, etc.) determine whether or not the mail is spam based on mail log data or email header information, and assign a label to the feature vector based on the determination result. Create a classifier based on the label.

よって、迷惑メール判定装置1は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、迷惑メール判定装置1は、受信する電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器にかけることにより、電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合(false positive:FP)を低減することができる。   Therefore, the spam mail determination device 1 does not determine whether or not it is simply spam mail based on existing rules based on existing rules, and spam based on learning that makes heavy use of header information without manual intervention for labeling in learning. A mail classifier can be created. The spam mail determination device 1 generates a feature vector based on header information of the received electronic mail, and determines whether the electronic mail is spam mail by applying the generated feature vector to the created classifier. Therefore, it is possible to reduce a false detection by simply using an existing rule, that is, a rate of false detection of normal mail as spam mail (false positive: FP).

また、迷惑メール判定装置1は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて電子メールがスパムメールであるか否かを判定できるので、電子メールの本文(Body)を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、迷惑メール判定装置1は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。   Moreover, since the junk mail determination device 1 can determine whether or not the e-mail is a spam mail based on the feature vector generated from the analysis result of the header information, the junk mail determination device 1 receives the body of the e-mail (Body), Without analyzing the body, it is possible to determine whether or not it is spam mail with high accuracy based on the feature vector generated from the analysis result of the header information. Moreover, since the spam mail determination device 1 can create a classifier without manual intervention, it can perform a cold start operation by eliminating artificial elements in the process of creating the classifier.

<特徴ベクトルの生成方法>
ここで、第2の特徴ベクトル生成部22において、教師データから特徴ベクトルを生成する方法について説明する。教師データに含まれるメールログデータ又は電子メールのそれぞれに関して、特徴ベクトルriを以下のように定義する。なお、第1の特徴ベクトル生成部13により特徴ベクトルが生成される方法も同様である。
=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12
<Feature vector generation method>
Here, a method for generating a feature vector from teacher data in the second feature vector generation unit 22 will be described. A feature vector ri is defined as follows for each of mail log data or electronic mail included in the teacher data. The method for generating a feature vector by the first feature vector generation unit 13 is the same.
r i = (x i1 , x i2 , x i3 , x i4 , x i5 , x i6 , x i7 , x i8 , x i9 , x i10 , x i11 , x i12 )

また、特徴ベクトルriの各要素(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11及びxi12)を以下のように定義する。
i1:SMTP(Simple Mail Transfer Protocol)セッション中のMAIL FROMコマンド中のメールアドレスのドメインが、IPアドレスのDNS逆引きホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
i2:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインがIPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上と一致する場合を「1」とし、それ以外を「0」とする。
i3:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインがHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
i4:IPアドレスのDNS逆引きホスト名のドメインがIPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上と一致する場合を「1」とし、それ以外を「0」とする。
i5:IPアドレスのDNS逆引きホスト名のドメインがHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
Further, each element (x i1 , x i2 , x i3 , x i4 , x i5 , x i6 , x i7 , x i8 , x i9 , x i10 , x i11, and x i12 ) of the feature vector ri is as follows: Define.
x i1 : “1” when the domain of the mail address in the MAIL FROM command in the SMTP (Simple Mail Transfer Protocol) session matches the domain of the reverse DNS host name of the IP address, and “0” otherwise. And
x i2 : “1” when the domain of the mail address in the MAIL FROM command during the SMTP session matches at least one of the domain of the host name in the Authority section when the DNS reverse lookup of the IP address is performed Other than that, “0” is set.
x i3 : “1” is set when the domain of the mail address in the MAIL FROM command in the SMTP session matches the domain of the host name in the HELO / EHLO command, and “0” is set otherwise.
x i4 : “1” if the DNS reverse DNS host name domain of the IP address matches at least one of the host name domains in the Authority section when the reverse DNS address lookup is performed Is “0”.
x i5 : “1” is set when the domain of the reverse DNS host name of the IP address matches the domain of the host name in the HELO / EHLO command, and “0” is set otherwise.

i6:IPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上がHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
i7:IPアドレスのDNS逆引きホスト名が存在する場合は「1」とし、それ以外「0」とする。
i8:(HELO/EHLOコマンド内のホスト名の中の数字の数)≧(IPアドレスに使われている数字の数)(e.g.HELO/EHLOコマンド内のホスト名:10.5.5.1,log−helo:10−5−5−1.example.com)の場合を「1」とし、それ以外を「0」とする。
i9:(IPアドレスのDNS逆引きホスト名の中の数字の数)≧(IPアドレスに使われている数字の数)の場合を「1」とし、それ以外を「0」とする。
i10:log−heloがトップレベルドメインで終わっていない場合を「1」とし、それ以外を「0」とする。
i11:自国から来ている場合を「1」とし、それ以外を「0」とする。また、IPアドレスと国との関係は、マッピングテーブルを参照することにより取得が可能である。迷惑メール判定装置1は、マッピングテーブルを自身が保有していても良いし、また、ネットワーク50を介してマッピングテーブルを保有している他の装置にアクセスして国情報を取得しても良い。
i12:HELO/EHLOコマンド内のホスト名にドットが含まれていない、又は、HELO/EHLOコマンド内のホスト名がIPアドレス形式でかつ実際のIPアドレスと一致しない、又は、HELO/EHLOコマンド内のホスト名のドメインが、RCPT TOコマンド内のメールアドレス(宛先メールアドレス)のドメインと一致した場合を「1」とし、それ以外を「0」とする。
x i6 : “1” when at least one of the host name domains in the Authority section when the DNS of the IP address is reversely matched matches the host name domain in the HELO / EHLO command. Is “0”.
x i7 : “1” when the DNS reverse host name of the IP address exists, “0” otherwise.
x i8 : (number of numbers in host name in HELO / EHLO command) ≧ (number of numbers used in IP address) (eg host name in EG HELO / EHLO command: 10.5. 5.1, log-hero: 10-5-5-1.example.com) is “1”, and the others are “0”.
x i9 : (Number of numbers in DNS reverse DNS host name of IP address) ≧ (Number of numbers used in IP address) is set to “1”, and other than “0”.
x i10 : A case where log-hero does not end in the top level domain is set to “1”, and other cases are set to “0”.
x i11 : “1” when coming from the home country, “0” otherwise. The relationship between the IP address and the country can be acquired by referring to the mapping table. The spam mail determination device 1 may have a mapping table itself, or may access another device having the mapping table via the network 50 to acquire country information.
x i12 : The host name in the HELO / EHLO command does not include a dot, or the host name in the HELO / EHLO command is in the IP address format and does not match the actual IP address, or in the HELO / EHLO command When the domain of the host name matches the domain of the mail address (destination mail address) in the RCPT TO command, “1” is set, and other cases are set to “0”.

なお、本実施例では、「ドメイン」は、WHOISサーバ等に登録されている第2レベルドメイン又は第3レベルドメインまでと定義する。   In the present embodiment, the “domain” is defined as the second level domain or the third level domain registered in the WHOIS server or the like.

第2の特徴ベクトル生成部22は、例えば、電子メールaのヘッダ情報を解析し、解析結果に基づいて各要素を決定し、以下のように特徴ベクトルraを生成する。
ra=(xa1,xa2,xa3,xa4,xa5,xa6,xa7,xa8,xa9,xa10,xa11,xa12)=(1,1,1,1,1,1,1,1,1,1,0,0)
第2の特徴ベクトル生成部22は、このような特徴ベクトルriを教師データとして収集された全てのメールログデータ又は電子メールについて生成する。また、特徴ベクトルriは、本実施例においては、要素が12種類ある。したがって、理論的には、メールログデータ又は電子メールを4096種類に分類することができる。なお、上述した特徴ベクトルriの各定義は、例示であって、これ以外の要素が追加されても良く、要素を増加することにより4096種類以上にメールログデータ又は電子メールを分類することができ、要素の数に応じてメールログデータ又は電子メールを仔細に分類することができる。
For example, the second feature vector generation unit 22 analyzes the header information of the email a, determines each element based on the analysis result, and generates the feature vector ra as follows.
ra = (x a1, x a2 , x a3, x a4, x a5, x a6, x a7, x a8, x a9, x a10, x a11, x a12) = (1,1,1,1,1 , 1,1,1,1,1,0,0)
The second feature vector generation unit 22 generates such a feature vector ri for all mail log data or e-mail collected as teacher data. The feature vector ri has 12 types of elements in this embodiment. Therefore, theoretically, mail log data or electronic mail can be classified into 4096 types. Each definition of the feature vector ri described above is an example, and other elements may be added. By increasing the elements, mail log data or e-mails can be classified into 4096 types or more. Depending on the number of elements, mail log data or e-mail can be classified in detail.

<ラベル付与(1)>
また、ラベル付与部25は、第2の特徴ベクトル生成部22により生成した特徴ベクトルriに対して、以下に示す第1の条件のみを満たす場合には、迷惑メールであることを示すラベルS(Spam)を付与し、以下に示す第2の条件を満たす場合には、正常メールであることを示すラベルH(Ham)を付与する。

Figure 2011034417
<Labeling (1)>
Also, the label giving unit 25, when the feature vector ri generated by the second feature vector generating unit 22 satisfies only the first condition shown below, the label S ( When the second condition shown below is satisfied, a label H (Ham) indicating a normal mail is assigned.
Figure 2011034417

このような構成によれば、迷惑メール判定装置1は、k1とk2を任意に設定することにより(例えば、k1=0.001、k2=0)、正常なメールをスパムメールであると誤って判定されることがなくなる。   According to such a configuration, the junk mail determination device 1 sets k1 and k2 arbitrarily (for example, k1 = 0.001, k2 = 0), and mistakenly identifies a normal mail as a spam mail. It will not be judged.

<ラベル付与(2)>
また、ラベル付与部25は、第2の特徴ベクトル生成部22により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、以下の手順によって特徴ベクトルriに対してラベルS又はラベルHを付与しても良い。
=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12
si=(xi1,xi2,xi3,xi4,xi5,xi6
ti=(xi7,xi8,xi9,xi10,xi11,xi12
<Labeling (2)>
The label assigning unit 25 also uses the first feature based on the information included in the result of analyzing the mail log data or the header information of the e-mail from the feature vector ri generated by the second feature vector generating unit 22. The vector si may be divided into the second feature vector ti, and the label S or the label H may be given to the feature vector ri by the following procedure.
r i = (x i1 , x i2 , x i3 , x i4 , x i5 , x i6 , x i7 , x i8 , x i9 , x i10 , x i11 , x i12 )
si = (x i1 , x i2 , x i3 , x i4 , x i5 , x i6 )
ti = (x i7 , x i8 , x i9 , x i10 , x i11 , x i12 )

ラベル付与部25は、以下に示す第3の条件を満たす場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、第3の条件を満たさないが、以下に示す第4の条件を満たす場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与する。   When the third condition shown below is satisfied, the label assigning unit 25 assigns a label S indicating spam mail to the feature vector ri and does not satisfy the third condition. If the fourth condition is satisfied, a label H indicating normal mail is assigned to the feature vector ri.

また、ラベル付与部25は、第3の条件及び第4の条件を満たさない場合には、以下の手順によって特徴ベクトルriに対して第1のラベルs1から第6のラベルn2のいずれかを付与する。
ラベル付与部25は、以下に示す第5の条件を満たす場合には、第1の特徴ベクトルsiに対して第1のラベルs1を付与し、第5の条件を満たさないが、以下に示す第6の条件を満たす場合には、第1の特徴ベクトルsiに対して第2のラベルh1を付与し、第5の条件及び第6の条件を満たさない場合には、第1の特徴ベクトルsiに対して第3のラベルn1を付与する。また、ラベル付与部25は、以下に示す第7の条件を満たす場合には、第2の特徴ベクトルtiに対して第4のラベルs2を付与し、第7の条件を満たさないが、以下に示す第8の条件を満たす場合には、第2の特徴ベクトルtiに対して第5のラベルh2を付与し、第7の条件及び第8の条件を満たさない場合には、第2の特徴ベクトルtiに対して第6のラベルn2を付与する。
In addition, when the third condition and the fourth condition are not satisfied, the label assigning unit 25 assigns one of the first label s1 to the sixth label n2 to the feature vector ri according to the following procedure. To do.
When the fifth condition shown below is satisfied, the label assigning unit 25 assigns the first label s1 to the first feature vector si and does not satisfy the fifth condition. When the condition 6 is satisfied, the second label h1 is assigned to the first feature vector si, and when the fifth condition and the sixth condition are not satisfied, the first feature vector si is set. On the other hand, a third label n1 is given. In addition, when the seventh condition shown below is satisfied, the label assigning unit 25 assigns the fourth label s2 to the second feature vector ti and does not satisfy the seventh condition. When the eighth condition shown is satisfied, a fifth label h2 is assigned to the second feature vector ti, and when the seventh condition and the eighth condition are not satisfied, the second feature vector A sixth label n2 is assigned to ti.

そして、ラベル付与部25は、第1の特徴ベクトルsiと第2の特徴ベクトルtiに付与されているラベルの組み合わせが、第1のラベルs1と第4のラベルs2の組み合わせ、第1のラベルs1と第6のラベルn2の組み合わせ、又は第3のラベルn1と第4のラベルs2の組み合わせの場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与する。また、ラベル付与部25は、第1の特徴ベクトルsiと第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与する。

Figure 2011034417
但し、kr1,ks1,kt1、kr2,ks2,kt2は、0≦kr1<1、0≦ks1<1、0≦kt1<1、0≦kr2<1、0≦ks2<1、0≦kt2<1を満たす任意の値である。また、所定のルールとは、例えば、S25RやDNSBL等である。 The label assigning unit 25 determines that the combination of the labels assigned to the first feature vector si and the second feature vector ti is the combination of the first label s1 and the fourth label s2, and the first label s1. And the sixth label n2, or the combination of the third label n1 and the fourth label s2, the label S indicating spam mail is assigned to the feature vector ri. In addition, when the combination of labels assigned to the first feature vector si and the second feature vector ti is a combination other than the above combination, the label assigning unit 25 sends a normal mail to the feature vector ri. The label H which shows that it is is given.
Figure 2011034417
However, kr1, ks1, kt1, kr2, ks2, kt2 are 0 ≦ kr1 <1, 0 ≦ ks1 <1, 0 ≦ kt1 <1, 0 ≦ kr2 <1, 0 ≦ ks2 <1, 0 ≦ kt2 <1 Any value that satisfies The predetermined rule is, for example, S25R, DNSBL, or the like.

このような構成によれば、迷惑メール判定装置1は、kr1、kr2、ks1、ks2、kt1及びkt2を任意に設定することにより(例えば、kr1=ks1=kt1=0.001、kr2=ks2=kt2=0)、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。   According to such a configuration, the spam mail determination apparatus 1 arbitrarily sets kr1, kr2, ks1, ks2, kt1, and kt2 (for example, kr1 = ks1 = kt1 = 0.001, kr2 = ks2 = kt2 = 0), it is determined whether all received mails are spam mails or normal mails, and normal mails are not erroneously determined to be spam mails.

また、作成部26は、ラベル付与部25により特徴ベクトルに対して付与されたラベルに基づいて、分類器を作成する。迷惑メール判定装置1は、このように作成された分類器を用いて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかの判定を行うことができる。また、迷惑メール判定装置1は、判定した結果をラベル付与部25にフィードバックして、分類器を更新することによって、メールログデータ又は電子メールの受信数の増加に応じた学習効果が期待できる。   The creating unit 26 creates a classifier based on the label given to the feature vector by the label assigning unit 25. The spam mail determination device 1 may determine whether it is a spam mail or a normal mail based on the received mail log data or the header information of the email using the classifier created in this way. it can. Further, the spam mail determination device 1 can expect a learning effect according to an increase in the number of received mail log data or emails by feeding back the determined result to the label attaching unit 25 and updating the classifier.

<スパム判定方法>
つぎに、受信した電子メールがスパムメールか否かを判定する方法について図4に示すフローチャートを参照しながら説明する。
受信工程ST1において、受信部11は、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する。
<Spam determination method>
Next, a method for determining whether or not the received electronic mail is a spam mail will be described with reference to the flowchart shown in FIG.
In the receiving step ST1, the receiving unit 11 receives an e-mail composed of header information and a text through a series of sessions.

解析工程ST2において、解析部12は、セッションの過程で受信工程ST1により受信したヘッダ情報を解析する。
特徴ベクトル生成工程ST3において、第1の特徴ベクトル生成部13は、解析工程ST2により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する。
In the analysis step ST2, the analysis unit 12 analyzes the header information received in the reception step ST1 during the session.
In the feature vector generation step ST3, the first feature vector generation unit 13 generates a feature vector indicating the feature of the electronic mail based on the result analyzed in the analysis step ST2.

分類器作成工程ST4において、分類器作成部14は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する。   In the classifier creating step ST4, the classifier creating unit 14 collects a plurality of mail log data or e-mails as teacher data in advance, and determines the characteristics of the mail log data or e-mail from each mail log data or e-mail header information. A feature vector is generated, and whether or not the mail log data or the email is spam is determined by a predetermined determination method based on each mail log data or the header information of the email, and the feature is based on the result of the determination A label indicating whether or not it is a spam mail is assigned to the vector, and a spam mail classifier is generated by associating the feature vector with the label.

判定工程ST5において、第1の判定部15は、特徴ベクトル生成工程ST3により生成された特徴ベクトルを分類器作成工程ST4により生成された分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する。
制御工程ST6において、制御部16は、判定工程ST5により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する。
In the determination step ST5, the first determination unit 15 inputs the feature vector generated in the feature vector generation step ST3 to the classifier generated in the classifier creation step ST4, and uses the label given to the feature vector. judge.
In the control step ST6, when the label given to the feature vector in the determination step ST5 is a junk mail, the control unit 16 causes the receiving unit 11 not to receive the body text of the email corresponding to the feature vector. Control.

このようにして、迷惑メール判定方法は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。   In this way, the junk mail determination method analyzes header information received before receiving the body of the email, generates a feature vector indicating the feature of the email, and creates the feature vector by a predetermined method. It is determined whether or not the e-mail is a junk mail by inputting to the classifier.

よって、迷惑メール判定方法は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。   Therefore, the junk e-mail determination method does not simply allow or reject clients that cannot be reversed based on the header information, or does not allow or reject clients that are presumed not to be mail servers from the reverse name. Since it is not intended to determine whether it is spam mail from the header information using a black list of IP addresses created based on the IP address and to receive the mail body, FP and FN are not subject to existing rules (for example, S25R It is possible to determine whether it is spam mail safely and efficiently without leaking the host information of the communication destination to the outside as in DSNBL.

<実施例>
つぎに、迷惑メール判定装置1を利用したスパムメール判定システム100の構成と動作について説明する。スパムメール判定システム100は、図3に示すように、SMTPサーバ110と、ルール作成部120と、SMTPサーバ130と、スパムメール判定DNSサーバ140とを備える。なお、SMTPサーバ110は、分類器作成部14の収集部21に相当する機能を有する。また、ルール作成部120は、第2の特徴ベクトル生成部22と、第2の判定部23と、比較部24と、ラベル付与部25と、作成部26に相当する機能を有する。また、SMTPサーバ130は、受信部11と、解析部12と、第1の特徴ベクトル生成部13に相当する機能を有する。また、スパムメール判定DNSサーバ140は、第1の判定部15と制御部16に相当する機能を有する。
<Example>
Next, the configuration and operation of the spam mail determination system 100 using the spam mail determination device 1 will be described. As shown in FIG. 3, the spam mail determination system 100 includes an SMTP server 110, a rule creation unit 120, an SMTP server 130, and a spam mail determination DNS server 140. The SMTP server 110 has a function corresponding to the collection unit 21 of the classifier creation unit 14. The rule creation unit 120 has functions corresponding to the second feature vector generation unit 22, the second determination unit 23, the comparison unit 24, the label assignment unit 25, and the creation unit 26. The SMTP server 130 has functions corresponding to the receiving unit 11, the analyzing unit 12, and the first feature vector generating unit 13. The spam mail determination DNS server 140 has functions corresponding to the first determination unit 15 and the control unit 16.

SMTPサーバ110は、メールログ格納部111と、ログ出力部112とを備える。メールログ格納部111は、過去に受信した電子メールや、ネットワーク50を介して他のサーバに蓄積されている電子メールや、メールログデータ(SMTPサーバ上に残される記録データ)等を教師データとして収集し、これらの履歴情報を保持する。ログ出力部112は、メールログ格納部111に格納されている履歴情報を自動的にルール作成部120に出力する。   The SMTP server 110 includes a mail log storage unit 111 and a log output unit 112. The mail log storage unit 111 uses e-mails received in the past, e-mails stored in other servers via the network 50, mail log data (record data left on the SMTP server), etc. as teacher data. Collect and retain these history information. The log output unit 112 automatically outputs the history information stored in the mail log storage unit 111 to the rule creation unit 120.

ルール作成部120は、ログ入力部121と、ルール作成部122と、ルール格納部123とを備え、SMTPサーバ110で保存されているメールログデータを解析し、スパムメールの検出のためのルール(上述した分類器に相当する)を自動的に作成する。   The rule creation unit 120 includes a log input unit 121, a rule creation unit 122, and a rule storage unit 123. The rule creation unit 120 analyzes mail log data stored in the SMTP server 110, and detects a rule for detecting spam mail ( (Corresponding to the classifier described above) is automatically created.

ログ入力部121は、ログ出力部112から出力されたログに基づいて、ルール作成に必要な情報(ヘッダ情報)を収集し、収集したヘッダ情報をルール作成部122に送信する。ルール作成部122は、ログ入力部121で収集したヘッダ情報を加工してルールを作成する。具体気には、ルール作成部122は、上述した<特徴ベクトルの生成方法>にしたがってルール(分類器)を作成する。ルール格納部123は、ルール作成部122により作成されたルールを格納する。   Based on the log output from the log output unit 112, the log input unit 121 collects information (header information) necessary for rule creation and transmits the collected header information to the rule creation unit 122. The rule creation unit 122 processes the header information collected by the log input unit 121 to create a rule. Specifically, the rule creation unit 122 creates a rule (classifier) according to the above-described <feature vector generation method>. The rule storage unit 123 stores the rules created by the rule creation unit 122.

SMTPサーバ130は、MTA部131と、スパムメール判定エンジン部132とを備え、実際にスパムメールを含むメールを受信し、スパムメール判定を行うサーバである。MTA部131は、ユーザの端末から送信されてきた電子メールを受信して、他のサーバと連携して目的地となるサーバまで配送したり、他のサーバから配送されてきた電子メールをユーザの端末が受信するまで保管したりする機能を有している。   The SMTP server 130 includes a MTA unit 131 and a spam mail determination engine unit 132, and is a server that actually receives a mail including a spam mail and performs a spam mail determination. The MTA unit 131 receives an e-mail transmitted from the user's terminal and delivers it to a destination server in cooperation with another server or receives an e-mail delivered from another server by the user. It has a function of storing until the terminal receives it.

スパムメール判定エンジン部132は、国情報取得部133と、IPアドレス逆引き部134と、特徴ベクトル作成部135と、クエリ部136とを備え、スパムメール判定に必要な情報(HELO、IPアドレス、エンベロープFrom、TO等)から特徴ベクトルを生成し、スパムメール判定DNSサーバ140にクエリを行い、その判定結果をもとにスパム判定を行う機能を有している。   The spam mail determination engine unit 132 includes a country information acquisition unit 133, an IP address reverse lookup unit 134, a feature vector creation unit 135, and a query unit 136, and information necessary for spam mail determination (HELO, IP address, A feature vector is generated from the envelope (From, TO, etc.), the spam mail determination DNS server 140 is queried, and spam determination is performed based on the determination result.

国情報取得部133は、IPアドレスと国情報の対応関係が記されているマッピングテーブルを保持しており、当該マッピングテーブルを参照し、電子メールのヘッダ情報に含まれているIPアドレスに基づいて国情報を所得する。国情報取得部133は、取得した国情報と、SMTPサーバ130の置かれている国とが一致するかしないかを判断し、電子メールが自国から送信されたものか否かを判断する。なお、国情報取得部133は、SMTPサーバ130のIPアドレスを事前に登録しておくことにより、SMTPサーバ130が置かれている国の判別を行う。また、特徴ベクトル作成部135は、国情報取得部133により電子メールが自国から来ているか否かによって要素「xi11」の値を決定する。 The country information acquisition unit 133 holds a mapping table in which the correspondence relationship between the IP address and the country information is recorded, refers to the mapping table, and based on the IP address included in the header information of the email Earn country information. The country information acquisition unit 133 determines whether or not the acquired country information matches the country in which the SMTP server 130 is located, and determines whether or not an e-mail is transmitted from the home country. The country information acquisition unit 133 determines the country in which the SMTP server 130 is located by registering the IP address of the SMTP server 130 in advance. Further, the feature vector creation unit 135 determines the value of the element “x i11 ” depending on whether or not the country information acquisition unit 133 receives the email from the home country.

IPアドレス逆引き部134は、IPアドレスのDNS逆引きを行い、answer section、authority sectionのホスト名を取得する。   The IP address reverse lookup unit 134 performs DNS reverse lookup of the IP address, and acquires the host names of the answer section and the authority section.

特徴ベクトル作成部135は、第1の特徴ベクトル生成部13及び第2の特徴ベクトル生成部22と同様の機能を有しており、上述した<特徴ベクトルの生成方法>にしたがって、国情報、IPアドレス逆引き情報、及びHELO、エンベロープFrom、TO等から特徴ベクトル(r=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12))を作成する。 The feature vector creation unit 135 has the same functions as the first feature vector generation unit 13 and the second feature vector generation unit 22, and in accordance with the <feature vector generation method> described above, country information, IP address reverse information, and HELO, envelope from, the feature vector from the TO or the like (r i = (x i1, x i2, x i3, x i4, x i5, x i6, x i7, x i8, x i9, x i10 , X i11 , x i12 )).

クエリ部136は、特徴ベクトル作成部135によって作成された特徴ベクトルに基づいてクエリを作成する。具体的には、クエリ部136は、スパムメール判定DNSサーバ140のホスト名が「xxx.example.com」であり、特徴ベクトルが「0,0,0,0,0,0,1,1,0,1,0,0」であった場合には、「000000110100.xxx.example.com」をクエリとして作成し、その正引きをスパムメール判定DNSサーバ140に求める。   The query unit 136 creates a query based on the feature vector created by the feature vector creation unit 135. Specifically, the query unit 136 has a host name of the spam mail determination DNS server 140 of “xxx.example.com” and a feature vector of “0,0,0,0,0,0,1,1, In the case of “0, 1, 0, 0”, “00000010100.xxx.example.com” is created as a query, and the forward lookup is obtained from the spam mail determination DNS server 140.

また、クエリ部136は、後述する回答部141からの回答結果(スパムメール(S)又は正常メール(H))に基づいて、スパムメールか否かを判定し、MTA部131に送信する。MTA部131は、クエリ部136から送信された判定結果(スパムメール(S)又は正常メール(H))に基づいて、電子メールの本文を受信するか否かを決定する。具体的には、MTA部131は、クエリ部136から送信された判定結果がスパムメール(S)である場合には、電子メールの本文を受信せずに破棄(ブロック)し、クエリ部136から送信された判定結果が正常メール(H)である場合には、電子メールの本文を受信する。   Further, the query unit 136 determines whether or not the email is spam mail based on a response result (spam mail (S) or normal mail (H)) from the reply unit 141 described later, and transmits the spam mail to the MTA unit 131. Based on the determination result (spam mail (S) or normal mail (H)) transmitted from the query unit 136, the MTA unit 131 determines whether to receive the body text of the email. Specifically, if the determination result transmitted from the query unit 136 is spam mail (S), the MTA unit 131 discards (blocks) the email body without receiving it, and the query unit 136 When the transmitted determination result is a normal mail (H), the body of the electronic mail is received.

また、スパムメール判定DNSサーバ140は、回答部141と、判定部142とを備える。回答部141は、クエリ部136からクエリ「000000110100.xxx.example.com」を受け取り、受け取ったクエリから特徴ベクトル「000000110100」を抽出し、抽出した特徴ベクトルを判定部142に送信する。また、回答部141は、判定部142による判定結果(スパムメール(S)又は正常メール(H))をクエリ部136に送信する。   The spam mail determination DNS server 140 includes an answering unit 141 and a determining unit 142. The response unit 141 receives the query “00000010100.xxx.example.com” from the query unit 136, extracts the feature vector “00000010100” from the received query, and transmits the extracted feature vector to the determination unit 142. In addition, the reply unit 141 transmits the determination result (spam mail (S) or normal mail (H)) by the determination unit 142 to the query unit 136.

判定部142は、特徴ベクトル「000000110100」を受け取り、ルール格納部123に対して必要情報を問い合わせる。具体的には、判定部142は、ルール格納部123に格納されているルール(分類器)に基づいて、回答部141から受け取った特徴ベクトルと同一の特徴ベクトルに対して付与されているラベルがスパムメールを示すラベルSであるか、正常メールを示すラベルHであるかを確認する。
そして、判定部142は、スパムメールを示すラベルSが付与されていると確認した場合には、「127.0.0.1(仮)」を判定結果として回答部141に送信し、一方、正常メールを示すラベルHが付与されていると確認した場合には、「127.0.0.2(仮)」を判定結果として回答部141に送信する。
The determination unit 142 receives the feature vector “00000010100” and inquires the rule storage unit 123 about necessary information. Specifically, the determination unit 142 has a label attached to the same feature vector as the feature vector received from the answer unit 141 based on the rules (classifier) stored in the rule storage unit 123. It is confirmed whether the label S indicates spam mail or the label H indicates normal mail.
And when the determination part 142 confirms that the label S which shows spam mail is provided, it transmits "1277.0.0.1 (temporary)" to the reply part 141 as a determination result, When it is confirmed that the label H indicating normal mail is given, “127.0.0.2 (provisional)” is transmitted to the reply unit 141 as a determination result.

回答部141は、判定部142から「127.0.0.1(仮)」を受信した場合には、スパムメール(S)である旨の判定結果をクエリ部136に送信し、判定部142から「127.0.0.2(仮)」を受信した場合には、正常メール(H)である旨の判定結果をクエリ部136に送信する。   When the reply unit 141 receives “127.0.0.1 (temporary)” from the determination unit 142, the response unit 141 transmits a determination result indicating that the mail is spam mail (S) to the query unit 136. When “127.0.0.2 (temporary)” is received from the server, a determination result indicating that the mail is normal mail (H) is transmitted to the query unit 136.

このようにして、スパムメール判定システム100は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。なお、本実施例では、回答部141は、回答の結果をクエリ部136に返信しているが、これに限られず、MTA部131に直接回答の結果を返信しても良い。   In this way, the spam mail determination system 100 does not simply allow or reject clients that cannot be reversed based on the header information, or does not allow or reject clients that are presumed not to be mail servers from the reverse name. Since it is not intended to determine whether it is spam mail from the header information using the IP address black list or the like created based on the user's report, and to refuse to receive the mail text, the FP and FN are the existing rules. (E.g., S25R, DSNBL, etc.) can be made smaller, and the host information of the communication destination is not leaked to the outside unlike DSNBL, and it is determined whether or not it is spam mail safely and efficiently. be able to. In this embodiment, the answer unit 141 returns the answer result to the query unit 136, but the present invention is not limited to this, and the answer result may be sent directly to the MTA unit 131.

また、上述で説明した迷惑メール判定装置1及びスパムメール判定システム100による一連の処理は、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。また、当該プログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されても良いし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されても良い。   Moreover, a series of processes by the spam mail determination device 1 and the spam mail determination system 100 described above can also be performed by software. When a series of processing is performed by software, a program constituting the software is installed in a general-purpose computer or the like. The program may be recorded on a removable medium such as a CD-ROM and distributed to the user, or may be distributed by being downloaded to the user's computer via a network.

1 迷惑メール判定装置
11 受信部
12 解析部
13 第1の特徴ベクトル生成部
14 分類器作成部
15 第1の判定部
16 制御部
21 収集部
22 第2の特徴ベクトル生成部
23 第2の判定部
24 比較部
25 ラベル付与部
26 作成部
50 ネットワーク
100 スパムメール判定システム
111 メールログ格納部
112 ログ出力部
110 SMTPサーバ
120 ルール作成部
121 ログ入力部
122 ルール作成部
123 ルール格納部
130 SMTPサーバ
131 MTA部
132 スパムメール判定エンジン部
133 国情報取得部
134 IPアドレス逆引き部
135 特徴ベクトル作成部
136 クエリ部
140 スパムメール判定DNSサーバ
141 回答部
142 判定部
DESCRIPTION OF SYMBOLS 1 Spam mail determination apparatus 11 Receiving part 12 Analysis part 13 1st feature vector production | generation part 14 Classifier creation part 15 1st determination part 16 Control part 21 Collection part 22 2nd feature vector generation part 23 2nd determination part 24 comparison unit 25 label addition unit 26 creation unit 50 network 100 spam mail determination system 111 mail log storage unit 112 log output unit 110 SMTP server 120 rule creation unit 121 log input unit 122 rule creation unit 123 rule storage unit 130 SMTP server 131 MTA Unit 132 spam mail determination engine unit 133 country information acquisition unit 134 IP address reverse lookup unit 135 feature vector creation unit 136 query unit 140 spam mail determination DNS server 141 answer unit 142 determination unit

Claims (6)

ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信部と、
前記セッションの過程で前記受信部により受信した前記ヘッダ情報を解析する解析部と、
前記解析部により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部と、
前記第1の特徴ベクトル生成部により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する第1の判定部と、
前記第1の判定部により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信部を制御する制御部とを備えることを特徴とする迷惑メール判定装置。
A receiving unit that receives an email composed of header information and a body through a series of sessions;
An analysis unit that analyzes the header information received by the reception unit in the course of the session;
A first feature vector generation unit that generates a feature vector indicating a feature of an e-mail based on a result analyzed by the analysis unit;
Collecting a plurality of mail log data or emails as teacher data in advance, generating a feature vector indicating the characteristics of the email log data or email from each email log data or email header information, and sending each email log data or email Based on the header information, it is determined whether or not the mail log data or the e-mail is a junk mail by a predetermined determination method, and indicates whether or not the feature vector is a junk mail based on the result of the determination A classifier creating unit that assigns a label and associates the feature vector with the label to generate a junk mail classifier;
A first determination unit that inputs the feature vector generated by the first feature vector generation unit to the classifier and determines a label given to the feature vector;
A control unit that controls the receiving unit so as not to receive a body of an e-mail corresponding to the feature vector when the label given to the feature vector by the first determination unit is a junk mail. An unsolicited e-mail determination device.
前記分類器作成部は、
前記教師データとして複数のメールログデータ又は電子メールを収集する収集部と、
前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する第2の特徴ベクトル生成部と、
前記所定の判定方法に基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する第2の判定部と、
前記第2の判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、
前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、
前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する前記分類器を作成する作成部とを備えることを特徴とする請求項1記載の迷惑メール判定装置。
The classifier creating unit
A collection unit for collecting a plurality of mail log data or emails as the teacher data;
A second feature vector generation unit that analyzes mail log data or email header information collected by the collection unit and generates a feature vector indicating the feature of the mail log data or email based on the analysis result When,
Based on the predetermined determination method, the mail log data or the email header information collected by the collection unit is referred to, and it is determined whether the email log data or the email is a junk mail or a normal mail. A second determination unit that
Based on the result determined by the second determination unit, a comparison unit that compares the number determined to be junk mail and the number determined to be normal mail for each feature vector;
Based on the comparison result of the comparison unit, a label providing unit that provides a label indicating spam mail or a label indicating normal mail to the feature vector;
The classifier for classifying whether the mail is junk mail or normal mail based on the received mail log data or the header information of the e-mail based on the label given to the feature vector by the label giving unit The junk mail determination device according to claim 1, further comprising: a creation unit that creates a message.
前記ラベル付与部は、第1の条件のみを満たす場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、第2の条件を満たす場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与することを特徴とする請求項2記載の迷惑メール判定装置。
Figure 2011034417
The label attaching unit assigns a label S indicating spam mail to the feature vector ri when only the first condition is satisfied, and adds the label S to the feature vector ri when the second condition is satisfied. 3. The spam mail determination device according to claim 2, wherein a label H indicating that the mail is a normal mail is assigned.
Figure 2011034417
前記ラベル付与部は、前記第2の特徴ベクトル生成部により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、
第3の条件を満たす場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、
前記第3の条件を満たさないが、第4の条件を満たす場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与し、
前記第3の条件及び前記第4の条件を満たさない場合であって、
第5の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第1のラベルs1を付与し、
前記第5の条件を満たさないが第6の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第2のラベルh1を付与し、
前記第5の条件及び前記第6の条件を満たさない場合には、前記第1の特徴ベクトルsiに対して第3のラベルn1を付与し、
第7の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第4のラベルs2を付与し、
前記第7の条件を満たさないが第8の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第5のラベルh2を付与し、
前記第7の条件及び前記第8の条件を満たさない場合には、前記第2の特徴ベクトルtiに対して第6のラベルn2を付与し、
前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、前記第1のラベルs1と前記第4のラベルs2の組み合わせ、前記第1のラベルs1と前記第6のラベルn2の組み合わせ、又は前記第3のラベルn1と前記第4のラベルs2の組み合わせの場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、
前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与することを特徴とする請求項2記載の迷惑メール判定装置。
Figure 2011034417
但し、kr1,ks1,kt1、kr2,ks2,kt2は、0≦kr1<1、0≦ks1<1、0≦kt1<1、0≦kr2<1、0≦ks2<1、0≦kt2<1を満たす任意の値である。
The label adding unit is configured to generate a first feature vector based on information included in a result of analyzing mail log data or header information of an e-mail from the feature vector ri generated by the second feature vector generating unit. dividing into si and second feature vector ti,
If the third condition is satisfied, a label S indicating spam is given to the feature vector ri,
If the third condition is not satisfied but the fourth condition is satisfied, a label H indicating normal mail is given to the feature vector ri,
When the third condition and the fourth condition are not satisfied,
If the fifth condition is satisfied, a first label s1 is given to the first feature vector si,
If the fifth condition is not satisfied but the sixth condition is satisfied, a second label h1 is assigned to the first feature vector si,
When the fifth condition and the sixth condition are not satisfied, a third label n1 is given to the first feature vector si,
If the seventh condition is satisfied, a fourth label s2 is assigned to the second feature vector ti,
If the seventh condition is not satisfied but the eighth condition is satisfied, a fifth label h2 is assigned to the second feature vector ti,
If the seventh condition and the eighth condition are not satisfied, a sixth label n2 is assigned to the second feature vector ti,
The combination of the labels assigned to the first feature vector si and the second feature vector ti is a combination of the first label s1 and the fourth label s2, and the first label s1 and the second label. In the case of the combination of the label n2 of 6, or the combination of the third label n1 and the fourth label s2, the label S indicating spam mail is given to the feature vector ri,
If the combination of the labels assigned to the first feature vector si and the second feature vector ti is a combination other than the above combination, it indicates that the feature vector ri is a normal mail. The junk mail determination device according to claim 2, wherein a label H is given.
Figure 2011034417
However, kr1, ks1, kt1, kr2, ks2, kt2 are 0 ≦ kr1 <1, 0 ≦ ks1 <1, 0 ≦ kt1 <1, 0 ≦ kr2 <1, 0 ≦ ks2 <1, 0 ≦ kt2 <1 Any value that satisfies
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、
前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、
前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、
前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、
前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とを備えることを特徴とする迷惑メール判定方法。
A receiving step of receiving an email composed of header information and body text through a series of sessions;
An analysis step of analyzing the header information received by the reception step in the course of the session;
A feature vector generation step of generating a feature vector indicating the feature of the email based on the result analyzed by the analysis step;
Collecting a plurality of mail log data or emails as teacher data in advance, generating a feature vector indicating the characteristics of the email log data or email from each email log data or email header information, and sending each email log data or email Based on the header information, it is determined whether or not the mail log data or the e-mail is a junk mail by a predetermined determination method, and indicates whether or not the feature vector is a junk mail based on the result of the determination A classifier creating step of generating a junk mail classifier by assigning a label and associating the feature vector with the label;
A determination step of inputting the feature vector generated by the feature vector generation step to the classifier and determining a label attached to the feature vector;
And a control step of controlling the receiving step so that the body of the e-mail corresponding to the feature vector is not received when the label given to the feature vector by the determining step is spam. Junk mail determination method.
迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための迷惑メール判定プログラムであって、
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、
前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、
前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、
前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、
前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とをコンピュータによって実現するための迷惑メール判定プログラム。
A spam mail determination program for realizing, by a computer, a method for determining whether it is spam mail or normal mail,
A receiving step of receiving an email composed of header information and body text through a series of sessions;
An analysis step of analyzing the header information received by the reception step in the course of the session;
A feature vector generation step of generating a feature vector indicating the feature of the email based on the result analyzed by the analysis step;
Collecting a plurality of mail log data or emails as teacher data in advance, generating a feature vector indicating the characteristics of the email log data or email from each email log data or email header information, and sending each email log data or email Based on the header information, it is determined whether or not the mail log data or the e-mail is a junk mail by a predetermined determination method, and indicates whether or not the feature vector is a junk mail based on the result of the determination A classifier creating step of generating a junk mail classifier by assigning a label and associating the feature vector with the label;
A determination step of inputting the feature vector generated by the feature vector generation step to the classifier and determining a label attached to the feature vector;
When the label attached to the feature vector in the determination step is a junk mail, a control step of controlling the reception step so as not to receive the body of the e-mail corresponding to the feature vector is realized by a computer Junk e-mail judgment program.
JP2009181137A 2009-08-04 2009-08-04 Device, method and program for determining junk mail Pending JP2011034417A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009181137A JP2011034417A (en) 2009-08-04 2009-08-04 Device, method and program for determining junk mail

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009181137A JP2011034417A (en) 2009-08-04 2009-08-04 Device, method and program for determining junk mail

Publications (1)

Publication Number Publication Date
JP2011034417A true JP2011034417A (en) 2011-02-17

Family

ID=43763412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009181137A Pending JP2011034417A (en) 2009-08-04 2009-08-04 Device, method and program for determining junk mail

Country Status (1)

Country Link
JP (1) JP2011034417A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182466A (en) * 2012-03-02 2013-09-12 Kurimoto Ltd Web search system and web search method
JP2016071728A (en) * 2014-09-30 2016-05-09 Kddi株式会社 Mail information extraction device, mail determination list creation device, mail information extraction method, mail determination list creation method, and computer program
JP2017028666A (en) * 2015-07-28 2017-02-02 ビッグローブ株式会社 Transmission email system, transmission email control device, transmission email control method, and program
JP2018018343A (en) * 2016-07-28 2018-02-01 日本電気株式会社 Mail information processing device, mail information processing method, and program
JP2018151739A (en) * 2017-03-10 2018-09-27 日本電気株式会社 Mail delivery device and Web proxy server
WO2019053844A1 (en) * 2017-09-14 2019-03-21 三菱電機株式会社 Email inspection device, email inspection method, and email inspection program
JP2019061419A (en) * 2017-09-26 2019-04-18 富士ゼロックス株式会社 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM
JP2020166824A (en) * 2019-03-29 2020-10-08 エーオー カスペルスキー ラボAO Kaspersky Lab Systems and methods for generating heuristic rules to identify spam emails
JP2022133264A (en) * 2017-05-17 2022-09-13 ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー Filtering electronic messages
WO2025159865A1 (en) * 2024-01-22 2025-07-31 Salesforce, Inc. Anomalous query identification using query clustering

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362559A (en) * 2003-06-04 2004-12-24 Microsoft Corp Source and destination characteristics and lists for spam prevention

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362559A (en) * 2003-06-04 2004-12-24 Microsoft Corp Source and destination characteristics and lists for spam prevention

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900323006; 澤谷 雪子, 三宅 優: 'SMTPサーバにおけるDATAコマンド受信時でのスパムメール判定に関する検討と大規模データによる評価' 電子情報通信学会技術研究報告 NS2009-31〜NS2009-42 Vol.109, No.102, 20090618, p.61-66, 社団法人電子情報通信学会 *
JPN6013011429; 澤谷 雪子, 三宅 優: 'SMTPサーバにおけるDATAコマンド受信時でのスパムメール判定に関する検討と大規模データによる評価' 電子情報通信学会技術研究報告 NS2009-31〜NS2009-42 Vol.109, No.102, 20090618, p.61-66, 社団法人電子情報通信学会 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182466A (en) * 2012-03-02 2013-09-12 Kurimoto Ltd Web search system and web search method
JP2016071728A (en) * 2014-09-30 2016-05-09 Kddi株式会社 Mail information extraction device, mail determination list creation device, mail information extraction method, mail determination list creation method, and computer program
JP2017028666A (en) * 2015-07-28 2017-02-02 ビッグローブ株式会社 Transmission email system, transmission email control device, transmission email control method, and program
JP2018018343A (en) * 2016-07-28 2018-02-01 日本電気株式会社 Mail information processing device, mail information processing method, and program
JP2018151739A (en) * 2017-03-10 2018-09-27 日本電気株式会社 Mail delivery device and Web proxy server
JP7440565B2 (en) 2017-05-17 2024-02-28 ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー Electronic message filtering
JP2022133264A (en) * 2017-05-17 2022-09-13 ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー Filtering electronic messages
JP2024069219A (en) * 2017-05-17 2024-05-21 ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー Filtering electronic messages
JP7681140B2 (en) 2017-05-17 2025-05-21 ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー Electronic message filtering
WO2019053844A1 (en) * 2017-09-14 2019-03-21 三菱電機株式会社 Email inspection device, email inspection method, and email inspection program
JP2019061419A (en) * 2017-09-26 2019-04-18 富士ゼロックス株式会社 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM
JP2020166824A (en) * 2019-03-29 2020-10-08 エーオー カスペルスキー ラボAO Kaspersky Lab Systems and methods for generating heuristic rules to identify spam emails
WO2025159865A1 (en) * 2024-01-22 2025-07-31 Salesforce, Inc. Anomalous query identification using query clustering

Similar Documents

Publication Publication Date Title
JP2011034417A (en) Device, method and program for determining junk mail
US7398315B2 (en) Reducing unwanted and unsolicited electronic messages by preventing connection hijacking and domain spoofing
EP2446411B1 (en) Real-time spam look-up system
US7921173B2 (en) Reducing unwanted and unsolicited electronic messages by exchanging electronic message transmission policies and solving and verifying solutions to computational puzzles
US7529802B2 (en) Method for performing multiple hierarchically tests to verify identity of sender of an email message and assigning the highest confidence value
US8745143B2 (en) Delaying inbound and outbound email messages
US7818383B2 (en) E-mail server
US20110258272A1 (en) Facilitating transmission of an email of a well behaved sender by extracting email parameters and querying a database
EP2458802A1 (en) Method and system for intercommunicating between instant message and e-mail
US20060168017A1 (en) Dynamic spam trap accounts
US7802304B2 (en) Method and system of providing an integrated reputation service
US20040093382A1 (en) Method of transmitting an electronic mail message
US8458264B1 (en) Email proxy server with first respondent binding
US20080235798A1 (en) Method for filtering junk messages
KR101213935B1 (en) Reducing unwanted and unsolicited electronic messages
US7627635B1 (en) Managing self-addressed electronic messages
CN1668040A (en) Method and apparatus for authenticating electronic mail messages in a communication network
JP5366504B2 (en) Mail receiving server, spam mail receiving method and program
CN1242349C (en) E-mail control method, E-mail control device and computer product
CN101742433A (en) Method and system for sending and receiving e-mails by short message on mobile phone
JP2009118174A (en) Information processing apparatus, approval method, and program
JP2011130358A (en) Electronic mail system and unsolicited mail discriminating method in the electronic mail system
JP2011034416A (en) Device, method and program for classifying electronic mail
JPWO2005101770A1 (en) Spam mail processing apparatus and method
JP2013171437A (en) Misrepresentation mail processing device, misrepresentation mail processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120229

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130702