JP2011034417A - Device, method and program for determining junk mail - Google Patents
Device, method and program for determining junk mail Download PDFInfo
- Publication number
- JP2011034417A JP2011034417A JP2009181137A JP2009181137A JP2011034417A JP 2011034417 A JP2011034417 A JP 2011034417A JP 2009181137 A JP2009181137 A JP 2009181137A JP 2009181137 A JP2009181137 A JP 2009181137A JP 2011034417 A JP2011034417 A JP 2011034417A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- label
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】FP及びFNが既存のルールよりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムを提供すること。
【解決手段】電子メールを受信する受信部11と、セッションの過程で受信部11により受信したヘッダ情報を解析する解析部12と、解析部12により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部13と、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部14と、特徴ベクトルを分類器に入力し、特徴ベクトルに付与されているラベルを判定する第1の判定部15と、特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する制御部16とを備える。
【選択図】図1A spam mail determination apparatus and a spam mail determination method for determining whether or not a spam mail is efficiently sent without leaking host information of a communication destination to the outside without FP and FN being smaller than existing rules, and Provide a junk mail determination program.
A receiving unit that receives an e-mail, an analysis unit that analyzes header information received by the receiving unit in the course of a session, and characteristics of the e-mail based on a result analyzed by the analyzing unit. A first feature vector generation unit 13 that generates a feature vector to be shown; a classifier creation unit 14 that generates a junk mail classifier by associating the feature vector and the label; and the feature vector is input to the classifier; A first determination unit 15 that determines a label attached to the feature vector, and a receiving unit so as not to receive the body text of the email corresponding to the feature vector when the label attached to the feature vector is a junk mail And a control unit 16 that controls the control unit 11.
[Selection] Figure 1
Description
本発明は、受信した電子メールが迷惑メールであるか又は正常メールであるかを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムに関する。 The present invention relates to a spam mail determination device, a spam mail determination method, and a spam mail determination program for determining whether a received electronic mail is a spam mail or a normal mail.
近年、ネットワークの発展により、気軽に電子メール(以下、メールという)を送受信できるようになったことに伴い、スパムメール(spammail)の数も増大している。ここで、「スパムメール」とは、受信者の意図を無視して事前の要請や同意なしに、無差別かつ大量発信されるメールを意味するものである。なお、このスパムメールの同義語として、「迷惑メール」、「ジャンクメール」、「UCE(UnsolicitedCommercialEmail)」、「UBE(UnsolicitedBulkEmail)」等がある。 In recent years, the number of spam mails has been increasing due to the fact that it has become possible to easily send and receive electronic mails (hereinafter referred to as mails) due to the development of networks. Here, “spam mail” means mail that is sent indiscriminately and in large quantities without ignoring the recipient's intention and without prior request or consent. Synonyms for this spam mail include “junk mail”, “junk mail”, “UCE (Unsolicited Commercial Email)”, “UBE (Unsolicited Bulk Email)”, and the like.
このようなスパムメールは、添付ファイル等によるウイルス感染や、不要なメールの増加による受信者の業務生産性及び効率の低下や、トラフィックの増加によるサーバ及びネットワークへの負荷増大や、詐欺サイトへの誘導等によるプライバシーや機密情報の漏洩等の点において、個人及び団体を問わずに脅威となり得るものである。 Such spam emails include virus infections due to attachments, etc., decreased productivity and efficiency of recipients due to an increase in unnecessary emails, increased load on servers and networks due to increased traffic, and fraudulent sites It can be a threat regardless of individuals or organizations in terms of privacy or leakage of confidential information due to guidance.
上記のようなスパムメールによる問題は、既に社会問題の域にまで達している。メールアドレスが安価に入手可能であることや、定額料金の高速通信が安価で提供されていること等を鑑みると、今後、スパムメールは減少することなくますます増加していくと考えられ、スパムメールに対する有効な対策が早急に要求されている。 The problems caused by spam emails as described above have already reached the level of social problems. In view of the fact that email addresses are available at low cost and that high-speed communications with a flat rate are provided at a low cost, spam emails are expected to increase without decreasing in the future. Effective measures against email are urgently required.
ここで、メール本文を受信する前に得られる情報(ヘッダ情報)からスパムメールかどうかを判断し、メール本文を受信することを拒否する技術が提案されている(非特許文献1を参照。)。この技術によると、スパムメールやスパムメール送信サーバに頻繁に出現する性質(文字列の特徴)を画一的なルールにしている。また、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定して、メール本文を受信することを拒否する技術が提案されている(非特許文献2を参照。)。なお、「ヘッダ情報」とは、SMTPセッション中のコマンドやIPアドレスも含めた概念である。 Here, a technique has been proposed in which it is determined whether or not the mail is a spam mail from information (header information) obtained before the mail text is received, and the reception of the mail text is rejected (see Non-Patent Document 1). . According to this technology, the characteristics (character string characteristics) that frequently appear in spam mails and spam mail transmission servers are made uniform. In addition, a technique has been proposed in which it is determined whether or not a spam mail is based on header information using a blacklist of IP addresses created based on a user report, and the mail body is rejected (non-patent) See reference 2.) The “header information” is a concept including a command and an IP address during the SMTP session.
ところで、非特許文献1に係る技術では、ヘッダ情報に基づいてスパムメールか否かを判定するため、外部に通信先のホスト情報(SMTPサーバがどのメールサーバから電子メールを受信しているか等の情報)が漏洩することはないが、発明者等の研究によると、正常なメールをスパムメールと判断してしまう割合(false positive:FP)は10%以上も存在することが分かった。
By the way, in the technique according to Non-Patent
一方、非特許文献2に記載のspamhausのDNSBL(Domain Name System Black List)は、発明者等の研究によると、ユーザからの報告をもとにするため、スパムメールを見逃す割合(false negative:FN)が20%程度存在することが分かった。さらに、spamhausのDNSBLでは、通信先のホスト情報を全てクエリとして外部のDSNBLサーバに問い合わせを行うため、DNSBLサーバは、どのメールサーバとどのメールサーバが情報をやり取りしているのかを把握できてしまう。 On the other hand, spamhaus's DNSBL (Domain Name System Black List) described in Non-Patent Document 2 is based on a report from a user, according to the research of the inventors, etc., and therefore a ratio of missing spam mail (false negative: FN) ) Was found to be present at about 20%. Furthermore, in the spamhouse DNSBL, an inquiry is made to an external DSNBL server using all the host information of the communication destination as a query, so that the DNSBL server can grasp which mail server and which mail server exchange information. .
本発明は、FP及びFNが非特許文献1、2に示す技術よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定する迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラムを提供することを目的とする。
The present invention is nuisance mail determination in which FP and FN are smaller than the techniques shown in
本発明では、以下のような解決手段を提供する。 The present invention provides the following solutions.
(1)本発明に係る迷惑メール判定装置は、上記課題を解決するために、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信部と、前記セッションの過程で前記受信部により受信した前記ヘッダ情報を解析する解析部と、前記解析部により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部と、前記第1の特徴ベクトル生成部により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する第1の判定部と、前記第1の判定部により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信部を制御する制御部とを備える。 (1) In order to solve the above-described problem, the spam mail determination device according to the present invention receives an email composed of header information and a text through a series of sessions, and receives the email in the course of the session. An analysis unit that analyzes the header information received by the unit, a first feature vector generation unit that generates a feature vector indicating a feature of the e-mail based on a result analyzed by the analysis unit, and a plurality of teacher data in advance Mail log data or e-mail is collected, a feature vector indicating the characteristics of the mail log data or e-mail is generated from each mail log data or e-mail header information, and based on each mail log data or e-mail header information To determine whether the mail log data or e-mail is junk mail using a predetermined method. A classifier creating unit for generating a spam mail classifier by associating the feature vector with the label, and adding a label indicating whether the feature vector is spam or not based on the result of A feature vector generated by a first feature vector generator is input to the classifier, a first determiner that determines a label attached to the feature vector, and the feature vector by the first determiner And a control unit that controls the receiving unit so as not to receive the body of the e-mail corresponding to the feature vector.
このような構成によれば、迷惑メール判定装置は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。 According to such a configuration, the junk mail determination device analyzes the header information received before receiving the body of the email, generates a feature vector indicating the feature of the email, and uses the feature vector as a predetermined method. It is determined whether or not the e-mail is a junk e-mail by inputting it into the classifier created in the above.
よって、迷惑メール判定装置は、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。 Therefore, the spam mail determination device determines whether the FP and FN are smaller than the existing rules (for example, S25R, DSNBL, etc.) and is efficiently spam mail without leaking the host information of the communication destination to the outside. Can be determined.
(2)上記迷惑メール判定装置では、前記分類器作成部は、前記教師データとして複数のメールログデータ又は電子メールを収集する収集部と、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する第2の特徴ベクトル生成部と、前記所定の判定方法に基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する第2の判定部と、前記第2の判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する前記分類器を作成する作成部とを備えることが好ましい。 (2) In the junk mail determination device, the classifier creation unit includes a collection unit that collects a plurality of mail log data or emails as the teacher data, and mail log data or emails collected by the collection unit. Analyzing header information, and based on the result of the analysis, a second feature vector generation unit that generates a feature vector indicating a feature of mail log data or email, and the collection unit based on the predetermined determination method A second determination unit that refers to the mail log data or the header information of the email collected by the above and determines whether the email log data or the email is a junk mail or a normal mail; and the second Based on the result determined by the determination unit, the number determined to be junk mail and the number determined to be normal mail for each feature vector. A comparison unit for comparing, a label adding unit for adding a label indicating spam mail or a label indicating normal mail to the feature vector based on a comparison result of the comparison unit, and labeling The classifier for classifying whether the mail is junk mail or normal mail based on the received mail log data or the header information of the e-mail based on the label given to the feature vector by the section It is preferable to provide a creation unit.
このような構成によれば、迷惑メール判定装置は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール(例えば、S25Rや、DNSBL等)によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。 According to such a configuration, the junk mail determination device collects a plurality of mail log data or e-mails as teacher data in advance, generates a feature vector from each mail log data or e-mail header information, A rule (for example, S25R or DNSBL) is used to determine whether the message is spam based on mail log data or email header information, and a label is assigned to the feature vector based on the determination result. Create a classifier based on the label.
よって、迷惑メール判定装置は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、迷惑メール判定装置は、受信する電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器にかけることにより、電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合(false positive:FP)を低減することができる。 Therefore, the spam mail determination device does not determine whether or not it is simply spam mail from the header information based on the existing rules, and spam mail based on learning using a lot of header information without manual intervention for labeling in learning. Classifiers can be created. Further, the junk mail determination device generates a feature vector based on the header information of the received e-mail, and determines whether the e-mail is spam mail by applying the generated feature vector to the created classifier. In addition, it is possible to reduce the false detection by simply using the existing rule, that is, the rate of false detection of normal mail as spam mail (false positive: FP).
また、迷惑メール判定装置は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて電子メールがスパムメールであるか否かを判定できるので、電子メールの本文(Body)を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、迷惑メール判定装置は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。 Moreover, since the spam mail determination device can determine whether or not the email is spam mail based on the feature vector generated from the analysis result of the header information, it receives the body text of the email and Without analyzing the main text, it is possible to determine whether or not the mail is spam mail with high accuracy based on the feature vector generated from the analysis result of the header information. In addition, since the spam mail determination device can create a classifier regardless of the manual operation, it can perform a cold start operation by eliminating artificial elements in the process of creating the classifier.
(3)上記迷惑メール判定装置では、前記ラベル付与部は、第1の条件のみを満たす場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、第2の条件を満たす場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与することが好ましい。
このような構成によれば、迷惑メール判定装置は、k1とk2を任意に設定することにより(例えば、k1=0.001、k2=0)、正常なメールをスパムメールであると誤って判定されることがなくなる。 According to such a configuration, the spam mail determination device erroneously determines that normal mail is spam mail by arbitrarily setting k1 and k2 (for example, k1 = 0.001, k2 = 0). It will not be done.
(4)上記迷惑メール判定装置では、前記ラベル付与部は、前記特徴ベクトル生成部により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて、第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、第3の条件を満たす場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、前記第3の条件を満たさないが、第4の条件を満たす場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与し、前記第3の条件及び前記第4の条件を満たさない場合であって、第5の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第1のラベルs1を付与し、前記第5の条件を満たさないが第6の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第2のラベルh1を付与し、前記第5の条件及び前記第6の条件を満たさない場合には、前記第1の特徴ベクトルsiに対して第3のラベルn1を付与し、第7の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第4のラベルs2を付与し、前記第7の条件を満たさないが第8の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第5のラベルh2を付与し、前記第7の条件及び前記第8の条件を満たさない場合には、前記第2の特徴ベクトルtiに対して第6のラベルn2を付与し、前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、前記第1のラベルs1と前記第4のラベルs2の組み合わせ、前記第1のラベルs1と前記第6のラベルn2の組み合わせ、又は前記第3のラベルn1と前記第4のラベルs2の組み合わせの場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与することが好ましい。
このような構成によれば、迷惑メール判定装置は、kr1、kr2、ks1、ks2、kt1及びkt2を任意に設定することにより(例えば、kr1=ks1=kt1=0.001、kr2=ks2=kt2=0)、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。 According to such a configuration, the spam mail determination device can arbitrarily set kr1, kr2, ks1, ks2, kt1, and kt2 (for example, kr1 = ks1 = kt1 = 0.001, kr2 = ks2 = kt2). = 0) All received mails are judged to be spam mails or normal mails, and normal mails are not mistakenly judged to be spam mails.
(5)本発明に係る迷惑メール判定方法は、上記課題を解決するために、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とを備えることを特徴とする。 (5) In order to solve the above-described problem, the spam mail determination method according to the present invention receives an email composed of header information and a body text through a series of sessions, and receives the email in the course of the session. An analysis step for analyzing the header information received by the step, a feature vector generation step for generating a feature vector indicating the feature of the e-mail based on the result analyzed by the analysis step, and a plurality of mail logs as teacher data in advance Collect data or e-mail, generate a feature vector indicating the characteristics of e-mail log data or e-mail from each e-mail log data or e-mail header information, and generate a predetermined vector based on each e-mail log data or e-mail header information Judgment method determines whether mail log data or e-mail is junk mail. A classifier creating step of generating a spam mail classifier by associating the feature vector with the label indicating whether it is spam based on a result of the determination, and associating the feature vector with the label; The feature vector generated by the feature vector generation step is input to the classifier, the determination step for determining the label attached to the feature vector, and the label attached to the feature vector by the determination step is annoying In the case of a mail, it is characterized by comprising a control step of controlling the reception step so as not to receive the body of the electronic mail corresponding to the feature vector.
このような構成によれば、迷惑メール判定方法は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。 According to such a configuration, the junk mail determination method analyzes the header information received before receiving the body of the email, generates a feature vector indicating the feature of the email, and uses the feature vector as a predetermined method. It is determined whether or not the e-mail is a junk e-mail by inputting it into the classifier created in the above.
よって、迷惑メール判定方法は、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。 Therefore, the spam mail determination method is such that FP and FN are smaller than existing rules (for example, S25R, DSNBL, etc.), and whether or not spam mail is efficiently made without leaking the host information of the communication destination to the outside. Can be determined.
(6)本発明に係る迷惑メール判定プログラムは、上記課題を解決するために、迷惑メールであるか又は正常メールであるかを判定する方法をコンピュータによって実現するための迷惑メール判定プログラムであって、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とをコンピュータによって実現することを特徴とする。 (6) A spam mail determination program according to the present invention is a spam mail determination program for realizing, by a computer, a method for determining whether a mail is a spam mail or a normal mail in order to solve the above problem. A receiving step for receiving an email composed of header information and body text through a series of sessions, an analyzing step for analyzing the header information received by the receiving step in the course of the session, and an analysis step A feature vector generation step for generating a feature vector indicating the feature of the email based on the result, and a plurality of email log data or emails are collected in advance as teacher data, and email is sent from each email log data or email header information. Generate a feature vector indicating the characteristics of log data or email, and send each email Whether or not the mail log data or the e-mail is a junk e-mail by a predetermined determination method based on the header information of the message data or the e-mail A classifier creating step of generating a junk mail classifier by associating the feature vector with the label, and inputting the feature vector generated by the feature vector generating step to the classifier A determination step for determining a label attached to the feature vector; and when the label attached to the feature vector in the determination step is junk mail, the body text of the email corresponding to the feature vector is The control step of controlling the reception step so as not to receive is realized by a computer.
このような構成によれば、迷惑メール判定プログラムは、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。 According to such a configuration, the junk mail determination program analyzes the header information received before receiving the body of the email, generates a feature vector indicating the feature of the email, and uses the feature vector as a predetermined method. It is determined whether or not the e-mail is a junk e-mail by inputting it into the classifier created in the above.
よって、迷惑メール判定プログラムは、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。 Therefore, the junk mail determination program determines whether FP and FN are smaller than existing rules (for example, S25R, DSNBL, etc.) and is efficiently spam mail without leaking the host information of the communication destination to the outside. Can be determined.
本発明によれば、FP及びFNが既存のルール(例えば、S25Rや、DSNBL等)よりも小さく、かつ通信先のホスト情報を外部に漏洩することなく効率的にスパムメールであるか否かを判定することができる。 According to the present invention, whether FP and FN are smaller than existing rules (for example, S25R, DSNBL, etc.) and whether or not it is spam mail efficiently without leaking the host information of the communication destination to the outside. Can be determined.
以下、本発明の実施形態の一例について図1から図4を参照しながら説明する。本発明の実施形態に係る迷惑メール判定装置1は、電子メールの送受信を行う一連のセッションにおいて、ヘッダ情報を受信した状態、すなわち本文を受信する前の状態において、電子メールが迷惑メール(以下、スパムメールという。)であるか否かを判定し、スパムメールであると判定した場合には、電子メールの本文の受信を破棄(ブロック)する装置である。なお、「ヘッダ情報」とは、SMTPセッション中のコマンドやIPアドレスも含めた概念である。
Hereinafter, an exemplary embodiment of the present invention will be described with reference to FIGS. 1 to 4. The spam
迷惑メール判定装置1は、図1に示すように、受信部11と、解析部12と、第1の特徴ベクトル生成部13と、分類器作成部14と、第1の判定部15と、制御部16とを備える。
受信部11は、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する。また、受信部11は、MTA(message transfer agent)としての機能を有しており、ユーザの端末から送信されてきた電子メールを受信して、他のサーバと連携して目的地となるサーバまで配送したり、他のサーバから配送されてきた電子メールをユーザの端末が受信するまで保管したりする機能を有している。
As shown in FIG. 1, the junk
The receiving
解析部12は、電子メールを受信する一連のセッションの過程で受信部11により受信したヘッダ情報を解析する。解析部12は、具体的には、ヘッダ情報に含まれている情報から、マッピングテーブルを参照して国情報を取得したり、IPアドレスの逆引き等を行ったりする。
第1の特徴ベクトル生成部13は、解析部12により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの具体的な生成方法については後述する。
The
The first feature
分類器作成部14は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する。なお、メールログデータとは、SMTPサーバ上に残される記録データのことである。また、分類器の具体的な生成方法については後述する。
The
第1の判定部15は、第1の特徴ベクトル生成部13により生成された特徴ベクトルを分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する。
制御部16は、第1の判定部15により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する。
The
When the label given to the feature vector by the
このような構成によれば、迷惑メール判定装置1は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。
According to such a configuration, the junk
よって、迷惑メール判定装置1は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。
Therefore, the junk
つぎに、分類器作成部14の具体的な構成と動作について説明する。分類器作成部14は、図2に示すように、収集部21と、第2の特徴ベクトル生成部22と、第2の判定部23と、比較部24と、ラベル付与部25と、作成部26とを備える。
Next, a specific configuration and operation of the
収集部21は、教師データとして複数のメールログデータ又は電子メールを収集する。具体的には、収集部21は、過去に受信したメールログデータ又は電子メールや、ネットワーク50を介して他のサーバに蓄積されているメールログデータ又は電子メールを教師データとして収集する。なお、収集したメールログデータ又は電子メールには、スパムメールと判定されたメールや、正常なメールであると判定されたメールが含まれている。
The
第2の特徴ベクトル生成部22は、収集部21により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する。なお、特徴ベクトルの生成方法については後述する。また、第2の特徴ベクトル生成部22は、第1の特徴ベクトル生成部13と同一の機能を有するので、第1の特徴ベクトル生成部13を兼用する構成であっても良い。
The second feature
第2の判定部23は、所定の判定ルール(例えば、S25Rや、DNSBL等)に基づいて、収集部21により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールがスパムメールであるか又は正常メールであるかを判定する。本実施例においては、第2の判定部23は、S25RとDNSBLの双方においてスパムメールであると判定された場合には、スパムメールであると判定するが、これに限られない。
The
比較部24は、第2の判定部23によって判定された結果に基づいて、特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する。ラベル付与部25は、比較部24の比較結果に基づいて、特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与する。
Based on the result determined by the
作成部26は、ラベル付与部25により特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する分類器を作成する。
The
このような構成によれば、迷惑メール判定装置1は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報から特徴ベクトルを生成し、既存の判定ルール(例えば、S25RやDNSBL等)によりメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールか否かの判定を行い、当該判定結果に基づいて特徴ベクトルにラベルを付与し、この付与されたラベルに基づいて分類器を作成する。
According to such a configuration, the spam
よって、迷惑メール判定装置1は、既存のルールに基づいてヘッダ情報から単にスパムメールか否かを判定せず、かつ、学習におけるラベル付けについて人手を介することなくヘッダ情報を多用した学習に基づくスパムメールの分類器を作成することができる。また、迷惑メール判定装置1は、受信する電子メールのヘッダ情報に基づいて特徴ベクトルを生成し、生成した特徴ベクトルを作成した分類器にかけることにより、電子メールがスパムメールか否かを判定するので、単純に既存のルールを使用することによる誤検知、すなわち正常なメールをスパムメールであると誤検知する割合(false positive:FP)を低減することができる。
Therefore, the spam
また、迷惑メール判定装置1は、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて電子メールがスパムメールであるか否かを判定できるので、電子メールの本文(Body)を受信して、その本文を解析するまでもなく、ヘッダ情報の解析結果から生成される特徴ベクトルに基づいて高精度にスパムメールであるか否かの判定を行うことができる。また、迷惑メール判定装置1は、人手によらず分類器を作成することができるので、分類器の作成過程において、人為的な要素を排除してコールドスタート的な動作ができる。
Moreover, since the junk
<特徴ベクトルの生成方法>
ここで、第2の特徴ベクトル生成部22において、教師データから特徴ベクトルを生成する方法について説明する。教師データに含まれるメールログデータ又は電子メールのそれぞれに関して、特徴ベクトルriを以下のように定義する。なお、第1の特徴ベクトル生成部13により特徴ベクトルが生成される方法も同様である。
ri=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12)
<Feature vector generation method>
Here, a method for generating a feature vector from teacher data in the second feature
r i = (x i1 , x i2 , x i3 , x i4 , x i5 , x i6 , x i7 , x i8 , x i9 , x i10 , x i11 , x i12 )
また、特徴ベクトルriの各要素(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11及びxi12)を以下のように定義する。
xi1:SMTP(Simple Mail Transfer Protocol)セッション中のMAIL FROMコマンド中のメールアドレスのドメインが、IPアドレスのDNS逆引きホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
xi2:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインがIPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上と一致する場合を「1」とし、それ以外を「0」とする。
xi3:SMTPセッション中のMAIL FROMコマンド中のメールアドレスのドメインがHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
xi4:IPアドレスのDNS逆引きホスト名のドメインがIPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上と一致する場合を「1」とし、それ以外を「0」とする。
xi5:IPアドレスのDNS逆引きホスト名のドメインがHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
Further, each element (x i1 , x i2 , x i3 , x i4 , x i5 , x i6 , x i7 , x i8 , x i9 , x i10 , x i11, and x i12 ) of the feature vector ri is as follows: Define.
x i1 : “1” when the domain of the mail address in the MAIL FROM command in the SMTP (Simple Mail Transfer Protocol) session matches the domain of the reverse DNS host name of the IP address, and “0” otherwise. And
x i2 : “1” when the domain of the mail address in the MAIL FROM command during the SMTP session matches at least one of the domain of the host name in the Authority section when the DNS reverse lookup of the IP address is performed Other than that, “0” is set.
x i3 : “1” is set when the domain of the mail address in the MAIL FROM command in the SMTP session matches the domain of the host name in the HELO / EHLO command, and “0” is set otherwise.
x i4 : “1” if the DNS reverse DNS host name domain of the IP address matches at least one of the host name domains in the Authority section when the reverse DNS address lookup is performed Is “0”.
x i5 : “1” is set when the domain of the reverse DNS host name of the IP address matches the domain of the host name in the HELO / EHLO command, and “0” is set otherwise.
xi6:IPアドレスのDNS逆引きした際のAuthority section中のホスト名のドメインの中の少なくとも1つ以上がHELO/EHLOコマンド内のホスト名のドメインと一致する場合を「1」とし、それ以外を「0」とする。
xi7:IPアドレスのDNS逆引きホスト名が存在する場合は「1」とし、それ以外「0」とする。
xi8:(HELO/EHLOコマンド内のホスト名の中の数字の数)≧(IPアドレスに使われている数字の数)(e.g.HELO/EHLOコマンド内のホスト名:10.5.5.1,log−helo:10−5−5−1.example.com)の場合を「1」とし、それ以外を「0」とする。
xi9:(IPアドレスのDNS逆引きホスト名の中の数字の数)≧(IPアドレスに使われている数字の数)の場合を「1」とし、それ以外を「0」とする。
xi10:log−heloがトップレベルドメインで終わっていない場合を「1」とし、それ以外を「0」とする。
xi11:自国から来ている場合を「1」とし、それ以外を「0」とする。また、IPアドレスと国との関係は、マッピングテーブルを参照することにより取得が可能である。迷惑メール判定装置1は、マッピングテーブルを自身が保有していても良いし、また、ネットワーク50を介してマッピングテーブルを保有している他の装置にアクセスして国情報を取得しても良い。
xi12:HELO/EHLOコマンド内のホスト名にドットが含まれていない、又は、HELO/EHLOコマンド内のホスト名がIPアドレス形式でかつ実際のIPアドレスと一致しない、又は、HELO/EHLOコマンド内のホスト名のドメインが、RCPT TOコマンド内のメールアドレス(宛先メールアドレス)のドメインと一致した場合を「1」とし、それ以外を「0」とする。
x i6 : “1” when at least one of the host name domains in the Authority section when the DNS of the IP address is reversely matched matches the host name domain in the HELO / EHLO command. Is “0”.
x i7 : “1” when the DNS reverse host name of the IP address exists, “0” otherwise.
x i8 : (number of numbers in host name in HELO / EHLO command) ≧ (number of numbers used in IP address) (eg host name in EG HELO / EHLO command: 10.5. 5.1, log-hero: 10-5-5-1.example.com) is “1”, and the others are “0”.
x i9 : (Number of numbers in DNS reverse DNS host name of IP address) ≧ (Number of numbers used in IP address) is set to “1”, and other than “0”.
x i10 : A case where log-hero does not end in the top level domain is set to “1”, and other cases are set to “0”.
x i11 : “1” when coming from the home country, “0” otherwise. The relationship between the IP address and the country can be acquired by referring to the mapping table. The spam
x i12 : The host name in the HELO / EHLO command does not include a dot, or the host name in the HELO / EHLO command is in the IP address format and does not match the actual IP address, or in the HELO / EHLO command When the domain of the host name matches the domain of the mail address (destination mail address) in the RCPT TO command, “1” is set, and other cases are set to “0”.
なお、本実施例では、「ドメイン」は、WHOISサーバ等に登録されている第2レベルドメイン又は第3レベルドメインまでと定義する。 In the present embodiment, the “domain” is defined as the second level domain or the third level domain registered in the WHOIS server or the like.
第2の特徴ベクトル生成部22は、例えば、電子メールaのヘッダ情報を解析し、解析結果に基づいて各要素を決定し、以下のように特徴ベクトルraを生成する。
ra=(xa1,xa2,xa3,xa4,xa5,xa6,xa7,xa8,xa9,xa10,xa11,xa12)=(1,1,1,1,1,1,1,1,1,1,0,0)
第2の特徴ベクトル生成部22は、このような特徴ベクトルriを教師データとして収集された全てのメールログデータ又は電子メールについて生成する。また、特徴ベクトルriは、本実施例においては、要素が12種類ある。したがって、理論的には、メールログデータ又は電子メールを4096種類に分類することができる。なお、上述した特徴ベクトルriの各定義は、例示であって、これ以外の要素が追加されても良く、要素を増加することにより4096種類以上にメールログデータ又は電子メールを分類することができ、要素の数に応じてメールログデータ又は電子メールを仔細に分類することができる。
For example, the second feature
ra = (x a1, x a2 , x a3, x a4, x a5, x a6, x a7, x a8, x a9, x a10, x a11, x a12) = (1,1,1,1,1 , 1,1,1,1,1,0,0)
The second feature
<ラベル付与(1)>
また、ラベル付与部25は、第2の特徴ベクトル生成部22により生成した特徴ベクトルriに対して、以下に示す第1の条件のみを満たす場合には、迷惑メールであることを示すラベルS(Spam)を付与し、以下に示す第2の条件を満たす場合には、正常メールであることを示すラベルH(Ham)を付与する。
Also, the
このような構成によれば、迷惑メール判定装置1は、k1とk2を任意に設定することにより(例えば、k1=0.001、k2=0)、正常なメールをスパムメールであると誤って判定されることがなくなる。
According to such a configuration, the junk
<ラベル付与(2)>
また、ラベル付与部25は、第2の特徴ベクトル生成部22により生成された特徴ベクトルriをメールログデータ又は電子メールのヘッダ情報を解析した結果に含まれている情報に基づいて第1の特徴ベクトルsiと第2の特徴ベクトルtiに分割し、以下の手順によって特徴ベクトルriに対してラベルS又はラベルHを付与しても良い。
ri=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12)
si=(xi1,xi2,xi3,xi4,xi5,xi6)
ti=(xi7,xi8,xi9,xi10,xi11,xi12)
<Labeling (2)>
The
r i = (x i1 , x i2 , x i3 , x i4 , x i5 , x i6 , x i7 , x i8 , x i9 , x i10 , x i11 , x i12 )
si = (x i1 , x i2 , x i3 , x i4 , x i5 , x i6 )
ti = (x i7 , x i8 , x i9 , x i10 , x i11 , x i12 )
ラベル付与部25は、以下に示す第3の条件を満たす場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、第3の条件を満たさないが、以下に示す第4の条件を満たす場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与する。
When the third condition shown below is satisfied, the
また、ラベル付与部25は、第3の条件及び第4の条件を満たさない場合には、以下の手順によって特徴ベクトルriに対して第1のラベルs1から第6のラベルn2のいずれかを付与する。
ラベル付与部25は、以下に示す第5の条件を満たす場合には、第1の特徴ベクトルsiに対して第1のラベルs1を付与し、第5の条件を満たさないが、以下に示す第6の条件を満たす場合には、第1の特徴ベクトルsiに対して第2のラベルh1を付与し、第5の条件及び第6の条件を満たさない場合には、第1の特徴ベクトルsiに対して第3のラベルn1を付与する。また、ラベル付与部25は、以下に示す第7の条件を満たす場合には、第2の特徴ベクトルtiに対して第4のラベルs2を付与し、第7の条件を満たさないが、以下に示す第8の条件を満たす場合には、第2の特徴ベクトルtiに対して第5のラベルh2を付与し、第7の条件及び第8の条件を満たさない場合には、第2の特徴ベクトルtiに対して第6のラベルn2を付与する。
In addition, when the third condition and the fourth condition are not satisfied, the
When the fifth condition shown below is satisfied, the
そして、ラベル付与部25は、第1の特徴ベクトルsiと第2の特徴ベクトルtiに付与されているラベルの組み合わせが、第1のラベルs1と第4のラベルs2の組み合わせ、第1のラベルs1と第6のラベルn2の組み合わせ、又は第3のラベルn1と第4のラベルs2の組み合わせの場合には、特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与する。また、ラベル付与部25は、第1の特徴ベクトルsiと第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、特徴ベクトルriに対して正常メールであることを示すラベルHを付与する。
このような構成によれば、迷惑メール判定装置1は、kr1、kr2、ks1、ks2、kt1及びkt2を任意に設定することにより(例えば、kr1=ks1=kt1=0.001、kr2=ks2=kt2=0)、受信する全てのメールについて、スパムメールであるか又は正常なメールであるかの判定を行い、正常なメールをスパムメールであると誤って判定することがない。
According to such a configuration, the spam
また、作成部26は、ラベル付与部25により特徴ベクトルに対して付与されたラベルに基づいて、分類器を作成する。迷惑メール判定装置1は、このように作成された分類器を用いて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかの判定を行うことができる。また、迷惑メール判定装置1は、判定した結果をラベル付与部25にフィードバックして、分類器を更新することによって、メールログデータ又は電子メールの受信数の増加に応じた学習効果が期待できる。
The creating
<スパム判定方法>
つぎに、受信した電子メールがスパムメールか否かを判定する方法について図4に示すフローチャートを参照しながら説明する。
受信工程ST1において、受信部11は、ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する。
<Spam determination method>
Next, a method for determining whether or not the received electronic mail is a spam mail will be described with reference to the flowchart shown in FIG.
In the receiving step ST1, the receiving
解析工程ST2において、解析部12は、セッションの過程で受信工程ST1により受信したヘッダ情報を解析する。
特徴ベクトル生成工程ST3において、第1の特徴ベクトル生成部13は、解析工程ST2により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する。
In the analysis step ST2, the
In the feature vector generation step ST3, the first feature
分類器作成工程ST4において、分類器作成部14は、予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、特徴ベクトルとラベルとを関連付けて迷惑メールの分類器を生成する。
In the classifier creating step ST4, the
判定工程ST5において、第1の判定部15は、特徴ベクトル生成工程ST3により生成された特徴ベクトルを分類器作成工程ST4により生成された分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する。
制御工程ST6において、制御部16は、判定工程ST5により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように受信部11を制御する。
In the determination step ST5, the
In the control step ST6, when the label given to the feature vector in the determination step ST5 is a junk mail, the
このようにして、迷惑メール判定方法は、電子メールの本文を受信する前に受信するヘッダ情報を解析し、電子メールの特徴を示す特徴ベクトルを生成し、当該特徴ベクトルを所定の方法で作成した分類器に入力することにより電子メールが迷惑メールであるか否かを判定する。 In this way, the junk mail determination method analyzes header information received before receiving the body of the email, generates a feature vector indicating the feature of the email, and creates the feature vector by a predetermined method. It is determined whether or not the e-mail is a junk mail by inputting to the classifier.
よって、迷惑メール判定方法は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。 Therefore, the junk e-mail determination method does not simply allow or reject clients that cannot be reversed based on the header information, or does not allow or reject clients that are presumed not to be mail servers from the reverse name. Since it is not intended to determine whether it is spam mail from the header information using a black list of IP addresses created based on the IP address and to receive the mail body, FP and FN are not subject to existing rules (for example, S25R It is possible to determine whether it is spam mail safely and efficiently without leaking the host information of the communication destination to the outside as in DSNBL.
<実施例>
つぎに、迷惑メール判定装置1を利用したスパムメール判定システム100の構成と動作について説明する。スパムメール判定システム100は、図3に示すように、SMTPサーバ110と、ルール作成部120と、SMTPサーバ130と、スパムメール判定DNSサーバ140とを備える。なお、SMTPサーバ110は、分類器作成部14の収集部21に相当する機能を有する。また、ルール作成部120は、第2の特徴ベクトル生成部22と、第2の判定部23と、比較部24と、ラベル付与部25と、作成部26に相当する機能を有する。また、SMTPサーバ130は、受信部11と、解析部12と、第1の特徴ベクトル生成部13に相当する機能を有する。また、スパムメール判定DNSサーバ140は、第1の判定部15と制御部16に相当する機能を有する。
<Example>
Next, the configuration and operation of the spam
SMTPサーバ110は、メールログ格納部111と、ログ出力部112とを備える。メールログ格納部111は、過去に受信した電子メールや、ネットワーク50を介して他のサーバに蓄積されている電子メールや、メールログデータ(SMTPサーバ上に残される記録データ)等を教師データとして収集し、これらの履歴情報を保持する。ログ出力部112は、メールログ格納部111に格納されている履歴情報を自動的にルール作成部120に出力する。
The
ルール作成部120は、ログ入力部121と、ルール作成部122と、ルール格納部123とを備え、SMTPサーバ110で保存されているメールログデータを解析し、スパムメールの検出のためのルール(上述した分類器に相当する)を自動的に作成する。
The
ログ入力部121は、ログ出力部112から出力されたログに基づいて、ルール作成に必要な情報(ヘッダ情報)を収集し、収集したヘッダ情報をルール作成部122に送信する。ルール作成部122は、ログ入力部121で収集したヘッダ情報を加工してルールを作成する。具体気には、ルール作成部122は、上述した<特徴ベクトルの生成方法>にしたがってルール(分類器)を作成する。ルール格納部123は、ルール作成部122により作成されたルールを格納する。
Based on the log output from the
SMTPサーバ130は、MTA部131と、スパムメール判定エンジン部132とを備え、実際にスパムメールを含むメールを受信し、スパムメール判定を行うサーバである。MTA部131は、ユーザの端末から送信されてきた電子メールを受信して、他のサーバと連携して目的地となるサーバまで配送したり、他のサーバから配送されてきた電子メールをユーザの端末が受信するまで保管したりする機能を有している。
The
スパムメール判定エンジン部132は、国情報取得部133と、IPアドレス逆引き部134と、特徴ベクトル作成部135と、クエリ部136とを備え、スパムメール判定に必要な情報(HELO、IPアドレス、エンベロープFrom、TO等)から特徴ベクトルを生成し、スパムメール判定DNSサーバ140にクエリを行い、その判定結果をもとにスパム判定を行う機能を有している。
The spam mail
国情報取得部133は、IPアドレスと国情報の対応関係が記されているマッピングテーブルを保持しており、当該マッピングテーブルを参照し、電子メールのヘッダ情報に含まれているIPアドレスに基づいて国情報を所得する。国情報取得部133は、取得した国情報と、SMTPサーバ130の置かれている国とが一致するかしないかを判断し、電子メールが自国から送信されたものか否かを判断する。なお、国情報取得部133は、SMTPサーバ130のIPアドレスを事前に登録しておくことにより、SMTPサーバ130が置かれている国の判別を行う。また、特徴ベクトル作成部135は、国情報取得部133により電子メールが自国から来ているか否かによって要素「xi11」の値を決定する。
The country
IPアドレス逆引き部134は、IPアドレスのDNS逆引きを行い、answer section、authority sectionのホスト名を取得する。
The IP address
特徴ベクトル作成部135は、第1の特徴ベクトル生成部13及び第2の特徴ベクトル生成部22と同様の機能を有しており、上述した<特徴ベクトルの生成方法>にしたがって、国情報、IPアドレス逆引き情報、及びHELO、エンベロープFrom、TO等から特徴ベクトル(ri=(xi1,xi2,xi3,xi4,xi5,xi6,xi7,xi8,xi9,xi10,xi11,xi12))を作成する。
The feature
クエリ部136は、特徴ベクトル作成部135によって作成された特徴ベクトルに基づいてクエリを作成する。具体的には、クエリ部136は、スパムメール判定DNSサーバ140のホスト名が「xxx.example.com」であり、特徴ベクトルが「0,0,0,0,0,0,1,1,0,1,0,0」であった場合には、「000000110100.xxx.example.com」をクエリとして作成し、その正引きをスパムメール判定DNSサーバ140に求める。
The
また、クエリ部136は、後述する回答部141からの回答結果(スパムメール(S)又は正常メール(H))に基づいて、スパムメールか否かを判定し、MTA部131に送信する。MTA部131は、クエリ部136から送信された判定結果(スパムメール(S)又は正常メール(H))に基づいて、電子メールの本文を受信するか否かを決定する。具体的には、MTA部131は、クエリ部136から送信された判定結果がスパムメール(S)である場合には、電子メールの本文を受信せずに破棄(ブロック)し、クエリ部136から送信された判定結果が正常メール(H)である場合には、電子メールの本文を受信する。
Further, the
また、スパムメール判定DNSサーバ140は、回答部141と、判定部142とを備える。回答部141は、クエリ部136からクエリ「000000110100.xxx.example.com」を受け取り、受け取ったクエリから特徴ベクトル「000000110100」を抽出し、抽出した特徴ベクトルを判定部142に送信する。また、回答部141は、判定部142による判定結果(スパムメール(S)又は正常メール(H))をクエリ部136に送信する。
The spam mail
判定部142は、特徴ベクトル「000000110100」を受け取り、ルール格納部123に対して必要情報を問い合わせる。具体的には、判定部142は、ルール格納部123に格納されているルール(分類器)に基づいて、回答部141から受け取った特徴ベクトルと同一の特徴ベクトルに対して付与されているラベルがスパムメールを示すラベルSであるか、正常メールを示すラベルHであるかを確認する。
そして、判定部142は、スパムメールを示すラベルSが付与されていると確認した場合には、「127.0.0.1(仮)」を判定結果として回答部141に送信し、一方、正常メールを示すラベルHが付与されていると確認した場合には、「127.0.0.2(仮)」を判定結果として回答部141に送信する。
The
And when the
回答部141は、判定部142から「127.0.0.1(仮)」を受信した場合には、スパムメール(S)である旨の判定結果をクエリ部136に送信し、判定部142から「127.0.0.2(仮)」を受信した場合には、正常メール(H)である旨の判定結果をクエリ部136に送信する。
When the
このようにして、スパムメール判定システム100は、ヘッダ情報に基づいて単に、逆引きできないクライアントを許否したり、逆引き名からメールサーバでないと推定されるクライアントを許否するものでなく、また、単に、ユーザの報告に基づき作成されたIPアドレスのブラックリスト等を利用してヘッダ情報からスパムメールかどうかを判定し、メール本文を受信することを拒否するものでないので、FP及びFNが既存のルール(例えば、S25RやDSNBL等)よりも小さくすることができ、かつDSNBLのように通信先のホスト情報を外部に漏洩することがなく、安全かつ効率的にスパムメールであるか否かを判定することができる。なお、本実施例では、回答部141は、回答の結果をクエリ部136に返信しているが、これに限られず、MTA部131に直接回答の結果を返信しても良い。
In this way, the spam
また、上述で説明した迷惑メール判定装置1及びスパムメール判定システム100による一連の処理は、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。また、当該プログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されても良いし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されても良い。
Moreover, a series of processes by the spam
1 迷惑メール判定装置
11 受信部
12 解析部
13 第1の特徴ベクトル生成部
14 分類器作成部
15 第1の判定部
16 制御部
21 収集部
22 第2の特徴ベクトル生成部
23 第2の判定部
24 比較部
25 ラベル付与部
26 作成部
50 ネットワーク
100 スパムメール判定システム
111 メールログ格納部
112 ログ出力部
110 SMTPサーバ
120 ルール作成部
121 ログ入力部
122 ルール作成部
123 ルール格納部
130 SMTPサーバ
131 MTA部
132 スパムメール判定エンジン部
133 国情報取得部
134 IPアドレス逆引き部
135 特徴ベクトル作成部
136 クエリ部
140 スパムメール判定DNSサーバ
141 回答部
142 判定部
DESCRIPTION OF
Claims (6)
前記セッションの過程で前記受信部により受信した前記ヘッダ情報を解析する解析部と、
前記解析部により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する第1の特徴ベクトル生成部と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成部と、
前記第1の特徴ベクトル生成部により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する第1の判定部と、
前記第1の判定部により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信部を制御する制御部とを備えることを特徴とする迷惑メール判定装置。 A receiving unit that receives an email composed of header information and a body through a series of sessions;
An analysis unit that analyzes the header information received by the reception unit in the course of the session;
A first feature vector generation unit that generates a feature vector indicating a feature of an e-mail based on a result analyzed by the analysis unit;
Collecting a plurality of mail log data or emails as teacher data in advance, generating a feature vector indicating the characteristics of the email log data or email from each email log data or email header information, and sending each email log data or email Based on the header information, it is determined whether or not the mail log data or the e-mail is a junk mail by a predetermined determination method, and indicates whether or not the feature vector is a junk mail based on the result of the determination A classifier creating unit that assigns a label and associates the feature vector with the label to generate a junk mail classifier;
A first determination unit that inputs the feature vector generated by the first feature vector generation unit to the classifier and determines a label given to the feature vector;
A control unit that controls the receiving unit so as not to receive a body of an e-mail corresponding to the feature vector when the label given to the feature vector by the first determination unit is a junk mail. An unsolicited e-mail determination device.
前記教師データとして複数のメールログデータ又は電子メールを収集する収集部と、
前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を解析し、当該解析の結果に基づいて、メールログデータ又は電子メールの特徴を示す特徴ベクトルを生成する第2の特徴ベクトル生成部と、
前記所定の判定方法に基づいて、前記収集部により収集されたメールログデータ又は電子メールのヘッダ情報を参照し、当該メールログデータ又は電子メールが迷惑メールであるか又は正常メールであるかを判定する第2の判定部と、
前記第2の判定部によって判定された結果に基づいて、前記特徴ベクトルごとに迷惑メールと判定された数と正常メールであると判定された数を比較する比較部と、
前記比較部の比較結果に基づいて、前記特徴ベクトルに対して迷惑メールであることを示すラベル又は正常メールであることを示すラベルを付与するラベル付与部と、
前記ラベル付与部により前記特徴ベクトルに対して付与されたラベルに基づいて、受信したメールログデータ又は電子メールのヘッダ情報に基づいて迷惑メールであるか又は正常メールであるかを分類する前記分類器を作成する作成部とを備えることを特徴とする請求項1記載の迷惑メール判定装置。 The classifier creating unit
A collection unit for collecting a plurality of mail log data or emails as the teacher data;
A second feature vector generation unit that analyzes mail log data or email header information collected by the collection unit and generates a feature vector indicating the feature of the mail log data or email based on the analysis result When,
Based on the predetermined determination method, the mail log data or the email header information collected by the collection unit is referred to, and it is determined whether the email log data or the email is a junk mail or a normal mail. A second determination unit that
Based on the result determined by the second determination unit, a comparison unit that compares the number determined to be junk mail and the number determined to be normal mail for each feature vector;
Based on the comparison result of the comparison unit, a label providing unit that provides a label indicating spam mail or a label indicating normal mail to the feature vector;
The classifier for classifying whether the mail is junk mail or normal mail based on the received mail log data or the header information of the e-mail based on the label given to the feature vector by the label giving unit The junk mail determination device according to claim 1, further comprising: a creation unit that creates a message.
第3の条件を満たす場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、
前記第3の条件を満たさないが、第4の条件を満たす場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与し、
前記第3の条件及び前記第4の条件を満たさない場合であって、
第5の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第1のラベルs1を付与し、
前記第5の条件を満たさないが第6の条件を満たす場合には、前記第1の特徴ベクトルsiに対して第2のラベルh1を付与し、
前記第5の条件及び前記第6の条件を満たさない場合には、前記第1の特徴ベクトルsiに対して第3のラベルn1を付与し、
第7の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第4のラベルs2を付与し、
前記第7の条件を満たさないが第8の条件を満たす場合には、前記第2の特徴ベクトルtiに対して第5のラベルh2を付与し、
前記第7の条件及び前記第8の条件を満たさない場合には、前記第2の特徴ベクトルtiに対して第6のラベルn2を付与し、
前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、前記第1のラベルs1と前記第4のラベルs2の組み合わせ、前記第1のラベルs1と前記第6のラベルn2の組み合わせ、又は前記第3のラベルn1と前記第4のラベルs2の組み合わせの場合には、前記特徴ベクトルriに対して迷惑メールであることを示すラベルSを付与し、
前記第1の特徴ベクトルsiと前記第2の特徴ベクトルtiに付与されているラベルの組み合わせが、上記の組み合わせ以外の組み合わせの場合には、前記特徴ベクトルriに対して正常メールであることを示すラベルHを付与することを特徴とする請求項2記載の迷惑メール判定装置。
If the third condition is satisfied, a label S indicating spam is given to the feature vector ri,
If the third condition is not satisfied but the fourth condition is satisfied, a label H indicating normal mail is given to the feature vector ri,
When the third condition and the fourth condition are not satisfied,
If the fifth condition is satisfied, a first label s1 is given to the first feature vector si,
If the fifth condition is not satisfied but the sixth condition is satisfied, a second label h1 is assigned to the first feature vector si,
When the fifth condition and the sixth condition are not satisfied, a third label n1 is given to the first feature vector si,
If the seventh condition is satisfied, a fourth label s2 is assigned to the second feature vector ti,
If the seventh condition is not satisfied but the eighth condition is satisfied, a fifth label h2 is assigned to the second feature vector ti,
If the seventh condition and the eighth condition are not satisfied, a sixth label n2 is assigned to the second feature vector ti,
The combination of the labels assigned to the first feature vector si and the second feature vector ti is a combination of the first label s1 and the fourth label s2, and the first label s1 and the second label. In the case of the combination of the label n2 of 6, or the combination of the third label n1 and the fourth label s2, the label S indicating spam mail is given to the feature vector ri,
If the combination of the labels assigned to the first feature vector si and the second feature vector ti is a combination other than the above combination, it indicates that the feature vector ri is a normal mail. The junk mail determination device according to claim 2, wherein a label H is given.
前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、
前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、
前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、
前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とを備えることを特徴とする迷惑メール判定方法。 A receiving step of receiving an email composed of header information and body text through a series of sessions;
An analysis step of analyzing the header information received by the reception step in the course of the session;
A feature vector generation step of generating a feature vector indicating the feature of the email based on the result analyzed by the analysis step;
Collecting a plurality of mail log data or emails as teacher data in advance, generating a feature vector indicating the characteristics of the email log data or email from each email log data or email header information, and sending each email log data or email Based on the header information, it is determined whether or not the mail log data or the e-mail is a junk mail by a predetermined determination method, and indicates whether or not the feature vector is a junk mail based on the result of the determination A classifier creating step of generating a junk mail classifier by assigning a label and associating the feature vector with the label;
A determination step of inputting the feature vector generated by the feature vector generation step to the classifier and determining a label attached to the feature vector;
And a control step of controlling the receiving step so that the body of the e-mail corresponding to the feature vector is not received when the label given to the feature vector by the determining step is spam. Junk mail determination method.
ヘッダ情報と本文とにより構成される電子メールを一連のセッションを通じて受信する受信工程と、
前記セッションの過程で前記受信工程により受信した前記ヘッダ情報を解析する解析工程と、
前記解析工程により解析された結果に基づいて電子メールの特徴を示す特徴ベクトルを生成する特徴ベクトル生成工程と、
予め教師データとして複数のメールログデータ又は電子メールを収集し、各メールログデータ又は電子メールのヘッダ情報からメールログデータ又は電子メールの特徴を示す特徴ベクトルを生成し、各メールログデータ又は電子メールのヘッダ情報に基づいて所定の判定方法によりメールログデータ又は電子メールが迷惑メールか否かの判定を行い、当該判定の結果に基づいて前記特徴ベクトルに対して迷惑メールであるか否かを示すラベルを付与し、前記特徴ベクトルと前記ラベルとを関連付けて迷惑メールの分類器を生成する分類器作成工程と、
前記特徴ベクトル生成工程により生成された特徴ベクトルを前記分類器に入力し、当該特徴ベクトルに付与されているラベルを判定する判定工程と、
前記判定工程により当該特徴ベクトルに付与されているラベルが迷惑メールの場合には、当該特徴ベクトルに対応する電子メールの本文を受信しないように前記受信工程を制御する制御工程とをコンピュータによって実現するための迷惑メール判定プログラム。 A spam mail determination program for realizing, by a computer, a method for determining whether it is spam mail or normal mail,
A receiving step of receiving an email composed of header information and body text through a series of sessions;
An analysis step of analyzing the header information received by the reception step in the course of the session;
A feature vector generation step of generating a feature vector indicating the feature of the email based on the result analyzed by the analysis step;
Collecting a plurality of mail log data or emails as teacher data in advance, generating a feature vector indicating the characteristics of the email log data or email from each email log data or email header information, and sending each email log data or email Based on the header information, it is determined whether or not the mail log data or the e-mail is a junk mail by a predetermined determination method, and indicates whether or not the feature vector is a junk mail based on the result of the determination A classifier creating step of generating a junk mail classifier by assigning a label and associating the feature vector with the label;
A determination step of inputting the feature vector generated by the feature vector generation step to the classifier and determining a label attached to the feature vector;
When the label attached to the feature vector in the determination step is a junk mail, a control step of controlling the reception step so as not to receive the body of the e-mail corresponding to the feature vector is realized by a computer Junk e-mail judgment program.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009181137A JP2011034417A (en) | 2009-08-04 | 2009-08-04 | Device, method and program for determining junk mail |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009181137A JP2011034417A (en) | 2009-08-04 | 2009-08-04 | Device, method and program for determining junk mail |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2011034417A true JP2011034417A (en) | 2011-02-17 |
Family
ID=43763412
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009181137A Pending JP2011034417A (en) | 2009-08-04 | 2009-08-04 | Device, method and program for determining junk mail |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2011034417A (en) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013182466A (en) * | 2012-03-02 | 2013-09-12 | Kurimoto Ltd | Web search system and web search method |
| JP2016071728A (en) * | 2014-09-30 | 2016-05-09 | Kddi株式会社 | Mail information extraction device, mail determination list creation device, mail information extraction method, mail determination list creation method, and computer program |
| JP2017028666A (en) * | 2015-07-28 | 2017-02-02 | ビッグローブ株式会社 | Transmission email system, transmission email control device, transmission email control method, and program |
| JP2018018343A (en) * | 2016-07-28 | 2018-02-01 | 日本電気株式会社 | Mail information processing device, mail information processing method, and program |
| JP2018151739A (en) * | 2017-03-10 | 2018-09-27 | 日本電気株式会社 | Mail delivery device and Web proxy server |
| WO2019053844A1 (en) * | 2017-09-14 | 2019-03-21 | 三菱電機株式会社 | Email inspection device, email inspection method, and email inspection program |
| JP2019061419A (en) * | 2017-09-26 | 2019-04-18 | 富士ゼロックス株式会社 | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM |
| JP2020166824A (en) * | 2019-03-29 | 2020-10-08 | エーオー カスペルスキー ラボAO Kaspersky Lab | Systems and methods for generating heuristic rules to identify spam emails |
| JP2022133264A (en) * | 2017-05-17 | 2022-09-13 | ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー | Filtering electronic messages |
| WO2025159865A1 (en) * | 2024-01-22 | 2025-07-31 | Salesforce, Inc. | Anomalous query identification using query clustering |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004362559A (en) * | 2003-06-04 | 2004-12-24 | Microsoft Corp | Source and destination characteristics and lists for spam prevention |
-
2009
- 2009-08-04 JP JP2009181137A patent/JP2011034417A/en active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004362559A (en) * | 2003-06-04 | 2004-12-24 | Microsoft Corp | Source and destination characteristics and lists for spam prevention |
Non-Patent Citations (2)
| Title |
|---|
| CSNG200900323006; 澤谷 雪子, 三宅 優: 'SMTPサーバにおけるDATAコマンド受信時でのスパムメール判定に関する検討と大規模データによる評価' 電子情報通信学会技術研究報告 NS2009-31〜NS2009-42 Vol.109, No.102, 20090618, p.61-66, 社団法人電子情報通信学会 * |
| JPN6013011429; 澤谷 雪子, 三宅 優: 'SMTPサーバにおけるDATAコマンド受信時でのスパムメール判定に関する検討と大規模データによる評価' 電子情報通信学会技術研究報告 NS2009-31〜NS2009-42 Vol.109, No.102, 20090618, p.61-66, 社団法人電子情報通信学会 * |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013182466A (en) * | 2012-03-02 | 2013-09-12 | Kurimoto Ltd | Web search system and web search method |
| JP2016071728A (en) * | 2014-09-30 | 2016-05-09 | Kddi株式会社 | Mail information extraction device, mail determination list creation device, mail information extraction method, mail determination list creation method, and computer program |
| JP2017028666A (en) * | 2015-07-28 | 2017-02-02 | ビッグローブ株式会社 | Transmission email system, transmission email control device, transmission email control method, and program |
| JP2018018343A (en) * | 2016-07-28 | 2018-02-01 | 日本電気株式会社 | Mail information processing device, mail information processing method, and program |
| JP2018151739A (en) * | 2017-03-10 | 2018-09-27 | 日本電気株式会社 | Mail delivery device and Web proxy server |
| JP7440565B2 (en) | 2017-05-17 | 2024-02-28 | ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー | Electronic message filtering |
| JP2022133264A (en) * | 2017-05-17 | 2022-09-13 | ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー | Filtering electronic messages |
| JP2024069219A (en) * | 2017-05-17 | 2024-05-21 | ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー | Filtering electronic messages |
| JP7681140B2 (en) | 2017-05-17 | 2025-05-21 | ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー | Electronic message filtering |
| WO2019053844A1 (en) * | 2017-09-14 | 2019-03-21 | 三菱電機株式会社 | Email inspection device, email inspection method, and email inspection program |
| JP2019061419A (en) * | 2017-09-26 | 2019-04-18 | 富士ゼロックス株式会社 | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM |
| JP2020166824A (en) * | 2019-03-29 | 2020-10-08 | エーオー カスペルスキー ラボAO Kaspersky Lab | Systems and methods for generating heuristic rules to identify spam emails |
| WO2025159865A1 (en) * | 2024-01-22 | 2025-07-31 | Salesforce, Inc. | Anomalous query identification using query clustering |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2011034417A (en) | Device, method and program for determining junk mail | |
| US7398315B2 (en) | Reducing unwanted and unsolicited electronic messages by preventing connection hijacking and domain spoofing | |
| EP2446411B1 (en) | Real-time spam look-up system | |
| US7921173B2 (en) | Reducing unwanted and unsolicited electronic messages by exchanging electronic message transmission policies and solving and verifying solutions to computational puzzles | |
| US7529802B2 (en) | Method for performing multiple hierarchically tests to verify identity of sender of an email message and assigning the highest confidence value | |
| US8745143B2 (en) | Delaying inbound and outbound email messages | |
| US7818383B2 (en) | E-mail server | |
| US20110258272A1 (en) | Facilitating transmission of an email of a well behaved sender by extracting email parameters and querying a database | |
| EP2458802A1 (en) | Method and system for intercommunicating between instant message and e-mail | |
| US20060168017A1 (en) | Dynamic spam trap accounts | |
| US7802304B2 (en) | Method and system of providing an integrated reputation service | |
| US20040093382A1 (en) | Method of transmitting an electronic mail message | |
| US8458264B1 (en) | Email proxy server with first respondent binding | |
| US20080235798A1 (en) | Method for filtering junk messages | |
| KR101213935B1 (en) | Reducing unwanted and unsolicited electronic messages | |
| US7627635B1 (en) | Managing self-addressed electronic messages | |
| CN1668040A (en) | Method and apparatus for authenticating electronic mail messages in a communication network | |
| JP5366504B2 (en) | Mail receiving server, spam mail receiving method and program | |
| CN1242349C (en) | E-mail control method, E-mail control device and computer product | |
| CN101742433A (en) | Method and system for sending and receiving e-mails by short message on mobile phone | |
| JP2009118174A (en) | Information processing apparatus, approval method, and program | |
| JP2011130358A (en) | Electronic mail system and unsolicited mail discriminating method in the electronic mail system | |
| JP2011034416A (en) | Device, method and program for classifying electronic mail | |
| JPWO2005101770A1 (en) | Spam mail processing apparatus and method | |
| JP2013171437A (en) | Misrepresentation mail processing device, misrepresentation mail processing method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120229 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120803 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130306 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130702 |