JP2010066980A - Spam blog detection device, spam blog detection method, and program - Google Patents
Spam blog detection device, spam blog detection method, and program Download PDFInfo
- Publication number
- JP2010066980A JP2010066980A JP2008232299A JP2008232299A JP2010066980A JP 2010066980 A JP2010066980 A JP 2010066980A JP 2008232299 A JP2008232299 A JP 2008232299A JP 2008232299 A JP2008232299 A JP 2008232299A JP 2010066980 A JP2010066980 A JP 2010066980A
- Authority
- JP
- Japan
- Prior art keywords
- blog
- spam
- evaluation
- information
- blogs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
【課題】スパムブログを精度良く検知することができるスパムブログ検知装置、スパムブログ検知方法及びプログラムを提供する。
【解決手段】スパムブログ検知装置1は、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、ウェブサイトの評価結果を用いてブログの評価を行うブログ評価手段と、ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段と、を備える。
【選択図】図2A spam blog detection apparatus, a spam blog detection method, and a program capable of accurately detecting a spam blog are provided.
A spam blog detection apparatus 1 includes a link destination evaluation unit that evaluates a website linked from a blog, a blog evaluation unit that evaluates a blog using a website evaluation result, and a blog evaluation. And determining means for determining whether or not the blog is a spam blog.
[Selection] Figure 2
Description
本発明は、スパムブログ検知装置、スパムブログ検知方法及びプログラムに関する。 The present invention relates to a spam blog detection device, a spam blog detection method, and a program.
現在、インターネット上には、アフィリエイトプログラムと呼ばれる広告掲載方法が登場している。アフィリエイトプログラムは、広告媒体主が自身のウェブページやブログ(Weblog)等に広告主の広告を掲載し、この広告をクリックすることで広告主のサイトに接続するようにする手法である。なお、ブログとは、インターネット上で公開される日記などのウェブサイトである。
ところで、インターネット上で情報を掲載するブログの中には、広告主によって恣意的に作成されたスパムブログ(splog:Spam Weblog)が多く存在する。通常、スパムブログでは、無意味なキーワードだけを大量に埋め込む、或いは他のブログやニュース記事から勝手に文章をコピーするなどを行い、記事を作成している。このため、スパムブログは、コンテンツとして無意味なものが多い。
Currently, an advertising method called an affiliate program has appeared on the Internet. The affiliate program is a method in which an advertisement medium owner places an advertiser's advertisement on his / her own web page, blog, etc., and clicks on the advertisement to connect to the advertiser's site. A blog is a website such as a diary published on the Internet.
By the way, among blogs that post information on the Internet, there are many spam blogs (splog: Spam Weblog) arbitrarily created by advertisers. In spam blogs, articles are usually created by embedding only meaningless keywords in large quantities, or by copying sentences from other blogs or news articles without permission. For this reason, many spam blogs are meaningless as content.
非特許文献1では、スパムブログ判定方法として以下の3つの手法を提案している。
(1)アフィリエイトプログラムへのリンクがあるものをスパムブログと判定する手法。
(2)他のウェブサイトからのリンク数からページランクを算出して、ページランクの高いサイトをスパムブログではないと判定する手法。
(3)スパムブログによく登場する単語が頻繁に登場するブログをスパムブログと判定する手法。
(1) A technique for determining a spam blog as a link to an affiliate program.
(2) A method of calculating a page rank from the number of links from other websites and determining that a site with a high page rank is not a spam blog.
(3) A technique for determining a blog in which words frequently appear in a spam blog frequently appear as a spam blog.
しかしながら、一般のブログでもアフィリエイトプログラムへリンクしている場合があるため、非特許文献1に記載の手法(1)のようにリンクの有無を見るだけでは誤検知する可能性がある、という問題がある。
また、スパムブログの中には、自身で作成したブログに対してリンクを張るサイトを多数作成することによりページランクを上げるものもあるため、非特許文献1に記載の手法(2)のように被リンクの数がサイトの価値を決めるとは一概に言えない。
また、非特許文献1に記載の手法(3)では、スパムブログによく登場する単語を外せば検知を回避されてしまう。また、一般のサイトにもそれらの単語が登場することが考えられるため誤検知することが懸念される。
本発明は上記の点に鑑みてなされたものであり、その目的は、スパムブログを精度良く検知することができるスパムブログ検知装置、スパムブログ検知方法及びプログラムを提供することにある。
However, since there is a case where a general blog is linked to an affiliate program, there is a problem that there is a possibility of erroneous detection only by looking at the presence or absence of a link as in the method (1) described in Non-Patent Document 1. is there.
In addition, some spam blogs increase the page rank by creating a number of sites that link to blogs created by themselves, so that the technique (2) described in Non-Patent Document 1 is used. The number of backlinks doesn't mean that the value of a site is determined.
In the method (3) described in Non-Patent Document 1, detection is avoided if a word that frequently appears in a spam blog is removed. Moreover, since it is thought that those words appear also in a general site, we are anxious about false detection.
The present invention has been made in view of the above points, and an object of the present invention is to provide a spam blog detection device, a spam blog detection method, and a program capable of detecting a spam blog with high accuracy.
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、前記ウェブサイトの評価結果を用いて前記ブログの評価を行うブログ評価手段と、前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段と、を備えることを特徴とするスパムブログ検知装置である。 The present invention has been made to solve the above problems, and one aspect of the present invention uses link destination evaluation means for evaluating a website linked from a blog and the evaluation result of the website. A spam blog detection apparatus comprising: a blog evaluation unit that evaluates the blog; and a determination unit that determines whether the blog is a spam blog based on the blog evaluation.
また、本発明の一態様は、上記のスパムブログ検知装置において、複数のブログの情報を取得するブログ情報取得手段と、前記取得したブログの情報から、当該ブログからリンクしているウェブサイトの情報を取得するリンク先情報取得手段と、を備え、前記リンク先評価手段は、ウェブサイトにリンクしているブログの情報から当該ウェブサイトの評価を行う
ことを特徴とする。
Further, according to one aspect of the present invention, in the spam blog detection apparatus, blog information acquisition means for acquiring information on a plurality of blogs, and information on websites linked from the acquired blog information from the acquired blog information Link destination information acquisition means for acquiring the information, wherein the link destination evaluation means evaluates the website from information of a blog linked to the website.
また、本発明の一態様は、上記のスパムブログ検知装置において、前記リンク先情報取得手段は、アフィリエイトプログラムの提供サイトにリンクしているブログ数を、当該アフィリエイトプログラムが発行する識別情報毎に算出し、前記リンク先評価手段は、前記識別情報毎のブログ数を用いて前記提供サイトの評価を行うことを特徴とする。 Further, according to an aspect of the present invention, in the spam blog detection apparatus, the link destination information acquisition unit calculates the number of blogs linked to the affiliate program providing site for each identification information issued by the affiliate program. The link destination evaluation means evaluates the providing site using the number of blogs for each identification information.
また、本発明の一態様は、上記のスパムブログ検知装置において、前記ブログの評価を用いて当該ブログからリンクしているウェブサイトを再評価することを特徴とする。 One embodiment of the present invention is characterized in that, in the spam blog detection apparatus, a website linked from the blog is re-evaluated using the evaluation of the blog.
また、本発明の一態様は、ブログからリンクしているウェブサイトを評価するステップと、前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、を有することを特徴とするスパムブログ検知方法である。 According to another aspect of the present invention, there is provided a step of evaluating a website linked from a blog, a step of evaluating the blog using the evaluation result of the website, and the blog based on the evaluation of the blog. And a step of determining whether or not the message is a spam blog.
また、本発明の一態様は、ブログからリンクしているウェブサイトを評価するステップと、前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、をコンピュータに実行させるためのプログラムである。 According to another aspect of the present invention, there is provided a step of evaluating a website linked from a blog, a step of evaluating the blog using the evaluation result of the website, and the blog based on the evaluation of the blog. Is a program for causing a computer to execute a step of determining whether or not a spam blog.
本発明によれば、ブログからリンクしているウェブサイトの評価結果を用いてブログの評価を行うので、ブログの変化に対応したスパムブログ検出を精度良く行うことができる。 According to the present invention, since the blog is evaluated using the evaluation result of the website linked from the blog, it is possible to accurately detect the spam blog corresponding to the change of the blog.
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態によるスパムブログ検知装置の処理の概念を示した概念図である。
ブログは作成者が自由に作成及び編集をすることができるため、一般の人がアフィリエイトプログラムを利用したり、任意のサイトへリンクをしたりすることができる。また、ブログの内容は頻繁に変化すると想定される。そこで、本発明のスパムブログ検知装置は、内容の変化が比較的少ないアフィリエイトプログラムや広告提供サイトの評価を行い、その評価結果をブログの評価に用いてスパムブログを検出している。
スパムブログ検知装置は、まず、複数のブログのブログ情報を取得する。ブログ情報には、ブログのURL(Uniform Resource Locator)、ブログからのリンク先URL、ブログからのリンク数などが含まれる。次に、スパムブログ検知装置は、そのブログからリンクしているアフィリエイトプログラムの提供サイト又は広告提供サイトを評価する。そして、スパムブログ検知装置は、その評価結果を用いてブログの評価を行い、スパムブログを検知する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a conceptual diagram showing a concept of processing of a spam blog detection apparatus according to an embodiment of the present invention.
Blogs can be created and edited freely by creators, so ordinary people can use affiliate programs and link to arbitrary sites. In addition, the content of the blog is assumed to change frequently. Therefore, the spam blog detection apparatus of the present invention evaluates affiliate programs and advertisement providing sites with relatively little change in content, and detects spam blogs using the evaluation results for blog evaluation.
The spam blog detection apparatus first acquires blog information of a plurality of blogs. The blog information includes a blog URL (Uniform Resource Locator), a link destination URL from the blog, the number of links from the blog, and the like. Next, the spam blog detection device evaluates the affiliate program providing site or the advertisement providing site linked from the blog. And a spam blog detection apparatus evaluates a blog using the evaluation result, and detects a spam blog.
図2は、本実施形態におけるスパムブログ検知装置1の構成を示すブロック図である。
スパムブログ検知装置1は、ブログ情報取得部11と、リンク先情報取得部12と、情報解析部13と、判定部14と、を含んで構成される。
ブログ情報取得部11は、アプリケーションサービスプロバイダが配信を行っているRSS(Rich Site Summary)や新着ブログ情報などのブログ記事の情報を利用して、複数のブログのブログ情報を取得する。
FIG. 2 is a block diagram showing a configuration of the spam blog detection apparatus 1 in the present embodiment.
The spam blog detection apparatus 1 includes a blog
The blog
リンク先情報取得部12は、取得したブログ情報からリンクしているサイト(リンク先)の情報を取得する。具体的には、リンク先情報取得部12は、リンク先がアフィリエイトプログラムの提供サイトである場合には、その提供サイトが発行するID(識別情報)毎に、そのIDを用いて提供サイトにリンクしているブログ数(リンク元ブログ数)を算出する。なお、IDはブログ情報取得部11で取得したブログ情報に含まれている。図1に示すブログA〜Iのブログ情報をブログ情報取得部11が取得した場合を例に説明する。アフィリエイトプログラムの提供サイトを参照しているブログは、A,B,C,D,E,Hである。ブログA,B及びCのIDが全て「a」、ブログDのIDが「d」,ブログE及びHのIDが「e」だった場合には、ID「a」のリンク元ブログ数は3になる。また、ID「d」のリンク元ブログ数は1になる。また、ID「e」のリンク元ブログ数は2になる。
なお、リンク先が広告提供サイトである場合にも同様の処理を行う。
The link destination
The same processing is performed when the link destination is an advertisement providing site.
情報解析部13は、ブログ情報取得部11及びリンク先情報取得部12が取得した情報に基づいてブログの評価、つまりスコアリング(点数付け)を行う。スコア(点数)が高いほどスパムブログである可能性が高くなる。
判定部14は、情報解析部13の評価結果に基づいてブログ情報取得部11で取得したブログ情報に係るブログがスパムブログか否かの判定を行う。具体的には、判定部14は、予め設定された所定の閾値よりスコアが高いブログをスパムブログと判定する。
The
The
次に、上述した本実施形態のスパムブログ検知装置1の動作を説明する。図3は、本実施形態におけるスパムブログ検知装置1の動作の手順を示すフローチャートである。
まず、ステップS1では、ブログ情報取得部11が、複数のブログのブログ情報を取得する。この時、ブログ情報取得部11は、アプリケーションサービスプロバイダが提供しているRSSや新着ブログ情報などから複数のブログを抽出し、抽出したブログのブログ情報を取得する。
次に、ステップS2では、リンク先情報取得部12が、ステップS1で抽出したブログのリンク先の情報を取得する。
次に、ステップS3では、情報解析部13が、ステップS1及びステップS2で取得した情報に基づいて各ブログのスコアリングを行う。情報解析部13の処理の詳細については後述する。
次に、ステップS4では、判定部14が、各ブログがスパムブログであるか否かの判定を行う。具体的には、判定部14は、スコアが所定の閾値より高いブログをスパムブログであると判定する。
Next, the operation of the above-described spam blog detection apparatus 1 according to the present embodiment will be described. FIG. 3 is a flowchart showing an operation procedure of the spam blog detection apparatus 1 according to the present embodiment.
First, in step S1, the blog
Next, in step S2, the link destination
Next, in step S3, the
Next, in step S4, the
図4は、本実施形態における情報解析部13の動作の手順を示すフローチャートである。
まず、ステップS11では、情報解析部13は、上述したステップS1で抽出した各ブログの評価を行う。各ブログのスコアscorebpreは、例えば次の式(1)で算出される。ただし、αiは特徴量であり、w1iは各特徴量の重みである。重みw1iは予め設定された値である。また、nは特徴量の数である。特徴量には、ブログからのリンク数(α1)、リンク先の種類(α2)、記事の投稿時間(α3)、投稿頻度(α4)などがある。式(1)は、各特徴量のスコアを加算した式になっている。
FIG. 4 is a flowchart showing an operation procedure of the
First, in step S11, the
ここで、リンク数は多いほどスコアが高くなる。また、リンク先の種類はブログからリンクしているサイトのスコアを全て加算した値である。ここで、各サイトには予めスコアが設定されている。例えば、一般的に有名なサイトのスコアは低く設定されおり、アフィリエイトサイトのスコアは高く設定されている。なお、設定されていないサイトがリンクされている場合には、標準または標準より少し高いスコアにする。
また、記事の投稿時間のスコアは投稿時間の分布に基づいて決定される。例えば、毎日同じ時刻に投稿している場合にスコアを高くする。これは、プログラムにより自動的に記事を作成していると想定されるためである。また、投稿時間のばらつきが非常に大きい場合にスコアが高くする。これは、生活時間帯が特定できない場合にはスパムブログである可能性が大きいと想定されるためである。また、投稿頻度は低いほどスコアが高くなる。
Here, the score increases as the number of links increases. The type of link destination is a value obtained by adding all the scores of sites linked from the blog. Here, a score is set in advance for each site. For example, the score of a generally famous site is set low, and the score of an affiliate site is set high. If a site that has not been set is linked, the score is set to a standard or slightly higher than the standard.
The score of the posting time of the article is determined based on the distribution of the posting time. For example, if the posting is made at the same time every day, the score is increased. This is because it is assumed that articles are automatically created by the program. Also, the score is increased when the posting time variation is very large. This is because it is assumed that there is a high possibility of being a spam blog when the life time zone cannot be specified. Also, the lower the posting frequency, the higher the score.
次に、ステップS12では、情報解析部13は、各ブログからリンクしているアフィリエイトプログラム及び広告提供サイトを全て評価する。各アフィリエイトプログラムのスコアscoreaは、例えば次の式(2)で算出される。ただし、βiは特徴量であり、w2iは各特徴量の重みである。また、lは特徴量の数である。また、scorebpre,iはアフィリエイトプログラムを利用しているブログのスコアであり、mはアフィリエイトプログラムを利用しているブログの数である。また、wscoreはブログのスコアに対する重みである。式(2)は、各特徴量とブログのスコアを加算した式になっている。
Next, in step S12, the
特徴量には、アフィリエイトプログラムが発行するID毎のリンク元ブログ数(β1)などがある。例えば、1つのIDで多数のブログからリンクしている場合にはスコアが高くなる。また、特徴量にアフィリエイトプログラムが提供しているサービス(β2)などを用いてもよい。例えば、販売商品(例えば、本、衣類、食品など)毎に異なるスコアを設定する。なお、広告提供サイトの評価も同様に行う。 The feature amount includes the number of link source blogs (β 1 ) for each ID issued by the affiliate program. For example, when links are made from many blogs with one ID, the score is high. Further, the service (β 2 ) provided by the affiliate program may be used as the feature amount. For example, a different score is set for each sale product (for example, book, clothing, food). The evaluation of the advertisement providing site is performed in the same way.
次に、ステップS13では、情報解析部13は、ステップS12で算出したアフィリエイトプログラム及び広告提供サイトのスコアから各ブログを再評価する。各ブログのスコアscorebは、例えば次の式(3)で算出される。ただし、scorea,iはブログからリンクしているアフィリエイトプログラム又は広告提供サイトのスコアであり、wscorea,iは各アフィリエイトプログラム又は広告提供サイトの重みである。また、kはブログからリンクしているアフィリエイトプログラム及び広告提供サイトの数である。式(3)は、各特徴量とアフィリエイトプログラム及び広告提供サイトのスコアを加算した式になっている。
Next, in step S13, the
ここで、各アフィリエイトプログラム及び広告提供サイトの重みwscorea,iは予め設定されている。例えば、一般的に有名なアフィリエイトプログラムの重みwscorea,iは比較的軽く設定されている。なお、重みが設定されていないアフィリエイトプログラムの重みwscorea,iは予め設定された所定の値にする。 Here, the weight w score, i of each affiliate program and the advertisement providing site is set in advance. For example, the weight w score, i of a generally famous affiliate program is set relatively light. Note that the weight w score, i of an affiliate program for which no weight is set is set to a predetermined value set in advance.
次に、ステップS14では、情報解析部13は、ステップS13で算出したブログのスコアをアフィリエイトプログラム及び広告提供サイトの評価にフィードバックする。つまり、ステップS13で算出したスコアを用いてアフィリエイトプログラム及び広告提供サイトを再評価する。アフィリエイトプログラムのスコアscoreafeedbackは、例えば次の式(4)で算出される。ただし、scoreb,iはアフィリエイトプログラムを利用しているブログのスコアであり、wscorebはブログのスコアに対する重みである。式(4)は、各特徴量とブログのスコアを加算した式になっている。なお、広告提供サイトの再評価も同様に行う。
Next, in step S14, the
そして、ステップS15では、情報解析部13は、ステップS14で算出したアフィリエイトプログラム及び広告提供サイトのスコアを用いて上述した式(3)により各ブログを再評価して処理を終了する。
In step S15, the
このように、本実施形態によれば、ブログの評価に内容の変化が比較的少ないアフィリエイトプログラムの評価を用いている。よって、ブログの状況変化に対応したより精度の良いスパムブログ判定を行うことができる。 As described above, according to the present embodiment, the evaluation of the affiliate program with relatively little change in content is used for the evaluation of the blog. Therefore, it is possible to perform spam blog determination with higher accuracy corresponding to the blog situation change.
また、図2に示すスパムブログ検知装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、スパムブログ検知処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
Further, by recording a program for realizing the function of the spam blog detection device shown in FIG. 2 on a computer-readable recording medium, causing the computer system to read and execute the program recorded on the recording medium, Spam blog detection processing may be performed. Here, the “computer system” may include an OS and hardware such as peripheral devices.
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time.
The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。 As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the scope of the present invention. It is possible to
1…スパムブログ検知装置 11…ブログ情報取得部 12…リンク先情報取得部 13…情報解析部 14…判定部
DESCRIPTION OF SYMBOLS 1 ... Spam
Claims (6)
前記ウェブサイトの評価結果を用いて前記ブログの評価を行うブログ評価手段と、
前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段と、
を備えることを特徴とするスパムブログ検知装置。 Link destination evaluation means for evaluating websites linked from blogs,
A blog evaluation means for evaluating the blog using the evaluation result of the website;
Determining means for determining whether the blog is a spam blog based on the evaluation of the blog;
A spam blog detection device comprising:
前記取得したブログの情報から、当該ブログからリンクしているウェブサイトの情報を取得するリンク先情報取得手段と、
を備え、
前記リンク先評価手段は、ウェブサイトにリンクしているブログの情報から当該ウェブサイトの評価を行う
ことを特徴とする請求項1に記載のスパムブログ検知装置。 Blog information acquisition means for acquiring information of a plurality of blogs;
From the acquired blog information, link destination information acquisition means for acquiring website information linked from the blog,
With
The spam blog detection apparatus according to claim 1, wherein the link destination evaluation unit evaluates the website from information of a blog linked to the website.
前記リンク先評価手段は、前記識別情報毎のブログ数を用いて前記提供サイトの評価を行う
ことを特徴とする請求項2に記載のスパムブログ検知装置。 The link destination information acquisition means calculates the number of blogs linked to the affiliate program providing site for each identification information issued by the affiliate program,
The spam blog detection device according to claim 2, wherein the link destination evaluation unit evaluates the provided site using the number of blogs for each identification information.
前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、
前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、
を有することを特徴とするスパムブログ検知方法。 Evaluating websites linked from your blog;
Performing an evaluation of the blog using an evaluation result of the website;
Determining whether the blog is a spam blog based on the evaluation of the blog;
A spam blog detection method characterized by comprising:
前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、
前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、
をコンピュータに実行させるためのプログラム。 Evaluating websites linked from your blog;
Performing an evaluation of the blog using an evaluation result of the website;
Determining whether the blog is a spam blog based on the evaluation of the blog;
A program that causes a computer to execute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008232299A JP2010066980A (en) | 2008-09-10 | 2008-09-10 | Spam blog detection device, spam blog detection method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008232299A JP2010066980A (en) | 2008-09-10 | 2008-09-10 | Spam blog detection device, spam blog detection method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2010066980A true JP2010066980A (en) | 2010-03-25 |
Family
ID=42192520
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008232299A Pending JP2010066980A (en) | 2008-09-10 | 2008-09-10 | Spam blog detection device, spam blog detection method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2010066980A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011215891A (en) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | Spam blog extraction apparatus and method |
| JP2015146188A (en) * | 2010-10-20 | 2015-08-13 | マカフィー, インコーポレイテッド | Method and system for protecting against unknown malicious activity by determining link ratings |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007272333A (en) * | 2006-03-30 | 2007-10-18 | Fujitsu Ltd | Web page classification program, web page classification device, and web page classification method |
| JP2009157553A (en) * | 2007-12-26 | 2009-07-16 | Fujitsu Ltd | Attribute extraction processing method and apparatus |
| JP2010049473A (en) * | 2008-08-21 | 2010-03-04 | Nec Biglobe Ltd | Link information extraction device, link information extraction method, and program |
-
2008
- 2008-09-10 JP JP2008232299A patent/JP2010066980A/en active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007272333A (en) * | 2006-03-30 | 2007-10-18 | Fujitsu Ltd | Web page classification program, web page classification device, and web page classification method |
| JP2009157553A (en) * | 2007-12-26 | 2009-07-16 | Fujitsu Ltd | Attribute extraction processing method and apparatus |
| JP2010049473A (en) * | 2008-08-21 | 2010-03-04 | Nec Biglobe Ltd | Link information extraction device, link information extraction method, and program |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011215891A (en) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | Spam blog extraction apparatus and method |
| JP2015146188A (en) * | 2010-10-20 | 2015-08-13 | マカフィー, インコーポレイテッド | Method and system for protecting against unknown malicious activity by determining link ratings |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8060497B1 (en) | Framework for evaluating web search scoring functions | |
| JP6640943B2 (en) | Providing content to users across multiple devices | |
| Nelson et al. | The myth of partisan selective exposure: A portrait of the online political news audience | |
| JP6233900B2 (en) | Redirect reduction | |
| Kliman-Silver et al. | Location, location, location: The impact of geolocation on web search personalization | |
| US10134058B2 (en) | Methods and apparatus for identifying unique users for on-line advertising | |
| KR101769058B1 (en) | Hashtags and content presentation | |
| CN108090111B (en) | Animated excerpts for search results | |
| JP4764864B2 (en) | Information propagation extracting apparatus and information propagation extracting method | |
| US9183259B1 (en) | Selecting content based on social significance | |
| JP6001084B2 (en) | Redirect reduction | |
| US9342854B2 (en) | Identifying communities within a social network based on information propagation data | |
| US20100094860A1 (en) | Indexing online advertisements | |
| US20080222119A1 (en) | Detecting a user's location, local intent and travel intent from search queries | |
| US20150220499A1 (en) | Generating preview data for online content | |
| KR20120088736A (en) | Correlating web page visits and conversions with external references | |
| US20090037521A1 (en) | System and method for identifying compatibility between users from identifying information on web pages | |
| US7603352B1 (en) | Advertisement selection in an electronic application system | |
| TWI444840B (en) | Opportunity identification and forecasting for search engine optimization | |
| BR112013021055A2 (en) | targeting cognitive relevance in a social network system | |
| JP5882454B2 (en) | Identify languages that are missing from the campaign | |
| US20250200609A1 (en) | Combining content with a search result | |
| US7962523B2 (en) | System and method for detecting templates of a website using hyperlink analysis | |
| TWI352934B (en) | Advertisement selection systems and methods for in | |
| US8977948B1 (en) | System, method, and computer program for determining information associated with an extracted portion of content |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110131 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110201 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120730 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121204 |