[go: up one dir, main page]

JP2010066980A - スパムブログ検知装置、スパムブログ検知方法及びプログラム - Google Patents

スパムブログ検知装置、スパムブログ検知方法及びプログラム Download PDF

Info

Publication number
JP2010066980A
JP2010066980A JP2008232299A JP2008232299A JP2010066980A JP 2010066980 A JP2010066980 A JP 2010066980A JP 2008232299 A JP2008232299 A JP 2008232299A JP 2008232299 A JP2008232299 A JP 2008232299A JP 2010066980 A JP2010066980 A JP 2010066980A
Authority
JP
Japan
Prior art keywords
blog
spam
evaluation
information
blogs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008232299A
Other languages
English (en)
Inventor
Masanori Hara
正憲 原
Akira Yamada
山田  明
Masaru Miyake
優 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008232299A priority Critical patent/JP2010066980A/ja
Publication of JP2010066980A publication Critical patent/JP2010066980A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

【課題】スパムブログを精度良く検知することができるスパムブログ検知装置、スパムブログ検知方法及びプログラムを提供する。
【解決手段】スパムブログ検知装置1は、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、ウェブサイトの評価結果を用いてブログの評価を行うブログ評価手段と、ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段と、を備える。
【選択図】図2

Description

本発明は、スパムブログ検知装置、スパムブログ検知方法及びプログラムに関する。
現在、インターネット上には、アフィリエイトプログラムと呼ばれる広告掲載方法が登場している。アフィリエイトプログラムは、広告媒体主が自身のウェブページやブログ(Weblog)等に広告主の広告を掲載し、この広告をクリックすることで広告主のサイトに接続するようにする手法である。なお、ブログとは、インターネット上で公開される日記などのウェブサイトである。
ところで、インターネット上で情報を掲載するブログの中には、広告主によって恣意的に作成されたスパムブログ(splog:Spam Weblog)が多く存在する。通常、スパムブログでは、無意味なキーワードだけを大量に埋め込む、或いは他のブログやニュース記事から勝手に文章をコピーするなどを行い、記事を作成している。このため、スパムブログは、コンテンツとして無意味なものが多い。
非特許文献1では、スパムブログ判定方法として以下の3つの手法を提案している。
(1)アフィリエイトプログラムへのリンクがあるものをスパムブログと判定する手法。
(2)他のウェブサイトからのリンク数からページランクを算出して、ページランクの高いサイトをスパムブログではないと判定する手法。
(3)スパムブログによく登場する単語が頻繁に登場するブログをスパムブログと判定する手法。
Yu-Ru Lin,Sundaram, H.,Yun Chi,Tatemura, J.,Tseng, B. , "Splog Detection using Content, Time and Link Structures", Multimedia and Expo, 2007 IEEE International Conference on
しかしながら、一般のブログでもアフィリエイトプログラムへリンクしている場合があるため、非特許文献1に記載の手法(1)のようにリンクの有無を見るだけでは誤検知する可能性がある、という問題がある。
また、スパムブログの中には、自身で作成したブログに対してリンクを張るサイトを多数作成することによりページランクを上げるものもあるため、非特許文献1に記載の手法(2)のように被リンクの数がサイトの価値を決めるとは一概に言えない。
また、非特許文献1に記載の手法(3)では、スパムブログによく登場する単語を外せば検知を回避されてしまう。また、一般のサイトにもそれらの単語が登場することが考えられるため誤検知することが懸念される。
本発明は上記の点に鑑みてなされたものであり、その目的は、スパムブログを精度良く検知することができるスパムブログ検知装置、スパムブログ検知方法及びプログラムを提供することにある。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、前記ウェブサイトの評価結果を用いて前記ブログの評価を行うブログ評価手段と、前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段と、を備えることを特徴とするスパムブログ検知装置である。
また、本発明の一態様は、上記のスパムブログ検知装置において、複数のブログの情報を取得するブログ情報取得手段と、前記取得したブログの情報から、当該ブログからリンクしているウェブサイトの情報を取得するリンク先情報取得手段と、を備え、前記リンク先評価手段は、ウェブサイトにリンクしているブログの情報から当該ウェブサイトの評価を行う
ことを特徴とする。
また、本発明の一態様は、上記のスパムブログ検知装置において、前記リンク先情報取得手段は、アフィリエイトプログラムの提供サイトにリンクしているブログ数を、当該アフィリエイトプログラムが発行する識別情報毎に算出し、前記リンク先評価手段は、前記識別情報毎のブログ数を用いて前記提供サイトの評価を行うことを特徴とする。
また、本発明の一態様は、上記のスパムブログ検知装置において、前記ブログの評価を用いて当該ブログからリンクしているウェブサイトを再評価することを特徴とする。
また、本発明の一態様は、ブログからリンクしているウェブサイトを評価するステップと、前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、を有することを特徴とするスパムブログ検知方法である。
また、本発明の一態様は、ブログからリンクしているウェブサイトを評価するステップと、前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、をコンピュータに実行させるためのプログラムである。
本発明によれば、ブログからリンクしているウェブサイトの評価結果を用いてブログの評価を行うので、ブログの変化に対応したスパムブログ検出を精度良く行うことができる。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態によるスパムブログ検知装置の処理の概念を示した概念図である。
ブログは作成者が自由に作成及び編集をすることができるため、一般の人がアフィリエイトプログラムを利用したり、任意のサイトへリンクをしたりすることができる。また、ブログの内容は頻繁に変化すると想定される。そこで、本発明のスパムブログ検知装置は、内容の変化が比較的少ないアフィリエイトプログラムや広告提供サイトの評価を行い、その評価結果をブログの評価に用いてスパムブログを検出している。
スパムブログ検知装置は、まず、複数のブログのブログ情報を取得する。ブログ情報には、ブログのURL(Uniform Resource Locator)、ブログからのリンク先URL、ブログからのリンク数などが含まれる。次に、スパムブログ検知装置は、そのブログからリンクしているアフィリエイトプログラムの提供サイト又は広告提供サイトを評価する。そして、スパムブログ検知装置は、その評価結果を用いてブログの評価を行い、スパムブログを検知する。
図2は、本実施形態におけるスパムブログ検知装置1の構成を示すブロック図である。
スパムブログ検知装置1は、ブログ情報取得部11と、リンク先情報取得部12と、情報解析部13と、判定部14と、を含んで構成される。
ブログ情報取得部11は、アプリケーションサービスプロバイダが配信を行っているRSS(Rich Site Summary)や新着ブログ情報などのブログ記事の情報を利用して、複数のブログのブログ情報を取得する。
リンク先情報取得部12は、取得したブログ情報からリンクしているサイト(リンク先)の情報を取得する。具体的には、リンク先情報取得部12は、リンク先がアフィリエイトプログラムの提供サイトである場合には、その提供サイトが発行するID(識別情報)毎に、そのIDを用いて提供サイトにリンクしているブログ数(リンク元ブログ数)を算出する。なお、IDはブログ情報取得部11で取得したブログ情報に含まれている。図1に示すブログA〜Iのブログ情報をブログ情報取得部11が取得した場合を例に説明する。アフィリエイトプログラムの提供サイトを参照しているブログは、A,B,C,D,E,Hである。ブログA,B及びCのIDが全て「a」、ブログDのIDが「d」,ブログE及びHのIDが「e」だった場合には、ID「a」のリンク元ブログ数は3になる。また、ID「d」のリンク元ブログ数は1になる。また、ID「e」のリンク元ブログ数は2になる。
なお、リンク先が広告提供サイトである場合にも同様の処理を行う。
情報解析部13は、ブログ情報取得部11及びリンク先情報取得部12が取得した情報に基づいてブログの評価、つまりスコアリング(点数付け)を行う。スコア(点数)が高いほどスパムブログである可能性が高くなる。
判定部14は、情報解析部13の評価結果に基づいてブログ情報取得部11で取得したブログ情報に係るブログがスパムブログか否かの判定を行う。具体的には、判定部14は、予め設定された所定の閾値よりスコアが高いブログをスパムブログと判定する。
次に、上述した本実施形態のスパムブログ検知装置1の動作を説明する。図3は、本実施形態におけるスパムブログ検知装置1の動作の手順を示すフローチャートである。
まず、ステップS1では、ブログ情報取得部11が、複数のブログのブログ情報を取得する。この時、ブログ情報取得部11は、アプリケーションサービスプロバイダが提供しているRSSや新着ブログ情報などから複数のブログを抽出し、抽出したブログのブログ情報を取得する。
次に、ステップS2では、リンク先情報取得部12が、ステップS1で抽出したブログのリンク先の情報を取得する。
次に、ステップS3では、情報解析部13が、ステップS1及びステップS2で取得した情報に基づいて各ブログのスコアリングを行う。情報解析部13の処理の詳細については後述する。
次に、ステップS4では、判定部14が、各ブログがスパムブログであるか否かの判定を行う。具体的には、判定部14は、スコアが所定の閾値より高いブログをスパムブログであると判定する。
図4は、本実施形態における情報解析部13の動作の手順を示すフローチャートである。
まず、ステップS11では、情報解析部13は、上述したステップS1で抽出した各ブログの評価を行う。各ブログのスコアscorebpreは、例えば次の式(1)で算出される。ただし、αは特徴量であり、w1は各特徴量の重みである。重みw1は予め設定された値である。また、nは特徴量の数である。特徴量には、ブログからのリンク数(α)、リンク先の種類(α)、記事の投稿時間(α)、投稿頻度(α)などがある。式(1)は、各特徴量のスコアを加算した式になっている。
Figure 2010066980
ここで、リンク数は多いほどスコアが高くなる。また、リンク先の種類はブログからリンクしているサイトのスコアを全て加算した値である。ここで、各サイトには予めスコアが設定されている。例えば、一般的に有名なサイトのスコアは低く設定されおり、アフィリエイトサイトのスコアは高く設定されている。なお、設定されていないサイトがリンクされている場合には、標準または標準より少し高いスコアにする。
また、記事の投稿時間のスコアは投稿時間の分布に基づいて決定される。例えば、毎日同じ時刻に投稿している場合にスコアを高くする。これは、プログラムにより自動的に記事を作成していると想定されるためである。また、投稿時間のばらつきが非常に大きい場合にスコアが高くする。これは、生活時間帯が特定できない場合にはスパムブログである可能性が大きいと想定されるためである。また、投稿頻度は低いほどスコアが高くなる。
次に、ステップS12では、情報解析部13は、各ブログからリンクしているアフィリエイトプログラム及び広告提供サイトを全て評価する。各アフィリエイトプログラムのスコアscoreは、例えば次の式(2)で算出される。ただし、βは特徴量であり、w2は各特徴量の重みである。また、lは特徴量の数である。また、scorebpre,iはアフィリエイトプログラムを利用しているブログのスコアであり、mはアフィリエイトプログラムを利用しているブログの数である。また、wscoreはブログのスコアに対する重みである。式(2)は、各特徴量とブログのスコアを加算した式になっている。
Figure 2010066980
特徴量には、アフィリエイトプログラムが発行するID毎のリンク元ブログ数(β)などがある。例えば、1つのIDで多数のブログからリンクしている場合にはスコアが高くなる。また、特徴量にアフィリエイトプログラムが提供しているサービス(β)などを用いてもよい。例えば、販売商品(例えば、本、衣類、食品など)毎に異なるスコアを設定する。なお、広告提供サイトの評価も同様に行う。
次に、ステップS13では、情報解析部13は、ステップS12で算出したアフィリエイトプログラム及び広告提供サイトのスコアから各ブログを再評価する。各ブログのスコアscoreは、例えば次の式(3)で算出される。ただし、scorea,iはブログからリンクしているアフィリエイトプログラム又は広告提供サイトのスコアであり、wscorea,iは各アフィリエイトプログラム又は広告提供サイトの重みである。また、kはブログからリンクしているアフィリエイトプログラム及び広告提供サイトの数である。式(3)は、各特徴量とアフィリエイトプログラム及び広告提供サイトのスコアを加算した式になっている。
Figure 2010066980
ここで、各アフィリエイトプログラム及び広告提供サイトの重みwscorea,iは予め設定されている。例えば、一般的に有名なアフィリエイトプログラムの重みwscorea,iは比較的軽く設定されている。なお、重みが設定されていないアフィリエイトプログラムの重みwscorea,iは予め設定された所定の値にする。
次に、ステップS14では、情報解析部13は、ステップS13で算出したブログのスコアをアフィリエイトプログラム及び広告提供サイトの評価にフィードバックする。つまり、ステップS13で算出したスコアを用いてアフィリエイトプログラム及び広告提供サイトを再評価する。アフィリエイトプログラムのスコアscoreafeedbackは、例えば次の式(4)で算出される。ただし、scoreb,iはアフィリエイトプログラムを利用しているブログのスコアであり、wscorebはブログのスコアに対する重みである。式(4)は、各特徴量とブログのスコアを加算した式になっている。なお、広告提供サイトの再評価も同様に行う。
Figure 2010066980
そして、ステップS15では、情報解析部13は、ステップS14で算出したアフィリエイトプログラム及び広告提供サイトのスコアを用いて上述した式(3)により各ブログを再評価して処理を終了する。
このように、本実施形態によれば、ブログの評価に内容の変化が比較的少ないアフィリエイトプログラムの評価を用いている。よって、ブログの状況変化に対応したより精度の良いスパムブログ判定を行うことができる。
また、図2に示すスパムブログ検知装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、スパムブログ検知処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
本発明の一実施形態によるスパムブログ検知装置の処理の概念を示した概念図である。 本実施形態におけるスパムブログ検知装置の構成を示すブロック図である。 本実施形態におけるスパムブログ検知装置の動作の手順を示すフローチャートである。 本実施形態における情報解析部の動作の手順を示すフローチャートである。
符号の説明
1…スパムブログ検知装置 11…ブログ情報取得部 12…リンク先情報取得部 13…情報解析部 14…判定部

Claims (6)

  1. ブログからリンクしているウェブサイトを評価するリンク先評価手段と、
    前記ウェブサイトの評価結果を用いて前記ブログの評価を行うブログ評価手段と、
    前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段と、
    を備えることを特徴とするスパムブログ検知装置。
  2. 複数のブログの情報を取得するブログ情報取得手段と、
    前記取得したブログの情報から、当該ブログからリンクしているウェブサイトの情報を取得するリンク先情報取得手段と、
    を備え、
    前記リンク先評価手段は、ウェブサイトにリンクしているブログの情報から当該ウェブサイトの評価を行う
    ことを特徴とする請求項1に記載のスパムブログ検知装置。
  3. 前記リンク先情報取得手段は、アフィリエイトプログラムの提供サイトにリンクしているブログ数を、当該アフィリエイトプログラムが発行する識別情報毎に算出し、
    前記リンク先評価手段は、前記識別情報毎のブログ数を用いて前記提供サイトの評価を行う
    ことを特徴とする請求項2に記載のスパムブログ検知装置。
  4. 前記ブログの評価を用いて当該ブログからリンクしているウェブサイトを再評価することを特徴とする請求項1から3いずれか1の項に記載のスパムブログ検知装置。
  5. ブログからリンクしているウェブサイトを評価するステップと、
    前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、
    前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、
    を有することを特徴とするスパムブログ検知方法。
  6. ブログからリンクしているウェブサイトを評価するステップと、
    前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、
    前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、
    をコンピュータに実行させるためのプログラム。
JP2008232299A 2008-09-10 2008-09-10 スパムブログ検知装置、スパムブログ検知方法及びプログラム Pending JP2010066980A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008232299A JP2010066980A (ja) 2008-09-10 2008-09-10 スパムブログ検知装置、スパムブログ検知方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008232299A JP2010066980A (ja) 2008-09-10 2008-09-10 スパムブログ検知装置、スパムブログ検知方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2010066980A true JP2010066980A (ja) 2010-03-25

Family

ID=42192520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008232299A Pending JP2010066980A (ja) 2008-09-10 2008-09-10 スパムブログ検知装置、スパムブログ検知方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2010066980A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215891A (ja) * 2010-03-31 2011-10-27 Yahoo Japan Corp スパムブログ抽出装置及び方法
JP2015146188A (ja) * 2010-10-20 2015-08-13 マカフィー, インコーポレイテッド リンクの評価を決定することによって未知の悪意ある行為から保護する方法およびシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272333A (ja) * 2006-03-30 2007-10-18 Fujitsu Ltd Webページ分類プログラム、Webページ分類装置およびWebページ分類方法
JP2009157553A (ja) * 2007-12-26 2009-07-16 Fujitsu Ltd 属性抽出処理方法及び装置
JP2010049473A (ja) * 2008-08-21 2010-03-04 Nec Biglobe Ltd リンク情報抽出装置、リンク情報抽出方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272333A (ja) * 2006-03-30 2007-10-18 Fujitsu Ltd Webページ分類プログラム、Webページ分類装置およびWebページ分類方法
JP2009157553A (ja) * 2007-12-26 2009-07-16 Fujitsu Ltd 属性抽出処理方法及び装置
JP2010049473A (ja) * 2008-08-21 2010-03-04 Nec Biglobe Ltd リンク情報抽出装置、リンク情報抽出方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215891A (ja) * 2010-03-31 2011-10-27 Yahoo Japan Corp スパムブログ抽出装置及び方法
JP2015146188A (ja) * 2010-10-20 2015-08-13 マカフィー, インコーポレイテッド リンクの評価を決定することによって未知の悪意ある行為から保護する方法およびシステム

Similar Documents

Publication Publication Date Title
US8060497B1 (en) Framework for evaluating web search scoring functions
JP6640943B2 (ja) 複数のデバイスにわたるユーザへのコンテンツの提供
Nelson et al. The myth of partisan selective exposure: A portrait of the online political news audience
JP6233900B2 (ja) リダイレクトの削減
Kliman-Silver et al. Location, location, location: The impact of geolocation on web search personalization
US10134058B2 (en) Methods and apparatus for identifying unique users for on-line advertising
KR101769058B1 (ko) 해시태그 및 컨텐츠 제시
CN108090111B (zh) 用于搜索结果的动画摘录
JP4764864B2 (ja) 情報伝播抽出装置および情報伝播抽出方法
US9183259B1 (en) Selecting content based on social significance
JP6001084B2 (ja) リダイレクトの低減
US9342854B2 (en) Identifying communities within a social network based on information propagation data
US20100094860A1 (en) Indexing online advertisements
US20080222119A1 (en) Detecting a user's location, local intent and travel intent from search queries
US20150220499A1 (en) Generating preview data for online content
KR20120088736A (ko) 외부 레퍼런스와 웹페이지 방문 및 컨버전의 상관
US20090037521A1 (en) System and method for identifying compatibility between users from identifying information on web pages
US7603352B1 (en) Advertisement selection in an electronic application system
TWI444840B (zh) 搜尋引擎優化之機會識別與預測
BR112013021055A2 (pt) direcionamento de relevância cognitiva em um sistema de rede social
JP5882454B2 (ja) キャンペーンから欠落している言語を識別すること
US20250200609A1 (en) Combining content with a search result
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
TWI352934B (en) Advertisement selection systems and methods for in
US8977948B1 (en) System, method, and computer program for determining information associated with an extracted portion of content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121204