JP2010066980A - スパムブログ検知装置、スパムブログ検知方法及びプログラム - Google Patents
スパムブログ検知装置、スパムブログ検知方法及びプログラム Download PDFInfo
- Publication number
- JP2010066980A JP2010066980A JP2008232299A JP2008232299A JP2010066980A JP 2010066980 A JP2010066980 A JP 2010066980A JP 2008232299 A JP2008232299 A JP 2008232299A JP 2008232299 A JP2008232299 A JP 2008232299A JP 2010066980 A JP2010066980 A JP 2010066980A
- Authority
- JP
- Japan
- Prior art keywords
- blog
- spam
- evaluation
- information
- blogs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
【解決手段】スパムブログ検知装置1は、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、ウェブサイトの評価結果を用いてブログの評価を行うブログ評価手段と、ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段と、を備える。
【選択図】図2
Description
ところで、インターネット上で情報を掲載するブログの中には、広告主によって恣意的に作成されたスパムブログ(splog:Spam Weblog)が多く存在する。通常、スパムブログでは、無意味なキーワードだけを大量に埋め込む、或いは他のブログやニュース記事から勝手に文章をコピーするなどを行い、記事を作成している。このため、スパムブログは、コンテンツとして無意味なものが多い。
(1)アフィリエイトプログラムへのリンクがあるものをスパムブログと判定する手法。
(2)他のウェブサイトからのリンク数からページランクを算出して、ページランクの高いサイトをスパムブログではないと判定する手法。
(3)スパムブログによく登場する単語が頻繁に登場するブログをスパムブログと判定する手法。
Yu-Ru Lin,Sundaram, H.,Yun Chi,Tatemura, J.,Tseng, B. , "Splog Detection using Content, Time and Link Structures", Multimedia and Expo, 2007 IEEE International Conference on
また、スパムブログの中には、自身で作成したブログに対してリンクを張るサイトを多数作成することによりページランクを上げるものもあるため、非特許文献1に記載の手法(2)のように被リンクの数がサイトの価値を決めるとは一概に言えない。
また、非特許文献1に記載の手法(3)では、スパムブログによく登場する単語を外せば検知を回避されてしまう。また、一般のサイトにもそれらの単語が登場することが考えられるため誤検知することが懸念される。
本発明は上記の点に鑑みてなされたものであり、その目的は、スパムブログを精度良く検知することができるスパムブログ検知装置、スパムブログ検知方法及びプログラムを提供することにある。
ことを特徴とする。
図1は、本発明の一実施形態によるスパムブログ検知装置の処理の概念を示した概念図である。
ブログは作成者が自由に作成及び編集をすることができるため、一般の人がアフィリエイトプログラムを利用したり、任意のサイトへリンクをしたりすることができる。また、ブログの内容は頻繁に変化すると想定される。そこで、本発明のスパムブログ検知装置は、内容の変化が比較的少ないアフィリエイトプログラムや広告提供サイトの評価を行い、その評価結果をブログの評価に用いてスパムブログを検出している。
スパムブログ検知装置は、まず、複数のブログのブログ情報を取得する。ブログ情報には、ブログのURL(Uniform Resource Locator)、ブログからのリンク先URL、ブログからのリンク数などが含まれる。次に、スパムブログ検知装置は、そのブログからリンクしているアフィリエイトプログラムの提供サイト又は広告提供サイトを評価する。そして、スパムブログ検知装置は、その評価結果を用いてブログの評価を行い、スパムブログを検知する。
スパムブログ検知装置1は、ブログ情報取得部11と、リンク先情報取得部12と、情報解析部13と、判定部14と、を含んで構成される。
ブログ情報取得部11は、アプリケーションサービスプロバイダが配信を行っているRSS(Rich Site Summary)や新着ブログ情報などのブログ記事の情報を利用して、複数のブログのブログ情報を取得する。
なお、リンク先が広告提供サイトである場合にも同様の処理を行う。
判定部14は、情報解析部13の評価結果に基づいてブログ情報取得部11で取得したブログ情報に係るブログがスパムブログか否かの判定を行う。具体的には、判定部14は、予め設定された所定の閾値よりスコアが高いブログをスパムブログと判定する。
まず、ステップS1では、ブログ情報取得部11が、複数のブログのブログ情報を取得する。この時、ブログ情報取得部11は、アプリケーションサービスプロバイダが提供しているRSSや新着ブログ情報などから複数のブログを抽出し、抽出したブログのブログ情報を取得する。
次に、ステップS2では、リンク先情報取得部12が、ステップS1で抽出したブログのリンク先の情報を取得する。
次に、ステップS3では、情報解析部13が、ステップS1及びステップS2で取得した情報に基づいて各ブログのスコアリングを行う。情報解析部13の処理の詳細については後述する。
次に、ステップS4では、判定部14が、各ブログがスパムブログであるか否かの判定を行う。具体的には、判定部14は、スコアが所定の閾値より高いブログをスパムブログであると判定する。
まず、ステップS11では、情報解析部13は、上述したステップS1で抽出した各ブログの評価を行う。各ブログのスコアscorebpreは、例えば次の式(1)で算出される。ただし、αiは特徴量であり、w1iは各特徴量の重みである。重みw1iは予め設定された値である。また、nは特徴量の数である。特徴量には、ブログからのリンク数(α1)、リンク先の種類(α2)、記事の投稿時間(α3)、投稿頻度(α4)などがある。式(1)は、各特徴量のスコアを加算した式になっている。
また、記事の投稿時間のスコアは投稿時間の分布に基づいて決定される。例えば、毎日同じ時刻に投稿している場合にスコアを高くする。これは、プログラムにより自動的に記事を作成していると想定されるためである。また、投稿時間のばらつきが非常に大きい場合にスコアが高くする。これは、生活時間帯が特定できない場合にはスパムブログである可能性が大きいと想定されるためである。また、投稿頻度は低いほどスコアが高くなる。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (6)
- ブログからリンクしているウェブサイトを評価するリンク先評価手段と、
前記ウェブサイトの評価結果を用いて前記ブログの評価を行うブログ評価手段と、
前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段と、
を備えることを特徴とするスパムブログ検知装置。 - 複数のブログの情報を取得するブログ情報取得手段と、
前記取得したブログの情報から、当該ブログからリンクしているウェブサイトの情報を取得するリンク先情報取得手段と、
を備え、
前記リンク先評価手段は、ウェブサイトにリンクしているブログの情報から当該ウェブサイトの評価を行う
ことを特徴とする請求項1に記載のスパムブログ検知装置。 - 前記リンク先情報取得手段は、アフィリエイトプログラムの提供サイトにリンクしているブログ数を、当該アフィリエイトプログラムが発行する識別情報毎に算出し、
前記リンク先評価手段は、前記識別情報毎のブログ数を用いて前記提供サイトの評価を行う
ことを特徴とする請求項2に記載のスパムブログ検知装置。 - 前記ブログの評価を用いて当該ブログからリンクしているウェブサイトを再評価することを特徴とする請求項1から3いずれか1の項に記載のスパムブログ検知装置。
- ブログからリンクしているウェブサイトを評価するステップと、
前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、
前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、
を有することを特徴とするスパムブログ検知方法。 - ブログからリンクしているウェブサイトを評価するステップと、
前記ウェブサイトの評価結果を用いて前記ブログの評価を行うステップと、
前記ブログの評価に基づいて当該ブログがスパムブログか否かを判定するステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008232299A JP2010066980A (ja) | 2008-09-10 | 2008-09-10 | スパムブログ検知装置、スパムブログ検知方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008232299A JP2010066980A (ja) | 2008-09-10 | 2008-09-10 | スパムブログ検知装置、スパムブログ検知方法及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2010066980A true JP2010066980A (ja) | 2010-03-25 |
Family
ID=42192520
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008232299A Pending JP2010066980A (ja) | 2008-09-10 | 2008-09-10 | スパムブログ検知装置、スパムブログ検知方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2010066980A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011215891A (ja) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | スパムブログ抽出装置及び方法 |
| JP2015146188A (ja) * | 2010-10-20 | 2015-08-13 | マカフィー, インコーポレイテッド | リンクの評価を決定することによって未知の悪意ある行為から保護する方法およびシステム |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007272333A (ja) * | 2006-03-30 | 2007-10-18 | Fujitsu Ltd | Webページ分類プログラム、Webページ分類装置およびWebページ分類方法 |
| JP2009157553A (ja) * | 2007-12-26 | 2009-07-16 | Fujitsu Ltd | 属性抽出処理方法及び装置 |
| JP2010049473A (ja) * | 2008-08-21 | 2010-03-04 | Nec Biglobe Ltd | リンク情報抽出装置、リンク情報抽出方法およびプログラム |
-
2008
- 2008-09-10 JP JP2008232299A patent/JP2010066980A/ja active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007272333A (ja) * | 2006-03-30 | 2007-10-18 | Fujitsu Ltd | Webページ分類プログラム、Webページ分類装置およびWebページ分類方法 |
| JP2009157553A (ja) * | 2007-12-26 | 2009-07-16 | Fujitsu Ltd | 属性抽出処理方法及び装置 |
| JP2010049473A (ja) * | 2008-08-21 | 2010-03-04 | Nec Biglobe Ltd | リンク情報抽出装置、リンク情報抽出方法およびプログラム |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011215891A (ja) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | スパムブログ抽出装置及び方法 |
| JP2015146188A (ja) * | 2010-10-20 | 2015-08-13 | マカフィー, インコーポレイテッド | リンクの評価を決定することによって未知の悪意ある行為から保護する方法およびシステム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8060497B1 (en) | Framework for evaluating web search scoring functions | |
| JP6640943B2 (ja) | 複数のデバイスにわたるユーザへのコンテンツの提供 | |
| Nelson et al. | The myth of partisan selective exposure: A portrait of the online political news audience | |
| JP6233900B2 (ja) | リダイレクトの削減 | |
| Kliman-Silver et al. | Location, location, location: The impact of geolocation on web search personalization | |
| US10134058B2 (en) | Methods and apparatus for identifying unique users for on-line advertising | |
| KR101769058B1 (ko) | 해시태그 및 컨텐츠 제시 | |
| CN108090111B (zh) | 用于搜索结果的动画摘录 | |
| JP4764864B2 (ja) | 情報伝播抽出装置および情報伝播抽出方法 | |
| US9183259B1 (en) | Selecting content based on social significance | |
| JP6001084B2 (ja) | リダイレクトの低減 | |
| US9342854B2 (en) | Identifying communities within a social network based on information propagation data | |
| US20100094860A1 (en) | Indexing online advertisements | |
| US20080222119A1 (en) | Detecting a user's location, local intent and travel intent from search queries | |
| US20150220499A1 (en) | Generating preview data for online content | |
| KR20120088736A (ko) | 외부 레퍼런스와 웹페이지 방문 및 컨버전의 상관 | |
| US20090037521A1 (en) | System and method for identifying compatibility between users from identifying information on web pages | |
| US7603352B1 (en) | Advertisement selection in an electronic application system | |
| TWI444840B (zh) | 搜尋引擎優化之機會識別與預測 | |
| BR112013021055A2 (pt) | direcionamento de relevância cognitiva em um sistema de rede social | |
| JP5882454B2 (ja) | キャンペーンから欠落している言語を識別すること | |
| US20250200609A1 (en) | Combining content with a search result | |
| US7962523B2 (en) | System and method for detecting templates of a website using hyperlink analysis | |
| TWI352934B (en) | Advertisement selection systems and methods for in | |
| US8977948B1 (en) | System, method, and computer program for determining information associated with an extracted portion of content |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110131 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110201 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120730 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121204 |