JP2011060228A - Webpage correlation evaluation device for detecting information spreading - Google Patents
Webpage correlation evaluation device for detecting information spreading Download PDFInfo
- Publication number
- JP2011060228A JP2011060228A JP2009212380A JP2009212380A JP2011060228A JP 2011060228 A JP2011060228 A JP 2011060228A JP 2009212380 A JP2009212380 A JP 2009212380A JP 2009212380 A JP2009212380 A JP 2009212380A JP 2011060228 A JP2011060228 A JP 2011060228A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- web page
- web pages
- unit
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】従来、関連するウェブページ相互を精度よく特定する技術は存在しない。
【解決手段】ウェブページ関係評価装置30は、複数の判断対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部2と、判断対象のウェブページと他の判断対象のウェブページとの類似度を算出する類似度算出部3と、算出された複数の類似度のうちの基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する関連ウェブページ特定部5とを有する。
【選択図】図2Conventionally, there is no technology for accurately identifying related web pages.
A web page relationship evaluation device 30 includes a creation time detection unit 2 that detects a creation time of each of a plurality of determination target web pages, and a similarity between a determination target web page and another determination target web page. The similarity calculation unit 3 that calculates the two and the two determination target web pages used when calculating the similarity for each of the similarities that are equal to or greater than the reference value among the calculated similarities And a related web page specifying unit 5 for specifying that the web pages are mutually related.
[Selection] Figure 2
Description
本発明は、複数のウェブページ相互の関係を評価することで、情報伝播を検知する技術に関する。 The present invention relates to a technique for detecting information propagation by evaluating the relationship between a plurality of web pages.
近年、企業は、ウェブページを用いて情報を発信しており、個人も、ウェブページ、ブログ、及びSNS(Social Network Service)を用いて情報を発信している。各情報は、他の情報の影響を受けて発信されることがある。例えば、ある企業が新製品を発売することをウェブページにおいて発表すると、そのウェブページを見たある個人がその情報とともにその新製品についての意見をブログにより公表することがある。このように、ある情報がウェブページを伝播して広がることがある。 In recent years, companies have transmitted information using web pages, and individuals have also transmitted information using web pages, blogs, and SNS (Social Network Service). Each information may be transmitted under the influence of other information. For example, when a company announces on the web page that a new product will be released, an individual who views the web page may publish an opinion about the new product on the blog along with the information. In this way, certain information may spread through the web page.
ところで、ウェブページにおいて公表された情報の伝播を不快に感じることがある。例えば、不祥事が発生していないのにもかかわらず、企業を中傷する情報が多数のウェブページに広がると、多数の人がその情報を知ってしまい、その企業の経済活動を阻害する可能性があるからである。そのような場合、その企業に属する人は、その情報の伝播経路を知りたいと考える。例えば、伝搬経路を構成している中核的なウェブサイトや大元の情報発信源がどこかを知ることができれば、定期的にそのサイトを読み、不利益な情報が流れていることをいち早く察知して早期に対策をとることができる。 By the way, propagation of information published on a web page may be uncomfortable. For example, even if no scandal has occurred, if information that slanders a company spreads over many web pages, a large number of people may know the information and hinder the economic activities of the company. Because there is. In such a case, a person belonging to the company wants to know the propagation path of the information. For example, if you know where the core website or source of information that makes up the propagation path is, you can read the site regularly and quickly notice that unfavorable information is flowing. And measures can be taken early.
また、広告効果を狙ってウェブページ等で情報公開をすることがある。例えば企業が新製品を発売した事実を、自社ウェブサイトにプレスリリースを掲載して発表した場合、ニュースサイトや著名なブログサイト等を経由して、一般の人々がその事実を目にする。このような場合、どのような経路を経て情報が伝播したかを、その企業に属する人は知りたいと考える。例えば、より多くの人に直接的に情報を伝播させたり、他の著名ブログに影響を与えて間接的に情報を伝播させたりするニュースサイトや著名ブログを特定することができれば、それらのサイトにフォーカスをあててより効果的な広告を行うことが出来る。 In addition, information may be disclosed on a web page or the like with the aim of advertising effectiveness. For example, when a company announces the fact that a new product has been released by posting a press release on its website, the public will see the fact via a news site or a well-known blog site. In such a case, the person who belongs to the company wants to know what route the information is propagated through. For example, if you can identify news sites and prominent blogs that directly propagate information to more people or indirectly influence other prominent blogs, you can identify those sites. More effective advertising can be performed with focus.
しかしながら、現在、ウェブページにより広がった情報の伝播経路を精度よく特定する技術は存在しない。つまり、関連するウェブページ相互の関係を精度よく特定する技術は存在しない。 However, there is currently no technique for accurately identifying the propagation path of information spread by a web page. That is, there is no technique for accurately identifying the relationship between related web pages.
本発明は、関連するウェブページ相互の関係を精度よく特定するウェブページ関係評価装置を提供することを目的とする。 An object of this invention is to provide the web page relationship evaluation apparatus which pinpoints the relationship between related web pages accurately.
上記課題を解決し上記目的を達成するために、本発明のウェブページ関係評価装置は、複数の判断対象のウェブページそれぞれを構成する情報を取得する取得部と、前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する類似度算出部と、前記類似度算出部によって得られた複数の類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する関連ウェブページ特定部とを備える。 In order to solve the above problems and achieve the above object, the web page relation evaluation device of the present invention includes an acquisition unit that acquires information constituting each of a plurality of determination target web pages, and information acquired by the acquisition unit Based on the creation time detection unit for detecting the creation time of each of the plurality of determination target web pages, and another determination target for each of the plurality of determination target web pages based on the information acquired by the acquisition unit It is determined that two web pages are related to each other between a similarity calculation unit that calculates a similarity between each of the web pages and a plurality of similarities obtained by the similarity calculation unit For each similarity level that is greater than or equal to the reference value, the two web pages to be judged used for calculating the similarity level are related to each other. And a related web page specific unit that identified as the over-di.
また、本発明のウェブページ関係評価装置の各構成要件の機能をコンピュータに実現させるためのプログラムも、本発明の一態様である。 Moreover, the program for making a computer implement | achieve the function of each component of the web page relation evaluation apparatus of this invention is also 1 aspect of this invention.
本発明は、関連するウェブページ相互を精度よく特定するウェブページ関係評価装置を提供することができる。 The present invention can provide a web page relationship evaluation apparatus that accurately identifies related web pages.
以下に、本発明を実施するための形態を図面を参照して説明する。 EMBODIMENT OF THE INVENTION Below, the form for implementing this invention is demonstrated with reference to drawings.
先ず、本実施の形態のウェブページ分析システムの構成を図1を用いて説明する。図1は、本実施の形態のウェブページ分析システムの構成図である。本実施の形態のウェブページ分析システムは、ウェブページを分析するシステムであって、図1に示すように、ウェブページ分析装置100と、クライアント端末装置200と、検索装置300と、通信ネットワーク400と、サイトアクセス数推定装置500 とを有する。
First, the configuration of the web page analysis system of the present embodiment will be described with reference to FIG. FIG. 1 is a configuration diagram of a web page analysis system according to the present embodiment. The web page analysis system of this embodiment is a system for analyzing a web page. As shown in FIG. 1, the web
ウェブページ分析装置100は、通信ネットワーク400において開示されているウェブページを分析する装置である。ウェブページ分析装置100の構成の詳細は図2を用いて後述する。クライアント端末装置200は、ユーザによって使用される装置であって、検索キーワードや、検索キーワードに関連するウェブページを検索させる指示(以下、「検索指示」という。)等をユーザから受け付ける。クライアント端末装置200は、受け付けた指示等をウェブページ分析装置100又は検索装置300に送信し、ウェブページ分析装置100及び検索装置300からそれらによって得られた結果を受信する。図1に示すように、クライアント端末装置200には、表示装置250が接続されており、クライアント端末装置200が受信する情報は、表示装置250によって表示される。
The web
検索装置300は、通信ネットワーク400において開示されているウェブページのなかから、検索キーワードに関連するウェブページを検索する装置である。通信ネットワーク400は、インターネット等のデータを通信するためのネットワークである。サイトアクセス数推定装置500は、ウェブサイトのアクセス数を推定する装置である。ウェブページ分析装置100、クライアント端末装置200、検索装置300、及びサイトアクセス数推定装置500は、通信ネットワーク400に接続されており、相互に通信可能である。
The
次に、ウェブページ分析装置100の構成を図2を用いて説明する。図2は、ウェブページ分析装置100の構成図である。ウェブページ分析装置100は、上述したように、通信ネットワーク400において開示されているウェブページを分析する装置であって、図2に示すように、通信装置10と、検索キーワード作成装置20と、ウェブページ関係評価装置30と、サイト評価装置40とを有する。
Next, the configuration of the web
通信装置10は、データを通信する。検索キーワード作成装置20は、ユーザによって選択されたキーワードに基づいて、適宜の変換処理を施したより適切な検索キーワードを作成する。
The
ウェブページ関係評価装置30は、検索キーワード作成装置20が作成した検索キーワードに基づいて検索装置300によって検索された複数のウェブページ相互の関係を評価する装置である。ウェブページ関係評価装置30は、図2に示すように、取得部1と、作成時刻検出部2と、類似度算出部3と、類似度補正部4と、関連ウェブページ特定部5と、ネットワーク図作成部6と、出力部7とを有する。
The web page
取得部1は、検索装置300によって検索された複数のウェブページそれぞれを構成する情報を取得する。検索装置300によって検索されたウェブページは、ウェブページ関係評価装置30によって評価されるウェブページであるので、以下では、検索装置300によって検索されたウェブページを「判断対象のウェブページ」という。作成時刻検出部2は、取得部1によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する。
The acquisition unit 1 acquires information constituting each of a plurality of web pages searched by the
類似度算出部3は、取得部1によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する。具体的には、類似度算出部3は、ある2個の判断対象のウェブページの類似度を算出する際、それら2個の判断対象のウェブページそれぞれを構成する情報の形態素を分析し、TF−IDF(Term Frequency−Inverse Document Frequency)法及びベクトル空間法を用いて、それら2個の判断対象のウェブページの類似度を算出する。なお本方法以外にも、ウェブページ類似度の算出には一般に広く用いられている文書類似度算出法のいずれを使ってもよく、たとえばTF−IDF法のかわりにN−Gram法を用いても良い。 Based on the information acquired by the acquisition unit 1, the similarity calculation unit 3 calculates the similarity between each of the plurality of determination target web pages and each of the other determination target web pages. Specifically, when calculating the similarity between two determination target web pages, the similarity calculation unit 3 analyzes the morphemes of information constituting each of the two determination target web pages, and calculates TF. Using the IDF (Term Frequency-Inverse Document Frequency) method and the vector space method, the similarity between the two determination target web pages is calculated. In addition to this method, any of the widely used document similarity calculation methods may be used for calculating the web page similarity. For example, the N-Gram method may be used instead of the TF-IDF method. good.
類似度補正部4は、類似度算出部3によって算出された類似度を補正する。以下では、類似度補正部4によって得られた値を「補正類似度」という。なお、類似度補正部4は、複数の方法により類似度を補正するので、各方法については後に類似度補正部4の動作を説明する際に説明する。 The similarity correction unit 4 corrects the similarity calculated by the similarity calculation unit 3. Hereinafter, the value obtained by the similarity correction unit 4 is referred to as “corrected similarity”. Since the similarity correction unit 4 corrects the similarity by a plurality of methods, each method will be described later when the operation of the similarity correction unit 4 is described.
関連ウェブページ特定部5は、類似度補正部4によって得られた複数の補正類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である補正類似度を検出する。そして、関連ウェブページ特定部5は、検出した各補正類似度について、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する。 The related web page specifying unit 5 has a corrected similarity that is equal to or higher than a reference value for determining that two web pages are related to each other among the plurality of corrected similarities obtained by the similarity correcting unit 4 Is detected. And the related web page specific | specification part 5 is a web page which mutually relates the web page of 2 judgment object used when calculating the correction similarity about each detected correction similarity. Is identified.
ネットワーク図作成部6は、関連ウェブページ特定部5によって特定された2個のウェブページの組それぞれについて、その組を構成する2個のウェブページを、作成時刻検出部2によって検出された作成時刻の順に仮想的に並べて仮想的に線で結び、関連しているウェブページのネットワーク図を作成する。つまり、ネットワーク図作成部6は、関連しているウェブページを作成時刻の順にツリー状につなげてネットワーク図を作成する。
For each set of two web pages specified by the related web page specification unit 5, the network diagram creation unit 6 creates two web pages constituting the set by the creation
出力部7は、ネットワーク図作成部6によって作成されたネットワーク図を通信装置10に出力する。
The output unit 7 outputs the network diagram created by the network diagram creation unit 6 to the
サイト評価装置40は、通信ネットワーク400において開示されているウェブサイトを評価する装置である。
The
次に、本実施の形態のウェブページ分析システムの動作を説明する。図3は、本実施の形態のウェブページ分析システムの動作の概要を説明するための図である。本実施の形態のウェブページ分析システムの動作は、図3に示すように、絞り込み検索を行わせるための検索キーワードを作成する動作(フェーズF1)と、複数のウェブページ相互の関係を評価する動作(フェーズF2)と、ウェブサイトを評価する動作(フェーズF3)とに大別される。そのため以下では、本実施の形態のウェブページ分析システムの動作をフェーズ毎に説明する。 Next, the operation of the web page analysis system of this embodiment will be described. FIG. 3 is a diagram for explaining the outline of the operation of the web page analysis system of the present embodiment. As shown in FIG. 3, the operation of the web page analysis system according to the present embodiment includes an operation for creating a search keyword for performing a refined search (phase F1) and an operation for evaluating the relationship between a plurality of web pages. (Phase F2) and an operation for evaluating a website (Phase F3). Therefore, below, operation | movement of the web page analysis system of this Embodiment is demonstrated for every phase.
(検索キーワードを作成する動作)
先ず、絞り込み検索を行わせるための検索キーワードを作成する動作(フェーズF1)を説明する。
(Operation to create a search keyword)
First, an operation (phase F1) for creating a search keyword for performing a refined search will be described.
ユーザは、検索キーワードと、その検索キーワードに関連するウェブページを検索させる指示(検索指示)をクライアント端末装置200に入力する。クライアント端末装置200は、入力された検索キーワード及び検索指示を受け付け、それらを通信ネットワーク400を介して検索装置300に送信する。検索装置300は、クライアント端末装置200からの検索キーワード及び検索指示を受信し、通信ネットワーク400において開示されているウェブページのなかから、受信した検索キーワードに関連するウェブページを検索する。説明の便宜上、検索装置300は、複数のウェブページを検索したと仮定する。検索装置300は、検索した複数のウェブページのタイトルを通信ネットワーク400を介してクライアント端末装置200に送信する。
The user inputs a search keyword and an instruction (search instruction) for searching a web page related to the search keyword to the
クライアント端末装置200は、検索装置300からの複数のウェブページのタイトル及び本文内容概要を受信し、それらを検索装置300によって決められた順にしたがって表示装置250に表示させる。ユーザは、表示装置250によって表示された各ウェブページのタイトルを見て、いずれかのウェブページを選択し、選択したウェブページを取得させる指示をクライアント端末装置200に行う。
The
クライアント端末装置200は、ユーザによって選択されたウェブページを取得して表示装置250に表示させる。ユーザは、表示装置250によって表示されたウェブページがより適切な検索キーワードを作成させる題材として妥当なウェブページであると判断した場合、その判断結果をクライアント端末装置200に入力する。
The
クライアント端末装置200は、そのようなウェブページを特定する情報を、通信ネットワーク400を介してウェブページ分析装置100に送信する。ウェブページを特定する情報は、例えばそのウェブページのURL(Uniform Resource Locator)である。上述したようにして、ユーザは、より適切な検索キーワードを作成させるためのウェブページを複数個選択し、クライアント端末装置200は、ユーザによって選択された複数のウェブページを特定する情報を受け付けてウェブページ分析装置100に送信する。また、クライアント端末装置200は、ユーザによって入力された検索キーワードもウェブページ分析装置100に送信する。
The
ウェブページ分析装置100では、通信装置10が、クライアント端末装置200からの、より適切な検索キーワードを作成させるための複数のウェブページを特定する情報と、ユーザによって入力された検索キーワードとを受信する。
In the web
以下の動作は、図4を用いて説明する。図4は、検索キーワード作成装置20が行う検索キーワードを作成する動作の各ステップを示すフローチャートである。 The following operation will be described with reference to FIG. FIG. 4 is a flowchart showing steps of an operation for creating a search keyword performed by the search keyword creation device 20.
検索キーワード作成装置20は、通信装置10によって受信された、より適切な検索キーワードを作成させるための複数のウェブページを特定する情報と、ユーザによって入力された検索キーワードとを取得する(S1)。次に、検索キーワード作成装置20は、より適切な検索キーワードを作成させるための複数のウェブページそれぞれを構成する情報を、通信ネットワーク400を介して取得する(S2)。
The search keyword creation device 20 acquires the information received by the
検索キーワード作成装置20は、取得した情報に基づいて、複数のウェブページに関連するキーワードを特定する。具体的には、検索キーワード作成装置20は、取得した情報に基づいて、複数のウェブページそれぞれを構成する形態素を分析し、TF−IDF法を用いることによって得られる値が大きい方から所定の数のキーワードを、複数のウェブページに関連するキーワードとして特定する(S3)。そして、検索キーワード作成装置20は、特定したキーワードを、ユーザによって入力された検索キーワードに加えて、絞り込み検索を行わせるための新たな検索キーワードを作成する(S4)。本手法は実現方法の一例であり、たとえばこの代わりにKey−Graph法を用いて検索キーワードを作成しても良い。 The search keyword creation device 20 specifies keywords related to a plurality of web pages based on the acquired information. Specifically, the search keyword creating device 20 analyzes the morphemes constituting each of the plurality of web pages based on the acquired information, and uses a predetermined number from the larger value obtained by using the TF-IDF method. Are identified as keywords related to a plurality of web pages (S3). Then, the search keyword creating device 20 adds the identified keyword to the search keyword input by the user, and creates a new search keyword for performing a refined search (S4). This technique is an example of a realization method. For example, a search keyword may be created using the Key-Graph method instead.
そうすると、通信装置10は、検索キーワード作成装置20によって作成された新たな検索キーワードを、通信ネットワーク400を介して検索装置300に送信する。検索装置300は、ウェブページ分析装置100の通信装置10からの新たな検索キーワードを受信し、通信ネットワーク400において開示されているウェブページのなかから、新たな検索キーワードに関連するウェブページを検索する。ここでも、説明の便宜上、検索装置300は、複数のウェブページを検索したと仮定する。検索装置300は、検索した複数のウェブページそれぞれを構成する情報を、通信ネットワーク400を介してウェブページ分析装置100に送信する。
Then, the
(複数のウェブページ相互の関係を評価する動作)
次に、複数のウェブページ相互の関係を評価する動作(フェーズF2)を図5を用いて説明する。図5は、ウェブページ関係評価装置30が行う複数のウェブページ相互の関係を評価する動作の各ステップを示すフローチャートである。
(Operation to evaluate the relationship between multiple web pages)
Next, the operation | movement (phase F2) which evaluates the relationship between several web pages is demonstrated using FIG. FIG. 5 is a flowchart showing each step of the operation for evaluating the relationship between a plurality of web pages performed by the web page
ウェブページ分析装置100の通信装置10は、フェーズF1の最後のステップにおいて検索装置300によって検索された複数のウェブページ(判断対象のウェブページ)を構成する情報を受信する。ウェブページ関係評価装置30では、取得部1が、通信装置10によって受信された複数の判断対象のウェブページそれぞれを構成する情報を取得する(S11)。作成時刻検出部2は、取得部1によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する(S12)。
The
類似度算出部3は、取得部1によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する(S13)。 Based on the information acquired by the acquisition unit 1, the similarity calculation unit 3 calculates a similarity between each of the plurality of determination target web pages and each of the other determination target web pages (S13).
類似度補正部4は、類似度算出部3によって算出された類似度を補正する(S14)。類似度補正部4の動作を、複数の判断対象のウェブページのうちの2個の判断対象のウェブページを取り上げて具体的に説明する。説明の便宜上、2個の判断対象のウェブページをウェブページX及びウェブページYと呼び、ウェブページXがウェブページYより先に作成されたと仮定する。また、類似度算出部3によって算出されたウェブページXとウェブページYとの類似度を「類似度S」という。 The similarity correction unit 4 corrects the similarity calculated by the similarity calculation unit 3 (S14). The operation of the similarity correction unit 4 will be specifically described by taking two determination target web pages out of a plurality of determination target web pages. For convenience of explanation, it is assumed that two web pages to be determined are called a web page X and a web page Y, and the web page X is created before the web page Y. Further, the similarity between the web page X and the web page Y calculated by the similarity calculation unit 3 is referred to as “similarity S”.
このとき、類似度補正部4は、取得部1によって取得された情報に基づいて、ウェブページYがウェブページXにリンクしているか否かを判断する。ウェブページYがウェブページXにリンクしていると判断した場合、類似度補正部4は、類似度Sに第1の補正係数C1を付与する。ウェブページYがウェブページXにリンクしていないと判断した場合、類似度補正部4は、類似度Sには第1の補正係数C1を付与しない。 At this time, the similarity correction unit 4 determines whether the web page Y is linked to the web page X based on the information acquired by the acquisition unit 1. When it is determined that the web page Y is linked to the web page X, the similarity correction unit 4 assigns the first correction coefficient C1 to the similarity S. When it is determined that the web page Y is not linked to the web page X, the similarity correction unit 4 does not assign the first correction coefficient C1 to the similarity S.
また、類似度補正部4は、取得部1によって取得された情報に基づいて、ウェブページX及びウェブページYがともに他のウェブページαにリンクしているか否かを判断する。2個のウェブページがともに他のウェブページαにリンクしていると判断した場合、類似度補正部4は、類似度Sに第2の補正係数C2を付与する。2個のウェブページの少なくとも一方が他のウェブページαにリンクしていないと判断した場合、類似度補正部4は、類似度Sには第2の補正係数C2を付与しない。 Further, the similarity correction unit 4 determines whether the web page X and the web page Y are linked to another web page α based on the information acquired by the acquisition unit 1. When it is determined that the two web pages are both linked to another web page α, the similarity correction unit 4 assigns the second correction coefficient C2 to the similarity S. When it is determined that at least one of the two web pages is not linked to the other web page α, the similarity correction unit 4 does not assign the second correction coefficient C2 to the similarity S.
また、類似度補正部4は、作成時刻検出部2によって検出された作成時刻に基づいて、ウェブページXの作成時刻とウェブページYの作成時刻との差を判断し、その差に応じた第3の補正係数C3を類似度Sに付与する。例えば、類似度補正部4は、以下に示す式(1)により特定される第3の補正係数C3を類似度Sに対して付与する。
Further, the similarity correction unit 4 determines the difference between the creation time of the web page X and the creation time of the web page Y based on the creation time detected by the creation
C3=exp(−α×(sp/tp) …(1)
αは、実験により決定される定数であり、spは、ウェブページXの作成時刻とウェブページYの作成時刻との差であり、tpは、全ての判断対象のウェブページのうちの最初に作成されたウェブページの作成時刻と最後に作成されたウェブページの作成時刻との差である。
C3 = exp (−α × (sp / tp) (1)
α is a constant determined by experiment, sp is the difference between the creation time of the web page X and the creation time of the web page Y, and tp is the first creation of all the web pages to be judged This is the difference between the creation time of the created web page and the creation time of the last created web page.
また、類似度補正部4は、作成時刻検出部2によって検出された作成時刻に基づいて、ウェブページXの作成時刻とウェブページYの作成時刻との間に作成された他の判断対象のウェブページの数を検出する。類似度補正部4は、検出した数に応じた第4の補正係数C4を類似度Sに付与する。例えば、類似度補正部4は、以下に示す式(2)により特定される第4の補正係数C4を類似度Sに対して付与する。
In addition, the similarity correction unit 4 generates another determination target web created between the creation time of the web page X and the creation time of the web page Y based on the creation time detected by the creation
C4=exp(−β×(sn/tn) …(2)
βは、実験により決定される定数であり、snは、全ての判断対象のウェブページのうちの、ウェブページXの作成時刻とウェブページYの作成時刻との間に作成されたウェブページの数であり、tnは、全ての判断対象のウェブページの数である。
C4 = exp (−β × (sn / tn) (2)
β is a constant determined by experiment, and sn is the number of web pages created between the creation time of web page X and the creation time of web page Y among all the web pages to be judged. And tn is the number of all web pages to be determined.
また、類似度補正部4は、ウェブページXの単位期間あたりのアクセス数に応じた第5の補正係数C5を類似度算出部3によって算出された類似度Sに対して付与する。この場合、類似度補正部4は、先ず、ウェブページX及びウェブページYを含む全ての判断対象のウェブページそれぞれの単位期間あたりのアクセス数を取得部1に取得させる。そして、類似度補正部4は、以下に示す式(3)により特定される第5の補正係数C5を類似度Sに対して付与する。 Further, the similarity correction unit 4 gives a fifth correction coefficient C5 corresponding to the number of accesses per unit period of the web page X to the similarity S calculated by the similarity calculation unit 3. In this case, the similarity correction unit 4 first causes the acquisition unit 1 to acquire the number of accesses per unit period of all the determination target web pages including the web page X and the web page Y. And the similarity correction | amendment part 4 provides the 5th correction coefficient C5 specified by Formula (3) shown below with respect to the similarity S. FIG.
C5=exp(−γ×(n/N) …(3)
γは、実験により決定される定数であり、nは、ウェブページXの単位期間あたりのアクセス数であり、Nは、ウェブページX及びウェブページYを含む複数の判断対象のウェブページそれぞれの単位期間あたりのアクセス数の最大値である。
C5 = exp (−γ × (n / N) (3)
γ is a constant determined by experiment, n is the number of accesses per unit period of the web page X, and N is a unit of each of the plurality of web pages to be judged including the web page X and the web page Y This is the maximum number of accesses per period.
そして、類似度補正部4は、上述した全部の補正係数(第1の補正係数C1〜第5の補正係数C5)を加算し、加算することによって得た加算補正係数を類似度Sに乗算して類似度Sを補正する。 Then, the similarity correction unit 4 adds all the correction coefficients (first correction coefficient C1 to fifth correction coefficient C5) described above, and multiplies the similarity S by the addition correction coefficient obtained by the addition. Thus, the similarity S is corrected.
ここまでは、類似度補正部4が類似度算出部3によって算出されたウェブページXとウェブページYとの類似度Sを補正する動作を説明した。類似度補正部4は、その動作と同じ動作を類似度算出部3によって算出された全ての類似度に対して行い、それにより類似度算出部3によって算出された全ての類似度を補正し、全ての類似度について補正類似度を算出する(S14)。 So far, the operation in which the similarity correction unit 4 corrects the similarity S between the web page X and the web page Y calculated by the similarity calculation unit 3 has been described. The similarity correction unit 4 performs the same operation as that operation on all the similarities calculated by the similarity calculating unit 3, thereby correcting all the similarities calculated by the similarity calculating unit 3, The corrected similarity is calculated for all the similarities (S14).
関連ウェブページ特定部5は、類似度補正部4によって得られた複数の補正類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である補正類似度を検出する。そして、関連ウェブページ特定部5は、検出した各補正類似度について、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する(S15)。 The related web page specifying unit 5 has a corrected similarity that is equal to or higher than a reference value for determining that two web pages are related to each other among the plurality of corrected similarities obtained by the similarity correcting unit 4 Is detected. And the related web page specific | specification part 5 is a web page which mutually relates the web page of 2 judgment object used when calculating the correction similarity about each detected correction similarity. (S15).
ネットワーク図作成部6は、関連ウェブページ特定部5によって特定された2個のウェブページの組それぞれについて、その組を構成する2個のウェブページを、作成時刻検出部2によって検出された作成時刻の順に仮想的に並べて仮想的に線で結び、関連しているウェブページのネットワーク図を作成する(S16)。
For each set of two web pages specified by the related web page specification unit 5, the network diagram creation unit 6 creates two web pages constituting the set by the creation
ここで、関連ウェブページ特定部5及びネットワーク図作成部6の動作の具体例を図6(A)及び図6(B)を用いて説明する。図6(A)は、作成時刻の順に並べられた4個の判断対象のウェブページと、各判断対象のウェブページ間の類似度とを示す図である。図6(B)は、図6(A)の4個の判断対象のウェブページの関連しているウェブページ相互を線で結ぶことにより作成されたネットワーク図である。図6(A)及び図6(B)における横軸tは時間軸である。 Here, specific examples of operations of the related web page specifying unit 5 and the network diagram creating unit 6 will be described with reference to FIGS. 6 (A) and 6 (B). FIG. 6A is a diagram showing four determination target web pages arranged in the order of creation time and the similarity between each determination target web page. FIG. 6B is a network diagram created by connecting the web pages related to the four web pages to be judged in FIG. 6A with lines. The horizontal axis t in FIGS. 6A and 6B is a time axis.
説明の便宜上、図6(A)及び図6(B)に示される4個の判断対象のウェブページは、ウェブページA、ウェブページB、ウェブページC、及びウェブページDであると仮定する。図6(A)及び図6(B)における丸はウェブページである。また、図6(A)及び図6(B)における4個のウェブページのうちで、ウェブページAが最先に作成され、その次にウェブページBが作成され、その次にウェブページCが作成され、最後にウェブページDが作成されたと仮定する。 For convenience of explanation, it is assumed that the four web pages to be determined shown in FIGS. 6A and 6B are web page A, web page B, web page C, and web page D. The circles in FIGS. 6A and 6B are web pages. 6A and 6B, the web page A is created first, the web page B is created next, and then the web page C is created. Assume that the web page D was created and finally created.
また、図6(A)に示すように、ウェブページAとウェブページBとの補正類似度が0.8であり、ウェブページAとウェブページCとの補正類似度が0.8であり、ウェブページAとウェブページDとの補正類似度が0.3であり、ウェブページBとウェブページCとの補正類似度が0.2であり、ウェブページBとウェブページDとの補正類似度が0.3であり、ウェブページCとウェブページDとの補正類似度が0.6であると仮定する。更に、2個のウェブページ相互が関連していると判断するための基準値が0.5であると仮定する。 Further, as shown in FIG. 6A, the corrected similarity between the web page A and the web page B is 0.8, the corrected similarity between the web page A and the web page C is 0.8, The corrected similarity between web page A and web page D is 0.3, the corrected similarity between web page B and web page C is 0.2, and the corrected similarity between web page B and web page D Is 0.3, and the corrected similarity between the web page C and the web page D is 0.6. Further, it is assumed that the reference value for determining that two web pages are related to each other is 0.5.
このとき、関連ウェブページ特定部5は、ウェブページAとウェブページB、ウェブページAとウェブページC、ウェブページCとウェブページDそれぞれを、相互に関連しているウェブページであると特定する。ネットワーク図作成部6は、ウェブページAとウェブページB、ウェブページAとウェブページC、ウェブページCとウェブページDそれぞれを線で結び、図6(B)に示すネットワーク図を作成する。 At this time, the related web page specifying unit 5 specifies each of the web page A and the web page B, the web page A and the web page C, and the web page C and the web page D as mutually related web pages. . The network diagram creation unit 6 connects the web page A and the web page B, the web page A and the web page C, and the web page C and the web page D with a line, and creates the network diagram shown in FIG.
出力部7は、ネットワーク図作成部6によって作成されたウェブページのネットワーク図を通信装置10に出力する。
The output unit 7 outputs the network diagram of the web page created by the network diagram creation unit 6 to the
通信装置10は、ウェブページ関係評価装置30からのウェブページのネットワーク図を、通信ネットワーク400を介してクライアント端末装置200に出力する。クライアント端末装置200は、ウェブページ関係評価装置30によって得られたウェブページのネットワーク図を受信して表示装置250に表示させる。
The
これにより、ユーザは、自らが決定した検索キーワードと、その検索キーワードに関連するウェブページのうちの自らが選択したウェブページとに関連するウェブページについて、作成時刻の順に関連付けられたネットワークを知ることができる。つまり、ユーザは、自ら決定した検索キーワードに関連する複数のウェブページ相互の関連性を知ることができる。 As a result, the user knows the network associated with the search keyword determined by the user and the web page related to the web page selected by the user among the web pages related to the search keyword in the order of creation time. Can do. That is, the user can know the relevance between a plurality of web pages related to the search keyword determined by the user.
なお、上記の説明では、類似度補正部4は、第1の補正係数C1〜第5の補正係数C5の全部の補正係数を加算し、加算することによって得た加算補正係数を類似度Sに乗算して類似度Sを補正する。しかしながら、類似度補正部4は、第1の補正係数C1〜第5の補正係数C5の一部の補正係数を加算して加算補正係数を得て、その加算補正係数を類似度Sに乗算して類似度Sを補正してもよい。また、類似度補正部4は、第1の補正係数C1〜第5の補正係数C5の1個の補正係数を類似度Sに乗算して類似度Sを補正してもよい。 In the above description, the similarity correction unit 4 adds all the correction coefficients of the first correction coefficient C1 to the fifth correction coefficient C5 and adds the addition correction coefficient obtained by the addition to the similarity S. The similarity S is corrected by multiplication. However, the similarity correction unit 4 adds some correction coefficients of the first correction coefficient C1 to the fifth correction coefficient C5 to obtain an addition correction coefficient, and multiplies the similarity S by the addition correction coefficient. The degree of similarity S may be corrected. Further, the similarity correction unit 4 may correct the similarity S by multiplying the similarity S by one correction coefficient of the first correction coefficient C1 to the fifth correction coefficient C5.
また、上記の説明では、関連ウェブページ特定部5は、類似度補正部4によって得られた複数の補正類似度のうちの2個のウェブページ相互が関連していると判断するための基準値以上である補正類似度を検出する。しかしながら、関連ウェブページ特定部5は、類似度算出部3によって得られた(補正前の)複数の類似度のうちの上記基準値以上である類似度を検出してもよい。その場合、関連ウェブページ特定部5は、検出した各類似度について、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する。 In the above description, the related web page specifying unit 5 determines the reference value for determining that two web pages of the plurality of corrected similarities obtained by the similarity correcting unit 4 are related to each other. The corrected similarity as described above is detected. However, the related web page specifying unit 5 may detect a similarity that is equal to or higher than the reference value among a plurality of similarities (before correction) obtained by the similarity calculating unit 3. In that case, the related web page specifying unit 5 determines that for each detected similarity, the two web pages to be determined used when calculating the similarity are web pages that are related to each other. Identify.
(ウェブサイトを評価する動作)
次に、ウェブサイトを評価する動作(フェーズF3)を図7を用いて説明する。図7は、サイト評価装置40が行うウェブサイトを評価する動作の各ステップを示すフローチャートである。
(Action to evaluate website)
Next, the operation for evaluating the website (phase F3) will be described with reference to FIG. FIG. 7 is a flowchart showing steps of an operation for evaluating a website performed by the
サイト評価装置40は、通信装置10によって受信された全ての判断対象のウェブページをドメイン毎に分類し、それによって各ウェブサイトを特定する(S21)。ウェブサイトは、判断対象のウェブページのうちの共通するドメインを有するページの集合である。図8を用いてウェブサイトを説明する。図8は、ウェブサイトを説明するための図である。図8では、ウェブページH、ウェブページJ、ウェブページK、及びウェブページMは、同じドメインを有するウェブページであって、これらの集合がウェブサイトである。
The
したがって、図8では、ウェブページH、ウェブページJ、ウェブページK、及びウェブページMは、ウェブサイトGの下位のウェブページである。また、ウェブページH、ウェブページJ、ウェブページK、及びウェブページMのランクは、それぞれh、j、k、及びmである。ランクは、検索装置300によって決定される値である。例えば、一般的な検索エンジンを検索装置として用いた場合、ランクは検索結果の表示順位である。
Therefore, in FIG. 8, the web page H, the web page J, the web page K, and the web page M are lower-level web pages of the website G. The ranks of the web page H, the web page J, the web page K, and the web page M are h, j, k, and m, respectively. The rank is a value determined by the
次に、サイト評価装置40は、通信装置10を介してサイトアクセス数推定装置500を用い、各ウェブサイトへのアクセス数を取得する(図7のS22)。図8の例ではウェブサイトGのアクセス数gを取得する。
Next, the
次に、サイト評価装置40は、通信装置10を介して、ウェブサイト毎に、そのウェブサイトのドメインと同じドメインを有するウェブページのランクを取得する(図7のS23)。図8の例では、サイト評価装置40は、ウェブページH、ウェブページJ、ウェブページK、及びウェブページMそれぞれのランクを取得する。
Next, the
次に、サイト評価装置40は、ウェブサイト毎に、そのウェブサイトへのアクセス数とウェブサイトに所属するウェブページのランクを用い、任意の方法を用いて、そのウェブサイトの重要度を算出する(図7のS24)。
Next, for each website, the
最後に、サイト評価装置40は、重要度が大きい順に全てのウェブサイトに順位を付与する(図7のS25)。
Finally, the
通信装置10は、サイト評価装置40によって得られた各ウェブサイトのタイトルをその順位及びその重要度とともに、通信ネットワーク400を介してクライアント端末装置200に送信する。クライアント端末装置200は、サイト評価装置40によって得られた各ウェブサイトのタイトル、順位、及び重要度を受信し、各ウェブサイトのタイトルを順位にしたがって表示装置250に表示させる。その際、クライアント端末装置200は、各ウェブサイトの重要度もタイトルと組にして表示装置250に表示させる。
The
上述したように、本実施の形態では、ウェブページ関係評価装置30は、複数の判断対象のウェブページを、作成時刻の順に仮想的に並べ、それらの内で関連しているウェブページを仮想的に線で結び、それによりツリー状のウェブページのネットワーク図を作成する。作成されたネットワーク図において、時系列順の上位にあるサイトは情報に敏感であることを意味し、関連するサイトを時系列順の下位に多く持つサイトは情報を他のウェブサイトへ伝播する能力が高いことを意味する。また、サイト評価装置40は、各ウェブサイトの重要度を算出する。重要度にもとづき順位付けされたウェブサイトの一覧の上位にあるサイトは、アクセス数や検索装置でのランクからの観点から情報の伝播に高い影響力があることを意味する。
As described above, in the present embodiment, the web page
本発明装置に対し、例えば企業を中傷する事実無根の情報が伝播した事例に関連したキーワードを入力して上述の分析結果を得ることで、当該事例で情報伝播に大きな役割をはたしたウェブサイトをみつけることができる。当該サイトへの自粛要請を行うことで再発防止策の検討につなげることができる。また例えば、メーカーが自社製品発売の発表における広告効果分析を行いたい場合、複数の自社製品名を本発明装置に入力して上述の分析結果を得る。得られた分析結果のうち、多くの自社製品分析事例において高い情報伝播能力をもつとの結果が得られる傾向のあるサイトは、今後も自社製品発売の発表における情報伝播に大きな役割を持つと考えられる。このサイトに働きかけを行うことでより効果的な広告効果を得ることができる。 For example, a website that plays a major role in information propagation in the case by inputting a keyword related to a case where factless information that slanders a company is propagated and obtaining the above analysis result. Can be found. By requesting self-restraint to the site, it can lead to the study of recurrence prevention measures. In addition, for example, when a manufacturer wants to perform an advertisement effect analysis in the announcement of the release of its own product, a plurality of in-house product names are input to the device of the present invention to obtain the above analysis result. Of the analysis results obtained, sites that tend to have high information propagation capabilities in many cases of in-house product analysis will continue to play a major role in information propagation in the announcement of their product launches in the future. It is done. You can get a more effective advertising effect by working on this site.
なお、ウェブページ分析装置100を構成する各装置の機能は、例えばコンピュータのCPU及びメモリ等のハードウェアと、コンピュータプログラムとが協働することによって実現される。しかしながら、上記各機能は、専用の回路により実現される等、どのような形態により実現されてもよい。
Note that the functions of the devices constituting the web
また、ウェブページ関係評価装置30は、作成時刻検出部2、類似度算出部3、類似度補正部4、関連ウェブページ特定部5、及びネットワーク図作成部6それぞれに対応する専用のメモリを有していてもよいし、それら各構成部に共通のメモリを有していてもよい。それら各構成部は、処理するためのデータ及び処理結果を専用のメモリ又は共通のメモリに格納してもよい。
The web page
100 ウェブページ分析装置、 200 クライアント端末装置、 300 検索装置、 400 通信ネットワーク、 500 サイトアクセス数推定装置、 250 表示装置、 10 通信装置、 20 検索キーワード作成装置、 30 ウェブページ関係評価装置、 40 サイト評価装置、 1 取得部、 2 作成時刻検出部、 3 類似度算出部、 4 類似度補正部、 5 関連ウェブページ特定部、 6 ネットワーク図作成部、 7 出力部。 100 web page analysis device, 200 client terminal device, 300 search device, 400 communication network, 500 site access number estimation device, 250 display device, 10 communication device, 20 search keyword creation device, 30 web page relation evaluation device, 40 site evaluation Device, 1 acquisition unit, 2 creation time detection unit, 3 similarity calculation unit, 4 similarity correction unit, 5 related web page specification unit, 6 network diagram creation unit, 7 output unit.
Claims (8)
前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する類似度算出部と、
前記類似度算出部によって得られた複数の類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する関連ウェブページ特定部と
を備えるウェブページ関係評価装置。 An acquisition unit for acquiring information constituting each of a plurality of web pages to be determined;
Based on the information acquired by the acquisition unit, a creation time detection unit that detects the creation time of each of a plurality of determination target web pages;
Based on the information acquired by the acquisition unit, for each of a plurality of determination target web pages, a similarity calculation unit that calculates a similarity between each of the other determination target web pages;
When calculating the similarity for each of the similarities that are equal to or higher than a reference value for determining that two web pages are related to each other among the plurality of similarities obtained by the similarity calculating unit. A web page relationship evaluation device comprising: a related web page identifying unit that identifies the two web pages to be determined used in the above as web pages that are related to each other.
請求項1に記載のウェブページ関係評価装置。 Further, for each set of two web pages specified by the related web page specifying unit, two web pages constituting the set are virtually divided in the order of the creation time detected by the creation time detection unit. The web page relationship evaluation apparatus according to claim 1, further comprising a network diagram creation unit that creates a network diagram of web pages that are connected side by side and virtually connected with a line.
前記関連ウェブページ特定部は、前記類似度補正部によって得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する
請求項1に記載のウェブページ関係評価装置。 Further, based on the information acquired by the acquisition unit, for each similarity obtained by the similarity calculation unit, one of the two determination target web pages used when calculating the similarity When linked to the other, a similarity correction unit that calculates the correction similarity by multiplying the similarity by a correction coefficient,
The related web page specifying unit is used when calculating the corrected similarity for each of the corrected similarities that are equal to or more than the reference value among the plurality of corrected similarities obtained by the similarity correcting unit. The web page relationship evaluation apparatus according to claim 1, wherein the web pages to be determined are identified as web pages that are related to each other.
前記関連ウェブページ特定部は、前記類似度補正部によって得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する
請求項1に記載のウェブページ関係評価装置。 Further, based on the information acquired by the acquisition unit, for each similarity obtained by the similarity calculation unit, both of the two web pages to be judged used for calculating the similarity are different. A similarity correction unit that calculates a corrected similarity by multiplying the similarity by a correction coefficient when linked to the web page of
The related web page specifying unit is used when calculating the corrected similarity for each of the corrected similarities that are equal to or more than the reference value among the plurality of corrected similarities obtained by the similarity correcting unit. The web page relationship evaluation apparatus according to claim 1, wherein the web pages to be determined are identified as web pages that are related to each other.
前記関連ウェブページ特定部は、前記類似度補正部によって得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する
請求項1に記載のウェブページ関係評価装置。 Further, based on the creation time detected by the creation time detection unit, for each similarity obtained by the similarity calculation unit, two web pages to be used for calculating the similarity A similarity correction unit that calculates a correction similarity by multiplying the similarity by a correction coefficient according to the difference in creation time of
The related web page specifying unit is used when calculating the corrected similarity for each of the corrected similarities that are equal to or more than the reference value among the plurality of corrected similarities obtained by the similarity correcting unit. The web page relationship evaluation apparatus according to claim 1, wherein the web pages to be determined are identified as web pages that are related to each other.
前記関連ウェブページ特定部は、前記類似度補正部によって得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する
請求項1に記載のウェブページ関係評価装置。 Further, based on the creation time detected by the creation time detection unit, for each similarity obtained by the similarity calculation unit, two web pages to be used for calculating the similarity A similarity correction unit that calculates a correction similarity by multiplying the similarity by a correction coefficient according to the number of other web pages to be determined created during the creation time of
The related web page specifying unit is used when calculating the corrected similarity for each of the corrected similarities that are equal to or more than the reference value among the plurality of corrected similarities obtained by the similarity correcting unit. The web page relationship evaluation apparatus according to claim 1, wherein the web pages to be determined are identified as web pages that are related to each other.
前記取得部は、複数の判断対象のウェブページそれぞれの単位期間あたりのアクセス数を取得し、
前記類似度補正部は、前記取得部によって取得された複数の判断対象のウェブページそれぞれの単位期間あたりのアクセス数に基づいて、前記類似度算出部によって得られた各類似度について、その類似度を算出する際に用いられた2個の判断対象のウェブページのうちの先に作成されたウェブページの単位期間あたりのアクセス数に応じた補正係数をその類似度に乗算して補正類似度を算出し、
前記関連ウェブページ特定部は、前記類似度補正部によって得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する
請求項1に記載のウェブページ関係評価装置。 Furthermore, a similarity correction unit that corrects each similarity obtained by the similarity calculation unit,
The acquisition unit acquires the number of accesses per unit period for each of a plurality of web pages to be determined,
The similarity correction unit, for each similarity obtained by the similarity calculation unit based on the number of accesses per unit period of each of the plurality of determination target web pages acquired by the acquisition unit, the similarity Of the two web pages to be judged used for calculating the web page, the similarity is multiplied by a correction coefficient corresponding to the number of accesses per unit period of the previously created web page. Calculate
The related web page specifying unit is used when calculating the corrected similarity for each of the corrected similarities that are equal to or more than the reference value among the plurality of corrected similarities obtained by the similarity correcting unit. The web page relationship evaluation apparatus according to claim 1, wherein the web pages to be determined are identified as web pages that are related to each other.
取得した情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する機能と、
取得した情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する機能と、
算出した複数の類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する機能と
をコンピュータに実現させるためのプログラム。 A function of acquiring information constituting each of a plurality of web pages to be judged;
Based on the acquired information, a function that detects the creation time of each of a plurality of judgment target web pages,
Based on the acquired information, for each of a plurality of judgment target web pages, a function for calculating the similarity between each of the judgment target web pages,
Of the plurality of calculated similarities, two of the similarities that are equal to or higher than a reference value for determining that two web pages are related to each other are used for calculating the similarities. A program that causes a computer to realize the function of identifying a web page to be judged as a web page that is related to each other.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN200910092356.1 | 2009-09-11 | ||
| CN 200910092356 CN101639856B (en) | 2009-09-11 | 2009-09-11 | Webpage correlation evaluation device for detecting internet information spreading |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011060228A true JP2011060228A (en) | 2011-03-24 |
| JP5133953B2 JP5133953B2 (en) | 2013-01-30 |
Family
ID=41614840
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009212380A Expired - Fee Related JP5133953B2 (en) | 2009-09-11 | 2009-09-14 | Web page relation evaluation device that detects information propagation |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP5133953B2 (en) |
| CN (1) | CN101639856B (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115150297A (en) * | 2022-08-15 | 2022-10-04 | 北京百润洪科技有限公司 | Data filtering and content evaluation method and system based on mobile internet |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102541863B (en) * | 2010-12-14 | 2015-08-05 | 联芯科技有限公司 | A kind of Webpage compression method being applied to mobile terminal |
| CN102254038B (en) * | 2011-08-11 | 2013-01-23 | 武汉安问科技发展有限责任公司 | System and method for analyzing network comment relevance |
| CN116049893B (en) * | 2023-02-17 | 2023-12-22 | 飞渡航天科技有限公司 | Sensitive software big data processing method and server for coping with cloud service |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1153387A (en) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | Document association method and system |
| JP2001147936A (en) * | 1999-11-22 | 2001-05-29 | Ntt Data Corp | Document search system, method and recording medium |
| JP2004021665A (en) * | 2002-06-18 | 2004-01-22 | Hitachi Ltd | Information browsing method and device |
| JP2005122295A (en) * | 2003-10-14 | 2005-05-12 | Fujitsu Ltd | Relationship diagram creation program, relationship diagram creation method, and relationship diagram creation device |
| JP2009151373A (en) * | 2007-12-18 | 2009-07-09 | Nec Corp | Citation relation extraction system, citation relation extraction method, and citation relation extracting program |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100461019B1 (en) * | 2002-11-01 | 2004-12-09 | 한국전자통신연구원 | web contents transcoding system and method for small display devices |
| CN100442283C (en) * | 2005-10-20 | 2008-12-10 | 关涛 | Domain-oriented sample-based Internet structured data extraction method and system |
| CN1920815A (en) * | 2006-05-09 | 2007-02-28 | 上海态格文化传播有限公司 | Web page cleaning method based on web page content |
-
2009
- 2009-09-11 CN CN 200910092356 patent/CN101639856B/en not_active Expired - Fee Related
- 2009-09-14 JP JP2009212380A patent/JP5133953B2/en not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1153387A (en) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | Document association method and system |
| JP2001147936A (en) * | 1999-11-22 | 2001-05-29 | Ntt Data Corp | Document search system, method and recording medium |
| JP2004021665A (en) * | 2002-06-18 | 2004-01-22 | Hitachi Ltd | Information browsing method and device |
| JP2005122295A (en) * | 2003-10-14 | 2005-05-12 | Fujitsu Ltd | Relationship diagram creation program, relationship diagram creation method, and relationship diagram creation device |
| JP2009151373A (en) * | 2007-12-18 | 2009-07-09 | Nec Corp | Citation relation extraction system, citation relation extraction method, and citation relation extracting program |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115150297A (en) * | 2022-08-15 | 2022-10-04 | 北京百润洪科技有限公司 | Data filtering and content evaluation method and system based on mobile internet |
| CN115150297B (en) * | 2022-08-15 | 2023-05-19 | 雁展科技(深圳)有限公司 | Data filtering and content evaluating method and system based on mobile internet |
Also Published As
| Publication number | Publication date |
|---|---|
| CN101639856B (en) | 2011-05-11 |
| JP5133953B2 (en) | 2013-01-30 |
| CN101639856A (en) | 2010-02-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8504583B1 (en) | Multi-domain recommendations | |
| JP4764864B2 (en) | Information propagation extracting apparatus and information propagation extracting method | |
| US8577859B2 (en) | Method and system for aggregating searchable web content from a plurality of social networks and presenting search results | |
| US8819006B1 (en) | Rich content for query answers | |
| US8478735B1 (en) | Method and system for ranking results and providing lists of experts from social networks | |
| US8688667B1 (en) | Providing intent sensitive search results | |
| US9135307B1 (en) | Selectively generating alternative queries | |
| US9032289B1 (en) | Providing suggestions to users to write comments | |
| US10248732B2 (en) | Identifying related entities | |
| US9020922B2 (en) | Search engine optimization at scale | |
| US20090187516A1 (en) | Search summary result evaluation model methods and systems | |
| US20140108376A1 (en) | Enhanced detection of like resources | |
| JP2015079395A (en) | Information processing device, method, and program | |
| CN102880694A (en) | Browser client and method for loading classified channels in new tab | |
| US20170017668A1 (en) | Images for query answers | |
| WO2019108158A1 (en) | Superimposed communication by object oriented resource manipulation on a data network | |
| Kwangsawad et al. | The performance evaluation of a website using automated evaluation tools | |
| US8949229B1 (en) | Measuring video content of web domains | |
| JP5133953B2 (en) | Web page relation evaluation device that detects information propagation | |
| US9514194B1 (en) | Website duration performance based on category durations | |
| JP2017068547A (en) | Information providing device, program, and information providing method | |
| JP2009015589A (en) | Related document presentation system and program | |
| Isaac et al. | Child safety education and the world wide web: an evaluation of the content and quality of online resources | |
| JPWO2014027415A1 (en) | Information providing apparatus, information providing method, and program | |
| KR20150045236A (en) | Method and apparatus for managing scrap information |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120209 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120813 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121015 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121106 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121108 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151116 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5133953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |