JP2008181186A

JP2008181186A - クエリーログを利用したキーワードとサイトの関連度を求める方法

Info

Publication number: JP2008181186A
Application number: JP2007012402A
Authority: JP
Inventors: Sumio Fujita; 澄男藤田
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2007-01-23
Filing date: 2007-01-23
Publication date: 2008-08-07

Abstract

【課題】クエリーログを利用して、検索キーワードとサイトとの関連性を求める新たな方法を提供すること。
【解決手段】ユーザ端末と検索サーバの間に位置するサーバが、ユーザ端末からキーワードによる検索を行った際に、独自の検索結果ページを生成し、該ユーザの端末に表示する。本サーバは、ユーザの検索結果におけるクエリーログを格納するクエリーログ記憶手段を備え、ユーザが検索を行った際のセッションのＩＤ、検索結果ページからユーザがクリックしたＷｅｂページのＵＲＬ、該Ｗｅｂページのリンクをクリックした際の日時、及び前記キーワードをクエリーログ記憶手段に集積するステップと、クエリーログ記憶手段を用いて、キーワード毎にＵＲＬのクリック数を集計するステップと、クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、を含む。
【選択図】図１

Description

本発明は、クエリーログを利用したキーワードとサイトの関連度を求める方法に関する。より詳しくは、キーワード検索の検索結果におけるクリックログを含むクエリーログを利用したキーワードとサイトの関連度を求めるための方法、サーバ、及びプログラムに関する。

今日、インターネットを用いて膨大な情報の中から、誰もがいつでも欲しい情報を検索することが可能になった。ある情報を求めるユーザは多くの場合、インターネット上の各種検索サイトでその情報の特徴を表すキーワードを入力してクエリー（照会）を行う。このようなクエリーを行うことにより、検索サイトの検索エンジンが、インターネット上でＷｅｂサイトの検索を行い、その結果として検索結果ページがユーザに表示される。この検索結果ページには、数々の情報を記述したＷｅｂサイトへのリンクが、検索サイトの検索エンジンによって定められた優先順位にしたがって表示される。

しかし、この検索結果ページから得たリンク先のＷｅｂサイトの情報には、必ずしもユーザの求める情報が含まれず、入力したキーワードとの関連性の低いものも存在する。検索結果ページで最初にクリックしたリンク先に求める情報がなかった場合には、多くの場合、ユーザは次の表示順位のリンク先のページを順にたどってゆくことになる。そのため、検索結果ページにはキーワードと関連の深いＷｅｂサイトほど表示されることが望ましい。一方、アダルト、暴力、グロテスク、差別語等、子供等の特定のユーザにとっては、不適切、若しくは「有害」な情報を含んだサイトも多数存在するので、このようなサイトは、場合によってはそのユーザの検索結果ページに表示されないようにすることも必要である。

そのため、このような「有害」サイトをフィルタリング（データ内容を検査して通過されるかどうかを判定すること）を行う方法が多数存在する。例えば、特許文献１には、予め登録したキーワードファイルを読み込み、そのキーワードに基づく検索を定期的に自動で行って、検索結果情報から抽出した「不良ＵＲＬ（ＵｎｉｖｅｒｓａｌＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｏｒ）」を不良ＵＲＬデータベースに登録し、クライアント装置からの送信要求情報をＷｅｂサーバへ送信するか否かを判定する管理サーバが開示されている。
特開２００４−４６７３９号公報

しかしながら、上記特許文献１の管理サーバにおいて、キーワードに基づいて「不良ＵＲＬ」をどのように抽出するのかについては具体的には記載されていない。今日、「有害」サイトと呼ばれるものは膨大な数が存在する一方、「不適切」なキーワードを含んでいても「健全」なサイトも多数存在する（例えば、時事ニュースや評論、解説記事等のサイト）。そのため、「有害」サイトの自動抽出には限界があり、このようなサイトの抽出は、専門業者等人手による方法が広く用いられているのが現状である。一方、機械学習的な方法によって自動的にフィルタリングする方法も存在するが、計算量の多さや学習のためのトレーニングデータ等の作成に手間がかかる等の問題がある。また、この方法は、「有害」サイトの入り口に十分な語句がなく、もっぱら画像のみでページが構成されている場合には適用できない。

本発明は、上記課題に鑑み、多数のユーザが実際に行った検索のクエリーのログを利用して、検索に用いたキーワードとＷｅｂサイトとの関連度を経験的に求める新たな方法等を提供することを目的とする。

本発明では、以下のような解決手段を提供する。

（１）通信ネットワークを介して複数のユーザの端末と接続可能なサーバがキーワードとＷｅｂサイトの関連度を求める方法であって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの前記検索結果ページからのクリックログを格納するクエリーログ記憶手段を備え、
前記サーバにおいて、
前記ユーザが前記検索を行った際のセッションのＩＤ、前記検索結果ページから前記ユーザがクリックしたＷｅｂページのＵＲＬ、該Ｗｅｂページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記ＵＲＬに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内の各キーワードを含むクエリーログを抽出するステップと、
を含む方法。

このような構成によれば、このサーバは、ユーザがキーワードによる検索を行った際に、（検索エンジンが求めた検索結果から）独自の検索結果ページを生成し、ユーザの端末に表示する手段（具体的には検索結果ページのＵＲＬを送信する）を有する。この検索結果ページに表示されたリンク先をユーザがクリックすると、前記の検索を行った際のセッションＩＤ、クリックされたリンク先のＵＲＬ、クリックしたときのアクセス日時、検索の時に用いたキーワード（キーワードは複数であってもよい）を、本サーバに接続されたクエリーログ記憶手段（例えば後述のクエリーログ・データベース）に格納する。そして、このクエリーログ記憶手段を用いて、検索時のキーワード毎に、検索結果ページからユーザが実際にクリックしたＵＲＬのクリック数を集計する。そして、別に予め定められた所定のキーワード・リスト（例えば、有害サイトを抽出するためのキーワード・リスト）内の各キーワード（シードクエリーとも呼ぶ）を含むクエリーログを前記のクエリーログ記憶手段から抽出する。

このことにより、ユーザが様々なキーワードを用いて検索した結果である検索結果ページから、実際にそのユーザがクリックしたＵＲＬをクエリーログ・データベース等の記憶手段に、多数集積することができ、そのキーワードとクリックされたＵＲＬ集合の中から所定のキーワード・リストにマッチするＵＲＬを抽出し、この抽出されたキーワードとＵＲＬ集合を用いてサイトの収集や検証に役立てることができる。

（２）前記抽出したクエリーログに含まれるＵＲＬのクリック数の頻度の高い順に、前記ＵＲＬを、前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、（１）に記載の方法。

このような構成によれば、サイト検証者（特定の種類のＷｅｂサイトを収集し、それらのサイトが実際にその種類にあっているかどうかを検証する者）が、例えば、ペアレンタル・コントロールのために有害サイトのリストを集めようとしたとき等に、ユーザのクリック数が多い（すなわち、実際に有害度の影響も高いと考えられる）サイトを優先的に表示してサイト検証者の検証効率を高めることができる。

（３）前記抽出したクエリーログに含まれる各ＵＲＬに対するアクセス日時から、前記ユーザがクリックしたＷｅｂページにおける滞在時間を計算し、同一頻度のクリックのＵＲＬに対しては、前記滞在時間の長い順に前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、（２）に記載の方法。

このような構成によれば、ユーザが特定のＵＲＬをクリックしたアクセス日時からそのＵＲＬのＷｅｂページの滞在時間を何らかの方法で取得することによって、同じクリック数のＵＲＬがあった場合でも、滞在時間の長いＷｅｂページは、ユーザの求める情報がより多くあったと考え、すなわち、ユーザが入力した検索キーワードとそのＵＲＬを持つサイトの関連度が高いものとして、そのＵＲＬを優先的に表示させることで検証の効率をあげることができる。

（４）前記抽出したクエリーログに含まれる各ＵＲＬに対するアクセス日時から、前記ユーザがクリックしたＷｅｂページにおける滞在時間を計算し、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、（１）に記載の方法。

このような構成によれば、クリック数と滞在時間から求めた重み度（ウェイト）を掛け合わせ、その値をサイトの関連度として考える。この際、（３）のように同一頻度のＵＲＬにのみ滞在時間を求めるのでなく、クリックされた全てのＵＲＬに対して滞在時間を求め、それをクリック数に対する重み付けとする。その結果、キーワードとサイトの関連度を多面的に求めることができる。

（５）前記滞在時間は、前記検索結果ページに掲載されるＷｅｂページにおいて、前記ユーザが、あるＷｅｂページへのリンクをクリックした時刻と次に別のＷｅｂページへのリンクをクリックした時刻との差によって求める、（３）または（４）に記載の方法。

このような構成によれば、あるＷｅｂページへのリンクをクリックした時刻と次に別のＷｅｂページへのリンクをクリックした時刻との差によって先にクリックしたＵＲＬにおけるユーザ滞在時間（閲覧時間）を求めることができる。すなわち、滞在時間をクエリーログに保存されたアクセス日時（時刻）から容易に求めることができる。なお、この方法では、セッションの最後にクリックしたＵＲＬは、次のＵＲＬが存在しないため、滞在時間として十分大きい値、例えば３０分とする、を便宜的に与えることにする。

（６）前記検索結果ページに掲載するＷｅｂページへのリンクは、リダイレクタのＵＲＬであり、前記ユーザが前記リンクをクリックすると、前記リダイレクタによって本来のリンク先にリダイレクトされる、（１）に記載の方法。

このような構成によれば、検索結果ページに掲載されるＷｅｂページへのリンクは直接そのＷｅｂページのＵＲＬでなく、予め設定されたリダイレクタのページのＵＲＬとする。その結果、ユーザが検索結果ページから、あるＷｅｂページへのリンクをクリックすると、いったんリダイレクタのページに飛び、リダイレクタがユーザのクリックした時の時刻やクリック数をカウントし、クエリーログに保存した後、本来のＷｅｂページにリダイレクトする。こうようにすることで、ユーザには意識させずにユーザのクエリーログを容易に集積することができる。

（７）前記サイト検証者のための特定のＵＲＬに対する滞在時間に関するスコアであるＵＲＬ＿Ｓｃｏｒｅ（ｕ）を、次の数式によって求める（４）または（５）に記載の方法。

ただし、ｔ（ｓ）：セッションｓにおけるＵＲＬｕの滞在時間
ｑ：シードクエリー
Ｓ：セッション集合
Ｑ：同種のサイトを検索するためのシードクエリーの集合
ＵＲＬ＿Ｓｃｏｒｅ（ｑ，ｕ）：シードクエリーｑに対するＵＲＬｕのスコア

ここでシードクエリーとは、サイト検証者がサイトを収集するために用いるキーワードを意味する。このような構成によれば、同種のサイトを求めるシードクエリーがキーワード・リストとして複数ある場合でも、特定のＵＲＬに対してその滞在時間の和をそのシードクエリーに対するスコアとして求め、そのスコアをシードクエリーの集合全てにおいて加算することで、ＵＲＬのあるシードクエリーの集合に対する全体スコアを求める。そして、この全体スコアの高いＵＲＬを優先的に表示すれば検証の効率をあげることができる。なお、シードクエリーの集合は、予めサイト検証者がキーワード・リスト等で定義しておく。

（８）上記集計するステップは、所定の時間間隔毎に定期的に行う、（１）〜（７）に記載の方法。

このような構成によれば、本発明のサーバは、定期的に（例えば２４時間毎、１週間毎、１ヶ月毎等）、与えられたキーワード・リストによるサイトの検索を自動的に行うので、新規のサイトが登場した場合でも直ちにサイト検証の対象に加えることができる。

（９）前記所定のキーワード・リストが、キーワードとして、有害サイトを識別するペアレンタル・コントロールのための所定の猥褻語、差別語を含む、（１）〜（８）に記載の方法。

本発明の方法は、ペアレンタル・コントロールにおける有害サイトの識別に利用できる。所定の卑猥語、差別語は、サイト検証者によってキーワード・リストによって入力される。

（１０）前記所定のキーワード・リストが、キーワードとして、ネットオークションにおける所定の取引禁止物品名を含む、（１）〜（８）に記載の方法。

本発明の方法は、ネットオークションの所定の取引禁止物品名（例えば、「医薬品」、「麻薬」、「武器類」、「取引禁止動植物」、「猥褻品」等に分類される物品名）を含む出品ページの検索に利用できる。所定の取引禁止物品名は、サイト検証者によって当該ネットオークションの規定に基づきキーワード・リストによって入力される。

（１１）通信ネットワークを介して複数のユーザの端末と接続可能でキーワードとＷｅｂサイトの関連度を求めるためのサーバであって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成する検索結果ページ生成部と、
該ユーザの検索結果におけるクエリーログを格納するクエリーログ・データベースと、
前記ユーザが前記検索を行った際のセッションのＩＤ、前記検索結果ページから前記ユーザがクリックしたＷｅｂページのＵＲＬ、該Ｗｅｂページへのリンクをクリックした際のアクセス日時、及び前記キーワードを格納するクエリーログ保存部と、
前記クエリーログ・データベースを用いて、前記キーワード毎に前記ＵＲＬに対するクリック数を集計するクリック数集計部と、
前記クエリーログ・データベースから、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するクエリーログ抽出部と、
を備えるサーバ。

このような構成によれば、（１）に記載の方法と同様な作用効果を有するサーバ装置が提供できる。

（１２）前記抽出したクエリーログに含まれるＵＲＬのクリック数の頻度の高い順に、前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、（１１）に記載のサーバ。

このような構成によれば、（２）に記載の方法と同様な作用効果を有するサーバ装置が提供できる。

（１３）前記サーバは、前記ユーザがクリックしたＷｅｂページにおける滞在時間を計算する滞在時間計算部を更に備え、同一頻度のクリック数のＵＲＬに対しては、前記滞在時間の大きい順に前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、（１２）に記載のサーバ。

このような構成によれば、（３）に記載の方法と同様な作用効果を有するサーバ装置が提供できる。

（１４）前記抽出したクエリーログに含まれる各ＵＲＬに対するアクセス日時から、前記ユーザがクリックしたＷｅｂページにおける滞在時間を計算する滞在時間計算部を更に備え、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示する手段を更に含む、（１１）に記載のサーバ。

このような構成によれば、（４）に記載の方法と同様な作用効果を有するサーバ装置が提供できる。

（１５）通信ネットワークを介して複数のユーザの端末と接続可能なサーバにおいてキーワードとＷｅｂサイトの関連度を求めるためのコンピュータ・プログラムあって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの検索結果におけるクリックログを格納するクエリーログ記憶手段を備え、
前記サーバに、
前記ユーザが前記検索を行った際のセッションのＩＤ、前記検索結果ページから前記ユーザがクリックしたＷｅｂページのＵＲＬ、該Ｗｅｂページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記ＵＲＬに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
を実行させるコンピュータ・プログラム。

このような構成によれば、（１）に記載の方法と同様な作用効果を有するサーバ装置を実現させる手段として、コンピュータ・プログラムの形態で本発明を提供できる。

本発明によれば、キーワード検索におけるクリックログやアクセス日時を含むクエリーログを用いることで、サイト検証者が、例えば、有害サイトのページ、アクセス制限対象サイトのページ、オークションにおける取引禁止物品の出品ページ、特定主題に対する話題のサイトのページ等を効率的にかつ持続的に収集することができる。

以下、本発明の好適な実施形態について図を参照しながら説明する。

［クエリーログ集計サーバの構成］
図１は、本発明の好適な実施形態の一例に係るシステムの全体構成、及びその中核となるクエリーログ集計サーバの機能ブロックを示す図である。本システムの全体構成としては、クエリーログ集計サーバ１０が、複数のユーザ端末２０とインターネット２１を介して接続され、更に検索サーバ３０とネットワーク３１を介して接続される。ネットワーク３１は、任意の通信ネットワークであってよく、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）であっても、またインターネットであってもよい。ユーザは、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）やＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、携帯電話機等のユーザ端末２０から、検索キーワードを用いてインターネット上で求める情報が存在するＷｅｂサイトを検索する。一般ユーザがキーワードを用いて検索サイト等で行う検索を、本明細書ではクエリー（照会）と呼んでいる。また、サイト検証者がサイトを収集するために用いるキーワードをシードクエリーと呼んでいる。通常、クエリー要求は、検索サーバ３０に送信され、検索サーバ３０のクエリー受付部３２でキーワードを受信し、種々の公知の検索エンジン３３を用いて検索処理がなされる。この検索サーバ３０は、インターネットを介して、直接的または間接的にユーザ端末２０と通信可能であるが、本発明では、ユーザ端末２０と検索サーバ３０との間にクエリーログ集計サーバ１０を接続する。すなわち、クエリーログ集計サーバ１０は、ユーザ端末２０と検索サーバ３０との仲立ちをする役目を担う。

クエリーログ集計サーバ１０は、ユーザ端末２０からクエリー要求を受け取ると、検索サーバ３０にそれを転送する。このとき、そのクエリーのセッションのＩＤを記憶しておく。検索サーバ３０から、対応するセッションＩＤを含んだユーザのクエリーに対する検索結果を受け取ると、検索結果生成部１１がユーザ端末２０に対して独自の検索結果ページを生成する。通常、検索結果ページには、キーワードにマッチする（と判断された）Ｗｅｂページへのリンクが含まれるが、本サーバ１０は、後述するリダイレクタによる方法で、ユーザがこの独自の検索結果ページに掲載されたリンク先をクリックするたびに、クエリーログ保存部１２によって、ユーザのクエリーログを保存する。このクエリーログには、セッションＩＤの他、検索結果ページからユーザがクリックしたＷｅｂページのＵＲＬ、該Ｗｅｂページへのリンクをクリックした際のアクセス日時、及び検索に用いたキーワードが含まれる。

クエリーログのデータは、クエリーログ・データベース（クエリーログＤＢ１７；以降、データベースはＤＢと略することがある）に格納される。クエリーログＤＢ１７に蓄積された多数のユーザのクエリーログは、クエリーログ集計サーバ１０の集計部（図示せず）によって、適時集計作業が行われる。集計部は、例えば、クリック数集計部１３と滞在時間計算部１４によって構成され、クエリーログ中のデータをクエリーに用いられたキーワードと、クリックされたＵＲＬを一定の時間間隔（例えば２４時間毎、１週間毎、１ヶ月毎等）で自動的に集計する。得られた各種集計情報は、クエリーログＤＢ１７に格納されるか、あるいは別のデータベースに格納されてもよい。また、このような各種データベースは、クエリーログ集計サーバ１０の記憶部１０ｂとして構成されてもよいが、サーバの外部に接続するように構成されてもよい。

また、クエリーログ集計サーバ１０は、ネットワーク３１を介して、または図のように直接的に表示部／操作部１６を介して、サイト検証者端末４０と接続される。サイト検証者とは、特定の種類のＷｅｂサイトを収集し、それらのサイトが実際にその種類「分類」にあっているかどうかを検証する者である。サイト検証者は、クエリーログＤＢ１７に蓄積されたデータを用いて、求める種類のサイト（例えば「有害」サイト等）を収集し、その内容を検証する。具体的には、サイト検証者は、サイトを収集するためのキーワード・リストを作成し、それをクエリーログ集計サーバ１０に入力する。キーワード・リストが多数あるときは、キーワード・リストＤＢ１８に登録、格納するようにしてもよい。

クエリーログ抽出部１５は、この予め定められたキーワード・リストに含まれるキーワード（１語のキーワードまたは複数のキーワードの組であってもよい）に対して、後述するような方法で、関連度の高いサイトのＵＲＬを抽出する。抽出した結果は、何らかの方法（例えば順位づけて表示する等）でサイト検証者によって利用される。

なお、このようなクエリーログ集計サーバ１０の各機能部１１〜１５は、制御部１０ａ（典型的にはコンピュータのＣＰＵによって実行される機能）を構成する。また、上記の実施形態では、判り易いように、クエリーログ集計サーバ１０と検索サーバ３０は、別個のサーバであるとして説明したが、必ずしもこの構成に限定される必要はなく、検索サーバ３０に、クエリーログ集計サーバ１０の機能を含ませてもよい。

図２は、上記システムにおける以上の処理の流れをまとめた図である。詳細は前述の説明と重複するので省略する。なお、この図では、クエリーログ集計サーバ１０のクエリーログ集計処理は示していないが、クエリーログ集計処理は、ここでの処理とは独立して行われる（後述）。

図３は、クエリーログを集計するための一つの方法として、リダイレクタ４２の概念を示す図である。クエリーログ集計サーバ１０の検索結果ページ生成部１１は、検索サーバ３０からユーザのクエリーに対する検索結果を受け取ると、検索結果ページ４１に掲載された各Ｗｅｂページへのリンク先をリダイレクタ４２のＵＲＬに置き換える。そして、このリダイレクタのＵＲＬを含んだ検索結果ページ４１を、ユーザ端末２０に返信する。ユーザが受信した検索結果ページ４１から、所望のＷｅｂページへのリンク（例えば、ページＡリンク）をクリックすると、実際にはリダイレクタ４２にジャンプする。

リダイレクタ４２は、ユーザが検索結果ページに掲載されたＷｅｂページのリンクをクリックしたとき、クエリーに対する各種データを、具体的には、ユーザ端末２０のＩＰアドレス（固定ＩＰアドレスでなくてもよい）、Ｗｅｂページへのリンクをクリックした時のアクセス日時、クエリーセッションのセッションＩＤ、ユーザがクエリーに用いた一または複数のキーワード、及びユーザが検索結果ページからクリックしたＷｅｂページの本来のＵＲＬ等、クエリーログデータ４４として、クエリーログＤＢ１７へ保存する。その後、ユーザを本来のリンク先のＷｅｂページ（リンク先ページ４３）へジャンプさせる。このようにして、リダイレクタ４２を用いることによって、クエリーログ集計サーバ１０は、ＩＰアドレスで識別されるユーザ毎、セッションＩＤで識別されるセッション毎にクエリーログを容易に集めることができる。

図４は、クエリーログＤＢ１７に格納されるクエリーログデータ４４の一例を示す図である。図示するように、この表ではユーザ端末２０を識別するためのＩＰアドレス、検索結果ページからクリックしたアクセス日時、クエリーのセッションＩＤ、クエリーに用いられたキーワード、及び実際にクリックしたＵＲＬが表形式で格納されている。この例では、ユーザ端末２０（ＩＰアドレス１１０．１４９．１４５．１）から、クエリーセッションＩＤ：Ｂｐ４ｅｄ６９１７において、クエリーキーワードとして「無修正」ａｎｄ「画像」を用いて検索した結果、得られた検索結果ページから、表の右端に示すような５つのＵＲＬを実際に、ユーザが２００６年１０月６日２１：４５：５３の時点から順次Ｗｅｂページへのリンクをクリックしていったときのアクセス日時（時刻）が記録されている。

なお、特に図示していないが、検索結果ページ上での各ＵＲＬの表示順位（ランク）も記録するようにしてもよい。これは、検索結果ページの上位にあるリンクほどユーザがクリックする確率が高いため、それを考慮に入れることを可能にするためである。例えば、検索結果ページの第１ページに表示されたリンク（Ｙａｈｏｏ！検索では、１位から１０位までを１ページに表示されるようにしている）は、クリックされる率が高いことが知られている。したがって、２ページ目以降に表示されたリンクがクリックされた場合には、１ページ目にあるリンクより高い重み度を与えるようにしてもよい。

図５は、クエリーログ集計サーバ１０の集計処理手順の一例を示す図である。まず、ステップＳ１において、クエリーログの集合を取得する。すなわち、一定の集計期間の全ユーザのクエリーログをセッションＩＤ毎に集める。

次に、ステップＳ２において、上記の集合をアクセス日時でソートする。更に、ステップＳ３において、あるセッションにおける一つのＵＲＬに対するアクセス日時と、次にクリックしたＵＲＬに対するアクセス日時の差を求め、これを最初のＵＲＬにおける滞在時間とする。この処理をセッション内の全てのＵＲＬに対して繰り返す。これについて詳しくは次の図６に示す。

図６は、Ｗｅｂページの滞在時間を求める方法の概略を示す図である。この図は、Ｙａｈｏｏ！検索において、ユーザが検索キーワードとして、「ＡＡＡ」ａｎｄ「ＢＢＢ」を用いて検索した結果として、検索結果ページ５０が表示された例を示している。ここでは実際には、「ＡＡＡ」は「無修正」、「ＢＢＢ」は「画像」の用語を用いた。この検索結果では、約６００万件以上のサイトがヒットしているが、サイト検証者がこの全てのサイトを検証するのは、非常に困難である。

ユーザは、例えば、検索結果ページ５０の第１順位の「ＡＡＡＢＢＢ最前線」ページを時刻ｔ１ｓにおいてクリックし、「ＡＡＡＢＢＢ最前線」のリンク先ページであるＷｅｂページ５１を閲覧した後、ブラウザの「戻る」ボタンを時刻ｔ１ｅに押して、検索結果ページ５０に戻る。同様に、第２順位の「ＡＡＡＢＢＢの宝庫」のリンク先ページであるＷｅｂページ５２を時刻ｔ２ｓにおいてクリックし、時刻ｔ２ｅに戻ったとする。このとき、ページ５１におけるユーザの滞在時間は、ｔ１ｅ−ｔ１ｓであり、ページ５２の滞在時間は、ｔ２ｅ−ｔ２ｓである。しかしながら、ｔ１ｅから次のｔ２ｓまでの時間は、一般的に短く無視し得るので、本発明の方法では、ｔ１ｅがｔ２ｓにほぼ等しいとする。すなわち、ページ５１の滞在時間は、近似的にｔ２ｓ−ｔ１ｓで求めることができる。次のページ５２以降についても同様にして滞在時間を求める。

ただし、仮に、ページ５２がこのクエリーセッションにおける最後の閲覧ページであった場合は、次にクリックしたページが存在しないので、上記の方法は使えない。しかし、この場合は（次のＵＲＬが存在しない場合）、滞在時間として十分に長い時間、例えば３０分、をセットするようにする。あるいは、最後のＵＲＬの重み度を通常のウェイトより多くするように調整してもよい。例えば、最後のＵＲＬ以外の平均滞在時間を２倍して最後のＵＲＬの滞在時間としてもよい。これは、最後にクリックしたページには、ユーザの求める情報が存在した確率が高いからである。すなわち、キーワードとサイトとの関連が高いと推察できる。このようにして本発明の実施形態では、滞在時間の計算を近似的に求めているが、ブラウザの「戻る」ボタン等の押下を何らかの方法でリダイレクタ４２が検出できるようにし、滞在時間をより正確に求めるようにしてももちろんよい。

滞在時間の計算ステップが終わると、図５のステップＳ４に戻り、クリック済みのＵＲＬをクリック数の多い順に、すなわち高頻度順にソートする。次に、ステップＳ５において、同一頻度のクリック数のＵＲＬに対しては、滞在時間順にソートして集計処理を終わる。なお、ステップＳ５は、同一頻度のＵＲＬに対してのみでなく、全てのＵＲＬに対して滞在時間を求め、更にそこから重み度（ウェイト）を求め、その値とクリック頻度を掛け合わせた値の順にソートするようにしてもよい。例えば、滞在時間が３０秒以内の場合は、重み度を１とし、以後滞在時間が３０秒増える毎に重み度を１加えるようにする。こうすることによって、クリック頻度が高くても滞在時間の短いＷｅｂページは、キーワードに対する関連度が低いか、Ｗｅｂページのタイトルと内容がマッチしてないか等の理由が考えられ、このようなＷｅｂページは、相対的に順位が低くなるのでサイト検証効率のアップに役立つ。

また、前述したように、検索結果ページ上に表示される順位（ランク）を、別にウェイトとして考慮してもよい。例えば、検索結果ページの上位にランクされるＷｅｂページが多数クリックされるのは当然であるので、ランクが低いにも関わらず、クリック数が所定の数より多いＵＲＬ、またはクリック率が高いＵＲＬに対しては、ウェイトを２倍にする等の方法が考えられる。

また、サイト検証者のための特定のＵＲＬに対する滞在時間に関するスコアであるＵＲＬ＿Ｓｃｏｒｅ（ｕ）を、次の数式によって求める。

このようにすることで、サイト検証者のための同種のサイトを求めるシードクエリーが複数ある場合でも、特定のＵＲＬに対してその滞在時間の和をスコアとして求め、そのスコアをシードクエリーの集合全てにおいて加算することで、ＵＲＬ毎のスコアを求める。

図７は、クエリーログＤＢ１７に格納されるクエリーログ集計結果データの一例を示す図である。ここでは、検索キーワード（クエリーに用いたキーワード）「ＡＡＡ」に対してＵＲＬ毎に集計した結果が示されている。例えば、ＵＲＬｈｔｔｐ：／／ｘｘｘ．ａａａ．ｂｂｂは、２００６年１２月１日１２時０分に集計されたときには、クリック数１４３、滞在時間から求めたウェイト（重み度）は、４３であったが、次の２４時間の２００６年１２月２日１２時０分には、クリック数１８９、ウェイト８９になっている。この例では、集計期間として２４時間毎のデータを集めているが、これらを更に集めて、例えば、１週間毎、１ヶ月毎の集計データも作成してよい。またこの例では、単一のキーワード「ＡＡＡ」のみを示しているが、複数の単語、例えば、「ＡＡＡ」ａｎｄ「ＢＢＢ」、「ＡＡＡ」ｏｒ「ＢＢＢ」も一つのキーワードとして集計する。

［実施例］
図８は、本発明の一実施例として、ペアレンタル・コントロールでの活用方法を示した図である。この例では、クエリーログＤＢ１７に、符号７２で示す集計結果データ表が格納されているとする。この集計結果データ７２は、図７で説明した表と基本的には同様である。また、この例では有害サイトの検証者は、キーワード・リスト７５をＮＧキーワードＤＢ７４に格納することで、クエリーログ集計サーバ１０に入力しているものとしている。キーワード・リスト７５には、卑猥、暴力、差別、グロテスク等に分類されるキーワードが入力されている。

クエリーログ集計サーバ１０は、このキーワード・リスト７５と集計結果データ表７２を比較し、集計結果データ表７２からＮＧキーワード（ここでは、「ｄｄｄ」、「ｂｂｂ」、「ｆｆｆ」）を含む情報（集計データレコード）を抜き出す（符号７３で示す処理）。そして、この集計データレコードから、クリック数とウェイトを掛け合わせて関連度を計算する。この例では、ＮＧキーワード「ｄｄｄ」とＵＲＬｈｔｔｐ：／／ｘｘｘの関連度は１６８２１となる。同様に、ＮＧキーワード「ｂｂｂ」とＵＲＬｈｔｔｐ：／／ｙｙｙの関連度は１３４００、「ｆｆｆ」とＵＲＬｈｔｔｐ：／／ｚｚｚの関連度は４２２４となっている。クエリーログ集計サーバ１０は、この関連度データ７７を格納した判定リストＤＢ７６を作成し、各ＵＲＬを関連度の高い順にソートしてサイト検証者の端末に表示する。サイト検証者は、このソートされたＵＲＬの上位のものから順にＷｅｂページの内容を閲覧し、アクセス制限の判定（符号７８で示す処理）を行い、該当するＷｅｂページのＵＲＬをブラックリストＤＢ７９に登録する。このように有害サイトの収集、検証に本発明のクエリーログ集計サーバ１０を用いることで、サイト検証者のサイトの検証効率を上げることができる。

上記の実施例では、ペアレンタル・コントロールにおけるブラックリストの作成に本発明の方法を利用したが、別の応用例として、ネットオークションにおける取引禁止物品を含む出品ページの探索や、特定の主題に関する話題のサイトを効率的に固定して、迅速に情報提供することを特徴とする情報サービスに用いることができる。

［クエリーログ集計サーバのハードウェア構成］
図９は、発明の好適な実施形態の一例に係るクエリーログ集計サーバ１０のハードウェア構成の一例を示す図である。クエリーログ集計サーバ１０は、制御部１０ａを構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１０（マルチプロセッサ構成ではＣＰＵ１０１２等複数のＣＰＵが追加されてもよい）、バスライン１００５、通信Ｉ／Ｆ１０４０、メインメモリ１０５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１０６０、ＵＳＢポート１０９０、Ｉ／Ｏコントローラ１０７０、並びにキーボード及びマウス１１００等の入力手段や表示装置１０２２を備える。

Ｉ／Ｏコントローラ１０７０には、テープドライブ１０７２、ハードディスク１０７４、光ディスクドライブ１０７６、半導体メモリ１０７８、等の記憶手段を接続することができる。

ＢＩＯＳ１０６０は、クエリーログ集計サーバ１０の起動時にＣＰＵ１０１０が実行するブートプログラムや、クエリーログ集計サーバ１０のハードウェアに依存するプログラム等を格納する。

記憶部１０ｂを構成するハードディスク１０７４は、クエリーログ集計サーバ１０が本発明の機能を実行するためのプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。

光ディスクドライブ１０７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この場合は各ドライブに対応した光ディスク１０７７を使用する。光ディスク１０７７から光ディスクドライブ１０７６によりプログラムまたはデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０またはハードディスク１０７４に提供することもできる。また、同様にテープドライブ１０７２に対応したテープメディア１０７１を主としてバックアップのために使用することもできる。

クエリーログ集計サーバ１０に提供されるプログラムは、ハードディスク１０７４、光ディスク１０７７、またはメモリカード等の記録媒体に格納されて提供される。このプログラムは、Ｉ／Ｏコントローラ１０７０を介して、記録媒体から読み出され、または通信Ｉ／Ｆ１０４０を介してダウンロードされることによって、クエリーログ集計サーバ１０にインストールされ実行されてもよい。

前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶部１０ｂを構成する記憶媒体としては、ハードディスク１０７４、光ディスク１０７７、またはメモリカードの他に、ＭＤ等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク１０７４または光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをクエリーログ集計サーバ１０に提供してもよい。

ここで、表示装置１０２２は、ユーザにデータの入力を受け付ける画面を表示したり、クエリーログ集計サーバ１０による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。

ここで、入力手段は、ユーザによる入力の受付を行うものであり、キーボード及びマウス１１００等により構成してよい。

また、通信Ｉ／Ｆ１０４０は、クエリーログ集計サーバ１０を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信Ｉ／Ｆ１０４０は、モデム、ケーブル・モデム及びイーサネット（登録商標）・アダプタを含んでよい。

以上の例は、クエリーログ集計サーバ１０について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、前述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

本発明の好適な実施形態の一例に係るシステムの全体構成、及びその中核となるクエリーログ集計サーバの機能ブロックを示す図である。本発明の好適な実施形態の一例に係るシステムにおける処理の流れを示した図である。クエリーログを集計するための一つの方法として、リダイレクタ４２の概念を示す図である。クエリーログＤＢ１７に格納されるクエリーログデータ４４の一例を示す図である。クエリーログ集計サーバ１０の集計処理手順の一例を示す図である。Ｗｅｂページの滞在時間を求める方法の概略を示す図である。クエリーログＤＢ１７に格納されるクエリーログ集計結果のデータの一例を示す図である。本発明の一実施例として、ペアレンタル・コントロールでの活用方法を示した図である。発明の好適な実施形態の一例に係るクエリーログ集計サーバ１０のハードウェア構成の一例を示す図である

符号の説明

１０クエリーログ集計サーバ
１０ａ制御部
１０ｂ記憶部
１１検索結果ページ生成部
１２クエリーログ保存部
１３クリック数集計部
１４滞在時間計算部
１５クエリーログ抽出部
１６表示部／操作部
１７クエリーログＤＢ
１８キーワード・リストＤＢ
２０ユーザ端末
２１インターネット
３０検索サーバ
３１ネットワーク
３２クエリー受付部
３３検索エンジン
４０サイト検証者端末
４１検索結果ページ
４２リダイレクタ
４３リンク先ページ
４４クエリーログデータ
５０検索結果ページ
５１リンク先ページ
５２リンク先ページ
７２集計結果データ
７３ＮＧキーワードマッチ情報抽出処理
７４ＮＧキーワードＤＢ
７５ＮＧキーワード表
７６判定リストＤＢ
７７関連度データ
７８アクセス制限判定処理
７９ブラックリストＤＢ

Claims

通信ネットワークを介して複数のユーザの端末と接続可能なサーバがキーワードとＷｅｂサイトの関連度を求める方法であって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの前記検索結果ページからのクリックログを格納するクエリーログ記憶手段を備え、
前記サーバにおいて、
前記ユーザが前記検索を行った際のセッションのＩＤ、前記検索結果ページから前記ユーザがクリックしたＷｅｂページのＵＲＬ、該Ｗｅｂページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記ＵＲＬに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
を含む方法。
前記抽出したクエリーログに含まれるＵＲＬのクリック数の頻度の高い順に、前記ＵＲＬを、前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、請求項１に記載の方法。
前記抽出したクエリーログに含まれる各ＵＲＬに対するアクセス日時から、前記ユーザがクリックしたＷｅｂページにおける滞在時間を計算し、同一頻度のクリックのＵＲＬに対しては、前記滞在時間の長い順に前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、請求項２に記載の方法。
前記抽出したクエリーログに含まれる各ＵＲＬに対するアクセス日時から、前記ユーザがクリックしたＷｅｂページにおける滞在時間を計算し、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、請求項１に記載の方法。
前記滞在時間は、前記検索結果ページに掲載されるＷｅｂページにおいて、前記ユーザが、あるＷｅｂページへのリンクをクリックした時刻と次に別のＷｅｂページへのリンクをクリックした時刻との差によって求める、請求項３または４に記載の方法。
前記検索結果ページに掲載するＷｅｂページへのリンクは、リダイレクタのＵＲＬであり、前記ユーザが前記リンクをクリックすると、前記リダイレクタによって本来のリンク先にリダイレクトされる、請求項１乃至５に記載の方法。
前記サイト検証者のための特定のＵＲＬに対する滞在時間に関するスコアであるＵＲＬ＿Ｓｃｏｒｅ（ｕ）を、次の数式によって求める請求項４または５に記載の方法。

ただし、ｔ（ｓ）：セッションｓにおけるＵＲＬｕの滞在時間
ｑ：シードクエリー
Ｓ：セッション集合
Ｑ：同種のサイトを検索するためのシードクエリーの集合
ＵＲＬ＿Ｓｃｏｒｅ（ｑ，ｕ）：シードクエリーｑに対するＵＲＬｕのスコア
上記集計するステップは、所定の時間間隔毎に定期的に行う、請求項１乃至７に記載の方法。
前記所定のキーワード・リストが、キーワードとして、有害サイトを識別するペアレンタル・コントロールのための所定の猥褻語、差別語を含む、請求項１乃至８に記載の方法。
前記所定のキーワード・リストが、キーワードとして、ネットオークションにおける所定の取引禁止物品名を含む、請求項１乃至８に記載の方法。
通信ネットワークを介して複数のユーザの端末と接続可能でキーワードとＷｅｂサイトの関連度を求めるためのサーバであって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成する検索結果ページ生成部と、
該ユーザの検索結果におけるクエリーログを格納するクエリーログ・データベースと、
前記ユーザが前記検索を行った際のセッションのＩＤ、前記検索結果ページから前記ユーザがクリックしたＷｅｂページのＵＲＬ、該Ｗｅｂページへのリンクをクリックした際のアクセス日時、及び前記キーワードを格納するクエリーログ保存部と、
前記クエリーログ・データベースを用いて、前記キーワード毎に前記ＵＲＬに対するクリック数を集計するクリック数集計部と、
前記クエリーログ・データベースから、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するクエリーログ抽出部と、
を備えるサーバ。
前記抽出したクエリーログに含まれるＵＲＬのクリック数の頻度の高い順に、前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、請求項１１に記載のサーバ。
前記サーバは、前記ユーザがクリックしたＷｅｂページにおける滞在時間を計算する滞在時間計算部を更に備え、同一頻度のクリックのＵＲＬに対しては、前記滞在時間の大きい順に前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、請求項１２に記載のサーバ。
前記抽出したクエリーログに含まれる各ＵＲＬに対するアクセス日時から、前記ユーザがクリックしたＷｅｂページにおける滞在時間を計算する滞在時間計算部を更に備え、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記ＵＲＬを前記サーバに接続されたサイト検証者の端末に表示する手段を更に含む、請求項１１に記載のサーバ。
通信ネットワークを介して複数のユーザの端末と接続可能なサーバにおいてキーワードとＷｅｂサイトの関連度を求めるためのコンピュータ・プログラムあって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの検索結果におけるクリックログを格納するクエリーログ記憶手段を備え、
前記サーバに、
前記ユーザが前記検索を行った際のセッションのＩＤ、前記検索結果ページから前記ユーザがクリックしたＷｅｂページのＵＲＬ、該Ｗｅｂページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記ＵＲＬに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
を実行させるコンピュータ・プログラム。