[go: up one dir, main page]

JP2008181186A - クエリーログを利用したキーワードとサイトの関連度を求める方法 - Google Patents

クエリーログを利用したキーワードとサイトの関連度を求める方法 Download PDF

Info

Publication number
JP2008181186A
JP2008181186A JP2007012402A JP2007012402A JP2008181186A JP 2008181186 A JP2008181186 A JP 2008181186A JP 2007012402 A JP2007012402 A JP 2007012402A JP 2007012402 A JP2007012402 A JP 2007012402A JP 2008181186 A JP2008181186 A JP 2008181186A
Authority
JP
Japan
Prior art keywords
user
server
keyword
query log
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007012402A
Other languages
English (en)
Inventor
Sumio Fujita
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007012402A priority Critical patent/JP2008181186A/ja
Publication of JP2008181186A publication Critical patent/JP2008181186A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】クエリーログを利用して、検索キーワードとサイトとの関連性を求める新たな方法を提供すること。
【解決手段】ユーザ端末と検索サーバの間に位置するサーバが、ユーザ端末からキーワードによる検索を行った際に、独自の検索結果ページを生成し、該ユーザの端末に表示する。本サーバは、ユーザの検索結果におけるクエリーログを格納するクエリーログ記憶手段を備え、ユーザが検索を行った際のセッションのID、検索結果ページからユーザがクリックしたWebページのURL、該Webページのリンクをクリックした際の日時、及び前記キーワードをクエリーログ記憶手段に集積するステップと、クエリーログ記憶手段を用いて、キーワード毎にURLのクリック数を集計するステップと、クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、を含む。
【選択図】図1

Description

本発明は、クエリーログを利用したキーワードとサイトの関連度を求める方法に関する。より詳しくは、キーワード検索の検索結果におけるクリックログを含むクエリーログを利用したキーワードとサイトの関連度を求めるための方法、サーバ、及びプログラムに関する。
今日、インターネットを用いて膨大な情報の中から、誰もがいつでも欲しい情報を検索することが可能になった。ある情報を求めるユーザは多くの場合、インターネット上の各種検索サイトでその情報の特徴を表すキーワードを入力してクエリー(照会)を行う。このようなクエリーを行うことにより、検索サイトの検索エンジンが、インターネット上でWebサイトの検索を行い、その結果として検索結果ページがユーザに表示される。この検索結果ページには、数々の情報を記述したWebサイトへのリンクが、検索サイトの検索エンジンによって定められた優先順位にしたがって表示される。
しかし、この検索結果ページから得たリンク先のWebサイトの情報には、必ずしもユーザの求める情報が含まれず、入力したキーワードとの関連性の低いものも存在する。検索結果ページで最初にクリックしたリンク先に求める情報がなかった場合には、多くの場合、ユーザは次の表示順位のリンク先のページを順にたどってゆくことになる。そのため、検索結果ページにはキーワードと関連の深いWebサイトほど表示されることが望ましい。一方、アダルト、暴力、グロテスク、差別語等、子供等の特定のユーザにとっては、不適切、若しくは「有害」な情報を含んだサイトも多数存在するので、このようなサイトは、場合によってはそのユーザの検索結果ページに表示されないようにすることも必要である。
そのため、このような「有害」サイトをフィルタリング(データ内容を検査して通過されるかどうかを判定すること)を行う方法が多数存在する。例えば、特許文献1には、予め登録したキーワードファイルを読み込み、そのキーワードに基づく検索を定期的に自動で行って、検索結果情報から抽出した「不良URL(Universal Resource Allocator)」を不良URLデータベースに登録し、クライアント装置からの送信要求情報をWebサーバへ送信するか否かを判定する管理サーバが開示されている。
特開2004−46739号公報
しかしながら、上記特許文献1の管理サーバにおいて、キーワードに基づいて「不良URL」をどのように抽出するのかについては具体的には記載されていない。今日、「有害」サイトと呼ばれるものは膨大な数が存在する一方、「不適切」なキーワードを含んでいても「健全」なサイトも多数存在する(例えば、時事ニュースや評論、解説記事等のサイト)。そのため、「有害」サイトの自動抽出には限界があり、このようなサイトの抽出は、専門業者等人手による方法が広く用いられているのが現状である。一方、機械学習的な方法によって自動的にフィルタリングする方法も存在するが、計算量の多さや学習のためのトレーニングデータ等の作成に手間がかかる等の問題がある。また、この方法は、「有害」サイトの入り口に十分な語句がなく、もっぱら画像のみでページが構成されている場合には適用できない。
本発明は、上記課題に鑑み、多数のユーザが実際に行った検索のクエリーのログを利用して、検索に用いたキーワードとWebサイトとの関連度を経験的に求める新たな方法等を提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) 通信ネットワークを介して複数のユーザの端末と接続可能なサーバがキーワードとWebサイトの関連度を求める方法であって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの前記検索結果ページからのクリックログを格納するクエリーログ記憶手段を備え、
前記サーバにおいて、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記URLに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内の各キーワードを含むクエリーログを抽出するステップと、
を含む方法。
このような構成によれば、このサーバは、ユーザがキーワードによる検索を行った際に、(検索エンジンが求めた検索結果から)独自の検索結果ページを生成し、ユーザの端末に表示する手段(具体的には検索結果ページのURLを送信する)を有する。この検索結果ページに表示されたリンク先をユーザがクリックすると、前記の検索を行った際のセッションID、クリックされたリンク先のURL、クリックしたときのアクセス日時、検索の時に用いたキーワード(キーワードは複数であってもよい)を、本サーバに接続されたクエリーログ記憶手段(例えば後述のクエリーログ・データベース)に格納する。そして、このクエリーログ記憶手段を用いて、検索時のキーワード毎に、検索結果ページからユーザが実際にクリックしたURLのクリック数を集計する。そして、別に予め定められた所定のキーワード・リスト(例えば、有害サイトを抽出するためのキーワード・リスト)内の各キーワード(シードクエリーとも呼ぶ)を含むクエリーログを前記のクエリーログ記憶手段から抽出する。
このことにより、ユーザが様々なキーワードを用いて検索した結果である検索結果ページから、実際にそのユーザがクリックしたURLをクエリーログ・データベース等の記憶手段に、多数集積することができ、そのキーワードとクリックされたURL集合の中から所定のキーワード・リストにマッチするURLを抽出し、この抽出されたキーワードとURL集合を用いてサイトの収集や検証に役立てることができる。
(2) 前記抽出したクエリーログに含まれるURLのクリック数の頻度の高い順に、前記URLを、前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、(1)に記載の方法。
このような構成によれば、サイト検証者(特定の種類のWebサイトを収集し、それらのサイトが実際にその種類にあっているかどうかを検証する者)が、例えば、ペアレンタル・コントロールのために有害サイトのリストを集めようとしたとき等に、ユーザのクリック数が多い(すなわち、実際に有害度の影響も高いと考えられる)サイトを優先的に表示してサイト検証者の検証効率を高めることができる。
(3) 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算し、同一頻度のクリックのURLに対しては、前記滞在時間の長い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、(2)に記載の方法。
このような構成によれば、ユーザが特定のURLをクリックしたアクセス日時からそのURLのWebページの滞在時間を何らかの方法で取得することによって、同じクリック数のURLがあった場合でも、滞在時間の長いWebページは、ユーザの求める情報がより多くあったと考え、すなわち、ユーザが入力した検索キーワードとそのURLを持つサイトの関連度が高いものとして、そのURLを優先的に表示させることで検証の効率をあげることができる。
(4) 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算し、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、(1)に記載の方法。
このような構成によれば、クリック数と滞在時間から求めた重み度(ウェイト)を掛け合わせ、その値をサイトの関連度として考える。この際、(3)のように同一頻度のURLにのみ滞在時間を求めるのでなく、クリックされた全てのURLに対して滞在時間を求め、それをクリック数に対する重み付けとする。その結果、キーワードとサイトの関連度を多面的に求めることができる。
(5) 前記滞在時間は、前記検索結果ページに掲載されるWebページにおいて、前記ユーザが、あるWebページへのリンクをクリックした時刻と次に別のWebページへのリンクをクリックした時刻との差によって求める、(3)または(4)に記載の方法。
このような構成によれば、あるWebページへのリンクをクリックした時刻と次に別のWebページへのリンクをクリックした時刻との差によって先にクリックしたURLにおけるユーザ滞在時間(閲覧時間)を求めることができる。すなわち、滞在時間をクエリーログに保存されたアクセス日時(時刻)から容易に求めることができる。なお、この方法では、セッションの最後にクリックしたURLは、次のURLが存在しないため、滞在時間として十分大きい値、例えば30分とする、を便宜的に与えることにする。
(6) 前記検索結果ページに掲載するWebページへのリンクは、リダイレクタのURLであり、前記ユーザが前記リンクをクリックすると、前記リダイレクタによって本来のリンク先にリダイレクトされる、(1)に記載の方法。
このような構成によれば、検索結果ページに掲載されるWebページへのリンクは直接そのWebページのURLでなく、予め設定されたリダイレクタのページのURLとする。その結果、ユーザが検索結果ページから、あるWebページへのリンクをクリックすると、いったんリダイレクタのページに飛び、リダイレクタがユーザのクリックした時の時刻やクリック数をカウントし、クエリーログに保存した後、本来のWebページにリダイレクトする。こうようにすることで、ユーザには意識させずにユーザのクエリーログを容易に集積することができる。
(7) 前記サイト検証者のための特定のURLに対する滞在時間に関するスコアであるURL_Score(u)を、次の数式によって求める(4)または(5)に記載の方法。
Figure 2008181186
ただし、t(s):セッションsにおけるURLuの滞在時間
q:シードクエリー
S:セッション集合
Q:同種のサイトを検索するためのシードクエリーの集合
URL_Score(q,u):シードクエリーqに対するURLuのスコア
ここでシードクエリーとは、サイト検証者がサイトを収集するために用いるキーワードを意味する。このような構成によれば、同種のサイトを求めるシードクエリーがキーワード・リストとして複数ある場合でも、特定のURLに対してその滞在時間の和をそのシードクエリーに対するスコアとして求め、そのスコアをシードクエリーの集合全てにおいて加算することで、URLのあるシードクエリーの集合に対する全体スコアを求める。そして、この全体スコアの高いURLを優先的に表示すれば検証の効率をあげることができる。なお、シードクエリーの集合は、予めサイト検証者がキーワード・リスト等で定義しておく。
(8) 上記集計するステップは、所定の時間間隔毎に定期的に行う、(1)〜(7)に記載の方法。
このような構成によれば、本発明のサーバは、定期的に(例えば24時間毎、1週間毎、1ヶ月毎等)、与えられたキーワード・リストによるサイトの検索を自動的に行うので、新規のサイトが登場した場合でも直ちにサイト検証の対象に加えることができる。
(9) 前記所定のキーワード・リストが、キーワードとして、有害サイトを識別するペアレンタル・コントロールのための所定の猥褻語、差別語を含む、(1)〜(8)に記載の方法。
本発明の方法は、ペアレンタル・コントロールにおける有害サイトの識別に利用できる。所定の卑猥語、差別語は、サイト検証者によってキーワード・リストによって入力される。
(10) 前記所定のキーワード・リストが、キーワードとして、ネットオークションにおける所定の取引禁止物品名を含む、(1)〜(8)に記載の方法。
本発明の方法は、ネットオークションの所定の取引禁止物品名(例えば、「医薬品」、「麻薬」、「武器類」、「取引禁止動植物」、「猥褻品」等に分類される物品名)を含む出品ページの検索に利用できる。所定の取引禁止物品名は、サイト検証者によって当該ネットオークションの規定に基づきキーワード・リストによって入力される。
(11) 通信ネットワークを介して複数のユーザの端末と接続可能でキーワードとWebサイトの関連度を求めるためのサーバであって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成する検索結果ページ生成部と、
該ユーザの検索結果におけるクエリーログを格納するクエリーログ・データベースと、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを格納するクエリーログ保存部と、
前記クエリーログ・データベースを用いて、前記キーワード毎に前記URLに対するクリック数を集計するクリック数集計部と、
前記クエリーログ・データベースから、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するクエリーログ抽出部と、
を備えるサーバ。
このような構成によれば、(1)に記載の方法と同様な作用効果を有するサーバ装置が提供できる。
(12) 前記抽出したクエリーログに含まれるURLのクリック数の頻度の高い順に、前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、(11)に記載のサーバ。
このような構成によれば、(2)に記載の方法と同様な作用効果を有するサーバ装置が提供できる。
(13) 前記サーバは、前記ユーザがクリックしたWebページにおける滞在時間を計算する滞在時間計算部を更に備え、同一頻度のクリック数のURLに対しては、前記滞在時間の大きい順に前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、(12)に記載のサーバ。
このような構成によれば、(3)に記載の方法と同様な作用効果を有するサーバ装置が提供できる。
(14) 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算する滞在時間計算部を更に備え、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に含む、(11)に記載のサーバ。
このような構成によれば、(4)に記載の方法と同様な作用効果を有するサーバ装置が提供できる。
(15) 通信ネットワークを介して複数のユーザの端末と接続可能なサーバにおいてキーワードとWebサイトの関連度を求めるためのコンピュータ・プログラムあって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの検索結果におけるクリックログを格納するクエリーログ記憶手段を備え、
前記サーバに、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記URLに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
を実行させるコンピュータ・プログラム。
このような構成によれば、(1)に記載の方法と同様な作用効果を有するサーバ装置を実現させる手段として、コンピュータ・プログラムの形態で本発明を提供できる。
本発明によれば、キーワード検索におけるクリックログやアクセス日時を含むクエリーログを用いることで、サイト検証者が、例えば、有害サイトのページ、アクセス制限対象サイトのページ、オークションにおける取引禁止物品の出品ページ、特定主題に対する話題のサイトのページ等を効率的にかつ持続的に収集することができる。
以下、本発明の好適な実施形態について図を参照しながら説明する。
[クエリーログ集計サーバの構成]
図1は、本発明の好適な実施形態の一例に係るシステムの全体構成、及びその中核となるクエリーログ集計サーバの機能ブロックを示す図である。本システムの全体構成としては、クエリーログ集計サーバ10が、複数のユーザ端末20とインターネット21を介して接続され、更に検索サーバ30とネットワーク31を介して接続される。ネットワーク31は、任意の通信ネットワークであってよく、LAN(Local Area Network)、WAN(Wide Area Network)であっても、またインターネットであってもよい。ユーザは、PC(Personal Computer)やPDA(Personal Digital Assistants)、携帯電話機等のユーザ端末20から、検索キーワードを用いてインターネット上で求める情報が存在するWebサイトを検索する。一般ユーザがキーワードを用いて検索サイト等で行う検索を、本明細書ではクエリー(照会)と呼んでいる。また、サイト検証者がサイトを収集するために用いるキーワードをシードクエリーと呼んでいる。通常、クエリー要求は、検索サーバ30に送信され、検索サーバ30のクエリー受付部32でキーワードを受信し、種々の公知の検索エンジン33を用いて検索処理がなされる。この検索サーバ30は、インターネットを介して、直接的または間接的にユーザ端末20と通信可能であるが、本発明では、ユーザ端末20と検索サーバ30との間にクエリーログ集計サーバ10を接続する。すなわち、クエリーログ集計サーバ10は、ユーザ端末20と検索サーバ30との仲立ちをする役目を担う。
クエリーログ集計サーバ10は、ユーザ端末20からクエリー要求を受け取ると、検索サーバ30にそれを転送する。このとき、そのクエリーのセッションのIDを記憶しておく。検索サーバ30から、対応するセッションIDを含んだユーザのクエリーに対する検索結果を受け取ると、検索結果生成部11がユーザ端末20に対して独自の検索結果ページを生成する。通常、検索結果ページには、キーワードにマッチする(と判断された)Webページへのリンクが含まれるが、本サーバ10は、後述するリダイレクタによる方法で、ユーザがこの独自の検索結果ページに掲載されたリンク先をクリックするたびに、クエリーログ保存部12によって、ユーザのクエリーログを保存する。このクエリーログには、セッションIDの他、検索結果ページからユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び検索に用いたキーワードが含まれる。
クエリーログのデータは、クエリーログ・データベース(クエリーログDB17;以降、データベースはDBと略することがある)に格納される。クエリーログDB17に蓄積された多数のユーザのクエリーログは、クエリーログ集計サーバ10の集計部(図示せず)によって、適時集計作業が行われる。集計部は、例えば、クリック数集計部13と滞在時間計算部14によって構成され、クエリーログ中のデータをクエリーに用いられたキーワードと、クリックされたURLを一定の時間間隔(例えば24時間毎、1週間毎、1ヶ月毎等)で自動的に集計する。得られた各種集計情報は、クエリーログDB17に格納されるか、あるいは別のデータベースに格納されてもよい。また、このような各種データベースは、クエリーログ集計サーバ10の記憶部10bとして構成されてもよいが、サーバの外部に接続するように構成されてもよい。
また、クエリーログ集計サーバ10は、ネットワーク31を介して、または図のように直接的に表示部/操作部16を介して、サイト検証者端末40と接続される。サイト検証者とは、特定の種類のWebサイトを収集し、それらのサイトが実際にその種類「分類」にあっているかどうかを検証する者である。サイト検証者は、クエリーログDB17に蓄積されたデータを用いて、求める種類のサイト(例えば「有害」サイト等)を収集し、その内容を検証する。具体的には、サイト検証者は、サイトを収集するためのキーワード・リストを作成し、それをクエリーログ集計サーバ10に入力する。キーワード・リストが多数あるときは、キーワード・リストDB18に登録、格納するようにしてもよい。
クエリーログ抽出部15は、この予め定められたキーワード・リストに含まれるキーワード(1語のキーワードまたは複数のキーワードの組であってもよい)に対して、後述するような方法で、関連度の高いサイトのURLを抽出する。抽出した結果は、何らかの方法(例えば順位づけて表示する等)でサイト検証者によって利用される。
なお、このようなクエリーログ集計サーバ10の各機能部11〜15は、制御部10a(典型的にはコンピュータのCPUによって実行される機能)を構成する。また、上記の実施形態では、判り易いように、クエリーログ集計サーバ10と検索サーバ30は、別個のサーバであるとして説明したが、必ずしもこの構成に限定される必要はなく、検索サーバ30に、クエリーログ集計サーバ10の機能を含ませてもよい。
図2は、上記システムにおける以上の処理の流れをまとめた図である。詳細は前述の説明と重複するので省略する。なお、この図では、クエリーログ集計サーバ10のクエリーログ集計処理は示していないが、クエリーログ集計処理は、ここでの処理とは独立して行われる(後述)。
図3は、クエリーログを集計するための一つの方法として、リダイレクタ42の概念を示す図である。クエリーログ集計サーバ10の検索結果ページ生成部11は、検索サーバ30からユーザのクエリーに対する検索結果を受け取ると、検索結果ページ41に掲載された各Webページへのリンク先をリダイレクタ42のURLに置き換える。そして、このリダイレクタのURLを含んだ検索結果ページ41を、ユーザ端末20に返信する。ユーザが受信した検索結果ページ41から、所望のWebページへのリンク(例えば、ページAリンク)をクリックすると、実際にはリダイレクタ42にジャンプする。
リダイレクタ42は、ユーザが検索結果ページに掲載されたWebページのリンクをクリックしたとき、クエリーに対する各種データを、具体的には、ユーザ端末20のIPアドレス(固定IPアドレスでなくてもよい)、Webページへのリンクをクリックした時のアクセス日時、クエリーセッションのセッションID、ユーザがクエリーに用いた一または複数のキーワード、及びユーザが検索結果ページからクリックしたWebページの本来のURL等、クエリーログデータ44として、クエリーログDB17へ保存する。その後、ユーザを本来のリンク先のWebページ(リンク先ページ43)へジャンプさせる。このようにして、リダイレクタ42を用いることによって、クエリーログ集計サーバ10は、IPアドレスで識別されるユーザ毎、セッションIDで識別されるセッション毎にクエリーログを容易に集めることができる。
図4は、クエリーログDB17に格納されるクエリーログデータ44の一例を示す図である。図示するように、この表ではユーザ端末20を識別するためのIPアドレス、検索結果ページからクリックしたアクセス日時、クエリーのセッションID、クエリーに用いられたキーワード、及び実際にクリックしたURLが表形式で格納されている。この例では、ユーザ端末20(IPアドレス110.149.145.1)から、クエリーセッションID:Bp4ed6917において、クエリーキーワードとして「無修正」and「画像」を用いて検索した結果、得られた検索結果ページから、表の右端に示すような5つのURLを実際に、ユーザが2006年10月6日21:45:53の時点から順次Webページへのリンクをクリックしていったときのアクセス日時(時刻)が記録されている。
なお、特に図示していないが、検索結果ページ上での各URLの表示順位(ランク)も記録するようにしてもよい。これは、検索結果ページの上位にあるリンクほどユーザがクリックする確率が高いため、それを考慮に入れることを可能にするためである。例えば、検索結果ページの第1ページに表示されたリンク(Yahoo!検索では、1位から10位までを1ページに表示されるようにしている)は、クリックされる率が高いことが知られている。したがって、2ページ目以降に表示されたリンクがクリックされた場合には、1ページ目にあるリンクより高い重み度を与えるようにしてもよい。
図5は、クエリーログ集計サーバ10の集計処理手順の一例を示す図である。まず、ステップS1において、クエリーログの集合を取得する。すなわち、一定の集計期間の全ユーザのクエリーログをセッションID毎に集める。
次に、ステップS2において、上記の集合をアクセス日時でソートする。更に、ステップS3において、あるセッションにおける一つのURLに対するアクセス日時と、次にクリックしたURLに対するアクセス日時の差を求め、これを最初のURLにおける滞在時間とする。この処理をセッション内の全てのURLに対して繰り返す。これについて詳しくは次の図6に示す。
図6は、Webページの滞在時間を求める方法の概略を示す図である。この図は、Yahoo!検索において、ユーザが検索キーワードとして、「AAA」and「BBB」を用いて検索した結果として、検索結果ページ50が表示された例を示している。ここでは実際には、「AAA」は「無修正」、「BBB」は「画像」の用語を用いた。この検索結果では、約600万件以上のサイトがヒットしているが、サイト検証者がこの全てのサイトを検証するのは、非常に困難である。
ユーザは、例えば、検索結果ページ50の第1順位の「AAABBB最前線」ページを時刻t1sにおいてクリックし、「AAABBB最前線」のリンク先ページであるWebページ51を閲覧した後、ブラウザの「戻る」ボタンを時刻t1eに押して、検索結果ページ50に戻る。同様に、第2順位の「AAABBBの宝庫」のリンク先ページであるWebページ52を時刻t2sにおいてクリックし、時刻t2eに戻ったとする。このとき、ページ51におけるユーザの滞在時間は、t1e−t1sであり、ページ52の滞在時間は、t2e−t2sである。しかしながら、t1eから次のt2sまでの時間は、一般的に短く無視し得るので、本発明の方法では、t1eがt2sにほぼ等しいとする。すなわち、ページ51の滞在時間は、近似的にt2s−t1sで求めることができる。次のページ52以降についても同様にして滞在時間を求める。
ただし、仮に、ページ52がこのクエリーセッションにおける最後の閲覧ページであった場合は、次にクリックしたページが存在しないので、上記の方法は使えない。しかし、この場合は(次のURLが存在しない場合)、滞在時間として十分に長い時間、例えば30分、をセットするようにする。あるいは、最後のURLの重み度を通常のウェイトより多くするように調整してもよい。例えば、最後のURL以外の平均滞在時間を2倍して最後のURLの滞在時間としてもよい。これは、最後にクリックしたページには、ユーザの求める情報が存在した確率が高いからである。すなわち、キーワードとサイトとの関連が高いと推察できる。このようにして本発明の実施形態では、滞在時間の計算を近似的に求めているが、ブラウザの「戻る」ボタン等の押下を何らかの方法でリダイレクタ42が検出できるようにし、滞在時間をより正確に求めるようにしてももちろんよい。
滞在時間の計算ステップが終わると、図5のステップS4に戻り、クリック済みのURLをクリック数の多い順に、すなわち高頻度順にソートする。次に、ステップS5において、同一頻度のクリック数のURLに対しては、滞在時間順にソートして集計処理を終わる。なお、ステップS5は、同一頻度のURLに対してのみでなく、全てのURLに対して滞在時間を求め、更にそこから重み度(ウェイト)を求め、その値とクリック頻度を掛け合わせた値の順にソートするようにしてもよい。例えば、滞在時間が30秒以内の場合は、重み度を1とし、以後滞在時間が30秒増える毎に重み度を1加えるようにする。こうすることによって、クリック頻度が高くても滞在時間の短いWebページは、キーワードに対する関連度が低いか、Webページのタイトルと内容がマッチしてないか等の理由が考えられ、このようなWebページは、相対的に順位が低くなるのでサイト検証効率のアップに役立つ。
また、前述したように、検索結果ページ上に表示される順位(ランク)を、別にウェイトとして考慮してもよい。例えば、検索結果ページの上位にランクされるWebページが多数クリックされるのは当然であるので、ランクが低いにも関わらず、クリック数が所定の数より多いURL、またはクリック率が高いURLに対しては、ウェイトを2倍にする等の方法が考えられる。
また、サイト検証者のための特定のURLに対する滞在時間に関するスコアであるURL_Score(u)を、次の数式によって求める。
Figure 2008181186
ただし、t(s):セッションsにおけるURLuの滞在時間
q:シードクエリー
S:セッション集合
Q:同種のサイトを検索するためのシードクエリーの集合
URL_Score(q,u):シードクエリーqに対するURLuのスコア
このようにすることで、サイト検証者のための同種のサイトを求めるシードクエリーが複数ある場合でも、特定のURLに対してその滞在時間の和をスコアとして求め、そのスコアをシードクエリーの集合全てにおいて加算することで、URL毎のスコアを求める。
図7は、クエリーログDB17に格納されるクエリーログ集計結果データの一例を示す図である。ここでは、検索キーワード(クエリーに用いたキーワード)「AAA」に対してURL毎に集計した結果が示されている。例えば、URL http://xxx.aaa.bbbは、2006年12月1日12時0分に集計されたときには、クリック数143、滞在時間から求めたウェイト(重み度)は、43であったが、次の24時間の2006年12月2日12時0分には、クリック数189、ウェイト89になっている。この例では、集計期間として24時間毎のデータを集めているが、これらを更に集めて、例えば、1週間毎、1ヶ月毎の集計データも作成してよい。またこの例では、単一のキーワード「AAA」のみを示しているが、複数の単語、例えば、「AAA」and「BBB」、「AAA」or「BBB」も一つのキーワードとして集計する。
[実施例]
図8は、本発明の一実施例として、ペアレンタル・コントロールでの活用方法を示した図である。この例では、クエリーログDB17に、符号72で示す集計結果データ表が格納されているとする。この集計結果データ72は、図7で説明した表と基本的には同様である。また、この例では有害サイトの検証者は、キーワード・リスト75をNGキーワードDB74に格納することで、クエリーログ集計サーバ10に入力しているものとしている。キーワード・リスト75には、卑猥、暴力、差別、グロテスク等に分類されるキーワードが入力されている。
クエリーログ集計サーバ10は、このキーワード・リスト75と集計結果データ表72を比較し、集計結果データ表72からNGキーワード(ここでは、「ddd」、「bbb」、「fff」)を含む情報(集計データレコード)を抜き出す(符号73で示す処理)。そして、この集計データレコードから、クリック数とウェイトを掛け合わせて関連度を計算する。この例では、NGキーワード「ddd」とURL http://xxxの関連度は16821となる。同様に、NGキーワード「bbb」とURL http://yyyの関連度は13400、「fff」とURL http://zzzの関連度は4224となっている。クエリーログ集計サーバ10は、この関連度データ77を格納した判定リストDB76を作成し、各URLを関連度の高い順にソートしてサイト検証者の端末に表示する。サイト検証者は、このソートされたURLの上位のものから順にWebページの内容を閲覧し、アクセス制限の判定(符号78で示す処理)を行い、該当するWebページのURLをブラックリストDB79に登録する。このように有害サイトの収集、検証に本発明のクエリーログ集計サーバ10を用いることで、サイト検証者のサイトの検証効率を上げることができる。
上記の実施例では、ペアレンタル・コントロールにおけるブラックリストの作成に本発明の方法を利用したが、別の応用例として、ネットオークションにおける取引禁止物品を含む出品ページの探索や、特定の主題に関する話題のサイトを効率的に固定して、迅速に情報提供することを特徴とする情報サービスに用いることができる。
[クエリーログ集計サーバのハードウェア構成]
図9は、発明の好適な実施形態の一例に係るクエリーログ集計サーバ10のハードウェア構成の一例を示す図である。クエリーログ集計サーバ10は、制御部10aを構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
BIOS1060は、クエリーログ集計サーバ10の起動時にCPU1010が実行するブートプログラムや、クエリーログ集計サーバ10のハードウェアに依存するプログラム等を格納する。
記憶部10bを構成するハードディスク1074は、クエリーログ集計サーバ10が本発明の機能を実行するためのプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラムまたはデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050またはハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
クエリーログ集計サーバ10に提供されるプログラムは、ハードディスク1074、光ディスク1077、またはメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、または通信I/F1040を介してダウンロードされることによって、クエリーログ集計サーバ10にインストールされ実行されてもよい。
前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶部10bを構成する記憶媒体としては、ハードディスク1074、光ディスク1077、またはメモリカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074または光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをクエリーログ集計サーバ10に提供してもよい。
ここで、表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、クエリーログ集計サーバ10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
ここで、入力手段は、ユーザによる入力の受付を行うものであり、キーボード及びマウス1100等により構成してよい。
また、通信I/F1040は、クエリーログ集計サーバ10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、クエリーログ集計サーバ10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、前述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の好適な実施形態の一例に係るシステムの全体構成、及びその中核となるクエリーログ集計サーバの機能ブロックを示す図である。 本発明の好適な実施形態の一例に係るシステムにおける処理の流れを示した図である。 クエリーログを集計するための一つの方法として、リダイレクタ42の概念を示す図である。 クエリーログDB17に格納されるクエリーログデータ44の一例を示す図である。 クエリーログ集計サーバ10の集計処理手順の一例を示す図である。 Webページの滞在時間を求める方法の概略を示す図である。 クエリーログDB17に格納されるクエリーログ集計結果のデータの一例を示す図である。 本発明の一実施例として、ペアレンタル・コントロールでの活用方法を示した図である。 発明の好適な実施形態の一例に係るクエリーログ集計サーバ10のハードウェア構成の一例を示す図である
符号の説明
10 クエリーログ集計サーバ
10a 制御部
10b 記憶部
11 検索結果ページ生成部
12 クエリーログ保存部
13 クリック数集計部
14 滞在時間計算部
15 クエリーログ抽出部
16 表示部/操作部
17 クエリーログDB
18 キーワード・リストDB
20 ユーザ端末
21 インターネット
30 検索サーバ
31 ネットワーク
32 クエリー受付部
33 検索エンジン
40 サイト検証者端末
41 検索結果ページ
42 リダイレクタ
43 リンク先ページ
44 クエリーログデータ
50 検索結果ページ
51 リンク先ページ
52 リンク先ページ
72 集計結果データ
73 NGキーワードマッチ情報抽出処理
74 NGキーワードDB
75 NGキーワード表
76 判定リストDB
77 関連度データ
78 アクセス制限判定処理
79 ブラックリストDB

Claims (15)

  1. 通信ネットワークを介して複数のユーザの端末と接続可能なサーバがキーワードとWebサイトの関連度を求める方法であって、
    前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの前記検索結果ページからのクリックログを格納するクエリーログ記憶手段を備え、
    前記サーバにおいて、
    前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
    前記クエリーログ記憶手段を用いて、前記キーワード毎に前記URLに対するクリック数を集計するステップと、
    前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
    を含む方法。
  2. 前記抽出したクエリーログに含まれるURLのクリック数の頻度の高い順に、前記URLを、前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、請求項1に記載の方法。
  3. 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算し、同一頻度のクリックのURLに対しては、前記滞在時間の長い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、請求項2に記載の方法。
  4. 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算し、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、請求項1に記載の方法。
  5. 前記滞在時間は、前記検索結果ページに掲載されるWebページにおいて、前記ユーザが、あるWebページへのリンクをクリックした時刻と次に別のWebページへのリンクをクリックした時刻との差によって求める、請求項3または4に記載の方法。
  6. 前記検索結果ページに掲載するWebページへのリンクは、リダイレクタのURLであり、前記ユーザが前記リンクをクリックすると、前記リダイレクタによって本来のリンク先にリダイレクトされる、請求項1乃至5に記載の方法。
  7. 前記サイト検証者のための特定のURLに対する滞在時間に関するスコアであるURL_Score(u)を、次の数式によって求める請求項4または5に記載の方法。
    Figure 2008181186
    ただし、t(s):セッションsにおけるURLuの滞在時間
    q:シードクエリー
    S:セッション集合
    Q:同種のサイトを検索するためのシードクエリーの集合
    URL_Score(q,u):シードクエリーqに対するURLuのスコア
  8. 上記集計するステップは、所定の時間間隔毎に定期的に行う、請求項1乃至7に記載の方法。
  9. 前記所定のキーワード・リストが、キーワードとして、有害サイトを識別するペアレンタル・コントロールのための所定の猥褻語、差別語を含む、請求項1乃至8に記載の方法。
  10. 前記所定のキーワード・リストが、キーワードとして、ネットオークションにおける所定の取引禁止物品名を含む、請求項1乃至8に記載の方法。
  11. 通信ネットワークを介して複数のユーザの端末と接続可能でキーワードとWebサイトの関連度を求めるためのサーバであって、
    前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成する検索結果ページ生成部と、
    該ユーザの検索結果におけるクエリーログを格納するクエリーログ・データベースと、
    前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを格納するクエリーログ保存部と、
    前記クエリーログ・データベースを用いて、前記キーワード毎に前記URLに対するクリック数を集計するクリック数集計部と、
    前記クエリーログ・データベースから、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するクエリーログ抽出部と、
    を備えるサーバ。
  12. 前記抽出したクエリーログに含まれるURLのクリック数の頻度の高い順に、前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、請求項11に記載のサーバ。
  13. 前記サーバは、前記ユーザがクリックしたWebページにおける滞在時間を計算する滞在時間計算部を更に備え、同一頻度のクリックのURLに対しては、前記滞在時間の大きい順に前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、請求項12に記載のサーバ。
  14. 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算する滞在時間計算部を更に備え、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に含む、請求項11に記載のサーバ。
  15. 通信ネットワークを介して複数のユーザの端末と接続可能なサーバにおいてキーワードとWebサイトの関連度を求めるためのコンピュータ・プログラムあって、
    前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの検索結果におけるクリックログを格納するクエリーログ記憶手段を備え、
    前記サーバに、
    前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
    前記クエリーログ記憶手段を用いて、前記キーワード毎に前記URLに対するクリック数を集計するステップと、
    前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
    を実行させるコンピュータ・プログラム。
JP2007012402A 2007-01-23 2007-01-23 クエリーログを利用したキーワードとサイトの関連度を求める方法 Pending JP2008181186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007012402A JP2008181186A (ja) 2007-01-23 2007-01-23 クエリーログを利用したキーワードとサイトの関連度を求める方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007012402A JP2008181186A (ja) 2007-01-23 2007-01-23 クエリーログを利用したキーワードとサイトの関連度を求める方法

Publications (1)

Publication Number Publication Date
JP2008181186A true JP2008181186A (ja) 2008-08-07

Family

ID=39725066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007012402A Pending JP2008181186A (ja) 2007-01-23 2007-01-23 クエリーログを利用したキーワードとサイトの関連度を求める方法

Country Status (1)

Country Link
JP (1) JP2008181186A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186474A (ja) * 2009-02-12 2010-08-26 Nhn Corp 関連度辞書を用いた検索モデリングシステムおよび方法
JP2011002972A (ja) * 2009-06-18 2011-01-06 Yahoo Japan Corp クエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置
JP2011043973A (ja) * 2009-08-20 2011-03-03 Yahoo Japan Corp 情報アクセス支援装置および情報アクセス支援方法
JP2011221756A (ja) * 2010-04-08 2011-11-04 Yahoo Japan Corp Webページ表示システム
JP2012078888A (ja) * 2010-09-30 2012-04-19 Yahoo Japan Corp 特定クエリ判別装置及びその方法
JP2012168744A (ja) * 2011-02-15 2012-09-06 Yahoo Japan Corp 情報処理装置及び方法
JP2012168745A (ja) * 2011-02-15 2012-09-06 Yahoo Japan Corp 情報処理装置及び方法
JP2013131257A (ja) * 2008-10-01 2013-07-04 Sky Co Ltd 操作監視システム及び操作監視プログラム
JP2014002447A (ja) * 2012-06-15 2014-01-09 Nippon Telegraph & Telephone West Corp 通信装置及びurl評価システム
CN105389314A (zh) * 2014-09-04 2016-03-09 中芯国际集成电路制造(上海)有限公司 一种日志文件查询系统及查询方法
CN110347900A (zh) * 2019-07-10 2019-10-18 腾讯科技(深圳)有限公司 一种关键词的重要度计算方法、装置、服务器及介质
CN110969469A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 数据的获取方法及装置
US11194878B2 (en) 2018-12-13 2021-12-07 Yandex Europe Ag Method of and system for generating feature for ranking document
US11562292B2 (en) 2018-12-29 2023-01-24 Yandex Europe Ag Method of and system for generating training set for machine learning algorithm (MLA)
US11681713B2 (en) 2018-06-21 2023-06-20 Yandex Europe Ag Method of and system for ranking search results using machine learning algorithm

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259431A (ja) * 2001-02-27 2002-09-13 Casio Comput Co Ltd 情報検索方法、情報検索装置、およびプログラム
JP2004046739A (ja) * 2002-07-15 2004-02-12 Fujitsu Ltd データ送信方法、データ送信システム、中継装置、コンピュータプログラム、及び記録媒体
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
WO2006023765A2 (en) * 2004-08-19 2006-03-02 Claria, Corporation Method and apparatus for responding to end-user request for information
JP2006277288A (ja) * 2005-03-29 2006-10-12 Nec Corp 表示時間測定システム、表示時間測定方法、検索システムおよび検索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259431A (ja) * 2001-02-27 2002-09-13 Casio Comput Co Ltd 情報検索方法、情報検索装置、およびプログラム
JP2004046739A (ja) * 2002-07-15 2004-02-12 Fujitsu Ltd データ送信方法、データ送信システム、中継装置、コンピュータプログラム、及び記録媒体
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
WO2006023765A2 (en) * 2004-08-19 2006-03-02 Claria, Corporation Method and apparatus for responding to end-user request for information
JP2008511057A (ja) * 2004-08-19 2008-04-10 クラリア コーポレイション エンドユーザの情報要求に応答するための方法及び装置
JP2006277288A (ja) * 2005-03-29 2006-10-12 Nec Corp 表示時間測定システム、表示時間測定方法、検索システムおよび検索方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013131257A (ja) * 2008-10-01 2013-07-04 Sky Co Ltd 操作監視システム及び操作監視プログラム
JP2010186474A (ja) * 2009-02-12 2010-08-26 Nhn Corp 関連度辞書を用いた検索モデリングシステムおよび方法
JP2011002972A (ja) * 2009-06-18 2011-01-06 Yahoo Japan Corp クエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置
JP2011043973A (ja) * 2009-08-20 2011-03-03 Yahoo Japan Corp 情報アクセス支援装置および情報アクセス支援方法
JP2011221756A (ja) * 2010-04-08 2011-11-04 Yahoo Japan Corp Webページ表示システム
JP2012078888A (ja) * 2010-09-30 2012-04-19 Yahoo Japan Corp 特定クエリ判別装置及びその方法
JP2012168744A (ja) * 2011-02-15 2012-09-06 Yahoo Japan Corp 情報処理装置及び方法
JP2012168745A (ja) * 2011-02-15 2012-09-06 Yahoo Japan Corp 情報処理装置及び方法
JP2014002447A (ja) * 2012-06-15 2014-01-09 Nippon Telegraph & Telephone West Corp 通信装置及びurl評価システム
CN105389314A (zh) * 2014-09-04 2016-03-09 中芯国际集成电路制造(上海)有限公司 一种日志文件查询系统及查询方法
US11681713B2 (en) 2018-06-21 2023-06-20 Yandex Europe Ag Method of and system for ranking search results using machine learning algorithm
CN110969469A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 数据的获取方法及装置
CN110969469B (zh) * 2018-09-30 2024-02-20 北京国双科技有限公司 数据的获取方法及装置
US11194878B2 (en) 2018-12-13 2021-12-07 Yandex Europe Ag Method of and system for generating feature for ranking document
US11562292B2 (en) 2018-12-29 2023-01-24 Yandex Europe Ag Method of and system for generating training set for machine learning algorithm (MLA)
CN110347900A (zh) * 2019-07-10 2019-10-18 腾讯科技(深圳)有限公司 一种关键词的重要度计算方法、装置、服务器及介质
CN110347900B (zh) * 2019-07-10 2022-12-27 腾讯科技(深圳)有限公司 一种关键词的重要度计算方法、装置、服务器及介质

Similar Documents

Publication Publication Date Title
JP2008181186A (ja) クエリーログを利用したキーワードとサイトの関連度を求める方法
US8321278B2 (en) Targeted advertisements based on user profiles and page profile
US8775396B2 (en) Method and system for searching a wide area network
US8682723B2 (en) Social analytics system and method for analyzing conversations in social media
US8938463B1 (en) Modifying search result ranking based on implicit user feedback and a model of presentation bias
US9092510B1 (en) Modifying search result ranking based on a temporal element of user feedback
US9390173B2 (en) Method and apparatus for scoring electronic documents
US7013323B1 (en) System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
US8600979B2 (en) Infinite browse
US8543584B2 (en) Detection of behavior-based associations between search strings and items
US7693827B2 (en) Personalization of placed content ordering in search results
US8694493B2 (en) Computer-implemented search using result matching
US8250070B1 (en) User interaction based related digital content items
US7882175B1 (en) Selecting an advertising message for presentation on a page of a publisher web site based upon both user history and page context
US7987261B2 (en) Traffic predictor for network-accessible information modules
US20090077065A1 (en) Method and system for information searching based on user interest awareness
US9088808B1 (en) User interaction based related videos
US20170091339A1 (en) Method, apparatus and system of intelligent navigation
JP5507469B2 (ja) 格納されたクエリ情報を使用したコンテンツの提供
US20080104034A1 (en) Method For Scoring Changes to a Webpage
US20090210409A1 (en) Increasing online search engine rankings using click through data
JP2004164578A (ja) 分散型データベースの文書をカテゴリー分けしてプレゼンテーションする方法及び装置
US7831474B2 (en) System and method for associating an unvalued search term with a valued search term
JP2011520193A (ja) 最もクリックされた次オブジェクトを有する検索結果
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120313

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120317