JP2008181186A - How to find the relevance between keywords and sites using query logs - Google Patents
How to find the relevance between keywords and sites using query logs Download PDFInfo
- Publication number
- JP2008181186A JP2008181186A JP2007012402A JP2007012402A JP2008181186A JP 2008181186 A JP2008181186 A JP 2008181186A JP 2007012402 A JP2007012402 A JP 2007012402A JP 2007012402 A JP2007012402 A JP 2007012402A JP 2008181186 A JP2008181186 A JP 2008181186A
- Authority
- JP
- Japan
- Prior art keywords
- user
- server
- keyword
- query log
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】クエリーログを利用して、検索キーワードとサイトとの関連性を求める新たな方法を提供すること。
【解決手段】ユーザ端末と検索サーバの間に位置するサーバが、ユーザ端末からキーワードによる検索を行った際に、独自の検索結果ページを生成し、該ユーザの端末に表示する。本サーバは、ユーザの検索結果におけるクエリーログを格納するクエリーログ記憶手段を備え、ユーザが検索を行った際のセッションのID、検索結果ページからユーザがクリックしたWebページのURL、該Webページのリンクをクリックした際の日時、及び前記キーワードをクエリーログ記憶手段に集積するステップと、クエリーログ記憶手段を用いて、キーワード毎にURLのクリック数を集計するステップと、クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、を含む。
【選択図】図1To provide a new method for obtaining a relationship between a search keyword and a site using a query log.
When a server located between a user terminal and a search server performs a search using a keyword from the user terminal, a unique search result page is generated and displayed on the user terminal. The server includes query log storage means for storing a query log in a user search result, the session ID when the user performs a search, the URL of the Web page clicked by the user from the search result page, the Web page The date and time when the link is clicked, the step of accumulating the keyword in the query log storage means, the step of counting the number of URL clicks for each keyword using the query log storage means, and the query log storage means in advance Extracting a query log including keywords in the inputted predetermined keyword list.
[Selection] Figure 1
Description
本発明は、クエリーログを利用したキーワードとサイトの関連度を求める方法に関する。より詳しくは、キーワード検索の検索結果におけるクリックログを含むクエリーログを利用したキーワードとサイトの関連度を求めるための方法、サーバ、及びプログラムに関する。 The present invention relates to a method for obtaining a degree of association between a keyword and a site using a query log. More specifically, the present invention relates to a method, a server, and a program for obtaining a degree of association between a keyword and a site using a query log including a click log in a keyword search result.
今日、インターネットを用いて膨大な情報の中から、誰もがいつでも欲しい情報を検索することが可能になった。ある情報を求めるユーザは多くの場合、インターネット上の各種検索サイトでその情報の特徴を表すキーワードを入力してクエリー(照会)を行う。このようなクエリーを行うことにより、検索サイトの検索エンジンが、インターネット上でWebサイトの検索を行い、その結果として検索結果ページがユーザに表示される。この検索結果ページには、数々の情報を記述したWebサイトへのリンクが、検索サイトの検索エンジンによって定められた優先順位にしたがって表示される。 Today, it is now possible to search for information that anyone wants at any time from a vast amount of information using the Internet. In many cases, a user who seeks certain information inputs a keyword representing the feature of the information at various search sites on the Internet and performs a query. By performing such a query, the search engine of the search site searches the Web site on the Internet, and as a result, the search result page is displayed to the user. On this search result page, links to Web sites describing various information are displayed in accordance with the priority order determined by the search engine of the search site.
しかし、この検索結果ページから得たリンク先のWebサイトの情報には、必ずしもユーザの求める情報が含まれず、入力したキーワードとの関連性の低いものも存在する。検索結果ページで最初にクリックしたリンク先に求める情報がなかった場合には、多くの場合、ユーザは次の表示順位のリンク先のページを順にたどってゆくことになる。そのため、検索結果ページにはキーワードと関連の深いWebサイトほど表示されることが望ましい。一方、アダルト、暴力、グロテスク、差別語等、子供等の特定のユーザにとっては、不適切、若しくは「有害」な情報を含んだサイトも多数存在するので、このようなサイトは、場合によってはそのユーザの検索結果ページに表示されないようにすることも必要である。 However, the information on the linked Web site obtained from the search result page does not necessarily include the information requested by the user, and there are some that are not related to the input keyword. In the case where there is no information to be requested for the link destination clicked first on the search result page, in many cases, the user sequentially follows the link destination page of the next display order. For this reason, it is desirable that Web sites that are more closely related to keywords are displayed on the search result page. On the other hand, there are many sites that contain information that is inappropriate or “harmful” for certain users such as adults, violence, grotesques, discriminatory words, and so on. It is also necessary to prevent it from being displayed on the user search results page.
そのため、このような「有害」サイトをフィルタリング(データ内容を検査して通過されるかどうかを判定すること)を行う方法が多数存在する。例えば、特許文献1には、予め登録したキーワードファイルを読み込み、そのキーワードに基づく検索を定期的に自動で行って、検索結果情報から抽出した「不良URL(Universal Resource Allocator)」を不良URLデータベースに登録し、クライアント装置からの送信要求情報をWebサーバへ送信するか否かを判定する管理サーバが開示されている。
しかしながら、上記特許文献1の管理サーバにおいて、キーワードに基づいて「不良URL」をどのように抽出するのかについては具体的には記載されていない。今日、「有害」サイトと呼ばれるものは膨大な数が存在する一方、「不適切」なキーワードを含んでいても「健全」なサイトも多数存在する(例えば、時事ニュースや評論、解説記事等のサイト)。そのため、「有害」サイトの自動抽出には限界があり、このようなサイトの抽出は、専門業者等人手による方法が広く用いられているのが現状である。一方、機械学習的な方法によって自動的にフィルタリングする方法も存在するが、計算量の多さや学習のためのトレーニングデータ等の作成に手間がかかる等の問題がある。また、この方法は、「有害」サイトの入り口に十分な語句がなく、もっぱら画像のみでページが構成されている場合には適用できない。 However, it is not specifically described how the “bad URL” is extracted based on the keyword in the management server of Patent Document 1. Today there are a huge number of what are called “poisonous” sites, but there are also many “healthy” sites that contain “inappropriate” keywords (for example, current news, reviews, commentary, etc.) site). For this reason, there is a limit to the automatic extraction of “harmful” sites, and in the current situation, manual extraction methods such as specialists are widely used. On the other hand, there is a method of automatically filtering by a machine-learning method, but there are problems such as a large amount of calculation and troublesome training data creation for learning. Also, this method cannot be applied when there are not enough words at the entrance of the “harmful” site and the page is composed solely of images.
本発明は、上記課題に鑑み、多数のユーザが実際に行った検索のクエリーのログを利用して、検索に用いたキーワードとWebサイトとの関連度を経験的に求める新たな方法等を提供することを目的とする。 In view of the above problems, the present invention provides a new method for empirically obtaining the degree of relevance between a keyword used for a search and a Web site using a log of search queries actually performed by a large number of users. The purpose is to do.
本発明では、以下のような解決手段を提供する。 The present invention provides the following solutions.
(1) 通信ネットワークを介して複数のユーザの端末と接続可能なサーバがキーワードとWebサイトの関連度を求める方法であって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの前記検索結果ページからのクリックログを格納するクエリーログ記憶手段を備え、
前記サーバにおいて、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記URLに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内の各キーワードを含むクエリーログを抽出するステップと、
を含む方法。
(1) A method in which a server that can be connected to a plurality of user terminals via a communication network obtains the degree of association between a keyword and a website,
The server generates a search result page when the user of the terminal performs a search by a keyword and displays the search result page on the user's terminal, and a click log from the search result page of the user. A query log storage means for storing,
In the server,
The query log includes the session ID when the user performs the search, the URL of the Web page clicked by the user from the search result page, the access date and time when the link to the Web page is clicked, and the keyword. Accumulating in storage means;
Using the query log storage means to count the number of clicks for the URL for each keyword;
Extracting a query log including each keyword in a predetermined keyword list inputted in advance from the query log storage means;
Including methods.
このような構成によれば、このサーバは、ユーザがキーワードによる検索を行った際に、(検索エンジンが求めた検索結果から)独自の検索結果ページを生成し、ユーザの端末に表示する手段(具体的には検索結果ページのURLを送信する)を有する。この検索結果ページに表示されたリンク先をユーザがクリックすると、前記の検索を行った際のセッションID、クリックされたリンク先のURL、クリックしたときのアクセス日時、検索の時に用いたキーワード(キーワードは複数であってもよい)を、本サーバに接続されたクエリーログ記憶手段(例えば後述のクエリーログ・データベース)に格納する。そして、このクエリーログ記憶手段を用いて、検索時のキーワード毎に、検索結果ページからユーザが実際にクリックしたURLのクリック数を集計する。そして、別に予め定められた所定のキーワード・リスト(例えば、有害サイトを抽出するためのキーワード・リスト)内の各キーワード(シードクエリーとも呼ぶ)を含むクエリーログを前記のクエリーログ記憶手段から抽出する。 According to such a configuration, this server generates a unique search result page (from the search result obtained by the search engine) and displays it on the user's terminal when the user performs a search by keyword ( Specifically, the URL of the search result page is transmitted. When the user clicks the link destination displayed on the search result page, the session ID when the search is performed, the URL of the clicked link destination, the access date and time when the click is performed, and the keyword (keyword used for the search) Are stored in a query log storage means (for example, a query log database described later) connected to the server. Then, using this query log storage means, the number of URL clicks actually clicked by the user from the search result page is counted for each keyword at the time of search. Then, a query log including each keyword (also referred to as a seed query) in a predetermined keyword list (for example, a keyword list for extracting harmful sites) set in advance is extracted from the query log storage means. .
このことにより、ユーザが様々なキーワードを用いて検索した結果である検索結果ページから、実際にそのユーザがクリックしたURLをクエリーログ・データベース等の記憶手段に、多数集積することができ、そのキーワードとクリックされたURL集合の中から所定のキーワード・リストにマッチするURLを抽出し、この抽出されたキーワードとURL集合を用いてサイトの収集や検証に役立てることができる。 As a result, it is possible to accumulate a large number of URLs actually clicked by a user in a storage means such as a query log database from a search result page which is a result of a user searching using various keywords. URLs that match a predetermined keyword list can be extracted from the clicked URL set, and this extracted keyword and URL set can be used to collect and verify sites.
(2) 前記抽出したクエリーログに含まれるURLのクリック数の頻度の高い順に、前記URLを、前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、(1)に記載の方法。 (2) The method according to (1), further including a step of displaying the URLs on a site verifier terminal connected to the server in the descending order of the number of clicks of the URLs included in the extracted query log. Method.
このような構成によれば、サイト検証者(特定の種類のWebサイトを収集し、それらのサイトが実際にその種類にあっているかどうかを検証する者)が、例えば、ペアレンタル・コントロールのために有害サイトのリストを集めようとしたとき等に、ユーザのクリック数が多い(すなわち、実際に有害度の影響も高いと考えられる)サイトを優先的に表示してサイト検証者の検証効率を高めることができる。 According to such a configuration, a site verifier (a person who collects specific types of Web sites and verifies whether or not those sites are actually in that type) can be used for parental control, for example. When trying to collect a list of harmful sites, etc., the site verifier's verification efficiency can be improved by preferentially displaying the sites where the number of clicks by the user is high (that is, the impact of the harmfulness is actually high). Can be increased.
(3) 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算し、同一頻度のクリックのURLに対しては、前記滞在時間の長い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、(2)に記載の方法。 (3) From the access date and time for each URL included in the extracted query log, the stay time in the Web page clicked by the user is calculated, and for the click URLs with the same frequency, the stay time in the descending order of the stay time. The method according to (2), further comprising displaying a URL on a site verifier terminal connected to the server.
このような構成によれば、ユーザが特定のURLをクリックしたアクセス日時からそのURLのWebページの滞在時間を何らかの方法で取得することによって、同じクリック数のURLがあった場合でも、滞在時間の長いWebページは、ユーザの求める情報がより多くあったと考え、すなわち、ユーザが入力した検索キーワードとそのURLを持つサイトの関連度が高いものとして、そのURLを優先的に表示させることで検証の効率をあげることができる。 According to such a configuration, even if there is a URL with the same number of clicks by acquiring the stay time of the Web page of the URL from the access date and time when the user clicked on the specific URL by some method, A long Web page is considered to have more information requested by the user, that is, the search keyword entered by the user and the site having the URL have high relevance, and the URL is preferentially displayed for verification. Efficiency can be increased.
(4) 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算し、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示するステップを更に含む、(1)に記載の方法。 (4) From the access date and time for each URL included in the extracted query log, the stay time on the Web page clicked by the user is calculated, and the keyword is obtained by multiplying the weight obtained from the stay time and the number of clicks. The method according to (1), further comprising a step of calculating a degree of association of a site and displaying the URL on a terminal of a site verifier connected to the server in descending order of the degree of association.
このような構成によれば、クリック数と滞在時間から求めた重み度(ウェイト)を掛け合わせ、その値をサイトの関連度として考える。この際、(3)のように同一頻度のURLにのみ滞在時間を求めるのでなく、クリックされた全てのURLに対して滞在時間を求め、それをクリック数に対する重み付けとする。その結果、キーワードとサイトの関連度を多面的に求めることができる。 According to such a configuration, the number of clicks is multiplied by the weight (weight) obtained from the stay time, and the value is considered as the degree of relevance of the site. At this time, the staying time is not obtained only for URLs having the same frequency as in (3), but the staying time is obtained for all clicked URLs, and is used as a weight for the number of clicks. As a result, the degree of relevance between the keyword and the site can be obtained in many ways.
(5) 前記滞在時間は、前記検索結果ページに掲載されるWebページにおいて、前記ユーザが、あるWebページへのリンクをクリックした時刻と次に別のWebページへのリンクをクリックした時刻との差によって求める、(3)または(4)に記載の方法。 (5) The staying time is the time when the user clicked a link to a certain web page and the time when the user clicked a link to another web page on the web page posted on the search result page. The method according to (3) or (4), which is determined by a difference.
このような構成によれば、あるWebページへのリンクをクリックした時刻と次に別のWebページへのリンクをクリックした時刻との差によって先にクリックしたURLにおけるユーザ滞在時間(閲覧時間)を求めることができる。すなわち、滞在時間をクエリーログに保存されたアクセス日時(時刻)から容易に求めることができる。なお、この方法では、セッションの最後にクリックしたURLは、次のURLが存在しないため、滞在時間として十分大きい値、例えば30分とする、を便宜的に与えることにする。 According to such a configuration, the user staying time (viewing time) in the URL clicked first by the difference between the time when the link to a certain Web page is clicked and the time when the link to another Web page is clicked next is calculated. Can be sought. That is, the staying time can be easily obtained from the access date and time (time) stored in the query log. In this method, the URL clicked at the end of the session does not have the next URL, and therefore, for convenience, a sufficiently long value, for example, 30 minutes is given as the stay time.
(6) 前記検索結果ページに掲載するWebページへのリンクは、リダイレクタのURLであり、前記ユーザが前記リンクをクリックすると、前記リダイレクタによって本来のリンク先にリダイレクトされる、(1)に記載の方法。 (6) The link to the Web page posted on the search result page is a redirector URL, and when the user clicks the link, the redirector redirects the original link destination to the original link destination. Method.
このような構成によれば、検索結果ページに掲載されるWebページへのリンクは直接そのWebページのURLでなく、予め設定されたリダイレクタのページのURLとする。その結果、ユーザが検索結果ページから、あるWebページへのリンクをクリックすると、いったんリダイレクタのページに飛び、リダイレクタがユーザのクリックした時の時刻やクリック数をカウントし、クエリーログに保存した後、本来のWebページにリダイレクトする。こうようにすることで、ユーザには意識させずにユーザのクエリーログを容易に集積することができる。 According to such a configuration, the link to the Web page posted on the search result page is not the URL of the Web page directly, but the URL of the redirector page set in advance. As a result, when the user clicks a link to a certain web page from the search result page, it jumps to the redirector page, counts the time and number of clicks when the redirector clicks, and saves it in the query log. Redirect to the original web page. By doing so, the user's query log can be easily accumulated without making the user aware of it.
(7) 前記サイト検証者のための特定のURLに対する滞在時間に関するスコアであるURL_Score(u)を、次の数式によって求める(4)または(5)に記載の方法。
q:シードクエリー
S:セッション集合
Q:同種のサイトを検索するためのシードクエリーの集合
URL_Score(q,u):シードクエリーqに対するURLuのスコア
(7) The method according to (4) or (5), wherein URL_Score (u), which is a score related to a stay time for a specific URL for the site verifier, is obtained by the following formula.
q: Seed query
S: Session set
Q: A set of seed queries for searching similar sites
URL_Score (q, u): URLu score for seed query q
ここでシードクエリーとは、サイト検証者がサイトを収集するために用いるキーワードを意味する。このような構成によれば、同種のサイトを求めるシードクエリーがキーワード・リストとして複数ある場合でも、特定のURLに対してその滞在時間の和をそのシードクエリーに対するスコアとして求め、そのスコアをシードクエリーの集合全てにおいて加算することで、URLのあるシードクエリーの集合に対する全体スコアを求める。そして、この全体スコアの高いURLを優先的に表示すれば検証の効率をあげることができる。なお、シードクエリーの集合は、予めサイト検証者がキーワード・リスト等で定義しておく。 Here, the seed query means a keyword used by the site verifier to collect sites. According to such a configuration, even when there are a plurality of seed queries for the same type of site as a keyword list, the sum of the staying times is obtained as a score for the seed query for a specific URL, and the score is obtained as a seed query. The total score for the set of seed queries with a URL is obtained by adding all the sets. If the URL having a high overall score is preferentially displayed, the efficiency of verification can be increased. A set of seed queries is previously defined by a site verifier using a keyword list or the like.
(8) 上記集計するステップは、所定の時間間隔毎に定期的に行う、(1)〜(7)に記載の方法。 (8) The method according to any one of (1) to (7), wherein the counting step is periodically performed at predetermined time intervals.
このような構成によれば、本発明のサーバは、定期的に(例えば24時間毎、1週間毎、1ヶ月毎等)、与えられたキーワード・リストによるサイトの検索を自動的に行うので、新規のサイトが登場した場合でも直ちにサイト検証の対象に加えることができる。 According to such a configuration, the server of the present invention automatically searches the site by a given keyword list periodically (for example, every 24 hours, every week, every month, etc.) Even if a new site appears, it can be immediately added to the site verification target.
(9) 前記所定のキーワード・リストが、キーワードとして、有害サイトを識別するペアレンタル・コントロールのための所定の猥褻語、差別語を含む、(1)〜(8)に記載の方法。 (9) The method according to any one of (1) to (8), wherein the predetermined keyword list includes, as keywords, predetermined language and discriminatory words for parental control for identifying harmful sites.
本発明の方法は、ペアレンタル・コントロールにおける有害サイトの識別に利用できる。所定の卑猥語、差別語は、サイト検証者によってキーワード・リストによって入力される。 The method of the present invention can be used to identify harmful sites in parental control. Predetermined obscene words and discriminatory words are entered by the site verifier through a keyword list.
(10) 前記所定のキーワード・リストが、キーワードとして、ネットオークションにおける所定の取引禁止物品名を含む、(1)〜(8)に記載の方法。 (10) The method according to any one of (1) to (8), wherein the predetermined keyword list includes a predetermined trade prohibited article name in an online auction as a keyword.
本発明の方法は、ネットオークションの所定の取引禁止物品名(例えば、「医薬品」、「麻薬」、「武器類」、「取引禁止動植物」、「猥褻品」等に分類される物品名)を含む出品ページの検索に利用できる。所定の取引禁止物品名は、サイト検証者によって当該ネットオークションの規定に基づきキーワード・リストによって入力される。 In the method of the present invention, a predetermined trade prohibited article name (for example, an article name classified as “medicine”, “narcotics”, “weapons”, “transaction prohibited animals and plants”, “grocery”, etc.) in the Internet auction is used. Can be used to search for listing pages. The predetermined trade prohibited product name is input by the site verifier by a keyword list based on the rules of the net auction.
(11) 通信ネットワークを介して複数のユーザの端末と接続可能でキーワードとWebサイトの関連度を求めるためのサーバであって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成する検索結果ページ生成部と、
該ユーザの検索結果におけるクエリーログを格納するクエリーログ・データベースと、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを格納するクエリーログ保存部と、
前記クエリーログ・データベースを用いて、前記キーワード毎に前記URLに対するクリック数を集計するクリック数集計部と、
前記クエリーログ・データベースから、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するクエリーログ抽出部と、
を備えるサーバ。
(11) A server that can be connected to a plurality of users' terminals via a communication network and obtains the degree of association between a keyword and a website,
The server includes a search result page generation unit that generates a search result page when a user of the terminal performs a search using a keyword,
A query log database for storing a query log in the search results of the user;
Query that stores the session ID when the user performs the search, the URL of the Web page that the user clicked from the search result page, the access date and time when the link to the Web page is clicked, and the keyword A log storage unit;
Using the query log database, a click number counting unit for counting the number of clicks for the URL for each keyword;
A query log extraction unit for extracting a query log including keywords in a predetermined keyword list inputted in advance from the query log database;
A server comprising
このような構成によれば、(1)に記載の方法と同様な作用効果を有するサーバ装置が提供できる。 According to such a configuration, it is possible to provide a server device having the same function and effect as the method described in (1).
(12) 前記抽出したクエリーログに含まれるURLのクリック数の頻度の高い順に、前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、(11)に記載のサーバ。 (12) The server according to (11), further comprising means for displaying the URL on a terminal of a site verifier connected to the server in descending order of the number of clicks of the URL included in the extracted query log. .
このような構成によれば、(2)に記載の方法と同様な作用効果を有するサーバ装置が提供できる。 According to such a configuration, it is possible to provide a server device having the same operational effects as the method described in (2).
(13) 前記サーバは、前記ユーザがクリックしたWebページにおける滞在時間を計算する滞在時間計算部を更に備え、同一頻度のクリック数のURLに対しては、前記滞在時間の大きい順に前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に備える、(12)に記載のサーバ。 (13) The server further includes a stay time calculation unit that calculates a stay time in the Web page clicked by the user, and for the URLs having the same number of clicks, the URLs are listed in descending order of the stay time. The server according to (12), further comprising means for displaying on a terminal of a site verifier connected to the server.
このような構成によれば、(3)に記載の方法と同様な作用効果を有するサーバ装置が提供できる。 According to such a structure, the server apparatus which has the same effect as the method as described in (3) can be provided.
(14) 前記抽出したクエリーログに含まれる各URLに対するアクセス日時から、前記ユーザがクリックしたWebページにおける滞在時間を計算する滞在時間計算部を更に備え、前記滞在時間から求めた重み度と前記クリック数とを掛けてキーワードとサイトの関連度を計算し、前記関連度の高い順に前記URLを前記サーバに接続されたサイト検証者の端末に表示する手段を更に含む、(11)に記載のサーバ。 (14) It further includes a stay time calculation unit that calculates a stay time on the Web page clicked by the user from an access date and time for each URL included in the extracted query log, and the weighting degree obtained from the stay time and the click The server according to (11), further including means for calculating a degree of association between a keyword and a site by multiplying the number, and displaying the URL on a terminal of a site verifier connected to the server in descending order of the degree of association. .
このような構成によれば、(4)に記載の方法と同様な作用効果を有するサーバ装置が提供できる。 According to such a structure, the server apparatus which has the same effect as the method as described in (4) can be provided.
(15) 通信ネットワークを介して複数のユーザの端末と接続可能なサーバにおいてキーワードとWebサイトの関連度を求めるためのコンピュータ・プログラムあって、
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの検索結果におけるクリックログを格納するクエリーログ記憶手段を備え、
前記サーバに、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記URLに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
を実行させるコンピュータ・プログラム。
(15) A computer program for obtaining a degree of association between a keyword and a website in a server connectable to a plurality of user terminals via a communication network,
The server includes a means for generating a search result page when the user of the terminal performs a search using a keyword and displaying the search result page on the user terminal, and a query for storing a click log in the search result of the user Log storage means,
To the server,
The query log includes the session ID when the user performs the search, the URL of the Web page clicked by the user from the search result page, the access date and time when the link to the Web page is clicked, and the keyword. Accumulating in storage means;
Using the query log storage means to count the number of clicks for the URL for each keyword;
Extracting a query log including keywords in a predetermined keyword list input in advance from the query log storage means;
A computer program that runs
このような構成によれば、(1)に記載の方法と同様な作用効果を有するサーバ装置を実現させる手段として、コンピュータ・プログラムの形態で本発明を提供できる。 According to such a configuration, the present invention can be provided in the form of a computer program as means for realizing a server device having the same operational effects as the method described in (1).
本発明によれば、キーワード検索におけるクリックログやアクセス日時を含むクエリーログを用いることで、サイト検証者が、例えば、有害サイトのページ、アクセス制限対象サイトのページ、オークションにおける取引禁止物品の出品ページ、特定主題に対する話題のサイトのページ等を効率的にかつ持続的に収集することができる。 According to the present invention, by using a click log in keyword search and a query log including access date and time, a site verifier can, for example, a page of a harmful site, a page of an access-restricted site, an exhibition page of prohibited items in an auction, for example. It is possible to efficiently and continuously collect a page of a topical site for a specific subject.
以下、本発明の好適な実施形態について図を参照しながら説明する。 Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.
[クエリーログ集計サーバの構成]
図1は、本発明の好適な実施形態の一例に係るシステムの全体構成、及びその中核となるクエリーログ集計サーバの機能ブロックを示す図である。本システムの全体構成としては、クエリーログ集計サーバ10が、複数のユーザ端末20とインターネット21を介して接続され、更に検索サーバ30とネットワーク31を介して接続される。ネットワーク31は、任意の通信ネットワークであってよく、LAN(Local Area Network)、WAN(Wide Area Network)であっても、またインターネットであってもよい。ユーザは、PC(Personal Computer)やPDA(Personal Digital Assistants)、携帯電話機等のユーザ端末20から、検索キーワードを用いてインターネット上で求める情報が存在するWebサイトを検索する。一般ユーザがキーワードを用いて検索サイト等で行う検索を、本明細書ではクエリー(照会)と呼んでいる。また、サイト検証者がサイトを収集するために用いるキーワードをシードクエリーと呼んでいる。通常、クエリー要求は、検索サーバ30に送信され、検索サーバ30のクエリー受付部32でキーワードを受信し、種々の公知の検索エンジン33を用いて検索処理がなされる。この検索サーバ30は、インターネットを介して、直接的または間接的にユーザ端末20と通信可能であるが、本発明では、ユーザ端末20と検索サーバ30との間にクエリーログ集計サーバ10を接続する。すなわち、クエリーログ集計サーバ10は、ユーザ端末20と検索サーバ30との仲立ちをする役目を担う。
[Configuration of Query Log Total Server]
FIG. 1 is a diagram showing an overall configuration of a system according to an example of a preferred embodiment of the present invention and functional blocks of a query log tabulation server as a core thereof. As an overall configuration of this system, a query
クエリーログ集計サーバ10は、ユーザ端末20からクエリー要求を受け取ると、検索サーバ30にそれを転送する。このとき、そのクエリーのセッションのIDを記憶しておく。検索サーバ30から、対応するセッションIDを含んだユーザのクエリーに対する検索結果を受け取ると、検索結果生成部11がユーザ端末20に対して独自の検索結果ページを生成する。通常、検索結果ページには、キーワードにマッチする(と判断された)Webページへのリンクが含まれるが、本サーバ10は、後述するリダイレクタによる方法で、ユーザがこの独自の検索結果ページに掲載されたリンク先をクリックするたびに、クエリーログ保存部12によって、ユーザのクエリーログを保存する。このクエリーログには、セッションIDの他、検索結果ページからユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び検索に用いたキーワードが含まれる。
When the query
クエリーログのデータは、クエリーログ・データベース(クエリーログDB17;以降、データベースはDBと略することがある)に格納される。クエリーログDB17に蓄積された多数のユーザのクエリーログは、クエリーログ集計サーバ10の集計部(図示せず)によって、適時集計作業が行われる。集計部は、例えば、クリック数集計部13と滞在時間計算部14によって構成され、クエリーログ中のデータをクエリーに用いられたキーワードと、クリックされたURLを一定の時間間隔(例えば24時間毎、1週間毎、1ヶ月毎等)で自動的に集計する。得られた各種集計情報は、クエリーログDB17に格納されるか、あるいは別のデータベースに格納されてもよい。また、このような各種データベースは、クエリーログ集計サーバ10の記憶部10bとして構成されてもよいが、サーバの外部に接続するように構成されてもよい。
The query log data is stored in a query log database (
また、クエリーログ集計サーバ10は、ネットワーク31を介して、または図のように直接的に表示部/操作部16を介して、サイト検証者端末40と接続される。サイト検証者とは、特定の種類のWebサイトを収集し、それらのサイトが実際にその種類「分類」にあっているかどうかを検証する者である。サイト検証者は、クエリーログDB17に蓄積されたデータを用いて、求める種類のサイト(例えば「有害」サイト等)を収集し、その内容を検証する。具体的には、サイト検証者は、サイトを収集するためのキーワード・リストを作成し、それをクエリーログ集計サーバ10に入力する。キーワード・リストが多数あるときは、キーワード・リストDB18に登録、格納するようにしてもよい。
The query
クエリーログ抽出部15は、この予め定められたキーワード・リストに含まれるキーワード(1語のキーワードまたは複数のキーワードの組であってもよい)に対して、後述するような方法で、関連度の高いサイトのURLを抽出する。抽出した結果は、何らかの方法(例えば順位づけて表示する等)でサイト検証者によって利用される。
The query
なお、このようなクエリーログ集計サーバ10の各機能部11〜15は、制御部10a(典型的にはコンピュータのCPUによって実行される機能)を構成する。また、上記の実施形態では、判り易いように、クエリーログ集計サーバ10と検索サーバ30は、別個のサーバであるとして説明したが、必ずしもこの構成に限定される必要はなく、検索サーバ30に、クエリーログ集計サーバ10の機能を含ませてもよい。
In addition, each function part 11-15 of such a query
図2は、上記システムにおける以上の処理の流れをまとめた図である。詳細は前述の説明と重複するので省略する。なお、この図では、クエリーログ集計サーバ10のクエリーログ集計処理は示していないが、クエリーログ集計処理は、ここでの処理とは独立して行われる(後述)。
FIG. 2 is a diagram summarizing the above processing flow in the system. Details will be omitted because they overlap with the above description. Although the query log totaling process of the query
図3は、クエリーログを集計するための一つの方法として、リダイレクタ42の概念を示す図である。クエリーログ集計サーバ10の検索結果ページ生成部11は、検索サーバ30からユーザのクエリーに対する検索結果を受け取ると、検索結果ページ41に掲載された各Webページへのリンク先をリダイレクタ42のURLに置き換える。そして、このリダイレクタのURLを含んだ検索結果ページ41を、ユーザ端末20に返信する。ユーザが受信した検索結果ページ41から、所望のWebページへのリンク(例えば、ページAリンク)をクリックすると、実際にはリダイレクタ42にジャンプする。
FIG. 3 is a diagram showing the concept of the
リダイレクタ42は、ユーザが検索結果ページに掲載されたWebページのリンクをクリックしたとき、クエリーに対する各種データを、具体的には、ユーザ端末20のIPアドレス(固定IPアドレスでなくてもよい)、Webページへのリンクをクリックした時のアクセス日時、クエリーセッションのセッションID、ユーザがクエリーに用いた一または複数のキーワード、及びユーザが検索結果ページからクリックしたWebページの本来のURL等、クエリーログデータ44として、クエリーログDB17へ保存する。その後、ユーザを本来のリンク先のWebページ(リンク先ページ43)へジャンプさせる。このようにして、リダイレクタ42を用いることによって、クエリーログ集計サーバ10は、IPアドレスで識別されるユーザ毎、セッションIDで識別されるセッション毎にクエリーログを容易に集めることができる。
When the user clicks on the link of the Web page posted on the search result page, the
図4は、クエリーログDB17に格納されるクエリーログデータ44の一例を示す図である。図示するように、この表ではユーザ端末20を識別するためのIPアドレス、検索結果ページからクリックしたアクセス日時、クエリーのセッションID、クエリーに用いられたキーワード、及び実際にクリックしたURLが表形式で格納されている。この例では、ユーザ端末20(IPアドレス110.149.145.1)から、クエリーセッションID:Bp4ed6917において、クエリーキーワードとして「無修正」and「画像」を用いて検索した結果、得られた検索結果ページから、表の右端に示すような5つのURLを実際に、ユーザが2006年10月6日21:45:53の時点から順次Webページへのリンクをクリックしていったときのアクセス日時(時刻)が記録されている。
FIG. 4 is a diagram illustrating an example of the
なお、特に図示していないが、検索結果ページ上での各URLの表示順位(ランク)も記録するようにしてもよい。これは、検索結果ページの上位にあるリンクほどユーザがクリックする確率が高いため、それを考慮に入れることを可能にするためである。例えば、検索結果ページの第1ページに表示されたリンク(Yahoo!検索では、1位から10位までを1ページに表示されるようにしている)は、クリックされる率が高いことが知られている。したがって、2ページ目以降に表示されたリンクがクリックされた場合には、1ページ目にあるリンクより高い重み度を与えるようにしてもよい。 Although not specifically shown, the display order (rank) of each URL on the search result page may also be recorded. This is because the higher the probability that the user clicks on the link at the top of the search result page, it is possible to take it into account. For example, it is known that the link displayed on the first page of the search result page (from Yahoo! search, the first to tenth pages are displayed on one page) has a high click rate. ing. Therefore, when a link displayed on the second page or later is clicked, a higher degree of weight than the link on the first page may be given.
図5は、クエリーログ集計サーバ10の集計処理手順の一例を示す図である。まず、ステップS1において、クエリーログの集合を取得する。すなわち、一定の集計期間の全ユーザのクエリーログをセッションID毎に集める。
FIG. 5 is a diagram illustrating an example of a totaling process procedure of the query
次に、ステップS2において、上記の集合をアクセス日時でソートする。更に、ステップS3において、あるセッションにおける一つのURLに対するアクセス日時と、次にクリックしたURLに対するアクセス日時の差を求め、これを最初のURLにおける滞在時間とする。この処理をセッション内の全てのURLに対して繰り返す。これについて詳しくは次の図6に示す。 Next, in step S2, the set is sorted by access date. Further, in step S3, a difference between the access date / time for one URL in a session and the access date / time for the next clicked URL is obtained, and this is set as the stay time in the first URL. This process is repeated for all URLs in the session. This is shown in detail in FIG.
図6は、Webページの滞在時間を求める方法の概略を示す図である。この図は、Yahoo!検索において、ユーザが検索キーワードとして、「AAA」and「BBB」を用いて検索した結果として、検索結果ページ50が表示された例を示している。ここでは実際には、「AAA」は「無修正」、「BBB」は「画像」の用語を用いた。この検索結果では、約600万件以上のサイトがヒットしているが、サイト検証者がこの全てのサイトを検証するのは、非常に困難である。 FIG. 6 is a diagram showing an outline of a method for obtaining the stay time of a Web page. This figure is Yahoo! In the search, an example is shown in which a search result page 50 is displayed as a result of a search performed by the user using “AAA” and “BBB” as search keywords. In practice, the term “AAA” is “uncorrected” and “BBB” is “image”. In this search result, about 6 million or more sites have been hit, but it is very difficult for the site verifier to verify all the sites.
ユーザは、例えば、検索結果ページ50の第1順位の「AAABBB最前線」ページを時刻t1sにおいてクリックし、「AAABBB最前線」のリンク先ページであるWebページ51を閲覧した後、ブラウザの「戻る」ボタンを時刻t1eに押して、検索結果ページ50に戻る。同様に、第2順位の「AAABBBの宝庫」のリンク先ページであるWebページ52を時刻t2sにおいてクリックし、時刻t2eに戻ったとする。このとき、ページ51におけるユーザの滞在時間は、t1e−t1sであり、ページ52の滞在時間は、t2e−t2sである。しかしながら、t1eから次のt2sまでの時間は、一般的に短く無視し得るので、本発明の方法では、t1eがt2sにほぼ等しいとする。すなわち、ページ51の滞在時間は、近似的にt2s−t1sで求めることができる。次のページ52以降についても同様にして滞在時間を求める。
For example, the user clicks the “AAABBBB forefront” page of the first ranking of the search result page 50 at time t1s, browses the
ただし、仮に、ページ52がこのクエリーセッションにおける最後の閲覧ページであった場合は、次にクリックしたページが存在しないので、上記の方法は使えない。しかし、この場合は(次のURLが存在しない場合)、滞在時間として十分に長い時間、例えば30分、をセットするようにする。あるいは、最後のURLの重み度を通常のウェイトより多くするように調整してもよい。例えば、最後のURL以外の平均滞在時間を2倍して最後のURLの滞在時間としてもよい。これは、最後にクリックしたページには、ユーザの求める情報が存在した確率が高いからである。すなわち、キーワードとサイトとの関連が高いと推察できる。このようにして本発明の実施形態では、滞在時間の計算を近似的に求めているが、ブラウザの「戻る」ボタン等の押下を何らかの方法でリダイレクタ42が検出できるようにし、滞在時間をより正確に求めるようにしてももちろんよい。
However, if the
滞在時間の計算ステップが終わると、図5のステップS4に戻り、クリック済みのURLをクリック数の多い順に、すなわち高頻度順にソートする。次に、ステップS5において、同一頻度のクリック数のURLに対しては、滞在時間順にソートして集計処理を終わる。なお、ステップS5は、同一頻度のURLに対してのみでなく、全てのURLに対して滞在時間を求め、更にそこから重み度(ウェイト)を求め、その値とクリック頻度を掛け合わせた値の順にソートするようにしてもよい。例えば、滞在時間が30秒以内の場合は、重み度を1とし、以後滞在時間が30秒増える毎に重み度を1加えるようにする。こうすることによって、クリック頻度が高くても滞在時間の短いWebページは、キーワードに対する関連度が低いか、Webページのタイトルと内容がマッチしてないか等の理由が考えられ、このようなWebページは、相対的に順位が低くなるのでサイト検証効率のアップに役立つ。 When the stay time calculation step is completed, the process returns to step S4 in FIG. Next, in step S5, the URLs with the same number of clicks are sorted in the order of staying time, and the tabulation process ends. In step S5, the stay time is obtained for all URLs, not only for URLs with the same frequency, and the weight (weight) is obtained therefrom, and the value multiplied by the click frequency is obtained. You may make it sort in order. For example, when the staying time is within 30 seconds, the weighting factor is set to 1, and thereafter, every time the staying time increases by 30 seconds, the weighting factor is added by one. By doing this, a Web page with a short stay time even if the click frequency is high may be due to reasons such as low relevance to the keyword or whether the title and content of the Web page do not match. Since the rank of the page is relatively low, it helps to improve the site verification efficiency.
また、前述したように、検索結果ページ上に表示される順位(ランク)を、別にウェイトとして考慮してもよい。例えば、検索結果ページの上位にランクされるWebページが多数クリックされるのは当然であるので、ランクが低いにも関わらず、クリック数が所定の数より多いURL、またはクリック率が高いURLに対しては、ウェイトを2倍にする等の方法が考えられる。 Further, as described above, the rank (rank) displayed on the search result page may be considered as a separate weight. For example, since it is natural that many Web pages ranked higher in the search result page are clicked, a URL having a higher number of clicks than a predetermined number or a URL having a high click rate although the rank is low. On the other hand, a method such as doubling the weight is conceivable.
また、サイト検証者のための特定のURLに対する滞在時間に関するスコアであるURL_Score(u)を、次の数式によって求める。
ただし、t(s):セッションsにおけるURLuの滞在時間
q:シードクエリー
S:セッション集合
Q:同種のサイトを検索するためのシードクエリーの集合
URL_Score(q,u):シードクエリーqに対するURLuのスコア
Where t (s): URLu stay time in session s
q: Seed query
S: Session set
Q: A set of seed queries for searching similar sites
URL_Score (q, u): URLu score for seed query q
このようにすることで、サイト検証者のための同種のサイトを求めるシードクエリーが複数ある場合でも、特定のURLに対してその滞在時間の和をスコアとして求め、そのスコアをシードクエリーの集合全てにおいて加算することで、URL毎のスコアを求める。 In this way, even when there are a plurality of seed queries for obtaining the same type of site for the site verifier, the sum of the staying times is obtained as a score for a specific URL, and the score is obtained for all sets of seed queries. The score for each URL is obtained by adding at.
図7は、クエリーログDB17に格納されるクエリーログ集計結果データの一例を示す図である。ここでは、検索キーワード(クエリーに用いたキーワード)「AAA」に対してURL毎に集計した結果が示されている。例えば、URL http://xxx.aaa.bbbは、2006年12月1日12時0分に集計されたときには、クリック数143、滞在時間から求めたウェイト(重み度)は、43であったが、次の24時間の2006年12月2日12時0分には、クリック数189、ウェイト89になっている。この例では、集計期間として24時間毎のデータを集めているが、これらを更に集めて、例えば、1週間毎、1ヶ月毎の集計データも作成してよい。またこの例では、単一のキーワード「AAA」のみを示しているが、複数の単語、例えば、「AAA」and「BBB」、「AAA」or「BBB」も一つのキーワードとして集計する。
FIG. 7 is a diagram illustrating an example of query log tabulation result data stored in the
[実施例]
図8は、本発明の一実施例として、ペアレンタル・コントロールでの活用方法を示した図である。この例では、クエリーログDB17に、符号72で示す集計結果データ表が格納されているとする。この集計結果データ72は、図7で説明した表と基本的には同様である。また、この例では有害サイトの検証者は、キーワード・リスト75をNGキーワードDB74に格納することで、クエリーログ集計サーバ10に入力しているものとしている。キーワード・リスト75には、卑猥、暴力、差別、グロテスク等に分類されるキーワードが入力されている。
[Example]
FIG. 8 is a diagram showing a utilization method in parental control as an embodiment of the present invention. In this example, it is assumed that a tabulation result data table indicated by
クエリーログ集計サーバ10は、このキーワード・リスト75と集計結果データ表72を比較し、集計結果データ表72からNGキーワード(ここでは、「ddd」、「bbb」、「fff」)を含む情報(集計データレコード)を抜き出す(符号73で示す処理)。そして、この集計データレコードから、クリック数とウェイトを掛け合わせて関連度を計算する。この例では、NGキーワード「ddd」とURL http://xxxの関連度は16821となる。同様に、NGキーワード「bbb」とURL http://yyyの関連度は13400、「fff」とURL http://zzzの関連度は4224となっている。クエリーログ集計サーバ10は、この関連度データ77を格納した判定リストDB76を作成し、各URLを関連度の高い順にソートしてサイト検証者の端末に表示する。サイト検証者は、このソートされたURLの上位のものから順にWebページの内容を閲覧し、アクセス制限の判定(符号78で示す処理)を行い、該当するWebページのURLをブラックリストDB79に登録する。このように有害サイトの収集、検証に本発明のクエリーログ集計サーバ10を用いることで、サイト検証者のサイトの検証効率を上げることができる。
The query
上記の実施例では、ペアレンタル・コントロールにおけるブラックリストの作成に本発明の方法を利用したが、別の応用例として、ネットオークションにおける取引禁止物品を含む出品ページの探索や、特定の主題に関する話題のサイトを効率的に固定して、迅速に情報提供することを特徴とする情報サービスに用いることができる。 In the above embodiment, the method of the present invention was used to create a blacklist in parental control. However, as another application example, a search for an exhibition page including trade prohibited articles in a net auction, or a topic related to a specific subject matter. This site can be used for an information service characterized in that the site is efficiently fixed and information is quickly provided.
[クエリーログ集計サーバのハードウェア構成]
図9は、発明の好適な実施形態の一例に係るクエリーログ集計サーバ10のハードウェア構成の一例を示す図である。クエリーログ集計サーバ10は、制御部10aを構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
[Hardware configuration of query log summary server]
FIG. 9 is a diagram illustrating an example of a hardware configuration of the query
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
Storage means such as a
BIOS1060は、クエリーログ集計サーバ10の起動時にCPU1010が実行するブートプログラムや、クエリーログ集計サーバ10のハードウェアに依存するプログラム等を格納する。
The
記憶部10bを構成するハードディスク1074は、クエリーログ集計サーバ10が本発明の機能を実行するためのプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
The
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラムまたはデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050またはハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
As the
クエリーログ集計サーバ10に提供されるプログラムは、ハードディスク1074、光ディスク1077、またはメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、または通信I/F1040を介してダウンロードされることによって、クエリーログ集計サーバ10にインストールされ実行されてもよい。
The program provided to the query
前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶部10bを構成する記憶媒体としては、ハードディスク1074、光ディスク1077、またはメモリカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074または光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをクエリーログ集計サーバ10に提供してもよい。
The aforementioned program may be stored in an internal or external storage medium. Here, in addition to the
ここで、表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、クエリーログ集計サーバ10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
Here, the
ここで、入力手段は、ユーザによる入力の受付を行うものであり、キーボード及びマウス1100等により構成してよい。
Here, the input means accepts input by the user, and may be configured by a keyboard, a
また、通信I/F1040は、クエリーログ集計サーバ10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
The communication I /
以上の例は、クエリーログ集計サーバ10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、前述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
In the above example, the query
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
10 クエリーログ集計サーバ
10a 制御部
10b 記憶部
11 検索結果ページ生成部
12 クエリーログ保存部
13 クリック数集計部
14 滞在時間計算部
15 クエリーログ抽出部
16 表示部/操作部
17 クエリーログDB
18 キーワード・リストDB
20 ユーザ端末
21 インターネット
30 検索サーバ
31 ネットワーク
32 クエリー受付部
33 検索エンジン
40 サイト検証者端末
41 検索結果ページ
42 リダイレクタ
43 リンク先ページ
44 クエリーログデータ
50 検索結果ページ
51 リンク先ページ
52 リンク先ページ
72 集計結果データ
73 NGキーワードマッチ情報抽出処理
74 NGキーワードDB
75 NGキーワード表
76 判定リストDB
77 関連度データ
78 アクセス制限判定処理
79 ブラックリストDB
DESCRIPTION OF
18 Keyword List DB
20
75 NG Keyword Table 76 Judgment List DB
77
Claims (15)
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの前記検索結果ページからのクリックログを格納するクエリーログ記憶手段を備え、
前記サーバにおいて、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記URLに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
を含む方法。 A server that can be connected to a plurality of user terminals via a communication network is a method for determining the degree of association between a keyword and a website,
The server generates a search result page when the user of the terminal performs a search by a keyword and displays the search result page on the user's terminal, and a click log from the search result page of the user. A query log storage means for storing,
In the server,
The query log includes the session ID when the user performs the search, the URL of the Web page clicked by the user from the search result page, the access date and time when the link to the Web page is clicked, and the keyword. Accumulating in storage means;
Using the query log storage means to count the number of clicks for the URL for each keyword;
Extracting a query log including keywords in a predetermined keyword list input in advance from the query log storage means;
Including methods.
q:シードクエリー
S:セッション集合
Q:同種のサイトを検索するためのシードクエリーの集合
URL_Score(q,u):シードクエリーqに対するURLuのスコア The method according to claim 4 or 5, wherein URL_Score (u), which is a score related to a staying time for a specific URL for the site verifier, is obtained by the following formula.
q: Seed query
S: Session set
Q: A set of seed queries for searching similar sites
URL_Score (q, u): URLu score for seed query q
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成する検索結果ページ生成部と、
該ユーザの検索結果におけるクエリーログを格納するクエリーログ・データベースと、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを格納するクエリーログ保存部と、
前記クエリーログ・データベースを用いて、前記キーワード毎に前記URLに対するクリック数を集計するクリック数集計部と、
前記クエリーログ・データベースから、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するクエリーログ抽出部と、
を備えるサーバ。 A server that can be connected to a plurality of users' terminals via a communication network and obtains the degree of association between a keyword and a website,
The server includes a search result page generation unit that generates a search result page when a user of the terminal performs a search using a keyword,
A query log database for storing a query log in the search results of the user;
Query that stores the session ID when the user performs the search, the URL of the Web page that the user clicked from the search result page, the access date and time when the link to the Web page is clicked, and the keyword A log storage unit;
Using the query log database, a click number counting unit for counting the number of clicks for the URL for each keyword;
A query log extraction unit for extracting a query log including keywords in a predetermined keyword list inputted in advance from the query log database;
A server comprising
前記サーバは、前記端末のユーザがキーワードによる検索を行った際に検索結果ページを生成し該ユーザの端末に前記検索結果ページを表示する手段と、該ユーザの検索結果におけるクリックログを格納するクエリーログ記憶手段を備え、
前記サーバに、
前記ユーザが前記検索を行った際のセッションのID、前記検索結果ページから前記ユーザがクリックしたWebページのURL、該Webページへのリンクをクリックした際のアクセス日時、及び前記キーワードを前記クエリーログ記憶手段に集積するステップと、
前記クエリーログ記憶手段を用いて、前記キーワード毎に前記URLに対するクリック数を集計するステップと、
前記クエリーログ記憶手段から、予め入力された所定のキーワード・リスト内のキーワードを含むクエリーログを抽出するステップと、
を実行させるコンピュータ・プログラム。 A computer program for determining the degree of association between a keyword and a website in a server connectable to a plurality of user terminals via a communication network,
The server includes a means for generating a search result page when the user of the terminal performs a search using a keyword and displaying the search result page on the user terminal, and a query for storing a click log in the search result of the user Log storage means,
To the server,
The query log includes the session ID when the user performs the search, the URL of the Web page clicked by the user from the search result page, the access date and time when the link to the Web page is clicked, and the keyword. Accumulating in storage means;
Using the query log storage means to count the number of clicks for the URL for each keyword;
Extracting a query log including keywords in a predetermined keyword list input in advance from the query log storage means;
A computer program that runs
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007012402A JP2008181186A (en) | 2007-01-23 | 2007-01-23 | How to find the relevance between keywords and sites using query logs |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007012402A JP2008181186A (en) | 2007-01-23 | 2007-01-23 | How to find the relevance between keywords and sites using query logs |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008181186A true JP2008181186A (en) | 2008-08-07 |
Family
ID=39725066
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007012402A Pending JP2008181186A (en) | 2007-01-23 | 2007-01-23 | How to find the relevance between keywords and sites using query logs |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2008181186A (en) |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010186474A (en) * | 2009-02-12 | 2010-08-26 | Nhn Corp | Retrieval modeling system using association degree dictionary and method |
| JP2011002972A (en) * | 2009-06-18 | 2011-01-06 | Yahoo Japan Corp | Query analysis device, query analysis method, program and information retrieval device |
| JP2011043973A (en) * | 2009-08-20 | 2011-03-03 | Yahoo Japan Corp | Device and method for supporting information access |
| JP2011221756A (en) * | 2010-04-08 | 2011-11-04 | Yahoo Japan Corp | Web page display system |
| JP2012078888A (en) * | 2010-09-30 | 2012-04-19 | Yahoo Japan Corp | Specific query discrimination device and its method |
| JP2012168744A (en) * | 2011-02-15 | 2012-09-06 | Yahoo Japan Corp | Information processing device and method |
| JP2012168745A (en) * | 2011-02-15 | 2012-09-06 | Yahoo Japan Corp | Information processing device and method |
| JP2013131257A (en) * | 2008-10-01 | 2013-07-04 | Sky Co Ltd | Operation monitoring system and operation monitoring program |
| JP2014002447A (en) * | 2012-06-15 | 2014-01-09 | Nippon Telegraph & Telephone West Corp | Communication device and uniform resource locator (url) evaluation system |
| CN105389314A (en) * | 2014-09-04 | 2016-03-09 | 中芯国际集成电路制造(上海)有限公司 | Log file query system and query method |
| CN110347900A (en) * | 2019-07-10 | 2019-10-18 | 腾讯科技(深圳)有限公司 | A kind of importance calculation method of keyword, device, server and medium |
| CN110969469A (en) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | Data acquisition method and device |
| US11194878B2 (en) | 2018-12-13 | 2021-12-07 | Yandex Europe Ag | Method of and system for generating feature for ranking document |
| US11562292B2 (en) | 2018-12-29 | 2023-01-24 | Yandex Europe Ag | Method of and system for generating training set for machine learning algorithm (MLA) |
| US11681713B2 (en) | 2018-06-21 | 2023-06-20 | Yandex Europe Ag | Method of and system for ranking search results using machine learning algorithm |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002259431A (en) * | 2001-02-27 | 2002-09-13 | Casio Comput Co Ltd | Information search method, information search device, and program |
| JP2004046739A (en) * | 2002-07-15 | 2004-02-12 | Fujitsu Ltd | Data transmission method, data transmission system, relay device, computer program, and recording medium |
| JP2004206517A (en) * | 2002-12-26 | 2004-07-22 | Nifty Corp | Hot keyword presentation method and hot site presentation method |
| WO2006023765A2 (en) * | 2004-08-19 | 2006-03-02 | Claria, Corporation | Method and apparatus for responding to end-user request for information |
| JP2006277288A (en) * | 2005-03-29 | 2006-10-12 | Nec Corp | Display time measuring system, display time measuring method, retrieval system, and retrieval method |
-
2007
- 2007-01-23 JP JP2007012402A patent/JP2008181186A/en active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002259431A (en) * | 2001-02-27 | 2002-09-13 | Casio Comput Co Ltd | Information search method, information search device, and program |
| JP2004046739A (en) * | 2002-07-15 | 2004-02-12 | Fujitsu Ltd | Data transmission method, data transmission system, relay device, computer program, and recording medium |
| JP2004206517A (en) * | 2002-12-26 | 2004-07-22 | Nifty Corp | Hot keyword presentation method and hot site presentation method |
| WO2006023765A2 (en) * | 2004-08-19 | 2006-03-02 | Claria, Corporation | Method and apparatus for responding to end-user request for information |
| JP2008511057A (en) * | 2004-08-19 | 2008-04-10 | クラリア コーポレイション | Method and apparatus for responding to end-user information requests |
| JP2006277288A (en) * | 2005-03-29 | 2006-10-12 | Nec Corp | Display time measuring system, display time measuring method, retrieval system, and retrieval method |
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013131257A (en) * | 2008-10-01 | 2013-07-04 | Sky Co Ltd | Operation monitoring system and operation monitoring program |
| JP2010186474A (en) * | 2009-02-12 | 2010-08-26 | Nhn Corp | Retrieval modeling system using association degree dictionary and method |
| JP2011002972A (en) * | 2009-06-18 | 2011-01-06 | Yahoo Japan Corp | Query analysis device, query analysis method, program and information retrieval device |
| JP2011043973A (en) * | 2009-08-20 | 2011-03-03 | Yahoo Japan Corp | Device and method for supporting information access |
| JP2011221756A (en) * | 2010-04-08 | 2011-11-04 | Yahoo Japan Corp | Web page display system |
| JP2012078888A (en) * | 2010-09-30 | 2012-04-19 | Yahoo Japan Corp | Specific query discrimination device and its method |
| JP2012168744A (en) * | 2011-02-15 | 2012-09-06 | Yahoo Japan Corp | Information processing device and method |
| JP2012168745A (en) * | 2011-02-15 | 2012-09-06 | Yahoo Japan Corp | Information processing device and method |
| JP2014002447A (en) * | 2012-06-15 | 2014-01-09 | Nippon Telegraph & Telephone West Corp | Communication device and uniform resource locator (url) evaluation system |
| CN105389314A (en) * | 2014-09-04 | 2016-03-09 | 中芯国际集成电路制造(上海)有限公司 | Log file query system and query method |
| US11681713B2 (en) | 2018-06-21 | 2023-06-20 | Yandex Europe Ag | Method of and system for ranking search results using machine learning algorithm |
| CN110969469A (en) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | Data acquisition method and device |
| CN110969469B (en) * | 2018-09-30 | 2024-02-20 | 北京国双科技有限公司 | Data acquisition method and device |
| US11194878B2 (en) | 2018-12-13 | 2021-12-07 | Yandex Europe Ag | Method of and system for generating feature for ranking document |
| US11562292B2 (en) | 2018-12-29 | 2023-01-24 | Yandex Europe Ag | Method of and system for generating training set for machine learning algorithm (MLA) |
| CN110347900A (en) * | 2019-07-10 | 2019-10-18 | 腾讯科技(深圳)有限公司 | A kind of importance calculation method of keyword, device, server and medium |
| CN110347900B (en) * | 2019-07-10 | 2022-12-27 | 腾讯科技(深圳)有限公司 | Keyword importance calculation method, device, server and medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2008181186A (en) | How to find the relevance between keywords and sites using query logs | |
| US8321278B2 (en) | Targeted advertisements based on user profiles and page profile | |
| US8775396B2 (en) | Method and system for searching a wide area network | |
| US8682723B2 (en) | Social analytics system and method for analyzing conversations in social media | |
| US8938463B1 (en) | Modifying search result ranking based on implicit user feedback and a model of presentation bias | |
| US9092510B1 (en) | Modifying search result ranking based on a temporal element of user feedback | |
| US9390173B2 (en) | Method and apparatus for scoring electronic documents | |
| US7013323B1 (en) | System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria | |
| US8600979B2 (en) | Infinite browse | |
| US8543584B2 (en) | Detection of behavior-based associations between search strings and items | |
| US7693827B2 (en) | Personalization of placed content ordering in search results | |
| US8694493B2 (en) | Computer-implemented search using result matching | |
| US8250070B1 (en) | User interaction based related digital content items | |
| US7882175B1 (en) | Selecting an advertising message for presentation on a page of a publisher web site based upon both user history and page context | |
| US7987261B2 (en) | Traffic predictor for network-accessible information modules | |
| US20090077065A1 (en) | Method and system for information searching based on user interest awareness | |
| US9088808B1 (en) | User interaction based related videos | |
| US20170091339A1 (en) | Method, apparatus and system of intelligent navigation | |
| JP5507469B2 (en) | Providing content using stored query information | |
| US20080104034A1 (en) | Method For Scoring Changes to a Webpage | |
| US20090210409A1 (en) | Increasing online search engine rankings using click through data | |
| JP2004164578A (en) | Method and apparatus for categorizing and presenting documents in a distributed database | |
| US7831474B2 (en) | System and method for associating an unvalued search term with a valued search term | |
| JP2011520193A (en) | Search results with the next object clicked most | |
| JP2011154467A (en) | Retrieval result ranking method and system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090324 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110905 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110913 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111114 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120313 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120317 |