[go: up one dir, main page]

JP6664599B2 - Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program - Google Patents

Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program Download PDF

Info

Publication number
JP6664599B2
JP6664599B2 JP2015166161A JP2015166161A JP6664599B2 JP 6664599 B2 JP6664599 B2 JP 6664599B2 JP 2015166161 A JP2015166161 A JP 2015166161A JP 2015166161 A JP2015166161 A JP 2015166161A JP 6664599 B2 JP6664599 B2 JP 6664599B2
Authority
JP
Japan
Prior art keywords
ambiguity
search
similarity
categories
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015166161A
Other languages
Japanese (ja)
Other versions
JP2017045196A (en
Inventor
友貴 矢野
友貴 矢野
玲 田島
玲 田島
幸浩 田頭
幸浩 田頭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2015166161A priority Critical patent/JP6664599B2/en
Publication of JP2017045196A publication Critical patent/JP2017045196A/en
Application granted granted Critical
Publication of JP6664599B2 publication Critical patent/JP6664599B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索時に用いられたキーワードに対する曖昧性を評価する曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラムに関する。   The present invention relates to an ambiguity evaluation device, an ambiguity evaluation method, and an ambiguity evaluation program for evaluating ambiguity for a keyword used at the time of a search.

従来より、インターネット等の通信ネットワーク上にWebサイト等を公開し、そのWebサイトにアクセスしてきた端末に対して、端末のユーザが所望する情報を提示するサービスが存在する。例えば、オンラインショッピング等のサービス形態では、端末からユーザが指定した所定のキーワード(例えば、検索クエリ等)により、予め商品情報が登録されたデータベースを検索し、抽出された商品が、ユーザが目的としている商品であれば、その購入手続き等を行うことで、ユーザにその商品を提供することができる。   2. Description of the Related Art Conventionally, there is a service that discloses a Web site or the like on a communication network such as the Internet and presents information desired by a terminal user to a terminal accessing the Web site. For example, in a service form such as online shopping, a database in which merchandise information is registered in advance by a predetermined keyword (for example, a search query or the like) specified by the user from a terminal is searched, and the extracted merchandise is used by the user. If the product is present, the user can be provided with the product by performing a purchase procedure or the like.

また、従来では、ユーザが入力した検索キーワードを入力して「検索」ボタンをクリックすると、検索結果のページにジャンプするだけでなく、ユーザによって入力された検索キーワードに関連する他の検索キーワードを表示する仕組みが存在する(例えば、特許文献1参照)。   Conventionally, when a user enters a search keyword and clicks a "search" button, the user not only jumps to the search result page, but also displays other search keywords related to the search keyword entered by the user. (See, for example, Patent Document 1).

特許文献1では、ユーザによって入力された検索キーワードセットを受信し、明確に規定されていない意図に対応する複数の所定の単語と検索キーワードセットとを比較することで、検索キーワードセットがユーザによって明確に規定された意図を示すか否かを判定し、検索キーワードセットが明確に規定された意図を示すと判定された場合に、更なる推薦検索キーワードを取得するための処理を実行している。   In Patent Literature 1, a search keyword set received by a user is received, and a plurality of predetermined words corresponding to intentions not clearly defined are compared with the search keyword set, so that the search keyword set is clearly defined by the user. It is determined whether or not the keyword indicates the intention specified in (1), and if it is determined that the search keyword set indicates the intention clearly specified, a process for acquiring a further recommended search keyword is executed.

特表2014−501422号公報JP 2014-501422 A

上述した手法では、検索キーワードを表示する処理の切り替えを適切に行うために、意図の曖昧性を正確に推定することが必要不可欠である。単純には、クエリ毎のクリック分布に基づき曖昧性の定量化を行うことができても、実際には、クリック同士の関連度に差異があり、より現実問題に則した推定を行うには、さらに踏み込んだ情報の利用が必要となる。   In the above-described method, it is indispensable to accurately estimate the ambiguity of the intention in order to appropriately switch the processing for displaying the search keyword. Simply, even though we can quantify ambiguity based on the click distribution of each query, there is actually a difference in the degree of relevance between clicks, and in order to estimate more realistically, Further use of information is required.

本発明は、上記課題に鑑みてなされたものであり、ユーザの意図の曖昧性を定量化してユーザへ適切な検索結果を提示することを目的とする。   The present invention has been made in view of the above problems, and has as its object to present an appropriate search result to a user by quantifying the ambiguity of the user's intention.

本発明の一実施形態に係る曖昧性評価装置は、検索時に用いられたキーワードと、前記キーワードを用いて検索対象データから検索された検索結果に対応する複数のカテゴリとを関連付けて検索履歴情報として記憶させる記憶手段と、前記記憶手段に記憶され検索履歴情報から、前記キーワードに対する前記複数のカテゴリ間の類似度を算出し、算出した類似度から前記キーワードの曖昧性を評価する曖昧性評価手段と、を有する。 Ambiguity evaluation apparatus according to an embodiment of the present invention, and keywords used during search as a search history information in association with a plurality of categories corresponding to the search results retrieved from the search data by using the keywords storage means for Ru was stored, the search history information that will be stored in the storage means, calculating a similarity between the plurality of categories for the keywords, ambiguity evaluation for evaluating the ambiguity of the keyword from the calculated degree of similarity Means.

本発明の一実施形態によれば、ユーザの意図の曖昧性を定量化してユーザへ適切な検索結果を提示することができる。   According to the embodiment of the present invention, it is possible to quantify the ambiguity of the user's intention and to present an appropriate search result to the user.

情報提示システムの全体構成の一例を示す図である。It is a figure showing an example of the whole composition of an information presentation system. 曖昧性評価装置のハードウェア構成の一例を示す図である。FIG. 3 is a diagram illustrating an example of a hardware configuration of the ambiguity evaluation device. 情報提示処理の一例を示すフローチャートである。It is a flowchart which shows an example of information presentation processing. クエリの曖昧性を説明するための図である。It is a figure for explaining the ambiguity of a query. カテゴリに対する類似度及び曖昧性の関係を説明するための図である。It is a figure for explaining the relation of similarity and ambiguity with respect to a category. 類似度の算出結果の一例を示す図である。It is a figure showing an example of a calculation result of similarity. 曖昧性データを利用した検索内容の一例を示す図である。It is a figure showing an example of the contents of a search using ambiguity data.

以下、本発明の各実施形態の詳細について添付の図面を参照しながら説明する。   Hereinafter, each embodiment of the present invention will be described in detail with reference to the accompanying drawings.

<情報提示システムの全体構成>
図1は、情報提示システムの全体構成の一例を示す図である。図1の例において、情報提示システム10は、情報提示装置の一例である曖昧性評価装置11と、1又は複数の端末12−1〜12−n(以下、必要に応じて、「端末12」と総称する)とを有する。曖昧性評価装置11と、端末12とは、LAN(Local Access Area)やインターネットに代表される通信ネットワーク13と、データの送受信が可能な状態で接続されている。
<Overall configuration of information presentation system>
FIG. 1 is a diagram illustrating an example of the overall configuration of the information presentation system. In the example of FIG. 1, the information presentation system 10 includes an ambiguity evaluation device 11, which is an example of an information presentation device, and one or a plurality of terminals 12-1 to 12-n (hereinafter, “terminal 12” as necessary). ). The ambiguity evaluation device 11 and the terminal 12 are connected to a communication network 13 typified by a LAN (Local Access Area) or the Internet so that data can be transmitted and received.

曖昧性評価装置11は、例えばショッピングサイトやニュース・サイト、Q&Aサイト、電子商取引サイト、検索サイト等のWebサイトを公開している。曖昧性評価装置11は、通信ネットワーク13を介してアクセスしてきた端末12からの所定のキーワード(例えば、検索クエリ)等の入力を受け付け、予め記憶されている検索対象データ(例えば、商品データ)等を参照して、対応する商品情報(タイトル、カテゴリ等)や単語、文章等の検索結果を抽出し、キーワードを入力してきた端末12に提供する。また、曖昧性評価装置11は、各端末12からの検索クエリと、その検索クエリを用いて商品データから検索された検索結果に対するカテゴリとを関連付けて、例えば検索ログ(検索履歴情報)として記憶する。   The ambiguity evaluation device 11 publishes Web sites such as shopping sites, news sites, Q & A sites, e-commerce sites, search sites, and the like. The ambiguity evaluation device 11 receives an input of a predetermined keyword (for example, a search query) or the like from the terminal 12 accessed via the communication network 13, and stores search target data (for example, product data) or the like stored in advance. , The corresponding product information (title, category, etc.), search results of words, sentences, etc. are extracted and provided to the terminal 12 from which the keyword has been input. In addition, the ambiguity evaluation device 11 associates a search query from each terminal 12 with a category for a search result searched from product data using the search query, and stores the search query, for example, as a search log (search history information). .

ここで、カテゴリとは、物事を一定の基準に基づいて分類した際の個々の区分のことであり、例えば分類、分野、区分、種類、部門、ジャンル等で区分けされる。例えば、検索クエリが「テーブル」である場合、カテゴリは「ローテーブル」、「センターテーブル」、「サイドテーブル」等であるが、これに限定されるものではない。なお、本実施形態では、曖昧性評価装置11は、他のWebサイトを提供している外部装置から、上述した商品データや検索ログの情報を取得してもよい。   Here, the category is an individual division when a thing is classified based on a certain standard, and is divided into, for example, a classification, a field, a division, a type, a section, and a genre. For example, when the search query is “table”, the categories are “row table”, “center table”, “side table”, etc., but are not limited thereto. In the present embodiment, the ambiguity evaluation device 11 may acquire the above-described product data and search log information from an external device that provides another Web site.

また、曖昧性評価装置11は、上述した商品データ及び検索ログを用いてカテゴリ間の類似度を算出し、算出した類似度に基づいてキーワード(クエリ)に関する曖昧性を評価する。例えば、曖昧性評価装置11は、商品データからカテゴリ毎のベクトル表現を生成し、また検索ログのクリック結果からクエリ毎のカテゴリ分布を抽出し、上述したベクトル表現とカテゴリ分布とを用いて得られたカテゴリ間の類似度に基づいて、クエリ毎の曖昧性を評価する。また、曖昧性評価装置11は、予め信頼性の高いカテゴリ間のツリー構造のデータ(カテゴリツリー)を有する場合には、そのカテゴリツリーに基づいて、類似度を算出してもよい。この場合、例えば検索時に用いるキーワード(例えば、テーブル)に対し、ツリー構造を参照して、そのキーワードに対応するカテゴリの下位概念のカテゴリ(例えば、ローテーブル等)等の関係性から類似度を算出することができる。   Further, the ambiguity evaluation device 11 calculates the similarity between categories using the above-described product data and the search log, and evaluates the ambiguity related to the keyword (query) based on the calculated similarity. For example, the ambiguity evaluation device 11 generates a vector expression for each category from the product data, extracts a category distribution for each query from the click result of the search log, and obtains the vector expression and the category distribution described above. The ambiguity of each query is evaluated based on the similarity between the categories. When the ambiguity evaluation device 11 has data (category tree) of a tree structure between categories having high reliability in advance, the ambiguity evaluation device 11 may calculate the similarity based on the category tree. In this case, for example, with respect to a keyword (for example, a table) used at the time of a search, the similarity is calculated from a relationship between a category (for example, a row table, etc.) of a lower concept of a category corresponding to the keyword by referring to a tree structure. can do.

また、曖昧性評価装置11は、端末12からの検索クエリを受け付けた場合に、曖昧性の評価結果(曖昧度データ)を参照し、その検索クエリに対する曖昧度に基づいて他の情報(例えば、他の検索クエリ)等による検索クエリの補充等を行い、補充した内容で検索を行う。また、曖昧性評価装置11は、その検索結果を端末12に提示する。   In addition, when a search query from the terminal 12 is received, the ambiguity evaluation device 11 refers to an ambiguity evaluation result (ambiguity data) and performs other information (for example, The search query is supplemented by another search query, etc., and a search is performed using the supplemented content. Further, the ambiguity evaluation device 11 presents the search result to the terminal 12.

曖昧性評価装置11は、例えば汎用のPC(Personal Computer)やサーバ等でもよく、少なくとも1つの情報処理装置を有するクラウドコンピューティングにより構成されたクラウドサーバでもよいが、これらに限定されるものではない。   The ambiguity evaluation device 11 may be, for example, a general-purpose PC (Personal Computer) or a server, or may be a cloud server configured by cloud computing having at least one information processing device, but is not limited thereto. .

端末12は、各ユーザが曖昧性評価装置11等からサービスを受けるための装置である。ユーザは、端末12から通信ネットワーク13を介して曖昧性評価装置11にアクセスし、Webサイトに公開されている検索画面等を用いて所望する情報(商品情報)等の検索を行う。なお、検索を行う場合には、ユーザ登録等を行うことで、ユーザ毎の履歴情報を取得することができ、ユーザ毎に適切な検索結果を提示することができる。端末12は、PCでもよく、タブレット端末やスマートフォン、携帯電話等の通信端末でもよいが、これらに限定されるものではない。   The terminal 12 is a device for each user to receive a service from the ambiguity evaluation device 11 or the like. The user accesses the ambiguity evaluation device 11 from the terminal 12 via the communication network 13 and searches for desired information (product information) using a search screen or the like published on the Web site. When performing a search, by performing user registration or the like, history information for each user can be obtained, and an appropriate search result can be presented for each user. The terminal 12 may be a PC or a communication terminal such as a tablet terminal, a smartphone, or a mobile phone, but is not limited thereto.

通信ネットワーク13は、上述したようにLANやインターネット等である。通信ネットワーク13は、有線でも無線でも、これらの組み合わせでもよい。   The communication network 13 is a LAN or the Internet as described above. The communication network 13 may be wired, wireless, or a combination thereof.

<曖昧性評価装置11の機能構成>
次に、上述した曖昧性評価装置11の機能構成の一例について、具体的に説明する。図1に示すように、曖昧性評価装置11は、入力手段21と、出力手段22と、記憶手段23と、曖昧性評価手段24と、検索手段25と、情報提示手段26と、通信手段27と、制御手段28とを有する。
<Functional configuration of ambiguity evaluation device 11>
Next, an example of a functional configuration of the ambiguity evaluation device 11 described above will be specifically described. As shown in FIG. 1, the ambiguity evaluation device 11 includes an input unit 21, an output unit 22, a storage unit 23, an ambiguity evaluation unit 24, a search unit 25, an information presentation unit 26, and a communication unit 27. And control means 28.

入力手段21は、本実施形態における曖昧度の評価処理や、情報提示処理等の開始/終了、各種設定等の入力を受け付ける。入力手段21は、例えば曖昧性評価装置11がPC等の汎用のコンピュータであれば、キーボードやマウス等のポインティングデバイスである。また、入力手段21は、タッチパネル等でもよい。また、入力手段21は、例えば音声等により上述した入力が可能なマイク等の音声入力デバイスであってもよい。   The input unit 21 receives inputs such as an ambiguity evaluation process in the present embodiment, start / end of an information presentation process, and various settings. The input unit 21 is a pointing device such as a keyboard and a mouse if the ambiguity evaluation device 11 is a general-purpose computer such as a PC. Further, the input means 21 may be a touch panel or the like. Further, the input unit 21 may be a voice input device such as a microphone capable of performing the above-described input by voice or the like, for example.

出力手段22は、入力手段21により入力された内容や、入力内容に基づいて実行された内容等の出力を行う。出力手段22は、例えばディスプレイやスピーカ等である。出力手段22は、入力手段21と一体型のタッチパネルであってもよい。また、出力手段22は、処理結果等を紙等の印刷媒体に印刷するプリンタ等の印刷デバイスであってもよい。   The output unit 22 outputs the content input by the input unit 21 and the content executed based on the input content. The output unit 22 is, for example, a display or a speaker. The output unit 22 may be a touch panel integrated with the input unit 21. Further, the output unit 22 may be a printing device such as a printer that prints a processing result or the like on a printing medium such as paper.

記憶手段23は、本実施形態において必要な各種情報を記憶する。具体的には、記憶手段23は、入力された検索クエリに対応する商品情報を抽出するための商品データ31、検索クエリと、検索クエリによる検索結果に対応するカテゴリとを関連付けて記憶した検索ログ32、検索クエリ毎の曖昧度を記憶した曖昧度データ33、曖昧度に対応する補充情報や提示情報等が記憶された情報提示データ34等を記憶する。なお、商品データ31は、検索対象データの一例であり、商品データに限定されるものではない。   The storage unit 23 stores various information required in the present embodiment. Specifically, the storage unit 23 stores product data 31 for extracting product information corresponding to the input search query, a search query, and a search log storing the search query in association with a category corresponding to a search result by the search query. 32, ambiguity data 33 storing the ambiguity for each search query, and information presentation data 34 storing supplementary information, presentation information, and the like corresponding to the ambiguity. The product data 31 is an example of search target data, and is not limited to product data.

また、記憶手段23が記憶する情報は、これらに限定されるものではなく、例えば検索時に用いられるキーワードに関連付けられたカテゴリを、予め設定されたカテゴリ間のツリー構造のデータ(カテゴリツリー)として記憶してもよい。また、記憶手段23は、例えば端末12と通信を行うためのアドレス情報、ユーザを識別するためのユーザ情報、端末12を識別するための端末情報、エラー発生時の異常情報等を記憶してもよい。   The information stored in the storage unit 23 is not limited to these. For example, a category associated with a keyword used at the time of a search is stored as tree-structured data (category tree) between preset categories. May be. Further, the storage unit 23 may store, for example, address information for communicating with the terminal 12, user information for identifying the user, terminal information for identifying the terminal 12, and abnormal information when an error occurs. Good.

曖昧性評価手段24は、検索クエリによる検索結果で得られたカテゴリ間の類似度に基づいて、検索クエリ毎の曖昧度を評価する。例えば、曖昧性評価手段24は、カテゴリの類似度を算出する際、各カテゴリを言語的な空間上のベクトルに置き換える。   The ambiguity evaluation means 24 evaluates the ambiguity of each search query based on the similarity between categories obtained as a result of the search by the search query. For example, when calculating the similarity between the categories, the ambiguity evaluation unit 24 replaces each category with a vector in a linguistic space.

例えば、曖昧性評価手段24は、商品データ31からカテゴリ毎のベクトル表現を生成する。なお、ベクトル表現の生成については、例えば潜在的意味索引(LSI:Latent Semantic Indexing)等の手法を用いることができるが、これに限定されるものではない。また、曖昧性評価手段24は、検索ログ32に含まれる各検索クエリに関連付けられたカテゴリ毎の数から、クエリ毎のカテゴリ分布(クリック割合)を抽出する。また、曖昧性評価手段24は、ベクトル表現及びカテゴリ分布とを組み合わせて類似度を算出し、算出した類似度に基づいてクエリ毎の曖昧性を評価する。   For example, the ambiguity evaluation unit 24 generates a vector expression for each category from the product data 31. Note that, for generating the vector expression, for example, a technique such as a latent semantic index (LSI) can be used, but the present invention is not limited to this. Further, the ambiguity evaluation unit 24 extracts a category distribution (click rate) for each query from the number for each category associated with each search query included in the search log 32. The ambiguity evaluation means 24 calculates the similarity by combining the vector expression and the category distribution, and evaluates the ambiguity for each query based on the calculated similarity.

なお、検索ログ32は、各端末12のログが集約されていてもよく、端末12毎(ユーザ毎)であってもよく、所定の条件(例えば、期間、時間帯、地域)等で分類されていてもよい。また、検索ログ32には、検索結果に対応するカテゴリのうち、ユーザがクリック(閲覧指示)したカテゴリ群を記憶しておいてもよい。この場合、曖昧性評価手段24は、検索ログ32に含まれるカテゴリ毎のクリック数(閲覧指示数)からクエリ毎のカテゴリ分布(クリック割合)を抽出し、ベクトル表現及びカテゴリ分布とを組み合わせて類似度を算出する。このように、検索ログ32の情報量を削減することで、処理の迅速化を図ることができる。また、ユーザが閲覧指示したものは、ユーザが所望する情報である可能性が高いため、その有用な情報のみを用いて類似度を算出することで、適切にクエリ毎の曖昧性を評価し、その評価結果を次の検索時等に役立てることができる。   Note that the search log 32 may be a collection of logs of each terminal 12, a log for each terminal 12 (for each user), and may be classified according to predetermined conditions (for example, a period, a time zone, a region) and the like. May be. The search log 32 may store a group of categories that the user has clicked (browsing instruction) among the categories corresponding to the search results. In this case, the ambiguity evaluation unit 24 extracts a category distribution (click ratio) for each query from the number of clicks (the number of browsing instructions) for each category included in the search log 32, and combines the vector expression and the category distribution to obtain a similarity. Calculate the degree. As described above, by reducing the information amount of the search log 32, the processing can be speeded up. Also, what the user instructed to browse is highly likely to be the information desired by the user, so by calculating the similarity using only the useful information, the ambiguity of each query is appropriately evaluated, The evaluation result can be used for the next search or the like.

なお、曖昧性評価手段24は、上述した類似度の算出において、例えば各カテゴリに対応付けられた単語やジャンル、属性情報、詳細説明等のメタデータ同士を比較し、一致するデータの数や種類により類似度を算出してもよい。   In calculating the similarity, the ambiguity evaluation unit 24 compares metadata such as words, genres, attribute information, and detailed descriptions associated with each category, and determines the number and type of matching data. May be used to calculate the similarity.

また、曖昧性評価手段24は、例えば記憶手段23等に予め設定されたカテゴリツリーが記憶されている場合には、そのカテゴリツリーに基づいて、類似度を算出してもよい。カテゴリツリーとは、例えば「テーブル>センターテーブル>ガラス製テーブル」、「テーブル>センターテーブル>木製テーブル」等のように、カテゴリ間の関係がツリー構造で形成されたものである。例えば、「テーブル>ローテーブル」、「テーブル>センターテーブル」、「テーブル>サイドテーブル」等のツリー構造がある場合には、同一のカテゴリの配下にある「ローテーブル」、「センターテーブル」、「サイドテーブル」間の類似度は、高いものとして算出される。   In the case where a preset category tree is stored in, for example, the storage unit 23, the ambiguity evaluation unit 24 may calculate the similarity based on the category tree. The category tree is such that a relationship between categories is formed in a tree structure such as “table> center table> glass table” and “table> center table> wooden table”. For example, if there is a tree structure such as “table> row table”, “table> center table”, “table> side table”, etc., “row table”, “center table”, “center table”, The similarity between the "side tables" is calculated as being high.

また、カテゴリツリーは、信頼性の高い(十分に信頼できる)ツリー構造を有することが好ましい。ツリー構造の編集は、通常、人手で編集されていることが多く、例えば「PC関連機器>デジタルカメラ」、「カメラ>デジタルカメラ」等のように、カテゴリ「デジタルカメラ」が人によって他のカテゴリと結びついてしまうような場合には、信頼性が低いものとなる。このような信頼性の低いカテゴリツリーではなく、所定の条件に基づいて機械的に形成された信頼性の高いカテゴリツリーを用いることで高精度に類似度を算出することができる。   The category tree preferably has a highly reliable (sufficiently reliable) tree structure. The editing of the tree structure is usually performed manually, and the category “digital camera” is manually changed by another person such as “PC-related equipment> digital camera” or “camera> digital camera”. In such a case, the reliability is low. The similarity can be calculated with high accuracy by using not a category tree with low reliability but a category tree with high reliability that is mechanically formed based on a predetermined condition.

曖昧性評価手段24は、上述したカテゴリ間の類似度に基づいて得られる各クエリに対する曖昧性の評価結果を、曖昧度データ33として記憶手段23に記憶する。   The ambiguity evaluation unit 24 stores the ambiguity evaluation result for each query obtained based on the similarity between the categories in the storage unit 23 as the ambiguity data 33.

検索手段25は、端末12からの検索クエリの入力を受け付けた場合に、その検索クエリに対応する曖昧度データ33を参照し、その検索クエリが曖昧でない場合には、そのままの検索クエリで商品データ31への検索を行う。また、検索手段25は、検索クエリが曖昧である場合、検索クエリの補充処理を行い、補充した内容で検索を行う。   The search means 25 refers to the ambiguity data 33 corresponding to the search query when the input of the search query from the terminal 12 is received. If the search query is not ambiguous, the search means 25 executes the product data with the search query as it is. A search to 31 is performed. Further, when the search query is ambiguous, the search unit 25 performs a process of supplementing the search query, and performs a search using the supplemented content.

ここで、補充処理とは、例えば入力された検索クエリに対応して予め設定された他の検索クエリを付加して検索範囲を拡張したり、予め登録されているユーザ嗜好情報(例えば、スポーツ好き、ガーデニング好き、ファッション好き)等に対応付けられた検索クエリを付加したり、入力されたクエリを変更して、検索範囲を絞り込む等の処理であるが、これに限定されるものではない。なお、上述した他の検索クエリやユーザ嗜好情報は、例えば情報提示データ34を参照して取得することができる。また、検索手段25は、検索クエリと、検索結果に対応するカテゴリ等とを関連付けて検索ログ32に記憶する。   Here, the replenishment process means that the search range is expanded by adding another search query set in advance corresponding to the input search query, or user preference information registered in advance (for example, sports enthusiasts). , Gardening, fashion enthusiasts, etc.), or the input query is changed to narrow down the search range, but the processing is not limited to this. Note that the other search queries and user preference information described above can be acquired with reference to the information presentation data 34, for example. The search unit 25 stores the search query in the search log 32 in association with the category or the like corresponding to the search result.

情報提示手段26は、検索手段25により検索された結果を端末12に提示する。なお、情報提示手段26は、検索結果を提示する際に、予めユーザ嗜好情報等が登録されていた場合には、検索結果をユーザ嗜好に対応する順に並べ替えて表示してもよい。また、情報提示手段26は、提示した端末12から検索結果のカテゴリに対するクリック等の閲覧指示があった場合には、その情報を検索ログ32に記憶してもよい。   The information presenting unit 26 presents the result searched by the searching unit 25 to the terminal 12. When presenting the search result, if the user preference information or the like has been registered in advance, the information presenting unit 26 may sort and display the search result in an order corresponding to the user preference. In addition, when there is a browsing instruction such as a click on the category of the search result from the presented terminal 12, the information presenting unit 26 may store the information in the search log 32.

通信手段27は、通信ネットワーク13を介して各端末12とデータの送受信を行う。なお、通信手段27は、端末12からアクセスしてきた場合に、ユーザ認証処理を行ってもよい。ユーザ認証処理とは、例えば端末12から入力されたユーザIDやパスワード等の認証情報が、予め記憶手段23に記憶されたユーザ情報に含まれるユーザIDやパスワードに一致するか否かを判断し、一致する場合には、その端末12からのアクセスを認め、一致しない場合には、ユーザにその旨の通知をし、ユーザが新規登録をしない限り、ユーザに使用させない処理であるが、これに限定されるものではない。   The communication unit 27 transmits and receives data to and from each terminal 12 via the communication network 13. Note that the communication unit 27 may perform a user authentication process when accessing from the terminal 12. In the user authentication process, for example, it is determined whether or not authentication information such as a user ID and a password input from the terminal 12 matches a user ID and a password included in the user information stored in the storage unit 23 in advance. If they match, the access from the terminal 12 is permitted. If they do not match, the user is notified of the fact, and the user is not allowed to use it unless the user newly registers. It is not something to be done.

制御手段28は、曖昧性評価装置11の各構成部全体の制御を行う。例えば、制御手段28は、曖昧性評価手段24による検索クエリ毎の曖昧性の評価、検索手段25による検索、情報提示手段26による情報提示等の制御を行うが、これらに限定されるものではない。例えば、制御手段28は、本実施形態における各種処理の開始や終了等の制御、エラー発生時の制御等を行ってもよい。   The control unit 28 controls the entire components of the ambiguity evaluation device 11. For example, the control unit 28 performs control such as evaluation of ambiguity for each search query by the ambiguity evaluation unit 24, search by the search unit 25, and information presentation by the information presentation unit 26, but is not limited thereto. . For example, the control unit 28 may perform control such as start and end of various processes in this embodiment, control when an error occurs, and the like.

<曖昧性評価装置11のハードウェア構成>
ここで、本実施形態では、上述した曖昧性評価装置11の各機能をコンピュータに実行させる実行プログラム(曖昧性評価プログラム)を生成し、例えば汎用のPC、サーバ等にインストールすることで、本実施形態における情報提示処理等を実現することができる。
<Hardware configuration of ambiguity evaluation device 11>
Here, in the present embodiment, an execution program (ambiguity evaluation program) for causing a computer to execute each function of the ambiguity evaluation device 11 described above is generated and installed in, for example, a general-purpose PC, server, or the like. It is possible to realize information presentation processing in the form.

図2は、曖昧性評価装置のハードウェア構成の一例を示す図である。図2に示す曖昧性評価装置11のコンピュータ本体には、入力装置41と、出力装置42と、ドライブ装置43と、補助記憶装置44と、メモリ装置45と、各種制御を行うCPU(Central Processing Unit)46と、ネットワーク接続装置47とを有するように構成され、これらはシステムバスBで相互に接続されている。   FIG. 2 is a diagram illustrating an example of a hardware configuration of the ambiguity evaluation device. The computer body of the ambiguity evaluation device 11 shown in FIG. 2 includes an input device 41, an output device 42, a drive device 43, an auxiliary storage device 44, a memory device 45, and a CPU (Central Processing Unit) for performing various controls. ) 46 and a network connection device 47, which are interconnected by a system bus B.

入力装置41は、ユーザ等が操作するキーボード、マウス等のポインティングデバイスを有しており、マイク等の音声入力デバイス等を有し、ユーザ等からのプログラムの実行等、各種操作信号を入力する。   The input device 41 has a keyboard and a pointing device such as a mouse operated by a user or the like, has a voice input device or the like such as a microphone, and inputs various operation signals such as execution of a program from the user or the like.

出力装置42は、本実施形態における各処理を行うコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU46が有する制御プログラムにより実行経過や結果等を表示する。   The output device 42 has a display for displaying various windows, data, and the like necessary for operating the computer main body that performs each process in the present embodiment, and displays the execution progress, results, and the like by a control program of the CPU 46.

ここで、本実施形態においてコンピュータ本体にインストールされる実行プログラムは、例えば、USB(Universal Serial Bus)メモリやCD−ROM等の可搬型の記録媒体48等により提供される。記録媒体48は、ドライブ装置43にセット可能であり、記録媒体48に含まれる実行プログラムが、記録媒体48からドライブ装置43を介して補助記憶装置44にインストールされる。   Here, the execution program installed in the computer main body in the present embodiment is provided by a portable recording medium 48 such as a USB (Universal Serial Bus) memory or a CD-ROM. The recording medium 48 can be set in the drive device 43, and an execution program included in the recording medium 48 is installed in the auxiliary storage device 44 from the recording medium 48 via the drive device 43.

補助記憶装置44は、ハードディスク等のストレージ手段であり、本実施形態における実行プログラムや、コンピュータに設けられた制御プログラム等を記憶し、必要に応じて入出力を行うことが可能である。   The auxiliary storage device 44 is a storage unit such as a hard disk, and stores the execution program according to the present embodiment, a control program provided in a computer, and the like, and can perform input / output as needed.

メモリ装置45は、CPU46により補助記憶装置44から読み出された実行プログラム等を格納する。なお、メモリ装置45は、ROM(Read Only Memory)やRAM(Random Access Memory)等である。なお、上述した補助記憶装置44やメモリ装置45は、1つの記憶装置として一体型に構成されていてもよい。   The memory device 45 stores an execution program and the like read from the auxiliary storage device 44 by the CPU 46. The memory device 45 is a ROM (Read Only Memory), a RAM (Random Access Memory), or the like. Note that the auxiliary storage device 44 and the memory device 45 described above may be integrally configured as one storage device.

CPU46は、OS(Operating System)等の制御プログラム、及びメモリ装置45に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、本実施形態における情報提示処理を実現する。なお、プログラム実行中に必要な各種情報等は、補助記憶装置44から取得し、実行結果等を格納してもよい。   The CPU 46 controls processes of the entire computer, such as various calculations and input / output of data with each hardware component, based on a control program such as an OS (Operating System) and an execution program stored in the memory device 45. Thus, the information presentation process according to the present embodiment is realized. Various information and the like necessary during execution of the program may be obtained from the auxiliary storage device 44 and the execution result or the like may be stored.

ネットワーク接続装置47は、インターネットやLAN等に代表される通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の装置等から取得する。また、ネットワーク接続装置47は、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を他の装置等に提供することが可能である。   The network connection device 47 obtains an execution program from another device connected to the communication network by connecting to a communication network represented by the Internet, a LAN, or the like. Further, the network connection device 47 can provide an execution result obtained by executing the program or the execution program itself in the present embodiment to another device or the like.

記録媒体48は、上述したように実行プログラム等を格納するコンピュータで読み取り可能な記録媒体である。記録媒体48は、例えばフラッシュメモリ等の半導体メモリであってもよい。また、記録媒体48は、USBメモリ等の可搬型記録媒体であってもよいが、これに限定されるものではない。   The recording medium 48 is a computer-readable recording medium that stores an execution program and the like as described above. The recording medium 48 may be, for example, a semiconductor memory such as a flash memory. In addition, the recording medium 48 may be a portable recording medium such as a USB memory, but is not limited to this.

本実施形態では、上述したコンピュータ本体のハードウェア構成に実行プログラム(例えば、曖昧性評価プログラム等)をインストールすることで、ハードウェア資源とソフトウェアとが協働して本実施形態における曖昧性評価処理等を実現することができる。また、上述した曖昧性評価処理に対応する曖昧性評価プログラムは、例えば装置上で常駐している状態であってもよく、起動指示により起動させてもよい。上述したハードウェア構成は、例えば端末12に適用してもよい。   In the present embodiment, by installing an execution program (for example, an ambiguity evaluation program or the like) on the above-described hardware configuration of the computer main body, hardware resources and software cooperate to implement the ambiguity evaluation processing in the present embodiment. Etc. can be realized. Further, the ambiguity evaluation program corresponding to the above-described ambiguity evaluation processing may be, for example, in a state of being resident on the device, or may be activated by an activation instruction. The hardware configuration described above may be applied to the terminal 12, for example.

<本実施形態における情報提示処理>
次に、本実施形態における曖昧性評価処理を含む情報提示処理について、フローチャートを用いて説明する。図3は、情報提示処理の一例を示すフローチャートである。なお、以下の説明では、既に曖昧性評価装置11において、各端末12等による検索等が行われ、検索ログがある状態を示している。
<Information presentation processing in the present embodiment>
Next, information presentation processing including ambiguity evaluation processing in the present embodiment will be described using a flowchart. FIG. 3 is a flowchart illustrating an example of the information presentation process. In the following description, a state is shown in which the ambiguity evaluation device 11 has already performed a search or the like by each terminal 12 or the like and has a search log.

図3の例において、曖昧性評価手段24は、予め記憶されている検索対象データの一例としての商品データ31から、カテゴリ毎のベクトル表現を生成する(S01)。次に、曖昧性評価手段24は、検索ログ32のクリック結果からクエリ毎のカテゴリ分布を抽出する(S02)。なお、S02の処理では、検索ログ32に含まれる検索結果のカテゴリに対するクリック結果ではなく、検索結果のカテゴリを用いてカテゴリ分布を抽出してもよい。   In the example of FIG. 3, the ambiguity evaluation unit 24 generates a vector expression for each category from the commodity data 31 stored as an example of the search target data stored in advance (S01). Next, the ambiguity evaluation unit 24 extracts a category distribution for each query from the click result of the search log 32 (S02). In the process of S02, the category distribution may be extracted using the search result category instead of the click result for the search result category included in the search log 32.

次に、曖昧性評価手段24は、ベクトル表現とカテゴリ分布とを組み合わせてクエリ毎のカテゴリ間の類似度を算出し(S03)、算出した類似度からクエリ毎の曖昧性を評価し、曖昧度データ33として記憶手段23に記憶する(S04)。なお、S01〜S04の処理は、S05以降の処理よりも前に実行されていればよく、連続して行う必要はない。   Next, the ambiguity evaluation means 24 calculates the similarity between the categories for each query by combining the vector expression and the category distribution (S03), and evaluates the ambiguity for each query from the calculated similarity. The data 33 is stored in the storage unit 23 (S04). Note that the processes of S01 to S04 need only be performed before the processes of S05 and thereafter, and need not be performed continuously.

次に、検索手段25は、端末12からの検索クエリの入力を受け付け(S05)、受け付けた検索クエリに対して曖昧度データを参照し、対応する曖昧度を取得する(S06)。次に、検索手段25は、取得した曖昧度が予め設定された閾値以上か否かを判断し(S07)、閾値以上である場合(S07において、YES)、検索クエリに他の情報(例えば、追加キーワード等)を補充して検索を行う(S08)。また、S07の処理において、閾値以上でない場合(S07において、NO)、検索手段25は、補充を行わずに、検索クエリによる検索を行う(S09)。   Next, the search unit 25 receives an input of a search query from the terminal 12 (S05), refers to the ambiguity data for the received search query, and acquires a corresponding ambiguity (S06). Next, the search unit 25 determines whether or not the obtained ambiguity is equal to or greater than a preset threshold (S07). If the obtained ambiguity is equal to or greater than the threshold (YES in S07), other information (for example, The search is performed by supplementing additional keywords (S08). In addition, in the processing of S07, when the value is not equal to or larger than the threshold value (NO in S07), the search unit 25 performs a search using a search query without performing replenishment (S09).

S08又はS09の処理後、情報提示手段26は、検索結果の情報を提示する(S10)。また、情報提示手段26は、提示した検索結果に対する端末12からのクリック結果等の情報を取得し、検索クエリ、検索結果等と共に検索ログ32に記憶する(S11)。   After the processing of S08 or S09, the information presenting means 26 presents information of the search result (S10). Further, the information presenting unit 26 acquires information such as a click result from the terminal 12 for the presented search result, and stores the information in the search log 32 together with the search query, the search result, and the like (S11).

ここで、検索手段25は、他の検索クエリの入力を受け付けたか否かを判断し(S12)、他の検索クエリの入力を受け付けた場合(S12において、YES)、S06の処理に戻る。また、他の検索クエリの入力を受け付けてない場合(S12において、NO)、例えば所定時間経過後、又は、端末12からWebサイトの画面を閉じる等の処理があった場合に、制御手段28は、本実施形態における情報提示処理を終了する。   Here, the search unit 25 determines whether or not an input of another search query has been received (S12), and if an input of another search query has been received (YES in S12), the process returns to S06. When the input of another search query is not received (NO in S12), for example, after a predetermined time has elapsed, or when there is a process such as closing the screen of the Web site from the terminal 12, the control unit 28 Then, the information presenting process in the present embodiment ends.

<クエリの曖昧性>
ここで、本実施形態におけるクエリの曖昧性について、図を用いて説明する。図4は、クエリの曖昧性を説明するための図である。
<Query ambiguity>
Here, the ambiguity of the query in the present embodiment will be described with reference to the drawings. FIG. 4 is a diagram for explaining the ambiguity of a query.

例えば、図4(A)に示す例では、検索クエリ「テーブル」に対する検索結果のうち、ユーザがクリックしたカテゴリが「ローテーブル」、「センターテーブル」、「サイドテーブル」等である場合、これらは同じ商品「机」のジャンル(属性)に該当するものであるため、類似度が高い。したがって、各カテゴリの類似度が高い(例えば、予め設定された閾値以上である)場合には、クエリの曖昧性が低いと判断し、「テーブル」のクエリに対する補充処理を行わずに検索が実施される。   For example, in the example shown in FIG. 4A, when the category clicked by the user among the search results for the search query “table” is “row table”, “center table”, “side table”, etc., these are Since they belong to the genre (attribute) of the same product “desk”, the similarity is high. Therefore, when the similarity of each category is high (for example, equal to or more than a preset threshold), it is determined that the ambiguity of the query is low, and the search is performed without performing the supplementary processing for the query of “table”. Is done.

また、図4(B)に示す例では、検索クエリ「バルーン」に対する検索結果のうち、ユーザがクリックしたカテゴリが「バルーン鉢」、「バルーンスカート」、「バルーン電報」であったとする。このような場合には、それぞれが「バルーン」の文字を有するものの、商品のジャンルは同一ではない。したがって、このような場合には、カテゴリ間同士の類似度が低く、クエリ「バルーン」は、曖昧性が高いキーワードとして、上述し補充処理等を行う。例えば、ユーザ情報として「ガーデニング好き」等の嗜好情報がある場合には、検索クエリを「バルーン×ガーデニング」等の複合語によって検索する。これにより、ユーザへ適切な検索結果を提示することができる。   Further, in the example shown in FIG. 4B, it is assumed that the category clicked by the user among the search results for the search query “balloon” is “balloon bowl”, “balloon skirt”, and “balloon telegram”. In such a case, although each has the character "balloon", the genre of the product is not the same. Therefore, in such a case, the similarity between the categories is low, and the query “balloon” performs the above-described supplement processing as a keyword with high ambiguity. For example, when there is preference information such as “I like gardening” as user information, the search query is searched using a compound word such as “balloon × gardening”. Thereby, an appropriate search result can be presented to the user.

<曖昧性評価手法>
次に、本実施形態における曖昧性評価手法の一例について、具体的に説明する。曖昧性評価手段24は、例えば商品データ31から得られる商品カテゴリや商品タイトルに関する情報や、検索ログ32に含まれている検索クエリと、その検索クエリによる検索結果のそれぞれのカテゴリに対する各ユーザのクリック数(閲覧指示の回数)をカウントすることにより、検索クエリの曖昧さを判断する。
<Vagueness evaluation method>
Next, an example of the ambiguity evaluation method in the present embodiment will be specifically described. For example, the ambiguity evaluation unit 24 includes information on a product category and a product title obtained from the product data 31, a search query included in the search log 32, and a click of each user on each category of the search result by the search query. The ambiguity of the search query is determined by counting the number (the number of browsing instructions).

例えば、通常、カテゴリと商品との対応付けは、人の判断等により行われるため、不完全性を有する。また、カテゴリ間は、必ずしも独立しているわけではなく、他のカテゴリとの類似性が高いカテゴリも存在する。したがって、本実施形態では、各カテゴリをLSI等を利用して低次元のベクトル空間にマッピングする。LSIは、通常、ターム(単語)と文章(ドキュメント)との関連マトリックスに適用されるが、本実施形態では、クエリとカテゴリとの関連マトリックスに適用する。   For example, the association between a category and a product is usually performed based on human judgment or the like, and thus has incompleteness. Further, the categories are not necessarily independent, and some categories have high similarity to other categories. Therefore, in the present embodiment, each category is mapped to a low-dimensional vector space using an LSI or the like. The LSI is usually applied to an association matrix between terms (words) and sentences (documents). In the present embodiment, the LSI is applied to an association matrix between queries and categories.

例えば、本実施形態では、以下の式(1)に示すようなTF(Term Frequency)−IDF(Inverse Document Frequency)によるスコアを使用してクエリとカテゴリとの関連マトリックスを構成する。   For example, in the present embodiment, an association matrix between a query and a category is configured using a score based on TF (Term Frequency) -IDF (Inverse Document Frequency) as shown in the following equation (1).

Figure 0006664599
ここで、上述した式(1)において、tは単語(ターム)を示し、cはカテゴリを示し、dはドキュメントを示し、商品データにおけるタイトルに相当する。また、docs(c)はカテゴリcに含まれているドキュメント(商品)の集合を示す。また、terms(d)はドキュメントの中に含まれている単語の集合を示す。また、nt,dは、単語tが文章(商品)dの中で何回使用されているかを示す。また、Dはドキュメント全体の集合を示し、|D|は、ドキュメント全体の数(全商品数)を示す。なお、(1)式を用いた計算において、カテゴリ数は少ないため、通常のターム(単語)と文章(ドキュメント)とを用いたスコア計算よりも迅速に計算することができる。
Figure 0006664599
Here, in the above-described equation (1), t indicates a word (term), c indicates a category, d indicates a document, and corresponds to a title in product data. Docs (c) indicates a set of documents (products) included in the category c. Further, terms (d) indicates a set of words included in the document. Also, n t, d indicates how many times the word t is used in the sentence (product) d. D indicates a set of the entire document, and | D | indicates the number of the entire document (the total number of products). In addition, in the calculation using the expression (1), since the number of categories is small, the calculation can be performed more quickly than the score calculation using a normal term (word) and a sentence (document).

また、本実施形態では、カテゴリベクトルcについて、このベクトルの「方向」に基づいて集約することで、クエリに対する曖昧さを定量化する。図5は、カテゴリに対する類似度及び曖昧性の関係を説明するための図である。例えば、図5(A)、(B)には、言語的な空間ベクトルが示されており、c1〜c3は、それぞれ検索クエリによって抽出され、ユーザによってクリックされたカテゴリを示している。   In the present embodiment, the ambiguity for the query is quantified by aggregating the category vectors c based on the “direction” of the vector. FIG. 5 is a diagram for explaining a relationship between similarity and ambiguity with respect to a category. For example, FIGS. 5A and 5B show linguistic space vectors, and c1 to c3 respectively indicate categories extracted by a search query and clicked by the user.

このカテゴリを図5(A)、(B)に示す空間に落とし込んだ場合、図5(A)の例では、各カテゴリの方向が離散的であるため、各ベクトルの集約結果も小さなベクトル量となる。したがって、図5(A)のような場合には、カテゴリ間の類似度が低く、クエリの曖昧性が高いと評価する。また、図5(B)の例では、各カテゴリの方向が近く、各ベクトルの集約結果は大きなベクトル量となる。したがって、図5(B)のような場合には、カテゴリ間の類似度が高く、クエリの曖昧性が低いと評価する。   When this category is dropped into the space shown in FIGS. 5A and 5B, the direction of each category is discrete in the example of FIG. Become. Therefore, in the case of FIG. 5A, it is evaluated that the similarity between the categories is low and the ambiguity of the query is high. Further, in the example of FIG. 5B, the direction of each category is close, and the aggregation result of each vector is a large vector amount. Therefore, in the case shown in FIG. 5B, it is evaluated that the similarity between the categories is high and the ambiguity of the query is low.

なお、本実施形態では、ベクトルの方向の統一性を評価するため、まず各ベクトルに対する方向の中心(重心)を取得する。本実施形態では、例えば以下の(2)式によってカテゴリの方向の中心を算出することができる。   In this embodiment, in order to evaluate the uniformity of the direction of the vector, first, the center (center of gravity) of the direction for each vector is obtained. In the present embodiment, for example, the center of the category direction can be calculated by the following equation (2).

Figure 0006664599
ここで、上述した式(2)において、Cleafは、階層構造を有するカテゴリcの葉(末端)の部分である。なお、本実施形態では、末端カテゴリCleafに限定した例を用いて説明するが、これに限定されるものではなく、例えば全カテゴリCを用いてもよい。また、p(c|q)は、クエリqが与えられたときに、カテゴリcが出てくる確率を示しており、c∈Cleafの関係を有する。また、末端カテゴリCleafに限定しない場合には、c∈Cの関係を有する。
Figure 0006664599
Here, in the above equation (2), C leaf is a leaf (end) portion of category c having a hierarchical structure. In the present embodiment, an example in which the category is limited to the terminal category C leaf will be described. However, the present invention is not limited to this. For example, all categories C may be used. Further, p (c | q), when the query q is given, indicates the probability that comes out category c, has a relationship c∈C leaf. When it is not limited to terminal category C leaf has a relationship C∈C.

次に、取得した中心を基準にした各カテゴリベクトルの距離をコサイン類似度等を用いて算出することで、各カテゴリの類似度を算出ができる。なお、類似性の算出には、例えば、以下に示す式(3)等を用いることができる。   Next, the distance of each category vector based on the acquired center is calculated using cosine similarity or the like, whereby the similarity of each category can be calculated. Note that, for the calculation of the similarity, for example, the following equation (3) can be used.

Figure 0006664599
ここで、上述した式(3)において、クエリqの類似度sim(q)は、0から1の範囲で与えられ、類似性が高いほど、値が1に近くなり、類似性が低いほど値が0に近くなる。
Figure 0006664599
Here, in equation (3) above, the similarity sim (q) of the query q is given in the range of 0 to 1, and the higher the similarity, the closer the value is to 1; Becomes closer to 0.

<類似度の算出結果の例>
ここで、類似度の算出結果の一例について、図を用いて説明する。図6は、類似度の算出結果の一例を示す図である。図6の例では、実際の商取引サイト等のWebサイトにおいて使用された検索クエリ(キーワード)や検索結果(クリック数)等から類似度を算出したものである。
<Example of similarity calculation result>
Here, an example of the calculation result of the similarity will be described with reference to the drawings. FIG. 6 is a diagram illustrating an example of the calculation result of the similarity. In the example of FIG. 6, the similarity is calculated from a search query (keyword), a search result (the number of clicks), and the like used on an actual website such as a commercial transaction site.

図6の例において、クエリとして「テーブル(table)」と、「バルーン(balloon)との2つの例に対して、検索ログ32から取得した各カテゴリと、カテゴリ毎のクリック(閲覧指示)割合(probability)と、各クエリに対する上述した式(3)による算出結果(sim)が示されている。図6の例において、クエリ「テーブル」の場合には、全265個のカテゴリに対してクリック割合(probability)の最大が0.094であり、その他に上位5個のカテゴリを示している。この上位5個のカテゴリを含め、殆ど全てのカテゴリが、テーブル(Table)という同一のジャンル、属性に含まれ、上述した式(3)による類似度(sim)も0.883と高い数値となった。   In the example of FIG. 6, for two examples of “table” and “balloon” as queries, each category acquired from the search log 32 and a click (browsing instruction) ratio ( 6 shows the calculation results (sim) of the above-described formula (3) for each query.In the example of FIG. 6, in the case of the query "table", the click ratio is calculated for all 265 categories. The maximum of (probability) is 0.094, and the other five top categories are shown. Almost all of the categories including the top five categories are included in the same genre and attribute of the table (Table), and the similarity (sim) according to the above equation (3) is a high value of 0.883. Was.

一方、図6の例において、クエリ「バルーン」の場合には、全152個のカテゴリに対して、クリック割合の最大が0.094であり、その他に上位5個のカテゴリを示している。この上位5個のカテゴリには、ガーデニング(Gardening)や、玩具(Toy)、ファッション(Fashion)等の異なるジャンル、属性のものがあり、上述した式(3)による類似度(sim)も0.376と低い数値となった。   On the other hand, in the example of FIG. 6, in the case of the query “balloon”, the maximum click rate is 0.094 for all 152 categories, and the other five top categories are shown. The top five categories include different genres and attributes such as gardening, toys, and fashion, and the similarity (sim) according to the above equation (3) is also 0. It was a low value of 376.

本実施形態では、上述した類似度を用いて曖昧性を定量化し、曖昧度データ33として記憶する。これにより、その後の検索要求に対して、入力された検索クエリに対する曖昧性を曖昧度データ33より判断し、類似度が低い(曖昧性が高い)場合に、検索キーワードの拡張やユーザ情報の利用によりクエリを補充して、検索処理を行い、結果を提示する。   In the present embodiment, the ambiguity is quantified using the similarity described above, and is stored as the ambiguity data 33. Thereby, for the subsequent search request, the ambiguity with respect to the input search query is determined from the ambiguity data 33, and when the similarity is low (the ambiguity is high), the expansion of the search keyword and the use of the user information are performed. , A search process is performed, and the result is presented.

<曖昧性データを利用した検索内容>
次に、本実施形態における曖昧性データを利用した検索内容について、図を用いて説明する。図7は、曖昧性データを利用した検索内容の一例を示す図である。なお、図7の例では、曖昧性データの生成と、生成した曖昧性データを利用した検索内容を示す。
<Search contents using ambiguity data>
Next, search contents using ambiguity data in the present embodiment will be described with reference to the drawings. FIG. 7 is a diagram illustrating an example of a search content using ambiguity data. Note that the example of FIG. 7 shows generation of ambiguity data and search contents using the generated ambiguity data.

図7の例では、上述したように、商品データ31と、検索ログ32とを用いてクエリに対する曖昧度を評価する。本実施形態では、図7の(1)に示すように、商品データ31に含まれるカテゴリやタイトル(商品名)等からカテゴリ毎のベクトル表現を生成する。ベクトル表現は、例えばLSI等を用いることができ、また上述した式(1)等を用いて各カテゴリベクトルの方向及び量を算出することができる。   In the example of FIG. 7, as described above, the degree of ambiguity with respect to the query is evaluated using the product data 31 and the search log 32. In the present embodiment, as shown in FIG. 7A, a vector expression for each category is generated from a category, a title (product name), and the like included in the product data 31. For the vector expression, for example, an LSI or the like can be used, and the direction and amount of each category vector can be calculated using the above-described equation (1) and the like.

また、本実施形態では、図7の(2)に示すように、検索ログ32を用いてクエリ(例えば、テーブル)に対してクリック(閲覧)した各カテゴリの分布(クリック割合)を抽出する。   In the present embodiment, as shown in (2) of FIG. 7, the distribution (click rate) of each category clicked (browsed) on a query (for example, a table) is extracted using the search log 32.

次に、抽出した各カテゴリの分布に基づく各カテゴリベクトルを用いてカテゴリ間の類似度を算出し、算出した結果から曖昧度を評価する。図7の例では、「ローテーブル」、「センターテーブル」、「サイドテーブル」に対応するカテゴリベクトルを用いて、上述した式(2)、式(3)により類似度を算出し、算出結果を曖昧性の評価結果として、曖昧度データ33に記憶する。図7の(3)の例では、曖昧度の評価結果として式(3)で求めた類似度「0.88」がクエリ(テーブル)に対応付けられて記憶される。なお、曖昧度データ33に記憶されるデータは、上述した類似度の算出結果に限定されるものではなく、例えば「曖昧度=1−類似度」として、類似度を用いて計算された値(例えば、曖昧度=1−0.88=0.12)を曖昧度データ33に記憶してもよい。   Next, similarity between categories is calculated using each category vector based on the distribution of the extracted categories, and the degree of ambiguity is evaluated from the calculated result. In the example of FIG. 7, the similarity is calculated by the above-described equations (2) and (3) using the category vectors corresponding to the “row table”, “center table”, and “side table”, and the calculation result is calculated. The ambiguity evaluation result is stored in the ambiguity data 33. In the example of (3) in FIG. 7, the similarity “0.88” obtained by Expression (3) is stored in association with the query (table) as an ambiguity evaluation result. The data stored in the ambiguity data 33 is not limited to the above-described calculation result of the similarity. For example, as “ambiguity = 1−similarity”, a value calculated using the similarity ( For example, ambiguity = 1-0.88 = 0.12) may be stored in the ambiguity data 33.

この曖昧度データ33を用いることで、例えば図7の(4)に示すように、曖昧性評価装置11が提供する検索サイトにおいて、「テーブル」の検索クエリが入力された場合、曖昧度データ33を参照し、テーブルに対する曖昧度が低いため、そのままのクエリで検索を行う。また、他の検索クエリ「バルーン」の場合には、図6の例により、類似度が0.376と低い(曖昧度が高い)ため、他の検索キーワードを追加したり、ユーザ情報を利用して嗜好情報に対応したキーワードを補充して検索を行い、その検索結果を提示する。   By using the ambiguity data 33, for example, as shown in (4) of FIG. 7, when a search query of “table” is input in a search site provided by the ambiguity evaluation device 11, the ambiguity data 33 , And since the ambiguity of the table is low, the search is performed with the query as it is. Further, in the case of another search query “balloon”, since the similarity is as low as 0.376 (high ambiguity) according to the example of FIG. 6, another search keyword is added or user information is used. The search is performed by supplementing a keyword corresponding to the preference information, and the search result is presented.

<まとめ>
上述したように、本実施形態によれば、ユーザの意図の曖昧性を定量化することができる。これにより、本実施形態は、ユーザへ適切な検索結果を提示することができる。なお、上述した実施形態では、曖昧性の評価の対象となるクエリを1単語としたが、複数単語からなる複合語の場合にも、その複合語を1つの検索クエリとして、上述したカテゴリ間の類似度を算出し、算出した類似度に基づいて曖昧性の評価を行うことができる。また、上述したカテゴリ間の類似度の算出については、言語的な空間でベクトルに置き換えて類似度を算出してもよく、また予め設定されたカテゴリのツリー構造を用いて類似度を算出してもよく、これらを組み合わせてもよい。
<Summary>
As described above, according to the present embodiment, the ambiguity of the user's intention can be quantified. As a result, the present embodiment can present an appropriate search result to the user. In the above-described embodiment, the query to be evaluated for ambiguity is one word. However, even in the case of a compound word including a plurality of words, the compound word is regarded as one search query, and Similarity can be calculated, and ambiguity can be evaluated based on the calculated similarity. Further, regarding the calculation of the similarity between the categories described above, the similarity may be calculated by replacing the vector with a vector in a linguistic space, or the similarity may be calculated using a tree structure of a preset category. And these may be combined.

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。   As described above, the preferred embodiments of the present invention have been described in detail, but the present invention is not limited to the specific embodiments, and various modifications may be made within the scope of the present invention described in the appended claims. , Changes are possible.

また、上述した各実施形態で述べたフローチャートは、矛盾のない限り順序を入れ替えてもよい。また、上述した各実施形態の全部又は一部を組み合わせることができる。また、上述した各実施形態の全部又は一部は、プログラムによって実装され得る。このプログラムは、記憶媒体に格納することができる。   The order of the flowcharts described in the above embodiments may be changed as long as there is no inconsistency. In addition, all or some of the embodiments described above can be combined. In addition, all or a part of each embodiment described above can be implemented by a program. This program can be stored in a storage medium.

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。   Note that the present invention is not limited to the configuration shown here, such as a combination of the configuration described in the above embodiment with other elements. These points can be changed without departing from the spirit of the present invention, and can be appropriately determined according to the application form.

10 情報提示システム
11 曖昧性評価装置
12 端末
13 通信ネットワーク
21 入力手段
22 出力手段
23 記憶手段
24 曖昧性評価手段
25 検索手段
26 情報提示手段
27 通信手段
28 制御手段
31 商品データ
32 検索ログ
33 曖昧度データ
34 情報提示データ
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 メモリ装置
46 CPU
47 ネットワーク接続装置
48 記録媒体
DESCRIPTION OF SYMBOLS 10 Information presentation system 11 Ambiguity evaluation device 12 Terminal 13 Communication network 21 Input means 22 Output means 23 Storage means 24 Ambiguity evaluation means 25 Search means 26 Information presentation means 27 Communication means 28 Control means 31 Product data 32 Search log 33 Ambiguity Data 34 Information presentation data 41 Input device 42 Output device 43 Drive device 44 Auxiliary storage device 45 Memory device 46 CPU
47 network connection device 48 recording medium

Claims (10)

検索時に用いられたキーワードと、前記キーワードを用いて検索対象データから検索された検索結果に対応する複数のカテゴリとを関連付けて検索履歴情報として記憶させる記憶手段と、
前記記憶手段に記憶され検索履歴情報から、前記キーワードに対する前記複数のカテゴリ間の類似度を算出し、算出した類似度から前記キーワードの曖昧性を評価する曖昧性評価手段と、
を有することを特徴とする曖昧性評価装置。
And keywords used when searching a storage unit that Ru is stored as a plurality of search log information in association with the category corresponding to the retrieved search result from the search data by using the keywords,
From the search history information that will be stored in the storage means, calculating a similarity between the plurality of categories for the keywords, the ambiguity evaluating means from the calculated similarity evaluating the ambiguity of the keyword,
An ambiguity evaluation device comprising:
前記曖昧性評価手段は、
前記検索対象データに含まれる前記複数のカテゴリ毎に空間上のベクトル表現を生成し、
前記検索履歴情報から得られる前記複数のカテゴリ毎の数に基づき前記キーワードのカテゴリ分布を抽出し、
前記ベクトル表現と、前記カテゴリ分布とに基づいて、前記類似度を算出することを特徴とする請求項1に記載の曖昧性評価装置。
The ambiguity evaluation means,
Generate a spatial vector representation for each of the plurality of categories included in the search target data,
Extract the category distribution of the keywords based on the number of each of the plurality of categories obtained from the search history information,
The ambiguity evaluation device according to claim 1, wherein the similarity is calculated based on the vector expression and the category distribution.
前記曖昧性評価手段は、
前記キーワード前記類似度に対応する曖昧性データを前記記憶手段に記憶することを特徴とする請求項1又は2に記載の曖昧性評価装置。
The ambiguity evaluation means,
The ambiguity evaluation device according to claim 1, wherein ambiguity data corresponding to the similarity of the keyword is stored in the storage unit.
新たに検索を行うために入力された前記キーワードに対して、前記曖昧性データから前記キーワードに対する曖昧度を取得し、取得した曖昧度に対応させた検索を行う検索手段を有することを特徴とする請求項3に記載の曖昧性評価装置。 To the keywords entered in order to perform a new search, the acquired ambiguity of the ambiguity data for the keyword, and having a search means for searching made to correspond to the ambiguity obtained The ambiguity evaluation device according to claim 3. 前記検索手段は、
前記曖昧度と、予め設定した閾値とを比較し、前記曖昧度が前記閾値以上である場合に、前記キーワードに他の情報を補充し、補充した内容で検索を行い、前記曖昧度が前記閾値以上でない場合に、前記キーワードで検索を行うことを特徴とする請求項4に記載の曖昧性評価装置。
The search means,
The ambiguity is compared with a preset threshold. If the ambiguity is equal to or greater than the threshold, the keyword is supplemented with other information, and a search is performed using the supplemented content. The ambiguity evaluation device according to claim 4, wherein a search is performed using the keyword when the above is not the case.
前記記憶手段は、
前記検索対象データから検索された検索結果に対応するカテゴリのうち、ユーザが閲覧指示したカテゴリを前記キーワードと関連付けて検索履歴情報として記憶することを特徴とする請求項1乃至5の何れか1項に記載の曖昧性評価装置。
The storage means,
6. The search history information according to claim 1, wherein, among the categories corresponding to the search results searched from the search target data, a category designated by a user to be browsed is stored as search history information in association with the keyword. The ambiguity evaluation device described in the above.
前記曖昧性評価手段は、
予め設定された前記複数のカテゴリ間のツリー構造のデータに基づいて、前記類似度を算出することを特徴とする請求項1乃至6の何れか1項に記載の曖昧性評価装置。
The ambiguity evaluation means,
The ambiguity evaluation device according to any one of claims 1 to 6, wherein the similarity is calculated based on preset tree structure data between the plurality of categories.
検索時に用いられるキーワードに関連付けられた複数のカテゴリを、予め設定されたカテゴリ間のツリー構造のデータとして記憶させる記憶手段と、
前記記憶手段に記憶された前記複数のカテゴリ間のツリー構造のデータに基づいて、前記キーワードに対する前記複数のカテゴリ間の類似度を算出し、算出した類似度から前記キーワードの曖昧性を評価する曖昧性評価手段と、
を有することを特徴とする曖昧性評価装置。
A plurality of categories associated with the keyword used in the search time, a storage unit Ru is stored as data of a tree structure between a preset category,
Based on the data of the tree structure between the plurality of categories stored in the storage means, fuzzy wherein calculating a similarity between the plurality of categories for the keyword, to evaluate the ambiguity of the keyword from the calculated degree of similarity Sex evaluation means;
An ambiguity evaluation device comprising:
検索時に用いられたキーワードと、前記キーワードを用いて検索対象データから検索された検索結果に対応する複数のカテゴリとを関連付けて検索履歴情報として記憶手段に記憶させる記憶ステップと、
前記記憶手段に記憶され検索履歴情報から、前記キーワードに対する前記複数のカテゴリ間の類似度を算出し、算出した類似度から前記キーワードの曖昧性を評価する曖昧性評価ステップと、
をコンピュータに実行させる曖昧性評価方法。
And keywords used when searching, a storing step of search target data retrieved Results in in association with a plurality of categories corresponding Ru stored in the storage means as a retrieval history information using the keywords,
From the search history information that will be stored in the storage means, calculating a similarity between the plurality of categories for the keywords, the ambiguity evaluation step from calculated similarity evaluating the ambiguity of the keyword,
Ambiguity evaluation method that causes a computer to execute
コンピュータを、
検索時に用いられたキーワードと、前記キーワードを用いて検索対象データから検索された検索結果に対応する複数のカテゴリとを関連付けて検索履歴情報として記憶させる記憶手段、及び、
前記記憶手段に記憶され検索履歴情報から、前記キーワードに対する前記複数のカテゴリ間の類似度を算出し、算出した類似度から前記キーワードの曖昧性を評価する曖昧性評価手段、
として機能させるための曖昧性評価プログラム。
Computer
And keywords used when searching a plurality of categories and storing means Ru is stored as the retrieval history information in association with corresponding to search results retrieved from the search data by using the keywords and,
Wherein the search history information that will be stored in the storage means, calculating a similarity between the plurality of categories for the keywords, ambiguity evaluating means for evaluating the ambiguity of the keyword from the calculated degree of similarity,
Ambiguity evaluation program to function as a.
JP2015166161A 2015-08-25 2015-08-25 Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program Active JP6664599B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015166161A JP6664599B2 (en) 2015-08-25 2015-08-25 Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015166161A JP6664599B2 (en) 2015-08-25 2015-08-25 Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program

Publications (2)

Publication Number Publication Date
JP2017045196A JP2017045196A (en) 2017-03-02
JP6664599B2 true JP6664599B2 (en) 2020-03-13

Family

ID=58210293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015166161A Active JP6664599B2 (en) 2015-08-25 2015-08-25 Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program

Country Status (1)

Country Link
JP (1) JP6664599B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6890024B2 (en) * 2017-03-09 2021-06-18 Supership株式会社 Information processing equipment, information processing methods, and programs
JP7001380B2 (en) * 2017-07-14 2022-01-19 ヤフー株式会社 Information processing systems, information processing methods, and programs
JP6856466B2 (en) * 2017-07-14 2021-04-07 ヤフー株式会社 Information processing systems, information processing methods, and programs
CN110659179B (en) * 2019-08-30 2022-11-04 中国人民财产保险股份有限公司 Method and device for evaluating system running condition and electronic equipment
CN110598791B (en) * 2019-09-12 2024-12-10 深圳前海微众银行股份有限公司 Address similarity evaluation method, device, equipment and medium
CN111475725B (en) 2020-04-01 2023-11-07 百度在线网络技术(北京)有限公司 Methods, apparatus, equipment and computer-readable storage media for searching content

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4453437B2 (en) * 2004-05-11 2010-04-21 日本電信電話株式会社 Search keyword ranking method, apparatus and program
US8458213B2 (en) * 2011-02-28 2013-06-04 Ebay Inc. Method and system for classifying queries to improve relevance of search results

Also Published As

Publication number Publication date
JP2017045196A (en) 2017-03-02

Similar Documents

Publication Publication Date Title
CN104160390B (en) Entity augmentation service from latent relational data
TWI557664B (en) Product information publishing method and device
JP7451747B2 (en) Methods, devices, equipment and computer readable storage media for searching content
JP6664599B2 (en) Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program
US7769771B2 (en) Searching a document using relevance feedback
JP5721818B2 (en) Use of model information group in search
US20150269163A1 (en) Providing search recommendation
US20130110839A1 (en) Constructing an analysis of a document
US8930822B2 (en) Method for human-centric information access and presentation
WO2019091026A1 (en) Knowledge base document rapid search method, application server, and computer readable storage medium
WO2018028443A1 (en) Data processing method, device and system
CN104620240A (en) Gesture-based search queries
US10289642B2 (en) Method and system for matching images with content using whitelists and blacklists in response to a search query
JP2014153744A (en) Information search apparatus and information search program
CN111967914A (en) User portrait based recommendation method and device, computer equipment and storage medium
JPWO2010026900A1 (en) Relationship discovery device, relationship discovery method, and relationship discovery program
CN106095912B (en) Method and apparatus for generating expanded query terms
CN112926297A (en) Method, apparatus, device and storage medium for processing information
TW201820180A (en) Commodity information display system, commodity information display method, and program
WO2015159702A1 (en) Partial-information extraction system
TWI547888B (en) A method of recording user information and a search method and a server
JP2016045552A (en) Feature extraction program, feature extraction method, and feature extraction apparatus
JP2019197464A (en) Program, device, and method for sensibility-based search
JP6163143B2 (en) Information providing apparatus, information providing method, and information providing program
JP2017208047A (en) Information search method, information search apparatus, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191126

R150 Certificate of patent or registration of utility model

Ref document number: 6664599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250