[go: up one dir, main page]

JP7003020B2 - Information processing equipment, information processing methods, and programs - Google Patents

Information processing equipment, information processing methods, and programs Download PDF

Info

Publication number
JP7003020B2
JP7003020B2 JP2018173387A JP2018173387A JP7003020B2 JP 7003020 B2 JP7003020 B2 JP 7003020B2 JP 2018173387 A JP2018173387 A JP 2018173387A JP 2018173387 A JP2018173387 A JP 2018173387A JP 7003020 B2 JP7003020 B2 JP 7003020B2
Authority
JP
Japan
Prior art keywords
alias
entity
information
candidate
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018173387A
Other languages
Japanese (ja)
Other versions
JP2020046805A (en
Inventor
真也 夜久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018173387A priority Critical patent/JP7003020B2/en
Publication of JP2020046805A publication Critical patent/JP2020046805A/en
Application granted granted Critical
Publication of JP7003020B2 publication Critical patent/JP7003020B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.

従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。一方、検索エンジンは、ユーザによって入力された検索ワード(以下、「検索クエリ」とも言う)を受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。 Conventionally, a crawler that collects data (documents, images, etc.) from the Web and automatically creates a database of the collected data has been known. Crawlers collect data from web pages with various IP addresses by following links in web pages. The data collected by the crawler is stored in the web information database. On the other hand, when the search engine receives the search word input by the user (hereinafter, also referred to as "search query"), the information on the web page or application page related to the received search word (for example, URL: Uniform Resource Locator). Is acquired from the web information database, and the list of acquired information is output as a search result.

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索クエリに関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに関連付けて記憶したデータベースが用いられる場合がある(特許文献1参照)。データベースにおいて、ある特定のエンティティと関連付けられているテキストデータが検索クエリとして入力されると、その特定のエンティティに関する情報が検索結果とともに出力される。 Search engines may be operated to output data related to a search query entered by a user together with search results in order to improve user satisfaction. In order to realize this, a database in which text data and an entity are stored in association with each other may be used (see Patent Document 1). When text data associated with a particular entity is entered in the database as a search query, information about that particular entity is output along with the search results.

特開2017-76403号公報Japanese Unexamined Patent Publication No. 2017-76403

ユーザによって入力される検索クエリは、エンティティの正式名称以外に、エンティティのあだ名(ニックネーム)、略称、通称、自称などの別名を含む場合がある。これらの別名とエンティティとが関連付けられていない場合、エンティティに関する情報が取得できず、或いはユーザが意図しない不適切なエンティティに関する情報が取得されて検索結果とともに出力される場合がある。 The search query entered by the user may include other names such as the nickname (nickname), abbreviation, common name, and self-name of the entity in addition to the official name of the entity. If these aliases and the entity are not associated, the information about the entity may not be acquired, or the information about the inappropriate entity that the user does not intend may be acquired and output together with the search result.

本発明は、このような事情を考慮してなされたものであり、エンティティと関連付けられた別名情報を収集することが可能な情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and an object of the present invention is to provide an information processing device, an information processing method, and a program capable of collecting information on aliases associated with an entity. I will do it.

本発明の一態様は、エンティティの別名の候補を生成する生成部と、前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、を備える情報処理装置である。 One aspect of the present invention includes a generation unit that generates a candidate for an alias of an entity, a calculation unit that calculates first information indicating the degree of association between the entity and a candidate for another name generated by the generation unit, and the above. When the first information is input, the generator is based on a learning model trained to output information indicating whether or not the candidate alias associated with the first information is an alias of an entity. It is an information processing apparatus including a determination unit for determining whether or not the generated alias candidate is an alias of the entity.

本発明の一態様によれば、エンティティと関連付けられた別名情報を収集することができる。 According to one aspect of the invention, alias information associated with an entity can be collected.

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。It is a figure which shows the use environment and the configuration of the knowledge data server which concerns on this embodiment. 本実施形態に係るナレッジグラフの一例を示す図である。It is a figure which shows an example of the knowledge graph which concerns on this embodiment. 本実施形態に係る「野球選手A」のウェブページの一例を示す図である。It is a figure which shows an example of the web page of "baseball player A" which concerns on this embodiment. 本実施形態に係る検索結果ウェブページの一例を示す図である。It is a figure which shows an example of the search result web page which concerns on this embodiment. 本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。It is a figure explaining an example of the redirect process of the encyclopedia web page in this embodiment. 本実施形態における百科事典ウェブページのリダイレクト情報の一例を示す図である。It is a figure which shows an example of the redirect information of the encyclopedia web page in this embodiment. 本実施形態における収集部により収集された百科事典ウェブページの一例を示す図である。It is a figure which shows an example of the encyclopedia web page collected by the collection part in this embodiment. 本実施形態における収集部により収集された百科事典ウェブページの一例を示す図である。It is a figure which shows an example of the encyclopedia web page collected by the collection part in this embodiment. 本実施形態における別名候補情報の一例を示す図である。It is a figure which shows an example of the alias candidate information in this embodiment. 本実施形態における別名リストの一例を示す図である。It is a figure which shows an example of the alias list in this embodiment. 本実施形態のナレッジデータサーバの学習動作の一例を示す流れ図である。It is a flow chart which shows an example of the learning operation of the knowledge data server of this embodiment. 本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。It is a figure explaining an example of the redirect process of the encyclopedia web page in this embodiment. 本実施形態のナレッジデータサーバの別名判定動作の一例を示す流れ図である。It is a flow chart which shows an example of the alias determination operation of the knowledge data server of this embodiment. 本実施形態のナレッジデータサーバのオンライン動作の一例を示す流れ図である。It is a flow chart which shows an example of the online operation of the knowledge data server of this embodiment.

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ(例えば、画像やテキストデータ)を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。 Hereinafter, embodiments of the information processing apparatus, information processing method, and program of the present invention will be described with reference to the drawings. In the present embodiment, the information processing apparatus will be described as constituting a part of the knowledge data server. The knowledge data server is, for example, a server that collects data to be collected (for example, image or text data) and generates a knowledge graph based on the collected data. In the present embodiment, the knowledge graph is data in which an entity, a class, and a property are associated with the location information of a web page in which related data related to the entity is described.

エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。 An entity may represent, for example, an entity of an object (eg, an object that exists in the real world), or may be defined in the concept of an object (eg, in the real world or virtual world). It may represent a concept). For example, when the object is the concept of "building", the entity may represent an entity such as "○○ tower" or "○○ building". Further, for example, when the object is the concept of "economics", the entity may represent an insubstantial abstract concept such as "microeconomics" or "macroeconomics". Hereinafter, embodiments will be described in detail.

<実施形態>
<1-1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
<Embodiment>
<1-1. Knowledge data server usage environment>
FIG. 1 is a diagram showing a usage environment and configuration of the knowledge data server 100 according to the present embodiment. The knowledge data server 100 is communicably connected to the terminal device 200, the web server 300, the crawl target device DV, and the network NW. The network NW means the World Wide Web, and is a system using HTML documents and the like that are standardly used on the Internet and intranets. The network NW may further include a radio base station, a provider device, a dedicated line, and the like.

端末装置200は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置200に提供するサーバである。 The terminal device 200 is a device used by a user, and is, for example, a mobile phone such as a smartphone, a tablet computer, a notebook computer, a desktop computer, or the like. The web server 300 is a server that uses a search engine to generate a web page for displaying search results and provides it to the terminal device 200.

ナレッジデータサーバ100は、例えば、制御部110と、記憶部120とを備える。記憶部120は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。記憶部120には、例えば、ナレッジグラフD1と、別名候補情報D2と、判定モデルD3と、別名リストD4とが記憶される。 The knowledge data server 100 includes, for example, a control unit 110 and a storage unit 120. The storage unit 120 is realized by, for example, a RAM (Random Access Memory), an HDD (Hard Disk Drive), a flash memory, or a hybrid storage device in which a plurality of these are combined. Further, a part or all of the storage unit 120 may be an external device such as NAS (Network Attached Storage) or an external storage server that can be accessed by the knowledge data server 100. The storage unit 120 stores, for example, the knowledge graph D1, the alias candidate information D2, the determination model D3, and the alias list D4.

図2は、本実施形態に係るナレッジグラフD1の一例を示す図である。ナレッジグラフD1において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。 FIG. 2 is a diagram showing an example of Knowledge Graph D1 according to the present embodiment. The things described in Knowledge Graph D1 are defined by the ontology. An ontology is a definition of a class and a property of an object, and is a collection of constraints that hold between the class and the property.

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。 A class is a group of things that have the same properties in an ontology. What the nature of an object is, that is, which class the object belongs to, is determined by the properties described below.

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。尚、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。 For example, things that have a beak, an oviparous vertebrate, and forelimbs that are wings are classified in the "bird" class. Also, in the class of "birds", things that have the property of not being able to fly are classified into lower classes such as "penguins" and "ostriches". In this way, the class system may have a hierarchical structure having a higher-lower relationship. The nature of the upper class is inherited by the lower class. In the example above, the "bird" class's "beak-bearing, oviparous vertebrate with winged forelimbs" property is a lower class property of "penguins" and "ostriches". Will also be included. For example, if the class name for identifying the class is a class "bird", the class name may be represented by the character string "bird". The class name does not necessarily have to represent a meaning, and for example, even in the class "bird", a character string indicating mere identification information such as "information 1" or "C1" may be assigned. .. The above-mentioned entity, that is, an entity, belongs to one of the classes included in the class system defined by the ontology.

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「~を体の構成要素としてもつ」という性質や、「~に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。 Properties are attributes that describe the nature and characteristics of things and the relationships between classes. For example, a property may be an attribute that has the property of "having ... as a component of the body" or the property of "living in", or "a class is a higher class and a certain class is a lower class". It may be an attribute indicating the relationship between the upper and lower levels of "class". As for the property name for identifying the property, the property name itself may or may not represent the meaning, as in the class name described above.

ナレッジグラフD1は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。 The Knowledge Graph D1 is a directed graph in which the above-mentioned classes are represented as nodes and the above-mentioned properties are represented as labeled and directional edges. With such a graph structure, information about things can be discriminated by nodes, and relationships between things can be discriminated by edges.

図2示される例のナレッジグラフD1は、エンティティE1と、エンティティE2とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報(以下、「エンティティ識別情報EID」)と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。 In the knowledge graph D1 of the example shown in FIG. 2, the entity E1 and the entity E2 belong to a class having a property name of "affiliated team". In the present embodiment, each entity is associated with information that can identify each entity (hereinafter, "entity identification information EID"), an entity name, and location information of a web page of the entity.

所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、URLである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。図2に示すナレッジグラフD1において、エンティティE1には、エンティティ識別情報EIDの「0001」と、エンティティ名の「野球選手A」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球選手A」というURLとが関連付けられている。また、エンティティE2には、エンティティ識別情報EIDの「0002」と、エンティティ名「野球チームB」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球チームB」というURLとが関連付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。 The location information is information for specifying a position on the Web, and is, for example, a URL. The web page indicated by the location information contains the relevant data of the entity. In the knowledge graph D1 shown in FIG. 2, the entity E1 is the location of a web page in which the entity identification information EID "0001", the entity name "baseball player A", and related data related to the entity are described. It is associated with the URL "http: // encyclopedia web page / baseball player A" which is information. Further, the entity E2 is the location information of the web page in which the entity identification information EID "0002", the entity name "baseball team B", and the related data related to the entity are described, "http: //". It is associated with the URL "Encyclopedia Web Page / Baseball Team B". In the following description, the related data related to the entity will be described as the related data of the entity. In addition, the web page in which the data related to the entity is described is also described as the web page of the entity.

図3は、本実施形態に係る「野球選手A」のウェブページの一例を示す図である。「野球選手A」のウェブページには、「野球選手A」の関連データが記載されている。 FIG. 3 is a diagram showing an example of a web page of “baseball player A” according to the present embodiment. The web page of "baseball player A" contains data related to "baseball player A".

<1-2.検索結果ウェブページ>
図4は、本実施形態に係る検索結果ウェブページの一例を示す図である。図4に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、検索クエリに関連するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページに検索クエリを入力する。検索クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力された検索クエリをウェブサーバ300に送信する。
<1-2. Search result web page >
FIG. 4 is a diagram showing an example of a search result web page according to the present embodiment. As shown in FIG. 4, the display unit 210 of the terminal device 200 displays a search result web page including a query input area 211, a knowledge panel 220, and a search result 230. The knowledge panel 220 includes the entity 221 associated with the search query, the image 222 associated with the entity 221 and the relevant information 223 associated with the entity 221. The user uses the terminal device 200 to input a search query on the search page displayed on the display unit 210 of the terminal device 200. A search query is a search word or a combination of a plurality of search words. The terminal device 200 sends the search query entered by the user to the web server 300.

ウェブサーバ300は、端末装置200から受信した検索クエリをナレッジデータサーバ100に送信する。ナレッジデータサーバ100は、受信した検索クエリに対応するエンティティに関連する情報をウェブサーバ300に送信する。ナレッジデータサーバ100は、例えば、ナレッジグラフD1に基づいて、受信した検索クエリと関連付けられたエンティティに関連付けられた所在情報をウェブサーバ300に送信する。ウェブサーバ300は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ300は、抽出したエンティティの関連データ(この一例では、ナレッジパネル220に示す情報)を含めた検索結果ウェブページを生成する。 The web server 300 transmits the search query received from the terminal device 200 to the knowledge data server 100. The knowledge data server 100 sends information related to the entity corresponding to the received search query to the web server 300. The knowledge data server 100 transmits, for example, the location information associated with the entity associated with the received search query to the web server 300 based on the knowledge graph D1. Based on the received location information, the web server 300 extracts the relevant data of the entity from the web pages indicated by the location information. The web server 300 generates a search result web page including the related data of the extracted entity (in this example, the information shown in the knowledge panel 220).

図4に示される例においては、検索クエリとして「野球選手A」が入力され、ナレッジパネル220には「野球選手A」に関連する画像や様々な情報が表示されている。ナレッジパネル220には、例えば、「野球選手A」の画像222や、「野球選手A」の生年月日や出身地等の関連情報223が表示される。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。 In the example shown in FIG. 4, "baseball player A" is input as a search query, and an image and various information related to "baseball player A" are displayed on the knowledge panel 220. On the knowledge panel 220, for example, an image 222 of "baseball player A" and related information 223 such as the date of birth and birthplace of "baseball player A" are displayed. In this way, by displaying not only the search result 230 but also the knowledge panel 220 on the display unit 210, the user satisfaction with the search result can be improved.

<1-3.ナレッジデータサーバ100の構成>
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、通信I/F(Interface)111と、収集部112と、別名候補抽出部113(生成部)と、素性抽出部114(算出部)と、判定部115と、別名リスト生成部116と、所在情報取得部117と、学習部118とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F111は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、「クロール対象機器DV」)、端末装置200、及びウェブサーバ300)との通信を仲介する。
<1-3. Configuration of Knowledge Data Server 100>
Returning to FIG. 1, the control unit 110 is realized by, for example, a hardware processor such as a CPU (Central Processing Unit) executing a program (software). The control unit 110 includes, for example, a communication I / F (Interface) 111, a collection unit 112, an alias candidate extraction unit 113 (generation unit), a feature extraction unit 114 (calculation unit), a determination unit 115, and an alias list. It includes a generation unit 116, a location information acquisition unit 117, and a learning unit 118. In addition, some or all of these components (excluding the contained storage unit) are LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), GPU (Graphics Processing). It may be realized by hardware (circuit unit; including circuitry) such as Unit), or it may be realized by the cooperation of software and hardware. The communication I / F 111 communicates with each functional unit via the network NW and other devices (for example, a crawl target device (hereinafter, “crawl target device DV”), a terminal device 200, and a web server 300). Mediate.

収集部112は、所定のウェブページに関する収集対象データを、ネットワークNWを介してクロール対象機器DVから収集する。収集部112による収集処理の対象となる収集対象データは、例えば、利用者によって編集可能な百科事典のウェブページ(以下、「百科事典ウェブページ」)、検索エンジンの検索ログ等である。 The collection unit 112 collects data to be collected for a predetermined web page from the device DV to be crawled via the network NW. The collection target data to be collected by the collection unit 112 is, for example, an encyclopedia web page (hereinafter, “encyclopedia web page”) that can be edited by a user, a search engine search log, or the like.

収集部112は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークNW上(クロール対象機器DVの記憶領域内)にあり、ブラウザで閲覧可能なデータを含む。尚、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、HTML(HyperText Markup Language)のソースを示すテキストデータを含むウェブページを含む。収集部112は、百科事典ウェブページのうち、例えば、ナジッレグラフD1に含まれるエンティティのそれぞれの名前と対応するテキストデータが記載されたウェブページが存在する場合、そのすべてを収集する。 The collecting unit 112 is realized by a so-called crawler program. The data to be collected includes data that is on the network NW (in the storage area of the device DV to be crawled) and can be viewed by a browser. The data to be collected is not limited to the browser, and may be data reproduced by the application program. The data to be collected includes, for example, a web page containing text data indicating a source of HTML (HyperText Markup Language). The collection unit 112 collects all of the encyclopedia web pages, for example, if there is a web page containing the name of each entity included in the Nagilegraph D1 and the corresponding text data.

また、収集対象データは、例えば、百科事典ウェブページに関するリダイレクト情報を含む。図5は、本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。図6は、本実施形態における百科事典ウェブページのリダイレクト情報の一例を示す図である。例えば、百科事典ウェブページにおいて、ユーザが端末装置200を操作して「野球選手A」(第1ワード)の別名である「別名a」(第2ワード)を検索クエリとして入力した場合、端末装置200には入力された「別名a」と関連付けられたウェブページP1(第2ページ)は表示されることなく、「野球選手A」と関連付けられたウェブページP2(第1ページ)へのリダイレクト(転送)が行われ、端末装置200にはこのウェブページP2が表示される。すなわち、ウェブページP1はリダイレクト元のページであり、リダイレクト先のページとしてウェブページP2が設定されたページ(リダイレクト先としてウェブページP2のURLが設定された転送用ページ)である。図6に示されるように、リダイレクト情報は、上記のようなリダイレクト元のページと関連付けられたワードと、リダイレクト先のページと関連付けられたワードとが関連付けられたリストを含む。図6には、例えば、リダイレクト元のワード「別名a」と、リダイレクト先のワード「野球選手A」とが関連付けられたデータが含まれる。 The data to be collected also includes, for example, redirect information about the encyclopedia web page. FIG. 5 is a diagram illustrating an example of the redirect process of the encyclopedia web page in the present embodiment. FIG. 6 is a diagram showing an example of redirect information of the encyclopedia web page in the present embodiment. For example, on an encyclopedia web page, when a user operates a terminal device 200 and inputs "alias a" (second word), which is another name for "baseball player A" (first word), as a search query, the terminal device. In 200, the web page P1 (second page) associated with the input "alias a" is not displayed, and the redirect to the web page P2 (first page) associated with "baseball player A" (1st page). (Transfer) is performed, and this web page P2 is displayed on the terminal device 200. That is, the web page P1 is a redirect source page, and is a page in which the web page P2 is set as the redirect destination page (a transfer page in which the URL of the web page P2 is set as the redirect destination). As shown in FIG. 6, the redirect information includes a word associated with the redirected page as described above and a list associated with the word associated with the redirected page. FIG. 6 includes, for example, data in which the redirect source word “alias a” and the redirect destination word “baseball player A” are associated with each other.

尚、収集部112によるクロール処理を行わずに、例えば、ナレッジデータサーバ100のオペレータが運用端末のブラウザを操作して手動で収集対象データを収集し、ナレッジデータサーバ100に設けられた入力部(図示しない)を介して収集対象データを入力するようにしてもよい。 It should be noted that, for example, the operator of the knowledge data server 100 manually collects the data to be collected by operating the browser of the operation terminal without performing the crawl process by the collection unit 112, and the input unit provided in the knowledge data server 100 ( Data to be collected may be input via (not shown).

リダイレクト元のワードは、リダイレクト先のワードの同義語であり、これら2つのワードは同一のエンティティを示していることが想定される。すなわち、リダイレクト元のワードは、リダイレクト先のワードの別名であることが想定される。このため、別名候補抽出部113は、収集部112により収集された収集対象データに含まれるリダイレクト情報から、リダイレクト元のワードおよびリダイレクト先のワードを抽出し、リダイレクト元のワードを、リダイレクト先のワードの別名の候補(以下、「別名候補」)として、別名候補情報D2に登録する。 The redirect source word is a synonym for the redirect destination word, and it is assumed that these two words represent the same entity. That is, the redirect source word is assumed to be another name for the redirect destination word. Therefore, the alias candidate extraction unit 113 extracts the redirect source word and the redirect destination word from the redirect information included in the collection target data collected by the collection unit 112, and extracts the redirect source word and the redirect destination word. It is registered in the alias candidate information D2 as a candidate for another name (hereinafter, "alias candidate").

また、別名候補抽出部113は、収集部112により収集された収集対象データに含まれる百科事典ウェブページのHTMLのソースを示すテキストデータから誘導情報を抽出し、抽出した誘導情報に基づいて別名候補を抽出し、別名候補情報D2に登録する。図7は、本実施形態における収集部112により収集された百科事典ウェブページの一例を示す図である。図7に示される百科事典ウェブページは、「キャラクタC」(第1エンティティ)と関連付けられたページであり、「キャラクタC(アニメ)T1」および「キャラクタC(テレビドラマ)T2」のそれぞれと関連付けられたページへの誘導情報を含んでいる。これらの「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」(第2エンティティ)はいずれもエンティティとなりうるものである。この場合、「キャラクタC」のワードは、エンティティテとしての「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」の別名(例えば、略称)である可能性がある。そこで、別名候補抽出部113は、あるウェブページと関連付けられたワード(図7に示される例では「キャラクタC」)を、該ウェブページに含まれる誘導情報に含まれるワード(図7に示される例では「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」)の別名候補として、別名候補情報D2に登録する。 Further, the alias candidate extraction unit 113 extracts guidance information from the text data indicating the HTML source of the encyclopedia web page included in the collection target data collected by the collection unit 112, and the alias candidate extraction unit 113 extracts guidance information based on the extracted guidance information. Is extracted and registered in the alias candidate information D2. FIG. 7 is a diagram showing an example of an encyclopedia web page collected by the collection unit 112 in the present embodiment. The encyclopedia web page shown in FIG. 7 is a page associated with "Character C" (first entity) and associated with each of "Character C (animation) T1" and "Character C (television drama) T2". Contains information to guide you to the page. Both of these "character C (animation)" and "character C (television drama)" (second entity) can be entities. In this case, the word "character C" may be another name (for example, abbreviation) for "character C (animation)" and "character C (television drama)" as entity. Therefore, the alias candidate extraction unit 113 uses a word associated with a certain web page (“character C” in the example shown in FIG. 7) as a word included in the guidance information included in the web page (shown in FIG. 7). In the example, it is registered in the alias candidate information D2 as an alias candidate of "character C (animation)" and "character C (television drama)").

また、別名候補抽出部113は、収集部112により収集された収集対象データに含まれる検索エンジンの検索ログに基づいて別名候補を抽出し、別名候補情報D2に登録する。例えば、別名候補抽出部113は、検索結果ウェブページに含まれるリンクのクリックログなどの利用状況に関する情報を収集する。別名候補抽出部113は、検索に利用された検索クエリと、検索結果ウェブページに含まれるリンクのうちユーザがクリックしたリンク先のページ(例えば、百科事典ウェブページ)に関連付けられるエンティティの名前とが異なる場合、この検索クエリを、エンティティの別名候補として抽出する。別名候補抽出部113は、検索結果ウェブページに含まれるリンクのうち、クリック数、クリック率(CTR:Click Trough Rate)等が所定の閾値以上であるリンクのリンク先のページに関連付けられるエンティティのみに対して、検索クエリを別名候補として設定してよい。尚、以下においては、収集対象データが、百科事典ウェブページに関するリダイレクト情報である場合を例に挙げて説明する。 Further, the alias candidate extraction unit 113 extracts the alias candidate based on the search log of the search engine included in the collection target data collected by the collection unit 112, and registers the alias candidate in the alias candidate information D2. For example, the alias candidate extraction unit 113 collects information on the usage status such as a click log of a link included in a search result web page. The alias candidate extraction unit 113 includes the search query used for the search and the name of the entity associated with the linked page (for example, the encyclopedia web page) clicked by the user among the links included in the search result web page. If not, extract this search query as an alias candidate for the entity. The alias candidate extraction unit 113 includes only the entities associated with the linked page of the link whose click count, click through rate (CTR), etc. are equal to or higher than a predetermined threshold among the links included in the search result web page. On the other hand, the search query may be set as an alias candidate. In the following, the case where the data to be collected is the redirect information related to the encyclopedia web page will be described as an example.

図1に戻り、素性抽出部114は、エンティティと、該エンティティに関して別名候補抽出部113により抽出された別名候補との組の各々について、素性情報(第1情報)を抽出する。素性情報とは、エンティティと、別名候補との関連度合を示す情報である。素性情報は、別名候補の確からしさを判定するための指標となる情報である。素性情報には、例えば、百科事典ウェブページに含まれるエンティティの要約情報に基づく第1素性情報、検索結果ウェブページに含まれるリンクのクリックログなどの利用状況に基づく第2素性情報、別名候補の文字列構造に基づく第3素性情報及び第4素性情報等が含まれる。素性抽出部114は、例えば、第1から第4素性情報のうちの少なくとも1つの情報を抽出する。尚、素性情報は、上記の第1から第4素性情報の4種類に限定されるものではなく、エンティティと、別名候補との関連度合を示すのに有用な情報であれば任意に付け加えることができる。 Returning to FIG. 1, the feature extraction unit 114 extracts feature information (first information) for each of the pair of the entity and the alias candidate extracted by the alias candidate extraction unit 113 with respect to the entity. The feature information is information indicating the degree of association between the entity and the alias candidate. The feature information is information that serves as an index for determining the certainty of the alias candidate. The feature information includes, for example, the first feature information based on the summary information of the entity included in the encyclopedia web page, the second feature information based on the usage status such as the click log of the link included in the search result web page, and the alias candidate. The third feature information and the fourth feature information based on the character string structure are included. The feature extraction unit 114 extracts, for example, at least one of the first to fourth feature information. It should be noted that the feature information is not limited to the above four types of the first to fourth feature information, and any information that is useful for showing the degree of association between the entity and the alias candidate can be arbitrarily added. can.

(第1素性情報)
図8は、本実施形態に係る「野球選手A」の百科事典ウェブページの一例を示す図である。「野球選手A」の百科事典ウェブページには、「野球選手A」のプロフィールに関する情報(要約情報)が含まれており、このプロフィールに関する情報には「愛称:BBB(N1)」の文字列が含まれている。素性抽出部114は、例えば、このプロフィール情報(「愛称」という欄の情報(キー)と、その内容を示す「BBB」(バリュー))を参照し、別名候補情報D2に含まれる別名候補の各々が、関連付けされるエンティティのページの要約情報を含まれるか否かを判定する。このように、素性抽出部114は、別名候補が要約情報に含まれている場合、例えば、別名候補情報D2の素性1の欄に“1”を記録し、別名候補が要約情報に含まれていない場合、別名候補情報D2の素性1の欄に“0”を記録する。
(1st feature information)
FIG. 8 is a diagram showing an example of an encyclopedia web page of “baseball player A” according to the present embodiment. The "Baseball Player A" encyclopedia web page contains information (summary information) about the profile of "Baseball Player A", and the information about this profile contains the string "nickname: BBB (N1)". include. The feature extraction unit 114 refers to, for example, this profile information (information (key) in the column "nickname" and "BBB" (value) indicating the content), and each of the alias candidates included in the alias candidate information D2. Determines if it contains page summary information for the associated entity's page. As described above, when the feature extraction unit 114 includes the alias candidate in the summary information, for example, "1" is recorded in the feature 1 column of the alias candidate information D2, and the alias candidate is included in the summary information. If not, "0" is recorded in the feature 1 column of the alias candidate information D2.

(第2素性情報)
素性抽出部114は、検索結果ウェブページに含まれるリンクのクリックログ等の利用状況に関する情報に基づいて、別名候補情報D2に含まれる別名候補の各々が検索クエリとして利用された場合に、関連付けされるエンティティに関連付けられたページに遷移する確率(別名候補が対応するエンティティに関連付けられる確率)を示す第2素性情報を算出する。例えば、素性抽出部114は、検索結果ウェブページに含まれるリンクのクリック率を第2素性情報として算出して、別名候補情報D2の素性2の欄に記録する。
(Second feature information)
The feature extraction unit 114 is associated when each of the alias candidates included in the alias candidate information D2 is used as a search query based on the information on the usage status such as the click log of the link included in the search result web page. The second feature information indicating the probability of transitioning to the page associated with the entity (probability that the alias candidate is associated with the corresponding entity) is calculated. For example, the feature extraction unit 114 calculates the click rate of the link included in the search result web page as the second feature information, and records it in the feature 2 column of the alias candidate information D2.

(第3素性情報)
素性抽出部114は、別名候補情報D2に含まれる別名候補の各々の文字列が、関連付けされるエンティティの文字列の部分文字列であるか否かを示す第3素性情報を算出し、別名候補情報D2の素性3の欄に登録する。例えば、別名候補の文字列が「ABCD」であり、エンティティの文字列が「東京ABCD」である場合、この別名候補の文字列「ABCD」は、エンティティの文字列「東京ABCD」の部分文字列である。素性抽出部114は、別名候補の各々の文字列が、関連付けされるエンティティの文字列の部分文字列である場合、例えば、別名候補情報D2の素性3欄に“1”を記録し、別名候補の各々の文字列が、関連付けされるエンティティの文字列の部分文字列ではない場合、別名候補情報D2の素性3の欄に“0”を記録する。
(Third feature information)
The identity extraction unit 114 calculates the third identity information indicating whether or not each character string of the alias candidate included in the alias candidate information D2 is a substring of the character string of the associated entity, and calculates the alias candidate. Register in the column of the identity 3 of the information D2. For example, if the character string of the alias candidate is "ABCD" and the character string of the entity is "Tokyo ABCD", the character string "ABCD" of the alias candidate is a substring of the character string "Tokyo ABCD" of the entity. Is. When each character string of the alias candidate is a substring of the character string of the associated entity, the identity extraction unit 114 records, for example, "1" in the identity 3 column of the alias candidate information D2, and the identity extraction unit 114 records the alias candidate. If each character string of is not a substring of the character string of the associated entity, "0" is recorded in the column of the identity 3 of the alias candidate information D2.

(第4素性情報)
素性抽出部114は、別名候補情報D2に含まれる別名候補の各々の文字列と、関連付けされるエンティティの文字列との編集距離(レーベンシュタイン距離)を算出し、算出した編集距離を示す第4素性情報を、別名候補情報D2の素性4の欄に記録する。例えば、別名候補の文字列が「ABEフィルムメーカー」であり、エンティティの文字列が「あべフィルムメーカー」である場合、編集距離は“3”である。
(4th feature information)
The identity extraction unit 114 calculates the edit distance (Levenshtein distance) between each character string of the alias candidate included in the alias candidate information D2 and the character string of the associated entity, and indicates the calculated edit distance. The identity information is recorded in the column of the identity 4 of the alias candidate information D2. For example, when the character string of the alias candidate is "ABE film maker" and the character string of the entity is "Abe film maker", the editing distance is "3".

図1に戻り、判定部115は、判定モデルD3に基づいて、別名候補情報D2に含まれる別名候補の各々が、関連付けられるエンティティの別名であるか否かを判定する。判定モデルD3は、素性情報(例えば、素性1から4の少なくとも1つ)が与えられた場合に、該素性情報に関する別名候補がエンティティの別名であるか否かの判定結果を出力するようにモデリングされたものである。判定結果は、別名であるか否かを示すもの(例えば、別名であることを示す“1”または別名ではないことを示す“0”)であってもよいし、別名である確率を示す数値であってもよい。以下において、判定結果が、別名であるか否かを示すものである場合を例に挙げて説明する。 Returning to FIG. 1, the determination unit 115 determines whether or not each of the alias candidates included in the alias candidate information D2 is an alias of the associated entity based on the determination model D3. The determination model D3 is modeled so as to output a determination result of whether or not the alias candidate related to the feature information is an alias of the entity when the feature information (for example, at least one of the features 1 to 4) is given. It was done. The determination result may be an alias indicating whether or not it is an alias (for example, "1" indicating that it is an alias or "0" indicating that it is not an alias), or a numerical value indicating the probability of being an alias. May be. Hereinafter, a case where the determination result indicates whether or not the determination result is an alias will be described as an example.

判定モデルD3は、例えば、ロジスティック回帰分析、決定木分析、サポートベクターマシン、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)、多層構造のニューラルネットワーク(Deep Neural Network:DNN)、または畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を用いたディープラーニングに基づく技術等の任意の機械学習により生成されたモデルであってよい。 The decision model D3 is, for example, logistic regression analysis, decision tree analysis, support vector machine, recurrent neural network (RNN), multi-layered neural network (DNN), or convolutional neural network (Convolutional). It may be a model generated by arbitrary machine learning such as a technique based on deep learning using Neural Network (CNN).

判定部115は、別名候補が、関連付けされるエンティティの別名であると判定した場合、例えば、別名候補情報D2の判定結果の欄に“1”を記録し、別名ではないと判定した場合、別名候補情報D2の判定結果の欄に“0”を記録する。 When the determination unit 115 determines that the alias candidate is an alias of the associated entity, for example, records "1" in the determination result column of the alias candidate information D2 and determines that the alias candidate is not an alias. “0” is recorded in the determination result column of the candidate information D2.

図9は、本実施形態における別名候補情報D2の一例を示す図である。図9に示される例では、エンティティである「野球選手A」に対して、別名候補「別名a」、素性1「1(要約情報に含まれている)」、素性2「0.14(クリック率)」、素性3「1(部分文字列である)」、素性4「3(編集距離)」、判定結果「1(別名である)」が関連付けされている。 FIG. 9 is a diagram showing an example of alias candidate information D2 in the present embodiment. In the example shown in FIG. 9, for the entity "baseball player A", the alias candidate "alias a", the feature 1 "1 (included in the summary information)", and the feature 2 "0.14 (click)". Rate) ”, feature 3“ 1 (substring) ”, feature 4“ 3 (editing distance) ”, and determination result“ 1 (alias) ”are associated with each other.

別名リスト生成部116は、別名候補情報D2に含まれるデータのうち、判定結果が「1」である、すなわち、判定部115により別名候補が別名であると判定されたデータの「エンティティ」と「別名候補」との組を抽出して、別名リストD4を生成する。図10は、本実施形態における別名リストD4の一例を示す図である。図10に示される例では、エンティティである「野球選手A」に対して、別名1「別名a」、別名2「別名c」が関連付けされている。尚、別名リストD4生成する代わりに、抽出された「別名候補」を、「エンティティ」と関連付けてナレッジグラフD1に登録してもよい。 The alias list generation unit 116 has a determination result of "1" among the data included in the alias candidate information D2, that is, the "entity" and "entity" of the data for which the determination unit 115 determines that the alias candidate is an alias. The pair with "alias candidate" is extracted to generate the alias list D4. FIG. 10 is a diagram showing an example of the alias list D4 in the present embodiment. In the example shown in FIG. 10, alias 1 "alias a" and alias 2 "alias c" are associated with the entity "baseball player A". Instead of generating the alias list D4, the extracted "alias candidate" may be associated with the "entity" and registered in the knowledge graph D1.

所在情報取得部117は、ナレッジグラフD1および別名リストD4に基づいて、ウェブサーバ300から受信した検索クエリに対応するエンティティに関連付けられている所在情報を取得する。所在情報取得部117は、ナレッジグラフD1に含まれるエンティティ名の中に、受信した検索クエリと合致するエンティティ名が存在するか否かを判定する。所在情報取得部117は、受信した検索クエリと合致するエンティティ名が存在すると判定した場合、該エンティティに関連付けられている所在情報を取得する。 The location information acquisition unit 117 acquires the location information associated with the entity corresponding to the search query received from the web server 300 based on the knowledge graph D1 and the alias list D4. The location information acquisition unit 117 determines whether or not the entity name matching the received search query exists in the entity name included in the knowledge graph D1. When it is determined that the entity name matching the received search query exists, the location information acquisition unit 117 acquires the location information associated with the entity.

一方、所在情報取得部117は、受信した検索クエリと合致するエンティティ名がナレッジグラフD1に存在しないと判定した場合、別名リストD4に登録されている別名の中に、受信した検索クエリと合致する別名が存在するか否かを判定する。所在情報取得部117は、受信した検索クエリと合致する別名が別名リストD4に存在すると判定した場合、該別名と関連付けられたエンティティに関連付けられている所在情報を取得する。このとき、検索クエリと、エンティティ名または別名とが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するエンティティ名または別名とみなしてよい。尚、別名がナレッジグラフD1に登録されている場合、所在情報取得部117は、ナレッジグラフD1に登録された別名に基づいて、受信した検索クエリと合致する別名が存在するか否かを判定してもよい。 On the other hand, when the location information acquisition unit 117 determines that the entity name matching the received search query does not exist in the knowledge graph D1, it matches the received search query among the aliases registered in the alias list D4. Determine if an alias exists. When the location information acquisition unit 117 determines that an alias matching the received search query exists in the alias list D4, the location information acquisition unit 117 acquires the location information associated with the entity associated with the alias. At this time, not only when the search query and the entity name or alias are exactly matched, but also when there is a partial match or a difference to the extent that they are considered to be semantically identical, it may be regarded as the corresponding entity name or alias. When the alias is registered in the knowledge graph D1, the location information acquisition unit 117 determines whether or not there is an alias that matches the received search query based on the alias registered in the knowledge graph D1. You may.

次に、所在情報取得部117は、取得した所在情報をウェブサーバ300に送信する。所在情報取得部117は、受信した検索クエリと合致するエンティティおよび別名が存在しないと判定した場合、所在情報が存在しない旨を示す情報をウェブサーバ300に送信する。 Next, the location information acquisition unit 117 transmits the acquired location information to the web server 300. When the location information acquisition unit 117 determines that the entity and alias matching the received search query do not exist, the location information acquisition unit 117 transmits information indicating that the location information does not exist to the web server 300.

図1に戻り、学習部118は、エンティティの名前と、別名と、素性情報との組を含む学習データを用いて機械学習を行うことで判定モデルD3を生成し、生成した判定モデルD3を記憶部120に記憶させる。学習部118は、例えば、ロジスティック回帰分析、決定木分析、サポートベクターマシン、再帰型ニューラルネットワーク、多層構造のニューラルネットワーク、または畳み込みニューラルネットワークを用いたディープラーニング技術等の任意の技術を採用してよい。 Returning to FIG. 1, the learning unit 118 generates the judgment model D3 by performing machine learning using the learning data including the set of the entity name, the alias, and the identity information, and stores the generated judgment model D3. It is stored in the unit 120. The learning unit 118 may employ any technique such as logistic regression analysis, decision tree analysis, support vector machine, recurrent neural network, multi-layered neural network, or deep learning technique using a convolutional neural network. ..

<1-4.学習動作>
図11は、本実施形態のナレッジデータサーバ100の学習動作の一例を示す流れ図である。ナレッジデータサーバ100は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により学習動作を行う。
<1-4. Learning behavior >
FIG. 11 is a flow chart showing an example of the learning operation of the knowledge data server 100 of the present embodiment. The knowledge data server 100 performs a learning operation by batch processing executed at an arbitrary timing such as daily or weekly.

まず、学習部118は、学習対象の学習データを生成する(S10)。例えば、学習部118は、ナレッジグラフD1に既に登録されている「エンティティ」と「別名」との組を抽出し、抽出した「エンティティ」と「別名」との組に対する「素性情報(例えば、素性1から4の少なくとも1つ)」を算出し、「エンティティ」、「別名」、及び「素性情報」の組を学習データとする。 First, the learning unit 118 generates learning data to be learned (S10). For example, the learning unit 118 extracts a pair of "entity" and "alias" already registered in the knowledge graph D1, and "feature information (for example, feature) for the extracted pair of" entity "and" alias ". At least one of 1 to 4) ”is calculated, and the set of“ entity ”,“ alias ”, and“ feature information ”is used as learning data.

また、学習部118は、百科事典ウェブページのリダイレクト情報に基づいて、学習データを生成してもよい。図12は、本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。図12には、「別名a」と関連付けられたウェブページP1から「野球選手A」と関連付けられたウェブページP2へのリダイレクト1と、「別名a」と関連付けられたウェブページP1から「野球チームB」と関連付けられたウェブページP3内の特定位置(「メンバ情報」の欄)へのリダイレクト2とが示されている。ウェブページ内の特定位置へのリダイレクトは、該ウェブページ内のリダイレクトを受ける場所にid属性及びname属性を指定したAタグを設置し、リダイレクト先を指定するURLの引数に上記において指定したname属性の名前を指定すること等により実現される。 In addition, the learning unit 118 may generate learning data based on the redirect information of the encyclopedia web page. FIG. 12 is a diagram illustrating an example of the redirect process of the encyclopedia web page in the present embodiment. In FIG. 12, the redirect 1 from the web page P1 associated with the “alias a” to the web page P2 associated with the “baseball player A” and the web page P1 associated with the “alias a” from the web page P1 to the “baseball team”. Redirect 2 to a specific location ("member information" column) in the web page P3 associated with "B" is shown. To redirect to a specific position in a web page, set an A tag that specifies the id attribute and name attribute at the location that receives the redirect in the web page, and set the name attribute specified above in the argument of the URL that specifies the redirect destination. It is realized by specifying the name of.

この場合、リダイレクト1は、「野球選手A」と関連付けられたウェブページP2のそのものへのリダイレクトであるため、リダイレクト元のウェブページP1と関連付けられた「別名a」は、リダイレクト先のウェブページP2と関連付けられた「野球選手A」の別名である可能性が高いと考えられる。一方、リダイレクト2は、「野球チームB」と関連付けられたウェブページP3のそのものではなく、ウェブページP3内の特定位置へのリダイレクトであるため、リダイレクト元のウェブページP1と関連付けられた「別名a」は、リダイレクト先のウェブページP2と関連付けられた「野球チームB」の別名である可能性が低いと考えられる。そこで、学習部118は、百科事典ウェブページに関するリダイレクト情報に基づいて得られるデータのうち、リダイレクト先がウェブページのそのものであるエンティティと別名との組については学習データとして採用する。一方、学習部118は、リダイレクト先がウェブページ内の特定位置であるエンティティと別名との組については学習データとして採用しない。尚、学習データは、ナレッジデータサーバのオペレータにより生成されてもよい。 In this case, since the redirect 1 is a redirect to the web page P2 itself associated with the "baseball player A", the "alias a" associated with the redirect source web page P1 is the redirect destination web page P2. It is highly probable that it is another name for "baseball player A" associated with. On the other hand, since the redirect 2 is not the web page P3 itself associated with the "baseball team B" but a redirect to a specific position in the web page P3, the "alias a" associated with the redirect source web page P1. Is unlikely to be another name for "baseball team B" associated with the redirected web page P2. Therefore, the learning unit 118 adopts the set of the entity whose redirect destination is the web page itself and the alias among the data obtained based on the redirect information about the encyclopedia web page as the learning data. On the other hand, the learning unit 118 does not adopt the pair of the entity whose redirect destination is a specific position in the web page and the alias as learning data. The learning data may be generated by the operator of the knowledge data server.

次に、学習部118は、生成した学習データを用いて機械学習を行い、エンティティと、該エンティティの別名と、該エンティティの素性情報との関係を学習した判定モデルD3を生成し(S12)、生成した判定モデルD3を記憶部120に記憶させる(S14)。以上により、本フローチャートの処理が終了する。 Next, the learning unit 118 performs machine learning using the generated learning data, and generates a determination model D3 that learns the relationship between the entity, the alias of the entity, and the identity information of the entity (S12). The generated determination model D3 is stored in the storage unit 120 (S14). This completes the processing of this flowchart.

<1-5.別名判定動作>
図13は、本実施形態のナレッジデータサーバ100の別名判定動作の一例を示す流れ図である。ナレッジデータサーバ100は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により別名判定動作を行う。
<1-5. Alias judgment operation>
FIG. 13 is a flow chart showing an example of the alias determination operation of the knowledge data server 100 of the present embodiment. The knowledge data server 100 performs an alias determination operation by, for example, a batch process executed at an arbitrary timing such as daily or weekly.

まず、別名候補抽出部113は、収集部112により収集された収集対象データに含まれるリダイレクト情報から、リダイレクト元のワードおよびリダイレクト先のワードを抽出し、リダイレクト元のワードを、リダイレクト先のワード(すなわち、エンティティの名前)の別名候補として抽出する(S20)。別名候補抽出部113は、抽出したエンティティと、別名候補との組を別名候補情報D2に記録する。 First, the alias candidate extraction unit 113 extracts the redirect source word and the redirect destination word from the redirect information included in the collection target data collected by the collection unit 112, and sets the redirect source word as the redirect destination word ( That is, it is extracted as an alias candidate of the entity name) (S20). The alias candidate extraction unit 113 records the set of the extracted entity and the alias candidate in the alias candidate information D2.

次に、素性抽出部114は、別名候補情報D2に含まれるエンティティと、別名候補との組の各々に対して、素性情報(例えば、素性1から4の少なくとも1つ)を抽出する(S22)。素性抽出部114は、抽出した素性情報を、別名候補情報D2に記録する。 Next, the feature extraction unit 114 extracts feature information (for example, at least one of features 1 to 4) for each of the set of the entity included in the alias candidate information D2 and the alias candidate (S22). .. The feature extraction unit 114 records the extracted feature information in the alias candidate information D2.

次に、判定部115は、別名候補情報D2と、判定モデルD3とに基づいて、別名候補の各々が、関連付けられるエンティティの別名であるか否かを判定する(S24)。判定部115は、判定結果を別名候補情報D2に記録する。 Next, the determination unit 115 determines whether or not each of the alias candidates is an alias of the associated entity based on the alias candidate information D2 and the determination model D3 (S24). The determination unit 115 records the determination result in the alias candidate information D2.

次に、別名リスト生成部116は、別名候補情報D2に含まれるデータのうち、判定結果が「1」である(すなわち、判定部115により別名候補が、関連付けされるエンティティの別名であると判定されたデータ)の「エンティティ」と「別名候補」との組を抽出して、別名リストD4を生成する(S26)。以上により、本フローチャートの処理が終了する。 Next, the alias list generation unit 116 determines that the determination result is "1" among the data included in the alias candidate information D2 (that is, the determination unit 115 determines that the alias candidate is an alias of the associated entity. The pair of the "entity" and the "alias candidate" of the generated data) is extracted to generate the alias list D4 (S26). This completes the processing of this flowchart.

<1-6.オンライン動作>
図14は、本実施形態のナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、所在情報取得部117は、ウェブサーバ300から検索クエリを受信する(S30)。
<1-6. Online operation>
FIG. 14 is a flow chart showing an example of online operation of the knowledge data server 100 of the present embodiment. First, the location information acquisition unit 117 receives a search query from the web server 300 (S30).

次に、所在情報取得部117は、ナレッジグラフD1に含まれるエンティティ名の中に、受信した検索クエリと合致するエンティティ名が存在するか否かを判定する(S32)。所在情報取得部117は、受信した検索クエリと合致するエンティティ名が存在すると判定した場合、該エンティティに関連付けられている所在情報を取得し、ウェブサーバ300に送信し(S34)、本フローチャートの処理を終了する。 Next, the location information acquisition unit 117 determines whether or not the entity name matching the received search query exists in the entity name included in the knowledge graph D1 (S32). When the location information acquisition unit 117 determines that an entity name matching the received search query exists, the location information acquisition unit 117 acquires the location information associated with the entity, transmits it to the web server 300 (S34), and processes this flowchart. To finish.

一方、所在情報取得部117は、受信した検索クエリと合致するエンティティ名がナレッジグラフD1に存在しないと判定した場合、別名リストD4に別名として登録されている別名の中に、受信した検索クエリと合致する別名が存在するか否かを判定する(S36)。所在情報取得部117は、受信した検索クエリと合致する別名が別名リストD4に存在すると判定した場合、該別名と関連付けられたエンティティに関連付けられている所在情報を取得し、ウェブサーバ300に送信する(S34)。以上により、本フローチャートの処理が終了する。 On the other hand, when the location information acquisition unit 117 determines that the entity name matching the received search query does not exist in the knowledge graph D1, the received search query is included in the alias registered as the alias in the alias list D4. It is determined whether or not a matching alias exists (S36). When the location information acquisition unit 117 determines that an alias matching the received search query exists in the alias list D4, the location information acquisition unit 117 acquires the location information associated with the entity associated with the alias and transmits it to the web server 300. (S34). This completes the processing of this flowchart.

一方、所在情報取得部117は、受信した検索クエリと合致する別名が存在しないと判定した場合、所在情報が存在しない旨を示す情報をウェブサーバ300に送信する(S38)。以上により、本フローチャートの処理が終了する。 On the other hand, when the location information acquisition unit 117 determines that the alias matching the received search query does not exist, the location information acquisition unit 117 transmits information indicating that the location information does not exist to the web server 300 (S38). This completes the processing of this flowchart.

以上、説明したように、本実施形態のナレッジデータサーバ100は、エンティティの別名の候補を生成する生成部(別名候補抽出部113)と、前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部(素性抽出部114)と、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部(判定部115)と、を備える。これによって、エンティティと関連付けられた別名情報を収集することができる。 As described above, the knowledge data server 100 of the present embodiment has a generation unit (alias candidate extraction unit 113) that generates a candidate for an alias of an entity, the entity, and a candidate for an alias generated by the generation unit. When the calculation unit (identity extraction unit 114) that calculates the first information indicating the degree of association with the first information and the first information are input, is the candidate for the alias associated with the first information an alias of the entity? Based on a learning model trained to output information indicating whether or not, a determination unit (determination unit 115) that determines whether or not the alias candidate generated by the generation unit is an alias of the entity. , Equipped with. This allows you to collect alias information associated with the entity.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.

100…ナレッジデータサーバ
110…制御部
111…通信I/F
112…収集部
113…別名候補抽出部
114…素性抽出部
115…判定部
116…別名リスト生成部
117…所在情報取得部
118…学習部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…別名候補情報
D3…判定モデル
D4…別名リスト
R1…リダイレクト情報
100 ... Knowledge data server 110 ... Control unit 111 ... Communication I / F
112 ... Collection unit 113 ... Alias candidate extraction unit 114 ... Identity extraction unit 115 ... Judgment unit 116 ... Alias list generation unit 117 ... Location information acquisition unit 118 ... Learning unit 120 ... Storage unit 200 ... Terminal device 210 ... Display unit 211 ... Query Input area 220 ... Knowledge panel 221 ... Entity 222 ... Image 223 ... Related information 230 ... Search result 300 ... Web server D1 ... Knowledge graph D2 ... Alias candidate information D3 ... Judgment model D4 ... Alias list R1 ... Redirect information

Claims (12)

エンティティの別名の候補を生成する生成部と、
前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、
前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、
を備え、
前記第1情報は、前記別名の候補を検索クエリとした場合に得られる検索結果ウェブページに含まれるリンクの利用状況に関する情報を含む、
情報処理装置。
A generator that generates candidate aliases for an entity,
A calculation unit that calculates the first information indicating the degree of association between the entity and the alias candidate generated by the generation unit.
When the first information is input, the generation unit is based on a learning model trained to output information indicating whether or not the candidate for the alias associated with the first information is an alias of the entity. A determination unit that determines whether or not the alias candidate generated by is an alias of the entity.
Equipped with
The first information includes information on the usage status of a link included in a search result web page obtained when the candidate of the alias is used as a search query.
Information processing equipment.
前記第1情報は、前記エンティティと関連付けられた百科事典ウェブページに前記エンティティの別名の候補が含まれるか否かを示す情報を含む、
請求項1に記載の情報処理装置。
The first information includes information indicating whether or not the encyclopedia web page associated with the entity contains potential aliases for the entity.
The information processing apparatus according to claim 1.
前記第1情報は、前記別名の候補の文字列が、前記エンティティの文字列の部分文字列であるか否かを示す情報を含む、
請求項1または2に記載の情報処理装置。
The first information includes information indicating whether or not the character string of the candidate for the alias is a substring of the character string of the entity.
The information processing apparatus according to claim 1 or 2 .
前記第1情報は、前記別名の候補の文字列と、前記エンティティの文字列との編集距離を示す情報を含む、
請求項1から3のいずれか一項に記載の情報処理装置。
The first information includes information indicating an edit distance between the character string of the candidate of the alias and the character string of the entity.
The information processing apparatus according to any one of claims 1 to 3 .
前記学習モデルを生成する学習部をさらに備える、
請求項1から4のいずれか一項に記載の情報処理装置。
A learning unit that generates the learning model is further provided.
The information processing apparatus according to any one of claims 1 to 4 .
エンティティの別名の候補を生成する生成部と、
前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、
前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、
前記学習モデルを生成する学習部と、
を備え、
前記学習部は、百科事典ウェブページのリダイレクト情報に基づいて得られる別名のうち、リダイレクト先がウェブページ内の特定位置であるリダイレクト情報に基づいて得られる別名は学習データとして採用しない、
情報処理装置
A generator that generates candidate aliases for an entity,
A calculation unit that calculates the first information indicating the degree of association between the entity and the alias candidate generated by the generation unit.
When the first information is input, the generation unit is based on a learning model trained to output information indicating whether or not the candidate for the alias associated with the first information is an alias of the entity. A determination unit that determines whether or not the alias candidate generated by is an alias of the entity.
The learning unit that generates the learning model and
Equipped with
Among the aliases obtained based on the redirect information of the encyclopedia web page, the learning department does not adopt the alias obtained based on the redirect information at a specific position in the web page as the learning data.
Information processing equipment .
エンティティの別名の候補を生成する生成部と、
前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、
前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、
を備え、
前記生成部は、百科事典ウェブページのリダイレクト情報に基づいて、第1エンティティの名前を示す第1ワードに関連付けられた第1ページへのリダイレクト元である、第2ページに関連付けられた第2ワードを、前記第1エンティティの別名の候補とする、
情報処理装置
A generator that generates candidate aliases for an entity,
A calculation unit that calculates the first information indicating the degree of association between the entity and the alias candidate generated by the generation unit.
When the first information is input, the generation unit is based on a learning model trained to output information indicating whether or not the candidate for the alias associated with the first information is an alias of the entity. A determination unit that determines whether or not the alias candidate generated by is an alias of the entity.
Equipped with
The generator is the second word associated with the second page, which is the redirect source to the first page associated with the first word indicating the name of the first entity, based on the redirect information of the encyclopedia web page. Is a candidate for another name of the first entity.
Information processing equipment .
エンティティの別名の候補を生成する生成部と、
前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、
前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、
を備え、
前記生成部は、百科事典ウェブページの第1エンティティの名前を示す第1ワードに関連付けられた第1ページに第2ページへの誘導情報が含まれる場合、前記第1ワードを、前記第2ページに関連付けられた第2ワードにより示される第2エンティティの別名の候補とする、
情報処理装置
A generator that generates candidate aliases for an entity,
A calculation unit that calculates the first information indicating the degree of association between the entity and the alias candidate generated by the generation unit.
When the first information is input, the generation unit is based on a learning model trained to output information indicating whether or not the candidate for the alias associated with the first information is an alias of the entity. A determination unit that determines whether or not the alias candidate generated by is an alias of the entity.
Equipped with
If the first page associated with the first word indicating the name of the first entity of the encyclopedia web page contains guidance information to the second page, the generator may use the first word as the second page. Candidate for a second entity alias as indicated by the second word associated with
Information processing equipment .
エンティティの別名の候補を生成する生成部と、
前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、
前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、
を備え、
前記生成部は、検索に利用された検索クエリと、検索結果ウェブページに含まれるリンクのうちクリックされたリンクのリンク先のページに関連付けられるエンティティの名前とが異なる場合、前記検索クエリを、前記エンティティの別名の候補とする、
情報処理装置
A generator that generates candidate aliases for an entity,
A calculation unit that calculates the first information indicating the degree of association between the entity and the alias candidate generated by the generation unit.
When the first information is input, the generation unit is based on a learning model trained to output information indicating whether or not the candidate for the alias associated with the first information is an alias of the entity. A determination unit that determines whether or not the alias candidate generated by is an alias of the entity.
Equipped with
If the search query used for the search and the name of the entity associated with the linked page of the clicked link among the links included in the search result web page are different, the generation unit may execute the search query. Candidates for entity aliases,
Information processing equipment .
エンティティの別名の候補を生成する生成部と、
前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、
前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、
を備え、
前記第1情報は、前記エンティティと関連付けられた百科事典ウェブページの要約情報に前記エンティティの別名の候補が含まれるか否かを示す情報を含む、
情報処理装置
A generator that generates candidate aliases for an entity,
A calculation unit that calculates the first information indicating the degree of association between the entity and the alias candidate generated by the generation unit.
When the first information is input, the generation unit is based on a learning model trained to output information indicating whether or not the candidate for the alias associated with the first information is an alias of the entity. A determination unit that determines whether or not the alias candidate generated by is an alias of the entity.
Equipped with
The first information includes information indicating whether or not the summary information of the encyclopedia web page associated with the entity includes candidates for aliases of the entity.
Information processing equipment .
コンピュータが、
エンティティの別名の候補を生成し、
前記エンティティと、生成された前記別名の候補との関連度合を示す第1情報を算出し、
前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、生成された前記別名の候補が前記エンティティの別名であるか否かを判定する、
情報処理方法であって、
前記第1情報は、前記別名の候補を検索クエリとした場合に得られる検索結果ウェブページに含まれるリンクの利用状況に関する情報を含む、
情報処理方法。
The computer
Generate candidate aliases for an entity
First information indicating the degree of association between the entity and the generated candidate for the alias is calculated.
When the first information is input, it is generated based on a learning model trained to output information indicating whether or not the candidate alias associated with the first information is an alias of an entity. Determining whether the candidate for the alias is an alias for the entity,
It is an information processing method
The first information includes information on the usage status of a link included in a search result web page obtained when the candidate of the alias is used as a search query.
Information processing method.
コンピュータに、
エンティティの別名の候補を生成させ、
前記エンティティと、生成された前記別名の候補との関連度合を示す第1情報を算出させ、
前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、生成された前記別名の候補が前記エンティティの別名であるか否かを判定させる、
プログラムであって、
前記第1情報は、前記別名の候補を検索クエリとした場合に得られる検索結果ウェブページに含まれるリンクの利用状況に関する情報を含む、
プログラム。
On the computer
Generate a candidate for an alias for an entity
First information indicating the degree of association between the entity and the generated candidate for the alias is calculated.
When the first information is input, it is generated based on a learning model trained to output information indicating whether or not the candidate alias associated with the first information is an alias of an entity. To determine whether the candidate for the alias is an alias for the entity.
It ’s a program,
The first information includes information on the usage status of a link included in a search result web page obtained when the candidate of the alias is used as a search query.
program.
JP2018173387A 2018-09-18 2018-09-18 Information processing equipment, information processing methods, and programs Active JP7003020B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018173387A JP7003020B2 (en) 2018-09-18 2018-09-18 Information processing equipment, information processing methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018173387A JP7003020B2 (en) 2018-09-18 2018-09-18 Information processing equipment, information processing methods, and programs

Publications (2)

Publication Number Publication Date
JP2020046805A JP2020046805A (en) 2020-03-26
JP7003020B2 true JP7003020B2 (en) 2022-01-20

Family

ID=69901336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018173387A Active JP7003020B2 (en) 2018-09-18 2018-09-18 Information processing equipment, information processing methods, and programs

Country Status (1)

Country Link
JP (1) JP7003020B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7450570B2 (en) * 2021-03-05 2024-03-15 Lineヤフー株式会社 Information processing device, information processing method, and information processing program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007200252A (en) 2006-01-30 2007-08-09 Ricoh Co Ltd Abbreviation generation / validity evaluation method, synonym database generation / update method, abbreviation generation / validity evaluation device, synonym database generation / update device, program, recording medium
JP2012516512A (en) 2009-01-30 2012-07-19 グーグル・インコーポレーテッド Identifying query aspects
JP2014052889A (en) 2012-09-07 2014-03-20 Yahoo Japan Corp Synonym estimation device, synonym estimation method, and synonym estimation program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6414956B2 (en) * 2014-08-21 2018-10-31 国立研究開発法人情報通信研究機構 Question generating device and computer program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007200252A (en) 2006-01-30 2007-08-09 Ricoh Co Ltd Abbreviation generation / validity evaluation method, synonym database generation / update method, abbreviation generation / validity evaluation device, synonym database generation / update device, program, recording medium
JP2012516512A (en) 2009-01-30 2012-07-19 グーグル・インコーポレーテッド Identifying query aspects
JP2014052889A (en) 2012-09-07 2014-03-20 Yahoo Japan Corp Synonym estimation device, synonym estimation method, and synonym estimation program

Also Published As

Publication number Publication date
JP2020046805A (en) 2020-03-26

Similar Documents

Publication Publication Date Title
EP3635540B1 (en) Intent-based organisation of apis
KR101793222B1 (en) Updating a search index used to facilitate application searches
KR101027848B1 (en) Query-Task Bulk Mapping System and Method Using Computer
US9785671B2 (en) Template-driven structured query generation
US20170091178A1 (en) System and method for locating bilingual web sites
KR20130060720A (en) Apparatus and method for interpreting service goal for goal-driven semantic service discovery
CN107103016A (en) Represent to make the method for image and content matching based on keyword
CN107690634B (en) Automatic query pattern generation method and system
JP2013516022A (en) Cluster and present search suggestions
US9594835B2 (en) Lightning search aggregate
US20150356456A1 (en) Real-Time or Frequent Ingestion by Running Pipeline in Order of Effectiveness
CN102760150A (en) Webpage extraction method based on attribute reproduction and labeled path
CN113254671A (en) Atlas optimization method, device, equipment and medium based on query analysis
CN110427519B (en) Video processing method and device
Jiang et al. Crowdsourced entity markup
JP7003020B2 (en) Information processing equipment, information processing methods, and programs
JP6982520B2 (en) Information processing equipment, information processing methods, and programs
US12013913B2 (en) Classifying parts of a markup language document, and applications thereof
Jung et al. Automatic tagging of functional-goals for goal-driven semantic service discovery
JP6971104B2 (en) Information processing equipment, information processing methods, and programs
JP7088693B2 (en) Information processing equipment, information processing methods, and programs
JP6971210B2 (en) Information processing equipment, information processing methods, and programs
JP7183077B2 (en) Information processing device, information processing method, and program
US10496698B2 (en) Method and system for determining image-based content styles
JP7354019B2 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211228

R150 Certificate of patent or registration of utility model

Ref document number: 7003020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250