JP2012242966A - Knowledge acquisition device, knowledge acquisition method, and program - Google Patents
Knowledge acquisition device, knowledge acquisition method, and program Download PDFInfo
- Publication number
- JP2012242966A JP2012242966A JP2011110739A JP2011110739A JP2012242966A JP 2012242966 A JP2012242966 A JP 2012242966A JP 2011110739 A JP2011110739 A JP 2011110739A JP 2011110739 A JP2011110739 A JP 2011110739A JP 2012242966 A JP2012242966 A JP 2012242966A
- Authority
- JP
- Japan
- Prior art keywords
- word pair
- morpheme
- word
- search
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】より迅速に結果を出力可能な知識獲得装置を提供すること。
【解決手段】特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段と、前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する評価手段と、を備える知識獲得装置。
【選択図】図3To provide a knowledge acquisition device capable of outputting results more quickly.
A first storage unit storing a word pair table having a pair of words having a specific relationship and a morpheme structure related to a sentence including the pair of words, and the first storage unit A search key is created by adding a specific event that limits the search target to the extracted word pair and morpheme structure, and the second storage means storing the search target document group is searched using the search key The number of occurrences of the search key is obtained, the number of occurrences obtained is associated with the word pair and the structure of the morpheme and stored in the word pair table, and the word pair table is referred to. The relevance between each pair of words and the specific event was evaluated based on the degree of matching between the trend of the number of appearances of each morpheme related to the pair and the number of appearances of each morpheme related to the pair of words. An evaluation means for outputting an evaluation value; Knowledge acquisition apparatus comprising.
[Selection] Figure 3
Description
本発明は、コンピュータを用いてデータ群から単語対等の知識を取得する技術に関し、特に、特定の事象と単語対との関係に関する知識を取得する知識獲得装置、知識取得方法、及びプログラムに関する。 The present invention relates to a technique for acquiring knowledge such as word pairs from a data group using a computer, and more particularly to a knowledge acquisition device, a knowledge acquisition method, and a program for acquiring knowledge about a relationship between a specific event and a word pair.
従来、インターネット等を利用して、アクセス可能なデータ群からキーワード(検索キー)を含むデータを検索することが広く行われている。検索の結果として取得されるデータは、主に電子文書である。 2. Description of the Related Art Conventionally, data including a keyword (search key) is searched from an accessible data group using the Internet or the like. Data acquired as a result of the search is mainly an electronic document.
このようなデータ検索を通じて獲得された知識は、辞書・辞典等の作成、及び電子的情報サービスの提供等に応用することができる。例えば、「*は**に効く」、「*は**に効果がある」等を検索キーとしてデータ群を検索すると、「病気」と「それに効果のある食品」のような単語の対が複数組取得されることが期待される。ここで、上記「*」や「**」は、内容を特定せずにデータ検索を行う部分を示す。 Knowledge acquired through such data search can be applied to the creation of dictionaries, dictionaries, etc., and the provision of electronic information services. For example, if you search a data group using “* is effective for **”, “* is effective for **”, etc. as a search key, a pair of words such as “disease” and “food that has an effect on it” will be found. It is expected that multiple sets will be acquired. Here, the above “*” and “**” indicate a portion where data search is performed without specifying the contents.
以下、このようにして得られる特定の関係を有する単語の対を、単語対と称する。上記の場合、「風邪」と「大根」、「風邪」と「生姜」、「頭痛」と「梅干し」などが単語対として取得され得る。また、上記「*は**に効く」の他にも、「場所」と「そこに適した掃除道具」、「季節」と「料理」、「食材」と「調味料」等、様々なものが単語対として考えられる。このような単語対を網羅的に収集することによって、有用な情報サービスを提供することが可能になると考えられる。 Hereinafter, a word pair having a specific relationship obtained in this manner is referred to as a word pair. In the above case, “cold” and “radish”, “cold” and “ginger”, “headache” and “plum pickled”, etc. can be acquired as word pairs. In addition to the above "* works for **", there are various things such as "place" and "cleaning tool suitable there", "season" and "cooking", "food ingredients" and "condiment" Are considered as word pairs. It is considered that useful information services can be provided by comprehensively collecting such word pairs.
一方、「*」や「**」以外の部分、すなわち「は」・「に効く」の部分、及び「は」・「に効果がある」の部分は、単語対を取得するための抽出規則といえる。以下、こうした抽出規則を、「文脈パターン」と称する。 On the other hand, parts other than “*” and “**”, that is, “Ha” and “Effective”, and “Ha” and “Effective” are extraction rules for obtaining word pairs. It can be said. Hereinafter, such an extraction rule is referred to as a “context pattern”.
単語対と文脈パターンは、大規模データからコンピュータが自動アルゴリズムで取得することができる(例えば、特許文献1、並びに非特許文献1参照)。
A word pair and a context pattern can be acquired from a large-scale data by an automatic algorithm by a computer (see, for example,
具体的には、まず、シードと称される既知の単語対をコンピュータに与える。コンピュータは、シードを含む文脈パターンを、大規模データから検索する。文脈パターンが得られると、得られた文脈パターンを含む文書を検索し、得られた文書から未知の単語対を取得する。これらを繰り返し行うことによって、単語対及び文脈パターンの数が増加していく。最終的には、複数の単語対と複数の文脈パターンが知識として獲得され、辞書・辞典等の用途に用いることが可能なデータベースが作成される。 Specifically, first, a known word pair called a seed is given to the computer. The computer searches the large-scale data for context patterns including seeds. When the context pattern is obtained, a document including the obtained context pattern is searched, and an unknown word pair is obtained from the obtained document. By repeating these steps, the number of word pairs and context patterns increases. Eventually, a plurality of word pairs and a plurality of context patterns are acquired as knowledge, and a database that can be used for applications such as a dictionary and a dictionary is created.
なお、「出現数が所定数以上である」等の条件を付与して、一般的でないと思われる知識(ノイズ、ゴミ)を除外する処理等が行われ得る。この際に、コンピュータの作業にユーザの各種設定入力等を挟むことにより、文脈パターンに重み付けを行うことも想定される。 It should be noted that a process of excluding knowledge (noise, dust) that seems to be uncommon may be performed by giving a condition such as “the number of appearances is a predetermined number or more”. At this time, it is also assumed that the context pattern is weighted by inserting various setting inputs of the user into the computer operation.
ところで、上記のように知識を獲得する際には、データ(電子文書)に関する特定の事象に限定してデータを収集したいというニーズが存在する。特定の事象の代表的なものは、地域・業界・分野等のカテゴリーである。以下、簡便のため、カテゴリーと表記する。 By the way, when acquiring knowledge as described above, there is a need to collect data limited to a specific event related to data (electronic document). Typical examples of specific events are categories such as region, industry, and field. Hereinafter, for the sake of simplicity, it is referred to as a category.
具体的には、前述の「病気」と「それに効果のある食品」のような単語対を取得する場合、(1)医療関連の権威ある文書から獲得された単語対のみを用いたい、(2)その反対に、草の根的な単語対を網羅的に集めたい等の要求が考えられる。また、ユーザの居住地等に起因し、(3)西日本だけで通説となっている単語対を集めたい、等の要求も考えられる。 Specifically, when acquiring word pairs such as the above-mentioned “disease” and “food effective for it”, (1) use only word pairs acquired from a medical-related authoritative document, (2 On the other hand, there may be a request to collect grass root word pairs comprehensively. Further, due to the user's residence, etc., there may be a request such as (3) collecting word pairs that are common in West Japan alone.
ところが、大規模データからコンピュータが自動アルゴリズムで単語対及び文脈パターンを取得する処理は、多くの繰り返し処理を含むため、カテゴリーが指定されてから処理を行うのでは、処理時間が長くなってしまう。この結果、ユーザに所望の結果を迅速に提供できない可能性が高くなる。 However, the process in which a computer acquires word pairs and context patterns from large-scale data using an automatic algorithm includes many repetitive processes. Therefore, if a process is performed after a category is specified, the processing time becomes long. As a result, there is a high possibility that the desired result cannot be quickly provided to the user.
一方、予め、カテゴリー毎に単語対や文脈パターンを取得してデータベースに格納しておくことも考えられるが、この場合、データ量が膨大となり、リソースに対する要求が高くなってしまう。また、ユーザにより指定され得る全てのカテゴリーを予測するのは現実的でない。 On the other hand, it is conceivable to acquire word pairs and context patterns for each category in advance and store them in a database. However, in this case, the amount of data becomes enormous and the demand for resources increases. In addition, it is not realistic to predict all categories that can be specified by the user.
本発明はこのような課題を解決するためのものであり、より迅速に結果を出力可能な知識獲得装置、知識取得方法、及びプログラムを提供することを、主たる目的とする。 The present invention is to solve such problems, and a main object of the present invention is to provide a knowledge acquisition device, a knowledge acquisition method, and a program that can output results more quickly.
上記目的を達成するための一態様は、
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段と、
前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する評価手段と、
を備える知識獲得装置である。
One aspect for achieving the above object is as follows:
A first storage means storing a word pair table having a pair of words having a specific relationship and a structure of a morpheme related to a sentence including the pair of words;
A second search key is created by adding a specific event limiting the search target to the word pair and morpheme structure extracted from the first storage means, and storing a search target document group using the search key. Retrieving the number of occurrences of the search key by searching the storage means, the appearance number information acquisition means for storing the obtained number of occurrences in the word pair table in association with the word pair and the morpheme structure;
With reference to the word pair table, based on the degree of coincidence between the number of occurrences of each morpheme structure related to each word pair and the number of appearances of each morpheme structure related to all word pairs, An evaluation means for outputting an evaluation value obtained by evaluating an association with the specific event;
It is a knowledge acquisition device provided with.
本発明によれば、より迅速に結果を出力可能な知識獲得装置等を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the knowledge acquisition apparatus etc. which can output a result more rapidly can be provided.
以下、本発明を実施するための形態について、添付図面を参照しながら実施例を挙げて説明する。 DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described with reference to the accompanying drawings.
以下、図面を参照し、本発明の一実施例に係る知識獲得装置1について説明する。
Hereinafter, a
[ハードウエア構成]
図1は、本発明の一実施例に係る知識獲得装置1を含む情報システムの全体像である。図示するように、知識獲得装置1は、例えば、一又は複数のクライアントコンピュータ100がネットワーク50を介して接続されたサーバ装置である。また、知識獲得装置1は、ネットワーク50を介して大規模文書200にアクセス可能となっている。なお、ネットワーク50は、インターネット、携帯電話やPHS(Personal Handy-phone System)の電波網、LAN(Local Area Network)等を含む。
[Hardware configuration]
FIG. 1 is an overall view of an information system including a
図2は、本実施例の知識獲得装置1のハードウエア構成例である。知識獲得装置1は、例えば、CPU(Central Processing Unit)10と、ドライブ装置12と、補助記憶装置16と、メモリ装置18と、インタフェース装置20と、入力装置22と、出力装置24と、を備える情報処理装置である。これらの構成要素は、バスやシリアル回線等を介して接続されている。
FIG. 2 is a hardware configuration example of the
CPU10は、例えば、プログラムカウンタや命令デコーダ、各種演算器、LSU(Load Store Unit)、汎用レジスタ等を有するプロセッサである。
The
ドライブ装置12は、記憶媒体14からプログラムやデータを読み込み可能な装置である。プログラムを記録した記録媒体14がドライブ装置12に装着されると、プログラムが記録媒体14からドライブ装置12を介して補助記憶装置16にインストールされる。記録媒体14は、例えば、CD−ROM、DVDディスク、USBメモリ等の可搬型の記録媒体である。また、補助記憶装置16は、例えば、HDD(Hard Disk Drive)やフラッシュメモリである。
The
プログラムのインストールは、上記のように記憶媒体14を用いる他、インタフェース装置20がネットワーク50を介して他のコンピュータよりダウンロードし、補助記憶装置16にインストールすることによって行うこともできる。また、情報処理装置の出荷時に、予め補助記憶装置16やROM(Read Only Memory)等に格納されていてもよい。
In addition to using the
このようにしてインストール又は予め格納されたプログラムをCPU10が実行することにより、図1に示す態様の情報処理装置が、本実施例の知識獲得装置1として機能することができる。
When the
メモリ装置18は、例えば、RAM(Random Access Memory)やEEPROM(Electrically Erasable and Programmable Read Only Memory)である。インタフェース装置20は、上記ネットワークとの接続等を制御する。
The
入力装置22は、例えば、キーボードやマウス、タッチパッド、タッチパネル、マイク等である。また、出力装置24は、例えば、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)等の表示装置、プリンタ、スピーカ等を含む。
The
インタフェース装置20は、ネットワーク50を介してクライアントコンピュータ100や大規模文書200にアクセスすることができる。
The
クライアントコンピュータ100は、サーバ側の知識獲得装置1と同様、CPU、ドライブ装置、補助記憶装置、メモリ装置、インタフェース装置、入力装置、出力装置等を有する。これらについての詳細な説明は省略する。
The
大規模文書200は、ネットワーク50を介してアクセス可能なあらゆる記憶装置に格納された電子文書である。
The large-
[機能構成]
図3は、本実施例の知識獲得装置1の機能構成例である。知識獲得装置1は、単語対獲得部30と、検索部32と、スコア算出部34と、を備える。これらの機能ブロックは、補助記憶装置16等に格納されたプログラム・ソフトウエアをCPU10が実行することにより機能する。
[Function configuration]
FIG. 3 is a functional configuration example of the
また、知識獲得装置1は、メモリ装置18や補助記憶装置16の所定領域に、単語対テーブル40と、出現数テーブル42と、スコア付単語対44と、を生成する。
In addition, the
図4は、本実施例の知識獲得装置1により実行される処理の全体像を模式的に示す図である。図示するように、知識獲得装置1は、大規模文書200とシード250に基づき単語対テーブル40を生成する。
FIG. 4 is a diagram schematically showing an overall image of processing executed by the
また、知識獲得装置1は、単語対テーブル40とクエリ260に基づきカテゴリー検索を行って出現数テーブル42を生成し、出現数テーブル42に基づいてスコア算出を行ってスコア付単語対44を出力する。ここで、「カテゴリー」とは、特許請求の範囲における「検索対象を限定する特定の事象」の一例である。
In addition, the
これらの処理のうち、単語対テーブル40の生成は、サービス提供の前処理(事前のバッチ処理)として行われ、出現数テーブル42の生成及びスコア算出は、ユーザによりサービス要求が行われた際に(適用先が決まった後に)実行されると好適である。以下、これらの処理について説明する。 Among these processes, the generation of the word pair table 40 is performed as a pre-process for service provision (preliminary batch process), and the generation of the appearance number table 42 and the score calculation are performed when a service request is made by the user. It is suitable to be executed (after the application destination is determined). Hereinafter, these processes will be described.
{単語対獲得}
単語対獲得部30は、所与のシードを元に、シードを含む文脈パターンを大規模文書200から検索する。
{Acquire word pairs}
The word
ここで、シードとは、特定の関係を有する単語の対(単語対)、又は単語対を含む文の中に現れる文脈パターンである。これらの双方がシードとして与えられてもよい。単語対の例として、「生姜は風邪に効く。」という文における「風邪」、「生姜」が挙げられ、この場合の文脈パターンは、「は」・「に効く」である。文脈パターンは、データ検索の対象とされる大規模文書200内の文に含まれる単語対以外の特徴的な文字列であり、大規模文書200から単語対を獲得するための抽出規則として理解することができる。また、後述するように、本実施例における文脈パターンは、特許請求の範囲における「単語の対を含む文に関する形態素の構造」の一例である。なお、本実施例では句点「。」を区切りとする「文」をデータ検索の対象とするが、複数の文が集まった「文章」をデータ検索の対象としてもよい。
Here, the seed is a context pattern that appears in a word pair (word pair) having a specific relationship or in a sentence including the word pair. Both of these may be given as seeds. Examples of word pairs include “cold” and “ginger” in the sentence “Ginger is effective for colds”, and the context pattern in this case is “Ha” and “Effective for”. The context pattern is a characteristic character string other than a word pair included in a sentence in the large-
シードは、例えば、オペレータがクライアントコンピュータ100に対して任意の単語対、又は文脈パターン(或いはこれらの双方)を入力することにより、ネットワーク50を介してCPU10に提供される。図5は、オペレータ110がクライアントコンピュータ100に対してシードを入力し、知識獲得装置1が単語対テーブル40を生成する様子を模式的に示す図である。
The seed is provided to the
単語対獲得部30は、シードが単語対である場合、まず、シードを含む文脈パターンを大規模文書200から検索する。文脈パターンが得られると、得られた文脈パターンを含む文書を大規模文書200から検索し、得られた文書から未知の単語対を取得する。これらを繰り返し行うことによって、単語対及び文脈パターンの数が増加していく。単語対獲得部30は、取得された単語対及び文脈パターンを、例えばこれらをラベルとする空のデータテーブルの形式で保持する。
When the seed is a word pair, the word
図6は、単語対獲得部30により生成される単語対テーブル40の一例である。図示するように、単語対テーブル40は、単語対と文脈パターンを行方向と列方向のラベルとし、単語対と文脈パターンの組み合わせに該当するデータ内容部分はブランクとなっている。このブランク部分に、後述する検索部32の検索結果として出力される出現数(ヒット件数)が格納されることにより、出現数テーブル42が生成される。
ここで、大規模文書200からのデータ検索は、大規模文書を所有している場合には既知の検索技術により行ない、大規模文書を所有していない場合にはGoogle(登録商標)に代表される既存の検索サービス業者により実施されている技術を利用して行う。このようなデータ検索の具体的内容に関しては、周知・慣用技術であるため詳細な説明は省略するが、一般的な文書検索で用いられるAND、OR、NOT等の検索条件を適切に設定することにより、単語対又は文脈パターンを含む文書を抽出することができる。
FIG. 6 is an example of the word pair table 40 generated by the word
Here, the data search from the large-
{検索}
検索部32は、単語対獲得部30により生成された単語対テーブル40を元に、オペレータやユーザにより入力されたクエリを反映したデータ検索を、大規模文書200に対して実行する。そして、その結果を出現数テーブル42として格納する。
{Search}
Based on the word pair table 40 generated by the word
図7は、オペレータ110又はユーザ120がクライアントコンピュータ100に対してクエリを入力し、知識獲得装置1が出現数テーブル42を生成する様子を模式的に示す図である。なお、本図におけるクライアントコンピュータ100は、図5とは異なるものであってよい。
FIG. 7 is a diagram schematically illustrating how the
オペレータ110又はユーザ120は、例えば、「『国立病院』OR『市立病院』」等のカテゴリー(特許請求の範囲における「特定の事象」の一例である)をクエリとして入力する。すると、検索部32は、「『国立病院』OR『市立病院』」というクエリを満たすデータ検索を、単語対テーブル40に格納された単語対と文脈パターンの全ての組み合わせについて行う。すなわち、単語対テーブル40に格納された複数の単語対と複数の文脈パターンから抽出された一の単語対及び一の文脈パターンに、クエリを加えたものを検索キーとして、大規模文書200から検索する処理を、全ての単語対と文脈パターンについて行う。
For example, the
そして、検索部32は、各単語対と文脈パターンの組み合わせについて、「『国立病院』OR『市立病院』」というクエリを満たす検索結果における出現数を取得し、単語対テーブル40のブランク部分に格納して出現数テーブル42とする。例えば、(「風邪」には「大根」が効く)AND(「国立病院」OR「市立病院」)について検索を行った際の出現数が21であれば、これを単語対テーブル40の「風邪」−「大根」と「AにはBが効く」に対応する場所(アドレス)に格納する。当該出現数テーブル42は、クエリ(「国立病院」OR「市立病院」)に対応する専用テーブルとして生成される。すなわち、検索部32は、入力されたクエリに対応する専用テーブルを生成する。図8は、検索部32により生成される出現数テーブル42の一例である。
Then, the
このようにして、検索部32は、入力されたクエリを満たし、且つ単語対獲得部30に予め格納されている単語対と文脈パターンの全ての組み合わせに該当する文書の出現数を取得し、出現数テーブル42を生成する。
In this way, the
{スコア算出}
スコア算出部34は、検索部32により生成された出現数テーブル42を参照し、各単語対とクエリの関連性を評価し、評価結果に基づく出力を行う。
{Score calculation}
The score calculation unit 34 refers to the appearance number table 42 generated by the
スコア算出部34の出力は、例えば、出現数テーブル42にスコアを付加したスコア付単語対44の形式でなされる。本実施例におけるスコアとは、(1)クエリとして入力されたカテゴリーとの関連性、及び(2)その単語対自身の出現数の多さ、すなわちその単語対が一般に浸透しているかどうか、を示す評価値である。
The output of the score calculation unit 34 is made, for example, in the form of a scored
図9は、知識獲得装置1がスコア付単語対44を生成する様子を模式的に示す図である。また、図10は、スコア算出部34により出力されるスコア付単語対44の一例である。図示するように、スコア算出部34は、出現数テーブル42に格納された各単語対について、スコアを付加して出力する。
FIG. 9 is a diagram schematically illustrating how the
スコアの算出は、例えば次式(1)により行うことができる。式中、Scoreiはi番目の単語対のスコアを表し、f(w,p)は単語対wと文脈パターンpの同時出現数を示し、Nは全ての単語対と文脈パターンの組み合わせの出現数を示す。また、添字jは文脈パターンの識別パラメータであり、添え字kは単語対の識別パラメータである。 The score can be calculated by, for example, the following formula (1). In the formula, Score i represents the score of the i-th word pair, f (w, p) represents the number of simultaneous occurrences of word pair w and context pattern p, and N represents the occurrence of all word pairs and context pattern combinations. Indicates a number. The subscript j is a context pattern identification parameter, and the subscript k is a word pair identification parameter.
上式(1)は、単語対全体に関しての文脈パターン毎の出現数(図10における「合計」行の各数値)を算出し、これを総出現数で除した値を荷重係数として、単語対の文脈パターン毎の出現数に乗じて合計したものである。従って、本実施例におけるスコアは、各単語対に関する文脈パターン毎の出現数傾向と、全単語対に関する文脈パターン毎の出現数傾向との合致程度に基づいて、各単語対とクエリとの関連性を適切に評価した評価値となる。図10に即して説明すると、例えば、単語対(「風邪」−「大根」)のスコアは、Nが1047であるため、次式(2)のようになる。 The above equation (1) calculates the number of occurrences for each context pattern (the numerical values in the “total” line in FIG. 10) for the entire word pair, and the value obtained by dividing this by the total number of occurrences is used as a weighting factor. Multiply by the number of occurrences for each context pattern. Therefore, the score in the present embodiment is based on the degree of matching between the appearance number tendency for each context pattern for each word pair and the appearance number tendency for each context pattern for all word pairs, and the relationship between each word pair and the query. It becomes an evaluation value that is evaluated appropriately. Referring to FIG. 10, for example, the score of the word pair (“cold” − “radish”) is expressed by the following equation (2) because N is 1047.
Score(「風邪」−「大根」)=21×(201/1047)+8×(155/1047)+36×(83/1047)+…=0.21 …(2)。 Score (“cold” − “radish”) = 21 × (201/1047) + 8 × (155/1047) + 36 × (83/1047) +... = 0.21 (2).
これによって、単に出現数の多い単語対が好スコアを獲得するのではなく、当該クエリを満たす全ての単語対に対応する文脈パターンの出現傾向に近い傾向を示す単語対が、高スコアを獲得することとなる。例えば、「病院関係」というカテゴリーでは、文脈パターン1はよく用いられるが、文脈パターン3は余り用いられないといった傾向が存在する場合、このような傾向に近い傾向を示す単語対に対して、高スコアを付与する。これによって、カテゴリーによく適合した単語対に高スコアを付与することができ、「カテゴリーに合致した単語対の知識を得たい」というユーザの要求に応えることができる。なお、スコアの算出は、例えば単語対の総数を乗じる等して何らかの正規化処理を行ってもよい。
As a result, a pair of words having a high number of appearances does not obtain a good score, but a word pair showing a tendency close to the appearance tendency of context patterns corresponding to all word pairs satisfying the query obtains a high score. It will be. For example, in the category of “hospital relations”, when there is a tendency that the
以上のようにスコア付単語対44を生成すると、これをそのままユーザに出力してもよいし、スコア順にランキング(並べ替え)したものを出力してもよい。また、ランキング上位のものに限定してユーザに提供してもよい。このように、スコア算出の結果に基づく出力は、種々のものが考えられる。
When the scored
また、上記のように、単語対テーブル40の生成は、サービス提供の前処理として行われ、出現数テーブル42の生成及びスコア算出は、ユーザによりサービス要求が行われた際に実行されると好適である。図11は、従来の装置によって実行され得る処理と、本実施例の知識獲得装置1により実行される処理とを対比するための模式図である。
Moreover, as described above, the generation of the word pair table 40 is performed as a pre-process for providing the service, and the generation of the appearance number table 42 and the score calculation are preferably performed when a service request is made by the user. It is. FIG. 11 is a schematic diagram for comparing a process that can be executed by a conventional apparatus with a process that is executed by the
図中、上段は、従来の装置によって実行される処理を模式的に示している。図示するように、従来の装置においてカテゴリー毎に単語対を獲得しようとすると、カテゴリー毎に単語対獲得部30と同等の処理を行う必要があった。ところが、単語対獲得部30の処理は、シードから単語対や文脈パターンを繰り返し取得するものであり、所要時間が比較的長いものである。この結果、ユーザやオペレータがカテゴリーを入力してから単語対を取得するまでの処理時間が長くなってしまう。
In the figure, the upper part schematically shows processing executed by a conventional apparatus. As shown in the figure, in order to acquire word pairs for each category in the conventional apparatus, it is necessary to perform the same processing as the word
これに対し、図11の後段で処理の概要が表される本実施例の知識獲得装置1では、事前のバッチ処理として単語対テーブル40が生成され、適用先が決まった後には出現数テーブル42の生成及びスコア算出のみが行われる。出現数テーブル42の生成は、クエリを反映した検索キーを設定して大規模文書200を検索する処理であり、比較的短時間で終了する。また、スコア算出についても、単純な演算処理であるため、処理時間は短いものとなる。この結果、ユーザがクエリを入力してから単語対を取得するまでの処理時間を短くすることができる。すなわち、より迅速に結果を出力することができる。
On the other hand, in the
[処理フロー]
以下、知識獲得装置1が有する各機能ブロックの処理について、フローチャートに即して具体的に説明する。なお、全体フローについては、図4を参照することとし、図示を省略する。
[Processing flow]
Hereinafter, processing of each functional block included in the
図12は、単語対獲得部30により実行される特徴的な処理の流れを示すフローチャートである。
FIG. 12 is a flowchart showing a flow of characteristic processing executed by the word
まず、単語対獲得部30は、入力されたシード250を単語対リストに追加する(S300)。単語対リスト40A、及び後述する文脈パターンリスト40Bは、単語対テーブル40の行方向及び列方向のラベルとなるものであり、メモリ装置18や補助記憶装置16の所定領域に設定される。
First, the word
次に、単語対獲得部30は、単語対リスト40Aに格納された単語対で大規模文書200を検索し、文脈パターンを抽出して文脈パターンリスト40Bに追加する(S302;詳細は図12に記載)。
Next, the word
次に、単語対獲得部30は、新たな文脈パターンが一つでも抽出できたかどうかを判定する(S304)。新たな文脈パターンが全く抽出できなかった場合は、本フローを終了する。
Next, the word
一方、新たな文脈パターンが一つでも抽出できた場合には、文脈パターンリストに格納された文脈パターンで大規模文書200を検索し、単語対を抽出して単語対リスト40Aに追加する(S306)。
On the other hand, if even one new context pattern can be extracted, the large-
次に、単語対獲得部30は、新たな単語対が一つでも抽出できたかどうかを判定する(S308)。新たな単語対が全く抽出できなかった場合は、本フローを終了する。
Next, the word
一方、新たな単語対が一つでも抽出できた場合には、S302に戻る。こうして、単語対と文脈パターンが繰り返し抽出され、単語対リスト40Aや文脈パターンリスト40Bに追加される。
On the other hand, if even one new word pair can be extracted, the process returns to S302. In this way, word pairs and context patterns are repeatedly extracted and added to the
単語対獲得部30は、本フローが終了すると、単語対リスト40Aや文脈パターンリスト40Bの内容に基づき単語対テーブル40を生成し、メモリ装置18や補助記憶装置16の所定領域に格納する。
When this flow ends, the word
図13は、単語対獲得部30により実行される文脈パターン抽出処理の流れを示すフローチャートである。本フローは、図12のS302に相当する。
FIG. 13 is a flowchart showing a flow of context pattern extraction processing executed by the word
まず、単語対獲得部30は、単語対リスト40Aの最上段から順に単語対を一つ取り出す(S400)。
First, the word
次に、単語対獲得部30は、単語対リスト40Aの最後まで検索を終了したか否か、すなわち、S400において新たな単語対を取り出すことができたかどうかを判定する(S402)。単語対リスト40Aの最後まで検索を終了した場合は、本フローを終了する。
Next, the word
一方、単語対リスト40Aの最後まで検索を終了していない場合は、取り出した単語対を検索キーとして大規模文書を検索する(S404)。検索結果は、メモリ装置18や補助記憶装置16に一時的に格納される。
On the other hand, if the search has not been completed up to the end of the
次に、単語対獲得部30は、S404の検索結果を一つ取り出す(S406)。そして、最後まで検索結果を取り出したか否か、すなわち、S406において、新たな検索結果を取り出すことができたかどうかを判定する(S408)。新たな検索結果を取り出すことができなかった場合は、S400に戻る。
Next, the word
一方、新たな検索結果を取り出すことができた場合は、検索結果に含まれる単語対が所定の構文パターンを形成しているか否かを解析し、これを判定する(S410)。 On the other hand, if a new search result can be extracted, it is determined whether or not the word pairs included in the search result form a predetermined syntax pattern (S410).
図14は、S410の解析において用いられる形態素の構造を模式的に示す図である。ある単語対(「風邪」−「大根」)を検索キーとした文書検索の結果は、例えば「風邪にはやっぱり大根が一番効くよ」のような、単語対や文脈パターン以外の語を含む文であることが想定される。 FIG. 14 is a diagram schematically showing a morpheme structure used in the analysis of S410. The result of document search using a certain word pair ("cold"-"radish") as a search key includes words other than word pairs and context patterns, such as "The radish is most effective for colds". It is assumed to be a sentence.
単語対獲得部30は、まず、日本語の文を形態素と呼ばれる最小の単位に分割する形態素解析という処理を行なう。形態素の単位では、例えば「お茶」という語は、「お(接頭語)」と「茶(名詞)」の二つにカウントされる。そして、「風邪にはやっぱり大根が一番効くよ」という文を形態素解析すると、「風邪/に/は/やっぱり/大根/が/一番/効く/よ」のように分割される。
First, the word
次に、単語対獲得部30は、係り受け解析を行なう。係り受け解析では、まず形態素列を文節という単位にまとめ上げる。上記の文は、「(風邪/に/は),(やっぱり),(大根/が),(一番),(効く/よ)」のように文節にまとめ上げられる。そして、文節の間の係り関係を定義する。日本語における係り関係は、(1)係り先は一つ、(2)前から後ろに向かって係るという原則に基づいて解析される。上記の形態素解析と係り受け解析は、既存の技術が周知となっており、それぞれ、99%、91%程度の精度で自動的に処理される。
Next, the word
上記の文の係り関係は、以下のようになる。
(風邪/に/は)→(効く/よ)
(やっぱり) →(効く/よ)
(大根/が) →(効く/よ)
(一番) →(効く/よ)
(効く/よ) →<文末>
The relationship between the above sentences is as follows.
(Cold / ni / ha) → (works / yo)
(After all) → (Effective / Yo)
(Daikon / ga) → (Effective / yo)
(First) → (works / yo)
(Effective / Yo) → <End of sentence>
このような係り関係を木構造で表わし、且つ「文節内の形態素はそれぞれ直後の形態素に係る」という経験則を用いると,図14で例示する構造が取得される。 When such a relation is represented by a tree structure and an empirical rule that “the morpheme in the phrase is related to the morpheme immediately after” is used, the structure illustrated in FIG. 14 is acquired.
更に、形態素解の木構造から「へ」の字の部分を抽出する方法について図14の例に即して説明する。まず、「風邪」と「大根」が単語対として与えられていることを前提とする。そして、この二つの単語対(形態素)の双方を含む最小限の部分構造を抽出する。図14の例では、網掛けされた「へ」の字の部分が、この最小限の部分構造に相当する。 Further, a method for extracting the character portion of “he” from the tree structure of the morpheme solution will be described with reference to the example of FIG. First, it is assumed that “cold” and “radish” are given as word pairs. Then, a minimum partial structure including both of these two word pairs (morphemes) is extracted. In the example of FIG. 14, the shaded “he” portion corresponds to this minimum partial structure.
このように最小限の部分構造が得られると、単語対獲得部30は、単語対が、ある所定の距離内に在る場合に、所定の構文パターンを形成していると判定する。所定の構文パターンを形成していると判定した場合、得られた最小限の部分構造から単語対を除いた部分が、文脈パターンとして認識される。
When the minimum partial structure is obtained in this way, the word
ここで、「所定の距離」とは、例えば、図14で示す形態素の木構造における、形態素を接続するリンクの数をいう。下記の矢印の数(5)が、これに相当する。
(風邪)→(に)→(は)→(効く)
(大根)→(が)→(効く)
Here, the “predetermined distance” refers to, for example, the number of links connecting morphemes in the morpheme tree structure shown in FIG. The number of arrows (5) below corresponds to this.
(Cold) → (To) → (Ha) → (Effective)
(Radish) → (ga) → (works)
このように距離を限定することによって、比較的長い文に含まれる単語対から有意でない文脈パターンが抽出されるのを抑制することができる。この距離を限定しなかった場合、或いは距離を30程度まで許容した場合、「風邪になった妻に頼まれて買い物に来たがリストに入っていた納豆が無い。」のような文から、「風邪」と「納豆」を抽出し、この文から有意でない文脈パターンを抽出してしまう可能性があるからである。距離の閾値を決定するのに特段の規則は無く、得られた知識における誤りの多少に応じて経験的に定めて良い。 By limiting the distance in this way, it is possible to suppress extraction of insignificant context patterns from word pairs included in relatively long sentences. When this distance is not limited, or when the distance is allowed up to about 30, from a sentence such as "There is no natto on the list that came to the shopping at the request of a wife who had a cold." This is because “cold” and “natto” are extracted, and insignificant context patterns may be extracted from this sentence. There is no special rule for determining the distance threshold, and it may be determined empirically depending on the number of errors in the knowledge obtained.
なお、形態素解の木構造は、図14で示すような「へ」の字であるとは限らず、多様な形態を取り得る。例えば、「風邪に効く大根を買った。」という文についての形態素解析の結果は「風邪/に/効く/大根/を/買っ/た」のようになる。 Note that the tree structure of the morphological solution is not necessarily a “he” as shown in FIG. 14, and can take various forms. For example, the result of the morphological analysis for the sentence “I bought a radish that works for a cold” would be “cold / effective / effective / radish / obtained / buy / taken”.
また、係り受け解析の結果は以下のようになる。
(風邪/に)→(効く)
(効く)→(大根/を)
(大根/を)→(買っ/た)
The result of dependency analysis is as follows.
(Cold /) → (Effective)
(Effective) → (Daikon /)
(Daikon /) → (Buy / Ta)
この場合、形態素の木構造は以下のように「ヘ」の字ではなく一直線になり、抽出されるパターンも一直線になる。
(風邪/に)→(効く)→(大根/を)→(買っ/た)
(風邪→に)→(効く)→(大根→を)→(買っ→た)
In this case, the tree structure of the morpheme is not a “f” character but is a straight line as follows, and the extracted pattern is also a straight line.
(Cold / ni) → (Effective) → (Daikon //) → (Bought / taken)
(Cold →) → (Effective) → (Daikon → →) → (Buy →)
フローの説明に戻る。単語対が所定の構文パターンを形成している場合は、抽出された文脈パターンを文脈パターンリスト40Bに追加する(S412)。単語対が所定の構文パターンを形成していない場合は、S406に戻る。
Return to the description of the flow. If the word pair forms a predetermined syntax pattern, the extracted context pattern is added to the
図15は、検索部32により実行される特徴的な処理の流れを示すフローチャートである。
FIG. 15 is a flowchart showing a flow of characteristic processing executed by the
まず、検索部32は、単語対テーブル40の最上段から順にから単語対を一つ取り出す(S500)。
First, the
次に、検索部32は、単語対に関して単語対テーブル40の最後まで処理を行ったか否か、すなわち、S500において新たな単語対を取り出すことができたかどうかを判定する(S502)。単語対テーブル40の最後まで処理を行った場合は、本フローを終了する。
Next, the
一方、単語対テーブル40の最後まで処理を行っていない場合は、単語対テーブル40最左列から順に文脈パターンを一つ取り出す(S504)。 On the other hand, if the processing is not performed to the end of the word pair table 40, one context pattern is extracted in order from the leftmost column of the word pair table 40 (S504).
次に、検索部32は、文脈パターンに関して単語対テーブル40の最後まで処理を行ったか否か、すなわち、S504において新たな文脈パターンを取り出すことができたかどうかを判定する(S506)。単語対テーブル40の最後まで処理を行った場合は、S500に戻る。
Next, the
一方、単語対テーブル40の最後まで処理を行っていない場合は、S500及びS504において取り出された単語対及び文脈パターンと、入力されたクエリとを結合して検索キーを作成し(S508)、大規模文書200を検索する(S510)。検索キーは、例えば、文脈パターン(例えば「AはBに効く」)のA及びBの箇所に単語対を埋め込んだ文と、入力されたクエリをAND条件で結合して作成される。
On the other hand, if the processing is not performed to the end of the word pair table 40, the word pair and context pattern extracted in S500 and S504 and the input query are combined to create a search key (S508). The
そして、出現数(ヒット件数)を取得し、出現数テーブル42における、S500及びS504で取り出された単語対及び文脈パターンに該当する箇所に格納し(S512)、S504に戻る。 Then, the number of appearances (number of hits) is acquired, stored in the location corresponding to the word pair and context pattern extracted in S500 and S504 in the appearance number table 42 (S512), and the process returns to S504.
なお、図15のフローは、全てが自動的に進行するのではなく、検索実行毎にユーザに検索結果を出力し、確認操作を行わせるものであってもよい。 Note that the flow of FIG. 15 does not automatically proceed, but may output a search result to the user and perform a confirmation operation for each search execution.
ここで、図15のフローでは、形態素の木構造を扱わずに文字列を用いた検索を行うため、検索キーの設定方法や検索の仕様次第では、「風邪にはやっぱり大根が効く」のように「やっぱり」等が入っていると出現数がカウントされない可能性がある。しかしながら、(1)係る検索は大規模な文書から行なわれるため、「やっぱり」などが入っていない表現も多く存在することが期待される、(2)検索の処理では正確な出現数が必要になるのではなく、特定のカテゴリーにおける傾向が分かればよい、(3)「やっぱり」などの文字列が間に含まれる割合がパターン毎に一定だと仮定すると、傾向を知るときには、「やっぱり」などの表現による検索数の低下は無視できる等の理由から、大きな問題とはならない。むしろ、詳細な検索を行わないため、処理を単純化することができ、高速な処理を実現することができる。 Here, in the flow of FIG. 15, a search using a character string is performed without handling the morpheme tree structure. Therefore, depending on the search key setting method and the search specification, “a radish is still effective for colds” If there is "After all" etc., the number of appearances may not be counted. However, since (1) such a search is performed from a large-scale document, it is expected that there will be many expressions that do not contain “After all”, etc. (2) In the search processing, an accurate number of appearances is required. It is only necessary to know the tendency in a specific category. (3) Assuming that the ratio of character strings such as "Yappari" is constant for each pattern, "Yappari" etc. The decline in the number of searches due to the expression is not a big problem because it can be ignored. Rather, since detailed search is not performed, processing can be simplified and high-speed processing can be realized.
図16は、スコア算出部34により実行される特徴的な処理の流れを示すフローチャートである。 FIG. 16 is a flowchart showing a flow of characteristic processing executed by the score calculation unit 34.
まず、スコア算出部34は、出現数テーブル40を参照し、各文脈パターンの出現数、及び総出現数Nを算出する(S600)。 First, the score calculation unit 34 refers to the appearance number table 40 and calculates the number of appearances of each context pattern and the total number of appearances N (S600).
次に、スコア算出部34は、単語対テーブル40の最上段から順に単語対を一つ取り出す(S602)。 Next, the score calculation unit 34 extracts one word pair in order from the top row of the word pair table 40 (S602).
次に、スコア算出部34は、単語対に関して単語対テーブル40の最後まで処理を行ったか否か、すなわち、S602において新たな単語対を取り出すことができたかどうかを判定する(S604)。単語対テーブル40の最後まで処理を行った場合は、本フローを終了する。 Next, the score calculation unit 34 determines whether or not the word pair has been processed to the end of the word pair table 40, that is, whether or not a new word pair has been extracted in S602 (S604). When the process is completed up to the end of the word pair table 40, this flow is finished.
一方、単語対テーブル40の最後まで処理を行っていない場合は、単語対テーブル40の最左列から順に文脈パターンを一つ取り出す(S606)。 On the other hand, when the processing is not performed to the end of the word pair table 40, one context pattern is extracted in order from the leftmost column of the word pair table 40 (S606).
次に、スコア算出部34は、文脈パターンに関して単語対テーブル40の最後まで処理を行ったか否か、すなわち、S606において新たな文脈パターンを取り出すことができたかどうかを判定する(S608)。単語対テーブル40の最後まで処理を行った場合は、S602に戻る。 Next, the score calculation unit 34 determines whether or not processing has been performed up to the end of the word pair table 40 regarding the context pattern, that is, whether or not a new context pattern has been extracted in S606 (S608). When the process is completed up to the end of the word pair table 40, the process returns to S602.
一方、単語対テーブル40の最後まで処理を行っていない場合は、該当する単語対及び文脈パターンの組み合わせの出現数(例えば図中(2))に、該当する文脈パターンの総出現数(図中(3))を総出現数N(図中(4))で除した値を乗じた値を算出する。そして、この値を、該当する単語対のスコア(図中(1))に累積加算する(S610)。 On the other hand, when the processing is not performed up to the end of the word pair table 40, the total number of occurrences of the corresponding context pattern (in the figure (for example, (2) in the figure)) A value obtained by multiplying the value obtained by dividing (3)) by the total number of appearances N ((4) in the figure) is calculated. Then, this value is cumulatively added to the score of the corresponding word pair ((1) in the figure) (S610).
係る処理によって、上式(1)で表したスコアが、各単語対について算出されることになる。 By such processing, the score expressed by the above formula (1) is calculated for each word pair.
「まとめ」
以上説明した本実施例の知識獲得装置1によれば、適用先が決まった後に出現数テーブル42の生成及びスコア算出のみを行うことができるため、クエリが入力されてから単語対を取得するまでの処理時間を短くすることができる。従って、各単語対とクエリとの関連性を適切に評価した評価値を、より迅速に出力することができる。
"Summary"
According to the
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 The best mode for carrying out the present invention has been described above with reference to the embodiments. However, the present invention is not limited to these embodiments, and various modifications can be made without departing from the scope of the present invention. And substitutions can be added.
例えば、単語対テーブル40に相当するデータは、外部から入力され、或いは予め補助記憶装置16等に格納されているものとしてもよい。この場合、単語対獲得部30を省略することができる。
For example, data corresponding to the word pair table 40 may be input from the outside or stored in advance in the
また、スコア算出部34は、上記のように、単語対とクエリの関連性を評価した結果に基づく出力を行うものとしたが、反対に、文脈パターンとクエリの関連性を評価した結果に基づく出力を行うものとしてもよい。この場合、スコア算出部34は、一の文脈パターンについての単語対毎の出現数比率と、全文脈パターンについての単語対毎の出現数比率と、の合致程度に基づいて、文脈パターンとカテゴリーの関連性を評価する。こうした出力は、利用者がエンドユーザ以外の場合に、好適に利用され得る。この場合、スコアの算出は、上式(1)における単語対と文脈パターンをそっくり入れ替えることにより行われる。こうすれば、文脈パターンとクエリとの関連性を適切に評価した評価値を、より迅速に出力することができる。 Further, as described above, the score calculation unit 34 performs the output based on the result of evaluating the relationship between the word pair and the query, but on the contrary, based on the result of evaluating the relationship between the context pattern and the query. Output may be performed. In this case, the score calculation unit 34 determines whether the context pattern and the category are based on the matching degree between the appearance ratio for each word pair for one context pattern and the appearance ratio for each word pair for all context patterns. Assess relevance. Such output can be suitably used when the user is not an end user. In this case, the score is calculated by completely replacing the word pair and the context pattern in the above formula (1). In this way, an evaluation value that appropriately evaluates the relationship between the context pattern and the query can be output more quickly.
また、ユーザが入力するクエリの内容の代表例として「カテゴリー」を挙げたが、クエリは検索対象を限定するものであればよく、一般的に「カテゴリー」という概念に含まれないクエリの入力を受け付けても構わない。例えば、「何年何月何日以降の文書」のような時期的な制限等が考えられる。 In addition, “category” is given as a representative example of the contents of the query entered by the user. However, the query is not limited to the concept of “category” in general as long as it limits the search target. You can accept it. For example, there may be a time limit such as “documents from what day, what month, what day”.
以上の説明に関し、さらに以下の項を開示する。
(付記1)
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段と、
前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する評価手段と、
を備える知識獲得装置。
(付記2)
付記1に記載の知識獲得装置であって、
前記評価手段は、各単語の対に関する形態素の構造毎の出現数に、全単語対に関する形態素の構造毎の出現数をそれぞれ乗じて合計し、総出現数で除した値を評価値として出力する手段である、
知識獲得装置。
(付記3)
付記1又は2に記載の知識獲得装置であって、
所与の単語の対又は形態素の構造を検索キーとして第2の記憶手段を検索し、得られた検索結果を検索キーに追加して更にデータ検索を行うことを繰り返すことにより、得られた複数の単語の対及び複数の形態素の構造を前記記憶手段に格納するデータ収集手段を更に備える、
知識獲得装置。
(付記4)
付記1ないし3のいずれか1項に記載の知識獲得装置であって、
前記単語の対を含む文に関する形態素の構造は、前記データ検索の対象文を係り受け解析をして得た最小限の部分構造となる形態素の構造から、前記単語対の形態素を除いた形態素の構造である、
知識獲得装置。
(付記5)
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段と、
前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、
前記単語対テーブルを参照し、各形態素の構造に関する単語の対毎の出現数傾向と、全形態素の構造に関する単語の対毎の出現数傾向との合致程度に基づいて、前記各形態素の構造と前記特定の事象との関連性を評価した評価値を出力する評価手段と、
を備える知識獲得装置。
(付記6)
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する処理と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する処理と、
をコンピュータが実行する知識獲得方法。
(付記7)
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する処理と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する処理と、
をコンピュータに実行させるプログラム。
Regarding the above description, the following items are further disclosed.
(Appendix 1)
A first storage means storing a word pair table having a pair of words having a specific relationship and a structure of a morpheme related to a sentence including the pair of words;
A second search key is created by adding a specific event limiting the search target to the word pair and morpheme structure extracted from the first storage means, and storing a search target document group using the search key. Retrieving the number of occurrences of the search key by searching the storage means, the appearance number information acquisition means for storing the obtained number of occurrences in the word pair table in association with the word pair and the morpheme structure;
With reference to the word pair table, based on the degree of coincidence between the number of occurrences of each morpheme structure related to each word pair and the number of appearances of each morpheme structure related to all word pairs, An evaluation means for outputting an evaluation value obtained by evaluating an association with the specific event;
A knowledge acquisition device comprising:
(Appendix 2)
The knowledge acquisition device according to
The evaluation means multiplies the number of appearances of each morpheme related to each word pair by the number of appearances of each morpheme related to all word pairs, and outputs the value divided by the total number of appearances as an evaluation value. Means,
Knowledge acquisition device.
(Appendix 3)
The knowledge acquisition device according to
Searching the second storage means using a given word pair or morpheme structure as a search key, adding the obtained search result to the search key and repeating the data search to obtain a plurality of Data collection means for storing the word pairs and the structure of a plurality of morphemes in the storage means,
Knowledge acquisition device.
(Appendix 4)
The knowledge acquisition device according to any one of
The morpheme structure related to the sentence including the word pair is the morpheme structure obtained by removing the morpheme of the word pair from the morpheme structure that is the minimum partial structure obtained by performing dependency analysis on the target sentence of the data search. Structure,
Knowledge acquisition device.
(Appendix 5)
A first storage means storing a word pair table having a pair of words having a specific relationship and a structure of a morpheme related to a sentence including the pair of words;
A second search key is created by adding a specific event limiting the search target to the word pair and morpheme structure extracted from the first storage means, and storing a search target document group using the search key. Retrieving the number of occurrences of the search key by searching the storage means, the appearance number information acquisition means for storing the obtained number of occurrences in the word pair table in association with the word pair and the morpheme structure;
With reference to the word pair table, the structure of each morpheme is determined based on the degree of match between the number of occurrences of each word pair related to the structure of each morpheme and the number of occurrences of each word pair related to the structure of all morphemes. An evaluation means for outputting an evaluation value obtained by evaluating an association with the specific event;
A knowledge acquisition device comprising:
(Appendix 6)
The word pair and morpheme structure extracted from the first storage means storing the word pair table having the word pair having a specific relationship and the morpheme structure related to the sentence including the word pair are searched. A search key to which a specific event for limiting the target is added is created, the second storage means storing the document group to be searched is searched with the search key, and the number of appearances of the search key is obtained. Storing in the word pair table in association with the word pair and the morpheme structure;
With reference to the word pair table, based on the degree of coincidence between the number of occurrences of each morpheme structure related to each word pair and the number of appearances of each morpheme structure related to all word pairs, A process of outputting an evaluation value that evaluates the association with the specific event;
A knowledge acquisition method in which a computer is executed.
(Appendix 7)
The word pair and morpheme structure extracted from the first storage means storing the word pair table having the word pair having a specific relationship and the morpheme structure related to the sentence including the word pair are searched. A search key to which a specific event for limiting the target is added is created, the second storage means storing the document group to be searched is searched with the search key, and the number of appearances of the search key is obtained. Storing in the word pair table in association with the word pair and the morpheme structure;
With reference to the word pair table, based on the degree of coincidence between the number of occurrences of each morpheme structure related to each word pair and the number of appearances of each morpheme structure related to all word pairs, A process of outputting an evaluation value that evaluates the association with the specific event;
A program that causes a computer to execute.
1 知識獲得装置
10 CPU
12 ドライブ装置
14 記憶媒体
16 補助記憶装置
18 メモリ装置
20 インタフェース装置
22 入力装置
24 出力装置
30 単語対獲得部
32 検索部
34 スコア算出部
40 単語対テーブル
40A 単語対リスト
40B 文脈パターンリスト
42 出現数テーブル
44 スコア付単語対
50 ネットワーク
100 クライアントコンピュータ
110 オペレータ
120 ユーザ
200 大規模文書
250 シード
260 クエリ
1
DESCRIPTION OF
Claims (6)
前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する評価手段と、
を備える知識獲得装置。 A first storage means storing a word pair table having a pair of words having a specific relationship and a structure of a morpheme related to a sentence including the pair of words;
A second search key is created by adding a specific event limiting the search target to the word pair and morpheme structure extracted from the first storage means, and storing a search target document group using the search key. Retrieving the number of occurrences of the search key by searching the storage means, the appearance number information acquisition means for storing the obtained number of occurrences in the word pair table in association with the word pair and the morpheme structure;
With reference to the word pair table, based on the degree of coincidence between the number of occurrences of each morpheme structure related to each word pair and the number of appearances of each morpheme structure related to all word pairs, An evaluation means for outputting an evaluation value obtained by evaluating an association with the specific event;
A knowledge acquisition device comprising:
前記評価手段は、各単語の対に関する形態素の構造毎の出現数に、全単語対に関する形態素の構造毎の出現数をそれぞれ乗じて合計し、総出現数で除した値を評価値として出力する手段である、
知識獲得装置。 The knowledge acquisition device according to claim 1,
The evaluation means multiplies the number of appearances of each morpheme related to each word pair by the number of appearances of each morpheme related to all word pairs, and outputs the value divided by the total number of appearances as an evaluation value. Means,
Knowledge acquisition device.
所与の単語の対又は形態素の構造を検索キーとして第2の記憶手段を検索し、得られた検索結果を検索キーに追加して更にデータ検索を行うことを繰り返すことにより、得られた複数の単語の対及び複数の形態素の構造を前記記憶手段に格納するデータ収集手段を更に備える、
知識獲得装置。 The knowledge acquisition device according to claim 1 or 2,
Searching the second storage means using a given word pair or morpheme structure as a search key, adding the obtained search result to the search key and repeating the data search to obtain a plurality of Data collection means for storing the word pairs and the structure of a plurality of morphemes in the storage means,
Knowledge acquisition device.
前記単語の対を含む文に関する形態素の構造は、前記データ検索の対象文を係り受け解析をして得た最小限の部分構造となる形態素の構造から、前記単語対の形態素を除いた形態素の構造である、
知識獲得装置。 The knowledge acquisition device according to any one of claims 1 to 3,
The morpheme structure related to the sentence including the word pair is the morpheme structure obtained by removing the morpheme of the word pair from the morpheme structure that is the minimum partial structure obtained by performing dependency analysis on the target sentence of the data search. Structure,
Knowledge acquisition device.
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する処理と、
をコンピュータが実行する知識獲得方法。 The word pair and morpheme structure extracted from the first storage means storing the word pair table having the word pair having a specific relationship and the morpheme structure related to the sentence including the word pair are searched. A search key to which a specific event for limiting the target is added is created, the second storage means storing the document group to be searched is searched with the search key, and the number of appearances of the search key is obtained. Storing in the word pair table in association with the word pair and the morpheme structure;
With reference to the word pair table, based on the degree of coincidence between the number of occurrences of each morpheme structure related to each word pair and the number of appearances of each morpheme structure related to all word pairs, A process of outputting an evaluation value that evaluates the association with the specific event;
A knowledge acquisition method in which a computer is executed.
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する処理と、
をコンピュータに実行させるプログラム。 The word pair and morpheme structure extracted from the first storage means storing the word pair table having the word pair having a specific relationship and the morpheme structure related to the sentence including the word pair are searched. A search key to which a specific event for limiting the target is added is created, the second storage means storing the document group to be searched is searched with the search key, and the number of appearances of the search key is obtained. Storing in the word pair table in association with the word pair and the morpheme structure;
With reference to the word pair table, based on the degree of coincidence between the number of occurrences of each morpheme structure related to each word pair and the number of appearances of each morpheme structure related to all word pairs, A process of outputting an evaluation value that evaluates the association with the specific event;
A program that causes a computer to execute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011110739A JP5594225B2 (en) | 2011-05-17 | 2011-05-17 | Knowledge acquisition device, knowledge acquisition method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011110739A JP5594225B2 (en) | 2011-05-17 | 2011-05-17 | Knowledge acquisition device, knowledge acquisition method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012242966A true JP2012242966A (en) | 2012-12-10 |
| JP5594225B2 JP5594225B2 (en) | 2014-09-24 |
Family
ID=47464642
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011110739A Expired - Fee Related JP5594225B2 (en) | 2011-05-17 | 2011-05-17 | Knowledge acquisition device, knowledge acquisition method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5594225B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017021412A (en) * | 2015-07-07 | 2017-01-26 | 日本放送協会 | Relation extraction device, knowledge processing device, and program |
| US9916376B2 (en) | 2015-08-11 | 2018-03-13 | Fujitsu Limited | Digital document keyword generation |
| JP7625201B2 (en) | 2021-02-25 | 2025-02-03 | 株式会社ジェイテクト | Knowledge model creation support device |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110263177B (en) * | 2019-05-23 | 2021-09-07 | 广州市香港科大霍英东研究院 | Knowledge graph construction method and event prediction method for event prediction |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050080773A1 (en) * | 2003-10-14 | 2005-04-14 | Asako Koike | Network drawing system and network drawing method |
| JP2008083927A (en) * | 2006-09-27 | 2008-04-10 | Gifu Univ | Medical information extraction device and medical information extraction program |
| JP2011059917A (en) * | 2009-09-09 | 2011-03-24 | National Institute Of Information & Communication Technology | Word pair acquisition device, word pair acquisition method, and program |
-
2011
- 2011-05-17 JP JP2011110739A patent/JP5594225B2/en not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050080773A1 (en) * | 2003-10-14 | 2005-04-14 | Asako Koike | Network drawing system and network drawing method |
| JP2008083927A (en) * | 2006-09-27 | 2008-04-10 | Gifu Univ | Medical information extraction device and medical information extraction program |
| JP2011059917A (en) * | 2009-09-09 | 2011-03-24 | National Institute Of Information & Communication Technology | Word pair acquisition device, word pair acquisition method, and program |
| US20120179682A1 (en) * | 2009-09-09 | 2012-07-12 | Stijn De Saeger | Word pair acquisition apparatus, word pair acquisition method, and program |
Non-Patent Citations (2)
| Title |
|---|
| CSNG200900092137; 阿辺川 武 外1名: '"QRpotato:専門用語対訳対の網羅的な収集"' 言語処理学会第15回年次大会発表論文集 , 20090302, p.606-609, 言語処理学会 * |
| JPN6014028324; 阿辺川 武 外1名: '"QRpotato:専門用語対訳対の網羅的な収集"' 言語処理学会第15回年次大会発表論文集 , 20090302, p.606-609, 言語処理学会 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017021412A (en) * | 2015-07-07 | 2017-01-26 | 日本放送協会 | Relation extraction device, knowledge processing device, and program |
| US9916376B2 (en) | 2015-08-11 | 2018-03-13 | Fujitsu Limited | Digital document keyword generation |
| JP7625201B2 (en) | 2021-02-25 | 2025-02-03 | 株式会社ジェイテクト | Knowledge model creation support device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5594225B2 (en) | 2014-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6095621B2 (en) | Mechanism, method, computer program, and apparatus for identifying and displaying relationships between answer candidates | |
| JP5647508B2 (en) | System and method for identifying short text communication topics | |
| CN104462126B (en) | A kind of entity link method and device | |
| JP4962967B2 (en) | Web page search server and query recommendation method | |
| JP2002245061A (en) | Keyword extraction | |
| CN114692628A (en) | Sample generation method, model training method, text extraction method and text extraction device | |
| JP5594225B2 (en) | Knowledge acquisition device, knowledge acquisition method, and program | |
| CN116842160A (en) | A patent search formula generation method, system, equipment and medium | |
| JPH11102377A (en) | Method and device for retrieving document from data base | |
| CN117009605B (en) | Strategic innovation design problem solving method and system | |
| JP5204203B2 (en) | Example translation system, example translation method, and example translation program | |
| CN114141384A (en) | Method, apparatus and medium for retrieving medical data | |
| JP2016162357A (en) | User emotion analysis apparatus and program for product | |
| JP5179564B2 (en) | Query segment position determination device | |
| CN103970732B (en) | Mining method and device of new word translation | |
| JP2010272075A (en) | KANSEI information extraction device, KANSEI search device, method and program thereof | |
| JP2007219929A (en) | Sensitivity evaluation system and method | |
| JP4361299B2 (en) | Evaluation expression extraction apparatus, program, and storage medium | |
| US20230359658A1 (en) | Business matching support device, business matching support method, and program | |
| JP5499546B2 (en) | Important word extraction method, apparatus, program, recording medium | |
| JP4938515B2 (en) | Word correlation calculation device and method, program, and recording medium | |
| JP4699909B2 (en) | Keyword correspondence analysis apparatus and analysis method | |
| JP2019061522A (en) | Document recommendation system, document recommendation method and document recommendation program | |
| JP6181890B2 (en) | Literature analysis apparatus, literature analysis method and program | |
| JP5137134B2 (en) | Kansei information extraction / retrieval device, method and program thereof |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140204 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140627 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140708 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140721 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5594225 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |