JP2015200961A - Semantic relationship extraction apparatus and program - Google Patents
Semantic relationship extraction apparatus and program Download PDFInfo
- Publication number
- JP2015200961A JP2015200961A JP2014078011A JP2014078011A JP2015200961A JP 2015200961 A JP2015200961 A JP 2015200961A JP 2014078011 A JP2014078011 A JP 2014078011A JP 2014078011 A JP2014078011 A JP 2014078011A JP 2015200961 A JP2015200961 A JP 2015200961A
- Authority
- JP
- Japan
- Prior art keywords
- noun
- pair
- score
- relationship
- seed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、入力される文書から単語間の意味関係を抽出する、意味関係抽出装置およびプログラムに関する。 The present invention relates to a semantic relationship extraction apparatus and program for extracting a semantic relationship between words from an input document.
自然言語処理技術の一分野では、テキストデータから情報を抽出する試みが為されている。
テキストに出現する2つの名詞の関係を自動的に推定しようとする場合、従来の技術の一手法は、2つの名詞間を結ぶパターンを手掛かりとする方法である。ここで、パターンとは、「A(名詞)がB(名詞)を起こす」などといった、文のパターンである。
In one field of natural language processing technology, attempts have been made to extract information from text data.
When trying to automatically estimate the relationship between two nouns appearing in a text, one conventional technique is a method that uses a pattern connecting two nouns as a clue. Here, the pattern is a sentence pattern such as “A (noun) causes B (noun)”.
非特許文献1には、そのようなパターンを手掛かりとして、学習処理により、大規模に単語間の意味的関係を獲得する技術が記載されている。 Non-Patent Document 1 describes a technique for acquiring a semantic relationship between words on a large scale by learning processing using such a pattern as a clue.
上述した従来の技術では、2つの単語を結ぶパターンを手掛かりとして単語間の関係を推定する。その推定のためのパターンの種類数は膨大である。そして、そのように多種のパターンが存在するため、出現頻度が低いパターンや、名詞が出現するようなパターンは、関係推定のためのパターンとして利用することが難しいという問題があった。 In the conventional technique described above, a relationship between words is estimated using a pattern connecting two words as a clue. The number of types of patterns for the estimation is enormous. Since such various patterns exist, there is a problem that it is difficult to use a pattern with a low appearance frequency or a pattern in which a noun appears as a pattern for relationship estimation.
ここで、単語(名詞)間の関係とは、例えば、因果関係、上位下位関係、病気と治療法の関係、病気と予防法の関係、場所と名物との関係などである。 Here, the relationship between words (nouns) includes, for example, a causal relationship, an upper-lower relationship, a relationship between a disease and a treatment method, a relationship between a disease and a preventive method, a relationship between a place and a specialty.
本発明は、上記の課題認識に基づいて行なわれたものであり、従来は推定が困難であった名詞間の関係の推定を行うことのできる意味関係抽出装置およびプログラムを提供するものである。 The present invention has been made based on the above problem recognition, and provides a semantic relationship extraction apparatus and program capable of estimating a relationship between nouns that has been difficult to estimate in the past.
[1]上記の課題を解決するため、本発明の一態様による意味関係抽出装置は、文書データを元に、前記文書データ内の同一文に含まれていた名詞対を抽出する名詞対抽出部と、前記名詞対抽出部によって抽出された前記名詞対が含まれていた文から、第3の名詞を抽出する第3名詞抽出部と、既知の関係を有する名詞対であるシード単語対が出現する文構造のパターンを、前記関係と関連付けたシードパターンとして記憶するシードパターン記憶部と、前記名詞対抽出部が抽出した前記名詞対と、前記第3名詞抽出部が抽出した前記第3の名詞と、前記シードパターン記憶部に記憶された前記シードパターンとに基づいて、前記名詞対が前記シードパターンに関連付けられた前記関係を有する度合いを示すスコアを算出するスコア計算部と、前記スコア計算部によって算出された前記スコアに基づいて、前記関係を有すると推定される前記名詞対を抽出する特定関係名詞対抽出部と、を具備する。 [1] In order to solve the above-described problem, a semantic relationship extraction device according to an aspect of the present invention extracts a noun pair extraction unit that extracts noun pairs included in the same sentence in the document data based on the document data. And a third noun extraction unit that extracts a third noun from the sentence in which the noun pair extracted by the noun pair extraction unit is included, and a seed word pair that is a noun pair having a known relationship appears. A pattern of sentence structure to be stored as a seed pattern associated with the relation, a noun pair extracted by the noun pair extraction unit, and a third noun extracted by the third noun extraction unit And a score calculation unit that calculates a score indicating a degree that the noun pair has the relationship associated with the seed pattern based on the seed pattern stored in the seed pattern storage unit; Wherein on the basis of the score calculated by the score calculating unit comprises a, a specific relationship noun pair extraction unit for extracting the noun pair is estimated to have the relationship.
[2]また、本発明の一態様は、上記の意味関係抽出装置において、前記シードパターンは、文節間の係り受け関係を表す木構造のデータにおける、前記シード単語対に属する単語間の文節のパスとして表される、ことを特徴とする。 [2] Further, according to one aspect of the present invention, in the semantic relation extraction device, the seed pattern is a tree-structured data representing a dependency relation between phrases, and the phrase between phrases belonging to the seed word pair. It is characterized by being expressed as a path.
[3]また、本発明の一態様は、上記の意味関係抽出装置において、前記スコア計算部は、前記名詞対に対応する名詞のクラス対が、前記関係に出現する度合いを表す値である第1スコアを算出し、前記第1スコアに基づく前記スコアを算出する、ことを特徴とする。 [3] Further, according to one aspect of the present invention, in the semantic relation extraction device, the score calculation unit is a value representing a degree of appearance of a class pair of nouns corresponding to the noun pair in the relation. One score is calculated, and the score based on the first score is calculated.
[4]また、本発明の一態様は、上記の意味関係抽出装置において、前記スコア計算部は、前記名詞対に含まれる一方の名詞と、前記第3の名詞との間のパターンとの、前記シードパターンへの出現しやすさの度合いを示す値である第2スコアを算出し、前記第2スコアに基づく前記スコアを算出する、ことを特徴とする。 [4] Further, according to one aspect of the present invention, in the semantic relationship extraction apparatus, the score calculation unit includes a pattern between one noun included in the noun pair and the third noun. A second score, which is a value indicating a degree of ease of appearing in the seed pattern, is calculated, and the score based on the second score is calculated.
[5]また、本発明の一態様は、上記の意味関係抽出装置において、前記スコア計算部は、前記名詞対に含まれる一方の名詞と前記第3の名詞との間のパターンの、上位下位関係らしさあるいは並列関係らしさを表す値である第3スコアを算出し、前記第3スコアに基づく前記スコアを算出する、ことを特徴とする。 [5] In addition, according to one aspect of the present invention, in the semantic relationship extraction apparatus, the score calculation unit is configured to display a pattern between one noun and the third noun included in the noun pair. A third score, which is a value representing the likelihood of relationship or the likelihood of parallel relationship, is calculated, and the score based on the third score is calculated.
[6]また、本発明の一態様は、文書データを元に、前記文書データ内の同一文に含まれていた名詞対を抽出する名詞対抽出部と、前記名詞対抽出部によって抽出された前記名詞対が含まれていた文から、第3の名詞を抽出する第3名詞抽出部と、既知の関係を有する名詞対であるシード単語対が出現する文構造のパターンを、前記関係と関連付けたシードパターンとして記憶するシードパターン記憶部と、前記名詞対抽出部が抽出した前記名詞対と、前記第3名詞抽出部が抽出した前記第3の名詞と、前記シードパターン記憶部に記憶された前記シードパターンとに基づいて、前記名詞対が前記シードパターンに関連付けられた前記関係を有する度合いを示すスコアを算出するスコア計算部と、前記スコア計算部によって算出された前記スコアに基づいて、前記関係を有すると推定される前記名詞対を抽出する特定関係名詞対抽出部と、としてコンピューターを機能させるためのプログラムである。 [6] According to another aspect of the present invention, a noun pair extraction unit that extracts noun pairs included in the same sentence in the document data based on the document data, and the noun pair extraction unit extracts the noun pairs. A third noun extraction unit that extracts a third noun from a sentence in which the noun pair was included, and a sentence structure pattern in which a seed word pair that is a noun pair having a known relation appears is associated with the relation. Stored in the seed pattern storage unit, the seed pattern storage unit that stores the seed pattern, the noun pair extracted by the noun pair extraction unit, the third noun extracted by the third noun extraction unit, and the seed pattern storage unit Based on the seed pattern, a score calculator that calculates a score indicating the degree that the noun pair has the relationship associated with the seed pattern; and the score calculated by the score calculator Based on A, is a program for causing a specific relation noun pair extraction unit, as a computer for extracting the noun pair is estimated to have the relationship.
本発明によれば、2つの単語がどのような関係を持つかを自動的に推定することができる。つまり、文書データを元に、情報抽出を行うことができる。 According to the present invention, it is possible to automatically estimate the relationship between two words. That is, information extraction can be performed based on document data.
次に、本発明の一実施形態について、図面を参照しながら説明する。
テキストを解析してテキスト間の類似性を評価するような場合、関係を持つ単語が有益となる。本実施形態では、同一文中に出現する3つの単語と、あらかじめ用意する関係を持つ単語ペア(シード単語ペア)を利用して、関係を持つ新たな単語ペアを抽出する。
Next, an embodiment of the present invention will be described with reference to the drawings.
When analyzing text and evaluating the similarity between texts, related words are useful. In the present embodiment, a new word pair having a relationship is extracted by using three words appearing in the same sentence and a word pair (seed word pair) having a relationship prepared in advance.
図1は、本実施形態による意味関係抽出装置の概略機能構成を示すブロック図である。図示するように、意味関係抽出装置1は、文書取得部10と、名詞抽出部11と、名詞対抽出部12と、第3名詞抽出部13と、スコア計算部14と、特定関係名詞対抽出部15と、特定関係名詞対集合出力部16とを含んで構成される。これら各部の機能は、例えば、電子回路を用いた論理演算を適宜組み合わせることによって実現する。また、各部において、適宜、半導体メモリや磁気ハードディスク装置(HDD)を用いることによって情報を記憶できるようにする。
FIG. 1 is a block diagram showing a schematic functional configuration of the semantic relationship extraction apparatus according to the present embodiment. As shown in the figure, the semantic relationship extraction device 1 includes a
なお、意味関係抽出装置1は、図示しないシードパターン記憶部をも備えている。シードパターン記憶部は、既知の関係を有する名詞対であるシード単語対が出現する文構造のパターンを、関係と関連付けたシードパターンとして記憶するものである。シードパターンの詳細については後述する(図4も参照)。 The semantic relationship extraction apparatus 1 also includes a seed pattern storage unit (not shown). The seed pattern storage unit stores a sentence structure pattern in which a seed word pair, which is a noun pair having a known relationship, appears as a seed pattern associated with the relationship. Details of the seed pattern will be described later (see also FIG. 4).
文書取得部10は、以下における処理の対象となる入力文書を取り込む。
名詞抽出部11は、文書取得部10が取得した入力文書を文ごとに分割し、そして、得られた各文から名詞を抽出する。名詞を抽出する際には、名詞抽出部11は、既存技術による形態素解析処理を行う。
名詞対抽出部12は、名詞抽出部11の処理で得られた名詞の集合から任意の対を抽出する。つまり、名詞対抽出部12は、その名詞集合から任意の2つの名詞を抽出する。つまり、名詞対抽出部12は、入力される文書データを元にして、文書データ内の同一文に含まれていた名詞対を抽出する。
第3名詞抽出部13は、名詞対抽出部12が抽出した名詞対に関係の深い第3の名詞を同一文中から抽出する。つまり、第3名詞抽出部13は、名詞対抽出部12によって抽出された名詞対が含まれていた文から、第3の名詞を抽出する。
The
The
The noun
The third
スコア計算部14は、名詞対抽出部12が抽出した名詞対と、第3名詞抽出部13が抽出した当該第3の名詞との間のパターンと関係を利用して、対象の関係を持つか否かを判定するためのスコア(得点)を計算する。言い換えれば、スコア計算部14は、名詞対抽出部12が抽出した名詞対と、第3名詞抽出部13が抽出した第3の名詞と、シードパターン記憶部に記憶されたシードパターンとに基づいて、名詞対がシードパターンに関連付けられた関係を有する度合いを示すスコアを算出する。
Whether the
特定関係名詞対抽出部15は、スコア計算部14が算出したスコアに基づいて、高いスコアを持つ名詞対を、対象関係を持つ名詞対として抽出する。つまり、特定関係名詞対抽出部15は、スコア計算部14によって算出されたスコアに基づいて、特定の関係を有すると推定される名詞対を抽出する。
The specific related noun
図2は、意味関係抽出装置1の動作手順を示すフローチャートである。以下、このフローチャートに沿って、単語間の意味的関係を抽出する処理の手順について説明する。なお、この一連の処理の前提として、文書取得部10は、大量の文で構成される文書データを既に取得している。
FIG. 2 is a flowchart showing an operation procedure of the semantic relationship extraction apparatus 1. Hereinafter, the procedure of the process of extracting the semantic relationship between words will be described with reference to this flowchart. As a premise of this series of processing, the
まずステップS1−1において、名詞抽出部11は、文書取得部10によって取得されている文書データを、文ごとに分割する。このとき、名詞抽出部11は、句点や文区切りの手掛かりとなる記号(「!」、「?」など)を利用することによって文への分割を行う。そして、名詞抽出部11は、既存技術による形態素解析器などを利用して、文の形態素解析処理を行い、各文内に出現する名詞を抽出する。形態素解析器として、例えば、Mecabなどを利用できる。
First, in step S1-1, the
次にステップS1−2において、名詞対抽出部12は、名詞抽出部11が抽出した名詞の任意の2つを組み合わせることによって名詞対を一つ生成する。なお、名詞対抽出部12は、元の文における構文上の制約に基づいて名詞対生成の処理を行う。具体的には、名詞対抽出部12は、名詞が含まれていた元の文の係り受けの構造を参照する。そして、名詞対抽出部12は、2つの名詞のそれぞれが含まれている2つの文節の共通の係り受け先までのパス中に所定数(例えば3文節)以上の文節が含まれる場合には、それらの2つの名詞を、名詞対として出力しない。この、係り受け構造に基づく名詞対の選択の具体例については、図3を参照しながら後で説明する。
Next, in step S1-2, the noun
なお、文中の文節を区切る処理と、文節間の係り受け関係の解析には、既存技術による構文解析器を利用できる。一例としては、文献[工藤拓,松本裕治,チャンキングの段階適用による係り受け解析,SIG-NL-142,2001年]にも記載されている係り受け解析器cabochaを利用できる。 It should be noted that a syntax analyzer based on an existing technology can be used for the processing of dividing the clauses in the sentence and the analysis of the dependency relation between the clauses. As an example, the dependency analyzer cabocha described in the document [Taku Kudo, Yuji Matsumoto, Dependency Analysis by Chunking Stage Application, SIG-NL-142, 2001] can be used.
次にステップS1−3において、第3名詞抽出部13は、名詞対抽出部12によって抽出された名詞対のうちの一つについて、その名詞対と関係の深い第3の名詞を、その名詞対が属している文と同一の文から一つ抽出する。
Next, in step S <b> 1-3, the third
このとき、第3名詞抽出部13は、次の2つのいずれかに該当する名詞を抽出する。第1に、その名詞対のうちの一方の単語が含まれる文節と直接係り受け関係のある文節中の名詞、または、間接的に係り受け関係のある文節中の名詞である(便宜上、第1のルールと呼ぶ)。第2に、その名詞対の一方の単語が含まれる文節と並列関係にある文節が存在する場合には、その並列関係において最後に現れる文節中の名詞である(便宜上、第2のルールと呼ぶ)。なお、第2のルールに該当する場合には、第2のルールのみが適用され、第1のルールは適用されない。そして、上記の第1または第2のいずれかに該当する名詞は、複数存在し得る。そして、第3名詞抽出部13は、元の名詞対に含まれる2つの名詞と、上記の第1または第2のいずれかに該当する名詞との、3項組を生成する。
これら、第1または第2のパターンのそれぞれについては、図3を参照しながら後で説明する。
At this time, the third
Each of these first or second patterns will be described later with reference to FIG.
次にステップS1−4において、スコア計算部14は、第3名詞抽出部13が生成した名詞の3項組を対象として、スコアを計算する。このスコアは、この3項組の構成要素である名詞対(名詞対抽出部12によって抽出された名詞対)が、ある特定の関係(例えば、因果関係など)を持つか否かを判定する指標となるものである。
Next, in step S <b> 1-4, the
次にステップS1−5において、意味関係抽出装置1は、現在処理中の名詞対に対応して他の(未処理の)第3名詞が存在するか否かを判定する。存在する場合(ステップS1−5:YES)には、他の第3名詞に関してスコアを計算するためにステップS1−3に戻る。存在しない場合(ステップS1−5:NO)には、次のステップS1−6に進む。 Next, in step S1-5, the semantic relationship extraction apparatus 1 determines whether there is another (unprocessed) third noun corresponding to the currently processed noun pair. If it exists (step S1-5: YES), the process returns to step S1-3 to calculate a score for another third noun. If it does not exist (step S1-5: NO), the process proceeds to the next step S1-6.
次にステップS1−6において、意味関係抽出装置1は、抽出されている全名詞対を処理したか否かを判定する。全名詞対を処理していない場合(未処理の名詞対がある場合,ステップS1−5:NO)には、他の名詞対についての処理を行うためにステップS1−2に戻る。全名詞対を処理済みの場合(ステップS1−6:YES)には、次のステップS1−7に進む。 Next, in step S1-6, the semantic relationship extraction apparatus 1 determines whether or not all the extracted noun pairs have been processed. If all noun pairs have not been processed (if there are unprocessed noun pairs, step S1-5: NO), the process returns to step S1-2 to perform processing for other noun pairs. If all noun pairs have been processed (step S1-6: YES), the process proceeds to the next step S1-7.
次にステップS1−7において、意味関係抽出装置1は、全文を処理したか否かを判定する。全文を処理していない場合(未処理の文がある場合,ステップS1−7:NO)には、他の文についての処理を行うためにステップS1−1に戻る。全文を処理済みの場合(ステップS1−7:YES)には、次のステップS1−8に進む。 Next, in step S1-7, the semantic relationship extraction apparatus 1 determines whether or not the entire sentence has been processed. If the entire sentence has not been processed (if there is an unprocessed sentence, step S1-7: NO), the process returns to step S1-1 in order to perform processing for another sentence. If the entire sentence has been processed (step S1-7: YES), the process proceeds to the next step S1-8.
次にステップS1−8において、特定関係名詞対抽出部15は、対象とする関係を持つ名詞対を抽出する。ここでは、名詞対ni,nkに対して、後述するスコアオール(図4のフローチャートとその説明を参照)の値が最大となるものを抽出する。つまり、特定関係名詞対抽出部15は、名詞対ni,nkに対するスコアscore(ni,nk)を、下の式(1)により計算する。
Next, in step S1-8, the specific related noun
つまり、Score(ni,nk)は、名詞対(ni,nk)が、シードパターンSPに対応する特定の関係である度合いを示す値である。シードパターンについては後述する。 That is, Score (n i , n k ) is a value indicating the degree to which the noun pair (n i , n k ) has a specific relationship corresponding to the seed pattern SP. The seed pattern will be described later.
なお、式(1)におけるスコアオール scoreAll(ni,nk,SP,nj)の算出については、後で、図4を参照しながら説明する。 The calculation of the score all scoreAll (n i , n k , SP, n j ) in the equation (1) will be described later with reference to FIG.
そして、特定関係名詞対抽出部15は、この式(1)で計算されたスコアが、ある所定の閾値以上の名詞対を、対象とする関係(特定関係)を持つ名詞対であると判定する。
Then, the specific relation noun
図3は、名詞対抽出部12による処理に関するものであり、名詞の対と、文における係り受け関係の例を示す概略図である。同図の(A)〜(C)の各々は、文の係り受け関係を表す木構造のデータを示すものである。それぞれの木構造において、ノード(四角形の箱)は文に含まれる文節に対応する。また、エッジ(矢印)は、文節間の係り受け関係(実線の場合)または並列関係(破線の場合)に対応する。
FIG. 3 relates to processing by the noun
同図(A)の例では、名詞Aが含まれる文節と名詞Bが含まれる文節の共通係り先(文節4)までのパスに4つの文節(文節1、文節2、文節3、文節4)が含まれる。つまり、基準である「3」よりも長いパス長であるので、この文に出現する名詞AとBの対は、名詞対として抽出されず、後の処理の対象から除外される。なお、この例において、名詞Aから直接係り受け関係にある文節とは、文節1である。名詞Bから直接係り受け関係にある文節とは、文節4である。また、名詞Aから間接的に係り受け関係にある文節とは、文節2、文節3、文節4である。 In the example of FIG. 4A, there are four clauses (phrase 1, clause 2, clause 3, clause 4) in the path to the common destination of the clause containing noun A and the clause containing noun B (phrase 4). Is included. That is, since the path length is longer than the reference “3”, the pair of nouns A and B appearing in this sentence is not extracted as a noun pair and is excluded from the target of subsequent processing. In this example, the phrase directly related to the noun A is phrase 1. The phrase directly related to the noun B is the phrase 4. The phrases indirectly related to the noun A are phrase 2, phrase 3, and phrase 4.
同図(B)の例では、名詞Aが含まれる文節と名詞Bが含まれる文節の共通係り先(文節3)までのパスに3つの文節(文節1、文節2、文節3)が含まれる。つまり、基準である「3」以下のパス長であるので、この文に出現する名詞AとBの対は除外されず、名詞対として抽出される。 In the example of FIG. 5B, three clauses (sentence 1, clause 2, and clause 3) are included in the path to the common destination of the clause containing the noun A and the clause containing the noun B (phrase 3). . That is, since the path length is “3” or less which is the reference, the pair of nouns A and B appearing in this sentence is not excluded and is extracted as a noun pair.
同図(C)の例では、名詞Aが含まれる文節と名詞Bが含まれる文節の共通係り先(文節4)までのパスに3つの文節(文節2、文節3、文節4)が含まれる。なお、名詞Bが含まれる文節と、文節1と、文節2は、並列関係にある。この場合も、係り受け関係のパス長が基準である「3」以下であるので、この文に出現する名詞AとBの対は除外されず、名詞対として抽出される。係り受け関係と並列関係を合わせたパス長は5であるが、ここでは、係り受け関係のパス長が基準以下であるかどうかに基づく判断を行っている。 In the example shown in FIG. 5C, three clauses (phrase 2, clause 3, and clause 4) are included in the path to the common destination of the clause containing noun A and the clause containing noun B (phrase 4). . The phrase including the noun B, the phrase 1, and the phrase 2 are in a parallel relationship. Also in this case, since the dependency-related path length is equal to or less than the reference “3”, the pair of nouns A and B appearing in this sentence is not excluded and is extracted as a noun pair. The path length combining the dependency relationship and the parallel relationship is 5, but here, a determination is made based on whether or not the path length of the dependency relationship is less than or equal to the reference.
また次に、図3を参照しながら、第3名詞抽出部13が抽出し得る名詞について説明する。
同図(B)に示す例では、名詞対(名詞Aおよび名詞B)のそれぞれが含まれる文節と直接、または間接的に係り受け関係にある文節を全て抽出すると、文節1、文節2、文節3が抽出される。これらの文節に含まれる名詞と、名詞Aおよび名詞Bと組み合わせて名詞の3項組を生成する。つまり、第3名詞抽出部13は、(名詞A,名詞B,文節1に含まれる名詞)、(名詞A,名詞B,文節2に含まれる名詞)、(名詞A,名詞B,文節3に含まれる名詞)という3項組を生成する。
同図(C)に示す例では、名詞Bが含まれる文節と並列関係にある文節が存在する。そのため、その並列関係の最後となる文節2の中の名詞と、名詞A、名詞Bとを組み合わせて名詞の3項組を生成する。つまり、第3名詞抽出部13は、(名詞A,名詞B,文節2に含まれる名詞)という3項組を生成する。
Next, nouns that can be extracted by the third
In the example shown in FIG. 5B, when all the clauses that are directly or indirectly dependent on the clauses including each of the noun pairs (noun A and noun B) are extracted, clause 1, clause 2, clause 3 is extracted. Combining the nouns included in these phrases with the nouns A and B, the noun triplets are generated. That is, the third
In the example shown in FIG. 5C, there is a phrase in parallel with the phrase including the noun B. Therefore, a noun ternary group is generated by combining the nouns in the phrase 2 which is the last of the parallel relation, the nouns A and B. That is, the 3rd
図4は、スコア計算部14がスコアを計算する処理の手順を示すフローチャートである。
FIG. 4 is a flowchart showing a procedure of processing in which the
同図に示す処理を行うに先立って、予め、抽出対象とする特定の関係を持つ単語ペアの例として、シード単語ペアを生成しておく。シード単語ペアは、第1の単語および第2の単語と、それらの2単語の関係を表す情報(関係名)とからなるデータである。関係名とは、例えば「因果関係」などである。シード単語ペアを生成する処理自体は、文献[Stijn,鳥澤,風間,黒田,村田,単語の意味クラスを用いたパターン学習による大規模な意味的関係獲得,言語処理学会第16回年次大会発表論文集,D4−2,2010年]に記載されている方法を用いて行うことができる。また、人が思いつく単語ペア(特定の関係を有する単語ペア)を列挙することによってこのシード単語ペアのデータを作成するようにしても良い。
シード単語ペアの例については、後で図5を参照して説明する。
Prior to performing the processing shown in the figure, a seed word pair is generated in advance as an example of a word pair having a specific relationship to be extracted. The seed word pair is data composed of a first word and a second word and information (relation name) representing the relationship between the two words. The relationship name is, for example, “causal relationship”. The process itself for generating seed word pairs is described in the literature [Stijn, Torizawa, Kazama, Kuroda, Murata, acquisition of large-scale semantic relations by pattern learning using word semantic classes, and 16th Annual Conference of the Association for Natural Language Processing. The method described in the collection of papers, D4-2, 2010] can be used. In addition, the seed word pair data may be created by enumerating word pairs that a person can think of (word pairs having a specific relationship).
An example of the seed word pair will be described later with reference to FIG.
そして、ステップS3−1において、スコア計算部14は、シード単語ペアのデータを読み込み、これに基づいてシードパターン生成の処理を行う。シードパターン生成の詳細は下で述べる通りである。
In step S3-1, the
なお、ここで、パターンとは、入力される文の係り受け構造(木構造を有する有向グラフとして表現される)において、2つの名詞が属する文節間の共通の係り先までのパス(それらの2つの名詞が属する文節自身を含まない)である。そのようなパターンのうち、名詞間の特定の関係を表現するもの、あるいはそのような特定の関係を表現する度合いが高いものが、シードパターンである。つまり、シードパターンは、文節間の係り受け関係を表す木構造のデータにおける、シード単語対に属する単語間の文節のパスとして表される。 Here, a pattern is a path to a common dependency point between clauses to which two nouns belong in a dependency structure of an input sentence (expressed as a directed graph having a tree structure). Does not include the phrase to which the noun belongs). Among such patterns, a pattern that expresses a specific relationship between nouns or a pattern that expresses such a specific relationship is a seed pattern. That is, the seed pattern is represented as a path of phrases between words belonging to the seed word pair in the tree-structured data representing the dependency relationship between phrases.
具体的なパターンの例は、次の通りである。例えば図3(A)に示すように、名詞Aが含まれる文節が他の文節1に係り、その文節1が他の文節2に係り、その文節2が他の文節3に係り、その文節3が文節4に係っている。また、名詞Bが含まれる文節が前記の文節4に係っている。このとき、名詞Aと名詞Bの共通の係り先は、文節4である。したがって、名詞Aが含まれる文節から名詞Bが含まれる文節までのパスは、{文節1,文節2,文節3,文節4}(文節1から文節4までが直列につながっている)であり、これがパターンである。 Examples of specific patterns are as follows. For example, as shown in FIG. 3A, a phrase including the noun A is related to another phrase 1, the phrase 1 is related to another phrase 2, the phrase 2 is related to another phrase 3, and the phrase 3 Is related to clause 4. A phrase including the noun B is related to the phrase 4 described above. At this time, the common destination of the noun A and the noun B is the phrase 4. Therefore, the path from the phrase containing noun A to the phrase containing noun B is {sentence 1, phrase 2, phrase 3, phrase 4} (sentences 1 to 4 are connected in series), This is a pattern.
このように抽出されたパターンのうち、所定の判断基準により、シードパターンが生成される。例えば、以下に述べる第1から第3のシードパターン生成方法のいずれかを用いるようにする。 Of the patterns extracted in this way, a seed pattern is generated according to a predetermined criterion. For example, one of the first to third seed pattern generation methods described below is used.
第1のシードパターン生成手法では、シード単語ペアが出現した全パターンをシードパターンとして生成する。下の式(2)が、第1のシードパターン生成手法によって生成されるシードパターンの集合を表す。 In the first seed pattern generation method, all patterns in which seed word pairs appear are generated as seed patterns. Equation (2) below represents a set of seed patterns generated by the first seed pattern generation method.
ここで、(ni,pat,nj)は、名詞ペア(ni,nj)がパターンpatと共起している事象を表している。第1のシードパターン生成手法では、式(2)に表したように、シード単語ペア(名詞ペア,seedpair)に含まれる名詞のペアが共起するパターン(pat)の全てをシードパターンとする。 Here, (n i , pat, n j ) represents an event in which the noun pair (n i , n j ) co-occurs with the pattern pat. In the first seed pattern generation method, as shown in Expression (2), all patterns (pat) in which noun pairs included in seed word pairs (noun pairs, seedpair) co-occur are used as seed patterns.
第2のシードパターン生成方法では、シード単語ペアが出現したパターンのうち、出現頻度が高いもののみをシードパターンとして生成する。下の式(3)が、第2のシードパターン生成手法によって生成されるシードパターンの集合を表す。 In the second seed pattern generation method, only patterns with high appearance frequency among patterns in which seed word pairs appear are generated as seed patterns. Equation (3) below represents a set of seed patterns generated by the second seed pattern generation method.
ここで、Freq(pat)は、パターンpatの出現回数である。また、Freq(seedpair)は、シード単語ペアの出現回数である。式(3)の中の不等式の左辺の分子は、入力文においてシード単語ペアに含まれる2単語と共起するパターンpatの出現回数である。この値をシード単語ペアの出現数で割った値が所定の閾値(β)より大きいものを、シードパターンとしている。 Here, Freq (pat) is the number of appearances of the pattern pat. Freq (seedpair) is the number of appearances of the seed word pair. The numerator on the left side of the inequality in Expression (3) is the number of appearances of the pattern pat that co-occurs with two words included in the seed word pair in the input sentence. A value obtained by dividing this value by the number of occurrences of the seed word pair is larger than a predetermined threshold (β) is used as a seed pattern.
第3のシードパターン生成方法では、シード単語ペアが出現した全パターンのうち、該当パターンがシード単語ペアと共起する割合が高いものを、シードパターンとして生成する。下の式(4)が、第3のシードパターン生成手法によって生成されるシードパターンの集合を表す。 In the third seed pattern generation method, among all patterns in which a seed word pair appears, a pattern having a high ratio of the corresponding pattern co-occurring with the seed word pair is generated as a seed pattern. Equation (4) below represents a set of seed patterns generated by the third seed pattern generation method.
ここで、式(4)に含まれる不等式の左辺の分子は、シード単語ペアに含まれる2単語と共起するパターンpatを表す。また、同じく左辺の分母は、パターンpatの出現回数を示す。この左辺の値が所定の閾値(γ)より大きいものを、シードパターンとしている。 Here, the numerator on the left side of the inequality included in Equation (4) represents a pattern pat that co-occurs with two words included in the seed word pair. Similarly, the denominator on the left side indicates the number of appearances of the pattern pat. A seed pattern having a value on the left side larger than a predetermined threshold value (γ) is used.
上記のいずれかのシードパターン生成方法により、スコア計算部14は、所定の量のシードパターンの集合を生成する。なお、上記のシードパターン生成方法を利用せず、人手のみでシードパターンの集合を生成するようにしても良い。このように生成したシードパターン集合を、記憶装置(シードパターン記憶部)に記憶させておくことにより、それぞれの名詞3項組に関するスコアの計算において、シードパターン集合を共通に用いることができる。シードパターン記憶部は半導体メモリやハードディスク装置などで構成する。
The
以下の処理では、スコア計算部14は、生成されたシードパターン集合を利用して、ある単語ペアが、対象としている関係を表すか否かを判定するための指標となるスコアを計算する。ここでは、単語ペアを、ni,nkとする。また、この名詞対に関係の深い第3の名詞をnjとする。
以下では、njがnkから直接的にまたは間接的に係り受け関係を持つ場合、または、njがnkと並列関係にある場合について説明する。但し、njがniから直接的にまたは間接的に係り受け関係を持つ場合、または、njがniと並列関係にある場合についても、下の式においてniとnkを入れ替えることによってスコアを求めることができる。
In the following processing, the
In the following, n j may have a direct or indirect dependency relationship from n k, or, the case where n j is in parallel relationship with the n k. However, if n j has a directly or indirectly dependency relation from n i, or, in the case where n j is in parallel relationship with the n i also exchanging the n i and n k in the equation below The score can be obtained by
次にステップS3−2において、スコア計算部14は、スコア1(score 1,第1スコア)を計算する。このスコア1は、2単語(ni,nk)がそれぞれ属するクラス(ci,ck)の、対象関係を表すシードパターンへの出現のし易さである。ここで、クラスとは、単語が属している上位語あるいは上位概念である。例えば、単語「高血圧」はクラス「病気」に対応する。ある単語が複数のクラスに対応することもある。単語とクラスとの関係は、既存技術を用いて文書データから抽出することもでき、また、シソーラスデータを用いて得ることもできる。単語とクラスとの関係は、データとして予め意味関係抽出装置1内に保持しておく。具体的には、スコア計算部14は、スコア1を下の式(5)により計算する。
Next, in step S3-2, the
ここで、SPはシードパターン集合である。また、ni,nkは単語ペアである。また、ci,ckは、単語ni,nkがそれぞれ属するクラスである。式(5)における右辺の分子は、クラス(ci,ck)に属する単語のSPとの共起数である。式(5)における右辺の分母は、クラス(ci,ck)に属する単語の任意のパターンとの共起数である。 Here, SP is a seed pattern set. N i and n k are word pairs. C i and c k are classes to which the words n i and n k belong, respectively. The numerator on the right side in Equation (5) is the number of co-occurrence with SP of words belonging to the class (c i , c k ). The denominator on the right side in the equation (5) is the number of co-occurrence with an arbitrary pattern of words belonging to the class (c i , c k ).
つまり、スコア1は、名詞対(ni,nk)に対応するクラス対(ci,ck)が、特定の関係(対象関係)に出現する度合い(可能性、確率)を表す値である。 That is, the score 1 is a value representing the degree (possibility, probability) that the class pair (c i , c k ) corresponding to the noun pair (n i , n k ) appears in a specific relationship (target relationship). is there.
次にステップS3−3において、スコア計算部14は、スコア2(score 2,第2スコア)を計算する。このスコア2は、2単語(ni,nj)間のパターン(クラス制限付)の、シードパターンへの出現のしやすさを表す。具体的には、スコア計算部14は、スコア2を下の式(6)により計算する。
Next, in step S3-3, the
ここで、I(Pij,ci,ck)は、処理対象となっている名詞3項組(ni,nj,nk)において、単語ペアniとnjの間のパターンPijと共起するci,ck(それぞれ、ni,nkのクラス)に属する名詞対集合を表す。I(SP(ci,ck))は、シードパターンのいずれかと共起するクラスciとckに属する名詞対集合を表す。I(Pij)は、niとnjの間のパターンPijと共起する名詞対集合である。I(SP)は、シードパターンのいずれかと共起する名詞対集合である。 Here, I (P ij , c i , c k ) is a pattern P between the word pairs n i and n j in the noun ternary group (n i , n j , n k ) to be processed. It represents a set of noun pairs belonging to c i and c k co-occurring with ij (classes of n i and n k , respectively). I (SP (c i , c k )) represents a set of noun pairs belonging to classes c i and c k that co-occur with any of the seed patterns. I (P ij ) is a noun pair set that co-occurs with the pattern P ij between n i and n j . I (SP) is a noun pair set that co-occurs with any of the seed patterns.
つまり、スコア2は、下記の(A)〜(D)を用いて、{(A)×(B)}/{(C)×(D)}で計算される値である。
(A)単語ペアniとnjの間のパターンPijと共起するクラスci,ckに属する名詞対集合 と シードパターンのいずれかと共起するクラスciとckに属する名詞対集合 との積集合の要素数。
(B)単語ペアniとnjの間のパターンPijと共起する名詞対集合 と シードパターンのいずれかと共起する名詞対集合 との積集合の要素数。
(C)単語ペアniとnjの間のパターンPijと共起するクラスci,ckに属する名詞対集合 と シードパターンのいずれかと共起するクラスciとckに属する名詞対集合 との和集合の要素数。
(D)単語ペアniとnjの間のパターンPijと共起する名詞対集合 と シードパターンのいずれかと共起する名詞対集合 との和集合の要素数。
That is, score 2 is a value calculated by {(A) × (B)} / {(C) × (D)} using the following (A) to (D).
(A) Noun pairs belonging to classes c i and c k co-occurring with either a set of noun pairs belonging to classes c i and c k co-occurring with pattern P ij between word pairs n i and n j The number of elements in the intersection with the set.
(B) The number of elements in the intersection of the noun pair set co-occurring with the pattern P ij between the word pairs n i and n j and the noun pair set co-occurring with any of the seed patterns.
(C) Noun pairs belonging to classes c i and c k co-occurring with either a noun pair set belonging to classes c i and c k co-occurring with pattern P ij between word pairs n i and n j or seed patterns The number of elements in the union with the set.
(D) The number of elements in the union of the noun pair set co-occurring with the pattern P ij between the word pairs n i and n j and the noun pair set co-occurring with any of the seed patterns.
つまり、スコア2は、名詞3項組における2単語(ni,nj)間のパターンPijの、シードパターンへの出現のしやすさの度合い(可能性、確率)を表す値である。
を表す値である。
That is, the score 2 is a value representing the degree (probability, probability) of the ease of appearance of the pattern P ij between the two words (n i , n j ) in the noun ternary group in the seed pattern.
Is a value representing
次にステップS3−4において、スコア計算部14は、スコア3(score 3,第3スコア)を計算する。このスコア3は、2単語(nk,nj)の間のパターンの上位下位関係らしさと、並列関係らしさを表すものである。具体的には、スコア計算部14は、スコア3を下の式(7)により計算する。
Next, in step S3-4, the
ここで、probNounhyp(nk,nj)は、2単語(nk,nj)が上位下位関係である確率を示し、この確率はあらかじめ与えた上位下位関係パターンとの共起確率から計算することが出来る。また、probPatternhyp(pkj)は、2単語(nk,nj)間のパターンpkjの上位下位関係らしさを示す確率であり、この確率はあらかじめ与えた上位下位関係単語ペアとの共起確率から計算することができる。probNounpara(nk,nj)は、2単語(nk,nj)が並列関係である確率を示し、この確率は並列関係パターンとの共起頻度から計算することができる。probPatternpara(pkj)は、2単語(nk,nj)のパターンの並列関係らしさを示し、これは上位下位関係単語ペア集合から兄弟語ペアを抽出し、その兄弟語ペアとの共起頻度から求めることができる。 Here, probNoun hyp (n k , n j ) indicates the probability that the two words (n k , n j ) are in the upper and lower relationship, and this probability is calculated from the co-occurrence probability with the upper and lower relationship pattern given in advance. I can do it. ProbPattern hyp (p kj ) is a probability indicating the likelihood of an upper-lower relationship of the pattern p kj between two words (n k , n j ), and this probability is a co-occurrence with a higher-lower relationship word pair given in advance. It can be calculated from the probability. probNoun para (n k , n j ) indicates the probability that two words (n k , n j ) are in a parallel relationship, and this probability can be calculated from the co-occurrence frequency with the parallel relationship pattern. probPattern para (p kj ) indicates the parallelism of the pattern of two words (n k , n j ), which extracts sibling word pairs from the upper and lower relation word pair sets and co-occurs with the sibling word pairs It can be obtained from the frequency.
なお、上位下位関係や並列関係を用いてスコア3を計算する理由は、元の単語対に含まれる単語と、第3の名詞との関係が、上位下位関係または並列関係である場合に、その第3の名詞が単語対の関係を特定するために重要な作用を及ぼすためである。 The reason for calculating the score 3 using the upper / lower relationship or the parallel relationship is that the relationship between the word contained in the original word pair and the third noun is an upper / lower relationship or a parallel relationship. This is because the third noun has an important effect for specifying the relationship between word pairs.
つまり、スコア3は、2単語(nk,nj)とその2単語間のパターンpkjの上位下位関係らしさ、あるいは、2単語(nk,nj)とその2単語間のパターンpkjの並列関係らしさ、のいずれか大きいほうを表す値である。 That is, a score of 3, 2 words (n k, n j) and Is ness Upper Lower relationship pattern p kj between the two words, or two words (n k, n j) and the pattern p kj between the two words This is the value that represents the greater of the parallelism.
次にステップS3−5において、スコア計算部14は、スコアオール(scoreAll)を計算する。このスコアオールは、上の各ステップで計算した、スコア1、スコア2、スコア3の積を取ることによって計算される値である。具体的には、スコア計算部14は、下の式(8)によってスコアオールの値を計算する。
Next, in step S3-5, the
つまり、スコアオール ScoreAll(ni,nk,SP,nj)は、名詞対(ni,nk)と、第3名詞njが与えられたときに、名詞対(ni,nk)が、シードパターンSPに対応する特定の関係を有する度合いを表す値である。
そして、式(8)が表すように、スコアオール ScoreAll(ni,nk,SP,nj)は、スコア1とスコア2とスコア3との積の値である。但し、名詞対(ni,nk)がそれぞれ属するクラス対(ci,ck)の中で、その積の値が最大となるように選択した場合における、当該積の値である。その前提として、名詞ni,nkがそれぞれ属するクラス集合class(ni),class(nk)の各々は、複数の要素を持ち得る集合である。
That is, the score ol ScoreAll (n i, n k, SP, n j) is a noun pair (n i, n k) and, when the third noun n j is given, noun pair (n i, n k ) Is a value representing the degree of having a specific relationship corresponding to the seed pattern SP.
And, as represented by the equation (8), the score all ScoreAll (n i , n k , SP, n j ) is a product value of the score 1, the score 2, and the score 3. However, it is the value of the product when the product value is selected to be the maximum among the class pairs (c i , c k ) to which the noun pair (n i , n k ) belongs. As a premise thereof, each of the class sets class (n i ) and class (n k ) to which the nouns n i and n k belong is a set that can have a plurality of elements.
図5は、スコア計算部14による処理の中で述べたシード単語ペアの一例を示す概略図である。図示するように、シード単語ペアは、複数の単語のペアを含むものであり、例えば表形式のデータとして表される。シード単語ペアのデータは、単語1と関係名と単語2というデータ項目(桁)を有し、複数の行からなる。例えば、第1行目のデータは、「コレステロール」という単語(単語1)と「高血圧」という単語(単語2)とが「因果関係」という関係名を有することを表している。また、第2行目のデータは、「デキストリン」という単語(単語1)と「虫歯」(単語2)という単語とが「因果関係」という関係名を有することを表している。同図に示す例では単語1が原因に該当し単語2が結果に該当するが、関係の方向は逆でも良く任意である。
FIG. 5 is a schematic diagram illustrating an example of a seed word pair described in the processing by the
[処理の実例と、本実施形態の構成による作用]
ここで、意味関係抽出装置1による処理の実例を簡単に説明する。例として、「高血圧を引き起こすコレステロールなどの物質は、・・・」という文を考える。文のこの部分を係り受け解析するとその結果は、[高血圧を]−[引き起こす]−[物質は]という係り受け関係、および[コレステロールなどの]−[物質は]という係り受け関係を含む、文節の木構造が得られる。このような文を元に抽出される名詞対の例が、(高血圧,コレステロール)である。また、抽出される第3名詞の例が「物質」である。ここから得られるパターンの一つは、[名詞Aを含む文節]−「引き起こす」−[名詞Bを含む文節]である。このようなパターンは、因果関係をよく表すため、因果関係という特定の関係に対応するシードパターンに含まれる。なお、そのようなシードパターンは、前述の通り、シード単語ペアから得られる。
[Example of processing and operation of the configuration of this embodiment]
Here, an example of processing by the semantic relationship extraction apparatus 1 will be briefly described. As an example, consider the sentence "A substance such as cholesterol that causes high blood pressure ...". When this part of the sentence is subjected to dependency analysis, the result includes a dependency relation of [hypertension]-[cause]-[substance is] and a dependency relation of [such as cholesterol]-[substance is]. A tree structure is obtained. An example of a noun pair extracted based on such a sentence is (high blood pressure, cholesterol). An example of the extracted third noun is “substance”. One of the patterns obtained from this is [sentence including noun A] − “cause” − [sentence including noun B]. Such a pattern is included in the seed pattern corresponding to a specific relationship called a causal relationship in order to express the causal relationship well. Such a seed pattern is obtained from a seed word pair as described above.
仮に第3の名詞を用いず、名詞対のみからパターン(共通係先までの文節のパス)を得ようとすると、(名詞「高血圧」を含む文節)−「引き起こす」−「物質は」−(名詞「コレステロール」を含む文節)となる。 If the third noun is not used and a pattern (sentence path to the common contact point) is obtained only from the noun pair, (sentence including the noun "hypertension")-"cause"-"substance"-( Phrase containing the noun “cholesterol”).
第3の名詞を用いたパターンと、第3の名詞を用いないパターンとを比較すると、このように前者のほうが、長さが短く、統計的な処理において特定の関係(本例では、因果関係)との共起度合いを計算するのに具合が良い。その一つの理由は、第3の名詞を抽出して用いない場合のパターン(名詞「高血圧」を含む文節)−「引き起こす」−「物質は」−(名詞「コレステロール」を含む文節)は、パスの途中に「物質」という名詞を含んでおり、それがパターンの種類数を増やしてしまうからである。 When the pattern using the third noun is compared with the pattern not using the third noun, the former is shorter in this way and has a specific relationship in statistical processing (in this example, a causal relationship). ) Is good for calculating the co-occurrence degree. One reason for this is that the pattern when the third noun is not extracted and used (phrase containing the noun “hypertension”)-“cause”-“substance is”-(phrase containing the noun “cholesterol”) is the path This is because the noun “substance” is included in the middle of this, which increases the number of types of patterns.
本実施形態の意味関係抽出装置1は、第3名詞抽出部13を備えており、スコア計算部14は、抽出された第3名詞と、元の単語対に含まれる単語との間のパターンを利用したスコアの計算を行う。この構成により、従来技術よりも良好な結果を得ることができる。また、名詞対に含まれる名詞「コレステロール」と、第3名詞「物質」とは、上位下位関係にあり、そのような第3名詞に関しては、前記のスコア3の値が高くなる。
The semantic relationship extraction apparatus 1 of the present embodiment includes a third
言い換えれば、意味関係抽出装置1は、名詞対に含まれる名詞と第3の名詞との間の上位下位関係等(コレステロールの上位は物質である)の情報を利用することによって、その名詞対の関係を推定する(言い換えれば、特定の関係(対象関係)を有する度合いを算出する)技術構成を備えている。 In other words, the semantic relationship extraction device 1 uses the information of the upper and lower relations between the nouns included in the noun pair and the third noun (the upper part of cholesterol is a substance), and thereby the information of the noun pair is obtained. It has a technical configuration for estimating the relationship (in other words, calculating the degree of having a specific relationship (target relationship)).
なお、上述した実施形態における意味関係抽出装置の機能、あるいはその一部の機能をコンピューターで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 Note that the function of the semantic relationship extraction device in the above-described embodiment, or a part of the function, may be realized by a computer. In that case, the program for realizing the control function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。 Although the embodiment has been described above, the present invention can also be implemented in the following modified example.
変形例:上記実施形態において、式(8)でスコアオール ScoreAll(ni,nk,SP,nj)の値を計算する際には、スコア1とスコア2とスコア3の積の値を用いていた。本変形例では、スコア1とスコア2とスコア3の積の代わりに、下記の(A)から(F)までの、いずれかの値を用いる。
(A)スコア1とスコア2のみの積
(B)スコア2とスコア3のみの積
(C)スコア1とスコア3のみの積
(D)スコア1の値そのもの
(E)スコア2の値そのもの
(F)スコア3の値そのもの
Modified example: In the above embodiment, when calculating the value of the score all ScoreAll (n i , n k , SP, n j ) in the equation (8), the product of score 1, score 2 and score 3 is I used it. In this modification, instead of the product of score 1, score 2, and score 3, any one of the following values (A) to (F) is used.
(A) Product of score 1 and score 2 only (B) Product of score 2 and score 3 only (C) Product of score 1 and score 3 only (D) Value of score 1 itself (E) Value of score 2 itself ( F) Score 3 itself
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
本発明は、文書間の関連を推定するために利用可能である。例えば、文書がウェブページ(ウェブ文書)である場合、本発明は、ウェブページ間の関連を推定するために利用可能である。文書(例えば、EPGにおける番組概要文の文書)を放送番組と関連付ければ、本発明は、放送番組間の関連を推定するために利用可能である。つまり、ある放送番組(例えば、視聴者が視聴中の番組)に関連する放送番組を提示するような連想検索機能などを実現するために利用可能である。つまり、本発明は、映像等のコンテンツのオンデマンド配信サービスにも利用可能である。 The present invention can be used to estimate the relationship between documents. For example, if the document is a web page (web document), the present invention can be used to estimate the association between web pages. If a document (for example, a program summary sentence document in EPG) is associated with a broadcast program, the present invention can be used to estimate the relationship between the broadcast programs. That is, it can be used to realize an associative search function that presents a broadcast program related to a certain broadcast program (for example, a program being viewed by a viewer). That is, the present invention can also be used for an on-demand distribution service for content such as video.
1 意味関係抽出装置
10 文書取得部
11 名詞抽出部
12 名詞対抽出部
13 第3名詞抽出部
14 スコア計算部
15 特定関係名詞対抽出部
16 特定関係名詞対集合出力部
DESCRIPTION OF SYMBOLS 1 Semantic
Claims (6)
前記名詞対抽出部によって抽出された前記名詞対が含まれていた文から、第3の名詞を抽出する第3名詞抽出部と、
既知の関係を有する名詞対であるシード単語対が出現する文構造のパターンを、前記関係と関連付けたシードパターンとして記憶するシードパターン記憶部と、
前記名詞対抽出部が抽出した前記名詞対と、前記第3名詞抽出部が抽出した前記第3の名詞と、前記シードパターン記憶部に記憶された前記シードパターンとに基づいて、前記名詞対が前記シードパターンに関連付けられた前記関係を有する度合いを示すスコアを算出するスコア計算部と、
前記スコア計算部によって算出された前記スコアに基づいて、前記関係を有すると推定される前記名詞対を抽出する特定関係名詞対抽出部と、
を具備することを特徴とする意味関係抽出装置。 Based on the document data, a noun pair extraction unit that extracts noun pairs included in the same sentence in the document data;
A third noun extraction unit for extracting a third noun from the sentence including the noun pair extracted by the noun pair extraction unit;
A seed pattern storage unit that stores a pattern of a sentence structure in which a seed word pair, which is a noun pair having a known relationship, appears as a seed pattern associated with the relationship;
Based on the noun pair extracted by the noun pair extraction unit, the third noun extracted by the third noun extraction unit, and the seed pattern stored in the seed pattern storage unit, the noun pair is A score calculator that calculates a score indicating the degree of having the relationship associated with the seed pattern;
Based on the score calculated by the score calculation unit, a specific related noun pair extraction unit that extracts the noun pair estimated to have the relationship;
A semantic relationship extraction apparatus comprising:
ことを特徴とする請求項1に記載の意味関係抽出装置。 The seed pattern is represented as a path of a phrase between words belonging to the seed word pair in a tree-structured data representing a dependency relation between phrases.
The semantic relationship extraction apparatus according to claim 1, wherein:
ことを特徴とする請求項1または2のいずれか一項に記載の意味関係抽出装置。 The score calculation unit calculates a first score that is a value representing a degree that a class pair of nouns corresponding to the noun pair appears in the relationship, and calculates the score based on the first score.
The semantic relationship extraction device according to claim 1, wherein the semantic relationship extraction device is a device.
ことを特徴とする請求項1から3までのいずれか一項に記載の意味関係抽出装置。 The score calculation unit calculates a second score that is a value indicating a degree of ease of appearing in the seed pattern of a pattern between one noun included in the noun pair and the third noun. Calculating and calculating the score based on the second score;
The semantic relationship extraction device according to any one of claims 1 to 3, wherein
ことを特徴とする請求項1から4までのいずれか一項に記載の意味関係抽出装置。 The score calculation unit calculates a third score, which is a value representing the likelihood of an upper-lower relationship or a parallel relationship, of a pattern between one noun included in the noun pair and the third noun, Calculating the score based on 3 scores;
The semantic relationship extraction device according to any one of claims 1 to 4, wherein:
前記名詞対抽出部によって抽出された前記名詞対が含まれていた文から、第3の名詞を抽出する第3名詞抽出部と、
既知の関係を有する名詞対であるシード単語対が出現する文構造のパターンを、前記関係と関連付けたシードパターンとして記憶するシードパターン記憶部と、
前記名詞対抽出部が抽出した前記名詞対と、前記第3名詞抽出部が抽出した前記第3の名詞と、前記シードパターン記憶部に記憶された前記シードパターンとに基づいて、前記名詞対が前記シードパターンに関連付けられた前記関係を有する度合いを示すスコアを算出するスコア計算部と、
前記スコア計算部によって算出された前記スコアに基づいて、前記関係を有すると推定される前記名詞対を抽出する特定関係名詞対抽出部と、
としてコンピューターを機能させるためのプログラム。 Based on the document data, a noun pair extraction unit that extracts noun pairs included in the same sentence in the document data;
A third noun extraction unit for extracting a third noun from the sentence including the noun pair extracted by the noun pair extraction unit;
A seed pattern storage unit that stores a pattern of a sentence structure in which a seed word pair, which is a noun pair having a known relationship, appears as a seed pattern associated with the relationship;
Based on the noun pair extracted by the noun pair extraction unit, the third noun extracted by the third noun extraction unit, and the seed pattern stored in the seed pattern storage unit, the noun pair is A score calculator that calculates a score indicating the degree of having the relationship associated with the seed pattern;
Based on the score calculated by the score calculation unit, a specific related noun pair extraction unit that extracts the noun pair estimated to have the relationship;
As a program to make the computer function as.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014078011A JP6410455B2 (en) | 2014-04-04 | 2014-04-04 | Semantic relationship extraction apparatus and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014078011A JP6410455B2 (en) | 2014-04-04 | 2014-04-04 | Semantic relationship extraction apparatus and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015200961A true JP2015200961A (en) | 2015-11-12 |
| JP6410455B2 JP6410455B2 (en) | 2018-10-24 |
Family
ID=54552190
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014078011A Expired - Fee Related JP6410455B2 (en) | 2014-04-04 | 2014-04-04 | Semantic relationship extraction apparatus and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6410455B2 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010231538A (en) * | 2009-03-27 | 2010-10-14 | Oki Electric Ind Co Ltd | Information processor, relevance calculation method, data retrieval method, and program |
| JP2011059917A (en) * | 2009-09-09 | 2011-03-24 | National Institute Of Information & Communication Technology | Word pair acquisition device, word pair acquisition method, and program |
-
2014
- 2014-04-04 JP JP2014078011A patent/JP6410455B2/en not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010231538A (en) * | 2009-03-27 | 2010-10-14 | Oki Electric Ind Co Ltd | Information processor, relevance calculation method, data retrieval method, and program |
| JP2011059917A (en) * | 2009-09-09 | 2011-03-24 | National Institute Of Information & Communication Technology | Word pair acquisition device, word pair acquisition method, and program |
| US20120179682A1 (en) * | 2009-09-09 | 2012-07-12 | Stijn De Saeger | Word pair acquisition apparatus, word pair acquisition method, and program |
Non-Patent Citations (1)
| Title |
|---|
| DE SAEGER STIJN 外4名: "単語の意味クラスを用いたパターン学習による大規模な意味的関係獲得", 言語処理学会第16回年次大会発表論文集, JPN6018001959, 8 March 2010 (2010-03-08), JP, pages 932 - 935, ISSN: 0003724582 * |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6410455B2 (en) | 2018-10-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Cook et al. | Novel word-sense identification | |
| JP5710581B2 (en) | Question answering apparatus, method, and program | |
| Imam et al. | An ontology-based summarization system for arabic documents (ossad) | |
| El-Makky et al. | Sentiment analysis of colloquial Arabic tweets | |
| JP2011118689A (en) | Retrieval method and system | |
| TW201826145A (en) | Method and system for knowledge extraction from Chinese corpus useful for extracting knowledge from source corpuses mainly written in Chinese | |
| Remus et al. | Three knowledge-free methods for automatic lexical chain extraction | |
| Torres-Moreno | Beyond stemming and lemmatization: Ultra-stemming to improve automatic text summarization | |
| Bayomi et al. | C-hts: A concept-based hierarchical text segmentation approach | |
| Elbarougy et al. | Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers. | |
| CN115757760A (en) | Text summarization extraction method and system, computing device, storage medium | |
| JP2009217689A (en) | Information processor, information processing method, and program | |
| Marujo et al. | Key phrase extraction of lightly filtered broadcast news | |
| Salihu et al. | Performance evaluation of manhattan and euclidean distance measures for clustering based automatic text summarization | |
| Lopes et al. | Extracting compound terms from domain corpora | |
| Shah et al. | Combining statistical, structural, and linguistic features for keyword extraction from web pages | |
| Silveira et al. | Extracting multi-document summaries with a double clustering approach | |
| JP6410455B2 (en) | Semantic relationship extraction apparatus and program | |
| El-Shishtawy et al. | A lemma based evaluator for semitic language text summarization systems | |
| Alias et al. | A Malay text summarizer using pattern-growth method with sentence compression rules | |
| Burmani et al. | Graph based method for Arabic text summarization | |
| Ait Addi et al. | Supervised classifiers and keyword extraction methods for text classification in Arabic | |
| Ba-Alwi et al. | Arabic text summarization using latent semantic analysis | |
| Girju et al. | Token-level disambiguation of VerbNet classes | |
| JP4679003B2 (en) | Feature item extraction method from data |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170227 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180116 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180123 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180319 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180828 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180925 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6410455 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |