JP2008305291A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2008305291A JP2008305291A JP2007153518A JP2007153518A JP2008305291A JP 2008305291 A JP2008305291 A JP 2008305291A JP 2007153518 A JP2007153518 A JP 2007153518A JP 2007153518 A JP2007153518 A JP 2007153518A JP 2008305291 A JP2008305291 A JP 2008305291A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- candidate
- attention
- appearance probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】単語に品詞を付与する精度を維持しつつ、メモリ容量を抑える。
【解決手段】共起確率テーブル63に記憶された、2つの品詞が共起する確率である共起確率共起確率に基づいて、品詞候補決定部101は、単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、注目単語の品詞の候補である注目品詞候補を決定し、単語出現確率決定部102は、隣接品詞候補と注目品詞候補との共起確率に基づいて、品詞が注目品詞候補の注目単語が出現する確率である単語出現確率を決定して、単語ラティス生成部103は、単語列の隣接する単語どうしについての共起確率と、単語列を構成する各単語の単語出現確率とに基づいて、単語ラティスを生成する。本発明は、例えば、形態素解析エンジンに適用できる。
【選択図】図9An object of the present invention is to reduce the memory capacity while maintaining the accuracy of giving a part of speech to a word.
Based on a co-occurrence probability co-occurrence probability stored in a co-occurrence probability table 63, which is a probability that two parts of speech co-occur, a part-of-speech candidate determination unit 101 selects among words constituting a word string. Determine a part-of-speech candidate that is a candidate for a part-of-speech candidate for a word of interest that may co-occur with a part-of-speech candidate for a part-of-speech candidate for a part-of-speech that is a word adjacent to the target word before or after the target word. The word appearance probability determination unit 102 determines a word appearance probability that is a probability that the attention word of the attention part-of-speech candidate appears as a part of speech based on the co-occurrence probability of the adjacent part-of-speech candidate and the attention part-of-speech candidate, and generates a word lattice. The unit 103 generates a word lattice based on the co-occurrence probability of adjacent words in the word string and the word appearance probability of each word constituting the word string. The present invention can be applied to, for example, a morphological analysis engine.
[Selection] Figure 9
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えば、単語に品詞を付与する精度を維持しつつ、メモリ容量を抑えることができるようにした情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program, and more particularly, for example, an information processing device, an information processing method, and an information processing method capable of suppressing the memory capacity while maintaining the accuracy of giving parts of speech to words. And program.
例えば、文(文章)を構成する各単語に、各単語の品詞を付与する形態素解析エンジンでは、文に形態素解析処理を施すことにより、文を構成する各単語に、各単語の品詞を付与する。 For example, in a morphological analysis engine that assigns the part of speech of each word to each word constituting a sentence (sentence), the part of speech of each word is assigned to each word constituting the sentence by performing a morphological analysis process on the sentence. .
即ち、例えば、文を構成する所定の単語を注目単語として注目すると、その注目単語が、単語の品詞を付与するために必要な情報が辞書データベースに記憶されている既知語である場合、形態素解析エンジンは、形態素解析エンジンが有する辞書データベースに基づいて、注目単語に、その注目単語の品詞を付与する。 That is, for example, when attention is paid to a predetermined word constituting a sentence as an attention word, when the attention word is a known word stored in the dictionary database for information necessary to give the part of speech of the word, morphological analysis is performed. The engine assigns the part of speech of the attention word to the attention word based on the dictionary database of the morphological analysis engine.
一方、文を構成する注目単語が、辞書データベースに記憶されていない未知語である場合、例えば、形態素解析エンジンは、文のサンプル等である学習コーパスから予め求めておいた、n個の品詞が共起する確率であるn-gramの共起確率に基づいて、未知語である注目単語に品詞を付与する。 On the other hand, when the attention word constituting the sentence is an unknown word that is not stored in the dictionary database, for example, the morphological analysis engine has n parts of speech that are obtained in advance from a learning corpus that is a sample of a sentence or the like. Based on the co-occurrence probability of n-gram, which is the probability of co-occurrence, the part of speech is given to the attention word that is an unknown word.
即ち、例えば、文「t1(既知語),t2(未知語),t3(既知語)」を構成する各単語t1,t2、およびt3に品詞を付与する場合、単語t1およびt3については、辞書データベースに記憶されている品詞が付与される。 That is, for example, when giving parts of speech to the words t1, t2, and t3 constituting the sentence `` t1 (known word), t2 (unknown word), t3 (known word) '', the words t1 and t3 Part of speech stored in the database is given.
その後、単語t1の品詞、単語t2の品詞の候補、単語t3の品詞が、この並び順で共起する3-gramの共起確率のうちの最大の3-gramの共起確率が求められ、3-gramの共起確率が最大となるときの単語t2の品詞の候補が、単語t2の品詞として、単語t2に付与される。 Then, the maximum 3-gram co-occurrence probability of the 3-gram co-occurrence probabilities in which the part of speech of the word t1, the part of speech candidate of the word t2, and the part of speech of the word t3 co-occur in this order is obtained. The part of speech candidate of the word t2 when the 3-gram co-occurrence probability is maximized is given to the word t2 as the part of speech of the word t2.
なお、非特許文献1には、非特許文献2や3に開示されているHMM-based model,Maximum entropy model,Conditional Markov model,Conditional random fields,Cyclic dependency networks等の様々なモデルを用いることにより、文を形態素に分割し、各形態素に品詞および語幹を付与する形態素解析エンジンが開示されている。
In
ところで、例えば、文「t1(既知語),t2(未知語),t3(未知語),t4(既知語)」を構成する各単語t1,t2,t3、およびt4に品詞を付与する場合、既知語である単語t1およびt4については、辞書データベースに記憶されている品詞が付与される。 By the way, for example, when giving part of speech to each word t1, t2, t3, and t4 constituting the sentence `` t1 (known word), t2 (unknown word), t3 (unknown word), t4 (known word) '', For the words t1 and t4 which are known words, the part of speech stored in the dictionary database is given.
その後、単語t1の品詞、単語t2の品詞の候補、単語t3の品詞の候補が、この並び順で共起する3-gramの共起確率のうちの最大の3-gramの共起確率が求められ、3-gramの共起確率が最大となるときの単語t2の品詞の候補が、単語t2の品詞として単語t2に付与されるとともに、3-gramの共起確率が最大となるときの単語t3の品詞の候補が、単語t3の品詞として単語t3に付与される。 After that, the maximum 3-gram co-occurrence probability is calculated from the 3-gram co-occurrence probabilities in which the part of speech of the word t1, the part of speech of the word t2, and the part of speech of the word t3 co-occur in this order. And the candidate for the part of speech of the word t2 when the 3-gram co-occurrence probability is maximized is given to the word t2 as the part of speech of the word t2, and the word when the 3-gram co-occurrence probability is maximized A candidate for part of speech of t3 is given to word t3 as part of speech of word t3.
しかしながら、3-gramの共起確率を用いる場合、既知語である単語t4の品詞が考慮されずに、未知語である単語t2およびt3に品詞が付与されてしまうため、単語t2およびt3に正確な品詞を付与することができないことがある。 However, when the 3-gram co-occurrence probability is used, the part of speech of the word t4, which is a known word, is not considered, and the part of speech is given to the words t2, t3, which are unknown words. May not be able to give a good part of speech.
即ち、文において未知語がn-1個以上続く場合、n-gramの共起確率を用いて未知語に品詞を付与するときには、未知語に、その未知語の品詞を付与する精度が低くなることがある。 That is, when there are more than n-1 unknown words in a sentence, when adding parts of speech to an unknown word using n-gram co-occurrence probabilities, the accuracy of assigning the part of speech of the unknown word to the unknown word is low. Sometimes.
ここで、文「t1(既知語),t2(未知語),t3(未知語),t4(既知語)」を構成する各単語に品詞を付与する場合において、未知語に品詞を付与する精度を維持するには、単語t4の品詞を考慮して、単語t2およびt3に、単語t2およびt3の品詞を付与すること、つまり、単語t1の品詞、単語t2の品詞の候補、単語t3の品詞の候補、単語t4の品詞が、この並び順で共起する4-gramの共起確率のうちの最大の4-gramの共起確率を求め、4-gramの共起確率が最大となるときの単語t2の品詞の候補を、単語t2の品詞として単語t2に付与し、4-gramの共起確率が最大となるときの単語t3の品詞の候補を、単語t3の品詞として単語t3に付与することが必要である。 Here, when giving parts of speech to the words that make up the sentence `` t1 (known word), t2 (unknown word), t3 (unknown word), t4 (known word) '', the accuracy of giving the part of speech to the unknown word To preserve the part of speech of the word t4, the part of speech of the word t1, the part of speech of the word t2, the part of speech of the word t3 is given to the words t2 and t3. Candidate, the part of speech of the word t4 is the maximum 4-gram co-occurrence probability among the 4-gram co-occurrence probabilities that co-occur in this order, and the 4-gram co-occurrence probability is maximized The part-of-speech candidate for the word t2 is assigned to the word t2 as the part-of-speech for the word t2, and the part-of-speech candidate for the word t3 when the 4-gram co-occurrence probability is maximized is assigned to the word t3 as the part-of-speech for the word t3 It is necessary to.
従って、n-gramの共起確率を用いて、未知語に、その未知語の品詞を付与する方法では、未知語が複数個続く場合を考慮して、2-gramの共起確率、3-gramの共起確率…,N-gramの共起確率などの複数のn-gramの共起確率を記憶しておく必要があり、複数のn-gramの共起確率を記憶するメモリ容量が大となる。 Therefore, in the method of assigning the part of speech of an unknown word to an unknown word using the co-occurrence probability of n-gram, considering the case where a plurality of unknown words continue, Co-occurrence probabilities of gram…, co-occurrence probabilities of multiple n-grams such as co-occurrence probabilities of N-grams need to be stored, and the memory capacity to store the co-occurrence probabilities of multiple n-grams is large It becomes.
本発明は、このような状況に鑑みてなされたものであり、単語に品詞を付与する精度を維持しつつ、メモリ容量を抑えることができるようにするものである。 The present invention has been made in view of such a situation, and it is possible to suppress the memory capacity while maintaining the accuracy of giving a part of speech to a word.
本発明の一側面の情報処理装置、またはプログラムは、単語列から、単語ラティスを生成する情報処理装置、単語列から、単語ラティスを生成する情報処理装置として、コンピュータを機能させるプログラムであり、予め求められた、2つの品詞が共起する確率である共起確率が記憶された記憶手段に記憶されている前記共起確率に基づいて、前記単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、前記注目単語の品詞の候補である注目品詞候補を決定する品詞候補決定手段と、前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、品詞が前記注目品詞候補の前記注目単語が出現する確率である単語出現確率を決定する単語出現確率決定手段と、前記単語列の隣接する単語どうしについての前記共起確率と、前記単語列を構成する各単語の単語出現確率とに基づいて、前記単語ラティスを生成する単語ラティス生成手段とを備える情報処理装置、または情報処理装置として、コンピュータに機能させるプログラムである。 An information processing apparatus or program according to one aspect of the present invention is a program that causes a computer to function as an information processing apparatus that generates a word lattice from a word string and an information processing apparatus that generates a word lattice from a word string. Based on the co-occurrence probability stored in the storage means in which the co-occurrence probability, which is the probability of co-occurring two parts of speech, is obtained, attention is paid to the words constituting the word string. Part-of-speech candidate determination that determines a part-of-speech candidate that is a candidate for part-of-speech of the target word that may co-occur with a part-of-speech candidate that is a candidate for part-of-speech of the target word that is adjacent to the front or back of the target word A word appearance probability which is a probability that the attention word of the attention part-of-speech candidate appears, based on a means and a co-occurrence probability of the adjacent part-of-speech candidate and the attention part-of-speech candidate. Appearance probability determining means, word lattice generation means for generating the word lattice based on the co-occurrence probability of adjacent words in the word string and the word appearance probability of each word constituting the word string; As an information processing apparatus including the information processing apparatus, a program causing a computer to function.
前記単語出現確率決定手段では、前記隣接品詞候補と前記注目品詞候補との共起確率を、前記注目単語の前記単語出現確率として決定することができる。 The word appearance probability determining means can determine the co-occurrence probability of the adjacent part-of-speech candidate and the attention part-of-speech candidate as the word appearance probability of the attention word.
前記隣接品詞候補が複数存在する場合において、前記単語出現確率決定手段では、複数の前記隣接品詞候補それぞれと前記注目品詞候補との共起確率のうちの最大値を、前記注目単語の前記単語出現確率として決定することができる。 In the case where there are a plurality of adjacent part-of-speech candidates, the word appearance probability determining means sets the maximum value of the co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the attention part-of-speech candidate as the word appearance of the attention word. It can be determined as a probability.
前記隣接品詞候補が複数存在する場合において、前記単語出現確率決定手段では、複数の前記隣接品詞候補それぞれと前記注目品詞候補との共起確率を合計した合計値を、前記注目単語の前記単語出現確率として決定することができる。 In the case where there are a plurality of adjacent part-of-speech candidates, the word appearance probability determining means calculates a total value of the co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the attention part-of-speech candidate as the word appearance of the attention word. It can be determined as a probability.
前記記憶手段は、さらに、予め求められた、品詞が出現する確率である品詞出現確率を記憶することができ、前記単語出現確率決定手段では、前記隣接品詞候補と前記注目品詞候補との共起確率と、前記注目品詞候補の品詞出現確率との積を、前記注目単語の前記単語出現確率として決定することができる。 The storage means can further store a part-of-speech appearance probability which is a probability of appearance of a part-of-speech obtained in advance, and the word appearance probability determination means co-occurs the adjacent part-of-speech candidate and the attention part-of-speech candidate. The product of the probability and the part of speech appearance probability of the part of speech candidate of interest can be determined as the word appearance probability of the word of interest.
前記隣接品詞候補が複数存在する場合において、前記単語出現確率決定手段では、複数の前記隣接品詞候補それぞれと前記注目品詞候補との共起確率のうちの最大値と、前記注目品詞候補の品詞出現確率との積を、前記注目単語の前記単語出現確率として決定することができる。 In the case where there are a plurality of adjacent part-of-speech candidates, the word appearance probability determination means determines the maximum value of the co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the part-of-speech candidate, and the part-of-speech appearance of the part-of-speech candidate The product with the probability can be determined as the word appearance probability of the word of interest.
前記記憶手段に記憶された前記共起確率または前記品詞出現確率は、文のサンプルである学習コーパスにより予め学習されたものとすることができる。 The co-occurrence probability or the part-of-speech appearance probability stored in the storage means may be learned in advance by a learning corpus that is a sentence sample.
本発明の一側面の情報処理装置は、前記単語ラティス生成手段により生成された前記単語ラティスに基づいて、前記注目単語に、前記注目単語の品詞を付与する単語品詞付与手段と、前記注目単語の品詞が付与された前記注目単語を出力する出力手段とをさらに設けることができる。 An information processing apparatus according to an aspect of the present invention includes: a word part-of-speech providing unit that assigns a part of speech of the attention word to the attention word based on the word lattice generated by the word lattice generation unit; Output means for outputting the attention word given the part of speech can be further provided.
前記記憶手段は、さらに、単語と、その単語の語幹とを対応付けた単語テーブルを記憶することができ、前記記憶手段に記憶された前記単語テーブルに基づいて、前記注目単語に、前記注目単語の語幹を付与する語幹付与手段をさらに設け、前記出力手段では、前記注目単語の品詞および語幹が付与された前記注目単語を出力することができる。 The storage means can further store a word table in which a word and a stem of the word are associated with each other, and the attention word is added to the attention word based on the word table stored in the storage means. A stem adding unit for adding a stem of the word is further provided, and the output unit can output the attention word to which the part of speech and the word stem of the attention word are added.
前記記憶手段は、さらに、複数の単語により構成される複合語と、その複合語の品詞とを対応付けた複合語テーブルを記憶することができ、前記記憶手段に記憶された前記複合語テーブルに基づいて、前記単語列に含まれる複合語に、その複合語の品詞を付与する複合語品詞付与手段をさらに設け、前記出力手段では、さらに、前記単語列に含まれる複合語の品詞が付与された前記複合語を出力することができる。 The storage means can further store a compound word table in which a compound word composed of a plurality of words and a part of speech of the compound word are associated with each other, and the compound word table stored in the storage means can store the compound word table. On the basis of the above, the compound word included in the word string is further provided with compound word part-of-speech giving means for adding the part of speech of the compound word, and the output means is further provided with the part of speech of the compound word included in the word string. The compound word can be output.
前記記憶手段は、予め求められた、品詞が所定の品詞の単語が出現する確率である単語出現確率をさらに記憶することができ、前記単語出現確率決定手段では、前記注目単語の単語出現確率が前記記憶手段に記憶されている場合、前記記憶手段に記憶されている単語出現確率に基づいて、前記注目単語の単語出現確率を決定するとともに、前記注目単語の単語出現確率が前記記憶手段に記憶されていない場合、前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、前記注目単語の共起確率を決定することができる。 The storage means can further store a word appearance probability, which is a probability of appearance of a word having a predetermined part of speech that is obtained in advance, and the word appearance probability determination means determines the word appearance probability of the attention word. When stored in the storage means, the word appearance probability of the attention word is determined based on the word appearance probability stored in the storage means, and the word appearance probability of the attention word is stored in the storage means. If not, the co-occurrence probability of the attention word can be determined based on the co-occurrence probability of the adjacent part-of-speech candidate and the attention part-of-speech candidate.
前記記憶手段に記憶された前記単語出現確率は、文のサンプルである学習コーパスにより予め学習されたものとすることができる。 The word appearance probability stored in the storage unit may be learned in advance by a learning corpus that is a sample of a sentence.
前記品詞候補決定手段では、前記隣接品詞候補との共起確率が最大値となる品詞を、前記注目品詞候補として決定することができる。 The part-of-speech candidate determination means can determine the part-of-speech with the maximum co-occurrence probability with the adjacent part-of-speech candidate as the target part-of-speech candidate.
本発明の一側面の情報処理方法は、単語列から、単語ラティスを生成する情報処理装置の情報処理方法であり、予め求められた、2つの品詞が共起する確率である共起確率が記憶された記憶手段に記憶されている前記共起確率に基づいて、前記単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、前記注目単語の品詞の候補である注目品詞候補を決定し、前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、品詞が前記注目品詞候補の前記注目単語が出現する確率である単語出現確率を決定し、前記単語列の隣接する単語どうしについての前記共起確率と、前記単語列を構成する各単語の単語出現確率とに基づいて、前記単語ラティスを生成するステップを含む。 An information processing method according to an aspect of the present invention is an information processing method of an information processing apparatus that generates a word lattice from a word string, and stores a co-occurrence probability that is a probability of co-occurring two parts of speech that are obtained in advance. Based on the co-occurrence probabilities stored in the stored storage means, it is a candidate for a part of speech of an adjacent word that is a word adjacent before or after the attention word of interest among the words constituting the word string. Determining a part of speech candidate that is a candidate for the part of speech of the attention word that may co-occur with a certain part of speech candidate, and based on the co-occurrence probability between the part of speech candidate and the part of speech candidate of interest, Determining a word appearance probability, which is a probability that the attention word of the attention part-of-speech candidate appears, and determining the co-occurrence probability between adjacent words in the word string and the word appearance probability of each word constituting the word string Based on the above Including the step of generating a lattice.
本発明の一側面においては、予め求められた、2つの品詞が共起する確率である共起確率が記憶された記憶手段に記憶されている前記共起確率に基づいて、前記単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、前記注目単語の品詞の候補である注目品詞候補が決定され、前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、品詞が前記注目品詞候補の前記注目単語が出現する確率である単語出現確率が決定されるとともに、前記単語列の隣接する単語どうしについての前記共起確率と、前記単語列を構成する各単語の単語出現確率とに基づいて、前記単語ラティスが生成される。 In one aspect of the present invention, the word string is configured based on the co-occurrence probability stored in storage means in which a co-occurrence probability that is a probability of co-occurring two parts of speech is obtained in advance. A part of speech candidate of the attention word that may co-occur with an adjacent part of speech candidate that is a candidate for the part of speech of the adjacent word that is adjacent to the attention word before or after the attention word of interest Participant part-of-speech candidates are determined, and based on the co-occurrence probability of the adjacent part-of-speech candidate and the part-of-speech part-of-interest candidate, a word appearance probability is determined, which is the probability that the part-of-speech part of the part-of-speech part candidate will appear. The word lattice is generated based on the co-occurrence probability between adjacent words in the word string and the word appearance probability of each word constituting the word string.
本発明によれば、単語に品詞を付与する精度を維持しつつ、メモリ容量を抑えることができる。 ADVANTAGE OF THE INVENTION According to this invention, memory capacity can be restrained, maintaining the precision which gives a part of speech to a word.
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。 Embodiments of the present invention will be described below. Correspondences between the constituent elements of the present invention and the embodiments described in the specification or the drawings are exemplified as follows. This description is intended to confirm that the embodiments supporting the present invention are described in the specification or the drawings. Therefore, even if there is an embodiment which is described in the specification or the drawings but is not described here as an embodiment corresponding to the constituent elements of the present invention, that is not the case. It does not mean that the form does not correspond to the constituent requirements. Conversely, even if an embodiment is described here as corresponding to a configuration requirement, that means that the embodiment does not correspond to a configuration requirement other than the configuration requirement. It's not something to do.
本発明の一側面の情報処理装置、またはプログラムは、
単語列から、単語ラティスを生成する情報処理装置(例えば、図1の形態素解析エンジン)、または単語列から、単語ラティスを生成する情報処理装置として、コンピュータを機能させるプログラムであり、
予め求められた、2つの品詞が共起する確率である共起確率(例えば、図1の共起確率テーブル63が保持する共起確率)が記憶された記憶手段(例えば、図1の辞書データベース12)に記憶されている前記共起確率に基づいて、前記単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、前記注目単語の品詞の候補である注目品詞候補を決定する品詞候補決定手段(例えば、図9の品詞候補決定部101)と、
前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、品詞が前記注目品詞候補の前記注目単語が出現する確率である単語出現確率を決定する単語出現確率決定手段(例えば、図9の単語出現確率決定部102)と、
前記単語列の隣接する単語どうしについての前記共起確率と、前記単語列を構成する各単語の単語出現確率とに基づいて、前記単語ラティスを生成する単語ラティス生成手段(例えば、図9の単語ラティス生成部103)と
を備える情報処理装置、または情報処理装置として、コンピュータを機能させるプログラムである。
An information processing apparatus or program according to one aspect of the present invention includes:
A program that causes a computer to function as an information processing device that generates a word lattice from a word string (for example, the morphological analysis engine of FIG. 1) or an information processing device that generates a word lattice from a word string,
Storage means (for example, the dictionary database of FIG. 1) in which the co-occurrence probability (for example, the co-occurrence probability held in the co-occurrence probability table 63 of FIG. 1), which is the probability of co-occurring two parts of speech, obtained in advance is stored. 12) Adjacent that is a candidate for part of speech of an adjacent word that is adjacent to the attention word in front of or behind the attention word of the words constituting the word string based on the co-occurrence probability stored in 12) Part-of-speech candidate determination means (for example, part-of-speech
Based on the co-occurrence probability of the adjacent part-of-speech candidate and the target part-of-speech candidate, word appearance probability determining means for determining the word appearance probability that the part-of-speech is the probability that the target word of the target part-of-speech candidate appears (for example, FIG. 9 Word appearance probability determination unit 102),
Word lattice generation means for generating the word lattice based on the co-occurrence probability of adjacent words in the word string and the word appearance probability of each word constituting the word string (for example, the word in FIG. 9) A program that causes a computer to function as an information processing apparatus including the lattice generation unit 103) or an information processing apparatus.
本発明の一側面の情報処理装置では、
前記単語ラティス生成手段により生成された前記単語ラティスに基づいて、前記注目単語に、前記注目単語の品詞を付与する単語品詞付与手段(例えば、図9の単語品詞付与部104)と、
前記注目単語の品詞が付与された前記注目単語を出力する出力手段(例えば、図9の複合語品詞付与部35)と
をさらに備えることができる。
In the information processing apparatus according to one aspect of the present invention,
Based on the word lattice generated by the word lattice generation means, word part-of-speech giving means (for example, the word part-of-
Output means (for example, the compound word part-of-
本発明の一側面の情報処理装置では、
前記記憶手段は、さらに、単語と、その単語の語幹とを対応付けた単語テーブル(例えば、図1の単語テーブル61)を記憶し、
前記記憶手段に記憶された前記単語テーブルに基づいて、前記注目単語に、前記注目単語の語幹を付与する語幹付与手段(例えば、図1の語幹付与部33)をさらに備え、
前記出力手段は、前記注目単語の品詞および語幹が付与された前記注目単語を出力することができる。
In the information processing apparatus according to one aspect of the present invention,
The storage means further stores a word table (for example, the word table 61 in FIG. 1) in which a word is associated with a stem of the word,
Based on the word table stored in the storage means, further comprising a stem grant means (for example, the
The output means can output the attention word to which the part of speech and the word stem of the attention word are assigned.
本発明の一側面の情報処理装置では、
前記記憶手段は、さらに、複数の単語により構成される複合語と、その複合語の品詞とを対応付けた複合語テーブル(例えば、図1の複合語テーブル65)を記憶し、
前記記憶手段に記憶された前記複合語テーブルに基づいて、前記単語列に含まれる複合語に、その複合語の品詞を付与する複合語品詞付与手段(例えば、図1の複合語品詞付与部35)をさらに備え、
前記出力手段は、さらに、前記単語列に含まれる複合語の品詞が付与された前記複合語を出力することができる。
In the information processing apparatus according to one aspect of the present invention,
The storage means further stores a compound word table (for example, the compound word table 65 in FIG. 1) in which a compound word composed of a plurality of words and the part of speech of the compound word are associated with each other.
Based on the compound word table stored in the storage means, compound word part-of-speech giving means (for example, compound word part-of-
The output means can further output the compound word to which the part of speech of the compound word included in the word string is given.
本発明の一側面の情報処理方法は、
単語列から、単語ラティスを生成する情報処理装置(例えば、図1の形態素解析エンジン)の情報処理方法であり、
予め求められた、2つの品詞が共起する確率である共起確率(例えば、図1の共起確率テーブル63が保持する共起確率)が記憶された記憶手段(例えば、図1の辞書データベース12)に記憶されている前記共起確率に基づいて、前記単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、前記注目単語の品詞の候補である注目品詞候補を決定し(例えば、図18のステップS34)、
前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、品詞が前記注目品詞候補の前記注目単語が出現する確率である単語出現確率を決定し(例えば、図18のステップS35)、
前記単語列の隣接する単語どうしについての前記共起確率と、前記単語列を構成する各単語の単語出現確率とに基づいて、前記単語ラティスを生成する(例えば、図18のステップS36)
ステップを含む。
An information processing method according to one aspect of the present invention includes:
An information processing method of an information processing apparatus (for example, the morphological analysis engine of FIG. 1) that generates a word lattice from a word string,
Storage means (for example, the dictionary database of FIG. 1) in which the co-occurrence probability (for example, the co-occurrence probability held in the co-occurrence probability table 63 of FIG. 1), which is the probability of co-occurring two parts of speech, obtained in advance is stored. 12) Adjacent that is a candidate for part of speech of an adjacent word that is adjacent to the attention word in front of or behind the attention word of the words constituting the word string based on the co-occurrence probability stored in 12) A part of speech candidate that is a candidate for part of speech of the attention word that may co-occur with the part of speech candidate (for example, step S34 in FIG. 18);
Based on the co-occurrence probability of the adjacent part-of-speech candidate and the target part-of-speech candidate, a word appearance probability is determined, which is the probability that the part-of-speech word appears as the target part-of-speech candidate (for example, step S35 in FIG. 18).
The word lattice is generated based on the co-occurrence probability of adjacent words in the word string and the word appearance probability of each word constituting the word string (for example, step S36 in FIG. 18).
Includes steps.
以下、図を参照して、本発明の実施の形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明を適用した情報処理装置としての形態素解析エンジンの一実施の形態の第1の構成例を示すブロック図である。 FIG. 1 is a block diagram showing a first configuration example of an embodiment of a morphological analysis engine as an information processing apparatus to which the present invention is applied.
図1の形態素解析エンジンは、単語解析部11、および辞書データベース12により構成される。
The morphological analysis engine of FIG. 1 includes a
なお、図1の形態素解析エンジンには、例えば、ユーザが、図示せぬ操作部を操作することにより、複数の単語からなる文等の単語列のテキストデータとしての文書が入力されるようになっており、その文書は、単語解析部11に供給される。
In the morphological analysis engine of FIG. 1, for example, when a user operates an operation unit (not shown), a document as text data of a word string such as a sentence composed of a plurality of words is input. The document is supplied to the
単語解析部11は、文区切り部31、単語区切り部32、語幹付与部33、品詞付与部34、および複合語品詞付与部35により構成され、そこに供給される文書内の各単語に、その各単語の語幹および品詞を付与する処理を行う。
The
文区切り部31には、入力された文書が供給される。
The
文区切り部31は、文書を文単位に区切る所定のルールに基づいて、そこに供給された文書を、文単位に分割する。
The
即ち、例えば、文区切り部31は、そこに供給された文書内の”.”や”?”等を隣接する文どうしの区切りであるとみなして、文書を、1文単位に分割する。具体的には、例えば、文書「I wanted to go to United States. So, I bought a ticket.」が文区切り部31に供給されると、文区切り部31は、そこに供給された文書を、「I wanted to go to United States.」と「So, I bought a ticket.」との2つの文に分割する。
That is, for example, the
文区切り部31は、そこに供給された文書を分割することで得られた「I wanted to go to United States.」や「So, I bought a ticket.」等の文を、適宜、単語区切り部32に供給する。
The
単語区切り部32は、文を単語に分割する所定のルールに基づいて、文区切り部31から供給された文を、その文を構成する単語に分割する。
The
即ち、例えば、単語区切り部32は、文区切り部31から供給された1文内の”,”や” ”(空白文字)等を隣接する単語どうしの区切りであるとみなして、文を単語に分割する。具体的には、例えば、文「I wanted to go to United States.」が、文区切り部31から単語区切り部32に供給されると、単語区切り部32は、そこに供給された文を、「I」、「wanted」、「to」、「go」、「to」、「United」、「States」、および「.」の8つの単語に分割する。
That is, for example, the
単語区切り部32は、単語に分割された文を、語幹付与部33に供給する。
The
語幹付与部33は、辞書データベース12に記憶されている、単語と、その単語を一意に識別する単語ID(identification)と、その単語の語幹とを対応付けた単語テーブル61を参照することにより、単語区切り部32から供給された文を構成する各単語に、各単語の語幹を付与する。
The word stem assigning
また、語幹付与部33は、単語テーブル61から、単語区切り部32から供給された文を構成する各単語の単語IDを読み出し、単語IDに対応する、文を構成する単語と対応付ける。
Further, the word stem assigning
語幹付与部33は、単語に語幹が付与され、かつ、単語IDが対応付けられた文を、品詞付与部34に供給する。
The
品詞付与部34は、辞書データベース12に記憶されている、所定の品詞を一意に識別する品詞IDと、品詞が所定の品詞の単語の単語IDと、品詞が所定の品詞の単語が出現する確率である単語出現確率とを対応付けた単語出現確率テーブル62と、2つの品詞の品詞IDと、それらの2つの品詞が共起する確率である共起確率とを対応付けた共起確率テーブル63とを参照することにより、語幹付与部33から供給された文としての単語列から単語ラティスを生成する。
The part-of-
そして、品詞付与部34は、語幹付与部33から供給された文としての単語列から生成された単語ラティスに基づいて、語幹付与部33から供給された文を構成する各単語の品詞の品詞IDを決定し、辞書データベース12に記憶されている、品詞と、その品詞の品詞IDとを対応付けた品詞テーブル64を参照することにより、語幹付与部33から供給された文を構成する各単語に、各単語の品詞を付与する。
Then, the part-of-
品詞付与部34は、単語に品詞が付与された文を、複合語品詞付与部35に供給する。
The part-of-
複合語品詞付与部35は、品詞付与部34から供給された文に、複数の単語により構成される複合語が含まれる場合、辞書データベース12に記憶されている、複合語と、その複合語の品詞、およびその複合語を一意に識別する複合語IDが対応付けられた複合語テーブル65を参照することにより、品詞付与部34から供給された文に含まれる、複合語とされる複数の単語を、複合語として、その複合語に、複合語の品詞を付与する。
When the sentence supplied from the part-of-
また、複合語品詞付与部35は、品詞付与部34からの文に含まれる複合語を、「複合語/品詞/語幹」という形式で、図示せぬモニタなどに出力して、表示させる。
In addition, the compound word part-of-
さらに、複合語品詞付与部35は、品詞付与部34から供給された文を構成する各単語のうちの、複合語を構成していない単語を、「単語/品詞/語幹」という形式で、図示せぬモニタ等に出力して表示させる。
Further, the compound word part-of-
辞書データベース12は、単語テーブル61、単語出現確率テーブル62、共起確率テーブル63、品詞テーブル64、および複合語テーブル65を記憶しており、単語解析部11が、そこに供給される文書内の各単語に、各単語の語幹および品詞を付与する処理を行うときに参照される。
The
単語テーブル61には、単語と、その単語の単語IDと、その単語の語幹とが対応付けられて登録されている。 In the word table 61, a word, a word ID of the word, and a stem of the word are registered in association with each other.
単語出現確率テーブル62には、所定の品詞の品詞IDと、品詞が所定の品詞の単語の単語IDと、品詞が所定の品詞の単語の単語出現確率とが対応付けられて登録されている。 In the word appearance probability table 62, a part-of-speech ID of a predetermined part of speech, a word ID of a word whose part of speech is a predetermined part of speech, and a word appearance probability of a word whose part of speech is a predetermined part of speech are registered in association with each other.
共起確率テーブル63には、2つの品詞それぞれを一意に識別する2つの品詞IDと、2つの品詞間の共起確率とが対応付けられて登録されている。 In the co-occurrence probability table 63, two part-of-speech IDs that uniquely identify each of the two parts of speech and the co-occurrence probabilities between the two parts of speech are registered in association with each other.
品詞テーブル64には、品詞と、その品詞の品詞IDとが対応付けられて登録されている。 In the part of speech table 64, a part of speech and a part of speech ID of the part of speech are registered in association with each other.
複合語テーブル65には、複合語と、その複合語の品詞と、その複合語の複合語IDとが対応付けられて登録されている。 In the compound word table 65, a compound word, a part of speech of the compound word, and a compound word ID of the compound word are registered in association with each other.
図2は、図1の辞書データベース12に記憶されている単語テーブル61を示す図である。
FIG. 2 is a diagram showing the word table 61 stored in the
図2の単語テーブル61には、単語(の表記)と、その単語の単語IDと、その単語の語幹とが対応付けられている。 In the word table 61 of FIG. 2, a word (notation), a word ID of the word, and a stem of the word are associated with each other.
語幹付与部33は、上述したように、図2の単語テーブル61を参照することにより、単語区切り部32から供給された文を構成する各単語に語幹を付与し、品詞付与部34に供給する。
As described above, the
具体的には、語幹付与部33では、例えば、文「I wanted to go to United States.」については、その文「I wanted to go to United States.」を構成する各単語「I」、「wanted」、「to」、「go」、「to」、「United」、「States」、「.」に対して、語幹「I」、「want」、「to」、「go」、「to」、「unit」、「state」、「.」が、それぞれ付与される。
Specifically, in the
ここで、語幹が付与された各単語を、単語、その単語の語幹という順番で、「単語/単語の語幹」という形式により表すこととすれば、語幹付与部33は、単語に語幹が付与された文『「I/I」、「wanted/want」、「to/to」、「go/go」、「to/to」、「United/unit」、「States/state」、「./.」』を、品詞付与部34に供給する。
Here, if each word to which a stem is assigned is expressed in the form of “word / word stem” in the order of the word and the stem of the word, the
次に、図3は、辞書データベース12に記憶されている品詞テーブル64を示す図である。
Next, FIG. 3 is a diagram showing the part of speech table 64 stored in the
図3の品詞テーブル64には、品詞と、その品詞の品詞IDとが対応付けられている。 The part of speech table 64 in FIG. 3 associates the part of speech with the part of speech ID of the part of speech.
例えば、品詞付与部34では、文「I wanted to go to United States.」については、その文「I wanted to go to United States.」を構成する、語幹が付与された各単語「I/I」、「wanted/want」、「to/to」、「go/go」、「to/to」、「United/unit」、「States/state」、「./.」に対して、各単語の品詞「NN」、「VBD」、「TO」、「VB」、「TO」、「VBN」、「NNS」、「ST」が、それぞれ付与される。
For example, in the part-of-
ここで、語幹および品詞が付与された各単語を、単語、その単語の品詞、その単語の語幹という順番で、「単語/単語の品詞/単語の語幹」という形式により表すとすれば、品詞付与部34は、単語に語幹と品詞が付与された文『「I/NN/I」、「wanted/VBD/want」、「to/TO/to」、「go/VB/go」、「to/TO/to」、「United/VBN/unit」、「States/NNS/state」、「./ST/.」』を、複合語品詞付与部35に供給する。
Here, if each word with a stem and part of speech is given in the form of “word / part of speech / word stem” in the order of the word, the part of speech of the word, and the stem of the word, the part of speech is given. The
なお、品詞「NN」は単数形の名詞を表し、品詞「VBD」は過去時制の動詞を表す。また、品詞「TO」はtoを表し、品詞「VB」は現在形の動詞を表す。さらに、品詞「VBN」は過去分詞形の動詞を表し、品詞「NNS」は複数形の名詞を表す。また、品詞「ST」は文末の句読点を表す。 The part of speech “NN” represents a singular noun, and the part of speech “VBD” represents a past tense verb. The part of speech “TO” represents to, and the part of speech “VB” represents the present verb. The part of speech “VBN” represents a past participle verb, and the part of speech “NNS” represents a plural noun. The part of speech “ST” represents the punctuation at the end of the sentence.
図4は、図1の辞書データベース12に記憶されている複合語テーブル65を示す図である。
FIG. 4 is a diagram showing the compound word table 65 stored in the
図4の複合語テーブル65には、複合語と、その複合語の品詞と、その複合語の複合語IDとが対応付けられている。 In the compound word table 65 of FIG. 4, the compound word, the part of speech of the compound word, and the compound word ID of the compound word are associated with each other.
例えば、複合語品詞付与部35では、文「I wanted to go to United States.」については、その文「I wanted to go to United States.」を構成する、語幹と品詞が付与された各単語「I/NN/I」、「wanted/VBD/want」、「to/TO/to」、「go/VB/go」、「to/TO/to」、「United/VBN/unit」、「States/NNS/state」、「./ST/.」のうちの単語「United/VBN/unit」および「States/NNS/state」を、単語「United」および「States」により構成される複合語「United States」とみなし、複合語「United States」に、その複合語の品詞「Place」を付与する。
For example, in the compound word part-of-
その後、複合語品詞付与部35は、単語「I/NN/I」、「wanted/VBD/want」、「to/TO/to」、「go/VB/go」、「to/TO/to」、「./ST/.」、および複合語「united states/Place/united states」を出力する。
After that, the compound word part-of-
なお、品詞「Place」は、場所を表す。 Note that the part of speech “Place” represents a place.
図5は、品詞付与部34が生成する単語ラティスを示す図である。
FIG. 5 is a diagram illustrating the word lattice generated by the part of
図5は、品詞付与部34が例えば、文「Time fly like an arrow.」から生成する単語ラティスを示している。
FIG. 5 shows a word lattice generated from the sentence “Time fly like an arrow.” By the part-of-
単語ラティスは、ノードとリンクとから構成される。 The word lattice is composed of nodes and links.
図5に示す丸(○)印は、ノードを表しており、ノードは、文「Time fly like an arrow.」を構成する単語、その単語の品詞の候補である品詞候補、および品詞がその品詞候補の単語の単語出現確率を有する。なお、最も左側に位置するノードは、文の始まりを表す文頭ノードφであり、単語出現確率として、値1を有する。
The circles (◯) shown in FIG. 5 represent nodes, and the nodes are words constituting the sentence “Time fly like an arrow.”, Part-of-speech candidates that are candidates for part-of-speech of the word, and part-of-speech is the part-of-speech. It has the word appearance probability of the candidate word. The leftmost node is a sentence head node φ representing the beginning of a sentence, and has a
図5に示す、前と後ろに隣接する2つのノードを結ぶ矢印は、リンクを表しており、リンクは、隣接する2つのノードそれぞれが有する2つの品詞候補間の共起確率を有する。 An arrow connecting two nodes adjacent to each other in the front and back shown in FIG. 5 represents a link, and the link has a co-occurrence probability between two part-of-speech candidates that each of the two adjacent nodes has.
品詞付与部34は、語幹付与部33から供給された文としての単語列から、図5に示す単語ラティスを生成し、その単語ラティスの最尤パスを求め、その最尤パス上のノードが有する各品詞候補を、最尤パス上のノードが有する各単語の品詞として、各単語に付与する。
The part-of-
なお、最尤パスとは、以下に示す式(1)が最大値をとるときの、単語ラティスのパスをいう。 The maximum likelihood path refers to a path of a word lattice when the following formula (1) takes the maximum value.
ここで、Πは、tを1からTまで変化させて、P(wt|pt)P(pt|pt-1)の乗算を行うことを表し、Tは、語幹付与部33から供給された文を構成する各単語の総数を表す。 Here, 表 し represents that t is changed from 1 to T and multiplication of P (w t | p t ) P (p t | p t−1 ) is performed. Represents the total number of words that make up the supplied sentence.
さらに、wtは、文の先頭からt番目の単語を表し、ptは、単語wtの品詞の候補(品詞候補)を表す。 Furthermore, w t represents the t-th word from the beginning of the sentence, and p t represents the part of speech candidate (part of speech candidate) of the word w t .
また、P(wt|pt)は、品詞が品詞候補ptの単語wtの単語出現確率を表し、P(pt|pt-1)は、単語wt-1の品詞候補pt-1と、単語wtの品詞候補ptとの共起確率を表している。 P (w t | p t ) represents the word appearance probability of the word w t whose part of speech is the part of speech candidate p t , and P (p t | p t-1 ) is the part of speech candidate p of the word w t-1 It represents the co-occurrence probability between t-1 and the part-of-speech candidate p t of the word w t .
なお、共起確率P(p1|p0)は、単語w1の品詞候補p1が、文の先頭から1番目に出現する品詞とされる確率を表す。 The co-occurrence probability P (p 1 | p 0 ) represents the probability that the part-of-speech candidate p 1 of the word w 1 is the part-of-speech that appears first from the beginning of the sentence.
次に、図6乃至図8を参照して、品詞付与部34が、図5に示す単語ラティスを生成する方法を説明する。
Next, with reference to FIGS. 6 to 8, a method in which the part-of-
図6は、図1の辞書データベース12に記憶されている単語出現確率テーブル62を示す図である。
FIG. 6 is a diagram showing a word appearance probability table 62 stored in the
図6の単語出現確率テーブル62には、所定の品詞の品詞IDと、品詞が所定の品詞の単語の単語IDと、品詞が所定の品詞の単語の単語出現確率(単語IDの単語が、品詞IDの品詞の単語として出現する確率)とが対応付けられている。 The word appearance probability table 62 in FIG. 6 includes a part of speech ID of a predetermined part of speech, a word ID of a word of a part of speech having a predetermined part of speech, and a word appearance probability of a word having a part of speech of a predetermined part of speech. The probability of appearing as a part-of-speech word of ID) is associated.
図7は、図1の辞書データベース12に記憶されている共起確率テーブル63を示す図である。
FIG. 7 is a diagram showing a co-occurrence probability table 63 stored in the
図7の共起確率テーブル63には、所定の品詞を表す前品詞IDと、所定の品詞に続く品詞を表す後品詞IDと、前品詞IDが表す所定の品詞と、その所定の品詞に続く後品詞IDが表す品詞との共起確率とが対応付けられている。 In the co-occurrence probability table 63 in FIG. 7, the previous part-of-speech ID representing a predetermined part of speech, the subsequent part-of-speech ID representing the part of speech following the predetermined part of speech, the predetermined part of speech represented by the previous part of speech ID, and the predetermined part of speech The co-occurrence probability with the part of speech represented by the subsequent part of speech ID is associated.
図8は、図6の単語出現確率テーブル62および図7の共起確率テーブル63と等価なHMM(Hidden Markov Model)を示している。 FIG. 8 shows an HMM (Hidden Markov Model) equivalent to the word appearance probability table 62 of FIG. 6 and the co-occurrence probability table 63 of FIG.
図8は、図6の単語出現確率テーブル62および図7の共起確率テーブル63についてのHMMを示す図である。 FIG. 8 is a diagram showing HMMs for the word appearance probability table 62 of FIG. 6 and the co-occurrence probability table 63 of FIG.
図8に示す丸印は、HMMの状態を表し、状態は、所定の品詞と、品詞が所定の品詞の単語と、品詞が所定の品詞の単語の単語出現確率とを有する。なお、各状態が有する所定の品詞と、品詞が所定の品詞の単語と、品詞が所定の品詞の単語の単語出現確率とは、図6の単語出現確率テーブル62が保持する、所定の品詞の品詞IDと、品詞が所定の品詞の単語の単語IDと、品詞が所定の品詞の単語の単語出現確率とに、それぞれ対応する。 The circles shown in FIG. 8 represent the state of the HMM, and the state has a predetermined part of speech, a word whose part of speech is a predetermined part of speech, and a word appearance probability of a word whose part of speech is a predetermined part of speech. Note that the predetermined part-of-speech that each state has, the word whose part-of-speech is the predetermined part-of-speech, and the word appearance probability of the word whose part-of-speech is the predetermined part-of-speech are the predetermined part-of-speech stored in the word appearance probability table 62 of FIG. The part-of-speech ID corresponds to the word ID of a word whose part of speech is a predetermined part of speech, and the word appearance probability of a word whose part of speech is a predetermined part of speech.
図8に示す、状態を結ぶ矢印は、HMMの状態遷移を表し、状態遷移は、状態遷移前の状態が有する品詞候補の前品詞IDと、状態遷移後の状態が有する品詞候補の後品詞IDとに対応付けられた図7の共起確率テーブル63の共起確率を有する。 The arrows connecting the states shown in FIG. 8 represent the state transitions of the HMM, and the state transitions include the previous part-of-speech ID of the part-of-speech candidate that the state before the state transition has and the subsequent part-of-speech ID of the part-of-speech candidate that the state after the state transition has. And the co-occurrence probability of the co-occurrence probability table 63 of FIG.
品詞付与部34は、図6の単語出現確率テーブル62と、図7の共起確率テーブル63とを参照することにより、図5の単語ラティス、つまり、図5の単語ラティスを構成するノードおよびリンクを生成する。
The part-of-
即ち、文「Time fly like an arrow.」を構成する単語のうちの、例えば、単語「like」を注目単語とすると、品詞付与部34は、図6の単語出現確率テーブル62から、語幹付与部33から供給された文を構成する注目単語「like」の単語IDに対応付けられた品詞IDおよび単語出現確率を読み出し、その品詞IDが示す品詞と、その単語出現確率とを有するノードを生成する。
That is, of the words constituting the sentence “Time fly like an arrow.”, For example, when the word “like” is the attention word, the part-of-
図5では、注目単語「like」の単語IDに対応付けられた品詞IDおよび単語出現確率のセットとして、品詞「IN」を示す品詞IDおよび単語出現確率「0.01」、品詞「VB」を示す他の品詞IDおよび他の単語出現確率「0.006」、品詞「NN」を示すさらに他の品詞IDおよびさらに他の単語出現確率「0.002」の3セットが存在し、品詞「IN」と単語出現確率「0.01」とを有するノード(図5中央下側)、品詞「VB」と単語出現確率「0.006」とを有するノード(図5中央中側)、品詞「NN」と単語出現確率「0.002」とを有するノード(図5中央上側)が、単語「like」についてのノードとして生成されている。 In FIG. 5, the part of speech ID indicating the part of speech “IN”, the word appearance probability “0.01”, and the part of speech “VB” are set as a set of the part of speech ID and the word appearance probability associated with the word ID of the attention word “like”. There are three sets of part-of-speech ID and other word appearance probability “0.006”, another part-of-speech ID indicating part-of-speech “NN”, and another word appearance probability “0.002”, part-of-speech “IN” and word appearance probability “ A node having 0.01 ”(lower center in FIG. 5), a node having part of speech“ VB ”and a word appearance probability“ 0.006 ”(middle center in FIG. 5), a part of speech“ NN ”and a word appearance probability“ 0.002 ”. The node having the upper side (upper center in FIG. 5) is generated as a node for the word “like”.
品詞付与部34は、単語「like」についてのノードを生成する場合と同様にして、文「Time fly like an arrow.」を構成する他の単語についてのノード(および文頭ノードφ)を生成する。
The part-of-
また、品詞付与部34は、図7の共起確率テーブル63から、隣接する各ノードが有する2つの品詞候補間の共起確率を読み出し、その共起確率を有するリンク(図5)を生成する。
The part-of-
図5では、文「Time fly like an arrow.」を構成する、例えば、隣接する単語「time」と「fly」について、単語「time」の品詞候補NNと、単語「fly」の品詞候補VBZとの共起確率0.3、および単語「time」の品詞候補NNと、単語「fly」の品詞候補NNとの共起確率0.4の2つの共起確率が存在し、ノード「time/NN」(単語が「time」で品詞(品詞候補)がNNのノード)と、ノード「fly/VBZ」との間に、共起確率が0.3のリンクが生成されているとともに、ノード「time/NN」と、ノード「fly/NN」との間に、共起確率が0.4のリンクが生成されている。品詞付与部34は、図5に示す他のリンクも同様にして生成する。
In FIG. 5, for example, for the adjacent words “time” and “fly” constituting the sentence “Time fly like an arrow.”, The part of speech candidate NN of the word “time” and the part of speech candidate VBZ of the word “fly” There are two co-occurrence probabilities of 0.3 and the co-occurrence probability NN between the part-of-speech candidate NN of the word “time” and the part-of-speech candidate NN of the word “fly”, and the node “time / NN” A link with a co-occurrence probability of 0.3 is generated between the node "fly / VBZ" and the node "time / NN" and the node "time / NN" A link with a co-occurrence probability of 0.4 is generated between "fly / NN". The part-of-
その後、品詞付与部34は、ノードおよびリンクを生成することにより得られた図5の単語ラティスに基づいて、語幹付与部33から供給された文を構成する各単語の品詞を、各単語に付与する。
After that, the part of
ところで、例えば、品詞付与部34は、上述したように、図6の単語出現確率テーブル62から、語幹付与部33から供給される文を構成する単語についての品詞IDおよび単語出現確率を読み出すことにより、語幹付与部33から供給される文を構成する単語についてのノードを生成する。
By the way, for example, the part-of-
しかしながら、語幹付与部33から供給された文を構成する注目単語が、その注目単語についての品詞IDおよび単語出現確率が図6の単語出現確率テーブル62に保持されていない未知語である場合、図6の単語出現確率テーブル62からは、注目単語についての品詞IDおよび単語出現確率を得ることができず、従って、注目単語についてのノードを生成することができない。
However, when the attention word constituting the sentence supplied from the word stem assigning
そこで、図1の品詞付与部34では、注目単語が、その注目単語についての品詞IDおよび単語出現確率が図6の単語出現確率テーブル62に記憶されている既知語である場合には、上述のように、図6の単語出現確率テーブル62から、その注目単語についてのノードを生成するが、注目単語が未知語である場合には、図7の共起確率テーブル63から、未知語である注目単語についてのノードを生成する。
Therefore, in the part-of-
図9は、図1の品詞付与部34の詳細な構成例を示すブロック図である。
FIG. 9 is a block diagram showing a detailed configuration example of the part-of-
品詞付与部34は、品詞候補決定部101、単語出現確率決定部102、単語ラティス生成部103、および単語品詞付与部104により構成される。
The part-of-
なお、品詞付与部34の品詞候補決定部101には、図1の語幹付与部33から、語幹が付与された各単語により構成される文が供給される。
Note that the part-of-speech
品詞候補決定部101は、図6の単語出現確率テーブル62や図7の共起確率テーブル63を参照することにより、語幹付与部33から供給された文を構成する各単語を、順次、注目単語として、その注目単語の品詞の候補である注目品詞候補を決定する。
The part-of-speech
即ち、注目単語についての品詞IDが図6の単語出現確率テーブル62に保持されており、従って、注目単語が既知語である場合、品詞候補決定部101は、図6の単語出現確率テーブル62を参照することにより、注目単語についての品詞IDが示す品詞を、注目品詞候補として決定する。
That is, the part-of-speech ID for the attention word is held in the word appearance probability table 62 in FIG. 6. Therefore, when the attention word is a known word, the part-of-speech
一方、注目単語についての品詞IDが図6の単語出現確率テーブル62に保持されておらず、従って、注目単語が未知語である場合、品詞候補決定部101は、図7の共起確率テーブル63を参照することにより、注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある品詞を、注目品詞候補として決定する。
On the other hand, if the part-of-speech ID for the attention word is not held in the word appearance probability table 62 in FIG. 6, and therefore the attention word is an unknown word, the part-of-speech
品詞候補決定部101は、注目品詞候補が決定された注目単語を、品詞が注目品詞候補の注目単語として、単語出現確率決定部102に供給する。
The part of speech
単語出現確率決定部102は、図6の単語出現確率テーブル62や図7の共起確率テーブル63を参照することにより、品詞候補決定部101から供給された、品詞が注目品詞候補の注目単語の単語出現確率を決定する。
The word appearance
即ち、注目単語の単語出現確率が図6の単語出現確率テーブル62に保持されており、従って、注目単語が既知語である場合、単語出現確率決定部102は、図6の単語出現確率テーブル62を参照することにより、注目単語の単語出現確率を決定する。
That is, the word appearance probability of the attention word is held in the word appearance probability table 62 in FIG. 6. Therefore, when the attention word is a known word, the word appearance
一方、注目単語の単語出現確率が図6の単語出現確率テーブル62に保持されておらず、従って、注目単語が未知語である場合、単語出現確率決定部102は、図7の共起確率テーブル63が保持する、隣接品詞候補と注目品詞候補との共起確率を参照することにより、注目単語の単語出現確率を決定する。
On the other hand, when the word appearance probability of the attention word is not held in the word appearance probability table 62 in FIG. 6 and, therefore, the attention word is an unknown word, the word appearance
文を構成する各単語の単語出現確率が決定された後、単語出現確率決定部102は、文を構成する各単語の単語出現確率を、単語ラティス生成部103に供給する。
After the word appearance probability of each word constituting the sentence is determined, the word appearance
単語ラティス生成部103は、図7の共起確率テーブル63が保持する共起確率(文の隣接する単語どうしについての共起確率)と、単語出現確率決定部102から供給された、文を構成する各単語の単語出現確率とに基づいて、単語ラティス(図5)を生成し、単語品詞付与部104に供給する。
The word
単語品詞付与部104は、単語ラティス生成部103から供給された単語ラティスの最尤パスを求め、その最尤パスに基づいて、各単語の品詞の品詞IDを決定する。
The word part-of-
さらに、単語品詞付与部104は、図3の品詞テーブル64を参照し、語幹付与部33から、品詞候補決定部101、単語出現確率決定部102、および単語ラティス生成部103を介して供給される文を構成する各単語に品詞を付与して、図1の複合語品詞付与部35に供給する。なお、単語品詞付与部104には、語幹付与部33から、品詞候補決定部101、単語出現確率決定部102、および単語ラティス生成部103を介して、語幹が付与された各単語により構成される文が供給される。
Further, the word part-of-
次に、図10乃至図17を参照して、注目単語が未知語である場合に、隣接品詞候補と注目品詞候補との共起確率に基づいて、図9の単語出現確率決定部102が、品詞が注目品詞候補の注目単語の単語出現確率を決定する単語出現確率決定処理を説明する。
Next, referring to FIG. 10 to FIG. 17, when the attention word is an unknown word, the word appearance
図10は、1つの注目品詞候補に対して、1つの隣接品詞候補としての、例えば注目単語の前に隣接する単語(以下、適宜、前隣接単語という)の品詞の候補(以下、適宜、前隣接品詞候補という)が存在する場合に、前隣接品詞候補と注目品詞候補との共起確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 10 shows a part-of-speech candidate (hereinafter referred to as the previous adjacent word) as an adjacent part-of-speech candidate, for example, a word adjacent to the target word (hereinafter referred to as the previous adjacent word as appropriate). FIG. 10 is a diagram for explaining word appearance probability determination processing for determining the co-occurrence probability between a previous adjacent part-of-speech candidate and a target part-of-speech candidate as a word appearance probability of a target word of the target part-of-speech candidate when the adjacent part-of-speech candidate exists); It is.
なお、単語Lの品詞Posを、以下、適宜、品詞L/Posと表す。 Note that the part of speech Pos of the word L is hereinafter appropriately expressed as part of speech L / Pos.
図10において、品詞L1/Pos1は、前隣接単語L1の前隣接品詞候補Pos1であり、品詞L2/Pos1は、前隣接品詞候補L1/Pos1と共起する可能性がある、注目単語L2の注目品詞候補である。 In FIG. 10, the part of speech L1 / Pos1 is the previous adjacent part of speech candidate Pos1 of the previous adjacent word L1, and the part of speech L2 / Pos1 is the attention of the attention word L2, which may co-occur with the previous adjacent part of speech candidate L1 / Pos1. It is a part of speech candidate.
また、図10において、注目品詞候補L2/Pos1の下に示される数字0.02は、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率を示している。 In FIG. 10, the number 0.02 shown below the target part-of-speech candidate L2 / Pos1 indicates the word appearance probability of the target word L2 whose part-of-speech is the target part-of-speech candidate L2 / Pos1.
図10では、前隣接品詞候補L1/Pos1と共起する可能性がある、単語L2の品詞として、品詞Pos1が存在し、前隣接品詞候補L1/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1| Pos1)が0.02となっている。 In FIG. 10, there is a part of speech Pos1 as a part of speech of the word L2 that may co-occur with the previous adjacent part of speech candidate L1 / Pos1, and the co-occurrence of the previous adjacent part of speech candidate L1 / Pos1 and the target part of speech candidate L2 / Pos1. The probability P (Pos1 | Pos1) is 0.02.
単語出現確率決定部102は、1つの注目品詞候補L2/Pos1に対して、1つの隣接品詞候補としての、例えば前隣接品詞候補L1/Pos1が存在する場合、前隣接品詞候補L1/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)=0.02を、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率として決定する。
For example, when there is a previous adjacent part-of-speech candidate L1 / Pos1 as one adjacent part-of-speech candidate for one attention-part-of-speech candidate L2 / Pos1, the word appearance
次に、図11は、1つの注目品詞候補に対して、1つの隣接品詞候補としての、例えば注目単語の後ろに隣接する単語(以下、適宜、後隣接単語という)の品詞の候補(以下、適宜、後隣接品詞候補という)が存在する場合に、後隣接品詞候補と注目品詞候補との共起確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 Next, FIG. 11 illustrates a candidate part of speech (hereinafter, referred to as a “subsequent adjoining word”, for example) adjacent to the target word as one adjacent part of speech candidate, for example, as a neighboring part of speech candidate. A word appearance probability determination process that determines the co-occurrence probability of the back adjacent part-of-speech candidate and the target part-of-speech candidate as the word appearance probability of the target word of the target part-of-speech candidate when It is a figure explaining.
図11において、品詞L3/Pos1は、後隣接単語L3の後隣接品詞候補Pos1であり、品詞L2/Pos1は、後隣接品詞候補L3/Pos1と共起する可能性がある、注目単語L2の注目品詞候補である。 In FIG. 11, part-of-speech L3 / Pos1 is post-neighbor part-of-speech candidate Pos1 of post-neighbor word L3, and part-of-speech L2 / Pos1 is the focus of attention word L2 that may co-occur with post-neighbor part-of-speech candidate L3 / Pos1. It is a part of speech candidate.
また、図11において、注目品詞候補L2/Pos1の下に示される数字0.01は、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率を示している。 In FIG. 11, the number 0.01 shown below the target part-of-speech candidate L2 / Pos1 indicates the word appearance probability of the target word L2 whose part-of-speech is the target part-of-speech candidate L2 / Pos1.
図11では、後隣接品詞候補L3/Pos1と共起する可能性がある、単語L2の品詞として、品詞Pos1が存在し、後隣接品詞候補L3/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1| Pos1)が0.01となっている。 In FIG. 11, there is a part of speech Pos1 as a part of speech of the word L2 that may co-occur with the rear neighboring part of speech candidate L3 / Pos1, and the co-occurrence of the rear neighboring part of speech candidate L3 / Pos1 and the target part of speech candidate L2 / Pos1. The probability P (Pos1 | Pos1) is 0.01.
単語出現確率決定部102は、1つの注目品詞候補L2/Pos1に対して、1つの隣接品詞候補としての、例えば後隣接品詞候補L3/Pos1が存在する場合、後隣接品詞候補L3/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1| Pos1)=0.02を、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率として決定する。
The word appearance
次に、図12は、1つの注目品詞候補に対して、2つの隣接品詞候補としての、例えば1つの前隣接品詞候補と1つの後隣接品詞候補とが存在する場合に、前隣接品詞候補と注目品詞候補との共起確率、および後隣接品詞候補と注目品詞候補との共起確率のうちの1の共起確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 Next, FIG. 12 shows a case where there are two adjacent part-of-speech candidates, for example, one front part-of-speech candidate and one rear part-of-speech candidate, with respect to one target part-of-speech candidate. The word appearance that determines the co-occurrence probability of the attention part-of-speech candidate and the co-occurrence probability of the next adjacent part-of-speech candidate and attention part-of-speech candidate as the word appearance probability of the attention word of the attention part-of-speech candidate It is a figure explaining a probability determination process.
図12において、品詞L1/Pos1は、前隣接単語L1の前隣接品詞候補Pos1であり、品詞L3/Pos1は、後隣接単語L3の後隣接品詞候補Pos1である。また、品詞L2/Pos1は、前隣接品詞候補L1/Pos1および後隣接品詞候補L3/Pos1と共起する可能性がある、注目単語L2の注目品詞候補である。 In FIG. 12, the part of speech L1 / Pos1 is the previous adjacent part of speech candidate Pos1 of the previous adjacent word L1, and the part of speech L3 / Pos1 is the subsequent adjacent part of speech candidate Pos1 of the rear adjacent word L3. The part-of-speech L2 / Pos1 is a candidate part-of-speech candidate for the target word L2, which may co-occur with the previous neighboring part-of-speech candidate L1 / Pos1 and the rear neighboring part-of-speech candidate L3 / Pos1.
さらに、図12において、注目品詞候補L2/Pos1の下に示される数字0.02は、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率を示している。 Further, in FIG. 12, the number 0.02 shown below the target part-of-speech candidate L2 / Pos1 indicates the word appearance probability of the target word L2 having the part-of-speech candidate L2 / Pos1.
図12では、前隣接品詞候補L1/Pos1と共起する可能性がある、単語L2の品詞として、品詞Pos1が存在し、前隣接品詞候補L1/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)が0.02となっている。 In FIG. 12, there is a part of speech Pos1 as a part of speech of the word L2 that may co-occur with the previous adjacent part of speech candidate L1 / Pos1, and the co-occurrence of the previous adjacent part of speech candidate L1 / Pos1 and the target part of speech candidate L2 / Pos1. The probability P (Pos1 | Pos1) is 0.02.
また、図12では、後隣接品詞候補L3/Pos1と共起する可能性がある、単語L2の品詞として、品詞Pos1が存在し、後隣接品詞候補L3/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)が0.01となっている。 In FIG. 12, the part of speech Pos1 exists as the part of speech of the word L2 that may co-occur with the rear adjacent part of speech candidate L3 / Pos1, and the rear adjacent part of speech candidate L3 / Pos1 and the target part of speech candidate L2 / Pos1 The co-occurrence probability P (Pos1 | Pos1) is 0.01.
単語出現確率決定部102は、1つの注目品詞候補L2/Pos1に対して、2つの隣接品詞候補としての、例えば1つの前隣接品詞候補L1/Pos1と1つの後隣接品詞候補L3/Pos1が存在する場合、前隣接品詞候補L1/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)=0.02、および後隣接品詞候補L3/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)=0.01のうちの、例えば最大値の共起確率P(Pos1|Pos1)=0.02を、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率として決定する。
The word appearance
図13は、1つの注目品詞候補に対して、前隣接品詞候補が複数存在する場合に、複数の前隣接品詞候補それぞれと注目品詞候補との共起確率のうちの最大値の共起確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 13 shows the maximum co-occurrence probability among the co-occurrence probabilities of each of the plurality of previous adjacent part-of-speech candidates and the target part-of-speech candidate when there are a plurality of previous adjacent part-of-speech candidates for one target part-of-speech candidate. FIG. 11 is a diagram for explaining word appearance probability determination processing in which the part of speech is determined as the word appearance probability of the attention word of the attention part of speech candidate.
図13では、1つの注目品詞候補L2/Pos1と共起する可能性がある複数の前隣接品詞候補として、前隣接品詞候補L1/Pos1乃至L1/Pos3が存在している。 In FIG. 13, previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 exist as a plurality of previous adjacent part-of-speech candidates that may co-occur with one notable part-of-speech candidate L2 / Pos1.
そして、図13では、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1),P(Pos1|Pos2),P(Pos1|Pos3)が、それぞれ、0.02,0.01,0.5となっている。 In FIG. 13, the co-occurrence probabilities P (Pos1 | Pos1), P (Pos1 | Pos2), and P (Pos1 |) of the three previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 and the target part-of-speech candidate L2 / Pos1. Pos3) is 0.02, 0.01 and 0.5, respectively.
単語出現確率決定部102は、1つの注目品詞候補L2/Pos1に対して、複数の前隣接品詞候補L1/Pos1乃至L1/Pos3が存在する場合、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)=0.02,P(Pos1|Pos2)=0.01,P(Pos1|Pos3)=0.5のうちの最大値の共起確率P(Pos1|Pos3)=0.5を、品詞が品詞候補L2/Pos1の注目単語L2の単語出現確率として決定する。
When there are a plurality of previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 for one target part-of-speech candidate L2 / Pos1, the word appearance
図14は、1つの注目品詞候補に対して、後隣接品詞候補が複数存在する場合に、注目品詞候補と複数の後隣接品詞候補それぞれとの共起確率のうちの最大値の共起確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 14 shows the maximum co-occurrence probability among the co-occurrence probabilities of the target part-of-speech candidate and each of the plurality of rear-adjacent part-of-speech candidates for a single target part-of-speech candidate. FIG. 11 is a diagram for explaining word appearance probability determination processing in which the part of speech is determined as the word appearance probability of the attention word of the attention part of speech candidate.
図14では、1つの注目品詞候補L2/Pos1と共起する可能性がある複数の後隣接品詞候補として、後隣接品詞候補L3/Pos1乃至L3/Pos3が存在している。 In FIG. 14, there are rear adjacent part of speech candidates L3 / Pos1 to L3 / Pos3 as a plurality of rear adjacent part of speech candidates that may co-occur with one notable part of speech candidate L2 / Pos1.
そして、図14では、注目品詞候補L2/Pos1と3つの後隣接品詞候補L3/Pos1乃至L3/Pos3との共起確率P(Pos1|Pos1),P(Pos2|Pos1),P(Pos3|Pos1)が、それぞれ、0.01,0.04,0.4となっている。 In FIG. 14, the co-occurrence probabilities P (Pos1 | Pos1), P (Pos2 | Pos1), P (Pos3 | Pos1) of the target part-of-speech candidate L2 / Pos1 and the three subsequent neighboring part-of-speech candidates L3 / Pos1 to L3 / Pos3 ) Are 0.01, 0.04, and 0.4, respectively.
単語出現確率決定部102は、1つの注目品詞候補L2/Pos1に対して、複数の後隣接品詞候補L3/Pos1乃至L3/Pos3が存在する場合、注目品詞候補L2/Pos1と3つの後隣接品詞候補L3/Pos1乃至L3/Pos3それぞれとの共起確率P(Pos1|Pos1)=0.01,P(Pos2|Pos1)=0.04,P(Pos3|Pos1)=0.4のうちの最大値の共起確率P(Pos3|Pos1)=0.4を、品詞が品詞候補L2/Pos1の注目単語L2の単語出現確率として決定する。
The word appearance
図15は、1つの注目品詞候補に対して、前隣接品詞候補と後隣接品詞候補が複数存在する場合に、複数の前隣接品詞候補それぞれと注目品詞候補との共起確率、および注目品詞候補と複数の後隣接品詞候補それぞれとの共起確率のうちの最大値の共起確率を、品詞が注目品詞候補の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 15 shows the co-occurrence probability of each of the plurality of previous adjacent part-of-speech candidates and the target part-of-speech candidate when there are a plurality of front-adjacent part-of-speech candidates and rear-adjacent part-of-speech candidates, and the target part-of-speech candidate FIG. 6 is a diagram for explaining word appearance probability determination processing in which the maximum value co-occurrence probability among the co-occurrence probabilities with each of a plurality of subsequent adjacent part-of-speech candidates is determined as the word appearance probability of the part-of-speech candidate of interest.
図15では、1つの注目品詞候補L2/Pos1と共起する可能性がある複数の前隣接品詞候補として、前隣接品詞候補L1/Pos1乃至L1/Pos3が存在している。 In FIG. 15, there are previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 as a plurality of previous adjacent part-of-speech candidates that may co-occur with one notable part-of-speech candidate L2 / Pos1.
そして、図15では、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1),P(Pos1|Pos2),P(Pos1|Pos3)が、それぞれ、0.02,0.01,0.5となっている。 In FIG. 15, the co-occurrence probabilities P (Pos1 | Pos1), P (Pos1 | Pos2), P (Pos1 |) of the three previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 and the target part-of-speech candidate L2 / Pos1. Pos3) is 0.02, 0.01 and 0.5, respectively.
また、図15では、1つの注目品詞候補L2/Pos1と共起する可能性がある複数の後隣接品詞候補として、後隣接品詞候補L3/Pos1乃至L3/Pos3が存在している。 Further, in FIG. 15, there are rear adjacent part-of-speech candidates L3 / Pos1 to L3 / Pos3 as a plurality of rear adjacent part-of-speech candidates that may co-occur with one notable part-of-speech candidate L2 / Pos1.
そして、図15では、注目品詞候補L2/Pos1と3つの後隣接品詞候補L3/Pos1乃至L3/Pos3それぞれとの共起確率P(Pos1|Pos1),P(Pos2|Pos1),P(Pos3|Pos1)が、それぞれ、0.01,0.04,0.4となっている。 In FIG. 15, the co-occurrence probabilities P (Pos1 | Pos1), P (Pos2 | Pos1), and P (Pos3 |) of the target part-of-speech candidate L2 / Pos1 and the three subsequent neighboring part-of-speech candidates L3 / Pos1 to L3 / Pos3, respectively. Pos1) is 0.01, 0.04, and 0.4, respectively.
単語出現確率決定部102は、1つの注目品詞候補L2/Pos1に対して、複数の前隣接品詞候補L1/Pos1乃至L1/Pos3と複数の後隣接品詞候補L3/Pos1乃至L3/Pos3とが存在する場合、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)=0.02,P(Pos1|Pos2)=0.01,P(Pos1|Pos3)=0.5、および注目品詞候補L2/Pos1と3つの後隣接品詞候補L3/Pos1乃至L3/Pos3それぞれとの共起確率P(Pos1|Pos1)=0.01,P(Pos2|Pos1)=0.04,P(Pos3|Pos1)=0.4のうちの最大値の共起確率P(Pos1|Pos3)=0.5を、品詞が品詞候補L2/Pos1の注目単語L2の単語出現確率として決定する。
The word appearance
図16は、1つの前隣接品詞候補と共起する可能性がある注目品詞候補が複数存在する場合に、前隣接品詞候補と注目品詞候補との共起確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 16 shows the co-occurrence probability between the previous adjacent part-of-speech candidate and the target part-of-speech candidate when there are a plurality of target part-of-speech candidates that may co-occur with one previous adjacent part-of-speech candidate. It is a figure explaining the word appearance probability determination process determined as a word appearance probability of a word.
図16において、品詞L1/Pos1は、前隣接単語L1の前隣接品詞候補Pos1であり、品詞L2/Pos(n)は、前隣接品詞候補L1/Pos1と共起する可能性がある、注目単語L2の注目品詞候補である(n=1,2,…,N)。 In FIG. 16, the part of speech L1 / Pos1 is the previous adjacent part of speech candidate Pos1 of the previous adjacent word L1, and the part of speech L2 / Pos (n) is a word of interest that may co-occur with the previous adjacent part of speech candidate L1 / Pos1. L2's feature part-of-speech candidates (n = 1, 2, ..., N).
また、図16において、注目品詞候補L2/Pos(n)の下に示される数字は、品詞が注目品詞候補L2/Pos(n)の注目単語L2の単語出現確率を示している。 Also, in FIG. 16, the numbers shown below the target part-of-speech candidate L2 / Pos (n) indicate the word appearance probability of the target word L2 whose part-of-speech is the target part-of-speech candidate L2 / Pos (n).
図16では、前隣接品詞候補L1/Pos1と共起する可能性がある、単語L2の品詞として、複数であるN個の品詞Pos1,Pos2,…,PosNが存在している。 In FIG. 16, there are a plurality of N part-of-speech Pos1, Pos2,..., PosN as part-of-speech of the word L2 that may co-occur with the previous adjacent part-of-speech candidate L1 / Pos1.
単語出現確率決定部102は、1つの前隣接品詞候補L1/Pos1と共起する可能性がある複数の注目品詞候補L2/Pos1,L2/Pos2,…,L2/PosNが存在する場合、図10で説明した場合と同様にして、前隣接品詞候補L1/Pos1とn番目の注目品詞候補L2/Pos(n)との共起確率P(Pos(n)|Pos1)を、品詞がn番目の品詞候補L2/Pos(n)の注目単語L2の単語出現確率として決定する。
When there are a plurality of part-of-speech candidates L2 / Pos1, L2 / Pos2,..., L2 / PosN that may co-occur with one previous neighboring part-of-speech candidate L1 / Pos1, the word appearance
図16では、例えば、前隣接品詞候補L1/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)が0.02となっており、その共起確率P(Pos1|Pos1)=0.02が、そのまま、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率として決定されている。なお、単語出現確率決定部102は、他の注目品詞候補L2/Pos2,L2/Pos3,…,L2/PosNの注目単語L2の単語出現確率も、同様に決定する。
In FIG. 16, for example, the co-occurrence probability P (Pos1 | Pos1) of the previous adjacent part-of-speech candidate L1 / Pos1 and the target part-of-speech candidate L2 / Pos1 is 0.02, and the co-occurrence probability P (Pos1 | Pos1) = 0.02. However, the part of speech is determined as the word appearance probability of the attention word L2 of the attention part of speech candidate L2 / Pos1 as it is. Note that the word appearance
図17は、複数の前隣接品詞候補と共起する可能性がある注目品詞候補が複数存在する場合に、複数の前隣接品詞候補それぞれと注目品詞候補との共起確率のうちの最大値を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 17 shows the maximum value of the co-occurrence probabilities of each of the plurality of previous adjacent part-of-speech candidates and the target part-of-speech candidate when there are a plurality of target part-of-speech candidates that may co-occur with a plurality of previous adjacent part-of-speech candidates. FIG. 11 is a diagram for explaining word appearance probability determination processing in which the part of speech is determined as the word appearance probability of the attention word of the attention part of speech candidate.
図17では、注目品詞候補L2/Pos(n)と共起する可能性がある複数の前隣接品詞候補として、前隣接品詞候補Pos1乃至Pos3が存在している。 In FIG. 17, there are previous adjacent part-of-speech candidates Pos1 to Pos3 as a plurality of previous adjacent part-of-speech candidates that may co-occur with the target part-of-speech candidate L2 / Pos (n).
単語出現確率決定部102は、図13で説明した場合と同様に、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos(n)との共起確率のうちの最大値の共起確率を、品詞が品詞候補L2/Pos(n)の注目単語L2の単語出現確率として決定する。
Similarly to the case described with reference to FIG. 13, the word appearance
次に、図18のフローチャートを参照して、図1の形態素解析エンジンが、文としての単語列を構成する各単語に、各単語の語幹および品詞を付与する単語解析処理を説明する。 Next, a word analysis process in which the morphological analysis engine in FIG. 1 gives a word stem and part of speech to each word constituting a word string as a sentence will be described with reference to the flowchart in FIG.
ステップS31において、文区切り部31は、文書を文単位に区切る所定のルールに基づいて、そこに供給された文書を文単位に分割し、分割することで得られた文を、単語区切り部32に供給して、処理は、ステップS32に進む。
In step S31, the
ステップS32において、単語区切り部32は、文を単語に分割する所定のルールに基づいて、文区切り部31から供給された文を、その文を構成する単語に分割し、単語に分割された文を、語幹付与部33に供給する。
In step S32, the
ステップS32の処理の終了後、処理は、ステップS33に進み、語幹付与部33は、図2の単語テーブル61を参照することにより、単語区切り部32から供給された文を構成する各単語に、各単語の語幹を付与する。
After completion of the process of step S32, the process proceeds to step S33, and the
また、ステップS33において、語幹付与部33は、図2の単語テーブル61から、単語区切り部32から供給された文を構成する各単語の単語IDを読み出し、単語IDに対応する、文を構成する単語と対応付ける。
Further, in step S33, the
さらに、ステップS33において、語幹付与部33は、単語に語幹が付与され、かつ、単語IDが対応付けられた文を、品詞付与部34に供給して、処理は、ステップS34に進む。
Further, in step S33, the
ステップS34乃至S36において、品詞付与部34は、辞書データベース12に記憶されている図6の単語出現確率テーブル62と図7の共起確率テーブル63とを参照することにより、語幹付与部33から供給された文としての単語列から単語ラティスを生成する。
In steps S34 to S36, the part-of-
即ち、ステップS34において、品詞付与部34の品詞候補決定部101は、語幹付与部33から供給された文を構成する各単語の品詞候補を決定する品詞候補決定処理を行う。
That is, in step S <b> 34, the part-of-speech
つまり、ステップS34において、品詞付与部34の品詞候補決定部101は、図6の単語出現確率テーブル62や図7の共起確率テーブル63を参照することにより、語幹付与部33から供給された文を構成する各単語を、順次、注目単語として、その注目単語の品詞の候補である注目品詞候補を決定し、注目品詞候補が決定された注目単語を、品詞が注目品詞候補の注目単語として、単語出現確率決定部102に供給する。
That is, in step S34, the part-of-speech
その後、処理は、ステップS34からステップS35に進み、単語出現確率決定部102は、文を構成する各単語の単語出現確率を決定する単語出現確率決定処理を行う。
Thereafter, the process proceeds from step S34 to step S35, and the word appearance
つまり、ステップS35において、単語出現確率決定部102は、図6の単語出現確率テーブル62や図7の共起確率テーブル63を参照することにより、品詞候補決定部101から供給された、品詞が注目品詞候補の注目単語の単語出現確率を決定する。また、ステップS35において、文を構成する各単語の単語出現確率が決定された後、単語出現確率決定部102は、文を構成する各単語の単語出現確率を、単語ラティス生成部103に供給して、処理は、ステップS36に進む。
That is, in step S35, the word appearance
ステップS36において、単語ラティス生成部103は、図7の共起確率テーブル63が保持する共起確率と、単語出現確率決定部102から供給された、文を構成する各単語の単語出現確率とに基づいて、単語ラティス(図5)を生成し、単語品詞付与部104に供給して、処理は、ステップS37に進む。
In step S36, the word
ステップS37において、単語品詞付与部104は、単語ラティス生成部103から供給された単語ラティスの最尤パスを求め、その最尤パスに基づいて、各単語の品詞の品詞IDを決定する。さらに、ステップS37において、単語品詞付与部104は、図3の品詞テーブル64を参照し、語幹付与部33から、品詞候補決定部101、単語出現確率決定部102、および単語ラティス生成部103を介して供給される文を構成する各単語に品詞を付与して、図1の複合語品詞付与部35に供給する。
In step S37, the word part-of-
なお、単語品詞付与部104には、語幹付与部33から、品詞候補決定部101、単語出現確率決定部102、および単語ラティス生成部103を介して、語幹が付与された各単語により構成される文が供給される。
The word part-of-
その後、処理は、ステップS37からステップS38に進み、複合語品詞付与部35は、品詞付与部34(単語品詞付与部104)から供給された文に複合語が含まれる場合、辞書データベース12に記憶されている複合語テーブル65を参照することにより、品詞付与部34から供給された文に含まれる、複合語とされる複数の単語を、複合語として、その複合語に、複合語の品詞を付与し、処理は、ステップS39に進む。
Thereafter, the process proceeds from step S37 to step S38, and the compound word part-of-
ステップS39において、複合語品詞付与部35は、品詞付与部34からの文に含まれる複合語を、「複合語/品詞/語幹」という形式で、図示せぬモニタなどに出力して表示させるとともに、品詞付与部34から供給された文を構成する各単語のうちの、複合語を構成していない単語を、「単語/品詞/語幹」という形式で、図示せぬモニタ等に出力して表示させて、単語解析処理は終了される。
In step S39, the compound word part-of-
次に、図19のフローチャートを参照して、図18のステップS34で行われる品詞候補決定処理を詳細に説明する。 Next, the part of speech candidate determination process performed in step S34 in FIG. 18 will be described in detail with reference to the flowchart in FIG.
ステップS61において、品詞候補決定部101は、語幹付与部33から供給された文を構成する各単語を、順次、注目単語として、その注目単語が未知語であるか否かを判定する。ステップS61において、注目単語が未知語であると判定された場合、処理は、ステップS63に進み、品詞候補決定部101は、図7の共起確率テーブル63を参照することにより、隣接品詞候補と共起する可能性がある品詞を注目品詞候補として決定し、品詞が注目品詞候補の注目単語を、単語出現確率決定部102に供給して、処理は、ステップS64に進む。
In step S61, the part-of-speech
一方、ステップS61において、注目単語が未知語でない、即ち、既知語であると判定された場合、処理は、ステップS62に進み、品詞候補決定部101は、図6の単語出現確率テーブル62を参照することにより、注目単語についての品詞IDが示す品詞を注目品詞候補として決定し、品詞が注目品詞候補の注目単語を、単語出現確率決定部102に供給して、処理は、ステップS64に進む。
On the other hand, if it is determined in step S61 that the word of interest is not an unknown word, that is, a known word, the process proceeds to step S62, and the part of speech
ステップS64において、品詞候補決定部101は、語幹付与部33から供給された文を構成する各単語すべてを注目単語としたか否かを判定し、注目単語としていないと判定された場合、処理は、ステップS61に戻り、文を構成する各単語のうちの、まだ注目単語としていない単語を、新たな注目単語として、以下、同様の処理を繰り返す。
In step S64, the part-of-speech
一方、ステップS64において、語幹付与部33から供給された文を構成する各単語すべてを注目単語としたと判定された場合、処理は、図18のステップS34にリターンして、その後、ステップS35に進む。
On the other hand, when it is determined in step S64 that all the words constituting the sentence supplied from the
次に、図20のフローチャートを参照して、図18のステップS35で行われる単語出現確率決定処理を詳細に説明する。 Next, the word appearance probability determination process performed in step S35 of FIG. 18 will be described in detail with reference to the flowchart of FIG.
ステップS91において、単語出現確率決定部102は、品詞候補決定部101から供給された、品詞が注目品詞候補の注目単語が未知語であるか否かを判定する。
In step S91, the word appearance
ステップS91において、注目単語が未知語であると判定された場合、処理は、ステップS93に進み、単語出現確率決定部102は、図7の共起確率テーブル63が保持する、隣接品詞候補と注目品詞候補との共起確率を参照することにより、品詞候補決定部101から供給された注目単語の単語出現確率を決定して、処理は、ステップS94に進む。
If it is determined in step S91 that the attention word is an unknown word, the process proceeds to step S93, and the word appearance
一方、ステップS91において、注目単語が既知語であると判定された場合、処理は、ステップS92に進み、単語出現確率決定部102は、図6の単語出現確率テーブル62を参照することにより、品詞候補決定部101から供給された注目単語の単語出現確率を決定して、処理は、ステップS94に進む。
On the other hand, if it is determined in step S91 that the word of interest is a known word, the process proceeds to step S92, and the word appearance
ステップS94において、単語出現確率決定部102は、文を構成する各単語すべての単語出現確率を決定したか否かを判定し、文を構成する各単語すべての単語出現確率を決定していないと判定された場合、処理は、ステップS91に戻り、以下、同様の処理を繰り返す。
In step S94, the word appearance
一方、ステップS94において、文を構成する各単語すべての単語出現確率を決定したと判定された場合、単語出現確率決定部102は、文を構成する各単語の単語出現確率を、単語ラティス生成部103に供給し、処理は、図18のステップS35にリターンして、その後、ステップS36に進む。
On the other hand, when it is determined in step S94 that the word appearance probabilities of all the words constituting the sentence have been determined, the word appearance
以上のように、図18のフローチャートを参照して説明した図1の形態素解析エンジンが行う単語解析処理では、注目単語が既知語である場合、図6の単語出現確率テーブル62を参照することにより、注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定される他、注目単語が未知語である場合、図7の共起確率テーブル63を参照することにより、注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定される。 As described above, in the word analysis process performed by the morphological analysis engine of FIG. 1 described with reference to the flowchart of FIG. 18, when the attention word is a known word, by referring to the word appearance probability table 62 of FIG. , The part-of-speech candidate, and the word appearance probability of the target word of the target part-of-speech candidate are determined, and if the target word is an unknown word, by referring to the co-occurrence probability table 63 of FIG. And the word appearance probability of the attention word whose part of speech is the attention part of speech candidate.
従って、文としての単語列に未知語が含まれる場合でも、単語列の隣接する単語どうしについての共起確率と、単語列を構成する各単語の単語出現確率とに基づいて、単語ラティスが生成されるため、未知語に、その未知語の品詞を付与することができる。 Therefore, even when an unknown word is included in a word string as a sentence, a word lattice is generated based on the co-occurrence probability between adjacent words in the word string and the word appearance probability of each word constituting the word string. Therefore, the part of speech of the unknown word can be given to the unknown word.
また、単語列において未知語が続く場合でも、例えば、未知語である注目単語に隣接する隣接単語が既知語であるときには、隣接単語の隣接品詞候補に基づいて、いわば、芋づる式に、注目単語の注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定されるため、未知語が続く単語列から単語ラティスを生成することができ、未知語に品詞を付与することができる。 Further, even when an unknown word continues in a word string, for example, when an adjacent word adjacent to an attention word that is an unknown word is a known word, the attention word is expressed based on the adjacent part-of-speech candidate of the adjacent word. Candidate part-of-speech candidates and the word appearance probability of the target word part-of-speech candidate part-of-speech candidate are determined, so that a word lattice can be generated from a word string followed by an unknown word, and a part-of-speech can be assigned to the unknown word .
即ち、未知語である注目単語に隣接する隣接単語の隣接品詞候補に基づいて、注目単語の注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定され、いま決定された未知語の品詞候補に基づいて、次に注目単語とされる未知語の注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定されて、以下、同様の処理が繰り返されることにより、すべての未知語に対して、未知語の品詞候補、および未知語の単語出現確率が決定されるため、未知語が続く場合でも、単語ラティスを生成することができ、未知語に品詞を付与することができる。 That is, based on the adjacent part-of-speech candidate of the adjacent word adjacent to the target word that is an unknown word, the target part-of-speech candidate of the target word and the word appearance probability of the target word whose target part-of-speech is the target part-of-speech candidate are determined. Based on the part-of-speech candidate of the word, the word-of-interest candidate of the unknown word to be the next attention word and the word appearance probability of the attention word of the part-of-speech candidate of interest are determined, and the same processing is repeated thereafter. The unknown word part-of-speech candidate and the unknown word appearance probability are determined for all unknown words, so even if the unknown word continues, a word lattice can be generated, and the unknown word is given a part of speech can do.
さらに、単語列において未知語がn-1個以上続く場合でも、単語列の隣接する単語どうしについての共起確率(バイグラム(bigram))により、未知語である注目単語の注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定されるため、未知語が続く回数に応じて選択され、未知語に品詞を付与するために用いられる複数のn-gramの共起確率を記憶しておく必要がなく、単語列の隣接する単語どうしについての共起確率を辞書データベース12に記憶しておけばよいことから、複数のn-gramの共起確率を記憶するときと比較して、メモリ容量を節約することができる。
Furthermore, even if n-1 or more unknown words continue in the word string, the candidate part-of-speech candidate of the word of interest, which is an unknown word, and the part of speech by the co-occurrence probability (bigram) of adjacent words in the word string Since the word appearance probability of the attention word of the attention part-of-speech candidate is determined, it is selected according to the number of times the unknown word continues, and the co-occurrence probabilities of multiple n-grams used to give part-of-speech to the unknown word are stored Since it is only necessary to store the co-occurrence probabilities for adjacent words in the word string in the
また、図1の形態素解析エンジンが行う単語解析処理では、例えば、文「t1(既知語),t2(未知語),t3(未知語),t4(既知語)」を構成する各単語のうちの未知語である単語t2およびt3に品詞を付与する場合、既知語である単語t4(の品詞候補)を考慮した単語ラティス、つまり、単語t4についてのノードを有する単語ラティスを生成することにより、単語t2およびt3に品詞を付与することができるため、単語t4の品詞を考慮しない、単語t1の品詞、単語t2の品詞の候補、単語t3の品詞の候補が、この順番で共起する3-gramの共起確率に基づいて、単語t2およびt3に品詞を付与する場合と比較して、未知語に正確に品詞を付与することができる。 In the word analysis process performed by the morphological analysis engine of FIG. 1, for example, among the words constituting the sentence “t1 (known word), t2 (unknown word), t3 (unknown word), t4 (known word)” To give parts of speech to the unknown words t2 and t3, by generating a word lattice that takes into account the word t4 (part of speech candidate) of the known word, that is, a word lattice having a node for the word t4, Since parts of speech can be given to words t2 and t3, the part of speech of word t1, the part of speech of word t2, the part of speech of word t3 co-occur in this order without considering the part of speech of word t4 Based on the co-occurrence probability of gram, the part of speech can be accurately assigned to the unknown word as compared with the case where the part of speech is assigned to the words t2 and t3.
また、図6の単語出現確率テーブル62が保持する単語出現確率や、図7の共起確率テーブル63が保持する共起確率等の確率分布が、実際の言語の確率分布を表わしているならば、実際の言語の確率分布に基づく品詞の付与を行うことができるため、あたかも人間が、文を構成する各単語に品詞を付与したかのような結果を得ることができる。 Further, if the probability distributions such as the word appearance probability held in the word appearance probability table 62 in FIG. 6 and the co-occurrence probability held in the co-occurrence probability table 63 in FIG. 7 represent the probability distribution of the actual language. Since part-of-speech can be assigned based on the probability distribution of the actual language, it is possible to obtain a result as if a person gave part-of-speech to each word constituting the sentence.
なお、図12乃至図15を参照して説明した単語出現確率決定処理では、複数の隣接品詞候補それぞれと注目品詞候補との共起確率のうちの、例えば最大値の共起確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定することとしたが、複数の隣接品詞候補それぞれと注目品詞候補との共起確率を合計した合計値を、品詞が注目品詞候補の注目単語の単語出現確率として決定するようにしてもよい。 In the word appearance probability determination process described with reference to FIGS. 12 to 15, for example, the maximum co-occurrence probability among the co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the target part-of-speech candidate is represented by the part of speech. Although it was decided to determine the word appearance probability of the attention word of the target part-of-speech candidate, the total value of the co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the target part-of-speech candidate is used, and the word of the attention word whose part of speech is the target part-of-speech candidate You may make it determine as an appearance probability.
図21は、1つの注目品詞候補に対して、隣接品詞候補としての前隣接品詞候補が複数存在する場合に、複数の隣接品詞候補それぞれと注目品詞候補との共起確率の合計値を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 21 shows the total value of the co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the target part-of-speech candidate when there are a plurality of previous part-of-speech candidates as adjacent part-of-speech candidates for one part-of-speech candidate. FIG. 10 is a diagram for explaining word appearance probability determination processing for determining the word appearance probability of the attention word of the attention part-of-speech candidate.
図21では、図13の場合と同様、1つの注目品詞候補L2/Pos1と共起する可能性がある複数の前隣接品詞候補として、前隣接品詞候補L1/Pos1乃至L1/Pos3が存在している。 In FIG. 21, as in the case of FIG. 13, there are previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 as a plurality of previous adjacent part-of-speech candidates that may co-occur with one notable part-of-speech candidate L2 / Pos1. Yes.
そして、図21では、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1),P(Pos1|Pos2),P(Pos1|Pos3)が、それぞれ、0.02,0.01,0.5となっている。 In FIG. 21, the co-occurrence probabilities P (Pos1 | Pos1), P (Pos1 | Pos2), and P (Pos1 |) of each of the three previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 and the target part-of-speech candidate L2 / Pos1. Pos3) is 0.02, 0.01 and 0.5, respectively.
単語出現確率決定部102は、1つの注目品詞候補L2/Pos1に対して、複数の前隣接品詞候補L1/Pos1乃至L1/Pos3が存在する場合、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)=0.02,P(Pos1|Pos2)=0.01,P(Pos1|Pos3)=0.5の合計値0.53(=0.02+0.01+0.5)を、品詞が品詞候補L2/Pos1の注目単語L2の単語出現確率として決定する。
When there are a plurality of previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 for one target part-of-speech candidate L2 / Pos1, the word appearance
図22は、複数の前隣接品詞候補と共起する可能性がある注目品詞候補が複数存在する場合に、複数の前隣接品詞候補それぞれと注目品詞候補との共起確率の合計値を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 22 illustrates the total value of the co-occurrence probabilities of each of the plurality of previous adjacent part-of-speech candidates and the target part-of-speech candidate when there are a plurality of target part-of-speech candidates that may co-occur with a plurality of previous adjacent part-of-speech candidates. FIG. 10 is a diagram for explaining word appearance probability determination processing for determining the word appearance probability of the attention word of the attention part-of-speech candidate.
図22では、注目品詞候補L2/Pos(n)と共起する可能性がある複数の前隣接品詞候補として、前隣接品詞候補L1/Pos1乃至L1/Pos3が存在している。 In FIG. 22, there are previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 as a plurality of previous adjacent part-of-speech candidates that may co-occur with the target part-of-speech candidate L2 / Pos (n).
単語出現確率決定部102は、図21で説明した場合と同様に、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos(n)との共起確率の合計値を、品詞が品詞候補L2/Pos(n)の注目単語L2の単語出現確率として決定する。
Similar to the case described with reference to FIG. 21, the word appearance
図23は、本発明を適用した形態素解析エンジンの一実施の形態の第2の構成例を示すブロック図である。 FIG. 23 is a block diagram showing a second configuration example of an embodiment of a morphological analysis engine to which the present invention is applied.
なお、図中、図1の場合に対応する部分については同一の符号を付してあり、以下、その説明は、適宜省略する。 In the figure, portions corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
即ち、図23の形態素解析エンジンは、単語解析部11の品詞付与部34に代えて、品詞付与部44が設けられており、辞書データベース12に、新たに品詞出現確率テーブル201が記憶されているほかは、図1の場合と同様に構成されている。
That is, the morphological analysis engine of FIG. 23 is provided with a part-of-
品詞付与部44には、語幹付与部33から、単語に語幹が付与され、かつ、単語IDが対応付けられた文が供給される。
The part-of-
品詞付与部44は、図6の単語出現確率テーブル62や、図7の共起確率テーブル63、品詞を一意に識別する品詞IDと、その品詞が出現する確率である品詞出現確率とを対応付けた品詞出現確率テーブル201を参照することにより、語幹付与部33から供給された文としての単語列から単語ラティス(図5)を生成する。
The part of
そして、品詞付与部44は、語幹付与部33から供給された文としての単語列から生成された単語ラティスに基づいて、語幹付与部33から供給された文を構成する各単語の品詞の品詞IDを決定し、図3の品詞テーブル64を参照することにより、語幹付与部33から供給された文を構成する各単語に、各単語の品詞を付与する。
The part-of-
品詞付与部44は、単語に品詞が付与された文を、複合語品詞付与部35に供給する。
The part-of-
図24は、図23の辞書データベース12に記憶されている品詞出現確率テーブル201を示す図である。
FIG. 24 shows a part-of-speech appearance probability table 201 stored in the
図19の品詞出現確率テーブル201には、品詞IDと、その品詞IDが表す品詞の品詞出現確率とが対応付けられている。 The part-of-speech appearance probability table 201 in FIG. 19 associates the part-of-speech ID with the part-of-speech appearance probability of the part of speech represented by the part-of-speech ID.
次に、図25は、図23の品詞付与部44の詳細な構成例を示すブロック図である。
Next, FIG. 25 is a block diagram illustrating a detailed configuration example of the part-of-
なお、図中、図9の品詞付与部34に対応する部分については同一の符号を付してあり、以下、その説明は、適宜省略する。
In the figure, portions corresponding to the part-of-
即ち、図25の品詞付与部44は、図9の単語出現確率決定部102に代えて、単語出現確率決定部302が設けられているほかは、図9の品詞付与部34と同様に構成されている。
That is, the part-of-
なお、単語出現確率決定部302には、品詞候補決定部101から、品詞が注目品詞候補の注目単語が供給される。
Note that the word appearance
単語出現確率決定部302は、図6の単語出現確率テーブル62や、図7の共起確率テーブル63、図24の品詞出現確率テーブル201を参照することにより、品詞候補決定部101から供給された、品詞が注目品詞候補の注目単語の単語出現確率を決定する。
The word appearance
即ち、注目単語の単語出現確率が図6の単語出現確率テーブル62に保持されており、従って、注目単語が既知語である場合、図9の単語出現確率決定部102の場合と同様に、単語出現確率決定部302は、図6の単語出現確率テーブル62を参照することにより、注目単語の単語出現確率を決定する。
That is, the word appearance probability of the attention word is held in the word appearance probability table 62 in FIG. 6, and therefore, when the attention word is a known word, as in the case of the word appearance
一方、注目単語の単語出現確率が図6の単語出現確率テーブル62に保持されておらず、従って、注目単語が未知語である場合、単語出現確率決定部302は、図7の共起確率テーブル63が保持する、隣接品詞候補と注目品詞候補との共起確率、および図19の品詞出現確率テーブル201が保持する、注目品詞候補の品詞出現確率を参照することにより、注目単語の単語出現確率を決定する。
On the other hand, when the word appearance probability of the attention word is not held in the word appearance probability table 62 of FIG. 6 and, therefore, the attention word is an unknown word, the word appearance
文を構成する各単語の単語出現確率が決定された後、単語出現確率決定部302は、文を構成する各単語の単語出現確率を、単語ラティス生成部103に供給する。
After the word appearance probability of each word constituting the sentence is determined, the word appearance
次に、図26および図27を参照して、注目単語が未知語である場合、隣接品詞候補と注目品詞候補との共起確率、および注目品詞候補の品詞出現確率に基づいて、図25の単語出現確率決定部302が、品詞が注目品詞候補の注目単語の単語出現確率を決定する単語出現確率決定処理を説明する。
Next, referring to FIG. 26 and FIG. 27, when the attention word is an unknown word, based on the co-occurrence probability of the adjacent part-of-speech candidate and the attention part-of-speech candidate, and the part-of-speech appearance probability of the attention part-of-speech candidate, FIG. A word appearance probability determination process in which the word appearance
図26は、1つの前隣接品詞候補と共起する可能性がある複数の注目品詞候補が存在する場合、前隣接品詞候補と注目品詞候補との共起確率と、注目品詞候補の品詞出現確率との積を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 26 shows the co-occurrence probability between the previous adjacent part-of-speech candidate and the target part-of-speech candidate and the part-of-speech appearance probability of the target part-of-speech candidate when there is a plurality of target part-of-speech candidates that may co-occur with one previous adjacent part-of-speech candidate FIG. 6 is a diagram for explaining a word appearance probability determination process for determining the product of the above as the word appearance probability of a target word whose part of speech is a target part of speech candidate.
図26において、品詞L1/Pos1は、前隣接単語L1の前隣接品詞候補Pos1であり、品詞L2/Pos(n)は、前隣接品詞候補L1/Pos1と共起する可能性がある、注目単語L2の注目品詞候補である(n=1,2,…,N)。 In FIG. 26, the part of speech L1 / Pos1 is the previous adjacent part of speech candidate Pos1 of the previous adjacent word L1, and the part of speech L2 / Pos (n) is a word of interest that may co-occur with the previous adjacent part of speech candidate L1 / Pos1. L2's feature part-of-speech candidates (n = 1, 2, ..., N).
また、図26において、注目品詞候補L2/Pos(n)の下に示される数字は、品詞が注目品詞候補L2/Pos(n)の注目単語L2の単語出現確率を示している。 Further, in FIG. 26, the numbers shown below the target part-of-speech candidate L2 / Pos (n) indicate the word appearance probability of the target word L2 having the part-of-speech candidate L2 / Pos (n).
図26では、品詞L1/Pos1と共起する可能性がある、単語L2の品詞として、複数であるN個の品詞Pos1,Pos2,…,PosNが存在している。 In FIG. 26, there are a plurality of N parts of speech Pos1, Pos2,..., PosN as parts of speech of the word L2 that may co-occur with the parts of speech L1 / Pos1.
ここで、図16を参照して説明した単語出現確率決定処理では、前隣接品詞候補L1/Pos1とn番目の注目品詞候補L2/Pos(n)との共起確率P(Pos(n)|Pos1)を、品詞がn番目の品詞候補L2/Pos(n)の注目単語L2の単語出現確率として決定されている。 Here, in the word appearance probability determination process described with reference to FIG. 16, the co-occurrence probability P (Pos (n) | of the previous adjacent part-of-speech candidate L1 / Pos1 and the n-th target part-of-speech candidate L2 / Pos (n) Pos1) is determined as the word appearance probability of the attention word L2 of the nth part-of-speech candidate L2 / Pos (n).
図26を参照して説明する単語出現確率決定処理では、前隣接品詞候補L1/Pos1とn番目の注目品詞候補L2/Pos(n)との共起確率P(Pos(n)|Pos1)を求める点で、図16を参照して説明した単語出現確率決定処理と共通する。 In the word appearance probability determination process described with reference to FIG. 26, the co-occurrence probability P (Pos (n) | Pos1) of the previous adjacent part-of-speech candidate L1 / Pos1 and the nth part-of-speech candidate L2 / Pos (n) is calculated. This is common to the word appearance probability determination process described with reference to FIG.
但し、図26を参照して説明する単語出現確率決定処理では、前隣接品詞候補L1/Pos1とn番目の注目品詞候補L2/Pos(n)との共起確率P(Pos(n)|Pos1)と、n番目の注目品詞候補L2/Pos(n)の品詞出現確率との積を、品詞がn番目の注目品詞候補L2/Pos(n)の注目単語L2の単語出現確率として決定する点で相違する。 However, in the word appearance probability determination process described with reference to FIG. 26, the co-occurrence probability P (Pos (n) | Pos1 between the previous adjacent part-of-speech candidate L1 / Pos1 and the n-th part-of-speech candidate L2 / Pos (n). ) And the part-of-speech appearance probability of the n-th attention part-of-speech candidate L2 / Pos (n) is determined as the word appearance probability of the attention word L2 of the part-of-speech candidate L2 / Pos (n) Is different.
図26では、例えば、前隣接品詞候補L1/Pos1と注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)が0.02となっている他、注目品詞候補L2/Pos1の品詞出現確率が0.04となっており、共起確率P(Pos1|Pos1)=0.02と品詞出現確率0.04との積0.02*0.04が、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率として決定されている。なお、単語出現確率決定部302は、他の注目品詞候補L2/Pos1,L2/Pos2,L2/Pos3,…,L2/PosNの注目単語L2の単語出現確率も、同様に決定する。
In FIG. 26, for example, the co-occurrence probability P (Pos1 | Pos1) between the previous adjacent part-of-speech candidate L1 / Pos1 and the target part-of-speech candidate L2 / Pos1 is 0.02, and the part-of-speech appearance probability of the target part-of-speech candidate L2 / Pos1 is The product 0.02 * 0.04 of the co-occurrence probability P (Pos1 | Pos1) = 0.02 and the part of speech appearance probability 0.04 is determined as the word appearance probability of the attention word L2 of the part of speech candidate L2 / Pos1 Yes. Note that the word appearance
図27は、前隣接品詞候補が複数存在する場合に、複数の前隣接品詞候補それぞれと注目品詞候補との共起確率のうちの最大値と、注目品詞候補の品詞出現確率との積を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 27 shows the product of the maximum value of the co-occurrence probabilities of each of the plurality of previous adjacent part-of-speech candidates and the target part-of-speech candidate and the part-of-speech appearance probability of the target part-of-speech candidate when there are a plurality of previous adjacent part-of-speech candidates. It is a figure explaining the word appearance probability determination process in which a part of speech is determined as the word appearance probability of the attention word of the attention part of speech candidate.
図27では、1つの注目品詞候補L2/Pos1と共起する可能性がある複数の前隣接品詞候補として、前隣接品詞候補L1/Pos1乃至L1/Pos3が存在している。 In FIG. 27, there are previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 as a plurality of previous adjacent part-of-speech candidates that may co-occur with one notable part-of-speech candidate L2 / Pos1.
そして、図27では、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1),P(Pos1|Pos2),P(Pos1|Pos3)が、それぞれ、0.02,0.01,0.5となっており、注目品詞候補L2/Pos1の品詞出現確率は0.03となっている。 In FIG. 27, the co-occurrence probabilities P (Pos1 | Pos1), P (Pos1 | Pos2), P (Pos1 |) of each of the three previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 and the target part-of-speech candidate L2 / Pos1. Pos3) is 0.02, 0.01, 0.5, respectively, and the part-of-speech appearance probability of the target part-of-speech candidate L2 / Pos1 is 0.03.
ここで、図13を参照して説明した単語出現確率決定処理では、1つの注目品詞候補L2/Pos1に対して、複数の前隣接品詞候補L1/Pos1乃至L1/Pos3が存在する場合、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)=0.02,P(Pos1|Pos2)=0.01,P(Pos1|Pos3)=0.5のうちの最大値の共起確率P(Pos1|Pos3)=0.5が、品詞が品詞候補L2/Pos1の注目単語L2の単語出現確率として決定されている。 Here, in the word appearance probability determination process described with reference to FIG. 13, if there are a plurality of previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 for one target part-of-speech candidate L2 / Pos1, Co-occurrence probabilities P (Pos1 | Pos1) = 0.02, P (Pos1 | Pos2) = 0.01, P (Pos1 | Pos3) = 0.5 for each of the previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 and the target part-of-speech candidate L2 / Pos1 The maximum value co-occurrence probability P (Pos1 | Pos3) = 0.5 is determined as the word appearance probability of the attention word L2 whose part of speech is L2 / Pos1.
図27を参照して説明する単語出現確率決定処理では、1つの注目品詞候補L2/Pos1に対して、複数の前隣接品詞候補L1/Pos1乃至L1/Pos3が存在する場合、3つの前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率P(Pos1|Pos1)=0.02,P(Pos1|Pos2)=0.01,P(Pos1|Pos3)=0.5のうちの最大値の共起確率P(Pos1|Pos3)=0.5を求める点で、図13を参照して説明した単語出現確率決定処理と共通する。 In the word appearance probability determination process described with reference to FIG. 27, when there are a plurality of previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 for one target part-of-speech candidate L2 / Pos1, three previous adjacent parts-of-speech. Co-occurrence probabilities P (Pos1 | Pos1) = 0.02, P (Pos1 | Pos2) = 0.01, P (Pos1 | Pos3) = 0.5 for each of candidates L1 / Pos1 to L1 / Pos3 and the target part-of-speech candidate L2 / Pos1 This is the same as the word appearance probability determination process described with reference to FIG. 13 in that the maximum co-occurrence probability P (Pos1 | Pos3) = 0.5 is obtained.
但し、図27を参照して説明する単語出現確率決定処理では、複数の前隣接品詞候補L1/Pos1乃至L1/Pos3それぞれと注目品詞候補L2/Pos1との共起確率のうちの最大値の共起確率P(Pos1|Pos1)=0.5と、注目品詞候補L2/Pos1の品詞出現確率0.03との積0.5*0.03を、注目単語L2の単語出現確率として決定する点で相違する。 However, in the word appearance probability determination process described with reference to FIG. 27, the maximum value of the co-occurrence probabilities of each of the plurality of previous adjacent part-of-speech candidates L1 / Pos1 to L1 / Pos3 and the target part-of-speech candidate L2 / Pos1 is shared. The difference is that the product 0.5 * 0.03 of the occurrence probability P (Pos1 | Pos1) = 0.5 and the part-of-speech appearance probability 0.03 of the target part-of-speech candidate L2 / Pos1 is determined as the word appearance probability of the target word L2.
以上のように、以上のように、図23乃至図27を参照して説明した図23の形態素解析エンジンが行う単語解析処理では、注目単語が既知語である場合、図6の単語出現確率テーブル62を参照することにより、注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定される他、注目単語が未知語である場合、図7の共起確率テーブル63を参照することにより注目品詞候補が決定され、図7の共起確率テーブル63および図24の品詞出現確率テーブル201を参照することにより、品詞が注目品詞候補の注目単語の単語出現確率が決定される。 As described above, in the word analysis process performed by the morphological analysis engine of FIG. 23 described with reference to FIGS. 23 to 27 as described above, when the attention word is a known word, the word appearance probability table of FIG. 62 is used to determine the candidate part-of-speech candidate and the word appearance probability of the target word whose target part-of-speech candidate is the target part-of-speech candidate. When the target word is an unknown word, the co-occurrence probability table 63 of FIG. 7 is referred to. Thus, the part of speech candidate of interest is determined, and the word appearance probability of the attention word whose part of speech is the candidate for part of speech candidate is determined by referring to the co-occurrence probability table 63 of FIG. 7 and the part of speech appearance probability table 201 of FIG.
従って、文としての単語列に未知語が含まれる場合でも、単語列の隣接する単語どうしについての共起確率と、単語列を構成する各単語の単語出現確率とに基づいて、単語ラティスが生成されるため、未知語に、その未知語の品詞を付与することができる。 Therefore, even when an unknown word is included in a word string as a sentence, a word lattice is generated based on the co-occurrence probability between adjacent words in the word string and the word appearance probability of each word constituting the word string. Therefore, the part of speech of the unknown word can be given to the unknown word.
また、単語列において未知語が続く場合でも、例えば、未知語である注目単語に隣接する隣接単語が既知語であるときには、隣接単語の隣接品詞候補に基づいて、いわば、芋づる式に、注目単語の注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定されるため、未知語が続く単語列から単語ラティスを生成することができ、未知語に品詞を付与することができる。 Further, even when an unknown word continues in a word string, for example, when an adjacent word adjacent to an attention word that is an unknown word is a known word, the attention word is expressed based on the adjacent part-of-speech candidate of the adjacent word. Candidate part-of-speech candidates and the word appearance probability of the target word part-of-speech candidate part-of-speech candidate are determined, so that a word lattice can be generated from a word string followed by an unknown word, and a part-of-speech can be assigned to the unknown word .
即ち、未知語である注目単語に隣接する隣接単語の隣接品詞候補に基づいて、注目単語の注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定され、いま決定された未知語の品詞候補に基づいて、次に注目単語とされる未知語の注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定されて、以下、同様の処理が繰り返されることにより、すべての未知語に対して、未知語の品詞候補、および未知語の単語出現確率が決定されるため、未知語が続く場合でも、単語ラティスを生成することができ、未知語に品詞を付与することができる。 That is, based on the adjacent part-of-speech candidate of the adjacent word adjacent to the target word that is an unknown word, the target part-of-speech candidate of the target word and the word appearance probability of the target word whose target part-of-speech is the target part-of-speech candidate are determined. Based on the part-of-speech candidate of the word, the word-of-interest candidate of the unknown word to be the next attention word and the word appearance probability of the attention word of the part-of-speech candidate of interest are determined, and the same processing is repeated thereafter. The unknown word part-of-speech candidate and the unknown word appearance probability are determined for all unknown words, so even if the unknown word continues, a word lattice can be generated, and the unknown word is given a part of speech can do.
さらに、単語列において未知語がn-1個以上続く場合でも、単語列の隣接する単語どうしについての共起確率(バイグラム(bigram))により、未知語である注目単語の注目品詞候補、および品詞が注目品詞候補の注目単語の単語出現確率が決定されるため、未知語が続く回数に応じて選択され、未知語に品詞を付与するために用いられる複数のn-gramの共起確率を記憶しておく必要がなく、単語列の隣接する単語どうしについての共起確率と品詞の品詞出現確率とを辞書データベース12に記憶しておけばよいことから、複数のn-gramの共起確率を記憶するときと比較して、メモリ容量を節約することができる。
Furthermore, even if n-1 or more unknown words continue in the word string, the candidate part-of-speech candidate of the word of interest, which is an unknown word, and the part of speech by the co-occurrence probability (bigram) of adjacent words in the word string Since the word appearance probability of the attention word of the attention part-of-speech candidate is determined, it is selected according to the number of times the unknown word continues, and the co-occurrence probabilities of multiple n-grams used to give part-of-speech to the unknown word are stored The co-occurrence probability between adjacent words in the word string and the part-of-speech appearance probability of the part of speech only need to be stored in the
また、図23の形態素解析エンジンが行う単語解析処理では、例えば、文「t1(既知語),t2(未知語),t3(未知語),t4(既知語)」を構成する各単語のうちの未知語である単語t2およびt3に品詞を付与する場合、既知語である単語t4(の品詞候補)を考慮した単語ラティス、つまり、単語t4についてのノードを有する単語ラティスを生成することにより、単語t2およびt3に品詞を付与することができるため、単語t4の品詞を考慮しない、単語t1の品詞、単語t2の品詞の候補、単語t3の品詞の候補が、この順番で共起する3-gramの共起確率に基づいて、単語t2およびt3に品詞を付与する場合と比較して、未知語に正確に品詞を付与することができる。 In the word analysis process performed by the morphological analysis engine of FIG. 23, for example, among the words constituting the sentence “t1 (known word), t2 (unknown word), t3 (unknown word), t4 (known word)” To give parts of speech to the unknown words t2 and t3, by generating a word lattice that takes into account the word t4 (part of speech candidate) of the known word, that is, a word lattice having a node for the word t4, Since parts of speech can be given to words t2 and t3, the part of speech of word t1, the part of speech of word t2, the part of speech of word t3 co-occur in this order without considering the part of speech of word t4 Based on the co-occurrence probability of gram, the part of speech can be accurately assigned to the unknown word as compared with the case where the part of speech is assigned to the words t2 and t3.
また、図6の単語出現確率テーブル62が保持する単語出現確率や、図7の共起確率テーブル63が保持する共起確率、図24の品詞出現確率テーブル201が保持する品詞出現確率等の確率分布が、実際の言語の確率分布を表わしているならば、実際の言語の確率分布に基づく品詞の付与を行うことができるため、あたかも人間が、文書を構成する各単語に品詞を付与したかのような結果を得ることができる。 Further, probabilities such as the word appearance probability held in the word appearance probability table 62 in FIG. 6, the co-occurrence probability held in the co-occurrence probability table 63 in FIG. 7, the part of speech appearance probability held in the part of speech appearance probability table 201 in FIG. If the distribution represents the probability distribution of the actual language, the part of speech can be assigned based on the probability distribution of the actual language, so it is as if a person has given a part of speech to each word constituting the document The following results can be obtained.
ところで、図26を参照して説明した単語出現確率決定処理では、単語出現確率決定部302は、注目品詞候補L2/Pos1と前隣接品詞候補L1/Pos1との共起確率P(Pos1|Pos1)=0.02と、注目品詞候補L2/Pos1の品詞出現確率0.04との積0.02*0.04を、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率として決定することとしたが、例えば、注目品詞候補L2/Pos1の品詞出現確率0.04を、品詞が注目品詞候補L1/Pos1の注目単語L1の単語出現確率として決定するようにしてもよい。
By the way, in the word appearance probability determination process described with reference to FIG. 26, the word appearance
図28は、注目品詞候補の品詞出現確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 28 is a diagram for explaining word appearance probability determination processing for determining the part-of-speech appearance probability of the target part-of-speech candidate as the word appearance probability of the target word whose part-of-speech is the target part-of-speech candidate.
図28において、品詞L1/Pos1は、前隣接単語L1の前隣接品詞候補Pos1であり、品詞L2/Pos(n)は、前隣接品詞候補L1/Pos1と共起する可能性がある、注目単語L2の注目品詞候補である(n=1,2,…,N)。 In FIG. 28, the part of speech L1 / Pos1 is the previous adjacent part of speech candidate Pos1 of the previous adjacent word L1, and the part of speech L2 / Pos (n) may co-occur with the previous adjacent part of speech candidate L1 / Pos1. L2's feature part-of-speech candidates (n = 1, 2, ..., N).
また、図28において、注目品詞候補L2/Pos(n)の下に示される数字は、品詞が注目品詞候補Pos(n)の注目単語L2の単語出現確率を示している。 In FIG. 28, the numbers shown below the target part-of-speech candidate L2 / Pos (n) indicate the word appearance probability of the target word L2 whose part-of-speech is the target part-of-speech candidate Pos (n).
単語出現確率決定部302は、注目品詞候補L2/Pos(n)の品詞出現確率を、品詞が注目品詞候補L2/Pos(n)の注目単語の単語出現確率として決定する。
The word appearance
図28では、例えば、注目品詞候補L2/Pos1の品詞出現確率が0.04となっており、その品詞出現確率0.04が、そのまま、品詞が注目品詞候補L2/Pos1の注目単語L2の単語出現確率として決定されている。なお、単語出現確率決定部302は、他の注目品詞候補L2/Pos2,L2/Pos3,…,L2/PosNの注目単語L2の単語出現確率も、同様に決定する。
In FIG. 28, for example, the part-of-speech appearance probability of the target part-of-speech candidate L2 / Pos1 is 0.04, and the part-of-speech appearance probability 0.04 is directly determined as the word appearance probability of the target word L2 of the target part-of-speech candidate L2 / Pos1. Has been. Note that the word appearance
この場合、図26を参照して説明した、前隣接品詞候補と注目品詞候補との共起確率と、注目品詞候補の品詞出現確率との積を、品詞が注目品詞候補の注目単語の単語出現確率として決定する場合と比較して、図7の共起確率テーブル63から前隣接品詞候補と注目品詞候補との共起確率を読み出す処理と、その共起確率と、注目品詞候補の品詞出現確率とを乗算する処理とを省略することができるため、注目単語の単語出現確率をより迅速に決定することができる。 In this case, the product of the co-occurrence probability between the previous adjacent part-of-speech candidate and the target part-of-speech candidate and the part-of-speech appearance probability of the target part-of-speech candidate described with reference to FIG. Compared with the case of determining as a probability, the process of reading the co-occurrence probability between the previous adjacent part-of-speech candidate and the target part-of-speech candidate from the co-occurrence probability table 63 of FIG. 7, the co-occurrence probability, and the part-of-speech appearance probability of the target part-of-speech candidate Therefore, the word appearance probability of the attention word can be determined more quickly.
また、注目品詞候補が複数存在する場合には、複数の注目品詞候補の注目単語の単語出現確率すべてを、同一の単語出現確率として決定するようにしてもよい。 Further, when there are a plurality of target part-of-speech candidates, all the word appearance probabilities of the target word of the plurality of target part-of-speech candidates may be determined as the same word appearance probability.
図29は、注目品詞候補が複数存在する場合には、複数の注目品詞候補の注目単語の単語出現確率すべてを、同一の単語出現確率として決定する単語出現確率決定処理を説明する図である。 FIG. 29 is a diagram for explaining word appearance probability determination processing for determining all word appearance probabilities of attention words of a plurality of attention part-of-speech candidates as the same word appearance probability when there are a plurality of attention part-of-speech candidates.
図29において、品詞L1/Pos1は、前隣接単語L1の前隣接品詞候補Pos1であり、品詞L2/Pos(n)は、前隣接品詞候補L1/Pos1と共起する可能性がある、注目単語L2の注目品詞候補である(n=1,2,…,N)。 In FIG. 29, the part of speech L1 / Pos1 is the previous adjacent part of speech candidate Pos1 of the previous adjacent word L1, and the part of speech L2 / Pos (n) is a word of interest that may co-occur with the previous adjacent part of speech candidate L1 / Pos1. L2's feature part-of-speech candidates (n = 1, 2, ..., N).
また、図29において、注目品詞候補L2/Pos(n)の下に示される数字は、品詞が注目品詞候補L2/Pos(n)の注目単語L2の単語出現確率を示している。 Also, in FIG. 29, the numbers shown below the target part-of-speech candidate L2 / Pos (n) indicate the word appearance probability of the target word L2 whose part-of-speech is the target part-of-speech candidate L2 / Pos (n).
単語出現確率決定部102や単語出現確率決定部302は、品詞が注目品詞候補L2/Pos(n)の注目単語L2の単語出現確率それぞれを、例えば、注目品詞候補の総数を表すN分の1などの同一の単語出現確率に決定する。
The word appearance
図29では、注目品詞候補の総数が1000個であり、従って、品詞が注目品詞候補L2/Pos(n)の注目単語L2の単語出現確率それぞれが、値1/1000=0.001をとる同一の単語出現確率として決定されている。
In FIG. 29, the total number of candidate part-of-speech candidates is 1000. Therefore, the same word in which the word appearance probabilities of the attention word L2 having the part-of-speech candidate L2 / Pos (n) take the
この場合、図28を参照して説明した、注目品詞候補の品詞出現確率を、品詞が注目品詞候補の注目単語の単語出現確率として決定する場合と比較して、図24の品詞出現確率テーブル201から、注目品詞候補の品種出現確率を読み出す必要がないため、注目単語の単語出現確率をより迅速に決定することができる。 In this case, the part-of-speech appearance probability table 201 of FIG. 24 is compared with the case where the part-of-speech appearance probability of the target part-of-speech candidate described with reference to FIG. 28 is determined as the word appearance probability of the target word of the target part-of-speech candidate. Therefore, since it is not necessary to read the type appearance probability of the target part-of-speech candidate, the word appearance probability of the target word can be determined more quickly.
なお、図9(図25)の品詞候補決定部101では、注目単語が未知語である場合、図7の共起確率テーブル63を参照することにより、隣接品詞候補と共起する可能性がある品詞を、注目品詞候補として決定することとしたが、例えば、隣接品詞候補と複数の品詞それぞれとの共起確率が最大値をとるときの、複数の品詞のうちの1の品詞を、注目品詞候補(注目単語の品詞)として決定するようにしてもよい。
Note that in the part of speech
図30は、品詞候補決定部101が、隣接品詞候補と複数の品詞それぞれとの共起確率が最大値をとるときの、複数の品詞のうちの1の品詞を、注目品詞候補として決定する品詞候補決定処理を説明する図である。
FIG. 30 shows a part of speech in which the part of speech
図30において、品詞L1/Pos1は、前隣接単語L1の前隣接品詞候補Pos1であり、品詞L2/Pos10は、前隣接品詞候補L1/Pos1と品詞Pos(n)との共起確率が最大値の共起確率P(Pos10|Pos1)=0.2をとるときの品詞を示している(n=1,2,…,10,…,N)。 In FIG. 30, the part of speech L1 / Pos1 is the previous adjacent part of speech candidate Pos1 of the previous adjacent word L1, and the part of speech L2 / Pos10 has the maximum co-occurrence probability between the previous adjacent part of speech candidate L1 / Pos1 and the part of speech Pos (n). The part of speech when the co-occurrence probability P (Pos10 | Pos1) = 0.2 is shown (n = 1, 2,..., 10,..., N).
図30では、前隣接品詞候補L1/Pos1と共起する可能性がある、単語L2の品詞として、品詞Pos1,Pos2,…,Pos10,…,PosNが存在し、前隣接品詞候補L1/Pos1と注目品詞候補L2/Pos10との共起確率P(Pos10|Pos1)が、前隣接品詞候補L1/Pos1と複数の注目品詞候補L2/Pos(n)それぞれとの共起確率のうちの最大値の共起確率である0.2となっている。 In FIG. 30, there are part of speech Pos1, Pos2, ..., Pos10, ..., PosN as part of speech of word L2, which may co-occur with previous adjacent part of speech candidate L1 / Pos1, and the previous adjacent part of speech candidate L1 / Pos1 The co-occurrence probability P (Pos10 | Pos1) with the target part-of-speech candidate L2 / Pos10 is the maximum of the co-occurrence probabilities between the previous adjacent part-of-speech candidate L1 / Pos1 and each of the plurality of target part-of-speech candidates L2 / Pos (n). The co-occurrence probability is 0.2.
品詞候補決定部101は、前隣接品詞候補L1/Pos1と共起する可能性がある品詞Pos(n)のうちの1の品詞を、注目単語L1の注目品詞候補として決定する。
The part-of-speech
図30では、例えば、隣接品詞候補L1/Pos1と複数の品詞Pos(n)との共起確率が最大値の共起確率P(Pos10|Pos1)=0.2をとるときの、複数の品詞Pos(n)のうちの1の品詞Pos10が、注目品詞候補として決定されている。 In FIG. 30, for example, when the co-occurrence probability of the adjacent part-of-speech candidate L1 / Pos1 and the plurality of part-of-speech Pos (n) takes the maximum co-occurrence probability P (Pos10 | Pos1) = 0.2, a plurality of part-of-speech Pos ( The part of speech Pos10 of n) is determined as the candidate part of speech candidate.
なお、図30を参照して説明した品詞候補決定処理では、1の品詞が注目品詞候補とされ、従って、その注目品詞候補が必ず注目単語の品詞とされるため、品詞が注目品詞候補の注目単語の単語出現確率としては、例えば、値1をとるようしてもよい。
In the part-of-speech candidate determination process described with reference to FIG. 30, one part-of-speech is set as the target part-of-speech candidate, and therefore, the target part-of-speech candidate is always set as the part of speech of the target word. As the word appearance probability of the word, for example, the
また、品詞候補決定部101では、注目単語が未知語である場合、図3の品詞テーブル64に保持された品詞すべてを、注目品詞候補として決定することができる。
Further, when the word of interest is an unknown word, the part of speech
次に、図31は、本発明を適用した形態素解析エンジンの一実施の形態の第3の構成例を示すブロック図である。 Next, FIG. 31 is a block diagram showing a third configuration example of an embodiment of a morphological analysis engine to which the present invention is applied.
なお、図中、図23の場合に対応する部分については同一の符号を付してあり、以下、その説明は、適宜省略する。 In the figure, portions corresponding to those in FIG. 23 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
即ち、図31の形態素解析エンジンは、新たに学習部13が設けられているほかは、図23の場合と同様に構成される。
That is, the morphological analysis engine of FIG. 31 is configured in the same manner as in FIG. 23 except that a
なお、図31の形態素解析エンジンには、例えば、ユーザが、図示せぬ操作部を操作することにより、テキストデータとしての文書や新聞等の文のサンプルである学習コーパスが、その学習コーパスを構成する各単語に、各単語の品詞が付与された形で入力されるようになっており、このとき、学習部13には、学習コーパスが供給される。
In the morphological analysis engine of FIG. 31, for example, when a user operates an operation unit (not shown), a learning corpus that is a sample of a sentence such as a document or a newspaper as text data constitutes the learning corpus. Each word is input in a form in which the part of speech of each word is given. At this time, a learning corpus is supplied to the
学習部13は、例えば、図31の形態素解析エンジンが行う単語解析処理が行われる前に、入力される学習コーパスに基づいて、図6の単語出現確率テーブル62や、図7の共起確率テーブル63、図24の品詞出現確率テーブル201を生成し、辞書データベース12に供給して記憶させる。
For example, the
また、学習部13は、学習コーパスに基づいて、必要に応じて、図6の単語出現確率テーブル62や、図7の共起確率テーブル63、図19の品詞出現確率テーブル201を生成するようにしてもよい。
Further, the
また、例えば、図2の単語テーブル61や図3の品詞テーブル64、図4の複合語テーブル65については、英語の辞書などを学習コーパスとして用いることにより、学習部13により生成される。
Further, for example, the word table 61 in FIG. 2, the part of speech table 64 in FIG. 3, and the compound word table 65 in FIG. 4 are generated by the
上述した図18の単語解析処理、図19の品詞候補決定処理、および図20の単語出現確率決定処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。図18の単語解析処理、図19の品詞候補決定処理、および図20の単語出現確率決定処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。 The above-described word analysis processing in FIG. 18, part-of-speech candidate determination processing in FIG. 19, and word appearance probability determination processing in FIG. 20 can be executed by dedicated hardware or can be executed by software. When the word analysis process of FIG. 18, the part-of-speech candidate determination process of FIG. 19, and the word appearance probability determination process of FIG. 20 are executed by software, a program constituting the software is incorporated in dedicated hardware. Installed from a program recording medium, for example, a general-purpose personal computer capable of executing various functions by installing various computers or various programs.
図32は、プログラムを実行することにより上述した図18の単語解析処理、図19の品詞候補決定処理、および図20の単語出現確率決定処理を行うコンピュータの構成例を示すブロック図である。 FIG. 32 is a block diagram illustrating a configuration example of a computer that performs the above-described word analysis processing of FIG. 18, part of speech candidate determination processing of FIG. 19, and word appearance probability determination processing of FIG. 20 by executing a program.
CPU(Central Processing Unit)901は、ROM(Read Only Memory)902、または記憶部908に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)903には、CPU901が実行するプログラムやデータなどが適宜記憶される。これらのCPU901、ROM902、およびRAM903は、バス904により相互に接続されている。
A CPU (Central Processing Unit) 901 executes various processes according to a program stored in a ROM (Read Only Memory) 902 or a
CPU901にはまた、バス904を介して入出力インタフェース905が接続されている。入出力インタフェース905には、キーボード、マウス、マイクロホンなどよりなる入力部906、モニタ、スピーカなどよりなる出力部907が接続されている。CPU901は、入力部906から入力される指令に対応して各種の処理を実行する。そして、CPU901は、処理の結果を出力部907に出力する。
An input /
入出力インタフェース905に接続されている記憶部908は、例えばハードディスクからなり、CPU901が実行するプログラムや各種のデータを記憶する。通信部909は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
The
入出力インタフェース905に接続されているドライブ910は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア911が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部908に転送され、記憶される。
A
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図32に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア911、または、プログラムが一時的もしくは永続的に格納されるROM902や、記憶部908を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部909を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
As shown in FIG. 32, a program recording medium that stores a program that is installed in a computer and is ready to be executed by the computer includes a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only). Memory), DVD (Digital Versatile Disc), a
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。 In the present specification, the step of describing the program stored in the program recording medium is not limited to the processing performed in time series in the described order, but is not necessarily performed in time series. Or the process performed separately is also included.
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。 The embodiments of the present invention are not limited to the above-described embodiments, and various modifications can be made without departing from the scope of the present invention.
11 単語解析部, 12 辞書データベース, 31 文区切り部, 32 単語区切り部, 33 語幹付与部, 34 品詞付与部, 35 複合語品詞付与部, 44 品詞付与部, 61 単語テーブル, 62 単語出現確率テーブル, 63 共起確率テーブル, 64 品詞テーブル, 65 複合語テーブル, 101 品詞候補決定部, 102 単語出現確率決定部, 103 単語ラティス生成部, 104 単語品詞付与部, 201 品詞出現確率テーブル, 302 単語出現確率決定部 11 word analysis section, 12 dictionary database, 31 sentence delimiter section, 32 word delimiter section, 33 word stem assigning section, 34 part of speech assignment section, 35 compound word part of speech assignment section, 44 part of speech assignment section, 61 word table, 62 word appearance probability table , 63 Co-occurrence probability table, 64 part-of-speech table, 65 compound word table, 101 part-of-speech candidate determination unit, 102 word appearance probability determination unit, 103 word lattice generation unit, 104 word part-of-speech assignment unit, 201 part-of-speech appearance probability table, 302 word appearance Probability determiner
Claims (15)
予め求められた、2つの品詞が共起する確率である共起確率が記憶された記憶手段に記憶されている前記共起確率に基づいて、前記単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、前記注目単語の品詞の候補である注目品詞候補を決定する品詞候補決定手段と、
前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、品詞が前記注目品詞候補の前記注目単語が出現する確率である単語出現確率を決定する単語出現確率決定手段と、
前記単語列の隣接する単語どうしについての前記共起確率と、前記単語列を構成する各単語の単語出現確率とに基づいて、前記単語ラティスを生成する単語ラティス生成手段と
を備える情報処理装置。 In an information processing apparatus that generates a word lattice from a word string,
Based on the co-occurrence probabilities stored in the storage means in which the co-occurrence probabilities, which are the probabilities of two parts of speech co-occurring, are stored in advance, pay attention to the words constituting the word string. Part-of-speech candidates for determining a part-of-speech candidate that is a candidate for part-of-speech for the target word that may co-occur with a part-of-speech candidate for a part-of-speech that is a candidate for part-of-speech that is a word adjacent to the front or back of the target word A determination means;
Word appearance probability determining means for determining a word appearance probability that is a probability that the attention word of the attention part of speech candidate appears, based on the co-occurrence probability of the adjacent part of speech candidate and the attention part of speech candidate;
An information processing apparatus comprising: a word lattice generation unit configured to generate the word lattice based on the co-occurrence probability of adjacent words in the word string and the word appearance probability of each word constituting the word string.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the word appearance probability determining unit determines a co-occurrence probability between the adjacent part-of-speech candidate and the attention part-of-speech candidate as the word appearance probability of the attention word.
前記単語出現確率決定手段は、複数の前記隣接品詞候補それぞれと前記注目品詞候補との共起確率のうちの最大値を、前記注目単語の前記単語出現確率として決定する
請求項1に記載の情報処理装置。 In the case where there are a plurality of adjacent part of speech candidates,
The information according to claim 1, wherein the word appearance probability determining unit determines a maximum value among co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the attention part-of-speech candidate as the word appearance probability of the attention word. Processing equipment.
前記単語出現確率決定手段は、複数の前記隣接品詞候補それぞれと前記注目品詞候補との共起確率を合計した合計値を、前記注目単語の前記単語出現確率として決定する
請求項1に記載の情報処理装置。 In the case where there are a plurality of adjacent part of speech candidates,
2. The information according to claim 1, wherein the word appearance probability determining unit determines a total value obtained by summing up the co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the attention part-of-speech candidate as the word appearance probability of the attention word. Processing equipment.
前記単語出現確率決定手段は、前記隣接品詞候補と前記注目品詞候補との共起確率と、前記注目品詞候補の品詞出現確率との積を、前記注目単語の前記単語出現確率として決定する
請求項1に記載の情報処理装置。 The storage means further stores a part-of-speech appearance probability which is a probability of appearance of a part-of-speech obtained in advance,
The word appearance probability determining means determines a product of a co-occurrence probability of the adjacent part-of-speech candidate and the target part-of-speech candidate and a part-of-speech appearance probability of the target part-of-speech candidate as the word appearance probability of the target word. The information processing apparatus according to 1.
前記単語出現確率決定手段は、複数の前記隣接品詞候補それぞれと前記注目品詞候補との共起確率のうちの最大値と、前記注目品詞候補の品詞出現確率との積を、前記注目単語の前記単語出現確率として決定する
請求項5に記載の情報処理装置。 In the case where there are a plurality of adjacent part of speech candidates,
The word appearance probability determining means calculates the product of the maximum value of the co-occurrence probabilities of each of the plurality of adjacent part-of-speech candidates and the target part-of-speech candidate and the part-of-speech appearance probability of the target part-of-speech candidate. The information processing apparatus according to claim 5, wherein the information processing apparatus determines the word appearance probability.
請求項5に記載の情報処理装置。 The information processing apparatus according to claim 5, wherein the co-occurrence probability or the part-of-speech appearance probability stored in the storage unit is learned in advance by a learning corpus that is a sentence sample.
前記注目単語の品詞が付与された前記注目単語を出力する出力手段と
をさらに備える請求項1に記載の情報処理装置。 Based on the word lattice generated by the word lattice generating means, word part-of-speech giving means for giving the part-of-speech of the attention word to the attention word;
The information processing apparatus according to claim 1, further comprising: an output unit that outputs the attention word to which the part of speech of the attention word is assigned.
前記記憶手段に記憶された前記単語テーブルに基づいて、前記注目単語に、前記注目単語の語幹を付与する語幹付与手段をさらに備え、
前記出力手段は、前記注目単語の品詞および語幹が付与された前記注目単語を出力する
請求項8に記載の情報処理装置。 The storage means further stores a word table in which a word is associated with a stem of the word,
Based on the word table stored in the storage means, further comprising a stem grant means for giving a stem of the attention word to the attention word;
The information processing apparatus according to claim 8, wherein the output unit outputs the attention word to which a part of speech and a stem of the attention word are assigned.
前記記憶手段に記憶された前記複合語テーブルに基づいて、前記単語列に含まれる複合語に、その複合語の品詞を付与する複合語品詞付与手段をさらに備え、
前記出力手段は、さらに、前記単語列に含まれる複合語の品詞が付与された前記複合語を出力する
請求項8に記載の情報処理装置。 The storage means further stores a compound word table in which a compound word composed of a plurality of words and a part of speech of the compound word are associated with each other,
Based on the compound word table stored in the storage means, further comprising compound word part-of-speech giving means for giving a part of speech of the compound word to the compound word included in the word string,
The information processing apparatus according to claim 8, wherein the output unit further outputs the compound word to which the part of speech of the compound word included in the word string is assigned.
前記単語出現確率決定手段は、
前記注目単語の単語出現確率が前記記憶手段に記憶されている場合、前記記憶手段に記憶されている単語出現確率に基づいて、前記注目単語の単語出現確率を決定し、
前記注目単語の単語出現確率が前記記憶手段に記憶されていない場合、前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、前記注目単語の共起確率を決定する
請求項1に記載の情報処理装置。 The storage means further stores a word appearance probability obtained in advance, which is a probability that a word having a predetermined part of speech appears.
The word appearance probability determining means is
When the word appearance probability of the attention word is stored in the storage means, the word appearance probability of the attention word is determined based on the word appearance probability stored in the storage means,
The co-occurrence probability of the attention word is determined based on the co-occurrence probability of the adjacent part-of-speech candidate and the attention part-of-speech candidate when the word appearance probability of the attention word is not stored in the storage unit. The information processing apparatus described.
請求項11に記載の情報処理装置。 The information processing apparatus according to claim 11, wherein the word appearance probability stored in the storage unit is learned in advance by a learning corpus that is a sample of a sentence.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the part-of-speech candidate determination unit determines a part-of-speech having the maximum co-occurrence probability with the adjacent part-of-speech candidate as the target part-of-speech candidate.
予め求められた、2つの品詞が共起する確率である共起確率が記憶された記憶手段に記憶されている前記共起確率に基づいて、前記単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、前記注目単語の品詞の候補である注目品詞候補を決定し、
前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、品詞が前記注目品詞候補の前記注目単語が出現する確率である単語出現確率を決定し、
前記単語列の隣接する単語どうしについての前記共起確率と、前記単語列を構成する各単語の単語出現確率とに基づいて、前記単語ラティスを生成する
ステップを含む情報処理方法。 In an information processing method of an information processing apparatus that generates a word lattice from a word string,
Based on the co-occurrence probabilities stored in the storage means in which the co-occurrence probabilities, which are the probabilities of two parts of speech co-occurring, are stored in advance, pay attention to the words constituting the word string. Determining a part of speech candidate that is a candidate for part of speech of the attention word that may co-occur with a part of speech candidate that is a candidate for part of speech of the adjacent word that is a word adjacent to the front or back of the attention word;
Based on the co-occurrence probability of the adjacent part-of-speech candidate and the attention part-of-speech candidate, determine a word appearance probability that is the probability that the part-of-speech word appears in the attention part-of-speech candidate;
An information processing method comprising: generating the word lattice based on the co-occurrence probability of adjacent words in the word string and the word appearance probability of each word constituting the word string.
予め求められた、2つの品詞が共起する確率である共起確率が記憶された記憶手段に記憶されている前記共起確率に基づいて、前記単語列を構成する単語のうちの注目している注目単語の前または後ろに隣接する単語である隣接単語の品詞の候補である隣接品詞候補と共起する可能性がある、前記注目単語の品詞の候補である注目品詞候補を決定する品詞候補決定手段と、
前記隣接品詞候補と前記注目品詞候補との共起確率に基づいて、品詞が前記注目品詞候補の前記注目単語が出現する確率である単語出現確率を決定する単語出現確率決定手段と、
前記単語列の隣接する単語どうしについての前記共起確率と、前記単語列を構成する各単語の単語出現確率とに基づいて、前記単語ラティスを生成する単語ラティス生成手段と
して、コンピュータを機能させるプログラム。 In a program that causes a computer to function as an information processing device that generates a word lattice from a word string,
Based on the co-occurrence probabilities stored in the storage means in which the co-occurrence probabilities, which are the probabilities of two parts of speech co-occurring, are stored in advance, pay attention to the words constituting the word string. Part-of-speech candidates for determining a part-of-speech candidate that is a candidate for part-of-speech for the target word that may co-occur with a part-of-speech candidate for a part-of-speech that is a candidate for part-of-speech that is a word adjacent to the front or back of the target word A determination means;
Word appearance probability determining means for determining a word appearance probability that is a probability that the attention word of the attention part of speech candidate appears, based on the co-occurrence probability of the adjacent part of speech candidate and the attention part of speech candidate;
A computer functioning as word lattice generation means for generating the word lattice based on the co-occurrence probability of adjacent words in the word string and the word appearance probability of each word constituting the word string Program to make.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007153518A JP2008305291A (en) | 2007-06-11 | 2007-06-11 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007153518A JP2008305291A (en) | 2007-06-11 | 2007-06-11 | Information processing apparatus, information processing method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008305291A true JP2008305291A (en) | 2008-12-18 |
Family
ID=40233936
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007153518A Withdrawn JP2008305291A (en) | 2007-06-11 | 2007-06-11 | Information processing apparatus, information processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2008305291A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9455940B2 (en) | 2012-11-29 | 2016-09-27 | Fujitsu Limited | Information processing apparatus and information processing method |
| WO2020241039A1 (en) * | 2019-05-30 | 2020-12-03 | ソニー株式会社 | Information processing device, information processing method, and program |
| WO2021200200A1 (en) * | 2020-03-30 | 2021-10-07 | ソニーグループ株式会社 | Information processing device and information processing method |
-
2007
- 2007-06-11 JP JP2007153518A patent/JP2008305291A/en not_active Withdrawn
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9455940B2 (en) | 2012-11-29 | 2016-09-27 | Fujitsu Limited | Information processing apparatus and information processing method |
| WO2020241039A1 (en) * | 2019-05-30 | 2020-12-03 | ソニー株式会社 | Information processing device, information processing method, and program |
| US11934779B2 (en) | 2019-05-30 | 2024-03-19 | Sony Group Corporation | Information processing device, information processing method, and program |
| WO2021200200A1 (en) * | 2020-03-30 | 2021-10-07 | ソニーグループ株式会社 | Information processing device and information processing method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3768205B2 (en) | Morphological analyzer, morphological analysis method, and morphological analysis program | |
| JP4215418B2 (en) | Word prediction method, speech recognition method, speech recognition apparatus and program using the method | |
| JP5377889B2 (en) | Language processing apparatus and program | |
| JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
| US20070055493A1 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
| JP4762103B2 (en) | Prosodic statistical model training method and apparatus, and prosodic analysis method and apparatus | |
| KR20200132344A (en) | Mehtod and apparatus for input sequence | |
| JP2006243728A (en) | Method for converting phonemes to text, computer system thereof, and computer program | |
| KR101097186B1 (en) | System and method for synthesizing voice of multi-language | |
| JP7327647B2 (en) | Utterance generation device, utterance generation method, program | |
| KR20120045906A (en) | Apparatus and method for correcting error of corpus | |
| JP2008305291A (en) | Information processing apparatus, information processing method, and program | |
| JP4811557B2 (en) | Voice reproduction device and speech support device | |
| JP4405542B2 (en) | Apparatus, method and program for clustering phoneme models | |
| JP6002598B2 (en) | Emphasized position prediction apparatus, method thereof, and program | |
| JP2006107353A (en) | Information processing apparatus and method, recording medium, and program | |
| JP5398202B2 (en) | Translation program, translation system, translation system manufacturing method, and bilingual data generation method | |
| JP4576977B2 (en) | Information processing apparatus and method, and program | |
| JP3950957B2 (en) | Language processing apparatus and method | |
| JP2020140674A (en) | Answer selection device and program | |
| JP6309852B2 (en) | Enhanced position prediction apparatus, enhanced position prediction method, and program | |
| JP4674609B2 (en) | Information processing apparatus and method, program, and recording medium | |
| KR20040018008A (en) | Apparatus for tagging part of speech and method therefor | |
| JP4173404B2 (en) | Statement set automatic generation device, statement set automatic generation program, storage medium | |
| JP2001075584A (en) | Natural language processing method and speech synthesizer using the method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100907 |