JP2006031333A - 言語解析装置、言語解析方法及び言語解析プログラム - Google Patents
言語解析装置、言語解析方法及び言語解析プログラム Download PDFInfo
- Publication number
- JP2006031333A JP2006031333A JP2004208303A JP2004208303A JP2006031333A JP 2006031333 A JP2006031333 A JP 2006031333A JP 2004208303 A JP2004208303 A JP 2004208303A JP 2004208303 A JP2004208303 A JP 2004208303A JP 2006031333 A JP2006031333 A JP 2006031333A
- Authority
- JP
- Japan
- Prior art keywords
- clause
- sentence
- nth
- stack
- relates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】 言語解析処理を大幅に短縮でき、その迅速化及び効率化を図ることができる言語解析装置を提供する。
【解決手段】 文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、n番目の文節がn+1番目の文節に係るか否かを判断し、n番目の文節がn+1番目の文節に係らないと判断された場合、n+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断手段と、第1判断手段により、n番目の文節がn+1番目の文節に係ると判断された場合、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合において、それらがn+1番目の文節に係るか否かを判断する第2判断手段とを備える。
【選択図】 図1
【解決手段】 文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、n番目の文節がn+1番目の文節に係るか否かを判断し、n番目の文節がn+1番目の文節に係らないと判断された場合、n+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断手段と、第1判断手段により、n番目の文節がn+1番目の文節に係ると判断された場合、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合において、それらがn+1番目の文節に係るか否かを判断する第2判断手段とを備える。
【選択図】 図1
Description
本発明は、文を構成する複数の文節の係り関係を判断する言語解析装置、言語解析方法及び言語解析プログラムに関し、特に日本語や韓国語やモンゴル語等、構文構造が類似する所定の言語についての言語解析装置、言語解析方法及び言語解析プログラムに関する。
近年の急速なITの進歩に伴い、言語の文節の係り関係を判断する言語解析技術は重要性を高めている。典型的な従来の言語解析技術は、一文中に存在するN個の文節が他の全ての文節に係るか否かを判断するため、一文中の文節の数Nの2乗に比例する処理時間を要する。すなわち、一般に、ある文節の係り先を決定するには、その文節よりも右にある文節について考慮する必要があり、この処理が1文節あたりO(N)の計算時間がかかる。それを従来の技術では文全体で繰り返すため、O(N2)の処理時間がかかっている(例えば、特許文献1参照。)。
特開昭63−219072号公報
しかしながら、文節数Nの2乗に比例する処理時間がかかると、文が長くなる(すなわち、文節の数が多くなる)と、処理が非常に遅くなるという問題が有り、また、係り先として、後方全ての文節を考慮するのでは、言語解析のために文末まで全ての文節が入力されないと、解析の処理が開始できず、処理の効率化が図れないという問題もある。
一方、日本語や韓国語やモンゴル語等は類似する構文構造を有し、この構文構造による特性(ルール)を利用すれば、必ずしもある文節が他の全ての文節に係るか否かを判断する必要は無く、このようなルールを効果的に用いることにより、言語解析処理を大幅に短縮でき、その迅速化及び効率化を図ることが可能であり、そのような技術が要望されている。
本発明は、上述した従来の問題点を解決するためになされたものであり、上述した言語の構文構造によるルールを効果的に利用することにより、言語解析処理を大幅に短縮でき、その迅速化及び効率化を図ることができる言語解析装置、言語解析方法及び言語解析プログラムを提供することを目的としている。
上述した課題を解決するため、本発明は、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、n番目の文節がn+1番目の文節に係るか否かを判断し、n番目の文節がn+1番目の文節に係らないと判断された場合、n+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断手段と、第1判断手段により、n番目の文節がn+1番目の文節に係ると判断された場合、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合において、それらがn+1番目の文節に係るか否かを判断する第2判断手段とを備えてなるものである。
ここで、前記第2判断手段は、番号の大きい文節から小さい文節にかけて順次n+1番目の文節に係るか否かを判断することができる。また、nがN−1となった場合には、前記第1判断手段は、n番目の文節がN番目の文節に係ると判断すると共に、前記第2判断手段は、未だ係り先の文節が見出せていない文節を全てN番目の文節に係るものと判断することもできる。さらに、前記第1、第2判断手段は二つの文節間の係り関係の有無を規定するルールテーブルを有し、該ルールテーブルの規定に従って、係り関係の有無を判断することができる。また、文節の係り関係が判断された場合は、その関係を保存する保存部を備えることができる。
また、本発明は、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルと、該ルールテーブルを用いて文節の係り関係の有無を判断する判断部とを備え、前記スタックは、n番目の文節IDをプッシュし、n+1番目の文節に対してポップし、前記判断部が前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断し、前記判断部により、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックは、n+1番目の文節IDをプッシュし、n+2番目の文節に対してポップし、前記判断部が前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断し、前記判断部により、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックは、既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップすると共に、前記判断部が前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断するものである。
なお、実施の形態においては、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法であって、n番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合は、n+1番目の文節がn+2番目の文節に係るか否か判断する第1判断ステップと、n番目の文節がn+1番目の文節に係ると判断された場合は、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合はそれらの文節がn+1番目の文節に係るか否か判断する第2判断ステップとを備えてなる言語解析方法が提供され得る。
また、本発明は、文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルとを備え、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法であって、前記スタックに、n番目の文節IDをプッシュさせて、n+1番目の文節に対してポップさせ、前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックに、n+1番目の文節IDをプッシュさせて、n+2番目の文節に対してポップさせ、前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断ステップと、前記第1判断ステップにおいて、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックに既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップさせて前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する第2判断ステップとを備えてなるものである。
また、本発明は、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法をコンピュータに実行させる言語解析プログラムであって、n番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合は、n+1番目の文節がn+2番目の文節に係るか否か判断する第1判断ステップと、n番目の文節がn+1番目の文節に係ると判断された場合は、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合はそれらの文節がn+1番目の文節に係るか否か判断する第2判断ステップとをコンピュータに実行させるものである。
また、本発明は、文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルとを備え、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法をコンピュータに実行させる言語解析プログラムであって、前記スタックに、n番目の文節IDをプッシュさせて、n+1番目の文節に対してポップさせ、前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックに、n+1番目の文節IDをプッシュさせて、n+2番目の文節に対してポップさせ、前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断ステップと、前記第1判断ステップにおいて、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックに既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップさせて前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する第2判断ステップとをコンピュータに実行させるものである。
以上に詳述したように本発明によれば、言語解析処理を大幅に短縮できて処理の迅速化を図ることができるとともに、文頭から文末に向かって処理を進めることができることで、文の入力が完了していなくても処理を進めることができ、処理の効率化を図ることができる。
以下、本発明の実施の形態について日本語の言語解析装置を例として、図面を参照しつつ説明する。
図1は本実施の形態におけるよる言語解析装置の構成を示す機能ブロック図、図2は同装置の動作を示すフローチャートである。この言語解析装置は、入力文を構成する複数の文節(文節列)の係り関係の有無を判断する判断部(係り関係決定部)1と、判断部1による複数の文節のハンドリングを容易にするスタック2と、判断部1が判断に際して参照する2文節間の係り関係を規定するルールテーブル(2文節間係り関係推定器)3と、判断部1による判断結果を解析結果として格納する解析結果格納メモリ4とを備える。
入力文を構成する各文節には、文頭から文末にかけての各文節に0番からN−1番までの番号(ID)が付されており(1番目からN番目の文節に対応している)、ここでは、m番(n:m+1番目)の文節のIDをID(m)と表す。また説明の便宜上、各文節の番号mをID(m)とも表すこととする。
スタック(stack)2は、最後に入力したデータが先に出力されるという動作特性を有するデータ構造を提供するメモリである。
ルールテーブル3は、図3に示すように、日本語の係り関係を規定するルールテーブルである。図3に示すルールテーブルは、一例に過ぎず、図3に規定されているルールと異なるルールテーブルも適用できることは言うまでも無い。
ただし、日本語の係り受け関係として、上記ルールテーブルに規定されているルール以外に、下記に示すように、日本語の構文構造に基づく基本的なルールがあることが知られており、本実施の形態においては、かかる構文構造上の基本的ルールを用いることを基本としている。そして、この基本的ルールを用いることにより、本発明は、言語解析処理を大幅に短縮でき、その迅速化及び効率化を図ることができるのである。
C1:ある文節の係り先は、その文節(ID(p))より文末側の文節(ID(q):q>p)に係る。すなわち、文頭の文節である0番(1番目)の文節から文末の文節であるN−1番(N番目)の文節までにより構成される文において、ある文節の係り先は、その文節の番号より大きな番号の文節に係る。
C2:文節の係り先は必ず一つである。
C3:係り関係は交差しない。
解析結果格納メモリ4は、図4、図5に示されるように、係り元文節がある係り先文節に係る場合に、その係り元文節番号に対応する場所に係り先文節番号を保存するようにしている。
なお、図1に示した機能ブロック図において、判断部1と、ルールテーブル3は、係り関係を推定するための所謂、分類器により構成されることができる。この分類器は、調べようとする2つの文節が、ルールに規定された複数の条件(Rule1〜Rule4)について、上から順に一致するかどうかを調べ、一致すればその判断(係るor係らない)を返し、一方、条件に一致するものが無ければ、デフォルトルール(Rule5)である「係る」が返されるようにしたものである。
このような2つの文節の係り関係を推定する分類器には、さまざまなものが使える。人間が記述するルールの例は、長尾真編「岩波ソフトウェア科学15自然言語処理」185ページ、表4.9にある。この表にある依存文法をルールとして記述する方法がある。機械学習で二つの文節が係る確率を推定する方法がいくつか提案されている。例えば、内元他「最大エントロピー法を用いた日本語係り受け解析」、情報処理学会論文誌,Vol.40,No.9,pp.3397‐3407,1999がある。文節jが文節iに係る確率をp、係り得ない確率をqとするとき、p>=qなら係ると判断し、p<qなら係らないと判断する分類器の実装があり得る。二つの文節間の係り関係を推定するには、2文節それぞれに含まれる形態素の文法属性(品詞や、原形、活用形、活用型、表記など)などを利用する。なお、ここで例示したルールテーブル以外に、決定木などのさまざまな機械学習を利用した分類器も利用可能である。機械学習を利用した分類器に、2文節の属性を入力とし、「係る」「係らない」のどちらかを答えさせる(=分類をさせる)のもある。
以下、本発明の実施の形態における動作を図2のフローチャートを用いて説明する。動作の概要は、文頭の文節である0番(1番目)の文節から文末の文節であるN−1番(N番目)の文節までの複数の文節により構成される文における各文節の係り関係を0番の文節(1番目の文節)より順次判断するようにしている。この動作説明において、入力される文節情報(文節列又は形態素列)の一例を図6に示す。また以下の説明で、ID(m)は上述したように文節番号に対応しているものとする。
まず、パラメータi,j(文節番号mに対応)が初期化されてi=0、j=0とされ、スタックにj(ID(j))(「山田氏は」)がプッシュされる(ステップS1)。
(1ループ目)
次に、iを1加算する処理が行われて、i(=1)をパラメータとするID(i)の文節(係り先文節候補)が設定される(ステップS2:1ループ目)。係り元文節候補となるID(j)をスタックからポップする(ステップS3)。このときj=0であり、判断部1は、文節ID(0)の係り元文節候補がID(1)の係り先文節候補に係るべきかどうかについて、ルールテーブル3を参照して判断処理を行う(ステップS4)。この場合、ルールテーブルのRule1によれば「係らない」と判断される(ステップS4,no)。
(1ループ目)
次に、iを1加算する処理が行われて、i(=1)をパラメータとするID(i)の文節(係り先文節候補)が設定される(ステップS2:1ループ目)。係り元文節候補となるID(j)をスタックからポップする(ステップS3)。このときj=0であり、判断部1は、文節ID(0)の係り元文節候補がID(1)の係り先文節候補に係るべきかどうかについて、ルールテーブル3を参照して判断処理を行う(ステップS4)。この場合、ルールテーブルのRule1によれば「係らない」と判断される(ステップS4,no)。
ステップS4において、ID(j)の係り元文節候補がID(i)の係り先文節候補に係らないと判断されると、次にステップS7に進み、スタックがエンプティであるか否か判断され、エンプティでない場合(ステップS7,no)は、再度スタックにj(ID(j))をプッシュする(ステップS8)。ここでは、j=0である。次に、i、すなわち係り先文節候補とされた文節のID(i)をスタックにプッシュする(ステップS9)。ここでi=1である。
(2ループ目)
ステップS9の処理の後は、ステップS2の処理に戻る。ここでは、再度iを加算する処理が行われてiは2とされ、ID(2)が係り先文節候補として設定される。次に、スタックから値をポップし、ID(j)の係り元文節候補を設定する。ここでj=1である(ステップS3)。続いて判断部1は、ID(1)の係り元文節候補がID(2)の係り先文節候補に係るべきかどうか、ルールテーブル3を参照する(ステップS4)。この場合、Rule3により「係る」と判断される。「係る」と判断されると(ステップS4,yes)、解析結果格納メモリ4の1番(係り元文節のID(1)に対応する)に2(係り先文節のID(2)に対応する)を書き込む(ステップS5)。
(2ループ目)
ステップS9の処理の後は、ステップS2の処理に戻る。ここでは、再度iを加算する処理が行われてiは2とされ、ID(2)が係り先文節候補として設定される。次に、スタックから値をポップし、ID(j)の係り元文節候補を設定する。ここでj=1である(ステップS3)。続いて判断部1は、ID(1)の係り元文節候補がID(2)の係り先文節候補に係るべきかどうか、ルールテーブル3を参照する(ステップS4)。この場合、Rule3により「係る」と判断される。「係る」と判断されると(ステップS4,yes)、解析結果格納メモリ4の1番(係り元文節のID(1)に対応する)に2(係り先文節のID(2)に対応する)を書き込む(ステップS5)。
格納が終わると、次にスタックから値をポップし、ID(j)を設定する。このときj=0である(ステップS6)。続いて判断部1は、ID(0)の係り元文節候補がID(2)の係り先文節候補に係るべきかどうか、ルールテーブル3を参照する(ステップS4)。この場合は、Rule2により「係らない」と判断され(ステップS4,no)、ステップS7に進む。この場合、スタック2はエンプティでないので(ステップS7,no)、jすなわち(ID(j))をスタックにプッシュする(ステップS8)。このとき、j=0である。次にiをスタックにプッシュする(ステップS9)。このとき、i=2である。
(3ループ目)
ステップS2において、iを加算してi=3とし、ID(i)の文節を係り先文節候補として設定する。スタックから値(=2)をポップし、j=2に設定する。ID(j)の文節を係り元文節候補として設定する(ステップS3)。続いて判断部1は、ID(2)の係り元文節候補がID(3)の係り先文節候補に係るかどうか、ルールテーブル3を参照する(ステップS4)。この場合、Rule4により「係らない」と判断され(ステップS4,no)、ステップS7に進む。
(3ループ目)
ステップS2において、iを加算してi=3とし、ID(i)の文節を係り先文節候補として設定する。スタックから値(=2)をポップし、j=2に設定する。ID(j)の文節を係り元文節候補として設定する(ステップS3)。続いて判断部1は、ID(2)の係り元文節候補がID(3)の係り先文節候補に係るかどうか、ルールテーブル3を参照する(ステップS4)。この場合、Rule4により「係らない」と判断され(ステップS4,no)、ステップS7に進む。
以下同様に、ステップS7において、スタック2はエンプティでないので(ステップS7,no)、j(=2)をスタックにプッシュする(ステップS8)。i(=3)をスタックにプッシュする(ステップS9)。
(4ループ目)
ステップS2において、iを加算してi=4とし、ID(i)の係り元文節候補を設定する(ステップS2)。スタックから値(=3)をポップし、j=3に設定する。ID(j)の係り元文節候補を設定する(ステップS3)。i=4は文末の文節(i=N−1)なので(ステップS4,yes)、解析結果格納メモリの3番に4を書き込む。同様にして、ステップS4〜ステップS6を繰り返し、解析結果格納メモリの2番に4を、0番に4を書き込む。
(4ループ目)
ステップS2において、iを加算してi=4とし、ID(i)の係り元文節候補を設定する(ステップS2)。スタックから値(=3)をポップし、j=3に設定する。ID(j)の係り元文節候補を設定する(ステップS3)。i=4は文末の文節(i=N−1)なので(ステップS4,yes)、解析結果格納メモリの3番に4を書き込む。同様にして、ステップS4〜ステップS6を繰り返し、解析結果格納メモリの2番に4を、0番に4を書き込む。
スタックが空になり、処理を終える((ステップS4,no)及び(ステップS7,yes))。以上により係り受け解析は終了し、解析結果格納メモリ4に解析結果が得られる。図5に解析終了後の解析格納メモリ4を示す。
図2のフローチャートのステップS4が何回処理されるか説明することにより、処理時間がO(N)であることを説明する。ステップS4でnoと判断される回数はN−2である。外側のループ回数が1からN−1であるためである。一方、ステップS4でyesとなる回数は、文節ID(j)が文節ID(i)に係ると決定する回数と等しくN−1である(高々Nなのは明白であり、また末尾の文節は係り先を決定する必要がないことも明白である)。従って、ステップS4の処理回数はN−2+N−1=2N−3回となり、これはすなわち時間がO(N)となることを示している。
なお、以上の構成において、判断部1、スタック2、ルールテーブル3及びそれらの処理を示すステップS1〜ステップS4、ステップS7〜ステップS9は本発明の第1判断手段を構成し、また、上記各ステップは本発明の第1判断ステップを構成している。また、判断部1、スタック2、ルールテーブル3及びそれらの処理を示すステップS4〜ステップS6は本発明の第2判断手段を構成し、また、上記各ステップは本発明の第2判断ステップを構成している。
更に、上述した各ステップを言語解析装置を構成するコンピュータに実行させるプログラムを言語解析プログラムとして提供することができる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させることによって、言語解析装置を構成するコンピュータに実行させることが可能となる。ここで、上記コンピュータにより読取り可能な記録媒体としては、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
以上に詳述したように、本発明の実施の形態は、文節単位に区切られた日本語文を入力し、スタックと2文節間の係り関係を推定する(=係けるべきか否かを判断する)ための分類器(=係り関係推定器)を持ち、スタックに係り先が未定の文節のIDを保持させつつ、文の左(先頭)から右(末尾)に向かって各文節の係り先を決定していく係り関係決定部を持つ日本語係り受け解析装置、方法及びプログラムを提供している。
なお、本発明の実施の形態は、日本語に例をとって説明したが、本発明は日本語と同様の構文構造を有する韓国語やモンゴル語にも適用可能である。ここでいう文節は、概ね自立語にゼロ個以上の付属語が連なったものを示す。韓国語にも、文節と同様の概念としてeojeolがある(例えば、次の論文にeojeolの記述がある:J. Yoon, K. choi, and M. Song. 1999. Three types of chunking in Korean and dependency analysis based on lexical association. In Proc. of the 18th Int. Conf. on Computer Processing of Oriental Languages, pages 56-65.)。
また、本発明の実施の形態における処理では、スタック上にまだ係り先が決まっていない文節が保持されている。ステップS4で、「iがN−1に等しい」という条件を取り除くと、計算機が係り先を決められない文節は、全てスタック上に保留される。このようにすれば、文末まで入力されていない文でも係り受け解析を行なうことができる。このとき、入力された文節のみで係り受け関係が決まる部分は決め、それ以外はスタック上に保留されることとなる。
(付記1)文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、
n番目の文節がn+1番目の文節に係るか否かを判断し、n番目の文節がn+1番目の文節に係らないと判断された場合、n+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断手段と、
第1判断手段により、n番目の文節がn+1番目の文節に係ると判断された場合、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合において、それらがn+1番目の文節に係るか否かを判断する第2判断手段と、
を備えてなる言語解析装置。
(付記2)
文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、
文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルと、該ルールテーブルを用いて文節の係り関係の有無を判断する判断部とを備え、
前記スタックは、n番目の文節IDをプッシュし、n+1番目の文節に対してポップし、前記判断部が前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断し、
前記判断部により、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックは、n+1番目の文節IDをプッシュし、n+2番目の文節に対してポップし、前記判断部が前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断し、
前記判断部により、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックは、既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップすると共に、前記判断部が前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する言語解析装置。
(付記3)
文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法であって、
n番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合は、n+1番目の文節がn+2番目の文節に係るか否か判断する第1判断ステップと、
n番目の文節がn+1番目の文節に係ると判断された場合は、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合はそれらの文節がn+1番目の文節に係るか否か判断する第2判断ステップと、
を備えてなる言語解析方法。
(付記4)
文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルとを備え、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法であって、
前記スタックに、n番目の文節IDをプッシュさせて、n+1番目の文節に対してポップさせ、前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックに、n+1番目の文節IDをプッシュさせて、n+2番目の文節に対してポップさせ、前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断ステップと、
前記第1判断ステップにおいて、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックに既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップさせて前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する第2判断ステップと、
を備えてなる言語解析方法。
(付記5)
文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法をコンピュータに実行させる言語解析プログラムであって、
n番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合は、n+1番目の文節がn+2番目の文節に係るか否か判断する第1判断ステップと、
n番目の文節がn+1番目の文節に係ると判断された場合は、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合はそれらの文節がn+1番目の文節に係るか否か判断する第2判断ステップと、
をコンピュータに実行させる言語解析プログラム。
(付記6)
付記5に記載の言語解析プログラムにおいて、
前記第2判断ステップで、未だ係り先の文節が見出せていない文節がある場合は、番号の大きい文節から小さい文節にかけて順次n+1番目の文節に係るか否かを判断することをコンピュータに実行させることを特徴とする言語解析プログラム。
(付記7)
付記5又は付記6に記載の言語解析プログラムにおいて、
nがN−1となった場合には、未だ係り先の文節が見出せていない文節は全てN番目の文節に係るものと判断することをコンピュータに実行させることを特徴とする言語解析プログラム。
(付記8)
付記5乃至付記7のいずれかに記載の言語解析プログラムにおいて、
前記第1、第2判断ステップでは、係り関係を規定するルールテーブルを用いて、係り関係の有無を判断することをコンピュータに実行させることを特徴とする言語解析プログラム。
(付記9)
付記5乃至付記8のいずれかに記載の言語解析プログラムにおいて、
文節の係り関係が判断された場合は、その関係を保存していく保存ステップを備えてコンピュータに実行させることを特徴とする言語解析プログラム。
(付記10)
文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルとを備え、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法をコンピュータに実行させる言語解析プログラムであって、
前記スタックに、n番目の文節IDをプッシュさせて、n+1番目の文節に対してポップさせ、前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックに、n+1番目の文節IDをプッシュさせて、n+2番目の文節に対してポップさせ、前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断ステップと、
前記第1判断ステップにおいて、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックに既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップさせて前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する第2判断ステップと、
をコンピュータに実行させる言語解析プログラム。
(付記1)文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、
n番目の文節がn+1番目の文節に係るか否かを判断し、n番目の文節がn+1番目の文節に係らないと判断された場合、n+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断手段と、
第1判断手段により、n番目の文節がn+1番目の文節に係ると判断された場合、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合において、それらがn+1番目の文節に係るか否かを判断する第2判断手段と、
を備えてなる言語解析装置。
(付記2)
文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、
文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルと、該ルールテーブルを用いて文節の係り関係の有無を判断する判断部とを備え、
前記スタックは、n番目の文節IDをプッシュし、n+1番目の文節に対してポップし、前記判断部が前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断し、
前記判断部により、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックは、n+1番目の文節IDをプッシュし、n+2番目の文節に対してポップし、前記判断部が前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断し、
前記判断部により、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックは、既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップすると共に、前記判断部が前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する言語解析装置。
(付記3)
文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法であって、
n番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合は、n+1番目の文節がn+2番目の文節に係るか否か判断する第1判断ステップと、
n番目の文節がn+1番目の文節に係ると判断された場合は、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合はそれらの文節がn+1番目の文節に係るか否か判断する第2判断ステップと、
を備えてなる言語解析方法。
(付記4)
文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルとを備え、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法であって、
前記スタックに、n番目の文節IDをプッシュさせて、n+1番目の文節に対してポップさせ、前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックに、n+1番目の文節IDをプッシュさせて、n+2番目の文節に対してポップさせ、前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断ステップと、
前記第1判断ステップにおいて、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックに既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップさせて前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する第2判断ステップと、
を備えてなる言語解析方法。
(付記5)
文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法をコンピュータに実行させる言語解析プログラムであって、
n番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合は、n+1番目の文節がn+2番目の文節に係るか否か判断する第1判断ステップと、
n番目の文節がn+1番目の文節に係ると判断された場合は、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合はそれらの文節がn+1番目の文節に係るか否か判断する第2判断ステップと、
をコンピュータに実行させる言語解析プログラム。
(付記6)
付記5に記載の言語解析プログラムにおいて、
前記第2判断ステップで、未だ係り先の文節が見出せていない文節がある場合は、番号の大きい文節から小さい文節にかけて順次n+1番目の文節に係るか否かを判断することをコンピュータに実行させることを特徴とする言語解析プログラム。
(付記7)
付記5又は付記6に記載の言語解析プログラムにおいて、
nがN−1となった場合には、未だ係り先の文節が見出せていない文節は全てN番目の文節に係るものと判断することをコンピュータに実行させることを特徴とする言語解析プログラム。
(付記8)
付記5乃至付記7のいずれかに記載の言語解析プログラムにおいて、
前記第1、第2判断ステップでは、係り関係を規定するルールテーブルを用いて、係り関係の有無を判断することをコンピュータに実行させることを特徴とする言語解析プログラム。
(付記9)
付記5乃至付記8のいずれかに記載の言語解析プログラムにおいて、
文節の係り関係が判断された場合は、その関係を保存していく保存ステップを備えてコンピュータに実行させることを特徴とする言語解析プログラム。
(付記10)
文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルとを備え、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法をコンピュータに実行させる言語解析プログラムであって、
前記スタックに、n番目の文節IDをプッシュさせて、n+1番目の文節に対してポップさせ、前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックに、n+1番目の文節IDをプッシュさせて、n+2番目の文節に対してポップさせ、前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断ステップと、
前記第1判断ステップにおいて、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックに既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップさせて前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する第2判断ステップと、
をコンピュータに実行させる言語解析プログラム。
1 判断部(係り関係決定部)、2 スタック、3 ルールテーブル(2文節間係り関係推定器)、4 解析結果格納メモリ。
Claims (5)
- 文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、
n番目の文節がn+1番目の文節に係るか否かを判断し、n番目の文節がn+1番目の文節に係らないと判断された場合、n+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断手段と、
第1判断手段により、n番目の文節がn+1番目の文節に係ると判断された場合、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合において、それらがn+1番目の文節に係るか否かを判断する第2判断手段と、
を備えてなる言語解析装置。 - 文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析装置であって、
文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルと、該ルールテーブルを用いて文節の係り関係の有無を判断する判断部とを備え、
前記スタックは、n番目の文節IDをプッシュし、n+1番目の文節に対してポップし、前記判断部が前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断し、
前記判断部により、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックは、n+1番目の文節IDをプッシュし、n+2番目の文節に対してポップし、前記判断部が前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断し、
前記判断部により、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックは、既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップすると共に、前記判断部が前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する言語解析装置。 - 文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルとを備え、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法であって、
前記スタックに、n番目の文節IDをプッシュさせて、n+1番目の文節に対してポップさせ、前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックに、n+1番目の文節IDをプッシュさせて、n+2番目の文節に対してポップさせ、前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断ステップと、
前記第1判断ステップにおいて、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックに既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップさせて前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する第2判断ステップと、
を備えてなる言語解析方法。 - 文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法をコンピュータに実行させる言語解析プログラムであって、
n番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合は、n+1番目の文節がn+2番目の文節に係るか否か判断する第1判断ステップと、
n番目の文節がn+1番目の文節に係ると判断された場合は、文頭の文節からn−1番目までの文節で、未だ係り先の文節が見出せていない文節がある場合はそれらの文節がn+1番目の文節に係るか否か判断する第2判断ステップと、
をコンピュータに実行させる言語解析プログラム。 - 文節IDを記憶するスタックと、文節の係り関係を規定するルールテーブルとを備え、文頭から文末にかけての複数(N)の文節から構成される文における各文節の係り関係を文頭側から判断する言語解析方法をコンピュータに実行させる言語解析プログラムであって、
前記スタックに、n番目の文節IDをプッシュさせて、n+1番目の文節に対してポップさせ、前記ルールテーブルを用いてn番目の文節がn+1番目の文節に係るか否かを判断すると共に、n番目の文節がn+1番目の文節に係らないと判断された場合、前記スタックに、n+1番目の文節IDをプッシュさせて、n+2番目の文節に対してポップさせ、前記ルールテーブルを用いてn+1番目の文節がn+2番目の文節に係るか否かを判断する第1判断ステップと、
前記第1判断ステップにおいて、n番目の文節がn+1番目の文節に係ると判断された場合、前記スタックに既にプッシュされている文節IDがある場合はn+1番目の文節に対して順次ポップさせて前記ルールテーブルを用いてポップされた文節IDを有する文節がn+1番目の文節に係るか否かを判断する第2判断ステップと、
をコンピュータに実行させる言語解析プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004208303A JP2006031333A (ja) | 2004-07-15 | 2004-07-15 | 言語解析装置、言語解析方法及び言語解析プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004208303A JP2006031333A (ja) | 2004-07-15 | 2004-07-15 | 言語解析装置、言語解析方法及び言語解析プログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006031333A true JP2006031333A (ja) | 2006-02-02 |
Family
ID=35897609
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004208303A Withdrawn JP2006031333A (ja) | 2004-07-15 | 2004-07-15 | 言語解析装置、言語解析方法及び言語解析プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006031333A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10673017B2 (en) | 2017-03-23 | 2020-06-02 | Sharp Kabushiki Kaisha | Organic EL display device |
-
2004
- 2004-07-15 JP JP2004208303A patent/JP2006031333A/ja not_active Withdrawn
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10673017B2 (en) | 2017-03-23 | 2020-06-02 | Sharp Kabushiki Kaisha | Organic EL display device |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6233544B1 (en) | Method and apparatus for language translation | |
| US8027834B2 (en) | Technique for training a phonetic decision tree with limited phonetic exceptional terms | |
| US8538743B2 (en) | Disambiguating text that is to be converted to speech using configurable lexeme based rules | |
| JPH0320800A (ja) | 音声認識方法および装置 | |
| CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
| JP6551968B2 (ja) | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム | |
| JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
| CN114239589A (zh) | 语义理解模型的鲁棒性评估方法、装置及计算机设备 | |
| JP7385900B2 (ja) | 推論器、推論プログラムおよび学習方法 | |
| US12118314B2 (en) | Parameter learning apparatus, parameter learning method, and computer readable recording medium | |
| CN109189907A (zh) | 一种基于语义匹配的检索方法及装置 | |
| CN108351869A (zh) | 用于计算机执行语言学分析的基于集解析 | |
| Graliński et al. | PSI-toolkit: A natural language processing pipeline | |
| JP4856573B2 (ja) | 要約文生成装置及び要約文生成プログラム | |
| JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
| JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
| JP4004376B2 (ja) | 音声合成装置、音声合成プログラム | |
| JP2006031333A (ja) | 言語解析装置、言語解析方法及び言語解析プログラム | |
| JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
| CN117669565A (zh) | 一种基于大模型的槽位含义的槽值抽取方法及装置 | |
| US12333245B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
| JP6309852B2 (ja) | 強調位置予測装置、強調位置予測方法及びプログラム | |
| JP5755603B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム | |
| JP5295576B2 (ja) | 自然言語解析装置、自然言語解析方法および自然言語解析プログラム | |
| CN119314460B (zh) | 基于ByT5的跨语种情感语音合成方法、装置、设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071002 |