JP2008102794A

JP2008102794A - フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法

Info

Publication number: JP2008102794A
Application number: JP2006285540A
Authority: JP
Inventors: Akira Shioda; 明潮田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-10-19
Filing date: 2006-10-19
Publication date: 2008-05-01
Anticipated expiration: 2026-10-19
Also published as: US20080097742A1; JP5082374B2; US8630839B2

Abstract

【課題】言語情報を考慮して良質な対訳フレーズを抽出すること。
【解決手段】フレーズアラインメントの指標を総合評価値算出部３０が算出する場合に、コーパスベース統計評価値算出部４１が算出する単語間翻訳確率、辞書情報対応部４２が算出する辞書対応情報、および構文構造評価値算出部３１が算出する構文構造情報を定量的に結合して総合的評価基準を求める。これにより、単語間翻訳確率が有効に活かせるだけではなく、構文解析情報や辞書情報などの言語学的に裏付けられた情報が定量的に組み込まれるため、フレーズアラインメントを優位度情報付きで進めることが可能となる。
【選択図】図１

Description

この発明は、機械翻訳技術に関し、特に異なる２つの言語間で互いに翻訳関係にあるフレーズを対にした対訳フレーズを抽出するフレーズアラインメントを行なう翻訳プログラム、翻訳装置および翻訳方法に関するものである。

大量の対訳文データから統計的に翻訳知識を抽出し、最小限の人手コストで高精度の自動翻訳を実現するための枠組みとして、統計翻訳(Statistical Machine Translation)が近年注目されている。

中でもＩＢＭモデルなどの単語ベースの統計翻訳の弱点を補う手法として、翻訳の単位として単語ではなくフレーズを用いるフレーズベース統計翻訳が従来より提唱され、単語ベース統計翻訳に対する優位性が報告されている（例えば非特許文献１および特許文献１参照。）。

従来のフレーズベース統計翻訳においては、まずＩＢＭモデルなどの単語ベースの統計翻訳の枠組みを用いて対訳文中の単語間の対訳対応関係を求め、その単語間の対訳対応と矛盾しないすべてのフレーズ（単語列）対応候補を対訳フレーズテーブルの形で保存し活用する方法が用いられている。

"Pharaoh: a Beam Search Decoder for Phrase-Based Statistical Machine Translation Models", Philipp Koehn, AMTA 2004 特開２００５−２５４７４号公報

フレーズベース統計翻訳の高精度化のためには、良質の対訳フレーズを対訳文から自動で抽出するフレーズアラインメント技術が必要である。また、自動翻訳に限らず、人間が翻訳するのを補助する翻訳支援システムにおいても、フレーズレベルでの翻訳例が最も支援効果が高く、良質な対訳フレーズの抽出が求められている。

しかしながら、言語情報を用いない従来手法においては、獲得されるフレーズ対応中のフレーズとは言語学的には必ずしも意味を持たない単なる単語列であったため、翻訳の単位として汎用性に欠ける、対訳コーパスの分野に過適合するため対訳フレーズの分野間移植性が低い、などの問題があった。

また、フレーズベース統計翻訳に構文解析処理を用いて言語学的知識を導入する提案もされているが、その際構文解析処理は単語対応や単語翻訳確率などとは独立に、既存の単言語用構文解析器を用いて行われていたため、構文解析誤りによる対訳フレーズの誤抽出や抽出漏れなどの問題が生じ、構文解析を通じた言語知識導入の利点が活かされていなかった。

この発明は、上述した従来技術よる問題点を解消し、課題を解決するためになされたものであり、言語情報を考慮して良質な対訳フレーズを抽出可能な翻訳プログラム、翻訳装置、翻訳方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明にかかる翻訳プログラムは、互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付ステップと、前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理ステップと、前記フレーズマージ処理ステップによって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出ステップと、前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索ステップと、前記マージペア探索ステップで探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力ステップと、をコンピュータに実行させることを特徴とする。

この発明によれば翻訳プログラムは、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズマージ処理ステップによって得られるマージペアの適切さを判定するための総合評価値を算出し、総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。

また、本発明にかかる翻訳プログラムは、前記総合評価値として、前記第１言語文中のフレーズと前記第２言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度の、マージ前後での変化量として求められる評価値を用いることを特徴とする。

この発明によれば翻訳プログラムは、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズマージ処理ステップによって得られるマージペアの適切さを判定するために、第１言語文中のフレーズと前記第２言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度のマージ前後での変化量として求められる評価値を用いて総合評価値を算出し、総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。

また、本発明にかかる翻訳プログラムは、前記総合フレーズ対応度として、フレーズ間対応に関する不確からしさを示すエントロピーを用いることを特徴とする。

この発明によれば翻訳プログラムは、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズ間対応に関する不確からしさを示すエントロピーを用いてマージペアの適切さを判定する。

また、本発明にかかる翻訳プログラムは、前記総合評価値は、前記総合フレーズ対応度と、２つのフレーズのマージによって生成される新しいフレーズが当該フレーズを含む文の構文構造上、Constituentと見なせるか否かを評価するための構文構造評価値と、を合成して求められることを特徴とする。

この発明によれば翻訳プログラムは、総合フレーズ対応度と、マージによって生成される新しいフレーズが構文構造上Constituentと見なせるか否かを評価するための構文構造評価値との合成値によって他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。

また、本発明にかかる翻訳プログラムは、前記対訳文受付ステップと前記フレーズマージ処理ステップとの間に、名詞句、句動詞、もしくは任意の意味的に一塊と見なせるベースフレーズを抽出するベースフレーズ抽出ステップをさらにコンピュータに実行させることを特徴とする。

この発明によれば翻訳プログラムは、受け付けた対訳文に対してベースフレーズの抽出を行なった後、フレーズマージ処理を実行し、他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。

また、本発明にかかる翻訳プログラムは、前記統計評価値算出ステップ中に、前記第１言語文中のフレーズと前記第２言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求めるコーパスベース統計評価値算出ステップと、対訳辞書、類義語辞典、シソーラス、もしくは任意の辞書データを基にフレーズ間対応を求める辞書情報対応ステップと、をさらにコンピュータに実行させることを特徴とする。

この発明によれば翻訳プログラムは、第１言語文中のフレーズと第２言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求めるとともに、対訳辞書、類義語辞典、シソーラス、もしくは任意の辞書データを基にフレーズ間対応を求める。

また、本発明にかかる翻訳プログラムは、前記統計評価値算出ステップの中に、ストップワード検出ステップを含み、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語、もしくは任意のストップワードの出現確率をエントロピーの算出において除外することを特徴とする。

この発明によれば翻訳プログラムは、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語や任意のストップワードの出現確率をエントロピーの算出において除外する。

また、本発明にかかる翻訳プログラムは、コンピュータに、入力文である第１言語文を受け付ける入力文受付ステップ、前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出ステップ、前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第２言語側表現で置換するフレーズ置換翻訳処理ステップ、前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築ステップ、前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の３つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出ステップ、前記状態評価値に従って状態の優位度を順序付ける状態序列ステップ、状態序列順にフレーズ置換翻訳処理ステップへと遷移させる状態遷移ステップ、を実行させる。

この発明によれば翻訳プログラムは、上述のフレーズアラインメントによって得られた対訳フレーズを蓄積してフレーズ翻訳確率を求め、入力文中の単語列の一部である部分単語列を、当該部分単語列と一致するフレーズ蓄積手段内の第２言語側表現で置換し、フレーズ置換の履歴から現時点までの部分翻訳を構築する。その後、フレーズ置換された入力文、部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の３つ組みにおける総合的な状態の優位度を示す状態評価値を算出し、状態評価値に従って状態の優位度を順序付けて状態序列順にフレーズ置換翻訳処理ステップへと遷移させる。

また、本発明にかかる翻訳装置は、互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付手段と、前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理手段と、前記フレーズマージ処理手段によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出手段と、前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索手段と、前記マージペア探索手段で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力手段と、を備えたことを特徴とする。

この発明によれば翻訳装置は、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズマージ処理ステップによって得られるマージペアの適切さを判定するための総合評価値を算出し、総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。

また、本発明にかかる翻訳方法は、互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付工程と、前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理工程と、前記フレーズマージ処理工程によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出工程と、前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索工程と、前記マージペア探索工程で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力工程と、を含んだことを特徴とする。

この発明によれば翻訳方法は、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズマージ処理ステップによって得られるマージペアの適切さを判定するための総合評価値を算出し、総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。

本発明によれば翻訳プログラム、翻訳装置および翻訳方法は、フレーズアラインメントと部分的構文解析処理とを同時に行なうことにより、構文解析誤りによる副作用を抑制することができる。また、フレーズアラインメント処理において辞書情報を添加することにより、データスパースネス問題が緩和され、フレーズアラインメントの精度が向上する。

従来のフレーズベース統計翻訳におけるフレーズアラインメントでは、単語間対応を抽出した後は単語間翻訳確率は破棄されていた。そのため、従来手法では、抽出された対訳
フレーズの優位度はフレーズ自体のコーパス中での出現頻度のみから算出され、汎用性の高い対訳フレーズを抽出するのが難しかった。

これに対し、本手法では単語間翻訳確率、辞書対応情報、および構文構造情報を定量的に結合したフレーズアラインメントのための総合的評価基準を用いることにより、単語間翻訳確率が有効に活かせるだけではなく、構文解析情報や辞書情報などの言語学的に裏付けられた情報が定量的に組み込まれるため、フレーズアラインメントを優位度情報付きで進めることが可能になる。

そのため、言語情報を考慮して良質な対訳フレーズを抽出し、もって翻訳精度を向上することができるという効果を奏する。

以下に添付図面を参照して、この発明に係る翻訳プログラム、翻訳装置および翻訳方法の好適な実施の形態を詳細に説明する。

図１は、本発明の実施の形態であるフレーズアラインメント装置の概要構成を示す概要構成図である。同図に示すようにフレーズアラインメント装置１０は、その内部に対訳文受付部１１、ベースフレーズ抽出部１２およびフレーズマージ処理部２０を有する。

対訳文受付部１１は、互いに翻訳関係にある第１言語文と第２言語文との対訳文を入力として受け付ける処理部である。ベースフレーズ抽出部１２は、入力された対訳文のそれぞれの文に対し、名詞句、句動詞、もしくは任意の意味的に一塊と見なせるベースフレーズを抽出する処理を行なう。

その後、フレーズマージ処理部２０は、対訳文から得られる対訳フレーズ、すなわち第１言語文中のフレーズと第２言語文中のフレーズの対であって互いに翻訳関係にあるフレーズを対訳フレーズとして出力する処理を行なう。ここで、フレーズとは複数の単語からなる単語列を指すが、マージ開始時点における単独の単語も、アルゴリズム記述上の利便のためにフレーズと呼ぶ。

フレーズマージ処理部２０は、第１言語文内あるいは第２言語文内の隣接した２つのフレーズをマージして、当該フレーズを、マージされてできた１つの新しいフレーズで置換する処理を階層的に繰り返す処理部であり、その内部に総合評価値算出部３０、マージペア探索部２１、マージ実行部２２および対訳フレーズ出力部２３を有する。

総合評価値算出部３０は、最適マージペアを判定するための総合評価値を算出する処理部である。また、マージペア探索部２１は、総合評価値に従って最適な１つあるいは複数個のマージペアを探索する処理部であり、マージ実行部２２は、マージペア探索部２１で探索されたマージペアのマージを実行する。そして対訳フレーズ出力部２３は、マージによって得られたマージペアを対訳フレーズとして出力する処理を行なう。

総合評価値算出部３０は、総合評価値として、第１言語文中のフレーズと第２言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度の、マージ前後での変化量として求められる評価値を用いる。この総合フレーズ対応度としては、例えばフレーズ間対応に関する不確からしさを示すエントロピーを用いることができる。

さらに総合評価値を求める場合には、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量として求められる統計評価値と、２つのフレーズのマージによって生成される新しいフレーズが、当該フレーズを含む文の構文構造上、構文構成要素（言語学的Constituent）と見なせるか否かを評価するための構文構造評価値とを合成して求めることが好適である。

そこで、総合評価算出部３０は、その内部に統計評価値算出部４０、構文構造評価値算出部３１、句構造文法ルール３２、総合評価値出力部３３を備え、統計評価値算出部４０が算出した統計評価値と構文構造評価値算出部３１が算出した構文構造評価値を総合評価値出力部３３によって合成している。

構文構造評価値算出部３１は、句構造文法ルール３２に蓄積した句構造文法ルールを参照し、２つのフレーズのマージによって生成される新しいフレーズの構文構造（構文木の中の、当該フレーズを過不足なく含む部分木）のコーパス中の相対頻度（全く同じ構造とノードラベルを持つ部分木の、同じトップノードラベルを持つ部分木の中での相対出現頻度）を算出し、構文構造評価値として出力する。

統計評価値算出部４０は、その内部にコーパスベース統計評価値算出部４１、辞書情報対応部４２、統計評価値評価部４３および統計評価値出力部４４を有する。

コーパスベース統計評価値算出部４１は、第１言語文中のフレーズと第２言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求める。一方、辞書情報対応部４２は、対訳辞書、類義語辞典、シソーラスなど辞書データを基にフレーズ間対応を求める。

そして、統計評価値評価部４３がコーパスベース統計評価値算出部４１の出力と辞書情報対応部４２の出力とを用いて統計評価値を評価し、統計評価値出力部４４によって出力する。

なお、統計評価値を算出する際には、ストップワード検出処理部を設けることにより、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語などのストップワードの出現確率をエントロピーの算出において除外することが望ましい。

また、統計評価値の算出において、統計翻訳モデルを用いて求められた単語対応は確定対応として固定し、統計翻訳モデルによって特定されなかった単語間対応を辞書情報対応部によって求めることが好適である。

さらに、統計翻訳モデルを用いて求められた単語対応は、対応する単語のペアと対応頻度のみを情報として抽出し辞書情報と足し合わせて辞書情報対応部４２に格納し、統計評価値算出は辞書情報対応部４２のみにおいて行なうようにしてもよい。

つづいて、フレーズアラインメント装置１０の動作について具体例を挙げて説明する。ここでは、対訳文受付部１１が、
第１言語文：
To strengthen counter measures for abnormal operating conditions, extend the lifetime of equipment and reduce the power consumption by detecting and informing various kinds of abnormal operating conditions of air conditioners in advance.
と、第２言語文：
空調機の各種異常を前もって検出して報知することにより、異常対応の強化を図ると共に、機器類の長寿命化及び消費電力の低減などを図る。
の対を対訳文として入力された場合について考える。

この入力例に対し、ベースフレーズ抽出を行なわなければ、総合評価値算出部３０への入力は、
第１言語文：
To strengthen counter measures for abnormal operating conditions, extend the lifetime of equipment and reduce the power consumption by detecting and informing various kinds of abnormal operating conditions of air conditioners in advance.
第２言語文：
空調機の各種異常を前もって検出して報知することにより，異常対応の強化を図ると共に，機器類の長寿命化及び消費電力の低減などを図る．
となる。

これに対し、ベースフレーズ抽出部１２によってベースフレーズを抽出した場合の総合評価値算出部３０への入力では、少なくともいずれかの言語文がベースフレーズに区切られて入力される。かかる入力の具体例を２つ例示する。

入力例１
第１言語文：
To strengthen counter measures for abnormal operating conditions, extend the lifetime of equipment and reduce the power consumption by detecting and informing various kinds of abnormal operating conditions of air conditioners in advance.
第２言語文：
[空調機の] [各種異常を] [前もって] [検出して] [報知する] [ことにより]， [異常対応の] [強化を] [図ると共に] ， [機器類の] [長寿命化及び] [消費電力の] [低減などを] [図る] ．

入力例２
第１言語文：
To strengthen [counter measures] for [abnormal operating conditions], extend [the lifetime] of equipment and reduce [the power consumption] by [detecting and informing] [various kinds] of [abnormal operating conditions] of [air conditioners] [in advance].
第２言語文：
[空調機の] [各種異常を] [前もって] [検出して] [報知する] [ことにより]， [異常対応の] [強化を] [図ると共に] ， [機器類の] [長寿命化及び] [消費電力の] [低減などを] [図る] ．

このうち、入力例１が与えられた場合の統計評価値の算出について図２を参照して説明する。同図に示したマトリックス（対訳フレーズマトリックス）の各行の数字は、その行に対応する第１言語文中の単語（たとえば第６行ならば"abnormal"）の翻訳確率（の１００倍）を表す。

たとえば第i行、第j列の値がC(i,j)、第i行に対応する第１言語側単語をw(i),第ｊ列に対応する第２言語側のフレーズをv(j)だとすると、C(i,j)は、単語w(i)がフレーズv(j)中に含まれるいずれかの文字列として訳される確率（翻訳確率）を示す。

但し、w(i)がフレーズv(j)の中の２つの異なる部分文字列t1とt2に翻訳される翻訳確率がともに正であり、それぞれPc(t1|w(i)),Pc(t2|w(i))であるときはC(i,j)はそれぞれの和として求められる。すなわち、C(i,j)=100(Pc(t1|w(i))+Pc(t2|w(i)))。３つ以上の部分文字列の場合も同様である。

ここで、翻訳確率Pc(B|A)はAがBに翻訳される確率であり、統計翻訳モデルを用いて、コーパスベース統計評価値算出部４１において求められる。また、２つの異なる第２言語側のフレーズv(j)とv(k)に関してC(i,j)とC(i,k) が共に正値である場合、上記表では規格化せずにそれぞれの値がそのまま表示されている。３つ以上の第１言語側のフレーズに関しても同様である。

従って、対訳文が与えられたとき、第１言語文中のある単語w(i)の訳語がフレーズv(j)中に出現する確率（条件付き確率）P(v(j)|w(i))は、以下のように求められる。

まず、w(i)の訳語が必ず第２言語文中に出現するという仮定より、
Σ_j Σ_tP(t|w(i) ) P(t appears in v(j) ) = 1 ------ （１）
ここで、tはw(i)の翻訳候補、P(t| w(i) )は与えられた対訳文内において、w(i)がtに翻訳される翻訳確率、P(t appears in v(j) )はtがv(j)中に出現する確率を表す。

ここでは、対訳文は既知であるから、v(j)が文字列としてtを含まなければP(t appears in v(j) )は0であり、含めば１であると認定できる。正確にはv(j)が文字列としてtを含んでいてもtがw(i)の訳語として存在しているのではない可能性もあるが、ここでは上記の通り認定するものとする。

また、与えられた対訳文内での翻訳確率P(t|w(i))は対訳コーパスから文脈に依存しない形で得られる上記翻訳確率Pc(t|w(i))に比例すると仮定する。すなわち、すべてのtとw(i)について
P(t|w(i))=λPc(t|w(i)) ------（２）
ここでλはある定数。

（１）と（２）より、
λΣ_j Σ_tPc(t|w(i))P(t appears in v(j) ) = 1
上記C(i , j)の定義より、
Σ_tPc(t|w(i) ) P(t appears in v(j) ) = C(i , j )/100

従って、
λΣ_j C(i , j )/100 = 1
λ = 100 / [Σ_j C(i , j )]
P(t|w(i) ) = 100*Pc(t|w(i) ) / [Σ_j C(i , j )]
となる。

これより、単語w(i)の訳語がフレーズv(j)中に出現する確率P(v(j)|w(i)) は、
P(v(j)|w(i) ) = Σ_t P(t|w(i) ) P(t appears in v(j) )
= Σ_t 100* P(t appears in v(j) )*Pc(t|w(i) ) / [Σ_j C(i , j )]
= C(i , j ) / [Σ_j C(i , j )] ------（３）
と求まる。従って、単語w(i)の訳語がフレーズv(j)中に出現する確率P(v(j)|w(i)) は、C(i, j)の値を行マージンで割った値（行内相対値）として求まる。

同様に、第２言語側フレーズv(j)について、v(j)がw(i)の訳語として生成された確率Pt (w(i) |v(j))を以下のようにCの列内相対値として定義することが可能である。もちろん他の定義も可能であるが、本実施例では以下のように仮定する。
Pt (w(i) | v(j) ) = C(i , j ) / [Σ_i C(i , j )] ------（４）

さてここで、対訳フレーズマトリックスのi 行に着目し、w(i) の訳語（翻訳表現）が第２言語文のどのフレーズに出現したかを判定する際の確からしさを考える。もしP(v(j)|w(i)) = 1 ならば、単語w(i)の訳語がフレーズv(j)中に出現したことは１００％確かであり、情報論的に言えば、判定のエントロピーは０である。ここで、エントロピー H(i) は
H(i) = −Σ_j P(v(j)|w(i) ) log₂ P(v(j)|w(i) ) ------（５）
で与えられる。

ここで、l imx →0 x log2 x = 0の関係を利用して、すべてのv(j) に対してP(v(j)|w(i)) =0 のケースでは
H(i) = 0 と解釈することにする。

つづいて、マージベア探索部２１によるマージペアの探索について図３〜図６を参照して説明する。マージペア探索部２１では、隣接する行、あるいは隣接する列をマージすることにより第１言語側フレーズあるいは第２言語側フレーズをボトムアップに結合して、より大きいフレーズを生成して行く。

ここではマージのための総合評価値として統計評価値を用いる場合の１例として、マージの優劣の判定のためにエントロピーを用いる場合を示す。マージによるエントロピーの変化量の算出方法は、決定木において、属性の評価値に応じてサンプル集合を分割して行く際のエントロピー変化量（あるいは情報量のゲイン）の算出方法と等しい。但し決定木では順次データ集合を部分集合に分割して行くのに対して本手法では逆にフレーズ同士をマージして行く。

図３は、対訳フレーズマトリックスのC(i, j)の値を示す
第１言語側（行）のエントロピーはそれぞれ
H(1) = - (100/100) log₂ (100/100) = 0
H(2) = - (10/100) log₂ (10/100) - (90/100) log₂ (90/100) = 0.468995593589281
H(3) = - (95/100) log₂ (95/100) - (5/100) log₂ (5/100) = 0.286396957115956
H(4) = - (90/100) log₂ (90/100) - (10/100) log₂ (10/100) = 0.468995593589281
であり、第１言語側（行側）のトータルのエントロピーは以下のように求められる。
H_tot = (100 * H(1) + 100*H(2) + 100*H(3) + 100*H(4) ) / 400 = 0.3060970360736295

第２言語側（列）のエントロピーも同様に以下のように求められる。
Ht(1) = - (100/100) log₂ (100/100) = 0
H(2) = - (10/195) log₂ (10/195) - (95/195) log₂ (95/195) - (90/195) log₂ (90/195) = 1.24003625010867
Ht(3) = - (90/105) log₂ (90/105) - (5/105) log₂ (5/105) - (10/105) log₂ (10/105) = 0.722857897732969

第２言語側（列側）のトータルのエントロピーは
Ht_tot = (100*Ht(1) + 195*Ht(2) + 105*Ht(3))/(100+195+105) = 0.7942678700828809875

よって、第１言語側（行側）と第２言語側（列側）を複合した総合エントロピーは、両者の平均値として以下のように求めることができる。
H = (H_tot + Ht_tot)/2 = 0.55018245307825524375

さて、マージ候補として、第２行(threw)と第３行(red)をマージした場合を考える。このマージにより、対訳フレーズマトリックスは図４のように変化する。

図３の場合と同様にして、第１言語側（行側）のトータルのエントロピーは
H_tot = 0.616346837918725
第２言語側（列側）のトータルのエントロピーは
Ht_tot = 0.604517671927974
第１言語側（行）と第２言語側（列側）の平均のエントロピーは
H = 0.61043225492335
と求まる。

一方、マージ候補として、第３行(red)と第４行(balls)をマージした場合を考えると、このマージにより、対訳フレーズマトリックスは図５のように変化する。

この場合は、第１言語側（行側）のトータルのエントロピーは
H_tot = 0.309404670460569
第２言語側（列側）のトータルのエントロピーは
Ht_tot = 0.297575504469818
第１言語側（行）と第２言語側（列側）の平均のエントロピーは
H = 0.303490087465193
と求まる。

従って、エントロピーを尺度として上記のマージの過程を評価すると図６に示すように、(threw, red)のマージに比べて、(red, balls)のマージの方が優位度が高いことが分かる。

このようにエントロピーを尺度としてマージの過程を評価していくことで、良質な対訳フレーズ、すなわち互いに翻訳関係である妥当性の高いフレーズの対を探索することができる。

かかるマージペアの評価手法を適用することで、上述の入力文からマージ実行部２２が出力する対訳フレーズの例を図７に示す。同図では、
To strengthen counter measures for abnormal operating conditions ,と「異常対応の強化を図ると共に」
extend the lifetimeと「長寿命化及び」
of equipmentと「機器類の」
and reduceと「低減などを図る」
the power consumptionと「消費電力の」
by detectingと「検出して」
and informingと「報知することにより、」
various kinds of abnormal operating conditions of air conditioners と「機器類の各種異常を」
in advanceと「前もって」
とがそれぞれ対のフレーズとして出力されている。

以上説明してきたように、本実施例１にかかるフレーズアラインメント装置１０では、フレーズアラインメントと部分的構文解析処理とを同時に行なうことにより、構文解析誤りによる副作用を抑制することができる。

また、フレーズアラインメント処理において辞書情報を添加することにより、データスパースネス問題が緩和され、フレーズアラインメントの精度が向上する。

従来のフレーズベース統計翻訳におけるフレーズアラインメントでは、単語間対応を抽出した後は単語間翻訳確率は破棄されていた。そのため、従来手法では、抽出された対訳フレーズの優位度はフレーズ自体のコーパス中での出現頻度のみから算出され、汎用性の高い対訳フレーズを抽出するのが難しかった。

なお、本実施例１においてはエントロピーを用いてフレーズの評価を行なっているが、本発明はこれに限定されるものではなく、対訳文間における対応するフレーズの総合的なフレーズ対応度を示す他の指標を用いて評価を行なうことができる。例えば、次のような処理でフレーズの評価を行なうこともできる。

まず、マトリックス中の各行（および各列）の中の最大要素を同定し、各行（および各列）の最大要素の和を、マトリックス要素の全合計で割ったものを許容計数として定義する。

たとえば、マトリックスが
1 0 10
20 2 1
0 30 0
である場合には、各行の最大要素はそれぞれ
1 0 10 ⇒ 10
20 2 1 ⇒ 20
0 30 0 ⇒ 30
となるので、計は 10+20+30 = 60 である。

一方マトリックスの全要素の合計は
1 + 0 + 10 +
20 + 2 + 1 +
0 + 30 + 0
= 64 。

従って、このマトリックスの行側許容係数は
60／64 = 0.9375
となる。

列側許容係数も同様に
1 0 10
20 2 1
0 30 0
↓ ↓ ↓
20 30 10
60／64 = 0.9375
となる。

したがって、両者を総合した許容係数は平均値を取って
(0.9375+0.9375) ／2 = 0.9375
である。

エントロピーを用いる場合は値が小さい程フレーズの一致度が高いが、許容係数の場合は逆に値が高いほど一致度が高くなる。完全に1対１に対応している場合、たとえば
0 0 10
20 0 0
0 30 0
の場合では、許容係数は1.0 となる。

なお、本実施例１では、本発明にかかるフレーズアラインメント方法を実施するための専用の装置としてフレーズアラインメント装置１０を構築する場合を例に説明を行なったが、例えば、フレーズアライメント装置１０に示した各機能構成をソフトウェアによって実現するフレーズアライメントプログラムを汎用のコンピュータシステム上で実行することで本発明を実施することもできる。

つづいて、実施例１に示したフレーズアラインメントによって得られた対訳フレーズを用いるフレーズベース統計翻訳について説明する。

図８にフレーズベース統計翻訳のプロセスの１例を示す。入力の日本語文は適当なフレーズの列に分割され、それぞれの日本語フレーズは英語フレーズに翻訳（フレーズ翻訳）され、フレーズ翻訳された英語フレーズには順序の入れ替えが施され出力される。

一般に統計翻訳モデルは、ノイジーチャネルモデルによって定式化され、ベイズルールにより翻訳モデルと言語モデルに分割される。つまり、ある日本語文ｊが英語文eに翻訳される確率p(e|ｊ ) は次式のようにeがｊに翻訳される翻訳確率p(ｊ|e )とeの生成確率p(e )の積を用いて表される。
p(e|ｊ ) ＝ p(ｊ|e )・p(e )／p(ｊ) ――――（６）

そして、ｊの翻訳として最適な翻訳文e^* は（６）式を最大化するeとして求められる。
すなわち、
e^*＝argmax_e p(e|ｊ ) = argmax_e p(ｊ|e )・p(e )／p(ｊ)

ここで、p(ｊ)はeに依存しないので、
e^*＝argmax_e p(ｊ|e )・p(e ) ――――（７）
となる。p(ｊ|e )を導出するモデルを翻訳モデル、p(e )を導出するモデルを言語モデルと呼ぶ。

言語モデルはある入力英語表現に対して、大量の英語コーパスと照らし合わせたときの当該英語表現の生成確率を算出するモデルであり、単語のn―グラムモデル（たとえばn = 3）が一般的に使われる。翻訳過程においては、入力文ｊはI個のフレーズの列 j'_1-I= j'₁ j'₂…j'_I に分割され、それぞれの日本語フレーズj'_iが英語フレーズe'_iに翻訳（フレーズ翻訳）される。フレーズ翻訳が施される日本語フレーズの順序には制限はないが、出力は文頭から文末へ向けて順に生成される。

翻訳モデルおよび言語モデルとは独立に、出力英語文の長さを調整するためのファクターとして、（８）に示すワードコストを導入しても良い。
WC = ω^length(e)――――（８）
ωは定数で、１より大きい場合は長い出力文に対して優位に働く。また、入力言語のフレーズの順序に対して、出力言語のフレーズの順序が大きくばらつくのを防ぐためにディストーションコストを導入しても良いが、日英翻訳の場合順序の制約が返って最適解を阻害する場合も多いので、ここでは省略する。

図９は、本実施例２である翻訳装置１００の概要構成を示す概要構成図である。同図において、実施例１に示したフレーズアラインメントによって得られた対訳フレーズは対訳フレーズ蓄積部１１０に蓄積され、更にフレーズ翻訳確率算出部１１１により、各フレーズ翻訳対に対する翻訳確率が計算され、翻訳確率付き対訳フレーズとして確率付フレーズ翻訳テーブル１１２に格納される。

そして、入力文が入力文受付部１０１で受付けられると、初期状態設定部１０２において状態が初期値に設定される。ここで、状態とは、フレーズ置換履歴、フレーズ置換された入力文、部分翻訳の３つ組で表される。初期状態においては、フレーズ置換はまだ行われていないので、フレーズ置換履歴はNULL、フレーズ置換された入力文は入力文そのもの、そしてまだ翻訳ステップに入っていないので部分翻訳はempty string である。

フレーズ置換翻訳処理部１０３では、入力日本語文の部分文字列と、確率付フレーズ翻訳テーブル１１２に格納された対訳フレーズの日本語側表現とのマッチングを行い、マッチした入力文中の文字列を対訳フレーズの英語側表現と置換する。なお入力日本語文は予め形態素解析を施し、形態素単位に分割されていてもよく、その場合は、マッチさせる入力文中の文字列は、１つの形態素そのものであるか、あるいは２つ以上の連続する形態素をすべて連結した文字列と等しくなければならない。

入力文の部分文字列とのマッチングは入力文中のどの位置から開始しても良く、またどの位置の順に行っても良い。１つのマッチ文字列と、その文字列の１つの翻訳候補とのペアに対して、１つの新しい状態が生成される。

図１０に状態遷移の例を示す。四角で囲まれているのが１つ１つの状態であり、状態と状態を結ぶ矢印が状態遷移を表す。それぞれの矢印に対して、フレーズ置換翻訳に使われた対訳フレーズが付記されている。

それぞれの状態の評価値は、その状態の直前の状態の評価値およびその状態におけるパラメータ値（三つ組の値）をもとに式（９）より求められる。新しく生成された状態は状態記憶部１０７に記録され、また当該状態の直前の状態へのバックリンクも状態記憶部１０７で管理される。

状態序列部１０８では、部分翻訳の単語数が等しい状態を１つのグループに編成し、当該グループの中で、各状態を評価値の高い順に並べる。そして、評価値の高い状態から順にフレーズ置換翻訳処理部１０３に送られ、新状態の展開が施される。

入力文がすべて英語フレーズで置換された段階で、最終評価値が状態評価値算出部１０６で算出され、状態序列部１０８で順序付けされ、評価値の高い状態から順に翻訳文が出力される。

状態序列部１０８において、すべての状態を順序付けしてフレーズ置換翻訳処理部１０３に送ると探索スペースが膨大になるため、通常はビームサーチにより状態の足切りを行なう。ビームの絞り方は、候補として残す状態の絶対数を決める方法、最高評価値に対する評価値の相対値で絞る方法、および両者の組合せなどがある。

以上説明してきたように、本実施例２にかかる翻訳装置では、実施例１に示したフレーズベースアラインメントによって得られた良質の対訳フレーズを用いて統計翻訳を行なうことにより、フレーズベース統計翻訳の高精度化を実現することができる。

なお、本実施例２では、本発明を自動翻訳に利用する場合について説明を行なったが、本発明の利用はこれに限定されるものではない。たとえば、人間が翻訳するのを補助する翻訳支援システムにおいても、フレーズレベルでの翻訳例が最も支援効果が高いので、本発明によって得られる良質な対訳フレーズの抽出によって支援効果の向上が実現できる。

（付記１）コンピュータに、
互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付ステップ、
前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理ステップ、
前記フレーズマージ処理ステップによって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出ステップ、
前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索ステップ、
前記マージペア探索ステップで探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力ステップ、
を実行させるための翻訳プログラム。

（付記２）前記総合評価値として、前記第１言語文中のフレーズと前記第２言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度の、マージ前後での変化量として求められる評価値を用いることを特徴とする付記１に記載の翻訳プログラム。

（付記３）前記総合フレーズ対応度として、フレーズ間対応に関する不確からしさを示すエントロピーを用いることを特徴とする付記２に記載の翻訳プログラム。

（付記４）前記総合評価値は、前記総合フレーズ対応度と、２つのフレーズのマージによって生成される新しいフレーズが当該フレーズを含む文の構文構造上、Constituentと見なせるか否かを評価するための構文構造評価値と、を合成して求められることを特徴とする付記２または３に記載の翻訳プログラム。

（付記５）前記対訳文受付ステップと前記フレーズマージ処理ステップとの間に、名詞句、句動詞、もしくは任意の意味的に一塊と見なせるベースフレーズを抽出するベースフレーズ抽出ステップをさらにコンピュータに実行させることを特徴とする付記１〜４のいずれか一つに記載の翻訳プログラム。

（付記６）前記統計評価値算出ステップ中に、前記第１言語文中のフレーズと前記第２言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求めるコーパスベース統計評価値算出ステップと、対訳辞書、類義語辞典、シソーラス、もしくは任意の辞書データを基にフレーズ間対応を求める辞書情報対応ステップと、をさらにコンピュータに実行させることを特徴とする付記１〜５のいずれか一つに記載の翻訳プログラム。

（付記７）前記構文構造評価値として、２つのフレーズのマージによって生成される新しいフレーズの構文構造のコーパス中の相対頻度を用いることを特徴とする付記４〜６のいずれか一つに記載の翻訳プログラム。

（付記８）前記統計評価値算出ステップの中に、ストップワード検出ステップを含み、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語、もしくは任意のストップワードの出現確率をエントロピーの算出において除外することを特徴とする付記２〜７のいずれか一つに記載の翻訳プログラム。

（付記９）前記統計評価値算出ステップにおいて、統計翻訳モデルを用いて求められたフレーズ間対応は確定対応として固定し、統計翻訳モデルによって特定されなかったフレーズ間対応を辞書情報対応ステップによって求めることを特徴とする付記６〜８のいずれか一つに記載の翻訳プログラム。

（付記１０）前記統計評価値算出ステップにおいて、統計翻訳モデルを用いて求められたフレーズ間対応は、対応するフレーズのペアと対応頻度を情報として抽出して辞書情報と足し合わせて辞書情報対応ステップに送り、前記統計評価値算出は前記辞書情報対応ステップにおいて行なうことを特徴とする付記６〜９のいずれか一つに記載の翻訳プログラム。

（付記１１）コンピュータに、
入力文である第１言語文を受け付ける入力文受付ステップ、
前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出ステップ、
前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第２言語側表現で置換するフレーズ置換翻訳処理ステップ、
前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築ステップ、
前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の３つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出ステップ、
前記状態評価値に従って状態の優位度を順序付ける状態序列ステップ、
状態序列順にフレーズ置換翻訳処理ステップへと遷移させる状態遷移ステップ、
を実行させるための付記１〜７のいずれか一つに記載の翻訳プログラム。

（付記１２）互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付手段と、
前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理手段と、
前記フレーズマージ処理手段によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出手段と、
前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索手段と、
前記マージペア探索手段で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力手段と、
を備えたことを特徴とする翻訳装置。

（付記１３）入力文である第１言語文を受け付ける入力文受付手段と、
前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出手段と、
前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第２言語側表現で置換するフレーズ置換翻訳処理手段と、
前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築手段と、
前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の３つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出手段と、
前記状態評価値に従って状態の優位度を順序付ける状態序列手段と、
状態序列順にフレーズ置換翻訳処理手段へと遷移させる状態遷移手段と、
を備えたことを特徴とする付記１２に記載の翻訳装置。

（付記１４）互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付工程と、
前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理工程と、
前記フレーズマージ処理工程によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出工程と、
前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索工程と、
前記マージペア探索工程で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力工程と、
を含んだことを特徴とする翻訳方法。

（付記１５）入力文である第１言語文を受け付ける入力文受付工程と、
前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出工程と、
前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第２言語側表現で置換するフレーズ置換翻訳処理工程と、
前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築工程と、
前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の３つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出工程と、
前記状態評価値に従って状態の優位度を順序付ける状態序列工程と、
状態序列順にフレーズ置換翻訳処理工程へと遷移させる状態遷移工程と、
を含んだことを特徴とする付記１４に記載の翻訳方法。

以上のように、本発明にかかる翻訳プログラム、翻訳装置および翻訳方法は、言語間の翻訳支援に有用であり、特に良質な対訳フレーズの抽出に適している。

本発明にかかるフレーズアライメント装置の概要構成図である。図１に示した統計評価値評価部の入力例である。マージペア探索について説明する説明図である（その１）。マージペア探索について説明する説明図である（その２）。マージペア探索について説明する説明図である（その３）。マージペア探索について説明する説明図である（その４）。図１に示したマージ実行部の出力例である。翻訳プロセスについて説明する説明図である。フレーズベース統計翻訳を用いる翻訳装置の概要構成図である。状態繊維について説明する説明図である。

符号の説明

１０フレーズアラインメント装置
１１対訳文受付部
１２ベースフレーズ抽出部
２０フレーズマージ処理部
２１マージペア探索部
２２マージ実行部
２３対訳フレーズ出力部
３０総合評価値算出部
３１構文構造評価値算出部
３２句構造文法ルール
３３総合評価値出力部
４０統計評価値算出部
４１コーパスベース統計評価値算出部
４２辞書情報対応部
４３統計評価値評価部
４４統計評価値出力部
１００翻訳装置
１０１入力受付部
１０２初期状態設定部
１０３フレーズ置換翻訳処理部
１０３ａ翻訳履歴蓄積部
１０４部分翻訳構築部
１０５状態繊維部
１０６状態評価値出力部
１０７状態記憶部
１０８状態序列部
１１０対訳フレーズ蓄積部
１１１フレーズ翻訳確率算出部
１１２確率付フレーズ翻訳テーブル
１１３言語モデル記憶部

Claims

コンピュータに、
互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付ステップ、
前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理ステップ、
前記フレーズマージ処理ステップによって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出ステップ、
前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索ステップ、
前記マージペア探索ステップで探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力ステップ、
を実行させるための翻訳プログラム。
前記総合評価値として、前記第１言語文中のフレーズと前記第２言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度の、マージ前後での変化量として求められる評価値を用いることを特徴とする請求項１に記載の翻訳プログラム。
前記総合フレーズ対応度として、フレーズ間対応に関する不確からしさを示すエントロピーを用いることを特徴とする請求項２に記載の翻訳プログラム。
前記総合評価値は、前記総合フレーズ対応度と、２つのフレーズのマージによって生成される新しいフレーズが当該フレーズを含む文の構文構造上、Constituentと見なせるか否かを評価するための構文構造評価値と、を合成して求められることを特徴とする請求項２または３に記載の翻訳プログラム。
前記対訳文受付ステップと前記フレーズマージ処理ステップとの間に、名詞句、句動詞、もしくは任意の意味的に一塊と見なせるベースフレーズを抽出するベースフレーズ抽出ステップをさらにコンピュータに実行させることを特徴とする請求項１〜４のいずれか一つに記載の翻訳プログラム。
前記統計評価値算出ステップ中に、前記第１言語文中のフレーズと前記第２言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求めるコーパスベース統計評価値算出ステップと、対訳辞書、類義語辞典、シソーラス、もしくは任意の辞書データを基にフレーズ間対応を求める辞書情報対応ステップと、をさらにコンピュータに実行させることを特徴とする請求項１〜５のいずれか一つに記載の翻訳プログラム。
前記統計評価値算出ステップの中に、ストップワード検出ステップを含み、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語、もしくは任意のストップワードの出現確率をエントロピーの算出において除外することを特徴とする請求項２〜６のいずれか一つに記載の翻訳プログラム。
コンピュータに、
入力文である第１言語文を受け付ける入力文受付ステップ、
前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出ステップ、
前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第２言語側表現で置換するフレーズ置換翻訳処理ステップ、
前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築ステップ、
前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の３つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出ステップ、
前記状態評価値に従って状態の優位度を順序付ける状態序列ステップ、
状態序列順にフレーズ置換翻訳処理ステップへと遷移させる状態遷移ステップ、
を実行させるための請求項１〜７のいずれか一つに記載の翻訳プログラム。
互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付手段と、
前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理手段と、
前記フレーズマージ処理手段によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出手段と、
前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索手段と、
前記マージペア探索手段で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力手段と、
を備えたことを特徴とする翻訳装置。
互いに翻訳関係にある第１言語文と第２言語文との対としてなる入力対訳文を受け付ける対訳文受付工程と、
前記第１言語文内および／または前記第２言語文内において隣接する２つのフレーズをマージして、当該マージによって形成された１つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理工程と、
前記フレーズマージ処理工程によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出工程と、
前記総合評価値に基づいて他のマージペアに比して適切性の高い１つあるいは複数個のマージペアを探索するマージペア探索工程と、
前記マージペア探索工程で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力工程と、
を含んだことを特徴とする翻訳方法。