[go: up one dir, main page]

JP2008102794A - フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 - Google Patents

フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 Download PDF

Info

Publication number
JP2008102794A
JP2008102794A JP2006285540A JP2006285540A JP2008102794A JP 2008102794 A JP2008102794 A JP 2008102794A JP 2006285540 A JP2006285540 A JP 2006285540A JP 2006285540 A JP2006285540 A JP 2006285540A JP 2008102794 A JP2008102794 A JP 2008102794A
Authority
JP
Japan
Prior art keywords
phrase
translation
merge
evaluation value
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006285540A
Other languages
English (en)
Other versions
JP5082374B2 (ja
Inventor
Akira Shioda
明 潮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006285540A priority Critical patent/JP5082374B2/ja
Priority to US11/796,784 priority patent/US8630839B2/en
Publication of JP2008102794A publication Critical patent/JP2008102794A/ja
Application granted granted Critical
Publication of JP5082374B2 publication Critical patent/JP5082374B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】言語情報を考慮して良質な対訳フレーズを抽出すること。
【解決手段】フレーズアラインメントの指標を総合評価値算出部30が算出する場合に、コーパスベース統計評価値算出部41が算出する単語間翻訳確率、辞書情報対応部42が算出する辞書対応情報、および構文構造評価値算出部31が算出する構文構造情報を定量的に結合して総合的評価基準を求める。これにより、単語間翻訳確率が有効に活かせるだけではなく、構文解析情報や辞書情報などの言語学的に裏付けられた情報が定量的に組み込まれるため、フレーズアラインメントを優位度情報付きで進めることが可能となる。
【選択図】 図1

Description

この発明は、機械翻訳技術に関し、特に異なる2つの言語間で互いに翻訳関係にあるフレーズを対にした対訳フレーズを抽出するフレーズアラインメントを行なう翻訳プログラム、翻訳装置および翻訳方法に関するものである。
大量の対訳文データから統計的に翻訳知識を抽出し、最小限の人手コストで高精度の自動翻訳を実現するための枠組みとして、統計翻訳(Statistical Machine Translation)が近年注目されている。
中でもIBMモデルなどの単語ベースの統計翻訳の弱点を補う手法として、翻訳の単位として単語ではなくフレーズを用いるフレーズベース統計翻訳が従来より提唱され、単語ベース統計翻訳に対する優位性が報告されている(例えば非特許文献1および特許文献1参照。)。
従来のフレーズベース統計翻訳においては、まずIBMモデルなどの単語ベースの統計翻訳の枠組みを用いて対訳文中の単語間の対訳対応関係を求め、その単語間の対訳対応と矛盾しないすべてのフレーズ(単語列)対応候補を対訳フレーズテーブルの形で保存し活用する方法が用いられている。
"Pharaoh: a Beam Search Decoder for Phrase-Based Statistical Machine Translation Models", Philipp Koehn, AMTA 2004 特開2005−25474号公報
フレーズベース統計翻訳の高精度化のためには、良質の対訳フレーズを対訳文から自動で抽出するフレーズアラインメント技術が必要である。また、自動翻訳に限らず、人間が翻訳するのを補助する翻訳支援システムにおいても、フレーズレベルでの翻訳例が最も支援効果が高く、良質な対訳フレーズの抽出が求められている。
しかしながら、言語情報を用いない従来手法においては、獲得されるフレーズ対応中のフレーズとは言語学的には必ずしも意味を持たない単なる単語列であったため、翻訳の単位として汎用性に欠ける、対訳コーパスの分野に過適合するため対訳フレーズの分野間移植性が低い、などの問題があった。
また、フレーズベース統計翻訳に構文解析処理を用いて言語学的知識を導入する提案もされているが、その際構文解析処理は単語対応や単語翻訳確率などとは独立に、既存の単言語用構文解析器を用いて行われていたため、構文解析誤りによる対訳フレーズの誤抽出や抽出漏れなどの問題が生じ、構文解析を通じた言語知識導入の利点が活かされていなかった。
この発明は、上述した従来技術よる問題点を解消し、課題を解決するためになされたものであり、言語情報を考慮して良質な対訳フレーズを抽出可能な翻訳プログラム、翻訳装置、翻訳方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明にかかる翻訳プログラムは、互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付ステップと、前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理ステップと、前記フレーズマージ処理ステップによって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出ステップと、前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索ステップと、前記マージペア探索ステップで探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力ステップと、をコンピュータに実行させることを特徴とする。
この発明によれば翻訳プログラムは、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズマージ処理ステップによって得られるマージペアの適切さを判定するための総合評価値を算出し、総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。
また、本発明にかかる翻訳プログラムは、前記総合評価値として、前記第1言語文中のフレーズと前記第2言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度の、マージ前後での変化量として求められる評価値を用いることを特徴とする。
この発明によれば翻訳プログラムは、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズマージ処理ステップによって得られるマージペアの適切さを判定するために、第1言語文中のフレーズと前記第2言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度のマージ前後での変化量として求められる評価値を用いて総合評価値を算出し、総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。
また、本発明にかかる翻訳プログラムは、前記総合フレーズ対応度として、フレーズ間対応に関する不確からしさを示すエントロピーを用いることを特徴とする。
この発明によれば翻訳プログラムは、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズ間対応に関する不確からしさを示すエントロピーを用いてマージペアの適切さを判定する。
また、本発明にかかる翻訳プログラムは、前記総合評価値は、前記総合フレーズ対応度と、2つのフレーズのマージによって生成される新しいフレーズが当該フレーズを含む文の構文構造上、Constituentと見なせるか否かを評価するための構文構造評価値と、を合成して求められることを特徴とする。
この発明によれば翻訳プログラムは、総合フレーズ対応度と、マージによって生成される新しいフレーズが構文構造上Constituentと見なせるか否かを評価するための構文構造評価値との合成値によって他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。
また、本発明にかかる翻訳プログラムは、前記対訳文受付ステップと前記フレーズマージ処理ステップとの間に、名詞句、句動詞、もしくは任意の意味的に一塊と見なせるベースフレーズを抽出するベースフレーズ抽出ステップをさらにコンピュータに実行させることを特徴とする。
この発明によれば翻訳プログラムは、受け付けた対訳文に対してベースフレーズの抽出を行なった後、フレーズマージ処理を実行し、他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。
また、本発明にかかる翻訳プログラムは、前記統計評価値算出ステップ中に、前記第1言語文中のフレーズと前記第2言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求めるコーパスベース統計評価値算出ステップと、対訳辞書、類義語辞典、シソーラス、もしくは任意の辞書データを基にフレーズ間対応を求める辞書情報対応ステップと、をさらにコンピュータに実行させることを特徴とする。
この発明によれば翻訳プログラムは、第1言語文中のフレーズと第2言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求めるとともに、対訳辞書、類義語辞典、シソーラス、もしくは任意の辞書データを基にフレーズ間対応を求める。
また、本発明にかかる翻訳プログラムは、前記統計評価値算出ステップの中に、ストップワード検出ステップを含み、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語、もしくは任意のストップワードの出現確率をエントロピーの算出において除外することを特徴とする。
この発明によれば翻訳プログラムは、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語や任意のストップワードの出現確率をエントロピーの算出において除外する。
また、本発明にかかる翻訳プログラムは、コンピュータに、入力文である第1言語文を受け付ける入力文受付ステップ、前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出ステップ、前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第2言語側表現で置換するフレーズ置換翻訳処理ステップ、前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築ステップ、前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の3つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出ステップ、前記状態評価値に従って状態の優位度を順序付ける状態序列ステップ、状態序列順にフレーズ置換翻訳処理ステップへと遷移させる状態遷移ステップ、を実行させる。
この発明によれば翻訳プログラムは、上述のフレーズアラインメントによって得られた対訳フレーズを蓄積してフレーズ翻訳確率を求め、入力文中の単語列の一部である部分単語列を、当該部分単語列と一致するフレーズ蓄積手段内の第2言語側表現で置換し、フレーズ置換の履歴から現時点までの部分翻訳を構築する。その後、フレーズ置換された入力文、部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の3つ組みにおける総合的な状態の優位度を示す状態評価値を算出し、状態評価値に従って状態の優位度を順序付けて状態序列順にフレーズ置換翻訳処理ステップへと遷移させる。
また、本発明にかかる翻訳装置は、互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付手段と、前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理手段と、前記フレーズマージ処理手段によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出手段と、前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索手段と、前記マージペア探索手段で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力手段と、を備えたことを特徴とする。
この発明によれば翻訳装置は、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズマージ処理ステップによって得られるマージペアの適切さを判定するための総合評価値を算出し、総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。
また、本発明にかかる翻訳方法は、互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付工程と、前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理工程と、前記フレーズマージ処理工程によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出工程と、前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索工程と、前記マージペア探索工程で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力工程と、を含んだことを特徴とする。
この発明によれば翻訳方法は、互いに翻訳関係にある対訳文のフレーズマージ処理を階層的に繰り返すフレーズマージ処理において、フレーズマージ処理ステップによって得られるマージペアの適切さを判定するための総合評価値を算出し、総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索し、対訳フレーズとして出力する。
本発明によれば翻訳プログラム、翻訳装置および翻訳方法は、フレーズアラインメントと部分的構文解析処理とを同時に行なうことにより、構文解析誤りによる副作用を抑制することができる。また、フレーズアラインメント処理において辞書情報を添加することにより、データスパースネス問題が緩和され、フレーズアラインメントの精度が向上する。
従来のフレーズベース統計翻訳におけるフレーズアラインメントでは、単語間対応を抽出した後は単語間翻訳確率は破棄されていた。そのため、従来手法では、抽出された対訳
フレーズの優位度はフレーズ自体のコーパス中での出現頻度のみから算出され、汎用性の高い対訳フレーズを抽出するのが難しかった。
これに対し、本手法では単語間翻訳確率、辞書対応情報、および構文構造情報を定量的に結合したフレーズアラインメントのための総合的評価基準を用いることにより、単語間翻訳確率が有効に活かせるだけではなく、構文解析情報や辞書情報などの言語学的に裏付けられた情報が定量的に組み込まれるため、フレーズアラインメントを優位度情報付きで進めることが可能になる。
そのため、言語情報を考慮して良質な対訳フレーズを抽出し、もって翻訳精度を向上することができるという効果を奏する。
以下に添付図面を参照して、この発明に係る翻訳プログラム、翻訳装置および翻訳方法の好適な実施の形態を詳細に説明する。
図1は、本発明の実施の形態であるフレーズアラインメント装置の概要構成を示す概要構成図である。同図に示すようにフレーズアラインメント装置10は、その内部に対訳文受付部11、ベースフレーズ抽出部12およびフレーズマージ処理部20を有する。
対訳文受付部11は、互いに翻訳関係にある第1言語文と第2言語文との対訳文を入力として受け付ける処理部である。ベースフレーズ抽出部12は、入力された対訳文のそれぞれの文に対し、名詞句、句動詞、もしくは任意の意味的に一塊と見なせるベースフレーズを抽出する処理を行なう。
その後、フレーズマージ処理部20は、対訳文から得られる対訳フレーズ、すなわち第1言語文中のフレーズと第2言語文中のフレーズの対であって互いに翻訳関係にあるフレーズを対訳フレーズとして出力する処理を行なう。ここで、フレーズとは複数の単語からなる単語列を指すが、マージ開始時点における単独の単語も、アルゴリズム記述上の利便のためにフレーズと呼ぶ。
フレーズマージ処理部20は、第1言語文内あるいは第2言語文内の隣接した2つのフレーズをマージして、当該フレーズを、マージされてできた1つの新しいフレーズで置換する処理を階層的に繰り返す処理部であり、その内部に総合評価値算出部30、マージペア探索部21、マージ実行部22および対訳フレーズ出力部23を有する。
総合評価値算出部30は、最適マージペアを判定するための総合評価値を算出する処理部である。また、マージペア探索部21は、総合評価値に従って最適な1つあるいは複数個のマージペアを探索する処理部であり、マージ実行部22は、マージペア探索部21で探索されたマージペアのマージを実行する。そして対訳フレーズ出力部23は、マージによって得られたマージペアを対訳フレーズとして出力する処理を行なう。
総合評価値算出部30は、総合評価値として、第1言語文中のフレーズと第2言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度の、マージ前後での変化量として求められる評価値を用いる。この総合フレーズ対応度としては、例えばフレーズ間対応に関する不確からしさを示すエントロピーを用いることができる。
さらに総合評価値を求める場合には、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量として求められる統計評価値と、2つのフレーズのマージによって生成される新しいフレーズが、当該フレーズを含む文の構文構造上、構文構成要素(言語学的Constituent)と見なせるか否かを評価するための構文構造評価値とを合成して求めることが好適である。
そこで、総合評価算出部30は、その内部に統計評価値算出部40、構文構造評価値算出部31、句構造文法ルール32、総合評価値出力部33を備え、統計評価値算出部40が算出した統計評価値と構文構造評価値算出部31が算出した構文構造評価値を総合評価値出力部33によって合成している。
構文構造評価値算出部31は、句構造文法ルール32に蓄積した句構造文法ルールを参照し、2つのフレーズのマージによって生成される新しいフレーズの構文構造(構文木の中の、当該フレーズを過不足なく含む部分木)のコーパス中の相対頻度(全く同じ構造とノードラベルを持つ部分木の、同じトップノードラベルを持つ部分木の中での相対出現頻度)を算出し、構文構造評価値として出力する。
統計評価値算出部40は、その内部にコーパスベース統計評価値算出部41、辞書情報対応部42、統計評価値評価部43および統計評価値出力部44を有する。
コーパスベース統計評価値算出部41は、第1言語文中のフレーズと第2言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求める。一方、辞書情報対応部42は、対訳辞書、類義語辞典、シソーラスなど辞書データを基にフレーズ間対応を求める。
そして、統計評価値評価部43がコーパスベース統計評価値算出部41の出力と辞書情報対応部42の出力とを用いて統計評価値を評価し、統計評価値出力部44によって出力する。
なお、統計評価値を算出する際には、ストップワード検出処理部を設けることにより、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語などのストップワードの出現確率をエントロピーの算出において除外することが望ましい。
また、統計評価値の算出において、統計翻訳モデルを用いて求められた単語対応は確定対応として固定し、統計翻訳モデルによって特定されなかった単語間対応を辞書情報対応部によって求めることが好適である。
さらに、統計翻訳モデルを用いて求められた単語対応は、対応する単語のペアと対応頻度のみを情報として抽出し辞書情報と足し合わせて辞書情報対応部42に格納し、統計評価値算出は辞書情報対応部42のみにおいて行なうようにしてもよい。
つづいて、フレーズアラインメント装置10の動作について具体例を挙げて説明する。ここでは、対訳文受付部11が、
第1言語文:
To strengthen counter measures for abnormal operating conditions, extend the lifetime of equipment and reduce the power consumption by detecting and informing various kinds of abnormal operating conditions of air conditioners in advance.
と、第2言語文:
空調機の各種異常を前もって検出して報知することにより、異常対応の強化を図ると共に、機器類の長寿命化及び消費電力の低減などを図る。
の対を対訳文として入力された場合について考える。
この入力例に対し、ベースフレーズ抽出を行なわなければ、総合評価値算出部30への入力は、
第1言語文:
To strengthen counter measures for abnormal operating conditions, extend the lifetime of equipment and reduce the power consumption by detecting and informing various kinds of abnormal operating conditions of air conditioners in advance.
第2言語文:
空調機 の 各種 異常 を 前 もって 検出 し て 報知 する ことに より, 異常 対応の 強化 を 図 る と共に , 機器 類 の 長寿命 化 及び 消費電力 の 低減 など を 図 る .
となる。
これに対し、ベースフレーズ抽出部12によってベースフレーズを抽出した場合の総合評価値算出部30への入力では、少なくともいずれかの言語文がベースフレーズに区切られて入力される。かかる入力の具体例を2つ例示する。
入力例1
第1言語文:
To strengthen counter measures for abnormal operating conditions, extend the lifetime of equipment and reduce the power consumption by detecting and informing various kinds of abnormal operating conditions of air conditioners in advance.
第2言語文:
[空調機 の] [各種 異常 を] [前 もって] [検出 し て] [報知 する] [ことに より], [異常 対応の] [強化 を] [図 る と共に] , [機器 類 の] [長寿命 化 及び] [消費電力 の] [低減 など を] [図 る] .
入力例2
第1言語文:
To strengthen [counter measures] for [abnormal operating conditions], extend [the lifetime] of equipment and reduce [the power consumption] by [detecting and informing] [various kinds] of [abnormal operating conditions] of [air conditioners] [in advance].
第2言語文:
[空調機 の] [各種 異常 を] [前 もって] [検出 し て] [報知 する] [ことに より], [異常 対応の] [強化 を] [図 る と共に] , [機器 類 の] [長寿命 化 及び] [消費電力 の] [低減 など を] [図 る] .
このうち、入力例1が与えられた場合の統計評価値の算出について図2を参照して説明する。同図に示したマトリックス(対訳フレーズマトリックス)の各行の数字は、その行に対応する第1言語文中の単語(たとえば第6行ならば"abnormal")の翻訳確率(の100倍)を表す。
たとえば第i行、第j列の値がC(i,j)、第i行に対応する第1言語側単語をw(i),第j列に対応する第2言語側のフレーズをv(j)だとすると、C(i,j)は、単語w(i)がフレーズv(j)中に含まれるいずれかの文字列として訳される確率(翻訳確率)を示す。
但し、w(i)がフレーズv(j)の中の2つの異なる部分文字列t1とt2に翻訳される翻訳確率がともに正であり、それぞれPc(t1|w(i)),Pc(t2|w(i))であるときはC(i,j)はそれぞれの和として求められる。すなわち、C(i,j)=100(Pc(t1|w(i))+Pc(t2|w(i)))。3つ以上の部分文字列の場合も同様である。
ここで、翻訳確率Pc(B|A)はAがBに翻訳される確率であり、統計翻訳モデルを用いて、コーパスベース統計評価値算出部41において求められる。また、2つの異なる第2言語側のフレーズv(j)とv(k)に関してC(i,j)とC(i,k) が共に正値である場合、上記表では規格化せずにそれぞれの値がそのまま表示されている。3つ以上の第1言語側のフレーズに関しても同様である。
従って、対訳文が与えられたとき、第1言語文中のある単語w(i)の訳語がフレーズv(j)中に出現する確率(条件付き確率)P(v(j)|w(i))は、以下のように求められる。
まず、w(i)の訳語が必ず第2言語文中に出現するという仮定より、
Σj ΣtP(t|w(i) ) P(t appears in v(j) ) = 1 ------ (1)
ここで、tはw(i)の翻訳候補、P(t| w(i) )は与えられた対訳文内において、w(i)がtに翻訳される翻訳確率、P(t appears in v(j) )はtがv(j)中に出現する確率を表す。
ここでは、対訳文は既知であるから、v(j)が文字列としてtを含まなければP(t appears in v(j) )は0であり、含めば1であると認定できる。正確にはv(j)が文字列としてtを含んでいてもtがw(i)の訳語として存在しているのではない可能性もあるが、ここでは上記の通り認定するものとする。
また、与えられた対訳文内での翻訳確率P(t|w(i))は対訳コーパスから文脈に依存しない形で得られる上記翻訳確率Pc(t|w(i))に比例すると仮定する。すなわち、すべてのtとw(i)について
P(t|w(i))=λPc(t|w(i)) ------(2)
ここでλはある定数。
(1)と(2)より、
λΣj ΣtPc(t|w(i))P(t appears in v(j) ) = 1
上記C(i , j)の定義より、
ΣtPc(t|w(i) ) P(t appears in v(j) ) = C(i , j )/100
従って、
λΣj C(i , j )/100 = 1
λ = 100 / [Σj C(i , j )]
P(t|w(i) ) = 100*Pc(t|w(i) ) / [Σj C(i , j )]
となる。
これより、単語w(i)の訳語がフレーズv(j)中に出現する確率P(v(j)|w(i)) は、
P(v(j)|w(i) ) = Σt P(t|w(i) ) P(t appears in v(j) )
= Σt 100* P(t appears in v(j) )*Pc(t|w(i) ) / [Σj C(i , j )]
= C(i , j ) / [Σj C(i , j )] ------(3)
と求まる。従って、単語w(i)の訳語がフレーズv(j)中に出現する確率P(v(j)|w(i)) は、C(i, j)の値を行マージンで割った値(行内相対値)として求まる。
同様に、第2言語側フレーズv(j)について、v(j)がw(i)の訳語として生成された確率Pt (w(i) |v(j))を以下のようにCの列内相対値として定義することが可能である。もちろん他の定義も可能であるが、本実施例では以下のように仮定する。
Pt (w(i) | v(j) ) = C(i , j ) / [Σi C(i , j )] ------(4)
さてここで、対訳フレーズマトリックスのi 行に着目し、w(i) の訳語(翻訳表現)が第2言語文のどのフレーズに出現したかを判定する際の確からしさを考える。もしP(v(j)|w(i)) = 1 ならば、単語w(i)の訳語がフレーズv(j)中に出現したことは100%確かであり、情報論的に言えば、判定のエントロピーは0である。ここで、エントロピー H(i) は
H(i) = −Σj P(v(j)|w(i) ) log2 P(v(j)|w(i) ) ------(5)
で与えられる。
ここで、l imx →0 x log2 x = 0の関係を利用して、すべてのv(j) に対してP(v(j)|w(i)) =0 のケースでは
H(i) = 0 と解釈することにする。
つづいて、マージベア探索部21によるマージペアの探索について図3〜図6を参照して説明する。マージペア探索部21では、隣接する行、あるいは隣接する列をマージすることにより第1言語側フレーズあるいは第2言語側フレーズをボトムアップに結合して、より大きいフレーズを生成して行く。
ここではマージのための総合評価値として統計評価値を用いる場合の1例として、マージの優劣の判定のためにエントロピーを用いる場合を示す。マージによるエントロピーの変化量の算出方法は、決定木において、属性の評価値に応じてサンプル集合を分割して行く際のエントロピー変化量(あるいは情報量のゲイン)の算出方法と等しい。但し決定木では順次データ集合を部分集合に分割して行くのに対して本手法では逆にフレーズ同士をマージして行く。
図3は、対訳フレーズマトリックスのC(i, j)の値を示す
第1言語側(行)のエントロピーはそれぞれ
H(1) = - (100/100) log2 (100/100) = 0
H(2) = - (10/100) log2 (10/100) - (90/100) log2 (90/100) = 0.468995593589281
H(3) = - (95/100) log2 (95/100) - (5/100) log2 (5/100) = 0.286396957115956
H(4) = - (90/100) log2 (90/100) - (10/100) log2 (10/100) = 0.468995593589281
であり、第1言語側(行側)のトータルのエントロピーは以下のように求められる。
H_tot = (100 * H(1) + 100*H(2) + 100*H(3) + 100*H(4) ) / 400 = 0.3060970360736295
第2言語側(列)のエントロピーも同様に以下のように求められる。
Ht(1) = - (100/100) log2 (100/100) = 0
H(2) = - (10/195) log2 (10/195) - (95/195) log2 (95/195) - (90/195) log2 (90/195) = 1.24003625010867
Ht(3) = - (90/105) log2 (90/105) - (5/105) log2 (5/105) - (10/105) log2 (10/105) = 0.722857897732969
第2言語側(列側)のトータルのエントロピーは
Ht_tot = (100*Ht(1) + 195*Ht(2) + 105*Ht(3))/(100+195+105) = 0.7942678700828809875
よって、第1言語側(行側)と第2言語側(列側)を複合した総合エントロピーは、両者の平均値として以下のように求めることができる。
H = (H_tot + Ht_tot)/2 = 0.55018245307825524375
さて、マージ候補として、第2行(threw)と第3行(red)をマージした場合を考える。このマージにより、対訳フレーズマトリックスは図4のように変化する。
図3の場合と同様にして、第1言語側(行側)のトータルのエントロピーは
H_tot = 0.616346837918725
第2言語側(列側)のトータルのエントロピーは
Ht_tot = 0.604517671927974
第1言語側(行)と第2言語側(列側)の平均のエントロピーは
H = 0.61043225492335
と求まる。
一方、マージ候補として、第3行(red)と第4行(balls)をマージした場合を考えると、このマージにより、対訳フレーズマトリックスは図5のように変化する。
この場合は、第1言語側(行側)のトータルのエントロピーは
H_tot = 0.309404670460569
第2言語側(列側)のトータルのエントロピーは
Ht_tot = 0.297575504469818
第1言語側(行)と第2言語側(列側)の平均のエントロピーは
H = 0.303490087465193
と求まる。
従って、エントロピーを尺度として上記のマージの過程を評価すると図6に示すように、(threw, red)のマージに比べて、(red, balls)のマージの方が優位度が高いことが分かる。
このようにエントロピーを尺度としてマージの過程を評価していくことで、良質な対訳フレーズ、すなわち互いに翻訳関係である妥当性の高いフレーズの対を探索することができる。
かかるマージペアの評価手法を適用することで、上述の入力文からマージ実行部22が出力する対訳フレーズの例を図7に示す。同図では、
To strengthen counter measures for abnormal operating conditions ,と「異常対応の強化を図ると共に」
extend the lifetimeと「長寿命化及び」
of equipmentと「機器類の」
and reduceと「低減などを図る」
the power consumptionと「消費電力の」
by detectingと「検出して」
and informingと「報知することにより、」
various kinds of abnormal operating conditions of air conditioners と「機器類の各種異常を」
in advanceと「前もって」
とがそれぞれ対のフレーズとして出力されている。
以上説明してきたように、本実施例1にかかるフレーズアラインメント装置10では、フレーズアラインメントと部分的構文解析処理とを同時に行なうことにより、構文解析誤りによる副作用を抑制することができる。
また、フレーズアラインメント処理において辞書情報を添加することにより、データスパースネス問題が緩和され、フレーズアラインメントの精度が向上する。
従来のフレーズベース統計翻訳におけるフレーズアラインメントでは、単語間対応を抽出した後は単語間翻訳確率は破棄されていた。そのため、従来手法では、抽出された対訳フレーズの優位度はフレーズ自体のコーパス中での出現頻度のみから算出され、汎用性の高い対訳フレーズを抽出するのが難しかった。
これに対し、本手法では単語間翻訳確率、辞書対応情報、および構文構造情報を定量的に結合したフレーズアラインメントのための総合的評価基準を用いることにより、単語間翻訳確率が有効に活かせるだけではなく、構文解析情報や辞書情報などの言語学的に裏付けられた情報が定量的に組み込まれるため、フレーズアラインメントを優位度情報付きで進めることが可能になる。
なお、本実施例1においてはエントロピーを用いてフレーズの評価を行なっているが、本発明はこれに限定されるものではなく、対訳文間における対応するフレーズの総合的なフレーズ対応度を示す他の指標を用いて評価を行なうことができる。例えば、次のような処理でフレーズの評価を行なうこともできる。
まず、マトリックス中の各行(および各列)の中の最大要素を同定し、各行(および各列)の最大要素の和を、マトリックス要素の全合計で割ったものを許容計数として定義する。
たとえば、マトリックスが
1 0 10
20 2 1
0 30 0
である場合には、各行の最大要素はそれぞれ
1 0 10 ⇒ 10
20 2 1 ⇒ 20
0 30 0 ⇒ 30
となるので、計は 10+20+30 = 60 である。
一方マトリックスの全要素の合計は
1 + 0 + 10 +
20 + 2 + 1 +
0 + 30 + 0
= 64 。
従って、このマトリックスの行側許容係数は
60/64 = 0.9375
となる。
列側許容係数も同様に
1 0 10
20 2 1
0 30 0
↓ ↓ ↓
20 30 10
60/64 = 0.9375
となる。
したがって、両者を総合した許容係数は平均値を取って
(0.9375+0.9375) /2 = 0.9375
である。
エントロピーを用いる場合は値が小さい程フレーズの一致度が高いが、許容係数の場合は逆に値が高いほど一致度が高くなる。完全に1対1に対応している場合、たとえば
0 0 10
20 0 0
0 30 0
の場合では、許容係数は1.0 となる。
なお、本実施例1では、本発明にかかるフレーズアラインメント方法を実施するための専用の装置としてフレーズアラインメント装置10を構築する場合を例に説明を行なったが、例えば、フレーズアライメント装置10に示した各機能構成をソフトウェアによって実現するフレーズアライメントプログラムを汎用のコンピュータシステム上で実行することで本発明を実施することもできる。
つづいて、実施例1に示したフレーズアラインメントによって得られた対訳フレーズを用いるフレーズベース統計翻訳について説明する。
図8にフレーズベース統計翻訳のプロセスの1例を示す。入力の日本語文は適当なフレーズの列に分割され、それぞれの日本語フレーズは英語フレーズに翻訳(フレーズ翻訳)され、フレーズ翻訳された英語フレーズには順序の入れ替えが施され出力される。
一般に統計翻訳モデルは、ノイジーチャネルモデルによって定式化され、ベイズルールにより翻訳モデルと言語モデルに分割される。つまり、ある日本語文jが英語文eに翻訳される確率p(e|j ) は次式のようにeがjに翻訳される翻訳確率p(j|e )とeの生成確率p(e )の積を用いて表される。
p(e|j ) = p(j|e )・p(e )/p(j) ――――(6)
そして、jの翻訳として最適な翻訳文e* は(6)式を最大化するeとして求められる。
すなわち、
e* =argmaxe p(e|j ) = argmaxe p(j|e )・p(e )/p(j)
ここで、p(j)はeに依存しないので、
e* =argmaxe p(j|e )・p(e ) ――――(7)
となる。p(j|e )を導出するモデルを翻訳モデル、p(e )を導出するモデルを言語モデルと呼ぶ。
言語モデルはある入力英語表現に対して、大量の英語コーパスと照らし合わせたときの当該英語表現の生成確率を算出するモデルであり、単語のn―グラムモデル(たとえばn = 3)が一般的に使われる。翻訳過程においては、入力文jはI個のフレーズの列 j'1-I = j'1 j'2 …j'I に分割され、それぞれの日本語フレーズj'iが英語フレーズe'iに翻訳(フレーズ翻訳)される。フレーズ翻訳が施される日本語フレーズの順序には制限はないが、出力は文頭から文末へ向けて順に生成される。
翻訳モデルおよび言語モデルとは独立に、出力英語文の長さを調整するためのファクターとして、(8)に示すワードコストを導入しても良い。
WC = ωlength(e) ――――(8)
ωは定数で、1より大きい場合は長い出力文に対して優位に働く。また、入力言語のフレーズの順序に対して、出力言語のフレーズの順序が大きくばらつくのを防ぐためにディストーションコストを導入しても良いが、日英翻訳の場合順序の制約が返って最適解を阻害する場合も多いので、ここでは省略する。
以上より、入力文jに対して最適な翻訳文e* は次式で与えられる。
e* =argmaxe p(e|j ) = argmaxe p(j|e )・pLM(e )・ωlength(e)
ここで、pLM(e )は言語モデルであり、翻訳モデルp(j|e )は以下のように各フレーズの翻訳確率の積で与えられる。
p(j|e ) = p(j'1-I |e'i-I ) = IΠi=1 p(j'1|e'i)
従って、入力文jに対して最適な翻訳文e* を求めるための評価値Vは(9)で与えられる。
V = IΠi=1 p(j'1|e'i)・pLM(e )・ωlength(e) ――――(9)
図9は、本実施例2である翻訳装置100の概要構成を示す概要構成図である。同図において、実施例1に示したフレーズアラインメントによって得られた対訳フレーズは対訳フレーズ蓄積部110に蓄積され、更にフレーズ翻訳確率算出部111により、各フレーズ翻訳対に対する翻訳確率が計算され、翻訳確率付き対訳フレーズとして確率付フレーズ翻訳テーブル112に格納される。
そして、入力文が入力文受付部101で受付けられると、初期状態設定部102において状態が初期値に設定される。ここで、状態とは、フレーズ置換履歴、フレーズ置換された入力文、部分翻訳の3つ組で表される。初期状態においては、フレーズ置換はまだ行われていないので、フレーズ置換履歴はNULL、フレーズ置換された入力文は入力文そのもの、そしてまだ翻訳ステップに入っていないので部分翻訳はempty string である。
フレーズ置換翻訳処理部103では、入力日本語文の部分文字列と、確率付フレーズ翻訳テーブル112に格納された対訳フレーズの日本語側表現とのマッチングを行い、マッチした入力文中の文字列を対訳フレーズの英語側表現と置換する。なお入力日本語文は予め形態素解析を施し、形態素単位に分割されていてもよく、その場合は、マッチさせる入力文中の文字列は、1つの形態素そのものであるか、あるいは2つ以上の連続する形態素をすべて連結した文字列と等しくなければならない。
入力文の部分文字列とのマッチングは入力文中のどの位置から開始しても良く、またどの位置の順に行っても良い。1つのマッチ文字列と、その文字列の1つの翻訳候補とのペアに対して、1つの新しい状態が生成される。
図10に状態遷移の例を示す。四角で囲まれているのが1つ1つの状態であり、状態と状態を結ぶ矢印が状態遷移を表す。それぞれの矢印に対して、フレーズ置換翻訳に使われた対訳フレーズが付記されている。
それぞれの状態の評価値は、その状態の直前の状態の評価値およびその状態におけるパラメータ値(三つ組の値)をもとに式(9)より求められる。新しく生成された状態は状態記憶部107に記録され、また当該状態の直前の状態へのバックリンクも状態記憶部107で管理される。
状態序列部108では、部分翻訳の単語数が等しい状態を1つのグループに編成し、当該グループの中で、各状態を評価値の高い順に並べる。そして、評価値の高い状態から順にフレーズ置換翻訳処理部103に送られ、新状態の展開が施される。
入力文がすべて英語フレーズで置換された段階で、最終評価値が状態評価値算出部106で算出され、状態序列部108で順序付けされ、評価値の高い状態から順に翻訳文が出力される。
状態序列部108において、すべての状態を順序付けしてフレーズ置換翻訳処理部103に送ると探索スペースが膨大になるため、通常はビームサーチにより状態の足切りを行なう。ビームの絞り方は、候補として残す状態の絶対数を決める方法、最高評価値に対する評価値の相対値で絞る方法、および両者の組合せなどがある。
以上説明してきたように、本実施例2にかかる翻訳装置では、実施例1に示したフレーズベースアラインメントによって得られた良質の対訳フレーズを用いて統計翻訳を行なうことにより、フレーズベース統計翻訳の高精度化を実現することができる。
なお、本実施例2では、本発明を自動翻訳に利用する場合について説明を行なったが、本発明の利用はこれに限定されるものではない。たとえば、人間が翻訳するのを補助する翻訳支援システムにおいても、フレーズレベルでの翻訳例が最も支援効果が高いので、本発明によって得られる良質な対訳フレーズの抽出によって支援効果の向上が実現できる。
(付記1)コンピュータに、
互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付ステップ、
前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理ステップ、
前記フレーズマージ処理ステップによって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出ステップ、
前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索ステップ、
前記マージペア探索ステップで探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力ステップ、
を実行させるための翻訳プログラム。
(付記2)前記総合評価値として、前記第1言語文中のフレーズと前記第2言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度の、マージ前後での変化量として求められる評価値を用いることを特徴とする付記1に記載の翻訳プログラム。
(付記3)前記総合フレーズ対応度として、フレーズ間対応に関する不確からしさを示すエントロピーを用いることを特徴とする付記2に記載の翻訳プログラム。
(付記4)前記総合評価値は、前記総合フレーズ対応度と、2つのフレーズのマージによって生成される新しいフレーズが当該フレーズを含む文の構文構造上、Constituentと見なせるか否かを評価するための構文構造評価値と、を合成して求められることを特徴とする付記2または3に記載の翻訳プログラム。
(付記5)前記対訳文受付ステップと前記フレーズマージ処理ステップとの間に、名詞句、句動詞、もしくは任意の意味的に一塊と見なせるベースフレーズを抽出するベースフレーズ抽出ステップをさらにコンピュータに実行させることを特徴とする付記1〜4のいずれか一つに記載の翻訳プログラム。
(付記6)前記統計評価値算出ステップ中に、前記第1言語文中のフレーズと前記第2言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求めるコーパスベース統計評価値算出ステップと、対訳辞書、類義語辞典、シソーラス、もしくは任意の辞書データを基にフレーズ間対応を求める辞書情報対応ステップと、をさらにコンピュータに実行させることを特徴とする付記1〜5のいずれか一つに記載の翻訳プログラム。
(付記7)前記構文構造評価値として、2つのフレーズのマージによって生成される新しいフレーズの構文構造のコーパス中の相対頻度を用いることを特徴とする付記4〜6のいずれか一つに記載の翻訳プログラム。
(付記8)前記統計評価値算出ステップの中に、ストップワード検出ステップを含み、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語、もしくは任意のストップワードの出現確率をエントロピーの算出において除外することを特徴とする付記2〜7のいずれか一つに記載の翻訳プログラム。
(付記9)前記統計評価値算出ステップにおいて、統計翻訳モデルを用いて求められたフレーズ間対応は確定対応として固定し、統計翻訳モデルによって特定されなかったフレーズ間対応を辞書情報対応ステップによって求めることを特徴とする付記6〜8のいずれか一つに記載の翻訳プログラム。
(付記10)前記統計評価値算出ステップにおいて、統計翻訳モデルを用いて求められたフレーズ間対応は、対応するフレーズのペアと対応頻度を情報として抽出して辞書情報と足し合わせて辞書情報対応ステップに送り、前記統計評価値算出は前記辞書情報対応ステップにおいて行なうことを特徴とする付記6〜9のいずれか一つに記載の翻訳プログラム。
(付記11)コンピュータに、
入力文である第1言語文を受け付ける入力文受付ステップ、
前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出ステップ、
前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第2言語側表現で置換するフレーズ置換翻訳処理ステップ、
前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築ステップ、
前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の3つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出ステップ、
前記状態評価値に従って状態の優位度を順序付ける状態序列ステップ、
状態序列順にフレーズ置換翻訳処理ステップへと遷移させる状態遷移ステップ、
を実行させるための付記1〜7のいずれか一つに記載の翻訳プログラム。
(付記12)互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付手段と、
前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理手段と、
前記フレーズマージ処理手段によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出手段と、
前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索手段と、
前記マージペア探索手段で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力手段と、
を備えたことを特徴とする翻訳装置。
(付記13)入力文である第1言語文を受け付ける入力文受付手段と、
前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出手段と、
前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第2言語側表現で置換するフレーズ置換翻訳処理手段と、
前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築手段と、
前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の3つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出手段と、
前記状態評価値に従って状態の優位度を順序付ける状態序列手段と、
状態序列順にフレーズ置換翻訳処理手段へと遷移させる状態遷移手段と、
を備えたことを特徴とする付記12に記載の翻訳装置。
(付記14)互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付工程と、
前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理工程と、
前記フレーズマージ処理工程によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出工程と、
前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索工程と、
前記マージペア探索工程で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力工程と、
を含んだことを特徴とする翻訳方法。
(付記15)入力文である第1言語文を受け付ける入力文受付工程と、
前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出工程と、
前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第2言語側表現で置換するフレーズ置換翻訳処理工程と、
前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築工程と、
前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の3つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出工程と、
前記状態評価値に従って状態の優位度を順序付ける状態序列工程と、
状態序列順にフレーズ置換翻訳処理工程へと遷移させる状態遷移工程と、
を含んだことを特徴とする付記14に記載の翻訳方法。
以上のように、本発明にかかる翻訳プログラム、翻訳装置および翻訳方法は、言語間の翻訳支援に有用であり、特に良質な対訳フレーズの抽出に適している。
本発明にかかるフレーズアライメント装置の概要構成図である。 図1に示した統計評価値評価部の入力例である。 マージペア探索について説明する説明図である(その1)。 マージペア探索について説明する説明図である(その2)。 マージペア探索について説明する説明図である(その3)。 マージペア探索について説明する説明図である(その4)。 図1に示したマージ実行部の出力例である。 翻訳プロセスについて説明する説明図である。 フレーズベース統計翻訳を用いる翻訳装置の概要構成図である。 状態繊維について説明する説明図である。
符号の説明
10 フレーズアラインメント装置
11 対訳文受付部
12 ベースフレーズ抽出部
20 フレーズマージ処理部
21 マージペア探索部
22 マージ実行部
23 対訳フレーズ出力部
30 総合評価値算出部
31 構文構造評価値算出部
32 句構造文法ルール
33 総合評価値出力部
40 統計評価値算出部
41 コーパスベース統計評価値算出部
42 辞書情報対応部
43 統計評価値評価部
44 統計評価値出力部
100 翻訳装置
101 入力受付部
102 初期状態設定部
103 フレーズ置換翻訳処理部
103a 翻訳履歴蓄積部
104 部分翻訳構築部
105 状態繊維部
106 状態評価値出力部
107 状態記憶部
108 状態序列部
110 対訳フレーズ蓄積部
111 フレーズ翻訳確率算出部
112 確率付フレーズ翻訳テーブル
113 言語モデル記憶部

Claims (10)

  1. コンピュータに、
    互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付ステップ、
    前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理ステップ、
    前記フレーズマージ処理ステップによって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出ステップ、
    前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索ステップ、
    前記マージペア探索ステップで探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力ステップ、
    を実行させるための翻訳プログラム。
  2. 前記総合評価値として、前記第1言語文中のフレーズと前記第2言語文中のフレーズとの間の総合的なフレーズ対応度を示す総合フレーズ対応度の、マージ前後での変化量として求められる評価値を用いることを特徴とする請求項1に記載の翻訳プログラム。
  3. 前記総合フレーズ対応度として、フレーズ間対応に関する不確からしさを示すエントロピーを用いることを特徴とする請求項2に記載の翻訳プログラム。
  4. 前記総合評価値は、前記総合フレーズ対応度と、2つのフレーズのマージによって生成される新しいフレーズが当該フレーズを含む文の構文構造上、Constituentと見なせるか否かを評価するための構文構造評価値と、を合成して求められることを特徴とする請求項2または3に記載の翻訳プログラム。
  5. 前記対訳文受付ステップと前記フレーズマージ処理ステップとの間に、名詞句、句動詞、もしくは任意の意味的に一塊と見なせるベースフレーズを抽出するベースフレーズ抽出ステップをさらにコンピュータに実行させることを特徴とする請求項1〜4のいずれか一つに記載の翻訳プログラム。
  6. 前記統計評価値算出ステップ中に、前記第1言語文中のフレーズと前記第2言語文中のフレーズとの間の翻訳確率を統計翻訳モデルを用いて対訳コーパスから統計的に求めるコーパスベース統計評価値算出ステップと、対訳辞書、類義語辞典、シソーラス、もしくは任意の辞書データを基にフレーズ間対応を求める辞書情報対応ステップと、をさらにコンピュータに実行させることを特徴とする請求項1〜5のいずれか一つに記載の翻訳プログラム。
  7. 前記統計評価値算出ステップの中に、ストップワード検出ステップを含み、フレーズ間対応に関する不確からしさを示すエントロピーのマージ前後での変化量を求める際に、出現頻度が極めて高くかつ意味的に役割を担わない機能語、もしくは任意のストップワードの出現確率をエントロピーの算出において除外することを特徴とする請求項2〜6のいずれか一つに記載の翻訳プログラム。
  8. コンピュータに、
    入力文である第1言語文を受け付ける入力文受付ステップ、
    前記対訳フレーズを蓄積した対訳フレーズ蓄積手段からフレーズ翻訳確率を求めるフレーズ翻訳確率算出ステップ、
    前記蓄積された対訳フレーズと前記入力文を照合して、前記入力文中の単語列の一部である部分単語列を、当該部分単語列と一致する前記フレーズ蓄積手段内のフレーズの対訳のうちの第2言語側表現で置換するフレーズ置換翻訳処理ステップ、
    前記フレーズ置換の履歴から現時点までの部分翻訳を構築する部分翻訳構築ステップ、
    前記フレーズ置換された入力文、前記部分翻訳、および現時点までにフレーズ置換されたフレーズのフレーズ翻訳確率から、現時点でのフレーズ置換履歴、フレーズ置換された入力文、部分翻訳の3つ組みにおける総合的な状態の優位度を示す状態評価値を算出する状態評価値算出ステップ、
    前記状態評価値に従って状態の優位度を順序付ける状態序列ステップ、
    状態序列順にフレーズ置換翻訳処理ステップへと遷移させる状態遷移ステップ、
    を実行させるための請求項1〜7のいずれか一つに記載の翻訳プログラム。
  9. 互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付手段と、
    前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理手段と、
    前記フレーズマージ処理手段によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出手段と、
    前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索手段と、
    前記マージペア探索手段で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力手段と、
    を備えたことを特徴とする翻訳装置。
  10. 互いに翻訳関係にある第1言語文と第2言語文との対としてなる入力対訳文を受け付ける対訳文受付工程と、
    前記第1言語文内および/または前記第2言語文内において隣接する2つのフレーズをマージして、当該マージによって形成された1つの新しいフレーズに置換するフレーズマージ処理を階層的に繰り返すフレーズマージ処理工程と、
    前記フレーズマージ処理工程によって得られたマージペアの適切さを判定するための総合評価値を算出する総合評価値算出工程と、
    前記総合評価値に基づいて他のマージペアに比して適切性の高い1つあるいは複数個のマージペアを探索するマージペア探索工程と、
    前記マージペア探索工程で探索されたマージペアを対訳フレーズとして出力する対訳フレーズ出力工程と、
    を含んだことを特徴とする翻訳方法。
JP2006285540A 2006-10-19 2006-10-19 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 Expired - Fee Related JP5082374B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006285540A JP5082374B2 (ja) 2006-10-19 2006-10-19 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US11/796,784 US8630839B2 (en) 2006-10-19 2007-04-30 Computer product for phrase alignment and translation, phrase alignment device, and phrase alignment method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006285540A JP5082374B2 (ja) 2006-10-19 2006-10-19 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法

Publications (2)

Publication Number Publication Date
JP2008102794A true JP2008102794A (ja) 2008-05-01
JP5082374B2 JP5082374B2 (ja) 2012-11-28

Family

ID=39319141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006285540A Expired - Fee Related JP5082374B2 (ja) 2006-10-19 2006-10-19 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法

Country Status (2)

Country Link
US (1) US8630839B2 (ja)
JP (1) JP5082374B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141879A (ja) * 2011-01-05 2012-07-26 Fuji Xerox Co Ltd 対訳情報検索装置、翻訳装置及びプログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9176952B2 (en) * 2008-09-25 2015-11-03 Microsoft Technology Licensing, Llc Computerized statistical machine translation with phrasal decoder
KR101266361B1 (ko) * 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US9471565B2 (en) * 2011-07-29 2016-10-18 At&T Intellectual Property I, L.P. System and method for locating bilingual web sites
JP2013073282A (ja) * 2011-09-26 2013-04-22 Fuji Xerox Co Ltd 情報処理装置およびプログラム
KR101449551B1 (ko) * 2011-10-19 2014-10-14 한국전자통신연구원 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체
CN103186522B (zh) * 2011-12-29 2018-01-26 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
CN103186523B (zh) * 2011-12-30 2017-05-10 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
SG11201404225WA (en) * 2012-01-27 2014-08-28 Nec Corp Term translation acquisition method and term translation acquisition apparatus
US10031967B2 (en) 2016-02-29 2018-07-24 Rovi Guides, Inc. Systems and methods for using a trained model for determining whether a query comprising multiple segments relates to an individual query or several queries
US10133735B2 (en) * 2016-02-29 2018-11-20 Rovi Guides, Inc. Systems and methods for training a model to determine whether a query with multiple segments comprises multiple distinct commands or a combined command
KR101861006B1 (ko) * 2016-08-18 2018-05-28 주식회사 하이퍼커넥트 통역 장치 및 방법
CN107818086B (zh) 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
CN106598959B (zh) * 2016-12-23 2021-03-19 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
JP7251181B2 (ja) * 2019-02-05 2023-04-04 富士通株式会社 対訳処理方法および対訳処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345797A (ja) * 1998-06-04 2003-12-05 Matsushita Electric Ind Co Ltd 言語変換装置及びプログラム記録媒体
JP2006178536A (ja) * 2004-12-20 2006-07-06 Oki Electric Ind Co Ltd 対訳表現抽出装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072826B1 (en) 1998-06-04 2006-07-04 Matsushita Electric Industrial Co., Ltd. Language conversion rule preparing device, language conversion device and program recording medium
US6535842B1 (en) * 1998-12-10 2003-03-18 Global Information Research And Technologies, Llc Automatic bilingual translation memory system
EP1352338A2 (en) * 2000-05-11 2003-10-15 University Of Southern California Machine translation techniques
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
CN1647068A (zh) * 2002-03-28 2005-07-27 南加利福尼亚大学 统计机器翻译
US20030236658A1 (en) * 2002-06-24 2003-12-25 Lloyd Yam System, method and computer program product for translating information
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
JP2005025474A (ja) 2003-07-01 2005-01-27 Advanced Telecommunication Research Institute International 機械翻訳装置、コンピュータプログラム及びコンピュータ
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US7813919B2 (en) * 2005-12-20 2010-10-12 Xerox Corporation Class description generation for clustering and categorization
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345797A (ja) * 1998-06-04 2003-12-05 Matsushita Electric Ind Co Ltd 言語変換装置及びプログラム記録媒体
JP2006178536A (ja) * 2004-12-20 2006-07-06 Oki Electric Ind Co Ltd 対訳表現抽出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141879A (ja) * 2011-01-05 2012-07-26 Fuji Xerox Co Ltd 対訳情報検索装置、翻訳装置及びプログラム

Also Published As

Publication number Publication date
US20080097742A1 (en) 2008-04-24
JP5082374B2 (ja) 2012-11-28
US8630839B2 (en) 2014-01-14

Similar Documents

Publication Publication Date Title
JP5082374B2 (ja) フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8185377B2 (en) Diagnostic evaluation of machine translators
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
US20140039879A1 (en) Generic system for linguistic analysis and transformation
Briscoe et al. Evaluating the accuracy of an unlexicalized statistical parser on the PARC DepBank
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
Goutte Learning machine translation
CN101131706A (zh) 一种查询修正方法及系统
US20130262077A1 (en) Machine translation device, machine translation method, and recording medium storing machine translation program
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
Luong et al. Towards accurate predictors of word quality for machine translation: Lessons learned on french–english and english–spanish systems
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
Allkivi-Metsoja et al. Spelling correction for Estonian learner language
Gadde et al. Adapting a WSJ trained part-of-speech tagger to noisy text: preliminary results
Flickinger et al. ParDeepBank: Multiple parallel deep treebanking
Wu Research on English-Chinese translation of long and difficult sentences by generalized logistic regression parsing algorithm based on neural network
Cherry et al. Discriminative substring decoding for transliteration
JP6221339B2 (ja) 翻訳装置及び翻訳方法
JP5182954B2 (ja) 穴埋問題生成装置及びそのプログラム
Ohno et al. Dependency parsing of Japanese spoken monologue based on clause boundaries
Delisle et al. Extraction of predicate-argument structures from texts
Köprü An efficient part-of-speech tagger for arabic

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120820

R150 Certificate of patent or registration of utility model

Ref document number: 5082374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees