JP2014078132A

JP2014078132A - 機械翻訳装置、方法およびプログラム

Info

Publication number: JP2014078132A
Application number: JP2012225387A
Authority: JP
Inventors: Hiroyuki Tanaka; 浩之田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-10-10
Filing date: 2012-10-10
Publication date: 2014-05-01
Also published as: CN103729347A; US20140100843A1; US9208149B2

Abstract

【課題】流暢性の高い翻訳文を生成することができる。
【解決手段】本実施形態に係る機械翻訳装置は、翻訳部、訳語候補取得部、流暢度計算部、逆翻訳部、類似度計算部および訳語選択部を含む。翻訳部は、第１言語の原文を、第２言語の翻訳文に翻訳する。訳語候補取得部は、翻訳文中の第１訳語に対応する原文中の原語について、原語の翻訳であって第１訳語とは異なる１以上の第２訳語を取得し、第１訳語および第２訳語を訳語候補として得る。流暢度計算部は、翻訳文で第１訳語が挿入される位置に訳語候補が挿入された場合における自然な翻訳文が生成される度合いを示す流暢度を計算する。逆翻訳部は、訳語候補の第１言語への逆翻訳結果である１以上の逆翻訳語を得る。類似度計算部は、原語と逆翻訳語との第１言語での意味の類似度を計算する。訳語選択部は、類似度と流暢度とに基づいて、訳語候補から第１訳語と置換するための修正訳語を選択する。
【選択図】図１

Description

本発明の実施形態は、第１言語を第２言語に翻訳する機械翻訳装置、方法およびプログラムに関する。

近年、コンピュータの高性能化、ブロードバンドインフラの急速な普及に伴い、第１言語による原文を第２言語による翻訳文に翻訳する多くの機械翻訳装置および機械翻訳サービスが普及している。一般的に機械翻訳では、第１言語の単語および第１原語の節単位で複数の第２言語の訳語候補を保持する。このような機械翻訳では、入力された原文に応じて、原文側の語句と翻訳文側の語句との意味的な同一性と、翻訳文としての流暢性を考慮して、適切な訳語を選択することが重要である。

適切な訳語を選択するための手法としては、統計ベース翻訳方式があるが、大規模な対訳コーパスを用意する必要がある。このような大規模な対訳コーパスを必要とすることなく、意味的な同一性を考慮する手法としては、例えば原文側の語句と翻訳文側の語句とのそれぞれの共起語を用いる手法がある。

特開２００２−３５１８７２号公報

しかし、上述した手法では、原文および翻訳文の双方の共起語リストを用意する必要があり、さらに共起だけを手掛かりとするため文全体の流暢性は勘案されておらず、流暢性の高い訳語を選択することができない。

本開示は、上述の課題を解決するためになされたものであり、流暢性の高い翻訳文を生成することができる機械翻訳装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る機械翻訳装置は、翻訳部、訳語候補取得部、流暢度計算部、逆翻訳部、類似度計算部および訳語選択部を含む。翻訳部は、第１言語の文字列である原文を、第２言語の文字列である翻訳文に翻訳する。訳語候補取得部は、前記翻訳文中の第１訳語に対応する前記原文中の原語について、該原語の翻訳であって該第１訳語とは異なる１以上の第２訳語を取得し、該第１訳語および該第２訳語を訳語候補として得る。流暢度計算部は、前記翻訳文で前記第１訳語が挿入される位置に前記訳語候補が挿入された場合における自然な翻訳文が生成される度合いを示す流暢度を、訳語候補ごとに計算する。逆翻訳部は、前記訳語候補の前記第１言語への逆翻訳結果である１以上の逆翻訳語を訳語候補ごとに得る。類似度計算部は、前記原語と前記逆翻訳語との第１言語での意味の類似度を、逆翻訳語ごとに計算する。訳語選択部は、前記類似度と前記流暢度とに基づいて、前記訳語候補から前記第１訳語と置換するための修正訳語を選択する。

第１の実施形態に係る機械翻訳装置を示すブロック図。翻訳辞書データベースに格納されるテーブルの一例を示す図。流暢度データベースに格納される一例を示す図。機械翻訳装置の動作を示すフローチャート。機械翻訳装置の訳語選択処理を示すフローチャート。取得部で取得される原文の一例を示す図。翻訳部で生成される翻訳文の一例を示す図。訳語候補取得部における訳語候補の抽出結果の一例を示す図。第１の実施形態における流暢度計算部での流暢度の計算結果の一例を示す図。第１の実施形態における逆翻訳部での逆翻訳結果の一例を示す図。第１の実施形態における類似度計算部での類似度の計算結果の一例を示す図。第１の実施形態における訳語選択部での判定スコアの一例を示す図。第２の実施形態に係る機械翻訳装置を示すブロック図。第２の実施形態における流暢度計算部での流暢度の計算結果の一例を示す図。第２の実施形態における逆翻訳部での逆翻訳結果の一例を示す図。第２の実施形態における類似度計算部での類似度の計算結果の一例を示す図。第２の実施形態における訳語選択部での判定スコアの一例を示す図。

以下、図面を参照しながら本実施形態に係る機械翻訳装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態では、原文としての第１言語が英語であり、翻訳文としての第２言語が日本語である場合を例に説明するが、翻訳処理の対象となる言語は、これら２つの言語に限られることなく、あらゆる言語を対象とすることができる。また、以下では、第２言語から第１原語への翻訳は逆翻訳と呼ぶ。

（第１の実施形態）
第１の実施形態に係る機械翻訳装置について図１を参照して説明する。
第１の実施形態に係る機械翻訳装置１００は、取得部１０１、翻訳部１０２、訳語候補取得部１０３、流暢度計算部１０４、逆翻訳部１０５、類似度計算部１０６、訳語選択部１０７、出力部１０８、翻訳辞書データベース１０９、流暢度データベース１１０および類似度データベース１１１を含む。

取得部１０１は、外部から翻訳対象である第１言語による原文を取得する。原文の取得は、キーボード、ポインティングデバイス、手書き文字認識、ＯＣＲ、音声認識など、一般的に用いられるユーザからの入力を受け付ける様々な方法を適用すればよい。または、ユーザの入力によらず、外部から順次原文を取得するように設定してもよい。
翻訳部１０２は、取得部１０１から原文を受け取り、後述の翻訳辞書データベース１０９に格納される翻訳辞書を参照して、原文を第２言語の文字列に翻訳し、翻訳文を得る。翻訳処理は、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式など一般的な方法を用いればよいため、ここでの説明は省略する。

訳語候補取得部１０３は、翻訳部１０２から翻訳文を受け取り、翻訳文のうちの処理対象の訳語を翻訳部１０２へ問い合わせる。その後、訳語に対応する第１言語の語句（以下、原語という）の翻訳であって、処理対象の訳語とは異なる１以上の第２言語による訳語を取得し、処理対象の訳語と合わせて訳語候補として得る。
流暢度計算部１０４は、訳語候補取得部１０３から１以上の訳語候補を受け取り、後述する流暢度データベース１１０を参照して訳語候補ごとに流暢度を計算する。流暢度は、第２言語として自然な翻訳文が生成される度合いを示す。

本実施形態における流暢度の計算は、流暢度計算部１０４が、流暢度データベース１１０から予め計算された値を取得する例を示すが、例えば、前後の訳語を含む用例の頻度をカウントし、その総数で割るなどして確率を計算してもよい。また、Ｎ−ｇｒａｍ言語モデルやＰＬＳＡ（Probabilistic Latent Semantic Analysis）、ＬＤＡ(Latent Dirichlet Allocation)などといった一般に公知な方法を用いて流暢度を計算してもよい。また、流暢度を予め計算せず、第２言語の用例コーパスを用意し、計算要求が来るたびにその都度計算するようにしてもよい。

逆翻訳部１０５は、訳語候補取得部１０３から訳語候補、原語および翻訳文を受け取る。逆翻訳部１０５は、各訳語候補を第１言語に逆翻訳し、逆翻訳結果を１以上の逆翻訳語として得る。逆翻訳処理としては、逆翻訳辞書を用いる方法、翻訳部１０２で用いる翻訳辞書を用いて、ある訳語候補を訳語リスト中に持つ辞書見出しを逆翻訳結果として用いる方法を用いてもよい。また、第２言語を第１言語に翻訳する外部の翻訳エンジンを利用して逆翻訳結果を得て、逆翻訳結果を逆翻訳語に追加してもよい。なお、これらに限らずどのような方法でもよい。
類似度計算部１０６は、逆翻訳部１０５から１以上の逆翻訳語、原語および翻訳文を受け取り、後述の類似度データベース１１１を参照して、逆翻訳語ごとに、原語と逆翻訳語とにおける第１言語での意味の類似度を算出する。類似度の計算には、コサイン類似度を計算したり、シソーラスを用いたり、文脈類似度計算またはクラスタリングなどの手法を用いればよい。

訳語選択部１０７は、流暢度計算部１０４から訳語候補、対応する流暢度および翻訳文を受け取り、類似度計算部１０６から逆翻訳語と対応する類似度とを受け取る。訳語選択部１０７は、流暢度と類似度とに基づいて判定スコアを算出し、訳語候補の中から処理対象の訳語と置換するための訳語である修正訳語を選択する。修正訳語の選択は、例えば、最大の判定スコアを有する訳語を修正訳語として選択すればよい。
出力部１０８は、訳語選択部１０７から翻訳文および修正訳語を受け取り、翻訳文中の訳語を修正訳語に置き換えた修正翻訳文を外部へ出力する。なお、出力部１０８は、訳語選択部１０７から翻訳文を受け取る例を示すが、翻訳部１０２から翻訳文を受け取るようにしてもよい。

翻訳辞書データベース１０９は、第１言語の語句（原語）と第１言語の対訳である第２言語の語句（訳語）との翻訳辞書を格納する。翻訳辞書については、図２を参照して後述する。
流暢度データベース１１０は、２つの単語の間に挿入される可能性のある第２言語による語句と、語句が挿入された場合の文の流暢度とを対応づけて格納する。流暢度データベース１１０については、図３を参照して後述する。
類似度データベース１１１は、第１言語の語句と他の第１言語の語句との類似度を格納する。

なお、翻訳辞書データベース１０９、流暢度データベース１１０および類似度データベース１１１は、機械翻訳装置１００に含まれてもよいし、外部のデータベースを参照するようにしてもよい。

次に、翻訳辞書データベース１０９に格納される翻訳辞書の一例について図２を参照して説明する。
図２に示す翻訳辞書２００には、原語２０１と訳語２０２とが対応づけられて格納される。原語２０１は、第１言語の文字列を示し、訳語２０２は、原語２０１の対訳となる第２言語の訳語を示す。なお、１つの原語２０１に対して１以上の訳語２０２が存在する。ここでは、原文２０１「suggest」と、訳語２０２「示唆して」、「提案して」、「勧めて」および「暗示して」といった訳語が対応付けられる。

次に、流暢度データベース１１０に格納されるテーブルの一例について図３を参照して説明する。
図３に示すテーブル３００には、前出ワード３０１、後出ワード３０２、訳語３０３および流暢度３０４がそれぞれ対応づけられて格納される。
前出ワード３０１は、処理対象の訳語の直前に出現する語である。後出ワード３０２は、処理対象の直後に出現する語である。訳語３０３は、前出ワード３０１と後出ワード３０２との間の位置に挿入される可能性のある訳語を示す。流暢度３０４は、訳語３０３が挿入された場合における前出ワード３０１、訳語３０３および後出ワード３０２の翻訳文としての流暢度を示し、訳語３０３と１対１に対応づけられる。

具体的には、前出ワード３０１「レストランを」、後出ワード３０２「もらえ」に対して、挿入される可能性のある訳語である、訳語３０３「探して」および流暢度３０４「０．８４」が対応づけられ、訳語３０３「教えて」および流暢度３０４「０．７３」、訳語３０３「経営して」および流暢度３０４「０．６４」などが対応づけられる。すなわち、翻訳文として「レストランを教えてもらえ」という翻訳文の流暢度が「０．７３」であり、「レストランを経営してもらえ」という翻訳文の流暢度が「０．６４」であることを示す。

次に、本実施形態に係る機械翻訳装置１００の動作について図４のフローチャートを参照して説明する。
ステップＳ４０１では、取得部１０１が、原文Ｓを取得する。
ステップＳ４０２では、翻訳部１０２が、原文Ｓを第２言語に翻訳し、翻訳文Ｔを生成する。
ステップＳ４０３では、翻訳文Ｔに対して訳語選択処理が行われる。訳語選択処理の詳細については図５を参照して後述する。
ステップＳ４０４では、出力部１０８が、修正翻訳文Ｍを出力する。以上で機械翻訳装置１００の動作を終了する。

次に、ステップＳ４０３の訳語選択処理について図５を参照して説明する。
ステップＳ５０１では、訳語候補取得部１０３が、処理対象の訳語ｗについて、訳語候補Ｗと対応する原語ｅとを問い合わせ、翻訳辞書が参照されることにより、原語ｅと全ての訳語候補Ｗとを取得する。処理対象となる訳語ｗの選択方法としては、例えば、予め翻訳文Ｔの流暢度を訳語ごとに計算しておき、流暢度が閾値以下の訳語を処理対象の訳語として抽出すればよい。
ステップＳ５０２では、訳語候補取得部１０３が、訳語候補Ｗが複数あるかどうかを判定する。訳語候補Ｗが複数存在する場合はステップＳ５０３およびステップＳ５０４に進み、訳語候補Ｗが複数存在しない、すなわち訳語が１つだけの場合は処理を終了する。

ステップＳ５０３では、流暢度計算部１０４が、訳語候補ごとに、訳語候補Ｗの流暢度Ｆを計算する。
ステップＳ５０４では、逆翻訳部１０５が、訳語候補ごとに、訳語候補Ｗを逆翻訳して逆翻訳結果である１以上の逆翻訳語Ｋを取得する。
ステップＳ５０５では、類似度計算部１０６が、１以上の逆翻訳語Ｋと原語ｅとの類似度Ｒを計算する。
ステップＳ５０６では、訳語選択部１０７が、流暢度Ｆと類似度Ｒとを用いて判定スコアＳを計算する。本実施形態では、流暢度Ｆと類似度Ｒとの積を判定スコアとするが、どのような計算方法でもよい。

ステップＳ５０７では、訳語選択部１０７が、判定スコアＳが最も高い訳語候補Ｗの中の訳語Ｗ’を修正訳語として選択する。以上で、訳語選択処理を終了する。
なお、１つの訳語に対して置き換えた後に、再度翻訳文全体の流暢度を計算し、流暢度が閾値以下の訳語があれば、閾値以下の訳語に対してステップＳ５０１からステップＳ５０７までの処理を同様に繰り返してもよい。こうすることで、翻訳文全体の流暢度を高めることができ、より自然な翻訳文とすることができる。

次に、訳語選択処理の動作の具体例について図６から図１２までを参照して説明する。
図６は、取得部１０１で取得される原文を示す。ここでは、原文として「Could you suggest a restaurant with a nice view?」が入力されたとする。

図７は、翻訳部１０２で原文を翻訳した翻訳結果である翻訳文を示す。すなわち、原文「Could you suggest a restaurant with a nice view?」を第２言語に翻訳し、「よい／眺めの／レストランを／示唆して／もらえませんか？」という翻訳文を得る。ここで「／」は、訳語の意味的なまとまりの区切りを表し、「／」で区切られた文字列の中から処理対象の訳語が選択される。
ここで、処理対象の訳語が「示唆して」である場合を想定する。訳語候補取得部１０３は、翻訳辞書データベース１０９を参照し、訳語「示唆して」の原文である「suggest」のその他の訳語である「提案して」および「勧めて」を訳語候補として得る。

次に、訳語候補取得部１０３での訳語候補の抽出結果を図８に示す。
図８のテーブル８００に示すように、原語２０１「suggest」の訳語候補８０１として、「示唆して」、「提案して」および「勧めて」の３つを得ることができる。

次に、流暢度計算部１０４が、図８に示す３つの訳語候補について流暢度を計算した計算結果を図９に示す。
図９に示すテーブル９００には、訳語候補８０１と流暢度９０１とが対応づけられて格納される。例えば、訳語候補８０１「示唆して」と流暢度９０１「０．１３」とが対応付けられる。ここでは、訳語候補の流暢度の計算は、流暢度データベース１１０に格納される流暢度の値をそのまま利用するが、重み付けを行なうなどその他の計算を用いて算出してもよい。

次に、逆翻訳部１０５が、訳語候補を逆翻訳した逆翻訳結果を図１０に示す。
図１０に示すテーブル１０００には、訳語候補８０１と逆翻訳語１００１とが対応づけられて格納される。例えば、訳語候補８０１が「示唆して」の場合、逆翻訳語１００１として「indicate」、「suggest」および「hint」が対応づけられる。なお、ここでは逆翻訳語１００１として訳語候補８０１ごとに３つの第１言語の単語を得ているが、任意の数の第１言語の単語を格納してもよい。

次に、類似度計算部１０６が、原語である「suggest」と逆翻訳語との類似度を計算した計算結果を図１１に示す。
図１１に示すテーブル１１００には、訳語候補８０１、逆翻訳語１００１および類似度１１０１がそれぞれ対応づけられて格納される。例えば、訳語候補８０１「示唆して」に対し、逆翻訳語１００１「indicate」および類似度１１０１「０．４３」、逆翻訳語１００１「suggest」および類似度１１０１「１．０」、逆翻訳語１００１「hint」および類似度１１０１「０．４１」がそれぞれ対応づけられる。なお、逆翻訳語１００１の「suggest」は、原語「suggest」と同一であるので、類似度が「１．０」となる。
類似度の計算は、例えば、テキストコーパスの集合からＴＦ−ＩＤＦ等の尺度を計算し、一定の順序で並べて式（１）のような単語ベクトルを生成する。

生成した単語ベクトルについてコサイン類似度を計算し、算出した値を類似度として得ればよい。例えば、原語「suggest」と逆翻訳語「indicate」との類似度は、ａ＝suggest、ｂ＝indicateとすれば、式（２）を用いて計算することができる。

次に、訳語選択部１０７による判定スコアを算出した結果を図１２に示す。
図１２に示すテーブル１２００には、図１１に示す訳語候補８０１、逆翻訳語１００１および判定スコア１２０１がそれぞれ対応づけられて格納される。
ここでは、訳語選択部１０７は、逆翻訳語１００１「recommend」が判定スコア１２０１「０．２３」で最もスコアが高いので、修正訳語として訳語候補８０１「勧めて」を得る。よって、翻訳文「よい眺めのレストランを示唆してもらえませんか？」における元の訳語である「示唆して」を「勧めて」に置き換える。
最終的に、出力部１０８が、「よい眺めのレストランを勧めてもらえませんか？」を修正翻訳文として出力する。

以上に示した第１の実施形態によれば、第１言語による原文を機械翻訳する際に、第２言語による翻訳文に含まれる処理対象の訳語の第２言語としての流暢度を算出し、訳語に対応する原語と訳語を逆翻訳した第１言語の語との第１言語としての類似度を算出し、流暢度と類似度とに基づいて算出した単語のスコアから適切な訳語を選択することで、訳文としての流暢性、および翻訳文と原文との意味の同一性の両方を満たす翻訳文を生成することができる。

（第２の実施形態）
第１の実施形態では、翻訳辞書に含まれる語を訳語候補としているが、第２の実施形態では、流暢度データベースからも訳語候補を取得する点が異なる。このようにすることで、第２言語における翻訳文の流暢性も考慮した訳語候補を選択することができ、より自然な翻訳文を生成することができる。

第２の実施形態に係る機械翻訳装置について図１３のブロック図を参照して説明する。
第２の実施形態に係る機械翻訳装置１３００は、取得部１０１、翻訳部１０２、訳語候補取得部１３０１、流暢度計算部１０４、逆翻訳部１０５、類似度計算部１０６、訳語選択部１０７、出力部１０８、翻訳辞書データベース１０９、流暢度データベース１１０および類似度データベース１１１を含む。

取得部１０１、翻訳部１０２、流暢度計算部１０４、逆翻訳部１０５、類似度計算部１０６、訳語選択部１０７、出力部１０８、翻訳辞書データベース１０９、流暢度データベース１１０および類似度データベース１１１については、第１の実施形態と同様の処理を行なうのでここでの説明を省略する。

訳語候補取得部１３０１は、第１の実施形態に係る訳語候補取得部１０３とほぼ同様の動作を行なうが、流暢度データベース１１０から訳語を取得し、訳語候補に追加する点が異なる。例えば、流暢度データベース１１０から、前出ワードおよび後出ワードに挿入される訳語のうち、流暢度が高い順に所定数を訳語候補として追加すればよい。

次に、第２の実施形態に係る訳語候補取得部１３０１の処理の具体例について図５および、図１４から図１７を参照して説明する。
訳語候補取得部１３０１は、翻訳辞書データベース１０９から取得した訳語に加えて、流暢度データベース１１０から訳語を流暢度が高い順に抽出する。ここでは、図３に示すテーブル３００から流暢度が高い順に３つの訳語、すなわち「探して（流暢度：０．８４）」、「教えて（流暢度：０．７３）」および「経営して（流暢度：０．６４）」を取得する。

図１４は、流暢度計算部１０４における訳語候補の流暢度の計算結果を示す。図１４に示すように、流暢度データベース１１０から新たに取得した３つの訳語候補についても流暢度を取得する。

図１５は、逆翻訳部１０５における６つの訳語候補について逆翻訳した結果を示すテーブルである。
例えば、逆翻訳部１０５は、新たに取得した訳語候補である「探して」を逆翻訳し、逆翻訳結果として「seek」、「search」および「look for」を得る。

図１６は、類似度計算部１０６における類似度の計算結果を示すテーブルである。

類似度は、原文における「suggest」との類似度である。なお、流暢度データベース１１０から取得した訳語候補の類似度は、翻訳文における流暢度に基づいて選択された語であるため、翻訳辞書から取得した訳語候補の類似度よりも小さい値となる傾向がある。

図１７は、訳語選択部１０７における判定スコアを算出した結果である。
判定スコアは第１の実施形態と同様の手法で算出すればよい。ここでは、訳語候補８０１「教えて」に対応する逆翻訳結果の逆翻訳語「tell」の判定スコア「０．３２」が最も高い値であるので、訳語候補８０１「教えて」を修正訳語として選択し、元の訳語「示唆して」を「教えて」に置き換える。
以上に示した第２の実施形態によれば、流暢度データベースから翻訳文の流暢度に基づいて新たに訳語候補を追加することで、翻訳文と原文との意味の同一性の両方を満たしつつ、より訳文としての流暢性を高めた翻訳文を生成することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した機械翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の機械翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，１３００・・・機械翻訳装置、１０１・・・取得部、１０２・・・翻訳部、１０３・・・訳語候補取得部、１０４・・・流暢度計算部、１０５・・・逆翻訳部、１０６・・・類似度計算部、１０７・・・訳語選択部、１０８・・・出力部、１０９・・・翻訳辞書データベース、１１０・・・流暢度データベース、１１１・・・類似度データベース、２００・・・翻訳辞書、２０１・・・原語、２０１・・・原文、２０２・・・訳語、３００，８００，９００，１０００，１１００，１２００・・・テーブル、３０１・・・前出ワード、３０２・・・後出ワード、３０３・・・訳語、３０４，９０１・・・流暢度、８０１・・・訳語候補、１００１・・・逆翻訳語、１１０１・・・類似度、１２０１・・・判定スコア、１３０１・・・訳語候補取得部。

Claims

第１言語の文字列である原文を、第２言語の文字列である翻訳文に翻訳する翻訳部と、
前記翻訳文中の第１訳語に対応する前記原文中の原語について、該原語の翻訳であって該第１訳語とは異なる１以上の第２訳語を取得し、該第１訳語および該第２訳語を訳語候補として得る訳語候補取得部と、
前記翻訳文で前記第１訳語が挿入される位置に前記訳語候補が挿入される場合における自然な翻訳文が生成される度合いを示す流暢度を、訳語候補ごとに計算する流暢度計算部と、
前記訳語候補の前記第１言語への逆翻訳結果である１以上の逆翻訳語を訳語候補ごとに得る逆翻訳部と、
前記原語と前記逆翻訳語との前記第１言語での意味の類似度を、逆翻訳語ごとに計算する類似度計算部と、
前記類似度と前記流暢度とに基づいて、前記訳語候補から前記第１訳語と置換するための修正訳語を選択する訳語選択部と、を具備することを特徴とする機械翻訳装置。
前記訳語候補取得部は、前記第２言語の語が前記翻訳文の前記第１訳語の位置に挿入される場合の流暢度が閾値以上である語を、新たな訳語候補として追加することを特徴とする請求項１に記載の機械翻訳装置。
前記流暢度計算部は、Ｎ−ｇｒａｍ言語モデルを用いて前記流暢度を計算することを特徴とする請求項１または請求項２に記載の機械翻訳装置。
前記逆翻訳部は、前記訳語候補ごとに、該訳語候補の語を対訳として含む第１言語の単語を１以上抽出し、抽出された１以上の第１言語の単語を逆翻訳語として得ることを特徴とする請求項１から請求項３のいずれか１項に記載の機械翻訳装置。
前記逆翻訳部は、前記訳語候補を前記第１言語の単語に翻訳した翻訳結果を外部から取得し、該翻訳結果を前記逆翻訳語に追加することを特徴とする請求項１から請求項４のいずれか１項に記載の機械翻訳装置。
第１言語の文字列である原文を、第２言語の文字列である翻訳文に翻訳し、
前記翻訳文中の第１訳語に対応する前記原文中の原語について、該原語の翻訳であって該第１訳語とは異なる１以上の第２訳語を取得し、該第１訳語および該第２訳語を訳語候補として得、
前記翻訳文で前記第１訳語が挿入される位置に前記訳語候補が挿入される場合における自然な翻訳文が生成される度合いを示す流暢度を、訳語候補ごとに計算し、
前記訳語候補の前記第１言語への逆翻訳結果である１以上の逆翻訳語を訳語候補ごとに得、
前記原語と前記逆翻訳語との前記第１言語での意味の類似度を、逆翻訳語ごとに計算し、
前記類似度と前記流暢度とに基づいて、前記訳語候補から前記第１訳語と置換するための修正訳語を選択することを特徴とする機械翻訳方法。
コンピュータを、
第１言語の文字列である原文を、第２言語の文字列である翻訳文に翻訳する翻訳部と、
前記翻訳文中の第１訳語に対応する前記原文中の原語について、該原語の翻訳であって該第１訳語とは異なる１以上の第２訳語を取得し、該第１訳語および該第２訳語を訳語候補として得る訳語候補取得手段と、
前記翻訳文で前記第１訳語が挿入される位置に前記訳語候補が挿入される場合における自然な翻訳文が生成される度合いを示す流暢度を、訳語候補ごとに計算する流暢度計算手段と、
前記訳語候補の前記第１言語への逆翻訳結果である１以上の逆翻訳語を訳語候補ごとに得る逆翻訳手段と、
前記原語と前記逆翻訳語との前記第１言語での意味の類似度を、逆翻訳語ごとに計算する類似度計算手段と、
前記類似度と前記流暢度とに基づいて、前記訳語候補から前記第１訳語と置換するための修正訳語を選択する訳語選択手段として機能させるための機械翻訳プログラム。