JP2018045686A

JP2018045686A - 機械翻訳装置及び機械翻訳方法

Info

Publication number: JP2018045686A
Application number: JP2017165926A
Authority: JP
Inventors: ヂァンシャンシュエ; Zhengshan Xue; ダークンヂァン; Dakun Zhang; ジーチョングオ; Jichong Guo; ジェハオ; Jie Hao
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-09-13
Filing date: 2017-08-30
Publication date: 2018-03-22
Anticipated expiration: 2037-08-30
Also published as: US20180075022A1; JP6523388B2; CN107818086B; CN107818086A; US10496758B2

Abstract

【課題】ユーザ履歴文書を用いることにより、機械翻訳結果の品質を向上できる機械翻訳の装置及び方法を提供する。【解決手段】機械翻訳装置５００は、入力部、セグメンテーション部、翻訳オプション探索部、選択部、組み合せ部、翻訳仮説探索部及び増加部を備える。入力部は、第１言語文を入力する。セグメンテーション部は、第１言語文をセグメントし複数句を生成する。翻訳オプション探索部は、複数句の夫々に対応した第２言語の翻訳オプションについて翻訳モデルを探索する。選択部は、複数句の夫々に対し、翻訳モデルから第２言語文生成用の高確率を有する上位Ｎ個の翻訳オプションを選択する。組み合せ部は、複数句の夫々に対し前記上位Ｎ個の翻訳オプションを組み合せる事により複数の翻訳仮説を生成する。翻訳仮説探索部は、翻訳仮説についてユーザ履歴句ペアを探索する。増加部は、ユーザ履歴句ペアに存在する翻訳仮説のスコアを増加させる。【選択図】図５

Description

本発明の実施形態は、機械翻訳装置及び機械翻訳方法に関する。

現在、多数の機械翻訳(MT)システムが存在する。これらの中には、グーグル(Google) MT、百度(Baidu) MT、有道(Youdao) MT、シストラン(Systran)等の、オンラインMTシステムが含まれる。これらのMTシステムの品質は期待されたほど良くはないが、一般の翻訳要求に対しては役立っている。

我々（発明者）が専門文書を翻訳するためにMTシステムを用いる時、よりよい翻訳結果を得るのは困難であることが分かった。その理由は、既存の統計的なMTシステムは学習コーパスに基づいて全て得られており、全分野や人的表現の可能な全文章をカバーするだけの十分な学習コーパスを収集することが不可能だからである。従って既存の統計的MTシステムは、所定分野内については高品質の翻訳となるが、所定分野外については低品質の翻訳となる。所定分野内のテストセットについては、学習コーパス内のあるフラグメント（文の部分）がテストセット内のフラグメントと多かれ少なかれヒットする、又は全文とヒットすることさえある。しかしながら所定分野外のテストセットについては、学習コーパスとテストセット間では、ほぼ全てのフラグメントがヒットしない。このため、デコーディングプロセス（訳文生成処理）において、多数の未知語（OOVs = out of vocabulary）が生じる。結果として、所定分野外の翻訳結果の品質が非常に劣化する。何故ならば、専門文書は大概が所定分野外に属するためである。

ＵＳ８６３０８３９号公報ＵＳ２００７/０２０３６８８号公報ＵＳ２０１３/０１４４５９４号公報

Zhengxian Gong, Min Zhang, Guodong Zhou,"Cache-based Document-level Statistical Machine Translation", Proceeding of the 2011 Conference on Empirical Methods in Natural Language Processing, Pages 909-919, Edinburgh, Scotland, UK, July 27-31

本発明が解決しようとする課題は、ユーザ履歴文書(UHD)を用いることにより、機械翻訳結果の品質を向上できる機械翻訳装置及び機械翻訳方法を提供することである。

実施形態に係る機械翻訳装置は、入力部と、セグメンテーション部と、翻訳オプション探索部と、選択部と、組み合せ部と、翻訳仮説探索部と、増加部とを備える。入力部は第１言語文を入力する。セグメンテーション部は前記第１言語文をセグメントして複数句を生成する。翻訳オプション探索部は前記複数句の夫々に対応した第２言語の翻訳オプションについて、翻訳モデルを探索する。選択部は前記複数句の夫々に対して、前記翻訳モデルから、第２言語文生成用の高確率を有する上位Ｎ個（Ｎは１以上の整数）の翻訳オプションを選択する。組み合せ部は前記複数句の夫々に対して、前記上位Ｎ個の翻訳オプションを組み合わせることにより、複数の翻訳仮説を生成する。翻訳仮説探索部は前記翻訳仮説についてユーザ履歴句ペアを探索する。増加部は前記ユーザ履歴句ペアに存在する前記翻訳仮説のスコアを増加させる。

本発明の１実施形態に係る機械翻訳方法のフローチャートである。本発明の他の実施形態に係る機械翻訳方法のフローチャートである。本発明の１実施形態に係る機械翻訳プロセスの例を示す模式図である。従来方法に係る機械翻訳プロセスの例を示す模式図である。本発明の１実施形態に係る機械翻訳装置のブロック図である本発明の他の実施形態に係る機械翻訳装置のブロック図である。

以下、図面を参照しながら、発明を実施するための実施形態について説明する。

＜機械翻訳方法＞
図１は本発明の１実施形態に係る、機械翻訳方法のフローチャートである。図１に示すように、先ずステップＳ１０１において、第１言語文を入力する。

本実施形態において、第１言語文は翻訳すべき文章である。この第１言語には制限がなく、英語、中国語、ドイツ語、日本語等、いずれの言語でもよい。

次にステップＳ１０５において、第１言語文がセグメント（検切り）されて、複数句が得られる。文のセグメント方法は当業者に周知のいかなる方法でもよい。これについて本実施形態は制限しない。

次にステップＳ１１０において、前記複数句の夫々に対応した第２言語の翻訳オプション（翻訳候補句）TOsについて、翻訳モデル１０を探索する。

翻訳モデル１０には、第１言語句と第２言語句を互いに並べた２カ国語ペアが存在する。ステップＳ１１０において、第１言語の各句に対応した第２言語の各句のTOsを、翻訳モデル１０から探索する。

通常、各句に対応して複数のTOsが存在する。ここではT個の翻訳オプションが存在すると仮定する。本実施形態においては、計算の複雑さを軽減するため、ステップＳ１１５において、高確率を有する上位N個の翻訳オプションをデコード（訳文生成）用に選択する。ここでNは１以上の整数である。つまり、より高い確率（又は、より低いコスト）を有する上位N個の翻訳オプションが、以降のデコード（訳文生成）用に選択される。

次にステップＳ１２０において、前記複数句の上位N個の翻訳オプションを組み合わせて複数の翻訳仮説(THs)を生成する。THsを生成するためのTOsの組合せ方法は、当業者に周知の方法でよく、本実施形態はこれを制限しない。

次にＳ１２５において、前記複数の翻訳仮説について、ユーザ履歴句ペア２０を探索する。

本実施形態においては、ユーザ２カ国語履歴文書に基づいてユーザ履歴句ペアを得る。先ず、MTのツールキットを用いた２カ国語履歴文書に基づいて、単語単位で揃えたコーパスを得る。そして単語対応付けルールを用いて、ユーザ履歴句ペアを得る。通常、句ペアを得るときには最大長をセットする。しかしながら本実施形態においては、ユーザ履歴句ペアについて最大長をセットしないことが望ましい。最大長をセットしない理由としては、以後のステップにおいて、翻訳仮説にボーナス（割増し点）を与えるためである。翻訳仮説は多くのTOsから構成される。各TOsの最大長は制限されるが、THの最大長は制限されない。

次にステップＳ１３０において、ユーザ履歴句ペア２０に存在するTHのスコアが増加される。つまり、ユーザ履歴句ペア２０に存在するTHのスコアにボーナスが与えられる。

本実施形態においては、THにボーナスを与える方法は、ユーザ履歴句ペア２０内のTHの確率を単純に加算する方法、又はTHの長さを考慮してボーナスを与える方法である。ここで、THの長さが長いほどTHのスコアをより増加させる（即ちボーナスをより大きくする）のが望ましい。

この理由として、THをユーザ履歴句ペア２０とマッチングさせる時、マッチング対象は文・句・単語であり、THが長いほどマッチング(一致)する確率が低くなる。従ってマッチング長が長いほどTHの信用性が高く、ボーナスがより大きくなるのである。

詳しくは、以下の式（１）に基づいてボーナスが与えられるのが望ましい。

ここで、Score(TH)は翻訳仮説を増加した後のスコア、Score_before(TH)は翻訳仮説を増加する前のスコア、Length(TH)は翻訳仮説の長さである。

更に、ユーザ履歴句ペア２０内のTHの確率は、式（１）に基づいて考慮できる。つまり、ユーザ履歴句ペア２０内の翻訳仮説の長さやTHのスコアに基づいて、THのスコアが増加される。

詳しくは、以下の式（２）に基づいてボーナスが与えられるのが望ましい。

ここで、Score(TH)は翻訳仮説を増加した後のスコア、Score_before(TH)は翻訳仮説を増加する前のスコア、Length(TH)は翻訳仮説の長さ、Score_in_UHP(TH)はユーザ履歴句ペア２０内の翻訳仮説のスコアである。

本実施形態の機械翻訳方法によれば、機械翻訳の品質が効率的に向上する。又、ユーザ履歴句ペアに存在する翻訳仮説のスコアを増加させることにより、翻訳結果がユーザの習慣により適したものとなる。つまりユーザ分野適用が実現されると同時に、MTモデルの変更無しで機械翻訳の品質が効果的に向上する。

本発明の他の実施形態に係る機械翻訳方法のフローチャートである。

図２に示す様に、先ずステップＳ２０１において、第１言語文を入力する。

本実施形態においては、第１言語文は上記実施形態のそれと同じであり、詳細な説明は省略する。

次にステップＳ２０５において、第１言語文がセグメント（検切り）されて、複数句が得られる。文のセグメント方法は当業者に周知のいかなる方法でもよい。これについて本実施形態は制限しない。

次にステップＳ２１０において、前記複数句の夫々に対応した第２言語の翻訳オプション（翻訳候補句）TOsについて、翻訳モデル１０を探索する。

翻訳モデル１０には、第１言語句と第２言語句を互いに並べた２カ国語ペアが存在する。ステップＳ２１０において、第１言語の各句に対応した第２言語の各句のTOsについて、翻訳モデル１０を探索する。

通常、各句に対応して複数のTOsが存在する。ここではT個の翻訳オプションが存在すると仮定する。本実施形態においては、計算の複雑さを軽減するため、ステップＳ２１５において、高確率を有する上位N個の翻訳オプションをデコード（訳文生成）用に選択する。ここでNは１以上の整数である。つまり、より高い確率（又は、より低いコスト）を有する上位N個の翻訳オプションが、以降のデコード（訳文生成）用に選択される。

次にステップＳ２２０において、上位N個の翻訳オプションとは異なるM個の翻訳オプションについて、ユーザ履歴句ペア２０を探索する。ここでMは１以上の整数である。

本実施形態においては、ユーザ履歴句ペア２０は上記実施形態のそれと同じであり、詳細な説明を省略する。

ステップＳ２１５において、T個のTOsから（高確率を有する）上位N個のTOsを選択する。ステップＳ２２０において、選択されなかった(T-N)個のTOsと、ユーザ履歴句ペア２０との間で、交差（共通句）を求めることが望ましい。ここではM個の共通句が得られたと仮定する。M個のTOsとN個のTOsが上記のように選択され、最終のデコードプロセス（訳文生成）において共に使用される。

本実施形態の機械翻訳方法においては、翻訳モデル内では低い確率を有するがUHD（ユーザ履歴文書）とは関連性の高いTOsが、最終のデコーディングプロセス（訳文生成）で使用できるように選択される。従ってより良い翻訳が得られる確率が向上する。入力文用のUHDに存在する句は少数であるため、デコーディングの複雑さは影響しない。

つまり本実施形態の機械翻訳方法においては、機械翻訳の品質が効果的に向上する。又、低確率（デコーディングプロセスで使用する機会の無い）を有するがユーザと関連性の高い翻訳オプションをデコーディングプロセスで使用することにより、翻訳結果がユーザの習慣により適したものとなる。ユーザ分野適用を実用化すると同時に、MTモデルの変更無しで機械翻訳の品質が効果的に向上する。

更に、図２に示す機械翻訳方法と、図１に示す機械翻訳方法を組み合わせることも可能である。つまり図２に示す機械翻訳方法のステップＳ２２０の後で、図１に示す機械翻訳方法のステップＳ１２０，Ｓ１２５，ｓ１３０を行なうことも可能である。

特にステップＳ２２０の後で、複数句から、ステップＳ２１５で選択された上位N個のTOsと、ステップＳ２２０で選択されたM個のTOs、つまり(N+M)個のTOsを組み合わせて複数のTHsを生成することができる。

次に、前記複数のTHsについて、ユーザ履歴句ペア２０を探索する。

次に、ユーザ履歴句ペア２０に存在するTHのスコアを増加させる。つまり、ユーザ履歴句ペア２０に存在するTHにボーナスを与える（加点）。

本実施形態においては、THにボーナスを与える方法は、ユーザ履歴句ペア２０内のTHの確率を単純に加える方法、THの長さを考慮してボーナスを与える方法でよい。ここで、THの長さが長いほどTHのスコアを増加させる、つまりボーナスを大きくすることが望ましい。

次に、本機械翻訳方法の翻訳処理の例について図３を参照して説明する。図３は本実施形態に係る機械翻訳処理の例の模式図である。

図３に示す様に、翻訳すべき文３０はドイツ語文「er geht ja nicht nach hause」である。

ステップＳ２０５において、ドイツ語文が複数句４０にセグメントされる。

ステップＳ２１０において、セグメントされた各句に対応するTOs（翻訳候補句）について、翻訳モデル１０を探索する。ステップＳ２１５において、各句に対して、高確率を有する上位４個のTOsが選択される。これは図３の参照番号５０で示される。「er」を例にとると、選択されたTOsは「.he」「it」「,it」「,he」である。

次にステップＳ２２０において、（翻訳モデル１０内で）選択されなかったTOsと、ユーザ履歴句ペア２０との間で交差（共通句）が得られる。句「er」「geht」「ja nicht」については、これらの句に対応するTOs「he」「go」「does not」、つまりM個（各句に１個ずつで計３個）のTOsが得られる。

次にステップＳ１２０において、各句について、上位４個のTOsとM個のTOsを組み合わせて、複数のTHs（翻訳仮説）６０が得られる。

次にステップＳ１２５において、複数のTHs（翻訳仮説）６０とユーザ履歴句ペア２０をマッチングして、ユーザ履歴句ペア２０に存在する２個のTHs「he does not 0.22」「go home 0.02」を得る。ユーザ履歴句ペア２０内の夫々の確率は「0.42」「0.29」である。

次に、２個のTHsにボーナスが与えられる。ここではユーザ履歴句２０内の同じTHsの確率を単純に加算することにより、ボーナス付きのTHs「he does not 0.64」「go home 0.31」が得られる。これは図３の参照番号７０で示される。

次に、これら複数のTHsを組み合わせて翻訳候補８０を生成する。

最後に、最高のスコアを有する翻訳候補「he does not go home 0.015」が最終翻訳結果として選択される。

一方、従来方法の翻訳処理の例について図４を参照して説明する。図４は従来の機械翻訳処理の例の模式図である。

図４に示す様に、翻訳モデル１０を用いてTOs（翻訳候補句）を得た後、他のTOｓがユーザ履歴句ペアを用いて追加されない。更に、THs（翻訳仮説）が得られた後、ユーザ翻訳句ペアを用いてボーナスがTHsに与えられない。最終的に得られる翻訳結果は「.he do not go home 0.0059」である。

以上より明らかな様に、図４の従来方法と比較して、本実施形態の機械翻訳方法は、デコード（訳文生成）用のユーザ履歴文書と高い関連性を有するTOs（翻訳候補句）を選択し、更には、ユーザ履歴句ペアを用いてTHs（翻訳仮説）にボーナスを与えることにより、機械翻訳結果の品質が効果的に向上する。従って、より高品質でユーザ習慣により適した翻訳結果が得られる。

＜機械翻訳装置＞
図５は同じ発明概念下での、本発明の他の実施形態に係る、機械翻訳装置５００のブロック図である。次に、図を参照して本実施形態を説明する。前記実施形態と同じ部分については説明を省略する。

本実施形態の機械翻訳装置５００は、入力部５０１、セグメンテーション部５０５、翻訳オプション探索部５１０、選択部５１５、組み合せ部５２０、翻訳仮説探索部５２５、増加部５３０を含む。機械翻訳装置５００はコンピュータ装置として実現できる。コンピュータ装置５００はメモリ（図５に示していない）からプログラムを読み出し、メモリ内で該プログラムを展開し実行する。この時、入力部５０１、セグメンテーション部５０５、翻訳オプション探索部５１０、選択部５１５、組み合せ部５２０、翻訳仮説探索部５２５、増加部５３０の各機能が回路機構として実現できるように実行する。

図５に示す様に、第１言語文が入力部５０１に入力される。

本実施形態においては、第１言語文が翻訳すべき文章である。この第１言語には制限がなく、英語、中国語、ドイツ語、日本語等、いずれの言語でもよい。

第１言語文がセグメンテーション部５０５でセグメント（検切り）されて、複数句が得られる。文のセグメント方法は当業者に周知のいかなる方法でもよい。これについて本実施形態は制限しない。

前記複数句の夫々に対応した第２言語の翻訳オプション（翻訳候補句）TOsについて、翻訳オプション探索部５１０が翻訳モデル１０を探索する。

翻訳モデル１０には、第１言語句と第２言語句を互いに並べた２カ国語ペアが存在する。第１言語の各句に対応した第２言語の各句のTOsについて、翻訳モデル１０が翻訳オプション探索部５１０によって探索される。

通常、各句（第１言語）に対応して複数のTOs（第２言語）が存在する。ここではT個の翻訳オプション（翻訳候補句）TOsが存在すると仮定する。本実施形態においては、計算の複雑さを軽減するため、選択部５１５によって、高確率を有する上位N個の翻訳オプションを、以降のデコード（訳文生成）用に選択する。ここでNは１以上の整数である。つまり、より高い確率（又は、より低いコスト）を有する上位N個の翻訳オプションが、以降のデコード（訳文生成）用に選択される。

組み合せ部５２０によって、前記複数句の夫々の、上位N個の翻訳オプションを組み合わせて複数の翻訳仮説(THs)を生成する。THsを生成するためのTOsの組み合せ方法は、当業者に周知の方法でよく、本実施形態はこれを制限しない。

翻訳仮説探索部５２５は、前記複数の翻訳仮説(THs)について、ユーザ履歴句ペア２０を探索する。

本実施形態においては、ユーザ２カ国語履歴文書に基づいてユーザ履歴句ペアを得る。先ず、MTのツールキットを用いた２カ国語履歴文書に基づいて、単語単位で揃えたコーパスを得る。そして単語対応付けルールを用いて、ユーザ履歴句ペアを得る。通常、句ペアを得るときには最大長をセットする。しかしながら本実施形態においては、ユーザ履歴句ペアについて最大長をセットしないことが望ましい。最大長をセットしない理由としては、以後のステップにおいて翻訳仮説にボーナス（割増し点）を与えるためである。翻訳仮説は多くのTOsから構成される。各TOsの最大長は制限されるが、THの最大長は制限されない。

増加部５３０によって、ユーザ履歴句ペア２０に存在するTHのスコアが増加される。つまり、ユーザ履歴句ペア２０に存在するTHのスコアにボーナスが与えられる（加点）。

本実施形態においては、THにボーナスを与える方法は、ユーザ履歴句ペア２０内のTHの確率を単純に加算する方法、又はTHの長さを考慮してボーナスを与える方法である。ここで、THの長さが長いほどTHのスコアを増加させる（即ちボーナスをより大きくする）のが望ましい。

本実施形態の機械翻訳装置５００によれば、機械翻訳の品質が効率的に向上する。又、ユーザ履歴句ペアに存在する翻訳仮説のスコアを増加させることにより、翻訳結果がユーザの習慣により適したものとなる。つまりユーザ分野適用が実現されると同時に、MTモデルの変更無しで機械翻訳の品質が効果的に向上する。

図６は本発明の他の実施形態に係る、機械翻訳装置６００のブロック図である。

本実施形態の機械翻訳装置６００は、入力部６０１、セグメンテーション部６０５、第１翻訳オプション探索部６１０、選択部６１５、第２翻訳オプション探索部６２０を含む。機械翻訳装置６００はコンピュータ装置として実現できる。コンピュータ装置６００はメモリ（図６に示していない）からプログラムを読み出し、メモリ内で該プログラムを展開し実行する。この時、入力部６０１、セグメンテーション部６０５、第１翻訳オプション探索部６１０、選択部６１５、第２翻訳オプション探索部６２０の各機能が回路機構として実現できるように実行する。

図６に示す様に、第１言語文が入力部６０１に入力される。

セグメンテーション部６０５によって、第１言語文がセグメント（検切り）されて、複数句が得られる。文のセグメント方法は当業者に周知のいかなる方法でもよい。これについて本実施形態は制限しない。

前記複数句の夫々に対応した第２言語の翻訳オプション（翻訳候補句）TOsについて、第１翻訳オプション探索部６１０が翻訳モデル１０を探索する。

翻訳モデル１０には、第１言語句と第２言語句を互いに並べた２カ国語ペアが存在する。第１翻訳オプション探索部６１０によって、第１言語の各句に対応した第２言語の各句のTOsについて、翻訳モデル１０が探索される。

通常、第１言語の各句に対応して複数のTOs（第２言語）が存在する。ここではT個の翻訳オプション（翻訳候補句）が存在すると仮定する。本実施形態においては、計算の複雑さを軽減するため、選択部６１５によって、高確率を有する上位N個の翻訳オプションをデコード（訳文生成）用に選択する。ここでNは１以上の整数である。つまり、より高い確率（又は、より低いコスト）を有する上位N個の翻訳オプションが、以降のデコード（訳文生成）用に選択される。

第２翻訳オプション探索部６２０によって、上位N個の翻訳オプションとは異なるM個の翻訳オプションについて、ユーザ履歴句ペア２０を探索する。ここでMは１以上の整数である。

選択部６１５によって、T個のTOsから（高確率を有する）上位N個のTOsを選択する。第２翻訳オプション探索部６２０は、選択されなかった(T-N)個のTOsと、ユーザ履歴句ペア２０との間で、交差（共通句）を求めることが望ましい。ここではM個の共通句が得られたと仮定する。M個のTOsとN個のTOsが上記のように選択され、最終のデコーディングプロセス（訳文生成）において共に使用される。

本実施形態の機械翻訳装置６００においては、翻訳モデル内では低い確率を有するがUHD（ユーザ履歴文書）とは関連性の高いTOs（翻訳候補句）が、最終のデコーディング（訳文生成）プロセスで使用できるように選択される。従ってより良い翻訳が得られる確率が向上する。ここで、入力文用のUHDに存在する句は少数であるため、デコーディングの複雑さは影響しない。

つまり本実施形態の機械翻訳装置６００によれば、機械翻訳の品質が効果的に向上する。又、低確率（デコーディングプロセスで使用する機会の無い）を有するがユーザとは関連性の高い翻訳オプションをデコーディングプロセスで使用することにより、翻訳結果がユーザの習慣により適したものとなる。ユーザ分野適用を実用化すると同時に、MTモデルの変更無しで機械翻訳の品質が効果的に向上する。

更に、図５に示す機械翻訳装置と、図６に示す機械翻訳装置を組み合わせることも可能である。つまり図６に示す機械翻訳装置が、図５に示す機械翻訳装置の組み合せ部５２０、翻訳仮説探索部５２５、増加部５３０を備えてもよい。

特に、複数句から、選択部６１５で選択された上位N個のTOsと、第２翻訳オプション探索部６２０で選択されたM個のTOs、つまり(N+M)個のTOsを組み合わせて複数のTHs（翻訳仮説）を生成することができる。

翻訳仮説探索部５２５によって、前記複数のTHsについて、ユーザ履歴句ペア２０を探索する。

増加部５３０によって、ユーザ履歴句ペア２０に存在するTHのスコアが増加される。つまり、ユーザ履歴句ペア２０に存在するTHにボーナスが与えられる。

本実施形態の機械翻訳装置によれば、機械翻訳の品質が効率的に向上する。又、ユーザ履歴句ペアに存在する翻訳仮説のスコアを増加させることにより、翻訳結果がユーザの習慣により適したものとなる。つまりユーザ分野適用が実現されると同時に、MTモデルの変更無しで機械翻訳の品質が効果的に向上する。

本機械翻訳装置の翻訳処理の例について図３を参照して説明する。図３は本実施形態に係る機械翻訳装置の例の模式図である。

セグメンテーション部６０５によって、ドイツ語文が複数句４０にセグメントされる。

セグメントされた各句に対応するTOsについて、第１翻訳オプション探索部６１０が翻訳モデル１０を探索する。選択部６１５によって、各句に対して、高確率を有する上位４個のTOsが選択される。これは図３の参照番号５０で示される。「er」を例にとると、選択されたTOsは「.he」「it」「,it」「,he」である。

第２翻訳オプション探索部６２０によって、（翻訳モデル１０内で）選択されなかったTOsと、ユーザ履歴句ペア２０との間で交差（共通句）が得られる。句「er」「geht」「ja nicht」については、これらの句に対応するTOs「he」「go」「does not」、つまりM個（各句に１個ずつで計３個）のTOsが得られる。

組み合せ部５２０によって、各句について、上位４個のTOsとM個のTOsを組み合わせて、複数のTHs（翻訳仮説）６０が得られる。

翻訳仮説探索部５２５によって、複数のTHs（翻訳仮説）６０とユーザ履歴句ペア２０をマッチングして、ユーザ履歴句ペア２０に存在する２個のTHs「he does not 0.22」「go home 0.02」が得られる。ユーザ履歴句ペア２０内の夫々の確率は「0.42」「0.29」である。

増加部５３０によって、２個のTHsにボーナスが与えられる。ここではユーザ履歴句２０内の同じTHsの確率を単純に加算することにより、ボーナス付きのTHs「he does not 0.64」「go home 0.31」が得られる。これは図３の参照番号７０で示される。

一方、従来装置の翻訳処理の例について図４を参照して説明する。図４は従来の機械翻訳処理の例の模式図である。

図４に示す様に、翻訳モデル１０を用いてTOs（翻訳候補句）を得た後、他のTOｓがユーザ翻訳句ペアを用いて追加されない。更には、THs（翻訳仮説）が得られた後、ユーザ翻訳句ペアを用いてボーナスがTHsに与えられない。最終的に得られる翻訳結果は「.he do not go home 0.0059」である。

上記より明らかな様に、図４の従来方法と比較して、本実施形態の機械翻訳装置は、デコード（訳文生成）用のユーザ履歴文書と高い関連性を有するTOs（翻訳候補句）を選択し、ユーザ履歴句ペアを用いてTHs（翻訳仮説）にボーナスを与えることにより、機械翻訳の品質が効果的に向上する。従って、より高品質でユーザ習慣により適した翻訳結果が得られる。

本発明に係る機械翻訳装置及び機械翻訳方法は、各実施形態として詳細に説明したが、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０・・・翻訳モデル
２０・・・ユーザ履歴句ペア
５００、６００・・・機械翻訳装置
５０１、６０１・・・入力部
５０５、６０５・・・セグメンテーション部
５１０・・・翻訳オプション探索部
５１５、６１５・・・選択部
５２０・・・組み合せ部
５２５・・・翻訳仮説探索部
５３０・・・増加部
６１０・・・第１翻訳オプション探索部
６２０・・・第２翻訳オプション探索部

Claims

第１言語文を入力するための入力部と、
前記第１言語文をセグメントして複数句を生成するセグメンテーション部と、
前記複数句の夫々に対応した第２言語の翻訳オプションについて、翻訳モデルを探索する翻訳オプション探索部と、
前記複数句の夫々に対して、前記翻訳モデルから、第２言語文生成用の高確率を有する上位Ｎ個（Ｎは１以上の整数）の翻訳オプションを選択する選択部と、
前記複数句の夫々に対して、前記上位Ｎ個の翻訳オプションを組み合わせることにより、複数の翻訳仮説を生成する組み合せ部と、
前記翻訳仮説についてユーザ履歴句ペアを探索する翻訳仮説探索部と、
前記ユーザ履歴句ペアに存在する前記翻訳仮説のスコアを増加させる増加部と、
を有することを特徴とする機械翻訳装置。
前記増加部は、前記翻訳仮説の長さが長いほど、前記翻訳仮説のスコアをより増加させるものである、
請求項１に記載の機械翻訳装置。
前記増加部は、下記の式(1)に基づいて前記翻訳仮説のスコアを増加させるものである、
Score(TH)：前記翻訳仮説を増加させた後のスコア
Score_before(TH)：前記翻訳仮説を増加させる前のスコア
Length(TH)：前記翻訳仮説の長さ
請求項２に記載の機械翻訳装置。
前記増加部は、前記翻訳仮説の長さと、前記ユーザ履歴句ペアに存在する翻訳仮説のスコアに基づいて、前記翻訳仮説のスコアを増加させるものである、
請求項１に記載の機械翻訳装置。
前記増加部は、下記の式(2)に基づいて前記翻訳仮説のスコアを増加させるものである、
Score(TH)：前記翻訳仮説の増加後のスコア
Score_before(TH)：前記翻訳仮説の増加前のスコア
Length(TH)：前記翻訳仮説の長さ
Score_in_UHP(TH)：前記ユーザ履歴句ペアに存在する翻訳仮説のスコア
請求項４に記載の機械翻訳装置。
第１言語文を入力するための入力部と、
前記第１言語文をセグメントして複数句を生成するセグメンテーション部と、
前記複数句の夫々に対応した第２言語の翻訳オプションについて、翻訳モデルを探索する第１翻訳オプション探索部と、
前記複数句の夫々に対して、前記翻訳モデルから、第２言語文生成用の高確率を有する上位Ｎ個（Ｎは１以上の整数）の翻訳オプションを選択する選択部と、
前記上位Ｎ個の翻訳オプションとは異なるＭ個（Ｍは１以上の整数）の翻訳オプションをユーザ履歴句ペアから探索する第２翻訳オプション探索部と、
を有することを特徴とする音声翻訳装置。
前記複数句の夫々に対して、上位Ｎ個の翻訳オプションとＭ個の翻訳オプションを組み合わせることにより、複数の翻訳仮説を生成する組み合せ部と、
前記翻訳仮説について前記ユーザ履歴句ペアを探索する翻訳仮説探索部と、
前記ユーザ履歴句ペアに存在する前記翻訳仮説のスコアを増加させる増加部と、
を更に備える請求項６に記載の機械翻訳装置。
前記第２翻訳オプション探索部は、前記ユーザ履歴句ペアと、前記翻訳モデルから選択されなかった翻訳オプションとの間の共通句を求めるものである、
請求項６に記載の機械翻訳装置。
前記増加部は、前記翻訳仮説の長さが長いほど、前記翻訳仮説のスコアをより増加させるものである、
請求項７に記載の機械翻訳装置。
前記増加部は、下記の式(1)に基づいて前記翻訳仮説のスコアを増加させるものである、
Score(TH)：前記翻訳仮説の増加後のスコア
Score_before(TH)：前記翻訳仮説の増加前のスコア
Length(TH)：前記翻訳仮説の長さ
請求項９に記載の機械翻訳装置。
前記増加部は、前記翻訳仮説の長さと、前記ユーザ履歴句ペアに存在する翻訳仮説のスコアに基づいて、前記翻訳仮説のスコアを増加させるものである、
請求項７に記載の機械翻訳装置。
前記増加部は、下記の式(2)に基づいて前記翻訳仮説のスコアを増加させるものである、
Score(TH)：前記翻訳仮説の増加後のスコア
Score_before(TH)：前記翻訳仮説の増加前のスコア
Length(TH)：前記翻訳仮説の長さ
Score_in_UHP(TH)：前記ユーザ履歴句ペアに存在する翻訳仮説のスコア
請求項１１に記載の機械翻訳装置。
第１言語文を入力するステップと、
前記第１言語文をセグメントして複数句を生成するステップと、
前記複数句の夫々に対応した第２言語の翻訳オプションについて、翻訳モデルを探索するステップと、
前記複数句の夫々に対して、前記翻訳モデルから、第２言語文生成用の高確率を有する上位Ｎ個（Ｎは１以上の整数）の翻訳オプションを選択するステップと、
前記複数句の夫々に対して、前記上位Ｎ個の翻訳オプションを組み合わせることにより、複数の翻訳仮説を生成するステップと、
前記翻訳仮説についてユーザ履歴句ペアを探索するステップと、
前記ユーザ履歴句ペアに存在する前記翻訳仮説のスコアを増加させるステップと、
を備えたことを特徴とする機械翻訳方法。
第１言語文を入力するステップと、
前記第１言語文をセグメントして複数句を生成するステップと、
前記複数句の夫々に対応した第２言語の翻訳オプションについて、翻訳モデルを探索するステップと、
前記複数句の夫々に対して、前記翻訳モデルから、第２言語文生成用の高確率を有する上位Ｎ個（Ｎは１以上の整数）の翻訳オプションを選択するステップと、
前記上位Ｎ個の翻訳オプションとは異なるＭ個（Ｍは１以上の整数）の翻訳オプションをユーザ履歴句ペアから探索するステップと、
を備えたことを特徴とする機械翻訳方法。