[go: up one dir, main page]

JP2014078132A - 機械翻訳装置、方法およびプログラム - Google Patents

機械翻訳装置、方法およびプログラム Download PDF

Info

Publication number
JP2014078132A
JP2014078132A JP2012225387A JP2012225387A JP2014078132A JP 2014078132 A JP2014078132 A JP 2014078132A JP 2012225387 A JP2012225387 A JP 2012225387A JP 2012225387 A JP2012225387 A JP 2012225387A JP 2014078132 A JP2014078132 A JP 2014078132A
Authority
JP
Japan
Prior art keywords
translation
word
translated
candidate
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2012225387A
Other languages
English (en)
Inventor
Hiroyuki Tanaka
浩之 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012225387A priority Critical patent/JP2014078132A/ja
Priority to US14/048,274 priority patent/US9208149B2/en
Priority to CN201310463708.6A priority patent/CN103729347A/zh
Publication of JP2014078132A publication Critical patent/JP2014078132A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】流暢性の高い翻訳文を生成することができる。
【解決手段】本実施形態に係る機械翻訳装置は、翻訳部、訳語候補取得部、流暢度計算部、逆翻訳部、類似度計算部および訳語選択部を含む。翻訳部は、第1言語の原文を、第2言語の翻訳文に翻訳する。訳語候補取得部は、翻訳文中の第1訳語に対応する原文中の原語について、原語の翻訳であって第1訳語とは異なる1以上の第2訳語を取得し、第1訳語および第2訳語を訳語候補として得る。流暢度計算部は、翻訳文で第1訳語が挿入される位置に訳語候補が挿入された場合における自然な翻訳文が生成される度合いを示す流暢度を計算する。逆翻訳部は、訳語候補の第1言語への逆翻訳結果である1以上の逆翻訳語を得る。類似度計算部は、原語と逆翻訳語との第1言語での意味の類似度を計算する。訳語選択部は、類似度と流暢度とに基づいて、訳語候補から第1訳語と置換するための修正訳語を選択する。
【選択図】図1

Description

本発明の実施形態は、第1言語を第2言語に翻訳する機械翻訳装置、方法およびプログラムに関する。
近年、コンピュータの高性能化、ブロードバンドインフラの急速な普及に伴い、第1言語による原文を第2言語による翻訳文に翻訳する多くの機械翻訳装置および機械翻訳サービスが普及している。一般的に機械翻訳では、第1言語の単語および第1原語の節単位で複数の第2言語の訳語候補を保持する。このような機械翻訳では、入力された原文に応じて、原文側の語句と翻訳文側の語句との意味的な同一性と、翻訳文としての流暢性を考慮して、適切な訳語を選択することが重要である。
適切な訳語を選択するための手法としては、統計ベース翻訳方式があるが、大規模な対訳コーパスを用意する必要がある。このような大規模な対訳コーパスを必要とすることなく、意味的な同一性を考慮する手法としては、例えば原文側の語句と翻訳文側の語句とのそれぞれの共起語を用いる手法がある。
特開2002−351872号公報
しかし、上述した手法では、原文および翻訳文の双方の共起語リストを用意する必要があり、さらに共起だけを手掛かりとするため文全体の流暢性は勘案されておらず、流暢性の高い訳語を選択することができない。
本開示は、上述の課題を解決するためになされたものであり、流暢性の高い翻訳文を生成することができる機械翻訳装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る機械翻訳装置は、翻訳部、訳語候補取得部、流暢度計算部、逆翻訳部、類似度計算部および訳語選択部を含む。翻訳部は、第1言語の文字列である原文を、第2言語の文字列である翻訳文に翻訳する。訳語候補取得部は、前記翻訳文中の第1訳語に対応する前記原文中の原語について、該原語の翻訳であって該第1訳語とは異なる1以上の第2訳語を取得し、該第1訳語および該第2訳語を訳語候補として得る。流暢度計算部は、前記翻訳文で前記第1訳語が挿入される位置に前記訳語候補が挿入された場合における自然な翻訳文が生成される度合いを示す流暢度を、訳語候補ごとに計算する。逆翻訳部は、前記訳語候補の前記第1言語への逆翻訳結果である1以上の逆翻訳語を訳語候補ごとに得る。類似度計算部は、前記原語と前記逆翻訳語との第1言語での意味の類似度を、逆翻訳語ごとに計算する。訳語選択部は、前記類似度と前記流暢度とに基づいて、前記訳語候補から前記第1訳語と置換するための修正訳語を選択する。
第1の実施形態に係る機械翻訳装置を示すブロック図。 翻訳辞書データベースに格納されるテーブルの一例を示す図。 流暢度データベースに格納される一例を示す図。 機械翻訳装置の動作を示すフローチャート。 機械翻訳装置の訳語選択処理を示すフローチャート。 取得部で取得される原文の一例を示す図。 翻訳部で生成される翻訳文の一例を示す図。 訳語候補取得部における訳語候補の抽出結果の一例を示す図。 第1の実施形態における流暢度計算部での流暢度の計算結果の一例を示す図。 第1の実施形態における逆翻訳部での逆翻訳結果の一例を示す図。 第1の実施形態における類似度計算部での類似度の計算結果の一例を示す図。 第1の実施形態における訳語選択部での判定スコアの一例を示す図。 第2の実施形態に係る機械翻訳装置を示すブロック図。 第2の実施形態における流暢度計算部での流暢度の計算結果の一例を示す図。 第2の実施形態における逆翻訳部での逆翻訳結果の一例を示す図。 第2の実施形態における類似度計算部での類似度の計算結果の一例を示す図。 第2の実施形態における訳語選択部での判定スコアの一例を示す図。
以下、図面を参照しながら本実施形態に係る機械翻訳装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態では、原文としての第1言語が英語であり、翻訳文としての第2言語が日本語である場合を例に説明するが、翻訳処理の対象となる言語は、これら2つの言語に限られることなく、あらゆる言語を対象とすることができる。また、以下では、第2言語から第1原語への翻訳は逆翻訳と呼ぶ。
(第1の実施形態)
第1の実施形態に係る機械翻訳装置について図1を参照して説明する。
第1の実施形態に係る機械翻訳装置100は、取得部101、翻訳部102、訳語候補取得部103、流暢度計算部104、逆翻訳部105、類似度計算部106、訳語選択部107、出力部108、翻訳辞書データベース109、流暢度データベース110および類似度データベース111を含む。
取得部101は、外部から翻訳対象である第1言語による原文を取得する。原文の取得は、キーボード、ポインティングデバイス、手書き文字認識、OCR、音声認識など、一般的に用いられるユーザからの入力を受け付ける様々な方法を適用すればよい。または、ユーザの入力によらず、外部から順次原文を取得するように設定してもよい。
翻訳部102は、取得部101から原文を受け取り、後述の翻訳辞書データベース109に格納される翻訳辞書を参照して、原文を第2言語の文字列に翻訳し、翻訳文を得る。翻訳処理は、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式など一般的な方法を用いればよいため、ここでの説明は省略する。
訳語候補取得部103は、翻訳部102から翻訳文を受け取り、翻訳文のうちの処理対象の訳語を翻訳部102へ問い合わせる。その後、訳語に対応する第1言語の語句(以下、原語という)の翻訳であって、処理対象の訳語とは異なる1以上の第2言語による訳語を取得し、処理対象の訳語と合わせて訳語候補として得る。
流暢度計算部104は、訳語候補取得部103から1以上の訳語候補を受け取り、後述する流暢度データベース110を参照して訳語候補ごとに流暢度を計算する。流暢度は、第2言語として自然な翻訳文が生成される度合いを示す。
本実施形態における流暢度の計算は、流暢度計算部104が、流暢度データベース110から予め計算された値を取得する例を示すが、例えば、前後の訳語を含む用例の頻度をカウントし、その総数で割るなどして確率を計算してもよい。また、N−gram言語モデルやPLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)などといった一般に公知な方法を用いて流暢度を計算してもよい。また、流暢度を予め計算せず、第2言語の用例コーパスを用意し、計算要求が来るたびにその都度計算するようにしてもよい。
逆翻訳部105は、訳語候補取得部103から訳語候補、原語および翻訳文を受け取る。逆翻訳部105は、各訳語候補を第1言語に逆翻訳し、逆翻訳結果を1以上の逆翻訳語として得る。逆翻訳処理としては、逆翻訳辞書を用いる方法、翻訳部102で用いる翻訳辞書を用いて、ある訳語候補を訳語リスト中に持つ辞書見出しを逆翻訳結果として用いる方法を用いてもよい。また、第2言語を第1言語に翻訳する外部の翻訳エンジンを利用して逆翻訳結果を得て、逆翻訳結果を逆翻訳語に追加してもよい。なお、これらに限らずどのような方法でもよい。
類似度計算部106は、逆翻訳部105から1以上の逆翻訳語、原語および翻訳文を受け取り、後述の類似度データベース111を参照して、逆翻訳語ごとに、原語と逆翻訳語とにおける第1言語での意味の類似度を算出する。類似度の計算には、コサイン類似度を計算したり、シソーラスを用いたり、文脈類似度計算またはクラスタリングなどの手法を用いればよい。
訳語選択部107は、流暢度計算部104から訳語候補、対応する流暢度および翻訳文を受け取り、類似度計算部106から逆翻訳語と対応する類似度とを受け取る。訳語選択部107は、流暢度と類似度とに基づいて判定スコアを算出し、訳語候補の中から処理対象の訳語と置換するための訳語である修正訳語を選択する。修正訳語の選択は、例えば、最大の判定スコアを有する訳語を修正訳語として選択すればよい。
出力部108は、訳語選択部107から翻訳文および修正訳語を受け取り、翻訳文中の訳語を修正訳語に置き換えた修正翻訳文を外部へ出力する。なお、出力部108は、訳語選択部107から翻訳文を受け取る例を示すが、翻訳部102から翻訳文を受け取るようにしてもよい。
翻訳辞書データベース109は、第1言語の語句(原語)と第1言語の対訳である第2言語の語句(訳語)との翻訳辞書を格納する。翻訳辞書については、図2を参照して後述する。
流暢度データベース110は、2つの単語の間に挿入される可能性のある第2言語による語句と、語句が挿入された場合の文の流暢度とを対応づけて格納する。流暢度データベース110については、図3を参照して後述する。
類似度データベース111は、第1言語の語句と他の第1言語の語句との類似度を格納する。
なお、翻訳辞書データベース109、流暢度データベース110および類似度データベース111は、機械翻訳装置100に含まれてもよいし、外部のデータベースを参照するようにしてもよい。
次に、翻訳辞書データベース109に格納される翻訳辞書の一例について図2を参照して説明する。
図2に示す翻訳辞書200には、原語201と訳語202とが対応づけられて格納される。原語201は、第1言語の文字列を示し、訳語202は、原語201の対訳となる第2言語の訳語を示す。なお、1つの原語201に対して1以上の訳語202が存在する。ここでは、原文201「suggest」と、訳語202「示唆して」、「提案して」、「勧めて」および「暗示して」といった訳語が対応付けられる。
次に、流暢度データベース110に格納されるテーブルの一例について図3を参照して説明する。
図3に示すテーブル300には、前出ワード301、後出ワード302、訳語303および流暢度304がそれぞれ対応づけられて格納される。
前出ワード301は、処理対象の訳語の直前に出現する語である。後出ワード302は、処理対象の直後に出現する語である。訳語303は、前出ワード301と後出ワード302との間の位置に挿入される可能性のある訳語を示す。流暢度304は、訳語303が挿入された場合における前出ワード301、訳語303および後出ワード302の翻訳文としての流暢度を示し、訳語303と1対1に対応づけられる。
具体的には、前出ワード301「レストランを」、後出ワード302「もらえ」に対して、挿入される可能性のある訳語である、訳語303「探して」および流暢度304「0.84」が対応づけられ、訳語303「教えて」および流暢度304「0.73」、訳語303「経営して」および流暢度304「0.64」などが対応づけられる。すなわち、翻訳文として「レストランを教えてもらえ」という翻訳文の流暢度が「0.73」であり、「レストランを経営してもらえ」という翻訳文の流暢度が「0.64」であることを示す。
次に、本実施形態に係る機械翻訳装置100の動作について図4のフローチャートを参照して説明する。
ステップS401では、取得部101が、原文Sを取得する。
ステップS402では、翻訳部102が、原文Sを第2言語に翻訳し、翻訳文Tを生成する。
ステップS403では、翻訳文Tに対して訳語選択処理が行われる。訳語選択処理の詳細については図5を参照して後述する。
ステップS404では、出力部108が、修正翻訳文Mを出力する。以上で機械翻訳装置100の動作を終了する。
次に、ステップS403の訳語選択処理について図5を参照して説明する。
ステップS501では、訳語候補取得部103が、処理対象の訳語wについて、訳語候補Wと対応する原語eとを問い合わせ、翻訳辞書が参照されることにより、原語eと全ての訳語候補Wとを取得する。処理対象となる訳語wの選択方法としては、例えば、予め翻訳文Tの流暢度を訳語ごとに計算しておき、流暢度が閾値以下の訳語を処理対象の訳語として抽出すればよい。
ステップS502では、訳語候補取得部103が、訳語候補Wが複数あるかどうかを判定する。訳語候補Wが複数存在する場合はステップS503およびステップS504に進み、訳語候補Wが複数存在しない、すなわち訳語が1つだけの場合は処理を終了する。
ステップS503では、流暢度計算部104が、訳語候補ごとに、訳語候補Wの流暢度Fを計算する。
ステップS504では、逆翻訳部105が、訳語候補ごとに、訳語候補Wを逆翻訳して逆翻訳結果である1以上の逆翻訳語Kを取得する。
ステップS505では、類似度計算部106が、1以上の逆翻訳語Kと原語eとの類似度Rを計算する。
ステップS506では、訳語選択部107が、流暢度Fと類似度Rとを用いて判定スコアSを計算する。本実施形態では、流暢度Fと類似度Rとの積を判定スコアとするが、どのような計算方法でもよい。
ステップS507では、訳語選択部107が、判定スコアSが最も高い訳語候補Wの中の訳語W’を修正訳語として選択する。以上で、訳語選択処理を終了する。
なお、1つの訳語に対して置き換えた後に、再度翻訳文全体の流暢度を計算し、流暢度が閾値以下の訳語があれば、閾値以下の訳語に対してステップS501からステップS507までの処理を同様に繰り返してもよい。こうすることで、翻訳文全体の流暢度を高めることができ、より自然な翻訳文とすることができる。
次に、訳語選択処理の動作の具体例について図6から図12までを参照して説明する。
図6は、取得部101で取得される原文を示す。ここでは、原文として「Could you suggest a restaurant with a nice view?」が入力されたとする。
図7は、翻訳部102で原文を翻訳した翻訳結果である翻訳文を示す。すなわち、原文「Could you suggest a restaurant with a nice view?」を第2言語に翻訳し、「よい/眺めの/レストランを/示唆して/もらえませんか?」という翻訳文を得る。ここで「/」は、訳語の意味的なまとまりの区切りを表し、「/」で区切られた文字列の中から処理対象の訳語が選択される。
ここで、処理対象の訳語が「示唆して」である場合を想定する。訳語候補取得部103は、翻訳辞書データベース109を参照し、訳語「示唆して」の原文である「suggest」のその他の訳語である「提案して」および「勧めて」を訳語候補として得る。
次に、訳語候補取得部103での訳語候補の抽出結果を図8に示す。
図8のテーブル800に示すように、原語201「suggest」の訳語候補801として、「示唆して」、「提案して」および「勧めて」の3つを得ることができる。
次に、流暢度計算部104が、図8に示す3つの訳語候補について流暢度を計算した計算結果を図9に示す。
図9に示すテーブル900には、訳語候補801と流暢度901とが対応づけられて格納される。例えば、訳語候補801「示唆して」と流暢度901「0.13」とが対応付けられる。ここでは、訳語候補の流暢度の計算は、流暢度データベース110に格納される流暢度の値をそのまま利用するが、重み付けを行なうなどその他の計算を用いて算出してもよい。
次に、逆翻訳部105が、訳語候補を逆翻訳した逆翻訳結果を図10に示す。
図10に示すテーブル1000には、訳語候補801と逆翻訳語1001とが対応づけられて格納される。例えば、訳語候補801が「示唆して」の場合、逆翻訳語1001として「indicate」、「suggest」および「hint」が対応づけられる。なお、ここでは逆翻訳語1001として訳語候補801ごとに3つの第1言語の単語を得ているが、任意の数の第1言語の単語を格納してもよい。
次に、類似度計算部106が、原語である「suggest」と逆翻訳語との類似度を計算した計算結果を図11に示す。
図11に示すテーブル1100には、訳語候補801、逆翻訳語1001および類似度1101がそれぞれ対応づけられて格納される。例えば、訳語候補801「示唆して」に対し、逆翻訳語1001「indicate」および類似度1101「0.43」、逆翻訳語1001「suggest」および類似度1101「1.0」、逆翻訳語1001「hint」および類似度1101「0.41」がそれぞれ対応づけられる。なお、逆翻訳語1001の「suggest」は、原語「suggest」と同一であるので、類似度が「1.0」となる。
類似度の計算は、例えば、テキストコーパスの集合からTF−IDF等の尺度を計算し、一定の順序で並べて式(1)のような単語ベクトルを生成する。
Figure 2014078132
生成した単語ベクトルについてコサイン類似度を計算し、算出した値を類似度として得ればよい。例えば、原語「suggest」と逆翻訳語「indicate」との類似度は、a=suggest、b=indicateとすれば、式(2)を用いて計算することができる。
Figure 2014078132
次に、訳語選択部107による判定スコアを算出した結果を図12に示す。
図12に示すテーブル1200には、図11に示す訳語候補801、逆翻訳語1001および判定スコア1201がそれぞれ対応づけられて格納される。
ここでは、訳語選択部107は、逆翻訳語1001「recommend」が判定スコア1201「0.23」で最もスコアが高いので、修正訳語として訳語候補801「勧めて」を得る。よって、翻訳文「よい眺めのレストランを示唆してもらえませんか?」における元の訳語である「示唆して」を「勧めて」に置き換える。
最終的に、出力部108が、「よい眺めのレストランを勧めてもらえませんか?」を修正翻訳文として出力する。
以上に示した第1の実施形態によれば、第1言語による原文を機械翻訳する際に、第2言語による翻訳文に含まれる処理対象の訳語の第2言語としての流暢度を算出し、訳語に対応する原語と訳語を逆翻訳した第1言語の語との第1言語としての類似度を算出し、流暢度と類似度とに基づいて算出した単語のスコアから適切な訳語を選択することで、訳文としての流暢性、および翻訳文と原文との意味の同一性の両方を満たす翻訳文を生成することができる。
(第2の実施形態)
第1の実施形態では、翻訳辞書に含まれる語を訳語候補としているが、第2の実施形態では、流暢度データベースからも訳語候補を取得する点が異なる。このようにすることで、第2言語における翻訳文の流暢性も考慮した訳語候補を選択することができ、より自然な翻訳文を生成することができる。
第2の実施形態に係る機械翻訳装置について図13のブロック図を参照して説明する。
第2の実施形態に係る機械翻訳装置1300は、取得部101、翻訳部102、訳語候補取得部1301、流暢度計算部104、逆翻訳部105、類似度計算部106、訳語選択部107、出力部108、翻訳辞書データベース109、流暢度データベース110および類似度データベース111を含む。
取得部101、翻訳部102、流暢度計算部104、逆翻訳部105、類似度計算部106、訳語選択部107、出力部108、翻訳辞書データベース109、流暢度データベース110および類似度データベース111については、第1の実施形態と同様の処理を行なうのでここでの説明を省略する。
訳語候補取得部1301は、第1の実施形態に係る訳語候補取得部103とほぼ同様の動作を行なうが、流暢度データベース110から訳語を取得し、訳語候補に追加する点が異なる。例えば、流暢度データベース110から、前出ワードおよび後出ワードに挿入される訳語のうち、流暢度が高い順に所定数を訳語候補として追加すればよい。
次に、第2の実施形態に係る訳語候補取得部1301の処理の具体例について図5および、図14から図17を参照して説明する。
訳語候補取得部1301は、翻訳辞書データベース109から取得した訳語に加えて、流暢度データベース110から訳語を流暢度が高い順に抽出する。ここでは、図3に示すテーブル300から流暢度が高い順に3つの訳語、すなわち「探して(流暢度:0.84)」、「教えて(流暢度:0.73)」および「経営して(流暢度:0.64)」を取得する。
図14は、流暢度計算部104における訳語候補の流暢度の計算結果を示す。図14に示すように、流暢度データベース110から新たに取得した3つの訳語候補についても流暢度を取得する。
図15は、逆翻訳部105における6つの訳語候補について逆翻訳した結果を示すテーブルである。
例えば、逆翻訳部105は、新たに取得した訳語候補である「探して」を逆翻訳し、逆翻訳結果として「seek」、「search」および「look for」を得る。
図16は、類似度計算部106における類似度の計算結果を示すテーブルである。
類似度は、原文における「suggest」との類似度である。なお、流暢度データベース110から取得した訳語候補の類似度は、翻訳文における流暢度に基づいて選択された語であるため、翻訳辞書から取得した訳語候補の類似度よりも小さい値となる傾向がある。
図17は、訳語選択部107における判定スコアを算出した結果である。
判定スコアは第1の実施形態と同様の手法で算出すればよい。ここでは、訳語候補801「教えて」に対応する逆翻訳結果の逆翻訳語「tell」の判定スコア「0.32」が最も高い値であるので、訳語候補801「教えて」を修正訳語として選択し、元の訳語「示唆して」を「教えて」に置き換える。
以上に示した第2の実施形態によれば、流暢度データベースから翻訳文の流暢度に基づいて新たに訳語候補を追加することで、翻訳文と原文との意味の同一性の両方を満たしつつ、より訳文としての流暢性を高めた翻訳文を生成することができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した機械翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の機械翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,1300・・・機械翻訳装置、101・・・取得部、102・・・翻訳部、103・・・訳語候補取得部、104・・・流暢度計算部、105・・・逆翻訳部、106・・・類似度計算部、107・・・訳語選択部、108・・・出力部、109・・・翻訳辞書データベース、110・・・流暢度データベース、111・・・類似度データベース、200・・・翻訳辞書、201・・・原語、201・・・原文、202・・・訳語、300,800,900,1000,1100,1200・・・テーブル、301・・・前出ワード、302・・・後出ワード、303・・・訳語、304,901・・・流暢度、801・・・訳語候補、1001・・・逆翻訳語、1101・・・類似度、1201・・・判定スコア、1301・・・訳語候補取得部。

Claims (7)

  1. 第1言語の文字列である原文を、第2言語の文字列である翻訳文に翻訳する翻訳部と、
    前記翻訳文中の第1訳語に対応する前記原文中の原語について、該原語の翻訳であって該第1訳語とは異なる1以上の第2訳語を取得し、該第1訳語および該第2訳語を訳語候補として得る訳語候補取得部と、
    前記翻訳文で前記第1訳語が挿入される位置に前記訳語候補が挿入される場合における自然な翻訳文が生成される度合いを示す流暢度を、訳語候補ごとに計算する流暢度計算部と、
    前記訳語候補の前記第1言語への逆翻訳結果である1以上の逆翻訳語を訳語候補ごとに得る逆翻訳部と、
    前記原語と前記逆翻訳語との前記第1言語での意味の類似度を、逆翻訳語ごとに計算する類似度計算部と、
    前記類似度と前記流暢度とに基づいて、前記訳語候補から前記第1訳語と置換するための修正訳語を選択する訳語選択部と、を具備することを特徴とする機械翻訳装置。
  2. 前記訳語候補取得部は、前記第2言語の語が前記翻訳文の前記第1訳語の位置に挿入される場合の流暢度が閾値以上である語を、新たな訳語候補として追加することを特徴とする請求項1に記載の機械翻訳装置。
  3. 前記流暢度計算部は、N−gram言語モデルを用いて前記流暢度を計算することを特徴とする請求項1または請求項2に記載の機械翻訳装置。
  4. 前記逆翻訳部は、前記訳語候補ごとに、該訳語候補の語を対訳として含む第1言語の単語を1以上抽出し、抽出された1以上の第1言語の単語を逆翻訳語として得ることを特徴とする請求項1から請求項3のいずれか1項に記載の機械翻訳装置。
  5. 前記逆翻訳部は、前記訳語候補を前記第1言語の単語に翻訳した翻訳結果を外部から取得し、該翻訳結果を前記逆翻訳語に追加することを特徴とする請求項1から請求項4のいずれか1項に記載の機械翻訳装置。
  6. 第1言語の文字列である原文を、第2言語の文字列である翻訳文に翻訳し、
    前記翻訳文中の第1訳語に対応する前記原文中の原語について、該原語の翻訳であって該第1訳語とは異なる1以上の第2訳語を取得し、該第1訳語および該第2訳語を訳語候補として得、
    前記翻訳文で前記第1訳語が挿入される位置に前記訳語候補が挿入される場合における自然な翻訳文が生成される度合いを示す流暢度を、訳語候補ごとに計算し、
    前記訳語候補の前記第1言語への逆翻訳結果である1以上の逆翻訳語を訳語候補ごとに得、
    前記原語と前記逆翻訳語との前記第1言語での意味の類似度を、逆翻訳語ごとに計算し、
    前記類似度と前記流暢度とに基づいて、前記訳語候補から前記第1訳語と置換するための修正訳語を選択することを特徴とする機械翻訳方法。
  7. コンピュータを、
    第1言語の文字列である原文を、第2言語の文字列である翻訳文に翻訳する翻訳部と、
    前記翻訳文中の第1訳語に対応する前記原文中の原語について、該原語の翻訳であって該第1訳語とは異なる1以上の第2訳語を取得し、該第1訳語および該第2訳語を訳語候補として得る訳語候補取得手段と、
    前記翻訳文で前記第1訳語が挿入される位置に前記訳語候補が挿入される場合における自然な翻訳文が生成される度合いを示す流暢度を、訳語候補ごとに計算する流暢度計算手段と、
    前記訳語候補の前記第1言語への逆翻訳結果である1以上の逆翻訳語を訳語候補ごとに得る逆翻訳手段と、
    前記原語と前記逆翻訳語との前記第1言語での意味の類似度を、逆翻訳語ごとに計算する類似度計算手段と、
    前記類似度と前記流暢度とに基づいて、前記訳語候補から前記第1訳語と置換するための修正訳語を選択する訳語選択手段として機能させるための機械翻訳プログラム。
JP2012225387A 2012-10-10 2012-10-10 機械翻訳装置、方法およびプログラム Abandoned JP2014078132A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012225387A JP2014078132A (ja) 2012-10-10 2012-10-10 機械翻訳装置、方法およびプログラム
US14/048,274 US9208149B2 (en) 2012-10-10 2013-10-08 Machine translation apparatus, method and program
CN201310463708.6A CN103729347A (zh) 2012-10-10 2013-10-08 机器翻译装置、方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012225387A JP2014078132A (ja) 2012-10-10 2012-10-10 機械翻訳装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2014078132A true JP2014078132A (ja) 2014-05-01

Family

ID=50433383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012225387A Abandoned JP2014078132A (ja) 2012-10-10 2012-10-10 機械翻訳装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US9208149B2 (ja)
JP (1) JP2014078132A (ja)
CN (1) CN103729347A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582502B2 (en) 2014-09-26 2017-02-28 Panasonic Intellectual Property Corporation Of America Translation method and translation system for translating input expression into expression in another language
JP2017068631A (ja) * 2015-09-30 2017-04-06 株式会社東芝 機械翻訳装置、方法及びプログラム
WO2019107625A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
CN111553174A (zh) * 2020-04-02 2020-08-18 腾讯科技(深圳)有限公司 基于人工智能的句子翻译方法、装置
KR20220006203A (ko) * 2020-07-08 2022-01-17 이은숙 번역 및 감수 효율화 기능을 제공하는 컴퓨터 프로그램

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836457B2 (en) 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
US10409919B2 (en) * 2015-09-28 2019-09-10 Konica Minolta Laboratory U.S.A., Inc. Language translation for display device
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
CN105446962B (zh) * 2015-12-30 2018-08-10 语联网(武汉)信息技术有限公司 原文和译文的对齐方法和装置
JP6655788B2 (ja) * 2016-02-01 2020-02-26 パナソニックIpマネジメント株式会社 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
CN107704456B (zh) * 2016-08-09 2023-08-29 松下知识产权经营株式会社 识别控制方法以及识别控制装置
CN107798386B (zh) * 2016-09-01 2022-02-15 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
KR102637337B1 (ko) * 2016-12-09 2024-02-16 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법
CN108932231B (zh) * 2017-05-26 2023-07-18 华为技术有限公司 机器翻译方法及装置
US10679014B2 (en) * 2017-06-08 2020-06-09 Panasonic Intellectual Property Management Co., Ltd. Method for providing translation information, non-transitory computer-readable recording medium, and translation information providing apparatus
JP7030434B2 (ja) * 2017-07-14 2022-03-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 翻訳方法、翻訳装置及び翻訳プログラム
JP2019121241A (ja) * 2018-01-09 2019-07-22 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム
US10936827B1 (en) * 2018-10-24 2021-03-02 Amazon Technologies, Inc. Machine evaluation of translation accuracy
CN113924573A (zh) * 2019-06-04 2022-01-11 松下知识产权经营株式会社 翻译装置
US11095578B2 (en) 2019-12-11 2021-08-17 International Business Machines Corporation Technology for chat bot translation
CN113705253B (zh) * 2021-02-26 2025-04-25 腾讯科技(深圳)有限公司 一种机器翻译模型性能检测方法、以及相关设备
CN113191163B (zh) * 2021-05-21 2023-06-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质
KR102653880B1 (ko) * 2022-12-19 2024-04-03 주식회사 트위그팜 번역 품질 평가 장치 및 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2892548B2 (ja) * 1992-05-25 1999-05-17 シャープ株式会社 自動翻訳装置
JP2002351872A (ja) 2001-05-22 2002-12-06 Nippon Telegr & Teleph Corp <Ntt> 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
CN1578954B (zh) * 2001-10-29 2010-04-14 英国电讯有限公司 计算机语言翻译扩展系统
KR100453227B1 (ko) * 2001-12-28 2004-10-15 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법
JP4398966B2 (ja) * 2006-09-26 2010-01-13 株式会社東芝 機械翻訳を行う装置、システム、方法およびプログラム
US8185377B2 (en) * 2007-08-11 2012-05-22 Microsoft Corporation Diagnostic evaluation of machine translators
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置
JP5100445B2 (ja) * 2008-02-28 2012-12-19 株式会社東芝 機械翻訳する装置および方法
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
WO2009149549A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
CN102549569B (zh) * 2009-10-05 2014-11-12 株式会社东芝 相似内容搜索设备和程序
KR101682207B1 (ko) * 2010-08-23 2016-12-12 에스케이플래닛 주식회사 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법
CN102043774A (zh) * 2011-01-13 2011-05-04 北京交通大学 机器翻译测评装置和方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582502B2 (en) 2014-09-26 2017-02-28 Panasonic Intellectual Property Corporation Of America Translation method and translation system for translating input expression into expression in another language
JP2017068631A (ja) * 2015-09-30 2017-04-06 株式会社東芝 機械翻訳装置、方法及びプログラム
WO2019107625A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
CN111553174A (zh) * 2020-04-02 2020-08-18 腾讯科技(深圳)有限公司 基于人工智能的句子翻译方法、装置
KR20220006203A (ko) * 2020-07-08 2022-01-17 이은숙 번역 및 감수 효율화 기능을 제공하는 컴퓨터 프로그램
KR102409001B1 (ko) * 2020-07-08 2022-06-14 이은숙 번역 및 감수 효율화 기능을 제공하는 컴퓨터 프로그램

Also Published As

Publication number Publication date
CN103729347A (zh) 2014-04-16
US20140100843A1 (en) 2014-04-10
US9208149B2 (en) 2015-12-08

Similar Documents

Publication Publication Date Title
JP2014078132A (ja) 機械翻訳装置、方法およびプログラム
Van den Bercken et al. Evaluating neural text simplification in the medical domain
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
JP6466952B2 (ja) 文章生成システム
JP6090531B2 (ja) 単語訳取得方法
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
CN107025217A (zh) 同义转换文生成方法、装置、程序以及机器翻译系统
Chen et al. Ranking medical terms to support expansion of lay language resources for patient comprehension of electronic health record notes: adapted distant supervision approach
JP2014186395A (ja) 文書作成支援装置、方法およびプログラム
Guellil et al. The role of transliteration in the process of arabizi translation/sentiment analysis
Shu et al. Word segmentation in Chinese language processing
CN103678270B (zh) 语义单元抽取方法和语义单元抽取设备
JP2017021523A (ja) 用語意味コード判定装置、方法、及びプログラム
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Krstovski et al. Bootstrapping translation detection and sentence extraction from comparable corpora
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP5194920B2 (ja) 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP7415495B2 (ja) 文書処理プログラム、文書処理装置、及び文書処理方法
Huang et al. Input method for human translators: a novel approach to integrate machine translation effectively and imperceptibly
Huang et al. A simple, straightforward and effective model for joint bilingual terms detection and word alignment in SMT
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
Flannery et al. A pointwise approach to training dependency parsers from partially annotated corpora
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
Attardi et al. Adapting linguistic tools for the analysis of italian medical records
US20240220740A1 (en) Automatic construction method for parallel corpora and information processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150911

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20160404