JP2018032324A - Parallel translation extraction apparatus, parallel translation extraction method, and program - Google Patents
Parallel translation extraction apparatus, parallel translation extraction method, and program Download PDFInfo
- Publication number
- JP2018032324A JP2018032324A JP2016165873A JP2016165873A JP2018032324A JP 2018032324 A JP2018032324 A JP 2018032324A JP 2016165873 A JP2016165873 A JP 2016165873A JP 2016165873 A JP2016165873 A JP 2016165873A JP 2018032324 A JP2018032324 A JP 2018032324A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- language
- bilingual
- translation
- parallel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成する。【解決手段】対訳文抽出装置1の対訳文取得部105は、対訳文書を構成する第1言語の文と第2言語の文を、対訳辞書を用いてマッチングして、第1言語と第2言語の1以上の対訳文を取得する。翻訳モデル生成部107は、上記1以上の対訳文に基づいて翻訳モデルを生成する。翻訳部108は、上記1以上の対訳文の各々について、生成された翻訳モデルを用いて、当該対訳文を構成する第1言語の文を第2言語に翻訳する。編集距離算出部109は、上記1以上の対訳文の各々について、第2言語に翻訳された第1言語の文と、当該文に対応する第2言語の文との間の編集距離を算出する。対訳文選別部110は、上記1以上の対訳文のうち、算出された編集距離が閾値よりも大きい対訳文を選別する。【選択図】図1A bilingual corpus having higher quality is created as compared with a case where sentence matching is performed based only on the number of matching words. A bilingual sentence acquisition unit 105 of a bilingual sentence extracting apparatus 1 matches a first language sentence and a second language sentence constituting a bilingual document by using a bilingual dictionary to match a first language and a second language. Get one or more translations of a language. The translation model generation unit 107 generates a translation model based on the one or more parallel translation sentences. For each of the one or more parallel translation sentences, the translation unit 108 translates the sentence in the first language constituting the parallel translation sentence into the second language using the generated translation model. The edit distance calculation unit 109 calculates, for each of the one or more parallel translations, an edit distance between the first language sentence translated into the second language and the second language sentence corresponding to the sentence. . The bilingual sentence selection unit 110 selects a bilingual sentence whose calculated edit distance is greater than a threshold value from the one or more bilingual sentences. [Selection] Figure 1
Description
本発明は、対訳コーパスを作成する技術に関する。 The present invention relates to a technique for creating a bilingual corpus.
近年、統計的機械翻訳やテキストマイニングに利用するため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。対訳コーパスを作成する方法としては、例えば、対訳文書を構成する一方の言語の文書を他方の言語に翻訳し、作成した翻訳文と他方の言語の文の間で単語の一致数を計ることで、文の対応付けを行う方法が知られている(非特許文献1参照)。 In recent years, the importance of creating a large quantity of high-quality parallel corpora for use in statistical machine translation and text mining has been recognized. In general, it takes a great deal of cost to create a bilingual corpus, and its efficient creation method is a technical problem. As a method of creating a bilingual corpus, for example, a document in one language constituting a bilingual document is translated into the other language, and the number of matching words between the created translated sentence and the sentence in the other language is measured. A method for associating sentences is known (see Non-Patent Document 1).
しかし、従来のコーパス作成方法では、単語の一致数のみに着目して文同士を対応付ける結果、文全体として見たときに対訳となっていない文同士を対応付けてしまう場合があった。 However, in the conventional corpus creation method, as a result of associating sentences by focusing only on the number of matching words, there is a case where sentences that are not translated are associated with each other when viewed as a whole sentence.
本発明は、このような事情に鑑みてなされたものであり、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することを目的とする。 The present invention has been made in view of such circumstances, and an object of the present invention is to create a bilingual corpus having higher quality compared to a case where sentence matching is performed based only on the number of matching words. To do.
上記の課題を解決するため、本発明は、第1言語と第2言語の対訳文書を取得する対訳文書取得部と、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得する対訳文取得部と、前記取得された1以上の対訳文に基づいて翻訳モデルを生成する翻訳モデル生成部と、前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳する翻訳部と、前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出する編集距離算出部と、前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別する対訳文選別部とを備える対訳文抽出装置を提供する。 In order to solve the above-described problems, the present invention provides a bilingual document acquisition unit that acquires bilingual documents in a first language and a second language, a sentence in the first language that constitutes the acquired bilingual document, and the second language. A parallel sentence acquisition unit that matches a sentence in a language using the bilingual dictionary of the first language and the second language and acquires one or more parallel sentences of the first language and the second language; and the acquisition A translation model generation unit that generates a translation model based on the one or more parallel translations that have been generated, and for each of the one or more acquired parallel translations, the translation model is configured using the generated translation model A translation unit that translates the sentence in the first language into the second language, and the sentence in the first language translated into the second language for each of the one or more acquired parallel translation sentences; Editing that calculates the editing distance between the corresponding sentence in the second language And a release calculator, among the obtained one or more sentence pairs, providing a bilingual sentence extraction device and a translated sentence selection unit editing the calculated distance is selected greater translated sentence than the threshold value.
また、本発明は、1以上のコンピュータにより実行される対訳文抽出方法であって、第1言語と第2言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップとを備える対訳文抽出方法を提供する。 The present invention is also a bilingual sentence extraction method executed by one or more computers, the step of obtaining a bilingual document in a first language and a second language, and the first bilingual document constituting the obtained bilingual document. Matching a sentence in a language and a sentence in the second language using a bilingual dictionary for the first language and the second language to obtain one or more parallel sentences in the first language and the second language Generating a translation model based on the acquired one or more parallel translations, and constructing the parallel translation using the generated translation model for each of the acquired one or more parallel translations Translating the sentence in the first language into the second language, and for each of the one or more acquired parallel translation sentences, the sentence in the first language translated into the second language, and the sentence Between the corresponding sentence in the second language Calculating an edit distance, among the obtained one or more sentence pairs, providing a translated sentence extraction method comprising the steps of: editing the calculated distance is selected greater translated sentence than the threshold value.
また、本発明は、コンピュータに、第1言語と第2言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップとを実行させるためのプログラムを提供する。 According to another aspect of the present invention, a computer acquires a bilingual document in a first language and a second language, a sentence in the first language and a sentence in the second language that constitute the acquired bilingual document, Matching using a bilingual dictionary of the first language and the second language to obtain one or more bilingual sentences of the first language and the second language, and based on the obtained one or more bilingual sentences Generating a translation model and, for each of the one or more acquired parallel translation sentences, using the generated translation model, the sentence of the first language constituting the parallel translation sentence is converted into the second language. Editing between the step of translating and the sentence of the first language translated into the second language and the sentence of the second language corresponding to the sentence for each of the one or more acquired parallel translation sentences Calculating a distance; and Among the one or more sentence pairs provides a program for executing a step of editing the calculated distance is selected greater translated sentence than the threshold value.
本発明によれば、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することができる。 According to the present invention, it is possible to create a bilingual corpus with higher quality compared to the case where sentence matching is performed based only on the number of matching words.
1.実施形態
1−1.構成
図1は、本実施形態に係る対訳文抽出装置1の構成の一例を示すブロック図である。対訳文抽出装置1は、CPU等の演算処理装置と、HDD等の記憶装置を備えるコンピュータである。この対訳文抽出装置1は、対訳文書記憶部101と、対訳文書取得部102と、単語分割部103と、対訳辞書記憶部104と、対訳文取得部105と、対訳文記憶部106と、翻訳モデル生成部107と、翻訳部108と、編集距離算出部109と、対訳文選別部110と、対訳文編集部111という機能を備える。これらの機能のうち、対訳文書記憶部101、対訳辞書記憶部104および対訳文記憶部106の機能は、記憶装置により実現される。その他の機能は、演算処理装置が、記憶装置に記憶されるプログラムを実行することにより実現される。
1. Embodiment 1-1. Configuration FIG. 1 is a block diagram illustrating an example of a configuration of a parallel
対訳文書記憶部101は、第1言語と第2言語の対訳文書を記憶する。ここで、第1言語は日本語であり、第2言語は英語である。対訳文書とは、日本語の文書と、当該文書を英語に翻訳して作成した英語の文書の対である。対訳文書は、例えば、同じ特許ファミリに属する日本特許出願の特許公報と米国特許出願の特許公報の対である。または、日本語の新聞記事と、当該新聞記事の英語版の対である。または、オープンソースソフトウェアの英語版のマニュアルと、当該マニュアルの日本語訳の対である。
The bilingual
対訳文書取得部102は、対訳文書記憶部101から対訳文書を取得する。
The parallel translation
単語分割部103は、対訳文書取得部102により取得された対訳文書を文に分割し、かつ、各文を単語に分割する。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。その際、活用語を基本形に変換してもよい。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。その際、語尾の解析を行って活用語を基本形に変換してもよい。また、大文字を小文字に変換し、かつ、複数形を単数形に変換してもよい。
The
対訳辞書記憶部104は、対訳辞書を記憶する。ここで、対訳辞書とは、日本語の単語と、当該単語と同じ意味を持つ英語の単語の対の集合である。
The bilingual
対訳文取得部105は、単語分割部103により切り出された日本語の文と英語の文を、対訳辞書記憶部104に記憶される対訳辞書を用いてマッチングして、日本語と英語の1以上の対訳文を取得する。具体的には、対訳文取得部105は、単語分割部103により切り出された日本語の文を英語に翻訳し、作成した翻訳文と英語の各文との類似度を算出し、算出した類似度が最大となる英語の文と上記日本語の文の対を対訳文として取得する。ここで、類似度とは、作成した翻訳文と英語の文の間で一致する単語の数に基づいて算出される値である。より具体的には、翻訳文と英語の文に含まれるすべての自立語の数に対する、両者の間で一致する自立語の数の割合により表現される値である。例えば、対訳文取得部105は、上記の非特許文献に記載の対訳コーパス作成方法のように、DP(Dynamic Programming)マッチングを用いて対訳文を取得する。別の例として、対訳文取得部105は、Takehito Utsuro, et al. "Bilingual Text Matching using Bilingual Dictionary and Statistics," COLING, p.1076-1082, 1994に記載のようにDPマッチングを用いて対訳文を取得してもよい。なおここで、対訳文とは、日本語の文と、当該文を英語に翻訳して作成した英語の文の対である。言い換えると、日本語の文と、当該文と同じ意味を持つ英語の文の対である。
The bilingual
対訳文記憶部106は、対訳文取得部105により取得された1以上の対訳文(言い換えると、対訳コーパス)を記憶する。その際、対訳文記憶部106は、各対訳文を、当該対訳文を識別する対訳文IDと対応付けて記憶する。
The parallel
翻訳モデル生成部107は、対訳文記憶部106に記憶された1以上の対訳文に基づいて翻訳モデルを生成する。その際、翻訳モデル生成部107は、例えばMosesデコーダ(http://www.statmt.org/moses/)を用いて翻訳モデルを生成する。Mosesデコーダについては、例えば、Philipp Koehn, et al. "Moses: Open Source Toolkit for Statistical Machine Translation," Annual Meeting of the Association for Computational Linguistics, demonstration session, Prague, Czech Republic, June 2007を参照のこと。
The translation
翻訳部108は、対訳文記憶部106に記憶された1以上の対訳文の各々について、翻訳モデル生成部107により生成された翻訳モデルを用いて、当該対訳文を構成する日本語の文を英語に翻訳する。翻訳部108は、作成した翻訳文を、原文である日本語の文と対応付けて対訳文記憶部106に記憶する。
For each of one or more parallel translations stored in the
編集距離算出部109は、対訳文記憶部106に記憶された1以上の対訳文の各々について、翻訳部108により英語に翻訳された日本語の文と、当該文に対応する英語の文との間の編集距離を算出する。ここで編集距離とは、英語に翻訳された日本語の文を、当該文に対応する英語の文に変更するために必要とされる編集操作の回数に基づいて算出される値である。具体的には、編集距離算出部109は、編集距離としてTER(Translation Error Rate)を算出する。ここで、編集操作とは、具体的には、挿入、削除、置換および並び替えの4つの操作である。TERについては、例えば、Matthew Snover, et al. "A study of translation edit rate with targeted human annotation," Proceedings of Association for Machine Translation in the Americas, p.223-231, 2006を参照のこと。編集距離算出部109は、TERを算出すると、算出したTERを、対応する対訳文と対応付けて対訳文記憶部106に記憶する。
The edit
対訳文選別部110は、対訳文記憶部106に記憶された1以上の対訳文のうち、編集距離算出部109により算出されたTERが閾値よりも大きい対訳文を選別する。ここで閾値は、例えば、対訳文記憶部106に記憶された1以上の対訳文のうち所定の割合の対訳文が選別されるように設定される。対訳文を選別すると、編集距離算出部109は、当該対訳文の対訳文IDを、削除対象として対訳文編集部111に通知する。
The bilingual
対訳文編集部111は、対訳文選別部110から通知された対訳文IDにより識別される対訳文を対訳文記憶部106から削除する。
The parallel
1−2.動作
対訳文抽出装置1の動作について説明する。図2は、対訳文抽出装置1により実行される対訳文抽出処理の一例を示すフロー図である。
1-2. Operation The operation of the bilingual
この対訳文抽出処理のステップS1において、対訳文抽出装置1の対訳文書取得部102は、対訳文書記憶部101から対訳文書を取得する。図3は、対訳文書の一例を示す図である。
In step S <b> 1 of the parallel translation extraction process, the parallel translation
対訳文書取得部102により対訳文書が取得されると、単語分割部103は、取得された対訳文書を文に分割し、かつ、各文を単語に分割する(ステップS2)。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。
When the bilingual document is acquired by the bilingual
単語分割部103により対訳文書が文に分割され、かつ、各文が単語に分割されると、対訳文取得部105は、単語分割部103により切り出された日本語の文と英語の文を、対訳辞書記憶部104に記憶される対訳辞書を用いてマッチングして、日本語と英語の1以上の対訳文を取得する(ステップS3)。1以上の対訳文を取得すると、対訳文取得部105は、各対訳文を対訳文IDと対応付けて対訳文記憶部106に記憶する(ステップS4)。図4は、対訳文取得部105により対訳文が記憶された対訳文記憶部106のデータの一例を示す図である。
When the bilingual document is divided into sentences by the
対訳文取得部105により1以上の対訳文が対訳文記憶部106に記憶されると、翻訳モデル生成部107は、記憶された1以上の対訳文に基づいて翻訳モデルを生成する(ステップS5)。
When one or more parallel translations are stored in the
翻訳モデル生成部107により翻訳モデルが生成されると、翻訳部108は、対訳文記憶部106に記憶された1以上の対訳文の各々について、生成された翻訳モデルを用いて、当該対訳文を構成する日本語の文を英語に翻訳する(ステップS6)。翻訳部108は、作成した翻訳文を、原文である日本語の文と対応付けて対訳文記憶部106に記憶する。図5は、翻訳部108により翻訳文が記憶された対訳文記憶部106のデータの一例を示す図である。
When the translation model is generated by the translation
翻訳部108により対訳文を構成する日本語の文が英語に翻訳されると、編集距離算出部109は、対訳文記憶部106に記憶された1以上の対訳文の各々について、英語に翻訳された日本語の文と、当該文に対応する英語の文との間のTERを算出する(ステップS7)。編集距離算出部109は、TERを算出すると、算出したTERを、対応する対訳文と対応付けて対訳文記憶部106に記憶する。図6は、編集距離算出部109によりTERが記憶された対訳文記憶部106のデータの一例を示す図である。同図に示すTERの「総合」とは、挿入、削除、置換および並び替えの各操作の回数を合計した値である。
When the Japanese sentence constituting the parallel translation is translated into English by the
編集距離算出部109によりTERが算出されると、対訳文選別部110は、対訳文記憶部106に記憶された1以上の対訳文のうち、TERが閾値よりも大きい対訳文を選別する(ステップS8)。対訳文を選別すると、編集距離算出部109は、当該対訳文の対訳文IDを、削除対象として対訳文編集部111に通知する。例えば、閾値が「5」に設定されていたとすると、対訳文選別部110は、図6に示す対訳文のうち、対訳文ID「032」を削除対象として対訳文編集部111に通知する。
When the TER is calculated by the edit
対訳文編集部111は、対訳文選別部110から対訳文IDが通知されると、当該対訳文IDにより識別される対訳文を対訳文記憶部106から削除する(ステップS9)。
以上が、対訳文抽出処理についての説明である。
When the parallel translation ID is notified from the parallel
The above is the description of the bilingual sentence extraction process.
以上説明した対訳文抽出装置1によれば、対訳文取得部105によりDPマッチングを用いて対訳文書から対訳文が取得された後に、その取得された対訳文の中から、対訳文選別部110により、TERに基づいて選別が行われる。そのため、この対訳文書記憶部101によれば、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することができる。
According to the bilingual
2.変形例
上記の実施形態は、以下に記載するように変形してもよい。以下に記載する1以上の変形例は、互いに組み合わせてもよい。
2. Modifications The above embodiments may be modified as described below. One or more modifications described below may be combined with each other.
2−1.変形例1
上記の実施形態に係る対訳文抽出装置1は、複数のコンピュータにより構成されるコンピュータシステムであってもよい。上記の実施形態に係る対訳文抽出装置1が備える記憶装置は、インターネット等の通信回線を介して対訳文抽出装置1と接続されてもよい。
2-1.
The parallel
2−2.変形例2
上記の実施形態において、第1言語を英語とし、第2言語を日本語としてもよい。また、第1言語と第2言語の組み合わせは、日本語と英語の他に、ドイツ語、フランス語、中国語、韓国語等の自然言語の中から任意に選択されてよい。
2-2. Modification 2
In the above embodiment, the first language may be English and the second language may be Japanese. The combination of the first language and the second language may be arbitrarily selected from natural languages such as German, French, Chinese, Korean, etc. in addition to Japanese and English.
2−3.変形例3
翻訳モデル生成部107は、Mosesデコーダ以外の他のデコーダを用いて翻訳モデルを生成してもよい。例えば、Pharaohデコーダを用いて翻訳モデルを生成してもよい。Pharaohデコーダについては、例えば、Philipp Koehn, "Pharaoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models," Proceedings of the 6th Conference of the Association for Machine Translation in the Americas, p.115-124, 2004を参照のこと。
2-3. Modification 3
The translation
2−4.変形例4
上記の実施形態において、翻訳モデル生成部107を省略し、翻訳部108は、予め定められた翻訳モデルを用いて、対訳文記憶部106に記憶された1以上の対訳文の各々について、当該対訳文を構成する日本語の文を英語に翻訳してもよい。
2-4. Modification 4
In the above embodiment, the translation
2−5.変形例5
上記の実施形態に係る編集距離算出部109は、編集距離として、TER以外の値を算出してもよい。例えば、Levenshtein距離や、Damerau-Levenshtein距離や、Jaro-Winkler距離を算出してもよい。
2-5. Modification 5
The edit
別の例として、編集距離算出部109は、対訳文記憶部106に記憶された1以上の対訳文の各々について、翻訳部108により英語に翻訳された日本語の文と、当該文に対応する英語の文との間のBLUEまたはRIBESを算出してもよい。BLUEについては、例えば、
Kishore Papineni, et al. "BLUE: a method for automatic evaluation of machine translation," Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, p.311-318, July 2002を参照のこと。RIBESについては、例えば、平尾努,他「RIBES: 順位相関に基づく翻訳の自動評価法」、言語処理学会 第17回年次大会発表論文集、p.1115-1118、2011年3月を参照のこと。
As another example, the edit
Kishore Papineni, et al. "BLUE: a method for automatic evaluation of machine translation," Proc. Of the 40th Annual Meeting of the Association for Computational Linguistics, p.311-318, July 2002. For RIBES, see, for example, Tsutomu Hirao, et al. “RIBES: Automatic Evaluation of Translation Based on Rank Correlation”, Proc. Of the 17th Annual Conference of the Language Processing Society, p.1115-1118, March 2011 about.
2−6.変形例6
上記の実施形態に係る対訳文選別部110は、TERが閾値よりも大きい対訳文を選別した後、選別した対訳文以外の対訳文であって対訳文記憶部106に記憶されている対訳文の対訳文IDを、削除せずに残す対訳文として対訳文編集部111に通知してもよい。この場合、対訳文編集部111は、対訳文選別部110から通知された対訳文IDにより識別される対訳文以外の対訳文を対訳文記憶部106から削除する。
2-6. Modification 6
The bilingual
2−7.変形例7
対訳文抽出装置1の各機能を実現するためのプログラムは、コンピュータ装置が読み取り可能な記録媒体を介して提供されてもよい。ここで、記録媒体とは、例えば、磁気テープや磁気ディスクなどの磁気記録媒体や、光ディスクなどの光記録媒体や、光磁気記録媒体や、半導体メモリ等である。また、このプログラムは、インターネット等のネットワークを介して提供されてもよい。
2-7.
A program for realizing each function of the bilingual
1…対訳文抽出装置、101…対訳文書記憶部、102…対訳文書取得部、103…単語分割部、104…対訳辞書記憶部、105…対訳文取得部、106…対訳文記憶部、107…翻訳モデル生成部、108…翻訳部、109…編集距離算出部、110…対訳文選別部、111…対訳文編集部
DESCRIPTION OF
Claims (3)
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得する対訳文取得部と、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成する翻訳モデル生成部と、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳する翻訳部と、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出する編集距離算出部と、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別する対訳文選別部と
を備える対訳文抽出装置。 A bilingual document acquisition unit for acquiring bilingual documents in the first language and the second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. A bilingual sentence acquisition unit for acquiring one or more bilingual sentences in two languages;
A translation model generation unit that generates a translation model based on the one or more acquired parallel translations;
For each of the obtained one or more parallel translation sentences, using the generated translation model, a translation unit that translates the sentence of the first language constituting the parallel translation sentence into the second language;
Editing that calculates an edit distance between the sentence in the first language translated into the second language and the sentence in the second language corresponding to the sentence for each of the one or more acquired parallel translations A distance calculator;
A bilingual sentence extraction device comprising: a bilingual sentence selecting unit that selects a bilingual sentence whose calculated edit distance is larger than a threshold value among the one or more acquired bilingual sentences.
第1言語と第2言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップと
を備える対訳文抽出方法。 A bilingual sentence extraction method executed by one or more computers,
Obtaining a bilingual document in a first language and a second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. Obtaining one or more parallel translations in two languages;
Generating a translation model based on the acquired one or more parallel translations;
For each of the obtained one or more parallel translation sentences, using the generated translation model, translating the sentence of the first language constituting the parallel translation sentence into the second language;
Calculating an edit distance between the sentence in the first language translated into the second language and the sentence in the second language corresponding to the sentence for each of the obtained one or more parallel translation sentences; When,
A bilingual sentence extracting method comprising: selecting a bilingual sentence whose calculated edit distance is greater than a threshold value from the one or more acquired bilingual sentences.
第1言語と第2言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップと
を実行させるためのプログラム。 On the computer,
Obtaining a bilingual document in a first language and a second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. Obtaining one or more parallel translations in two languages;
Generating a translation model based on the acquired one or more parallel translations;
For each of the obtained one or more parallel translation sentences, using the generated translation model, translating the sentence of the first language constituting the parallel translation sentence into the second language;
Calculating an edit distance between the sentence in the first language translated into the second language and the sentence in the second language corresponding to the sentence for each of the obtained one or more parallel translation sentences; When,
A program for executing the step of selecting, from among the one or more acquired parallel translations, a parallel translation in which the calculated editing distance is greater than a threshold value.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016165873A JP6678087B2 (en) | 2016-08-26 | 2016-08-26 | Bilingual sentence extraction device, bilingual sentence extraction method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016165873A JP6678087B2 (en) | 2016-08-26 | 2016-08-26 | Bilingual sentence extraction device, bilingual sentence extraction method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018032324A true JP2018032324A (en) | 2018-03-01 |
| JP6678087B2 JP6678087B2 (en) | 2020-04-08 |
Family
ID=61304534
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016165873A Active JP6678087B2 (en) | 2016-08-26 | 2016-08-26 | Bilingual sentence extraction device, bilingual sentence extraction method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6678087B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020140709A (en) * | 2019-02-26 | 2020-09-03 | 株式会社リコー | Neural machine translation model training methods, devices and storage media |
| CN113609872A (en) * | 2021-03-29 | 2021-11-05 | 智慧芽信息科技(苏州)有限公司 | Text processing method and device and model training method and device |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030110023A1 (en) * | 2001-12-07 | 2003-06-12 | Srinivas Bangalore | Systems and methods for translating languages |
| JP2005250536A (en) * | 2004-03-01 | 2005-09-15 | Advanced Telecommunication Research Institute International | Translation device |
| JP2009223525A (en) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | Sentence-word association device and sentence-word association program |
| JP2009289219A (en) * | 2008-05-30 | 2009-12-10 | Fuji Xerox Co Ltd | Translation-memory translation device and translation program |
| US20120310869A1 (en) * | 2009-07-21 | 2012-12-06 | International Business Machines Corporation | Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains |
| JP2015170168A (en) * | 2014-03-07 | 2015-09-28 | 国立研究開発法人情報通信研究機構 | Word alignment score calculation apparatus, word alignment device, and computer program |
-
2016
- 2016-08-26 JP JP2016165873A patent/JP6678087B2/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030110023A1 (en) * | 2001-12-07 | 2003-06-12 | Srinivas Bangalore | Systems and methods for translating languages |
| JP2005250536A (en) * | 2004-03-01 | 2005-09-15 | Advanced Telecommunication Research Institute International | Translation device |
| JP2009223525A (en) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | Sentence-word association device and sentence-word association program |
| JP2009289219A (en) * | 2008-05-30 | 2009-12-10 | Fuji Xerox Co Ltd | Translation-memory translation device and translation program |
| US20120310869A1 (en) * | 2009-07-21 | 2012-12-06 | International Business Machines Corporation | Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains |
| JP2015170168A (en) * | 2014-03-07 | 2015-09-28 | 国立研究開発法人情報通信研究機構 | Word alignment score calculation apparatus, word alignment device, and computer program |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020140709A (en) * | 2019-02-26 | 2020-09-03 | 株式会社リコー | Neural machine translation model training methods, devices and storage media |
| CN113609872A (en) * | 2021-03-29 | 2021-11-05 | 智慧芽信息科技(苏州)有限公司 | Text processing method and device and model training method and device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6678087B2 (en) | 2020-04-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5112116B2 (en) | Machine translation apparatus, method and program | |
| CN103189860B (en) | Machine translation device and machine translation method combining syntax conversion model and vocabulary conversion model | |
| Okpor | Machine translation approaches: issues and challenges | |
| CN105975558B (en) | Establish method, the automatic edit methods of sentence and the corresponding intrument of statement editing model | |
| Qun et al. | Machine translation: general | |
| CN101714136B (en) | Method and apparatus for adapting corpus-based machine translation systems to new domains | |
| Lohar et al. | A systematic comparison between SMT and NMT on translating user-generated content | |
| JP6678087B2 (en) | Bilingual sentence extraction device, bilingual sentence extraction method and program | |
| Freitag et al. | Eu-bridge mt: Combined machine translation | |
| Tambouratzis et al. | Language-independent hybrid MT with PRESEMT | |
| JP2018072979A (en) | Parallel-sentence extraction apparatus, parallel-sentence extraction method, and program | |
| JP2020166501A (en) | Split model generation system, text segmentation device and split model generation method | |
| JP2018055328A (en) | Parallel translation sentence extracting device, parallel translation sentence extracting method and program | |
| Wang et al. | Synslator: An Interactive Machine Translation Tool with Online Learning | |
| Dandapat et al. | Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting | |
| Pinnis et al. | Developing a neural machine translation service for the 2017-2018 european union presidency | |
| CN107423293A (en) | The method and apparatus of data translation | |
| Ma et al. | Opening machine translation black box for cross-language information retrieval | |
| Quernheim et al. | Large-scale exact decoding: The ims-ttt submission to wmt14 | |
| Diab et al. | Towards Guided Back-translation for Low-resource languages-A Case Study on Kabyle-French | |
| JP5909123B2 (en) | Machine translation apparatus, machine translation method and program | |
| Lalrempuii et al. | Investigation of Data Augmentation Techniques for Assamese-English Language Pair Machine Translation | |
| Kharate et al. | Survey of Machine Translation for Indian Languages to English and Its Approaches | |
| El-Shishtawy et al. | The best templates match technique for example based machine translation | |
| JP3921543B2 (en) | Machine translation device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190701 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200129 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200225 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200316 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6678087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |