[go: up one dir, main page]

JP2018032324A - Parallel translation extraction apparatus, parallel translation extraction method, and program - Google Patents

Parallel translation extraction apparatus, parallel translation extraction method, and program Download PDF

Info

Publication number
JP2018032324A
JP2018032324A JP2016165873A JP2016165873A JP2018032324A JP 2018032324 A JP2018032324 A JP 2018032324A JP 2016165873 A JP2016165873 A JP 2016165873A JP 2016165873 A JP2016165873 A JP 2016165873A JP 2018032324 A JP2018032324 A JP 2018032324A
Authority
JP
Japan
Prior art keywords
sentence
language
bilingual
translation
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016165873A
Other languages
Japanese (ja)
Other versions
JP6678087B2 (en
Inventor
松永 務
Tsutomu Matsunaga
務 松永
佐藤 大輔
Daisuke Sato
大輔 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2016165873A priority Critical patent/JP6678087B2/en
Publication of JP2018032324A publication Critical patent/JP2018032324A/en
Application granted granted Critical
Publication of JP6678087B2 publication Critical patent/JP6678087B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成する。【解決手段】対訳文抽出装置1の対訳文取得部105は、対訳文書を構成する第1言語の文と第2言語の文を、対訳辞書を用いてマッチングして、第1言語と第2言語の1以上の対訳文を取得する。翻訳モデル生成部107は、上記1以上の対訳文に基づいて翻訳モデルを生成する。翻訳部108は、上記1以上の対訳文の各々について、生成された翻訳モデルを用いて、当該対訳文を構成する第1言語の文を第2言語に翻訳する。編集距離算出部109は、上記1以上の対訳文の各々について、第2言語に翻訳された第1言語の文と、当該文に対応する第2言語の文との間の編集距離を算出する。対訳文選別部110は、上記1以上の対訳文のうち、算出された編集距離が閾値よりも大きい対訳文を選別する。【選択図】図1A bilingual corpus having higher quality is created as compared with a case where sentence matching is performed based only on the number of matching words. A bilingual sentence acquisition unit 105 of a bilingual sentence extracting apparatus 1 matches a first language sentence and a second language sentence constituting a bilingual document by using a bilingual dictionary to match a first language and a second language. Get one or more translations of a language. The translation model generation unit 107 generates a translation model based on the one or more parallel translation sentences. For each of the one or more parallel translation sentences, the translation unit 108 translates the sentence in the first language constituting the parallel translation sentence into the second language using the generated translation model. The edit distance calculation unit 109 calculates, for each of the one or more parallel translations, an edit distance between the first language sentence translated into the second language and the second language sentence corresponding to the sentence. . The bilingual sentence selection unit 110 selects a bilingual sentence whose calculated edit distance is greater than a threshold value from the one or more bilingual sentences. [Selection] Figure 1

Description

本発明は、対訳コーパスを作成する技術に関する。   The present invention relates to a technique for creating a bilingual corpus.

近年、統計的機械翻訳やテキストマイニングに利用するため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。対訳コーパスを作成する方法としては、例えば、対訳文書を構成する一方の言語の文書を他方の言語に翻訳し、作成した翻訳文と他方の言語の文の間で単語の一致数を計ることで、文の対応付けを行う方法が知られている(非特許文献1参照)。   In recent years, the importance of creating a large quantity of high-quality parallel corpora for use in statistical machine translation and text mining has been recognized. In general, it takes a great deal of cost to create a bilingual corpus, and its efficient creation method is a technical problem. As a method of creating a bilingual corpus, for example, a document in one language constituting a bilingual document is translated into the other language, and the number of matching words between the created translated sentence and the sentence in the other language is measured. A method for associating sentences is known (see Non-Patent Document 1).

石坂達也、内山将夫、隅田英一郎、山本和英、「大規模オープンソース日英対訳コーパスの構築」、情報処理学会研究報告、2009-NL-191、p.1-6、2009年5月Tatsuya Ishizaka, Masao Uchiyama, Eiichiro Sumida, Kazuhide Yamamoto, "Construction of a large-scale open source Japanese-English bilingual corpus", Information Processing Society of Japan, 2009-NL-191, p.1-6, May 2009

しかし、従来のコーパス作成方法では、単語の一致数のみに着目して文同士を対応付ける結果、文全体として見たときに対訳となっていない文同士を対応付けてしまう場合があった。   However, in the conventional corpus creation method, as a result of associating sentences by focusing only on the number of matching words, there is a case where sentences that are not translated are associated with each other when viewed as a whole sentence.

本発明は、このような事情に鑑みてなされたものであり、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することを目的とする。   The present invention has been made in view of such circumstances, and an object of the present invention is to create a bilingual corpus having higher quality compared to a case where sentence matching is performed based only on the number of matching words. To do.

上記の課題を解決するため、本発明は、第1言語と第2言語の対訳文書を取得する対訳文書取得部と、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得する対訳文取得部と、前記取得された1以上の対訳文に基づいて翻訳モデルを生成する翻訳モデル生成部と、前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳する翻訳部と、前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出する編集距離算出部と、前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別する対訳文選別部とを備える対訳文抽出装置を提供する。   In order to solve the above-described problems, the present invention provides a bilingual document acquisition unit that acquires bilingual documents in a first language and a second language, a sentence in the first language that constitutes the acquired bilingual document, and the second language. A parallel sentence acquisition unit that matches a sentence in a language using the bilingual dictionary of the first language and the second language and acquires one or more parallel sentences of the first language and the second language; and the acquisition A translation model generation unit that generates a translation model based on the one or more parallel translations that have been generated, and for each of the one or more acquired parallel translations, the translation model is configured using the generated translation model A translation unit that translates the sentence in the first language into the second language, and the sentence in the first language translated into the second language for each of the one or more acquired parallel translation sentences; Editing that calculates the editing distance between the corresponding sentence in the second language And a release calculator, among the obtained one or more sentence pairs, providing a bilingual sentence extraction device and a translated sentence selection unit editing the calculated distance is selected greater translated sentence than the threshold value.

また、本発明は、1以上のコンピュータにより実行される対訳文抽出方法であって、第1言語と第2言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップとを備える対訳文抽出方法を提供する。   The present invention is also a bilingual sentence extraction method executed by one or more computers, the step of obtaining a bilingual document in a first language and a second language, and the first bilingual document constituting the obtained bilingual document. Matching a sentence in a language and a sentence in the second language using a bilingual dictionary for the first language and the second language to obtain one or more parallel sentences in the first language and the second language Generating a translation model based on the acquired one or more parallel translations, and constructing the parallel translation using the generated translation model for each of the acquired one or more parallel translations Translating the sentence in the first language into the second language, and for each of the one or more acquired parallel translation sentences, the sentence in the first language translated into the second language, and the sentence Between the corresponding sentence in the second language Calculating an edit distance, among the obtained one or more sentence pairs, providing a translated sentence extraction method comprising the steps of: editing the calculated distance is selected greater translated sentence than the threshold value.

また、本発明は、コンピュータに、第1言語と第2言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップとを実行させるためのプログラムを提供する。   According to another aspect of the present invention, a computer acquires a bilingual document in a first language and a second language, a sentence in the first language and a sentence in the second language that constitute the acquired bilingual document, Matching using a bilingual dictionary of the first language and the second language to obtain one or more bilingual sentences of the first language and the second language, and based on the obtained one or more bilingual sentences Generating a translation model and, for each of the one or more acquired parallel translation sentences, using the generated translation model, the sentence of the first language constituting the parallel translation sentence is converted into the second language. Editing between the step of translating and the sentence of the first language translated into the second language and the sentence of the second language corresponding to the sentence for each of the one or more acquired parallel translation sentences Calculating a distance; and Among the one or more sentence pairs provides a program for executing a step of editing the calculated distance is selected greater translated sentence than the threshold value.

本発明によれば、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することができる。   According to the present invention, it is possible to create a bilingual corpus with higher quality compared to the case where sentence matching is performed based only on the number of matching words.

対訳文抽出装置1の構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the bilingual sentence extraction apparatus. 対訳文抽出処理の一例を示すフロー図である。It is a flowchart which shows an example of a bilingual sentence extraction process. 対訳文書の一例を示す図である。It is a figure which shows an example of a bilingual document. 対訳文記憶部106のデータの一例を示す図である。It is a figure which shows an example of the data of the parallel translation memory | storage part. 対訳文記憶部106のデータの一例を示す図である。It is a figure which shows an example of the data of the parallel translation memory | storage part. 対訳文記憶部106のデータの一例を示す図である。It is a figure which shows an example of the data of the parallel translation memory | storage part.

1.実施形態
1−1.構成
図1は、本実施形態に係る対訳文抽出装置1の構成の一例を示すブロック図である。対訳文抽出装置1は、CPU等の演算処理装置と、HDD等の記憶装置を備えるコンピュータである。この対訳文抽出装置1は、対訳文書記憶部101と、対訳文書取得部102と、単語分割部103と、対訳辞書記憶部104と、対訳文取得部105と、対訳文記憶部106と、翻訳モデル生成部107と、翻訳部108と、編集距離算出部109と、対訳文選別部110と、対訳文編集部111という機能を備える。これらの機能のうち、対訳文書記憶部101、対訳辞書記憶部104および対訳文記憶部106の機能は、記憶装置により実現される。その他の機能は、演算処理装置が、記憶装置に記憶されるプログラムを実行することにより実現される。
1. Embodiment 1-1. Configuration FIG. 1 is a block diagram illustrating an example of a configuration of a parallel translation extraction apparatus 1 according to the present embodiment. The bilingual sentence extraction device 1 is a computer including an arithmetic processing device such as a CPU and a storage device such as an HDD. The bilingual sentence extraction apparatus 1 includes a bilingual document storage unit 101, a bilingual document acquisition unit 102, a word division unit 103, a bilingual dictionary storage unit 104, a bilingual sentence acquisition unit 105, a bilingual sentence storage unit 106, a translation The model generation unit 107, the translation unit 108, the edit distance calculation unit 109, the bilingual sentence selection unit 110, and the bilingual sentence editing unit 111 are provided. Among these functions, the functions of the bilingual document storage unit 101, the bilingual dictionary storage unit 104, and the bilingual sentence storage unit 106 are realized by a storage device. Other functions are realized by the arithmetic processing device executing a program stored in the storage device.

対訳文書記憶部101は、第1言語と第2言語の対訳文書を記憶する。ここで、第1言語は日本語であり、第2言語は英語である。対訳文書とは、日本語の文書と、当該文書を英語に翻訳して作成した英語の文書の対である。対訳文書は、例えば、同じ特許ファミリに属する日本特許出願の特許公報と米国特許出願の特許公報の対である。または、日本語の新聞記事と、当該新聞記事の英語版の対である。または、オープンソースソフトウェアの英語版のマニュアルと、当該マニュアルの日本語訳の対である。   The bilingual document storage unit 101 stores bilingual documents in the first language and the second language. Here, the first language is Japanese and the second language is English. A bilingual document is a pair of a Japanese document and an English document created by translating the document into English. The bilingual document is, for example, a pair of a Japanese patent application patent publication and a US patent application patent publication belonging to the same patent family. Or it is a pair of a Japanese newspaper article and an English version of the newspaper article. Alternatively, it is a pair of an English manual of open source software and a Japanese translation of the manual.

対訳文書取得部102は、対訳文書記憶部101から対訳文書を取得する。   The parallel translation document acquisition unit 102 acquires a parallel translation document from the parallel translation document storage unit 101.

単語分割部103は、対訳文書取得部102により取得された対訳文書を文に分割し、かつ、各文を単語に分割する。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。その際、活用語を基本形に変換してもよい。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。その際、語尾の解析を行って活用語を基本形に変換してもよい。また、大文字を小文字に変換し、かつ、複数形を単数形に変換してもよい。   The word division unit 103 divides the bilingual document acquired by the bilingual document acquisition unit 102 into sentences and divides each sentence into words. For Japanese documents, morphological analysis is performed to divide the sentence into sentences with clues as clues, and each sentence into words. At that time, the utilization word may be converted into a basic form. For an English document, it is divided into sentences using a period as a clue, and each sentence is divided into words using a space as a clue. At that time, the ending word may be analyzed to convert the utilization word into a basic form. Further, upper case letters may be converted to lower case letters, and plural forms may be converted to singular forms.

対訳辞書記憶部104は、対訳辞書を記憶する。ここで、対訳辞書とは、日本語の単語と、当該単語と同じ意味を持つ英語の単語の対の集合である。   The bilingual dictionary storage unit 104 stores a bilingual dictionary. Here, the bilingual dictionary is a set of pairs of Japanese words and English words having the same meaning as the words.

対訳文取得部105は、単語分割部103により切り出された日本語の文と英語の文を、対訳辞書記憶部104に記憶される対訳辞書を用いてマッチングして、日本語と英語の1以上の対訳文を取得する。具体的には、対訳文取得部105は、単語分割部103により切り出された日本語の文を英語に翻訳し、作成した翻訳文と英語の各文との類似度を算出し、算出した類似度が最大となる英語の文と上記日本語の文の対を対訳文として取得する。ここで、類似度とは、作成した翻訳文と英語の文の間で一致する単語の数に基づいて算出される値である。より具体的には、翻訳文と英語の文に含まれるすべての自立語の数に対する、両者の間で一致する自立語の数の割合により表現される値である。例えば、対訳文取得部105は、上記の非特許文献に記載の対訳コーパス作成方法のように、DP(Dynamic Programming)マッチングを用いて対訳文を取得する。別の例として、対訳文取得部105は、Takehito Utsuro, et al. "Bilingual Text Matching using Bilingual Dictionary and Statistics," COLING, p.1076-1082, 1994に記載のようにDPマッチングを用いて対訳文を取得してもよい。なおここで、対訳文とは、日本語の文と、当該文を英語に翻訳して作成した英語の文の対である。言い換えると、日本語の文と、当該文と同じ意味を持つ英語の文の対である。   The bilingual sentence acquisition unit 105 matches the Japanese sentence and the English sentence cut out by the word dividing unit 103 using a bilingual dictionary stored in the bilingual dictionary storage unit 104, and thereby obtains one or more of Japanese and English Get the translation of Specifically, the bilingual sentence acquisition unit 105 translates the Japanese sentence cut out by the word dividing unit 103 into English, calculates the similarity between the created translated sentence and each English sentence, and calculates the similarity The pair of the English sentence with the maximum degree and the above Japanese sentence is acquired as a parallel translation. Here, the similarity is a value calculated based on the number of words that match between the created translated sentence and the English sentence. More specifically, it is a value expressed by the ratio of the number of independent words that match between the numbers of all independent words included in the translated sentence and the English sentence. For example, the bilingual sentence acquisition unit 105 acquires bilingual sentences using DP (Dynamic Programming) matching as in the bilingual corpus creation method described in the above non-patent document. As another example, the bilingual sentence acquisition unit 105 uses the DP matching as described in Takehito Utsuro, et al. “Bilingual Text Matching using Bilingual Dictionary and Statistics,” COLING, p.1076-1082, 1994. May be obtained. Here, the bilingual sentence is a pair of a Japanese sentence and an English sentence created by translating the sentence into English. In other words, it is a pair of a Japanese sentence and an English sentence having the same meaning as the sentence.

対訳文記憶部106は、対訳文取得部105により取得された1以上の対訳文(言い換えると、対訳コーパス)を記憶する。その際、対訳文記憶部106は、各対訳文を、当該対訳文を識別する対訳文IDと対応付けて記憶する。   The parallel translation storage unit 106 stores one or more parallel translations (in other words, parallel corpus) acquired by the parallel translation acquisition unit 105. At that time, the parallel translation storage unit 106 stores each parallel translation in association with a parallel translation ID that identifies the parallel translation.

翻訳モデル生成部107は、対訳文記憶部106に記憶された1以上の対訳文に基づいて翻訳モデルを生成する。その際、翻訳モデル生成部107は、例えばMosesデコーダ(http://www.statmt.org/moses/)を用いて翻訳モデルを生成する。Mosesデコーダについては、例えば、Philipp Koehn, et al. "Moses: Open Source Toolkit for Statistical Machine Translation," Annual Meeting of the Association for Computational Linguistics, demonstration session, Prague, Czech Republic, June 2007を参照のこと。   The translation model generation unit 107 generates a translation model based on one or more parallel translations stored in the parallel translation storage unit 106. At that time, the translation model generation unit 107 generates a translation model using, for example, a Moses decoder (http://www.statmt.org/moses/). See, for example, Philipp Koehn, et al. “Moses: Open Source Toolkit for Statistical Machine Translation,” Annual Meeting of the Association for Computational Linguistics, demonstration session, Prague, Czech Republic, June 2007.

翻訳部108は、対訳文記憶部106に記憶された1以上の対訳文の各々について、翻訳モデル生成部107により生成された翻訳モデルを用いて、当該対訳文を構成する日本語の文を英語に翻訳する。翻訳部108は、作成した翻訳文を、原文である日本語の文と対応付けて対訳文記憶部106に記憶する。   For each of one or more parallel translations stored in the parallel translation storage 106, the translation unit 108 uses the translation model generated by the translation model generation unit 107 to convert the Japanese sentences constituting the parallel translation into English. Translate to The translation unit 108 stores the created translated sentence in the parallel sentence storage unit 106 in association with the original Japanese sentence.

編集距離算出部109は、対訳文記憶部106に記憶された1以上の対訳文の各々について、翻訳部108により英語に翻訳された日本語の文と、当該文に対応する英語の文との間の編集距離を算出する。ここで編集距離とは、英語に翻訳された日本語の文を、当該文に対応する英語の文に変更するために必要とされる編集操作の回数に基づいて算出される値である。具体的には、編集距離算出部109は、編集距離としてTER(Translation Error Rate)を算出する。ここで、編集操作とは、具体的には、挿入、削除、置換および並び替えの4つの操作である。TERについては、例えば、Matthew Snover, et al. "A study of translation edit rate with targeted human annotation," Proceedings of Association for Machine Translation in the Americas, p.223-231, 2006を参照のこと。編集距離算出部109は、TERを算出すると、算出したTERを、対応する対訳文と対応付けて対訳文記憶部106に記憶する。   The edit distance calculation unit 109 calculates, for each of one or more parallel translations stored in the parallel translation storage 106, a Japanese sentence translated into English by the translation part 108 and an English sentence corresponding to the sentence. The edit distance between them is calculated. Here, the editing distance is a value calculated based on the number of editing operations required to change a Japanese sentence translated into English into an English sentence corresponding to the sentence. Specifically, the edit distance calculation unit 109 calculates TER (Translation Error Rate) as the edit distance. Here, the editing operation is specifically four operations of insertion, deletion, replacement, and rearrangement. See, for example, Matthew Snover, et al. “A study of translation edit rate with targeted human annotation,” Proceedings of Association for Machine Translation in the Americas, p. 223-231, 2006. After calculating the TER, the edit distance calculation unit 109 stores the calculated TER in the bilingual sentence storage unit 106 in association with the corresponding bilingual sentence.

対訳文選別部110は、対訳文記憶部106に記憶された1以上の対訳文のうち、編集距離算出部109により算出されたTERが閾値よりも大きい対訳文を選別する。ここで閾値は、例えば、対訳文記憶部106に記憶された1以上の対訳文のうち所定の割合の対訳文が選別されるように設定される。対訳文を選別すると、編集距離算出部109は、当該対訳文の対訳文IDを、削除対象として対訳文編集部111に通知する。   The bilingual sentence selection unit 110 selects a bilingual sentence whose TER calculated by the edit distance calculation unit 109 is larger than a threshold value from among one or more bilingual sentences stored in the bilingual sentence storage unit 106. Here, the threshold value is set so that, for example, a predetermined percentage of parallel translation sentences are selected from one or more parallel translation sentences stored in the parallel translation storage section 106. When the parallel translation is selected, the edit distance calculation unit 109 notifies the parallel translation editing unit 111 of the parallel translation ID of the parallel translation as a deletion target.

対訳文編集部111は、対訳文選別部110から通知された対訳文IDにより識別される対訳文を対訳文記憶部106から削除する。   The parallel translation editing unit 111 deletes the parallel translation identified by the parallel translation ID notified from the parallel translation selection unit 110 from the parallel translation storage unit 106.

1−2.動作
対訳文抽出装置1の動作について説明する。図2は、対訳文抽出装置1により実行される対訳文抽出処理の一例を示すフロー図である。
1-2. Operation The operation of the bilingual sentence extraction device 1 will be described. FIG. 2 is a flowchart showing an example of the bilingual sentence extraction process executed by the bilingual sentence extracting apparatus 1.

この対訳文抽出処理のステップS1において、対訳文抽出装置1の対訳文書取得部102は、対訳文書記憶部101から対訳文書を取得する。図3は、対訳文書の一例を示す図である。   In step S <b> 1 of the parallel translation extraction process, the parallel translation document acquisition unit 102 of the parallel translation extraction apparatus 1 acquires a parallel translation document from the parallel translation document storage unit 101. FIG. 3 is a diagram illustrating an example of a bilingual document.

対訳文書取得部102により対訳文書が取得されると、単語分割部103は、取得された対訳文書を文に分割し、かつ、各文を単語に分割する(ステップS2)。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。   When the bilingual document is acquired by the bilingual document acquisition unit 102, the word dividing unit 103 divides the acquired bilingual document into sentences and divides each sentence into words (step S2). For Japanese documents, morphological analysis is performed to divide the sentence into sentences with clues as clues, and each sentence into words. For an English document, it is divided into sentences using a period as a clue, and each sentence is divided into words using a space as a clue.

単語分割部103により対訳文書が文に分割され、かつ、各文が単語に分割されると、対訳文取得部105は、単語分割部103により切り出された日本語の文と英語の文を、対訳辞書記憶部104に記憶される対訳辞書を用いてマッチングして、日本語と英語の1以上の対訳文を取得する(ステップS3)。1以上の対訳文を取得すると、対訳文取得部105は、各対訳文を対訳文IDと対応付けて対訳文記憶部106に記憶する(ステップS4)。図4は、対訳文取得部105により対訳文が記憶された対訳文記憶部106のデータの一例を示す図である。   When the bilingual document is divided into sentences by the word dividing unit 103 and each sentence is divided into words, the bilingual sentence obtaining unit 105 divides the Japanese sentence and the English sentence cut out by the word dividing unit 103, Matching is performed using the bilingual dictionary stored in the bilingual dictionary storage unit 104 to obtain one or more bilingual sentences in Japanese and English (step S3). When acquiring one or more parallel translations, the parallel translation acquisition unit 105 stores each parallel translation in association with the parallel translation ID in the parallel translation storage unit 106 (step S4). FIG. 4 is a diagram illustrating an example of data in the parallel translation storage unit 106 in which the parallel translation is stored by the parallel translation acquisition unit 105.

対訳文取得部105により1以上の対訳文が対訳文記憶部106に記憶されると、翻訳モデル生成部107は、記憶された1以上の対訳文に基づいて翻訳モデルを生成する(ステップS5)。   When one or more parallel translations are stored in the parallel translation storage 106 by the parallel translation acquisition unit 105, the translation model generation unit 107 generates a translation model based on the one or more stored parallel translations (step S5). .

翻訳モデル生成部107により翻訳モデルが生成されると、翻訳部108は、対訳文記憶部106に記憶された1以上の対訳文の各々について、生成された翻訳モデルを用いて、当該対訳文を構成する日本語の文を英語に翻訳する(ステップS6)。翻訳部108は、作成した翻訳文を、原文である日本語の文と対応付けて対訳文記憶部106に記憶する。図5は、翻訳部108により翻訳文が記憶された対訳文記憶部106のデータの一例を示す図である。   When the translation model is generated by the translation model generation unit 107, the translation unit 108 uses the generated translation model for each of the one or more parallel translations stored in the parallel translation storage unit 106. The constituent Japanese sentence is translated into English (step S6). The translation unit 108 stores the created translated sentence in the parallel sentence storage unit 106 in association with the original Japanese sentence. FIG. 5 is a diagram illustrating an example of data in the parallel translation storage unit 106 in which the translation is stored by the translation unit 108.

翻訳部108により対訳文を構成する日本語の文が英語に翻訳されると、編集距離算出部109は、対訳文記憶部106に記憶された1以上の対訳文の各々について、英語に翻訳された日本語の文と、当該文に対応する英語の文との間のTERを算出する(ステップS7)。編集距離算出部109は、TERを算出すると、算出したTERを、対応する対訳文と対応付けて対訳文記憶部106に記憶する。図6は、編集距離算出部109によりTERが記憶された対訳文記憶部106のデータの一例を示す図である。同図に示すTERの「総合」とは、挿入、削除、置換および並び替えの各操作の回数を合計した値である。   When the Japanese sentence constituting the parallel translation is translated into English by the translation unit 108, the edit distance calculation unit 109 translates each of the one or more parallel translations stored in the parallel translation storage unit 106 into English. The TER between the Japanese sentence and the English sentence corresponding to the sentence is calculated (step S7). After calculating the TER, the edit distance calculation unit 109 stores the calculated TER in the bilingual sentence storage unit 106 in association with the corresponding bilingual sentence. FIG. 6 is a diagram illustrating an example of data in the parallel translation storage unit 106 in which the TER is stored by the edit distance calculation unit 109. The “total” of TER shown in the figure is a value obtained by summing the number of operations of insertion, deletion, replacement, and rearrangement.

編集距離算出部109によりTERが算出されると、対訳文選別部110は、対訳文記憶部106に記憶された1以上の対訳文のうち、TERが閾値よりも大きい対訳文を選別する(ステップS8)。対訳文を選別すると、編集距離算出部109は、当該対訳文の対訳文IDを、削除対象として対訳文編集部111に通知する。例えば、閾値が「5」に設定されていたとすると、対訳文選別部110は、図6に示す対訳文のうち、対訳文ID「032」を削除対象として対訳文編集部111に通知する。   When the TER is calculated by the edit distance calculation unit 109, the bilingual sentence selection unit 110 selects a bilingual sentence having a TER larger than a threshold value from one or more parallel translations stored in the bilingual sentence storage unit 106 (Step S1). S8). When the parallel translation is selected, the edit distance calculation unit 109 notifies the parallel translation editing unit 111 of the parallel translation ID of the parallel translation as a deletion target. For example, if the threshold is set to “5”, the parallel translation selection unit 110 notifies the parallel translation editing unit 111 of the parallel translation ID “032” among the parallel translations shown in FIG.

対訳文編集部111は、対訳文選別部110から対訳文IDが通知されると、当該対訳文IDにより識別される対訳文を対訳文記憶部106から削除する(ステップS9)。
以上が、対訳文抽出処理についての説明である。
When the parallel translation ID is notified from the parallel translation selection unit 110, the parallel translation editing unit 111 deletes the parallel translation identified by the parallel translation ID from the parallel translation storage 106 (step S9).
The above is the description of the bilingual sentence extraction process.

以上説明した対訳文抽出装置1によれば、対訳文取得部105によりDPマッチングを用いて対訳文書から対訳文が取得された後に、その取得された対訳文の中から、対訳文選別部110により、TERに基づいて選別が行われる。そのため、この対訳文書記憶部101によれば、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成することができる。   According to the bilingual sentence extraction apparatus 1 described above, after the bilingual sentence is acquired from the bilingual document by the bilingual sentence acquiring unit 105 using DP matching, the bilingual sentence selecting unit 110 selects the bilingual sentence from the acquired bilingual sentences. , Sorting is performed based on TER. Therefore, according to this bilingual document storage unit 101, it is possible to create a bilingual corpus having higher quality compared to a case where sentence matching is performed based only on the number of matching words.

2.変形例
上記の実施形態は、以下に記載するように変形してもよい。以下に記載する1以上の変形例は、互いに組み合わせてもよい。
2. Modifications The above embodiments may be modified as described below. One or more modifications described below may be combined with each other.

2−1.変形例1
上記の実施形態に係る対訳文抽出装置1は、複数のコンピュータにより構成されるコンピュータシステムであってもよい。上記の実施形態に係る対訳文抽出装置1が備える記憶装置は、インターネット等の通信回線を介して対訳文抽出装置1と接続されてもよい。
2-1. Modification 1
The parallel translation extraction apparatus 1 according to the above embodiment may be a computer system including a plurality of computers. The storage device included in the bilingual sentence extraction device 1 according to the above embodiment may be connected to the bilingual sentence extraction device 1 via a communication line such as the Internet.

2−2.変形例2
上記の実施形態において、第1言語を英語とし、第2言語を日本語としてもよい。また、第1言語と第2言語の組み合わせは、日本語と英語の他に、ドイツ語、フランス語、中国語、韓国語等の自然言語の中から任意に選択されてよい。
2-2. Modification 2
In the above embodiment, the first language may be English and the second language may be Japanese. The combination of the first language and the second language may be arbitrarily selected from natural languages such as German, French, Chinese, Korean, etc. in addition to Japanese and English.

2−3.変形例3
翻訳モデル生成部107は、Mosesデコーダ以外の他のデコーダを用いて翻訳モデルを生成してもよい。例えば、Pharaohデコーダを用いて翻訳モデルを生成してもよい。Pharaohデコーダについては、例えば、Philipp Koehn, "Pharaoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models," Proceedings of the 6th Conference of the Association for Machine Translation in the Americas, p.115-124, 2004を参照のこと。
2-3. Modification 3
The translation model generation unit 107 may generate a translation model using a decoder other than the Moses decoder. For example, a translation model may be generated using a Pharaoh decoder. For Pharaoh decoders, see, for example, Philipp Koehn, "Pharaoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models," Proceedings of the 6th Conference of the Association for Machine Translation in the Americas, p. 115-124, 2004. See

2−4.変形例4
上記の実施形態において、翻訳モデル生成部107を省略し、翻訳部108は、予め定められた翻訳モデルを用いて、対訳文記憶部106に記憶された1以上の対訳文の各々について、当該対訳文を構成する日本語の文を英語に翻訳してもよい。
2-4. Modification 4
In the above embodiment, the translation model generation unit 107 is omitted, and the translation unit 108 uses the predetermined translation model for each of the one or more parallel translations stored in the parallel translation storage unit 106. Japanese sentences constituting the sentence may be translated into English.

2−5.変形例5
上記の実施形態に係る編集距離算出部109は、編集距離として、TER以外の値を算出してもよい。例えば、Levenshtein距離や、Damerau-Levenshtein距離や、Jaro-Winkler距離を算出してもよい。
2-5. Modification 5
The edit distance calculation unit 109 according to the above embodiment may calculate a value other than TER as the edit distance. For example, a Levenshtein distance, a Damerau-Levenshtein distance, or a Jaro-Winkler distance may be calculated.

別の例として、編集距離算出部109は、対訳文記憶部106に記憶された1以上の対訳文の各々について、翻訳部108により英語に翻訳された日本語の文と、当該文に対応する英語の文との間のBLUEまたはRIBESを算出してもよい。BLUEについては、例えば、
Kishore Papineni, et al. "BLUE: a method for automatic evaluation of machine translation," Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, p.311-318, July 2002を参照のこと。RIBESについては、例えば、平尾努,他「RIBES: 順位相関に基づく翻訳の自動評価法」、言語処理学会 第17回年次大会発表論文集、p.1115-1118、2011年3月を参照のこと。
As another example, the edit distance calculation unit 109 corresponds to each of one or more parallel translations stored in the parallel translation storage unit 106 and a Japanese sentence translated into English by the translation unit 108. BLUE or RIBES between English sentences may be calculated. For BLUE, for example,
Kishore Papineni, et al. "BLUE: a method for automatic evaluation of machine translation," Proc. Of the 40th Annual Meeting of the Association for Computational Linguistics, p.311-318, July 2002. For RIBES, see, for example, Tsutomu Hirao, et al. “RIBES: Automatic Evaluation of Translation Based on Rank Correlation”, Proc. Of the 17th Annual Conference of the Language Processing Society, p.1115-1118, March 2011 about.

2−6.変形例6
上記の実施形態に係る対訳文選別部110は、TERが閾値よりも大きい対訳文を選別した後、選別した対訳文以外の対訳文であって対訳文記憶部106に記憶されている対訳文の対訳文IDを、削除せずに残す対訳文として対訳文編集部111に通知してもよい。この場合、対訳文編集部111は、対訳文選別部110から通知された対訳文IDにより識別される対訳文以外の対訳文を対訳文記憶部106から削除する。
2-6. Modification 6
The bilingual sentence selection unit 110 according to the above embodiment selects bilingual sentences whose TER is larger than the threshold, and then selects bilingual sentences other than the selected bilingual sentences and stored in the bilingual sentence storage unit 106. The bilingual sentence ID may be notified to the bilingual sentence editing unit 111 as a bilingual sentence that remains without being deleted. In this case, the bilingual sentence editing unit 111 deletes the bilingual sentence other than the bilingual sentence identified by the bilingual sentence ID notified from the bilingual sentence selecting unit 110 from the bilingual sentence storing unit 106.

2−7.変形例7
対訳文抽出装置1の各機能を実現するためのプログラムは、コンピュータ装置が読み取り可能な記録媒体を介して提供されてもよい。ここで、記録媒体とは、例えば、磁気テープや磁気ディスクなどの磁気記録媒体や、光ディスクなどの光記録媒体や、光磁気記録媒体や、半導体メモリ等である。また、このプログラムは、インターネット等のネットワークを介して提供されてもよい。
2-7. Modification 7
A program for realizing each function of the bilingual sentence extraction apparatus 1 may be provided via a recording medium readable by a computer apparatus. Here, the recording medium is, for example, a magnetic recording medium such as a magnetic tape or a magnetic disk, an optical recording medium such as an optical disk, a magneto-optical recording medium, or a semiconductor memory. In addition, this program may be provided via a network such as the Internet.

1…対訳文抽出装置、101…対訳文書記憶部、102…対訳文書取得部、103…単語分割部、104…対訳辞書記憶部、105…対訳文取得部、106…対訳文記憶部、107…翻訳モデル生成部、108…翻訳部、109…編集距離算出部、110…対訳文選別部、111…対訳文編集部 DESCRIPTION OF SYMBOLS 1 ... Bilingual sentence extraction apparatus, 101 ... Bilingual document memory | storage part, 102 ... Bilingual document acquisition part, 103 ... Word division part, 104 ... Bilingual dictionary memory | storage part, 105 ... Bilingual sentence acquisition part, 106 ... Bilingual sentence memory | storage part, 107 ... Translation model generation unit, 108 ... Translation unit, 109 ... Editing distance calculation unit, 110 ... Parallel translation selection unit, 111 ... Parallel translation editing unit

Claims (3)

第1言語と第2言語の対訳文書を取得する対訳文書取得部と、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得する対訳文取得部と、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成する翻訳モデル生成部と、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳する翻訳部と、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出する編集距離算出部と、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別する対訳文選別部と
を備える対訳文抽出装置。
A bilingual document acquisition unit for acquiring bilingual documents in the first language and the second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. A bilingual sentence acquisition unit for acquiring one or more bilingual sentences in two languages;
A translation model generation unit that generates a translation model based on the one or more acquired parallel translations;
For each of the obtained one or more parallel translation sentences, using the generated translation model, a translation unit that translates the sentence of the first language constituting the parallel translation sentence into the second language;
Editing that calculates an edit distance between the sentence in the first language translated into the second language and the sentence in the second language corresponding to the sentence for each of the one or more acquired parallel translations A distance calculator;
A bilingual sentence extraction device comprising: a bilingual sentence selecting unit that selects a bilingual sentence whose calculated edit distance is larger than a threshold value among the one or more acquired bilingual sentences.
1以上のコンピュータにより実行される対訳文抽出方法であって、
第1言語と第2言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップと
を備える対訳文抽出方法。
A bilingual sentence extraction method executed by one or more computers,
Obtaining a bilingual document in a first language and a second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. Obtaining one or more parallel translations in two languages;
Generating a translation model based on the acquired one or more parallel translations;
For each of the obtained one or more parallel translation sentences, using the generated translation model, translating the sentence of the first language constituting the parallel translation sentence into the second language;
Calculating an edit distance between the sentence in the first language translated into the second language and the sentence in the second language corresponding to the sentence for each of the obtained one or more parallel translation sentences; When,
A bilingual sentence extracting method comprising: selecting a bilingual sentence whose calculated edit distance is greater than a threshold value from the one or more acquired bilingual sentences.
コンピュータに、
第1言語と第2言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップと
を実行させるためのプログラム。
On the computer,
Obtaining a bilingual document in a first language and a second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. Obtaining one or more parallel translations in two languages;
Generating a translation model based on the acquired one or more parallel translations;
For each of the obtained one or more parallel translation sentences, using the generated translation model, translating the sentence of the first language constituting the parallel translation sentence into the second language;
Calculating an edit distance between the sentence in the first language translated into the second language and the sentence in the second language corresponding to the sentence for each of the obtained one or more parallel translation sentences; When,
A program for executing the step of selecting, from among the one or more acquired parallel translations, a parallel translation in which the calculated editing distance is greater than a threshold value.
JP2016165873A 2016-08-26 2016-08-26 Bilingual sentence extraction device, bilingual sentence extraction method and program Active JP6678087B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016165873A JP6678087B2 (en) 2016-08-26 2016-08-26 Bilingual sentence extraction device, bilingual sentence extraction method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016165873A JP6678087B2 (en) 2016-08-26 2016-08-26 Bilingual sentence extraction device, bilingual sentence extraction method and program

Publications (2)

Publication Number Publication Date
JP2018032324A true JP2018032324A (en) 2018-03-01
JP6678087B2 JP6678087B2 (en) 2020-04-08

Family

ID=61304534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016165873A Active JP6678087B2 (en) 2016-08-26 2016-08-26 Bilingual sentence extraction device, bilingual sentence extraction method and program

Country Status (1)

Country Link
JP (1) JP6678087B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140709A (en) * 2019-02-26 2020-09-03 株式会社リコー Neural machine translation model training methods, devices and storage media
CN113609872A (en) * 2021-03-29 2021-11-05 智慧芽信息科技(苏州)有限公司 Text processing method and device and model training method and device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110023A1 (en) * 2001-12-07 2003-06-12 Srinivas Bangalore Systems and methods for translating languages
JP2005250536A (en) * 2004-03-01 2005-09-15 Advanced Telecommunication Research Institute International Translation device
JP2009223525A (en) * 2008-03-14 2009-10-01 Nippon Hoso Kyokai <Nhk> Sentence-word association device and sentence-word association program
JP2009289219A (en) * 2008-05-30 2009-12-10 Fuji Xerox Co Ltd Translation-memory translation device and translation program
US20120310869A1 (en) * 2009-07-21 2012-12-06 International Business Machines Corporation Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains
JP2015170168A (en) * 2014-03-07 2015-09-28 国立研究開発法人情報通信研究機構 Word alignment score calculation apparatus, word alignment device, and computer program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110023A1 (en) * 2001-12-07 2003-06-12 Srinivas Bangalore Systems and methods for translating languages
JP2005250536A (en) * 2004-03-01 2005-09-15 Advanced Telecommunication Research Institute International Translation device
JP2009223525A (en) * 2008-03-14 2009-10-01 Nippon Hoso Kyokai <Nhk> Sentence-word association device and sentence-word association program
JP2009289219A (en) * 2008-05-30 2009-12-10 Fuji Xerox Co Ltd Translation-memory translation device and translation program
US20120310869A1 (en) * 2009-07-21 2012-12-06 International Business Machines Corporation Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains
JP2015170168A (en) * 2014-03-07 2015-09-28 国立研究開発法人情報通信研究機構 Word alignment score calculation apparatus, word alignment device, and computer program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140709A (en) * 2019-02-26 2020-09-03 株式会社リコー Neural machine translation model training methods, devices and storage media
CN113609872A (en) * 2021-03-29 2021-11-05 智慧芽信息科技(苏州)有限公司 Text processing method and device and model training method and device

Also Published As

Publication number Publication date
JP6678087B2 (en) 2020-04-08

Similar Documents

Publication Publication Date Title
JP5112116B2 (en) Machine translation apparatus, method and program
CN103189860B (en) Machine translation device and machine translation method combining syntax conversion model and vocabulary conversion model
Okpor Machine translation approaches: issues and challenges
CN105975558B (en) Establish method, the automatic edit methods of sentence and the corresponding intrument of statement editing model
Qun et al. Machine translation: general
CN101714136B (en) Method and apparatus for adapting corpus-based machine translation systems to new domains
Lohar et al. A systematic comparison between SMT and NMT on translating user-generated content
JP6678087B2 (en) Bilingual sentence extraction device, bilingual sentence extraction method and program
Freitag et al. Eu-bridge mt: Combined machine translation
Tambouratzis et al. Language-independent hybrid MT with PRESEMT
JP2018072979A (en) Parallel-sentence extraction apparatus, parallel-sentence extraction method, and program
JP2020166501A (en) Split model generation system, text segmentation device and split model generation method
JP2018055328A (en) Parallel translation sentence extracting device, parallel translation sentence extracting method and program
Wang et al. Synslator: An Interactive Machine Translation Tool with Online Learning
Dandapat et al. Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting
Pinnis et al. Developing a neural machine translation service for the 2017-2018 european union presidency
CN107423293A (en) The method and apparatus of data translation
Ma et al. Opening machine translation black box for cross-language information retrieval
Quernheim et al. Large-scale exact decoding: The ims-ttt submission to wmt14
Diab et al. Towards Guided Back-translation for Low-resource languages-A Case Study on Kabyle-French
JP5909123B2 (en) Machine translation apparatus, machine translation method and program
Lalrempuii et al. Investigation of Data Augmentation Techniques for Assamese-English Language Pair Machine Translation
Kharate et al. Survey of Machine Translation for Indian Languages to English and Its Approaches
El-Shishtawy et al. The best templates match technique for example based machine translation
JP3921543B2 (en) Machine translation device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200316

R150 Certificate of patent or registration of utility model

Ref document number: 6678087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250