JP2018032324A - 対訳文抽出装置、対訳文抽出方法およびプログラム - Google Patents
対訳文抽出装置、対訳文抽出方法およびプログラム Download PDFInfo
- Publication number
- JP2018032324A JP2018032324A JP2016165873A JP2016165873A JP2018032324A JP 2018032324 A JP2018032324 A JP 2018032324A JP 2016165873 A JP2016165873 A JP 2016165873A JP 2016165873 A JP2016165873 A JP 2016165873A JP 2018032324 A JP2018032324 A JP 2018032324A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- language
- bilingual
- translation
- parallel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
1−1.構成
図1は、本実施形態に係る対訳文抽出装置1の構成の一例を示すブロック図である。対訳文抽出装置1は、CPU等の演算処理装置と、HDD等の記憶装置を備えるコンピュータである。この対訳文抽出装置1は、対訳文書記憶部101と、対訳文書取得部102と、単語分割部103と、対訳辞書記憶部104と、対訳文取得部105と、対訳文記憶部106と、翻訳モデル生成部107と、翻訳部108と、編集距離算出部109と、対訳文選別部110と、対訳文編集部111という機能を備える。これらの機能のうち、対訳文書記憶部101、対訳辞書記憶部104および対訳文記憶部106の機能は、記憶装置により実現される。その他の機能は、演算処理装置が、記憶装置に記憶されるプログラムを実行することにより実現される。
対訳文抽出装置1の動作について説明する。図2は、対訳文抽出装置1により実行される対訳文抽出処理の一例を示すフロー図である。
以上が、対訳文抽出処理についての説明である。
上記の実施形態は、以下に記載するように変形してもよい。以下に記載する1以上の変形例は、互いに組み合わせてもよい。
上記の実施形態に係る対訳文抽出装置1は、複数のコンピュータにより構成されるコンピュータシステムであってもよい。上記の実施形態に係る対訳文抽出装置1が備える記憶装置は、インターネット等の通信回線を介して対訳文抽出装置1と接続されてもよい。
上記の実施形態において、第1言語を英語とし、第2言語を日本語としてもよい。また、第1言語と第2言語の組み合わせは、日本語と英語の他に、ドイツ語、フランス語、中国語、韓国語等の自然言語の中から任意に選択されてよい。
翻訳モデル生成部107は、Mosesデコーダ以外の他のデコーダを用いて翻訳モデルを生成してもよい。例えば、Pharaohデコーダを用いて翻訳モデルを生成してもよい。Pharaohデコーダについては、例えば、Philipp Koehn, "Pharaoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models," Proceedings of the 6th Conference of the Association for Machine Translation in the Americas, p.115-124, 2004を参照のこと。
上記の実施形態において、翻訳モデル生成部107を省略し、翻訳部108は、予め定められた翻訳モデルを用いて、対訳文記憶部106に記憶された1以上の対訳文の各々について、当該対訳文を構成する日本語の文を英語に翻訳してもよい。
上記の実施形態に係る編集距離算出部109は、編集距離として、TER以外の値を算出してもよい。例えば、Levenshtein距離や、Damerau-Levenshtein距離や、Jaro-Winkler距離を算出してもよい。
Kishore Papineni, et al. "BLUE: a method for automatic evaluation of machine translation," Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, p.311-318, July 2002を参照のこと。RIBESについては、例えば、平尾努,他「RIBES: 順位相関に基づく翻訳の自動評価法」、言語処理学会 第17回年次大会発表論文集、p.1115-1118、2011年3月を参照のこと。
上記の実施形態に係る対訳文選別部110は、TERが閾値よりも大きい対訳文を選別した後、選別した対訳文以外の対訳文であって対訳文記憶部106に記憶されている対訳文の対訳文IDを、削除せずに残す対訳文として対訳文編集部111に通知してもよい。この場合、対訳文編集部111は、対訳文選別部110から通知された対訳文IDにより識別される対訳文以外の対訳文を対訳文記憶部106から削除する。
対訳文抽出装置1の各機能を実現するためのプログラムは、コンピュータ装置が読み取り可能な記録媒体を介して提供されてもよい。ここで、記録媒体とは、例えば、磁気テープや磁気ディスクなどの磁気記録媒体や、光ディスクなどの光記録媒体や、光磁気記録媒体や、半導体メモリ等である。また、このプログラムは、インターネット等のネットワークを介して提供されてもよい。
Claims (3)
- 第1言語と第2言語の対訳文書を取得する対訳文書取得部と、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得する対訳文取得部と、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成する翻訳モデル生成部と、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳する翻訳部と、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出する編集距離算出部と、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別する対訳文選別部と
を備える対訳文抽出装置。 - 1以上のコンピュータにより実行される対訳文抽出方法であって、
第1言語と第2言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップと
を備える対訳文抽出方法。 - コンピュータに、
第1言語と第2言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、
前記取得された1以上の対訳文に基づいて翻訳モデルを生成するステップと、
前記取得された1以上の対訳文の各々について、前記生成された翻訳モデルを用いて、当該対訳文を構成する前記第1言語の文を前記第2言語に翻訳するステップと、
前記取得された1以上の対訳文の各々について、前記第2言語に翻訳された前記第1言語の文と、当該文に対応する前記第2言語の文との間の編集距離を算出するステップと、
前記取得された1以上の対訳文のうち、前記算出された編集距離が閾値よりも大きい対訳文を選別するステップと
を実行させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016165873A JP6678087B2 (ja) | 2016-08-26 | 2016-08-26 | 対訳文抽出装置、対訳文抽出方法およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016165873A JP6678087B2 (ja) | 2016-08-26 | 2016-08-26 | 対訳文抽出装置、対訳文抽出方法およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018032324A true JP2018032324A (ja) | 2018-03-01 |
| JP6678087B2 JP6678087B2 (ja) | 2020-04-08 |
Family
ID=61304534
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016165873A Active JP6678087B2 (ja) | 2016-08-26 | 2016-08-26 | 対訳文抽出装置、対訳文抽出方法およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6678087B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020140709A (ja) * | 2019-02-26 | 2020-09-03 | 株式会社リコー | ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 |
| CN113609872A (zh) * | 2021-03-29 | 2021-11-05 | 智慧芽信息科技(苏州)有限公司 | 文本处理方法及装置、模型训练方法及装置 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030110023A1 (en) * | 2001-12-07 | 2003-06-12 | Srinivas Bangalore | Systems and methods for translating languages |
| JP2005250536A (ja) * | 2004-03-01 | 2005-09-15 | Advanced Telecommunication Research Institute International | 翻訳装置 |
| JP2009223525A (ja) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | 文・単語対応付け装置及び文・単語対応付けプログラム |
| JP2009289219A (ja) * | 2008-05-30 | 2009-12-10 | Fuji Xerox Co Ltd | 翻訳メモリ翻訳装置および翻訳プログラム |
| US20120310869A1 (en) * | 2009-07-21 | 2012-12-06 | International Business Machines Corporation | Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains |
| JP2015170168A (ja) * | 2014-03-07 | 2015-09-28 | 国立研究開発法人情報通信研究機構 | 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム |
-
2016
- 2016-08-26 JP JP2016165873A patent/JP6678087B2/ja active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030110023A1 (en) * | 2001-12-07 | 2003-06-12 | Srinivas Bangalore | Systems and methods for translating languages |
| JP2005250536A (ja) * | 2004-03-01 | 2005-09-15 | Advanced Telecommunication Research Institute International | 翻訳装置 |
| JP2009223525A (ja) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | 文・単語対応付け装置及び文・単語対応付けプログラム |
| JP2009289219A (ja) * | 2008-05-30 | 2009-12-10 | Fuji Xerox Co Ltd | 翻訳メモリ翻訳装置および翻訳プログラム |
| US20120310869A1 (en) * | 2009-07-21 | 2012-12-06 | International Business Machines Corporation | Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains |
| JP2015170168A (ja) * | 2014-03-07 | 2015-09-28 | 国立研究開発法人情報通信研究機構 | 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020140709A (ja) * | 2019-02-26 | 2020-09-03 | 株式会社リコー | ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 |
| CN113609872A (zh) * | 2021-03-29 | 2021-11-05 | 智慧芽信息科技(苏州)有限公司 | 文本处理方法及装置、模型训练方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6678087B2 (ja) | 2020-04-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5112116B2 (ja) | 機械翻訳する装置、方法およびプログラム | |
| CN103189860B (zh) | 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法 | |
| Okpor | Machine translation approaches: issues and challenges | |
| CN105975558B (zh) | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 | |
| Qun et al. | Machine translation: general | |
| CN101714136B (zh) | 将基于语料库的机器翻译系统适应到新领域的方法和装置 | |
| Lohar et al. | A systematic comparison between SMT and NMT on translating user-generated content | |
| JP6678087B2 (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
| Freitag et al. | Eu-bridge mt: Combined machine translation | |
| Tambouratzis et al. | Language-independent hybrid MT with PRESEMT | |
| JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
| JP2020166501A (ja) | 分割モデル生成システム、テキスト分割装置および分割モデル生成方法 | |
| JP2018055328A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
| Wang et al. | Synslator: An Interactive Machine Translation Tool with Online Learning | |
| Dandapat et al. | Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting | |
| Pinnis et al. | Developing a neural machine translation service for the 2017-2018 european union presidency | |
| CN107423293A (zh) | 数据翻译的方法和装置 | |
| Ma et al. | Opening machine translation black box for cross-language information retrieval | |
| Quernheim et al. | Large-scale exact decoding: The ims-ttt submission to wmt14 | |
| Diab et al. | Towards Guided Back-translation for Low-resource languages-A Case Study on Kabyle-French | |
| JP5909123B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
| Lalrempuii et al. | Investigation of Data Augmentation Techniques for Assamese-English Language Pair Machine Translation | |
| Kharate et al. | Survey of Machine Translation for Indian Languages to English and Its Approaches | |
| El-Shishtawy et al. | The best templates match technique for example based machine translation | |
| JP3921543B2 (ja) | 機械翻訳装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190701 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200129 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200225 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200316 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6678087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |