JP2009075795A - Machine translation apparatus, machine translation method, and program - Google Patents
Machine translation apparatus, machine translation method, and program Download PDFInfo
- Publication number
- JP2009075795A JP2009075795A JP2007243251A JP2007243251A JP2009075795A JP 2009075795 A JP2009075795 A JP 2009075795A JP 2007243251 A JP2007243251 A JP 2007243251A JP 2007243251 A JP2007243251 A JP 2007243251A JP 2009075795 A JP2009075795 A JP 2009075795A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- text data
- tree structure
- unit
- translated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 682
- 238000000034 method Methods 0.000 title claims description 47
- 238000013500 data storage Methods 0.000 claims abstract description 54
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 238000009825 accumulation Methods 0.000 claims description 15
- 230000014616 translation Effects 0.000 description 443
- 230000008569 process Effects 0.000 description 23
- 238000002474 experimental method Methods 0.000 description 22
- 238000011156 evaluation Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000004065 semiconductor Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000008707 rearrangement Effects 0.000 description 3
- 235000008429 bread Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- PXXLQQDIFVPNMP-UHFFFAOYSA-N 3-(diethylcarbamoyl)benzoic acid Chemical compound CCN(CC)C(=O)C1=CC=CC(C(O)=O)=C1 PXXLQQDIFVPNMP-UHFFFAOYSA-N 0.000 description 1
- 241000271274 Cleopatra Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- WNKZOJNKBOBRAY-UHFFFAOYSA-N cdba Chemical compound O=CC1=CC=CC=C1.O1C(C(C2O)O)C(COC)OC2OC(C(C2O)O)C(COC)OC2OC(C(C2O)O)C(COC)OC2OC(C(C2O)O)C(COC)OC2OC(C(O)C2O)C(COC)OC2OC(C(C2O)O)C(COC)OC2OC2C(O)C(O)C1OC2COC WNKZOJNKBOBRAY-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- VUFOSBDICLTFMS-UHFFFAOYSA-M ethyl-hexadecyl-dimethylazanium;bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)CC VUFOSBDICLTFMS-UHFFFAOYSA-M 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】学習なしに構文情報を考慮した機械翻訳を実現する機械翻訳装置を提供する。
【解決手段】原言語の翻訳対象テキストが記憶される翻訳対象テキストデータ記憶部11、翻訳モデルが記憶される翻訳モデル情報記憶部12、翻訳モデルを用いて翻訳対象テキストを統計的に機械翻訳する機械翻訳部13、翻訳後テキストを蓄積する翻訳後テキストデータ蓄積部14、翻訳対象テキストを構文解析して木構造情報を得る構文解析部15、木構造情報を蓄積する木構造情報蓄積部16、翻訳後テキストを、木構造情報の示す木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できるか判断する判断部18、木構造のリーフの変換とノードの入れ替えによって実現できると判断部18が判断した翻訳後テキストを選択する選択部19、選択結果を出力する出力部20を備える。
【選択図】図1A machine translation device that realizes machine translation in consideration of syntax information without learning is provided.
A translation target text data storage unit for storing a translation target text in a source language, a translation model information storage unit for storing a translation model, and statistically machine-translating the translation target text using the translation model. A machine translation unit 13; a post-translation text data storage unit 14 that stores post-translation text; a syntax analysis unit 15 that parses the translation target text to obtain tree structure information; a tree structure information storage unit 16 that stores tree structure information; Judgment unit 18 for judging whether the translated text can be realized by converting the leaf of the tree structure indicated by the tree structure information from the original language to the target language and replacing the nodes of the tree structure; A selection unit 19 for selecting the post-translation text determined by the determination unit 18 and an output unit 20 for outputting the selection result.
[Selection] Figure 1
Description
本発明は、統計的機械翻訳を行う機械翻訳装置等に関する。 The present invention relates to a machine translation apparatus that performs statistical machine translation.
近年、機械翻訳として統計翻訳(SMT)、特にフレーズベース統計翻訳(PBSMT)が広く使われはじめている(例えば、非特許文献1等)。PBSMTにおける最も大きな問題点の一つとして、フレーズの並び替え(特に対極的な)がある。その理由は、PBSMTにおける並び替えモデルは、単に並べ替えの際に何単語先(後)に移動させるかの距離に依存したモデルであるためである。 In recent years, statistical translation (SMT), particularly phrase-based statistical translation (PBSMT), has begun to be widely used as machine translation (for example, Non-Patent Document 1). One of the biggest problems in PBSMT is the rearrangement of phrases (especially opposite). The reason is that the rearrangement model in PBSMT is a model that depends on the number of words ahead (after) to be moved when rearranging.
この問題を解決するために、構文情報を統計翻訳に導入する試みが数多くなされてきた。これらの試みは用いる翻訳原言語、翻訳先言語の構文情報のうち、どれを用いるかで大きく三つに分類される。一つ目は、翻訳原言語、翻訳先言語双方の構文情報を用いるもので、tree−to−tree翻訳と呼ばれる。二つ目は、翻訳先言語のみの構文情報を用いるもので、string−to−tree翻訳と呼ばれる。三つ目は、tree−to−string翻訳と呼ばれ、翻訳原言語のみの構文情報を用いる。これらの手法のように、構文情報を用いることで統計翻訳の性能を向上させることができる。
しかしながら、構文情報をモデルに導入することによって、学習すべきパラメータの数は増大する。特にtree−to−tree翻訳では、そのことが顕著になる。パラメータ数の増大は統計翻訳の訓練データであるパラレルコーパスに対し、質と量の両面での要求が大きくなることを意味している。質の面では、そもそもデータスパースネスの問題が厳しいPBSMTに対し、さらに拍車をかけることになる。また、質の面から考えると、学習データたるパラレルコーパスの対訳文には原言語の構造が反映されている必要があるが、同一の意味でも何種類かの異なった構文に翻訳が可能である。これは、構造の反映のさせ方に必ずしも一貫性がないことを意味しており、これもまたデータスパースネスの問題にさらに拍車をかけることになる。 However, by introducing syntax information into the model, the number of parameters to learn increases. This is particularly true in tree-to-tree translation. The increase in the number of parameters means that the quality and quantity requirements for the parallel corpus, which is training data for statistical translation, will increase. In terms of quality, it will further spur PBSMT, which has a severe data sparseness problem in the first place. In terms of quality, the parallel language corpus, which is the learning data, must reflect the structure of the source language, but it can be translated into several different syntaxes with the same meaning. . This means that the way the structure is reflected is not necessarily consistent, which also adds to the data sparseness issue.
一般的に言うと、単語ベースやフレーズベースの統計翻訳に対する構文情報の導入は、モデルの表現能力を高めるものの、モデルパラメータの学習の面では深刻なデータスパースネスの問題を引き起こすという問題があった。 Generally speaking, the introduction of syntactic information for word-based and phrase-based statistical translation increases the ability of the model to express, but has the problem of causing serious data sparseness problems in terms of learning model parameters. .
本発明は、上記問題点を解決するためになされたものであり、このデータスパースネスの問題を回避するために、パラメータ学習の不要な構文情報モデルである木構造制約モデルを導入した機械翻訳装置等を提供することを目的とする。 The present invention has been made to solve the above problems, and in order to avoid this data sparseness problem, a machine translation apparatus in which a tree structure constraint model, which is a syntax information model that does not require parameter learning, is introduced. The purpose is to provide.
上記目的を達成するため、本発明による機械翻訳装置は、翻訳対象となる原言語のテキストデータである翻訳対象テキストデータが記憶される翻訳対象テキストデータ記憶部と、原言語から目的言語への翻訳で用いられる翻訳モデル情報が記憶される翻訳モデル情報記憶部と、前記翻訳モデル情報を用いて、前記翻訳対象テキストデータを統計的に機械翻訳する機械翻訳部と、前記機械翻訳部が翻訳対象テキストデータを機械翻訳した目的言語のテキストデータである翻訳後テキストデータを蓄積する翻訳後テキストデータ蓄積部と、前記翻訳対象テキストデータを構文解析することにより、前記翻訳対象テキストデータの木構造を示す情報である木構造情報を得る構文解析部と、前記木構造情報を蓄積する木構造情報蓄積部と、前記翻訳後テキストデータ蓄積部が蓄積した翻訳後テキストデータを、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できるかどうか判断する判断部と、前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できると前記判断部が判断した前記翻訳後テキストデータを選択する選択部と、前記選択部による選択結果を出力する出力部と、を備えたものである。 In order to achieve the above object, a machine translation apparatus according to the present invention includes a translation target text data storage unit that stores translation target text data that is text data of a source language to be translated, and translation from the source language to the target language. A translation model information storage unit that stores translation model information used in the machine, a machine translation unit that statistically translates the text data to be translated using the translation model information, and a text to be translated by the machine translation unit Information indicating a tree structure of the text data to be translated by parsing the text data to be translated, and a text data storage unit for the text to be translated that accumulates the text data after translation which is text data of a target language obtained by machine translation of the data A syntax analysis unit for obtaining tree structure information, a tree structure information storage unit for storing the tree structure information, and the post-translation The post-translation text data stored by the text data storage unit is a tree structure indicated by the tree structure information stored by the tree structure information storage unit, and the tree structure obtained from the translation target text data corresponding to the post-translation text data A determination unit that determines whether or not it can be realized by converting the source language of the leaf of the tree into the target language, replacing the nodes of the tree structure, converting the source language of the leaf of the tree structure into the target language, and the tree structure A selection unit that selects the post-translation text data determined by the determination unit to be realized by exchanging the nodes, and an output unit that outputs a selection result by the selection unit.
このような構成により、木構造情報を用いた判断を行い、その判断結果に応じて、翻訳後テキストデータの選択を行うことによって、構文情報に関するパラメータ学習を行うことなく、構文情報に関する制限を導入した機械翻訳を実現することが可能となる。したがって、学習データに関するデータスパースネスの問題を生じないようにすることができる。また、構文情報に関する学習を行わなくてよいため、構文情報に関する学習を行う場合に比べて、翻訳モデル情報の生成に関する処理負荷が軽いものとなり、さらに、翻訳モデル情報のデータ量も小さくすることができる。また、木構造情報を用いた判断を行うことによって、木構造制約モデルを導入した機械翻訳を実現することができ、翻訳結果の精度を向上させることができうる。 With this configuration, a decision using tree structure information is made, and post-translation text data is selected according to the decision result, thereby introducing restrictions on syntax information without performing parameter learning on syntax information. Machine translation can be realized. Therefore, it is possible to prevent a problem of data sparseness related to learning data. In addition, since learning about syntax information is not required, the processing load related to generation of translation model information is lighter than when learning about syntax information is performed, and the data amount of translation model information may be reduced. it can. Also, by making a decision using the tree structure information, machine translation with the tree structure constraint model introduced can be realized, and the accuracy of the translation result can be improved.
また、本発明による機械翻訳装置では、前記機械翻訳部は、単語ベースの統計的機械翻訳を行うものであり、前記判断部は、前記翻訳後テキストデータ蓄積部が蓄積した翻訳後テキストデータを、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への単語単位の変換と、当該木構造のノードの入れ替えによって実現できるかどうか判断してもよい。
このような構成により、単語ベースの統計的機械翻訳の際に、木構造情報に関する制約を適切に導入することができる。
In the machine translation device according to the present invention, the machine translation unit performs a word-based statistical machine translation, and the determination unit stores the post-translation text data accumulated by the post-translation text data accumulation unit, The tree structure information is stored in the tree structure information stored by the tree structure information storage unit, and the word unit from the source language of the leaf of the tree structure obtained from the text data to be translated corresponding to the translated text data to the target language. It may be determined whether it can be realized by conversion and replacement of nodes of the tree structure.
With such a configuration, it is possible to appropriately introduce restrictions on tree structure information during word-based statistical machine translation.
また、本発明による機械翻訳装置では、前記機械翻訳部は、フレーズベースの統計的機械翻訳を行うものであり、前記判断部は、前記翻訳後テキストデータ蓄積部が蓄積した翻訳後テキストデータを、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語へのフレーズ単位の変換を含む変換と、フレーズベースの統計的機械翻訳で翻訳される単位であるフレーズを分割することのない、当該木構造のノードの入れ替えによって実現できるかどうか判断してもよい。
このような構成により、フレーズベースの統計的機械翻訳の際に、木構造情報に関する制約を適切に導入することができる。
In the machine translation device according to the present invention, the machine translation unit performs phrase-based statistical machine translation, and the determination unit stores the post-translation text data accumulated by the post-translation text data accumulation unit, It is a tree structure indicated by the tree structure information accumulated by the tree structure information accumulation unit, and the phrase unit from the source language of the leaf of the tree structure obtained from the text data to be translated corresponding to the translated text data to the target language It may be determined whether or not the conversion can be realized by replacing the node of the tree structure without dividing the phrase that is a unit translated by the phrase-based statistical machine translation and the conversion including the conversion.
With such a configuration, it is possible to appropriately introduce restrictions on tree structure information in the phrase-based statistical machine translation.
また、本発明による機械翻訳装置では、前記機械翻訳部は、翻訳先でのレフト・トゥ・ライトの機械翻訳を行うものであり、前記翻訳後テキストデータは、翻訳途中のテキストデータを含むものであり、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造における各サブツリーを、当該サブツリーが、未翻訳のリーフのみを含むか、あるいは、未翻訳のサブツリーのみからなることを示す未翻訳と、当該サブツリーが、翻訳済のリーフのみを含むか、あるいは、翻訳済のサブツリーのみからなることを示す翻訳済と、当該サブツリーが、翻訳済と未翻訳のリーフのみを含むか、未翻訳と翻訳済のサブツリーのみからなるか、あるいは、1個だけ翻訳中のサブツリーを含むことを示す翻訳中とに分類する分類部をさらに備え、前記判断部は、前記分類部による分類結果を用いて、2個以上の翻訳中のサブツリーを含むサブツリーが出現した場合に、前記翻訳後テキストデータを、前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できないと判断し、前記機械翻訳部は、前記翻訳後テキストデータに新たな翻訳後の目的言語のテキストを追加する際に、当該テキストの追加後の翻訳後テキストデータが前記選択部によって選択されるように追加してもよい。 In the machine translation apparatus according to the present invention, the machine translation unit performs left-to-right machine translation at a translation destination, and the post-translation text data includes text data being translated. Yes, each subtree in the tree structure indicated by the tree structure information stored by the tree structure information storage unit is untranslated indicating that the subtree includes only untranslated leaves or consists only of untranslated subtrees. Translated to indicate that the subtree contains only translated leaves, or consists only of translated subtrees, and the subtree contains only translated and untranslated leaves, The determination unit further comprises a classification unit that classifies only a translated subtree or classifies that the translation includes only one translated subtree. When the subtree including two or more subtrees under translation appears using the classification result by the classification unit, the translated text data is converted from the source language of the leaf of the tree structure to the target language. , The machine translation unit determines that the post-translation after the addition of the text when adding a new post-translation target language text to the post-translation text data. You may add so that text data may be selected by the said selection part.
このような構成により、翻訳先でのレフト・トゥ・ライトの機械翻訳の際に、木構造情報に関する制約を適切に導入した機械翻訳を行うことができるようになる。 With such a configuration, it becomes possible to perform machine translation in which restrictions relating to tree structure information are appropriately introduced during left-to-right machine translation at the translation destination.
また、本発明による機械翻訳装置では、前記機械翻訳部は、前記翻訳対象テキストデータに対応する複数の翻訳後テキストデータを生成するものであり、前記選択部は、複数の翻訳後テキストデータから、前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できると前記判断部が判断した1または2以上の翻訳後テキストデータを選択してもよい。 In the machine translation device according to the present invention, the machine translation unit generates a plurality of post-translation text data corresponding to the text data to be translated, and the selection unit generates a plurality of post-translation text data, One or two or more post-translation text data determined by the determination unit to be realized by converting the leaf of the tree structure from the source language to the target language and replacing the nodes of the tree structure may be selected.
このような構成により、あらかじめ翻訳された複数の翻訳後テキストデータから、木構造情報の制約にあう適切なものを選択することができ、その選択したものを最終的な翻訳結果とすることができる。 With such a configuration, it is possible to select an appropriate one that satisfies the constraints of the tree structure information from a plurality of post-translation text data that has been translated in advance, and the selected one can be used as a final translation result. .
本発明による機械翻訳装置等によれば、構文情報に関するパラメータ学習を行うことなく、構文情報に関する制限を導入した機械翻訳を実現することが可能となる。 According to the machine translation apparatus and the like according to the present invention, it is possible to realize machine translation in which restrictions on syntax information are introduced without performing parameter learning on syntax information.
以下、本発明による機械翻訳装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。 Hereinafter, a machine translation apparatus according to the present invention will be described using embodiments. In the following embodiments, components and steps denoted by the same reference numerals are the same or equivalent, and repetitive description may be omitted.
(実施の形態1)
本発明の実施の形態1による機械翻訳装置について、図面を参照しながら説明する。本実地の形態による機械翻訳装置は、統計的機械翻訳において、木構造を用いた制限を導入したものである。
(Embodiment 1)
A machine translation apparatus according to
図1は、本実施の形態による機械翻訳装置1の構成を示すブロック図である。本実施の形態による機械翻訳装置1は、翻訳対象テキストデータ記憶部11と、翻訳モデル情報記憶部12と、機械翻訳部13と、翻訳後テキストデータ蓄積部14と、構文解析部15と、木構造情報蓄積部16と、分類部17と、判断部18と、選択部19と、出力部20とを備える。
FIG. 1 is a block diagram showing a configuration of a
翻訳対象テキストデータ記憶部11では、翻訳対象となる原言語のテキストデータである翻訳対象テキストデータが記憶される。この翻訳対象テキストデータが、後述する機械翻訳部13によって機械翻訳されることになる。したがって、翻訳対象テキストデータ記憶部11には、機械翻訳を行いたいデータとしての翻訳対象テキストデータを蓄積しておくことになる。その翻訳対象テキストデータは、例えば、翻訳対象となる1文のテキストデータであってもよく、あるいは、一連のまとまりのある複数の文のテキストデータ(例えば、ビジネスレターや書籍などのテキストデータ)であってもよい。
The translation target text
翻訳対象テキストデータ記憶部11に情報が記憶される過程は問わない。例えば、記録媒体を介して翻訳対象テキストデータが翻訳対象テキストデータ記憶部11で記憶されるようになってもよく、通信回線等を介して送信された翻訳対象テキストデータが翻訳対象テキストデータ記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された翻訳対象テキストデータが翻訳対象テキストデータ記憶部11で記憶されるようになってもよい。翻訳対象テキストデータ記憶部11での記憶は、外部のストレージデバイス等から読み出した翻訳対象テキストデータのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。翻訳対象テキストデータ記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
The process in which information is stored in the translation target text
翻訳モデル情報記憶部12では、原言語から目的言語への翻訳で用いられる翻訳モデル情報が記憶される。ここで、翻訳モデル情報とは、対訳コーパスに含まれる原言語の翻訳単位と、目的言語の翻訳単位と、確率とを対応付けて有する情報である。なお、目的言語の翻訳単位とは、その目的言語の翻訳単位が対応付けられている原言語の翻訳単位と対訳関係にある目的言語の翻訳単位であり、対訳コーパスに含まれる翻訳単位である。また、確率とは、その確率が対応付けられている原言語の翻訳単位と目的言語の翻訳単位とに関する確率である。翻訳単位とは、例えば、単語や形態素、フレーズ等である。また、フレーズとは、言語学的なフレーズではなく、数単語からなる単語列のことである。原言語のAと目的言語のBとが対訳関係にあるとは、原言語のAを目的言語に翻訳したものがBになるか、あるいは、その逆の関係を有することを言う。また、原言語の翻訳単位と目的言語の翻訳単位とに関する確率とは、例えば、原言語の翻訳単位が与えられたときの目的言語の翻訳単位の確率や、目的言語の翻訳単位が与えられたときの原言語の翻訳単位の確率等である。翻訳モデル情報を生成する方法はすでに知られており、その説明を省略する。翻訳モデル情報は、対訳コーパスを用いて生成される。
The translation model
翻訳モデル情報記憶部12に情報が記憶される過程は問わない。例えば、記録媒体を介して翻訳モデル情報が翻訳モデル情報記憶部12で記憶されるようになってもよく、通信回線等を介して送信された翻訳モデル情報が翻訳モデル情報記憶部12で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された翻訳モデル情報が翻訳モデル情報記憶部12で記憶されるようになってもよい。翻訳モデル情報記憶部12での記憶は、外部のストレージデバイス等から読み出した翻訳モデル情報のRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。翻訳モデル情報記憶部12は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
The process in which information is stored in the translation model
機械翻訳部13は、翻訳モデル情報記憶部12で記憶されている翻訳モデル情報を用いて、翻訳対象テキストデータ記憶部11から読み出した翻訳対象テキストデータを統計的に機械翻訳する。この統計的機械翻訳の方法は、すでに公知であり、その詳細な説明を省略する。機械翻訳部13は、例えば、単語ベースの統計的機械翻訳を行ってもよく、フレーズベースの統計的機械翻訳を行ってもよい。単語ベースの統計的機械翻訳の場合には、単語(あるいは、単語に類似する形態素等の場合もありうる)単位での原言語の文字列から目的言語の文字列への置き換えが行われることになる。一方、フレーズベースの統計的機械翻訳の場合には、フレーズ単位での原言語の文字列から目的言語の文字列への置き換えが行われることになる。なお、フレーズベースの統計的機械翻訳の場合であっても、単語単位での原言語の文字列から目的言語の文字列への置き換えも行われてもよい。機械翻訳部13が単語ベースの統計的機械翻訳を行うのか、あるいは、フレーズベースの統計的機械翻訳を行うのかに応じて、それに適した翻訳モデル情報を翻訳モデル情報記憶部12に蓄積しておき、その翻訳モデル情報を用いることが好適である。
The
また、機械翻訳部13は、翻訳先でのレフト・トゥ・ライト(target side left−to−right)の機械翻訳を行うものであってもよく、そうでなくてもよい。本実施の形態では、前者の場合について主に説明する。なお、機械翻訳部13は、翻訳先でのレフト・トゥ・ライトの機械翻訳を行う場合に、翻訳後テキストデータに新たな翻訳後の目的言語のテキストを追加する際に、そのテキストの追加後の翻訳後テキストデータが選択部19によって選択されるように追加する。選択部19による選択については後述する。また、機械翻訳部13が翻訳先でのレフト・トゥ・ライトの機械翻訳を行う場合には、翻訳後テキストデータは、翻訳途中のテキストデータを含んでもよい。翻訳先でのレフト・トゥ・ライトの機械翻訳では、翻訳先(目的言語)において1語ずつ翻訳された言葉を足していくことになるため、翻訳途中のテキストデータであっても、その翻訳の時点では、翻訳後のテキストデータとなりうるからである。ここで、翻訳途中のテキストデータとは、翻訳対象テキストデータに完全に対応していないテキストデータである。すなわち、翻訳途中のテキストデータは、翻訳対象テキストデータの一部の翻訳後のテキストデータとなる。また、機械翻訳部13は、翻訳先でのレフト・トゥ・ライトの機械翻訳を行わない場合に、翻訳対象テキストデータに対応する複数の翻訳後テキストデータ(例えば、一の原言語の文に対応する複数の目的言語の文)を生成してもよい。
In addition, the
また、機械翻訳部13は、翻訳モデル情報以外の情報を用いて機械翻訳を行ってもよい。例えば、翻訳モデル情報と共に、言語モデル情報を用いて機械翻訳を行ってもよい。言語モデル情報としては、例えば、Nグラム言語モデルを用いてもよい。その言語モデル情報は、図示しない記録媒体に記憶されており、機械翻訳部13は、その図示しない記録媒体から言語モデル情報を読み出すことによって用いてもよい。
The
翻訳後テキストデータ蓄積部14は、翻訳後テキストデータを所定の記録媒体に蓄積する。翻訳後テキストデータとは、機械翻訳部13が翻訳対象テキストデータを機械翻訳した目的言語のテキストデータである。したがって、翻訳対象テキストデータと翻訳後テキストデータとは、対訳関係を有することになる。また、翻訳後テキストデータ蓄積部14が翻訳後テキストデータを蓄積する記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、翻訳後テキストデータ蓄積部14が有していてもよく、あるいは翻訳後テキストデータ蓄積部14の外部(機械翻訳装置1の外部でもよい)に存在してもよい。また、この記録媒体は、翻訳後テキストデータを一時的に記憶するものであってもよく、そうでなくてもよい。また、機械翻訳部13の処理と翻訳後テキストデータ蓄積部14の処理とは、一体としてなされてもよい。例えば、機械翻訳部13が翻訳後テキストデータを生成した時点で、その翻訳後テキストデータがメモリ等の記録媒体に蓄積されており、その蓄積が翻訳後テキストデータ蓄積部14によってなされていてもよい。
The translated text
構文解析部15は、翻訳対象テキストデータ記憶部11から読み出した翻訳対象テキストデータを構文解析することにより、翻訳対象テキストデータの木構造を示す情報である木構造情報を得る。この木構造情報には、一般的な構文解析で得られるラベル(例えば、品詞や主語・述語等)は含まれていなくてもよい。木構造情報は、翻訳対象テキストデータの文ごとに構成されることが一般的であるが、そうでなくてもよい。すなわち、木構造情報は、例えば、文に含まれる単語や形態素等を、主語や述語、名詞句や動詞句等のラベルで構造化した構造を示す情報である(前述のように、そのラベル自体は木構造情報に含まれていなくてもよい)。この木構造情報は、一般に構文木として知られており、その詳細な説明を省略する。図2に、「This is a pen.」の木構造情報の一例を示す図である。図2で示されるように、「a」と「pen」が名詞句を構成するため、一つのノードでひとくくりにされている。また、「is」と「a pen」が動詞句を形成するため、一つのノードでひとくくりにされている。また、「This」と「is a pen」と「.」とが文を構成するため、一つのノードでひとくくりにされている。なお、構文木の場合には、図2の各ノードに「名詞句(NP)」「動詞句(VP)」等のラベルの付されることが一般的であるが、前述のように、本実施の形態による機械翻訳装置1では、そのラベルを用いないため、木構造情報は、そのラベルに関する情報を含んでいなくてもよい。なお、図2で示されるような木構造において、最下位の階層のもの(それより下の階層の子を持たないもの)をリーフ(葉)と呼ぶことがある。図2では、「This」「is」等がリーフである。
The
また、図2を用いて木構造情報について説明したが、木構造情報のデータ構造は問わない。例えば、前述の「This is a pen.」を構文解析器(パーザー)によって構文解析すると、(S1(S(NP(DT This))(VP(AUX is)(NP(DT a)(NN pen)))(. .)))となる。ここから、ラベル(例えば、文を示すSや、名詞句を示すNP、動詞句を示すVP等)を取り除くことによって、括弧付けされた文(bracketed sentence)である((This)((is)((a)(pen)))(.))が得られる。これは、図2の木構造情報と同じ構造を示している。したがって、木構造情報のデータ構造は、このような括弧付けされた文のデータ構造であってもよい。また、木構造情報の示す木構造の構成を表すことができる情報であれば、このようなデータ構造に限定されないことは言うまでもない。 Moreover, although the tree structure information has been described with reference to FIG. 2, the data structure of the tree structure information does not matter. For example, when the above-mentioned “This is a pen.” Is parsed by a syntax analyzer (parser), (S1 (S (NP (DT This)) (VP (AUX is) (NP (DT a) (NN pen) )) (..))). From this, by removing a label (for example, S indicating a sentence, NP indicating a noun phrase, VP indicating a verb phrase, etc.), it is a bracketed sentence ((This) ((is) ((A) (pen))) (.)) Is obtained. This shows the same structure as the tree structure information of FIG. Therefore, the data structure of the tree structure information may be a data structure of such a bracketed sentence. Needless to say, the data structure is not limited to the data structure as long as it can represent the configuration of the tree structure indicated by the tree structure information.
木構造情報蓄積部16は、木構造情報を所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、木構造情報蓄積部16が有していてもよく、あるいは木構造情報蓄積部16の外部(機械翻訳装置1の外部でもよい)に存在してもよい。また、この記録媒体は、木構造情報を一時的に記憶するものであってもよく、そうでなくてもよい。また、構文解析部15の処理と木構造情報蓄積部16の処理とは、一体としてなされてもよい。例えば、構文解析部15が木構造情報を生成した時点で、その木構造情報がメモリ等の記録媒体に蓄積されており、その蓄積が木構造情報蓄積部16によってなされていてもよい。
The tree structure
分類部17は、木構造情報蓄積部16が蓄積した木構造情報の示す木構造における各サブツリーを分類する。この分類は、後述する判断部18による判断のためになされるものである。より詳細には、分類部17は、木構造における各サブツリーを、未翻訳と、翻訳済と、翻訳中とに分類する。未翻訳とは、分類対象のサブツリーが、未翻訳のリーフのみを含むか、あるいは、未翻訳のサブツリーのみからなることを示す。翻訳済とは、分類対象のサブツリーが、翻訳済のリーフのみを含むか、あるいは、翻訳済のサブツリーのみからなることを示す。翻訳中とは、分類対象のサブツリーが、翻訳済と未翻訳のリーフのみを含むか、未翻訳と翻訳済のサブツリーのみからなるか、あるいは、1個だけ翻訳中のサブツリーを含むことを示す。分類部17が分類する対象となる木構造情報は、機械翻訳部13によってレフト・トゥ・ライトの機械翻訳がなされている文に対応する木構造情報である。なお、分類部17は、例えば、分類することができないサブツリー(例えば、2個以上の翻訳中のサブツリーを含むもの)を、分類しなくてもよく、あるいは、NGに分類してもよい。また、分類部17が分類した結果の情報は、図示しない記録媒体において、一時的に記憶されていてもよい。例えば、各サブツリーに対応付けられて、分類結果(未翻訳、翻訳中、翻訳済を示す情報)が蓄積されてもよく、あるいは、分類結果に対応付けられて、各サブツリーを識別する情報が蓄積されてもよい。
The
判断部18は、翻訳後テキストデータ蓄積部14が蓄積した翻訳後テキストデータを、所定の処理によって実現できるかどうか判断する。所定の処理とは、木構造情報蓄積部16が蓄積した木構造情報の示す木構造であり、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えである。実現できるかどうかは、そのような処理によって、翻訳後テキストデータを得ることができるかどうか、と言うことである。その所定の処理において、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えとの順序は問わない。また、この判断は、翻訳後テキストデータが木構造情報の示す木構造に関する制限を満たしているかどうかの判断である。したがって、判断部18が、翻訳後テキストデータを、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できると判断した場合には、その翻訳後テキストデータは、木構造情報の示す木構造に関する制限(木構造に関する構文の制限)を満たしていると判断されたことになる。この判断は、例えば、前述の木構造のリーフの原言語から目的言語への変換と、その木構造のノードを入れ替えたものを可能な限り生成し、その生成したものの中に、翻訳後テキストデータが含まれるかどうかによって判断してもよい。含まれる場合には、判断部18は、翻訳後テキストデータを所定の処理によって実現できると判断することになる。なお、この判断は、結果が同じになるのであれば、等価な他の判断条件によって行われてもよいことは言うまでもない。
The
機械翻訳部13が単語ベースの統計的機械翻訳を行う場合には、判断部18は、翻訳後テキストデータ蓄積部14が蓄積した翻訳後テキストデータを、木構造情報蓄積部16が蓄積した木構造情報の示す木構造であり、その翻訳後テキストデータに対応する(すなわち、その翻訳後テキストデータと対訳関係にある)翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への単語単位の変換と、その木構造のノードの入れ替えによって実現できるかどうか判断してもよい。
When the
また、機械翻訳部13がフレーズベースの統計的機械翻訳を行う場合には、判断部18は、翻訳後テキストデータ蓄積部14が蓄積した翻訳後テキストデータを、木構造情報蓄積部16が蓄積した木構造情報の示す木構造であり、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語へのフレーズ単位の変換を含む変換と、フレーズベースの統計的機械翻訳で翻訳される単位であるフレーズを分割することのない、その木構造のノードの入れ替えによって実現できるかどうか判断してもよい。「フレーズ単位の変換を含む変換」とは、フレーズ単位以外の変換を含んでもよい意味である。フレーズ単位以外の変換とは、例えば、単語単位の変換である。
When the
また、本実施の形態のように、機械翻訳部13がレフト・トゥ・ライトの機械翻訳を行うと共に、分類部17による分類が行われる場合には、判断部18は、分類部17による分類結果を用いて、2個以上の翻訳中のサブツリーを含むサブツリーが出現した場合に、翻訳後テキストデータを、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できないと判断してもよい。そのように判断することで、上述の判断と同様のことを行うことになるからである。その理由については後述する。本実施の形態では、このように分類結果を用いて判断部18が判断を行う場合について説明する。
また、判断部18は、判断結果を選択部19に渡してもよく、あるいは、図示しない記録媒体に一時的に記憶してもよい。
When the
The
選択部19は、木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できると判断部18が判断した翻訳後テキストデータを選択する。すなわち、木構造情報の示す木構造に関する制限を満たしていると判断された翻訳後テキストデータが選択されることになる。この選択は、機械翻訳部13による一連の翻訳(例えば、文単位で翻訳を行う場合には、一文の翻訳)が終了した後での選択であってもよく、機械翻訳部13が機械翻訳を行っている途中における、次に続く翻訳後の単語や形態素、フレーズ等の選択であってもよい。前者の場合には、例えば、事後的に選択が行われるため、機械翻訳部13によって翻訳対象テキストデータと対訳関係にある複数の翻訳後テキストデータが生成されることになる。そして、選択部19は、その複数の翻訳後テキストデータから、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できると判断部18が判断した1または2以上の翻訳後テキストデータを選択する。この選択される翻訳後テキストデータは、1個であってもよく、あるいは、2個以上であってもよい。また、後者の場合、すなわち、機械翻訳部13が機械翻訳を行っている途中において、次に続く目的言語の翻訳単位(単語や形態素、フレーズ等)を選択する場合には、例えば、機械翻訳部13が翻訳対象テキストデータを翻訳する際に、単語や形態素、フレーズごとの選択がなされるため、翻訳対象テキストデータと対訳関係にある翻訳後テキストデータは1個だけ生成されることになる。
The
出力部20は、選択部19による選択結果を出力する。ここで、選択結果とは、選択部19が選択した翻訳後テキストデータであってもよく、選択部19がどの翻訳後テキストデータを選択したのかを示す情報であってもよい。後者の場合には、例えば、翻訳後テキストデータ蓄積部14が翻訳後テキストデータを蓄積した記録媒体において、選択部19が選択した翻訳後テキストデータに付与されるフラグ等が選択結果であってもよく、選択された翻訳後テキストデータを識別する情報が選択結果であってもよい。また、機械翻訳部13がレフト・トゥ・ライトの機械翻訳を行う場合には、一つの文が翻訳されるまでに複数回の選択が行われることになるが、翻訳対象テキストデータと対訳関係にある翻訳後テキストデータが、その複数回の選択の結果を示す情報となりうる。
The
ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、出力部20は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部20は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
Here, the output may be, for example, display on a display device (for example, a CRT or a liquid crystal display), transmission via a communication line to a predetermined device, printing by a printer, or audio output by a speaker. Alternatively, it may be stored in a recording medium or delivered to another component. The
なお、翻訳対象テキストデータ記憶部11と、翻訳モデル情報記憶部12と、翻訳後テキストデータ蓄積部14が翻訳後テキストデータを蓄積する記録媒体と、木構造情報蓄積部16が木構造情報を蓄積する記録媒体との任意の2以上の記憶部あるいは記録媒体は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、翻訳対象テキストデータを記憶している領域が翻訳対象テキストデータ記憶部11となり、翻訳モデル情報を記憶している領域が翻訳モデル情報記憶部12となる。
The translation target text
次に、本実施の形態による機械翻訳装置1の動作について、図3のフローチャートを用いて説明する。なお、この図3のフローチャートは、機械翻訳部13がレフト・トゥ・ライトの機械翻訳を行う場合における機械翻訳装置1の動作を示すものである。また、図3のフローチャートは、一文を機械翻訳する処理について説明するためのものである。したがって、複数の文を連続して機械翻訳する場合には、図3のフローチャートで示される一連の処理をその文の数だけ繰り返して実行すればよい。
Next, the operation of the
(ステップS101)構文解析部15は、翻訳対象テキストデータ記憶部11から翻訳対象テキストデータを読み出し、その翻訳対象テキストデータを構文解析することによって、木構造情報を生成する。なお、構文解析部15が読み出す翻訳対象テキストデータは、この後に、機械翻訳部13によって機械翻訳される翻訳対象テキストデータである。
(Step S101) The
(ステップS102)木構造情報蓄積部16は、構文解析部15が生成した木構造情報を所定の記録媒体に蓄積する。
(ステップS103)機械翻訳部13は、カウンタiを1に設定する。
(Step S102) The tree structure
(Step S103) The
(ステップS104)機械翻訳部13は、翻訳先でのi番目の翻訳単位(例えば、単語や形態素、フレーズ等)を機械翻訳する。すなわち、翻訳先言語(目的言語)での翻訳後テキストデータを文頭から文末に延ばしていくために、i番目の翻訳単位が翻訳されることになる。なお、このi番目の翻訳単位の翻訳の際には、複数の候補が翻訳されるものとする。この候補の個数は問わない。例えば、機械翻訳部13が翻訳する候補の数があらかじめ決められていてもよく、あるいは、あらかじめ決められた値以上の尤度を有する翻訳結果を、候補として採用してもよい。
(Step S104) The
(ステップS105)翻訳後テキストデータ蓄積部14は、機械翻訳部13が翻訳した複数の候補を、それまでに翻訳され、蓄積されている翻訳語テキストデータに対応付けて蓄積する。なお、この蓄積の際に、複数の候補を尤度の高い順(すなわち、尤度の降順)に蓄積することが好適である。後述するカウンタjの値が小さいほど、尤度が高くなるようにするためである。
(Step S105) The post-translation text
(ステップS106)判断部18は、カウンタjを1に設定する。
(ステップS107)分類部17は、機械翻訳部13が翻訳したi番目の翻訳単位のうち、j番目のものに関して、木構造情報の示す木構造を分類する。すなわち、木構造の各サブツリーを未翻訳、翻訳中、翻訳済のいずれかに分類する。なお、そのいずれにも分類できないサブツリーが存在する場合には、分類部17は、そのサブツリーをNGに分類してもよい。
(Step S106) The
(Step S107) The
(ステップS108)判断部18は、分類部17による分類結果を用いて、機械翻訳部13が翻訳したi番目の翻訳単位のうち、j番目のものが、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できるかどうか判断する。
(Step S108) The
(ステップS109)選択部19は、判断部18による判断の結果、それまでの翻訳後テキストデータに、j番目の翻訳単位を追加したものが、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できると判断された場合には、そのj番目の翻訳単位を選択する。したがって、そのj番目の翻訳単位が翻訳後テキストデータの最後尾に付加されることになる。そして、ステップS110に進む。一方、判断部18による判断の結果、それまでの翻訳後テキストデータに、j番目の翻訳単位を追加したものが、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できないと判断された場合には、選択部19は、そのj番目の翻訳単位を選択しないで、ステップS113に進む。
(Step S109) As a result of the determination by the
(ステップS110)機械翻訳部13は、文末まで翻訳したかどうか判断する。例えば、レフト・トゥ・ライトの機械翻訳の場合には、翻訳された翻訳先のテキストに対応する原言語の単語にビットが立てられることがある。その場合には、翻訳している原言語の文のすべての単語にビットが立てられているのであれば、文末まで翻訳したと判断してもよい。そして、文末まで翻訳していた場合には、ステップS111に進み、そうでない場合には、ステップS112に進む。
(Step S110) The
(ステップS111)出力部20は、選択部19が選択を繰り返すことによって作成された翻訳後テキストデータを、翻訳後テキストデータ蓄積部14が蓄積した記録媒体から読み出して出力する。そして、翻訳対象テキストデータの機械翻訳の一連の処理が終了となる。
(Step S <b> 111) The
(ステップS112)機械翻訳部13は、カウンタiを1だけインクリメントする。そして、ステップS104に戻る。
(ステップS113)判断部18は、カウンタjを1だけインクリメントする。そして、ステップS107に戻る。
(Step S112) The
(Step S113) The
ここで、単語ベースの統計的機械翻訳における判断の方法、フレーズベースの統計的機械翻訳における判断の方法、及び翻訳先でのレフト・トゥ・ライトの機械翻訳の方法について、それぞれ簡単に説明する。 Here, a determination method in word-based statistical machine translation, a determination method in phrase-based statistical machine translation, and a left-to-right machine translation method at the translation destination will be briefly described.
[単語ベースの統計的機械翻訳における判断の方法]
まず、最も単純なケースとして、翻訳対象テキストデータ、翻訳後テキストデータのすべての単語が1対1対応をしている場合を考える。なお、前述のように、ここでの「単語」には、形態素等の単語に類似する単位も含まれるものとする。翻訳対象テキストデータ中の単語siは翻訳先ではSiに翻訳されるものとした場合、翻訳対象テキストデータs1、s2、…、sNは単語セットS1、S2、…、SNの語順を並び替えたものとして翻訳される。この場合、翻訳後テキストデータの可能な組み合わせ数はN!(Nの階乗)となる。本実施の形態による木構造情報を用いた木構造制約モデルの目的は、このN!通りの探索空間を縮めるような制約を与えることにある。その木構造制約モデルは、次に示す二つのルールに従いながら翻訳が可能であるという仮定に基づいており、パラメータの訓練を必要としない。
[Method of judgment in word-based statistical machine translation]
First, as the simplest case, consider a case in which all words in the text data to be translated and the text data after translation have a one-to-one correspondence. As described above, the “word” here includes units similar to words such as morphemes. When the word s i in the translation target text data is translated into S i at the translation destination, the translation target text data s 1 , s 2 ,..., S N are word sets S 1 , S 2 ,. Translated as a rearranged N word order. In this case, the number of possible combinations of translated text data is N! (N factorial). The purpose of the tree structure constraint model using the tree structure information according to this embodiment is N! The restriction is to reduce the search space of the street. The tree structure constraint model is based on the assumption that translation is possible according to the following two rules, and does not require parameter training.
ルール1:翻訳対象テキストデータの単語siがsjと依存関係等の関係を持つならば、翻訳後テキストデータの単語SiもまたSjと関係を持つ。
ルール2:単語間の関係を表す木構造情報のアークは交差しない。
Rule 1: If the word s i of the text data to be translated has a relationship such as a dependency relationship with s j , the word S i of the post-translation text data also has a relationship with S j .
Rule 2: Arcs of tree structure information representing the relationship between words do not intersect.
上記のルールを満たしているかどうかの判断は、「翻訳後テキストデータを、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造(木構造情報の示す木構造である)のリーフの原言語(si)から目的言語(Si)への変換と、その木構造のノードの入れ替えによって実現できるかどうか」の判断と同じことになる。この判断を判断部18が行うことになる。
The determination as to whether or not the above-mentioned rule is satisfied is as follows: “Left of the tree structure (the tree structure indicated by the tree structure information) obtained from the translation target text data corresponding to the translated text data. This is the same as the determination of “whether it can be realized by conversion from the source language (s i ) to the target language (S i ) and switching the nodes of the tree structure”. The
図4の木構造に対してこの判断を行う場合について説明する。図4の木構造を括弧付けされた文で示すと、((ab)(cd))となる。この木構造から、上述の判断によって、翻訳後テキストデータを、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できると判断されうる翻訳後テキストデータは、次のどれかに限られることになる。[ABCD]、[ABDC]、[BACD]、[BADC]、[CDAB]、[CDBA]、[DCAB]、[DCBA]。ここで、翻訳後テキストデータの単語A、B、C、Dはそれぞれ、翻訳対象テキストデータの単語a、b、c、dの対訳語である。 A case where this determination is performed on the tree structure of FIG. When the tree structure in FIG. 4 is indicated by a sentence in parentheses, ((ab) (cd)) is obtained. From this tree structure, the translated text data is converted from the source language of the leaf of the tree structure obtained from the text data to be translated corresponding to the translated text data to the target language, and the tree structure is determined based on the above determination. The post-translation text data that can be determined to be realized by the replacement of the nodes is limited to one of the following. [ABCD], [ABDC], [BACD], [BADC], [CDAB], [CDBA], [DCAB], [DCBA]. Here, the words A, B, C, and D in the post-translation text data are parallel translations of the words a, b, c, and d in the translation target text data, respectively.
例えば、翻訳後テキストデータとして[ACBD]を考えてみる。翻訳対象テキストデータの括弧付けされた文から、aとbが関係を持っており、cとdが関係を持っていることがわかる。これに対し、ルール1を適用するとAとB、CとDもまた関係を持つ。しかしながら、この関係を単語列[ACBD]にあてはめるとそれぞれの関係を示すアークが交差することになり、ルール2を満たすことができない。したがって、翻訳後テキストデータ[ACBD]は不適切であるとわかる。
For example, consider [ACBD] as post-translation text data. It can be seen from the parenthesized sentences of the text data to be translated that a and b have a relationship, and c and d have a relationship. On the other hand, when
ここで、翻訳後テキストデータに上述の判断部18による判断を適用する場合について説明する。翻訳後テキストデータ[ACBD]に対応する翻訳対象テキストデータから得られた木構造((ab)(cd))のリーフを目的言語に変換すると、((AB)(CD))となる。次に、これのノードを入れ替えることによって、翻訳後テキストデータ[ACBD]を実現できるかどうか判断する。この場合に((AB)(CD))では、ABがペアとなっており(一つのノードに対応しており)、ノードを入れ替えることによっても決して分かれることがないが、翻訳後テキストデータ[ACBD]では、AとBが分かれている。したがって、翻訳後テキストデータ[ACBD]を、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できないと判断されることになる。このような判断を、判断部18が実行することになる。ここで、判断部18は、例えば、((AB)(CD))からノードの入れ替えによって到達することができるすべての翻訳後テキストデータを構成し、その構成した翻訳後テキストデータのいずれかに、判断対象となる翻訳後テキストデータが含まれるかどうかを判断することにより、この判断を行ってもよく、他の方法によって判断を行ってもよい。
Here, a case will be described in which the determination by the
次の例について説明する。翻訳後テキストデータが[DCAB]であるとする。すると、上記説明と同様に、翻訳後テキストデータ[DCAB]に対応する翻訳対象テキストデータから得られた木構造((ab)(cd))のリーフを目的言語に変換すると、((AB)(CD))となる。次に、これのノードを入れ替えることによって、翻訳後テキストデータ[DCAB]を実現できるかどうか判断する。この場合には、CとDを入れ替えて(図4でのノード2の入れ替え)、(AB)と(DC)を入れ替える(図4でのノード3の入れ替え)ことによって、[DCAB]が得られる。したがって、判断部18は、翻訳後テキストデータ[DCAB]は、木構造制約モデルの制限を満たしていると判断する。
The following example will be described. Assume that the translated text data is [DCAB]. Then, similarly to the above description, when the leaf of the tree structure ((ab) (cd)) obtained from the text data to be translated corresponding to the post-translation text data [DCAB] is converted into the target language, ((AB) ( CD)). Next, it is determined whether or not the translated text data [DCAB] can be realized by replacing these nodes. In this case, [DCAB] is obtained by exchanging C and D (replacement of
実際の文の例としては、英文(He(eats(large bread)quickly).)に対する日本語対訳、(彼は((大きな パンを)早く 食べる)。)があげられ、SVOとSOVと語順に大きな違いがあるにもかかわらず、上記のルールを満たしながら翻訳ができていることがわかる。したがって、この木構造制約モデルが適切なものであると推察することができる。 An example of an actual sentence is a Japanese translation of an English sentence (He (eats (large bread) quickly).)) (He eats (big bread) quickly). Despite the big differences, you can see that the translation is done while satisfying the above rules. Therefore, it can be inferred that this tree structure constraint model is appropriate.
この木構造制約モデルを用いない場合には、((ab)(cd))に対する可能な翻訳後テキストデータの組み合わせは4!=24である。一方、本モデルを導入した場合は8に減少している。N単語からなるバイナリ木構造の場合、本モデル導入時の組み合わせは2N−1となる。この理由は、このバイナリ木のノードの数はN−1であり、それぞれのノードに対し、入れ替えを行う、行わない、の二つの選択枝があるためである。この組み合わせ数は、本モデルを導入しない場合のN!に比べ、非常に小さいものとなっている。実際N=10の場合で約1/7,000、N=20の場合で1/2×1012である。より一般的に、バイナリ木でない場合の本モデル導入時の組み合わせ数はΠi=1 n(Bi!)である。ここで、nは木に含まれるノードの数、Biはi番目のノードの枝の数を表す。 When this tree structure constraint model is not used, there are 4 possible combinations of post-translation text data for ((ab) (cd))! = 24. On the other hand, when this model is introduced, the number is reduced to 8. In the case of a binary tree structure composed of N words, the combination when this model is introduced is 2N-1 . This is because the number of nodes in this binary tree is N-1, and there are two selection branches for each node, with or without replacement. This number of combinations is N when this model is not introduced! Compared to, it is very small. Actually, it is about 1 / 7,000 when N = 10, and 1/2 × 10 12 when N = 20. More generally, the number of combinations at the time of introduction of this model when not a binary tree is Π i = 1 n (B i !). Here, n represents the number of nodes included in the tree, and B i represents the number of branches of the i-th node.
次の式(1)は、本モデルを用いない場合の統計翻訳を表す式であり、P(f|e)、P(e)はそれぞれ翻訳モデル、言語モデルを表している。
これに対し、本実施の形態による提案モデルを用いた場合は、新たな項P(e|T)が追加され、次のような式で表されることになる。
ここで、P(e|T)が木構造制約モデルであり、Tは翻訳対象テキストデータの木構造を表している。P(e|T)の値は、eがモデルの制約を満たす場合は1であり、そうでなければ0である。eがモデルの制約を満たす場合とは、翻訳後テキストデータを、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できると判断される場合である。 Here, P (e | T) is a tree structure constraint model, and T represents a tree structure of text data to be translated. The value of P (e | T) is 1 if e satisfies the model constraints and 0 otherwise. When e satisfies the constraints of the model, the translated text data is converted from the source language of the leaf of the tree structure obtained from the text data to be translated corresponding to the translated text data to the target language, and the tree This is a case where it can be realized by exchanging the nodes of the structure.
[フレーズベースの統計的機械翻訳における判断の方法]
次に、単語ベースの統計的機械翻訳における判断方法を、フレーズベースモデルに対して適用できるように拡張する。通常、単語アライメントはn対m(0対m、n対0を含む)である。しかしながら、フレーズベースモデルでは、フレーズ対フレーズのアライメントは、たとえそれぞれのフレーズに含まれる単語数が異なっていたとしても、常に1対1対応となる。このため、前述の1対1単語対応のルールをおおむねそのままフレーズ対フレーズの対応に当てはめることができる。フレーズphiが単語snを含み、フレーズphjが単語smを含むものとする。ここで、単語snと単語smが関係を持つならば、フレーズphiとフレーズphjも関係を持つと定義する。これにより、前述のルールは次のようにフレーズに拡張することができる。
[Method of judgment in phrase-based statistical machine translation]
Next, the judgment method in the word-based statistical machine translation is extended so that it can be applied to the phrase-based model. Usually, the word alignment is n to m (including 0 to m and n to 0). However, in the phrase-based model, the phrase-to-phrase alignment is always one-to-one even if the number of words contained in each phrase is different. For this reason, the above-mentioned rule for one-to-one words can be applied to the phrase-to-phrase correspondence as it is. It is assumed that the phrase ph i includes the word s n and the phrase ph j includes the word s m . Here, if the word s n and the word s m has a relation, also defined as having a relationship phrase ph i and phrase ph j. This allows the above rules to be expanded into phrases as follows:
ルール1:翻訳原言語フレーズphiがphjと依存関係等の関係を持つならば、翻訳先言語フレーズPHiもまたPHjと関係を持つ。
ルール2:フレーズ間の関係を表すアークは交差しない。
Rule 1: If the source language phrase ph i has a relationship such as a dependency relationship with ph j , the translated language phrase PH i also has a relationship with PH j .
Rule 2: Arcs representing the relationship between phrases do not intersect.
ここで、PHnは、翻訳原言語フレーズphnの対訳フレーズを表すものとする。また、翻訳原言語フレーズは、翻訳対象テキストデータに含まれるフレーズであり、翻訳先言語フレーズは、翻訳後テキストデータに含まれるフレーズである。 Here, PH n represents a parallel translation phrase of the translation source language phrase ph n . The translation source language phrase is a phrase included in the translation target text data, and the translation destination language phrase is a phrase included in the translated text data.
上記のルールを満たしているかどうかの判断は、「翻訳後テキストデータを、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造(木構造情報の示す木構造である)のリーフの原言語から目的言語へのフレーズ単位の変換と、その木構造のノードの入れ替え(ただし、そのフレーズを分割することがないものとする)によって実現できるかどうか」の判断と同じことになる。この判断を判断部18が行うことになる。
The determination as to whether or not the above-mentioned rule is satisfied is as follows: “Left of the tree structure (the tree structure indicated by the tree structure information) obtained from the translation target text data corresponding to the translated text data. This is the same as the determination of “whether it can be realized by converting the phrase unit from the original language of the phrase into the target language and replacing the nodes of the tree structure (provided that the phrase is not divided)”. The
このフレーズに拡張したルールを適用した場合、1対1単語対応の場合と同様、翻訳原言語の括弧付けられた文を表す木構造の各ノードに対し、その直下のサブツリー(またはリーフである単語)どうしの順序を入れ替えることによって翻訳先言語文が得られる。ただし、入れ替えを行えるノードには制限があり、フレーズの一部のみを含むノードは入れ替えを行うことができない。例えば、図5のように、木構造((abc)((de)(fg)))で、bcdがフレーズphを構成している場合を考える。この場合に、ノード1はフレーズphの一部であるbcを含むため入れ替えができない。同様に、ノード2、4も入れ替えができない。一方、ノード3はフレーズを含まず、ノード5はフレーズ全体を含んでいるため、入れ替え可能である。例えば、ノード2に対し入れ替えを行った場合、フレーズphは翻訳先言語では2箇所に分割されることになり、フレーズベースモデルにおけるフレーズ対フレーズの対応が1対1であることに反することになる。結果として、この木構造の対訳としては[APHEFG]、[APHEGF]、[GFEPHA]、[FGEPHA]のみが許されることになる。ここで、PHはphの対訳フレーズを表すものとする。
When the extended rule is applied to this phrase, as in the case of one-to-one word correspondence, for each node of the tree structure representing the parenthesized sentence of the source language, the subtree (or the word that is a leaf) immediately below it ) The translated language sentence can be obtained by changing the order of each other. However, there are restrictions on the nodes that can be replaced, and a node that includes only a part of a phrase cannot be replaced. For example, as shown in FIG. 5, consider a case where bcd forms a phrase ph in a tree structure ((abc) ((de) (fg))). In this case, since
ここで、翻訳後テキストデータに上述の判断を適用する場合の具体例について説明する。翻訳後テキストデータが[DEFGABC]であるとする。その翻訳後テキストデータ[DEFGABC]に対応する翻訳対象テキストデータから得られた木構造((abc)((de)(fg)))のリーフを目的言語に変換すると、((ABC)((DE)(FG)))となる。次に、これのノードを入れ替えることによって、翻訳後テキストデータ[DEFGABC]を実現できるかどうか判断すると、それは可能である。図5におけるノード5の入れかを行えばよいからである。しかしながら、翻訳後テキストデータ[DEFGABC]では、フレーズPHが、DとBCとに分割されてしまっている。そのため、判断部18は、翻訳後テキストデータ[DEFGABC]を、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語へのフレーズ単位の変換と、その木構造のノードの入れ替え(ただし、そのフレーズを分割することがないものとする)によって実現できないと判断する。したがって、翻訳後テキストデータ[DEFGABC]が選択部19によって選択されることはないことになる。
Here, a specific example in the case where the above-described determination is applied to translated text data will be described. Assume that the translated text data is [DEFGABC]. When the leaf of the tree structure ((abc) ((de) (fg))) obtained from the text data to be translated corresponding to the post-translation text data [DEFGABC] is converted into the target language, ((ABC) ((DE ) (FG))). Next, it is possible to determine whether or not the translated text data [DEFGABC] can be realized by replacing these nodes. This is because the
一方、翻訳後テキストデータが[GFEDCBA]であれば、判断部18は、((ABC)((DE)(FG)))のノードを入れ替えることによって、その翻訳後テキストデータを得ることが可能であり、かつ、フレーズPHを分割していないと判断する。したがって、翻訳後テキストデータ[GFEDCBA]は、選択部19によって選択されうることになる。
On the other hand, if the post-translation text data is [GFEDCBA], the
[翻訳先でのレフト・トゥ・ライトの機械翻訳の方法]
次に、上述の木構造制約モデルを翻訳先でのレフト・トゥ・ライトの機械翻訳(デコーダ)に導入する場合のアルゴリズムについて説明する。この機械翻訳では、翻訳後テキストデータ(翻訳先言語文)は、左から右へ(すなわち、文頭から文末に向かって)順に生成されていく。翻訳後テキストデータを右に伸ばすための翻訳単位が新たに生成された場合に、その翻訳単位に対応する翻訳対象テキストデータの単語に対してビットが立てられる。そして、翻訳対象テキストデータのすべての単語に対するビットが立てられたときに、翻訳後テキストデータは文末に達したと判断される。木構造制約モデルをこの流れに組み込むためには、翻訳後テキストデータに付加する目的言語の翻訳単位が新たに翻訳されるたびに、木構造制約モデルの制約を満たしているかどうかチェックして、木構造制約モデルの制約を満たしているものを選択する必要がある。
[Left-to-right machine translation method at the translation destination]
Next, an algorithm for introducing the above-described tree structure constraint model into a left-to-right machine translation (decoder) at the translation destination will be described. In this machine translation, post-translation text data (translation target language sentence) is generated in order from left to right (that is, from the beginning to the end of the sentence). When a new translation unit for extending the post-translation text data to the right is generated, a bit is set for the word of the translation target text data corresponding to the translation unit. When the bits for all the words in the text data to be translated are set, it is determined that the translated text data has reached the end of the sentence. In order to incorporate the tree structure constraint model into this flow, each time a target language translation unit added to the post-translation text data is newly translated, it is checked whether the tree structure constraint model is satisfied. It is necessary to select one that satisfies the constraints of the structural constraint model.
このチェックアルゴリズムの説明の前に、翻訳対象テキストデータの木構造のサブツリーを「未翻訳」「翻訳済」「翻訳中」「NG」の4種類に分類しておく。 Prior to the description of this check algorithm, the tree structure subtree of the text data to be translated is classified into four types: “untranslated”, “translated”, “under translation”, and “NG”.
サブツリーがリーフである単語のみからなっており、かつすべての単語が未翻訳(ビットが立っていない)ならば、そのサブツリーは未翻訳である。
サブツリーが未翻訳サブツリーのみからなっているならば、そのサブツリーもまた未翻訳である。
If a subtree consists only of words that are leaves, and all the words are untranslated (no bits are set), the subtree is untranslated.
If a subtree consists only of untranslated subtrees, that subtree is also untranslated.
サブツリーがリーフである単語のみからなっており、かつすべての単語が翻訳済み(ビットが立っている)ならば、そのサブツリーは翻訳済である。
サブツリーが翻訳済サブツリーのみからなっているならば、そのサブツリーもまた翻訳済である。
If a subtree consists only of words that are leaves and all the words have been translated (bits are set), the subtree has been translated.
If a subtree consists only of translated subtrees, that subtree is also translated.
サブツリーがリーフである単語のみからなっており、未翻訳の単語と、翻訳済みの単語との双方を含むならば、そのサブツリーは翻訳中である。
サブツリーが翻訳済と、未翻訳との双方のサブツリーを含むならば、そのサブツリーは翻訳中である。
サブツリーが一つだけ翻訳中サブツリーを含むのならば、そのサブツリーは翻訳中である。
If a subtree consists only of words that are leaves and contains both untranslated words and translated words, the subtree is being translated.
If a subtree contains both translated and untranslated subtrees, the subtree is being translated.
If a subtree contains only one subtree being translated, that subtree is being translated.
サブツリーが二つ以上の翻訳中サブツリーを含むのならば、そのサブツリーはNGである。なぜなら、翻訳先でのレフト・トゥ・ライトの機械翻訳において、前述のルールを満たすのであれば、木構造において未翻訳と翻訳済とが接する境界が1個となり、翻訳中のサブツリーが2個以上存在することはあり得ないからである。
サブツリーがNGサブツリーを含んでいるならば、そのサブツリーもまたNGである。
If a subtree contains more than one translating subtree, the subtree is NG. This is because if left-to-right machine translation at the translation destination satisfies the above rules, there will be one boundary where untranslated and translated in the tree structure, and there will be two or more subtrees being translated This is because it cannot exist.
If a subtree contains an NG subtree, that subtree is also NG.
なお、本実施の形態では、NGのサブツリーが発生しないように翻訳単位の候補を選択することになるため、分類部17は、「未翻訳」「翻訳中」「翻訳済」の三種類の分類しか行わないが、上記説明のように、分類部17が「未翻訳」「翻訳中」「翻訳済」「NG」の四種類の分類を行い、分類部17によってNGの分類がなされた場合に、判断部18は、翻訳後テキストデータを、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できないと判断してもよい。そのように判断しても、前述の説明の場合、すなわち、「分類結果を用いて、2個以上の翻訳中のサブツリーを含むサブツリーが出現した場合に、翻訳後テキストデータを、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できないと判断部18が判断する」場合と実質的に同じことになる。
In this embodiment, the translation unit candidates are selected so that an NG subtree does not occur. Therefore, the
翻訳先のレフト・トゥ・ライトの機械翻訳中において、翻訳後テキストデータに新たな目的言語の翻訳単位を追加した際にNGサブツリーが生成されたならば、その翻訳単位を追加した後の翻訳後テキストデータは木構造制約モデルを満たすことができない。ここで、その理由について説明する。翻訳対象テキストデータ側のサブツリーが単語列[x1、x2、…、xn]からなるとする。このとき、このサブツリーの対訳は、それの対訳語のセット{X1、X2、…、XN}の語順を並べ替えたものとして得られる。もし、途中に他の単語が割り込んだ場合、ルール2が満たせなくなるためである。このため、翻訳中サブツリーの最後の翻訳済み単語に続く単語は、このサブツリーの中の未翻訳の単語でなければならない。これは、次に翻訳される単語は翻訳中サブツリーの中の未翻訳の単語から選ばれなければならないことを意味している。例えば、木構造((ab)((cd)(ef)))において、a、bが翻訳済単語であり、c、d、e、fが未翻訳単語である場合には、次に翻訳されるべき単語はc、d、e、fのうちのどれかでなければならない。このように、翻訳中サブツリーが二つ以上含まれるならば、この条件を満たすことができなくなる。
During machine translation of the translation destination Left to Right, if a new NG subtree is generated when a new target language translation unit is added to the post-translation text data, the post-translation after the translation unit is added Text data cannot satisfy the tree structure constraint model. Here, the reason will be described. It is assumed that the subtree on the translation target text data side is composed of word strings [x 1 , x 2 ,..., X n ]. At this time, the bilingual translation of this subtree is obtained by rearranging the word order of the bilingual word set {X 1 , X 2 ,..., X N }. This is because
次に、翻訳原言語フレーズphの対訳フレーズPHを翻訳文仮説(生成中の)に後続させる場合を考える。その時点での翻訳後テキストデータを(S1、S2、…、Si)とし、これは木構造制約モデルを満たしているものとする。これにフレーズPHを後続させた翻訳後テキストデータが翻訳中のサブツリーを二つ以上生成させない(すなわち、木構造制約モデルを満たす)ためには、次の条件のうちのどちらかを満たす必要がある。ここで、Tは、木構造における、(S1、S2、…、Si)のいずれかを含む最小の翻訳中サブツリーを表すものとする。 Next, let us consider a case where the translation phrase PH of the translation source language phrase ph follows the translation sentence hypothesis (during generation). Assume that the post-translation text data at that time is (S 1 , S 2 ,..., S i ), which satisfies the tree structure constraint model. In order to prevent the post-translation text data followed by the phrase PH from generating two or more subtrees being translated (that is, to satisfy the tree structure constraint model), one of the following conditions must be satisfied: . Here, T represents the smallest sub-tree under translation including any of (S 1 , S 2 ,..., S i ) in the tree structure.
(条件1)フレーズPHを後続させた後でもTが翻訳中であり、かつ別の翻訳中サブツリーが生成されないこと。
(条件2)フレーズPHを後続させることによって、Tが翻訳済サブツリーとなること。
(Condition 1) T is still being translated even after the phrase PH is followed, and no other subtree being translated is generated.
(Condition 2) T becomes a translated subtree by following the phrase PH.
フレーズphがTの未翻訳の部分に含まれていることは、上記条件1に対して必要十分である。また、フレーズphがTの未翻訳の部分をすべて含んでいることは条件2に対して必要十分である。このことより、既存の翻訳後テキストデータに新たな目的言語の翻訳単位を付加したものが木構造制約モデルを満たしているかの判断は次の手順で行うことができる。
It is necessary and sufficient for the
(1)既存の翻訳後テキストデータに対し、それに対応する木構造に含まれる最小の翻訳中サブツリーを記憶しておく。 (1) For existing post-translation text data, the minimum sub-tree under translation included in the corresponding tree structure is stored.
(2)既存の翻訳後テキストデータに対して新たなフレーズPHを後続させる場合に、それの対訳である翻訳原言語フレーズphと、上記(1)で記憶している最小の翻訳中サブツリーの未翻訳部分との比較を行う。phがその最小の翻訳中サブツリーの未翻訳部分に含まれる場合、あるいは、phがその最小の翻訳中サブツリーの未翻訳部分を含む場合には、既存の翻訳後テキストデータにPHを後続させた新たな翻訳後テキストデータを生成し、それに対応して、最小の翻訳中サブツリーを更新する。そうでなければ、その新たなフレーズPHは破棄され、次のフレーズについて、同様の判断が行われる。したがって、判断部18は、このような判断を行うことによって、木構造制約モデルの制限を満たしているかどうかを判断してもよい。
(2) When a new phrase PH is added to the existing post-translation text data, the translation source language phrase ph, which is a translation of the phrase, and the untranslated subtree not stored in (1) above Compare with the translated part. If ph is included in the untranslated part of the smallest translating subtree, or if ph contains the untranslated part of the smallest translating subtree, the new post-translation text data is followed by PH. Generates post-translation text data and correspondingly updates the smallest sub-translation subtree. Otherwise, the new phrase PH is discarded and the same determination is made for the next phrase. Therefore, the
次に、本実施の形態による機械翻訳装置1の動作について、具体例を用いて説明する。
この具体例において、翻訳対象テキストデータが「abcdefghi」であるとする。ここで、abc…等は、原言語の単語や形態素である。その翻訳対象テキストデータ「abcdefghi」が、翻訳対象テキストデータ記憶部11で記憶されているものとする。
Next, the operation of the
In this specific example, it is assumed that the text data to be translated is “abcdefghi”. Here, abc... Are source language words and morphemes. It is assumed that the translation target text data “abcdefghi” is stored in the translation target text
ユーザが機械翻訳装置1を操作して、翻訳対象テキストデータ「abcdefghi」の機械翻訳の処理を開始させたとする。すると、構文解析部15は、翻訳対象テキストデータ「abcdefghi」を翻訳対象テキストデータ記憶部11から読み出して、構文解析し、木構造情報「(((ab)(cd))((efg)(hi)))」を構成して、木構造情報蓄積部16に渡す(ステップS101)。すると、木構造情報蓄積部16は、その括弧付けられた文「(((ab)(cd))((efg)(hi)))」を、木構造情報として図示しない記録媒体に蓄積する(ステップS102)。なお、この木構造情報を図示すると、図6で示されるようになる。また、図6で示されているように、各ノードには、ノードID(例えば、N001等)が付与されている。そのノードIDは、リーフに近い階層の左から、N001、N002と言うように順番に付与されるように決まっているものとする。
It is assumed that the user operates the
次に、機械翻訳部13は、翻訳対象テキストデータ記憶部11から翻訳対象テキストデータを読み出し、1番目の翻訳単位の翻訳を行う(ステップS103,S104)。その機械翻訳によって、複数の翻訳結果の候補が作成されたとする。翻訳後テキストデータ蓄積部14は、その複数の翻訳結果の候補を、図示しない記録媒体に蓄積する(ステップS105)。なお、翻訳後テキストデータ蓄積部14は、その蓄積の際に、翻訳結果の候補を、その機械翻訳の尤度(確率値)の高いものから順に蓄積するものとする。したがって、蓄積後の翻訳結果の候補は、尤度の降順となっている。その1番目の候補は、フレーズ「ef」の翻訳されたフレーズ「FE」であったとする。
Next, the
ここで、ある翻訳結果の候補についての分類や判断が行われる際には、翻訳対象テキストデータ記憶部11において、前述のように、その候補を含めた翻訳済の翻訳単位に対応する翻訳済フラグが「1」に設定されているものとする。図7は、そのようにして設定された翻訳済フラグと、翻訳対象テキストデータとの対応の一例を示す図である。図7において、翻訳済フラグ「1」に対応する原言語の単語や形態素は、翻訳済であり、翻訳済フラグ「0」に対応する原言語の単語や形態素は未翻訳である。この翻訳済フラグの設定は、例えば、機械翻訳部13によって行われてもよく、判断部18によって行われてもよく、あるいは、その他の構成要素によって行われてもよい。
Here, when classification or determination is made regarding a candidate of a certain translation result, the translated flag corresponding to the translated translation unit including the candidate in the translation target text
次に、判断部18は、分類部17に対して、1番目の候補に関する分類を行うように指示する。すると、分類部17は、木構造情報蓄積部16が蓄積した木構造情報と、図7で示される翻訳対象テキストデータと翻訳済フラグとの関係とを用いて、ノードごとに分類を行う。例えば、ノードID「N001」のノードは、a,bの双方が翻訳されていないため(翻訳済フラグが「0」であるため)、未翻訳に分類される。一方、ノードID「N003」のノードは、e,fが翻訳済であるが、gは未翻訳であるため、翻訳中に分類される。その分類の結果は、図8で示されるようになる(ステップS106,S107)。なお、図8で示される分類結果は、分類部17によって図示しない記録媒体に蓄積されるものとする。
Next, the
判断部18は、分類部17によって蓄積された図8で示される分類結果を示す情報を参照し、2以上の翻訳中のサブツリー(ノード)を含むサブツリー(ノード)が存在するかどうか判断する。ここでは、ノードID「N003」「N006」「N007」のノードが翻訳中であるが、その各ノードは、1個の翻訳中のノードを有するのみであるため、判断部18は、2以上の翻訳中のサブツリーを含むサブツリーが存在しないと判断する(ステップS108)。したがって、選択部19は、その1番目の翻訳結果の候補を選択する(ステップS109)。そして、翻訳後テキストデータ蓄積部14が翻訳結果の候補を蓄積した記録媒体において、選択部19は、その翻訳結果の候補「FE」を翻訳後テキストデータに決定する。なお、選択された以外の翻訳結果の候補、すなわち、2番目以降の翻訳結果の候補は、すべて廃棄されるものとする。
The
機械翻訳部13は、図7で示される翻訳対象テキストデータと翻訳済フラグとの関係を示す情報を参照し、翻訳済フラグがすべて「1」ではないため、まだ文末ではないと判断して、次の翻訳単位、すなわち、2番目の翻訳単位の翻訳を行う(ステップS110,S112,S104)。
The
その翻訳結果は、第1の候補が「c」に対応する「C」であり、第2の候補が「g」に対応する「G」であり、第3の候補が「h」に対応する「H」であり、第4以降の候補も得られたとする。それらの翻訳結果の候補は、1番目の翻訳単位の機械翻訳の際と同様に、翻訳後テキストデータ蓄積部14によって蓄積される(ステップS105)。
As a result of the translation, the first candidate is “C” corresponding to “c”, the second candidate is “G” corresponding to “g”, and the third candidate corresponds to “h”. It is assumed that “H” and fourth and subsequent candidates are also obtained. These translation result candidates are accumulated by the post-translation text
その後、1番目の翻訳単位の場合と同様に、1番目の翻訳結果の候補に関する分類が分類部17によって行われ(ステップS106,S107)、その分類結果を基に、判断部18によって2以上の翻訳中のサブツリーを含むサブツリーが存在するかどうか判断される(ステップS108)。この場合には、ノードID「N002」「N003」「N005」「N006」のノードが翻訳中に分類されるため、判断部18は、2以上の翻訳中のサブツリー(N005とN006)を含むサブツリー「N007」が存在すると判断する(このサブツリー「N007」は、NGに分類されていてもよい)。したがって、その「C」の選択は行われず(ステップS109)、2番目の候補についての分類、判断が行われる(ステップS113)。
Thereafter, as in the case of the first translation unit, the classification related to the first translation result candidate is performed by the classification unit 17 (steps S106 and S107), and two or more are determined by the
前述の説明と同様に、2番目の翻訳結果の候補に関する分類が分類部17によって行われ(ステップS107)、その分類結果を基に、判断部18によって2以上の翻訳中のサブツリーを含むサブツリーが存在するかどうか判断される(ステップS108)。その場合の分類結果は、図8の分類結果におけるノードID「N003」に対応する「翻訳中」が「翻訳済」となるだけであるため、判断部18は、2以上の翻訳中のサブツリーを含むサブツリーが存在しないと判断する。したがって、その「C」が選択され(ステップS109)、翻訳結果の候補「G」が既存の翻訳後テキストデータに付加されるようになる。その結果、この時点での翻訳後テキストデータは、「FEG」となる。その後、前述の説明と同様に、次の翻訳単位の翻訳が行われる(ステップS110,S112,S104)。このようにして、順次、翻訳後テキストデータに付加していく翻訳単位の候補が選択されていくことによって、翻訳後テキストデータが延びていくこととなり、最終的に文末までの翻訳後テキストデータが作成されることになる。出力部20は、その最終的な翻訳後テキストデータを出力する(ステップS111)。例えば、出力部20は、ディスプレイに翻訳後テキストデータを表示する。そのディスプレイの表示を見ることによって、ユーザは、翻訳対象テキストデータ「abcdefghi」の翻訳結果を知ることができる。
次に、本実施の形態による機械翻訳装置1の実験例について説明する。
Similar to the above description, classification relating to the second translation result candidate is performed by the classification unit 17 (step S107), and based on the classification result, a subtree including two or more subtrees being translated is determined by the
Next, an experimental example of the
まず、実験における評価の尺度について説明する。このたびの実験例では、四つの評価尺度WER、PER、BLEU、NISTを用いた。ここで、各評価尺度に対する本実施の形態による機械翻訳装置1の有効性について簡単に考察する。
First, the evaluation scale in the experiment will be described. In this experimental example, four evaluation scales WER, PER, BLEU, and NIST were used. Here, the effectiveness of the
WER:この尺度は大域的な単語順序の入れ替えを考慮することができる。そのため本実施の形態による機械翻訳装置1は、この尺度に対して有効に働くと予想される。
PER:この尺度は基本的には語順を考慮することができない。したがって、この尺度に対して、本実施の形態による提案法は有効ではないと予想される。
WER: This scale can take into account global word order permutations. Therefore, the
PER: This measure basically cannot take into account word order. Therefore, it is expected that the proposed method according to the present embodiment is not effective for this scale.
BLEU:この尺度は、ngramに着目するため、中距離の単語順序の入れ替えを考慮することができる。例えば、レファレンス翻訳translation(w1、w2、…、wn)に対し、翻訳結果が(w1、w2、…、wj−1、X、wj+1、…、wn)である場合に、WER、BLEUは共に高い値を示す。しかしながら、翻訳結果(wj+1、…、wn、X、w1、w2、…、wj−1)に対しBLEUは同じく高い値を示すのに対し、WERの値は0となる。したがって、本実施の形態による機械翻訳装置1はBLEUに対し有効ではあるが、WERほどではないと予想される。
BLEU: Since this scale focuses on ngram, it is possible to consider the replacement of the middle distance word order. For example, when the reference translation translation (w 1 , w 2 ,..., W n ) is a translation result (w 1 , w 2 ,..., W j−1 , X, w j + 1 ,..., W n ). Both WER and BLEU show high values. However, BLEU shows the same high value for the translation results (w j + 1 ,..., W n , X, w 1 , w 2 ,..., W j−1 ), whereas the WER value is 0. Therefore, the
NIST:この尺度もBLEUと同様に、ngramに着目する。しかしながら、低次のngramに対する重みがBLEUより大きいため、本実施の形態による機械翻訳装置1の有効性はBLEUよりも低いと予想される。
NIST: This scale also pays attention to ngram as in BLEU. However, since the weight for the low-order ngram is larger than BLEU, the effectiveness of the
[英日ニュース翻訳実験]
まず、本実施の形態による機械翻訳装置1の性能評価のために、英日ニュース翻訳実験を行った。本実施の形態による方法を用いるためには、まず翻訳対象テキストデータの木構造情報(括弧付けられた文)が必要となり、このために、構文解析部15によって翻訳対象テキストデータをパーズ(構文解析)する必要がある。この際のパージングエラーによる性能劣化が予想される。本実験では、本実施の形態による機械翻訳装置1の性能評価を行うとともに、パージングエラーによる性能劣化の評価を行うことも目的とする。パージングエラーによる性能劣化の評価のために、本実施の形態による方法に対しては自動で(すなわち、構文解析部15により)パージングを行った結果と、正しい(人手であたえた)パーズ結果を用いた場合の二通りに対する評価を行った。
[English-Japanese News Translation Experiment]
First, in order to evaluate the performance of the
実験コーパスとしては読売新聞、ロイター及びウォールストリートジャーナルを訓練コーパスとして用いた。それぞれのデータサイズ(文数)は145K、57K、14Kである。また、ウォールストリートジャーナルから1、787文をデベロップメントセットとして、同じく1、787文を評価セットとして用いた。実験に用いたウォールストリートジャーナル文はペンツリーバンクコーパスに含まれているものであり、人手によるパーズツリーが与えられている。これらのコーパスの詳細については、図9の表に示されている。 As the experimental corpus, Yomiuri Shimbun, Reuters and Wall Street Journal were used as training corpora. Each data size (number of sentences) is 145K, 57K, and 14K. Also, 1,787 sentences from the Wall Street Journal were used as development sets, and 1,787 sentences were also used as evaluation sets. The Wall Street Journal text used in the experiment is included in the Pentree Bank Corpus and is given a manual parse tree. Details of these corpora are shown in the table of FIG.
この実験例での翻訳モデル情報としては、フレーズベース翻訳モデルを用い、その訓練にはGIZA++を用いた。このGIZA++については、次の文献1を参照されたい。また、機械翻訳部13は、言語モデルも用いて機械翻訳を行うものとする。その言語モデルの訓練には、SRI language model tool kitを用いた。これについては、次の文献2を参照されたい。言語モデルは単語トライグラムで、Kneser−Neyディスカウンティング(次の文献3を参照されたい)で平滑化を行った。デコーディングパラメータの最適化にはminimum error training(次の文献4を参照されたい)を用い、BLEUに対して最適化を行っている。また、翻訳対象テキストデータから木構造情報を抽出する構文解析部15としては、Charniakパーザー(次の文献5を参照されたい)を用いた。
As translation model information in this experimental example, a phrase-based translation model was used, and GIZA ++ was used for training. Regarding this GIZA ++, refer to the
文献1:F.J.Och,H.Ney,「A Systematic Comparison of Various Statistical Alignment Models」、Computational Linguistics,No.1,Vol.29,pp.19−51,2003. Reference 1: F.R. J. et al. Och, H.C. Ney, “A Systemical Comparison of Variant Statistical Alignment Models”, Computational Linguistics, No. 5; 1, Vol. 29, pp. 19-51, 2003.
文献2:A.Stolcke,「SRILM−An Extensible Language Model Toolkit」、Proc.ICSLP'02,2002.(http://www.speech.sri.com/projects/srilm/) Reference 2: A. Stockke, “SRILM-An Extensible Language Model Tool”, Proc. ICSLP '02, 2002. (Http://www.speech.sri.com/projects/srilm/)
文献3:R.Kneser,H.Ney,「Improved backing−off for m−gram language model」、Proceedings of the IEEE International Conference of Acoustic,Speech,and Signal processing.Vol.1,pp.181−184,1995. Reference 3: R.A. Kneser, H .; Ney, “Improved backing-off for gram language model”, Proceedings of the IEEE International Conference of Acoustics, Speech, and Signaling. Vol. 1, pp. 181-184, 1995.
文献4:F.J.Och,「Minimum error rate training for statistical machine trainslation」、Proc.ACL,2003. Reference 4: F.R. J. et al. Och, “Minimum error rate training for statistical machine training”, Proc. ACL, 2003.
文献5:E.Charniak,「A Maximum−Entropy−Inspired Parser」、Proc.NAACL−2000,pp.132−139,2000. Reference 5: E.M. Charniak, “A Maximum-Entropy-Inspired Parser”, Proc. NAACL-2000, pp. 132-139, 2000.
実験では三つの条件での比較を行った。「Base−line」は、本実施の形態による方法を用いない場合(単なるフレーズベースの統計的機械翻訳を行う場合)であり、「Chariniak」は、木構造情報の抽出にCharniakパーザーを用いた場合であり、「Oracle」は、ペンツリーバンクの木構造(すなわち、人手による木構造)を用いた場合である。デコーダは発明者らが独自に開発したPharaoh(次の文献6を参照されたい)互換デコーダCleopATRaを本実施の形態による木構造制約モデル用に改造したものを用いた。この際のパラメータはすべて共通で、Base−lineの条件で最適化を行ったものを用いた。図10に各条件での評価結果を示す。Charniakパーザーを用いた条件(Chariniak)でWERは約4%の改善、BLEUでは約0.6の改善であった。各評価基準に対する改善幅は前述した予想と一致しており、WERが一番でBLEUがそれに続いている。正解木構造を用いたOracleの結果とChariniakでは大きな違いはなく、本実施の形態による機械翻訳装置1に対してはCharniakパーザーの精度は十分であるということができる。ここで、評価文セットに対する木構造はChariniakとOracleで60%が同じであった。
In the experiment, comparison was made under three conditions. “Base-line” is a case where the method according to the present embodiment is not used (when simple phrase-based statistical machine translation is performed), and “Chariniak” is a case where a Charniak parser is used to extract tree structure information. “Oracle” is a case where a tree structure of a pen tree bank (that is, a manual tree structure) is used. As the decoder, a Pharaoh (refer to the following document 6) compatible decoder CleopATRa originally developed by the inventors was used for the tree structure constraint model according to the present embodiment. All parameters at this time are the same, and those optimized under Base-line conditions were used. FIG. 10 shows the evaluation results under each condition. Under the condition using the Charniak parser (Chariniak), the WER was improved by about 4%, and the BLEU was improved by about 0.6. The amount of improvement for each evaluation standard is consistent with the above-mentioned prediction, followed by WER and BLEU. There is no significant difference between the result of Oracle using the correct tree structure and Chariniak, and it can be said that the accuracy of the Charniak parser is sufficient for the
文献6:P.Koehn,「PHARAOH:A beam search decoder for phrase−based statistical machine translation models」、Proc.AMTA,2004.(http://www.isi.edu/publications/licensed−sw/pharaoh/) Reference 6: P.M. Koehn, “PHARAOH: A beam search decoder for phase-basic static machine translation models”, Proc. AMTA, 2004. (Http://www.isi.edu/publications/licensed-sw/farah/)
[英日特許翻訳実験]
次に、先の実験とは異なるドメインである特許に対する翻訳実験を行った。特許翻訳実験コーパスに関する詳細情報を図11に示す。モデルの訓練、パラメータの最適化方法、デコーディングに関しては、ニュース翻訳実験で用いた方法と同じである。
[English-Japanese Patent Translation Experiment]
Next, we conducted translation experiments on patents that have different domains from the previous experiment. Detailed information on the patent translation experiment corpus is shown in FIG. The model training, parameter optimization method, and decoding are the same as those used in the news translation experiment.
図12に実験結果を示す。図12において、「Proposed」が本実施の形態による機械翻訳装置1の結果である。ニュース翻訳実験の場合と同様に、WERに対する改善が最も大きく4.9%であり、BLEUがそれに次いで1.5である。この実験結果から、本実施の形態による機械翻訳装置1は、異なるドメインに対しても有効であることが確認できた。
FIG. 12 shows the experimental results. In FIG. 12, “Proposed” is the result of the
[英中翻訳実験]
最後の異なる言語ペアとして英中翻訳実験を行った。実験に用いたコーパスはSSMT2007英中リミテッドトラックで用いられたもので、その詳細を図13に示す。モデルトレーニング等の条件は英日実験の場合と同様であるが、パラメータの最適化のみに対しては評価セットをそのまま用いており、パラメータに関してクローズドの条件となっている(すなわち、評価データとは別のディベロップメントを用意しなかった)。
[English-Chinese translation experiment]
We conducted an English-Chinese translation experiment as the last different language pair. The corpus used in the experiment was the one used in the SSMT2007 UK / China Limited Track, and its details are shown in FIG. The conditions for model training, etc. are the same as for the English-Japanese experiment, but the evaluation set is used as it is for parameter optimization only, and the parameters are closed (that is, the evaluation data is I did n’t have another development).
図14に実験結果を示す。なお、本実験での中国語レファレンスの数は4(日本語リファレンスは1)となっている。また評価の単位は文字(漢字)である。英日実験の場合と同様に、WERに対する改善が最も大きく4.9%で、BLEUがそれに次いで1.9である。この実験結果から本実施の形態による機械翻訳装置1は、異なる言語ペアに対しても有効であることが確認できた。
FIG. 14 shows the experimental results. The number of Chinese references in this experiment is 4 (1 for Japanese reference). The unit of evaluation is a character (kanji). As with the UK-Japan experiment, the improvement to WER is the largest at 4.9%, followed by BLEU at 1.9. From this experimental result, it was confirmed that the
以上のように、本実施の形態による機械翻訳装置1によれば、翻訳対象テキストデータの木構造情報を生成し、その木構造情報に関する制約を導入することによって、構文情報に関するパラメータ学習を行うことなく、構文情報を用いた機械翻訳を実現することができる。したがって、学習データに関するデータスパースネスの問題を生じないようにすることができる。また、その機械翻訳の方法を、翻訳先でのレフト・トゥ・ライトの機械翻訳に直接組み込むことが可能であり、その際には単語の並び替えに関する新たな制約として働く。上記実験例によれば、本実施の形態による機械翻訳装置1においてフレーズベースの統計的機械翻訳を採用した際に、英中翻訳実験においてBLEUで1.9、WERで4.9%の改善を示し、単語の大域的な並び替えに関して有効に働くことをWERにおける4.9%という性能向上で確認することができた。
As described above, according to the
なお、本実施の形態による機械翻訳装置1では、主に翻訳先でのレフト・トゥ・ライトの機械翻訳を行う場合について説明したが、前述のように、機械翻訳部13によって複数の翻訳後テキストデータを事前に生成し、その生成された複数の翻訳後テキストデータから、木構造の制約条件に合致するものを選択するようにしてもよい。その場合には、分類部17による分類を行う必要がないため、機械翻訳装置が分類部17を備えていなくてもよい。図15は、分類部17を備えず、機械翻訳部13によって生成された複数の翻訳後テキストデータから、木構造の制約条件に合致するものを選択部19が選択する機械翻訳装置2の構成を示すブロック図である。その機械翻訳装置2が備える各構成要素は、上記説明と同様のものである。ただし、機械翻訳部13によって生成された複数の翻訳後テキストデータから、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できると判断部18が判断した1または2以上の翻訳後テキストデータを選択部19が選択することになる。
In the
図16は、図15で示される機械翻訳装置2の動作を示すフローチャートである。図16のフローチャートにおいて、ステップS101,S102の処理は、図3のフローチャートと同様であり、その説明を省略する。
FIG. 16 is a flowchart showing the operation of the
(ステップS201)機械翻訳部13は、翻訳対象テキストデータを機械翻訳する。この機械翻訳の際に、機械翻訳部13は、翻訳対象テキストデータと対訳関係にある複数の翻訳後テキストデータを生成するものとする。この生成される翻訳後テキストデータは、例えば、文である。
(Step S201) The
(ステップS202)翻訳後テキストデータ蓄積部14は、機械翻訳部13の生成した複数の翻訳後テキストデータを所定の記録媒体に蓄積する。
(ステップS203)判断部18は、カウンタiを1に設定する。
(Step S202) The post-translation text
(Step S203) The
(ステップS204)判断部18は、木構造情報蓄積部16が蓄積した木構造情報を参照し、翻訳後テキストデータ蓄積部14が蓄積したi番目の翻訳後テキストデータを、木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できるかどうか判断する。なお、機械翻訳部13が単語ベースの統計的機械翻訳を行う場合には、判断部18は、i番目の翻訳後テキストデータを、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への単語単位の変換と、その木構造のノードの入れ替えによって実現できるかどうか判断してもよい。また、機械翻訳部13がフレーズベースの統計的機械翻訳を行う場合には、判断部18は、i番目の翻訳後テキストデータを、その翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語へのフレーズ単位の変換を含む変換と、フレーズベースの統計的機械翻訳で翻訳される単位であるフレーズを分割することのない、その木構造のノードの入れ替えによって実現できるかどうか判断してもよい。
(Step S204) The
(ステップS205)選択部19は、実現できると判断部18によって判断された場合には、そのi番目の翻訳後テキストデータを選択し、ステップS206に進む。一方、実現できないと判断部18によって判断された場合には、そのi番目の翻訳後テキストデータを選択せず、ステップS207に進む。
(Step S205) If the
(ステップS206)出力部20は、選択部19によって選択されたi番目の翻訳後テキストデータを出力する。なお、前述のように、出力部20による出力は、選択結果を示す情報(例えば、選択された翻訳後テキストデータを識別する情報など)の出力であってもよい。そして、機械翻訳の一連の処理は、終了となる。
(ステップS207)判断部18は、カウンタiを1だけインクリメントする。そして、ステップS204に戻る。
(Step S206) The
(Step S207) The
なお、この図16のフローチャートも、図3のフローチャートと同様に、一文を機械翻訳する処理について説明するためのものである。したがって、複数の文を連続して機械翻訳する場合には、図16のフローチャートで示される一連の処理をその文の数だけ繰り返して実行すればよい。 Note that the flowchart of FIG. 16 is also for explaining the process of machine-translating a sentence, like the flowchart of FIG. Therefore, when a plurality of sentences are continuously machine-translated, the series of processes shown in the flowchart of FIG. 16 may be repeated for the number of sentences.
また、図16のフローチャートでは、選択部19による選択が行われた時点で、他の翻訳後テキストデータに関する判断を行わない場合について説明した。したがって、図16のフローチャートでは、1個の翻訳後テキストデータが選択されるだけである。一方、選択部19による選択が行われたとしても、それ以降の翻訳後テキストデータについても、判断を行い、選択することができる翻訳後テキストデータがあるのであれば、その翻訳後テキストデータを選択するようにしてもよい。その場合には、2以上の翻訳後テキストデータが選択されうることになる。
In the flowchart of FIG. 16, the case has been described in which the determination regarding other post-translation text data is not performed when the
また、図16のフローチャートにおいて、選択部19は、判断部18によって木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できると判断された翻訳後テキストデータのうち、機械翻訳の際に算出された尤度の大きいものから順番に、予め決められた個数や割合の翻訳後テキストデータを選択するようにしてもよく、あるいは、その尤度があらかじめ決められたしきい値よりも高い翻訳後テキストデータを選択するようにしてもよい。このように、選択部19による選択は、判断部18によって木構造のリーフの原言語から目的言語への変換と、その木構造のノードの入れ替えによって実現できると判断された翻訳後テキストデータを少なくとも選択するのであれば、その他の点において、ある程度の任意性がある。
In the flowchart of FIG. 16, the
また、図16のフローチャートでは、機械翻訳部13が翻訳した複数の翻訳後テキストデータから、いずれかの翻訳後テキストデータが選択される場合について説明したが、例えば、すべての翻訳後テキストデータについて判断を行っても、選択しうる翻訳後テキストデータが存在しなかった場合には、エラーであるとして、翻訳後テキストデータを出力することなく、一連の処理を終了するようにしてもよい。その場合には、エラーである旨を出力してもよく、そうでなくてもよい。
In the flowchart of FIG. 16, the case where any post-translation text data is selected from the plurality of post-translation text data translated by the
また、翻訳後テキストデータが木構造の制約に合致するかどうかの具体的な判断方法は、上述の「単語ベースの統計的機械翻訳における判断の方法」や、「フレーズベースの統計的機械翻訳における判断の方法」での具体例と同様であって、その説明を省略する。 In addition, the specific method for determining whether the translated text data meets the constraints of the tree structure is the above-mentioned “Method of Judgment in Word-Based Statistical Machine Translation” or “Phrase-based Statistical Machine Translation”. This is the same as the specific example in the “determination method”, and the description thereof is omitted.
また、上記実施の形態では、機械翻訳装置がスタンドアロンである場合について説明したが、機械翻訳装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部等は、例えば、通信回線を介して情報を出力することになる。 In the above-described embodiment, the case where the machine translation apparatus is a stand-alone has been described. However, the machine translation apparatus may be a stand-alone apparatus or a server apparatus in a server / client system. In the latter case, the output unit or the like outputs information via a communication line, for example.
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。 In the above embodiment, each process or each function may be realized by centralized processing by a single device or a single system, or may be distributedly processed by a plurality of devices or a plurality of systems. It may be realized by doing.
また、上記実施の形態において、機械翻訳装置に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。 In the above embodiment, when two or more components included in the machine translation apparatus include a communication device or an input device, the two or more components may have a physically single device. Alternatively, it may have a separate device.
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における機械翻訳装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、原言語から目的言語への翻訳で用いられる翻訳モデル情報が記憶される翻訳モデル情報記憶部で記憶されている翻訳モデル情報を用いて、翻訳対象となる原言語のテキストデータである翻訳対象テキストデータが記憶される翻訳対象テキストデータ記憶部で記憶されている翻訳対象テキストデータを統計的に機械翻訳する機械翻訳部と、前記機械翻訳部が翻訳対象テキストデータを機械翻訳した目的言語のテキストデータである翻訳後テキストデータを蓄積する翻訳後テキストデータ蓄積部と、前記翻訳対象テキストデータを構文解析することにより、前記翻訳対象テキストデータの木構造を示す情報である木構造情報を得る構文解析部と、前記木構造情報を蓄積する木構造情報蓄積部と、前記翻訳後テキストデータ蓄積部が蓄積した翻訳後テキストデータを、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できるかどうか判断する判断部と、前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できると前記判断部が判断した前記翻訳後テキストデータを選択する選択部と、前記選択部による選択結果を出力する出力部として機能させるためのものである。 In the above embodiment, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory. The software that implements the machine translation apparatus in the above embodiment is the following program. In other words, this program uses a translation model information stored in a translation model information storage unit in which translation model information used in translation from the source language to the target language is stored. Machine translation unit that statistically translates translation target text data stored in a translation target text data storage unit in which translation target text data is stored, and the machine translation unit converts the translation target text data This is information indicating a tree structure of the text data to be translated by parsing the text data to be translated and a text data storage section for storing the text data after translation which is text data in the target language that has been machine translated. A syntax analysis unit for obtaining tree structure information; a tree structure information storage unit for storing the tree structure information; The post-translation text data stored by the post-translation text data storage unit is a tree structure indicated by the tree structure information stored by the tree structure information storage unit, and is obtained from the translation target text data corresponding to the post-translation text data Conversion from the source language of the tree-structured leaf to the target language, a determination unit that determines whether the tree-structured node can be replaced, conversion from the source language of the tree-structured leaf to the target language, This is to function as a selection unit that selects the post-translation text data determined by the determination unit to be realized by replacing nodes in a tree structure, and an output unit that outputs a selection result by the selection unit.
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。 In the program, the functions realized by the program do not include functions that can be realized only by hardware. For example, a function that can be realized only by hardware such as a modem or an interface card in an output unit that outputs information is not included in at least the function realized by the program.
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。 Further, this program may be executed by being downloaded from a server or the like, and a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed by
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
図17は、上記プログラムを実行して、上記実施の形態による機械翻訳装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。 FIG. 17 is a schematic diagram showing an example of the external appearance of a computer that executes the program and realizes the machine translation apparatus according to the embodiment. The above-described embodiment is realized by computer hardware and a computer program executed on the computer hardware.
図17において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
In FIG. 17, the
図18は、コンピュータシステムを示す図である。図18において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
FIG. 18 is a diagram illustrating a computer system. 18, in addition to the CD-
コンピュータシステム100に、上記実施の形態による機械翻訳装置の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
A program that causes the
プログラムは、コンピュータ101に、上記実施の形態による機械翻訳装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 Further, the present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上より、本発明による機械翻訳装置等によれば、構文情報による学習を行うことなく、木構造情報に関する制約を機械翻訳に導入することができ、データスパースネスの問題を生じないという効果が得られ、機械翻訳を行う機械翻訳装置等として有用である。 As described above, according to the machine translation device or the like according to the present invention, it is possible to introduce restrictions on tree structure information into machine translation without performing learning by syntax information, and there is an effect that a problem of data sparseness does not occur. It is useful as a machine translation device that performs machine translation.
1、2 機械翻訳装置
11 翻訳対象テキストデータ記憶部
12 翻訳モデル情報記憶部
13 機械翻訳部
14 翻訳後テキストデータ蓄積部
15 構文解析部
16 木構造情報蓄積部
17 分類部
18 判断部
19 選択部
20 出力部
DESCRIPTION OF
Claims (7)
原言語から目的言語への翻訳で用いられる翻訳モデル情報が記憶される翻訳モデル情報記憶部と、
前記翻訳モデル情報を用いて、前記翻訳対象テキストデータを統計的に機械翻訳する機械翻訳部と、
前記機械翻訳部が翻訳対象テキストデータを機械翻訳した目的言語のテキストデータである翻訳後テキストデータを蓄積する翻訳後テキストデータ蓄積部と、
前記翻訳対象テキストデータを構文解析することにより、前記翻訳対象テキストデータの木構造を示す情報である木構造情報を得る構文解析部と、
前記木構造情報を蓄積する木構造情報蓄積部と、
前記翻訳後テキストデータ蓄積部が蓄積した翻訳後テキストデータを、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できるかどうか判断する判断部と、
前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できると前記判断部が判断した前記翻訳後テキストデータを選択する選択部と、
前記選択部による選択結果を出力する出力部と、を備えた機械翻訳装置。 A translation target text data storage unit that stores translation target text data that is text data of a source language to be translated;
A translation model information storage unit for storing translation model information used in translation from the source language to the target language;
Using the translation model information, a machine translation unit that statistically machine translates the text data to be translated,
A post-translation text data storage unit that stores post-translation text data that is text data of a target language obtained by machine-translating the text data to be translated by the machine translation unit;
A syntax analysis unit that obtains tree structure information that is information indicating a tree structure of the translation target text data by parsing the translation target text data;
A tree structure information storage unit for storing the tree structure information;
The post-translation text data stored by the post-translation text data storage unit is a tree structure indicated by the tree structure information stored by the tree structure information storage unit, and is obtained from the translation target text data corresponding to the post-translation text data. A determination unit that determines whether or not it can be realized by converting the leaf of the tree structure from the source language to the target language and replacing the nodes of the tree structure;
A selection unit that selects the post-translation text data determined by the determination unit to be realized by conversion from a source language of a leaf of the tree structure to a target language, and replacement of nodes of the tree structure;
An output unit that outputs a selection result by the selection unit.
前記判断部は、前記翻訳後テキストデータ蓄積部が蓄積した翻訳後テキストデータを、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への単語単位の変換と、当該木構造のノードの入れ替えによって実現できるかどうか判断する、請求項1記載の機械翻訳装置。 The machine translation unit performs statistical machine translation based on words,
The determination unit is a tree structure indicated by the tree structure information accumulated by the tree structure information accumulation unit, the post-translation text data accumulated by the translated text data accumulation unit, and a translation target corresponding to the translated text data The machine translation device according to claim 1, wherein it is determined whether or not it can be realized by conversion of a word unit from a source language of a leaf of a tree structure obtained from text data to a target language and replacement of nodes of the tree structure.
前記判断部は、前記翻訳後テキストデータ蓄積部が蓄積した翻訳後テキストデータを、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語へのフレーズ単位の変換を含む変換と、フレーズベースの統計的機械翻訳で翻訳される単位であるフレーズを分割することのない、当該木構造のノードの入れ替えによって実現できるかどうか判断する、請求項1記載の機械翻訳装置。 The machine translation unit performs a phrase-based statistical machine translation,
The determination unit is a tree structure indicated by the tree structure information accumulated by the tree structure information accumulation unit, the post-translation text data accumulated by the translated text data accumulation unit, and a translation target corresponding to the translated text data The conversion that includes the conversion of the phrase unit from the source language of the tree-structured leaf obtained from the text data to the target language, and the phrase that is the unit translated by the phrase-based statistical machine translation, without dividing The machine translation apparatus according to claim 1, wherein it is determined whether or not it can be realized by exchanging nodes of a tree structure.
前記翻訳後テキストデータは、翻訳途中のテキストデータを含むものであり、
前記木構造情報蓄積部が蓄積した木構造情報の示す木構造における各サブツリーを、当該サブツリーが、未翻訳のリーフのみを含むか、あるいは、未翻訳のサブツリーのみからなることを示す未翻訳と、当該サブツリーが、翻訳済のリーフのみを含むか、あるいは、翻訳済のサブツリーのみからなることを示す翻訳済と、当該サブツリーが、翻訳済と未翻訳のリーフのみを含むか、未翻訳と翻訳済のサブツリーのみからなるか、あるいは、1個だけ翻訳中のサブツリーを含むことを示す翻訳中とに分類する分類部をさらに備え、
前記判断部は、前記分類部による分類結果を用いて、2個以上の翻訳中のサブツリーを含むサブツリーが出現した場合に、前記翻訳後テキストデータを、前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できないと判断し、
前記機械翻訳部は、前記翻訳後テキストデータに新たな翻訳後の目的言語のテキストを追加する際に、当該テキストの追加後の翻訳後テキストデータが前記選択部によって選択されるように追加する、請求項1から請求項3のいずれか記載の機械翻訳装置。 The machine translation unit performs machine translation of left to right at the translation destination,
The post-translation text data includes text data being translated,
Each subtree in the tree structure indicated by the tree structure information stored by the tree structure information storage unit is untranslated indicating that the subtree includes only untranslated leaves or consists only of untranslated subtrees; Translated to indicate that the subtree contains only translated leaves or consists only of translated subtrees, and the subtree contains only translated and untranslated leaves, or untranslated and translated A classifying unit that classifies only that sub-tree or is in translation indicating that only one sub-tree is being translated,
When the subtree including two or more subtrees under translation appears using the classification result of the classification unit, the determination unit converts the translated text data from the source language of the tree-structured leaf to the target language. Judging that it can not be realized by conversion to and replacement of nodes of the tree structure,
The machine translation unit adds the post-translation text data after the addition of the text so that the post-translation text data is selected by the selection unit when adding a new post-translation target language text to the post-translation text data. The machine translation device according to any one of claims 1 to 3.
前記選択部は、複数の翻訳後テキストデータから、前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できると前記判断部が判断した1または2以上の翻訳後テキストデータを選択する、請求項1から請求項3のいずれか記載の機械翻訳装置。 The machine translation unit generates a plurality of post-translation text data corresponding to the text data to be translated,
1 or 2 or more which the said judgment part judged that the said selection part was realizable by conversion from the original language of the leaf of the said tree structure to the target language, and replacement | exchange of the node of the said tree structure from several translated text data The machine translation apparatus according to claim 1, wherein the post-translation text data is selected.
前記機械翻訳部が、前記翻訳モデル情報を用いて、前記翻訳対象テキストデータを統計的に機械翻訳する機械翻訳ステップと、
前記翻訳後テキストデータ蓄積部が、前記機械翻訳ステップで翻訳対象テキストデータを機械翻訳した目的言語のテキストデータである翻訳後テキストデータを蓄積する翻訳後テキストデータ蓄積ステップと、
前記構文解析部が、前記翻訳対象テキストデータを構文解析することにより、前記翻訳対象テキストデータの木構造を示す情報である木構造情報を得る構文解析ステップと、
前記木構造情報蓄積部が、前記木構造情報を蓄積する木構造情報蓄積ステップと、
前記判断部が、前記翻訳後テキストデータ蓄積ステップで蓄積した翻訳後テキストデータを、前記木構造情報蓄積ステップで蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できるかどうか判断する判断ステップと、
前記選択部が、前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できると前記判断ステップで判断した前記翻訳後テキストデータを選択する選択ステップと、
前記出力部が、前記選択ステップでの選択結果を出力する出力ステップと、を備えた機械翻訳方法。 Translation target text data storage unit storing translation target text data which is text data of the source language to be translated, and translation model information storage unit storing translation model information used in translation from the source language to the target language A machine translation method processed using a machine translation unit, a post-translation text data storage unit, a syntax analysis unit, a tree structure information storage unit, a determination unit, a selection unit, and an output unit. ,
A machine translation step in which the machine translation unit statistically machine translates the text data to be translated using the translation model information;
The post-translation text data storage unit stores post-translation text data that is post-translation text data that is text data of a target language obtained by machine translating the text data to be translated in the machine translation step;
A syntax analysis step in which the syntax analysis unit obtains tree structure information which is information indicating a tree structure of the translation target text data by parsing the translation target text data;
A tree structure information storage step in which the tree structure information storage unit stores the tree structure information;
The determination unit is a tree structure indicated by the tree structure information stored in the tree structure information storage step, the post-translation text data stored in the post-translation text data storage step, and a translation target corresponding to the post-translation text data A determination step for determining whether the tree structure leaf obtained from the text data can be realized by conversion from the source language to the target language and replacing the nodes of the tree structure;
A selection step of selecting the post-translation text data determined in the determination step that the selection unit can be realized by conversion from the source language of the leaf of the tree structure to a target language and replacement of nodes of the tree structure;
An output step in which the output unit outputs a selection result in the selection step.
原言語から目的言語への翻訳で用いられる翻訳モデル情報が記憶される翻訳モデル情報記憶部で記憶されている翻訳モデル情報を用いて、翻訳対象となる原言語のテキストデータである翻訳対象テキストデータが記憶される翻訳対象テキストデータ記憶部で記憶されている翻訳対象テキストデータを統計的に機械翻訳する機械翻訳部と、
前記機械翻訳部が翻訳対象テキストデータを機械翻訳した目的言語のテキストデータである翻訳後テキストデータを蓄積する翻訳後テキストデータ蓄積部と、
前記翻訳対象テキストデータを構文解析することにより、前記翻訳対象テキストデータの木構造を示す情報である木構造情報を得る構文解析部と、
前記木構造情報を蓄積する木構造情報蓄積部と、
前記翻訳後テキストデータ蓄積部が蓄積した翻訳後テキストデータを、前記木構造情報蓄積部が蓄積した木構造情報の示す木構造であり、当該翻訳後テキストデータに対応する翻訳対象テキストデータから得られた木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できるかどうか判断する判断部と、
前記木構造のリーフの原言語から目的言語への変換と、当該木構造のノードの入れ替えによって実現できると前記判断部が判断した前記翻訳後テキストデータを選択する選択部と、
前記選択部による選択結果を出力する出力部として機能させるためのプログラム。 Computer
Translation target text data, which is text data in the source language to be translated, using translation model information stored in a translation model information storage unit in which translation model information used in translation from the source language to the target language is stored A machine translation unit that statistically machine translates the text data to be translated stored in the text data storage unit to be translated,
A post-translation text data storage unit that stores post-translation text data that is text data in a target language obtained by machine-translating the text data to be translated by the machine translation unit;
A syntax analysis unit that obtains tree structure information that is information indicating a tree structure of the translation target text data by parsing the translation target text data;
A tree structure information storage unit for storing the tree structure information;
The post-translation text data stored by the post-translation text data storage unit is a tree structure indicated by the tree structure information stored by the tree structure information storage unit, and is obtained from the translation target text data corresponding to the post-translation text data. A determination unit that determines whether or not it can be realized by converting the leaf of the tree structure from the source language to the target language and replacing the nodes of the tree structure;
A selection unit that selects the post-translation text data determined by the determination unit to be realized by conversion from a source language of a leaf of the tree structure to a target language, and replacement of nodes of the tree structure;
The program for functioning as an output part which outputs the selection result by the said selection part.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007243251A JP2009075795A (en) | 2007-09-20 | 2007-09-20 | Machine translation apparatus, machine translation method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007243251A JP2009075795A (en) | 2007-09-20 | 2007-09-20 | Machine translation apparatus, machine translation method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009075795A true JP2009075795A (en) | 2009-04-09 |
Family
ID=40610709
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007243251A Pending JP2009075795A (en) | 2007-09-20 | 2007-09-20 | Machine translation apparatus, machine translation method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009075795A (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9530161B2 (en) | 2014-02-28 | 2016-12-27 | Ebay Inc. | Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data |
| US9569526B2 (en) | 2014-02-28 | 2017-02-14 | Ebay Inc. | Automatic machine translation using user feedback |
| US9798720B2 (en) | 2008-10-24 | 2017-10-24 | Ebay Inc. | Hybrid machine translation |
| US9881006B2 (en) | 2014-02-28 | 2018-01-30 | Paypal, Inc. | Methods for automatic generation of parallel corpora |
| US9940658B2 (en) | 2014-02-28 | 2018-04-10 | Paypal, Inc. | Cross border transaction machine translation |
| CN110678868A (en) * | 2017-03-29 | 2020-01-10 | Cy游戏公司 | Translation support system, etc. |
-
2007
- 2007-09-20 JP JP2007243251A patent/JP2009075795A/en active Pending
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9798720B2 (en) | 2008-10-24 | 2017-10-24 | Ebay Inc. | Hybrid machine translation |
| US9530161B2 (en) | 2014-02-28 | 2016-12-27 | Ebay Inc. | Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data |
| US9569526B2 (en) | 2014-02-28 | 2017-02-14 | Ebay Inc. | Automatic machine translation using user feedback |
| US9805031B2 (en) | 2014-02-28 | 2017-10-31 | Ebay Inc. | Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data |
| US9881006B2 (en) | 2014-02-28 | 2018-01-30 | Paypal, Inc. | Methods for automatic generation of parallel corpora |
| US9940658B2 (en) | 2014-02-28 | 2018-04-10 | Paypal, Inc. | Cross border transaction machine translation |
| CN110678868A (en) * | 2017-03-29 | 2020-01-10 | Cy游戏公司 | Translation support system, etc. |
| CN110678868B (en) * | 2017-03-29 | 2023-01-20 | Cy游戏公司 | Translation support system, translation support apparatus, translation support method, and computer-readable medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101084786B1 (en) | Computer-readable recording medium storing tree sequencing components | |
| US6278967B1 (en) | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis | |
| US7797148B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
| JP4554273B2 (en) | Method and system for training a mechanical translator | |
| US7860719B2 (en) | Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers | |
| KR101762866B1 (en) | Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method | |
| JP2005521952A (en) | Inter-phrase coupling probability model for statistical machine translation | |
| CN101770458A (en) | Mechanical translation method based on example phrases | |
| JP2009075795A (en) | Machine translation apparatus, machine translation method, and program | |
| Xu et al. | Sentence segmentation using IBM word alignment model 1 | |
| WO1997040452A1 (en) | Automated natural language translation | |
| JP5552101B2 (en) | Rearrangement rule learning device, method, and program, and translation device, method, and program | |
| US7865352B2 (en) | Generating grammatical elements in natural language sentences | |
| JP5565827B2 (en) | A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium. | |
| JP7511381B2 (en) | Sentence generation device, sentence generation method, and sentence generation program | |
| Chaudhary et al. | The ariel-cmu systems for lorehlt18 | |
| Nguyen et al. | A tree-to-string phrase-based model for statistical machine translation | |
| Tajalli et al. | Developing an informal-formal persian corpus | |
| JP5734917B2 (en) | Rearrangement model learning apparatus, method, and program, and translation apparatus, method, and program | |
| JP2006004366A (en) | Machine translation system and computer program therefor | |
| JP2006127405A (en) | Bilingual parallel text alignment method and computer executable program therefor | |
| Alkazemi et al. | AccurIT: a prototype of a machine translation engine for English to Arabic translation | |
| JP2011180941A (en) | Phrase table generator and computer program therefor | |
| Jain et al. | Codeswitched sentence creation using dependency parsing | |
| KR101753708B1 (en) | Apparatus and method for extracting noun-phrase translation pairs of statistical machine translation |