JP2018055670A - Similar sentence generation method, similar sentence generation program, similar sentence generation apparatus, and similar sentence generation system - Google Patents
Similar sentence generation method, similar sentence generation program, similar sentence generation apparatus, and similar sentence generation system Download PDFInfo
- Publication number
- JP2018055670A JP2018055670A JP2017096570A JP2017096570A JP2018055670A JP 2018055670 A JP2018055670 A JP 2018055670A JP 2017096570 A JP2017096570 A JP 2017096570A JP 2017096570 A JP2017096570 A JP 2017096570A JP 2018055670 A JP2018055670 A JP 2018055670A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- database
- sentences
- context
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる類似文生成方法を提供する。【解決手段】類似文生成方法は、第1文を入力し、第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、第2データベースに基づいて一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、第1文において第1語句が一以上の第2語句に置き換えられた一以上の第2文において、N−gram値に相当する数の第2語句を含んだ連続する一以上の第3語句を抽出し、一以上の第3語句について、第3データベースにおける出現頻度を算出し、算出された出現頻度が閾値以上であるか判定し、算出された出現頻度が閾値以上であると判定された場合は、一以上の第2文を第1文の類似文として採用し、外部の機器に出力する。【選択図】図5The present invention provides a similar sentence generation method capable of reducing the search cost for a database of language models and identifying a similar sentence with high accuracy. A similar sentence generation method inputs a first sentence, extracts one or more second phrases having the same meaning as the first phrase from a first database among a plurality of phrases constituting the first sentence, An N-gram value is calculated based on a context-dependent value corresponding to one or more second words based on the second database, and the first word is replaced with one or more second words in the first sentence. In the second sentence, one or more consecutive third phrases including the number of second phrases corresponding to the N-gram value are extracted, and the appearance frequency in the third database is calculated for the one or more third phrases, It is determined whether the calculated appearance frequency is equal to or higher than the threshold, and when it is determined that the calculated appearance frequency is equal to or higher than the threshold, one or more second sentences are adopted as similar sentences of the first sentence, Output to the device. [Selection] Figure 5
Description
本開示は、原文から類似文を生成する類似文生成方法、類似文生成プログラム、類似文生成装置、及び該類似文生成装置を備える類似文生成システムに関する。 The present disclosure relates to a similar sentence generation method for generating a similar sentence from an original sentence, a similar sentence generation program, a similar sentence generation apparatus, and a similar sentence generation system including the similar sentence generation apparatus.
近年、第1言語の文を第1言語と異なる第2言語の文に翻訳する機械翻訳が研究及び開発されており、このような機械翻訳の性能向上には、翻訳に利用可能な多数の例文を収集した対訳コーパスが必要となる。このため、1個の原文から当該原文に類似する1又は複数の類似文(言い換え文)を生成することが行われている。 In recent years, machine translation that translates sentences in a first language into sentences in a second language different from the first language has been researched and developed. To improve the performance of such machine translation, a large number of example sentences that can be used for translation are studied. A bilingual corpus that collects For this reason, one or a plurality of similar sentences (paraphrase sentences) similar to the original sentence are generated from one original sentence.
例えば、特許文献1には、所定のパターンで文を変形し、ふさわしい変形かどうかを判定するため、評価関数を用いて評価値を算出し、評価値の最も高い表現を選択する言語変換処理統一システムが開示されている。
For example,
また、特許文献2には、活性に係るポイントを形態素に設定して、そのポイントを増減させ、増減されたポイントに基づいてテキストから情報を抽出する自然言語処理方法が開示されている。 Patent Document 2 discloses a natural language processing method in which points relating to activity are set as morphemes, the points are increased or decreased, and information is extracted from text based on the increased or decreased points.
また、特許文献3には、ユーザによって指定された言い換え前用例及び言い換え後用例に基づいて新たな言い換え後用例を生成し、解析済み文に差分を適用することによって作成された言い換え文を出力する文書処理装置が開示されている。 Patent Document 3 generates a new post-paraphrase example based on the pre-paraphrase example and post-paraphrase example specified by the user, and outputs a paraphrase sentence created by applying the difference to the analyzed sentence. A document processing apparatus is disclosed.
しかしながら、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、例文として使用可能な類似文の生成には、更なる改善が必要とされていた。 However, in order to improve the performance of machine translation, it is preferable that there are many example sentences that can be used for translation. Further generation of similar sentences that can be used as example sentences requires further improvement.
本開示は、上記従来の課題を解決するもので、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システムを提供することを目的とする。 The present disclosure solves the above-described conventional problems, and can reduce the search cost for a database of language models and can identify similar sentences with high accuracy, a similar sentence generation method, a similar sentence generation program, and a similar sentence An object is to provide a generation device and a similar sentence generation system.
本開示の一様態による方法は、原文から類似文を生成する方法であって、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する。 A method according to an aspect of the present disclosure is a method of generating a similar sentence from an original sentence, and the first sentence is input, and one or more having the same meaning as the first phrase among a plurality of phrases constituting the first sentence Are extracted from the first database, the first database associates the phrase with a synonym of the phrase included in the first database, and the one or more second terms obtained based on the second database An N-gram value is calculated based on a context-dependent value corresponding to a phrase, and the second database associates the phrase with the context-dependent value corresponding to the phrase included in the second database, and the context-dependent value Indicates the degree to which the meaning of the phrase included in the second database depends on the context, and the one or more second sentences in which the first phrase is replaced with the one or more second phrases in the first sentence In the above -Extracting one or more consecutive third words / phrases including a number of the second words / phrases corresponding to a gram value, calculating an appearance frequency in a third database for the one or more third words / phrases, and Associates a phrase with the appearance frequency of the phrase included in the third database in the third database, determines whether the calculated appearance frequency is greater than or equal to a threshold, and the calculated occurrence frequency is greater than or equal to the threshold If it is determined that there is, the one or more second sentences are adopted as similar sentences of the first sentence and output to an external device.
本開示によれば、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。 According to the present disclosure, it is possible to reduce the search cost for the language model database and to identify similar sentences with high accuracy.
(本開示の基礎となった知見)
上記のように、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、文節置き換えを用いた類似文生成による、少量の対訳コーパスをベースとした文章量の自動拡大が要望されている。この文節置き換えを用いた類似文の生成の際、置き換え対象となる表現(語句)を含む類似候補文の取捨選択において、置き換えの良否が文脈に依存する場合が存在する。
(Knowledge that became the basis of this disclosure)
As described above, it is preferable to increase the number of example sentences that can be used for translation for improving the performance of machine translation, and it is desired to automatically expand the amount of sentences based on a small amount of parallel corpus by generating similar sentences using phrase replacement. ing. When generating similar sentences using phrase replacement, there are cases where the success or failure of replacement depends on the context in selecting similar candidate sentences including expressions (phrases) to be replaced.
このため、言語モデルに基づく置き換えルールの動的な取捨選択により、文脈依存性を考慮しつつ、事例の学習及び反映を可能にしたいが、効率良く類似候補文を取捨選択するには如何に類似候補文を取捨選択するかが重要となる。 For this reason, we want to enable learning and reflection of cases while considering context dependency by dynamic selection of replacement rules based on the language model, but how to select similar candidate sentences efficiently It is important to select candidate sentences.
例えば、置き換え(換言)による対訳コーパスの拡張及び類似候補文の生成を行う場合、換言ルールとして、「話せない」が(1)「話せません」、(2)「喋れない」、(3)「秘密です」のいずれかに置き換えられる場合、「英語は話せない」との文章に、上記の換言ルールを適用すると、「英語は話せません」、「英語は喋れない」、及び「英語は秘密です」の3つの類似候補文が生成される。 For example, when expanding a bilingual corpus by replacement (paraphrase) and generating similar candidate sentences, the paraphrase rule is “I can't speak” (1) “I can't speak”, (2) “I can't speak”, (3) If you replace it with any of the words "I can't speak English" and apply the above paraphrase rule to "I can't speak English", "I can't speak English", and "English can't speak" Three similar candidate sentences are generated.
この場合、文脈から、「英語は話せません」及び「英語は喋れない」は、類似文として採用できるが、「英語は秘密です」は日本語として適切な表現ではないため、類似文として採用することはできず、棄却されることとなる。このように、同一の換言ルールを適用しても、文脈によって、類似候補文が類似文として採用できる場合とできない場合とが発生する。 In this case, from the context, “I can't speak English” and “I can't speak English” can be adopted as similar sentences, but “English is a secret” is not an appropriate expression for Japanese, so it is adopted as a similar sentence. It cannot be done and will be rejected. In this way, even if the same paraphrase rule is applied, there are cases where a similar candidate sentence can be adopted as a similar sentence and a case where it cannot be adopted depending on the context.
類似文として採用できる採択文と採用できない棄却文とを識別する従来の方法としては、単語ベクトルや文ベクトルを用いた分散表現モデルでの類似性や言語モデル(例えば、N−gram言語モデル)での出現頻度等を基準に判断することが行われていた。具体的には、言語モデルの識別対象領域(探索範囲)を大きくする(例えば、N−gramのNを大きくする)ことにより、表現として存在しているかどうかを判断し、文脈に依存する換言ルール(置き換えルール)の採択及び棄却を決定していた。 Conventional methods for discriminating adopted sentences that can be adopted as similar sentences and reject sentences that cannot be adopted are similarities in a distributed expression model using word vectors or sentence vectors, or language models (for example, N-gram language model). Judgment was made based on the appearance frequency of Specifically, by increasing the identification target area (search range) of the language model (for example, by increasing N of N-gram), it is determined whether or not it exists as an expression, and a paraphrase rule that depends on the context (Replacement rules) have been adopted and rejected.
また、言語モデルを用いて、文の流暢さをモデル化することによる評価も行われていた。例えば、言語モデルをN−gram言語モデルとし、N−gram言語モデルのデータベース内により多く含まれている表現を用いた訳文やフレーズのスコアを高くし、あまり含まれていないもののスコアを低くする、と言った手法などがある。この手法を応用することにより、類似候補文のスコアを算出し、閾値処理によって、「良い文」(類似文として採用できる採択文)又は「悪い文」(類似文として採用できない棄却文)を識別していた。 In addition, evaluation was performed by modeling the fluency of sentences using a language model. For example, if the language model is an N-gram language model, the score of translations and phrases using expressions included more in the database of the N-gram language model is increased, and the score of those that are not included is decreased. There is a technique that said. By applying this method, the score of similar candidate sentences is calculated, and “good sentences” (adopted sentences that can be adopted as similar sentences) or “bad sentences” (rejected sentences that cannot be adopted as similar sentences) are identified by threshold processing. Was.
しかしながら、識別対象領域を大きくすると、データ量及び計算量が増加するとともに、データ分布が疎になるため、全ての置き換え候補を大きな識別対象領域から検索するためには、データ量及び計算量が増大する。例えば、2−gramでは約8,000万エントリであるが、5−gramでは約8億エントリとなり、N−gramのNを大きくすると、データ量及び計算量が飛躍的に増大するという課題がある。 However, if the identification target area is enlarged, the data amount and calculation amount increase, and the data distribution becomes sparse. Therefore, in order to search all replacement candidates from the large identification target region, the data amount and calculation amount increase. To do. For example, in the case of 2-gram, there are about 80 million entries, but in case of 5-gram, there are about 800 million entries. If N of N-gram is increased, the amount of data and the calculation amount will increase dramatically. .
上記の課題を解決するため、本開示では、例えば、置き換え候補文字列と、当該置き換え候補文字列が文脈に依存する程度を表す文脈依存値とを対応付けて複数記憶する文脈依存値記憶部を設け、文脈に依存して置き換え良否が変動する類似文において、文脈に依存して置き換えの良否が変動するか否かに応じて、置き換え候補文字列の前後の単語を含む言語モデルを参照するか否かを決定する。 In order to solve the above problem, in the present disclosure, for example, a context-dependent value storage unit that stores a plurality of replacement-candidate character strings and context-dependent values that indicate the degree of dependency of the replacement-candidate character strings on the context is stored. Whether to refer to a language model that includes words before and after the replacement candidate character string, depending on whether or not the replacement quality varies depending on the context in a similar sentence that varies depending on the context Decide whether or not.
すなわち、文脈依存値に応じて言語モデルのデータベースに対する探索範囲(識別対象領域)を決定し、決定した探索範囲を用いて言語モデルのデータベースを探索することにより、文脈依存値が高いとみなされる置き換え候補文字列のみ、より大きな探索領域で識別を行い、文脈依存値が低い置き換え候補文字列は、小さな探索領域で識別を行い、探索コストと識別精度とのバランスを図っている。 In other words, by determining the search range (identification target region) for the language model database according to the context-dependent value, and searching the language model database using the determined search range, replacement that is regarded as having a high context-dependent value Only candidate character strings are identified in a larger search area, and replacement candidate character strings having a low context-dependent value are identified in a smaller search area to balance search cost and identification accuracy.
また、従来の類似文の生成方法では、分散表現や言語モデル内に含まれていない表現は、そもそも識別することができず、棄却されることとなる。例えば、訓練データ内に、「それは秘密です」というフレーズを含む文が無いと、「それは秘密です」を含む類似候補文の識別ができず、棄却されるという課題がある。 Further, in the conventional similar sentence generation method, distributed expressions and expressions that are not included in the language model cannot be identified in the first place, and are rejected. For example, if there is no sentence including the phrase “it is secret” in the training data, there is a problem that similar candidate sentences including “it is secret” cannot be identified and rejected.
上記の課題を解決するため、本開示では、例えば、外部からの入力(例えば、ユーザ又は所定の装置等のフィードバック)により、文脈依存性の有る置き換え候補文字列が入力された場合に、言語モデルのデータベース及び文脈依存値記憶部等を更新する。また、新しい文表現が入力された場合に、その表現に応じて、文脈依存値記憶部内の当該単語の文脈依存値を変化させ、また、新しい文表現を含むN−gram等を部分構築し、新しい文表現を言語モデルに反映する。このように、正しいデータを追加することにより、置き換え文字列の前後の単語を含む言語モデルの出現頻度等を加減するとともに、文脈依存値記憶部そのものも外部入力に応じて更新する。 In order to solve the above problem, in the present disclosure, for example, when a replacement candidate character string having context dependency is input by an input from the outside (for example, feedback from a user or a predetermined device), a language model Update the database and the context-dependent value storage. In addition, when a new sentence expression is input, the context-dependent value of the word in the context-dependent value storage unit is changed according to the expression, and an N-gram or the like including the new sentence expression is partially constructed. Reflect new sentence expressions in the language model. In this way, by adding correct data, the appearance frequency of the language model including words before and after the replacement character string is adjusted, and the context-dependent value storage unit itself is also updated according to the external input.
上記のように、外部知識や新知識をフィードバックして、言語モデルのデータベース等を更新することにより、識別精度を向上させることができる。この結果、低コストで精度の良い類似候補文の識別を行い、更に、N−gramモデルのデータベース内に存在しない表現にも、更新して対応できる高効率で自律的な類似候補文の識別を行うことができる。 As described above, the identification accuracy can be improved by feeding back external knowledge and new knowledge and updating the language model database and the like. As a result, low-cost and accurate similar candidate sentences are identified, and high-efficiency and autonomous similar candidate sentences that can be updated and dealt with even in expressions that do not exist in the N-gram model database are identified. It can be carried out.
上記の知見に基づき、本願発明者らは、原文から類似文を如何にして生成すべきかについて鋭意検討を行った結果、本開示を完成したものである。 Based on the above findings, the inventors of the present application have completed the present disclosure as a result of intensive studies on how to generate a similar sentence from the original sentence.
本開示の一態様に係る方法は、原文から類似文を生成する方法であって、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する。 A method according to an aspect of the present disclosure is a method of generating a similar sentence from an original sentence, and inputs a first sentence, and has a same meaning as the first phrase among a plurality of phrases constituting the first sentence. The second phrase is extracted from the first database, the first database associates the phrase with a synonym of the phrase included in the first database, and the one or more first phrases obtained on the basis of the second database. An N-gram value is calculated based on a context-dependent value corresponding to two phrases, and the second database associates the phrase with the context-dependent value corresponding to the phrase included in the second database, and the context-dependent The value indicates the degree to which the meaning of the word or phrase included in the second database depends on the context, and the one or more second words in which the first word or phrase is replaced with the one or more second words or phrases in the first sentence. In the sentence, -Extracting one or more consecutive third words / phrases including a number of the second words / phrases corresponding to a gram value, calculating an appearance frequency in a third database for the one or more third words / phrases, and Associates a phrase with the appearance frequency of the phrase included in the third database in the third database, determines whether the calculated appearance frequency is greater than or equal to a threshold, and the calculated occurrence frequency is greater than or equal to the threshold If it is determined that there is, the one or more second sentences are adopted as similar sentences of the first sentence and output to an external device.
このような構成により、第1文を入力し、第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、第1データベースは語句と第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、第2データベースは語句と第2データベースに含まれた語句に対応する文脈依存値とを対応づけ、文脈依存値は、第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、第1文において第1語句が一以上の第2語句に置き換えられた一以上の第2文において、N−gram値に相当する数の第2語句を含んだ連続する一以上の第3語句を抽出し、一以上の第3語句について、第3データベースにおける出現頻度を算出し、第3データベースは語句と第3データベースに含まれる語句の第3データベースにおける出現頻度とを対応づけ、算出した出現頻度が閾値以上であるか判定し、算出した出現頻度が閾値以上であると判定された場合は、一以上の第2文を第1文の類似文として採用し、外部の機器に出力しているので、文脈依存値が高い第2語句のみ、大きな探索領域で識別を行い、文脈依存値が低い第2語句は、小さな探索領域で識別を行うことができ、言語モデルのデータベースである第3データベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。 With this configuration, the first sentence is input, and one or more second phrases having the same meaning as the first phrase are extracted from the first database among the plurality of phrases constituting the first sentence. Associating a phrase with a synonym of a phrase included in the first database, calculating an N-gram value based on a context-dependent value corresponding to one or more second phrases obtained based on the second database; The second database associates the phrase with a context-dependent value corresponding to the phrase included in the second database, and the context-dependent value indicates the degree to which the meaning of the phrase included in the second database depends on the context, Extract one or more consecutive third words / phrases including the number of second words / phrases equivalent to the N-gram value in one or more second sentences in which the first word / phrase is replaced with one or more second words / phrases. And one or more third words And calculating the appearance frequency in the third database, the third database associates the phrase with the appearance frequency in the third database of the phrase included in the third database, and determines whether the calculated appearance frequency is equal to or greater than a threshold value, If it is determined that the calculated appearance frequency is greater than or equal to the threshold, one or more second sentences are adopted as similar sentences of the first sentence and are output to an external device. Only words / phrases are identified in a large search area, and second words / phrases with low context-dependent values can be identified in a small search area, reducing search costs for the third database, which is a language model database, and similar. Sentences can be identified with high accuracy.
前記第1文は第1言語で記述され、前記第1文は対訳コーパスに含まれ、前記対訳コーパスは第1言語で記述された文と第2言語で記述された対訳文との対を複数含み、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として前記対訳コーパスに追加するようにしてもよい。 The first sentence is described in a first language, the first sentence is included in a bilingual corpus, and the bilingual corpus includes a plurality of pairs of a sentence described in the first language and a bilingual sentence described in the second language. In addition, when it is determined that the calculated appearance frequency is equal to or higher than the threshold, the one or more second sentences may be added to the parallel corpus as similar sentences to the first sentence.
このような構成により、対訳コーパスに類似文を追加することができる。 With such a configuration, a similar sentence can be added to the bilingual corpus.
前記第3データベースは、N−gram言語モデルのデータベースを含み、前記文脈依存値に応じて、前記N−gram言語モデルのNをi(正の整数)に決定し、前記第3データベースを照合することにより、前記第2語句を含むi−gramの出現頻度を求め、前記第2語句を含むi−gramの出現頻度に基づいて、前記一以上の第2文を前記第1文の類似文として採用するか否かを判定するようにしてもよい。 The third database includes an N-gram language model database, and N of the N-gram language model is determined as i (positive integer) according to the context-dependent value, and the third database is collated. Thus, the appearance frequency of the i-gram including the second word / phrase is obtained, and the one or more second sentences are set as similar sentences of the first sentence based on the appearance frequency of the i-gram including the second word / phrase. You may make it determine whether it employ | adopts.
このような構成により、文脈依存値に応じてN−gram言語モデルのNをi(正の整数)に決定し、N−gram言語モデルのデータベースを照合することにより、第2語句を含むi−gramの出現頻度を求め、求めた出現頻度に基づいて、一以上の第2文を第1文の類似文として採用するか否かを判定しているので、文脈依存値が大きいほどiを大きく、文脈依存値が小さいほどiを小さく設定することにより、文脈依存性が高い第2語句に対して、広い識別対象領域を用いて、文脈依存値が大きい第2語句を含むi−gramの出現頻度を高精度に求めることができるとともに、文脈依存性が低い第2語句に対して、狭い識別対象領域を用いて、文脈依存値が小さい第2語句を含むi−gramの出現頻度を低コストで且つ高精度に求めることができ、類似文の識別を効率よく且つ高精度に行うことができる。 With such a configuration, N of the N-gram language model is determined as i (a positive integer) according to the context-dependent value, and the i- containing the second word is checked by collating the database of the N-gram language model. Since the appearance frequency of gram is obtained and it is determined whether or not one or more second sentences are adopted as similar sentences of the first sentence based on the obtained appearance frequency, i increases as the context-dependent value increases. By setting i to be smaller as the context-dependent value is smaller, an i-gram including the second word / phrase having a larger context-dependent value is used for a second word / phrase having a higher context-dependent value by using a wide identification target area. The frequency can be obtained with high accuracy and the appearance frequency of the i-gram including the second word / phrase having a small context-dependent value is reduced at a low cost by using a narrow identification target region for the second word / phrase having a low context dependence. And with high accuracy Can Mel, it is possible to identify similar sentence efficiently and accurately.
前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、前記翻訳結果文を評価し、前記翻訳結果文の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成するようにしてもよい。 Generated based on the one or more second sentences determined to be adopted as similar sentences of the first sentence, and a translated sentence obtained by translating the first sentence that generated the one or more second sentences in a second language Using the translated model, a predetermined translation target sentence is translated to create a translation result sentence, the translation result sentence is evaluated, and based on the evaluation result of the translation result sentence, the language of the translation target sentence and Feedback information including language information related to the language of the translation result sentence and evaluation information for the language information may be generated.
このような構成により、採用すると判定された一以上の第2文と、一以上の第2文を生成した第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、作成した翻訳結果文を評価し、この翻訳結果文の評価結果に基づいて、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を学習及び反映するためのフィードバック情報を自律的に生成することができる。 With such a configuration, a translation model generated based on one or more second sentences determined to be adopted and a translated sentence obtained by translating the first sentence that generated one or more second sentences in the second language To create a translation result sentence by translating a predetermined translation target sentence, evaluate the created translation result sentence, and based on the evaluation result of the translation result sentence, the language of the translation target sentence and / or the translation result sentence Since feedback information including language information related to the language and evaluation information for the language information is generated, feedback information for learning and reflecting cases considering context dependency can be generated autonomously. .
前記第1データベース、前記第2データベース及び前記第3データベースのうち少なくとも一つを、前記フィードバック情報を用いて更新するようにしてもよい。 At least one of the first database, the second database, and the third database may be updated using the feedback information.
このような構成により、言語情報と評価情報とを含むフィードバック情報を用いて、第1データベース、第2データベース及び第3データベースのうち少なくとも一つを更新しているので、文脈依存性を考慮した事例を第1データベース、第2データベース及び第3データベースのうち少なくとも一つに反映することができ、更新前の第1データベース、第2データベース及び第3データベースに存在しない表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。 With such a configuration, at least one of the first database, the second database, and the third database is updated using feedback information including language information and evaluation information. Can be reflected in at least one of the first database, the second database, and the third database, and can be applied to expressions that do not exist in the first database, the second database, and the third database before being updated, It is possible to identify autonomous similar sentences.
前記フィードバック情報が文脈依存性を有する前記第2語句を含む場合、前記第2データベース及び前記第3データベースを更新するようにしてもよい。 When the feedback information includes the second word / phrase having context dependency, the second database and the third database may be updated.
このような構成により、フィードバック情報が文脈依存性を有する第2語句を含む場合、第2データベース及び第3データベースを更新しているので、文脈依存性を考慮した事例を第2データベース及び第3データベースに反映することができ、文脈依存性を考慮した高効率で且つ自律的な類似文の識別を行うことができる。 With such a configuration, when the feedback information includes a second word / phrase having context dependency, the second database and the third database are updated. It is possible to identify the similar sentence with high efficiency and autonomousness considering the context dependency.
前記フィードバック情報が新しい文表現を含む場合、前記文表現に応じて前記第2データベースの文脈依存値を変化させるようにしてもよい。 When the feedback information includes a new sentence expression, a context-dependent value of the second database may be changed according to the sentence expression.
このような構成により、フィードバック情報が新しい文表現を含む場合、新しい文表現に応じて第2データベースの文脈依存値を変化させているので、新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。 With this configuration, when the feedback information includes a new sentence expression, the context-dependent value of the second database is changed according to the new sentence expression. Similar sentences can be identified.
前記フィードバック情報が新しい文表現を含む場合、前記文表現を含むように前記第3データベースを更新するようにしてもよい。 When the feedback information includes a new sentence expression, the third database may be updated to include the sentence expression.
このような構成により、フィードバック情報が新しい文表現を含む場合、新しい文表現を含むように第3データベースを更新しているので、更新前の第3データベースに存在しない新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。 With such a configuration, when the feedback information includes a new sentence expression, the third database is updated to include the new sentence expression. Therefore, it is possible to cope with a new sentence expression that does not exist in the third database before the update. Efficient and autonomous identification of similar sentences can be performed.
また、本開示は、以上のような特徴的な処理を実行する類似文生成方法として実現することができるだけでなく、このような類似文生成方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。また、類似文生成方法により実行される特徴的な処理に対応する特徴的な構成を備える類似文生成装置などとして実現することもできる。したがって、以下の他の態様でも、上記の類似文生成方法と同様の効果を奏することができる。 In addition, the present disclosure can be realized not only as a similar sentence generation method that executes the characteristic processing as described above, but also a computer that causes a computer to execute the characteristic processing included in the similar sentence generation method. It can also be realized as a program. It can also be realized as a similar sentence generation device having a characteristic configuration corresponding to a characteristic process executed by the similar sentence generation method. Therefore, also in the following other aspects, the same effect as the above-described similar sentence generation method can be obtained.
本開示の他の態様に係るプログラムは、原文から類似文を生成する装置として、コンピュータを機能させるためのプログラムであって、前記コンピュータに、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、処理を実行させる。 A program according to another aspect of the present disclosure is a program for causing a computer to function as a device that generates a similar sentence from an original sentence, and the first sentence is input to the computer to configure the first sentence. One or more second phrases having the same meaning as the first phrase among a plurality of phrases are extracted from the first database, and the first database associates phrases with synonyms of phrases included in the first database; An N-gram value is calculated based on a context-dependent value corresponding to the one or more second words obtained based on a second database, and the second database includes words and phrases included in the second database. The context-dependent value is associated with the context-dependent value, and the context-dependent value indicates the degree to which the meaning of the word included in the second database depends on the context. In one or more second sentences in which a first phrase is replaced with the one or more second phrases, one or more consecutive third phrases including a number of the second phrases corresponding to the N-gram value are extracted. And calculating an appearance frequency in a third database for the one or more third words, wherein the third database associates a word and an appearance frequency in the third database of a word included in the third database, It is determined whether the calculated appearance frequency is equal to or higher than a threshold value, and when it is determined that the calculated appearance frequency is equal to or higher than the threshold value, the one or more second sentences are adopted as similar sentences of the first sentence. And execute the process of outputting to an external device.
本開示の他の態様に係る装置は、原文から類似文を生成する装置であって、第1文を入力される入力部と、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出する第2語句抽出部と、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出する算出部と、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出する第3語句抽出部と、前記一以上の第3語句について、第3データベースにおける出現頻度を算出する算出部と、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定する判定部と、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する出力部とを備える。 An apparatus according to another aspect of the present disclosure is an apparatus that generates a similar sentence from an original sentence, and includes an input unit to which a first sentence is input, and a first phrase among a plurality of phrases that constitute the first sentence, A second word / phrase extraction unit that extracts one or more second words / phrases having the same meaning from the first database; and the first database associates words / phrases with synonyms of the words / phrases included in the first database; A calculation unit that calculates an N-gram value based on a context-dependent value corresponding to the one or more second words obtained based on the word, and the second database includes words and phrases included in the second database. The context-dependent value is associated with the context-dependent value, the context-dependent value indicates a context-dependent meaning of the phrase included in the second database, and the first phrase in the first sentence is the one In the second phrase above In one or more replaced second sentences, a third word / phrase extraction unit that extracts one or more consecutive third words / phrases including a number of the second words / phrases corresponding to the N-gram value; A calculation unit that calculates an appearance frequency in the third database, and the third database associates the phrase with an appearance frequency in the third database of the phrase included in the third database. A determination unit that determines whether the appearance frequency is greater than or equal to a threshold value, and when the calculated appearance frequency is determined to be greater than or equal to the threshold value, the one or more second sentences are set as similar sentences to the first sentence. And an output unit that outputs to an external device.
本開示の他の態様に係るシステムは、原文から類似文を生成するシステムであって、上記の装置と、前記装置により前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成する翻訳部と、前記翻訳部により作成された前記翻訳結果文を評価する評価部と、前記評価部の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する生成部とを備える。 A system according to another aspect of the present disclosure is a system that generates a similar sentence from an original sentence, and the device and the one or more second ones determined to be adopted as the similar sentence of the first sentence by the device. A translation result obtained by translating a predetermined translation target sentence using a translation model generated based on a sentence and a translation sentence obtained by translating the first sentence that has generated the one or more second sentences in a second language A translation unit that creates a sentence, an evaluation unit that evaluates the translation result sentence created by the translation unit, and a language of the translation target sentence and / or the translation result sentence based on the evaluation result of the evaluation unit A generating unit that generates feedback information including language information about the language and evaluation information for the language information;
このような構成により、上記の類似文生成方法と同様の効果を奏することができるとともに、第1文の類似文として採用すると判定された一以上の第2文と、当該一以上の第2文を生成した第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、作成された翻訳結果文を評価し、この評価結果に基づいて、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を学習及び反映するためのフィードバック情報を自律的に生成し、文脈依存性を考慮した事例を自律的に学習及び反映することができる類似文生成システムを実現することができる。 With such a configuration, the same effect as the above-described similar sentence generation method can be obtained, and at least one second sentence determined to be adopted as the similar sentence of the first sentence and the one or more second sentences Using the translation model generated based on the translation of the first sentence generated in the second language, a translation result sentence is created by translating a predetermined translation target sentence, and the created translation result sentence Feedback information including language information on the language of the translation target sentence and / or language of the translation result sentence and evaluation information on the language information is generated based on the evaluation result. It is possible to realize a similar sentence generation system capable of autonomously generating feedback information for learning and reflecting the considered case and autonomously learning and reflecting the case considering the context dependency.
そして、上記のようなコンピュータプログラムを、CD−ROM等のコンピュータ読み取り可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。 Needless to say, the above-described computer program can be distributed via a computer-readable non-transitory recording medium such as a CD-ROM or a communication network such as the Internet.
また、本開示の一実施の形態に係る類似文生成装置又は類似文生成システムの構成要素の一部とそれ以外の構成要素とを複数のコンピュータに分散させたシステムとして構成してもよい。 Moreover, you may comprise as a system which disperse | distributed a part of component of the similar sentence production | generation apparatus or similar sentence production | generation system which concerns on one embodiment of this indication, and the other component to several computers.
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すためのものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。 Note that each of the embodiments described below is for showing a specific example of the present disclosure. Numerical values, shapes, components, steps, order of steps, and the like shown in the following embodiments are merely examples, and are not intended to limit the present disclosure. In addition, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims indicating the highest concept are described as optional constituent elements. In all the embodiments, the contents can be combined.
以下、本開示の各実施の形態について、図面を参照しながら説明する。 Hereinafter, each embodiment of the present disclosure will be described with reference to the drawings.
(実施の形態1)
図1は、本開示の実施の形態1における類似文生成装置の構成の一例を示すブロック図である。図1に示す類似文生成装置1は、置き換え対象文(原文)から類似文を生成する。類似文生成装置1は、置き換え対象文入力部10、置き換え候補抽出部11、文脈依存率照合部12、文脈依存性判定部13、言語モデル照合部14、置き換え判定部15、置き換え結果出力部16、置き換え候補辞書21、文脈依存率辞書22、及び言語モデルデータベース23を備える。
(Embodiment 1)
FIG. 1 is a block diagram illustrating an example of a configuration of a similar sentence generation device according to
置き換え対象文入力部10は、ユーザによる所定の操作入力を受け付け、ユーザが入力した置き換え対象文(第1文)を置き換え候補抽出部11に出力する。例えば、「僕は英語が話せないので日本語でお願いします」との置き換え対象文が置き換え対象文入力部10に入力される。なお、類似文生成装置1が生成する類似文の言語は、日本語に特に限定されず、英語、中国語、韓国語、フランス語、ドイツ語、イタリア語、ポルトガル語等の他の言語であってもよい。
The replacement target
置き換え候補辞書21は、文節/単語/形態素等での置き換え事例を辞書として格納する置き換え候補記憶部であり、置き換え対象文から置き換えられる置き換え対象部分の置き換え候補となる一又は複数の置き換え候補文字列を予め記憶している。置き換え候補辞書21は、語句と置き換え候補辞書21に含まれた語句の類義語とを対応づけた第1データベースの一例である。
The
図2は、図1に示す置き換え候補辞書21のデータ構成の一例を示す図である。図2に示すように、置き換え候補辞書21には、置き換え対象部分(語句)と置き換え候補文字列(語句の類義語)とが対応付けて記憶されている。例えば、置き換え対象部分の「これだ」に対応付けて「これです」、「これでございます」等の置き換え候補文字列が記憶され、置き換え対象部分の「話せない」に対応付けて、「話せません」、「しゃべれない」、「秘密です」等の置き換え候補文字列が記憶されている。
FIG. 2 is a diagram showing an example of the data configuration of the
置き換え候補抽出部11は、置き換え対象文(第1文)を構成する複数の語句のうち置き換え対象部分(第1語句)と同じ意味を持つ置き換え候補文字列(一以上の第2語句)を置き換え候補辞書21から抽出する。具体的には、置き換え候補抽出部11は、置き換え対象文入力部10から入力された置き換え対象文を文節/単語/形態素等の単位で分割し、分割された文節/単語/形態素等から置き換え対象部分を決定し、置き換え候補辞書21から置き換え対象部分に対応付けて記憶されている置き換え可能な文字列対(置き換え候補文字列)を検索し、一又は複数の置き換え候補文字列を抽出して置き換え対象文とともに文脈依存率照合部12に出力する。例えば、置き換え対象部分が「話せない」である場合、置き換え候補抽出部11は、「話せません」、「しゃべれない」、及び「秘密です」等の置き換え候補文字列を置き換え候補辞書21から抽出する。なお、置き換え対象文の分割方法は、上記の例に特に限定されず、種々の公知の手法を用いることができる。
The replacement
文脈依存率辞書22は、文節/単語/形態素等で置き換えた場合の適用可能性(文脈依存性)を示す文脈依存値を、文節/単語/形態素等と数値との対で辞書として格納する文脈依存値記憶部である。具体的には、文脈依存率辞書22は、置き換え候補文字列と、当該置き換え候補文字列が文脈に依存する程度を表す文脈依存率pcとを対応付けた複数のデータ対を予め記憶している。文脈依存率辞書22は、語句と文脈依存率辞書22に含まれた語句に対応する文脈依存値とを対応づけた第2データベースの一例であり、文脈依存値は、文脈依存率辞書22に含まれた語句が示す意味が文脈に依存する程度を示す。
The context-
図3は、図1に示す文脈依存率辞書22のデータ構成の一例を示す図である。図3に示すように、文脈依存率辞書22には、例えば、置き換え候補文字列「です」に対してpc=0.35、「ですが」に対してpc=0.05、「話せません」に対してpc=0.25、「しゃべれない」に対してpc=0.01、「秘密です」に対してpc=0.75等が文脈依存率辞書22に予め記憶されている。
FIG. 3 is a diagram showing an example of the data configuration of the context-
ここで、文脈依存率pcは、例えば、置き換え候補文字列が文脈に依存することにより、置き換え候補文字列を用いた類似候補文が棄却される確率を0〜1の範囲で表した値である。なお、文脈依存値は、上記の文脈依存率pcに特に限定されず、種々の変更が可能であり、置き換え候補文字列が文脈に依存する程度を表す他の数値を用いたり、置き換え候補文字列が文脈に依存する程度をクラス分け(例えば、文脈依存度を大、中、小等のクラスに分類)して、どのクラスに属するかを記憶したりしてもよい。 Here, the context dependency rate pc is, for example, a value in the range of 0 to 1 that indicates that the candidate candidate character string is dependent on the context and thus the similar candidate sentence using the replacement candidate character string is rejected. . Note that the context-dependent value is not particularly limited to the above-described context-dependent rate pc, and can be changed in various ways. For example, another numerical value indicating the degree of the replacement candidate character string depending on the context is used, or the replacement candidate character string is used. It is also possible to classify the degree of dependence on the context (for example, classify the context dependence into a class of large, medium, small, etc.) and store which class it belongs to.
文脈依存率照合部12は、置き換え候補文字列の文脈依存率pcを文脈依存率辞書22から検索して、置き換え候補文字列に対応付けて記憶されている文脈依存率pcを抽出し、抽出した文脈依存率pcを置き換え対象文とともに文脈依存性判定部13に出力する。例えば、文脈依存率pcとして、置き換え候補文字列が「話せません」の場合に0.25、「しゃべれない」の場合に0.01、「秘密です」の場合に0.75が抽出される。
The context dependency
文脈依存性判定部13は、文脈依存率辞書22に基づいて得られた置き換え候補文字列(一以上の第2語句)に対応する文脈依存値に基づいてN−gram値を算出する。具体的には、文脈依存性判定部13は、文脈依存率pcの値から、置き換え候補文字列を含む類似候補文の判定を行うために参照する言語モデルデータベース23の識別対象領域を判定し、判定結果を置き換え対象文とともに言語モデル照合部14に出力する。
The context
ここで、本実施の形態では、言語モデルデータベース23として、N−gram言語モデルのデータベースを用いており、言語モデルデータベース23には、言語情報とその出現頻度とが対応付けられたテーブル形式でデータが記憶されている。言語モデルデータベース23は、語句と言語モデルデータベース23に含まれる語句の言語モデルデータベース23における出現頻度とを対応づけた第3データベースの一例である。
Here, in the present embodiment, an N-gram language model database is used as the
図4は、図1に示す言語モデルデータベース23のデータ構成の一例を示す図である。図4に示すように、言語モデルデータベース23には、例えば、言語情報及びその出現頻度として、「英語」に対して「234,567,890」が、「英語 は」に対して「12,345,670」が、「英語 が」に対して「22,222,220」が、「英語 が 好き」に対して「999,001」がそれぞれ対応付けてテーブル形式で言語モデルデータベース23に予め記憶されている。また、この出現頻度を基にして、例えば、出現確率を求めることができる。
FIG. 4 is a diagram showing an example of the data configuration of the
なお、言語モデルデータベース23に記憶される情報は、上記の例に特に限定されず、言語情報とその出現頻度等に応じた値とが対応付けられたテーブルであれば、任意の内容であってもよい。また、言語モデルデータベース23の言語モデルも、上記のN−gram言語モデルに特に限定されず、他の言語モデルを用いてもよい。
The information stored in the
言語モデルデータベース23がN−gram言語モデルのデータベースである場合、文脈依存性判定部13は、文脈依存率pcに応じて、言語モデルデータベース23のN−gram言語モデルのN(N−gram値)をi(正の整数)に決定する。具体的には、例えば、文脈依存性判定部13は、文脈依存率pcを4つのクラスに分類し、0≦pc≦0.25をクラス1、0.25<pc≦0.5をクラス2、0.5<pc≦0.75をクラス3、0.75<pc≦1をクラス4とし、N−gramのN(正の整数)として、クラス1ではN=4、クラス2ではN=5、クラス3ではN=6、クラス4ではN=7をそれぞれ決定する。
When the
例えば、置き換え候補文字列の「話せません」の場合、文脈依存率pcが0.25となり、クラス1に属し、文脈依存性判定部13は、言語モデルデータベース23の識別対象領域として、クラス1相当のN−gramすなわちN=4を決定する。なお、識別対象領域の判定基準は、上記の例に特に限定されず、種々の変更が可能であり、文脈依存率pcを用いて識別対象領域を直接数式化したりしてもよい。例えば、N=floor(k−log2(pc))(ここで、kは定数)とし、置き換え候補文字列の「話せません」の場合、文脈依存率pcが0.25となり、定数k=6とする場合、N=4となる。
For example, in the case of “cannot speak” for the replacement candidate character string, the context dependency rate pc is 0.25 and belongs to
また、言語モデルデータベース23はN−gram言語モデルに限らず、その他の言語資源に基づくデータベースであってもよい。例えば、実数値やベクトル等の分散表現で記述された言語モデルであってもよく、任意の既存手法や既存データを組合せて構築することができる。いずれの場合も、識別対象領域としてデータベースを検索する範囲を任意の変数で定義し、その任意の変数を文脈依存率pcに応じて決定することができる。
The
言語モデル照合部14は、置き換え対象文(第1文)において置き換え対象部分(第1語句)が置き換え候補文字列(一以上の第2語句)に置き換えられた置き換え文(一以上の第2文)において、N−gram値に相当する数の置き換え候補文字列(第2語句)を含んだ連続するN−gram(一以上の第3語句)を抽出し、N−gram(一以上の第3語句)について、言語モデルデータベース23を算出する。
The language
すなわち、言語モデル照合部14は、文脈依存性判定部13で判定された識別対象領域に対応した識別対象データを言語モデルデータベース23から検索して抽出することにより、置き換え候補文字列との照合を行い、置き換え候補文字列に関連した、文節/単語/形態素等からなる言語情報と、その言語情報の出現頻度又は出現確率に応じた値とのペアデータを生成し、置き換え対象文とともに置き換え判定部15に出力する。
That is, the language
具体的には、言語モデル照合部14は、文脈依存性判定部13から参照する識別対象領域の大きさとして与えられたNの値を用い、言語モデルデータベース23からN−gram(例えば、置き換え候補文字列がクラス1に属する場合、4−gram)の出現頻度又は出現確率を取得し、照合した置き換え候補文字列と、取得した出現頻度又は出現確率とを置き換え判定部15に出力する。
Specifically, the language
置き換え判定部15は、言語モデル照合部14から得た、文節/単語/形態素等からなる言語情報と、その言語情報の出現頻度又は出現確率に応じた値とのペアデータを用いて、該当する置き換え候補文字列を置き換え対象文に適用するか又は棄却するかを決定し、この置き換え結果を置き換え対象文とともに置き換え結果出力部16に出力する。
The
上記の決定方法の一例として、置き換え判定部15は、算出された出現頻度が閾値以上であるか判定する。具体的には、j番目(jは任意の整数)の言語情報の出現頻度の値をnjとし、所定の閾値をThとしたときに、置き換え判定部15は、すべてのjに対して、nj>Thで有れば、置き換え候補文字列を置き換え対象文に適用すると決定し、それ以外の場合には棄却すると決定する。
As an example of the determination method, the
例えば、N−gramとして4−gramを用い、置き換え候補文字列の「話せません」に対して、言語情報と、その言語情報の出現頻度として、「は 英語 が 話せません」に対して「51,550」が、「英語 が 話せません ので」に対して「1,720」が、「が 話せません ので 日本」に対して「530」が、「話せません ので 日本 語」に対して「3,220」がそれぞれ取得され、Th=500の場合、j=1〜4のすべてに対して、出現頻度は閾値Th以上となり、置き換え候補文字列の「話せません」は適用と判定される。 For example, using 4-gram as the N-gram, for the replacement candidate character string "I can't speak", the linguistic information and the frequency of appearance of the language information are "I can't speak English" 51,550 ”is“ 1,720 ”for“ I can't speak English ”,“ 530 ”for“ Japan because I ca n’t speak ”, and“ Japanese because I ca n’t speak ” If “3,220” is acquired and Th = 500, the appearance frequency is equal to or higher than the threshold Th for all of j = 1 to 4, and the replacement candidate character string “I cannot speak” is determined to be applicable. Is done.
なお、置き換え候補文字列の置き換え対象文への適用又は棄却の決定方法としては、上記の例に特に限定されず、種々の変更が可能であり、njの分布に応じて適用又は棄却を決定したり(例えば、4−gramの出現頻度の下位3%を棄却したり)、nj=0となるjが存在するか否かに応じて適用又は棄却を決定したり、又は、njを用いた任意の式から算出される値に応じて適用又は棄却を決定したりしてもよい。 Note that the method of determining whether to apply or reject a replacement candidate character string to a replacement target sentence is not particularly limited to the above example, and various modifications are possible. Apply or reject is determined according to the distribution of nj. (For example, rejecting the lower 3% of the appearance frequency of 4-gram), determining whether to apply or reject depending on whether or not j where nj = 0 exists, or using nj The application or rejection may be determined according to the value calculated from the equation (1).
置き換え結果出力部16は、算出された出現頻度が閾値以上であると判定された場合は、適用と判定された置き換え候補文字列によって生成された置き換え文(一以上の第2文)を置き換え対象文(第1文)の類似文として採用し、外部の機器に出力する。具体的には、置き換え結果出力部16は、置き換え結果に基づき、置き換え対象文の置き換え対象部分を置き換え判定部15で適用と判定された置き換え候補文字列に置き換え、適用と判定された置き換え候補文字列によって生成された置き換え文(置き換え後の文)を類似文として採用し、生成した類似文を外部の機器(図示省略)等に出力する。
When it is determined that the calculated appearance frequency is equal to or higher than the threshold, the replacement
また、置き換え対象文(第1文)は第1言語(例えば、日本語)で記述され、置き換え対象文(第1文)は、対訳コーパスに含まれ、対訳コーパスは第1言語で記述された文と第2言語(例えば、英語)で記述された対訳文との対を複数含み、置き換え結果出力部16は、算出された出現頻度が閾値以上であると判定された場合は、適用と判定された置き換え候補文字列によって生成された置き換え文(一以上の第2文)を置き換え対象文(第1文)の類似文として対訳コーパスに追加するようにしてもよい。
The replacement target sentence (first sentence) is described in a first language (for example, Japanese), the replacement target sentence (first sentence) is included in the parallel translation corpus, and the parallel translation corpus is described in the first language. The replacement
なお、類似文生成装置1の構成は、上記のように、機能ごとに専用のハードウエアで構成する例に特に限定されず、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)及び補助記憶装置等を備える1台又は複数台のコンピュータ又はサーバ(情報処理装置)が、上記の処理を実行するための類似文生成プログラムをインストールし、類似文生成装置として機能するように構成してもよい。また、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23は、類似文生成装置1の内部に設ける例に特に限定されず、外部のサーバ等に置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23を設け、所定のネットワークを介して類似文生成装置1が必要な情報を取得するようにしてもよい。この点については、他の実施の形態も同様である。
Note that the configuration of the similar
次に、上記のように構成された類似文生成装置1による類似文生成処理について、詳細に説明する。図5は、図1に示す類似文生成装置1による類似文生成処理の一例を示すフローチャートである。なお、以下の処理では、出現頻度を用いて置き換え候補文字列の適用/棄却の判定を行っているが、この例に特に限定されず、例えば、出現確率等を用いてもよい。この点については、他の実施の形態も同様である。
Next, similar sentence generation processing by the similar
まず、ステップS11において、置き換え対象文入力部10は、ユーザによる置き換え対象文(原文)の入力を受け付け、入力された置き換え対象文を置き換え候補抽出部11に出力する。
First, in step S <b> 11, the replacement target
次に、ステップS12において、置き換え候補抽出部11は、置き換え対象文を文節/単語/形態素等の単位で分割し、分割された文節/単語/形態素等から置き換え対象部分を決定し、置き換え候補辞書21から置き換え対象部分に対応付けて記憶されている置き換え候補文字列を抽出して置き換え対象文とともに文脈依存率照合部12に出力する。
Next, in step S12, the replacement
次に、ステップS13において、文脈依存率照合部12は、文脈依存率辞書22を照合して、置き換え候補文字列の文脈依存率pcを抽出して置き換え対象文とともに文脈依存性判定部13に出力する。
Next, in step S13, the context dependency
次に、ステップS14において、文脈依存性判定部13は、置き換え候補文字列の文脈依存率pcの値から、言語モデルデータベース23のN−gramのNを決定することにより、文脈依存性から参照する言語モデル長を決定し、決定したNの値を置き換え対象文とともに言語モデル照合部14に出力する。
Next, in step S14, the context
例えば、置き換え対象文が「僕は英語が話せないので日本語でお願いします」であり、置き換え候補文字列が「話せません」であり、置き換え候補文が「僕は英語が話せませんので日本語でお願いします」である場合、文脈依存性判定部13は、言語モデルデータベース23のN−gramのNとして、N=4を決定する。
For example, the sentence to be replaced is "I can't speak English, so please in Japanese", the replacement candidate string is "I can't speak", and the replacement candidate sentence is "I can't speak English If it is “Please in Japanese”, the context
次に、ステップS15において、言語モデル照合部14は、文脈依存性判定部13から参照する識別対象領域の大きさとして与えられたNの値を用い、言語モデルデータベース23からN−gramの出現頻度を取得し、照合した置き換え候補文字列と、取得した出現頻度とを置き換え対象文とともに置き換え判定部15に出力する。
Next, in step S <b> 15, the language
例えば、上記の置き換え対象文の「話せない」を「話せません」に置き換える場合、言語モデル照合部14は、置き換えを行った文節「話せません」を含む周囲4−gram(例えば、「は 英語 が 話せません」、「英語 が 話せません ので」、「が 話せません ので 日本」、「話せません ので 日本 語」)を生成し、言語モデルデータベース23と照合し、各4−gramの出現頻度(例えば、「は 英語 が 話せません」の51,550、「英語 が 話せません ので」の1,720、「が 話せません ので 日本」の530、「話せません ので 日本 語」の3,220)を得る。
For example, when replacing “I cannot speak” in the above sentence to be replaced with “I can't speak”, the language
次に、ステップS16において、置き換え判定部15は、言語モデル照合部14から置き換え候補文字列を含むN−gramと、その出現頻度とを取得し、置き換え候補文字列のスコアを算出する。
Next, in step S <b> 16, the
次に、ステップS17において、置き換え判定部15は、置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であるか否かを判定することにより、置き換え候補文字列を置き換え対象文に適用するか又は棄却するかを判定し、この判定結果を置き換え対象文とともに置き換え結果出力部16に出力する。
Next, in step S17, the
ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th未満であると判定された場合、ステップS20において、置き換え結果出力部16は、置き換え候補文字列を棄却して処理を終了する。
When it is determined in step S17 that the score (appearance frequency) of the replacement candidate character string is less than the predetermined threshold Th, in step S20, the replacement
一方、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であると判定された場合、ステップS18において、置き換え結果出力部16は、置き換え候補文字列を置き換え対象文の置き換え対象部分に適用し、置き換え対象文の置き換え対象部分を置き換え候補文字列に置き換えた置き換え文を作成する。
On the other hand, if it is determined in step S17 that the score (appearance frequency) of the replacement candidate character string is greater than or equal to the predetermined threshold Th, the replacement
次に、ステップS19において、置き換え結果出力部16は、適用と判定された置き換え候補文字列によって生成された置き換え文を類似文として出力して処理を終了する。
Next, in step S19, the replacement
上記の処理により、本実施の形態では、文脈依存率pcに応じてN−gram言語モデルのNを決定し、文脈依存率pcが大きいほどNを大きく、文脈依存率pcが小さいほどNを小さく設定している。また、決定されたNを用いて、言語モデルデータベース23を照合することにより、置き換え候補文字列を含むN−gramの出現頻度を求め、求めた出現頻度に基づいて、置き換え候補文字列によって生成された置き換え文を類似文として採用するか否かを判定しているので、広い識別対象領域を用いて、文脈依存率pcが大きい置き換え候補文字列を含むi−gramの出現頻度を高精度に求めることができるとともに、狭い識別対象領域を用いて、文脈依存率pcが小さい置き換え候補文字列を含むN−gramの出現頻度を低コストで且つ高精度に求めることができる。この結果、言語モデルデータベース23に対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。
With the above processing, in the present embodiment, N of the N-gram language model is determined according to the context dependency rate pc, and N increases as the context dependency rate pc increases, and decreases as the context dependency rate pc decreases. It is set. Further, the N-gram appearance frequency including the replacement candidate character string is obtained by collating the
(実施の形態2)
図6は、本開示の実施の形態2における類似文生成システムの構成の一例を示すブロック図である。図6に示す類似文生成システムは、類似文生成装置1aと、翻訳装置2とを備える。
(Embodiment 2)
FIG. 6 is a block diagram illustrating an example of a configuration of a similar sentence generation system according to the second embodiment of the present disclosure. The similar sentence generation system shown in FIG. 6 includes a similar sentence generation device 1a and a translation device 2.
類似文生成装置1aは、置き換え対象文入力部10a、置き換え候補抽出部11、文脈依存率照合部12、文脈依存性判定部13、言語モデル照合部14、置き換え判定部15、置き換え結果出力部16、データ更新部17、置き換え候補辞書21、文脈依存率辞書22、及び言語モデルデータベース23を備える。翻訳装置2は、対訳コーパス生成部31、翻訳モデル生成部32、被翻訳文入力部33、機械翻訳部34、翻訳結果文出力部35、翻訳結果評価部36、及びフィードバックデータ生成部37を備える。
The similar sentence generation device 1a includes a replacement target
類似文生成装置1aは、置き換え対象文(原文)から類似文を生成し、採用すると判定した類似文等を翻訳装置2に出力する。翻訳装置2は、類似文生成装置1aにより採用すると判定された類似文と、当該類似文を生成した原文を所定の言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、任意の翻訳対象文を翻訳して翻訳結果文を作成し、作成した翻訳結果文の評価結果に基づき、翻訳対象文の言語及び翻訳結果文の言語のうち少なくとも一方に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成して類似文生成装置1aにフィードバックする。類似文生成装置1aは、フィードバック情報に基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータを更新する。
The similar sentence generation device 1a generates a similar sentence from the replacement target sentence (original sentence), and outputs the similar sentence determined to be adopted to the translation apparatus 2. The translation device 2 uses a translation model generated based on a similar sentence determined to be adopted by the similar sentence generation device 1a and a translated sentence obtained by translating the original sentence that generated the similar sentence in a predetermined language. The translation target sentence is translated to create a translation result sentence, and based on the evaluation result of the created translation result sentence, language information on at least one of the language of the translation target sentence and the language of the translation result sentence, and the language information Feedback information including evaluation information is generated and fed back to the similar sentence generation device 1a. The similar sentence generation device 1a updates at least one of the
ここで、図6に示す類似文生成装置1aが図1に示す類似文生成装置1と異なる点は、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のデータを更新するデータ更新部17が追加され、置き換え対象文入力部10aが置き換え対象文の入力に加えて、入力された置き換え対象文(原文)の翻訳文を翻訳装置2に出力する点であり、その他の点は同様であるので、同一部分には同一符号を付して、詳細な説明は省略する。
Here, the similar sentence generation device 1a shown in FIG. 6 is different from the similar
置き換え対象文入力部10aは、ユーザによる所定の操作入力を受け付け、ユーザが入力した置き換え対象文を置き換え候補抽出部11に出力し、その後の置き換え対象文に対する置き換え候補抽出部11から置き換え結果出力部16までの処理は、図1に示す置き換え候補抽出部11から置き換え結果出力部16までの処理と同様であり、置き換え結果出力部16は、置き換え判定部15で適用と判定された置き換え候補文字列によって生成された置き換え文(類似文)を対訳コーパス生成部31に出力する。
The replacement target
また、置き換え対象文入力部10aは、ユーザによる所定の操作入力を受け付け、ユーザが入力した、置き換え文を生成した原文を所定の言語で翻訳した翻訳文、すなわち、置き換え対象文の翻訳文(原文に対応する対訳文)を対訳コーパス生成部31に出力する。例えば、上記の置き換え文が日本語(原言語文)で作成され、翻訳装置2が日英翻訳を行う場合、上記の翻訳文は英語(目的言語文)で作成されている。なお、原言語文及び目的言語文は、上記の例に特に限定されず、類似文生成装置1aが英語の類似文を生成する場合、英語を原言語文、日本語を目的言語文としてもよく、また、中国語、韓国語、フランス語、ドイツ語、イタリア語、ポルトガル語等の他の言語であってもよい。
The replacement target
対訳コーパス生成部31は、置き換え結果出力部16から出力された置き換え文と、置き換え対象文入力部10aから出力された置き換え対象文の翻訳文とを関連付け、新たな対訳コーパスを生成して翻訳モデル生成部32に出力する。なお、対訳コーパスの生成方法としては、上記の例に特に限定されず、既に作成している対訳コーパスに新たな対訳コーパスを追加してもよく、公知の種々の方法を用いることができる。
The parallel
翻訳モデル生成部32は、対訳コーパス生成部31で生成された新たな対訳コーパスを用いて、所定の学習により翻訳モデルを生成して機械翻訳部34に出力する。なお、翻訳モデルの生成方法としては、公知の種々の方法を用いることができるので、詳細な説明は省略する。
The translation
被翻訳文入力部33は、ユーザによる所定の操作入力を受け付け、ユーザが入力した翻訳対象文(原言語文)を機械翻訳部34に出力する。機械翻訳部34は、翻訳モデル生成部32により生成された翻訳モデルを用いて、翻訳対象文を翻訳し、翻訳結果文(目的言語文)を翻訳対象文とともに翻訳結果文出力部35に出力する。翻訳結果文出力部35は、翻訳結果として、翻訳結果文を翻訳対象文とともに翻訳結果評価部36に出力する。
The translated
翻訳結果評価部36は、翻訳結果文出力部35から出力された翻訳結果文(目的言語文)の翻訳精度及び品質に対して評価を行う。ここで、翻訳結果評価部36の評価方法としては、機械的な数値指標によって評価を行ってもよく、また、人手による評価結果を翻訳結果評価部36に入力するようにしてもよい。翻訳結果評価部36は、評価結果として、評価値又は評価カテゴリなどの評価情報を翻訳結果文(目的言語文)及び/又は翻訳対象文(原言語文)と関連付けてフィードバックデータ生成部37に出力する。
The translation
フィードバックデータ生成部37は、翻訳結果評価部36より出力された評価結果を基に、フィードバック情報として、類似文生成装置1aにフィードバックするフィードバックデータを生成してデータ更新部17に出力する。ここで、フィードバックデータは、原言語及び/又は目的言語側の任意の言語情報と、当該言語情報に関する値又は状態の評価情報とのペアデータである。このフィードバックデータとしては、種々のデータを用いることができ、以下のデータを用いることができる。
The feedback
例えば、翻訳結果が悪かった場合に、ユーザ又は所定の翻訳結果文修正装置により翻訳結果文(目的言語文)を修正し、より良い翻訳文を入力することにより、入力された翻訳文と元の翻訳対象文(原言語文)とのペアの言語情報と、翻訳結果の状態(悪い)の評価情報とのペアデータをフィードバックデータとしてもよい。 For example, when the translation result is bad, the translation result sentence (target language sentence) is corrected by the user or a predetermined translation result sentence correction device, and a better translation sentence is input, so that the input translation sentence and the original Pair data of a pair of language information with a translation target sentence (source language sentence) and evaluation information of a translation result state (bad) may be used as feedback data.
また、ユーザ又は所定の翻訳対象文修正装置により翻訳対象文(原言語文)を修正し、同趣旨で異なる表現の翻訳対象文を入力することにより、より良い翻訳結果文を取得できた場合に、元の翻訳対象文(原言語文)と翻訳結果の良かった翻訳対象文(原言語文)とのペアの言語情報と、翻訳結果の状態(良い/悪いの2値)の評価情報とのペアデータをフィードバックデータとしてもよい。 In addition, when a translation target sentence (source language sentence) is corrected by a user or a predetermined translation target sentence correcting device, and a translation target sentence having a different expression is input for the same purpose, a better translation result sentence can be obtained. The language information of the pair of the original translation target sentence (source language sentence) and the translation target sentence (source language sentence) whose translation result was good, and evaluation information of the translation result state (good / bad binary value) Pair data may be used as feedback data.
また、対訳コーパスの中から翻訳対象文(原言語文)に近い文を一又は複数抽出し、ユーザ又は所定の翻訳文評価装置により原言語として破綻していないかどうかの評価値(例えば、良い/悪いの2値)を求め、抽出された原言語文に近い文に対して評価値を付与し、この評価値と、原言語文に近い文を示す言語情報とのペアデータをフィードバックデータとしてもよい。 Also, one or a plurality of sentences close to the translation target sentence (source language sentence) are extracted from the bilingual corpus, and an evaluation value (for example, good) whether or not the user or a predetermined translated sentence evaluation device has failed as a source language. / Binary / bad) and assigns an evaluation value to the sentence close to the extracted source language sentence, and the pair data of the evaluation value and language information indicating a sentence close to the source language sentence as feedback data Also good.
また、機械翻訳部34により複数の翻訳結果文を作成し、その中からより適切な翻訳結果文をユーザ又は所定の翻訳文評価装置により選択し、選択された翻訳結果文と、選択されなかった翻訳結果文とのペアの言語情報と、これらの翻訳結果文の選択結果を示す評価情報とのペアデータをフィードバックデータとしてもよい。
In addition, a plurality of translation result sentences are created by the
データ更新部17は、フィードバックデータ生成部37が生成したフィードバックデータ(言語情報と当該言語情報に関する値又は状態の評価情報とのペアデータ)に基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータベース内容を更新する。
The
また、データ更新部17は、フィードバックデータが文脈依存性を有する置き換え候補文字列を含む場合、文脈依存率辞書22及び言語モデルデータベース23を更新する。また、データ更新部17は、フィードバックデータが新しい文表現を含む場合、この文表現に応じて文脈依存率辞書22の文脈依存率の値を変化させ、また、新しい文表現を含むように言語モデルデータベース23のN−gramを部分構築し、言語モデルデータベース23を更新する。
In addition, when the feedback data includes a replacement candidate character string having context dependency, the
また、データ更新部17は、言語情報に原言語側の情報が含まれており、当該の言語情報内に、置き換え候補辞書21、文脈依存率辞書22又は言語モデルデータベース23に登録されている情報が含まれている場合、対応するフィードバックデータの値又は状態の評価情報に応じて、置き換え候補辞書21、文脈依存率辞書22又は言語モデルデータベース23の対応する情報を更新したり、追加したり、削除したりする。
Further, the
例えば、positiveな(肯定的な)値又は状態の評価情報を持つ原言語側の言語情報がフィードバックされた場合、データ更新部17は、出現頻度に所定の重みを加えて出現頻度の値を増加させる等により、言語モデルデータベース23の当該言語情報を含む値をpositive方向に変化させる。一方、negativeな(否定的な)値又は状態の評価情報を持つ原言語側の言語情報がフィードバックされた場合、データ更新部17は、文脈に依存する割合が高くなる方向に文脈依存率を更新する等により、文脈依存率辞書22の当該言語情報を含む値をnegative方向に変化させる。
For example, when source language language information having positive (positive) values or state evaluation information is fed back, the
また、翻訳結果の悪かった元の翻訳対象文(原言語文)及び翻訳結果の良かった翻訳対象文(原言語文)の言語情報と、それぞれの翻訳結果状態(悪い/良い)の評価情報とのペアデータをフィードバックされ、悪い状態の元の翻訳対象文に対する良い状態に対応する翻訳対象文の差分が置き換え候補辞書21に登録されていない場合、データ更新部17は、良い状態に対応する差分を置き換え候補辞書21に登録する。
Also, the language information of the original translation target sentence (source language sentence) having a poor translation result and the translation target sentence (source language sentence) having a good translation result, and evaluation information of each translation result state (bad / good) In the case where the difference between the translation target sentences corresponding to the good state with respect to the original translation target sentence in the bad state is not registered in the
また、翻訳結果の悪かった翻訳対象文(原言語文)の言語情報と、翻訳結果状態(悪い)の評価情報とのペアデータをフィードバックされた場合、データ更新部17は、翻訳結果の悪かった翻訳対象文の置き換え候補文字列を置き換え候補辞書21から削除する。
In addition, when the pair data of the language information of the translation target sentence (original language sentence) whose translation result is bad and the evaluation information of the translation result state (bad) is fed back, the
なお、類似文生成装置1a及び翻訳装置2の構成は、上記のように、機能ごとに専用のハードウエアで構成する例に特に限定されず、CPU、ROM、RAM及び補助記憶装置等を備える1台又は複数台のコンピュータ又はサーバ(情報処理装置)が、上記の処理を実行するためのプログラムをインストールし、類似文生成装置又は翻訳装置として機能するように構成してもよい。 Note that the configurations of the similar sentence generation device 1a and the translation device 2 are not particularly limited to the example in which dedicated functions are configured for each function as described above, and includes a CPU, a ROM, a RAM, an auxiliary storage device, and the like. A computer or a plurality of computers or servers (information processing devices) may be configured to install a program for executing the above processing and function as a similar sentence generation device or a translation device.
次に、上記のように構成された類似文生成システムによるフィードバックデータ更新処理を含む類似文生成処理について、詳細に説明する。図7は、図6に示す類似文生成システムのフィードバックデータ更新処理を含む類似文生成処理の一例を示すフローチャートである。なお、図7に示す処理のうち、図5に示す処理と同一の処理には同一符号を付して、詳細な説明は省略する。 Next, the similar sentence generation process including the feedback data update process by the similar sentence generation system configured as described above will be described in detail. FIG. 7 is a flowchart showing an example of a similar sentence generation process including a feedback data update process of the similar sentence generation system shown in FIG. Of the processes shown in FIG. 7, the same processes as those shown in FIG. 5 are denoted by the same reference numerals, and detailed description thereof is omitted.
まず、類似文生成装置1aによる類似文生成処理として、ステップS11aにおいて、置き換え対象文入力部10aは、ユーザによる原文に対応する対訳文及び置き換え対象文の入力を受け付け、対訳文を対訳コーパス生成部31に出力し、置き換え対象文を置き換え候補抽出部11に出力する。なお、対訳文を対訳コーパス生成部31に出力するタイミングは、上記の例に特に限定されず、ステップS17の処理時に、置き換え対象文入力部10aが対訳文を対訳コーパス生成部31に出力するようにしてもよい。
First, as similar sentence generation processing by the similar sentence generation device 1a, in step S11a, the replacement target
次に、ステップS12〜S17において、図5に示すステップS12〜S17と同様の処理が実行され、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th未満であると判定された場合、ステップS20において、置き換え結果出力部16は、置き換え候補文字列を棄却して処理を終了する。
Next, in steps S12 to S17, processing similar to that in steps S12 to S17 shown in FIG. 5 is executed. In step S17, it is determined that the score (frequency of appearance) of the replacement candidate character string is less than the predetermined threshold Th. In step S20, the replacement
一方、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であると判定された場合、ステップS18において、図5に示すステップS18と同様の処理が実行された後、ステップS19において、置き換え結果出力部16は、置き換え判定部15で適用と判定された置き換え候補文字列によって生成された置き換え文(置き換わり文)を対訳コーパス生成部31に出力し、類似文生成装置1aによる類似文生成処理が終了する。
On the other hand, if it is determined in step S17 that the score (appearance frequency) of the replacement candidate character string is equal to or greater than the predetermined threshold Th, a process similar to that in step S18 shown in FIG. In S19, the replacement
次に、翻訳装置2及び類似文生成装置1aによるフィードバックデータ更新処理として、ステップS21において、対訳コーパス生成部31は、置き換え結果出力部16から出力された置き換え文と、置き換え対象文入力部10aから出力された対訳文とを関連付け、新たな対訳コーパスを生成して翻訳モデル生成部32に出力する。
Next, as feedback data update processing by the translation device 2 and the similar sentence generation device 1a, in step S21, the bilingual
次に、ステップS22において、翻訳モデル生成部32は、対訳コーパス生成部31で生成された新たな対訳コーパスを用いて、翻訳モデルを学習により生成して機械翻訳部34に出力する。
Next, in step S <b> 22, the translation
次に、ステップS23において、被翻訳文入力部33は、ユーザによる翻訳対象文の入力を受け付け、ユーザが翻訳を希望する任意の翻訳対象文を機械翻訳部34に出力する。
Next, in step S <b> 23, the translated
次に、ステップS24において、機械翻訳部34は、翻訳モデル生成部32が生成した翻訳モデルにより、翻訳対象文を翻訳結果文に翻訳し、翻訳結果文を翻訳対象文とともに翻訳結果文出力部35に出力する。
Next, in step S24, the
次に、ステップS25において、翻訳結果文出力部35は、翻訳結果文を翻訳対象文とともに翻訳結果評価部36に出力する。
Next, in step S25, the translation result
次に、ステップS26において、翻訳結果評価部36は、翻訳結果文出力部35から出力された翻訳結果文の翻訳精度及び品質に対して評価を行い、評価結果として、評価値又は評価カテゴリなどの情報を翻訳結果文と関連付けてフィードバックデータ生成部37に出力する。
Next, in step S26, the translation
次に、ステップS27において、フィードバックデータ生成部37は、翻訳結果評価部36より出力された評価結果からフィードバックデータを生成してデータ更新部17に出力する。
Next, in step S <b> 27, the feedback
最後に、ステップS28において、データ更新部17は、フィードバックデータ生成部37が生成したフィードバックデータに基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータベース内容を更新し、フィードバックデータ更新処理を終了する。
Finally, in step S <b> 28, the
上記の処理により、本実施の形態では、採用すると判定された置き換え文と、原文に対する対訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳した翻訳結果文を評価し、この評価結果に基づき、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を類似文生成装置1aに学習及び反映するためのフィードバックデータを自律的に生成することができる。 Through the above processing, in the present embodiment, the translation result sentence obtained by translating a predetermined translation target sentence is evaluated using the translation model generated based on the replacement sentence determined to be adopted and the parallel translation sentence with respect to the original sentence. Based on the evaluation result, the feedback information including the language information about the language of the translation target sentence and / or the language of the translation result sentence and the evaluation information for the language information is generated. It is possible to autonomously generate feedback data for learning and reflecting the case in the similar sentence generation device 1a.
また、本実施の形態では、言語情報と評価情報とを含むフィードバックデータを用いて、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23を更新しているので、文脈依存性を考慮した事例を置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23に反映することができ、更新前の置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23に存在しない新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。
In the present embodiment, the
本開示は、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができるので、原文から類似文を生成する類似文生成方法、類似文生成プログラム、類似文生成装置、及び該類似文生成装置を備える類似文生成システムに有用である。 The present disclosure can reduce the search cost for the language model database and can identify similar sentences with high accuracy. Therefore, the similar sentence generation method, the similar sentence generation program, and the similar sentence generation for generating the similar sentences from the original sentences. The present invention is useful for a device and a similar sentence generation system including the similar sentence generation device.
1、1a 類似文生成装置
2 翻訳装置
10、10a 置き換え対象文入力部
11 置き換え候補抽出部
12 文脈依存率照合部
13 文脈依存性判定部
14 言語モデル照合部
15 置き換え判定部
16 置き換え結果出力部
17 データ更新部
21 置き換え候補辞書
22 文脈依存率辞書
23 言語モデルデータベース
31 対訳コーパス生成部
32 翻訳モデル生成部
33 被翻訳文入力部
34 機械翻訳部
35 翻訳結果文出力部
36 翻訳結果評価部
37 フィードバックデータ生成部
DESCRIPTION OF
Claims (11)
第1文を入力し、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定し、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、
方法。 A method for generating a similar sentence from an original sentence,
Enter the first sentence,
One or more second words / phrases having the same meaning as the first word / phrase are extracted from the first database among the plurality of words / phrases constituting the first sentence, and the first database includes the words / phrases and the words / phrases included in the first database And synonymous with
An N-gram value is calculated based on a context-dependent value corresponding to the one or more second words obtained based on a second database, and the second database includes words and phrases included in the second database. Correlating with the corresponding context-dependent value, the context-dependent value indicates the degree to which the meaning of the phrase included in the second database depends on the context;
In one or more second sentences in which the first phrase is replaced with the one or more second phrases in the first sentence, one or more consecutive ones or more including the number of the second phrases corresponding to the N-gram value Extract the third word of
Calculating an appearance frequency in a third database for the one or more third words, wherein the third database associates a word and an appearance frequency in the third database of a word included in the third database;
Determining whether the calculated appearance frequency is greater than or equal to a threshold;
When it is determined that the calculated appearance frequency is equal to or higher than the threshold, the one or more second sentences are adopted as similar sentences of the first sentence and output to an external device.
Method.
前記第1文は対訳コーパスに含まれ、前記対訳コーパスは第1言語で記述された文と第2言語で記述された対訳文との対を複数含み、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として前記対訳コーパスに追加する、
請求項1記載の方法。 The first sentence is written in a first language;
The first sentence is included in a bilingual corpus, and the bilingual corpus includes a plurality of pairs of sentences written in a first language and bilingual sentences written in a second language;
If it is determined that the calculated appearance frequency is equal to or higher than the threshold, the one or more second sentences are added to the parallel corpus as similar sentences of the first sentence.
The method of claim 1.
前記文脈依存値に応じて、前記N−gram言語モデルのNをi(正の整数)に決定し、
前記第3データベースを照合することにより、前記第2語句を含むi−gramの出現頻度を求め、
前記第2語句を含むi−gramの出現頻度に基づいて、前記一以上の第2文を前記第1文の類似文として採用するか否かを判定する、
請求項1又は2記載の方法。 The third database includes an N-gram language model database,
According to the context-dependent value, N of the N-gram language model is determined as i (positive integer),
By checking the third database, the occurrence frequency of the i-gram including the second word / phrase is obtained,
Determining whether to employ the one or more second sentences as similar sentences of the first sentence based on the appearance frequency of the i-gram including the second phrase;
The method according to claim 1 or 2.
前記翻訳結果文を評価し、
前記翻訳結果文の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する、
請求項1〜3のいずれかに記載の方法。 Generated based on the one or more second sentences determined to be adopted as similar sentences of the first sentence, and a translated sentence obtained by translating the first sentence that generated the one or more second sentences in a second language Using the translated model, create a translation result sentence by translating a predetermined translation target sentence,
Evaluating the translation result sentence;
Based on the evaluation result of the translation result sentence, generate feedback information including language information about the language of the translation target sentence and / or language of the translation result sentence, and evaluation information for the language information.
The method according to claim 1.
請求項4記載の方法。 Updating at least one of the first database, the second database, and the third database using the feedback information;
The method of claim 4.
請求項4記載の方法。 Updating the second database and the third database when the feedback information includes the second phrase having context dependency;
The method of claim 4.
請求項4記載の方法。 When the feedback information includes a new sentence expression, a context-dependent value of the second database is changed according to the sentence expression;
The method of claim 4.
請求項4記載の方法。 If the feedback information includes a new sentence expression, update the third database to include the sentence expression;
The method of claim 4.
前記コンピュータに、
第1文を入力し、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定し、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、
処理を実行させるプログラム。 A program for causing a computer to function as a device that generates a similar sentence from an original sentence,
In the computer,
Enter the first sentence,
One or more second words / phrases having the same meaning as the first word / phrase are extracted from the first database among the plurality of words / phrases constituting the first sentence, and the first database includes the words / phrases and the words / phrases included in the first database. And synonymous with
An N-gram value is calculated based on a context-dependent value corresponding to the one or more second words obtained based on a second database, and the second database includes words and phrases included in the second database. Correlating with the corresponding context-dependent value, the context-dependent value indicates the degree to which the meaning of the phrase included in the second database depends on the context;
In one or more second sentences in which the first phrase is replaced with the one or more second phrases in the first sentence, one or more consecutive ones or more including the number of the second phrases corresponding to the N-gram value Extract the third word of
Calculating an appearance frequency in a third database for the one or more third words, wherein the third database associates a word and an appearance frequency in the third database of a word included in the third database;
Determining whether the calculated appearance frequency is greater than or equal to a threshold;
When it is determined that the calculated appearance frequency is equal to or higher than the threshold, the one or more second sentences are adopted as similar sentences of the first sentence and output to an external device.
A program that executes processing.
第1文を入力される入力部と、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出する第2語句抽出部と、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出する算出部と、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出する第3語句抽出部と、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出する算出部と、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定する判定部と、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する出力部とを備える、
装置。 An apparatus for generating a similar sentence from an original sentence,
An input unit for inputting the first sentence;
A second phrase extraction unit that extracts from the first database one or more second phrases having the same meaning as the first phrase among the plurality of phrases constituting the first sentence; the first database includes the phrase and the first phrase Corresponding to the synonym of the phrase contained in the database,
A calculation unit that calculates an N-gram value based on a context-dependent value corresponding to the one or more second words obtained based on a second database; and the second database is included in the words and the second database The context-dependent value corresponding to the phrase, the context-dependent value indicates the degree to which the meaning of the phrase included in the second database depends on the context,
In one or more second sentences in which the first phrase is replaced with the one or more second phrases in the first sentence, one or more consecutive ones or more including the number of the second phrases corresponding to the N-gram value A third word / phrase extraction unit for extracting the third word / phrase of
A calculation unit that calculates an appearance frequency in a third database for the one or more third words; and the third database associates a word and an appearance frequency in the third database of a word included in the third database;
A determination unit for determining whether the calculated appearance frequency is equal to or higher than a threshold;
When it is determined that the calculated appearance frequency is equal to or higher than the threshold value, the one or more second sentences are employed as similar sentences of the first sentence, and an output unit that outputs to an external device is provided.
apparatus.
請求項10記載の装置と、
前記装置により前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成する翻訳部と、
前記翻訳部により作成された前記翻訳結果文を評価する評価部と、
前記評価部の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する生成部とを備える、
システム。 A system for generating a similar sentence from an original sentence,
An apparatus according to claim 10;
The one or more second sentences determined to be adopted as similar sentences of the first sentence by the device, and a translated sentence obtained by translating the first sentence that generated the one or more second sentences in a second language. A translation unit that translates a predetermined translation target sentence using a translation model generated based on the translation model, and creates a translation result sentence;
An evaluation unit for evaluating the translation result sentence created by the translation unit;
Based on the evaluation result of the evaluation unit, a generation unit that generates feedback information including language information on the language of the translation target sentence and / or language of the translation result sentence, and evaluation information on the language information,
system.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710674166.5A CN107870901B (en) | 2016-09-27 | 2017-08-09 | Method, recording medium, device and system for generating similar text from translation source original text |
| US15/697,489 US10303761B2 (en) | 2016-09-27 | 2017-09-07 | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016187711 | 2016-09-27 | ||
| JP2016187711 | 2016-09-27 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018055670A true JP2018055670A (en) | 2018-04-05 |
| JP6817556B2 JP6817556B2 (en) | 2021-01-20 |
Family
ID=61836781
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017096570A Active JP6817556B2 (en) | 2016-09-27 | 2017-05-15 | Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6817556B2 (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108984493A (en) * | 2018-07-19 | 2018-12-11 | 中国联合网络通信集团有限公司 | A kind of Chinese articles duplicate checking method and system |
| JP2020035019A (en) * | 2018-08-27 | 2020-03-05 | 大日本印刷株式会社 | Information processing apparatus, information processing method and program |
| JP2020126360A (en) * | 2019-02-01 | 2020-08-20 | 日本放送協会 | Learning data expansion device, learning device, translation device, and program |
| JP2021515322A (en) * | 2018-05-10 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Translation model training methods, phrase translation methods, equipment, storage media and computer programs |
| WO2021176698A1 (en) * | 2020-03-06 | 2021-09-10 | 富士通株式会社 | Machine learning data generation program, machine learning program, machine learning data generation method, and extraction device |
| CN116306682A (en) * | 2023-01-31 | 2023-06-23 | 青岛海尔科技有限公司 | Sentence recognition method and device, storage medium and electronic device |
| CN117407242A (en) * | 2023-10-10 | 2024-01-16 | 浙江大学 | Low-cost, zero-sample online log parsing method based on large language model |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12288030B2 (en) | 2021-02-18 | 2025-04-29 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02301869A (en) * | 1989-05-17 | 1990-12-13 | Hitachi Ltd | Method for maintaining and supporting natural language processing system |
| JP2015118498A (en) * | 2013-12-18 | 2015-06-25 | Kddi株式会社 | Program, apparatus and method for creating similar sentence with same intention |
| JP2017016384A (en) * | 2015-07-01 | 2017-01-19 | 日本放送協会 | Mixing coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof |
-
2017
- 2017-05-15 JP JP2017096570A patent/JP6817556B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02301869A (en) * | 1989-05-17 | 1990-12-13 | Hitachi Ltd | Method for maintaining and supporting natural language processing system |
| US5311429A (en) * | 1989-05-17 | 1994-05-10 | Hitachi, Ltd. | Maintenance support method and apparatus for natural language processing system |
| JP2015118498A (en) * | 2013-12-18 | 2015-06-25 | Kddi株式会社 | Program, apparatus and method for creating similar sentence with same intention |
| JP2017016384A (en) * | 2015-07-01 | 2017-01-19 | 日本放送協会 | Mixing coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof |
Non-Patent Citations (3)
| Title |
|---|
| 宮部真衣,吉野孝: "翻訳リペア支援のためのWeb日本語Nグラムを用いた類義語フィルタリング", 情報処理学会研究報告, vol. 第2008巻,第114号, JPN6020041666, 20 November 2008 (2008-11-20), pages 85 - 90, ISSN: 0004380611 * |
| 山内真樹,外3名: "自動コーパス生成とフィードバックによる少量コーパスからの統計機械翻訳", 2016年度 人工知能学会全国大会(第30回)論文集[CD−ROM], JPN6020041665, 6 June 2016 (2016-06-06), ISSN: 0004380610 * |
| 市村哲,外2名: "類語提示機能を備えた翻訳リペアシステムにおけるWebNグラムの活用", 情報処理学会論文誌 論文誌ジャーナル[CD−ROM], vol. 第53巻,第12号, JPN6020041668, 15 December 2012 (2012-12-15), pages 2762 - 2772, ISSN: 0004380612 * |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11900069B2 (en) | 2018-05-10 | 2024-02-13 | Tencent Technology (Shenzhen) Company Limited | Translation model training method, sentence translation method, device, and storage medium |
| JP7179273B2 (en) | 2018-05-10 | 2022-11-29 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Translation model training methods, phrase translation methods, devices, storage media and computer programs |
| JP2021515322A (en) * | 2018-05-10 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Translation model training methods, phrase translation methods, equipment, storage media and computer programs |
| CN108984493B (en) * | 2018-07-19 | 2022-04-29 | 中国联合网络通信集团有限公司 | Chinese article duplicate checking method and system |
| CN108984493A (en) * | 2018-07-19 | 2018-12-11 | 中国联合网络通信集团有限公司 | A kind of Chinese articles duplicate checking method and system |
| JP7155758B2 (en) | 2018-08-27 | 2022-10-19 | 大日本印刷株式会社 | Information processing device, information processing method and program |
| JP2020035019A (en) * | 2018-08-27 | 2020-03-05 | 大日本印刷株式会社 | Information processing apparatus, information processing method and program |
| JP2020126360A (en) * | 2019-02-01 | 2020-08-20 | 日本放送協会 | Learning data expansion device, learning device, translation device, and program |
| JP7329929B2 (en) | 2019-02-01 | 2023-08-21 | 日本放送協会 | LEARNING DATA EXPANSION DEVICE, LEARNING DEVICE, TRANSLATION DEVICE, AND PROGRAM |
| WO2021176698A1 (en) * | 2020-03-06 | 2021-09-10 | 富士通株式会社 | Machine learning data generation program, machine learning program, machine learning data generation method, and extraction device |
| CN116306682A (en) * | 2023-01-31 | 2023-06-23 | 青岛海尔科技有限公司 | Sentence recognition method and device, storage medium and electronic device |
| CN117407242A (en) * | 2023-10-10 | 2024-01-16 | 浙江大学 | Low-cost, zero-sample online log parsing method based on large language model |
| CN117407242B (en) * | 2023-10-10 | 2024-04-05 | 浙江大学 | Low-cost zero-sample online log analysis method based on large language model |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6817556B2 (en) | 2021-01-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10303761B2 (en) | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated | |
| JP6817556B2 (en) | Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system | |
| US10108607B2 (en) | Method and device for machine translation | |
| CN107038158B (en) | Method and apparatus for creating translation corpus, recording medium, and machine translation system | |
| CN110543644A (en) | Machine translation method and device containing term translation and electronic equipment | |
| US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
| US20110184723A1 (en) | Phonetic suggestion engine | |
| KR20160008480A (en) | Method and system for robust tagging of named entities | |
| US10394961B2 (en) | Foreign language sentence creation support apparatus, method, and program | |
| Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
| RU2579873C2 (en) | Resolution of semantic ambiguity using semantic classifier | |
| JP2011118689A (en) | Retrieval method and system | |
| Prabhakar et al. | Machine transliteration and transliterated text retrieval: a survey | |
| KR20150033735A (en) | Word division device, word division method, and word division program | |
| US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
| CN107066452B (en) | Translation assistance method, translation assistance device, translation device, and recording medium | |
| WO2020079749A1 (en) | Case search method | |
| US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
| US20240062009A1 (en) | Method and device for segmenting word based on cross-language data augmentation, and storage medium | |
| US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
| Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
| JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus | |
| JP2006004366A (en) | Machine translation system and computer program therefor | |
| Sreeram et al. | A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language Model. | |
| JP2017129994A (en) | Sentence rewriting device, method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200109 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201030 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201104 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201124 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201208 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201209 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6817556 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |