JP6580281B1 - Translation apparatus, translation method, and translation program - Google Patents
Translation apparatus, translation method, and translation program Download PDFInfo
- Publication number
- JP6580281B1 JP6580281B1 JP2019028464A JP2019028464A JP6580281B1 JP 6580281 B1 JP6580281 B1 JP 6580281B1 JP 2019028464 A JP2019028464 A JP 2019028464A JP 2019028464 A JP2019028464 A JP 2019028464A JP 6580281 B1 JP6580281 B1 JP 6580281B1
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- speech
- speaker
- text information
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供する。【解決手段】本発明の翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。【選択図】図1The present invention provides a translation device capable of estimating a speaker's emotion and reflecting it in translation with a more compact configuration than the conventional one. A translation apparatus according to the present invention includes a speech recognition unit that recognizes speech of an input speaker, and an emotion estimation unit that estimates a speaker's emotion from speech information recognized by the speech recognition unit. And a translation unit that translates the text information recognized by the speech recognition unit into translated text information of a language system different from the language system of the text information while reflecting the emotion of the speaker estimated by the emotion estimation unit. ing. [Selection] Figure 1
Description
本発明は、翻訳装置、翻訳方法、および翻訳プログラムに関する。 The present invention relates to a translation apparatus, a translation method, and a translation program.
従来、話者の発話音声を翻訳する翻訳装置として、話者の感情を推定し、翻訳に用いる機器が知られている。
例えば、特許文献1には、話者の表情を読み取ることで、話者の感情を推定する翻訳装置が開示されている。
2. Description of the Related Art Conventionally, as a translation device that translates a speaker's speech, a device that estimates a speaker's emotion and uses it for translation is known.
For example, Patent Document 1 discloses a translation device that estimates a speaker's emotion by reading the speaker's facial expression.
しかしながら従来の翻訳装置では、話者の表情を読み取るために、カメラを備えた画像認識装置が必要であり、翻訳装置をコンパクトな構成とすることに改善の余地があった。 However, the conventional translation device requires an image recognition device equipped with a camera in order to read the expression of the speaker, and there is room for improvement in making the translation device compact.
そこで本発明は、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供することを目的とする。 Therefore, an object of the present invention is to provide a translation device that can estimate a speaker's emotion and reflect it in translation with a more compact configuration than the conventional one.
本発明に係る翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。 A translation apparatus according to the present invention includes a speech recognition unit that recognizes speech of an input speaker, an emotion estimation unit that estimates a speaker's emotion from speech information that has been speech-recognized by the speech recognition unit, and a speech A translating unit that translates text information recognized by the recognizing unit into translated text information of a language system different from the language system of the text information while reflecting the emotion of the speaker estimated by the emotion estimating unit.
また、感情推定部は、発話音声の速度の特徴により、話者の感情を推定してもよい。 The emotion estimation unit may estimate the speaker's emotion based on the speed characteristics of the speech.
また、感情推定部は、発話音声の抑揚の特徴により、話者の感情を推定してもよい。 Further, the emotion estimation unit may estimate the speaker's emotion based on the feature of the inflection of the uttered speech.
また、感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、音声認識部により認識された音声情報から、話者の感情を推定してもよい。 The emotion estimation unit estimates the speaker's emotion from the speech information recognized by the speech recognition unit, using a learning model that has learned the speed characteristics and inflection characteristics of the speech speech that has been speech-recognized. Also good.
また、学習モデルは、SVM(support vector machine)であってもよい。 The learning model may be SVM (support vector machine).
また、感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、音声認識部により認識された音声情報から、話者の感情を推定してもよい。 In addition, the emotion estimation unit uses a learning model that has learned the speed characteristics of speech utterances recognized by speech, the characteristics of inflection, and the relationship between at least one of these and the emotion of the speaker. The emotion of the speaker may be estimated from the voice information recognized by the recognition unit.
また、学習モデルとして、LSTM(Long short term memory)の機能を有する学習モデルを使用してもよい。 Further, a learning model having a function of LSTM (Long short term memory) may be used as the learning model.
また、学習モデルは、感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、フィードバック部に入力された感情推定情報を用いて、再帰学習する再帰学習部と、を備えてもよい。 In addition, the learning model includes a feedback unit that accepts emotion estimation information that is an estimation result of the speaker's emotion by the emotion estimation unit, and a recursive learning unit that performs recursive learning using the emotion estimation information input to the feedback unit. You may prepare.
また、感情推定部は、音声認識された単語に対して、話者の感情を推定してもよい。 Further, the emotion estimation unit may estimate the speaker's emotion for the speech-recognized word.
また、翻訳テキスト情報に基づく音声を発話する発話部を備え、発話部は、翻訳テキスト情報に基づく音声を発話する際に、感情推定部が推定した話者の感情を反映させてもよい。 Moreover, the speech part which utters the sound based on translation text information may be provided, and the speech part may reflect the emotion of the speaker estimated by the emotion estimation part when speaking the speech based on the translation text information.
また、本発明に係る翻訳方法は、コンピュータが、入力された話者の発話音声を音声認識する音声認識ステップと、音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、音声認識ステップにおいて認識されたテキスト情報を、感情推定ステップにより推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行する。 Further, the translation method according to the present invention includes a speech recognition step in which a computer recognizes speech of an input speaker, and an emotion for estimating a speaker's emotion from speech information recognized by the speech recognition step. A translation step for translating the text information recognized in the speech recognition step into translated text information in a language system different from the language system of the text information, while reflecting the emotion of the speaker estimated in the emotion estimation step, Execute.
また、本発明に係る翻訳プログラムは、コンピュータに、入力された話者の発話音声を音声認識する音声認識機能と、音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、音声認識機能において認識されたテキスト情報を、感情推定機能により推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させる。 The translation program according to the present invention also includes a speech recognition function for recognizing speech of a speaker input to a computer, and an emotion for estimating a speaker's emotion from speech information recognized by the speech recognition function. A translation function that translates text information recognized in the speech recognition function into text information recognized in the speech recognition function, while reflecting the emotion of the speaker estimated by the emotion estimation function, into translated text information in a language system different from the language system of the text information, Is realized.
本発明の翻訳装置では、感情推定部が、話者が発話し、音声認識部により音声認識された音声情報から、話者の感情を推定する。そして、翻訳部が、話者の感情を反映させながら、音声認識部が認識したテキスト情報を、異なる言語体系の翻訳テキスト情報に翻訳する。このため、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる。 In the translation apparatus of the present invention, the emotion estimation unit estimates the speaker's emotion from the speech information that the speaker speaks and the speech recognition unit recognizes. Then, the translation unit translates the text information recognized by the speech recognition unit into translated text information of a different language system while reflecting the emotion of the speaker. For this reason, a speaker's emotion can be estimated and reflected in translation with a more compact configuration than before.
(第1実施形態)
本発明の第1の実施形態について、図面を参照しながら説明する。
図1は、翻訳装置100およびその周辺の構成を示す図である。翻訳装置100は、ユーザ10(話者)の発話音声を、ユーザ10の感情を反映しながら翻訳する装置である。翻訳装置100は、翻訳した結果をユーザ10に向けて発話可能となっている。
(First embodiment)
A first embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram showing a configuration of
図2は、翻訳装置100の構成例を示すブロック図である。翻訳装置100は、入力部110、記憶部120、処理部130、発話部140、および表示部150を備えている。
入力部110は、ユーザ10の発話音声が入力されるマイクの機能を有している。入力部110は、音声データを受信すると、処理部130に伝達する。
FIG. 2 is a block diagram illustrating a configuration example of the
The
記憶部120は、翻訳装置100が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部120は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。
なお、翻訳装置100は、各種プログラムを記憶部120に記憶し、当該プログラムを実行して、処理部130が、処理部130に含まれる各機能部としての処理を実行してもよい。これらの各種プログラムは、翻訳装置100に、処理部130が実行する各機能を実現させる。各機能とは、後述する音声認識機能、感情推定機能、および翻訳機能を含んでいる。
The
The
記憶部120は、各種プログラムとして、入力された音声データからテキスト情報を認識するための音声認識プログラム、発話音声からユーザ10の感情を推定する感情推定プログラム、および認識されたテキスト情報から翻訳を行うための翻訳プログラムを記憶している。なお、この説明においてテキスト情報とは、後述する音声認識部により、意味のある単位に分割されて認識された文字列であり、単語、熟語、又は意味の通る短文等を含む概念である。
また、記憶部120は、後述する翻訳部133が翻訳時に用いる辞書データ121を備えている。
The
The
図4に示すように、辞書データ121は、テキスト情報および翻訳テキスト情報それぞれについて、対応する感情情報と紐づけて記憶している。
辞書データ121は、テキスト情報と、テキスト情報が訳されるべき複数の翻訳テキスト情報を、話者の感情の属性毎に対応付けて記憶している。
テキスト情報は、音声認識部131により認識されたテキストを示す情報である。翻訳テキスト情報は、テキスト情報および感情情報により特定されるテキスト情報を翻訳した単語のテキスト情報である。また、テキスト情報および翻訳テキスト情報については、方言ごとに記憶してもよい。ここで方言とは、所定の地域内で限定的に使用される口語表現をいう。
As shown in FIG. 4, the dictionary data 121 stores text information and translation text information in association with corresponding emotion information.
The dictionary data 121 stores text information and a plurality of translated text information into which the text information is to be translated in association with each attribute of the speaker's emotion.
The text information is information indicating the text recognized by the
感情情報は、テキスト情報と対応する単語が発話される際における話者の感情を示す情報である。感情情報は、例えば喜怒哀楽および平常の5つに分類されている。すなわち、それぞれの単語について、ユーザ10がどのような感情のとき使用されるかという属性を指している。
また、ユーザ10の感情によらずに使用される単語については、感情情報を記憶していなくてもよい。
Emotion information is information indicating a speaker's emotion when a word corresponding to text information is uttered. Emotion information is classified into five categories, for example, emotions and normality. That is, for each word, it indicates an attribute of what kind of emotion the
In addition, emotion information may not be stored for words that are used regardless of the emotion of the
図2に示す処理部130は、翻訳装置100の各部を制御するものであり、例えば、中央処理装置(CPU)やマイクロプロセッサ、ASIC、FPGAなどであってもよい。なお、処理部130は、これらの例に限られず、どのようなものであってもよい。
The processing unit 130 illustrated in FIG. 2 controls each unit of the
処理部130は、音声認識部131と、感情推定部132と、翻訳部133と、音声生成部134と、を備えている。
音声認識部131は、入力部110から伝達された音声データを解析する機能を有する。音声認識部131は、伝達されたユーザ10の発話音声に対して、後述する音声特徴量の抽出や形態素解析を含む音声認識処理を施して、テキスト情報に変換する。
The processing unit 130 includes a
The
感情推定部132は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、音声認識部131により音声認識された音声情報から、話者の感情を推定する。
感情推定部132は、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方により、ユーザ10の感情を推定する。この点について、以下に詳述する。
The emotion estimation unit 132 estimates the speaker's emotion from the speech information recognized by the
The emotion estimation unit 132 estimates the emotion of the
学習モデルは、例えばSVM(Support Vector Machine)である。
SVMとは、パターン認識モデルの一つであり、データを属性に沿って分類を行うことで、発話音声を発話したユーザ10の感情を推定することができる。SVMの学習データを用いた学習および分類について、図3を用いて説明する。
The learning model is, for example, SVM (Support Vector Machine).
SVM is one of pattern recognition models, and by classifying data according to attributes, it is possible to estimate the emotion of the
本実施の形態に係るSVMは、少なくとも音声の発話速度と、音声の抑揚とに基づいて、入力された音声を発した話者の感情を推定する分類器である。
SVMは、例えば、予め学習データとして、分類したい感情を示す音声データを複数用意し、その音声データを分類することで閾値を算出する。例えば、喜びを示す音声と、悲しみを示す音声とを複数用意し、それらを分類することによって、喜びと悲しみの閾値を算出する。ここで、予め用意する音声データとして、方言を使用してもよい。このように、方言ごとの音声データを用いて、それぞれの方言ごとに学習させた学習モデルを用意した場合、その方言に特有の発話速度および抑揚を考慮した感情推定が可能になる。
The SVM according to the present embodiment is a classifier that estimates the emotion of a speaker who has uttered input speech based on at least the speech utterance speed and speech inflection.
For example, the SVM prepares a plurality of voice data indicating emotions to be classified as learning data in advance, and calculates the threshold value by classifying the voice data. For example, a plurality of voices indicating joy and voices indicating sadness are prepared, and the thresholds of joy and sadness are calculated by classifying them. Here, a dialect may be used as voice data prepared in advance. As described above, when a learning model prepared for each dialect is prepared using speech data for each dialect, emotion estimation considering an utterance speed and intonation peculiar to the dialect becomes possible.
そして、推定の段階においては、感情を推定したい音声の、少なくとも、発話速度および抑揚を要素とするベクトルに変換する。
例えば、「ありがとう」という音声の発話速度として、発話に要した秒数を用い、抑揚をその音声の振幅の変化を用いるとした場合、このありがとうという音声のベクトルは、例えば(発話の秒数、スペクトル値)という形で表現することができる。なお、ここに更に、音量(あるいはその変化)など他の要素を含ませてベクトルを生成してよい。
Then, at the estimation stage, the speech whose emotion is to be estimated is converted into a vector having at least the speech rate and intonation as elements.
For example, when the number of seconds required for speech is used as the speech rate of “thank you” and the change in amplitude of the speech is used for inflection, the speech vector of thank- (Spectrum value). In addition, a vector may be generated by further including other elements such as a volume (or a change thereof).
そして、生成したベクトルが、SVMが定める空間上のどこに位置するかによって、音声の感情がどのような感情に属するかを特定(分類)することによって、音声の感情を推定する。SVMは、予め学習済みのものを利用してもよいし、翻訳装置が学習したものを利用してもよい。 Then, the emotion of the voice is estimated by specifying (classifying) the emotion of the voice belongs to where the generated vector is located in the space defined by the SVM. SVM may use what has been learned in advance, or may use what has been learned by the translation apparatus.
図3に示すように、例えばSVMは、多数の学習データの特徴量を2次元のベクトル空間により把握してもよい。この場合の特徴量とは、本実施形態では、発話音声の速度の特徴、および抑揚の特徴を含む音声特徴量である。
図示の例では、多数の学習データは、属性により、2つのクラスを構成している。例えば図3(a)に示すベクトル空間には、発話音声の話者の感情が「平常」であるクラスと、「喜」であるクラスとが存在している。そして、SVMは、学習データ群を線形に分離する境界を学習している。また、この境界を学習したのちには、多数の学習データを記憶しておく必要は無いが、記憶しておいてもよい。
As shown in FIG. 3, for example, the SVM may grasp the feature amounts of a large number of learning data using a two-dimensional vector space. In this embodiment, the feature amount in this case is a speech feature amount including the speed feature and the inflection feature of the speech voice.
In the illustrated example, a large number of learning data constitutes two classes by attributes. For example, in the vector space shown in FIG. 3A, there are a class in which the emotion of the speaker of the uttered voice is “normal” and a class in which “joy” is present. And SVM is learning the boundary which isolate | separates a learning data group linearly. Further, after learning this boundary, it is not necessary to store a large number of learning data, but they may be stored.
そしてSVMは、感情推定部132に新たな発話音声データが入力されると、その発話音声データの音声特徴量を抽出し、境界線に対して当該発話音声データがどこに位置するかを判断することで、発話音声データの話者の感情が「平常」であるか、「喜」であるかを分類することができる。 Then, when new utterance voice data is input to the emotion estimation unit 132, the SVM extracts the voice feature amount of the utterance voice data, and determines where the utterance voice data is located with respect to the boundary line. Thus, it is possible to classify whether the speaker's emotion in the speech data is “normal” or “joy”.
また、SVMは、例えば図3(b)に示すように、感情情報として「平常」を有しているクラスと、「哀」を有しているクラスとに分類可能なベクトル空間を同時に把握していてもよい。この場合、話者の感情が「平常」であるか、「喜」であるか、を分類するための第1ベクトル空間と、話者の感情が「平常」であるか、「哀」であるか、を分類する第2ベクトル空間と、の両方を持っていることとなる。この場合の感情推定について説明する。 Further, for example, as shown in FIG. 3B, the SVM simultaneously recognizes a vector space that can be classified into a class having “normal” as emotion information and a class having “sorrow”. It may be. In this case, the first vector space for classifying whether the speaker's emotion is “normal” or “joy” and the speaker's emotion is “normal” or “sad” Or the second vector space for classifying or. The emotion estimation in this case will be described.
例えば、第1ベクトル空間において話者の感情が「喜」であり、第2ベクトル空間において話者の感情が「平常」である場合には、話者の感情は「喜」であると推定する。
次に、第1ベクトル空間において話者の感情が「平常」であり、第2ベクトル空間において話者の感情が「哀」である場合には、話者の感情は「哀」であると推定する。
For example, if the speaker's emotion is “joy” in the first vector space and the speaker's emotion is “normal” in the second vector space, the speaker's emotion is estimated to be “joy”. .
Next, if the speaker's emotion is “normal” in the first vector space and the speaker's emotion is “sorrow” in the second vector space, the speaker's emotion is estimated to be “sorrow”. To do.
また、仮に第1ベクトル空間において話者の感情が「平常」であり、第2ベクトル空間において話者の感情が「平常」である場合には、話者の感情は「平常」であると推定する。
そして、仮に第1ベクトル空間において話者の感情が「喜」であり、第2ベクトル空間において話者の感情が「哀」である場合には、以下の判断により感情を推定する。
If the speaker's emotion is “normal” in the first vector space and the speaker's emotion is “normal” in the second vector space, the speaker's emotion is estimated to be “normal”. To do.
If the speaker's emotion is “joy” in the first vector space and the speaker's emotion is “sorrow” in the second vector space, the emotion is estimated by the following judgment.
すなわち、この場合には、当該音声データの音声特徴量のベクトルの位置が、第1ベクトル空間のうち、「喜」に相当するデータ群の中央値に近いか、第2ベクトル空間のうち、「哀」に相当するデータ群の中央値に近いか、を判断し、よりデータ群の中央値に近い属性を採用する。これにより、複数の感情に対して分類をすることができる。また、前述したように複数のベクトル空間を備えずに、一つのベクトル空間の中に、複数の感情情報に分類するためのクラスを有していてもよい。 That is, in this case, the position of the speech feature vector of the speech data is close to the median value of the data group corresponding to “joy” in the first vector space, or “ It is judged whether it is close to the median value of the data group corresponding to “sorrow”, and an attribute closer to the median value of the data group is adopted. Thereby, a plurality of emotions can be classified. Further, as described above, a plurality of vector spaces may not be provided, and a single vector space may have a class for classifying into a plurality of emotion information.
また、感情推定部132は、音声認識された単語に対して、話者の感情を推定する。この際、感情推定部132は、全ての単語に対して感情推定を行ってもよい。また、感情推定部132は、音声認識部131が変換したテキスト情報に基づいて、発話音声のうち、特に感情が表現された単語を抽出し、その単語についてのみ感情推定を行ってもよい。
Moreover, the emotion estimation part 132 estimates a speaker's emotion with respect to the speech-recognized word. At this time, the emotion estimation unit 132 may perform emotion estimation for all words. Moreover, the emotion estimation part 132 may extract the word in which especially emotion was expressed among uttered voices based on the text information converted by the
翻訳部133は、音声認識部131において認識されたテキスト情報を、感情推定部132が推定したユーザ10の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する。
翻訳部133は、音声認識部131により認識されたテキスト情報が伝達されると、当該テキスト情報に対応する翻訳テキスト情報を、図4に示す辞書データ121のテキスト情報を参照して、検索する。そして、感情推定部が推定した感情に対応する感情情報を参照して、翻訳テキスト情報を特定する。
The translation unit 133 translates the text information recognized by the
When the text information recognized by the
例えば、図4に示すように、音声認識部131により認識された音声のテキストが「おい」であり、感情推定部により推定された感情が、「喜」であった場合には、翻訳部は、このテキストの翻訳テキストとして、「Hi」を特定する。これにより、翻訳部133はユーザ10の感情を翻訳作業に反映させる。
翻訳部133は、翻訳テキスト情報、および感情情報を音声生成部134に伝達する。
For example, as shown in FIG. 4, when the voice text recognized by the
The translation unit 133 transmits the translated text information and emotion information to the
音声生成部134は、翻訳テキスト情報に基づいて、ユーザ10に向けて発話するロボット発話音声データを生成する。ロボット発話音声データは、翻訳部133から伝達された翻訳テキスト情報に基づいて、ロボット発話音声データを生成する。
発話部140は、音声生成部134が生成したロボット発話音声データを発話するスピーカーとしての機能を有する。
The
The
ここで、発話部140は、翻訳テキスト情報に基づく音声を、例えば単調に発話してもよいし、感情推定部132が推定した話者の感情を反映させながら発話してもよい。後者の場合には、音声生成部134は、感情推定部132が推定した感情情報を参照し、当該感情情報と対応付けて記憶する音声特徴量を再現しながら、ロボット発話音声データを生成する。
Here, the
表示部150は、翻訳部133が翻訳した翻訳テキスト情報を表示するディスプレイである。表示部150には、翻訳テキスト情報とともに、音声認識部131により認識された音声情報を示すテキスト情報が表示される。
The
次に、翻訳装置100における処理フローについて図5を用いて説明する。
図5に示すように、まず、翻訳装置100の入力部110に、ユーザ10の発話音声が入力される(S501)。入力部110は、受け付けた発話音声を、処理部130における音声認識部131および感情推定部132に伝達する(S502)。
次に、音声認識部131が、音声認識ステップとして、検出した音からユーザ10の発話音声を解析して音声認識を行う。(S503)。音声認識の処理としてはまず、入力された音声波形を切り出し、特徴量を抽出する。次に音響モデル及び言語モデルを使用して、音素の並びを単語に変換し、変換された内容をテキストで出力する。これにより、音声認識結果として、テキスト情報が特定される。なお、音声認識の処理は、他の処理により行ってもよい。
音声認識部131は、解析により得られたテキスト情報を、翻訳部133に伝達する。
Next, a processing flow in the
As shown in FIG. 5, first, the speech of the
Next, the
The
次に、感情推定部132が、感情推定ステップとして、発話音声の特徴量から、話者の感情を推定する。本実施形態では、感情推定部132が有する学習モデルであるSVMが、前述した手法により、話者の感情を推定する(S504)。
次に、翻訳部133が、翻訳ステップとして、テキスト情報を翻訳テキストに翻訳する(S505)。この際、翻訳部133は、ユーザ10の感情を反映しながら翻訳を行う。翻訳部133は、辞書データ121を参照して、音声認識部131から伝達されたテキスト情報と、感情推定部132から伝達された感情情報とに対応する翻訳テキスト情報を特定して翻訳を行う。
Next, the emotion estimation part 132 estimates a speaker's emotion from the feature-value of speech sound as an emotion estimation step. In the present embodiment, the SVM, which is a learning model included in the emotion estimation unit 132, estimates the speaker's emotion using the method described above (S504).
Next, the translation part 133 translates text information into a translation text as a translation step (S505). At this time, the translation unit 133 performs translation while reflecting the emotion of the
次に、表示部150が、翻訳テキスト情報を表示する。これにより、ユーザ10は、感情が反映されて翻訳された内容を、表示部150の表示内容を見ることで確認することができる。
次に、音声生成部134が、翻訳テキスト情報からロボット発話音声データを生成する(S506)。そして、発話部140が、発話ステップとして、ロボット発話音声データをユーザ10に向けて発話する(S507)。これにより、ユーザ10は、感情が反映されて翻訳された内容を、発話部140の発話内容を聞くことで確認することができる。
Next, the
Next, the
以上説明したように、本実施形態に係る翻訳装置100によれば、感情推定部132がユーザ10の発話音声からユーザ10の感情を推定する。そして、翻訳部133が、ユーザ10の感情を反映させながら、音声認識部131が認識したテキスト情報を、異なる言語体系の翻訳テキスト情報に翻訳する。このため、従来よりもコンパクトな構成で、ユーザ10の感情を推定して翻訳に反映することができる。
As described above, according to the
また、感情推定部132が、ユーザ10の発話音声発話速度、および抑揚からユーザ10の感情を推定するので、ユーザ10が使用した単語のみから感情を推定する構成と比較して、より一層正確にユーザ10の感情を推定することができる。
In addition, since the emotion estimation unit 132 estimates the emotion of the
また、SVMという学習モデルを用いて音声認識された発話音声発話速度、および抑揚の特徴を学習させるので、様々なパターンの発話音声に対して、適切に感情の推定を行うことができる。 Further, since the speech recognition rate and the feature of inflection recognized by using the learning model called SVM are learned, it is possible to appropriately estimate emotions for various patterns of speech.
また、発話部140が、翻訳部133から伝達された感情情報に基づいて、ユーザ10の感情を反映させながら翻訳テキスト情報に基づく音声を発話する場合には、より一層正確にユーザ10の感情を反映させることができる。
また、感情推定部132が、翻訳を行う単語に対して感情情報を行うことで、ユーザ10の感情を正確に推定することができる。
また、方言ごとの学習データを用いて学習した学習モデルを使用することで、方言独特の発話速度、抑揚等を考慮した感情推定が可能になり、利便性が向上する。
Further, when the
In addition, the emotion estimation unit 132 can accurately estimate the emotion of the
Further, by using a learning model learned using learning data for each dialect, emotion estimation can be performed in consideration of dialect-specific speech speed, intonation, etc., and convenience is improved.
(第2実施形態)
次に、本発明の第2実施形態に係る翻訳装置100について、図6から図8を用いて説明する。第2実施形態に係る翻訳装置100では、感情推定部132の学習モデルの構造が、第1実施形態と異なっている。なお、以下の説明では、第1実施形態との相違点について主に説明し、前述した第1実施形態と同一の構成および効果についてはその説明を省略する。
(Second Embodiment)
Next, the
図6は、第2実施形態に係る翻訳装置100の感情推定部132で行う処理を説明する図である。図7は、感情推定部132における学習モデルの学習フェーズを説明する図である。図8は、感情推定部132における学習モデルの推定フェーズを説明する図である。
FIG. 6 is a diagram for explaining processing performed by the emotion estimation unit 132 of the
図6に示すように、本実施形態に係る感情推定部132は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、音声認識部131により音声認識された音声情報から、話者の感情を推定する。
As shown in FIG. 6, the emotion estimation unit 132 according to the present embodiment includes the speed feature of the uttered speech that has been speech-recognized, the feature of inflection, and the relationship between at least one of these and the emotion of the speaker. The emotion of the speaker is estimated from the speech information recognized by the
詳述すると、感情推定部132は、入力層と、中間層と、出力層と、を備えた学習モデルを有している。
本実施形態における学習モデルとは、発話音声を入力することで、発話音声の話者の感情を推定した感情推定情報を出力する関数の集合である。ここでまず、学習モデルが行う学習データを用いた学習フェーズについて説明する。
More specifically, the emotion estimation unit 132 has a learning model including an input layer, an intermediate layer, and an output layer.
The learning model in the present embodiment is a set of functions that output emotion estimation information obtained by estimating the emotion of the speaker of the uttered speech by inputting the uttered speech. First, a learning phase using learning data performed by a learning model will be described.
図7に示すように、学習フェーズでは、まずユーザ10が、例えば発話音声と、ラベルとしての感情情報と、を有する学習データを感情推定部132の学習モデルに入力する(S301)。すなわち、学習モデルは、発話音声から発話速度の特徴及び抑揚の特徴の違いを学習し、感情を推定できるように学習する。なお、学習データに入力する発話音声として、方言を使用してもよい。
ラベルとしての感情情報とは、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方に紐づく、話者の感情を指す情報である。
As shown in FIG. 7, in the learning phase, first, the
The emotion information as the label is information indicating the emotion of the speaker associated with at least one of the speed feature of the uttered voice and the feature of the inflection.
そして、学習モデルは、様々な発話音声と、それに対応する感情情報と、を学習する必要があるため、大量の学習データが必要となる。学習モデルにおいて出力として得られる感情情報は、例えば喜怒哀楽それぞれに対応するように4種類に設定されている。なお、感情情報は4種類よりも大別化して設定してもよいし、更に細分化して設定してもよい。 And since a learning model needs to learn various utterance voices and emotion information corresponding to it, a large amount of learning data is required. The emotion information obtained as an output in the learning model is set to four types so as to correspond to, for example, emotions. Note that the emotion information may be set by dividing it more than four types, or may be set by subdividing it.
感情推定部132は、発話音声の音声信号から発話音声における発話速度、および発話音声の抑揚の特徴を含む音声特徴量を抽出する。発話速度は主に音声信号の時間軸に依存し、発話音声の抑揚は、主に音声信号の振幅軸に依存する。
なお音声特徴量は、その他の値として、例えば周波数スペクトルをメル帯域化・対数化した値等を用いてもよい。
The emotion estimation unit 132 extracts the speech feature amount including the speech speed of the speech speech and the feature of the speech speech inflection from the speech signal of the speech speech. The speech speed mainly depends on the time axis of the speech signal, and the inflection of the speech speech mainly depends on the amplitude axis of the speech signal.
Note that the audio feature amount may be a value obtained by converting the frequency spectrum into a mel band or logarithm, for example, as other values.
そして、学習モデルは、学習データを学習する(S302)。ここでいう学習データは、音声から抽出した発話速度を示す特徴量、および音声から抽出した抑揚を示す特徴量のうちの少なくともいずれか一方と、その音声が示す感情の情報(ラベル)が対応付けられた情報である。学習データに対応付けられている感情の情報(ラベル)は、ユーザ10(オペレータ)が付与したものであり、ここでは、喜怒哀楽のいずれかを示す情報である。 Then, the learning model learns learning data (S302). In this case, the learning data is associated with at least one of the feature amount indicating the speech rate extracted from the speech and the feature amount indicating the inflection extracted from the speech, and emotion information (label) indicated by the speech. Information. The emotion information (label) associated with the learning data is given by the user 10 (operator), and here is information indicating one of emotions.
学習データを学習することで、学習モデルを構成する関数それぞれの係数が変更される。すなわち、学習モデルを構成する関数が、それぞれの係数を変更してゆくことで、学習データのうち、抽出された音声特徴量の値と、感情情報の数値と、を用いて、音声特徴量から感情情報を導く学習モデルへと構築されていく。 By learning the learning data, the coefficient of each function constituting the learning model is changed. That is, the functions that make up the learning model change the respective coefficients, so that the extracted speech feature value and the emotion information value in the learning data are used to calculate the speech feature value. It is built into a learning model that leads emotion information.
学習モデルの中間層は、LSTM(Long short term memory)の機能を有している。LSTMの機能を有する学習モデルでは、ユーザ10が既に発話した発話音声の音声特徴量に基づいて、ユーザ10の感情を、例えば単語単位で順次推定してゆく。
中間層は、感情推定部132による話者の感情の推定結果である感情推定情報を受付けるフィードバック部として機能し、学習フェーズにおいて、バックプロパゲーションを行うことができる。
The intermediate layer of the learning model has a LSTM (Long Short Term Memory) function. In the learning model having the LSTM function, the emotion of the
The intermediate layer functions as a feedback unit that accepts emotion estimation information, which is the estimation result of the speaker's emotion by the emotion estimation unit 132, and can perform backpropagation in the learning phase.
バックプロパゲーションとは、ある学習データにおける音声特徴量を入力層に入力し、中間層で計算されて出力層に出力された計算結果が、該当するラベルが示す感情情報と異なった場合に、その計算結果を再度中間層に戻して再度計算を行うことである。この際、再計算の結果が、該当するラベルが示す感情情報と一致するように、中間層の係数を調整することで、中間層による感情推定の精度を向上することができる。 Backpropagation refers to the case where the speech feature value in a certain learning data is input to the input layer, the calculation result calculated in the intermediate layer and output to the output layer differs from the emotion information indicated by the corresponding label. The calculation result is returned to the intermediate layer again and the calculation is performed again. At this time, the accuracy of emotion estimation by the intermediate layer can be improved by adjusting the coefficient of the intermediate layer so that the recalculation result matches the emotion information indicated by the corresponding label.
また中間層は、入力された感情推定情報を用いて、再帰学習する再帰学習部として機能してもよい。ここで、学習モデルにおける再帰学習とは、実際に翻訳装置100を利用するユーザ10が、入力した音声に対して翻訳された翻訳結果の音声が納得いかなかった場合に行う処理である。
具体的には、入力した音声に対して本来翻訳されるべき内容、あるいは、音声の感情情報を入力層に再入力し、入力した音声と、そのユーザ10が指定した翻訳されるべき内容、あるいは、感情情報をラベルとして、新しい追加の学習データを、元からある学習データ群に混ぜて、もう一度学習モデルを作る。これにより、学習モデルによる感情推定の精度をより一層向上することができる。
The intermediate layer may function as a recursive learning unit that performs recursive learning using the input emotion estimation information. Here, the recursive learning in the learning model is processing performed when the
Specifically, the content to be originally translated with respect to the input speech, or the emotion information of the speech is re-input to the input layer, the input speech and the content to be translated designated by the
このようにして、学習モデルが学習済みの状態となる。この作業を大量の学習データに対して行うことで、学習モデルの精度が向上する。次に、実際に学習モデルを用いて話者の感情を推定する推定フェーズについて説明する。 In this way, the learning model is in a learned state. By performing this operation on a large amount of learning data, the accuracy of the learning model is improved. Next, an estimation phase for actually estimating a speaker's emotion using a learning model will be described.
図8に示すように、推定フェーズでは、まず、感情推定部132の学習モデルに発話音声データを入力する(S401)。感情推定部132は、発話音声における発話速度、および発話音声の抑揚の特徴を含む音声特徴量を抽出し、学習モデルに入力する。
学習モデルは、入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる確度を出力層に出力してもよい。確度とは、入力データが、どのラベルに相当するかの確からしさを定量的に評価した指標であり、例えば「喜0.7、怒0.2、哀0.4、楽0.1」のように表示される。この場合には、数値が最も大きい「喜」が選択され、発話音声の話者の感情が「喜」と推定される(S402)。また、確度に代えて、感情を示すタグが出力されてもよい。
As shown in FIG. 8, in the estimation phase, first, utterance voice data is input to the learning model of the emotion estimation unit 132 (S401). The emotion estimation unit 132 extracts the speech feature amount including the speech speed in the speech speech and the feature of the speech speech inflection, and inputs the speech feature amount to the learning model.
The learning model may output, to the output layer, the accuracy of the calculation result calculated in the intermediate layer when a speech feature is input to the input layer. The accuracy is an index that quantitatively evaluates the certainty of which label the input data corresponds to, for example, “joy 0.7, anger 0.2, sorrow 0.4, comfort 0.1” Is displayed. In this case, “joy” having the largest numerical value is selected, and the emotion of the speaker of the uttered voice is estimated to be “joy” (S402). Further, instead of the accuracy, a tag indicating emotion may be output.
また、ユーザ10が翻訳装置100を使用する中で、感情推定部132が推定した感情推定情報に違和感が生じた場合には、この感情推定情報をフィードバック部としての入力層に入力することができる。そして、入力層に入力された感情推定情報を用いて、再帰学習部としての中間層が、ユーザ10が所期する感情推定情報が得られるように、再帰学習をすることができる。
In addition, when the
(学習データの変形例)
次に、学習データの変形例について図9を用いて説明する。
図9に示すように、変形例に係る学習データでは、ラベルとして、感情情報に代えて翻訳テキスト情報を有している。この場合、翻訳テキスト情報が示す単語に、話者の感情が内包されていることとなる。
(Modification of learning data)
Next, a modified example of the learning data will be described with reference to FIG.
As shown in FIG. 9, the learning data according to the modification has translation text information as a label instead of emotion information. In this case, the emotion of the speaker is included in the word indicated by the translated text information.
そして、学習モデルは、このようなラベルを有する学習データで学習を行う。この場合には、学習モデルを構成する関数が、それぞれの係数を変更してゆくことで、学習データのうち、抽出された音声特徴量の値と、翻訳テキスト情報と、を用いて、音声特徴量から翻訳テキスト情報を導く学習モデルへと構築されていく。 And a learning model learns with the learning data which has such a label. In this case, the function constituting the learning model changes each coefficient, thereby using the extracted voice feature value and the translation text information in the learning data to obtain the voice feature. It is built into a learning model that derives translated text information from quantity.
また、このような学習データを用いる翻訳装置100Bの構成例を、図10を用いて説明する。
図10に示すように、翻訳装置100Bの記憶部120Bは、辞書データを備えていない。また、処理部130Bにおいて、感情推定部132Bは、翻訳部133Bに含まれている。この場合の翻訳装置100Bの処理フローについて、図11を用いて説明する。なお、この説明では、前述した処理フローと異なる部分についてのみ説明する。
A configuration example of the
As shown in FIG. 10, the storage unit 120B of the
図11に示すように、翻訳部133Bは、音声データを、感情情報が反映された翻訳テキスト情報に翻訳する(S604)。この点について詳述すると、発話音声が翻訳部133Bの感情推定部132Bに入力され、学習モデルの入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる感情を示すタグが出力層に出力される。この感情を示すタグと、翻訳テキスト情報と、を翻訳部133Bが比較し、類似する翻訳テキスト情報が選択されることで、翻訳テキスト情報が確定する。これにより、発話音声の話者の感情が推定された翻訳が行われる。
As shown in FIG. 11, the
以上説明したように、本実施形態に係る翻訳装置100によれば、感情推定部132が、発話音声の速度の特徴、および抑揚の特徴、並びに当該発話音声が発話された際の話者の感情情報を学習した学習モデルを用いて話者の感情を推定するので、話者の感情を正確に推定することができる。
As described above, according to the
また、学習モデルとして、LSTMの機能を有する学習モデルを使用することで、ユーザ10が既に発話した発話音声の音声特徴量に基づいて、ユーザ10の感情を、例えば単語単位で順次推定してゆくことができる。これにより、音声の入力に対して、より的確に感情推定を行うことができる。
In addition, by using a learning model having an LSTM function as a learning model, the emotion of the
また、学習モデルがフィードバック部と再帰学習部として機能する中間層を備えているので、感情推定部132による話者の感情の推定結果である感情推定情報を、中間層に再度入力することができる。そして、中間層に再度入力された感情推定情報を用いて、再帰学習することができる。これにより、継続した使用により感情推定の精度を向上してゆくことができる。 In addition, since the learning model includes an intermediate layer that functions as a feedback unit and a recursive learning unit, emotion estimation information that is an estimation result of the emotion of the speaker by the emotion estimation unit 132 can be input to the intermediate layer again. . Then, recursive learning can be performed using the emotion estimation information input again to the intermediate layer. Thereby, the precision of emotion estimation can be improved by continued use.
上記実施形態に係る装置は、上記実施形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
例えば翻訳装置100は、日本語と英語との間の翻訳に限られず、様々な言語間の翻訳に使用することができる。また、例えば同じ日本語における標準語と方言との間の翻訳に使用してもよいし、異なる言語間での方言どうしの翻訳に使用してもよい。翻訳に方言を使用することで、翻訳した内容に親しみやすさを持たせることができる。
It goes without saying that the apparatus according to the above embodiment is not limited to the above embodiment, and may be realized by other methods. Hereinafter, various modifications will be described.
For example, the
翻訳装置100は、どのような態様で実現されてもよい。すなわち、上述した実施形態のように、単一の装置により実現されてもよいし、例えば入力部110、記憶部120、処理部130および発話部140が、異なる複数の装置により実現されてもよい。
また、翻訳装置100は、発話部140を備えなくてもよい。この場合には、例えば翻訳装置100が、翻訳テキスト情報に基づく音声を発話することなく、翻訳テキスト情報を表示部150にのみ出力するような構成であってもよい。
Moreover, the
また、翻訳部133がロボット発話音声データを生成してもよい。この場合には、翻訳装置100に音声データを入力することで、翻訳部133から翻訳されたロボット発話音声データが出力されることとなる。
また、学習モデルとして利用するアルゴリズムは、音声から感情を推定、あるいは、感情を推定した上で翻訳を実行することができれば、SVMやLSTMに限られるものではなく、他のアルゴリズムを利用してもよい。
Moreover, the translation part 133 may produce | generate robot speech audio | voice data. In this case, by inputting the voice data to the
Further, the algorithm used as a learning model is not limited to SVM or LSTM as long as emotion can be estimated from speech, or translation can be executed after estimating the emotion, and other algorithms can be used. Good.
また、上記実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。記憶媒体は、HDDやSDDなどの任意の適切な記憶媒体、またはこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。 Moreover, the program of the said embodiment may be provided in the state memorize | stored in the computer-readable storage medium. The storage medium can store the program in “a tangible medium that is not temporary”. The storage medium can include any suitable storage medium such as HDD or SDD, or a suitable combination of two or more thereof. The storage medium may be volatile, non-volatile, or a combination of volatile and non-volatile. The storage medium is not limited to these examples, and any device or medium may be used as long as it can store the program.
なお、翻訳装置100は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体(通信ネットワークや放送波等)を介して、翻訳装置100に提供されてもよい。翻訳装置100は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。
Note that the
なお、当該プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective―C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。 The program can be implemented using, for example, a script language such as ActionScript or JavaScript (registered trademark), an object-oriented programming language such as Objective-C or Java (registered trademark), or a markup language such as HTML5.
翻訳装置100における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、翻訳装置100の各機能部は、上記実施形態に示した機能を実現する1または複数の回路によって実現されてもよく、1の回路により複数の機能部の機能が実現されることとしてもよい。
At least a part of the processing in the
また、本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。 Moreover, although the embodiments of the present disclosure have been described based on the drawings and examples, it should be noted that those skilled in the art can easily make various modifications and corrections based on the present disclosure. Therefore, it should be noted that these variations and modifications are included in the scope of the present disclosure. For example, the functions included in each means, each step, etc. can be rearranged so that there is no logical contradiction, and a plurality of means, steps, etc. can be combined or divided into one. . Moreover, it is good also as combining suitably the structure shown to each embodiment.
(付記)
また、前述した構成における翻訳装置を下記の構成としてもよい。
入力された話者の発話音声を音声認識する音声認識部と、
前記音声認識部により音声認識された音声情報から、話者の感情を推定するとともに、前記音声認識部において認識されたテキスト情報を、推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている翻訳装置。
(Appendix)
The translation apparatus having the above-described configuration may be configured as follows.
A speech recognition unit that recognizes speech of the input speaker,
While estimating the speaker's emotion from the speech information speech-recognized by the speech recognition unit, the text information recognized by the speech recognition unit reflects the estimated speaker's emotion, and the language of the text information And a translation unit that translates into translated text information of a language system different from the system.
前記翻訳部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を反映した翻訳テキスト情報を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定しながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳することを特徴とする前段落に記載の翻訳装置。 The translation unit uses a learning model that learns translated text information that reflects the speed characteristics, inflection characteristics, and at least any one of these and the emotions of the speaker. In the preceding paragraph, the speech information recognized by the speech recognition unit is translated into translated text information of a language system different from the language system of the text information while estimating a speaker's emotion. Translation device.
100 翻訳装置
121 辞書データ
131 音声認識部
132 感情推定部
133 翻訳部
140 発話部
150 表示部
100 translation device 121
Claims (11)
前記音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、
前記音声認識部において認識されたテキスト情報を、前記感情推定部が推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備え、
前記テキスト情報および前記翻訳テキスト情報は、所定の地域内で限定的に使用される口語表現としての方言を含み、
前記感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定し、
前記学習モデルは、方言ごとの音声データを用いて、それぞれの方言ごとに学習されていることを特徴とする翻訳装置。 A speech recognition unit that recognizes speech of the input speaker,
An emotion estimation unit that estimates a speaker's emotion from the voice information voice-recognized by the voice recognition unit;
A translation unit that translates text information recognized by the speech recognition unit into translated text information of a language system different from the language system of the text information, while reflecting the emotion of the speaker estimated by the emotion estimation unit; Prepared ,
The text information and the translated text information include a dialect as a colloquial expression used limitedly within a predetermined region,
The emotion estimation unit estimates a speaker's emotion from the speech information recognized by the speech recognition unit using a learning model that learns the speed characteristics and inflection characteristics of the speech speech that has been speech-recognized. ,
The translation apparatus, wherein the learning model is learned for each dialect using speech data for each dialect.
前記音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、
前記音声認識部において認識されたテキスト情報を、前記感情推定部が推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備え、
前記テキスト情報および前記翻訳テキスト情報は、所定の地域内で限定的に使用される口語表現としての方言を含み、
前記感情推定部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定し、
前記学習モデルは、方言ごとの音声データを用いて、それぞれの方言ごとに学習されていることを特徴とする翻訳装置。 A speech recognition unit that recognizes speech of the input speaker,
An emotion estimation unit that estimates a speaker's emotion from the voice information voice-recognized by the voice recognition unit;
A translation unit that translates text information recognized by the speech recognition unit into translated text information of a language system different from the language system of the text information, while reflecting the emotion of the speaker estimated by the emotion estimation unit; Prepared ,
The text information and the translated text information include a dialect as a colloquial expression used limitedly within a predetermined region,
The emotion estimation unit uses the learning model that learns the speed characteristics, the inflection characteristics, and the relationship between at least one of these and the emotion of the speaker, by using speech recognition. Estimate the speaker's emotion from the speech information recognized by the
The translation apparatus , wherein the learning model is learned for each dialect using speech data for each dialect .
前記感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、
前記フィードバック部に入力された前記感情推定情報を用いて、再帰学習する再帰学習部と、を備えていることを特徴とする請求項1から4のいずれか1項に記載の翻訳装置。 The learning model is
A feedback unit that accepts emotion estimation information that is an estimation result of a speaker's emotion by the emotion estimation unit;
Using said emotion estimation information input to the feedback section, the translation device according to any one of claims 1, characterized in that it comprises a and a recursive learning unit for recursive learning 4.
前記発話部は、前記翻訳テキスト情報に基づく音声を発話する際に、前記感情推定部が推定した話者の感情を反映させることを特徴とする請求項1から6のいずれか1項に記載の翻訳装置。 An utterance unit that utters a voice based on the translated text information;
The said utterance part reflects the speaker's emotion estimated by the said emotion estimation part, when uttering the audio | voice based on the said translation text information, The any one of Claim 1 to 6 characterized by the above-mentioned. Translation device.
入力された話者の発話音声を音声認識する音声認識ステップと、
前記音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、
前記音声認識ステップにおいて認識されたテキスト情報を、前記感情推定ステップにより推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行し、
前記テキスト情報および前記翻訳テキスト情報は、所定の地域内で限定的に使用される口語表現としての方言を含み、
前記感情推定ステップでは、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、前記音声認識ステップにより音声認識された音声情報から、話者の感情を推定し、
前記学習モデルは、方言ごとの音声データを用いて、それぞれの方言ごとに学習されていることを特徴とする翻訳方法。 Computer
A speech recognition step for recognizing speech of the input speaker,
An emotion estimation step for estimating a speaker's emotion from the voice information voice-recognized by the voice recognition step;
Translating the text information recognized in the speech recognition step into translated text information of a language system different from the language system of the text information, while reflecting the emotion of the speaker estimated in the emotion estimation step; Run ,
The text information and the translated text information include a dialect as a colloquial expression used limitedly within a predetermined region,
In the emotion estimation step, a speaker's emotion is estimated from the speech information recognized in the speech recognition step by using a learning model in which the speed feature and the inflection feature of the speech speech recognized by the speech recognition are learned. ,
The translation method, wherein the learning model is learned for each dialect using speech data for each dialect.
入力された話者の発話音声を音声認識する音声認識ステップと、
前記音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、
前記音声認識ステップにおいて認識されたテキスト情報を、前記感情推定ステップが推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行し、
前記テキスト情報および前記翻訳テキスト情報は、所定の地域内で限定的に使用される口語表現としての方言を含み、
前記感情推定ステップは、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、前記音声認識ステップにより音声認識された音声情報から、話者の感情を推定し、前記学習モデルは、方言ごとの音声データを用いて、それぞれの方言ごとに学習されていることを特徴とする翻訳方法。 Computer
A speech recognition step for recognizing speech of the input speaker,
An emotion estimation step for estimating a speaker's emotion from the voice information voice-recognized by the voice recognition step;
Translating the text information recognized in the speech recognition step into translated text information in a language system different from the language system of the text information, while reflecting the emotion of the speaker estimated in the emotion estimation step; Run,
The text information and the translated text information include a dialect as a colloquial expression used limitedly within a predetermined region,
In the emotion estimation step, the speech recognition is performed using a learning model that learns a speed feature, an inflection feature, and a relationship between at least one of them and a speaker's emotion. A translation method characterized in that a speaker's emotion is estimated from speech information that is speech-recognized in steps, and the learning model is learned for each dialect using speech data for each dialect.
入力された話者の発話音声を音声認識する音声認識機能と、
前記音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、
前記音声認識機能において認識されたテキスト情報を、前記感情推定機能により推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させ、
前記テキスト情報および前記翻訳テキスト情報は、所定の地域内で限定的に使用される口語表現としての方言を含み、
前記感情推定機能では、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、前記音声認識機能により音声認識された音声情報から、話者の感情を推定し、
前記学習モデルは、方言ごとの音声データを用いて、それぞれの方言ごとに学習されていることを特徴とする翻訳プログラム。 On the computer,
A voice recognition function that recognizes the voice of the input speaker,
An emotion estimation function for estimating a speaker's emotion from voice information recognized by the voice recognition function;
A translation function that translates text information recognized by the speech recognition function into translated text information of a language system different from the language system of the text information, while reflecting the emotion of the speaker estimated by the emotion estimation function. Realized ,
The text information and the translated text information include a dialect as a colloquial expression used limitedly within a predetermined region,
In the emotion estimation function, a speaker's emotion is estimated from the speech information recognized by the speech recognition function using a learning model in which the speed feature and the intonation feature of the speech speech recognized by the speech recognition are learned. ,
The translation program , wherein the learning model is learned for each dialect using speech data for each dialect .
入力された話者の発話音声を音声認識する音声認識機能と、A voice recognition function that recognizes the voice of the input speaker,
前記音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、An emotion estimation function for estimating a speaker's emotion from voice information recognized by the voice recognition function;
前記音声認識機能において認識されたテキスト情報を、前記感情推定機能が推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させ、A translation function that translates text information recognized by the speech recognition function into translated text information of a language system different from the language system of the text information, while reflecting the emotion of the speaker estimated by the emotion estimation function. Realized,
前記テキスト情報および前記翻訳テキスト情報は、所定の地域内で限定的に使用される口語表現としての方言を含み、The text information and the translated text information include a dialect as a colloquial expression used limitedly within a predetermined region,
前記感情推定機能は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、前記音声認識機能により音声認識された音声情報から、話者の感情を推定し、The emotion estimation function uses the learning model that learns the speed characteristics, the inflection characteristics, and the relationship between at least one of these and the emotion of the speaker, by using speech recognition. Estimate the emotions of the speaker from the speech information recognized by the function,
前記学習モデルは、方言ごとの音声データを用いて、それぞれの方言ごとに学習されていることを特徴とする翻訳プログラム。The translation program, wherein the learning model is learned for each dialect using speech data for each dialect.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019028464A JP6580281B1 (en) | 2019-02-20 | 2019-02-20 | Translation apparatus, translation method, and translation program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019028464A JP6580281B1 (en) | 2019-02-20 | 2019-02-20 | Translation apparatus, translation method, and translation program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP6580281B1 true JP6580281B1 (en) | 2019-09-25 |
| JP2020134719A JP2020134719A (en) | 2020-08-31 |
Family
ID=68053673
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019028464A Active JP6580281B1 (en) | 2019-02-20 | 2019-02-20 | Translation apparatus, translation method, and translation program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6580281B1 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2021171552A1 (en) * | 2020-02-28 | 2021-09-02 | ||
| CN118862906A (en) * | 2024-07-03 | 2024-10-29 | 深圳市东象科技有限公司 | An intelligent voice translator based on AI artificial intelligence |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7500452B2 (en) * | 2021-01-27 | 2024-06-17 | 株式会社Nttドコモ | Psychological state management device |
| JP2023014916A (en) * | 2021-07-19 | 2023-01-31 | Kddi株式会社 | Models, apparatus and methods for emotion estimation via determination of a specific set of emotion types |
| JP2025051661A (en) * | 2023-09-22 | 2025-04-04 | ソフトバンクグループ株式会社 | system |
| JP2025070727A (en) * | 2023-10-20 | 2025-05-02 | Wovn Technologies株式会社 | Video editing device and program |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02183371A (en) * | 1989-01-10 | 1990-07-17 | Nec Corp | Automatic interpreting device |
| JP2005352154A (en) * | 2004-06-10 | 2005-12-22 | National Institute Of Information & Communication Technology | Emotional state reaction operation device |
| JP2005352311A (en) * | 2004-06-11 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesis apparatus and speech synthesis program |
| JP4745036B2 (en) * | 2005-11-28 | 2011-08-10 | パナソニック株式会社 | Speech translation apparatus and speech translation method |
| JP5066242B2 (en) * | 2010-09-29 | 2012-11-07 | 株式会社東芝 | Speech translation apparatus, method, and program |
| JP6251145B2 (en) * | 2014-09-18 | 2017-12-20 | 株式会社東芝 | Audio processing apparatus, audio processing method and program |
| JP6524049B2 (en) * | 2016-10-28 | 2019-06-05 | 株式会社東芝 | Emotion estimation device, emotion estimation method, emotion estimation program, and emotion counting system |
| CN106782602B (en) * | 2016-12-01 | 2020-03-17 | 南京邮电大学 | Speech emotion recognition method based on deep neural network |
-
2019
- 2019-02-20 JP JP2019028464A patent/JP6580281B1/en active Active
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2021171552A1 (en) * | 2020-02-28 | 2021-09-02 | ||
| WO2021171552A1 (en) * | 2020-02-28 | 2021-09-02 | 日本電信電話株式会社 | Emotion recognition device, emotion recognition model learning device, method for same, and program |
| JP7420211B2 (en) | 2020-02-28 | 2024-01-23 | 日本電信電話株式会社 | Emotion recognition device, emotion recognition model learning device, methods thereof, and programs |
| CN118862906A (en) * | 2024-07-03 | 2024-10-29 | 深圳市东象科技有限公司 | An intelligent voice translator based on AI artificial intelligence |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020134719A (en) | 2020-08-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6580281B1 (en) | Translation apparatus, translation method, and translation program | |
| US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
| US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
| US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
| KR102413692B1 (en) | Apparatus and method for caculating acoustic score for speech recognition, speech recognition apparatus and method, and electronic device | |
| US12462788B2 (en) | Instantaneous learning in text-to-speech during dialog | |
| CN112309406B (en) | Voiceprint registration method, device and computer-readable storage medium | |
| US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
| US20190295531A1 (en) | Determining phonetic relationships | |
| CN111292740B (en) | Speech Recognition System and Method | |
| JP2001100781A (en) | Audio processing device, audio processing method, and recording medium | |
| JPWO2009078256A1 (en) | Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program | |
| WO2014183373A1 (en) | Systems and methods for voice identification | |
| US11615787B2 (en) | Dialogue system and method of controlling the same | |
| JP2021529337A (en) | Multi-person dialogue recording / output method using voice recognition technology and device for this purpose | |
| US20240274122A1 (en) | Speech translation with performance characteristics | |
| JP2015049254A (en) | Speech data recognition system and speech data recognition method | |
| US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
| KR102062524B1 (en) | Voice recognition and translation method and, apparatus and server therefor | |
| CN116933806A (en) | Concurrent translation system and concurrent translation terminal | |
| KR20210036169A (en) | Dialogue system, dialogue processing method, translating apparatus and method of translation | |
| KR20240068723A (en) | Convergence of sound and text expression in an automatic speech recognition system implemented with Rnn-T | |
| JP2018128575A (en) | End-of-speech determination device, end-of-speech determination method, and program | |
| US20040006469A1 (en) | Apparatus and method for updating lexicon | |
| WO2006083020A1 (en) | Audio recognition system for generating response audio by using audio data extracted |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190315 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190315 |
|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190401 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190416 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190610 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190709 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190827 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6580281 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |