JP2016114729A - Text message voicing device, text message voicing method, and text message voicing program - Google Patents
Text message voicing device, text message voicing method, and text message voicing program Download PDFInfo
- Publication number
- JP2016114729A JP2016114729A JP2014252654A JP2014252654A JP2016114729A JP 2016114729 A JP2016114729 A JP 2016114729A JP 2014252654 A JP2014252654 A JP 2014252654A JP 2014252654 A JP2014252654 A JP 2014252654A JP 2016114729 A JP2016114729 A JP 2016114729A
- Authority
- JP
- Japan
- Prior art keywords
- message
- data
- voice
- text message
- voice conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
【課題】同じ話者モデルデータを用いたとしても、作成者が異なる複数のテキストメッセージを聴覚的に異なる状態で音声化することができるテキストメッセージ音声化装置を提供する。【解決手段】メッセージデータ取得部102は、テキストメッセージとメッセージ作成者を示す情報とを含むメッセージデータを取得する。記憶部103は、テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声出力定位とのうちの少なくとも1つのパラメータの設定値を、メッセージ作成者に対応させて記憶する。メッセージデータ取得部102がメッセージデータを取得したら、制御部101は、記憶部103より、メッセージ作成者に対応したパラメータの設定値を読み出す。音声変換部104は、テキストメッセージを話者モデルデータと、パラメータの設定値とを用いて音声データに変換する。【選択図】図1Provided is a text message speechization device that can synthesize a plurality of text messages of different creators in an audibly different state even when the same speaker model data is used. A message data acquisition unit acquires message data including a text message and information indicating a message creator. The storage unit 103 stores a setting value of at least one parameter among a text message reading speed, a reading pitch, a reading volume, and a voice output localization in association with the message creator. When the message data acquisition unit 102 acquires the message data, the control unit 101 reads the parameter setting value corresponding to the message creator from the storage unit 103. The voice conversion unit 104 converts the text message into voice data using the speaker model data and parameter setting values. [Selection] Figure 1
Description
本発明は、テキストメッセージを音声合成によって音声化するテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムに関する。 The present invention relates to a text message speechization device, a text message speechization method, and a text message speechization program for speechizing a text message by speech synthesis.
テキストメッセージを音声合成によって音声化するテキストメッセージ音声化装置は、カーナビゲーション装置等の各種の装置で用いられている。テキストメッセージを音声合成によって音声化するためには、話者モデルデータが必要である。 A text message speech converting apparatus that synthesizes a text message by speech synthesis is used in various apparatuses such as a car navigation apparatus. To make a text message into speech by speech synthesis, speaker model data is required.
話者モデルデータは、テキストメッセージを音声に変換するために必要な音素、単語、文節等の多数の音声要素データを含むため、データ量が膨大である。また、1つの話者モデルデータを作成するには多大な工数が必要となる。 The speaker model data includes a large amount of data because it includes a large number of speech element data such as phonemes, words, and phrases necessary for converting a text message into speech. Also, a great deal of man-hour is required to create one speaker model data.
複数の作成者それぞれによって作成されたテキストメッセージをテキストメッセージ音声化装置によって音声化する場合がある。このような場合、複数の作成者のテキストメッセージそれぞれに対して用いる話者モデルデータを異ならせれば、複数の作成者の声や話し方が異なって、作成者の違いを認識することができる。 In some cases, a text message created by each of a plurality of creators is voiced by a text message voice device. In such a case, if the speaker model data used for each of the text messages of a plurality of creators is different, the voices and manners of speaking of the creators are different, and the difference between the creators can be recognized.
ところが、上記のように話者モデルデータはデータ量が膨大であり、話者モデルデータを作成するには多大の工数が必要であるから、複数の作成者それぞれに対応させた話者モデルデータを用意し、テキストメッセージ音声化装置に記憶させておくことは困難である。 However, as described above, the speaker model data has an enormous amount of data, and it takes a lot of man-hours to create the speaker model data. It is difficult to prepare and memorize it in the text message voicing apparatus.
本発明はこのような問題点に鑑み、同じ話者モデルデータを用いたとしても、作成者が異なる複数のテキストメッセージを聴覚的に異なる状態で音声化することができるテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムを提供することを目的とする。 In view of such problems, the present invention provides a text message speechization device, a text that can audibly utter a plurality of different text messages in different states even when the same speaker model data is used. An object of the present invention is to provide a message sounding method and a text message sounding program.
本発明は、上述した従来の技術の課題を解決するため、テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含むメッセージデータを取得するメッセージデータ取得部と、前記テキストメッセージを所定の話者モデルデータを用いて音声データに変換する音声変換部と、前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、前記音声データによる音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データを、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶する記憶部と、前記メッセージデータ取得部が所定のメッセージデータを取得したとき、前記記憶部より、前記所定のメッセージデータのメッセージ作成者に対応して記憶されている音声変換参照データに含まれるパラメータの設定値を読み出し、前記音声変換部が、前記所定のメッセージデータに含まれているテキストメッセージを、前記話者モデルデータと、前記パラメータの設定値とを用いて音声データに変換するよう、前記音声変換部を制御する制御部とを備えることを特徴とするテキストメッセージ音声化装置を提供する。 In order to solve the above-described problems of the related art, the present invention provides a message data acquisition unit that acquires message data including a text message and information indicating a message creator who created the text message, and the text message A voice conversion unit for converting into voice data using predetermined speaker model data, a reading speed of the text message, a reading pitch, a reading volume, and a voice output from a plurality of speakers; Storage unit that stores voice conversion reference data including a setting value of at least one parameter of the voice output localization indicating the balance of the message corresponding to the message creator so as to be different for each message creator; When the message data acquisition unit acquires predetermined message data, A setting value of a parameter included in the voice conversion reference data stored corresponding to the message creator of the predetermined message data is read from the storage unit, and the voice conversion unit is included in the predetermined message data. A text message voicing apparatus comprising: a control unit that controls the voice conversion unit so as to convert the text message into voice data using the speaker model data and the set value of the parameter I will provide a.
また、本発明は、上述した従来の技術の課題を解決するため、テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含む所定のメッセージデータを取得し、前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データが、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶されている記憶部より、前記メッセージ作成者に対応する前記パラメータの設定値を読み出し、前記所定のメッセージデータに含まれているテキストメッセージを、所定の話者モデルデータと、前記記憶部より読み出した前記パラメータの設定値とを用いて音声データに変換することを特徴とするテキストメッセージ音声化方法を提供する。 In addition, in order to solve the above-described problems of the conventional technology, the present invention acquires predetermined message data including a text message and information indicating a message creator who created the text message, and reads out the text message. Voice conversion reference data including a setting value of at least one parameter of speed, reading pitch, reading volume, and voice output localization indicating a balance when voice is outputted from a plurality of speakers is created as a message. The setting value of the parameter corresponding to the message creator is read from the storage unit stored corresponding to the message creator, and the text message included in the predetermined message data is different for each message creator. Are the predetermined speaker model data and the parameters read from the storage unit. Providing a text message voicing method characterized by converting the audio data by using the set value of over data.
さらに、本発明は、上述した従来の技術の課題を解決するため、コンピュータに、テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含むメッセージデータを取得したとき、前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データが、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶されている記憶部より、前記パラメータの設定値を読み出すステップと、前記メッセージデータに含まれているテキストメッセージを、所定の話者モデルデータと、前記記憶部より読み出した前記パラメータの設定値とを用いて音声データに変換するステップとを実行させることを特徴とするテキストメッセージ音声化プログラムを提供する。 Furthermore, in order to solve the above-described problems of the prior art, the present invention obtains message data including a text message and information indicating a message creator who created the text message in a computer. Voice conversion reference data including a setting value of at least one parameter of a reading speed, a reading pitch, a reading volume, and a sound output localization indicating a balance when sound is output from a plurality of speakers, The step of reading the set value of the parameter from the storage unit stored in correspondence with the message creator, and the text message included in the message data, as different for each message creator, Model data and the parameters read from the storage unit Providing a text message audio programs, characterized in that and a step of converting the voice data by using the value.
本発明のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムによれば、同じ話者モデルデータを用いたとしても、作成者が異なる複数のテキストメッセージを聴覚的に異なる状態で音声化することができる。 According to the text message speech device, text message speech method, and text message speech program of the present invention, even if the same speaker model data is used, a plurality of text messages with different creators are aurally different. Can be voiced.
以下、各実施形態のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムについて、添付図面を参照して説明する。 In the following, a text message voice conversion device, a text message voice conversion method, and a text message voice conversion program of each embodiment will be described with reference to the accompanying drawings.
<第1実施形態>
図1において、テキストメッセージ音声化装置100には、外部システム200と、音声出力部300とが接続されている。テキストメッセージ音声化装置100と外部システム200とは、インターネットを介して接続されていてもよい。
<First Embodiment>
In FIG. 1, an
外部システム200は、例えばインスタントメッセンジャ等のメッセージデータを管理するシステムである。
The
テキストメッセージ音声化装置100は、テキストメッセージ音声化装置100の全体を制御する制御部101と、制御部101とそれぞれ接続されたメッセージデータ取得部102と記憶部103と音声変換部104とを備える。
The text
メッセージデータ取得部102は、外部システム200からメッセージデータを取得する。メッセージデータ取得部102が外部システム200に対してメッセージデータの送信を要求することにより、メッセージデータ取得部102がメッセージデータを取得してもよいし、メッセージデータ取得部102が受動的にメッセージデータを取得してもよい。
The message
記憶部103は、音声変換部104でメッセージデータを音声変換するために用いる話者モデルデータの識別情報と、後述するパラメータデータとを含む音声変換参照データを、メッセージデータの送信者(作成者)ごとに記憶している。
The
音声変換部104は、少なくとも1つの話者モデルデータを記憶している。記憶部103に記憶されている音声変換参照データには、複数の送信者に対して、共通の話者モデルデータが割り当てられていることがある。
The
図2に示すように、制御部101は、機能的な内部構成として、音声変換参照データ生成部1011と、音声変換参照データ書き込み部1012と、音声変換参照データ読み出し部1013とを有する。音声変換参照データ生成部1011と、音声変換参照データ書き込み部1012と、音声変換参照データ読み出し部1013は、ソフトウェアによって構成することができる。
As illustrated in FIG. 2, the
制御部101は、メッセージデータ取得部102が取得したメッセージデータに含まれるテキストメッセージと、音声変換参照データ読み出し部1013が記憶部103より読み出した音声変換参照データとを、所定の形式で音声変換部104に供給する。
The
音声変換部104は、テキストメッセージを、所定の話者モデルデータを用い、さらに、音声変換参照データを参照して音声データに変換する。
The
制御部101は、音声データ(音声信号)を音声出力部300に供給して、音声として出力させる。音声出力部300は、スピーカと増幅部等で構成される。音声データは、制御部101または図示していないD/A変換器によってアナログ信号に変換されてスピーカに供給される。
The
図3に示すフローチャートを用いて、図1のテキストメッセージ音声化装置の動作、テキストメッセージ音声化装置で実行されるテキストメッセージ音声化方法をさらに説明する。 With reference to the flowchart shown in FIG. 3, the operation of the text message voice generating apparatus of FIG. 1 and the text message voice generating method executed by the text message voice generating apparatus will be further described.
図3において、制御部101は、ステップS01にて、メッセージデータ取得部102が取得したメッセージデータを取り込む。メッセージデータは、一例として、図4に示すようなデータである。メッセージデータの形式は例えばXML形式である。
In FIG. 3, the
図4に示すように、メッセージデータは、messageタグを有し、messageタグは、メッセージに関する各種のタグを格納している。accountタグは、メッセージ送信者(メッセージ作成者)を一意に特定できるアカウント名を格納する。genderタグはメッセージ送信者の性別を格納し、languageタグはメッセージの言語を格納する。textタグは、メッセージ本文であるテキストメッセージを格納する。 As shown in FIG. 4, the message data has a message tag, and the message tag stores various tags related to the message. The account tag stores an account name that can uniquely identify the message sender (message creator). The gender tag stores the gender of the message sender, and the language tag stores the language of the message. The text tag stores a text message that is a message body.
制御部101は、ステップS02にて、記憶部103に、メッセージ送信者に対応する音声変換参照データが存在するか否かを判定する。
In step S02, the
図5は、記憶部103に記憶されている音声変換参照データの一例を示している。音声変換参照データは、アカウント名と、使用する話者モデルデータを特定する識別情報と、パラメータデータの設定値とを含む。ここでは、パラメータデータとして、読み上げ速度、読み上げ音声、読み上げ音量、音声出力定位それぞれの設定値が設定されている。パラメータデータは、これらのうちの少なくとも1つの設定値であってもよい。
FIG. 5 shows an example of the voice conversion reference data stored in the
図5では、読み上げ速度、読み上げ音声、読み上げ音量が全てノーマルなる設定値に設定されており、音声出力定位はL5:R5なる設定値に設定されている。音声出力定位のL5:R5とは、左右2つのスピーカにおける左スピーカと右スピーカとより音声を出力させるバランスを示す。音声出力定位は、前後左右の4つのスピーカより音声を出力させるバランスであってもよく、複数のスピーカより音声を出力させるバランスを示せばよい。 In FIG. 5, the reading speed, the reading voice, and the reading volume are all set to a normal setting value, and the voice output localization is set to a setting value L5: R5. The sound output localization L5: R5 indicates a balance in which sound is output from the left speaker and the right speaker in the two left and right speakers. The sound output localization may be a balance in which sound is output from four speakers, front, rear, left, and right, and may indicate a balance in which sound is output from a plurality of speakers.
制御部101は、メッセージデータに含まれるaccountタグに記述されているアカウント名を含む音声変換参照データが存在しているか否かによって、メッセージ送信者に対応する音声変換参照データが存在するか否かを判定することができる。
The
制御部101は、メッセージ送信者に対応する音声変換参照データが存在すれば(YES)、処理をステップS05に移行させ、存在しなければ(NO)、処理をステップS03に移行させる。
If the voice conversion reference data corresponding to the message sender exists (YES), the
音声変換参照データ生成部1011は、ステップS03にて、新規の音声変換参照データを、パラメータデータの設定値が重複しないように生成する。話者モデルデータは他の音声変換参照データにおけるそれと重複していてもよい。
In step S03, the voice conversion reference
音声変換参照データ生成部1011は、音声変換参照データが複数のパラメータの設定値を含む場合には、パラメータデータの設定値の組み合わせパターンが重複しないように新規の音声変換参照データを生成すればよい。
When the voice conversion reference data includes a plurality of parameter setting values, the voice conversion reference
音声変換参照データ生成部1011は、音声変換参照データが1つのパラメータの設定値のみを含む場合には、パラメータの設定値が重複しないように新規の音声変換参照データを生成する。
When the voice conversion reference data includes only one parameter setting value, the voice conversion reference
複数のテキストメッセージを聴覚的に異なる状態で音声化するには、パラメータデータの設定値を大きく異ならせるのがよい。そこで、例えば、読み上げ速度、読み上げ音声、読み上げ音量の設定値をそれぞれロー、ノーマル、ハイの3段階に設定したとすると、パラメータデータの設定値の組み合わせパターンは比較的限られたパターンとなる。 In order to make a plurality of text messages audibly sound differently, it is preferable to greatly change the setting values of the parameter data. Therefore, for example, if the setting values of the reading speed, reading voice, and reading volume are set to three levels of low, normal, and high, respectively, the combination pattern of the setting values of the parameter data is a relatively limited pattern.
音声変換参照データ書き込み部1012は、ステップS04にて、新たに生成した音声変換参照データを記憶部103に書き込んで登録し、処理をステップS05に移行させる。
In step S04, the voice conversion reference
図6の(a)に示すように、記憶部103に、アカウント名がaccount0と設定されている図5に示す音声変換参照データが予め登録されているとする。
As shown in FIG. 6A, it is assumed that the voice conversion reference data shown in FIG. 5 in which the account name is set to account0 is registered in the
図4に示すアカウント名account1を有するメッセージ送信者がメッセージデータを送信したとする。 Assume that a message sender having the account name account1 shown in FIG. 4 has sent message data.
音声変換参照データ書き込み部1012は、ステップS04にて、記憶部103にアカウント名account1に対応する音声変換参照データを登録する。よって、図6の(b)に示すように、記憶部103には、既存のアカウント名account0に対応する音声変換参照データと、アカウント名account1に対応する音声変換参照データとが記憶された状態となる。
The voice conversion reference
図6の(b)に示すように、アカウント名account1に対応する音声変換参照データは、例えば読み上げ速度と読み上げ音程の設定値がハイに設定される。音声変換参照データが複数のパラメータデータを含む場合には、少なくとも1つのパラメータデータの設定値を変更すればよい。アカウント名account1に対応する話者モデルデータは、アカウント名account0に対応する話者モデルデータと同じである。 As shown in FIG. 6B, for the voice conversion reference data corresponding to the account name account1, for example, the reading speed and the reading pitch are set to high. When the voice conversion reference data includes a plurality of parameter data, the setting value of at least one parameter data may be changed. The speaker model data corresponding to the account name account1 is the same as the speaker model data corresponding to the account name account0.
ところで、音声変換部104が例えば男性用の話者モデルデータと、女性用の話者モデルデータとを記憶している場合には、音声変換参照データ生成部1011は、音声変換参照データを生成する際に、メッセージデータに含まれるgenderタグに記述されている性別に対応した話者モデルデータを選択すればよい。
By the way, when the
図3に戻り、音声変換参照データ読み出し部1013は、ステップS05にて、記憶部103からメッセージ送信者に対応する音声変換参照データを読み出して、後述するデータを音声変換部104に供給する。
Returning to FIG. 3, in step S <b> 05, the voice conversion reference
制御部101が音声変換部104へと供給するデータの形式は例えば次のとおりである。制御部101は、textタグに記述されているテキストメッセージと、音声変換参照データに含まれる話者モデルデータを示す識別情報と、音声出力定位以外のパラメータデータとを用いて、例えばSSML形式のデータを生成する。
The format of data supplied from the
制御部101は、SSML形式のデータと音声出力定位のパラメータデータとを音声変換部104に供給する。音声出力定位のパラメータデータをSSML形式のデータと別にしているのは、音声出力定位のパラメータデータをSSML形式のデータに記述できないからである。
The
制御部101は、ステップS06にて、音声変換部104による音声変換処理を実行させる。音声変換部104は、入力されたSSML形式のデータに記述されている識別情報の話者モデルデータを用い、SSML形式のデータに記述されているパラメータデータ及び音声出力定位のパラメータデータに従って、テキストメッセージを音声変換する。
In step S06, the
制御部101は、ステップS07にて、音声変換部104によって変換された音声データに基づく音声を音声出力部300より出力させて、処理を終了させる。
In step S07, the
制御部101をマイクロコンピュータによって構成し、コンピュータプログラム(テキストメッセージ音声化プログラム)によって、マイクロコンピュータに図3に示す処理を実行させるように構成してもよい。
The
以上のように、第1実施形態によれば、音声変換部104によってテキストメッセージを音声変換する際に用いる話者モデルデータが同じであっても、メッセージ作成者が異なる複数のテキストメッセージを聴覚的に異なる状態で音声化することができる。
As described above, according to the first embodiment, even when the speaker model data used when the
<第2実施形態>
第2実施形態のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムを、第1実施形態におけるそれとは異なる点を中心に説明する。
Second Embodiment
The text message sounding apparatus, text message sounding method, and text message sounding program of the second embodiment will be described with a focus on differences from the first embodiment.
第2実施形態においては、図7に示すように、音声変換参照データに、その音声変換参照データの最終利用日時の情報を追加している。 In the second embodiment, as shown in FIG. 7, information on the last use date and time of the voice conversion reference data is added to the voice conversion reference data.
図8に示す第2実施形態のフローチャートにおいて、図3に示す第1実施形態のフローチャートと同一のステップには同一の符号を付し、説明を省略する。図8において、制御部101は、ステップS02にて、記憶部103に、メッセージ送信者に対応する音声変換参照データが存在しなければ(NO)、処理をステップS08に移行させる。
In the flowchart of the second embodiment shown in FIG. 8, the same steps as those in the flowchart of the first embodiment shown in FIG. In FIG. 8, if there is no voice conversion reference data corresponding to the message sender in the
制御部101は、ステップS08にて、パラメータデータの設定値の組み合わせパターンが不足しているか否かを判定する。パラメータデータが1つのみであれば、パラメータデータの設定値が不足しているか否かを判定すればよい。
In step S08, the
制御部101は、組み合わせパターンが不足していれば(YES)、処理をステップS09に移行させ、組み合わせパターンが不足していなければ(NO)、処理をステップS03に移行させる。
If the combination pattern is insufficient (YES), the
音声変換参照データ生成部1011は、ステップS09にて、最終利用日時が最も古い音声変換参照データを削除し、新規の音声変換参照データを生成して、処理をステップS05に移行させる。
In step S09, the voice conversion reference
具体的には、音声変換参照データ生成部1011が、最終利用日時が最も古い音声変換参照データのアカウント名を他のアカウント名に書き換えた音声変換参照データを生成し、音声変換参照データ書き込み部1012が記憶部103に書き込めばよい。これに伴って、最終利用日時が更新される。
Specifically, the voice conversion reference
ステップS09の処理によって、最終利用日時が最も古い、あるメッセージ送信者に対して設定されている音声変換参照データが消去され、新規のメッセージ送信者に対して、音声変換参照データが設定されることになる。 By the process of step S09, the voice conversion reference data set for a message sender having the oldest last use date and time is deleted, and the voice conversion reference data is set for a new message sender. become.
第2実施形態によれば、第1実施形態と同じ効果に加えて、パラメータデータの設定値の組み合わせパターンが不足した場合でも、新規のメッセージ送信者に対して音声変換参照データを設定することができる。 According to the second embodiment, in addition to the same effects as in the first embodiment, voice conversion reference data can be set for a new message sender even when the combination pattern of parameter data setting values is insufficient. it can.
上記のように、パラメータデータの設定値の組み合わせパターンは限られているので、第2実施形態は有効となる。 As described above, since the combination pattern of the setting values of the parameter data is limited, the second embodiment is effective.
<第3実施形態>
第3実施形態のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムを、第1または第2実施形態におけるそれとは異なる点を中心に説明する。以下の第3実施形態の構成及び動作は、第1実施形態に対して加えてもよいし、第2実施形態に対して加えてもよい。
<Third Embodiment>
The text message speechization apparatus, text message speechization method, and text message speechization program of the third embodiment will be described with a focus on differences from the first or second embodiment. The configuration and operation of the following third embodiment may be added to the first embodiment or may be added to the second embodiment.
図9に示すように、第3実施形態においては、制御部101は、機能的な内部構成として、文字列付加部1014をさらに有する。文字列付加部1014は、ソフトウェアによって構成することができる。
As shown in FIG. 9, in the third embodiment, the
図10において、制御部101は、ステップS03にて新規の音声変換参照データを生成して、ステップS04にて音声変換参照データを記憶部103に登録する。文字列付加部1014は、ステップS11にて、テキストメッセージの前にメッセージ送信者の紹介文を示す文字列を付加して、処理をステップS05に移行させる。
In FIG. 10, the
記憶部103には、言語ごとの紹介文のテンプレートが記憶されている。例えば日本語のテンプレートを例にすると、記憶部103には、一例として、「こんにちは。???です。」というテンプレートが記憶されている。
The
制御部101は、languageタグに記述されている言語のテンプレートを読み出し、文字列付加部1014は、テンプレートにaccountタグに記述されているアカウント名を追記してメッセージ送信者の紹介文を生成する。
The
languageタグが日本語であることを示せば、文字列付加部1014は、上記のテンプレートにおける「???」の部分をアカウント名に置換した文字列を生成して、メッセージ送信者の紹介文としてテキストメッセージの前に付加する。英語等の他の言語の場合も同様である。
If the language tag indicates that it is in Japanese, the character
文字列付加部1014は、新規の音声変換参照データを生成したタイミング以外でも、テキストメッセージの前にメッセージ送信者の紹介文を付加してもよい。例えば、文字列付加部1014は、音声変換参照データの最終利用日時から所定期間以上経過して、その音声変換参照データを利用するときに、テキストメッセージの前に紹介文を付加する。
The character
音声変換参照データの最終利用日時から所定期間以上経過した場合にテキストメッセージに紹介文を付加する場合には、音声変換参照データの形式を、図7のように、最終利用日時の情報を含む音声変換参照データとする。 When an introductory sentence is added to a text message when a predetermined period or more has passed since the last use date and time of the voice conversion reference data, the voice conversion reference data format is a voice including information on the last use date and time as shown in FIG. This is converted reference data.
図11に示すように、制御部101は、ステップS02,S04に続くステップS12にて、最終利用日時から所定期間以上経過したか否かを判定する。制御部101は、所定期間以上経過していれば(YES)、処理をステップS13に移行させ、所定期間以上経過していなければ(NO)、処理をステップS05に移行させる。
As illustrated in FIG. 11, the
文字列付加部1014は、ステップS13にて、テキストメッセージの前にメッセージ送信者の紹介文を示す文字列を付加して、ステップS05に移行させる。
In step S13, the character
第3実施形態によれば、第1実施形態または第2実施形態と同じ効果に加えて、次のような効果を奏する。 According to 3rd Embodiment, in addition to the same effect as 1st Embodiment or 2nd Embodiment, there exist the following effects.
第1の例である図10に示す処理によれば、新しいメッセージ送信者がテキストメッセージを送信してきて、音声変換部104がテキストメッセージを音声変換するときに、メッセージ送信者の紹介文を再生することができる。よって、新しいメッセージ送信者が誰であるかを認識することが可能となる。
According to the process shown in FIG. 10, which is the first example, when a new message sender sends a text message and the
第2の例である図11に示す処理によれば、音声変換参照データの最終利用日時から所定期間以上経過した状態でその音声変換参照データを利用して、音声変換部104がテキストメッセージを音声変換するときに、メッセージ送信者の紹介文を再生することができる。よって、期間が経過することによってメッセージ送信者が誰であるかを忘れていたとしても、メッセージ送信者が誰であるかを認識することが可能となる。
According to the process shown in FIG. 11 as the second example, the
<第4実施形態>
第4実施形態のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムを、第1〜第3実施形態におけるそれとは異なる点を中心に説明する。以下の第4実施形態の構成及び動作は、第1〜第3実施形態それぞれに対して加えてもよい。
<Fourth embodiment>
The text message sounding apparatus, text message sounding method, and text message sounding program of the fourth embodiment will be described with a focus on differences from the first to third embodiments. The configuration and operation of the following fourth embodiment may be added to each of the first to third embodiments.
図12に示すように、第4実施形態においては、制御部101は、機能的な内部構成として、音声変換参照データ変更部1015をさらに有する。音声変換参照データ変更部1015は、ソフトウェアによって構成することができる。図12における文字列付加部1014は省略可能である。
As shown in FIG. 12, in the fourth embodiment, the
第4実施形態においても、音声変換参照データの形式を、図7のように、最終利用日時の情報を含む音声変換参照データとする。 Also in the fourth embodiment, the format of the voice conversion reference data is voice conversion reference data including information on the last use date and time as shown in FIG.
まず、メッセージ送信者Aが、テキストメッセージを送信してきたとする。記憶部103に記憶されている、メッセージ送信者Aに対して設定されている音声出力定位が左右3:7であったとする。このとき、音声変換部104は、音声出力定位を左右3:7として、テキストメッセージを音声変換する。
First, assume that message sender A has sent a text message. It is assumed that the sound output localization set for the message sender A stored in the
その後、メッセージ送信者Bが、テキストメッセージを送信してきたとする。記憶部103に記憶されている、メッセージ送信者Bに対して設定されている音声出力定位が左右5:5であったとする。このとき、音声変換部104は、音声出力定位を左右5:5として、テキストメッセージを音声変換する。
Thereafter, it is assumed that the message sender B transmits a text message. It is assumed that the sound output localization set for the message sender B stored in the
さらにその後、再びメッセージ送信者Bが、テキストメッセージを送信してきたとする。このとき、メッセージ送信者Bに対応する音声変換参照データの最終利用日時からの経過期間は、メッセージ送信者Aに対応する音声変換参照データのそれよりも短くなる。 Furthermore, after that, it is assumed that the message sender B sends a text message again. At this time, the elapsed period from the last use date and time of the voice conversion reference data corresponding to the message sender B is shorter than that of the voice conversion reference data corresponding to the message sender A.
音声変換参照データ変更部1015は、記憶部103に記憶されている、メッセージ送信者Bに対して設定されている音声出力定位を、左右3:7に変更して、音声変換部104は、音声出力定位を左右3:7として、テキストメッセージを音声変換する。
The voice conversion reference
併せて、音声変換参照データ変更部1015は、記憶部103に記憶されている、メッセージ送信者Aに対して設定されている音声出力定位が左右3:7を左右5:5に変更する。
In addition, the voice conversion reference
このように、第4実施形態は、最終利用日時からの経過期間に応じて音声出力定位の設定値を変更する音声変換参照データ変更部を有する。第4実施形態によれば、例えば次のような場合に効果を発揮する。左右のスピーカが車両に搭載されているとする。ここでは、車両は右側にステアリングが配置されているとする。 As described above, the fourth embodiment includes the voice conversion reference data changing unit that changes the setting value of the voice output localization according to the elapsed period from the last use date and time. According to 4th Embodiment, an effect is exhibited, for example in the following cases. Assume that left and right speakers are mounted on a vehicle. Here, it is assumed that the steering wheel is arranged on the right side of the vehicle.
メッセージ送信者Aが送信したテキストメッセージを音声変換部104によって音声データに変換し、音声出力定位を左右3:7として、左右のスピーカで再生すると、運転者は、運転者側に近付いた位置からの音声を聞くことになる。
When the text message transmitted by the message sender A is converted into voice data by the
次に、メッセージ送信者Bが送信したテキストメッセージを音声変換部104に音声データに変換して、音声出力定位を左右5:5として、左右のスピーカで再生したとする。この場合、音声は左右のほぼ中央から聞こえることになるので、運転者は、音声出力定位を左右3:7とした場合と比較して、運転者から離れた位置からの音声を聞くことになる。
Next, it is assumed that the text message transmitted by the message sender B is converted into voice data by the
その後、再びメッセージ送信者Bが送信したテキストメッセージを音声変換部104に音声データに変換して、音声出力定位を左右3:7として、左右のスピーカで再生すると、運転者は、運転者側に近付いた位置からの音声を聞くことになる。
After that, the text message transmitted again by the message sender B is converted into voice data by the
メッセージ送信者Bは、メッセージ送信者Aよりも直近にメッセージデータを送信している。よって、メッセージ送信者Bは、メッセージ送信者Aよりも、メッセージ受信者とメッセージ送信者とでメッセージデータを送受信する際の話題の中心となっている可能性が高い。 Message sender B is sending message data more recently than message sender A. Therefore, the message sender B is more likely to be the center of the topic when the message data is transmitted and received between the message receiver and the message sender than the message sender A.
運転者は、話題の中心となっている可能性が高いメッセージ送信者による音声を運転者側に近付いた位置から聞き、そうでないメッセージ送信者による音声を運転者から比較的離れた位置から聞くことにより、両者を容易に識別することが可能となる。 The driver listens to the voice of the message sender who is likely to be the center of the topic from a position close to the driver, and listens to the voice of the other message sender from a position relatively far from the driver. Thus, it is possible to easily identify both.
本発明は以上説明した各実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。図5等に示すように、音声変換参照データは話者モデルデータを特定するための識別情報を含むが、音声変換部104が有する話者モデルデータが1つのみであれば、話者モデルデータの識別情報を省略してもよい。
The present invention is not limited to the embodiments described above, and various modifications can be made without departing from the scope of the present invention. As shown in FIG. 5 and the like, the speech conversion reference data includes identification information for specifying the speaker model data, but if the
101 制御部
102 メッセージデータ取得部
103 記憶部
104 音声変換部
1011 音声変換参照データ生成部
1014 文字列付加部
1015 音声変換参照データ変更部
1011 Voice conversion reference data generator
1014 String addition part
1015 Voice conversion reference data change part
Claims (7)
前記テキストメッセージを所定の話者モデルデータを用いて音声データに変換する音声変換部と、
前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、前記音声データによる音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データを、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶する記憶部と、
前記メッセージデータ取得部が所定のメッセージデータを取得したとき、前記記憶部より、前記所定のメッセージデータのメッセージ作成者に対応して記憶されている音声変換参照データに含まれるパラメータの設定値を読み出し、前記音声変換部が、前記所定のメッセージデータに含まれているテキストメッセージを、前記話者モデルデータと、前記パラメータの設定値とを用いて音声データに変換するよう、前記音声変換部を制御する制御部と、
を備えることを特徴とするテキストメッセージ音声化装置。 A message data acquisition unit for acquiring message data including a text message and information indicating a message creator who created the text message;
A voice conversion unit that converts the text message into voice data using predetermined speaker model data;
A setting value of at least one parameter of a reading speed of the text message, a reading pitch, a reading volume, and an audio output localization indicating a balance when outputting the sound based on the sound data from a plurality of speakers. A storage unit that stores voice conversion reference data including the corresponding message creator so as to be different for each message creator;
When the message data acquisition unit acquires predetermined message data, the setting value of the parameter included in the voice conversion reference data stored corresponding to the message creator of the predetermined message data is read from the storage unit The voice conversion unit controls the voice conversion unit to convert a text message included in the predetermined message data into voice data using the speaker model data and the set value of the parameter. A control unit,
A text message voicing apparatus comprising:
前記制御部は、
前記音声変換参照データが複数のパラメータの設定値を含む場合にはパラメータデータの設定値の組み合わせパターンが重複しないように新規の音声変換参照データを生成し、前記音声変換参照データが1つのパラメータの設定値のみを含む場合にはパラメータの設定値が重複しないように新規の音声変換参照データを生成する音声変換参照データ生成部を有する
ことを特徴とする請求項1記載のテキストメッセージ音声化装置。 When the message data acquisition unit acquires predetermined message data and the storage unit does not store voice conversion reference data corresponding to the message creator of the predetermined message data,
The controller is
When the voice conversion reference data includes setting values of a plurality of parameters, new voice conversion reference data is generated so that combination patterns of parameter data setting values do not overlap, and the voice conversion reference data includes one parameter. 2. The text message voice generating apparatus according to claim 1, further comprising: a voice conversion reference data generation unit that generates new voice conversion reference data so that parameter setting values do not overlap when only the setting values are included.
前記音声変換参照データ生成部は、パラメータデータの設定値の組み合わせパターンまたはパラメータの設定値が重複しない新規の音声変換参照データを生成することができないとき、前記最終利用日時を示す情報に基づいて、最終利用日時が最も古い音声変換参照データを削除して、新規の音声変換参照データを生成する
ことを特徴とする請求項2記載のテキストメッセージ音声化装置。 The voice conversion reference data includes information indicating the last use date and time using the voice conversion reference data,
When the voice conversion reference data generation unit cannot generate new voice conversion reference data in which the combination pattern of parameter data setting values or parameter setting values do not overlap, based on the information indicating the last use date and time, The text message speech conversion apparatus according to claim 2, wherein the voice conversion reference data having the oldest last use date is deleted to generate new voice conversion reference data.
前記メッセージデータに、前記メッセージ作成者を示す情報に基づいて前記メッセージ作成者の紹介文である文字列を付加する文字列付加部を有する
ことを特徴とする請求項1〜3のいずれか1項に記載のテキストメッセージ音声化装置。 The controller is
The character string adding unit for adding a character string, which is an introduction sentence of the message creator, to the message data based on information indicating the message creator. The text message voice converting device described in 1.
前記制御部は、
最終利用日時からの経過期間に応じて前記音声出力定位の設定値を変更する音声変換参照データ変更部を有する
ことを特徴とする請求項1または2に記載のテキストメッセージ音声化装置。 The voice conversion reference data includes, as the parameter, a setting value of the voice output localization, and information indicating the last use date and time using the voice conversion reference data,
The controller is
The text message voice conversion device according to claim 1, further comprising: a voice conversion reference data changing unit that changes a setting value of the voice output localization according to an elapsed period from the last use date and time.
前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データが、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶されている記憶部より、前記メッセージ作成者に対応する前記パラメータの設定値を読み出し、
前記所定のメッセージデータに含まれているテキストメッセージを、所定の話者モデルデータと、前記記憶部より読み出した前記パラメータの設定値とを用いて音声データに変換する
ことを特徴とするテキストメッセージ音声化方法。 Obtaining predetermined message data including a text message and information indicating a message creator who created the text message;
A voice conversion reference including a setting value of at least one parameter of the reading speed of the text message, a reading pitch, a reading volume, and a voice output localization indicating a balance when voice is outputted from a plurality of speakers. The setting value of the parameter corresponding to the message creator is read out from the storage unit stored corresponding to the message creator so that the data is different for each message creator,
A text message voice, wherein the text message included in the predetermined message data is converted into voice data using predetermined speaker model data and the set value of the parameter read from the storage unit. Method.
テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含むメッセージデータを取得したとき、前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データが、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶されている記憶部より、前記パラメータの設定値を読み出すステップと、
前記メッセージデータに含まれているテキストメッセージを、所定の話者モデルデータと、前記記憶部より読み出した前記パラメータの設定値とを用いて音声データに変換するステップと、
を実行させることを特徴とするテキストメッセージ音声化プログラム。 On the computer,
When message data including a text message and information indicating the message creator who created the text message is acquired, the text message reading speed, reading pitch, reading volume, and voice are output from a plurality of speakers. Voice conversion reference data including a setting value of at least one parameter of voice output localization indicating a balance at the time of output is stored in association with the message creator so as to be different for each message creator. Reading the setting value of the parameter from the storage unit;
Converting the text message included in the message data into speech data using predetermined speaker model data and the setting values of the parameters read from the storage unit;
A text message voicing program characterized in that
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014252654A JP6428229B2 (en) | 2014-12-15 | 2014-12-15 | Text message speech device, text message speech method, text message speech program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014252654A JP6428229B2 (en) | 2014-12-15 | 2014-12-15 | Text message speech device, text message speech method, text message speech program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016114729A true JP2016114729A (en) | 2016-06-23 |
| JP6428229B2 JP6428229B2 (en) | 2018-11-28 |
Family
ID=56141615
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014252654A Active JP6428229B2 (en) | 2014-12-15 | 2014-12-15 | Text message speech device, text message speech method, text message speech program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6428229B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200125853A (en) * | 2019-04-26 | 2020-11-05 | 주식회사 타바바 | Backpack Device and Service System supporting the same |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11102198A (en) * | 1997-07-31 | 1999-04-13 | Toyota Motor Corp | Message processing device, message processing method, and medium recording message processing program |
| JP2006012056A (en) * | 2004-06-29 | 2006-01-12 | Canon Inc | Portable terminal device, e-mail reading method, control program, and storage medium |
| JP2009033298A (en) * | 2007-07-25 | 2009-02-12 | Nec Corp | Communication system and communication terminal |
-
2014
- 2014-12-15 JP JP2014252654A patent/JP6428229B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11102198A (en) * | 1997-07-31 | 1999-04-13 | Toyota Motor Corp | Message processing device, message processing method, and medium recording message processing program |
| JP2006012056A (en) * | 2004-06-29 | 2006-01-12 | Canon Inc | Portable terminal device, e-mail reading method, control program, and storage medium |
| JP2009033298A (en) * | 2007-07-25 | 2009-02-12 | Nec Corp | Communication system and communication terminal |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200125853A (en) * | 2019-04-26 | 2020-11-05 | 주식회사 타바바 | Backpack Device and Service System supporting the same |
| KR102212363B1 (en) * | 2019-04-26 | 2021-02-05 | 주식회사 타바바 | Backpack Device and Service System supporting the same |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6428229B2 (en) | 2018-11-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6129134B2 (en) | Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus | |
| JP6078964B2 (en) | Spoken dialogue system and program | |
| US12183349B1 (en) | Voice message capturing system | |
| US8315873B2 (en) | Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same | |
| CN102314874A (en) | Text-to-voice conversion system and method | |
| JP2006098993A (en) | Audio processing apparatus and computer program therefor | |
| EP3573051A1 (en) | Information processing device, information processing method, and program | |
| KR20150105075A (en) | Apparatus and method for automatic interpretation | |
| KR20160131505A (en) | Method and server for conveting voice | |
| WO2020079918A1 (en) | Information processing device and information processing method | |
| JP6428229B2 (en) | Text message speech device, text message speech method, text message speech program | |
| US10884700B2 (en) | Sound outputting device, sound outputting method, and sound outputting program storage medium | |
| JP5818753B2 (en) | Spoken dialogue system and spoken dialogue method | |
| CN103310791A (en) | Speech recognition processing device and speech recognition processing method | |
| CN119181361A (en) | Voice interaction method, device, equipment, medium and product | |
| JP5689774B2 (en) | Interactive information transmitting apparatus, interactive information transmitting method, and program | |
| WO2020110744A1 (en) | Information processing device, information processing method, and program | |
| CN110737422A (en) | sound signal acquisition method and device | |
| JP2015187738A (en) | Speech translation apparatus, speech translation method, and speech translation program | |
| JP6596903B2 (en) | Information providing system and information providing method | |
| JP2017021245A (en) | Language learning support device, language learning support method, and language learning support program | |
| JPH0549998B2 (en) | ||
| CN101645266B (en) | Voice synthesizer | |
| CN113035181A (en) | Voice data processing method, device and system | |
| KR102747987B1 (en) | Voice synthesizer learning method using synthesized sounds for disentangling language, pronunciation/prosody, and speaker information |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170330 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180316 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180327 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180508 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181002 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181015 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6428229 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |