[go: up one dir, main page]

JP2016114729A - Text message voicing device, text message voicing method, and text message voicing program - Google Patents

Text message voicing device, text message voicing method, and text message voicing program Download PDF

Info

Publication number
JP2016114729A
JP2016114729A JP2014252654A JP2014252654A JP2016114729A JP 2016114729 A JP2016114729 A JP 2016114729A JP 2014252654 A JP2014252654 A JP 2014252654A JP 2014252654 A JP2014252654 A JP 2014252654A JP 2016114729 A JP2016114729 A JP 2016114729A
Authority
JP
Japan
Prior art keywords
message
data
voice
text message
voice conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014252654A
Other languages
Japanese (ja)
Other versions
JP6428229B2 (en
Inventor
裕生 渡邉
Hiroo Watanabe
裕生 渡邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2014252654A priority Critical patent/JP6428229B2/en
Publication of JP2016114729A publication Critical patent/JP2016114729A/en
Application granted granted Critical
Publication of JP6428229B2 publication Critical patent/JP6428229B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】同じ話者モデルデータを用いたとしても、作成者が異なる複数のテキストメッセージを聴覚的に異なる状態で音声化することができるテキストメッセージ音声化装置を提供する。【解決手段】メッセージデータ取得部102は、テキストメッセージとメッセージ作成者を示す情報とを含むメッセージデータを取得する。記憶部103は、テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声出力定位とのうちの少なくとも1つのパラメータの設定値を、メッセージ作成者に対応させて記憶する。メッセージデータ取得部102がメッセージデータを取得したら、制御部101は、記憶部103より、メッセージ作成者に対応したパラメータの設定値を読み出す。音声変換部104は、テキストメッセージを話者モデルデータと、パラメータの設定値とを用いて音声データに変換する。【選択図】図1Provided is a text message speechization device that can synthesize a plurality of text messages of different creators in an audibly different state even when the same speaker model data is used. A message data acquisition unit acquires message data including a text message and information indicating a message creator. The storage unit 103 stores a setting value of at least one parameter among a text message reading speed, a reading pitch, a reading volume, and a voice output localization in association with the message creator. When the message data acquisition unit 102 acquires the message data, the control unit 101 reads the parameter setting value corresponding to the message creator from the storage unit 103. The voice conversion unit 104 converts the text message into voice data using the speaker model data and parameter setting values. [Selection] Figure 1

Description

本発明は、テキストメッセージを音声合成によって音声化するテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムに関する。   The present invention relates to a text message speechization device, a text message speechization method, and a text message speechization program for speechizing a text message by speech synthesis.

テキストメッセージを音声合成によって音声化するテキストメッセージ音声化装置は、カーナビゲーション装置等の各種の装置で用いられている。テキストメッセージを音声合成によって音声化するためには、話者モデルデータが必要である。   A text message speech converting apparatus that synthesizes a text message by speech synthesis is used in various apparatuses such as a car navigation apparatus. To make a text message into speech by speech synthesis, speaker model data is required.

話者モデルデータは、テキストメッセージを音声に変換するために必要な音素、単語、文節等の多数の音声要素データを含むため、データ量が膨大である。また、1つの話者モデルデータを作成するには多大な工数が必要となる。   The speaker model data includes a large amount of data because it includes a large number of speech element data such as phonemes, words, and phrases necessary for converting a text message into speech. Also, a great deal of man-hour is required to create one speaker model data.

特開2010−102163号公報JP 2010-102163 A

複数の作成者それぞれによって作成されたテキストメッセージをテキストメッセージ音声化装置によって音声化する場合がある。このような場合、複数の作成者のテキストメッセージそれぞれに対して用いる話者モデルデータを異ならせれば、複数の作成者の声や話し方が異なって、作成者の違いを認識することができる。   In some cases, a text message created by each of a plurality of creators is voiced by a text message voice device. In such a case, if the speaker model data used for each of the text messages of a plurality of creators is different, the voices and manners of speaking of the creators are different, and the difference between the creators can be recognized.

ところが、上記のように話者モデルデータはデータ量が膨大であり、話者モデルデータを作成するには多大の工数が必要であるから、複数の作成者それぞれに対応させた話者モデルデータを用意し、テキストメッセージ音声化装置に記憶させておくことは困難である。   However, as described above, the speaker model data has an enormous amount of data, and it takes a lot of man-hours to create the speaker model data. It is difficult to prepare and memorize it in the text message voicing apparatus.

本発明はこのような問題点に鑑み、同じ話者モデルデータを用いたとしても、作成者が異なる複数のテキストメッセージを聴覚的に異なる状態で音声化することができるテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムを提供することを目的とする。   In view of such problems, the present invention provides a text message speechization device, a text that can audibly utter a plurality of different text messages in different states even when the same speaker model data is used. An object of the present invention is to provide a message sounding method and a text message sounding program.

本発明は、上述した従来の技術の課題を解決するため、テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含むメッセージデータを取得するメッセージデータ取得部と、前記テキストメッセージを所定の話者モデルデータを用いて音声データに変換する音声変換部と、前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、前記音声データによる音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データを、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶する記憶部と、前記メッセージデータ取得部が所定のメッセージデータを取得したとき、前記記憶部より、前記所定のメッセージデータのメッセージ作成者に対応して記憶されている音声変換参照データに含まれるパラメータの設定値を読み出し、前記音声変換部が、前記所定のメッセージデータに含まれているテキストメッセージを、前記話者モデルデータと、前記パラメータの設定値とを用いて音声データに変換するよう、前記音声変換部を制御する制御部とを備えることを特徴とするテキストメッセージ音声化装置を提供する。   In order to solve the above-described problems of the related art, the present invention provides a message data acquisition unit that acquires message data including a text message and information indicating a message creator who created the text message, and the text message A voice conversion unit for converting into voice data using predetermined speaker model data, a reading speed of the text message, a reading pitch, a reading volume, and a voice output from a plurality of speakers; Storage unit that stores voice conversion reference data including a setting value of at least one parameter of the voice output localization indicating the balance of the message corresponding to the message creator so as to be different for each message creator; When the message data acquisition unit acquires predetermined message data, A setting value of a parameter included in the voice conversion reference data stored corresponding to the message creator of the predetermined message data is read from the storage unit, and the voice conversion unit is included in the predetermined message data. A text message voicing apparatus comprising: a control unit that controls the voice conversion unit so as to convert the text message into voice data using the speaker model data and the set value of the parameter I will provide a.

また、本発明は、上述した従来の技術の課題を解決するため、テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含む所定のメッセージデータを取得し、前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データが、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶されている記憶部より、前記メッセージ作成者に対応する前記パラメータの設定値を読み出し、前記所定のメッセージデータに含まれているテキストメッセージを、所定の話者モデルデータと、前記記憶部より読み出した前記パラメータの設定値とを用いて音声データに変換することを特徴とするテキストメッセージ音声化方法を提供する。   In addition, in order to solve the above-described problems of the conventional technology, the present invention acquires predetermined message data including a text message and information indicating a message creator who created the text message, and reads out the text message. Voice conversion reference data including a setting value of at least one parameter of speed, reading pitch, reading volume, and voice output localization indicating a balance when voice is outputted from a plurality of speakers is created as a message. The setting value of the parameter corresponding to the message creator is read from the storage unit stored corresponding to the message creator, and the text message included in the predetermined message data is different for each message creator. Are the predetermined speaker model data and the parameters read from the storage unit. Providing a text message voicing method characterized by converting the audio data by using the set value of over data.

さらに、本発明は、上述した従来の技術の課題を解決するため、コンピュータに、テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含むメッセージデータを取得したとき、前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データが、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶されている記憶部より、前記パラメータの設定値を読み出すステップと、前記メッセージデータに含まれているテキストメッセージを、所定の話者モデルデータと、前記記憶部より読み出した前記パラメータの設定値とを用いて音声データに変換するステップとを実行させることを特徴とするテキストメッセージ音声化プログラムを提供する。   Furthermore, in order to solve the above-described problems of the prior art, the present invention obtains message data including a text message and information indicating a message creator who created the text message in a computer. Voice conversion reference data including a setting value of at least one parameter of a reading speed, a reading pitch, a reading volume, and a sound output localization indicating a balance when sound is output from a plurality of speakers, The step of reading the set value of the parameter from the storage unit stored in correspondence with the message creator, and the text message included in the message data, as different for each message creator, Model data and the parameters read from the storage unit Providing a text message audio programs, characterized in that and a step of converting the voice data by using the value.

本発明のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムによれば、同じ話者モデルデータを用いたとしても、作成者が異なる複数のテキストメッセージを聴覚的に異なる状態で音声化することができる。   According to the text message speech device, text message speech method, and text message speech program of the present invention, even if the same speaker model data is used, a plurality of text messages with different creators are aurally different. Can be voiced.

各実施形態のテキストメッセージ音声化装置を示すブロック図である。It is a block diagram which shows the text message audio | voice sound apparatus of each embodiment. 第1実施形態のテキストメッセージ音声化装置における制御部101の機能的な内部構成を示すブロック図である。It is a block diagram which shows the functional internal structure of the control part 101 in the text message speech apparatus of 1st Embodiment. 第1実施形態のテキストメッセージ音声化装置の動作、第1実施形態のテキストメッセージ音声化方法及びテキストメッセージ音声化プログラムによる処理を説明するためのフローチャートである。It is a flowchart for demonstrating the operation | movement of the text message audio | voice sound apparatus of 1st Embodiment, the text message audio | voice sound method of 1st Embodiment, and the process by a text message voice sound program. メッセージデータの形式の一例を示す図である。It is a figure which shows an example of the format of message data. 第1実施形態で用いる音声変換参照データの一例を示す図である。It is a figure which shows an example of the audio | voice conversion reference data used by 1st Embodiment. 音声変換参照データの新規作成及び登録の動作を説明するための図である。It is a figure for demonstrating the operation | movement of new production | generation of voice conversion reference data, and registration. 第2〜第4実施形態で用いる音声変換参照データの一例を示す図である。It is a figure which shows an example of the audio | voice conversion reference data used by 2nd-4th embodiment. 第2実施形態のテキストメッセージ音声化装置の動作、第2実施形態のテキストメッセージ音声化方法及びテキストメッセージ音声化プログラムによる処理を説明するためのフローチャートである。It is a flowchart for demonstrating the operation | movement of the text message audio | voice conversion apparatus of 2nd Embodiment, the text message audio conversion method of 2nd Embodiment, and the process by a text message audio conversion program. 第3実施形態のテキストメッセージ音声化装置における制御部101の機能的な内部構成を示すブロック図である。It is a block diagram which shows the functional internal structure of the control part 101 in the text message speech apparatus of 3rd Embodiment. 第3実施形態において、テキストメッセージにメッセージ送信者の紹介文を示す文字列を付加する第1の例を説明するための部分的なフローチャートである。In 3rd Embodiment, it is a partial flowchart for demonstrating the 1st example which adds the character string which shows the message sender's introduction sentence to a text message. 第3実施形態において、テキストメッセージにメッセージ送信者の紹介文を示す文字列を付加する第2の例を説明するための部分的なフローチャートである。In 3rd Embodiment, it is a partial flowchart for demonstrating the 2nd example which adds the character string which shows the message sender's introduction sentence to a text message. 第4実施形態のテキストメッセージ音声化装置における制御部101の機能的な内部構成を示すブロック図である。It is a block diagram which shows the functional internal structure of the control part 101 in the text message speechization apparatus of 4th Embodiment.

以下、各実施形態のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムについて、添付図面を参照して説明する。   In the following, a text message voice conversion device, a text message voice conversion method, and a text message voice conversion program of each embodiment will be described with reference to the accompanying drawings.

<第1実施形態>
図1において、テキストメッセージ音声化装置100には、外部システム200と、音声出力部300とが接続されている。テキストメッセージ音声化装置100と外部システム200とは、インターネットを介して接続されていてもよい。
<First Embodiment>
In FIG. 1, an external system 200 and an audio output unit 300 are connected to the text message audio device 100. The text message audio device 100 and the external system 200 may be connected via the Internet.

外部システム200は、例えばインスタントメッセンジャ等のメッセージデータを管理するシステムである。   The external system 200 is a system that manages message data such as an instant messenger, for example.

テキストメッセージ音声化装置100は、テキストメッセージ音声化装置100の全体を制御する制御部101と、制御部101とそれぞれ接続されたメッセージデータ取得部102と記憶部103と音声変換部104とを備える。   The text message speech apparatus 100 includes a control unit 101 that controls the entire text message speech apparatus 100, a message data acquisition unit 102, a storage unit 103, and a voice conversion unit 104 connected to the control unit 101, respectively.

メッセージデータ取得部102は、外部システム200からメッセージデータを取得する。メッセージデータ取得部102が外部システム200に対してメッセージデータの送信を要求することにより、メッセージデータ取得部102がメッセージデータを取得してもよいし、メッセージデータ取得部102が受動的にメッセージデータを取得してもよい。   The message data acquisition unit 102 acquires message data from the external system 200. When the message data acquisition unit 102 requests the external system 200 to transmit the message data, the message data acquisition unit 102 may acquire the message data, or the message data acquisition unit 102 passively receives the message data. You may get it.

記憶部103は、音声変換部104でメッセージデータを音声変換するために用いる話者モデルデータの識別情報と、後述するパラメータデータとを含む音声変換参照データを、メッセージデータの送信者(作成者)ごとに記憶している。   The storage unit 103 stores voice conversion reference data including identification information of speaker model data used for voice conversion of the message data by the voice conversion unit 104 and parameter data to be described later, as a sender (creator) of the message data. Remember every one.

音声変換部104は、少なくとも1つの話者モデルデータを記憶している。記憶部103に記憶されている音声変換参照データには、複数の送信者に対して、共通の話者モデルデータが割り当てられていることがある。   The voice conversion unit 104 stores at least one speaker model data. The voice conversion reference data stored in the storage unit 103 may be assigned common speaker model data to a plurality of senders.

図2に示すように、制御部101は、機能的な内部構成として、音声変換参照データ生成部1011と、音声変換参照データ書き込み部1012と、音声変換参照データ読み出し部1013とを有する。音声変換参照データ生成部1011と、音声変換参照データ書き込み部1012と、音声変換参照データ読み出し部1013は、ソフトウェアによって構成することができる。   As illustrated in FIG. 2, the control unit 101 includes a voice conversion reference data generation unit 1011, a voice conversion reference data writing unit 1012, and a voice conversion reference data reading unit 1013 as functional internal configurations. The voice conversion reference data generation unit 1011, the voice conversion reference data write unit 1012, and the voice conversion reference data read unit 1013 can be configured by software.

制御部101は、メッセージデータ取得部102が取得したメッセージデータに含まれるテキストメッセージと、音声変換参照データ読み出し部1013が記憶部103より読み出した音声変換参照データとを、所定の形式で音声変換部104に供給する。   The control unit 101 converts the text message included in the message data acquired by the message data acquisition unit 102 and the voice conversion reference data read from the storage unit 103 by the voice conversion reference data reading unit 1013 into a voice conversion unit in a predetermined format. 104 is supplied.

音声変換部104は、テキストメッセージを、所定の話者モデルデータを用い、さらに、音声変換参照データを参照して音声データに変換する。   The voice conversion unit 104 converts the text message into voice data by using predetermined speaker model data and further referring to the voice conversion reference data.

制御部101は、音声データ(音声信号)を音声出力部300に供給して、音声として出力させる。音声出力部300は、スピーカと増幅部等で構成される。音声データは、制御部101または図示していないD/A変換器によってアナログ信号に変換されてスピーカに供給される。   The control unit 101 supplies the audio data (audio signal) to the audio output unit 300 and outputs it as audio. The audio output unit 300 includes a speaker and an amplification unit. The audio data is converted into an analog signal by the control unit 101 or a D / A converter (not shown) and supplied to the speaker.

図3に示すフローチャートを用いて、図1のテキストメッセージ音声化装置の動作、テキストメッセージ音声化装置で実行されるテキストメッセージ音声化方法をさらに説明する。   With reference to the flowchart shown in FIG. 3, the operation of the text message voice generating apparatus of FIG. 1 and the text message voice generating method executed by the text message voice generating apparatus will be further described.

図3において、制御部101は、ステップS01にて、メッセージデータ取得部102が取得したメッセージデータを取り込む。メッセージデータは、一例として、図4に示すようなデータである。メッセージデータの形式は例えばXML形式である。   In FIG. 3, the control unit 101 captures the message data acquired by the message data acquisition unit 102 in step S01. The message data is data as shown in FIG. 4 as an example. The format of the message data is, for example, an XML format.

図4に示すように、メッセージデータは、messageタグを有し、messageタグは、メッセージに関する各種のタグを格納している。accountタグは、メッセージ送信者(メッセージ作成者)を一意に特定できるアカウント名を格納する。genderタグはメッセージ送信者の性別を格納し、languageタグはメッセージの言語を格納する。textタグは、メッセージ本文であるテキストメッセージを格納する。   As shown in FIG. 4, the message data has a message tag, and the message tag stores various tags related to the message. The account tag stores an account name that can uniquely identify the message sender (message creator). The gender tag stores the gender of the message sender, and the language tag stores the language of the message. The text tag stores a text message that is a message body.

制御部101は、ステップS02にて、記憶部103に、メッセージ送信者に対応する音声変換参照データが存在するか否かを判定する。   In step S02, the control unit 101 determines whether or not the voice conversion reference data corresponding to the message sender exists in the storage unit 103.

図5は、記憶部103に記憶されている音声変換参照データの一例を示している。音声変換参照データは、アカウント名と、使用する話者モデルデータを特定する識別情報と、パラメータデータの設定値とを含む。ここでは、パラメータデータとして、読み上げ速度、読み上げ音声、読み上げ音量、音声出力定位それぞれの設定値が設定されている。パラメータデータは、これらのうちの少なくとも1つの設定値であってもよい。   FIG. 5 shows an example of the voice conversion reference data stored in the storage unit 103. The voice conversion reference data includes an account name, identification information for specifying speaker model data to be used, and a setting value of parameter data. Here, setting values for the reading speed, reading voice, reading volume, and sound output localization are set as parameter data. The parameter data may be a set value of at least one of these.

図5では、読み上げ速度、読み上げ音声、読み上げ音量が全てノーマルなる設定値に設定されており、音声出力定位はL5:R5なる設定値に設定されている。音声出力定位のL5:R5とは、左右2つのスピーカにおける左スピーカと右スピーカとより音声を出力させるバランスを示す。音声出力定位は、前後左右の4つのスピーカより音声を出力させるバランスであってもよく、複数のスピーカより音声を出力させるバランスを示せばよい。   In FIG. 5, the reading speed, the reading voice, and the reading volume are all set to a normal setting value, and the voice output localization is set to a setting value L5: R5. The sound output localization L5: R5 indicates a balance in which sound is output from the left speaker and the right speaker in the two left and right speakers. The sound output localization may be a balance in which sound is output from four speakers, front, rear, left, and right, and may indicate a balance in which sound is output from a plurality of speakers.

制御部101は、メッセージデータに含まれるaccountタグに記述されているアカウント名を含む音声変換参照データが存在しているか否かによって、メッセージ送信者に対応する音声変換参照データが存在するか否かを判定することができる。   The control unit 101 determines whether there is voice conversion reference data corresponding to the message sender depending on whether voice conversion reference data including the account name described in the account tag included in the message data exists. Can be determined.

制御部101は、メッセージ送信者に対応する音声変換参照データが存在すれば(YES)、処理をステップS05に移行させ、存在しなければ(NO)、処理をステップS03に移行させる。   If the voice conversion reference data corresponding to the message sender exists (YES), the control unit 101 shifts the process to step S05, and if not (NO), shifts the process to step S03.

音声変換参照データ生成部1011は、ステップS03にて、新規の音声変換参照データを、パラメータデータの設定値が重複しないように生成する。話者モデルデータは他の音声変換参照データにおけるそれと重複していてもよい。   In step S03, the voice conversion reference data generation unit 1011 generates new voice conversion reference data so that parameter data setting values do not overlap. The speaker model data may overlap with that in other speech conversion reference data.

音声変換参照データ生成部1011は、音声変換参照データが複数のパラメータの設定値を含む場合には、パラメータデータの設定値の組み合わせパターンが重複しないように新規の音声変換参照データを生成すればよい。   When the voice conversion reference data includes a plurality of parameter setting values, the voice conversion reference data generation unit 1011 may generate new voice conversion reference data so that the combination patterns of the parameter data setting values do not overlap. .

音声変換参照データ生成部1011は、音声変換参照データが1つのパラメータの設定値のみを含む場合には、パラメータの設定値が重複しないように新規の音声変換参照データを生成する。   When the voice conversion reference data includes only one parameter setting value, the voice conversion reference data generation unit 1011 generates new voice conversion reference data so that the parameter setting values do not overlap.

複数のテキストメッセージを聴覚的に異なる状態で音声化するには、パラメータデータの設定値を大きく異ならせるのがよい。そこで、例えば、読み上げ速度、読み上げ音声、読み上げ音量の設定値をそれぞれロー、ノーマル、ハイの3段階に設定したとすると、パラメータデータの設定値の組み合わせパターンは比較的限られたパターンとなる。   In order to make a plurality of text messages audibly sound differently, it is preferable to greatly change the setting values of the parameter data. Therefore, for example, if the setting values of the reading speed, reading voice, and reading volume are set to three levels of low, normal, and high, respectively, the combination pattern of the setting values of the parameter data is a relatively limited pattern.

音声変換参照データ書き込み部1012は、ステップS04にて、新たに生成した音声変換参照データを記憶部103に書き込んで登録し、処理をステップS05に移行させる。   In step S04, the voice conversion reference data writing unit 1012 writes and registers the newly generated voice conversion reference data in the storage unit 103, and shifts the processing to step S05.

図6の(a)に示すように、記憶部103に、アカウント名がaccount0と設定されている図5に示す音声変換参照データが予め登録されているとする。   As shown in FIG. 6A, it is assumed that the voice conversion reference data shown in FIG. 5 in which the account name is set to account0 is registered in the storage unit 103 in advance.

図4に示すアカウント名account1を有するメッセージ送信者がメッセージデータを送信したとする。   Assume that a message sender having the account name account1 shown in FIG. 4 has sent message data.

音声変換参照データ書き込み部1012は、ステップS04にて、記憶部103にアカウント名account1に対応する音声変換参照データを登録する。よって、図6の(b)に示すように、記憶部103には、既存のアカウント名account0に対応する音声変換参照データと、アカウント名account1に対応する音声変換参照データとが記憶された状態となる。   The voice conversion reference data writing unit 1012 registers the voice conversion reference data corresponding to the account name account1 in the storage unit 103 in step S04. Therefore, as shown in FIG. 6B, the storage unit 103 stores the voice conversion reference data corresponding to the existing account name account0 and the voice conversion reference data corresponding to the account name account1. Become.

図6の(b)に示すように、アカウント名account1に対応する音声変換参照データは、例えば読み上げ速度と読み上げ音程の設定値がハイに設定される。音声変換参照データが複数のパラメータデータを含む場合には、少なくとも1つのパラメータデータの設定値を変更すればよい。アカウント名account1に対応する話者モデルデータは、アカウント名account0に対応する話者モデルデータと同じである。   As shown in FIG. 6B, for the voice conversion reference data corresponding to the account name account1, for example, the reading speed and the reading pitch are set to high. When the voice conversion reference data includes a plurality of parameter data, the setting value of at least one parameter data may be changed. The speaker model data corresponding to the account name account1 is the same as the speaker model data corresponding to the account name account0.

ところで、音声変換部104が例えば男性用の話者モデルデータと、女性用の話者モデルデータとを記憶している場合には、音声変換参照データ生成部1011は、音声変換参照データを生成する際に、メッセージデータに含まれるgenderタグに記述されている性別に対応した話者モデルデータを選択すればよい。   By the way, when the voice conversion unit 104 stores, for example, male speaker model data and female speaker model data, the voice conversion reference data generation unit 1011 generates voice conversion reference data. At this time, speaker model data corresponding to the gender described in the gender tag included in the message data may be selected.

図3に戻り、音声変換参照データ読み出し部1013は、ステップS05にて、記憶部103からメッセージ送信者に対応する音声変換参照データを読み出して、後述するデータを音声変換部104に供給する。   Returning to FIG. 3, in step S <b> 05, the voice conversion reference data reading unit 1013 reads voice conversion reference data corresponding to the message sender from the storage unit 103 and supplies data to be described later to the voice conversion unit 104.

制御部101が音声変換部104へと供給するデータの形式は例えば次のとおりである。制御部101は、textタグに記述されているテキストメッセージと、音声変換参照データに含まれる話者モデルデータを示す識別情報と、音声出力定位以外のパラメータデータとを用いて、例えばSSML形式のデータを生成する。   The format of data supplied from the control unit 101 to the audio conversion unit 104 is, for example, as follows. The control unit 101 uses the text message described in the text tag, the identification information indicating the speaker model data included in the speech conversion reference data, and parameter data other than the speech output localization, for example, data in the SSML format Is generated.

制御部101は、SSML形式のデータと音声出力定位のパラメータデータとを音声変換部104に供給する。音声出力定位のパラメータデータをSSML形式のデータと別にしているのは、音声出力定位のパラメータデータをSSML形式のデータに記述できないからである。   The control unit 101 supplies SSML format data and audio output localization parameter data to the audio conversion unit 104. The reason why the parameter data for the sound output localization is separated from the data in the SSML format is that the parameter data for the sound output localization cannot be described in the data in the SSML format.

制御部101は、ステップS06にて、音声変換部104による音声変換処理を実行させる。音声変換部104は、入力されたSSML形式のデータに記述されている識別情報の話者モデルデータを用い、SSML形式のデータに記述されているパラメータデータ及び音声出力定位のパラメータデータに従って、テキストメッセージを音声変換する。   In step S06, the control unit 101 causes the voice conversion unit 104 to execute voice conversion processing. The voice conversion unit 104 uses the speaker model data of the identification information described in the input SSML format data, and in accordance with the parameter data described in the SSML format data and the parameter data of the voice output localization, the text message Is converted to speech.

制御部101は、ステップS07にて、音声変換部104によって変換された音声データに基づく音声を音声出力部300より出力させて、処理を終了させる。   In step S07, the control unit 101 causes the audio output unit 300 to output audio based on the audio data converted by the audio conversion unit 104, and ends the processing.

制御部101をマイクロコンピュータによって構成し、コンピュータプログラム(テキストメッセージ音声化プログラム)によって、マイクロコンピュータに図3に示す処理を実行させるように構成してもよい。   The control unit 101 may be configured by a microcomputer, and may be configured to cause the microcomputer to execute the processing shown in FIG. 3 by a computer program (text message speechization program).

以上のように、第1実施形態によれば、音声変換部104によってテキストメッセージを音声変換する際に用いる話者モデルデータが同じであっても、メッセージ作成者が異なる複数のテキストメッセージを聴覚的に異なる状態で音声化することができる。   As described above, according to the first embodiment, even when the speaker model data used when the voice conversion unit 104 converts the text message into voice is the same, a plurality of text messages with different message creators can be heard. Can be voiced in different states.

<第2実施形態>
第2実施形態のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムを、第1実施形態におけるそれとは異なる点を中心に説明する。
Second Embodiment
The text message sounding apparatus, text message sounding method, and text message sounding program of the second embodiment will be described with a focus on differences from the first embodiment.

第2実施形態においては、図7に示すように、音声変換参照データに、その音声変換参照データの最終利用日時の情報を追加している。   In the second embodiment, as shown in FIG. 7, information on the last use date and time of the voice conversion reference data is added to the voice conversion reference data.

図8に示す第2実施形態のフローチャートにおいて、図3に示す第1実施形態のフローチャートと同一のステップには同一の符号を付し、説明を省略する。図8において、制御部101は、ステップS02にて、記憶部103に、メッセージ送信者に対応する音声変換参照データが存在しなければ(NO)、処理をステップS08に移行させる。   In the flowchart of the second embodiment shown in FIG. 8, the same steps as those in the flowchart of the first embodiment shown in FIG. In FIG. 8, if there is no voice conversion reference data corresponding to the message sender in the storage unit 103 in step S02 (NO), the control unit 101 shifts the process to step S08.

制御部101は、ステップS08にて、パラメータデータの設定値の組み合わせパターンが不足しているか否かを判定する。パラメータデータが1つのみであれば、パラメータデータの設定値が不足しているか否かを判定すればよい。   In step S08, the control unit 101 determines whether or not a combination pattern of parameter data setting values is insufficient. If there is only one parameter data, it may be determined whether or not the set value of the parameter data is insufficient.

制御部101は、組み合わせパターンが不足していれば(YES)、処理をステップS09に移行させ、組み合わせパターンが不足していなければ(NO)、処理をステップS03に移行させる。   If the combination pattern is insufficient (YES), the control unit 101 shifts the process to step S09. If the combination pattern is not insufficient (NO), the control unit 101 shifts the process to step S03.

音声変換参照データ生成部1011は、ステップS09にて、最終利用日時が最も古い音声変換参照データを削除し、新規の音声変換参照データを生成して、処理をステップS05に移行させる。   In step S09, the voice conversion reference data generation unit 1011 deletes the voice conversion reference data having the oldest last use date and time, generates new voice conversion reference data, and shifts the processing to step S05.

具体的には、音声変換参照データ生成部1011が、最終利用日時が最も古い音声変換参照データのアカウント名を他のアカウント名に書き換えた音声変換参照データを生成し、音声変換参照データ書き込み部1012が記憶部103に書き込めばよい。これに伴って、最終利用日時が更新される。   Specifically, the voice conversion reference data generation unit 1011 generates voice conversion reference data in which the account name of the voice conversion reference data with the oldest last use date is replaced with another account name, and the voice conversion reference data writing unit 1012 May be written in the storage unit 103. Along with this, the last use date and time is updated.

ステップS09の処理によって、最終利用日時が最も古い、あるメッセージ送信者に対して設定されている音声変換参照データが消去され、新規のメッセージ送信者に対して、音声変換参照データが設定されることになる。   By the process of step S09, the voice conversion reference data set for a message sender having the oldest last use date and time is deleted, and the voice conversion reference data is set for a new message sender. become.

第2実施形態によれば、第1実施形態と同じ効果に加えて、パラメータデータの設定値の組み合わせパターンが不足した場合でも、新規のメッセージ送信者に対して音声変換参照データを設定することができる。   According to the second embodiment, in addition to the same effects as in the first embodiment, voice conversion reference data can be set for a new message sender even when the combination pattern of parameter data setting values is insufficient. it can.

上記のように、パラメータデータの設定値の組み合わせパターンは限られているので、第2実施形態は有効となる。   As described above, since the combination pattern of the setting values of the parameter data is limited, the second embodiment is effective.

<第3実施形態>
第3実施形態のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムを、第1または第2実施形態におけるそれとは異なる点を中心に説明する。以下の第3実施形態の構成及び動作は、第1実施形態に対して加えてもよいし、第2実施形態に対して加えてもよい。
<Third Embodiment>
The text message speechization apparatus, text message speechization method, and text message speechization program of the third embodiment will be described with a focus on differences from the first or second embodiment. The configuration and operation of the following third embodiment may be added to the first embodiment or may be added to the second embodiment.

図9に示すように、第3実施形態においては、制御部101は、機能的な内部構成として、文字列付加部1014をさらに有する。文字列付加部1014は、ソフトウェアによって構成することができる。   As shown in FIG. 9, in the third embodiment, the control unit 101 further includes a character string adding unit 1014 as a functional internal configuration. The character string adding unit 1014 can be configured by software.

図10において、制御部101は、ステップS03にて新規の音声変換参照データを生成して、ステップS04にて音声変換参照データを記憶部103に登録する。文字列付加部1014は、ステップS11にて、テキストメッセージの前にメッセージ送信者の紹介文を示す文字列を付加して、処理をステップS05に移行させる。   In FIG. 10, the control unit 101 generates new voice conversion reference data in step S03, and registers the voice conversion reference data in the storage unit 103 in step S04. In step S11, the character string adding unit 1014 adds a character string indicating an introduction sentence of the message sender before the text message, and shifts the processing to step S05.

記憶部103には、言語ごとの紹介文のテンプレートが記憶されている。例えば日本語のテンプレートを例にすると、記憶部103には、一例として、「こんにちは。???です。」というテンプレートが記憶されている。   The storage unit 103 stores templates of introduction sentences for each language. For example, if you as an example the Japanese of the template, in the storage unit 103, as an example, "Hello. It is ???." That the template is stored.

制御部101は、languageタグに記述されている言語のテンプレートを読み出し、文字列付加部1014は、テンプレートにaccountタグに記述されているアカウント名を追記してメッセージ送信者の紹介文を生成する。   The control unit 101 reads a language template described in the language tag, and the character string adding unit 1014 adds an account name described in the account tag to the template to generate an introduction sentence of the message sender.

languageタグが日本語であることを示せば、文字列付加部1014は、上記のテンプレートにおける「???」の部分をアカウント名に置換した文字列を生成して、メッセージ送信者の紹介文としてテキストメッセージの前に付加する。英語等の他の言語の場合も同様である。   If the language tag indicates that it is in Japanese, the character string adding unit 1014 generates a character string by replacing the “???” part of the above template with the account name, and uses it as an introduction sentence of the message sender. Append before the text message. The same applies to other languages such as English.

文字列付加部1014は、新規の音声変換参照データを生成したタイミング以外でも、テキストメッセージの前にメッセージ送信者の紹介文を付加してもよい。例えば、文字列付加部1014は、音声変換参照データの最終利用日時から所定期間以上経過して、その音声変換参照データを利用するときに、テキストメッセージの前に紹介文を付加する。   The character string adding unit 1014 may add an introduction sentence of the message sender before the text message at a timing other than the timing when the new voice conversion reference data is generated. For example, the character string adding unit 1014 adds an introductory sentence before the text message when the voice conversion reference data is used after a predetermined period has elapsed since the last use date and time of the voice conversion reference data.

音声変換参照データの最終利用日時から所定期間以上経過した場合にテキストメッセージに紹介文を付加する場合には、音声変換参照データの形式を、図7のように、最終利用日時の情報を含む音声変換参照データとする。   When an introductory sentence is added to a text message when a predetermined period or more has passed since the last use date and time of the voice conversion reference data, the voice conversion reference data format is a voice including information on the last use date and time as shown in FIG. This is converted reference data.

図11に示すように、制御部101は、ステップS02,S04に続くステップS12にて、最終利用日時から所定期間以上経過したか否かを判定する。制御部101は、所定期間以上経過していれば(YES)、処理をステップS13に移行させ、所定期間以上経過していなければ(NO)、処理をステップS05に移行させる。   As illustrated in FIG. 11, the control unit 101 determines whether or not a predetermined period or more has elapsed since the last use date and time in step S12 following steps S02 and S04. The control unit 101 shifts the process to step S13 if the predetermined period or more has elapsed (YES), and shifts the process to step S05 if the predetermined period or longer has not elapsed (NO).

文字列付加部1014は、ステップS13にて、テキストメッセージの前にメッセージ送信者の紹介文を示す文字列を付加して、ステップS05に移行させる。   In step S13, the character string adding unit 1014 adds a character string indicating the message sender's introduction before the text message, and proceeds to step S05.

第3実施形態によれば、第1実施形態または第2実施形態と同じ効果に加えて、次のような効果を奏する。   According to 3rd Embodiment, in addition to the same effect as 1st Embodiment or 2nd Embodiment, there exist the following effects.

第1の例である図10に示す処理によれば、新しいメッセージ送信者がテキストメッセージを送信してきて、音声変換部104がテキストメッセージを音声変換するときに、メッセージ送信者の紹介文を再生することができる。よって、新しいメッセージ送信者が誰であるかを認識することが可能となる。   According to the process shown in FIG. 10, which is the first example, when a new message sender sends a text message and the voice conversion unit 104 converts the text message into voice, the message sender's introduction is reproduced. be able to. Therefore, it is possible to recognize who the new message sender is.

第2の例である図11に示す処理によれば、音声変換参照データの最終利用日時から所定期間以上経過した状態でその音声変換参照データを利用して、音声変換部104がテキストメッセージを音声変換するときに、メッセージ送信者の紹介文を再生することができる。よって、期間が経過することによってメッセージ送信者が誰であるかを忘れていたとしても、メッセージ送信者が誰であるかを認識することが可能となる。   According to the process shown in FIG. 11 as the second example, the voice conversion unit 104 uses the voice conversion reference data in a state in which a predetermined period or more has passed since the last use date and time of the voice conversion reference data to convert the text message into a voice message. When converting, the message sender's introduction can be played. Therefore, even if the message sender is forgotten as the period elapses, it is possible to recognize who the message sender is.

<第4実施形態>
第4実施形態のテキストメッセージ音声化装置、テキストメッセージ音声化方法、テキストメッセージ音声化プログラムを、第1〜第3実施形態におけるそれとは異なる点を中心に説明する。以下の第4実施形態の構成及び動作は、第1〜第3実施形態それぞれに対して加えてもよい。
<Fourth embodiment>
The text message sounding apparatus, text message sounding method, and text message sounding program of the fourth embodiment will be described with a focus on differences from the first to third embodiments. The configuration and operation of the following fourth embodiment may be added to each of the first to third embodiments.

図12に示すように、第4実施形態においては、制御部101は、機能的な内部構成として、音声変換参照データ変更部1015をさらに有する。音声変換参照データ変更部1015は、ソフトウェアによって構成することができる。図12における文字列付加部1014は省略可能である。   As shown in FIG. 12, in the fourth embodiment, the control unit 101 further includes an audio conversion reference data changing unit 1015 as a functional internal configuration. The voice conversion reference data changing unit 1015 can be configured by software. The character string adding unit 1014 in FIG. 12 can be omitted.

第4実施形態においても、音声変換参照データの形式を、図7のように、最終利用日時の情報を含む音声変換参照データとする。   Also in the fourth embodiment, the format of the voice conversion reference data is voice conversion reference data including information on the last use date and time as shown in FIG.

まず、メッセージ送信者Aが、テキストメッセージを送信してきたとする。記憶部103に記憶されている、メッセージ送信者Aに対して設定されている音声出力定位が左右3:7であったとする。このとき、音声変換部104は、音声出力定位を左右3:7として、テキストメッセージを音声変換する。   First, assume that message sender A has sent a text message. It is assumed that the sound output localization set for the message sender A stored in the storage unit 103 is 3: 7 left and right. At this time, the voice conversion unit 104 converts the text message into voice by setting the voice output localization to 3: 7 left and right.

その後、メッセージ送信者Bが、テキストメッセージを送信してきたとする。記憶部103に記憶されている、メッセージ送信者Bに対して設定されている音声出力定位が左右5:5であったとする。このとき、音声変換部104は、音声出力定位を左右5:5として、テキストメッセージを音声変換する。   Thereafter, it is assumed that the message sender B transmits a text message. It is assumed that the sound output localization set for the message sender B stored in the storage unit 103 is 5: 5 on the left and right. At this time, the voice conversion unit 104 converts the text message into voice with the voice output localization set to 5: 5 on the left and right.

さらにその後、再びメッセージ送信者Bが、テキストメッセージを送信してきたとする。このとき、メッセージ送信者Bに対応する音声変換参照データの最終利用日時からの経過期間は、メッセージ送信者Aに対応する音声変換参照データのそれよりも短くなる。   Furthermore, after that, it is assumed that the message sender B sends a text message again. At this time, the elapsed period from the last use date and time of the voice conversion reference data corresponding to the message sender B is shorter than that of the voice conversion reference data corresponding to the message sender A.

音声変換参照データ変更部1015は、記憶部103に記憶されている、メッセージ送信者Bに対して設定されている音声出力定位を、左右3:7に変更して、音声変換部104は、音声出力定位を左右3:7として、テキストメッセージを音声変換する。   The voice conversion reference data changing unit 1015 changes the voice output localization set for the message sender B stored in the storage unit 103 to 3: 7 left and right, and the voice conversion unit 104 A text message is converted into a voice by setting the output localization to 3: 7 left and right.

併せて、音声変換参照データ変更部1015は、記憶部103に記憶されている、メッセージ送信者Aに対して設定されている音声出力定位が左右3:7を左右5:5に変更する。   In addition, the voice conversion reference data changing unit 1015 changes the voice output localization set for the message sender A stored in the storage unit 103 from left / right 3: 7 to left / right 5: 5.

このように、第4実施形態は、最終利用日時からの経過期間に応じて音声出力定位の設定値を変更する音声変換参照データ変更部を有する。第4実施形態によれば、例えば次のような場合に効果を発揮する。左右のスピーカが車両に搭載されているとする。ここでは、車両は右側にステアリングが配置されているとする。   As described above, the fourth embodiment includes the voice conversion reference data changing unit that changes the setting value of the voice output localization according to the elapsed period from the last use date and time. According to 4th Embodiment, an effect is exhibited, for example in the following cases. Assume that left and right speakers are mounted on a vehicle. Here, it is assumed that the steering wheel is arranged on the right side of the vehicle.

メッセージ送信者Aが送信したテキストメッセージを音声変換部104によって音声データに変換し、音声出力定位を左右3:7として、左右のスピーカで再生すると、運転者は、運転者側に近付いた位置からの音声を聞くことになる。   When the text message transmitted by the message sender A is converted into voice data by the voice conversion unit 104 and the voice output localization is set to 3: 7 left and right and reproduced by the left and right speakers, the driver can move from the position closer to the driver side. You will hear the voice.

次に、メッセージ送信者Bが送信したテキストメッセージを音声変換部104に音声データに変換して、音声出力定位を左右5:5として、左右のスピーカで再生したとする。この場合、音声は左右のほぼ中央から聞こえることになるので、運転者は、音声出力定位を左右3:7とした場合と比較して、運転者から離れた位置からの音声を聞くことになる。   Next, it is assumed that the text message transmitted by the message sender B is converted into voice data by the voice conversion unit 104 and played back by the left and right speakers with the voice output localization set to 5: 5 on the left and right. In this case, since the sound can be heard from almost the center of the left and right, the driver can hear the sound from a position away from the driver as compared with the case where the sound output localization is set to 3: 7 left and right. .

その後、再びメッセージ送信者Bが送信したテキストメッセージを音声変換部104に音声データに変換して、音声出力定位を左右3:7として、左右のスピーカで再生すると、運転者は、運転者側に近付いた位置からの音声を聞くことになる。   After that, the text message transmitted again by the message sender B is converted into voice data by the voice conversion unit 104, and the voice output localization is set to 3: 7 left and right and reproduced by the left and right speakers. You will hear the sound from the position you approached.

メッセージ送信者Bは、メッセージ送信者Aよりも直近にメッセージデータを送信している。よって、メッセージ送信者Bは、メッセージ送信者Aよりも、メッセージ受信者とメッセージ送信者とでメッセージデータを送受信する際の話題の中心となっている可能性が高い。   Message sender B is sending message data more recently than message sender A. Therefore, the message sender B is more likely to be the center of the topic when the message data is transmitted and received between the message receiver and the message sender than the message sender A.

運転者は、話題の中心となっている可能性が高いメッセージ送信者による音声を運転者側に近付いた位置から聞き、そうでないメッセージ送信者による音声を運転者から比較的離れた位置から聞くことにより、両者を容易に識別することが可能となる。   The driver listens to the voice of the message sender who is likely to be the center of the topic from a position close to the driver, and listens to the voice of the other message sender from a position relatively far from the driver. Thus, it is possible to easily identify both.

本発明は以上説明した各実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。図5等に示すように、音声変換参照データは話者モデルデータを特定するための識別情報を含むが、音声変換部104が有する話者モデルデータが1つのみであれば、話者モデルデータの識別情報を省略してもよい。   The present invention is not limited to the embodiments described above, and various modifications can be made without departing from the scope of the present invention. As shown in FIG. 5 and the like, the speech conversion reference data includes identification information for specifying the speaker model data, but if the speech conversion unit 104 has only one speaker model data, the speaker model data The identification information may be omitted.

101 制御部
102 メッセージデータ取得部
103 記憶部
104 音声変換部
1011 音声変換参照データ生成部
1014 文字列付加部
1015 音声変換参照データ変更部
101 Control unit 102 Message data acquisition unit 103 Storage unit 104 Voice conversion unit
1011 Voice conversion reference data generator
1014 String addition part
1015 Voice conversion reference data change part

Claims (7)

テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含むメッセージデータを取得するメッセージデータ取得部と、
前記テキストメッセージを所定の話者モデルデータを用いて音声データに変換する音声変換部と、
前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、前記音声データによる音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データを、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶する記憶部と、
前記メッセージデータ取得部が所定のメッセージデータを取得したとき、前記記憶部より、前記所定のメッセージデータのメッセージ作成者に対応して記憶されている音声変換参照データに含まれるパラメータの設定値を読み出し、前記音声変換部が、前記所定のメッセージデータに含まれているテキストメッセージを、前記話者モデルデータと、前記パラメータの設定値とを用いて音声データに変換するよう、前記音声変換部を制御する制御部と、
を備えることを特徴とするテキストメッセージ音声化装置。
A message data acquisition unit for acquiring message data including a text message and information indicating a message creator who created the text message;
A voice conversion unit that converts the text message into voice data using predetermined speaker model data;
A setting value of at least one parameter of a reading speed of the text message, a reading pitch, a reading volume, and an audio output localization indicating a balance when outputting the sound based on the sound data from a plurality of speakers. A storage unit that stores voice conversion reference data including the corresponding message creator so as to be different for each message creator;
When the message data acquisition unit acquires predetermined message data, the setting value of the parameter included in the voice conversion reference data stored corresponding to the message creator of the predetermined message data is read from the storage unit The voice conversion unit controls the voice conversion unit to convert a text message included in the predetermined message data into voice data using the speaker model data and the set value of the parameter. A control unit,
A text message voicing apparatus comprising:
前記メッセージデータ取得部が所定のメッセージデータを取得して、前記記憶部に、前記所定のメッセージデータのメッセージ作成者に対応した音声変換参照データが記憶されていないとき、
前記制御部は、
前記音声変換参照データが複数のパラメータの設定値を含む場合にはパラメータデータの設定値の組み合わせパターンが重複しないように新規の音声変換参照データを生成し、前記音声変換参照データが1つのパラメータの設定値のみを含む場合にはパラメータの設定値が重複しないように新規の音声変換参照データを生成する音声変換参照データ生成部を有する
ことを特徴とする請求項1記載のテキストメッセージ音声化装置。
When the message data acquisition unit acquires predetermined message data and the storage unit does not store voice conversion reference data corresponding to the message creator of the predetermined message data,
The controller is
When the voice conversion reference data includes setting values of a plurality of parameters, new voice conversion reference data is generated so that combination patterns of parameter data setting values do not overlap, and the voice conversion reference data includes one parameter. 2. The text message voice generating apparatus according to claim 1, further comprising: a voice conversion reference data generation unit that generates new voice conversion reference data so that parameter setting values do not overlap when only the setting values are included.
前記音声変換参照データは、前記音声変換参照データを利用した最終利用日時を示す情報を含み、
前記音声変換参照データ生成部は、パラメータデータの設定値の組み合わせパターンまたはパラメータの設定値が重複しない新規の音声変換参照データを生成することができないとき、前記最終利用日時を示す情報に基づいて、最終利用日時が最も古い音声変換参照データを削除して、新規の音声変換参照データを生成する
ことを特徴とする請求項2記載のテキストメッセージ音声化装置。
The voice conversion reference data includes information indicating the last use date and time using the voice conversion reference data,
When the voice conversion reference data generation unit cannot generate new voice conversion reference data in which the combination pattern of parameter data setting values or parameter setting values do not overlap, based on the information indicating the last use date and time, The text message speech conversion apparatus according to claim 2, wherein the voice conversion reference data having the oldest last use date is deleted to generate new voice conversion reference data.
前記制御部は、
前記メッセージデータに、前記メッセージ作成者を示す情報に基づいて前記メッセージ作成者の紹介文である文字列を付加する文字列付加部を有する
ことを特徴とする請求項1〜3のいずれか1項に記載のテキストメッセージ音声化装置。
The controller is
The character string adding unit for adding a character string, which is an introduction sentence of the message creator, to the message data based on information indicating the message creator. The text message voice converting device described in 1.
前記音声変換参照データは、前記パラメータとして前記音声出力定位の設定値と、前記音声変換参照データを利用した最終利用日時を示す情報とを含み、
前記制御部は、
最終利用日時からの経過期間に応じて前記音声出力定位の設定値を変更する音声変換参照データ変更部を有する
ことを特徴とする請求項1または2に記載のテキストメッセージ音声化装置。
The voice conversion reference data includes, as the parameter, a setting value of the voice output localization, and information indicating the last use date and time using the voice conversion reference data,
The controller is
The text message voice conversion device according to claim 1, further comprising: a voice conversion reference data changing unit that changes a setting value of the voice output localization according to an elapsed period from the last use date and time.
テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含む所定のメッセージデータを取得し、
前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データが、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶されている記憶部より、前記メッセージ作成者に対応する前記パラメータの設定値を読み出し、
前記所定のメッセージデータに含まれているテキストメッセージを、所定の話者モデルデータと、前記記憶部より読み出した前記パラメータの設定値とを用いて音声データに変換する
ことを特徴とするテキストメッセージ音声化方法。
Obtaining predetermined message data including a text message and information indicating a message creator who created the text message;
A voice conversion reference including a setting value of at least one parameter of the reading speed of the text message, a reading pitch, a reading volume, and a voice output localization indicating a balance when voice is outputted from a plurality of speakers. The setting value of the parameter corresponding to the message creator is read out from the storage unit stored corresponding to the message creator so that the data is different for each message creator,
A text message voice, wherein the text message included in the predetermined message data is converted into voice data using predetermined speaker model data and the set value of the parameter read from the storage unit. Method.
コンピュータに、
テキストメッセージと、前記テキストメッセージを作成したメッセージ作成者を示す情報とを含むメッセージデータを取得したとき、前記テキストメッセージの読み上げ速度と、読み上げ音程と、読み上げ音量と、音声を複数のスピーカより音声を出力する際のバランスを示す音声出力定位とのうちの少なくとも1つのパラメータの設定値を含む音声変換参照データが、メッセージ作成者ごとに異なるように、前記メッセージ作成者に対応させて記憶されている記憶部より、前記パラメータの設定値を読み出すステップと、
前記メッセージデータに含まれているテキストメッセージを、所定の話者モデルデータと、前記記憶部より読み出した前記パラメータの設定値とを用いて音声データに変換するステップと、
を実行させることを特徴とするテキストメッセージ音声化プログラム。
On the computer,
When message data including a text message and information indicating the message creator who created the text message is acquired, the text message reading speed, reading pitch, reading volume, and voice are output from a plurality of speakers. Voice conversion reference data including a setting value of at least one parameter of voice output localization indicating a balance at the time of output is stored in association with the message creator so as to be different for each message creator. Reading the setting value of the parameter from the storage unit;
Converting the text message included in the message data into speech data using predetermined speaker model data and the setting values of the parameters read from the storage unit;
A text message voicing program characterized in that
JP2014252654A 2014-12-15 2014-12-15 Text message speech device, text message speech method, text message speech program Active JP6428229B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014252654A JP6428229B2 (en) 2014-12-15 2014-12-15 Text message speech device, text message speech method, text message speech program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014252654A JP6428229B2 (en) 2014-12-15 2014-12-15 Text message speech device, text message speech method, text message speech program

Publications (2)

Publication Number Publication Date
JP2016114729A true JP2016114729A (en) 2016-06-23
JP6428229B2 JP6428229B2 (en) 2018-11-28

Family

ID=56141615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014252654A Active JP6428229B2 (en) 2014-12-15 2014-12-15 Text message speech device, text message speech method, text message speech program

Country Status (1)

Country Link
JP (1) JP6428229B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200125853A (en) * 2019-04-26 2020-11-05 주식회사 타바바 Backpack Device and Service System supporting the same

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11102198A (en) * 1997-07-31 1999-04-13 Toyota Motor Corp Message processing device, message processing method, and medium recording message processing program
JP2006012056A (en) * 2004-06-29 2006-01-12 Canon Inc Portable terminal device, e-mail reading method, control program, and storage medium
JP2009033298A (en) * 2007-07-25 2009-02-12 Nec Corp Communication system and communication terminal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11102198A (en) * 1997-07-31 1999-04-13 Toyota Motor Corp Message processing device, message processing method, and medium recording message processing program
JP2006012056A (en) * 2004-06-29 2006-01-12 Canon Inc Portable terminal device, e-mail reading method, control program, and storage medium
JP2009033298A (en) * 2007-07-25 2009-02-12 Nec Corp Communication system and communication terminal

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200125853A (en) * 2019-04-26 2020-11-05 주식회사 타바바 Backpack Device and Service System supporting the same
KR102212363B1 (en) * 2019-04-26 2021-02-05 주식회사 타바바 Backpack Device and Service System supporting the same

Also Published As

Publication number Publication date
JP6428229B2 (en) 2018-11-28

Similar Documents

Publication Publication Date Title
JP6129134B2 (en) Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus
JP6078964B2 (en) Spoken dialogue system and program
US12183349B1 (en) Voice message capturing system
US8315873B2 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
CN102314874A (en) Text-to-voice conversion system and method
JP2006098993A (en) Audio processing apparatus and computer program therefor
EP3573051A1 (en) Information processing device, information processing method, and program
KR20150105075A (en) Apparatus and method for automatic interpretation
KR20160131505A (en) Method and server for conveting voice
WO2020079918A1 (en) Information processing device and information processing method
JP6428229B2 (en) Text message speech device, text message speech method, text message speech program
US10884700B2 (en) Sound outputting device, sound outputting method, and sound outputting program storage medium
JP5818753B2 (en) Spoken dialogue system and spoken dialogue method
CN103310791A (en) Speech recognition processing device and speech recognition processing method
CN119181361A (en) Voice interaction method, device, equipment, medium and product
JP5689774B2 (en) Interactive information transmitting apparatus, interactive information transmitting method, and program
WO2020110744A1 (en) Information processing device, information processing method, and program
CN110737422A (en) sound signal acquisition method and device
JP2015187738A (en) Speech translation apparatus, speech translation method, and speech translation program
JP6596903B2 (en) Information providing system and information providing method
JP2017021245A (en) Language learning support device, language learning support method, and language learning support program
JPH0549998B2 (en)
CN101645266B (en) Voice synthesizer
CN113035181A (en) Voice data processing method, device and system
KR102747987B1 (en) Voice synthesizer learning method using synthesized sounds for disentangling language, pronunciation/prosody, and speaker information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181015

R150 Certificate of patent or registration of utility model

Ref document number: 6428229

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150