JP5370138B2 - Input auxiliary device, input auxiliary program, speech synthesizer, and speech synthesis program - Google Patents
Input auxiliary device, input auxiliary program, speech synthesizer, and speech synthesis program Download PDFInfo
- Publication number
- JP5370138B2 JP5370138B2 JP2009295267A JP2009295267A JP5370138B2 JP 5370138 B2 JP5370138 B2 JP 5370138B2 JP 2009295267 A JP2009295267 A JP 2009295267A JP 2009295267 A JP2009295267 A JP 2009295267A JP 5370138 B2 JP5370138 B2 JP 5370138B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- user
- text data
- target word
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 73
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 63
- 238000000605 extraction Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 9
- 238000000034 method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムに関し、例えば、テキストデータを読み上げる音声合成に適用し得る。 The present invention relates to an input assist device, an input assist program, a speech synthesizer, and a speech synthesis program, and can be applied to speech synthesis that reads out text data, for example.
ユーザが入力した文字データ(テキストデータ)を、読み上げる音声を、コーパスベースで合成する音声合成装置(予め蓄積した音声波形を、音素単位(合成単位)で接続して合成する装置)としては、従来、特許文献1に記載の方法がある。
Conventionally, as a speech synthesizer that synthesizes speech to be read out from character data (text data) input by a user on a corpus basis (a device that synthesizes speech waveforms accumulated in advance in units of phonemes (synthesis units)). There is a method described in
しかしながら、特許文献1の記載技術のような、従来のコーパスベースでの音声合成装置では、例えば、人名、地名等の固有名詞や、方言等について、不自然な発音の合成音声となり、読み上げた音声が聞きづらくなってしまう場合があった。
However, in a conventional corpus-based speech synthesizer such as the technology described in
そのため、テキストデータを読み上げる音声合成を生成する際に、生成される音声の品質を向上させることができる入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムが望まれている。 Therefore, there is a demand for an input assist device, an input assist program, a speech synthesizer, and a speech synthesis program that can improve the quality of generated speech when generating speech synthesis that reads text data.
第1の本発明は、テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置において、(1)上記音声合成装置が有する、音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部を有し、(3)上記入力補助部は、(3−1)上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、(3−2)上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、(3−3)上記ユーザに当該入力補助部から提供する情報を表示する表示部と、(3−4)上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、(3−5)上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、(3−6)上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。
According to a first aspect of the present invention, there is provided an input auxiliary device for generating text data to be supplied to a speech synthesizer that generates a speech for reading out the contents of text data in accordance with a user operation. A first database used for speech synthesis, and a second database in which speech data of a predetermined target word is registered, a target word registered in the second database, and a range other than the target word the distinction was text data denoted by chromatic input auxiliary unit for generating in response to the operation of the user, (3) the input auxiliary section (3-1) of the target word which is registered in the second database Target word holding means for holding information; (3-2) real-time input means for sequentially receiving character input from the user; and (3-3) providing to the user from the input auxiliary unit. A display unit for displaying information, and (3-4) extracting a target word related to a character being input to the real-time input unit by the user from information held by the target word holding unit, and (3-5) causing the user to select any one of the target words displayed by the extraction display unit, and the real-time input unit inputs the selected target word from the user. (3-6) For the character string input to the real-time input unit, the target word selected by the user by the selection receiving unit is distinguished from the other range. characterized by have a text data generating means for generating the content text data.
第2の本発明の入力補助プログラムは、(1)テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置に搭載されたコンピュータを、(2)上記音声合成装置が有する、音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部として機能させ、(3)上記入力補助部は、(3−1)上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、(3−2)上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、(3−3)上記ユーザに当該入力補助部から提供する情報を表示する表示部と、(3−4)上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、(3−5)上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、(3−6)上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。
The input assist program of the second aspect of the present invention is mounted on an input assist device that generates (1) text data to be supplied to a speech synthesizer that generates speech that reads out the contents of text data in response to a user operation. (2) the first database used for speech synthesis possessed by the speech synthesizer and the second database in which speech data of a predetermined target word is registered, are registered in the second database. Text data written in a manner that distinguishes between the target word and a range other than the target word, in accordance with the user's operation, and (3) the input auxiliary unit is (3-1) Target word holding means for holding information on the target words registered in the second database; and (3-2) real-time input means for sequentially receiving character input from the user. (3-3) a display unit for displaying information provided from the input auxiliary unit to the user, and (3-4) a target word related to a character being input to the real-time input means by the user. Extracting from the information held by the word holding means and displaying on the display unit; and (3-5) causing the user to select one of the target words displayed by the extraction display means, and Selection accepting means for notifying the real-time input means that the selected target word has been inputted by the user; and (3-6) for the character string inputted to the real-time input means, And a text data generating means for generating text data having a content that distinguishes the target word selected by the above and the other range .
第3の本発明の音声合成装置は、(1)音声合成処理に用いる第1のデータベースと、(2)所定の対象用語の音声データが登録された第2のデータベースと、(3)上記第2のデータベースに登録された対象用語と、対象用語以外の範囲とを区別して表記されたテキストデータについて、対象用語として区別された範囲については、上記第2のデータベースに登録された音声データを用い、対象用語として区別されていない範囲については、第1のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、(4)上記第1のデータベースと、上記第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部を有し、(5)上記入力補助部は、(5−1)上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、(5−2)上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、(5−3)上記ユーザに当該入力補助部から提供する情報を表示する表示部と、(5−4)上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、(5−5)上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、(5−6)上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。
The speech synthesizer according to the third aspect of the present invention includes (1) a first database used for speech synthesis processing, (2) a second database in which speech data of a predetermined target term is registered, and (3) the first For the text data that is described by distinguishing the target term registered in the
第4の本発明の音声合成プログラムは、(1)テキストデータの内容を読み上げる音声を生成する音声合成装置に搭載されたコンピュータを、(2)音声合成処理に用いる第1のデータベースと、(3)所定の対象語の音声データが登録された第2のデータベースと、(4)上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第2のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、第1のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、(5)上記第1のデータベースと、上記第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部として機能させ、(6)上記入力補助部は、(6−1)上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、(6−2)上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、(6−3)上記ユーザに当該入力補助部から提供する情報を表示する表示部と、(6−4)上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、(6−5)上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、(6−6)上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。
A speech synthesis program according to a fourth aspect of the present invention includes: (1) a computer installed in a speech synthesizer that generates speech that reads out the contents of text data; (2) a first database used for speech synthesis processing; A) a second database in which speech data of a predetermined target word is registered; and (4) a text data that is described by distinguishing a target word registered in the second database and a range other than the target word. The speech data registered in the second database is used for the range distinguished as the target word, and the text data is read using the data in the first database for the range not distinguished as the target word. and sound generating means for generating a voice to raise, (5) and the first database of the second database, to the second database Functioning as an input auxiliary unit that generates text data in which a recorded target word and a range other than the target word are distinguished and generated according to a user operation. (6) The input auxiliary unit is (6-1 ) Target word holding means for holding information of the target word registered in the second database; (6-2) real-time input means for sequentially receiving character input from the user; and (6-3) to the user. A display unit for displaying information provided from the input auxiliary unit; and (6-4) extracting a target word related to a character being input to the real-time input unit by the user from information held by the target word holding unit. And (6-5) causing the user to select one of the target words displayed by the extraction display means, and the real-time input means selects the target word displayed on the display unit. A selection receiving means for notifying that the target word is input from the user; and (6-6) a target word selected by the user by the selection receiving means for the character string input to the real-time input means; It has a text data generation means for generating text data having contents that are distinguished from other ranges .
本発明によれば、テキストデータを読み上げる音声合成を生成する際に、生成される音声の品質を向上させることができる。 According to the present invention, it is possible to improve the quality of generated speech when generating speech synthesis that reads out text data.
(A)第1の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第1の実施形態を、図面を参照しながら詳述する。なお、第1の実施形態の入力補助装置は、入力補助部である。
(A) First Embodiment Hereinafter, a first embodiment of an input assistance device, an input assistance program, a speech synthesis device, and a speech synthesis program according to the present invention will be described in detail with reference to the drawings. In addition, the input assistance apparatus of 1st Embodiment is an input assistance part.
(A−1)第1の実施形態の構成
図1は、この実施形態の音声合成装置10の全体構成を示すブロック図である。なお、図1において、括弧内の符号は、後述する第3の実施形態において用いられる符号である。
(A-1) Configuration of the First Embodiment FIG. 1 is a block diagram showing the overall configuration of the speech synthesizer 10 of this embodiment. In FIG. 1, the reference numerals in parentheses are those used in a third embodiment to be described later.
音声合成装置10は、入力補助部20及び音声合成部30を有している。
The speech synthesizer 10 includes an input
入力補助部20は、ユーザの操作等に応じて、音声合成対象のテキストデータを生成するものである。音声合成部30は、入力補助部20から与えられたテキストデータについて読み上げる音声を生成して出力するものである。
The input
図1では、入力補助部20と音声合成部30は一体の装置として構成されているが、別々の装置(入力補助装置と音声合成装置)として構成するようにしても良い。
In FIG. 1, the
入力補助部20は、プロセッサを有する情報処理装置(1台に限定されず、複数台を分散処理し得るようにしたものであっても良い。)上に、実施形態の入力補助プログラムをインストールすることにより構築しても良いが、その場合でも機能的には図1のように表すことができる。また、音声合成部30についても同様の情報処理装置上に、実施形態の音声合成プログラムをインストールすることにより構成するようにしても良い。
The input
以下の説明では、例として、入力補助プログラム(入力補助部20)と音声合成プログラム(音声合成部30)を1台のパソコン等の情報処理装置にインストールして構築する場合について説明するものとする。そして、その情報処理装置には、ユーザに表示出力するためのディスプレイと、音声出力するためのスピーカと、ユーザに文字入力や操作信号を入力させるための入力手段としてキーボード(マウスを含むようにしても良い)が搭載されているものとする。なお、入力手段は上述のものに限定されないものである。 In the following description, as an example, a case where the input assistance program (input assistance unit 20) and the speech synthesis program (speech synthesis unit 30) are installed and constructed in an information processing apparatus such as one personal computer will be described. . The information processing apparatus may include a display for outputting to the user, a speaker for outputting sound, and a keyboard (mouse) as input means for allowing the user to input characters and operation signals. ) Is installed. The input means is not limited to that described above.
次に、音声合成部30の詳細について説明する。
Next, details of the
音声合成部30は、テキスト分割部31、音声合成処理部32、音声結合部33、合成音声用DB34、ユーザデータベース35を有している。
The
音声合成部30は、音声合成に用いるデータベースとして、合成音声用DB34とユーザデータベース35の2つのデータベースを備えている。
The
合成音声用DB34は、音声合成に用いる音素片等のデータが格納されているデータベースであり、例えば、特許文献1の記載技術等、既存のコーパスベースで音声合成を行う際に用いられるデータベースを用いることができる。
The synthesized speech DB 34 is a database in which data such as phonemes used for speech synthesis are stored. For example, a database used when speech synthesis is performed based on an existing corpus such as the technology described in
一方、ユーザデータベース35は、所定の言葉について、音素片ではなく、その言葉の一連の音声のデータ(以下、「実音声データ」という)が、その実音声データの内容を示す情報と対応付けて登録されている。なお、実音声データは、実際に人間が発した音声を録音したものを適用するようにしても良いし、自然な発音となるような合成音声を予め作成して適用するようにしても良い。
On the other hand, the
例えば、人名、地名等の固有名詞等、ユーザが良く使う言葉であるが、既存の音声合成処理では、自然な発音が困難な言葉を、実音声データとして登録することが望ましい。また、以下の説明において、ユーザデータベース35に実音声データが登録されている言葉を、「重要語」と呼ぶものとする。
For example, words that are frequently used by the user, such as proper nouns such as names of people and places, etc., but it is desirable to register words that are difficult to be pronounced naturally as actual speech data in existing speech synthesis processing. In the following description, words for which actual voice data is registered in the
図2は、ユーザデータベース35に登録されている内容の例について示した説明図である。
FIG. 2 is an explanatory diagram showing an example of contents registered in the
図2では、「音声ファイル」の項目は実音声データが格納されたデータファイルのファイル名を示しており、「表記」の項目は、対応する実音声データを読み上げた場合の重要語の内容を示している。 In FIG. 2, the item “voice file” indicates the file name of the data file in which the actual voice data is stored, and the item “notation” indicates the contents of the important words when the corresponding actual voice data is read out. Show.
ユーザデータベース35には、「音声ファイル」の内容(例えば、「A001」)に対応する実音声ファイルのデータも格納されており、ファイル名により識別されているものとする。
The
図2では、実音声データを示すものとして、「音声ファイル」の項目を用いる例について説明しているが、その他にも、リンク先のURLを示したり、データベース上の識別子を用いたり、実音声データ自体を登録したりする等、対応する実音声データを示すことができる情報であれば、そのデータ形式は限定されないものである。 FIG. 2 illustrates an example in which the item “voice file” is used as the real voice data. However, in addition to this, the link destination URL, the identifier on the database, The data format is not limited as long as it is information that can indicate the corresponding actual voice data, such as registering the data itself.
音声合成部30では、音声合成の際に、重要語に関しては、実音声データに基づく音声が出力され、それ以外の範囲に関しては、合成音声用DB34のデータを用いて合成された音声が出力される。
At the time of speech synthesis, the
図2では、例えば、「abcさん」に対応する音声ファイルは「A001」であり、この「A001」のファイル名のファイルに「abcさん」という重要語を読み上げた実音声データが格納されている。 In FIG. 2, for example, the voice file corresponding to “Mr. abc” is “A001”, and the actual voice data that reads out the important word “Mr. abc” is stored in the file with the file name “A001”. .
ユーザデータベース35には、重要語として、同じ文字で表されるものであっても、感情表現等が異なるものを登録しておいても良い。例えば、図2に示すように、「はい(笑)」と「はい(泣)」という重要語が登録されているが、これは「はい(笑)」に対応するA010のデータファイルには笑った様子で「はい」と読み上げた実音声データが格納されており、「はい(泣)」に対応するA011のデータファイルには泣いた様子で「はい」と読み上げた実音声データが格納されていることを示している。なお、表記で括弧内の内容は、感情表現だけでなく、人名であるか地名であるか等、対応する実音声データの内容を説明する内容であれば限定されないものである。また、図2では、表記で、対応する実音声データの内容を説明する内容は括弧を用いて区切っているが、その他の記号を用いても良いし、表記とは異なるフィールドを設けてデータベースを構成するようにしても良い。
In the
入力補助部20から音声合成部30に与えられるテキストデータでは、例えば、重要語が「xyz株式会社」であった場合には、「#xyz株式会社#」と「#」という制御文字で囲われた形式で与えられ、音声合成部30では、制御文字で囲われた言葉は、重要語であるものとして扱われるものとする。なお、以下では、重要語を区別する方法として、制御文字「#」を用いるものとして説明するが、その他の記号(複数文字でも良い)を制御文字としても良いし、XML等におけるタグ形式を利用いて区別したりするようにしてもよく、その区別方法は限定されないものである。
In the text data given from the input
テキスト分割部31は、入力補助部20から、テキストデータが与えられると、制御文字(#)を区切り文字として、音声合成すべき文字と、重要語の文字とに分割して、音声合成処理部32に与える。
When the text data is given from the input
例えば、テキスト分割部31に、「合格#おめでとう#だね。#おおさか##xyz株式会社#にくる?」というテキストデータが与えられた場合、このテキストデータは、「合格」、「おめでとう」、「だね。」「おおさか」、「xyz株式会社」、「にくる?」というテキストデータに分割されて、音声合成処理部32に与えられる。なお、制御文字#で囲われた重要語に関しては、重要語である旨も併せて、音声合成処理部32に通知されるものとする。
For example, when text data “passed # Congratulation # is it. #Osaka ### come to #yz Co., Ltd.?” Is given to the
そして、音声合成処理部32は、テキスト分割部31で分割された分割テキストデータの単位で、音声データの合成等を行う。音声合成処理部32は、重要語に関しては、ユーザデータベース35から実音声データを読み込み、重要語でない範囲については、合成音声用DB34のデータを用いて音声合成を行う。そして、音声合成処理部32は、ユーザデータベース35から読み込んだ実音声データ、及び、合成音声用DB34のデータに基づいて合成した音声データを、音声結合部33に与える。
The speech
なお、音声合成処理部32で、テキストデータについて形態素解析等の分析を行う際には、テキスト分割部31で分割された分割テキストデータごとに行うようにしても良いし、全てを結合した分割前の状態で分析するようにしても良い。また、音声合成処理部32では、制御文字#で囲われた文字以外で、ユーザデータベース35に登録された重要語が存在すると判定できる場合には、その部分の音声をユーザデータベース35から実音声データを読み込んで保持するようにしても良いが、この実施形態では、そのような処理は行わないものとして説明する。
When the speech
音声結合部33は、音声合成処理部32から与えられた、ユーザデータベース35から読み込んだ実音声データ、及び、合成音声用DB34のデータに基づいた合成された音声データを、入力補助部20から与えられたテキストデータと一致する並びで結合して出力する。
The
なお、音声結合部33の音声データの出力方法としては、スピーカにより表音出力するだけでなく、例えば、ディスク装置等の記憶装置に記憶させたり、通信により他の装置に出力する構成としても良く、その出力方法は限定されないものである。
In addition, as a method of outputting the voice data of the
次に、入力補助部20の詳細構成について説明する。
Next, a detailed configuration of the input
入力補助部20は、リアルタイム入力部21、バッチ入力部22、補完部23、表示切替部24、表示部25を有している。
The input
入力補助部20は、テキストデータの入力をユーザから受けるものとして、リアルタイム入力部21とバッチ入力部22を有している。
The input
リアルタイム入力部21は、ユーザからキーボード等の入力装置を用いて、リアルタイムにテキストデータの入力を受付け、ユーザの操作に応じてテキストデータを生成し、その生成したテキストデータを、ユーザの操作に応じたタイミングで音声合成部30に与える。
The real-
バッチ入力部22は、ユーザからテキストデータの入ったファイル(以下、「テキストファイル」という)の入力(記録媒体による入力や、ネットワーク経由での入力等入力方法は限定されない)を受付ける。なお、以下では、テキストファイルは、複数行のテキストデータを含むものとして説明する。そして、バッチ入力部22は、テキストファイル内のテキストデータのうち、ユーザの操作に応じたタイミングで、ユーザの操作に応じた行のテキストデータを、音声合成部30に与える。
The
表示切替部24は、ユーザの操作に応じて、入力補助部20の動作モードを切り替える機能を担っている。入力補助部20は、入力補助部20において、リアルタイム入力部21によりユーザからのテキスト入力を受付ける状態である「リアルタイム入力モード」と、バッチ入力部22によりテキストファイルのテキストデータを処理対象として取り扱う「バッチ入力モード」の2つの動作モードを備えており、表示切替部24により切替が行われる。
The
表示切替部24が動作モードを切替える契機については、限定されないものであるが、例えば、ユーザから入力補助部20が有するキーボードにより所定のキー入力(例えば「Tab」キーの押下等)が行われた場合や、マウスによる画面上のボタン(図示せず)を押下すること等により切替るようにしても良い。
The trigger for switching the operation mode by the
表示部25は、当該入力補助部20の操作状況を、ユーザにディスプレイ等の表示装置を用いて表示するものである。
The
図3は、表示部25により表示される画面の内容例について示した説明図である。
FIG. 3 is an explanatory diagram showing an example of the contents of the screen displayed by the
図3に示すように、表示部25により表示される画面では、入力フィールドFIと、表示フィールドF0が配置されている。図3に示す表示画面は、例えば、入力補助部20が有するディスプレイにおいて一部を占める1つのウィンドウとして表示するようにしても良い。
As shown in FIG. 3, on the screen displayed by the
入力フィールドFIは、入力補助部20がリアルタイム入力モードで動作しているときに用いられるフィールドであり、ユーザがキーボードで入力したテキストデータが表示されるフィールドである。
The input field FI is a field used when the input
表示フィールドF0は、リアルタイム入力モード及びバッチ入力モードの両方の動作モードで用いられるフィールドである。表示フィールドF0に表示される内容の詳細については後述する。なお、表示フィールドF0には、入力補助部20の動作モードに応じた内容が切り替えて表示される。
The display field F0 is a field used in both the real-time input mode and the batch input mode. Details of the contents displayed in the display field F0 will be described later. In the display field F0, the contents corresponding to the operation mode of the input
補完部23は、リアルタイム入力モード時に機能するものであり、入力フィールドFIに入力される内容に応じて、ユーザデータベース35に登録された重要語から、候補となる重要語(以下、「絞込み候補」という)を表示フィールドF0に表示する。そして、リアルタイム入力部21は、絞込み候補の中からユーザの操作により選択された重要語の入力を受付け、制御文字#で囲ったその重要語を、生成するテキストデータに挿入する。
The complementing
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の音声合成装置10の動作を説明する。
(A-2) Operation of First Embodiment Next, the operation of the speech synthesizer 10 of the first embodiment having the above configuration will be described.
以下では、まず、入力補助部20の動作について説明した後、音声合成部30の動作について説明する。
In the following, first, the operation of the input
(A−2−1)入力補助部のリアルタイム入力モードにおける動作
図4は、リアルタイム入力モード時の入力補助部20の動作の例について示したフローチャートである。
(A-2-1) Operation of Input Assistant Unit in Real Time Input Mode FIG. 4 is a flowchart showing an example of the operation of the
図5は、入力補助部20が図4のフローチャートに基づいて動作した場合に、表示部25により出力される画面遷移の例である。
FIG. 5 is an example of a screen transition output by the
また、入力補助部20(リアルタイム入力部21)では、ユーザからキーボードで平仮名(ローマ字入力を含む)が入力されると、その平仮名をユーザの操作に応じて漢字に変換する仮名漢字変換に対応しているものとして説明している。仮名漢字変換に関する機能は、既存のパソコン等における仮名漢字変換と同様のものを適用することができる。
In addition, when the input auxiliary unit 20 (real-time input unit 21) inputs a hiragana character (including romaji input) with a keyboard from the user, the input
図4のフローチャートでは、ユーザが「おめでとう」という重要語を入力する場合の例について説明している。 The flowchart in FIG. 4 illustrates an example in which the user inputs the important word “congratulations”.
まず、リアルタイム入力部21に、ユーザから「お」という文字が入力(図5(a)に示すようにユーザからキーボード操作により、「お」という文字が入力フィールドFIに入力)されたものとする(S101)。なお、図5においては、ユーザが入力中で未確定の範囲についてはアンダーバーを付して示しており、ユーザの入力が終了した確定済の範囲についてはアンダーバーを付していない。 First, it is assumed that the character “O” is input to the real-time input unit 21 (the character “O” is input to the input field FI by a keyboard operation from the user as shown in FIG. 5A). (S101). In FIG. 5, the range that is being entered by the user and not yet confirmed is indicated with an underbar, and the range that has been entered by the user is not indicated with an underbar.
次に、リアルタイム入力部21により、ユーザから入力された未確定の文字「お」が、補完部23へ通知される。そして、補完部23により、ユーザデータベース35の内容(表記の項目)が読み込まれ、入力中の1文字「お」を先頭に補完する語が絞込み候補の重要語として抽出される(S102)。ステップS102では、ユーザデータベース35の内容が図2に示す内容であるものとすると、「おおさか」、「おおきに」、「おめでとう」、「おおさか(人名)」が絞込み候補の重要語として抽出される。なお、ユーザが未確定の文字として「おめ」と複数文字入力した場合には、「おめ」を先頭に補完する語として「おめでとう」が絞り込み候補として抽出されるようにしても良い。
Next, the uncertain character “o” input from the user is notified to the
なお、補完部23では、その都度ユーザデータベース35の内容を読み込むようにしても良いし、予め、ユーザデータベース35のうち表記の項目だけを抜き出して保持しておくようにしても良く、その方法は限定されないものとする。
In addition, in the
次に、補完部23により、上述のステップS102において抽出された絞込み候補の重要語の情報が、表示部25へ送られ、図5(b)に示すように表示フィールドF0に表示される(S103)。
Next, the information on the key words of the narrowing candidates extracted in step S102 described above is sent to the
次に、上述のステップS103で表示された絞込み候補の重要語のうちいずれかが、ユーザに選択(操作信号がリアルタイム入力部21に入力)されると(S104)、その選択された重要語の情報がユーザにより入力された重要語としてリアルタイム入力部21において認識される。ステップS104において、ユーザが絞り込み候補の重要語のうちいずれかを選択する操作としては、例えば、キーボードの矢印キーや、マウス操作により、いずれかの絞込み候補の重要語が選択される操作が行われた場合等が挙げられる。
Next, when any one of the narrow-down candidate key words displayed in step S103 is selected by the user (an operation signal is input to the real-time input unit 21) (S104), the selected key word is selected. Information is recognized by the real-
図5(b)の例では、ユーザによりキーボードの矢印キーにより上下に動作するカーソルを用いて、重要語が選択される例について示している。さらに、図5(b)の例では、カーソルをいずれかの重要語に合わせた状態(図5(b)では「おめでとう」に四角形のカーソルが合わされている)で、選択する重要語を決定する操作(例えば、エンターキー等の操作)を行うと、リアルタイム入力部21によりその重要語がユーザから入力されたものとして処理される。
In the example of FIG. 5B, an example is shown in which an important word is selected by a user using a cursor that moves up and down with the arrow keys of the keyboard. Further, in the example of FIG. 5B, the important word to be selected is determined in a state where the cursor is set to any one of the important words (in FIG. 5B, the square cursor is set to “congratulations”). When an operation (for example, an operation of an enter key or the like) is performed, the real-
上述のステップS104においては、図5(b)に示すように、ユーザにより、絞込み候補の重要語から、「おめでとう」が選択されたものとする。 In step S104 described above, as shown in FIG. 5B, it is assumed that “congratulations” is selected by the user from the key words of the narrowing candidates.
そして、ユーザにより絞込み候補の重要語からいずれかが選択されると、図5(c)に示すように、ユーザの入力文字として、「おめでとう」に制御文字#が付された「#おめでとう#」が、入力フィールドFIに表示され(S105)、リアルタイム入力部21では、次の文字を入力することが可能な状態となる。
Then, when any one of the important words as candidates for narrowing is selected by the user, as shown in FIG. 5C, “# Congratulations #” in which the control character # is added to “Congratulations” as the user input character. Is displayed in the input field FI (S105), and the real-
次に、入力補助部20がリアルタイム入力モードであり、ユーザが入力したいテキストデータが、「合格おめでとうだね。おおさかxyz株式会社に来る?」である場合について説明する。
Next, the case where the input
まず、リアルタイム入力部21(入力フィールドFI)において、ユーザから「合格(ごうかく)」の「ご」の一文字が入力されたものとすると、図2に示す通り、ユーザデータベース35には「ご」を先頭とする重要語は登録されていないので、絞り込み候補はなしとなる。そのため、ユーザはリアルタイム入力部21(入力フィールドFI)に、「合格」と入力する。 First, in the real-time input unit 21 (input field FI), assuming that one character “GO” of “PASS” is input from the user, as shown in FIG. Since no important word starting with is registered, there are no narrowing candidates. Therefore, the user inputs “pass” to the real-time input unit 21 (input field FI).
次に、リアルタイム入力部21に「おめでとう」の「お」の一文字が入力されると、上述の図5の例と同様に、先頭文字が「お」である語の絞り込み候補が表示フィールドF0に表示される。そして、ユーザが、絞り込み候補から「おめでとう」を選択すると、リアルタイム入力部21(入力フィールドFI)に、「合格#おめでとう#」と表示され、次の文字を入力する可能な状態となる。
Next, when a single character “O” of “Congratulations” is input to the real-
以下、同様な流れで入力していくと、最終的に、「合格#おめでとう#だね。#おおさか##xyz株式会社#に来る?」といったテキストデータがリアルタイム入力部21(入力フィールドFI)に表示される。 Thereafter, when inputting in the same flow, finally, text data such as “Pass # Congratulations #. #Osaka ## Come to xyz Co., Ltd. #?” In the real-time input unit 21 (input field FI). Is displayed.
最後まで入力が終了し、ユーザの操作により、リアルタイム入力部21に、入力フィールドFIに表示されたテキストデータの合成音声を出力する旨の信号が入力(例えば、所定のキーボード操作や、マウスにより所定のボタンが押下された場合)されると、リアルタイム入力部21から音声合成部30(テキスト分割部31)に、そのテキストデータが与えられる。
The input is completed to the end, and a signal indicating that the synthesized voice of the text data displayed in the input field FI is output is input to the real-
ここで、重要語の文字が連続して続いた場合、「#おおさか##XYZ株式会社#」のように、「##」が連続した形になる。ただし、この連続した記号を、他の記号に置き換えてもよい。 Here, when the characters of the important word continue, “##” becomes a continuous form like “#Osaka ## XYZ Corporation #”. However, these consecutive symbols may be replaced with other symbols.
(A−2−2)入力補助部のバッチ入力モードにおける動作
図6は、バッチ入力モード時の入力補助部20の動作の例について示したフローチャートである。
(A-2-2) Operation of Input Assistant Unit in Batch Input Mode FIG. 6 is a flowchart showing an example of operation of the
図7は、入力補助部20が図6のフローチャートに基づいて動作した場合に、表示部25により出力される画面遷移の例である。
FIG. 7 is an example of a screen transition output by the
図8は、バッチ入力モードで入力されるテキストファイルの内容の例について示した説明図である。 FIG. 8 is an explanatory diagram showing an example of the contents of a text file input in the batch input mode.
入力補助部20では、バッチ入力モードで動作時に、ユーザにより、バッチ入力部22に、図8に示すテキストファイルが入力されると(S201)、その内容が、表示部25へ送られ、表示部25により、図7(a)に示すように、表示フィールドF0に行ごとに表示される(S202)。
In the input
そして、表示フィールドF0に表示された、いずれかの行のテキストデータが、ユーザにより選択される操作信号がバッチ入力部22に入力されると(S203)、その選択された行のテキストデータが、バッチ入力部22から音声合成部30(テキスト分割部31)に与えられ、音声合成が開始される(S204)。
Then, when an operation signal selected by the user from any line of text data displayed in the display field F0 is input to the batch input unit 22 (S203), the text data of the selected line is It is given from the
ステップS203において、表示フィールドF0に表示された、いずれかの行のテキストデータを、ユーザが選択する操作としては、例えば、キーボードの矢印キーや、マウス操作により、いずれかの絞込み候補の重要語が選択する操作が挙げられる。 In step S203, as an operation for the user to select text data in any row displayed in the display field F0, for example, the key word of any narrowing candidate is selected by an arrow key on the keyboard or a mouse operation. The operation to select is mentioned.
図7の例では、ユーザによるキーボードの矢印キー操作で、上下に動作するカーソルを用いて、いずれかの行のテキストデータが選択される例について示している。さらに、カーソルをいずれかの行に合わせた状態(図7(b)では「あっという間に過ぎましたね」の行に四角形のカーソルが合わされている)で、選択する行を決定する操作(例えば、エンターキー等の操作)を行うと、バッチ入力部22によりその行が選択(及び決定)されたものとして処理される。
In the example of FIG. 7, an example is shown in which text data in any row is selected using a cursor that moves up and down by a user's keyboard arrow key operation. Further, in a state where the cursor is positioned on any line (in FIG. 7B, a square cursor is positioned on the line “It passed in no time”), an operation for determining a line to be selected (for example, , The operation of the enter key or the like), the
(A−2−3)入力補助部の表示切替部の動作
次に、表示切替部24による入力補助部20の動作モードの切替について説明する。
(A-2-3) Operation of the display switching unit of the input auxiliary unit Next, switching of the operation mode of the input
上述のように、表示切替部24は、ユーザの操作に応じて、入力補助部20の動作モードを、リアルタイム入力モード又はバッチ入力モードに切り替える。
As described above, the
図9は、表示切替部24による動作モード切替の動作について示した説明図である。
FIG. 9 is an explanatory diagram showing an operation mode switching operation by the
図9(a)は、入力補助部20がリアルタイム入力モードである場合の表示部25の表示画面の内容例である。そして、図9(b)は、入力補助部20がバッチ入力モードである場合の表示部25の表示画面の内容例である。
FIG. 9A is an example of the contents of the display screen of the
例えば、表示切替部24が、ユーザの操作を契機に、入力補助部20を、バッチ入力モードからリアルタイム入力モードに切り替える場合には、バッチ入力部22の機能を無効にしてリアルタイム入力部21の機能を有効にし、表示部25に表示させる内容を、図9(a)に示すようにリアルタイム入力部21からの情報に切り替えさせる。
For example, when the
一方、表示切替部24が、ユーザの操作を契機に、入力補助部20を、リアルタイム入力部21からバッチ入力部22に切り替える場合には、リアルタイム入力部21の機能を無効してバッチ入力部22の機能を有効にし、表示部25に表示させる内容を、図9(b)に示すようにバッチ入力部22からの情報に切り替えさせる。
On the other hand, when the
(A−2−4)音声合成部の動作
次に、音声合成部30の動作について説明する。
(A-2-4) Operation of Speech Synthesizer Next, the operation of the
図10は、入力補助部20から与えられたテキストデータを音声合成部30で処理する際の動作について示した説明図である。
FIG. 10 is an explanatory diagram showing an operation when the
図10では、入力補助部20から音声合成部30に与えられたテキストデータが、「合格#おめでとう#だね。#おおさか##xyz株式会社#に来る?」という内容であった場合の処理について説明している。
In FIG. 10, the processing in the case where the text data given from the
入力補助部20から、音声合成部30に、「合格#おめでとう#だね。#おおさか##xyz株式会社#に来る?」という内容のテキストデータが与えられると、まず、テキスト分割部31により、制御文字「#」を区切り文字として、そのテキストデータの内容が分割され。図10に示すように、上述のテキストデータは、テキスト分割部31により、「合格」「おめでとう」「だね。」「おおさか」「xyz株式会社」「に来る?」というデータに分割され、音声合成処理部32に与えられる。
When the text data of the content “Pass # Congratulations # Congratulations # # Are you coming to ## xyz Co., Ltd. #?” Is given to the
そして、音声合成処理部32では、上記のテキスト分割部31で分割されたそれぞれの分割テキストデータに対して、重要語に関しては、ユーザデータベース35から該当する実音声データを選択して読み込み、音声合成すべき範囲に対しては、分割テキストデータ毎に音声合成処理を行い、実音声データ及び合成音声のデータを音声結合部33に与える。
Then, the speech
音声合成処理部32では、ユーザ固有で用いられる重要語(制御文字#で囲われていた範囲)に対しては、ユーザデータベース35内に実音声データが存在する重要語の表記と完全一致するかを判定し、一致した場合、対応する実音声データをユーザデータベース35から読み込むようにしても良い。上述のように、音声合成処理部32において、重要語の登録内容とユーザデータベース35内の登録内容との表記が完全一致しているかどうかの二重判定を行うことは、リアルタイム入力部21での制御文字「#」内の文字変更の可能性を考慮しているためである。
In the speech
音声合成処理部32では、例えば、上述の分割テキストデータの「合格」といった部分に対しては、重要語ではないため、音声合成処理を行い、合成音声を作成する。一方、音声合成処理部32は、上述の分割テキストデータの「おめでとう」といった部分は、重要語であるため、「おめでとう」に対応した実音声データ(音声ファイル「A006」)が選択される。
In the speech
そして、音声合成処理部32で上述の分割テキストデータの処理を、同様に行うと、「だね。」「に来る?」の文字に対しては、音声合成処理を行う。「おおさか」「xyz株式会社」の文字に対しては、対応する実音声データ(音声ファイルA003、A004)が選択される。
When the above-described divided text data processing is performed in the same manner by the speech
また、音声合成処理部32では、入力補助部20から入力されたテキストデータで、制御文字#で囲われていなかった文字についても、ユーザデータベース35から検索して一致するものがあれば、音声合成を行わずに実音声データを用いるようにしても良い。
In the speech
音声結合部33は、音声合成処理部32から与えられた、合成音声のデータと、実音声データとを、入力補助部20から与えられたテキストデータの内容と一致する並びで結合する。
The
例えば、音声結合部33は、「合格」(合成音声)、「おめでとう」(音声ファイルA006)、「だね。」(合成音声)、「おおさか」(音声ファイルA003)、「xyz株式会社」(音声ファイルA004)、「に来る?」(合成音声)の順番につなげて、一つの音声データを生成する。
For example, the
なお、ユーザデータベース35に登録された実音声データは、発声区間の前後に数十msの無音を付加し、音声結合部33ではで単純に音声を結合しても接続劣化の影響を除かれることが望ましい。また、音声結合部33では、句点「。」はあらかじめ設定された長さの無音が挿入されるようにしても良い。
The actual voice data registered in the
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be achieved.
音声合成装置10では、ユーザデータベース35を備え、重要語については、実音声データを出力するようにしているので、例えば、方言や固有名詞等、従来の合成音声だけでは再現が難しかったり、不自然な音声となってしまうテキストデータについても、自然な発音の音声を生成し、生成される音声の品質を向上させることができる。
The speech synthesizer 10 includes a
また、入力補助部20では、ユーザがユーザデータベース35に登録した重要語を絞り込み候補として表示出力しているので、ユーザが登録した重要語を把握しやすくすることができる。入力補助部20において、絞り込み候補を表示出力しない場合、ユーザがどのような重要語を登録したのか忘れてしまったり、登録したユーザと入力するユーザが異なる場合であっても、ユーザが重要語を入力することを容易にしている。すなわち、入力補助部20では、ユーザが任意の文字を入力する行為の延長線上で、ユーザ固有で用いられる重要語の入力を補助させることができる。
In addition, since the input
さらに、入力補助部20では、テキストデータの入力時に、入力文字を含む重要語を明示的に入力することが可能となり、出力される音声内で、重要語に対応する実音声の品質や、音声に含まれる感情等も効果的に伝達することが可能であり、さらに、合成音声であるといった任意の文字にも対応できるという効果を奏する。
Further, the input
(B)第2の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第2の実施形態を、図面を参照しながら詳述する。なお、第2の実施形態の入力補助装置は、入力補助部である。
(B) Second Embodiment Hereinafter, a second embodiment of the input assistance device, the input assistance program, the speech synthesis device, and the speech synthesis program according to the present invention will be described in detail with reference to the drawings. In addition, the input assistance apparatus of 2nd Embodiment is an input assistance part.
(B−1)第2の実施形態の構成
図11は、第2の実施形態の実施形態の音声合成装置10Aの全体構成を示すブロック図であり、上述した図1との同一、対応部分には同一、対応符号を付して示している。
(B-1) Configuration of the Second Embodiment FIG. 11 is a block diagram showing the overall configuration of the speech synthesizer 10A of the second embodiment, and the same and corresponding parts as in FIG. Are indicated by the same reference numerals.
以下、第2の実施形態の音声合成装置10Aについて、第1の実施形態との差異について説明する。 Hereinafter, the difference between the speech synthesis apparatus 10A of the second embodiment and the first embodiment will be described.
音声合成装置10Aは、入力補助部20A及び音声合成部30を有しているが、音声合成部30については、第1の実施形態と同様のものであるので詳しい説明を省略する。
The speech synthesizer 10A includes an input auxiliary unit 20A and a
入力補助部20Aは、バッチ入力部22A、補完部23、表示切替部24、表示部25、選択位置記憶部26を有している。補完部23、表示切替部24、表示部25については、第1の実施形態と同様のものであるので詳しい説明は省略する。
The input auxiliary unit 20A includes a batch input unit 22A, a complementing
バッチ入力部22Aは、テキストファイル内のテキストデータのうち、ユーザの操作に応じたタイミングで、ユーザの操作に応じて選択された行のテキストデータを、音声合成部30に与えるが、最後にユーザの操作に応じて選択された行の情報(例えば、何行目であるか等の情報)(以下、「選択位置情報」という)を、選択位置記憶部26に記憶させる。
The batch input unit 22A gives the text data of the line selected according to the user operation to the
そして、バッチ入力部22Aは、バッチ入力モードからリアルタイム入力モードに変わり、さらにバッチ入力モードに切り替わった時に、選択位置記憶部26に記憶された選択位置情報を読み込み、選択位置情報に該当する行のテキストデータが選択された状態(例えば、該当する行のテキストデータをハイライトさせたり四角で囲んだりするなどして強調表示する)の画面を、表示フィールドF0に表示させるように表示部25を制御する。
Then, when the batch input unit 22A changes from the batch input mode to the real-time input mode and further switches to the batch input mode, the batch input unit 22A reads the selected position information stored in the selected
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の音声合成装置10Aの動作を説明する。
(B-2) Operation of Second Embodiment Next, the operation of the speech synthesizer 10A of the second embodiment having the above configuration will be described.
以下では、第1の実施形態との差異である、バッチ入力部22A及び選択位置記憶部26に係る動作についてのみ説明する。
Hereinafter, only the operations relating to the batch input unit 22A and the selection
図12は、入力補助部20Aにおいて、動作モードが切り替わった場合の表示部25による表示画面の遷移について示した説明図である。
FIG. 12 is an explanatory diagram showing transition of the display screen by the
図12では、入力補助部20Aがバッチ入力モードにおいて、表示フィールドF0で、最後にユーザの操作に応じて選択された行のテキストデータの内容を、四角のカーソルで囲って強調表示している。 In FIG. 12, in the batch input mode, the input auxiliary unit 20A highlights the text data content of the line selected last according to the user operation in the display field F0 by surrounding it with a square cursor.
まず、入力補助部20Aがバッチ入力モードで動作しており、表示部25による表示画面が図12(a)の状態となっている場合を想定する。図12(a)の状態では、「あっという間にすぎましたね」という行が、最後にユーザの操作に応じて選択された行として表示されている。このとき、バッチ入力部22Aは、当該行の位置情報を選択位置情報として、選択位置記憶部26に記憶させている。
First, it is assumed that the input auxiliary unit 20A is operating in the batch input mode and the display screen by the
そして、表示部25による表示画面が図12(a)の状態で、入力補助部20Aの動作モードがリアルタイム入力モードに切り替わると、表示フィールドF0の入力テキストファイルの内容は消えて図12(b)の状態に遷移する。
When the display screen of the
その後、入力補助部20Aの動作モードがバッチ入力モードに切り替わると、バッチ入力部22Aは、選択位置記憶部26に記憶させた選択位置情報に基づいて、図12(c)に示すように、表示部25による表示画面を前回バッチ入力モードからリアルタイム入力モードに切り替わる直前の状態となるため、先頭の行が選択された状態ではなく、「あっという間にすぎましたね」という行が選択された状態として表示される。
Thereafter, when the operation mode of the input auxiliary unit 20A is switched to the batch input mode, the batch input unit 22A displays the display based on the selected position information stored in the selected
(B−3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be achieved.
音声合成部30Aでは、選択位置情報を記憶する選択位置記憶部26を備え、バッチ入力部22Aが記憶された選択位置情報に基づいて、表示部25に表示される内容を制御することにより、一旦リアルタイム入力モードに切り替わってバッチ入力モードに戻った場合に、テキストファイルのサイズが大きい場合でも、切り替わり前に指定していた行を探す手間を省略することができ、ユーザの操作を容易にすることができる。
The speech synthesis unit 30A includes a selection
(C)第3の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第3の実施形態を、図面を参照しながら詳述する。なお、第3の実施形態の入力補助装置は、入力補助部である。
(C) Third Embodiment Hereinafter, a third embodiment of the input assistance device, the input assistance program, the speech synthesis device, and the speech synthesis program according to the present invention will be described in detail with reference to the drawings. In addition, the input assistance apparatus of 3rd Embodiment is an input assistance part.
第3の実施形態の音声合成装置10Bの全体構成も図1を用いて示すことができる。なお、図1において括弧内の符号は、第3の実施形態においてのみ用いられる符号である。 The overall configuration of the speech synthesizer 10B of the third embodiment can also be shown using FIG. In FIG. 1, the reference numerals in parentheses are used only in the third embodiment.
以下、第3の実施形態の音声合成装置10Bについて、第1の実施形態との差異について説明する。 Hereinafter, the difference between the speech synthesizer 10B of the third embodiment and the first embodiment will be described.
音声合成装置10Bは、入力補助部20及び音声合成部30Bを有しているが、入力補助部20については、第1の実施形態と同様のものであるので詳しい説明を省略する。
The speech synthesizer 10B includes the
音声合成部30Bは、第1の実施形態の音声合成部30の、音声結合部33が音声結合部33Bに置き換わっただけであるので、その他の構成については説明を省略する。
The speech synthesizer 30B is the same as the
音声合成部30Bでは、入力補助部20から音声合成部30Bに与えられるテキストデータを読み上げる際の、「間」等を定義する制御文字(以下、「読上げ制御文字」という)が適用され、音声結合部33Bでは、その読上げ制御文字に応じた処理を行う。
In the speech synthesizer 30B, control characters (hereinafter referred to as “speech control characters”) that define “between” and the like when the text data given from the
例えば、音声合成装置10Bでは、テキストデータにおいて、通常の読点「、」と、間の長さを変えた新たな読点「、、」「、、、」を適用するものとし、間の長さは、「、」が0.5秒、「、、」が1.0秒、「、、、」が3.0秒と、音声結合部33Bに設定しておくものとする。ただし、読上げ制御文字は、上述のものに限るものではない。さらに、各々の読上げ制御文字に対応する間の長さは、ユーザによって調整できるものとする。 For example, in the speech synthesizer 10B, in text data, a normal reading point “,” and a new reading point “,,” “,,” with different lengths are applied. , "," Is set to 0.5 seconds, ",," is set to 1.0 seconds, and ",," is set to 3.0 seconds in the voice coupling unit 33B. However, the reading control characters are not limited to those described above. Furthermore, it is assumed that the length between corresponding to each reading control character can be adjusted by the user.
図13では、入力補助部20から音声結合部33Bに与えられたテキストデータが、「合格#、、おめでとう#だね。#おおさか#、#xyz株式会社#、、、に来る?」という内容であった場合の音声合成部30Bの処理について説明している。
In FIG. 13, the text data given from the input
図13では、テキスト分割部31、音声合成処理部32の処理については、第1の実施形態と同様であるため説明を省略する。
In FIG. 13, the processes of the
そして、音声結合部33Bは、音声合成処理部32で合成された音声データや実音声データを結合する際に、テキストデータに挿入された読上げ制御文字の場所に、その読上げ制御文字の内容に応じた「間」(無音区間)を挿入する。
Then, when combining the speech data synthesized by the speech
ここでは、図13に示すように、音声結合部33Bは、音声を結合する際に、「合格」と「おめでとう」の間に、読上げ制御文字「、、」に対応する1.0秒の無音を挿入する。また、音声結合部33Bは、「おおさか」と、「xyz株式会社」との間に、0.5秒の無音を挿入する。さらに、音声結合部33Bは、「xyz株式会社」と「に来る?」との間に3.0秒の無音を挿入する。ただし、音声結合部33Bは、句点「。」もあらかじめ設定された長さの無音が挿入されるようにしても良い。
Here, as shown in FIG. 13, when combining voices, the
音声の出力において、間の長さは重要であるため、上述のように、音声合成部30Bにおいて読上げ制御文字を適用ことにより、この「間」をユーザによって自由に設定することができ、かつ、合成音声と、実音声との組合せによって、発話の意図を効果的に伝達することができる。 Since the length of the gap is important in the output of the voice, as described above, the “between” can be freely set by the user by applying the reading control character in the voice synthesizer 30B, and The intention of the utterance can be effectively transmitted by the combination of the synthesized speech and the actual speech.
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(D) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.
(D−1)上記の各実施形態で、音声合成装置において、テキストデータ(又は、テキストファイル)で重要語を区別する方法として、制御文字#を用いたが、逆に重要語ではない範囲を明示的に区別する制御文字(以下、「非重要語制御文字」という)を適用するようにしても良い。 (D-1) In each of the embodiments described above, the control character # is used as a method for distinguishing important words from text data (or text file) in the speech synthesizer. Control characters that are explicitly distinguished (hereinafter referred to as “non-important word control characters”) may be applied.
例えば、非重要語制御文字として%を用いるものとすると、音声合成処理部32では、%で囲まれた範囲については、重要語としては取り扱わず、合成音声用DB34のデータを用いて合成音声を生成する。
For example, assuming that% is used as the non-important word control character, the speech
これは、例えば、音声合成処理部32が、制御文字#で囲われていない範囲についても、ユーザデータベース35の内容を参照して、重要語を抽出し、実音声データを適用する処理を行う場合には、明示的に非重要語制御文字%で囲うことにより、実音声データの適用を避けることができる。例えば、ユーザデータベース35に方言で発音した実音声データが入っていた場合に、方言を用いた音声を出力したくない場合に、非重要語制御文字を用いるようにしても良い。
For example, when the speech
また例えば、一旦重要語として入力された部分について、ユーザが重要語としての取り扱いを解除する操作を行った場合に、制御文字#を非重要制御文字%に置き換えるようにしても良い。例えば、ユーザが、一旦重要語を選択して「#おおさか#」と入力したものについて、重要語としての取り扱いを解除する操作を行った場合(例えば、所定のキー操作等を行った場合)に、入力フィールドFIの表示を、「#おおさか#」から「%おおさか%」に置き換えるようにしても良い。このように、ユーザにより、非重要語制御文字を用いた入力を行わせるようにしても良い。 In addition, for example, when the user performs an operation for canceling handling as an important word for a part once input as an important word, the control character # may be replaced with a non-important control character%. For example, when the user selects an important word and inputs “#Osaka #”, the user performs an operation to cancel the handling as the important word (for example, when a predetermined key operation or the like is performed). The display of the input field FI may be replaced from “# Osaka #” to “% Osaka%”. In this way, the user may be allowed to input using non-important word control characters.
また、表示切替部24において、非重要語制御文字%を表示するか否かを切り替える動作モードを備え、ユーザの操作に応じて、その動作モードを切り替えるようにしても良い。
The
これにより、合成音声と実音声データとの組合せをユーザ自身で自由にカスタマイズすることができたり、ユーザが操作の履歴を把握すること等が可能になる。 As a result, the combination of the synthesized speech and the actual speech data can be freely customized by the user, or the user can grasp the history of operation.
(D−2)上記の各実施形態において、入力補助部のリアルタイム入力部は、音声合成部に与えるテキストデータを生成するものとして説明したが、バッチ入力部に入力するテキストデータを行ごとに生成する編集ツールとして用いるようにしても良い。 (D-2) In each of the above embodiments, the real-time input unit of the input auxiliary unit has been described as generating text data to be given to the speech synthesizer. However, the text data to be input to the batch input unit is generated for each line. It may be used as an editing tool.
(D−3)上記の各実施形態では、表示部において、ユーザに情報を出力するフィールドとして表示フィールドF0を設けて、リアルタイム入力モード時とバッチ入力モード時で共用しているが、動作モードごとにそれぞれ表示フィールドを設けるようにしても良い。 (D-3) In each of the above embodiments, the display unit provides the display field F0 as a field for outputting information to the user in the display unit, and is shared between the real-time input mode and the batch input mode. Each may be provided with a display field.
ただし、それぞれに表示フィールドを設けると、音声合成装置が備えるディスプレイにおいて、表示部が占有する領域が大きくなってしまうため、上記の各実施形態のように、動作モード間で、表示フィールドを共用することによりその占有領域を低減することができる。また、上記の各実施形態のように、動作モード間で、表示フィールドを共用することにより、ユーザは、動作モードが切り替わる度に、操作及び確認するフィールドの切替を行う必要が無く、ユーザの操作を容易にすることができる。 However, if each display field is provided, the area occupied by the display unit increases in the display provided in the speech synthesizer. Therefore, the display field is shared between the operation modes as in the above embodiments. Thus, the occupied area can be reduced. Further, by sharing the display field between the operation modes as in the above embodiments, the user does not need to switch the field to be operated and checked every time the operation mode is switched, and the user operation Can be made easier.
(D−4)上記の各実施形態において、入力補助部は、リアルタイム入力部(補完部を含む)とバッチ入力部の両方を備える構成について示したが、いずれか一方を備える構成としても良い。また、その場合、動作モードの切替は必要なくなるので、表示切替部を省略するようにしても良い。 (D-4) In each of the above embodiments, the input auxiliary unit has been described with respect to the configuration including both the real-time input unit (including the complement unit) and the batch input unit, but may be configured to include either one. In this case, since the operation mode does not need to be switched, the display switching unit may be omitted.
(D−5)上記の各実施形態において、本発明の音声合成装置で取り扱うテキストデータは、日本語であるものとして説明したが、言語は限定されず、英語、中国語、フランス語、ドイツ語等他の言語にも適用することができるのは当然である。 (D-5) In each of the above embodiments, the text data handled by the speech synthesizer of the present invention has been described as being in Japanese, but the language is not limited, and English, Chinese, French, German, etc. Of course, it can be applied to other languages.
10…音声合成装置、20…入力補助部、21…リアルタイム入力部、22…バッチ入力部、23…補完部、24…表示切替部、25…表示部、30…音声合成部、31…テキスト分割部、32…音声合成処理部、33…音声結合部、34…合成音声用DB、35…ユーザデータベース。 DESCRIPTION OF SYMBOLS 10 ... Speech synthesizer, 20 ... Input auxiliary part, 21 ... Real time input part, 22 ... Batch input part, 23 ... Complement part, 24 ... Display switching part, 25 ... Display part, 30 ... Speech synthesizer, 31 ... Text division 32: Speech synthesis processing unit, 33 ... Speech combining unit, 34 ... DB for synthesized speech, 35 ... User database.
Claims (7)
上記音声合成装置が有する、音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部を有し、
上記入力補助部は、
上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、
上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
ことを特徴とする入力補助装置。 In an input auxiliary device that generates text data to be supplied to a speech synthesizer that generates speech that reads out the content of text data in response to a user operation,
Of the first database used for speech synthesis and the second database in which the speech data of a predetermined target word is registered, the target word registered in the second database, and the target word the text data is distinguished to shower the range other than have a input assistant unit for generating in response to the operation of the user,
The input auxiliary part is
Target word holding means for holding information on the target words registered in the second database;
Real-time input means for sequentially receiving character input from the user;
A display unit for displaying information provided from the input auxiliary unit to the user;
An extraction display means for extracting the target word related to the character being input to the real-time input means by the user from the information held by the target word holding means, and displaying it on the display unit;
Selection accepting means for causing the user to select one of the target words displayed by the extraction display means, and notifying the real-time input means that the selected target word is input from the user;
Text data generating means for generating text data having a content that distinguishes the target word selected by the user by the selection accepting means from the other range for the character string input to the real-time input means; An input auxiliary device characterized by.
上記入力補助部は、上記リアルタイム入力手段により上記ユーザからの文字入力を受付けるリアルタイム入力モードと、上記テキストファイル入力手段が受付けたテキストファイルに係る操作を上記ユーザから受付けるバッチ入力モードのうちいずれかの動作モードで動作し、
上記入力補助部は、
上記ユーザの操作に応じて、当該入力補助部に、いずれかの動作モードを切り替えて適用する動作モード切替手段と、
当該入力補助部が、バッチ入力モードで動作時に、上記テキストファイル入力手段に入力されたテキストファイルの内容を行ごとに上記表示部に表示させるテキストファイル表示手段と、
当該入力補助部が、バッチ入力モードで動作時に、上記テキストファイル表示手段により表示されたテキストファイルの内容のうち、いずれかの行のテキストデータを上記ユーザに選択させるテキストデータ選択手段と、
当該入力補助部が、バッチ入力モードで動作時に、上記テキストデータ選択手段により選択された行のテキストデータを、上記音声合成装置に供給するテキストデータ供給手段とをさらに有し、
上記抽出表示手段、上記選択受付手段、及び上記テキストデータ生成手段は、当該入力補助部が、リアルタイム入力モードで動作時に機能し、
上記テキストデータ生成手段は、生成したテキストデータを、上記音声合成装置に供給する
ことを特徴とする請求項1に記載の入力補助装置。 The input auxiliary unit further includes text file input means for receiving input of a text file in which a plurality of lines of text data is stored,
The input auxiliary unit is one of a real-time input mode in which character input from the user is received by the real-time input unit and a batch input mode in which an operation relating to a text file received by the text file input unit is received from the user. Operate in operating mode,
The input auxiliary part is
An operation mode switching means for switching and applying one of the operation modes to the input auxiliary unit in accordance with the user's operation;
A text file display means for displaying the contents of the text file input to the text file input means on the display section line by line when the input auxiliary section operates in the batch input mode;
Text data selection means for allowing the user to select text data of any line of the contents of the text file displayed by the text file display means when the input auxiliary unit operates in the batch input mode;
The input auxiliary unit further includes text data supply means for supplying the text data of the line selected by the text data selection means to the speech synthesizer when operating in the batch input mode,
The extraction display unit, the selection receiving unit, and the text data generation unit are configured such that the input auxiliary unit functions when operating in a real-time input mode,
The input assisting device according to claim 1 , wherein the text data generating means supplies the generated text data to the speech synthesizer.
上記テキストファイル表示手段は、当該入力補助部が、リアルタイム入力モードからバッチ入力モードに切り替わった場合に、上記位置情報記憶手段が記憶している位置情報が示すテキストデータが選択された状態の内容を、上記表示部に表示させるように制御する
ことを特徴とする請求項2に記載の入力補助装置。 The text data selection means further comprises position information storage means for storing position information of the position of the text data last selected by the user's operation,
The text file display means displays the content of the state in which the text data indicated by the position information stored in the position information storage means is selected when the input auxiliary unit is switched from the real-time input mode to the batch input mode. The input assisting device according to claim 2 , wherein the display is controlled to be displayed on the display unit.
上記音声合成装置が有する、音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部として機能させ、
上記入力補助部は、
上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、
上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
ことを特徴とする入力補助プログラム。 A computer mounted on an input auxiliary device that generates text data to be supplied to a speech synthesizer that generates speech that reads out the content of text data in response to a user operation,
Of the first database used for speech synthesis and the second database in which the speech data of a predetermined target word is registered, the target word registered in the second database, and the target word Function as an input auxiliary unit that generates text data that is written in distinction from a range other than
The input auxiliary part is
Target word holding means for holding information on the target words registered in the second database;
Real-time input means for sequentially receiving character input from the user;
A display unit for displaying information provided from the input auxiliary unit to the user;
An extraction display means for extracting the target word related to the character being input to the real-time input means by the user from the information held by the target word holding means, and displaying it on the display unit;
Selection accepting means for causing the user to select one of the target words displayed by the extraction display means, and notifying the real-time input means that the selected target word is input from the user;
Text data generating means for generating text data having a content that distinguishes the target word selected by the user by the selection accepting means from the other range for the character string input to the real-time input means; An input assistance program characterized by
所定の対象語の音声データが登録された第2のデータベースと、
上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第2のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、上記第1のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、
上記第1のデータベースと、上記第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部を有し、
上記入力補助部は、
上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、
上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
ことを特徴とする音声合成装置。 A first database used for speech synthesis processing;
A second database in which audio data of a predetermined target word is registered;
Regarding the text data that is described by distinguishing the target word registered in the second database and the range other than the target word, the speech data registered in the second database for the range distinguished as the target word For a range that is not distinguished as a target word, using the data of the first database, a voice generation unit that generates a voice to read the text data ;
Generate text data in which the target word registered in the second database and the range other than the target word are distinguished from the first database and the second database in accordance with a user operation An input auxiliary unit to
The input auxiliary part is
Target word holding means for holding information on the target words registered in the second database;
Real-time input means for sequentially receiving character input from the user;
A display unit for displaying information provided from the input auxiliary unit to the user;
An extraction display means for extracting the target word related to the character being input to the real-time input means by the user from the information held by the target word holding means, and displaying it on the display unit;
Selection accepting means for causing the user to select one of the target words displayed by the extraction display means, and notifying the real-time input means that the selected target word is input from the user;
Text data generating means for generating text data having a content that distinguishes the target word selected by the user by the selection accepting means from the other range for the character string input to the real-time input means; A speech synthesizer characterized by the above.
音声合成処理に用いる第1のデータベースと、
所定の対象語の音声データが登録された第2のデータベースと、
上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第2のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、第1のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、
上記第1のデータベースと、上記第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部として機能させ、
上記入力補助部は、
上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、
上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
ことを特徴とする音声合成プログラム。 A computer installed in a speech synthesizer that generates speech that reads out the contents of text data.
A first database used for speech synthesis processing;
A second database in which audio data of a predetermined target word is registered;
Regarding the text data that is described by distinguishing the target word registered in the second database and the range other than the target word, the speech data registered in the second database for the range distinguished as the target word For a range that is not distinguished as a target word, using the data of the first database, speech generation means for generating speech that reads out the text data ,
Generate text data in which the target word registered in the second database and the range other than the target word are distinguished from the first database and the second database in accordance with a user operation Function as an auxiliary input
The input auxiliary part is
Target word holding means for holding information on the target words registered in the second database;
Real-time input means for sequentially receiving character input from the user;
A display unit for displaying information provided from the input auxiliary unit to the user;
An extraction display means for extracting the target word related to the character being input to the real-time input means by the user from the information held by the target word holding means, and displaying it on the display unit;
Selection accepting means for causing the user to select one of the target words displayed by the extraction display means, and notifying the real-time input means that the selected target word is input from the user;
Text data generating means for generating text data having a content that distinguishes the target word selected by the user by the selection accepting means from the other range for the character string input to the real-time input means; A speech synthesis program characterized by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009295267A JP5370138B2 (en) | 2009-12-25 | 2009-12-25 | Input auxiliary device, input auxiliary program, speech synthesizer, and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009295267A JP5370138B2 (en) | 2009-12-25 | 2009-12-25 | Input auxiliary device, input auxiliary program, speech synthesizer, and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011133803A JP2011133803A (en) | 2011-07-07 |
JP5370138B2 true JP5370138B2 (en) | 2013-12-18 |
Family
ID=44346576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009295267A Expired - Fee Related JP5370138B2 (en) | 2009-12-25 | 2009-12-25 | Input auxiliary device, input auxiliary program, speech synthesizer, and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5370138B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335216A (en) * | 1995-06-07 | 1996-12-17 | Toshiba Corp | Reading information addition supporting method and document preparation supporting device |
JPH11203280A (en) * | 1998-01-09 | 1999-07-30 | Sharp Corp | Sentence creation support method and apparatus therefor, and computer-readable recording medium recording sentence creation support program |
JP2001142893A (en) * | 1999-11-12 | 2001-05-25 | Hitachi Ltd | Information disclosure device and text disclosure method |
JP2002169581A (en) * | 2000-11-29 | 2002-06-14 | Matsushita Electric Ind Co Ltd | Speech synthesis method and apparatus |
JP2002221980A (en) * | 2001-01-25 | 2002-08-09 | Oki Electric Ind Co Ltd | Text voice converter |
-
2009
- 2009-12-25 JP JP2009295267A patent/JP5370138B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011133803A (en) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100378898B1 (en) | A pronunciation setting method, an articles of manufacture comprising a computer readable medium and, a graphical user interface system | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
JP5257330B2 (en) | Statement recording device, statement recording method, program, and recording medium | |
JP3250559B2 (en) | Lyric creating apparatus, lyrics creating method, and recording medium storing lyrics creating program | |
US20090204401A1 (en) | Speech processing system, speech processing method, and speech processing program | |
Davel et al. | Pronunciation dictionary development in resource-scarce environments | |
JP2008268477A (en) | Rhythm adjustable speech synthesizer | |
JP2008268478A (en) | Accent adjustable speech synthesizer | |
JP2006030326A (en) | Speech synthesizer | |
JP4811557B2 (en) | Voice reproduction device and speech support device | |
JP5079718B2 (en) | Foreign language learning support system and program | |
JP5370138B2 (en) | Input auxiliary device, input auxiliary program, speech synthesizer, and speech synthesis program | |
JP2008146019A (en) | Dictionary generating system for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device | |
JP3589972B2 (en) | Speech synthesizer | |
JP3762300B2 (en) | Text input processing apparatus and method, and program | |
JP6197523B2 (en) | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program | |
JP4173404B2 (en) | Statement set automatic generation device, statement set automatic generation program, storage medium | |
JP2006236037A (en) | Spoken dialogue content creation method, apparatus, program, and recording medium | |
JP2004206153A (en) | Device and method for lyrics generation, and computer-readable recording medium where lyrics generating program is recorded | |
JP2015172625A (en) | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program | |
JP3414326B2 (en) | Speech synthesis dictionary registration apparatus and method | |
WO2021205832A1 (en) | Information processing device, information processing system, and information processing method, and program | |
JP2006031725A (en) | Character processor | |
JP2006098552A (en) | Speech information generating device, speech information generating program and speech information generating method | |
Mahar et al. | WordNet based Sindhi text to speech synthesis system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5370138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |