JP2006030384A - Text-to-speech synthesizer and text-to-speech synthesis method - Google Patents
Text-to-speech synthesizer and text-to-speech synthesis method Download PDFInfo
- Publication number
- JP2006030384A JP2006030384A JP2004206080A JP2004206080A JP2006030384A JP 2006030384 A JP2006030384 A JP 2006030384A JP 2004206080 A JP2004206080 A JP 2004206080A JP 2004206080 A JP2004206080 A JP 2004206080A JP 2006030384 A JP2006030384 A JP 2006030384A
- Authority
- JP
- Japan
- Prior art keywords
- language
- text
- speech
- phonetic symbol
- symbol string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】複数の言語が混在した入力テキストが入力された場合であっても、言語の特徴を十分に表現して音声合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供するを提供する。
【解決手段】複数の言語が混合した入力テキストに含まれる言語を判定し、判定された言語毎に入力テキストを分割する。テキスト分割部2は、分割されたテキスト部分を言語毎に設けられた音声合成部31〜3nへ出力する。各テキスト音声合成部31〜3nにて合成された音声波形は、音声波形統合部4にて統合される。
【選択図】図1
Provided is a text-to-speech synthesizer and a text-to-speech synthesis method capable of synthesizing speech by sufficiently expressing the characteristics of the language even when input text in which a plurality of languages are mixed is input. To do.
A language included in an input text in which a plurality of languages are mixed is determined, and the input text is divided for each determined language. The text dividing unit 2 outputs the divided text parts to the speech synthesis units 3 1 to 3 n provided for each language. The speech waveforms synthesized by the text speech synthesis units 31 to 3n are integrated by the speech waveform integration unit 4.
[Selection] Figure 1
Description
本発明は、複数の言語を処理することができるテキスト音声合成装置及びテキスト音声合成方法に関する。 The present invention relates to a text-to-speech synthesizer and a text-to-speech synthesis method that can process a plurality of languages.
テキスト音声合成は、タイプ入力などにより得られた入力テキストを人間の音声の生成機構に基づいて機械的に音声を合成するものである。図9に、従来のテキスト音声合成装置100の構成を示す。テキスト音声合成装置100は、入力テキストを音声記号列に変換する音声記号列生成部101と、音声記号列を韻律データに変換する韻律生成部102と、韻律データから音声波形を生成する波形生成部103とを有して構成されている。
Text-to-speech synthesis is to mechanically synthesize speech based on a human speech generation mechanism based on input text obtained by typing. FIG. 9 shows a configuration of a conventional text-to-
音声記号列生成部101は、入力テキストを意味をもつ最小の言語単位である形態素に分割し、形態素に関する表記、品詞、読みなどの情報が格納された辞書を参照して音声記号列を生成する。この音声記号列は、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。
The phonetic symbol
そして、韻律生成部102は、入力された音声記号列を解析し、音素毎に継続時間長、基本周波数及びパワーを決定する。決定された各音素の情報は、韻律データとして波形生成部103に出力する。ここで、音素とは、ある1つの言語で用いられる音の単位で、意味の相違をもたらす最小の単位である。
Then, the
韻律生成部102から出力された韻律データは、波形生成部103で音素列情報、音素時間情報、ピッチパタン情報に分けられる。音素列情報には音素列が含まれており、選択された音素列に対応する音響特長パラメータは、音素時間情報に基づいて時間軸上で伸縮され、ピッチパタン情報に基づいてピッチが変更されて音声波形に変換される。
The prosody data output from the
以上のような処理により、音声合成装置100は、タイプ入力などにより得られた入力テキストを音声波形に変換する。
Through the processing as described above, the
ところで、テキスト音声合成装置において、日本語、英語などの複数の言語を処理できるものが知られている(例えば、特許文献1参照。)。例えば、特許文献1に記載の電子文書処理装置は、電子文書を記述する言語を示す属性情報に基づいて音声合成エンジンを選択することにより複数の言語を処理している。
By the way, a text-to-speech synthesizer is known that can process a plurality of languages such as Japanese and English (see, for example, Patent Document 1). For example, the electronic document processing apparatus described in
しかしながら、特許文献1には、例えば1つの入力テキストに複数の言語が混在する場合の音声合成エンジンの選択方法について記載されておらず、特許文献1に記載の技術では、1つの入力テキストに複数の言語が混在する場合、各言語の韻律で音声合成することができなかった。
However,
本発明は、このような問題に鑑みてなされたものであり、複数の言語が混在した入力テキストが入力された場合であっても、言語の特徴を十分に表現して音声合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供することを目的とする。 The present invention has been made in view of such problems, and even when an input text in which a plurality of languages are mixed is input, it is possible to synthesize speech by sufficiently expressing the characteristics of the language. An object is to provide a text-to-speech synthesizer and a text-to-speech synthesis method.
上述した目的を達成するために、本発明に係るテキスト音声合成装置は、2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別手段と、上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成手段と、上記言語毎に変換された音声波形を統合する音声波形統合手段とを有し、上記言語判別手段は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成手段に出力することを特徴としている。 In order to achieve the above-described object, a text-to-speech synthesizer according to the present invention is a text-to-speech synthesizer that processes input text having a text portion of two or more languages, and includes a language included in the input text. Integrating the language discriminating means for determining and dividing into text parts for each language, a plurality of speech synthesizing means provided for each language for converting the text parts into speech waveforms, and the speech waveforms converted for each language Voice language integration means, and the language discrimination means outputs the text portion to the plurality of voice synthesis means according to the language of the text portion.
また、本発明に係るテキスト音声合成装置は、2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、上記入力テキストに含まれる言語を判定する判定手段と、上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理手段と、上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成手段と、上記韻律データを音声波形に変換する音声波形生成手段とを有し、上記言語処理手段は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成手段に出力することを特徴としている。 The text-to-speech synthesizer according to the present invention is a text-to-speech synthesizer that processes input text having a text portion of two or more languages, the determination means for determining the language included in the input text, A language processing means for converting the determined text portion of each language into a phonetic symbol string; a plurality of prosody generating means provided for each language for converting the phonetic symbol string into prosodic data; and A speech waveform generation means for converting the speech symbol string to the plurality of prosody generation means according to the phonetic symbol string.
また、本発明に係るテキスト音声合成方法は、2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別工程と、上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成工程と、上記言語毎に変換された音声波形を統合する音声波形統合工程とを有し、上記言語判別工程は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成工程に出力することを特徴としている。 The text-to-speech synthesis method according to the present invention is a text-to-speech synthesis method for processing input text having a text portion of two or more languages, determining a language included in the input text, and determining the text for each language. A language discriminating step for dividing the text into a portion, a plurality of speech synthesizing steps provided for each language for converting the text portion into a speech waveform, and a speech waveform integrating step for integrating the speech waveforms converted for each language. And the language discrimination step outputs the text portion to the plurality of speech synthesis steps according to the language of the text portion.
また、本発明に係るテキスト音声合成方法は、2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、上記入力テキストに含まれる言語を判定する判定工程と、上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理工程と、上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成工程と、上記韻律データを音声波形に変換する音声波形生成工程とを有し、上記言語処理工程は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成工程に出力することを特徴としている。 The text-to-speech synthesis method according to the present invention is a text-to-speech synthesis method for processing input text having a text portion of two or more languages, the determination step for determining a language included in the input text, A language processing step for converting the determined text portion for each language into a phonetic symbol string, a plurality of prosody generation steps for each language for converting the phonetic symbol sequence into prosodic data, and the prosody data as a voice waveform A speech waveform generation step of converting the speech symbol sequence to the plurality of prosody generation steps according to the phonetic symbol sequence.
本発明は、2つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定し、テキスト部分の言語に応じて当該テキスト部分を各言語の音声合成手段に出力することにより、各言語の韻律で音声合成することができる。 The present invention determines a language included in an input text having a text portion of two or more languages, and outputs the text portion to the speech synthesizer of each language according to the language of the text portion. It can synthesize speech with prosody.
また、2つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定し、言語毎のテキスト部分を音声記号列に変換し、音声記号列に応じて当該音声記号列を各言語の韻律生成手段に出力することにより、各言語の韻律で音声合成することができる。 Further, the language included in the input text having the text portions of two or more languages is determined, the text portion for each language is converted into a phonetic symbol sequence, and the phonetic symbol sequence is converted into a prosody of each language according to the phonetic symbol sequence. By outputting to the generating means, it is possible to synthesize speech with prosody of each language.
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の具体例として示すテキスト音声合成装置は、複数の言語が混合した入力テキストに含まれる言語を判定し、その言語の特徴を十分に表現して音声合成するようにしたものである。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. A text-to-speech synthesizer shown as a specific example of the present invention determines a language included in an input text in which a plurality of languages are mixed, and synthesizes speech by sufficiently expressing the characteristics of the language.
(第1の実施の形態)
図1は、第1の実施の形態におけるテキスト音声合成装置10の全体構成を示すものである。テキスト音声合成装置10は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部1と、判定された言語毎に入力テキストを分割するテキスト分割部2と、分割されたテキスト部分の音声波形を合成する言語毎に設けられたテキスト音声合成部31〜3nと、各テキスト音声合成部31〜3nで合成された音声波形を統合する音声波形統合部4とを有して構成されている。
(First embodiment)
FIG. 1 shows the overall configuration of a text-to-
言語判定部1は、2つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定する。また、言語判定部1は、判定された言語毎に言語情報を示すタグを付与する。例えば、「これはdictionaryです。」という日本語と英語の言語混合文に対するタグ付きテキストは、以下のように記述される。
<lang=japanese>これは</lang> <lang=english>dictionary</lang> <lang=japanense>です</lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。
The
<lang = japanese> This is </ lang><lang = english> dictionary </ lang><lang = japanense></lang>
The character string enclosed in <> is a tag, and the rest are text parts. <Lang = japanese> indicates that Japanese (Japanese) starts within the sentence, and </ lang> indicates that the language ends.
また、言語の判定は、例えば次のような方法により行われる。
1.外部から与えられた情報により言語を判定する
例えば単語毎にタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を判定する。
2.文字の種類により言語を判定する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と判定する。
3.辞書を参照することにより言語を判定する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を判定する。
4.文字コードにより言語を判定する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を判定する。
The language is determined by the following method, for example.
1. Judgment of language by information given from outside
For example, when attribute information such as a tag is assigned to each word, the language is determined based on the language information included in the attribute information.
2. Determine language by character type
For example, hiragana, katakana and kanji are judged as Japanese, and alphabets are judged as English.
3. Determine language by referring to a dictionary
For example, the language is determined by collating the input text with a word stored in the dictionary.
4). Determine language by character code
The language is determined by analyzing a character code that is a list of numerical values determined by the type of language.
テキスト分割部2は、入力テキストを言語毎にタグが付与されたテキスト部分に切り分け、タグの言語情報に基づいてテキスト部分を各言語のテキスト音声合成部31〜3nへ出力する。
The
音声波形統合部4は、各言語のテキスト音声合成部31〜3nで合成された音声波形を統合する。また、音声波形統合部4は、音声波形が入力される度にテキスト分割部2へ波形到着通知を送信し、テキスト分割部2から終了指令を受信することにより、それまでに統合された音声波形を出力する。
The speech waveform integration unit 4 integrates the speech waveforms synthesized by the text
次に、音声合成装置10の動作を図2に示すフローチャートを参照して説明する。先ず、言語判定部1は、入力テキストに含まれる言語を判定し(ステップS1)、言語毎のテキスト部分に分割する判定された言語毎に言語情報を示すタグを付与する。
Next, the operation of the
タグ付きテキストは、テキスト分割部2で言語毎に切り分けられる(ステップS2)。そして、テキスト分割部2は、先ず、入力テキストのうち先頭のテキスト部分を、タグの言語情報に従って当該言語のテキスト音声合成部31〜3nへ出力する。テキスト音声合成部31〜3nは、入力されたテキスト部分を音声波形に変換し(ステップS3)、音声波形統合部4へ出力する。
The tagged text is cut for each language by the text dividing unit 2 (step S2). The
音声波形統合部4は、テキスト音声合成部で出力された音声波形を受け取ったら、音声波形が届いたという波形到着通知をテキスト分割部2へ送信する。テキスト分割部2は、波形到着通知を波形統合部4から受信すると、入力テキストのうち先頭から2番目のテキスト部分を言語情報に従って、当該言語のテキスト音声合成部nへ出力する。同様にして、2番目のテキストもテキスト音声合成部31〜3nにて音声波形に変換され、音声波形統合部4へと送られる。
When the speech waveform integration unit 4 receives the speech waveform output from the text speech synthesis unit, the speech waveform integration unit 4 transmits a waveform arrival notification that the speech waveform has arrived to the
音声波形統合部4は、テキスト音声合成部31〜3nから出力された音声波形を、音声波形統合部4へ入力された順番に統合し(ステップS4)、音声波形が届いたという信号をテキスト分割部2へ送る。そして、同様にして、入力テキストのテキスト部分が終了するまで、3番目以降のテキスト部分も処理される(ステップS5)。
The speech waveform integration unit 4 integrates the speech waveforms output from the text
最終のテキスト部分の波形到着通知を受信した場合、テキスト分割部2は、終了指令を音声波形統合部4へ送信する。終了指令を受けたら、音声波形統合部4は、それまでに結合した音声波形を出力する(ステップS6)。
When the waveform arrival notification of the final text portion is received, the
このように、第1の実施の形態におけるテキスト音声合成装置10は、テキスト部分の言語に応じて当該テキスト部分を各言語の音声合成手段31〜3nに出力することにより、2つ以上の言語のテキスト部分を有する入力テキストでも各言語の韻律で音声合成することができる。
As described above, the text-to-
(第2の実施の形態)
図3は、第2の実施の形態におけるテキスト音声合成装置20の構成を示すものである。このテキスト音声合成装置20は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部21と、単語毎のテキスト部分を音声記号列に変換する音声記号列生成部22と、音声記号列を言語毎に設けられた韻律生成部241〜24nに出力する切換処理部23と、音声記号列を韻律データに変換する言語毎の韻律生成部241〜24nと、各韻律生成部241〜24nからの韻律データを接続する韻律接続部25と、韻律データに基づいて音声波形を生成する波形生成部26とを有して構成されている。
(Second Embodiment)
FIG. 3 shows the configuration of the text-to-
言語判定部21は、上記第1の実施の形態における言語判定部1と同様で、2つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定する。また、言語判定部1は、判定された言語毎に言語情報を示すタグを付与する。例えば、「これはdictionaryです。」という日本語と英語の言語混合文に対するタグ付きテキストは、以下のように記述される。
<lang=japanese>これは</lang> <lang=english>dictionary</lang> <lang=japanense>です</lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
Similar to the
<lang = japanese> This is </ lang><lang = english> dictionary </ lang><lang = japanense></lang>
The character string enclosed in <> is a tag, and the rest are text parts. <Lang = japanese> indicates that Japanese (Japanese) starts within the sentence, and </ lang> indicates that the language ends. Moreover, although it demonstrates using the tag in which linguistic information was described, embodiment of this invention is not restricted to this.
言語の判定は、例えば次のような方法により行われる。
1.外部から与えられた情報により言語を判定する
例えば単語毎にタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を判定する。
2.文字の種類により言語を判定する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と判定する。
3.辞書を参照することにより言語を判定する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を判定する。
4.文字コードにより言語を判定する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を判定する。
The language is determined by the following method, for example.
1. Judgment of language by information given from outside
For example, when attribute information such as a tag is assigned to each word, the language is determined based on the language information included in the attribute information.
2. Determine the language by the type of characters
For example, hiragana, katakana and kanji are judged as Japanese, and alphabets are judged as English.
3. Determine language by referring to a dictionary
For example, the language is determined by collating the input text with a word stored in the dictionary.
4). Determine language by character code
The language is determined by analyzing a character code that is a list of numerical values determined by the type of language.
音声記号列生成部22は、図4に示すように入力されたテキスト文を解析し、形態素情報を生成するテキスト解析部221と、形態素情報を基に音声記号を生成する韻律情報生成部222とを有して構成されている。ここで、形態素とは、語幹、接頭辞、接尾辞など、意味をもつ文字列の最小単位で、単語よりやや小さいものである。また、音声記号列とは、発音記号やアクセント記号などで表現したものである。
The phonetic symbol
テキスト解析部221は、テキスト解析ルール223と辞書224とを有している。テキスト解析ルール223には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書224に登録されていない形態素に必要な情報を付与する規則とが格納されている。また、辞書224には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。
The
韻律情報生成部222は、形態素情報を解析し韻律情報を得るための韻律情報生成ルール225を有する。韻律情報生成ルール225には、形態素情報をもとにフレーズの区切り方を指すフレージングや読みの変更を行うための規則が納められている。また、入力された各形態素について、韻律生成のためのさらに詳しい情報を得るため、テキスト解析部221で用いた辞書224とも接続されている。韻律生成のための情報とは、例えば、複数の形態素が一緒になって複合語を形成する際に、読みがどのように変化するかの情報や、アクセント核位置の移動パタンの情報などである。
The prosodic
なお、図4に示す音声記号列生成部22の構成では、1つの辞書224に形態素に関する情報と韻律生成のための情報とを納める構成となっているが、それぞれ別の辞書を保持してもよい。すなわち、テキスト解析部221は、形態素に関する情報のみが納められた辞書と接続され、韻律情報生成部222は、韻律生成のための情報のみが納められた辞書と接続されるという構成でも同様の処理を行うことができる。また、テキスト解析ルール223、辞書224及び韻律情報生成ルール225は、各言語のルールを格納していることとしているが、言語毎にルールを独立して有する構成としてもよい。
Note that the configuration of the phonetic symbol
ここで、入力テキストの処理について説明する。なお、入力テキストは、1文の場合でも、複数文からなる場合でもよい。 Here, processing of input text will be described. The input text may be a single sentence or a plurality of sentences.
入力テキストは、言語判定部21にて言語毎のテキスト部分に区分される。区分されたテキスト部分は、テキスト解析部221において、テキスト解析ルール223と辞書24とを用いて形態素に分割され、辞書224からそれぞれの形態素に関する情報を得る。辞書224に登録されていない形態素については、テキスト解析ルール223を用いて、必要な形態素情報を生成する。このようにして得られた形態素情報は、韻律情報生成部222へと送られる。
The input text is divided into text portions for each language by the
韻律情報生成部222では、テキスト解析部221から受け取った形態素情報をもとに、入力文に対し、韻律情報生成ルール225を用いて韻律情報を付与するという処理を行う。韻律情報は、言語によって異なるが、日本語であれば、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などの情報である。なお、韻律情報は、装置の設計によって異なるので、上記情報を全て含む必要はなく、上記情報に限定されるものではない。
The prosodic
韻律情報生成部222での処理によって得られる韻律情報は、音声記号列で表現され、韻律生成部へと出力する。音声記号列とは、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。
The prosodic information obtained by the processing in the prosodic
これらの記号は、独自のものを定義してもよいし、既存の記号を採用してもよい。例えば、IPA(国際音声字母、International Phonetic Alphabet)、SAMPA(Speech Assessment Methods Phonetic Alphabet)などの発音記号、アクセント記号などを用いてもよい。又は、ToBI(Tone and Break Indices)などのポーズ記号、音調記号などを用いてもよい。本実施の形態では、便宜的に日本語部分にはローマ字を、英語部分にはSAMPAを参考にした独自記号を用いた。例えば、「これはdictionaryです。」という入力テキストに対し、音声記号列生成部22から出力される音声記号列は、例えば次のように記述される。
<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>
なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
These symbols may define their own symbols or adopt existing symbols. For example, pronunciation symbols such as IPA (International Phonetic Alphabet) and SAMPA (Speech Assessment Methods Phonetic Alphabet), accent symbols, and the like may be used. Alternatively, a pause symbol such as ToBI (Tone and Break Indices), a tone symbol, or the like may be used. In this embodiment, for the sake of convenience, a unique symbol referring to Roman characters for the Japanese portion and SAMPA for the English portion is used. For example, for the input text “This is dictionary”, the phonetic symbol string output from the phonetic
<lang = japanese> korewa </ lang><lang = english> dIkS @ neri: </ lang><lang = japanense> desu </ lang>
A character string enclosed in <> is a tag, and the other character strings are phonetic symbol strings. <Lang = japanese> indicates that Japanese (Japanese) starts within the sentence, and </ lang> indicates that the language ends. Moreover, although it demonstrates using the tag in which linguistic information was described, embodiment of this invention is not restricted to this.
切換処理部23は、音声記号列を出力する韻律生成部241〜24nを選択する。例えば、音声記号列に付与された言語情報に応じて、その音声記号列の出力を韻律生成部241〜24nに切り換える。例えば、入力された音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>に対し、切換処理部23は、「korewa」及び「desu」を日本語韻律生成部へ、「dIkS@neri:」を英語韻律生成部へ出力する。
The switching
図5は、韻律生成部241〜24nのうち、1つの韻律生成部24nの構成を示すものである。韻律生成部24nは、各音素の継続時間長を求めるための継続時間長決定部51と、各音素の基本周波数を求めるための基本周波数決定部52と、各音素の音量を求めるためのパワー決定部53とを有して構成されている。
FIG. 5 shows a configuration of one prosody generation unit 24 n among the prosody generation units 24 1 to 24 n . The prosody generation unit 24 n includes a
継続時間長決定部51は、音声記号列解析部54と、ルール適用部55とを有している。音声記号列解析部54は、音声記号列を解析するための解析ルール56を有している。解析ルール56は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。
The duration
ルール適用部55は、それぞれの音素の継続時間長を決めるための生成ルール57を有している。生成ルール57は、それぞれの音素の継続時間長を決定するためのルールであり、どのような音韻環境のときにデフォルト継続時間長を伸縮させるかを決めるための規則を格納している。また、音素のデフォルト継続時間長も格納されている。ここで、音韻環境とは、その音素が母音であるかどうか、前後の音素が何であるか、音節の何番目の音素であるか、アクセント核位置かどこかなどを示すものである。
The
継続時間長決定部51は、この生成ルール57を用いて、それぞれの音素の継続時間長を決定する。生成ルール57を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定された継続時間長の情報は、基本周波数決定部32へ送信される。
The duration
基本周波数決定部52は、音声記号列解析部58と生成ルール適用部59と時間伸縮部60とを有している。音声記号列解析部58は、音声記号列を解析するための解析ルール61を有している。解析ルール61は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。
The fundamental
ルール適用部59は、基本周波数パタンを生成するための生成ルール62を有している。生成ルール62は、アクセント型等の音調区分に対する基本周波数パタンの値及び、それらのパタンの選択、変形のためのルールが格納されている。
The
ここで、ルール選択方法は装置によって、様々な形態が考えられるが、本実施の形態では、その音素が属する単語のアクセント型や、アクセントの強さ、係り受けなどの文構造などを基準にルールの適用可能性の是非を判定する。 Here, various types of rule selection methods can be considered depending on the device. In this embodiment, the rule is based on the accent type of the word to which the phoneme belongs, the strength of the accent, the sentence structure such as dependency, etc. Determine the applicability of.
生成ルールに含まれる基本周波数パタンのデータは、複数の音素にまたがる基本周波数の値を保持しており、ルールにより選択できるように、アクセント型や音調など予測要因毎にパタンが分類してある。 The fundamental frequency pattern data included in the generation rule holds fundamental frequency values that span a plurality of phonemes, and the patterns are classified for each prediction factor such as accent type and tone so that they can be selected according to the rule.
音声記号列解析部58は、入力された音声記号列を解析ルール61により、生成ルール62の適用に必要な情報を得る。ルール適用部59は、得られた情報から生成ルール62を用いて、最適なパタンを選択、変形する。時間伸縮部60は、選択されたパタンを、継続時間長決定部51ですでに決定されたそれぞれの音素の継続時間長にあわせて、変形させ、音素毎の基本周波数を決定する。
The phonetic symbol
パワー決定部53は、音声記号列解析部63と、ルール適用部64とを有している。音声記号列解析部63は、音声記号列を解析するための解析ルール65を有している。解析ルール65は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。
The
ルール適用部64は、それぞれの音素のパワーを決めるための生成ルール64を有している。生成ルール66は、それぞれの音素のパワーを決定するためのルールである。
The
パワー決定部53は、この生成ルール66を用いて、それぞれの音素のパワーを決定する。生成ルール66を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定されたパワーの情報は、出力生成部67へ送信される。
The
継続時間長決定部51で決定された音素毎の継続時間長、基本周波数決定部52で決定された音素毎の基本周波数及びパワー決定部53で決定された音素毎のパワーの情報は、韻律データとして出力生成部62で生成され、韻律生成部24nから出力される。
The duration information for each phoneme determined by the
韻律接続部25は、韻律生成部241〜24nから出力された韻律データを、切換処理部23に入力された音声記号列の順番に会うように整列、接続する。この韻律接続部25は、韻律データが到達すると、切換処理部23に到達通知を送信する。切換処理部23は、到達通知を受信した後、次の順番の音声記号列を出力するので、入力テキストの順番に韻律データが統合される。また、切換処理部23は、最後の音声記号列の到達通知を受信すると、終了通知を韻律接続部25へ送信する。韻律接続部25は、終了通知を受信して韻律データを波形生成部26へ出力する。
The
図6は、波形生成部26の構成を示したものである。波形生成部26は、韻律生成部241〜24nから出力された韻律データから音声波形を生成する。波形生成部26は、入力された韻律データを情報毎に分配する韻律データ分配部261と、音素列の音響特長パラメータを生成する素片選択部262と、音響特長パラメータを補正するパラメータ補正部263と、ピッチを変更しながら音声信号波形を合成する波形組立部264とを有して構成されている。また、素片選択部262は、音響的な特長を示すパラメータを格納した音声データ265を有している。
FIG. 6 shows the configuration of the
韻律データ分配部261は、入力された韻律データを音素列情報、音素時間長情報及びピッチパタン情報に分け、それぞれ、素片選択部262、パラメータ補正部263及び波形組立部264に出力する。
The prosody
素片選択部262は、入力された音素列情報に基づいて音声データ265を参照して上記音素列情報に含まれる音素列を選択して、選択した音素列に対応する音響特長パラメータを音声データ265から順次読み出して出力する。
The
音声データ265は、既存の規則音声合成装置に使用されるものと同様のもので、例えばケプストラム係数などの音声の音響的な特長を示すパラメータなどである。また、素片のひとつひとつの長さは、CV、CVC(C:子音、V:母音)、その他の合成単位に応じた単位、あるいはコーパスベースの合成方式では特に合成単位に固定されない。
The
パラメータ補正部263は、音素列によって時間軸上に並べられた音響特長パラメータを、韻律データ分配部261から入力された音素時間情報によってそれぞれの音素の長さに等しくなるように時間軸上で伸縮する。また、素片の接続部での音響特長パラメータの不整合を避けるために音響特長パラメータを補正する。
The
波形組立部264は、パラメータ補正部263から出力される音響特長パラメータの系列に基づいて、また、韻律データ分配部261からのピッチパタン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する。
The
このような構成のテキスト音声合成装置20は、音声記号列の言語情報に応じて当該テキスト部分を各言語の韻律生成部241〜24nに出力することにより、2つ以上の言語のテキスト部分を有する入力テキストでも各言語の韻律で音声合成することができる。
The text-to-
また、テキスト音声合成装置20は、言語毎に韻律生成部241〜24nを有する構成としたが、1つの韻律生成部において各ルールが各言語のルールを有する構成としてもよい。この場合、切換処理部23及び韻律接続部25の構成がなくても、各言語の韻律で音声合成することができる。
In addition, the text-to-
(第3の実施の形態)
図7は、第3の実施の形態におけるテキスト音声合成装置30の構成を示すものである。このテキスト音声合成装置30は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部21と、単語毎のテキスト部分を音声記号列に変換する音声記号列生成部22と、言語決定部32で決定された言語に応じて言語毎に設けられた韻律生成部241〜24nへの音声記号列の出力を切り換える切換処理部31と、音声記号列を韻律データに変換する言語毎の韻律生成部241〜24nと、各韻律生成部241〜24nからの韻律データを接続する韻律接続部25と、韻律データに基づいて音声波形を生成する波形生成部26とを有して構成されている。
(Third embodiment)
FIG. 7 shows the configuration of the text-to-
すなわち、第3の実施の形態におけるテキスト音声合成装置30は、第2の実施の形態におけるテキスト音声合成装置20の構成に言語決定部32をさらに設け、切換処理部31では、言語決定部32にて決定された言語に応じて音声記号列の出力を各韻律生成部241〜24nへ切り換えるようにしたものである。なお、上述した図3に示す構成の各部と対応する部分には同じ指示符号を付している。
That is, the text-to-
言語決定部32は、切換処理部31に入力された音声記号列のベースとなる言語を決定する。ベース言語とは、あたかも一人の話者が発声しているかのように韻律を生成するために用いられる話者の母国語のようなものである。
The
次に、言語決定部32における言語の決定方法について説明する。ここでは、「これはdictionaryです。」という入力テキストの音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を用いて説明する。なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
Next, a language determination method in the
1.入力された音声記号列の中で最も長い区間に割り当てられた言語
上記例において、入力された音声記号列のうち、「dIkS@neri:」が最も音韻数が多いため、英語をベース言語と決定する。
2.入力された音声記号列の中で最も多数の区間に割り当てられた言語
上記例において、日本語が2区間、英語が1区間であるため、日本語をベース言語と決定する。
3.入力された音声記号列の中で最初に出現する区間に割り当てられた言語
上記例において、最初に出現する区間<lang=japanense>korewa</lang>が日本語であるため、日本語をベース言語と決定する。
4.入力された音声記号列の中で最後に出現する区間に割り当てられた言語
上記例において、最後に出現する区間<lang=japanense>desu</lang>が日本語であるため、日本語をベース言語と決定する。
5.入力された音声記号列の中で最初に出現する区間と最後に出現する区間に割り当てられた言語
上記例において、最初に出現する区間と最後に出現する区間が日本語であるため、日本語をベース言語と決定する。
1. The language assigned to the longest interval in the input phonetic symbol string
In the above example, since “dIkS @ neri:” has the largest number of phonemes in the input phonetic symbol string, English is determined as the base language.
2. Language assigned to the largest number of intervals in the input phonetic symbol string
In the above example, since Japanese has two sections and English has one section, Japanese is determined as the base language.
3. The language assigned to the first occurrence of the input phonetic symbol string
In the above example, since the section <lang = japanense> korewa </ lang> that appears first is Japanese, Japanese is determined as the base language.
4). The language assigned to the last occurrence in the input phonetic symbol string
In the above example, since the section <lang = japanense> desu </ lang> that appears last is Japanese, Japanese is determined as the base language.
5. The language assigned to the first and last appearing intervals in the input phonetic symbol string
In the above example, since the first appearing section and the last appearing section are in Japanese, Japanese is determined as the base language.
なお、入力された音声記号列に出現する言語を任意に選択し、ベース言語としてもよい。また、ベース言語一覧をもち、その中から任意に選択することでベース言語としてもよい。また、外部から指定された言語をベース言語としてもよい。 Note that a language that appears in the input phonetic symbol string may be arbitrarily selected and used as a base language. Moreover, it is good also as a base language by having a base language list and selecting arbitrarily from the list. Further, a language designated from the outside may be used as the base language.
上記方法のいずれか1つ以上でベース言語を決定することができないときには、前述した第2の実施の形態のように、タグの言語情報に応じた言語の韻律制御部を利用することができる。 When the base language cannot be determined by any one or more of the above methods, the prosodic control unit of the language corresponding to the language information of the tag can be used as in the second embodiment described above.
切換処理部31は、図8に示すように音声記号列を再変換する再変換部311と、言語情報を変換する言語変換部312とを有している。
As shown in FIG. 8, the switching
再変換部311は、言語決定部32にて決定された言語に応じて音声記号列を再変換する。その際、読みに関する情報が格納されている変換ルールを参照する。例えば、ベース言語として日本語が決定された場合、音声記号列を日本語の音声記号列に再変換する。この場合、例えば、音声記号列<lang=english>dIkS@neri:</lang>は、<lang=english>dikushonarii</lang>に再変換される。
The
言語変換部312は、言語決定部32にて決定された言語に応じて音声記号列の言語情報を変える。例えば、ベース言語として日本語が決定された場合、音声記号列に付与された言語情報を日本語とする。この場合、例えば、音声記号列<lang=english>dIkS@neri:</lang>は、<lang=japanense>dIkS@neri:</lang>と変換される。つまり、音声記号列に付与されている出力先の言語情報を言語決定部32で決定された言語に変換する。
The
このように、再変換部311と言語変換部312とを有することにより、ベース言語以外の言語の音声記号列をベース言語の音声記号列に変換し、韻律を生成することができる。また、入力された音声記号列にベース言語以外の音声記号列が含まれていても、そのまま韻律を生成することができる。
As described above, by including the
例えば、入力テキスト「これはdictionaryです。」の音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を<lang=english>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=english>desu</lang>に変換することにより、dictionaryの発音だけ流暢な英語で、他の部分は片言の日本語であるような発話を表現することができる。 For example, the phonetic string <lang = japanese> korewa </ lang> <lang = english> dIkS @ neri: </ lang> <lang = japanense> desu </ lang> for the input text "This is a dictionary." lang = english> korewa </ lang> <lang = english> dIkS @ neri: </ lang> By converting to <lang = english> desu </ lang>, only the pronunciation of the dictionary is fluent in English, and other parts Can express utterances that are in Japanese.
また、<lang=japanense>korewa</lang> <lang=japanense>dikushonarii</lang> <lang=japanense>desu</lang>に変換することにより、流暢な日本語の発話を表現することができる。 Also, by converting to <lang = japanense> korewa </ lang> <lang = japanense> dikushonarii </ lang> <lang = japanense> desu </ lang>, you can express fluent Japanese utterances. .
また、言語決定部32にて異なる言語決定方法で異なるベース言語を決定し、それぞれ異なるベース言語に基づいて、音声記号列及びその言語情報をそれぞれ変換してもよい。この場合、例えば、入力テキスト「これはdictionaryです。」の音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を<lang=english>korewa</lang> <lang=english> dikushonarii</lang> <lang=english>desu</lang>に変換することができるのため、片言の日本語の発話を表現することができる。
Alternatively, the
また、ベース言語に限らなくとも、様々な言語の韻律を指定できるので、ユニークな発話を表現することができる。 Further, not only the base language but also the prosody of various languages can be specified, so that a unique utterance can be expressed.
なお、上記第1〜第3の実施の形態では、判定された言語毎に言語情報を示すタグを付与することとしたが、これに限られるものではなく、例えば言語毎に異なる音声記号列を使用してもよい。 In the first to third embodiments, a tag indicating language information is assigned to each determined language. However, the present invention is not limited to this. For example, a different phonetic symbol string is used for each language. May be used.
1 言語判定部、 2 テキスト分割部、 31〜3n テキスト音声合成部、 4 音声波形統合部、 10 テキスト音声合成装置、 20 テキスト音声合成装置、 21 言語判定部、 22 音声記号列生成部、 23 切換処理部、 241〜24n 韻律生成部、 25 韻律接続部、 26 波形生成部、 30 テキスト音声合成装置、 31 切換処理部、 32 言語決定部、 100 テキスト音声合成装置、 101 音声記号列生成部、 102 韻律生成部、 103 波形生成部
DESCRIPTION OF
Claims (28)
上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別手段と、
上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成手段と、
上記言語毎に変換された音声波形を統合する音声波形統合手段とを有し、
上記言語判別手段は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成手段に出力することを特徴とするテキスト音声合成装置。 A text-to-speech synthesizer that processes input text having text portions in two or more languages,
Language determination means for determining a language included in the input text and dividing the language into text portions for each language;
A plurality of speech synthesis means provided for each of the languages for converting the text portion into a speech waveform;
Voice waveform integration means for integrating the voice waveforms converted for each language,
The text speech synthesizing apparatus, wherein the language discrimination means outputs the text part to the plurality of speech synthesis means according to the language of the text part.
上記入力テキストに含まれる言語を判定する判定手段と、
上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理手段と、
上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成手段と、
上記韻律データを音声波形に変換する音声波形生成手段とを有し、
上記言語処理手段は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成手段に出力することを特徴とするテキスト音声合成装置。 A text-to-speech synthesizer that processes input text having text portions in two or more languages,
Determining means for determining a language included in the input text;
Language processing means for converting the determined text portion of each language into a phonetic symbol string;
A plurality of prosodic generation means provided for each of the languages for converting the phonetic symbol string into prosodic data;
A speech waveform generating means for converting the prosodic data into a speech waveform;
The speech processing apparatus according to claim 1, wherein the language processing unit outputs the phonetic symbol string to the plurality of prosody generation units according to the phonetic symbol sequence.
上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別工程と、
上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成工程と、
上記言語毎に変換された音声波形を統合する音声波形統合工程とを有し、
上記言語判別工程は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成工程に出力することを特徴とするテキスト音声合成方法。 A text-to-speech synthesis method for processing input text having text parts in two or more languages,
A language determination step of determining a language included in the input text and dividing the language into text portions for each language;
A plurality of speech synthesis steps provided for each of the languages for converting the text portion into a speech waveform;
A speech waveform integration step of integrating the speech waveforms converted for each language,
The text speech synthesis method, wherein the language discrimination step outputs the text portion to the plurality of speech synthesis steps according to the language of the text portion.
上記入力テキストに含まれる言語を判定する判定工程と、
上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理工程と、
上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成工程と、
上記韻律データを音声波形に変換する音声波形生成工程とを有し、
上記言語処理工程は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成工程に出力することを特徴とするテキスト音声合成方法。 A text-to-speech synthesis method for processing input text having text parts in two or more languages,
A determination step of determining a language included in the input text;
A language processing step of converting the determined text portion of each language into a phonetic symbol string;
A plurality of prosodic generation steps provided for each language for converting the phonetic symbol string into prosodic data;
A speech waveform generation step of converting the prosodic data into a speech waveform;
The text speech synthesizing method, wherein the language processing step outputs the phonetic symbol sequence to the plurality of prosody generation steps according to the phonetic symbol sequence.
24. The text-to-speech synthesis method according to claim 23, wherein the language processing step includes a language conversion step of converting language information of the phonetic symbol string according to the language determined in the language determination step.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004206080A JP2006030384A (en) | 2004-07-13 | 2004-07-13 | Text-to-speech synthesizer and text-to-speech synthesis method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004206080A JP2006030384A (en) | 2004-07-13 | 2004-07-13 | Text-to-speech synthesizer and text-to-speech synthesis method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006030384A true JP2006030384A (en) | 2006-02-02 |
Family
ID=35896847
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004206080A Withdrawn JP2006030384A (en) | 2004-07-13 | 2004-07-13 | Text-to-speech synthesizer and text-to-speech synthesis method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006030384A (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011004502A1 (en) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | Speech editing/synthesizing device and speech editing/synthesizing method |
| JP2015064543A (en) * | 2013-08-28 | 2015-04-09 | シャープ株式会社 | Text reading device |
| US9159313B2 (en) | 2012-04-03 | 2015-10-13 | Sony Corporation | Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis |
| KR101751935B1 (en) * | 2011-12-08 | 2017-07-03 | 한국전자통신연구원 | Apparatus and method for generating power simulation wave in crypto algorithm hardware |
| JP2018128607A (en) * | 2017-02-09 | 2018-08-16 | ヤマハ株式会社 | Speech processing method and speech processing device |
| JP2020139993A (en) * | 2019-02-27 | 2020-09-03 | シナノケンシ株式会社 | Text data voice playback device and text data voice playback program |
| CN116229935A (en) * | 2023-02-21 | 2023-06-06 | 深圳市声扬科技有限公司 | Speech synthesis method, device, electronic equipment and computer readable medium |
-
2004
- 2004-07-13 JP JP2004206080A patent/JP2006030384A/en not_active Withdrawn
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011004502A1 (en) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | Speech editing/synthesizing device and speech editing/synthesizing method |
| JP5343293B2 (en) * | 2009-07-08 | 2013-11-13 | 株式会社日立製作所 | Speech editing / synthesizing apparatus and speech editing / synthesizing method |
| KR101751935B1 (en) * | 2011-12-08 | 2017-07-03 | 한국전자통신연구원 | Apparatus and method for generating power simulation wave in crypto algorithm hardware |
| US9159313B2 (en) | 2012-04-03 | 2015-10-13 | Sony Corporation | Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis |
| JP2015064543A (en) * | 2013-08-28 | 2015-04-09 | シャープ株式会社 | Text reading device |
| JP2018128607A (en) * | 2017-02-09 | 2018-08-16 | ヤマハ株式会社 | Speech processing method and speech processing device |
| JP2020139993A (en) * | 2019-02-27 | 2020-09-03 | シナノケンシ株式会社 | Text data voice playback device and text data voice playback program |
| CN116229935A (en) * | 2023-02-21 | 2023-06-06 | 深圳市声扬科技有限公司 | Speech synthesis method, device, electronic equipment and computer readable medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
| US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
| US7233901B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
| EP0688011B1 (en) | Audio output unit and method thereof | |
| JP5198046B2 (en) | Voice processing apparatus and program thereof | |
| EP1668628A1 (en) | Method for synthesizing speech | |
| KR100669241B1 (en) | Interactive Speech Synthesis System and Method Using Speech Act Information | |
| JP6998017B2 (en) | Speech synthesis data generator, speech synthesis data generation method and speech synthesis system | |
| JP2006030384A (en) | Text-to-speech synthesizer and text-to-speech synthesis method | |
| JP2021148942A (en) | Voice quality conversion system and voice quality conversion method | |
| JPH08335096A (en) | Text voice synthesizer | |
| Shah et al. | Bi-Lingual Text to Speech Synthesis System for Urdu and Sindhi | |
| JP2006030383A (en) | Text-to-speech synthesizer and text-to-speech synthesis method | |
| JP4751230B2 (en) | Prosodic segment dictionary creation method, speech synthesizer, and program | |
| Khamdamov et al. | Syllable-Based Reading Model for Uzbek Language Speech Synthesizers | |
| JP2002358091A (en) | Speech synthesis method and speech synthesis device | |
| JPH09134195A (en) | Speech synthesizer | |
| KR100269215B1 (en) | Method for producing fundamental frequency contour of prosodic phrase for tts | |
| JPH1097290A (en) | Speech synthesizer | |
| Kumar et al. | Empirical Study of Speech Synthesis Markup Language and Its Implementation for Punjabi Language. | |
| JP2009098292A (en) | Speech symbol string generation method, speech synthesis method, and speech synthesis apparatus | |
| JP2001013981A (en) | Device and method for registering dictionary for voice synthesis | |
| Evans et al. | A multi-lingual speech synthesiser for blind people | |
| JP2000322075A (en) | Speech synthesis device and natural language processing method | |
| JPH11305787A (en) | Voice synthesizing device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071002 |