JP2006030384A - テキスト音声合成装置及びテキスト音声合成方法 - Google Patents
テキスト音声合成装置及びテキスト音声合成方法 Download PDFInfo
- Publication number
- JP2006030384A JP2006030384A JP2004206080A JP2004206080A JP2006030384A JP 2006030384 A JP2006030384 A JP 2006030384A JP 2004206080 A JP2004206080 A JP 2004206080A JP 2004206080 A JP2004206080 A JP 2004206080A JP 2006030384 A JP2006030384 A JP 2006030384A
- Authority
- JP
- Japan
- Prior art keywords
- language
- text
- speech
- phonetic symbol
- symbol string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】複数の言語が混在した入力テキストが入力された場合であっても、言語の特徴を十分に表現して音声合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供するを提供する。
【解決手段】複数の言語が混合した入力テキストに含まれる言語を判定し、判定された言語毎に入力テキストを分割する。テキスト分割部2は、分割されたテキスト部分を言語毎に設けられた音声合成部31〜3nへ出力する。各テキスト音声合成部31〜3nにて合成された音声波形は、音声波形統合部4にて統合される。
【選択図】図1
【解決手段】複数の言語が混合した入力テキストに含まれる言語を判定し、判定された言語毎に入力テキストを分割する。テキスト分割部2は、分割されたテキスト部分を言語毎に設けられた音声合成部31〜3nへ出力する。各テキスト音声合成部31〜3nにて合成された音声波形は、音声波形統合部4にて統合される。
【選択図】図1
Description
本発明は、複数の言語を処理することができるテキスト音声合成装置及びテキスト音声合成方法に関する。
テキスト音声合成は、タイプ入力などにより得られた入力テキストを人間の音声の生成機構に基づいて機械的に音声を合成するものである。図9に、従来のテキスト音声合成装置100の構成を示す。テキスト音声合成装置100は、入力テキストを音声記号列に変換する音声記号列生成部101と、音声記号列を韻律データに変換する韻律生成部102と、韻律データから音声波形を生成する波形生成部103とを有して構成されている。
音声記号列生成部101は、入力テキストを意味をもつ最小の言語単位である形態素に分割し、形態素に関する表記、品詞、読みなどの情報が格納された辞書を参照して音声記号列を生成する。この音声記号列は、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。
そして、韻律生成部102は、入力された音声記号列を解析し、音素毎に継続時間長、基本周波数及びパワーを決定する。決定された各音素の情報は、韻律データとして波形生成部103に出力する。ここで、音素とは、ある1つの言語で用いられる音の単位で、意味の相違をもたらす最小の単位である。
韻律生成部102から出力された韻律データは、波形生成部103で音素列情報、音素時間情報、ピッチパタン情報に分けられる。音素列情報には音素列が含まれており、選択された音素列に対応する音響特長パラメータは、音素時間情報に基づいて時間軸上で伸縮され、ピッチパタン情報に基づいてピッチが変更されて音声波形に変換される。
以上のような処理により、音声合成装置100は、タイプ入力などにより得られた入力テキストを音声波形に変換する。
ところで、テキスト音声合成装置において、日本語、英語などの複数の言語を処理できるものが知られている(例えば、特許文献1参照。)。例えば、特許文献1に記載の電子文書処理装置は、電子文書を記述する言語を示す属性情報に基づいて音声合成エンジンを選択することにより複数の言語を処理している。
しかしながら、特許文献1には、例えば1つの入力テキストに複数の言語が混在する場合の音声合成エンジンの選択方法について記載されておらず、特許文献1に記載の技術では、1つの入力テキストに複数の言語が混在する場合、各言語の韻律で音声合成することができなかった。
本発明は、このような問題に鑑みてなされたものであり、複数の言語が混在した入力テキストが入力された場合であっても、言語の特徴を十分に表現して音声合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供することを目的とする。
上述した目的を達成するために、本発明に係るテキスト音声合成装置は、2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別手段と、上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成手段と、上記言語毎に変換された音声波形を統合する音声波形統合手段とを有し、上記言語判別手段は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成手段に出力することを特徴としている。
また、本発明に係るテキスト音声合成装置は、2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、上記入力テキストに含まれる言語を判定する判定手段と、上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理手段と、上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成手段と、上記韻律データを音声波形に変換する音声波形生成手段とを有し、上記言語処理手段は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成手段に出力することを特徴としている。
また、本発明に係るテキスト音声合成方法は、2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別工程と、上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成工程と、上記言語毎に変換された音声波形を統合する音声波形統合工程とを有し、上記言語判別工程は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成工程に出力することを特徴としている。
また、本発明に係るテキスト音声合成方法は、2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、上記入力テキストに含まれる言語を判定する判定工程と、上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理工程と、上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成工程と、上記韻律データを音声波形に変換する音声波形生成工程とを有し、上記言語処理工程は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成工程に出力することを特徴としている。
本発明は、2つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定し、テキスト部分の言語に応じて当該テキスト部分を各言語の音声合成手段に出力することにより、各言語の韻律で音声合成することができる。
また、2つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定し、言語毎のテキスト部分を音声記号列に変換し、音声記号列に応じて当該音声記号列を各言語の韻律生成手段に出力することにより、各言語の韻律で音声合成することができる。
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の具体例として示すテキスト音声合成装置は、複数の言語が混合した入力テキストに含まれる言語を判定し、その言語の特徴を十分に表現して音声合成するようにしたものである。
(第1の実施の形態)
図1は、第1の実施の形態におけるテキスト音声合成装置10の全体構成を示すものである。テキスト音声合成装置10は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部1と、判定された言語毎に入力テキストを分割するテキスト分割部2と、分割されたテキスト部分の音声波形を合成する言語毎に設けられたテキスト音声合成部31〜3nと、各テキスト音声合成部31〜3nで合成された音声波形を統合する音声波形統合部4とを有して構成されている。
図1は、第1の実施の形態におけるテキスト音声合成装置10の全体構成を示すものである。テキスト音声合成装置10は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部1と、判定された言語毎に入力テキストを分割するテキスト分割部2と、分割されたテキスト部分の音声波形を合成する言語毎に設けられたテキスト音声合成部31〜3nと、各テキスト音声合成部31〜3nで合成された音声波形を統合する音声波形統合部4とを有して構成されている。
言語判定部1は、2つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定する。また、言語判定部1は、判定された言語毎に言語情報を示すタグを付与する。例えば、「これはdictionaryです。」という日本語と英語の言語混合文に対するタグ付きテキストは、以下のように記述される。
<lang=japanese>これは</lang> <lang=english>dictionary</lang> <lang=japanense>です</lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。
<lang=japanese>これは</lang> <lang=english>dictionary</lang> <lang=japanense>です</lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。
また、言語の判定は、例えば次のような方法により行われる。
1.外部から与えられた情報により言語を判定する
例えば単語毎にタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を判定する。
2.文字の種類により言語を判定する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と判定する。
3.辞書を参照することにより言語を判定する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を判定する。
4.文字コードにより言語を判定する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を判定する。
1.外部から与えられた情報により言語を判定する
例えば単語毎にタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を判定する。
2.文字の種類により言語を判定する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と判定する。
3.辞書を参照することにより言語を判定する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を判定する。
4.文字コードにより言語を判定する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を判定する。
テキスト分割部2は、入力テキストを言語毎にタグが付与されたテキスト部分に切り分け、タグの言語情報に基づいてテキスト部分を各言語のテキスト音声合成部31〜3nへ出力する。
音声波形統合部4は、各言語のテキスト音声合成部31〜3nで合成された音声波形を統合する。また、音声波形統合部4は、音声波形が入力される度にテキスト分割部2へ波形到着通知を送信し、テキスト分割部2から終了指令を受信することにより、それまでに統合された音声波形を出力する。
次に、音声合成装置10の動作を図2に示すフローチャートを参照して説明する。先ず、言語判定部1は、入力テキストに含まれる言語を判定し(ステップS1)、言語毎のテキスト部分に分割する判定された言語毎に言語情報を示すタグを付与する。
タグ付きテキストは、テキスト分割部2で言語毎に切り分けられる(ステップS2)。そして、テキスト分割部2は、先ず、入力テキストのうち先頭のテキスト部分を、タグの言語情報に従って当該言語のテキスト音声合成部31〜3nへ出力する。テキスト音声合成部31〜3nは、入力されたテキスト部分を音声波形に変換し(ステップS3)、音声波形統合部4へ出力する。
音声波形統合部4は、テキスト音声合成部で出力された音声波形を受け取ったら、音声波形が届いたという波形到着通知をテキスト分割部2へ送信する。テキスト分割部2は、波形到着通知を波形統合部4から受信すると、入力テキストのうち先頭から2番目のテキスト部分を言語情報に従って、当該言語のテキスト音声合成部nへ出力する。同様にして、2番目のテキストもテキスト音声合成部31〜3nにて音声波形に変換され、音声波形統合部4へと送られる。
音声波形統合部4は、テキスト音声合成部31〜3nから出力された音声波形を、音声波形統合部4へ入力された順番に統合し(ステップS4)、音声波形が届いたという信号をテキスト分割部2へ送る。そして、同様にして、入力テキストのテキスト部分が終了するまで、3番目以降のテキスト部分も処理される(ステップS5)。
最終のテキスト部分の波形到着通知を受信した場合、テキスト分割部2は、終了指令を音声波形統合部4へ送信する。終了指令を受けたら、音声波形統合部4は、それまでに結合した音声波形を出力する(ステップS6)。
このように、第1の実施の形態におけるテキスト音声合成装置10は、テキスト部分の言語に応じて当該テキスト部分を各言語の音声合成手段31〜3nに出力することにより、2つ以上の言語のテキスト部分を有する入力テキストでも各言語の韻律で音声合成することができる。
(第2の実施の形態)
図3は、第2の実施の形態におけるテキスト音声合成装置20の構成を示すものである。このテキスト音声合成装置20は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部21と、単語毎のテキスト部分を音声記号列に変換する音声記号列生成部22と、音声記号列を言語毎に設けられた韻律生成部241〜24nに出力する切換処理部23と、音声記号列を韻律データに変換する言語毎の韻律生成部241〜24nと、各韻律生成部241〜24nからの韻律データを接続する韻律接続部25と、韻律データに基づいて音声波形を生成する波形生成部26とを有して構成されている。
図3は、第2の実施の形態におけるテキスト音声合成装置20の構成を示すものである。このテキスト音声合成装置20は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部21と、単語毎のテキスト部分を音声記号列に変換する音声記号列生成部22と、音声記号列を言語毎に設けられた韻律生成部241〜24nに出力する切換処理部23と、音声記号列を韻律データに変換する言語毎の韻律生成部241〜24nと、各韻律生成部241〜24nからの韻律データを接続する韻律接続部25と、韻律データに基づいて音声波形を生成する波形生成部26とを有して構成されている。
言語判定部21は、上記第1の実施の形態における言語判定部1と同様で、2つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定する。また、言語判定部1は、判定された言語毎に言語情報を示すタグを付与する。例えば、「これはdictionaryです。」という日本語と英語の言語混合文に対するタグ付きテキストは、以下のように記述される。
<lang=japanese>これは</lang> <lang=english>dictionary</lang> <lang=japanense>です</lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
<lang=japanese>これは</lang> <lang=english>dictionary</lang> <lang=japanense>です</lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
言語の判定は、例えば次のような方法により行われる。
1.外部から与えられた情報により言語を判定する
例えば単語毎にタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を判定する。
2.文字の種類により言語を判定する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と判定する。
3.辞書を参照することにより言語を判定する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を判定する。
4.文字コードにより言語を判定する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を判定する。
1.外部から与えられた情報により言語を判定する
例えば単語毎にタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を判定する。
2.文字の種類により言語を判定する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と判定する。
3.辞書を参照することにより言語を判定する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を判定する。
4.文字コードにより言語を判定する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を判定する。
音声記号列生成部22は、図4に示すように入力されたテキスト文を解析し、形態素情報を生成するテキスト解析部221と、形態素情報を基に音声記号を生成する韻律情報生成部222とを有して構成されている。ここで、形態素とは、語幹、接頭辞、接尾辞など、意味をもつ文字列の最小単位で、単語よりやや小さいものである。また、音声記号列とは、発音記号やアクセント記号などで表現したものである。
テキスト解析部221は、テキスト解析ルール223と辞書224とを有している。テキスト解析ルール223には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書224に登録されていない形態素に必要な情報を付与する規則とが格納されている。また、辞書224には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。
韻律情報生成部222は、形態素情報を解析し韻律情報を得るための韻律情報生成ルール225を有する。韻律情報生成ルール225には、形態素情報をもとにフレーズの区切り方を指すフレージングや読みの変更を行うための規則が納められている。また、入力された各形態素について、韻律生成のためのさらに詳しい情報を得るため、テキスト解析部221で用いた辞書224とも接続されている。韻律生成のための情報とは、例えば、複数の形態素が一緒になって複合語を形成する際に、読みがどのように変化するかの情報や、アクセント核位置の移動パタンの情報などである。
なお、図4に示す音声記号列生成部22の構成では、1つの辞書224に形態素に関する情報と韻律生成のための情報とを納める構成となっているが、それぞれ別の辞書を保持してもよい。すなわち、テキスト解析部221は、形態素に関する情報のみが納められた辞書と接続され、韻律情報生成部222は、韻律生成のための情報のみが納められた辞書と接続されるという構成でも同様の処理を行うことができる。また、テキスト解析ルール223、辞書224及び韻律情報生成ルール225は、各言語のルールを格納していることとしているが、言語毎にルールを独立して有する構成としてもよい。
ここで、入力テキストの処理について説明する。なお、入力テキストは、1文の場合でも、複数文からなる場合でもよい。
入力テキストは、言語判定部21にて言語毎のテキスト部分に区分される。区分されたテキスト部分は、テキスト解析部221において、テキスト解析ルール223と辞書24とを用いて形態素に分割され、辞書224からそれぞれの形態素に関する情報を得る。辞書224に登録されていない形態素については、テキスト解析ルール223を用いて、必要な形態素情報を生成する。このようにして得られた形態素情報は、韻律情報生成部222へと送られる。
韻律情報生成部222では、テキスト解析部221から受け取った形態素情報をもとに、入力文に対し、韻律情報生成ルール225を用いて韻律情報を付与するという処理を行う。韻律情報は、言語によって異なるが、日本語であれば、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などの情報である。なお、韻律情報は、装置の設計によって異なるので、上記情報を全て含む必要はなく、上記情報に限定されるものではない。
韻律情報生成部222での処理によって得られる韻律情報は、音声記号列で表現され、韻律生成部へと出力する。音声記号列とは、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。
これらの記号は、独自のものを定義してもよいし、既存の記号を採用してもよい。例えば、IPA(国際音声字母、International Phonetic Alphabet)、SAMPA(Speech Assessment Methods Phonetic Alphabet)などの発音記号、アクセント記号などを用いてもよい。又は、ToBI(Tone and Break Indices)などのポーズ記号、音調記号などを用いてもよい。本実施の形態では、便宜的に日本語部分にはローマ字を、英語部分にはSAMPAを参考にした独自記号を用いた。例えば、「これはdictionaryです。」という入力テキストに対し、音声記号列生成部22から出力される音声記号列は、例えば次のように記述される。
<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>
なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>
なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
切換処理部23は、音声記号列を出力する韻律生成部241〜24nを選択する。例えば、音声記号列に付与された言語情報に応じて、その音声記号列の出力を韻律生成部241〜24nに切り換える。例えば、入力された音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>に対し、切換処理部23は、「korewa」及び「desu」を日本語韻律生成部へ、「dIkS@neri:」を英語韻律生成部へ出力する。
図5は、韻律生成部241〜24nのうち、1つの韻律生成部24nの構成を示すものである。韻律生成部24nは、各音素の継続時間長を求めるための継続時間長決定部51と、各音素の基本周波数を求めるための基本周波数決定部52と、各音素の音量を求めるためのパワー決定部53とを有して構成されている。
継続時間長決定部51は、音声記号列解析部54と、ルール適用部55とを有している。音声記号列解析部54は、音声記号列を解析するための解析ルール56を有している。解析ルール56は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。
ルール適用部55は、それぞれの音素の継続時間長を決めるための生成ルール57を有している。生成ルール57は、それぞれの音素の継続時間長を決定するためのルールであり、どのような音韻環境のときにデフォルト継続時間長を伸縮させるかを決めるための規則を格納している。また、音素のデフォルト継続時間長も格納されている。ここで、音韻環境とは、その音素が母音であるかどうか、前後の音素が何であるか、音節の何番目の音素であるか、アクセント核位置かどこかなどを示すものである。
継続時間長決定部51は、この生成ルール57を用いて、それぞれの音素の継続時間長を決定する。生成ルール57を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定された継続時間長の情報は、基本周波数決定部32へ送信される。
基本周波数決定部52は、音声記号列解析部58と生成ルール適用部59と時間伸縮部60とを有している。音声記号列解析部58は、音声記号列を解析するための解析ルール61を有している。解析ルール61は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。
ルール適用部59は、基本周波数パタンを生成するための生成ルール62を有している。生成ルール62は、アクセント型等の音調区分に対する基本周波数パタンの値及び、それらのパタンの選択、変形のためのルールが格納されている。
ここで、ルール選択方法は装置によって、様々な形態が考えられるが、本実施の形態では、その音素が属する単語のアクセント型や、アクセントの強さ、係り受けなどの文構造などを基準にルールの適用可能性の是非を判定する。
生成ルールに含まれる基本周波数パタンのデータは、複数の音素にまたがる基本周波数の値を保持しており、ルールにより選択できるように、アクセント型や音調など予測要因毎にパタンが分類してある。
音声記号列解析部58は、入力された音声記号列を解析ルール61により、生成ルール62の適用に必要な情報を得る。ルール適用部59は、得られた情報から生成ルール62を用いて、最適なパタンを選択、変形する。時間伸縮部60は、選択されたパタンを、継続時間長決定部51ですでに決定されたそれぞれの音素の継続時間長にあわせて、変形させ、音素毎の基本周波数を決定する。
パワー決定部53は、音声記号列解析部63と、ルール適用部64とを有している。音声記号列解析部63は、音声記号列を解析するための解析ルール65を有している。解析ルール65は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。
ルール適用部64は、それぞれの音素のパワーを決めるための生成ルール64を有している。生成ルール66は、それぞれの音素のパワーを決定するためのルールである。
パワー決定部53は、この生成ルール66を用いて、それぞれの音素のパワーを決定する。生成ルール66を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定されたパワーの情報は、出力生成部67へ送信される。
継続時間長決定部51で決定された音素毎の継続時間長、基本周波数決定部52で決定された音素毎の基本周波数及びパワー決定部53で決定された音素毎のパワーの情報は、韻律データとして出力生成部62で生成され、韻律生成部24nから出力される。
韻律接続部25は、韻律生成部241〜24nから出力された韻律データを、切換処理部23に入力された音声記号列の順番に会うように整列、接続する。この韻律接続部25は、韻律データが到達すると、切換処理部23に到達通知を送信する。切換処理部23は、到達通知を受信した後、次の順番の音声記号列を出力するので、入力テキストの順番に韻律データが統合される。また、切換処理部23は、最後の音声記号列の到達通知を受信すると、終了通知を韻律接続部25へ送信する。韻律接続部25は、終了通知を受信して韻律データを波形生成部26へ出力する。
図6は、波形生成部26の構成を示したものである。波形生成部26は、韻律生成部241〜24nから出力された韻律データから音声波形を生成する。波形生成部26は、入力された韻律データを情報毎に分配する韻律データ分配部261と、音素列の音響特長パラメータを生成する素片選択部262と、音響特長パラメータを補正するパラメータ補正部263と、ピッチを変更しながら音声信号波形を合成する波形組立部264とを有して構成されている。また、素片選択部262は、音響的な特長を示すパラメータを格納した音声データ265を有している。
韻律データ分配部261は、入力された韻律データを音素列情報、音素時間長情報及びピッチパタン情報に分け、それぞれ、素片選択部262、パラメータ補正部263及び波形組立部264に出力する。
素片選択部262は、入力された音素列情報に基づいて音声データ265を参照して上記音素列情報に含まれる音素列を選択して、選択した音素列に対応する音響特長パラメータを音声データ265から順次読み出して出力する。
音声データ265は、既存の規則音声合成装置に使用されるものと同様のもので、例えばケプストラム係数などの音声の音響的な特長を示すパラメータなどである。また、素片のひとつひとつの長さは、CV、CVC(C:子音、V:母音)、その他の合成単位に応じた単位、あるいはコーパスベースの合成方式では特に合成単位に固定されない。
パラメータ補正部263は、音素列によって時間軸上に並べられた音響特長パラメータを、韻律データ分配部261から入力された音素時間情報によってそれぞれの音素の長さに等しくなるように時間軸上で伸縮する。また、素片の接続部での音響特長パラメータの不整合を避けるために音響特長パラメータを補正する。
波形組立部264は、パラメータ補正部263から出力される音響特長パラメータの系列に基づいて、また、韻律データ分配部261からのピッチパタン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する。
このような構成のテキスト音声合成装置20は、音声記号列の言語情報に応じて当該テキスト部分を各言語の韻律生成部241〜24nに出力することにより、2つ以上の言語のテキスト部分を有する入力テキストでも各言語の韻律で音声合成することができる。
また、テキスト音声合成装置20は、言語毎に韻律生成部241〜24nを有する構成としたが、1つの韻律生成部において各ルールが各言語のルールを有する構成としてもよい。この場合、切換処理部23及び韻律接続部25の構成がなくても、各言語の韻律で音声合成することができる。
(第3の実施の形態)
図7は、第3の実施の形態におけるテキスト音声合成装置30の構成を示すものである。このテキスト音声合成装置30は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部21と、単語毎のテキスト部分を音声記号列に変換する音声記号列生成部22と、言語決定部32で決定された言語に応じて言語毎に設けられた韻律生成部241〜24nへの音声記号列の出力を切り換える切換処理部31と、音声記号列を韻律データに変換する言語毎の韻律生成部241〜24nと、各韻律生成部241〜24nからの韻律データを接続する韻律接続部25と、韻律データに基づいて音声波形を生成する波形生成部26とを有して構成されている。
図7は、第3の実施の形態におけるテキスト音声合成装置30の構成を示すものである。このテキスト音声合成装置30は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部21と、単語毎のテキスト部分を音声記号列に変換する音声記号列生成部22と、言語決定部32で決定された言語に応じて言語毎に設けられた韻律生成部241〜24nへの音声記号列の出力を切り換える切換処理部31と、音声記号列を韻律データに変換する言語毎の韻律生成部241〜24nと、各韻律生成部241〜24nからの韻律データを接続する韻律接続部25と、韻律データに基づいて音声波形を生成する波形生成部26とを有して構成されている。
すなわち、第3の実施の形態におけるテキスト音声合成装置30は、第2の実施の形態におけるテキスト音声合成装置20の構成に言語決定部32をさらに設け、切換処理部31では、言語決定部32にて決定された言語に応じて音声記号列の出力を各韻律生成部241〜24nへ切り換えるようにしたものである。なお、上述した図3に示す構成の各部と対応する部分には同じ指示符号を付している。
言語決定部32は、切換処理部31に入力された音声記号列のベースとなる言語を決定する。ベース言語とは、あたかも一人の話者が発声しているかのように韻律を生成するために用いられる話者の母国語のようなものである。
次に、言語決定部32における言語の決定方法について説明する。ここでは、「これはdictionaryです。」という入力テキストの音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を用いて説明する。なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
1.入力された音声記号列の中で最も長い区間に割り当てられた言語
上記例において、入力された音声記号列のうち、「dIkS@neri:」が最も音韻数が多いため、英語をベース言語と決定する。
2.入力された音声記号列の中で最も多数の区間に割り当てられた言語
上記例において、日本語が2区間、英語が1区間であるため、日本語をベース言語と決定する。
3.入力された音声記号列の中で最初に出現する区間に割り当てられた言語
上記例において、最初に出現する区間<lang=japanense>korewa</lang>が日本語であるため、日本語をベース言語と決定する。
4.入力された音声記号列の中で最後に出現する区間に割り当てられた言語
上記例において、最後に出現する区間<lang=japanense>desu</lang>が日本語であるため、日本語をベース言語と決定する。
5.入力された音声記号列の中で最初に出現する区間と最後に出現する区間に割り当てられた言語
上記例において、最初に出現する区間と最後に出現する区間が日本語であるため、日本語をベース言語と決定する。
上記例において、入力された音声記号列のうち、「dIkS@neri:」が最も音韻数が多いため、英語をベース言語と決定する。
2.入力された音声記号列の中で最も多数の区間に割り当てられた言語
上記例において、日本語が2区間、英語が1区間であるため、日本語をベース言語と決定する。
3.入力された音声記号列の中で最初に出現する区間に割り当てられた言語
上記例において、最初に出現する区間<lang=japanense>korewa</lang>が日本語であるため、日本語をベース言語と決定する。
4.入力された音声記号列の中で最後に出現する区間に割り当てられた言語
上記例において、最後に出現する区間<lang=japanense>desu</lang>が日本語であるため、日本語をベース言語と決定する。
5.入力された音声記号列の中で最初に出現する区間と最後に出現する区間に割り当てられた言語
上記例において、最初に出現する区間と最後に出現する区間が日本語であるため、日本語をベース言語と決定する。
なお、入力された音声記号列に出現する言語を任意に選択し、ベース言語としてもよい。また、ベース言語一覧をもち、その中から任意に選択することでベース言語としてもよい。また、外部から指定された言語をベース言語としてもよい。
上記方法のいずれか1つ以上でベース言語を決定することができないときには、前述した第2の実施の形態のように、タグの言語情報に応じた言語の韻律制御部を利用することができる。
切換処理部31は、図8に示すように音声記号列を再変換する再変換部311と、言語情報を変換する言語変換部312とを有している。
再変換部311は、言語決定部32にて決定された言語に応じて音声記号列を再変換する。その際、読みに関する情報が格納されている変換ルールを参照する。例えば、ベース言語として日本語が決定された場合、音声記号列を日本語の音声記号列に再変換する。この場合、例えば、音声記号列<lang=english>dIkS@neri:</lang>は、<lang=english>dikushonarii</lang>に再変換される。
言語変換部312は、言語決定部32にて決定された言語に応じて音声記号列の言語情報を変える。例えば、ベース言語として日本語が決定された場合、音声記号列に付与された言語情報を日本語とする。この場合、例えば、音声記号列<lang=english>dIkS@neri:</lang>は、<lang=japanense>dIkS@neri:</lang>と変換される。つまり、音声記号列に付与されている出力先の言語情報を言語決定部32で決定された言語に変換する。
このように、再変換部311と言語変換部312とを有することにより、ベース言語以外の言語の音声記号列をベース言語の音声記号列に変換し、韻律を生成することができる。また、入力された音声記号列にベース言語以外の音声記号列が含まれていても、そのまま韻律を生成することができる。
例えば、入力テキスト「これはdictionaryです。」の音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を<lang=english>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=english>desu</lang>に変換することにより、dictionaryの発音だけ流暢な英語で、他の部分は片言の日本語であるような発話を表現することができる。
また、<lang=japanense>korewa</lang> <lang=japanense>dikushonarii</lang> <lang=japanense>desu</lang>に変換することにより、流暢な日本語の発話を表現することができる。
また、言語決定部32にて異なる言語決定方法で異なるベース言語を決定し、それぞれ異なるベース言語に基づいて、音声記号列及びその言語情報をそれぞれ変換してもよい。この場合、例えば、入力テキスト「これはdictionaryです。」の音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を<lang=english>korewa</lang> <lang=english> dikushonarii</lang> <lang=english>desu</lang>に変換することができるのため、片言の日本語の発話を表現することができる。
また、ベース言語に限らなくとも、様々な言語の韻律を指定できるので、ユニークな発話を表現することができる。
なお、上記第1〜第3の実施の形態では、判定された言語毎に言語情報を示すタグを付与することとしたが、これに限られるものではなく、例えば言語毎に異なる音声記号列を使用してもよい。
1 言語判定部、 2 テキスト分割部、 31〜3n テキスト音声合成部、 4 音声波形統合部、 10 テキスト音声合成装置、 20 テキスト音声合成装置、 21 言語判定部、 22 音声記号列生成部、 23 切換処理部、 241〜24n 韻律生成部、 25 韻律接続部、 26 波形生成部、 30 テキスト音声合成装置、 31 切換処理部、 32 言語決定部、 100 テキスト音声合成装置、 101 音声記号列生成部、 102 韻律生成部、 103 波形生成部
Claims (28)
- 2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、
上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別手段と、
上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成手段と、
上記言語毎に変換された音声波形を統合する音声波形統合手段とを有し、
上記言語判別手段は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成手段に出力することを特徴とするテキスト音声合成装置。 - 上記言語判別手段は、上記テキスト部分に予め付与された属性情報に基づいて言語を判定することを有することを特徴とする請求項1記載のテキスト音声合成装置。
- 上記言語判別手段は、上記テキスト部分を識別するための辞書を参照して言語を判定することを特徴とする請求項1記載のテキスト音声合成装置。
- 上記言語判別手段は、上記テキスト部分の文字種及び/又は文字コードに基づいて言語を判定することを特徴とする請求項1記載のテキスト音声合成装置。
- 2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、
上記入力テキストに含まれる言語を判定する判定手段と、
上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理手段と、
上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成手段と、
上記韻律データを音声波形に変換する音声波形生成手段とを有し、
上記言語処理手段は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成手段に出力することを特徴とするテキスト音声合成装置。 - 上記判定手段は、上記テキスト部分に予め付与された属性情報に基づいて言語を判定することを有することを特徴とする請求項5記載のテキスト音声合成装置。
- 上記判定手段は、上記テキスト部分を識別するための辞書を参照して言語を判定することを特徴とする請求項5記載のテキスト音声合成装置。
- 上記判定手段は、上記テキスト部分の文字種及び/又は文字コードに基づいて言語を判定することを特徴とする請求項5記載のテキスト音声合成装置。
- 上記言語処理手段は、上記音声記号列のベースとなる言語を決定する言語決定手段をさらに有することを特徴とする請求項5記載のテキスト音声合成装置。
- 上記言語決定手段は、上記音声記号列の中で最も長い区間に割り当てられた言語を決定することを特徴とする請求項9記載のテキスト音声合成装置。
- 上記言語決定手段は、上記音声記号列の中で最も多数の区間に割り当てられた言語を決定することを特徴とする請求項9記載のテキスト音声合成装置。
- 上記言語決定手段は、上記音声記号列の中で最初に出現する区間及び/又は最後に出現する区間に割り当てられた言語を決定することを特徴とする請求項9記載のテキスト音声合成装置。
- 上記言語処理手段は、上記言語決定手段にて決定された言語に応じて上記音声記号列を再変換する再変換手段を有することを特徴とする請求項9記載のテキスト音声合成装置。
- 上記言語処理手段は、上記言語決定手段にて決定された言語に応じて上記音声記号列の言語情報を変換する言語変換手段を有することを特徴とする請求項9記載のテキスト音声合成装置。
- 2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、
上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別工程と、
上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成工程と、
上記言語毎に変換された音声波形を統合する音声波形統合工程とを有し、
上記言語判別工程は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成工程に出力することを特徴とするテキスト音声合成方法。 - 上記言語判別工程は、上記テキスト部分に予め付与された属性情報に基づいて言語を判定することを有することを特徴とする請求項15記載のテキスト音声合成方法。
- 上記言語判別工程は、上記テキスト部分を識別するための辞書を参照して言語を判定することを特徴とする請求項15記載のテキスト音声合成方法。
- 上記言語判別工程は、上記テキスト部分の文字種及び/又は文字コードに基づいて言語を判定することを特徴とする請求項15記載のテキスト音声合成方法。
- 2つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、
上記入力テキストに含まれる言語を判定する判定工程と、
上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理工程と、
上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成工程と、
上記韻律データを音声波形に変換する音声波形生成工程とを有し、
上記言語処理工程は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成工程に出力することを特徴とするテキスト音声合成方法。 - 上記判定工程は、上記テキスト部分に予め付与された属性情報に基づいて言語を判定することを有することを特徴とする請求項19記載のテキスト音声合成方法。
- 上記判定工程は、上記テキスト部分を識別するための辞書を参照して言語を判定することを特徴とする請求項19記載のテキスト音声合成方法。
- 上記判定工程は、上記テキスト部分の文字種及び/又は文字コードに基づいて言語を判定することを特徴とする請求項19記載のテキスト音声合成方法。
- 上記言語処理工程は、上記音声記号列のベースとなる言語を決定する言語決定工程をさらに有することを特徴とする請求項19記載のテキスト音声合成方法。
- 上記言語決定工程は、上記音声記号列の中で最も長い区間に割り当てられた言語を決定することを特徴とする請求項23記載のテキスト音声合成方法。
- 上記言語決定工程は、上記音声記号列の中で最も多数の区間に割り当てられた言語を決定することを特徴とする請求項23記載のテキスト音声合成方法。
- 上記言語決定工程は、上記音声記号列の中で最初に出現する区間及び/又は最後に出現する区間に割り当てられた言語を決定することを特徴とする請求項23記載のテキスト音声合成方法。
- 上記言語処理工程は、上記言語決定工程にて決定された言語に応じて上記音声記号列を再変換する再変換工程を有することを特徴とする請求項23記載のテキスト音声合成方法。
- 上記言語処理工程は、上記言語決定工程にて決定された言語に応じて上記音声記号列の言語情報を変換する言語変換工程を有することを特徴とする請求項23記載のテキスト音声合成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004206080A JP2006030384A (ja) | 2004-07-13 | 2004-07-13 | テキスト音声合成装置及びテキスト音声合成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004206080A JP2006030384A (ja) | 2004-07-13 | 2004-07-13 | テキスト音声合成装置及びテキスト音声合成方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006030384A true JP2006030384A (ja) | 2006-02-02 |
Family
ID=35896847
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004206080A Withdrawn JP2006030384A (ja) | 2004-07-13 | 2004-07-13 | テキスト音声合成装置及びテキスト音声合成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006030384A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011004502A1 (ja) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | 音声編集合成装置及び音声編集合成方法 |
| JP2015064543A (ja) * | 2013-08-28 | 2015-04-09 | シャープ株式会社 | テキスト読み上げ装置 |
| US9159313B2 (en) | 2012-04-03 | 2015-10-13 | Sony Corporation | Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis |
| KR101751935B1 (ko) * | 2011-12-08 | 2017-07-03 | 한국전자통신연구원 | 암호 알고리즘 하드웨어에서의 전력 시뮬레이션 파형 생성 장치 및 그 방법 |
| JP2018128607A (ja) * | 2017-02-09 | 2018-08-16 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
| JP2020139993A (ja) * | 2019-02-27 | 2020-09-03 | シナノケンシ株式会社 | テキストデータ音声再生装置およびテキストデータ音声再生プログラム |
| CN116229935A (zh) * | 2023-02-21 | 2023-06-06 | 深圳市声扬科技有限公司 | 语音合成方法、装置、电子设备及计算机可读介质 |
-
2004
- 2004-07-13 JP JP2004206080A patent/JP2006030384A/ja not_active Withdrawn
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011004502A1 (ja) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | 音声編集合成装置及び音声編集合成方法 |
| JP5343293B2 (ja) * | 2009-07-08 | 2013-11-13 | 株式会社日立製作所 | 音声編集合成装置及び音声編集合成方法 |
| KR101751935B1 (ko) * | 2011-12-08 | 2017-07-03 | 한국전자통신연구원 | 암호 알고리즘 하드웨어에서의 전력 시뮬레이션 파형 생성 장치 및 그 방법 |
| US9159313B2 (en) | 2012-04-03 | 2015-10-13 | Sony Corporation | Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis |
| JP2015064543A (ja) * | 2013-08-28 | 2015-04-09 | シャープ株式会社 | テキスト読み上げ装置 |
| JP2018128607A (ja) * | 2017-02-09 | 2018-08-16 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
| JP2020139993A (ja) * | 2019-02-27 | 2020-09-03 | シナノケンシ株式会社 | テキストデータ音声再生装置およびテキストデータ音声再生プログラム |
| CN116229935A (zh) * | 2023-02-21 | 2023-06-06 | 深圳市声扬科技有限公司 | 语音合成方法、装置、电子设备及计算机可读介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
| US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
| US7233901B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
| EP0688011B1 (en) | Audio output unit and method thereof | |
| JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
| EP1668628A1 (en) | Method for synthesizing speech | |
| KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
| JP6998017B2 (ja) | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム | |
| JP2006030384A (ja) | テキスト音声合成装置及びテキスト音声合成方法 | |
| JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
| JPH08335096A (ja) | テキスト音声合成装置 | |
| Shah et al. | Bi-Lingual Text to Speech Synthesis System for Urdu and Sindhi | |
| JP2006030383A (ja) | テキスト音声合成装置及びテキスト音声合成方法 | |
| JP4751230B2 (ja) | 韻律素片辞書作成方法、並びに音声合成装置及びプログラム | |
| Khamdamov et al. | Syllable-Based Reading Model for Uzbek Language Speech Synthesizers | |
| JP2002358091A (ja) | 音声合成方法および音声合成装置 | |
| JPH09134195A (ja) | 音声合成装置 | |
| KR100269215B1 (ko) | 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법 | |
| JPH1097290A (ja) | 音声合成装置 | |
| Kumar et al. | Empirical Study of Speech Synthesis Markup Language and Its Implementation for Punjabi Language. | |
| JP2009098292A (ja) | 音声記号列生成方法、音声合成方法及び音声合成装置 | |
| JP2001013981A (ja) | 音声合成用辞書登録装置及び方法 | |
| Evans et al. | A multi-lingual speech synthesiser for blind people | |
| JP2000322075A (ja) | 音声合成装置および自然言語処理方法 | |
| JPH11305787A (ja) | 音声合成装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071002 |