JP2010128103A

JP2010128103A - 音声合成装置、音声合成方法、および音声合成プログラム

Info

Publication number: JP2010128103A
Application number: JP2008301511A
Authority: JP
Inventors: Masanobu Abe; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2008-11-26
Filing date: 2008-11-26
Publication date: 2010-06-10

Abstract

【課題】データベースを簡素化しつつも自然な合成音声を得る。
【解決手段】文単位またはフレーズ単位で複数の話者により生成された多数話者音声データベース１７と、音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析部３と、このテキスト解析部３により解析された文単位毎またはフレーズ単位毎に、前記多数話者音声データベース１７を切り替えて合成音声を生成する際、音声合成を行う文またはフレーズと一致する音韻を持つ音声データベース１７の中から直前に音声合成した文またはフレーズで用いた音声データベース１７に最も近い特性を持つ音声データベースを用いて合成音声を生成する。
【選択図】図２

Description

本発明は、複数の話者の音声データベースを利用して音声合成を行う音声合成装置、音声合成方法、および音声合成プログラムに関する。

テキスト文を入力し、入力されたテキスト文から音声を合成するテキスト音声合成（ＴＴＳ：Text-to-Speech）の技術として、非特許文献１に記載のようなコーパスベース方式の音声合成が知られている。このコーパスベース音声合成では、音声収録した人間の声を音声データベース化し、これを元に音声合成処理を行っている。収録した音声をほぼそのまま使うため、肉声に近い、自然な合成音声を実現することができる。

この従来のコーパスベースによる音声合成について、さらに詳述すると、先ず、漢字かな混じりのテキスト文を入力して、テキスト解析により文を構成する単語を同定し、読み・アクセントを付与する。また、構文情報などからポーズの位置やイントネーションを設定する。そして、読みから特定される音韻系列に従い、汎用音声データベースから適切な音声素片を検索し、これらを接続する。必要に応じて音声信号処理により、声の高さや長さなどを調整し、音声波形を出力する。
阿部。「コーパスベース音声合成技術の動向[II]−音声合成単位を例題に−」、信学会誌、Vol.87 No.2 pp.129-134(2004.2)

従来の音声合成では、大量の音声データベースを利用する、合成音声の単位となる音声長を長くする、等の工夫をして合成音声の品質を向上させるようにしている。

しかしながら、従来の音声合成技術では、音声素片を接続して合成音声を作成しているため、音声データベースの作り込みに膨大な作業がかかっていた。特に、１人の人間が話すパターンとして、“母音−子音−母音”あるいは“子音−母音−子音”等の組合せをできるだけ沢山用意しておく必要があり、データベースが膨大なものとなる。また、自然な合成音声を得るためには、声の高さ、長さ等を調整する必要があり、そのために音素境界を音声データベースに付与するには、多大な時間を要するという課題があった。

本発明は、上記の課題に鑑みてなされたものであり、その目的は、データベースを簡素化しつつも自然な合成音声を得ることのできる音声合成装置、音声合成方法、および音声合成プログラムを提供することにある。

上記の目的を達成するために本発明に係る音声合成装置は、文単位またはフレーズ単位で複数の話者により生成された話者毎の音声データベースと、音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析手段と、このテキスト解析手段により解析された文単位毎またはフレーズ単位毎に前記話者毎の音声データベースを切り替えて合成音声を生成する音声合成手段と、を具備することを特徴としている。

また、本発明に係る音声合成装置において、前記音声合成手段は、前記話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた話者音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成することを特徴としている。

さらに、本発明に係る音声合成装置は、前記音声合成手段により音声合成された合成音声の発話速度を調整する発話速度調整手段を具備することを特徴としている。

一方、本発明に係る音声合成方法は、文単位またはフレーズ単位で複数の話者により生成された話者毎の音声データベースを用いてコンピュータにより音声合成を行う音声合成方法であって、音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析ステップと、このテキスト解析ステップにより解析された文単位毎またはフレーズ単位毎に前記話者毎の音声データベースを切り替えて合成音声を生成する音声合成ステップと、を具備することを特徴としている。

また、本発明に係る音声合成方法において、前記音声合成ステップは、前記話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた話者音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成することを特徴としている。

さらに、本発明に係る音声合成方法は、前記音声合成ステップにより音声合成された合成音声の発話速度を調整する発話速度調整ステップを具備することを特徴としている。

本発明に係る音声合成プログラムは、コンピュータを音声合成装置として機能させる音声合成プログラムを提案するものである。

本発明によれば、データベースを簡素化しつつも自然な合成音声を得ることができる。また、話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成するようにしているので、合成音声中に複数の話者が混在していても違和感を低減することができる。

＜本発明のポイント＞
音声を特徴付ける要因としては、主に、音韻や韻律、個人性がある。従来の音声合成手法では、個人性を固定し、音韻と韻律の要因を制御することで対応している。すなわち、１人の話者の音声を基にした音声データベースを作成し、これを音声合成に利用している。しかし、この従来手法では、音韻連鎖、韻律高低、韻律パターンの組合せが大量になる。従って、１名の特定話者で多種多様な音韻連鎖、韻律の高低、韻律パターンの全ての組合せを発声することは現実的には困難である。このため、従来手法では、高々、数モーラの音韻連鎖を考慮することしかできず、高品質化には限界があった。

本発明では、この限界を解消すべく、多数の話者から音声を収集すること、その収集にあたっては、音韻単位等の細かい組合せではなく、文やフレーズなど、従来ではテキストからの音声合成の単位としては提案されていない、かなり長い単位の音声を利用している。特に音声応答装置などにおいては、ユーザは処理手順の内容を聞き取ることが目的である一方、情報を提供する企業側にとっては、挨拶から始まり、終わりの御礼まで、聞き取りやすい音声で、情報を提供することがポイントとなる。その点から考えると、合成音声の声質（話者性、個人性）はある程度、似ていれば、ユーザはあまり違和感を感じない。処理手順の内容は、音声応答装置のような場合には、ある程度、限定できるので、文やフレーズ毎に再利用できる場合はかなりある。音声を再利用することができると、音韻や韻律は全く肉声のままであるため、ユーザにとっての違和感はない。その際、男声や女声のような大きな声質の違いが無いように、文やフレーズを選択する必要がある。また、人間は発話の速度に敏感であるので、発話速度は、均一になるように制御することが望ましい。発話速度の制御は、比較的に容易であるため、音声の劣化は感じられない程度に抑えることができる。

以下、本発明の実施の形態を図面を参照して説明する。

＜実施形態の構成＞
図１は、本発明に係る音声合成装置の一実施形態の構成を示すブロック図、図２は音声合成装置の主要構成部分の詳細な機能構成を示すブロック図である。

図１に示すように、音声合成装置１は、テキスト解析部３と、韻律生成部５と、音声合成単位選択部７と、音声信号処理部９と、発話速度調整部１１と、汎用音声データベース１５と、多数話者音声データベース１７と、話者特徴テーブル１９と、記録部２１とを備えている。

テキスト解析部３は、漢字かな混じりのテキスト文を入力して、読み辞書・アクセント辞書１３に基づいた統計的なテキスト解析を実行する。

韻律生成部５は、テキスト解析された結果から音韻を決定し、基本周波数パターン、音韻の継続時間長、パワー等を決定する。

音声合成単位選択部７は、合成したい音韻系列に適する音声合成単位を選択する部分であり、汎用音声データベース１５、または多数話者音声データベース１７の何れかを使用して合成したい音韻系列を検索し、複数の候補を選択する。多数話者音声データベース１７を使用する場合、話者特徴テーブル１９を参照して、直前に合成した合成音声の話者性に最も類似した話者性を持つ音声データを選択する機能を持つ。また、この音声合成単位選択部７は、図２に示すように、その機能上、フレーズ分割機能７１と、音韻一致ＤＢ取得機能７３と、距離最小ＤＢ選定機能７５と、音声合成機能７７とを備えている。フレーズ分割機能７１は、韻律生成部５からの応答文テキストデータを入力してフレーズ毎に分割する機能を有する。音韻一致ＤＢ取得機能７３は、音韻が一致する音声データベースを取得する機能を有する。距離最小ＤＢ選定機能７５は、音声合成したい音声と、直前に合成した音声との距離を算出して最も近いデータを持つ音声データベースを選定する機能を有する。音声合成機能７７は選定された音声データベースを用いて合成音声を生成する。その処理手順は図６を用いて後述する。なお、本実施形態において、「フレーズ単位」とは、呼気段落、息継ぎをするまでの間、一般的には句読点まで、句読点までが長い場合にはその間の意味のまとまりまでを指す。

音声信号処理部９は、生成された合成音声の高さや長さなどを必要に応じて調整する機能を有する。

発話速度調整部１１は、生成された合成音声の発話速度を必要に応じて調整する機能を有する。例えば、非特許文献３（阿部、田村、桑原、「FFTスペクトルからの信号再生砲による音声変換手法」、信学論(D2)、Vol.J72-D-2,No.8,pp1180-1186.(1989.8)）に詳しい。

汎用音声データベース１５は、ハードディスク上などに構築され、任意の音声を合成するために用意された音声合成単位を格納したデータベースである。この合成単位は、通常のテキストからの音声合成のように、日本語のあらゆる音韻系列が合成できるように、音韻の組合せや基本周波数の高さを考慮して設計された特定の話者の音声データベースであって、音韻の境界や基本周波数などの付加情報を具備している。

多数話者音声データベース１７は、ハードディスク上などに構築され、複数の話者の音声データベースを備えて構成されている。例えば、図２に示す例では、話者Ａの音声データベース（ＤＢ番号＝１）、話者Ｂの音声データベース（ＤＢ番号＝２），・・・，話者Ｘの音声データベース（ＤＢ番号＝Ｘ）から成るＸ個の音声データベースを備えている。具体的には、少なくとも音声信号の始終端と音声信号の内容を示すテキスト列との対応をとったものである。特に、文やフレーズなど、従来のテキストからの音声合成で利用されてきた音声単位をはるかに超えた長さの単位を持っている。なお、この多数話者音声データベース１７にも汎用音声データベース１５と同様、音韻の境界や基本周波数などの付加情報を具備させるようにしても良い。

話者特徴テーブル１９は、ハードディスク内などに構築され、多数話者音声データベース１７に保存された複数の話者毎の話者特徴を保存するものである。例えば、図２に示す例では、多数話者データベース１７に保存されたＤＢ番号毎の平均スペクトル（Ｓ１，Ｓ２，・・・，ＳＸ）、および平均基本周波数（Ｈ１，Ｈ２，・・・，ＨＸ）を記憶している。なお、具体的な内容については、非特許文献２（阿部、「発話様式のバリエーション」、日本音響学会誌、51巻11号、pp882-886.(1995.11)）に詳しい。

記録部２１は、ハードディスクなどで構成され、図２に示すように、フレーズ番号毎に選定されたＤＢ番号と、その音韻が一致したフレーズ番号（音韻一致フレーズ番号：ｋ１，ｋ２，・・・，ｋｎ）を記録する。

＜実施形態の動作＞
図３乃至図６は、本発明に係る音声合成装置、音声合成方法の実施形態を説明するフローチャートであり、音声合成単位選択部７における処理手順の詳細を示している。以下に図３乃至図６のフローチャートおよび図２のブロック図を参照しつつ本実施形態の動作を説明する。

先ず、入力された応答文テキストをフレーズ単位に分割する（ステップＳ１）。分割された各フレーズに昇順にフレーズ番号を付与する（ステップＳ３）。この場合、初期フレーズ番号を“１”とし、全フレーズ数を“Ｎ”とする。

次いで、最初のフレーズ（ｉ＝１）について音声合成処理を実行する。この場合は、一番最初のため、前フレーズの合成に用いたデータベースが存在しないので、前フレーズの音声合成に用いた音声データベースの識別子を“NULL”に設定する（ステップＳ５）。

次に、多数話者音声データベース１７を検索して、ｉ番目（最初はｉ＝１）のフレーズにおける音韻が一致するデータベース内での音韻一致フレーズ番号（ｋ）を抽出する。抽出される音韻一致フレーズは多数話者音声データベース１７内で複数の話者音声データベースに存在する場合があるので、それらを組として取得する。取得されたデータベース番号の数をＭ、そのデータベース内での音韻一致フレーズ番号をｋと設定する（ステップＳ７，Ｓ９）。以上のステップＳ１〜Ｓ９は主として図２に示す“フレーズ分割機能７１”で実行される処理である。

上述のようにして取得されたデータベース番号の数が１以上である場合（ステップＳ１１、Yes）、すなわち、複数の話者による音声データベースが存在する場合、前フレーズの音声合成に用いた音声データベースの識別子が予め定めた、前フレーズの合成に用いたデータベースがないことを示す値以外か否かが判定される（ステップＳ１３）。

値以外である場合には、前フレーズの音声合成に用いたデータベースが存在する可能性が高いので、話者特徴テーブル１９から前フレーズの音声合成に用いた音声データベースの識別子に対応する平均スペクトルと基本周波数とを取得する（ステップＳ１５）。以上のステップＳ１１〜Ｓ１５は主として図２に示す“音韻一致ＤＢ取得機能７３”で実行される処理である。

ステップＳ１７の処理では、データベース番号ｊ＝１、選定データベース番号＝ＮＵＬＬとする。これは、予め定めた選定データベースがないことを示す値である。また、初期データとして、距離ｄ＝無限大とする。

次いで、話者特徴テーブル１９を検索して、データベースｊに対応する平均スペクトルと平均周波数とを取得する（ステップＳ２１）。

前フレーズの音声合成に用いた音声データベースとデータベースｊとの間の平均スペクトル距離、基本周波数の高さの違いを算出、２つの距離の和をデータベースｊの距離とする（ステップＳ２３）。

次いで、データベースｊの算出された距離は記録部２１に記録された距離ｄより小さいか否かがチェックされる。距離ｄよりも小さい場合（ステップＳ２５Yes）には、選定データベース番号にｊ、距離ｄにデータベースｊの距離を代入して、記録部２１に記録する（ステップＳ２７）。次いで、ｊを“１”だけインクリメントして次のデータベースｊの処理を同様に実行する（ステップＳ２９，Ｓ１９）。このようにしてｊ＝Ｍになるまで、ステップＳ２１〜Ｓ２７の処理を実行する。以上のステップＳ１７〜Ｓ２７は主として図２に示す“距離最小ＤＢ選定機能７５”で実行される処理である。

全てのデータベースの検索が終了してデータベース番号ｊ＝Ｍになる（ステップＳ１９No）と、ステップＳ３７の処理に進み、フレーズ番号ｉと選定されたＤＢ番号とを対応付けて記録部２１に記録する。記録が終了すると、次のフレーズの処理のため、フレーズ番号ｉを１つインクリメントして（ステップＳ３９）、再び、ステップＳ９からの処理をｉ＝Ｎが成立するまで実行する。

一方、ステップＳ１３の判定処理において、前フレーズの合成に用いたデータベースがない場合（ステップＳ１３No）には、予め定めたルールに従い、Ｍ個のデータベースの中から利用データベースを選定する（ステップＳ３３）。例えば、取得されたＭ個のデータベース番号のうちで最も小さなデータベース番号を選択する等が考えられる。こうしてデータベースが選択されると、選択されたデータベース番号を、前フレーズの音声合成に用いた音声データベースの識別番号とする（ステップＳ３５）。次いで、フレーズ番号ｉと、選定されたデータベース番号とを対応付けて記録部２１に記録し（ステップＳ３７）、次のフレーズの処理を実行するためにステップＳ３９に移行する。

また、ステップＳ１１の判定処理において、取得されたデータベース番号の数Ｍが１未満の場合、すなわち、取得データベースが存在しない場合（ステップＳ１１No）には、前フレーズの音声合成に用いた音声データベースの識別子に、予め定めた「汎用音声合成単位を用いること」を示す値を代入し、すなわち、通常の汎用音声データベース１５を用いた処理を選択し（ステップＳ３１）、次のフレーズの処理を実行するためにステップＳ３９に移行する。

図６に示すフローチャートは、音声合成機能７７の処理手順を示している。

初期処理としてフレーズｉ＝１とし、フレーズｉ＞全フレーズ数Ｎが成立するまで以下のステップ６３までの処理を実行する（ステップＳ５１，Ｓ５３）。先ず、記録部２１よりｉ番目のフレーズに対応する、選定されたＤＢ番号を取得する（ステップＳ５５）。次に、取得したＤＢ番号は、予め定めた汎用合成単位を用いることを示す値以外であるか否かがチェックされる（ステップＳ５７）。汎用合成単位を用いることを示す値以外である、すなわち、多数話者音声データベース１７を使用する音声合成である場合（ステップＳ５７Yes）には、記録部２１に記録された選定ＤＢ番号、音韻一致フレーズ番号の音声データを音声合成結果として、フレーズ番号ｉと対応付けて記録部２１に記録する（ステップＳ５９）。一方、汎用合成単位を用いることを示す値である場合（ステップＳ５７No）には、汎用音声合成単位と韻律生成結果を利用してｉ番目のフレーズを音声合成し、フレーズ番号と対応付けて記録部２１に記録する。このようにして、全フレーズ数Ｎについて音声合成が終了し、記録部２１への書込みが終了する（ステップＳ５３No）と、全フレーズ数Ｎを発話速度調整部１１に受け渡して（ステップＳ６３）、処理を終了する。発話速度調整部１１では、全フレーズについて自然な音声となるように発話速度を調整して最終的な合成音声を生成する。なお、必要に応じて音声信号処理部９を経由させて生成された合成音声の高さや長さなどを調整させるようにしても良い。

＜実施形態の効果＞
以上のように、本実施形態では、文やフレーズなど、比較的長い複数話者の音声データを利用するようにしているので、音韻接続や単語接続のような不連続性の無い合成音声を得ることができる。また、本実施形態では、応答文毎に合成音声の話者性は異なるが、話者性の類似した音声データを選択するように構成しているので、話者性が異なることによる違和感を出来るだけ最小化することができ、トータル的には肉声に近い合成音声を出力することが可能となる。

なお、以上の処理においては、話者特徴テーブル１９を用意しておくように構成したが、音声合成単位選択部７でその都度、特徴量を演算により求めるように構成しても良い。その場合には、話者特徴テーブル１９は不要である。

上述した本実施形態の音声合成装置の各機能、音声合成方法の各ステップは、それぞれの機能、ステップを実現するための音声合成プログラムをコンピュータにインストールすることで実現可能となる。

本発明に係る音声合成装置の一実施形態の構成を示すブロック図である。本発明に係る音声合成装置の一実施形態の詳細な機能構成を示すブロック図である。本発明に係る音声合成装置の一実施形態における処理手順を示すフローチャートである。本発明に係る音声合成装置の一実施形態における処理手順を示すフローチャートである。本発明に係る音声合成装置の一実施形態における処理手順を示すフローチャートである。本発明に係る音声合成装置の一実施形態における処理手順を示すフローチャートである。

符号の説明

１…音声合成装置
３…テキスト解析部
５…韻律生成部
７…音声合成単位選択部
９…音声信号処理部
１１…発話速度調整部
１５…汎用音声データベース
１７…多数話者音声データベース
１９…話者特徴テーブル
２１…記録部

Claims

文単位またはフレーズ単位で複数の話者により生成された話者毎の音声データベースと、
音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析手段と、
このテキスト解析手段により解析された文単位毎またはフレーズ単位毎に、前記話者毎の音声データベースを切り替えて合成音声を生成する音声合成手段と、
を具備することを特徴とする音声合成装置。
前記音声合成手段は、前記話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた話者音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成することを特徴とする請求項１に記載の音声合成装置。
前記音声合成手段により音声合成された合成音声の発話速度を調整する発話速度調整手段を具備することを特徴とする請求項１または２に記載の音声合成装置。
文単位またはフレーズ単位で複数の話者により生成された話者毎の音声データベースを用いてコンピュータにより音声合成を行う音声合成方法であって、
音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析ステップと、
このテキスト解析ステップにより解析された文単位毎またはフレーズ単位毎に前記話者毎の音声データベースを切り替えて合成音声を生成する音声合成ステップと、
を具備することを特徴とする音声合成方法。
前記音声合成ステップは、前記話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた話者音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成することを特徴とする請求項４に記載の音声合成方法。
前記音声合成ステップにより音声合成された合成音声の発話速度を調整する発話速度調整ステップを具備することを特徴とする請求項４または５に記載の音声合成方法。
コンピュータを、請求項１乃至３のいずれか１項に記載の音声合成装置として機能させる音声合成プログラム。