JP4034751B2

JP4034751B2 - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: JP4034751B2
Application number: JP2004106711A
Authority: JP
Inventors: 正統田村; 竜也水谷; 岳彦籠嶋; 勝美土谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-03-31
Filing date: 2004-03-31
Publication date: 2008-01-16
Anticipated expiration: 2024-03-31
Also published as: JP2005292433A

Description

本発明は、音声の韻律系列等に基づいて、音声合成を行う音声合成装置、音声合成方法および音声合成プログラムに関するものである。

任意の文章から人工的に音声信号を作り出す、テキスト音声合成技術が知られている。テキスト音声合成は、一般的に言語処理段階、韻律処理段階および音声合成段階の３つの段階によって行われる。

テキスト音声合成では、まず言語処理段階において入力されたテキストに対して形態素解析や構文解析などが行われる。次に韻律処理段階では、アクセントやイントネーションの処理が行われる。そして、音韻系列・韻律情報（基本周波数、音韻継続時間長、パワーなど）が出力される。最後に、音声信号合成段階では、音韻系列・韻律情報から音声信号を合成する。

このようにテキスト音声合成においては、任意の韻律記号列から音声信号を合成する。したがって、当該テキスト音声合成に用いる音声合成方法は、任意の韻律記号列を任意の韻律で音声合成することができる方法である必要がある。

従来、このような音声合成方法として、音声合成単位がＣＶ、ＣＶＣ、ＶＣＶ（Ｖは母音、Ｃは子音を表す）といった小さな単位の特徴パラメータ（これを代表音声素片という）を記憶し、これらを選択的に読み出した後、基本周波数や継続時間長を制御して接続することにより、音声を合成するというものが知られている（例えば、特許文献１参照）。

また、統計学習に基づく手法として、ＨＭＭに基づく音声合成手法が開示されている（例えば非特許文献１参照）。ＨＭＭに基づく音声合成手法では、スペクトル包絡パラメータおよび基本周波数パラメータを隠れマルコフモデルに基づいて同時にモデル化し、合成時にはパラメータの静的特徴量および動的特徴量の統計量を考慮してスペクトル包絡パラメータおよび基本周波数パラメータを生成する。未知コンテキストに対応する分布は、ＨＭＭの各状態において保持している決定木を辿ることにより選択される。この決定木は各ノードにおいて質問をもち、入力属性情報が各ノードの質問に該当するかどうかで決定木を辿り、リーフノードにおける分布を選択するものである。

特許第２５８３０７４号公報吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、"ＨＭＭに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"，電子情報通信学会論文誌，2000年11月，Vol． J83-D-II，No． 11，pp．2099-21-8，

代表音声素片を使用する音声合成方法においては、予め作成しておいた代表音声素片が利用される。しかし、この方法では、利用できる音声素片は、予め作成しておいた代表音声素片に限定される。したがって、入力される韻律や音韻環境の多様なバリエーションに対応することが難しいという問題があった。

予め作成しておく代表音声素片の数を増加させることにより、入力される韻律環境の多様なバリエーションに対応できるが、その一方で、予め作成しておく代表音声素片の数を増加させた場合には、処理効率が低下してしまう。また、音声合成に割り当てられる計算資源には限界があり、予め作成しておく代表音声素片の数も制限されてしまう。

また、素片選択型の音声合成方法においては、人が自然に聞こえるような音声素片系列を選択する規則をコスト関数として定式化することが困難であるという問題があった。さらに、不良素片の排除が困難であるという問題があった。

本発明は、上記に鑑みてなされたものであって、自然で高品質な音声を効率的に合成することのできる音声合成装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と、当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段と、予め設定されている教師音声の韻律を示す教師音声韻律情報と前記音声素片保持手段に保持されている前記音声素片韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択手段と、前記音声素片選択手段によって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組合せ決定手段と、決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成手段と、決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成手段と、前記融合音声素片作成手段によって作成された前記融合音声素片と、前記融合音声素片韻律情報作成手段によって作成された前記融合音声素片韻律情報とを対応付けて保持する融合音声素片保持手段と、音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得手段と、前記取得手段によって得られた前記セグメントの韻律を示すセグメント韻律情報と前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報との間の歪みの度合いを推定する保持音声歪み推定手段と、前記保持音声歪み推定手段によって推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択手段と、前記融合音声素片選択手段が各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成手段とを備えたことを特徴とする。

また、本発明は、同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップとを有することを特徴とする。

また、本発明は、音声合成処理をコンピュータに実行させる音声合成プログラムであって、同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップとを有することを特徴とする。

本発明にかかる音声合成装置は、融合音声素片保持手段が、融合音声素片と、当該融合音声素片の融合音声素片韻律情報とを対応付けて保持し、保持音声歪み推定手段によって推定された歪みの度合いに基づいて、融合音声素片選択手段が選択した融合音声素片を利用して音声合成を行うので、音声合成時に融合音声素片を作成する場合に比べて、処理の効率化を図ることができ、かつ自然で高品質な音声を合成することができるという効果を奏する。

以下に、本発明にかかる音声合成装置、音声合成方法および音声合成プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

（実施の形態１）
図１は、本発明の第１の実施形態に係るテキスト音声合成装置の全体構成を示すブロック図である。テキスト音声合成装置１０は、テキスト取得部１１と、言語処理部１２と、韻律処理部１３と、音声合成部１４と、音声波形出力部１５とを備えている。

テキスト取得部１１は、外部から音声合成の対象となるテキストデータを取得する。言語処理部１２は、テキスト取得部１１が取得したテキストデータの形態素解析・構文解析を行う。そして、その結果を韻律処理部１３へ送る。

韻律処理部１３は、言語解析結果に基づいて、テキストデータのアクセントやイントネーションなどを特定する。すなわち、韻律に関する特性を特定する。韻律処理部１３は、特定した韻律に関する特性に基づいて、音声合成の目標となる目標音声の音韻系列（音韻記号列）及び韻律情報を生成する。そして、韻律系列および韻律情報を音声合成部１４へ送る。ここで、韻律情報とは、基本周波数、音韻継続時間長、およびパワーなどを示す情報である。

音声合成部１４は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部１５で出力される。

図２は、図１の音声合成部１４の詳細な構成を示すブロック図である。音声合成部１４は、音韻系列・韻律情報取得部１１０と、歪み推定部１３０と、融合音声素片選択部１４０と、融合音声素片編集・接続部１５０と、融合音声素片作成部１８０と、融合音声素片記憶部１６０と、融合音声素片音素環境記憶部１７０とを有している。

音韻系列・韻律情報取得部１１０は、韻律処理部１３から目標音声の音韻系列及び韻律情報を取得する。以下、音韻系列・韻律情報取得部１１０が取得する音韻系列および韻律情報を、それぞれ入力音韻系列および入力韻律情報と称する。入力音韻系列は、例えば音韻記号の系列である。

一方、融合音声素片記憶部１６０は、既に作成されている複数の融合音素片を格納している。ここで、融合音声素片とは、同一の音声単位に対する複数の音声素片を融合することにより得られた音声素片である。なお、本実施の形態における音声単位は音素である。なお、音声単位は音素に限定されるものではない。また、融合音声素片記憶部１６０は、同一の音素に対する複数の音声素片であって、かつ当該音素の韻律が互いに異なる複数の音声素片を格納している。

融合音声素片記憶部１６０は、合成音声を生成する際に用いる音声の単位（合成単位）で融合音声素片を格納している。

ここで、合成単位とは、音素または音素を分割したものの組み合わせである。例えば、半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などである（Ｖは母音、Ｃは子音を表す）。または、これらが混在していてもよい。この場合は、可変長であってもよい。

融合音声素片音素環境記憶部１７０は、融合音声素片記憶部１６０に格納されている融合音声素片に対する融合音声素片音素環境を格納している。

ここで、融合音声素片音素環境とは、当該融合音声素片にとっての環境となる要因の組み合わせに対応する情報である。要因としては、例えば、当該融合音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、および感情などがある。このように、融合音声素片音素環境は、融合音声素片の韻律を示す融合音声素片韻律情報を含む情報である。

なお、融合音声素片記憶部１６０に格納される融合音声素片と、融合音声素片音素環境記憶部１７０に格納される当該融合音声素片に対する融合音声素片音素環境とは対応付けられている。具体的には、例えば、融合音声素片音素環境記憶部１７０に格納されている前記融合音声素片音素環境は、対応する融合音声素片を識別する融合音声素片番号を対応付けて格納されていてもよい。

ここで、本実施の形態における融合音声素片記憶部１６０および融合音声素片音素環境記憶部１７０は、特許請求の範囲に記載の融合音声素片保持手段を構成する。

融合音声素片作成部１８０は、融合音声素片記憶部１６０に格納すべき融合音声素片および融合音声素片音素環境記憶部１７０に格納すべき融合音声素片音素環境を作成する。本実施の形態においては、融合音声素片作成部１８０は予め融合音声素片および融合音声素片音素環境を作成し、融合音声素片記憶部１６０および融合音声素片音素環境記憶部１７０に格納している。

歪み推定部１３０は、融合音声素片音素環境記憶部１７０に格納されている融合音声素片音素環境と、歪み推定部１３０から取得した、所定のセグメントに対する入力韻律情報とに基づいて、当該セグメントと融合音声素片音素環境記憶部１７０に格納されている融合音声素片音素環境との歪みの度合いを推定する。

ここで、本実施の形態にかかる歪み推定部１３０は、本発明の保持音声歪み推定手段と、作成音声歪み推定手段を構成する。

融合音声素片選択部１４０は、歪み推定部１３０によって推定された歪みの度合いに基づいて、融合音声素片記憶部１６０から融合音声素片を選択する。

具体的には、まず、歪み推定部１３０は、所定のセグメントに対する入力韻律情報と融合音声素片音素環境記憶部１７０に格納されている複数の融合音声素片音素環境それぞれとの歪みの度合いを推定する。そして、融合音声素片選択部１４０は、各融合音声素片環境に対して得られた歪みの度合いの最小値を特定する。そして、最小値を示す融合音声素片環境に対応する融合音声素片を融合音声素片記憶部１６０から選択する。これにより、入力音韻系列の音韻記号の系列に対応する融合音声素片の系列を得ることができる。なお、歪みの度合いを推定する方法については後述する。

融合音声素片編集・接続部１５０は、各セグメントに対して得られた融合音声素片の系列を適宜編集し、接続する。これにより合成音声の音声波形が生成される。こうして生成された音声波形は音声波形出力部１５を介して外部に出力される。

図３は、図２において説明した融合音声素片作成部１８０の詳細な機能構成を示すブロック図である。融合音声素片作成部１８０は、音声素片記憶部１８１と、融合音声素片音素環境記憶部１８２と、音声素片組み合わせ作成部１８３と、融合音声素片作成部１８４と、融合音声素片音素環境作成部１８５とを有している。

音声素片記憶部１８１は、大量の音声素片を格納している。また、融合音声素片音素環境記憶部１８２は、音声素片記憶部１８１に格納されている音声素片にそれぞれに対する音声素片音素環境を格納している。音声素片記憶部１８１に格納されている音声素片の合成単位は、融合音声素片記憶部１６０に格納がされている融合音声素片の合成単位と同一である。

音声素片記憶部１８１に格納される音声素片と、融合音声素片音素環境記憶部１８２に格納される音声素片音素環境とは対応付けられている。具体的には、例えば、融合音声素片音素環境記憶部１８２に格納されている音声素片音素環境は、対応する音声素片を識別する音声素片番号を対応付けて格納されていてもよい。

本実施の形態における音声素片記憶部１８１および融合音声素片音素環境記憶部１８２は、特許請求の範囲に記載の音声素片保持手段を構成する。

音声素片組み合わせ作成部１８３は、融合音声素片音素環境記憶部１８２に格納されている音声素片音素環境に基づいて、音声素片記憶部１８１に格納されている複数の音声素片の中から、融合すべき複数の音声素片の組み合わせを決定する。

融合音声素片作成部１８４は、音声素片組み合わせ作成部１８３によって決定された組み合わせに含まれる音声素片を音声素片記憶部１８１から抽出する。さらに、抽出した音声素片を融合することにより、融合音声素片を作成する。融合音声素片作成部１８４は、作成した融合音声素片を融合音声素片記憶部１６０に格納する。

融合音声素片音素環境作成部１８５は、音声素片組み合わせ作成部１８３によって決定された組み合わせに含まれる音声素片の音声素片音素環境を融合音声素片音素環境記憶部１８２から抽出する。さらに、抽出した音声素片音素環境に基づいて、融合音声素片音素環境を作成する。融合音声素片音素環境作成部１８５は、作成した融合音声素片音素環境を融合音声素片音素環境記憶部１７０に格納する。

具体的には、融合音声素片音素環境作成部１８５は、各音声素片の音声素片音素環境のセントロイドを用いて融合音声素片音素環境を作成する。

他の例としては、音声素片組み合わせ作成部１８３によって決定された組み合わせに含まれる複数の音声素片それぞれの音声素片音素環境を、融合音声素片音素環境として作成してもよい。

ここで、本実施の形態にかかる融合音声素片作成部１８４は、特許請求の範囲に記載の音声素片選択手段と、融合音声素片作成手段とを構成する。また、本実施の形態にかかる融合音声素片音素環境作成部１８５は、特許請求の範囲に記載の音声素片選択手段と融合音声素片韻律情報作成手段とを構成する。

図４は、図３に示した音声素片組み合わせ作成部１８３の詳細な機能構成を示すブロック図である。音声素片組み合わせ作成部１８３は、音声素片組み合わせ頻度情報記憶部１８３５と、音韻系列・韻律情報取得部１８３１と、音声素片選択部１８３２と、音声素片組み合わせ頻度情報作成部１８３３と、音声素片組合せ決定部１８３４とを有している。

音韻系列・韻律情報取得部１８３１は、文章データを解析して得られる音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対する音韻および入力韻律情報を取得する。なお、入力韻律情報等は、図１において説明した韻律処理部１３から取得する。

複数音声素片選択部１８３２は、入力韻律情報と、融合音声素片音素環境記憶部１８２に格納されている融合音声素片音素環境との間の歪みの度合いを推定する。そして、歪みの度合いに基づいて、音声素片記憶部１８１に格納されている音声素片の中から複数の音声素片を選択する。選択方法は、融合音声素片選択部１４０における選択方法と同じ方法であってもよい。

音声素片組み合わせ頻度情報作成部１８３３は、複数音声素片選択部１８３２において選択された複数の音声素片の組み合わせの使用頻度をカウントする。そして、カウントした使用頻度を音声素片組み合わせ頻度情報記憶部１８３５に格納する。

音声素片組合せ決定部１８３４は、前記音声素片組み合わせ頻度情報記憶部１８３５に格納された頻度情報に基づいて、複数の音声素片の組み合わせを決定する。音声素片組合せ決定部１８３４は、例えば、選択した複数の音声素片の使用頻度が、予め定めた閾値以上となるように、複数の音声素片を選択してもよい。

また、他の例としては、複数の組み合わせのうち、使用頻度の高い融合音声素片に対応する組み合わせを選択してもよい。例えば、融合音声素片記憶部１６０に格納すべき融合音声素片の数を制限している場合等に有効である。

このように、融合音声素片を作成するために選択する音声素片の組み合わせの選択方法は、本実施の形態に限定されるものではなく、予め定められた条件に基づいて選択すればよい。

以下、音声合成部１４の各処理について詳しく説明する。ここでは、合成単位の音声素片は音素であるとする。

図５は、融合音声素片記憶部１６０のデータ構成を模式的に示している。また、図６は、融合音声素片音素環境記憶部１７０のデータ構成を模式的に示している。

融合音声素片記憶部１６０は、図５に示すように、各音素の音声信号をピッチ波形として格納している。さらに各音声信号を当該音素を識別するための融合音声素片番号に対応付けて格納している。

ここで、ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものを意味する。

また、融合音声素片音素環境記憶部１７０は、図６に示すように、融合音声素片記憶部１６０に記憶されている各融合音声素片の音素環境情報を、当該音素の素片番号に対応付けて格納している。本実施の形態にかかる融合音声素片音素環境記憶部１７０は、音素環境として、音素記号（音素名）、基本周波数、音韻継続長、接続境界ケプストラムを格納している。

なお、本実施の形態においては、融合音声素片は音素単位であるが、他の例としては、半音素、ダイフォン、トライフォン、音節であってもよい。また、これらの組み合わせであってもよい。

次に、図２において説明した歪み推定部１３０の処理について詳述する。歪み推定部１３０は、コスト関数により算出されたコストに基づいて歪みの度合いを推定する。そして、融合音声素片選択部１４０は歪み推定部１３０によって推定されたコストに基づいて融合音声素片を選択する。

ここで、コスト関数とは、テキストデータに含まれる全セグメントに対する歪みの度合いによって定まる関数である。

以下、コスト関数について詳述する。融合音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因ごとにサブコスト関数を定める。ここで、サブコスト関数とは、融合音声素片記憶部１６０に記憶されている融合音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するための関数である。

サブコスト関数をＣｎ（ｕｉ、ｕｉ−１、ｔｉ）（ｎ：１、…、Ｎ、Ｎはサブコスト関数の数）と定める。ここで、ｔｉは、入力音韻系列および入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ１、…、ｔＩ）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表し、ｕｉは融合音声素片記憶部１６０に記憶されている融合音声素片のうち、ｔｉと同じ音韻の融合音声素片を表す。

具体的には、当該コストを算出する際に、目標コストと接続コストの２種類のサブコストを用いる。ここで、目標コストとは、融合音声素片を使用することによって生じる合成音声の目標音声に対する歪みの度合いを推定するためのコストである。また、接続コストとは、融合音声素片を他の音声素片と接続したときに生じる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストである。

さらに、目標コストとして、基本周波数コストおよび音韻継続時間長コストを用いる。ここで、基本周波数コストとは、融合音声素片記憶部１６０に記憶されている融合音声素片の基本周波数と目標の基本周波数との違い（差）を表すコストである。また、音韻継続時間長コストとは、融合音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表すコストである。接続コストとしては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストを用いる。

具体的には、基本周波数コストは、次式によって定義される。

ここで、ｖｉは融合音声素片記憶部１６０に記憶されている音声素片ｕｉの音素環境を、ｆは音素環境ｖｉから基本周波数を取り出す関数を表す。また、音韻継続時間長コストは、次式によって定義される。

ここで、ｇは音素環境ｖｉから音韻継続時間長を取り出す関数を表す。スペクトル接続コストは、２つの音声素片間のケプストラム距離によって算出される。

なお、２つの音声素片間のケプストラム距離は次式によって定義される。

ここで、ｈは融合音声素片ｕｉの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。

これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する。合成単位コスト関数は次式によって定義される。

ここで、ｗｎはサブコスト関数の重みを表す。本実施形態では、簡単のため、ｗｎはすべて「１」とする。上記式（４）は、ある合成単位に、ある融合音声素片を当てはめた場合の当該融合音声素片の合成単位コストである。

入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式（４）から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式（５）に示すように定義する。

融合音声素片選択部１４０は、（５）に示したコスト関数を使って１セグメントあたり（すなわち、１合成単位あたり）の融合音声素片を選択する。選択の際は、融合音声素片記憶部１６０に記憶されている融合音声素片群の中から、上記式（５）で算出されるコストの値が最小の融合音声素片の系列を求める。このコストが最小となる融合音声素片の組合せを最適素片系列と呼ぶこととする。すなわち、最適素片系列中の各融合音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適素片系列中の各融合音声素片から算出された上記合成単位コストと式（５）より算出されたコストの値は、他のどの融合音声素片系列よりも小さい値である。

なお、最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いてもよい。これにより、探索処理の更なる効率化を図ることができる。

次に、図７を参照しつつ、図２において説明した融合音声素片編集・接続部１５０の処理について詳述する。融合音声素片編集・接続部１５０は、融合音声素片選択部１４０で選択された最適素片系列の融合音声素片を、入力韻律情報に従って変形する。そして、変形後の融合音声素片を接続して合成音声の音声波形を生成する。

融合音声素片記憶部１６０は、融合音声素片はピッチ波形の形で格納されている。そこで、当該融合音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳して音声波形を生成する。

図７を参照しつつ、音素「ｍ」、「ａ」、「ｄ」、「ｏ」の各合成単位について選択された融合音声素片を変形・接続して、「まど」という音声波形を生成する場合の処理について具体的に説明する。

図７に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて、セグメント（合成単位）毎に、融合された音声素片中の各ピッチ波形の基本周波数の変更（音の高さの変更）、ピッチ波形の数の増減（時間長の伸縮）を行う。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。

なお、本実施の形態にかかる歪み推定部１３０は、コスト関数による演算結果を歪みの度合いとして利用したが、歪みの度合いを評価する値はこれに限定されるものではない。

次に、融合音声素片作成部１８０の処理について説明する。音声素片記憶部１８１および、融合音声素片音素環境記憶部１８２には、音声データベースを分析して得られる音声素片および、その音素環境情報が保存されている。音声素片記憶部１８１には、大量の音声素片が蓄積されており、それらの音声素片の音素環境の情報（音素環境情報）が融合音声素片音素環境記憶部１８２に蓄積されている。音声素片記憶部１８１には、合成音声を生成する際に用いる音声の単位（合成単位）の音声素片が記憶されている。音声素片の合成単位は融合音声素片と同じ単位であり、音素環境情報の種類も融合音声素片と同じものであるとする。

図８は音声素片記憶部１８１のデータ構成を模式的に示している。音声素片記憶部１８１は、各音素の音声信号の波形と当該音素を識別するための素片番号とを対応付けて格納している。また、図９は融合音声素片音素環境記憶部１８２のデータ構成を模式的に示している。融合音声素片音素環境記憶部１８２には、融合音声素片音素環境記憶部１７０と同様に、音声素片記憶部１８１に記憶されている各音声素片の音素環境情報と当該音素の素片番号とを対応付けて格納している。

音声素片記憶部１８１に記憶されている各音声素片は、別途収集された多数の音声データに対して音素毎にラベリングを行い、音素毎に音声波形を切り出したものを、音声素片として蓄積したものである。

例えば、図１０には、音声データ１０１に対し、音素毎にラベリングを行った結果を示している。図１０には、ラベリングの境界１０２により区切られた各音素の音声データ（音声波形）について、音素記号を示している。なお、この音声データから、各音素についての音素環境の情報（例えば、音韻（この場合、音素名（音素記号））、基本周波数、音韻継続時間長など）を併せて抽出する。

以上の処理により音声データ１０１から求めた各音声波形と、当該音声波形に対応する音素環境の情報に、同じ素片番号が付与される。そして、図８および図９に示すように、音声素片記憶部１８１と融合音声素片音素環境記憶部１８２にそれぞれ格納される。ここでは、音素環境情報には、音声素片の音韻とその基本周波数及び音韻継続時間長を含むものとする。

なお、ここでは、音声素片が音素単位に抽出する場合をしめしているが、音声素片が半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であっても上記同様である。

融合音声素片作成部１８４は、後述する音声素片組み合わせ作成部１８３によって作成された組み合わせに含まれる複数の音声素片を音声素片記憶部１８１から取得する。そして、取得した複数の音声素片を融合して融合音声素片を作成する。なお、融合音声素片作成部１８４は、対象となる音声素片が有声音である場合と無声音である場合とで別の処理を行う。

まず、有声音の場合について説明する。有声音の場合には、音声素片からピッチ波形を取り出し、ピッチ波形のレベルで融合し、新たなピッチ波形を作りだす。ピッチ波形の抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やＰＳＥ分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪が小さくなるようなピッチ波形を求める方法など様々なものがある。

本実施の形態においては、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出する。図１１を参照しつつ、音声素片組み合わせ作成部１８３で決められたＭ個の音声素片を融合して１つの新たな音声素片を生成する場合の処理手順を説明する。

ステップＳ１１１において、Ｍ個の音声素片のそれぞれの音声波形に、その周期間隔毎にマーク（ピッチマーク）を付与する。図１２−１には、Ｍ個の音声素片のうちの１つの音声素片の音声波形１２１に対し、その周期間隔毎にピッチマーク１２２が付けられている場合を示している。

ステップＳ１１２では、図１２−２に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。窓にはハニング窓１２３を用い、その窓長は基本周期の２倍とする。そして、図１２−３に示すように、窓掛けされた波形１２４をピッチ波形として切り出す。

Ｍ個の音声素片のそれぞれについて、図１２−１から図１２−３に示す処理（ステップＳ１１２の処理）を施す。その結果、Ｍ個の音声素片のそれぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。

次にステップＳ１１３に進み、当該セグメントのＭ個の音声素片のそれぞれのピッチ波形の系列のなかで、最もピッチ波形の数が多いものに合わせて、Ｍ個全てのピッチ波形の系列中のピッチ波形の数が同じになるように、（ピッチ波形の数が少ないピッチ波形の系列については）ピッチ波形を複製して、ピッチ波形の数を合わせる。

図１３は、当該セグメントのＭ個（例えば、ここでは、３個）の音声素片ｄ１〜ｄ３のそれぞれから、ステップＳ１１２で切り出されたピッチ波形の系列ｅ１〜ｅ３を示している。ピッチ波形の系列ｅ１中のピッチ波形の数は７個、ピッチ波形の系列ｅ２中のピッチ波形の数は５個、ピッチ波形の系列ｅ３中のピッチ波形の数は６個である。すなわち、ピッチ波形の系列ｅ１〜ｅ３のうち最もピッチ波形の数が多いものは、系列ｅ１である。

従って、この系列ｅ１中のピッチ波形の数（例えば、ここでは、ピッチ波形の数は、７個）に合わせる。他の系列ｅ２、ｅ３については、それぞれ、当該系列中のピッチ波形のいずれかをコピーして、ピッチ波形の数を７個にする。その結果得られた、系列ｅ２、ｅ３のそれぞれに対応する新たなピッチ波形の系列がｅ２´、ｅ３´である。

次に、ステップＳ１１４に進む。このステップでは、ピッチ波形ごとに処理を行う。ステップＳ１１４では、当該セグメントのＭ個のそれぞれの音声素片に対応するピッチ波形をその位置ごとに平均化し、新たなピッチ波形の系列を生成する。この生成された新たなピッチ波形の系列を融合された音声素片とする。

図１４は、当該セグメントのＭ個（例えば、ここでは、３個）の音声素片ｄ１〜ｄ３のそれぞれからステップＳ１１３で求めたピッチ波形の系列ｅ１、ｅ２´、ｅ３´を示している。各系列中には、７個のピッチ波形があるので、ステップＳ１１４では、１番目から７番目のピッチ波形をそれぞれ３つの音声素片で平均化し、７個の新たなピッチ波形からなる新たなピッチ波形の系列ｆ１を生成している。すなわち、例えば、系列ｅ１の１番目とピッチ波形と、系列ｅ２´の１番目のピッチ波形と、系列ｅ３´の１番目のピッチ波形のセントロイドを求めて、それを新たなピッチ波形の系列ｆ１の１番目のピッチ波形とする。新たなピッチ波形の系列ｆ１の２番目〜７番目のピッチ波形についても同様である。ピッチ波形の系列ｆ１が、上記「融合音声素片」である。

一方、融合音声素片作成部１８４の処理において、無声音のセグメントの場合には、素片選択ステップＳ１１１で当該セグメントのＭ個の音声素片のうち、当該Ｍ個の音声素片から音声素片を一つ選択し、選択した音声素片の音声波形をそのまま使用する。すなわち、選択した音声素片の音声波形を融合音声素片記憶部１６０に蓄積する。なお、便宜的にこれも融合音声素片と呼ぶ。組み合わせに順位がつけられている場合は、１位の素片を選択することにより音声素片を決める。

融合音声素片音素環境作成部１８５は、上記組み合わせの音素環境に基づいて、融合音声素片の音素環境を作成する。融合音声素片の音素環境は、各音素環境のセントロイドとして求める。この場合、融合音声素片の基本周波数ｆは、各音声素片の基本周波数をｆｍ（１≦m≦Ｍ）とすると、次式によって定義される。

融合音声素片の継続時間長Ｔは、各音声素片の継続時間長をＴｍ（１≦m≦Ｍ）とすると、次式によって定義される。

融合音声素片の接続境界のケプストラムｃは、各音声素片の接続境界のケプストラムをｃｍ（１≦m≦Ｍ）とすると、次式によって定義される。

これらの処理により、融合音声素片およびその音素環境を作成する。そして、融合音声素片記憶部１６０および融合音声素片音素環境記憶部１７０に格納する。

次に、音声素片組み合わせ作成部１８３の処理について詳述する。音声素片組み合わせ作成部１８３は、融合音声素片作成部１８４において融合すべき音声素片の組み合わせを作成する。本実施形態では、融合音声素片選択部１４０の処理において前述したコスト関数に基づいて複数の音声素片を選択する。さらには、使用頻度に基づいて、融合する複数の音声素片の組み合わせを決定する。

前述したコスト関数は融合音声素片の音素環境情報に基づいてコストを計算しているが、ここでは音声素片に対応する音素環境情報に基づいて計算する。まず、各音声素片の組み合わせの使用頻度を求めるための文章データを用意する。それぞれの文章データを図１のテキスト取得部１１、言語処理部１２、韻律処理部１３により処理し、音韻系列と、韻律情報とを求める。音韻系列を合成単位で区切ることにより得られる各セグメントのそれぞれに対し、前記韻律情報と、融合音声素片音素環境記憶部１８２に含まれる音素環境情報との間のコストに基づいて１セグメントあたり（すなわち、１合成単位あたり）複数の音声素片を選択する。

図１５は、このときの処理を説明するためのフローチャートである。まず、ステップＳ１５１において最適な音声素片のパスを、融合音声素片の最適パス計算と同様に、コスト関数および、動的計画法を利用して求める。

次に、ステップＳ１５２に進み、最適素片系列を用いて、１セグメントあたり複数の音声素片を選ぶ。ここでは、セグメントの数をJ個とし、セグメントあたりＭ個の音声素片を選ぶこととして説明する。ステップＳ１５２の詳細を説明する。

ステップＳ１５３およびＳ１５４では、Ｊ個のセグメントのうちの１つを注目セグメントとする。ステップＳ１５３およびＳ１５４はＪ回繰り返され、Ｊ個のセグメントが1回ずつ注目セグメントとなるように処理を行う。まず、ステップＳ１５３では、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部１８１に記憶されている音声素片を式（５）のコストの値に応じて順位付けし、上位Ｍ個を選択する。

例えば、図１６に示すように、入力音韻系列が「ｔｓ・ｉ・ｉ・ｓ・ａ・…」であるとする。この場合、合成単位は、音素「ｔｓ」、「ｉ」、「ｉ」、「ｓ」、「ａ」、…のそれぞれに対応し、これら音素のそれぞれが１つのセグメントに対応する。図１６では、入力された音韻系列中の３番目の音素「ｉ」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この３番目の音素「ｉ」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片１６１ａ、１６１ｂ、１６１ｄ、１６１ｅ…を固定する。

この状態で、音声素片記憶部１８１に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ音声素片のそれぞれについて、式（５）を用いてコストを算出する。ただし、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。

（手順１）音声素片記憶部１８１に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ音声素片のうちの１つを音声素片ｕ３とする。音声素片ｕ３の基本周波数ｆ（ｖ３）と、目標の基本周波数ｆ（ｔ３）とから、式（１）を用いて、基本周波数コストを算出する。

（手順２）音声素片ｕ３の音韻継続時間長ｇ（ｖ３）と、目標の音韻継続時間長ｇ（ｔ３）とから、式（２）を用いて、音韻継続時間長コストを算出する。

（手順３）音声素片ｕ３のケプストラム係数ｈ（ｕ３）と、音声素片１６１ｂ（ｕ２）のケプストラム係数ｈ（ｕ２）とから、式（３）を用いて、第１のスペクトル接続コストを算出する。また、音声素片ｕ３のケプストラム係数ｈ（ｕ３）と、音声素片１６１ｄ（ｕ4）のケプストラム係数ｈ（ｕ4）とから、式（３）を用いて、第２のスペクトル接続コストを算出する。

（手順４）上記（手順１）〜（手順３）で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第１及び第２のスペクトル接続コストの重み付け和を算出して、音声素片ｕ３のコストを算出する。

（手順５）音声素片記憶部１８１に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ各音声素片について、上記（手順１）〜（手順４）に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う（図１５のステップＳ１５３）。そして、上位Ｍ個の音声素片を選択する（図１５のステップＳ１５４）。例えば、図１６では、音声素片１６２ａが最も順位が高く、音声素片１６２ｄが最も順位が低い。

以上の（手順１）〜（手順５）をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、Ｍ個ずつの音声素片が得られる。

すべての入力文章の各セグメントに対して、上記手順により、Ｍ個の音声素片を選択し、選択されたＭ個の音声素片の素片番号を、音声素片組み合わせ頻度情報作成部１８３３に渡す。音声素片組み合わせ頻度情報作成部１８３３では、素片番号の組み合わせの頻度情報を、複数音声素片組み合わせ頻度情報記憶部１８３５に蓄積する。

図１７は、複数音声素片組み合わせ頻度情報記憶部１８３５に格納されている複数音声素片組み合わせ頻度情報の例を示す。複数音声素片組み合わせ情報は、組み合わせの番号、音韻（音素名）、１位からＭ位までの音声素片の素片番号とともに、その出現度数が保持されている。入力されたＭ個の音声素片の素片番号が、複数音声素片組み合わせ頻度情報に存在する場合はその組み合わせに対応する出現度数に１を加え、存在しない場合はその組み合わせを追加して、出現度数を１とする。これをすべてのセグメントの組み合わせに対して行うことにより、入力文章に対する出現頻度情報が作成される。

次に、音声素片組合せ決定部１８３４において、実際に融合する音声素片の組み合わせを決定する。組み合わせの決め方は、いくつか考えられるが、予め出現度数の閾値を決めて、複数の音声素片の組み合わせの出現度数がその閾値より大きい素片を利用する方法、音素毎の素片数の上限を定め、出現頻度順に素片を選択する方法、全体の融合音声素片群のサイズを決め、そのサイズを超えない範囲で出現頻度順に選ぶ方法などが挙げられる。

図１７の頻度情報において、出現頻度の閾値を３０とした場合は、０番の/a/と、２番の/i/は融合音声素片を作成するが、１番の/a/は作成しないことになる。

ここで、第１の実施形態に係る音声合成手法と、従来の音声合成手法との違いについて説明する。ＣＯＣに基づく方法、ＨＭＭに基づく方法では、融合された音韻パラメータを保持し、合成時は融合された音韻パラメータに基づいて合成しているものの、選択する際に決定木を用いている。このため韻律情報の歪みの度合いに基づいて選択を行う本実施形態とは異なる選択手法となっている。

本実施形態の手法は決定木の形でクラスタリングする手法と比べ、合成時の自由度が高く、大量の融合音声素片から容易に融合音声素片を選択することができるため、スケーラブルな合成器にしやすい点、すなわち融合音声素片記憶部１６０のサイズを大きくするにしたがって、高音質な合成音声が得られる点などの利点を持つ。

従来の素片選択型音声合成では、合成単位あたり、一つの音声素片を選択して、接続することで合成を行うが、本実施形態では選択される音声素片が音声波形そのものではなく、融合された音声素片となっている。融合された音声素片を用いることで、安定で高品質な音声素片となり、より自然で高品質な合成音声を生成することができる。また、合成単位あたりの融合音声素片は、事前に作成されているため、合成時の処理量は、素片選択型の音声合成方式に近く、高速に音声合成ができる。

図１８は、実施例１に係るテキスト音声合成装置１０のハードウェア構成を示す図である。テキスト音声合成装置１０は、ハードウェア構成として、テキスト音声合成装置１０における音声合成処理を実行する音声合成プログラムなどが格納されているＲＯＭ５２と、ＲＯＭ５２内のプログラムに従ってテキスト音声合成装置１０の各部を制御し、バッファリング時間変更処理等を実行するＣＰＵ５１と、ワークエリアが形成され、テキスト音声合成装置１０の制御に必要な種々のデータを記憶するＲＡＭ５３と、ネットワークに接続して通信を行う通信I／Ｆ５７と、各部を接続するバス６２とを備えている。

先に述べたテキスト音声合成装置１０における音声合成プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（Ｒ）ディスク（ＦＤ）、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。

この場合には、音声合成プログラムは、テキスト音声合成装置１０において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、本実施例の音声合成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

(実施の形態２)
次に、実施の形態２にかかるテキスト音声合成装置１０について説明する。図１９は、実施の形態２にかかるテキスト音声合成装置１０の音声合成部１４の詳細な機能構成を示すブロック図である。

実施の形態２にかかる音声合成部１４は、融合音声素片音素環境記憶部１７０を有さない。また、実施の形態２にかかる音声合成部１４は、融合音声素片組み合わせ記憶部２００を有する。

融合音声素片組み合わせ記憶部２００は、融合音声素片記憶部１６０に格納されている融合音声素片に含まれる音声素片の組み合わせを各融合音声素片に対応付けて格納している。

図２０は、融合音声素片組み合わせ記憶部２００のデータ構成を模式的に示している。融合音声素片組み合わせ記憶部２００は、音韻名、音声素片の組み合わせそれぞれの順位および番号、および融合音声素片番号を対応付けて格納している。

実施の形態２においては、音韻系列・韻律情報取得部１１０は、韻律処理部１３から取得した入力韻律系列および入力韻律情報を融合音声素片作成部１８０に送る。融合音声素片作成部１８０は、取得した入力韻律系列および入力韻律情報に基づいて複数の音声素片の組み合わせを選択する。そして、歪み推定部１３０は、融合音声素片作成部１８０によって選択された音声素片の組み合わせと、音韻系列・韻律情報取得部１１０から取得した入力韻律情報との間の歪みの度合いを推定する。

融合音声素片選択部１４０は、歪み推定部１３０が推定した歪みの度合いが最少となる組み合わせを選択する。そして、選択した組み合わせが融合音声素片組み合わせ記憶部２００に格納されているか否かを判断する。融合音声素片組み合わせ記憶部２００に格納されている場合には、融合音声素片記憶部１６０から当該組み合わせに対応する融合音声素片を抽出する。一方、選択した組み合わせが融合音声素片組み合わせ記憶部２００に格納されていない場合には、融合音声素片作成部１８０に対して、当該組み合わせに対する融合音声素片を作成するよう指示する。

図２１は、実施の形態２にかかる融合音声素片作成部１８０の詳細な機能構成を示すブロック図である。実施の形態２に係る融合音声素片作成部１８０は、融合音声素片音素環境作成部１８５を有さない。そして、融合音声素片作成部１８０は、融合音声素片音素環境を作成しない。

また、音声素片組み合わせ作成部１８３は、音韻系列・韻律情報取得部１１０から取得した入力韻律情報等に基づいて、音声素片の組み合わせを作成する。音声素片組み合わせ作成部１８３は、実施の形態１において図１５を参照しつつ説明した処理によって複数の音声素片を選択する。音声素片組み合わせ作成部１８３は、作成した音声素片の組み合わせを示す組み合わせ情報を融合音声素片組み合わせ記憶部２００に格納する。融合音声素片作成部１８４は、融合音声素片選択部１４０からの指示により、指示された複数の音声素片から融合音声素片を作成する。

図２２は、実施の形態２にかかる融合音声素片選択部１４０が融合音声素片を選択する処理を示すフローチャートである。

まず、ステップＳ２１２において、歪み推定部１３０が推定した歪みの度合いに基づいて、融合音声素片とすべき音声素片の組み合わせを決定する。次に、ステップＳ２１２で決定した組み合わせが融合音声素片組み合わせ記憶部２００に格納されているか否かを判定する。

本実施の形態においては、ステップＳ２１２で決定した音声素片の組み合わせの１位からＭ位までの音声素片番号が、融合音声素片と一致する場合に、融合音声素片が融合音声素片記憶部１６０に保持されていると判定する。一方、一致しない場合には融合音声素片記憶部１６０に保持されていないと判定する。ステップＳ２１２で決定した組み合わせの融合音声素片が融合音声素片記憶部１６０に保持されていると判定した場合、ステップＳ２１３に進む。

ステップＳ２１３では、融合音声素片組み合わせ記憶部２００を参照し、組み合わせに対応する融合音声素片番号を取得する。そして、取得した融合音声素片番号に基づいて、融合音声素片記憶部１６０から対応する融合音声素片を取得する。

ステップＳ２１２において、融合音声素片が融合音声素片記憶部１６０に存在しないと判定された場合は、ステップＳ２１４において、融合音声素片作成部１８０に対して、ステップＳ２１１において決定した複数の音声素片の組み合わせから融合音声素片を作成する旨の指示を送る。ステップ２１５では、ステップＳ２１４において融合音声素片作成部１８０に送った指示に対する応答として、融合音声素片作成部１８０から対応する融合音声素片を取得する。

このように、本実施の形態にかかるテキスト音声合成装置１０は、融合音声記憶部１６０に適切な融合音声素片が保持されていない場合には、新たに融合音声素片を作成し、当該融合音声素片を利用して音声合成を行うので、より高音質な合成音声を効率的に生成することができる。

図２３は、融合音声素片系列の例を示している。図２３は「ｔｓ、ｉ、ｉ、ｓ、ａ」の各音素に対して、融合音声素片記憶部１６０から抽出された融合音声素片と融合音声素片作成部１８０によって新たに作成された融合音声素片とのいずれを用いるかを示している。

ｔｓ、ｉ、ｉ、ｓ、ａ、それぞれに対応する融合音声素片を２２１ａ、２２１ｂ、２２１ｃ、２２１ｄ、２２１ｅとしている。ここでは、２２１ｂおよび２２１ｄは融合音声素片記憶部１６０に存在せず、２２１ａ、２２１ｃ、２２１ｅは融合音声素片記憶部１６０に存在するとする。

この場合、３つの素片は、予め作成されている。一方、残りの２つの素片は素片の融合処理を合成時に必要とする。したがって、すべての素片を合成時に融合する場合に比べ融合処理の回数を２／５に削減することができる。

素片の融合処理は演算量の多い処理であるため、合成時の処理が高速化される。また、音声素片がハードディスクドライブに蓄積されている場合は、それぞれの音声素片のシーク時間を削減することができる。

すなわち、合成時に融合する場合は、それぞれ融合音声素片数であるＭ回のシーク時間がかかるのに対し、あらかじめ融合してある場合は１回のシーク時間でＭ個の素片を融合した融合音声素片を取得することができる。

このように、第２の実施形態では、合成に用いる融合音声素片の一部をあらかじめ融合しておくことにより、すべて合成時に融合する場合と同等の合成音声が得られ、かつ高速に音声を合成することができる。

なお、実施の形態２にかかるテキスト音声合成装置１０のこれ以外の構成および処理は、実施の形態１にかかるテキスト音声合成装置１０の構成および処理と同様である。

第２の実施形態の判定ステップＳ２１２においては、Ｓ２１１において入力された各セグメントに対応するＭ個の音声素片の組み合わせすべてが融合音声素片組み合わせ記憶部１８１に蓄積されている組み合わせと一致した場合に、前記組み合わせに対応する融合音声素片を融合音声素片記憶部１６０から取得することにより融合音声素片とし、そうでない場合に選択されたＭ個の音声素片を音声素片記憶部１８１から取得して融合することにより融合音声素片を作成するとしたが、これに限定するものではない。

例えば、予め一致させる組み合わせ個数の下限値Ｎを定めてもよい。各セグメントに対応するＭ個の音声素片のうち、Ｎ個以上の音声素片が融合音声素片組み合わせ記憶部１８１中の組み合わせと一致した場合に、前記組み合わせに対応する融合音声素片を融合音声素片記憶部１６０から取得する。一方、一致した組み合わせがＮ個よりも少ない場合にはＭ個の音声素片を融合することにより新たに融合音声素片を作成する。

これにより、合成時に融合音声素片系列中の融合音声素片記憶部１６０から取得された融合音声素片を用いる割合が増加し、音声合成処理がさらに高速化される。

また、他の例としては、図１５に示す処理により決定されたＭ個の音声素片の組み合わせの上位Ｎ個の音声素片が、融合音声素片組み合わせ記憶部１８１に記憶されている組み合わせの上位Ｎ個と一致するか否かを基準としてもよい。

Ｍ個の組み合わせの上位Ｎ個の音声素片が、融合音声素片組み合わせ記憶部１８１に記憶されている組み合わせの上位Ｎ個と一致した場合に、前記組み合わせに対応する融合音声素片を融合音声素片記憶部１６０から取得する。一方、一致しない場合に、前記Ｍ個の音声素片を融合することにより新たに融合音声素片を作成する。

上位の音声素片が一致しているので、融合音声素片記憶部１６０から取得された融合音声素片のコスト関数の値は、選択された複数の音声素片の組み合わせのコスト関数の値に近づき、高音質な合成音声を得ることができる。

（第３の実施形態）
次に、第３の実施形態にかかるテキスト音声合成装置１０について説明する。図２４は、実施の形態３にかかるテキスト音声合成装置１０の音声合成部１４の詳細な機能構成を示すブロック図である。実施の形態３にかかる音声合成部１４においては、融合音声素片選択部１４０は、歪み推定部１３０が推定した歪みの度合いに基づいて、融合音声素片記憶部１６０に格納されている融合音声素片を選択するか否かを判断する。

より具体的には、歪み推定部１３０から取得した歪みの度合いが予め定められている歪み基準値よりも小さい場合に、対応する融合音声素片を融合音声素片記憶部１６０から抽出する。一方、歪み推定部１３０から取得した歪みの度合いが歪み基準値以上である場合には、融合音声素片記憶部１６０から抽出する代わりに、融合音声素片作成部１８０に対して融合音声素片の作成を指示する。実施の形態３にかかるテキスト音声合成装置１０は、この点で他の実施の形態にかかるテキスト音声合成装置１０と異なる。

図２５は、融合音声素片選択部１４０による処理を示すフローチャートである。まず、ステップＳ２４２において、歪み推定部１３０から各セグメントの韻律情報に対する歪みの度合いを取得する。なお、歪み推定部１３０からは複数の融合音声素片に対する歪みの度合いのうち最少の値を取得する。

次に、各セグメントに対して、ステップＳ２４３以下の処理を行う。ステップＳ２４３では、歪み推定部１３０から取得した歪みの度合いが予め定められている歪み基準値よりも小さいか否かを判断する。歪み基準値以上である場合、すなわち、歪みが大きく許容できない場合には、ステップＳ２４５において、融合音声素片作成部１８０に対して新たに融合音声素片を作成する旨を指示する。

そして、ステップ２４６において、当該指示に対する応答として、新たな融合音声素片を取得する。なお、この場合融合音声素片作成部１８０は、分割部１２０を介して対応する入力韻律情報等を取得する。取得した入力韻律情報等に基づいて、複数の音声素片を選択する。選択した音声素片を融合して融合音声素片を得る。

一方、歪み基準値よりも小さい場合、すなわち、歪みが小さい場合には、ステップＳ２４４において対応する融合音声素片を融合音声素片記憶部１６０から選択する。以上で、融合音声素片選択部１４０による処理が完了する。

なお、実施の形態３にかかるテキスト音声合成装置１０のこれ以外の構成および処理は、実施の形態１にかかるテキスト音声合成装置１０の構成および処理と同様である。

本実施の形態においては、予め歪み基準値、すなわち閾値を設定している。そして、閾値に基づいて、新たに融合音声素片を作成するか否かを判断している。新たな融合音声素片を作成するか否かの判断にあたっては、韻律情報の歪みの度合いを考慮すればよく、閾値に基づく判断に限定されない。

図２６は、新たな融合音声素片を作成するか否かの判断方法の他の例を説明するための図である。まず、ステップＳ２５１において各セグメントに対する入力融合音声素片の歪みの度合いＥ１を取得する。ステップＳ２５２では、音声素片記憶部１８１から図１５に示した処理により複数の音声素片を選択する。ステップＳ２５３では、ステップ２５２において選択された韻律情報の歪みの度合いの平均値Ｅ２を計算する。ステップＳ２５４では、Ｅ１とＥ２との差が予め定めた閾値より大きいか否かを判定する。そして、この判定結果に基づいて新たに融合音声素片を作成するか否かを決定する。

具体的には、Ｅ１とＥ２との差が予め定めて閾値よりも小さい場合には、融合音声素片記憶部１６０から融合音声素片を選択する。一方、Ｅ１とＥ２との差が閾値以上である場合には、新たに融合音声素片を作成する指示を出す。

第３の実施形態においては、第２の実施形態と同様に、歪みの度合いが小さい場合には、予め作成されて融合音声素片記憶部１６０に保持されている融合音声素片を利用することができる。したがって、高速に音声合成を行うことができる。

また、新たに作成した融合音声素片を適宜融合音声素片記憶部１６０に追加してもよい。これにより、複数素片の組み合わせをあらかじめ限定している第１の実施形態にかかるテキスト音声合成装置１０に比べて、より融合する組み合わせのバリエーションが多くなる。したがって、高音質な合成音声を得ることができる。

（実施の形態４）
次に、実施の形態４にかかるテキスト音声合成装置１０について説明する。実施の形態４にかかるテキスト音声合成装置１０は、融合音声素片記憶部１６０および融合音声素片音素環境記憶部１７０の内容を更新する。

図２７は、実施の形態４にかかる音声合成部１４の機能構成を示すブロック図である。実施の形態４にかかる音声合成部１４は、実施の形態２にかかる音声合成部１４の構成に加え更新部２１０をさらに備えている。更新部２１０は、融合音声素片編集・接続部１５０から各セグメントの組み合わせを取得する。そして、当該組み合わせを融合音声素片記憶部１６０に追加するか否かを判断する。

図２８は、更新部２１０における更新処理を示すフローチャートである。まず、ステップＳ２７１において、合成時に用いられた複数音声素片組み合わせ系列を融合音声素片編集・接続部１５０から取得する。ステップＳ２７２においては、入力された各セグメントの組み合わせを融合音声素片記憶部１６０に加えるかどうかを判定する。例えば、融合音声素片編集・接続部１５０から取得した組み合わせが融合音声素片記憶部１６０に既に格納されているか否かに基づいて判断する。

そして、追加すると判断した場合には、ステップＳ２７３において融合音声素片とその組み合わせ情報を融合音声素片記憶部１６０に追加する。一方、追加しないと判断した場合には、融合音声素片編集・接続部１５０から取得した組み合わせを破棄する。以上で、更新処理が完了する。

なお、実施の形態４にかかるテキスト音声合成装置１０のこれ以外の構成および処理は、実施の形態２にかかるテキスト音声合成装置１０の構成および処理と同様である。

実施の形態４にかかる第１の変更例としては、更新部２１０は、融合音声素片記憶部１６０に組み合わせを追加する処理に加えて、さらに融合音声素片記憶部１６０に格納されている融合音声素片を削除する処理を行ってもよい。例えば、更新部２１０は、融合音声素片記憶部１６０に格納されている各融合音声素片の使用頻度を監視する。そして、使用頻度が予め定められた値以下である場合に削除してもよい。

実施の形態４にかかる第２の変更例としては、更新部２１０は、組み合わせの使用頻度により融合音声素片記憶部１６０に追加するか否かを決定してもよい。このように、ステップＳ２７２における判断基準は、本実施の形態に限定されるものではない。

更新部２１０は、融合音声素片編集・接続部１５０から取得した組み合わせごとに、取得した回数を保持しておく。そして、同一の組み合わせを予め定められた回数以上取得した場合に、当該組み合わせを融合音声素片記憶部１６０に格納してもよい。一方、予め定められた回数以上取得しない場合には破棄する。

より具体的には、更新部２１０は、例えばキャッシュメモリ等で構成された組み合わせ一時保持部（図示せず）を有する。一時保持部は、予め定められた期間だけ、組み合わせを保持する。そして、一時保持部に保持されている組み合わせについての回数をカウントし、保持する。なお、本例にかかる更新部２１０は、本発明にかかる更新手段および使用頻度カウント手段を構成する。

これにより、使用頻度の高い組み合わせに対する融合音声素片のみを融合音声素片記憶部１６０に追加することができる。従って、メモリを有効に利用することができ、かつ音声合成処理の効率化を図ることができる。

第３の変更例としては、第２の変更例においては、音声素片間の類似度を定義したが、同様に融合音声素片間の類似度を定義してもよい。すなわち、本実施の形態においては、融合音声素片作成部１８０は、組み合わせ頻度および類似度に基づいて融合音声素片を作成することができる。

本例においては、二つの融合音声素片間の類似度を、二つの融合音声素片のコストの逆数とする。二つの融合音声素片のコストは、式（１６）から式（１９）と同様に定義することができる。

図２９は、第３の変更例にかかる融合音声素片作成処理を示すフローチャートである。まず、ステップＳ２９１で、利用頻度順に複数音声素片の組み合わせを入力する。これは音声素片組み合わせ作成部１８３で作成されたものである。

次に、組み合わせごとに以下の処理を行う。すなわち、ステップＳ２９２では、融合音声素片記憶部１６０中の各融合音声素片と、取得した組み合わせから作成した融合音声素片との類似度を求める。ここで、融合音声素片記憶部１６０に該当する音素の融合音声素片が一つもない場合、類似度を０とする。この類似度が予め設定された閾値より大きい場合は、ステップＳ２９３に進み、小さい場合はステップＳ２９４に進む。

ステップＳ２９３は、似ている融合音声素片が存在すると判断された場合に対応する。この場合は、取得したされた組み合わせとともに、類似度が最大となる融合音声素片の素片番号を、融合音声素片組み合わせ記憶部２００に追加する。

ステップＳ２９４は、似ている融合音声素片が融合音声素片記憶部１６０に存在しないと判断された場合に対応する。この場合は、入力された組み合わせに対応する融合音声素片を追加する。そして、ステップＳ２９５において、融合音声素片組み合わせ記憶部２００に、該当する組み合わせを追加する。これにより、融合音声素片記憶部１６０中の融合音声素片はあらかじめ定めた閾値より類似度の小さい融合音声素片を蓄積することになり、メモリの利用量を減少させることができる。

第４の変更例としては、本実施の形態においては、予め定められた条件に基づいて、融合音声素片記憶部１６０に予め保持されている融合音声素片を利用するか、複数の音声素片から新たな融合音声素片を作成するかを判断したが、さらに、利用可能な演算量や音声合成に対する要求スペック等を考慮して条件を定めてもよい。

すなわち、融合音声素片記憶部１６０に予め格納されている融合音声素片を利用することにより処理の効率化を図ることができる一方、音質が低下する可能性がある。

具体的には、例えば、融合音声素片に対する音声素片の組み合わせのうちの一部が一致する融合音声素片を融合音声素片記憶部１６０から選択した場合には、予め作成された融合音声素片を利用するため、高速処理が可能である。一方、一致しない音声素片を含んでいるため、作成される融合音声素片は最適なものとは異なってしまう。

そこで、本例においては、融合音声素片記憶部１６０に格納されている融合音声素片を利用する頻度を、演算量の観点から制御することとする。これにより、演算量の観点と合成音声の品質の観点の両面から制御することができる。

なお、音声合成部１４における初期設定値として、演算量等の観点から定めた条件を設定してもよく、また他の例としては、初期設定後も適宜演算量等の観点から条件を変更してもよい。

また、融合音声素片作成部１８０においては、音声素片群のクラスタリングにより融合音声素片記憶部１６０に格納すべき融合音声素片を制限してもよい。

具体的には、まず音声素片記憶部１８１に保持されている各音声素片間の類似度を算出する。そして、類似度に基づいて音声素片のクラスタリングを行う。より具体的には、類似度が大きい音声素片同士を同一の音声素片群とする。そして、クラスタリングにより得られた各音声素片群に対する融合音声素片を作成する。さらに融合音声素片に対する融合音声素片音声環境を作成する。そして、更新部２１０は、新たに作成された融合音声素片および融合音声素片音声環境を対応付けて融合音声素片記憶部１６０に格納する。

例えば、二つの音声素片間の類似度に基づいて、音声素片群のクラスタリングを行う。そして、クラスタリングにより、類似度の最も高い融合音声素片のみを融合音声素片記憶部１６０に保持してもよい。

具体的には、まず、コスト関数に基づいて、二つの素片間の類似度を定義する。ここでは類似度は、二つの素片間のコストの逆数とし、コストを最小にするようにクラスタリングを行う。

二つの素片間のコストは、上述したコスト関数に基づいて、式（１６）で示される基本周波数コスト、式（１７）で示される継続時間長コスト、および式（１８）で示される平均スペクトルコストの線形結合とする（式（１９））。

ここで、ｖｉは音声素片記憶部１８１に記憶されている音声素片ｕｉの音素環境を、ｆは音素環境ｖｉから平均基本周波数を取り出す関数、ｇは音素環境ｖｉから音韻継続時間長を取り出す関数ｈは音声素片ｕｉの平均的なケプストラム係数をベクトルとして取り出す関数を表す。

このようにして、二つの素辺間のコストを求めた後、全体でのコストが最小になるようなＭ個の素片を選択する。選択されたＭ個の素片と、全体のコスト（トータルコスト）は、式（２０）のように表される。

これは、すべての素片ｕｉ（１＜ｉ＜Ｉ）に対してＭ個の素片の中でコスト最小の候補ｕｍ（１＜ｍ＜Ｉ）を求め、そのコストを加算したものである。このトータルコストを最小化するようにＭ個の素片を求め、すべての素片をM個の素片中コスト最小の素片に対応付けることによりクラスタリングを行う。

以上の演算により求めた各クラスタの素片を融合することにより融合音声素片を作成する。また、各素片の韻律情報のセントロイドを求めることにより融合音声素片の韻律情報を求める。そして、融合音声素片音素環境情報とする。

他の例としては、式（１８）に替えて、ケプストラムパラメータのＤＴＷ（dynamic time warping）距離を用いてもよい。この場合は、各ピッチ波形に対応するケプストラムを求め、ケプストラム距離が最小になるように動的計画法に基づいて時間軸伸縮を行い、最小ケプストラム距離を求める。

また、本例においては、類似度をコストに基づいて定義しているが、これに限定するものではなく例えば単純に時間伸縮したケプストラム距離、韻律変形した際の波形の自乗誤差などに基づいて定義してもよい。各クラスタにおいてＨＭＭを学習し、その尤度を類似度として定義してもよい。

これによりあらかじめ融合音声素片記憶部に記憶する融合音声素片をコスト最小という基準で作成することができ、効率よく融合音声素片群を作成することができ、メモリの使用量を減少させることができる。

また他の例としては、融合音声素片の類似度について閾値を設定し、当該閾値を基準として融合音声素片記憶部１６０に格納するか否かを決定してもよい。具体的には、融合音声素片同士の類似度を判定する。そして、類似度が予め定められた閾値以上である場合に融合音声素片記憶部１６０に格納する。一方、類似度が閾値よりも小さい場合には融合音声素片記憶部１６０に格納せずに破棄する。

以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。

そうした変更例としては、本実施の形態においては、図１１等を参照しつつ説明したように、融合音声素片作成部１８４は、有声音の融合音声素片をピッチ波形の平均化により作成したが、融合音声素片の作成方法は、これに限定されるものではない。例えば、閉ループ学習を用いてもよい。閉ループ学習を使うことで、それぞれの音声素片のピッチ波形を取り出すことなく、合成音のレベルで最適なピッチ波形系列を作り出すことができる。

ここで、閉ループ学習とは、実際に基本周波数や韻律継続時間長を変更して合成された合成音声のレベルで、自然音声に対する歪みが小さくなるような代表音声素片を生成する方法である。すなわち、閉ループ学習においては、合成音声のレベルで歪みが小さくなるような素片を生成する（特許第３２８１２８１号参照）。

閉ループ学習を用いて、有声音の音声素片を融合する場合について説明する。融合によって求められる音声素片は、第１の実施形態と同様にピッチ波形の系列として求められる。これらのピッチ波形を連結して構成されるベクトルｕで音声素片を表すこととする。

まず、音声素片の初期値を用意する。初期値としては、第１の実施形態で述べた手法によって求められるピッチ波形の系列を用いてもよい。また、ランダムなデータを用いても良い。また、音声素片組み合わせ作成部１８３で作成された組み合わせの音声素片の波形を表すベクトルをｒｊ（ｊ＝１、２、…、Ｍ）とする。次に、ｕを用いて、ｒｊを目標としてそれぞれ音声を合成する。生成された合成音声セグメントをｓｊと表す。ｓｊは、次式（９）のように、ピッチ波形の重畳を表す行列Ａｊとｕの積で表される。

ｒｊのピッチマークとｕのピッチ波形とのマッピング、およびｒｊのピッチマーク位置より行列Ａｊは決定される。行列Ａｊの例を図３０に示す。次に、合成音声セグメントｓｊとｒｊの誤差を評価する。ｓｊとｒｊの誤差ｅｊを次式（１０）で定義する。

ただし、次式（１１）、（１２）に示すように、ｇｉは、２つの波形の平均的なパワーの差を補正して、波形の歪みのみを評価するためのゲインであり、ｅｊが最小となるような最適なゲインを用いている。

ベクトルｒｉ全てに対する誤差の総和を表す評価関数Ｅを次式（１３）で定義する。

Ｅを最小にする最適なベクトルｕは、Ｅをｕで偏微分して「０」とおくことで得られる次式（１４）、（１５）を解くことによって求められる。

式（１５）はｕについての連立方程式であり、これを解くことによって新たな音声素片ｕを一意に求めることができる。ベクトルｕが更新されることによって、最適ゲインｇｊが変化するため、上述したプロセスをＥの値が収束するまで繰り返し、収束した時点のベクトルｕを、融合によって生成された音声素片として用いる。

また、行列Ａｊを求める際のｒｊのピッチマーク位置を、ｒｊとｕの波形の相関に基づいて修正するようにしても良い。

また、ベクトルｒｊを帯域分割し、各帯域毎に上述した閉ループ学習を行ってｕを求め、全帯域のｕを加算することによって融合された音声素片を生成するようにしても良い。
このように、閉ループ学習を素片の融合に用いることによって、ピッチ周期変更による合成音声の劣化が小さい音声素片を生成することが可能である。

また、融合音声素片記憶部１６０に新たに作成された融合音声素片を格納するに際して、既に格納されている融合音声素片との類似度を算出してもよい。具体的には、音声素片作成部１８０が融合音声素片を作成した場合に、作成された融合音声素片と、既に融合音声素片記憶部１８０に記憶されている融合音声素片との類似度を算出する。そして、類似度が予め定められた値よりも小さい場合には、音声素片作成部１８０によって融合音声素片を融合音声素片記憶部１８０に新たに格納する。これにより、比較的類似した融合音声素片が格納されるのを避けることができるので、メモリを有効に利用することができる。

本発明の第１の実施形態に係るテキスト音声合成装置の全体構成を示すブロック図である。図１の音声合成部１４の詳細な構成を示すブロック図である。図２において説明した融合音声素片作成部１８０の詳細な機能構成を示すブロック図である。図３に示した音声素片組み合わせ作成部１８３の詳細な機能構成を示すブロック図である。融合音声素片記憶部１６０のデータ構成を模式的に示す図である。融合音声素片音素環境記憶部１７０のデータ構成を模式的に示す図である。図２において説明した融合音声素片編集・接続部１５０の処理を説明するための図である。音声素片記憶部１８１のデータ構成を模式的に示す図である。融合音声素片音素環境記憶部１８２のデータ構成を模式的に示す図である。音声データ１０１に対し、音素毎にラベリングを行った結果を示す図である。音声素片組み合わせ作成部１８３で決められたＭ個の音声素片を融合して１つの新たな音声素片を生成する場合の処理手順を説明するための図である。ステップＳ１１１において、音声素片の音声波形に対してピッチマークを付与する処理を説明するための図である。ステップＳ１１１において、音声素片の音声波形に対してピッチマークを付与する処理を説明するための図である。ステップＳ１１１において、音声素片の音声波形に対してピッチマークを付与する処理を説明するための図である。音声素片ｄ１〜ｄ３のそれぞれから、ステップＳ１１２で切り出されたピッチ波形の系列ｅ１〜ｅ３を示す図である。音声素片ｄ１〜ｄ３のそれぞれからステップＳ１１３で求めたピッチ波形の系列ｅ１、ｅ２´、ｅ３´を示す図である。音声素片を選択する処理を示すフローチャートである。入力韻律系列を示す図である。複数音声素片組み合わせ頻度情報記憶部１８３５に格納されている複数音声素片組み合わせ頻度情報の例を示す図である。実施例１に係るテキスト音声合成装置１０のハードウェア構成を示す図である。実施の形態２にかかるテキスト音声合成装置１０の音声合成部１４の詳細な機能構成を示すブロック図である。融合音声素片組み合わせ記憶部２００のデータ構成を模式的に示す図である。実施の形態２にかかる融合音声素片作成部１８０の詳細な機能構成を示すブロック図である。実施の形態２にかかる融合音声素片選択部１４０が融合音声素片を選択する処理を示すフローチャートである。融合音声素片系列の例を示す図である。実施の形態３にかかるテキスト音声合成装置１０の音声合成部１４の詳細な機能構成を示すブロック図である。融合音声素片選択部１４０による処理を示すフローチャートである。新たな融合音声素片を作成するか否かの判断方法の他の例を説明するための図である。実施の形態４にかかる音声合成部１４の機能構成を示すブロック図である。更新部２１０における更新処理を示すフローチャートである。変更例３にかかる融合音声素片作成処理を示すフローチャートである。行列Ａｊの例を示す図である。

符号の説明

１０テキスト音声合成装置
１１テキスト取得部
１２言語処理部
１３言語処理部
１４音声合成部
１５音声波形出力部
１１０音韻系列・韻律情報取得部
１２０分割部
１３０歪み推定部
１４０融合音声素片選択部
１５０融合音声素片編集・接続部
１６０融合音声素片記憶部
１７０融合音声素片音素環境記憶部
１８０融合音声素片作成部
１８１音声素片記憶部
１８２融合音声素片音素環境記憶部
１８３音声素片組み合わせ作成部
１８４融合音声素片作成部
１８５融合音声素片音素環境作成部
２００融合音声素片組み合せ記憶部
２１０更新部
１８３１音韻系列・韻律情報取得部
１８３２複数音声素片選択部
１８３３音声素片組み合わせ頻度情報作成部
１８３４複数音声素片組み合わせ決定部
１８３５音声素片組み合わせ頻度情報頻度情報記憶部
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５７通信I／Ｆ
６２バス

Claims

同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と、当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段と、
予め設定されている教師音声の韻律を示す教師音声韻律情報と前記音声素片保持手段に保持されている前記音声素片韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択手段と、
前記音声素片選択手段によって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組合せ決定手段と、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成手段と、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成手段と、
前記融合音声素片作成手段によって作成された前記融合音声素片と、前記融合音声素片韻律情報作成手段によって作成された前記融合音声素片韻律情報とを対応付けて保持する融合音声素片保持手段と、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得手段と、
前記取得手段によって得られた前記セグメントの韻律を示すセグメント韻律情報と前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報との間の歪みの度合いを推定する保持音声歪み推定手段と、
前記保持音声歪み推定手段によって推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択手段と、
前記融合音声素片選択手段が各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成手段と
を備えたことを特徴とする音声合成装置。
前記音声合成手段は、前記保持音声歪み推定手段によって推定された前記歪みの度合いが予め定められた保持音声歪み基準値よりも小さい場合に、前記融合音声素片選択手段によって選択された前記融合音声素片を利用して前記音声合成を行うことを特徴とする請求項１に記載の音声合成装置。
前記音声合成手段は、前記保持音声歪み推定手段が前記融合音声素片保持手段に保持されている各融合音声素片に対して推定した各歪みの度合いが前記保持音声歪み基準値以上である場合に、前記融合音声素片作成手段によって作成された前記融合音声素片を利用して音声合成を行うことを特徴とする請求項２に記載の音声合成装置。
前記融合音声素片選択手段は、前記保持音声歪み推定手段によって推定された前記歪みの度合いのうち最小値に対応する前記融合音声素片を選択することを特徴とする請求項１から３のいずれか一項に記載の音声合成装置。
前記融合音声素片保持手段に保持されている前記融合音声素片に含まれている複数の前記音声素片の組み合わせを示す組み合わせ情報を保持する組み合わせ情報保持手段をさらに備え、
前記保持音声歪み推定手段は、前記セグメントの音声における組み合わせと前記組み合わせ情報保持手段が保持している前記組み合わせとの一致度を前記歪みの度合いとして推定することを特徴とする請求項１から４のいずれか一項に記載の音声合成装置。
前記融合音声素片選択手段は、前記保持音声歪み推定手段が前記セグメントの音声の前記音声素片の組み合わせと前記融合音声素片保持手段に保持されている前記融合音声素片の組み合わせが一致すると判断した場合に当該組み合わせに対応する融合音声素片を選択することを特徴とする請求項５に記載の音声合成装置。
前記融合音声素片選択手段は、前記保持音声歪み推定手段が前記セグメントの音声の前記音声素片の組み合わせの一部と前記融合音声素片保持手段に保持されている前記融合音声素片の組み合わせの一部が一致する場合に組み合わせが一致すると判断することを特徴とする請求項６に記載の音声合成装置。
前記組み合わせ情報保持手段は、前記組み合わせに対する優先順位を各組み合わせに対応付けて保持し、
前記融合音声素片選択手段は、前記保持音声歪み推定手段が前記セグメントの音声の前記音声素片の組み合わせと前記融合素片保持手段に保持されている前記融合音声素片の組み合わせとが一致し、かつ当該融合音声素片の優先順位が予め定められた優先順位基準値以上である場合に、当該融合音声素片を選択することを特徴とする請求項６または７に記載の音声合成装置。
前記音声合成手段は、当該音声合成処理の演算量と合成すべき合成音声の音質のうち少なくともいずれか一方に基づいて決定された保持音声歪み基準値を利用して前記音声合成を行うことを特徴とする請求項２に記載の音声合成装置。
前記組み合わせの使用頻度をカウントする頻度情報作成手段をさらに備え、
前記組合せ決定手段は、前記使用頻度が予め定められた閾値以上である前記組み合わせを決定すること、
を特徴とする請求項１から９のいずれか一項に記載の音声合成装置。
前記融合音声素片作成手段によって作成された前記融合音声素片を前記融合音声素片保持手段に格納する更新手段をさらに備えたことを特徴とする請求項１から１０のいずれか一項に記載の音声合成装置。
前記更新手段は、前記融合音声素片作成手段によって作成された前記融合音声素片の使用頻度をカウントする使用頻度カウント手段をさらに備え、
前記更新手段は、前記使用頻度カウント手段が予め定められた使用頻度基準値以上の値をカウントした場合に、対応する融合音声素片を前記融合音声素片保持手段に格納することを特徴とする請求項１１に記載の音声合成装置。
前記融合音声素片作成手段によって作成された前記融合音声素片と前記融合音声素片保持手段に保持されている前記融合音声素片との類似度を算出する類似度算出手段と、
前記類似度算出手段によって算出された前記類似度が予め定められた値よりも小さい場合に、前記融合音声素片作成手段によって作成された前記融合音声素片を前記融合音声素片保持手段に格納する更新手段と
をさらに備えたことを特徴とする請求項１から１０のいずれか一項に記載の音声合成装置。
前記類似度算出手段は、２つの音声素片の間の時間伸縮したスペクトル距離、韻律変形した場合の波形の自乗誤差、音声素片に対応するピッチパターンの距離、および韻律継続長の距離のうち少なくとも１つを利用して類似度を算出することを特徴とする請求項１３に記載の音声合成装置。
前記融合音声素片韻律情報作成手段は、前記複数の前記音声素片それぞれに対する前記韻律情報のセントロイドを前記融合音声素片韻律情報として作成することを特徴とする請求項１に記載の音声合成装置。
同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、
前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、
前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、
前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、
前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップと
を有することを特徴とする音声合成方法。
音声合成処理をコンピュータに実行させる音声合成プログラムであって、
同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、
前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、
前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、
前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、
前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップと
を有することを特徴とする音声合成プログラム。