JP2013214063A

JP2013214063A - テキスト読み上げシステム

Info

Publication number: JP2013214063A
Application number: JP2013056399A
Authority: JP
Inventors: Masami Akamine; 政巳赤嶺; Latorre-Martinez Javier; ラトーレ・マルティネス・ハビエル; Vincent Ping Leung Wan; ワン・ビンセント・ピン・ルン; Kean Kheong Chin; チン・カン・クホン; John Francis Gales Mark; ゲールズ・マーク・ジョン・フランシス; Mary Knill Katherine; ニル・キャサリン・マリー
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-03-30
Filing date: 2013-03-19
Publication date: 2013-10-17
Also published as: GB201205791D0; EP2650874A1; JP6092293B2; US20130262119A1; GB2501067B; US9269347B2; GB2501067A; CN103366733A; JP2015172769A

Abstract

【課題】選択された話者の声及び選択された話者属性を持つ音声を出力するように構成されたテキスト読み上げ方法を提供する。
【解決手段】方法は、入力されたテキストの話者を選択することと、入力されたテキストの話者属性を選択することと、音響モデルを用いて音響単位の系列を音声ベクトルの系列へと変換することと、選択された話者の声及び選択された話者属性を伴うオーディオとして音声ベクトルの系列を出力することとを具備する。音響モデルは、話者の声に関連する第１のパラメータ・セットと話者属性に関連する第２のパラメータ・セットとを備え、第１及び第２のパラメータ・セットは重複せず、話者の声を選択することは、第１のパラメータ・セットから話者の声を与えるパラメータを選択することを備え、話者属性を選択することは、第２のセットから選択された話者属性を与えるパラメータを選択することを備える。
【選択図】図４

Description

実施形態は、ここで一般的に記述されているように、テキスト読み上げシステム及び方法に関する。

テキスト読み上げシステムは、テキストファイルの受け取りに応じて、オーディオ音声またはオーディオ音声ファイルが出力されるシステムである。テキスト読み上げシステムは、電子ゲーム、電子ブックリーダ、電子メールリーダ、衛星航法、自動電話システム、自動警告システムのような広範な種々のアプリケーションにおいて使用される。システムをより人間の声らしく聞こえさせるという持続的な要求が存在する。

（関連出願の相互参照）
この出願は、２０１２年３月３０日に提出された英国特許出願第１２０５７９１．５（これの全内容は参照によってここに組み込まれる）に基づいており、これによる優先権の利益を主張する。

制限されない実施形態に従うシステム及び方法が、これから添付図面を参照しながら記述される。

図１は、テキスト読み上げシステムの概略図である。図２は、音声処理システムによって行なわれるステップを示すフロー図である。図３は、ガウス確率関数の概略図である。図４は、実施形態に従う音声処理方法のフロー図である。図５は、声特性がどのように選択され得るかを示すシステムの概略図である。図６は、図５のシステムの変形である。図７は、図５のシステムの追加的な変形である。図８は、図５のシステムの更なる追加的な変形である。図９は、トレーニング可能なテキスト読み上げシステムの概略図である。図１０は、実施形態に従う音声処理システムをトレーニングする方法を実証するフロー図である。図１１は、図１０のうち話者クラスタをトレーニングするためのステップのいくつかをより詳細に示すフロー図である。図１２は、図１０のうち属性に関するクラスタをトレーニングするためのステップのいくつかをより詳細に示すフロー図である。図１３は、実施形態によって使用される決定木の概略図である。図１４は、図１０の方法を使用してシステムをトレーニングするのに適した様々なタイプのデータの集積（collection）を示す概略図である。図１５は、実施形態に従うシステムの適応（adapting）を示すフロー図である。図１６は、追加的な実施形態に従うシステムの適応（adapting）を示すフロー図である。図１７は、異なる話者間で感情がどのように移植（transplant）可能であるかを示すプロットである。図１８は、情緒的な音声の移植を示す音響空間のプロットである。

実施形態において、選択された話者の声及び選択された話者の属性を持つ音声を出力するように構成された方法が提供される。上記方法は、テキストを入力することと、入力された上記テキストを音響単位の系列へと分割することと、入力テキストの話者を選択することと、上記入力テキストの話者属性を選択することと、音響モデルを用いて上記音響単位の系列を音声ベクトルの系列へと変換することと、上記選択された話者の声及び選択された話者属性を持つオーディオとして上記音声ベクトルの系列を出力することとを具備する。上記音響モデルは、話者の声に関連する第１のパラメータ・セットと、話者属性に関連する第２のパラメータ・セットとを備える。第１及び第２のパラメータ・セットは重複しない。話者の声を選択することは、話者の声を与えるパラメータを第１のパラメータ・セットから選択することを備える。話者属性を選択することは、選択された話者属性を与えるパラメータを第２のセットから選択することを備える。

上記方法は、話者の声及び属性の因子分解（factorisation）を使用する。第１のパラメータ・セットは「話者モデル」を提供するとみなすことができ、第２のパラメータ・セットは「属性モデル」を提供するとみなすことができる。２つのパラメータ・セットの間には重複がないので、これらは、属性が様々な話者の範囲と合成され得るように、それぞれ独立して変更可能である。

実施形態の一部に従う方法は、複数の話者の声及び複数の表現（expression）及び／または他の種類の声特徴（話し方（speaking style）、訛りなど）を持つ音声を合成する。

パラメータ・セットは、話者の声が連続的な範囲に亘って可変であるように、ならびに、声属性が連続的な範囲に亘って可変であるように、連続的であってもよい。連続的な制御は、「悲しい」または「怒っている」などの正当な（just）表現だけでなく任意の中間的な表現をも可能にする。第１及び第２のパラメータ・セットの値は、オーディオ、テキスト、外部エージェントまたはその任意の組み合わせを用いて定義されてよい。

実行可能な属性は、感情、話し方または訛りに関連する。

一実施形態において、話者モデルを、感情をモデル化する第１の属性モデル及び訛りをモデル化する第２の属性モデルと合成することが可能であるように、複数の独立した属性モデル（例えば、感情、属性）がある。ここで、様々な話者属性に関連する複数のパラメート・セットが存在する可能性があるが、複数のパラメータ・セットは重複しない。

更なる実施形態において、音響モデルは音響単位を音声ベクトルの系列に関連付ける確率分布関数を備えており、第１及び第２のパラメータ・セットの選択は上記確率分布を変形する。一般に、これらの確率密度関数はガウシアンと呼ばれ、平均及び分散によって記述される。しかしながら、他の確率分布関数も可能である。

更なる実施形態において、話者の声及び属性の制御は上記確率分布の平均の重み付き和を通じて達成され、第１及び第２のパラメータ・セットの選択は使用される重み及びオフセットを制御する。例えば、次の通りである。

ここで、μ_ｘｐｒ ^{ｓｐｋｒＭｏｄｅｌ}は表現ｘｐｒと合成された話者モデルの確率分布の平均であり、μ^{ｓｐｋｒＭｏｄｅｌ}は表現がない場合の話者モデルの平均であり、μ^{ｘｐｒＭｏｄｅｌ}は話者から独立した表現モデルの平均であり、λ^ｓｐｋｒは話者依存の重み付けであり、λ^ｘｐｒは表現依存の重み付けである。

出力音声の制御は、それぞれの声特徴が平均及び重みの独立したセットによって制御されるように、重み付き平均によって達成可能である。

上記のものは、クラスタ適応トレーニング（ＣＡＴ）型アプローチを用いて達成されてもよく、ここで第１のパラメータ・セット及び第２のパラメータ・セットはクラスタ内で提供され、各クラスタは少なくとも１つのサブクラスタを備え、重み付けはサブクラスタ毎に導出される。

実施形態において、上記第２のパラメータ・セットは、例えば次のように、第１のパラメータ・セットの少なくとも一部に加えられるオフセットに関連する。

ここで、μ_ｎｅｕ ^{ｓｐｋｒＭｏｄｅｌ}はニュートラルな感情の話者モデルであり、Δ_ｘｐｒはオフセットである。この具体例において、オフセットは、ニュートラルな感情の話者モデルに適用されることになるが、当該オフセットがニュートラルな感情に関して計算されたのかそれとも別の感情に関して計算されたのか次第で異なる感情の話者モデルにも適用可能である。

クラスタベースの方法が使用される場合に、ここでのオフセットΔは重み付き平均とみなすことができる。しかしながら、後述されるように他の方法も可能である。

これは、１つまたはより多くの所望の声特徴をモデル化するオフセット・ベクトルを目標モデルの平均に加えることによって、ある統計モデルの声特徴を目標統計モデルにエクスポート（export）することを可能にする。

本発明の実施形態に従う方法には、音声属性がある話者から別の話者へ移植されること（例えば、第１の話者から第２の話者へ、第１の話者の音声から得られる第２のパラメータを第２の話者の音声に加えることによって）を可能にするものもある。

一実施形態において、これは、移植される属性を伴って話している第１の話者から音声データを受け取ることと、第２の話者の音声データに最も近い第１の話者の音声データを識別することと、移植される属性を伴って話している第１の話者から得られる音声データと第２の話者の音声データに最も近い第１の話者の音声データとの間の差分を判定することと、上記差分から第２のパラメータを判定することとによって達成され得るが、例えば第２のパラメータは次の関数ｆによって差分に関連付けられてよい。

ここで、μ_ｘｐｒ ^{ｘｐｒＭｏｄｅｌ}は、移植される属性ｘｐｒを伴って話している所与の話者の表現モデルの平均であり、μ＾_ｎｅｕ ^{ｘｐｒＭｏｄｅｌ}は属性が適用される話者の音声データに最高に合致する所与の話者のモデルの平均ベクトルである。この例において、最高の合致はニュートラルな感情データについて示されているが、それは２人の話者について共通または類似である任意の他の感情についてあり得る。

差分は、音響単位を音声ベクトルの系列に関連付ける確率分布の平均ベクトル同士の差分から判定されてよい。

「第１の話者」モデルは、多数の話者からのデータの組み合わせから構築された平均的な声モデルなどの合成的なものであってもよいことに注意されたい。

更なる実施形態において、第２のパラメータは、上記差分の関数として定義され、上記関数は例えば次の線形関数である。

ここで、Ａ及びｂはパラメータである。上記関数を制御するためのパラメータ（例えば、Ａまたはｂ）及び／または話者モデルの平均ベクトルに最も類似する表現の平均ベクトルは、表現モデルセットのパラメータと、話者依存のモデルの確率分布のパラメータまたは係る話者依存のモデルをトレーニングするために使用されるデータ、話者依存のモデルの声特徴についての情報のうち１つ以上とから自動的に計算されてよい。

第２の話者の音声データに最も近い第１の話者の音声データを識別することは、例えば次の数式を用いて、第１の話者の音声データ及び第２の話者の音声データの確率分布に依存する距離関数を最小化することを備えてもよい。

ここで、μ_ｎｅｕ ^{ｓｐｋｒＭｏｄｅｌ}及びΣ_ｎｅｕ ^{ｓｐｋｒＭｏｄｅｌ}は話者モデルの平均及び分散であり、μ_ｙ ^{ｘｐｒＭｏｄｅｌ}及びΣ_ｙ ^{ｘｐｒＭｏｄｅｌ}は感情モデルの平均及び分散である。

距離関数は、ユークリッド距離、バタチャリヤ（Bhattacharyya）距離、または、カルバックライブラ（Kullback-Leibler）距離であってよい。

更なる実施形態において、テキスト読み上げシステム用の音響モデルをトレーニングする方法が提供され、上記音響モデルは音響単位の系列を音声ベクトルの系列へと変換する。上記方法は、様々な属性を伴って話している複数の話者から音声データを受け取ることと、受け取られた音声データから共通の属性を伴って話している話者に関連する音声データを分離（isolate）することと、共通の属性を伴って話している複数の話者から受け取られた音声データを用いて第１の音響サブモデルをトレーニングすること（上記トレーニングすることは第１のパラメータ・セットを導出することを備え、上記第１のパラメータ・セットは音響モデルを複数の話者の音声に適応させるために変更される）と、残余の音声から第２の音響サブモデルをトレーニングすること（上記トレーニングすることは上記残余の音声から複数の属性を識別することと第２のパラメータ・セットを導出することとを備え、上記第２のパラメータ・セットは音響モデルを複数の属性の音声に適応させるために変更される）と、合成された音響モデルが話者の声に関連する第１のパラメータ・セットと話者属性に関連する第２のパラメータ・セットとを備えるように第１及び第２の音響サブモデルを合成することによって音響モデルを出力することとを具備する。第１及び第２のパラメータ・セットは重複しない。話者の声を選択することは、第１のパラメータ・セットから話者の声を与えるパラメータを選択することを備える。話者属性を選択することは、第２のパラメータから選択された話者属性を与えるパラメータを選択することを備える。

例えば、共通の属性は、ニュートラルな感情を伴って話している話者のサブセット、または、全て同じ感情、同じ訛りなどを伴って話している話者のサブセットであってよい。全ての話者が全ての属性について記録される必要はない。ここで、１つの属性の音声データのみが第１のモデルをトレーニングするために使用された話者のいずれでもない１人の話者から得られる場合には、（属性の移植に関連して上に説明したように）システムはこの属性に関してトレーニング可能である。

トレーニングデータのグルーピングは、声特徴毎にユニークであってもよい。

更なる実施形態において、音響モデルは音響単位を音声ベクトルの系列に関連付ける確率分布関数を備え、第１の音響サブモデルをトレーニングすることは確率分布をクラスタに配置すること（各クラスタは少なくとも１つのサブクラスタを含み、上記第１のパラメータ・セットはサブクラスタあたり１つの重みがあるように適用される話者依存の重みである）を備え、第２の音響サブモデルをトレーニングすることは確率分布をクラスタに配置すること（各クラスタは少なくとも１つのサブクラスタを含み、上記第２のパラメータはサブクラスタあたり１つの重みがあるように適用される属性依存の重みである）を備える。

一実施形態において、トレーニングは反復処理を介して行われ、方法は、収束基準が満足されるまで、繰り返し、第２の音響サブモデルのパラメータの部分を固定したまま第１の音響モデルのパラメータを再推定し、それから第１の音響サブモデルのパラメータの部分を固定したまま第２の音響サブモデルのパラメータを再推定することを備える。収束基準は、再推定が固定回数実行されることに取って代わられてもよい。

更なる実施形態において、テキスト読み上げシステムは、選択された話者の声及び選択された話者属性、複数の異なる声特徴を持つ音声のシミュレート用に提供されてよい。上記システムは、入力テキストを受け取るためのテキスト入力と、上記入力テキストを音響単位の系列へと分割し、入力テキストの話者を選択させ、入力テキストの話者属性を選択させ、音響モデルを用いて上記音響単位の系列を音声ベクトルの系列へと変換し（上記モデルは音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）、選択された話者及び選択された話者属性を持つオーディオとして上記音声ベクトルの系列を出力するように構成されたプロセッサとを具備する。上記音響モデルは、話者の声に関連する第１のパラメータ・セットと話者属性に関連する第２のパラメータ・セットとを備える。第１及び第２のパラメータ・セットは重複しない。話者の声を選択することは、第１のパラメータ・セットから話者の声を与えるパラメータを選択することを備える。話者属性を選択することは、第２のセットから選択された話者属性を与えるパラメータを選択することを備える。

本発明の実施形態に従う方法は、ハードウェアにおいて、または、汎用コンピュータ中のソフトウェア上で実装可能である。本発明の実施形態に従う更なる方法は、ハードウェア及びソフトウェアの組み合わせにおいて実装可能である。本発明の実施形態に従う方法は、単一の処理装置、または、処理装置の分散型ネットワークによっても実装可能である。

実施形態に従う方法にはソフトウェアによって実装可能なものもあるので、実施形態には任意の適した搬送媒体で汎用コンピュータに提供されるコンピュータコードを包含するものもある。搬送媒体は、フロッピー（登録商標）ディスク、ＣＤＲＯＭ、磁気デバイス、プログラム可能なメモリデバイスなどの任意の記憶媒体、または、任意の信号（例えば、電気、光またはマイクロ波信号）などの任意の一時的な媒体を備えることができる。

図１は、テキスト読み上げシステム１を示す。テキスト読み上げシステム１は、プログラム５を実行するプロセッサ３を備える。テキスト読み上げシステム１は、ストレージ7を更に備える。ストレージ7は、テキストを音声に変換するプログラム５によって使用されるデータを保存する。テキスト読み上げシステム１は、入力モジュール１１及び出力モジュール１３を更に備える。入力モジュール１１は、テキスト入力１５に接続される。テキスト入力１５は、テキストを受け取る。テキスト入力１５は、例えばキーボードであってよい。或いは、テキスト入力は、外部の記憶媒体またはネットワークからテキストデータを受け取るための手段であってもよい。

出力モジュール１３が接続されるのは、オーディオ用の出力１７である。オーディオ出力１７は、テキスト入力１５に入力されたテキストから変換された音声信号を出力するために使用される。オーディオ出力１７は、例えば、直接的なオーディオ出力（例えば、スピーカ）であってもよいし、記憶媒体、ネットワークなどに送信され得るオーディオデータファイル用の出力であってもよい。

使用時に、テキスト読み上げシステム１は、テキスト入力１５を通じてテキストを受け取る。プロセッサ３上で実行されるプログラム５は、ストレージ７に保存されたデータを用いてテキストを音声データへと変換する。音声は、出力モジュール１３を介してオーディオ出力１７へと出力される。

簡略化された処理が、図２を参照してこれから記述される。最初のステップ（Ｓ１０１）において、テキストが入力される。テキストは、キーボード、タッチスクリーン、テキスト予測器（predictor）などを介して入力されてよい。テキストは、それから、音響単位の系列へと変換される。これらの音響単位は、音素であってもよいし、書記素であってもよい。単位は、コンテキスト依存（例えば、選択された音素だけでなく前後の音素を考慮に入れるトライフォン（triphone））であってもよい。テキストは、技術分野において周知であるがここではこれ以上説明されない技術を用いて、音響単位の系列へと変換される。

ステップＳ１０５において、音響単位を音声パラメータへと関連付ける確率分布がルックアップされる。この実施形態において、確率分布は、平均及び分散によって定義されるガウス分布となる。ポアソン分布、スチューデントのｔ（Student-t）分布、ラプラス分布またはガンマ分布などの他の分布を使用することも可能であるが、これらの一部は平均及び分散以外の変数によって定義される。

各音響単位が、技術分野の術語を使用するために音声ベクトルまたは「観測」に対して決定的な一対一対応を持つことは不可能である。多くの音響単位は、同様のやり方で発音されることもあるし、単語またはセンテンス内に位置する周囲の音響単位によって影響されることもあるし、様々な話者によって違ったように発音されることもある。故に、各音響単位は、音声ベクトルへ関連付けられることの確率を持つに過ぎず、テキスト読み上げシステムは、多くの確率を計算し、音響単位の系列を仮定した場合に最も適当な観測の系列を選択する。

ガウス分布が図３に示される。図３は、音声ベクトルに関連する音響単位の確率分布であると考えることができる。例えば、Ｘとして示される音声ベクトルは、図３に示される分布を持つ音素または他の音響単位に対応することについて確率Ｐ１を持つ。

ガウシアンの形状及び位置は、その平均及び分散によって定義される。これらのパラメータは、システムのトレーニングの間に決定される。

これらのパラメータは、それから、ステップＳ１０７において音響モデルの中で使用される。この記述において、音響モデルは隠れマルコフモデル（ＨＭＭ）である。しかしながら、他のモデルも使用可能である。

テキスト読み上げシステムは、音響単位（即ち、音素、書記素、単語またはその品詞）を音声パラメータに関連付ける多くの確率密度関数を保存する。ガウス分布が一般的に使用されるので、これらは一般的にガウシアンまたはコンポーネントと呼ばれる。

隠れマルコフモデルまたは他の種別の音響モデルにおいて、特定の音響単位に関連する全ての潜在的な音声ベクトルの確率が考慮されなければならない。それから、音響ユニットの系列に最も対応しそうな音声ベクトルの系列が考慮に入れられることになる。これは、２つの単位が互いに影響し合うやり方を考慮に入れる、系列に属する音響単位の全体に亘るグローバルな最適化を暗示する。結果として、特定の音響単位に対して最も適当な音声ベクトルが、音響単位の系列が考慮される場合の最高の音声ベクトルではない、ということが起こり得る。

一旦、音声ベクトルの系列が決定されたならば、ステップＳ１０９において音声が出力される。

図４は、実施形態に従うテキスト読み上げシステムのプロセスのフローチャートである。ステップＳ２０１において、テキストは、図２を参照して述べられたものと同じやり方で受け取られる。それから、ステップＳ２０３において、テキストは、音響単位（音素、書記素、コンテキスト依存の音素または書記素、単語、単語の一部などであってよい）の系列へと変換される。

図４のシステムは、多数の様々な声属性を持つ多数の様々な話者を用いて音声を出力できる。例えば、実施形態において、声属性は、幸福そうに聞こえる声、悲しげに聞こえる声、怒っているように聞こえる声、緊張しているように聞こえる声、落ち着いているように聞こえる声、威圧的に聞こえる声などから選択されてよい。話者は、男性の声、若い女性の声などの潜在的な話し声の範囲から選択されてよい。

ステップＳ２０４において、所望の話者が決定される。これは、多数の様々な方法によってなされてよい。選択される話者を決定するための実行可能な方法のうちいくつかが図５乃至図８を参照して説明される。

ステップＳ２０６において、声に使用される話者属性が選択される。話者属性は、多数の様々なカテゴリから選択されてよい。例えば、カテゴリは、感情、訛りなどから選択されてよい。実施形態に従う方法において、属性は、幸福、悲しい、怒っている、などであってよい。

図４を参照して述べられる方法において、各ガウシアンコンポーネントは平均及び分散によって記述される。この特定の方法においても同様に、使用される音響モデルは、クラスタに分類されているモデルパラメータに重みを適用することによって話者及び話者属性が集積されるクラスタ適応トレーニング（ＣＡＴ）方法を用いてトレーニングされている。しかしながら、他の技法も可能であり、後述される。

いくつかの実施形態において、ガウシアンを用いてそれぞれモデル化される複数の様々な状態がある。例えば、実施形態において、テキスト読み上げシステムは、多数のストリーム（stream）を備える。係るストリームは、スペクトルパラメータ（スペクトル）、基本周波数の対数（対数Ｆ_０）、対数Ｆ_０の一次微分（デルタ対数Ｆ_０）、対数Ｆ_０の二次微分（デルタ−デルタ対数Ｆ_０）、帯域非周期性パラメータ、持続期間のうちの１つ以上から選択されてよい。ストリームは、無音（sil）、短休止（pau）及び音声（spe）などのクラスへと更に分割されてもよい。実施形態において、ストリーム及びクラスの各々からのデータは、ＨＭＭを用いてモデル化される。ＨＭＭは様々な数の状態を備えてよく、例えば、実施形態において５状態ＨＭＭが上記ストリーム及びクラスのうちいくつかからのデータをモデル化するために使用されてよい。ガウシアンコンポーネントは、ＨＭＭ状態毎に決定される。

図４のシステムにおいて、選択された話者のガウシアンの平均が独立したガウシアンの平均の重み付き和として表現される、ＣＡＴベースの方法が使用される。故に、次の通りである。

ここで、μ_ｍ ^{（ｓ，ｅ１，・・・ｅＦ）}は選択された話者の声ｓ及び属性ｅ_１，・・・ｅ_Ｆのコンポーネントｍについての平均であり、ｉ∈｛１，．．．．．．．，Ｐ｝は総クラスタ数Ｐのクラスタのインデックスであり、λ_ｉ ^{（ｓ，ｅ１，・・・ｅＦ）}は話者ｓ及び属性ｅ_１，・・・ｅ_Ｆについてのｉ番目のクラスタの話者及び属性依存の補間重みである。μ_{ｃ（ｍ，ｉ）}は、クラスタｉにおけるコンポーネントｍの平均である。クラスタのうち１つ（通常はクラスタｉ＝１）について、全ての重みが常に１．０に設定される。このクラスタは、「バイアスクラスタ」と呼ばれる。

各要素の独立制御を得るために、重みは次のように定義される。

その結果、数式１は次のように書き換え可能である。

ここで、μ_{ｃ（ｍ，１）}はバイアスクラスタに関連付けられる平均を表し、μ^（ｓ） _{ｃ（ｍ，ｉ）}は話者クラスタの平均であり、μ^（ｅｆ） _{ｃ（ｍ，ｉ）}は属性ｆの平均である。

各クラスタは、少なくとも１つの決定木を備える。クラスタにおいて、コンポーネント毎に決定木がある。表現を簡略化するために、ｃ（ｍ，ｉ）∈｛１，．．．．．．．，Ｎ｝は、ｉ番目のクラスタの平均ベクトル決定木においてコンポーネントｍの一般的な葉ノードインデックスを示す（Ｎは全てのクラスタの決定木の全域での葉ノードの総数）。決定木の詳細は、後で説明される。

ステップＳ２０７において、システムは、アクセス可能なやり方で保存される平均及び分散をルックアップする。

ステップＳ２０９において、システムは、所望の話者及び属性のための平均の重み付けをルックアップする。話者及び属性依存の重み付けがステップＳ２０７において平均がルックアップされる前にルックアップされても後にルックアップされてもよいことは、当業者によって理解されるであろう。

故に、ステップＳ２０９の後に、話者及び属性依存の平均を得る（即ち、平均を用いて重み付けを適用する）ことは可能であり、それからこれらはステップＳ２１１において図２のステップＳ１０７を参照して記述されたものと同じやり方で音響モデルの中で使用される。それから、音声はステップＳ２１３において出力される。

ガウシアンの平均はクラスタリングされる。実施形態において、各クラスタは、少なくとも１つの決定木を含み、前述の木において用いられる決定は、言語的変動、音声的変動及び韻律的変動に基づいている。実施形態において、クラスタのメンバである各コンポーネントの決定木がある。韻律的コンテキスト（context）、音声的コンテキスト及び言語的コンテキストは、最終的な音声波形に影響する。音声的コンテキストは典型的には声道に影響し、韻律的（例えば、音節）コンテキスト及び言語的（例えば、単語の品詞）コンテキストは、持続期間（リズム）及び基本周波数（声調）などの韻律に影響する。各クラスタは、１以上のサブクラスタを備えてよい（ここで、各サブクラスタは少なくとも１つの前述の決定木を備える）。

上記のものは、各サブクラスタの重みまたは各クラスタの重みベクトル（重みベクトルの要素は、各サブクラスタの重み付けである）を検索することと考えることができる。

以下の構成は、標準的な実施形態を示す。このデータをモデル化するために、この実施形態において、５状態ＨＭＭが使用される。データは、この例に関して３つのクラス（無音、短休止及び音声）へと分離される。この特定の実施形態において、サブクラスタ毎の決定木及び重みの割り当ては次の通りである。

この特定の実施形態において、以下のストリームがクラスタ毎に使用される。
スペクトル：１ストリーム、５状態、状態毎に１本の木×３クラス
対数Ｆ０：３ストリーム、ストリーム毎に５状態、状態及びストリーム毎に１本の木×３クラス
ＢＡＰ：１ストリーム、５状態、状態毎に１本の木×３クラス
持続期間：１ストリーム、５状態、１本の木×３クラス（各木は全ての状態を横断して共有される）
合計：３×２６＝７８本の決定木
上記のものに関して、声特性（例えば、話者）毎に各ストリームに以下の重みが適用される。
スペクトル：１ストリーム、５状態、ストリーム毎に１個の重み×３クラス
対数Ｆ０：３ストリーム、ストリーム毎に５状態、ストリーム毎に１個の重み×３クラス
ＢＡＰ：１ストリーム、５状態、ストリーム毎に１個の重み×３クラス
持続期間：１ストリーム、５状態、状態及びストリーム毎に１個の重み×３クラス
合計：３×１０＝３０個の重み
この例において示されるように、異なる決定木（スペクトル）に同一の重みを割り当てることも、同一の決定木（持続期間）に１個よりも多くの重みを割り当てることも、他の任意の組み合わせも可能である。ここで用いられるように、同じ重み付けが適用される決定木はサブクラスタを形成すると考えられる。

実施形態において、選択された話者及び属性のガウス分布の平均は、ガウシアンコンポーネントの平均の重み付き和として表現され、ここで、加算は各クラスタからの１つの平均を用い、この平均は現在処理されている音響単位の韻律的コンテキスト、言語的コンテキスト及び音声的コンテキストに基づいて選択されている。

図５は、出力音声のために話者及び属性を選択する、実行可能な方法を示す。ここで、ユーザが、例えばスクリーン上のポイントをドラッグ・アンド・ドロップするマウス、数字（figure）を入力するキーボードなどを用いて重み付けを直接的に選択する。図５において、マウス、キーボードなどを備える選択部２５１は、ディスプレイ２５３を用いて重み付けを選択する。ディスプレイ２５３は、この例では、２つのレーダーチャート（１つは属性用、１つは重み付けを示す声用）を備える。ユーザは、レーダーチャートを介して様々なクラスタの優位（dominance）を変更するために選択部２５１を使用できる。他の表示方法が使用されてよいことは当業者によって理解されるであろう。

いくつかの実施形態において、重み付けはそれら自身の空間（最初に各次元を表す重みを備える「重み空間」）に射影可能である。この空間は、次元が異なる声属性を表現する異なる空間へ再配置できる。例えば、モデル化された声特性が、１つの次元が幸福な声特性を示して別の次元が緊張した声特性などを示すという表現であるならば、ユーザは幸福な声特性が優位を占めるようにこの声特性の重み付けを増やすことを選択してもよい。その場合に、新たな空間の次元数は、元の重み空間の次元数より低い。それから、元の空間の重みベクトルλ^（ｓ）は、新たな空間の座標ベクトルα^（ｓ）の関数として得られる。

一実施形態において、この次元の削減された重み空間への元の重み空間の射影は、λ^（ｓ）＝Ｈα^（ｓ）という型の一次方程式を用いてまとめられ、ここでＨは射影行列である。一実施形態において、行列Ｈは、その列に手動で選択されたｄ名の代表話者の元のλ^（ｓ）を設定するように定義され、ここでｄは新たな空間の所望の次元である。重み空間の次元を削減したり、いくらかの話者についてα^（ｓ）の値が事前定義されているならば制御α空間を元のλ重み空間へマッピングする関数を自動的に見つけ出したりするために、他の技法が使用可能である。

更なる実施形態において、システムは、重み付けベクトルの所定のセットを保存するメモリを備え付けられている。各ベクトルは、異なる声特性及び話者の組み合わせと共にテキストが出力されることを可能にするように設計されてよい。例えば、幸福な声、怒り狂った声、などが任意の話者と組み合わせられる。そのような実施形態に従うシステムが、図６に示されている。ここで、ディスプレイ２５３は、選択部２５１によって選択され得る様々な声特性及び話者を示す。

システムは、所定のセットの属性に基づく話者選択のセットを示してもよい。ユーザは、それから、必要とされる話者を選択してもよい。

更なる実施形態において、図７に示されるように、システムは重み付けを自動的に決定する。例えば、システムは、命令または質問であると認識するテキストに対応する音声を出力する必要があるかもしれない。システムは、電子書籍を出力するように構成されてもよい。システムは、ナレータに対立するものとして書籍内のキャラクタによって何かが話される時（例えば、引用符）をテキストから認識し、出力に新たな声特性を導入するために重み付けを変更してよい。システムは、この様々な音声のための話者を決定するように構成されてもよい。システムは、テキストが反復されているかどうかを認識するように構成されてもよい。係る状況において、２回目の出力に関して声特性が変化してもよい。更に、システムは、幸福な瞬間に言及しているかどうか、または、不安な瞬間に言及しているかどうかを認識するように構成されてもよく、テキストは適切な声特性と共に出力される。

上記システムにおいて、テキストにおいてチェックされる属性及び規則を保存するメモリ２６１が用意される。入力テキストは、ユニット２６３によってメモリ２６１へ提供される。テキストに対する規則がチェックされ、それから、声特性の種別に関する情報が選択部２６５へと渡される。選択部２６５は、それから、選択された声特性のための重み付けをルックアップする。

上記システム及び考察は、ゲーム内のキャラクタが話すコンピュータゲームにおいて使用されるシステムに適用されてもよい。

更なる実施形態において、システムは、更なるソース（source）から出力されるテキストについての情報を受け取る。係るシステムの一例が図８に示される。例えば、電子書籍の場合において、システムは、テキストの特定の部分がどのように出力されるべきか、ならびに、テキストの当該部分の話者、を示す入力を受け取るかもしれない。

コンピュータゲームにおいて、システムは、話しているキャラクタが、負傷しているかどうか、ささやくために隠れているのかどうか、誰かの注意を引き付けようとしているかどうか、ゲームのステージを首尾よく終えたかどうか、などをゲームから判定できるだろう。

図８のシステムにおいて、テキストがどのように出力されるべきかについての更なる情報がユニット２７１から受け取られる。ユニット２７１は、それから、この情報をメモリ２７３へと送る。メモリ２７３は、それから、声がどのように出力されるべきかに関する情報を検索し、これをユニット７２５へと送る。ユニット２７５は、それから、話者及び所望の属性の所望の音声出力のための重み付けを検索する。

次に、実施形態に従うシステムのトレーニングが、図９乃至図１３を参照して記述される。最初に、ＣＡＴベースのシステムに関するトレーニングが記述される。

図９のシステムは、図１を参照して記述されたものと類似する。故に、いくらかの不要な反復を避けるために、類似の参照番号が類似の特徴（feature）を表示するために使用される。

図１を参照して記述された特徴に加えて、図９はオーディオ入力２３及びオーディオ入力モジュール２１も備える。システムをトレーニングする時に、テキスト入力１５を介して入力されるテキストに合致する音声入力を得ることが必要である。隠れマルコフモデル（ＨＭＭｓ）に基づく音声処理システムにおいて、ＨＭＭはしばしば次のように表現される。

ここで、Ａ＝｛ａ_ｉｊ｝^Ｎ _{ｉ，ｊ＝１}は状態遷移確率分布であり、Ｂ＝｛ｂ_ｊ（ｏ）｝^Ｎ _ｊ＝１は状態出力確率分布であり、Π＝｛π_ｉ｝^Ｎ _ｉ＝１は初期状態確率分布であり、ＮはＨＭＭの状態数である。

ＨＭＭがテキスト読み上げシステムにおいてどのように使用されるかは、技術分野において周知であり、ここでは述べられない。

現在の実施形態において、状態遷移確率分布Ａ及び初期状態確率分布は、技術分野において周知の手続に従って決定される。故に、この記述の残部は状態出力確率分布に関係する。

一般的に、テキスト読み上げシステムにおいて、モデルセットＭのｍ番目のガウシアンコンポーネントからの状態出力ベクトルまたは音声ベクトルｏ（ｔ）は、次の通りである。

ここで、μ_ｍ ^{（ｓ，ｅ）}及びΣ_ｍ ^{（ｓ，ｅ）}は、話者ｓ及び表現ｅについてのｍ番目のガウシアンコンポーネントの平均及び共分散である。

従来のテキスト読み上げシステムをトレーニングする時の目標は、所与の観測系列に対する尤度を最大化するモデルパラメータセットＭを推定することである。従来のモデルでは、単一の話者及び表現が存在し、故にモデルパラメータは全てのコンポーネントｍについてμ_ｍ ^{（ｓ，ｅ）}＝μ_ｍかつΣ_ｍ ^{（ｓ，ｅ）}＝Σ_ｍである。

純粋かつ分析的にいわゆる最尤（ＭＬ）基準に基づいて上記モデルセットを得ることは不可能なので、この問題は、従来、期待値最大化（ＥＭ）アルゴリズム（しばしば、バウム−ウェルチアルゴリズムと呼ばれる）として知られる反復的なアプローチを用いて扱われる。ここで、補助関数（「Ｑ」関数）は次の通り導出される。

ここで、γ_ｍ（ｔ）は、現在のモデルパラメータＭ’を仮定した場合にコンポーネントｍが観測ｏ（ｔ）を生成することの事後確率であり、Ｍは新たなパラメータ・セットである。各反復の後に、パラメータ・セットＭ’は、Ｑ（Ｍ，Ｍ’）を最大化する新たなパラメータ・セットＭに置き換えられる。ｐ（ｏ（ｔ），ｍ｜Ｍ）は、例えばＧＭＭ、ＨＭＭなどの生成モデルである。

本実施形態において、次の状態出力ベクトルを持つＨＭＭが使用される。

ここで、ｍ∈｛１，．．．．．．．，ＭＮ｝、ｔ∈｛１，．．．．．．．，Ｔ｝、ｓ∈｛１，．．．．．．．，Ｓ｝及びｅ∈｛１，．．．．．．．，Ｅ｝は、それぞれ、コンポーネント、時間、話者及び表現のためのインデックスであり、ここでＭＮ、Ｔ、Ｓ及びＥは、それぞれ、コンポーネント、フレーム、話者及び表現の総数である。

μ＾_ｍ ^{（ｓ，ｅ）}及びΣ＾_ｍ ^{（ｓ，ｅ）}の正確な形式は、適用される話者及び表現依存の変換の種別に依存する。最も一般的なやり方では、話者依存の変換は、次のものを含む。
話者−表現依存の重みのセットλ_ｑ（ｍ） ^{（ｓ，ｅ）}
話者−表現依存のクラスタμ_{ｃ（ｍ，ｘ）} ^{（ｓ，ｅ）}
線形変換のセット［Ａ_ｒ（ｍ） ^{（ｓ，ｅ）}，ｂ_ｒ（ｍ） ^{（ｓ，ｅ）}］（これらの変換は、話者にだけ依存するかもしれないし、表現のみに依存するかもしれないし、両方に依存するかもしれない。）
ステップＳ２１１において、全ての実行可能な話者依存の変換を適用した後に、話者ｓ及び表現ｅについての確率分布ｍの平均ベクトルμ^＾ _ｍ ^{（ｓ，ｅ）}及び共分散行列Σ^＾ _ｍ ^{（ｓ，ｅ）}は、次のようになる。

ここで、μ_{ｃ（ｍ，ｉ）}は、数式１において記述されたようにコンポーネントｍについてのクラスタＩの平均であり、μ_{ｃ（ｍ，ｘ）} ^{（ｓ，ｅ）}は、話者ｓ、表現ｓの追加的なクラスタのコンポーネントｍについての平均ベクトルであり（後述される）、Ａ_ｒ（ｍ） ^{（ｓ，ｅ）}及びｂ_ｒ（ｍ） ^{（ｓ，ｅ）}は、線形変換行列及び話者ｓ、表現ｅについての回帰（regression）クラスｒ（ｍ）に関連付けられるバイアスベクトルを表す。Ｒは、回帰クラスの総数であり、ｒ（ｍ）∈｛１，．．．．．．．，Ｒ｝はコンポーネントｍが属する回帰クラスを表示する。

線形変換が全く適用されなければ、Ａ_ｒ（ｍ） ^{（ｓ，ｅ）}及びｂ_ｒ（ｍ） ^{（ｓ，ｅ）}は、それぞれ、単位行列及び零ベクトルになる。

後で説明される理由により、この実施形態において、共分散は決定木へとクラスタリング及び配置され、ここでｖ（ｍ）∈｛１，．．．．．．．，Ｖ｝はコンポーネントｍの共分散行列が属する共分散決定木中の葉ノードを表示し、Ｖは分散決定木葉ノードの総数である。

上記のものを用いて、補助関数は次のように表現可能である。

ここで、Ｃは、Ｍから独立した定数である。

故に、上記のものを用い、数式８に数式６及び数式７を代入すると、補助関数はモデルパラメータが４つの別個の部分に分割されてよいことを示す。

第１の部分は、規範的（canonical）モデルのパラメータ、即ち、話者及び表現から独立した平均｛μ_ｎ｝及び話者及び表現から独立した共分散｛Σ_ｋ｝であり、上記インデックスｎ及びｋは後述される平均及び分散決定木の葉ノードを示す。第２の部分は、話者−表現依存の重み｛λ_ｉ ^{（ｓ，ｅ）}｝_{ｓ，ｅ，ｉ}であり、ここでｓは話者を示し、ｅは表現を示し、ｉはクラスタインデックスパラメータである。第３の部分は話者−表現依存のクラスタの平均μ_{ｃ（ｍ，ｘ）}であり、第４の部分は制約付き最尤線形回帰（ＣＭＬＬＲ）変換｛Ａ_ｄ ^{（ｓ，ｅ）}，ｂ_ｄ ^{（ｓ，ｅ）}｝_{ｓ，ｅ，ｄ}であり、ここで、ｓは話者を示し、ｅは表現であり、ｄはコンポーネントまたはコンポーネントｍが属する話者−表現回帰クラスを示す。

一旦、上記のやり方で補助関数が表現されると、話者及び声特性のパラメータ、話者依存のパラメータ、声特性依存のパラメータのＭＬ値を得るために、補助関数は変数の各々に関して順番に最大化される。

詳細には、平均のＭＬ推定を決定するために、次の手続が行われる。

以下の数式を簡略化するために、線形変換が全く適用されないことを仮定する。線形変換が適用されるならば、元の観測ベクトル｛ｏ_ｒ（ｔ）｝は、変換観測ベクトルによって置き換えられなければならない。

同様に、追加的なクラスタが全くないことを仮定する。トレーニングの間にその余分なクラスタを含めることは、単位行列であるＡ_ｒ（ｍ） ^{（ｓ，ｅ）}及び｛ｂ_ｒ（ｍ） ^{（ｓ，ｅ）}＝μ_{ｃ（ｍ，ｘ）} ^{（ｓ，ｅ）}｝に線形変換を加えることとちょうど等価である。

最初に、数式４の補助関数が、以下のように、μ_ｎに関して微分される。

Ｇ_ｉｊ ^（ｍ）及びｋ_ｉ ^（ｍ）は、統計量の累積である。

導関数を零に設定することにより通常のやり方で数式を最大化することによって、以下の数式がμ_ｎのＭＬ推定（即ち、μ＾_ｎ）について得られる。

μ_ｎのＭＬ推定が、μ_ｋ（ｋはｎと等しくない）にも依存することに留意すべきである。インデックスｎは、平均ベクトルの決定木の葉ノードを表現するために使用されるが、インデックスｋは共分散決定木の葉ノードを表現する。故に、収束までμ_ｎの全体に亘って反復することによって、最適化が行われる必要がある。

これは、以下の数式を解くことにより全てのμ_ｎを同時に最適化することによって、行うことができる。

しかしながら、トレーニングデータが小さい、または、Ｎがかなり大きいならば、数式７の係数行列はフルランクを持つことができない。この問題は、特異値分解または他の周知の行列因子分解技法を使用することによって回避可能である。

それから、同じ処理が共分散のＭＬ推定を行うために行われる（即ち、数式８に示される補助関数がΣ_ｋに関して微分され、次の数式を与える）。

話者依存の重み及び話者依存の線形変換についてのＭＬ推定も同じやり方で得ることができる（即ち、ＭＬ推定が必要とされるパラメータに関して補助関数を微分し、それから微分値を０に設定する）。

表現依存の重みについて、これは次のものをもたらす。

そして、同様に、話者依存の重みについて、次の通りである。

実施形態において、処理は反復的なやり方で行われる。この基本的なシステムは、図１０乃至図１２のフロー図を参照して説明される。

ステップＳ４０１において、オーディオ音声の複数入力が受け取られる。この説明的な例において、４話者が使用される。

次に、ステップＳ４０３において、ニュートラルな感情で話している４つの声の各々について、音響モデルがトレーニングされて作り出される。この実施形態において、４つのモデルの各々は、１つの声からのデータを用いてトレーニングされるだけである。Ｓ４０３は、図１１のフローチャートを参照してより詳細に説明される。

図１１のステップＳ３０５において、クラスタ数ＰはＶ＋１に設定され、ここでＶは声の数（４）である。

ステップＳ３０７において、１つのクラスタ（クラスタ１）が、バイアスクラスタとして決定される。バイアスクラスタ及び関連クラスタの平均ベクトルのための決定木は、ステップＳ３０３において最高のモデルを作り出した声を用いて初期化される。この例において、各声は、タグ「声Ａ」、「声Ｂ」、「声Ｃ」及び「声Ｄ」を与えられ、ここで声Ａは最高のモデルを作り出したと仮定される。共分散行列、多空間上の確率分布（ＭＳＤ）の空間重み、ならびに、それらのパラメータ共有構造も、声Ａモデルのものに初期化される。

各二分決定木は、全てのコンテキストを表現する単一のルートノードで始まる局所最適法で構築される。この実施形態において、コンテキストによって、以下のベース（bases）が、使用され、音声的であり、言語的であり、韻律的である。各ノードが作り出される時に、コンテキストについての次の最適な質問が選択される。質問は、どの質問が尤度について最大の増分を引き起こすか、ならびに、トレーニング例において生成される終端ノード、を基準に選択される。

それから、終端ノードのセットが探索され、トレーニングデータに対する合計の尤度について最も大きな増分を提供するその最適な質問を用いて分割可能なものが見つけ出される。この増分が閾値を超過するならば、ノードは最適な質問を用いて分割され、２つの新たな終端ノードが作り出される。処理は、いかなる更なる分割も尤度分割に適用される閾値を超過しないために新たな終端ノードを形成することができなくなると、停止する。

この処理は、例えば図１３に示される。平均決定木におけるｎ番目の終端ノードは、質問ｑによって２つの新たな終端ノードｎ_＋ ^ｑ及びｎ₋ ^ｑに分割される。この分割によって獲得される尤度利得は、以下のように計算できる。

ここで、Ｓ（ｎ）はノードｎに関連付けられたコンポーネントのセットを表示する。μ_ｎに関して一定である項は含まれないことに注意されたい。

ここで、Ｃはμ_ｎから独立した定数項である。μ_ｎの最大尤度は、数式１３により与えられる。故に、上記のものは、次のように書き換えることができる。

故に、ノードｎをｎ_＋ ^ｑ及びｎ₋ ^ｑへと分割することによって増す尤度は、次の通り与えられる。

故に、上記のものを用いて、各クラスタの決定木を構築することが可能であり、木は、最適な質問が当該木の最初に問われ、決定が尤度分割に従う階層的な順序で配置されるように、配置される。それから、重み付けが各クラスタに適用される。

決定木は、分散のために構築されてもよい。共分散決定木は、以下のように構築される。共分散決定木中の終端ノードが質問ｑによって２つの新たな終端ノードｋ_＋ ^ｑ及びｋ₋ ^ｑに分割される場合に、クラスタ共分散行列及び分割による利得は以下のように表現される。

ここで、Ｄは｛Σ_ｋ｝とは独立した定数である。故に、尤度についての増分は、次の通りである。

ステップＳ３０９において、特定の声タグがクラスタ２，．．．，Ｐ（例えば、クラスタ２，３，４及び５はそれぞれスピーカＢ，Ｃ，Ｄ及びＡのためのものである）の各々に割り当てられる。声Ａはバイアスクラスタを初期化するために使用されたので最後のクラスタを初期化するために割り当てられることに注意されたい。

ステップＳ３１１において、ＣＡＴ補間重みのセットは、割り当てられた声タグに従って１または０に簡便に設定される。

この実施形態において、話者あたり、ストリームあたりのグローバルな重みがある。

ステップＳ３１３において、各クラスタ２，．．．，（Ｐ−１）について順番に、クラスタが以下のように初期化される。関連する声（例えば、クラスタ２についての声Ｂ）の声データは、ステップＳ３０３においてトレーニングされた関連する声のための１話者（mono-speaker）モデルを用いて整列（align）させられる。これらの整列（alignment）が与えられると、統計量が計算され、クラスタの決定木及び平均値が推定される。クラスタの平均値は、ステップＳ３１１において設定された重みを用いてクラスタ平均を正規化重み付き和として計算される（即ち、実際には、これは、所与のコンテキストに対するバイアスクラスタ平均とクラスタ２における当該コンテキストに対する声Ｂモデル平均との重み付き和（両方の場合において重みは１）である、当該コンテキストの平均値に帰着する）。

ステップＳ３１５において、決定木は全４つの声からのデータの全てを用いてバイアスクラスタのために再構築され、関連する平均及び分散パラメータが再推定される。

声Ｂ、Ｃ及びＤのためのクラスタを加えた後に、バイアスクラスタは全４つの音声を同時に用いて再推定される。

ステップＳ３１７において、クラスタＰ（声Ａ）が、今度は、声Ａからのデータのみを用いて、他のクラスタに関してステップＳ３１３で述べられたように、初期化される。

一旦、上記のようにクラスタが初期化されたならば、ＣＡＴモデルは、それから、以下のように更新／トレーニングされる。

ステップＳ３１９において、ＣＡＴ重みを固定しながら、決定木はクラスタ１からクラスタＰまでクラスタ毎に再構築される。ステップＳ３２１において、新たな平均及び分散がＣＡＴモデルの中で推定される。次にステップＳ３２３において、新たなＣＡＴ重みが各クラスタについて推定される。実施形態において、処理は、収束までステップＳ３２１へと折り返す。パラメータ及び重みは、当該パラメータのより良い推定を得るために、バウム−ウェルチアルゴリズムの補助関数を用いて行われる最尤計算を用いて推定される。

前述のように、パラメータは反復処理を介して推定される。

更なる実施形態において、ステップＳ３２３では、処理は、各反復の間に決定木が再構築されるように収束までステップＳ３１９へと折り返す。

処理はそれから図１０のステップＳ４０５へと戻り、モデルはそれから様々な属性についてトレーニングされる。この特定の例において、属性は感情である。

この実施形態において、話者の声の感情は、ステップＳ４０３における話者の音声のモデル化について記述されたのと同じやり方でクラスタ適応トレーニングを用いてモデル化される。最初に、ステップＳ４０５において「感情クラスタ」が初期化される。これは、図１２を参照してより詳細に説明される。

それから、データが少なくとも１人の話者について収集され、ここで話者の声は感情的である。ただ１人の話者からデータを収集することも可能であるし（ここで話者は多数のデータサンプルを提供し、その各々が様々な感情を示す）、様々な感情を伴う音声データを提供する複数の話者からデータを収集することも可能である。この実施形態において、感情を示すようにシステムをトレーニングするために用意される音声サンプルは、ステップＳ４０３において初期ＣＡＴモデルをトレーニングするためにデータを集められた話者に由来すると推定される。しかしながら、システムはステップＳ４０３においてデータを使用されなかった話者からのデータを用いて感情を示すようにトレーニング可能であり、これは後述される。

それから、ステップＳ４５１において、非ニュートラルな感情のデータがＮ_ｅ個のグループにグループ化される。ステップＳ４５３において、Ｎ_ｅ個の追加的なクラスタが感情をモデル化するために追加される。クラスタは、各感情グループに関連付けられる。例えば、クラスタは「幸福」などに関連付けられる。

これらの感情クラスタは、ステップＳ４０３において形成されたニュートラルな話者クラスタに加えて用意される。

ステップＳ４５５において、音声データがある感情を示すトレーニングに用いられるのであればその感情に関連付けられるクラスタが「１」に設定されて他の全ての感情クラスタが「０」で重み付けられるように、感情クラスタ重み付けのためのバイナリベクトルを初期化する。

この初期化フェーズの間に、ニュートラルな感情の話者クラスタは、データの話者に関連付けられる重み付けに設定される。

次に、ステップＳ４５７において各感情クラスタについて決定木が構築される。最終的に、ステップＳ４５９において全てのデータに基づいて重みが再推定される。

上に説明されたように感情クラスタが初期化された後に、ステップＳ４０７においてガウシアン平均及び分散が全てのクラスタ、バイアス、話者及び感情について再推定される。

次に、ステップＳ４０９において上述のように感情クラスタのための重みが再推定される。それから、ステップＳ４１１において、決定木が再計算される。次に、処理はステップＳ４０７に折り返し、モデルパラメータ、それに続くステップＳ４０９における重み付け、それに続くステップＳ４１１における決定木の再構築が収束まで行われる。実施形態において、ループＳ４０７−Ｓ４０９は数回反復される。

次に、ステップＳ４１３において、モデル分散及び平均が全てのクラスタ、バイアス、話者及び感情について再推定される。ステップＳ４１５において重みが話者クラスタについて再推定され、ステップＳ４１７において決定木が再構築される。それから、処理はステップＳ４１３に折り返し、ループは収束まで反復される。それから、処理はステップＳ４０７に折り返し、感情に関するループが収束まで反復される。処理は、両方のループについて共に収束が達成されるまで、継続する。

図１３は、決定木の形をしたクラスタ１乃至Ｐを示す。この簡略化された例において、クラスタ１にはちょうど４つの終端ノードがあり、クラスタＰには３つの終端ノードがある。決定木が対称である必要がないこと、即ち、各決定木は異なる数の終端ノードを持つことが可能であること、に注目することが重要である。木の中の終端ノードの数及び分岐の数は純粋に対数尤度分割によって決定され、対数尤度分割は、最初の決定において最大の分割を達成し、それから、より大きな分割を生じる質問の順に質問が問われる。一旦、分割が閾値を下回れば、ノードの分割は終了する。

上記のものは、以下の合成が行われることを可能にする規範的モデルを作り出す。

１．４つの声のいずれも、システムがトレーニングされた感情などの任意の属性と組み合わせた声に対応する最終的な重みベクトルのセットを用いて合成可能である。故に、話者１について「幸福な」データのみが存在する場合に、システムが他の声の少なくとも１つについて「怒っている」データを用いてトレーニングされているならば、システムが「怒っている感情」を伴う話者１の声を出力することが可能である。

２．任意の位置に重みベクトルを設定することによって、ＣＡＴモデルにより張られた（span）音響空間からランダムな声を合成可能であり、トレーニングされた属性のいずれもこの新たな声に適用可能である。

３．システムは、２つ以上の異なる属性を伴う声を出力するために使用されてもよい。例えば、話者の声が、２つの異なる属性（例えば、感情及び訛り）を伴って出力されてよい。

訛り及び感情などの組み合わせ可能な異なる属性をモデル化するために、組み合わせられる２つの異なる属性は、上記数式３に関して述べられたように組み込まれてもよい。

係る配置において、あるクラスタのセットは様々な話者のためのものとなり、別のクラスタのセットは感情のためのものとなり、最後のクラスタのセットは訛りのためのものとなる。図１０に再び言及すると、感情クラスタは図１２を参照して説明されるように初期化され、訛りクラスタもまた感情に関して図１２を参照して説明されるように追加的なクラスタのグループとして初期化される。図１０は、感情をトレーニングするための個別のループと、それから、話者をトレーニングするための個別のループとがあることを示す。声の属性が、訛り及び感情などの２つのコンポーネントを持つならば、訛りのための個別のループと感情のための個別のループとがある。

上の実施形態の枠組みは、モデルが共にトレーニングされることを許容し、故に、生成される音声の可制御性（controllability）及び品質の両方を向上させる。上記のものは、トレーニングデータの範囲についての要求がより緩和されることを可能にする。例えば、図１４に示されるトレーニングデータ構成が使用可能であり、ここでは次のものがある。
３人の女性話者ｆｓ１、ｆｓ２及びｆｓ３
３人の男性話者ｍｓ１、ｍｓ２及びｍｓ３
ここで、ｆｓ１及びｆｓ２は、アメリカ訛りを持ち、ニュートラルな感情を伴う発話を記録され、ｆｓ３は、中国訛りを持ち、３ロットのデータ（ここで、あるデータセットはニュートラルな感情を示し、あるデータセットは幸福な感情を示し、あるデータセットは怒っている感情を示す）についての発話を記録されている。男性話者ｍｓ１は、アメリカ訛りを持ち、ニュートラルな感情を伴う発話を記録され、男性話者ｍｓ２は、スコットランド訛りを持ち、怒っている感情、幸福な感情及び悲しい感情を伴って話している３つのデータセットについて記録されている。第３の男性話者ｍｓ３は、中国訛りを持ち、ニュートラルな感情を伴う発話を記録されている。上記システムは、６人の話者のいずれかの声が記録された訛り及び感情の任意の組み合わせを伴って、声データが出力されることを可能にする。

実施形態において、クラスタをトレーニングするために使用されるデータのグルーピングが各声特性についてユニークであるように、声の属性及び話者の間には重複がある。

更なる例において、アシスタント（assistant）が声特性の合成に使用されてよく、ここで、システムは当該システムを新たな話者に適応させる目標話者の声の入力を与えられ、或いは、システムは訛りまたは感情などの新たな声特性を伴うデータを与えられてもよい。

実施形態に従うシステムは、新たな話者、及び／または、属性に適応してもよい。

図１５は、ニュートラルな感情を伴う新たな話者に適応するシステムの一例を示す。最初に、入力目標話音声がステップ５０１において受け取られる。次に、ステップＳ５０３において、規範的モデルの重み付け、即ち、以前にトレーニングされたクラスタの重み付けが、目標の声に合致するよう調整される。

それから、オーディオが、ステップＳ５０３において導出された新たな重み付けを用いて出力される。

更なる実施形態において、新たなニュートラルな感情の話者クラスタが、図１０及び図１１を参照して説明されたように、初期化及びトレーニングされてよい。

更なる実施形態において、システムは新たな感情などの新たな属性に適応するために使用されてよい。これは、図１６を参照して述べられる。

図１５のように、最初に、ステップＳ６０１において目標の声が受け取られ、新たな属性を伴って話している声についてデータが収集される。最初に、ステップＳ６０３において、ニュートラルな話者クラスタの重み付けが、目標の声に最高に合致するように調整される。

それから、ステップＳ６０７において、新たな感情のために、新たな感情クラスタが既存の感情クラスタへと追加される。次に、図１２のステップＳ４５５以降に関して述べられたように、新たなクラスタの決定木が初期化される。それから、図１１を参照して述べられたように、重み付け、モデルパラメータ及び木は、全てのクラスタについて再推定及び再構築される。

システムによって生成され得る任意の話者の声が、新たな感情を伴って出力可能である。

図１７は、話者の声及び属性がどのように関連付けられるかを視覚化するのに役立つプロットを示す。図１７のプロットは、３次元で示されているが、より高い次元順へ拡張可能である。

話者は、ｚ軸に沿ってプロットされる。この簡略化されたプロットにおいて話者重み付けは１次元として定義されるが、実際には、対応する数の軸上で表現される２以上の話者重み付けがありそうである。

表現は、ｘ−ｙ平面上で表現される。ｘ軸に沿った表現１及びｙ軸に沿った表現２を用いて、怒っている及び悲しいに対応する重み付けが示されている。この配置を用いると、「怒っている」話者ａ及び「悲しい」話者ｂに必要とされる重み付けを生成することが可能である。新たな感情または属性に対応するｘ−ｙ平面上の点を導出することによって、新たな感情または属性が既存の話者にどのように適用できるのかを理解できる。

図１８は、音響空間を参照して上に説明される原理を示す。変換が視覚化されることを可能にするために、２次元の音響空間がここに示される。しかしながら、実際には、音響空間は、多くの次元に拡張される。

表現ＣＡＴにおいて、所与の表現の平均ベクトルは次の通りである。

ここで、μ_ｘｐｒは、表現ｘｐｒを伴って話す話者を表す平均ベクトルであり、λ_ｋ ^ｘｐｒは、表現ｘｐｒのコンポーネントｋに対するＣＡＴ重み付けであり、μ_ｋは、コンポーネントｋのコンポーネントｋ平均ベクトルである。

感情依存である唯一の部分は重みである。故に、２つの異なる表現（ｘｐｒ１及びｘｐｒ２）の間の差分は、平均ベクトルの単なるシフトである。

これが、図１８に示される。

故に、表現２（ｘｐｒ２）の特性を異なる話者の声（Ｓｐｋ２）へと移植（port）するためには、Ｓｐｋ２の話者モデルの平均ベクトルに適切なΔを加えることで十分である。この場合には、適切なΔは話者から導出され、ここで、データが、ｘｐｒ２を伴って話すこの話者に利用可能である。この話者は、Ｓｐｋ１と呼ばれる。Δは、所望の表現ｘｐｒ２を伴って話すＳｐｋ１の平均ベクトルと表現ｘｐｒを伴って話すＳｐｋ１の平均ベクトルとの間の差分として、Ｓｐｋ１から導出される。表現ｘｐｒは、話者１及び話者２の両方に共通の表現である。例えば、ニュートラルな表現のデータがＳｐｋ１及びＳｐｋ２の両方に利用可能であるならば、ｘｐｒはニュートラルな表現であり得る。しかしながら、ｘｐｒは、両方の話者について合致している、或いは、厳密に合致している任意の表現であり得る。実施形態において、Ｓｐｋ１及びＳｐｋ２について厳密に合致している表現を決定するために、話者に利用可能な様々な表現についてＳｐｋ１及びＳｐｋ２の間で距離関数が構成可能であり、距離関数が最小化されてよい。距離関数は、ユークリッド距離、バタチャリヤ距離、または、カルバックライブラ距離から選択されてよい。

適切なΔは、それから、下に示されるように、Ｓｐｋ２についての最も合致した平均ベクトルに加算されてよい。

上記の例はＣＡＴベースの技術を主に使用したが、Δの識別は、原理上は、様々なタイプの表現が出力されることを可能にする任意のタイプの統計的モデルに適用可能である。

いくつかの実施形態を記述したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。確かに、ここに記述された新規な方法及び装置は、その他の様々な形態で具体化可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。係る変形は、発明の範囲や要旨に含まれるとともに、添付の特許請求の範囲及びその均等物に含まれる。

Claims

選択された話者の声及び選択された話者属性を持つ音声を出力するように構成されたテキスト読み上げ方法であって、前記方法は、
テキストを入力することと、
入力された前記テキストを音響単位の系列へと分割することと、
前記入力されたテキストの話者を選択することと、
前記入力されたテキストの話者属性を選択することと、
音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換することと、
選択された前記話者の声及び選択された話者属性を伴うオーディオとして前記音声ベクトルの系列を出力することと
を具備し、
前記音響モデルは、話者の声に関連する第１のパラメータ・セットと話者属性に関連する第２のパラメータ・セットとを備え、
前記第１のパラメータ・セット及び第２のパラメータ・セットは重複せず、
話者の声を選択することは、前記第１のパラメータ・セットから前記話者の声を与えるパラメータを選択することを備え、
前記話者属性を選択することは、第２のセットから前記選択された話者属性を与えるパラメータを選択することを備える、
方法。
異なる複数の話者属性に関連する複数のパラメータ・セットがあり、当該複数のパラメータ・セットは重複しない、請求項１の方法。
前記音響モデルは、前記音響単位を前記音声ベクトルの系列に関連付ける確率分布関数を備え、
前記第１のパラメータ・セット及び第２のパラメータ・セットの選択が確率分布を変形する、
請求項１の方法。
前記第２のパラメータ・セットは、前記第１のパラメータ・セットの少なくとも一部のパラメータに加えられるオフセットに関連する、請求項３の方法。
前記話者の声及び属性の制御は、前記確率分布の平均の重み付き和を介して達成され、
前記第１のパラメータ・セット及び第２のパラメータ・セットの選択は、使用される前記重みを制御する、
請求項３の方法。
前記第１のパラメータ・セット及び前記第２のパラメータ・セットは、クラスタ内で提供され、
各クラスタは、少なくとも１つのサブクラスタを備え、
重み付けは、サブクラスタ毎に導出される、
請求項５の方法。
前記話者の声が連続的な範囲に亘って可変であり、かつ、声属性が連続的な範囲に亘って可変であるように、パラメータ・セットが連続的である、請求項１の方法。
前記第１のパラメータ・セット及び第２のパラメータ・セットの値は、オーディオ、テキスト、外部エージェントまたはこれらの任意の組み合わせを用いて定義される、請求項１の方法。
前記方法は、第１の話者の音声から得られる第２のパラメータを第２の話者の音声に加えることによって、第１の話者から第２の話者へ音声属性を移植するように構成される、請求項４の方法。
前記第２のパラメータは、
移植される属性を伴って話している前記第１の話者から音声データを受け取ることと、
前記第２の話者の音声データに最も近い前記第１の話者の音声データを識別することと、
前記移植される属性を伴って話している前記第１の話者から得られる前記音声データと前記第２の話者の音声データに最も近い前記第１の話者の音声データとの間の差分を判定することと、
前記差分から前記第２のパラメータを判定することと
によって得られる、請求項９の方法。
前記差分は、前記音響単位を前記音声ベクトルの系列に関連付ける前記確率分布の平均同士で判定される、請求項１０の方法。
前記第２のパラメータは、前記差分の関数として判定され、
前記関数は、線形関数である、
請求項１０の方法。
前記第２の話者の前記音声データに最も近い前記第１の話者の音声データを識別することは、前記第１の話者の前記音声データ及び前記第２の話者の前記音声データの前記確率分布に依存する距離関数を最小化することを備える、請求項１１の方法。
前記距離関数は、ユークリッド距離、バタチャリヤ距離、または、カルバックライブラ距離である、請求項１３の方法。
テキスト読み上げシステム用の音響モデル（当該音響モデルは音響単位の系列を音声ベクトルの系列に変換する）をトレーニングする方法であって、前記方法は、
複数の異なる属性を伴って話している複数の話者から音声データを受け取ることと、
受け取られた前記音声データから共通の属性を伴って話している話者に関連する音声データを分離することと、
共通の属性を伴って話している複数の話者から受け取られた前記音声データを用いて第１の音響サブモデルをトレーニングすること（当該トレーニングすることは第１のパラメータ・セットを導出することを備え、当該第１のパラメータ・セットは前記音響モデルを前記複数の話者の音声に適応させるために変更される）と、
残余の音声から第２の音響サブモデルをトレーニングすること（当該トレーニングすることは前記残余の音声から複数の属性を識別することと第２のパラメータ・セットを導出することとを備え、当該第２のパラメータ・セットは前記音響モデルを前記複数の属性の音声に適応させるために変更される）と、
合成された音響モデルが話者の声に関連する第１のパラメータ・セットと話者属性に関連する第２のパラメータ・セットとを備えるように前記第１の音響サブモデル及び第２の音響サブモデルを合成することによって音響モデルを出力することと
を具備し、
前記第１のパラメータ・セット及び第２のパラメータ・セットは重複せず、
話者の声を選択することは、前記第１のパラメータ・セットから前記話者の声を与えるパラメータを選択することを備え、
前記話者属性を選択することは、第２のセットから選択された前記話者属性を与えるパラメータを選択することを備える、
方法。
前記音響モデルは、前記音響単位を前記音声ベクトルの系列へと関連付ける確率分布関数を備え、
前記第１の音響サブモデルをトレーニングすることは、確率分布をクラスタに配置することを備え、各クラスタは、少なくとも１つのサブクラスタを備え、第１のパラメータは、サブクラスタあたり１つの重みがあるように適用される話者依存の重みであり、
前記第２の音響サブモデルをトレーニングすることは、確率分布をクラスタに配置することを備え、各クラスタは、少なくとも１つのサブクラスタを備え、第２のパラメータは、サブクラスタあたり１つの重みがあるように適用される属性依存の重みである、
請求項１５の方法。
前記受け取られた音声データは、様々な、考慮される属性の各々を含んでいる、請求項１６の方法。
モデルをトレーニングすることは、収束基準が満足されるまで、繰り返し、前記第２の音響サブモデルのパラメータの部分を固定したまま前記第１の音響サブモデルのパラメータを再推定し、それから第１の音響モデルのパラメータの部分を固定したまま前記第２の音響サブモデルのパラメータを再推定することを備える、請求項１６の方法。
選択された話者の声及び選択された話者属性、複数の異なる声特徴を持つ音声のシミュレート用のテキスト読み上げシステムであって、前記システムは、
入力テキストを受け取るためのテキスト入力と、
前記入力テキストを音響単位の系列へと分割し、前記入力テキストの話者を選択させ、前記入力テキストの話者属性を選択させ、音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換し（モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ）、選択された前記話者の声と選択された前記話者属性とを持つオーディオとして前記音声ベクトルの系列を出力するように構成されたプロセッサと、
前記音響モデルは、話者の声に関連する第１のパラメータ・セットと話者属性に関連する第２のパラメータ・セットとを備え、
前記第１のパラメータ・セット及び第２のパラメータ・セットは重複せず、
話者の声を選択することは、前記第１のパラメータ・セットから前記話者の声を与えるパラメータを選択することを備え、
前記話者属性を選択することは、第２のセットから前記選択された話者属性を与えるパラメータを選択することを備える、
システム。
テキストを入力することと、
入力された前記テキストを音響単位の系列へと分割することと、
前記入力されたテキストの話者を選択することと、
前記入力されたテキストの話者属性を選択することと、
音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換することと、
選択された前記話者の声及び選択された前記話者属性を持つオーディオとして前記音声ベクトルの系列を出力することと
を具備し、
前記音響モデルは、話者の声に関連する第１のパラメータ・セットと話者属性に関連する第２のパラメータ・セットを備え、
前記第１のパラメータ・セット及び第２のパラメータ・セットは重複せず、
話者の声を選択することは、前記第１のパラメータ・セットから前記話者の声を与えるパラメータを選択することを備え、
前記話者属性を選択することは、第２のセットから選択された前記話者属性を与えるパラメータを選択することを備える、
方法
をコンピュータに行わせるように構成されたコンピュータ可読コードを備える記憶媒体。