JP2010128103A - 音声合成装置、音声合成方法、および音声合成プログラム - Google Patents
音声合成装置、音声合成方法、および音声合成プログラム Download PDFInfo
- Publication number
- JP2010128103A JP2010128103A JP2008301511A JP2008301511A JP2010128103A JP 2010128103 A JP2010128103 A JP 2010128103A JP 2008301511 A JP2008301511 A JP 2008301511A JP 2008301511 A JP2008301511 A JP 2008301511A JP 2010128103 A JP2010128103 A JP 2010128103A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- database
- synthesized
- sentence
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】データベースを簡素化しつつも自然な合成音声を得る。
【解決手段】文単位またはフレーズ単位で複数の話者により生成された多数話者音声データベース17と、音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析部3と、このテキスト解析部3により解析された文単位毎またはフレーズ単位毎に、前記多数話者音声データベース17を切り替えて合成音声を生成する際、音声合成を行う文またはフレーズと一致する音韻を持つ音声データベース17の中から直前に音声合成した文またはフレーズで用いた音声データベース17に最も近い特性を持つ音声データベースを用いて合成音声を生成する。
【選択図】図2
【解決手段】文単位またはフレーズ単位で複数の話者により生成された多数話者音声データベース17と、音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析部3と、このテキスト解析部3により解析された文単位毎またはフレーズ単位毎に、前記多数話者音声データベース17を切り替えて合成音声を生成する際、音声合成を行う文またはフレーズと一致する音韻を持つ音声データベース17の中から直前に音声合成した文またはフレーズで用いた音声データベース17に最も近い特性を持つ音声データベースを用いて合成音声を生成する。
【選択図】図2
Description
本発明は、複数の話者の音声データベースを利用して音声合成を行う音声合成装置、音声合成方法、および音声合成プログラムに関する。
テキスト文を入力し、入力されたテキスト文から音声を合成するテキスト音声合成(TTS:Text-to-Speech)の技術として、非特許文献1に記載のようなコーパスベース方式の音声合成が知られている。このコーパスベース音声合成では、音声収録した人間の声を音声データベース化し、これを元に音声合成処理を行っている。 収録した音声をほぼそのまま使うため、肉声に近い、自然な合成音声を実現することができる。
この従来のコーパスベースによる音声合成について、さらに詳述すると、先ず、漢字かな混じりのテキスト文を入力して、テキスト解析により文を構成する単語を同定し、読み・アクセントを付与する。また、構文情報などからポーズの位置やイントネーションを設定する。そして、読みから特定される音韻系列に従い、汎用音声データベースから適切な音声素片を検索し、これらを接続する。必要に応じて音声信号処理により、声の高さや長さなどを調整し、音声波形を出力する。
阿部。「コーパスベース音声合成技術の動向[II]−音声合成単位を例題に−」、信学会誌、Vol.87 No.2 pp.129-134(2004.2)
阿部。「コーパスベース音声合成技術の動向[II]−音声合成単位を例題に−」、信学会誌、Vol.87 No.2 pp.129-134(2004.2)
従来の音声合成では、大量の音声データベースを利用する、合成音声の単位となる音声長を長くする、等の工夫をして合成音声の品質を向上させるようにしている。
しかしながら、従来の音声合成技術では、音声素片を接続して合成音声を作成しているため、音声データベースの作り込みに膨大な作業がかかっていた。特に、1人の人間が話すパターンとして、“母音−子音−母音”あるいは“子音−母音−子音”等の組合せをできるだけ沢山用意しておく必要があり、データベースが膨大なものとなる。また、自然な合成音声を得るためには、声の高さ、長さ等を調整する必要があり、そのために音素境界を音声データベースに付与するには、多大な時間を要するという課題があった。
本発明は、上記の課題に鑑みてなされたものであり、その目的は、データベースを簡素化しつつも自然な合成音声を得ることのできる音声合成装置、音声合成方法、および音声合成プログラムを提供することにある。
上記の目的を達成するために本発明に係る音声合成装置は、文単位またはフレーズ単位で複数の話者により生成された話者毎の音声データベースと、音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析手段と、このテキスト解析手段により解析された文単位毎またはフレーズ単位毎に前記話者毎の音声データベースを切り替えて合成音声を生成する音声合成手段と、を具備することを特徴としている。
また、本発明に係る音声合成装置において、前記音声合成手段は、前記話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた話者音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成することを特徴としている。
さらに、本発明に係る音声合成装置は、前記音声合成手段により音声合成された合成音声の発話速度を調整する発話速度調整手段を具備することを特徴としている。
一方、本発明に係る音声合成方法は、文単位またはフレーズ単位で複数の話者により生成された話者毎の音声データベースを用いてコンピュータにより音声合成を行う音声合成方法であって、音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析ステップと、このテキスト解析ステップにより解析された文単位毎またはフレーズ単位毎に前記話者毎の音声データベースを切り替えて合成音声を生成する音声合成ステップと、を具備することを特徴としている。
また、本発明に係る音声合成方法において、前記音声合成ステップは、前記話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた話者音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成することを特徴としている。
さらに、本発明に係る音声合成方法は、前記音声合成ステップにより音声合成された合成音声の発話速度を調整する発話速度調整ステップを具備することを特徴としている。
本発明に係る音声合成プログラムは、コンピュータを音声合成装置として機能させる音声合成プログラムを提案するものである。
本発明によれば、データベースを簡素化しつつも自然な合成音声を得ることができる。また、話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成するようにしているので、合成音声中に複数の話者が混在していても違和感を低減することができる。
<本発明のポイント>
音声を特徴付ける要因としては、主に、音韻や韻律、個人性がある。従来の音声合成手法では、個人性を固定し、音韻と韻律の要因を制御することで対応している。すなわち、1人の話者の音声を基にした音声データベースを作成し、これを音声合成に利用している。しかし、この従来手法では、音韻連鎖、韻律高低、韻律パターンの組合せが大量になる。従って、1名の特定話者で多種多様な音韻連鎖、韻律の高低、韻律パターンの全ての組合せを発声することは現実的には困難である。このため、従来手法では、高々、数モーラの音韻連鎖を考慮することしかできず、高品質化には限界があった。
音声を特徴付ける要因としては、主に、音韻や韻律、個人性がある。従来の音声合成手法では、個人性を固定し、音韻と韻律の要因を制御することで対応している。すなわち、1人の話者の音声を基にした音声データベースを作成し、これを音声合成に利用している。しかし、この従来手法では、音韻連鎖、韻律高低、韻律パターンの組合せが大量になる。従って、1名の特定話者で多種多様な音韻連鎖、韻律の高低、韻律パターンの全ての組合せを発声することは現実的には困難である。このため、従来手法では、高々、数モーラの音韻連鎖を考慮することしかできず、高品質化には限界があった。
本発明では、この限界を解消すべく、多数の話者から音声を収集すること、その収集にあたっては、音韻単位等の細かい組合せではなく、文やフレーズなど、従来ではテキストからの音声合成の単位としては提案されていない、かなり長い単位の音声を利用している。特に音声応答装置などにおいては、ユーザは処理手順の内容を聞き取ることが目的である一方、情報を提供する企業側にとっては、挨拶から始まり、終わりの御礼まで、聞き取りやすい音声で、情報を提供することがポイントとなる。その点から考えると、合成音声の声質(話者性、個人性)はある程度、似ていれば、ユーザはあまり違和感を感じない。処理手順の内容は、音声応答装置のような場合には、ある程度、限定できるので、文やフレーズ毎に再利用できる場合はかなりある。音声を再利用することができると、音韻や韻律は全く肉声のままであるため、ユーザにとっての違和感はない。その際、男声や女声のような大きな声質の違いが無いように、文やフレーズを選択する必要がある。また、人間は発話の速度に敏感であるので、発話速度は、均一になるように制御することが望ましい。発話速度の制御は、比較的に容易であるため、音声の劣化は感じられない程度に抑えることができる。
以下、本発明の実施の形態を図面を参照して説明する。
<実施形態の構成>
図1は、本発明に係る音声合成装置の一実施形態の構成を示すブロック図、図2は音声合成装置の主要構成部分の詳細な機能構成を示すブロック図である。
図1は、本発明に係る音声合成装置の一実施形態の構成を示すブロック図、図2は音声合成装置の主要構成部分の詳細な機能構成を示すブロック図である。
図1に示すように、音声合成装置1は、テキスト解析部3と、韻律生成部5と、音声合成単位選択部7と、音声信号処理部9と、発話速度調整部11と、汎用音声データベース15と、多数話者音声データベース17と、話者特徴テーブル19と、記録部21とを備えている。
テキスト解析部3は、漢字かな混じりのテキスト文を入力して、読み辞書・アクセント辞書13に基づいた統計的なテキスト解析を実行する。
韻律生成部5は、テキスト解析された結果から音韻を決定し、基本周波数パターン、音韻の継続時間長、パワー等を決定する。
音声合成単位選択部7は、合成したい音韻系列に適する音声合成単位を選択する部分であり、汎用音声データベース15、または多数話者音声データベース17の何れかを使用して合成したい音韻系列を検索し、複数の候補を選択する。多数話者音声データベース17を使用する場合、話者特徴テーブル19を参照して、直前に合成した合成音声の話者性に最も類似した話者性を持つ音声データを選択する機能を持つ。また、この音声合成単位選択部7は、図2に示すように、その機能上、フレーズ分割機能71と、音韻一致DB取得機能73と、距離最小DB選定機能75と、音声合成機能77とを備えている。フレーズ分割機能71は、韻律生成部5からの応答文テキストデータを入力してフレーズ毎に分割する機能を有する。音韻一致DB取得機能73は、音韻が一致する音声データベースを取得する機能を有する。距離最小DB選定機能75は、音声合成したい音声と、直前に合成した音声との距離を算出して最も近いデータを持つ音声データベースを選定する機能を有する。音声合成機能77は選定された音声データベースを用いて合成音声を生成する。その処理手順は図6を用いて後述する。なお、本実施形態において、「フレーズ単位」とは、呼気段落、息継ぎをするまでの間、一般的には句読点まで、句読点までが長い場合にはその間の意味のまとまりまでを指す。
音声信号処理部9は、生成された合成音声の高さや長さなどを必要に応じて調整する機能を有する。
発話速度調整部11は、生成された合成音声の発話速度を必要に応じて調整する機能を有する。例えば、非特許文献3(阿部、田村、桑原、「FFTスペクトルからの信号再生砲による音声変換手法」、信学論(D2)、Vol.J72-D-2,No.8,pp1180-1186.(1989.8))に詳しい。
汎用音声データベース15は、ハードディスク上などに構築され、任意の音声を合成するために用意された音声合成単位を格納したデータベースである。この合成単位は、通常のテキストからの音声合成のように、日本語のあらゆる音韻系列が合成できるように、音韻の組合せや基本周波数の高さを考慮して設計された特定の話者の音声データベースであって、音韻の境界や基本周波数などの付加情報を具備している。
多数話者音声データベース17は、ハードディスク上などに構築され、複数の話者の音声データベースを備えて構成されている。例えば、図2に示す例では、話者Aの音声データベース(DB番号=1)、話者Bの音声データベース(DB番号=2),・・・,話者Xの音声データベース(DB番号=X)から成るX個の音声データベースを備えている。具体的には、少なくとも音声信号の始終端と音声信号の内容を示すテキスト列との対応をとったものである。特に、文やフレーズなど、従来のテキストからの音声合成で利用されてきた音声単位をはるかに超えた長さの単位を持っている。なお、この多数話者音声データベース17にも汎用音声データベース15と同様、音韻の境界や基本周波数などの付加情報を具備させるようにしても良い。
話者特徴テーブル19は、ハードディスク内などに構築され、多数話者音声データベース17に保存された複数の話者毎の話者特徴を保存するものである。例えば、図2に示す例では、多数話者データベース17に保存されたDB番号毎の平均スペクトル(S1,S2,・・・,SX)、および平均基本周波数(H1,H2,・・・,HX)を記憶している。なお、具体的な内容については、非特許文献2(阿部、「発話様式のバリエーション」、日本音響学会誌、51巻11号、pp882-886.(1995.11))に詳しい。
記録部21は、ハードディスクなどで構成され、図2に示すように、フレーズ番号毎に選定されたDB番号と、その音韻が一致したフレーズ番号(音韻一致フレーズ番号:k1,k2,・・・,kn)を記録する。
<実施形態の動作>
図3乃至図6は、本発明に係る音声合成装置、音声合成方法の実施形態を説明するフローチャートであり、音声合成単位選択部7における処理手順の詳細を示している。以下に図3乃至図6のフローチャートおよび図2のブロック図を参照しつつ本実施形態の動作を説明する。
図3乃至図6は、本発明に係る音声合成装置、音声合成方法の実施形態を説明するフローチャートであり、音声合成単位選択部7における処理手順の詳細を示している。以下に図3乃至図6のフローチャートおよび図2のブロック図を参照しつつ本実施形態の動作を説明する。
先ず、入力された応答文テキストをフレーズ単位に分割する(ステップS1)。分割された各フレーズに昇順にフレーズ番号を付与する(ステップS3)。この場合、初期フレーズ番号を“1”とし、全フレーズ数を“N”とする。
次いで、最初のフレーズ(i=1)について音声合成処理を実行する。この場合は、一番最初のため、前フレーズの合成に用いたデータベースが存在しないので、前フレーズの音声合成に用いた音声データベースの識別子を“NULL”に設定する(ステップS5)。
次に、多数話者音声データベース17を検索して、i番目(最初はi=1)のフレーズにおける音韻が一致するデータベース内での音韻一致フレーズ番号(k)を抽出する。抽出される音韻一致フレーズは多数話者音声データベース17内で複数の話者音声データベースに存在する場合があるので、それらを組として取得する。取得されたデータベース番号の数をM、そのデータベース内での音韻一致フレーズ番号をkと設定する(ステップS7,S9)。以上のステップS1〜S9は主として図2に示す“フレーズ分割機能71”で実行される処理である。
上述のようにして取得されたデータベース番号の数が1以上である場合(ステップS11、Yes)、すなわち、複数の話者による音声データベースが存在する場合、前フレーズの音声合成に用いた音声データベースの識別子が予め定めた、前フレーズの合成に用いたデータベースがないことを示す値以外か否かが判定される(ステップS13)。
値以外である場合には、前フレーズの音声合成に用いたデータベースが存在する可能性が高いので、話者特徴テーブル19から前フレーズの音声合成に用いた音声データベースの識別子に対応する平均スペクトルと基本周波数とを取得する(ステップS15)。以上のステップS11〜S15は主として図2に示す“音韻一致DB取得機能73”で実行される処理である。
ステップS17の処理では、データベース番号j=1、選定データベース番号=NULLとする。これは、予め定めた選定データベースがないことを示す値である。また、初期データとして、距離d=無限大とする。
次いで、話者特徴テーブル19を検索して、データベースjに対応する平均スペクトルと平均周波数とを取得する(ステップS21)。
前フレーズの音声合成に用いた音声データベースとデータベースjとの間の平均スペクトル距離、基本周波数の高さの違いを算出、2つの距離の和をデータベースjの距離とする(ステップS23)。
次いで、データベースjの算出された距離は記録部21に記録された距離dより小さいか否かがチェックされる。距離dよりも小さい場合(ステップS25Yes)には、選定データベース番号にj、距離dにデータベースjの距離を代入して、記録部21に記録する(ステップS27)。次いで、jを“1”だけインクリメントして次のデータベースjの処理を同様に実行する(ステップS29,S19)。このようにしてj=Mになるまで、ステップS21〜S27の処理を実行する。以上のステップS17〜S27は主として図2に示す“距離最小DB選定機能75”で実行される処理である。
全てのデータベースの検索が終了してデータベース番号j=Mになる(ステップS19No)と、ステップS37の処理に進み、フレーズ番号iと選定されたDB番号とを対応付けて記録部21に記録する。記録が終了すると、次のフレーズの処理のため、フレーズ番号iを1つインクリメントして(ステップS39)、再び、ステップS9からの処理をi=Nが成立するまで実行する。
一方、ステップS13の判定処理において、前フレーズの合成に用いたデータベースがない場合(ステップS13No)には、予め定めたルールに従い、M個のデータベースの中から利用データベースを選定する(ステップS33)。例えば、取得されたM個のデータベース番号のうちで最も小さなデータベース番号を選択する等が考えられる。こうしてデータベースが選択されると、選択されたデータベース番号を、前フレーズの音声合成に用いた音声データベースの識別番号とする(ステップS35)。次いで、フレーズ番号iと、選定されたデータベース番号とを対応付けて記録部21に記録し(ステップS37)、次のフレーズの処理を実行するためにステップS39に移行する。
また、ステップS11の判定処理において、取得されたデータベース番号の数Mが1未満の場合、すなわち、取得データベースが存在しない場合(ステップS11No)には、前フレーズの音声合成に用いた音声データベースの識別子に、予め定めた「汎用音声合成単位を用いること」を示す値を代入し、すなわち、通常の汎用音声データベース15を用いた処理を選択し(ステップS31)、次のフレーズの処理を実行するためにステップS39に移行する。
図6に示すフローチャートは、音声合成機能77の処理手順を示している。
初期処理としてフレーズi=1とし、フレーズi>全フレーズ数Nが成立するまで以下のステップ63までの処理を実行する(ステップS51,S53)。先ず、記録部21よりi番目のフレーズに対応する、選定されたDB番号を取得する(ステップS55)。次に、取得したDB番号は、予め定めた汎用合成単位を用いることを示す値以外であるか否かがチェックされる(ステップS57)。汎用合成単位を用いることを示す値以外である、すなわち、多数話者音声データベース17を使用する音声合成である場合(ステップS57Yes)には、記録部21に記録された選定DB番号、音韻一致フレーズ番号の音声データを音声合成結果として、フレーズ番号iと対応付けて記録部21に記録する(ステップS59)。一方、汎用合成単位を用いることを示す値である場合(ステップS57No)には、汎用音声合成単位と韻律生成結果を利用してi番目のフレーズを音声合成し、フレーズ番号と対応付けて記録部21に記録する。このようにして、全フレーズ数Nについて音声合成が終了し、記録部21への書込みが終了する(ステップS53No)と、全フレーズ数Nを発話速度調整部11に受け渡して(ステップS63)、処理を終了する。発話速度調整部11では、全フレーズについて自然な音声となるように発話速度を調整して最終的な合成音声を生成する。なお、必要に応じて音声信号処理部9を経由させて生成された合成音声の高さや長さなどを調整させるようにしても良い。
<実施形態の効果>
以上のように、本実施形態では、文やフレーズなど、比較的長い複数話者の音声データを利用するようにしているので、音韻接続や単語接続のような不連続性の無い合成音声を得ることができる。また、本実施形態では、応答文毎に合成音声の話者性は異なるが、話者性の類似した音声データを選択するように構成しているので、話者性が異なることによる違和感を出来るだけ最小化することができ、トータル的には肉声に近い合成音声を出力することが可能となる。
以上のように、本実施形態では、文やフレーズなど、比較的長い複数話者の音声データを利用するようにしているので、音韻接続や単語接続のような不連続性の無い合成音声を得ることができる。また、本実施形態では、応答文毎に合成音声の話者性は異なるが、話者性の類似した音声データを選択するように構成しているので、話者性が異なることによる違和感を出来るだけ最小化することができ、トータル的には肉声に近い合成音声を出力することが可能となる。
なお、以上の処理においては、話者特徴テーブル19を用意しておくように構成したが、音声合成単位選択部7でその都度、特徴量を演算により求めるように構成しても良い。その場合には、話者特徴テーブル19は不要である。
上述した本実施形態の音声合成装置の各機能、音声合成方法の各ステップは、それぞれの機能、ステップを実現するための音声合成プログラムをコンピュータにインストールすることで実現可能となる。
1…音声合成装置
3…テキスト解析部
5…韻律生成部
7…音声合成単位選択部
9…音声信号処理部
11…発話速度調整部
15…汎用音声データベース
17…多数話者音声データベース
19…話者特徴テーブル
21…記録部
3…テキスト解析部
5…韻律生成部
7…音声合成単位選択部
9…音声信号処理部
11…発話速度調整部
15…汎用音声データベース
17…多数話者音声データベース
19…話者特徴テーブル
21…記録部
Claims (7)
- 文単位またはフレーズ単位で複数の話者により生成された話者毎の音声データベースと、
音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析手段と、
このテキスト解析手段により解析された文単位毎またはフレーズ単位毎に、前記話者毎の音声データベースを切り替えて合成音声を生成する音声合成手段と、
を具備することを特徴とする音声合成装置。 - 前記音声合成手段は、前記話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた話者音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成することを特徴とする請求項1に記載の音声合成装置。
- 前記音声合成手段により音声合成された合成音声の発話速度を調整する発話速度調整手段を具備することを特徴とする請求項1または2に記載の音声合成装置。
- 文単位またはフレーズ単位で複数の話者により生成された話者毎の音声データベースを用いてコンピュータにより音声合成を行う音声合成方法であって、
音声合成対象となるテキスト文を入力して、入力されたテキスト文を文単位またはフレーズ単位で解析するテキスト解析ステップと、
このテキスト解析ステップにより解析された文単位毎またはフレーズ単位毎に前記話者毎の音声データベースを切り替えて合成音声を生成する音声合成ステップと、
を具備することを特徴とする音声合成方法。 - 前記音声合成ステップは、前記話者毎の音声データベースを切り替える際には、音声合成を行う文またはフレーズと一致する音韻を持つ前記音声データベースの中から直前に音声合成した文またはフレーズで用いた話者音声データベースに最も近い特性を持つ話者音声データベースを用いて合成音声を生成することを特徴とする請求項4に記載の音声合成方法。
- 前記音声合成ステップにより音声合成された合成音声の発話速度を調整する発話速度調整ステップを具備することを特徴とする請求項4または5に記載の音声合成方法。
- コンピュータを、請求項1乃至3のいずれか1項に記載の音声合成装置として機能させる音声合成プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008301511A JP2010128103A (ja) | 2008-11-26 | 2008-11-26 | 音声合成装置、音声合成方法、および音声合成プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008301511A JP2010128103A (ja) | 2008-11-26 | 2008-11-26 | 音声合成装置、音声合成方法、および音声合成プログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2010128103A true JP2010128103A (ja) | 2010-06-10 |
Family
ID=42328549
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008301511A Pending JP2010128103A (ja) | 2008-11-26 | 2008-11-26 | 音声合成装置、音声合成方法、および音声合成プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2010128103A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010224498A (ja) * | 2009-03-25 | 2010-10-07 | Toshiba Corp | 音声合成装置及び音声合成方法 |
| JP2012113164A (ja) * | 2010-11-25 | 2012-06-14 | Sharp Corp | 音声処理装置および音声処理装置を備えた画像処理装置 |
| JP2012141354A (ja) * | 2010-12-28 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置及び音声合成プログラム |
| CN106297766A (zh) * | 2015-06-04 | 2017-01-04 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
| CN112863483A (zh) * | 2021-01-05 | 2021-05-28 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
| CN112863476A (zh) * | 2019-11-27 | 2021-05-28 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建、语音合成和测试方法及装置 |
| JP7736858B1 (ja) | 2024-06-04 | 2025-09-09 | Nttドコモビジネス株式会社 | 生成装置、生成方法及び生成プログラム |
-
2008
- 2008-11-26 JP JP2008301511A patent/JP2010128103A/ja active Pending
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010224498A (ja) * | 2009-03-25 | 2010-10-07 | Toshiba Corp | 音声合成装置及び音声合成方法 |
| JP2012113164A (ja) * | 2010-11-25 | 2012-06-14 | Sharp Corp | 音声処理装置および音声処理装置を備えた画像処理装置 |
| JP2012141354A (ja) * | 2010-12-28 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置及び音声合成プログラム |
| CN106297766A (zh) * | 2015-06-04 | 2017-01-04 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
| CN112863476A (zh) * | 2019-11-27 | 2021-05-28 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建、语音合成和测试方法及装置 |
| CN112863483A (zh) * | 2021-01-05 | 2021-05-28 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
| JP7736858B1 (ja) | 2024-06-04 | 2025-09-09 | Nttドコモビジネス株式会社 | 生成装置、生成方法及び生成プログラム |
| JP2025183014A (ja) * | 2024-06-04 | 2025-12-16 | Nttドコモビジネス株式会社 | 生成装置、生成方法及び生成プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4125362B2 (ja) | 音声合成装置 | |
| US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
| JP5039865B2 (ja) | 声質変換装置及びその方法 | |
| JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
| JP2010128103A (ja) | 音声合成装置、音声合成方法、および音声合成プログラム | |
| WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
| US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
| JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
| JPWO2006134736A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
| Sharma et al. | Development of Assamese text-to-speech synthesis system | |
| JP7406418B2 (ja) | 声質変換システムおよび声質変換方法 | |
| JP5062178B2 (ja) | 音声収録システム、音声収録方法、および収録処理プログラム | |
| JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
| JP3681111B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
| Qian et al. | An HMM trajectory tiling (HTT) approach to high quality TTS. | |
| JP2006189544A (ja) | 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム | |
| JP2011197542A (ja) | 韻律パターン生成装置 | |
| JP3685648B2 (ja) | 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 | |
| Majji et al. | Festival based maiden TTS system for Tamil language | |
| JPH0580791A (ja) | 音声規則合成装置および方法 | |
| JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
| Wen et al. | Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model. | |
| JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
| JP5620776B2 (ja) | 話速調整装置、音声合成システム、およびプログラム | |
| JP3892691B2 (ja) | 音声合成方法及びその装置並びに音声合成プログラム |