JP2012042974A - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP2012042974A JP2012042974A JP2011234467A JP2011234467A JP2012042974A JP 2012042974 A JP2012042974 A JP 2012042974A JP 2011234467 A JP2011234467 A JP 2011234467A JP 2011234467 A JP2011234467 A JP 2011234467A JP 2012042974 A JP2012042974 A JP 2012042974A
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- rule
- speech
- recorded
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】定型部分と可変部分からなる文章の音声データを、録音音声と規則合成音声を組み合わせて生成する音声合成装置において、録音音声と合成音声を接続する際に音質および韻律の不連続が知覚されない、高品質な音声合成装置を提供する。
【解決手段】録音された、定型部分を含む録音音声データを予め格納する録音音声格納部5と、受け付けたテキストから、可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部7と、前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部8と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部9とを備える。
【選択図】図1
【解決手段】録音された、定型部分を含む録音音声データを予め格納する録音音声格納部5と、受け付けたテキストから、可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部7と、前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部8と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部9とを備える。
【選択図】図1
Description
本発明は、音声を合成する装置に係り、特に定型部分と可変部分からなる文章の音声データを、録音音声と規則合成音声を組み合わせて合成する音声合成技術に関する。
一般に、録音音声とは録音した音声をもとに作られた音声をいい、規則合成音声とは発音を表わした文字または符号列から合成した音声をいう。音声の規則合成は、入力されたテキストに対して言語処理を行い、読みやアクセントの情報を示す中間記号列を生成した後、基本周波数パタン(声の高さに対応する声帯の振動周期)や音素継続時間長(発声速度に対応する各音素の長さ)などの韻律パラメータを決定し、波形生成処理により、韻律パラメータに合わせた音声波形を生成するものである。韻律パラメータから音声波形を生成する方法として、音素や音節に対応する音声素片を組み合わせる、波形接続型音声合成が広く用いられている。
一般的な規則合成の流れは次の通りである。まず、言語処理では、入力されたテキストから、音素(音声の意味を弁別するための最小単位)や音節(1ないし3個程度の音素の結合からなる音声の聞こえの一種のまとまり)の並びを表現する読み情報、およびアクセント(発音の強さを指定する情報)や抑揚(疑問文や話し手の感情を示す情報)を表現するアクセント情報を生成し、これを中間記号列とする。中間記号列の生成には、辞書を用いた言語処理や、形態素解析処理が応用される。次に、中間記号列のアクセント情報に対応するように、基本周波数パタンや音素継続時間長などの韻律パラメータを決定する。韻律パラメータは、あらかじめ肉声を用いて学習された韻律モデルや、ヒューリスティクス(発見的に求められた制御規則)に基づいて生成される。最後に波形生成処理によって、韻律パラメータに合わせた音声波形を生成する。
規則合成は、入力された任意のテキストを音声として出力することができるため、録音音声を利用する場合と比べて、柔軟性の高い音声案内システムが構築できる。しかし、肉声と比べると品質は充分でなく、従来、録音音声を利用している車載用カーナビゲーションなどの音声案内システムに、規則合成音声を導入するには、品質の面で問題があった。
そこで、規則合成音声を利用した音声案内システムを実現するために、定型部分にはあらかじめ録音された録音音声を用い、可変部分は規則合成音声を用いることにより、録音音声の高品質性と規則合成音声の柔軟性を組み合わせる方法が利用されている。
しかしながら、録音音声と規則合成音声を組み合わせて出力される音声は、録音音声と規則合成音声の間の、音質および韻律の不連続が知覚され、録音音声部分は高品質であっても全体としては高品質でなくなるという問題があった。
韻律の不連続を解消する方法として、規則合成音声に対するパラメータを設定する際に録音音声の特徴を利用する方法が開示されている(例えば、特許文献1参照)。また、定型部分と可変部分の韻律の連続性を考慮して、規則合成音声部分を拡張する方法が開示されている(例えば、特許文献2参照)。
従来技術によれば、規則合成音声部分の韻律は自然となるが、一方で、規則合成音声と録音音声との間の音質の差が大きくなることがあり、全体として自然な音声を得ることはできないという課題を有する。
本発明は、上記の問題を解決するものであり、録音音声と合成音声を接続する際に音質および韻律の不連続が知覚されない、高品質な音声合成装置を提供することを目的とする。
上記目的を達成するために、本発明は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された音声をもとに作成された、定型部分を含む音声データである第1の音声データ(録音音声データ)を予め格納する録音音声格納手段と、受け付けた前記テキストから、可変部分と少なくとも定型部分の一部を含む第2の音声データ(規則合成音声データ)を生成する規則合成手段と、前記テキストに対応する、前記第1の音声データと前記第2の音声データとが重複する区間の音響特徴情報にもとづいて、録音された音声データと規則合成により生成された音声データとの接続境界の位置を選択する接続境界算出手段と、前記第1の音声データを前記接続境界で区切った第3の音声データと、前記第2の音声データを前記接続境界で区切って切り出した第4の音声データとを接続して前記テキストの音声データを合成する接続合成手段とを備えることを特徴とする。ここで一例として、定型部分とは音声データに対応する部分がある部分と定義でき、可変部分とは音声データに対応する部分がない部分と定義できる。
この構成においては、可変部分に加えて定型部分の一部を含むように規則合成音声データを生成し、規則合成音声データと録音音声データとの重複した区間を作ることにより、録音音声と規則合成音声の接続位置を可変とすることができる。前記重複区間における、録音音声と規則合成音声の音響特徴情報を用いて、最適な接続位置を算出することにより、従来の技術と比較して自然な合成音声が生成される。
また、本発明の別の構成では、前記重複区間における、録音音声データの音響特徴情報を用いて、録音音声データと整合する規則合成音声データを生成する規則合成手段を備える。
この構成においては、重複区間における韻律の整合をとることで、韻律の不連続を解消することができ、さらに、重複区間に先行または後続する可変部分の規則合成音声データについても、同時に整合をとることができ、接続境界だけでなく、全体の整合がとれた合成音声が生成される。
また、本発明の別の構成では、前記接続境界算出手段から得られる接続境界の位置における録音音声データと規則合成音声データの音響特徴情報にもとづいて、規則合成音声データを加工する規則合成手段を備える。
この構成においては、接続境界を決定した後に、接続境界近傍での音響特徴がより録音音声に近づくように、規則合成音声データの特徴を加工することにより、さらに韻律や音質の不連続が目立たない合成音声が生成される。
本発明における音響特徴情報として、音素カテゴリを用いることにより、好適な接続境界を得ることができる。音素カテゴリは、例えば、有声音・無声音・破裂音・摩擦音等、音素の分類を規定する情報である。ポーズ(無音)区間で接続することで、接続歪が目立たなくなることは言うまでもないが、無声破裂音の先頭も同様に、短い無音区間が存在するため、接続歪が目立たない。また、有声音区間中での接続は、接続境界前後の基本周波数の差や位相の差により異音が目立つ可能性があるため、無声区間での接続が望ましい。また、音響特徴情報として、パワーを利用することにより、パワーの小さな接続境界を選択し、接続歪を目立たなくすることができる。
また、音響特徴情報として、基本周波数を用いると、韻律の接続がなめらかな接続境界を得ることができる。録音音声と規則合成音声の基本周波数の差が小さな音素境界を選択することによって、基本周波数の不連続が知覚されにくくなる。また、音韻継続長時間を用いると、接続境界の前後で急に話速が変化しないような、接続境界を選択することができる。
また、音響特徴情報として、スペクトル(音声の周波数成分を示す情報)を用いると、接続境界近傍で、音質が急に変化することを避けることができる。特に、接続境界を決定した後に、接続境界近傍での音響特徴情報を用いて規則合成音声データの特徴を加工する構成の場合に有効で、接続境界近傍の規則合成音声のスペクトルが、録音音声とより近くなるように加工することができる。
本発明では、規則合成音声データを作成する範囲として、可変部分に加えて定型部分の一部を含むようにしているが、この範囲は、一呼気段落(息継ぎのためのポーズで分割される一単位)、一文(句点によって分割される一単位)、定型部分の全体のいずれかで定義することが望ましい。特に録音音声と規則合成音声の韻律の整合をとるためには、前記重複区間は大きくとるとよい。ただし、別の手段による韻律の整合方法が利用できる場合や計算量の観点から問題となる場合は、一呼気段落未満の範囲となるように定義してもよい。
本発明の接続境界算出手段において、接続境界の候補となる位置は、前記重複区間における全ての標本点であるが、音素境界に限定して接続境界を選択すると、効果的な接続境界が得られる。このような構成をとることによって、録音音声および規則合成音声の音響特徴情報は、音素境界のみで計算するものであればよく、記憶容量や計算量の観点で有利となる。
本発明の録音音声格納手段において、定型部分と定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを格納しておくことにより、録音音声における定型部分以外の区間も有効に利用できるようになる。定型部分のテキストがあらかじめ設定されている場合、可変部分のテキストに応じて録音音声を決定するようにすると、可変部分の一部についても録音音声が利用できる場合は、前記重複区間として、可変部分の一部を含めることができる。このようにすると、録音音声の多くの部分を活かすことができ、より高品質な合成音声を生成できる。
さらに、本発明の音声合成装置は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部と、前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部とを備えることを特徴とする。
さらにまた、本発明の音声合成装置は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する規則合成パラメータ算出部と、前記録音音声の音響特徴情報と前記規則合成の音響特徴情報とを用いて、前記録音音声データと前記規則合成パラメータとが重複する区間における接続境界位置を算出する接続境界算出部と、前記録音音声の音響特徴情報と、前記規則合成音声の音響特徴情報と、前記接続境界位置とを用いて、規則合成音声データを生成する規則合成音声データ部と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを出力する接続合成部と、前記合成音声データを出力する手段とを備えることを特徴とする。
さらにまた、本発明の音声合成装置は、あらかじめ録音された、可変部分を含む音片と定型部分を含む音片とを接続して合成音声を作成する装置において、あらかじめ録音された前記音片からなる音声データを格納する録音音声格納部と、受け付けた入力テキストから、前記可変部分の音片の中間記号列と前記定型部分の音片の中間記号列とを作成する入力解析部と、前記可変部分の入力に従って、同じ定型部分をもつ複数の録音音声データの中から適切な録音音声データを選択する録音音声選択部と、前記入力解析部で得られる前記可変部分の音片の中間記号列と、前記定型部分の音片の中間記号列を用いて、規則合成音声データを生成する範囲を決定する規則合成部と、前記録音音声データの音響特徴情報および前記規則合成音声データの音響特徴情報を用いて、前記録音音声データと前記規則合成音声データとの重複区間における、接続境界位置を算出する接続境界算出部と、前記接続境界算出部から得られる前記接続境界位置を用いて、前記録音音声データと前記規則合成音声データとを切断し、切断された前記録音音声データと前記規則合成音声データとを接続することにより、前記可変部分を含む音片に対応する合成音声データを作成する接続合成部と、入力テキストから得られる音片の順序に基づいて、音片を接続して出力音声を生成する音片接続部とを有することを特徴とする。
また、本発明の音声合成方法は、あらかじめ録音音声データおよび録音音声データに対応する第1の中間記号列を格納しておき、入力テキストを準備する第1のステップと、入力テキストを第2の中間記号列に変換する第2のステップと、第1の中間記号列を参照し、第2の中間記号列を第1の中間記号列と対応する定型部分と対応しない可変部分に弁別する第3のステップと、録音音声データから、第1の中間記号列が定型部分に対応する部分を取得する第4のステップと、第2の中間記号列を用いて可変部分に対応する部分全部と定型部分に対応する部分の少なくとも一部の規則合成音声データを生成する第5のステップと、取得された録音音声データの一部と生成された規則合成音声データの一部を結合する第6のステップとを有する。
ここで、取得された録音音声データ、生成された規則合成音声データは、それぞれ連続する一つのフレーズとすることができ、2つのフレーズは重複する箇所を持つため、つなぎ合わせる箇所の自由度が大きく、自然なつながりで結合することができる。すなわち、2つの音声データは定型部分で重複している区間を持つので、この区間で2つの音声データが整合する部分を接続境界として選び、つなぎ合わせればよい。いかなる部分で整合するかの評価基準としては、例えば、2つの音声データの基本周波数、スペクトル、継続長などの特徴量の差の小さな箇所を選ぶことができる。また、必要に応じて、2つのデータの片方を修正(加工)してつなぎ合わせることもできる。例えば、録音音声データと規則合成音声データの特徴量の差が小さくなるように、規則合成音声データ生成の際のパラメータを修正して音響特徴を合わせることができる。
本発明によれば、録音音声と合成音声を接続する際に音質および韻律の不連続が知覚されない、高品質な音声合成装置が実現できる。
以下、本発明の実施例について、図面を参照して詳述する。
(実施例1)
図1は、本発明の第1の実施例に係り、カーナビゲーションシステム用に構成された本発明の音声合成装置を示すブロック図である。
本実施例は、図示のとおり、音声合成装置1とナビゲーション制御装置2とからなる。本発明の音声合成装置1は、ナビゲーション制御部3からのテキスト入力を解析する入力解析部4と、入力解析部4で得られる定型部分の中間記号列を用いて録音音声格納部5から録音音声データを索出する録音音声選択部6と、入力解析部4で得られる可変部分の中間記号列および定型部分の中間記号列の一部と録音音声選択部6で得られる録音音声の音響特徴情報とを用いて規則合成音声データを生成する規則合成部7と、録音音声選択部6で得られる録音音声の音響特徴情報と規則合成部7で得られる規則合成音声の音響特徴情報を用いて、録音音声データと規則合成音声データとの接続境界を算出する接続境界算出部8と、接続境界算出部で得られる接続境界を用いて録音音声データと規則合成音声データを切り出して接続する接続合成部9とを備えている。
図1は、本発明の第1の実施例に係り、カーナビゲーションシステム用に構成された本発明の音声合成装置を示すブロック図である。
本実施例は、図示のとおり、音声合成装置1とナビゲーション制御装置2とからなる。本発明の音声合成装置1は、ナビゲーション制御部3からのテキスト入力を解析する入力解析部4と、入力解析部4で得られる定型部分の中間記号列を用いて録音音声格納部5から録音音声データを索出する録音音声選択部6と、入力解析部4で得られる可変部分の中間記号列および定型部分の中間記号列の一部と録音音声選択部6で得られる録音音声の音響特徴情報とを用いて規則合成音声データを生成する規則合成部7と、録音音声選択部6で得られる録音音声の音響特徴情報と規則合成部7で得られる規則合成音声の音響特徴情報を用いて、録音音声データと規則合成音声データとの接続境界を算出する接続境界算出部8と、接続境界算出部で得られる接続境界を用いて録音音声データと規則合成音声データを切り出して接続する接続合成部9とを備えている。
次に、図1および図2を用いて、本発明の第1の実施例に係る音声合成装置1の動作について説明する。なお、図2は、本発明の第1の実施例に係る音声合成装置1の動作を示すフローチャートである。
まず、ナビゲーション制御部2において、音声合成装置1へ渡す入力テキストを決定する。
ナビゲーション制御部3は、情報受信部10から例えば天気予報や交通情報などの各種情報を受信し、GPS11から得られる現在位置情報や、ナビゲーション用データ記憶部12のもつ地図情報と組み合わせるなどして、音声合成装置1へ渡す入力テキストを作成する(ステップ101)。
次に、入力解析部4においてナビゲーション制御部2から音声出力するための入力テキストを受け取り、中間記号列に変換する(ステップ102)。入力テキストは、例えば、「国分寺の明日の天気です。」のような漢字仮名混じりの文字列である。ここで入力解析部4は、言語処理を行い、「コクブンジノ アシタノ テンキデス」のように、音声合成用の中間記号列に変換する。
次に、入力解析部4は、録音音声格納部5に、図3に示す録音音声データ401と関連付けて格納されている中間記号列402とを参照して一致する部分を探索し、定型部分とする中間記号列を決定し、音声波形データ401と関連付けることのできない部分を可変部分として決定する(ステップ103)。
録音音声格納部5には、上述のように、図3に示すような構成で、録音音声データ401と関連付けられた中間記号列402が複数組格納されている。ここで、図4に示すように、録音音声格納部5に中間記号列「シンジュクノ アシタノ テンキデス」が格納されている場合を例としてステップ103の動作を説明する。
入力解析部4から得られる中間記号列「コクブンジノ アシタノ テンキデス」と録音音声格納部5に格納されている中間記号列402と順次比較すると、「シンジュクノ
アシタノ テ’ンキデス」が、「ノ アシタノ テンキデス」の部分で入力解析部4から得られる中間記号列と一致するため、該当する部分を定型部分として、録音音声データ401を用いることができる。そこで、「ノ アシタノ テンキデス」を定型部分と決定し、録音音声データと関連付けることができない「コクブンジ」を可変部分と決定する。
アシタノ テ’ンキデス」が、「ノ アシタノ テンキデス」の部分で入力解析部4から得られる中間記号列と一致するため、該当する部分を定型部分として、録音音声データ401を用いることができる。そこで、「ノ アシタノ テンキデス」を定型部分と決定し、録音音声データと関連付けることができない「コクブンジ」を可変部分と決定する。
次に録音音声選択部6において、録音音声データ401と録音音声の音響特徴情報403を取得する(ステップ104)。
録音音声選択部6は、入力解析部4で得られる定型部分の中間記号列を用いて、録音音声格納部5から録音音声データ401を取得する。ここで、定型部分の中間記号列が「ノ
アシタノ テンキデス」となっている場合でも、当該中間記号列の前および後ろの少なくとも一方の録音音声データを一緒に取得する。ここでは一例として、「シンジュクノ アシタノ テンキデス」に対応する録音音声データ全体を取得するものとした。定型部分に対応する部分だけ切り出す処理はここでは行わない。
アシタノ テンキデス」となっている場合でも、当該中間記号列の前および後ろの少なくとも一方の録音音声データを一緒に取得する。ここでは一例として、「シンジュクノ アシタノ テンキデス」に対応する録音音声データ全体を取得するものとした。定型部分に対応する部分だけ切り出す処理はここでは行わない。
また、録音音声格納部5に録音音声データ401と関連付けて格納されている音響特徴情報403を取得する。音響特徴情報は、図4の例に示すような構成で格納されており、録音音声の各音素に関して,音素カテゴリ・始終端の時刻・基本周波数が記述されている。
規則合成部7は、入力解析部4で得られる可変部分の中間記号列と定型部分の中間記号列を用いて、規則合成音声を生成する範囲を決定する(ステップ105)。ここで、規則合成音声を作成する範囲は、可変部分を含む一文と定義しておくと、可変部分の「コクブンジ」に加えて、定型部分「ノ アシタノ テンキデス」を含めて規則合成音声を生成する。
次に、規則合成部7は、録音音声の音響特徴情報403を参照して、規則合成音声データを生成する(ステップ106)。ここで、基本周波数や音素継続長時間などの規則合成パラメータを、規則合成部7があらかじめ記憶している韻律モデル13を用いて算出するが、その際、録音音声の音響特徴情報を参照して、規則合成パラメータを修正することにより、録音音声と接続しやすい規則合成音声データを生成することが出来る。
録音音声の音響特徴情報403のうち基本周波数情報を用いて規則合成パラメータを決定する様子を、図5に示す。図5に示すように、録音音声データと生成される規則合成音声データの重複する区間501において、録音音声データの音響特徴情報(録音音声の基本周波数パタン)502との誤差が小さくなるように、韻律モデル13を用いて算出された規則合成パラメータ(韻律モデルが設定する基本周波数パタン)503を修正し、規則合成音声データの音響特徴情報(修正された基本周波数パタン)504を生成する。修正方法として、平行移動および、ダイナミックレンジの拡大や縮小などの操作を使用する。
このように、録音音声データと規則合成音声データとの重複する区間501において音響特徴を合わせる操作を行い、同様の操作が録音音声データと重複しない可変部分505に対しても行われることにより、可変部分と定型部分の韻律の整合をとることが可能となる。
音響特徴情報は、基本周波数のみに限らず、音韻継続長時間をあわせて利用することにより、録音音声データと規則合成音声データとの間のリズムの不整合が解消される。また、音響特徴情報として録音音声のスペクトル情報を用いることもでき、音質面でも、録音音声データと規則合成音声データの不連続を解消することができる。
次に、接続境界算出部8は、録音音声データの音響特徴情報502と規則合成音声データの音響特徴情報504とを用いて、録音音声データと規則合成音声データとの重複区間501における、図6に示す接続境界位置601を算出する(ステップ107)。録音音声データと規則合成音声データとの重複区間501における音響特徴情報として、基本周波数が与えられている際の算出方法を、図6を例として説明する。
まず、音素カテゴリ情報を用いて、無声破裂音の先頭など、語中の無声音区間を、接続境界の候補として選択する。続いて、音素境界候補における、録音音声と規則合成音声の基本周波数の差を算出して、差が小さくなるものを接続境界の候補とする。この時点で、算出された同等な候補が複数ある場合には、規則合成音声データの区間を短くすることを考慮して、接続境界位置601を決定する。
音素カテゴリ情報を用いて接続境界の候補を得る際には、無声破裂音の先頭位置が有効であるが、その他の無声音についても、有声音と比較すれば滑らかな接続が可能である。ただし、接続合成部9での接続方法に、クロスフェードを用いることができるときは、有声音中でも滑らかな接続ができる可能性があるため、接続境界の候補の選び方は、無声破裂音の先頭位置に限るものではない。
接続位置を算出するための音響特徴情報として、基本周波数の差を用いる以外にも、音韻継続長の差、スペクトルの差を併せて用いることで、より接続時に滑らかとなる位置を算出することが可能となる。
接続境界算出部8は、上述の例のように、音素カテゴリ情報で候補を絞りこんだ後に、基本周波数の差を計算する順序で、接続境界を算出するだけでなく、下記に示す(数1)の例に示すようなコスト関数を定義して算出することもできる。
C(b)=Wp×Cp(b)+Wf×Cf(b)+Wd×Cd(b)+Ws×Cs(b)+Wl×Cl(b)
・・・・・・・(数1)
ここで、音素カテゴリ情報から決定される接続のしにくさを音素カテゴリコストCp(b)として定義し、その重み付けをWpとする。また、音響特徴情報における差も、それぞれ、基本周波数コストCf(b)、音韻継続長コストCd(b)、スペクトルコストCs(b)として定義し、それらの重み付けを、それぞれ、Wf、Wd、Wsとする。さらに、各音素境界位置から、可変部分と定型部分の境界との時刻の差を求め、規則合成音声長コストCl(b)として定義し、その重み付けをWlとする。各コストの重み付け和として、接続境界位置に関するコストC(b)を算出し、最も小さなコストを持つ音素境界を接続境界位置とすることも可能である。
C(b)=Wp×Cp(b)+Wf×Cf(b)+Wd×Cd(b)+Ws×Cs(b)+Wl×Cl(b)
・・・・・・・(数1)
ここで、音素カテゴリ情報から決定される接続のしにくさを音素カテゴリコストCp(b)として定義し、その重み付けをWpとする。また、音響特徴情報における差も、それぞれ、基本周波数コストCf(b)、音韻継続長コストCd(b)、スペクトルコストCs(b)として定義し、それらの重み付けを、それぞれ、Wf、Wd、Wsとする。さらに、各音素境界位置から、可変部分と定型部分の境界との時刻の差を求め、規則合成音声長コストCl(b)として定義し、その重み付けをWlとする。各コストの重み付け和として、接続境界位置に関するコストC(b)を算出し、最も小さなコストを持つ音素境界を接続境界位置とすることも可能である。
次に、接続合成部9は、接続境界算出部8から得られる接続境界位置を用いて、録音音声データと規則合成音声データを切断し、切断された録音音声データと規則合成音声データを接続することにより、入力テキストに対応する合成音声データを出力する(ステップ108)。ここで、接続境界位置は、録音音声データにおける時刻および規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行う。
接続合成部9は、切断した音声を接続する際に、単に接続を行うだけでなく、クロスフェード処理を用いて接続部分を目立たなくすることもできる。特に有声部の中間で接続が行われる場合には、基本周波数に同期して、接続境界位置の音声波形の1基本周期分だけクロスフェード処理を行うことで、接続時の異音を解消することができる。ただし、クロスフェード処理を用いて信号が劣化する可能性もあるため、有声部の中間で接続を行うことは避けるように、接続境界位置を決定しておくことが望ましい。
なお、上記実施例では、規則合成音声データを作成する範囲は、可変部分を含む一文と定義した場合について述べたが、一呼気段落、一文のいずれかの単位で生成するようにしてもよい。
以上のように第1の実施例では、車載用カーナビゲーションシステム用に構成された、録音音声データと規則合成音声データを接続する音声合成装置において、規則合成音声データの音質と韻律を録音音声データに近づけるとともに、好適な接続境界を算出することにより、自然な合成音声を生成することが可能となる。
(実施例2)
次に、本発明の第2の実施例について説明する。
次に、本発明の第2の実施例について説明する。
第1の実施例は、規則合成音声データを生成した後に決定される接続境界位置を用いて、録音音声データと規則合成音声データを接続するものであるが、接続境界位置の決定後に、規則合成音声データを生成する構成としてもよい。
図7は、本発明の第2の実施例を示すブロック図である。第2の実施例は、第1の実施例における規則合成部7の代わりに、規則合成パラメータ算出部21と規則合成音声データ生成部22とを設けた構成となる。図8は、第2の実施例に係る音声合成装置20の動作を示すフローチャートである。図7と図8を用いて、第2の実施例に係る音声合成装置20の動作について説明する。
まず、ナビゲーション制御部3において、音声合成装置20へ渡す入力テキストを決定する(ステップ201)。
次に、入力解析部4において、定型部分の中間記号列と可変部分の中間記号列が決定され(ステップ202〜ステップ203)、録音音声選択部6で録音音声データと録音音声の音響特徴情報が得られる(ステップ204)。続いて、規則合成音声の作成範囲が決定される(ステップ205)。ここまでの処理は第1の実施例と同様の方法で行われる。
次に、規則合成パラメータ算出部21において、規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する(ステップ206)。ここで第1の実施例では、規則合成部7において規則合成音声データを作成したが、第2の実施例においては、規則合成音声データを作成しない。
次に、接続境界算出部8は、録音音声の音響特徴情報と規則合成音声の音響特徴情報とを用いて、録音音声データと規則合成パラメータとの重複区間における、接続境界位置を算出する(ステップ207)。本ステップは、第1の実施例と同様の方法で行われる。
次に、規則合成音声データ生成部22において、録音音声の音響特徴情報と規則合成音声の音響特徴情報と接続境界算出部8で得られる接続境界位置とを用いて、規則合成音声データを生成する(ステップ208)。本ステップは、接続境界位置に録音音声の音響特徴情報を参照して、ステップ206で得られた規則合成パラメータを修正し、規則合成音声データを生成するものである。
例えば、接続境界位置にある音素に対して、音響特徴の差が小さくなるように、規則合成パラメータを修正すると、より接続歪の少ない合成音声が生成されることになる。
第1の実施例では、可変部分を含む1文として定義された規則合成音声データの範囲と、録音音声データとの重複区間の音響特徴情報を用いて、規則合成パラメータを作成するものであったが、第2の実施例では、接続境界算出部8で得られる接続境界位置における、録音音声の音響特徴情報を用いて、規則合成パラメータを再度修正した上で、規則合成音声データを生成するものである。これにより、接続境界位置を考慮した、より滑らかな接続が行われる。
次に、接続合成部9は、接続境界算出部8から得られる接続境界位置を用いて、録音音声データと規則合成音声データとを切断し、切断された録音音声データと規則合成音声データとを接続することにより、入力テキストに対応する合成音声データを出力する(ステップ209)。
以上のように、第2の実施例では、第1の実施例と異なり、規則合成パラメータの設定を2段階で行う。1段目では、文全体の滑らかな接続を考慮した規則合成パラメータが設定され、2段目では、接続境界算出部8で得られる接続境界位置を考慮して規則合成パラメータが修正される。このようにして、規則合成パラメータを修正することで、録音音声データと規則合成音声データのより自然な接続を可能とする。
(実施例3)
次に、本発明の第3の実施例について説明する。
次に、本発明の第3の実施例について説明する。
図9は、本発明の第3の実施例に係り、鉄道放送システムに本発明を適用する構成を示すブロック図である。図10は、第2の実施例に係る音声合成装置30の動作を示すフローチャートである。
本実施例は、あらかじめ録音された音片を接続して合成音声を作成する装置において、本発明の実施により可変部分を含む音片を生成する機能を備えた構成となっている。
入力部31は、図11に示すように、文例を選択するための表示手段33と、選択された文例に従った音片の順序構成の表示手段34と、可変部分を含む音片においては、テキストの定型部分と可変部分が分かるような表示手段35を有する入力画面32と、入力画面32を見ながら、複数の文例の中から利用者が出力したい文例を選択し、音片の順序構成を編集し、可変部分のテキストをキーボード等で入力するための入力装置36を備えている。
また、音片情報格納部35は、図12に示すような構成で、録音音声格納部5にあらかじめ録音された音声データを、図13の例に示すように分類しておき、文例を、音片分類コード701の組み合わせで表現できるように構成する。また、音片情報格納部35は、図13に示すように各録音音声データについて一意に定められた音片コード702を格納する。このとき音片コード702から音片分類コード701が分かるように構成しておく。例として図13では、音片コード702の最上位の桁が音片分類コード701の最上位の桁と一致するように構成している。
以下、第3の実施例の動作について説明する。
入力部31では、文例を選択することによって、音片の構成を決定する(ステップ301)。ここで、音片の順序構成において、音片コードが指定されている場合は、固定の音片を利用し、音片分類コードが指定されている場合は、該当する音片を、本発明の音声合成方法によって生成することができる。例えば、図13の例に示す音片情報が格納されており、入力部で、音片分類コード「200」が設定されると、入力画面には、可変部分のテキストを入力するための領域と、表示データ703として、定型部分の「行きがまいります」が表示される。
続いて、可変部分のテキストをキーボードから入力し、可変部分のテキストを決定する(ステップ302)。例えば、可変部分のテキストとして、「原宿」と入力されると、定型部分と組み合わせた「原宿行きがまいります」を、音片として生成する。
入力解析部4は、入力部31で指定した可変部分を含む音片を作成するために、音片分類コード701と対応する定型部分の中間記号列704を取得する。また、入力部から得られる可変部分のテキストを言語処理により中間記号列に変換し、可変部分の中間記号列を決定する(ステップ303)。このステップにより、可変部分のテキストが「原宿」である場合、可変部分の中間記号列「ハラジュク」が得られる。
次に、録音音声選択部6は、可変部分の入力に従って、同じ定型部分をもつ複数の録音音声の中から適切な録音音声を選択する。ここで、定型部分と可変部分を含めた中間記号列と、録音音声に対応する中間記号列を比較し、最も長く中間記号列が一致するものを選択する(ステップ304)。このようにすると、録音音声と規則合成音声の接続境界位置は、定型部分の中に決定されるだけでなく、場合によっては可変部分の中に決定することも可能となり、より高品質な合成音声を生成することができる。
次に、規則合成部7は、入力解析部4で得られる可変部分の中間記号列と定型部分の中間記号列を用いて、規則合成音声を生成する範囲を決定する(ステップ305)。ここで、規則合成音声を作成する範囲は、可変部分を含む一音片と定義しておくと、可変部分の「ハラジュク」に加えて、定型部分「ユキガ マイリマス」を含めて規則合成音声を生成する。
次に、接続境界算出部8は、録音音声の音響特徴情報と規則合成音声の音響特徴情報を用いて、録音音声データと規則合成音声データの重複区間における、接続境界位置を算出する(ステップ306)。
このステップ306は、第1の実施例のステップ106と同様であるが、録音音声と規則合成音声の接続境界位置は、定型部分の中に決定されるだけでなく、場合によっては可変部分の中に決定することも可能となる。可変部分の中に、接続境界位置が決定される例を、図14に示す。図13に示すような音片情報に対応した録音音声が録音音声格納部5に格納されており、定型部分として、音片分類コード「200」が指定されると、音片コード「201」、「202」、「203」の録音音声が選択の対象となる。ここで、可変部分の中間記号列が「ハラジュク」である場合、定型部分と組み合わせた中間記号列「ハラジュクユキガ マイリマス」と、各録音音声の中間記号列を比較すると、音片コード「201」の「シンジュクユキガ マイリマス」が選択される。
このようにすると、録音音声と規則合成音声の重複区間801は、「ジュクノ アシタノ テ’ンキデス」に対応する区間となり、あらかじめ指定された定型部分803のみならず、可変部分802の一部である「ジュク」の部分に関しても録音音声を利用することができるようになり、接続境界位置804を可変部分802の中に決定することが可能となる。
次に、接続合成部9は、接続境界算出部8から得られる接続境界位置を用いて、録音音声データと規則合成音声データを切断し、切断された録音音声データと規則合成音声データを接続することにより、可変部分を含む音片に対応する合成音声データを作成する(ステップ307)。ここで、接続境界位置は、録音音声データにおける時刻および規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行う。このステップは、第1の実施例のステップ107と同様であるが、音声データをスピーカから出力する処理は、次の音片接続部36が行う。
音片接続部36は、入力部から得られる音片の順序に基づいて、音片を接続して出力音声を生成する(ステップ308)。ここで、可変部分を含む音片は、接続合成部から得られる合成音声を用いる。
このようにして、録音された音片を接続して合成音声を作成する装置において、規則合成音声を用いた音片を用いて、自然な接続の合成音声を出力することができる。
以上のように第3の実施例では、鉄道放送システムに本発明を適用した場合、あらかじめ録音された音片を接続して合成音声を作成する装置において、可変部分を含む音片を生成する機能を備え、高品質な音声を出力することができる。
以上詳述したように、本発明によれば、予め格納された録音された音声データと、規則合成により生成された音声データとが重複する区間の音響特徴情報にもとづいて、録音音声と規則合成音声との間の音質および韻律の連続性を考慮した接続境界を選択し、自然な合成音声を生成することが可能となる。また、規則合成作成手段は、重複する区間の音響特徴情報を目標として規則合成音声を作成することにより、規則合成音声の音質と韻律が録音音声に近づき、自然な合成音声を生成することが可能となる。
本発明は、車載用カーナビゲーションシステムや鉄道放送システムへの適用が好適であるが、テキストを音声出力する音声案内システム一般に適用可能である。
1…音声合成装置、2…ナビゲーション制御装置、3…ナビゲーション制御部、4…入力解析部、5…録音音声格納部、6…録音音声選択部、7…規則合成部、8…接続境界算出部、9…接続合成部、10…情報受信部、11…GPS、12…ナビゲーション用データ記憶部、13…韻律モデル、20…音声合成装置、21…規則合成パラメータ算出部、22…規則合成音声データ生成部、30…音声合成装置、31…入力部、35…音片情報格納部、36…音片接続部。
Claims (17)
- 定型部分と可変部分からなるテキストを合成する音声合成装置において、
録音された音声をもとに作成された、前記定型部分を含む音声データである第1の音声データを予め格納する録音音声格納手段と、
受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む第2の音声データを生成する規則合成手段と、
前記テキストに対応する、前記第1の音声データと前記第2の音声データとが重複する区間の、音素カテゴリ、基本周波数、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報にもとづいて、録音された音声データと規則合成により生成された音声データとの接続境界の位置を選択する接続境界算出手段と、
前記第1の音声データを前記接続境界で区切った第3の音声データと、前記第2の音声データを前記接続境界で区切って切り出した第4の音声データとを接続して前記テキストの音声データを合成する接続合成手段とを備え、
前記接続境界算出手段は、前記第1の音声データと第2の音声データの重複する区間に含まれる複数の音素境界の中から前記接続境界の位置を選択する
ことを特徴とする音声合成装置。 - 前記規則合成手段は、前記テキストに対応する、前記第1の音声データと前記第2の音声データとが重複する区間における、前記第1の音声データの音響特徴情報を用いて、前記第1の音声データと整合する前記第2の音声データを生成することを特徴とする請求項1に記載の音声合成装置。
- 前記規則合成手段は、前記接続境界算出手段から得られる接続境界の位置における前記第1の音声データと前記第2の音声データの音響特徴情報にもとづいて、前記第2の音声データを加工することを特徴とする請求項1に記載の音声合成装置。
- 前記規則合成手段は、可変部分と、可変部分に先行または後続する定型部分のうち、定型部分の全体、一呼気段落、一文のいずれかの単位で、前記第2の音声データを生成することを特徴とする請求項1に記載の音声合成装置。
- 前記録音音声格納手段は、定型部分と少なくとも定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを、前記第1の音声データとして格納しておくことを特徴とする請求項1又は2に記載の音声合成装置。
- 前記接続境界位置は、前記第1の音声データにおける時刻および前記第2の音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行うことを特徴とする請求項1又は2に記載の音声合成装置。
- 前記接続合成手段で合成された前記音声データを出力する手段を設けたことを特徴とする請求項1又は2に記載の音声合成装置。
- 定型部分と可変部分からなるテキストを合成する音声合成装置において、
録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、
受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部と、
前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの、音素カテゴリ、基本周波数、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部と、
前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部とを備え、
前記接続境界算出部は、前記録音音声データと前記規則合成音声データの重複する区間に含まれる複数の音素境界の中から前記接続境界位置を選択する
ことを特徴とする音声合成装置。 - 前記規則合成手段は、前記テキストに対応する、前記録音音声データと前記規則合成音声データとが重複する区間における、前記録音音声データの音響特徴情報を用いて、前記録音音声データと整合する前記規則合成音声データを生成することを特徴とする請求項8に記載の音声合成装置。
- 前記規則合成手段は、前記接続境界算出手段から得られる接続境界の位置における前記録音音声データと前記規則合成音声データの音響特徴情報にもとづいて、前記規則合成音声データを加工することを特徴とする請求項8に記載の音声合成装置。
- 前記規則合成手段は、可変部分と、可変部分に先行または後続する定型部分のうち、定型部分の全体、一呼気段落、一文のいずれかの単位で、第2の音声データを生成することを特徴とする請求項8に記載の音声合成装置。
- 前記録音音声格納手段は、定型部分と少なくとも定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを、前記録音音声データとして格納しておくことを特徴とする請求項8又は9に記載の音声合成装置。
- 前記接続境界位置は、前記録音音声データにおける時刻および前記規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行うことを特徴とする請求項8又は9に記載の音声合成装置。
- 前記接続合成手段で生成された前記合成音声データを出力する手段を設けたことを特徴とする請求項8又は9に記載の音声合成装置。
- 定型部分と可変部分からなるテキストを合成する音声合成装置において、
録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、
受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する規則合成パラメータ算出部と、
前記録音音声の音響特徴情報と前記規則合成の音響特徴情報とを用いて、前記録音音声データと前記規則合成パラメータとが重複する区間における接続境界位置を算出する接続境界算出部と、
前記録音音声の音響特徴情報と、前記規則合成音声の音響特徴情報と、前記接続境界位置とを用いて、規則合成音声データを生成する規則合成音声データ部と、
前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを出力する接続合成部と、
前記合成音声データを出力する手段とを備え、
前記接続境界算出部は、前記録音音声データと前記規則合成パラメータの重複する区間に含まれる複数の音素境界の中から前記接続境界位置を選択し、
前記音響特徴情報は、音素カテゴリ、基本周波数、音韻継続長、パワー、スペクトルのうち少なくとも一つであることを特徴とする音声合成装置。 - あらかじめ録音された、可変部分を含む音片と定型部分を含む音片とを接続して合成音声を作成する装置において、
あらかじめ録音された前記音片からなる音声データを格納する録音音声格納部と、
受け付けた入力テキストから、前記可変部分の音片の中間記号列と前記定型部分の音片の中間記号列とを作成する入力解析部と、
前記可変部分の入力に従って、同じ定型部分をもつ複数の録音音声データの中から適切な録音音声データを選択する録音音声選択部と、
前記入力解析部で得られる前記可変部分の音片の中間記号列と、前記定型部分の音片の中間記号列を用いて、規則合成音声データを生成する範囲を決定する規則合成部と、
前記録音音声データの音響特徴情報および前記規則合成音声データの音響特徴情報を用いて、前記録音音声データと前記規則合成音声データとの重複区間における、接続境界位置を算出する接続境界算出部と、
前記接続境界算出部から得られる前記接続境界位置を用いて、前記録音音声データと前記規則合成音声データとを切断し、切断された前記録音音声データと前記規則合成音声データとを接続することにより、前記可変部分を含む音片に対応する合成音声データを作成する接続合成部と、
入力テキストから得られる音片の順序に基づいて、音片を接続して出力音声を生成する音片接続部とを有し、
前記接続境界算出部は、前記録音音声データと前記規則合成音声データの重複する区間に含まれる複数の音素境界の中から前記接続境界位置を選択し、
前記音響特徴情報は、音素カテゴリ、基本周波数、音韻継続長、パワー、スペクトルのうち少なくとも一つであることを特徴とする音声合成装置。 - 定型部分と可変部分からなるテキストを音声合成する音声合成方法において、
録音された、前記定型部分を含む録音音声データを予め格納しておき、
受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成し、
前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの、音素カテゴリ、基本周波数、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間に含まれる複数の音素境界の中から接続境界位置を選択し、
前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する
ことを特徴とする音声合成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011234467A JP2012042974A (ja) | 2011-10-26 | 2011-10-26 | 音声合成装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011234467A JP2012042974A (ja) | 2011-10-26 | 2011-10-26 | 音声合成装置 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006288675A Division JP4878538B2 (ja) | 2006-10-24 | 2006-10-24 | 音声合成装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2012042974A true JP2012042974A (ja) | 2012-03-01 |
Family
ID=45899259
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011234467A Pending JP2012042974A (ja) | 2011-10-26 | 2011-10-26 | 音声合成装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2012042974A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014062970A (ja) * | 2012-09-20 | 2014-04-10 | Hitachi Ulsi Systems Co Ltd | 音声合成方法、装置、及びプログラム |
| CN109584859A (zh) * | 2018-11-07 | 2019-04-05 | 上海指旺信息科技有限公司 | 语音合成方法及装置 |
| CN111599341A (zh) * | 2020-05-13 | 2020-08-28 | 北京百度网讯科技有限公司 | 用于生成语音的方法和装置 |
| CN113744716A (zh) * | 2021-10-19 | 2021-12-03 | 北京房江湖科技有限公司 | 用于合成语音的方法和装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0527789A (ja) * | 1991-07-24 | 1993-02-05 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
| JPH1138989A (ja) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | 音声合成装置及び方法 |
| JP2005321520A (ja) * | 2004-05-07 | 2005-11-17 | Mitsubishi Electric Corp | 音声合成装置及びそのプログラム |
| JP2007212884A (ja) * | 2006-02-10 | 2007-08-23 | Fujitsu Ltd | 音声合成装置、音声合成方法、及びコンピュータプログラム |
-
2011
- 2011-10-26 JP JP2011234467A patent/JP2012042974A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0527789A (ja) * | 1991-07-24 | 1993-02-05 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
| JPH1138989A (ja) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | 音声合成装置及び方法 |
| JP2005321520A (ja) * | 2004-05-07 | 2005-11-17 | Mitsubishi Electric Corp | 音声合成装置及びそのプログラム |
| JP2007212884A (ja) * | 2006-02-10 | 2007-08-23 | Fujitsu Ltd | 音声合成装置、音声合成方法、及びコンピュータプログラム |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014062970A (ja) * | 2012-09-20 | 2014-04-10 | Hitachi Ulsi Systems Co Ltd | 音声合成方法、装置、及びプログラム |
| CN109584859A (zh) * | 2018-11-07 | 2019-04-05 | 上海指旺信息科技有限公司 | 语音合成方法及装置 |
| CN111599341A (zh) * | 2020-05-13 | 2020-08-28 | 北京百度网讯科技有限公司 | 用于生成语音的方法和装置 |
| CN111599341B (zh) * | 2020-05-13 | 2023-06-20 | 北京百度网讯科技有限公司 | 用于生成语音的方法和装置 |
| CN113744716A (zh) * | 2021-10-19 | 2021-12-03 | 北京房江湖科技有限公司 | 用于合成语音的方法和装置 |
| CN113744716B (zh) * | 2021-10-19 | 2023-08-29 | 北京房江湖科技有限公司 | 用于合成语音的方法和装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7991616B2 (en) | Speech synthesizer | |
| US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
| CN1954361B (zh) | 声音合成装置和方法 | |
| US9978359B1 (en) | Iterative text-to-speech with user feedback | |
| JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
| JPH10153998A (ja) | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 | |
| US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
| US9508338B1 (en) | Inserting breath sounds into text-to-speech output | |
| KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
| JP2005539264A (ja) | 無声音信号を合成する方法 | |
| JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
| JP2011221486A (ja) | 音声編集方法、装置及び音声合成方法 | |
| JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
| JP2012042974A (ja) | 音声合成装置 | |
| JPWO2006134736A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
| JP2007086316A (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 | |
| JP6291808B2 (ja) | 音声合成装置及び方法 | |
| CN103226945B (zh) | 声音合成装置以及声音合成方法 | |
| JP4744338B2 (ja) | 合成音声生成装置 | |
| JP2009157220A (ja) | 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法 | |
| JP4430174B2 (ja) | 音声変換装置及び音声変換方法 | |
| JP5054632B2 (ja) | 音声合成装置及び音声合成プログラム | |
| JP2005181998A (ja) | 音声合成装置および音声合成方法 | |
| JPH07140996A (ja) | 音声規則合成装置 | |
| JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120410 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120731 |