JP2002358090A - 音声合成方法、音声合成装置及び記録媒体 - Google Patents
音声合成方法、音声合成装置及び記録媒体Info
- Publication number
- JP2002358090A JP2002358090A JP2002077096A JP2002077096A JP2002358090A JP 2002358090 A JP2002358090 A JP 2002358090A JP 2002077096 A JP2002077096 A JP 2002077096A JP 2002077096 A JP2002077096 A JP 2002077096A JP 2002358090 A JP2002358090 A JP 2002358090A
- Authority
- JP
- Japan
- Prior art keywords
- formant
- window function
- pitch
- waveform
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
せることができる音声合成方法、音声合成装置及び記録
媒体を提供することを目的とする。 【解決手段】ピッチ周期の情報に従ってピッチ波形を重
畳することにより音声信号を生成する音声合成方法、音
声合成装置及び記録媒体であって、前記ピッチ波形は、
複数のホルマント波形の和によって生成され、概ホルマ
ント波形は、ホルマント周波数の正弦波に窓関数をかけ
ることによって生成されることを特徴とする。
Description
関し、特に音韻記号列、ピッチ、音韻継続時間長などの
情報から音声信号を生成する音声合成に関する。
出すことをテキスト音声合成という。通常このテキスト
音声合成システムは、言語処理部、音韻処理部、音声信
号生成部の3つの段階から構成される。
いて形態素解析や構文解析などが行われ、次に音韻処理
部においてアクセントやイントネーションの処理が行わ
れて音韻記号列、ピッチパターン(声の高さの変化パタ
ーン)、音韻継続時間長などの情報が出力される。最後
に、音声信号生成部すなわち音声合成器では音韻記号
列、ピッチパターン、音韻継続時間長などの情報から音
声信号を合成する。
とができる合成器の原理は、母音をV、子音をCで表す
と、CV、CVC、VCVなどの基本となる小さな単位
の特徴パラメータ(音声素片)を記憶し、ピッチや継続
時間長を制御して接続することにより音声を合成するも
のである。
情報から所望のピッチパターンや継続時間長の音声信号
を生成する方法として、PSOLA法(Pitch-Synchron
ousOverlap-add)が良く知られている。例えば、音声素
片として記憶されている音声波形のピッチ周期をPSO
LA法を用いて所望のピッチ周期に変換する方法が特開
平8−202395「ピッチ変換方法およびその装置」
に開示されている。
号101のピッチ周期を変更し、出力音声信号104を
生成する原理を表している。まず、入力音声信号101
にピッチ分析を行ってピッチ周期を求める。そして、ピ
ッチ周期の2倍程度の窓長をもつ窓関数をピッチに同期
した位置で入力音声信号101にかけることによってピ
ッチ波形103を生成する。次に、所望のピッチ周期間
隔でピッチ波形103を重ね合わせることによってピッ
チ周期が変更された出力音声信号104を生成する。
場合、入力音声信号101があらかじめ記憶されている
音声素片に相当し、出力音声信号104が合成音声信号
に相当する。PSOLA法による合成音声はピッチ周期
の変更の度合いが小さい場合、ピッチ周期の変更による
音質劣化が小さく音質がよいことが知られている。
ント合成方式がある。ホルマント合成方式は人間の発声
機構を模擬するモデルであり、声帯から発生する信号を
モデル化した音源信号で声道の特性をモデル化するフィ
ルタを駆動することにより音声信号を生成する。一例と
して特開平7−152396「音声合成装置」に、ホル
マント合成方式を用いた音声合成器が開示されている。
声信号を生成する原理を表している。共振器21、2
2、23の縦続接続によって構成される声道フィルタを
所望のピッチ周期間隔で配置されたパルス列207で駆
動して合成音声208を生成する。共振器21の周波数
特性204はホルマント周波数Flとホルマント帯域幅
Blによって決定される。同様に、共振器22の周波数
特性205はホルマント周波数F2とホルマント帯域幅
B2によって、共振器23の周波数特性206はホルマ
ント周波数F3とホルマント帯域幅B3によって決定さ
れる。
マント周波数と帯域幅の組み合わせによって、合成音声
の音韻(/a/,/i/,/u/など)や声質(男声、
女声など)が決定される。そのため、音声素片の情報は
波形ではなくホルマント周数と帯域幅の値の組み合とな
っている。ホルマント合成方式は、音韻や声質と直接関
係するパラメータを制御することができるため、声質を
変化させるなど柔軟な制御が可能であるという利点があ
る。
OLA法はピッチ周期の変更量が小さい範囲では、比較
的音質が良いものの変更の範囲が大きくなると音質が劣
化するという問題がある。
周期が変化するとそのスペクトル包絡が変化するのに対
して、PSOLA法ではこの変化をモデル化できないこ
とが劣化の原因となっている。また、音声素片の接続部
でスペクトルの不連続が生じた場合に、平滑化処理を行
うことによってスペクトルに歪みが生じて音質が劣化す
るという問題がある。さらに、波形そのものを音声素片
としているため声質を変化させることが難しく柔軟性に
欠ける。
ものの、モデルの精度が悪いという問題がある。つま
り、ホルマント周波数と帯域幅だけでは実際の音声信号
のスペクトルの微細な構造を表現することができず、音
質が悪く肉声感(人間らしさ)に欠ける。
のであり、音質が良いと同時に声質などを柔軟に変化さ
せることができる音声合成器を提供することを目的とす
る。
るために本発明の音声合成方法では、ピッチ周期の情報
に従ってピッチ波形を重畳することにより音声信号を生
成する音声合成方法において、ホルマント周波数の正弦
波に窓関数をかけることによって複数のホルマント波形
を生成し、これら複数のホルマント波形の和によって前
記ピッチ波形を生成することことを特徴とするものであ
る。
パターン、音韻継続時間長及び音韻記号列が入力され、
ピッチ周期の情報にしたがって生成されるピッチマーク
に、ピッチ波形生成部により形成されたピッチ波形を重
畳することにより音声信号を生成する音声合成装置にお
いて、前記ピッチ波形生成部は音声素片の単位毎にホル
マントパラメータが記憶されている記憶部と、前記ピッ
チパターン、前記音韻継続時間長及び前記音韻記号列を
参照として、前記ピッチマークに対応する1フレーム分
の前記ホルマントパラメータを前記記憶部より選択して
読み出すパラメータ選択部と、前記読み出されたホルマ
ント周波数の正弦波を生成する正弦波生成部と、この生
成された正弦波に前記選択された窓関数をかけることに
よりホルマント波形を生成する掛け算器と、これらホル
マントをそれぞれ加算する加算器とを具備することをす
ることを特徴とするものである。
の情報に従ってピッチ波形を重畳することにより音声信
号を生成する音声合成方法を実現するプログラムを記録
した記録媒体において、ホルマント周波数の正弦波に窓
関数をかけることによって複数のホルマント波形を生成
し、これら複数のホルマント波形の和によって前記ピッ
チ波形を生成する音声合成方法を実現するプログラムを
記録したことを特徴とする音声合成方法を記録すること
を特徴とするものである。
実施形態を説明する。図1は本発明の一実施形態に係る
音声合成方法を実現する音声合成装置の構成を示すブロ
ック図である。音声合成装置にはピッチパターン30
6、音韻継続時間長307、音韻記号列308が入力さ
れ、合成音声信号305が出力される。本実施形態の音
声合成装置は無声音合成部32と有声音合成部31より
構成され、それぞれが出力する無声音声信号304と有
声音声信号303とを加算することによって合成音声信
号305を生成する。
7と音韻記号列308を参照して主に当該音素が無声子
音や有声摩擦音である場合に無声音声信号304を生成
する。無声音合成部32は、LPC合成フィルタを白色
雑音で駆動する方法など、公知の技術で実現することが
可能である。
成部33、ピッチ波形生成部34、波形重畳部35から
構成される。ピッチマーク生成部33はピッチパターン
306と音韻継続時間長307を参照して、図2に示さ
れるようなピッチマーク302を生成する。ピッチマー
ク302はピッチ波形301を重畳する位置を表すもの
であり、ピッチマークの間隔がピッチ周期に対応する。
ピッチ波形生成部はピッチパターン306、音韻継続時
間長307、音韻記号列308を参照して、図2に示さ
れるようにピッチマーク302のそれぞれに対応するピ
ッチ波形301を生成する。波形重畳部35はピッチマ
ーク302で示される位置に、対応するピッチ波形30
1を重畳することによって有声音声信号303を生成す
る。
いて詳しく説明する。
の構成を示すブロック図である。ピッチ波形生成部34
は、ホルマントパラメータ記憶部41、パラメータ選択
部42、正弦波生成部(43、44、45)より構成さ
れる。ホルマントパラメータ記憶部41には音声素片の
単位毎にホルマントパラメータが記憶されている。
メータの例を表している。この例では、/a/の素片は
3フレームから構成され、各フレームは3つのホルマン
トから構成されている。各ホルマントの特徴を表すパラ
メータとしてホルマント周波数、ホルマント位相、窓関
数が記憶されている。
波形生成部34に入力されるピッチパターン306、音
韻継続時間長307、音韻記号列308を参照して、ピ
ッチマーク302に対応する1フレーム分のホルマント
パラメータ401をホルマントパラメータ記憶部41よ
り選択して読み出す。
番号1に対応するパラメータがホルマント周波数40
2、ホルマント位相403、窓関数411として出力さ
れ、同様に、ホルマント番号2に対応するパラメータが
ホルマント周波数404、ホルマント位相405、窓関
数412として、さらにホルマント番号3に対応するパ
ラメータがホルマント周波数406、ホルマント位相4
07、窓関数413として出力される。
2とホルマント位相403に従って正弦波408を出力
する。正弦波408は窓関数411によって窓掛け処理
が行われホルマント波形414が生成される。ホルマン
ト周波数402をω、ホルマント位相403をφ、窓関
数411をw(t)で表すと、ホルマント波形y(t)
は次の式で表される。
ホルマント位相405に従って正弦波409を出力し、
窓関数412による窓掛け処理を経てホルマント波形4
15が生成される。正弦波生成部45はホルマント周波
数406とホルマント位相407に従って正弦波410
を出力し、窓関数413による窓掛け処理を経てホルマ
ント波形416が生成される。
形(414、415、416)をそれぞれ加算すること
によって生成される。
波形の例を図6に示す。また、これらの波形のパワース
ペクトルを図7に示す。図6では横軸が時間、縦軸が振
幅を、図7では横軸が周波数、縦軸が振幅を表してい
る。
なり、窓関数は低域に集中したスペクトルとなってい
る。時間領域での窓掛け(掛け算)は周波数領域では畳
み込みに相当するため、ホルマント波形のスペクトルは
窓関数のスペクトルを正弦波の周波数の位置に平行移動
した形状となっている。そのため、正弦波の周波数や位
相を制御することによってピッチ波形のホルマントの中
心周波数や位相を変化させることができ、窓関数の形状
を制御することによってピッチ波形のホルマントのスペ
クトル形状を変化させることができる。
数や位相、スペクトル形状を独立に制御することが可能
であるため柔軟性の高いモデルであると言える。また同
時に、窓関数の形状によってスペクトルの微細な構造を
表現することが可能であるため、肉声のスペクトル構造
を高精度に近似することができ肉声感のある音声を合成
することが可能である。
2の実施形態を図8を参照して説明する。図3と相対応
する部分に同一の参照符号を付して相違点を中心に説明
すると、本実施形態では窓関数が基底関数展開されてお
り、ホルマントパラメータとして窓関数を記憶する代わ
りに重み係数の組が記憶されている。そして、新たに付
加された窓関数生成部56において重み係数の組から窓
関数を生成する。
れているホルマントパラメータの例を図5に示す。この
例では3つの基底関数の重み和に窓関数が展開されてお
り、窓関数重み係数のセットとして3つの係数の組が記
憶されている。パラメータ選択部42は選択されたホル
マントパラメータ(ホルマント周波数、ホルマント位
相、窓関数重み係数)501の中でホルマント周波数
(4()2,404,406)、ホルマント位相(40
3,405,407)が正弦波生成部(43,44,4
5)へ、窓関数重み係数セット(517、518、51
9)が窓関数生成部56へ出力される。
17、518、519)にしたがって、窓関数(51
1、512、513)をそれぞれ生成する。重み係数セ
ットをそれぞれa1,a2,a3とし、基底関数をb1
(t),b2(t),b3(t)とすると、窓関数W
(t)は次式で表される。
(t)十a3・b3(t)なお、基底関数としてはDC
T基底などを用いても良いし、窓関数をKL展開するこ
とによって生成された基底関数を用いても良い。本実施
形態では、基底の次数を3としたが、次数はいくつでも
良い。窓関数を基底関数展開することによって、ホルマ
ントパラメータ記憶部の記憶容量が削減されるという利
点がある。
3の実施形態を図9を参照して説明する。図3と相対応
する部分に同一の参照符号を付して相違点を中心に説明
すると、本実施形態ではパラメータ変形部67が新たに
付加されており、ピッチパタ一ン306に従ってホルマ
ントパラメータが変化する点が異なっている。
数402、ホルマント位相403、窓関数411、ホル
マント周波数404、ホルマント位相405、窓関数4
12、ホルマント周波数406、ホルマント位相40
7、窓関数413を、ピッチパターン306に従って変
化させて、ホルマント周波数720、ホルマント位相7
21、窓関数717、ホルマント周波数722、ホルマ
ント位相723、窓関数718、ホルマント周波数72
4、ホルマント位相725、窓関数719をそれぞれ出
力する。全てのパラメータを変化させるようにしても良
いし、一部のパラメータのみを変化させるようにしても
よい。
波数を制御する場合の制御関数の例を示している。この
ような制御関数は音韻ごとに設定しても良いし、あるい
はフレーム毎、ホルマント番号毎に設定して使い分ける
ようにしても良い。
入カホルマント周波数と出カホルマント周波数の差分値
や比の値を制御する制御関数を用いても良い。
数に乗じてホルマントのパワーを制御するための制御関
数を表している。このように、ピッチ周期に応じてパラ
メータを変化させることによりピッチ周期の変化による
音声のスペクトルの変化をモデル化することが可能とな
り、声の高さによらず高音質な合成音声を生成すること
ができる。
308を入力するようにして、先行あるいは後続の音韻
の種類に従ってホルマントパラメータを変化させるよう
にしても良い。これにより、音韻環境による音声のスペ
クトルの変化をモデル化することが可能となり、音質を
向上させることができる。
入力される声質情報309に従ってパラメータを変化さ
せるようにしても良い。これにより、様々な声質の合成
音声を生成することが可能となる。
とによって声の太さを変える場合の制御関数の例を示し
ている。(a)の制御関数を用いて全てのホルマント周
波数を変換すれば、ホルマントが高域にシフトすること
により細い声が生成され、(b)の場合はやや細い声と
なる。反対に、(d)の制御関数を用いると、ホルマン
ト周波数が低域にシフトすることにより、太い声が生成
され、(c)の場合はやや太い声となる。
4の実施形態を図13を参照して説明する。図3と相対
応する部分に同一の参照符号を付して相違点を中心に説
明すると、本実施形態ではパラメータ平滑化部77が新
たに付加されており、各ホルマントパラメータの時間的
な変化がなめらかになるようにパラメータを平滑化する
点が異なっている。
波数402、ホルマント位相403、窓関数411、ホ
ルマント周波数404、ホルマント位相405、窓関数
412、ホルマント周波数406、ホルマント位相40
7、窓関数413を、それぞれ平滑化して、ホルマント
周波数820、ホルマント位相821、窓関数817、
ホルマント周波数822、ホルマント位相823、窓関
数818、ホルマント周波数824、ホルマント位相8
25、窓関数819をそれぞれ出力する。全てのパラメ
ータを平滑化するようにしても良いし、一部のパラメー
タのみを平滑化するようにしても良い。
いる。×で表されるのが平滑化前のホルマント周波数4
02、404、406であり、先行あるいは後続のフレ
ームの対応するホルマント周波数との変化がなめらかに
なるように平滑化を行って○で表される平滑化されたホ
ルマント周波数820、822、824がそれぞれ生成
される。
ントの対応がとれないような場合に、図15(a)の×
で表されるようにホルマント周波数404に対応するホ
ルマントが消滅してしまうことが起りうる。この場合、
スペクトルに大きな不連続が生じて音質が劣化するため
○で表されるように、ホルマントを付加してホルマント
周波数822を生成する。この際、図15(b)に表さ
れるようにホルマント周波数822に対応する窓関数8
18のパワーを減衰させるようにしてホルマントのパワ
ーの不連続が生じないようにする。
いる。窓関数411のピーク位置がフレーム間でなめら
かに変化するように窓関数位置の平滑化を行って、窓関
数817を生成している。この他にも、窓関数の形状
や、窓関数のパワーの平滑化を行っても良い。
数3の場合について説明したが、ホルマント数はいくつ
であっても良く、フレーム毎にホルマント数が変化して
も良い。
正弦波を出力するものとして説明したが、線スペクトル
に近いパワースペクトルを持つ波形であれば完全な正弦
波でなくとも良い。例えば、計算量を削減する目的で計
算精度を落としたり、テーブル化した場合は誤差のため
に完全な正弦波とはならない場合がある。
ずしも音声信号のスペクトルの山の部分を表現するとは
限らず、複数のホルマント波形の和であるピッチ波形の
スペクトルが音声のスペクトルを表現するものである。
における合成器について説明したが、本発明の他の実施
形態として音声符号化における復号化器がある。すなわ
ち、符号化器では音声信号からホルマント周波数、ホル
マント位相、窓関数などのホルマントパラメータとピッ
チ周期などを分析によって求め、それらを符号化して伝
送あるいは蓄積し、復号化器では、ホルマントパラメー
タとピッチ周期を復号化して上述した合成器と同様に音
声信号を再生することが可能である。
たプログラムに従ってコンピュータをプログラム制御す
ることにより行うことができる。このプログラム制御を
図17を参照して説明する。
ートを示しており、図17(b)は音声合成処理の内の
有声音声生成処理のフローチャートを示しており、図1
7(c)は図17(b)の有声音声生成処理のピッチ波
形生成処理のフローチャートを示している。
ては、ピッチパターン306、音韻継続時間長307お
よび音韻記号列308を入力する(S11)。ピッチパ
ターン306、音韻継続時間長307および音韻記号列
308に基づいて有声音声信号303を生成する(S1
2)。音韻継続時間長307および音韻記号列308を
参照して無声音声信号304を生成する(S13)。有
声音声信号と無声音声信号とを加算して合成音声信号3
05を生成する(S14)。
は、ピッチパターン306と音韻継続時間長307とを
参照してピッチマーク302を生成する(S21)。ピ
ッチパターン306、音韻継続時間長307および音韻
記号列308を参照してピッチマーク302にそれぞれ
対応するピッチ波形301を生成する(S22)。ピッ
チマーク302で示される位置に対応するピッチ波形3
01を重畳し、有声音声を生成する(S23)。
においては、ピッチパターン306、音韻継続時間長3
07および音韻記号列308を参照してピッチマーク3
02に対応する1フレーム分のホルマントパラメータ4
01をホルマントパラメータ記憶部41より選択する
(S31)。選択したホルマントパラメータ401のホ
ルマント番号に対応するホルマント周波数とホルマント
位相に従って複数の正弦波が生成される(S32)。複
数の正弦波を窓関数により窓掛けを行ってホルマント波
形414,415,416を生成する(S33)。これ
らホルマント波形を加算してピッチ波形を生成する(S
34)。
ルマント毎にホルマント周波数、ホルマント形状を独立
に制御するため、ピッチ周期や声質の違いによる音声の
スペクトル変化を表現することが可能となり、高い柔軟
性を実現することができる。あるいは、窓関数の形状に
よってホルマントのスペクトルの微細な構造を表現する
ため、肉声感のある高音質な合成音を生成することがで
きる。
ク図。
模式図。
ブロック図。
の例を示す模式図。
のパワースペクトルの例を示す模式図。
ブロック図。
ブロック図。
図。
図。
グ関数の例を示す模式図
のブロック図。
図。
図。
ートである。
式図。
Claims (17)
- 【請求項1】ピッチ周期の情報にしたがってピッチ波形
を重畳することにより音声信号を生成する音声合成方法
において、ホルマント周波数の正弦波に窓関数をかける
ことによって複数のホルマント波形を生成し、これら複
数のホルマント波形の和によって前記ピッチ波形を生成
することを特徴とする音声合成方法。 - 【請求項2】前記窓関数は複数の基底関数の重み付き加
算によって生成されることを特徴とする請求項1記載の
音声合成方法。 - 【請求項3】前記ホルマント波形のパワー、前記窓関数
の形状、前記窓関数の位置、前記ホルマント周波数のう
ち少なくとも1つが前記ピッチ周期に応じて変化するこ
とを特徴とする請求項1記載の音声合成方法。 - 【請求項4】前記ホルマント波形のパワー、前記窓関数
の形状、前記窓関数の位置、前記ホルマント周波数のう
ち少なくとも1つが少なくとも先行または後続の音韻の
種類に応じて変化することを特徴とする請求項1記載の
音声合成方法。 - 【請求項5】前記ホルマント波形のパワー、前記窓関数
の形状、前記窓関数の位置、前記ホルマント周波数のう
ち少なくとも1つが与えられた声質の情報に応じて変化
することを特徴とする請求項1記載の音声合成方法。 - 【請求項6】前記ホルマント周波数、前記ホルマント波
形のパワー、前記窓関数の形状、前記正弦波の位相、前
記窓関数の位置のうち少なくとも1つが少なくとも先行
または後続のピッチ波形の対応するホルマントの、ホル
マント周波数、ホルマント波形のパワー、窓関数の形
状、正弦波の位相、窓関数の位置のうち少なくとも1つ
に応じて変化することを特徴とする請求項1記載の音声
合成方法。 - 【請求項7】前記ホルマント周波数、前記ホルマント波
形のパワー、前記窓関数の形状、前記正弦波の位相、前
記窓関数の位置のうち少なくとも1つが少なくとも先行
または後続のピッチ波形の対応するホルマントの有無に
応じて変化することを特徴とする請求項1記載の音声合
成方法。 - 【請求項8】ピッチパターン、音韻継続時間長及び音韻
記号列が入力され、ピッチ周期の情報にしたがって生成
されるピッチマークに、ピッチ波形生成部により形成さ
れたピッチ波形を重畳することにより音声信号を生成す
る音声合成装置において、前記ピッチ波形生成部は音声
素片の単位毎にホルマントパラメータが記憶されている
記憶部と、前記ピッチパターン、前記音韻継続時間長及
び前記音韻記号列を参照として、前記ピッチマークに対
応する1フレーム分の前記ホルマントパラメータを前記
記憶部より選択して読み出すパラメータ選択部と、前記
読み出されたホルマント周波数の正弦波を生成する正弦
波生成部と、この生成された正弦波に前記選択された窓
関数をかけることによりホルマント波形を生成する掛け
算器と、これらホルマントをそれぞれ加算する加算器と
を具備することを特徴とする音声合成装置。 - 【請求項9】前記窓関数は前記記憶部に記憶されている
ことを特徴とする請求項8記載の音声合成装置。 - 【請求項10】前記記憶部に窓関数の重み係数が記憶さ
れており、この重み係数が導入され基底関数の重み付け
加算によって前記窓関数を生成する窓関数生成部とを具
備することを特徴とする請求項8記載の音声合成装置。 - 【請求項11】前記選択されたホルマントパラメータを
前記ピッチ周期に応じて変化させるパラメータ変形部を
設けたことを特徴とする請求項8記載の音声合成装置。 - 【請求項12】前記選択されたホルマントパラメータを
先行または後続の音韻の情報に応じて変化させるパラメ
ータ変形部を設けたことを特徴とする請求項8記載の音
声合成装置。 - 【請求項13】前記選択されたホルマントパラメータを
与えられた声質に応じて変化させるパラメータ変形部を
設けたことを特徴とする請求項8記載の音声合成装置。 - 【請求項14】前記選択されたホルマントパラメータを
時間的な変化を滑らかにするパラメータ平滑化部を設け
たことを特徴とする請求項8記載の音声合成装置。 - 【請求項15】ピッチ周期の情報に従ってピッチ波形を
重畳することにより音声信号を生成する音声合成方法を
実現するプログラムを記録した記録媒体において、ホル
マント周波数の正弦波に窓関数をかけることによって複
数のホルマント波形を生成し、これら複数のホルマント
波形の和によって前記ピッチ波形を生成する音声合成方
法を実現するプログラムを記録したことを特徴とする音
声合成方法を記録した記録媒体。 - 【請求項16】ホルマント周波数、ホルマント位相およ
び窓関数を表す多数のホルマントパラメータを記憶装置
に格納させる命令と、ピッチパターン、音韻継続時間長
及び音韻記号列に従って前記ホルマントパラメータから
所定のホルマントパラメータを選択させる命令と、選択
されたホルマントパラメータに対応するホルマント周波
数およびホルマント位相に基づいて複数の正弦波を生成
させる命令と、複数のホルマント波形を生成するため前
記選択されたホルマントパラメータに対応する窓関数と
前記正弦波とを乗算させる命令と、複数のピッチ波形を
生成するために前記ホルマント波形を加算させる命令
と、音声信号を生成するためにピッチ周期に従って前記
ピッチ波形を重畳させる命令とを含む音声合成プログラ
ム。 - 【請求項17】前記窓関数を生成するために重み係数に
よって重み付けされた規定関数を加算させる命令を含む
請求項16記載の音声合成プログラム。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002077096A JP3732793B2 (ja) | 2001-03-26 | 2002-03-19 | 音声合成方法、音声合成装置及び記録媒体 |
| KR10-2002-0016033A KR100457414B1 (ko) | 2001-03-26 | 2002-03-25 | 음성합성방법, 음성합성장치 및 기록매체 |
| EP02252159A EP1246163B1 (en) | 2001-03-26 | 2002-03-26 | Speech synthesis method and speech synthesizer |
| CNB021080496A CN1185619C (zh) | 2001-03-26 | 2002-03-26 | 语音合成方法和语音合成装置 |
| DE60205421T DE60205421T2 (de) | 2001-03-26 | 2002-03-26 | Verfahren und Vorrichtung zur Sprachsynthese |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001-87041 | 2001-03-26 | ||
| JP2001087041 | 2001-03-26 | ||
| JP2002077096A JP3732793B2 (ja) | 2001-03-26 | 2002-03-19 | 音声合成方法、音声合成装置及び記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002358090A true JP2002358090A (ja) | 2002-12-13 |
| JP3732793B2 JP3732793B2 (ja) | 2006-01-11 |
Family
ID=26612017
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002077096A Expired - Fee Related JP3732793B2 (ja) | 2001-03-26 | 2002-03-19 | 音声合成方法、音声合成装置及び記録媒体 |
Country Status (5)
| Country | Link |
|---|---|
| EP (1) | EP1246163B1 (ja) |
| JP (1) | JP3732793B2 (ja) |
| KR (1) | KR100457414B1 (ja) |
| CN (1) | CN1185619C (ja) |
| DE (1) | DE60205421T2 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005004105A (ja) * | 2003-06-13 | 2005-01-06 | Sony Corp | 信号生成装置及び信号生成方法 |
| US7596497B2 (en) | 2003-06-13 | 2009-09-29 | Sony Corporation | Speech synthesis apparatus and speech synthesis method |
| US8175881B2 (en) | 2007-08-17 | 2012-05-08 | Kabushiki Kaisha Toshiba | Method and apparatus using fused formant parameters to generate synthesized speech |
| JP2013205697A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
| JP2017173606A (ja) * | 2016-03-24 | 2017-09-28 | カシオ計算機株式会社 | 電子楽器、楽音発生装置、楽音発生方法及びプログラム |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6950799B2 (en) * | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
| AU2003254398A1 (en) * | 2002-09-10 | 2004-04-30 | Leslie Doherty | Phoneme to speech converter |
| JP2004294816A (ja) * | 2003-03-27 | 2004-10-21 | Yamaha Corp | 携帯端末装置 |
| JP2005234337A (ja) * | 2004-02-20 | 2005-09-02 | Yamaha Corp | 音声合成装置、音声合成方法、及び音声合成プログラム |
| JP5275102B2 (ja) | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
| CN107924678B (zh) * | 2015-09-16 | 2021-12-17 | 株式会社东芝 | 语音合成装置、语音合成方法及存储介质 |
| CN108257613B (zh) * | 2017-12-05 | 2021-12-10 | 北京小唱科技有限公司 | 修正音频内容音高偏差的方法及装置 |
| CN108597527B (zh) * | 2018-04-19 | 2020-01-24 | 北京微播视界科技有限公司 | 多声道音频处理方法、装置、计算机可读存储介质和终端 |
| CN110189743B (zh) * | 2019-05-06 | 2024-03-08 | 平安科技(深圳)有限公司 | 波形拼接中的拼接点平滑方法、装置及存储介质 |
| CN114648974B (zh) * | 2020-12-17 | 2025-02-18 | 南京理工大学 | 基于语音雷达和深度学习的语音合成方法及系统 |
-
2002
- 2002-03-19 JP JP2002077096A patent/JP3732793B2/ja not_active Expired - Fee Related
- 2002-03-25 KR KR10-2002-0016033A patent/KR100457414B1/ko not_active Expired - Fee Related
- 2002-03-26 DE DE60205421T patent/DE60205421T2/de not_active Expired - Lifetime
- 2002-03-26 EP EP02252159A patent/EP1246163B1/en not_active Expired - Lifetime
- 2002-03-26 CN CNB021080496A patent/CN1185619C/zh not_active Expired - Fee Related
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005004105A (ja) * | 2003-06-13 | 2005-01-06 | Sony Corp | 信号生成装置及び信号生成方法 |
| US7596497B2 (en) | 2003-06-13 | 2009-09-29 | Sony Corporation | Speech synthesis apparatus and speech synthesis method |
| US8175881B2 (en) | 2007-08-17 | 2012-05-08 | Kabushiki Kaisha Toshiba | Method and apparatus using fused formant parameters to generate synthesized speech |
| JP2013205697A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
| JP2017173606A (ja) * | 2016-03-24 | 2017-09-28 | カシオ計算機株式会社 | 電子楽器、楽音発生装置、楽音発生方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| DE60205421D1 (de) | 2005-09-15 |
| EP1246163B1 (en) | 2005-08-10 |
| JP3732793B2 (ja) | 2006-01-11 |
| DE60205421T2 (de) | 2006-04-20 |
| EP1246163A2 (en) | 2002-10-02 |
| CN1378199A (zh) | 2002-11-06 |
| CN1185619C (zh) | 2005-01-19 |
| KR20020076144A (ko) | 2002-10-09 |
| EP1246163A3 (en) | 2003-08-13 |
| KR100457414B1 (ko) | 2004-11-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
| JP4705203B2 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
| KR940002854B1 (ko) | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 | |
| JP4469883B2 (ja) | 音声合成方法及びその装置 | |
| JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
| JPH031200A (ja) | 規則型音声合成装置 | |
| JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
| Erro et al. | Weighted frequency warping for voice conversion. | |
| US7251601B2 (en) | Speech synthesis method and speech synthesizer | |
| JP3450237B2 (ja) | 音声合成装置および方法 | |
| US20090326951A1 (en) | Speech synthesizing apparatus and method thereof | |
| JP2018077283A (ja) | 音声合成方法 | |
| JP2904279B2 (ja) | 音声合成方法および装置 | |
| JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
| CN100508025C (zh) | 合成语音的方法和设备及分析语音的方法和设备 | |
| JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
| JP2002244693A (ja) | 音声合成装置および音声合成方法 | |
| JP2008299266A (ja) | 音声合成装置および音声合成方法 | |
| JP2003330482A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
| JPH11224096A (ja) | 音声合成方法及び音声合成装置 | |
| JPH0836397A (ja) | 音声合成装置 | |
| JP3967571B2 (ja) | 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム | |
| Bonada et al. | Improvements to a sample-concatenation based singing voice synthesizer | |
| Lavner et al. | Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions | |
| Min et al. | A hybrid approach to synthesize high quality Cantonese speech |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050309 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050912 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051011 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051013 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081021 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091021 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101021 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |