JP4153220B2

JP4153220B2 - 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム

Info

Publication number: JP4153220B2
Application number: JP2002054487A
Authority: JP
Inventors: 秀紀剱持; 靖雄吉岡; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2002-02-28
Filing date: 2002-02-28
Publication date: 2008-09-24
Anticipated expiration: 2022-02-28
Also published as: US7135636B2; US20030159568A1; JP2003255974A

Description

【０００１】
【発明の属する技術分野】
この発明は、人間の歌唱音声を合成する歌唱合成装置、歌唱合成方法及び歌唱合成用プログラムに関する。
【０００２】
【関連技術】
従来の歌唱合成装置においては、人間の実際の歌声から取得したデータをデータベースとして保存しておき、入力された演奏データ（音符、歌詞、表情等）の内容に合致したデータをデータベースより選択する。そして、この演奏データを選択されたデータに基づいてデータ変換することにより、本物の人の歌声に近い歌唱音声を合成している。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の歌唱合成装置においては、例えば「ｓａｉｔａ（咲いた）」と歌わせる場合であっても、音韻と音韻の間で音韻が自然に移り変わっていかず、合成される歌唱音声が不自然な音響をもち、場合によっては何を歌っているのか判別できないようなこともあった。
【０００４】
本発明は、この問題を解決することを目的とし、次のような点に着目してなされたものである。
すなわち、歌唱音声においては、例えば「ｓａｉｔａ（咲いた）」と歌う場合であっても、個々の音韻（「ｓａ」「ｉ」「ｔａ」）が区切って発音されるのではなく、「[＃ｓ]ｓａ（ａ）・[ａｉ]・ｉ・（ｉ）・[ｉｔ]・ｔａ・（ａ）」（＃は無音を表わす）のように、各音韻間に伸ばし音部分と遷移部分が挿入されて発音がなされるのが通常である。この「ｓａｉｔａ」の例の場合、[＃ｓ] [ａｉ]、[ｉｔ]が遷移部分であり、（ａ）（ｉ）（ａ）が伸ばし音部分である。このように、歌唱音は遷移部分や伸ばし音部分から成り立っている。このため、ＭＩＤＩ情報などの演奏データから歌唱音声を合成する場合においても、遷移部分や伸ばし音部分をいかに本物らしく生成するかが重要である。
そこで、本発明者らは、この遷移部分を自然に再現することが自然な合成歌唱を出力するために必要であると考え、本発明をするに至ったものである。
【０００５】
【課題を解決するための手段】
本出願の第１の発明に係る歌唱合成装置は、歌唱を合成するための歌唱情報を記憶する記憶部と、歌唱データを、１つの音素から別の音素に移行する音素連鎖を含む遷移部分と、１つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶する音韻データベースと、前記歌唱情報に基づき、前記音韻データベースに記憶されたデータを選択する選択部と、前記選択部で選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ出力部と、前記選択部で選択された前記定常部分データに係る伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この２つの音素連鎖データの調和成分から抽出した特徴パラメータを補間して取得した補間値に前記定常部分データの調和成分から抽出した特徴パラメータの変動成分を加算することにより前記伸ばし音部分の特徴パラメータを生成して出力する伸ばし音部分特徴パラメータ出力部とを備えたことを特徴とする。
【０００６】
第１の発明に係る歌唱合成装置において、音韻データベース内の音素連鎖データは、音素連鎖に係る特徴パラメータ及び非調和成分を含んでおり、遷移部分特徴パラメータ出力部は非調和成分を分離するように構成することができる。同様に、音韻データベース内の定常部分データは、定常部分に係る特徴パラメータ及び非調和成分を含んでおり、伸ばし音部分特徴パラメータ出力部は非調和成分を分離するように構成することができる。また、特徴パラメータ及び非調和成分は音声をＳＭＳ分析して得られた結果としてもよい。
【０００７】
また、第１の発明に係る歌唱合成装置において、歌唱情報はダイナミクス情報を含み、このダイナミクス情報に基づき遷移部分の特徴パラメータ及び伸ばし音部分の特徴パラメータを補正する特徴パラメータ補正手段を備えるよう構成することができる。更に、歌唱情報がピッチ情報を含み、特徴パラメータ補正手段は、ダイナミクスに相当する振幅値を計算する第１振幅計算手段と、遷移部分の特徴パラメータ又は伸ばし音部分の特徴パラメータ、及びピッチ情報に基づき生成した倍音列に相当する振幅値を計算する第２振幅計算手段とを備え、第１振幅計算手段の出力と第2振幅計算手段の出力との差に基づき計算した振幅値の補正量により特徴パラメータを補正するように構成することができる。ここで、第１振幅計算手段は、ダイナミクスと振幅値とを関連付けて記憶するテーブルを備えているように構成することができる。また、テーブルは、ダイナミクスと振幅値との対応関係を音素毎に異ならせているように構成することができる。若しくは、テーブルは、ダイナミクスと振幅値との対応関係を周波数毎に異ならせているように構成することができる。
【０００８】
更に、第１の発明に係る歌唱合成装置において、音韻データベースは、音素連鎖データと定常部分データをそれぞれピッチに対応させて記憶しており、選択部は、入力されるピッチ情報に基づき対応する音素連鎖データと定常部分データを選択するように構成することができる。また、第１の発明に係る歌唱合成装置において、音韻データベースは、音素連鎖データと定常部分データに加えて表情データを記憶しており、選択部は、入力される歌唱情報中の表情情報に基づき表情データを選択するように構成することができる。
【０００９】
本出願の第２の発明に係る歌唱合成方法は、歌唱データを、１つの音素から別の音素に移行する音素連鎖を含む遷移部分と、１つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶するステップと、歌唱を合成するための歌唱情報を入力する入力ステップと、前記歌唱情報に基づき、前記音素連鎖データ又は前記定常部分データを選択する選択ステップと、前記選択ステップで選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ出力ステップと、前記選択ステップで選択された前記定常部分データに係る伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この２つの音素連鎖データの調和成分から抽出した特徴パラメータを補間して取得した補間値に前記定常部分データの調和成分から抽出した特徴パラメータの変動成分を加算することにより前記伸ばし音部分の特徴パラメータを生成する伸ばし音部分特徴パラメータ出力ステップとを備えたことを特徴とする。
【００１０】
第２の発明に係る歌唱合成方法において、歌唱情報はダイナミクス情報を含み、このダイナミクス情報に基づき遷移部分の特徴パラメータ及び伸ばし音部分の特徴パラメータを補正する特徴パラメータ補正ステップを更に備えるように構成することができる。また、記憶ステップは、音素連鎖データと定常部分データをそれぞれピッチに対応させて記憶しており、選択ステップは、入力されるピッチ情報に基づき対応する音素連鎖データと定常部分データとを選択するように構成することができる。
【００１１】
なお、この第２の発明に係る歌唱合成方法は、コンピュータプログラムによりコンピュータにより実行させるようにしてもよい。
【００１２】
（本発明の原理説明）
本発明の原理を、図７及び図８を用い、本出願人が先に出願した歌唱合成装置（特願2001-67258号）との対比することにより説明する。
特願2001-67258号に記載の歌唱合成装置による歌唱合成装置の原理を、図７に示している。この歌唱合成装置は、データベースとして、ある時刻１点における音韻の特徴パラメータのデータ（Timbreテンプレート）を記憶させたTimbreテンプレートデータベース５１と、伸ばし音中の特徴パラメータの微小な変化（ゆらぎ）のデータ（定常部分（stationary）テンプレート）を記憶させた定常部分テンプレートデータベース５３と、音韻から音韻への遷移部分の特徴パラメータの変化を示すデータ（音素連鎖（articulation）テンプレート）を記憶させた音素連鎖テンプレートデータベース５２とを備えている。
これらのテンプレートを次のようにして適用することにより、特徴パラメータを生成している。
【００１３】
すなわち、伸ばし音部分の合成は、Timbreテンプレートから得られた特徴パラメータに、定常部分テンプレートに含まれる変動分を加算することにより行う。
一方、遷移部分の合成は、同様に特徴パラメータに音素連鎖テンプレートに含まれる変動分を加算することにより行うが、加算対象となる特徴パラメータは、場合によって異なる。例えば当該遷移部分の前後の音韻がいずれも有声音である場合には、前部の音韻の特徴パラメータと、後部の音韻の特徴パラメータを直線補間したものに、音素連鎖テンプレートに含まれる変動分を加算する。また、前部の音韻が有声音で後部の音韻が無音の場合には、前部の音韻の特徴パラメータに、音素連鎖テンプレートに含まれる変動分を加算する。また、前部の音韻が無音で後部の音韻が有声音の場合には、後部の音韻の特徴パラメータに、音素連鎖テンプレートに含まれる変動分を加算する。このように、特願2001-67258号に開示の装置では、Timbreテンプレートから生成された特徴パラメータを基準とし、このTimbre部分の特徴パラメータに合うように音素連鎖部分の特徴パラメータに変更を加えることにより歌唱合成を行っていた。
【００１４】
特願2001-67258号に開示の装置では、合成される歌唱音声に不自然さが生じることがあった。その原因としては次のことが挙げられる。
・音素連鎖テンプレートに変更を加えているため、元来その遷移部分が持つ特徴パラメータの変化と異なってしまうこと。
・伸ばし音部分の特徴パラメータも、をTimbreテンプレートから生成された特徴パラメータを基準とし、このTimbreテンプレートの特徴パラメータに定常部分テンプレートの変動分を加算して計算しているため、伸ばし音部分の前の音韻がどのような音韻であっても同じ音韻となってしまっていたこと。
要するに、この特願2001−67258の装置では、Timbreテンプレートの特徴パラメータという、歌唱全体からすると一部分にしか過ぎない部分を基準に伸ばし音部分や遷移部分の特徴パラメータを合わせ込んでいたことから、合成された歌唱が不自然になることがあった。
【００１５】
これに対し、本発明では、図８に示すように、音素連鎖テンプレートデータベース５２と定常部分テンプレートデータベース５３のみを利用し、Timbreテンプレートは基本的には不要である。
そして、演奏データを、遷移部分と伸ばし音部分とに区切った後、音素連鎖テンプレートは遷移部分においてそのまま用いる。このため、歌唱の重要な部分を占める遷移部分の歌唱が自然に聞こえ、合成歌唱の品質が高まっている。
また、伸ばし音部分についても、その伸ばし音部分の両隣に位置する遷移部分の特徴パラメータを直線補間すると共に、補間された特徴パラメータ列に定常部分テンプレートに含まれる変動成分を加算することにより特徴パラメータを生成する。テンプレートに変換を加えないそのままのデータに基づき補間を行うため、歌唱の不自然さは生じない。
【００１６】
【発明の実施の形態】
〔第１の実施の形態〕
図１は、第１の実施の形態に係る歌唱合成装置の構成を示す機能ブロック図である。歌唱合成装置は、例えば一般のパーソナルコンピュータにより実現することができ、図１に示す各ブロックの機能は、パーソナルコンピュータ内部のＣＰＵやＲＡＭ、ＲＯＭなどにより達成され得る。ＤＳＰやロジック回路によって構成することも可能である。音韻データベース１０は、演奏データに基づいて合成音を合成するためのデータを保持している。この音韻データベース１０の作成例を図２により説明する。
【００１７】
まず図２（ａ）に示すように、実際に録音或いは取得した歌唱データ等の音声信号をＳＭＳ（spectral modeling synthesis）分析手段３１により、調和成分（正弦波成分）と非調和成分に分離する。ＳＭＳ分析の代わりに、ＬＰＣ（Linear Predictive Coding）等の他の分析手法を用いてもよい。
次に、音素切り分け手段３２により、音素切り分け情報に基づき、音声信号を音素ごとに切り分ける。音素切り分け情報は、例えば人間が音声信号の波形を見ながら所定のスイッチ動作を行うことにより与えるのが通常である。
【００１８】
そして、音素ごとに切り分けられた音声信号の調和成分から、特徴パラメータ抽出手段３３により特徴パラメータが抽出される。特徴パラメータには、励起波形エンベロープ、励起レゾナンス、フォルマント周波数、フォルマントバンド幅、フォルマント強度、差分スペクトルなどがある。
【００１９】
励起波形エンベロープ（ExcitationCurve）は、声帯波形の大きさ（dB）を表わすEgain、声帯波形のスペクトルエンベロープの傾きを表わすEslopeDepth、声帯波形のスペクトルエンベロープの最大値から最小値への深さ（dB）を表わすEslopeの３つのパラメータによって構成されており、以下の式[数１]で表わすことが出来る。
【００２０】
【数１】
Excitation Curve (ｆ)=Egain+EslopeDepth*(exp(-Eslope*f)-1)
【００２１】
励起レゾナンスは、胸部による共鳴を表わす。中心周波数（ERFreq）、バンド幅（ERBW）、アンプリチュード（ERAmp）の３つのパラメータにより構成され、２次フィルター特性を有している。
【００２２】
フォルマントは、１から１２個のレゾナンスを組み合わせることにより声道による共鳴を表わす。中心周波数（FormantFreqi、ｉは１〜１２の整数）、バンド幅（FormantBWi、ｉは１〜１２の整数）、アンプリチュード（FormantAmpi、ｉは１〜１２の整数）の３つのパラメータにより構成される。
【００２３】
差分スペクトルは、上記の励起波形エンベロープ、励起レゾナンス、フォルマントの３つで表現することの出来ない元の調和成分との差分のスペクトルを持つ特徴パラメータである。
【００２４】
この特徴パラメータを、音韻名と対応させて音韻データベース１０に記憶させる。非調和成分も、同様にして音韻名対応させて音韻データベース１０に記憶させる。この音韻データベース１０では、図２（ｂ）に示すように、音素連鎖データと定常部分データとに分けて記憶される。以下では、この音素連鎖データと定常部分データとを総称して「音声素片データ」と称する。
【００２５】
音素連鎖データは、先頭音素名、後続音素名、特徴パラメータ及び非調和成分を対応付けたデータ列である。
一方、定常部分データは、１つの音韻名と特徴パラメータ列と非調和成分とを対応付けたデータ列である。
【００２６】
図１に戻って、１１は演奏データを保持するための演奏データ保持部である。演奏データは、例えば音符、歌詞、ピッチベンド、ダイナミクス等の情報を含んだＭＩＤＩ情報である。
音声素片選択部１２は、演奏データ保持部１１に保持される演奏データの入力をフレーム単位で受け付けるとともに（以下、この１単位をフレームデータという）、入力されたフレームデータ中の歌詞データに対応する音声素片データを音韻データベース１０から選択して読み出す機能を有する。
【００２７】
先行音素連鎖データ保持部１３、後方音素連鎖データ保持部１４は、定常部分データを処理するために使用されるものである。先行音素連鎖データ保持部１３は、処理すべき定常部分データより先行する音素連鎖データを保持するものであり、一方、後方音素連鎖データ保持部１４は、処理すべき定常部分データより後方の音素連鎖データを保持するものである。
【００２８】
特徴パラメータ補間部１５は、先行音素連鎖データ保持部１３に保持された音素連鎖データの最終フレームの特徴パラメータと、後方音素連鎖データ保持部１４に保持された音素連鎖データの最初のフレームの特徴パラメータとを読出し、タイマ２７の示す時刻に対応するように特徴パラメータを時間的に補間する。
【００２９】
定常部分データ保持部１６は、音声素片選択部１２により読み出された音声素片データのうち、定常部分データを一時保持する。一方、音素連鎖データ保持部１７は、音素連鎖データを一時保持する。
【００３０】
特徴パラメータ変動抽出部１８は、定常部分データ保持部１６に保持された定常部分データを読み出してその特徴パラメータの変動（ゆらぎ）を抽出し、変動成分として出力する機能を有する。
加算部Ｋ１は、特徴パラメータ補間部１５の出力と特徴パラメータ変動抽出部１８の出力を加算して、伸ばし音部分の調和成分データを出力する部分である。
フレーム読出し部１９は、音素連鎖データ保持部１７に保持された音素連鎖データを、タイマ２７に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する部分である。
【００３１】
ピッチ決定部２０は、フレームデータ中の音符データに基づき、最終的に合成する合成音のピッチを決定する部分である。また特徴パラメータ補正部２１は、加算器Ｋ１から出力された伸ばし音部分の特徴パラメータ、及びフレーム読出し部１９から出力された遷移部分の特徴パラメータを、演奏データ中に含まれるダイナミクス情報等に基づいて補正する部分である。特徴パラメータ補正部２１の前段にはスイッチＳＷ１が設けられ、伸ばし音部分の特徴パラメータと遷移部分の特徴パラメータとを選択的に特徴パラメータ補正部に入力するようになっている。この特徴パラメータ補正部２１での詳しい処理内容は後述する。スイッチＳＷ２は、定常部分データ保持部１６から読み出された伸ばし音部分の非調和成分と、フレーム読出し部１９から読み出された遷移部分の非調和成分を切り替えて出力する。
【００３２】
倍音列生成部２２は、決定したピッチに従い、フォルマント合成を行うための倍音列を周波数軸上に生成する部分である。
スペクトル包絡生成部２３は、特徴パラメータ補正部２１で補正された補正後の特徴パラメータに従って、スペクトル包絡を生成する部分である。
【００３３】
倍音振幅・位相計算部２４は、スペクトル包絡生成部２３で生成したスペクトル包絡に従い、倍音列生成部２２で生成された各倍音の振幅及び位相を計算する部分である。
加算器Ｋ２は、倍音振幅・位相計算部２４の出力としての調和成分と、スイッチＳＷ２から出力された非調和成分とを加算する。
逆ＦＦＴ部２５は、加算器Ｋ２の出力値を逆高速フーリエ変換して、周波数表現であった信号を時間軸表現の信号に変換するものである。
重ね合せ部２６は、時系列順に処理される歌詞データについて次々に得られる信号をその時系列に沿った形で重ね合わせることにより、合成歌唱音声を出力するものである。
【００３４】
特徴パラメータ補正部２１の詳細について図３に基づいて説明する。特徴パラメータ補正部２１は、振幅決定手段４１を備えている。この振幅決定手段４１は、ダイナミクス−振幅変換テーブルＴｄａを参照して演奏データ保持部１１から入力されるダイナミクス情報に相当する所望の振幅値Ａ１を出力する。
また、スペクトル包絡生成手段４２は、スイッチＳＷ1から出力された特徴パラメータに基づき、スペクトル包絡を生成する部分である。
【００３５】
倍音列生成手段４３は、ピッチ決定部２０で決定されたピッチに基づいて倍音列を生成する。振幅計算手段４４は、生成されたスペクトル包絡及び倍音に対応する振幅Ａ２を計算する。振幅の計算は、例えば逆ＦＦＴ等により実行することができる。
加算器Ｋ３は、振幅決定手段４１で決定された所望の振幅値Ａ１と、振幅計算手段４４で計算された振幅値Ａ２との差を出力する。ゲイン補正手段４５は、この差に基づき、振幅値の補正量を計算するとともに、このゲイン補正量に従って特徴パラメータを補正する。これにより、所望の振幅に合致する新たな特徴パラメータが得られる。
なお、図３では、テーブルＴｄａに基づき、ダイナミクスのみに基づいて振幅を決定しているが、これに加えて、音素の種類も考慮して振幅を決定するようなテーブルを採用してもよい。すなわち、同じダイナミクスであっても音素が異なる場合には、異なる振幅値を与えるようなテーブルを採用してもよい。同様に、ダイナミクスに加えて周波数を考慮して振幅を決定するようなテーブルを採用してもよい。
【００３６】
次に、この第１の実施の形態に係る歌唱合成装置の作用を、図４に示すフローチャートを参照しつつ説明する。
演奏データ保持部１１は、時系列順にフレームデータを出力する。遷移部分と伸ばし音部分とが交互に現れ、遷移部分と伸ばし音部分とでは処理のされ方が異なる。
【００３７】
演奏データ保持部１１よりフレームデータが入力されると（Ｓ1）、音声素片選択部１２において、そのフレームデータが伸ばし音部分に関するものか、音韻遷移部分に関するものかが判断される（Ｓ2）。伸ばし音部分である場合には（ＹＥＳ）、先行音素連鎖データ保持部１３、後方音素連鎖データ保持部１４、定常部分データ保持部１６に、それぞれ先行音素連鎖データ、後方音素連鎖データ、定常部分データが転送される（Ｓ3）。
【００３８】
続いて、特徴パラメータ補間部１５が、先行音素連鎖データ保持部１３に保持された先行音素連鎖データの最終フレームの特徴パラメータを取り出すと共に、後方音素連鎖データ保持部１４に保持された後方音素連鎖データの最初のフレームの特徴パラメータを取り出し、この２つの特徴パラメータを直線補間することにより、処理中の伸ばし音部分の特徴パラメータを生成する（Ｓ４）。
【００３９】
また、定常部分データ保持部１６に保持された定常部分データの特徴パラメータが、特徴パラメータ変動抽出部１８に供給され、該定常部分の特徴パラメータの変動成分が抽出される（Ｓ５）。この変動成分が、加算器Ｋ１において特徴パラメータ補間部１５から出力された特徴パラメータと加算される（Ｓ６）。この加算値が伸ばし音部分の特徴パラメータとしてスイッチＳＷ１を介して特徴パラメータ補正部２１に出力され、特徴パラメータの補正が実行される（Ｓ９）。一方、定常部分データ保持部１６に保持された定常部分データの非調和成分は、スイッチＳＷ２を介して加算器Ｋ２に供給される。
スペクトル包絡生成部２３は、この補正後の特徴パラメータについてのスペクトル包絡を生成する。倍音振幅・位相計算部２４は、スペクトル包絡生成部２３で生成したスペクトル包絡に従い、倍音列生成部２２で生成された各倍音の振幅及び位相を計算する。この計算結果が、処理中の伸ばし音部のパラメータ列（調和成分）として加算器Ｋ2に出力される。
【００４０】
一方、Ｓ２において、取得されたフレームデータが遷移部分のものである（ＮＯ）と判定された場合には、その遷移部分の音素連鎖データが、音素連鎖データ保持部１７により保持される（Ｓ７）。
次に、フレーム読出し部１９が、音素連鎖データ保持部１７に保持された音素連鎖データを、タイマ２７に示す時刻に従ってフレームデータとして読出し、特徴パラメータと非調和成分とに分けて出力する。特徴パラメータの方は特徴パラメータ補正部２１に向けて出力され、非調和成分は加算器Ｋ2に向けて出力される。この遷移部の特徴パラメータは、特徴パラメータ補正部２１、スペクトル包絡生成部２３、倍音振幅・位相計算部２４等で上述の伸ばし音の特徴パラメータと同様の処理を受ける。
【００４１】
なお、スイッチＳＷ１、ＳＷ２は、処理中のデータの種類によって切り替わるようになっているので、スイッチＳＷ１については、伸ばし音部分を処理している間は、加算器Ｋ１の方に特徴パラメータ補正部２１を接続するようにされ、遷移部分を処理している間は、フレーム読出し部１９の方に特徴パラメータ補正部２１を接続するようにされている。また、スイッチＳＷ２については、伸ばし音部分を処理している間は、定常部分データ保持部１６の方に加算器Ｋ２を接続するようにされ、遷移部分を処理している間は、フレーム読出し部１９の方に加算器Ｋ２を接続するようにされている。
こうして遷移部分、伸ばし音部分の特徴パラメータ及び非調和成分が演算されると、その加算値が逆ＦＦＴ部２５で処理され、重ね合せ手段２６により重ね合わせられ、最終的な合成波形が出力される（Ｓ１０）。
【００４２】
〔第２の実施の形態〕
本発明の第２の実施の形態に係る歌唱合成装置を、図５に基づいて説明する。図５は、第２の実施の形態に係る歌唱合成装置の機能ブロック図である。第１の実施の形態と共通する部分については同一の符号を付してその説明は省略する。第１の実施の形態との相違点のひとつは、音韻データベースに記憶されている音素連鎖データ及び定常部分データが、ピッチ（音高）の異なる毎に異なる特徴パラメータ及び非調和成分を割り当てられている、という点である。
また、ピッチ決定部２０は、演奏データ中の音符情報に基づいてピッチを決定し、その結果を音声素片選択部に出力するようにされている。
【００４３】
この第２の実施の形態の作用を説明すると、演奏データ保持部１１からの音符情報に基づいて、ピッチ決定部２０が処理中のフレームデータのピッチを決定し、その結果を音声素片選択部１２へ出力する。
音声素片選択部１２は、この決定されたピッチ及び歌詞情報中の音韻情報に最も近い音素連鎖データ及び定常部分データを読出す。後の処理は第１の実施の形態と同様である。
【００４４】
〔第３の実施の形態〕
本発明の第３の実施の形態に係る歌唱合成装置を、図６に基づいて説明する。図６は、第３の実施の形態に係る歌唱合成装置の機能ブロック図である。第１の実施の形態と共通する部分については同一の符号を付してその説明は省略する。第１の実施の形態との相違点の１つは、音韻データベース１０に加えて、ビブラート情報等を記憶した表情データベース３０と、演奏データ中の表情情報に基づき、この表情データベースから適当なビブラートテンプレートを選択する表情テンプレート選択部３０Ａを備えている点である。
また、ピッチ決定部２０は、演奏データ中の音符情報、及び表情テンプレート選択部３０Ａからのビブラートデータに基づいてピッチを決定するようにされている。
【００４５】
この第３の実施の形態の作用を説明すると、演奏データ保持部１１からの歌詞情報に基づいて、音声素片選択部１２で音素連鎖データ、定常部分データが音韻データベース１０から読み出される点は第１の実施の形態と同様であり、以降の処理も第１の実施の形態と同様である。
一方、演奏データ保持部１１からの表情情報に基づいて、表情テンプレート選択部３０Ａが、最も適合するビブラートデータを表情データベース３０より読み出す。この読み出されたビブラートデータ、及び演奏データ中の音符情報に基づき、ピッチ決定部２０によりピッチが決定される。
【００４６】
以上実施例に沿って本発明を説明したが、本発明はこれら実施例に制限されるものではなく、種々の変更、改良、組合せ等が可能であることは当業者にとって自明である。
【００４７】
【発明の効果】
以上説明したように、本発明によれば、遷移部分の合成歌唱音声の自然性が高く保たれ、これにより、合成歌唱音声の自然性を高めることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態に係る歌唱合成装置の機能ブロック図である。
【図２】図１に示す音韻データベース１０の作成例を示す。
【図３】図１に示す特徴パラメータ補正部２１の詳細を示す。
【図４】第１の実施の形態に係る歌唱合成装置におけるデータ処理の手順を示すフローチャートである。
【図５】本発明の第２の実施の形態に係る歌唱合成装置の機能ブロック図である。
【図６】本発明の第３の実施の形態に係る歌唱合成装置の機能ブロック図である。
【図７】特願2001-67258号に記載の歌唱合成装置の原理を示す。
【図８】本発明に係る歌唱合成装置の原理を示す。
【符号の説明】
１０…音韻データベース、１１…演奏データ保持部、１２…音声素片選択部、１３…先行音素連鎖データ保持部、１４…後方音素連鎖データ保持部、１５…特徴パラメータ補間部、１６…定常部分データ保持部、１７…音素連鎖データ保持部、１８…特徴パラメータ変動抽出部、１９…フレーム読出し部、Ｋ１、Ｋ２…加算器、２０…ピッチ決定部、２１…特徴パラメータ補正部、２２…倍音列生成部、２３…スペクトル包絡生成部、２４…倍音振幅・位相計算部、２５…逆ＦＦＴ部、２６…重ね合せ部、２７…タイマ、３１…ＳＭＳ分析手段、３２…音素切り分け手段、３３…特徴パラメータ抽出手段、４１…振幅決定手段、４３…倍音列生成手段、４４…振幅計算手段、Ｋ３…加算器、４５…ゲイン補正部、３０…表情データベース、３０Ａ…表情テンプレート選択部、５１…Timbreデータベース、５２…音素連鎖テンプレートデータベース、５３…定常部分テンプレートデータベース

Claims

歌唱を合成するための歌唱情報を記憶する記憶部と、
歌唱データを、１つの音素から別の音素に移行する音素連鎖を含む遷移部分と、１つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶する音韻データベースと、
前記歌唱情報に基づき、前記音韻データベースに記憶されたデータを選択する選択部と、
前記選択部で選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ出力部と、
前記選択部で選択された前記定常部分データに係る伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この２つの音素連鎖データの調和成分から抽出した特徴パラメータを補間して取得した補間値に前記定常部分データの調和成分から抽出した特徴パラメータの変動成分を加算することにより前記伸ばし音部分の特徴パラメータを生成して出力する伸ばし音部分特徴パラメータ出力部とを備えたことを特徴とする歌唱合成装置。
前記音韻データベース内の音素連鎖データは、前記音素連鎖に係る特徴パラメータ及び非調和成分を含んでおり、前記遷移部分特徴パラメータ出力部は前記非調和成分を分離するように構成された請求項１記載の歌唱合成装置。
前記音韻データベース内の定常部分データは、前記定常部分に係る特徴パラメータ及び非調和成分を含んでおり、前記伸ばし音部分特徴パラメータ出力部は前記非調和成分を分離するように構成された請求項１記載の歌唱合成装置。
前記特徴パラメータ及び非調和成分は音声をＳＭＳ分析して得られた結果である請求項２又は３に記載の歌唱合成装置。
前記歌唱情報はダイナミクス情報を含み、このダイナミクス情報に基づき前記遷移部分の特徴パラメータ及び前記伸ばし音部分の特徴パラメータを補正する特徴パラメータ補正手段を備えた請求項１記載の歌唱合成装置。
前記歌唱情報がピッチ情報を含み、前記特徴パラメータ補正手段は、前記ダイナミクスに相当する振幅値を計算する第１振幅計算手段と、前記遷移部分の特徴パラメータ又は前記伸ばし音部分の特徴パラメータ、及び前記ピッチ情報に基づき生成した倍音列に相当する振幅値を計算する第２振幅計算手段とを備え、前記第１振幅計算手段の出力と前記第２振幅計算手段の出力との差に基づき計算した振幅値の補正量により前記特徴パラメータを補正する請求項５記載の歌唱合成装置。
前記第１振幅計算手段は、前記ダイナミクスと前記振幅値とを関連付けて記憶するテーブルを備えている請求項６記載の歌唱合成装置。
前記テーブルは、前記ダイナミクスと前記振幅値との対応関係を音素毎に異ならせている請求項７に記載の歌唱合成装置。
前記テーブルは、前記ダイナミクスと前記振幅値との対応関係を周波数毎に異ならせている請求項７に記載の歌唱合成装置。
前記音韻データベースは、音素連鎖データと前記定常部分データをそれぞれピッチに対応させて記憶しており、前記選択部は、入力されるピッチ情報に基づき対応する前記音素連鎖データと前記定常部分データを選択する請求項１記載の歌唱合成装置。
前記音韻データベースは、前記音素連鎖データと前記定常部分データに加えて表情データを記憶しており、前記選択部は、入力される前記歌唱情報中の前記表情情報に基づき前記表情データを選択する請求項１０記載の歌唱合成装置。
歌唱データを、１つの音素から別の音素に移行する音素連鎖を含む遷移部分と、１つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶するステップと、
歌唱を合成するための歌唱情報を入力する入力ステップと、
前記歌唱情報に基づき、前記音素連鎖データ又は前記定常部分データを選択する選択ステップと、
前記選択ステップで選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ出力ステップと、
前記選択ステップで選択された前記定常部分データに係る伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この２つの音素連鎖データの調和成分から抽出した特徴パラメータを補間して取得した補間値に前記定常部分データの調和成分から抽出した特徴パラメータの変動成分を加算することにより前記伸ばし音部分の特徴パラメータを生成する伸ばし音部分特徴パラメータ出力ステップとを備えた歌唱合成方法。
前記歌唱情報はダイナミクス情報を含み、このダイナミクス情報に基づき前記遷移部分の特徴パラメータ及び前記伸ばし音部分の特徴パラメータを補正する特徴パラメータ補正ステップを更に備えた請求項１２記載の歌唱合成方法。
前記記憶ステップは、前記音素連鎖データと前記定常部分データをそれぞれピッチに対応させて記憶しており、前記選択ステップは、入力されるピッチ情報に基づき対応する前記音素連鎖データと前記定常部分データとを選択する請求項１３記載の歌唱合成方法。
歌唱データを、１つの音素から別の音素に移行する音素連鎖を含む遷移部分と、１つの音素が安定的に発音される定常部分を含んだ伸ばし音部分とで区別して、この遷移部分の音素連鎖データと伸ばし音部分の定常部分データとを記憶するステップと、
少なくとも音符情報と歌詞情報とを含む歌唱情報を入力する入力ステップと、
前記歌唱情報に基づき、前記音素連鎖データ又は前記定常部分データを選択する選択ステップと、
前記選択ステップで選択された前記音素連鎖データから前記遷移部分の特徴パラメータを抽出して出力する遷移部分特徴パラメータ生成ステップと、
前記選択ステップで選択された前記定常部分データに係る前記伸ばし音部分に先行する前記遷移部分の前記音素連鎖データと、その伸ばし音部分に続く前記遷移部分の前記音素連鎖データとを取得し、この２つの音素連鎖データの調和成分から抽出した特徴パラメータを補間して取得した補間値に前記定常部分データの調和成分から抽出した特徴パラメータの変動成分を加算することにより前記伸ばし音部分の特徴パラメータを生成する伸ばし音部分特徴パラメータ生成ステップとをコンピュータに実行させるように構成された歌唱合成用プログラム。
前記歌唱情報はダイナミクス情報を含み、このダイナミクス情報に基づき前記遷移部分の特徴パラメータ及び前記伸ばし音部分の特徴パラメータを補正する特徴パラメータ補正ステップを更に備えた請求項１５記載の歌唱合成用プログラム。
前記記憶ステップは、前記音素連鎖データと前記定常部分データとをそれぞれピッチに対応させて記憶しており、前記選択ステップは、入力されるピッチ情報に基づき対応する前記音素連鎖データと前記定常部分データを選択する請求項１５記載の歌唱合成用プログラム。