WO2013011634A1

WO2013011634A1 - 波形処理装置、波形処理方法および波形処理プログラム

Info

Publication number: WO2013011634A1
Application number: PCT/JP2012/004128
Authority: WO
Inventors: 正徳加藤; 玲史近藤; 康行三井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-07-19
Filing date: 2012-06-26
Publication date: 2013-01-24
Anticipated expiration: 2014-01-19
Also published as: US20140136192A1; JP5862667B2; JPWO2013011634A1; US9443538B2

Abstract

　自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させる波形処理装置を提供する。パワー計算手段７１は、素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算する。正規化度計算手段７２は、パワー計算手段７１によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算する。変更係数計算手段７３は、パワー計算手段７１によって選択されたピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算する。振幅変更手段７４は、パワー計算手段７１によって選択されたピッチ波形の各サンプリング点における振幅値に変更係数を乗じる。

Description

波形処理装置、波形処理方法および波形処理プログラム

　本発明は、波形処理装置、波形処理方法および波形処理プログラムに関し、特に、波形のパワーを変化させる波形処理装置、波形処理方法および波形処理プログラムに関する。

　音声の波形は、横軸を時間とし、縦軸を振幅とする波形で表される。

　音声合成では、予め収録した話者の音声から、素片毎に音声の波形を用意しておく。そして、出力しようとする音声に応じた素片の波形を連結することで、合成音声を得る。

　各素片の音声の波形は、ピッチ周期で切り出される。この切り出された波形をピッチ波形と呼ぶ。１つの素片の波形から、ピッチ周期でピッチ波形が切り出されるので、素片毎に複数のピッチ波形が生成されることになる。なお、ピッチ周期は、ピッチ周波数（基本周波数）の逆数である。

　合成音声のパワーの不均一を解消する方法として、収録された音声あるいは合成音声に対してコンプレッサ処理を行う方法が考えられる。図１１は、音声の波形に対するコンプレッサ処理の例を示す模式図である。コンプレッサ処理前の音声の波形９１のパワー包絡は、パワー包絡９２のように模式的に表すことができる。コンプレッサ処理を行うことにより、音声の波形のパワー包絡は、パワー包絡９３のようになる。

　また、特許文献１には音声合成装置が記載されている。特許文献１に記載された音声合成装置は、以下に示すような波形の正規化処理を行う。すなわち、特許文献１に記載された音声合成装置は、１ピッチ波形を取り出す。この波形をＸ［ｉ］（ｉ＝１，・・・，Ｎ）としたとき、平均振幅Ｐ_Ｘは、以下に示す式（１）のように表される。

　そして、特許文献１に記載された音声合成装置は、Ａを所定の値として、以下に示す式（２）計算を行うことによって、正規化した波形情報Ｓ［ｉ］を得る。

　Ｓ［ｉ］＝Ｘ［ｉ］×Ａ／Ｐ_Ｘ　　　　　式（２）

特開２００８－１５３６１号公報（段落００７５－００７９）

　素片毎の音声の波形を得るために収録される音声のパワーは、音声収録条件や話者の癖等の影響で様々に変化する。このような収録音声から生成された波形を用いて合成音声を生成すると、横軸（時間軸）において、ある箇所でパワーが特に大きくなるといったパワーの不均一が生じる。その結果、聞き取りにくい合成音声が生成されてしまう。

　前述のように、合成音声のパワーの不均一を解消する方法として、コンプレッサ処理が考えられる。しかし、コンプレッサ処理では、振幅値が閾値より低い部分の波形は変化させず、振幅値が閾値以上の部分に関して振幅値を一定にするように波形を変化させる。換言すれば、波形において、振幅値が閾値以上の部分を平坦にするように波形を変化させる。そのため、コンプレッサ処理では音声波形に歪みが生じ、音質が低下するという問題があった。

　特許文献１に記載された正規化処理では、ｉ＝１，・・・，Ｎとして、式（２）の計算を行うことにより、波形のパワーを変化させる。従って、波形の歪みは生じない。

　しかし、１つの素片に対して予め生成された複数のピッチ波形に対して、特許文献１に記載された正規化処理を行うと、各ピッチ波形の最大振幅が揃うことになる。自然な合成音声を得るためには、振幅の小さいピッチ波形については、他のピッチ波形よりも相対的に振幅が小さいという状態を維持することが好ましい。

　そこで、本発明は、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させる波形処理装置、波形処理方法および波形処理プログラムを提供することを目的とする。

　本発明による波形処理装置は、素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算する変更係数計算手段と、パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に変更係数を乗じる振幅変更手段とを備えることを特徴とする。

　また、本発明による波形処理方法は、素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算し、選択したピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算し、選択したピッチ波形の各サンプリング点における振幅値に変更係数を乗じることを特徴とする。

　また、本発明による波形処理プログラムは、コンピュータに、素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算する正規化度計算処理、パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算する変更係数計算処理、および、パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に変更係数を乗じる振幅変更処理を実行させることを特徴とする。

　本発明によれば、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させることができる。

本発明の第１の実施形態の例を示すブロック図である。ピッチ波形の例を模式的に示す説明図である。式（４）に示す関数を表す説明図である。１つの素片に関してピッチ波形を合成する処理の例を示すフローチャートである。ピッチ波形の間引きの例を示す説明図である。ピッチ波形の挿入の例を示す説明図である。式（１０）に示す関数を表す説明図である。本発明の第２の実施形態の例を示すブロック図である。本発明の第３の実施形態の例を示すブロック図である。本発明の波形処理装置の最小構成の例を示すブロック図である。音声の波形に対するコンプレッサ処理の例を示す模式図である。

　以下、本発明の実施形態を図面を参照して説明する。
　１つの素片に対応する複数のピッチ波形に対して、特許文献１に記載された方法で正規化を行うと、その各ピッチ波形の最大振幅が揃う。このような正規化を完全正規化と呼ぶことにする。本発明では、１つの素片に対応する複数のピッチ波形に対して完全正規化を行う態様と、全く正規化を行わずにピッチ波形を元のままとする態様との中間的な態様を規定する規定値を算出する。以下、この規定値を正規化度と記す。正規化度は、正規化の程度を表す指標値であるということができる。そして、本発明では、その正規化度に応じて、ピッチ波形のパワーを変更する。

実施形態１．
　図１は、本発明の第１の実施形態の例を示すブロック図である。第１の実施形態の波形処理装置は、図１に示すように、音声素片記憶部１と、韻律補正部２と、素片波形連結部３とを備える。

　音声素片記憶部１は、素片毎に複数のピッチ波形を記憶する記憶装置である。ここで、素片の単位について説明する。音声のうち、母音単独の音節に関しては、その母音の前半と後半がそれぞれ１つの素片（素片の１単位）となる。また、子音の後に母音が続く音節では、子音と、その後に続く母音の前半とで１つの素片となり、また、その母音の後半が１つの素片となる。収録音声の波形は、素片毎に切り出される。そして、素片毎の波形を、さらに、ピッチ周期で分割することによりピッチ波形を生成する。なお、ピッチ周期は、例えば、波形のピークから次のピークまでの時間として求めることができる。１つの素片の波形をピッチ波形に分割するときには、ピークが中央に存在し、波形の両端のパワーがピークよりも小さくなっている波形をピッチ波形として切り出せばよい。

　図１では、音声素片記憶部１が記憶する素片毎のピッチ波形群の例として、ピッチ波形群２１，２２，２３を模式的に示している。ピッチ波形群２１は、１つの素片に対応するピッチ波形群である。ピッチ波形群２２，２３に関しても、それぞれ１つの素片に対応する。

　また、本例では、音声素片記憶部１が、ピッチ波形の間引きや挿入を行わずに素片の波形を生成した場合の素片毎の継続時間長も記憶している場合を例にする。

　図２は、ピッチ波形の例を模式的に示す説明図である。ピッチ波形は、横軸（時間軸）に沿ってサンプリングされている。図２に例示するピッチ波形に対して、０～Ｎ－１まで、Ｎ回のサンプリングを行っているとする。サンプリング回数Ｎは、１つのピッチ波形の長さということができる。そして、ｔ＝０，１，２，・・・，Ｎ－１としたときに、ｔにおける振幅値をＰ（ｔ）とする。以下、ｔ＝０，１，２，・・・，Ｎ－１としたときに、振幅値がＰ（ｔ）となるピッチ波形を、｛Ｐ（ｔ）：ｔ＝０，１，２，・・・，Ｎ－１｝と表現する場合がある。

　韻律補正部２は、素片毎に、ピッチ波形群に属するピッチ波形のパワーを変化させる。さらに、その素片を出力する際の継続時間長に応じて、ピッチ波形の間引きや挿入を行い、ピッチ波形を連結（重ね合わせ加算）することによって、１つの素片の波形を生成する。

　素片波形連結部３は、韻律補正部２によって作成された素片毎の波形を連結することによって、合成音声を生成する。

　韻律補正部２は、パワー補正部１０と、時間調整部８と、素片波形生成部９とを含む。

　パワー補正部１０は、音声素片記憶部１に記憶されているピッチ波形群を素片毎に読み込む。パワー補正部１０は、１つの素片に対応する各ピッチ波形に対して正規化度を計算する。さらに、ピッチ波形のパワーを、そのピッチ波形に対して求めた正規化度に基づいて変化させる。換言すれば、パワーを正規化度に基づいて補正する。

　具体的には、パワー補正部１０は、パワー計算部４と、正規化度計算部６と、スケーリング係数計算部５と、乗算器７とを備える。

　パワー計算部４は、音声素片記憶部１から素片毎にピッチ波形群を読み込む。そして、パワー計算部４、正規化度計算部６、スケーリング係数計算部５および乗算器７は、１つの素片のピッチ波形群に属するピッチ波形毎に処理を行う。なお、パワー計算部４は、例えば、合成音声における素片の順番に従って、素片毎にピッチ波形群を読み込む。

　パワー計算部４は、着目しているピッチ波形に関して、パワーを表すスカラＳを計算する。ここでは、パワー計算部４が、パワーを表すスカラＳとして平均振幅を計算する場合を例にして説明する。ピッチ波形が｛Ｐ（ｔ）：ｔ＝０，１，２，・・・，Ｎ－１｝であるとすると、パワー計算部４は、以下に示す式（３）の計算を行うことによって平均振幅Ｓを計算すればよい。

　なお、パワーを表すスカラＳは上記の平均振幅に限定されず、パワー計算部４は、パワーを表すスカラＳとして他の値を計算してもよい。パワーを表すスカラＳの他の例に関しては、後述する。

　正規化度計算部６は、パワーを表すスカラＳ（本例では平均振幅）を変数とする増加関数の関数値として、正規化度を計算する。正規化度をαとし、パワーを表すスカラＳを変数とする増加関数をＡ（Ｓ）とすると、α＝Ａ（Ｓ）である。既に説明したように、正規化度は、１つの素片に対応する複数のピッチ波形に対して完全正規化を行う態様と、全く正規化を行わずにピッチ波形を元のままとする態様との中間的な態様を規定する規定値である。

　αは、０．０≦α≦１．０を満たす実数である。Ａ（Ｓ）として用いる増加関数は、例えば、階段関数であっても、折れ線関数であっても、あるいはシグモイド関数であってもよい。本例では、増加関数Ａ（Ｓ）が折れ線関数である場合を例にして説明する。例えば、正規化度計算部６は、以下に示す式（４）の関数Ａ（Ｓ）を用いて、パワー計算部４が計算した平均振幅Ｓに応じた値を計算することにより、正規化度αを求めればよい。

　式（４）に示す関数は、図３に示すように表される。また、式（４）におけるα_ｍｉｎ、α_ｍａｘは、α_ｍｉｎ＜α_ｍａｘを満たす定数として予め定めておけばよい。同様に、Ｓ_１，Ｓ_２に関しても、Ｓ_１＜Ｓ_２を満たす定数として予め定めておけばよい。なお、式（４）は、折れ線関数の例であり、増加関数α＝Ａ（Ｓ）は、式（４）以外の式で表される折れ線関数であってもよい。また、折れ線関数でなくてもよい。

　スケーリング係数計算部５は、パワーを表すスカラＳ（本例では平均振幅）と正規化度αとを変数とする関数の関数値として、スケーリング係数を計算する。スケーリング係数は、ピッチ波形の各サンプリング点における振幅値Ｐ（ｔ）に対して乗じる係数である。Ｐ（ｔ）にスケーリング係数を乗じることで、ピッチ波形のパワーを変更（補正）することができる。

　スケーリング係数をｇとし、スケーリング係数を表す関数をＧ（Ｓ，α）とすると、ｇ＝Ｇ（Ｓ，α）である。また、予め定めた定数をＣとする。スケーリング係数計算部５は、（Ｃ／Ｓ）≦ｇ≦１．０という条件を満たすスケーリング係数ｇを計算する。

　スケーリング係数計算部５は、例えば、以下に示す式（５）の関数Ｇ（Ｓ，α）に、平均振幅Ｓおよび正規化度αを代入することにより、スケーリング係数ｇを求めればよい。

　なお、式（５）におけるＣは、上述のように、予め定めた定数である。

　パワー計算部４、正規化度計算部６およびスケーリング係数計算部５の処理により、１つのピッチ波形に対して１つのスケーリング係数が求まる。

　乗算器７は、着目しているピッチ波形の振幅値に、スケーリング係数計算部５によって計算されたスケーリング係数ｇを乗算することにより、ピッチ波形のパワーを変更する。すなわち、ピッチ波形を｛Ｐ（ｔ）：ｔ＝０，１，２，・・・，Ｎ－１｝と表すと、乗算器７は、ｔ＝０，１，２，・・・，Ｎ－１に関してそれぞれ、以下に示す式（６）の計算を行うことによって、パワーを変更する。

　Ｐ（ｔ）’＝Ｐ（ｔ）×ｇ　　　　　　式（６）

　Ｐ（ｔ）’は、各サンプリング点における補正後の振幅値である。

　時間調整部８には、各素片に関して、素片を出力する際の継続時間長が入力される。時間調整部８は、パワーの補正が行われたピッチ波形群に対して予め定められていた継続時間長と、入力された継続時間長との割合に基づいて、補正後のピッチ波形群に対して、ピッチ波形の間引きを行ったり、あるいは、ピッチ波形の挿入を行ったりする。なお、挿入するピッチ波形は、既に得られているピッチ波形と同一でよい。

　素片波形生成部９には、ピッチパタンが入力される。ピッチパタンはピッチ周波数の時系列である。素片波形生成部９は、ピッチパタンが示すピッチ周波数に応じて、素片毎に、ピッチ波形を連結する。素片波形生成部９は、ピッチ周波数の逆数を計算することにより、ピッチ周期を算出し、そのピッチ周期に合わせて、素片毎に、ピッチ波形群を連結すればよい。

　なお、ピッチ波形の連結の際に、ピッチパタン（ピッチ周波数の時系列）に含まれるどのピッチ周波数からピッチ周期を計算すればよいかは、例えば、以下のように判定すればよい。例えば、ピッチパタンとして、ピッチ周波数と基準時点から経過時間とを対応付けた時系列を入力すればよい。素片波形生成部９は、合成音声におけるピッチ波形の順番を判断し、そのピッチ波形の順番に応じた経過時間に対応するピッチ周波数を用いて、ピッチ波形を連結する際に用いるピッチ周期を計算すればよい。

　パワー計算部４，正規化度計算部６、スケーリング係数計算部５、乗算器７、時間調整部８、素片波形生成部９および素片波形連結部３は、例えば、波形処理プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、例えば、コンピュータのプログラム記憶装置（図示略）が波形処理プログラムを記憶し、ＣＰＵがそのプログラムを読み込んで、そのプログラムに従って、パワー計算部４，正規化度計算部６、スケーリング係数計算部５、乗算器７、時間調整部８、素片波形生成部９および素片波形連結部３として動作すればよい。また、各要素がそれぞれ別々のユニットで実現されていてもよい。

　次に、動作について説明する。
　図４は、１つの素片に関してピッチ波形を合成する処理の例を示すフローチャートである。音声素片記憶部１には、予め素片毎にピッチ波形群が記憶されているものとする。

　パワー計算部４は、１素片分のピッチ波形群を音声素片記憶部１から読み込む（ステップＳ１）。そして、パワー計算部４は、ステップＳ１で読み込んだ１素片分のピッチ波形群の中で、まだ選択していないピッチ波形があるか否かを判定する（ステップＳ２）。未選択のピッチ波形がある場合（ステップＳ２におけるＹｅｓ）、ステップＳ３に移行する。なお、ステップＳ１から最初にステップＳ２に移行した時点では、いずれのピッチ波形も選択していないので、ステップＳ３に移行する。

　ステップＳ３において、パワー計算部４は、ステップＳ１で読み込んだ１素片分のピッチ波形群の中で、まだ選択していないピッチ波形を１つ選択する（ステップＳ３）。

　次に、パワー計算部４は、選択したピッチ波形について、パワーを表すスカラＳを計算する（ステップＳ４）。本例では、パワーを表すスカラＳとして、平均振幅を計算する場合を例にして説明する。パワー計算部４は、選択したピッチ波形について、式（３）の計算を行うことにより、そのピッチ波形の平均振幅Ｓを計算すればよい。

　次に、正規化度計算部６が、平均振幅Ｓに基づいて、正規化度αを計算する（ステップＳ５）。本例では、平均振幅Ｓを変数とする増加関数Ａ（Ｓ）として、式（４）に示す関数が予め定められているとする。正規化度計算部６は、ステップＳ４で計算された平均振幅Ｓに応じた正規化度α（＝Ａ（Ｓ））を、式（４）に示す関数Ａ（Ｓ）を用いて計算すればよい。

　ステップＳ５の後、スケーリング係数計算部５が、平均振幅Ｓおよび正規化度αに基づいて、ステップＳ１で選択されたピッチ波形群に対するスケーリング係数を計算する（ステップＳ６）。本例では、スケーリング係数を表す関数Ｇ（Ｓ，α）として、式（５）に示す関数が予め定められているとする。正規化度計算部６は、ステップＳ４で計算された平均振幅ＳおよびステップＳ５で計算された正規化度αをＧ（Ｓ，α）に代入することによって、スケーリング係数を計算すればよい。

　次に、乗算器７は、ステップＳ６で計算されたスケーリング係数ｇを用いて、ステップＳ３で選択されたピッチ波形のパワーを変更する（ステップＳ７）。選択したピッチ波形を、｛Ｐ（ｔ）：ｔ＝０，１，２，・・・，Ｎ－１｝と表した場合、乗算器７は、ｔ＝０，１，２，・・・，Ｎ－１に関してそれぞれ、式（６）に示す計算を行うことにより、各サンプリング点における補正後の振幅値Ｐ（ｔ）’を計算すればよい。ステップＳ７の処理によって、ステップＳ３で選択された波形に対する補正が完了する。

　ステップＳ７の後、パワー補正部１０は、ステップＳ２以降の動作を繰り返す。

　ステップＳ２において、未選択のピッチ波形がなくなったと判定したならば（ステップＳ２におけるＮｏ）、ステップＳ８に移行する。なお、未選択のピッチ波形がないということは、ステップＳ１で読み込んだ１素片分のピッチ波形群に属するピッチ波形を全て選択済みであり、それらのピッチ波形について変更が完了していることになる。

　時間調整部８には、素片を合成音声として出力する際の継続時間長が入力されている。時間調整部８は、ステップＳ１で読み込まれた１素片分のピッチ波形群に対して予め定められていた継続時間長と、入力された継続時間長との割合を計算する。そして、時間調整部８には、その割合に基づいて、補正後のピッチ波形群に対して、ピッチ波形の間引きを行ったり、あるいは、ピッチ波形の挿入を行ったりする（ステップＳ８）。なお、予め定められていた継続時間長は、ピッチ波形の間引きや挿入を行わずに素片の波形を生成した場合の素片の継続時間長である。

　図５は、ピッチ波形の間引きの例を示す説明図であり、図６は、ピッチ波形の挿入の例を示す説明図である。図５（ａ）は、間引き前の各ピッチ波形を示し、図６（ａ）は、挿入前の各ピッチ波形を示す。本例では、１素片分のピッチ波形群に６個のピッチ波形が属している場合を例にする（図５（ａ）、図６（ａ）参照）。図５（ａ）および図６（ａ）に示す番号１～６は、ピッチ波形の順番を表している。なお、図５および図６では、各ピッチ波形の最大振幅を共通としているが、各ピッチの最大振幅は共通であるとは限らない。

　図５を参照して間引きの例について説明する。入力された継続時間長（素片を合成音声として出力する際の継続時間長）が、予め定められていた継続時間長の０．６６倍であったとする。この場合、時間調整部８は、例えば、図５に示すように、２番目および４番目のピッチ波形を除外し、３番目、５番目および６番目のピッチ波形を２～４番目に繰り上げる（図５（ｂ）参照）。この結果、ピッチ波形の数が６個から４個に減少し、この素片の継続時間長は、間引きをしない場合に比べて０．６６倍になる。

　図６を参照して挿入の例について説明する。入力された継続時間長が予め定められていた継続時間長の１．３３倍であったとする。この場合、時間調整部８は、図６に示すように、２番目のピッチ波長の次に、その２番目のピッチ波長と同一のピッチ波長を挿入する。同様に、４番目のピッチ波長の次に、その４番目のピッチ波長と同一のピッチ波長を挿入する。この結果、ピッチ波形の数が６個から８個に増加し、この素片の継続時間長は、挿入を行わない場合に比べて１．３３倍になる。

　なお、間引きや挿入は、図５および図６に示す例に限定されない。入力された継続時間長が予め定められていた継続時間長の何倍である場合に、何番目のピッチ波形を除外するか、また、何番目のピッチ波形と同一のピッチ波形を挿入するかについては、予め間引きや挿入のルールとして定めておけばよい。

　ステップＳ８の次に、素片波形生成部９は、ステップＳ１で読み込まれたピッチ波形に対応するピッチ周波数を、入力されたピッチ周波数の中から特定し、ピッチ周波数の逆数を計算することにより、ピッチ周期を算出する。そして、そのピッチ周期に合わせて、個々のピッチ波形を連結する（ステップＳ９）。

　なお、ピッチ波形を連結（重ね合わせ加算）する場合には、ピッチ周期に相当するずらし量を用いて重ね合わせ加算すればよい。例えば、１番目のピッチ波形がＰ_１（ｔ）であり、２番目のピッチ波形がＰ_２（ｔ）であり、１番目のピッチ波形から２番目のピッチ波形までのピッチ周期に相当するずらし量がＴであるとする。この場合、素片波形生成部９は、Ｐ_１（ｔ）＋Ｐ_２（ｔ＋Ｔ）を計算することで、連結後のピッチ波形を得る。３番目以降のピッチ波形についても、同様にずらし量を反映させて重ね合わせ加算していけばよい。連結後の波形において、ピッチ周期が長い箇所では、ピークから次のピークまでが長くなり、ピッチ周期が短い箇所では、ピークから次のピークまでが短くなる。

　なお、ピッチ波形を連結する際に、時間軸上で、前のピッチ波形の終点近辺と、その次のピッチ波形の始点近辺とを重複させてもよい。この場合、素片波形生成部９は、前のピッチ波形の終点近辺と、その次のピッチ波形の始点近辺との間で振幅値の加算を行えばよい。

　以上のステップＳ１～Ｓ９により、１つの素片の波形が生成されることになる。

　韻律補正部２は、合成音声で用いる素片の順番に、素片毎に上記のステップＳ１～Ｓ９の処理を行えばよい。

　素片波形連結部３は、合成音声で用いる素片の順番に従って、各素片の波形を連結する。素片波形連結部３は、継続時間長に相当するずらし量を用いて、波形の重ね合わせ加算を行えばよい。例えば、１番の音素の波形がＸ_１（ｔ）であり、２番目の音素の波形がＸ_２（ｔ）であるとする。また、１番目の音素の継続時間長に相当するずらし量がＲであるとする。この場合、素片波形連結部３は、Ｘ_１（ｔ）＋Ｘ_２（ｔ＋Ｒ）を計算することで連結後の波形を得る。３番目以降の音素の波形についても、同様にずらし量を反映させて重ね合わせ加算していけばよい。なお、前の音素の波形の終点近辺と、その次の音素の始点近辺とを重複させてもよい。この場合、素片波形連結部３は、前の音素の波形の終点近辺と、その次の音素の波形の始点近辺との間で振幅値の加算を行えばよい。

　本発明において、正規化度αの計算に用いる関数Ａ（Ｓ）は増加関数である。従って、平均振幅（パワーを表すスカラ）の値が大きいほど、正規化度は高くなる。すなわち、完全正規化に近づく。一方、平均振幅の値が小さいほど、正規化度は低くなり、ステップＳ７での変更によるパワーの変化は少なくなる。よって、振幅の小さいピッチ波形については、他のピッチ波形よりも相対的に振幅が小さいという状態を維持することができる。その結果、自然な合成音声を得ることができる。

　また、スケーリング係数計算部５は、（Ｃ／Ｓ）≦ｇ≦１．０という条件を満たすスケーリング係数ｇを計算し、乗算器７は、そのスケーリング係数ｇでパワーを変更する。従って、音声の収録条件や話者の癖により、突発的にパワーが増加するようなピッチ波形が得られたとしても、得られる合成音声の波形ではパワーの不均一が生じないようにすることができる。

　また、乗算器７は、式（６）の計算によってピッチ波形のパワーを変更するので、変更後のピッチ波形に歪みは生ぜず、音質の低下を防止することができる。

　次に、本発明の変形例について説明する。

　まず、パワー計算部４による計算の変形例について説明する。上記の例では、パワー計算部４が、ピッチ波形に関して、パワーを表すスカラＳとして平均振幅を計算する場合を示した。パワー計算部４は、以下に示す式（７）の計算によって、パワーを表すスカラＳを求めてもよい。

　式（７）によって得られるスカラは、式（３）によって得られる平均振幅の二乗である。

　また、パワー計算部４は、以下に示す式（８）の計算によって、パワーを表すスカラＳを求めてもよい。

　次に、正規化度計算部６が正規化度αを求めるために用いる増加関数α＝Ａ（Ｓ）の変形例について説明する。上記の例では、増加関数α＝Ａ（Ｓ）が式（４）に示す折れ線関数である場合を例にして説明した。α＝Ａ（Ｓ）は増加関数であれば、折れ線関数でなくてもよい。例えば、正規化度計算部６は、以下に示す式（９）の関数Ａ（Ｓ）を用いて、パワー計算部４が計算したスカラＳ（例えば、パワーの平均振幅）に応じた値を計算すればよい。

　式（９）は、パワー計算部４が計算したスカラＳが、予め定めた閾値Ｓ_ｔｈ以下であれば、α＝０．０であり、そうでなければ（すなわち、スカラＳが閾値Ｓ_ｔｈより大きければ）、α＝１．０とする階段関数である。なお、式（９）に示す関数は、二値関数と呼ぶこともできる。なお、式（９）は、階段関数の例であり、増加関数α＝Ａ（Ｓ）は、式（９）以外の式で表される階段関数であってもよい。

　また、α＝Ａ（Ｓ）はシグモイド関数であってもよい。例えば、正規化度計算部６は、以下に示す式（１０）に、パワー計算部４が計算したスカラＳを代入することで正規化度αを計算すればよい。

　式（１０）において、α_ｍｉｎ、α_ｍａｘは、α_ｍｉｎ＜α_ｍａｘを満たす定数として予め定めておけばよい。また、式（１０）において、γ_１，γ_２は、以下に示す式（１１）および式（１２）を満足する定数として定めておけばよい。

　γ_１＜０　　　　　　　　　　　　　式（１１）

　０＜Ｓ_１＜γ_２＜Ｓ_２　　　　　　　　式（１２）

　また、式（１２）におけるＳ_１，Ｓ_２に関しても、Ｓ_１＜Ｓ_２を満たす定数として予め定めておけばよい。式（１０）に示すシグモイド関数は、図７に示すように表される。なお、式（１０）は、シグモイド関数の例であり、増加関数α＝Ａ（Ｓ）は、式（１０）以外の式で表されるシグモイド関数であってもよい。

　Ａ（Ｓ）をシグモイド関数とすれば、正規化度αの変化が滑らかになるので、パワーの変化がより自然になる。

　次に、スケーリング係数５がスケーリング係数ｇを求めるために用いる関数Ｇ（Ｓ，α）の変形例について説明する。上記の例では、関数ｇ＝Ｇ（Ｓ，α）が式（５）に示す関数である場合を例にして説明した。正規化度計算部６は、以下に示す式（１３）の折れ線関数ｇ＝Ｇ（Ｓ，α）を用いて、スカラＳ（例えば、パワーの平均振幅）および正規化度αに応じたスケーリング係数ｇを計算してもよい。

　式（１３）におけるＣは、予め定めた定数である。また、式（１３）におけるα_１，α_２は、０．０≦α_１＜α_２≦１．０を満たす定数として予め定めておけばよい。関数ｇ＝Ｇ（Ｓ，α）は、式（１３）以外の式で表される折れ線関数であってもよい。

　あるいは、正規化度計算部６は、以下に示す式（１４）のシグモイド関数ｇ＝Ｇ（Ｓ，α）を用いて、スカラＳ（例えば、パワーの平均振幅）および正規化度αに応じたスケーリング係数ｇを計算してもよい。

　式（１４）におけるＣは、予め定めた定数である。また、式（１４）におけるβ_１，β_２は、以下に示す式（１５）および式（１６）を満足する定数として定めておけばよい。

　β１＜０　　　　　　　　　　　　　　　式（１５）

　０≦α_１＜β_２＜α_２≦１．０　　　　　　式（１６）

　また、第１の実施形態の他の変形例として、正規化度計算部６が、正規化度αの算出に用いる増加関数Ａ（Ｓ）を切り替える態様が上げられる。以下、この変形例について説明する。

　正規化度計算部６は、スケーリング係数の計算対象となる素片（すなわち、ステップＳ１で読み込まれたピッチ波形群に対応する素片）が、母音であるのか、有声破裂音（ｂ，ｄ，ｇ）以外の子音を含んでいるのか、有声破裂音の子音を含んでいるのかによって、正規化度αの算出に用いる増加関数Ａ（Ｓ）を切り替える。

　なお、この場合、正規化度計算部６には、合成音声出力の対象となるテキスト情報に対して言語処理を行った結果が入力される。すなわち、個々の素片が、母音に該当する素片であるのか、有声破裂音以外の子音を含む素片であるのか、有声破裂音の子音を含む素片であるのかを、言語処理により判定し、素片の順番に、その判定結果を正規化度計算部６に入力すればよい。

　スケーリング係数の計算対象となる素片が母音に該当する素片である場合、正規化度計算部６は、増加関数Ａ（Ｓ）として、以下に示す式（１７）の関数Ａ（Ｓ）を用いて、正規化度αを計算すればよい。

　また、スケーリング係数の計算対象となる素片が有声破裂音以外の子音を含む素片である場合、正規化度計算部６は、増加関数Ａ（Ｓ）として、以下に示す式（１８）の関数Ａ（Ｓ）を用いて、正規化度αを計算すればよい。

　また、スケーリング係数の計算対象となる素片が有声破裂音の子音を含む素片である場合、正規化度計算部６は、増加関数Ａ（Ｓ）として、以下に示す式（１９）の関数Ａ（Ｓ）を用いて、正規化度αを計算すればよい。

　なお、式（１７）から式（１９）において、Ｓ_１，Ｓ_２，Ｓ_ｔｈはそれぞれ、定数とし予め定めておけばよい。ただし、Ｓ_２，Ｓ_ｔｈに関しては、Ｓ_２＜Ｓ_ｔｈを満足するように定める。また、式（１７）および式（１８）において、α_ｍｉｎ１，α_ｍａｘ１，α_ｍｉｎ２，α_ｍａｘ２はそれぞれ、α_ｍｉｎ１＜α_ｍａｘ１，α_ｍｉｎ２＜α_ｍａｘ２を満足する定数とし予め定めておけばよい。ただし、α_ｍａｘ１，α_ｍａｘ２に関しては、α_ｍａｘ２＜α_ｍａｘ１という条件も満足するように定める。α_ｍｉｎ１，α_ｍｉｎ２については、どちらの値が大きくてもよい。

　一般に、子音は正規化に伴う音声劣化が大きくなる可能性が高い。本変形例によれば、子音を含む素片の正規化度を小さく抑えることができる。また、有声破裂音に関してはスケーリング前よりもパワーが大きくなることを防止することができる。従って、スケーリングに伴う子音の音声劣化を防止することができる。

　また、正規化度計算部６は、スケーリング係数の計算対象となる素片（すなわち、ステップＳ１で読み込まれたピッチ波形群に対応する素片）が、文頭から３モーラ以内の素片に該当する素片であるか否かによって、正規化度αの算出に用いる増加関数Ａ（Ｓ）を切り替えてもよい。この場合には、合成音声出力の対象となるテキスト情報に対する言語処理として、個々の素片が文頭から３モーラ以内の素片に該当するか否かを判定する処理を行い、素片の順番に、その判定結果を正規化度計算部６に入力すればよい。

　スケーリング係数の計算対象となる素片が文頭から３モーラ以内の素片である場合、正規化度計算部６は、増加関数Ａ（Ｓ）として、以下に示す式（２０）の関数Ａ（Ｓ）を用いて、正規化度αを計算すればよい。

　また、スケーリング係数の計算対象となる素片が文頭から３モーラ以内の素片でない場合、正規化度計算部６は、増加関数Ａ（Ｓ）として、以下に示す式（２１）の関数Ａ（Ｓ）を用いて、正規化度αを計算すればよい。

　なお、式（２０）および式（２１）において、Ｓ_１，Ｓ_２，Ｓ_３はそれぞれ、Ｓ_１＜Ｓ_３＜Ｓ_２を満足する定数として予め定めておけばよい。また、α_ｍｉｎ１，α_ｍａｘ１，α_ｍｉｎ２，α_ｍａｘ２はそれぞれ、α_ｍｉｎ１＜α_ｍａｘ１，α_ｍｉｎ２＜α_ｍａｘ２を満足する定数とし予め定めておけばよい。ただし、α_ｍａｘ１，α_ｍａｘ２に関しては、α_ｍａｘ２＜α_ｍａｘ１という条件も満足するように定める。α_ｍｉｎ１，α_ｍｉｎ２については、どちらの値が大きくてもよい。

　また、文頭から３モーラ以内の素片であるか否かではなく、呼気段落における呼気段落頭から３モーラ以内の素片であるか否かによって、正規化度αの算出に用いるＡ（Ｓ）を切り替えてもよい。すなわち、スケーリング係数の計算対象となる素片が呼気段落頭から３モーラ以内の素片である場合、正規化度計算部６は、式（２０）を用いて正規化度αを計算すればよい。また、スケーリング係数の計算対象となる素片が呼気段落頭から３モーラ以内の素片でない場合、正規化度計算部６は、式（２１）を用いて正規化度αを計算すればよい。この場合、正規化度計算部６には、呼気段落頭から３モーラ以内の素片であるか否かを素片毎に判定した結果が入力されればよい。

　文頭（または呼気段落頭）から３モーラ以内では、パワーが大きくなることが多い。本変形例によれば、文頭（または呼気段落頭）から３モーラ以内の素片における正規化度を小さくすることによって、文頭や呼気段落頭における合成音声をより自然な音声にすることができる。

実施形態２．
　第２の実施形態の波形処理装置は、音声素片記憶部１に記憶させるピッチ波形群を素片毎に生成する。図８は、本発明の第２の実施形態の例を示すブロック図である。第１の実施形態と同様の構成要素については、図１と同一の符号を付し、詳細な説明を省略する。第２の実施形態の波形処理装置は、第１の実施形態の要素（図１参照）に加え、さらに、収録音声波形記憶部３２と、時間長情報記憶部３１と、素片作成部３３とを備える。

　収録音声波形記憶部３２は、収録された音声の波形を記憶する記憶装置である。図８では、“ｕ”，“ｍａ”，“ｉ”という各音節の連なりの波形を記憶している例を示している。

　時間長情報記憶部３１は、収録された音声の各音節の時間長を記憶する記憶装置である。すなわち、時間長情報記憶部３１は、収録音声波形記憶部３２に記憶された波形に対応する各音節の時間長を記憶する。例えば、時間長情報記憶部３１は、“ｕ”，“ｍａ”，“ｉ”等の音節毎に、その時間長を記憶する。

　素片作成部３３は、収録音声波形記憶部３２に記憶された波形（収録された音声の波形）から素片毎の波形を切り出し、さらに、個々の素片の波形毎に、ピッチ波形を切り出す。そして、素片毎にピッチ波形群を音声素片記憶部１に記憶させる。

　具体的には、素片作成部３３は、素片波形切り出し部３４と、ピッチ波形生成部３５とを備える。

　素片作成部３３は、時間長情報記憶部３１に記憶された音節毎の時間長に基づいて、収録音声波形記憶部３２に記憶された波形（収録された音声の波形）から個々の素片の波形を切り出す。既に説明したように、母音単独の音節に関しては、その母音の前半と後半がそれぞれ１つの素片（素片の１単位）となる。また、子音の後に母音が続く音節では、子音と、その後に続く母音の前半とで１つの素片となり、また、その母音の後半が１つの素片となる。従って、素片作成部３３は、収録された音声の波形から、母音単独の音節の前半と後半とをそれぞれ切り出せばよい。また、子音と、その後に続く母音とからなる音節に関しては、子音とその後に続く母音の前半を切り出すとともに、その母音の後半を切り出せばよい。また、収録された音声の波形において、個々の音節に該当する箇所は、音節毎の時間長に基づいて判定すればよい。

　例えば、図８に例示するように収録された音声の波形（以下、単に収録波形と記す。）が、“ｕ”，“ｍａ”，“ｉ”という音節に対応しているとする。素片作成部３３は、“ｕ”，“ｍａ”，“ｉ”の各時間長に基づいて、“ｕ”，“ｍａ”，“ｉ”に対応する箇所を収録波形から特定し、その各音節に該当する箇所の前半部分と後半部分とをそれぞれ切り出す。この結果、素片毎の波形が得られる。

　ピッチ波形生成部３５は、各素片の波形毎に、ピッチ波形を切り出す。１つの素片の波形においても、ピークが複数現れる。ピッチ波形生成部３５は、そのピーク間の間隔をピッチ周期として計算する。そして、ピッチ波形生成部３５は、素片の波形をピッチ周期に合わせて切り出すことにより、１つの素片に関して複数のピッチ波形（ピッチ波形群）を得る。なお、ピッチ波形生成部３５は、ピークが中央に存在し、波形の両端のパワーがピークよりも小さくなるようにして、個々のピッチ波形を切り出す。

　ピッチ波形生成部３５は、素片毎に、生成したピッチ波形群を音声素片記憶部１に記憶させる。

　なお、上記の例では、“ｕ”，“ｍａ”，“ｉ”という音節を含む収録波形を例に説明したが、収録音声波形記憶部３２には、種々な音節を含む多くの収録波形を記憶させておく。また、その収録波形に応じた各音節の時間長を時間長情報記憶部３１に記憶させておく。

　素片波形切り出し部３４およびピッチ波形生成部３５は、例えば、波形処理プログラムに従って動作するコンピュータのＣＰＵによって実現される。

　韻律補正部２が備える各要素および素片波形連結部３については、第１の実施形態におけるそれらの要素と同様であり、説明を省略する。また、第１の実施形態の変形例を、第２の実施形態に適用してもよい。

　本実施形態によれば、第１の実施形態と同様の効果を得ることができる。また、音声素片記憶部１に、種々の素片のピッチ波形群を自動的に記憶させることができる。

実施形態３．
　図９は、本発明の第３の実施形態の例を示すブロック図である。第１の実施形態や第２の実施形態と同様の構成要素については、図１、図９と同一の符号を付し、詳細な説明を省略する。

　第３の実施形態の波形処理装置は、収録音声波形記憶部３２と、時間長情報記憶部３１と、素片作成部３３ａと、音声素片記憶部１と、ピッチパタン生成部４１と、素片波形連結部３を備える。

　本実施形態では、素片作成部３３ａが、音声素片記憶部１に記憶させる前のピッチ波形群に対してスケーリングを行い、スケーリング後のピッチ波形群を音声素片記憶部１に記憶させる。

　ピッチ波形生成部４１は、素片毎に、音声素片記憶部１に記憶されたピッチ波形を連結する。

　素片作成部３３ａは、素片波形切り出し部３４と、ピッチ波形生成部３５と、パワー補正部１０とを備える。素片波形切り出し部３４およびピッチ波形生成部３５は、第２の実施形態におけるそれらの要素と同様である。パワー補正部１０、およびパワー補正部１０に含まれるパワー計算部４、正規化度計算部６、スケーリング係数計算部５および乗算器７は、第１および第２の実施形態におけるそれらの要素と同様である。なお、乗算器７は、スケーリング後のピッチ波形群を音声素片記憶部１に記憶させる。

　ピッチ波形生成部４１は、時間調整部８と、素片波形生成部９とを備える。時間調整部８、素片波形生成部９および素片波形連結部３は、第１および第２の実施形態におけるそれらの要素と同様である。

　本実施形態においても、第２の実施形態と同様の効果が得られる。

　次に本発明の最小構成について説明する。図１０は、本発明の波形処理装置の最小構成の例を示すブロック図である。本発明の波形処理装置は、パワー計算手段７１と、正規化度計算手段７２と、変更係数計算手段７３と、振幅変更手段７４とを備える。

　パワー計算手段７１（例えば、パワー計算部４）は、素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラ（例えば、平均振幅、あるいは、式（７）または式（８）で得られるスカラ）を計算する。

　正規化度計算手段７２（例えば、正規化度計算部６）は、パワー計算手段７１によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数（例えば、式（４）、式（９）または式（１０）に例示する関数Ａ（Ｓ））の関数値として計算する。

　換係数計算手段７３（例えば、スケーリング係数計算部５）は、パワー計算手段７１によって選択されたピッチ波形の振幅値を変更する変更係数（例えば、スケーリング係数ｇ）を、スカラおよび正規化度に基づいて計算する。

　振幅変更手段７４（例えば、乗算器７）は、パワー計算手段７１によって選択されたピッチ波形の各サンプリング点における振幅値に変更係数を乗じる。

　以上のような構成により、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させることができる。

　上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。

（付記１）素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算手段と、パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更手段とを備えることを特徴とする波形処理装置。

（付記２）変更係数計算手段は、変更係数をｇとし、予め定められた定数をＣとし、パワー計算手段に計算されたスカラをＳとし、正規化度をαとしたときに、（Ｃ／Ｓ）≦ｇ≦１．０を満足する変更係数ｇを、Ｓおよびαを変数とする関数の関数値として計算する付記１に記載の波形処理装置。

（付記３）振幅変更手段によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成手段を備える付記１または付記２に記載の波形処理装置。

（付記４）素片波形生成手段によって生成された素片を表す波形を連結する素片波形連結手段を備える付記１から付記３のうちのいずれかに記載の波形処理装置。

（付記５）素片に対応するピッチ波形群を素片毎に記憶する素片記憶手段を備える付記１から付記４のうちのいずれかに記載の波形処理装置。

（付記６）収録された音声の波形を記憶する収録音声波形記憶手段と、前記収録された音声の波形を素片毎に切り出す素片波形切り出し手段と、素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成手段とを備える付記１から付記５のうちのいずれかに記載の波形処理装置。

（付記７）素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算し、選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算し、選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じることを特徴とする波形処理方法。

（付記８）変更係数をｇとし、予め定められた定数をＣとし、選択したピッチ波形のパワーを表すスカラをＳとし、正規化度をαとしたときに、（Ｃ／Ｓ）≦ｇ≦１．０を満足する変更係数ｇを、Ｓおよびαを変数とする関数の関数値として計算する付記７に記載の波形処理方法。

（付記９）コンピュータに、素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算処理、パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算処理、および、パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更処理を実行させるための波形処理プログラム。

（付記１０）コンピュータに、変更係数計算処理で、変更係数をｇとし、予め定められた定数をＣとし、パワー計算処理で計算したスカラをＳとし、正規化度をαとしたときに、（Ｃ／Ｓ）≦ｇ≦１．０を満足する変更係数ｇを、Ｓおよびαを変数とする関数の関数値として計算させる付記９に記載の波形処理プログラム。

（付記１１）素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算部と、パワー計算部によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算部と、パワー計算部によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算部と、パワー計算部によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更部とを備えることを特徴とする波形処理装置。

（付記１２）変更係数計算部は、変更係数をｇとし、予め定められた定数をＣとし、パワー計算部に計算されたスカラをＳとし、正規化度をαとしたときに、（Ｃ／Ｓ）≦ｇ≦１．０を満足する変更係数ｇを、Ｓおよびαを変数とする関数の関数値として計算する付記１に記載の波形処理装置。

（付記１３）振幅変更部によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成部を備える付記１または付記２に記載の波形処理装置。

（付記１４）素片波形生成部によって生成された素片を表す波形を連結する素片波形連結部を備える付記１から付記３のうちのいずれかに記載の波形処理装置。

（付記１５）素片に対応するピッチ波形群を素片毎に記憶する素片記憶部を備える付記１から付記４のうちのいずれかに記載の波形処理装置。

（付記１６）収録された音声の波形を記憶する収録音声波形記憶部と、前記収録された音声の波形を素片毎に切り出す素片波形切り出し部と、素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成部とを備える付記１から付記５のうちのいずれかに記載の波形処理装置。

　この出願は、２０１１年７月１９日に出願された日本特許出願２０１１－１５８２９８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

　本発明は、波形のパワーを変化させる波形処理装置に適用可能である。

　１　音声素片記憶部
　２　韻律補正部
　３　素片波形連結部
　４　パワー計算部
　５　スケーリング係数計算部
　６　正規化度計算部
　７　乗算器
　８　時間調整部
　９　素片波形生成部
　１０　パワー補正部

Claims

　素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、
　パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、
　パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算手段と、
　パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更手段とを備える
　ことを特徴とする波形処理装置。
　変更係数計算手段は、変更係数をｇとし、予め定められた定数をＣとし、パワー計算手段に計算されたスカラをＳとし、正規化度をαとしたときに、（Ｃ／Ｓ）≦ｇ≦１．０を満足する変更係数ｇを、Ｓおよびαを変数とする関数の関数値として計算する
　請求項１に記載の波形処理装置。
　振幅変更手段によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成手段を備える
　請求項１または請求項２に記載の波形処理装置。
　素片波形生成手段によって生成された素片を表す波形を連結する素片波形連結手段を備える
　請求項１から請求項３のうちのいずれか１項に記載の波形処理装置。
　素片に対応するピッチ波形群を素片毎に記憶する素片記憶手段を備える
　請求項１から請求項４のうちのいずれか１項に記載の波形処理装置。
　収録された音声の波形を記憶する収録音声波形記憶手段と、
　前記収録された音声の波形を素片毎に切り出す素片波形切り出し手段と、
　素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成手段とを備える
　請求項１から請求項５のうちのいずれか１項に記載の波形処理装置。
　素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、
　選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算し、
　選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算し、
　選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる
　ことを特徴とする波形処理方法。
　変更係数をｇとし、予め定められた定数をＣとし、選択したピッチ波形のパワーを表すスカラをＳとし、正規化度をαとしたときに、（Ｃ／Ｓ）≦ｇ≦１．０を満足する変更係数ｇを、Ｓおよびαを変数とする関数の関数値として計算する
　請求項７に記載の波形処理方法。
　コンピュータに、
　素片に対応するピッチ波形群の中からピッチ波形を１つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、
　パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算処理、
　パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算処理、および、
　パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更処理
　を実行させるための波形処理プログラム。
　コンピュータに、
　変更係数計算処理で、変更係数をｇとし、予め定められた定数をＣとし、パワー計算処理で計算したスカラをＳとし、正規化度をαとしたときに、（Ｃ／Ｓ）≦ｇ≦１．０を満足する変更係数ｇを、Ｓおよびαを変数とする関数の関数値として計算させる
　請求項９に記載の波形処理プログラム。