WO1996019798A1

WO1996019798A1 - Sound encoding system

Info

Publication number: WO1996019798A1
Application number: PCT/JP1995/002607
Authority: WO
Inventors: Masayuki Nishiguchi
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-12-21
Filing date: 1995-12-19
Publication date: 1996-06-27
Anticipated expiration: 1997-06-21
Also published as: AU703046B2; MX9603416A; EP0751494A4; US5950155A; EP0751494A1; MY112314A; CN1141684A; AU4190196A; ES2188679T3; PL316008A1; ATE233008T1; BR9506841A; TR199501637A2; TW367484B; CA2182790A1; DE69529672D1; EP0751494B1; JPH08179796A; DE69529672T2; KR970701410A

Description

明細書音声符号化方法

技術分野本発明は、入力音声信号の短期予測係数を示すパラメ一夕あるいは短期予測残差をべクトル量子化又はマトリクス量子化によって符号化する音声符号化方法に関する。背景技術オーディオ信号（音声信号や音響信号を含む）の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行うような符号化方法が種々知られている。この符号化方法としては、大別して時間領域での符号化、周波数領域での符号化、分析合成符号化等が挙げられる。

音声信号等の高能率符号化の例として、マルチパンド励起（Mult iband Excitation, 以下、 MB Eという。）符号化、シングルパンド励起（Single band Excitatioiu 以下、 S B Eという。）符号化、ハーモニック（Harmonic) 符号化、帯域分割符号化（Sub-band Cod ing、以下 S B Cという。）、線形予測符号化（Linear Predictive Coding, 以下、 L P Cという。：）、あるいは離散コサイン変換（D C T) 、モデファイド D C T (MD C T) 、高速フーリエ変換（F F T) 等において、スペクトル振幅やそのパラメ一夕（ L S Pパラメータ、ひパラメ一夕、 kパラメ一夕等）のような各種情報データを量子化する場合には、従来においてはスカラ量子化を行うことが多かった。

このようなスカラ量子化の場合には、ビットレートを例えば 3〜 4 k bps 程度にまで低減し、量子化効率をさらに向上させようとすると、量子化雑音や量子化歪みが大きくなつてしまい、実用化が困難である。そこで、これらの符号化の際に与えられる時間軸データ、周波数軸デ一夕、フィル夕係数データ等を個々に量子化せず、複数個のデ一夕をべクトルにまとめて、あるいは複数フレームにまたがるべクトルをマトリクスにまとめて、べクトル量子化やマトリクス量子化を行うことが採用されてきている。

例えば、符号励起線形予測（ C E L P ) 符号化においては、 L P C残差（residual ) を直接時間波形としてべクトル量子化やマトリクス量子化を行っている。また、上述の M B E符号化におけるスぺクトルエンベロープ等の量子化にもべクトル量子化やマトリクス量子化が用いられている。

ところで、ビットレートをさらに下げると、 L P C残差やスぺクトルそのもののエンベロープを示すパラメ一夕を量子化するために、多くのビットを使えなくなり、品質劣化を招くことになる。

本発明は、このような実情に鑑みてなされたものであり、少ないビッ卜数でも良好な量子化特性を得ることができるような音声符号化方法の提供を目的とする。発明の開示本発明に係る音声符号化方法は、音声信号の複数の特性パラメ一夕の内の 1又は複数の組合せを基準パラメ一夕として、この基準パラメ一夕に関して短期予測値を示すパラメ一夕を振り分けて形成した第 1及び第 2のコードブックを設ける。そして、入力音声信号に基づいて短期予測値を生成し、入力音声信号の基準パラメ一夕に関して第 1及び第 2のコードブックの一方を選択し、この選択したコ一ドブックを参照して短期予測値を量子化することにより、入力音声信号を符号化する。

ここで、上記短期予測値は、短期予測係数又は短期予測誤差である。また、上記複数の特性パラメ一夕は、音声信号のピッチ値、ビツチ強度、フレームパワー、有声音及び無声音の判別フラグ及び信号スペクトルの傾きである。また、上記量子化は、ベクトル量子化又はマトリクス量子化である。さらに、上記基準パラメ一夕は音声信号のピッチ値であり、入力音声信号のピッチ値及び所定のピッチ値の大きさの関係に応じて、第 1及び第 2のコードブックの一方を選択する。

そして、本発明では、入力音声信号に基づいて生成した短期予測値を、選択した第 1のコードブック又は第 2のコードブックを参照して量子化することにより、量子化効率を高める。図面の簡単な説明図 1は、本発明に係る音声符号化方法が適用される装置の具体例としての音声信号符号化装置の概略構成を示すプロック図である。図 2は、図 1内のビツチ検出回路に使用可能な平滑器の一例を示す回路図である。

図 3は、べクトル量子化の際に用いられるコ一ドブックの形成

( トレーニング）方法を説明するためのブロック図である。発明を実施するための最良の形態以下、本発明に係る好ましい実施例について説明する。

図 1は、本発明に係る音声符号化方法を適用した音声信号符号化装置の概略構成を示すプロック図である。

この音声信号符号化装置において、入力端子 1 1 に供給された音声信号は、線形予測符号化（Linear Predictive Codin 以下、 L P Cという。）分析回路 1 2、逆フィル夕回路 2 1及び聴覚重み付けフィル夕算出回路 2 3に供給される。

L P C分析回路 1 2は、入力信号波形を 2 5 6 サンプル程度の長さを 1 ブロックとしてハミング（hamming) 窓をかけて、自己相関法により線形予測係数（Linear Predi ctor Coeff ic ients) 、いわゆるひパラメ一夕を求める。データ出力の単位となる 1 フレーム期間は、例えば 1 6 0サンブルを含む。この場合、サンプリング周波数 f s が例えば 8 k Hzであれば、 1 フレーム期間は 2 0 m sec となる _c

L P C分析回路 1 2からのひパラメ一夕は、ひ L S P変換回路 1 3に供給されて、線スぺクトル対（Line Spectrum pair 以下、 L S Pという。）パラメ一夕に変換される。すなわち、直接型のフィル夕係数として求まったひパラメ一夕は、例えば 1 0個、すなわち 5対の L S Pパラメ一夕に変換される。この変換は、例えばニュ一トン一ラプソン法等を用いて行う。この L S Pパラメ一夕に変換するのは、 L S Pパラメ一夕がひパラメ一夕よりも補間特性に優れているからである。

ひ— L S P変換回路 1 3からの L S Pパラメ一夕は、 L S Pべクトル量子化器 1 4によってベクトル量子化される。このとき、フレーム間差分をとつてからべクトル量子化してもよい。あるいは、複数フレーム分をまとめてマトリクス量子化してもよい。ここでの量子化では、 2 0 msec を 1フレームとし、 2 0 msec 毎に算出される L S Pパラメ一夕をべクトル量子化している。このべクトル量子化あるいはマトリクス量子化の際に、後述する男声用コードブック 1 5 Mと女声用コードブック 1 5 Fとをピッチに応じて切換スィヅチ 1 6を切り換えて用いている。

L S Pベクトル量子化器 1 4からの量子化出力、すなわち L S P ベクトル量子化のインデクスは外部に取り出され、また量子化済みの L S Pベクトルは、 L S P ひ変換回路 1 7に供給され、 L S P ひ変換回路 1 7によって直接型フィル夕の係数であるひパラメ一夕に変換される。この L S P—ひ変換回路 1 7からの出力に基づいて、符号励起線形予測（ CE L P) 符号化における聴覚重み付き合成フィル夕 3 1のフィルタ係数が算出される。

ここで、符号励起線形予測（ C E L P) 符号化のためのに、いわゆるダイナミックコードブック（ピッチコードブック、適応符号帳ともいう。） 3 2からの出力がゲイン g。を乗算する係数乗算器 3 3を介して加算器 34に供給され、またいわゆるストキャスティヅクコードブック（雑音コードブック、確率的コードブックともいう。） 3 5からの出力がゲイン g i を乗算する係数乗算器 3 6を介して加算器 34に送られており、この加算器 34からの加算出力が励起信号として聴覚重み付き合成フィル夕 3 1 に供給される。

ダイナミックコードブック 3 2には過去の励起（ェキサイテイシヨン）信号が保存されている。ピッチ周期でこれを読み出して各ゲイン g。を乗算したものと、ストキヤスティックコードブック 3 5 からの信号に各ゲインを乗算したものとを加算器 3 4で加算し、この加算出力によって聴覚重み付き合成フィルタ 3 1 を励振する。また、加算器 3 4からの加算出力をダイナミックコードブック 3 2 に帰還することで一種の I I Rフィル夕を構成している。ストキヤスティック（stochast ic ) コードブック 3 5は、後述するように男声用コ一ドブック 3 5 Mと女声用コ一ドブック 3 5 F との一方が切換スィッチ 3 5 Sで切り換え選択される構成を有している。また、各係数乗算器 3 3、 3 6は、ゲインコードブック 3 7からの出力に応じて各ゲイン g。、 g！が制御されるようになっている。聴覚重み付き合成フィル夕 3 1 からの出力は、加算器 3 8に減算信号として供給される。加算器 3 8からの出力信号は、波形歪（ユークリッド距離）最小化回路 3 9 に供給され、この波形歪最小化回路 3 9からの出力に基づき、加算器 3 8からの出力、すなわち重み付き波形歪を最小化するように各コードブック 3 2、 3 5、 3 7からの読み出しが制御される。

逆フィル夕回路 2 1 においては、入力端子 1 1からの入力音声信号が、 L P C分析回路 1 2からのひパラメ一夕によって逆フィル夕リング処理され、ピッチ検出回路 2 2に供給されてピッチ検出が行われる。このビヅチ検出回路 2 2からのピッチ検出結果に応じて、切換スィッチ 1 6や切換スィッチ 3 5 Sが切り換え制御されて、上述の男声用コードブヅク 3 5 Mと女声用コードブック 3 5 Fとの切換選択が行われる。

また、聴覚重み付けフィル夕算出回路 2 3においては、入力端子 1 1からの入力音声信号に対して L P C分析回路 1 2からの出力を用いた聴覚重み付けフィル夕の算出が行われ、聴覚重み付けされた信号が加算器 24に供給される。この加算器 24には、零インブットレスポンス回路 2 5からの出力が減算信号として供給されている。この零インプヅトレスポンス回路 2 5は、前フレームの応答を重み付き合成フィル夕で合成して出力するものであり、この出力を聴覚重み付けされた信号から減算することによって、聴覚重み付き合成フィル夕 3 1に残っていた前フレームのフィル夕応答を相殺し、デコーダに対して新たな入力として必要な信号を取り出すためのものである。この加算器 24からの加算出力は、加算器 3 8に供給されて、この加箅出力から聴覚重み付き合成フィル夕 3 1からの出力が減算される。

以上のような構成を有する音声信号符号化装置において、入力端子 1 1からの入力信号を x(n) 、 L P C係数すなわちひパラメ一夕をひ i 、予測残差を res(n)とする。 iは、分析次数を Pとするとき、 l≤ i≤Pである。ここで、入力信号 x(n) に対して、逆フィル夕回路 2 1により、

H(z)= 1 + _{α ι}ζ · · · ( ! )

式（ 1 ) で表される逆フィル夕を施して、予測残差 res(n)を、例えば 0≤ n≤ N— 1の範囲で求める。ここで、 Nは符号化の単位となるフレーム長に相当するサンプル数であり、例えば N = 1 6 0である。

次に、ビヅチ検出回路 2 2においては、逆フィルタ回路 2 1 から供給される予測残差 res(n)をローパスフィル夕（以下、 L P Fという。）に通し、 resl(n) を得る。 L P Fは、通常、サンプリングク口ックの周波数 f s が 8 kHzの場合、カットオフ周波数 f _c が l k Hz程度のものを用いる。次に、 resl(n) の自己相関関数 Φ _{r e s} i ( i ) を式（ 2 ) に基づいて算出する。

ここで、通常 L_{Bi n}= 2 0、 L_max= 1 4 7程度を用いる。この自己相関関数 Φ

のビーク値を与える i又は適当な処理によつてビークを与える i をトラヅキングして求めたピッチを、現フレームのピッチとする。例えば第 kフレームのピッチ、具体的にはビッチラグを P (k) とする。また、ピッチの信頼度あるいはピッチ強度 P l(k)を式（ 3 ) により定義する。

P l(k)= _{res l}(P (k))/ _{re s l}(O) · · · ( 3 ) すなわち、 $ _{res l}(0) で正規化された自己相関の強さを定義する。さらに、通常の符号励起線形予測（ C E L P ) 符号化においては、フレームパワー R ₀(k)を式（ 4 ) により算出する。 o(k) = ^-¾x²(n) (4) ここで、 kはフレーム番号を示す。

これらのピッチラグ P (k) 、ピッチ強度 Pl(k)、フレームパワー R。（1 の値によって、 { a i }の量子化テーブル又はひパラメ一夕を L S P (線スペクトル対）に変換して形成された量子化テーブルを男声用と女声用とで切り換える。図 1の例では、 L S Pをベクトル量子化するための L S Pべクトル量子化器 1 4の量子化テーブルを、男声用コードブック 1 5Mと女声用コードブック 1 5 Fとの間で切り換えている。

例えば、男声と女声とを区別するためのピッチラグ P(k) の閾値を P_thとし、ピッチの信頼性を判別するためのピッチ強度 Pl(k)及びフレームパワー R₀(k)の各閾値を P l t h 及び R。_{t h} とするとき、

( 1 ) P (k)≥ P t h, かつ P l(k)> P 1 、かつ R₀(k)>R_oth のときは、第 1のコードブック、例えば男声用コードブック 1 5 Mを使用し、

( 2 ) P (k)≤ P t h, かつ P l(k)> P l_th、かつ R。（k)>R。_{t h} のときは、第 2のコードブック、例えば女声用コードブック 1 5 Fを使用し、

( 3 ) 上記（ 1 ) 、（ 2 ) 以外のときは、第 3のコードブックを使用 "5 る。

この第 3のコードブックは、上述の男声用コードブック 1 5 M、女声用コードブック 1 5 Fとは別個のものを用意してもよいが、例えば男声用コードブック 1 5 M、女声用コードブック 1 5 Fのいずれか一方を用いてもよい。

なお、上述の各閾値の具体的な値としては、例えば P_th= 4 5、 Pl_th= 0.7、 R。（k)= (フルスケール一 4 OdB) を挙げることができる。

あるいは、 P l(k)> P lth'かつ R ₀(k)> R _{o t h} となる、すなわち有声音区間でビツチの信頼性が高いフレームの各ピッチラグ P (k) を過去 nフレーム分保存し、これらの nフレーム分の P (k) の平均値を求めて、この平均値を所定の閾値 P_thで判別することによりコ — ドブックを切り換えるようにしてもよい。

あるいは、上述のような条件を満たすピッチラグ P (k) を図 2に示すような平滑器に供給し、この平滑出力を閾値 P _{t h}で判別することにより、コードブックを切り換えるようにしてもよい。なお、図 2の平滑器は、入力デ一夕に乗算器 4 1で 0. 2を乗算したものと、出力データを遅延回路 4 2で 1フレーム遅延して乗算器 4 3で 0. 8を乗算したものとを加算器 44で加算して取り出しており、入力データであるピッチラグ P (k) が供給されないときは状態を保持したままとなるものとする。

このような切換と組み合わせて、さらに有声音/無声音の判断に従って、あるいはピッチ強度 P l(k)の値、フレームパワー R₀(k)の値に応じて、コードブックを切り換えるようにしてもよい。

これによつて、安定したピッチ区間からビツチの平均値を抽出し、男声か女声かの判断を行い、男声用コードブックと女声用コードブヅクとの切換を行っている。これは、男声と女声とで、母音のフォルマント周波数の分布に偏りがあるため、特に母音部で男声、女声の切換を行うことで、量子化すべきべクトルの存在する空間が小さくなり、すなわちベクトルの分散が減り、良好なトレーニング、すなわち量子化誤差を小さくできる学習が可能になるからである。また、符号励起線形予測（ C E L P ) 符号化におけるストキャスティックコードブックを、上述の条件に応じて切り換えるようにしてもよい。図 1の例では、ストキヤスティックコードブック 3 5として、切換スィッチ 3 5 Sを、上述の条件に応じて切り換え制御することにより、男声用コードブック 3 5 Mと女声用コードブック 3 5 Fとのいずれか一方を選択している。

ところで、コードブックの学習は、エンコード時 Zデコード時と同様な基準でトレーニングデ一夕を振り分けて、各々のトレーニングデータに対して例えばいわゆる L B G法により最適化を行うようにすればよい。

すなわち、図 3において、トレーニング用の例えば数分程度の音声信号から成るトレーニングセヅト 5 1からの信号は、線スぺクトル対（L S P) 算出回路 5 2及びピッチ判別回路 5 3に供給される。

L S P算出回路 5 2は、例えば図 1の線形予測符号（ L P C ) 分析回路 1 2及びひ—； L S P変換回路 1 3に相当し、ピッチ判別回路 5

3は、図 1の逆フィル夕回路 2 1及びピッチ検出回路 2 2に相当する。ピッチ判別回路 5 3では、上述したように、ピッチラグ P(k)、ピッチ強度 PI (k)及びフレームパワー R。（k)を、それぞれ上述の各閾値 P _th、 Pith, R。により弁別して、上述の条件（ 1 ) 、（ 2 ) 、

( 3 ) の場合分けを行っている。具体的には、少なくとも条件（ 1 ) の男声の場合と、条件（ 2 ) の女声の場合を判別すればよい。あるいは、上述したように、有声音区間でピッチの信頼性が高いフレームの各ピッチラグ P(k) を過去 nフレーム分保存し、これらの nフレーム分の P(k) の平均値を求めて、この平均値を閾値 P _{t h}で判別するようにしてもよい。また、図 2の平滑器からの出力を閾値 P で判別するようにしてもよい。

L S P算出回路 5 2からの 1^ 3卩デー夕は、トレーニングデ一夕振り分け（assorting) 回路 5 4に送られ、ピッチ判別回路 5 3からの判別出力に応じて、男声用トレーニングデータ 5 5 と女声用トレ —ニングデ一夕 5 6とに振り分けられる。これらのトレーニングデ一夕は、それぞれトレーニング処理部 5 7、 5 8に供給されて、例えばいわゆる L B G法によりトレ一ニング処理が行われることにより、図 1の男声用コードブック 1 5 M、女声用コードブック 1 5 F が作成される。ここで、 L B G法とは、「ベクトル量子化器設計のアフレコリズム」 ( An Algorithm for Vector Quantizer Design" , Linde, Y. , Buzo, A. and Gray, R. M.， IEEE Trans. Comm. , COM - 28， pp.84-95, Jan. 1980 ) において提案されたコードブックのトレーニング法であり、確率密度関数が知られていない情報源に対していわゆるトレーニング系列を用いて局所的な最適べクトル量子化器を設計するための技術である。

このようにして作成された男声用コードブック 1 5 M、女声用コードブック 1 5 Fは、図 1の L S Pぺクトル量子化器 1 4によるべクトル量子化の際に切換スィッチ 1 6により切り換え選択されて用いられる。この切換スィッチ 1 6は、ピッチ検出回路 2 2による上述したような判別結果に応じて切り換え制御される。

L S Pべクトル量子化器 1 4からの量子化出力であるインデクス情報、すなわち代表ベクトルのコードは、伝送すべきデータとして取り出され、また出力ベクトルの量子化済みの L S Pデ一夕は、 L S P→_a変換回路 1 7にてひパラメ一夕に変換されて、聴覚重み付き合成フィル夕 3 1に送られる。この聴覚重み付き合成フィル夕 3 1の特性 1/A(z) は、式（ 5 ) によって表される

この式（ 5 ) で、 W(z) は聴覚重み付け特性を示している。

このような符号励起線形予測（ C E L P) 符号化において伝送すべきデータとしては、 L S Pベクトル量子化器 1 4での L S Pの代表べクトルのインデクス情報の他に、ダイナミックコードブック 3 2、ストキヤスティックコードブック 3 5の各インデクス情報、ゲインコードブック 3 7のインデクス情報、ピッチ検出回路 2 2のビツチ情報等が挙げられる。このように、ピッチの値あるいはダイナミヅクコードブックのインデクスは、通常の C E L P符号化においては元々伝送する必要のあるパラメ一夕であるので、伝送情報量あるいは伝送レートの増加は生じない。ただし、本来伝送しないパラメータ、例えばピッチ強度等を男声用コードブック/女声用コードブックの切換に用いるような場合は、別途コード切換情報を伝送する必要がある。

ここで、上述した男声、女声の判別は、必ずしも話者の性別に一致する必要はなく、トレーニングデータの振り分けと同一の基準でコードブックの選択が行われていればよい。本実施例での男声用コードブック/女声用コードブックという呼称は説明のための便宜上のものである。本実施例において、ピッチの値によってコードブックを切り換えているのは、ビヅチの値とスぺクトルエンべロープの形状とに相関があることを利用したものである。なお、本発明は上記実施例のみに限定されるものではなく、例えば図 1の構成については、各部をハードウェア的に記載しているが. いわゆる D S P (ディジタル信号プロセッサ）等を用いてソフトゥエアプログラムにより実現することも可能である。また、帯域分離べクトル量子化の低域側のコードブックや、多段ベクトル量子化の一部のコードブックのような部分的なコードブックを男声用、女声用のような複数のコ一ドブックで切り換えるようにしてもよい。また、ベクトル量子化の代わりに、複数フレームのデータをまとめてマトリクス量子化を施してもよい。さらに、本発明が適用される音声符号化方法は、符号励起を用いた線形予測符号化方法に限定されるものではなく、有声音部分に正弦波合成を用いたり、無声音部分をノィズ信号に基づいて合成するような種々の音声符号化方法に適用でき、用途としても、伝送や記録再生に限定されず、ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。産業上の利用可能性以上の説明から明らかなように、本発明に係る音声符号化方法では、音声信号の複数の特性パラメ一夕の内の 1又は複数の組合せを基準パラメ一夕として、この基準パラメ一夕に関して短期予測値を示すパラメ一夕を振り分けて形成した第 1及び第 2のコードブックを設ける。そして、入力音声信号に基づいて短期予測値を生成し、入力音声信号の基準パラメ一夕に関して第 1及び第 2のコードブヅクの一方を選択し、この選択したコードブックを参照して短期予測値を量子化することにより、入力音声信号を符号化する。これにより、量子化効率を高めることができ、例えば伝送ビットレートを増やさずに品質の向上が図れ、あるいは品質劣化を抑えながら伝送ビットレートをさらに低減することができる。

Claims

請求の範囲

1 . 入力音声信号に基づいて短期予測値を生成し、

音声信号の複数の特性パラメ一夕の内の 1又は複数の組合せを基準パラメ一夕として、上記基準パラメ一夕に関して短期予測値を示すパラメ一夕を振り分けて形成した第 1及び第 2のコードブックを設け、

上記入力音声信号の上記基準パラメータに関して上記第 1及び第 2のコ一ドブックの一方を選択し、

上記選択したコードブックを参照して上記短期予測値を量子化することにより、上記入力音声信号を符号化することを特徴とする音声符号化方法。

2 . 上記短期予測値は、短期予測係数であることを特徴とする請求の範囲第 1項に記載の音声符号化方法。

3 . 上記短期予測値は、短期予測誤差であることを特徴とする請求の範囲第 1項に記載の音声符号化方法。

4 . 上記複数の特性パラメ一夕は、音声信号のピッチ値、ピッチ強度、フレームパワー、有声音及び無声音の判別フラグ及び信号スべクトルの傾きであることを特徴とする請求の範囲第 1項に記載の音声符号化方法。

5 . 上記短期予測値をベクトル量子化することにより、上記入力音声信号を符号化することを特徴とする請求の範囲第 1項に記載の音声符号化方法。

6 . 上記短期予測値をマトリクス量子化することにより、上記入力音声信号を符号化することを特徴とする請求の範囲第 1項に記載の音声符号化方法。

7 . 上記基準パラメ一夕は音声信号のピッチ値であり、上記入力音声信号のピッチ値及び所定のピッチ値の大きさの関係に応じて、上記第 1及び第 2のコードブックの一方を選択することを特徴とする請求の範囲第 1項に記載の音声符号化方法。

補正害の請求の範囲

[ 1 9 9 6年 4月 1 9日（ 1 9 . 0 4 . 9 6 ) 国際事務局受理：出願当初の請求の範囲 2及び 3は取り下げられた：出颗当初の請求の範囲 1， 4 , 5 , 6及び 7は補正され番号がそれぞれ 7， 8 , 9 , 1 0， 1 1に付け替えられた：新しい諸求の範囲 1一 6， 1 2— 2 4が加えられた。（ 6頁） ]

1 . 入力音声信号に基づき短期予測係数を生成する短期予測手段と、

音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを基準パラメ一夕として、上記基準パラメ一夕に関して短期予測係数を示すパラメ一夕を振り分けて形成した複数のコ一ドブックと、上記入力音声信号の上記基準パラメ一夕に関係して上記複数のコードブックの 1つを選択する選択手段と、

上記選択手段で選択したコードブックを参照して上記短期予測係数を量子化する量子化手段と、

を備え、

上記量子化手段からの量子化値を用いて励起信号を最適化することを特徴とする音声符号化装置。

2 . 上記複数の特性パラメ一夕は、音声信号のピッチ値、ピッチ強度、フレームパワー、有声音及び無声音の判別フラグ及び信号スぺクトルの傾きであることを特徴とする請求の範囲第 1項に記載の音声符号化装置。

3 . 上記量子化手段は、上記短期予測係数をベクトル量子化することを特徴とする請求の範囲第 1項に記載の音声符号化装置。

4 . 上記量子化手段は、上記短期予測係数をマトリクス量子化することを特徴とする請求の範囲第 1項に記載の音声符号化装置。

5 . 上記基準パラメ一夕は音声信号のビツチ値であり、

上記選択手段は、上記入力音声信号のビッチ値及び所定ビッチ値の大きさの関係に応じて、上記複数のコードブックの 1つを選択す

補正された紙 ( 第 19条) ることを特徴とする請求の範囲第 1項に記載の音声符号化装置。

6 . 上記複数のコードブックは、男声用コードブック及び女声用コードブックを含むことを特徴とする請求の範囲第 1項に記載の音声符号化装置。

7 . 入力音声信号に基づき短期予測係数を生成し、

音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを基準パラメ一夕として、上記基準パラメ一夕に関して短期予測係数を示すパラメ一夕を振り分けて形成した複数のコードブックを設け、上記入力音声信号の上記基準パラメ一夕に関係して上記複数のコードブックの 1つを選択し、

上記選択したコ一ドブックを参照して上記短期予測係数を量子化し、

上記短期予測係数のからの量子化値を用いて励起信号を最適化することを特徴とする音声符号化方法。

8 . 上記複数の特性パラメ一夕は、音声信号のピッチ値、ピッチ強度、フレームパワー、有声音及び無声音の判別フラグ及び信号スぺクトルの傾きであることを特徴とする請求の範囲第 7項に記載の音声符号化方法。

9 . 上記短期予測係数をベクトル量子化することで、上記入力音声信号を符号化することを特徴とする請求の範囲第 7項に記載の音声符号化方法。

1 0 . 上記短期予測係数をマトリクス量子化することで、上記入力音声信号を符号化することを特徴とする請求の範囲第 7項に記載の音声符号化方法。

1 1 . 上記基準パラメ一夕は音声信号のピッチ値であり、上記入

補正された用紙 (条約第 19条）力音声信号のピッチ値及び所定ピッチ値の大きさの関係に応じて、上記複数のコードブックの 1つを選択することを特徴とする請求の範囲第 7項に記載の音声符号化方法。

1 2 . 上記複数のコードブックは、男声用コードブック及び女声用コードブックを含むことを特徴とする請求の範囲第 7項に記載の音声符号化方法。

1 3 . 入力音声信号に基づき短期予測係数を生成する短期予測手段と、

音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを基準パラメ一夕として、上記基準パラメ一夕に関して短期予測係数を示すパラメ一夕を振り分けて形成された第 1の複数のコ一ドブックと、

上記入力音声信号の上記基準パラメ一夕に関係して上記第 1の複数のコードブックの 1つを選択する選択手段と、

音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを基準パラメ一夕として、上記基準パラメ一夕に関して振り分けたトレーニングデータに基づき夫々形成され、上記選択手段により第 1 の複数のコードブックの選択と共に 1つが選択される第 2の複数のコードブヅクと、

上記第 2の複数のコ一ドブックの選択されたコードブックの出力に関係する励起信号を上記量子化手段からの量子化値に基づき合成する合成手段と、

を備え、

補正された兩敏 (条約第¹⁹条) 上記合成手段の出力に応じて上記励起信号を最適化することを特徴とする音声符号化装置。

1 4 . 上記複数の特性パラメ一夕は、音声信号のピッチ値、ビッチ強度、フレームパワー、有声音及び無声音の判別フラグ及び信号スぺクトルの傾きであることを特徴とする請求の範囲第 1 3項に言己載の音声符号化装置。

1 5 . 上記量子化手段は、上記短期予測係数をべクトル量子化することを特徴とする請求の範囲第 1 3項に記載の音声符号化装置。

1 6 . 上記量子化手段は、上記短期予測係数をマトリクス量子化することを特徴とする請求の範囲第 1 3項に記載の音声符号化装置。

1 7 . 上記基準パラメ一夕は音声信号のピッチ値であり、

上記選択手段は、上記入力音声信号のピッチ値及び所定ピツチ値の大きさの関係に応じて、上記第 1の複数のコ一ドブックの 1つを選択することを特徴とする請求の範囲第 1 3項に記載の音声符号化

1 8 . 上記第 1及び第 2複数のコードブックの各々は、男声用コ一ドブック及び女声用コ一ドブックを含むことを特徴とする請求の範囲第 1 3項に記載の音声符号化装置。

1 9 . 入力音声信号に基づき短期予測係数を生成し、

音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを基準パラメ一夕として、上記基準パラメ一夕に関して短期予測係数を示すパラメ一夕を振り分けて形成された第 1の複数のコードブックを設け、

上記入力音声信号の上記基準パラメータに関係して上記第 1の複数のコードブックの 1つを選択し、

補正きれた用紙 (条約第 19条) 上記選択したコードブックを参照して上記短期予測係数を量子化し、

音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを基準パラメ一夕として、上記基準パラメ一夕に関して振り分けたトレーニングデータに基づき夫々形成され、上記第 1の複数のコードブックの選択と共に 1つが選択される第 2の複数のコードブックを設け、

上記第 2の複数のコードブックの選択されたコ一ドブックの出力に関係する励起信号を上記短期予測係数の量子化値に基づき合成すして、上記励起信号を最適化することを特徴とする音声符号化方法 2 0 . 上記複数の特性パラメ一夕は、音声信号のピッチ値、ビッチ強度、フレームパワー、有声音及び無声音の判別フラグ及び信号スぺクトルの傾きであることを特徴とする請求の範囲第 1 9項に記載の音声符号化方法。

2 1 . 上記短期予測係数をベクトル量子化することで、上記入力音声信号を符号化することを特徴とする請求の範囲第 1 9項に記載の音声符号化方法。

2 2 . 上記短期予測係数をマトリクス量子化することで、上記入力音声信号を符号化することを特徴とする請求の範囲第 1 9項に記載の音声符号化方法。

2 3 . 上記基準パラメ一夕は音声信号のピッチ値であり、上記入力音声信号のピッチ値及び所定ピッチ値の大きさの関係に応じて、上記第 1の複数のコードブックの 1つを選択することを特徴とする請求の範囲第 1 9項に記載の音声符号化方法。

2 4 . 上記第 1及び第 2複数のコードブックの各々は、男声用コ

铺正された用紙 (条約第 19条) 一ドブック及び女声用コードブックを含むことを特徴とする請求の範囲第 1 9項に記載の音声符号化方法。

補正された用紙 (条約第¹⁹条 )