WO2007088853A1

WO2007088853A1 - 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Info

Publication number: WO2007088853A1
Application number: PCT/JP2007/051503
Authority: WO
Inventors: Chun Woei Teo
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2006-01-31
Filing date: 2007-01-30
Publication date: 2007-08-09
Anticipated expiration: 2008-07-31
Also published as: US20090018824A1; JPWO2007088853A1

Abstract

　スペクトル波形をモデル化し、スペクトル波形を正確に復元する音声符号化装置。この音声符号化装置では、ＦＦＴ部（１０４）が、駆動音源信号のスペクトル振幅にＦＦＴ処理を施してＦＦＴ変換係数を求め、第２スペクトル振幅算出部（１０５）が、ＦＦＴ変換係数の第２スペクトル振幅を算出する。ピークポイント位置特定部（１０６）が、第２スペクトル振幅のピークを上位Ｎ個について位置を特定し、係数選択部（１０７）が、特定した位置に対応するＦＦＴ変換係数を選択する。量子化部１０８が、選択されたＦＦＴ変換係数を量子化する。

Description

明細書

音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

技術分野

[0001] 本発明は、音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法に関する。

背景技術

[0002] 音声信号のモノラル表現を符号ィ匕する音声コーデック（モノラルコーデック）は、現在の標準となっている。そのようなモノラルコーデックは、人の音声などの単一音源を想定する携帯電話やテレビ会議用機器などの通信機器で一般に使用されている。

[0003] 従来、通信機器の送信帯域や DSPの処理速度の制限のためモノラル信号でも十分な音質であつたが、技術及び帯域の向上に伴い、これらの制限はなくなりつつあり、より高い音質が求められている。

[0004] モノラル音声の弱点の一つは、話し手のサウンドイメージ、または位置などの空間情報が得られないことである。このため、できるだけ低いビットレートでよりよい音声認識が得られるように良好なステレオ音質を実現することが要求されて、る。

[0005] ステレオ音声信号の符号化方法の一つに、信号予測または信号推定技術を用いる方法が知られている。具体的には、一つのチャネルを既知の音声符号化器で符号化し、他のチャネルの副次的情報を用いて、符号ィ匕したチャネル力も他のチャネルを予測または推定するものである。

[0006] このような方法は、非特許文献 1に記載のノイノーラル 'キュー'コーディングの一部として、特許文献 1に記載されており、基準チャネルを基準として一つのチャネルのレベルを調整するためにチャネル間のレベル差 (ILD)の計算に適用されて!ヽる。

[0007] ところが、予測信号または推定信号は元の信号に比較してあまり正確ではないことが多い。このため、予測信号または推定信号を強調し、これらの信号を元の信号にできるだけ近づける必要がある。

[0008] ここで、オーディオ、音声信号は一般に周波数領域で処理される。この周波数領域データは、一般に変換領域における「スペクトル係数」と呼ばれる。したがって、上記のような予測および推定は、周波数領域で行われる。例えば、左および Zまたは右チャネルのスペクトルデータ力その副次情報の一部が抽出され、抽出された副次情報の一部をモノラルチャネルに適用することによって推定することができる（特許文献 1参照)。

[0009] その他の方法として、例えば右チャネル力左チャネルを推定できるように、一つのチャネルを別のチャネル力も推定する方法がある。このような推定は、オーディオ、音声処理においてスペクトルエネルギーまたはスペクトル振幅を推定することにより行われる。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。

[0010] 代表的なスペクトルエネルギー予測では、時間領域信号が周波数領域信号に変換される。この周波数領域信号は、通常、臨界帯域に従って周波数帯域に分割される。この分割は、基準チャネルおよび推定の対象となるチャネルの双方に対して行われる。そして、両チャネルの周波数帯域ごとにエネルギーを計算し、両チャネルのエネルギー比を用いてスケールファクタを計算する。このスケールファクタは受信機側に送信され、そこで基準チャネルは変換領域で推定信号が検索されるため、このスケールファクタを用いて周波数帯域ごとに拡大または縮小される。この後、周波数の逆変換を施して推定変換領域スペクトルデータに対応する時間領域信号を得る。

[0011] 上述した非特許文献 1に記載の方法では、周波数領域スペクトル係数は臨界帯域に分割され、各帯域のエネルギーおよびスケールファクタは、直接計算される。この先行技術による方法の基本概念は、同様に分割したときに元の信号のエネルギーとほぼ同じになるように各帯域のエネルギーを調整することである。

特許文献 1：国際公開第 03Z090208号パンフレット

非特干文献 1 : C. Faller and F. Baumgarte, Binaural cue coding: A novel and efficie nt representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002. 発明の開示

発明が解決しょうとする課題

[0012] し力しながら、上述した非特許文献 1に記載の方法は容易に実現可能であり、各帯域のエネルギーは元の信号に近、が、さらに精密なスペクトル波形をモデルィ匕することは不可能であり、通常、スペクトル波形の細部は元の信号とは異なる。

[0013] 本発明の目的は、スペクトル波形をモデル化し、スペクトル波形を正確に復元する音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法を提供することである。

課題を解決するための手段

[0014] 本発明の音声符号化装置は、第 1入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第 1スペクトル振幅を算出する第 1算出手段と、前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算出する第 2算出手段と、前記第 2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第 2スペクトル振幅の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化手段と、を具備する構成を採る。

[0015] 本発明の音声復号装置は、入力信号に 2回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スぺ外ル係数を形成するスペクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスぺタトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、を具備する構成を採る。

[0016] 本発明の音声符号ィ匕システムは、入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第 1スペクトル振幅を算出する第 1算出手段と、前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算出する第 2算出手段と、前記第 2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第 2スペクトル振幅の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化手段と、を有する音声符号化装置と、量子化された前記変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスベクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、を具備する音声復号装置と、を具備する構成を採る。

発明の効果

[0017] 本発明によれば、スペクトル波形をモデル化し、スペクトル波形を正確に復元することがでさる。

図面の簡単な説明

[0018] [図 1]本発明の実施の形態 1に係る音声信号用スペクトル振幅推定装置の構成を示すブロック図

[図 2]本発明の実施の形態 1に係るスペクトル振幅推定復号装置の構成を示すブロック図

[図 3]定常信号のスペクトルを示す図

[図 4]非定常信号のスペクトルを示す図

[図 5]本発明の実施の形態 1に係る音声符号ィ匕システムの構成を示すブロック図 [図 6]本発明の実施の形態 2に係る残差信号推定装置の構成を示すブロック図

[図 7]本発明の実施の形態 2に係る推定残差信号推定復号装置の構成を示すブロック図

[図 8]分割したサブフレームに係数を割り当てる様子を示す図

[図 9]本発明の実施の形態 2に係るステレオ音声符号ィ匕システムの構成を示すブロック図

発明を実施するための最良の形態

[0019] 以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実施の形態において、同一の構成には同一の符号を付し、重複する説明は省略する。

[0020] (実施の形態 1)

図 1は、本発明の実施の形態 1に係る音声信号用スペクトル振幅推定装置 100の構成を示すブロック図である。このスペクトル振幅推定装置 100は、主として音声符号化装置に用いられる。この図において、 FFT(Fast Fourier Transform)部 101は、駆動音源信号 _eを入力とし、駆動音源信号 _eを順方向周波数変換によって周波数領域信号に変換し、第 1スぺ外ル振幅算出部 102に出力する。なお、この入力信号は信号源のモノラル、左または右チャネルの、ずれかが考えられる。 [0021] 第 1スペクトル振幅算出部 102は、 FFT部 101から出力された周波数領域における駆動音源信号 _eのスぺ外ル振幅 Aを算出し、算出したスぺ外ル振幅 Aを対数変換部 103に出力する。

[0022] 対数変換部 103は、第 1スペクトル振幅算出部 102から出力されたスペクトル振幅 Aを対数目盛に変換し、 FFT部 104に出力する。なお、対数目盛への変換は必須ではなぐ対数目盛を使用しない場合には、これ以降の処理においてスペクトル振幅の絶対値を使用してもよい。

[0023] FFT部 104は、対数変換部 103から出力された対数目盛のスペクトル振幅に対して、第 2の順方向周波数変換を施すことによってスペクトル振幅の周波数表現 (複素係数 C )を取得し、取得した複素係数 Cを第 2スペクトル振幅算出部 105及び係数

A A

選択部 107に出力する。

[0024] 第 2スペクトル振幅算出部 105は、 FFT部 104から出力された複素係数 Cを用い

A

て、スペクトル振幅 Aのスペクトル振幅 Aを算出し、算出したスペクトル振幅 Aをピー

A A

クポイント位置特定部 106に出力する。なお、 FFT部 104及び第 2スペクトル振幅算出部 105を一つの算出手段として機能させてもよい。

[0025] ピークポイント位置特定部 106は、第 2スペクトル振幅算出部 105から出力されたスベクトル振幅 Aにおいて、 1番目に高いピーク力 N番目に高いピークまでを検索す

A

ると共に、 1〜N番目のピークの位置 Posをそれぞれ検索する。検索された 1〜?^番

N

目のピーク位置 Pos が係数選択部 107に出力される。

N

[0026] 係数選択部 107は、ピークポイント位置特定部 106から出力されたピーク位置 Pos

N

に基づいて、 FFT部 104から出力された複素係数 Cのうち N個を選択し、選択した

A

N個の複素係数 Cを量子化部 108に出力する。

[0027] 量子化部 108は、係数選択部 107から出力された複素係数 Cをスカラー量子化方法又はベクター量子化方法によって量子化し、量子化係数 C"を出力する。

[0028] なお、量子化係数 C"およびピーク位置 Pos は後述する復号器側のスペクトル振幅

N

推定復号装置に送信され、復号器側において再構成される。

[0029] 図 2は、本発明の実施の形態 1に係るスペクトル振幅推定復号装置 150の構成を示すブロック図である。このスペクトル振幅推定復号装置 150は、主として音声復号装置に用いられる。この図において、逆量子化部 151は、図 1に示したスペクトル振幅推定装置 100から送信された量子化係数 C'を逆量子化して係数を取得し、取得した係数をスペクトル係数形成部 152に出力する。

[0030] スペクトル係数形成部 152は、逆量子化部 151から出力された係数を図 1に示したスペクトル振幅推定装置 100から送信されたピーク位置 Pos のそれぞれに配置し、

N

残りの位置には係数 0を配置する。これにより逆方向周波数変換に必要なスペクトル係数 (複素係数)が形成される。なお、これらの係数のサンプル数は符号化器側の係数のサンプル数と同じである。例えば、スペクトル振幅 Aの長さが 64サンプルで Nが

A

20の場合、係数は実数値、虚数値のいずれに対しても Pos によって指定された 20

N

箇所に配置され、残り 44箇所には係数 0が配置される。このようにして形成されたスベクトル係数は IFFT (Inverse Fast Fourier Transform)部 153に出力される。

[0031] IFFT部 153は、スペクトル係数形成部 152から出力されたスペクトル係数に逆周波数変換を施すことによって対数目盛でスペクトル振幅の推定値を再構成する。再構成された対数目盛のスペクトル振幅推定値は逆対数変換部 154に出力される。

[0032] 逆対数変換部 154は、 IFFT部 153から出力されたスペクトル振幅推定値の逆対数をとり、線形目盛でスペクトル振幅 A'を取得する。なお、前述したように、対数目盛への変換は必須ではないので、スペクトル振幅推定装置 100が対数変換部 103を備えない場合、逆対数変換部 154も備えない。この場合、 IFFT部 153における逆周波数変換の結果は、線形目盛におけるスペクトル振幅の推定値を再構成したものになる。

[0033] 図 3は、定常信号のスペクトルを示す図である。図 3Aは、駆動音源信号の定常部分に対する時間領域信号の 1フレームを示す。図 3Bは、駆動音源信号を時間領域から周波数領域に変換したスペクトル振幅を示す。定常信号に対して、スペクトル振幅は図 3Bのグラフに示すように一定の周期性を示す。

[0034] スペクトル振幅を任意の信号として扱い、それに対して周波数変換を行うと、図 3C のグラフにピークで示されるように、変換スペクトルの振幅を計算するときにこの周期性が示される。この特徴を利用してより少ない数の係数 (実数および虚数)をとるだけで、図 3 (b)のグラフからスペクトル振幅を推定することができる。例えば、図 3Bのダラフのポイント 31のピークを符号ィ匕することによってスペクトル振幅の周期性を獲得したことになる。

[0035] 黒丸のピークポイントで示した位置に該当する縮小した係数の集合を図 3Cに示す

。少数の係数のみを用いて逆変換を行うことによって、図 3Dの点線で示すようなスぺタトル振幅の推定値を得ることができる。

[0036] 効率をさらに向上させるため、ポイント 31などの主要なピーク位置およびその隣接ポイントは、周期性または信号のピッチ周期から導き出すことができるので送信する必要はない。

[0037] 図 4は、非定常信号のスペクトル示すものである。図 4Aは、駆動音源信号の非定常部分に対する時間領域信号の 1フレームを示す。非定常信号についても、定常信号と同様に、スペクトル振幅を推定することができる。

[0038] 図 4Bは、駆動音源信号を時間領域力周波数領域に変換したスペクトル振幅を示す。非定常信号の場合、スペクトル振幅は図 4Bに示すように周期性をまったく示さない。また、信号の非定常部分に適用されるため、図 4Cに示すようにどの部分においても信号の集中は見られず、ポイントが分散している。

[0039] 一方、図 3Cのグラフでは、ポイント 31にピークが存在し、このポイントを符号化することによって図 3Bのグラフでスペクトル振幅の周期性を獲得したことになり、他のボイントを符号ィ匕することによってスペクトル振幅の精密度が向上する。したがって、処理対象の信号長に比較してより少な!/、数の係数を用いて信号のスペクトル振幅を推定することができる。

[0040] これに対し、通常、図 4Cのグラフに示すような黒丸のピークポイントである正しいポイントを注意深く選択することによって、図 4Dの点線で示すようなスペクトル振幅の推定値を得ることができる。

[0041] このように、特に、定常信号のように安定した構造の信号では、情報は通常、ある F FT変換係数で伝達される。この係数は、他の係数と比較して大きな値を持っており、このような係数を選択して信号を表現することができる。したがって、より少ない数の係数を用いて信号のスペクトル振幅を表現することができる。すなわち、より少ないビット数で係数を表現することになり、ビットレートを低減することができる。ちなみに、スベクトル振幅の表現に使用する係数の数が増加するに従ってスペクトル振幅をより高精度に復元することができる。

[0042] 図 5は、本発明の実施の形態 1に係る音声符号化システム 200の構成を示すブロック図である。ここでは、まず、符号化器側について説明する。

[0043] LPC分析フィルタ 201は、入力音声信号 Sをフィルタにかけ、 LPC係数および駆動音源信号 eを得る。 LPC係数は復号器側の LPC合成フィルタ 210に送信され、駆動音源信号 eは符号化器 202及び FFT部 203に出力される。

[0044] 符号化器 202は、図 1に示したスペクトル振幅推定装置の構成を有し、 LPC分析フィルタ 201から出力された駆動音源信号 eのスペクトル振幅を推定し、係数 C"およびそれぞれのピーク位置 Posを取得し、量子化係数 C"およびピーク位置 Posを復号

N N

器側の復号器 206に送信する。

[0045] FFT部 203は、 LPC分析フィルタ 201から出力された駆動音源信号 eを周波数領域に変換し、複素スペクトル係数 (R , I ) スペクトル

e eを生成し、複素係数を位相データ算出部 204に出力する。

[0046] 位相データ算出部 204は、 FFT部 203から出力された複素スペクトル係数を用いて、駆動音源信号 eの位相データ Θを算出し、算出した位相データ Θを位相量子化部 205に出力する。

[0047] 位相量子化部 205は、位相データ算出部 204から出力された位相データ Θを量子化し、量子化位相データ Φを復号器側の位相逆量子化部 207に送信する。

[0048] 次に、復号器側について説明する。

[0049] 復号器 206は、図 2に示したスペクトル振幅推定復号装置の構成を有し、符号化器側の符号化器 202から送信された量子化係数 C'およびピーク位置 Posを用いて、

N

駆動音源信号 _eのスペクトル振幅推定値 A"を取得し、取得したスペクトル振幅推定値 A'を極矩変換部 208に出力する。

[0050] 位相逆量子化部 207は、符号化器側の位相量子化部 205から送信された量子化位相データ Φを逆量子化し、位相データ Θ 'を取得し、極矩変換部 208に出力する。

[0051] 極矩変換部 208は、位相逆量子化部 207から出力された位相データ Θ 'を用いて

、復号器 206から出力されたスペクトル振幅推定値 A'を実数および虚数形式の複素スペクトル係数 (R，， Γ )に変換し、 IFFT部 209に出力する。 [0052] IFFT部 209は、極矩変換部 208から出力された複素スペクトル係数を周波数領域信号力時間領域信号に変換し、推定駆動音源信号を取得する。取得された推定駆動音源信号 _e "は LPC合成フィルタ 210に出力される。

[0053] LPC合成フィルタ 210は、 IFFT部 209から出力された推定駆動音源信号 e'と符号化器側の LPC分析フィルタ 201から出力された LPC係数とを用いて推定入力信号 S 'が合成される。

[0054] このように実施の形態 1によれば、符号化器側にお!ヽて、駆動音源信号のスぺタトル振幅に FFT処理を施して FFT変換係数を求め、求めた FFT変換係数のスぺタトル振幅のピークを上位 N個につ、て位置を特定し、特定した位置に対応する FFT変換係数を選択し、復号器側において、符号化器側によって選択された FFT変換係数を、同じく符号化器側によって特定された位置に配置してスぺ外ル係数を形成し、形成したスペクトル係数に IFFT処理を施すことによって、スペクトル振幅を復元することができるので、少な、FFT変換係数を用いてスペクトル振幅を表現することができる。したがって、 FFT変換係数を少ないビット数で表現することができるので、ビットレートを低減することができる。

[0055] (実施の形態 2)

実施の形態 1では、スペクトル振幅を推定する場合について説明したが、本発明の実施の形態 2では、基準信号と基準信号の推定値との差 (残差信号)を符号化する場合について説明する。残差信号は、非定常状態になる傾向があるランダム信号に近いので、図 4に示したスペクトルと類似している。よって、実施の形態 1において説明したスペクトル振幅推定方法を応用して残差信号を推定することができる。

[0056] 図 6は、本発明の実施の形態 2に係る残差信号推定装置 300の構成を示すブロック図である。この残差信号推定装置 300は、主として音声符号化装置に用いられる。この図において、 FFT部 301aは基準駆動音源信号 eを順方向周波数変換によって周波数領域信号に変換し、第 1スぺ外ル振幅算出部 302aに出力する。

[0057] 第 1スペクトル振幅算出部 302aは、 FFT部 301aから出力された周波数領域における基準駆動音源信号のスペクトル振幅 Aを算出し、算出したスペクトル振幅 Aを第 1対数変換部 303aに出力する。 [0058] 第 1対数変換部 303aは、第 1スペクトル振幅算出部 302aから出力されたスペクトル振幅 Aを対数目盛に変換し、加算器 304に出力する。

[0059] FFT部 301bは FFT部 301aと、第 3スペクトル振幅算出部 302bは第 1スペクトル振幅算出部 302aと、第 2対数変換部 303bは第 1対数変換部 303aとそれぞれ同様の処理を推定駆動音源信号に対して行う。

[0060] 加算器 304は、第 1対数変換部 303aから出力されたスペクトル振幅を基準値として、第 2対数変換部 303bから出力された推定スペクトル振幅値との差スペクトル振幅 D (残差信号)を計算し、差スペクトル振幅 Dを FFT部 104に出力する。

[0061] 図 7は、本発明の実施の形態 2に係る推定残差信号推定復号装置 350の構成を示すブロック図である。この推定残差信号推定復号装置 350は、主として音声復号装置に用いられる。この図において、 IFFT部 153は、スペクトル係数形成部 152から出力されたスペクトル係数に逆周波数変換を施すことによって、対数目盛における差スベクトル振幅の推定値 D'を再構成する。再構成された差スペクトル振幅の推定値 D' は加算器 354に出力される。

[0062] FFT部 351は、推定駆動音源信号を順方向周波数変換によって変換係数 C を

e 形成し、スペクトル振幅算出部 352に出力する。

[0063] スペクトル振幅算出部 352は、 FFT部 351から出力された変換係数 C .を用いて、 e

推定駆動音源信号のスペクトル振幅 A、すなわち、推定スペクトル振幅 A"を算出し、算出した推定スペクトル振幅 A'を対数変換部 353に出力する。

[0064] 対数変換部 353は、スペクトル振幅算出部 352から出力された推定スペクトル振幅

A'を対数目盛に変換し、加算器 354に出力する。

[0065] 加算器 354は、 IFFT部 153から出力された差スペクトル振幅の推定値 D'と対数変換部 353から出力された対数目盛のスペクトル振幅の推定値とを加算し、スペクトル振幅の強調された推定値を得る。加算器 354はスペクトル振幅の強調された推定値を逆対数変換部 154に出力する。

[0066] 逆対数変換部 154は、加算器 354から出力されたスペクトル振幅の強調された推定値の逆対数をとり、スペクトル振幅を線形目盛のベクトル振幅 ΑΊこ変換する。

[0067] なお、図 6において差スペクトル振幅 Dが対数目盛の場合、図 7において、スぺタトル振幅算出部 352から出力されるスペクトル振幅の推定値 A'を IFFT部 153で求めた差スペクトル振幅の推定値 D'に加算する前に対数変換部 353で対数目盛に変換し、対数目盛でスペクトル振幅の強調された推定値を得るようにしなければならなヽ。ところが、図 6において差スペクトル振幅 Dに対数目盛を使用しない場合、対数変換部 353および逆対数変換部 154を使用しないようにする。したがって、 IFFT部 153 によって再構成された差スペクトル振幅 D'をスペクトル振幅算出部 352から出力されたスペクトル振幅推定値 ΑΊこ直接加算してスペクトル振幅の強調推定値 A〜を得る。

[0068] 本実施の形態では、差スペクトル振幅信号 Dを全フレームに適用できる力全フレームに適用する代わりに、差スペクトル振幅信号 Dの各フレームを Mサブフレームに分割し、各サブフレームに差スペクトル振幅信号 Dを適用する。各サブフレームのサィズは、等分してもよいし、非線形的に分割してもよい。

[0069] ここでは、図 8に示すように、低い周波数領域が小さなサブフレームを有し、高い周波数領域が大きなサブフレームを有するように 1フレームを 4つのサブフレームに非線形的に分割した場合を示して、る。このように分割した各サブフレームに差スぺタトル振幅信号 Dを適用する。

[0070] サブフレームを使用する利点の一つは異なる数の係数を、その重要性に基づいて異なるサブフレームに割り当てることができる点である。例えば、低い周波数領域に該当する低サブフレームは重要であるとみなされるので、高い周波数領域である高サブフレームと比較してこの領域により多くの係数を割り当てることができる。なお、図 8では、低サブフレームよりも高サブフレームにより多くの係数を割り当てた場合を示している。

[0071] 図 9は、本発明の実施の形態 2に係るステレオ音声符号ィ匕システム 400の構成を示すブロック図である。このシステムの基本概念は、基準モノラルチャネルを符号ィ匕し、モノラルチャネル力も左チャネルを予測または推定し、そして、右チャネルをモノラルおよび左チャネルカゝら導き出すものである。ここでは、まず、符号化器側について説明する。

[0072] 図 9において、 LPC分析フィルタ 401は、モノラルチャネル信号 Mをフィルタにかけ、モノラル駆動音源信号 e 、モノラルチャネル LPC係数および駆動音源パラメータを求め、モノラル駆動音源信号 e を共分散推定部 403に出力し、モノラルチャネル LP

M

C係数を復号器側の LPC復号器 405に送信し、駆動音源パラメータを復号器側の駆動音源信号発生器 406に送信する。なお、モノラル駆動音源信号 e は、左駆動音

M

源信号の予測のためのターゲット信号となる。

[0073] LPC分析フィルタ 402は左チャネル信号 Lをフィルタにかけ、左駆動音源信号 eお

しよび左チャネル LPC係数を求め、左駆動音源信号 eを共分散推定部 403および符

し

号化器 404に出力し、左チャネル LPC係数を復号器側の LPC復号器 413に送信する。なお、左駆動音源信号 eは、左チャネル駆動音源信号の予測のための基準信号

し

として機能する。

[0074] 共分散推定部 403は、 LPC分析フィルタ 401から出力されたモノラル駆動音源信号 e および LPC分析フィルタ 402から出力された左駆動音源信号 eを用いて、以下

M L

の式（1)を最小化することによって左駆動音源信号を推定し、推定した左駆動音源信号を符号化器 404に出力する。

し

[0075] [数 1]

ただし、 Pはフィルタ長、 Lは処理する信号長、 βはフィルタ係数である。フィルタ係数 ISは復号器側の信号推定部 408に送信されて左駆動音源信号の推定に使用される。

[0076] 符号化器 404は、図 6に示した残差信号推定装置の構成を有し、 LPC分析フィルタ 402から出力された基準駆動音源信号 eおよび共分散推定部 403から出力された

L

推定駆動音源信号を用いて、変換係数 C'およびピーク位置 Posを求め、求め

L N

た変換係数 C'およびピーク位置 Posを復号器側の復号器 409に送信する。

N

[0077] 次に、復号器側について説明する。

[0078] LPC復号器 405は、符号化器側の LPC分析フィルタ 401から送信されたモノラルチャネル LPC係数を復号し、復号したモノラルチャネル LPC係数を LPC合成フィルタ 407に出力する。

[0079] 駆動音源信号発生器 406は、符号化器側の LPC分析フィルタ 401から送信された駆動音源パラメータを用いて、モノラル駆動音源信号 _e を発生し、 LPC合成フィルタ 407および信号推定部 408に出力する。

[0080] LPC合成フィルタ 407は、 LPC復号器 405から出力されたモノラルチャネル LPC 係数と駆動音源信号発生器 406から出力されたモノラル駆動音源信号 e とを用い

M，て、出力モノラル音声 M'を合成し、右チャネル導出部 415に出力する。

[0081] 信号推定部 408は、駆動音源信号発生器 406から出力されたモノラル駆動音源信号 e を符号化器側の共分散推定部 403から送信されたフィルタ係数 13でフィルタに

M，

カゝけることにより、左駆動音源信号を推定し、推定左駆動音源信号 e'を復号器 409

し

および位相算出部 410に出力する。

[0082] 復号器 409は、図 7に示した推定残差信号推定復号装置の構成を有し、信号推定部 408から出力された推定左駆動音原信号、符号化器側の符号化器 404から送

し

信された変換係数 C'及びピーク位置 Posを用いて、左駆動音源信号の強調スぺク

N

トル振幅 A〜を取得し、取得した強調スペクトル振幅 A〜を極矩変換部 411に出力す

しし

る。

[0083] 位相算出部 410は、信号推定部 408から出力された推定左駆動音源信号 e'から

し位相データ Φを算出し、算出した位相データ Φを極矩変換部 411に出力する。こ

しし

の位相データ Φ は振幅と共にスペクトル強調駆動音源信号の極形式を形成す

しし

る。

[0084] 極矩変換部 411は、位相算出部 410から出力された位相データ Φを用いて、復号

し

器 409から出力された強調スペクトル振幅 A〜を極形式から矩形形式に変換し、 IFF

し

T部 412に出力する。

[0085] IFFT部 412は、極矩変換部 411から出力された矩形形式の強調スペクトル振幅を逆方向周波数変換によって周波数領域信号力時間領域信号に変換し、スペクトル強調駆動音源信号 e'を形成する。スペクトル強調駆動音源 e'は LPC合成フィルタ 4

しし

14に出力される。

[0086] 0^復号器413は、符号化器側の LPC分析フィルタ 402から送信された左チヤネル LPC係数を復号し、復号した左チャネル LPC係数を LPC合成フィルタ 414に出力する。 [0087] LPC合成フィルタ 414は、 IFFT部 412から出力されたスペクトル強調駆動音源信号 e'および LPC復号器 413から出力された左チャネル LPC係数を用いて左チヤネし

ル信号 L'を合成し、右チャネル導出部 415に出力する。

[0088] 右チャネル導出部 415は、モノラル信号 Mが符号化器側で M= 1Z2 (L+R)によつて導き出されると仮定した場合、 LPC合成フィルタ 407から出力された出力モノラル音声 M'と、 LPC合成フィルタ 414から出力された左チャネル信号 L'との関係から右チャネル信号 R，を導き出せる。すなわち、 R' = 2M，—L'の関係式によって右チャネル信号 R'を求めることができる。

[0089] このように実施の形態 2によれば、符号化器側にお!ヽて、基準駆動音源信号のスぺタトル振幅と、推定駆動音源信号のスペクトル振幅の残差信号を符号化し、復号器側において、残差信号を復元し、復元した残差信号をスペクトル振幅推定値に加算することにより、スぺ外ル振幅推定値を強調し、符号化前の基準駆動音源信号のスベクトル振幅に近づけることができる。

[0090] 以上、実施の形態について説明した。

[0091] 上記各実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

[0092] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部または全てを含むように 1チップィ匕されてもよい。ここでは、 LSIとした力集積度の違いにより、 IC、システム LSI、スーパー LSI、ウルトラ LSIと呼称されることもある。

[0093] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッサで実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Progra mmable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギユラブル'プロセッサーを利用してもよい。

[0094] さらには、半導体技術の進歩または派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行ってもよい。バイオ技術の適用等が可能性としてありえる。

[0095] 2006年 1月 31曰出願の欄 2006— 023756の曰本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

産業上の利用可能性

本発明にかかる音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法は、スペクトル波形をモデルィ匕し、スペクトル波形を正確に復元することができ、携帯電話やテレビ会議用機器などの通信機器に適用できる。

Claims

請求の範囲

[1] 第 1入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第 1スペクトル振幅を算出する第 1算出手段と、前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算出する第 2算出手段と、

前記第 2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第 2スペクトル振幅の変換係数を選択する選択手段と、

選択された前記変換係数を量子化する量子化手段と、

を具備する音声符号化装置。

[2] 前記第 1スペクトル振幅は、対数値である請求項 1に記載の音声符号化装置。

[3] 前記第 1スペクトル振幅は、絶対値である請求項 1に記載の音声符号化装置。

[4] 前記量子化手段は、スカラー量子化又はベクター量子化によって量子化する請求項 1に記載の音声符号化装置。

[5] 入力信号に 2回の周波数変換を施して得られた変換係数のうち、上位複数の量子ィ匕された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、

前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、

を具備する音声復号装置。

[6] 前記スペクトル係数形成手段は、入力信号に 2回の周波数変換を施して得られた変換係数カゝら選択された上位複数の変換係数の位置に前記変換係数を配置し、残りの位置に 0を配置する請求項 5に記載の音声復号装置。

[7] 入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、

前記周波数領域信号の第 1スペクトル振幅を算出する第 1算出手段と、前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算出する第 2算出手段と、前記第 2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第 2スペクトル振幅の変換係数を選択する選択手段と、

選択された前記変換係数を量子化する量子化手段と、

を有する音声符号化装置と、

量子化された前記変換係数を逆量子化する逆量子化手段と、

前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、

を具備する音声復号装置と、

を具備する音声符号化システム。

[8] 入力信号に周波数変換を施し、周波数領域信号を形成する変換工程と、

前記周波数領域信号の第 1スぺ外ル振幅を算出する第 1算出工程と、前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算出する第 2算出工程と、

前記第 2スペクトル振幅の上位複数のピークのピーク位置を特定する特定工程と、特定された前記ピーク位置に該当する前記第 2スペクトル振幅の変換係数を選択する選択工程と、

選択された前記変換係数を量子化する量子化工程と、

を具備する音声符号化方法。

[9] 入力信号に 2回の周波数変換を施して得られた変換係数のうち、上位複数の量子ィ匕された変換係数を取得し、取得した変換係数を逆量子化する逆量子化工程と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成工程と、

前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換工程と、

を具備する音声復号方法。