JP4444295B2

JP4444295B2 - 情報信号を量子化するための方法および装置

Info

Publication number: JP4444295B2
Application number: JP2006552545A
Authority: JP
Inventors: ゲラルドシューラー; シュテファンヴァブニック; イェンスヒルシュフェルト; ヴォルフガングフィーゼル
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2004-02-13
Filing date: 2005-02-10
Publication date: 2010-03-31
Anticipated expiration: 2025-02-10
Also published as: US20070043557A1; IL177164A; JP2007522509A; US7464027B2; ES2294685T3; IL177164A0; EP1697929B1; BRPI0506627A; CN1918630B; BRPI0506627B1; CN1918630A; WO2005078703A1; NO20064091L; HK1093814A1; NO337836B1; CA2555639A1; RU2006132742A; DE102004007184B3; AU2005213767B2; AU2005213767A1

Description

本発明は、一般的に、量子化器あるいは情報信号の量子化に関し、具体的には、例えば音声信号のデータ圧縮、あるいは音声コード化で用いられる音声信号の量子化に関する。もっと具体的に言えば、本発明は短い遅延時間での音声コード化に関する。

現在のところ最もよく知られた音声圧縮方法はＭＰＥＧ−１レイヤＩＩＩである。この圧縮方法を用いて、音声信号のサンプル値、あるいは音声値が、非可逆的にコード化信号にコード化される。別の言い方をすれば、圧縮されると、当初の音声信号の不要成分や冗長度が減少し、理想的にはそれが取り除かれる。これを達成するため、同時および継時マスキングが心理音響モデルで認識される。すなわち、音声信号に応じ時間的に変化するマスキングしきい値が計算、あるいは判定される。このしきい値は、ある周波数の音調に対しどれくらいの音量から人に聴こえるようになるかを示す値である。この情報は、次に、マスキングしきい値に応じて、さらに正確な、あるいはそれほど正確でない、あるいは全く正確でない方法で音声信号のスペクトル値を量子化し、これをコード化信号に統合することによって、信号のコード化を行うために用いられる。

例えば、ＭＰ３様式といった音声圧縮方法では、一方で圧縮方式において、他方でできるだけ遅延時間を小さくするという点で、ビットレート制限送信チャネル経由で音声データが転送される場合の適用性に制限がある。一部の適用例では、遅延時間は、例えば、音声情報を保存する場合に影響を与えない。しかしながら、時に応じて「超低遅延符号器」と呼ばれる遅延の小さな音声符号器は、例えば電話会議、無線ラウドスピーカあるいはマイクロホンといった最優先で音声信号が送信される場合に必要とされる。これらの応用例について、Ｇ．シューラ（Ｓｃｈｕｌｌｅｒ）らによる記事「適応性プレ・ポストフィルタを用いた知覚的音声コード化およびロスレス圧縮」，言語および音声処理に関するＩＥＥＥトランザクション，ｖｏｌ．１０，ｎｏ．６、２００２年９月，３７９乃至３９０ページが、不要成分削減および冗長度削減が１つの変換に基づいて行われず、２つの別個の変換に基づいて行なわれる場合の音声コード化を示している。

原理については、図１２および１３を続けて参照しながら論じる。音声値あるいはサンプル値９０６の列９０４として示されているサンプリング済みの音声信号９０２でコード化が開始されるが、ここでは音声値９０６の時間順が矢印９０８で示されている。聴取しきい値は、昇順で「ブロック＃」と示されている音声値９０６の連続ブロックに対し心理音響モデルを用いることによって計算される。例えば、図１３は、周波数ｆに対する図であり、１２８個の音声値９０６の信号ブロックのスペクトルを示したものがグラフａであり、心理音響モデルで計算されたマスキングしきい値を対数単位で示したものがグラフｂである。マスキングしきい値は、すでに述べたとおり、どの強さまでその周波数が人の耳で聞くことができないのかを示しており、すなわち、マスキングしきい値ｂより低い全ての音が聞こえないことを示している。各ブロックに対して計算した聴取しきい値に基づき、量子化器の前にある制御パラメータ化可能フィルタを制御することで不要成分を削減することができる。パラメータ化可能フィルタでは、パラメータ化値が、その周波数応答とマスキングしきい値の大きさの逆数とを対応させるように計算される。このパラメータ化値は図１２においてｘ_#（ｉ）で示される。

音声値９０６のフィルタリング後、例えば、次の整数までの丸め操作といった、一定のステップサイズの量子化が行われる。これで発生する量子化ノイズはホワイトノイズである。復号器側では、フィルタ通過信号は、パラメータ化可能フィルタにより再度「再変換」され、その伝達関数は、そのマスキングしきい値の大きさに設定される。フィルタ通過信号がこれで再び復号されるだけでなく、復号器側での量子化ノイズについてもマスキングしきい値の形態あるいは形状に対して調節される。量子化ノイズをできるだけ正確にマスキングしきい値に対応させるため、量子化前にフィルタ通過信号に適用される増幅値ａ＃が各パラメータセットあるいは各パラメータ化値に対し符号器側で計算される。復号器側で再変換を行うために、増幅値ａおよびパラメータ化値ｘが、実際の主データすなわち量子化フィルタ通過音声値９１２とは別にサイド情報９１０として符号器に転送される。冗長度削減９１４では、このデータ、すなわちサイド情報９１０および主データ９１２に対し、ロスレス圧縮、すなわちコード化信号が得られる方法であるエントロピーコード化が行われる。

前記ではブロック長として１２８個のサンプル値９０６のサイズを示している。このため、３２ｋＨｚのサンプリングレートで８ミリ秒といった比較的短い遅延が可能になる。詳細な実施を参照すると、そこには、サイド情報コード化の効率を上げるため、サイド情報、すなわち係数ｘ_#およびａ_#は、以前に伝送されたパラメータセットと比較して十分な変化がある場合、すなわち変化が、あるしきい値を超える場合にだけ伝送される点が示されている。さらに、実施の際は、現在のパラメータセットが各ブロックに属するサンプル値すべてに直接適用されないようにしつつ、フィルタ係数ｘ_#の直線補間を用いて可聴アーチファクトを避けるようにすることが好ましい点が説明されている。フィルタ係数の直線補間を行なうためには、不安定性の発生を防止するよう、フィルタ係数に対して格子構造が示唆されている。さらに記載には、制御されたビットレートをもつコード化信号が望ましい場合、可聴雑音が起こるよう、１に等しくないファクタで時間依存増幅ファクタａに対応してフィルタ通過信号を選択的に増大させる、あるいは減衰させることが示唆されているが、ビットレートは、コード化するには複雑な音声信号の部分で減少させることができる。

Ｇ．シューラ（Ｓｃｈｕｌｌｅｒ）らによる記事「適応性プレ・ポストフィルタを用いた知覚的音声コード化およびロスレス圧縮」，言語および音声処理に関するＩＥＥＥトランザクション，ｖｏｌ．１０，ｎｏ．６、２００２年９月，３７９乃至３９０ページ

上記で説明された音声コード化スキームは、多くの適用例でかなりの程度まで遅延時間を減少させているものの、上述のスキームにおける問題点は、以下プレフィルタと呼ぶ符号器側フィルタのマスキングしきい値、あるいは伝達関数を伝達しなければならないため、所定しきい値を超える場合だけフィルタ係数が伝送されるとしても、伝送チャネルにかなり高い負荷がかかるということである。

上記のコード化スキームの他の欠点は、マスキングしきい値、あるいはその逆数を、伝送されるパラメータセットｘ_#により復号器側で利用可能にしなければならないという事実があるため、可能な限り最も低いビットレート、あるいは高い圧縮率が求められる反面、可能な限り最も正確な近似値あるいはマスキングしきい値あるいはその逆数のパラメータ化値も求められ、その間で妥協を行わなければならないということである。これにより、上記コード化スキームによりマスキングしきい値に対して調節された量子化ノイズが一部の周波数範囲でマスキングしきい値を超え、そのため、聴取者に聞こえる音声雑音が生じることが避けられない。例えば、図１３は、グラフｃで示す復号器側パラメータ化可能フィルタのパラメータ化された周波数応答である。図でわかるとおり、以下ポストフィルタと呼ぶ復号器側フィルタの伝達関数がマスキングしきい値ｂを超える領域がある。この問題点は、パラメータ化値と、その間の補間値との間で十分な変化量があるときにのみ断続的にパラメータ化値が伝送される事実によって、さらに悪化する。記載にもあるとおり、増幅値ａ_#がノード間で、あるいは新規パラメータ化値間で一定である場合に、フィルタ係数ｘ_#の補間だけが可聴雑音をもたらす。記載に示唆されている補間がサイド情報値ａ_#、すなわち伝送増幅値にも適用されるとしても、可聴音声アーチファクトが復号器側に到着する音声信号に残留する場合がある。

図１２および１３による音声コード化スキームの他の問題点は、周波数選択性フィルタリングのため、フィルタ通過信号が予測不可能な形態をとり、この形態では特に多数の個々の高調波がランダムに重なっているため、コード化信号の１つ以上の各音声値が非常に大きな値になり、このため、発生がまれである理由から、その後の冗長度削減での圧縮率が小さくなるという結果をもたらすことである。

本発明の目的は、情報信号の高データ圧縮が、当初の情報信号の質をほとんど劣化させることなく実現されるような、情報信号を量子化するための方法および装置を提供することである。

この目的は請求項１２による方法と、請求項１による装置とで達成される。

本発明による情報値列の情報信号の量子化は、フィルタ通過情報値列を得るために情報値列を周波数選択性フィルタリングするステップと、フィルタ通過情報値を量子化情報値にマッピングし、そのコースがしきい値情報値超よりもしきい値情報値未満で急勾配となる量子化階段関数により量子化情報値列を得るためにフィルタ通過情報値を量子化するステップとを含む。

結果的に得られるフィルタ通過情報信号で人工的に発生されるアーチファクトは、音声信号の周波数選択性フィルタリングから生じるものであり、ここで、個々の情報値は、高調波のすべて、あるいはその多数のランダムな構成的雑音により、例えば、２倍以上といった、当初の信号の最大値よりかなり大きな値をとる。本発明の中心的な考え方は、適当なしきい値、つまり、代表的にはフィルタを通過する当初の情報信号で取りうる最も大きな値の２倍を超えるフィルタ通過情報信号をカットするものであり、これにより、ポストフィルタリング後、周波数選択性により人工的に生成されるアーチファクトがフィルタ通過情報信号から除去、あるいはスムージングされるが、その結果、量子化後にポストフィルタリングされた情報信号の質が劣化しにくいことの一方、適当なしきい値より大きい量子化ステップサイズをカット、あるいは大きくすることで、フィルタ通過情報信号のビット表示がかなり節減できるというものである。

好ましい実施形態によれば、情報信号は音声信号であり、ここでは、あるしきい値より大きい、あるいはそれより小さい選択性量子化により、音声の質における音声劣化がほとんど起こらず、同時にビット表示値がかなり減少する。

それに代わり、しきい値より大きい最大量子化ステップまですべての音声値を量子化するために量子化階段関数を用いる、あるいは、しきい値より大きい平坦コースをもつ、またはしきい値より大きい量子化ステップサイズをもつ量子化階段関数を用いることで、人工的に生成されたアーチファクトの量子化が粗く行われる。

本発明の好ましい実施形態は、添付図面を参照しながら次に詳細が示される。

図１は、本発明の実施形態による音声符号器を示す。全体として１０で示される音声符号器は、図５ａを用いて後にさらに詳細が説明されるとおり、音声値またはサンプル値の列で構成されるコード化される音声信号を受け取るデータ入力部１２と、情報内容については図５ｂを参照しながらさらに詳細に論じるコード化信号が出力されるデータ出力部とを含む。

図１の音声符号器１０は、不要成分削減部１６および冗長度削減部１８に分けられる。不要成分削減部１６は、聴取しきい値を求めるための手段２０と、増幅値を計算するための手段２２と、パラメータ化値を計算するための手段２４と、ノード比較手段２６と、量子化器２８およびパラメータ化可能プレフィルタ３０およびＦＩＦＯ（先入れ先出し）バッファ３２と、バッファあるいはメモリ３８と、乗算器または乗算手段４０とを含む。冗長度削減部１８は、圧縮器３４とビットレート制御装置３６とを含む。

不要成分削減部１６および冗長度削減部１８は、この順番でデータ入力部１２とデータ出力部１４との間に直列接続される。特に、データ入力部１２は、聴取しきい値を求めるための手段２０のデータ入力部と、入力バッファ３２のデータ入力部とに接続される。聴取しきい値を求めるための手段２０のデータ出力部は、パラメータ化値を計算するための手段２４の入力部と、増幅値を計算するための手段２２のデータ入力部とに、求めた聴取しきい値を送るために接続される。手段２２および２４は、聴音しきい値に基づいてパラメータ化値、もしくは増幅値を計算し、これらの結果をノード比較手段２６に送るために該手段に接続される。比較の結果に応じて、次に論じるとおり、ノード比較手段２６は、手段２２および２４で計算された結果を、入力パラメータ、もしくはパラメータ化値としてパラメータ化可能プレフィルタ３０に送る。パラメータ化可能プレフィルタ３０は、入力バッファ３２のデータ出力部と、バッファ３８のデータ入力部との間に接続される。乗算器４０は、バッファ３８のデータ出力部と量子化器２８との間に接続される。量子化器２８は、常に量子化されるが乗算もしくは基準化されるフィルタ通過音声値を、冗長度削減部１８、さらに正確には、圧縮器３４のデータ入力部に送る。ノード比較手段２６は、パラメータ化可能プレフィルタ３０に送られた入力パラメータが導かれる情報を、冗長度削減部１８に、さらに詳細には圧縮器３４の他のデータ入力部に送る。ビットレート制御装置は、以下でさらに詳細を論じるとおり、プレフィルタ３０から受け取った量子化されるフィルタ通過音声値を適当な被乗数により乗算機４０で乗算させるために、制御接続を経由して乗算器４０の制御入力部に接続される。ビットレート制御装置３６は、適当な方式で乗算器４０に対する被乗数を求めるために、圧縮器３４と、音声符号器１０のデータ出力部１４との間に接続される。各音声値が、最初に量子化器４０に渡されると、例えば、１といった適当な倍率に被乗数がまず設定される。しかしながら、次に説明するとおり、バッファ３８は、ビットレート制御装置３６に対して、音声値ブロックの他のパスに対する被乗数を変化させる可能性を与えるために各フィルタ通過音声値を保存し続ける。このような変化がビットレート制御装置３６によって示されない場合、バッファ３８は、このブロックによって占められていたメモリを解放する。

図１の音声符号器の設定を上述のとおり説明したのに続いて、その機能モードについて、図２乃至７ｂを参照しながら説明する。

図２からわかるとおり、音声信号は、音声入力部１２に到達したときには、アナログ音声信号から音声信号サンプリング５０によりすでに取得されている。音声信号サンプリングは、通常の場合、３２〜４８ｋＨｚの所定のサンプリング周波数で行われる。したがって、データ入力部には、サンプル値または音声値の列で構成される音声信号がある。音声信号のコード化はブロックベース方式で行われないが、次の説明で明らかになるように、データ入力部１２の音声値は、ステップ５２で、最初に結合されて、音声ブロックが構成される。音声ブロックを構成するための結合は、以下の説明で明らかになるとおり、聴取しきい値を求める目的のみのために行われ、聴取しきい値を求めるための手段２０の入力段階で行われる。本実施形態では、例示的な仮定として、１２８個の連続的な音声値がそれぞれ結合されて音声ブロックを構成している。この結合では、連続する音声ブロックが重ならないようにする一方で、お互いに直接隣り合うものになるように結合されている。この代表的な例について、図５ａを参照して簡単に説明する。

図５ａの５４はサンプル値列を示すが、各サンプル値が長方形５６で図示される。サンプル値は例示目的のために番号がふられているが、ここでは、わかりやすくするために、列５４のサンプル値の一部だけが示されている。列５４上の大括弧で示されているとおり、本実施形態では１２８個の連続サンプル値がそれぞれ結合されて１つのブロックを構成し、すぐ隣に連続する１２８個のサンプル値が次のブロックを構成する。念のためであるが、重なったブロックまたは離間ブロックおよび別のブロック長をもつブロックなどを種々に結合してブロックを構成することもできるが、順繰りの１２８個のブロック長は、高音声品質と、できるだけ最小の遅延時間との間で良好なトレードオフをもたらすことから好ましい。

ステップ５２において手段２０で結合される音声ブロックは、ブロック毎に聴取しきい値を求めるための手段２０で処理される一方で、送られてくる音声値は、次に説明するとおり、パラメータ化可能プレフィルタ３０がプレフィルタリングを行うためにノード比較手段２６から入力パラメータを得るまで、入力バッファ３２でバッファリングされる（ステップ５４）。

図３でわかるとおり、聴取しきい値を求めるための手段２０は、データ入力部１２で十分な音声値が受信された直後にその処理を開始し、音声ブロックを構成する、あるいは次の音声ブロックを構成する。これを該手段２０はステップ６０での検査によって監視する。完全な処理可能音声ブロックがない場合、手段２０は待機する。処理される完全な音声ブロックがある場合、聴取しきい値を求めるための手段２０は、ステップ６２における適当な心理音響モデルに基づいてステップ６２で聴取しきい値を計算する。聴取しきい値を例示するため、再び図１２、特に、例示として現在の音声ブロックがスペクトルａをもつものとし心理音響モデルに基づいて得られるグラフｂを参照する。ステップ６２で求めたマスキングしきい値は周波数依存関数であり、連続音声ブロックに対して変動し、さらに、例えば、ロック音楽からクラシック音楽曲といった音声信号ごとにかなり変動するものである。聴取しきい値は、各周波数に対して、それ以下であれば人の聴覚が雑音を認識できないしきい値ｂを示す。

以下で詳細に示す直線補間でのパラメータ化値間で不安定さが生じないように、フィルタ３０に対して格子構造を用いることが好ましいが、このとき、この格子構造のフィルタ係数は再パラメータ化され、反射係数を形成する。プレフィルタ、係数計算、再パラメータ化に関するさらなる詳細については、本説明の序論で述べたシューラ（Ｓｃｈｕｌｌｅｒ）らによる記載、特に第ＩＩＩ部のページ３８１を参照するが、これについてはここで言及することにより組み込まれている。

したがって、手段２４は、その伝達関数がマスキングしきい値の逆数に等しくなるようパラメータ化可能プレフィルタ３０に対するパラメータ化値を計算するが、手段２２は、聴取しきい値に基づくノイズパワーリミット、すなわち、ポストもしくは逆フィルタリング後に復号器側の量子化ノイズが聴取しきい値Ｍ（ｆ）未満、もしくは、それとちょうど等しくなるよう、プレフィルタ３０でフィルタリングされた音声信号に量子化器２８がどのノイズパワーを導入できるかを示す限度を計算する。手段２２は、聴取しきい値Ｍの大きさの平方、すなわちΣ｜Ｍ（ｆ）｜²未満の範囲としてノイズパワーリミットを計算する。手段２２は、量子化ノイズパワーをノイズパワーリミットで除した比の根を計算することでノイズパワーリミットから増幅値ａを計算する。量子化ノイズは量子化器２８により発生するノイズである。量子化器２８で発生するノイズは、以下で説明するとおり、ホワイトノイズであるため、周波数依存性である。量子化ノイズパワーは量子化ノイズの出力である。

上の説明で明らかになったとおり、手段２２はまた、増幅値ａとは別にノイズパワーリミットを計算する。手段２２から得られた増幅値ａからノイズパワーリミットをノード比較手段２６で再び計算することは可能であるが、求められたノイズパワーリミットを手段２２が増幅値ａとは別にノード比較手段２６に送ることも可能である。

増幅値およびパラメータ化値の計算後、ノード比較手段２６は、ステップ６６において、計算されたパラメータ化値が、パラメータ化可能プレフィルタに送られた現時点の最終パラメータ化値と所定しきい値以上異なるかどうかを確認する。ステップ６６の確認の結果、計算されたばかりのパラメータ化値が現在のものと所定しきい値以上異なっている場合、計算されたフィルタ係数や計算された増幅値、あるいはノイズパワーリミットは、次に論じる補間のためのノード比較手段２６でバッファリングされ、ノード比較手段２６は、ステップ６８で計算されたフィルタ係数と、ステップ７０で計算された増幅値とをプレフィルタ３０に渡す。しかしながら、これが当てはまらない場合や、計算されたパラメータ化値が現在のものと所定しきい値以上異なっていない場合、ノード比較手段２６は計算されたばかりのパラメータ化値の代わりに、ステップ７２においてプレフィルタ３０に対して、現在のノード表示値のみを渡す。すなわち、ステップ６６で肯定の結果が最後に出たときのパラメータ化値、すなわち、前のノードパラメータ化値と所定しきい値以上異なっている値だけを渡す。ステップ７０および７２の後、図３のプロセスは、次の音声ブロックの処理、すなわちクエリ６０に戻る。

計算されたパラメータ化値が現在のノードパラメータ化値と異ならず、従って、ステップ７２でプレフィルタ３０が再び、少なくとも最終の音声ブロックですでに取得されたノードパラメータ化値を得るような場合、以下でさらに詳細に説明するとおり、プレフィルタ３０は、このノードパラメータ化値を、ＦＩＦＯ３２のこの音声ブロックの全サンプル値に適用する。なお、以下の説明には、現在のブロックがＦＩＦＯ３２からどのように取り出され、量子化器２８がプレフィルタ通過音声値で得られた音声ブロックをどのように受け入れるかについて示されている。

図４は、詳細にいうと現在のノードパラメータ化値とはかなり異なっているため、計算されたパラメータ化値と計算された増幅値とを受け入れる場合のパラメータ化可能プレフィルタ３０の機能モードを例示するものである。図３を参照しながら説明したとおり、図４による処理は、連続音声ブロックのおのおのに対しては実施されないが、各パラメータ化値が現在のノードパラメータ化値と大きく異なっているような音声ブロックに対してのみ実施される。他の音声ブロックは、今説明したとおり、現在の各ノードパラメータ化値と、関連する現在の各増幅値とをこれらの音声ブロックの全サンプル値に適用することでプレフィルタリングされる。

ステップ８０において、パラメータ化可能プレフィルタ３０は、ノード比較手段２６から計算されたフィルタ係数の譲渡が行われたか、あるいは古いノードパラメータ化値の譲渡が行われたかを確認する。プレフィルタ３０は、そのような譲渡が行われるまで確認８０を行う。

そのような譲渡が行われるとすぐに、パラメータ化可能プレフィルタ３０は、バッファ３２でパラメータ化値が計算された音声値の現在の音声ブロックの処理を開始する。図５ａにおいて、例えば、数値０の音声値の前の全音声値５６がすでに処理され、これによりメモリ３２を通過している様子が例示されている。数値０の音声値の前の音声値のブロックの処理が開始されるが、これは、ブロック０の前の音声ブロックに対して計算されたパラメータ化値、すなわちｘ₀（ｉ）が、所定しきい値以上、プレフィルタ３０に対して前に渡されたノードパラメータ化値と異なっているためである。パラメータ化値ｘ₀（ｉ）は、このように、本発明で説明されたノードパラメータ化値である。音声値０の前の音声ブロックの音声値の処理は、パラメータセットａ₀，ｘ₀（ｉ）に基づいて行なわれた。

図５ａにおいて、音声値０−１２７を持つブロック０に対して計算されたパラメータ化値が、前のブロックについてのパラメータ化値ｘ₀（ｉ）から所定しきい値未満しか異なっていないことが仮定されている。このブロック０はプレフィルタ３０によりＦＩＦＯ３２から取り出され、同様に、「直接適用」と記載されている矢印８１で示されているとおり、ステップ７２で供給されるパラメータ化値ｘ₀（ｉ）によりそのすべてのサンプル値０−１２７に関して処理され、その後、量子化器２８に渡される。

しかしながら、その一方、ブロック１に対して計算されたパラメータ化値は、図５ａの例示によれば、パラメータ化値ｘ₀（ｉ）と所定しきい値以上異なって、ＦＩＦＯ３２に依然として位置しており、増幅値ａ₁（ステップ７０）と、適用可能な場合、関連ノイズパワーリミットとともにパラメータ化値ｘ₁（ｉ）としてプレフィルタ３０に対してステップ６８で渡され、ここで、図５における指数ａおよびｘは、以下で論じられる補間で用いるノード用指数であるが、この補間は、矢印８２で示され、図４のステップ８０に続くステップで実現されるブロック１のサンプル値１２８−２５５に関して行われる。ステップ８０における処理は番号１の音声ブロックの発生で開始される。

パラメータセットａ₁，ｘ₁が送られる時点で、音声値１２８−２５５、すなわち、プレフィルタ３０で処理された最終音声ブロック０の後の現在の音声ブロックがメモリ３２内にある。ステップ８０でノードパラメータｘ₁（ｉ）の譲渡を求めた後、プレフィルタ３０は、ステップ８４で、増幅値ａ₁に対応するノイズパワーリミットｑ₁を求める。これは、ステップ６４を参照して上記記載したとおり、ノード比較手段２６がこの値をプレフィルタ３０に送る、あるいはプレフィルタ３０が再びこの値を計算することで行われる。

その後、ＦＩＦＯメモリ３２に残る最も古いサンプル値、あるいは現在の音声ブロック「ブロック１」の最初のサンプル値、すなわち、図５の本例ではサンプル値１２８を示すために、指数ｊはステップ８６でサンプル値に初期化される。ステップ８８において、パラメータ化可能プレフィルタはフィルタ係数ｘ₀およびｘ₁間で補間を行い、ここで、パラメータ化値ｘ₀が前のブロック０の音声値番号１２７をもつノードでのノードとして機能し、パラメータ化値ｘ₁が現在のブロック１の音声値番号２５５をもつノードでのノードとして機能する。これらの音声値位置１２７および２５５は続けてノード０および１として参照され、ここで図５ａでのノードとして参照されるノードパラメータ化値は矢印９０および９２で示される。

ステップ８８において、パラメータ化可能プレフィルタ３０は、サンプル位置ｊにおける補間フィルタ係数、すなわちｘ（ｔ_j）（ｉ），ｉ＝１．．．Ｎを得るために直線補間形態で２つのノード間のフィルタ係数ｘ₀，ｘ₁の補間を行う。

その後、すなわちステップ９０において、パラメータ化可能プレフィルタ３０は、サンプル位置ｊにおける補間ノイズパワーリミット、すなわちｑ（ｔ_j）を得るためにノイズパワーリミットｑ₁およびｑ₀間で補間を行う。

ステップ９２において、パラメータ化可能プレフィルタ３０はその後、補間ノイズパワーリミットと量子化ノイズパワーと、好ましくは、さらに、補間フィルタ係数とに基づいて、すなわち、例えば｛量子化ノイズパワー／ｑ（ｔ_j）｝の根に応じてサンプル位置ｊに対する増幅値を計算するが、この例は、図３のステップ６４に説明されている。

ステップ９４において、パラメータ化可能プレフィルタ３０はその後、このサンプル位置に対するフィルタ通過サンプル値、すなわちｓ’（ｔ_j）を得るために、計算された増幅値および補間フィルタ係数をこのサンプルポジションｊにおけるサンプル値に適用する。

ステップ９６において、パラメータ化可能プレフィルタ３０はその後、サンプル位置ｊが現在のノード、すなわち図５ａのケースではノード１でのサンプル位置２５５、すなわち、パラメータ化可能プレフィルタ３０に送られたパラメータ化値と増幅値とが直接、すなわち、補間なしに有効になるサンプル値に到達したかどうかを確認する。これが当てはまらない場合、パラメータ化可能プレフィルタ３０は指数ｊを１だけ増加させる、すなわち増分させ、ここでステップ８８−９６が繰り返される。しかしながら、ステップ９６における確認が肯定的であれば、パラメータ化可能プレフィルタはステップ１００において、ノード比較手段２６から送られた増幅値および補間なしでノード比較手段２６から直接送られた最後のフィルタ係数を、新規ノードでのサンプル値に適用し、これにより現在のブロック、すなわちこの場合ではブロック１が処理され、この処理が、処理される次のブロックに対してステップ８０で再び実施されるが、これは次の音声ブロックであるブロック２がパラメータ化値ｘ₁（ｉ）と大きく異なっているかどうかにより、この次の音声ブロックであるブロック２、あるいはその後の音声ブロックになる。

フィルタ通過サンプル値ｓ’の処理が図５を参照しながら説明されるさらなる手順の前に、図３および４の手順の目的および背景を以下で説明する。フィルタリングの目的は、適応フィルタを用いて入力部１２で音声信号をフィルタリングすることであり、その伝達関数ができるだけ最良の程度まで聴取しきい値の逆数に対して連続的に調節されるものであるが、これも時間に応じて変化する。この理由は、復号器側では、その伝達関数が、それに対応して連続的に聴取しきい値に対して調節される逆フィルタリングが、フィルタ通過音声信号を量子化することで導入される量子化ホワイトノイズ、すなわち、周波数一定量子化ノイズを、適応フィルタにより形成する、すなわちこれを聴取しきい値の形状に調節するからである。

プレフィルタ３０においてステップ９４および１００での増幅値の適用は、音声信号もしくはフィルタ通過音声信号、すなわちサンプル値ｓあるいはフィルタ通過サンプル値ｓ’ の増幅係数による乗算である。この目的は、これにより、以下で詳細に説明する量子化でフィルタ通過音声信号に導入される量子化ノイズを設定するものであり、これは、聴取しきい値を超えないできるだけ高い聴取しきい値の形態まで復号器側で逆フィルタリングすることで調整されるものである。これは、関数の大きさの平方がフーリエ変換の大きさの平方に等しくなるパーセバル式により実証できる。復号器側で、プレフィルタでの音声信号の増幅値による乗算が、再び、フィルタ通過音声信号を増幅値で除することで反転され、量子化ノイズパワーも、すなわち、ａを増幅値であるとすると、ａ^-2の係数で減少する。従って、量子化ノイズパワーは、プレフィルタ３０で増幅値を適用することで最適の高さ程度まで設定できるが、これは増加する量子化ステップサイズと同じものであるため、コード化される量子化ステップ数が減少し、これはさらに次の冗長度削減部での圧縮度を増加させる。

別の言い方をすると、プレフィルタの効果として、信号をそのマスキングしきい値に正規化するものとみなすことができるため、量子化雑音あるいは量子化ノイズのレベルは時間および周波数の両方で一定に維持できる。音声信号が時間領域にあるため、後で説明するとおり、量子化は、これにより、ステップ毎に均一の一定量子化で行なわれる。このように、理想的には、考え得る不要成分が音声信号から除去され、以下で説明するとおり、ロスレス圧縮スキームを用いて、プレフィルタ通過量子化音声信号の残りの冗長度をさらに除去する。

図５ａを参照すると、当然ながら、用いられるフィルタ係数や増幅値ａ₀，ａ₁，ｘ₀，ｘ₁はサイド情報として復号器で利用可能であるが、この伝送の複雑さが、各ブロックに対する新規フィルタ係数や新規増幅値を単に用いるだけで減少するものでないという点を明示的に指摘する必要がある。むしろ、しきい値確認６６が、十分なパラメータ化値変化のあるサイド情報としてパラメータ化値を転送するためだけに、また他の場合には、サイド情報あるいはパラメータ化値を転送しないよう行われる。古いパラメータ化値から新規パラメータ化値までの補間は、パラメータ化値が転送される音声ブロックで行われる。フィルタ係数の補間は、ステップ８８を参照した上述の方式で行われる。増幅に関する補間は、迂回、すなわちノイズパワーリミットｑ₀，ｑ₁の直線補間９０経由で行われる。増幅値を通した直接補間と比較すると、直線補間は良好な聴取、またはノイズパワーリミットに対して音響アーチファクトがほとんどないという結果がもたらされる。

続いて、プレフィルタ通過信号のさらなる処理は図６を参照しながら説明されるが、これは基本的に量子化および冗長化減少を含む。第１に、パラメータ化可能プレフィルタ３０で出力されたフィルタ通過サンプル値はバッファ３８で保存され、同時に、バッファ３８から乗算器４０に送られ、ここでは、これが最初の通過であることから、まず変更なしで、すなわち乗算器４０により量子化器２８まで倍率１で通過される。ここで、上限より大きなフィルタ通過音声値はステップ１１０でカットされ、ステップ１１２で量子化される。２つのステップ１１０および１１２は量子化器２８により実行される。特に、２つのステップ１１０および１１２は、好ましくは、１つのステップにおいて、浮動小数点図で代表的にあるフィルタ通過音声値ｓ’を複数の整数量子化ステップ値または指数に対してマッピングし、しきい値より大きなフィルタ通過サンプル値が１つの同一量子化ステップに量子化するよう、あるしきい値からフィルタ通過サンプル値に対して平坦なコースをもつ量子化階段関数によりフィルタ通過音声値ｓ’を量子化することで１つのステップで量子化器２８によって実行される。そのような量子化階段関数の例が図７ａで示されている。

量子化されたフィルタ通過サンプル値は図７ａにおいてσ’で示されている。量子化された階段関数は、好ましくは、しきい値より小さな定数であるステップサイズをもつ、すなわち、次の量子化階段への飛越しがつねに入力値Ｓ’に沿った一定間隔後に行われる量子化階段関数である。実施において、しきい値へのステップサイズは、量子化階段数が、好ましくは指数２に対応するよう調節される。入射フィルタ通過サンプル値ｓ’の浮動小数点表示と比較すると、浮動小数点図の表示可能範囲の最大値がしきい値を超えるよう、しきい値は小さくなる。

このしきい値の理由は、プレフィルタ３０により出力されたフィルタ通過音声信号が、しばしば高調波の好ましくない蓄積のために非常に大きい値まで加算する音声値を含むことが観察されるためである。さらに、図７ａで示される量子化階段関数により達成されるとおり、これらの値をカットすることで大きなデータ削減が得られるものの、音声品質の減損はわずかであるということが観察された。むしろ、フィルタ通過音声信号でよく取られる位置は、カットによる音声品質の減損がわずかな範囲になるようパラメータ化可能フィルタ３０での周波数選択性フィルタリングにより人工的に形成される。

図７ａで示される量子化階段関数のもう少し詳細な例は、すべてのフィルタ通過サンプル値ｓ’を次の整数までのしきい値まで丸め、これから、例えば、２５６個といった最大の量子化階段までのすべてのフィルタ通過サンプル値を量子化するものである。この例が図７ａに示される。

考え得る量子化階段関数の他の例は、図７ｂで示されるものである。しきい値まで、図７ｂの量子化階段関数は図７ａの量子化階段関数に対応する。しかしながら、しきい値より大きなサンプル値ｓ’に対して突然に平坦なコースをもつ代わりに、量子化階段関数は、しきい値より小さな領域での勾配より小さい勾配で続く。言い換えると、量子化ステップサイズはしきい値より上で大きなものになる。これにより、図７ａの量子化関数でも同様の効果が達成されるが、一方で、しきい値の上下の量子化階段関数の異なるステップサイズのため、さらに複雑さが増し、他方で、非常に大きなフィルタ通過音声値ｓ’が完全にカットされず、量子化ステップサイズより大きなａだけで量子化されるため、音声品質が改善される。

前に説明したとおり、復号器側では、量子化されフィルタ通過した音声値σ’が利用可能でなければならないだけでなく、これらの値のフィルタリングのベースになるプレフィルタ３０に対する入力パラメータ、すなわち関連増幅値に対するヒントを含むノードパラメータ化値も利用可能でなければならない。ステップ１１４において、圧縮器３４はこれにより、最初の圧縮トライアルを実行し、これにより、ノードにおける増幅値ａ₀およびａ₁、例えば、１２７および２５５や、ノードにおけるフィルタ係数ｘ₀およびｘ₁、時間的フィルタ通過信号までの量子化フィルタ通過サンプル値σ’を含むサイド情報を圧縮する。圧縮器３４はこのように、例えば、予測および／または適合の有無にかかわらず、ハフマンあるいは算術符号器のように、ロスレス作動符号器である。

サンプル音声値σ’が通過するメモリ３８は、量子化器２８により出力され、前に説明したように、量子化されてフィルタ通過し、さらにスケーリングされる音声値σ’を圧縮器３４が処理する適当なブロック長に対するバッファとして機能する。このブロック長は、手段２０で用いられる音声ブロックのブロック長と異なる。

すでに述べたとおり、ビットレート制御装置３６は、フィルタ通過音声値がプレフィルタ３０から量子化器２８まで、また量子化されたフィルタ通過音声値としてそこから圧縮器３４まで変化がないように最初の圧縮トライアルに対して１の被乗数により乗算器４０を制御した。圧縮器３４は、ステップ１１６で、ある圧縮ブロック長、すなわちある数の量子化されたサンプル音声値が一時的なコード化信号にコード化されたかどうか、またはさらに量子化されたフィルタ通過音声値σ’が現在のコード化信号にコード化されるかどうかを監視する。圧縮ブロック長に到達しなかった場合、圧縮器３４は現在の圧縮１１４の実施を続ける。しかしながら、圧縮ブロック長に到達すると、ビットレート制御装置３６はステップ１１８において、圧縮で必要なビット量が必要ビットレートで示されたビット量より大きいかどうかを確認する。これが当たらない場合、ビットレート制御装置３６はステップ１２０において、必要なビット量が、必要ビットレートで示されたビット量より小さいかどうかを確認する。これが当てはまる場合、ビットレート制御装置３６は、ステップ１２２において、必要ビットレートで示されるビット量に到達するまでフィラービットでコード化信号を満たす。次に、コード化信号がステップ１２４で出力される。ステップ１２２の代替法として、ビットレート制御装置３６は、メモリ３８で保存されたままのフィルタ通過音声値σ’の圧縮ブロックを通過させることができるが、このメモリ上で、最終圧縮が、ステップ１２５において破線で示されるとおり、必要ビットレートで示されるビット量に到達するまで、再び通過ステップ１１０−１１８に対して、量子化器２８への乗算器４０による１より大きな被乗数での構成被乗数に基づく。

しかしながら、ステップ１１８での確認により、必要なビット量が必要ビットレートで示されるものよりも大きくなるようといった結果をもたらした場合、ビットレート制御装置３６は乗算器４０に対する被乗数を０および１の間のファクタに変更する。これはステップ１２６で実施される。ステップ１２６の後、ビットレート制御装置３６は、メモリ３８に対して、圧縮がベースとしているフィルタ通過音声値σ’の最終圧縮ブロックを再び出力させるが、ここで、これらの値は次に、ステップ１２６で設定されたファクタで乗算され、再び量子化器２８に供給され、この上でステップ１１０−１１８が再び実施され、それまでに一時的にコード化された信号が廃棄される。

ステップ１１０−１１６を再び実施する場合、ステップ１１４においては、当然ながらステップ１２６（もしくはステップ１２５）で用いられるファクタもコード化信号に統合される点を指摘しなければならない。

ステップ１２６後の手順の目的は、このファクタで量子化器２８の実効ステップ長を大きくすることである。つまり、得られる量子化ノイズはマスキングしきい値より均一に大きく、この結果、音響雑音もしくは音響ノイズが発生するものの、ビットレートが減少する。ステップ１１０−１１６を再び通過した後、ステップ１１８において必要ビット量が必要ビットレートで示されるものより大きいと再び判定された場合、ファクタは再びステップ１２６等で小さくされる。

データが最終的にステップ１２４でコード化信号として出力されると、次の圧縮ブロックが次の量子化フィルタ通過音声値σ’から実施される。

また、１以外の他の前初期化値を乗算ファクタ、すなわち、例えば１として用いることができる。その際、まず、すなわち図６の最初で、いかなる場合でもスケーリングを行う。

図５ｂもまた、全体として１３０で示される結果的に得られるコード化信号を例示する。コード化信号はサイド情報と、その間の主データとを含む。サイド情報は、すでに述べたとおり、特別な音声ブロック、すなわち音声ブロック列でフィルタ係数の大きな変化が起こり、増幅値の値やフィルタ係数の値が導出できる情報を含む。必要な場合、サイド情報は、ビット制御装置で用いられる増幅値に関係するさらなる情報を含む。増幅値およびノイズパワーリミットｑの相互依存性のため、サイド情報は、オプションとして、ノード＃に対する増幅値ａ_#とは別にノイズパワーリミットｑ_#を含んでもよく、あるいは後者だけを含んでもよい。サイド情報は、好ましくは、フィルタ係数および関連増幅値、あるいは関連ノイズパワーリミットに対するサイド情報が量子化フィルタ通過音声値σ’の音声ブロックに対する主データ前に配置されるようコード化信号内で配置されるが、これから、関連増幅値、あるいは関連ノイズパワーリミットとともにこれらのフィルタ係数、すなわち、ブロック−１後のサイド情報ａ₀，ｘ₀（ｉ）およびブロック１後のサイド情報ａ₁，ｘ₁（ｉ）が導出されるように設定される。異なる言い方をすると、主データ、すなわち、音声ブロック列で大きな変化が起こってフィルタ係数が得られる種類の音声ブロックを除くことを発端として、この種類の次の音声ブロックを含めるに至るまでの量子化フィルタ通過音声値σ’、図５では例えば、音声値σ’（ｔ₀）−σ’（ｔ₂₅₅）は、常に、これら２つの音声ブロックの第１のブロック（ブロック−１）に対するサイド情報ブロック１３２と、２つの音声ブロックの第２のブロック（ブロック１）に対する他のサイド情報ブロック１３４との間に配置される。音声値σ’（ｔ₀）−σ’（ｔ₁₂₇）は、図５ａを参照しながら前述したとおり、復号可能である、あるいは復号可能であったが、サイド情報１３２だけで得られたものであり、その一方、音声値σ’（ｔ₁₂₈）−σ’（ｔ₂₅₅）は、サンプル値番号１２７を用いたノードでのサポート値としてサイド情報１３２により、さらにサンプル値番号２５５を用いたノードでのサポート値としてサイド情報１３４による補間で得られたものであり、これにより、両サイド情報によってのみ復号可能である。

さらに、各サイド情報ブロック１３２および１３４における増幅値、あるいはノイズパワーリミットおよびフィルタ係数に関するサイド情報は常にお互いに独立して統合されていない。むしろ、このサイド情報は、前のサイド情報ブロックに対する差で伝送される。例えば、図５ｂにおいて、サイド情報ブロック１３２は、時間ｔ_-1でのノードに関する増幅値ａ₀およびフィルタ係数ｘ₀を含む。サイド情報ブロック１３２において、これらの値はブロックそのものから導出される。しかしながら、サイド情報ブロック１３４から、時間ｔ₂₅₅におけるノードに関するサイド情報はこのブロックだけからはもう導出されない。むしろ、サイド情報ブロック１３４は、時間ｔ₂₅₅でのノードの増幅値ａ₁と時間ｔ₀でのノードの増幅値との差およびフィルタ係数ｘ₁とフィルタ係数ｘ₀との差だけを含む。したがって、サイド情報ブロック１３４は、ａ₁−ａ₀およびｘ₁（ｉ）−ｘ₀（ｉ）に関する情報だけを含む。しかしながら、中断時間において、フィルタ係数および増幅値、またはノイズパワーリミットは、以下で論じる通り、例えば、コード化データのランストリームへの受信機もしくは復号器のラッチを可能にするために、各秒といった、前のノードに対する差として完全に、であるが、それだけではない形で伝送される。

この種のサイド情報をサイド情報ブロック１３２および１３４へ統合することにより、高い圧縮率の可能性という利点がもたらされる。この理由は、サイド情報は、可能な場合、前のノードのフィルタ係数に対するフィルタ係数の十分な変化が得られた場合だけ伝送されるものの、符号器側での差を計算する、あるいは復号器側での合計を計算する複雑さは、得られる差が、エントロピーコード化での利点を可能にするためにステップ６６のクエリに代わって小さいため、ペイオフする。

音声符号器の実施形態が説明された後、図１の音声符号器１０により生成されたコード化信号を復号再生可能、もしくは処理可能音声信号に復号する上で適切な音声復号器の実施形態が次に説明される。

この復号器の構成を図８に示す。全体として２１０で示される復号器は、復元器２１２と、ＦＩＦＯメモリ２１４と、乗算器２１６と、パラメータ化可能ポストフィルタ２１８とを含む。復元器２１２と、ＦＩＦＯメモリ２１４と、乗算器２１６と、パラメータ化可能ポストフィルタ２１８とは、この順番で、復号器２１０のデータ入力部２２０とデータ出力部２２２との間で接続され、ここで、コード化信号はデータ入力部２２０で受け入れられ、音声符号器１０の量子化器２８で生成された量子化ノイズにより音声符号器１０のデータ入力部１２の当初の音声信号と異なる分だけ復号された音声信号がデータ出力部２２２で出力される。復元器２１２は、被乗数を送るための他のデータ出力部における乗算器２１６の制御入力部と、他のデータ出力部経由でパラメータ化可能ポストフィルタ２１８のパラメータ化値入力部とに接続される。

図９で示されるとおり、復元器２１２は、量子化フィルタ通過音声データ、すなわちサンプル値σ’を得るために、最初にステップ２２４でデータ入力部２２０での圧縮信号を復元し、既知の通り、サイド情報ブロック１３２，１３４の関連サイド情報は、フィルタ係数および増幅値、あるいは増幅値の代わりにノードにおけるノイズパワーリミットを示す。

図１０で示されるとおり、復元器２１２は、ステップ２２６において、フィルタ係数をもつサイド情報が前のサイド情報ブロックに関係して差がなく、内蔵内包されているかどうかを出現の順番で復元信号を確認する。言い方を変えると、復元器２１２は第１のサイド情報ブロック１３２を探す。復元器２１２が何らかのものを見出すとすぐに、量子化フィルタ通過音声値σ’がステップ２２８においてＦＩＦＯメモリ２１４でバッファリングされる。量子化されたフィルタ通過音声値σ’の完全な音声ブロックがステップ２２８でサイド情報ブロックに直接従うことなく保存された場合、まず、ポストフィルタのパラメータ化値および増幅値に関して、ステップ２２６で受け入れられ、乗算器２１６で増幅されたサイド情報に含まれる情報によってステップ２２８でポストフィルタリングされるが、これはどのように復号され、これにより関連する復号音声ブロックが達成されるかというものである。

ステップ２３０において、復元器２１２は、任意の種類のサイド情報ブロックの発生に対する復元された信号、すなわち、完全なフィルタ係数、あるいは前のサイド情報ブロックに対するフィルタ係数の差をもつものを監視する。図５ｂの例において、復元器２１２は、例えば、ステップ２２６でサイド情報ブロック１３２を認識すると同時に、ステップ２３０でサイド情報ブロック１３４の発生を認識する。これにより、量子化されたフィルタ通過音声値σ’（ｔ₀）−σ’（ｔ₁₂₇）のブロックは、サイド情報１３２を用いて、ステップ２２８で復号されたことになる。復元された信号のサイド情報ブロック１３４が発生しない限り、ブロックのバッファ、および場合によって復号は、前述のとおり、ステップ２２６のサイド情報によりステップ２２８で継続される。

サイド情報ブロック１３２が発生するとすぐに、復元器２１２は、ノード１、すなわちａ₁，ｘ₁（ｉ）にあるパラメータ値をステップ２３２において、サイド情報ブロック１３４の差の値およびサイド情報ブロック１３２のパラメータ値を加算することで計算する。ステップ２３２は、現在のサイド情報ブロックが差のない内蔵サイド情報ブロックである場合、当然ながら無視されるが、これは、前に説明したとおり、代表的には毎秒発生する。復号器２１０に対する待機時間が長くなりすぎないようにするため、パラメータ値が絶対的に、すなわち他のサイド情報ブロックとの関連なしで導出されるサイド情報ブロック１３２が十分小さな距離で配置されるため、例えば、無線通信、あるいは放送送信といった場合に音声符号器２１０のスイッチングにおける入切の時間が大きくなりすぎない。好ましくは、異なる値で間に配列されたサイド情報ブロック１３２の数は、サイド情報ブロック１３２間の固定された所定数で配置されるため、復号器はタイプ１３２のサイド情報ブロックが再びコード化信号でいつ予想されるかを認識する。その他の場合、異なるサイド情報ブロックタイプが、対応するフラグにより示される。

図１１で示されているとおり、新規ノードに対するサイド情報ブロックが到達した後、特にステップ２２６または２３２の後、サンプル値指数ｊは、まずステップ２３４で０に初期化される。この値は、現在のサイド情報が関係するＦＩＦＯ２１４で現在残っている音声ブロックにおける第１サンプル値のサンプル位置に対応する。ステップ２３４はパラメータ化可能ポストフィルタ２１８によって実行される。ポストフィルタ２１８はその後、ステップ２３６で新規ノードでのノイズパワーリミットを計算し、ここでこのステップは、図４のステップ８４に対応し、例えば、ノードにおけるノイズパワーリミットが増幅値に追加して伝送される場合には無視される。次のステップ２３８および２４０において、ポストフィルタ２１８は、図４の補間８８および９０に対応するフィルタ係数およびノイズパワーリミットに関して補間を行う。ステップ２４２における、ステップ２３８および２４０の補間ノイズパワーリミットおよび補間フィルタ係数に基づくサンプル位置ｊに対する増幅値の次の計算は、図４のステップ９２に対応する。ステップ２４４において、ポストフィルタ２１８は、ステップ２４２で計算された増幅値と補間フィルタ係数とをサンプル位置ｊのサンプル値に適用する。このステップは、パラメータ化可能ポストフィルタの伝達関数が聴取しきい値の逆数に対応せず、聴取しきい値そのものに対応するよう、補間フィルタ係数が量子化されたフィルタ通過サンプル値σ’に適用される点で、図４のステップ９４と異なっている。さらに、ポストフィルタは増幅値での乗算を行わず、量子化されたフィルタ通過サンプル値σ’、もしくは位置ｊですでに逆フィルタリングされた量子化フィルタ通過サンプル値での増幅値による除算を行う。

ポストフィルタ２１８が、ステップ２４６で確認するサンプル位置ｊの現在のノードに到達しない場合、ステップ２４８でのサンプル位置指数ｊを増分し、ステップ２３８−２４６を再開する。ノードに到達した場合のみ、新規ノードの増幅値およびフィルタ係数がノード、すなわち、ステップ２５０のサンプル値に適用される。この適用は次に、ステップ２１８と同様に、増幅値による除算と、聴取しきい値に等しく、乗算の代わりに後者の逆数に等しくない伝達関数を用いたフィルタリングとを含む。ステップ２５０後、現在の音声ブロックは２つのノードパラメータ化値間の補間により復号される。

すでに述べたとおり、ステップ１１０または１１２でのコード化を行う際に量子化で導入されたノイズが、ステップ２１８および２２４でのフィルタリングおよび増幅値の適用により聴取しきい値に対して形状および大きさの両方で調節される。

量子化されたフィルタ通過音声値が、コード化信号へのコード化前にビットレート制御装置によりステップ１２６で他の乗算がなされる場合、このファクタはまた、ステップ２１８および２２４で考慮される点も指摘される。また、図１１のプロセスで得られた音声値は当然ながら、他の乗算が行われ、相応して、低ビットレートで弱められた音声値を再び増幅する。

図３，４，６および９−１１に関して、図１の符号器、または図８の復号器の機能モードを例示するフロー図を示し、説明したとおり、ブロックによるフロー図で例示されたステップのおのおのが、前述のとおり、対応する手段で実施される点が指摘される。各ステップの実施は、ＡＳＩＣ回路部としてハードウェアと、サブルーチンとしてソフトウェアで実現される。特に、これらの図のブロックに書き込まれた説明は、各ブロックに対する各ステップが言及するプロセスを概略で示す一方、ブロック間の矢印は、符号器および復号器をそれぞれ作動させる場合のステップの順番を例示する。

前の説明を参照すると、上で例示されたコード化スキームが多くの点で変わっている点も指摘される。代表的には、ある音声ブロックに対して求めたパラメータ化値および増幅値、またはノイズパワーリミットにとって、前記実施形態での各音声ブロックの最後の各音声値、すなわち、この音声ブロックにおける１２８番目の値のように、この音声値に対する補間が無視されるように、ある音声値にとって直接有効なものとみなすことは必要でない。むしろ、補間が各音声値に対して必要になるよう、これらのノードパラメータ値を、一時的にこの音声ブロックの音声値のサンプル時間ｔ_n，ｎ＝０，．．．，１２７間にあるノードと関連付けることが可能である。特に、音声ブロックに対して求められるパラメータ化値、あるいはこの音声ブロックに対して求められる増幅値についても、例えば、音声ブロックの中間の音声値、例えば、１２８個の上述の音声値のブロック長のような場合には６４番目の音声値といった他の値に対して間接的に適用される。

さらに、上述の実施形態は、制御されたビットレートを用いてコード化された信号を発生させるために設計された音声コード化スキームとして言及されることが指摘される。しかしながら、ビットレートの制御は、適用の全てのケースで必要とされない。この理由は、対応するステップ１１６〜１２２および１２６または１２５は無視される可能性があるからである。

ステップ１１４を参照しながら述べた圧縮スキームを参照すると、完全性という理由のため、説明の導入部で説明したシューラー（Ｓｃｕｌｌｅｒ）らによる文書、特に、分冊ＩＶが参照されているが、ロスレスコード化による冗長度削減に関するその内容は、ここでは引用によって組み込まれている。

以下の記述は上述の説明を参照しながら指摘されるものである。本発明は、上記の通り遅延時間を短くできる特別な音声コード化スキームを参照しながら説明されたが、本発明は、当然ながら、異なる音声コード化に適用してもよい。代表的には、音声コード化スキームについて、コード化信号が、冗長度削減が実施されることなく、まさしく量子化されたフィルタ通過音声値で構成される場合も考え得る。したがって、前に説明した方法、すなわち符号器側では伝達関数が聴取しきい値の逆数に等しく、復号器側では伝達関数が聴取しきい値に等しい方法と異なる周波数選択性フィルタリングを行うことも考えられる。

さらに、上記実施形態の個々の観点は無視できる。これにより、例えば、圧縮率を下げる場合、各音声ブロックを参照しながらサイド情報を伝送する、補間を無視する、および／または内蔵サイド情報ブロックのサイド情報のパラメータを、前のサイド情報ブロックに関連する差としてではなく常に伝送することが可能である。

さらに、本発明は音声信号に限られない。本発明はまた、例えば、フレーム列、すなわち画素アレイ列で構成されるビデオ信号といった異なる情報信号にも適用される。

いかなる場合でも、上述の音声コード化スキームにより、遅延時間が非常に短い音声符号器のビットレートを制限する方法がもたらされる。音声信号に応じてコード化する場合に得られるビットレートピークは、プレフィルタの開始値範囲を制限することで避けることができる。従って、これが伝送に対して異なる高ビットレートがもたらされる伝送される音声信号の特性に対応する、すなわち、さらに複雑な音声信号が高ビットレートをもたらし、複雑でない音声信号が低ビットレートをもたらすことから、例えば、無線伝送媒体内にある伝送のビットレートに対する上限を常に満たすことができる。しきい値より大きな量子化階段関数における変化は、認められた最大値までビットレートを制限するための適切な手段である。

上述の実施形態において、符号器は、適切な方式で音声信号を形成するプレフィルタを含み、量子化器はエントロピー符号器に続いて量子化ステップ長をもつ。量子化器は、指標としても言及される発生値をもつ。一般的に、高指数はまた、それに接続された高ビットレートを意味するが、これは、指数の範囲を制限する（図７ａ）、あるいはそれを間引く（図７ｂ）ことで避けられてきたが、音声品質を悪化させる可能性をはらんでいる。

さらに、以下の記述は、前記実施形態を参照して指摘するものである。量子化を行う場合、あるいは量子化階段関数が常に一定である場合、しきい値は常に一定のままである、すなわちフィルタ通過音声信号で発生するアーチファクトが常に量子化される、あるいはラッファにより量子化値をカットし、これは聴取可能な程度まで音声品質を悪化させうるということを前に説明したが、音声信号の複雑さがこれを必要とする、すなわち、コード化で必要なビットレートが必要ビットレートを超える場合のみ、これらの方策を用いることも可能である。この場合、図７ａおよび７ｂで示される量子化階段関数に加えて、例えば、プレフィルタの出力部で取りうる値の全範囲にわたって一定の量子化ステップ長をもつものを用いて、量子化器が、例えば、常に一定の量子化ステップ長の量子化階段関数、あるいは図７ａまたは７ｂによる量子化階段関数の内の１つのいずれかを用いるよう、ある信号に応答することで、量子化器が信号によって、音声品質の悪化がほとんどないまま、しきい値より大きな量子化階段の低下、あるいはしきい値より大きなもののカットを行わせることができる。その他の場合、しきい値を徐々に減じることも可能である。この場合、しきい値減少を、ステップ１２６のファクタ減少の代わりに行うことがある。ステップ１１０なしで第１の圧縮トライアルを行った後、ビットレートが依然として高すぎる（１１８）場合に、一時的な圧縮信号に対して、改良ステップ１２６の選択性しきい値量子化だけが行われる。他のケースでは、フィルタ通過音声信号がその後、音声しきい値より大きな平坦コースをもつ量子化階段関数を用いて量子化される。さらなるビットレート減少は、しきい値を低下させ、これにより量子化階段関数の他の改良を行うことで改良ステップ１２６において実施される。

特に、状況に応じて、本発明の音声コード化スキームをソフトウェア内で実施することができる点を指摘する必要がある。この実施はデジタル保存媒体、特に電子的に読み出される制御信号をもち、当該方法が実行されるようプログラム可能コンピュータシステムと協動するディスクまたはＣＤ上であってもよい。一般に、本発明は、コンピュータプログラム製品がコンピュータ上で実行される際に、本発明を実施するための機械読み込み可能キャリア上に保存されたプログラムコードをもつコンピュータプログラム製品内にある。言い換えると、本発明はまた、コンピュータプログラムがコンピュータ上で作動する際に本発明を実施するためのプログラムコードをもつコンピュータプログラムとして実現される。

特に、フロー図のブロック内の上記方法ステップは、個別に実施される、あるいはサブプログラムルーチンで複数のものとともにグループでも実施される。また、これらのブロックが、例えば、ＡＳＩＣの個々の回路部分として実施される場合、集積回路の形態での本発明の装置の実施も当然ながら可能である。

特に、状況に応じて、本発明のスキームをソフトウェア内で実施することができる点を指摘する必要がある。この実施はデジタル保存媒体、特に電子的に読み出される制御信号をもち、当該方法が実行されるようプログラム可能コンピュータシステムと協動するディスクまたはＣＤ上であってもよい。一般に、本発明は、このように、コンピュータプログラムがコンピュータ上で実行される際に、本発明を実施するための機械読み込み可能キャリア上に保存されたプログラムコードをもつコンピュータプログラム製品内にある。言い換えると、本発明はまた、コンピュータプログラムがコンピュータ上で作動する際に本発明を実施するためのプログラムコードをもつコンピュータプログラムとして実現される。

図１は、本発明の実施形態による音声符号器のブロック回路図である。図２は、データ入力点における図１の音声符号器の機能モードを示すフロー図である。図３は、心理音響モデルで送られてくる音声信号の評価に関して、図１の音声符号器の機能モードを示すフロー図である。図４は、心理音響モデルで得られたパラメータを送られてくる音声信号に適用することに関して、図１の音声符号器の機能モードを示すフロー図である。図５ａは、送られてくる音声信号と、それに含まれる音声値列と、音声値に関する図４の作動ステップとを示す図解図であり、図５ｂは、コード化信号の構成を示す図解図である。図６は、コード化信号までの最終処理に関して、図１の音声符号器の機能モードを示すフロー図である。図７ａは、量子化階段関数の実施形態を示す図である。図７ｂは、量子化階段関数の他の実施形態を示す図である。図８は、本発明の実施形態による、図１の音声符号器によりコード化される音声信号を復号できる音声符号器のブロック回路図である。図９は、データ入力点における図８の復号器の機能モードを示すフロー図である。図１０は、あらかじめ復号された量子化・フィルタ通過音声データのバッファおよび対応サイド情報なしで音声ブロックの処理を行うことに関して、図８の復号器の機能モードを示すフロー図である。図１１は、実際の逆フィルタリングに関して、図８の復号器の機能モードを示すフロー図である。図１２は、短遅延時間の従来の音声コード化スキームを示す図解図である。図１３は、代表的に、音声信号のスペクトルと、その聴取しきい値と、復号器のポストフィルタの伝達関数とを示す図である。

Claims

音声値列の音声信号をコード化する装置であって、前記装置は、
心理音響モデルを用いて、音声値列の中の音声値ブロックに対する第１マスキングしきい値を求める手段と、
フィルタ通過音声値列を得るためのパラメータ化可能フィルタを示し、それを用いて音声値列を周波数選択性フィルタリングする手段と、
パラメータ化可能フィルタ（３０）の伝達関数が第１マスキングしきい値の大きさの逆数にほぼ対応するよう、前記パラメータ化可能フィルタの計算されたパラメータ化値を計算する手段と、
前記フィルタ通過音声値を量子化音声値にマッピングし、しきい値情報値を超えるときよりも前記しきい値情報値未満の方が急勾配になるコースをとる量子化階段関数により前記量子化音声値の列を得るために、前記フィルタ通過音声値を量子化する手段とを備え、
周波数選択性フィルタリングする手段が、
前記フィルタ通過音声値の所定ブロックを得るために計算されたパラメータ化値に所定方式で応じる所定パラメータ化値を用いて、前記パラメータ化可能フィルタを用いることにより前記音声値列の中の音声値の所定ブロックを周波数選択性フィルタリングするように構成される、装置。
マスキングしきい値を求める手段が音声値の他の第２ブロックに対する他の第２マスキングしきい値をさらに求めるように形成され、計算する手段が、前記伝達関数が前記第２マスキングしきい値の大きさの逆数にほぼ対応するよう、パラメータ化可能フィルタの他の第２パラメータ化値を計算するよう形成され、前記所定ブロックは第１および第２ブロックの間にあるかまたは第２ブロックであり、周波数選択性フィルタリングする手段が、
音声値の前記所定ブロックの所定音声値に対する補間パラメータ化値を得るために第１パラメータ化値と第２パラメータ化値との間で補間する手段を含み、
所定音声値に対応するフィルタ通過音声値の所定ブロックのフィルタ通過音声値を得るために、補間パラメータ化値を用いるように構成された、請求項１に記載の装置。
前記装置がさらに、第１マスキングしきい値に応じて第１量子化ノイズパワーリミットと、第２マスキングしきい値に応じて第２量子化ノイズパワーリミットを求める手段（２２）を備え、周波数選択性フィルタリングする手段が、音声値の前記所定ブロックの所定音声値に対する補間量子化ノイズパワーリミットを得るために前記第１量子化ノイズパワーリミットと前記第２量子化ノイズパワーリミットとの間で補間する手段（９０）と、量子化手段による量子化および補間量子化ノイズパワーリミットにより生じる量子化ノイズパワーに応じて中間段階値を求める手段（９２）とを含み、段階をつけられたフィルタ通過音声値を得るために所定音声値に対応するフィルタ通過音声値に段階をつけるするように構成される、請求項２に記載の装置。
前記第１量子化ノイズパワーリミットと前記第２量子化ノイズパワーリミットとの間で補間する手段が直線補間を用いるように構成される、請求項３に記載の装置。
前記中間段階値を求める手段が、前記補間量子化ノイズパワーリミットにより除される前記量子化ノイズパワーの商の根を計算するように構成される、請求項３または請求項４に記載の装置。
前記しきい値情報値より大きな全てのフィルタ通過音声値が最大量子化階段値に量子化されるよう、前記量子化階段関数が前記しきい値情報値を超えてから平坦になっている、請求項１ないし請求項５のいずれかに記載の装置。
音声値列の音声信号をコード化する方法であって、前記方法が、
フィルタ通過音声値列を得るためにパラメータ化可能フィルタを用いて音声値列を周波数選択性フィルタリングするステップと、
前記フィルタ通過音声値を量子化音声値にマッピングし、しきい値情報値を超えているときよりも、前記しきい値情報値未満の方が急勾配になるコースをとる量子化階段関数により前記量子化音声値の列を得るために、前記フィルタ通過音声値を量子化するステップと、
心理音響モデルを用いて、前記音声値列の中の音声値ブロックに対する第１マスキングしきい値を求めるステップと、
パラメータ化可能フィルタの伝達関数が第１マスキングしきい値の大きさの逆数にほぼ対応するよう、前記パラメータ化可能フィルタの計算されたパラメータ化値を計算するステップとを含み、
周波数選択性フィルタリングのステップは、前記音声値列の中の音声値の所定ブロックが、前記フィルタ通過音声値の所定ブロックを得るために計算されたパラメータ化値に所定方式で応じる所定パラメータ化値を用いて、パラメータ化可能フィルタを用いて周波数選択性フィルタリングされるように機能する、方法。
コンピュータに、請求項７に記載の方法を実行させるコンピュータプログラム。