JP6184519B2

JP6184519B2 - 音声信号復号化または符号化の時間領域レベル調整

Info

Publication number: JP6184519B2
Application number: JP2015553045A
Authority: JP
Inventors: シュテファンシュライナー; アーンボルズム; マティアスノイズィンガー; マーヌエルヤンデア; マルクスローワッサー; ベルンハルトノイゲバウアー
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2013-01-18
Filing date: 2014-01-07
Publication date: 2017-08-23
Anticipated expiration: 2034-01-07
Also published as: US9830915B2; EP2946384A1; BR112015017293B1; EP2757558A1; KR101953648B1; KR20150106929A; ES2604983T3; BR112015017293A2; CN105210149A; CA2898005A1; US20160019898A1; CA2898005C; EP2946384B1; MX2015009171A; JP2016505168A; CN105210149B; WO2014111290A1; MX346358B; RU2608878C1; KR20170104661A

Description

本発明は音声信号符号化、復号化および処理に関し、特に、対応する周波数−時間コンバータ（または時間−周波数コンバータ）のダイナミックレンジに周波数−時間変換される（時間−周波数変換される）信号のレベルの調整に関する。本発明のいくつかの実施例は、固定小数点または整数演算により実行される対応するコンバータのダイナミックレンジに周波数−時間変換される（または時間−周波数返還される）信号のレベルを調整することに関する。本発明の更なる実施例は、サイド情報と組み合わされて時間領域レベルの調整を用いたスペクトル復号化音声信号のためのクリッピング防止に関する。

音声信号処理は、ますます重要になる。最新の知覚的な音声コーデックが満足な音声品質をますます低ビットレートで提供することを必要とするのに伴って挑戦が生まれる。

現在の音声コンテンツ制作およびデリバリーチェーンにおいて、デジタル的に利用できるマスターコンテンツ（ＰＣＭストリーム（パルス符号変調ストリーム））は、例えば、コンテンツ作成側で専門のＡＡＣ（アドバンスト・オーディオ・コーディング）エンコーダによって符号化される。結果として生じるＡＡＣビットストリームは、それからオンライン・デジタルメディア・ストアで例えば購入に使えるようにされる。いくつかの復号化されたＰＣＭサンプルは、まれに、出力波形のために（例えば、ＰＣＭにしたがって変調された）一様に量子化された固定小数点表現の基本的なビット分解能（例えば１６ビット）によって表されることができる最大レベルに到達する２つ以上の連続したサンプルを意味する「クリッピング」であることが出現した。これは、聞き取れるアーチファクト（クリックまたは短い歪み）につながるかもしれない。一般的に、デコーダ側におけるクリッピングの発生を防止するためにエンコーダ側で取り組みがなされるが、それにもかかわらず、例えば異なるデコーダ実装、丸め誤差、伝送エラー等のさまざまな理由により、クリッピングはデコーダ側で発生する。エンコーダの入力における音声信号がクリッピングの閾値以下であると仮定すると、最新の知覚的音声エンコーダにおけるクリッピングの理由は多種多様である。第一に、音声エンコーダは、伝送データの割合を減らすために、入力波形の周波数分解において利用できる伝送信号に対して量子化を適用する。周波数領域における量子化エラーは、オリジナルの波形に関して信号の振幅および位相の少ない偏差という結果になる。振幅または位相エラーが意味をなす場合、時間領域において結果として得られるアティテュードは一時的にオリジナルの波形より高い。第２に、パラメータの符号化方法（例えば、スペクトル帯域複製、ＳＢＲ）は、信号電力をかなりの速度でパラメータ化する。位相情報は、典型的には省略される。したがって、レシーバ側の信号は、正確な電力で再生されるだけであり、波形保存はない。フルスケールに近い振幅を有する信号は、クリッピングする傾向がある。

最新の音声符号化システムは、デコーダに統一レベルを有する再生のための音量を調整する可能性を与える音量レベルパラメータ（ｇ１）を伝達する可能性を提供する。一般に、音声信号が十分に高いレベルで符号化され、伝送された正規化ゲインが増加する音量レベルを示す場合、これはクリッピングに至るかもしれない。さらに、音声コンテンツ（特に音楽）をマスターする際の一般的な方法は、音声信号を音声コーデックによって粗く量子化されるときに音声信号のクリッピングを得る可能な限りの値に増加させることである。

音声信号のクリッピングを妨げるために、いわゆるリミッタは、音声レベルを制限するための適切な手段として公知である。入って来る音声信号が特定の閾値を上回る場合、リミッタは起動して、音声信号が出力で所定のレベルを上回らないように音声信号を減少させる。残念なことに、リミッタの前に、（ダイナミックレンジおよび／またはビット分解能に関して）充分なヘッドルームが必要とされる。

通常、いかなる音量正規化も、いわゆる「ダイナミックレンジの制御」（ＤＲＣ）と共に、周波数領域において成し遂げられる。正規化ゲインがフィルタバンクの重なりのため、フレームからフレームまで変化する場合であっても、これは音量正常化の滑らかな混合を許容する。

さらに、不十分な量子化またはパラメータ記述のため、オリジナルのオーディオがクリッピング閾値の近くのレベルでマスターされた場合、いかなる符号化音声信号もクリッピングの状態になるかもしれない。

一般的に、固定小数点演算に基づいて計算量、メモリ使用量および消費電力値を非常に効率的なデジタル信号処理デバイスでできるだけ少なく保つことが望ましい。このために、音声サンプルのワード長をできるだけ少なく保つことも望ましい。音量正規化によるクリッピングのためのいかなる潜在的ヘッドルームを考慮に入れるために、概して音声エンコーダまたはデコーダの一部であるフィルタバンクは、より高いワード長によって設計されなければならない。

データ精度を失うことなく、および／またはデコーダ・フィルタ・バンクまたはエンコーダ・フィルタ・バンクのためのより高いワード長を使用する必要なく、信号の制限を許容することは望ましい。選択的に、または、加えて、周波数−時間変換またはその逆となる信号の関連するダイナミックレンジが、フレームごとに連続した時間セクションまたは信号の「フレーム」に基づいて連続的に決定されることができ、それによって、現在の関連するダイナミックレンジがコンバータ（周波数−時間領域コンバータまたは時間−周波数領域コンバータ）によって与えられるダイナミックレンジに適合するように信号のレベルが与えられることができれば望ましい。周波数−時間変換または時間−周波数変換を実質的にデコーダまたはエンコーダのほかのコンポーネントに「透明にする」目的でこの種のレベル・シフトをすることは望ましい。

これらの要求および／または可能な更なる要求のうちの少なくとも１つは、請求項１に記載の音声信号デコーダ、請求項１４に記載の音声信号エンコーダ、および、請求項１５に記載の符号化された音声信号表現を復号化する方法によって対処される。

符号化された音声信号表現に基づいて復号化された音声信号表現を提供するための音声信号デコーダが提供される。音声信号デコーダは、符号化された音声信号表現から複数の周波数帯域信号を得るように構成されたデコーダ前処理ステージを含む。さらに、音声信号デコーダは、符号化された音声信号表現、複数の周波数信号、および／またはサイド情報が符号化された音声信号表現の現在のレベル・シフト係数を決定するために潜在的あるクリッピングを示しているかどうかに関して、符号化された音声信号表現、複数の周波数信号、および符号化された音声信号表現の周波数帯域信号のゲインに関連するサイド情報の少なくとも１つを分析するように構成されたクリッピング推定器を含む。サイド情報が潜在的クリッピングを示すとき、現在のレベル・シフト係数は、少なくとも１つの最上位ビットでヘッドルームが得られるように、最下位ビットにシフトされる複数の周波数帯域信号の情報を引き起こす。音声信号デコーダは、さらに、レベル・シフトされた周波数帯域信号を得るためのレベル・シフト係数に従って周波数帯域信号のレベルをシフトするように構成されたレベルシフタを含む。さらに、音声信号デコーダは、レベルシフタ周波数帯域信号を時間領域表現に変換するように構成された周波数−時間領域コンバータを含む。音声信号デコーダは、さらに、レベルシフタによってレベルシフタ周波数帯域信号に適用されるレベル・シフトを少なくとも部分的に補償し、十分に補償された時間領域表現を得るために時間領域表現について決定するように構成されたレベル・シフト補償器を含む。

本発明の更なる実施例は、入力音声信号の時間領域表現に基づく符号化された音声信号表現を提供するように構成される音声信号エンコーダを提供する。音声信号エンコーダは、入力信号プレゼンテーションのための現在のレベル・シフト係数を決定するために潜在的クリッピングが示されるかどうかに関して入力音声信号の時間領域表現を分析するように構成されるクリッピング推定器を含む。潜在的クリッピングが示されるとき、現在のレベル・シフト係数は少なくとも１つの最上位ビットでヘッドルームが得られるように最下位ビットに向かってシフトされる入力音声信号の時間領域表現を生じさせる。さらに、音声信号エンコーダは、レベル・シフトされた時間領域表現を得るためのレベル・シフト係数に従って入力音声信号の時間領域表現のレベルをシフトするように構成されるレベルシフタを含む。さらに、音声信号エンコーダは、レベル・シフトされた時間領域表現を複数の周波数帯域信号に変換するように構成された時間−周波数領域コンバータを含む。音声信号エンコーダは、さらに、レベルシフタによってレベルシフタ時間領域表現に適用されるレベル・シフトを少なくとも部分的に補償し、複数の十分に補償された周波数帯域信号を得るために複数の周波数帯域信号について決定するように構成されたレベル・シフト補償器を含む。

本発明の更なる実施例は、復号化された音声信号表現を得るために符号化された音声信号プレゼンテーションを復号化するための方法を提供する。方法は、複数の周波数帯域信号を得るために符号化された音声信号表現を前処理するプロセスを含む。方法は、さらに、符号化された音声信号プレゼンテーションのための現在のレベル・シフト係数を決定するために潜在的クリッピングが示されるかどうかに関して、符号化音声信号表現、周波数帯域信号、および周波数帯域信号のゲインに関連するサイド信号の少なくとも１つを分析する工程を含む。潜在的クリッピングが示されるとき、現在のレベル・シフト係数は、少なくとも１つの最上位ビットでヘッドルームが得られるように、最下位ビットにシフトされる入力音声信号の時間領域表現を引き起こす。さらに、方法は、レベル・シフトされた周波数帯域信号を得るためのレベル・シフト係数に従って周波数帯域信号のレベルをシフトする工程を含む。さらに、方法は、周波数帯域信号を時間領域表現に周波数−時間領域変換する工程を含む。方法は、さらに、レベル・シフトされた周波数帯域信号に適用されるレベル・シフトを少なくとも部分的に補償するために時間領域表現について決定する工程を含む。

さらにまた、コンピュータまたは信号処理器で実行されるときに、上述の方法を実施するためのコンピュータプログラムが提供される。

更なる実施例は、符号化された音声信号表現に基づいて復号化された音声信号表現を提供するための音声信号デコーダを提供する。音声信号デコーダは、符号化された音声信号プレゼンテーションから複数の周波数帯域信号を得るように構成されるデコーダ前処理ステージを含む。さらに、音声信号デコーダは、符号化された音声信号表現のための現在のレベル・シフト係数を決定するために、符号化された音声信号表現、複数の周波数信号、および符号化された音声信号表現の周波数帯域信号のゲインに関連するサイド情報の少なくとも１つを分析するように構成されたクリッピング推定器を含む。音声信号デコーダは、レベル・シフトされた周波数帯域信号を得るためのレベル・シフト係数に従って周波数帯域信号のレベルをシフトするように構成されたレベルシフタを含む。さらに、音声信号デコーダは、レベルシフタ周波数帯域信号を時間領域表現に変換するように構成された周波数−時間領域コンバータを含む。音声信号デコーダは、さらに、レベルシフタによってレベルシフタ周波数帯域信号に適用されるレベル・シフトを少なくとも部分的に補償し、十分に補償された時間領域表現を得るために時間領域表現について決定するように構成されたレベル・シフト補償器を含む。

本発明の更なる実施例は、入力音声信号の時間領域表現に基づいて符号化された音声信号表現を提供するように構成された音声信号エンコーダを提供する。音声信号エンコーダは、入力信号プレゼンテーションのための現在のレベル・シフト係数を決定するために入力音声信号の時間領域表現を分析するように構成されるクリッピング推定器を含む。音声信号エンコーダは、さらに、レベル・シフトされた時間領域表現を得るためのレベル・シフト係数に従って入力音声信号の時間領域表現のレベルをシフトするように構成されるレベルシフタを含む。さらに、音声信号エンコーダは、レベル・シフトされた時間領域表現を複数の周波数帯域信号に変換するように構成された時間−周波数領域コンバータを含む。音声信号エンコーダは、さらに、レベルシフタによってレベルシフタ時間領域プレゼンテーションに適用されるレベル・シフトを少なくとも部分的に補償し、複数の十分に補償された周波数帯域信号を得るために複数の周波数帯域信号について決定するように構成されたレベル・シフト補償器を含む。

本発明の更なる実施例は、復号化された音声信号表現を得るために符号化された音声信号プレゼンテーションを復号化するための方法を提供する。方法は、複数の周波数帯域信号を得るために符号化された音声信号表現を前処理する工程を含む。さらに、符号化音声信号表現、周波数帯域信号、および周波数帯域信号のゲインに関連するサイド情報のうちの少なくとも１つを分析する工程を含む方法は、符号化された音声信号プレゼンテーションのための現在のレベル・シフト係数を決定するために示される。さらに、方法は、レベル・シフトされた周波数帯域信号を得るためのレベル・シフト係数に従って周波数帯域信号のレベルをシフトする工程を含む。方法は、また、周波数帯域信号の時間領域表現への周波数−時間領域変換を実行する工程を含む。方法は、さらに、レベル・シフトされた周波数帯域信号に適用されるレベル・シフトを少なくとも部分的に補償し、十分に補償された時間領域表現を得るために時間領域表現について決定する工程を含む。

少なくとも、実施例のいくつかは、関連した情報を失わずに、時間間隔の間に特定のレベル・シフト係数によって周波数領域表現の複数の周波数帯域信号をシフトすることが可能であるという洞察に基づき、音声信号の全体の音量レベルは比較的高い。むしろ、関連する情報は、とにかく、ノイズを含みそうであるビットへシフトされる。このように、限られたワード長を有する周波数−時間領域コンバータは、たとえ周波数帯域信号のダイナミックレンジが周波数−時間領域コンバータの限られたワード長によってサポートされるよりも大きくても使用することができる。換言すれば、本発明の少なくともいくつかの実施例は、音声信号が比較的大きい間、すなわち、関連する情報が最上位ビットに含まれていそうである間、最下位ビットは典型的にはいかなる関連する情報ももたらさないという事実を利用する。レベル・シフトされた周波数帯域信号に適用されるレベル・シフトは、時間領域表現の中で発生するクリッピングの可能性を低下させる利点を有することができ、前記クリッピングは、複数の周波数帯域信号の１つ以上の周波数帯域信号の構造的な重ね合せから生じることができる。

これらの洞察および所見も、符号化音声信号プレゼンテーションを得るために音声信号エンコーダおよびオリジナルの音声信号を符号化する方法に類似した方法で適用される。
以下に、本発明の実施例は、図面を参照して、更に詳細に記載されている。

図１は、最先端の技術によるエンコーダを示す。図２は、最先端の技術によるデコーダを表す。図３は、最先端の技術による他のエンコーダを示す。図４は、最先端の技術による更なるデコーダを表す。図５は、少なくとも１つの実施例による音声信号デコーダの概略ブロック図を示す。図６は、少なくとも１つの更なる実施例による音声信号デコーダの概略ブロック図を示す。図７は、提案された音声信号デコーダの概念および実施例に従った符号化された音声信号表現を復号化する提案された方法を示す概略ブロック図を示す。図８は、ヘッドルームを得るためのレベル・シフトの模式的な視覚化を示す。図９は、少なくともいくつかの実施例による音声信号デコーダまたはエンコーダの構成要素である可能な移行形状調整の概略ブロック図を示す。図１０は、予測フィルタ調整器から成る更なる実施例による評価装置を表す。図１１は、バックデータ・ストリームを生成する装置を示す。図１２は、最先端の技術によるエンコーダを示す。図１３ａは、最先端の技術によるデコーダを表す。図１３ｂは、最先端の技術によるデコーダを表す。図１４は、最先端の技術による他のエンコーダを示す。図１５は、少なくとも１つの実施例による音声信号エンコーダの概略ブロック図を示す。図１６は、少なくとも１つの実施例による符号化された音声信号表現を復号化する方法の概略工程系統図を示す。

音声処理はさまざまな方法で進歩し、能率的に音声データ信号を符号化および復号化する方法について、多くの研究の対象であった。能率的な符号化は、例えば、ＭＰＥＧＡＡＣ（ＭＰＥＧ＝ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐ；ＡＡＣ＝適応オーディオ・コーディング）によって提供される。音声符号化および復号化の序論として、ＭＰＥＧＡＡＣの特徴は、以下において更に詳細に説明される。記載されている概念が、同様に、他の音声符号化および復号化スキームに適用されるように、ＭＰＥＧＡＡＣの説明は例証として理解されるだけである。ＭＰＥＧＡＡＣによれば、音声信号のスペクトル値は、スケール係数、量子化およびコードブックを用いて、特にハフマン・コードブックで符号化される。

ハフマン符号化が実行される前に、エンコーダは異なるセクションに符号化される複数のスペクトル係数を分類する（スペクトル係数は、例えば、フィルタバンク、心理音響的モデル、および量子化閾値および量子化分解能に関して心理音響的モデルによって制御される量子化器などのようなアップストリーム成分から得られた）。スペクトル係数のセクションごとに、エンコーダは、ハフマン符号化するためのハフマン・コードブックを選択する。ＭＰＥＧＡＡＣは、エンコーダがセクションのスペクトル係数を符号化するのに最適なコードブックを選択するスペクトル・データを符号化するための１１の異なるスペクトル・ハフマンコードブックを提供する。エンコーダは、サイド情報として、デコーダにセクションのスペクトル係数のハフマン符号化のために使用するコードブックを識別するコードブック識別子を提供する。

デコーダ側において、デコーダは、複数のスペクトル・ハフマンコードブックのどの１つがセクションのスペクトル値を符号化するために使われたかについて決定するために、受信したサイド情報を分析する。デコーダは、デコーダによって復号化されることになっているセクションのスペクトル係数を符号化するために使用されるハフマン・コードブックに関するサイド情報に基づいてハフマン復号化を実施する。

ハフマン復号化の後、複数の量子化されたスペクトル値がデコーダで得られる。デコーダは、エンコーダによって実行された不均一な量子化を反転させるために、逆量子化を実行することができる。これによって、逆量子化されたスペクトル値がデコーダで得られる。

しかしながら、逆量子化されたスペクトル値は、まだスケーリングされていない。導き出されたスケーリングされてないスペクトル値は、それぞれがスケール係数を有するスケール係数バンドに分類された。各スケール係数バンドのためのスケール係数は、エンコーダによって与えられたサイド情報としてデコーダが利用できるものである。この情報を用いて、デコーダは、スケール係数バンドのスケーリングされていないスペクトル値とそれらのスケール係数を乗算する。これによって、スケーリングされたスペクトル値が得られる。

最先端の技術に従ったスペクトル値の符号化および復号化は、現在、図１−４を参照して説明される。

図１は、最高水準の技術によるエンコーダを例示する。エンコーダは、周波数領域音声信号を得るために時間領域から周波数領域に符号化される音声信号ＡＳを伝送するためのＴ／Ｆ（時間−周波数）フィルタバンク１０を含む。周波数領域音声信号は、スケール係数を決定するためのスケール係数ユニット２０に供給される。スケール係数ユニット２０は、周波数領域音声信号のスペクトル係数を１つのスケール係数を共有するスケール係数バンドと呼ばれるスペクトル係数のいくつかのグループに分割するのに適している。スケール係数は、それぞれのスケール係数バンドのすべてのスペクトル係数の振幅を変えるために用いられるゲイン値を表す。スケール係数ユニット２０は、さらに、周波数領域音声信号のスケーリングされてないスペクトル係数を発生させて、出力するのに適している。

さらに、図１のエンコーダは、周波数領域音声信号のスケーリングされていないスペクトル係数を量子化するための量子化器を含む。量子化器３０は、不均一性量子化器でもよい。

量子化の後、音声信号の量子化されたスケーリングされてないスペクトルは、ハフマン符号化されるためのハフマン・エンコーダ４０に供給される。ハフマン符号化は、音声信号の量子化されたスペクトルの減らされた冗長性のために使われる。複数のスケーリングされていない量子化されたスペクトル係数は、セクションに分類される。ＭＰＥＧ―ＡＡＣにおいて１１の可能なコードブックが設けられている一方、セクションのすべてのスペクトル係数は同じハフマン・コードブックによって符号化される。

エンコーダは、セクションのスペクトル係数を符号化するのに特に適している１１の可能なハフマン・コードブックのうちの１つを選択する。これによって、特定のセクションのためのエンコーダのハフマン・コードブックの選択は、特定のセクションのスペクトル値に依存する。ハフマン符号化されたスペクトル係数は、例えば、スペクトル係数のセクションを符号化するために用いられたハフマン・コードブック、特定のスケール係数バンドなどのために用いられたスケール係数等に関する情報などのようなサイド情報とともにデコーダに伝送される。

２つまたは４つのスペクトル係数は、セクションのスペクトル係数をハフマン符号化するために使用されるハフマン・コードブックのコード名によって符号化される。エンコーダは、セクションの長さおよびセクションのスペクトル係数を符号化するために用いられたハフマン・コードブックに関する情報を含むサイド情報とともに、符号化スペクトル係数を表すコード名をデコーダに伝送する。

ＭＰＥＧＡＡＣにおいて、１１のスペクトル・ハフマンコードブックは、音声信号のスペクトル・データを符号化するために与えられている。異なるスペクトル・ハフマンコードブックは、それらのコードブック・インデックス（１および１１の間の値）によって確認されることができる。ハフマン・コードブックの範囲は、どれくらいのスペクトル係数が考慮されたハフマン・コードブックのコード名によって符号化されるかについて指し示す。ＭＰＥＧＡＡＣにおいて、ハフマン・コードブックの範囲は、コード名が音声信号の２つまたは４つのどちらかのスペクトル値を符号化することを示している２または４のどちらかである。

しかしながら、異なるハフマン・コードブックも、他の特性に関して異なる。たとえば、ハフマン・コードブックによって符号化されることができるスペクトル係数の最大絶対値はコードブックによって変化し、例えば、１、２、４、７、１２またはそれ以上とすることができる。さらに、考慮されたハフマン・コードブックは、符号付きの値を符号化するかどうかに適応する。

ハフマン符号化を使用して、スペクトル係数は、異なる長さのコード名によって符号化される。ＭＰＥＧＡＡＣは、１の最大絶対値を有する２つの異なるハフマン・コードブック、２の最大絶対値を有する２つの異なるハフマン・コードブック、４の最大絶対値を有する２つの異なるハフマン・コードブック、７の最大絶対値を有する２つの異なるハフマン・コードブックおよび１２の最大絶対値を有する２つの異なるハフマン・コードブックを提供し、各ハフマン・コードブックは、異なった確率分布関数を表す。ハフマン・エンコーダは、スペクトル係数を符号化することを最適に適合させるハフマン・コードブックを常に選択する。

図２は、最先端の技術によるデコーダを示す。ハフマン符号化されたスペクトル値は、ハフマンデコーダ５０によって受け取られる。ハフマンデコーダ５０は、また、サイド情報として、スペクトル値の各セクションのためのスペクトル値を符号化するために用いられたハフマン・コードブックに関する情報を受信する。ハフマンデコーダ５０は、それから、スケーリングされてない量子化スペクトル値を得るためにハフマン復号化を実行する。スケーリングされてない量子化スペクトル値は、逆量子化器６０に供給される。逆量子化器は逆量子化されたスケーリングされていないスペクトル値を得るために逆量子化を実行し、それはスケーラ７０に供給される。スケーラ７０は、また、各スケール係数バンドのためのサイド情報として、スケール係数を受信する。受信したスケール係数に基づいて、スケーラ７０は、スケーリングされた逆量子化スペクトル値を得るために、スケーリングされてない逆量子化スペクトル値をスケーリングする。Ｆ／Ｔフィルタバンク８０は、それから、時間領域音声信号のサンプル値を得るために、周波数領域音声信号のスケーリングされた逆量子化スペクトル値を周波数領域から時間領域に変換する。

図３は図１のエンコーダとは異なる最先端によるエンコーダを示し、図３のエンコーダは、さらにエンコーダ側ＴＮＳユニット（ＴＮＳ＝時間領域雑音整形）を含む。時間領域雑音整形は、音声信号のスペクトル・データの部分に関してフィルタリング・プロセスを実行することによって量子化ノイズの時間的形状を制御するために使用されることができる。エンコーダ側ＴＮＳユニット１５は、符号化される周波数領域音声信号のスペクトル係数に関して、線形予測符号化（ＬＰＣ）演算を実行する。とりわけ、ＬＰＣ演算から得られるのは反射係数であり、また、ＰＡＲＣＯＲ係数とも呼ばれる。ＬＰＣ演算によって引き出される予測ゲインが特定の閾値を上回らない場合、時間領域雑音整形は用いられない。しかしながら、予測ゲインが閾値より大きい場合、時間領域雑音整形は使用される。エンコーダ側ＴＮＳユニットは、特定の閾値より小さいすべての反射係数を取り除く。残りの反射係数が線形予測係数に変換されて、エンコーダで雑音整形フィルタ係数として使用される。エンコーダ側ＴＮＳ装置はそれからそれらのスペクトル係数上のフィルタ動作を実行し、そのために、音声信号の処理されたスペクトル係数を得るためにＴＮＳは使用される。ＴＮＳ情報、例えば反射係数（ＰＡＲＣＯＲ係数）を示すサイド情報はデコーダに伝送される。

図４は図２に示されるデコーダとは異なる最先端の技術によるデコーダを示し、この場合、図４のデコーダは、さらにデコーダ側ＴＮＳユニット７５を含む。デコーダ側ＴＮＳユニットは、音声信号の逆量子化されスケーリングされたスペクトルを受信し、更にＴＮＳ情報、例えば反射係数（ＰＡＲＣＯＲ係数）を示す情報を受信する。デコーダ側ＴＮＳユニット７５は、音声信号の処理された逆量子化スペクトルを得るために、音声信号の逆量子化スペクトルを処理する。

図５は、本発明の少なくとも１つの実施例において、音声信号デコーダ１００の概略ブロック図を示す。音声信号デコーダは、符号化された音声信号表現を受信するように構成される。一般的に、符号化された音声信号プレゼンテーションはサイド情報を伴う。サイド情報と共に符号化された音声信号表現は、例えば、知覚的な音声エンコーダによって作成されたデータストリームの形で与えられる。音声信号デコーダ１００は、図５の「十分に補償された時間領域表現」と分類される信号と同一であるか、または次の処理を使用して、そこから引き出される復号化音声信号表現を提供するように更に構成される。

音声信号デコーダ１００は、符号化された音声信号表現から複数の周波数帯域信号を得るように構成されたデコーダ前処理ステージ１１０を含む。たとえば、デコーダ前処理ステージ１１０は、符号化された音声信号表現およびサイド情報がビットストリームに含まれる場合、ビットストリーム・アンパッカーを含む。符号化された音声信号プレゼンテーションが現在関連のある情報（高分解能）または無関係な情報（低分解能または全くデータのない）をもっている周波数範囲に応じて、いくつかの音声符号化基準が複数の周波数帯域信号に対して時間的に変化する分解能および異なる分解能を用いることができる。これは、符号化された音声信号表現が現在大量の関連する情報を有する周波数帯が、時間的に全くまたは少しだけしか情報を運ばない周波数帯域信号とは対照的に、その時間間隔の間に比較的微細な分解能を使用して（すなわち、比較的高い数のビットを使用して）典型的に符号化されることを意味する。周波数帯域信号のいくつかのために、全く、ビットストリームが一時的にデータまたはビットを含まないことは起こりえることであり、その理由は、これらの周波数帯域信号が対応する時間間隔の間にいかなる関連した情報も含まないからである。一般的に、デコーダ前処理ステージ１１０に提供されるビットストリームは、複数の周波数帯域信号のどの周波数帯域信号が現在考慮した時間間隔または「フレーム」のためのデータおよび対応するビット分解能を含むかについて指し示している情報（例えば、サイド情報の一部として）を含む。

さらに、音声信号デコーダ１００は、符号化された音声信号表現のための現在のレベル・シフト係数を決定するために、符号化された音声信号表現の周波数帯域信号のゲインに関連するサイド情報を分析するように構成されたクリッピング推定器１２０を含む。いくつかの知覚的音声符号化基準は、複数の周波数帯域信号の異なる周波数帯域信号のための個々のスケール係数を使用する。個々のスケール係数は、各周波数帯域信号のために、他の周波数帯域信号と関連して、現在の振幅範囲を示す。本発明のいくつかの実施例のために、これらのスケール係数の分析は、複数の周波数帯域信号が周波数領域から時間領域に変換されたあと、対応する時間領域表現で起こる最大振幅の近似の評価を可能にする。この情報は、本発明によって提案されるものとしての適切な処理なしで、クリッピングが考慮した時間間隔または「フレーム」のための時間領域表現の中で発生しそうであるかどうかを決定するために使われることができる。クリッピング推定器１２０は、レベル（例えば、信号振幅または信号電力に関して）について同一の量によって複数の周波数帯域信号のすべての周波数帯域信号をシフトさせるレベル・シフト係数を決めるように構成される。レベル・シフト係数は、個々の方法で、すなわちレベル・シフト係数が時間的に変化する時間間隔（フレーム）ごとに決定される。一般的に、クリッピング推定器１２０は、時間領域表現の中ではクリッピングは発生しにくいが、同時に周波数帯域信号のための妥当なダイナミックレンジを維持するように、全ての周波数帯域信号に共通するシフト係数によって多くの周波数帯域信号のレベルを調整しようとする。たとえば、多数のスケール係数が比較的高い符号化された音声信号表現のフレームを考慮する。クリッピング推定器１２０は現在、最悪の場合のものを考慮することができ、すなわち複数の周波数帯域信号の中の可能な信号のピークが重なり合うか構造的に加算され、時間領域信号の中で大きい振幅という結果になる。レベル・シフト係数は、望ましいダイナミックレンジの中で時間領域表現の中の仮定的ピークの原因となる数値として決定され、場合によってはさらに限界を考慮できるかもしれない。少なくともいくつかの実施例によれば、クリッピング推定器１２０は、考慮される時間間隔またはフレームのための時間領域表現の中でクリッピングの可能性を評価するために符号化音声信号表現自体を必要としない。その理由は、信頼できる周波数領域信号と考慮された時間間隔の中で符号化された最大振幅によって、少なくともいくつかの知覚的音声符号化基準が複数の周波数領域信号の中の周波数帯域信号のためのスケール係数を選択するということである。換言すれば、手近に周波数帯域信号のための選択されたビット分解能によって表されることができる最も高い値は、符号化スキームの特性を与えられる考慮された時間間隔またはフレームの間、少なくとも一回発生しそうである。この仮定を用いて、クリッピング推定器１２０は、符号化音声信号表現および考慮した時間間隔（フレーム）のための現在のレベル・シフト係数を決定するために周波数帯域信号（例えば、前記スケール係数およびおそらく更なるパラメータ）のゲインと関連してサイド情報を評価することに集中することができる。

音声信号デコーダ１００は、さらに、レベル・シフトされた周波数領域信号を得るためのレベル・シフト係数に従って周波数領域信号のレベルをシフトするように構成されたレベルシフタ１３０を含む。

音声信号デコーダ１００は、さらに、レベル・シフトされた周波数帯域信号を時間領域表現に変換するように構成される周波数−時間領域コンバータ１４０を含む。いくつかの例を挙げれば、周波数−時間領域コンバータ１４０は、逆フィルタバンク、逆修正離散コサイン変換（逆ＭＤＣＴ）、逆直交ミラーフィルタ（逆ＱＭＦ）等を挙げることができる。いくつかの音声符号化基準のために、周波数−時間領域コンバータ１４０は、連続フレームのウィンドウイングをサポートするように構成され、例えば、２つのフレームは、それらの期間の５０％重複する。

周波数−時間領域コンバータ１４０によって与えられる時間領域表現は、レベルシフタ１３０によってレベル・シフトされた周波数帯域信号に適用されるレベル・シフトを少なくとも部分的に補償するために、そして、十分に補償された時間領域表現を得るために、時間領域表現について決定するように構成されるレベル・シフト補償器１５０に提供される。レベル・シフト補償器１５０はクリッピング推定器１４０からレベル・シフト係数、または、レベル・シフト係数から引き出された信号を受信する。レベルシフタ１３０およびレベル・シフト補償器１５０は、それぞれ、レベル・シフトされた周波数帯域信号のゲイン調整および時間領域プレゼンテーションの補償ゲイン調整を提供し、前記ゲイン調整は、周波数−時間領域コンバータ１４０をバイパスする。このように、レベル・シフトされた周波数帯域信号および時間領域表現は、一定のワード長および／またはコンバータ１４０の固定小数点演算実施のために制限される周波数−時間領域コンバータ１４０によって与えられるダイナミックレンジに適応させることができる。特に、レベル・シフトされた周波数帯域信号の関連したダイナミックレンジおよび対応する時間領域表現は、比較的大きいフレームの間、比較的高い振幅値または信号電力レベルであることができる。対照的に、レベル・シフトされた関連するダイナミックレンジおよび結果として生じる対応する時間領域表現は、比較的重要でないフレームの間、比較的小さい振幅値または信号電力値であることができる。大きいフレームの場合、レベル・シフトされた周波数帯域信号のバイナリ・プレゼンテーションの低ビットに含まれる情報は、概して、より高いビットの範囲に含まれる情報と比較して無視できると考えることができる。一般的に、レベル・シフト係数は、周波数−時間領域コンバータ１４０のダウンストリームでさえレベル・シフトされた周波数帯域信号に適用されるレベル・シフトに補償することを可能にするすべての周波数帯域信号に共通である。音声信号デコーダ１００そのものによって決定される提案されたレベル・シフト係数とは対照的に、いわゆる全体的な増加パラメータは、遠隔音声信号エンコーダによって作成されて、入力として音声信号デコーダ１００に提供されるビットストリームの範囲に含まれる。さらに、全体的なゲインは、デコーダ前処理ステージ１１０および周波数−時間領域コンバータ１４０との間の複数の周波数帯域信号に適用される。一般的に、全体的なゲインは、信号処理チェーンの範囲内で、異なる周波数帯域信号のためのスケール係数と実質的に同じ場所で、複数の周波数帯域信号に適用される。これは、比較的大きいフレームのために、周波数−時間領域コンバータ１４０に与えた周波数帯域信号がすでに比較的大きく、従って、対応する時間領域表現にクリッピングが生じることを意味するが、その理由は、異なる周波数帯域信号が構造的に増す場合に、複数の周波数帯域信号が十分なヘッドルームを提供せず、それによって、時間領域表現の中で比較的高い信号振幅につながるからである。

図５において略図で例示される音声信号デコーダ１００によって例えば実施される提案された方法は、データ精度を失うことなく、またはデコーダ・フィルタ・バンク（例えば、周波数−時間領域コンバータ１４０）のためのより高いワード長を用いた信号制限を許容する。

フィルタバンクの制限されたワード長の課題を解決するために、潜在的なクリッピングの出所としての音量正常化は、時間領域処理に移行する。これは、音量正常化が周波数領域処理で実行される実施と比較してオリジナルのワード長または減少したワード長をフィルタバンクで実行されることを可能にする。ゲイン値のスムーズな混合を実行するために、移行形状調整は、図９を参照して、後述するように実行されることができる。

クリッピング推定器は、サイド情報に基づいてクリッピングの可能性を決定しおよび／またはクリッピングの可能性に基づいて現在のレベル・シフト係数を決定するように更に構成されることができる。クリッピングの可能性が、変えようのない事実よりむしろ、傾向を示すだけの場合であっても、それは符号化された音声信号表現の所定のフレームのための複数の周波数帯域信号に合理的に適用されるレベル・シフト係数に関して役立つ情報を提供することができる。クリッピングの可能性の決定は、計算の複雑性または成果に関して、そして、周波数−時間領域コンバータ１４０によって実行される周波数−時間領域転換と比較して比較的単純であってもよい。

サイド情報は、複数の周波数帯域信号および複数のスケーリング係数のための全体的なゲイン係数のうちの少なくとも１つを含む。各スケーリング係数は、複数の周波数帯域信号の１つ以上の周波数帯域信号に対応することができる。全体的なゲイン係数および／または複数のスケーリング係数は、コンバータ１４０によって時間領域に変換されることになっている現在のフレームの音量レベルに関して、すでに役立つ情報を提供している。

少なくともいくつかの実施例によれば、デコーダ前処理ステージ１１０は、複数の連続したフレームの形で複数の周波数帯域信号を得るように構成されることができる。クリッピング推定器１２０は、現在のフレームのための現在のレベル・シフト係数を決定するように構成されることができる。換言すれば、音声信号デコーダ１００は、例えば、連続したフレームの範囲内で例えば音量の様々な程度に依存して、符号化された音声信号表現の異なるフレームのための様々なレベル・シフト係数を動的に決定するように構成されることができる。

復号化された音声信号表現は、実質的に補償された時間領域表現に基づいて決定されることができる。たとえば、音声信号デコーダ１００は、さらに、レベル・シフト補償器１５０のダウンストリームの時間領域リミッタを含む。いくつかの実施例によれば、レベル・シフト補償器１５０は、この種の時間領域リミッタの一部でもよい。

更なる実施例によれば、周波数帯域信号のゲインに関連するサイド情報は、複数の周波数帯域関連のゲイン係数を含む。

デコーダ前処理ステージ１１０は、複数の周波数帯域に特有の量子化インジケータのうちの周波数帯域に特有の量子化インジケータを用いて各周波数帯域信号を再量子化するように構成された逆量子化器を含む。特に、異なる周波数帯域信号は、符号化された音声信号プレゼンテーションおよび対応するサイド情報をつくった音声信号エンコーダによって異なる量子化分解能（またはビット分解能）を用いて量子化されることができた。異なる周波数帯域に特有の量子化インジケータは、従って、音声信号エンコーダによって前に決定される特定の周波数帯域信号という理由で必要な振幅分解能に応じて、さまざまな周波数帯域信号のための振幅分解能に関する情報を提供することができる。複数の周波数帯域に特有の量子化インジケータは、デコーダ前処理ステージ１１０に提供されるサイド情報の一部であってもよく、レベル・シフト係数を決定するためのクリッピング推定器１２０で使用される更なる情報を提供することができる。

クリッピング推定器１２０は、サイド情報が時間領域表現の中で潜在的なクリッピングを示唆するかどうかに関してサイド情報を分析するように更に構成されることができる。この種の発見は、関連した情報を含んでいない最下位ビット（ＬＳＢ）と解釈される。この場合、レベルシフタ１３０によって適用されるレベル・シフトは情報を最下位ビットの方へシフトし、それによって、最上位ビット（ＬＳＢ）を解放することによって、最上位ビットに若干のヘッドルームが得られ、それは、周波数帯域信号のうちの２つ以上が建設的方法で増す場合に時間領域分解能のために必要とされるかもしれない。この概念は、ｎ個の最下位ビットおよびｎ個の最上位ビットまで広げられることもできる。

提案された装置（音声信号デコーダまたはエンコーダ）および方法は、高分解能フィルタバンクを必要なヘッドルームに費やすことのないオーディオデコーダ／エンコーダのためにクリッピングの防止を可能にする。これは、メモリ必要量および計算量に関してより高い分解能を有するフィルタバンクを実行／実施することより典型的にはそれほど高価でない。

図６は、本発明の更なる実施例において、音声信号デコーダ１００の概略ブロック図を示す。音声信号デコーダ１００は、符号化された音声信号表現および一般的にサイド情報またはサイド情報の一部を受信するように構成される逆量子化器２１０（Ｑ^-1）を含む。いくつかの実施形態では、逆量子化器２１０は、符号化された音声信号表現およびサイド情報を例えばデータパケットの形で含むビットストリームを解凍するように構成されるビットストリーム解凍器を含み、各データパケットは符号化された音声信号表現で一定のフレームの数に対応することができる。前述したように、符号化された音声信号表現の中で、そして、各フレームの範囲内で、各周波数帯域は、それ自身の個々の量子化分解能を有することができる。このように、前記周波数帯域の範囲内で正しく音声信号部を表すために、一時的に比較的細かい量子化を必要とする周波数帯は、この種の細かい量子化分解能を有することができる。一方では、所定のフレームの間に、情報を含んでいないか、ほんの少しの情報しか含んでいない周波数帯域は、もっと粗い量子化を用いて量子化され、それによって、データ・ビットを保存する。逆量子化器２１０は、個々のまたは時間的に変化する量子化分解能を用いて量子化されたさまざまな周波数帯域をもたらすように構成されることができる。一般の量子化分解能は、例えば、内部的に計算および処理を行うための音声信号デコーダ１００により用いられる固定小数点演算表現によって与えられる分解能でもよい。たとえば、音声信号デコーダ１００は、内部的に１６ビットまたは２４ビットの固定小数点表現を使用することができる。逆量子化器２１０に提供されるサイド情報は、それぞれの新しいフレームの複数の周波数帯域信号のための異なる量子化分解能に関する情報を含むことができる。逆量子化器２１０は、図５において表されるデコーダ前処理ステージ１１０の特例と考えることができる。図６に示されるクリッピング推定器１２０は、図５のクリッピング推定器１２０と類似している。

音声信号デコーダ１００は、さらに、逆量子化器２１０の出力に接続されたレベルシフタ２３０を含む。レベルシフタ２３０は、更に、サイド情報またはサイド情報の一部を受信するとともに、例えば各時間間隔またはフレームごとに、クリッピング推定器１２０によって動的に決定されるレベル・シフト係数を受信する。レベル・シフト係数は、複数の乗算器またはスケーリング素子２３１、２３２および２３３を用いて、複数の周波数帯域信号に連続して適用される。できるならばそれぞれのＭＳＢをすでに使用して、逆量子化器２１０を残すときに、周波数帯域信号のいくつかが比較的強いということが発生するかもしれない。これらの強い周波数帯域信号が周波数−時間領域コンバータ１４０内で加算されるときに、オーバーフローは周波数−時間領域コンバータ１４０によって出力される時間領域表現の範囲内で観察されることができる。クリッピング推定器１２０で決定され、スケーリング素子２３１、２３２、２３３によって適用されるレベル・シフト係数は、時間領域表現のオーバーフローが発生しそうにないように、選択的に（すなわち、現在のサイド情報を考慮して）、周波数帯域信号のレベルを低下させる。レベルシフタ２３０は、更に、周波数帯域に特有のスケーリング係数を対応する周波数帯域に適用するように構成される第２の複数の乗算器またはスケーリング要素２３６、２３７、２３８を含む。サイド情報は、Ｍスケーリング係数を含む。レベルシフタ２３０は、レベル・シフトされた周波数帯域信号を時間領域表現に変換するように構成された周波数−時間領域コンバータ１４０に、複数のレベル・シフトされた周波数帯域信号を提供する。

図６の音声信号デコーダ１００は、表された実施例において更なる乗算器またはスケーリング素子２５０および逆数計算機２５２を含むレベル・シフト補償器１５０を含む。逆数計算機２５２は、レベル・シフト係数を受信して、レベル・シフト係数の逆数（１／ｘ）を決定する。レベル・シフト係数の逆数は更なるスケーリング素子２５０に送られ、そこで実質的に補償された時間領域表現を発生させる時間領域表現と乗算される。乗算器またはスケーリング素子２３１、２３２、２３３、および２５２に代わるものとして、複数の周波数帯域信号および時間領域表現にレベル・シフト係数を適用するための加算／減算素子を使用することは可能である。

任意には、図６の音声信号デコーダ１００は、さらに、レベル・シフト補償器１５０の出力に接続された後続の処理素子２６０を含む。たとえば、後続の処理素子２６０は、レベルシフタ２３０およびレベル・シフト補償器１５０の供給にもかかわらず、実質的に補償時間領域表現の中でまだあってもよいいかなるクリッピングも減らすかまたは取り除くために一定の特徴を有している時間領域リミッタを含む。任意の次の処理素子２６０の出力は、復号化された音声信号表現を提供する。任意の次の処理素子２６０がない場合、復号化された音声信号表現はレベル・シフト補償器１５０の出力で利用できる。

適用されたゲイン・シフトｇ₂は、補償のためのリミッタ実装３６０に正方向送りされる。リミッタ３６２は、高精度で実行される。

クリッピング推定器３２０がいかなるクリッピングも推定しない場合、音声サンプルは実質的に不変のままである、すなわち、あたかもレベル・シフトが行われないか、レベル・シフト補償が実行されたかのようである。

クリッピング推定器は、複合ゲインｇ₃を生じさせるために全体的なゲインｇ₁と結合されるコンバイナ３２８にレベル・シフト係数１／ｇ₂の逆数ｇ₂を提供する。

音声信号デコーダ１００は、更に、複合ゲインｇ₃が前のフレームから現在のフレーム（または現在のフレームから次のフレーム）に急に変化するときに、滑らかな移行を提供するように構成される移行形状調整装置３７０を含む。移行形状調整装置３７０は、レベル・シフト補償器３５０によって用いるためのクロスフェードされたレベル・シフト係数ｇ₄を得るために現在のレベル・シフト係数および次のレベル・シフト係数をクロスフェードさせるように構成されることができる。ゲイン係数を変える滑らかな移行を可能にするために、移行形状調整は、実行されなければならない。このツールは、ゲイン係数ｇ₄（ｔ）（対応する音声信号の各サンプルのための１つの係数）のベクトルを作成する。周波数領域信号の処理が生じるゲイン調整の同じ挙動を模倣するために、フィルタバンク３４０からの同じ変移ウィンドウＷが使用されなければならない。１つのフレームは、複数のサンプルをカバーする。複合ゲイン係数ｇ₃は、１つのフレームの間、典型的には一定である。変移ウィンドウＷは、概して１つのフレームだけ長く、フレーム（例えばコサインの第１半期）の範囲内で、異なるウィンドウ値を各サンプルに提供する。移行形状調整の１つのありうる実施に関する詳細は、図９において、および下の対応する説明に示される。

図８は、複数の周波数帯域信号に適用されるレベル・シフトの効果を示す概略図である。長方形４０２によって象徴されるように、音声信号（例えば複数の周波数帯域信号のそれぞれ）は１６ビット分解能を用いて表されることができる。長方形４０４は、１６ビット分解能のビットがどのようにしてデコーダ前処理ステージ１１０によって与えられる周波数帯域信号の１つの中の量子化されたサンプルを表すために使用されるかを概略的に示している。量子化サンプルが最上位ビット（ＭＳＢ）から始まり量子化されたサンプルのために使用される最後のビットに至る一定数のビットを使用することができることが分かる。最下位ビット（ＬＳＢ）までの残りのビットは、量子化ノイズを含むだけである。これは、現在のフレームのために、対応する周波数帯域信号がビットの減少した数（＜１６ビット）のみによってビットストリーム内に表されたという事実から説明されることができる。１６ビットの完全なビット分解能が現在のフレームのための、そして、対応する周波数帯域のためのビットストリームの範囲内で使われた場合であっても、最下位ビットは概して量子化ノイズのかなりの量を含む。

図８の長方形４０６は、周波数帯域信号をレベル・シフトした結果を示す概略図である。最下位ビットの内容が量子化ノイズの相当な量を含むと思われることができるので、実質的に関連した情報を失わずに、量子化サンプルは最下位ビットの方へシフトされることができる。これは、単に下にビットをシフトさせる（「右シフト」）ことによって、または、実際にバイナリの表現を再計算することによって達成されることができる。いずれの場合においても、レベル・シフト係数は、適用されたレベル・シフト（例えば、レベル・シフト補償器１５０または３５０によって）の後の補償のために記憶されることができる。レベル・シフトは、最上位ビット（ｓ）における付加的なヘッドルームという結果になる。

図９は、図７に示される遷移形状調整装置３７０の可能性のある実行に関する概略図である。遷移形状調整装置３７０は、以前のレベル・シフト係数のためのメモリ３７１、ウィンドウ形状を現在のレベル・シフト係数に適用することによって第１の複数のウィンドウ化されたサンプルを生成するように構成される第１のｗｉｎｄｏｗｅｒ３７２、以前のウィンドウ形状をメモリ３７１によって与えられている以前のレベル・シフト係数に適用することによって第２の複数のウィンドウ化されたサンプルを生成するように構成される第２のｗｉｎｄｏｗｅｒ３７６、および複数の複合サンプルを得るために第１の複数のウィンドウ化されたサンプルと第２の複数のウィンドウ化されたサンプルとの相互に対応するウィンドウ化されたサンプルを結合するように構成されるサンプル・コンバイナ３７９を含む。第１のｗｉｎｄｏｗｅｒ３７２は、ウィンドウ形状プロバイダ３７３と乗算器３７４とを含む。第２のｗｉｎｄｏｗｅｒ３７６は、以前のウィンドウ形状プロバイダ３７７および更なる乗算器３７８を含む。乗算器３７４および更なる乗算器３７８は、時間とともにベクトルを出力する。第１のｗｉｎｄｏｗｅｒ３７２の場合、各ベクトル素子は、（現在のフレームの間で一定の）現在の復号ゲイン係数ｇ₃（ｔ）およびウィンドウ形状プロバイダ３７３によって与えられる現在のウィンドウ形状の乗算に対応する。第２のｗｉｎｄｏｗｅｒ３７６の場合、各ベクトル素子は、（以前のフレームの間で一定の）復号ゲイン係数ｇ３（ｔ−Ｔ）および以前のウィンドウ形状プロバイダ３７７によって与えられている以前のウィンドウ形状の乗算に対応する。

図９において略図で例示される実施例によれば、以前のフレームからのゲイン係数はフィルタバンク３４０の「後半」ウィンドウによって乗算されなければならず、その一方で、動作利得係数は「前半」ウィンドウ配列によって乗算される。これらの２つのベクトルは、音声信号Ｘ₃（ｔ）（図７を参照）によってエレメント幅で乗算された要素的な１つのゲインベクトルｇ₄（ｔ）を形成するために総括されることができる。

必要であれば、ウィンドウ形状は、フィルタバンク３４０からサイド情報ｗによって導かれることができる。

同じウィンドウ形状および以前のウィンドウ形状がレベル・シフトされた周波数帯域信号を時間領域表現に変換するために用いられ、現在のレベル・シフト係数および以前のレベル・シフト係数をウィンドウ化するために用いられるように、ウィンドウ形状および以前のウィンドウ形状は周波数−時間領域コンバータ３４０により用いられてもよい。

現在のレベル・シフト係数は、複数の周波数帯域信号の現在のフレームに有効である。以前のレベル・シフト係数は、複数の周波数帯域信号の以前のフレームに有効である。現在のフレームおよび以前のフレームは、例えば５０％重複することができる。

移行形状調整装置３７０は、以前のレベル・シフト係数を以前のフレーム係数シーケンスという結果になっている以前のウィンドウ形状の第２の部分と結合するように構成されることができる。移行形状調整装置３７０は、現在のレベル・シフト係数を現在のフレーム係数シーケンスという結果になっている現在のウィンドウ形状の第１の部分と結合するように更に構成されることができる。クロスフェードされたレベル・シフト係数のシーケンスは、以前のフレーム係数シーケンスおよび現在のフレーム係数シーケンスに基づいて決定されることができる。

提案された方法がデコーダに必ずしも制限されるというわけではないが、エンコーダは提案された方法から利益を得るかもしれないフィルタバンクと組み合わされてゲイン調整またはリミッタを有するかもしれない。

図１０は、デコーダ前処理ステージ１１０およびクリッピング推定器１２０がどのように接続されるかを図示している。デコーダ前処理ステージ１１０は、コードブック決定器１１１０に対応するかまたは含んでいる。クリッピング推定器１２０は、推定ユニット１１２０を含む。コードブック決定器１１１０は、確認されたコードブックとして複数のコードブックからコードブックを決定するように構成され、音声信号は、確認されたコードブックを使用することによって符号化された。推定ユニット１１２０は、引き出されたレベル値として確認されたコードブックに関連したレベル値、例えば、エネルギー値、振幅値または音量値を引き出すように構成されている。さらに、推定ユニット１１２０は、引き出されたレベル値を用いて音声信号のレベル推定、例えば、エネルギー推定、振幅推定または音量推定をするように構成されている。たとえば、コードブック決定器１１１０は、符号化された音声信号とともに送信されるサイド情報を受信することにより、音声信号を符号化するためのエンコーダにより用いられたコードブックを決定することができる。特に、サイド情報は、音声信号の考慮した部分を符号化するために使用されるコードブックを確認している情報を含む。このような情報は、例えば、音声信号の考慮した部分を符号化するために用いられるハフマン・コードブックを確認する数値としてエンコーダからデコーダに送信される。

図１１は、実施例による推定器を図示する。推定器は、レベル値導出器１２１０とスケーリングユニット１２２０とを含む。レベル値導出器は、ローカルデータベースからレベル値を要求することにより、または、リモート・コンピュータから確認されたコードブックと関連したレベル値を要求することにより、メモリ内のレベル値を検索することによって、確認されたコードブック、すなわちエンコーダによってスペクトル・データを符号化するために使われたコードブックと関連したレベル値を引き出すように構成される。実施例において、レベル値導出器によって検索されまたは要求されたレベル値は、確認されたコードブックを用いて符号化されたスケーリングされていないスペクトル値の平均レベルを示す平均レベル値である。

これによって、引き出されたレベル値は実際のスペクトル値から計算されないが、その代わりに、使用されたコードブックだけに依存する平均レベル値が使用される。前述したように、エンコーダは、通常、複数のコードブックから音声信号のセクションのそれぞれのスペクトル・データを符号化するのに最も適合するコードブックを選択するのに適している。コードブックは、例えば、符号化することができる最大平均値に関連して異なるため、ハフマン・コードブックによって符号化される平均値がコードブックによって異なり、したがって、特定のコードブックによって符号化される符号化スペクトル係数の平均値もコードブックによって異なる。

このように、実施例によれば、特定のハフマン・コードブックを使用している音声信号のスペクトル係数を符号化するための平均レベル値がハフマン・コードブックごとに決定されることができ、例えば、メモリ、データベースまたはリモート・コンピュータに保存されることができる。レベル値導出器は、確認されたコードブックと関連した引き出されたレベル値を得るために、スペクトル・データを符号化するために用いられた確認されたコードブックに関連したレベル値をただ検索し、または請求しなければならないだけである。

しかしながら、ハフマン・コードブックが、ＭＰＥＧＡＡＣの場合のように、スケーリングされてないスペクトル値を符号化するためにしばしば使用されることは、考慮に入れられなければならない。しかしながら、レベル推定が行われるときに、スケーリングは考慮されなければならない。したがって、図１１の推定ユニットも、スケーリングユニット１２２０を含む。スケーリングユニットは、引き出されたスケール係数として、符号化された音声信号、または、符号化された音声信号の一部に関してスケール係数を引き出すように構成される。たとえば、デコーダに関して、スケーリングユニット１２２０は、スケール係数バンドごとにスケール係数を決定する。たとえば、スケーリングユニット１２２０は、エンコーダからデコーダに送信されるサイド情報を受信することによって、スケール係数バンドのスケール係数に関する情報を受信することができる。スケーリングユニット１２２０は、さらに、スケール係数および引き出されたレベル値に基づいてスケーリングされたレベル値を決定するように構成される。

実施例において、引き出されたレベル値が引き出されたエネルギー値であるところにおいて、スケーリングユニットは、引き出されたエネルギー値と引き出されたスケール係数の２乗を乗算することによってスケーリングされたレベル値を得るために、引き出されたエネルギー値上に引き出されたスケール係数を適用するように構成される。

もう一つの実施例では、引き出されたレベル値が引き出された振幅値であるところにおいて、スケーリングユニットは引き出された振幅値と引き出されたスケール係数を乗算することによってスケーリングされたレベル値を得るために、引き出された振幅値上に引き出されたスケール係数を適用するように構成される。

さらなる態様において、引き出されたレベル値は引き出された音量値であるところで、スケーリングユニット１２２０は引き出された音量値と引き出されたスケール係数の３乗を乗算することによってスケーリングされたレベル値を得るために、引き出された音量値上に引き出されたスケール係数を適用するように構成される。例えば指数３／２による音量を算出する代わりの方法が存在する。通常、引き出されたレベル値が音量値であるとき、スケール係数は音量領域に変換されなければならない。

これらの実施例は、エネルギー値が音声信号のスペクトル係数の２乗に基づいて決定され、振幅値が音声信号のスペクトル係数の絶対値に基づいて決定され、音量値が音量領域に変換された音声信号のスペクトル係数に基づいて決定されることを考慮に入れる。

推定ユニットは、スケーリングされたレベル値を用いて音声信号のレベル推定を評価するように構成される。図１１の実施例において、推定ユニットは、レベル推定としてスケーリングされたレベル値を出力するように構成される。この場合、スケーリングされたレベル値の後処理は実行されない。しかしながら、図１２の実施例で図示されているように、推定ユニットも後処理を実行するように構成される。したがって、図１２の推定ユニットは、レベル推定を評価するための一つ以上のスケーリングされたレベル値を後処理するための後処理器１２３０を含む。たとえば、推定ユニットのレベル推定は、複数のスケーリングされたレベル値の平均値を決定することによって、後処理器１２３０で決定される。この平均値は、レベル推定として推定ユニットによって出力される。

示された実施例とは対照的に、例えば一つのスケール係数バンドのエネルギーを推定する最高水準の方法は、ハフマン復号化を行い、全てのスペクトル値に対して逆量子化を行い、全ての逆量子化されたスペクトル値の２乗を合計することによりエネルギーを計算する。

しかしながら、提案された実施例において、最高水準の技術のこの計算的に複雑なプロセスは、単にスケール係数およびコードブックの利用に依存し実際の量子化された値に依存しない平均レベルの推定により置き換えられる。

これに基づいて、予想されるレベルは、事前計算されることができて、以下のようにして格納されることができる：
各インデックスは、整数値（ｘ）のシーケンス、例えばスペクトル線を表し、シーケンスの長さは、コードブック、例えばＡＡＣ−ＥＬＤの２または４の次元に依存する。

図１３ａおよび１３ｂは、実施例に関するコードブックに関連したレベル値、例えばエネルギー値、振幅値または音量値を生み出す方法を例示する。この方法は、以下の工程を含む。
コードブックの各コード名のためにコードブックのコード名に関連して数値のシーケンスを決定する工程（ステップ１３１０）。前述したように、コードブックは数値のシーケンス、例えばコードブックのコード名によって２または４の数値を符号化する。コードブックは、数値の複数のシーケンスを符号化する複数のコードブックを含む。決定される数値のシーケンスは、コードブックの考慮されたコード名によって符号化される数値のシーケンスである。ステップ１３１０は、コードブックの各コード名のために行われる。たとえば、コードブックが８１のコード名を含む場合、数値の８１のシーケンスはステップ１３１０において決定される。

ステップ１３２０において、数値の逆量子化されたシーケンスは、逆量子化器をコードブックの各コード名のためのコード名の数値のシーケンスの数値に適用することによって、コードブックの各コード名のために決定される。前述したように、音声信号のスペクトル値を符号化するときに、エンコーダは通常、量子化、例えば不均一な量子化を使用することができる。結果として、この量子化は、デコーダ側で反転されなければならない。

その後、ステップ１３３０で、レベル値のシーケンスは、コードブックの各コード名のために決定される。

エネルギー値がコードブック・レベルの値として発生することになっている場合、エネルギー値のシーケンスは各コード名のために決定され、数値の逆量子化されたシーケンスの各値の２乗がコードブックの各コード名のために算出される。

しかしながら、振幅値がコードブック・レベルの値として発生することになっている場合、振幅値のシーケンスは各コード名のために決定され、数値の逆量子化されたシーケンスの各値の絶対値はコードブックの各コード名のために算出される。

音量値がコードブック・レベルの値として発生することになっている場合、音量値のシーケンスは各コード名のために決定され、数値の逆量子化されたシーケンスの各値の３乗がコードブックの各コード名のために算出される。例えば指数３／２によって音量を算出する代わりの方法が存在する。通常、音量値がコードブック・レベル値として発生することになっているとき、数値の逆量子化されたシーケンスの値は音量領域に変換されなければならない。

その後、ステップ１３４０で、コードブックの各コード名のためのレベル合計値は、コードブックの各コード名のためのレベル値のシーケンスの値を合計することによって算出される。

そして、ステップ１３５０で、確率加重レベル合計値は、コード名のレベル合計値とコードブックの各コード名のコード名と関連した確率値を乗算することによって、コードブックの各コード名のために決定される。これにより、数値のシーケンスのいくつか、例えばスペクトル係数のシーケンスがスペクトル係数の他のシーケンスほどしばしば現れないことは考慮される。コード名と関連した確率値はこれを考慮に入れる。ハフマン符号化が用いられるとき、より現れそうであるコード名がより短い長さを有するコード名を用いて符号化され、その一方で、より現れそうにない他のコード名はより長い長さを有するコード名を用いて符号化されるので、この種の確率値はコード名の長さから引き出されることができる。

ステップ１３６０において、コードブックの各コード名のための平均確率加重レベル合計値は、コード名の確率加重レベル合計値をコードブックの各コード名のためのコードブックと関連した次元値で割ることによって決定される。次元値は、コードブックのコード名によって符号化されるスペクトル値の数を示す。これによって、コード名によってコード化されるスペクトル係数のためのレベル値（確率加重）を表す平均確率加重レベル合計値が決定される。

それから、ステップ１３７０で、コードブックのレベル値は、すべてのコード名の平均確率加重レベル合計値を合計することによって算出される。

レベル値のこの種の生成は、コードブックのために一度だけするだけでよいことに留意すべきである。コードブックのレベル値が決定される場合、この値は、例えば、上述の実施例によるレベル推定のための装置によって単に検索され、使用されることができる。

以下に、実施例によるコードブックと関連したエネルギー値を生み出す方法が提示される。所定のコードブックによって符号化されるデータのエネルギーの期待値を推定するために、次の工程は、コードブックの各インデックスにつき一回だけ実行されなければならない：
A) 逆量子化器をシーケンスの整数値に適用する（例えば、ＡＡＣ―ＥＬＤ：
ｘ＾（４／３））
B) Ａ）のシーケンスの各値を２乗することによって、エネルギーを算出する
C) Ｂ）のシーケンスの合計を構築する
D) インデックスの所定の確率を有するＣ）を乗算する
E) スペクトル線につき予想されるエネルギーを得るために、コードブックの次元によって割る。
最後に、Ｅ）によって算出されるすべての値は、完全なコードブックの予想されるエネルギーを得るために合計されなければならない。

これらのステップの出力がテーブルに格納されたあと、推定されたエネルギーは単にコードブック・インデックスに基づいて検索されることができる、すなわち、それに応じて、コードブックが使用される。実際のスペクトル値は、この推定のためにハフマン復号化である必要はない。

完全な音声フレームのスペクトル・データの全体のエネルギーを推定するために、スケール係数は考慮されなければならない。スケール係数は、かなりの量の複雑さもなしにビットストリームから抽出されることができる。スケール係数は、予想されるエネルギーに適用される前に修正されることができ、例えば、使用されたスケール係数の２乗は算出されることができる。予想されるエネルギーは、それから使用されたスケール係数の２乗で乗算される。

上述の実施例によれば、各スケール係数バンドのためのスペクトル・レベルは、ハフマン符号化スペクトル値を復号化することなく推定されることができる。レベルの推定は、低レベルで、例えば低電力で、どちらが一般的にクリッピングという結果にならないストリームを確認するために用いられることができる。したがって、このようなストリームを完全に復号化することは、回避されることができる。

実施例によれば、レベル推定のための装置は、さらに、コードブックに関連するレベル値を示す複数のコードブック・レベルのメモリ値が格納されたメモリまたはデータベースを含み、複数のコードブックのそれぞれは、メモリまたはデータベースに格納されたそれに関連するコードブック・レベルのメモリ値を有する。さらに、レベル値導出器は、メモリから、または、データベースから確認されたコードブックに関連したコードブック・レベルのメモリ値を引き出すことによって確認されたコードブックと関連したレベル値を引き出すように構成される。

例えば予測フィルタリングのように、予測としてのさらなる処理ステップが、コーデック、例えばＡＡＣ−ＥＬＤＴＮＳ（ＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ）フィルタリングなどに適用される場合、上述の実施例に従って推定されるレベルは変化することができる。ここで、予測の係数は、例えばＰＡＲＣＯＲ係数としてＴＮＳのために、ビットストリーム内部で送信される。

図１４は、推定ユニットが更に予測フィルタ調整器１２４０を含む例を例示する。予測フィルタ調整器は、引き出された予測フィルタ係数として符号化された音声信号または符号化された音声信号の一部に関する一つ以上の予測フィルタ係数を引き出すように構成される。さらに、予測フィルタ調整器は、予測フィルタ係数および引き出されたレベル値に基づいて予測−フィルタ調整レベル値を得るように構成される。さらに、推定ユニットは、予測−フィルタ調整レベル値を用いて音声信号のレベル推定を評価するように構成される。

図１５は、フィルタバンクを「バイパスする」提案されたゲイン調整を実行するエンコーダ１５００の概略ブロック図を示す。音声信号エンコーダ１５００は、入力音声信号の時間領域表現に基づいて符号化された音声信号表現を提供するように構成される。時間領域表現は、例えば、パルス符号変調音声入力信号であってもよい。

音声信号エンコーダは、入力信号表現のための現在のレベル・シフト係数を決定するために入力音声信号の時間領域表現を分析するように構成されるクリッピング推定器１５２０を含む。音声信号エンコーダは、更に、レベル・シフトされた時間領域表現を得るためのレベル・シフト係数に従って入力音声信号の時間領域表現のレベルを移すように構成されるレベルシフタ１５３０を含む。時間−周波数領域コンバータ１５４０（例えば、直交ミラーフィルタバンクや修正離散コサイン変換バンク等のフィルタバンク）は、レベル・シフトされた時間領域表現を複数の周波数領域表現に変換するように構成される。音声信号エンコーダ１５００は、更に、レベルシフタ１５３０によってレベル・シフトされた時間領域表現に適用されるレベル・シフトを少なくとも部分的に補償するために、および複数の十分に補償された周波数帯域信号を得るために、複数の周波数帯域信号について決定を下すように構成されたレベル・シフト補償器１５５０を含む。

音声信号エンコーダ１５００は、更に、ビット／ノイズ割り当て、量子化器および符号化コンポーネント１５１０および音響心理学的モデル１５０８を含む。音響心理学的モデル１５０８はＰＣＭ音声入力信号に基づいて時間−周波数変数マスキング閾値（および／または周波数帯域個々のおよびフレーム個々の量子化分解能、およびスケール係数）を決定し、ビット／ノイズ割り当て、量子化器および符号化１６１０によって使用される。音響心理学的モデルの１つの考えられる実施態様および知覚的な音声符号化の他の態様に関する詳細は、例えば、国際基準ＩＳＯ／ＩＥＣ１１１７２−３およびＩＳＯ／ＩＥＣ１３８１８−３で見出すことができる。ビット／ノイズ割り当て、量子化器および符号化１５１０は、複数の周波数帯域信号をそれらの周波数帯域個々およびフレーム個々の量子化分解能に従って量子化するように構成され、１つ以上の音声信号デコーダに与えられる符号化ビットストリームを出力するビットストリームフォーマッタ１５０５にこれらのデータを提供するように構成される。ビット／ノイズ割り当て、量子化器および符号化１５１０は、複数の量子化周波数に加えて、サイド情報を決定するように構成される。このサイド情報は、ビットストリームに包含されるためのビットストリームフォーマッタ１５０５に提供される。

図１６は、復号化された音声信号表現を得るために符号化された音声信号表現を復号化する方法の概略工程系統図を示す。この方法は、複数の周波数帯域信号を得るために符号化された音声信号表現を前処理するステップ１６０２を含む。特に、前処理は、連続したフレームに対応してビットストリームをデータに解凍すること、および、複数の周波数帯域信号を得るために周波数帯域固有の量子化分解能に従って周波数帯域関連データを再量子化（逆量子化）することを含む。

復号化のための方法のステップ１６０４において、周波数帯域信号のゲインと関連するサイド情報は、符号化された音声信号表現のための現在のレベル・シフト係数を決定するために分析される。周波数帯域信号と関連するゲインは、周波数帯域信号（例えば、いくつかの知覚的な音声符号化方式で公知のスケール係数または類似のパラメータ）ごとに独特でもよいか、すべての周波数帯域信号（例えば、いくつかの知覚的な音声符号化方式において公知の全体的なゲイン）に共通であってもよい。サイド情報の分析は、符号化された音声信号の音量に関する情報をフレームの間手元に集めることを可能にする。次に、音量は、クリッピングに入る復号化された音声信号表現の傾向を示す。レベル・シフト係数は、関連するダイナミックレンジおよび／または（全ての）周波数帯域信号の関連する情報コンテンツを保存する一方で、このようなクリッピングを防止する値として典型的に決定される。

復号化のための方法は、更に、レベル・シフト係数に従って周波数帯域信号のレベルをシフトさせるステップ１６０６を含む。周波数帯域信号が低いレベルにレベル・シフトされる場合、レベル・シフトは周波数帯域信号のバイナリ表現の最上位なビットでさらに若干のヘッドルームをつくる。時間領域表現を得るために次のステップ１６０８で複数の周波数帯域信号から時間領域表現に変換されるとき、この付加的なヘッドルームが必要である。特に、周波数帯域信号のいくつかがそれらの振幅および／または電力に関して上限の近くにある場合、付加的なヘッドルームは時間領域表現のリスクをクリップして減少させる。結果として、周波数−時間領域変換は、比較的小さいワード長を使用して実行されることができる。

復号化のための方法は、また、レベル・シフトされた周波数帯域信号に適用される少なくとも部分的にレベルを補償するために時間領域表現について決定するステップ１６０９を含む。その後、実質的に補償された時間表現が得られる。

したがって、符号化された音声信号表現を復号化された音声信号表現に復号化する方法は、以下を含む：
− 複数の周波数帯域信号を得るために符号化された音声信号表現を前処理する工程；
− 符号化された音声信号表現のための現在のレベル・シフト係数を決定するために周波数帯域信号のゲインに関連してサイド情報を分析する工程；
− レベル・シフトされた周波数帯域信号を得るためのレベル・シフト係数に従って周波数帯域信号のレベルをシフトする工程；
− 周波数帯域信号の時間領域表現への周波数−時間領域変換を実行する工程；および
− レベル・シフトされた周波数帯域信号に適用されるレベル・シフトを少なくとも部分的に補償するために、および十分に補償された時間領域表現を得るために時間領域表現について決定する工程。

更なる態様によれば、サイド情報を分析する工程は、サイド情報に基づいてクリッピング確率を決定すること、およびクリッピング確率に基づいて現在のレベル・シフト係数を決定することを含む。

更なる態様によれば、サイド情報は複数の周波数帯域信号および複数のスケール係数のための全体的なゲイン係数のうちの少なくとも１つを含み、各スケール係数は複数の周波数帯域信号のうちの１つの周波数帯域信号に対応する。

更なる態様によれば、符号化された音声信号表現を前処理する工程は、複数の連続したフレームの形で複数の周波数帯域信号を得ることを含み、サイド情報を分析する工程は、現在のフレームのための現在のレベル・シフト係数を決定することを含む。

更なる態様によれば、復号化された音声信号表現は、実質的に補償された時間領域表現に基づいて決定される。

更なる態様によれば、方法は、更に、少なくとも部分的にレベル・シフトを補償するための時間領域表現について決定した後で時間領域リミッタ特性を適用することを含む。

更なる態様によれば、周波数帯域信号のゲインと関連するサイド情報は、複数の周波数帯域関連のゲイン係数を含む。

更なる態様によれば、符号化された音声信号を前処理することは、複数の周波数帯域に特有の量子化インジケータのうちの周波数帯域に特有の量子化インジケータを使用して各周波数帯域信号を再量子化することを含む。

更なる態様によれば、方法は、移行形状調整を実行することを更に含み、移行形状調整は、少なくとも部分的にレベル・シフトを補償する動作の間、使用のためのクロスフェードしたレベル・シフト係数を得るために現在のレベル・シフト係数および次のレベル・シフト係数をクロスフェードさせることを含む。

更なる態様によれば、移行形状調整は、以下を含むことができる：
− 一時的に、以前のレベル・シフト係数を格納すること、
− 現在のレベル・シフト係数にウィンドウ形状を適用することにより第１の複数のウィンドウ化サンプルを生成すること、
− 以前のレベル・シフト係数の一時的な格納の作用により与えられた以前のレベル・シフト係数に以前のウィンドウ形状を適用することにより第２の複数のウィンドウ化サンプルを生成すること、および
− 複数の複合サンプルを得るために第１の複数のウィンドウ化サンプルの、および第２の複数のウィンドウ化サンプルの相互に対応するウィンドウ化サンプルを結合すること。

更なる態様によれば、同じウィンドウ形状および以前のウィンドウ形状がレベル・シフトされた周波数帯域信号を時間領域表現に変換するために、および現在のレベル・シフト係数と以前のレベル・シフト係数をウィンドウ化するために同じウィンドウ形状および以前のウィンドウ形状が用いられるように、ウィンドウ形状および以前のウィンドウ形状が周波数−時間領域変換によって使用される。

更なる態様によれば、現在のレベル・シフト係数は、複数の周波数帯域信号の現在のフレームに効果的であり、以前のレベル・シフト係数は複数の周波数帯域信号の以前のフレームに効果的であり、そして、現在のフレームおよび以前のフレームは重複する。移行形状調整は、次のように構成される。
− 以前のレベル・シフト係数を以前のフレーム係数シーケンスという結果になっている以前のウィンドウ形状の第２の部分と結合、
− 現在のレベル・シフト係数を現在のフレーム係数シーケンスという結果になっている現在のウィンドウ形状の第１の部分と結合、
− 以前のフレーム係数シーケンスおよび現在のフレーム係数シーケンスに基づいてクロスフェードされたレベル・シフト係数のシーケンスを決定。

更なる態様によれば、サイド情報を分析することは、サイド情報が時間領域表現の中で潜在的クリッピングを示唆するかどうかに関して実行され、それは最下位ビットが関連した情報を含んでいないことを示し、この場合、レベル・シフトは情報を最下位ビットにシフトさせ、それにより最上位ビットを開放することにより若干のヘッドルームが得られる。

更なる態様によれば、コンピュータプログラムがコンピュータまたは信号処理器によって実行されるとき、復号化のための方法または符号化のための方法を実施するためのコンピュータプログラムが提供される。

いくつかの態様が装置との関連で記載されたが、これらの態様も対応する方法の説明を表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップとの関連で記載されている態様は、対応する装置の対応するブロックまたは部材または特徴の説明を表す。

発明の分解された信号は、デジタル記憶媒体に保存されることができ、または伝送媒体、例えばワイヤレス伝送媒体またはイターネットのような有線の伝送媒体に送られることができる。

特定の実施要件に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアで実施されることができる。実施はその上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフレキシブルディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行されることができ、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協同する（または協同することができる）。

本発明による若干の実施例は、電子的に読み込み可能な制御信号を有する非一時的データキャリアを含み、それはここにおいて記載されている方法のうちの１つが実行されるようにプログラム可能なコンピュータシステムと協同することができる。

通常、本発明の実施例はプログラムコードを有するコンピュータプログラム製品として実施されることができ、コンピュータプログラム製品がコンピュータで動くときに、プログラムコードが方法のうちの１つを実行するために実施されている。プログラムコードは、機械読み取り可読キャリアに例えば格納されることができる。

他の実施例は、本願明細書において記載されていて、機械読み取り可読キャリアに格納される方法のうちの１つを実行するためのコンピュータプログラムを含む。

換言すれば、発明の方法の実施例は、従って、コンピュータプログラムがコンピュータ上で動くとき、ここにおいて記載されている方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

発明の方法の更なる実施例は、従って、その上に記録されて、ここにおいて記載されている方法のうちの１つを実行するためのコンピュータプログラムから成っているデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

発明の方法の更なる実施例は、従って、ここにおいて記載されている方法のうちの１つを実行するためのコンピュータプログラムを表しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を経て、例えばインターネットで転送されるように例えば構成されることができる。

更なる実施例は、ここにおいて説明した方法の１つを実行することができるように構成された処理手段、例えばコンピュータまたはプログラム可能な論理装置を含む。

更なる実施例は、その上に、ここにおいて記載されている方法のうちの１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施形態では、プログラム可能な論理装置（例えばフィールド・プログラマブル・ゲート・アレイ）は、ここにおいて記載されている方法の機能のいくらかまたは全てを実行するために用いることができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、ここにおいて記載されている方法のうちの１つを実行するために、マイクロプロセッサと協同することができる。通常、方法は、いかなるハードウェア装置によっても好ましくは実行される。

上記した実施例は、本発明の原理のために、単に説明したものである。配置の修正変更およびここにおいて記載されている詳細が他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによって限定され、ここにおいて実施例の説明および説明として示される具体的な詳細だけで制限されないことが意図するところである。

Claims

符号化された音声信号表現に基づいて復号化された音声信号表現を提供するように構成された音声信号デコーダ（１００）であって、音声信号デコーダは：
符号化された音声信号表現から複数の周波数帯域信号を得るように構成されたデコーダ前処理ステージ（１１０）；
サイド情報が符号化された音声信号表現に対する現在のレベル・シフト係数を決定するために、潜在的クリッピングを示すかどうかについて、符号化された音声信号表現の周波数帯域信号のゲインと関連するサイド情報を分析するように構成され、サイド情報が潜在的クリッピングを示す場合、現在のレベル・シフト係数が、複数の周波数帯域信号の情報を、少なくとも１つの最上位ビットにおいてヘッドルームが得られるように、最下位ビットの方へシフトを引き起こすように構成されたクリッピング推定器（１２０）；
レベル・シフトされた周波数帯域信号を得るための現在のレベル・シフト係数に従って周波数帯域信号のレベルをシフトさせるように構成されたレベルシフタ（１３０）；
レベル・シフトされた周波数帯域信号を時間領域表現に変換するように構成された周波数−時間領域コンバータ（１４０）；および
レベルシフタ（１３０）によってレベル・シフトされた周波数帯域信号に適用されるレベル・シフトを少なくとも部分的に補償し、そして、実質的に補償された時間領域表現を得るように、時間領域表現を決定するように構成されたレベル・シフト補償器（１５０）を含む、音声信号デコーダ。
クリッピング推定器（１２０）がサイド情報および符号化された音声信号表現のうちの少なくとも１つに基づいてクリッピング確率を決定し、クリッピング確率に基づいて現在のレベル・シフト係数を決定するように構成された、請求項１に記載の音声信号デコーダ（１００）。
サイド情報は、複数の周波数帯域信号のための全体的なゲイン係数および複数のスケール係数のうちの少なくとも１つを含み、各スケール係数は複数の周波数帯域信号の中の１つの周波数帯域信号または周波数帯域信号の１つのグループに対応する、請求項１または請求項２に記載の音声信号デコーダ（１００）。
デコーダ前処理ステージ（１１０）が複数の連続したフレームの形で複数の周波数帯域信号を得るように構成され、クリッピング推定器（１２０）は、現在のフレームのための現在のレベル・シフト係数を決定するように構成される、請求項１ないし請求項３のいずれかに記載の音声信号デコーダ（１００）。
復号化された音声信号表現が実質的に補償された時間領域表現に基づいて決定される、請求項１ないし請求項４のいずれかに記載の音声信号デコーダ（１００）。
更に、レベル・シフト補償器（１５０）の下流の時間領域リミッタを含む、請求項１ないし請求項５のいずれかに記載の音声信号デコーダ（１００）。
周波数帯域信号のゲインと関連するサイド情報は、複数の周波数帯域関連ゲイン係数を含む、請求項１ないし請求項６のいずれかに記載の音声信号デコーダ（１００）。
デコーダ前処理ステージ（１１０）は、複数の周波数帯域に特有の量子化インジケータのうちの周波数帯域に特有の量子化インジケータを用いて各周波数帯域信号を再量子化するように構成される逆量子化器を含む、請求項１ないし請求項７のいずれかに記載の音声信号デコーダ（１００）。
更に、レベル・シフト補償器（１５０）による使用のためのクロスフェードされたレベル・シフト係数を得るために、現在のレベル・シフト係数と次のレベル・シフト係数とをクロスフェードさせるように構成された移行形状調整装置を含む、請求項１ないし請求項８のいずれかに記載の音声信号デコーダ（１００）。
移行形状調整装置は、以前のレベル・シフト係数に対するメモリ（３７１）、現在のレベル・シフト係数にウィンドウ形状を適用することによって第１の複数のウィンドウ化されたサンプルを生成するように構成される第１のｗｉｎｄｏｗｅｒ（３７２）、メモリ（３７１）によって与えられる以前のレベル・シフト係数に以前のウィンドウ形状を適用することによって第２の複数のウィンドウ化されたサンプルを生成するように構成される第２のｗｉｎｄｏｗｅｒ（３７６）、および複数の複合サンプルを得るために相互に対応する第１の複数のウィンドウ化されたサンプルおよび第２の複数のウィンドウ化されたサンプルを結合するように構成されたサンプル・コンバイナ（３７９）を含む、請求項９に記載の音声信号デコーダ（１００）。
現在のレベル・シフト係数は複数の周波数帯域信号の現在のフレームに有効であり、以前のレベル・シフト係数は、複数の周波数帯域信号の以前のフレームに有効であり、現在のフレームおよび以前のフレームが重なり合って；
移行形状調整は、
以前のレベル・シフト係数を以前のフレーム係数シーケンスという結果になっている以前のウィンドウ形状の第２の部分と結合するように構成され、
現在のレベル・シフト係数を現在のフレーム係数シーケンスという結果になっている現在のウィンドウ形状の第１の部分と結合するように構成され、および
以前のフレーム係数シーケンスおよび現在のフレーム係数シーケンスに基づいてクロスフェードされたレベル・シフト係数のシーケンスを決定するように構成される、請求項１０に記載の音声信号デコーダ（１００）。
クリッピング推定器（１２０）は、符号化された音声信号表現およびサイド情報のうちの少なくとも１つが、最下位ビットが関連する情報を含まないことを意味する時間領域表現の範囲内における潜在的クリッピングを示すかどうかについて、符号化された音声信号表現およびサイド情報のうちの少なくとも一方を分析するように構成され、この場合、レベルシフタによって適用されるレベル・シフトが、最下位ビットに情報をシフトし、それによって最上位ビットを開放することにより最上位ビットにおいてヘッドルームが得られるように構成された、請求項１ないし請求項１１のいずれかに記載の音声信号デコーダ（１００）。
クリッピング推定器（１２０）は、
確認されたコードブックとして複数のコードブックからコードブックを決定するためのコードブック決定器（１１１０）を含み、符号化された音声信号表現は確認されたコードブックを使用することにより符号化されたものであり、
推定器（１１２０）は、引き出されたレベル値として確認されたコードブックと関連したレベル値を引き出すために構成され、引き出されたレベル値を用いて音声信号のレベル推定を評価するために構成される、請求項１ないし請求項１２のいずれかに記載の音声信号デコーダ。
入力音声信号の時間領域表現に基づいて符号化された音声信号表現を提供するように構成された音声信号エンコーダであって、音声信号エンコーダは、
入力信号表現に対する現在のレベル・シフト係数を決定するために、潜在的クリッピングが示されているかどうかについて入力音声信号の時間領域表現を分析するように構成されるクリッピング推定器であって、潜在的クリッピングが示されるとき、現在のレベル・シフト係数が、入力音声信号の時間領域表現を、少なくとも１つの最上位ビットにおいてヘッドルームが得られるように、最下位ビットの方へシフトを引き起こすものである、クリッピング推定器；
レベル・シフトされた時間領域表現を得るための現在のレベル・シフト係数に従って入力音声信号の時間領域表現のレベルをシフトさせるように構成されたレベルシフタ；
レベル・シフトされた時間領域表現を複数の周波数帯域信号に変換するように構成された時間−周波数領域コンバータ；および
レベルシフタによってレベル・シフトされた時間領域表現に適用されるレベル・シフトを少なくとも部分的に補償し、そして、複数の実質的に補償された周波数帯域信号を得るように、複数の周波数帯域信号を決定するように構成されたレベル・シフト補償器を含む、音声信号エンコーダ。
符号化された音声信号表現を復号化し、対応する復号化音声信号表現を提供するための方法であって、前記方法は、
複数の周波数帯域信号を得るために符号化された音声信号表現を前処理するステップ；
符号化された音声信号表現に対する現在のレベル・シフト係数を決定するために、潜在的クリッピングをサイド情報が示唆するどうかについて周波数帯域信号のゲインと関連するサイド情報を分析するステップであって、サイド情報が潜在的クリッピングを示す場合、現在のレベル・シフト係数が、複数の周波数帯域信号の情報を、少なくとも１つの最上位ビットにおいてヘッドルームが得られるように、最下位ビットの方へシフトを引き起こすものであるステップ；
レベル・シフトされた周波数帯域信号を得るためのレベル・シフト係数に従って周波数帯域信号のレベルをシフトさせるステップ；
周波数帯域信号の時間領域表現への周波数−時間領域変換を実行するステップ；および
レベル・シフトされた周波数帯域信号に適用されるレベル・シフトを少なくとも部分的に補償し、そして、実質的に補償された時間領域表現を得るように、時間領域表現を決定するステップを含む、方法。
コンピュータに請求項１５の方法を実行するように指示するためのコンピュータプログラム。