JP2020091500A

JP2020091500A - ノイズ削減のための多チャネルｈｏａオーディオ信号をエンコードする方法および装置ならびにノイズ削減のための多チャネルｈｏａオーディオ信号をデコードする方法および装置

Info

Publication number: JP2020091500A
Application number: JP2020041510A
Authority: JP
Inventors: ベーム，ヨーハネス; Boehm Johannes; コルドン，スヴェン; Sven Kordon; クルーガー，アレクサンダー; krueger Alexander; ジャックス，ピーター; Jax Peter
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-07-16
Filing date: 2020-03-11
Publication date: 2020-06-11
Anticipated expiration: 2033-07-16
Also published as: TWI691214B; KR20150032704A; JP6453961B2; KR20200138440A; JP6205416B2; EP2688066A1; KR102340930B1; JP6676138B2; TW201739272A; US20190318751A1; JP2017207789A; US9837087B2; US10614821B2; CN107591160B; EP4660999A1; KR102187936B1; EP3813063B1; JP2019040218A; US10304469B2; US9460728B2

Abstract

【課題】ノイズ削減のための多チャネルHOAオーディオ信号をデコードする方法および装置を提供する。【解決手段】ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする方法が、逆適応的DSHTを使ってそれらのチャネルを脱相関（８１）させる段階であって、前記逆適応的DSHTは回転演算（３３０）および逆DSHT（８１０）を含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転させる、段階と；脱相関されたチャネルのそれぞれを知覚的にエンコード（８２）する段階と；回転情報（SI）をエンコードする段階であって、前記回転情報は前記回転演算を定義するパラメータを含む、段階と；知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を送信または記憶する段階とを含む。【選択図】図３

Description

本発明は、ノイズ削減のための多チャネル高次アンビソニックス・オーディオ信号をエンコードする方法および装置ならびにノイズ削減のための多チャネル高次アンビソニックス・オーディオ信号をデコードする方法および装置に関する。

高次アンビソニックス（HOA: Higher Order Ambisonics）は多チャネル音場表現であり（非特許文献４）、HOA信号は多チャネル・オーディオ信号である。ある種の多チャネル・オーディオ信号表現、特にHOA表現の特定のラウドスピーカー・セットアップでの再生は、特殊なレンダリングを要求する。かかるレンダリングは通例、マトリクス処理（matrixing）動作からなる。デコード後、アンビソニックス信号は「マトリクス処理される」、すなわち、たとえばラウドスピーカーの実際の空間位置に対応する新たなオーディオ信号にマッピングされる。通例、それら単独チャネル間には高い相互相関がある。

問題は、マトリクス処理動作後に符号化ノイズが増大することが経験されるということである。従来技術においてはその理由は知られていないようである。この効果は、知覚的符号化器による圧縮に先立ってたとえば離散球面調和関数変換（DSHT: Discrete Spherical Harmonics Transform）によってHOA信号が空間領域に変換されるときにも現われる。

高次アンビソニックス・オーディオ信号表現の圧縮のための通例の方法は、個々のアンビソニックス係数チャネルに独立した知覚的符号化器を適用するというものである（非特許文献７）。特に、知覚的符号化器は、個々の各単独チャネル信号内に現われる符号化ノイズ・マスキング効果を考慮するのみである。しかしながら、そのような効果は典型的には非線形である。そのような単独チャネルをマトリクス処理して新しい信号にする場合、ノイズのマスキング解除が起こる可能性が高い。この効果は、知覚的符号化器による圧縮に先立って離散球面調和関数変換によって高次アンビソニックス信号が空間領域に変換されるときにも現われる。

そのような多チャネル・オーディオ信号表現の伝送または記憶は通例、適切な多チャネル圧縮技法を要求する。通例、I個のデコードされた信号

をマトリクス処理して最終的にJ個の新しい信号

にする前に、チャネル独立な知覚的デコードが実行される。マトリクス処理という用語は、デコードされた信号

を重み付けされた仕方で加算または混合することを意味する。すべての信号

およびすべての新しい信号

を

のようにベクトルに配置すると、用語「マトリクス処理」は、新しい信号が数学的にはもとの信号から行列〔マトリクス〕演算

を通じて得られるという事実に由来している。ここで、Aは混合重みから構成される混合行列を表わす。用語「混合」および「マトリクス処理」は本稿では同義に使われる。混合／マトリクス処理は、何らかの特定のラウドスピーカー・セットアップのためにオーディオ信号をレンダリングする目的のために使われる。マトリクスが依存する特定の個別的なラウドスピーカー・セットアップ、よってレンダリングの際にマトリクス処理のために使われる行列は、通例、知覚的符号化の段階では知られていない。

Peter Jax, Jan-Mark Batke, Johannes Boehm, and Sven Kordon. Perceptual coding of HOA signals in spatial domain. 欧州特許出願EP2469741A1 (PD100051)

T.D. Abhayapala. Generalized framework for spherical microphone arrays: Spatial and frequency decomposition. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), (受理) Vol.X, pp. , April 2008, Las Vegas, USA James R. Driscoll and Dennis M. Healy Jr. Computing fourier transforms and convolutions on the 2-sphere. Advances in Applied Mathematics, 15:202- 250, 1994 J¨org Fliege. Integration nodes for the sphere, http://www.personal.soton.ac.uk/jf1w07/nodes/nodes.html J¨org Fliege and Ulrike Maier. A two-stage approach for computing cubature formulae for the sphere. Technical Report, Fachbereich Mathematik, Universit¨at Dortmund, 1999 R. H. Hardin and N. J. A. Sloane. Webpage: Spherical designs, spherical t-designs, http://www2.research.att.com/~njas/sphdesigns R. H. Hardin and N. J. A. Sloane. Mclaren's improved snub cube and other new spherical designs in three dimensions. Discrete and Computational Geometry, 15:429-441 , 1996 Erik Hellerud, Ian Burnett, Audun Solvang, and U. Peter Svensson. Encoding higher order Ambisonics with AAC. In 124th AES Convention, Amsterdam, May 2008 Boaz Rafaely. Plane-wave decomposition of the sound field on a sphere by spherical convolution. J. Acoust. Soc. Am., 4(116):2149-2157, October 2004 Earl G. Williams. Fourier Acoustics, volume 93 of Applied Mathematical Sciences. Academic Press, 1999

本発明は、ノイズ削減を得るよう多チャネル高次アンビソニックス・オーディオ信号のエンコードおよび／またはデコードへの改善を提供する。特に、本発明は、3Dオーディオ・レート圧縮について符号化ノイズのマスキング解除を抑制するすべを提供する。

本発明は、（望まれない）ノイズ・マスキング解除効果を最小限にする適応的な離散球面調和関数変換（aDSHT: adaptive Discrete Spherical Harmonics Transform）のための技術を記述する。さらに、aDSHTが圧縮符号化器アーキテクチャ内にどのように統合できるかが記述される。記述される技術は、少なくともHOA信号について特に有利である。本発明の一つの利点は、伝送されるべきサイド情報の量が減らされるということである。原理的には、回転軸および回転角が伝送されるだけでよい。DSHTサンプリング格子は、伝送されるチャネル数によって間接的に伝達される。このサイド情報量は、相関行列の半分超が伝送される必要のあるカルーネン・レーベ変換（KLT）のような他のアプローチに比べて非常に少ない。

本発明のある実施形態によれば、ノイズ削減のための多チャネルHOAオーディオ信号のエンコード方法は、逆適応的DSHTを使ってそれらのチャネルを脱相関させる段階であって、前記逆適応的DSHTは回転演算および逆DSHT（iDSHT）を含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転させる、段階と、脱相関されたチャネルのそれぞれを知覚的にエンコードする段階と、回転情報をエンコードする段階であって、前記回転情報は前記回転演算を定義するパラメータを含む、段階と、知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を送信または記憶する段階とを含む。逆適応的DSHTを使ってチャネルを脱相関させる段階は、原理的には、空間的エンコード段階である。

本発明のある実施形態によれば、削減されたノイズをもつ符号化された多チャネルHOAオーディオ信号をデコードする方法は、エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領する段階と、受領されたデータを圧縮解除する段階であって、知覚的デコードが使われる段階と、適応的DSHT（aDSHT）を使って各チャネルを空間的にデコードする段階と、知覚的および空間的にデコードされたチャネルを相関させる段階であって、前記回転情報に基づく前記の空間的サンプリング格子の回転が実行される段階と、相関された、知覚的および空間的にデコードされたチャネルをマトリクス処理する段階とを含み、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる。

多チャネルHOAオーディオ信号をエンコードする装置が請求項１１に開示される。多チャネルHOAオーディオ信号をデコードする装置が請求項１２に開示される。

ある側面では、コンピュータ可読媒体が、コンピュータに、上記で開示した段階を含むエンコード方法を実行させるまたは上記で開示した段階を含むデコード方法を実行させる実行可能命令を有する。本発明の有利な実施形態は従属請求項、以下の記述および図面において開示される。

本発明の例示的な実施形態が付属の図面を参照して記述される。
M個の係数のブロックをレート圧縮する既知のエンコーダおよびデコーダを示す図である。通常のDSHT（離散的球面調和関数変換）および通常の逆DSHTを使ってHOA信号を空間領域に変換する既知のエンコーダおよびデコーダを示す図である。適応的DSHTおよび適応的逆DSHTを使ってHOA信号を空間領域に変換するエンコーダおよびデコーダを示す図である。試験信号を示す図である。エンコーダおよびデコーダの構成ブロックにおいて使われるコードブックのための球面サンプリング位置の例を示す図である。信号適応的DSHT構成ブロック（pEおよびpD）を示す図である。本発明の第一の実施形態を示す図である。エンコード・プロセスおよびデコード・プロセスのフローチャートである。本発明の第二の実施形態を示す図である。

図２は、逆DSHTを使ってHOA信号が空間領域に変換される既知のシステムを示している。信号はiDSHT ２１を使った変換、レート圧縮E1／圧縮解除D1にかけられ、DSHT ２４を使って係数領域に再変換される（S24）。それとは異なり、図３は本発明のある実施形態に基づくシステムを示している。既知の解決策のDSHT処理ブロックは、それぞれ逆適応的DSHTおよび適応的DSHTを制御する処理ブロック３１、３４によって置き換えられる。サイド情報SIがビットストリームbs内で伝送される。システムは、多チャネルHOAオーディオ信号をエンコードする装置および多チャネルHOAオーディオ信号をデコードする装置の要素を有する。

ある実施形態では、ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする装置ENCは、逆適応的DSHT（iaDSHT）を使ってチャネルBを脱相関させる脱相関器３１を含み、逆適応的DSHTは回転演算ユニット３１１および逆DSHT（iDSHT）３１０を含む。回転演算ユニットはiDSHTの空間的サンプリング格子を回転させる。脱相関器３１は脱相関された（decorrelated）チャネルW_sdと、回転情報を含むサイド情報SIとを与える。さらに、この装置は、脱相関されたチャネルW_sdのそれぞれを知覚的にエンコードする知覚的エンコーダ３２と、回転情報をエンコードするサイド情報エンコーダ３２１を含む。回転情報は、前記回転演算を定義するパラメータを含む。知覚的エンコーダ３２は、知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を与え、こうしてデータ・レートを低下させる。最後に、このエンコード装置は、知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報からビットストリームbsを生成し、該ビットストリームbsを送信または記憶するインターフェース手段３２０を有する。

削減されたノイズをもつ多チャネルHOAオーディオ信号をデコードする装置DECは、エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領するインターフェース手段３３０と、受領されたデータを圧縮解除する圧縮解除モジュール３３とを含む。圧縮解除モジュール３３は各チャネルを知覚的にデコードするための知覚的デコーダを含む。圧縮解除モジュール３３は復元された知覚的にデコードされたチャネルW'_sdおよび復元されたサイド情報SI'を与える。さらに、このデコード装置は、適応的DSHT（aDSHT）を使って知覚的にデコードされたチャネルW'_sdを相関させる相関器３４であって、DSHTおよび前記回転情報に基づくDSHTの空間的サンプリング格子の回転が実行される相関器と、相関された知覚的にデコードされたチャネルをマトリクス処理する混合器MXであって、ラウドスピーカー位置にマッピングされた再生可能なオーディオ信号が得られる混合器とを含む。少なくとも前記aDSHTは相関器３４内のDSHTユニット３４０において実行されることができる。ある実施形態では、空間的サンプリング格子の回転は格子回転ユニット３４１においてなされ、これは原理的にはもとのDSHTサンプリング点を再計算する。別の実施形態では、回転はDSHTユニット３４０内で実行される。

以下では、マスキング解除（unmasking）を定義し、記述する数学的モデルが与えられる。I個のチャネルからなる所与の離散時間多チャネル信号x_i(m), i＝1,…,Iを想定する。mは時間サンプル・インデックスを表わす。個々の信号は実数値でも複素数値でもよい。時間サンプル・インデックスm_START＋1に始まるM個のサンプルのフレームを考える。ここで、個々の信号は定常的であると想定される。対応するサンプルは、行列X∈C^I×M内に

に従って配置される。(・)^Tは転置を表わす。対応する経験的相関行列は
Σ_X:＝XX^H (3)
によって与えられる。(・)^Hは合同的な複素共役および転置を表わす。

ここで、上記多チャネル信号フレームが符号化され、それにより再構成時に符号化誤差ノイズを導入するとする。こうして、＾付きのXで表わされる再構成されるフレーム・サンプルの行列は、真のサンプル行列Xおよび符号化ノイズ成分Eから

のように構成される。

各チャネルは独立に符号化されていると想定されるので、符号化ノイズ信号e_i(m)はi＝1,…,Iについて互いに独立であると想定できる。この性質およびノイズ信号の平均が0であるという想定を利用すると、ノイズ信号の経験的な相関行列は

として対角行列によって与えられる。この右辺は、対角線上に経験的なノイズ信号パワー

をもつ対角行列を表わす。さらなる本質的な想定は、符号化が、各チャネルについてあらかじめ定義された信号対雑音比（SNR）が満たされるように実行されるということである。一般性を失うことなく、該あらかじめ定義されたSNRは各チャネルについて等しい、すなわち

と想定する。

これから、再構成された信号をJ個の新しい信号y_j(m), j＝1,…,Jにするマトリクス処理を考える。いかなる符号化誤差の導入もなければ、マトリクス処理された信号のサンプル行列は
Y＝AX (11)
によって表現されてもよい。ここで、A∈C^J×Iは混合行列を表わし、

である。しかしながら、符号化ノイズのため、マトリクス処理された信号のサンプル行列は

によって与えられる。ここで、Nはマトリクス処理されたノイズ信号のサンプルを含む行列である。それは次のように表現できる。

ここで、

は時間サンプル・インデックスmにおけるすべてのマトリクス処理されたノイズ信号のベクトルである。

式(11)を利用すると、マトリクス処理されたノイズのない信号の経験的相関行列は次のように定式化できる。

よって、Σ_Yの対角線上のj番目の要素である、j番目のマトリクス処理されたノイズのない信号の経験的パワーは次のように書ける。

ここで、a_jは

のようなA^Hのj番目の列である。

同様に、式(15)により、マトリクス処理されたノイズ信号の経験的相関行列は次のように書ける。

Σ_Nの対角線上のj番目の要素である、j番目のマトリクス処理されたノイズ信号の経験的パワーは次式によって与えられる。

従って、

によって定義されるマトリクス処理された信号の経験的SNRは、式(19)および(22)を使って、次のように定式化し直すことができる。

Σ_Xを

のように対角成分と非対角成分に分解し、想定(7)および(9)から得られる性質

を利用することによって、すべてのチャネルにわたって一定のSNR（SNR_x）に関し、最終的に、マトリクス処理された信号の経験的SNRについての所望される表現が得られる。

この式から、このSNRが、あらかじめ定義されたSNRであるSNR_xから、信号相関行列Σ_Xの対角および非対角成分に依存する項の乗算によって得られることが見て取れる。特に、マトリクス処理された信号の経験的SNRは、信号x_i(m)が互いに相関しておらずΣ_X,NGが零行列になる場合には、あらかじめ定義されたSNRに等しくなる。すなわち、

ここで、0_I×IはI行I列の零行列を表わす。すなわち、x_i(m)が相関している場合には、マトリクス処理された信号の経験的SNRはあらかじめ定義されたSNRから逸脱することがある。最悪の場合には、SNR_yjはSNR_xよりずっと低くなることがある。この現象は、本稿では、マトリクス処理におけるノイズ・マスキング解除（noise unmasking）と呼ばれる。

以下のセクションは、高次アンビソニックス（HOA）の簡単な紹介を与え、処理（データ・レート圧縮）されるべき信号を定義する。

高次アンビソニックス（HOA）は、音源がないと想定されるコンパクトな関心領域内の音場の記述に基づく。その場合、時刻tおよび関心領域内の（球面座標での）位置x＝[r,θ,φ]^Tにおける音圧p(t,x)の空間時間的振る舞いは、斉次波動方程式（homogeneous wave equation）によって物理的には完全に決定される。ωが角周波数を表わすとして、時間に関する音圧のフーリエ変換、すなわち

は、

のように球面調和関数（SH）の級数に展開されうる（非特許文献９）。

式(32)において、c_sは音速を表わし、k＝ω/c_sは角波数を表わす。さらに、j_n(・)は第一種のn次球面ベッセル関数を示し、Y_n ^m(・)は次数（order）nおよび陪数（degree）mの球面調和関数（SH）を表わす。

音場についての完全な情報は、実際には音場係数A_n ^m(k)内に含まれる。

SHは一般には複素数値の関数であることを注意しておくべきである。しかしながら、その近似的な線形結合により、実数値の関数を得て、上記展開をこれらの関数に関して実行することが可能である。

式(32)における圧力音場（sound field）記述に関係して、源場（source field）が次のように定義できる。

ここで、源場または振幅密度（非特許文献８）D(kc_s,Ω)は角波数および角方向Ω＝[θ,φ]^Tに依存する。源場は遠距離場／近距離場、離散／連続源からなることができる（非特許文献１）。源場係数B_n ^mは音場係数A_n ^mと次式によって関係付けられる（非特許文献１）。

（（exp[−ikr]に関係する）はいってくる波について正の周波数および第二種の球面ハンケル関数h_n ⁽²⁾を使う。）ここで、h_n ⁽²⁾は第二種の球面ハンケル関数であり、r_sは原点からの源の距離である。

HOA領域の信号は、周波数領域または時間領域において、音場または源場の逆フーリエ変換として表現できる。以下の記述では、有限数の源場係数の時間領域表現

の使用を想定する。(33)における無限級数はn＝Nにおいて打ち切られる。打ち切りは、空間的な帯域幅制限に対応する。係数（またはHOAチャネル）の数は
3Dについては O_3D＝(N＋1)² (36)
によって、2Dのみの記述についてはO_2D＝2N＋1によって与えられる。係数b_n ^mはラウドスピーカーによるのちの再生のためにある時間サンプルmのオーディオ情報を含む。これらは記憶または送信されることができ、よってデータ・レート圧縮の対象である。

単独の時間サンプルmの係数はO_3D個の要素をもつベクトルb(m)

によって表現でき、M個の時間サンプルのブロックは行列B

によって表現できる。

音場の二次元表現は、円調和関数を用いた展開によって導出できる。これは、上記で呈示した一般的な記述において、固定した傾斜角θ＝π/2、係数の異なる重みおよびO_2D個の係数に縮小された集合（m＝±n）を使った特殊な場合と見ることができる。よって、以下の考察はみな2D表現にも当てはまる。その場合、球という用語は円という用語によって置き換える必要がある。

以下では、HOA係数領域から空間的なチャネル・ベースの領域へのまたその逆の変換を記述する。式(33)は、単位球上のl離散的な空間サンプル位置Ω_l＝[θ_l,φ_l]^Tについて、時間領域HOA係数を使って書き換えることができる。

L_sd＝(N＋1)²個の球面サンプル位置Ω_lを想定すると、これはHOAデータ・ブロックBについてのベクトル記法で書き換えることができる。

ここで、

はL_sd多チャネル信号の単一の時間サンプルを表わし、行列

はベクトル

をもつ。球面サンプル位置が非常に規則的に選択される場合には、

となる行列Ψ_iが存在する。ここでIはO_3D×O_3Dの恒等行列である。すると、式(36)に対応する変換は、

によって定義できる。

式(38)はL_sd個の球面信号を係数領域に変換し、前方変換
B＝DSHT{W} (39)
として書き換えられる。ここで、DSHT{ }は離散球面調和関数変換を表わす。対応する逆変換はO_3D個の係数信号を空間領域に変換してL_sd個のチャネル・ベースの信号を形成し、式(36)は
W＝iDSHT{B} (40)
となる。

離散球面調和関数変換のこの定義は、本稿でのHOAデータのデータ・レート圧縮に関する考察のためには十分である。与えられた係数Bから出発して、B＝DSHT{iDSHT{B}}となる場合のみに関心があるからである。離散球面調和関数変換のより厳密な定義は非特許文献２で与えられている。DSHTのための好適な球面サンプル位置およびそのような位置を導出するための手続きは、非特許文献３、４、６、５において概観できる。サンプリング格子の例は図５に示されている。

具体的には、図５は、エンコーダおよびデコーダ構成ブロックpE、pDにおいて使われるコードブックのための球面サンプリング位置の例を示している。すなわち、図５のａ）はL_sd＝4についてであり、図５のｂ）はL_sd＝9についてであり、図５のｃ）はL_sd＝16についてであり、図５のｄ）はL_sd＝25についてである。

以下では、高次アンビソニックス係数データのレート圧縮およびノイズ・マスキング解除が記述される。まず、いくつかの性質をハイライトするために、以下で使われる試験信号が定義される。

方向Ω_s1に位置する単一の遠距離場源は、M個の離散的な時間サンプルのベクトルg＝[g(m),…,g(M)]^Tによって表現され、式(38)と類似の行列B_gおよび方向Ω_s1＝[θ_s1,φ_s1]^Tにおいて評価される共役複素球面調和関数（実数値のSHが使われるならば共役は何の影響もない）からなるエンコード・ベクトル

を用いたエンコード

によってHOA係数のブロックによって表現できる。試験信号B_gは、HOA信号の最も単純な場合と見ることができる。より複雑な信号は、そのような信号の多数の重ね合わせからなる。

HOAチャネルの直接的な圧縮に関し、以下では、HOA係数チャネルが圧縮されるときになぜノイズ・マスキング解除が生じるかを示す。HOAデータの実際のブロックBのO_3D個の係数チャネルの直接的な圧縮および圧縮解除は、式(4)と類似の符号化ノイズEを導入する。

式(9)のような一定のSNR_Bgを想定する。スピーカーでこの信号を再生するには、信号がレンダリングされる必要がある。このプロセスは

によって記述される。ここで

はデコード行列（A^H＝[a₁,…,a_L]）であり、行列

はL個のスピーカー信号のM個の時間サンプルを保持する。これは(14)と類似である。上記のすべての考察を適用すると、スピーカー・チャネルlのSNRは（式(29)と類似の）

によって記述できる。ここで、σ² _Boは

のo番目の対角要素であり、Σ_B,NGはその非対角要素を保持する。

任意のスピーカー・レイアウトをデコードできるべきであるからデコード行列Aは影響されるべきではないので、行列Σ_Bは対角になってSNR_wl＝SNR_Bgとなる必要がある。式(45)および(49)を用い（B＝B_g）、一定のスカラー値c＝g^Tgを用いて、Σ_B＝yg^Hgy^H＝cyy^Hは非対角になる。SNR_Bgに比べると、スピーカー・チャネルにおける信号対雑音比SNR_wlは低下する。しかし、源信号gもスピーカー・レイアウトも通例、エンコード段では知られていないので、係数チャネルの直接的な不可逆圧縮は、特に低データ・レートについては、制御できないマスキング解除効果につながることがある。

以下は、HOA係数がDSHTを使ったあとに空間領域において圧縮されるときになぜノイズ・マスキング解除が生じるかを記述する。

HOA係数データBの現在ブロックは、式(36)に与えられるような球面調和関数変換を使って圧縮の前に空間領域に変換される：

ここで、逆変換行列Ψ_iはL_Sd≧O_3D個の空間的サンプル位置および空間的信号行列W_SH∈C^LSd×Mに関係している。これが圧縮および圧縮解除にかけられ、式(5)のような符号化ノイズ成分Eを用いて量子化ノイズが加えられる（式(4)と同様）：

ここでもまた、すべての空間チャネルについて一定であるSNR、SNR_Sdを想定する。信号は、Ψ_fΨ_i＝Iという性質(41)をもつ変換行列Ψ_fを使って係数領域に変換される（式(42)）。係数の新しいブロックは次のようになる：

これらの信号は、デコード行列A_Dを適用することによって、L個のスピーカー信号＾W∈C^L×Mにレンダリングされる：

これは(52)およびA＝A_DΨ_fを使って、次のように書き直せる。

ここで、AはA∈C^L×LSdの混合行列である。式(53)は式(14)と類似であることが見て取れるはずである。ここでもまた、上記のすべての考察を適用すると、スピーカー・チャネルlのSNRは（式(29)と類似の）

によって記述できる。ここで、σ² _Sdlはl番目の対角要素であり、Σ_WSd,NGは

の非対角要素をを保持する。

（任意のスピーカー・レイアウトにレンダリングできるべきであるから）A_Dに影響するすべはなく、よってAに対していかなる影響をもつすべもないので、所望されるSNRを保つためにΣ_WSdは対角になる必要がある。式(45)からの簡単な試験信号を使うと（B＝B_g）、一定のc＝g^Tgを用いて、

となる。固定した球面調和関数変換（Ψ_i、Ψ_f固定）を使うと、Σ_WSdが対角になれるのは非常にまれな場合のみであり、さらに悪いことに、上記のように、項

は係数信号の空間的性質に依存する。こうして、球面領域におけるHOA係数の低レートの不可逆圧縮は、SNRの低下および制御できないマスキング解除効果につながることがある。

本発明の基本的発想は、適応的DSHT（aDSHT）を使うことによってノイズ・マスキング解除効果を最小化するということである。適応的DSHTは、HOA入力信号の空間的性質に関係したDSHTの空間的サンプリング格子の回転およびDSHT自身からなる。

HOA係数の数O_3Dに一致する球位置の数L_Sdをもつ信号適応的なDSHT（aDSHT）について下記で述べる。まず、通常の非適応的DSHTにおけるようなデフォルトの球状サンプル格子が選択される。M個の時間サンプルのブロックについて、球状サンプル格子は、項

の対数が最小化されるよう回転される。ここで、|Σ_WSdl,j|は、Σ_WSdの（行列の行インデックスlおよび列インデックスjをもつ）要素の絶対値であり、σ² _SdlはΣ_WSdの対角要素である。これは、式(54)の項

を最小化することに等しい。

視覚化すると、このプロセスは、図４に示されるような、ある単一の空間的サンプル位置が最も強い源方向に一致するようにする、DSHTの球状サンプリング格子の回転に対応する。式(45)からの簡単な試験信号を使うと（B＝B_g）、式(55)の項W_Sdが、一つを除いてすべての要素が0に近い、ベクトル∈C^LSd×1となることが示せる。よって、Σ_WSdはほぼ対角になり、所望されるSNR、SNR_Sdが保てる。

図４は、空間領域に変換された試験信号B_gを示している。図４のａ）では、デフォルトのサンプリング格子が使われており、図４のｂ）では、aDSHTの回転された格子が使われている。空間的チャネルの関係するΣ_WSd値（dB単位）は、対応するサンプル位置のまわりのボロノイ・セルの色／グレー変動によって示される。この空間的構造の各セルはサンプリング点を表わし、セルの明るさ／暗さは信号強さを表わす。図４のｂ）において見て取れるように、最も強い源方向がみつかっており、サンプリング格子は、面の一つ（すなわち、単一の空間的サンプル位置）が最も強い源方向に一致するよう回転されている。この面は白で描かれている（強い源方向に対応）。一方、他の面は暗くなっている（低い源方向に対応）。図４のａ）、すなわち回転前には、どの面も最も強い源方向に一致しておらず、いくつかの面が多少なりとも灰色になっている。これは、かなりの（だが最大でない）強度のオーディオ信号がそれぞれのサンプリング点において受領されることを意味する。

以下は、圧縮エンコーダおよびデコーダ内で使用されるaDSHTの主要な構成ブロックを記述する。

エンコーダおよびデコーダ処理構成ブロックpEおよびpDの詳細が図６に示されている。両方のブロックは、DSHTのための基礎である球状サンプリング点格子の同じコードブックを所有する。初期には、係数の数O_3Dは、共通のコードブックに従って、L_Sd＝O_3D個の位置をもつ、モジュールpE内の基礎格子を選択する。L_Sdは、図３において示されるのと同じ基礎サンプリング位置格子を選択する初期化のために、ブロックpDに送信される必要がある。基礎サンプリング格子は、行列

によって記述される。ここで、Ω_l＝[θ_l,φ_l]^Tは単位球上の位置を定義する。上記のように、図５は基礎格子の例を示す。

回転発見ブロック（構成ブロック「最良回転を発見」）３２０への入力は係数行列Bである。構成ブロックは、式(57)の値が最小化されるよう、基礎サンプリング格子を回転させることを受け持つ。回転は、「軸‐角」表現によって表現され、この回転に関係した圧縮された軸ψ_rotおよび回転角φ_rotがこの構成ブロックにサイド情報SIとして出力される。回転軸ψ_rotは原点から単位球上のある位置への単位ベクトルによって記述できる。球座標では、これは二つの角ψ_rot＝[θ_axis,φ_axis]^Tによって明示できる。暗黙的な関係する半径1は送信される必要はない。三つの角度θ_axis,φ_axis,φ_rotは量子化され、エントロピー符号化される。特別なエスケープ・パターンが、サイド情報SIを生成するための前に使用された値の再使用を合図する。

構成ブロック「Ψ_iを構築」３３０は回転軸および角を

にデコードし、この回転を基礎サンプリング格子D_DSHTに適用して回転された格子

を導出する。これは、iDSHT行列

を出力する。これはベクトル

から導出される。

構成ブロック「iDSHT」３１０では、HOA係数データの実際のブロックBが、W_Sd＝Ψ_iBによって、空間領域に変換される。

デコード処理ブロックpDの構成ブロック「Ψ_fを構築」３５０は回転軸および角を受領し、

を導出する。iDSHT行列

はベクトル

を用いて導出され、DSHT行列Ψ_f＝Ψ_i ^-1がデコード側で計算される。

デコーダ処理ブロック３４内の構成ブロック「DSHT」３４０では、空間領域データの実際のブロック

が再び係数領域データのブロック

に変換される。

以下では、圧縮コーデックの全体的なアーキテクチャを含むさまざまな有利な実施形態が記述される。第一の実施形態は、単一のaDSHTを利用する。第二の実施形態は、諸スペクトル帯域において複数のaDSHTを利用する。

第一の（「基本的」）実施形態は図７に示されている。O_3D個の係数チャネルの、インデックスmをもつHOA時間サンプルb(m)〔ベクトル〕はまずバッファ７１に記憶されて、M個のサンプルおよび時間インデックスμのブロックをなす。B(μ)は、上記のように、構成ブロックpE ７２において、適応的iDSHTを使って空間領域に変換される。空間信号ブロックW_Sd(μ)は、AACまたはmp3エンコーダのようなL_Sd個のオーディオ圧縮モノ・エンコーダ７３または単一のAAC多チャネル・エンコーダ（L_Sd個のチャネル）に入力される。ビットストリームS73は、複数のエンコーダ・ビットストリーム・フレームの統合されたサイド情報SIとの多重化されたフレームまたはサイド情報SIが好ましくは補助データとして統合されている単一の多チャネル・ビットストリームからなる。

それぞれの圧縮デコーダ構成ブロックは、ある実施形態では、ビットストリームS73をL_Sd個のビットストリームおよびサイド情報SIに多重分離してそれらのビットストリームをL_Sd個のモノ・デコーダに供給し、それらのビットストリームをL_Sd個の空間的オーディオ・チャネルにデコードしてM個のサンプルでブロック

を形成し、該＾W_Sd(μ)およびSIをpDに供給するデマルチプレクサD1を有している。ビットストリームが多重化されない別の実施形態では、圧縮デコーダ構成ブロックはビットストリームを受領し、それをL_Sd多チャネル信号

にデコードし、SIをパッキング解除し、該＾W_Sd(μ)およびSIをpDに供給する受領器７４を有する。

＾W_Sd(μ)はデコーダ処理ブロックpD ７５においてSIとともに適応的DSHTを使って係数領域に変換されて、HOA信号のブロックB(μ)を形成する。これらの信号はバッファ７６に記憶され、のちにフレーム解除されて係数の時間信号b(m)を形成する。

上記の第一の実施形態は、ある種の条件のもとで、二つの欠点をもつことがある。第一に、空間的な信号分布の変化のため、前のブロックからの（すなわち、ブロックμからμ＋1への）ブロッキング・アーチファクトがあることがある。第二に、同時に二つ以上の強い信号があることがあり、aDSHTの脱相関効果が非常に小さくなる。

いずれの欠点も、周波数領域で動作する第二の実施形態において対処される。aDSHTは、複数の周波数帯域データを組み合わせるスケール因子帯域データに適用される。ブロッキング・アーチファクトは、重複加算（OLA: Overlay Add）をもつ時間から周波数への変換（TFT: Time to Frequency Transform）処理の重なり合うブロックによって回避される。J個のスペクトル帯域内で本発明を使うことによって、SI_jを送信するためのデータ・レートにおけるオーバーヘッド増大を代償として、改善された信号脱相関が達成できる。

図９に示されるようなこの第二の実施形態のいくつかのさらなる詳細について以下で述べる。信号の各係数チャネルb(m)が時間から周波数への変換（TFT）９１２にかけられる。広く使われるTFTの例は修正コサイン変換（MDCT）である。TFTフレーム化ユニット９１１では、50%重複するデータ・ブロック（ブロック・インデックスμ）が構築される。TFTブロック変換ユニット９１２はブロック変換を実行する。スペクトル帯域化（Spectral Banding）ユニット９１３では、TFT周波数帯域が組み合わされてJ個の新しいスペクトル帯域および関係した信号

を形成する。ここで、K_Jは帯域jにおける周波数係数の数を表わす。これらのスペクトル帯域は複数の処理ブロック９１４において処理される。これらのスペクトル帯域のそれぞれについて、信号

およびサイド情報SI_jを生成する一つの処理ブロックpE_jがある。これらのスペクトル帯域は、不可逆オーディオ圧縮法のスペクトル帯域（AAC/mp3スケール因子帯域のような）に一致してもよいし、あるいはより粗い粒度を有していてもよい。後者の場合、「TFTなしのチャネル独立な不可逆オーディオ圧縮」９１５が帯域化を再配置する必要がある。処理ブロック９１４は、各オーディオ・チャネルに一定のビット・レートを割り当てる、周波数領域におけるL_Sd多チャネル・オーディオ・エンコーダのように振る舞う。ビットストリームは、ビットストリーム・パッキング・ブロック９１６においてフォーマットされる。

デコーダは、上記ビットストリーム（少なくともその一部）を受領または記憶し、それをパッキング解除し（９２１）、オーディオ・データを多チャネル・オーディオ・デコーダ９２２に「TFTなしのチャネル独立なオーディオ・デコード」のために、サイド情報SI_jを複数のデコード処理ブロックpD_j ９２３に供給する。「TFTなしのチャネル独立なオーディオ・デコード」のためのオーディオ・デコーダ９２２はオーディオ情報をデコードし、J個のスペクトル帯域信号

をデコード処理ブロックpD_j ９２３への入力としてフォーマットする。デコード処理ブロック９２３において、これらの信号はHOA係数領域に変換されて

を形成する。スペクトル帯域化解除（debanding）ブロック９２４では、J個のスペクトル帯域はTFTの帯域化に一致するよう再グループ化され、ブロックが重なり合う重複加算（OLA）処理を使うiTFT&OLAブロック９２５において時間領域に変換される。最後に、iTFT&OLAブロック９２５の出力はTFTフレーム解除ブロック９２６においてフレーム解除され、信号

を生成する。

本発明は、チャネル間の相互相関からSNRの増大が帰結するという知見に基づく。知覚的符号化器は、個々の各単独チャネル信号内に生じる符号化ノイズ・マスキング効果を考えるだけである。しかしながら、そのような効果は典型的には非線形である。そこで、そのような複数の単独チャネルをマトリクス処理して新しい信号にするときに、ノイズ・マスキング解除が起こる可能性が高い。これが、マトリクス処理動作後に通常、符号化ノイズが増大する理由である。

本発明は、望まれないノイズ・マスキング解除効果を最小にする適応的な離散球面調和関数変換によるチャネルの脱相関を提案する。aDSHTは、圧縮符号化器および復号器アーキテクチャ内に統合される。これは、DSHTの空間的サンプリング格子を、HOA入力信号の空間的性質に合わせて調整する回転動作を含むので、適応的である。aDSHTは、適応的な回転および実際の、通常のDSHTを含む。実際のDSHTは、従来技術において記載されるように構築できる行列である。適応的な回転はその行列に適用され、それがチャネル間相関の最小化に、よってマトリクス処理後のSNR増大の最小化につながる。回転軸および角は、解析的にではなく、自動化された探索動作によって見出される。デコード後、逆適応的DSHT（iaDSHT）が使われるマトリクス処理をする前に再相関を可能にするために、回転軸および角は、エンコードされ、伝送される。

ある実施形態では、時間から周波数への変換（TFT）およびスペクトル帯域化が実行され、aDSHT／iaDSHTは各スペクトル帯域に独立して適用される。

図８のａ）は、本発明のある実施形態における、ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする方法のフローチャートを示している。図８のｂ）は、本発明のある実施形態における、ノイズ削減のための多チャネルHOAオーディオ信号をデコードする方法のフローチャートを示している。

図８のａ）に示した実施形態では、ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする方法は、逆適応的DSHTを使ってそれらのチャネルを脱相関８１させる段階であって、前記逆適応的DSHTは回転演算および逆DSHT８１２を含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転８１１させる、段階と、脱相関されたチャネルのそれぞれを知覚的にエンコード８２する段階と、回転情報を（サイド情報SIとして）エンコード８３する段階であって、前記回転情報は前記回転演算を定義するパラメータを含む、段階と、知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を送信または記憶する８４段階とを含む。

ある実施形態では、逆適応的DSHTは、初期のデフォルト球状サンプル格子を選択する段階と、最も強い源方向を決定する段階と、M個の時間サンプルのブロックについて、ある単一の空間的サンプル位置が前記最も強い源方向に一致するよう前記球状サンプル格子を回転させる段階とを含む。

ある実施形態では、前記球状サンプル格子は、項

の対数が最小化されるよう回転され、ここで、|Σ_WSdl,j|は、Σ_WSdの（行列の行インデックスlおよび列インデックスjをもつ）要素の絶対値であり、σ² _SdlはΣ_WSdの対角要素であり、

であり、W_Sdはオーディオ・チャネル数かけるブロック処理サンプル数の行列であり、W_Sdは前記aDSHTの結果である。

図８のｂ）に示される実施形態では、削減されたノイズをもつ符号化された多チャネルHOAオーディオ信号をデコードする方法は、エンコードされた多チャネルHOAオーディオ信号および（サイド情報SI内の）チャネル回転情報を受領８５する段階と、受領されたデータを圧縮解除８６する段階であって、知覚的デコードが使われる段階と、適応的DSHTを使って各チャネルを空間的にデコード８７する段階であって、DSHT ８７２と、前記回転情報に基づく前記DSHTの空間的サンプリング格子の回転８７１とが実行され、知覚的デコードされたチャネルが再相関される、段階と、再相関された、知覚的デコードされたチャネルをマトリクス処理８８する段階であって、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる段階とを含む。

ある実施形態では、適応的DSHTは、該適応的DSHTのための初期のデフォルト球状サンプル格子を選択する段階と、M個の時間サンプルのブロックについて、前記回転情報に従って前記球状サンプル格子を回転させる段階とを含む。

ある実施形態では、前記回転情報は三つの成分をもつ空間的ベクトル

である。回転軸ψ_rotは単位ベクトルによって記述できることを注意しておく。

ある実施形態では、前記回転情報は三つの角度θ_axis,φ_axis,φ_rotから構成されるベクトルである。ここで、θ_axis、φ_axisは、球座標における、暗黙的な半径を1として回転軸についての情報を定義し、φ_rotはこの軸のまわりの回転角を定義する。

ある実施形態では、これらの角度は量子化され、エントロピー符号化され、あるエスケープ・パターン（すなわち専用のビット・パターン）が、サイド情報（SI）を生成するための前の値の再使用を合図する（すなわち、示す）。

ある実施形態では、ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする装置は、逆適応的DSHTを使ってそれらのチャネルを脱相関させる脱相関器であって、前記逆適応的DSHTは回転演算および逆DSHT（iDSHT）を含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転させる、脱相関器と；脱相関されたチャネルのそれぞれを知覚的にエンコードする知覚的エンコーダと、回転情報をエンコードするサイド情報エンコーダであって、前記回転情報は前記回転演算を定義するパラメータを含む、サイド情報エンコーダと；知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を送信または記憶するインターフェースとを有する。

ある実施形態では、削減されたノイズをもつ多チャネルHOAオーディオ信号をデコードする装置は、エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領するインターフェース手段３３０と、各チャネルを知覚的にデコードする知覚的デコーダを使うことによって、受領されたデータを圧縮解除する圧縮解除モジュール３３と、知覚的にデコードされたチャネルを再相関させる相関器３４であって、DSHTと、前記回転情報に基づく前記DSHTの空間的サンプリング格子の回転とが実行される、相関器と、相関された、知覚的デコードされたチャネルをマトリクス処理する混合器であって、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる混合器とを有する。原理的には、相関器３４は空間的デコーダとしてはたらく。

ある実施形態では、削減されたノイズをもつ多チャネルHOAオーディオ信号をデコードする装置は、エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領するインターフェース手段３３０と；各チャネルを知覚的にデコードする知覚的デコーダを用いて受領されたデータを圧縮解除する圧縮解除モジュール３３と；知覚的にデコードされたチャネルをaDSHTを使って相関させる相関器３４であって、DSHTと、前記回転情報に基づく前記DSHTの空間的サンプリング格子の回転とが実行される、相関器と；相関された、知覚的デコードされたチャネルをマトリクス処理する混合器MXであって、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる混合器とを有する。

ある実施形態では、前記デコードする装置における前記適応的DSHTは、該適応的DSHTのための初期のデフォルト球状サンプル格子を選択する手段と；M個の時間サンプルのブロックについて、前記回転情報に従って前記デフォルトの球状サンプル格子を回転させる回転処理手段と；回転された球状サンプル格子に対して前記DSHTを実行する変換処理手段とを有する。

ある実施形態では、前記デコードする装置における前記相関器３４は、適応的DSHTを使って各チャネルを同時に空間的にデコードする複数の空間的デコード・ユニット９２２を有し、さらに、スペクトル帯域化解除を実行するためのスペクトル帯域化解除ユニット９２４と、重複加算（OLA）をもつ時間から周波数への変換（TFT）の逆処理を実行するiTFT&OLAユニット９２５とを有する。前記スペクトル帯域化解除ユニットはその出力をiTFT&OLAユニットに与える。

すべての実施形態において、削減されたノイズは、少なくとも、符号化ノイズ・マスキング解除の回避に関する。

オーディオ信号の知覚的符号化は、人間の聴覚知覚に適応された符号化を意味する。オーディオ信号を知覚的符号化するとき、通例、量子化は高帯域オーディオ信号サンプルに対してではなく、人間の知覚に関係する個々の周波数帯域において実行されることを注意しておくべきである。よって、信号パワーと量子化ノイズとの比は個々の周波数帯域の間で変わりうる。よって、知覚的符号化は、通例、冗長性および／または非関連情報の削減を含み、一方、空間的符号化は通例、チャネル間の空間的な関係に関する。

上記に記載した技術は、カルーネン・レーベ変換（KLT）を使う脱相関に対する代替と見ることができる。本発明の一つの利点は、サイド情報の量の強い削減であり、サイド情報はたった三つの角度を含む。KLTはサイド情報としてブロック相関行列の係数を、よってかなりより多くのデータを必要とする。さらに、本稿に開示した技術は、次の処理ブロックに進むときに遷移アーチファクトを軽減するために回転を微調整（またはファインチューニング）することを許容する。これは、その後の知覚的符号化の圧縮品質のために有益である。

表１は、aDSHTとKLTとの間の直接的な比較を与える。いくつかの類似点は存在するものの、aDSHTはKLTに対して著しい利点を提供する。

表１：aDSHTとKLTの比較。

本発明の根本的な新規な特徴がその好ましい実施形態に適用されるものとして示され、記述され、指摘されてきたが、本発明の精神から外れることなく、記載される装置および方法における、開示されるデバイスの形および詳細におけるおよびその動作におけるさまざまな省略および置換および変更が当業者によってなされてもよいことは理解されるであろう。実質的に同じように実質的に同じ機能を実行して同じ結果を達成する要素のあらゆる組み合わせが本発明の範囲内であることが明確に意図されている。ある記載される実施形態から別の記載される実施形態への要素の置換も完全に意図されており、考慮されている。

本発明は純粋に例として記載されてきたのであって、本発明の範囲から外れることなく詳細の修正がなしうることは理解されるであろう。

本記述および（該当する場合には）請求項および図面に開示される各特徴は、独立にまたは任意の適切な組み合わせにおいて提供されてもよい。適切な場合には、特徴はハードウェア、ソフトウェアまたは両者の組み合わせにおいて実装されうる。該当する場合には、接続は無線接続または有線の、必ずしも直接的または専用のものではない接続として実装されうる。

請求項に現われる参照符号は単に例解のためであって、請求項の範囲に対して限定する効果はもたない。

いくつかの態様を記載しておく。
〔態様１〕
ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする方法であって、
・逆適応的DSHTを使ってそれらのチャネルを脱相関（８１）させる段階であって、前記逆適応的DSHTは回転演算（８１１）および逆DSHT（８１２）を含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転させる、段階と；
・脱相関されたチャネルのそれぞれを知覚的にエンコード（８２）する段階と；
・回転情報をエンコード（８３）する段階であって、前記回転情報は前記回転演算を定義するパラメータを含む、段階と；
・知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を送信または記憶する（８４）段階とを含む、
方法。
〔態様２〕
前記逆適応的DSHTは、
・初期のデフォルト球状サンプル格子を選択する段階と；
・最も強い源方向を決定する段階と；
・M個の時間サンプルのブロックについて、ある単一の空間的サンプル位置が前記最も強い源方向に一致するよう前記球状サンプル格子を回転させる段階とを含む、
態様１記載の方法。
〔態様３〕
前記球状サンプル格子は、項

であり、W_Sdはオーディオ・チャネル数かけるブロック処理サンプル数の行列であり、W_Sdは前記aDSHTの結果である、
態様１または２記載の方法。
〔態様４〕
・TFTフレーム化ユニット（９１１）において重なり合うデータ・ブロックを構築する段階と、
・各チャネルの係数に対して時間から周波数への変換（９１２）を実行する段階と、
・スペクトル帯域化ユニット（９１３）において、TFT周波数帯域を組み合わせてJ個の新しいスペクトル帯域を形成する段階と、
・複数の処理ブロック（９１４）において同時に前記スペクトル帯域の複数を処理する段階であって、各処理ブロックは逆適応的DSHTを実行し、前記逆適応的DSHTは回転演算および逆DSHTを含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転させる、段階と、
・TFTなしのチャネル独立な不可逆オーディオ圧縮（９１５）を実行する段階とをさらに含む、
態様１ないし３のうちいずれか一項記載の方法。
〔態様５〕
削減されたノイズをもつ符号化された多チャネルHOAオーディオ信号をデコードする方法であって、
・エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領（８５）する段階と；
・受領されたデータを圧縮解除（８６）する段階であって、知覚的デコードが使われ、知覚的にデコードされたチャネルが得られる段階と；
・適応的DSHTを使って各知覚的にデコードされたチャネルを空間的にデコード（８７）する段階であって、DSHT（８７２）と、前記回転情報に基づく前記DSHTの空間的サンプリング格子の回転（８７１）とが実行される、段階と；
・知覚的および空間的にデコードされたチャネルをマトリクス処理（８８）する段階であって、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる段階とを含む、
方法。
〔態様６〕
前記適応的DSHTは、
・該適応的DSHTのための初期のデフォルト球状サンプル格子を選択する段階と、
・M個の時間サンプルのブロックについて、前記回転情報に従って前記デフォルト球状サンプル格子を回転させる段階と、
・回転された球状サンプル格子上で前記DSHTを実行する段階とを含む、
態様５記載の方法。
〔態様７〕
適応的DSHTを使って各チャネルを空間的にデコード（８７）する前記段階が、複数の空間的デコード・ユニット（９２２）において同時にすべてのチャネルについて行なわれ、当該方法がさらに、スペクトル帯域化解除する段階（９２４）と、重複加算をもつ時間から周波数への変換の逆処理を実行する段階（９２５）とを含む、態様５または６記載の方法。
〔態様８〕
前記回転情報が三つの成分をもつ空間的ベクトル

である、態様１ないし７のうちいずれか一項記載の方法。
〔態様９〕
前記回転情報は三つの角度θ_axis,φ_axis,φ_rotから構成され、θ_axis、φ_axisは、球座標における前記回転軸についての情報を定義し、暗黙的な半径が1であり、φ_rotは前記回転軸のまわりの回転角を定義する、態様８記載の方法。
〔態様１０〕
前記角度は量子化され、エントロピー符号化され、あるエスケープ・パターンが、サイド情報（SI）を生成するために前に使われた値の再使用を指示する、態様９記載の方法。
〔態様１１〕
ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする装置であって、
・逆適応的DSHTを使ってそれらのチャネルを脱相関させる脱相関器（３１）であって、前記逆適応的DSHTは回転演算ユニット（３１１）および逆DSHT（iDSHT）を含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転させる、脱相関器と；
・脱相関されたチャネルのそれぞれを知覚的にエンコードする知覚的エンコーダ（３２）と；
・回転情報をエンコードするサイド情報エンコーダ（３２１）であって、前記回転情報は前記回転演算を定義するパラメータを含む、サイド情報エンコーダと；
・知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を送信または記憶するインターフェース（３２０）とを有する、
装置。
〔態様１２〕
削減されたノイズをもつ多チャネルHOAオーディオ信号をデコードする装置であって、
・エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領するインターフェース手段（３３０）と；
・各チャネルを知覚的にデコードする知覚的デコーダを用いて、受領されたデータを圧縮解除する圧縮解除モジュール（３３）と；
・aDSHTを使って知覚的にデコードされたチャネルを相関させる相関器（３４）であって、DSHTと、前記回転情報に基づく前記DSHTの空間的サンプリング格子の回転とが実行される、相関器と；
・相関された、知覚的にデコードされたチャネルをマトリクス処理する混合器（MX）であって、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる混合器とを有する、
装置。
〔態様１３〕
前記適応的DSHTは、
・該適応的DSHTのための初期のデフォルト球状サンプル格子を選択する手段と；
・M個の時間サンプルのブロックについて、前記回転情報に従って前記デフォルト球状サンプル格子を回転させる回転処理手段と；
・回転された球状サンプル格子に対して前記DSHTを実行する変換処理手段とを有する、
態様１２記載の装置。
〔態様１４〕
前記相関器（３４）が、適応的DSHTを使って各チャネルを同時に空間的にデコードする複数の空間的デコード・ユニット（９２２）を有し、当該装置がさらに、スペクトル帯域化解除を実行するためのスペクトル帯域化解除ユニット（９２４）と、重複加算をもつ時間から周波数への変換の逆処理を実行するiTFT&OLAユニット（９２５）とを有し、前記スペクトル帯域化解除ユニットはその出力を前記iTFT&OLAユニットに与える、態様１２または１３記載の装置。

Claims

高次アンビソニックス（HOA）オーディオ信号をデコードする方法であって、
知覚的デコードに基づいて前記HOAオーディオ信号を圧縮解除して、前記HOAオーディオ信号に対応する少なくとも一つのHOA表現を決定する段階と；
球状サンプル格子の回転に基づいて、回転された変換を決定する段階と；
前記回転された変換および前記HOA表現に基づいて、回転されたHOA表現を決定する段階と；
前記回転されたHOA表現をラウドスピーカー・セットアップへの出力にレンダリングする段階とを含む、
方法。
高次アンビソニックス（HOA）オーディオ信号をデコードする装置であって、
知覚的デコードに基づいて前記HOAオーディオ信号を圧縮解除して、前記HOAオーディオ信号に対応するHOA表現を決定し；
球状サンプル格子の回転に基づいて、回転された変換を決定し；
前記回転された変換および前記HOA表現に基づいて、回転されたHOA表現を決定するよう構成されたデコーダと；
前記回転されたHOA表現をラウドスピーカー・セットアップへの出力にレンダリングするよう構成されたレンダリング器とを有する、
装置。
プロセッサによって実行されたときに請求項１記載の方法を実行する命令を含んでいる非一時的なコンピュータ可読媒体。