[go: up one dir, main page]

JP2018534848A - オブジェクトベースオーディオからhoaへの変換 - Google Patents

オブジェクトベースオーディオからhoaへの変換 Download PDF

Info

Publication number
JP2018534848A
JP2018534848A JP2018517745A JP2018517745A JP2018534848A JP 2018534848 A JP2018534848 A JP 2018534848A JP 2018517745 A JP2018517745 A JP 2018517745A JP 2018517745 A JP2018517745 A JP 2018517745A JP 2018534848 A JP2018534848 A JP 2018534848A
Authority
JP
Japan
Prior art keywords
audio
loudspeaker
vector
location
audio object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018517745A
Other languages
English (en)
Inventor
キム、ム・ユン
セン、ディパンジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018534848A publication Critical patent/JP2018534848A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

デバイスは、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得する。オーディオ信号は、時間間隔に対応する。加えて、デバイスは、オーディオオブジェクトに対する空間ベクトルの表現を取得し、空間ベクトルは、高次アンビソニックス(HOA)領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく。デバイスは、オーディオオブジェクトのオーディオ信号および空間ベクトルに基づいて、複数のオーディオ信号を生成する。複数のオーディオ信号の各それぞれのオーディオ信号は、第1の複数のラウドスピーカーロケーションと異なる第2の複数のラウドスピーカーでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する。
【選択図】図1

Description

関連出願
[0001]本出願は、その内容全体が参照により本明細書に組み込まれる、2015年10月8日に出願された米国仮特許出願第62/239,043号の利益を主張する。
[0002]本開示は、オーディオデータに関し、より詳細には、高次アンビソニックオーディオデータのコーディングに関する。
[0003]高次アンビソニックス(HOA)信号(複数の球面調和係数(SHC)または他の階層的な要素によって表されることが多い)は、音場の3次元表現である。このHOA表現またはSHC表現は、SHC信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカー幾何学的配置に依存しない方法で音場を表し得る。SHC信号は、5.1オーディオチャネルフォーマットまたは7.1オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、SHC信号はまた、下位互換性を容易にし得る。したがって、SHC表現は、下位互換性にも対応する、音場のより良い表現を可能にし得る。
[0004]一例では、本開示は、コーディングされたオーディオビットストリームを復号するためのデバイスを説明し、デバイスは、コーディングされたオーディオビットストリームを記憶するように構成されたメモリと、メモリに電気的に結合された1つまたは複数のプロセッサとを備え、1つまたは複数のプロセッサは、コーディングされたオーディオビットストリームから、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得すること、オーディオ信号は、時間間隔に対応する、と、コーディングされたオーディオビットストリームから、オーディオオブジェクトに対する空間ベクトルの表現を取得すること、ここにおいて、空間ベクトルは、高次アンビソニックッス(HOA)領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく、と、オーディオオブジェクトのオーディオ信号および空間ベクトルに基づいて、複数のオーディオ信号を生成すること、ここにおいて、複数のオーディオ信号の各それぞれのオーディオ信号は、第1の複数のラウドスピーカーロケーションと異なる第2の複数のラウドスピーカーロケーションでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する、とを行うように構成される。
[0005]別の例では、この開示は、コーディングされたオーディオビットストリームを符号化するためのデバイスを説明し、デバイスは、オーディオオブジェクトの仮想ソースロケーションを示すデータとオーディオオブジェクトのオーディオ信号とを記憶することを行うように構成されたメモリと、メモリに電気的に結合された1つまたは複数のプロセッサとを備え、1つまたは複数のプロセッサは、オーディオオブジェクトの仮想ソースロケーションを示すデータと、オーディオオブジェクトのオーディオ信号とを受信することと、オーディオオブジェクトに対する仮想ソースロケーションを示すデータおよび複数のラウドスピーカーロケーションを示すデータに基づいて、高次アンビソニックス(HOA)領域内でオーディオオブジェクトの空間ベクトルを決定することと、コーディングされたオーディオビットストリーム中に、空間ベクトルのデータ表現およびオーディオ信号のオブジェクトベースの表現を含むこととを行うように構成される。
[0006]別の例では、この開示は、コーディングされたオーディオビットストリームを復号するための方法を説明し、方法は、コーディングされたオーディオビットストリームから、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得すること、オーディオ信号は、時間間隔に対応する、と、コーディングされたオーディオビットストリームから、オーディオオブジェクトに対する空間ベクトルの表現を取得すること、ここにおいて、空間ベクトルは、高次アンビソニックッス(HOA)領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく、と、オーディオオブジェクトのオーディオ信号および空間ベクトルに基づいて、複数のオーディオ信号を生成すること、ここにおいて、複数のオーディオ信号の各それぞれのオーディオ信号は、第1の複数のラウドスピーカーロケーションと異なる第2の複数のラウドスピーカーロケーションでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する、とを備える。
[0007]別の例では、この開示は、コーディングされたオーディオビットストリームを符号化するための方法を説明し、方法は、オーディオオブジェクトの仮想ソースロケーションを示すデータと、オーディオオブジェクトのオーディオ信号とを受信することと、オーディオオブジェクトに対する仮想ソースロケーションを示すデータおよび複数のラウドスピーカーロケーションを示すデータに基づいて、高次アンビソニックス(HOA)領域内でオーディオオブジェクトの空間ベクトルを決定することと、コーディングされたオーディオビットストリーム中に、空間ベクトルのデータ表現およびオーディオ信号のオブジェクトベースの表現を含むこととを備える。
[0008]別の例では、この開示は、コーディングされたオーディオビットストリームのためのデバイスを説明し、デバイスは、コーディングされたオーディオビットストリームから、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得するための手段、オーディオ信号は、時間間隔に対応する、と、コーディングされたオーディオビットストリームから、オーディオオブジェクトに対する空間ベクトルの表現を取得するための手段、ここにおいて、空間ベクトルは、高次アンビソニックッス(HOA)領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく、と、オーディオオブジェクトのオーディオ信号および空間ベクトルに基づいて、複数のオーディオ信号を生成するための手段、ここにおいて、複数のオーディオ信号の各それぞれのオーディオ信号は、第1の複数のラウドスピーカーロケーションと異なる第2の複数のラウドスピーカーロケーションでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する、とを備える。
[0009]別の例では、この開示は、コーディングされたオーディオビットストリームを符号化するためのデバイスを説明し、デバイスは、オーディオオブジェクトの仮想ソースロケーションを示すデータと、オーディオオブジェクトのオーディオ信号とを受信するための手段と、オーディオオブジェクトに対する仮想ソースロケーションを示すデータおよび複数のラウドスピーカーロケーションを示すデータに基づいて、高次アンビソニックス(HOA)領域内でオーディオオブジェクトの空間ベクトルを決定するための手段とを備える。
[0010]別の例では、この開示は、実行されたとき、デバイスの1つまたは複数のプロセッサに、コーディングされたオーディオビットストリームから、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得すること、オーディオ信号は、時間間隔に対応する、と、コーディングされたオーディオビットストリームから、オーディオオブジェクトに対する空間ベクトルの表現を取得すること、ここにおいて、空間ベクトルは、高次アンビソニックッス(HOA)領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく、と、オーディオオブジェクトのオーディオ信号および空間ベクトルに基づいて、複数のオーディオ信号を生成すること、ここにおいて、複数のオーディオ信号の各それぞれのオーディオ信号は、第1の複数のラウドスピーカーロケーションと異なる第2の複数のラウドスピーカーロケーションでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する、とを行わせる命令を記憶するコンピュータ可読記憶媒体を説明する。
[0011]別の例では、この開示は、実行されたとき、デバイスの1つまたは複数のプロセッサに、オーディオオブジェクトの仮想ソースロケーションを示すデータと、オーディオオブジェクトのオーディオ信号とを受信することと、オーディオオブジェクトに対する仮想ソースロケーションを示すデータおよび複数のラウドスピーカーロケーションを示すデータに基づいて、高次アンビソニックス(HOA)領域内でオーディオオブジェクトの空間ベクトルを決定することと、コーディングされたオーディオビットストリーム中に、空間ベクトルのデータ表現およびオーディオ信号のオブジェクトベースの表現を含むこととを行わせる命令を記憶するコンピュータ可読記憶媒体を説明する。
[0012]本開示の1つまたは複数の例の詳細が、添付の図面および以下の説明に記載する。他の特徴、目的、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。
本開示で説明される技法の様々な態様を実行し得るシステムを示す図。 様々な次数および副次数の球面調和基底関数を示す図。 本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、図3に示されるオーディオ符号化デバイスの例示的な実装形態とともに使用するためのオーディオ復号デバイスの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、ベクトル符号化ユニットの例示的な実装形態を示すブロック図。 理想的な球面設計位置の例示的なセットを示す表。 理想的な球面設計位置の別の例示的なセットを示す表。 本開示の1つまたは複数の技法による、ベクトル符号化ユニットの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、オーディオ復号デバイスの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、ベクトル復号ユニットの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、ベクトル復号ユニットの代替実装形態を示すブロック図。 本開示の1つまたは複数の技法による、オーディオ符号化デバイスがオブジェクトベースオーディオデータを符号化するように構成される、オーディオ符号化デバイスの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、オブジェクトベースオーディオデータに対するベクトル符号化ユニット68Cの例示的な実装形態を示すブロック図。 VBAPを示す概念図。 本開示の1つまたは複数の技法による、オーディオ復号デバイスがオブジェクトベースオーディオデータを復号するように構成される、オーディオ復号デバイスの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、オーディオ符号化デバイスが空間ベクトルを量子化するように構成される、オーディオ符号化デバイスの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、図17に示されるオーディオ符号化デバイスの例示的な実装形態とともに使用するためのオーディオ復号デバイスの例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、レンダリングユニット210の例示的な実装形態を示すブロック図。 本開示の1つまたは複数の技法による、自動車スピーカー再生環境を示す図。 本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な動作を示すフロー図。 本開示の1つまたは複数の技法による、オーディオ復号デバイスの例示的な動作を示すフロー図。 本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な動作を示すフロー図。 本開示の1つまたは複数の技法による、オーディオ復号デバイスの例示的な動作を示すフロー図。 本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な動作を示すフロー図。 本開示の1つまたは複数の技法による、オーディオ復号デバイスの例示的な動作を示すフロー図。 本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な動作を示すフロー図。 本開示の技法による、コーディングされたオーディオビットストリームを符号化するための例示的な動作を示すフロー図。 本開示の技法による、コーディングされたオーディオビットストリームを復号するための例示的な動作を示すフロー図。
[0042]ラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している5.1フォーマット(これは、次の6つのチャネル、すなわち、フロントレフト(FL)と、フロントライト(FR)と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果(LFE)とを含む)、発展中の7.1フォーマット、7.1.4フォーマットおよび22.2フォーマット(たとえば、超高精細度テレビジョン規格とともに使用するための)などのハイトスピーカーを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」としばしば呼ばれる(対称な、および非対称な幾何学的配置の)任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂二十面体の角の座標に配置される32個のラウドスピーカーを含む。
[0043]オーディオエンコーダは、3つの可能なフォーマット:(i)あらかじめ指定された位置におけるラウドスピーカーを通じて再生されることが意図される、(上で論じられたような)従来のチャネルベースオーディオ、(ii)単一オーディオオブジェクトのための離散的なパルス符号変調(PCM)データを、(情報の中でも)それらのロケーション座標を含む関連付けられたメタデータとともに伴うオブジェクトベースオーディオ、および(iii)球面調和基底関数の係数(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)を使用して音場を表すことを伴うシーンベースオーディオのうちの1つのフォーマットでの入力を受信し得る。いくつかの例では、オーディオオブジェクトのためのロケーション座標は、方位角、および仰角を指定し得る。いくつかの例では、オーディオオブジェクトのためのロケーション座標は、方位角、仰角、および半径を指定し得る。
[0044]いくつかの例では、エンコーダは、受信されたオーディオデータを、それが受信されたフォーマットで符号化し得る。たとえば、従来の7.1チャネルベースオーディオを受信するエンコーダは、チャネルベースオーディオを、デコーダによって再生され得るビットストリームに符号化し得る。しかしながら、いくつかの例では、5.1再生機能(7.1再生機能ではない)を有するデコーダにおいて再生を可能にするために、エンコーダはまた、ビットストリーム内に7.1チャネルベースオーディオの5.1バージョンを含み得る。いくつかの例では、ビットストリーム内に複数のバージョンのオーディオを含むことは、エンコーダにとって望ましくない場合がある。一例として、ビットストリーム内に複数のバージョンのオーディオを含むことは、ビットストリームのサイズを増加させ、したがって送信に必要な帯域幅の量および/またはビットストリームを記憶するために必要なストレージの量を増加させる。別の例として、コンテンツ作成者(たとえば、ハリウッドスタジオ)は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。したがって、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置(と数)および(レンダラを伴う)再生のロケーションにおける音響条件に対して適応可能でありアグノスティックな後続の復号とを提供することが望ましい。
[0045]いくつかの例では、オーディオデコーダが任意のスピーカー構成を用いてオーディオを再生することを可能にするために、オーディオエンコーダは、符号化のための単一フォーマットで入力オーディオを変換し得る。たとえば、オーディオエンコーダは、マルチチャネルオーディオデータおよび/またはオーディオオブジェクトを階層的な要素のセットに変換し、得られた要素のセットをビットストリーム内で符号化し得る。階層的な要素のセットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細になり、分解能は向上する。
[0046]階層的な要素のセットの一例は、高次アンビソニックス(HOA)係数とも呼ばれることもある球面調和係数(SHC)のセットである。以下の式(1)は、SHCを使用する音場の記述または表現を示す。
[0047]式(1)は、時間tにおける音場の任意の点{rr,θr,φr}における圧力piが、SHC、
によって一意に表され得ることを示す。ここで、
であり、cは、音速(約343m/s)であり、
は、基準点(または観測点)であり、jm(・)は、次数nの球ベッセル関数であり、{rr,θr,φr}は、次数nおよび副次数mの球面調和基底関数である。角括弧内の項が、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換などの様々な時間−周波数変換によって概算され得る信号(すなわち、S(ω,rr,θr,φr))の周波数領域表現であることが認識され得る。階層的セットの他の例としては、ウェーブレット変換係数のセットおよび多分解能基底関数の係数の他のセットがある。簡素化の目的のために、以下の本開示は、HOA係数に関して説明される。しかしながら、本技法は、他の階層的セットに等しく適用可能であり得ることを諒解されたい。
[0048]しかしながら、いくつかの例では、受信されたオーディオデータのすべてをHOA係数に変換することは望ましくない場合がある。たとえば、オーディオエンコーダが受信されたオーディオデータのすべてをHOA係数に変換するとすれば、得られるビットストリームは、HOA係数を処理し得ないオーディオデコーダ(例えば、マルチチャネルオーディオデータとオーディオオブジェクトの片方または両方だけを処理し得るオーディオデコーダ)との後方互換性はない。したがって、得られるビットストリームは、オーディオデコーダが任意のスピーカー構成を用いてオーディオデータを再生することを可能にしながら同時に、HOA係数を処理し得ないコンテンツ消費者システムとの後方互換性を可能にするように、オーディオエンコーダが、受信されたオーディオデータを符号化することが望ましい。
[0049]本開示の1つまたは複数の技法によれば、受信されたオーディオデータをHOA係数に変換することおよび得られたHOA係数をビットストリーム内で符号化することとは対照的に、オーディオエンコーダは、それの元のフォーマットにおける受信されたオーディオデータを、符号化されたオーディオデータのHOA係数への変換を可能にする情報とともに、ビットストリーム内で符号化し得る。たとえば、オーディオエンコーダは、符号化されたオーディオデータのHOA係数への変換を可能にし、1つまたは複数の空間位置決めベクトル(SPV)の表現と受信されたオーディオデータの表現とをビットストリーム内で符号化する、1つまたは複数のSPVを決定し得る。いくつかの例では、1つまたは複数のSPVのうちの特定のSPVの表現は、コードブック内の特定のSPVに対応するインデックスであり得る。空間位置決めベクトルは、ソースラウドスピーカー構成(すなわち、受信されたオーディオデータが再生を対象とするラウドスピーカー構成)に基づいて決定され得る。このようにして、オーディオエンコーダは、オーディオデコーダが任意のスピーカー構成を用いて受信されたオーディオデータを再生することを可能にしながら同時に、HOA係数を処理し得ないオーディオデコーダとの後方互換性を可能にするビットストリームを出力し得る。
[0050]オーディオデコーダは、それの元のフォーマットにおけるオーディオデータを、符号化されたオーディオデータのHOA係数への変換を可能にする情報とともに含むビットストリームを受信し得る。たとえば、オーディオデコーダは、5.1フォーマットでのマルチチャネルオーディオデータと1つまたは複数の空間位置決めベクトル(SPV)とを受信し得る。1つまたは複数の空間位置決めベクトルを使用して、オーディオデコーダは、5.1フォーマットでのオーディオデータからのHOA音場を生成し得る。たとえば、オーディオデコーダは、マルチチャネルオーディオ信号および空間位置決めベクトルに基づいてHOA係数のセットを生成し得る。オーディオデコーダは、ローカルラウドスピーカー構成に基づいてHOA音場をレンダリングし得るか、または別のデバイスがレンダリングすることを可能にし得る。このようにして、HOA係数を処理し得るオーディオデコーダは、任意のスピーカー構成を用いてマルチチャネルオーディオデータを再生しながら同時に、HOA係数を処理し得ないオーディオデコーダとの後方互換性を可能にし得る。
[0051]上記で説明したように、オーディオエンコーダは、符号化されたオーディオデータのHOA係数への変換を可能にする1つまたは複数の空間位置決めベクトル(SPV)を決定し、符号化し得る。しかしながら、それはいくつかの例、ビットストリームが1つまたは複数の空間位置決めベクトルの表示を含まないときは、オーディオデコーダは、任意のスピーカー構成を用いて受信されたオーディオデータを再生することが望ましい。
[0052]本開示の1つまたは複数の技法によれば、オーディオデコーダは、符号化されたオーディオデータとソースラウドスピーカー構成の表示(すなわち、符号化されたオーディオデータが再生を対象とするラウドスピーカー構成の表示)とを受信し、ソースラウドスピーカー構成の表示に基づいて、符号化されたオーディオデータのHOA係数への変換を可能にする空間位置決めベクトル(SPV)を生成し得る。いくつかの例では、符号化されたオーディオデータが5.1フォーマットでのマルチチャネルオーディオデータである場合などには、ソースラウドスピーカー構成の表示は、符号化されたオーディオデータが5.1フォーマットでのマルチチャネルオーディオデータであることを示し得る。
[0053]空間位置決めベクトルを使用して、オーディオデコーダは、オーディオデータからHOA音場を生成し得る。たとえば、オーディオデコーダは、マルチチャネルオーディオ信号および空間位置決めベクトルに基づいてHOA係数のセットを生成し得る。オーディオデコーダは、ローカルラウドスピーカー構成に基づいてHOA音場をレンダリングし得るか、または別のデバイスがレンダリングすることを可能にし得る。このようにして、オーディオデコーダは、オーディオデコーダが任意のスピーカー構成を用いて受信されたオーディオデータを再生することを可能にしながら同時に、空間位置決めベクトルを生成および符号化し得ないオーディオエンコーダとの後方互換性を可能にするビットストリームを出力する。
[0054]上記で説明したように、オーディオコーダ(すなわち、オーディオエンコーダまたはオーディオデコーダ)は、符号化されたオーディオデータのHOA音場への変換を可能にする空間位置決めベクトルを取得(すなわち、生成、決定、取り出し、受信、など)を行い得る。いくつかの例では、空間位置決めベクトルは、オーディオデータのほぼ「完全な」再構成を可能にすることを目的に取得され得る。空間位置決めベクトルが、入力されたNチャネルオーディオデータをHOA音場に変換するために使用され、そのHOA音場が、元のNチャネルのオーディオデータに変換されたとき、入力されたNチャネルオーディオデータとほぼ同等である場合に、空間位置決めベクトルは、オーディオデータのほぼ「完全な」再構成を可能にすると見なされ得る。
[0055]ほぼ「完全な」再構成を可能にする空間位置決めベクトルを取得するために、オーディオコーダは、各ベクトルに対して使用するために係数の数NHOAを決定し得る。HOA音場が式(2)および(3)に従って表現され、レンダリング行列Dを用いてHOA音場をレンダリングすることによって得られるNチャネルオーディオが式(4)および(5)に従って表現される場合、ほぼ「完全な」再構成は、係数の数が入力されたNチャネルオーディオデータ内のチャネル数以上になるように選択されるならば可能であり得る。
[0056]言い換えれば、ほぼ「完全な」再構成は、式(6)が満足されるならば可能であり得る。 N≦NHOA (6) 言い換えれば、ほぼ「完全な」再構成は、入力されたチャネル数Nが、各空間位置決めベクトルに対して使用される係数の数NHOA以下であるならば可能であり得る。
[0057]オーディオコーダは、選択された数の係数を有する空間位置決めベクトルを取得し得る。HOA音場Hは、式(7)に従って表現され得る。
[0058]式(7)では、チャネルiに対するHiは、式(8)に示すように、チャネルiに対するオーディオチャネルCiとチャネルiに対する空間位置決めベクトルViの転置との積であり得る。
[0059]Hiは、式(9)に示すチャネルベースオーディオ信号
を生成するためにレンダリングされ得る。
[0060]式(9)は、式(10)または式(11)が真であれば成立し得、式(11)に対する第2の解は、特異であるために除去される。
[0061]式(10)または式(11)が真であれば、チャネルベースオーディオ信号
は、式(12)〜式(14)に従って表され得る。
[0062]したがって、ほぼ「完全な」再構成を可能にするために、オーディオコーダは、式(15)および式(16)を満足する空間位置決めベクトルを取得し得る。
[0063]完全のために、以下は、上記の諸式を満足する空間位置決めベクトルがほぼ「完全な」再構成を可能にすることの証明である。式(17)に従って表現される所与のNチャネルオーディオに対して、オーディオコーダは、式(18)および(19)に従って表現され得る空間位置決めベクトルを取得し得、ここでDはNチャネルオーディオデータのソースラウドスピーカー構成に基づいて決定されるソースレンダリング行列であり、[0,...,1,...,0]はN個の要素を含み、i番目の要素は1であってその他の要素はゼロである。
[0064]オーディオコーダは、式(20)に従って空間位置決めベクトルおよびNチャネルオーディオデータに基づいてHOA音場Hを生成し得る。
[0065]オーディオコーダは、式(21)に従ってHOA音場Hを元のNチャネルオーディオデータ
に変換し得、ここでDはNチャネルオーディオデータのソースラウドスピーカー構成に基づいて決定されるソースレンダリング行列である。
[0066]上記で説明したように、「完全な」再構成は、
がほぼΓと同等である場合に達成される。式(22)〜式(26)において以下に示すように、
はほぼΓと同等であり、したがって、ほぼ「完全な」再構成が可能であり得る。
[0067]レンダリング行列などの行列は、様々な方法で処理され得る。たとえば、行列は、行、列、ベクトルとして、または他の方法で処理(たとえば、記憶、加算、乗算、検索など)され得る。
[0068]図1は、本開示で説明される技法の様々な態様を実行することができるシステム2を示す図である。図1の例に示すように、システム2は、コンテンツ作成者システム4とコンテンツ消費者システム6とを含む。コンテンツ作成者システム4およびコンテンツ消費者システム6の文脈で説明されているが、技法は、オーディオデータを表すビットストリームを形成するためにオーディオデータが符号化される任意の文脈で実施され得る。その上、コンテンツ作成者システム4は、いくつか例を挙げると、ハンドセット(またはセルラーフォン)、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明する技法を実施することが可能な任意の形態の1つまたは複数のコンピューティングデバイスを含み得る。同様に、コンテンツ消費者システム6は、いくつか例を挙げると、ハンドセット(またはセルラーフォン)、タブレットコンピュータ、スマートフォン、セットトップボックス、AV受信機、ワイヤレススピーカー、またはデスクトップコンピュータを含む、本開示で説明する技法を実施することが可能な任意の形態の1つまたは複数のコンピューティングデバイスを含み得る。
[0069]コンテンツ作成者システム4は、映画スタジオ、テレビジョンスタジオ、インターネットストリーミングサービス、またはコンテンツ消費者システム6など、コンテンツ消費者システムの事業者による消費のためのオーディオコンテンツを生成し得る他のエンティティなど、様々なコンテンツ作成者によって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。コンテンツ消費者システム6は、個人によって操作され得る。概して、コンテンツ消費者システム6は、マルチチャネルオーディオコンテンツを出力可能な任意の形態のオーディオ再生システムを指し得る。
[0070]コンテンツ作成者システム4は、受信されたオーディオデータをビットストリームに符号化可能であり得るオーディオ符号化デバイス14を含む。オーディオ符号化デバイス14は、様々なソースからオーディオデータを受信し得る。たとえば、オーディオ符号化デバイス14は、ライブオーディオデータ10および/または事前生成されたオーディオデータ12を取得し得る。オーディオ符号化デバイス14は、様々なフォーマットにおけるライブオーディオデータ10および/または事前生成されたオーディオデータ12を受信し得る。一例として、オーディオ符号化デバイス14は、HOA係数、オーディオオブジェクト、またはマルチチャネルオーディオデータとして1つまたは複数のマイクロフォン8からライブオーディオデータ10を受信し得る。別の例として、オーディオ符号化デバイス14は、HOA係数、オーディオオブジェクト、またはマルチチャネルオーディオデータとして事前生成されたオーディオデータ12を受信し得る。
[0071]上述のように、オーディオ符号化デバイス14は、一例として、ワイヤードチャネルまたはワイヤレスチャネルであり得る送信チャネル、データ記憶デバイスなどを介した送信のために、受信されたオーディオデータをビットストリーム20などのビットストリームに符号化し得る。いくつかの例では、コンテンツ作成者システム4は、符号化ビットストリーム20をコンテンツ消費者システム6に直接送信する。他の例では、符号化ビットストリームはまた、復号および/または再生のためのコンテンツ消費者システム6による後のアクセスのために記憶媒体またはファイルサーバ上に記憶され得る。
[0072]上記で説明したように、いくつかの例では、受信されたオーディオデータは、HOA係数を含み得る。しかしながら、いくつかの例では、受信されたオーディオデータは、マルチチャネルオーディオデータおよび/またはオブジェクトベースオーディオデータなど、HOA係数以外のフォーマットでのオーディオデータを含み得る。いくつかの例では、オーディオ符号化デバイス14は、受信されたオーディオデータを符号化のために単一フォーマットで変換し得る。たとえば、上記で説明したように、オーディオ符号化デバイス14は、マルチチャネルオーディオデータおよび/またはオーディオオブジェクトをHOA係数に変換し、得られたHOA係数をビットストリーム20内で符号化し得る。このようにして、オーディオ符号化デバイス14は、コンテンツ消費者システムが任意のスピーカー構成を用いてオーディオデータを再生することを可能にし得る。
[0073]しかしながら、いくつかの例では、受信されたオーディオデータのすべてをHOA係数に変換することは望ましくない場合がある。たとえば、オーディオ符号化デバイス14が受信されたオーディオデータのすべてをHOA係数に変換するとすれば、得られるビットストリームは、HOA係数を処理し得ないコンテンツ消費者システム(すなわち、マルチチャネルオーディオデータとオーディオオブジェクトの片方または両方だけを処理し得るコンテンツ消費者システム)との後方互換性はない。したがって、得られるビットストリームが、コンテンツ消費者システムが任意のスピーカー構成を用いてオーディオデータを再生することを可能にしながら同時に、HOA係数を処理し得ないコンテンツ消費者システムとの後方互換性を可能にするように、オーディオ符号化デバイス14が受信されたオーディオデータを符号化することが望ましい。
[0074]本開示の1つまたは複数の技法によれば、受信されたオーディオデータをHOA係数に変換することおよび得られたHOA係数をビットストリーム内で符号化することとは対照的に、オーディオ符号化デバイス14は、それの元のフォーマットにおける受信されたオーディオデータを、符号化されたオーディオデータのHOA係数への変換を可能にする情報とともに、ビットストリーム20内で符号化し得る。たとえば、オーディオ符号化デバイス14は、符号化されたオーディオデータのHOA係数への変換を可能にし、1つまたは複数の空間位置決めベクトル(SPV)の表現と受信されたオーディオデータの表現とをビットストリーム20内で符号化する、1つまたは複数のSPVを決定し得る。いくつかの例では、オーディオ符号化デバイス14は、上記の式(15)および(16)を満足する1つまたは複数の空間位置決めベクトルを決定し得る。このようにして、オーディオ符号化デバイス14は、コンテンツ消費者システムが任意のスピーカー構成を用いて受信されたオーディオデータを再生することを可能にしながら同時に、HOA係数を処理し得ないコンテンツ消費者システムとの後方互換性を可能にするビットストリームを出力し得る。
[0075]コンテンツ消費者システム6は、ビットストリーム20に基づいてラウドスピーカーフィード26を生成し得る。図1に示すように、コンテンツ消費者システム6は、オーディオ復号デバイス22とラウドスピーカー24とを含み得る。ラウドスピーカー24は、ローカルラウドスピーカーとも呼ばれ得る。オーディオ復号デバイス22は、ビットストリーム20を復号することが可能であり得る。一例として、オーディオ復号デバイス22は、オーディオデータと、復号されたオーディオデータのHOA係数への変換を可能にする情報とを再構成するためにビットストリーム20を復号し得る。別の例として、オーディオ復号デバイス22は、オーディオデータを再構成するためにビットストリーム20を復号し、復号されたオーディオデータのHOA係数への変換を可能にする情報をローカルに決定し得る。たとえば、オーディオ復号デバイス22は、上記の式(15)および(16)を満足する1つまたは複数の空間位置決めベクトルを決定し得る。
[0076]いずれの場合にも、オーディオ復号デバイス22は、復号されたオーディオデータをHOA係数に変換するために情報を使用し得る。たとえば、オーディオ復号デバイス22は、復号されたオーディオデータをHOA係数に変換し、HOA係数をレンダリングするためにSPVを使用し得る。いくつかの例では、オーディオ復号デバイスは、ラウドスピーカー24のうちの1つまたは複数を駆動し得るラウドスピーカーフィード26を出力するために、得られたHOA係数をレンダリングし得る。いくつかの例では、オーディオ復号デバイスは、ラウドスピーカー24のうちの1つまたは複数を駆動し得るラウドスピーカーフィード26を出力するためにHOA係数をレンダリングし得る外部のレンダ(図示せず)に得られたHOA係数を出力し得る。言い換えれば、HOA音場は、ラウドスピーカー24によって再生される。様々な例では、ラウドスピーカー24は、車両、家、劇場、コンサート会場、または他のロケーションであり得る。
[0077]オーディオ符号化デバイス14およびオーディオ復号デバイス22はそれぞれ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリート論理回路、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せを含む、1つまたは複数の集積回路など、様々な好適な回路のいずれかとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、ソフトウェアのための命令を好適な非一時的コンピュータ可読媒体に記憶し、本開示の技法を実行するために1つまたは複数のプロセッサを使用して集積回路などのハードウェアでその命令を実行し得る。
[0078]図2は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図1の例では明示的に示されていない副次数mの拡張が存在する。
[0079]SHC
は、様々なマイクロフォンアレイ構成によって物理的に取得(たとえば、録音)され得るか、または代替的に、それらは音場のチャネルベースもしくはオブジェクトベースの記述から導出され得る。SHCはシーンベースオーディオを表し、ここで、SHCは、より効率的な送信または記憶を促し得る符号化されたSHCを取得するために、オーディオエンコーダに入力され得る。たとえば、(1+4)2個の(25個の、したがって4次の)係数を伴う4次表現が使用され得る。
[0080]上述されたように、SHCは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。SHCがマイクロフォンアレイからどのように導出され得るかの様々な例は、Poletti,M、「Three−Dimensional Surround Sound Systems Based on Spherical Harmonics」、J.Audio Eng. Soc.、Vol. 53、No. 11、2005年11月、pp.1004−1025において説明されている。
[0081]SHCがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数
は、式(27)に示すように表現されてよく、ここでiは√−1であり、
は次数nの(第二種の)球ハンケル関数であり、{rr,θr,φr}は、オブジェクトのロケーションである。
[0082]周波数の関数として(たとえば、PCMストリームに対して高速フーリエ変換を実行するなど、時間−周波数分析技法を使用して)オブジェクトソースエネルギーg(ω)を知ることで、我々は、各PCMオブジェクトと、対応するロケーションとをSHC
に変換することが可能になる。さらに、各オブジェクトの
係数は、(上式は線形であり直交分解であるので)加法的であることが示され得る。このようにして、多数のPCMオブジェクトが
個の係数によって(たとえば、個々のオブジェクトについての係数ベクトルの和として)表され得る。本質的に、これらの係数は、音場についての情報(3D座標の関数としての圧力)を含んでおり、上記は、観測点{rr,θr,φr}の近傍において、個々のオブジェクトから全音場の表現への変換を表す。
[0083]図3は、本開示の1つまたは複数の技法による、オーディオ符号化デバイス14の例示的な実装形態を示すブロック図である。図3に示すオーディオ符号化デバイス14の例示的な実装形態は、オーディオ符号化デバイス14Aとラベル付けられる。オーディオ符号化デバイス14Aは、オーディオ符号化ユニット51と、ビットストリーム生成ユニット52Aと、メモリ54とを含む。他の例では、オーディオ符号化デバイス14Aは、より多数の、より少数の、または異なるユニットを含み得る。たとえば、オーディオ符号化デバイス14Aは、オーディオ符号化ユニット51を含まないか、またはオーディオ符号化ユニット51は別個のデバイス内に実装され得、1つまたは複数のワイヤードもしくはワイヤレス接続を介してオーディオ符号化デバイス14Aに接続され得る。
[0084]オーディオ信号50は、オーディオ符号化デバイス14Aによって受信された入力オーディオ信号を表し得る。いくつかの例では、オーディオ信号50は、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号であり得る。たとえば、図3に示すように、オーディオ信号50は、チャネルC1〜チャネルCNとして示されるNチャネルのオーディオデータを含み得る。一例として、オーディオ信号50は、5.1のソースラウドスピーカー構成(すなわち、左前チャネル、中央チャネル、右前チャネル、サラウンドバック左チャネル、サラウンドバック右チャネル、および低周波効果(LFE)チャネル)に対する6チャネルオーディオ信号であり得る。別の例として、オーディオ信号50は、7.1のソースラウドスピーカー構成(すなわち、左前チャネル、中央チャネル、右前チャネル、サラウンドバック左チャネル、サラウンド左チャネル、サラウンドバック右チャネル、サラウンド右チャネル、および低周波効果(LFE)チャネル)に対する8チャネルオーディオ信号であり得る。24チャネルオーディオ信号(たとえば、22.2)、9チャネルオーディオ信号(たとえば、8.1)、および任意の他のチャネルの組合せなど、他の例が可能である。
[0085]いくつかの例では、オーディオ符号化デバイス14Aは、オーディオ信号50をコーディングされたオーディオ信号62に符号化するように構成され得るオーディオ符号化ユニット51を含み得る。たとえば、オーディオ符号化ユニット51は、オーディオ信号62を生成するためにオーディオ信号50を量子化、フォーマット、またはさもなければ圧縮し得る。図3の例に示すように、オーディオ符号化ユニット51は、オーディオ信号50のチャネルC1〜CNをコーディングされたオーディオ信号62のチャネルC’1〜C’Nに符号化し得る。いくつかの例では、オーディオ符号化ユニット51は、オーディオCODECと呼ばれることがある。
[0086]ソースラウドスピーカーセットアップ情報48は、ソースラウドスピーカーセットアップ内のラウドスピーカーの数(たとえば、N)とソースラウドスピーカーセットアップ内のラウドスピーカーの位置とを指定し得る。いくつかの例では、ソースラウドスピーカーセットアップ情報48は、方位角および仰角の形態(たとえば、{θi,φii=1,...,N)でソースラウドスピーカーの位置を示し得る。いくつかの例では、ソースラウドスピーカーセットアップ情報48は、あらかじめ規定されたセットアップの形態(たとえば、5.1、7.1、22.2)でソースラウドスピーカーの位置を示し得る。いくつかの例では、オーディオ符号化デバイス14Aは、ソースラウドスピーカーセットアップ情報48に基づいてソースレンダリングフォーマットDを決定し得る。いくつかの例では、ソースレンダリングフォーマットDは、行列として表され得る。
[0087]ビットストリーム生成ユニット52Aは、1つまたは複数の入力に基づいてビットストリームを生成するように構成され得る。図3の例では、ビットストリーム生成ユニット52Aは、ラウドスピーカー位置情報48とオーディオ信号50とをビットストリーム56Aに符号化するように構成され得る。いくつかの例では、ビットストリーム生成ユニット52Aは、圧縮なしにオーディオ信号を符号化し得る。たとえば、ビットストリーム生成ユニット52Aは、オーディオ信号50をビットストリーム56Aに符号化し得る。いくつかの例では、ビットストリーム生成ユニット52Aは、圧縮を用いてオーディオ信号を符号化し得る。たとえば、ビットストリーム生成ユニット52Aは、コーディングされたオーディオ信号62をビットストリーム56Aに符号化し得る。
[0088]いくつかの例では、ビットストリーム56Aへのラウドスピーカー位置情報48に対して、ビットストリーム生成ユニット52Aは、ソースラウドスピーカーセットアップ内のラウドスピーカーの数(たとえば、N)と、方位角および仰角の形態(たとえば、{θi,φii=1,...,N)でのソースラウドスピーカーセットアップのラウドスピーカーの位置とを符号化(たとえば、シグナリング)し得る。さらにいくつかの例では、ビットストリーム生成ユニット52Aは、オーディオ信号50をHOA音場に変換するとき、いくつのHOA係数が使用されるべきである(たとえば、NHOA)かの表示を決定して符号化し得る。いくつかの例では、オーディオ信号50は、フレームに分割され得る。いくつかの例では、ビットストリーム生成ユニット52Aは、ソースラウドスピーカーセットアップ内のラウドスピーカーの数と、各フレームに対するソースラウドスピーカーセットアップのラウドスピーカーの位置とをシグナリングし得る。いくつかの例では、現在のフレームに対するソースラウドスピーカーセットアップが前のフレームに対するソースラウドスピーカーセットアップと同じである場合などには、ビットストリーム生成ユニット52Aは、ソースラウドスピーカーセットアップ内のラウドスピーカーの数と、現在のフレームに対するソースラウドスピーカーセットアップのラウドスピーカーの位置とをシグナリングすることを省略し得る。
[0089]動作中、オーディオ符号化デバイス14Aは、オーディオ信号50を6チャネルのマルチチャネルオーディオ信号として受信し、ラウドスピーカー位置情報48を5.1のあらかじめ規定されたセットアップの形態でのソースラウドスピーカーの位置の表示として受信し得る。上記で説明したように、ビットストリーム生成ユニット52Aは、ラウドスピーカー位置情報48とオーディオ信号50とをビットストリーム56Aに符号化し得る。たとえば、ビットストリーム生成ユニット52Aは、6チャネルのマルチチャネル(オーディオ信号50)の表現、および符号化されたオーディオ信号が5.1オーディオ信号であるとの表示(ソースラウドスピーカー位置情報48)をビットストリーム56Aに符号化し得る。
[0090]上記で説明したように、いくつかの例では、オーディオ符号化デバイス14Aは、符号化されたオーディオデータ(すなわち、ビットストリーム56A)をオーディオ復号デバイスに直接送信し得る。他の例では、オーディオ符号化デバイス14Aは、符号化されたオーディオデータ(すなわち、ビットストリーム56A)を、復号および/または再生のためにオーディオ復号デバイスによって後でアクセスするために、記憶媒体またはファイルサーバに記憶し得る。図3の例では、メモリ54は、ビットストリーム56Aの少なくとも一部を、オーディオ符号化デバイス14Aによる出力の前に記憶し得る。言い換えれば、メモリ54は、ビットストリーム56Aの全部またはビットストリーム56Aの一部を記憶し得る。
[0091]したがって、オーディオ符号化デバイス14Aは、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号(たとえば、ラウドスピーカー位置情報48に対するマルチチャネルオーディオ信号50)を受信することと、マルチチャネルオーディオ信号と組み合わせて、マルチチャネルオーディオ信号を表す高次アンビソニックス(HOA)係数のセットを表す、高次アンビソニックス(HOA)領域内の複数の空間位置決めベクトルをソースラウドスピーカー構成に基づいて取得することと、マルチチャネルオーディオ信号の表現(たとえば、コーディングされたオーディオ信号62)および複数の空間位置決めベクトルの表示(たとえば、ラウドスピーカー位置情報48)をコーディングされたオーディオビットストリーム(たとえば、ビットストリーム56A)内で符号化することとを行うように構成された1つまたは複数のプロセッサを含み得る。さらに、オーディオ符号化デバイス14Aは、1つまたは複数のプロセッサに電気的に結合され、コーディングされたオーディオビットストリームを記憶するように構成されたメモリ(たとえば、メモリ54)を含み得る。
[0092]図4は、本開示の1つまたは複数の技法による、図3に示すオーディオ符号化デバイス14Aの例示的な実装形態とともに使用するためのオーディオ復号デバイス22の例示的な実装形態を示すブロック図である。図4に示すオーディオ復号デバイス22の例示的な実装形態は、22Aとラベル付けられる。図4のオーディオ復号デバイス22の実装形態は、メモリ200と、逆多重化ユニット202Aと、オーディオ復号ユニット204と、ベクトル生成ユニット206と、HOA生成ユニット208Aと、レンダリングユニット210とを含む。他の例では、オーディオ復号デバイス22Aは、より多数の、より少数の、または異なるユニットを含み得る。たとえば、レンダリングユニット210は、ラウドスピーカー、ヘッドフォンユニット、またはオーディオベースもしくはサテライトデバイスなど、別個のデバイス内に実装され、1つまたは複数のワイヤードもしくはワイヤレス接続を介してオーディオ復号デバイス22Aに接続され得る。
[0093]メモリ200は、ビットストリーム56Aなどの符号化されたオーディオデータを取得し得る。いくつかの例では、メモリ200は、オーディオ符号化デバイスから符号化されたオーディオデータ(すなわち、ビットストリーム56A)を直接受信し得る。他の例では、符号化されたオーディオデータが記憶され得、メモリ200は、記憶媒体またはファイルサーバから符号化されたオーディオデータ(すなわち、ビットストリーム56A)を取得し得る。メモリ200は、逆多重化ユニット202など、オーディオ復号デバイス22Aの1つまたは複数の構成要素にビットストリーム56Aへのアクセスを提供し得る。
[0094]逆多重化ユニット202Aは、コーディングされたオーディオデータ62とソースラウドスピーカーセットアップ情報48とを取得するためにビットストリーム56Aを逆多重化し得る。逆多重化ユニット202Aは、オーディオ復号デバイス22Aの1つまたは複数の構成要素に、取得されたデータを提供し得る。たとえば、逆多重化ユニット202Aは、オーディオ復号ユニット204にコーディングされたオーディオデータ62を提供し、ベクトル生成ユニット206にソースラウドスピーカーセットアップ情報48を提供し得る。
[0095]オーディオ復号ユニット204は、コーディングされたオーディオ信号62をオーディオ信号70に復号するように構成され得る。たとえば、オーディオ復号ユニット204は、オーディオ信号70を生成するためにオーディオ信号62を逆量子化、デフォーマット、またはさもなければ解凍し得る。図4の例に示すように、オーディオ復号ユニット204は、オーディオ信号62のチャネルC’1〜C’Nを復号されたオーディオ信号70のチャネルC’1〜C’Nに復号し得る。いくつかの例では、オーディオ信号62がロスレスコーディング技法を使用してコーディングされる場合などには、オーディオ信号70は、図3のオーディオ信号50とほぼ等しい場合がある。いくつかの例では、オーディオ復号ユニット204は、オーディオCODECと呼ばれることがある。オーディオ復号ユニット204は、HOA生成ユニット208Aなど、オーディオ復号デバイス22Aの1つまたは複数の構成要素に復号されたオーディオ信号70を提供し得る。
[0096]ベクトル生成ユニット206は、1つまたは複数の空間位置決めベクトルを生成するように構成され得る。たとえば、図4の例に示すように、ベクトル生成ユニット206は、ソースラウドスピーカーセットアップ情報48に基づいて空間位置決めベクトル72を生成し得る。いくつかの例では、空間位置決めベクトル72は、高次アンビソニックス(HOA)領域内にあり得る。いくつかの例では、空間位置決めベクトル72を生成するために、ベクトル生成ユニット206は、ソースラウドスピーカーセットアップ情報48に基づいてソースレンダリングフォーマットDを決定し得る。決定されたソースレンダリングフォーマットDを使用して、ベクトル生成ユニット206は、上記の式(15)および(16)を満足するために空間位置決めベクトル72を決定し得る。ベクトル生成ユニット206は、HOA生成ユニット208Aなど、オーディオ復号デバイス22Aの1つまたは複数の構成要素に空間位置決めベクトル72を提供し得る。
[0097]HOA生成ユニット208Aは、マルチチャネルオーディオデータおよび空間位置決めベクトルに基づいてHOA音場を生成するように構成され得る。たとえば、図4の例に示すように、HOA生成ユニット208Aは、復号されたオーディオ信号70および空間位置決めベクトル72に基づいてHOA係数212Aのセットを生成し得る。いくつかの例では、HOA生成ユニット208Aは、以下の式(28)に従ってHOA係数212Aのセットを生成し得、ここでHはHOA係数212Aを表し、Ciは復号されたオーディオ信号70を表し、
は空間位置決めベクトル72の転置を表す。
[0098]HOA生成ユニット208Aは、1つまたは複数の他の構成要素に、生成されたHOA音場を提供し得る。たとえば、図4の例に示すように、HOA生成ユニット208Aは、レンダリングユニット210にHOA係数212Aを提供し得る。
[0099]レンダリングユニット210は、複数のオーディオ信号を生成するためにHOA音場をレンダリングするように構成され得る。いくつかの例では、レンダリングユニット210は、図1のラウドスピーカー24など、複数のローカルラウドスピーカーにおいて再生するためのオーディオ信号26Aを生成するために、HOA音場のHOA係数212Aをレンダリングし得る。複数のローカルラウドスピーカーがL個のラウドスピーカーを含む場合、オーディオ信号26Aは、ラウドスピーカー1〜Lを通じて再生するためにそれぞれインデントされたチャネルC1〜CLを含み得る。
[0100]レンダリングユニット210は、複数のローカルラウドスピーカーの位置を表し得るローカルラウドスピーカーセットアップ情報28に基づいてオーディオ信号26Aを生成し得る。いくつかの例では、ローカルラウドスピーカーセットアップ情報28は、ローカルレンダリングフォーマット
の形態であり得る。いくつかの例では、ローカルレンダリングフォーマット
は、ローカルレンダリング行列であり得る。いくつかの例では、ローカルラウドスピーカーセットアップ情報28がローカルラウドスピーカーの各々の方位角および仰角の形態である場合などには、レンダリングユニット210は、ローカルラウドスピーカーセットアップ情報28に基づいてローカルレンダリングフォーマット
を決定し得る。いくつかの例では、レンダリングユニット210は、式(29)に従ってローカルラウドスピーカーセットアップ情報28に基づいてオーディオ信号26Aを生成し得、ここで
はオーディオ信号26Aを表し、HはHOA係数212Aを表し、
はローカルレンダリングフォーマット
の転置を表す。
[0101]いくつかの例では、ローカルレンダリングフォーマット
が、空間位置決めベクトル72を決定するために使用されるソースレンダリングフォーマットDと異なる場合がある。一例として、複数のローカルラウドスピーカーの位置が、複数のソースラウドスピーカーの位置と異なる場合がある。別の例として、複数のローカルラウドスピーカー内のラウドスピーカーの数が、複数のソースラウドスピーカー内のラウドスピーカーの数と異なる場合がある。別の例として、複数のローカルラウドスピーカーの位置が、複数のソースラウドスピーカーの位置と異なると同時に、複数のローカルラウドスピーカー内のラウドスピーカーの数が、複数のソースラウドスピーカー内のラウドスピーカーの数と異なる場合がある。
[0102]したがって、オーディオ復号デバイス22Aは、コーディングされたオーディオビットストリームを記憶するように構成されたメモリ(たとえば、メモリ200)を含み得る。オーディオ復号デバイス22Aは、メモリに電気的に結合され、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号の表現(たとえば、ラウドスピーカー位置情報48に対するコーディングされたオーディオ信号62)をコーディングされたオーディオビットストリームから取得することと、ソースラウドスピーカー構成に基づく高次アンビソニックス(HOA)領域内の複数の空間位置決めベクトル(SPV)(たとえば、空間位置決めベクトル72)の表現を取得することと、マルチチャネルオーディオ信号および複数の空間位置決めベクトルに基づいてHOA音場(たとえば、HOA係数212A)を生成することとを行うように構成された、1つまたは複数のプロセッサをさらに含み得る。
[0103]図5は、本開示の1つまたは複数の技法による、オーディオ符号化デバイス14の例示的な実装形態を示すブロック図である。図5に示すオーディオ符号化デバイス14の例示的な実装形態は、オーディオ符号化デバイス14Bとラベル付けられる。オーディオ符号化デバイス14Bは、オーディオ符号化ユニット51と、ビットストリーム生成ユニット52Aと、メモリ54とを含む。他の例では、オーディオ符号化デバイス14Bは、より多数の、より少数の、または異なるユニットを含み得る。たとえば、オーディオ符号化デバイス14Bはオーディオ符号化ユニット51を含まないか、またはオーディオ符号化ユニット51は、1つまたは複数のワイヤードもしくはワイヤレス接続を介してオーディオ符号化デバイス14Bに接続された別個のデバイスメイビー内に実装され得る。
[0104]空間位置決めベクトルの表示を符号化することなく、コーディングされたオーディオ信号62およびラウドスピーカー位置情報48を符号化し得る図3のオーディオ符号化デバイス14Aとは対照的に、オーディオ符号化デバイス14Bは、空間位置決めベクトルを決定し得るベクトル符号化ユニット68を含む。いくつかの例では、ベクトル符号化ユニット68は、ラウドスピーカー位置情報48に基づいて空間位置決めベクトルを決定し、ビットストリーム生成ユニット52Bによってビットストリーム56Bに符号化するために空間ベクトル表現データ71Aを出力し得る。
[0105]いくつかの例では、ベクトル符号化ユニット68は、コードブック内のインデックスとしてベクトル表現データ71Aを生成し得る。一例として、ベクトル符号化ユニット68は、(たとえば、ラウドスピーカー位置情報48に基づいて)動的に生成されるコードブック内のインデックスとしてベクトル表現データ71Aを生成し得る。動的に生成されるコードブック内のインデックスとしてベクトル表現データ71Aを生成するベクトル符号化ユニット68の一例のさらなる詳細は、図6〜図8を参照しながら以下で説明される。別の例として、ベクトル符号化ユニット68は、所定のソースラウドスピーカーセットアップに対する空間位置決めベクトルを含むコードブック内のインデックスとしてベクトル表現データ71Aを生成し得る。所定のソースラウドスピーカーセットアップに対する空間位置決めベクトルを含むコードブック内のインデックスとしてベクトル表現データ71Aを生成するベクトル符号化ユニット68の一例のさらなる詳細は、図9を参照しながら以下で説明される。
[0106]ビットストリーム生成ユニット52Bは、ビットストリーム56B内のコーディングされたオーディオ信号60および空間ベクトル表現データ71Aを表すデータを含み得る。いくつかの例では、ビットストリーム生成ユニット52Bはまた、ビットストリーム56B内のラウドスピーカー位置情報48を表すデータを含み得る。図5の例では、メモリ54は、ビットストリーム56Bの少なくとも一部を、オーディオ符号化デバイス14Bによる出力の前に記憶し得る。
[0107]したがって、オーディオ符号化デバイス14Bは、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号(たとえば、ラウドスピーカー位置情報48に対するマルチチャネルオーディオ信号50)を受信することと、マルチチャネルオーディオ信号と組み合わせて、マルチチャネルオーディオ信号を表す高次アンビソニックス(HOA)係数のセットを表す、高次アンビソニックス(HOA)領域内の複数の空間位置決めベクトルをソースラウドスピーカー構成に基づいて取得することと、マルチチャネルオーディオ信号の表現(たとえば、コーディングされたオーディオ信号62)および複数の空間位置決めベクトルの表示(たとえば、空間ベクトル表現データ71A)をコーディングされたオーディオビットストリーム(たとえば、ビットストリーム56B)内で符号化することとを行うように構成された1つまたは複数のプロセッサを含み得る。さらに、オーディオ符号化デバイス14Bは、1つまたは複数のプロセッサに電気的に結合され、コーディングされたオーディオビットストリームを記憶するように構成されたメモリ(たとえば、メモリ54)を含み得る。
[0108]図6は、本開示の1つまたは複数の技法による、ベクトル符号化ユニット68の例示的な実装形態を示すブロック図である。図6の例では、ベクトル符号化ユニット68の例示的な実装形態は、ベクトル符号化ユニット68Aとラベル付けられる。図6の例では、ベクトル符号化ユニット68Aは、レンダリングフォーマットユニット110と、ベクトル生成ユニット112と、メモリ114と、表現ユニット115とを備える。さらに、図6の例に示すように、レンダリングフォーマットユニット110は、ソースラウドスピーカーセットアップ情報48を受信する。
[0109]レンダリングフォーマットユニット110は、ソースレンダリングフォーマット116を決定するためにソースラウドスピーカーセットアップ情報48を使用する。ソースレンダリングフォーマット116は、ソースラウドスピーカーセットアップ情報48によって説明される方法で配置されたラウドスピーカーに対するラウドスピーカーフィードのセットにHOA係数のセットをレンダリングするためのレンダリング行列であり得る。レンダリングフォーマットユニット110は、様々な方法でソースレンダリングフォーマット116を決定し得る。たとえば、レンダリングフォーマットユニット110は、ISO/IEC 23008−3、「Information technology−High efficiency coding and media delivery in heterogeneous environments−Part 3: 3D audio」、第1版、2015年(iso.orgにおいて入手可能)で記述される技法を使用し得る。
[0110]レンダリングフォーマットユニット110がISO/IEC 23008−3で記述される技法を使用する一例では、ソースラウドスピーカーセットアップ情報48は、ソースラウドスピーカーセットアップ内のラウドスピーカーの方向を指定する情報を含む。説明を簡単にするために、本開示は、ソースラウドスピーカーセットアップ内のラウドスピーカーを「ソースラウドスピーカー」と呼ぶ場合がある。したがって、ソースラウドスピーカーセットアップ情報48は、L個のラウドスピーカーの方向を指定するデータを含んでよく、ここでLはソースラウドスピーカーの数である。L個のラウドスピーカーの方向を指定するデータは、DLと示され得る。ソースラウドスピーカーの方向を指定するデータは、球面座標のペアとして表現され得る。したがって、
であり、球面角は
である。
は傾斜角を示し、
は、radで表現され得る方位角の角度を示す。この例では、レンダリングフォーマットユニット110は、ソースラウドスピーカーが音響スイートスポットを中心とする球面配置を有すると仮定し得る。
[0111]この例では、レンダリングフォーマットユニット110は、HOA次数および理想的な球面設計位置のセットに基づいて
で示されるモード行列を決定し得る。図7は、理想的な球面設計位置の例示的なセットを示す。図8は、理想的な球面設計位置の別の例示的なセットを示す表である。理想的な球面設計位置は
で示されてよく、ここでSは理想的な球面設計位置の数であり、Ωs=[θs,φs]である。モード行列は、
であり、
であるように定義されてよく、ここでysは、実数値の球面調和係数
を持つ。一般に、実数値の球面調和係数
は、式(30)および(31)に従って表され得る。
[0112]式(30)および(31)において、ルジャンドル関数Pn,m(x)は、ルジャンドル多項式Pn(x)を用いて、およびコンドンショートレー位相項(−1)mを用いないで、以下の式(32)に従って定義され得る。
[0113]図7は、理想的な球面設計位置に対応するエントリを有する例示的な表130を提示する。図7の例では、表130の各行は、あらかじめ規定されたラウドスピーカー位置に対応する1つのエントリである。表130の列131は、ラウドスピーカーに対する理想的な方位角を度で指定する。表130の列132は、ラウドスピーカーに対する理想的な仰角を度で指定する。表130の列133および134は、ラウドスピーカーに対する方位角の角度の許容範囲を度で指定する。表130の列135および136は、ラウドスピーカーの仰角の角度の許容範囲を度で指定する。
[0114]図8は、理想的な球面設計位置に対応するエントリを有する別の例示的な表140の一部を提示する。図8に示さないが、表140は900のエントリを含み、各々は、ラウドスピーカーロケーションの異なる方位角の角度φおよび仰角θを指定する。図8の例では、オーディオ符号化デバイス14は、表140内のエントリのインデックスをシグナリングすることによってソースラウドスピーカーセットアップ内のラウドスピーカーの位置を指定し得る。たとえば、オーディオ符号化デバイス14は、インデックス値46をシグナリングすることによって、ソースラウドスピーカーセットアップ内のラウドスピーカーが方位角1.967778ラジアンおよび仰角0.428967におけるものであると指定し得る。
[0115]図6の例を参照すれば、ベクトル生成ユニット112は、ソースレンダリングフォーマット116を取得し得る。ベクトル生成ユニット112は、ソースレンダリングフォーマット116に基づいて空間ベクトル118のセットを決定し得る。いくつかの例では、ベクトル生成ユニット112によって生成された空間ベクトルの数は、ソースラウドスピーカーセットアップ内のラウドスピーカーの数と同等である。たとえば、ソースラウドスピーカーセットアップ内にN個のラウドスピーカーがある場合、ベクトル生成ユニット112はN個の空間ベクトルを決定し得る。nが1〜Nにわたる、ソースラウドスピーカーセットアップ内の各ラウドスピーカーnに対して、ラウドスピーカーに対する空間ベクトルは、Vn=[An(DDT-1D]Tと同等であり得る。この式において、Dは行列として表されるソースレンダリングフォーマットであり、AnはNに等しい数の要素の単一行からなる行列である(すなわち、AnはN次元ベクトルである)。An内の各要素は、その値が1に等しい一要素を除いて0に等しい。1に等しい要素のAn内の位置のインデックスはnに等しい。したがって、nが1に等しいとき、Anは[1,0,0,...,0]に等しく、nが2に等しいとき、Anは[0,1,0,...,0]に等しく、以下同様である。
[0116]メモリ114はコードブック120を記憶し得る。メモリ114は、ベクトル符号化ユニット68Aから分離され、オーディオ符号化デバイス14の汎用メモリの一部を形成し得る。コードブック120は、エントリのセットを含み、エントリのセットの各々は、それぞれのコード−ベクトルインデックスを空間ベクトル118のセットのそれぞれの空間ベクトルにマッピングする。以下の表は、例示的なコードブックである。この表において、各それぞれの行はそれぞれのエントリに対応し、Nはラウドスピーカーの数を示し、Dは行列として表されるソースレンダリングフォーマットを表す。
[0117]ソースラウドスピーカーセットアップの各それぞれのラウドスピーカーに対して、表現ユニット115は、それぞれのラウドスピーカーに対応するコード−ベクトルインデックスを出力する。たとえば、表現ユニット115は、第1のチャネルに対応するコード−ベクトルインデックスは2であり、第2のチャネルに対応するコード−ベクトルインデックスは4であり、以下同様であることを示すデータを出力し得る。コードブック120のコピーを有する復号デバイスは、ソースラウドスピーカーセットアップのラウドスピーカーに対する空間ベクトルを決定するためにコード−ベクトルインデックスを使用することが可能である。したがって、コード−ベクトルインデックスは、1つのタイプの空間ベクトル表現データである。上記で説明したように、ビットストリーム生成ユニット52Bは、ビットストリーム56B内に空間ベクトル表現データ71Aを含み得る。
[0118]さらに、いくつかの例では、表現ユニット115は、ソースラウドスピーカーセットアップ情報48を取得し、空間ベクトル表現データ71A内にソースラウドスピーカーのロケーションを示すデータを含み得る。他の例では、表現ユニット115は、空間ベクトル表現データ71A内にソースラウドスピーカーのロケーションを示すデータを含まない。そうではなく、少なくともいくつかのそのような例では、ソースラウドスピーカーのロケーションは、オーディオ復号デバイス22において事前設定され得る。
[0119]表現ユニット115が、空間ベクトル表現データ71A内のソースラウドスピーカーのロケーションを示すデータを含む場合の例では、表現ユニット115は、様々な方法でソースラウドスピーカーのロケーションを示し得る。一例では、ソースラウドスピーカーセットアップ情報48は、5.1フォーマット、7.1フォーマット、または22.2フォーマットなどのサラウンドサウンドフォーマットを指定する。この例では、ソースラウドスピーカーセットアップのラウドスピーカーの各々は、あらかじめ規定されたロケーションにおけるものである。したがって、表現ユニット115は、あらかじめ規定されたサラウンドサウンドフォーマットを示すデータを、空間表現データ115内に含み得る。あらかじめ規定されたサラウンドサウンドフォーマット内のラウドスピーカーはあらかじめ規定された位置にあるので、あらかじめ規定されたサラウンドサウンドフォーマットを示すデータは、オーディオ復号デバイス22がコードブック120と一致するコードブックを生成するのに十分であり得る。
[0120]別の例では、ISO/IEC 23008−3は、異なるラウドスピーカーレイアウトに対する複数のCICPスピーカーレイアウトインデックス値を定義する。この例では、ソースラウドスピーカーセットアップ情報48は、ISO/IEC 23008−3において指定されるようにCICPスピーカーレイアウトインデックス(CICPspeakerLayoutIdx)を指定する。レンダリングフォーマットユニット110は、ソースラウドスピーカーセットアップ内のラウドスピーカーのロケーションを、このCICPスピーカーレイアウトインデックスに基づいて決定し得る。したがって、表現ユニット115は、CICPスピーカーレイアウトインデックスの表示を、空間ベクトル表現データ71A内に含み得る。
[0121]別の例では、ソースラウドスピーカーセットアップ情報48は、ソースラウドスピーカーセットアップ内のラウドスピーカーの任意の数と、ソースラウドスピーカーセットアップ内のラウドスピーカーの任意のロケーションとを指定する。この例では、レンダリングフォーマットユニット110は、ソースラウドスピーカーセットアップ内のラウドスピーカーの任意の数およびソースラウドスピーカーセットアップ内のラウドスピーカーの任意のロケーションに基づいてソースレンダリングフォーマットを決定し得る。この例では、ソースラウドスピーカーセットアップ内のラウドスピーカーの任意のロケーションは、様々な方法で表現され得る。たとえば、表現ユニット115は、ソースラウドスピーカーセットアップ内のラウドスピーカーの球面座標を、空間ベクトル表現データ71A内に含み得る。別の例では、オーディオ符号化デバイス20およびオーディオ復号デバイス24は、複数のあらかじめ規定されたラウドスピーカー位置に対応するエントリを有する表を用いて構成される。図7および図8は、そのような表の例である。この例では、空間ベクトル表現データ71Aは、ラウドスピーカーの球面座標をさらに指定するのではなく、空間ベクトル表現データ71Aは代わりに、表内のエントリのインデックス値を示すデータを含み得る。インデックス値をシグナリングすることは、球面座標をシグナリングすることよりも効率的であり得る。
[0122]図9は、本開示の1つまたは複数の技法による、ベクトル符号化ユニット68の例示的な実装形態を示すブロック図である。図9の例では、ベクトル符号化ユニット68の例示的な実装形態は、ベクトル符号化ユニット68Bとラベル付けられる。図9の例では、空間ベクトルユニット68Bは、コードブックライブラリ150と選択ユニット154とを含む。コードブックライブラリ150は、メモリを使用して実装され得る。コードブックライブラリ150は、1つまたは複数のあらかじめ規定されたコードブック152A〜152N(総称して「コードブック152」)を含む。コードブック152のうちの各それぞれのコードブックは、1つまたは複数のエントリのセットを含む。各それぞれのエントリは、それぞれのコード−ベクトルインデックスをそれぞれの空間ベクトルにマッピングする。
[0123]コードブック152のうちの各それぞれのコードブックは、異なるあらかじめ規定されたソースラウドスピーカーセットアップに対応する。たとえば、コードブックライブラリ150内の第1のコードブックは、2つのラウドスピーカーからなるソースラウドスピーカーセットアップに対応し得る。この例では、コードブックライブラリ150内の第2のコードブックは、5.1サラウンドサウンドフォーマットに対する標準的ロケーションに配置された5つのラウドスピーカーからなるソースラウドスピーカーセットアップに対応する。さらに、この例では、コードブックライブラリ150内の第3のコードブックは、7.1サラウンドサウンドフォーマットに対する標準的ロケーションに配置された7つのラウドスピーカーからなるソースラウドスピーカーセットアップに対応する。この例では、コードブックライブラリ100内の第4のコードブックは、22.2サラウンドサウンドフォーマットに対する標準的ロケーションに配置された22個のラウドスピーカーからなるソースラウドスピーカーセットアップに対応する。他の例は、前の例において述べたものより多数の、より少数の、または異なるコードブックを含み得る。
[0124]図9の例では、選択ユニット154は、ソースラウドスピーカーセットアップ情報48を受信する。一例では、ソースラウドスピーカー情報48は、5.1、7.1、22.2およびその他のようなあらかじめ規定されたサラウンドサウンドフォーマットを特定する情報からなるかまたはそれを備える場合がある。別の例では、ソースラウドスピーカー情報48は、ラウドスピーカーの別のタイプのあらかじめ規定された数および配置を特定する情報からなるかまたはそれを備える。
[0125]選択ユニット154は、コードブック152のうちのどのコードブックが、オーディオ復号デバイス24によって受信されたオーディオ信号に適用可能であるかを、ソースラウドスピーカーセットアップ情報に基づいて特定する。図9の例では、選択ユニット154は、オーディオ信号50のうちのどのオーディオ信号が特定されたコードブック内のどのエントリに対応するかを示す空間ベクトル表現データ71Aを出力する。たとえば、選択ユニット154は、オーディオ信号50の各々に対するコード−ベクトルインデックスを出力し得る。
[0126]いくつかの例では、ベクトル符号化ユニット68は、図6のあらかじめ規定されたコードブック手法と図9の動的コードブック手法のハイブリッドを採用する。たとえば、本開示の他の場所で説明するように、チャネルベースオーディオが使用される場合、各それぞれのチャネルはソースラウドスピーカーセットアップのそれぞれのラウドスピーカーに対応し、ベクトル符号化ユニット68は、ソースラウドスピーカーセットアップのうちの各それぞれのラウドスピーカーに対するそれぞれの空間ベクトルを決定する。そのような例のいくつかにおいて、チャネルベースオーディオが使用される場合などには、ベクトル符号化ユニット68は、ソースラウドスピーカーセットアップの特定のラウドスピーカーの空間ベクトルを決定するために、1つまたは複数のあらかじめ規定されたコードブックを使用し得る。ベクトル符号化ユニット68は、ソースラウドスピーカーセットアップに基づいてソースレンダリングフォーマットを決定し、ソースラウドスピーカーセットアップの他のラウドスピーカーに対する空間ベクトルを決定するために、ソースレンダリングフォーマットを使用し得る。
[0127]図10は、本開示の1つまたは複数の技法による、オーディオ復号デバイス22の例示的な実装形態を示すブロック図である。図5に示すオーディオ復号デバイス22の例示的な実装形態は、オーディオ復号デバイス22Bとラベル付けられる。図10のオーディオ復号デバイス22の実装形態は、メモリ200と、逆多重化ユニット202Bと、オーディオ復号ユニット204と、ベクトル生成ユニット207と、HOA生成ユニット208Aと、レンダリングユニット210とを含む。他の例では、オーディオ復号デバイス22Bは、より多数の、より少数の、または異なるユニットを含み得る。たとえば、レンダリングユニット210は、ラウドスピーカー、ヘッドフォンユニット、またはオーディオベースもしくはサテライトデバイスなど、別個のデバイス内に実装され、1つまたは複数のワイヤードもしくはワイヤレス接続を介してオーディオ復号デバイス22Bに接続され得る。
[0128]空間位置決めベクトルの表示を受信することなくラウドスピーカー位置情報48に基づいて空間位置決めベクトル72を生成し得る図4のオーディオ復号デバイス22Aとは対照的に、オーディオ復号デバイス22Bは、受信された空間ベクトル表現データ71Aに基づいて空間位置決めベクトル72を決定し得るベクトル復号ユニット207を含む。
[0129]いくつかの例では、ベクトル復号ユニット207は、空間ベクトル表現データ71Aによって表されるコードブックインデックスに基づいて空間位置決めベクトル72を決定し得る。一例として、ベクトル復号ユニット207は、(たとえば、ラウドスピーカー位置情報48に基づいて)動的に生成されるコードブック内のインデックスから空間位置決めベクトル72を決定し得る。動的に生成されるコードブック内のインデックスから空間位置決めベクトルを決定するベクトル復号ユニット207の一例のさらなる詳細は、図11を参照しながら以下で説明される。別の例として、ベクトル復号ユニット207は、所定のソースラウドスピーカーセットアップに対する空間位置決めベクトルを含むコードブック内のインデックスから空間位置決めベクトル72を決定し得る。所定のソースラウドスピーカーセットアップに対する空間位置決めベクトルを含むコードブック内のインデックスから空間位置決めベクトルを決定するベクトル復号ユニット207の一例のさらなる詳細は、図12を参照しながら以下で説明される。
[0130]いずれの場合も、ベクトル復号ユニット207は、HOA生成ユニット208Aなど、オーディオ復号デバイス22Bの1つまたは複数の他の構成要素に空間位置決めベクトル72を提供し得る。
[0131]したがって、オーディオ復号デバイス22Bは、コーディングされたオーディオビットストリームを記憶するように構成されたメモリ(たとえば、メモリ200)を含み得る。オーディオ復号デバイス22Bは、メモリに電気的に結合され、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号の表現(たとえば、ラウドスピーカー位置情報48に対するコーディングされたオーディオ信号62)をコーディングされたオーディオビットストリームから取得することと、ソースラウドスピーカー構成に基づく高次アンビソニックス(HOA)領域内の複数の空間位置決めベクトル(SPV)(たとえば、空間位置決めベクトル72)の表現を取得することと、マルチチャネルオーディオ信号および複数の空間位置決めベクトルに基づいてHOA音場(たとえば、HOA係数212A)を生成することとを行うように構成された、1つまたは複数のプロセッサをさらに含み得る。
[0132]図11は、本開示の1つまたは複数の技法による、ベクトル復号ユニット207の例示的な実装形態を示すブロック図である。図11の例では、ベクトル復号ユニット207の例示的な実装形態は、ベクトル復号ユニット207Aとラベル付けられる。図11の例では、ベクトル復号ユニット207は、レンダリングフォーマットユニット250と、ベクトル生成ユニット252と、メモリ254と、再構成ユニット256とを含む。他の例では、ベクトル復号ユニット207は、より多数の、より少数の、または異なる構成要素を含み得る。
[0133]レンダリングフォーマットユニット250は、図6のレンダリングフォーマットユニット110の方法と同様の方法で動作し得る。レンダリングフォーマットユニット110と同様に、レンダリングフォーマットユニット250は、ソースラウドスピーカーセットアップ情報48を受信し得る。いくつかの例では、ソースラウドスピーカーセットアップ情報48はビットストリームから取得される。他の例では、ソースラウドスピーカーセットアップ情報48は、オーディオ復号デバイス22において事前設定される。さらに、レンダリングフォーマットユニット110と同様に、レンダリングフォーマットユニット250は、ソースレンダリングフォーマット258を生成し得る。ソースレンダリングフォーマット258は、レンダリングフォーマットユニット110によって生成されるソースレンダリングフォーマット116と一致し得る。
[0134]ベクトル生成ユニット252は、図6のベクトル生成ユニット112の方法と同様の方法で動作し得る。ベクトル生成ユニット252は、空間ベクトル260のセットを決定するためにソースレンダリングフォーマット258を使用し得る。空間ベクトル260は、ベクトル生成ユニット112によって生成される空間ベクトル118と一致し得る。メモリ254はコードブック262を記憶し得る。メモリ254は、ベクトル復号206から分離され得、オーディオ復号デバイス22の汎用メモリの一部を形成し得る。コードブック262は、エントリのセットを含み、エントリのセットの各々は、それぞれのコード−ベクトルインデックスを空間ベクトル260のセットのそれぞれの空間ベクトルにマッピングする。コードブック262は、図6のコードブック120と一致し得る。
[0135]再構成ユニット256は、ソースラウドスピーカーセットアップの特定のラウドスピーカーに対応するとして特定される空間ベクトルを出力し得る。たとえば、再構成ユニット256は、空間ベクトル72を出力し得る。
[0136]図12は、本開示の1つまたは複数の技法による、ベクトル復号ユニット207の代替実装形態を示すブロック図である。図12の例では、ベクトル復号ユニット207の例示的な実装形態は、ベクトル復号ユニット207Bとラベル付けられる。ベクトル復号ユニット207は、コードブックライブラリ300と再構成ユニット304とを含む。コードブックライブラリ300は、メモリを使用して実装され得る。コードブックライブラリ300は、1つまたは複数のあらかじめ規定されたコードブック302A〜302N(総称して「コードブック302」)を含む。コードブック302のうちの各それぞれのコードブックは、1つまたは複数のエントリのセットを含む。各それぞれのエントリは、それぞれのコード−ベクトルインデックスをそれぞれの空間ベクトルにマッピングする。コードブックライブラリ300は、図9のコードブックライブラリ150と一致し得る。
[0137]図12の例では、再構成ユニット304は、ソースラウドスピーカーセットアップ情報48を取得する。図9の選択ユニット154と同様の方法で、再構成ユニット304は、コードブックライブラリ300内の適用可能なコードブックを特定するためにソースラウドスピーカーセットアップ情報48を使用し得る。再構成ユニット304は、ソースラウドスピーカーセットアップ情報のラウドスピーカーに対して適用可能なコードブック内で指定される空間ベクトルを出力し得る。
[0138]図13は、本開示の1つまたは複数の技法による、オーディオ符号化デバイス14がオブジェクトベースオーディオデータを符号化するように構成される、オーディオ符号化デバイス14の例示的な実装形態を示すブロック図である。図13に示すオーディオ符号化デバイス14の例示的な実装形態は、14Cとラベル付けられる。図13の例では、オーディオ符号化デバイス14Cは、ベクトル符号化ユニット68Cと、ビットストリーム生成ユニット52Cと、メモリ54とを含む。
[0139]図13の例では、ベクトル符号化ユニット68Cは、ソースラウドスピーカーセットアップ情報48を取得する。加えて、ベクトル符号化ユニット58Cは、オーディオオブジェクト位置情報350を取得する。オーディオオブジェクト位置情報350は、オーディオオブジェクトの仮想位置を指定する。ベクトル符号化ユニット68Bは、オーディオオブジェクトに対する空間ベクトル表現データ71Bを決定するためにソースラウドスピーカーセットアップ情報48とオーディオオブジェクト位置情報350とを使用する。以下で詳細に説明する図14は、ベクトル符号化ユニット68Cの例示的な実装形態を説明する。
[0140]ビットストリーム生成ユニット52Cは、オーディオオブジェクトに対するオーディオ信号50Bを取得する。ビットストリーム生成ユニット52Cは、ビットストリーム56C内のオーディオ信号50Cおよび空間ベクトル表現データ71Bを表すデータを含み得る。いくつかの例では、ビットストリーム生成ユニット52Cは、MP3、AAC、Vorbis、FLAC、およびOpusなど、知られているオーディオ圧縮フォーマットを使用してオーディオ信号50Bを符号化し得る。いくつかの例では、ビットストリーム生成ユニット52Cは、オーディオ信号50Bを1つの圧縮フォーマットから別の圧縮フォーマットにコード変換し得る。いくつかの例では、オーディオ符号化デバイス14Cは、オーディオ信号50Bを圧縮および/またはコード変換するために、図3および図5のオーディオ符号化ユニット51などのオーディオ符号化ユニットを含み得る。図13の例では、メモリ54は、ビットストリーム56Cの少なくとも一部を、オーディオ符号化デバイス14Cによる出力の前に記憶する。
[0141]したがって、オーディオ符号化デバイス14Cは、時間間隔の間のオーディオオブジェクトのオーディオ信号(たとえば、オーディオ信号50B)と、オーディオオブジェクトの仮想ソースロケーションを示すデータ(たとえば、オーディオオブジェクト位置情報350)とを記憶するように構成されたメモリを含む。さらに、オーディオ符号化デバイス14Cは、メモリに電気的に結合された1つまたは複数のプロセッサを含む。1つまたは複数のプロセッサは、HOA領域内のオーディオオブジェクトの空間ベクトルを、オーディオオブジェクトに対する仮想ソースロケーションを示すデータおよび複数のラウドスピーカーロケーションを示すデータ(たとえば、ソースラウドスピーカーセットアップ情報48)に基づいて決定するように構成される。さらに、いくつかの例では、オーディオ符号化デバイス14Cは、オーディオ信号を表すデータと空間ベクトルを表すデータとを、ビットストリーム内に含み得る。いくつかの例では、オーディオ信号を表すデータは、HOA領域内のデータの表現ではない。さらに、いくつかの例では、時間間隔の間にオーディオ信号を含む音場を記述するHOA係数のセットは、オーディオ信号に空間ベクトルの転置を乗じたものに等しいかまたは同等である。
[0142]加えて、いくつかの例では、空間ベクトル表現データ71Bは、ソースラウドスピーカーセットアップ内のラウドスピーカーのロケーションを示すデータを含み得る。ビットストリーム生成ユニット52Cは、ビットストリーム56C内のソースラウドスピーカーセットアップのラウドスピーカーのロケーションを表すデータを含み得る。他の例では、ビットストリーム生成ユニット52Cは、ビットストリーム56C内のソースラウドスピーカーセットアップのラウドスピーカーのロケーションを表すデータを含まない。
[0143]図14は、本開示の1つまたは複数の技法による、オブジェクトベースオーディオデータに対するベクトル符号化ユニット68Cの例示的な実装形態を示すブロック図である。図14の例では、ベクトル符号化ユニット68Cは、レンダリングフォーマットユニット400と、中間ベクトルユニット402と、ベクトル確定ユニット404と、利得決定ユニット406と、量子化ユニット408とを含む。
[0144]図14の例では、レンダリングフォーマットユニット400は、ソースラウドスピーカーセットアップ情報48を取得する。レンダリングフォーマットユニット400は、ソースラウドスピーカーセットアップ情報48に基づいてソースレンダリングフォーマット410を決定する。レンダリングフォーマットユニット400は、本開示における他の場所で提供される例のうちの1つまたは複数に従ってソースレンダリングフォーマット410を決定し得る。
[0145]図14の例では、中間ベクトルユニット402は、ソースレンダリングフォーマット410に基づいて中間空間ベクトル412のセットを決定する。中間空間ベクトル412のセットの各それぞれの中間空間ベクトルは、ソースラウドスピーカーセットアップのそれぞれのラウドスピーカーに対応する。たとえば、ソースラウドスピーカーセットアップ内にN個のラウドスピーカーがある場合、中間ベクトルユニット402はN個の中間空間ベクトルを決定する。nが1〜Nにわたる、ソースラウドスピーカーセットアップ内の各ラウドスピーカーnに対して、ラウドスピーカーに対する中間空間ベクトルは、Vn=[An(DDT-1D]Tに等しい。この式において、Dは行列として表されるソースレンダリングフォーマットであり、AnはNに等しい数の要素の単一行からなる行列である。An内の各要素は、その値が1に等しい一要素を除いて0に等しい。1に等しい要素のAn内の位置のインデックスはnに等しい。
[0146]さらに、図14の例では、利得決定ユニット406は、ソースラウドスピーカーセットアップ情報48とオーディオオブジェクトロケーションデータ49とを取得する。オーディオオブジェクトロケーションデータ49は、オーディオオブジェクトの仮想ロケーションを指定する。たとえば、オーディオオブジェクトロケーションデータ49は、オーディオオブジェクトの球面座標を指定し得る。図14の例では、利得決定ユニット406は、利得係数416のセットを決定する。利得係数416のセットの各それぞれの利得係数は、ソースラウドスピーカーセットアップのそれぞれのラウドスピーカーに対応する。利得決定ユニット406は、利得係数416を決定するためにベクトルベース振幅パニング(VBAP:vector base amplitude panning)を使用し得る。VBAPは、ラウドスピーカーが聴取位置から同じ距離にあることが仮定される任意のラウドスピーカーセットアップを用いて仮想オーディオソースを設置するために使用され得る。Pulkki、「Virtual Sound Source Positioning Using Vector Base Amplitude Panning」、オーディオ技術学会ジャーナル、第45巻、第6号、1997年6月は、VBAPの記述を提供している。
[0147]図15は、VBAPを示す概念図である。VBAPでは、3つのスピーカーによって出力されるオーディオ信号に適用される利得係数はリスナーを錯覚させて、オーディオ信号が3つのラウドスピーカーの間のアクティブな(active)三角形452内に位置する仮想ソース位置450から到来していると思わせる。仮想ソース位置450は、オーディオオブジェクトのロケーション座標によって示される位置であり得る。たとえば、図15の例では、仮想ソース位置450は、ラウドスピーカー454Bよりもラウドスピーカー454Aに近い。したがって、ラウドスピーカー454Aに対する利得係数は、ラウドスピーカー454Bに対する利得係数よりも大きくてよい。より多数のラウドスピーカーまたは2つのラウドスピーカーを有する他の例が可能である。
[0148]VBAPは、利得係数416を計算するために幾何学的手法を使用する。図15のような例では、3つのラウドスピーカーが各オーディオオブジェクトに対して使用される場合、3つのラウドスピーカーは、ベクトル基底を形成するために三角形内に配置される。各ベクトル基底は、ラウドスピーカー番号k、m、nおよび単位長に正規化されたデカルト座標で与えられるラウドスピーカー位置ベクトルIk、ImおよびInによって特定される。ラウドスピーカーk、mおよびnに対するベクトル基底は、 Ik,m,n=(Ik,Im,In) (33) によって定義され得る。オーディオオブジェクトの所望の方向Ω=(θ,φ)は、方位角の角度φおよび仰角の角度θとして与えられ得る。θ,φは、オーディオオブジェクトのロケーション座標であり得る。したがって、デカルト座標内の仮想ソースの単位長位置ベクトルp(Ω)は、 P(Ω)=(cosφsinθ,sinφsinθ,cosθ)T によって定義される。
[0149]仮想ソース位置は、ベクトル基底および利得係数
を用いて
によって表され得る。
[0150]ベクトル基底行列を反転することによって、要求される利得係数は、
によって計算され得る。
[0151]使用されるべきベクトル基底は、式(36)に従って決定される。最初に、利得は、すべてのベクトル基底に対して式(36)に従って計算される。その後、各ベクトル基底に対して、利得係数の最小値が、
によって評価される。
が最高値を有するベクトル基底が使用される。一般に、利得係数は、負になることを許可されない。聴取室内音響に応じて、利得係数は、エネルギー保存に対して正規化され得る。
[0152]図14の例では、ベクトル確定ユニット404は、利得係数416を取得する。ベクトル確定ユニット404は、オーディオオブジェクトに対する空間ベクトル418を、中間空間ベクトル412および利得係数416に基づいて生成する。いくつかの例では、ベクトル確定ユニット404は、次式
を使用して空間ベクトルを決定する。上記の式では、Vは空間ベクトルであり、Nはソースラウドスピーカーセットアップ内のラウドスピーカーの数であり、giはラウドスピーカーiに対する利得係数であり、Iiはラウドスピーカーiに対する中間空間ベクトルである。利得決定ユニット406が3つのラウドスピーカーを有するVBAPを使用するいくつかの例では、利得係数giのうちの3つだけが非ゼロである。
[0153]したがって、ベクトル確定ユニット404が式(37)を使用して空間ベクトル418を決定する例では、空間ベクトル418は、複数のオペランドの合計と同等である。複数のオペランドのうちの各それぞれのオペランドは、複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応する。複数のラウドスピーカーロケーションのうちの各それぞれのラウドスピーカーロケーションに対して、複数のラウドスピーカーロケーションベクトルは、それぞれのラウドスピーカーロケーションに対して1つのラウドスピーカーロケーションベクトルを含む。さらに、複数のラウドスピーカーロケーションのうちの各それぞれのラウドスピーカーロケーションに対して、それぞれのラウドスピーカーロケーションに対応するオペランドは、それぞれのラウドスピーカーロケーションに対する利得係数に、それぞれのラウドスピーカーロケーションに対するラウドスピーカーロケーションベクトルを乗じたものと同等である。この例では、それぞれのラウドスピーカーロケーションに対する利得係数は、それぞれのラウドスピーカーロケーションにおけるオーディオ信号に対するそれぞれの利得を示す。
[0154]したがって、この例では、空間ベクトル418は、複数のオペランドの合計と同等である。複数のオペランドのうちの各それぞれのオペランドは、複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応する。複数のラウドスピーカーロケーションのうちの各それぞれのラウドスピーカーロケーションに対して、複数のラウドスピーカーロケーションベクトルは、それぞれのラウドスピーカーロケーションに対する1つのラウドスピーカーロケーションベクトルを含む。さらに、それぞれのラウドスピーカーロケーションに対応するオペランドは、それぞれのラウドスピーカーロケーションに対する利得係数に、それぞれのラウドスピーカーロケーションに対するラウドスピーカーロケーションベクトルを乗じたものと同等である。この例では、それぞれのラウドスピーカーロケーションに対する利得係数は、それぞれのラウドスピーカーロケーションにおけるオーディオ信号に対するそれぞれの利得を示す。
[0155]要約するために、いくつかの例では、ベクトル符号化ユニット68Cのレンダリングフォーマットユニット400は、HOA係数のセットをソースラウドスピーカーロケーションにおけるラウドスピーカーに対するラウドスピーカーフィードにレンダリングするためのレンダリングフォーマットを決定し得る。加えて、ベクトル確定ユニット404は、複数のラウドスピーカーロケーションベクトルを決定し得る。複数のラウドスピーカーロケーションベクトルのうちの各それぞれのラウドスピーカーロケーションベクトルは、複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応し得る。複数のラウドスピーカーロケーションベクトルを決定するために、利得決定ユニット406は、複数のラウドスピーカーロケーションの各それぞれのラウドスピーカーロケーションに対して、それぞれのラウドスピーカーロケーションに対する利得係数を、オーディオオブジェクトのロケーション座標に基づいて決定し得る。それぞれのラウドスピーカーロケーションに対する利得係数は、それぞれのラウドスピーカーロケーションにおけるオーディオ信号に対するそれぞれの利得を示し得る。加えて、複数のラウドスピーカーロケーションの各それぞれのラウドスピーカーロケーションに対して、オーディオオブジェクトのロケーション座標に基づいて決定し、中間ベクトルユニット402は、それぞれのラウドスピーカーロケーションに対応するラウドスピーカーロケーションベクトルを、レンダリングフォーマットに基づいて決定し得る。ベクトル確定ユニット404は、複数のオペランドの合計として空間ベクトルを決定してよく、複数のオペランドのうちの各それぞれのオペランドは、複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応する。複数のラウドスピーカーロケーションのうちの各それぞれのラウドスピーカーロケーションに対して、それぞれのラウドスピーカーロケーションに対応するオペランドは、それぞれのラウドスピーカーロケーションに対する利得係数に、それぞれのラウドスピーカーロケーションに対応するラウドスピーカーロケーションベクトルを乗じたものと同等である。
[0156]量子化ユニット408は、オーディオオブジェクトに対する空間ベクトルを量子化する。たとえば、量子化ユニット408は、本開示の他の場所で説明するベクトル量子化技法に従って空間ベクトルを量子化し得る。たとえば、量子化ユニット408は、スカラー量子化、ハフマンコーディングを用いるスカラー量子化、または図17に関して説明するベクトル量子化技法を使用して空間ベクトル418を量子化し得る。したがって、ビットストリーム70C内に含まれる空間ベクトルを表すデータは、量子化空間ベクトルである。
[0157]上記で説明したように、空間ベクトル418は、複数のオペランドの合計に等しいかまたは同等であり得る。本開示の目的に対して、以下の(1)第1の要素の値は第2の要素の値に数学的に等しい、(2)(たとえば、ビット深度、レジスタ限度、浮動小数点表現、固定小数点表現、2進化10進表現などによって)丸められたときの第1の要素の値は、(たとえば、ビット深度、レジスタ限度、浮動小数点表現、固定小数点表現、2進化10進表現などによって)丸められたときの第2の要素の値と同じである、または(3)第1の要素の値は第2の要素の値と同一である、のうちのいずれかが真である場合、第1の要素は第2の要素と等価であると見なされ得る。
[0158]図16は、本開示の1つまたは複数の技法による、オーディオ復号デバイス22がオブジェクトベースオーディオデータを復号するように構成される、オーディオ復号デバイス22の例示的な実装形態を示すブロック図である。図16に示すオーディオ復号デバイス22の例示的な実装形態は、22Cとラベル付けられる。図16の例では、オーディオ復号デバイス22Cは、メモリ200と、逆多重化ユニット202Cと、オーディオ復号ユニット66と、ベクトル復号ユニット209と、HOA生成ユニット208Bと、レンダリングユニット210とを含む。一般に、メモリ200、逆多重化ユニット202C、オーディオ復号ユニット66、HOA生成ユニット208B、およびレンダリングユニット210は、図10の例のメモリ200、逆多重化ユニット202B、オーディオ復号ユニット204、HOA生成ユニット208A、およびレンダリングユニット210に関して説明した方法と同様の方法で動作し得る。他の例では、図14に関して説明したオーディオ復号デバイス22の実装形態は、より多数の、より小数の、または異なるユニットを含み得る。たとえば、レンダリングユニット210は、ラウドスピーカー、ヘッドフォンユニットまたはオーディオベースもしくはサテライトデバイスなど、別個のデバイス内に実装され得る。
[0159]図16の例では、オーディオ復号デバイス22Cは、ビットストリーム56Cを取得する。ビットストリーム56Cは、オーディオオブジェクトの符号化されたオブジェクトベースオーディオ信号とオーディオオブジェクトの空間ベクトルを表すデータとを含み得る。図16の例では、オブジェクトベースオーディオ信号は、HOA領域内のデータに基づかず、そのデータから導出されず、そのデータを表さない。しかしながら、オーディオオブジェクトの空間ベクトルは、HOA領域内にある。図16の例では、メモリ200は、ビットストリーム56Cの少なくとも部分を記憶するように構成され、したがって、オーディオオブジェクトのオーディオ信号を表すデータとオーディオオブジェクトの空間ベクトルを表すデータとを記憶するように構成される。
[0160]逆多重化ユニット202Cは、ビットストリーム56Cから空間ベクトル表現データ71Bを取得し得る。空間ベクトル表現データ71Bは、各オーディオオブジェクトに対する空間ベクトルを表すデータを含む。したがって、逆多重化ユニット202Cは、オーディオオブジェクトのオーディオ信号を表すデータをビットストリーム56Cから取得し、オーディオオブジェクトに対する空間ベクトルを表すデータをビットストリーム56Cから取得し得る。空間ベクトルを表すデータが量子化される場合などの例では、ベクトル復号ユニット209は、オーディオオブジェクトの空間ベクトル72を決定するために空間ベクトルを逆量子化し得る。
[0161]次いで、HOA生成ユニット208Bは、図10に関して説明した方法で空間ベクトル72を使用し得る。たとえば、HOA生成ユニット208Bは、空間ベクトル72およびオーディオ信号70に基づいて、HOA音場、そのようなHOA係数212Bを生成し得る。
[0162]したがって、オーディオ復号デバイス22Bは、ビットストリームを記憶するように構成されたメモリ58を含む。加えて、オーディオ復号デバイス22Bは、メモリに電気的に結合された1つまたは複数のプロセッサを含む。1つまたは複数のプロセッサは、オーディオオブジェクトのオーディオ信号をビットストリーム内のデータに基づいて決定するように構成され、オーディオ信号は時間間隔に対応する。さらに、1つまたは複数のプロセッサは、オーディオオブジェクトに対する空間ベクトルを、ビットストリーム内のデータに基づいて決定するように構成される。この例では、空間ベクトルは、HOA領域内で定義される。さらに、いくつかの例では、1つまたは複数のプロセッサは、オーディオオブジェクトのオーディオ信号および空間ベクトルを、時間間隔の間の音場を記述するHOA係数212Bのセットに変換する。本開示の他の場所で説明するように、HOA生成ユニット208Bは、HOA係数のセットが、オーディオ信号に空間ベクトルの転置を乗じたものと等価になるように、HOA係数のセットを決定し得る。
[0163]図16の例では、レンダリングユニット210は、図10のレンダリングユニット210と同様の方法で動作し得る。たとえば、レンダリングユニット210は、レンダリングフォーマット(たとえば、ローカルレンダリング行列)をHOA係数212Bに適用することによって複数のオーディオ信号26を生成し得る。複数のオーディオ信号26のうちの各それぞれのオーディオ信号は、図1のラウドスピーカー24など、複数のラウドスピーカー内のそれぞれのラウドスピーカーに対応し得る。
[0164]いくつかの例では、レンダリングユニット210Bは、ローカルラウドスピーカーセットアップのロケーションを示す情報28に基づいてローカルレンダリングフォーマットを適応させ得る。レンダリングユニット210Bは、図19に関して以下で説明する方法でローカルレンダリングフォーマットを適応させ得る。
[0165]図17は、本開示の1つまたは複数の技法による、オーディオ符号化デバイス14が空間ベクトルを量子化するように構成される、オーディオ符号化デバイス14の例示的な実装形態を示すブロック図である。図17に示すオーディオ符号化デバイス14の例示的な実装形態は、14Dとラベル付けられる。図17の例では、オーディオ符号化デバイス14Dは、ベクトル符号化ユニット68Dと、量子化ユニット500と、ビットストリーム生成ユニット52Dと、メモリ54とを含む。
[0166]図17の例では、ベクトル符号化ユニット68Dは、図5および/または図13に関して上記で説明した方法と同様の方法で動作し得る。たとえば、オーディオ符号化デバイス14Dがチャネルベースオーディオを符号化している場合、ベクトル符号化ユニット68Dは、ソースラウドスピーカーセットアップ情報48を取得し得る。ベクトル符号化ユニット68は、ソースラウドスピーカーセットアップ情報48によって指定されるラウドスピーカーの位置に基づいて空間ベクトルのセットを決定し得る。オーディオ符号化デバイス14Dがオブジェクトベースオーディオを符号化している場合、ベクトル符号化ユニット68Dは、ソースラウドスピーカーセットアップ情報48に加えて、オーディオオブジェクト位置情報350を取得し得る。オーディオオブジェクト位置情報49は、オーディオオブジェクトの仮想ソースロケーションを指定し得る。この例では、空間ベクトルユニット68Dは、図13の例に示すベクトル符号化ユニット68Cがオーディオオブジェクトに対する空間ベクトルを決定するのとほとんど同じ方法でオーディオオブジェクトに対する空間ベクトルを決定し得る。いくつかの例では、空間ベクトルユニット68Dは、チャネルベースオーディオとオブジェクトベースオーディオの両方に対する空間ベクトルを決定するように構成される。他の例では、ベクトル符号化ユニット68Dは、チャネルベースオーディオまたはオブジェクトベースオーディオの一方のみに対する空間ベクトルを決定するように構成される。
[0167]オーディオ符号化デバイス14Dの量子化ユニット500は、ベクトル符号化ユニット68Cによって決定された空間ベクトルを量子化する。量子化ユニット500は、空間ベクトルを量子化するために様々な量子化技法を使用し得る。量子化ユニット500は、単一の量子化技法だけを実行するように構成されてもよく、または複数の量子化技法を実行するように構成されてもよい。量子化ユニット500が複数の量子化技法を実行するように構成される場合の例では、量子化ユニット500は、量子化技法のうちのどの技法を使用すべきかを示すデータを受信してもよく、または量子化技法のうちのどの技法を適用すべきかを内部で決定してもよい。
[0168]例示的な一量子化技法では、空間ベクトルは、チャネルについてベクトル符号化ユニット68Dによって生成され得、またはオブジェクトiはViで示される。この例では、量子化ユニット500は、
がVi/||Vi||と等価になるように中間空間ベクトル
を計算してよく、ここで||Vi||は量子化ステップサイズであり得る。さらに、この例では、量子化ユニット500は、中間空間ベクトル
を量子化し得る。中間空間ベクトル
の量子化されたバージョンは、
で示され得る。加えて、量子化ユニット500は、||Vi||を量子化し得る。||Vi||の量子化されたバージョンは、
で示され得る。量子化ユニット500は、ビットストリーム56Dに含めるために
および
を出力し得る。したがって、量子化ユニット500は、オーディオ信号50Dに対して量子化ベクトルデータのセットを出力し得る。オーディオ信号50Cに対する量子化ベクトルデータのセットは、
を含み得る。
[0169]量子化ユニット500は、様々な方法で中間空間ベクトル
を量子化し得る。一例では、量子化ユニット500は、スカラー量子化(SQ)を中間空間ベクトル
に適用し得る。別の例示的な量子化技法では、量子化ユニット200は、ハフマンコーディングによるスカラー量子化を中間空間ベクトル
に適用し得る。別の例示的な量子化技法では、量子化ユニット200は、ベクトル量子化を中間空間ベクトル
に適用し得る。量子化ユニット200がスカラー量子化技法、スカラー量子化プラスハフマンコーディング技法、またはベクトル量子化技法を適用する場合の例では、オーディオ復号デバイス22は、量子化空間ベクトルを逆量子化し得る。
[0170]概念的に、スカラー量子化では、数直線は複数の帯域に分割され、各帯域は異なるスカラー値に対応する。量子化ユニット500が、スカラー量子化を中間空間ベクトル
に適用するとき、量子化ユニット500は、中間空間ベクトル
の各それぞれの要素を、それぞれの要素によって指定される値を含む帯域に対応するスカラー値と置き換える。説明を簡単にするために、本開示は、空間ベクトルの要素によって指定される値を含む帯域に対応するスカラー値を、「量子化された値」と呼ぶ場合がある。この例では、量子化ユニット500は、量子化された値を含む量子化空間ベクトル
を出力し得る。
[0171]スカラー量子化プラスハフマンコーディング技法は、スカラー量子化技法と同様であり得る。しかしながら、量子化ユニット500は、付加的に、量子化された値の各々に対するハフマンコードを決定する。量子化ユニット500は、空間ベクトルの量子化された値を対応するハフマンコードと置き換える。したがって、量子化空間ベクトル
の各要素は、ハフマンコードを指定する。ハフマンコーディングは、要素の各々が、固定長の値ではなく可変長の値として表されることを可能にし、そのことが、データ圧縮を向上させ得る。オーディオ復号デバイス22Dは、ハフマンコードに対応する量子化された値を決定し、量子化された値をそれらの元のビット深度に復元することによって、空間ベクトルの逆量子化されたバージョンを決定し得る。
[0172]量子化ユニット500が、ベクトル量子化を中間空間ベクトル
に適用する場合の少なくともいくつかの例では、量子化ユニット500は、中間空間ベクトル
をより低次元の離散部分空間内の値のセットに変換し得る。説明を簡単にするために、本開示は、より低次元の離散部分空間の次元を「低減された次元セット(reduced dimension set)」と呼び、空間ベクトルの元の次元を「全次元セット」と呼ぶ場合がある。たとえば、全次元セットは22次元からなり、低減された次元セットは8次元からなる場合がある。したがって、この例では、量子化ユニット500は、中間空間ベクトル
を22つの値のセットから8つの値のセットに変換する。この変換は、空間ベクトルの高次元空間から低次元の部分空間への投影の形態をとることができる。
[0173]量子化ユニット500がベクトル量子化を適用する場合の少なくともいくつかの例では、量子化ユニット500は、エントリのセットを含むコードブックを用いて構成される。コードブックは、あらかじめ規定されてもよく、または動的に決定されてもよい。コードブックは、空間ベクトルの統計的分析に基づき得る。コードブック内の各エントリは、低次元部分空間内の点を示す。空間ベクトルを全次元セットから低減された次元セットに変換した後、量子化ユニット500は、変換された空間ベクトルに対応するコードブックエントリを決定し得る。コードブック内のコードブックエントリの間で、変換された空間ベクトルに対応するコードブックエントリは、変換された空間ベクトルによって指定される点に最も近い点を指定する。一例では、量子化ユニット500は、特定されたコードブックエントリによって指定されるベクトルを量子化空間ベクトルとして出力する。別の例では、量子化ユニット200は、変換された空間ベクトルに対応するコードブックエントリのインデックスを指定するコード−ベクトルインデックスの形態で量子化空間ベクトルを出力する。たとえば、変換された空間ベクトルに対応するコードブックエントリがコードブック内の8番目のエントリである場合、コード−ベクトルインデックスは8に等しくてよい。この例では、オーディオ復号デバイス22は、コードブック内の対応するエントリを検索することによってコード−ベクトルインデックスを逆量子化し得る。オーディオ復号デバイス22Dは、低減された次元セット内ではなく全次元セット内にある空間ベクトルの成分がゼロに等しいことを仮定することによって、空間ベクトルの逆量子化バージョンを決定し得る。
[0174]図17の例では、オーディオ符号化デバイス14Dのビットストリーム生成ユニット52Dは、量子化ユニット200から量子化空間ベクトル204を取得し、オーディオ信号50Cを取得し、ビットストリーム56Dを出力する。オーディオ符号化デバイス14Dがチャネルベースオーディオを符号化している場合の例では、ビットストリーム生成ユニット52Dは、各それぞれのチャネルに対するオーディオ信号と量子化空間ベクトルとを取得し得る。オーディオ符号化デバイス14がオブジェクトベースオーディオを符号化している場合の例では、ビットストリーム生成ユニット52Dは、各それぞれのオーディオオブジェクトに対するオーディオ信号と量子化空間ベクトルとを取得し得る。いくつかの例では、ビットストリーム生成ユニット52Dは、より大きいデータ圧縮のためにオーディオ信号50Cを符号化し得る。たとえば、ビットストリーム生成ユニット52Dは、MP3、AAC、Vorbis、FLAC、およびOpusなど、知られているオーディオ圧縮フォーマットを使用してオーディオ信号50Cの各々を符号化し得る。いくつかの例では、ビットストリーム生成ユニット52Cは、オーディオ信号50Cを1つの圧縮フォーマットから別のフォーマットにコード変換し得る。ビットストリーム生成ユニット52Dは、量子化空間ベクトルを、符号化されたオーディオ信号を伴うメタデータとしてビットストリーム56C内に含み得る。
[0175]したがって、オーディオ符号化デバイス14Dは、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号(たとえば、ラウドスピーカー位置情報48に対するマルチチャネルオーディオ信号50)を受信することと、マルチチャネルオーディオ信号と組み合わせて、マルチチャネルオーディオ信号を表す高次アンビソニックス(HOA)係数のセットを表す、高次アンビソニックス(HOA)領域内の複数の空間位置決めベクトルをソースラウドスピーカー構成に基づいて取得することと、マルチチャネルオーディオ信号の表現(たとえば、オーディオ信号50C)および複数の空間位置決めベクトルの表示(たとえば、量子化ベクトルデータ554)をコーディングされたオーディオビットストリーム(たとえば、ビットストリーム56D)内で符号化することとを行うように構成された1つまたは複数のプロセッサを含み得る。さらに、オーディオ符号化デバイス14Aは、1つまたは複数のプロセッサに電気的に結合され、コーディングされたオーディオビットストリームを記憶するように構成されたメモリ(たとえば、メモリ54)を含み得る。
[0176]図18は、本開示の1つまたは複数の技法による、図17に示すオーディオ符号化デバイス14の例示的な実装形態とともに使用するためのオーディオ復号デバイス22の例示的な実装形態を示すブロック図である。図18に示すオーディオ復号デバイス22の実装形態は、オーディオ復号デバイス22Dとラベル付けられる。図10に関して説明したオーディオ復号デバイス22の実装形態と同様に、図18のオーディオ復号デバイス22の実装形態は、メモリ200と、逆多重化ユニット202Dと、オーディオ復号ユニット204と、HOA生成ユニット208Cと、レンダリングユニット210とを含む。
[0177]図10に関して説明したオーディオ復号デバイス22の実装形態とは対照的に、図18に関して説明するオーディオ復号デバイス22の実装形態は、ベクトル復号ユニット207の代わりに逆量子化ユニット550を含み得る。他の例では、オーディオ復号デバイス22Dは、より多数の、より少数の、または異なるユニットを含み得る。たとえば、レンダリングユニット210は、ラウドスピーカー、ヘッドフォンユニットまたはオーディオベースもしくはサテライトデバイスなど、別個のデバイス内に実装され得る。
[0178]メモリ200、逆多重化ユニット202D、オーディオ復号ユニット204、HOA生成ユニット208C、およびレンダリングユニット210は、図10の例に関して本開示の他の場所で説明した方法と同じ方法で動作し得る。しかしながら、逆多重化ユニット202Dは、ビットストリーム56Dから量子化ベクトルデータ554のセットを取得し得る。量子化ベクトルデータの各それぞれのセットは、オーディオ信号70のそれぞれのオーディオ信号に対応する。図18の例では、量子化ベクトルデータ554のセットはV’1〜V’Nで示される。逆量子化ユニット550は、逆量子化空間ベクトル72を決定するために量子化ベクトルデータ554のセットを使用し得る。逆量子化ユニット550は、HOA生成ユニット208Cなど、オーディオ復号デバイス22Dの1つまたは複数の構成要素に、逆量子化空間ベクトル72を提供し得る。
[0179]逆量子化ユニット550は、様々な方法で逆量子化ベクトルを決定するためにセットの量子化ベクトルデータ554を使用し得る。一例では、量子化ベクトルデータの各セットは、量子化空間ベクトル
と量子化された量子化ステップサイズ
とをオーディオ信号
に対して含む。この例では、逆量子化ユニット550は、逆量子化空間ベクトル
を、量子化空間ベクトル
および量子化された量子化ステップサイズ
に基づいて決定し得る。たとえば、逆量子化ユニット550は、逆量子化空間ベクトル
を決定してよく、それにより
になる。逆量子化空間ベクトル
およびオーディオ信号
に基づいて、HOA生成ユニット208Cは、HOA領域表現を
として決定し得る。本開示の他の場所で説明するように、レンダリングユニット210は、ローカルレンダリングフォーマット
を取得し得る。加えて、ラウドスピーカーフィード80は、
で示され得る。レンダリングユニット210Cは、ラウドスピーカーフィード26を
として生成し得る。
[0180]したがって、オーディオ復号デバイス22Dは、コーディングされたオーディオビットストリーム(たとえば、ビットストリーム56D)を記憶するように構成されたメモリ(たとえば、メモリ200)を含み得る。オーディオ復号デバイス22Dは、メモリに電気的に結合され、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号の表現(たとえば、ラウドスピーカー位置情報48に対するコーディングされたオーディオ信号62)をコーディングされたオーディオビットストリームから取得することと、ソースラウドスピーカー構成に基づく高次アンビソニックス(HOA)領域内の複数の空間位置決めベクトル(SPV)(たとえば、空間位置決めベクトル72)の表現を取得することと、マルチチャネルオーディオ信号および複数の空間位置決めベクトルに基づいてHOA音場(たとえば、HOA係数212C)を生成することとを行うように構成された、1つまたは複数のプロセッサをさらに含み得る。
[0181]図19は、本開示の1つまたは複数の技法による、レンダリングユニット210の例示的な実装形態を示すブロック図である。図19に示すように、レンダリングユニット210は、リスナーロケーションユニット610と、ラウドスピーカー位置ユニット612と、レンダリングフォーマットユニット614と、メモリ615と、ラウドスピーカーフィード生成ユニット616とを含み得る。
[0182]リスナーロケーションユニット610は、図1のラウドスピーカー24など、複数のラウドスピーカーのリスナーのロケーションを決定するように構成され得る。いくつかの例では、リスナーロケーションユニット610は、リスナーのロケーションを周期的(たとえば、1秒、5秒、10秒、30秒、1分、5分、10分ごと、など)に決定し得る。いくつかの例では、リスナーロケーションユニット610は、リスナーによって配置されるデバイスによって生成される信号に基づいてリスナーのロケーションを決定し得る。リスナーのロケーションを決定するためにリスナーロケーションユニット610によって使用され得るデバイスのいくつかの例は、限定はしないが、モバイルコンピューティングデバイス、ビデオゲームコントローラ、リモートコントロール、またはリスナーの位置を示し得る任意の他のデバイスを含む。いくつかの例では、リスナーロケーションユニット610は、1つまたは複数のセンサに基づいてリスナーのロケーションを決定し得る。リスナーのロケーションを決定するためにリスナーロケーションユニット610によって使用され得るセンサのいくつかの例は、限定はしないが、カメラ、マイクロフォン、圧力センサ(たとえば、家具、車両の座席に埋め込まれるかまたは取り付けられる)、シートベルトセンサ、またはリスナーの位置を示し得る任意の他のセンサを含む。リスナーロケーションユニット610は、リスナーの位置の表示618を、レンダリングフォーマットユニット614など、レンダリングユニット210の1つまたは複数の他の構成要素に提供し得る。
[0183]ラウドスピーカー位置ユニット612は、図1のラウドスピーカー24など、複数のローカルラウドスピーカーの位置の表現を取得するように構成され得る。いくつかの例では、ラウドスピーカー位置ユニット612は、ローカルラウドスピーカーセットアップ情報28に基づいて複数のローカルラウドスピーカーの位置の表現を決定し得る。ラウドスピーカー位置ユニット612は、多種多様なソースからローカルラウドスピーカーセットアップ情報28を取得し得る。一例として、ユーザ/リスナーは手動で、オーディオ復号デバイス22のユーザインターフェースを介してローカルラウドスピーカーセットアップ情報28を入力し得る。別の例として、ラウドスピーカー位置ユニット612は、複数のローカルラウドスピーカーに様々なトーンを放出させ、そのトーンに基づいてローカルラウドスピーカーセットアップ情報28を決定するためにマイクロフォンを利用し得る。別の例として、ラウドスピーカー位置ユニット612は、1つまたは複数のカメラから画像を受信し、その画像に基づいてローカルラウドスピーカーセットアップ情報28を決定するために画像認識を実行し得る。ラウドスピーカー位置ユニット612は、複数のローカルラウドスピーカーの位置の表現620を、レンダリングフォーマットユニット614など、レンダリングユニット210の1つまたは複数の他の構成要素に提供し得る。別の例として、ローカルラウドスピーカーセットアップ情報28は、オーディオ復号ユニット22に(たとえば、工場において)事前にプログラムされ得る。たとえば、ラウドスピーカー24が車両に組み込まれる場合、ローカルラウドスピーカーセットアップ情報28は、車両の製造業者および/またはラウドスピーカー24のインストーラによってオーディオ復号ユニット22に事前にプログラムされ得る。
[0184]レンダリングフォーマットユニット614は、複数のローカルラウドスピーカーの位置(たとえば、ローカル再生レイアウト)および複数のローカルラウドスピーカーのリスナーの位置の表現に基づいてローカルレンダリングフォーマット622を生成するように構成され得る。いくつかの例では、レンダリングフォーマットユニット614は、HOA係数212がラウドスピーカーフィードにレンダリングされ、複数のローカルラウドスピーカーを通じて再生されるときに、音響「スイートスポット」がリスナーの位置にまたはその付近に位置するように、ローカルレンダリングフォーマット622を生成し得る。いくつかの例では、ローカルレンダリングフォーマット622を生成するために、レンダリングフォーマットユニット614は、ローカルレンダリング行列
を生成し得る。レンダリングフォーマットユニット614は、ラウドスピーカーフィード生成ユニット616および/またはメモリ615など、レンダリングユニット210の1つまたは複数の他の構成要素にローカルレンダリングフォーマット622を提供し得る。
[0185]メモリ615は、ローカルレンダリングフォーマット622などのローカルレンダリングフォーマットを記憶するように構成され得る。ローカルレンダリングフォーマット622がローカルレンダリング行列
を備える場合、メモリ615は、ローカルレンダリング行列
を記憶するように構成され得る。
[0186]ラウドスピーカーフィード生成ユニット616は、複数のローカルラウドスピーカーのそれぞれのローカルラウドスピーカーにそれぞれ対応する複数の出力オーディオ信号にHOA係数をレンダリングするように構成され得る。図19の例では、ラウドスピーカーフィード生成ユニット616は、得られたラウドスピーカーフィード26が複数のローカルラウドスピーカーを通じて再生されるときに音響「スイートスポット」がリスナーロケーションユニット610によって決定されたリスナーの位置にまたはその付近に位置するように、ローカルレンダリングフォーマット622に基づいてHOA係数をレンダリングし得る。いくつかの例では、ラウドスピーカーフィード生成ユニット616は、式(35)に従ってラウドスピーカーフィード26を生成してよく、ここで
はラウドスピーカーフィード26を表し、HはHOA係数212であり、
はローカルレンダリング行列の転置である。
[0187]図20は、本開示の1つまたは複数の技法による、自動車スピーカー再生環境を示す。図20に示すように、いくつかの例では、オーディオ復号デバイス22は、自動車2000などの車両内に含まれ得る。いくつかの例では、車両2000は、1つまたは複数の占有者センサを含み得る。車両2000内に含まれ得る占有者センサの例は、必ずしも限定されるとは限らないが、シートベルトセンサと、車両2000のシートに組み込まれている圧力センサとを含む。
[0188]図21は、本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な動作を示すフロー図である。図21の技法は、図1、図3、図5、図13および図17のオーディオ符号化デバイス14などのオーディオ符号化デバイスの1つまたは複数のプロセッサによって実行され得るが、オーディオ符号化デバイス14以外の構成を有するオーディオ符号化デバイスが、図21の技法を実行してもよい。
[0189]本開示の1つまたは複数の技法によれば、オーディオ符号化デバイス14は、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号を受信し得る(2102)。たとえば、オーディオ符号化デバイス14は、(つまり、5.1のソースラウドスピーカー構成に対する)5.1サラウンドサウンドフォーマットで6チャネルのオーディオデータを受信し得る。上記で説明したように、オーディオ符号化デバイス14によって受信されたマルチチャネルオーディオ信号は、図1のライブオーディオデータ10および/または事前生成されたオーディオデータ12を含み得る。
[0190]オーディオ符号化デバイス14は、マルチチャネルオーディオ信号を表す高次アンビソニックス(HOA)音場を生成するために、マルチチャネルオーディオ信号と結合可能なHOA領域内で複数の空間位置決めベクトルを、ソースラウドスピーカー構成に基づいて取得し得る(2104)。いくつかの例では、複数の空間位置決めベクトルは、上記の式(20)に従ってマルチチャネルオーディオ信号を表すHOA音場を生成するために、マルチチャネルオーディオ信号と結合可能であり得る。
[0191]オーディオ符号化デバイス14は、マルチチャネルオーディオ信号の表現および複数の空間位置決めベクトルの表示を、コーディングされたオーディオビットストリーム内で符号化し得る(2016)。一例として、オーディオ符号化デバイス14Aのビットストリーム生成ユニット52Aは、ビットストリーム56A内で、コーディングされたオーディオデータ62の表現とラウドスピーカー位置情報48の表現とを符号化し得る。別の例として、オーディオ符号化デバイス14Bのビットストリーム生成ユニット52Bは、ビットストリーム56B内で、コーディングされたオーディオデータ62の表現と空間ベクトル表現データ71Aとを符号化し得る。別の例として、オーディオ符号化デバイス14Dのビットストリーム生成ユニット52Dは、ビットストリーム56D内で、オーディオ信号50Cの表現と量子化ベクトルデータ554の表現とを符号化し得る。
[0192]図22は、本開示の1つまたは複数の技法による、オーディオ復号デバイスの例示的な動作を示すフロー図である。図22の技法は、図1、図4、図10、図16および図18のオーディオ復号デバイス22などのオーディオ復号デバイスの1つまたは複数のプロセッサによって実行され得るが、オーディオ符号化デバイス14以外の構成を有するオーディオ符号化デバイスが、図22の技法を実行してもよい。
[0193]本開示の1つまたは複数の技法によれば、オーディオ復号デバイス22は、コーディングされたオーディオビットストリームを取得し得る(2202)。一例として、オーディオ復号デバイス22は、ワイヤードもしくはワイヤレスチャネル、データ記憶デバイスなどであり得る送信チャネルを介してビットストリームを取得し得る。別の例として、オーディオ復号デバイス22は、記憶媒体またはファイルサーバからビットストリームを取得し得る。
[0194]オーディオ復号デバイス22は、ソースラウドスピーカー構成に対するマルチチャネルオーディオ信号の表現を、コーディングされたオーディオビットストリームから取得し得る(2204)。たとえば、オーディオ復号ユニット204は、(すなわち、5.1のソースラウドスピーカー構成に対する)5.1サラウンドサウンドフォーマットで6チャネルのオーディオデータを、ビットストリームから受信し得る。
[0195]オーディオ復号デバイス22は、ソースラウドスピーカー構成に基づく高次アンビソニックス(HOA)領域内で複数の空間位置決めベクトルの表現を取得し得る(2206)。一例として、オーディオ復号デバイス22Aのベクトル生成ユニット206は、ソースラウドスピーカーセットアップ情報48に基づいて空間位置決めベクトル72を生成し得る。別の例として、オーディオ復号デバイス22Bのベクトル復号ユニット207は、空間ベクトル表現データ71Aから、ソースラウドスピーカーセットアップ情報48に基づく空間位置決めベクトル72を復号し得る。別の例として、オーディオ復号デバイス22Dの逆量子化ユニット550は、ソースラウドスピーカーセットアップ情報48に基づく空間位置決めベクトル72を生成するために、量子化ベクトルデータ554を逆量子化し得る。
[0196]オーディオ復号デバイス22は、マルチチャネルオーディオ信号および複数の空間位置決めベクトルに基づいてHOA音場を生成し得る(2208)。たとえば、HOA生成ユニット208Aは、上記の式(20)に従ってマルチチャネルオーディオ信号70および空間位置決めベクトル72に基づいてHOA係数212Aを生成し得る。
[0197]オーディオ復号デバイス22は、複数のオーディオ信号を生成するためにHOA音場をレンダリングし得る(2210)。たとえば、レンダリングユニット210(それはオーディオ復号デバイス22内に含まれても含まれなくてもよい)は、ローカルレンダリング構成(たとえば、ローカルレンダリングフォーマット)に基づいて複数のオーディオ信号を生成するためにHOA係数のセットをレンダリングし得る。いくつかの例では、レンダリングユニット210は、上記の式(21)に従ってHOA係数のセットをレンダリングし得る。
[0198]図23は、本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な動作を示すフロー図である。図23の技法は、図1、図3、図5、図13および図17のオーディオ符号化デバイス14などのオーディオ符号化デバイスの1つまたは複数のプロセッサによって実行され得るが、オーディオ符号化デバイス14以外の構成を有するオーディオ符号化デバイスが、図23の技法を実行してもよい。
[0199]本開示の1つまたは複数の技法によれば、オーディオ符号化デバイス14は、オーディオオブジェクトのオーディオ信号とオーディオオブジェクトの仮想ソースロケーションを示すデータとを受信し得る(2230)。加えて、オーディオ符号化デバイス14は、HOA領域内のオーディオオブジェクトの空間ベクトルを、オーディオオブジェクトに対する仮想ソースロケーションを示すデータおよび複数のラウドスピーカーロケーションを示すデータに基づいて決定し得る(2232)。加えて、図23の例では、オーディオ符号化デバイス14は、コーディングされたオーディオビットストリーム中に、空間ベクトルのデータ表現およびデータ信号のオブジェクトベースの表現を含み得る。
[0200]図24は、本開示の1つまたは複数の技法による、オーディオ復号デバイスの例示的な動作を示すフロー図である。図24の技法は、図1、図4、図10、図16および図18のオーディオ復号デバイス22などのオーディオ復号デバイスの1つまたは複数のプロセッサによって実行され得るが、オーディオ符号化デバイス14以外の構成を有するオーディオ符号化デバイスが、図24の技法を実行してもよい。
[0201]本開示の1つまたは複数の技法によれば、オーディオ復号デバイス22は、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を、コーディングされたオーディオビットストリームから取得し得る(2250)。この例では、オーディオ信号は、時間間隔に対応する。加えて、オーディオ復号デバイス22は、オーディオオブジェクトに対する空間ベクトルの表現を、コーディングされたオーディオビットストリームから取得し得る(2252)。この例では、空間ベクトルは、HOA領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく。
[0202]さらに、HOA生成ユニット208B(またはオーディオ復号デバイス22の別のユニット)は、オーディオオブジェクトのオーディオ信号および空間ベクトルを、時間間隔の間の音場を記述するHOA係数のセットに変換し得る(2254)。さらに、図24の例では、オーディオ復号デバイス22は、HOA係数のセットにレンダリングフォーマットを適用することによって、複数のオーディオ信号を生成し得る。この例では、複数のオーディオ信号の各それぞれのオーディオ信号は、第1の複数のラウドスピーカーロケーションと異なる第2の複数のラウドスピーカーロケーションでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する。
[0203]図25は、本開示の1つまたは複数の技法による、オーディオ符号化デバイスの例示的な動作を示すフロー図である。図25の技法は、図1、図3、図5、図13および図17のオーディオ符号化デバイス14などのオーディオ符号化デバイスの1つまたは複数のプロセッサによって実行され得るが、オーディオ符号化デバイス14以外の構成を有するオーディオ符号化デバイスが、図25の技法を実行してもよい。
[0204]本開示の1つまたは複数の技法によれば、オーディオ符号化デバイス14は、時間間隔の間の1つまたは複数のオーディオ信号のセットの、オブジェクトベースまたはチャネルベースの表現を、コーディングされたオーディオビットストリーム内に含み得る(2300)。さらに、オーディオ符号化デバイス14は、HOA領域内の1つまたは複数の空間ベクトルのセットを、ラウドスピーカーロケーションのセットに基づいて決定し得る(2302)。この例では、空間ベクトルのセットの各それぞれの空間ベクトルは、オーディオ信号のセット内のそれぞれのオーディオ信号に対応する。さらに、この例では、オーディオ符号化デバイス14は、空間ベクトルの量子化されたバージョンを表すデータを生成し得る(2304)。加えて、この例では、オーディオ符号化デバイス14は、空間ベクトルの量子化されたバージョンを表すデータを、コーディングされたオーディオビットストリーム内に含み得る(2306)。
[0205]図26は、本開示の1つまたは複数の技法による、オーディオ復号デバイスの例示的な動作を示すフロー図である。図26の技法は、図1、図4、図10、図16および図18のオーディオ復号デバイス22などのオーディオ復号デバイスの1つまたは複数のプロセッサによって実行され得るが、オーディオ復号デバイス22以外の構成を有するオーディオ復号デバイスが、図26の技法を実行してもよい。
[0206]本開示の1つまたは複数の技法によれば、オーディオ復号デバイス22は、時間間隔の間の1つまたは複数のオーディオ信号のセットの、オブジェクトベースまたはチャネルベースの表現を、コーディングされたオーディオビットストリームから取得し得る(2400)。加えて、オーディオ復号デバイス22は、1つまたは複数の空間ベクトルのセットの量子化されたバージョン表すデータを、コーディングされたオーディオビットストリームから取得し得る(2402)。この例では、空間ベクトルのセットの各それぞれの空間ベクトルは、オーディオ信号のセットのそれぞれのオーディオ信号に対応する。さらに、この例では、空間ベクトルの各々はHOA領域内にあり、ラウドスピーカーロケーションのセットに基づいて計算される。
[0207]図27は、本開示の1つまたは複数の技法による、オーディオ復号デバイスの例示的な動作を示すフロー図である。図27の技法は、図1、図4、図10、図16および図18のオーディオ復号デバイス22などのオーディオ復号デバイスの1つまたは複数のプロセッサによって実行され得るが、オーディオ復号デバイス22以外の構成を有するオーディオ復号デバイスが、図27の技法を実行してもよい。
[0208]本開示の1つまたは複数の技法によれば、オーディオ復号デバイス22は、高次アンビソニックス(HOA)音場を取得し得る(2702)。たとえば、オーディオ復号デバイス22のHOA生成ユニット(たとえば、HOA生成ユニット208A/208B/208C)は、HOA係数(たとえば、HOA係数212A/212B/212C)のセットをオーディオ復号デバイス22のレンダリングユニット210に提供し得る。
[0209]オーディオ復号デバイス22は、複数のローカルラウドスピーカーの位置の表現を取得し得る(2704)。たとえば、オーディオ復号デバイス22のレンダリングユニット210のラウドスピーカー位置ユニット612は、ローカルラウドスピーカーセットアップ情報(たとえば、ローカルラウドスピーカーセットアップ情報28)に基づいて複数のローカルラウドスピーカーの位置の表現を決定し得る。上記で説明したように、ラウドスピーカー位置ユニット612は、多種多様なソースからローカルラウドスピーカーセットアップ情報28を取得し得る。
[0210]オーディオ復号デバイス22は、周期的に、リスナーのロケーションを決定し得る(2706)。たとえば、いくつかの例では、オーディオ復号デバイス22のレンダリングユニット210のリスナーロケーションユニット610は、リスナーによって配置されるデバイスによって生成される信号に基づいてリスナーのロケーションを決定し得る。リスナーのロケーションを決定するためにリスナーロケーションユニット610によって使用され得るデバイスのいくつかの例は、限定はしないが、モバイルコンピューティングデバイス、ビデオゲームコントローラ、リモートコントロール、またはリスナーの位置を示し得る任意の他のデバイスを含む。いくつかの例では、リスナーロケーションユニット610は、1つまたは複数のセンサに基づいてリスナーのロケーションを決定し得る。リスナーのロケーションを決定するためにリスナーロケーションユニット610によって使用され得るセンサのいくつかの例は、限定はしないが、カメラ、マイクロフォン、圧力センサ(たとえば、家具、車両の座席に埋め込まれるかまたは取り付けられる)、シートベルトセンサ、またはリスナーの位置を示し得る任意の他のセンサを含む。
[0211]オーディオ復号デバイス22は、周期的に、ローカルレンダリングフォーマットを、リスナーのロケーションおよび複数のローカルラウドスピーカーの位置に基づいて決定し得る(2708)。たとえば、オーディオ復号デバイス22のレンダリングユニット210のレンダリングフォーマットユニット614は、HOA音場がラウドスピーカーフィードにレンダリングされ、複数のローカルラウドスピーカーを通じて再生されるときに、音響「スイートスポット」がリスナーの位置にまたはその付近に位置するように、ローカルレンダリングフォーマットを生成し得る。いくつかの例では、ローカルレンダリングフォーマットを生成するために、レンダリング構成ユニット614は、ローカルレンダリング行列
を生成し得る。
[0212]オーディオ復号デバイス22は、複数のローカルラウドスピーカーのそれぞれのローカルラウドスピーカーにそれぞれ対応する複数の出力オーディオ信号にHOA音場を、ローカルレンダリングフォーマットに基づいてレンダリングし得る(2710)。たとえば、ラウドスピーカーフィード生成ユニット616は、HOA係数をレンダリングしてよく、上記の式(35)に従ってラウドスピーカーフィード26を生成する。
[0213]一例では、マルチチャネルオーディオ信号(たとえば、{Cii=1,...,N)を符号化するために、オーディオ符号化デバイス14は、ソースラウドスピーカー構成内のラウドスピーカーの数(たとえば、N)、マルチチャネルオーディオ信号に基づいてHOA音場を生成するときに使用されるべきHOA係数の数(たとえば、NHOA)、およびソースラウドスピーカー構成内のラウドスピーカーの位置(たとえば、{θi,φii=1,...,N)を決定し得る。この例では、オーディオ符号化デバイス14は、ビットストリーム内でN、NHOA、および{θi,φii=1,...,Nを符号化し得る。いくつかの例では、オーディオ符号化デバイス14は、各フレームに対してビットストリーム内でN、NHOA、および{θi,φii=1,...,Nを符号化し得る。いくつかの例では、前のフレームが同じN、NHOA、および{θi,φii=1,...,Nを使用する場合、オーディオ符号化デバイス14は、現在のフレームに対するビットストリーム内でN、NHOA、および{θi,φii=1,...,Nを符号化することを省略し得る。いくつかの例では、オーディオ符号化デバイス14は、N、NHOA、および{θi,φii=1,...,Nに基づいてレンダリング行列D1を生成し得る。いくつかの例では、必要な場合、オーディオ符号化デバイス14は、1つまたは複数の空間位置決めベクトル(たとえば、
)を生成して使用し得る。いくつかの例では、オーディオ符号化デバイス14は、量子化されたマルチチャネルオーディオ信号(たとえば、
)を生成するためにマルチチャネルオーディオ信号(たとえば、{Cii=1,...,N)を量子化し、ビットストリーム内で量子化されたマルチチャネルオーディオ信号を符号化し得る。
[0214]オーディオ復号デバイス22は、ビットストリームを受信し得る。ソースラウドスピーカー構成内のラウドスピーカーの受信された数(たとえば、N)、マルチチャネルオーディオ信号に基づいてHOA音場を生成するときに使用されるべきHOA係数の数(たとえば、NHOA)、およびソースラウドスピーカー構成内のラウドスピーカーの位置(たとえば、{θi,φii=1,...,N)に基づいて、オーディオ復号デバイス22はレンダリング行列D2を生成し得る。いくつかの例では、D2が、受信されたN、NHOA、および{θi,φii=1,...,N(すなわち、ソースラウドスピーカー構成)に基づいて生成される限り、D2は、D1と同じでなくてもよい。D2に基づいて、オーディオ復号デバイス22は、1つまたは複数の空間位置決めベクトル(たとえば、
)を計算し得る。1つまたは複数の空間位置決めベクトルおよび受信されたオーディオ信号(たとえば、
)に基づいて、オーディオ復号デバイス22は、HOA領域表現を
として生成し得る。ローカルラウドスピーカー構成(すなわち、デコーダにおけるラウドスピーカーの数および位置)(たとえば、
)に基づいて、オーディオ復号デバイス22は、ローカルレンダリング行列D3を生成し得る。オーディオ復号デバイス22は、ローカルレンダリング行列を生成されたHOA領域表現で乗じることによって、ローカルラウドスピーカーに対するスピーカーフィード(たとえば、
)を生成し得る(たとえば、
)。
[0215]別の例では、マルチチャネルオーディオ信号(たとえば、{Cii=1,...,N)を符号化するために、オーディオ符号化デバイス14は、ソースラウドスピーカー構成内のラウドスピーカーの数(たとえば、N)、マルチチャネルオーディオ信号に基づいてHOA音場を生成するときに使用されるべきHOA係数の数(たとえば、NHOA)、およびソースラウドスピーカー構成内のラウドスピーカーの位置(たとえば、{θi,φii=1,...,N)を決定し得る。いくつかの例では、オーディオ符号化デバイス14は、N、NHOA、および{θi,φii=1,...,Nに基づいてレンダリング行列D1を生成し得る。いくつかの例では、オーディオ符号化デバイス14は、1つまたは複数の空間位置決めベクトル(たとえば、
)を計算し得る。いくつかの例では、オーディオ符号化デバイス14は、空間位置決めベクトルを
として正規化し、
に(たとえば、ISO/IEC 23008−3における(SQ、SQ+Huff、VQ)などのベクトル量子化方法を使用して量子化し、ビットストリーム内で
および||Vi||を符号化し得る。いくつかの例では、オーディオ符号化デバイス14は、量子化されたマルチチャネルオーディオ信号(たとえば、
)を生成するためにマルチチャネルオーディオ信号(たとえば、{Cii=1,...,N)を量子化し、量子化されたマルチチャネルオーディオ信号をビットストリーム内で符号化し得る。
[0216]オーディオ復号デバイス22は、ビットストリームを受信し得る。
および||Vi||に基づいて、オーディオ復号デバイス22は、空間位置決めベクトルを
によって再構成し得る。1つまたは複数の空間位置決めベクトル(たとえば、
)および受信されたオーディオ信号(たとえば、
)に基づいて、オーディオ復号デバイス22は、HOA領域表現を
として生成し得る。ローカルラウドスピーカー構成(すなわち、デコーダにおけるラウドスピーカーの数および位置)(たとえば、
)に基づいて、オーディオ復号デバイス22は、ローカルレンダリング行列D3を生成し得る。オーディオ復号デバイス22は、ローカルレンダリング行列を、生成されたHOA領域表現で乗じることによって、ローカルラウドスピーカーに対するスピーカーフィード(たとえば、
)を生成し得る(たとえば、
)。
[0217]図28は、本開示の技法による、コーディングされたオーディオビットストリームを復号するための例示的な動作を示すフロー図である。図28の例では、オーディオ復号デバイス22は、コーディングされたオーディオビットストリームから、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得する、オーディオ信号は、時間期間に対応する(2800)。加えて、オーディオ復号デバイス22は、コーディングされたオーディオビットストリームから、オーディオオブジェクトに対する空間ベクトルの表現を取得する(2802)。空間ベクトルは、HOA領域内で定義され、複数のラウドスピーカーロケーションに基づく。
[0218]図28の例では、オーディオ復号デバイス22は、オーディオオブジェクトのオーディオ信号および空間ベクトルに基づいて、複数のオーディオ信号を生成する(2804)。複数のオーディオ信号の各それぞれのオーディオ信号は、第1の複数のラウドスピーカーロケーションと異なる第2の複数のラウドスピーカーロケーションでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する。いくつかの例では、オーディオ復号デバイス22は、1つまたは複数のカメラからの画像を取得し、画像に基づいてローカルラウドスピーカーセットアップ情報を決定する、ローカルラウドスピーカーセットアップ情報は、複数のローカルラウドスピーカーの位置を表す。
[0219]複数のオーディオ信号を生成することの一部として、オーディオ復号デバイス22は、オーディオオブジェクトのオーディオ信号および空間ベクトルを、時間間隔の間の音場を記述するHOA係数のセットに変換し得る。加えて、オーディオ復号デバイス22は、レンダリングフォーマットをHOA係数のセットに適用することによって複数のオーディオ信号を生成し得る。画像に基づいて決定されたローカルラウドスピーカーセットアップ情報は、レンダリングフォーマットの形態であり得る。いくつかの例では、複数のラウドスピーカーロケーションは、第1の複数のラウドスピーカーロケーションであり、レンダリングフォーマットは、第1の複数のラウドスピーカーロケーションと異なる第2の複数のラウドスピーカーロケーションでのラウドスピーカーに対するオーディオ信号内のHOA係数のセットをレンダリングするためのものである。
[0220]図29は、本開示の技法による、コーディングされたオーディオビットストリームを復号するための例示的な動作を示すフロー図である。図28の例では、オーディオ復号デバイス22は、コーディングされたオーディオビットストリームから、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得する、オーディオ信号は、時間間隔に対応する(2900)。加えて、オーディオ復号デバイス22は、コーディングされたオーディオビットストリームから、オーディオオブジェクトに対する空間ベクトルの表現を取得する(2902)。空間ベクトルは、HOA領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく。
[0221]図29の例では、オーディオ復号デバイス22は、オーディオオブジェクトのオーディオ信号およびオーディオオブジェクトに対する空間ベクトルに基づいて音場を生成する(2904)。オーディオ復号デバイス22は、本開示における他の場所で説明される例に従ってHOA音場を生成し得る。いくつかの例では、複数のラウドスピーカーロケーションは、ソースラウドスピーカー構成である。いくつかの例では、複数のラウドスピーカーロケーションは、ローカルラウドスピーカー構成である。さらに、いくつかの例では、HOA音場は、複数のローカルによって再生される。
[0222]上記で説明された様々な場合の各々において、オーディオ符号化デバイス14は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス14が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの場合には、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ符号化デバイス14が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0223]1つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のための命令、コードおよび/またはデータ構造を取り出すために、1つまたは複数のコンピュータあるいは1つまたは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。
[0224]同様に、上記で説明された様々な場合の各々において、オーディオ復号デバイス22は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス22が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの場合には、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ復号デバイス24が実施するように構成されている方法を実施させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0225]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、あるいは命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびBlu−ray(登録商標)ディスク(disc)を含み、ここで、ディスク(disk)は通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲に含めるべきである。
[0226]命令は、1つまたは複数のデジタル信号プロセッサ(DSP)などの1つまたは複数のプロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、あるいは他の等価な集積回路またはディスクリート論理回路によって実行され得る。したがって、本明細書で使用する「プロセッサ」という用語は、上記の構造、または本明細書で説明した技法の実装に好適な任意の他の構造のいずれかを指すことがある。さらに、いくつかの態様では、本明細書で説明した機能は、符号化および復号のために構成された専用ハードウェアおよび/またはソフトウェアモジュール内に与えられるか、あるいは複合コーデックに組み込まれ得る。また、本技法は、1つまたは複数の回路または論理要素で十分に実装され得る。
[0227]本開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置で実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されたデバイスの機能的態様を強調するように本開示において記載されているが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上記で説明したように、様々なユニットが、好適なソフトウェアおよび/またはファームウェアとともに、上記で説明した1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わされ得るか、または相互動作可能なハードウェアユニットの集合によって与えられ得る。
[0228]本技法の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。

Claims (30)

  1. コーディングされたオーディオビットストリームを復号するためのデバイスであって、
    コーディングされたオーディオビットストリームを記憶するように構成されたメモリと、
    前記メモリに電気的に結合された1つまたは複数のプロセッサと
    を備え、前記1つまたは複数のプロセッサは、
    前記コーディングされたオーディオビットストリームから、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得すること、前記オーディオ信号は、時間間隔に対応する、と、
    前記コーディングされたオーディオビットストリームから、前記オーディオオブジェクトに対する空間ベクトルの表現を取得すること、ここにおいて、前記空間ベクトルは、高次アンビソニックッス(HOA)領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく、と、
    前記オーディオオブジェクトの前記オーディオ信号および前記空間ベクトルに基づいて、複数のオーディオ信号を生成すること、ここにおいて、前記複数のオーディオ信号の各それぞれのオーディオ信号は、前記第1の複数のラウドスピーカーロケーションと異なる前記第2の複数のラウドスピーカーロケーションでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する、と
    を行うように構成される、デバイス。
  2. 前記1つまたは複数のプロセッサは、
    1つまたは複数のカメラから画像を取得することと、
    前記画像に基づいてローカルラウドスピーカーセットアップ情報を決定すること、前記ローカルラウドスピーカーセットアップ情報は、前記複数のローカルラウドスピーカーの位置を表す、と
    を行うように構成される、請求項1に記載のデバイス。
  3. 前記1つまたは複数のプロセッサは、
    前記オーディオオブジェクトの前記オーディオ信号および前記空間ベクトルを、前記時間間隔の間の音場を記述するHOA係数のセットに変換することと、
    前記HOA係数のセットにレンダリングフォーマットを適用することによって前記複数のオーディオ信号を生成すること、前記ローカルラウドスピーカーセットアップ情報は、前記レンダリングフォーマットの形態内にある、と
    を行うように構成される、請求項2に記載のデバイス。
  4. 前記1つまたは複数のプロセッサは、
    前記オーディオオブジェクトの前記オーディオ信号および前記空間ベクトルを、前記時間間隔の間の音場を記述するHOA係数のセットに変換することと、
    前記HOA係数のセットにレンダリングフォーマットを適用することによって前記複数のオーディオ信号を生成することと
    を行うように構成される、請求項1に記載のデバイス。
  5. 前記1つまたは複数のプロセッサは、前記オーディオ信号および前記空間ベクトルを前記HOA係数のセットに変換することの一部として、前記1つまたは複数のプロセッサは、前記HOA係数のセットが、前記オーディオ信号に前記空間ベクトルの転置を乗じたものと同等になるように、前記HOA係数のセットを決定するように構成される、
    請求項4に記載のデバイス。
  6. 前記オーディオオブジェクトは、第1のオーディオオブジェクトであり、前記空間ベクトルは、第1の空間ベクトルであり、前記1つまたは複数のプロセッサは、
    前記コーディングされたオーディオビットストリームから、複数のオブジェクトベースの表現を取得すること、前記複数のオブジェクトベースの表現の各それぞれのオブジェクトベースの表現は、複数のオーディオオブジェクトのそれぞれのオーディオオブジェクトのそれぞれの表現であり、前記複数のオーディオオブジェクトは、前記第1のオーディオオブジェクトを含む、と、
    前記コーディングされたオーディオビットストリームから、複数のベクトル表現を取得すること、前記複数のベクトル表現の各それぞれの空間ベクトル表現は、前記複数のオーディオオブジェクトのそれぞれのオーディオオブジェクトに対するそれぞれの空間ベクトルの表現であり、前記複数のベクトル表現の各それぞれの空間ベクトル表現は、前記HOA領域内で定義され、前記第1の複数のラウドスピーカーロケーションに基づき、前記複数の空間ベクトル表現は、前記第1のオーディオオブジェクトに対する前記空間ベクトルの前記表現を含む、と、
    前記複数のオーディオオブジェクトの各それぞれのオーディオオブジェクトについて、前記HOA係数のセットが、前記それぞれのオーディオオブジェクトの前記オーディオ信号に、前記それぞれのオーディオオブジェクトに対する前記空間ベクトルの転置を乗じたものと同等になるように、前記それぞれのオーディオオブジェクトに対するそれぞれのHOA係数のセットを決定することと、
    前記複数のオーディオオブジェクトに対する前記HOA係数のセットの合計に基づいて前記音場を記述する前記HOA係数のセットを決定することと
    を行うように構成される、請求項4に記載のデバイス。
  7. 前記空間ベクトルは、複数のオペランドの合計と同等であり、前記複数のオペランドのうちの各それぞれのオペランドは、前記第1の複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応し、
    前記第1の複数のラウドスピーカーロケーションの各それぞれのラウドスピーカーロケーションに対して、
    複数のラウドスピーカーロケーションベクトルは、前記それぞれのラウドスピーカーロケーションに対して1つのラウドスピーカーロケーションベクトルを含み、
    前記それぞれのラウドスピーカーロケーションに対応する前記オペランドは、前記それぞれのラウドスピーカーロケーションに対する利得係数に、前記それぞれのラウドスピーカーロケーションに対する前記ラウドスピーカーロケーションベクトルを乗じたものと同等であり、
    前記それぞれのラウドスピーカーロケーションに対する前記利得係数は、前記それぞれのラウドスピーカーロケーションにおける前記オーディオ信号に対するそれぞれの利得を示す、
    請求項4に記載のデバイス。
  8. 1からNにわたる各値nについて、前記第1の複数のラウドスピーカーロケーションのうちのn番目のラウドスピーカーロケーションベクトルは、第1の行列、第2の行列、および第3の行列の乗算から得られる行列の転置と同等であり、前記第1の行列は、前記複数のラウドスピーカー位置内のラウドスピーカー位置の数の同数である要素の単一のそれぞれの行からなり、前記要素のそれぞれの行の前記n番目の要素は、1に等しく、前記それぞれの行の前記n番目の要素以外の要素は、0に等しく、前記第2の行列は、レンダリング行列と前記レンダリング行列の転置との乗算から得られる行列の逆行列であり、前記第3の行列は、前記レンダリング行列と同等であり、前記レンダリング行列は、前記第1の複数のラウドスピーカーロケーションに基づき、Nは、前記第1の複数のラウドスピーカーロケーション内の前記ラウドスピーカーロケーションの数と同等である、
    請求項7に記載のデバイス。
  9. コーディングされたオーディオビットストリームを符号化するためのデバイスであって、
    オーディオオブジェクトのオーディオ信号および前記オーディオオブジェクトの仮想ソースロケーションを示すデータを記憶するように構成されたメモリ、前記オーディオ信号は、時間間隔に対応する、と、
    前記メモリに電気的に結合された1つまたは複数のプロセッサと
    を備え、前記1つまたは複数のプロセッサは、
    前記オーディオオブジェクトの前記オーディオ信号および前記オーディオオブジェクトの前記仮想ソースロケーションを受信することと、
    前記オーディオオブジェクトに対する前記仮想ソースロケーションを示す前記データおよび複数のラウドスピーカーロケーションを示すデータに基づいて、高次アンビソニックス(HOA)領域内の前記オーディオオブジェクトの空間ベクトルを決定することと、
    コーディングされたオーディオビットストリーム中に、前記オーディオ信号のオブジェクトベースの表現および前記空間ベクトルのデータ表現を含むことと
    を行うように構成される、デバイス。
  10. 前記1つまたは複数のプロセッサは、
    1つまたは複数のカメラから画像を取得することと、
    前記画像に基づいて前記ラウドスピーカーロケーションを決定することと
    を行うように構成される、請求項9に記載のデバイス。
  11. 前記1つまたは複数のプロセッサは、前記空間ベクトルを量子化することを行うように構成され、前記空間ベクトルの前記データ表現は、前記量子化空間ベクトルを備える、
    請求項9に記載のデバイス。
  12. 前記時間間隔の間の音場を記述する高次アンビソニックス(HOA)係数のセットは、前記オーディオ信号に前記空間ベクトルの転置を乗じたものと同等である、
    請求項9に記載のデバイス。
  13. 前記オーディオオブジェクトは、第1のオーディオオブジェクトであり、前記空間ベクトルは、第1の空間ベクトルであり、前記1つまたは複数のプロセッサは、
    前記コーディングされたオーディオビットストリーム中に、複数のオブジェクトベースの表現を含むこと、前記複数のオーディオオブジェクトの各それぞれのオーディオオブジェクトベースの表現は、複数のオーディオオブジェクトのそれぞれのオーディオオブジェクトのそれぞれの表現であり、前記複数のオーディオオブジェクトは、前記第1のオーディオオブジェクトを含む、と、
    前記複数のオーディオオブジェクトの各それぞれのオーディオオブジェクトに対して、
    前記それぞれのオーディオオブジェクトのそれぞれの仮想ソースロケーションを示すデータおよび前記複数のラウドスピーカーロケーションを示すデータに基づいて、前記それぞれのオーディオオブジェクトに対するそれぞれの空間ベクトルの表現を決定すること、前記それぞれのオーディオオブジェクトに対する前記それぞれの空間ベクトルは、前記HOA領域内で定義され、前記それぞれのオーディオオブジェクトに対するそれぞれのHOA係数のセットは、前記それぞれのオーディオオブジェクトの前記オーディオ信号に前記それぞれのオーディオオブジェクトに対する前記それぞれの空間ベクトルの転置を乗じたものと同等である、と、
    前記コーディングされたオーディオビットストリーム内に、前記それぞれのオーディオオブジェクトに対する前記それぞれの空間ベクトルの前記表現を含むことと
    を行うように構成される、請求項9に記載のデバイス。
  14. 前記1つまたは複数のプロセッサは、前記空間ベクトルを決定することの一部として、前記1つまたは複数のプロセッサは、
    前記ラウドスピーカーロケーションでのラウドスピーカーのためのラウドスピーカーフィード内に高次アンビソニックス(HOA)係数のセットをレンダリングするためのレンダリングフォーマットを決定することと、
    前記複数のラウドスピーカーロケーションベクトルを決定すること、ここにおいて、
    前記複数のラウドスピーカーロケーションベクトルの各それぞれのラウドスピーカーロケーションベクトルは、前記複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応し、
    前記1つまたは複数のプロセッサは、前記複数のラウドスピーカーロケーションベクトルを決定することの一部として、前記複数のラウドスピーカーロケーションベクトルの各それぞれのラウドスピーカーロケーションについて、前記1つまたは複数のプロセッサは、
    前記オーディオオブジェクトのロケーション座標に基づいて、前記それぞれのラウドスピーカーロケーションに対する利得係数を決定すること、前記それぞれのラウドスピーカーロケーションに対する前記利得係数は、前記それぞれのラウドスピーカーロケーションでの前記オーディオ信号に対するそれぞれの利得を示す、と、
    前記レンダリングフォーマットに基づいて、前記それぞれのラウドスピーカーロケーションに対応する前記ラウドスピーカーロケーションベクトルを決定することと
    を行うように構成される、と、
    複数のオペランドの合計として前記空間ベクトルを決定すること、前記複数のオペランドの各それぞれのオペランドは、前記複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応し、前記複数のラウドスピーカーロケーションの各それぞれのラウドスピーカーロケーションについて、前記それぞれのラウドスピーカーロケーションに対応する前記オペランドは、前記それぞれのラウドスピーカーロケーションに対する前記利得係数に、前記それぞれのラウドスピーカーロケーションに対応する前記ラウドスピーカーロケーションベクトルを乗じたものと同等である、と
    を行うように構成される、請求項9に記載のデバイス。
  15. 前記複数のラウドスピーカーロケーションの各それぞれのラウドスピーカーロケーションについて、前記1つまたは複数のプロセッサは、前記それぞれのラウドスピーカーロケーションに対する前記利得係数を決定するためにベクトルベース振幅パニング(VBAP)を使用することを行うように構成される、
    請求項14に記載のデバイス。
  16. 1からNにわたる各値nについて、前記第1の複数のラウドスピーカーロケーションのうちのn番目のラウドスピーカーロケーションベクトルは、第1の行列、第2の行列、および第3の行列の乗算から得られる行列の転置と同等であり、前記第1の行列は、前記複数のラウドスピーカー位置内のラウドスピーカー位置の数の同数である要素の単一のそれぞれの行からなり、前記要素のそれぞれの行の前記n番目の要素は、1に等しく、前記それぞれの行の前記n番目の要素以外の要素は、0に等しく、前記第2の行列は、レンダリング行列と前記レンダリング行列の転置との乗算から得られる行列の逆行列であり、前記第3の行列は、前記レンダリング行列と同等であり、前記レンダリング行列は、前記第1の複数のラウドスピーカーロケーションに基づき、Nは、前記第1の複数のラウドスピーカーロケーション内の前記ラウドスピーカーロケーションの数と同等である、
    請求項9に記載のデバイス。
  17. 前記オーディオ信号を捕捉するように構成されたマイクロフォンをさらに備える、
    請求項9に記載のデバイス。
  18. コーディングされたオーディオビットストリームを復号するための方法であって、
    前記コーディングされたオーディオビットストリームから、オーディオオブジェクトのオーディオ信号のオブジェクトベースの表現を取得すること、前記オーディオ信号は、時間間隔に対応する、と、
    前記コーディングされたオーディオビットストリームから、前記オーディオオブジェクトに対する空間ベクトルの表現を取得すること、ここにおいて、前記空間ベクトルは、高次アンビソニックッス(HOA)領域内で定義され、第1の複数のラウドスピーカーロケーションに基づく、と、
    前記オーディオオブジェクトの前記オーディオ信号および前記空間ベクトルに基づいて、複数のオーディオ信号を生成すること、ここにおいて、前記複数のオーディオ信号の各それぞれのオーディオ信号は、前記第1の複数のラウドスピーカーロケーションと異なる前記第2の複数のラウドスピーカーロケーションでの複数のローカルラウドスピーカー内のそれぞれのラウドスピーカーに対応する、と
    を備える、方法。
  19. 1つまたは複数のカメラから画像を取得することと、
    前記画像に基づいてローカルラウドスピーカーセットアップ情報を決定すること、前記ローカルラウドスピーカーセットアップ情報は、前記複数のローカルラウドスピーカーの位置を表す、と
    をさらに備える、請求項18に記載の方法。
  20. 前記オーディオオブジェクトの前記オーディオ信号および前記空間ベクトルを、前記時間間隔の間の音場を記述するHOA係数のセットに変換することと、
    前記HOA係数のセットにレンダリングフォーマットを適用することによって前記複数のオーディオ信号を生成すること、前記ローカルラウドスピーカーセットアップ情報は、前記レンダリングフォーマットの形態内にある、と
    をさらに備える、請求項19に記載の方法。
  21. 前記オーディオオブジェクトの前記オーディオ信号および前記空間ベクトルを、前記時間間隔の間の音場を記述するHOA係数のセットに変換することをさらに備え、
    前記複数のオーディオ信号を生成することは、前記HOA係数のセットにレンダリングフォーマットを適用することを備える、
    請求項18に記載の方法。
  22. 前記オーディオ信号および前記空間ベクトルを前記HOA係数のセットに変換することは、前記HOA係数のセットが、前記オーディオ信号に前記空間ベクトルの転置を乗じたものと同等になるように、前記HOA係数のセットを決定することを備える、
    請求項21に記載の方法。
  23. 前記オーディオオブジェクトは、第1のオーディオオブジェクトであり、前記空間ベクトルは、第1の空間ベクトルであり、
    前記コーディングされたオーディオビットストリームから、複数のオブジェクトベースの表現を取得すること、前記複数のオブジェクトベースの表現の各それぞれのオブジェクトベースの表現は、複数のオーディオオブジェクトのそれぞれのオーディオオブジェクトのそれぞれの表現であり、前記複数のオーディオオブジェクトは、前記第1のオーディオオブジェクトを含む、と、
    前記コーディングされたオーディオビットストリームから、複数のベクトル表現を取得すること、前記複数のベクトル表現の各それぞれの空間ベクトル表現は、前記複数のオーディオオブジェクトのそれぞれのオーディオオブジェクトに対するそれぞれの空間ベクトルの表現であり、前記複数のベクトル表現の各それぞれの空間ベクトル表現は、前記HOA領域内で定義され、前記第1の複数のラウドスピーカーロケーションに基づき、前記複数の空間ベクトル表現は、前記第1のオーディオオブジェクトに対する前記空間ベクトルの前記表現を含む、と、
    前記複数のオーディオオブジェクトの各それぞれのオーディオオブジェクトについて、前記HOA係数のセットが、前記それぞれのオーディオオブジェクトの前記オーディオ信号に、前記それぞれのオーディオオブジェクトに対する前記空間ベクトルの転置を乗じたものと同等になるように、前記それぞれのオーディオオブジェクトに対するそれぞれのHOA係数のセットを決定することと、
    前記複数のオーディオオブジェクトに対する前記HOA係数のセットの合計に基づいて前記音場を記述する前記HOA係数のセットを決定することと
    をさらに備える、請求項21に記載の方法。
  24. 前記空間ベクトルは、複数のオペランドの合計と同等であり、
    前記複数のオペランドのうちの各それぞれのオペランドは、前記第1の複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応し、
    前記第1の複数のラウドスピーカーロケーションの各それぞれのラウドスピーカーロケーションに対して、
    複数のラウドスピーカーロケーションベクトルは、前記それぞれのラウドスピーカーロケーションに対して1つのラウドスピーカーロケーションベクトルを含み、
    前記それぞれのラウドスピーカーロケーションに対応する前記オペランドは、前記それぞれのラウドスピーカーロケーションに対する利得係数に、前記それぞれのラウドスピーカーロケーションに対する前記ラウドスピーカーロケーションベクトルを乗じたものと同等であり、
    前記それぞれのラウドスピーカーロケーションに対する前記利得係数は、前記それぞれのラウドスピーカーロケーションにおける前記オーディオ信号に対するそれぞれの利得を示す、
    請求項21に記載の方法。
  25. 1からNにわたる各値nについて、前記第1の複数のラウドスピーカーロケーションのうちのn番目のラウドスピーカーロケーションベクトルは、第1の行列、第2の行列、および第3の行列の乗算から得られる行列の転置と同等であり、前記第1の行列は、前記複数のラウドスピーカー位置内のラウドスピーカー位置の数の同数である要素の単一のそれぞれの行からなり、前記要素のそれぞれの行の前記n番目の要素は、1に等しく、前記それぞれの行の前記n番目の要素以外の要素は、0に等しく、前記第2の行列は、レンダリング行列と前記レンダリング行列の転置との乗算から得られる行列の逆行列であり、前記第3の行列は、前記レンダリング行列と同等であり、前記レンダリング行列は、前記第1の複数のラウドスピーカーロケーションに基づき、Nは、前記第1の複数のラウドスピーカーロケーション内の前記ラウドスピーカーロケーションの数と同等である、
    請求項18に記載の方法。
  26. コーディングされたオーディオビットストリームを符号化するための方法であって、
    オーディオオブジェクトのオーディオ信号および前記オーディオオブジェクトの仮想ソースロケーションを示すデータを受信すること、前記オーディオ信号は、時間間隔に対応する、と、
    前記オーディオオブジェクトに対する前記仮想ソースロケーションを示す前記データおよび複数のラウドスピーカーロケーションを示すデータに基づいて、高次アンビソニックス(HOA)領域内の前記オーディオオブジェクトの空間ベクトルを決定することと、
    コーディングされたオーディオビットストリーム中に、前記オーディオ信号のオブジェクトベースの表現および前記空間ベクトルのデータ表現を含むことと
    を備える、方法。
  27. 1つまたは複数のカメラから画像を取得することと、
    前記画像に基づいて前記ラウドスピーカーロケーションを決定することと
    をさらに備える、請求項26に記載の方法。
  28. 前記時間間隔の間の音場を記述する高次アンビソニックス(HOA)係数のセットは、前記オーディオ信号に、前記空間ベクトルの転置を乗じたものと同等である、
    請求項26に記載の方法。
  29. 前記オーディオオブジェクトは、第1のオーディオオブジェクトであり、前記空間ベクトルは、第1の空間ベクトルであり、前記方法は、
    前記コーディングされたオーディオビットストリーム中に、複数のオブジェクトベースの表現を含むこと、前記複数のオーディオオブジェクトの各それぞれのオーディオオブジェクトベースの表現は、複数のオーディオオブジェクトのそれぞれのオーディオオブジェクトのそれぞれの表現であり、前記複数のオーディオオブジェクトは、前記第1のオーディオオブジェクトを含む、と、
    前記複数のオーディオオブジェクトの各それぞれのオーディオオブジェクトに対して、
    前記それぞれのオーディオオブジェクトのそれぞれの仮想ソースロケーションを示すデータおよび前記複数のラウドスピーカーロケーションを含むデータに基づいて、前記それぞれのオーディオオブジェクトに対するそれぞれの空間ベクトルの表現を決定すること、前記それぞれのオーディオオブジェクトに対する前記それぞれの空間ベクトルは、前記HOA領域内で定義され、前記それぞれのオーディオオブジェクトに対するそれぞれのHOA係数のセットは、前記それぞれのオーディオオブジェクトの前記オーディオ信号に前記それぞれのオーディオオブジェクトに対する前記それぞれの空間ベクトルの転置を乗じたものと同等である、と、
    前記コーディングされたオーディオビットストリーム内に、前記それぞれのオーディオオブジェクトに対する前記それぞれの空間ベクトルの前記表現を含むことと
    をさらに備える、請求項26に記載の方法。
  30. 前記空間ベクトルを決定することは、
    前記ラウドスピーカーロケーションでのラウドスピーカーのためのラウドスピーカーフィード内に高次アンビソニックス(HOA)係数のセットをレンダリングするためのレンダリングフォーマットを決定することと、
    前記複数のラウドスピーカーロケーションベクトルを決定すること、ここにおいて、
    前記複数のラウドスピーカーロケーションベクトルの各それぞれのラウドスピーカーロケーションベクトルは、前記複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応し、
    前記複数のラウドスピーカーロケーションベクトルを決定することは、前記複数のラウドスピーカーロケーションベクトルの各それぞれのラウドスピーカーロケーションについて、
    前記オーディオオブジェクトのロケーション座標に基づいて、前記それぞれのラウドスピーカーロケーションに対する利得係数を決定すること、前記それぞれのラウドスピーカーロケーションに対する前記利得係数は、前記それぞれのラウドスピーカーロケーションでの前記オーディオ信号に対するそれぞれの利得を示す、と、
    前記レンダリングフォーマットに基づいて、前記それぞれのラウドスピーカーロケーションに対応する前記ラウドスピーカーロケーションベクトルを決定することと
    を備える、と、
    複数のオペランドの合計として前記空間ベクトルを決定すること、前記複数のオペランドの各それぞれのオペランドは、前記複数のラウドスピーカーロケーションのそれぞれのラウドスピーカーロケーションに対応し、前記複数のラウドスピーカーロケーションの各それぞれのラウドスピーカーロケーションについて、前記それぞれのラウドスピーカーロケーションに対応する前記オペランドは、前記それぞれのラウドスピーカーロケーションに対する前記利得係数に前記それぞれのラウドスピーカーロケーションに対応する前記ラウドスピーカーロケーションベクトルを乗じたものと同等である、と
    を備える、請求項26に記載の方法。
JP2018517745A 2015-10-08 2016-09-16 オブジェクトベースオーディオからhoaへの変換 Pending JP2018534848A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562239043P 2015-10-08 2015-10-08
US62/239,043 2015-10-08
US15/266,910 2016-09-15
US15/266,910 US9961475B2 (en) 2015-10-08 2016-09-15 Conversion from object-based audio to HOA
PCT/US2016/052251 WO2017062160A1 (en) 2015-10-08 2016-09-16 Conversion from object-based audio to hoa

Publications (1)

Publication Number Publication Date
JP2018534848A true JP2018534848A (ja) 2018-11-22

Family

ID=57043009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018517745A Pending JP2018534848A (ja) 2015-10-08 2016-09-16 オブジェクトベースオーディオからhoaへの変換

Country Status (6)

Country Link
US (1) US9961475B2 (ja)
EP (1) EP3360343B1 (ja)
JP (1) JP2018534848A (ja)
KR (1) KR102032072B1 (ja)
CN (1) CN108141689B (ja)
WO (1) WO2017062160A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024512347A (ja) * 2021-03-05 2024-03-19 華為技術有限公司 仮想スピーカセットを決定するための方法および装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12087311B2 (en) * 2015-07-30 2024-09-10 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding an HOA representation
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
US10972859B2 (en) * 2017-04-13 2021-04-06 Sony Corporation Signal processing apparatus and method as well as program
EP3622509B1 (en) 2017-05-09 2021-03-24 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
US10674301B2 (en) * 2017-08-25 2020-06-02 Google Llc Fast and memory efficient encoding of sound objects using spherical harmonic symmetries
US10999693B2 (en) * 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
JP7552617B2 (ja) * 2019-12-17 2024-09-18 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
WO2021127286A1 (en) * 2019-12-18 2021-06-24 Dolby Laboratories Licensing Corporation Audio device auto-location
US20230088922A1 (en) 2020-03-10 2023-03-23 Telefonaktiebolaget Lm Ericsson (Publ) Representation and rendering of audio objects
CN118138980A (zh) * 2022-12-02 2024-06-04 华为技术有限公司 场景音频解码方法及电子设备
US20240404531A1 (en) * 2023-06-03 2024-12-05 Apple Inc. Method and System for Coding Audio Data
US12518772B2 (en) 2023-08-01 2026-01-06 Samsung Electronics Co., Ltd. Codec bitrate selection in audio object coding

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
EP2094032A1 (en) 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
GB2467534B (en) * 2009-02-04 2014-12-24 Richard Furse Sound system
EP2389016B1 (en) 2010-05-18 2013-07-10 Harman Becker Automotive Systems GmbH Individualization of sound signals
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
CN104115229B (zh) 2011-12-23 2017-03-08 英特尔公司 动态存储器性能调节
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
US20140086416A1 (en) 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
KR102131810B1 (ko) * 2012-07-19 2020-07-08 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
CN105009207B (zh) * 2013-01-15 2018-09-25 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
US10178489B2 (en) * 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9609452B2 (en) * 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US10075795B2 (en) 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
EP2997742B1 (en) * 2013-05-16 2022-09-28 Koninklijke Philips N.V. An audio processing apparatus and method therefor
MY199032A (en) * 2013-05-24 2023-10-10 Dolby Int Ab Audio encoder and decoder
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
WO2014195190A1 (en) 2013-06-05 2014-12-11 Thomson Licensing Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
WO2015060654A1 (ko) * 2013-10-22 2015-04-30 한국전자통신연구원 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US20150243292A1 (en) * 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
WO2016050899A1 (en) * 2014-10-01 2016-04-07 Dolby International Ab Audio encoder and decoder
US9875745B2 (en) 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
US10200806B2 (en) * 2016-06-17 2019-02-05 Dts, Inc. Near-field binaural rendering

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024512347A (ja) * 2021-03-05 2024-03-19 華為技術有限公司 仮想スピーカセットを決定するための方法および装置
JP7648787B2 (ja) 2021-03-05 2025-03-18 華為技術有限公司 仮想スピーカセットを決定するための方法および装置
US12513465B2 (en) 2021-03-05 2025-12-30 Huawei Technologies Co., Ltd. Method and apparatus for determining virtual speaker set

Also Published As

Publication number Publication date
KR102032072B1 (ko) 2019-10-14
CN108141689B (zh) 2020-06-23
KR20180061218A (ko) 2018-06-07
CN108141689A (zh) 2018-06-08
WO2017062160A1 (en) 2017-04-13
EP3360343A1 (en) 2018-08-15
US20170105085A1 (en) 2017-04-13
EP3360343B1 (en) 2019-12-11
US9961475B2 (en) 2018-05-01

Similar Documents

Publication Publication Date Title
KR102122672B1 (ko) 공간 벡터들의 양자화
EP3360343B1 (en) Conversion from object-based audio to hoa
US20250299682A1 (en) Synchronizing enhanced audio transports with backward compatible audio transports
CN105027199B (zh) 在位流中指定球谐系数和/或高阶立体混响系数
CN108141688B (zh) 从以信道为基础的音频到高阶立体混响的转换
EP3400598B1 (en) Mixed domain coding of audio
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
JP6605725B2 (ja) 複数の遷移の間の高次アンビソニック係数のコーディング
US20200120438A1 (en) Recursively defined audio metadata
CN112313744A (zh) 使用不同的渲染器渲染音频数据的不同部分
US20190392845A1 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams