JP7721835B1

JP7721835B1 - 信号レベル及びスピーカ再生限界閾値に適応する空間オーディオレンダリング

Info

Publication number: JP7721835B1
Application number: JP2025504190A
Authority: JP
Inventors: ジェイ．ゼーフェルト，アラン; ビー．ランド，ジョシュア; アランポート，ティモシー
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2022-07-27
Filing date: 2023-07-21
Publication date: 2025-08-12
Anticipated expiration: 2043-07-21
Also published as: WO2024025803A1; CN119605194A; JP2025527172A; MX2025000644A; EP4562869A1; MY209996A; AU2023314100A1; US20250267417A1; IL317716A; US12445791B2; KR20250025003A; CA3263323A1

Abstract

オーディオ信号のレンダリングは、オーディオ信号の意図された知覚空間位置、スピーカに関連する物理的位置、及び各スピーカの最大再生限界に対するスピーカ信号レベルの時間的及び周波数的に変化する表現の関数として計算されるスピーカ信号への各オーディオ信号のマッピングを含むことができる。各マッピングは、スピーカ信号が再生されるときに、関連するオーディオ信号の意図された知覚空間位置をほぼ達成するように計算することができる。最大再生限界に対するスピーカ信号レベルの表現は、各オーディオ信号について計算することができる。特定のスピーカ信号へのオーディオ信号のマッピングは、最大再生限界に対するスピーカ信号レベルが閾値を超えて増加するにつれて減少することができ、一方で、マッピングは、最大再生限界が閾値未満である１つ以上の他のスピーカに増加することができる。

Description

［関連出願］
本願は、参照により全体がここ組み込まれる、２０２２年７月２７日に出願された米国仮特許出願第６３／３９２，７９４号、２０２２年１０月６日に出願された米国仮特許出願第６３／４１３，９２３号及び２０２３年６月１日に出願された米国仮出願特許出願第６３／５０５，６５２号の優先権を主張する。

［技術分野］
本開示は、スピーカのセットによる再生のためにオーディオをレンダリングするシステム及び方法に関する。

限定ではなくスマートオーディオ装置を含むオーディオ装置は、広く展開されており、多くの家庭の一般的特徴になりつつある。オーディオ装置を制御する既存のシステム及び方法は利益をもたらすが、改良されたシステム及び方法が望ましいことがある。

注釈及び用語
特許請求の範囲を含む本開示を通じて、「スピーカ」及び「ラウドスピーカ」は、単一のスピーカ供給により駆動される任意の放音トランスデューサ（又はトランスデューサのセット）を示すために同義的に使用される。標準的なヘッドフォンセットは、２つのスピーカを含む。

特許請求の範囲を含む本開示を通じて、信号又はデータに「対して」動作を実行する（例えば、信号又はデータをフィルタリング、スケーリング、変換、又は利得を適用する）という表現は、信号又はデータに、又は信号又はデータの処理済みのバージョンに（例えば、当該動作の実行の前に予備的なフィルタリング又は後処理の行われた信号のバージョン）、直接動作を実行することを示すために広義に使用される。

特許請求の範囲を含む本開示を通じて、表現「システム」は、装置、システム、又はサブシステムを示すために広義に使用される。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれてよく、このようなサブシステムを含むシステムは（例えば、複数の入力に応答してＸ個の出力信号を生成するシステムであり、そのうちサブシステムがＭ個の入力を生成し、他のＸ－Ｍ個の入力は外部ソースから受信される）、デコーダシステムとも呼ばれてよい。

特許請求の範囲を含む本開示を通じて、用語「プロセッサ」は、データ（例えば、オーディオ又はビデオ又は他の画像データ）に対して動作を実行するよう（ソフトウェア又はファームウェアにより）プログラム可能な又はその他の場合、構成可能なシステム又は装置を示すために広義に使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ（又は他の構成可能な集積回路又はチップセット）、オーディオ又は他の音声データに対してパイプライン処理を実行するようプログラムされた及び／又はその他の場合に構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサ若しくはコンピュータ、及びプログラム可能なマイクロプロセッサチップ又はチップセットを含む。

特許請求の範囲を含む本開示を通じて、用語「接続する」又は「接続される」は、直接又は間接的接続を意味するために使用される。従って、第１装置が第２装置に接続する場合、該接続は、直接接続を通じて、又は他の装置及び接続を介する間接接続を通じてよい。

本願明細書では、表現「スマートオーディオ装置」は、単一目的のオーディオ装置又は仮想アシスタント（例えば、接続された仮想アシスタント）であるスマート装置を示すために使用される。単一目的のオーディオ装置は、少なくとも１つのマイクロフォンを含む又はそれに結合された（及び任意的に少なくとも１つのスピーカも含み又はそれに結合された）、並びに単一目的を達成するために大部分は又は主に設計された装置（例えば、TV又は携帯電話機）である。TVは、標準的に番組素材からオーディオを再生できるが（再生する能力があると考えられるが）、多くの例では、最新のTVは、何らかのオペレーティングシステムを実行し、該オペレーティングシステム上ではテレビを試聴するアプリケーションを含むアプリケーションがローカルに実行する。同様に、携帯電話機におけるオーディオ入力及び出力は、多くのことを行い得るが、これらは該電話機上で実行しているアプリケーションによりサービスされる。この意味で、スピーカ及びマイクロフォンを有する単一目的オーディオ装置は、ローカルアプリケーション及び／又はサービスを実行して、スピーカ及びマイクロフォンを直接使用するよう構成されることが多い。幾つかの単一目的オーディオ装置は、ゾーン又はユーザの構成した領域に渡りオーディオの再生を達成するために一緒にグループ化するよう構成されてよい。

仮想アシスタント（例えば、接続された仮想アシスタント）は、少なくとも１つのマイクロフォンを含み又はそれに結合される（及び任意的に少なくとも１つのスピーカも含み又はそれに結合される）、並びにある意味でクラウド対応であり又はその他の場合に仮想アシスタント自体に又はその上に実装されないアプリケーションのために（仮想アシスタントから離れた）複数の装置を利用する能力を提供し得る装置（例えば、スマートスピーカ、又は音声アシスタント統合装置）である。仮想アシスタントは、時に、一緒に、例えば離散的且つ条件付きで定義された方法で、動作してよい。例えば、２つ以上の仮想アシスタントは、それらのうちの１つ、例えば、起動ワードを聞いたことを最も確信しているものが、ワードに応答するという意味で、一緒に動作してよい。接続された装置は、ある種のコンステレーションを形成してよく、これは、仮想アシスタントであってよい（又はそれを実装する）１つのメインアプリケーションにより管理されてよい。

ここで、「起動ワード（wakeword）」は、広い意味で使用され、任意の音声（例えば、人間により発話された単語、又は何らかの他の音声）を示し、スマートオーディオ装置は、（スマートオーディオ装置に含まれる又はそれに結合される少なくとも１つのマイクロフォン、又は少なくとも１つの他のマイクロフォンを用いて）音声の検出（「聞こえること」）に応答して起動するよう構成される。この文脈では、「起動する（awake）」ことは、装置が、音声コマンドを待機している（つまり、傾聴している）状態に入ることを示す。場合によっては、ここで「起動ワード」と呼ばれるものは、フレーズなどの複数の単語を含むことがある。

ここで、表現「起動ワード検出器」は、リアルタイム音声（例えば、会話）特徴とトレーニング済みモデルとの間の不整合を連続的に検索するよう構成された装置（又は装置を構成するための命令を含むソフトウェア）を示す。標準的に、起動イベントは、起動ワードが検出される確立が所定の閾値を超えることが起動ワード検出器により決定されるときは常にトリガされる。例えば、閾値は、誤った受容と誤った拒否との率の間の良好な妥協を与えるよう調整される所定の閾値であってよい。起動ワードイベントに続き、装置は、コマンドを傾聴し、受信したコマンドをより大きなより計算集約的な認識器に渡す状態（これは、「起動」状態又は「注意力（attentiveness）」状態と呼ばれてよい）に入り得る。

本開示の少なくとも幾つかの態様は、オーディオ処理方法のような方法を介して実装されてよい。幾つかの例では、方法は、少なくとも部分的に、本明細書に開示されているような制御システムによって実施することができる。幾つかの方法は、制御システムにより及びインタフェースシステムを介して、オーディオデータを受信することを含むことができる。オーディオデータは、１つ以上のオーディオ信号及び関連する空間データを含むことができる。空間データは、オーディオ信号に対応する意図された知覚空間位置を示すことができる。幾つかの例では、意図された知覚空間位置は、チャネルベースのオーディオフォーマットのチャネルに対応することができ、メタデータに対応することができ、又はチャネルとメタデータの両方に対応することができる。幾つかの方法は、制御システムによって、スピーカ信号を生成するために、環境の２つ以上のスピーカのセットを介して再生するためのオーディオデータをレンダリングすることを含むことができる。幾つかの方法は、インタフェースシステムを介して、環境のスピーカのセットのうちの少なくとも２つのスピーカにスピーカ信号を提供することを含むことができる。

幾つかの例によれば、オーディオデータに含まれる１つ以上のオーディオ信号の各々をレンダリングすることは、各オーディオ信号のスピーカ信号へのマッピングを含むことができる。幾つかの例では、マッピングは、時間及び周波数の変化するマッピングであってもよい。幾つかの例では、各オーディオ信号のマッピングは、オーディオ信号の意図された知覚空間位置、スピーカに関連する物理的位置、及び各スピーカの最大再生限界に対するスピーカ信号レベルの時間的及び周波数的に変化する表現の関数として計算されることができる。幾つかの例によれば、各マッピングは、スピーカ信号が関連付けられたスピーカ位置に位置する２つ以上の対応するスピーカ上で再生されるときに、関連付けられたオーディオ信号の意図された知覚空間位置をほぼ達成するように計算されてもよい。幾つかの例では、最大再生限界に対するスピーカ信号レベルの表現は、オーディオ信号の１つ以上及びそれらの知覚空間位置の関数として、各オーディオ信号について計算されてもよい。例の幾つかによると、特定のスピーカ信号へのオーディオ信号のマッピングは、最大再生限界に対するスピーカ信号レベルの表現が閾値を超えて増加するにつれて減少することができ、一方で、マッピングは、１つ以上の他のスピーカの最大再生限界に対する信号レベルの表現が閾値未満である１つ以上の他のスピーカに増加することができる。

幾つかの例では、マッピングは可聴周波数範囲全体（例えば、人間の可聴周波数範囲）にわたって計算されてもよい。しかし、幾つかの例では、マッピングは可聴周波数範囲のサブセットにわたって計算されてもよい。

幾つかの例によれば、マッピングは、オーディオ信号をスピーカ信号にマッピングする関数として、意図された知覚空間位置がどの程度厳密に達成され得るかをモデル化する第１項と、各スピーカを起動するためのコストを割り当てる第２項とを含むコスト関数を最小化することを含み得る。幾つかのそのような例では、各スピーカを起動するコストは、最大再生限界に対するスピーカ信号レベルの表現の関数に少なくとも部分的に基づいてよい。

幾つかの例では、最大再生限界に対するスピーカ信号レベルの表現は、デジタル信号レベル、リミッタ利得、又は音響信号レベルのうちの１つ以上に対応してもよい。幾つかの例では、最大再生限界に対するスピーカ信号レベルの表現は、各オーディオ信号に対するレベル推定と各スピーカに対する再生限界閾値との間の差として計算されてよい。幾つかの例では、各オーディオ信号のレベル推定は、すべてのオーディオ信号のゾーンベースのレンダリングに少なくとも部分的に基づいてよい。幾つかの例では、各オーディオ信号のレベル推定は、以前に計算されたスピーカ信号に少なくとも部分的に基づいてよい。幾つかの例では、各オーディオ信号のレベル推定は、複数の空間ゾーンにおける各スピーカの参加に更に依存してよい。幾つかの方法は、各オーディオ信号のレベル推定を、時間、周波数、又は時間と周波数の両方にわたって平滑化するステップ、を更に含むことができる。

幾つかの例によれば、オーディオ信号からスピーカ信号へのマッピングは、各オーディオ信号の意図された知覚空間位置及びレベル推定によってインデックス付けされたデータ構造をクエリすることにより決定されてよい。幾つかの例では、オーディオ信号からスピーカ信号へのマッピングは、事前に計算されたスピーカマッピングのセットから補間することによって決定されてよい。幾つかのそのような例では、セットは、各オーディオ信号に対する意図された知覚空間位置及びレベル推定によってインデックス付けされ得る。幾つかの例では、セットは、各オーディオ信号に対する意図されたレベル推定によってインデックス付けされよい。

幾つかの例では、各オーディオ信号のレベル推定は、スペクトル形状と乗算された広帯域利得として表すことができる。幾つかの例によれば、スペクトル形状は、複数のスペクトル形状から選択され得る。幾つかのそのような例では、複数のスペクトル形状のうちの各スペクトル形状は、コンテンツタイプに対応し得る。

幾つかの例によれば、最大再生レベルに対する信号レベルの表現が閾値を超えて増加するにつれて、１つのスピーカへのマッピングを減少させ、別のスピーカへのマッピングを増加させる。

幾つかの例では、関連するオーディオ信号の意図された知覚空間位置をほぼ達成することは、利用可能なスピーカ及び関連するスピーカ位置が与えられた場合に、知覚空間位置と意図された知覚空間位置との差を最小化することを含むことができる。幾つかの例によれば、関連するオーディオ信号の意図された知覚空間位置をほぼ達成することは、コスト関数を最小化することを含む。

幾つかの例は、オーディオフォーマット、コーデック、又はメタデータのうちの１つ以上に従って、１つのスピーカへのマッピングの減少の程度及び別のスピーカへのマッピングの増加を制御するステップ、を更に含むことができる。幾つかの方法は、kneeパラメータに従って、１つのスピーカへのマッピングの減少の程度及び別のスピーカへのマッピングの増加を制御するステップ、を更に含むことができる。

本願明細書に記載の動作、機能、及び／又は方法のうちの一部又は全部は、１つ以上の非一時的媒体に記憶された命令（例えば、ソフトウェア）に従い１つ以上の装置により実行されてよい。そのような非一時的媒体は、限定ではないが、１つ以上のRAM（random access memory）装置、ROM（read-only memory）装置、等を含む、本願明細書で説明されたような１つ以上のメモリ装置を含んでよい。従って、本開示に記載された主題の種々の新規な態様は、ソフトウェアを記憶された１つ以上の非一時的媒体を介して実装されてよい。

本開示の少なくとも幾つかの態様は、機器を介して実装されてよい。例えば、１つ以上の装置は、本願明細書に開示した方法を少なくとも部分的に実行する能力があってよい。幾つかの実装形態では、装置は、インタフェースシステム及び制御システムを含んでもよい。制御システムは、汎用の単一又は複数チッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）、又は他のプログラマブル論理素子、個別ゲート又はトランジスタロジック、個別ハードウェアコンポーネント、又はそれらの組合せのうちの少なくとも１つを含んでよい。

本明細書に記載される主題の１つ以上の実施の詳細は、添付の図面及び以下の説明に記載される。他の特徴、態様、及び利点は、説明、図面、及び特許請求の範囲から明らかになる。以下の図面の相対的寸法は縮尺通りに描かれないことがある。

本開示の種々の態様を実装可能な機器のコンポーネントの例を示すブロック図である。本例における生活空間であるリスニング環境の平面図を示す。本開示の種々の態様を実装可能なシステムのコンポーネントの例を示すブロック図である。再生限界閾値及び対応する周波数の例を示す。ダイナミックレンジ圧縮データの例を示すグラフである。リスニング環境の空間ゾーンの例を示す。図６の空間ゾーン内のスピーカの例を示す。図７の空間ゾーンとスピーカに重ねられた公称空間位置の例を示す。例示的な実施形態におけるオブジェクトからスピーカへのマッピングを示す点のグラフである。一例によるオブジェクトからスピーカへのマッピングを示す点の間のトリリニア補間のグラフである。様々なkneeパラメータに対するペナルティの例を示す。本願明細書に開示したような機器又はシステムにより実行され得る方法の一例の概要を示すフロー図である。

消費者環境における空間オーディオの再生は、通常、Dolby５.１又は７.１サラウンドサウンドに対応する位置など、所定の位置に配置された所定の数のスピーカに関連付けられている。このような場合、コンテンツは、関連付けられたスピーカ用に特別に作成され、各スピーカ（Dolby Digital（商標）、Dolby Digital Plus（商標）など）用に個別のチャネルとして符号化される。最近では、コンテンツと特定のスピーカ位置との間のこの関連付けを解除する、没入型のオブジェクトベースの空間オーディオフォーマットが導入されている（Dolby Atmos（商標）など）。代わりに、コンテンツは、個々のオーディオオブジェクトのコレクションとして記述することができ、各オーディオオブジェクトは、３次元空間内の前記オーディオオブジェクトの所望の知覚位置、及び幾つかの例ではオーディオオブジェクトの他のプロパティを記述する、場合によっては時間により変化するメタデータを持つ。再生時に、オーディオコンテンツは、再生システム内のスピーカの数と位置に適応するレンダラによってスピーカフィードに変換される。ただし、このようなレンダラの多くは、一連の規定されたレイアウト（例えば、Dolby Atmos（商標）を使用したDolby３.１.２、５.１.２、７.１.４、９.１.６など）のいずれかになるように、スピーカのセットの位置を制限する。

このような制約されたレンダリングを超えて、オブジェクトベースのオーディオを、任意の位置に配置された真に任意の数のスピーカで柔軟にレンダリングできるようにする方法が開発されている。これらの方法では、一般に、レンダラがリスニング空間内のスピーカの数と物理的な位置を知っている必要がある。このようなシステムが平均的な消費者にとって実用的であるためには、スピーカの位置を特定するための自動化された方法が望ましいだろう。そのような方法の１つは、スピーカと同じ場所に配置されている可能性のある多数のマイクの使用に依存している。スピーカを介してオーディオ信号を再生し、マイクを使用して録音することによって、各スピーカとマイクの間の距離を推定することができる。これらの距離から、スピーカとマイクの両方の位置を後に推測することができる。

オブジェクトベースの空間オーディオが消費者空間に導入されるのと同時に、Amazon Echo（商標）製品ラインのようないわゆる「スマートスピーカ」が急速に採用されている。これらの装置の絶大な人気は、そのシンプルさと無線接続と統合された音声インタフェース（例えば、AmazonのAlexa（商標））によってもたらされる利便性に起因し得るが、これらの装置の音響機能は、特に空間オーディオに関して一般的に制限されている。ほとんどの場合、これらの装置はモノラル又はステレオ再生に制限されている。しかし、前述の柔軟なレンダリングと自動位置特定技術を複数の編成されたスマートスピーカと組み合わせることで、非常に洗練された空間再生機能を備えた、消費者が設定するのが依然として非常に簡単であるシステムが得られる可能性がある。消費者は、無線接続のためにスピーカの配線を行う必要がなく、便利な場所に、所望に応じて多数又は少数のスピーカを配置することができ、内蔵マイクを使用して、関連する柔軟なレンダラのスピーカを自動的に位置特定することができる。

スピーカのセットを介して空間オーディオをレンダリングするための１つのアプローチは、スピーカの想定又は測定位置と、コンポーネント信号の意図された知覚位置とに純粋に基づいて、スピーカのセットに渡り空間ミックスの各コンポーネント信号をマッピングすることである。このようなアプローチは、米国特許第９,７１２,９３９号及び第１１,１７２,３１８号に記載されており、これらは参照により本明細書に組み込まれる。スピーカのセットに渡る再生能力にばらつきがある場合、このアプローチを使用すると、空間レンダリングの知覚品質が損なわれる可能性がある。多くの小型スピーカは、特に低周波数において、再生レベルが増加するにつれて歪み始め、その後、その可動域（excursion）限界に達する。

このような歪みを低減するために、各スピーカは、幾つかの例では、周波数に渡り変化する方法で、再生レベルをこれらの限界未満に制限する動的処理を実装することができる。上記の方法を使用してレンダリングされた空間オーディオがスピーカのセットを介して再生されると、各スピーカはその動的処理を独立して適用し、その結果、異なるスピーカフィード上のオーディオに非常に異なる相対的な変更が生じる可能性がある。例えば、能力の低いスピーカは、一般に、高い再生レベルにおいて、能力の高いスピーカよりもオーディオをより多く減衰させる。スピーカ間の処理におけるこれらの変動は、知覚的に混乱する方法でミックスの空間バランスを動的にシフトする可能性があり、また、ミックスの全体的な相対的バランスを乱す可能性がある。例えば、前方サウンドステージが能力の低いスピーカによって主に再生される場合、前方サウンドステージは後方サウンドステージに対して全体的に減衰する可能性がある。

本出願人は、スピーカ間の再生限界閾値を知的に組み合わせ、ミックスをスピーカフィードにレンダリングする前に、空間オーディオミキサ全体の空間ゾーンにそれらを適用することによって、これらの問題の幾つかを軽減する方法を開発した。幾つかの例をここに開示する。ゾーンは、オーディオミックスの部分間の処理におけるある程度の独立性を維持しながら、知覚的に混乱する左から右へのイメージングシフトを防止するように選択することができる。幾つかのゾーンベースの方法は、フロント、センタ、サラウンド、及びオーバヘッドの４つのゾーンを含む。

これらのゾーンベースの方法は、レンダリングされたオーディオの空間イメージングを安定させるのに役立つ。しかし、幾つかの例では、このようなゾーンベースの方法は、全体的な再生レベルをスピーカのセット全体にわたって最も能力の低い装置に制約するという望ましくない効果を有する可能性がある。

本開示は、スピーカのセット内のより能力の高いスピーカをよりよく利用する幾つかの改善されたゾーンベースの方法を含む、改善されたレンダリング方法を提供する。空間オーディオをレンダリングするための改善された方法が開示され、ミックスの各コンポーネント信号をスピーカフィード信号にマッピングするときに、空間オーディオミックスの動的信号レベルが追加的に考慮される。幾つかの例では、オーディオミックスのレベルが特定のスピーカの再生限界閾値に近づくと、ミックスレベルが他のスピーカの制限閾値から更に離れている他のスピーカへのマッピングを増加させるために、そのスピーカへのコンポーネントのマッピングが削減される。このようにして、レンダリングされたオーディオの全体的なレベルは、能力の低いスピーカによって制約されない。ただし、オーディオ信号レベルがそれらの限界閾値を下回る場合は、能力の低いスピーカを使用することができる。

このような動的レンダリングシステムの構築は、再生レベルを最大化しようとする過程で追加の知覚アーチファクトが発生しないように注意して行う必要がある。例えば、意図された知覚位置が「フロント左」である空間オーディオミックスの個々のコンポーネントを考える。スピーカがこの意図された知覚位置の近くに物理的に配置されている場合、理想的には、コンポーネント信号エネルギの大部分をこのスピーカにマッピングする必要がある。しかし、ミックスの信号レベルがこのスピーカの再生限界に近づいている場合は、このコンポーネント信号の大部分を他のより能力の高いスピーカにマッピングして、第１スピーカの動的処理の活性化を低減し、それによってミックスの全体的な再生レベルをより良好に維持することが望まれる。信号エネルギは、意図された知覚位置に対して物理的に近い位置ではないために、コンポーネント信号の意図された知覚位置を達成するのにあまり適していない可能性があるこれらの他のスピーカに動的に転換（diversion）されるため、この転換をコンポーネント信号の望ましくない空間シフトとして知覚する可能性を最小限に抑える必要がある。

この最小化を達成するために、幾つかの開示された方法は、幾つかの戦略を同時に採用する。

（１）まず、幾つかの例では、各コンポーネント信号のスピーカ信号へのマッピングは、オーディオミックスの現在の信号レベルを考慮に入れ、その特定の時点で信号レベル条件の下で利用可能と考えられるスピーカを使用して、コンポーネントオーディオ信号の所望の知覚位置を達成するための「ベストエフォート」を行う。幾つかの例では、この「ベストエフォート」を行うことは、オーディオ信号コンポーネントの意図された知覚空間位置をほぼ達成することとして本明細書で説明することを含むことができる。意図された知覚空間位置は、チャネルベースのオーディオフォーマットのチャネル、オーディオオブジェクトの位置メタデータ、又はチャネルと位置メタデータの両方に対応することができる。幾つかの例によれば、オーディオ信号コンポーネントの意図された知覚空間位置をほぼ達成することは、例えば、オーディオ環境で利用可能なスピーカ、各スピーカの能力、及び関連するスピーカ位置が与えられた場合に、知覚空間位置と意図された知覚空間位置との間の差を最小化することを含むことができる。幾つかの例によれば、オーディオ信号コンポーネントの意図された知覚空間位置をほぼ達成することは、コスト関数を最小化することを含むことができる。このようにして、このような方法は、信号レベル条件に関して各コンポーネント信号の空間マッピングを個別に最適化する。これは、例えば、空間イメージングを最適化するが信号レベルを無視する上述の方法を使用してスピーカ信号へとレンダリングし、その後、レンダリングされた信号レベルと各スピーカの限界閾値との比較に基づいて、既にレンダリングされた信号のエネルギをスピーカ間で再分配する、より単純なソリューションとは異なる。

（２）第２に、幾つかの例では、コンポーネント信号からスピーカフィードへのマッピングと、このマッピングが依存するスピーカ再生限界に関する信号レベルの特性化の両方を、時間的及び周波数的に変化する方法で計算することができる。このようにして、任意のコンポーネント信号のエネルギの、その空間的に最適なスピーカからの転換は、信号エネルギがこれらの最適なスピーカの限界閾値に近づいている周波数領域及び瞬間においてのみ発生する。このアプローチは、逸脱したエネルギの量を最小限に抑え、任意のコンポーネント信号のより多くのエネルギをその空間再生に最適なスピーカに残すことを可能にする。従って、コンポーネント信号の知覚位置がその所望の空間位置にとどまる可能性は高いままである。

（３）最後に、コンポーネント信号からスピーカ信号へのマッピングが依存するスピーカ再生限界に関する信号レベルの特性化は、ミックスの１つ以上のコンポーネント信号及びそれらの意図された知覚位置に基づいて、各個々のコンポーネント信号について計算される。このようにして、スピーカ間の信号エネルギの転換は、上記の第１戦略で概説されているように、各コンポーネント信号の所望の知覚位置に個別化されるだけでなく、そのコンポーネント信号とミックスの他のコンポーネントとの関係に関して何らかの方法で最適化された全体的な信号レベルの推定にも個別化され得る。例えば、任意のコンポーネント信号に関連する全体的な信号レベルは、上記のゾーンベースの方法の空間ゾーンに基づいて計算され得る。このようにして、類似した空間ゾーンにあるコンポーネント信号の転換が類似しているため、動的レンダリングの知覚される左右のバランスが安定する。更に、実質的に異なるゾーンに属するコンポーネント信号は、これらのゾーンに関連する全体的なレベルが著しく異なる場合に、異なるように転換されてよい。例えば、サラウンドゾーンの信号レベルが低い場合、サラウンドゾーンに大きく関連するオーディオ信号コンポーネントは、そのマッピングに適用される転換がほとんどない可能性がある。同時に、フロントゾーンの信号レベルが高くなる可能性があり、フロントゾーンに大きく関連するコンポーネントは、そのマッピングに適用される転換が多くなる可能性がある。従って、この戦略は、必要とされる空間ゾーンに属するコンポーネント信号にのみ転換を適用することによって、空間ミックス全体にわたって転換されるエネルギの量を最小限に抑えるのにも役立つ。

図１は、本開示の種々の態様を実装可能な機器のコンポーネントの例を示すブロック図である。本願明細書で提供される他の図と同様に、図１に示される要素の数及び種類は、単なる例である。他の実装には、より多くの、より少ない、及び／又は異なる種類と数の要素が含まれる場合がある。幾つかの例によると、機器１００は、本願明細書に開示される方法のうちの少なくとも幾つかを実行するよう構成されるスマートオーディオ装置であってよく、又はそれを含んでよい。他の実装では、機器１００は、本願明細書に開示される方法のうちの少なくとも幾つかを実行するよう構成される別の装置、例えばラップトップコンピュータ、セルラ電話機、タブレット装置、スマートホームバブなどであってよく、又はそれを含んでよい。幾つかのそのような実装では、機器１００は、サーバであってよく、又はそれを含んでよい。

本例では、機器１００は、インタフェースシステム１０５及び制御システム１１０を含む。インタフェースシステム１０５は、幾つかの実装では、オーディオデータを受信するように構成されてよい。オーディオデータは、環境の少なくとも幾つかのスピーカによって再生されるようにスケジュールされたオーディオ信号を含むことができる。オーディオデータは、１つ以上のオーディオ信号及び関連する空間データを含むことができる。空間データは、例えば、チャネルデータ及び／又は空間メタデータを含むことができる。インタフェースシステム１０５は、環境のスピーカのセットの少なくとも幾つかのスピーカにレンダリングされたオーディオ信号を提供するように構成することができる。インタフェースシステム１０５は、幾つかの実装では、環境内の１つ以上のマイクロフォンから入力を受信するよう構成されてよい。

インタフェースシステム１０５は、１つ以上のネットワークインタフェース、及び／又は１つ以上の外部装置インタフェース（例えば、１つ以上のＵＳＢ（universal serial bus）インタフェース）を含んでよい。幾つかの実装によると、インタフェースシステム１０５は、１つ以上の無線インタフェースを含んでよい。インタフェースシステム１０５は、１つ以上のマイクロフォン、１つ以上のスピーカ、ディスプレイシステム、タッチセンサシステム、及び／又はジェスチャセンサシステム、のようなユーザインタフェースを実装する１つ以上の装置を含んでよい。幾つかの例では、インタフェースシステム１０５は、制御システム１１０とメモリシステム、例えば図１に示される任意的メモリシステム１１５との間の１つ以上のインタフェースを含んでよい。しかしながら、幾つかの場合に、制御システム１１０は、メモリシステムを含んでよい。

制御システム１１０は、例えば、汎用の単一又は複数チッププロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）、又は他のプログラマブル論理素子、個別ゲート又はトランジスタロジック、及び／又は個別ハードウェアコンポーネント、を含んでよい。

幾つかの実装では、制御システム１１０の機能は１つより多くの装置に存在してよい。例えば、制御システム１１０の部分は、ここに示された環境のうちの１つの中にある装置に存在してよく、制御システム１１０の別の部分は、サーバ、モバイル装置（例えば、スマートフォン、又はタブレットコンピュータ）のような、環境の外部にある装置の中に存在してよい、等である。他の例では、制御システム１１０の一部がここに示されている環境の１つ内の装置に存在し、制御システム１１０の別の部分が環境の１つ以上の他の装置に存在することができる。例えば、制御システムの機能は、環境の複数のスマートオーディオ装置に分散されることもあれば、オーケストレーション装置（ここではスマートホームハブと呼ばれるものなど）と環境の１つ以上の他の装置によって共有されることもある。インタフェースシステム１０５は、また、幾つかのそのような例では、１つより多くの装置に存在してよい。

幾つかの実装では、制御システム１１０は、本願明細書に開示した方法を少なくとも部分的に実行するよう構成されてよい。幾つかの例によれば、制御システム１１０は、複数のスピーカに渡る複数のオーディオストリームの再生を管理する方法を実施するように構成することができる。

本願明細書に記載の方法のうちの一部又は全部は、１つ以上の非一時的媒体に記憶された命令（例えば、ソフトウェア）に従い１つ以上の装置により実行されてよい。そのような非一時的媒体は、限定ではないが、RAM（random access memory）装置、ROM（read-only memory）装置、等を含む、本願明細書で説明されたようなメモリ装置を含んでよい。１つ以上の非一時的媒体は、例えば、図１に示される任意的メモリシステム１１５内に、及び／又は制御システム１１０内に、存在してよい。従って、本開示に記載された主題の種々の新規な態様は、ソフトウェアを記憶された１つ以上の非一時的媒体に実装されてよい。ソフトウェアは、例えば、オーディオデータを処理するよう少なくとも１つの装置を制御するための命令を含んでよい。ソフトウェアは、例えば、図１の制御システム１１０のような制御システムの１つ以上のコンポーネントにより実行可能であってよい。

幾つかの例では、機器１００は、図１に示される任意的なマイクシステム１２０を含んでよい。任意的なマイクシステム１２０は、１つ以上のマイクロフォンを含んでよい。幾つかの実装では、１つ以上のマイクは、スピーカシステムのスピーカ、スマートオーディオ装置などのような別の装置の一部であるか、関連している場合がある。

幾つかの実装によると、機器１００は、図１に示される任意的なスピーカシステム１２５を含んでよい。任意的なスピーカシステム１２５は、１つ以上のスピーカを含んでよい。ラウドスピーカは、本明細書において「スピーカ」と呼ばれることがある。幾つかの実施形態では、オプションのスピーカシステム１２５の少なくとも幾つかのスピーカを任意に配置することができる。例えば、オプションのスピーカシステム１２５の少なくとも幾つかのスピーカは、Dolby５.１、Dolby５.１.２、Dolby７.１、Dolby７.１.４、Dolby９.１、Hamasaki２２.２などの任意の標準で規定されたスピーカレイアウトに対応しない位置に配置されてもよい。このような幾つかの例では、オプションのスピーカシステム１２５の少なくとも幾つかのスピーカは、任意の標準で規定されたスピーカレイアウトではなく、空間にとって便利な位置（例えば、スピーカを収容する空間がある場所）に配置されてもよい。

幾つかの例では、機器１００は、図１に示される任意的なセンサシステム１３０を含んでよい。オプションのセンサシステム１３０は、１つ以上のカメラ、タッチセンサ、ジェスチャセンサ、モーション検出器などを含んでもよい。幾つかの実装によると、任意的なセンサシステム１３０は、１つ以上のカメラを含む場合がある。幾つかの実装では、カメラは独立したカメラである場合がある。幾つかの例では、任意的なセンサシステム１３０の１つ以上のカメラがスマートオーディオ装置に存在する場合があり、これは単一目的のオーディオ装置又は仮想アシスタントである場合がある。幾つかの例では、任意的なセンサシステム１３０の１つ以上のカメラがTV、携帯電話又はスマートスピーカ内に存在する場合がある。

幾つかの例では、機器１００は、図１に示される任意的なディスプレイシステム１３５を含んでよい。任意的なディスプレイシステム１３５は、１つ以上の発光ダイオード（LED）ディスプレイなど、１つ以上のディスプレイを含む場合がある。場合によっては、任意的なディスプレイシステム１３５は、１つ以上の有機発光ダイオード（OLED）ディスプレイを含む場合がある。機器１００がディスプレイシステム１３５を含む幾つかの例では、センサシステム１３０は、ディスプレイシステム１３５の１つ以上のディスプレイに近接するタッチセンサシステム及び／又はジェスチャセンサシステムを含む場合がある。幾つかのそのような実装によれば、制御システム１１０は、本願明細書に開示されたGUIのうちの１つのようなグラフィカルユーザインタフェース（GUI）を提示するようにディスプレイシステム１３５を制御するように構成される場合がある。

幾つかの例によると、機器１００は、スマートオーディオ装置であってよく、又はそれを含んでよい。幾つかのそのような実装では、機器１００は、起動ワード検出器であってよく、又はそれを含んでよい。幾つかの例では、機器１００は、仮想アシスタントであってよく、又はそれを含んでよい。

図２は、本例における生活空間であるリスニング環境の平面図を示す。本願明細書で提供される他の図と同様に、図２に示される要素の数及び種類は、単なる例である。他の実装には、より多くの、より少ない、及び／又は異なる種類と数の要素が含まれる場合がある。この例によると、環境２００は左上にリビングルーム２１０、中央下部にキッチン２１５、右下部に寝室２２２を含む。リビング空間全体に配置されたボックスと円は、スピーカ２０５a～２０５hのセットを表しており、少なくとも一部の実装ではスマートスピーカである可能性があり、空間にとって便利な場所に配置されているが、標準で規定されたレイアウトには準拠していない（任意に配置されている）。幾つかの例では、スピーカ２０５a～２０５hは、１つ以上の開示された実施形態を実装するように調整されてよい。

幾つかの例によると、環境２００は、開示の方法のうちの少なくとも幾つかを実装するスマートホームハブを含んでよい。幾つかのそのような実施例によれば、スマートホームハブは、上述の制御システム１１０の少なくとも一部を含むことができる。幾つかの例では、スマート装置（スマートスピーカ、携帯電話、スマートテレビ、バーチャルアシスタントを実装するために使用される装置など）は、スマートホームハブを実施することができる。

この例では、環境２００は、環境全体に分散されたカメラ２１１a～２１１eを含む。実装によっては、環境２００内の１つ以上のスマートオーディオ装置も、１つ以上のカメラを含む場合がある。１つ以上のスマートオーディオ装置は、単一目的のオーディオ装置又は仮想アシスタントである場合がある。このような例の幾つかでは、任意的なセンサシステム１３０の１つ以上のカメラが、テレビ２３０、携帯電話、又はスピーカ２０５b、２０５d、２０５e、又は２０５hの１つ以上などのスマートスピーカ内に存在する場合がある。カメラ２１１a～２１１eは、本開示で提示された環境２００のすべての描写には示されていないが、それにもかかわらず、環境２００の各々は、幾つかの実装において、１つ以上のカメラを含む場合がある。

フレキシブルレンダリングでは、空間オーディオは、任意の数の任意に配置されたスピーカによりレンダリングされてもよい。家庭におけるスマートオーディオ装置（スマートスピーカなど）の普及に伴い、消費者がスマートオーディオ装置を使用して、オーディオのフレキシブルレンダリング、及びそのようにレンダリングされたオーディオの再生を実行することを可能にするフレキシブルレンダリング技術を実現する必要がある。

フレキシブルレンダリングを実装するために、Center of Mass Amplitude Panning （CMAP）及びFlexible Virtualization （FV）を含む幾つかの技術が開発されている。

スマートオーディオ装置のセットのスマートオーディオ装置によって（又はスピーカの別のセットによって）再生するために、空間オーディオミックスのレンダリング（又はレンダリングと再生）（例えば、オーディオストリーム又は複数のオーディオストリームのレンダリング）を実行するコンテキストでは、（例えば、スマートオーディオ装置内又はスマートオーディオ装置に結合される）スピーカの種類が異なる可能性があり、そのため、スピーカの対応する音響機能が大幅に異なる可能性がある。図２に示す例では、スピーカ２０５d、２０５f、及び２０５hは、単一の０.６インチスピーカを備えたスマートスピーカである。この例では、スピーカ２０５b、２０５c、２０５e、及び２０５fは、２.５インチウーファーと０.８インチツイーターを備えたスマートスピーカである。この例によると、スピーカ２０５gは、５.２５インチウーファー、３つの２インチミッドレンジスピーカ、及び１.０インチツイーターを備えたスマートスピーカである。ここで、スピーカ２０５aは、１６個の１.１インチビームドライバと２つの４インチウーファーを備えたサウンドバーである。従って、スマートスピーカ２０５d及び２０５fの低周波能力は、環境２００内の他のスピーカ、特に４インチ又は５.２５インチウーファーを備えたスピーカの低周波能力よりも著しく低い。

＜幾つかの関連するゾーンベースの方法を含む動的処理の例＞
図３は、本開示の種々の態様を実装可能なシステムのコンポーネントの例を示すブロック図である。本願明細書で提供される他の図と同様に、図３に示される要素の数及び種類は、単なる例である。他の実装には、より多くの、より少ない、及び／又は異なる種類と数の要素が含まれる場合がある。

この実施形態によれば、システム３００は、スマートホームハブ３０５及びスピーカ２０５aから２０５mを含む。この実施形態では、スマートホームハブ３０５は、図１に示され、上述された制御システム１１０のインスタンスを含む。この実装によれば、制御システム１１０は、リスニング環境動的処理構成データモジュール３１０、リスニング環境動的処理モジュール３１５、及びレンダリングモジュール３２０を含む。リスニング環境動的処理構成データモジュール３１０、リスニング環境動的処理モジュール３１５、及びレンダリングモジュール３２０の幾つかの例を以下に説明する。幾つかの実施形態では、レンダリングモジュール３２０’は、レンダリング及びリスニング環境動的処理の両方のために構成されてもよい。

スマートホームハブ３０５とスピーカ２０５aから２０５mの間の矢印によって示唆されるように、スマートホームハブ３０５は、図１に示され、上述されたインタフェースシステム１０５のインスタンスも含む。幾つかの例によれば、スマートホームハブ３０５は、図２に示される環境２００の一部であってもよい。幾つかの例では、スマートホームハブ３０５は、スマートスピーカ、スマートテレビ、携帯電話、ラップトップなどによって実施されてもよい。幾つかの実装では、スマートホームハブ３０５は、ソフトウェアによって、例えばダウンロード可能なソフトウェアアプリケーション又は「アプリ」のソフトウェアによって、実施されてもよい。幾つかの実装では、スマートホームハブ３０５は、モジュール３２０から同じ処理済みオーディオ信号を生成するために、すべてが並列に動作するスピーカ２０５a～mの各々に実装されてもよい。幾つかのそのような実施形態によれば、次に、スピーカの各々において、レンダリングモジュール３２０は、各スピーカ又はスピーカのグループに関連する１つ以上のスピーカフィードを生成し、これらのスピーカフィードを各スピーカ動的処理モジュールに提供してもよい。

幾つかの例では、スピーカ２０５a～２０５mは、図２のスピーカ２０５a～２０５hを含むことができるが、他の例では、スピーカ２０５a～２０５mは、他のスピーカであってもよく、又は他のスピーカを含んでもよい。従って、この例では、システム３００は、M個のスピーカを含み、ここで、Mは２より大きい整数である。

スマートスピーカ、及び他の多くのパワードスピーカは、通常、スピーカの歪みを防止するために、あるタイプの内部動的処理を採用する。このような動的処理に関連することが多いのは、信号レベルが動的に保持される信号限界閾値（例えば、周波数間で変動する限界閾値）である。例えば、Dolby Audio Processing （DAP）オーディオ後処理パッケージの幾つかのアルゴリズムの１つであるDolbyのAudio Regulatorは、このような処理を提供する。幾つかの例では、通常はスマートスピーカの動的処理モジュールを介してではないが、動的処理は、１つ以上のコンプレッサー、ゲート、エキスパンダー、ダッカーなどを適用することも含んでよい。

従って、この例では、スピーカ２０５a～２０５mの各々は、対応するスピーカ動的処理（dynamics processing （DP））モジュールA～Mを含む。スピーカ動的処理モジュールは、リスニング環境の個々のスピーカごとに個々のスピーカ動的処理構成データを適用するように構成される。例えば、スピーカDPモジュールAは、スピーカ２０５aに適した個別スピーカ動的処理構成データを適用するよう構成される。幾つかの例では、個別スピーカ動的処理構成データは、個々のスピーカのより多くの機能の１つ、例えば、特定の周波数範囲内で特定のレベルで顕著な歪みなしにオーディオデータを再生するスピーカの能力に対応することができる。

空間オーディオが、各々が潜在的に異なる再生限界を有する異種スピーカ（例えば、スマートオーディオ装置のスピーカ又はスマートオーディオ装置に結合されたスピーカ）のセットにわたってレンダリングされる場合、全体的なオーディオミックスに対して動的処理を実行する際に注意を払う必要がある。単純な解決策は、参加する各スピーカのスピーカフィードに空間ミックスをレンダリングし、各スピーカに関連付けられた動的処理モジュールが、そのスピーカの限界に従って、対応するスピーカフィードで独立して動作できるようにすることである。

このアプローチは、各スピーカを歪ませないようにする一方で、ミックスの空間バランスを知覚的に混乱するように動的にシフトする可能性がある。例えば、図２を参照して、テレビ番組がテレビ２３０に表示されており、対応するオーディオが環境２００のスピーカによって再生されていると仮定する。テレビ番組の間、固定オブジェクト（工場内の重機ユニットなど）に関連付けられたオーディオが位置２４４にレンダリングされることを意図していると仮定する。更に、スピーカ２０５dに関連付けられた動的処理モジュールが、実質的に低音域のオーディオのレベルを、スピーカ２０５bに関連付けられた動的処理モジュールよりも低下させると仮定する。これは、低音域のサウンドを再生するスピーカ２０５bの能力が実質的に高いためである。固定オブジェクトに関連付けられた信号の音量が変動する場合、音量が高いと、スピーカ２０５dに関連付けられた動的処理モジュールは、スピーカ２０５bに関連付けられた動的処理モジュールが同じオーディオのレベルを低下させるよりも、低音域のオーディオのレベルを実質的に多く低下させる。このレベルの差は、固定オブジェクトの見かけの位置を変化させる。従って、改善された解決策が必要である。

本開示の幾つかの実施形態は、スマートオーディオ装置のセット（例えば、調整されたスマートオーディオ装置のセット）のうちの少なくとも１つの（例えば、すべて又は一部の）スマートオーディオ装置により、及び／又は別のスピーカのセットのうちの少なくとも１つ（例えば、すべて又は一部）のスピーカによる再生のための空間オーディオミックスのレンダリング（又はレンダリング及び再生）（例えば、オーディオストリーム又は複数のオーディオストリームのレンダリング）のためのシステム及び方法である。幾つかの実施形態は、そのようなレンダリング（例えば、スピーカフィードの生成を含む）のための方法（又はシステム）、及びレンダリングされたオーディオの再生（例えば、生成されたスピーカフィードの再生）である。このような実施形態の例は、以下を含む。

オーディオ処理のためのシステム及び方法は、少なくとも２つのスピーカ（例えば、スピーカのセットのうちの全部又は一部のスピーカ）による再生のためのオーディオのレンダリング（例えば、オーディオストリーム又は複数のオーディオストリームをレンダリングすることによって、空間オーディオミックスをレンダリングする）を含むことができ、以下によることを含む：

（a）個々のスピーカの動的処理構成データ（個々のスピーカの限界閾値（再生限界閾値）など）を組み合わせることにより、複数のスピーカのリスニング環境動的処理構成データ（組み合わせ閾値など）を決定する。

（b）複数のスピーカのリスニング環境動的処理構成データ（例えば、組み合わせ閾値）を使用してオーディオ（例えば、空間オーディオミックスを示す１つ以上のオーディオストリーム）に対して動的処理を実行して、処理済みオーディオを生成する。

（c）処理済みオーディオをスピーカフィードにレンダリングする。

幾つかの実装によれば、処理（a）は、図３に示すリスニング環境動的処理構成データモジュール３１０などのモジュールによって実行されてもよい。スマートホームハブ３０５は、インタフェースシステムを介して、M個のスピーカの各々について個別スピーカ動的処理構成データを取得するように構成されてもよい。この実装では、個別スピーカ動的処理構成データは、複数のスピーカの各スピーカについての個別スピーカ動的処理構成データセットを含む。幾つかの例によれば、１つ以上のスピーカについての個別スピーカ動的処理構成データは、１つ以上のスピーカの１つ以上の機能に対応してもよい。この例では、個別スピーカ動的処理構成データセットの各々は、少なくとも１つのタイプの動的処理構成データを含む。幾つかの例では、スマートホームハブ３０５は、スピーカ２０５a～２０５mの各々にクエリすることによって、個別スピーカ動的処理構成データセットを取得するように構成することができる。他の実装では、スマートホームハブ３０５は、メモリに格納されている、以前に取得された個別スピーカ動的処理構成データセットのデータ構造をクエリすることによって、個別スピーカ動的処理構成データセットを取得するように構成することができる。

幾つかの例では、処理（b）は、図３のリスニング環境動的処理モジュール３１５などのモジュールによって実行されてもよい。処理（a）及び（b）の幾つかの詳細な例を以下に説明する。

幾つかの例では、処理（c）のレンダリングは、図３のレンダリングモジュール３２０又はレンダリングモジュール３２０’などのモジュールによって実行されてもよい。幾つかの実施形態では、オーディオ処理は以下を含んでよい。

（d）各スピーカの個別スピーカ動的処理構成データに従って、レンダリング済みオーディオ信号に対して動的処理を実行する（例えば、対応するスピーカに関連する再生限界閾値に従ってスピーカフィードを制限し、それによって制限されたスピーカフィードを生成する）。処理（d）は、例えば、図３に示す動的処理モジュールA～Mによって実行することができる。

スピーカは、スマートオーディオ装置のセットのうち少なくとも１つ（例えば、すべて又は一部）のスマートオーディオ装置の（又はそれに結合された）スピーカを含むことができる。幾つかの実装では、ステップ（d）で制限されたスピーカフィードを生成するために、ステップ（c）で生成されたスピーカフィードは、例えば、スピーカ上での最終的な再生の前にスピーカフィードを生成するために、第２段階の動的処理によって（例えば、各スピーカの関連する動的処理システムによって）処理することができる。例えば、スピーカフィード（又はそのサブセット又は部分）は、スピーカのうちの各々の異なる１つのスピーカの動的処理システム（例えば、スマートオーディオ装置の動的処理サブシステムであって、スマートオーディオ装置がスピーカのうちの関連する１つのスピーカを含むか又はそれに結合されている、動的処理サブシステム）に提供されてもよく、各前記動的処理システムからの処理済みオーディオ出力は、スピーカのうちの関連する１つのスピーカのスピーカフィードを生成するために使用されてもよい。スピーカ固有の動的処理（つまり、各スピーカに対して独立して実行される動的処理）に続いて、処理済み（例えば、動的に制限された）スピーカフィードは、スピーカを駆動して音の再生を引き起こすために使用されてもよい。

（ステップ（b）における）第１段階の動的処理は、ステップ（a）及び（b）が省略された場合に生じ得る空間バランスの知覚的に混乱するシフトを低減するように設計されてもよく、ステップ（d）から生じる動的処理された（例えば、制限された）スピーカフィードは、（ステップ（b）で生成された処理済みオーディオに応答するのではなく）元のオーディオに応答して生成されてもよい。これは、ミックスの空間バランスにおける望ましくないシフトを防止できる。ステップ（b）の動的処理は、信号レベルがすべてのスピーカの閾値未満に低減されたことを必ずしも保証しない場合があるので、ステップ（c）からのレンダリングされたスピーカフィードに対して動作する第２段階の動的処理は、スピーカが歪まないことを保証するように設計されてもよい。個別スピーカ動的処理構成データの組み合わせ（例えば、第１段階（ステップ（a）における閾値の組み合わせ）は、幾つかの例では、スピーカ全体にわたって（例えば、スマートオーディオ装置間で）個別スピーカ動的処理構成データ（例えば限界閾値）を平均化するステップ、又はスピーカ全体にわたって（例えば、スマートオーディオ装置間で）個別スピーカ動的処理構成データ（例えば限界閾値）の最小値を取るステップを含んでもよい。

幾つかの実施形態では、第１段階の動的処理（ステップ（b））が空間ミックスを示すオーディオ（例えば、少なくとも１つのオブジェクトチャネル及び任意的に少なくとも１つのスピーカチャネルを更に含む、オブジェクトベースのオーディオプログラムのオーディオ）に対して動作する場合、この第１段階は、空間ゾーンの使用によるオーディオオブジェクト処理の技術に従って実施されてもよい。このような場合、各ゾーンに関連付けられた組み合わされた個別スピーカ動的処理構成データ（例えば、組み合わされた限界閾値）は、個別スピーカ動的処理構成データ（例えば、個別スピーカ限界閾値）の加重平均によって（又はそれとして）導出されてもよく、この加重は、少なくとも部分的に、各スピーカのゾーンへの空間的近接及び／又はゾーン内の位置によって与えられるか、又は決定されてもよい。

例示的な実施形態では、複数のM個のスピーカ（M≧２）を想定し、各スピーカは変数iによってインデックス付けされる。各スピーカiに関連付けられているのは、周波数可変再生限界閾値T_i[f]であり、変数fは、閾値が指定される有限の周波数セットへのインデックスを表す（周波数セットのサイズが１である場合、対応する単一の閾値は、周波数範囲全体に適用される広帯域と考えられることに注意する）。この例によれば、これらの閾値は、スピーカが歪むことを防止したり、スピーカがその付近で好ましくないと考えられるレベルを超えて再生することを防止したりするなどの特定の目的のために、オーディオ信号を閾値T_i[f]未満に制限するために、各々の独立した動的処理機能において各スピーカによって利用される。

図４A、４B、及び４Cは、再生限界閾値及び対応する周波数の例を示す。示されている周波数の範囲は、例えば、平均的な人間に聞こえる周波数の範囲に及ぶことができる（例えば、２０Hz～２０kHz）。これらの例では、再生限界閾値は、グラフ４００a、４００b及び４００cの縦軸によって示されており、これらの例では「レベル閾値」とラベル付けされている。再生限界／レベル閾値は、縦軸上の矢印の方向に増加する。再生限界／レベル閾値は、例えば、デシベルで表すことができる。これらの例では、グラフ４００a、４００b及び４００cの横軸は、横軸上の矢印の方向に増加する周波数を示す。曲線４００a、４００b及び４００cによって示される再生限界閾値は、例えば、個々のスピーカの動的処理モジュールによって実装することができる。

図４Aのグラフ４００aは、周波数の関数としての再生限界閾値の第１例を示す。曲線４０５aは、対応する各周波数値の再生限界閾値を示す。この例では、低音周波数f_bにおいて、入力レベルT_iで受信された入力オーディオは、出力レベルT_oで動的処理モジュールによって出力される。低音周波数f_bは、例えば、６０～２５０Hzの範囲であってもよい。しかし、この例では、高音周波数f_tにおいて、入力レベルT_iで受信された入力オーディオは、同じレベルのレベルT_iで動的処理モジュールによって出力される。高音周波数f_tは、例えば、１２８０Hzより高い範囲であってもよい。従って、この例では、曲線４０５aは、高音周波数よりも低音周波数に対して有意に低い閾値を適用する動的処理モジュールに対応する。このような動的処理モジュールは、ウーファーを持たないスピーカ（例えば、図２のスピーカ２０５d）に適していてもよい。

図４Bの曲線４００bは、周波数の関数としての再生限界閾値の第２例を示す。曲線４０５bは、図１Aに示す同じ低音周波数f_bで、入力レベルT_iで受信された入力オーディオが、出力レベルT_oで動的処理モジュールによって出力されることを示す。従って、この例では、曲線４０５bは、曲線４０５aよりも低音周波数に対して低い閾値を適用しない動的処理モジュールに対応する。このような動的処理モジュールは、少なくとも小さなウーファーを持つスピーカ（例えば、図２のスピーカ２０５b）に適していてもよい。

図４Cのグラフ４００cは、周波数の関数としての再生限界閾値の第３例を示す。曲線４０５c（この例では直線である）は、図１Aに示す同じ低音周波数f_bで、入力レベルT_iで受信された入力オーディオが、同じレベルで動的処理モジュールによって出力されることを示す。従って、この例では、曲線４０５cは、低音周波数を含む広範囲の周波数を再生することができるスピーカに適している動的処理モジュールに対応してよい。簡略化のために、動的処理モジュールは、示されたすべての周波数に同じ閾値を適用する曲線４０５dを実装することによって、曲線４０５cを近似することができることがわかるだろう。

空間オーディオミックスは、Center of Mass Amplitude Panning （CMAP）又はFlexible Virtualization （FV）.などの既知のレンダリングシステムを使用して、複数のスピーカのためにレンダリングすることができる。空間オーディオミックスの構成要素から、レンダリングシステムは、複数のスピーカの各々に対してスピーカフィードを生成する。幾つかの以前の例では、スピーカフィードは、閾値T_i[f]を持つ各スピーカの関連する動的処理関数によって独立して処理された。本開示の利益がない場合、この説明されたレンダリングシナリオは、レンダリングされた空間オーディオミックスの知覚空間バランスに混乱するようなシフトをもたらす可能性がある。例えば、M個のスピーカの１つ、例えばリスニングエリアの右側にあるスピーカは、他のスピーカよりもはるかに能力（例えば、低音域でのオーディオのレンダリングの能力）が低い可能性があり、従って、そのスピーカの閾値T_i[f]は、少なくとも特定の周波数範囲において、他のスピーカの閾値よりも著しく低い可能性がある。再生中、このスピーカの動的処理モジュールは、左側のコンポーネントよりも右側の空間ミックスのコンポーネントのレベルを著しく低下させる。リスナーは、空間ミックスの左右のバランスの間のこのような動的シフトに非常に敏感であり、その結果は非常に混乱すると感じるかもしれない。

この問題に対処するために、幾つかの例では、リスニング環境の個々のスピーカの個々のスピーカ動的処理構成データ（例えば、再生限界閾値）を組み合わせて、リスニング環境のすべてのスピーカのリスニング環境動的処理構成データを作成する。次に、リスニング環境動的処理構成データを利用して、スピーカフィードにレンダリングする前に、空間オーディオミックス全体のコンテキストで動的処理を最初に実行することができる。この第１段階の動的処理は、１つの独立したスピーカフィードとは対照的に、空間ミックス全体にアクセスできるので、ミックスの知覚空間バランスに混乱するようなシフトを与えない方法で処理を実行することができる。個々のスピーカ動的処理構成データ（例えば、再生限界閾値）は、個々のスピーカの独立した動的処理機能のいずれかによって実行される動的処理の量を排除又は削減する方法で組み合わせることができる。

リスニング環境動的処理構成データを決定する１つの例では、個々のスピーカの個々のスピーカ動的処理構成データ（例えば、再生限界閾値）は、第１段階の動的処理で空間ミックスのすべてのコンポーネントに適用されるリスニング環境動的処理構成データの１つのセットに組み合わせることができる。例えば、以下の周波数的に変化する再生限界閾値：
このような幾つかの例によれば、制限がすべてのコンポーネントで同じであるため、ミックスの空間バランスを維持することができる。個々のスピーカ動的処理構成データ（例えば、再生限界閾値）を組み合わせる１つの方法は、すべてのスピーカiにわたって最小値を取ることである：

このような組み合わせは、空間ミックスが最初にすべての周波数で最も能力の低いスピーカの閾値以下に制限されるため、各スピーカの個々の動的処理の動作を本質的に排除する。しかしながら、このような戦略は過度に積極的である可能性がある。多くのスピーカがそれらの能力よりも低いレベルで再生している可能性があり、すべてのスピーカの結合再生レベルは好ましくないほど低い可能性がある。例えば、図４Aに示す低音域の閾値が図４Cの閾値に対応するスピーカに適用された場合、後者のスピーカの再生レベルは低音域で不必要に低くなる。リスニング環境の動的処理構成データを決定する別の組み合わせは、リスニング環境のすべてのスピーカに渡り個々のスピーカの動的処理構成データの平均（mean、average）を取ることである。例えば、再生限界閾値のコンテキストでは、平均は次のように決定することができる。

この組み合わせでは、第１段階の動的処理がより高いレベルに制限されるため、全体的な再生レベルは最小値を取る場合と比較して増加する可能性がある。これにより、より能力の高いスピーカがより大きな音量で再生できるようになる。個々の限界閾値が平均値を下回るスピーカの場合、それらの独立した動的処理機能は、必要に応じて関連するスピーカフィードを依然として制限する可能性がある。ただし、第１段階の動的処理では、空間ミックスに対して幾つかの初期制限が実行されているため、この制限の要件が軽減されている可能性がある。

リスニング環境の動的処理構成データを決定する幾つかの例によれば、チューニングパラメータを介して個々のスピーカの動的処理構成データの最小値と平均値の間を補間する調整可能な組み合わせを作成することができる。例えば、再生限界閾値のコンテキストでは、補間は次のように決定することができる。

個々のスピーカ動力学処理構成データの他の組み合わせが可能であり、本開示は、そのような組み合わせの全てをカバーすることを意味する。

図５A及び５Bは、ダイナミックレンジ圧縮データの例を示すグラフである。グラフ５００a及び５００bでは、デシベル単位の入力信号レベルが横軸に示され、デシベル単位の出力信号レベルが縦軸に示されている。他の開示された例と同様に、特定の閾値、比率及び他の値は、単に例として示されており、限定するものではない。

図５Aに示された例では、出力信号レベルは、この例では-１０dBである閾値を下回る入力信号レベルと等しい。他の例は、例えば、-２０dB、-１８dB、-１６dB、-１４dB、-１２dB、-８dB、-６dB、-４dB、-２dB、０dB、２dB、４dB、６dBなどの異なる閾値を含むことができる。閾値より上では、圧縮比の様々な例が示されている。N：１の比率は、閾値より上では、入力信号がNdB増加するごとに出力信号レベルが１dB増加することを意味する。例えば、１０：１の圧縮比率（線５０５e）は、閾値より上では、入力信号が１０dB増加するごとに出力信号レベルが１dBしか増加しないことを意味する。１：１の圧縮比（線５０５a）は、閾値より上でも、出力信号レベルが入力信号レベルと等しいままであることを意味する。線５０５b、５０５c、及び５０５dは、３：２、２：１、及び５：１の圧縮比に対応する。他の実装は、２．５：１、３：１、３．５：１、４：３、４：１などのように、異なる圧縮比を提供することができる。

図５Bは、この例では０dBである閾値で又はその付近で、圧縮比がどのように変化するかを制御する「knee」の例を示している。この例によると、「硬い」knee（膝）を持つ圧縮曲線は、２つの直線セグメント、つまり閾値までの線分５１０aと閾値より上の線分５１０bで構成されている。硬い膝は実装が簡単であるが、アーチファクトを引き起こす可能性がある。

図５Bには、「柔らかい」knee（膝）の一例も示されている。この例では、柔らかい膝は１０dBに及ぶ。この実装によれば、１０dBの範囲の上下では、柔らかい膝を有する圧縮曲線の圧縮比は、硬い膝を有する圧縮曲線の圧縮比と同じである。他の実装は、「柔らかい」膝の様々な他の形状を提供することができ、それらは、より多くのデシベル又はより少ないデシベルに及ぶことができ、その範囲の上の異なる圧縮比を示すことができる、などである。

他のタイプのダイナミックレンジ圧縮データは、「アタック」データ及び「リリース」データを含むことができる。アタックは、圧縮比によって決定されるゲインに到達するために、例えば、入力における増加したレベルに応答して、圧縮器がゲインを減少させる期間である。圧縮器のアタック時間は、一般に２５ミリ秒から５００ミリ秒の範囲であるが、他のアタック時間も実現可能である。リリースは、圧縮比によって決定される出力ゲイン（入力レベルが閾値を下回った場合には入力レベル）に到達するために、例えば入力におけるレベルの低下に応答して、圧縮器がゲインを増加させている期間である。リリース時間は、例えば、２５ミリ秒から２秒の範囲であってもよい。

従って、幾つかの例では、個々のスピーカ動的処理構成データは、複数のスピーカの各スピーカについて、ダイナミックレンジ圧縮データセットを含んでもよい。ダイナミックレンジ圧縮データセットは、閾値データ、入力／出力比データ、アタックデータ、リリースデータ及び／又はkneeデータを含んでもよい。これらのタイプの個々のスピーカ動的処理構成データの１つ以上を組み合わせて、リスニング環境動的処理構成データを決定してもよい。再生限界閾値の組み合わせに関して上述したように、幾つかの例では、ダイナミックレンジ圧縮データを平均化して、リスニング環境動的処理構成データを決定してもよい。幾つかの例では、ダイナミックレンジ圧縮データの最小値又は最大値を使用して、リスニング環境動的処理構成データ（例えば、最大圧縮比）を決定してもよい。他の実装では、個々のスピーカ動的処理のためのダイナミックレンジ圧縮データの最小値と平均値の間を補間する調整可能な組み合わせを、例えば、式（C）を参照して上述したような調整パラメータを介して作成してもよい。

上述した幾つかの例では、第１段階の動的処理で、リスニング環境動的処理構成データの単一セット（例えば、以下の結合された閾値の単一のセット）が空間ミックスのすべてのコンポーネントに適用される：
このような実装は、ミックスの空間バランスを維持することができるが、他の望ましくないアーチファクトを与える可能性がある。例えば、「空間ダッキング」は、孤立した空間領域の空間ミックスの非常に大きな音量の部分が調整されるミックス全体を下げたときに発生する可能性がある。この大きな音量のコンポーネントから空間的に離れた、ミックスの他の穏やかなコンポーネントは、不自然に穏やかであると認識される可能性がある。例えば、穏やかなバックグラウンドミュージックは、結合された閾値：
よりも低いレベルで空間ミックスのサラウンドフィールドで再生される可能性がある。従って、第１段階の動的処理によっては、空間ミックスの制限は実行されない。次に、大きな銃声が空間ミックスのフロントに瞬間的に導入され（例えば映画のサウンドトラックのスクリーン上）、ミックスの全体的なレベルが結合された閾値を超えて増加する可能性がある。この時点で、第１段階の動的処理は、ミックス全体のレベルを以下の閾値よりも低くする：
音楽は銃声から空間的に分離されているため、これは音楽の連続ストリームで不自然にダッキングしていると認識される可能性がある。

＜ゾーンベースの方法の例＞
このような問題に対処するために、一部の実装では、空間ミックスの様々な「空間ゾーン」に対して独立又は部分的に独立した動的処理を許可している。空間ゾーンは、空間ミックス全体がレンダリングされる空間領域のサブセットと見なすことができる。次の説明では、再生限界閾値に基づく動的処理の例を示すが、この概念は、他の種類の個々のスピーカ動的処理構成データとリスニング環境動的処理構成データにも同様に適用される。

図６は、リスニング環境の空間ゾーンの例を示す。図６は、３つの空間ゾーン：つまりフロント、センタ、及びサラウンドに細分化された空間ミックス（正方形全体で表される）の領域の例を示している。他の例には、より多くの空間ゾーン、より少ない空間ゾーン、異なる空間ゾーン、又はそれらの組み合わせを含めることができる。例えば、幾つかの例には、１つ以上のオーバヘッドゾーンを含めることができる。

図６の空間ゾーンは明確な境界で示されるが、実際には、１つの空間ゾーンから別の空間ゾーンへの遷移を連続的に扱うことが有益である。例えば、正方形の左端の中央に位置する空間ミックスのコンポーネントは、そのレベルの半分をフロントゾーンに割り当て、半分をサラウンドゾーンに割り当てることができる。空間ミックスの各コンポーネントからの信号レベルは、この連続的な方法で各空間ゾーンに割り当てられ、蓄積される。動的処理関数は、ミックスから割り当てられた全体的な信号レベルで、各空間ゾーンに対して独立して動作することができる。次に、空間ミックスの各コンポーネントについて、各空間ゾーンからの動的処理の結果（例えば周波数当たりの時間変動利得）を組み合わせて、コンポーネントに適用することができる。幾つかの例では、空間ゾーンの結果のこの組み合わせは、コンポーネントごとに異なり、その特定のコンポーネントの各ゾーンへの割り当ての関数である。最終的な結果として、同様の空間ゾーン割り当てを持つ空間ミックスのコンポーネントは、同様の動的処理を受けるが、空間ゾーン間の独立性は許容される。空間ゾーンは、（例えば、記述された空間ダッキングのような他のアーチファクトを低減するための）幾らかの空間的に独立した処理を可能にしながら、左右の不均衡のような好ましくない空間シフトを防止するために有利に選択され得る。

空間ゾーンによって空間ミックスを処理するための技術は、有利には、上記で参照される第１段階の又は複数の段階の動的処理（例えば、段階（a）、段階（b）、又はその両方）で使用され得る。例えば、スピーカi全体にわたる個々のスピーカ動的処理構成データ（例えば、再生限界閾値）の異なる組み合わせが、各空間ゾーンについて計算され得る。結合されたゾーン閾値のセットは、次式によって表され得る：
ここで、インデックスjは、複数の空間ゾーンの１つを指す。動的処理モジュールは、関連する閾値：
を有して、各空間ゾーンについて独立して動作してよく、結果は、上記の技術に従って、空間ミックスの構成コンポーネントに適用され得る。

空間信号が、各々が関連する所望の空間位置（時間により変化する可能性がある）を有する、合計K個の個々の構成信号x_k[t]から構成されるものとしてレンダリングされることを考える。ゾーン処理を実施するための１つの特定の方法は、ゾーンの位置に対するオーディオ信号の所望の空間位置の関数として、各オーディオ信号x_k[t]がゾーンjにどの程度寄与するかを記述する時間変動パンニングゲインα_kj[t]を計算することを含む。これらのパンニングゲインは、ゲインの二乗の合計が１に等しいことを要求する電力保存パンニング則に従うように有利に設計され得る。これらのパンニングゲインから、ゾーン信号s_j[t]は、そのゾーンのパンニングゲインによって重み付けされた構成信号の合計として計算され得る：

各ゾーン信号s_j[t]は、ゾーン閾値：
によってパラメータ化された動的処理関数DPによって独立して処理され、周波数及び時間変動ゾーン修正ゲインG_jを生成する：

周波数及び時間変動修正ゲインは、ゾーンに対する信号のパンニングゲインに比例するゾーン修正ゲインを組み合わせることによって、各個々の構成信号x_k[t]について計算することができる：

これらの信号修正ゲインG_kは、次に、例えばフィルタバンクを使用して、動的処理された構成信号x^_k[t]を生成するために、各構成信号に適用することができる。構成信号x^_k[t]は後にスピーカ信号へとレンダリングされてよい。

各空間ゾーンに対する個々のスピーカ動的処理構成データ（スピーカ再生限界閾値など）の組み合わせは、様々な方法で実行することができる。一例として、空間ゾーン再生限界閾値：
は、空間ゾーン及びスピーカ依存重み付けw_ij[f]を使用して、スピーカ再生限界閾値T_i[f]の加重和として計算することができる：

同様の重み付け関数は、他のタイプの個々のスピーカ動的処理構成データに適用することができる。有利なことに、空間ゾーンの結合された個々のスピーカ動的処理構成データ（例えば、再生限界閾値）は、その空間ゾーンに関連する空間ミックスのコンポーネントを再生することを主に担当するスピーカの個々のスピーカ動的処理構成データ（例えば、再生限界閾値）にバイアスをかけることができる。これは、周波数fに対してそのゾーンに関連する空間ミックスのコンポーネントをレンダリングすることを担当する各スピーカの関数として、重みw_ij[f]を設定することによって達成することができる。

図７は、図６の空間ゾーン内のスピーカの例を示す。図７は、図６と同じゾーンを示すが、空間ミックスのレンダリングを担当する５つの例示的なスピーカ（スピーカ１、２、３、４、５）の位置がオーバーレイされている。この例では、スピーカ１、２、３、４、及び５はひし形で表されている。この特定の例では、スピーカ１はセンタゾーン、スピーカ２と５はフロントゾーン、スピーカ３と４はサラウンドゾーンのレンダリングを主に担当する。スピーカから空間ゾーンへのこの概念的な１対１のマッピングに基づいて重みw_ij[f]を作成することもできるが、空間ミックスの空間ゾーンベースの処理と同様に、より連続的なマッピングが好ましい場合がある。例えば、スピーカ４はフロントゾーンに非常に近く、スピーカ４と５の間に配置されたオーディオミックスのコンポーネントは（概念的なフロントゾーンにあるが）、スピーカ４と５の組み合わせによって主に再生される可能性がある。そのため、スピーカ４の個々のスピーカ動的処理構成データ（例えば、再生限界閾値）が、フロントゾーンとサラウンドゾーンの結合された個々のスピーカ動的処理構成データ（例えば、再生限界閾値）に貢献することは理にかなっている。

この連続的なマッピングを実現する１つの方法は、重みw_ij[f]を、空間ゾーンjに関連付けられたコンポーネントをレンダリングする際に、各スピーカiの相対的な貢献度を記述するスピーカ参加値に等しく設定することである。このような値は、（例えば、上述のステップ（c）からの）スピーカへのレンダリングを担当するレンダリングシステムと、各空間ゾーンに関連付けられている１つ以上の公称空間位置のセットから直接導出することができる。この公称空間位置のセットには、各空間ゾーン内の位置のセットを含めることができる。

図８は、図７の空間ゾーンとスピーカに重ねられた公称空間位置の例を示す。公称位置は、番号付きの円で示されている。フロントゾーンに関連付けられている２つの位置は、正方形の上部角にあり、サラウンドゾーンに関連付けられている２つの位置は、正方形の下部角にある。

空間ゾーンのスピーカの参加値を計算するには、ゾーンに関連付けられている公称位置の各々をレンダラを介してレンダリングして、その位置に関連付けられているスピーカの活性化を生じることができる。これらの活性化は、例えば、CMAPの場合には各スピーカのゲインであってもよく、FVの場合には各スピーカの所与の周波数における複素値であってもよい。次に、各スピーカ及びゾーンについて、これらの活性化は、空間ゾーンに関連する公称位置の各々にわたって累積されて、値g_ij[f]を生成することができる。この値は、空間ゾーンjに関連する公称位置のセット全体をレンダリングするためのスピーカiの総活性化を表す。最後に、空間ゾーンにおけるスピーカ参加値は、スピーカ全体にわたるこれらの累積活性化のすべての合計によって正規化された累積活性化g_ij[f]として計算されてもよい。次に、重みが、このスピーカ参加値に設定されてもよい。

説明された正規化は、すべてのスピーカiにわたるw_ij[f]の合計が１に等しいことを保証し、これは式（G）の重みにとって望ましい特性である。

幾つかの実装によれば、スピーカ参加値を計算し、これらの値の関数として閾値を結合するための上記のプロセスは、静的プロセスとして実行されてもよく、結果として得られる結合した閾値は、環境内のスピーカのレイアウト及び能力を決定するセットアップ手順中に１回計算される。このようなシステムでは、セットアップ後、個々のスピーカの動的処理構成データと、レンダリングアルゴリズムが所望のオーディオ信号位置の関数としてスピーカを活性化する方法の両方が静的なままであると想定されてもよい。ただし、特定のシステムでは、これらの側面の両方が、例えば、再生環境における変化する条件に応じて、時間の経過とともに変化する可能性があり、そのような変化を考慮するために、連続的又はイベントによってトリガされる方法のいずれかで、上記のプロセスに従って結合した閾値を更新することが望ましい場合がある。

＜effort信号を含むオーディオ信号コンポーネントのマッピングの例＞
空間オーディオミックスのコンポーネント信号の時間的及び周波数的に変化するマッピングは、ここではオーディオオブジェクトとも呼ばれ、一般に次の式で表すことができる：

ここで、変数t及びfは、オーディオオブジェクト信号O_i、スピーカ信号S_j、及びオブジェクトiからスピーカ信号jへのマッピングH_ijの時間及び周波数変動を表す。オーディオオブジェクトの数は、N_oによって与えられ、N_o≧２であり、スピーカ信号の数は、N_sによって与えられ、N_s≧２である。マッピングH_ijは、直交ミラーフィルタ（quadrature mirror filter （QMF））又は短時間フーリエ変換（short-time Fourier transform （STFT））のようなフィルタバンクの個々のバンドに適用される実又は複素の時変ゲイン、時間ドメインにおいてオーディオオブジェクトに適用される時変有限インパルス応答（finite impulse response （FIR））フィルタ又は時変無限インパルス応答（infinite impulse response （IIR））フィルタなど、その形態及び適用が多数の形態をとることができる時変フィルタとして一般的に考えることができる。

この例によれば、各オーディオオブジェクト信号O_iに関連付けられているのは、時間とともに変化し得る以下の意図された知覚空間位置である：
一例として、このような位置は、Dolby Atmos（商標）空間オーディオミックスの一部であるオーディオオブジェクトの時変３D（x,y,z）メタデータに対応し得る。別の例では、オーディオオブジェクト信号は、Dolby５.１信号などのマルチチャネル信号内のチャネルに対応してよく、所望の位置は固定されてよい。いずれの場合も、意図された知覚空間位置：
は、オーディオコンテンツ作成者によって選択され得る。この例では、各スピーカ信号S_jに関連付けられているのは、スピーカの仮定された物理的位置：
であり、セット
は、スピーカk=１．．N_sのすべてのスピーカ位置を表す。

所与のオーディオオブジェクト信号i及びスピーカjについて、信号E_ij（f,t）は、スピーカjの最大再生限界に対するオブジェクトiに関連付けられたスピーカ信号レベルの時間及び周波数の変化する表現を表す。簡潔にするために、これを以降、effort信号と呼ぶ。effort信号のレベルが増加すると、これは、スピーカj上のオブジェクトiのレンダリングが、スピーカjがその再生限界閾値に近づくか、又はそれを超える結果となることを示す。集合{E_ik（f,t）}は、すべてのスピーカk=１．．．N_sに対するオブジェクトiに関連するeffort信号を表す。

マッピングH_ijの計算は、次に、オブジェクト位置の集合：
スピーカ位置の集合：
及びeffort信号の集合：{E_ik（f,t）}の関数として、例えば以下のように計算することができる：

この例では、マッピング関数M_jは、すべてのスピーカ信号にわたるマッピングH_ijを計算し、すべてのスピーカ信号が所定の位置：
に位置するスピーカ上で同時に再生されるときに、オーディオオブジェクトO_iの知覚空間位置を
にほぼ一致させることを目標とする。つまり、各マッピングは、スピーカ信号が関連付けられたスピーカ位置に位置する２つ以上の対応するスピーカ上で再生されるときに、関連付けられたオーディオ信号の意図された知覚空間位置をほぼ達成するように計算される。幾つかの例では、関連するオーディオ信号の意図された知覚空間位置をほぼ達成することは、利用可能なスピーカ及び関連するスピーカ位置が与えられた場合に、知覚空間位置と意図された知覚空間位置との差を最小化することを含むことができる。更に、この例では、この近似を達成することは、effort信号によって課される動作制約に従う。固定されたオブジェクト位置については、effort信号E_ij（f,t）がある閾値μ_jを超えて増加するにつれてマッピングH_ijが減少するべきであり、同時に、マッピングH_ikは、それらのeffort信号が閾値μ_k未満である１つ以上の他のスピーカkについて増加するべきである。この動作は、時間の２つの瞬間t_１及びt_２で議論された量を考慮することによって、より正確に記述することができる：

上記の数学的に記述された動作は、幾つかの例では、空間ミックスのレベルが特定のスピーカの再生限界閾値に近づくと、空間ミックスレベルが他のスピーカの限界閾値から更に離れている他のスピーカへのマッピングを増加させるために、そのスピーカへのコンポーネントのマッピングが削減されるという高レベルの考えをカプセル化する。

一般に、上述の周波数変動マッピングは、可聴周波数範囲全体にわたって実施され、人間の知覚に見合った周波数分解能を採用することができる。例えば、一実施形態では、マッピングは、約２ERB（Equivalent Rectang ular Bandwidth）の分解能を有する２０の離散周波数帯域について計算され得る。このような間隔を利用することは、システムの知覚的透明性を維持するのに役立つ。

しかしながら、他の実施形態では、スピーカの利用可能な周波数範囲のサブセットにわたってのみ動的マッピングを計算することが有利であり得る。例えば、動的マッピングは、スピーカの能力に差異が存在し得る範囲である５００Hzなどの閾値周波数よりも低い周波数についてのみ計算され得る。５００Hzより上で又は別の閾値より上で、幾つかの例においてすべてのスピーカが同等に能力を有し得る場合、マッピングは、幾つかのそのような例において信号レベルとは無関係であり得る。

幾つかの例によれば、関連するオーディオ信号の意図された知覚空間位置を「ほぼ達成すること」は、コスト関数を最小化することを含む。幾つかのそのような例において、式２aによって記述されるマッピングは、コスト関数最小化の１つとして、すべてのスピーカ信号が所与の位置
に位置するスピーカ上で同時に再生されるときに、オーディオオブジェクトO_iの知覚空間位置を
にほぼ一致させるという目標を扱うことによって有利に達成され得る。幾つかのこのような例によると、コスト関数は、以下のように表されてよい：

式２bにおいて、C（g）は、スピーカ活性化のN_s次元ベクトルを表すgの関数としてコストCを表す。式２bでは、集合：
はN_s個のスピーカのセットの位置を表し、
はオーディオ信号の所望の知覚空間位置を表す。この例では、式２bの第１項であるC_spatialは、オーディオオブジェクトをスピーカ信号にマッピングする関数として、所望の空間的印象がどの程度厳密に達成されるかをモデル化し、第２項の項C_proximityは、各スピーカを活性化するためのコストを割り当てる。項C_proximityの１つの目的は、オブジェクト信号の意図された空間位置に近いスピーカのみが活性化されるスパース（sparse）なソリューションを作成することである。この例によると、コスト関数には、活性化ペナルティに対する１つ以上の追加の動的に構成可能な項が含まれており、他の多数の制御に応答して空間レンダリングを変更できる。式２bでは、以下の項：
はこれらの追加のコスト項を表し、以下の項：
はレンダリングされるオーディオ信号（例えばオブジェクトベースのオーディオプログラム）の１つ以上のプロパティのセットを表し、以下の項：
はオーディオがレンダリングされるスピーカの１つ以上のプロパティのセットを表し、{e^}は１つ以上の追加の外部入力を表す。各項：
は、集合：
によって一般的に表される、オーディオ信号、スピーカ、及び／又は外部入力の１つ以上のプロパティの組み合わせに関連する活性化gの関数としてコストを返す。幾つかの例では、集合：
は、以下：
のいずれかからの少なくとも１つの要素のみを含む。

{o^}の例は限定ではないが以下を含む：
・オーディオ信号の所望の知覚空間位置、
・オーディオ信号のレベル（時間的に変化する可能性がある）、及び／又は、
・オーディオ信号のスペクトル（時間的に変化する可能性がある）。

{s_k^}の例は限定ではないが以下を含む：
・リスニング空間内のスピーカの位置、
・スピーカの周波数応答、
・スピーカの再生レベル限界、
・リミッターのゲインなど、スピーカ内の動的処理アルゴリズムのパラメータ、
・各スピーカから他のスピーカへの音響伝達の測定又は推定、
・スピーカのエコーキャンセラ性能の測定、及び／又は、
・スピーカ間の相対的な同期。

{e^}の例は限定ではないが以下を含む：
・再生空間内の１つ以上のリスナー又は話者の位置、
・各スピーカからリスニング位置への音響伝達の測定又は推定、
・話者からスピーカのセットへの音響伝達の測定又は推定、
・再生空間内の何からの他のランドマークの位置、及び／又は、
・各スピーカから再生空間内の何からの他のランドマークへの音響伝達の測定又は推定。

effort信号E_ij（f,t）を式２bのスピーカごとの活性化ペナルティにマッピングすることにより、マッピング関数M_jの前述の目標は、個々のオーディオオブジェクトiごとにすべてのスピーカj=１．．．N_sにわたってマッピングH_ijを同時に最適化する処理で実現することができる。より具体的には、任意の特定の周波数f、時間t、及びオブジェクト信号iについて、以下の通りである：

effort信号E_ij（f,t）が最大再生限界に関するスピーカ信号レベルを表すことができる正確な方法は様々であり、本発明者らは多くの可能なオプションを検討している。幾つかの実施形態では、effort信号は、リミッタへの入力又はリミッタからの出力のいずれかであるデジタルレベルであってもよく、又はそれに対応してもよい。他の実施形態では、effort信号は、リミッタによって適用される実際のゲインであり、スピーカレベルが再生閾値を超えたことを示す信号であってもよい。幾つかの他の実装では、effort信号は音響信号（例えば、特定の距離における音圧レベルをデシベルで測定したもの（decibels of sound pressure level （dBSPL）））であってもよい。音響信号は、例えば、スピーカ感度及び既知のアナログ増幅器利得を使用してデジタルレベルから導出されてもよい。

表現の特定の形態がどのようなものであっても、effort信号E_ij（f,t）の構成は、本開示の多くの例における機能にとって重要な構成要素である。なぜなら、これらの例では、effort信号E_ij（f,t）は、スピーカ間の信号エネルギの転換が発生する場所及び時期を指示するからである。前述のように、effort信号は、各オーディオオブジェクト信号について、オーディオオブジェクト信号の１つ以上及びそれらの知覚空間位置の関数として、例えば以下のように計算されてもよい：

それらの構成において空間ミックス全体を考慮することにより、空間ミックスの任意の部分からの信号エネルギは、様々な目的のために各オブジェクトのeffort信号に結合されてもよい。これらの可能な目的の１つは、オーディオオブジェクト信号がスピーカ信号に蓄積される可能性がどれくらい高いかを表す方法でオブジェクト信号を結合することである。別の可能な目的は、特定の空間関係を有するオブジェクト間で本発明のエネルギ再分配挙動を結びつけることである。effort信号の幾つかの好ましい構成は、これらの目的の両方を達成することができる。

effort信号の好ましい構成を検討する際には、それらのより詳細な定義を再検討することが便利である。すなわち、スピーカjの最大再生限界に対するオブジェクトiに関連するスピーカ信号レベルの時間及び周波数変化表現である。一般的表現のこの概念は、effort信号の以下の特定の構成に文字通り変換することができる：

式４において、用語L_i（f,t）は、オブジェクトiに関連する時間及び周波数の変化する信号レベルを表し、τ_j（f）は、スピーカjの周波数の変化する再生限界を表す。幾つかの例では、この例ではデシベルで表されるスピーカの再生限界は、スピーカの位置と同様に、すでに特徴付けられ、制御システムに提供されていると仮定する。そのため、すべてのスピーカにわたるオーディオオブジェクトのeffort信号の計算は、単一レベル信号L_i（f,t）の計算に単純化される。

前述のように、マッピングH_ijが依存するこれらのオーディオオブジェクトレベル信号L_i（f,t）は、オーディオオブジェクト信号がスピーカ信号に蓄積される可能性がどれくらい高いかを表す必要がある。これは、式２aに示すように、マッピングH_ijがスピーカ信号を明示的に生成するために使用されるため、循環関係である。この循環性の問題を解決するための１つの解決策は、スピーカに関する情報が必要とされない、オーディオオブジェクトの単純なゾーンベースのレンダリングを生成することである。代わりに、空間ゾーンの有限セットに対する信号エネルギは、単純なパンニングルールによって生成される。一般に、制御システムは、N_z個のゾーンを使用することができる。１つの有用な実施形態では、レンダリングプロセスは、フロント、センタ、サラウンド、及びオーバヘッドゾーンであり得る４つのゾーンを含むことができる。他の例は、より多く又はより少ないゾーンを含むことができる。このような幾つかの例では、オーディオオブジェクトをゾーンにレンダリングすることは、オーディオオブジェクトの意図された空間位置の関数である単純なブロードバンドパンニングルールによって制御することができる：

式５において、g_il（t）は、オーディオオブジェクトiの空間ゾーンlへのパンニングゲインを表す。パンニングゲインは、例えば、以下のように、N_z個のゾーンのセット全体にわたって電力保存であることが有益である：

これらのゾーンパンニングゲインから、例えば、以下のように、対応するパンニングゲインによって重み付けされたオーディオオブジェクトの電力スペクトルを累積することによって、時間及び周波数の変化するゾーン電力スペクトルZ_l（f,t）を計算することができる。

これらのゾーン電力スペクトルは、設計された空間ゾーン内の全体的な空間ミックスのエネルギ分布に対応する。スピーカがゾーン全体に分散されている、例えば、各ゾーンが少なくとも１つのスピーカを含むことが望ましい、と仮定すると、これらの電力スペクトルは、ゾーン内のスピーカ信号に現れるであろう信号レベルの合理的な近似を表す。

本開示に特有であるが、本発明者が知る限り、幾つかの例では、各オブジェクトのゾーンパンニングゲインを適用することによって、ゾーン電力スペクトルをオブジェクトレベル信号L_i（f,t）にマッピングし直すことができる。例えば、以下の通りである：

オーディオオブジェクトiが複数のゾーンにわたってパニングされる範囲において、式８によるL_i（f,t）の構築は、このパニングに比例する方法でゾーン電力スペクトルを結合する。これにより、L_i（f,t）は、オブジェクトiがレンダリングされるであろうスピーカ信号のレベルの近似として機能する。更に、大部分が同じゾーンに属するオブジェクトに対する信号L_i（f,t）は同様であり、これは、本発明の動的エネルギ再分布の挙動がこれらのオブジェクトに対して同様であることを意味する。幾つかの有利な実施形態では、ゾーンは、左／右軸を横切ってオブジェクトを結合するように設計することができ、それによって、エネルギ再分配の挙動が空間ミックスの左及び右について同様になるように制限することができる。このゾーン設計は、知覚的に混乱する左/右イメージシフトを低減するのに役立つ。

最後に、幾つかの例では、オブジェクトレベル信号L_i（f,t）は、例えば式４に示されるように、effort信号E_ij（f,t）を計算するために、スピーカ限界閾値τ_j（f）と組み合わせることができる。

空間オーディオミックスがチャネルベースのオーディオで構成される場合（すなわち、各オーディオオブジェクト信号は、Dolby５.１信号又はDolby５.１.４信号のようなマルチチャネル信号のチャネルに対応することができ、各オブジェクトの所望の位置は、固定された空間的位置である）、上述したレベル信号のゾーンベースの構成は、幾つかの次元に沿って単純化することができる。オブジェクト／チャネル信号の位置は固定されているため、チャネルのゾーンへのマッピングは、式５に示されるような動的パニング関数を必要としない場合がある。更に、このマッピングは、チャネルからゾーン及びその逆の１対１のマッピングのセットに単純化することができる。例えば、５.１.４信号の場合、フロント左及び右チャネルはフロントゾーンにマッピングし、センタチャネルはセンタゾーンにマッピングし、左及び右サラウンドチャネルはサラウンドゾーンにマッピングし、４つすべてのオーバヘッドチャネルはオーバヘッドゾーンにマッピングすることができる。このマッピングにより、ゾーン電力スペクトルを計算するための式７は、そのゾーンに属する各チャネルの電力スペクトルを合計することを単純化し、式８は、各チャネルのレベル信号を、そのチャネルがマッピングされる単一ゾーンに対応するゾーン電力スペクトルと等価にすることを単純化する。

オブジェクトレベル信号を計算する上記の方法は、オブジェクトがスピーカ信号に蓄積する方法の近似に依存する。この近似を排除するために、本発明のエネルギ再分配の活性化に遅延を導入することを犠牲にして、以前の時間間隔からのスピーカ信号の直接フィードバックを使用するオブジェクトレベル信号の代替構成を使用することができる。従って、この第２カテゴリの方法は、本明細書では、フィードバック方法と呼ぶことができる。

このような代替的な実装の１つは、式８で表される方法と同様であるが、ゾーン電力スペクトルが前の時間間隔からのスピーカ信号の電力スペクトルに置き換えられ、オブジェクトからゾーンへのパンニングゲインが前の時間間隔からのオブジェクトからスピーカへのマッピングの正規化されたバージョンに置き換えられる点が異なる。例えば、次のようになる：

式９bに示されるオブジェクトからスピーカへのマッピングの正規化は、式９aにおけるスピーカ信号の重み付けされた組み合わせが電力を保存する方式で実行されることを保証する。オブジェクトからスピーカへのマッピングが本質的に電力保存方式で計算される場合、幾つかの有利な実施形態の場合と同様に、この正規化ステップは不要である。

式９aにおけるオブジェクトレベル信号の構築は、そのオーディオオブジェクトの各スピーカ信号へのマッピングに比例して、前の時間間隔からのすべてのスピーカ信号を組み合わせる。そのため、これは、そのオーディオオブジェクトがマッピングされているスピーカ信号レベルの直接的な表現である。しかし、この構築に関する１つの問題は、類似の空間ゾーン内のオーディオオブジェクトを関連付けるという概念がないことである。この機能がないと、結果としてレンダリングされたオーディオのイメージングに不安定性が生じる可能性がある。

オーディオオブジェクトレベル信号を構築する第３例として、第１例のゾーンベースの処理を、第２例のフィードバック方法によって提供されるスピーカ信号レベルのより正確な表現と組み合わせることができる。このような幾つかの代替例では、オーディオオブジェクトレベル信号は、第１例のように、ゾーン信号の加重和として構築することができるが、ゾーン電力スペクトルZ_l（f,t）は、例えば次のようにスピーカゾーン電力スペクトルV_l（f,t）に置き換えることができる。

ゾーン電力スペクトルがオブジェクト信号から直接計算されるのに対し、スピーカゾーン電力スペクトルは、前の時間間隔からのスピーカ信号電力スペクトルの加重和として計算される。

重み付けP_jlは、本明細書では「スピーカゾーン参加値」と呼ばれることがあり、これは、スピーカjにレンダリングされるゾーン信号lのエネルギの部分の尺度であることを意味する。重み付けP_jlは、一連の生のスピーカゾーン参加値P_jl^に渡って正規化することによって導出することができる。

生のスピーカゾーン参加値P_jl^は、マッピング関数M_jを使用して、そのゾーンの空間的範囲を表す各ゾーンについてのN_l個の空間位置：
のセットのレンダリングをシミュレートすることによって計算することができる。このシミュレートされたレンダリングから得られるN_l個のマッピングの電力スペクトルは、例えば以下のように、生のゾーンスピーカ参加値を計算するために一緒に合計することができる。

このシミュレートされたレンダリングに関連するeffort信号E_lj^（f,t）は、幾つかの例では、式７で定義されるゾーン電力スペクトルZ_l（f,t）から計算することができる。

要約すると、オブジェクトレベル信号L_i（f,t）を構築するための３つの異なる方法が上記で説明された。つまり、１）ゾーンベースの方法、２）フィードバックベースの方法、及び３）ゾーンベースの方法とフィードバックベースの方法の要素を組み合わせたハイブリッド方法、である。

オブジェクトレベル信号を構築するために上記で説明されたすべての方法において、知覚アーチファクトを低減するためにさらなる処理を適用することができる。例えば、オブジェクトレベル信号L_i（f,t）は、時間、周波数、又はその両方にわたって平滑化され、これらの次元にわたって広がる結果として生じるエネルギの変動を規則化することができる。

式４に示されるようにeffort信号E_ij（f,t）を定義することにより、意図されたオーディオオブジェクト位置：
及びオーディオオブジェクトレベル信号L_i（f,t）によってインデックス付けされるオーディオオブジェクトからスピーカへのマッピングのルックアップテーブルのような単一のデータ構造を使用して、本発明の非常に効率的な実装が可能になる。ルックアップテーブルは、例えば、すべての可能な意図されたオブジェクト位置にわたって又は少なくとも合理的な数の意図されたオブジェクト位置にわたって
をサンプリングすることによって、及びオブジェクトレベル信号値の意味のある範囲にわたってL_i（f,t）をサンプリングすることによって構築することができる。前述のように、意図されたオブジェクト位置
は、オーディオオブジェクトの時間の変化する３D（x,y,z）メタデータに対応し得る。

図９は、例示的な実施形態における、オーディオオブジェクトのx、y、及びz座標の関数として、オーディオオブジェクトのスピーカへのマッピングを示す点のグラフである。この例では、x及びy次元は１５個の点でサンプリングされ、z次元は５個の点でサンプリングされる。他の実装は、より多くのサンプル又はより少ないサンプルを含むことができる。この例によれば、各点は、その点に対応する（x、y、z）位置を有するオーディオオブジェクトiに対するj=１．．．N_s個のスピーカのセットに対するマッピングH_ijを表す。

実行時に、各スピーカの実際のマッピングを決定するために、幾つかの例では、最も近い８個の点のスピーカマッピング間のトリリニア補間を使用することができる。図１０は、一例によるスピーカへのマッピングを示す点の間のトリリニア補間のグラフである。この例では、逐次線形補間のプロセスは、第１及び第２補間点１００５a及び１００５bを決定するための上面における各対の点の補間、第３及び第４補間点１０１０a及び１０１０bを決定するための底面における各対の点の補間、第１及び第２補間点１００５a及び１００５bを補間して上面における第５補間点１０１５を決定すること、第３及び第４補間点１０１０a及び１０１０bを補間して底面における第６補間点１０２０を決定すること、及び第５及び第６補間点１０１５及び１０２０を補間して上面と底面の間の第７補間点１０２５を決定することを含む。トリリニア補間は効果的な補間方法であるが、当業者であれば、トリリニア補間は、本開示の態様を実施する際に使用され得る１つの可能な補間方法に過ぎず、他の例は他の補間方法を含み得ることを理解するであろう。

上述の方法は、ルックアップテーブルに第４の次元を追加することによって、変化するオーディオオブジェクト信号レベルをカバーするよう、更に拡張することができる。信号レベルの第４の次元に沿ったこのルックアップは、幾つかの例では、周波数帯域のセットにわたって独立して実行され、L_i（f,t）が周波数にわたって変化する正確な性質を明示的に捕捉することができる。

幾つかの代替的なチャネルベースの例では、位置のトリリニア補間（又は、幾つかの例では、任意の補間）を行わずに、線形補間などのレベルの補間を行うことが含まれる。

別の代替的な実施形態では、オブジェクトレベル信号は、例えば以下のように、プロトタイプスペクトル形状と乗算された広帯域利得として近似され得る。

式１５において、プロトタイプスペクトル形状L_p（f）は、システムによって処理されることが予想されるコンテンツに関連する平均スペクトル形状を表すように選択される。利得g_i（t）は、前述の方法の１つによって計算された推定オブジェクトレベル信号L_i（f,t）とその近似：
との間の誤差を最小化するように計算される。ルックアップテーブルは、オブジェクト信号レベルスペクトルが式１５の形式に従うと仮定して構築され、それによって、信号レベルのルックアップが、すべての周波数帯域について単一の広帯域利得g_i（t）によってインデックス付けされることを可能にする。従って、この近似は、テーブルの点の間の補間に必要な演算の数を減らすことによって、計算の複雑さを減らすことができる。

ここで、式２bに従ってeffort信号E_ij（f,t）の関数としてマッピングH_ijの計算に戻ると、各オブジェクトiのマッピングの最適化中に、effort信号をスピーカごとのペナルティP_j（f）にマッピングする必要がある場合がある。式４のeffort信号の構築を考慮すると、オーディオオブジェクトレベル信号がスピーカ再生限界閾値より小さい場合、effort信号は０より小さく、オーディオオブジェクト信号がこの閾値より大きい場合は０より大きいことに注意する。これらのeffort信号をスピーカペナルティにマッピングする際には、effort信号が指定された遷移点を超えて増加するにつれてペナルティが値０から滑らかに単調に増加するような変換を適用すると便利である。この遷移点を０未満のeffort値に対応するように指定することは、信号レベルがスピーカの再生閾値に達する前にペナルティが有効になり始めることを意味する。このような例では、信号レベルが再生限界に達する前に、スピーカから徐々にエネルギを転換（迂回、diverting）させるという利点がある。このような例によると、kneeパラメータKを使用して、遷移点と、effort信号が増加するにつれてペナルティが増加するレートを制御することができる。

図１１は、様々なkneeパラメータに対するペナルティの例を示す。図１１は、kneeパラメータの値が-２４dBから-６dBの範囲でスピーカのペナルティがどのように増加するかを示している。

kneeパラメータの値より下では、ペナルティが０であることがわかる（この値はマッピングの計算に影響を与えない）。これらの例によると、ペナルティはknee値より上で単調に増加する。これは、effort信号が増加するにつれて、関連するスピーカからエネルギがますます転換されることを意味する。更に、knee値が大きいほど、スピーカペナルティがより緩やかに活性化されることが分かる。実際には、本発明者らは、-１８dBから-１２dBの範囲のknee値が良好に機能することを決定した。

knee値Kは、信号レベルの関数としてスピーカ間のエネルギ転換の程度を制御するために使用され得るパラメータの一例である。幾つかの実施形態では、このエネルギ転換の程度は、システムによって処理されるすべてのコンテンツに対して固定されてもよい。他の実施形態では、この転換の程度は、入力オーディオフォーマット、コーデック、又はメタデータに基づいて追加的に制御されてもよい。例えば、幾つかのコーデックは、ミックスの特定のコンポーネントが他のコンポーネントよりも多くのエネルギ転換に適していることを示すメタデータを組み込んでもよい。このメタデータ、又はメタデータの基礎は、例えば、Dolby Atmos（商標）ミックス内の異なるオーディオオブジェクトに対して異なるknee値を指定するコンテンツ作成者によって制御されてもよい。更に、幾つかの例では、エネルギ転換の程度は、少なくとも部分的にコンテンツフォーマットに依存してもよい。例えば、Dolby５.１ミックスのセンタチャネルのエネルギ転換の程度は、会話の知覚位置が中央に残るようにするために、他のチャネルのエネルギ転換の程度よりも小さく設定されてもよい。

図１２は、本願明細書に開示したような機器又はシステムにより実行され得る方法の一例の概要を示すフロー図である。方法１２００のブロックは、本願明細書に記載の他の方法と同様に、必ずしも示された順序で実行されない。幾つかの実装では、方法１２００の１つ以上のブロックは、同時に実行されてよい。更に、方法１２００の幾つかの実装は、図示及び／又は記載のものより多数又は少数のブロックを含んでよい。方法１２００のブロックは、図１に示され、上述された制御システム１１０のような制御システム、又は他の開示された制御システム例の１つであり得る（又はそれを含むことができる）１つ以上の装置によって実行され得る。

この例によると、ブロック１２０５は、制御システムにより及びインタフェースシステムを介して、オーディオデータを受信することを含む。この例では、オーディオデータは、１つ以上のオーディオ信号及び関連する空間データを含む。ここで、空間データは、オーディオ信号に対応する意図された知覚空間位置を示す。幾つかの例では、空間データは、Dolby Atmos（商標）などのオブジェクトベースのオーディオフォーマットの空間メタデータであるか、又は空間メタデータを含むことができる。幾つかの例では、意図された知覚空間位置は、本明細書に開示されているように、以下のように表すことができる：
幾つかの例では、空間データは、Dolby５.１、Dolby５.１.２、Dolby７.１、Dolby７.１.４又はDolby９.１フォーマットなどのチャネルベースのオーディオフォーマットのチャネルであるか又はそれに対応することができる。従って、意図された知覚空間位置は、チャネルベースのオーディオフォーマットのチャネルに対応することができ、メタデータに対応することができ、又はチャネルとメタデータの両方に対応することができる。

この例では、ブロック１２１０は、制御システムによって、スピーカ信号を生成するために、環境の２つ以上のスピーカのセットを介して再生するためのオーディオデータをレンダリングすることを含む。この例によれば、オーディオデータに含まれる１つ以上のオーディオ信号の各々をレンダリングすることは、各オーディオ信号のスピーカ信号への時間的及び周波数的に変化するマッピングを含む。この例では、各オーディオ信号のマッピングは、オーディオ信号の意図された知覚空間位置、スピーカに関連する物理的位置、及び各スピーカの最大再生限界に対するスピーカ信号レベルの時間的及び周波数的に変化する表現の関数として計算される。この例によれば、各マッピングは、スピーカ信号が関連付けられたスピーカ位置に位置する２つ以上の対応するスピーカ上で再生されるときに、関連付けられたオーディオ信号の意図された知覚空間位置をほぼ達成するように計算される。

幾つかの例によると、関連するオーディオ信号の意図された知覚空間位置を「ほぼ達成する」ことは、利用可能なスピーカ及び関連するスピーカ位置が与えられた場合に、知覚空間位置と意図された知覚空間位置との差を最小化することを含むことができる。幾つかの例では、関連するオーディオ信号の意図された知覚空間位置をほぼ達成することは、コスト関数、例えば本願明細書に開示されたコスト関数のうちの１つを最小化することを含む。本開示の式２bは、コスト項の選択に応じて、多くの異なる可能性を包含する。例えば、追加のコスト項{s_i^}及び{e^}の選択に従って、様々な実装を達成することができる。

この例では、ブロック１２１０は、最大再生限界に対するスピーカ信号レベルの表現を、オーディオ信号の１つ以上及びそれらの知覚空間位置の関数として、各オーディオ信号について計算することを含む。この例によれば、ブロック１２１０は、最大再生限界に対するスピーカ信号レベルの表現が閾値を超えて増加するにつれて、特定のスピーカ信号へのオーディオ信号のマッピングを減少させることを含む。更に、この例では、ブロック１２１０は、１つ以上の他のスピーカの最大再生限界に対する信号レベルの表現が閾値未満である、１つ以上の他のスピーカへのマッピングを増加させることを含む。

幾つかの例によれば、マッピングは、通常の人間の可聴周波数範囲全体にわたって計算されてもよい。しかし、幾つかの例では、マッピングは可聴周波数範囲のサブセットにわたって計算されてもよい。幾つかの例によれば、マッピングは、オーディオ信号をスピーカ信号にマッピングする関数として、意図された知覚空間位置がどの程度厳密に達成されるかをモデル化する第１項と、各スピーカを起動するためのコストを割り当てる第２項とを含むコスト関数を最小化することを含み得る。式２bは、第１項と第２項の両方の例を提供する。幾つかの例では、各スピーカを起動するコストは、最大再生限界に対するスピーカ信号レベルの表現の関数に少なくとも部分的に基づいてよい。

幾つかの例では、最大再生限界に対するスピーカ信号レベルの表現は、デジタル信号レベル、リミッタ利得、又は音響信号レベルのうちの１つ以上に対応してもよい。幾つかの例では、最大再生限界に対するスピーカ信号レベルの表現は、各オーディオ信号に対するレベル推定と各スピーカに対する再生限界閾値との間の差として計算されてよい。幾つかの例では、各オーディオ信号のレベル推定は、すべてのオーディオ信号のゾーンベースのレンダリングに少なくとも部分的に基づいてよい。幾つかの例では、各オーディオ信号のレベル推定は、以前に計算されたスピーカ信号に少なくとも部分的に基づいてよい。幾つかのそのような例では、各オーディオ信号のレベル推定は、複数の空間ゾーンにおける各スピーカの参加に更に依存してよい。幾つかの例によると、ブロック１２１０又は方法１２００の他のブロックは、各オーディオ信号のレベル推定を、時間、周波数、又は時間と周波数の両方にわたって平滑化するステップ、を更に含むことができる。

幾つかの例によれば、オーディオ信号からスピーカ信号へのマッピングは、各オーディオ信号の意図された知覚空間位置及びレベル推定によってインデックス付けされたデータ構造をクエリすることにより決定されてよい。幾つかの例では、オーディオ信号からスピーカ信号へのマッピングは、スピーカ活性化の決定を含むことができる。幾つかのそのような例では、スピーカの起動は、事前に計算されたスピーカ起動のセットから補間することによって決定されてよい。幾つかのそのような例によると、セットは、各オーディオ信号に対する意図された知覚空間位置及びレベル推定によってインデックス付けされ得る。

幾つかの例では、各オーディオ信号のレベル推定は、スペクトル形状と乗算された広帯域利得として表すことができる。幾つかのそのような例によれば、スペクトル形状は、複数のスペクトル形状から選択され得る。複数のスペクトル形状のうちの各スペクトル形状は、例えばコンテンツタイプに対応し得る。コンテンツタイプは、例えば、映画コンテンツ、テレビ番組コンテンツ、ポッドキャストコンテンツ、音楽パフォーマンスコンテンツ、ゲームコンテンツなどを含むことができる。

幾つかの例によれば、最大再生レベルに対する信号レベルの表現が閾値を超えて増加するにつれて、１つのスピーカへのマッピングを減少させ、別のスピーカへのマッピングを増加させ得る。図１１及び対応する説明は、幾つかの例を提供する。幾つかの例は、方法１２００は、オーディオフォーマット、コーデック、又はメタデータのうちの１つ以上に従って、１つのスピーカへのマッピングの減少の程度及び別のスピーカへのマッピングの増加を制御することを更に含むことができる。幾つかの例によると、方法１２００は、kneeパラメータに従って、１つのスピーカへのマッピングの減少の程度及び別のスピーカへのマッピングの増加を制御することを更に含むことができる。

この実装では、ブロック１２１５は、インタフェースシステムを介して、環境のスピーカのセットのうちの少なくとも２つのスピーカにスピーカ信号を提供することを含む。

本開示の幾つかの実装は、開示された方法のいずれかの実施形態を実行するように構成された（例えば、プログラムされた）システム又は装置、及び開示された方法又はそのステップを実施するためのコードを格納する有形のコンピュータ可読媒体（例えばディスク）を含む。例えば、開示されたシステムは、ソフトウェア又はファームウェアでプログラムされ、及び／又は開示された方法の実施形態又はそのステップを含む、データに対する様々な操作のいずれかを実行するようにその他の方法で構成された、プログラム可能な汎用プロセッサ、デジタルシグナルプロセッサ、又はマイクロプロセッサであるか、又はこれらを含むことができる。このような汎用プロセッサは、それにアサートされたデータに応答して開示された方法の実施形態（又はそのステップ）を実行するようにプログラムされた（及び／又はその他の方法で構成された）入力装置、メモリ、及び処理サブシステムを含むコンピュータシステムであるか、又はこれらを含むことができる。

本開示のシステムの幾つかの実施形態は、開示された方法の実施形態の実行を含む、オーディオ信号に対して必要な処理を実行するように構成された（例えば、プログラムされた及びその他の設定された）、構成可能な（例えばプログラマブル）デジタルシグナルプロセッサ（DSP）として実装される。代替として、開示されたシステム（又はその要素）の実施形態は、ソフトウェア又はファームウェアでプログラムされ、かつ/又は開示された方法の実施形態を含む様々な操作のいずれかを実行するようにその他の方法で構成された汎用プロセッサ（例えば、パーソナルコンピュータ（PC）、その他のコンピュータシステム又はマイクロプロセッサ（入力装置とメモリを含む場合がある））として実装される。代替として、本開示のシステムの幾つかの実施形態の要素は、開示された方法の実施形態を実行するように構成された（例えば、プログラムされた）汎用プロセッサ又はDSPとして実装され、システムは他の要素（例えば、１つ以上のスピーカ及び／又は１つ以上のマイク）も含む。開示された方法の実施形態を実行するように構成された汎用プロセッサは、標準的に、入力装置（例えば、マウス及び／又はキーボード）、メモリ、及びディスプレイ装置に結合され得る。

本開示の別の側面は、開示された方法の実施形態又はそのステップを実行するためのコード（例えば、実行するために実行可能なコーダ）を格納するコンピュータ可読媒体（例えば、ディスクやその他の有形の記憶媒体）である。

特定の実施形態及び適用が本願明細書に記載されたが、当業者に明らかなことに、本願明細書に記載され及び請求される範囲から逸脱することなく、本願明細書に記載された実施形態及び適用に対する多くの変形が、可能である。理解されるべきことに、特定の形式が示され記載されたが、本開示の範囲は、記載され及び示された特定の実施形態又は記載された特定の方法に限定されない。

Claims

オーディオ処理方法であって、
制御システムにより、インタフェースシステムを介して、オーディオデータを受信するステップであって、前記オーディオデータは１つ以上のオーディオ信号及び関連する空間データを含み、前記空間データはオーディオ信号に対応する意図された知覚空間位置を示す、ステップと、
前記制御システムにより、環境の２つ以上のスピーカのセットを介して再生するために前記オーディオデータをレンダリングして、スピーカ信号を生成するステップであって、
前記オーディオデータに含まれる前記１つ以上のオーディオ信号の各々をレンダリングすることは、各オーディオ信号の前記スピーカ信号へのマッピングを含み、前記マッピングは、時間的及び周波数的に変化するマッピングであり、
各オーディオ信号のマッピングは、オーディオ信号の意図された知覚空間位置、前記スピーカに関連付けられた物理的位置、及び各スピーカの最大再生限界に対するスピーカ信号レベルの時間的及び周波数的に変化する表現の関数として計算され、
各マッピングは、前記スピーカ信号が関連するスピーカ位置に配置された前記２つ以上の対応するスピーカ上で再生されるときに、オーディオ信号の前記意図された知覚空間位置をほぼ達成するように計算され、
最大再生限界に対するスピーカ信号レベルの表現は、１つ以上の前記オーディオ信号及びそれらの知覚空間位置の関数として各オーディオ信号について計算され、
特定のスピーカ信号へのオーディオ信号のマッピングは、最大再生限界に対するスピーカ信号レベルの前記表現が閾値を超えて増加するにつれて減少され、前記マッピングは、１つ以上の他のスピーカの最大再生限界に対する信号レベルの表現が閾値未満である１つ以上の他のスピーカへと増加される、ステップと、
前記インタフェースシステムを介して、前記環境のスピーカの前記セットのうちの少なくとも２つのスピーカに前記スピーカ信号を提供するステップと、
を含むオーディオ処理方法。
前記マッピングは、可聴周波数範囲全体にわたって計算される、請求項１に記載のオーディオ処理方法。
前記マッピングは、可聴周波数範囲の一部にわたって計算される、請求項１に記載のオーディオ処理方法。
前記マッピングは、オーディオ信号をスピーカ信号にマッピングする関数として、前記意図された知覚空間位置がどの程度厳密に達成されるかをモデル化する第１項と、前記スピーカの各々を起動するためのコストを割り当てる第２項とを含むコスト関数を最小化することを含む、請求項１に記載の方法。
各スピーカを起動するための前記コストは、前記最大再生限界に対するスピーカ信号レベルの前記表現の関数に少なくとも部分的に基づいている、請求項４に記載の方法。
前記最大再生限界に対するスピーカ信号レベルの前記表現は、デジタル信号レベル、リミッタ利得、又は音響信号レベルのうちの１つ以上に対応する、請求項１に記載の方法。
前記最大再生限界に対するスピーカ信号レベルの前記表現は、各オーディオ信号に対するレベル推定と各スピーカに対する再生限界閾値との間の差として計算される、請求項１に記載の方法。
各オーディオ信号の前記レベル推定は、すべてのオーディオ信号のゾーンベースのレンダリングに少なくとも部分的に基づく、請求項７に記載の方法。
各オーディオ信号の前記レベル推定は、以前に計算されたスピーカ信号に少なくとも部分的に基づく、請求項７に記載の方法。
各オーディオ信号の前記レベル推定は、複数の空間ゾーンにおける各スピーカの参加に更に依存する、請求項９に記載の方法。
各オーディオ信号の前記レベル推定を、時間、周波数、又は時間と周波数の両方にわたって平滑化するステップ、を更に含む請求項７に記載の方法。
オーディオ信号からスピーカ信号への前記マッピングは、各オーディオ信号の前記意図された知覚空間位置及びレベル推定によってインデックス付けされたデータ構造をクエリすることによって決定される、請求項７に記載の方法。
オーディオ信号からスピーカ信号への前記マッピングは、予め計算されたスピーカマッピングのセットから補間することにより決定され、該セットは、各オーディオ信号の前記意図された知覚空間位置及びレベル推定によってインデックス付けされている、請求項７に記載の方法。
オーディオ信号からスピーカ信号への前記マッピングは、予め計算されたスピーカマッピングのセットから補間することによって決定され、該セットは、各オーディオ信号に対する前記意図されたレベル推定によってインデックス付けされている、請求項７に記載の方法。
各オーディオ信号の前記レベル推定は、スペクトル形状と乗算された広帯域利得として表される、請求項１２に記載の方法。
前記スペクトル形状は、複数のスペクトル形状から選択され、前記複数のスペクトル形状のうちの各スペクトル形状は、コンテンツタイプに対応する、請求項１５に記載の方法。
最大再生レベルに対する信号レベルの前記表現が閾値を超えて増加するにつれて、１つのスピーカへのマッピングを減少させ、別のスピーカへのマッピングを増加させる、請求項１に記載の方法。
オーディオフォーマット、コーデック、又はメタデータのうちの１つ以上に従って、１つのスピーカへのマッピングの減少の程度及び別のスピーカへのマッピングの増加を制御するステップ、を更に含む請求項１に記載の方法。
kneeパラメータに従って、１つのスピーカへのマッピングの減少の程度及び別のスピーカへのマッピングの増加を制御するステップ、を更に含む請求項１に記載の方法。
前記意図された知覚空間位置は、チャネルベースのオーディオフォーマットのチャネルに対応するか、メタデータに対応するか、又はチャネルとメタデータの両方に対応する、請求項１に記載の方法。
オーディオ信号の前記意図された知覚空間位置をほぼ達成することは、利用可能なスピーカ及び関連するスピーカ位置が与えられた場合に、知覚空間位置と前記意図された知覚空間位置との差を最小化することを含む、請求項１に記載の方法。
オーディオ信号の前記意図された知覚空間位置をほぼ達成することは、コスト関数を最小化することを含む、請求項１に記載の方法。
請求項１～２２のいずれか一項に記載の方法を実行するよう構成される機器。
請求項１～２２のいずれか一項に記載の方法を実行するよう構成されるシステム。
命令を格納している１つ以上の非一時的媒体であって、前記命令は、請求項１～２２のいずれか一項に記載の方法を実行するよう１つ以上の装置を制御する、非一時的媒体。