消費者環境における空間オーディオの再生は、通常、Dolby5.1又は7.1サラウンドサウンドに対応する位置など、所定の位置に配置された所定の数のスピーカに関連付けられている。このような場合、コンテンツは、関連付けられたスピーカ用に特別に作成され、各スピーカ(Dolby Digital(商標)、Dolby Digital Plus(商標)など)用に個別のチャネルとして符号化される。最近では、コンテンツと特定のスピーカ位置との間のこの関連付けを解除する、没入型のオブジェクトベースの空間オーディオフォーマットが導入されている(Dolby Atmos(商標)など)。代わりに、コンテンツは、個々のオーディオオブジェクトのコレクションとして記述することができ、各オーディオオブジェクトは、3次元空間内の前記オーディオオブジェクトの所望の知覚位置、及び幾つかの例ではオーディオオブジェクトの他のプロパティを記述する、場合によっては時間により変化するメタデータを持つ。再生時に、オーディオコンテンツは、再生システム内のスピーカの数と位置に適応するレンダラによってスピーカフィードに変換される。ただし、このようなレンダラの多くは、一連の規定されたレイアウト(例えば、Dolby Atmos(商標)を使用したDolby3.1.2、5.1.2、7.1.4、9.1.6など)のいずれかになるように、スピーカのセットの位置を制限する。
このような制約されたレンダリングを超えて、オブジェクトベースのオーディオを、任意の位置に配置された真に任意の数のスピーカで柔軟にレンダリングできるようにする方法が開発されている。これらの方法では、一般に、レンダラがリスニング空間内のスピーカの数と物理的な位置を知っている必要がある。このようなシステムが平均的な消費者にとって実用的であるためには、スピーカの位置を特定するための自動化された方法が望ましいだろう。そのような方法の1つは、スピーカと同じ場所に配置されている可能性のある多数のマイクの使用に依存している。スピーカを介してオーディオ信号を再生し、マイクを使用して録音することによって、各スピーカとマイクの間の距離を推定することができる。これらの距離から、スピーカとマイクの両方の位置を後に推測することができる。
オブジェクトベースの空間オーディオが消費者空間に導入されるのと同時に、Amazon Echo(商標)製品ラインのようないわゆる「スマートスピーカ」が急速に採用されている。これらの装置の絶大な人気は、そのシンプルさと無線接続と統合された音声インタフェース(例えば、AmazonのAlexa(商標))によってもたらされる利便性に起因し得るが、これらの装置の音響機能は、特に空間オーディオに関して一般的に制限されている。ほとんどの場合、これらの装置はモノラル又はステレオ再生に制限されている。しかし、前述の柔軟なレンダリングと自動位置特定技術を複数の編成されたスマートスピーカと組み合わせることで、非常に洗練された空間再生機能を備えた、消費者が設定するのが依然として非常に簡単であるシステムが得られる可能性がある。消費者は、無線接続のためにスピーカの配線を行う必要がなく、便利な場所に、所望に応じて多数又は少数のスピーカを配置することができ、内蔵マイクを使用して、関連する柔軟なレンダラのスピーカを自動的に位置特定することができる。
スピーカのセットを介して空間オーディオをレンダリングするための1つのアプローチは、スピーカの想定又は測定位置と、コンポーネント信号の意図された知覚位置とに純粋に基づいて、スピーカのセットに渡り空間ミックスの各コンポーネント信号をマッピングすることである。このようなアプローチは、米国特許第9,712,939号及び第11,172,318号に記載されており、これらは参照により本明細書に組み込まれる。スピーカのセットに渡る再生能力にばらつきがある場合、このアプローチを使用すると、空間レンダリングの知覚品質が損なわれる可能性がある。多くの小型スピーカは、特に低周波数において、再生レベルが増加するにつれて歪み始め、その後、その可動域(excursion)限界に達する。
このような歪みを低減するために、各スピーカは、幾つかの例では、周波数に渡り変化する方法で、再生レベルをこれらの限界未満に制限する動的処理を実装することができる。上記の方法を使用してレンダリングされた空間オーディオがスピーカのセットを介して再生されると、各スピーカはその動的処理を独立して適用し、その結果、異なるスピーカフィード上のオーディオに非常に異なる相対的な変更が生じる可能性がある。例えば、能力の低いスピーカは、一般に、高い再生レベルにおいて、能力の高いスピーカよりもオーディオをより多く減衰させる。スピーカ間の処理におけるこれらの変動は、知覚的に混乱する方法でミックスの空間バランスを動的にシフトする可能性があり、また、ミックスの全体的な相対的バランスを乱す可能性がある。例えば、前方サウンドステージが能力の低いスピーカによって主に再生される場合、前方サウンドステージは後方サウンドステージに対して全体的に減衰する可能性がある。
本出願人は、スピーカ間の再生限界閾値を知的に組み合わせ、ミックスをスピーカフィードにレンダリングする前に、空間オーディオミキサ全体の空間ゾーンにそれらを適用することによって、これらの問題の幾つかを軽減する方法を開発した。幾つかの例をここに開示する。ゾーンは、オーディオミックスの部分間の処理におけるある程度の独立性を維持しながら、知覚的に混乱する左から右へのイメージングシフトを防止するように選択することができる。幾つかのゾーンベースの方法は、フロント、センタ、サラウンド、及びオーバヘッドの4つのゾーンを含む。
これらのゾーンベースの方法は、レンダリングされたオーディオの空間イメージングを安定させるのに役立つ。しかし、幾つかの例では、このようなゾーンベースの方法は、全体的な再生レベルをスピーカのセット全体にわたって最も能力の低い装置に制約するという望ましくない効果を有する可能性がある。
本開示は、スピーカのセット内のより能力の高いスピーカをよりよく利用する幾つかの改善されたゾーンベースの方法を含む、改善されたレンダリング方法を提供する。空間オーディオをレンダリングするための改善された方法が開示され、ミックスの各コンポーネント信号をスピーカフィード信号にマッピングするときに、空間オーディオミックスの動的信号レベルが追加的に考慮される。幾つかの例では、オーディオミックスのレベルが特定のスピーカの再生限界閾値に近づくと、ミックスレベルが他のスピーカの制限閾値から更に離れている他のスピーカへのマッピングを増加させるために、そのスピーカへのコンポーネントのマッピングが削減される。このようにして、レンダリングされたオーディオの全体的なレベルは、能力の低いスピーカによって制約されない。ただし、オーディオ信号レベルがそれらの限界閾値を下回る場合は、能力の低いスピーカを使用することができる。
このような動的レンダリングシステムの構築は、再生レベルを最大化しようとする過程で追加の知覚アーチファクトが発生しないように注意して行う必要がある。例えば、意図された知覚位置が「フロント左」である空間オーディオミックスの個々のコンポーネントを考える。スピーカがこの意図された知覚位置の近くに物理的に配置されている場合、理想的には、コンポーネント信号エネルギの大部分をこのスピーカにマッピングする必要がある。しかし、ミックスの信号レベルがこのスピーカの再生限界に近づいている場合は、このコンポーネント信号の大部分を他のより能力の高いスピーカにマッピングして、第1スピーカの動的処理の活性化を低減し、それによってミックスの全体的な再生レベルをより良好に維持することが望まれる。信号エネルギは、意図された知覚位置に対して物理的に近い位置ではないために、コンポーネント信号の意図された知覚位置を達成するのにあまり適していない可能性があるこれらの他のスピーカに動的に転換(diversion)されるため、この転換をコンポーネント信号の望ましくない空間シフトとして知覚する可能性を最小限に抑える必要がある。
この最小化を達成するために、幾つかの開示された方法は、幾つかの戦略を同時に採用する。
(1)まず、幾つかの例では、各コンポーネント信号のスピーカ信号へのマッピングは、オーディオミックスの現在の信号レベルを考慮に入れ、その特定の時点で信号レベル条件の下で利用可能と考えられるスピーカを使用して、コンポーネントオーディオ信号の所望の知覚位置を達成するための「ベストエフォート」を行う。幾つかの例では、この「ベストエフォート」を行うことは、オーディオ信号コンポーネントの意図された知覚空間位置をほぼ達成することとして本明細書で説明することを含むことができる。意図された知覚空間位置は、チャネルベースのオーディオフォーマットのチャネル、オーディオオブジェクトの位置メタデータ、又はチャネルと位置メタデータの両方に対応することができる。幾つかの例によれば、オーディオ信号コンポーネントの意図された知覚空間位置をほぼ達成することは、例えば、オーディオ環境で利用可能なスピーカ、各スピーカの能力、及び関連するスピーカ位置が与えられた場合に、知覚空間位置と意図された知覚空間位置との間の差を最小化することを含むことができる。幾つかの例によれば、オーディオ信号コンポーネントの意図された知覚空間位置をほぼ達成することは、コスト関数を最小化することを含むことができる。このようにして、このような方法は、信号レベル条件に関して各コンポーネント信号の空間マッピングを個別に最適化する。これは、例えば、空間イメージングを最適化するが信号レベルを無視する上述の方法を使用してスピーカ信号へとレンダリングし、その後、レンダリングされた信号レベルと各スピーカの限界閾値との比較に基づいて、既にレンダリングされた信号のエネルギをスピーカ間で再分配する、より単純なソリューションとは異なる。
(2)第2に、幾つかの例では、コンポーネント信号からスピーカフィードへのマッピングと、このマッピングが依存するスピーカ再生限界に関する信号レベルの特性化の両方を、時間的及び周波数的に変化する方法で計算することができる。このようにして、任意のコンポーネント信号のエネルギの、その空間的に最適なスピーカからの転換は、信号エネルギがこれらの最適なスピーカの限界閾値に近づいている周波数領域及び瞬間においてのみ発生する。このアプローチは、逸脱したエネルギの量を最小限に抑え、任意のコンポーネント信号のより多くのエネルギをその空間再生に最適なスピーカに残すことを可能にする。従って、コンポーネント信号の知覚位置がその所望の空間位置にとどまる可能性は高いままである。
(3)最後に、コンポーネント信号からスピーカ信号へのマッピングが依存するスピーカ再生限界に関する信号レベルの特性化は、ミックスの1つ以上のコンポーネント信号及びそれらの意図された知覚位置に基づいて、各個々のコンポーネント信号について計算される。このようにして、スピーカ間の信号エネルギの転換は、上記の第1戦略で概説されているように、各コンポーネント信号の所望の知覚位置に個別化されるだけでなく、そのコンポーネント信号とミックスの他のコンポーネントとの関係に関して何らかの方法で最適化された全体的な信号レベルの推定にも個別化され得る。例えば、任意のコンポーネント信号に関連する全体的な信号レベルは、上記のゾーンベースの方法の空間ゾーンに基づいて計算され得る。このようにして、類似した空間ゾーンにあるコンポーネント信号の転換が類似しているため、動的レンダリングの知覚される左右のバランスが安定する。更に、実質的に異なるゾーンに属するコンポーネント信号は、これらのゾーンに関連する全体的なレベルが著しく異なる場合に、異なるように転換されてよい。例えば、サラウンドゾーンの信号レベルが低い場合、サラウンドゾーンに大きく関連するオーディオ信号コンポーネントは、そのマッピングに適用される転換がほとんどない可能性がある。同時に、フロントゾーンの信号レベルが高くなる可能性があり、フロントゾーンに大きく関連するコンポーネントは、そのマッピングに適用される転換が多くなる可能性がある。従って、この戦略は、必要とされる空間ゾーンに属するコンポーネント信号にのみ転換を適用することによって、空間ミックス全体にわたって転換されるエネルギの量を最小限に抑えるのにも役立つ。
図1は、本開示の種々の態様を実装可能な機器のコンポーネントの例を示すブロック図である。本願明細書で提供される他の図と同様に、図1に示される要素の数及び種類は、単なる例である。他の実装には、より多くの、より少ない、及び/又は異なる種類と数の要素が含まれる場合がある。幾つかの例によると、機器100は、本願明細書に開示される方法のうちの少なくとも幾つかを実行するよう構成されるスマートオーディオ装置であってよく、又はそれを含んでよい。他の実装では、機器100は、本願明細書に開示される方法のうちの少なくとも幾つかを実行するよう構成される別の装置、例えばラップトップコンピュータ、セルラ電話機、タブレット装置、スマートホームバブなどであってよく、又はそれを含んでよい。幾つかのそのような実装では、機器100は、サーバであってよく、又はそれを含んでよい。
本例では、機器100は、インタフェースシステム105及び制御システム110を含む。インタフェースシステム105は、幾つかの実装では、オーディオデータを受信するように構成されてよい。オーディオデータは、環境の少なくとも幾つかのスピーカによって再生されるようにスケジュールされたオーディオ信号を含むことができる。オーディオデータは、1つ以上のオーディオ信号及び関連する空間データを含むことができる。空間データは、例えば、チャネルデータ及び/又は空間メタデータを含むことができる。インタフェースシステム105は、環境のスピーカのセットの少なくとも幾つかのスピーカにレンダリングされたオーディオ信号を提供するように構成することができる。インタフェースシステム105は、幾つかの実装では、環境内の1つ以上のマイクロフォンから入力を受信するよう構成されてよい。
インタフェースシステム105は、1つ以上のネットワークインタフェース、及び/又は1つ以上の外部装置インタフェース(例えば、1つ以上のUSB(universal serial bus)インタフェース)を含んでよい。幾つかの実装によると、インタフェースシステム105は、1つ以上の無線インタフェースを含んでよい。インタフェースシステム105は、1つ以上のマイクロフォン、1つ以上のスピーカ、ディスプレイシステム、タッチセンサシステム、及び/又はジェスチャセンサシステム、のようなユーザインタフェースを実装する1つ以上の装置を含んでよい。幾つかの例では、インタフェースシステム105は、制御システム110とメモリシステム、例えば図1に示される任意的メモリシステム115との間の1つ以上のインタフェースを含んでよい。しかしながら、幾つかの場合に、制御システム110は、メモリシステムを含んでよい。
制御システム110は、例えば、汎用の単一又は複数チッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラマブル論理素子、個別ゲート又はトランジスタロジック、及び/又は個別ハードウェアコンポーネント、を含んでよい。
幾つかの実装では、制御システム110の機能は1つより多くの装置に存在してよい。例えば、制御システム110の部分は、ここに示された環境のうちの1つの中にある装置に存在してよく、制御システム110の別の部分は、サーバ、モバイル装置(例えば、スマートフォン、又はタブレットコンピュータ)のような、環境の外部にある装置の中に存在してよい、等である。他の例では、制御システム110の一部がここに示されている環境の1つ内の装置に存在し、制御システム110の別の部分が環境の1つ以上の他の装置に存在することができる。例えば、制御システムの機能は、環境の複数のスマートオーディオ装置に分散されることもあれば、オーケストレーション装置(ここではスマートホームハブと呼ばれるものなど)と環境の1つ以上の他の装置によって共有されることもある。インタフェースシステム105は、また、幾つかのそのような例では、1つより多くの装置に存在してよい。
幾つかの実装では、制御システム110は、本願明細書に開示した方法を少なくとも部分的に実行するよう構成されてよい。幾つかの例によれば、制御システム110は、複数のスピーカに渡る複数のオーディオストリームの再生を管理する方法を実施するように構成することができる。
本願明細書に記載の方法のうちの一部又は全部は、1つ以上の非一時的媒体に記憶された命令(例えば、ソフトウェア)に従い1つ以上の装置により実行されてよい。そのような非一時的媒体は、限定ではないが、RAM(random access memory)装置、ROM(read-only memory)装置、等を含む、本願明細書で説明されたようなメモリ装置を含んでよい。1つ以上の非一時的媒体は、例えば、図1に示される任意的メモリシステム115内に、及び/又は制御システム110内に、存在してよい。従って、本開示に記載された主題の種々の新規な態様は、ソフトウェアを記憶された1つ以上の非一時的媒体に実装されてよい。ソフトウェアは、例えば、オーディオデータを処理するよう少なくとも1つの装置を制御するための命令を含んでよい。ソフトウェアは、例えば、図1の制御システム110のような制御システムの1つ以上のコンポーネントにより実行可能であってよい。
幾つかの例では、機器100は、図1に示される任意的なマイクシステム120を含んでよい。任意的なマイクシステム120は、1つ以上のマイクロフォンを含んでよい。幾つかの実装では、1つ以上のマイクは、スピーカシステムのスピーカ、スマートオーディオ装置などのような別の装置の一部であるか、関連している場合がある。
幾つかの実装によると、機器100は、図1に示される任意的なスピーカシステム125を含んでよい。任意的なスピーカシステム125は、1つ以上のスピーカを含んでよい。ラウドスピーカは、本明細書において「スピーカ」と呼ばれることがある。幾つかの実施形態では、オプションのスピーカシステム125の少なくとも幾つかのスピーカを任意に配置することができる。例えば、オプションのスピーカシステム125の少なくとも幾つかのスピーカは、Dolby5.1、Dolby5.1.2、Dolby7.1、Dolby7.1.4、Dolby9.1、Hamasaki22.2などの任意の標準で規定されたスピーカレイアウトに対応しない位置に配置されてもよい。このような幾つかの例では、オプションのスピーカシステム125の少なくとも幾つかのスピーカは、任意の標準で規定されたスピーカレイアウトではなく、空間にとって便利な位置(例えば、スピーカを収容する空間がある場所)に配置されてもよい。
幾つかの例では、機器100は、図1に示される任意的なセンサシステム130を含んでよい。オプションのセンサシステム130は、1つ以上のカメラ、タッチセンサ、ジェスチャセンサ、モーション検出器などを含んでもよい。幾つかの実装によると、任意的なセンサシステム130は、1つ以上のカメラを含む場合がある。幾つかの実装では、カメラは独立したカメラである場合がある。幾つかの例では、任意的なセンサシステム130の1つ以上のカメラがスマートオーディオ装置に存在する場合があり、これは単一目的のオーディオ装置又は仮想アシスタントである場合がある。幾つかの例では、任意的なセンサシステム130の1つ以上のカメラがTV、携帯電話又はスマートスピーカ内に存在する場合がある。
幾つかの例では、機器100は、図1に示される任意的なディスプレイシステム135を含んでよい。任意的なディスプレイシステム135は、1つ以上の発光ダイオード(LED)ディスプレイなど、1つ以上のディスプレイを含む場合がある。場合によっては、任意的なディスプレイシステム135は、1つ以上の有機発光ダイオード(OLED)ディスプレイを含む場合がある。機器100がディスプレイシステム135を含む幾つかの例では、センサシステム130は、ディスプレイシステム135の1つ以上のディスプレイに近接するタッチセンサシステム及び/又はジェスチャセンサシステムを含む場合がある。幾つかのそのような実装によれば、制御システム110は、本願明細書に開示されたGUIのうちの1つのようなグラフィカルユーザインタフェース(GUI)を提示するようにディスプレイシステム135を制御するように構成される場合がある。
幾つかの例によると、機器100は、スマートオーディオ装置であってよく、又はそれを含んでよい。幾つかのそのような実装では、機器100は、起動ワード検出器であってよく、又はそれを含んでよい。幾つかの例では、機器100は、仮想アシスタントであってよく、又はそれを含んでよい。
図2は、本例における生活空間であるリスニング環境の平面図を示す。本願明細書で提供される他の図と同様に、図2に示される要素の数及び種類は、単なる例である。他の実装には、より多くの、より少ない、及び/又は異なる種類と数の要素が含まれる場合がある。この例によると、環境200は左上にリビングルーム210、中央下部にキッチン215、右下部に寝室222を含む。リビング空間全体に配置されたボックスと円は、スピーカ205a~205hのセットを表しており、少なくとも一部の実装ではスマートスピーカである可能性があり、空間にとって便利な場所に配置されているが、標準で規定されたレイアウトには準拠していない(任意に配置されている)。幾つかの例では、スピーカ205a~205hは、1つ以上の開示された実施形態を実装するように調整されてよい。
幾つかの例によると、環境200は、開示の方法のうちの少なくとも幾つかを実装するスマートホームハブを含んでよい。幾つかのそのような実施例によれば、スマートホームハブは、上述の制御システム110の少なくとも一部を含むことができる。幾つかの例では、スマート装置(スマートスピーカ、携帯電話、スマートテレビ、バーチャルアシスタントを実装するために使用される装置など)は、スマートホームハブを実施することができる。
この例では、環境200は、環境全体に分散されたカメラ211a~211eを含む。実装によっては、環境200内の1つ以上のスマートオーディオ装置も、1つ以上のカメラを含む場合がある。1つ以上のスマートオーディオ装置は、単一目的のオーディオ装置又は仮想アシスタントである場合がある。このような例の幾つかでは、任意的なセンサシステム130の1つ以上のカメラが、テレビ230、携帯電話、又はスピーカ205b、205d、205e、又は205hの1つ以上などのスマートスピーカ内に存在する場合がある。カメラ211a~211eは、本開示で提示された環境200のすべての描写には示されていないが、それにもかかわらず、環境200の各々は、幾つかの実装において、1つ以上のカメラを含む場合がある。
フレキシブルレンダリングでは、空間オーディオは、任意の数の任意に配置されたスピーカによりレンダリングされてもよい。家庭におけるスマートオーディオ装置(スマートスピーカなど)の普及に伴い、消費者がスマートオーディオ装置を使用して、オーディオのフレキシブルレンダリング、及びそのようにレンダリングされたオーディオの再生を実行することを可能にするフレキシブルレンダリング技術を実現する必要がある。
フレキシブルレンダリングを実装するために、Center of Mass Amplitude Panning (CMAP)及びFlexible Virtualization (FV)を含む幾つかの技術が開発されている。
スマートオーディオ装置のセットのスマートオーディオ装置によって(又はスピーカの別のセットによって)再生するために、空間オーディオミックスのレンダリング(又はレンダリングと再生)(例えば、オーディオストリーム又は複数のオーディオストリームのレンダリング)を実行するコンテキストでは、(例えば、スマートオーディオ装置内又はスマートオーディオ装置に結合される)スピーカの種類が異なる可能性があり、そのため、スピーカの対応する音響機能が大幅に異なる可能性がある。図2に示す例では、スピーカ205d、205f、及び205hは、単一の0.6インチスピーカを備えたスマートスピーカである。この例では、スピーカ205b、205c、205e、及び205fは、2.5インチウーファーと0.8インチツイーターを備えたスマートスピーカである。この例によると、スピーカ205gは、5.25インチウーファー、3つの2インチミッドレンジスピーカ、及び1.0インチツイーターを備えたスマートスピーカである。ここで、スピーカ205aは、16個の1.1インチビームドライバと2つの4インチウーファーを備えたサウンドバーである。従って、スマートスピーカ205d及び205fの低周波能力は、環境200内の他のスピーカ、特に4インチ又は5.25インチウーファーを備えたスピーカの低周波能力よりも著しく低い。
<幾つかの関連するゾーンベースの方法を含む動的処理の例>
図3は、本開示の種々の態様を実装可能なシステムのコンポーネントの例を示すブロック図である。本願明細書で提供される他の図と同様に、図3に示される要素の数及び種類は、単なる例である。他の実装には、より多くの、より少ない、及び/又は異なる種類と数の要素が含まれる場合がある。
この実施形態によれば、システム300は、スマートホームハブ305及びスピーカ205aから205mを含む。この実施形態では、スマートホームハブ305は、図1に示され、上述された制御システム110のインスタンスを含む。この実装によれば、制御システム110は、リスニング環境動的処理構成データモジュール310、リスニング環境動的処理モジュール315、及びレンダリングモジュール320を含む。リスニング環境動的処理構成データモジュール310、リスニング環境動的処理モジュール315、及びレンダリングモジュール320の幾つかの例を以下に説明する。幾つかの実施形態では、レンダリングモジュール320’は、レンダリング及びリスニング環境動的処理の両方のために構成されてもよい。
スマートホームハブ305とスピーカ205aから205mの間の矢印によって示唆されるように、スマートホームハブ305は、図1に示され、上述されたインタフェースシステム105のインスタンスも含む。幾つかの例によれば、スマートホームハブ305は、図2に示される環境200の一部であってもよい。幾つかの例では、スマートホームハブ305は、スマートスピーカ、スマートテレビ、携帯電話、ラップトップなどによって実施されてもよい。幾つかの実装では、スマートホームハブ305は、ソフトウェアによって、例えばダウンロード可能なソフトウェアアプリケーション又は「アプリ」のソフトウェアによって、実施されてもよい。幾つかの実装では、スマートホームハブ305は、モジュール320から同じ処理済みオーディオ信号を生成するために、すべてが並列に動作するスピーカ205a~mの各々に実装されてもよい。幾つかのそのような実施形態によれば、次に、スピーカの各々において、レンダリングモジュール320は、各スピーカ又はスピーカのグループに関連する1つ以上のスピーカフィードを生成し、これらのスピーカフィードを各スピーカ動的処理モジュールに提供してもよい。
幾つかの例では、スピーカ205a~205mは、図2のスピーカ205a~205hを含むことができるが、他の例では、スピーカ205a~205mは、他のスピーカであってもよく、又は他のスピーカを含んでもよい。従って、この例では、システム300は、M個のスピーカを含み、ここで、Mは2より大きい整数である。
スマートスピーカ、及び他の多くのパワードスピーカは、通常、スピーカの歪みを防止するために、あるタイプの内部動的処理を採用する。このような動的処理に関連することが多いのは、信号レベルが動的に保持される信号限界閾値(例えば、周波数間で変動する限界閾値)である。例えば、Dolby Audio Processing (DAP)オーディオ後処理パッケージの幾つかのアルゴリズムの1つであるDolbyのAudio Regulatorは、このような処理を提供する。幾つかの例では、通常はスマートスピーカの動的処理モジュールを介してではないが、動的処理は、1つ以上のコンプレッサー、ゲート、エキスパンダー、ダッカーなどを適用することも含んでよい。
従って、この例では、スピーカ205a~205mの各々は、対応するスピーカ動的処理(dynamics processing (DP))モジュールA~Mを含む。スピーカ動的処理モジュールは、リスニング環境の個々のスピーカごとに個々のスピーカ動的処理構成データを適用するように構成される。例えば、スピーカDPモジュールAは、スピーカ205aに適した個別スピーカ動的処理構成データを適用するよう構成される。幾つかの例では、個別スピーカ動的処理構成データは、個々のスピーカのより多くの機能の1つ、例えば、特定の周波数範囲内で特定のレベルで顕著な歪みなしにオーディオデータを再生するスピーカの能力に対応することができる。
空間オーディオが、各々が潜在的に異なる再生限界を有する異種スピーカ(例えば、スマートオーディオ装置のスピーカ又はスマートオーディオ装置に結合されたスピーカ)のセットにわたってレンダリングされる場合、全体的なオーディオミックスに対して動的処理を実行する際に注意を払う必要がある。単純な解決策は、参加する各スピーカのスピーカフィードに空間ミックスをレンダリングし、各スピーカに関連付けられた動的処理モジュールが、そのスピーカの限界に従って、対応するスピーカフィードで独立して動作できるようにすることである。
このアプローチは、各スピーカを歪ませないようにする一方で、ミックスの空間バランスを知覚的に混乱するように動的にシフトする可能性がある。例えば、図2を参照して、テレビ番組がテレビ230に表示されており、対応するオーディオが環境200のスピーカによって再生されていると仮定する。テレビ番組の間、固定オブジェクト(工場内の重機ユニットなど)に関連付けられたオーディオが位置244にレンダリングされることを意図していると仮定する。更に、スピーカ205dに関連付けられた動的処理モジュールが、実質的に低音域のオーディオのレベルを、スピーカ205bに関連付けられた動的処理モジュールよりも低下させると仮定する。これは、低音域のサウンドを再生するスピーカ205bの能力が実質的に高いためである。固定オブジェクトに関連付けられた信号の音量が変動する場合、音量が高いと、スピーカ205dに関連付けられた動的処理モジュールは、スピーカ205bに関連付けられた動的処理モジュールが同じオーディオのレベルを低下させるよりも、低音域のオーディオのレベルを実質的に多く低下させる。このレベルの差は、固定オブジェクトの見かけの位置を変化させる。従って、改善された解決策が必要である。
本開示の幾つかの実施形態は、スマートオーディオ装置のセット(例えば、調整されたスマートオーディオ装置のセット)のうちの少なくとも1つの(例えば、すべて又は一部の)スマートオーディオ装置により、及び/又は別のスピーカのセットのうちの少なくとも1つ(例えば、すべて又は一部)のスピーカによる再生のための空間オーディオミックスのレンダリング(又はレンダリング及び再生)(例えば、オーディオストリーム又は複数のオーディオストリームのレンダリング)のためのシステム及び方法である。幾つかの実施形態は、そのようなレンダリング(例えば、スピーカフィードの生成を含む)のための方法(又はシステム)、及びレンダリングされたオーディオの再生(例えば、生成されたスピーカフィードの再生)である。このような実施形態の例は、以下を含む。
オーディオ処理のためのシステム及び方法は、少なくとも2つのスピーカ(例えば、スピーカのセットのうちの全部又は一部のスピーカ)による再生のためのオーディオのレンダリング(例えば、オーディオストリーム又は複数のオーディオストリームをレンダリングすることによって、空間オーディオミックスをレンダリングする)を含むことができ、以下によることを含む:
(a)個々のスピーカの動的処理構成データ(個々のスピーカの限界閾値(再生限界閾値)など)を組み合わせることにより、複数のスピーカのリスニング環境動的処理構成データ(組み合わせ閾値など)を決定する。
(b)複数のスピーカのリスニング環境動的処理構成データ(例えば、組み合わせ閾値)を使用してオーディオ(例えば、空間オーディオミックスを示す1つ以上のオーディオストリーム)に対して動的処理を実行して、処理済みオーディオを生成する。
(c)処理済みオーディオをスピーカフィードにレンダリングする。
幾つかの実装によれば、処理(a)は、図3に示すリスニング環境動的処理構成データモジュール310などのモジュールによって実行されてもよい。スマートホームハブ305は、インタフェースシステムを介して、M個のスピーカの各々について個別スピーカ動的処理構成データを取得するように構成されてもよい。この実装では、個別スピーカ動的処理構成データは、複数のスピーカの各スピーカについての個別スピーカ動的処理構成データセットを含む。幾つかの例によれば、1つ以上のスピーカについての個別スピーカ動的処理構成データは、1つ以上のスピーカの1つ以上の機能に対応してもよい。この例では、個別スピーカ動的処理構成データセットの各々は、少なくとも1つのタイプの動的処理構成データを含む。幾つかの例では、スマートホームハブ305は、スピーカ205a~205mの各々にクエリすることによって、個別スピーカ動的処理構成データセットを取得するように構成することができる。他の実装では、スマートホームハブ305は、メモリに格納されている、以前に取得された個別スピーカ動的処理構成データセットのデータ構造をクエリすることによって、個別スピーカ動的処理構成データセットを取得するように構成することができる。
幾つかの例では、処理(b)は、図3のリスニング環境動的処理モジュール315などのモジュールによって実行されてもよい。処理(a)及び(b)の幾つかの詳細な例を以下に説明する。
幾つかの例では、処理(c)のレンダリングは、図3のレンダリングモジュール320又はレンダリングモジュール320’などのモジュールによって実行されてもよい。幾つかの実施形態では、オーディオ処理は以下を含んでよい。
(d)各スピーカの個別スピーカ動的処理構成データに従って、レンダリング済みオーディオ信号に対して動的処理を実行する(例えば、対応するスピーカに関連する再生限界閾値に従ってスピーカフィードを制限し、それによって制限されたスピーカフィードを生成する)。処理(d)は、例えば、図3に示す動的処理モジュールA~Mによって実行することができる。
スピーカは、スマートオーディオ装置のセットのうち少なくとも1つ(例えば、すべて又は一部)のスマートオーディオ装置の(又はそれに結合された)スピーカを含むことができる。幾つかの実装では、ステップ(d)で制限されたスピーカフィードを生成するために、ステップ(c)で生成されたスピーカフィードは、例えば、スピーカ上での最終的な再生の前にスピーカフィードを生成するために、第2段階の動的処理によって(例えば、各スピーカの関連する動的処理システムによって)処理することができる。例えば、スピーカフィード(又はそのサブセット又は部分)は、スピーカのうちの各々の異なる1つのスピーカの動的処理システム(例えば、スマートオーディオ装置の動的処理サブシステムであって、スマートオーディオ装置がスピーカのうちの関連する1つのスピーカを含むか又はそれに結合されている、動的処理サブシステム)に提供されてもよく、各前記動的処理システムからの処理済みオーディオ出力は、スピーカのうちの関連する1つのスピーカのスピーカフィードを生成するために使用されてもよい。スピーカ固有の動的処理(つまり、各スピーカに対して独立して実行される動的処理)に続いて、処理済み(例えば、動的に制限された)スピーカフィードは、スピーカを駆動して音の再生を引き起こすために使用されてもよい。
(ステップ(b)における)第1段階の動的処理は、ステップ(a)及び(b)が省略された場合に生じ得る空間バランスの知覚的に混乱するシフトを低減するように設計されてもよく、ステップ(d)から生じる動的処理された(例えば、制限された)スピーカフィードは、(ステップ(b)で生成された処理済みオーディオに応答するのではなく)元のオーディオに応答して生成されてもよい。これは、ミックスの空間バランスにおける望ましくないシフトを防止できる。ステップ(b)の動的処理は、信号レベルがすべてのスピーカの閾値未満に低減されたことを必ずしも保証しない場合があるので、ステップ(c)からのレンダリングされたスピーカフィードに対して動作する第2段階の動的処理は、スピーカが歪まないことを保証するように設計されてもよい。個別スピーカ動的処理構成データの組み合わせ(例えば、第1段階(ステップ(a)における閾値の組み合わせ)は、幾つかの例では、スピーカ全体にわたって(例えば、スマートオーディオ装置間で)個別スピーカ動的処理構成データ(例えば限界閾値)を平均化するステップ、又はスピーカ全体にわたって(例えば、スマートオーディオ装置間で)個別スピーカ動的処理構成データ(例えば限界閾値)の最小値を取るステップを含んでもよい。
幾つかの実施形態では、第1段階の動的処理(ステップ(b))が空間ミックスを示すオーディオ(例えば、少なくとも1つのオブジェクトチャネル及び任意的に少なくとも1つのスピーカチャネルを更に含む、オブジェクトベースのオーディオプログラムのオーディオ)に対して動作する場合、この第1段階は、空間ゾーンの使用によるオーディオオブジェクト処理の技術に従って実施されてもよい。このような場合、各ゾーンに関連付けられた組み合わされた個別スピーカ動的処理構成データ(例えば、組み合わされた限界閾値)は、個別スピーカ動的処理構成データ(例えば、個別スピーカ限界閾値)の加重平均によって(又はそれとして)導出されてもよく、この加重は、少なくとも部分的に、各スピーカのゾーンへの空間的近接及び/又はゾーン内の位置によって与えられるか、又は決定されてもよい。
例示的な実施形態では、複数のM個のスピーカ(M≧2)を想定し、各スピーカは変数iによってインデックス付けされる。各スピーカiに関連付けられているのは、周波数可変再生限界閾値Ti[f]であり、変数fは、閾値が指定される有限の周波数セットへのインデックスを表す(周波数セットのサイズが1である場合、対応する単一の閾値は、周波数範囲全体に適用される広帯域と考えられることに注意する)。この例によれば、これらの閾値は、スピーカが歪むことを防止したり、スピーカがその付近で好ましくないと考えられるレベルを超えて再生することを防止したりするなどの特定の目的のために、オーディオ信号を閾値Ti[f]未満に制限するために、各々の独立した動的処理機能において各スピーカによって利用される。
図4A、4B、及び4Cは、再生限界閾値及び対応する周波数の例を示す。示されている周波数の範囲は、例えば、平均的な人間に聞こえる周波数の範囲に及ぶことができる(例えば、20Hz~20kHz)。これらの例では、再生限界閾値は、グラフ400a、400b及び400cの縦軸によって示されており、これらの例では「レベル閾値」とラベル付けされている。再生限界/レベル閾値は、縦軸上の矢印の方向に増加する。再生限界/レベル閾値は、例えば、デシベルで表すことができる。これらの例では、グラフ400a、400b及び400cの横軸は、横軸上の矢印の方向に増加する周波数を示す。曲線400a、400b及び400cによって示される再生限界閾値は、例えば、個々のスピーカの動的処理モジュールによって実装することができる。
図4Aのグラフ400aは、周波数の関数としての再生限界閾値の第1例を示す。曲線405aは、対応する各周波数値の再生限界閾値を示す。この例では、低音周波数fbにおいて、入力レベルTiで受信された入力オーディオは、出力レベルToで動的処理モジュールによって出力される。低音周波数fbは、例えば、60~250Hzの範囲であってもよい。しかし、この例では、高音周波数ftにおいて、入力レベルTiで受信された入力オーディオは、同じレベルのレベルTiで動的処理モジュールによって出力される。高音周波数ftは、例えば、1280Hzより高い範囲であってもよい。従って、この例では、曲線405aは、高音周波数よりも低音周波数に対して有意に低い閾値を適用する動的処理モジュールに対応する。このような動的処理モジュールは、ウーファーを持たないスピーカ(例えば、図2のスピーカ205d)に適していてもよい。
図4Bの曲線400bは、周波数の関数としての再生限界閾値の第2例を示す。曲線405bは、図1Aに示す同じ低音周波数fbで、入力レベルTiで受信された入力オーディオが、出力レベルToで動的処理モジュールによって出力されることを示す。従って、この例では、曲線405bは、曲線405aよりも低音周波数に対して低い閾値を適用しない動的処理モジュールに対応する。このような動的処理モジュールは、少なくとも小さなウーファーを持つスピーカ(例えば、図2のスピーカ205b)に適していてもよい。
図4Cのグラフ400cは、周波数の関数としての再生限界閾値の第3例を示す。曲線405c(この例では直線である)は、図1Aに示す同じ低音周波数fbで、入力レベルTiで受信された入力オーディオが、同じレベルで動的処理モジュールによって出力されることを示す。従って、この例では、曲線405cは、低音周波数を含む広範囲の周波数を再生することができるスピーカに適している動的処理モジュールに対応してよい。簡略化のために、動的処理モジュールは、示されたすべての周波数に同じ閾値を適用する曲線405dを実装することによって、曲線405cを近似することができることがわかるだろう。
空間オーディオミックスは、Center of Mass Amplitude Panning (CMAP)又はFlexible Virtualization (FV).などの既知のレンダリングシステムを使用して、複数のスピーカのためにレンダリングすることができる。空間オーディオミックスの構成要素から、レンダリングシステムは、複数のスピーカの各々に対してスピーカフィードを生成する。幾つかの以前の例では、スピーカフィードは、閾値Ti[f]を持つ各スピーカの関連する動的処理関数によって独立して処理された。本開示の利益がない場合、この説明されたレンダリングシナリオは、レンダリングされた空間オーディオミックスの知覚空間バランスに混乱するようなシフトをもたらす可能性がある。例えば、M個のスピーカの1つ、例えばリスニングエリアの右側にあるスピーカは、他のスピーカよりもはるかに能力(例えば、低音域でのオーディオのレンダリングの能力)が低い可能性があり、従って、そのスピーカの閾値Ti[f]は、少なくとも特定の周波数範囲において、他のスピーカの閾値よりも著しく低い可能性がある。再生中、このスピーカの動的処理モジュールは、左側のコンポーネントよりも右側の空間ミックスのコンポーネントのレベルを著しく低下させる。リスナーは、空間ミックスの左右のバランスの間のこのような動的シフトに非常に敏感であり、その結果は非常に混乱すると感じるかもしれない。
この問題に対処するために、幾つかの例では、リスニング環境の個々のスピーカの個々のスピーカ動的処理構成データ(例えば、再生限界閾値)を組み合わせて、リスニング環境のすべてのスピーカのリスニング環境動的処理構成データを作成する。次に、リスニング環境動的処理構成データを利用して、スピーカフィードにレンダリングする前に、空間オーディオミックス全体のコンテキストで動的処理を最初に実行することができる。この第1段階の動的処理は、1つの独立したスピーカフィードとは対照的に、空間ミックス全体にアクセスできるので、ミックスの知覚空間バランスに混乱するようなシフトを与えない方法で処理を実行することができる。個々のスピーカ動的処理構成データ(例えば、再生限界閾値)は、個々のスピーカの独立した動的処理機能のいずれかによって実行される動的処理の量を排除又は削減する方法で組み合わせることができる。
リスニング環境動的処理構成データを決定する1つの例では、個々のスピーカの個々のスピーカ動的処理構成データ(例えば、再生限界閾値)は、第1段階の動的処理で空間ミックスのすべてのコンポーネントに適用されるリスニング環境動的処理構成データの1つのセットに組み合わせることができる。例えば、以下の周波数的に変化する再生限界閾値:
このような幾つかの例によれば、制限がすべてのコンポーネントで同じであるため、ミックスの空間バランスを維持することができる。個々のスピーカ動的処理構成データ(例えば、再生限界閾値)を組み合わせる1つの方法は、すべてのスピーカiにわたって最小値を取ることである:
このような組み合わせは、空間ミックスが最初にすべての周波数で最も能力の低いスピーカの閾値以下に制限されるため、各スピーカの個々の動的処理の動作を本質的に排除する。しかしながら、このような戦略は過度に積極的である可能性がある。多くのスピーカがそれらの能力よりも低いレベルで再生している可能性があり、すべてのスピーカの結合再生レベルは好ましくないほど低い可能性がある。例えば、図4Aに示す低音域の閾値が図4Cの閾値に対応するスピーカに適用された場合、後者のスピーカの再生レベルは低音域で不必要に低くなる。リスニング環境の動的処理構成データを決定する別の組み合わせは、リスニング環境のすべてのスピーカに渡り個々のスピーカの動的処理構成データの平均(mean、average)を取ることである。例えば、再生限界閾値のコンテキストでは、平均は次のように決定することができる。
この組み合わせでは、第1段階の動的処理がより高いレベルに制限されるため、全体的な再生レベルは最小値を取る場合と比較して増加する可能性がある。これにより、より能力の高いスピーカがより大きな音量で再生できるようになる。個々の限界閾値が平均値を下回るスピーカの場合、それらの独立した動的処理機能は、必要に応じて関連するスピーカフィードを依然として制限する可能性がある。ただし、第1段階の動的処理では、空間ミックスに対して幾つかの初期制限が実行されているため、この制限の要件が軽減されている可能性がある。
リスニング環境の動的処理構成データを決定する幾つかの例によれば、チューニングパラメータを介して個々のスピーカの動的処理構成データの最小値と平均値の間を補間する調整可能な組み合わせを作成することができる。例えば、再生限界閾値のコンテキストでは、補間は次のように決定することができる。
個々のスピーカ動力学処理構成データの他の組み合わせが可能であり、本開示は、そのような組み合わせの全てをカバーすることを意味する。
図5A及び5Bは、ダイナミックレンジ圧縮データの例を示すグラフである。グラフ500a及び500bでは、デシベル単位の入力信号レベルが横軸に示され、デシベル単位の出力信号レベルが縦軸に示されている。他の開示された例と同様に、特定の閾値、比率及び他の値は、単に例として示されており、限定するものではない。
図5Aに示された例では、出力信号レベルは、この例では-10dBである閾値を下回る入力信号レベルと等しい。他の例は、例えば、-20dB、-18dB、-16dB、-14dB、-12dB、-8dB、-6dB、-4dB、-2dB、0dB、2dB、4dB、6dBなどの異なる閾値を含むことができる。閾値より上では、圧縮比の様々な例が示されている。N:1の比率は、閾値より上では、入力信号がNdB増加するごとに出力信号レベルが1dB増加することを意味する。例えば、10:1の圧縮比率(線505e)は、閾値より上では、入力信号が10dB増加するごとに出力信号レベルが1dBしか増加しないことを意味する。1:1の圧縮比(線505a)は、閾値より上でも、出力信号レベルが入力信号レベルと等しいままであることを意味する。線505b、505c、及び505dは、3:2、2:1、及び5:1の圧縮比に対応する。他の実装は、2.5:1、3:1、3.5:1、4:3、4:1などのように、異なる圧縮比を提供することができる。
図5Bは、この例では0dBである閾値で又はその付近で、圧縮比がどのように変化するかを制御する「knee」の例を示している。この例によると、「硬い」knee(膝)を持つ圧縮曲線は、2つの直線セグメント、つまり閾値までの線分510aと閾値より上の線分510bで構成されている。硬い膝は実装が簡単であるが、アーチファクトを引き起こす可能性がある。
図5Bには、「柔らかい」knee(膝)の一例も示されている。この例では、柔らかい膝は10dBに及ぶ。この実装によれば、10dBの範囲の上下では、柔らかい膝を有する圧縮曲線の圧縮比は、硬い膝を有する圧縮曲線の圧縮比と同じである。他の実装は、「柔らかい」膝の様々な他の形状を提供することができ、それらは、より多くのデシベル又はより少ないデシベルに及ぶことができ、その範囲の上の異なる圧縮比を示すことができる、などである。
他のタイプのダイナミックレンジ圧縮データは、「アタック」データ及び「リリース」データを含むことができる。アタックは、圧縮比によって決定されるゲインに到達するために、例えば、入力における増加したレベルに応答して、圧縮器がゲインを減少させる期間である。圧縮器のアタック時間は、一般に25ミリ秒から500ミリ秒の範囲であるが、他のアタック時間も実現可能である。リリースは、圧縮比によって決定される出力ゲイン(入力レベルが閾値を下回った場合には入力レベル)に到達するために、例えば入力におけるレベルの低下に応答して、圧縮器がゲインを増加させている期間である。リリース時間は、例えば、25ミリ秒から2秒の範囲であってもよい。
従って、幾つかの例では、個々のスピーカ動的処理構成データは、複数のスピーカの各スピーカについて、ダイナミックレンジ圧縮データセットを含んでもよい。ダイナミックレンジ圧縮データセットは、閾値データ、入力/出力比データ、アタックデータ、リリースデータ及び/又はkneeデータを含んでもよい。これらのタイプの個々のスピーカ動的処理構成データの1つ以上を組み合わせて、リスニング環境動的処理構成データを決定してもよい。再生限界閾値の組み合わせに関して上述したように、幾つかの例では、ダイナミックレンジ圧縮データを平均化して、リスニング環境動的処理構成データを決定してもよい。幾つかの例では、ダイナミックレンジ圧縮データの最小値又は最大値を使用して、リスニング環境動的処理構成データ(例えば、最大圧縮比)を決定してもよい。他の実装では、個々のスピーカ動的処理のためのダイナミックレンジ圧縮データの最小値と平均値の間を補間する調整可能な組み合わせを、例えば、式(C)を参照して上述したような調整パラメータを介して作成してもよい。
上述した幾つかの例では、第1段階の動的処理で、リスニング環境動的処理構成データの単一セット(例えば、以下の結合された閾値の単一のセット)が空間ミックスのすべてのコンポーネントに適用される:
このような実装は、ミックスの空間バランスを維持することができるが、他の望ましくないアーチファクトを与える可能性がある。例えば、「空間ダッキング」は、孤立した空間領域の空間ミックスの非常に大きな音量の部分が調整されるミックス全体を下げたときに発生する可能性がある。この大きな音量のコンポーネントから空間的に離れた、ミックスの他の穏やかなコンポーネントは、不自然に穏やかであると認識される可能性がある。例えば、穏やかなバックグラウンドミュージックは、結合された閾値:
よりも低いレベルで空間ミックスのサラウンドフィールドで再生される可能性がある。従って、第1段階の動的処理によっては、空間ミックスの制限は実行されない。次に、大きな銃声が空間ミックスのフロントに瞬間的に導入され(例えば映画のサウンドトラックのスクリーン上)、ミックスの全体的なレベルが結合された閾値を超えて増加する可能性がある。この時点で、第1段階の動的処理は、ミックス全体のレベルを以下の閾値よりも低くする:
音楽は銃声から空間的に分離されているため、これは音楽の連続ストリームで不自然にダッキングしていると認識される可能性がある。
<ゾーンベースの方法の例>
このような問題に対処するために、一部の実装では、空間ミックスの様々な「空間ゾーン」に対して独立又は部分的に独立した動的処理を許可している。空間ゾーンは、空間ミックス全体がレンダリングされる空間領域のサブセットと見なすことができる。次の説明では、再生限界閾値に基づく動的処理の例を示すが、この概念は、他の種類の個々のスピーカ動的処理構成データとリスニング環境動的処理構成データにも同様に適用される。
図6は、リスニング環境の空間ゾーンの例を示す。図6は、3つの空間ゾーン:つまりフロント、センタ、及びサラウンドに細分化された空間ミックス(正方形全体で表される)の領域の例を示している。他の例には、より多くの空間ゾーン、より少ない空間ゾーン、異なる空間ゾーン、又はそれらの組み合わせを含めることができる。例えば、幾つかの例には、1つ以上のオーバヘッドゾーンを含めることができる。
図6の空間ゾーンは明確な境界で示されるが、実際には、1つの空間ゾーンから別の空間ゾーンへの遷移を連続的に扱うことが有益である。例えば、正方形の左端の中央に位置する空間ミックスのコンポーネントは、そのレベルの半分をフロントゾーンに割り当て、半分をサラウンドゾーンに割り当てることができる。空間ミックスの各コンポーネントからの信号レベルは、この連続的な方法で各空間ゾーンに割り当てられ、蓄積される。動的処理関数は、ミックスから割り当てられた全体的な信号レベルで、各空間ゾーンに対して独立して動作することができる。次に、空間ミックスの各コンポーネントについて、各空間ゾーンからの動的処理の結果(例えば周波数当たりの時間変動利得)を組み合わせて、コンポーネントに適用することができる。幾つかの例では、空間ゾーンの結果のこの組み合わせは、コンポーネントごとに異なり、その特定のコンポーネントの各ゾーンへの割り当ての関数である。最終的な結果として、同様の空間ゾーン割り当てを持つ空間ミックスのコンポーネントは、同様の動的処理を受けるが、空間ゾーン間の独立性は許容される。空間ゾーンは、(例えば、記述された空間ダッキングのような他のアーチファクトを低減するための)幾らかの空間的に独立した処理を可能にしながら、左右の不均衡のような好ましくない空間シフトを防止するために有利に選択され得る。
空間ゾーンによって空間ミックスを処理するための技術は、有利には、上記で参照される第1段階の又は複数の段階の動的処理(例えば、段階(a)、段階(b)、又はその両方)で使用され得る。例えば、スピーカi全体にわたる個々のスピーカ動的処理構成データ(例えば、再生限界閾値)の異なる組み合わせが、各空間ゾーンについて計算され得る。結合されたゾーン閾値のセットは、次式によって表され得る:
ここで、インデックスjは、複数の空間ゾーンの1つを指す。動的処理モジュールは、関連する閾値:
を有して、各空間ゾーンについて独立して動作してよく、結果は、上記の技術に従って、空間ミックスの構成コンポーネントに適用され得る。
空間信号が、各々が関連する所望の空間位置(時間により変化する可能性がある)を有する、合計K個の個々の構成信号xk[t]から構成されるものとしてレンダリングされることを考える。ゾーン処理を実施するための1つの特定の方法は、ゾーンの位置に対するオーディオ信号の所望の空間位置の関数として、各オーディオ信号xk[t]がゾーンjにどの程度寄与するかを記述する時間変動パンニングゲインαkj[t]を計算することを含む。これらのパンニングゲインは、ゲインの二乗の合計が1に等しいことを要求する電力保存パンニング則に従うように有利に設計され得る。これらのパンニングゲインから、ゾーン信号sj[t]は、そのゾーンのパンニングゲインによって重み付けされた構成信号の合計として計算され得る:
各ゾーン信号sj[t]は、ゾーン閾値:
によってパラメータ化された動的処理関数DPによって独立して処理され、周波数及び時間変動ゾーン修正ゲインGjを生成する:
周波数及び時間変動修正ゲインは、ゾーンに対する信号のパンニングゲインに比例するゾーン修正ゲインを組み合わせることによって、各個々の構成信号xk[t]について計算することができる:
これらの信号修正ゲインGkは、次に、例えばフィルタバンクを使用して、動的処理された構成信号x^k[t]を生成するために、各構成信号に適用することができる。構成信号x^k[t]は後にスピーカ信号へとレンダリングされてよい。
各空間ゾーンに対する個々のスピーカ動的処理構成データ(スピーカ再生限界閾値など)の組み合わせは、様々な方法で実行することができる。一例として、空間ゾーン再生限界閾値:
は、空間ゾーン及びスピーカ依存重み付けwij[f]を使用して、スピーカ再生限界閾値Ti[f]の加重和として計算することができる:
同様の重み付け関数は、他のタイプの個々のスピーカ動的処理構成データに適用することができる。有利なことに、空間ゾーンの結合された個々のスピーカ動的処理構成データ(例えば、再生限界閾値)は、その空間ゾーンに関連する空間ミックスのコンポーネントを再生することを主に担当するスピーカの個々のスピーカ動的処理構成データ(例えば、再生限界閾値)にバイアスをかけることができる。これは、周波数fに対してそのゾーンに関連する空間ミックスのコンポーネントをレンダリングすることを担当する各スピーカの関数として、重みwij[f]を設定することによって達成することができる。
図7は、図6の空間ゾーン内のスピーカの例を示す。図7は、図6と同じゾーンを示すが、空間ミックスのレンダリングを担当する5つの例示的なスピーカ(スピーカ1、2、3、4、5)の位置がオーバーレイされている。この例では、スピーカ1、2、3、4、及び5はひし形で表されている。この特定の例では、スピーカ1はセンタゾーン、スピーカ2と5はフロントゾーン、スピーカ3と4はサラウンドゾーンのレンダリングを主に担当する。スピーカから空間ゾーンへのこの概念的な1対1のマッピングに基づいて重みwij[f]を作成することもできるが、空間ミックスの空間ゾーンベースの処理と同様に、より連続的なマッピングが好ましい場合がある。例えば、スピーカ4はフロントゾーンに非常に近く、スピーカ4と5の間に配置されたオーディオミックスのコンポーネントは(概念的なフロントゾーンにあるが)、スピーカ4と5の組み合わせによって主に再生される可能性がある。そのため、スピーカ4の個々のスピーカ動的処理構成データ(例えば、再生限界閾値)が、フロントゾーンとサラウンドゾーンの結合された個々のスピーカ動的処理構成データ(例えば、再生限界閾値)に貢献することは理にかなっている。
この連続的なマッピングを実現する1つの方法は、重みwij[f]を、空間ゾーンjに関連付けられたコンポーネントをレンダリングする際に、各スピーカiの相対的な貢献度を記述するスピーカ参加値に等しく設定することである。このような値は、(例えば、上述のステップ(c)からの)スピーカへのレンダリングを担当するレンダリングシステムと、各空間ゾーンに関連付けられている1つ以上の公称空間位置のセットから直接導出することができる。この公称空間位置のセットには、各空間ゾーン内の位置のセットを含めることができる。
図8は、図7の空間ゾーンとスピーカに重ねられた公称空間位置の例を示す。公称位置は、番号付きの円で示されている。フロントゾーンに関連付けられている2つの位置は、正方形の上部角にあり、サラウンドゾーンに関連付けられている2つの位置は、正方形の下部角にある。
空間ゾーンのスピーカの参加値を計算するには、ゾーンに関連付けられている公称位置の各々をレンダラを介してレンダリングして、その位置に関連付けられているスピーカの活性化を生じることができる。これらの活性化は、例えば、CMAPの場合には各スピーカのゲインであってもよく、FVの場合には各スピーカの所与の周波数における複素値であってもよい。次に、各スピーカ及びゾーンについて、これらの活性化は、空間ゾーンに関連する公称位置の各々にわたって累積されて、値gij[f]を生成することができる。この値は、空間ゾーンjに関連する公称位置のセット全体をレンダリングするためのスピーカiの総活性化を表す。最後に、空間ゾーンにおけるスピーカ参加値は、スピーカ全体にわたるこれらの累積活性化のすべての合計によって正規化された累積活性化gij[f]として計算されてもよい。次に、重みが、このスピーカ参加値に設定されてもよい。
説明された正規化は、すべてのスピーカiにわたるwij[f]の合計が1に等しいことを保証し、これは式(G)の重みにとって望ましい特性である。
幾つかの実装によれば、スピーカ参加値を計算し、これらの値の関数として閾値を結合するための上記のプロセスは、静的プロセスとして実行されてもよく、結果として得られる結合した閾値は、環境内のスピーカのレイアウト及び能力を決定するセットアップ手順中に1回計算される。このようなシステムでは、セットアップ後、個々のスピーカの動的処理構成データと、レンダリングアルゴリズムが所望のオーディオ信号位置の関数としてスピーカを活性化する方法の両方が静的なままであると想定されてもよい。ただし、特定のシステムでは、これらの側面の両方が、例えば、再生環境における変化する条件に応じて、時間の経過とともに変化する可能性があり、そのような変化を考慮するために、連続的又はイベントによってトリガされる方法のいずれかで、上記のプロセスに従って結合した閾値を更新することが望ましい場合がある。
<effort信号を含むオーディオ信号コンポーネントのマッピングの例>
空間オーディオミックスのコンポーネント信号の時間的及び周波数的に変化するマッピングは、ここではオーディオオブジェクトとも呼ばれ、一般に次の式で表すことができる:
ここで、変数t及びfは、オーディオオブジェクト信号Oi、スピーカ信号Sj、及びオブジェクトiからスピーカ信号jへのマッピングHijの時間及び周波数変動を表す。オーディオオブジェクトの数は、Noによって与えられ、No≧2であり、スピーカ信号の数は、Nsによって与えられ、Ns≧2である。マッピングHijは、直交ミラーフィルタ(quadrature mirror filter (QMF))又は短時間フーリエ変換(short-time Fourier transform (STFT))のようなフィルタバンクの個々のバンドに適用される実又は複素の時変ゲイン、時間ドメインにおいてオーディオオブジェクトに適用される時変有限インパルス応答(finite impulse response (FIR))フィルタ又は時変無限インパルス応答(infinite impulse response (IIR))フィルタなど、その形態及び適用が多数の形態をとることができる時変フィルタとして一般的に考えることができる。
この例によれば、各オーディオオブジェクト信号Oiに関連付けられているのは、時間とともに変化し得る以下の意図された知覚空間位置である:
一例として、このような位置は、Dolby Atmos(商標)空間オーディオミックスの一部であるオーディオオブジェクトの時変3D(x,y,z)メタデータに対応し得る。別の例では、オーディオオブジェクト信号は、Dolby5.1信号などのマルチチャネル信号内のチャネルに対応してよく、所望の位置は固定されてよい。いずれの場合も、意図された知覚空間位置:
は、オーディオコンテンツ作成者によって選択され得る。この例では、各スピーカ信号Sjに関連付けられているのは、スピーカの仮定された物理的位置:
であり、セット
は、スピーカk=1..Nsのすべてのスピーカ位置を表す。
所与のオーディオオブジェクト信号i及びスピーカjについて、信号Eij(f,t)は、スピーカjの最大再生限界に対するオブジェクトiに関連付けられたスピーカ信号レベルの時間及び周波数の変化する表現を表す。簡潔にするために、これを以降、effort信号と呼ぶ。effort信号のレベルが増加すると、これは、スピーカj上のオブジェクトiのレンダリングが、スピーカjがその再生限界閾値に近づくか、又はそれを超える結果となることを示す。集合{Eik(f,t)}は、すべてのスピーカk=1...Nsに対するオブジェクトiに関連するeffort信号を表す。
マッピングHijの計算は、次に、オブジェクト位置の集合:
スピーカ位置の集合:
及びeffort信号の集合:{Eik(f,t)}の関数として、例えば以下のように計算することができる:
この例では、マッピング関数Mjは、すべてのスピーカ信号にわたるマッピングHijを計算し、すべてのスピーカ信号が所定の位置:
に位置するスピーカ上で同時に再生されるときに、オーディオオブジェクトOiの知覚空間位置を
にほぼ一致させることを目標とする。つまり、各マッピングは、スピーカ信号が関連付けられたスピーカ位置に位置する2つ以上の対応するスピーカ上で再生されるときに、関連付けられたオーディオ信号の意図された知覚空間位置をほぼ達成するように計算される。幾つかの例では、関連するオーディオ信号の意図された知覚空間位置をほぼ達成することは、利用可能なスピーカ及び関連するスピーカ位置が与えられた場合に、知覚空間位置と意図された知覚空間位置との差を最小化することを含むことができる。更に、この例では、この近似を達成することは、effort信号によって課される動作制約に従う。固定されたオブジェクト位置については、effort信号Eij(f,t)がある閾値μjを超えて増加するにつれてマッピングHijが減少するべきであり、同時に、マッピングHikは、それらのeffort信号が閾値μk未満である1つ以上の他のスピーカkについて増加するべきである。この動作は、時間の2つの瞬間t1及びt2で議論された量を考慮することによって、より正確に記述することができる:
上記の数学的に記述された動作は、幾つかの例では、空間ミックスのレベルが特定のスピーカの再生限界閾値に近づくと、空間ミックスレベルが他のスピーカの限界閾値から更に離れている他のスピーカへのマッピングを増加させるために、そのスピーカへのコンポーネントのマッピングが削減されるという高レベルの考えをカプセル化する。
一般に、上述の周波数変動マッピングは、可聴周波数範囲全体にわたって実施され、人間の知覚に見合った周波数分解能を採用することができる。例えば、一実施形態では、マッピングは、約2ERB(Equivalent Rectang ular Bandwidth)の分解能を有する20の離散周波数帯域について計算され得る。このような間隔を利用することは、システムの知覚的透明性を維持するのに役立つ。
しかしながら、他の実施形態では、スピーカの利用可能な周波数範囲のサブセットにわたってのみ動的マッピングを計算することが有利であり得る。例えば、動的マッピングは、スピーカの能力に差異が存在し得る範囲である500Hzなどの閾値周波数よりも低い周波数についてのみ計算され得る。500Hzより上で又は別の閾値より上で、幾つかの例においてすべてのスピーカが同等に能力を有し得る場合、マッピングは、幾つかのそのような例において信号レベルとは無関係であり得る。
幾つかの例によれば、関連するオーディオ信号の意図された知覚空間位置を「ほぼ達成すること」は、コスト関数を最小化することを含む。幾つかのそのような例において、式2aによって記述されるマッピングは、コスト関数最小化の1つとして、すべてのスピーカ信号が所与の位置
に位置するスピーカ上で同時に再生されるときに、オーディオオブジェクトOiの知覚空間位置を
にほぼ一致させるという目標を扱うことによって有利に達成され得る。幾つかのこのような例によると、コスト関数は、以下のように表されてよい:
式2bにおいて、C(g)は、スピーカ活性化のNs次元ベクトルを表すgの関数としてコストCを表す。式2bでは、集合:
はNs個のスピーカのセットの位置を表し、
はオーディオ信号の所望の知覚空間位置を表す。この例では、式2bの第1項であるCspatialは、オーディオオブジェクトをスピーカ信号にマッピングする関数として、所望の空間的印象がどの程度厳密に達成されるかをモデル化し、第2項の項Cproximityは、各スピーカを活性化するためのコストを割り当てる。項Cproximityの1つの目的は、オブジェクト信号の意図された空間位置に近いスピーカのみが活性化されるスパース(sparse)なソリューションを作成することである。この例によると、コスト関数には、活性化ペナルティに対する1つ以上の追加の動的に構成可能な項が含まれており、他の多数の制御に応答して空間レンダリングを変更できる。式2bでは、以下の項:
はこれらの追加のコスト項を表し、以下の項:
はレンダリングされるオーディオ信号(例えばオブジェクトベースのオーディオプログラム)の1つ以上のプロパティのセットを表し、以下の項:
はオーディオがレンダリングされるスピーカの1つ以上のプロパティのセットを表し、{e^}は1つ以上の追加の外部入力を表す。各項:
は、集合:
によって一般的に表される、オーディオ信号、スピーカ、及び/又は外部入力の1つ以上のプロパティの組み合わせに関連する活性化gの関数としてコストを返す。幾つかの例では、集合:
は、以下:
のいずれかからの少なくとも1つの要素のみを含む。
{o^}の例は限定ではないが以下を含む:
・オーディオ信号の所望の知覚空間位置、
・オーディオ信号のレベル(時間的に変化する可能性がある)、及び/又は、
・オーディオ信号のスペクトル(時間的に変化する可能性がある)。
{sk^}の例は限定ではないが以下を含む:
・リスニング空間内のスピーカの位置、
・スピーカの周波数応答、
・スピーカの再生レベル限界、
・リミッターのゲインなど、スピーカ内の動的処理アルゴリズムのパラメータ、
・各スピーカから他のスピーカへの音響伝達の測定又は推定、
・スピーカのエコーキャンセラ性能の測定、及び/又は、
・スピーカ間の相対的な同期。
{e^}の例は限定ではないが以下を含む:
・再生空間内の1つ以上のリスナー又は話者の位置、
・各スピーカからリスニング位置への音響伝達の測定又は推定、
・話者からスピーカのセットへの音響伝達の測定又は推定、
・再生空間内の何からの他のランドマークの位置、及び/又は、
・各スピーカから再生空間内の何からの他のランドマークへの音響伝達の測定又は推定。
effort信号Eij(f,t)を式2bのスピーカごとの活性化ペナルティにマッピングすることにより、マッピング関数Mjの前述の目標は、個々のオーディオオブジェクトiごとにすべてのスピーカj=1...NsにわたってマッピングHijを同時に最適化する処理で実現することができる。より具体的には、任意の特定の周波数f、時間t、及びオブジェクト信号iについて、以下の通りである:
effort信号Eij(f,t)が最大再生限界に関するスピーカ信号レベルを表すことができる正確な方法は様々であり、本発明者らは多くの可能なオプションを検討している。幾つかの実施形態では、effort信号は、リミッタへの入力又はリミッタからの出力のいずれかであるデジタルレベルであってもよく、又はそれに対応してもよい。他の実施形態では、effort信号は、リミッタによって適用される実際のゲインであり、スピーカレベルが再生閾値を超えたことを示す信号であってもよい。幾つかの他の実装では、effort信号は音響信号(例えば、特定の距離における音圧レベルをデシベルで測定したもの(decibels of sound pressure level (dBSPL)))であってもよい。音響信号は、例えば、スピーカ感度及び既知のアナログ増幅器利得を使用してデジタルレベルから導出されてもよい。
表現の特定の形態がどのようなものであっても、effort信号Eij(f,t)の構成は、本開示の多くの例における機能にとって重要な構成要素である。なぜなら、これらの例では、effort信号Eij(f,t)は、スピーカ間の信号エネルギの転換が発生する場所及び時期を指示するからである。前述のように、effort信号は、各オーディオオブジェクト信号について、オーディオオブジェクト信号の1つ以上及びそれらの知覚空間位置の関数として、例えば以下のように計算されてもよい:
それらの構成において空間ミックス全体を考慮することにより、空間ミックスの任意の部分からの信号エネルギは、様々な目的のために各オブジェクトのeffort信号に結合されてもよい。これらの可能な目的の1つは、オーディオオブジェクト信号がスピーカ信号に蓄積される可能性がどれくらい高いかを表す方法でオブジェクト信号を結合することである。別の可能な目的は、特定の空間関係を有するオブジェクト間で本発明のエネルギ再分配挙動を結びつけることである。effort信号の幾つかの好ましい構成は、これらの目的の両方を達成することができる。
effort信号の好ましい構成を検討する際には、それらのより詳細な定義を再検討することが便利である。すなわち、スピーカjの最大再生限界に対するオブジェクトiに関連するスピーカ信号レベルの時間及び周波数変化表現である。一般的表現のこの概念は、effort信号の以下の特定の構成に文字通り変換することができる:
式4において、用語Li(f,t)は、オブジェクトiに関連する時間及び周波数の変化する信号レベルを表し、τj(f)は、スピーカjの周波数の変化する再生限界を表す。幾つかの例では、この例ではデシベルで表されるスピーカの再生限界は、スピーカの位置と同様に、すでに特徴付けられ、制御システムに提供されていると仮定する。そのため、すべてのスピーカにわたるオーディオオブジェクトのeffort信号の計算は、単一レベル信号Li(f,t)の計算に単純化される。
前述のように、マッピングHijが依存するこれらのオーディオオブジェクトレベル信号Li(f,t)は、オーディオオブジェクト信号がスピーカ信号に蓄積される可能性がどれくらい高いかを表す必要がある。これは、式2aに示すように、マッピングHijがスピーカ信号を明示的に生成するために使用されるため、循環関係である。この循環性の問題を解決するための1つの解決策は、スピーカに関する情報が必要とされない、オーディオオブジェクトの単純なゾーンベースのレンダリングを生成することである。代わりに、空間ゾーンの有限セットに対する信号エネルギは、単純なパンニングルールによって生成される。一般に、制御システムは、Nz個のゾーンを使用することができる。1つの有用な実施形態では、レンダリングプロセスは、フロント、センタ、サラウンド、及びオーバヘッドゾーンであり得る4つのゾーンを含むことができる。他の例は、より多く又はより少ないゾーンを含むことができる。このような幾つかの例では、オーディオオブジェクトをゾーンにレンダリングすることは、オーディオオブジェクトの意図された空間位置の関数である単純なブロードバンドパンニングルールによって制御することができる:
式5において、gil(t)は、オーディオオブジェクトiの空間ゾーンlへのパンニングゲインを表す。パンニングゲインは、例えば、以下のように、Nz個のゾーンのセット全体にわたって電力保存であることが有益である:
これらのゾーンパンニングゲインから、例えば、以下のように、対応するパンニングゲインによって重み付けされたオーディオオブジェクトの電力スペクトルを累積することによって、時間及び周波数の変化するゾーン電力スペクトルZl(f,t)を計算することができる。
これらのゾーン電力スペクトルは、設計された空間ゾーン内の全体的な空間ミックスのエネルギ分布に対応する。スピーカがゾーン全体に分散されている、例えば、各ゾーンが少なくとも1つのスピーカを含むことが望ましい、と仮定すると、これらの電力スペクトルは、ゾーン内のスピーカ信号に現れるであろう信号レベルの合理的な近似を表す。
本開示に特有であるが、本発明者が知る限り、幾つかの例では、各オブジェクトのゾーンパンニングゲインを適用することによって、ゾーン電力スペクトルをオブジェクトレベル信号Li(f,t)にマッピングし直すことができる。例えば、以下の通りである:
オーディオオブジェクトiが複数のゾーンにわたってパニングされる範囲において、式8によるLi(f,t)の構築は、このパニングに比例する方法でゾーン電力スペクトルを結合する。これにより、Li(f,t)は、オブジェクトiがレンダリングされるであろうスピーカ信号のレベルの近似として機能する。更に、大部分が同じゾーンに属するオブジェクトに対する信号Li(f,t)は同様であり、これは、本発明の動的エネルギ再分布の挙動がこれらのオブジェクトに対して同様であることを意味する。幾つかの有利な実施形態では、ゾーンは、左/右軸を横切ってオブジェクトを結合するように設計することができ、それによって、エネルギ再分配の挙動が空間ミックスの左及び右について同様になるように制限することができる。このゾーン設計は、知覚的に混乱する左/右イメージシフトを低減するのに役立つ。
最後に、幾つかの例では、オブジェクトレベル信号Li(f,t)は、例えば式4に示されるように、effort信号Eij(f,t)を計算するために、スピーカ限界閾値τj(f)と組み合わせることができる。
空間オーディオミックスがチャネルベースのオーディオで構成される場合(すなわち、各オーディオオブジェクト信号は、Dolby5.1信号又はDolby5.1.4信号のようなマルチチャネル信号のチャネルに対応することができ、各オブジェクトの所望の位置は、固定された空間的位置である)、上述したレベル信号のゾーンベースの構成は、幾つかの次元に沿って単純化することができる。オブジェクト/チャネル信号の位置は固定されているため、チャネルのゾーンへのマッピングは、式5に示されるような動的パニング関数を必要としない場合がある。更に、このマッピングは、チャネルからゾーン及びその逆の1対1のマッピングのセットに単純化することができる。例えば、5.1.4信号の場合、フロント左及び右チャネルはフロントゾーンにマッピングし、センタチャネルはセンタゾーンにマッピングし、左及び右サラウンドチャネルはサラウンドゾーンにマッピングし、4つすべてのオーバヘッドチャネルはオーバヘッドゾーンにマッピングすることができる。このマッピングにより、ゾーン電力スペクトルを計算するための式7は、そのゾーンに属する各チャネルの電力スペクトルを合計することを単純化し、式8は、各チャネルのレベル信号を、そのチャネルがマッピングされる単一ゾーンに対応するゾーン電力スペクトルと等価にすることを単純化する。
オブジェクトレベル信号を計算する上記の方法は、オブジェクトがスピーカ信号に蓄積する方法の近似に依存する。この近似を排除するために、本発明のエネルギ再分配の活性化に遅延を導入することを犠牲にして、以前の時間間隔からのスピーカ信号の直接フィードバックを使用するオブジェクトレベル信号の代替構成を使用することができる。従って、この第2カテゴリの方法は、本明細書では、フィードバック方法と呼ぶことができる。
このような代替的な実装の1つは、式8で表される方法と同様であるが、ゾーン電力スペクトルが前の時間間隔からのスピーカ信号の電力スペクトルに置き換えられ、オブジェクトからゾーンへのパンニングゲインが前の時間間隔からのオブジェクトからスピーカへのマッピングの正規化されたバージョンに置き換えられる点が異なる。例えば、次のようになる:
式9bに示されるオブジェクトからスピーカへのマッピングの正規化は、式9aにおけるスピーカ信号の重み付けされた組み合わせが電力を保存する方式で実行されることを保証する。オブジェクトからスピーカへのマッピングが本質的に電力保存方式で計算される場合、幾つかの有利な実施形態の場合と同様に、この正規化ステップは不要である。
式9aにおけるオブジェクトレベル信号の構築は、そのオーディオオブジェクトの各スピーカ信号へのマッピングに比例して、前の時間間隔からのすべてのスピーカ信号を組み合わせる。そのため、これは、そのオーディオオブジェクトがマッピングされているスピーカ信号レベルの直接的な表現である。しかし、この構築に関する1つの問題は、類似の空間ゾーン内のオーディオオブジェクトを関連付けるという概念がないことである。この機能がないと、結果としてレンダリングされたオーディオのイメージングに不安定性が生じる可能性がある。
オーディオオブジェクトレベル信号を構築する第3例として、第1例のゾーンベースの処理を、第2例のフィードバック方法によって提供されるスピーカ信号レベルのより正確な表現と組み合わせることができる。このような幾つかの代替例では、オーディオオブジェクトレベル信号は、第1例のように、ゾーン信号の加重和として構築することができるが、ゾーン電力スペクトルZl(f,t)は、例えば次のようにスピーカゾーン電力スペクトルVl(f,t)に置き換えることができる。
ゾーン電力スペクトルがオブジェクト信号から直接計算されるのに対し、スピーカゾーン電力スペクトルは、前の時間間隔からのスピーカ信号電力スペクトルの加重和として計算される。
重み付けPjlは、本明細書では「スピーカゾーン参加値」と呼ばれることがあり、これは、スピーカjにレンダリングされるゾーン信号lのエネルギの部分の尺度であることを意味する。重み付けPjlは、一連の生のスピーカゾーン参加値Pjl^に渡って正規化することによって導出することができる。
生のスピーカゾーン参加値Pjl^は、マッピング関数Mjを使用して、そのゾーンの空間的範囲を表す各ゾーンについてのNl個の空間位置:
のセットのレンダリングをシミュレートすることによって計算することができる。このシミュレートされたレンダリングから得られるNl個のマッピングの電力スペクトルは、例えば以下のように、生のゾーンスピーカ参加値を計算するために一緒に合計することができる。
このシミュレートされたレンダリングに関連するeffort信号Elj^(f,t)は、幾つかの例では、式7で定義されるゾーン電力スペクトルZl(f,t)から計算することができる。
要約すると、オブジェクトレベル信号Li(f,t)を構築するための3つの異なる方法が上記で説明された。つまり、1)ゾーンベースの方法、2)フィードバックベースの方法、及び3)ゾーンベースの方法とフィードバックベースの方法の要素を組み合わせたハイブリッド方法、である。
オブジェクトレベル信号を構築するために上記で説明されたすべての方法において、知覚アーチファクトを低減するためにさらなる処理を適用することができる。例えば、オブジェクトレベル信号Li(f,t)は、時間、周波数、又はその両方にわたって平滑化され、これらの次元にわたって広がる結果として生じるエネルギの変動を規則化することができる。
式4に示されるようにeffort信号Eij(f,t)を定義することにより、意図されたオーディオオブジェクト位置:
及びオーディオオブジェクトレベル信号Li(f,t)によってインデックス付けされるオーディオオブジェクトからスピーカへのマッピングのルックアップテーブルのような単一のデータ構造を使用して、本発明の非常に効率的な実装が可能になる。ルックアップテーブルは、例えば、すべての可能な意図されたオブジェクト位置にわたって又は少なくとも合理的な数の意図されたオブジェクト位置にわたって
をサンプリングすることによって、及びオブジェクトレベル信号値の意味のある範囲にわたってLi(f,t)をサンプリングすることによって構築することができる。前述のように、意図されたオブジェクト位置
は、オーディオオブジェクトの時間の変化する3D(x,y,z)メタデータに対応し得る。
図9は、例示的な実施形態における、オーディオオブジェクトのx、y、及びz座標の関数として、オーディオオブジェクトのスピーカへのマッピングを示す点のグラフである。この例では、x及びy次元は15個の点でサンプリングされ、z次元は5個の点でサンプリングされる。他の実装は、より多くのサンプル又はより少ないサンプルを含むことができる。この例によれば、各点は、その点に対応する(x、y、z)位置を有するオーディオオブジェクトiに対するj=1...Ns個のスピーカのセットに対するマッピングHijを表す。
実行時に、各スピーカの実際のマッピングを決定するために、幾つかの例では、最も近い8個の点のスピーカマッピング間のトリリニア補間を使用することができる。図10は、一例によるスピーカへのマッピングを示す点の間のトリリニア補間のグラフである。この例では、逐次線形補間のプロセスは、第1及び第2補間点1005a及び1005bを決定するための上面における各対の点の補間、第3及び第4補間点1010a及び1010bを決定するための底面における各対の点の補間、第1及び第2補間点1005a及び1005bを補間して上面における第5補間点1015を決定すること、第3及び第4補間点1010a及び1010bを補間して底面における第6補間点1020を決定すること、及び第5及び第6補間点1015及び1020を補間して上面と底面の間の第7補間点1025を決定することを含む。トリリニア補間は効果的な補間方法であるが、当業者であれば、トリリニア補間は、本開示の態様を実施する際に使用され得る1つの可能な補間方法に過ぎず、他の例は他の補間方法を含み得ることを理解するであろう。
上述の方法は、ルックアップテーブルに第4の次元を追加することによって、変化するオーディオオブジェクト信号レベルをカバーするよう、更に拡張することができる。信号レベルの第4の次元に沿ったこのルックアップは、幾つかの例では、周波数帯域のセットにわたって独立して実行され、Li(f,t)が周波数にわたって変化する正確な性質を明示的に捕捉することができる。
幾つかの代替的なチャネルベースの例では、位置のトリリニア補間(又は、幾つかの例では、任意の補間)を行わずに、線形補間などのレベルの補間を行うことが含まれる。
別の代替的な実施形態では、オブジェクトレベル信号は、例えば以下のように、プロトタイプスペクトル形状と乗算された広帯域利得として近似され得る。
式15において、プロトタイプスペクトル形状Lp(f)は、システムによって処理されることが予想されるコンテンツに関連する平均スペクトル形状を表すように選択される。利得gi(t)は、前述の方法の1つによって計算された推定オブジェクトレベル信号Li(f,t)とその近似:
との間の誤差を最小化するように計算される。ルックアップテーブルは、オブジェクト信号レベルスペクトルが式15の形式に従うと仮定して構築され、それによって、信号レベルのルックアップが、すべての周波数帯域について単一の広帯域利得gi(t)によってインデックス付けされることを可能にする。従って、この近似は、テーブルの点の間の補間に必要な演算の数を減らすことによって、計算の複雑さを減らすことができる。
ここで、式2bに従ってeffort信号Eij(f,t)の関数としてマッピングHijの計算に戻ると、各オブジェクトiのマッピングの最適化中に、effort信号をスピーカごとのペナルティPj(f)にマッピングする必要がある場合がある。式4のeffort信号の構築を考慮すると、オーディオオブジェクトレベル信号がスピーカ再生限界閾値より小さい場合、effort信号は0より小さく、オーディオオブジェクト信号がこの閾値より大きい場合は0より大きいことに注意する。これらのeffort信号をスピーカペナルティにマッピングする際には、effort信号が指定された遷移点を超えて増加するにつれてペナルティが値0から滑らかに単調に増加するような変換を適用すると便利である。この遷移点を0未満のeffort値に対応するように指定することは、信号レベルがスピーカの再生閾値に達する前にペナルティが有効になり始めることを意味する。このような例では、信号レベルが再生限界に達する前に、スピーカから徐々にエネルギを転換(迂回、diverting)させるという利点がある。このような例によると、kneeパラメータKを使用して、遷移点と、effort信号が増加するにつれてペナルティが増加するレートを制御することができる。
図11は、様々なkneeパラメータに対するペナルティの例を示す。図11は、kneeパラメータの値が-24dBから-6dBの範囲でスピーカのペナルティがどのように増加するかを示している。
kneeパラメータの値より下では、ペナルティが0であることがわかる(この値はマッピングの計算に影響を与えない)。これらの例によると、ペナルティはknee値より上で単調に増加する。これは、effort信号が増加するにつれて、関連するスピーカからエネルギがますます転換されることを意味する。更に、knee値が大きいほど、スピーカペナルティがより緩やかに活性化されることが分かる。実際には、本発明者らは、-18dBから-12dBの範囲のknee値が良好に機能することを決定した。
knee値Kは、信号レベルの関数としてスピーカ間のエネルギ転換の程度を制御するために使用され得るパラメータの一例である。幾つかの実施形態では、このエネルギ転換の程度は、システムによって処理されるすべてのコンテンツに対して固定されてもよい。他の実施形態では、この転換の程度は、入力オーディオフォーマット、コーデック、又はメタデータに基づいて追加的に制御されてもよい。例えば、幾つかのコーデックは、ミックスの特定のコンポーネントが他のコンポーネントよりも多くのエネルギ転換に適していることを示すメタデータを組み込んでもよい。このメタデータ、又はメタデータの基礎は、例えば、Dolby Atmos(商標)ミックス内の異なるオーディオオブジェクトに対して異なるknee値を指定するコンテンツ作成者によって制御されてもよい。更に、幾つかの例では、エネルギ転換の程度は、少なくとも部分的にコンテンツフォーマットに依存してもよい。例えば、Dolby5.1ミックスのセンタチャネルのエネルギ転換の程度は、会話の知覚位置が中央に残るようにするために、他のチャネルのエネルギ転換の程度よりも小さく設定されてもよい。
図12は、本願明細書に開示したような機器又はシステムにより実行され得る方法の一例の概要を示すフロー図である。方法1200のブロックは、本願明細書に記載の他の方法と同様に、必ずしも示された順序で実行されない。幾つかの実装では、方法1200の1つ以上のブロックは、同時に実行されてよい。更に、方法1200の幾つかの実装は、図示及び/又は記載のものより多数又は少数のブロックを含んでよい。方法1200のブロックは、図1に示され、上述された制御システム110のような制御システム、又は他の開示された制御システム例の1つであり得る(又はそれを含むことができる)1つ以上の装置によって実行され得る。
この例によると、ブロック1205は、制御システムにより及びインタフェースシステムを介して、オーディオデータを受信することを含む。この例では、オーディオデータは、1つ以上のオーディオ信号及び関連する空間データを含む。ここで、空間データは、オーディオ信号に対応する意図された知覚空間位置を示す。幾つかの例では、空間データは、Dolby Atmos(商標)などのオブジェクトベースのオーディオフォーマットの空間メタデータであるか、又は空間メタデータを含むことができる。幾つかの例では、意図された知覚空間位置は、本明細書に開示されているように、以下のように表すことができる:
幾つかの例では、空間データは、Dolby5.1、Dolby5.1.2、Dolby7.1、Dolby7.1.4又はDolby9.1フォーマットなどのチャネルベースのオーディオフォーマットのチャネルであるか又はそれに対応することができる。従って、意図された知覚空間位置は、チャネルベースのオーディオフォーマットのチャネルに対応することができ、メタデータに対応することができ、又はチャネルとメタデータの両方に対応することができる。
この例では、ブロック1210は、制御システムによって、スピーカ信号を生成するために、環境の2つ以上のスピーカのセットを介して再生するためのオーディオデータをレンダリングすることを含む。この例によれば、オーディオデータに含まれる1つ以上のオーディオ信号の各々をレンダリングすることは、各オーディオ信号のスピーカ信号への時間的及び周波数的に変化するマッピングを含む。この例では、各オーディオ信号のマッピングは、オーディオ信号の意図された知覚空間位置、スピーカに関連する物理的位置、及び各スピーカの最大再生限界に対するスピーカ信号レベルの時間的及び周波数的に変化する表現の関数として計算される。この例によれば、各マッピングは、スピーカ信号が関連付けられたスピーカ位置に位置する2つ以上の対応するスピーカ上で再生されるときに、関連付けられたオーディオ信号の意図された知覚空間位置をほぼ達成するように計算される。
幾つかの例によると、関連するオーディオ信号の意図された知覚空間位置を「ほぼ達成する」ことは、利用可能なスピーカ及び関連するスピーカ位置が与えられた場合に、知覚空間位置と意図された知覚空間位置との差を最小化することを含むことができる。幾つかの例では、関連するオーディオ信号の意図された知覚空間位置をほぼ達成することは、コスト関数、例えば本願明細書に開示されたコスト関数のうちの1つを最小化することを含む。本開示の式2bは、コスト項の選択に応じて、多くの異なる可能性を包含する。例えば、追加のコスト項{si^}及び{e^}の選択に従って、様々な実装を達成することができる。
この例では、ブロック1210は、最大再生限界に対するスピーカ信号レベルの表現を、オーディオ信号の1つ以上及びそれらの知覚空間位置の関数として、各オーディオ信号について計算することを含む。この例によれば、ブロック1210は、最大再生限界に対するスピーカ信号レベルの表現が閾値を超えて増加するにつれて、特定のスピーカ信号へのオーディオ信号のマッピングを減少させることを含む。更に、この例では、ブロック1210は、1つ以上の他のスピーカの最大再生限界に対する信号レベルの表現が閾値未満である、1つ以上の他のスピーカへのマッピングを増加させることを含む。
幾つかの例によれば、マッピングは、通常の人間の可聴周波数範囲全体にわたって計算されてもよい。しかし、幾つかの例では、マッピングは可聴周波数範囲のサブセットにわたって計算されてもよい。幾つかの例によれば、マッピングは、オーディオ信号をスピーカ信号にマッピングする関数として、意図された知覚空間位置がどの程度厳密に達成されるかをモデル化する第1項と、各スピーカを起動するためのコストを割り当てる第2項とを含むコスト関数を最小化することを含み得る。式2bは、第1項と第2項の両方の例を提供する。幾つかの例では、各スピーカを起動するコストは、最大再生限界に対するスピーカ信号レベルの表現の関数に少なくとも部分的に基づいてよい。
幾つかの例では、最大再生限界に対するスピーカ信号レベルの表現は、デジタル信号レベル、リミッタ利得、又は音響信号レベルのうちの1つ以上に対応してもよい。幾つかの例では、最大再生限界に対するスピーカ信号レベルの表現は、各オーディオ信号に対するレベル推定と各スピーカに対する再生限界閾値との間の差として計算されてよい。幾つかの例では、各オーディオ信号のレベル推定は、すべてのオーディオ信号のゾーンベースのレンダリングに少なくとも部分的に基づいてよい。幾つかの例では、各オーディオ信号のレベル推定は、以前に計算されたスピーカ信号に少なくとも部分的に基づいてよい。幾つかのそのような例では、各オーディオ信号のレベル推定は、複数の空間ゾーンにおける各スピーカの参加に更に依存してよい。幾つかの例によると、ブロック1210又は方法1200の他のブロックは、各オーディオ信号のレベル推定を、時間、周波数、又は時間と周波数の両方にわたって平滑化するステップ、を更に含むことができる。
幾つかの例によれば、オーディオ信号からスピーカ信号へのマッピングは、各オーディオ信号の意図された知覚空間位置及びレベル推定によってインデックス付けされたデータ構造をクエリすることにより決定されてよい。幾つかの例では、オーディオ信号からスピーカ信号へのマッピングは、スピーカ活性化の決定を含むことができる。幾つかのそのような例では、スピーカの起動は、事前に計算されたスピーカ起動のセットから補間することによって決定されてよい。幾つかのそのような例によると、セットは、各オーディオ信号に対する意図された知覚空間位置及びレベル推定によってインデックス付けされ得る。
幾つかの例では、各オーディオ信号のレベル推定は、スペクトル形状と乗算された広帯域利得として表すことができる。幾つかのそのような例によれば、スペクトル形状は、複数のスペクトル形状から選択され得る。複数のスペクトル形状のうちの各スペクトル形状は、例えばコンテンツタイプに対応し得る。コンテンツタイプは、例えば、映画コンテンツ、テレビ番組コンテンツ、ポッドキャストコンテンツ、音楽パフォーマンスコンテンツ、ゲームコンテンツなどを含むことができる。
幾つかの例によれば、最大再生レベルに対する信号レベルの表現が閾値を超えて増加するにつれて、1つのスピーカへのマッピングを減少させ、別のスピーカへのマッピングを増加させ得る。図11及び対応する説明は、幾つかの例を提供する。幾つかの例は、方法1200は、オーディオフォーマット、コーデック、又はメタデータのうちの1つ以上に従って、1つのスピーカへのマッピングの減少の程度及び別のスピーカへのマッピングの増加を制御することを更に含むことができる。幾つかの例によると、方法1200は、kneeパラメータに従って、1つのスピーカへのマッピングの減少の程度及び別のスピーカへのマッピングの増加を制御することを更に含むことができる。
この実装では、ブロック1215は、インタフェースシステムを介して、環境のスピーカのセットのうちの少なくとも2つのスピーカにスピーカ信号を提供することを含む。
本開示の幾つかの実装は、開示された方法のいずれかの実施形態を実行するように構成された(例えば、プログラムされた)システム又は装置、及び開示された方法又はそのステップを実施するためのコードを格納する有形のコンピュータ可読媒体(例えばディスク)を含む。例えば、開示されたシステムは、ソフトウェア又はファームウェアでプログラムされ、及び/又は開示された方法の実施形態又はそのステップを含む、データに対する様々な操作のいずれかを実行するようにその他の方法で構成された、プログラム可能な汎用プロセッサ、デジタルシグナルプロセッサ、又はマイクロプロセッサであるか、又はこれらを含むことができる。このような汎用プロセッサは、それにアサートされたデータに応答して開示された方法の実施形態(又はそのステップ)を実行するようにプログラムされた(及び/又はその他の方法で構成された)入力装置、メモリ、及び処理サブシステムを含むコンピュータシステムであるか、又はこれらを含むことができる。
本開示のシステムの幾つかの実施形態は、開示された方法の実施形態の実行を含む、オーディオ信号に対して必要な処理を実行するように構成された(例えば、プログラムされた及びその他の設定された)、構成可能な(例えばプログラマブル)デジタルシグナルプロセッサ(DSP)として実装される。代替として、開示されたシステム(又はその要素)の実施形態は、ソフトウェア又はファームウェアでプログラムされ、かつ/又は開示された方法の実施形態を含む様々な操作のいずれかを実行するようにその他の方法で構成された汎用プロセッサ(例えば、パーソナルコンピュータ(PC)、その他のコンピュータシステム又はマイクロプロセッサ(入力装置とメモリを含む場合がある))として実装される。代替として、本開示のシステムの幾つかの実施形態の要素は、開示された方法の実施形態を実行するように構成された(例えば、プログラムされた)汎用プロセッサ又はDSPとして実装され、システムは他の要素(例えば、1つ以上のスピーカ及び/又は1つ以上のマイク)も含む。開示された方法の実施形態を実行するように構成された汎用プロセッサは、標準的に、入力装置(例えば、マウス及び/又はキーボード)、メモリ、及びディスプレイ装置に結合され得る。
本開示の別の側面は、開示された方法の実施形態又はそのステップを実行するためのコード(例えば、実行するために実行可能なコーダ)を格納するコンピュータ可読媒体(例えば、ディスクやその他の有形の記憶媒体)である。
特定の実施形態及び適用が本願明細書に記載されたが、当業者に明らかなことに、本願明細書に記載され及び請求される範囲から逸脱することなく、本願明細書に記載された実施形態及び適用に対する多くの変形が、可能である。理解されるべきことに、特定の形式が示され記載されたが、本開示の範囲は、記載され及び示された特定の実施形態又は記載された特定の方法に限定されない。