上記に鑑みて、本開示は、概して、6自由度(6DoF)環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化する方法、6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化する際に使うパラメータをエンコーディングする方法、ならびに、それぞれの独立請求項の特徴をもつ、対応するオーディオレンダラ、エンコーダ、プログラムおよびコンピュータ可読記憶媒体を提供する。
本発明の第1の態様によれば、6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化する方法が提供される。本方法は、ユーザ側で、または言い換えれば、ユーザ(デコーディング)側環境において実行され得る。
特に、本方法は、ピッチ係数修正値の許容範囲を示す1つまたは複数の第1のパラメータの第1のパラメータ値を取得することを備え得る。ピッチ係数修正値の許容範囲は、例えば、上限(例えば、境界)および/または下限(例えば、境界)を使用することによって示され得る。本方法は、モデル化されるべきドップラー効果の所望の強度(又は、場合によっては「アグレッシブネス」とも呼ばれる)を示す第2のパラメータの第2のパラメータ値を取得することを更に含み得る。本方法は、所定のピッチ係数修正関数を用いて、オーディオコンテンツにおけるリスナと音源との間の相対速度と、第1及び第2のパラメータ値とに基づいてピッチ係数修正値を決定するステップを更に有してもよい。特に、所定のピッチ係数修正関数は、第1および第2のパラメータを有してもよく(または、言い換えれば、とりわけ、第1および第2のパラメータを入力として取ってもよく)、相対速度をピッチ係数修正値にマッピングするための関数であってもよい。特に、当業者によって理解され認識されるように、ピッチ係数修正値は、ピッチを適切に修正(例えば、シフト)するために一般的に使用される値(おそらくは、任意の適切な形式で表される)とみなされてもよく、それによって、6DoF環境におけるドップラー効果の適切かつ適切なモデリング及びオーディオコンテンツのレンダリングを可能にする。最後に、本方法は、(決定された)ピッチ係数修正値に基づいて音源をレンダリングすることを含んでもよい。
言い換えると、広い意味で、本開示は、概して、(例えば、6DoF環境においてオーディオコンテンツをレンダリングするときに)ドップラー効果をモデル化するために、相対速度を対応するピッチ係数修正値にマッピングするために、予め定義された(または所定の/予め実装された)ピッチ係数修正関数を利用する方法を提案する。以下でより詳細に説明するように、そのような所定のピッチ係数修正関数は、一般に満たされるべきいくつかの要件(または特性)を前提として、任意の好適な手段で実装され得る。具体的には、所定のピッチ係数修正関数は、複数のパラメータを有してもよく(又は、言い換えれば、複数のパラメータを入力として取得してもよく)、その中には、(少なくとも)ピッチ係数修正値の許容範囲を示す第1のパラメータと、モデル化されるべきドップラー効果の所望の強度(アグレッシブネス)を示す第2のパラメータとがある。次いで、実際には、提案される方法が、例えば、あらかじめ定義されたピッチファクタ修正関数が展開されているオーディオレンダリングデバイス(または単にオーディオレンダラと呼ばれる)によって実行されているとき、オーディオレンダリングデバイスは、それぞれ第1および第2のパラメータに対応する第1および第2のパラメータ値を取得するように構成され得る。第1および第2のパラメータ値を取得することは、様々な要件および/または実装形態に応じて、任意の適切な手段で実行され得る。例えば、いくつかの可能な場合には、第1および第2のパラメータ値は、エンコーディングデバイスから受信されたビットストリームから導出(または単に抽出)され得、または、いくつかの他の可能な場合には、ファイルまたはルックアップテーブル(LUT)から取得(または単に読み出し)され得る。このように、特にピッチ係数修正関数を適用することによって、ドップラー効果をモデル化するためのピッチ係数修正値は、リスナと音源との間の相対速度に基づいて、また第1および第2のパラメータ値に基づいて決定され得る。
上述のように構成されて、提案される方法は、6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果モデリングを実行する(例えば、制御する)ための効率的で柔軟なメカニズムを提供することができ、同時に、ピッチ係数修正(例えば、高い相対速度、特異点などのためのピッチ係数修正値の高い大きさ)のための(例えば、オーディオレンダラの)基礎をなす信号処理ユニットの(許容可能なまたは許容可能な)能力と、コンテンツ作成者の意図(言い換えれば、主観的なリスニング体験)に従って(例えば、モデル化されるべきドップラー効果の所望の強度/アグレッシブネスを表す)(所望の)ピッチ係数修正値を制御する可能性との両方を考慮に入れ、それによって、(リスナ側、例えば、VR環境でゲームをプレイするユーザにおいて)知覚されるリスニング体験を改善する。
さらに、ピッチ係数修正関数は、とりわけ、第1および第2のパラメータの両方の値を入力として取るあらかじめ定義された関数としてすでにあらかじめ実装されているので、レンダリング条件が変化する(例えば、異なる処理能力をもつ異なるレンダラが展開される、異なる著者によっておよび/または異なるシーンのために作成された異なるオーディオコンテンツなど)たびに新しいピッチ係数修正関数を再設計(または再実装)する必要は概してない。むしろ、一般に、ピッチ係数修正値の対応する許容可能な範囲(例えば、限度)およびモデル化されるべきドップラー効果の対応する所望の強度をそれぞれ表す異なる第1および第2のパラメータ値を(例えば、エンコーディング側でエンコーディングされたビットストリームを使用して)通信することのみが必要とされる。したがって、いくつかの可能なシナリオでは、事前定義されたピッチ係数修正関数は、様々な要件および/または実装形態に応じて、様々なソフトウェアおよび/またはプラットフォームにおいて展開され得、必要な場合にさらにカスタマイズされ得る、(第1のパラメータおよび第2のパラメータを所望のドップラー効果をモデル化するための入力とみなす)プラグインまたはライブラリと同じくらい単純に実装され得る。それによって、ピッチ係数変更関数の不必要な再設計/再実装が回避され、オーディオレンダリングプロセス全体における効率がさらに改善される。
いくつかの例示的な実装形態では、相対速度は、リスナと音源との位置(例えば、相対位置)に基づいて計算され得る。例えば、いくつかの可能な場合において、相対速度は、音源とリスナとの間の相対距離の変化率から(例えば、1次導関数をとることによって)、それらのそれぞれの位置に基づいて決定され得る。当然ながら、当業者によって理解され認識されるように、相対速度を取得または計算するために、任意の他の適切な手段が採用されてもよい。
いくつかの例示的な実装形態では、1つまたは複数の第1のパラメータは、ピッチ係数修正値の許容範囲の上限および/または下限を示すパラメータを備え得る。
いくつかの例示的な実装では、ピッチ係数修正値の許容範囲は、オーディオコンテンツをレンダリングするオーディオレンダラの処理能力を反映していてもよい。すなわち、大まかに言えば、ピッチ係数修正値の許容範囲(例えば、上限および/または下限)を示す第1のパラメータは、レンダリングデバイス(例えば、オーディオレンダラ)、またはより正確には、ドップラー効果をモデル化するためのそのレンダリングデバイスの基礎をなす処理ユニットによってサポートされる処理能力の範囲を表すものとして、ある観点で見ることができる。
いくつかの例示的実装では、そのようにして得られたピッチ係数修正値の許容範囲がオーディオレンダラ(の基礎をなす処理ユニット)によってサポートされることができない場合、ピッチ係数修正値のデフォルト範囲がそのオーディオレンダラによって使われてもよい。そのようなシナリオの例示的な例は、(比較的)より強力なレンダリングデバイス(例えば、ゲームコンソールまたは専門的なワークステーション)を当初はターゲットにするように設定された(例えば、エンコーディングデバイスによって)ピッチ係数修正値の範囲を取得する(例えば、受信する)、(比較的)制限された処理(レンダリング)能力をもつモバイルデバイス(例えば、モバイルフォン)のシナリオであり得る。そのようなシナリオでは、レンダリングプロセスに予期せずまたは悪影響を及ぼすことを回避するために、モバイルデバイスが、取得されたサポートされていないパラメータ値を使用する代わりに、例えば、そのモバイルデバイスの実際の処理(レンダリング)能力をより正確に反映するように(モバイルデバイスの)製造業者によって設定され得る(例えば、最初に取得されたより広い範囲に入る)デフォルト範囲パラメータ設定を適用することがより実用的であると見なされ得る。
いくつかの例示的な実装形態では、第2のパラメータは、モデル化されるべきドップラー効果のアグレッシブさを反映すると見なされ得るピッチ係数修正関数の勾配(または、いくつかの可能な場合には、「強度」とも呼ばれる)を制御し得る。
いくつかの例示的実装では、受領されたビットストリームからオーディオコンテンツが抽出されてもよい。ビットストリームは、例えば、任意の適切な手段を使用することによって、任意の適切なフォーマットで、エンコーディングデバイスによってエンコーディングされていることがある。したがって、様々な実装形態に応じて、第1および第2のパラメータ値は、ビットストリーム中に含まれる指示から導出(例えば、抽出、デコーディングなど)され得る。いくつかの可能な場合において、第一および第二のパラメータ値の指示は、当業者によって理解および認識されるように、ビットストリームにおいてラベル(またはフィールド)としてエンコーディングされてもよい。
もちろん、いくつかの他の可能な実装形態では、オーディオコンテンツと第1および第2のパラメータとが(例えば、2つの別個のビットストリームから)別個に取得され得ることも可能である。
いくつかの例示的な実装では、第二のパラメータ値はオーディオコンテンツのコンテンツ作成者によって設定されてもよい。特に、第2のパラメータ値は、オーディオコンテンツのコンテンツ作成者によって、そのコンテンツ作成者の意図に従って設定されてもよい。したがって、広い意味では、第2のパラメータ値は、コンテンツ作成者によって目標とされる(およびコンテンツ作成者によって制御される)主観的なリスニング体験を反映すると見なされてもよい。
いくつかの例示的な実装形態では、第2のパラメータ値は、所望のドップラー効果強度についての現実世界の基準および/または芸術的予想をモデル化することによって設定され得る。当然ながら、当業者によって理解され認識されるように、第2のパラメータ値を決定し設定するための任意の他の適切な実装も可能であり得る。
いくつかの例示的な実装形態では、ピッチ係数修正値に基づいてオーディオコンテンツをレンダリングすることは、ピッチ係数修正値に基づいてオーディオコンテンツ中の音源のピッチを調整することを備え得る。
いくつかの例示的な実装形態では、正のピッチ係数修正値は、概して、音源のピッチを増加させることを示し得る。同様に、負のピッチ係数修正値は、一般に、音源のピッチを減少させることを示し得る。
いくつかの例示的な実装形態では、音源のピッチ調整は、半音の単位で実行され得る。例えば、ピッチ係数修正値2は、単に、音源のピッチを2半音だけ増加させることを意味してもよく、対応して、ピッチ係数修正値-2は、単に、音源のピッチを2半音だけ減少させることを意味してもよい。
いくつかの例示的な実装形態では、ピッチ係数修正関数は、一般化されたロジスティック関数に基づいて実装され得る。すなわち、ピッチ係数修正関数を実装することは、例えば、ロジスティック関数、または具体的には一般化ロジスティック関数を適宜修正することを含むことができる場合がある。しかしながら、以下の説明を考慮してより明らかになるように、そのように実装されたピッチ係数修正関数がいくつかの特性を満たすという条件で、任意の他の好適な手段(例えば、公式または式)がそのようなピッチ係数修正関数を実装するために使用され得ることに留意することは価値があり得る。
いくつかの例示的な実装形態では、ピッチ係数修正関数は、相対速度に対して連続的かつ単調であること、1つまたは複数の第1のパラメータによって制御される漸近的限界を有すること、ゼロ相対速度においてゼロピッチ係数修正値をもたらすこと、および/または第2のパラメータによって制御されるゼロ速度の近傍において勾配を有することのうちの1つまたは複数の特性を有し得る。当業者によって理解され認識されるように、いくつかの可能な実装形態では、任意の他の適切な特性も必要であり得る。
いくつかの例示的な実装形態では、ピッチ係数修正関数Fは、
として実装され得る。
ここで、νは、相対速度を表し、l={l
l,l
h}は、第1のパラメータを表し、l
lは、範囲の下限を示し、l
hは、範囲の上限を示し、sは、第2のパラメータを表す。しかしながら、そのような機能は、単に例として提供され、いかなる種類の限定としても提供されない。既に上述したように、当業者は、ピッチ係数変更関数Fは、任意の他の適切な方法でも実装され得る。
いくつかの例示的な実装では、本方法はさらに、さまざまな実装またはユーザー側環境(例えばコンピュータ、ゲーム・コンソール、モバイルなど)に依存して、レンダリングされた音源を(例えばオーディオコンテンツの一部として)スピーカーまたはヘッドフォン(または他の任意の好適な再生デバイス)に、ユーザーへの再生のために出力することを含んでいてもよい。
本発明の第2の態様によれば、6自由度(6DoF)環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化する際に使用するためのパラメータをエンコーディングする方法が提供される。この方法によって(例えばエンコーダ側でまたはエンコーディング側環境において)そのようにエンコーディングされたパラメータは、(例えばユーザー側でまたはユーザー/デコーディング側環境において)6DoF環境についてオーディオコンテンツをレンダリングするときにドップラー効果をモデル化するために、前述の第1の態様およびその例示的実装形態において記述された方法のいずれによっても使われてもよい。
特に、本方法は、ピッチ係数修正値の許容範囲を示す1つまたは複数の第1のパラメータの第1のパラメータ値を決定する(例えば、計算する、設定するなど)ことを備え得る。本方法は、モデル化されるべきドップラー効果の所望の強度(または、場合によっては、「アグレッシブネス」とも呼ばれる)を示す第2のパラメータの第2のパラメータ値を決定する(例えば、計算する、設定するなど)ことをさらに備え得る。最後に、本方法は、第1及び第2のパラメータ値の指示をエンコーディングするステップを更に有してもよい。具体的には、上記で示したように、第1および第2のパラメータ値は、オーディオコンテンツのリスナと音源との間の相対速度を、所定のピッチ係数修正関数に基づいてピッチ係数修正値にマッピングするために使用されてもよく、ピッチ係数修正値は、音源をレンダリングするために使用されてもよく、所定のピッチ係数修正関数は、第1および第2のパラメータを有してもよく、相対速度をピッチ係数修正値にマッピングするための関数であってもよい。
上述のように構成されて、提案される方法は、6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果モデリングのために使用されるパラメータをエンコーディングするための効率的で柔軟な機構を提供することができ、同時に、ピッチ係数修正のための(オーディオレンダラ側の)基礎となる信号処理ユニットの(許容可能な又は許容可能な)能力(例えば、高い相対速度、特異点などに対するピッチ係数修正値の高い大きさ)と、コンテンツ作成者の意図(言い換えれば、目的とする主観的なリスニング体験)に従って(所望の)ピッチ係数修正値(すなわち、ドップラー効果の所望の強度を表す)を制御する可能性との両方を考慮に入れ、それによって、(リスナ側で)知覚されるリスニング体験を改善する。
さらに、上述したように、ピッチ係数修正関数は、第1および第2のパラメータを入力として取る(レンダラ側での)所定の関数としてすでに実装され、展開されているので、一般に、レンダリング条件が変化する(例えば、異なる処理能力をもつ異なるレンダラが展開される、異なる人によっておよび/または異なるシーンのために作成された異なるオーディオコンテンツなど)たびに新しいピッチ係数修正関数を再設計(または再実装)する必要はない。代わりに、エンコーディング側は、ピッチ係数修正値の対応する許容範囲(限度)とモデル化されるべきドップラー効果の対応する所望の強度とをそれぞれ表す(例えば、ビットストリーム中でエンコーディングされた)異なる第1および第2のパラメータ値を通信するだけであり得る。したがって、いくつかの可能なシナリオでは、あらかじめ定義されたピッチ係数修正関数は、様々な要件および/または実装形態に応じて、様々なソフトウェアおよび/またはプラットフォームにおいて展開され得、必要な場合にさらにカスタマイズされ得る(レンダラ側の)プラグインと同じくらい単純に実装され得る。それによって、ピッチ係数変更関数の不必要な再設計/再実装が回避され、オーディオレンダリングプロセス全体における効率がさらに改善される。
いくつかの例示的実装では、第一および第二のパラメータ値の指示は、ビットストリームにおいてラベル(またはフィールド)としてエンコーディングされてもよい。当業者によって理解され認識されるように、そのような指示は、(所定のピッチ係数修正関数が展開されている)対応するレンダリング側デバイスが必要に応じて第1および第2のパラメータ値を導出することを可能にされ得る限り、任意の他の適切な手段においても実装され得る。いかなる種類の限定ではなく例として、エンコーディング方法が、例えばAR/VRゲーム環境において(ゲーム/制御)エンジン(または、時にはゲーム制御論理エンジンとも呼ばれる)によって実行され得るいくつかの可能な場合において、第1および第2のパラメータ値(またはそのそれぞれの指示)は、必ずしも常にビットストリームにエンコーディングされる必要はなく(例えば、場合によっては、ゲームエンジンが、典型的には、レンダリングおよび/またはリスニングコンポーネントと同じ環境に、例えばPCの形態で配置され得るという理由により)、オーディオコンテンツと一緒にまたはオーディオコンテンツとは別に、任意の他の適切なフォーマットで(または、いくつかの可能な場合にはプレーンまたはクリアパラメータ値としてさえ)エンコーディング(またはカプセル化)され得ることが理解できる。
いくつかの例示的実装では、第一および第二のパラメータ値の指示は、オーディオコンテンツと一緒に単一のビットストリームにおいてまたは別個のビットストリームとしてエンコーディングされてもよい。
いくつかの例示的な実装形態では、第1および第2のパラメータ値は、上記で示したように、コンテンツ作成者またはゲームエンジンによって決定され得る。
本発明の第3の態様によれば、プロセッサと、プロセッサに結合されたメモリとを含むオーディオレンダラ(レンダリング装置)が提供される。プロセッサは、オーディオレンダラに、第1の態様において説明された例示的な方法のいずれかに従ってすべてのステップを実行させるように適合され得る。
本発明の第4の態様によれば、プロセッサと、プロセッサに結合されたメモリとを含むエンコーダ(エンコーダ装置)が提供される。プロセッサは、第2の態様で説明された例示的な方法のいずれかに従って、エンコーダにすべてのステップを実行させるように適合され得る。
本発明の第5の態様によれば、コンピュータプログラムが提供される。コンピュータプログラムは、プロセッサによって実行されると、プロセッサに、本開示全体を通して説明される方法の全てのステップを実施させる命令を含み得る。
本発明の第6の態様によれば、コンピュータ可読記憶媒体が提供される。コンピュータ可読記憶媒体は、上述のコンピュータプログラムを記憶してもよい。
装置の特徴および方法のステップは、多くの方法で交換され得ることが理解されるであろう。特に、開示された方法の詳細は、当業者が理解するように、対応する装置(又はシステム)によって実現されることができ、その逆も同様である。さらに、方法(複数可)に関してなされた上記の記述のいずれも、対応する装置(またはシステム)に同様に適用され、その逆も同様であることが理解される。
図面及び以下の説明は、例示のみを目的とした好ましい実施形態に関する。以下の説明から、本明細書に開示される構造および方法の代替実施形態が、特許請求されるものの原理から逸脱することなく採用され得る実行可能な代替形態として容易に認識されることに留意されたい。
ここで、いくつかの実施形態を詳細に参照し、その例を添付の図面に示す。実行可能な場合はいつでも、類似または同様の参照番号が図中で使用され得、類似または同様の機能を示し得ることに留意されたい。図面は、開示されたシステム(または方法)の実施形態を、例示のみを目的として示す。当業者は、本明細書に記載された原理から逸脱することなく、本明細書に示された構造および方法の代替の実施形態を使用することができることを、以下の説明から容易に認識するであろう。
さらに、図において、実線または破線または矢印などの接続要素が、2つ以上の他の概略要素間の接続、関係、または関連を示すために使用される場合、任意のそのような接続要素の不在は、接続、関係、または関連が存在し得ないことを暗示することを意味しない。言い換えれば、要素間のいくつかの接続、関係、または関連付けは、本発明を不明瞭にしないように、図面に示されていない。加えて、説明を容易にするために、単一の接続要素が、要素間の複数の接続、関係、または関連付けを表すために使用される。例えば、接続要素が信号、データ、または命令の通信を表す場合、そのような要素は、必要に応じて、通信に影響を及ぼすための1つまたは複数の信号経路を表すことを当業者は理解されたい。
上記のように、「ドップラー効果」または「ドップラーシフト」という用語は、一般に、波源(例えば、音源)に対して移動している観測者(例えば、リスナ)に対して波(例えば、音波)の周波数の変化があるときに経験されるオーディオ効果を指すために使用される。概して、ドップラ効果は、波源が観測者に対して移動しているときはいつでも観測され得る。ドップラー効果は、移動する波源によって生じる効果として説明することができ、波源が近づいてくる観測者には周波数の明らかな上方シフトがあり、波源が遠ざかっていく観測者には周波数の明らかな下方シフトがある。それにもかかわらず、この効果は、ソースの周波数の実際の変化のために生じないことに留意することが重要である。
ドップラー効果は、当業者によって理解され認識され得るように、任意のタイプの波、水波、音波、光波などについて観察され得る。ドップラー効果が一般に知覚され得る例示的なシナリオは、警察車両または緊急車両が高速道路上の聞き手に向かって移動している事例であり得る。自動車がサイレンに近づくにつれて、サイレン音のピッチ(周波数を示すために一般的に使用される尺度)は高く(高く)なり、次いで、自動車が通過して遠くに移動した後、サイレン音のピッチは低く(低く)なる。
また、上述したように、ドップラー効果は、最近、例えば、仮想現実(VR)及び/又は拡張現実(AR)シナリオ(例えば、ゲーム、没入型コンテンツ等)において広く採用されている6自由度(6DoF)環境における動的シーンのオーディオレンダリングにおける重要な態様として考えられ始めている。
大まかに言えば、ハーフステップまたはハーフトーンとも呼ばれる半音は、一般に、ほとんどの音調音楽で一般に使用される最小の音程であり、ハーモニーで鳴らされるときに最も不協和音であると考えられる。一般的に、半音は、12音スケール上の2つの隣接する音符間の間隔として定義される。すなわち、オクターブを12等分したテンパー調の音階に基づいて設計された楽器の多くは、任意の2つの半音(ハーフステップ)の周波数比が、概ね2の12乗根となる。
オーディオ処理(例えば、オーディオレンダリング)のコンテキスト内で、ドップラー効果は、一般に、オーディオピッチ係数(シフト)修正値(本開示全体を通して、単にpとして示されることもある)を使用してモデル化され得る。したがって、半音の一般的な概念に従って、本発明のいくつかの可能な実装形態では、以下でより詳細に説明するように、正のピッチ係数(シフト)修正値は、一般に、特に半音の単位での、音源のピッチの増加を意味し得る。例えば、ピッチ係数修正値2は、単に、音源の2半音の増加に変換され得る。これに対応して、負のピッチ係数(シフト)修正値は、一般に、音源のピッチ(半音単位)の減少を意味することができる。しかしながら、当業者が理解するように、ピッチ係数修正値のための代替的なフレームワーク及びユニットも、本発明の文脈において実現可能であり得る。
ドップラー効果をモデル化するためのいくつかのアプローチは、ドップラー効果の物理的記述および/または近似に基づくモデル化を含み得る。したがって、それらの手法は、一般に、ピッチ係数修正のための基礎をなす信号処理ユニットの能力(例えば、高い相対速度、特異点についてのピッチ係数修正値の高い大きさ)を考慮するための手段も、コンテンツ作成者の意図(言い換えれば、主観的リスニング体験)に従ってピッチ係数修正値(すなわち、ドップラー効果の強度を表す)を制御するための手段も有しない。
その観点から、本発明は、一般に、1)相対速度(本開示を通してνとしても示される、リスナおよび音源位置に基づいて計算される)、2)信号処理ユニットによってサポートされるピッチ係数修正値の範囲(本開示を通してlとしても示される)、および3)コンテンツ作成者設定(例えば、本開示を通してsとしても示される、(従来の)モデリング方程式、現実世界の基準、ドップラー効果強度に対する芸術的期待などに基づいて、1)~3)の入力データに知覚的に対応し得る適切なピッチ修正値pを見つける)を仮定して、問題に対処しようとするものであり得る。特に、いくつかの可能な実装形態では、ピッチ係数修正値lの範囲は、それ自体が下限llおよび上限lhを含んでもよく、したがって、範囲lは、l={ll,lh}として示されてもよい。
上記の問題に対処するために、広い意味で、本発明は、一般に、信号処理ユニットの制限lおよびユーザ調整可能な設定sを考慮して、ピッチ係数修正関数Fを実施して相対速度vをピッチ係数修正値pにマッピングすることを検討することを提案する。いくつかの可能な実装形態では、ピッチ係数修正関数Fは、修正された一般化されたロジスティック関数として実装され得る。
このようなピッチ係数変更関数Fを実施するための可能な例(いかなる種類の限定も意図しない)は、以下の通りであってもよい。
ここで、上に示したように、νは、リスナと音源との間の相対速度を示し、l={l
l,l
h}は、モデリングを実行するための基礎となる信号処理ユニット(例えば、オーディオレンダラに配置される)によってサポートされるピッチ係数修正値の範囲を示し、l
lは、下限を表し、l
hは、上限を表し、sは、コンテンツ作成者設定(例えば、(従来の)モデリング方程式、現実世界の基準、ドップラー効果強度に対する芸術的な期待などに基づく)を示し、eは数学的定数(オイラー数)である。
式(1)の任意の等価な表現は、本発明によって包含されるものとする。例えば、当業者には理解されるように、ピッチ係数修正値のサポートされる範囲は、本発明によって包含されると考えられる2つのパラメータの任意の適切な組み合わせによって表現されてもよい。例えば、下限lh及び上限lhを使用する代わりに、いずれかの限界の指示と共に許容範囲の大きさの指示Δl=lh-llなどを使用することもできる。この場合、例えば、lh=Δl+llまたはll=lh-Δlが成立し、上記の式(1)を修正するために使用され得る。
さらに、式(1)のオイラー数も、1より大きい代替定数によって、またはベキ指数の符号を交換して、1より小さい代替定数によって置き換えることができる。
加えて、当業者によって理解され認識されるように、ピッチ係数修正関数Fは、様々な要件および/または実装形態に応じて、上記で識別された要件(すなわち、範囲/制限パラメータlおよびユーザ/コンテンツ作成者設定s)が考慮されるという条件の下で、任意の他の好適な形態/式で定義されてもよい。ピッチ係数修正関数Fの特性は、図面に付随する以下の説明を考慮するとより明らかになるであろう。
特に、広い意味では、本発明において提案されるアプローチを適用することによって、信号処理ユニット制限lおよびユーザー設定sのパラメータの値を、エンコーダ側で調整する(および、場合によっては、例えばカプセル化して、ビットストリームに入れる)ことが可能にされてもよい。したがって、コンテンツ作成者は、ドップラー効果モデリングをオーディオレンダラの能力に適合させるためにドップラー効果モデリングの制御を確立し、同時に、コンテンツ作成者自身の好みに従ってドップラー効果モデリングを調整することも可能にされ得る。
ここで図面に関して、図1は、ドップラー効果をモデル化するための異なるアプローチに基づく、相対速度とピッチ修正値との間の例示的な関数マッピングを示す概略図である。
特に、x軸は、音源と観測者(例えば、6DoF環境におけるリスナ)との間の(入力される)相対速度を概略的に示す。音源と観測者/リスナとの間の相対速度は、例えば、リスナおよび音源の位置に基づいて、任意の好適な手段で判定されてもよい。例えば、いくつかの可能な実装形態では、相対速度は、リスナおよび音源の位置(例えば、音源と観測者/リスナとの間の距離)の変化のレート(例えば、1次導関数)に基づいて決定されてもよい。ここで、当業者によって理解され認識されるように、相対速度の負の値は、一般に、音源と観測者/リスナとが互いに接近している(互いに近づいている)ことを意味し、相対速度の正の値は、一般に、音源と観測者/リスナとが互いに(さらに遠く)離れていっていることを意味する。
一方、y軸は、(出力される)ピッチシフト修正値(例えば、半音単位)を模式的に示す。上記に示されたように、いくつかの可能な実装形態では、ピッチシフト修正値の正の値は、一般に、音源のピッチの増加を意味し得、ピッチシフト修正値の負の値は、一般に、音源のピッチの減少を意味し得、例えば、両方とも半音の単位である。
より具体的には、図1のダイアグラム101は、例えば(理論的な)数式に基づく、ドップラー効果モデルの(理論的な)基準の例を一般的に示す。ダイアグラム101は、概して、ドップラー効果をモデル化するための(理論的な)基準を表すので、このダイアグラムは、例えば、実際のソフトウェア実装には適合しない(又は、換言すれば、6DoF環境においてオーディオコンテンツをレンダリングする際の実装には適合しない)ことがあるが、ドップラー効果の「性質」をモデル化するための純粋な数学的例示を表すものとして主に機能するものと見なされ得る。したがって、当業者によって理解され認識されるように、ダイアグラム101に示されるような「カットオフ」(おおよそ-343 m/s)は、一般に、音速の制限によるものと考えられ得る。同様に、相対速度が(0から)-343 m/sに近づくときのほぼ無限のピッチ係数修正値により、ダイアグラム101が何らかの形で「セグメント化」されているように見える。
一方、ダイアグラム102は、可能なアプローチによるドップラー効果のモデル化の例を一般的に表す。そのようなモデル化は、例えば、(理論的)数学的公式の推定(近似)に基づいて実行されてもよい。
さらに、ダイアグラム103(実線)は、本発明の実施形態によるドップラー効果の可能なモデル化の例を一般的に示す。上述したように、(所定の)ピッチ係数修正関数Fを通じて達成されるドップラー効果のこのモデル化は、複数のパラメータを含み(又は換言すれば、複数のパラメータを入力として取り入れ)、その中には、例えば(従来の)モデル化方程式、現実世界の基準、ドップラー効果強度の芸術的期待などに基づく、信号処理ユニットによってサポートされるピッチ係数修正値の範囲(すなわち、l)及びコンテンツ作成者設定(すなわち、s)がある。
図1に示されるような特定の例では、(例示的なダイアグラム103及びダイアグラム102からも分かるように)範囲/制限パラメータlは、例示的に{-8,8}に設定され、すなわち、l={ll,lh}={-8,8}であることに留意されたい。そして、強度/アグレッシブネスパラメータsは、例示的に0.015に設定される。しかしながら、当業者によって理解され認識されるように、パラメータのこれらの値は、(いかなる種類の限定としてではなく)単に可能な例として設定され、様々な要件および/または実装に応じて、任意の他の適切な値が当然ながら使用され得る。
図1の例に明確に示されるように、ダイアグラム102(すなわち、ドップラー効果の可能なモデル化を表す)は、一般に、より低い速度範囲(おおよそ0~±170 m/s)からより高い速度範囲(おおよそ±170 m/sより高い)への「粗い」/「激しい」変化(またはトランザクション)を示す。対照的に、ダイアグラム103(本開示の実施形態による可能な実装を表す)のそれらの領域におけるトランザクションは、「よりソフト」であるように見える。したがって、(例えば、6DoF環境における)リスナによって知覚される(ダイアグラム103のドップラー効果モデルに従ってレンダリングされているオーディオコンテンツの)オーディオ品質が改善され得る。
上記のように、少なくとも範囲/制限パラメータlおよびユーザ/コンテンツ作成者設定sが考慮されるならば、ピッチ係数修正関数Fを実装するために、(式(1)に例示されたもの以外の)任意の好適な形式/公式が使用され得る。それにもかかわらず、上記の例示された式(1)の性能に匹敵する(例えば、知覚されるオーディオ品質に関して)多かれ少なかれ同様の性能を達成するために、ピッチ係数修正関数Fが満たす必要があり得るいくつかの特性に留意することは価値があり得る。
より具体的には、本発明の実施形態によれば、ピッチ係数修正関数Fは、以下の1つ以上の特性を有してもよい:
・相対速度に関して連続的で単調であること、
・前記1つ以上の範囲/限界パラメータ(すなわち、l)によって制御される漸近的限界を有すること、
・ゼロ相対速度でゼロピッチ係数修正値をもたらすこと、および/または、
・ゼロ速度の近傍で、アグレッシブネス/強度パラメータ(すなわち、s)によって制御される勾配を有すること。
いくつかの実装形態では、ピッチ係数修正関数Fは、上記の特性のすべてを有し得る。
上記の特性は、本発明の実施形態によるピッチ係数修正関数Fを実装するダイアグラム103にも明確に反映されている。
ここで、異なるパラメータ設定がドップラー効果のモデル化にどのように影響を及ぼすかをより詳細に概略的に示す図2及び図3を参照する。上記に示されるように、広い意味では、信号処理ユニット設定(例えば、l)は、一般に、(例えば、図2に例示されるように)高い相対速度領域においてより関数の漸近的限界に影響を及ぼし、一方、コンテンツ作成者基準設定(例えば、s)は、一般に、(例えば、図3に例示されるように)低い相対速度領域の周りでより関数Fの傾きに影響を及ぼすことが理解され得る。
特に、図2は、本発明の実施形態による、ドップラー効果モデリング範囲パラメータlの異なる設定に対する相対速度とピッチ修正値との間の例示的な関数マッピングを示す概略図である。特に、ドップラー効果の(理論的な)数学的表現である図2のダイアグラム201は、図1のダイアグラム101と同じであり、そのため、その繰り返しの説明は、簡潔さのために省略され得る。
具体的には、図2に示される例では、ダイアグラム202、203、および204についての範囲/制限パラメータl={ll,lh}は、例示的に、それぞれ、l={-8,8}、l={-4,8}、およびl={-8、4}に設定される。一方、全てのダイアグラム202、203、および204における勾配パラメータsは、同じである(任意の好適な値、例えば、0.015に設定され得る)。したがって、図2から理解されるように、ダイアグラム202、203及び204は、(特に低速領域において)多かれ少なかれ類似した傾きを示すように見えるが、(出力)ピッチ係数修正値のそれぞれの上限及び/又は限界のみが、範囲/限界パラメータl={ll,lh}に依存して異なる。
上述のように、範囲/制限パラメータlは、一般に、ドップラーモデリングを実行するための(例えば、レンダラ側の)(基礎となる)信号処理ユニットによってサポートされるピッチ係数修正値の範囲を示すように設定される。言い換えると、そのようなパラメータlは、信号処理ユニット(または、大まかに言えば、レンダラ)の(処理)能力(例えば、ハードウェアおよび/またはソフトウェア能力の観点から)を一般的に表すものと見なされてもよい。さらに、上述したように、ピッチ係数修正関数Fは、典型的には、他の入力(例えば、相対速度、コンテンツ作成者設定sなど)とともに範囲パラメータlを(例えば、エンコーディング側から)単に受信するプラグインとして実装され得る(または何らかの種類のライブラリとしてカプセル化され得る)。したがって、いくつかの実装形態では、そのように受信された範囲パラメータlが、残念ながらレンダラ(の処理ユニット)によって(完全にまたは部分的に)サポートされないことがあることが可能であり得る。そのようなシナリオの例は、(比較的)制限された処理(レンダリング)能力を有するモバイルデバイス(例えば、モバイルフォン)が、レンダリングのためのオーディオコンテンツとともに、(比較的)より強力なレンダリングデバイス(例えば、ゲームコンソール又は専門的なワークステーション)をターゲットとするように(例えば、エンコーダによって)元々設定されている範囲パラメータl(例えば、{-8,8})を受信することであり得る。そのような場合、モバイルデバイスが、受信されたサポートされていないパラメータl(例えば、{-8,8})を使用するのではなく、デフォルトの範囲パラメータ設定(例えば、{-4,8}または{-8,4}を適用することがより実用的であり得る。ここで、デフォルト範囲パラメータ設定は、例えば、レンダリングプロセスに予期せず悪影響を及ぼすことを回避するために、そのモバイルデバイスの実際の処理(レンダリング)能力をより正確に反映するように、(モバイルデバイスの)製造業者によって設定され得る。
一方、図3は、本発明の実施形態による、ドップラー効果モデリング強度パラメータsの異なる設定に対する相対速度とピッチ修正値との間の例示的な関数マッピングを示す概略図である。上記と同様に、ドップラー効果の(理論的な)数学的表現である図3のダイアグラム301は、図1のダイアグラム101と同じ(及び図2のダイアグラム201と同じ)であり、そのため、その繰り返しの説明は、簡潔さのために省略され得る。
図3に示される例において、ダイアグラム302、303、304及び305における(例えば、主観的なリスニング体験に対するコンテンツ作成者の意図を表すために主に使用される)傾き/アグレッシブネスパラメータsは、例示的に、それぞれ、s=0.015、s=0.010、s=0.005及びs=0.0025に設定される。一方、全てのダイアグラム302、303、304、及び305における範囲パラメータlは同じである(これは、任意の適切な値、例えば、{-8,8}に設定され得る)。したがって、図3から理解され得るように、ダイアグラム302、303、304および305は、(特に低速領域において)変化する傾きを示すように見えるが、(出力)ピッチ係数修正値の(理論的な)上限および/または限界は、多かれ少なかれ類似している。それによって、レンダリングされているオーディオコンテンツにおけるドップラー効果の異なる「強さ」が、例えばコンテンツ作成者の意図に依存して、(例えば6DoF環境において)リスナによって知覚されうる。
要約すると、傾き/アグレッシブネスパラメータsを適切に設定することによって(場合によっては、その後に、パラメータ値を、例えば、ビットストリームまたは他の好適なフォーマットにエンコーディング/カプセル化し、それをユーザ/デコーダ側デバイス、または一般にレンダラに送信または通信することによって)、コンテンツ作成者(またはいくつかの可能な実装形態では「ゲームエンジン」)は、概して、例えば、ドップラー効果モデリングがまったくない状態と(ほぼ)「現実の」(理論的)ドップラー効果モデリング、又は更には過度に強調されたドップラー効果モデリングとの間で、所望されるようにドップラー効果のモデリング挙動を制御する自由を有する。。
したがって、本発明は、コンテンツ作成者に、ユーザ側でのドップラー効果のモデル化に関する追加の自由度を提供すると言える。このように、本発明は、コンテンツ作成者が、オブジェクト特有の方法で、デコーダ/レンダラによるドップラー効果モデリングを選択的に制御またはオーバーライドすることを可能にする。これは、パラメータ値のセットを適切な形式でユーザ/デコーダ側デバイス(最終的には実際のレンダラを含む)に提供することによって達成される。これらのパラメータ値は、ビットストリームにおいてエンコーディングされてもよく、またはレンダラのデータインターフェースに適した、またはそれと互換性のある任意の形態でレンダラに提供されてもよい。
例示的で非限定的な例として、超音速の飛行ジェットを有するVRシーンの使用事例が考えられ得る。ドップラー効果モデリング(例えば、図3のダイアグラム301に対応する)のための物理学の実際の法則が適用される場合、ユーザ/リスナ(例えば、ゲーム競技者またはVRシーンコンテンツの他の受信者)は、おそらく、ジェットからの音をまったく知覚しないはずであり、それは、不快な(ただし、物理的に現実的な)VR体験(例えば、ゲーム体験)をもたらすことになる。その場合、特に本開示で提案される方法を適用することによって、コンテンツ作成者(又は適切に構成されたゲームエンジン)は、所望のようにドップラー効果のモデル化を制御する自由を有する。言い換えれば、例えば、勾配/アグレッシブネスパラメータsの値を適切に設定することによって、コンテンツ作成者(またはゲームエンジン)は、必要または所望と考えられるときに、VR環境においてユーザにとっておそらくあまり正確ではないかまたはあまり現実的ではないが、より快適なリスニング体験をもたらすであろう他のモデリング設定(例えば、ダイアグラム302、303、304または305などに対応する)を使用することによって、物理法則に従ってレンダラのドップラーモデリング(例えば、図3のダイアグラム301に対応する)をオーバーライドする自由を与えられる。この例は、VRシーンをレンダリングするために使用されるレンダラが、物理法則に従って、または物理法則に基づいて「デフォルト」ドップラー効果モデリングを適用することが可能であると仮定する。いくつかの例示的な実装形態では、このデフォルトのドップラー効果モデリングは、前述の式のためのパラメータ値の特定のセットによって実現され得る。
別の例示的で非限定的な例として、比較的低速度のオブジェクトまたはスピーチを有するオブジェクト(例えば、漫画映画のキャラクタ)には、より弱いドップラー効果モデリングが適用され得るか、または場合によってはドップラー効果モデリングがまったく適用されないことさえあり、他のオブジェクトには、中程度のまたは物理的に正確なドップラー効果モデリングが考慮され得る。例えば、スピーチが付随した非常に高速のオーディオオブジェクト(例えば、飛んでいるスーパーヒーローなど)を有するシーンを考えると、スピーチにはドップラー効果モデリングをほとんど適用しないか、または全く適用しないが、残りの音には少なくともある程度のドップラー効果モデリングを適用することが望ましい場合がある。
図4は、本発明の実施形態による、6DoF環境のためのオーディオコンテンツをレンダリングするときのドップラー効果をモデル化する方法400の例を示す概略的なフローチャートである。実施態様に応じて、方法は、デコーダまたはユーザ側環境(例えば、VR/AR環境)において実行されてもよい。
特に、方法400は、ピッチ係数修正値の許容範囲を示す1つまたは複数の第1のパラメータの第1のパラメータ値を取得する(例えば、受信する)ことによって、ステップS401において開始し得る。続いて、ステップS402において、方法400は、モデル化されるべきドップラー効果の所望の強度を示す第2のパラメータの第2のパラメータ値を取得することを含むことができる。方法400は、次いで、所定のピッチ係数修正関数を使用して、オーディオコンテンツ内のリスナと音源との間の相対速度、ならびに第1および第2のパラメータ値に基づいてピッチ係数修正値を決定することによって、ステップS403に進むことができる。ピッチ係数変更関数は、図1~図3に関する上記の説明に従って、任意の適切な形態で、予め定義されてもよく、例えば、プラグインまたはライブラリとして予め実装されてもよい。より具体的には、所定のピッチ係数修正関数は、とりわけ、第1および第2のパラメータを有してもよく(または、言い換えれば、第1および第2のパラメータを(追加の)入力として取ってもよく)、相対速度をピッチ係数修正値にマッピングするための関数であってもよい。最後に、方法400は、ステップS404において、ピッチ係数修正値に基づいて音源をレンダリングすることを含んでもよい。実装に依存して、方法は、任意的に、レンダリングされた音源を例えば出力(再生)装置(例えば一つまたは複数のスピーカー、ヘッドフォンなどに対応するまたは含む)に出力する段階をさらに含んでいてもよく、モデル化されたドップラー効果をもつレンダリングされたオーディオ出力(信号)は再生され、ユーザーによって知覚されてもよい。
上述したように、提案される方法400は、一般に、(例えば、6DoF環境においてオーディオコンテンツをレンダリングするときに)ドップラー効果をモデル化するために、相対速度を対応するピッチ係数修正値にマッピングするために、予め定義された(又は所定の/予め実装された)ピッチ係数修正関数を利用してもよい。動作中、実際には、提案される方法400が、例えば、あらかじめ定義されたピッチ係数修正関数が展開されているオーディオレンダリングデバイス(例えば、ユーザ側環境におけるAR/VRデバイスのオーディオレンダリングデバイス)によって実行されるとき、オーディオレンダリングデバイスは、それぞれ第1および第2のパラメータに対応する第1および第2のパラメータ値を取得するように構成され得る。例えば、オーディオレンダリングデバイスは、フレームごとに、例えば、各フレームについて、または各キーフレームについて、音源のための第1および第2のパラメータ値を取得し得る。したがって、本開示は、ドップラー効果モデリングの時間依存および/またはオブジェクト固有の制御を提供する。
第1および第2のパラメータ値を実際に取得することは、要件および/または実装形態に応じて、任意の適切な方法で実行され得る。例えば、いくつかの可能な実装では、第一および第二のパラメータ値は、(例えば図5に関連して以下の方法500において記述されるように)エンコーディング装置によってエンコーディングされ送られたビットストリームから導出(例えばデコーディングまたは抽出)されてもよい。いくつかの他の可能な実装形態では、第1および第2のパラメータ値は、ビットストリーム中の指示に基づいて、例えばユーザデバイスのメモリに記憶されたファイルまたはルックアップテーブル(LUT)から取得され得る(例えば、単に読み出され得る)。その場合、エンコーディング側環境/装置は、例えば、ビットストリーム内で、プレーン/クリアで、または任意の他の適切な形式でエンコーディングされた、例えば、適切なポインタ、参照またはインデックスを送信してもよい。
実際のオーディオコンテンツ自体がどのようにエンコーディング及び/又は送信されるかに依存して、ユーザ側でのオーディオコンテンツ(例えば、オーディオ信号)のデコーディングは、当業者により理解及び認識されるように、最終的なレンダリング(ステップS404)が行われる前に、任意の適切な方法で、任意の適切なタイミングで実行されてもよいことにも留意されたい。したがって、実際のオーディオコンテンツ(例えば、オーディオ信号)のデコーディングは、ピッチ係数修正値の決定とは無関係である。
上述のように構成されて、提案される方法は、6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果モデリングを実行する(例えば、制御する)ための効率的で柔軟なメカニズムを提供することができ、同時に、ピッチ係数修正(例えば、高い相対速度、特異点などのためのピッチ係数修正値の高い大きさ)のための(オーディオレンダラの)基礎をなす信号処理ユニットの(許容可能なまたは許容可能な)能力を考慮に入れ、コンテンツ作成者の意図(言い換えれば、主観的なリスニング体験)に従って(所望の)ピッチ係数修正値(すなわち、モデル化されるべきドップラー効果の所望の強度/アグレッシブネスを表す)を制御する可能性を与え、それによって、(リスナ側、例えば、VR環境におけるゲーマーにおいて)知覚されるリスニング体験を改善する。
さらに、ピッチ係数修正関数は、とりわけ、第1および第2のパラメータの両方の値を入力として取る所定の関数としてすでに事前実装されているので、レンダリング条件が変化する(例えば、異なる処理能力をもつ異なるレンダラが展開される、異なるオーディオコンテンツが異なる著者によっておよび/または異なるシーンのために作成されたなど)たびに新しいピッチ係数修正関数を再設計(または再実装)する必要は概してない。むしろ、一般に、ピッチ係数修正値の対応する許容可能な範囲(例えば、限度)およびモデル化されるべきドップラー効果の対応する所望の強度をそれぞれ表す異なる第1および第2のパラメータ値を(例えば、エンコーディング側でエンコーディングされたビットストリームを使用して)通信することのみが必要である。したがって、いくつかの可能なシナリオでは、事前定義されたピッチ係数修正関数は、様々な要件および/または実装形態に応じて、様々なソフトウェアおよび/またはプラットフォームにおいて展開され得るか、あるいは必要な場合にはさらにカスタマイズされ得る、(第1および第2のパラメータを所望のドップラー効果をモデル化するための入力と見なす)プラグインまたはライブラリと同じくらい単純に実装され得る。それによって、ピッチ係数修正関数の不必要な再設計/再実装が回避され、オーディオレンダリングプロセス全体における効率をさらに改善する。
図5は、本発明の実施形態に係る、6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化する際に使うためのパラメータをエンコーディングする方法500の別の例を示す概略的なフローチャートである。換言すれば、この方法500によってそのようにエンコーディングされたパラメータは、図4を参照して記述されたような先行する方法400によって、6DoF環境についてオーディオコンテンツをレンダリングするときにドップラー効果をモデル化するために使われてもよい。すなわち、いくつかの可能な実装では、図5の方法500によってエンコーディングされたパラメータ値は、例えばユーザー側装置(例えばユーザー側またはデコーディング/レンダリング環境における)に(任意の好適な仕方で)送信または通信されてもよい。ユーザ側デバイスは、パラメータ値を適切に取得し(例えば、ビットストリームからデコーディングし)、図4に関して上記で説明したようにドップラー効果をモデル化する方法400を実行するように構成され得る。特に、実装に依存して、エンコーディング方法500は、例えば、コンテンツ作成者からのユーザ入力を利用するエンコーディングデバイス(又は略してエンコーダ)によって、ゲームエンジンによって、等で実行されても良い。
特に、方法500は、ピッチ係数修正値の許容範囲を示す1つまたは複数の第1のパラメータの第1のパラメータ値を決定することによって、ステップS501から開始することができる。続いて、ステップS502において、方法500は、モデル化されるべきドップラー効果の所望の強度を示す第2のパラメータの第2のパラメータ値を決定することを含むことができる。最後に、方法500は、ステップS503において、第1及び第2のパラメータ値の指示をエンコーディングすることを含むことができる。より具体的には、第1および第2のパラメータ値は、オーディオコンテンツのリスナと音源との間の相対速度を、所定のピッチ係数修正関数に基づいてピッチ係数修正値にマッピングするために使用され得る。上記で示したように、ピッチ係数修正値は、音源をレンダリングするために使用されてもよく、所定のピッチ係数修正関数は、第1および第2のパラメータを有してもよく、相対速度をピッチ係数修正値にマッピングするための関数であってもよい。
当業者によって理解され認識されるように、第1及び第2のパラメータ値は、任意の適切な方法でエンコーディングされてもよい。例えば、いくつかの実装形態では、第1および第2のパラメータは、オーディオコンテンツ(例えば、オーディオ信号)とともに単一のビットストリームに、または別個のビットストリームにエンコーディングされ得る。また、実装および/または要件に依存して、第一および第二のパラメータ値は(おそらくはオーディオコンテンツ/信号とともに)、圧縮を伴ってまたは伴わずに、任意の好適なフォーマット、例えばMPEGオーディオ規格(例えば来たるべきMPEG-Iオーディオ規格など)のようなオーディオ規格と互換性のあるビットストリームまたはデータ・フォーマットにエンコーディングされてもよい。その場合、第1及び第2のパラメータ値は、当業者によって理解され認識されるように、例えば、ヘッダフィールド、メタデータ等の一部として、適宜エンコーディングされてもよい。いくつかの他の可能な場合において、第1および第2のパラメータ値は、任意の適切なデータフォーマットにプレーン変数(例えば、浮動小数点数)として挿入(カプセル化)され得る。エンコーディングされたビットストリームは、任意の適切な手段を使用することによって、例えば有線または無線の方法で、(例えば、デコーディングまたはレンダリングデバイスを備える)ユーザ環境に送信または通信されてもよい。
さらに、上述のように、本開示で提案されるエンコーディング方法500は、例えばコンテンツ作成者によるユーザ入力に基づいて実行されてもよい。その場合、ステップS501における第1のパラメータ値の決定および/またはステップS502における第2のパラメータ値の決定は、ユーザ入力に基づき得る。同様に、エンコーディング方法500は、シナリオおよび/または実装に応じて、(ソフトウェアベースの)ゲームエンジン(ゲーム制御論理エンジン)によって実行され得る。この場合、S501および/またはS502における決定は、例えば、音源のタイプおよび/または速度に基づいて、ゲームエンジンの決定ルーチンに従って実行される。
より具体的には、コンテンツ作成者からのユーザ入力の場合、いくつかの可能な実装では、コンテンツ作成者は、ピッチ係数修正値の許容範囲を示す第一のパラメータについての値を適切に決定し、設定するために、任意の好適な手段を使って、ターゲットデコーディング/レンダリング装置の処理能力またはプロファイルを示す情報を取得してもよい。いくつかの可能な実装形態では、コンテンツ作成者が、それぞれの複数のターゲットデバイスのためのエンコーディングのための(すなわち、それぞれの第1および第2のパラメータ値をもつ)複数のパラメータセットを入力し得、パラメータセットの各々が、それぞれのデコーディング/レンダリングデバイスをターゲットとする第1および第2のパラメータ値を備えることも可能である。その場合、デコーディング/レンダリングデバイスは、デコーディング/レンダリングデバイスに最も適合する(例えば、デコーディング/レンダリングデバイスのプロファイルまたは能力に最も適合する)それぞれの第1および第2のパラメータ値を取得するために、受信されたパラメータセットから単に選ぶかまたは選定し得る。加えて、コンテンツ作成者はまた、様々なシナリオおよび/または実装形態に応じて、ドップラー効果モデリングを適用するかどうかを決定し、適用する場合、(例えば、図3に関して上記で示したように)どの程度まで適用するかを決定する必要があり得る。例えば、いくつかの可能な実装では、コンテンツ作成者は、(グローバル)フラグ(例えば、ビットストリーム内の特定のビットフィールド)を利用および設定して、ドップラー効果のモデル化を(グローバルに)アクティブ化または非アクティブ化してもよい。このフラグは、その後、同様にエンコーディングされる。いくつかの他の可能な実装形態では、コンテンツ作成者は、(グローバル)フラグを使用する代わりに、モデル化されるべきドップラー効果の勾配(アグレッシブネス)を(例えば、所望の強度を示す第2のパラメータの値を制御することによって)単に0に設定し得る。したがって、グローバルなアクティブ化または非アクティブ化と比較して、コンテンツ作成者は、より連続的な方法で(例えば、ドップラー効果モデリングのフレームごとの制御を使用して)ドップラー効果モデリングを制御するためのさらなる自由を有し得る。
一方、エンコーディングタスクを実行する(ソフトウェアベースの)ゲームエンジン(例えば、VR/AR環境用)の場合、コンテンツ作成者の役割がゲームエンジンによって置き換えられることを除いて、プロセスは、(人間の)コンテンツ作成者からのユーザ入力に関して上で説明したものとほぼ同じである。より具体的には、ここでは、レンダリング/デコーディングプラットフォームの対応する能力/プロファイルの知識を取得し、加えて、実装および/または要件に応じて、適宜、ドップラー効果のモデル化の勾配/アグレッシブネスを(例えば、任意の好適な論理/アルゴリズム、機械学習、ハードコード等を使用することによって)判定および制御する必要があり得るのは、ゲームエンジン(またはその開発者)である。いくつかの可能な場合において、主に、VR/AR環境における(リアルタイム)レンダリングにおいて、(エンコーディングタスクを実行する)ゲームエンジンが、典型的には、デコーディング/レンダリングデバイス/コンポーネントとともに(例えば、同じコンピュータデバイスまたはゲームコンソール内に)配置されるという理由で、第1および第2のパラメータの値は、ビットストリームにエンコーディングされる必要さえなくてもよく、他の適切なフォーマットで(例えば、プレーン変数などとして)デコーディング/レンダリングデバイス/コンポーネントに通信/送信されてもよい。また、シナリオおよび/または実装形態に応じて、パラメータ値は、周期的に(例えば、フレームベースで)またはオンデマンドで、あるいは任意の他の好適な形態で通信され得る。
上述のように構成されて、提案される方法は、6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果モデリングのために使用されるパラメータをエンコーディングするための効率的で柔軟な機構を提供することができ、同時に、ピッチ係数修正(例えば、高い相対速度、特異点などのためのピッチ係数修正値の高い大きさ)のための(オーディオレンダラ側の)基礎となる信号処理ユニットの(許容可能なまたは許容可能な)能力を考慮に入れ、コンテンツ作成者の意図(言い換えれば、主観的なリスニング体験)に従って(所望の)ピッチ係数修正値(すなわち、ドップラー効果の所望の強度を表す)を制御する可能性も与え、それによって、(リスナ/ユーザ側での)知覚されるリスニング体験を改善する。
さらに、上述したように、ピッチ係数修正関数は、第1および第2のパラメータを入力として取る(レンダラ側での)所定の関数としてすでに実装され、展開されているので、一般に、レンダリング条件が変化する(例えば、異なる処理能力をもつ異なるレンダラが展開される、異なるオーディオコンテンツが異なる人によっておよび/または異なるシーンのために作成されたなど)たびに新しいピッチ係数修正関数を再設計(または再実装)する必要はない。代わりに、エンコーディング側は、ピッチ係数修正値の対応する許容範囲(限度)とモデル化されるべきドップラー効果の対応する所望の強度とをそれぞれ表す(例えば、ビットストリーム中でエンコーディングされた)異なる第1および第2のパラメータ値を通信するだけであり得る。したがって、いくつかの可能なシナリオでは、あらかじめ定義されたピッチ係数修正関数は、様々な要件および/または実装形態に応じて、様々なソフトウェアおよび/またはプラットフォームにおいて展開され得る(レンダラ側の)プラグインと同じくらい単純に実装され得るか、または必要な場合にはさらにカスタマイズされることさえあり得る。それによって、ピッチ係数変更関数の不必要な再設計/再実装が回避され、オーディオレンダリングプロセス全体における効率がさらに改善される。
最後に、上述のピッチ係数修正関数Fに対する最小要件(複数可)は、この関数の計算的に単純な実装を可能にし、一方で、ドップラー効果の現実的なモデル化を依然として達成することに留意されたい。これは、式(1)およびその等価物で与えられるピッチ係数修正関数Fの明示的な例に特に当てはまり得る。
ここで、図6A~6Bおよび図7A~7Bにおいて、可能なドップラー効果モデリングアプローチによって処理されたオーディオ信号(例えば、ユーザ側環境において)と、本発明の実施形態に従って処理されたオーディオ信号(例えば、ユーザ側環境において)との間の比較が概略的に示される。換言すれば、図6A~図6B及び図7A~図7Bは、概して、ドップラー効果に対して異なるモデリングアプローチを適用することによって得られた(スペクトログラムの形式の)それぞれのレンダリング結果を示し、比較する。特に、当業者によって理解され、認識され得るように、図6A~図6Bおよび図7A~図7Bにおいて、x軸は、概して時間を表し、y軸は、概して周波数を表す。
より具体的には、同じ例示的なオーディオ信号「jet」がそれぞれのモデリングアプローチによって処理される図6B(本発明の可能な実装による)と比較して図6A(可能な従来のモデリングアプローチによる)に反映されるように、本発明において提案されるような(すなわち、図6Bに例示的に示されるような)ピッチ係数修正関数Fは、一般に、より高い次数の連続性(ソフト/滑らかな屈曲対ハード/鋭い屈曲)を示し、これは、より良好な知覚性能をもたらす。同様の発見は、図7A及び図7Bに示されるような比較においても観察され、同じ例示的なオーディオ信号「サイレン」がそれぞれのモデリングアプローチによって処理される。図6A~図6Bおよび図7A~図7Bの両方の場合において、説明の目的で、-500から+500 m/sまでの音源の一定の加速が仮定される。特に、当業者によって理解されるように、図の左端から右に延びる図6A~図6Bおよび図7A~図7Bに示される線または線構造は、これらの線または線構造が実質的に等しいまたは同等のエネルギー密度を有する時間/周波数スロットを接続するという意味で、「等エネルギー」時間/周波数スロットを表すものと見なされ得る。したがって、これらの線または線構造は、時間が進行するにつれてエネルギー密度が周波数にわたってどのように移動したかを示す。
本発明は、同様に、本発明全体にわたって説明される方法および技法を実行するための装置に関する。図8Aおよび8Bは、それぞれ、そのような装置800および801の例を一般的に示す。特に、装置800(又は801)は、プロセッサ810(又は811)と、プロセッサ810(又は811)に結合されたメモリ820(又は821)とを備える。メモリ820(または821)は、プロセッサ810(または811)のための命令を記憶し得る。プロセッサ810(または811)は、とりわけ、入力データ(例えば、ビットストリームまたは任意の他の適切なフォーマットの形態で)830(または831)を受信し得る。プロセッサ810(または811)は、本発明全体にわたって説明される方法/技法を実行し、それに応じて出力データ840(または841)を生成するように適合され得る。例えば、装置800は、状況に依存して、図4に関して上で示されたような6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化する方法400を実行するよう構成されたオーディオレンダラを実装してもよく、装置801は、状況に依存して、本発明の実施形態に従って、図5に関して上で示されたような6DoF環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化する際に使うためのパラメータをエンコーディングする方法500を実行するよう構成されたエンコーダを実装してもよい。
解釈
上記の技術を実装するコンピューティングデバイスは、以下の例示的なアーキテクチャを有することができる。より多くの又はより少ない構成要素を有するアーキテクチャを含む他のアーキテクチャも可能である。いくつかの実装形態では、例示的なアーキテクチャは、1つまたは複数のプロセッサ(例えば、デュアルコアIntel(登録商標)Xeon(登録商標)プロセッサ)、1つまたは複数の出力デバイス(例えば、LCD)、1つまたは複数のネットワークインターフェース、1つまたは複数の入力デバイス(例えば、マウス、キーボード、タッチセンシティブディスプレイ)、および1つまたは複数のコンピュータ可読媒体(例えば、RAM、ROM、SDRAM、ハードディスク、光ディスク、フラッシュメモリなど)を含む。これらの構成要素は、1つ以上の通信チャネル(例えば、バス)を介して通信及びデータを交換することができ、通信チャネルは、構成要素間のデータ及び制御信号の転送を容易にするための様々なハードウェア及びソフトウェアを利用することができる。
「コンピュータ可読媒体」という用語は、実行のためにプロセッサに命令を提供することに関与する媒体を指し、限定はしないが、不揮発性媒体(例えば、光学または磁気ディスク)、揮発性媒体(例えば、メモリ)および伝送媒体を含む。伝送媒体は、同軸ケーブル、銅線、および光ファイバを含むが、これらに限定されない。
コンピュータ可読媒体は、オペレーティングシステム(例えば、Linux(登録商標)オペレーティングシステム)、ネットワーク通信モジュール、オーディオインタフェースマネージャ、オーディオ処理マネージャ、及びライブコンテンツディストリビュータを更に含むことができる。オペレーティングシステムは、ネットワークインターフェースおよび/またはデバイスからの入力を認識し、それらに出力を提供すること、コンピュータ可読媒体(例えば、メモリまたは記憶デバイス)上のファイルおよびディレクトリを追跡し、管理すること、周辺デバイスを制御すること、ならびに1つまたはそれを上回る通信チャネル上のトラフィックを管理することを含むが、それらに限定されない、基本タスクを行う。ネットワーク通信モジュールは、ネットワーク接続を確立し、維持するための様々な構成要素(例えば、TCP/IP、HTTPなどの通信プロトコルを実施するためのソフトウェア)を含む。
アーキテクチャは、並列処理またはピアツーピアインフラストラクチャにおいて、または1つまたは複数のプロセッサを有する単一のデバイス上で実施され得る。ソフトウェアは、複数のソフトウェアコンポーネントを含むことができ、又は単一のコード本体とすることができる。
記載された特徴は、データ記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、それらにデータおよび命令を送信するように結合された少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能な1つまたは複数のコンピュータプログラムで有利に実施することができる。コンピュータプログラムは、特定の活動を実行するか、または特定の結果をもたらすために、コンピュータにおいて直接的または間接的に使用され得る命令のセットである。コンピュータプログラムは、コンパイル型言語またはインタープリタ型言語を含む任意の形態のプログラミング言語(例えば、Objective-C、Java(登録商標))で書くことができ、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、ブラウザベースのウェブアプリケーション、もしくはコンピューティング環境での使用に適した他のユニットとして含む任意の形態で展開することができる。
命令のプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のコンピュータの単一のプロセッサまたは複数のプロセッサもしくはコアのうちの1つを含む。一般に、プロセッサは、リードオンリーメモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリである。一般に、コンピュータは、データファイルを記憶するための1つまたは複数の大容量記憶装置も含むか、またはそれと通信するように動作可能に結合され、そのような装置は、内部ハードディスクおよび取外し可能ディスクなどの磁気ディスク、光磁気ディスク、および光ディスクを含む。コンピュータプログラム命令およびデータを有形に実施するのに適した記憶装置は、例として、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、内部ハードディスクおよびリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリを含む。プロセッサおよびメモリは、AS IC(特定用途向け集積回路)によって補完されてもよく、またはAS ICに組み込まれてもよい。
ユーザとの対話を提供するために、特徴は、ユーザに情報を表示するためのCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタまたは網膜ディスプレイデバイスなどのディスプレイデバイスを有するコンピュータ上で実施され得る。コンピュータは、タッチ表面入力デバイス(例えば、タッチスクリーン)またはキーボード、およびマウスまたはトラックボールなどのポインティングデバイスを有することができ、それによってユーザはコンピュータに入力を提供することができる。コンピュータは、ユーザから音声コマンドを受信するための音声入力装置を有することができる。
特徴は、データサーバなどのバックエンドコンポーネントを含む、またはアプリケーションサーバもしくはインターネットサーバなどのミドルウェアコンポーネントを含む、またはグラフィカルユーザインターフェースもしくはインターネットブラウザを有するクライアントコンピュータなどのフロントエンドコンポーネントを含む、またはそれらの任意の組合せを含むコンピュータシステムにおいて実装され得る。システムの構成要素は、通信ネットワークなどのデジタルデータ通信の任意の形態または媒体によって接続され得る。通信ネットワークの例は、例えば、LAN、WAN、及びインターネットを形成するコンピュータ及びネットワークを含む。
コンピューティングシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般に、互いに遠隔にあり、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。いくつかの実施形態では、サーバは、(例えば、クライアントデバイスと対話するユーザにデータを表示し、ユーザからユーザ入力を受信する目的で)クライアントデバイスにデータ(例えば、HTMLページ)を送信する。クライアントデバイスで生成されたデータ(例えば、ユーザ対話の結果)は、サーバでクライアントデバイスから受信され得る。
1つまたは複数のコンピュータのシステムは、動作中にシステムにアクションを実行させる、システムにインストールされたソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せを有することによって、特定のアクションを実行するように構成され得る。1つまたは複数のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実行させる命令を含むことによって、特定のアクションを実行するように構成され得る。
本明細書は、多くの特定の実装の詳細を含むが、これらは、任意の発明の範囲または特許請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。別々の実施形態の文脈において本明細書に記載されている特定の特徴は、単一の実施形態において組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明される様々な特徴は、複数の実施形態で別々に、または任意の適切な部分的組合せで実施することもできる。さらに、特徴は、ある組み合わせで作用するものとして上述され、最初にそのように請求され得るが、請求される組み合わせからの1つ以上の特徴は、いくつかの場合において、組み合わせから削除されることができ、請求される組み合わせは、部分的組み合わせまたは部分的組み合わせの変形例を対象とし得る。
同様に、動作は、特定の順序で図面に示されているが、これは、望ましい結果を達成するために、そのような動作が示された特定の順序で、または連続した順序で実行されること、あるいはすべての示された動作が実行されることを必要とすると理解されるべきではない。ある状況では、マルチタスキングおよび並列処理が有利である場合がある。さらに、上述の実施形態における様々なシステムコンポーネントの分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきではなく、説明されたプログラムコンポーネントおよびシステムは、一般に、単一のソフトウェア製品に一緒に統合されるか、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。
特に明記しない限り、以下の説明から明らかなように、本発明の説明全体を通して、「処理」、「計算」、「算出」、「決定」、「分析」などの用語を利用する説明は、電子的な量などの物理的な量として表されるデータを、同様に物理的な量として表される他のデータに操作および/または変換するコンピュータもしくはコンピューティングシステム、または同様の電子コンピューティングデバイスの動作および/またはプロセスを指すことが理解される。
本発明を通して、「一実施形態例」、「いくつかの実施形態例」、または「実施形態例」への言及は、実施形態例に関連して説明される特定の特徴、構造、または特性が、本発明の少なくとも1つの実施形態例に含まれることを意味する。したがって、本発明全体を通して様々な箇所に「一実施形態例において」、「いくつかの実施形態例において」、または「実施形態例において」という語句が現れることは、必ずしもすべてが同じ実施形態例を指しているわけではない。さらに、特定の特徴、構造、または特性は、1つまたは複数の例示的な実施形態において、本発明から当業者に明らかであるように、任意の適切な方法で組み合わされてもよい。
本明細書で使用される場合、特に指定のない限り、共通の対象を説明するための順序を示す形容詞「第1の」、「第2の」、「第3の」などの使用は、単に、同様の対象の異なる例が言及されていることを示し、そのように説明される対象が、時間的に、空間的に、ランキングで、または任意の他の方法で、所与の順序でなければならないことを暗示することを意図しない。
また、本明細書で使用される表現および用語は、説明のためのものであり、限定と見なされるべきではないことを理解されたい。「含む(including)」、「備える(comprising)」、または「有する(having)」、およびそれらの変形の使用は、その後に列挙される項目およびそれらの等価物、ならびに追加の項目を包含することを意味する。特に指定又は限定されない限り、「取り付けられた」、「接続された」、「支持された」、及び「結合された」という用語、並びにこれらの変形は、広義に使用され、直接的及び間接的な取り付け、接続、支持、及び結合の両方を包含する。
以下の特許請求の範囲および本明細書の説明において、含む(comprising)、からなる(comprised of)、または、それを含む(which comprises)という用語のいずれか1つは、少なくともそれに続く要素/特徴を含むが、他のものを除外しないことを意味するオープンタームである。したがって、特許請求の範囲で使用される場合、含むという用語は、その後に列挙される手段または要素またはステップに限定されるものとして解釈されるべきではない。例えば、A及びBを含むデバイスという表現の範囲は、要素A及びBのみからなるデバイスに限定されるべきではない。本明細書で使用される「含む(including)」又は「含む(which includes)」又は「含む(that includes)」という用語のいずれか1つは、少なくともその用語に続く要素/特徴を含むが、他のものを除外しないことも意味するオープンタームでもある。したがって、含む(including)は、備える(comprising)と同義であり、備える(comprising)を意味する。
本発明の例示的な実施形態の上記の説明において、本発明の様々な特徴は、本発明を合理化し、様々な発明の態様のうちの1つまたは複数の理解を助ける目的で、単一の例示的な実施形態、図、またはその説明にまとめられることがあることを理解されたい。しかしながら、本発明のこの方法は、請求項が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、発明の態様は、単一の上記の開示された例示的な実施形態のすべての特徴よりも少ない特徴にある。したがって、本明細書に続く特許請求の範囲は、本明細書に明示的に組み込まれ、各請求項は、本発明の別個の例示的実施形態として独立している。
さらに、本明細書に記載されたいくつかの例示的な実施形態は、他の例示的な実施形態に含まれるいくつかの特徴を含むが、他の特徴は含まず、異なる例示的な実施形態の特徴の組み合わせは、本発明の範囲内にあることを意味し、当業者によって理解されるように、異なる例示的な実施形態を形成する。例えば、以下の特許請求の範囲において、請求される例示的な実施形態のいずれも、任意の組み合わせで使用され得る。
本明細書に提供される説明では、多数の具体的な詳細が記載される。しかしながら、本発明の例示的な実施形態は、これらの具体的な詳細なしに実施されてもよいことが理解される。他の例では、この説明の理解を曖昧にしないために、周知の方法、構造、および技術は詳細に示されていない。
したがって、本発明の最良の形態であると考えられるものを説明したが、当業者は、本発明の精神から逸脱することなく、他のさらなる修正をそれに対して行うことができ、本発明の範囲内にあるようなすべての変更および修正を請求することが意図されることを認識するであろう。例えば、上記の任意の式は、使用され得る手順の単なる代表例である。機能は、ブロック図に追加されてもよく、またはブロック図から削除されてもよく、動作は、機能ブロック間で交換されてもよい。本開示の範囲内で、記載された方法にステップを追加または削除してもよい。
本発明の様々な態様は、以下の列挙された例示的な実施形態(EEE)から理解され得る。
EEE1.ユーザ側で6自由度(6DoF)環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化する方法であって、
ピッチ係数修正値の許容範囲を示す1つまたは複数の第1のパラメータの第1のパラメータ値を取得することと、
前記モデル化されるべきドップラー効果の所望の強度を示す第2のパラメータの第2のパラメータ値を取得することと、
所定のピッチ係数修正関数を使用して、前記オーディオコンテンツ内のリスナと音源との間の相対速度と、前記第1および第2のパラメータ値とに基づいてピッチ係数修正値を決定することと、
前記ピッチ係数修正値に基づいて前記音源をレンダリングすることと、を含み、
前記所定のピッチ係数修正関数は、前記第1及び第2のパラメータを有し、相対速度をピッチ係数修正値にマッピングするための関数である、方法。
EEE2.前記相対速度は、前記リスナおよび前記音源の位置に基づいて計算される、EEE1に記載の方法。
EEE3.前記一つまたは複数の第一のパラメータは、ピッチ因子修正値の許容範囲の上限および/または下限を示すパラメータを含む、EEE1または2に記載の方法。
EEE4.ピッチ係数修正値の許容可能な範囲は、オーディオコンテンツをレンダリングするオーディオレンダラの処理能力を反映する、先行するEEEのうちのいずれか1つに記載の方法。
EEE5.ピッチ係数修正値の前記許容範囲が前記オーディオレンダラによってサポートされない場合、ピッチ係数修正値のデフォルト範囲が前記オーディオレンダラによって使用される、EEE4に記載の方法。
EEE6.第2のパラメータは、モデル化されるべきドップラー効果のアグレッシブネスを反映するピッチ係数修正関数の傾きを制御する、先行するEEEのうちのいずれか1つに記載の方法。
EEE7.オーディオコンテンツが受領されたビットストリームから抽出され、第一および第二のパラメータ値が前記ビットストリームに含まれる指示から導出される、先行するEEEのうちのいずれか1つに記載の方法。
EEE8.前記オーディオコンテンツならびに前記第一および第二のパラメータ値は別個のビットストリームから得られる、EEE1ないし6のうちのいずれか一つに記載の方法。
EEE9.第2のパラメータ値は、オーディオコンテンツのコンテンツ作成者によって設定される、先行するEEEのうちのいずれか1つに記載の方法。
EEE10.第2のパラメータ値は、所望のドップラー効果強度についての現実世界の基準及び/又は芸術的な期待値をモデル化することによって設定される、先行するEEEのうちのいずれか1つに記載の方法。
EEE11.前記ピッチ因子修正値に基づいて前記オーディオコンテンツをレンダリングすることは、
前記ピッチ係数修正値に基づいて前記オーディオコンテンツ内の前記音源のピッチを調整することを含む、先行するEEEのうちのいずれか1つに記載の方法。
EEE12.正のピッチ係数修正値は、前記音源のピッチを増大させることを示す、EEE11に記載の方法。
EEE13.前記音源のピッチ調整が半音単位で実行される、EEE11または12に記載の方法。
EEE14.ピッチ係数修正関数は、一般化ロジスティック関数に基づく、先行するEEEのうちのいずれか1つに記載の方法。
EEE15.前記ピッチ係数修正関数は、
-相対速度に関して連続的で単調であること、
-前記1つ以上の第1のパラメータによって制御される漸近的限界を有すること、
-ゼロ相対速度でゼロピッチ係数修正値をもたらすこと、および/または
-ゼロ速度の近傍で、前記第2のパラメータによって制御される勾配を有すること
のうちの1つ以上の特性を有する、先行するEEEのうちのいずれか1つに記載の方法。
EEE16.前記ピッチ係数修正関数Fは、
として実装され、ここで、νは、相対速度を表し、l={l
l,l
h}は、第1のパラメータを表し、l
lは、範囲の下限を示し、l
hは、範囲の上限を示し、sは、第2のパラメータを表す、先行するEEEのうちのいずれか1つに記載の方法。
EEE17.前記ユーザに対する再生のために前記レンダリングされた音源をスピーカまたはヘッドフォンに出力すること、をさらに含む、先行するEEEのうちのいずれか1つに記載の方法。
EEE18.6自由度(6DoF)環境のためのオーディオコンテンツをレンダリングするときにドップラー効果をモデル化することにおいて使用するためのパラメータをエンコーディングする方法であって
ピッチ係数修正値の許容範囲を示す1つまたは複数の第1のパラメータの第1のパラメータ値を決定することと、
前記モデル化されるべきドップラー効果の所望の強度を示す第2のパラメータの第2のパラメータ値を決定することと、
前記第1及び第2のパラメータ値の指示をエンコーディングすることと、を含み、
前記第1及び第2のパラメータ値は、前記オーディオコンテンツのリスナと音源との間の相対速度を、所定のピッチ係数修正関数に基づいてピッチ係数修正値にマッピングするために使用されることができ、前記ピッチ係数修正値は、前記音源をレンダリングするために使用され、前記所定のピッチ係数修正関数は、前記第1及び第2のパラメータを有し、相対速度をピッチ係数修正値にマッピングするための関数である、方法。
EEE19.前記第1及び第2のパラメータ値の指示は、ビットストリームにおいてラベルとしてエンコーディングされる、EEE18に記載の方法。
EEE20.第1および第2のパラメータ値の指示は、オーディオコンテンツと一緒に単一のビットストリームにおいて、または、別個のビットストリームとしてエンコーディングされる、EEE18または19に記載の方法。
EEE21.第1及び第2のパラメータ値は、コンテンツ作成者またはゲームエンジンによって決定される、EEE18ないし20のうちのいずれか1つに記載の方法。
EEE22.プロセッサと、前記プロセッサに結合されたメモリとを備えるオーディオレンダラであって、前記プロセッサは、前記オーディオレンダラに、EEE1ないし17のうちのいずれか1つに記載の方法を実行させるように適合されている、オーディオレンダラ。
EEE23.プロセッサと、前記プロセッサに結合されたメモリとを備えるエンコーダであって、前記プロセッサは、前記エンコーダに、EEE18ないし21のうちのいずれか1つに記載の方法を実行させるように適合されている、エンコーダ。
EEE24.プロセッサによって実行されると、前記プロセッサに、EEE1ないし21のうちのいずれか1つに記載の方法を実行させる命令を含む、プログラム。
EEE25.EEE24に記載のプログラムを格納した、コンピュータ読み取り可能な記憶媒体。