JP7752776B2

JP7752776B2 - ビデオの高忠実度拡大を可能にするための技法

Info

Publication number: JP7752776B2
Application number: JP2024539958A
Authority: JP
Inventors: クリシュナン、ラティシュ
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2022-01-07
Filing date: 2022-12-29
Publication date: 2025-10-10
Anticipated expiration: 2042-12-29
Also published as: WO2023133068A1; EP4460969A1; US20230224431A1; CN118511515A; US11863902B2; JP2025501988A

Description

本出願は、概して、解像度を損なうことなくビデオをズームするための技法に関する。

本明細書で認識されるように、ビデオをズームするとき、高レベルのズームでは、画像がピクセル化する。これは、非常に高い解像度を有するビデオを提供することによって緩和することができるが、そのようなビデオは、過度のストレージ及び帯域幅を消費する。現在、上記のコンピュータ関連の技術的問題に対する適切な解決策はない。

したがって、一態様では、一時的な信号ではない少なくとも１つの記憶デバイスは、少なくとも１つのプロセッサによって実行可能な命令を含み、命令は、プロセッサに、ディスプレイ上に第１のビデオを提示させ、ズームコマンドに応答して、第２のビデオを第１のビデオと組み合わせさせ、第１のビデオと組み合わせられた第２のビデオをディスプレイ上に提示させる。第１のビデオ及び第２のビデオは、互いに実質的に同じカメラ位置から、実質的に同じ時間に、かつ実質的に同じ解像度で生成される。しかしながら、忠実度を損なうことなくズームしているように見せるために、第２のビデオは、第１のビデオの生成に使用される物理的又は仮想的なレンズの視野（ＦＯＶ）よりも小さいＦＯＶを有する物理的又は仮想的なレンズによって生成される。代替的に、第２のビデオは、第１のビデオよりも短い焦点距離を有するカメラによって生成してもよい。

ズームコマンドは、第１のズームコマンドであり得、命令は、第１のズームコマンドの継続的な入力又は第２のズームコマンドの入力に応答して、ディスプレイ上に第２のビデオのみを提示するように実行可能であり得る。いくつかの実施例では、命令は、第１のズームコマンドの継続的な入力又は第２のズームコマンドの後の第３のズームコマンドの入力に応答して、第２のビデオを第３のビデオと組み合わせ、第２のビデオと組み合わせられた第３のビデオをディスプレイ上に提示するように実行可能であり得る。ここで、第１、第２、及び第３のビデオは、互いに実質的に同じカメラ位置から、実質的に同じ時間に、かつ実質的に同じ解像度で生成され得るが、第３のビデオは、第２のビデオの生成に使用される物理的又は仮想的なレンズのＦＯＶよりも小さいＦＯＶを有する物理的又は仮想的なレンズによって生成される。

実際、プロセッサは、ズームコマンドの継続的な入力で使用するために、各々が直前のビデオよりも連続的に小さいＦＯＶを有する第４のビデオ及び第５のビデオにアクセスし得る。

ディスプレイは、仮想現実（ＶＲ）、三次元（３Ｄ）コンピュータゲームディスプレイなどのヘッドマウントディスプレイ（ＨＭＤ）であってもよい。

別の態様では、方法は、第１のビデオを広角モードでディスプレイ上に提示することを含む。この方法は、ズームインコマンドに応答して、第１のビデオを標準角モードで提示し、継続的なズームインコマンドに応答して、第１のビデオを望遠モードで提示することを含む。継続的なズームインコマンドに応答して、この方法は、第２のビデオを広角モードでディスプレイ上に提示することを含む。

別の態様では、装置は、第１のビデオをディスプレイ上に提示し、ズームコマンドに応答して、第２のビデオをディスプレイ上に提示するようにプログラムされた少なくともプロセッサを含む。第２のビデオは、第１のビデオの生成に使用される物理的又は仮想的なレンズの視野（ＦＯＶ）よりも小さいＦＯＶを有する物理的又は仮想的なレンズによって生成され、及び／又は第１のビデオが提示される焦点距離よりも短い焦点距離に基づいて生成される。

本出願の詳細は、その構造及び動作の両方に関して、添付図面を参照することにより最良に理解することができ、その中で同じ参照番号は同じ部品を示す。

本原理に従った例示的なシステムのブロック図である。本原理に沿った例示的なロジックを例示的なフローチャート形式で例解する。Ｚ軸に沿って前進することによってズームするユーザを例解する。ズームを概略的に例解する。ビデオ間のオフセットを概略的に示す。例示的なレンダリングモジュール及び復号モジュールのブロック図である。５台のカメラからの視界を例解する。複数ＦＯＶ及び複数配置コンテンツキャプチャを例解する。

本開示は、概して、５Ｇ又はＡＴＳＣ３．０上で動作する無線ネットワークを含むコンピュータゲームネットワークに限定されないコンシューマエレクトロニクス（ＣＥ）デバイスネットワークの態様を含むコンピュータエコシステムに関する。本明細書におけるシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワーク経由で接続され得るサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、ソニーＰｌａｙＳｔａｔｉｏｎ（商標登録）又はＭｉｃｒｏｓｏｆｔ、若しくは任天堂若しくは他のメーカー製のゲームコンソールなどのゲームコンソール、仮想現実（ＶＲ）ヘッドセット、拡張現実（ＡＲ）ヘッドセット、ポータブルテレビ（例えば、スマートテレビ、インターネット対応テレビ）、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、並びにスマートフォンを含む他のモバイルデバイスを含む１つ以上のコンピューティングデバイス、並びに後述する追加の例を含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの中には、実施例として、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔのオペレーティングシステム、又はＵｎｉｘ（登録商標）オペレーティングシステム、又はＡｐｐｌｅ社製若しくはＧｏｏｇｌｅ製のオペレーティングシステムを採用し得る。これらの動作環境は、Ｍｉｃｒｏｓｏｆｔ若しくはＧｏｏｇｌｅ、若しくはＭｏｚｉｌｌａによって作製されたブラウザー、又は後述するインターネットサーバがホストするウェブサイトにアクセスできる他のブラウザープログラムなど、１つ以上のブラウジングプログラムを実行するために使用され得る。また、本原理による動作環境は、１つ以上のコンピュータゲームプログラムを実行するために使用され得る。

インターネットなどのネットワーク経由でデータを受信及び送信するようにサーバを構成する命令を実行する１つ以上のプロセッサを含み得るサーバ及び／又はゲートウェイが使用され得る。あるいは、クライアント及びサーバは、ローカルイントラネット又は仮想プライベートネットワーク経由で接続されることができる。サーバ又はコントローラは、ソニーＰｌａｙＳｔａｔｉｏｎ（商標登録）などのゲームコンソール、パーソナルコンピュータなどによって例示され得る。

クライアントとサーバとの間でネットワークを経由して、情報が交換され得る。この目的及びセキュリティのために、サーバ及び／又はクライアントは、ファイアウォール、ロードバランサ、一時ストレージ、及びプロキシ、並びに信頼性及びセキュリティのための他のネットワークインフラを含むことができる。１つ以上のサーバは、オンラインソーシャルウェブサイト又はゲーマーネットワークのような安全なコミュニティをネットワークメンバーに提供する方法を実装する装置を形成し得る。

プロセッサは、アドレス線、データ線、及び制御線、及びレジスタ、及びシフトレジスタなどの様々な配線によってロジックを実行できる単一チップ又は複数チップのプロセッサであり得る。

ある実施形態に含まれるコンポーネントは、他の実施形態でも適切な組み合わせで使用できる。例えば、本明細書に記載される及び／又は図面に示される様々なコンポーネントはいずれも、他の実施形態と組み合わされ、交換され、又は他の実施形態から除外され得る。

「Ａ、Ｂ、及びＣのうちの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、又はＣのうちの少なくとも１つを有するシステム」、及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａのみ、Ｂのみ、Ｃのみ、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、並びに／又はＡ、Ｂ、及びＣを一緒に有するシステムを含む。

ここで具体的に図１を参照すると、例示的なシステム１０が示されており、このシステム１０は、上述の例示的なデバイスのうちの１つ以上を含み得、本原理に従って以下に更に説明する。システム１０に含まれる例示的なデバイスの第１は、ＴＶチューナー（等価的に、ＴＶを制御するセットトップボックス）を有するインターネット対応ＴＶなどのオーディオビデオデバイス（ＡＶＤ）１２などのコンシューマエレクトロニクス（ＣＥ）デバイスであるが、これに限定されない。ＡＶＤ１２はまた、代替的に、コンピュータ化されたインターネット対応（「スマート」）電話、タブレットコンピュータ、ノートブックコンピュータ、スマートメガネ又はＶＲヘッドセットなどのヘッドマウントデバイス（ＨＭＤ）及び／又はヘッドセット、別のウェアラブルコンピュータ化されたデバイス、コンピュータ化されたインターネット対応音楽プレーヤー、コンピュータ化されたインターネット対応ヘッドフォン、植込み型スキンデバイスなどのコンピュータ化されたインターネット対応植込み型デバイスであり得る。それにもかかわらず、ＡＶＤ１２は、本原理を実現する（例えば、本原理を実現するために他のＣＥデバイスと通信し、本明細書に記載のロジックを実行し、本明細書に記載の任意の他の機能及び／又は動作を実行する）ように構成されていることを理解されたい。

したがって、このような原理を実現するために、ＡＶＤ１２は図１に示されたコンポーネントの一部又は全部によって確立することができる。例えば、ＡＶＤ１２は、高精細若しくは超高精細「４Ｋ」以上のフラットスクリーンによって実装され得る１つ以上のタッチ対応ディスプレイ１４を含むことができる。タッチ対応ディスプレイ（複数可）１４は、例えば、本原理と一致するタッチ感知用の電極のグリッドを有する容量性又は抵抗性タッチ感知層を含み得る。

ＡＶＤ１２はまた、本原理に従ってオーディオを出力するための１つ以上のスピーカ１６と、ＡＶＤ１２を制御するためにＡＶＤ１２に可聴式コマンドを入力するためのオーディオ受信機／マイクロフォンなどの少なくとも１つの追加入力デバイス１８とを含み得る。例示的なＡＶＤ１２はまた、１つ以上のプロセッサ２４の制御下で、インターネット、ＷＡＮ、ＬＡＮなどの少なくとも１つのネットワーク２２を経由して通信するための１つ以上のネットワークインターフェース２０を含み得る。したがって、インターフェース２０は、限定はしないが、メッシュネットワークトランシーバなどであるがそれに限定されない、無線コンピュータネットワークインターフェースの実施例であるＷｉ－Ｆｉトランシーバであり得る。プロセッサ２４は、ディスプレイ１４を制御してその上に画像を提示すること、及びそこから入力を受信することなど、本明細書に記載されるＡＶＤ１２の他の要素を含め、本原理を実現するためにＡＶＤ１２を制御することを理解されたい。更に、ネットワークインターフェース２０は、有線若しくは無線のモデム若しくはルータ、又は無線電話トランシーバ、又は前述のＷｉ－Ｆｉトランシーバなどの他の適切なインターフェースであり得ることに留意されたい。

上記に加えて、ＡＶＤ１２はまた、別のＣＥデバイスに物理的に接続するための高精細マルチメディアインターフェース（ＨＤＭＩ（登録商標））ポート若しくはユニバーサルシリアルバス（ＵＳＢ）ポート、及び／又はヘッドフォンを通してＡＶＤ１２からユーザにオーディオを提示するためにヘッドフォンをＡＶＤ１２に接続するためのヘッドフォンポートのような１つ以上の入力及び／又は出力ポート２６を含み得る。例えば、入力ポート２６は、有線又は無線を介して、ケーブル又は衛星のオーディオビデオコンテンツの供給源２６ａに接続され得る。したがって、供給源２６ａは、別個又は統合されたセットトップボックス、あるいは衛星受信機であり得る。あるいは、供給源２６ａは、コンテンツを含むゲームコンソール又はディスクプレーヤーであり得る。ゲームコンソールとして実装されるときの供給源２６ａは、ＣＥデバイス４８に関連して以下に記載されるコンポーネントの一部又は全部を含み得る。

ＡＶＤ１２は、一時的な信号ではないディスクベースストレージ又はソリッドステートストレージなどの１つ以上のコンピュータメモリ／コンピュータ可読記憶媒２８を更に含み得、場合によっては、スタンドアロンデバイスとして、又はＡＶプログラムを再生するためのＡＶＤのシャーシの内部若しくは外部のいずれかでパーソナルビデオレコーディングデバイス（ＰＶＲ）若しくはビデオディスクプレーヤーとして、又はリムーバブルメモリメディア若しくは後述のサーバとして、ＡＶＤのシャーシ内部で具現化される。また、一部の実施形態では、ＡＶＤ１２は、衛星又は携帯電話基地局から地理的配置情報を受信し、その情報をプロセッサ２４に提供し、並びに／又はプロセッサ２４と連動してＡＶＤ１２が配設される高度を判定するように構成されている、携帯電話受信機、ＧＰＳ受信機及び／若しくは高度計３０などの配置若しくは位置受信機を含むことができるが、これらに限定されない。コンポーネント３０はまた、三次元におけるＡＶＤ１２の位置及び向きを判定するために、典型的には加速度計、ジャイロスコープ、及び磁気計の組み合わせを含む慣性測定ユニット（ＩＭＵ）によって、又はイベントベースのセンサによって実装され得る。

ＡＶＤ１２の説明を続けると、一部の実施形態では、ＡＶＤ１２は、赤外線カメラ、ウェブカムなどのデジタルカメラ、イベントベースのセンサ、及び／又はＡＶＤ１２に統合され、プロセッサ２４によって制御可能で、本原理に従って写真／画像及び／又はビデオを収集することができるカメラなど、１つ以上のカメラ３２を含み得る。また、ＡＶＤ１２には、Ｂｌｕｅｔｏｏｔｈ（登録商標）及び／又はＮＦＣ技術をそれぞれ使用して他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ（登録商標）トランシーバ３４及び他の近距離無線通信（ＮＦＣ）要素３６が含まれ得る。例示的なＮＦＣ要素は、無線周波数識別（ＲＦＩＤ）要素であることができる。

更に引き続き、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３８（例えば、感圧センサ、モーションセンサ、例えば加速度計、ジャイロスコープ、サイクロメータ、又は磁気センサなど、赤外線（ＩＲ）センサ、光学センサ、速度及び／又はケイデンスセンサ、イベントベースのセンサ、（例えば、ジェスチャコマンドを感知するための）ジェスチャセンサ）を含み得る。例えば、補助センサ３８のうちの１つ以上は、タッチ対応ディスプレイ１４の層自体を形成する１つ以上の圧力センサを含み得、限定されないが、圧電圧力センサ、容量性圧力センサ、ピエゾ抵抗ひずみゲージ、光学圧力センサ、電磁圧力センサなどであり得る。

ＡＶＤ１２はまた、プロセッサ２４に入力を提供する地上波テレビ放送を受信するためのＯＴＡテレビ放送ポート４０を含み得る。上記に加えて、ＡＶＤ１２はまた、ＩＲデータ協会（ＩＲＤＡ）デバイスなどの赤外線（ＩＲ）送信機及び／又はＩＲ受信機及び／又はＩＲトランシーバ４２を含み得ることに留意されたい。バッテリ（図示せず）は、ＡＶＤ１２に電力を供給するために提供され得、また、運動エネルギーを、バッテリを充電するための電力、及び／又はＡＶＤ１２に電力供給するための電力に変え得る運動エネルギー収穫器であり得る。グラフィックスプロセシングユニット（ＧＰＵ）４４及びフィールドプログラマブルゲートアレイ４６を含み得る。１つ以上の触覚／振動生成器４７は、デバイスを保持する、又はそれと接触している人によって感知されることができる触覚信号を生成するために提供され得る。触覚生成器４７は、様々な周波数及び／又は振幅の振動、並びに様々な方向への模擬的な力を生成するために、モータの制御下で（そして同様に、プロセッサ２４のようなプロセッサによって制御され得る）シャフトが回転できるように、モータの回転可能なシャフトを介して、中心及び／又はバランスがずれた重りに接続された電気モータを使用して、ＡＶＤ１２の全て又は一部を振動させ得る。

引き続き図１を参照するが、ＡＶＤ１２に加えて、システム１０は、１つ以上の他のＣＥデバイスタイプを含み得る。一実施例では、第１のＣＥデバイス４８は、ＡＶＤ１２に直接送信されるコマンドを介して、及び／又は後述のサーバを通して、コンピュータゲームのオーディオ及びビデオをＡＶＤ１２に送信するために使用されることができるコンピュータゲームコンソールであり得、一方、第２のＣＥデバイス５０は、第１のＣＥデバイス４８と同様のコンポーネントを含み得る。示される実施例では、第２のＣＥデバイス５０は、プレーヤーによって操作されるコンピュータゲームコントローラ、又はプレーヤーによって装着されるヘッドマウントディスプレイ（ＨＭＤ）として構成され得る。ＨＭＤは、ＡＲ／ＭＲコンテンツ又はＶＲコンテンツをそれぞれ提示するためのヘッドアップ式透明ディスプレイ又は非透明ディスプレイを含み得る。

示される実施例では、ＣＥデバイスは２つしか示されていないが、これより少ない又は多いデバイスが使用されてもよいことを理解されたい。本明細書におけるデバイスは、ＡＶＤ１２について示したコンポーネントの一部又は全部を実装し得る。以下の図に示されるコンポーネントのうちのいずれも、ＡＶＤ１２の場合に示されるコンポーネントの一部又は全部を組み込み得る。

ここで、前述の少なくとも１つのサーバ５２を参照すると、少なくとも１つのサーバプロセッサ５４と、ディスクベースストレージ又はソリッドステートストレージなどの少なくとも１つの有形コンピュータ可読記憶媒体５６と、サーバプロセッサ５４の制御下で、ネットワーク２２を経由して図１の他のデバイスとの通信を可能にし、実際に本原理に従ってサーバとクライアントデバイスとの間の通信を容易にし得る少なくとも１つのネットワークインターフェース５８と、を含む。ネットワークインターフェース５８は、例えば、有線若しくは無線のモデム若しくはルータ、Ｗｉ－Ｆｉトランシーバ、又は、例えば、無線電話トランシーバなどの他の適切なインターフェースであり得ることに留意されたい。

したがって、一部の実施形態では、サーバ５２は、インターネットサーバ又はサーバ「ファーム」全体であり得、例えば、ネットワークゲームアプリケーションのための例示的な実施形態において、システム１０のデバイスがサーバ５２を介して「クラウド」環境にアクセスし得るような「クラウド」機能を含み、かつ実行し得る。あるいは、サーバ５２は、図１に示される他のデバイスと同じ部屋又はその近くにある１つ以上のゲームコンソール又は他のコンピュータによって実装され得る。

以下の図に示されるコンポーネントは、図１に示されるコンポーネントの一部又は全部を含み得る。本明細書で記載される任意のユーザインターフェース（ＵＩ）は、統合され、及び／又は拡張され得、ＵＩ要素は、ＵＩ間でミックスされ、及び調和し得る。

図２は、実施例では、「Ｎ」個のビデオが、それぞれの仮想的又は物理的なカメラ、及び関係付けられた物理的又は仮想的なレンズによって生成されることを例解する。Ｎは、２以上の整数であり得る。一実施例では、Ｎは、５に等しい。

一実施例では、Ｎ個のビデオの各々は、限定されないが、４Ｋなどの同じ解像度を有する。しかしながら、他の実施例では、Ｎ個のビデオが全て同じ解像度を有するわけではない場合がある。

いずれの場合も、一実施形態では、ビデオは、同じ又は実質的に同じ位置から、同じ又は実質的に同じ時間に撮影され得る。「実質的に同じ位置」とは、例えば、同じ所に２つのカメラを物理的に位置させるという制約内であることを意味し、カメラは、カメラ筐体の幅によって離されているにもかかわらず、接近して並置され得る。「実質的に同じ時間」とは、同じ実時間若しくは仮想時間に、又は互いに数秒以内であることを意味する。

しかしながら、第１のビデオは、第１の視野（ＦＯＶ）を有する物理的又は仮想的なレンズを使用して生成され、第２のビデオは、第１のＦＯＶよりも小さい第２のＦＯＶを有する物理的又は仮想的なレンズを生成され、各連続するビデオは、チェーン内の先行するビデオよりも連続的に小さいＦＯＶで生成される。しかしながら、各ＦＯＶは、同じ位置又は点又は中心を中心とし得る。連続的により小さいＦＯＶに加えて、又はその代わりに、物理的又は仮想的なカメラが、連続的により短い焦点距離を有してもよいことに留意されたい。

ブロック２０２に移動すると、ビデオは、例えば、各ビデオのキーフレームを互いに整合させ、特定の実施例では、ビデオをＨ２６４として符号化することによって、互いに同期される。整合は、以下で更に記載される。

ユーザがビデオを再生することを望むとき、ビデオは、ブロック２０４において、第１のビデオ、すなわち、最も広いＦＯＶを有するビデオを使用して提示される。ブロック２０６において、ユーザが入力デバイスを使用して、又はビデオを提示するＨＭＤを装着しているときにＺ軸に沿って頭を動かすことによってズームインすると、次に小さいＦＯＶを有するビデオが第１のビデオと組み合わされ、最終的には第１のビデオに置き換わる。継続的なズームによって、ズームが忠実度を損なうことなくエミュレートされるように、連続的により小さいＦＯＶが提示される連続するビデオをもたらす。したがって、再生中、望遠カメラからのコンテンツは、単一のビデオを見ているという知覚を生成するために、事前計算された整合メトリックに従って広角カメラからのコンテンツに挿入される。正確な整合によって、外側のビデオの中に表示される内側のビデオが存在することは見る者には明らかではない。

図３は、Ｚ軸３０４に沿って移動することによってズームするＨＭＤ３０２を装着するユーザ３００を例解する。

図４は、引き続き更に例解する。図４は、異なるＦＯＶを使用することに加えて、シーンが、異なる位置でキャプチャされる実装形態を例解する一方で、以下で記載される図６は、３つ以上のビデオが同じ位置からキャプチャされる場合を例解することに留意されたい。より詳細には、図４に示される実施例では、複数の（例えば、３つの）レンズが、同じ物理的又は仮想的なカメラ配置から３つのビデオをキャプチャするために異なるＦＯＶとともに使用され、それぞれの異なるＦＯＶを有する同じ３つのレンズが、第２の配置から３つのビデオをキャプチャするために使用される。したがって、記録後、６つのビデオが、同時にキャプチャされる。

第１のビデオ４００は、その最大広角モード４０２で示される。ユーザがズームインするにつれて、ビデオは、その標準角モード４０４で示され、最終的には、継続的なズームの下で、その望遠モード４０６で示され、各モードがディスプレイを占める。示される３つのモード間の遷移は、ユーザがズームするにつれて連続的かつ漸進的であるが、単純化のために３つの一般的なモードのみが示されていることを理解されたい。

第１のビデオの望遠モード４０６におけるズームが閾値限界に達したとき、更なるズームによって、第１のビデオをその最大広角モード４１０における第２のビデオ４０８と組み合わせることをもたらす。第２のビデオ４０８は、ズームが第１のビデオの望遠モード４０６から第２のビデオ４０８の広角モード４１０に進むにつれて、最終的に又は直ちに第１のビデオを完全に置き換わり得ることを理解されたい。

ユーザがズームインを続けるにつれて、第２のビデオ４０８は、その標準角モード４１２で示され、最終的には、継続的なズームの下で、その望遠モード４１４で示され、各モードがディスプレイを占める。

第２のビデオの望遠モード４１４からの継続的なズームによって、第２のビデオをその最大広角モード４１８を有する第３のビデオ４１６と組み合わせることをもたらす。第３のビデオ４１４は、ズームが第２のビデオの望遠モード４１４から第３のビデオ４１６の広角モード４１８に進むにつれて、最終的に又は直ちに第２のビデオを完全に置き換わり得ることを理解されたい。

ユーザがズームインを続けるにつれて、第３のビデオ４１６は、その標準角モード４２０で示され、最終的には、継続的なズームの下で、その望遠モード４２２で示され、各モードがディスプレイを占める。シーンが単一の配置からのみキャプチャされる場合、ステップ４０８～４２２は、利用可能でないことに留意されたい。

図４は、各々が連続的により小さいＦＯＶを有する物理的又は仮想的なレンズによって生成される３つのビデオの使用を例解するが、図４の原理と一致して、２つのビデオのみが使用される必要があったり、又は４つ以上のビデオが使用されたりし得ることを理解されたい。

各々が徐々に小さくなるＦＯＶを有する複数のビデオが、ユーザ焦点の可能性の高い複数の領域に対して生成され得ることに留意されたい。中央焦点は、ベースラインで使用され得、次いで、その点からの距離及び方向の観点でのオフセットが、ユーザがオフセット分だけ中央焦点から離れた点に焦点を当てているときを示すメタデータとして使用及び送信されることができる。各オフセットに対して、一連の入れ子になったビデオは、事前計算され得、又はユーザが特定の点に焦点を当てるにつれて、特定の焦点に対してオンザフライで計算され得る。ユーザが、徐々に小さくなるＦＯＶを有する入れ子になったビデオが存在しない点にたまたま焦点を当てた場合には、従来の拡大技法が使用され得る。

各シーンに対する以前のユーザ焦点のヒートマップは、シーン内のどの点がそれらのために生成された一連の入れ子になったビデオを有するべきかを判定するために使用され得る。ユーザが焦点を当てた領域のビデオのみが復号され得る。

ここで、キャプチャの前又はキャプチャ中に判定され得る整合メトリックの説明のために、図５を参照する。

挿入比（Ｒ）は、単一の次元における内側のビデオ（より狭いＦＯＶ）内の画素の数に対する外側のビデオ（より広いＦＯＶ）内の画素の数の比率であると決定することができる。図５では、Ｗ０は、外側のビデオの画素単位の幅であり、Ｗ１は、内側のビデオの画素単位の幅であり、整合後、Ｒ＝Ｗ０／Ｗ１である。挿入比は、２つのカメラの焦点距離、及びカメラセンサの解像度に依存する。

水平オフセット（Ｏｈ）は、図５に示されており、外側のビデオのフレームの中心から測定された、内側のビデオ又はＲＯＩの水平オフセットである。同様に、垂直オフセット（Ｏｖ）は、外側のビデオのフレームの中心から測定された、内側のビデオ又はＲＯＩの垂直オフセットである。

図５は、より広いＦＯＶ及びより狭いＦＯＶのビデオのフレームが、上記のオフセットを使用して、整合メトリックとともに表示中に整列されることを例解する。具体的には、カメラ配置が判定され、異なるＦＯＶを有する２つのカメラが同じシーンを同時にキャプチャする。最も単純な場合では、Ｏｈ＝Ｏｖ＝０であり、ＲＯＩは、ビデオフレームの中心である。２の挿入比は、広角レンズについては６０のＦＯＶ、望遠レンズについては約３２．２のＦＯＶを使用することによって、達成されることができるであろう。カメラの自動露出などの自動機能を無効にすると、表示中の２つのフレームのブレンドが容易になる。

図５Ａを参照する。５００、５０２とラベル付けされた上記２つのカメラからの生のビデオは、２つの別個のビットストリームとして同期及び符号化される。この場合、２つのデコーダは、両方のビットストリームを同時に復号するために使用される。１つのデコーダを使用する他の実施形態では、各カメラからのビデオデータは、単一のビットストリームとして圧縮され得るが、例えば、ＨＥＶＣタイルとして独立して復号可能であり得る。いずれの場合も、ディスプレイ５０６のための出力画素を生成するビデオプレーヤー５０４は、復号モジュール（ＤＭ）５０８及びレンダリングモジュール（ＲＭ）５１０を含む。次に、ＤＭは、圧縮されたビットストリーム（複数可）を復号することが可能である１つ以上のデコーダ５１２を含む。ＲＭは、ビデオテクスチャをサンプリングし、それをディスプレイにレンダリングすることができるＧＰＵシェーダを含む。

整合メトリックは、固定され得るか、又は時間とともに変化してもよい。固定のケースの場合、整合メトリックは、ＤＭ及び／又はＲＭに一度だけ送信されることができる。動的整合メトリックの場合、ＤＭ及び／又はＲＭは、メトリックの変化ごとに更新され得る。これを達成するための１つの方法は、整合メトリックを圧縮されたビットストリーム内のメタデータとして渡すことである。他の実施形態では、整合メトリックは、動き推定及び画像マッチングアルゴリズムを使用して自動的に計算されることができる。

復号されたビデオデータをディスプレイにレンダリングするビデオプレーヤーは、マウス又はビデオゲームコントローラなどのデバイスを使用して、ユーザから拡大制御を受け入れる。ユーザによって選択された拡大レベル（ＭＬ）は、ディスプレイ上で可視になる外側のビデオ及び内側のビデオの部分を決定するために使用される。システムは、画質劣化をもたらす拡大レベルを回避するために、ＭＬについての上限及び下限を設置することができる。ユーザがズームインしているとき、ＭＬの値は増加し、ユーザがズームアウトしているとき、ＭＬは減少する。ＭＬが増加するとき、外側のビデオの可視画素の数は減少し、内側のビデオの可視画素の数は増加する。ＲＭのＧＰＵシェーダは、２つの別個のビデオではなく単一のビデオを見ているという知覚を生成するために、ＭＬの値、整合メトリック、及び同期のための各ビットストリームのフレーム番号を使用する。他の実施形態では、追加の「フェザリング」ステップが、内側のビデオ及び外側のビデオの接合部で境界をマスクするためにシェーダによって実行され得る。

ＭＬが小さく、内側のビデオの可視画素の数が少ない場合、内側のビデオのレンダリングは、表示されたビデオの画質の目立った差異なしにスキップすることができる。内側のビデオの復号されたビデオデータが表示されていない場合、表示されないビデオデータの復号は除くことができ、それによってシステムの性能及び効率を改善し得る。これを達成することができる方法のうちの１つは、どのビデオビットストリームが復号する必要があるかを決定するためにＭＬを利用し、アクティブに復号されているビットストリームからのフレームのみをレンダリングすることである。デコーダがアクティブ状態にあるとき、ビットストリームのアクセスユニット（ＡＵ）は、正常に復号され、復号されたビデオデータは、ディスプレイにレンダリングするためにＲＭに送信される。デコーダが非アクティブ状態にあるとき、ＡＵの復号は、部分的に又は完全にスキップされ得、非アクティブなデコーダに対応するビットストリームについてのビデオデータは、ディスプレイにレンダリングされない。

ＭＬが変化すると、アクティブ状態のデコーダは、非アクティブになり得、逆もまた同様である。デコーダをアクティブ状態から非アクティブ状態に切り替えることは、直ちに行われることができるが、非アクティブ状態からアクティブ状態に切り替えることは、直ちには行われ得ない場合がある。この理由は、現在のＡＵが前のＡＵに依存し得ることであり、デコーダが非アクティブ状態にあるときに前のＡＵの復号がスキップされた場合、現在のＡＵは、復号されたときにエラーを有し得ることである。この問題を回避するために、非アクティブ状態からアクティブ状態への切り替えは、現在のＡＵがキーフレーム（ＩＤＲフレーム）であるときにのみ実行され得る。これをサポートするために、シーク状態が使用され得、このシーク状態ではＭＬが閾値を超えるとき、非アクティブ状態のデコーダが最初に、デコーダがＩＤＲを待っているシーク状態に切り替わる。現在のＡＵがＩＤＲであるとき、デコーダは、シーク状態からアクティブ状態に切り替わる。ＤＭは、アクティブなデコーダのビットストリームＩＤをＲＭに渡し、シーク状態又は非アクティブ状態のデコーダについての無効ＩＤをＲＭに渡す。ＲＭは、有効な画素のみをディスプレイにレンダリングするために、これらのＩＤを使用する。

高拡大レベル、又はズームアウト視界からズームイン視界へのよりスムーズな遷移を必要とするアプリケーションに対しては、３つ以上のカメラ視界が必要となり得る。そのようなユースケースのために、様々な程度の焦点距離又はＦＯＶを有する３つ以上のカメラが使用され得る。前のとおり、同じシーンは、これらのカメラを使用して、同時に単一の配置からキャプチャされる。

５台のカメラを使用してキャプチャすることができる視界の実施例が図６に示される（５つの視界は、「広角１」、「広角２」、「望遠１」、「望遠２」、及び「標準」とラベル付けされている）。

図６の各カメラからのビデオデータは、個々のビットストリーム又は独立して復号可能なサブストリームとして同期及び圧縮され得る。これらのストリームは全て、所望のＭＬに従って同時に復号され、選択的にレンダリングされ得るが、より効率的な手法は、最終的に表示されることになるストリームのみを復号することである。ＤＭにおいて必要とされるデコーダの数は、任意の瞬間に同時にレンダリングされるビデオストリームの最大数に等しくなり得る。１つの外側のビデオ及び１つの内側のビデオの図５に示されるセットアップのために必要とされるデコーダの数は、３つ以上のビデオストリームが使用される場合であっても、２つに制限することができる。これは、以下に記載される「ストリームスイッチング」の戦略を使用して達成される。

各デコーダによって処理されるストリームは、ＭＬの値によって決定される。アプリケーションが開始されるとき、第１のデコーダ（Ｄ１）は、最も広角のビットストリーム（Ｂ１）を処理することができ、第２のデコーダ（Ｄ２）は、より低いＦＯＶを有する第２のビットストリーム（Ｂ２）を処理することができる。ユーザがＭＬを増加させると、Ｂ１の画素がもはやディスプレイにレンダリングされなくなる点が存在する。次いで、Ｄ１は、シーク状態に遷移し、視界リスト内の次のビットストリーム（Ｂ３）を復号する準備をする。ＲＭは、各ビットストリームの復号された画素を適切な拡大度で表示するために、デコーダから渡されたビットストリームＩＤ及び整合メトリックを使用する。ＲＭがビットストリームＩＤの変化を検出するとき、正しいテクスチャ及びサンプリング座標を使用するようにレンダリングプロセスを更新する。

他の実施形態では、スムーズなストリーム切り替えを容易にするために、以下のステップは、符号化プロセス中に行うことができる。

第一に、ビットストリームは、デコーダの同じインスタンスが追加のメモリを必要とせずに複数のビットストリームからＡＵを処理することができるように、同様の符号化設定を使用する。異なるビットストリームのＩＤＲは、ユーザがＭＬを増加又は減少させることができる速度に従って、整列され、及び均等に離間されることができる。次に、各ビットストリームについてのＩＤＲ位置及びＡＵオフセットは、ＤＭで同じ計算を行うことを回避するために、事前計算され得る。

更なる実施形態では、ＤＭは、ＭＬに基づいて処理される次のビットストリームを予測し、復号された画素がディスプレイ上で可視にされる前にこれらのストリームを復号するために、１つ以上の追加のデコーダを含み得る。この戦略は、ＭＬの変化速度を増加させるのを助けることができる。これを達成するための代替的な手法は、ＩＤＲのみを使用してビットストリームを符号化することである。

ここで図７を参照すると、高拡大レベルを必要とするアプリケーションのための代替の技法は、複数ＦＯＶコンテンツキャプチャの代わりに複数配置コンテンツキャプチャである。異なるＦＯＶを有するカメラを使用して１つの配置からシーンをキャプチャする代わりに、シーンは、同じＦＯＶを使用するが、シーンキャプチャの方向が異なる配置７００、７０２においてキャプチャすることができる。他の実施形態では、図７に示されるように、複数ＦＯＶ及び複数配置コンテンツキャプチャの両方は、一緒に用いることができる。他の実施形態では、ＲＭは、複数配置コンテンツ又は複数視界コンテンツの間の歪み補正のためのステージを含み得る。他の実施形態では、オーディオはまた、異なる配置からキャプチャされ、オーディオストリームはまた、より没入型の体験のためにＭＬに従って切り替えられる。

本明細書では、特定の実施形態を示し、詳細に説明するが、本発明によって包含される主題は、特許請求の範囲によってのみ限定されることを理解されたい。

Claims

デバイスであって、
一時的な信号ではなく、少なくとも１つのプロセッサによって実行可能な命令を含む少なくとも１つの記憶デバイスを備え、前記命令が、前記プロセッサに、
第１のビデオをディスプレイ上に提示させ、
ズームコマンドに応答して、第２のビデオを前記第１のビデオと組み合わせ、前記第１のビデオと組み合わせられた前記第２のビデオを前記ディスプレイ上に提示させ、前記第１のビデオ及び前記第２のビデオが、互いに実質的に同じカメラ位置から、実質的に同じ解像度で生成され、前記第２のビデオが、解像度を損なうことなくズームしているように見せるために、前記第１のビデオの生成に使用される物理的又は仮想的なレンズの視野（ＦＯＶ）よりも小さいＦＯＶを有する物理的又は仮想的なレンズによって生成され、
前記ズームコマンドが、第１のズームコマンドであり、前記命令が、前記第１のズームコマンドの継続的な入力又は第２のズームコマンドの入力に応答して、前記第２のビデオのみを前記ディスプレイ上に提示するように実行可能であり、
前記命令が、前記第１のズームコマンドの継続的な入力又は前記第２のズームコマンドの後の第３のズームコマンドの入力に応答して、前記第２のビデオを第３のビデオと組み合わせ、前記第２のビデオと組み合わせられた前記第３のビデオを前記ディスプレイ上に提示するように実行可能であり、前記第１、第２、及び第３のビデオが、互いに実質的に同じカメラ位置から、実質的に同じ時間に、かつ実質的に同じ解像度で生成され、前記第３のビデオが、前記第２のビデオの生成に使用される物理的又は仮想的なレンズの前記ＦＯＶよりも小さいＦＯＶを有する物理的又は仮想的なレンズによって生成される、
デバイス。
前記第１のビデオ及び前記第２のビデオが、仮想的なレンズによって生成される、請求項１に記載のデバイス。
前記第１のビデオ及び前記第２のビデオが、物理的なレンズによって生成される、請求項１に記載のデバイス。
前記プロセッサが、ズームコマンドの継続的な入力で使用するために、各々が直前のビデオよりも連続的に小さいＦＯＶを有する第４のビデオ及び第５のビデオへのアクセスを有する、請求項１に記載のデバイス。
前記ディスプレイを備える、請求項１に記載のデバイス。
前記ディスプレイが、ヘッドマウントディスプレイ（ＨＭＤ）を含む、請求項５に記載のデバイス。
方法であって、
第１のビデオをディスプレイ上に提示することと、
ズームインコマンドに応答して、第２のビデオを前記ディスプレイ上に提示することと、を含み、
広角モードで前記第１のビデオを提示した後に、第１のズームコマンドに応答して、標準角モードでビデオを提示することを含む、方法。
前記第１のズームコマンドに続く第２のズームコマンドの後に、ビデオを望遠モードで提示することを含む、請求項７に記載の方法。
前記第２のビデオの提示を引き起こす前記ズームコマンドが、前記第２のズームコマンドに続く第３のズームコマンドであり、前記第２のビデオが、広角モードで提示される、請求項８に記載の方法。
前記第１のビデオが、第１の視野（ＦＯＶ）を有するレンズを使用して生成され、前記第２のビデオが、前記第１のＦＯＶよりも小さい第２のＦＯＶを有するレンズを使用して生成される、請求項７に記載の方法。
前記第１のビデオ及び前記第２のビデオが、同じ場所で、かつ同じ時間に位置されたカメラからのものであるように生成される、請求項１０に記載の方法。
前記第１のビデオ及び前記第２のビデオが、それぞれの第１の物理的又は仮想的なカメラ位置及び第２の物理的又は仮想的なカメラ位置からの同じカメラ視野を使用してキャプチャされる、請求項７に記載の方法。
装置であって、
少なくともプロセッサを備え、前記プロセッサが、
第１のビデオをディスプレイに提示し、
ズームコマンドに応答して、第２のビデオを前記ディスプレイ上に提示するようにプログラムされており、前記第２のビデオが、前記第１のビデオの生成に使用される物理的又は仮想的なレンズの視野（ＦＯＶ）よりも小さいＦＯＶを有する物理的又は仮想的なレンズによって生成され、及び／又は前記第２のビデオが、前記第１のビデオが提示される焦点距離よりも短い焦点距離に基づいて生成され、
前記ズームコマンドが第１のズームコマンドであり、前記プロセッサが、前記第１のズームコマンドの継続的な入力又は第２のズームコマンドの入力に応答して、前記第２のビデオのみを前記ディスプレイ上に提示するようにプログラムされており、
前記プロセッサが、前記第１のズームコマンドの継続的な入力又は前記第２のズームコマンドの後の第３のズームコマンドの入力に応答して、前記第２のビデオを第３のビデオと組み合わせ、前記第２のビデオと組み合わせられた前記第３のビデオを前記ディスプレイ上に提示するようにプログラムされ、前記第１、第２、及び第３のビデオが、互いに実質的に同じカメラ位置から、実質的に同じ時間に、かつ実質的に同じ解像度で生成され、前記第３のビデオが、前記第２のビデオの生成に使用される物理的又は仮想的なレンズの前記ＦＯＶよりも小さいＦＯＶを有する物理的又は仮想的なレンズによって生成される、装置。
前記第１のビデオ及び前記第２のビデオが、実質的に同じ解像度を有する、請求項１３に記載の装置。
前記第１のビデオ及び前記第２のビデオが、仮想的なレンズによって生成される、請求項１３に記載の装置。
前記第１のビデオ及び前記第２のビデオが、物理的なレンズによって生成される、請求項１３に記載の装置。
前記プロセッサが、ズームコマンドの継続的な入力で使用するために、各々が直前のビデオよりも連続的に小さいＦＯＶを有する第４のビデオ及び第５のビデオへのアクセスを有する、請求項１３に記載の装置。
前記第１のビデオ及び前記第２のビデオが、互いに実質的に同じカメラ位置から、実質的に同じ時間に生成される、請求項１３に記載の装置。
前記第１のビデオ及び前記第２のビデオが、互いから離れたそれぞれの第１のカメラ位置及び第２のカメラ位置から生成される、請求項１３に記載の装置。
方法であって、
第１のビデオをディスプレイ上に提示することと、
ズームインコマンドに応答して、第２のビデオを前記ディスプレイ上に提示することと、を含み、
可視になる少なくとも１つのビットストリームによって表されるビデオ内のコンテンツのみを選択的に復号することによって必要とされる計算能力を低減することを含む、方法。
方法であって、
第１のビデオをディスプレイ上に提示することと、
ズームインコマンドに応答して、第２のビデオを前記ディスプレイ上に提示することと、を含み、
デコーダの同じインスタンスが、追加のメモリを必要とせずに複数のビットストリームからのビットストリームアクセスユニット（ＡＵ）を処理することができるように、同様の符号化設定を使用することに少なくとも部分的によって、カメラ視界のそれぞれのビットストリームの間でスムーズに切り替えることを含み、異なるビットストリームのキーフレームが、ユーザが拡大レベルを増加又は減少させることができる速度に従って、整列され、均等に離間され、各ビットストリームのキーフレーム位置及びＡＵオフセットは、復号モジュールにおいて同じ計算を行うことを回避するために事前計算される、方法。
方法であって、
第１のビデオをディスプレイ上に提示することと、
ズームインコマンドに応答して、第２のビデオを前記ディスプレイ上に提示することと、を含み、
処理される次のビットストリームを予測するために、１つ以上の追加のデコーダを含む復号モジュール（ＤＭ）を実行することと、前記次のビットストリームからの復号された画素が前記ディスプレイ上で可視になる前に前記次のビットストリームを復号することと、を含む、方法。
方法であって、
第１のビデオをディスプレイ上に提示することと、
ズームインコマンドに応答して、第２のビデオを前記ディスプレイ上に提示することと、を含み、
キーフレームのみを使用して、前記ビデオに関連付けられたビットストリームを符号化することを含む、方法。
方法であって、
第１のビデオをディスプレイ上に提示することと、
ズームインコマンドに応答して、第２のビデオを前記ディスプレイ上に提示することと、を含み、
ズームするときに、ビデオを切り替えるとともに、オーディオストリームを切り替えることを含む、方法。