JP2016518764A

JP2016518764A - マルチレイヤビデオコーディングにおけるクロスレイヤ位置合わせ

Info

Publication number: JP2016518764A
Application number: JP2016506377A
Authority: JP
Inventors: ワン、イェ−クイ; ラマスブラモニアン、アダルシュ・クリシュナン; チェン、ジャンレ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-04-05
Filing date: 2014-04-01
Publication date: 2016-06-23
Also published as: US20140301436A1; CN105103551A; KR20150139889A; WO2014165526A1; EP2982113A1

Abstract

いくつかの態様によるビデオ情報をコーディングするための装置は、メモリユニットと、メモリユニットと通信するビデオプロセッサとを含む。ビデオプロセッサは、ピクチャの第１のセットに含まれる第１のピクチャを識別するように構成され、ここにおいて、第１のピクチャの出力位置の後に出力位置を有する、ピクチャの第１のセット内のピクチャは、また、第１のピクチャの復号位置の後に復号位置を有する。ビデオプロセッサは、ピクチャの第２のセットに含まれる第２のピクチャを識別するようにさらに構成され、ここにおいて、第２のピクチャの出力位置の後に出力位置を有する、ピクチャの第２のセット内のピクチャは、また、第２のピクチャの復号位置の後に復号位置を有する。ビデオプロセッサは、また、識別された第１のピクチャと、識別された第２のピクチャとを、１つのシンタックス要素を介して、１つのアクセスユニットにコーディングするように構成される。

Description

[0001] 本開示は、シングルレイヤ、マルチレイヤ、スケーラブルＨＥＶＣ（ＳＨＶＣ）、およびマルチビューＨＥＶＣ（ＭＶ−ＨＥＶＣ）を含む、ビデオコーディングの分野に関する。

[0002] デジタルビデオ機能は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、セルラーまたは衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３、ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４、Ｐａｒｔ１０、アドバンストビデオコーディング（ＡＶＣ）、現在開発中の高効率ビデオコーディング（ＨＥＶＣ）規格によって定義された規格、およびそのような規格の拡張に記載されているビデオコーディング技法など、ビデオコーディング技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および／または記憶することができる。

[0003] ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するために、空間的（イントラピクチャ）予測および／または時間的（インターピクチャ）予測を含む。ブロックベースのビデオコーディングでは、ビデオスライス（たとえば、ビデオフレームまたはビデオフレームの一部分）は、ツリーブロック、コーディングユニット（ＣＵ）、および／またはコーディングノードと呼ばれることもある、ビデオブロックに区分され得る。ピクチャのイントラコード化（Ｉ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測を使用して符号化される。ピクチャのインターコード化（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測、または他の参照ピクチャ中の参照サンプルに対する時間的予測を使用し得る。ピクチャはフレームと呼ばれる場合があり、参照ピクチャは参照フレームに言及される場合がある。

[0004] ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するために、空間的（イントラピクチャ）予測および／または時間的（インターピクチャ）予測を含む。ブロックベースのビデオコーディングでは、ビデオスライス（たとえば、ビデオフレームまたはビデオフレームの一部分）は、ツリーブロック、コーディングユニット（ＣＵ）、および／またはコーディングノードと呼ばれることもある、ビデオブロックに区分され得る。ＣＵは、さらに、ＣＵにとっての予測ビデオデータを決定するために、１つまたは複数の予測ユニット（ＰＵ）に区分され得る。ビデオ圧縮技法は、また、ＣＵを、コーディングされるべきビデオブロックと予測ビデオデータとの間の差を表現する残差ビデオブロックデータの、１つまたは複数の変換ユニット（ＴＵ）に区分し得る。２次元離散コサイン変換（ＤＣＴ）などの線形の変換は、残差ビデオブロックデータをピクセル領域から周波数領域へ変換してさらなる圧縮を実現するために、ＴＵに適用され得る。さらに、ピクチャのイントラコード化（Ｉ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測を使用して符号化され得る。ピクチャのインターコード化（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測、または他の参照ピクチャ中の参照サンプルに対する時間的予測を使用し得る。ピクチャはフレームと呼ばれる場合があり、参照ピクチャは参照フレームに言及される場合がある。

[0005] 空間的または時間的予測は、コーディングされるべきブロックの予測ブロックを生じる。残差データは、コーディングされるべき元のブロックと予測ブロックとの間のピクセル差分を表す。インターコード化ブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトル、およびコーディングされたブロックと予測ブロックとの間の差分を示す残差データに従って符号化される。イントラコード化ブロックは、イントラコード化モードおよび残差データに従って符号化される。さらなる圧縮のために、残差データは、ピクセル領域から変換領域に変換されて、残差変換係数が得られ得、次いで、その残差変換係数は、量子化され得る。最初は２次元アレイで構成される量子化変換係数は、変換係数の１次元ベクトルを生成するために走査され得、なお一層の圧縮を達成するために、エントロピー符号化が適用され得る。

[0006] いくつかのコーディングの実施態様は、多数のレイヤでコーディングされるビデオを含む。各レイヤは、ビデオの異なった符号化をされたバージョンを表現し得る。フレキシブルな規格を提供することを視野に入れて、各レイヤは、コーディングされたビデオ情報を表現するやり方に、無制限の自由を与えられ得る。しかしながら、そのような自由は、コーディングするデバイスが、様々にコーディングされ得る階層化された情報を扱うことを必要とする。このことは、レイヤが編成されコーディングされるにつれて、プロセッササイクル、メモリ、および／または電力消費などの、リソース利用のオーバヘッドをもたらす場合がある。さらに、このことは、コーディングされる情報のレイヤが処理されるにつれて、プレゼンテーションディレイをもたらす場合がある。

[0007] 一般に、本開示は、ビデオコーディング、詳細にはマルチレイヤのビデオコーディングに関する技法を述べる。以下に記載される技法は、マルチレイヤのビデオ処理にとって必要なリソースの利用を強化する、いくつかのコーディングの特徴を提供する。

[0008] 革新的な一態様では、ビデオ情報をコーディングするための装置が提供される。装置は、ベースレイヤに含まれるピクチャの第１のセットと、エンハンスメントレイヤに含まれるピクチャの第２のセットとを、記憶するように構成されるメモリユニットを含む。ビデオ情報の相異なる表現を提供する、ピクチャの第１のセットおよびピクチャの第２のセット。さらに、ピクチャの第１のセットおよびピクチャの第２のセットは、それぞれのセットに含まれるピクチャに関する出力順序を有する。出力順序は、ピクチャに関する表示シーケンスを識別し、各ピクチャは、関連した出力順序内に出力位置を有する。ピクチャの第１のセットおよびピクチャの第２のセットは、それぞれのセットに含まれるピクチャに関する復号順序を有する。復号順序は、それぞれのセットに含まれるピクチャに関する復号シーケンスを識別する。各ピクチャは、さらに、関連した復号順序内に復号位置を有する。

[0009] 装置は、また、メモリユニットに動作可能に結合されるビデオプロセッサを含む。ビデオプロセッサは、ピクチャの第１のセットに含まれる第１のピクチャを識別するように構成され、ここにおいて、第１のピクチャの出力位置の後に出力位置を有する、ピクチャの第１のセット内のピクチャは、また、第１のピクチャの復号位置の後に復号位置を有する。ビデオプロセッサは、さらに、ピクチャの第２のセットに含まれる第２のピクチャを識別するように構成され、ここにおいて、第２のピクチャの出力位置の後に出力位置を有する、ピクチャの第２のセット内のピクチャは、また、第２のピクチャの復号位置の後に復号位置を有する。ビデオプロセッサは、さらに、識別された第１のピクチャと、識別された第２のピクチャとを、１つのアクセスユニットにコーディングするように構成される。

[0010] いくつかの実施態様では、ピクチャの第１のセットは、ピクチャの第１のグループを含み、ピクチャの第２のセットは、ピクチャの第２のグループを備える。識別された第１のピクチャの出力位置の前に出力位置を有し、識別された第１のピクチャの復号位置の後に復号位置を有する、ピクチャの第１のセットからのピクチャは、また、ベースレイヤに含まれるピクチャの第３のセットに含まれる第３のピクチャに先立って復号位置を有し得る。第３のピクチャの出力位置の後に出力位置を有する、ピクチャの第３のセット内のピクチャは、また、第３のピクチャの復号位置の後に復号位置を有し得る。識別された第２のピクチャの出力位置の前に出力位置を有し、識別された第２のピクチャの復号位置の後に復号位置を有する、ピクチャの第２のセットからのピクチャは、また、エンハンスメントレイヤに含まれるピクチャの第４のセットに含まれる第４のピクチャに先立って復号位置を有し得、ここにおいて、ピクチャの第４のセット内のピクチャは、第４のピクチャの出力位置の後に出力位置を有し、また、第４のピクチャの復号位置の後に復号位置を有する。

[0011] 第１のピクチャおよび第２のピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャであり得る。アクセスユニットは、ビデオ情報のための第１のアクセスユニットであり得、アクセスユニットは、ビデオ情報が含まれた各レイヤに関するピクチャを含み得る。装置のいくつかの実施態様では、ビデオ情報の中に少なくとも１つのピクチャを有するピクチャに関するレイヤより下の各レイヤに対して、ピクチャがアクセスユニットに存在しない限り、ベースレイヤ以外のレイヤと関連したピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャとしてコーディングされ得ない。

[0012] 装置は、アクセスユニットのレイヤと関連したピクチャを位置合わせするように構成されるアクセスユニットを、生成するように構成されるエンコーダを含み得る。装置のいくつかの実施態様は、アクセスユニットのレイヤと関連したピクチャを位置合わせするように構成されるアクセスユニットを、処理するように構成されるデコーダを含み得る。装置は、デスクトップコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、セットトップボックス、電話送受話器、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、車内のコンピュータ、またはビデオストリーミングデバイスを含み得る。

[0013] さらに革新的な態様では、ビデオ情報を符号化する方法が提供される。方法は、ベースレイヤに含まれるピクチャの第１のセットと、エンハンスメントレイヤに含まれるピクチャの第２のセットとを、記憶することを含む。ピクチャの第１のセットおよびピクチャの第２のセットは、ビデオ情報の相異なる表現を提供する。さらに、ピクチャの第１のセットおよびピクチャの第２のセットは、それぞれのセットに含まれるピクチャに関する出力順序を有し、ここで、出力順序は、ピクチャに関する表示シーケンスを識別する。各ピクチャは、関連した出力順序内に出力位置を有する。ピクチャの第１のセットおよびピクチャの第２のセットは、それぞれのセットに含まれるピクチャに関する復号順序を、それぞれ有する。復号順序は、それぞれのセットに含まれるピクチャに関する復号シーケンスを識別する。各ピクチャは、さらに、関連した復号順序内に復号位置を有する。

[0014] 方法は、また、ピクチャの第１のセットに含まれる第１のピクチャを識別することを含む。第１のピクチャの出力位置の後に出力位置を有する、ピクチャの第１のセット内のピクチャは、また、第１のピクチャの復号位置の後に復号位置を有する。方法は、また、ピクチャの第２のセットに含まれる第２のピクチャを識別することを含む。第２のピクチャの出力位置の後に出力位置を有する、ピクチャの第２のセット内のピクチャは、また、第２のピクチャの復号位置の後に復号位置を有する。方法は、また、１つのアクセスユニット内で、識別された第１のピクチャと、識別された第２のピクチャとを、符号化することを含む。

[0015] ピクチャの第１のセットは、ピクチャの第１のグループを備え、ピクチャの第２のセットは、ピクチャの第１のグループと、ピクチャの第２のグループとを備える。第１のピクチャおよび第２のピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャであり得る。アクセスユニットは、ビデオ符号化方法のいくつかの実施態様では、ビデオ情報のための第１のアクセスユニットであり、アクセスユニットは、ビデオ情報が含まれた各レイヤに関するピクチャを含む。いくつかの実施態様では、ビデオ情報の中に少なくとも１つのピクチャを有するピクチャに関するレイヤより下の各レイヤに対して、ピクチャがアクセスユニットに存在しない限り、ベースレイヤ以外のレイヤと関連したピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャとしてコーディングされ得ない。

[0016] ビデオ符号化方法のいくつかの実施態様では、ピクチャの第１のセットは、ピクチャの第１のグループを含み、ピクチャの第２のセットは、ピクチャの第２のグループを備える。識別された第１のピクチャの出力位置の前に出力位置を有し、識別された第１のピクチャの復号位置の後に復号位置を有する、ピクチャの第１のセットからのピクチャは、また、ベースレイヤに含まれるピクチャの第３のセットに含まれる第３のピクチャに先立って復号位置を有し得る。第３のピクチャの出力位置の後に出力位置を有する、ピクチャの第３のセット内のピクチャは、また、第３のピクチャの復号位置の後に復号位置を有し得る。識別された第２のピクチャの出力位置の前に出力位置を有し、識別された第２のピクチャの復号位置の後に復号位置を有する、ピクチャの第２のセットからのピクチャは、また、エンハンスメントレイヤに含まれるピクチャの第４のセットに含まれる第４のピクチャに先立って復号位置を有し得、ここにおいて、第４のピクチャの出力位置の後に出力位置を有する、ピクチャの第４のセット内のピクチャは、また、第４のピクチャの復号位置の後に復号位置を有する。

[0017] 革新的な態様では、装置のプロセッサによって実行可能な命令を備える非一時的なコンピュータ可読媒体が提供される。命令は、装置に、上述のビデオ符号化方法を実行させる。

[0018] さらに別の革新的な態様では、ビデオ情報を復号する方法が提供される。方法は、ピクチャの２つ以上のレイヤを含むビデオ情報の第１の部分を受信することを含み、ここで、ピクチャの各レイヤは、それぞれのレイヤに含まれるピクチャに関する出力順序を有する。出力順序は、ピクチャに関する表示シーケンスを識別し、各ピクチャは、関連した出力順序内に出力位置を有する。さらに、ピクチャの第１のセットおよびピクチャの第２のセットは、それぞれのセットに含まれるピクチャに関する復号順序を有し、復号順序は、それぞれのセットに含まれるピクチャに関する復号シーケンスを識別する。各ピクチャは、さらに、関連した復号順序内に復号位置を有する。

[0019] 方法は、また、キーピクチャを識別することを含み、キーピクチャは、ピクチャの復号位置に先立って復号位置を有するピクチャと関連したレイヤに含まれるピクチャからの、ピクチャの出力位置に追従する出力位置を有する他のピクチャを有しないピクチャである。方法は、さらに、アクセスユニットに含まれるすべてのピクチャが、識別されたキーピクチャであるかどうかに関する決定に基づいて、ビデオ情報を復号することを含む。

[0020] 革新的な一態様では、装置のプロセッサによって実行可能な命令を備える非一時的なコンピュータ可読媒体が提供される。命令は、装置に、上述のビデオ復号方法を実行させる。

[0021] アクセスユニットに含まれるすべてのピクチャが、識別されたキーピクチャであること、またはアクセスユニットに含まれるすべてのピクチャが、識別されたキーピクチャでないことを決定すると、方法は、クロスレイヤ位置合わせされた復号のための復号パイプラインを構成することを含み得る。方法は、いくつかの実施態様では、キーピクチャを識別することを含み得、ここにおいて、キーピクチャの出力位置の前に出力位置を有し、識別されたキーピクチャの復号位置の後に復号位置を有する、あるレイヤからのピクチャの第１のセットからのピクチャは、また、そのレイヤに含まれる別のキーピクチャに先立って復号位置を有し、ここにおいて、別のキーピクチャは、出力順序においてキーピクチャの後の、次に識別されるキーピクチャである。そのような実施態様では、ピクチャの第１のセットは、レイヤに含まれるピクチャの第１のグループを備える。

[0022] ビデオ情報の中に少なくとも１つのピクチャを有するピクチャに関するレイヤより下の各レイヤに対して、ピクチャがアクセスユニットに存在しない限り、ベースレイヤ以外のレイヤと関連したピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャとしてコーディングされ得ない。

[0023] この方法のいくつかの実施態様では、識別することは選択的に実行される。識別することは、方法を実行する復号デバイスの動作上の特性に基づいて、選択的に実行され得る。動作上の特性は、復号デバイスの処理負荷、熱の状態、帯域幅の容量、メモリの容量、または結合されたハードウェアを含み得る。

[0024] 方法のいくつかの実施態様は、アクセスユニットに含まれるすべてのピクチャが、識別されたキーピクチャであるかどうかに関する決定を、記憶することを含み得る。方法は、次いで、決定から経過した時間の継続時間に基づいて、識別することを選択的に実行することを含み得る。

[0025] さらに革新的な態様では、ビデオ情報をコーディングするための装置が提供される。装置は、ベースレイヤに含まれるピクチャの第１のセットと、エンハンスメントレイヤに含まれるピクチャの第２のセットとを、記憶するための手段を含む。ピクチャの第１のセットおよびピクチャの第２のセットは、ビデオ情報の相異なる表現を提供する。ピクチャの第１のセットおよびピクチャの第２のセットは、それぞれのセットに含まれるピクチャに関する出力順序を、それぞれ有し、出力順序は、ピクチャに関する表示シーケンスを識別する。各ピクチャは、関連した出力順序内に出力位置を有する。ピクチャの第１のセットおよびピクチャの第２のセットは、それぞれのセットに含まれるピクチャに関する復号順序を有し、復号順序は、それぞれのセットに含まれるピクチャに関する復号シーケンスを識別する。各ピクチャは、さらに、関連した復号順序内に復号位置を有する。

[0026] 装置は、さらに、ピクチャの第１のセットに含まれる第１のピクチャを識別するための手段と、ピクチャの第２のセットに含まれる第２のピクチャを識別するための手段とを含む。第１のピクチャの出力位置の後に出力位置を有する、ピクチャの第１のセット内のピクチャは、また、第１のピクチャの復号位置の後に復号位置を有する。第２のピクチャの出力位置の後に出力位置を有する、ピクチャの第２のセット内のピクチャは、また、第２のピクチャの復号位置の後に復号位置を有する。装置は、また、識別された第１のピクチャと、識別された第２のピクチャとを、１つのアクセスユニットにコーディングするための手段を含む。

[0027] 装置のいくつかの実施態様では、ピクチャの第１のセットは、ピクチャの第１のグループを備え、ピクチャの第２のセットは、ピクチャの第１のグループと、ピクチャの第２のグループとを備える。アクセスユニットは、ビデオ情報のための第１のアクセスユニットを含み得、ここにおいて、アクセスユニットは、ビデオ情報が含まれた各レイヤに関するピクチャを含み得る。ビデオ情報の中に少なくとも１つのピクチャを有するピクチャに関するレイヤより下の各レイヤに対して、ピクチャがアクセスユニットに存在しない限り、ベースレイヤ以外のレイヤと関連したピクチャが、イントラコーディングされたランダムアクセスポイントのピクチャとしてコーディングされないことが望ましくあり得る。

[0028] １つまたは複数の例の詳細は、添付図面および後述の説明で述べられ、これは、本明細書に記載される本発明の概念の完全な範囲を限定することを意図しない。他の特徴、目的、および利点は、説明および各図面から、ならびに特許請求の範囲から明らかである。

[0029] 各図面の全体にわたって、参照番号は、参照される要素の間の対応を示すために再使用され得る。各図面は、本明細書に記載される例示的な実施形態を示すために提供され、本開示の範囲を限定することを意図しない。

[0030] 相異なるディメンションに沿った例示的なビデオスケーラビリティを含むディメンショナリティの図。 [0031] 例示的なマルチレイヤコーディング構造のコーディング構造図。 [0032] コーディングされたマルチレイヤのビデオデータを含むビットストリームのためのアクセスユニットの図。 [0033] 本開示で説明する態様による技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図。 [0034] 本開示で説明する態様による技法を実装し得るビデオエンコーダの例を示すブロック図。 [0035] 本開示で説明する態様による技法を実装し得るクロスレイヤ位置合わせプロセッサの例を示すブロック図。 [0036] 本開示で説明する態様による技法を実装し得るビデオデコーダの例を示すブロック図。 [0037] 位置合わせされていない、コーディングされたアクセスユニットの例を示す図。 [0038] 位置合わせされていない、コーディングされたアクセスユニットのさらなる例を示す図。 [0039] 位置合わせされ、コーディングされたアクセスユニットの例を示す図。 [0040] ビデオコーディングの方法のための処理フロー図。 [0041] クロスレイヤ位置合わせを含むビデオコーディングの別の方法のための処理フロー図。 [0042] クロスレイヤ位置合わせされたビデオデータを識別する方法のための処理フロー図。

[0043] 本開示に記載される技法は、一般に、ビデオコーディング、詳細には、スケーラブルビデオコーディングおよびマルチビュー／３次元ビデオコーディングを含む、マルチレイヤのビデオコーディングに関する。たとえば、技法は、高効率ビデオコーディング（ＨＥＶＣ）のスケーラブルビデオコーディングの拡張（ＳＨＶＣと呼ばれる）に関してよく、それを伴って、またはそれの中で使用されてもよい。ＳＨＶＣ拡張では、ビデオ情報の多数のレイヤが存在し得る。最低レベルにおけるレイヤは、ベースレイヤ（ＢＬ）として働き得、最上部におけるレイヤ（すなわち、最も高いレイヤ）または中間のレイヤは、エンハンストレイヤ（ＥＬ）として働き得る。「エンハンストレイヤ」は、「エンハンスメントレイヤ」と呼ばれることがあり、これらの用語は互換的に使用され得る。ベースレイヤ、またはベースレイヤと最も高いレイヤとの間にあるレイヤは、「参照レイヤ」（ＲＬ）と呼ばれることがあり、これらの用語も互換的に使用され得る。ベースレイヤと上部レイヤとの間のすべてのレイヤは、ＥＬもしくは参照レイヤ（ＲＬ）のいずれか、またはそれらの両方として働き得る。たとえば、中間にあるレイヤは、ベースレイヤまたは間にある任意のエンハンスメントレイヤなどの、それより下のレイヤにとってのＥＬであり得、同時に、それより上のエンハンスメントレイヤにとってのＲＬとして働き得る。ベースレイヤと上部レイヤ（すなわち、最も高いレイヤ）との間にある各レイヤは、より高いレイヤによるレイヤ間予測のための参照として使用され得、レイヤ間予測のための参照として、より低いレイヤを使用し得る。

[0044] 例示のみを目的として、本開示に記載される技法は、２つのレイヤ（たとえば、ベースレイヤのような低いレベルのレイヤ、およびエンハンストレイヤのような高いレベルのレイヤ）のみを含む例とともに説明される。本開示に記載される例は、多数のエンハンスメントレイヤを伴う例に、同様に拡張され得ることを理解されたい。加えて、説明を簡単にするため、以下の開示は、主に「フレーム」または「ブロック」という用語を使用する。しかしながら、これらの用語は、限定的であることを意味しない。たとえば、以下に記載される技法は、ブロック（たとえば、ＣＵ、ＰＵ、ＴＵ、マクロブロックなど）、スライス、フレームなどの、異なるビデオユニットを用いて使用され得、「ピクチャ」および「フレーム」という用語は、互換的に使用され得る。

ビデオコーディング
[0045] ビデオコーディング規格は、ＩＴＵ−ＴＨ．２６１、ＩＳＯ／ＩＥＣＭＰＥＧ−１ビジュアル、ＩＴＵ−ＴＨ．２６２もしくはＩＳＯ／ＩＥＣＭＰＥＧ−２ビジュアル、ＩＴＵ−ＴＨ．２６３、ＩＳＯ／ＩＥＣＭＰＥＧ−４ビジュアル、およびそのスケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング（ＭＶＣ）拡張を含むＩＴＵ−ＴＨ．２６４（ＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣとも呼ばれる）を含む。加えて、新しいビデオコーディング規格、すなわち高効率ビデオコーディング（ＨＥＶＣ）は、ＩＴＵ−ＴＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ（ＶＣＥＧ）のＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｏｎＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇ（ＪＣＴ−ＶＣ）、およびＩＳＯ／ＩＥＣＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）によって、開発中である。ＨＥＶＣ規格の別の最近のドラフトは、「ＨＥＶＣワーキングドラフト７」と呼ばれ、文書ＨＣＴＶＣ−Ｉ１００３、Ｂｒｏｓｓら、「高効率ビデオコーディング（ＨＥＶＣ）テキスト仕様書ドラフト７」、ＩＴＵ−ＴＳＧ１６ＷＰ３のＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｖｅＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇ（ＪＣＴ−ＶＣ）、およびＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１、第９回会合、ジュネーブ、スイス、２０１２年４月２７日〜２０１２年５月７日、である。別の最近のドラフトは、ワーキングドラフト８と呼ばれ、ＨＥＶＣの最新のワーキングドラフト（ＷＤ）において入手可能であり、これ以降、ＨＥＶＣＷＤ８と呼ばれる。

[0046] マルチレイヤコーディング規格の一例は、スケーラブルビデオコーディングである。スケーラブルビデオコーディング（ＳＶＣ）は、（信号対雑音比（ＳＮＲ）とも呼ばれる）品質スケーラビリティ、空間スケーラビリティ、および／または時間スケーラビリティを実現するために使用され得る。たとえば、一実施形態では、参照レイヤ（たとえば、基本レイヤ）は、第１の品質レベルでビデオを表示するのに十分なビデオ情報を含み、エンハンスメントレイヤは、参照レイヤと比べてさらなるビデオ情報を含み、その結果、参照レイヤおよびエンハンスメントレイヤは一緒に、第１の品質レベルよりも高い第２の品質レベル（たとえば、少ない雑音、大きい解像度、より良いフレームレートなど）でビデオを表示するのに十分なビデオ情報を含む。エンハンストレイヤは、ベースレイヤと異なる空間解像度を有し得る。たとえば、ＥＬとＢＬとの間の空間的なアスペクト比は、１．０、１．５、２．０または他の異なる比であり得る。言い換えれば、ＥＬの空間的なアスペクトは、ＢＬの空間的なアスペクトの１．０、１．５、または２．０倍に等しくてよい。いくつかの例では、ＥＬのスケーリングファクタは、ＢＬよりも大きくてよい。たとえば、ＥＬでのピクチャのサイズは、ＢＬでのピクチャのサイズよりも大きくてよい。このようにして、限定でないけれども、ＥＬの空間解像度は、ＢＬの空間解像度よりも大きいことが起こり得る。

[0047] しかしながら、現在の技法は、キーピクチャのレイヤにわたる位置合わせを提供しない。そのような技法は、以下により詳細に記載されるように、より良いコーディング効率と、低減された計算リソースとを可能にする。

[0048] 図１は、相異なるディメンションに沿った例示的なビデオスケーラビリティを含むディメンショナリティの図を示す。スケーラビリティは、図１に示すように、３つのディメンションで可能にされる。時間ディメンションでは、７．５Ｈｚ、１５Ｈｚ、または３０Ｈｚなどのフレームレートが、時間的なスケーラビリティ（Ｔ）によってサポートされ得る。空間的なスケーラビリティ（Ｓ）がサポートされる場合、ＱＣＩＦ、ＣＩＦ、および４ＣＩＦなどの異なる解像度が可能である。各特定の空間解像度およびフレームレートに対して、ＳＮＲ（Ｑ）レイヤが、ピクチャ品質を改善するために追加され得る。

[0049] いったんビデオコンテンツがそのような拡張性のある方法で符号化されると、エクストラクタツールが、たとえば、クライアントまたは伝送チャネルに依存するアプリケーションの要件に従って、実際に配送されるコンテンツを適応させるために使用され得る。図１に示す例では、各立方体は、同じフレームレート（時間的なレベル）、空間解像度、およびＳＮＲレイヤを有するピクチャを含む。これらの立方体（たとえば、ピクチャ）を任意のディメンションに追加することによって、改善された表現が実現され得る。組み合わされたスケーラビリティは、２つ、３つ、またはさらに多くのスケーラビリティが可能である場合に、サポートされる。

[0050] ＳＶＣ仕様によれば、最も低い空間的および品質レイヤを有するピクチャは、Ｈ．２６４／ＡＶＣと互換性があり、最も低い時間的レベルでのピクチャは、時間的なベースレイヤを形成し、これは、より高い時間的レベルでのピクチャを伴って拡張され得る。Ｈ．２６４／ＡＶＣと互換性のあるレイヤに加えて、いくつかの空間的、および／またはＳＮＲエンハンスメントレイヤが、空間的および／または品質のスケーラビリティをもたらすために、追加され得る。ＳＮＲスケーラビリティは、品質スケーラビリティとしても参照させられる。各空間的またはＳＮＲエンハンスメントレイヤは、それ自体、Ｈ．２６４／ＡＶＣと互換性のあるレイヤと同じ時間的スケーラビリティ構造とともに、時間的にスケーラブルであり得る。１つの空間的またはＳＮＲエンハンスメントレイヤに対して、それが依存するより低いレイヤは、その特定の空間的またはＳＮＲエンハンスメントレイヤのベースレイヤとしても参照させられる。

[0051] 図２は、例示的なマルチレイヤコーディング構造のコーディング構造図を示す。最も低い空間的および品質レイヤを有するピクチャ（レイヤ０およびレイヤ１の、ＱＣＩＦ解像度のピクチャ）は、Ｈ．２６４／ＡＶＣと互換性がある。これらの中で、最も低い時間的レベルのこれらのピクチャは、図２のレイヤ０に示されるように、時間的なベースレイヤを形成する。この時間的なベースレイヤ（レイヤ０）は、より高い時間的レベル（レイヤ１）のピクチャを伴って拡張され得る。Ｈ．２６４／ＡＶＣと互換性のあるレイヤに加えて、いくつかの空間的および／またはＳＮＲエンハンスメントレイヤが、空間的および／または品質のスケーラビリティをもたらすために、追加され得る。たとえば、エンハンスメントレイヤは、レイヤ２と同じ解像度を有するＣＩＦ表現であり得る。この例では、レイヤ３は、ＳＮＲエンハンスメントレイヤである。この例に示されるように、各空間的またはＳＮＲエンハンスメントレイヤは、それ自体、Ｈ．２６４／ＡＶＣと互換性のあるレイヤと同じ時間的スケーラビリティ構造によって、時間的にスケーラブルであり得る。また、エンハンスメントレイヤは、空間解像度とフレームレートの両方を拡張し得る。たとえば、レイヤ４は、フレームレートを１５Ｈｚから３０Ｈｚにさらに増大させる、４ＣＩＦエンハンスメントレイヤを形成する。

[0052] 図３は、コーディングされたマルチレイヤのビデオデータを含むビットストリームのためのアクセスユニットの図を示す。同じ時間インスタンスの中でコーディングされたスライスは、ビットストリームの順番で連続である。スライスは、ＳＶＣに関連した１つのアクセスユニットを形成する。それらのアクセスユニットは、次いで、表示順序と異なる場合があり、たとえば、時間的予測の関係によって決定されるかもしれない復号順序に従う。

[0053] 一般に、レイヤ間テクスチャ予測は、エンハンスメントレイヤのピクセル値を予測するために、再構築されたベースレイヤのピクセル値が使用される場合を参照する。「イントラＢＬモード」および「レイヤ間参照ピクチャ」という２つの手法がある。

[0054] どのようにピクチャがコーディングされ（たとえば、使用される予測）、ビットストリーム内にパッケージ化されるかは、ビデオデータを送信、復号、および処理するために消費されるリソースに影響し得る。ビットストリーム内でピクチャを編成することの複雑さは、ビットストリームに含まれるレイヤの数が増大するにつれて、さらに増大する。様々なレイヤからのピクチャのクロスレイヤ位置合わせのためのシステム、デバイス、および方法は、さらに詳細に後述される。記載される特徴は、ビデオ情報を処理しシステム性能全体を改善するために必要とされるリソースを削減し得る。

[0055] 新規のシステム、装置、および方法の様々な態様は、これ以降、添付図面を参照して、より十分に説明される。しかしながら、本開示は、多くの異なる形態で実施可能であり、本開示の全体を通して示される任意の特定の構造または機能に限定されるものと解釈されるべきでない。むしろ、本開示が、入念で完全であり、本開示の範囲を当業者に十分に伝達するように、これらの態様が提供される。本明細書での教示に基づいて、当業者は、本発明の任意の他の態様から独立して実施されるか、または、本発明の任意の他の態様と組み合わされて実施されるかにかかわらず、本開示の範囲が、本明細書で開示される新規のシステム、装置、および方法の任意の態様を包含することを意図することを諒解するべきである。たとえば、本明細書で述べられる任意の数の態様を使用して装置が実施されてよく、または方法が実施されてもよい。加えて、本発明の範囲は、本明細書で述べられる本発明の様々な態様に加えて、またはそれ以外の、他の構造、機能性、または構造および機能性を使用して実施されるそのような装置または方法を包含することを意図する。本明細書で開示する任意の態様は、特許請求の範囲の１つまたは複数の要素により実施されてもよいことを理解されたい。

[0056] 特定の態様が本明細書で説明されるけれども、これらの態様の多くの変形および並べ替えは、本開示の範囲内に属する。好ましい態様のいくつかの利益および利点が述べられるけれども、本開示の範囲は、特定の利点、使用、または目的に限定されることを意図しない。むしろ、本開示の態様は、異なるワイヤレス技術、システム構成、ネットワーク、および伝送プロトコルに、広範囲に適用できることが意図され、これらのうちのいくつかは、各図面および好ましい態様の以下の説明で、例として示される。発明を実施するための形態および各図面は、限定的でなく、本開示の単に例示であり、本開示の範囲は、添付の特許請求の範囲およびその均等物によって定義される。

ビデオコーディングシステム
[0057] 図４は、本開示で説明する態様による技法を利用し得る例示的なビデオコーディングシステム１０を示すブロック図である。本明細書に記載されて使用されるように、「ビデオコーダ」という用語は、ビデオエンコーダとビデオデコーダの両方を総称的に指す。本開示では、「ビデオコーディング」または「コーディング」という用語は、ビデオ符号化およびビデオ復号を総称的に指し得る。

[0058] 図４に示すように、ビデオコーディングシステム１０は、ソースデバイス１２と、宛先デバイス１４とを含む。ソースデバイス１２は、符号化ビデオデータを生成する。宛先デバイス１４は、ソースデバイス１２によって生成された符号化ビデオデータを復号し得る。ソースデバイス１２は、コンピュータ可読媒体１６を介してビデオデータを宛先デバイス１４に供給し得る。ソースデバイス１２および宛先デバイス１４は、デスクトップコンピュータ、ノートブック（たとえば、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどの電話送受話器、いわゆる「スマート」パッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、車内のコンピュータ、ビデオストリーミングデバイスなどを含む、様々なデバイスを含み得る。ソースデバイス１２および宛先デバイス１４は、ワイヤレス通信のために装備され得る。

[0059] 宛先デバイス１４は、コンピュータ可読媒体１６を介して、復号されるべき符号化ビデオデータを受信し得る。コンピュータ可読媒体１６は、符号化ビデオデータをソースデバイス１２から宛先デバイス１４に移動することが可能なタイプの媒体またはデバイスを備え得る。たとえば、コンピュータ可読媒体１６は、ソースデバイス１２が符号化ビデオデータを宛先デバイス１４にリアルタイムで直接送信することを可能にするための、通信媒体を備え得る。符号化ビデオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス１４に送信され得る。通信媒体は、無線周波数（ＲＦ）スペクトルまたは１つもしくは複数の物理伝送線路など、ワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワークなどのパケットベースのネットワーク、またはインターネットなどのグローバルネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス１２から宛先デバイス１４への通信を促進するために有用であり得る、他の機器を含み得る。

[0060] いくつかの実施形態では、符号化されるデータは、出力インターフェース２２から記憶デバイスへ出力され得る。同様に、符号化されるデータは、記憶デバイスから入力インターフェースによってアクセスされ得る。記憶デバイスは、ハードドライブ、ブルーレイ（登録商標）ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、フラッシュメモリ、揮発性もしくは不揮発性のメモリ、またはビデオデータを記憶するための他のデジタル記憶媒体などの、様々な分散された、または局所的にアクセスされるデータ記憶媒体のうちの任意のものを含み得る。記憶デバイスは、ソースデバイス１２によって生成される符号化されたビデオを記憶する、ファイルサーバまたは別の中間的な記憶デバイスに相当し得る。宛先デバイス１４は、記憶されているビデオデータに、記憶デバイスからストリーミングまたはダウンロードを介して、アクセスし得る。ファイルサーバは、符号化ビデオデータを記憶し、その符号化ビデオデータを宛先デバイス１４へ送信することができるタイプのサーバであり得る。例示的なファイルサーバは、ウェブサーバ（たとえば、ウェブサイトのための）、ＦＴＰサーバ、ネットワーク接続記憶（ＮＡＳ）デバイス、または局所的なディスクドライブを含む。宛先デバイス１４は、インターネット接続を含む標準的なデータ接続を通じて、符号化ビデオデータにアクセスし得る。これは、ワイヤレスチャネル（たとえば、Ｗｉ−Ｆｉ（登録商標）接続）、有線の接続（たとえば、ＤＳＬ、ケーブルモデムなど）、または、ファイルサーバに記憶されている符号化ビデオデータにアクセスするために適当な、それらの両方の組合せを含み得る。符号化ビデオデータの記憶デバイスからの伝送は、ストリーミング伝送、ダウンロード伝送、またはそれらの組合せであり得る。

[0061] 本開示の技法は、ワイヤレスのアプリケーションまたはセッティングに加えて、アプリケーションまたはセッティングを適用し得る。技法は、無線によるテレビジョン放送、ケーブルテレビジョン伝送、衛星テレビジョン伝送、動的適応型ＨＴＴＰストリーミング（ＤＡＳＨ：dynamic adaptive streaming over HTTP）などのインターネットストリーミングビデオ伝送、データ記憶媒体へと符号化されるデジタルビデオ、データ記憶媒体のデジタルビデオの復号、または他の適用例などの、様々なマルチメディアの適用例を支援して、ビデオコーディングに適用され得る。いくつかの実施形態では、システム１０は、ビデオストリーミング、ビデオプレイバック、ビデオブロードキャスティングおよび／またはビデオ電話通信などの適用例をサポートするために、一方向または二方向のビデオ伝送をサポートするように構成され得る。

[0062] 図４では、ソースデバイス１２は、ビデオソース１８と、ビデオエンコーダ２０と、出力インターフェース２２とを含む。宛先デバイス１４は、入力インターフェース２８と、ビデオデコーダ３０と、ディスプレイデバイス３２とを含む。ソースデバイス１２のビデオエンコーダ２０は、複数の規格または規格拡張に準拠するビデオデータを含む、ビットストリームをコーディングするための技法を適用するように構成され得る。他の実施形態では、ソースデバイスおよび宛先デバイスは、他の構成要素または構成を含んでもよい。たとえば、ソースデバイス１２は、ビデオデータを外部のカメラなどの外部のビデオソース１８から受信し得る。同様に、宛先デバイス１４は、統合されたディスプレイデバイスを含むのではなく、外部のディスプレイデバイスとインターフェースしてもよい。

[0063] ソースデバイス１２のビデオソース１８は、ビデオカメラ、あらかじめ記録されたビデオを含むビデオアーカイブ、および／またはビデオコンテンツプロバイダからビデオを受信するためのビデオ供給インターフェースなどの、ビデオキャプチャデバイスを含み得る。ビデオソース１８は、ソースビデオとしてコンピュータグラフィックスベースのデータ、または、ライブビデオ、アーカイブされたビデオ、およびコンピュータ生成のビデオの組合せを生成し得る。実施形態によっては、ビデオソース１８がビデオカメラである場合、ソースデバイス１２および宛先デバイス１４は、いわゆるカメラ付き携帯電話またはテレビ電話を形成し得る。記録、事前記録、またはコンピュータで生成されるビデオは、ビデオエンコーダ２０によって符号化され得る。符号化されたビデオ情報は、出力インターフェース２２によってコンピュータ可読媒体１６へ出力され得る。

[0064] コンピュータ可読媒体１６は、ワイヤレスブロードキャストまたは有線ネットワーク伝送などの一時的な媒体、または、ハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、ブルーレイディスク、または他のコンピュータ可読媒体などの記憶媒体（たとえば、非一時的な記憶媒体）を含み得る。ネットワークサーバ（図示せず）は、ソースデバイス１２から符号化ビデオデータを受信し、（たとえば、ネットワーク送信を介して）その符号化ビデオデータを宛先デバイス１４に与え得る。ディスクプレス加工施設などの媒体生産施設のコンピューティングデバイスは、符号化ビデオデータをソースデバイス１２から受信し、符号化ビデオデータを含むディスクを生産し得る。したがって、コンピュータ可読媒体１６は、様々な形態の１つまたは複数のコンピュータ可読媒体を含むと理解され得る。

[0065] 宛先デバイス１４の入力インターフェース２８は、情報をコンピュータ可読媒体１６から受信できる。コンピュータ可読媒体１６の情報は、ビデオエンコーダ２０により定義された、ブロックの特性および／または処理ならびに他のコーディングされたユニット、たとえば、ＧＯＰを記述するシンタックス要素を含むシンタックス情報を含み得、シンタックス情報は、ビデオデコーダ３０によって使用され得る。ディスプレイデバイス３２は、復号されたビデオデータをユーザに表示し、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなどの様々なディスプレイデバイスのうちの任意のものを含み得る。

[0066] ビデオエンコーダ２０およびビデオデコーダ３０は、現在開発中の高効率ビデオコーディング（ＨＥＶＣ）規格などの、ビデオコーディング規格に従って動作し得、ＨＥＶＣテストモデル（ＨＭ）に準拠し得る。あるいは、ビデオエンコーダ２０およびビデオデコーダ３０は、あるいはＭＰＥＧ−４、Ｐａｒｔ１０と呼ばれるＩＴＵ−ＴＨ．２６４規格、アドバンストビデオコーディング（ＡＶＣ）、またはそのような規格の拡張などの、他の独自の規格または業界規格に従って動作し得る。しかしながら、本開示の技法は、いかなる特定のコーディング規格にも限定されない。ビデオコーディング規格の他の例は、ＭＰＥＧ−２と、ＩＴＵ−ＴＨ．２６３とを含む。図４に示されないけれども、いくつかの態様では、ビデオエンコーダ２０およびビデオデコーダ３０は、それぞれ、オーディオのエンコーダおよびデコーダとともに統合され得、オーディオとビデオの両方の、共通のデータストリームまたは別個のデータストリームでの符号化を扱うための、適切なＭＵＸ−ＤＥＭＵＸユニット、または他のハードウェアおよびソフトウェアを含み得る。適用可能であれば、ＭＵＸ−ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

[0067] ビデオエンコーダ２０およびビデオデコーダ３０はそれぞれ、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組合せなど、様々な好適なエンコーダ回路のいずれかとして実装され得る。技法が部分的にソフトウェアで実施される場合、デバイスは、ソフトウェアのための命令を、非一時的なコンピュータ可読媒体に記憶し、本開示の技法を実行するための１つまたは複数のプロセッサを使用して、ハードウェアで命令を実行し得る。ビデオエンコーダ２０およびビデオデコーダ３０の各々は、１つまたは複数のエンコーダまたはデコーダに含まれ得、そのいずれかは、組み合わされたエンコーダ／デコーダ（コーデック）の一部として、それぞれのデバイスに統合され得る。ビデオエンコーダ２０および／またはビデオデコーダ３０を含むデバイスは、集積回路、マイクロプロセッサ、および／または携帯電話などのワイヤレス通信デバイスを備え得る。

[0068] ＪＣＴ−ＶＣは、ＨＥＶＣ規格の開発に取り組んでいる。ＨＥＶＣの標準化の取組みは、ＨＥＶＣテストモード（ＨＭ）と呼ばれるビデオコーディングデバイスの進展モデルに基づく。ＨＭは、たとえば、ＩＴＵ−ＴＨ．２６４／ＡＶＣに従う既存のデバイスに対して、ビデオコーディングデバイスのいくつかの付加された機能を想定する。たとえば、Ｈ．２６４は、９つのイントラ予測符号化モードを提供するが、ＨＭは、３３ものイントラ予測符号化モードを提供し得る。

[0069] 一般に、ＨＭの作業モデルは、ビデオフレームまたはピクチャが、ルーマサンプルとクロマサンプルの両方を含むツリーブロックまたは最大コーディングユニット（ＬＣＵ）のシーケンスに分割され得ることを記載している。ビットストリーム内のシンタックスデータは、ＬＣＵにとってのサイズを定義し得、ＬＣＵは、ピクセルの数の点で最大のコーディングユニットである。スライスは、いくつかの連続したツリーブロックを、コーディングの順序で含む。ビデオフレームまたはピクチャは、１つまたは複数のスライスに区分され得る。各ツリーブロックは、４分木に従って、コーディングユニット（ＣＵ）に分割され得る。一般に、４分木データ構造は、ＣＵあたり１つのノードを、ツリーブロックに対応するルートノードとともに含む。ＣＵが４つのサブＣＵに分割される場合、ＣＵに対応するノードは、４つのリーフノードを含み、その各々は、サブＣＵのうちの１つに対応する。

[0070] ４分木データ構造の各ノードは、対応するＣＵにシンタックスデータを提供することができる。たとえば、４分木のノードは、そのノードに対応するＣＵがサブＣＵに分割されるかどうかを示す分割フラグを含み得る。ＣＵのシンタックス要素は、再帰的に定義されてよく、ＣＵがサブＣＵに分割されるかどうかに依存し得る。ＣＵがさらに分割されない場合、ＣＵは、リーフＣＵとして参照させられる。本開示では、たとえ元のリーフＣＵの明白な分割がなくても、リーフＣＵの４つのサブＣＵも、リーフＣＵと呼ばれる。たとえば、１６×１６サイズのＣＵがさらに分割されない場合、４つの８×８サブＣＵも、１６×１６ＣＵが分割されなかったけれどもリーフＣＵと呼ばれる。

[0071] ＣＵは、ＣＵがサイズの特異性を有しないことを別にすれば、Ｈ．２６４規格のマクロブロックと類似の目的を有する。たとえば、ツリーブロックは、４つの子ノード（サブＣＵとも呼ばれる）に分割され得、各子ノードは、次に、親ノードであり得、別の４つの子ノードに分割され得る。４分木のリーフノードと呼ばれる、最終の、分割されていない子ノードは、リーフＣＵとも呼ばれるコーディングノードを備える。コーディングされたビットストリームと関連したシンタックスデータは、最大ＣＵ深度（CU depth）と呼ばれる、ツリーブロックが分割され得る回数の最大数を定義し得、また、コーディングノードの最小サイズを定義し得る。したがって、ビットストリームは、また、最小コーディングユニット（ＳＣＵ）を定義し得る。本開示は、「ブロック」という用語を、ＨＥＶＣのコンテキストにおいてＣＵ、ＰＵ、またはＴＵのうちのいずれか、または他の規格のコンテキストにおいて類似のデータ構造（たとえば、Ｈ．２６４／ＡＶＣのマクロブロックおよびそのサブブロック）を参照するために使用する。

[0072] ＣＵは、コーディングノードと、コーディングノードに関連する予測ユニット（ＰＵ）および変換ユニット（ＴＵ）とを含む。ＣＵのサイズは、コーディングノードのサイズに対応し、形状において正方形でなければならない。ＣＵのサイズは、８×８ピクセルから、最大で６４×６４ピクセルまたはそれを越えるツリーブロックのサイズまで変動し得る。各ＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。ＣＵと関連したシンタックスデータは、たとえば、ＣＵの１つまたは複数のＰＵへの区分を記述し得る。区分モードは、ＣＵがスキップであるか、または、ダイレクトモードで符号化されるか、イントラ予測モードで符号化されるか、もしくはインター予測モードで符号化されるかの間で、異なり得る。ＰＵは、形状において非正方形に区分されてもよい。ＣＵと関連したシンタックスデータは、また、たとえば、ＣＵの１つまたは複数のＴＵへの、４分木に従う区分を記述し得る。ＴＵは、形状において正方形または非正方形（たとえば、長方形）であってもよい。

[0073] ＨＥＶＣ規格は、異なるＣＵに対して異なり得る、ＴＵに従う変換を可能にする。ＴＵは、通常、区分されたＬＣＵのために定義された、所与のＣＵ内のＰＵのサイズに基づいてサイズ変更されるが、これは常にそうであるとは限らない。ＴＵは、通常、ＰＵと同じサイズであるか、またはＰＵよりも小さい。いくつかの例では、ＣＵに対応する残差サンプルは、「残差４分木」（ＲＱＴ）と呼ばれる４分木構造を使用して、より小さいユニットにさらに分割され得る。ＲＱＴのリーフノードは、変換ユニット（ＴＵ）と呼ばれる場合がある。ＴＵと関連したピクセル差分の値は、変換係数を生成するために変換され得、変換係数は量子化され得る。

[0074] リーフＣＵは、１つまたは複数の予測ユニット（ＰＵ）を含み得る。一般に、ＰＵは、対応するＣＵのすべてまたは一部分に対応する空間的なエリアを表現し、ＰＵのための参照サンプルを取り出すためのデータを含み得る。その上、ＰＵは、予測に関係するデータを含む。たとえば、ＰＵがイントラモードで符号化される場合、ＰＵに対するデータは、残差４分木（ＲＱＴ）に含まれ得、残差４分木は、ＰＵに対応するＴＵのためのイントラ予測モードを記述するデータを含め得る。別の例では、ＰＵがインターモードで符号化される場合、ＰＵは、ＰＵに対する１つまたは複数の動きベクトルを定義するデータを含み得る。ＰＵに対する動きベクトルを定義するデータは、たとえば、動きベクトルの水平の構成要素、動きベクトルの垂直の構成要素、動きベクトルのための解像度（たとえば、４分の１ピクセルの精度または８分の１ピクセルの精度）、動きベクトルが指す先の参照ピクチャ、および／または動きベクトルのための参照ピクチャリスト（たとえば、リスト０、リスト１、またはリストＣ）を記述し得る。

[0075] １つまたは複数のＰＵを有するリーフＣＵは、また、１つまたは複数の変換ユニット（ＴＵ）を含み得る。変換ユニットは、上述するように、ＲＱＴ（ＴＵの４分木構造とも呼ばれる）を使用して規定され得る。たとえば、分割フラグは、リーフＣＵが４つの変換ユニットに分割されるかどうかを、示し得る。次いで、各変換ユニットは、さらなるサブＴＵに、さらに分割され得る。ＴＵがさらに分割されない場合、ＴＵは、リーフＴＵと呼ばれる場合がある。一般に、イントラコーディングのために、リーフＣＵに属しているすべてのリーフＴＵは、同じイントラ予測モードを共有する。すなわち、同じイントラ予測モードが、一般に、リーフＣＵのすべてのＴＵに対して予測される値を計算するために適用される。イントラコーディングのために、ビデオエンコーダは、イントラ予測モードを使用して、ＴＵに対応するＣＵの部分と元のブロックとの間の差分として、各リーフＴＵに対する残差値を計算し得る。ＴＵは、必ずしも、ＰＵのサイズに限定されるとは限らない。したがって、ＴＵは、ＰＵよりも大きくてもまたは小さくてもよい。イントラコーディングのために、ＰＵは、同じＣＵに対して対応するリーフＴＵと並べられ得る。いくつかの例では、リーフＴＵの最大サイズは、対応するリーフＣＵのサイズに対応し得る。

[0076] その上、リーフＣＵのＴＵはまた、残差４分木（ＲＱＴ）と呼ばれる、それぞれの４分木データ構造に関連付けられ得る。すなわち、リーフＣＵは、リーフＣＵがどのようにＴＵに区分されるかを示す４分木を含み得る。ＴＵ４分木のルートノードは一般にリーフＣＵに対応し、ＣＵ４分木のルートノードは一般にツリーブロック（またはＬＣＵ）に対応する。分割されないＲＱＴのＴＵはリーフＴＵと呼ばれる。一般に、本開示は、別段の注記がない限り、ＣＵおよびＴＵという用語を、それぞれ、リーフＣＵおよびリーフＴＵを参照するために使用する。

[0077] ビデオシーケンスは、通常、一連のビデオフレームまたはピクチャを含む。ピクチャのグループ（ＧＯＰ）は、一般に、一連の１つまたは複数のビデオピクチャを備える。ＧＯＰは、ＧＯＰのヘッダの中、１つまたは複数のピクチャのヘッダの中、またはその他の所にシンタックスデータを含み得、シンタックスデータは、ＧＯＰに含まれるいくつかのピクチャを記述する。ピクチャの各スライスは、それぞれのスライスのための符号化モードを記述するスライスシンタックスデータを含み得る。ビデオエンコーダ２０は、通常、ビデオデータを符号化するために、個々のビデオスライス内のビデオブロックに作用する。ビデオブロックは、ＣＵ内のコーディングノードに対応し得る。ビデオブロックは、固定のまたは変化するサイズを有し得、規定されたコーディング規格に従って、サイズは異なり得る。

[0078] 例として、ＨＭは、様々なＰＵサイズでの予測をサポートする。特定のＣＵのサイズが２Ｎ×２Ｎとすれば、ＨＭは、２Ｎ×２ＮまたはＮ×ＮのＰＵサイズでのイントラ予測、および２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、またはＮ×Ｎの対称なＰＵサイズでのインター予測をサポートする。ＨＭは、また、２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズでのインター予測のための、非対称な区分をサポートする。非対称な区分では、ＣＵの一方向は区分されず、他の方向は２５％および７５％に区分される。ＣＵの２５％パーティションに対応する部分は、「ｎ」、ならびにそれに続く「Ｕｐ」、「Ｄｏｗｎ」、「Ｌｅｆｔ」、または「Ｒｉｇｈｔ」の表示によって示される。したがって、たとえば、「２Ｎ×ｎＵ」は、上部で２Ｎ×０．５ＮのＰＵ、および下部で２Ｎ×１．５ＮのＰＵに水平に区分される２Ｎ×２ＮのＣＵを参照する。

[0079] 本開示では、「Ｎ×Ｎ」および「ＮｂｙＮ」は、垂直および水平の寸法の観点からビデオブロックのピクセル寸法を参照するために、たとえば、１６×１６ピクセルまたは１６ｂｙ１６ピクセルのように、互換的に使用され得る。一般に、１６×１６ブロックは、垂直方向に１６ピクセル（ｙ＝１６）、および水平方向に１６ピクセル（ｘ＝１６）を有する。同様に、Ｎ×Ｎブロックは、一般に、垂直方向にＮピクセル、および水平方向にＮピクセルを有し、ここでＮは、非負の整数値を表す。ブロックのピクセルは、行および列に配列され得る。その上、ブロックは、必ずしも、水平方向において垂直方向と同じ数のピクセルを有するとは限らない。たとえば、ブロックは、Ｎ×Ｍピクセルを備え得、ただし、Ｍは必ずしもＮに等しいとは限らない。

[0080] ＣＵのＰＵを使用するイントラ予測またはインター予測のコーディングの後で、ビデオエンコーダ２０は、ＣＵのＴＵに対する残差データを計算し得る。ＰＵは、空間領域（ピクセル領域とも呼ばれる）での予測ピクセルデータを生成する方法、すなわちモードを記述するシンタックスデータを備え得、ＴＵは、変換、たとえば、離散サイン変換（ＤＳＴ）、離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または残差ビデオデータへの概念的には類似の変換を適用した後の、変換領域での係数を備え得る。残差データは、符号化されていないピクチャのピクセルと、ＰＵに対応する予測値との間のピクセル差分に対応し得る。ビデオエンコーダ２０は、ＣＵに対する残差データを含むＴＵを形成し、次いで、ＣＵのための変換係数を生成するためにＴＵを変換し得る。

[0081] 以下により詳細に記載されるように、ビデオエンコーダ２０またはビデオデコーダ３０は、コーディングされるビデオの１つまたは複数の特性に基づいて、変換を選択するように構成され得る。たとえば、変換は、変換ユニットのサイズおよびビデオのタイプ（たとえば、クロマ、ルーマ）に基づいて、他の特性の中から選択され得る。ビデオエンコーダ２０またはデコーダ３０によって実施され得るクロスレイヤ位置合わせの方法は、たとえば、図１０から図１２に関することを含み、以下により詳細に記載される。

[0082] 変換係数を生成するための任意の変換の後で、ビデオエンコーダ２０は、変換係数の量子化を実行し得る。量子化は、その最も広範な通常の意味を有することを意図する、広範な用語である。一実施形態では、量子化は、変換係数が量子化されて、場合によっては、係数を表現するために使用されるデータの量を低減し、さらに圧縮をもたらす処理に言及する。量子化処理は、係数の一部または全部と関連した、いくつかのビット深度を低減し得る。たとえば、ｎビットの値は、量子化中にｍビットの値に端数を丸められてよく、ここで、ｎはｍよりも大きい。

[0083] 量子化の後で、ビデオエンコーダは、変換係数を走査し得、量子化変換係数を含む２次元の行列から１次元のベクトルを生成する。走査は、より高いエネルギー（したがってより低い周波数）の係数をアレイの前方に配置し、より低いエネルギー（したがってより高い周波数）の係数をアレイの後方に配置するように意図され得る。いくつかの例では、ビデオエンコーダ２０は、エントロピー符号化され得るシリアル化されたベクトルを生成するために、量子化変換係数を走査するための規定の走査を利用し得る。他の例では、ビデオエンコーダ２０は、適応走査を実行し得る。量子化変換係数を走査して１次元のベクトルを形成した後、ビデオエンコーダ２０は、たとえば、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ：context-adaptive variable length coding）、コンテキスト適応型２値算術コーディング（ＣＡＢＡＣ：context-adaptive binary arithmetic coding）、シンタックスベースコンテキスト適応型２値算術コーディング（ＳＢＡＣ：syntax-based context-adaptive binary arithmetic coding）、確率間隔区分エントロピー（ＰＩＰＥ：Probability Interval Partitioning Entropy）コーディングまたは別のエントロピー符号化の方法に従って、１次元のベクトルをエントロピー符号化し得る。ビデオエンコーダ２０は、また、ビデオデコーダ３０によるビデオデータの復号での使用のために、符号化ビデオデータと関連したシンタックス要素をエントロピー符号化する。

[0084] ＣＡＢＡＣを実行するために、ビデオエンコーダ２０は、コンテキストモデル内のコンテキストを、送信されるべきシンボルに割り当て得る。コンテキストは、たとえば、シンボルの隣接する値がゼロ以外であるか否かに関係し得る。ＣＡＶＬＣを実行するために、ビデオエンコーダ２０は、送信されるべきシンボルに対する可変長符号を選択し得る。ＶＬＣの中の符号語は、比較的に短い符号が、より起こりそうなシンボルに対応し、より長い符号が、より起こりそうでないシンボルに対応するように、再構築され得る。このようにして、ＶＬＣの使用により、たとえば、送信されるべき各シンボルに対して等長の符号語を使用することを越える、ビットの節約が達成され得る。起こりそうなことの決定は、シンボルに割り当てられたコンテキストに基づき得る。

[0085] ビデオエンコーダ２０は、さらに、ブロックベースのシンタックスデータ、フレームベースのシンタックスデータ、およびＧＯＰベースのシンタックスデータなどのシンタックスデータを、たとえば、フレームヘッダ、ブロックヘッダ、スライスヘッダ、またはＧＯＰヘッダの中で、ビデオデコーダ３０へ送り得る。ＧＯＰシンタックスデータは、それぞれのＧＯＰの中のいくつかのフレームを記述し得、フレームシンタックスデータは、対応するフレームを符号化するために使用された符号化／予測モードを示し得る。

ビデオエンコーダ
[0086] 図５は、本開示で説明する態様による技法を実装し得るビデオエンコーダの例を示すブロック図である。ビデオエンコーダ２０は、図１０および図１１に関して以下により詳細に記載されるクロスレイヤ位置合わせの方法を含むがそれに限定されず、本開示の技法のうちの任意のものまたはすべてを実行するように構成され得る。一例として、変換処理ユニット５２および逆変換ユニット６０は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。別の実施形態では、エンコーダ２０は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成される、任意選択のレイヤ間予測ユニット６６を含む。他の実施形態では、レイヤ間予測は、モード選択ユニット４０によって実行され得、その場合、レイヤ間予測ユニット６６は、省略され得る。しかしながら、本開示の態様はそのようには限定されない。いくつかの例では、本開示に記載される技法は、ビデオエンコーダ２０の様々な構成要素の間で共有され得る。いくつかの例では、それに加えて、またはそれの代わりに、プロセッサ（図示せず）は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。

[0087] ビデオエンコーダ２０は、ビデオスライス内のビデオブロックのイントラ、インター、およびレイヤ間予測（イントラ、インター、またはレイヤ間コーディングと呼ばれることもある）を実行し得る。イントラコーディングは、所与のビデオフレームまたはピクチャ内のビデオの空間的冗長性を低減または除去するために空間的予測に依拠する。インターコーディングは、ビデオシーケンスの隣接するフレーム内またはピクチャ内のビデオの、時間的な冗長性を低減または除去するために、時間的予測に依拠する。レイヤ間コーディングは、同じビデオコーディングシーケンス内の異なるレイヤ内のビデオに基づく予測に依拠する。イントラモード（Ｉモード）は、いくつかの空間ベースのコーディングモードのうちの任意のものを参照し得る。一方向予測（Ｐモード）または双方向予測（Ｂモード）などのインターモードは、いくつかの時間ベースのコーディングモードのうちの任意のものを参照し得る。

[0088] 図５に示すように、ビデオエンコーダ２０は、符号化されるべきビデオフレーム内の現在のビデオブロックを受信する。図５の例では、ビデオエンコーダ２０は、モード選択ユニット４０と、参照フレームメモリ６４と、加算器５０と、変換処理ユニット５２と、量子化ユニット５４と、エントロピー符号化ユニット５６とを含む。モード選択ユニット４０は、動き補償ユニット４４と、動き推定ユニット４２と、イントラ予測ユニット４６と、レイヤ間予測ユニット６６と、分割ユニット４８とを含む。

[0089] ビデオブロックの再構築のために、ビデオエンコーダ２０は、また、逆量子化ユニット５８と、逆変換ユニット６０と、加算器６２とを含む。デブロッキングフィルタ（図５に示さず）も、ブロック境界をフィルタして、再構築されたビデオからブロッキネスアーチファクトを除去するために、含まれ得る。所望であれば、デブロッキングフィルタは、通常、加算器６２の出力をフィルタするはずである。さらなるフィルタ（インループまたはポストループ）も、デブロッキングフィルタに加えて使用され得る。そのようなフィルタは、簡約のために図示されないが、所望であれば、加算器５０の出力を（インループフィルタとして）フィルタし得る。

[0090] 符号化プロセス中に、ビデオエンコーダ２０は、コーディングされるべきビデオフレームまたはスライスを受信する。フレームまたはスライスは、複数のビデオブロックに分割され得る。動き推定ユニット４２および動き補償ユニット４４は、時間的予測をもたらすために、１つまたは複数の参照フレームの中の１つまたは複数のブロックに対して受信されたビデオブロックのインター予測のコーディングを実行する。イントラ予測ユニット４６は、あるいは、空間的予測をもたらすために、コーディングされるべきブロックと同じフレームまたはスライスの中の、１つまたは複数の隣接ブロックに対して受信されたビデオブロックのイントラ予測のコーディングを実行し得る。ビデオエンコーダ２０は、たとえば、ビデオデータの各ブロックに対する適切なコーディングモードを選択するために、多数のコーディングパスを実行し得る。

[0091] その上、分割ユニット４８は、前のコーディングパスでの前の区分化方式の評価に基づいて、ビデオデータのブロックを、サブブロックに区分し得る。たとえば、分割ユニット４８は、最初は、レート歪み分析（たとえば、レート歪み最適化など）に基づいて、フレームまたはスライスをＬＣＵに区分し、ＬＣＵの各々をサブＣＵに区分し得る。モード選択ユニット４０は、さらにＬＣＵのサブＣＵへの区分を示す４分木データ構造を生成し得る。４分木のリーフノードＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。

[0092] モード選択ユニット４０は、たとえば、エラー結果に基づいて、コーディングモードのうちの１つ、イントラ、インター、またはレイヤ間予測モードを選択し、得られたイントラ、インター、またはレイヤ間コード化ブロックを、残差ブロックデータを生成するために加算器５０に提供し、参照フレームとして使用するためのコーディングされたブロックを再構築するために加算器６２に提供し得る。モード選択ユニット４０はまた、動きベクトル、イントラモードインジケータ、パーティション情報、および他のそのようなシンタックス情報などのシンタックス要素をエントロピー符号化ユニット５６に与える。

[0093] 動き推定ユニット４２および動き補償ユニット４４は、高度に統合され得るが、概念的な目的のために別々に示してある。動き推定は、動き推定ユニット４２によって実行され、動きベクトルを生成する処理であり、ビデオブロックに対する動きを推定する。動きベクトルは、たとえば、現在のフレーム内でコーディングされている現在のブロック（または、他のコーディングユニット）に対する、参照フレーム内の予測ブロック（または、他のコーディングユニット）に対する、現在のビデオフレーム内またはピクチャ内のビデオブロックのＰＵの移動を示し得る。予測ブロックは、ピクセル差分の観点で、コーディングされるべきブロックと密に適合すると見出されたブロックであり、ピクセル差分は、絶対値差分の合計（ＳＡＤ）、二乗差分の合計（ＳＳＤ）、または他の差分の測定規準によって決定され得る。いくつかの例では、ビデオエンコーダ２０は、参照フレームメモリ６４に記憶されている参照ピクチャの、サブ整数ピクセル位置に対する値を計算し得る。たとえば、ビデオエンコーダ２０は、参照ピクチャの、４分の１ピクセル位置、８分の１ピクセル位置、または他の分数のピクセル位置の値を補間し得る。したがって、動き推定ユニット４２は、完全なピクセル位置および分数のピクセル位置に対して動き探索を実行し、動きベクトルを分数のピクセル精度で出力し得る。

[0094] 動き推定ユニット４２は、ＰＵの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコード化スライスの中のビデオブロックのＰＵに対する動きベクトルを計算する。参照ピクチャは、第１の参照ピクチャリスト（リスト０）または第２の参照ピクチャリスト（リスト１）から選択され得、それらの各々は、参照フレームメモリ６４に記憶されている１つまたは複数の参照ピクチャを特定する。動き推定ユニット４２は、計算された動きベクトルを、エントロピー符号化ユニット５６と、動き補償ユニット４４とへ送る。

[0095] 動き補償は、動き補償ユニット４４によって実行され、動き推定ユニット４２により決定された動きベクトルに基づいて、予測ブロックをフェッチまたは生成することを伴う。動き推定ユニット４２および動き補償ユニット４４は、いくつかの例では、機能的に統合され得る。現在のビデオブロックのＰＵに対する動きベクトルを受信すると、動き補償ユニット４４は、予測ブロックを、動きベクトルが参照ピクチャリストのうちの１つで指す所へ位置決めし得る。加算器５０は、コーディングされている現在のビデオブロックのピクセル値から予測ブロックのピクセル値を減算することによって残差ビデオブロックを形成し、以下で説明するようにピクセル差分の値を形成する。いくつかの実施形態では、動き推定ユニット４２は、ルーマ構成要素に対して動き推定を実行することができ、動き補償ユニット４４は、クロマ構成要素とルーマ構成要素の両方のために、ルーマ構成要素に基づいて計算された動きベクトルを使用することができる。モード選択ユニット４０は、ビデオデコーダ３０によるビデオスライスのビデオブロックの復号での使用のために、ビデオブロックおよびビデオスライスと関連したシンタックス要素を生成する。

[0096] イントラ予測ユニット４６は、上述されるように、動き推定ユニット４２および動き補償ユニット４４によって実行されるインター予測に代わるものとして、現在のブロックをイントラ予測または計算し得る。特に、イントラ予測ユニット４６は、現在のブロックを符号化するために使用するイントラ予測モードを決定することができる。いくつかの例では、イントラ予測ユニット４６は、たとえば、別個の符号化パス中に様々なイントラ予測モードを使用して現在のブロックを符号化し得、イントラ予測ユニット４６（または、いくつかの例では、モード選択ユニット４０）は、使用するために適切なイントラ予測モードを、テストされたモードから選択し得る。

[0097] たとえば、イントラ予測ユニット４６は、様々なテストされたイントラ予測モードに対して、レート歪み分析を使用してレート歪みの値を計算し、テストされたモードの中から最良のレート歪み特性を有するイントラ予測モードを選択し得る。レート歪み分析は、一般に、符号化されたブロックと、符号化ブロックを生成するために符号化される、元の符号化されていないブロックとの間のある量の歪み（すなわち、エラー）、および、符号化ブロックを生成するために使用されるビットレート（すなわち、いくつかのビット）を決定する。イントラ予測ユニット４６は、様々な符号化ブロックに対する歪みおよびレートから比を計算し、どのイントラ予測モードがブロックに対して最良のレート歪みの値を示すかを決定し得る。

[0098] ブロックに対するイントラ予測モードを選択した後、イントラ予測ユニット４６は、ブロックに対して選択されたイントラ予測モードを示す情報を、エントロピー符号化ユニット５６に提供し得る。エントロピー符号化ユニット５６は、選択されたイントラ予測モードを示す情報を符号化し得る。ビデオエンコーダ２０は、送信されるビットストリームの中に構成データを含み得、構成データは、コンテキストの各々のために使用する、複数のイントラ予測モードのインデックステーブルおよび複数の修正されたイントラ予測モードのインデックステーブル（符号語マッピングテーブルとも呼ばれる）、様々なブロックに対する符号化コンテキストの定義、ならびに、最も起こりそうなイントラ予測モードの表示、イントラ予測モードのインデックステーブル、および修正されたイントラ予測モードのインデックステーブルを含み得る。

[0099] ビデオエンコーダ２０は、レイヤ間予測ユニット６６を含み得る。レイヤ間予測ユニット６６は、ＳＶＣで利用できる１つまたは複数の相異なるレイヤ（たとえば、ベースレイヤまたは参照レイヤ）を使用して、現在のブロック（たとえば、ＥＬ内の現在のブロック）を予測するように構成される。そのような予測は、レイヤ間予測と呼ばれる場合がある。レイヤ間予測ユニット６６は、レイヤ間の冗長性を低減するための予測方法を利用し、それによって、コーディング効率を改善し、計算リソース要件を低減する。レイヤ間予測のいくつかの例は、レイヤ間イントラ予測と、レイヤ間動き予測と、レイヤ間残差予測とを含む。レイヤ間イントラ予測は、エンハンスメントレイヤでの現在のブロックを予測するために、ベースレイヤで同じ場所に配置されたブロックの再構築を使用する。レイヤ間動き予測は、エンハンスメントレイヤでの動きを予測するために、ベースレイヤの動き情報を使用する。レイヤ間残差予測は、エンハンスメントレイヤの残差を予測するために、ベースレイヤの残差を使用する。

[00100] ビデオエンコーダ２０は、モード選択ユニット４０からの予測データを、コーディングされている元のビデオブロックから減算することによって、残差ビデオブロックを形成する。加算器５０は、この減算操作を実行する１つの構成要素または複数の構成要素を表現する。変換処理ユニット５２は、離散コサイン変換（ＤＣＴ）または概念的には類似の変換などの変換を残差ブロックに適用し、残差変換係数の値を備えるビデオブロックを生成する。変換処理ユニット５２は、概念的にはＤＣＴに類似の他の変換を実行し得る。ウェーブレット変換、整数変換、サブバンド変換または他のタイプ変換も使用され得る。いかなる場合でも、変換処理ユニット５２は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。たとえば、離散サイン変換（ＤＳＴ）、ウェーブレット変換、整数変換、サブバンド変換または他のタイプの変換も使用され得る。一実施形態では、変換処理ユニット５２は、残差ブロックの特性に基づいて、変換を選択する。たとえば、変換処理ユニット５２は、コーディングされるブロックの、変換ユニットのサイズおよびカラーコンポーネントのタイプ（たとえば、ルーマ、クロマ）に基づいて、変換を選択し得る。

[00101] 変換処理ユニット５２は、変換を残差ブロックに適用し得、残差変換係数のブロックを生成する。変換は、ピクセル値領域からの残差情報を、周波数領域などの変換領域に転換し得る。変換処理ユニット５２は、得られた変換係数を量子化ユニット５４へ送り得る。量子化ユニット５４は、ビットレートをさらに低減するために、変換係数を量子化する。量子化処理は、係数の一部または全部と関連したビット深度を低減し得る。量子化の程度は、量子化パラメータを調整することによって、修正され得る。いくつかの例では、量子化ユニット５４は、次いで、量子化変換係数を含む行列の走査を実行し得る。あるいは、エントロピー符号化ユニット５６が、走査を実行し得る。

[00102] 量子化の後で、エントロピー符号化ユニット５６は、量子化変換係数をエントロピー符号化する。たとえば、エントロピー符号化ユニット５６は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）、コンテキスト適応型２値算術コーディング（ＣＡＢＡＣ）、シンタックスベースコンテキスト適応型２値算術コーディング（ＳＢＡＣ）、確率間隔区分エントロピー（ＰＩＰＥ）コーディングまたは別のエントロピーコーディング技法を、実行し得る。コンテキストベースのエントロピーコーディングの場合、コンテキストは、隣接ブロックに基づいてよい。エントロピー符号化ユニット５６によるエントロピーコーディングの後で、符号化ビットストリームは、別のデバイス（たとえば、ビデオデコーダ３０）へ送信され得、後から伝送または取り出すために、保管され得る。

[00103] 逆量子化ユニット５８および逆変換ユニット６０は、（たとえば、参照ブロックとして後で使用できるように）ピクセル領域で残差ブロックを再構築するために、それぞれ、逆量子化と、逆変換とを適用する。動き補償ユニット４４は、残差ブロックを、参照フレームメモリ６４のフレームのうちの１つの予測ブロックに加算することによって、参照ブロックを計算し得る。動き補償ユニット４４は、また、動き推定での使用のためにサブ整数ピクセル値を計算するために、１つまたは複数の補間フィルタを再構築された残差ブロックに適用し得る。加算器６２は、参照フレームメモリ６４での記憶のための再構築されたビデオブロックを生成するために、再構築された残差ブロックを、動き補償ユニット４４によって生成される動き補償された予測ブロックに加算する。再構築されたビデオブロックは、動き推定ユニット４２および動き補償ユニット４４によって、後続のビデオフレームのブロックをインターコード化するための参照ブロックとして使用され得る。

クロス位置合わせプロセッサ
[00104] 図６は、本開示で説明する態様による技法を実装し得るクロスレイヤ位置合わせプロセッサの例を示すブロック図である。クロスレイヤ位置合わせプロセッサ６００は、ソースデバイス１２または宛先デバイス１４のいずれかに含まれ得る。

[00105] クロスレイヤ位置合わせプロセッサ６００は、１つの入力として、符号化されたビデオ情報を取得する。レイヤ抽出器６０２は、符号化されたビデオに含まれるリーチレイヤのためのピクチャ情報を、分離するために含まれ得る。クロスレイヤ位置合わせプロセッサ６００がエンコーダに含まれるいくつかの実施態様では、ピクチャ情報は、符号化処理中に形成され得る。そのような実施態様では、ピクチャを抽出するのでなく、単にピクチャ情報をそれらの関連したレイヤ情報とともに受信することが必要であり得る。

[00106] 各レイヤは、１つまたは複数のピクチャを含み得る。ピクチャは、レイヤ内で出力順序に編成され得る。出力順序は、ピクチャが表示されるべきシーケンスを識別する。出力順序は、出力位置を各ピクチャに割り当てることによって規定され得る。ピクチャがそれらの出力位置の順に配列されると（たとえば、出力位置０が第１のピクチャであり、出力位置１が第２のピクチャであるなど）、ピクチャは、ビデオシーケンスを形成する。ピクチャは、また、圧縮され、または他の方法で符号化され得る。そのように、いくつかのピクチャは、対象のピクチャの前または後に出力位置を有するピクチャに含まれる情報を、必要とし得る。したがって、各ピクチャは、復号順序とも関連する。復号順序は、レイヤに含まれるピクチャに関する復号シーケンスを識別する。各ピクチャは、任意の属性のピクチャがピクチャの復号を開始することに先立って復号されるような、いつピクチャが復号され得るかを示す復号位置と関連する。

[00107] ピクチャおよびレイヤ情報は、キーピクチャ識別ユニット６０４に供給される。キーピクチャ識別ユニット６０４は、また、キーピクチャ規準入力を受信する。キーピクチャ規準入力は、キーピクチャとして適任であるために満たされなければならないピクチャの性質を示す情報を含む。たとえば、キーピクチャ規準は、キーピクチャを、復号順序においてそのピクチャに先行するとともに出力順序においてそのピクチャに追従する他のピクチャが、同じレイヤに存在しないピクチャとして、規定し得る。キーピクチャ規準は、出力位置および復号位置の観点で表現され得る。そのような表現では、そのピクチャの出力位置の後に出力位置を有する、そのピクチャと同じレイヤの同じピクチャのセット内のピクチャが、また、そのピクチャを追従する復号位置を有する場合、そのピクチャはキーピクチャである。キーピクチャ識別ユニット６０４は、各ピクチャに対して、キーピクチャを識別するためのキーピクチャ規準を適用し得る。識別は、ヘッダフィールドを介してなど、ピクチャ情報に加えられ得る。いくつかの実施態様では、識別は、メモリ（図示せず）に記憶され得、さらなるクロスレイヤ位置合わせ処理のために使用され得る。

[00108] スイッチ６０６は、図６に示すクロスレイヤ位置合わせプロセッサ６００に含まれる。スイッチ６０６により、クロスレイヤ位置合わせプロセッサ６００は、送信されるべき符号化データのためのオルガナイザと、受信された符号化データのための適合テスタの両方として働くことができるようになる。スイッチ６０６は、スイッチ制御メッセージによって活動化される。スイッチ制御メッセージは、メモリから受信され得（たとえば、構成の値）、または受信された符号化データに関するソースに基づくなどして、デバイスの動作中に動的に決定され得る。

[00109] ソースデバイス１２で実施される場合、クロスレイヤ位置合わせプロセッサ６００は、ネットワークを介するところに符号化ビデオデータを運ぶための、１つまたは複数のネットワーク抽象化レイヤメッセージを生成するように構成され得る。いくつかの実施態様では、クロス位置合わせプロセッサ６００は、ビデオエンコーダ２０または出力インターフェース２２に含まれ得る。スイッチ６０６は、オルガナイザモードを示す制御メッセージを受信し得る。そのように活動化されると、ネットワーク抽象化レイヤパッカ６１０は、ピクチャを１つまたは複数のネットワーク抽象化レイヤユニットおよび１つまたは複数のアクセスユニットに編成するように、構成される。

[00110] ネットワーク抽象化レイヤパッカ６１０は、キーピクチャ識別情報、復号の依存関係、時間的な識別子、ピクチャ順序の計数などのピクチャ情報に基づいて、どのようにピクチャがパッケージ化され得るかを識別するパッキング規則を受信し得る。たとえば、パッキング規則は、アクセスユニットの１つのレイヤのピクチャがキーピクチャである場合に、同じアクセスユニットの他のレイヤのすべてのピクチャが、キーピクチャでなければならないことを規定して、提供され得る。実施され得る別のパッキング規則は、イントラコーディングされたランダムアクセスポイント（ＩＲＡＰ）のアクセスユニットが、コーディングされたビデオシーケンスに少なくとも１つのピクチャを有する各レイヤに対して、ピクチャを含まなければならないことと、ＩＲＡＰアクセスユニット内のすべてピクチャが、ＩＲＡＰピクチャでなければならないこととを規定する。別のパッキング規則は、時間的な識別子が０に等しいアクセスユニットが、コーディングされたビデオシーケンスに少なくとも１つのピクチャを有する各レイヤに対して、ピクチャを含まなければならないことを規定し得る。パッキング規則は、独立に、または１つまたは複数のさらなるパッキング規則と一緒に、規定され得る。同じパッキング規則は、処理されるすべてのビデオに適用され得るか、または、たとえば、符号化ビデオデータ、エンコーダの構成、デバイスの動作特性（たとえば、利用できる電力、利用できる帯域幅、利用できるメモリ、利用できるプロセッサ容量、熱の状態）などに基づいて動的に選択され得る。ＮＡＬパッカ６１０は、出力として、位置合わせされた符号化データを形成する。

[00111] 図６に示すクロスレイヤ位置合わせプロセッサ６００は、例であることが理解されよう。クロスレイヤ位置合わせプロセッサ６００を、パッキングに専用の符号化デバイスに実装することが、望ましくあり得る。そのような実施態様では、スイッチ６０６は、除外され得、情報は、キーピクチャ識別ユニット６０４からＮＡＬパッカ６１０に供給され得る。

[00112] クロスレイヤ位置合わせプロセッサ６００は、受信された符号化ビデオデータがクロスレイヤ位置合わせされているかどうかを示すメッセージを生成するように構成され得る。伝送に先立ってビデオデータの位置合わせを確実にするために、符号化デバイスに適合の表示を含めることが、望ましくあり得る。いくつかの実施態様では、クロス位置合わせプロセッサ６００の可能性を、ビデオデコーダ３０または入力インターフェース２８に含めることが望ましくあり得る。

[00113] スイッチ６０６は、位置合わせ適合検出モードを示す、制御メッセージを受信し得る。そのように活動化されると、適合検出器６２０は、ビデオデータを受信し、符号化ビデオデータが適合規準に従って位置合わせされているかどうかを決定するように構成される。適合規準は、別の入力として、適合検出器６２０に供給される。適合規準は、位置合わせと関連した符号化ビデオデータの特性を示す情報を含む。特性は、アクセスユニットのためのキーピクチャをレイヤにわたって含むこと、アクセスユニットに含まれるピクチャに関する時間的なｉｄ、および／またはアクセスユニットに含まれるピクチャに関する復号順序を、含み得る。適合規準は、帯域内または帯域外のいずれかで伝送される、ビデオデータの部分として受信され得る。適合規準は、クロスレイヤ位置合わせプロセッサとデータ通信するメモリを介するなどして、静的に構成され得る。適合規準は、たとえば、符号化ビデオデータ、コーダの構成、デバイスの動作特性（たとえば、利用できる電力、利用できる帯域幅、利用できるメモリ、利用できるプロセッサ容量、熱の状態）などに基づいて、動的に取り出され得る。

[00114] 適合検出器６２０は、１つの出力として、位置合わせインジケータを形成するように構成される。いくつかの実施態様では、位置合わせインジケータは、受信された符号化ビデオデータが位置合わせされているか否かを示すバイナリ値である。いくつかの実施態様では、位置合わせインジケータは、パーセントの位置合わせのような、位置合わせの程度を規定し得る。出力は、符号化データを送信するか否かを決定するために、符号化デバイスで使用され得る。出力は、復号処理をはかどらせるための適合するネットワーク抽象化レイヤフォーマットに依拠し得る、復号パイプラインを確立するために、復号デバイスで使用され得る。

[00115] 適切に実施される場合、クロスレイヤ位置合わせプロセッサ６００のために編成する構成からの符号化ビデオデータ出力は、クロスレイヤ位置合わせプロセッサ６００への入力として供給されるとき、位置合わせ規準との適合について肯定的な表示を提供するべきである。

[00116] 図６に示すクロス位置合わせプロセッサ６００は、図１１から図１３に関して以下により詳細に記載されるクロスレイヤ位置合わせ方法の諸態様を含むがそれに限定されず、本開示の技法のうちの任意のものまたはすべてを実行するように構成され得る。いくつかの例では、加えて、または代わりに、信号生成器、入力／出力プロセッサ、またはモデム（図示せず）などのプロセッサ（図示せず）または他の電子通信構成要素は、記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。

ビデオデコーダ
[00117] 図７は、本開示で説明する態様による技法を実装し得るビデオデコーダの例を示すブロック図である。ビデオデコーダ３０は、図１１から図１３に関して以下により詳細に記載されるクロスレイヤ位置合わせの方法の諸態様を含むがそれに限定されず、本開示の技法のうちの任意のものまたはすべてを実行するように構成され得る。一例として、逆変換ユニット７８は、本開示に記載される技法のうちの、任意のものまたはすべてを実施するように構成され得る。しかしながら、本開示の態様はそのようには限定されない。いくつかの例では、本開示に記載される技法は、ビデオデコーダ３０の様々な構成要素の中で、共有され得る。いくつかの例では、それに加えて、またはそれの代わりに、プロセッサ（図示せず）は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。

[00118] 図７の例では、ビデオデコーダ３０は、エントロピー復号ユニット７０と、動き補償ユニット７２と、イントラ予測ユニット７４と、レイヤ間予測ユニット７５と、逆量子化ユニット７６と、逆変換ユニット７８と、参照フレームメモリ８２と、加算器８０とを含む。いくつかの実施形態では、動き補償ユニット７２および／またはイントラ予測ユニット７４は、レイヤ間予測を実行するように構成され得、その場合、レイヤ間予測ユニット７５は、省略され得る。ビデオデコーダ３０は、いくつかの例では、ビデオエンコーダ２０（図５）に関して記載される符号化パスに対して概ね相反の復号パスを実行し得る。動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルに基づいて、予測データを生成し得、イントラ予測ユニット７４は、エントロピー復号ユニット７０から受信されたイントラ予測モードインジケータに基づいて、予測データを生成し得る。

[00119] 復号プロセス中に、ビデオデコーダ３０は、符号化されたビデオスライスのビデオブロックおよび関連するシンタックス要素を表現する符号化されたビデオビットストリームを、ビデオエンコーダ２０から受信する。ビデオデコーダ３０のエントロピー復号ユニット７０は、量子化係数、動きベクトルまたはイントラ予測モードインジケータ、および他のシンタックス要素を生成するために、ビットストリームをエントロピー復号する。エントロピー復号ユニット７０は、動きベクトルと、他のシンタックス要素とを、動き補償ユニット７２へ転送する。ビデオデコーダ３０は、ビデオスライスレベルおよび／またはビデオブロックレベルでのシンタックス要素を受信し得る。

[00120] ビデオスライスが、イントラコード化（Ｉ）スライスとしてコーディングされるとき、イントラ予測ユニット７４は、現在のフレームまたはピクチャの以前に復号されたブロックから、信号で伝えられたイントラ予測モードおよびデータに基づいて、現在のビデオスライスのビデオブロックに対する予測データを生成し得る。ビデオフレームがインターコード化（たとえば、Ｂ、ＰまたはＧＰＢ）スライスとしてコーディングされるとき、動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルおよび他のシンタックス要素に基づいて、現在ビデオスライスのビデオブロックのための予測ブロックを生成する。予測ブロックは、参照ピクチャリストのうちの１つの中の、参照ピクチャのうちの１つから生成され得る。ビデオデコーダ３０は、参照フレームメモリ９２に記憶された参照ピクチャに基づいて、デフォルトの構築技法を使用して、参照フレームリスト、すなわち、リスト０とリスト１とを構築し得る。動き補償ユニット７２は、動きベクトルと他のシンタックス要素とを解析することによって現在のビデオスライスのビデオブロックのための予測情報を決定するとともに、復号されている現在のビデオブロックの予測ブロックを生成するために、その予測情報を使用する。たとえば、動き補償ユニット７２は、ビデオスライスのビデオブロックをコーディングするために使用される予測モード（たとえば、イントラまたはインター予測）と、インター予測スライスタイプ（たとえば、Ｂスライス、Ｐスライス、またはＧＰＢスライス）と、スライスの参照ピクチャリストのうちの１つまたは複数の構築情報と、スライスの各々のインター符号化されたビデオブロックの動きベクトルと、スライスの各々のインターコーディングされたビデオブロックのインター予測ステータスと、現在のビデオスライス中のビデオブロックを復号するための他の情報とを決定するために、受信されたシンタックス要素のいくつかを使用する。

[00121] 動き補償ユニット７２は、また、補間フィルタに基づいて、補間を実行し得る。動き補償ユニット７２は、参照ブロックのサブ整数ピクセルに対して補間された値を計算するために、ビデオブロックの符号化中にビデオエンコーダ２０によって使用されたように、補間フィルタを使用し得る。このケースでは、動き補償ユニット７２は、受信したシンタックス要素からビデオエンコーダ２０で使用された補間フィルタを決定し、補間フィルタを使用して予測ブロックを生成し得る。

[00122] ビデオデコーダ３０は、また、レイヤ間予測ユニット７５を含み得る。レイヤ間予測ユニット７５は、ＳＶＣで利用できる１つまたは複数の異なるレイヤ（たとえば、ベースレイヤまたは参照レイヤ）を使用して、現在のブロック（たとえば、ＥＬ内の現在のブロック）を予測するように構成される。そのような予測は、レイヤ間予測と呼ばれる場合がある。レイヤ間予測ユニット７５は、レイヤ間の冗長性を低減するための予測方法を利用し、それによって、コーディング効率を改善し、計算リソース要件を低減する。レイヤ間予測のいくつかの例は、レイヤ間イントラ予測と、レイヤ間動き予測と、レイヤ間残差予測とを含む。レイヤ間イントラ予測は、エンハンスメントレイヤでの現在のブロックを予測するために、ベースレイヤで同じ場所に配置されたブロックの再構築を使用する。レイヤ間動き予測は、エンハンスメントレイヤでの動きを予測するために、ベースレイヤの動き情報を使用する。レイヤ間残差予測は、エンハンスメントレイヤの残差を予測するために、ベースレイヤの残差を使用する。

[00123] 逆量子化ユニット７６は、ビットストリームの中で提供されエントロピー復号ユニット７０によって復号された量子化変換係数を、逆量子化（inverse quantize）、たとえば、逆量子化（de-quantize）する。逆量子化処理は、量子化の程度、および同様に、適用されるべき逆量子化の程度を決定するために、ビデオスライスの中の各ビデオブロックに対してビデオデコーダ３０によって計算された量子化パラメータＱＰＹの使用を含み得る。

[00124] 逆変換ユニット７８は、ピクセル領域内の残差ブロックを生成するために、逆変換、たとえば、逆ＤＣＴ、逆ＤＳＴ、逆整数変換、または概念的には類似の逆変換処理を、変換係数に適用する。一実施形態では、逆変換ユニット７８は、復号されるビデオ情報の１つまたは複数の特性に基づいて、適用する特定の変換を選択する。たとえば、逆変換ユニット７８は、ビデオ情報の変換ユニットのサイズおよびカラーコンポーネントのタイプに基づいて、変換を選択し得る。

[00125] 動きベクトルおよび他のシンタックス要素に基づいて、動き補償ユニット７２が現在のビデオブロックに対する予測ブロックを生成した後、ビデオデコーダ３０は、逆変換ユニット７８からの残差ブロックに動き補償ユニット７２によって生成された対応する予測ブロックを加算することによって、復号ビデオブロックを形成する。加算器９０は、この加算操作を実行する１つの構成要素または複数の構成要素を表現する。所望であれば、デブロッキングフィルタも、ブロッキネスアーチファクトを除去するため、復号ブロックをフィルタするために適用され得る。他のループフィルタ（コーディングループの中、またはコーディングループの後のいずれか）も、ピクセルの変化を平滑化し、または他の方法でビデオ品質を改善するために使用され得る。所与のフレームまたはピクチャの復号ビデオブロックは、次いで、参照ピクチャメモリ９２に記憶され、これは後続の動き補償のために使用される参照ピクチャを記憶する。参照フレームメモリ８２は、また、図４のディスプレイデバイス３２などのディスプレイデバイスで後で提示できるように、復号ビデオを記憶する。

クロスレイヤ位置合わせされたコーディング
[00126] 以下の実施形態は、たとえば、ＳＨＶＣＷＤ１およびＭＶ−ＨＥＶＣＷＤ３ビデオ符号化および復号技法とともに、適用され得る。多くの実施形態では、後述のアクセスユニットは、たとえば、アクセスユニット（ＡＵ）が、同じ出力時間と関連したすべてのコーディングされたピクチャおよびそれらの関連した非ＶＣＬ（ビデオコーディングレイヤ）のネットワーク抽象化レイヤ（ＮＡＬ）ユニットからなるような、ＳＶＣおよびＭＶＣで使用されるネットワーク抽象化レイヤユニットと類似である。

[00127] ピクチャのグループ（ＧＯＰ）構造は、時間的な予測構造、たとえば階層的なＢコーディングなどを参照するために使用され得る。各ＧＯＰは、１つのキーピクチャと、いくつかの関連した非キーピクチャとを含む。非キーピクチャは、ＩＲＡＰピクチャおよびその関連した先導のピクチャと類似して、復号順序においてキーピクチャに追従するが、出力順序においてキーピクチャに先行する。一実施形態では、ＩＲＡＰおよびその関連した先導のピクチャは、キーピクチャと、関連した非キーピクチャとを含む、ＧＯＰの一例である。

[00128] 各ＡＵが各レイヤに関するピクチャを含む場合、そのようなＡＵは、暗黙のうちに、キーピクチャおよび非キーピクチャのクロスレイヤ位置合わせを必要とするが、そうでない場合は必要としない。たとえば、そのようなＡＵは、異なるレイヤが異なるピクチャレートを有するとき、キーピクチャのクロスレイヤ位置合わせを保証しない。

[00129] 図８は、位置合わせされていない、コーディングされたアクセスユニットの例を示す。図８に含まれるキーピクチャは、位置合わせされていない。図８のアクセスユニットは、ベースレイヤ８０２またはエンハンスメントレイヤ８０４のうちの１つに含まれる。１つのエンハンスメントレイヤだけが図８に示されるが、記載されるクロスレイヤ位置合わせの方法がさらなるエンハンスメントレイヤとともにビデオ符号化されるために適用され得ることが理解されよう。

[00130] ベースレイヤ８０２は、５個のピクチャを含む。エンハンスメントレイヤ８０４は、１０個のピクチャを含む。ピクチャは、図８では、左で開始し右へと増大する時間的な順序で示される。時間的な順序は、ビデオシーケンスを形成するためにピクチャが与えられるような、ピクチャの表示または出力順序に相当する。

[00131] ピクチャは、複数のアクセスユニット８２０でコーディングされ得る。アクセスユニットは、１つまたは複数のレイヤからの１つまたは複数のピクチャをそれぞれ含む。たとえば、第１のアクセスユニット８２２は、エンハンスメントレイヤ８０４からの、時間的な順序の番号が１のピクチャを含む。第２のアクセスユニット８２４は、ベースレイヤ８０２とエンハンスメントレイヤ８０４の両方からのピクチャを含む。アクセスユニット８２０に関する復号順序が出力順序と同じでないことに留意されたい。図８に示すように、第２のアクセスユニット８２４は、時間的な（たとえば、出力の）識別子がｔ＋０のピクチャを含み、第１のアクセスユニット８２２は、時間的な識別子がｔ＋１のピクチャを含む。

[00132] 所与の出力時間の時点で各レイヤに含まれるピクチャが、復号のために異なる依存関係を有する場合があるので、出力順序に対する復号順序のこの違いが、部分的に生じる。依存関係が、図８に矢印を使用して示される。第１のピクチャから第２のピクチャへ指し示す矢印は、第２のピクチャが復号のために第１のピクチャからの情報を使用することを示した。たとえば、ｔ＋０におけるエンハンスメントレイヤ８０４でのピクチャは、ｔ＋１におけるエンハンスメントレイヤ８０４でのピクチャからの情報を参照する。したがって、ｔ＋０におけるピクチャは、ｔ＋１におけるピクチャが受信され処理されるまで、復号され得ない。

[00133] 図８に示すように、ｔ＋１におけるエンハンスメントレイヤ８０４のピクチャは、独立に復号可能である。同様に、ｔ＋０におけるベースレイヤ８０２のピクチャは、独立に復号可能である。しかしながら、これらのピクチャは、同じアクセスユニットに含まれ得ない。キーピクチャが位置合わせされない結果として、アクセスユニットの処理は、キーピクチャを編成することを含む。ピクチャのそのような並べ替えは、大幅な利点なく、遅延を加え、適合テストするコストを増大させるおそれがある。

[00134] 加えて、特定のレイヤにおいて特定の時間的な識別子の値を有するすべてのピクチャの相対的な復号順序が、それらの出力順序と同じでないビットストリームがあり得る。そのようなビットストリームの一例が、図９を参照して以下に記載される。

[00135] 図９は、位置合わせされていない、コーディングされたアクセスユニットのさらなる例を示す。図８と同様に、図９のキーピクチャは、位置合わせされてなく、したがって、コーディング中に類似の非能率を示す場合がある。図９は、ベースレイヤ９０２と、エンハンスメントレイヤ９０４とを含む。ベースレイヤ９０２は５個のピクチャを含み、エンハンスメントレイヤ９０４は９個のピクチャを含む。図８のように、図９のピクチャは、左で開始し右へと増大する時間的な順序で示される。時間的な順序は、ビデオシーケンスを形成するためにピクチャが与えられるような、ピクチャの表示または出力順序に相当する。ピクチャは、図８を参照して説明したピクチャと類似の複数のアクセスユニット９２０でコーディングされ得る。しかしながら、図８のように、レイヤに対するキーピクチャは位置合わせされず、これはリソースの非能率につながるおそれがある。図９に示すように、特定のレイヤおよび時間的な識別子におけるピクチャが、出力順序と異なる復号順序を有するというフレキシビリティは、必ずしも利点をもたらすとは限らず、遅延、リソースの消費などを加える。

[00136] 図１０は、位置合わせされ、コーディングされたアクセスユニットの例を示す。図１０は、ベースレイヤ１００２と、エンハンスメントレイヤ１００４とを含む。ベースレイヤ１００２は５個のピクチャを含み、エンハンスメントレイヤ１００４は９個のピクチャを含む。図８および図９のように、図１０のピクチャは、左で開始し右へと増大する時間的な順序で示される。時間的な順序は、ビデオシーケンスを形成するためにピクチャが与えられるような、ピクチャの表示または出力順序に相当する。ピクチャは、複数のアクセスユニット１０２０でコーディングされ得る。ただし、図８および図９とは違って、キーピクチャが同じアクセスユニットに含まれるように、アクセスユニット１０２０はコーディングされる。たとえば、時間ｔ＋０における第１のアクセスユニットは、エンハンスメントレイヤからのピクチャｔ＋０と、ベースレイヤからのピクチャｔ＋０とを含む。このことにより、効率が向上する処理のために、コーディングされたビデオ情報が、確実にクロスレイヤ位置合わせされる。図１０は、キーピクチャが位置合わせされるビットストリームの例を示すが、ＴｅｍｐｏｒａｌＩｄの値（この例では、ＴｅｍｐｏｒａｌＩｄ＝１）が同じピクチャが、復号順序と同じ出力順序を有することは必要とされない。このことは、コーディングでのフレキシビリティとキーピクチャのクロスレイヤ位置合わせとの間のバランスを与える。

[00137] 図１０は、望ましい、位置合わせされたコーディングの１つの例示を提供する。記載される有益な特徴を提供するための、１つまたは複数の実施態様に含まれ得るいくつかの態様が、本明細書に記載される。

[00138] 様々な実施形態では、１つまたは複数のビデオ符号化および復号の方法またはデバイスは、キーピクチャと非キーピクチャとを識別するように構成され得る。簡潔に述べるように、キーピクチャは、あるレイヤに含まれる、ピクチャに先立つ出力順序を有するいかなるピクチャも参照することなく復号可能であるピクチャであり得る。そのように、キーピクチャは、キーピクチャの後に出力されるべきピクチャを復号するために使用され得、前ではない。

[00139] キーピクチャを識別すると、方法またはデバイスは、アクセスユニットが多数のレイヤからのピクチャを含み、ある時間の表示時点における１つのレイヤに関するキーピクチャが含まれる場合、その時間の表示時点における他のレイヤからの他のピクチャもキーピクチャであるように、ビデオ情報を処理するように構成され得る。言い換えれば、アクセスユニットの１つのレイヤのピクチャがキーピクチャである場合、同じアクセスユニットの他のレイヤのすべてのピクチャは、同じ時間的な識別子（たとえば、プレゼンテーションタイム）に対するキーピクチャでなければならない。この方法に従ってビデオ情報を処理することによって、キーピクチャがレイヤにわたって確実に位置合わせされる。

[00140] キーピクチャは、出力順序において後のいかなる他のピクチャも、インター予測の参照のために使用せず、１つのレイヤの任意の２つのキーピクチャの相対的な出力順序は、相対的な復号順序と同じである。キーピクチャのクロスレイヤ位置合わせは、非キーピクチャのクロスレイヤ位置合わせを含意する。

[00141] 上述によれば、キーピクチャを含むアクセスユニットは、キーアクセスユニットと呼ばれ得、キーピクチャを含まないアクセスユニットは、非キーアクセスユニットと呼ばれ得る。ＩＲＡＰピクチャは、定義により、すべてキーピクチャである。

[00142] キーピクチャを識別することにおいて、キーピクチャとして識別されないピクチャは、非キーピクチャと呼ばれ得る。非キーピクチャは、同じレイヤの別のピクチャに復号順序において追従し、別のそのピクチャに出力順序において先行するピクチャである。

[00143] 表１は、ビデオデータのレイヤのピクチャの簡易化されたグループに関する情報を示す。表１は、一実施態様では、ピクチャがどのようにして「キーピクチャ」であると決定されるかを強調表示する。

[00144] 表示順序が０のピクチャは、復号のためにピクチャに先立つ出力順序を有するいかなるピクチャも使用することなく復号可能である。ピクチャにとっての表示順序は、いくつかの実施態様では、ピクチャと関連した時間的な識別子によって示され得る。依存関係がないおかげで、表示順序が０のピクチャの独立性は、キーであることとして確認される。したがって、この例示的な実施態様では、表示順序が０のピクチャはキーピクチャである。

[00145] しかしながら、表１に示すように、ピクチャは、依存関係を有し得、キーピクチャとして依然として識別され得る。表示順序が４のピクチャを引用する。このピクチャは、ピクチャ１に依存する。しかしながら、ピクチャ１は、前もって復号され、ピクチャ４に先立つ出力順序を有しないので、ピクチャ４はキーピクチャとして識別され得る。

[00146] たとえば、ピクチャ０とピクチャ４とを、表示順序が１のピクチャと対比する。ピクチャ１は、ピクチャ２に依存し、復号順序が３である。ピクチャ１が後の出力位置を有するピクチャを復号のために必要とするので、ピクチャ１はキーピクチャとして識別されない。言い換えれば、ピクチャ１は、この例では非キーピクチャとして識別される。

[00147] 表１は、単一のレイヤに対するピクチャの１つのグループを示す。キーピクチャの識別は、ビデオストリームに含まれる各レイヤに対して実行され得る。いったんキーピクチャが識別されると、さらなるピクチャがアクセスユニットに含まれるべき場合に、第１のレイヤに関するキーピクチャを含む各アクセスユニットだけが、他のレイヤからの他のキーピクチャを含むように、アクセスユニットは構築され得る。

[00148] 別の例示として、図８のベースレイヤ８０２に含まれるピクチャは、すべてキーピクチャである。ただし、いくつかの実施態様では、すべてのベースレイヤのピクチャが必ずしもキーピクチャであるとは限らないことに注意されたい。たとえば、エンハンスメントレイヤ８０４について示される関係のような予測関係は、ベースレイヤにも適用され得る。

[00149] 表２は、ビデオ情報の２つのレイヤと関連したピクチャのそれぞれのグループに対するキーピクチャの、仮定の識別を示す。

[00150] 表２に示すように、時間的な識別子が０のベースレイヤのピクチャは、時間的な識別子が０のエンハンスメントレイヤのピクチャとともに、アクセスユニット１に含まれる。このことは、キーピクチャの位置合わせを表現する。さらに、位置合わせは、また、同じ出力識別子を有するキーピクチャの位置合わせを表現する。ただし、このことは、すべての実施態様について必ずしも必要とされるとは限らないかもしれない。たとえば、エンハンスメントレイヤは、ベースレイヤに含まれるキーピクチャと位置合わせされないかもしれない多数のキーピクチャを含み得る。そのように、エンハンスメントレイヤのキーピクチャは、アクセスユニットに別々に含まれ得（たとえば、１つのアクセスユニットあたり１つのキーピクチャ）、および／または異なる時間的な識別子を有するベースレイヤからのキーピクチャと組み合わされ得る。

[00151] いくつかの実施態様では、システムまたは方法は、特別な種類のキーピクチャを識別することによって、ピクチャを位置合わせするように構成され得る。いくつかのキーピクチャの位置合わせだけが必要とされるために、ＩＲＡＰおよび先導のピクチャに適用されたものと類似の制約が、キーピクチャおよび非キーピクチャに強いられる場合がある。これらの特別なキーピクチャは、本明細書で「境界キーピクチャ」と呼ばれる。

[00152] 境界キーピクチャは、一般に、もしあれば、出力順序における次のキーピクチャに復号順序において先行する、先導の非キーピクチャを有するキーピクチャを参照する。キーピクチャが、出力順序または復号順序のいずれかにおいて先行するピクチャを有しない場合、ピクチャは境界キーピクチャである。いったん識別されると、境界キーピクチャは、もしあれば、他のレイヤからの境界キーピクチャを含む第１のレイヤに関する境界キーピクチャを、アクセスユニットが確実に含むようにすることによって、レイヤにわたって位置合わせされ得る。キーピクチャの先導の非キーピクチャは、復号順序においてキーピクチャに続き、出力順序においてキーピクチャに先行する非キーピクチャである。キーピクチャとして識別されず、先導の非キーピクチャとして識別されないピクチャは、トレーニングの非キーピクチャと呼ばれ得る。

[00153] 表１に示す例を使用すると、ピクチャ０およびピクチャ４は、境界キーピクチャである。ピクチャ４と関連して、ピクチャ１からピクチャ３は、先導の非キーピクチャとして識別されるはずである。ピクチャをアクセスユニットにパッケージ化する際、さらなるピクチャがアクセスユニットに含まれるべき場合、１つの境界キーピクチャを含む単一のアクセスユニットだけが、他の境界キーピクチャを含み得る。

[00154] 境界キーピクチャのこの説明によって、いくつかのキーピクチャが境界キーピクチャでないと識別され得ることが明らかになるべきである。そのように、「キーピクチャ」として識別されるピクチャだけが「境界キーピクチャ」であるような、デバイスまたは方法によって、さらなる制約が強いられる場合がある。このことは、ピクチャが、「キー」として識別され得、したがって、コーディングのシステム、デバイス、または方法にさらなる予測可能性をもたらすような制約を増大させる。

[00155] 下の表３は、ビデオ情報のレイヤと関連したピクチャのそれぞれのグループにおける、ピクチャの識別のさらなる例を示す。

[00156] いくつかの実施態様では、キーピクチャは、ピクチャ順序の計数の観点で定義され得る。ビデオストリームに対するピクチャ順序の計数は、ストリームに含まれる各ピクチャに対する特定の計数の値を識別する。ピクチャが、ピクチャ順序の計数に基づいて昇順で配列される場合、ピクチャは表示順序である。キーピクチャの中は、ピクチャのグループ内で識別され得、ピクチャ順序の計数／現在のピクチャの識別子が、最大のピクチャ順序の計数／ピクチャの現在のグループに対して復号された識別子よりも大きい場合、現在のピクチャはキーピクチャである。

[00157] いくつかの方法またはデバイスは、同じ時間的な識別子を有するすべてのピクチャの復号順序が、それらの出力順序と同じであるように、ビデオ情報をコーディングするように構成され得る。この特徴は、それ自体によって独立に、または記載される位置合わせの他の特徴と一緒に適用され得る。

[00158] いくつかの方法またはデバイスは、ＩＲＡＰアクセスユニットが、コーディングされたビデオシーケンスに少なくとも１つのピクチャを有する各レイヤに対してピクチャを含み、ＩＲＡＰアクセスユニットのすべてピクチャがＩＲＡＰピクチャでなければならないように、ビデオ情報をコーディングするように構成され得る。この特徴は、それ自体によって独立に、または記載される位置合わせの他の特徴と一緒に適用され得る。

[00159] いくつかの方法またはデバイスは、ビデオストリームにおける最初のアクセスユニット（たとえば、時間的な識別子が０のアクセスユニット）が、コーディングされたビデオシーケンスに少なくとも１つのピクチャを有する各レイヤに対してピクチャを含むように、ビデオ情報をコーディングするように構成され得る。この特徴は、それ自体によって独立に、または記載される位置合わせの他の特徴と一緒に適用され得る。

[00160] いくつかの方法またはデバイスは、コーディングされたビデオシーケンスに少なくとも１つのピクチャを有するより低い各レイヤに対して、アクセスユニットにピクチャが存在しない限り、ネットワークアクセスレイヤ（ＮＡＬ）ユニットのヘッダ識別子（「ｎｕｈ＿ｌａｙｅｒ＿ｉｄ」）が０よりも大きいピクチャがＩＲＡＰピクチャであってはならないような、ビデオ情報をコーディングするように構成され得る。この特徴は、それ自体、または記載される調和した位置合わせの特徴によって、独立に適用され得る。

[00161] 図１１は、ビデオコーディングの方法のための処理フロー図を示す。方法１１００は、図３の符号化デバイスまたは図６のクロスレイヤ位置合わせプロセッサ６００などの、上述のデバイスのうちの１つまたは複数によって、全体的または部分的に実行され得る。方法は、ノード１１０２において開始する。方法１１００は、ノード１１０４において、キーピクチャを識別するための規準を受信することを含む。いくつかの実施態様では、キーピクチャは、そのピクチャの復号位置に先行する復号位置を有するとともにそのピクチャの出力位置に追従する出力位置を有する他のピクチャが、同じレイヤに存在しないピクチャとして識別され得る。他の実施態様では、現在のキーピクチャのすべての先導の非キーピクチャが、出力順序における次のキーピクチャに、復号順序において先行する場合、キーピクチャは、境界キーピクチャとして識別され得る。規準は、関連したビデオストリームと共同して（たとえば、帯域内または帯域外で）受信され得る。規準は、受信され得、構成などの将来の利用のために、メモリに記憶され得る。ノード１１０６において、ビデオに対するピクチャの２つ以上のレイヤが受信される。ノード１１０８において、キーピクチャが、受信された規準に基づいて識別される。ノード１１１０において、ピクチャが、アクセスユニットにコーディングされ、それによって、各アクセスユニット内でキーピクチャがクロスレイヤ位置合わせされる。キーピクチャの位置合わせは、別のレイヤからのキーピクチャとともに、第１のレイヤに関するキーピクチャをコーディングすることを含む。位置合わせは、また、キーピクチャと非キーピクチャの両方を含む単一のアクセスユニットがないことを含意する。方法１１００は、ノード１１９０において終了するが、さらなるピクチャをコーディングするために反復され得る。

[00162] 図１２は、クロスレイヤ位置合わせを含むビデオコーディングの別の方法のための処理フロー図を示す。方法１２００は、図３の符号化デバイスまたは図６のクロスレイヤ位置合わせプロセッサ６００などの、上述のデバイスのうちの１つまたは複数によって、全体的または部分的に実行され得る。

[00163] 方法１２００は、ノード１２０２において開始する。方法１２００は、ノード１２０４において、メモリまたは受信機からなど、ベースレイヤのピクチャの第１のセットと、エンハンスメントレイヤのピクチャの第２のセットとを含む、ビデオ情報を取得する。第１および第２のセットは、いくつかの実施態様では、ピクチャのグループと呼ばれ得る。ピクチャの第１のセットおよびピクチャの第２のセットは、ビデオ情報の相異なる表現を提供する。たとえば、各レイヤのフレームレートは、異なり得る。ピクチャの第１のセットおよびピクチャの第２のセットは、それぞれのセットに含まれるピクチャに関する出力順序を、それぞれ有する。出力順序は、セットのピクチャに関する表示シーケンスを識別する。セットの各ピクチャは、関連した出力順序内に出力位置を有する。各レイヤは、また、それぞれのセットに含まれるピクチャに関する復号順序を有する。復号順序は、それぞれのセットに含まれるピクチャに関する復号シーケンスを識別する。各ピクチャは、さらに、関連した復号順序内に復号位置を有する。

[00164] ノード１２０６において、ピクチャの第１のセットに含まれる第１のピクチャが、識別される。識別された第１のピクチャは、第１のピクチャに先立って復号順序を有するピクチャの第１のセットからの、第１のピクチャに出力順序において追従する他のピクチャを有しない。いくつかの実施態様では、第１のピクチャの出力位置の後に出力位置を有する、ピクチャの第１のセット内のピクチャが、また、第１のピクチャの復号位置の後に復号位置を有するように、第１のピクチャは識別され得る。いくつかの実施態様では、識別されたピクチャは、キーピクチャと呼ばれ得る。

[00165] ノード１２０８において、ピクチャの第２のセットに含まれる第２のピクチャが、識別される。第２のピクチャは、第２のピクチャに先立って復号順序を有するピクチャの第２のセットからの、第２のピクチャに出力順序において追従する他のピクチャを有しない。いくつかの実施態様では、第２のピクチャの出力位置の後に出力位置を有する、ピクチャの第２のセット内のピクチャが、また、第２のピクチャの復号位置の後に復号位置を有するように、第２のピクチャは、識別され得る。いくつかの実施態様では、識別された第２のピクチャは、キーピクチャと呼ばれ得る。

[00166] ノード１２１０において、識別された第１のピクチャおよび識別された第２のピクチャは、１つのアクセスユニットにコーディングされる。方法１２００は、ノード１２９０において終了する。方法１２００は、ビデオの別の部分（たとえば、タイムセグメント）の異なる表現と関連したピクチャの、後続の第１および第２のセットのために、反復され得る。

[00167] 上の方法（たとえば、方法１１００および方法１２００）は、コーディングされたアクセスユニット内のクロスレイヤ位置合わせを示すが、類似のクロスレイヤ位置合わせの特徴が、デコーダで実施され得る。復号する側にこれらの特徴を含むことによって、ビットストリームは、クロスレイヤ位置合わせされていると決定され得る。いったんビットストリームがクロスレイヤ位置合わせされていると識別されると、ビットストリームの後続の復号は、上で参照された効率をうまく利用するように調整され得る。

[00168] 図１３は、クロスレイヤ位置合わせされたビデオデータを識別する方法のための処理フロー図を示す。方法１３００は、図４の復号デバイスまたは図６のクロスレイヤ位置合わせプロセッサ６００などの、上述のデバイスのうちの１つまたは複数によって、全体的または部分的に実行され得る。

[00169] ノード１３０４において、コーディングされたマルチレイヤのビデオ情報の第１の部分が受信され、第１の部分は複数のアクセスユニットを含み、各アクセスユニットは、ビデオのレイヤと関連した１つまたは複数のピクチャを含む。いくつかの実施態様では、第１の部分は、マルチレイヤのビデオ情報のレイヤに対するピクチャの第１のグループに相当する。ノード１３０６において、決定は、多数のアクセスユニットが、すべてがキーピクチャであるピクチャを含むかどうかに関してなされる。決定は、アクセスユニットの各ピクチャが、そのピクチャの復号位置に先行する復号位置を有するとともにそのピクチャの出力位置の後である出力位置を有する他のピクチャが、同じレイヤに存在しないピクチャであるかどうかを判定することを含み得る。ノード１３０６における決定が肯定的である場合、ノード１３１０において、アクセスユニットは、クロスレイヤ位置合わせされているとして識別され得る。ノード１３０６における決定は、第１の部分に含まれる各アクセスユニットのために反復され得る。第１の部分のための方法１３００は、ノード１３９０において終了する。方法１３００は、コーディングされたマルチレイヤのビデオ情報の他の部分のために反復され得る。

[00170] ノード１３０６におけるアクセスユニットに関する決定が否定的である場合、ノード１３０８において、アクセスユニットに含まれるすべてのピクチャが非キーピクチャであるかどうかが決定される。そうである場合、方法１３００は、上述のノード１３１０に続く。そうでない場合、方法１３００は、アクセスユニットがクロスレイヤ位置合わせされていないと識別されるノード１３１０に続く。方法１３００は、アクセスユニットについての上述のノード１３９０における決定において、終結し得る。いくつかの実施態様では、方法は、ピクチャの最初のセット（たとえば、ピクチャの第１のグループ）に対して実行され得る。そのような実施態様では、決定は、いくつかのアクセスユニットはクロスレイヤ位置合わせされていると識別され、他のアクセスユニットはクロスレイヤ位置合わせされていないと識別されるように、混ぜられ得る。いくつかの実施態様では、非位置合わせの単一の識別に基づいて、ビデオストリームに対する最終の決定を提供することが、望ましくあり得る。そのように、方法１３００は、１つのアクセスユニットのクロスレイヤ位置合わせされていないという識別において、終結し得る（ノード１３１２を参照）。

[00171] いくつかの実施態様では、クロスレイヤ位置合わせの決定は、ビデオ情報の後続の部分を用いて反復され得る。たとえば、クロスレイヤ位置合わせは、マルチレイヤのビデオ情報の後の部分が、クロス位置合わせされたフォーマットで伝送されるような、伝送状態に基づいて変化してもよい。システムなどでは、識別処理は選択的に実行され得る。たとえば、識別は、最初の識別の後の継続時間のような、構成可能な時間の期間の後、反復され得る。時間は、たとえば、時間的に、受信されたビデオ情報の数量（たとえば、受信されたアクセスユニットの数）によって、または処理されたビデオ情報の数量によって、印がつけられ得る。いくつかの実施態様では、選択的な識別は、復号デバイスの処理負荷、熱の状態、帯域幅の容量、メモリの容量、または結合されたハードウェアなどの、復号デバイスの動作上の特性に基づいて実行され得る。

[00172] 上の開示は、特定の実施形態を記載したが、多くの変形が可能である。たとえば、先に述べたように、先の技法は、３次元ビデオ符号化に適用され得る。３次元ビデオのいくつかの実施形態では、参照レイヤ（たとえば、ベースレイヤ）は、ビデオの第１のビューを表示するのに十分なビデオ情報を含み、エンハンスメントレイヤは、参照レイヤと比べてさらなるビデオ情報を含み、その結果、参照レイヤおよびエンハンスメントレイヤは一緒に、ビデオの第２のビューを表示するのに十分なビデオ情報を一緒に含む。これら２つのビューは、立体画像を生成するために使用され得る。上述のように、これらのレイヤに含まれるピクチャ情報は、本開示の態様により位置合わせされ得る。このことは、３次元ビデオビットストリームのためのより高いコーディング効率をもたらし得る。

[00173] 例に応じて、本明細書に記載される技法のうちの任意のもののいくつかの振る舞いまたは事象は、異なるシーケンスで実行され得、全体的に追加、結合、または除外され得ることが、認識されるべきである（たとえば、記載される振る舞いまたは事象のすべてが、この技法の実施のために必要であるとは限らない）。その上、いくつかの例では、振る舞いまたは事象は、たとえば、マルチスレッドの処理、割込み処理、または多数のプロセッサを用いて、連続的ではなく同時に実行され得る。

[00174] １つまたは複数の例では、述べられた機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで、実施されてもよい。ソフトウェアで実施される場合、諸機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体を介して記憶または伝送され得、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの、有形の媒体に相当するコンピュータ可読記憶媒体、またはコンピュータプログラムの、ある場所から別の場所への、たとえば、通信プロトコルによる転送を促進する任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、一般に、（１）非一時的である有形のコンピュータ可読記憶媒体または（２）信号またはキャリア波などの通信媒体に相当し得る。データ記憶媒体は、本開示に記載される技法の実施のために、１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによって、命令、コードおよび／またはデータ構造を取り出すためにアクセスされ得る、任意の利用できる媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。

[00175] 例として、それに限定されず、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令またはデータ構造の形態で所望のプログラムコードを記憶するために使用可能であり、コンピュータによってアクセス可能な他の任意の媒体を備えることができる。同様に、いかなる接続も、コンピュータ可読媒体と当然のことながら呼ばれる。たとえば、命令が、ウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、マイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、キャリア波、信号、または他の一時的な媒体を含まないが、代わりに、非一時的な、有形の記憶媒体を対象とすることを理解されたい。本明細書において、ディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタルバーサタイルディスク（ＤＶＤ）、フロッピー（登録商標）ディスクおよびブルーレイディスクを含み、この場合、ディスク（disk）は、通常、磁気的にデータを再生し、ディスク（disc）は、レーザーを用いてデータを光学的に再生する。上述したものの組合せも、コンピュータ可読媒体の範囲の中に含められるべきである。

[00176] 命令は、１つまたは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の同等の統合された、もしくは個別の論理回路などの、１つまたは複数のプロセッサによって実行され得る。したがって、「プロセッサ」という用語は、本明細書において、前述の構造のうちの任意のものまたは本明細書に記載される技法の実施のために適当な任意の他の構造を参照し得る。加えて、いくつかの態様では、本明細書に記載される機能性は、符号化および復号のために構成され、または組み合わされたコーデックに組み込まれる、専用のハードウェア内および／またはソフトウェアモジュール内で提供され得る。また、この技法は、１つまたは複数の回路または論理要素で、完全に実施され得る。

[00177] 本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）または１組のＩＣ（たとえば、チップセット）を含む、多種多様なデバイスまたは装置に実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されるデバイスの機能上の態様を強調するために、本開示に記載されるが、必ずしも異なるハードウェアユニットによる実現を求めるとは限らない。むしろ、上述したように、様々なユニットは、コーデックハードウェアユニットの中で組み合わされ、または、上述される１つまたは複数のプロセッサを含む、適当なソフトウェアおよび／またはファームウェアと一緒に相互作用するハードウェアユニットが集まったものによって提供され得る。

[00178] 様々な例が、述べられた。これらおよび他の例は、以下の特許請求の範囲の範囲内である。

Claims

ビデオ情報をコーディングするための装置であって、
ベースレイヤに含まれるピクチャの第１のセットと、エンハンスメントレイヤに含まれるピクチャの第２のセットとを、記憶するように構成されるメモリユニットと、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記ビデオ情報の相異なる表現を提供し、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記それぞれのセットに含まれるピクチャに関する出力順序を有し、前記出力順序は、前記ピクチャに関する表示シーケンスを識別し、各ピクチャは、前記関連した出力順序内の出力位置を有し、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記それぞれのセットに含まれるピクチャに関する復号順序を有し、前記復号順序は、前記それぞれのセットに含まれる前記ピクチャに関する復号シーケンスを識別し、各ピクチャは、前記関連した復号順序内の復号位置をさらに有する、
前記メモリユニットに動作可能に結合され、
前記ピクチャの第１のセットに含まれる第１のピクチャを識別し、ここにおいて、前記第１のピクチャの前記出力位置の後に出力位置を有する、前記ピクチャの第１のセット内のピクチャは、また、前記第１のピクチャの前記復号位置の後に復号位置を有し、
前記ピクチャの第２のセットに含まれる第２のピクチャを識別し、ここにおいて、前記第２のピクチャの前記出力位置の後に出力位置を有する、前記ピクチャの第２のセット内のピクチャは、また、前記第２のピクチャの前記復号位置の後に復号位置を有し、
前記識別された第１のピクチャと、前記識別された第２のピクチャとを、１つのアクセスユニットにコーディングするように構成されるビデオプロセッサと
を備える装置。
前記ピクチャの第１のセットは、ピクチャの第１のグループを備え、前記ピクチャの第２のセットは、ピクチャの第２のグループを備える、請求項１に記載の装置。
前記識別された第１のピクチャの前記出力位置の前に出力位置を有し、前記識別された第１のピクチャの前記復号位置の後に復号位置を有する、前記ピクチャの第１のセットからの前記ピクチャは、また、前記ベースレイヤに含まれるピクチャの第３のセットに含まれる第３のピクチャに先立って復号位置を有し、ここにおいて、前記ピクチャの第３のセット内のピクチャは、前記第３のピクチャの前記出力位置の後に出力位置を有し、また、前記第３のピクチャの前記復号位置の後に復号位置を有し、
ここにおいて、前記識別された第２のピクチャの前記出力位置の前に出力位置を有し、前記識別された第２のピクチャの前記復号位置の後に復号位置を有する、前記ピクチャの第２のセットからの前記ピクチャは、また、前記エンハンスメントレイヤに含まれるピクチャの第４のセットに含まれる第４のピクチャに先立って復号位置を有し、ここにおいて、前記ピクチャの第４のセット内のピクチャは、前記第４のピクチャの前記出力位置の後に出力位置を有し、また、前記第４のピクチャの前記復号位置の後に復号位置を有する、
請求項１に記載の装置。
前記第１のピクチャおよび前記第２のピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャである、請求項１に記載の装置。
前記アクセスユニットは、前記ビデオ情報のための第１のアクセスユニットであり、ここにおいて、前記アクセスユニットは、前記ビデオ情報が含まれた各レイヤに関するピクチャを含む、請求項１に記載の装置。
前記ビデオ情報の中に少なくとも１つのピクチャを有する前記ピクチャに関するレイヤより下の各レイヤに対して、ピクチャが前記アクセスユニットに存在しない限り、前記ベースレイヤ以外のレイヤと関連したピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャとしてコーディングされない、請求項１に記載の装置。
前記装置は、アクセスユニットのレイヤと関連した前記ピクチャを位置合わせするように構成される前記アクセスユニットを、生成するように構成されるエンコーダを備える、請求項１に記載の装置。
前記装置は、アクセスユニットのレイヤと関連した前記ピクチャを位置合わせするように構成される前記アクセスユニットを、処理するように構成されるデコーダを備える、請求項１に記載の装置。
前記装置は、デスクトップコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、セットトップボックス、電話送受話器、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、車内のコンピュータ、またはビデオストリーミングデバイスを含む、請求項１に記載の装置。
ビデオ情報を符号化する方法であって、
ベースレイヤに含まれるピクチャの第１のセットと、エンハンスメントレイヤに含まれるピクチャの第２のセットとを、記憶することと、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記ビデオ情報の相異なる表現を提供し、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記それぞれのセットに含まれるピクチャに関する出力順序を有し、前記出力順序は、前記ピクチャに関する表示シーケンスを識別し、
各ピクチャは、前記関連した出力順序内の出力位置を有し、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記それぞれのセットに含まれるピクチャに関する復号順序を有し、前記復号順序は、前記それぞれのセットに含まれる前記ピクチャに関する復号シーケンスを識別し、各ピクチャは、前記関連した復号順序内の復号位置をさらに有する、
前記ピクチャの第１のセットに含まれる第１のピクチャを識別することと、ここにおいて、前記第１のピクチャの前記出力位置の後に出力位置を有する、前記ピクチャの第１のセット内のピクチャは、また、前記第１のピクチャの前記復号位置の後に復号位置を有する、
前記ピクチャの第２のセットに含まれる第２のピクチャを識別することと、ここにおいて、前記第２のピクチャの前記出力位置の後に出力位置を有する、前記ピクチャの第２のセット内のピクチャは、また、前記第２のピクチャの前記復号位置の後に復号位置を有する、
前記識別された第１のピクチャと、前記識別された第２のピクチャとを、１つのアクセスユニット内に符号化することと
を備える方法。
前記ピクチャの第１のセットは、ピクチャの第１のグループを備え、前記ピクチャの第２のセットは、ピクチャの第１のグループと、ピクチャの第２のグループとを備える、請求項１０に記載の方法。
前記識別された第１のピクチャの前記出力位置の前に出力位置を有し、前記識別された第１のピクチャの前記復号位置の後に復号位置を有する、前記ピクチャの第１のセットからの前記ピクチャは、また、前記ベースレイヤに含まれるピクチャの第３のセットに含まれる第３のピクチャに先立って復号位置を有し、ここにおいて、前記ピクチャの第３のセット内のピクチャは、前記第３のピクチャの前記出力位置の後に出力位置を有し、また、前記第３のピクチャの前記復号位置の後に復号位置を有し、
ここにおいて、前記識別された第２のピクチャの前記出力位置の前に出力位置を有し、前記識別された第２のピクチャの前記復号位置の後に復号位置を有する、前記ピクチャの第２のセットからの前記ピクチャは、また、前記エンハンスメントレイヤに含まれるピクチャの第４のセットに含まれる第４のピクチャに先立って復号位置を有し、ここにおいて、前記ピクチャの第４のセット内のピクチャは、前記第４のピクチャの前記出力位置の後に出力位置を有し、また、前記第４のピクチャの前記復号位置の後に復号位置を有する、
請求項１０に記載の方法。
前記第１のピクチャおよび前記第２のピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャである、請求項１０に記載の方法。
前記アクセスユニットは、前記ビデオ情報のための第１のアクセスユニットであり、ここにおいて、前記アクセスユニットは、前記ビデオ情報が含まれた各レイヤに関するピクチャを含む、請求項１０に記載の方法。
前記ビデオ情報の中に少なくとも１つのピクチャを有する前記ピクチャに関するレイヤより下の各レイヤに対して、ピクチャが前記アクセスユニットに存在しない限り、前記ベースレイヤ以外のレイヤと関連したピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャとしてコーディングされてはならない、請求項１０に記載の方法。
ビデオ情報を復号する方法であって、
ピクチャの２つ以上のレイヤを含む前記ビデオ情報の第１の部分を受信することと、ピクチャの各レイヤは、前記それぞれのレイヤに含まれるピクチャに関する出力順序を有し、前記出力順序は、前記ピクチャに関する表示シーケンスを識別し、各ピクチャは、前記関連した出力順序内に出力位置を有し、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記それぞれのセットに含まれるピクチャに関する復号順序を有し、前記復号順序は、前記それぞれのセットに含まれる前記ピクチャに関する復号シーケンスを識別し、各ピクチャは、さらに、前記関連した復号順序内に復号位置を有する、
キーピクチャを識別することと、キーピクチャは、前記ピクチャの前記復号位置に先立って復号位置を有する前記ピクチャと関連したレイヤに含まれるピクチャからの、前記ピクチャの前記出力位置に追従する出力位置を有する他のピクチャを有しないピクチャである、
アクセスユニットに含まれるすべてのピクチャが、識別されたキーピクチャであるかどうかに関する決定に基づいて、前記ビデオ情報を復号することと
を備える方法。
前記アクセスユニットに含まれるすべてのピクチャが、識別されたキーピクチャであること、または前記アクセスユニットに含まれるすべてのピクチャが、識別されたキーピクチャでないことを決定すると、クロスレイヤ位置合わせされた復号のための復号パイプラインを構成する、請求項１６に記載の方法。
キーピクチャを識別することをさらに備え、ここにおいて、前記キーピクチャの前記出力位置の前に出力位置を有し、前記識別されたキーピクチャの前記復号位置の後に復号位置を有するレイヤからのピクチャの第１のセットからの前記ピクチャは、また、前記レイヤに含まれる別のキーピクチャに先立って復号位置を有し、ここにおいて、前記別のキーピクチャは、出力順序において前記キーピクチャの後の、次に識別されたキーピクチャである、請求項１６に記載の方法。
前記ピクチャの第１のセットは、レイヤに含まれるピクチャの第１のグループを備える、請求項１８に記載の方法。
前記ビデオ情報の中に少なくとも１つのピクチャを有する前記ピクチャに関する前記レイヤより下の各レイヤに対して、ピクチャが前記アクセスユニットに存在しない限り、ベースレイヤ以外のレイヤと関連したピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャとしてコーディングされない、請求項１６に記載の方法。
前記識別することは、選択的に実行される、請求項１６に記載の方法。
前記識別することは、前記方法を実行する復号デバイスの動作上の特性に基づいて実行される、請求項２１に記載の方法。
前記動作上の特性は、前記復号デバイスの処理負荷、熱の状態、帯域幅の容量、メモリの容量、または結合されたハードウェアを含む、請求項２２に記載の方法。
アクセスユニットに含まれるすべてのピクチャが、識別されたキーピクチャであるかどうかに関する前記決定を、記憶することと、
前記決定から経過した時間の継続時間に基づいて、前記識別することを選択的に実行することと
をさらに備える請求項１６に記載の方法。
ビデオ情報をコーディングするための装置であって、
ベースレイヤに含まれるピクチャの第１のセットと、エンハンスメントレイヤに含まれるピクチャの第２のセットとを記憶するための手段と、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記ビデオ情報の相異なる表現を提供し、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記それぞれのセットに含まれるピクチャに関する出力順序を有し、前記出力順序は、前記ピクチャに関する表示シーケンスを識別し、各ピクチャは、前記関連した出力順序内に出力位置を有し、前記ピクチャの第１のセットおよび前記ピクチャの第２のセットは、前記それぞれのセットに含まれるピクチャに関する復号順序を有し、前記復号順序は、前記それぞれのセットに含まれる前記ピクチャに関する復号シーケンスを識別し、各ピクチャは、さらに、前記関連した復号順序内に復号位置を有する、
前記ピクチャの第１のセットに含まれる第１のピクチャを識別するための手段と、ここにおいて、前記第１のピクチャの前記出力位置の後に出力位置を有する、前記ピクチャの第１のセット内のピクチャは、また、前記第１のピクチャの前記復号位置の後に復号位置を有する、前記ピクチャの第２のセットに含まれる第２のピクチャを識別するための手段と、ここにおいて、前記第２のピクチャの前記出力位置の後に出力位置を有する、前記ピクチャの第２のセット内のピクチャは、また、前記第２のピクチャの前記復号位置の後に復号位置を有する、
前記識別された第１のピクチャと、前記識別された第２のピクチャとを、１つのアクセスユニットにコーディングするための手段と
を備える装置。
前記ピクチャの第１のセットは、ピクチャの第１のグループを備え、前記ピクチャの第２のセットは、ピクチャの第１のグループと、ピクチャの第２のグループとを備える、請求項２５に記載の装置。
前記アクセスユニットは、前記ビデオ情報のための第１のアクセスユニットであり、ここにおいて、前記アクセスユニットは、前記ビデオ情報が含まれた各レイヤに関するピクチャを含む、請求項２５に記載の装置。
前記ビデオ情報の中に少なくとも１つのピクチャを有する前記ピクチャに関するレイヤより下の各レイヤに対して、ピクチャが前記アクセスユニットに存在しない限り、前記ベースレイヤ以外のレイヤと関連したピクチャは、イントラコーディングされたランダムアクセスポイントのピクチャとしてコーディングされない、請求項２５に記載の装置。
装置のプロセッサによって実行可能な命令を備え、前記命令は、前記装置に、請求項１０に記載の前記ビデオ符号化方法を実行させる、非一時的なコンピュータ可読媒体。
装置のプロセッサによって実行可能な命令を備え、前記命令は、前記装置に、請求項１６に記載の前記ビデオ復号方法を実行させる、非一時的なコンピュータ可読媒体。