WO2022209032A1

WO2022209032A1 - 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム

Info

Publication number: WO2022209032A1
Application number: PCT/JP2021/045639
Authority: WO
Inventors: 健太徳満; 慶一蝶野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-03-30
Filing date: 2021-12-10
Publication date: 2022-10-06
Anticipated expiration: 2023-09-30
Also published as: CN117063465A; EP4319153A1; US20240163452A1; EP4319153A4; JP2025114816A; JPWO2022209032A1; JP7722447B2

Abstract

映像符号化装置１０は、イントラ予測またはインター予測を用いて予測処理を行う予測手段１１と、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測手段１１が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する符号化制御手段１２とを含む。

Description

映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム

　本発明は、映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システムに関する。

　映像コンテンツの配信システムにおいて、例えば、伝送側では映像信号はＨ．２６４／ＡＶＣ（Advanced Video Coding ）規格やＨＥＶＣ（High Efficiency Video Coding）規格に基づいて符号化され、受信側では復号処理を経て映像信号が再生される。

　非特許文献１においてＳＯＰ（Structure of Pictures）という概念が導入されている。ＳＯＰは、時間方向階層符号化（時間スケーラブル符号化）が行われる場合には、各ＡＵ（Access Unit）の符号化順および参照関係が記述される単位になる。時間スケーラブル符号化は、複数フレームの映像の中から、部分的にフレームを取り出せるようにする符号化である。なお、１つのＧＯＰ（Group of Pictures）は、１つ以上のＳＯＰで構成される。

　非特許文献１では、１２０／Ｐ（Progressive）以外の映像フォーマットに適用されるＳＯＰ構造や、１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造が規定されている。

　図１２は、１２０／Ｐ以外の映像フォーマットに適用されるＳＯＰ構造を示す説明図である。図１２には、リオーダリング（ピクチャリオーダリング）が適用される場合のＳＯＰ構造が示されている。

　図１２に示すＳＯＰ構造は、Ｌ=０の構造、Ｌ=１の構造、Ｌ=２の構造およびL=３の構造を含む。図１２に示すように、Ｌｘ（ｘ＝０，１，２，３）は、以下のような構造である。Temporal IDは、各ＡＵの階層を示す識別情報である。以下、Ｌ＝ｘの構造を、Ｌｘ構造ということがある。また、Temporal IDがｍ（０以上の自然数）のＡＵを、Temporal IDがｍのピクチャということがある。

・Ｌ０構造：Temporal IDが０のピクチャだけで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれるピクチャの段数（階層）は１つである。最大Temporal IDを示すＬが０であるともいえる。）
・Ｌ１構造：Temporal IDが０のピクチャおよび１のピクチャで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれる階層は２つである。最大Temporal IDを示すＬが１であるともいえる。）
・Ｌ２構造：Temporal IDが０のピクチャ、１のピクチャ、および、２のピクチャで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれる階層は３つである。最大Temporal IDを示すＬが２であるともいえる。）
・Ｌ３構造：Temporal IDが０のピクチャ、１のピクチャ、２のピクチャ、および、３のピクチャで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれる階層は４つである。最大Temporal IDを示すＬが３であるともいえる。）

　図１３は、１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造を示す説明図である。なお、図１３に示すＳＯＰ構造は、時間スケーラブル符号化に対応する。

　図１３に示すＳＯＰ構造は、Ｌ０構造、Ｌ１構造、Ｌ２構造、L３構造およびＬ４構造を含む。図１３に示すように、Ｌｘ（ｘ＝０，１，２，３，４）構造は、以下のような構造である。

・Ｌ０構造：Temporal IDが０のピクチャだけで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれる階層は１つである。最大Temporal IDを示すＬが０であるともいえる。）
・Ｌ１構造：Temporal IDが０のピクチャおよびＭのピクチャで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれる階層は２つである。最大Temporal IDを示すＬが１（またはＭ）であるともいえる。）
・Ｌ２構造：Temporal IDが０のピクチャ、１のピクチャ、および、Ｍのピクチャで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれる階層は３つである。最大Temporal IDを示すＬが２（またはＭ）であるともいえる。）
・Ｌ３構造：Temporal IDが０のピクチャ、１のピクチャ、２のピクチャ、およびＭのピクチャで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれる階層は４つである。最大Temporal IDを示すＬが３（またはＭ）であるともいえる。）
・Ｌ４構造：Temporal IDが０のピクチャ、１のピクチャ、２のピクチャ、３のピクチャ、および、Ｍのピクチャで構成されるＳＯＰ構造（つまり、ＳＯＰに含まれる階層は５つである。最大Temporal IDを示すＬが４（またはＭ）であるともいえる。）

　非特許文献２は、ＶＶＣ（Versatile Video Coding）と呼ばれる映像符号化方式を開示する。ＶＶＣは、ＩＴＵ－Ｔ　Ｈ．２６６とも呼ばれる。ＶＶＣでは、符号化ツリーユニット（ＣＴＵ：Coding Tree Unit）の最大サイズが、ＨＥＶＣ規格における６４×６４画素（以下、単に、６４×６４のように表現する。）に対して、１２８×１２８にまで拡張されている。

　非特許文献２に記載された映像符号化方式では、ディジタル化された映像の各フレームは符号化ツリーユニット（ＣＴＵ：Coding Tree Unit）に分割され、各ＣＴＵが符号化される。

　各ＣＴＵは、四分木（ＱＴ：Quad-Tree）構造またはマルチタイプ木（ＭＭＴ：Multi-Type Tree）構造で、符号化ユニット（ＣＵ：Coding Unit）に分割されて符号化される。四分木構造を用いる分割では、ブロックが、水平および垂直に等分割される。マルチタイプ木構造を用いる分割では、ブロックが、水平もしくは垂直に２分割または３分割される。

　各ＣＵは、予測符号化される。予測符号化には、イントラ予測と動き補償予測がある。各ＣＵの予測誤差は、周波数変換に基づいて変換符号化される。動き補償予測は、符号化対象フレームとは表示時刻が異なる再構築画像（参照ピクチャ）から予測画像を生成する予測である。以下、動き補償予測をインター予測ともいう。

　動き補償予測に基づいて符号化されたＣＵをインターＣＵと呼ぶ。イントラＣＵのみで符号化されたフレームは、Ｉフレーム（または、Ｉピクチャ）と呼ばれる。イントラＣＵだけでなくインターＣＵも含めて符号化されたフレームは、Ｐフレーム（または、Ｐピクチャ）と呼ばれる。ブロックのインター予測に、１枚の参照ピクチャだけでなく、同時に２枚の参照ピクチャを用いるインターＣＵを含めて符号化されたフレームは、Ｂフレーム（またはＢピクチャ）と呼ばれる。なお、１枚の参照ピクチャを用いるインター予測は片方向予測と呼ばれ、同時に２枚の参照ピクチャを用いるインター予測は双方向予測と呼ばれる。

　同等の画質で比較した場合、ＶＶＣ規格に基づく符号化による符号量は、ＨＥＶＣ規格に基づく符号化による符号量に対して、３０～５０％削減されることが期待される。

「デジタル放送における映像符号化、音声符号化及び多重化方式」、ARIB（Association of Radio Industries and Businesses）標準規格 STD-B32 3.3版　平成２７年７月３日　電波産業会 Benjamin Bross, et al., "Versatile Video Coding (Draft 10)", JVET-S2001-v7, Joint Video Experts Team (JVET) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 19th Meeting: by teleconference, 22 June - 1 July 2020

　図１２および図１３において、矢印は、符号化対象ピクチャの参照ピクチャを示す。すなわち、矢印は、参照関係を示す。例えば、図１２に示す例では、Ｌ２構造において、表示順で５番目のＡＵのピクチャは、表示順で３番目のＡＵのピクチャと７番目のＡＵのピクチャを参照する。Ｌ３構造において、表示順で４番目のＡＵのピクチャは、表示順で３番目のＡＵのピクチャと５番目のＡＵのピクチャを参照する。

　このように、参照ピクチャから予測して得られたピクチャをさらに参照ピクチャとすることができる。図１２および図１３に示された階層構造において、上位階層（Temporal IDの値が大きい階層：深い階層）のピクチャの予測に関して、複数の下位階層（Temporal IDの値が小さい階層：浅い階層）のピクチを参照可能である。そのような参照関係によって、予測残差は小さくなる。

　上述したように、ＶＶＣ規格に基づく符号化による符号量は、ＨＥＶＣ規格に基づく符号化による符号量に比べて削減される。非特許文献１において規定されているＳＯＰ構造が使用される場合、上位階層であるほどピクチャ間の相関が高くなるが、Ｌ４構造でも、層数は、０、１、２、３、Ｍの５層である。したがって、ＶＶＣ規格に基づく符号化が行われるときに、ＳＯＰ構造が使用される場合には、符号化効率（圧縮効率）が、期待されるほどには高くならないおそれがある。

　また、６０／Ｐの映像フォーマットに適用されるＳＯＰ構造では、図１２に例示されたように、Ｌ３構造でも、層数は、０、１、２、３の４層である。層数を多くするために、図１３に例示された１２０／Ｐの映像フォーマットに適用されるＬ４構造を流用することが考えられる。しかし、当該Ｌ４構造は、時間スケーラブル符号化に適応した構造である。したがって、当該Ｌ４構造をそのまま６０／Ｐの映像フォーマットに適用すると、最大Temporal IDの階層（Ｌ４）に属する符号化対象のピクチャと参照ピクチャ（Temporal ID＝０～３の階層に属するピクチャ）との間隔が大きくなる。その結果、圧縮効率が低下する。

　なお、符号化対象のピクチャと参照ピクチャとの間の間隔が大きいということは、各々のピクチャの表示順の差が大きいということである。すなわち、符号化対象のピクチャと参照ピクチャとの間の間隔が大きいということは、時間軸において、各々のピクチャが離れているということである。以下、ピクチャ間の間隔をフレーム間隔という。

　本発明は、ＳＯＰ構造を用いて符号化が行われる場合に、圧縮効率を低下させないようにする映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システムを提供することを目的とする。

　本発明による映像符号化装置は、複数レベルの構造を含むＳＯＰ構造を使用してビットストリームを生成する映像符号化装置であって、イントラ予測またはインター予測を用いて予測処理を行う予測手段と、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測手段が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する符号化制御手段とを含む。

　本発明による映像復号装置は、複数レベルの構造を含むＳＯＰ構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号装置であって、イントラ予測またはインター予測を用いて予測処理を行う予測手段を含み、予測手段が、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする。

　本発明による映像符号化方法は、複数レベルの構造を含むＳＯＰ構造を使用してビットストリームを生成する映像符号化方法であって、イントラ予測またはインター予測を用いて予測処理を実行し、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測処理で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされるように制御する。

　本発明による映像復号方法は、複数レベルの構造を含むＳＯＰ構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号方法であって、イントラ予測またはインター予測を用いて予測処理を実行し、予測処理で、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする。

　本発明による映像符号化プログラムは、複数レベルの構造を含むＳＯＰ構造を使用してビットストリームを生成するための映像符号化プログラムであって、コンピュータに、イントラ予測またはインター予測を用いて予測処理を実行させ、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測処理で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされるように制御させる。

　本発明による映像復号プログラムは、複数レベルの構造を含むＳＯＰ構造を使用して生成されたビットストリームを入力して復号処理を行うための映像復号プログラムであって、コンピュータに、イントラ予測またはインター予測を用いて予測処理を実行させ、予測処理で、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされる。

　本発明による映像システムは、上記の映像符号化装置と、音声信号を符号化する音声符号化部と、映像符号化装置からのビットストリームと音声符号化部からのビットストリームとを多重化して出力する多重化部とを備える。

　本発明によれば、ＳＯＰ構造を用いて符号化が行われる場合に、圧縮効率を低下させないようにすることができる。

実施形態における１２０／Ｐ以外の映像フォーマットに適用されるＳＯＰ構造を示す説明図である。実施形態における１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造におけるＬ５構造を示す説明図である。映像符号化装置の実施形態の構成例を示すブロック図である。映像符号化装置の動作を示すフローチャートである。映像復号装置の実施形態の構成例を示すブロック図である。映像復号装置の動作を示すフローチャートである。映像システムの一例を示すブロック図である。映像システムの他の例を示すブロック図である。ＣＰＵを有するコンピュータの一例を示すブロック図である。映像符号化装置の主要部を示すブロック図である。映像復号装置の主要部を示すブロック図である。１２０／Ｐ以外の映像フォーマットに適用されるＳＯＰ構造を示す説明図である。１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造におけるＬ５構造を示す説明図である。

　以下、本発明の実施形態を図面を参照して説明する。

　図１は、実施形態における１２０／Ｐ以外の映像フォーマットに適用されるＳＯＰ構造を示す説明図である。図１に示すＳＯＰ構造において、Ｌ０構造、Ｌ１構造、Ｌ２構造およびＬ３構造における各層のピクチャの配置および参照関係は、図１２に示されたそれらと同じである。なお、実施形態では、１２０／Ｐ以外の映像フォーマットとして、時間スケーラブル符号化が適用されない６０Ｐの映像フォーマットを例にする。

　図１に示すＳＯＰ構造には、図１２に示されたＬ０構造、Ｌ１構造、Ｌ２構造およびＬ３構造に対して、Ｌ４構造が追加されている。当該Ｌ４構造は、１６のピクチャで構成される。図１に示すＬ４構造における各層のピクチャの配置および参照関係は、図１３に示されたそれらとは異なる。図１３に示されたＬ４構造では、時間スケーラブル符号化を実現するために、最大Temporal IDの階層（Ｌ４）に配置された各ピクチャは、奇数の連続する符号化順（復号順でもある。）で符号化される。しかし、図１に示すＬ４構造では、そのような制約を受けずに各ピクチャが配置されている。

　図１に示すＬ４構造では、各層において符号化順が表示順と逆転せず（表示順が後であるピクチャが表示順が先であるピクチャに先行して符号化されず）、かつ、下位層（Temporal IDの値が小さい階層）のピクチャが上位層（Temporal IDの値が大きい階層）のピクチャを参照しないという条件下で、下位層のピクチャを参照して符号化されるピクチャは、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする。なお、符号化順が表示順と逆転しないということは、Ｂ_ａのピクチャは、Ｂ_ｂ（ａ＜ｂ）のピクチャに対して、必ず表示順が早いピクチャであるということである。また、参照ピクチャは、符号化対象のピクチャよりも先に符号化されている必要がある。

　例えば、Temporal IDが４である層に関して、表示順が２であるＢ_５で示されるピクチャは、表示順が１であるＢ_３で示されるピクチャおよび表示順が３であるＢ_２で示されるピクチャを参照して符号化される。Ｂ_３で示されるピクチャおよびＢ_２で示されるピクチャは、Ｂ_５で示されるピクチャに対して、下位層（この例では、Temporal IDが０～３の複数層）において表示順で最も近接している。

　また、Temporal IDが３である層に関して、表示順が５であるＢ_６で示されるピクチャは、表示順が３であるＢ_２で示されるピクチャおよび表示順が７であるＢ_１で示されるピクチャを参照して符号化される。表示順が３であるＢ_２で示されるピクチャおよび表示順が７であるＢ_１で示されるピクチャは、Ｂ_６で示されるピクチャに対して、下位層（この例では、Temporal IDが０～２の複数層）において表示順で最も近接している。

　なお、Ｌ４構造における符号化順は、図１に示す符号化順に限られない。各層において符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという条件下で、下位層のピクチャを参照して符号化されるピクチャが、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとすることが可能であれば、他の符号化順が用いられてもよい。

　本実施形態では、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするので、図１３に示された１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造におけるＬ４構造と比較すると、符号化対象のピクチャと参照ピクチャと間のフレーム間隔が小さくなる。その結果、図１３に示されたＬ４構造が用いられる場合と比較して、ピクチャの圧縮効率が高くなる。

　図２は、１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造におけるＬ５構造を示す説明図である。当該Ｌ５構造は、３２のピクチャで構成される。本実施形態でも、１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造は、時間スケーラブル符号化を実現する構造である。図２では図示省略されているが、Ｌ０構造、Ｌ１構造、Ｌ２構造およびＬ４構造は、図１３に示されたそれらと同じである。すなわち、本実施形態では、図１３に示されたＬ０構造、Ｌ１構造、Ｌ２構造、Ｌ３構造およびＬ４構造に対して、Ｌ５構造が追加されている。

　また、図２に示されたＬ５構造において、Temporal ID＝０～４の階層のピクチャの符号化順および参照関係は、図１に示されたＬ４構造のそれらと同じである。ただし、図２に示されたＬ５構造は３２のピクチャで構成されるので、図２における復号順（符号化順でもある。）を示す数字は、図１における復号順を示す数字の２倍になっている。

　１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造におけるＬ５構造が使用される場合には、図１に示された実施形態におけるＬ４構造が使用される場合に各層（Temporal ID＝０～４の階層のピクチャ）の圧縮効率が高くなるのと同様に、ベース層に属するピクチャ（この場合には、Temporal ID＝０～４の階層のピクチャ）の圧縮効率は高くなる。

　なお、Ｌ５構造における符号化順は、図２に示す符号化順に限られない。Temporal ID＝０～４の層に関して、所定の条件下で、下位層のピクチャを参照して符号化されるピクチャが、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとすることが可能であれば、他の符号化順が用いられてもよい。なお、所定の条件は、符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという条件である。

　また、６０／Ｐの映像フォーマットに適用されるＳＯＰ構造にＬ４構造が追加され、１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造にＬ５構造が追加されることによって、ピクチャの圧縮効率は高くなる。なぜなら、一般に、参照される頻度が高い復号順で０番目のピクチャ（ＩピクチャまたはＰピクチャであることが多い。）には多くの符号量が割り当てられる。より高い階層を含む構造（６０／Ｐの映像フォーマットにおけるＬ４、１２０／Ｐの映像フォーマットにおけるＬＭ）では、相対的に、復号順で０番目のピクチャの発生頻度が低くなるからである。

実施形態１．
　図３は、映像符号化装置の実施形態の構成例を示すブロック図である。図３に示す映像符号化装置は、並べ替え部１０１、減算器１０２、変換／量子化器１０３、逆量子化／逆変換器１０４、エントロピー符号化器１０５、加算器１０６、バッファ１０７、予測器１０８、符号化制御部１０９、および多重化器１１０を含む。なお、図１に示す映像符号化装置は、ＶＶＣ規格に基づいて符号化処理を実行するが、他の規格、例えば、ＨＥＶＣ規格、Ｈ．２６４／ＡＶＣ規格、ＭＰＥＧ（Moving Picture Experts Group）－２規格に基づいて符号化処理を実行してもよい。

　並べ替え部１０１は、表示順に入力される映像信号における各画像（ピクチャ）を格納するメモリである。本実施形態では、各ピクチャは入力順に記憶されるとする。すなわち、メモリにおける小さいアドレスから順に、表示順に入力される各ピクチャが格納されるとする。しかし、表示順に入力される各ピクチャが符号化順に並べ替え部１０１に格納されるようにしてもよい。すなわち、メモリにおける小さいアドレスから順に、符号化順で、入力される各ピクチャが格納されるようにしてもよい。

　いずれのメモリ格納方式（表示順または符号化順）が採用される場合でも、並べ替え部１０１から、符号化順に各ピクチャが読み出される。以下、ピクチャを入力映像信号ということがある。

　なお、並べ替え部１０１は、ＳＯＰ構造を使用して符号化が実行される場合に活用される。ＳＯＰ構造を使用しない場合には、入力される映像信号における各ピクチャは、そのまま減算器１０２に供給される。

　減算器１０２は、並べ替え部１０１から読み出された入力映像信号（具体的には、画素値）から予測信号を減算し、予測誤差信号を生成する。予測誤差信号は、予測残差または予測残差信号とも呼ばれる。

　変換／量子化器１０３は、予測誤差信号を周波数変換する。変換／量子化器１０３は、さらに、周波数変換された予測誤差信号（変換係数）を量子化する。以下、量子化された変換係数を変換量子化値という。

　エントロピー符号化器１０５は、予測パラメータと変換量子化値とをエントロピー符号化する。予測パラメータは、予測モード（イントラ予測、インター予測）、イントラ予測ブロックサイズ、イントラ予測方向、インター予測ブロックサイズ、および動きベクトルなど、ＣＴＵ（Coding Tree Unit）およびブロックの予測に関連した情報である。

　多重化器１１０は、エントロピー符号化器１０５から供給されるエントロピー符号化データと符号化制御部１０９からのデータ（符号化情報など）とを多重化し、ビットストリームとして出力する。

　予測器１０８は、入力映像信号に対する予測信号を生成する。予測器１０８は、イントラ予測またはインター予測に基づいて予測信号を生成する。すなわち、予測器１０８は、符号化の単位となる各々のブロック（ユニット）について、イントラ予測とインター予測とのいずれかを用いて予測信号を生成する。

　逆量子化／逆変換器１０４は、変換量子化値を逆量子化して変換係数を復元する。さらに、逆量子化／逆変換器１０４は、逆量子化した変換係数を逆周波数変換して予測誤差信号を復元する。加算器１０６は、復元された予測誤差信号と予測信号とを加算して再構築画像を生成する。再構築画像は、バッファ１０７に供給される。バッファ１０７は、再構築画像を格納する。なお、バッファ１０７は、イントラ予測のための参照ブロックを格納するためのブロックメモリ、および、インター予測のための参照ピクチャを格納するためのフレームメモリに相当する。

　符号化制御部１０９は、映像符号化装置の外部から符号化情報を入力する。符号化情報として、使用する符号化方式（ＶＶＣ規格、ＨＥＶＣ規格、Ｈ．２６４／ＡＶＣ規格、ＭＰＥＧ－２）、テストシーケンス情報（６０／Ｐ、１２０／Ｐなど）、スケーラブル符号化可否等の情報がある。符号化制御部１０９は、符号化情報に基づいて映像符号化装置における各ブロックを制御する。

　次に、映像符号化装置のＳＯＰ構造を使用して符号化を実行するときの動作を、図４のフローチャートを参照して説明する。

　まず、並べ替え部１０１に、表示順に入力される映像信号における各ピクチャが格納される（ステップＳ１０１）。

　並べ替え部１０１は、符号化制御部１０９の指示に従って、符号化順に順次ピクチャを減算器１０２に出力する（ステップＳ１０２）。

　６０／Ｐの映像フォーマットに従うことが外部から指定されている場合、符号化制御部１０９は、図１に示された復号順（符号化順でもある。）でピクチャが並べ替え部１０１から読み出されるように制御する。すなわち、符号化制御部１０９は、並べ替え部１０１において表示順に各ピクチャが格納されている場合には、読み出し対象のメモリのアドレスから符号化対象のピクチャが出力されるように制御する。並べ替え部１０１において符号化順に各ピクチャが格納される場合には、符号化制御部１０９は、ピクチャが並べ替え部１０１に書き込まれるときに、符号化順に応じたメモリのアドレスにピクチャが格納されるように、並べ替え部１０１に指示する。

　１２０／Ｐの映像フォーマットに従うことが外部から指定されている場合、符号化制御部１０９は、図１２に示された復号順（Ｌ０～Ｌ４構造の場合）または図２に示された復号順（Ｌ５構造の場合）でピクチャが並べ替え部１０１から読み出されるように制御する。

　なお、符号化制御部１０９は、一例として、映像のシーンの状況に応じて、Ｌ０～Ｌ４構造（６０／Ｐの場合）のいずれを使用するのか、または、Ｌ０～Ｌ５構造（１２０／Ｐの場合）のいずれを使用するのかを決定することができる。符号化制御部１０９は、例えば、画面全体がさほど動かないシーンの映像を構成する画像（ピクチャ）についてはｘの値が小さいＬｘ構造を使用し、画面全体が速く動くシーンの映像を構成する画像についてはｘの値が大きいＬｘ構造を使用することに決定する。その場合には、符号化制御部１０９に、画像における動きの程度をあらかじめ検出する機能が含められる。

　予測器１０８は、イントラ予測またはインター予測に基づいて、入力映像信号に対する予測信号を生成する（ステップＳ１０３）。また、減算器１０２は、予測誤差信号を生成する（ステップＳ１０３）。

　なお、符号化制御部１０９は、図１に示されたピクチャの参照関係（６０／Ｐの場合）または図１２および図２に示されたピクチャの参照関係（１２０／Ｐの場合）に従って符号化を実行するように、予測器１０８に指示を与える。

　変換／量子化器１０３は、予測誤差信号を周波数変換して変換係数を生成する（ステップＳ１０４）。さらに、変換／量子化器１０３は、量子化ステップ幅で変換係数を量子化して変換量子化値を生成する（ステップＳ１０５）。変換量子化値は、逆量子化／逆変換器１０４およびエントロピー符号化器１０５に入力される。

　逆量子化／逆変換器１０４は、変換量子化値を逆量子化し、逆量子化された変換量子化値を逆周波数変換して変換係数を復元する（ステップＳ１０６）。エントロピー符号化器１０５は、変換量子化値をエントロピー符号化（例えば、算術符号化）してエントロピー符号化データを生成する（ステップＳ１０７）。

　ＳＯＰを構成する全てのピクチャについて、ステップＳ１０２～Ｓ１０７の処理が実行される（ステップＳ１０８）。

　なお、多重化器１１０は、エントロピー符号化器１０５から供給されるエントロピー符号化データと符号化制御部１０９から供給されるデータ（符号化情報など）とを多重化し、多重化データをビットストリームとして出力する。

　本実施形態では、符号化制御部１０９は、１２０／Ｐ以外の映像フォーマットに適用されるＳＯＰ構造におけるＬ４構造が使用されるときに、Ｌ４構造における各層において符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという条件下で、予測器１０８が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する。そのような制御によって、ＳＯＰにおける各ピクチャの圧縮効率が高くなる。なお、本実施形態では、符号化制御部１０９は、そのような制御を実現するために、並べ替え部１０１に、図１に示された符号化順でピクチャを出力させる。

　また、符号化制御部１０９は、１２０／Ｐの映像フォーマットに適用されるＳＯＰ構造におけるＬ５構造が使用されるときに、Ｌ５構造におけるTemporal ID＝０～４の階層において符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという条件下で、下位層のピクチャを参照して符号化されるピクチャは、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように予測器１０８を制御する。そのような制御によって、ベース層に属するピクチャ（この場合には、Temporal ID＝０～４の階層のピクチャ）の圧縮効率は高くなる。なお、本実施形態では、符号化制御部１０９は、そのような制御を実現するために、並べ替え部１０１に、図１２に示された復号順（Ｌ０～Ｌ４構造の場合）または図２に示された復号順（Ｌ５構造の場合）でピクチャを出力させる。

実施形態２．
　図５は、映像復号装置の実施形態の構成例を示すブロック図である。図５に示す映像復号装置は、多重化解除器２０１、エントロピー復号器２０２、逆量子化／逆変換器２０３、加算器２０４、予測器２０５、バッファ２０６、復号制御部２０７、および並べ替え部２０８を含む。なお、図５に示す映像復号装置は、例えば、図３に例示された映像符号化装置からのビットストリームを受信することができる。

　多重化解除器２０１は、入力されるビットストリームを多重化解除して、エントロピー符号化データを抽出する。また、ビットストリームに含まれる符号化情報などを復号制御部２０７に出力する。

　エントロピー復号器２０２は、エントロピー符号化データをエントロピー復号する。エントロピー復号器２０２は、エントロピー復号した変換量子化値を逆量子化／逆変換器２０３に供給する。また、エントロピー復号器２０２は、ビットストリームに含まれている予測パラメータを、予測器２０５に供給する。エントロピー復号器２０２は、ビットストリームに含まれている符号化情報を復号制御部２０７に供給する。

　逆量子化／逆変換器２０３は、変換量子化値を逆量子化する。さらに、逆量子化／逆変換器２０３は、逆量子化した周波数変換係数を逆周波数変換する。

　予測器２０５は、予測パラメータに基づいて、各サブブロックの予測信号を生成する。逆量子化／逆変換器２０３で逆周波数変換された予測誤差信号は、加算器２０４によって、予測器２０５から供給される予測信号が加えられた後、再構築画像としてバッファ２０６に供給される。バッファ２０６は、再構築画像を格納する。

　バッファ２０６に格納された再構築画像は、並べ替え部２０８に転送される。並べ替え部２０８は、復号順に入力される映像信号における各画像（ピクチャ）を格納するメモリである。本実施形態では、各ピクチャは復号順に記憶されるとする。すなわち、メモリにおける小さいアドレスから順に、復号順に入力される各ピクチャが格納されるとする。しかし、復号順に入力される各ピクチャが表示順に並べ替え部１０１に格納されるようにしてもよい。すなわち、メモリにおける小さいアドレスから順に、表示順で、入力される各ピクチャが格納されるようにしてもよい。

　いずれのメモリ格納方式（復号順または表示順）が採用される場合でも、並べ替え部２０８から、表示順に各ピクチャが読み出される。

　次に、映像復号装置のＳＯＰ構造を使用して復号を実行するときの動作を、図６のフローチャートを参照して説明する。

　エントロピー復号器２０２は、ビットストリームに含まれるエントロピー符号化データをエントロピー復号する（ステップＳ２０１）。

　逆量子化／逆変換器２０３は、量子化ステップ幅で変換量子化値を逆量子化する（ステップＳ２０２）。さらに、逆量子化／逆変換器２０３は、逆量子化した周波数変換係数を逆周波数変換する（ステップＳ２０３）。

　予測器２０５は、バッファ２０６に格納された再構築画像を用いて予測信号を生成する（ステップＳ２０４）。加算器２０４は、逆量子化／逆変換器２０３で逆周波数変換された予測誤差画像に、予測器２０５から供給される予測信号を加えて、再構築画像を生成する（ステップＳ２０４）。再構築画像は、バッファ２０６に格納される。

　バッファ２０６に格納された再構築画像は、並べ替え部２０８に転送される（ステップＳ２０５）。

　ＳＯＰを構成する全てのピクチャについて、ステップＳ２０１～Ｓ２０５の処理が実行される（ステップＳ２０６）。

　並べ替え部２０８は、復号制御部２０７の出力指示に応じて、表示順に各画像を出力する（ステップＳ２０７）。

　６０／Ｐの映像フォーマットに従うことが符号化情報指定されている場合、復号制御部２０７は、図１に示された表示順でピクチャが並べ替え部１０１から読み出されるように制御する。すなわち、復号制御部２０７は、並べ替え部２０８において復号順に各ピクチャが格納されている場合には、読み出し対象のメモリのアドレス（表示順に従って読み出されるべきピクチャが格納されているアドレス）からピクチャが出力されるように制御する。なお、並べ替え部１０１において表示順に各ピクチャが格納される場合には、復号制御部２０７は、ピクチャが並べ替え部２０８に書き込まれるときに表示順に応じたメモリのアドレスにピクチャが格納されるように、並べ替え部２０８に指示する。

　１２０／Ｐの映像フォーマットに従うことが外部から指定されている場合、復号制御部２０７は、図１２に示された表示順（Ｌ０～Ｌ４構造の場合）または図２に示された表示順（Ｌ５構造の場合）でピクチャが並べ替え部２０８から読み出されるように制御する。

　第１の実施形態の映像符号化装置がＳＯＰ構造を使用して符号化した符号化データに基づくビットストリームを受信した場合、映像復号装置は、各ピクチャの圧縮効率が高い符号化データから映像を再生することができる。

　すなわち、本実施形態の映像復号装置は、符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測手段が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように構成された映像符号化装置からビットストリームを受信可能である。そのようなビットストリームが受信されたときに、本実施形態の映像復号装置において、予測器２０５は、符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとすることができる。

実施形態３．
　図７は、映像システムの一例を示すブロック図である。図７に示す映像システムは、上記の実施形態の映像符号化装置１００と映像復号装置２００とが、無線伝送路または有線伝送路３００で接続されるシステムである。

　映像符号化装置１００の構成および動作は、図３に示された映像符号化装置の構成および動作と同じである。映像復号装置２００の構成および動作は、図５に示された映像復号装置の構成および動作と同じである。

実施形態４．
　図８は、映像システムの他の例を示すブロック図である。図８に示す映像システムは、音声符号化部４０１、映像符号化部４０２および多重化部４０３を含む。

　音声符号化部４０１は、映像と音声とを含むデータ（コンテンツ）のうちの音声信号を、例えばＡＲＩＢ　ＳＴＤ－Ｂ３２規格で規定されるＭＰＥＧ－４　ＡＡＣ（Advanced Audio Coding）規格やＭＰＥＧ－４　ＡＬＳ規格（Audio Lossless Coding）に基づいて符号化することによって音声ビットストリームを作成して出力する。

　映像符号化部４０２は、例えば、図３に示すように構成され、映像ビットストリームを作成して出力する。

　多重化部４０３は、例えばＡＲＩＢ　ＳＴＤ－Ｂ３２規格に基づいて、音声ビットストリーム、映像ビットストリームおよびその他の情報を多重化することによってビットストリームを作成して出力する。

　また、上記の各実施形態を、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。

　図９は、ＣＰＵ（Central Processing Unit ）を有するコンピュータの一例を示すブロック図である。コンピュータは、図３に示された映像符号化装置と図５に示された映像復号装置のそれぞれに実装可能である。ＣＰＵ１０００は、記憶装置１００１に格納されたプログラム（映像符号化プログラムまたは映像復号プログラム）に従って処理を実行することによって、上記の各実施形態における各機能を実現する。

　すなわち、コンピュータが図３に示された映像符号化装置に実装される場合には、ＣＰＵ１０００は、映像符号化装置における、減算器１０２、変換／量子化器１０３、逆量子化／逆変換器１０４、エントロピー符号化器１０５、加算器１０６、予測器１０８、符号化制御部１０９、および多重化器１１０の機能を実現する。

　コンピュータが図５に示された映像復号装置に実装される場合には、ＣＰＵ１０００は、映像復号装置における、多重化解除器２０１、エントロピー復号器２０２、逆量子化／逆変換器２０３、加算器２０４、予測器２０５、および復号制御部２０７の機能を実現する。

　記憶装置１００１は、例えば、非一時的なコンピュータ可読媒体（non-transitory computer readable medium ）である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium ）を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体（例えば、ハードディスク）、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memory ）、ＣＤ－Ｒ（Compact Disc-Recordable ）、ＣＤ－Ｒ／Ｗ（Compact Disc-ReWritable ）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM ）、フラッシュＲＯＭ）がある。

　また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium ）に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。

　メモリ１００２は、例えばＲＡＭ（Random Access Memory）で実現され、ＣＰＵ１０００が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ１００２に、記憶装置１００１または一時的なコンピュータ可読媒体が保持するプログラムが転送され、ＣＰＵ１０００がメモリ１００２内のプログラムに基づいて処理を実行するような形態も想定しうる。

　また、メモリ１００２は、図３に示された並べ替え部１０１およびバッファ１０７として使用可能である。また、メモリ１００２は、図５に示されたバッファ２０６および並べ替え部２０８として使用可能である。

　図１０は、映像符号化装置の主要部を示すブロック図である。図１０に示す映像符号化装置１０は、複数レベル（例えば、Ｌ０～Ｌ４、Ｌ０～Ｌ５）の構造（例えば、Ｌ０～Ｌ４構造、Ｌ０～Ｌ５構造）を含むＳＯＰ構造を使用してビットストリームを生成する映像符号化装置であって、イントラ予測またはインター予測を用いて予測処理を行う予測手段１１（実施形態では、予測器１０８で実現される。）と、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測手段１１が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する符号化制御手段１２（実施形態では、符号化制御部１０９で実現される。）とを備えている。

　図１１は、映像復号装置の主要部を示すブロック図である。図１１に示す映像復号装置２０は、複数レベル（例えば、Ｌ０～Ｌ４、Ｌ０～Ｌ５）の構造（例えば、Ｌ０～Ｌ４構造、Ｌ０～Ｌ５構造）を含むＳＯＰ構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号装置であって、イントラ予測またはインター予測を用いて予測処理を行う予測手段２１（実施形態では、予測器２０５で実現される。）を備え、予測手段２１は、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層（Temporal IDの値が小さい層）のピクチャが上位層（Temporal IDの値が大きい層）のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように動作する。

　１１　　　予測手段
　１２　　　符号化制御手段
　２１　　　予測手段
　１０，１００　映像符号化装置
　１０１　　並べ替え部
　１０２　　減算器
　１０３　　変換／量子化器
　１０４　　逆量子化／逆変換器
　１０５　　エントロピー符号化器
　１０６　　加算器
　１０７　　バッファ
　１０８　　予測器
　１０９　　符号化制御部
　１１０　　多重化器
　２０，２００　映像復号装置
　２０１　　多重化解除器
　２０２　　エントロピー復号器
　２０３　　逆量子化／逆変換器
　２０４　　加算器
　２０５　　予測器
　２０６　　バッファ
　２０７　　復号制御部
　２０８　　並べ替え部
　４０１　　音声符号化部
　４０２　　映像符号化部
　４０３　　多重化部
　１０００　ＣＰＵ
　１００１　記憶装置
　１００２　メモリ

Claims

　複数レベルの構造を含むＳＯＰ構造を使用してビットストリームを生成する映像符号化装置であって、
　イントラ予測またはインター予測を用いて予測処理を行う予測手段と、
　表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、前記予測手段が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する符号化制御手段と
　を備えたことを特徴とする映像符号化装置。
　前記符号化制御手段は、１２０／Ｐ以外の映像フォーマットの映像信号が符号化される場合に、１６フレームが含まれるＬ４構造が使用されるときに、前記所定条件下で、前記予測手段が、下位層において表示順で最も近接するピクチャを参照ピクチャとするように制御する
　請求項１記載の映像符号化装置。
　前記符号化制御手段は、１２０／Ｐの映像フォーマットの映像信号が符号化される場合に、３２フレームが含まれるＬ５構造が使用されるときに、ベース層において、前記所定条件下で、前記予測手段が、下位層のピクチャを参照してピクチャを符号化するときに、下位層において表示順で最も近接するピクチャを参照ピクチャとするように制御する
　請求項１記載の映像符号化装置。
　前記予測手段は、ＶＶＣ規格に基づいて予測処理を行う
　請求項１から請求項３のうちのいずれか１項に記載の映像符号化装置。
　複数レベルの構造を含むＳＯＰ構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号装置であって、
　イントラ予測またはインター予測を用いて予測処理を行う予測手段を備え、
　前記予測手段は、
　表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする
　ことを特徴とする映像復号装置。
　複数レベルの構造を含むＳＯＰ構造を使用してビットストリームを生成する映像符号化方法であって、
　イントラ予測またはインター予測を用いて予測処理を実行し、
　表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、前記予測処理で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされるように制御する
　ことを特徴とする映像符号化方法。
　複数レベルの構造を含むＳＯＰ構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号方法であって、
　イントラ予測またはインター予測を用いて予測処理を実行し、
　前記予測処理で、
　表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする
　ことを特徴とする映像復号方法。
　複数レベルの構造を含むＳＯＰ構造を使用してビットストリームを生成するための映像符号化プログラムであって、
　コンピュータに、
　イントラ予測またはインター予測を用いて予測処理を実行させ、
　表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、前記予測処理で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされるように制御させる
　ための映像符号化プログラム。
　複数レベルの構造を含むＳＯＰ構造を使用して生成されたビットストリームを入力して復号処理を行うための映像復号プログラムであって、
　コンピュータに、イントラ予測またはインター予測を用いて予測処理を実行させ、
　前記予測処理で、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされる
　映像復号プログラム。
　請求項１から請求項４のうちのいずれか１項に記載の映像符号化装置と、
　音声信号を符号化する音声符号化部と、
　前記映像符号化装置からのビットストリームと前記音声符号化部からのビットストリームとを多重化して出力する多重化部と
　を備える映像システム。