JP2007266750A

JP2007266750A - 符号化方法

Info

Publication number: JP2007266750A
Application number: JP2006086164A
Authority: JP
Inventors: Mitsuru Suzuki; 満鈴木
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2006-03-27
Filing date: 2006-03-27
Publication date: 2007-10-11

Abstract

【課題】カラー深度毎に動画像の符号化ストリームを用意すると、符号量が増える。
【解決手段】符号化装置２００は、基本レイヤの符号化データを生成する基本レイヤ符号化部１００と、第１拡張レイヤの符号化データを生成する第１拡張レイヤ符号化部１１０と、第２拡張レイヤの符号化データを生成する第２拡張レイヤ符号化部１２０とをもち、基本レイヤ、第１拡張レイヤ、第２拡張レイヤの順に段階的にピクセル深度を深くして入力画像を符号化する。入力画像の全ビットプレーンの内、最上位ビットから数えて異なるビット数分のビットプレーン群が取り出され各レイヤに割り当てられる。第１拡張レイヤ符号化部１１０は、第１拡張レイヤの入力画像と基本レイヤの再構築画像の差分を符号化し、第２拡張レイヤ符号化部１２０は、第２拡張レイヤの入力画像と第１拡張レイヤの再構築画像の差分を符号化する。
【選択図】図１

Description

本発明は、動画像にスケーラビリティをもたせて符号化する符号化方法に関する。

ブロードバンドネットワークが急速に発展しており、高品質な動画像を利用したサービスに期待が集まっている。また、ＤＶＤなど大容量の記録媒体が利用されており、高画質の画像を楽しむユーザ層が広がっている。動画像を通信回線で伝送したり、記録媒体に蓄積するために不可欠な技術として圧縮符号化がある。動画像圧縮符号化技術の国際標準として、ＭＰＥＧ４の規格やＨ．２６４／ＡＶＣ規格がある。また、１つのストリームで、符号量に応じて、異なる画質（たとえば高画質と低画質）、異なる解像度（たとえば高解像度と低解像度）、異なるフレームレート（たとえば高フレームレートと低フレームレート）の画像の圧縮および伸長を実現することのできる、Ｈ．２６４／ＡＶＣの拡張として規格化が進められているＳＶＣ（Scalable Video Coding）のような次世代画像圧縮技術がある。

次世代画像圧縮技術であるＳＶＣでは、動画像を複数の異なる解像度、フレームレート、画質で再生することができるように、空間スケーラビリティ、時間スケーラビリティ、ＳＮＲスケーラビリティなどの各種スケーラビリティをもたせて動画像を符号化する。これらのスケーラビリティを任意に組み合わせて符号化することも可能であり、ＳＶＣのスケーラビリティ機能は柔軟性に富んでいる。

最近の高品質の液晶カラーテレビの中には表示可能色数が５０億色を超えるものもあり、テレビの表示可能色数を考慮して動画像の色数を増やして高画質で符号化することが求められている。ＳＶＣでは、色数のスケーラビリティの導入が検討されている（たとえば、非特許文献１参照）。
"SVC Requirements Specified by MPEG",JVT-N026,Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG, 2005

従来の動画像符号化方式では、カラー深度（color depth）は動画像の符号化ストリーム単位で一定の値に決められる。たとえば、標準テレビで映像を再生するには、カラー深度は８ビットで十分とされており、色数は８ビット固定である。色数の異なる動画像を再生したいというニーズに応えるためには、カラー深度毎に別々の符号化ストリームを用意してユーザに提供する必要があり、全体の符号量が増え、通信帯域や記憶領域を圧迫するという問題があった。

本発明はこうした状況に鑑みてなされたもので、その目的は、動画像に異なるピクセル深度をもたせて効率良く符号化するための符号化技術を提供することにある。

上記課題を解決するために、本発明のある態様の符号化方法は、動画像を階層的に符号化する際、画素データを与える複数のビットプレーンの内、上位ビットプレーン群を基本レイヤに、前記上位ビットプレーン群を含むより多いビット数のビットプレーン群を拡張レイヤに割り当て、前記拡張レイヤでは、前記拡張レイヤに入力されるピクチャと前記基本レイヤにおける再構築ピクチャのレイヤ間での差分を符号化して前記拡張レイヤの符号化データを生成する。画素データは、輝度データ、色差データ、ＲＧＢデータのいずれであってもよい。

ここでピクチャは符号化の単位であり、その概念にはフレーム、フィールド、ＶＯＰ（Video Object Plane）などを含む。

この態様によると、動画像にピクセル深度のスケーラビリティをもたせて符号化することができる。また、レイヤ間でピクセル深度の異なるピクチャの差分をとるため、差分データの情報量が少なくなり、拡張レイヤの符号量を抑えることができる。

前記基本レイヤと前記拡張レイヤの間で量子化処理に用いる量子化パラメータを異ならせ、各レイヤの量子化パラメータに関する情報を前記動画像の符号化ストリームに含めてもよい。拡張レイヤでは、拡張レイヤに入力される量子化前のピクチャと基本レイヤの逆量子化された再構築ピクチャとの差分をとるため、基本レイヤと拡張レイヤで量子化パラメータが異なっていても、拡張レイヤの符号化処理には影響しない。そのため、レイヤ毎に独立に量子化パラメータを変えて符号量の最適化を図ることができる。

前記拡張レイヤにおいて、前記拡張レイヤに入力されるピクチャと前記基本レイヤにおける再構築ピクチャのレイヤ間での差分を量子化することなく、符号化してもよい。拡張レイヤでは量子化処理を省略することで符号化処理の高速化を図ることができ、また符号化装置の回路規模を小さくすることができる。

前記動画像の符号化ストリーム内で前記拡張レイヤに割り当てるビット数を動的に調整し、前記拡張レイヤに割り当てられたビット数に関する情報を前記符号化ストリームに含めてもよい。これにより、必要に応じてピクセル深度を増減することができるため、符号化効率が良くなるとともに、必要に応じて柔軟に画質を調整することができる。ピクセル深度を動的に変更する領域の単位は、フレーム、スライス、マクロブロック、ＲＯＩ（Region Of Interest）領域のいずれであってもよい。画像内の領域を選択してピクセル深度を変えることができる。

ピクセル深度の変更を動き予測の基準となるピクチャ以外のピクチャにおいて行ってもよい。拡張レイヤでは、拡張レイヤの入力ピクチャと基本レイヤの再構築ピクチャの差分をとって符号化するため、拡張レイヤの符号化データには動き予測による時間方向の依存性がない。そのため、動画像の動き予測の基準となるピクチャを待たなくても、任意のピクチャで拡張レイヤの割り当てビット数を調整し、ピクセル深度を変更することが可能である。

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、異なるピクセル深度をもつ動画像を効率的に階層符号化することができる。

図１は、実施の形態に係る符号化装置２００の構成図である。これらの構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされた画像符号化機能のあるプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。

本実施の形態の符号化装置２００は、次世代画像圧縮技術であるＳＶＣ（Scalable Video Coding）に準拠して、動画像にピクセル深度（pixel depth）スケーラビリティをもたせて符号化する「スケーラブル符号化」を行う。ピクセル深度（pixel depth）スケーラビリティは、１ピクセルにもたせる色や輝度などのピクセル値のビット数に関するスケーラビリティのことであり、狭義の意味でカラー深度（color depth）スケーラビリティと呼ばれることもある。

符号化装置２００は、動画像にピクセル深度スケーラビリティ以外に空間（spatial）スケーラビリティ、時間（temporal）スケーラビリティ、ＳＮＲ（signal to noise ratio）スケーラビリティなどをもたせて符号化してもよい。

ＳＶＣでは、スケーラビリティを階層符号化により実現しており、ピクセル深度の異なる画像データをレイヤに分けて符号化し、ピクセル深度がそれぞれ異なる複数のレイヤからなる符号化ストリームを生成する。このようにしてスケーラブル階層符号化された動画像は、任意のピクセル深度を選択して復号することができるというスケーラビリティをもつ。たとえば下位層の符号化データだけを復号すると、ピクセル深度が浅い、すなわち色数の少ない動画像が再生され、上位層の符号化データを含めて復号すると、ピクセル深度が深い、すなわち色数の多い動画像が再生される。

符号化装置２００は、基本レイヤの符号化データを生成する基本レイヤ符号化部１００と、第１拡張レイヤの符号化データを生成する第１拡張レイヤ符号化部１１０と、第２拡張レイヤの符号化データを生成する第２拡張レイヤ符号化部１２０とをもち、基本レイヤ、第１拡張レイヤ、第２拡張レイヤの順に段階的にピクセル深度を深くして入力画像を符号化する。第１拡張レイヤでは基本レイヤの画像データとの差分が符号化され、第２拡張レイヤでは第１拡張レイヤの画像データとの差分が符号化される。

レイヤによってピクセル深度を異ならせるため、入力画像の全ビットプレーンの内、最上位ビットから数えて異なるビット数分のビットプレーン群を取り出して各レイヤに割り当てる。基本レイヤに割り当てられるビット数を「基本ビット数」、第１拡張レイヤに割り当てられるビット数を「第１拡張ビット数」、第２拡張レイヤに割り当てられるビット数を「第２拡張ビット数」と呼ぶ。基本ビット数、第１拡張ビット数、第２拡張ビット数の順にビット数が大きくなり、第２拡張レイヤが最上位レイヤであるため、第２拡張ビット数は画素のビット長に等しい。

基本レイヤ用の上位ビット取得部１５０は、入力画像の基本ビット数分の上位ビットプレーンを取得し、基本レイヤ符号化部１００の入力として与える。第１拡張レイヤ用の上位ビット取得部１５２は、入力画像の第１拡張ビット数分の上位ビットプレーンを取得し、第１拡張レイヤ符号化部１１０の入力として与える。第２拡張レイヤ符号化部１２０には、入力画像の全ビットプレーンが入力される。

一例として、１０ビットのピクセル深度をもつ入力画像について、上位８ビットの画像データが基本レイヤ符号化部１００に入力され、上位９ビットの画像データが第１拡張レイヤ符号化部１１０に入力され、全１０ビットの画像データが第２拡張レイヤ符号化部１２０に入力される。

基本レイヤ符号化部１００は、基本ビット数の画像データに対して動き補償、直交変換、および量子化の各処理を施す。第１拡張レイヤ符号化部１１０、第２拡張レイヤ符号化部１２０は、それぞれ第１拡張ビット数の画像データ、第２拡張ビット数すなわち全ビット数の画像データに対して直交変換および量子化の各処理を施す。

第１拡張レイヤ符号化部１１０は、第１拡張レイヤの入力画像と基本レイヤの再構築画像の差分を符号化し、第２拡張レイヤ符号化部１２０は、第２拡張レイヤの入力画像と第１拡張レイヤの再構築画像の差分を符号化する。

基本レイヤ符号化部１００は、動き予測による差分画像に対して直交変換と量子化を施して得られる画像データを可変長符号化して基本レイヤの符号化データを生成し、ストリーム結合部１６０に供給する。

基本レイヤ符号化部１００は、動き予測のために再構築画像を生成する。第１拡張レイヤ用のビットシフト部１０２は、基本レイヤの再構築画像を左ビットシフトした上で、第１拡張レイヤ符号化部１１０に与える。ここで、第１拡張レイヤ用のビットシフト部１０２による左ビットシフト量は、基本レイヤの画像のビット数と第１拡張レイヤの画像のビット数の差であり、ビットシフト部１０２による左ビットシフトにより、基本レイヤの画像データの下位ビットに０が補填され、基本レイヤの画像データと第１拡張レイヤの画像データのビット数が揃い、差分をとることが可能となる。

第１拡張レイヤ符号化部１１０は、第１拡張レイヤの入力画像とビットシフト部１０２により左ビットシフトされた基本レイヤの再構築画像の差分をとった後、差分データを直交変換、量子化した上で、可変長符号化し、第１拡張レイヤの符号化データを生成する。第１拡張レイヤ符号化部１１０は、第１拡張レイヤの符号化データをストリーム結合部１６０に供給する。

第１拡張レイヤ符号化部１１０は、逆量子化および逆直交変換を行って第１拡張レイヤの再構築画像を生成する。第２拡張レイヤ用のビットシフト部１１２は、第１拡張レイヤの再構築画像を左ビットシフトした上で、第２拡張レイヤ符号化部１２０に与える。ここで、第２拡張レイヤ用のビットシフト部１１２による左ビットシフト量は、第１拡張レイヤの画像のビット数と第２拡張レイヤの画像のビット数の差であり、ビットシフト部１１２による左ビットシフトにより、第１拡張レイヤの画像データと第２拡張レイヤの画像データのビット数が揃う。

第２拡張レイヤ符号化部１２０は、第２拡張レイヤの入力画像とビットシフト部１１２により左ビットシフトされた第１拡張レイヤの再構築画像の差分をとった後、差分データを直交変換、量子化した上で、可変長符号化し、第２拡張レイヤの符号化データを生成する。第２拡張レイヤ符号化部１２０は、第２拡張レイヤの符号化データをストリーム結合部１６０に供給する。

ストリーム結合部１６０は、基本レイヤの符号化データ、第１拡張レイヤの符号化データ、および第２拡張レイヤの符号化データを結合して動画像の符号化ストリームを出力する。

図１では、基本レイヤ、第１拡張レイヤ、および第２拡張レイヤの３つのレイヤを符号化する場合を例に挙げて構成と動作を説明するが、拡張レイヤの個数は任意である。また、拡張レイヤに割り当てられるビット数も任意であり、上位レイヤに進むにつれて１ビットずつビット数を増やしてもよく、割り当てビット数の増え方が一定でなくてもよい。たとえば、拡張レイヤを２つ設けて、１２ビットのピクセル深度をもつ入力画像について、上位８ビットの画像データが基本レイヤで符号化され、上位９ビットの画像データが第１拡張レイヤで符号化され、全１２ビットの画像データが第２拡張レイヤで符号化されてもよい。

次に基本レイヤ符号化部１００の構成と動作を詳しく説明する。

本実施の形態の基本レイヤ符号化部１００は、国際標準化機関であるＩＳＯ（International Organization for Standardization）／ＩＥＣ（International Electrotechnical Commission）によって標準化されたＭＰＥＧ（Moving Picture Experts Group）シリーズの規格（ＭＰＥＧ−１、ＭＰＥＧ−２およびＭＰＥＧ−４）、電気通信に関する国際標準機関であるＩＴＵ−Ｔ（International Telecommunication Union-Telecommunication Standardization Sector）によって標準化されたＨ．２６ｘシリーズの規格（Ｈ．２６１、Ｈ．２６２およびＨ．２６３）、もしくは両方の標準化機関によって合同で標準化された最新の動画像圧縮符号化標準規格であるＨ．２６４／ＡＶＣ（両機関における正式勧告名はそれぞれMPEG-4 Part 10: Advanced Video CodingとH.264）に準拠して動画像の符号化を行う。

ＭＰＥＧシリーズの規格では、フレーム内符号化を行うフレームをＩ（Intra）フレーム、過去のフレームを参照フレームとして順方向のフレーム間予測符号化を行うフレームをＰ（Predictive）フレーム、過去と未来のフレームを参照フレームとして双方向のフレーム間予測符号化を行うフレームをＢフレームという。

一方、Ｈ．２６４／ＡＶＣでは、参照フレームとして利用できるフレームは、時間の先後を問わず、過去の２枚のフレームを参照フレームとしてもよく、未来の２枚のフレームを参照フレームとしてもよい。また、参照フレームとして利用できるフレームの枚数も問わず、３枚以上のフレームを参照フレームとして用いることもできる。したがって、ＭＰＥＧ−１／２／４では、Ｂフレームは双方向予測（Bi-directional prediction）フレームのことを指していたが、Ｈ．２６４／ＡＶＣでは、Ｂフレームは、参照フレームの時間の先後は問わないため、双予測（Bi-predictive prediction）フレームのことを指すことに留意する。

なお、実施の形態では、符号化の単位としてフレームを例に挙げて説明するが、符号化の単位はフィールドであってもよい。また、符号化の単位はＭＰＥＧ−４におけるＶＯＰであってもよい。

基本レイヤ符号化部１００は、フレーム単位で動画像の入力を受け取り、動画像を符号化し、符号化ストリームを出力する。基本レイヤ符号化部１００に入力される動画像のフレームは、上位ビット取得部１５０により上位ビットが取り出されたものであり、最下位ビットから数えた所定のビット数はあらかじめ落とされている。

ブロック生成部１０ａは、入力された動画像のフレームをマクロブロックに分割する。フレームの左上から右下方向の順にマクロブロックが形成される。ブロック生成部１０ａは生成したマクロブロックを差分器１２ａと動き予測部６０ａに供給する。

差分器１２ａは、ブロック生成部１０ａから供給されるフレームがＩフレームであれば、そのままＤＣＴ部２０ａに出力するが、ＰフレームまたはＢフレームであれば、動き予測部６０ａから供給される予測フレームとの差分を計算してＤＣＴ部２０ａに供給する。

動き予測部６０ａは、フレームバッファ８０ａに格納されている過去または未来のフレームを参照フレームとして利用し、ブロック生成部１０ａから入力されたＰフレームまたはＢフレームのマクロブロック毎に動き補償を行い、動きベクトルと予測フレームを生成する。動き予測部６０ａは、生成した動きベクトルを可変長符号化部９０ａに供給し、予測フレームを差分器１２ａと加算器１４ａに供給する。

差分器１２ａは、ブロック生成部１０ａから出力される現在の符号化対象フレームと、動き予測部６０ａから出力される予測フレームとの差分を求め、ＤＣＴ部２０ａに出力する。ＤＣＴ部２０ａは、差分器１２ａから与えられた差分フレームを離散コサイン変換（ＤＣＴ）し、ＤＣＴ係数を量子化部３０ａに与える。

量子化部３０ａは、ＤＣＴ係数を量子化し、可変長符号化部９０ａに与える。可変長符号化部９０ａは、動き予測部６０ａから与えられた動きベクトルとともに差分フレームの量子化されたＤＣＴ係数を可変長符号化し、符号化ストリームを生成する。可変長符号化部９０ａは、符号化ストリームを生成する際、符号化されたフレームを時間順序に並べ替える処理を行う。

量子化部３０ａは、フレームの量子化されたＤＣＴ係数を逆量子化部４０ａに供給する。逆量子化部４０ａは、与えられた量子化データを逆量子化し、逆ＤＣＴ部５０ａに与え、逆ＤＣＴ部５０ａは、与えられた逆量子化データを逆離散コサイン変換する。これにより、符号化されたフレームが復元される。復元されたフレームは加算器１４ａに入力される。

加算器１４ａは、逆ＤＣＴ部５０ａから供給されるフレームがＩフレームであれば、そのままフレームバッファ８０ａに格納する。加算器１４ａは、逆ＤＣＴ部５０ａから供給されるフレームがＰフレームまたはＢフレームであれば、それは差分フレームであるため、逆ＤＣＴ部５０ａから供給された差分フレームと動き予測部６０ａから供給される予測フレームとを加算することにより、元のフレームを再構築し、フレームバッファ８０ａに格納する。

フレームバッファ８０ａに格納された再構築フレームは、動き予測部６０ａによる動き補償の参照フレームとして利用される。

ＰフレームもしくはＢフレームの符号化処理の場合は、上述のように動き予測部６０ａが動作するが、Ｉフレームの符号化処理の場合は、動き予測部６０ａは動作せず、ここでは図示しないが、フレーム内予測が行われる。

動き予測部６０ａは、ブロック生成部１０ａから与えられた符号化対象フレームのマクロブロック（「対象マクロブロック」という）に対して、フレームバッファ８０ａに格納された再構築フレームを参照フレームとして、参照フレーム内を探索し、対象マクロブロックとの差分が最も小さくなる領域を特定する。これにより、対象マクロブロック毎に符号化対象フレームから参照フレームへの動きを示す動きベクトルが定まる。

第１拡張レイヤ用のビットシフト部１０２には、基本レイヤ符号化部１００の加算器１４ａから出力される基本レイヤの再構築フレームが入力される。ビットシフト部１０２は、第１拡張レイヤの画像データのビット数に揃えるために、基本レイヤの再構築フレームのデータを左ビットシフトし、左シフトで空いた下位ビットに０を補填する。ビットシフト部１０２は、左ビットシフトされた基本レイヤの再構築フレームのデータを第１拡張レイヤ符号化部１１０に与える。

次に第１拡張レイヤ符号化部１１０と第２拡張レイヤ符号化部１２０の構成と動作を説明するが、基本レイヤ符号化部１００と共通する構成については対応する符号を付して説明を省略する。なお、同図では、基本レイヤ符号化部１００の各構成の符号には「ａ」を付し、第１拡張レイヤ符号化部１１０の各構成の符号には「ｂ」を付し、第２拡張レイヤ符号化部１２０の各構成の符号には「ｃ」を付すことで区別している。

第１拡張レイヤ符号化部１１０について説明する。差分器１６ｂは、第１拡張レイヤ用の上位ビット取得部１５２から与えられる第１拡張ビット数分の入力フレームと、第１拡張レイヤ用のビットシフト部１０２から与えられる左ビットシフトされた基本レイヤの再構築フレームとの差分データを求め、ＤＣＴ部２０ｂに与える。以降、この差分データに対してＤＣＴ部２０ｂおよび量子化部３０ｂにより直交変換および量子化が施され、可変長符号化部９０ｂに入力される。可変長符号化部９０ｂは、入力された差分データを可変長符号化して第１拡張レイヤの符号化データを生成し、ストリーム結合部１６０に与える。

量子化部３０ｂから出力される量子化後の差分データは、逆量子化部４０ｂに入力されて逆量子化され、さらに逆ＤＣＴ部５０ｂに入力されて逆直交変換され、元の差分データが復元される。加算器１８ｂは、復元された差分データにビットシフト部１０２から与えられる基本レイヤの再構築フレームのデータを加算することにより、第１拡張レイヤの入力フレームを再構築する。つまり、加算器１８ｂは差分器１６ｂの逆算を行ったことになる。

第２拡張レイヤ用のビットシフト部１１２には、第１拡張レイヤ符号化部１１０の加算器１８ｂから出力される第１拡張レイヤの再構築フレームが入力される。ビットシフト部１１２は、第２拡張レイヤの画像データのビット数に揃えるために、第１拡張レイヤの再構築フレームのデータを左ビットシフトし、左シフトで空いた下位ビットに０を補填する。ビットシフト部１１２は、左ビットシフトされた第１拡張レイヤの再構築フレームのデータを第２拡張レイヤ符号化部１２０に与える。

第２拡張レイヤ符号化部１２０について説明する。差分器１６ｃは、全ビット数分の入力フレームと第２拡張レイヤ用のビットシフト部１１２から与えられる左ビットシフトされた第１拡張レイヤの再構築フレームとの差分データを求め、ＤＣＴ部２０ｃに与える。以降、この差分データに対してＤＣＴ部２０ｃおよび量子化部３０ｃにより直交変換および量子化が施され、可変長符号化部９０ｃに入力される。可変長符号化部９０ｃは、入力された差分データを可変長符号化して第２拡張レイヤの符号化データを生成し、ストリーム結合部１６０に与える。

図１では、第１拡張レイヤおよび第２拡張レイヤにおいて直交変換および量子化を行っているが、直交変換および量子化の少なくとも一方を省略してもよい。第１拡張レイヤおよび第２拡張レイヤでは各レイヤの入力フレームと１つ下のレイヤの再構築フレームの差分を符号化するため、差分データのビット数は少なくなる。たとえば、基本レイヤが８ビット、第１拡張レイヤが９ビット、第２拡張レイヤが１０ビットである場合、レイヤ間の差分データは１ビットの情報しかない。よって、直交変換や量子化をしなくても符号化効率がよく、符号量を小さく抑えることができる。

また、第１拡張レイヤおよび第２拡張レイヤにおける量子化処理における量子化スケールなどの量子化パラメータは、基本レイヤの量子化処理における量子化パラメータとは異なる値であってもかまわない。この場合、各レイヤの量子化パラメータに関する情報を動画ストリームのヘッダなどに含める。各レイヤで量子化パラメータを変えることでレイヤ毎に独立して符号量を制御することができる。

また、各レイヤにおいて可変長符号化を行って各レイヤの符号化データを生成したが、可変長符号化以外の符号化を行ってもよい。

上記の説明では、動画ストリームのピクセル深度は一定であるとしたが、ピクセル深度を動的に変更できるようにしてもよい。その場合、ピクセル深度の増減に伴って、拡張レイヤに割り当てられるビット数を同一ストリーム内で可変にする。たとえば、基本レイヤに８ビットを割り当て、拡張レイヤには２〜４ビットの間で割り当てるビット数を変える。拡張レイヤに割り当てられたビット数の情報は動画ストリームのヘッダなどに含める。これにより、１つの動画ストリーム内でもフレーム単位もしくはフレームの集合単位で色数を増減させることができる。たとえば、シーンに応じて色数を増減したり、重要でないフレームでは色数を落とすことができる。

なお、ＳＶＣ非対応の復号装置でも基本レイヤのみで動画像を復号できるように、基本レイヤに割り当てられるビット数は可変にせず、固定にしておくことが好ましい。また、本実施の形態では、拡張レイヤにおいて動き予測を行わないため、拡張レイヤの符号化データには時間軸方向の依存関係がない。拡張レイヤのビット割り当ては、フレーム毎に可変にしても拡張レイヤの符号化には影響しない。したがって、符号化ストリーム内でピクセル深度を変更可能なタイミングは、Ｉフレームのような基準フレームの位置に限らず、任意のフレームの位置であってもよいことに留意する。

本実施の形態の符号化装置２００によれば、動画像にピクセル深度スケーラビリティをもたせて階層的に符号化することができる。よって、復号の際、ピクセル深度の異なる動画を選択して再生することができる。

また、符号化装置２００によれば、拡張レイヤにおいて、当該レイヤの入力フレームと一つ下のレイヤの再構築画フレーム差分をとって符号化する。レイヤ間では画像のピクセル深度の違いしかないため、レイヤ間で差分をとることにより、拡張レイヤの符号化データの符号量は極めて小さくなる。

また、拡張レイヤにおいては動き予測符号化を行わないため、拡張レイヤの符号化データには時間方向の依存性がなく、任意のフレームにおいてピクセル深度を変更することができる。

図２は、実施の形態に係る復号装置５００の構成図である。これらの機能ブロックもハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現することができる。

復号装置５００は、ＳＶＣに準拠して、動画像にピクセル深度スケーラビリティをもたせて復号する「スケーラブル復号」を行う。復号装置５００には、図１の符号化装置２００によりピクセル深度スケーラビリティをもたせて階層符号化された動画像の符号化ストリームが入力され、入力された符号化ストリームから基本レイヤと拡張レイヤのストリームを取り出して復号する。

復号装置５００は、図１の符号化装置２００に対応して、基本レイヤ、第１拡張レイヤ、および第２拡張レイヤの３つのレイヤで動画像を復号する構成であり、それぞれのレイヤを復号するための基本レイヤ復号部４００、第１拡張レイヤ復号部４１０、および第２拡張レイヤ復号部４２０を含むが、拡張レイヤの個数は任意である。なお、ＳＶＣ非対応の復号装置５００は、基本レイヤ復号部４００のみを含み、第１拡張レイヤまでに対応可能な復号装置５００は、基本レイヤ復号部４００と第１拡張レイヤ復号部４１０を含む。

復号装置５００が動画像の符号化ストリームの入力を受け取ると、基本レイヤ復号部４００は基本レイヤの符号化データを復号する。基本レイヤの画像を再生する場合は、基本レイヤ復号部４００が復号した画像を最終出力画像としてそのまま出力する。

第１拡張レイヤの画像を再生する場合、第１拡張レイヤ復号部４１０が動作し、第１拡張レイヤの符号化データを復号する。第１拡張レイヤ復号部４１０は、基本レイヤの出力画像を第１拡張レイヤのビット数に合うようにビットシフトした上で、第１拡張レイヤの復号データと足し合わせ、第１拡張レイヤの最終出力画像を生成し、出力する。

第２拡張レイヤの画像を再生する場合、さらに第２拡張レイヤ復号部４２０が動作し、第２拡張レイヤの符号化データを復号する。第２拡張レイヤ復号部４２０は、第１拡張レイヤの出力画像を第２拡張レイヤのビット数に合うようにビットシフトした上で、第２拡張レイヤの復号データと足し合わせ、第２拡張レイヤの最終出力画像を生成し、出力する。

同図を参照しながら、復号装置５００の構成と動作を詳しく説明する。ストリーム分離部４３０は、入力された符号化ストリームから基本レイヤ、第１拡張レイヤ、および第２拡張レイヤの符号化データを分離して取り出し、基本レイヤの符号化データは基本レイヤ復号部４００の可変長復号部３１０ａに、第１拡張レイヤの符号化データは第１拡張レイヤ復号部４１０の可変長復号部３１０ｂに、第２拡張レイヤの符号化データは第２拡張レイヤ復号部４２０の可変長復号部３１０ｃに与える。

基本レイヤ復号部４００について説明する。可変長復号部３１０ａは、基本レイヤの符号化ストリームを可変長復号し、復号された画像データを逆量子化部３２０ａに供給し、動きベクトル情報を動き補償部３６０ａに供給する。

逆量子化部３２０ａは、可変長復号部３１０ａにより復号された画像データを逆量子化し、逆ＤＣＴ部３３０ａに供給する。逆量子化部３２０ａにより逆量子化された画像データはＤＣＴ係数である。逆ＤＣＴ部３３０ａは、逆量子化部３２０ａにより逆量子化されたＤＣＴ係数を逆離散コサイン変換（ＩＤＣＴ）することにより、元の画像データを復元する。逆ＤＣＴ部３３０ａにより復元された画像データは、加算器３１２ａに供給される。

加算器３１２ａは、逆ＤＣＴ部３３０ａから供給された画像データが、Ｉフレームである場合、そのＩフレームの画像データをそのまま出力するとともに、ＰフレームやＢフレームの予測フレームを生成するための参照フレームとして、フレームバッファ３８０ａに格納する。

加算器３１２ａは、逆ＤＣＴ部３３０ａから供給された画像データが、Ｐフレームである場合、その画像データは差分フレームであるから、逆ＤＣＴ部３３０ａから供給された差分フレームと動き補償部３６０ａから供給される予測フレームを加算することにより、元の画像データを復元し、出力する。

動き補償部３６０ａは、可変長復号部３１０ａから供給される動きベクトル情報と、フレームバッファ３８０ａに格納された参照フレームを用いて、ＰフレームまたはＢフレームの予測フレームを生成し、加算器３１２ａに供給する。

動き補償部３６０ａは、可変長復号部３１０ａから復号対象フレームの動きベクトルを取得し、復号対象フレームの対象マクロブロックに対して、動きベクトルが参照する領域を特定し、その領域の画素データを用いて、動き補償された予測フレームを生成し、加算器３１２ａに与える。

第１拡張レイヤ用のビットシフト部４０２は、基本レイヤ復号部４００の加算器３１２ａから出力される基本レイヤの出力画像を第１拡張レイヤの出力画像のビット数に合うように左ビットシフトし、左ビットシフトされた基本レイヤの出力画像を第１拡張レイヤ復号部４１０の加算器３１４ｂに与える。

第１拡張レイヤ復号部４１０について説明する。第１拡張レイヤの符号化ストリームは、可変長復号部３１０ｂにより可変長復号され、逆量子化部３２０ｂにより逆量子化され、逆ＤＣＴ部３３０ｂにより逆直交変換された後、加算器３１４ｂに入力される。第１拡張レイヤにおいて復号された画像は、基本レイヤの画像との差分データである。加算器３１４ｂは、第１拡張レイヤ用のビットシフト部４０２から与えられる左ビットシフトされた基本レイヤの出力画像のデータに第１拡張レイヤで復号された差分データを足し合わせることにより、第１拡張レイヤの最終出力画像を生成し、出力する。

第２拡張レイヤ用のビットシフト部４１２は、第１拡張レイヤ復号部４１０の加算器３１４ｂから出力される第１拡張レイヤの出力画像を第２拡張レイヤの出力画像のビット数に合うように左ビットシフトし、左ビットシフトされた第１拡張レイヤの出力画像を第２拡張レイヤ復号部４２０の加算器３１４ｃに与える。

第２拡張レイヤ復号部４２０の構成と動作は、第１拡張レイヤ復号部４１０と同じであり、第２拡張レイヤの符号化ストリームは、可変長復号部３１０ｃにより可変長復号され、逆量子化部３２０ｃにより逆量子化され、逆ＤＣＴ部３３０ｃにより逆直交変換された後、加算器３１４ｃに入力される。第２拡張レイヤにおいて復号された画像は、第１拡張レイヤの画像との差分データである。加算器３１４ｃは、第２拡張レイヤ用のビットシフト部４１２から与えられる左ビットシフトされた第１拡張レイヤの出力画像のデータに第２拡張レイヤで復号された差分データを足し合わせることにより、第２拡張レイヤの最終出力画像を生成し、出力する。

なお、図１の第１拡張レイヤ符号化部１１０および第２拡張レイヤ符号化部１２０で直交変換や量子化を省略した場合、図２の第１拡張レイヤ復号部４１０および第２拡張レイヤ復号部４２０で逆直交変換や逆量子化の構成は不要である。

本実施の形態の復号装置５００によれば、ピクセル深度スケーラビリティをもたせて符号化された動画像の符号化ストリームにおいて、基本レイヤの他に拡張レイヤを適宜選択することでピクセル深度の異なる動画像を復号することができる。これにより、ディスプレイの表示可能色数やユーザの画質要求レベルに応じて最適なピクセル深度を選択して動画像を再生することができる。

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施の形態に係る符号化装置の構成図である。実施の形態に係る復号装置の構成図である。

符号の説明

１０ａブロック生成部、２０ａ、２０ｂ、２０ｃＤＣＴ部、３０ａ、３０ｂ、３０ｃ量子化部、４０ａ、４０ｂ逆量子化部、５０ａ、５０ｂ逆ＤＣＴ部、６０ａ動き予測部、８０ａフレームバッファ、９０ａ、９０ｂ、９０ｃ可変長符号化部、１００基本レイヤ符号化部、１０２、１１２ビットシフト部、１１０第１拡張レイヤ符号化部、１２０第２拡張レイヤ符号化部、１５０、１５２上位ビット取得部、１６０ストリーム結合部、２００符号化装置、４００基本レイヤ復号部、４０２、４１２ビットシフト部、４１０第１拡張レイヤ復号部、４２０第２拡張レイヤ復号部、４３０ストリーム分離部、５００復号装置。

Claims

動画像を階層的に符号化する際、画素データを与える複数のビットプレーンの内、上位ビットプレーン群を基本レイヤに、前記上位ビットプレーン群を含むより多いビット数のビットプレーン群を拡張レイヤに割り当て、前記拡張レイヤでは、前記拡張レイヤに入力されるピクチャと前記基本レイヤにおける再構築ピクチャのレイヤ間での差分を符号化して前記拡張レイヤの符号化データを生成することを特徴とする符号化方法。
前記基本レイヤと前記拡張レイヤの間で量子化処理に用いる量子化パラメータを異ならせ、各レイヤの量子化パラメータに関する情報を前記動画像の符号化ストリームに含めることを特徴とする請求項１に記載の符号化方法。
前記拡張レイヤにおいて、前記拡張レイヤに入力されるピクチャと前記基本レイヤにおける再構築ピクチャのレイヤ間での差分を量子化することなく、符号化することを特徴とする請求項１に記載の符号化方法。
前記動画像の符号化ストリーム内で前記拡張レイヤに割り当てるビット数を動的に調整し、前記拡張レイヤに割り当てられたビット数に関する情報を前記符号化ストリームに含めることを特徴とする請求項１から３のいずれかに記載の符号化方法。