[go: up one dir, main page]

JP2007266750A - Encoding method - Google Patents

Encoding method Download PDF

Info

Publication number
JP2007266750A
JP2007266750A JP2006086164A JP2006086164A JP2007266750A JP 2007266750 A JP2007266750 A JP 2007266750A JP 2006086164 A JP2006086164 A JP 2006086164A JP 2006086164 A JP2006086164 A JP 2006086164A JP 2007266750 A JP2007266750 A JP 2007266750A
Authority
JP
Japan
Prior art keywords
enhancement layer
unit
layer
frame
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006086164A
Other languages
Japanese (ja)
Inventor
Mitsuru Suzuki
満 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2006086164A priority Critical patent/JP2007266750A/en
Publication of JP2007266750A publication Critical patent/JP2007266750A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem wherein the number of codes increases when preparing the coding stream of moving pictures for each color depth. <P>SOLUTION: An encoder 200 comprises: a basic layer encoder 100 for generating the encoding data of a basic layer, a first expansion layer encoder 110 for generating the encoding data of a first expansion layer, and a second expansion layer encoder 120 for generating the encoding data of a second expansion layer. Pixel depth is deepened in steps in the order of the basic layer, first expansion layer, and second expansion layer for encoding an input image. In all the bit planes of the input image, a group of bit planes of a different number of bits counted from the most significant bit is taken out for allocating to each layer. The first expansion layer encoder 110 encodes the difference between the input image of the first expansion layer and reconstruction image of the basic one. The second expansion layer encoder 120 encodes the difference between the input image of the second expansion layer and the reconstruction image of the first one. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、動画像にスケーラビリティをもたせて符号化する符号化方法に関する。   The present invention relates to an encoding method for encoding a moving image with scalability.

ブロードバンドネットワークが急速に発展しており、高品質な動画像を利用したサービスに期待が集まっている。また、DVDなど大容量の記録媒体が利用されており、高画質の画像を楽しむユーザ層が広がっている。動画像を通信回線で伝送したり、記録媒体に蓄積するために不可欠な技術として圧縮符号化がある。動画像圧縮符号化技術の国際標準として、MPEG4の規格やH.264/AVC規格がある。また、1つのストリームで、符号量に応じて、異なる画質(たとえば高画質と低画質)、異なる解像度(たとえば高解像度と低解像度)、異なるフレームレート(たとえば高フレームレートと低フレームレート)の画像の圧縮および伸長を実現することのできる、H.264/AVCの拡張として規格化が進められているSVC(Scalable Video Coding)のような次世代画像圧縮技術がある。   Broadband networks are rapidly developing, and there are high expectations for services that use high-quality moving images. In addition, a large-capacity recording medium such as a DVD is used, and a user group who enjoys high-quality images is expanding. There is compression coding as an indispensable technique for transmitting moving images via a communication line or storing them in a recording medium. As an international standard for moving image compression coding technology, the MPEG4 standard and H.264 standard. There is a H.264 / AVC standard. Also, in one stream, images with different image quality (for example, high and low image quality), different resolution (for example, high and low resolution), and different frame rates (for example, high and low frame rates) depending on the code amount H. can be compressed and decompressed. There is a next-generation image compression technique such as SVC (Scalable Video Coding), which is being standardized as an extension of H.264 / AVC.

次世代画像圧縮技術であるSVCでは、動画像を複数の異なる解像度、フレームレート、画質で再生することができるように、空間スケーラビリティ、時間スケーラビリティ、SNRスケーラビリティなどの各種スケーラビリティをもたせて動画像を符号化する。これらのスケーラビリティを任意に組み合わせて符号化することも可能であり、SVCのスケーラビリティ機能は柔軟性に富んでいる。   SVC, the next-generation image compression technology, encodes moving images with various scalability such as spatial scalability, temporal scalability, and SNR scalability so that moving images can be played at multiple different resolutions, frame rates, and image quality. Turn into. Coding can be performed by arbitrarily combining these scalability, and the scalability function of SVC is very flexible.

最近の高品質の液晶カラーテレビの中には表示可能色数が50億色を超えるものもあり、テレビの表示可能色数を考慮して動画像の色数を増やして高画質で符号化することが求められている。SVCでは、色数のスケーラビリティの導入が検討されている(たとえば、非特許文献1参照)。
"SVC Requirements Specified by MPEG",JVT-N026,Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG, 2005
Some recent high-quality liquid crystal color televisions can display more than 5 billion colors, and the number of colors that can be displayed on the television is taken into account to increase the number of colors of moving images and encode them with high image quality. It is demanded. In SVC, introduction of the scalability of the number of colors is being studied (for example, see Non-Patent Document 1).
"SVC Requirements Specified by MPEG", JVT-N026, Joint Video Team (JVT) of ISO / IEC MPEG & ITU-T VCEG, 2005

従来の動画像符号化方式では、カラー深度(color depth)は動画像の符号化ストリーム単位で一定の値に決められる。たとえば、標準テレビで映像を再生するには、カラー深度は8ビットで十分とされており、色数は8ビット固定である。色数の異なる動画像を再生したいというニーズに応えるためには、カラー深度毎に別々の符号化ストリームを用意してユーザに提供する必要があり、全体の符号量が増え、通信帯域や記憶領域を圧迫するという問題があった。   In the conventional moving image encoding method, the color depth is determined to be a constant value in units of moving image encoded streams. For example, a color depth of 8 bits is sufficient for reproducing video on a standard television, and the number of colors is fixed at 8 bits. In order to meet the need to play moving images with different numbers of colors, it is necessary to prepare separate encoded streams for each color depth and provide them to the user, increasing the overall code amount, communication bandwidth and storage area. There was a problem of squeezing.

本発明はこうした状況に鑑みてなされたもので、その目的は、動画像に異なるピクセル深度をもたせて効率良く符号化するための符号化技術を提供することにある。   The present invention has been made in view of such circumstances, and an object thereof is to provide an encoding technique for efficiently encoding a moving image with different pixel depths.

上記課題を解決するために、本発明のある態様の符号化方法は、動画像を階層的に符号化する際、画素データを与える複数のビットプレーンの内、上位ビットプレーン群を基本レイヤに、前記上位ビットプレーン群を含むより多いビット数のビットプレーン群を拡張レイヤに割り当て、前記拡張レイヤでは、前記拡張レイヤに入力されるピクチャと前記基本レイヤにおける再構築ピクチャのレイヤ間での差分を符号化して前記拡張レイヤの符号化データを生成する。画素データは、輝度データ、色差データ、RGBデータのいずれであってもよい。   In order to solve the above-described problem, an encoding method according to an aspect of the present invention is configured such that, when a moving image is hierarchically encoded, an upper bit plane group among a plurality of bit planes that provide pixel data is used as a base layer. A bit plane group having a larger number of bits including the upper bit plane group is assigned to an enhancement layer, and the enhancement layer encodes a difference between a picture input to the enhancement layer and a reconstructed picture layer in the base layer. To generate encoded data of the enhancement layer. The pixel data may be any of luminance data, color difference data, and RGB data.

ここでピクチャは符号化の単位であり、その概念にはフレーム、フィールド、VOP(Video Object Plane)などを含む。   Here, a picture is a unit of coding, and its concept includes a frame, a field, a VOP (Video Object Plane), and the like.

この態様によると、動画像にピクセル深度のスケーラビリティをもたせて符号化することができる。また、レイヤ間でピクセル深度の異なるピクチャの差分をとるため、差分データの情報量が少なくなり、拡張レイヤの符号量を抑えることができる。   According to this aspect, the moving image can be encoded with the scalability of the pixel depth. Moreover, since the difference of the picture from which a pixel depth differs between layers is taken, the information amount of difference data decreases and the code amount of an extended layer can be suppressed.

前記基本レイヤと前記拡張レイヤの間で量子化処理に用いる量子化パラメータを異ならせ、各レイヤの量子化パラメータに関する情報を前記動画像の符号化ストリームに含めてもよい。拡張レイヤでは、拡張レイヤに入力される量子化前のピクチャと基本レイヤの逆量子化された再構築ピクチャとの差分をとるため、基本レイヤと拡張レイヤで量子化パラメータが異なっていても、拡張レイヤの符号化処理には影響しない。そのため、レイヤ毎に独立に量子化パラメータを変えて符号量の最適化を図ることができる。   The quantization parameter used for the quantization process may be different between the base layer and the enhancement layer, and information regarding the quantization parameter of each layer may be included in the encoded stream of the moving image. In the enhancement layer, the difference between the pre-quantized picture input to the enhancement layer and the dequantized reconstructed picture of the base layer is taken, so even if the quantization parameter differs between the base layer and the enhancement layer, the enhancement layer It does not affect the layer encoding process. Therefore, it is possible to optimize the code amount by changing the quantization parameter independently for each layer.

前記拡張レイヤにおいて、前記拡張レイヤに入力されるピクチャと前記基本レイヤにおける再構築ピクチャのレイヤ間での差分を量子化することなく、符号化してもよい。拡張レイヤでは量子化処理を省略することで符号化処理の高速化を図ることができ、また符号化装置の回路規模を小さくすることができる。   In the enhancement layer, encoding may be performed without quantizing a difference between a layer of a picture input to the enhancement layer and a reconstructed picture in the base layer. By omitting the quantization process in the enhancement layer, the speed of the encoding process can be increased, and the circuit scale of the encoding apparatus can be reduced.

前記動画像の符号化ストリーム内で前記拡張レイヤに割り当てるビット数を動的に調整し、前記拡張レイヤに割り当てられたビット数に関する情報を前記符号化ストリームに含めてもよい。これにより、必要に応じてピクセル深度を増減することができるため、符号化効率が良くなるとともに、必要に応じて柔軟に画質を調整することができる。ピクセル深度を動的に変更する領域の単位は、フレーム、スライス、マクロブロック、ROI(Region Of Interest)領域のいずれであってもよい。画像内の領域を選択してピクセル深度を変えることができる。   The number of bits allocated to the enhancement layer in the encoded stream of the moving image may be dynamically adjusted, and information regarding the number of bits allocated to the enhancement layer may be included in the encoded stream. As a result, the pixel depth can be increased or decreased as necessary, so that the coding efficiency is improved and the image quality can be adjusted flexibly as necessary. The unit of the region for dynamically changing the pixel depth may be any of a frame, a slice, a macro block, and a region of interest (ROI) region. A region in the image can be selected to change the pixel depth.

ピクセル深度の変更を動き予測の基準となるピクチャ以外のピクチャにおいて行ってもよい。拡張レイヤでは、拡張レイヤの入力ピクチャと基本レイヤの再構築ピクチャの差分をとって符号化するため、拡張レイヤの符号化データには動き予測による時間方向の依存性がない。そのため、動画像の動き予測の基準となるピクチャを待たなくても、任意のピクチャで拡張レイヤの割り当てビット数を調整し、ピクセル深度を変更することが可能である。   The pixel depth may be changed in a picture other than a picture that is a reference for motion prediction. In the enhancement layer, encoding is performed by taking the difference between the input picture of the enhancement layer and the reconstructed picture of the base layer, so that the encoded data of the enhancement layer has no temporal direction dependency due to motion prediction. Therefore, the pixel depth can be changed by adjusting the number of bits assigned to the enhancement layer in an arbitrary picture without waiting for a picture that is a reference for motion prediction of a moving image.

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。   It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.

本発明によれば、異なるピクセル深度をもつ動画像を効率的に階層符号化することができる。   According to the present invention, moving images having different pixel depths can be efficiently hierarchically encoded.

図1は、実施の形態に係る符号化装置200の構成図である。これらの構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされた画像符号化機能のあるプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。   FIG. 1 is a configuration diagram of an encoding apparatus 200 according to an embodiment. These configurations can be realized in hardware by a CPU, memory, or other LSI of an arbitrary computer, and in software, it is realized by a program having an image encoding function loaded in the memory. Here, functional blocks realized by the cooperation are depicted. Therefore, those skilled in the art will understand that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof.

本実施の形態の符号化装置200は、次世代画像圧縮技術であるSVC(Scalable Video Coding)に準拠して、動画像にピクセル深度(pixel depth)スケーラビリティをもたせて符号化する「スケーラブル符号化」を行う。ピクセル深度(pixel depth)スケーラビリティは、1ピクセルにもたせる色や輝度などのピクセル値のビット数に関するスケーラビリティのことであり、狭義の意味でカラー深度(color depth)スケーラビリティと呼ばれることもある。   The encoding apparatus 200 according to the present embodiment performs “scalable encoding” in which a moving image is encoded with pixel depth scalability in accordance with SVC (Scalable Video Coding), which is a next-generation image compression technology. I do. Pixel depth scalability refers to scalability related to the number of bits of a pixel value, such as color or luminance, that can be given to one pixel, and is sometimes called color depth scalability in a narrow sense.

符号化装置200は、動画像にピクセル深度スケーラビリティ以外に空間(spatial)スケーラビリティ、時間(temporal)スケーラビリティ、SNR(signal to noise ratio)スケーラビリティなどをもたせて符号化してもよい。   The encoding apparatus 200 may encode a moving image with spatial scalability, temporal scalability, SNR (signal to noise ratio) scalability, and the like in addition to pixel depth scalability.

SVCでは、スケーラビリティを階層符号化により実現しており、ピクセル深度の異なる画像データをレイヤに分けて符号化し、ピクセル深度がそれぞれ異なる複数のレイヤからなる符号化ストリームを生成する。このようにしてスケーラブル階層符号化された動画像は、任意のピクセル深度を選択して復号することができるというスケーラビリティをもつ。たとえば下位層の符号化データだけを復号すると、ピクセル深度が浅い、すなわち色数の少ない動画像が再生され、上位層の符号化データを含めて復号すると、ピクセル深度が深い、すなわち色数の多い動画像が再生される。   In SVC, scalability is realized by hierarchical encoding, and image data having different pixel depths are encoded in layers, and an encoded stream including a plurality of layers having different pixel depths is generated. A moving image that is scalable hierarchically encoded in this way has scalability that an arbitrary pixel depth can be selected and decoded. For example, when only the lower layer encoded data is decoded, a moving image with a small pixel depth, that is, a small number of colors is reproduced, and when decoding including the upper layer encoded data is performed, the pixel depth is deep, that is, the number of colors is large. A moving image is played back.

符号化装置200は、基本レイヤの符号化データを生成する基本レイヤ符号化部100と、第1拡張レイヤの符号化データを生成する第1拡張レイヤ符号化部110と、第2拡張レイヤの符号化データを生成する第2拡張レイヤ符号化部120とをもち、基本レイヤ、第1拡張レイヤ、第2拡張レイヤの順に段階的にピクセル深度を深くして入力画像を符号化する。第1拡張レイヤでは基本レイヤの画像データとの差分が符号化され、第2拡張レイヤでは第1拡張レイヤの画像データとの差分が符号化される。   The encoding apparatus 200 includes a base layer encoding unit 100 that generates encoded data of the base layer, a first enhancement layer encoding unit 110 that generates encoded data of the first enhancement layer, and a code of the second enhancement layer A second enhancement layer encoding unit 120 that generates encoded data, and encodes an input image by gradually increasing the pixel depth in the order of the base layer, the first enhancement layer, and the second enhancement layer. In the first enhancement layer, the difference from the image data of the base layer is encoded, and in the second enhancement layer, the difference from the image data of the first enhancement layer is encoded.

レイヤによってピクセル深度を異ならせるため、入力画像の全ビットプレーンの内、最上位ビットから数えて異なるビット数分のビットプレーン群を取り出して各レイヤに割り当てる。基本レイヤに割り当てられるビット数を「基本ビット数」、第1拡張レイヤに割り当てられるビット数を「第1拡張ビット数」、第2拡張レイヤに割り当てられるビット数を「第2拡張ビット数」と呼ぶ。基本ビット数、第1拡張ビット数、第2拡張ビット数の順にビット数が大きくなり、第2拡張レイヤが最上位レイヤであるため、第2拡張ビット数は画素のビット長に等しい。   In order to vary the pixel depth depending on the layer, a bit plane group corresponding to a different number of bits counted from the most significant bit out of all bit planes of the input image is extracted and assigned to each layer. The number of bits assigned to the base layer is “basic bit number”, the number of bits assigned to the first enhancement layer is “first extension bit number”, and the number of bits assigned to the second enhancement layer is “second extension bit number”. Call. Since the number of bits increases in the order of the number of basic bits, the number of first extension bits, and the number of second extension bits, and the second extension layer is the highest layer, the second extension bit number is equal to the bit length of the pixel.

基本レイヤ用の上位ビット取得部150は、入力画像の基本ビット数分の上位ビットプレーンを取得し、基本レイヤ符号化部100の入力として与える。第1拡張レイヤ用の上位ビット取得部152は、入力画像の第1拡張ビット数分の上位ビットプレーンを取得し、第1拡張レイヤ符号化部110の入力として与える。第2拡張レイヤ符号化部120には、入力画像の全ビットプレーンが入力される。   The upper bit acquisition unit 150 for the base layer acquires upper bit planes corresponding to the number of basic bits of the input image, and provides them as an input to the base layer encoding unit 100. The upper bit acquisition unit 152 for the first enhancement layer acquires upper bit planes corresponding to the number of first enhancement bits of the input image, and provides it as an input to the first enhancement layer encoding unit 110. All bit planes of the input image are input to the second enhancement layer encoding unit 120.

一例として、10ビットのピクセル深度をもつ入力画像について、上位8ビットの画像データが基本レイヤ符号化部100に入力され、上位9ビットの画像データが第1拡張レイヤ符号化部110に入力され、全10ビットの画像データが第2拡張レイヤ符号化部120に入力される。   As an example, for an input image having a 10-bit pixel depth, upper 8 bits of image data are input to the base layer encoding unit 100, and upper 9 bits of image data are input to the first enhancement layer encoding unit 110, All 10-bit image data is input to the second enhancement layer encoding unit 120.

基本レイヤ符号化部100は、基本ビット数の画像データに対して動き補償、直交変換、および量子化の各処理を施す。第1拡張レイヤ符号化部110、第2拡張レイヤ符号化部120は、それぞれ第1拡張ビット数の画像データ、第2拡張ビット数すなわち全ビット数の画像データに対して直交変換および量子化の各処理を施す。   The base layer encoding unit 100 performs motion compensation, orthogonal transform, and quantization processes on image data having the number of base bits. The first enhancement layer encoding unit 110 and the second enhancement layer encoding unit 120 respectively perform orthogonal transformation and quantization on image data having a first extension bit number and image data having a second extension bit number, that is, all bit numbers. Each process is performed.

第1拡張レイヤ符号化部110は、第1拡張レイヤの入力画像と基本レイヤの再構築画像の差分を符号化し、第2拡張レイヤ符号化部120は、第2拡張レイヤの入力画像と第1拡張レイヤの再構築画像の差分を符号化する。   The first enhancement layer encoding unit 110 encodes the difference between the input image of the first enhancement layer and the reconstructed image of the base layer, and the second enhancement layer encoding unit 120 includes the input image of the second enhancement layer and the first The difference of the reconstructed image of the enhancement layer is encoded.

基本レイヤ符号化部100は、動き予測による差分画像に対して直交変換と量子化を施して得られる画像データを可変長符号化して基本レイヤの符号化データを生成し、ストリーム結合部160に供給する。   The base layer encoding unit 100 generates base layer encoded data by variable-length encoding image data obtained by performing orthogonal transformation and quantization on a difference image obtained by motion prediction, and supplies the encoded data to the stream combining unit 160 To do.

基本レイヤ符号化部100は、動き予測のために再構築画像を生成する。第1拡張レイヤ用のビットシフト部102は、基本レイヤの再構築画像を左ビットシフトした上で、第1拡張レイヤ符号化部110に与える。ここで、第1拡張レイヤ用のビットシフト部102による左ビットシフト量は、基本レイヤの画像のビット数と第1拡張レイヤの画像のビット数の差であり、ビットシフト部102による左ビットシフトにより、基本レイヤの画像データの下位ビットに0が補填され、基本レイヤの画像データと第1拡張レイヤの画像データのビット数が揃い、差分をとることが可能となる。   The base layer encoding unit 100 generates a reconstructed image for motion prediction. The first enhancement layer bit shift section 102 shifts the reconstructed image of the base layer to the left bit, and then gives it to the first enhancement layer encoding section 110. Here, the left bit shift amount by the bit shift unit 102 for the first enhancement layer is the difference between the number of bits of the base layer image and the number of bits of the first enhancement layer image, and the left bit shift by the bit shift unit 102 Thus, 0 is filled in the lower bits of the image data of the base layer, the number of bits of the image data of the base layer and the image data of the first enhancement layer is aligned, and a difference can be taken.

第1拡張レイヤ符号化部110は、第1拡張レイヤの入力画像とビットシフト部102により左ビットシフトされた基本レイヤの再構築画像の差分をとった後、差分データを直交変換、量子化した上で、可変長符号化し、第1拡張レイヤの符号化データを生成する。第1拡張レイヤ符号化部110は、第1拡張レイヤの符号化データをストリーム結合部160に供給する。   The first enhancement layer encoding unit 110 obtains a difference between the input image of the first enhancement layer and the reconstructed image of the base layer that has been bit-shifted by the bit shift unit 102, and then orthogonally transforms and quantizes the difference data. Above, variable-length encoding is performed to generate encoded data of the first enhancement layer. The first enhancement layer encoding unit 110 supplies the encoded data of the first enhancement layer to the stream combining unit 160.

第1拡張レイヤ符号化部110は、逆量子化および逆直交変換を行って第1拡張レイヤの再構築画像を生成する。第2拡張レイヤ用のビットシフト部112は、第1拡張レイヤの再構築画像を左ビットシフトした上で、第2拡張レイヤ符号化部120に与える。ここで、第2拡張レイヤ用のビットシフト部112による左ビットシフト量は、第1拡張レイヤの画像のビット数と第2拡張レイヤの画像のビット数の差であり、ビットシフト部112による左ビットシフトにより、第1拡張レイヤの画像データと第2拡張レイヤの画像データのビット数が揃う。   The first enhancement layer encoding unit 110 performs inverse quantization and inverse orthogonal transform to generate a reconstructed image of the first enhancement layer. The second enhancement layer bit shift section 112 shifts the reconstructed image of the first enhancement layer to the second enhancement layer encoding section 120 after shifting the left bit. Here, the left bit shift amount by the bit shift unit 112 for the second enhancement layer is the difference between the number of bits of the first enhancement layer image and the number of bits of the second enhancement layer image. By the bit shift, the number of bits of the image data of the first enhancement layer and the image data of the second enhancement layer are aligned.

第2拡張レイヤ符号化部120は、第2拡張レイヤの入力画像とビットシフト部112により左ビットシフトされた第1拡張レイヤの再構築画像の差分をとった後、差分データを直交変換、量子化した上で、可変長符号化し、第2拡張レイヤの符号化データを生成する。第2拡張レイヤ符号化部120は、第2拡張レイヤの符号化データをストリーム結合部160に供給する。   The second enhancement layer encoding unit 120 obtains a difference between the input image of the second enhancement layer and the reconstructed image of the first enhancement layer left-bit shifted by the bit shift unit 112, and then orthogonally transforms the difference data, Then, variable length coding is performed to generate encoded data of the second enhancement layer. The second enhancement layer encoding unit 120 supplies the encoded data of the second enhancement layer to the stream combining unit 160.

ストリーム結合部160は、基本レイヤの符号化データ、第1拡張レイヤの符号化データ、および第2拡張レイヤの符号化データを結合して動画像の符号化ストリームを出力する。   The stream combining unit 160 combines the encoded data of the base layer, the encoded data of the first enhancement layer, and the encoded data of the second enhancement layer, and outputs a moving image encoded stream.

図1では、基本レイヤ、第1拡張レイヤ、および第2拡張レイヤの3つのレイヤを符号化する場合を例に挙げて構成と動作を説明するが、拡張レイヤの個数は任意である。また、拡張レイヤに割り当てられるビット数も任意であり、上位レイヤに進むにつれて1ビットずつビット数を増やしてもよく、割り当てビット数の増え方が一定でなくてもよい。たとえば、拡張レイヤを2つ設けて、12ビットのピクセル深度をもつ入力画像について、上位8ビットの画像データが基本レイヤで符号化され、上位9ビットの画像データが第1拡張レイヤで符号化され、全12ビットの画像データが第2拡張レイヤで符号化されてもよい。   In FIG. 1, the configuration and operation will be described by taking as an example the case of encoding three layers of the base layer, the first enhancement layer, and the second enhancement layer, but the number of enhancement layers is arbitrary. Also, the number of bits assigned to the enhancement layer is arbitrary, and the number of bits may be increased bit by bit as the process proceeds to the upper layer, and the way of increasing the number of assigned bits may not be constant. For example, for an input image having two enhancement layers and having a 12-bit pixel depth, upper 8 bits of image data are encoded in the base layer, and upper 9 bits of image data are encoded in the first enhancement layer. All 12-bit image data may be encoded by the second enhancement layer.

次に基本レイヤ符号化部100の構成と動作を詳しく説明する。   Next, the configuration and operation of base layer encoding section 100 will be described in detail.

本実施の形態の基本レイヤ符号化部100は、国際標準化機関であるISO(International Organization for Standardization)/IEC(International Electrotechnical Commission)によって標準化されたMPEG(Moving Picture Experts Group)シリーズの規格(MPEG−1、MPEG−2およびMPEG−4)、電気通信に関する国際標準機関であるITU−T(International Telecommunication Union-Telecommunication Standardization Sector)によって標準化されたH.26xシリーズの規格(H.261、H.262およびH.263)、もしくは両方の標準化機関によって合同で標準化された最新の動画像圧縮符号化標準規格であるH.264/AVC(両機関における正式勧告名はそれぞれMPEG-4 Part 10: Advanced Video CodingとH.264)に準拠して動画像の符号化を行う。   The base layer coding unit 100 according to the present embodiment is a moving picture expert group (MPEG-1) standard (MPEG-1) standardized by the International Organization for Standardization (ISO) / International Electrotechnical Commission (IEC). , MPEG-2 and MPEG-4), H.264 standardized by ITU-T (International Telecommunication Union-Telecommunication Standardization Sector) which is an international standard organization for telecommunications. 26x series standards (H.261, H.262 and H.263), or H.264, the latest video compression coding standard standardized jointly by both standards organizations. H.264 / AVC (official recommendation names in both organizations are MPEG-4 Part 10: Advanced Video Coding and H.264 respectively).

MPEGシリーズの規格では、フレーム内符号化を行うフレームをI(Intra)フレーム、過去のフレームを参照フレームとして順方向のフレーム間予測符号化を行うフレームをP(Predictive)フレーム、過去と未来のフレームを参照フレームとして双方向のフレーム間予測符号化を行うフレームをBフレームという。   In the MPEG series standards, I (Intra) frames are used for intra-frame coding, P (Predictive) frames are used for inter-frame predictive coding with a past frame as a reference frame, and past and future frames. A frame that performs bidirectional inter-frame predictive coding using a frame as a reference frame is called a B frame.

一方、H.264/AVCでは、参照フレームとして利用できるフレームは、時間の先後を問わず、過去の2枚のフレームを参照フレームとしてもよく、未来の2枚のフレームを参照フレームとしてもよい。また、参照フレームとして利用できるフレームの枚数も問わず、3枚以上のフレームを参照フレームとして用いることもできる。したがって、MPEG−1/2/4では、Bフレームは双方向予測(Bi-directional prediction)フレームのことを指していたが、H.264/AVCでは、Bフレームは、参照フレームの時間の先後は問わないため、双予測(Bi-predictive prediction)フレームのことを指すことに留意する。   On the other hand, H. In H.264 / AVC, a frame that can be used as a reference frame may be a past two frames as a reference frame or a future two frames as a reference frame regardless of the time. Further, three or more frames can be used as reference frames regardless of the number of frames that can be used as reference frames. Therefore, in MPEG-1 / 2/4, the B frame refers to a Bi-directional prediction frame. Note that in H.264 / AVC, the B frame refers to a bi-predictive prediction frame, since the time of the reference frame does not matter.

なお、実施の形態では、符号化の単位としてフレームを例に挙げて説明するが、符号化の単位はフィールドであってもよい。また、符号化の単位はMPEG−4におけるVOPであってもよい。   In the embodiment, a frame is used as an example of the encoding unit, but the encoding unit may be a field. The unit of encoding may be a VOP in MPEG-4.

基本レイヤ符号化部100は、フレーム単位で動画像の入力を受け取り、動画像を符号化し、符号化ストリームを出力する。基本レイヤ符号化部100に入力される動画像のフレームは、上位ビット取得部150により上位ビットが取り出されたものであり、最下位ビットから数えた所定のビット数はあらかじめ落とされている。   The base layer encoding unit 100 receives a moving image input in units of frames, encodes the moving image, and outputs an encoded stream. In the moving image frame input to the base layer encoding unit 100, the upper bits are extracted by the upper bit acquisition unit 150, and a predetermined number of bits counted from the least significant bit is dropped in advance.

ブロック生成部10aは、入力された動画像のフレームをマクロブロックに分割する。フレームの左上から右下方向の順にマクロブロックが形成される。ブロック生成部10aは生成したマクロブロックを差分器12aと動き予測部60aに供給する。   The block generation unit 10a divides the input moving image frame into macro blocks. Macroblocks are formed in order from the upper left to the lower right of the frame. The block generation unit 10a supplies the generated macro block to the differentiator 12a and the motion prediction unit 60a.

差分器12aは、ブロック生成部10aから供給されるフレームがIフレームであれば、そのままDCT部20aに出力するが、PフレームまたはBフレームであれば、動き予測部60aから供給される予測フレームとの差分を計算してDCT部20aに供給する。   If the frame supplied from the block generation unit 10a is an I frame, the differentiator 12a outputs it to the DCT unit 20a as it is. However, if the frame is a P frame or a B frame, the difference unit 12a and the prediction frame supplied from the motion prediction unit 60a Is calculated and supplied to the DCT unit 20a.

動き予測部60aは、フレームバッファ80aに格納されている過去または未来のフレームを参照フレームとして利用し、ブロック生成部10aから入力されたPフレームまたはBフレームのマクロブロック毎に動き補償を行い、動きベクトルと予測フレームを生成する。動き予測部60aは、生成した動きベクトルを可変長符号化部90aに供給し、予測フレームを差分器12aと加算器14aに供給する。   The motion prediction unit 60a uses a past or future frame stored in the frame buffer 80a as a reference frame, performs motion compensation for each macroblock of the P frame or B frame input from the block generation unit 10a, and performs motion compensation. Generate vectors and prediction frames. The motion prediction unit 60a supplies the generated motion vector to the variable length encoding unit 90a, and supplies the prediction frame to the difference unit 12a and the adder 14a.

差分器12aは、ブロック生成部10aから出力される現在の符号化対象フレームと、動き予測部60aから出力される予測フレームとの差分を求め、DCT部20aに出力する。DCT部20aは、差分器12aから与えられた差分フレームを離散コサイン変換(DCT)し、DCT係数を量子化部30aに与える。   The differentiator 12a obtains a difference between the current encoding target frame output from the block generation unit 10a and the prediction frame output from the motion prediction unit 60a, and outputs the difference to the DCT unit 20a. The DCT unit 20a performs a discrete cosine transform (DCT) on the difference frame given from the differentiator 12a, and gives a DCT coefficient to the quantization unit 30a.

量子化部30aは、DCT係数を量子化し、可変長符号化部90aに与える。可変長符号化部90aは、動き予測部60aから与えられた動きベクトルとともに差分フレームの量子化されたDCT係数を可変長符号化し、符号化ストリームを生成する。可変長符号化部90aは、符号化ストリームを生成する際、符号化されたフレームを時間順序に並べ替える処理を行う。   The quantization unit 30a quantizes the DCT coefficient and provides it to the variable length coding unit 90a. The variable length coding unit 90a performs variable length coding on the quantized DCT coefficient of the difference frame together with the motion vector supplied from the motion prediction unit 60a, and generates an encoded stream. When generating the encoded stream, the variable length encoding unit 90a performs a process of rearranging the encoded frames in time order.

量子化部30aは、フレームの量子化されたDCT係数を逆量子化部40aに供給する。逆量子化部40aは、与えられた量子化データを逆量子化し、逆DCT部50aに与え、逆DCT部50aは、与えられた逆量子化データを逆離散コサイン変換する。これにより、符号化されたフレームが復元される。復元されたフレームは加算器14aに入力される。   The quantization unit 30a supplies the quantized DCT coefficient of the frame to the inverse quantization unit 40a. The inverse quantization unit 40a inversely quantizes the given quantized data and gives it to the inverse DCT unit 50a, and the inverse DCT unit 50a performs inverse discrete cosine transform on the given inverse quantized data. Thereby, the encoded frame is restored. The restored frame is input to the adder 14a.

加算器14aは、逆DCT部50aから供給されるフレームがIフレームであれば、そのままフレームバッファ80aに格納する。加算器14aは、逆DCT部50aから供給されるフレームがPフレームまたはBフレームであれば、それは差分フレームであるため、逆DCT部50aから供給された差分フレームと動き予測部60aから供給される予測フレームとを加算することにより、元のフレームを再構築し、フレームバッファ80aに格納する。   If the frame supplied from the inverse DCT unit 50a is an I frame, the adder 14a stores it in the frame buffer 80a as it is. If the frame supplied from the inverse DCT unit 50a is a P frame or a B frame, the adder 14a is a difference frame, and thus is supplied from the difference frame supplied from the inverse DCT unit 50a and the motion prediction unit 60a. By adding the predicted frame, the original frame is reconstructed and stored in the frame buffer 80a.

フレームバッファ80aに格納された再構築フレームは、動き予測部60aによる動き補償の参照フレームとして利用される。   The reconstructed frame stored in the frame buffer 80a is used as a reference frame for motion compensation by the motion prediction unit 60a.

PフレームもしくはBフレームの符号化処理の場合は、上述のように動き予測部60aが動作するが、Iフレームの符号化処理の場合は、動き予測部60aは動作せず、ここでは図示しないが、フレーム内予測が行われる。   In the case of P frame or B frame encoding processing, the motion prediction unit 60a operates as described above. However, in the case of I frame encoding processing, the motion prediction unit 60a does not operate and is not shown here. Intra-frame prediction is performed.

動き予測部60aは、ブロック生成部10aから与えられた符号化対象フレームのマクロブロック(「対象マクロブロック」という)に対して、フレームバッファ80aに格納された再構築フレームを参照フレームとして、参照フレーム内を探索し、対象マクロブロックとの差分が最も小さくなる領域を特定する。これにより、対象マクロブロック毎に符号化対象フレームから参照フレームへの動きを示す動きベクトルが定まる。   The motion prediction unit 60a uses the reconstructed frame stored in the frame buffer 80a as a reference frame for the macroblock (referred to as “target macroblock”) of the encoding target frame given from the block generation unit 10a. A region where the difference from the target macroblock is the smallest is identified. As a result, a motion vector indicating the motion from the encoding target frame to the reference frame is determined for each target macroblock.

第1拡張レイヤ用のビットシフト部102には、基本レイヤ符号化部100の加算器14aから出力される基本レイヤの再構築フレームが入力される。ビットシフト部102は、第1拡張レイヤの画像データのビット数に揃えるために、基本レイヤの再構築フレームのデータを左ビットシフトし、左シフトで空いた下位ビットに0を補填する。ビットシフト部102は、左ビットシフトされた基本レイヤの再構築フレームのデータを第1拡張レイヤ符号化部110に与える。   The base layer reconstructed frame output from the adder 14 a of the base layer encoding unit 100 is input to the first enhancement layer bit shift unit 102. In order to align the number of bits of the image data of the first enhancement layer, the bit shift unit 102 shifts the data of the reconstructed frame of the base layer to the left bit, and fills the lower bits vacated by the left shift with 0. The bit shift unit 102 provides the first enhancement layer encoding unit 110 with the data of the reconstructed frame of the base layer that has been bit-shifted to the left.

次に第1拡張レイヤ符号化部110と第2拡張レイヤ符号化部120の構成と動作を説明するが、基本レイヤ符号化部100と共通する構成については対応する符号を付して説明を省略する。なお、同図では、基本レイヤ符号化部100の各構成の符号には「a」を付し、第1拡張レイヤ符号化部110の各構成の符号には「b」を付し、第2拡張レイヤ符号化部120の各構成の符号には「c」を付すことで区別している。   Next, the configurations and operations of the first enhancement layer encoding unit 110 and the second enhancement layer encoding unit 120 will be described, but the components common to the base layer encoding unit 100 are denoted by the corresponding reference numerals and description thereof is omitted. To do. In the figure, “a” is attached to the code of each component of the base layer encoding unit 100, “b” is attached to the code of each component of the first enhancement layer encoding unit 110, and the second The code of each component of the enhancement layer encoding unit 120 is distinguished by attaching “c”.

第1拡張レイヤ符号化部110について説明する。差分器16bは、第1拡張レイヤ用の上位ビット取得部152から与えられる第1拡張ビット数分の入力フレームと、第1拡張レイヤ用のビットシフト部102から与えられる左ビットシフトされた基本レイヤの再構築フレームとの差分データを求め、DCT部20bに与える。以降、この差分データに対してDCT部20bおよび量子化部30bにより直交変換および量子化が施され、可変長符号化部90bに入力される。可変長符号化部90bは、入力された差分データを可変長符号化して第1拡張レイヤの符号化データを生成し、ストリーム結合部160に与える。   The first enhancement layer encoding unit 110 will be described. The differentiator 16b includes an input frame corresponding to the number of first extension bits provided from the upper bit acquisition unit 152 for the first enhancement layer and a left bit-shifted base layer provided from the bit shift unit 102 for the first enhancement layer. The difference data from the reconstructed frame is obtained and given to the DCT unit 20b. Thereafter, the DCT unit 20b and the quantization unit 30b perform orthogonal transform and quantization on the difference data, and the difference data is input to the variable length coding unit 90b. The variable length encoding unit 90 b performs variable length encoding on the input difference data to generate encoded data of the first enhancement layer, and supplies the encoded data to the stream combining unit 160.

量子化部30bから出力される量子化後の差分データは、逆量子化部40bに入力されて逆量子化され、さらに逆DCT部50bに入力されて逆直交変換され、元の差分データが復元される。加算器18bは、復元された差分データにビットシフト部102から与えられる基本レイヤの再構築フレームのデータを加算することにより、第1拡張レイヤの入力フレームを再構築する。つまり、加算器18bは差分器16bの逆算を行ったことになる。   The quantized difference data output from the quantization unit 30b is input to the inverse quantization unit 40b and inversely quantized, and further input to the inverse DCT unit 50b and subjected to inverse orthogonal transform to restore the original difference data. Is done. The adder 18b reconstructs the input frame of the first enhancement layer by adding the data of the reconstructed frame of the base layer given from the bit shift unit 102 to the restored difference data. That is, the adder 18b performs the reverse calculation of the difference unit 16b.

第2拡張レイヤ用のビットシフト部112には、第1拡張レイヤ符号化部110の加算器18bから出力される第1拡張レイヤの再構築フレームが入力される。ビットシフト部112は、第2拡張レイヤの画像データのビット数に揃えるために、第1拡張レイヤの再構築フレームのデータを左ビットシフトし、左シフトで空いた下位ビットに0を補填する。ビットシフト部112は、左ビットシフトされた第1拡張レイヤの再構築フレームのデータを第2拡張レイヤ符号化部120に与える。   The second enhancement layer bit shift unit 112 receives the first enhancement layer reconstructed frame output from the adder 18 b of the first enhancement layer encoding unit 110. The bit shift unit 112 shifts the data of the reconstructed frame of the first enhancement layer to the left bit in order to match the number of bits of the image data of the second enhancement layer, and fills in the lower bits vacated by the left shift. The bit shift unit 112 provides the second enhancement layer encoding unit 120 with the data of the reconstructed frame of the first enhancement layer that has been bit-shifted to the left.

第2拡張レイヤ符号化部120について説明する。差分器16cは、全ビット数分の入力フレームと第2拡張レイヤ用のビットシフト部112から与えられる左ビットシフトされた第1拡張レイヤの再構築フレームとの差分データを求め、DCT部20cに与える。以降、この差分データに対してDCT部20cおよび量子化部30cにより直交変換および量子化が施され、可変長符号化部90cに入力される。可変長符号化部90cは、入力された差分データを可変長符号化して第2拡張レイヤの符号化データを生成し、ストリーム結合部160に与える。   The second enhancement layer encoding unit 120 will be described. The differentiator 16c obtains difference data between the input frame for the total number of bits and the reconstructed frame of the first enhancement layer shifted from the left enhancement bit provided from the second enhancement layer bit shift unit 112, and sends it to the DCT unit 20c. give. Thereafter, the DCT unit 20c and the quantization unit 30c perform orthogonal transformation and quantization on the difference data, and the difference data is input to the variable length coding unit 90c. The variable length encoding unit 90 c performs variable length encoding on the input difference data to generate encoded data of the second enhancement layer, and supplies the encoded data to the stream combining unit 160.

図1では、第1拡張レイヤおよび第2拡張レイヤにおいて直交変換および量子化を行っているが、直交変換および量子化の少なくとも一方を省略してもよい。第1拡張レイヤおよび第2拡張レイヤでは各レイヤの入力フレームと1つ下のレイヤの再構築フレームの差分を符号化するため、差分データのビット数は少なくなる。たとえば、基本レイヤが8ビット、第1拡張レイヤが9ビット、第2拡張レイヤが10ビットである場合、レイヤ間の差分データは1ビットの情報しかない。よって、直交変換や量子化をしなくても符号化効率がよく、符号量を小さく抑えることができる。   In FIG. 1, orthogonal transformation and quantization are performed in the first enhancement layer and the second enhancement layer, but at least one of orthogonal transformation and quantization may be omitted. Since the first enhancement layer and the second enhancement layer encode the difference between the input frame of each layer and the reconstructed frame of the next lower layer, the number of bits of the difference data is reduced. For example, when the base layer is 8 bits, the first enhancement layer is 9 bits, and the second enhancement layer is 10 bits, the difference data between layers has only 1-bit information. Therefore, encoding efficiency is good and the amount of codes can be kept small without performing orthogonal transform or quantization.

また、第1拡張レイヤおよび第2拡張レイヤにおける量子化処理における量子化スケールなどの量子化パラメータは、基本レイヤの量子化処理における量子化パラメータとは異なる値であってもかまわない。この場合、各レイヤの量子化パラメータに関する情報を動画ストリームのヘッダなどに含める。各レイヤで量子化パラメータを変えることでレイヤ毎に独立して符号量を制御することができる。   Further, the quantization parameter such as the quantization scale in the quantization process in the first enhancement layer and the second enhancement layer may be a value different from the quantization parameter in the quantization process in the base layer. In this case, information on the quantization parameter of each layer is included in the header of the video stream. By changing the quantization parameter in each layer, the code amount can be controlled independently for each layer.

また、各レイヤにおいて可変長符号化を行って各レイヤの符号化データを生成したが、可変長符号化以外の符号化を行ってもよい。   Moreover, although variable length encoding was performed in each layer and the encoding data of each layer were produced | generated, you may perform encoding other than variable length encoding.

上記の説明では、動画ストリームのピクセル深度は一定であるとしたが、ピクセル深度を動的に変更できるようにしてもよい。その場合、ピクセル深度の増減に伴って、拡張レイヤに割り当てられるビット数を同一ストリーム内で可変にする。たとえば、基本レイヤに8ビットを割り当て、拡張レイヤには2〜4ビットの間で割り当てるビット数を変える。拡張レイヤに割り当てられたビット数の情報は動画ストリームのヘッダなどに含める。これにより、1つの動画ストリーム内でもフレーム単位もしくはフレームの集合単位で色数を増減させることができる。たとえば、シーンに応じて色数を増減したり、重要でないフレームでは色数を落とすことができる。   In the above description, the pixel depth of the moving image stream is constant, but the pixel depth may be changed dynamically. In that case, the number of bits allocated to the enhancement layer is made variable in the same stream as the pixel depth increases or decreases. For example, 8 bits are allocated to the base layer, and the number of bits allocated to 2 to 4 bits is changed to the enhancement layer. Information on the number of bits allocated to the enhancement layer is included in the header of the video stream. As a result, the number of colors can be increased or decreased in units of frames or in units of frames within a single moving image stream. For example, the number of colors can be increased or decreased according to the scene, or the number of colors can be decreased in an unimportant frame.

なお、SVC非対応の復号装置でも基本レイヤのみで動画像を復号できるように、基本レイヤに割り当てられるビット数は可変にせず、固定にしておくことが好ましい。また、本実施の形態では、拡張レイヤにおいて動き予測を行わないため、拡張レイヤの符号化データには時間軸方向の依存関係がない。拡張レイヤのビット割り当ては、フレーム毎に可変にしても拡張レイヤの符号化には影響しない。したがって、符号化ストリーム内でピクセル深度を変更可能なタイミングは、Iフレームのような基準フレームの位置に限らず、任意のフレームの位置であってもよいことに留意する。   It should be noted that the number of bits allocated to the base layer is preferably not fixed but fixed, so that a moving image can be decoded only by the base layer even in a non-SVC decoding device. In this embodiment, since motion prediction is not performed in the enhancement layer, the encoded data in the enhancement layer has no dependency in the time axis direction. Even if the enhancement layer bit allocation is variable for each frame, the enhancement layer coding is not affected. Therefore, it should be noted that the timing at which the pixel depth can be changed in the encoded stream is not limited to the position of a reference frame such as an I frame, and may be the position of an arbitrary frame.

本実施の形態の符号化装置200によれば、動画像にピクセル深度スケーラビリティをもたせて階層的に符号化することができる。よって、復号の際、ピクセル深度の異なる動画を選択して再生することができる。   According to the encoding apparatus 200 of the present embodiment, a moving image can be encoded hierarchically with pixel depth scalability. Therefore, at the time of decoding, moving images having different pixel depths can be selected and reproduced.

また、符号化装置200によれば、拡張レイヤにおいて、当該レイヤの入力フレームと一つ下のレイヤの再構築画フレーム差分をとって符号化する。レイヤ間では画像のピクセル深度の違いしかないため、レイヤ間で差分をとることにより、拡張レイヤの符号化データの符号量は極めて小さくなる。   Also, according to the encoding apparatus 200, in the enhancement layer, the difference between the input frame of the layer and the reconstructed image frame difference of the layer immediately below is taken and encoded. Since there is only a difference in the pixel depth of the image between layers, by taking the difference between layers, the code amount of the encoded data of the enhancement layer becomes extremely small.

また、拡張レイヤにおいては動き予測符号化を行わないため、拡張レイヤの符号化データには時間方向の依存性がなく、任意のフレームにおいてピクセル深度を変更することができる。   In addition, since motion prediction encoding is not performed in the enhancement layer, the encoded data of the enhancement layer has no dependency in the time direction, and the pixel depth can be changed in an arbitrary frame.

図2は、実施の形態に係る復号装置500の構成図である。これらの機能ブロックもハードウエアのみ、ソフトウエアのみ、またはそれらの組み合わせによっていろいろな形で実現することができる。   FIG. 2 is a configuration diagram of the decoding device 500 according to the embodiment. These functional blocks can also be realized in various forms by hardware only, software only, or a combination thereof.

復号装置500は、SVCに準拠して、動画像にピクセル深度スケーラビリティをもたせて復号する「スケーラブル復号」を行う。復号装置500には、図1の符号化装置200によりピクセル深度スケーラビリティをもたせて階層符号化された動画像の符号化ストリームが入力され、入力された符号化ストリームから基本レイヤと拡張レイヤのストリームを取り出して復号する。   The decoding device 500 performs “scalable decoding” in which a moving image is decoded with pixel depth scalability in accordance with SVC. The decoding apparatus 500 receives an encoded stream of a moving image that has been hierarchically encoded with pixel depth scalability by the encoding apparatus 200 of FIG. 1, and generates a base layer and an enhancement layer stream from the input encoded stream. Take out and decrypt.

復号装置500は、図1の符号化装置200に対応して、基本レイヤ、第1拡張レイヤ、および第2拡張レイヤの3つのレイヤで動画像を復号する構成であり、それぞれのレイヤを復号するための基本レイヤ復号部400、第1拡張レイヤ復号部410、および第2拡張レイヤ復号部420を含むが、拡張レイヤの個数は任意である。なお、SVC非対応の復号装置500は、基本レイヤ復号部400のみを含み、第1拡張レイヤまでに対応可能な復号装置500は、基本レイヤ復号部400と第1拡張レイヤ復号部410を含む。   Corresponding to the encoding device 200 of FIG. 1, the decoding device 500 is configured to decode a moving image in three layers, a base layer, a first enhancement layer, and a second enhancement layer, and decodes each layer. The base layer decoding unit 400, the first enhancement layer decoding unit 410, and the second enhancement layer decoding unit 420 are included, but the number of enhancement layers is arbitrary. Note that the non-SVC compatible decoding device 500 includes only the base layer decoding unit 400, and the decoding device 500 capable of supporting up to the first enhancement layer includes the base layer decoding unit 400 and the first enhancement layer decoding unit 410.

復号装置500が動画像の符号化ストリームの入力を受け取ると、基本レイヤ復号部400は基本レイヤの符号化データを復号する。基本レイヤの画像を再生する場合は、基本レイヤ復号部400が復号した画像を最終出力画像としてそのまま出力する。   When decoding apparatus 500 receives an input of an encoded video stream, base layer decoding section 400 decodes base layer encoded data. When the base layer image is reproduced, the image decoded by the base layer decoding unit 400 is output as it is as the final output image.

第1拡張レイヤの画像を再生する場合、第1拡張レイヤ復号部410が動作し、第1拡張レイヤの符号化データを復号する。第1拡張レイヤ復号部410は、基本レイヤの出力画像を第1拡張レイヤのビット数に合うようにビットシフトした上で、第1拡張レイヤの復号データと足し合わせ、第1拡張レイヤの最終出力画像を生成し、出力する。   When playing back an image of the first enhancement layer, the first enhancement layer decoding unit 410 operates and decodes the encoded data of the first enhancement layer. The first enhancement layer decoding unit 410 bit-shifts the output image of the base layer to match the number of bits of the first enhancement layer, and then adds the decoded data of the first enhancement layer to obtain the final output of the first enhancement layer Generate and output an image.

第2拡張レイヤの画像を再生する場合、さらに第2拡張レイヤ復号部420が動作し、第2拡張レイヤの符号化データを復号する。第2拡張レイヤ復号部420は、第1拡張レイヤの出力画像を第2拡張レイヤのビット数に合うようにビットシフトした上で、第2拡張レイヤの復号データと足し合わせ、第2拡張レイヤの最終出力画像を生成し、出力する。   When reproducing the second enhancement layer image, the second enhancement layer decoding unit 420 further operates to decode the encoded data of the second enhancement layer. The second enhancement layer decoding unit 420 bit-shifts the output image of the first enhancement layer so as to match the number of bits of the second enhancement layer, and then adds the decoded data of the second enhancement layer to the second enhancement layer. Generate and output the final output image.

同図を参照しながら、復号装置500の構成と動作を詳しく説明する。ストリーム分離部430は、入力された符号化ストリームから基本レイヤ、第1拡張レイヤ、および第2拡張レイヤの符号化データを分離して取り出し、基本レイヤの符号化データは基本レイヤ復号部400の可変長復号部310aに、第1拡張レイヤの符号化データは第1拡張レイヤ復号部410の可変長復号部310bに、第2拡張レイヤの符号化データは第2拡張レイヤ復号部420の可変長復号部310cに与える。   The configuration and operation of the decoding device 500 will be described in detail with reference to FIG. The stream separation unit 430 separates and extracts the encoded data of the base layer, the first enhancement layer, and the second enhancement layer from the input encoded stream, and the encoded data of the base layer is variable by the base layer decoding unit 400. The encoded data of the first enhancement layer is transmitted to the variable length decoding unit 310b of the first enhancement layer decoding unit 410, and the encoded data of the second enhancement layer is converted to the variable length decoding of the second enhancement layer decoding unit 420. To part 310c.

基本レイヤ復号部400について説明する。可変長復号部310aは、基本レイヤの符号化ストリームを可変長復号し、復号された画像データを逆量子化部320aに供給し、動きベクトル情報を動き補償部360aに供給する。   The base layer decoding unit 400 will be described. The variable length decoding unit 310a performs variable length decoding on the base layer encoded stream, supplies the decoded image data to the inverse quantization unit 320a, and supplies motion vector information to the motion compensation unit 360a.

逆量子化部320aは、可変長復号部310aにより復号された画像データを逆量子化し、逆DCT部330aに供給する。逆量子化部320aにより逆量子化された画像データはDCT係数である。逆DCT部330aは、逆量子化部320aにより逆量子化されたDCT係数を逆離散コサイン変換(IDCT)することにより、元の画像データを復元する。逆DCT部330aにより復元された画像データは、加算器312aに供給される。   The inverse quantization unit 320a inversely quantizes the image data decoded by the variable length decoding unit 310a and supplies the image data to the inverse DCT unit 330a. The image data inversely quantized by the inverse quantization unit 320a is a DCT coefficient. The inverse DCT unit 330a restores the original image data by performing inverse discrete cosine transform (IDCT) on the DCT coefficient inversely quantized by the inverse quantization unit 320a. The image data restored by the inverse DCT unit 330a is supplied to the adder 312a.

加算器312aは、逆DCT部330aから供給された画像データが、Iフレームである場合、そのIフレームの画像データをそのまま出力するとともに、PフレームやBフレームの予測フレームを生成するための参照フレームとして、フレームバッファ380aに格納する。   When the image data supplied from the inverse DCT unit 330a is an I frame, the adder 312a outputs the I frame image data as it is, and also generates a reference frame for generating a P frame or a B frame prediction frame. Is stored in the frame buffer 380a.

加算器312aは、逆DCT部330aから供給された画像データが、Pフレームである場合、その画像データは差分フレームであるから、逆DCT部330aから供給された差分フレームと動き補償部360aから供給される予測フレームを加算することにより、元の画像データを復元し、出力する。   When the image data supplied from the inverse DCT unit 330a is a P frame, the adder 312a supplies the difference frame supplied from the inverse DCT unit 330a and the motion compensation unit 360a because the image data is a difference frame. By adding the predicted frames, the original image data is restored and output.

動き補償部360aは、可変長復号部310aから供給される動きベクトル情報と、フレームバッファ380aに格納された参照フレームを用いて、PフレームまたはBフレームの予測フレームを生成し、加算器312aに供給する。   The motion compensation unit 360a generates a predicted frame of P frame or B frame using the motion vector information supplied from the variable length decoding unit 310a and the reference frame stored in the frame buffer 380a, and supplies the predicted frame to the adder 312a. To do.

動き補償部360aは、可変長復号部310aから復号対象フレームの動きベクトルを取得し、復号対象フレームの対象マクロブロックに対して、動きベクトルが参照する領域を特定し、その領域の画素データを用いて、動き補償された予測フレームを生成し、加算器312aに与える。   The motion compensation unit 360a acquires the motion vector of the decoding target frame from the variable length decoding unit 310a, specifies the region referred to by the motion vector for the target macroblock of the decoding target frame, and uses the pixel data of the region Thus, a motion-compensated prediction frame is generated and provided to the adder 312a.

第1拡張レイヤ用のビットシフト部402は、基本レイヤ復号部400の加算器312aから出力される基本レイヤの出力画像を第1拡張レイヤの出力画像のビット数に合うように左ビットシフトし、左ビットシフトされた基本レイヤの出力画像を第1拡張レイヤ復号部410の加算器314bに与える。   The bit shift unit 402 for the first enhancement layer left-bit shifts the output image of the base layer output from the adder 312a of the base layer decoding unit 400 so as to match the number of bits of the output image of the first enhancement layer, The left-bit shifted base layer output image is provided to adder 314 b of first enhancement layer decoding section 410.

第1拡張レイヤ復号部410について説明する。第1拡張レイヤの符号化ストリームは、可変長復号部310bにより可変長復号され、逆量子化部320bにより逆量子化され、逆DCT部330bにより逆直交変換された後、加算器314bに入力される。第1拡張レイヤにおいて復号された画像は、基本レイヤの画像との差分データである。加算器314bは、第1拡張レイヤ用のビットシフト部402から与えられる左ビットシフトされた基本レイヤの出力画像のデータに第1拡張レイヤで復号された差分データを足し合わせることにより、第1拡張レイヤの最終出力画像を生成し、出力する。   The first enhancement layer decoding unit 410 will be described. The encoded stream of the first enhancement layer is variable-length decoded by the variable-length decoding unit 310b, dequantized by the inverse quantization unit 320b, and inversely orthogonal transformed by the inverse DCT unit 330b, and then input to the adder 314b. The The image decoded in the first enhancement layer is difference data from the base layer image. The adder 314b adds the difference data decoded by the first enhancement layer to the output image data of the base layer shifted from the bit enhancement unit 402 for the first enhancement layer by the left bit shift, thereby adding the first enhancement layer 314b. Generate and output the final output image of the layer.

第2拡張レイヤ用のビットシフト部412は、第1拡張レイヤ復号部410の加算器314bから出力される第1拡張レイヤの出力画像を第2拡張レイヤの出力画像のビット数に合うように左ビットシフトし、左ビットシフトされた第1拡張レイヤの出力画像を第2拡張レイヤ復号部420の加算器314cに与える。   The second enhancement layer bit shift unit 412 shifts the output image of the first enhancement layer output from the adder 314b of the first enhancement layer decoding unit 410 to the left so as to match the number of bits of the output image of the second enhancement layer. The output image of the first enhancement layer that has been bit-shifted and bit-shifted to the left is supplied to the adder 314c of the second enhancement layer decoding unit 420.

第2拡張レイヤ復号部420の構成と動作は、第1拡張レイヤ復号部410と同じであり、第2拡張レイヤの符号化ストリームは、可変長復号部310cにより可変長復号され、逆量子化部320cにより逆量子化され、逆DCT部330cにより逆直交変換された後、加算器314cに入力される。第2拡張レイヤにおいて復号された画像は、第1拡張レイヤの画像との差分データである。加算器314cは、第2拡張レイヤ用のビットシフト部412から与えられる左ビットシフトされた第1拡張レイヤの出力画像のデータに第2拡張レイヤで復号された差分データを足し合わせることにより、第2拡張レイヤの最終出力画像を生成し、出力する。   The configuration and operation of the second enhancement layer decoding unit 420 are the same as those of the first enhancement layer decoding unit 410, and the encoded stream of the second enhancement layer is variable length decoded by the variable length decoding unit 310c, and the inverse quantization unit Inverse quantization is performed by 320c, and inverse orthogonal transformation is performed by the inverse DCT unit 330c, which is then input to the adder 314c. The image decoded in the second enhancement layer is difference data from the image of the first enhancement layer. The adder 314c adds the difference data decoded in the second enhancement layer to the output image data of the first enhancement layer shifted from the left enhancement bit provided from the bit shift unit 412 for the second enhancement layer. A final output image of two enhancement layers is generated and output.

なお、図1の第1拡張レイヤ符号化部110および第2拡張レイヤ符号化部120で直交変換や量子化を省略した場合、図2の第1拡張レイヤ復号部410および第2拡張レイヤ復号部420で逆直交変換や逆量子化の構成は不要である。   In addition, when orthogonal transformation and quantization are abbreviate | omitted in the 1st enhancement layer encoding part 110 and the 2nd enhancement layer encoding part 120 of FIG. 1, the 1st enhancement layer decoding part 410 and the 2nd enhancement layer decoding part of FIG. In 420, the configuration of inverse orthogonal transform or inverse quantization is unnecessary.

本実施の形態の復号装置500によれば、ピクセル深度スケーラビリティをもたせて符号化された動画像の符号化ストリームにおいて、基本レイヤの他に拡張レイヤを適宜選択することでピクセル深度の異なる動画像を復号することができる。これにより、ディスプレイの表示可能色数やユーザの画質要求レベルに応じて最適なピクセル深度を選択して動画像を再生することができる。   According to decoding apparatus 500 of the present embodiment, moving images with different pixel depths can be selected by appropriately selecting an enhancement layer in addition to a base layer in an encoded stream of a moving image that has been encoded with pixel depth scalability. Can be decrypted. Thereby, it is possible to reproduce a moving image by selecting an optimal pixel depth according to the number of colors that can be displayed on the display and the image quality requirement level of the user.

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described based on the embodiments. The embodiments are exemplifications, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are within the scope of the present invention. .

実施の形態に係る符号化装置の構成図である。It is a block diagram of the encoding apparatus which concerns on embodiment. 実施の形態に係る復号装置の構成図である。It is a block diagram of the decoding apparatus which concerns on embodiment.

符号の説明Explanation of symbols

10a ブロック生成部、 20a、20b、20c DCT部、 30a、30b、30c 量子化部、 40a、40b 逆量子化部、 50a、50b 逆DCT部、 60a 動き予測部、 80a フレームバッファ、 90a、90b、90c 可変長符号化部、 100 基本レイヤ符号化部、 102、112 ビットシフト部、 110 第1拡張レイヤ符号化部、 120 第2拡張レイヤ符号化部、 150、152 上位ビット取得部、 160 ストリーム結合部、 200 符号化装置、 400 基本レイヤ復号部、 402、412 ビットシフト部、 410 第1拡張レイヤ復号部、 420 第2拡張レイヤ復号部、 430 ストリーム分離部、 500 復号装置。   10a block generation unit, 20a, 20b, 20c DCT unit, 30a, 30b, 30c quantization unit, 40a, 40b inverse quantization unit, 50a, 50b inverse DCT unit, 60a motion prediction unit, 80a frame buffer, 90a, 90b, 90c variable length coding unit, 100 base layer coding unit, 102, 112 bit shift unit, 110 first enhancement layer coding unit, 120 second enhancement layer coding unit, 150, 152 upper bit acquisition unit, 160 stream combination , 200 encoding device, 400 base layer decoding unit, 402, 412 bit shift unit, 410 first enhancement layer decoding unit, 420 second enhancement layer decoding unit, 430 stream separation unit, 500 decoding device.

Claims (4)

動画像を階層的に符号化する際、画素データを与える複数のビットプレーンの内、上位ビットプレーン群を基本レイヤに、前記上位ビットプレーン群を含むより多いビット数のビットプレーン群を拡張レイヤに割り当て、前記拡張レイヤでは、前記拡張レイヤに入力されるピクチャと前記基本レイヤにおける再構築ピクチャのレイヤ間での差分を符号化して前記拡張レイヤの符号化データを生成することを特徴とする符号化方法。   When encoding a moving image hierarchically, among a plurality of bit planes that provide pixel data, an upper bit plane group is a basic layer, and a bit plane group having a larger number of bits including the upper bit plane group is an extension layer. And encoding in the enhancement layer, wherein encoded data of the enhancement layer is generated by encoding a difference between a layer of a picture input to the enhancement layer and a reconstructed picture in the base layer Method. 前記基本レイヤと前記拡張レイヤの間で量子化処理に用いる量子化パラメータを異ならせ、各レイヤの量子化パラメータに関する情報を前記動画像の符号化ストリームに含めることを特徴とする請求項1に記載の符号化方法。   The quantization parameter used for quantization processing is different between the base layer and the enhancement layer, and information on the quantization parameter of each layer is included in the encoded stream of the moving image. Encoding method. 前記拡張レイヤにおいて、前記拡張レイヤに入力されるピクチャと前記基本レイヤにおける再構築ピクチャのレイヤ間での差分を量子化することなく、符号化することを特徴とする請求項1に記載の符号化方法。   The encoding according to claim 1, wherein the enhancement layer performs coding without quantizing a difference between a layer of a picture input to the enhancement layer and a reconstructed picture in the base layer. Method. 前記動画像の符号化ストリーム内で前記拡張レイヤに割り当てるビット数を動的に調整し、前記拡張レイヤに割り当てられたビット数に関する情報を前記符号化ストリームに含めることを特徴とする請求項1から3のいずれかに記載の符号化方法。   The number of bits allocated to the enhancement layer in the encoded stream of the moving image is dynamically adjusted, and information on the number of bits allocated to the enhancement layer is included in the encoded stream. 4. The encoding method according to any one of 3.
JP2006086164A 2006-03-27 2006-03-27 Encoding method Pending JP2007266750A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006086164A JP2007266750A (en) 2006-03-27 2006-03-27 Encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006086164A JP2007266750A (en) 2006-03-27 2006-03-27 Encoding method

Publications (1)

Publication Number Publication Date
JP2007266750A true JP2007266750A (en) 2007-10-11

Family

ID=38639343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006086164A Pending JP2007266750A (en) 2006-03-27 2006-03-27 Encoding method

Country Status (1)

Country Link
JP (1) JP2007266750A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009141953A (en) * 2007-12-06 2009-06-25 Samsung Electronics Co Ltd Method and apparatus for hierarchically encoding / decoding video
JP2010010977A (en) * 2008-06-26 2010-01-14 Victor Co Of Japan Ltd Hierarchical encoder, non-hierarchical encoding conversion device, hierarchical encoding program, and non-hierarchical encoding conversion program
JP2010512698A (en) * 2006-12-14 2010-04-22 トムソン ライセンシング Method and apparatus for encoding and / or decoding bit depth scalable video data using adaptive enhancement layer prediction
WO2012086203A1 (en) * 2010-12-22 2012-06-28 パナソニック株式会社 Image encoding apparatus, image decoding apparatus, image encoding method, and image decoding method
GB2620500A (en) * 2019-03-20 2024-01-10 V Nova Int Ltd Low complexity enhancement video coding

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010512698A (en) * 2006-12-14 2010-04-22 トムソン ライセンシング Method and apparatus for encoding and / or decoding bit depth scalable video data using adaptive enhancement layer prediction
US8477853B2 (en) 2006-12-14 2013-07-02 Thomson Licensing Method and apparatus for encoding and/or decoding bit depth scalable video data using adaptive enhancement layer prediction
JP2009141953A (en) * 2007-12-06 2009-06-25 Samsung Electronics Co Ltd Method and apparatus for hierarchically encoding / decoding video
JP2010010977A (en) * 2008-06-26 2010-01-14 Victor Co Of Japan Ltd Hierarchical encoder, non-hierarchical encoding conversion device, hierarchical encoding program, and non-hierarchical encoding conversion program
WO2012086203A1 (en) * 2010-12-22 2012-06-28 パナソニック株式会社 Image encoding apparatus, image decoding apparatus, image encoding method, and image decoding method
US9137539B2 (en) 2010-12-22 2015-09-15 Panasonic Corporation Image coding apparatus, image decoding apparatus, image coding method, and image decoding method
GB2620500A (en) * 2019-03-20 2024-01-10 V Nova Int Ltd Low complexity enhancement video coding
GB2620500B (en) * 2019-03-20 2024-05-15 V Nova Int Ltd Low complexity enhancement video coding

Similar Documents

Publication Publication Date Title
JP4991699B2 (en) Scalable encoding and decoding methods for video signals
KR100954816B1 (en) Method for coding video and video signals, apparatus and computer readable recording medium for coding video, and method, apparatus and computer readable recording medium for decoding base layer data-stream and enhancement layer data-stream
CN101336549B (en) Scalable video coding method and apparatus based on multiple layers
JP5232797B2 (en) Method and apparatus for encoding and / or decoding video data using adaptive prediction order of spatial prediction and bit depth prediction
US8619854B2 (en) Scalable video encoding and decoding method using switching pictures and apparatus thereof
JP4927207B2 (en) Encoding method, decoding method and apparatus
US8477853B2 (en) Method and apparatus for encoding and/or decoding bit depth scalable video data using adaptive enhancement layer prediction
KR101365596B1 (en) Video encoding apparatus and method and video decoding apparatus and method
HK1220841A1 (en) Video decoding device,video decoding method, and program
WO2013145021A1 (en) Image decoding method and image decoding apparatus
JP2007081720A (en) Coding method
JP2007174568A (en) Encoding method
JP2007266749A (en) Encoding method
JP2007235314A (en) Coding method
JP4660408B2 (en) Encoding method
JP2007266750A (en) Encoding method
JP2007036889A (en) Coding method
JP2007036888A (en) Coding method
EP1933565A1 (en) Method and apparatus for encoding and/or decoding bit depth scalable video data using adaptive enhancement layer prediction
CN108432251B (en) Bit stream conversion device, bit stream conversion method, distribution system, distribution method, and computer-readable storage medium
JP5389298B2 (en) Image encoding device, image decoding device, image encoding method, and image decoding method
JP2007235299A (en) Image coding method
Bensaid et al. Lossy video compression using limited set of mathematical functions and reference values
HK1182563B (en) Video encoder, video decoder, video encoding method, video decoding method, and program
HK1124193B (en) Method for scalably encoding and decoding video signal