WO2014007131A1 - 画像復号装置、および画像符号化装置 - Google Patents
画像復号装置、および画像符号化装置 Download PDFInfo
- Publication number
- WO2014007131A1 WO2014007131A1 PCT/JP2013/067618 JP2013067618W WO2014007131A1 WO 2014007131 A1 WO2014007131 A1 WO 2014007131A1 JP 2013067618 W JP2013067618 W JP 2013067618W WO 2014007131 A1 WO2014007131 A1 WO 2014007131A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- prediction
- intra
- unit
- prediction mode
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/187—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/11—Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Definitions
- the present invention relates to an image decoding apparatus that decodes hierarchically encoded data in which an image is hierarchically encoded, and an image encoding apparatus that generates hierarchically encoded data by hierarchically encoding an image.
- One of information transmitted in a communication system or information recorded in a storage device is an image or a moving image. 2. Description of the Related Art Conventionally, a technique for encoding an image for transmitting and storing these images (hereinafter including moving images) is known.
- Non-Patent Document 1 As the video encoding system, H.264 H.264 / MPEG-4. AVC and HEVC (High-Efficiency Video Coding) which is a successor codec are known (Non-Patent Document 1).
- a predicted image is usually generated based on a local decoded image obtained by encoding / decoding an input image, and obtained by subtracting the predicted image from the input image (original image).
- Prediction residuals (sometimes referred to as “difference images” or “residual images”) are encoded.
- examples of the method for generating a predicted image include inter-screen prediction (inter prediction) and intra-screen prediction (intra prediction).
- predicted images in a corresponding frame are sequentially generated based on a locally decoded image in the same frame.
- a predicted image is generated by motion compensation between frames.
- Information relating to motion compensation (motion compensation parameters) is often not directly encoded to reduce the amount of code. Therefore, in the inter prediction, a motion compensation parameter is estimated based on a decoding situation or the like around the target block.
- Hierarchical coding methods include ISO / IEC and ITU-T standards as H.264. H.264 / AVC Annex G Scalable Video Coding (SVC).
- SVC supports spatial scalability, temporal scalability, and SNR scalability.
- spatial scalability an image obtained by down-sampling an original image to a desired resolution is used as a lower layer. It is encoded with H.264 / AVC.
- the upper layer performs inter-layer prediction in order to remove redundancy between layers.
- inter-layer prediction there is motion information prediction in which information related to motion prediction is predicted from information in a lower layer at the same time, or texture prediction in which prediction is performed from an image obtained by up-sampling a decoded image in a lower layer at the same time (non-patent document 2).
- motion information prediction motion information is encoded using motion information of a reference layer as an estimated value.
- FIG. 30 is a diagram illustrating syntax referred to for inter-layer prediction, in which (a) illustrates syntax included in a slice header, and (b) illustrates syntax included in a macroblock layer. Shows the tax.
- the syntax adaptive_base_mode_flag shown in FIG. 30A is a flag that specifies whether or not the base mode flag (base_mode_flag) is encoded for each macroblock, and default_base_mode_flag is for specifying the initial value of the base mode flag. Flag.
- the base mode flag base_mode_flag shown in FIG. 30 (b) is a flag that specifies whether or not to perform inter-layer prediction for each macroblock.
- HEVC High efficiency video coding
- JCT-VC Joint Collaborative Team on Video Coding
- the present invention has been made in view of the above problems, and an object of the present invention is to realize an image decoding apparatus and an image encoding apparatus that can improve the encoding efficiency more effectively in the hierarchical encoding system. There is.
- an image decoding apparatus decodes upper layer encoded data included in hierarchically encoded data and generates a reference with reference to a decoded image from the lower layer
- An image decoding device that restores an upper layer decoded image using an upper layer prediction image, refers to encoded data, and includes a prediction mode group including at least a part of a plurality of predetermined intra prediction modes, Selection means for selecting one prediction mode, and prediction image generation means for generating a prediction image of the target prediction unit in the upper layer based on the prediction mode selected by the selection means, and the prediction mode group includes
- the prediction image of the target prediction unit in the upper layer is a prediction unit located at the same time as the target prediction unit in the lower layer in time, and spatially An intra-layer prediction mode generated based on a decoded image of a reference prediction unit that is a prediction unit arranged at a position corresponding to the target prediction unit is included, and the selection unit includes a syntax included in the encoded data.
- the prediction mode group includes a prediction image of the target prediction unit in the upper layer, and a prediction unit that is temporally located at the same time as the target prediction unit in the lower layer.
- An intra-layer prediction mode that is generated based on a decoded image of a reference prediction unit that is a prediction unit spatially arranged at a position corresponding to the target prediction unit, and the selection unit includes: One prediction mode is selected from the prediction mode group.
- a predicted image in the upper layer can be generated based on the decoded image in the lower layer, so that high encoding efficiency can be realized.
- the selection unit is a syntax included in the encoded data, and refers to a common syntax related to the inter-intra layer prediction mode and the plurality of intra prediction modes. Select one prediction mode.
- the selection means can select the intra-layer prediction mode without referring to an alternative flag that specifies whether or not to use the inter-intra layer prediction mode.
- the prediction unit refers to a unit called PU (PredictiondUnit) in, for example, a hierarchical tree block structure, but is not limited thereto, and is a unit called CU (Coding Unit). It may be a unit called TU (Transform Unit).
- PU PredictiondUnit
- CU Coding Unit
- TU Transform Unit
- the prediction mode group includes the inter-intra-layer prediction mode instead of any one of the predetermined plurality of intra prediction modes.
- the prediction mode group includes the inter-intra-layer prediction mode instead of any one of the predetermined intra prediction modes, the prediction mode A configuration capable of selecting the intra-layer prediction mode can be realized without increasing the total number of.
- the prediction mode group includes the intra-intra-layer prediction mode in addition to the plurality of predetermined intra prediction modes.
- the prediction mode group includes the inter-intra layer prediction mode in addition to the plurality of predetermined intra prediction modes, so that it is possible to improve the coding efficiency. .
- the prediction mode group includes a plurality of types of intra-layer prediction modes
- the selection unit encodes any of the plurality of types of intra-layer prediction modes. The selection is preferably made by referring to a flag included in the data.
- the prediction mode group includes a plurality of types of inter-intra-layer prediction modes, and the selection unit selects one of the plurality of types of inter-intra-layer prediction modes as encoded data. Therefore, the prediction accuracy can be further improved.
- the prediction mode group includes a plurality of types of inter-layer prediction modes
- the selection unit includes a syntax included in encoded data, and includes the plurality of types of the prediction modes. It is preferable to select one prediction mode by referring to a common syntax regarding the intra-layer prediction mode and the plurality of intra prediction modes.
- the prediction mode group includes a plurality of types of inter-layer prediction modes
- the selection means is a syntax included in encoded data, and includes the plurality of types of intra-layer prediction modes. Since one prediction mode is selected by referring to the common syntax regarding the inter-layer prediction mode and the plurality of intra prediction modes, the prediction accuracy can be further improved.
- the image decoding apparatus decodes higher layer encoded data included in hierarchically encoded data, and uses a higher layer predicted image generated by referring to a decoded image from the lower layer.
- An image decoding device that restores a decoded image of an upper layer and selects one prediction mode from a prediction mode group including at least a part of a plurality of predetermined intra prediction modes with reference to encoded data Selection means and prediction image generation means for generating a prediction image of the target prediction unit in the upper layer based on the prediction mode selected by the selection means, and the prediction mode group includes the target prediction unit in the upper layer.
- a prediction unit that is temporally located at the same time as the target prediction unit in the lower layer and spatially corresponds to the target prediction unit.
- An intra-layer prediction mode that is generated based on a decoded image of a reference prediction unit that is a prediction unit arranged at a position, and the selection means is a syntax included in encoded data, and includes the intra One prediction mode is selected by referring to a flag indicating whether or not to select an inter-layer prediction mode.
- the prediction mode group includes a prediction image of the target prediction unit in the upper layer, and a prediction unit that is temporally located at the same time as the target prediction unit in the lower layer.
- An intra-layer prediction mode that is generated based on a decoded image of a reference prediction unit that is a prediction unit spatially arranged at a position corresponding to the target prediction unit, and the selection unit includes: One prediction mode is selected from the prediction mode group.
- a predicted image in the upper layer can be generated based on the decoded image in the lower layer, so that high encoding efficiency can be realized.
- the prediction mode included in the prediction mode group is a prediction mode related to luminance
- the selection unit selects the inter-intra-layer prediction mode as the prediction mode related to luminance
- the prediction image of the target prediction unit in the upper layer is a prediction unit temporally located at the same time as the target prediction unit in the lower layer, and is spatially arranged at a position corresponding to the target prediction unit It is preferable to select an intra-layer prediction mode that is generated based on a decoded image of a reference prediction unit that is a prediction unit.
- the selection unit selects the inter-intra-layer prediction mode as the prediction mode related to luminance, the prediction mode related to color difference.
- the intra-layer prediction mode is selected, it is possible to improve the prediction accuracy of the prediction image related to the color difference.
- the prediction mode included in the prediction mode group is a prediction mode related to luminance
- the prediction mode group related to color difference is a mode using the same prediction mode as the prediction mode selected for luminance.
- the selection unit refers to a flag value included in the encoded data and actually selects the DM mode as a prediction mode related to color difference.
- the prediction image of the target prediction unit in the upper layer is a prediction unit temporally located at the same time as the target prediction unit in the lower layer, and spatially corresponds to the target prediction unit. Decide whether to select the inter-intra-layer prediction mode to be generated based on the decoded image of the reference prediction unit that is the placed prediction unit Rukoto is preferable.
- the prediction mode included in the prediction mode group is a prediction mode related to luminance
- the prediction mode group related to color difference is a mode using the same prediction mode as the prediction mode selected regarding luminance.
- the prediction image of the target prediction unit in the upper layer is a prediction unit temporally located at the same time as the target prediction unit in the lower layer, and is spatially arranged at a position corresponding to the target prediction unit Since it is determined whether to select the intra-layer prediction mode to be generated based on the decoded image of the reference prediction unit that is the prediction unit, It is possible to improve the prediction accuracy of the prediction image related.
- the prediction mode included in the prediction mode group is a prediction mode related to luminance
- the prediction mode group related to color difference is a mode using the same prediction mode as the prediction mode selected for luminance.
- the selection unit predicts a prediction image of a target prediction unit in an upper layer as a prediction mode related to color difference, and temporally calculates the target prediction in a lower layer.
- Select an intra-layer prediction mode that is generated based on a decoded image of a reference prediction unit that is a prediction unit that is located at the same time as the unit and is spatially located at a position corresponding to the target prediction unit It is preferable to do.
- the prediction mode included in the prediction mode group is a prediction mode related to luminance
- the prediction mode group related to color difference is a mode using the same prediction mode as the prediction mode selected regarding luminance.
- the selection unit temporarily selects a prediction image of the target prediction unit in the upper layer as a prediction mode related to color difference, and temporally selects the target prediction unit in the lower layer.
- the intra-intra-layer prediction mode that is generated based on the decoded image of the reference prediction unit that is a prediction unit that is located at the same time as the prediction prediction unit that is spatially located at a position corresponding to the target prediction unit Therefore, it is possible to improve the prediction accuracy of the prediction image related to the color difference.
- An image decoding apparatus decodes upper layer encoded data included in hierarchically encoded data, and uses an upper layer predicted image generated by referring to a decoded image from the lower layer.
- An image decoding apparatus for restoring a decoded image of a higher layer, wherein a selection unit that selects one prediction mode from a group of prediction modes including a plurality of predetermined intra prediction modes, and a prediction mode selected by the selection unit And a prediction image generation means for generating a prediction image in the target prediction unit of the upper layer based on the prediction mode group.
- the prediction mode group includes a prediction unit of the lower layer located at the same time as the target prediction unit in the upper layer.
- an intra prediction mode selected with respect to a reference prediction unit that is a prediction unit spatially arranged at a position corresponding to the target prediction unit.
- the target prediction unit in the above layer and the reference prediction unit in the lower layer have the same prediction direction even if the resolution is different.
- the prediction mode group includes a prediction unit of a lower layer located at the same time as a target prediction unit in the upper layer, and spatially corresponds to the target prediction unit.
- the intra prediction mode selected with respect to the reference prediction unit that is the prediction unit arranged at the position to be included, and the selection unit selects one prediction mode from the prediction mode group, so that the encoding efficiency is Can be improved.
- the selection unit is an estimated prediction mode group set to include a part of the plurality of predetermined intra prediction modes, and includes a periphery of the target prediction unit.
- One prediction mode is selected from the estimated prediction mode group determined according to the prediction mode assigned to the prediction unit, and the estimated prediction mode group is the intra prediction mode selected for the reference prediction unit. It is preferable that it is set to include.
- the intra prediction mode selected for the reference prediction unit since the estimated prediction mode group is set to include the intra prediction mode selected for the reference prediction unit, the intra prediction mode selected for the reference prediction unit. Can be suitably used to generate a predicted image in the upper layer. Therefore, according to the above configuration, the encoding efficiency can be improved.
- the estimated prediction modes included in the estimated prediction mode group are distinguished from each other by an index, and are selected for the reference prediction unit included in the estimated prediction mode group. It is preferable that a predetermined index is attached to the intra prediction mode.
- the estimated prediction modes included in the estimated prediction mode group are mutually identified by an index, and the intra prediction selected for the reference prediction unit included in the estimated prediction mode group. Since the mode has a fixed index, the frequency with which the intra prediction mode selected for the reference prediction unit is selected is improved, and the coding efficiency can be improved.
- the prediction mode group includes the reference prediction unit only when the target prediction unit is a prediction unit having a specific position in the processing order in the coding unit.
- the selected intra prediction mode is included.
- the prediction mode group is selected for the reference prediction unit only when the target prediction unit is a prediction unit having a specific position in the processing order in the coding unit. Therefore, the memory for holding the intra prediction mode selected for the reference prediction unit can be reduced.
- An image encoding apparatus hierarchically encodes a residual obtained by subtracting a predicted image of an upper layer generated by referring to a decoded image from a lower layer from an original image to generate encoded data of the upper layer.
- a prediction image generating means for generating a prediction image of the target prediction unit in the upper layer based on the prediction mode group, and the prediction mode group includes the prediction image of the target prediction unit in the upper layer in time in the lower layer.
- a reference prediction unit that is a prediction unit located at the same time as the target prediction unit and is a prediction unit spatially arranged at a position corresponding to the target prediction unit
- An intra-layer prediction mode generated based on an image is included, and the inter-intra-layer prediction mode and the plurality of intra-prediction modes are specified using a common syntax, To do.
- the prediction mode group includes a prediction image of the target prediction unit in the upper layer and a prediction in which the lower layer is temporally located at the same time as the target prediction unit.
- An intra-layer prediction mode that is generated based on a decoded image of a reference prediction unit that is a unit and is a prediction unit spatially arranged at a position corresponding to the target prediction unit; Then, one prediction mode is selected from the prediction mode group.
- a predicted image in the upper layer can be generated based on the decoded image in the lower layer, and thus high coding efficiency can be realized.
- the selecting means refers to a syntax included in the encoded data, and refers to a common syntax related to the inter-intra layer prediction mode and the plurality of intra prediction modes. Select one prediction mode. In other words, the selection means can select the intra-layer prediction mode without referring to an alternative flag that specifies whether or not to use the inter-intra layer prediction mode.
- an increase in the amount of code included in the encoded data can be suppressed, so that the encoding efficiency can be improved.
- the image decoding apparatus decodes the upper layer encoded data included in the hierarchically encoded data, and generates the upper layer generated by referring to the decoded image from the lower layer.
- An image decoding apparatus that restores a decoded image of an upper layer using a prediction image, wherein one prediction is made from a prediction mode group including at least a part of a plurality of predetermined intra prediction modes with reference to encoded data Selection means for selecting a mode, and prediction image generation means for generating a prediction image of the target prediction unit in the upper layer based on the prediction mode selected by the selection means.
- the prediction image of the target prediction unit is a prediction unit that is temporally located at the same time as the target prediction unit in the lower layer, and spatially the target prediction unit.
- One prediction mode is selected by referring to a common syntax regarding the intra-intra-layer prediction mode and the plurality of intra prediction modes.
- FIG. 1 It is a functional block diagram which illustrates about the structure of the prediction parameter decompression
- FIG. 7 is a diagram illustrating PU partition type patterns, where (a) to (h) are PU partition types 2N ⁇ N, 2N ⁇ nU, 2N ⁇ nD, 2N ⁇ N, 2N ⁇ nU, and 2N, respectively. The partition shape in the case of xnD is shown. It is a functional block diagram which shows the schematic structure of the said hierarchy moving image decoding apparatus.
- lead-out a color difference prediction mode (a) has shown the table when LM mode is included in color difference prediction mode, (b) has shown color difference.
- the table in case the LM mode is not included in the prediction mode is shown.
- It is a functional block diagram which shows the schematic structure of the texture restoration part with which the said hierarchy moving image decoding apparatus is provided.
- (A) shows a recording device equipped with a hierarchical video encoding device
- (b) shows a playback device equipped with a hierarchical video decoding device. It is a figure which shows the syntax referred in the inter-layer prediction which concerns on a prior art example, Comprising: (a) has shown the syntax contained in a slice header, (b) has shown the syntax contained in a macroblock layer. Show.
- a hierarchical moving picture decoding apparatus 1 and the hierarchical moving picture encoding apparatus 2 according to an embodiment of the present invention will be described as follows based on FIG. 1 to FIG. ⁇ Overview ⁇
- a hierarchical video decoding device (image decoding device) 1 according to the present embodiment receives encoded data that has been subjected to scalable video coding (SVC) by a hierarchical video encoding device (image encoding device) 2.
- Scalable video coding is a coding method that hierarchically encodes moving images from low quality to high quality. Scalable video coding is, for example, H.264. H.264 / AVC Annex G SVC.
- the quality of a moving image here widely means an element that affects the appearance of a subjective and objective moving image.
- the quality of the moving image includes, for example, “resolution”, “frame rate”, “image quality”, and “pixel representation accuracy”. Therefore, hereinafter, if the quality of the moving image is different, it means that, for example, “resolution” is different, but it is not limited thereto.
- “resolution” is different, but it is not limited thereto.
- SVC is also classified into (1) spatial scalability, (2) temporal scalability, and (3) SNR (Signal-to-Noise-Ratio) scalability from the viewpoint of the type of information layered.
- Spatial scalability is a technique for hierarchizing resolution and image size.
- Time scalability is a technique for layering at a frame rate (the number of frames per unit time).
- SNR scalability is a technique for hierarchizing in coding noise.
- the hierarchical video encoding device 2 Prior to detailed description of the hierarchical video encoding device 2 and the hierarchical video decoding device 1 according to the present embodiment, first, (1) the hierarchical video encoding device 2 generates and the hierarchical video decoding device 1 performs decoding.
- the layer structure of the hierarchically encoded data to be performed will be described, and then (2) a specific example of the data structure that can be adopted in each layer will be described.
- FIG. 2 is a diagram schematically illustrating a case where a moving image is hierarchically encoded / decoded by three layers of a lower layer L3, a middle layer L2, and an upper layer L1. That is, in the example shown in FIGS. 2A and 2B, of the three layers, the upper layer L1 is the highest layer and the lower layer L3 is the lowest layer.
- a decoded image corresponding to a specific quality that can be decoded from hierarchically encoded data is referred to as a decoded image of a specific hierarchy (or a decoded image corresponding to a specific hierarchy) (for example, in the upper hierarchy L1).
- Decoded image POUT # A a decoded image of a specific hierarchy (or a decoded image corresponding to a specific hierarchy) (for example, in the upper hierarchy L1).
- FIG. 2A shows a hierarchical moving image encoding apparatus 2 # A to 2 # C that generates encoded data DATA # A to DATA # C by hierarchically encoding input images PIN # A to PIN # C, respectively. Is shown.
- FIG. 2B shows a hierarchical moving picture decoding apparatus 1 # A ⁇ that generates decoded images POUT # A ⁇ POUT # C by decoding the encoded data DATA # A ⁇ DATA # C, which are encoded hierarchically. 1 # C is shown.
- the input images PIN # A, PIN # B, and PIN # C that are input on the encoding device side have the same original image but different image quality (resolution, frame rate, image quality, and the like).
- the image quality decreases in the order of the input images PIN # A, PIN # B, and PIN # C.
- the hierarchical video encoding device 2 # C of the lower hierarchy L3 encodes the input image PIN # C of the lower hierarchy L3 to generate encoded data DATA # C of the lower hierarchy L3.
- Basic information necessary for decoding the decoded image POUT # C of the lower layer L3 is included (indicated by “C” in FIG. 2). Since the lower layer L3 is the lowest layer, the encoded data DATA # C of the lower layer L3 is also referred to as basic encoded data.
- the hierarchical video encoding apparatus 2 # B of the middle hierarchy L2 encodes the input image PIN # B of the middle hierarchy L2 with reference to the encoded data DATA # C of the lower hierarchy, and performs the middle hierarchy L2 Encoded data DATA # B is generated.
- additional data necessary for decoding the decoded image POUT # B of the intermediate hierarchy is added to the encoded data DATA # B of the intermediate hierarchy L2.
- Information (indicated by “B” in FIG. 2) is included.
- the hierarchical video encoding apparatus 2 # A of the upper hierarchy L1 encodes the input image PIN # A of the upper hierarchy L1 with reference to the encoded data DATA # B of the intermediate hierarchy L2 to Encoded data DATA # A is generated.
- the encoded data DATA # A of the upper layer L1 is used to decode the basic information “C” necessary for decoding the decoded image POUT # C of the lower layer L3 and the decoded image POUT # B of the middle layer L2.
- additional information indicated by “A” in FIG. 2 necessary for decoding the decoded image POUT # A of the upper layer is included.
- the encoded data DATA # A of the upper layer L1 includes information related to decoded images of a plurality of different qualities.
- the decoding device side will be described with reference to FIG.
- the decoding devices 1 # A, 1 # B, and 1 # C corresponding to the layers of the upper layer L1, the middle layer L2, and the lower layer L3 are encoded data DATA # A and DATA # B, respectively.
- And DATA # C are decoded to output decoded images POUT # A, POUT # B, and POUT # C.
- the hierarchy decoding apparatus 1 # B of the middle hierarchy L2 receives information necessary for decoding the decoded image POUT # B from the hierarchy encoded data DATA # A of the upper hierarchy L1 (that is, the hierarchy encoded data DATA # A decoded image POUT # B may be decoded by extracting “B” and “C”) included in A.
- the decoded images POUT # A, POUT # B, and POUT # C can be decoded based on information included in the hierarchically encoded data DATA # A of the upper hierarchy L1.
- the hierarchical encoded data is not limited to the above three-layer hierarchical encoded data, and the hierarchical encoded data may be hierarchically encoded with two layers or may be hierarchically encoded with a number of layers larger than three. Good.
- Hierarchically encoded data may be configured as described above. For example, in the example described above with reference to FIGS. 2A and 2B, it has been described that “C” and “B” are referred to for decoding the decoded image POUT # B, but the present invention is not limited thereto. It is also possible to configure the hierarchically encoded data so that the decoded image POUT # B can be decoded using only “B”.
- Hierarchically encoded data can also be generated so that In that case, the lower layer hierarchical video encoding device generates hierarchical encoded data by quantizing the prediction residual using a larger quantization width than the upper layer hierarchical video encoding device. To do.
- Upper layer A layer located above a certain layer is referred to as an upper layer.
- the upper layers of the lower layer L3 are the middle layer L2 and the upper layer L1.
- the decoded image of the upper layer means a decoded image with higher quality (for example, high resolution, high frame rate, high image quality, etc.).
- Lower layer A layer located below a certain layer is referred to as a lower layer.
- the lower layers of the upper layer L1 are the middle layer L2 and the lower layer L3.
- the decoded image of the lower layer refers to a decoded image with lower quality.
- Target layer A layer that is the target of decoding or encoding.
- Reference layer A specific lower layer referred to for decoding a decoded image corresponding to the target layer is referred to as a reference layer.
- the reference layers of the upper hierarchy L1 are the middle hierarchy L2 and the lower hierarchy L3.
- the hierarchically encoded data can be configured so that it is not necessary to refer to all of the lower layers in decoding of the specific layer.
- the hierarchical encoded data can be configured such that the reference layer of the upper hierarchy L1 is either the middle hierarchy L2 or the lower hierarchy L3.
- Base layer A layer located at the lowest layer is referred to as a base layer.
- the decoded image of the base layer is the lowest quality decoded image that can be decoded from the encoded data, and is referred to as a basic decoded image.
- the basic decoded image is a decoded image corresponding to the lowest layer.
- the partially encoded data of the hierarchically encoded data necessary for decoding the basic decoded image is referred to as basic encoded data.
- the basic information “C” included in the hierarchically encoded data DATA # A of the upper hierarchy L1 is the basic encoded data.
- Extension layer The upper layer of the base layer is called the extension layer.
- the layer identifier is for identifying the hierarchy, and corresponds to the hierarchy one-to-one.
- the hierarchically encoded data includes a hierarchical identifier used for selecting partial encoded data necessary for decoding a decoded image of a specific hierarchy.
- a subset of hierarchically encoded data associated with a layer identifier corresponding to a specific layer is also referred to as a layer representation.
- a layer representation of the layer and / or a layer representation corresponding to a lower layer of the layer is used. That is, in decoding the decoded image of the target layer, layer representation of the target layer and / or layer representation of one or more layers included in a lower layer of the target layer are used.
- Inter-layer prediction is based on the syntax element value, the value derived from the syntax element value included in the layer expression of the layer (reference layer) different from the layer expression of the target layer, and the decoded image. It is to predict the syntax element value of the target layer, the encoding parameter used for decoding of the target layer, and the like. Inter-layer prediction in which information related to motion prediction is predicted from reference layer information (at the same time) may be referred to as motion information prediction. Further, inter-layer prediction that predicts a decoded image of a lower layer (at the same time) from an up-sampled image may be referred to as texture prediction (or inter-layer intra prediction). Note that the hierarchy used for inter-layer prediction is, for example, a lower layer of the target layer. In addition, performing prediction within a target layer without using a reference layer may be referred to as intra-layer prediction.
- the lower layer and the upper layer may be encoded by different encoding methods.
- the encoded data of each layer may be supplied to the hierarchical video decoding device 1 via different transmission paths, or supplied to the hierarchical video decoding device 1 via the same transmission path. It may be done.
- the base layer when transmitting ultra-high-definition video (moving image, 4K video data) with a base layer and one extended layer in a scalable encoding, the base layer downscales 4K video data, and interlaced video data.
- MPEG-2 or H.264 The enhancement layer may be encoded by H.264 / AVC and transmitted over a television broadcast network, and the enhancement layer may encode 4K video (progressive) with HEVC and transmit over the Internet.
- FIG. 3 is a diagram illustrating a data structure of encoded data (hierarchically encoded data DATA # C in the example of FIG. 2) that can be employed in the base layer.
- Hierarchically encoded data DATA # C illustratively includes a sequence and a plurality of pictures constituting the sequence.
- FIG. 3 shows a hierarchical structure of data in the hierarchical encoded data DATA # C.
- 3A to 3E show a sequence layer that defines a sequence SEQ, a picture layer that defines a picture PICT, a slice layer that defines a slice S, and a tree block that defines a tree block TBLK. It is a figure which shows the CU layer which prescribes
- coding unit Coding
- sequence layer a set of data referred to by the hierarchical video decoding device 1 for decoding a sequence SEQ to be processed (hereinafter also referred to as a target sequence) is defined.
- the sequence SEQ includes a sequence parameter set SPS (Sequence Parameter Set), a picture parameter set PPS (Picture Parameter Set), an adaptive parameter set APS (Adaptation Parameter Set), and pictures PICT 1 to PICT. It includes NP (NP is the total number of pictures included in the sequence SEQ) and supplemental enhancement information (SEI).
- the sequence parameter set SPS defines a set of encoding parameters that the hierarchical video decoding device 1 refers to in order to decode the target sequence.
- a set of encoding parameters referred to by the hierarchical video decoding device 1 for decoding each picture in the target sequence is defined.
- a plurality of PPS may exist. In that case, one of a plurality of PPSs is selected from each picture in the target sequence.
- the adaptive parameter set APS defines a set of encoding parameters that the hierarchical video decoding device 1 refers to in order to decode each slice in the target sequence. There may be a plurality of APSs. In that case, one of a plurality of APSs is selected from each slice in the target sequence.
- Picture layer In the picture layer, a set of data that is referred to by the hierarchical video decoding device 1 in order to decode a picture PICT to be processed (hereinafter also referred to as a target picture) is defined. As shown in FIG. 3B, the picture PICT includes a picture header PH and slices S 1 to S NS (NS is the total number of slices included in the picture PICT).
- the picture header PH includes a coding parameter group referred to by the hierarchical video decoding device 1 in order to determine a decoding method of the target picture.
- the encoding parameter group is not necessarily included directly in the picture header PH, and may be included indirectly, for example, by including a reference to the picture parameter set PPS.
- slice layer In the slice layer, a set of data that is referred to by the hierarchical video decoding device 1 in order to decode a slice S (also referred to as a target slice) to be processed is defined. As shown in FIG. 3C, the slice S includes a slice header SH and a sequence of tree blocks TBLK 1 to TBLK NC (NC is the total number of tree blocks included in the slice S).
- the slice header SH includes a coding parameter group that the hierarchical video decoding device 1 refers to in order to determine a decoding method of the target slice.
- Slice type designation information (slice_type) for designating a slice type is an example of an encoding parameter included in the slice header SH.
- I slice that uses only intra prediction at the time of encoding (2) P slice that uses unidirectional prediction or intra prediction at the time of encoding, (3) B-slice using unidirectional prediction, bidirectional prediction, or intra prediction at the time of encoding may be used.
- the slice header SH may include a reference to the picture parameter set PPS (pic_parameter_set_id) and a reference to the adaptive parameter set APS (aps_id) included in the sequence layer.
- the slice header SH includes a filter parameter FP that is referred to by an adaptive filter provided in the hierarchical video decoding device 1.
- the filter parameter FP includes a filter coefficient group.
- the filter coefficient group includes (1) tap number designation information for designating the number of taps of the filter, (2) filter coefficients a 0 to a NT-1 (NT is the total number of filter coefficients included in the filter coefficient group), and , (3) offset is included.
- Tree block layer In the tree block layer, a set of data referred to by the hierarchical video decoding device 1 for decoding a processing target tree block TBLK (hereinafter also referred to as a target tree block) is defined. Note that the tree block may be referred to as a coding tree block (CTB) or a maximum coding unit (LCU).
- CTB coding tree block
- LCU maximum coding unit
- the tree block TBLK includes a tree block header TBLKH and coding unit information CU 1 to CU NL (NL is the total number of coding unit information included in the tree block TBLK).
- NL is the total number of coding unit information included in the tree block TBLK.
- the tree block TBLK is divided into partitions for specifying a block size for each process of intra prediction or inter prediction and conversion.
- the above partition of the tree block TBLK is divided by recursive quadtree partitioning.
- the tree structure obtained by this recursive quadtree partitioning is hereinafter referred to as a coding tree.
- a partition corresponding to a leaf that is a node at the end of the coding tree is referred to as a coding node.
- the encoding node is also referred to as an encoding unit (CU).
- the coding node may be called a coding block (CB: Coding Block).
- coding unit information (hereinafter referred to as CU information)
- CU 1 to CU NL is information corresponding to each coding node (coding unit) obtained by recursively dividing the tree block TBLK into quadtrees. is there.
- the root of the coding tree is associated with the tree block TBLK.
- the tree block TBLK is associated with the highest node of the tree structure of the quadtree partition that recursively includes a plurality of encoding nodes.
- each encoding node is half the size of the encoding node to which the encoding node directly belongs (that is, the partition of the node one layer higher than the encoding node).
- the size of the tree block TBLK and the size that each coding node can take are the size specification information of the minimum coding node and the maximum coding node included in the sequence parameter set SPS of the hierarchical coding data DATA # C.
- the minimum coding node hierarchy depth difference For example, when the size of the minimum coding node is 8 ⁇ 8 pixels and the difference in the layer depth between the maximum coding node and the minimum coding node is 3, the size of the tree block TBLK is 64 ⁇ 64 pixels.
- the size of the encoding node can take any of four sizes, namely, 64 ⁇ 64 pixels, 32 ⁇ 32 pixels, 16 ⁇ 16 pixels, and 8 ⁇ 8 pixels.
- the tree block header TBLKH includes an encoding parameter referred to by the hierarchical video decoding device 1 in order to determine a decoding method of the target tree block. Specifically, as shown in FIG. 3D, tree block division information SP_TBLK that specifies a division pattern of the target tree block into each CU, and a quantization parameter difference that specifies the size of the quantization step ⁇ qp (qp_delta) is included.
- the tree block division information SP_TBLK is information representing a coding tree for dividing the tree block. Specifically, the shape and size of each CU included in the target tree block, and the position in the target tree block Is information to specify.
- the tree block division information SP_TBLK may not explicitly include the shape or size of the CU.
- the tree block division information SP_TBLK may be a set of flags indicating whether the entire target tree block or a partial region of the tree block is to be divided into four. In that case, the shape and size of each CU can be specified by using the shape and size of the tree block together.
- the quantization parameter difference ⁇ qp is a difference qp ⁇ qp ′ between the quantization parameter qp in the target tree block and the quantization parameter qp ′ in the tree block encoded immediately before the target tree block.
- CU layer In the CU layer, a set of data referred to by the hierarchical video decoding device 1 for decoding a CU to be processed (hereinafter also referred to as a target CU) is defined.
- the encoding node is a node at the root of a prediction tree (PT) and a transformation tree (TT).
- PT prediction tree
- TT transformation tree
- the encoding node is divided into one or a plurality of prediction blocks, and the position and size of each prediction block are defined.
- the prediction block is one or a plurality of non-overlapping areas constituting the encoding node.
- the prediction tree includes one or a plurality of prediction blocks obtained by the above division.
- Prediction processing is performed for each prediction block.
- a prediction block that is a unit of prediction is also referred to as a prediction unit (PU).
- PU partitioning There are roughly two types of partitioning in the prediction tree (hereinafter abbreviated as PU partitioning): intra prediction and inter prediction.
- the division method is 2N ⁇ 2N (the same size as the encoding node), 2N ⁇ N, 2N ⁇ nU, 2N ⁇ nD, N ⁇ 2N, nL ⁇ 2N, nR ⁇ 2N, and N XN etc.
- the types of PU division will be described later with reference to the drawings.
- the encoding node is divided into one or a plurality of transform blocks, and the position and size of each transform block are defined.
- the transform block is one or a plurality of non-overlapping areas constituting the encoding node.
- the conversion tree includes one or a plurality of conversion blocks obtained by the above division.
- the division in the transformation tree includes the one in which an area having the same size as the encoding node is assigned as the transformation block, and the one in the recursive quadtree division as in the above-described division of the tree block.
- transform processing is performed for each conversion block.
- the transform block which is a unit of transform is also referred to as a transform unit (TU).
- the CU information CU specifically includes a skip flag SKIP, prediction tree information (hereinafter abbreviated as PT information) PTI, and conversion tree information (hereinafter abbreviated as TT information). Include TTI).
- PT information prediction tree information
- TT information conversion tree information
- the skip flag SKIP is a flag indicating whether or not the skip mode is applied to the target PU.
- the value of the skip flag SKIP is 1, that is, when the skip mode is applied to the target CU, A part of the PT information PTI and the TT information TTI in the CU information CU are omitted. Note that the skip flag SKIP is omitted for the I slice.
- the PT information PTI is information related to a prediction tree (hereinafter abbreviated as PT) included in the CU.
- PT prediction tree
- the PT information PTI is a set of information related to each of one or a plurality of PUs included in the PT, and is referred to when a predicted image is generated by the hierarchical video decoding device 1.
- the PT information PTI includes prediction type information PType and prediction information PInfo.
- Prediction type information PType is information that specifies whether intra prediction or inter prediction is used as a prediction image generation method for the target PU.
- the prediction information PInfo includes intra prediction information PP_Intra or inter prediction information PP_Inter depending on which prediction method the prediction type information PType specifies.
- a PU to which intra prediction is applied is also referred to as an intra PU
- a PU to which inter prediction is applied is also referred to as an inter PU.
- Inter prediction information PP_Inter includes an encoding parameter that is referred to when the hierarchical video decoding device 1 generates an inter prediction image by inter prediction. More specifically, the inter prediction information PP_Inter includes inter PU division information that specifies a division pattern of the target CU into each inter PU, and inter prediction parameters for each inter PU.
- the intra prediction information PP_Intra includes an encoding parameter that is referred to when the hierarchical video decoding device 1 generates an intra predicted image by intra prediction. More specifically, the intra prediction information PP_Intra includes intra PU division information that specifies a division pattern of the target CU into each intra PU, and intra prediction parameters for each intra PU.
- the intra prediction parameter is a parameter for designating an intra prediction method (prediction mode) for each intra PU.
- the intra prediction parameter is a parameter for restoring intra prediction (prediction mode) for each intra PU.
- Parameters for restoring the prediction mode include mpm_flag which is a flag related to MPM (Most Probable Mode, the same applies hereinafter), mpm_idx which is an index for selecting the MPM, and an index for designating a prediction mode other than the MPM. Rem_idx is included.
- MPM is an estimated prediction mode that is highly likely to be selected in the target partition.
- the MPM may include an estimated prediction mode estimated based on prediction modes assigned to partitions around the target partition, and a DC mode or Planar mode that generally has a high probability of occurrence.
- the intra prediction parameter may be configured to further include a flag intra_layer_pred_flag that specifies whether or not to use the intra-layer prediction mode.
- the intra prediction parameter may be configured to further include a flag intra_layer_pred_mode for designating any of a plurality of types of intra-layer prediction modes.
- the intra prediction parameter may include a flag chroma_intra_layer_pred_flag for designating either the DM mode or the intra-intra-layer prediction mode as the prediction mode related to the color difference when the DM mode is temporarily selected.
- prediction mode when simply described as “prediction mode”, it means the luminance prediction mode unless otherwise specified.
- the color difference prediction mode is described as “color difference prediction mode” and is distinguished from the luminance prediction mode.
- the parameter for restoring the prediction mode includes chroma_mode, which is a parameter for designating the color difference prediction mode.
- mpm_flag mpm_idx
- rem_idx chroma_mode
- chroma_mode corresponds to “intra_chroma_pred_mode”.
- the PU partition information may include information specifying the shape, size, and position of the target PU. Details of the PU partition information will be described later.
- the TT information TTI is information regarding a conversion tree (hereinafter abbreviated as TT) included in the CU.
- TT conversion tree
- the TT information TTI is a set of information regarding each of one or a plurality of TUs included in the TT, and is referred to when the hierarchical video decoding device 1 decodes residual data.
- a TU may be referred to as a block.
- the TT information TTI includes TT division information SP_TT that designates a division pattern for each transform block of the target CU, and quantized prediction residuals QD 1 to QD NT (NT is the target The total number of blocks included in the CU).
- TT division information SP_TT is information for determining the shape and size of each TU included in the target CU and the position in the target CU.
- the TT division information SP_TT can be realized from information (split_transform_unit_flag) indicating whether or not the target node is divided and information (trafoDepth) indicating the division depth.
- each TU obtained by the division can have a size from 32 ⁇ 32 pixels to 4 ⁇ 4 pixels.
- Each quantized prediction residual QD is encoded data generated by the hierarchical video encoding device 2 performing the following processes 1 to 3 on a target block that is a processing target block.
- Process 1 The prediction residual obtained by subtracting the prediction image from the encoding target image is subjected to frequency conversion (for example, DCT conversion (Discrete Cosine Transform) and DST conversion (Discrete Sine Transform));
- Process 2 Quantize the transform coefficient obtained in Process 1;
- the prediction information PInfo includes an inter prediction parameter or an intra prediction parameter.
- the inter prediction parameters include, for example, a merge flag (merge_flag), a merge index (merge_idx), an estimated motion vector index (mvp_idx), a reference image index (ref_idx), an inter prediction flag (inter_pred_flag), and a motion vector residual (mvd). Is mentioned.
- examples of the intra prediction parameters include an estimated prediction mode flag, an estimated prediction mode index, and a residual prediction mode index.
- the PU partition type specified by the PU partition information includes the following eight patterns in total, assuming that the size of the target CU is 2N ⁇ 2N pixels. That is, 4 symmetric splittings of 2N ⁇ 2N pixels, 2N ⁇ N pixels, N ⁇ 2N pixels, and N ⁇ N pixels, and 2N ⁇ nU pixels, 2N ⁇ nD pixels, nL ⁇ 2N pixels, And four asymmetric splittings of nR ⁇ 2N pixels.
- N 2 m (m is an arbitrary integer of 1 or more).
- an area obtained by dividing the target CU is also referred to as a partition.
- 4 (a) to 4 (h) specifically show the positions of the PU partition boundaries in the CU for each partition type.
- FIG. 4A shows a 2N ⁇ 2N PU partition type that does not perform CU partitioning.
- FIGS. 4B, 4C, and 4D show the partition shapes when the PU partition types are 2N ⁇ N, 2N ⁇ nU, and 2N ⁇ nD, respectively.
- 4 (e), (f), and (g) show the shapes of the partitions when the PU partition types are N ⁇ 2N, nL ⁇ 2N, and nR ⁇ 2N, respectively.
- FIG. 4H shows the shape of the partition when the PU partition type is N ⁇ N.
- the PU partition types shown in FIGS. 4A and 4H are also referred to as square partitions based on the shape of the partition.
- the PU partition types shown in FIGS. 4B to 4G are also referred to as non-square partitioning.
- the numbers assigned to the respective regions indicate the region identification numbers, and the regions are processed in the order of the identification numbers. That is, the identification number represents the scan order of the area.
- Partition type for inter prediction In the inter PU, seven types other than N ⁇ N (FIG. 4 (h)) are defined among the above eight division types. The six asymmetric partitions are sometimes called AMP (Asymmetric Motion Partition).
- a specific value of N is defined by the size of the CU to which the PU belongs, and specific values of nU, nD, nL, and nR are determined according to the value of N.
- a 128 ⁇ 128 pixel inter-CU includes 128 ⁇ 128 pixels, 128 ⁇ 64 pixels, 64 ⁇ 128 pixels, 64 ⁇ 64 pixels, 128 ⁇ 32 pixels, 128 ⁇ 96 pixels, 32 ⁇ 128 pixels, and 96 ⁇ It is possible to divide into 128-pixel inter PUs.
- Partition type for intra prediction In the intra PU, the following two types of division patterns are defined.
- the division patterns (a) and (h) can be taken in the example shown in FIG.
- an 128 ⁇ 128 pixel intra CU can be divided into 128 ⁇ 128 pixel and 64 ⁇ 64 pixel intra PUs.
- Enhancement layer For the enhancement layer encoded data, for example, a data structure substantially similar to the data structure shown in FIG. 3 can be adopted. However, in the encoded data of the enhancement layer, additional information can be added or parameters can be omitted as follows.
- Information indicating hierarchical coding may be encoded in the SPS.
- spatial scalability, temporal scalability, and SNR scalability hierarchy identification information may be encoded.
- Filter information and filter on / off information can be encoded by a PPS, a slice header, a macroblock header, or the like.
- a skip flag (skip_flag), a base mode flag (base_mode_flag), and a prediction mode flag (pred_mode_flag) may be encoded.
- the CU type of the target CU is an intra CU, an inter CU, a skip CU, or a base skip CU.
- Intra CU and skip CU can be defined in the same manner as in the HEVC method described above. For example, in the skip CU, “1” is set in the skip flag. If it is not a skip CU, “0” is set in the skip flag. In the intra CU, “0” is set in the prediction mode flag.
- the inter CU may be defined as a CU that applies non-skip and motion compensation (MC).
- MC non-skip and motion compensation
- the base skip CU is a CU type that estimates CU or PU information from a reference layer.
- “1” is set in the skip flag and “1” is set in the base mode flag.
- Intra PU, inter PU, and merge PU can be defined similarly to the case of the above-mentioned HEVC system.
- the base merge PU is a PU type for estimating PU information from a reference layer. Further, for example, in the PT information PTI, a merge flag and a base mode flag may be encoded, and using these flags, it may be determined whether or not the target PU is a PU that performs base merge. That is, in the base merge PU, “1” is set to the merge flag and “1” is set to the base mode flag.
- the motion vector information included in the enhancement layer the motion vector information that can be derived from the motion vector information included in the lower layer can be omitted from the enhancement layer.
- the code amount of the enhancement layer can be reduced, so that the coding efficiency is improved.
- the encoded data of the enhancement layer may be generated by an encoding method different from the encoding method of the lower layer. That is, the encoding / decoding process of the enhancement layer does not depend on the type of the lower layer codec.
- the lower layer is, for example, MPEG-2 or H.264. It may be encoded by the H.264 / AVC format.
- the parameters described above may be encoded independently, or a plurality of parameters may be encoded in combination.
- an index is assigned to the combination of parameter values, and the assigned index is encoded.
- the encoding of the parameter can be omitted.
- FIG. 5 is a functional block diagram illustrating a schematic configuration of the hierarchical video decoding device 1.
- the hierarchical video decoding device 1 decodes the hierarchical encoded data DATA supplied from the hierarchical video encoding device 2 by the HEVC method, and generates a decoded image POUT # T of the target layer.
- the hierarchical video decoding device 1 includes a NAL demultiplexing unit 11, a variable length decoding unit 12, a prediction parameter restoration unit 14, a texture restoration unit 15, and a base decoding unit 16.
- the NAL demultiplexing unit 11 demultiplexes hierarchically encoded data DATA transmitted in units of NAL units in NAL (Network Abstraction Layer).
- NAL is a layer provided to abstract communication between a VCL (Video Coding Layer) and a lower system that transmits and stores encoded data.
- VCL Video Coding Layer
- VCL is a layer that performs video encoding processing, and encoding is performed in the VCL.
- the lower system here is H.264. H.264 / AVC and HEVC file formats and MPEG-2 systems are supported. In the example shown below, the lower system corresponds to the decoding process in the target layer and the reference layer.
- NAL a bit stream generated by VCL is divided into units called NAL units and transmitted to a destination lower system.
- the NAL unit includes encoded data encoded by the VCL and a header for appropriately delivering the encoded data to the destination lower system.
- the encoded data in each layer is stored in the NAL unit, is NAL multiplexed, and is transmitted to the hierarchical moving image decoding apparatus 1.
- the NAL demultiplexing unit 11 demultiplexes the hierarchical encoded data DATA, and extracts the target layer encoded data DATA # T and the reference layer encoded data DATA # R. Further, the NAL demultiplexing unit 11 supplies the target layer encoded data DATA # T to the variable length decoding unit 12, and also supplies the reference layer encoded data DATA # R to the base decoding unit 16.
- variable length decoding unit 12 performs a decoding process of information for decoding various syntax values from the binary included in the target layer encoded data DATA # T.
- variable length decoding unit 12 decodes the prediction information, the encoded information, and the transform coefficient information from the encoded data DATA # T as follows.
- variable length decoding unit 12 decodes prediction information regarding each CU or PU from the encoded data DATA # T.
- the prediction information includes, for example, designation of a CU type or a PU type.
- variable length decoding unit 12 decodes the PU partition information from the encoded DATA # T. In addition, in each PU, the variable length decoding unit 12 further converts motion information such as a reference image index RI, an estimated motion vector index PMVI, and a motion vector residual MVD, and mode information as encoded data DATA as prediction information. Decrypt from #T.
- variable length decoding unit 12 when the CU is an intra CU, the variable length decoding unit 12 further includes (1) size designation information for designating the size of the prediction unit and (2) prediction index designation for designating the prediction index as the prediction information.
- the intra prediction information including information is decoded from the encoded data DATA # T.
- variable length decoding unit 12 decodes the encoded information from the encoded data DATA # T.
- the encoded information includes information for specifying the shape, size, and position of the CU. More specifically, the encoding information includes tree block division information that specifies a division pattern of the target tree block into each CU, that is, the shape, size, and target tree block of each CU included in the target tree block. Contains information that specifies the position within.
- variable length decoding unit 12 supplies the decoded prediction information and encoded information to the prediction parameter restoration unit 14.
- variable length decoding unit 12 decodes the quantization prediction residual QD for each block and the quantization parameter difference ⁇ qp for the tree block including the block from the encoded data DATA # T.
- the variable length decoding unit 12 supplies the decoded quantization prediction residual QD and the quantization parameter difference ⁇ qp to the texture restoration unit 15 as transform coefficient information.
- the base decoding unit 16 decodes base decoding information, which is information about a reference layer that is referred to when decoding a decoded image corresponding to the target layer, from the reference layer encoded data DATA # R.
- the base decoding information includes a base prediction parameter, a base transform coefficient, and a base decoded image.
- the base decoding unit 16 supplies the decoded base decoding information to the prediction parameter restoration unit 14 and the texture restoration unit 15.
- the prediction parameter restoration unit 14 restores the prediction parameter using the prediction information and the base decoding information.
- the prediction parameter restoration unit 14 supplies the restored prediction parameter to the texture restoration unit 15.
- the prediction parameter restoration unit 14 can refer to motion information stored in a frame memory 155 (described later) included in the texture restoration unit 15 when restoring the prediction parameter.
- the texture restoration unit 15 generates a decoded image POUT # T using the transform coefficient information, the base decoding information, and the prediction parameter, and outputs the decoded image POUT # T to the outside.
- the texture restoration unit 15 stores information on the restored decoded image in a frame memory 155 (described later) provided therein.
- FIG. 1 is a functional block diagram illustrating the configuration of the prediction parameter restoration unit 14.
- the prediction parameter restoration unit 14 includes a prediction type selection unit 141, a switch 142, an intra prediction mode restoration unit 143, a motion vector candidate derivation unit 144, a motion information restoration unit 145, a merge candidate derivation unit 146, and A merge information restoration unit 147 is provided.
- the prediction type selection unit 141 sends a switching instruction to the switch 142 according to the CU type or the PU type, and controls the prediction parameter derivation process. Specifically, it is as follows.
- the prediction type selection unit 141 controls the switch 142 so that the prediction parameter can be derived using the intra prediction mode restoration unit 143.
- the prediction type selection unit 141 uses the motion information restoration unit 145 to control the switch 142 so that a prediction parameter can be derived.
- the prediction type selection unit 141 uses the merge information restoration unit 147 to control the switch 142 so that the prediction parameter can be derived.
- the switch 142 supplies the prediction information to any of the intra prediction mode restoration unit 143, the motion information restoration unit 145, and the merge information restoration unit 147 in accordance with an instruction from the prediction type selection unit 141.
- a prediction parameter is derived at a supply destination of the prediction information.
- the intra prediction mode restoration unit 143 derives a prediction mode IntraPredMode [xB] [yB] from the prediction information. That is, the intra prediction mode restoration unit 143 restores the prediction parameter in the prediction mode. Furthermore, the intra prediction mode restoration unit 143 also includes a configuration for deriving the color difference prediction mode IntraPredModeC [xB] [yB].
- FIG. 6 is a block diagram illustrating a configuration example of the intra prediction mode restoration unit 143. In FIG. 6, only the configuration for decoding the prediction mode among the configurations of the intra prediction mode restoration unit 143 is shown in detail.
- the intra prediction mode restoration unit 143 includes an MPM derivation unit 122, an MPM determination unit 123, a prediction mode restoration unit 124, a color difference prediction mode restoration unit 126, and a context storage unit 127.
- the MPM deriving unit 122 derives the MPM based on the prediction mode assigned to the partitions around the target partition.
- the MPM deriving unit 122 derives, for example, three MPMs.
- the MPM deriving unit 122 derives the first MPM candidate candModeList [0], the second MPM candidate candModeList [1], and the third MPM candidate candModeList [2] as follows.
- the prediction mode of the left adjacent PU (denoted as NA in FIG. 7) adjacent to the left of the target PU (denoted as RT in FIG. 7) is adjacent to candIntraPredModeA, and is adjacent to the pmB above the target PU.
- the prediction mode of the upper adjacent PU (denoted as NB in FIG. 7) is set.
- “PmA” and “pmB” shown in FIG. 7 indicate the candIntraPredModeA and the candIntraPredModeB, respectively.
- the MPM deriving unit 122 sets a predetermined prediction mode, for example, “Intra_Planar”.
- the case where the adjacent PU is unavailable includes a case where the prediction mode of the adjacent PU is not decoded, and the case where the adjacent PU is an upper adjacent PU and belongs to a different LCU (tree block).
- candIntraPredModeA! candIntraPredModeB Is satisfied
- candModeList [0] candIntraPredModeA
- candModeList [1] candIntraPredModeB
- candModeList [2] is determined as follows.
- candModeList [0] to candModeList [2] may be expressed as MPM0 to MPM2, respectively.
- the MPM determination unit 123 determines whether or not the prediction mode of the target PU matches the estimated prediction mode MPM based on mpm_flag (prev_intra_luma_pred_flag) included in the encoded data.
- FIG. 8 shows an example of syntax referred to for decoding the intra prediction mode.
- Mpm_flag is “1” when the prediction mode of the target PU matches the estimated prediction mode MPM, and “0” when the prediction mode of the target PU does not match the estimated prediction mode MPM.
- the MPM determination unit 123 notifies the prediction mode restoration unit 124 of the determination result.
- the MPM determination unit 123 decodes mpm_flag from the encoded data according to the context stored in the context storage unit 127.
- the prediction mode restoration unit 124 restores the prediction mode for the target PU.
- the prediction mode restoration unit 124 restores the prediction mode according to the determination result notified from the MPM determination unit 123.
- the prediction mode restoration unit 124 decodes mpm_idx from the encoded data, and restores the prediction mode based on the value.
- mpm_idx is “0” when the prediction mode of the target PU matches with candModeList [0], and “1” when the prediction mode of the target PU matches with candModeList [1].
- the prediction mode matches with candModeList [2], it is “2”.
- prediction mode restoration unit 124 may or may not use the context stored in the context storage unit 127 when decoding mpm_idx.
- the prediction mode restoration unit 124 restores the prediction mode based on rem_idx included in the encoded data. Specifically, first, candModeList [0] to candModeList [2] are sorted in ascending order. That is, (CandModeList [0] mode number) ⁇ (candModeList [1] mode number) ⁇ (candModeList [2] mode number) Sort so that
- rem_intra_luma_pred_mode rem_intra_luma_pred_mode
- mode is initialized as
- rem_intra_luma_pred_mode is an index of a prediction mode excluding MPM.
- the prediction mode restoration unit 124 restores the prediction mode corresponding to the mode obtained in this way.
- the color difference prediction mode restoration unit 126 restores the color difference prediction mode for the target PU. More specifically, the color difference prediction mode restoration unit 126 restores the color difference prediction mode as follows.
- the color difference prediction mode restoration unit 126 decodes intra color difference prediction mode designation information chroma_mode (intra_chroma_pred_mode) included in the encoded data # 1.
- the color difference prediction mode restoration unit 126 restores the color difference prediction mode based on the restored intra color difference prediction mode designation information chroma_mode and the luminance prediction mode (IntraPredMode [xB] [yB]).
- FIG. 9 shows an example of the definition of the prediction mode.
- 36 types of prediction modes are defined, and each prediction mode is a number from “0” to “35” (intrapredmode or intrapredmodec values, also referred to as an intra prediction mode index). Specified).
- the following names are assigned to the respective prediction modes. That is, “0” is “Intra Planar (planar prediction mode, plane prediction mode)”, “1” is “Intra DC (intra DC prediction mode)”, and “2” to “34” are “Intra Angular (direction prediction)” and “35” is “Intra From Luma”.
- the color difference prediction mode “35” is unique to the color difference prediction mode, and is a mode for performing color difference prediction based on luminance prediction.
- the color difference prediction mode “35” is a prediction mode using the correlation between the luminance pixel value and the color difference pixel value.
- the color difference prediction mode “35” is also referred to as an LM mode.
- the number of prediction modes (intraPredModeNum) is “36” regardless of the size of the target block.
- the set including the prediction mode 0 to the prediction mode 35 shown in FIGS. 9 and 10 may be referred to as a basic set.
- FIG. 11 is a diagram illustrating an example of a table referred to by the color difference prediction mode restoration unit 126 in order to derive the color difference prediction mode. More specifically, FIG. 11 is a diagram showing a table that defines the association between the intra color difference prediction mode designation information chroma_mode and the luminance prediction mode (IntraPredMode [xB] [yB]) and the color difference prediction mode (IntraPredModeC). It is.
- FIG. 11A is a table when the LM mode is included in the color difference prediction mode
- FIG. 11B is a table when the LM mode is not included in the color difference prediction mode.
- LM means that the LM mode is used.
- X indicates that the value of the luminance prediction mode (IntraPredMode [xB] [yB]) is used as it is.
- Whether to use a table including the LM mode or a table not including the LM mode is specified by the value of chroma_pred_from_luma_enabled_flag, for example.
- the motion vector candidate derivation unit 144 uses the base decoding information to derive an estimated motion vector candidate by intra-layer motion estimation processing or inter-layer motion estimation processing.
- the motion vector candidate derivation unit 144 supplies the derived motion vector candidates to the motion information restoration unit 145.
- the motion information restoration unit 145 restores motion information related to each inter PU that is not merged. That is, the motion information restoring unit 145 restores motion information as a prediction parameter.
- the motion information restoration unit 145 restores motion information from the prediction information when the target PU is an inter CU and an inter PU. More specifically, the motion information restoration unit 145 acquires a motion vector residual (mvd), an estimated motion vector index (mvp_idx), an inter prediction flag (inter_pred_flag), and a reference image index (refIdx). Then, based on the value of the inter prediction flag, a reference image list use flag is determined for each of the reference image list L0 and the reference image list L1.
- mvd motion vector residual
- mvp_idx estimated motion vector index
- inter_pred_flag inter prediction flag
- refIdx reference image index
- the motion information restoration unit 145 derives an estimated motion vector based on the value of the estimated motion vector index, A motion vector is derived based on the motion vector residual and the estimated motion vector.
- the motion information restoration unit 145 outputs the motion vector (motion compensation parameter) together with the derived motion vector, the reference image list use flag, and the reference image index.
- the merge candidate derivation unit 146 derives various merge candidates using the decoded motion information supplied from the frame memory 155 described later and / or the base decoding information supplied from the base decoding unit 16.
- the merge candidate derivation unit 146 supplies the derived merge candidates to the merge information restoration unit 147.
- the merge information restoration unit 147 restores motion information regarding each PU that is merged within a layer or between layers. That is, the motion information restoring unit 145 restores motion information as a prediction parameter.
- the merge information restoration unit 147 uses the merge candidate list derived by the merge candidate derivation unit 146 by intra-layer merging. Then, the motion information is restored by deriving a motion compensation parameter corresponding to the merge index (merge_idx) included in the prediction information.
- the merge information merging unit 146 derives a merge index (merge_idx) included in the prediction information from the merge candidate list derived by inter-layer merging.
- the motion information is restored by deriving the corresponding motion compensation parameter.
- FIG. 12 is a functional block diagram illustrating the configuration of the texture restoration unit 15.
- the texture restoration unit 15 includes an inverse orthogonal transform / inverse quantization unit 151, a texture prediction unit 152, an adder 153, a loop filter unit 154, and a frame memory 155.
- the inverse orthogonal transform / inverse quantization unit 151 (1) inversely quantizes the quantized prediction residual QD included in the transform coefficient information supplied from the variable length decoding unit 12, and (2) obtained by inverse quantization.
- the DCT coefficient is subjected to inverse orthogonal transform (for example, DCT (Discrete Cosine Transform) transform), and (3) the prediction residual D obtained by the inverse orthogonal transform is supplied to the adder 153.
- inverse orthogonal transform for example, DCT (Discrete Cosine Transform) transform
- the inverse orthogonal transform / inverse quantization unit 151 derives a quantization step QP from the quantization parameter difference ⁇ qp included in the transform coefficient information.
- the texture prediction unit 152 refers to the base decoded image included in the base decoding information or the decoded decoded image stored in the frame memory according to the prediction parameter, and generates a predicted image.
- the texture prediction unit 152 includes an inter prediction unit 152A, an intra-layer intra prediction unit 152B, and an inter-layer intra prediction unit 152C.
- the inter prediction unit 152A generates a prediction image related to each inter prediction partition by inter prediction. Specifically, the inter prediction unit 152A generates a prediction image from the reference image using the motion information supplied as a prediction parameter from the motion information restoration unit 145 or the merge information restoration unit 147.
- the intra-layer intra prediction unit 152B generates a prediction image related to each intra-prediction partition by intra-layer intra prediction. Specifically, the intra-layer intra prediction unit 152B generates a prediction image from the decoded image that has been decoded in the target partition, using the prediction mode supplied from the intra prediction mode restoration unit 143 as a prediction parameter.
- the inter-layer intra prediction unit 152C generates a prediction image related to each intra prediction partition by inter-layer intra prediction. Specifically, the intra-layer intra prediction unit 152C generates a prediction image based on the base decoded image included in the base decoding information, using the prediction mode supplied from the intra prediction mode restoration unit 143 as a prediction parameter. The base decoded image may be appropriately upsampled according to the resolution of the target layer. Details of inter-layer prediction by the intra-layer intra prediction unit 152C will be described later.
- the texture prediction unit 152 supplies the predicted image generated by the inter prediction unit 152A, the intra-layer intra prediction unit 152B, or the inter-layer intra prediction unit 152C to the adder 153.
- the adder 153 generates a decoded image by adding the prediction image of the texture prediction unit 153 and the prediction residual D supplied from the inverse orthogonal transform / inverse quantization unit 151.
- the loop filter unit 154 subjects the decoded image supplied from the adder 153 to deblocking processing and filtering processing using adaptive filter parameters.
- the frame memory 155 stores the decoded image that has been filtered by the loop filter unit 154.
- FIG. 13 is a functional block diagram illustrating the configuration of the base decoding unit 16.
- the base decoding unit 16 includes a variable length decoding unit 161, a base prediction parameter restoration unit 162, a base transform coefficient restoration unit 163, and a base texture restoration unit 164.
- variable length decoding unit 161 performs a decoding process of information for decoding various syntax values from the binary included in the reference layer encoded data DATA # R.
- variable length decoding unit 161 decodes prediction information and transform coefficient information from the encoded data DATA # R.
- the syntax of the prediction information and transform coefficients decoded by the variable length decoding unit 161 is the same as that of the variable length decoding unit 12, and therefore detailed description thereof is omitted here.
- variable length decoding unit 161 supplies the decoded prediction information to the base prediction parameter restoring unit 162 and also supplies the decoded transform coefficient information to the base transform coefficient restoring unit 163.
- the base prediction parameter restoration unit 162 restores the base prediction parameter based on the prediction information supplied from the variable length decoding unit 161.
- the method by which the base prediction parameter restoration unit 162 restores the base prediction parameter is the same as that of the prediction parameter restoration unit 14, and thus detailed description thereof is omitted here.
- the base prediction parameter restoration unit 162 supplies the restored base prediction parameter to the base texture restoration unit 164 and outputs it to the outside.
- the base transform coefficient restoration unit 163 restores transform coefficients based on the transform coefficient information supplied from the variable length decoding unit 161.
- the method by which the base transform coefficient restoration unit 163 restores the transform coefficients is the same as that of the inverse orthogonal transform / inverse quantization unit 151, and thus detailed description thereof is omitted here.
- the base conversion coefficient restoration unit 163 supplies the restored base conversion coefficient to the base texture restoration unit 164 and outputs it to the outside.
- the base texture restoration unit 164 uses the base prediction parameter supplied from the base prediction parameter restoration unit 162 and the base transform coefficient supplied from the base transform coefficient restoration unit 163 to generate a decoded image. Specifically, the base texture restoration unit 164 performs the same texture prediction as the texture prediction unit 152 based on the base prediction parameter, and generates a predicted image. Also, the base texture restoration unit 164 generates a prediction residual based on the base conversion coefficient, and generates a base decoded image by adding the generated prediction residual and the predicted image generated by texture prediction.
- the base texture restoration unit 164 may perform the same filter processing as the loop filter unit 154 on the base decoded image. Further, the base texture restoration unit 164 may include a frame memory for storing the decoded base decoded image, or may refer to the decoded base decoded image stored in the frame memory in texture prediction. Good.
- FIG. 14 is a schematic diagram schematically illustrating inter-layer prediction using a decoded image of a base layer.
- an intra prediction image of a target block of an enhancement layer (referred to as a target prediction block (hereinafter the same)) is temporally detected in the base layer.
- a decoded image of a reference block (referred to as a predicted block to be referred to (hereinafter the same)) that is a block located at the same time as the block and spatially arranged at a position corresponding to the target block Generated.
- the upsampling may be performed. Moreover, it is good also as a structure which produces
- FIG. 15 is a diagram illustrating syntax included in the intra prediction parameters according to the present example.
- the intra prediction parameters according to the present example include intra_layer_pred_flag [x0] [y0] in addition to the syntaxes illustrated in FIG. 8.
- intra_layer_pred_flag [x0] [y0] is a flag indicating whether or not to use inter-layer prediction, and is decoded by the above-described intra prediction mode restoration unit 143.
- intra-layer prediction by the intra-layer intra prediction unit 152C is not performed. In this case, only the prediction by the intra-layer intra prediction unit 152B can be selected as the intra prediction.
- intra_layer_pred_flag [x0] [y0] indicates true
- the above intra-layer prediction is performed by the inter-layer intra prediction unit 152C.
- the syntax prev_intra_luma_pred_flag [x0] [y0], mpm_idx [x0] [y0], rem_intra_luma_pred_mode [x0] [y0], and intra_chroma_pred0 [0] [0] May not be included in the encoded data.
- intra_layer_pred_flag since it is sufficient to encode intra_layer_pred_flag, the higher the rate at which the intra-layer prediction mode is selected, the higher the encoding efficiency.
- any one of a plurality of predetermined intra prediction modes (prediction modes 0 to 35 shown in FIG. 10) in a prediction mode group including at least a part of a plurality of predetermined intra prediction modes.
- an intra-layer prediction mode is included.
- the prediction mode group according to this example includes an intra-layer prediction mode (indicated as Intra_Base in FIG. 16) instead of the intra DC prediction mode (Intra_DC). It is included.
- an intra-layer prediction mode is included instead of any one of a plurality of predetermined intra prediction modes (prediction modes 0 to 35 shown in FIG. 10). Accordingly, intra-layer prediction can be suitably performed without increasing the code amount for designating the intra prediction mode.
- the prediction mode group according to this example includes an intra-layer prediction mode instead of the intra DC prediction mode.
- the intra-intra-layer prediction mode has higher prediction accuracy, so that the coding efficiency is improved.
- Inter-layer prediction mode is included in a prediction mode group including at least a part of a plurality of predetermined intra prediction modes, in addition to a plurality of predetermined intra prediction modes (prediction modes 0 to 35 shown in FIG. 10).
- the index of other prediction modes is raised by one.
- the total number of prediction modes other than 3 MPMs is 33, and a maximum of 6 bits is required for rem_idx. For this reason, in this example, it is preferable to appropriately use variable length coding in encoding and decoding of rem_idx.
- the MPM deriving unit 122 included in the intra prediction mode restoration unit 143 sets the prediction mode of the left adjacent block of the target block to candIntraPredModeA and the prediction mode of the upper adjacent block of the target block to candIntraPredModeBMode.
- candIntraPredModeA candIntraPredModeB
- candIntraPredModeA candIntraPredModeB
- candIntraPredModeA candIntraPredModeB
- candIntraPredModeA candIntraPredModeB
- candIntraPredModeA ⁇ 3 (Intra_Planar or Intra_DC or Intra_Base)
- candIntraPredModeA! candIntraPredModeB
- candModeList [2] candIntraPredModeB Set to.
- the intra-layer prediction mode (Intra_Base) is preferentially used, it is possible to improve the prediction accuracy while suppressing an increase in the code amount.
- the case where there are multiple intra-layer prediction modes is handled.
- intra-layer prediction mode a case where plural types of filters having different characteristics are applied to a decoded image of a base layer is applicable.
- Intra-layer prediction mode 1 A mode in which an up-sampling filter having a high noise removal effect is used for a decoded image of a base layer, and is used as a prediction image of an enhancement layer.
- Intra-layer prediction mode 2 A decoded image of a base layer
- a mode used as a prediction image of an enhancement layer can be used.
- Intra-layer prediction mode 1 Mode used as a prediction image of an enhancement layer after using an upsample filter of a certain phase for a decoded image of a base layer.
- Intra-layer prediction mode 2 For a decoded image of a base layer.
- a mode that is used as a prediction image of an enhancement layer after using an upsampling filter having a phase different from that of intra-intra-layer prediction mode 1 can be used.
- intra prediction mode restoration unit 143 decodes intra_layer_pred_flag [x0] [y0] and then intra_layer_pred_mode [x0] [y0, for example, as illustrated in FIG. ] (The range is 0 to the number of inter-intra-layer prediction modes-1), so that one of a plurality of intra-layer prediction modes can be selected.
- intra_layer_pred_mode [x0] [y0] is a syntax for designating any of a plurality of intra-layer prediction modes.
- the prediction mode related to luminance is derived by any one of the processes of ⁇ first example of intra-layer prediction> to ⁇ fourth example of intra-layer prediction>.
- the color difference prediction mode restoration unit 126 sets the prediction mode IntraPredModeC related to color difference to the intra-layer prediction mode.
- the color difference prediction mode restoring unit 126 refers to the prediction mode IntraPredModeC regarding color difference, for example, referring to the table shown in FIG. 11A or FIG. To derive.
- FIG. 20 is a diagram illustrating a syntax according to this example in a case where a configuration for switching between intra-layer prediction modes (corresponding to ⁇ first example of intra-layer prediction>) is employed as a luminance-related prediction mode.
- intra_chroma_pred_mode [x0] [y0] is encoded and decoded only when intra_layer_pred_flag [x0] [y0] is not true, that is, only when the intra-layer prediction mode is not used.
- FIG. 21 shows an example in which a configuration in which a prediction mode index is assigned to an intra-layer prediction mode (corresponding to ⁇ second example of intra-layer prediction> to ⁇ fourth example of intra-layer prediction>) is employed. It is a figure which shows the syntax which concerns on.
- intra_chroma_pred_mode [x0] [y0] is encoded and decoded only when the prediction mode related to luminance (indicated as IntraLumaPredMode in FIG. 21) is not intra-layer prediction (indicated as Intra_Base in FIG. 21). Is done.
- the intra-intra-layer prediction mode can be appropriately applied even to the prediction mode related to color difference, so that the coding efficiency is improved.
- the color difference prediction mode restoration unit 126 decodes a flag indicating whether the DM mode is actually used or the inter-intra layer prediction mode is used. Then, depending on the value of the flag, it is selected whether the DM mode is actually used or the intra-layer prediction mode is used.
- FIG. 22 is a diagram illustrating a syntax according to this example in a case where a configuration for switching between intra-layer prediction modes (corresponding to ⁇ first example of intra-layer prediction>) is adopted as a prediction mode related to luminance.
- the color difference prediction mode restoration unit 126 decodes a flag chroma_intra_layer_pred_flag indicating whether the DM mode is actually used or the intra-layer prediction mode is used.
- the color difference prediction mode restoration unit 126 selects whether the DM mode is actually used or the intra-layer prediction mode is used according to the value of the flag.
- FIG. 23 shows an example in which a configuration in which a prediction mode index is assigned to an intra-layer prediction mode (corresponding to ⁇ second example of inter-layer prediction> to ⁇ fourth example of intra-layer prediction>) is employed. It is a figure which shows the syntax which concerns on.
- the color difference prediction mode restoration unit 126 decodes a flag chroma_intra_layer_pred_flag indicating whether the DM mode is actually used or the intra-layer prediction mode is used.
- the color difference prediction mode restoration unit 126 selects whether the DM mode is actually used or the intra-layer prediction mode is used according to the value of the flag.
- the intra-intra-layer prediction mode can be appropriately applied even to the prediction mode related to color difference, so that the coding efficiency is improved.
- the color difference prediction mode restoration unit 126 selects the DM mode between intra layers related to the color difference. Interpret as prediction mode.
- the color difference prediction mode restoration unit 126 sets the prediction mode related to color difference to the intra-layer prediction mode.
- FIG. 24A shows that in the table including the LM mode, the DM mode is interpreted as an intra-layer prediction mode (indicated as Base in FIG. 24A).
- FIG. 24 (b) shows that the DM mode is interpreted as the intra-layer prediction mode in the table not including the LM mode.
- the prediction mode related to luminance is not the intra-layer prediction mode
- the DM mode is selected, the DM mode is actually applied.
- the intra-layer prediction mode can be appropriately applied to the prediction mode related to the color difference. Moreover, since the prediction accuracy can be improved without increasing the amount of codes, the coding efficiency is improved.
- ⁇ Configuration including base layer prediction mode in estimated prediction mode >>
- a configuration in which the prediction mode of the base layer is included in the estimated prediction mode may be employed instead of the configuration in which the intra-layer prediction is performed.
- the prediction mode of the target block of the enhancement layer when deriving the prediction mode of the target block of the enhancement layer, it is a block of the base layer that is temporally located at the same time as the target block of the enhancement layer, and spatially includes the target block.
- the intra prediction mode selected for the reference block that is a block arranged at a corresponding position may be included in the estimated prediction mode.
- the MPM deriving unit 122 included in the intra prediction mode restoration unit 143 sets the prediction mode of the reference block of the base layer to any one of the three MPMs.
- the MPM deriving unit 122 sets the prediction mode of the left adjacent block of the target block as candIntraPredModeA, the prediction mode of the upper adjacent block of the target block as candIntraPredModeB, and the prediction mode of the reference block of the base layer as candIntraPredModeBL.
- candIntraPredModeB candIntraPredModeB
- one of the three MPMs is set to the prediction mode selected in the reference block. For this reason, since possibility that the prediction mode selected in an object block will correspond with MPM increases, encoding efficiency improves.
- the number of MPMs is four, and one MPM is determined as the reference block prediction mode.
- the value of mpm_idx is 0.3.
- the MPM deriving unit 122 sets the prediction mode of the left adjacent block of the target block as candIntraPredModeA, the prediction mode of the upper adjacent block of the target block as candIntraPredModeB, and the prediction mode of the reference block of the base layer as candIntraPredModeBL.
- candIntraPredModeA! candIntraPredModeB Is satisfied
- candModeList [1] candIntraPredModeA
- candModeList [2] candIntraPredModeB
- candModeList [3] is determined as follows.
- the candModeList matching the candIntraPredModeBL is replaced with Intra_Angular (10).
- 10 (horizontal) and 26 (vertical) are used as the values (directions) of the Intra_Angular prediction mode set in the estimated prediction mode, but other values may be used.
- the prediction mode restoration unit 124 restores the prediction mode based on rem_idx included in the encoded data. Specifically, first, candModeList [0] to candModeList [3] are sorted in ascending order. That is, (CandModeList [0] mode number) ⁇ (candModeList [1] mode number) ⁇ (candModeList [2] mode number) ⁇ (candModeList [3] mode number) Sort so that
- rem_intra_luma_pred_mode rem_intra_luma_pred_mode
- mode is initialized as
- rem_intra_luma_pred_mode is an index of a prediction mode excluding MPM.
- the prediction mode restoration unit 124 restores the prediction mode corresponding to the mode obtained in this way.
- the index indicating the position is frequently used, and the encoding efficiency is improved. Is possible. Note that “store at a fixed position” can also be expressed as “store with a fixed index”.
- the above-described processing may be applied only to the first block of the tree block.
- FIG. 25 is a functional block diagram showing a schematic configuration of the hierarchical video encoding device 2.
- the hierarchical video encoding device 2 encodes the input image PIN # T of the target layer with reference to the reference layer encoded data DATA # R to generate hierarchical encoded data DATA of the target layer. It is assumed that the reference layer encoded data DATA # R has been encoded in the hierarchical video encoding apparatus corresponding to the reference layer.
- the hierarchical video encoding apparatus 2 includes a prediction parameter determination unit 21, a prediction information generation unit 22, a base decoding unit 23, a texture information generation unit 24, a variable length encoding unit 25, and a NAL multiplexing unit. 26.
- the prediction parameter determination unit 21 determines a prediction parameter used for prediction of a prediction image and other encoding settings based on the input image PIN # T.
- the prediction parameter determination unit 21 performs encoding settings including prediction parameters as follows.
- the prediction parameter determination unit 21 generates a CU image for the target CU by sequentially dividing the input image PIN # T into slice units, tree block units, and CU units.
- the prediction parameter determination unit 21 generates encoded information (sometimes referred to as header information) based on the result of the division process.
- the encoding information includes (1) tree block information that is information about the size and shape of the tree block belonging to the target slice and the position in the target slice, and (2) the size, shape, and target of the CU belonging to each tree block.
- CU information which is information about the position in the tree block.
- the prediction parameter determination unit 21 refers to the CU image, the tree block information, and the CU information, and predicts the prediction type of the target CU, the division information of the target CU into the PU, and the prediction parameter (the target CU is an intra CU). If so, the intra prediction mode, and in the case of an inter CU, a motion compensation parameter in each PU is derived.
- the prediction parameter determination unit 21 includes (1) a prediction type of the target CU, (2) a possible division pattern for each PU of the target CU, and (3) a prediction mode that can be assigned to each PU (if it is an intra CU).
- the cost is calculated for all combinations of the intra prediction mode and the motion compensation parameter in the case of inter CU), and the prediction type, division pattern, and prediction mode with the lowest cost are determined.
- the prediction parameter determination unit 21 supplies the encoded information and the prediction parameter to the prediction information generation unit 22 and the texture information generation unit 24. Although not shown for simplicity of explanation, the above-described encoding setting determined by the prediction parameter determination unit 21 can be referred to by each unit of the hierarchical video encoding device 2.
- the prediction information generation unit 22 generates prediction information including a syntax value related to the prediction parameter based on the prediction parameter supplied from the prediction parameter determination unit 21 and the reference layer encoded data DATA # R.
- the prediction information generation unit 22 supplies the generated prediction information to the variable length encoding unit 25.
- the prediction information generation unit 22 can refer to motion information stored in a frame memory 244 (described later) included in the texture information generation 24 when restoring the prediction parameter.
- the base decoding unit 23 is the same as the base decoding unit 16 of the hierarchical video decoding device 1, the description thereof is omitted here.
- the texture information generation unit 24 generates transform coefficient information including transform coefficients obtained by orthogonal transform / quantization of the prediction residual obtained by subtracting the predicted image from the input image PIN # T.
- the texture information generation unit 24 supplies the generated transform coefficient information to the variable length encoding unit 25.
- information on the restored decoded image is stored in an internal frame memory 244 (described later).
- variable length coding unit 25 performs variable length coding on the prediction information supplied from the prediction information generation unit 22 and the transform coefficient information supplied from the texture information generation unit 24 to generate target layer encoded data DATA # T.
- the variable length encoding unit 25 supplies the generated target layer encoded data DATA # T to the NAL multiplexing unit 26.
- the NAL multiplexing unit 26 stores the target layer encoded data DATA # T and the reference layer encoded data DATA # R supplied from the variable length encoding unit 25 in the NAL unit, and thereby performs hierarchical video that has been NAL multiplexed. Image encoded data DATA is generated and output to the outside.
- FIG. 26 is a functional block diagram illustrating the configuration of the prediction information generation unit 22.
- the prediction information generation unit 22 includes a prediction type selection unit 221, a switch 222, an intra prediction mode derivation unit 223, a motion vector candidate derivation unit 224, a motion information generation unit 225, a merge candidate derivation unit (interlayer candidate).
- the prediction type selection unit 221 sends a switching instruction to the switch 222 according to the CU type or PU type, and controls the prediction parameter derivation process. Specifically, it is as follows.
- the prediction type selection unit 221 controls the switch 222 so that the prediction information can be derived using the intra prediction mode deriving unit 223.
- the prediction type selection unit 221 uses the motion information generation unit 225 to control the switch 222 so that a prediction parameter can be derived.
- the prediction type selection unit 221 uses the merge information generation unit 227 to control the switch 222 so that a prediction parameter can be derived.
- the switch 222 supplies the prediction parameter to any of the intra prediction mode deriving unit 223, the motion information generating unit 225, and the merge information generating unit 227 in accordance with an instruction from the prediction type selecting unit 221.
- a prediction parameter is derived at a supply destination of the prediction information.
- the intra prediction mode deriving unit 223 derives a syntax value related to the prediction mode. That is, the intra prediction mode restoration unit 143 generates a syntax value related to the prediction mode as the prediction information.
- Specific processing by the intra prediction mode deriving unit 223 includes processing corresponding to the processing described with respect to the intra prediction mode restoration unit 143, particularly ⁇ first example of intra-layer prediction> to ⁇ seventh of intra-layer prediction.
- Example> and ⁇ First Example of Configuration Adding Base Layer Prediction Mode to Prediction Mode Group> to ⁇ Third Example of Configuration Adding Base Layer Prediction Mode to Prediction Mode Group> The processing corresponding to is included.
- “intra prediction mode restoration unit 143” in these descriptions is to be read as “intra prediction mode deriving unit 223”
- “MPM deriving unit 122” is “MPM deriving unit included in intra prediction mode deriving unit 223”. And shall be read as
- the motion vector candidate derivation unit 224 uses the base decoding information to derive an estimated motion vector candidate by intra-layer motion estimation processing or inter-layer motion estimation processing.
- the motion vector candidate derivation unit 224 supplies the derived motion vector candidates to the motion information generation unit 225.
- the motion information generation unit 225 generates a syntax value related to motion information in each inter prediction partition that is not merged. That is, the motion information restoration unit 145 generates a syntax value related to motion information as prediction information. Specifically, the motion information generation unit 225 derives corresponding syntax element values inter_pred_flag, mvd, mvp_idx, and refIdx from the motion compensation parameter in each PU.
- the motion information generation unit 225 derives the syntax value based on the motion vector candidates supplied from the motion vector candidate derivation unit 224.
- the motion information restoration unit 145 derives the syntax value based on the motion information included in the prediction parameter.
- the merge candidate derivation unit 226 uses motion information similar to a motion compensation parameter in each PU using decoded motion information supplied from a frame memory 155 described later and / or base decoding information supplied from the base decoding unit 23, and the like. A merge candidate having a compensation parameter is derived. The merge candidate derivation unit 226 supplies the derived merge candidates to the merge information generation unit 227.
- the configuration of the merge candidate derivation unit 226 is the same as the configuration of the merge candidate derivation unit 146 included in the hierarchical video decoding device 1, and thus the description thereof is omitted.
- the merge information generation unit 227 generates a syntax value related to motion information regarding each inter prediction partition to be merged. That is, the merge information generation unit 227 generates a syntax value related to motion information as prediction information. Specifically, the merge information generation unit 227 outputs a syntax element value merge_idx that specifies a merge candidate having a motion compensation parameter similar to the motion compensation parameter in each PU.
- FIG. 27 is a functional block diagram illustrating the configuration of the texture information generation unit 24.
- the texture information generation unit 24 includes a texture prediction unit 241, a subtractor 242, an orthogonal transform / quantization unit 243, an inverse orthogonal transform / inverse quantization unit 244, an adder 245, a loop filter unit 246, And a frame memory 247.
- the subtractor 242 generates a prediction residual D by subtracting the prediction image supplied from the texture prediction unit 241 from the input image PIN # T.
- the subtractor 242 supplies the generated prediction residual D to the transform / quantization unit 243.
- the orthogonal transform / quantization unit 243 generates a quantized prediction residual by performing orthogonal transform and quantization on the prediction residual D.
- the orthogonal transform refers to an orthogonal transform from the pixel region to the frequency region. Examples of orthogonal transformation include DCT transformation (DiscretecreCosine Transform), DST transformation (Discrete Sine Transform), and the like.
- DCT transformation DiscretecreCosine Transform
- DST transformation Discrete Sine Transform
- the specific quantization process is as described above, and the description thereof is omitted here.
- the orthogonal transform / quantization unit 243 supplies the generated transform coefficient information including the quantized prediction residual to the inverse transform / inverse quantization unit 244 and the variable length coding unit 25.
- the texture prediction unit 241, the inverse orthogonal transform / inverse quantization unit 244, the adder 245, the loop filter unit 246, and the frame memory 247 are respectively a texture prediction unit 152, an inverse orthogonal transform / Since it is similar to the inverse quantization unit 151, the adder 153, the loop filter unit 154, and the frame memory 155, the description thereof is omitted here. However, the texture prediction unit 241 supplies the predicted image not only to the adder 245 but also to the subtractor 242.
- the above-described hierarchical moving image encoding device 2 and hierarchical moving image decoding device 1 can be used by being mounted on various devices that perform transmission, reception, recording, and reproduction of moving images.
- the moving image may be a natural moving image captured by a camera or the like, or may be an artificial moving image (including CG and GUI) generated by a computer or the like.
- FIG. 28 is a block diagram illustrating a configuration of a transmission device PROD_A in which the hierarchical video encoding device 2 is mounted.
- the transmission device PROD_A modulates a carrier wave with an encoding unit PROD_A1 that obtains encoded data by encoding a moving image, and with the encoded data obtained by the encoding unit PROD_A1.
- a modulation unit PROD_A2 that obtains a modulation signal and a transmission unit PROD_A3 that transmits the modulation signal obtained by the modulation unit PROD_A2 are provided.
- the hierarchical moving image encoding apparatus 2 described above is used as the encoding unit PROD_A1.
- the transmission device PROD_A is a camera PROD_A4 that captures a moving image, a recording medium PROD_A5 that records the moving image, an input terminal PROD_A6 that inputs the moving image from the outside, as a supply source of the moving image input to the encoding unit PROD_A1.
- An image processing unit A7 that generates or processes an image may be further provided. In FIG. 28A, a configuration in which all of these are provided in the transmission device PROD_A is illustrated, but a part may be omitted.
- the recording medium PROD_A5 may be a recording of a non-encoded moving image, or a recording of a moving image encoded by a recording encoding scheme different from the transmission encoding scheme. It may be a thing. In the latter case, a decoding unit (not shown) for decoding the encoded data read from the recording medium PROD_A5 according to the recording encoding method may be interposed between the recording medium PROD_A5 and the encoding unit PROD_A1.
- FIG. 28 is a block diagram illustrating a configuration of the receiving device PROD_B in which the hierarchical video decoding device 1 is mounted.
- the receiving device PROD_B includes a receiving unit PROD_B1 that receives the modulated signal, a demodulating unit PROD_B2 that obtains encoded data by demodulating the modulated signal received by the receiving unit PROD_B1, and a demodulator.
- a decoding unit PROD_B3 that obtains a moving image by decoding the encoded data obtained by the unit PROD_B2.
- the above-described hierarchical video decoding device 1 is used as the decoding unit PROD_B3.
- the receiving device PROD_B has a display PROD_B4 for displaying a moving image, a recording medium PROD_B5 for recording the moving image, and an output terminal for outputting the moving image to the outside as a supply destination of the moving image output by the decoding unit PROD_B3.
- PROD_B6 may be further provided.
- FIG. 28B a configuration in which all of these are provided in the receiving device PROD_B is illustrated, but a part may be omitted.
- the recording medium PROD_B5 may be used for recording a non-encoded moving image, or may be encoded using a recording encoding method different from the transmission encoding method. May be. In the latter case, an encoding unit (not shown) for encoding the moving image acquired from the decoding unit PROD_B3 according to the recording encoding method may be interposed between the decoding unit PROD_B3 and the recording medium PROD_B5.
- the transmission medium for transmitting the modulation signal may be wireless or wired.
- the transmission mode for transmitting the modulated signal may be broadcasting (here, a transmission mode in which the transmission destination is not specified in advance) or communication (here, transmission in which the transmission destination is specified in advance). Refers to the embodiment). That is, the transmission of the modulation signal may be realized by any of wireless broadcasting, wired broadcasting, wireless communication, and wired communication.
- a terrestrial digital broadcast broadcasting station (broadcasting equipment or the like) / receiving station (such as a television receiver) is an example of a transmitting device PROD_A / receiving device PROD_B that transmits and receives a modulated signal by wireless broadcasting.
- a broadcasting station (such as broadcasting equipment) / receiving station (such as a television receiver) of cable television broadcasting is an example of a transmitting device PROD_A / receiving device PROD_B that transmits and receives a modulated signal by cable broadcasting.
- a server workstation etc.
- Client television receiver, personal computer, smart phone etc.
- VOD Video On Demand
- video sharing service using the Internet is a transmitting device for transmitting and receiving modulated signals by communication.
- PROD_A / reception device PROD_B usually, either a wireless or wired transmission medium is used in a LAN, and a wired transmission medium is used in a WAN.
- the personal computer includes a desktop PC, a laptop PC, and a tablet PC.
- the smartphone also includes a multi-function mobile phone terminal.
- the video sharing service client has a function of encoding a moving image captured by the camera and uploading it to the server. That is, the client of the video sharing service functions as both the transmission device PROD_A and the reception device PROD_B.
- FIG. 29A is a block diagram illustrating a configuration of a recording apparatus PROD_C in which the above-described hierarchical video encoding apparatus 2 is mounted.
- the recording apparatus PROD_C includes an encoding unit PROD_C1 that obtains encoded data by encoding a moving image, and the encoded data obtained by the encoding unit PROD_C1 on the recording medium PROD_M.
- the hierarchical moving image encoding device 2 described above is used as the encoding unit PROD_C1.
- the recording medium PROD_M may be of a type built in the recording device PROD_C, such as (1) HDD (Hard Disk Drive) or SSD (Solid State Drive), or (2) SD memory. It may be of the type connected to the recording device PROD_C, such as a card or USB (Universal Serial Bus) flash memory, or (3) DVD (Digital Versatile Disc) or BD (Blu-ray Disc: registration) For example, it may be loaded into a drive device (not shown) built in the recording device PROD_C.
- the recording device PROD_C is a camera PROD_C3 that captures moving images as a supply source of moving images to be input to the encoding unit PROD_C1, an input terminal PROD_C4 for inputting moving images from the outside, and reception for receiving moving images.
- the unit PROD_C5 and an image processing unit C6 that generates or processes an image may be further provided.
- FIG. 29A illustrates a configuration in which the recording apparatus PROD_C includes all of these, but a part of the configuration may be omitted.
- the receiving unit PROD_C5 may receive a non-encoded moving image, or may receive encoded data encoded by a transmission encoding scheme different from the recording encoding scheme. You may do. In the latter case, a transmission decoding unit (not shown) that decodes encoded data encoded by the transmission encoding method may be interposed between the reception unit PROD_C5 and the encoding unit PROD_C1.
- Examples of such a recording device PROD_C include a DVD recorder, a BD recorder, and an HDD (Hard Disk Drive) recorder (in this case, the input terminal PROD_C4 or the receiving unit PROD_C5 is a main supply source of moving images).
- a camcorder in this case, the camera PROD_C3 is a main source of moving images
- a personal computer in this case, the receiving unit PROD_C5 or the image processing unit C6 is a main source of moving images
- a smartphone in this case In this case, the camera PROD_C3 or the receiving unit PROD_C5 is a main supply source of moving images
- the camera PROD_C3 or the receiving unit PROD_C5 is a main supply source of moving images
- FIG. 29 is a block showing a configuration of a playback device PROD_D in which the above-described hierarchical video decoding device 1 is mounted.
- the playback device PROD_D reads a moving image by decoding a read unit PROD_D1 that reads encoded data written to the recording medium PROD_M and a coded data read by the read unit PROD_D1. And a decoding unit PROD_D2 to be obtained.
- the hierarchical moving image decoding apparatus 1 described above is used as the decoding unit PROD_D2.
- the recording medium PROD_M may be of the type built into the playback device PROD_D, such as (1) HDD or SSD, or (2) such as an SD memory card or USB flash memory, It may be of a type connected to the playback device PROD_D, or (3) may be loaded into a drive device (not shown) built in the playback device PROD_D, such as DVD or BD. Good.
- the playback device PROD_D has a display PROD_D3 that displays a moving image, an output terminal PROD_D4 that outputs the moving image to the outside, and a transmission unit that transmits the moving image as a supply destination of the moving image output by the decoding unit PROD_D2.
- PROD_D5 may be further provided.
- FIG. 29B illustrates a configuration in which the playback apparatus PROD_D includes all of these, but some of the configurations may be omitted.
- the transmission unit PROD_D5 may transmit an unencoded moving image, or transmits encoded data encoded by a transmission encoding method different from the recording encoding method. You may do. In the latter case, it is preferable to interpose an encoding unit (not shown) that encodes a moving image with an encoding method for transmission between the decoding unit PROD_D2 and the transmission unit PROD_D5.
- Examples of such a playback device PROD_D include a DVD player, a BD player, and an HDD player (in this case, an output terminal PROD_D4 to which a television receiver or the like is connected is a main supply destination of moving images).
- a television receiver in this case, the display PROD_D3 is a main supply destination of moving images
- a digital signage also referred to as an electronic signboard or an electronic bulletin board
- the display PROD_D3 or the transmission unit PROD_D5 is the main supply of moving images.
- Desktop PC (in this case, the output terminal PROD_D4 or the transmission unit PROD_D5 is the main video image supply destination), laptop or tablet PC (in this case, the display PROD_D3 or the transmission unit PROD_D5 is a moving image)
- a smartphone which is a main image supply destination
- a smartphone in this case, the display PROD_D3 or the transmission unit PROD_D5 is a main moving image supply destination
- the like are also examples of such a playback device PROD_D.
- each block of the hierarchical video decoding device 1 and the hierarchical video encoding device 2 may be realized in hardware by a logic circuit formed on an integrated circuit (IC chip), or may be a CPU (Central It may be realized by software using a Processing Unit).
- IC chip integrated circuit
- CPU Central It may be realized by software using a Processing Unit
- each of the devices includes a CPU that executes instructions of a control program that realizes each function, a ROM (Read Memory) that stores the program, a RAM (Random Access Memory) that expands the program, the program, and A storage device (recording medium) such as a memory for storing various data is provided.
- An object of the present invention is to provide a recording medium in which a program code (execution format program, intermediate code program, source program) of a control program for each of the above devices, which is software that realizes the above-described functions, is recorded so as to be readable by a computer. This can also be achieved by supplying each of the above devices and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU (Micro Processing Unit)).
- Examples of the recording medium include tapes such as magnetic tapes and cassette tapes, magnetic disks such as floppy (registered trademark) disks / hard disks, CD-ROMs (Compact Disc-Read-Only Memory) / MO (Magneto-Optical) / Discs including optical discs such as MD (Mini Disc) / DVD (Digital Versatile Disc) / CD-R (CD Recordable), cards such as IC cards (including memory cards) / optical cards, mask ROM / EPROM (Erasable) Programmable Read-only Memory) / EEPROM (registered trademark) (Electrically Eraseable and Programmable Read-only Memory) / Semiconductor memories such as flash ROM, or logic circuits such as PLD (Programmable Logic Device) and FPGA (Field Programmable Gate Array) Etc. can be used.
- tapes such as magnetic tapes and cassette tapes
- magnetic disks such as floppy (registered trademark) disks / hard disks
- each of the above devices may be configured to be connectable to a communication network, and the program code may be supplied via the communication network.
- the communication network is not particularly limited as long as it can transmit the program code.
- the Internet intranet, extranet, LAN (Local Area Network), ISDN (Integrated Services Digital Network), VAN (Value-Added Network), CATV (Community Area Antenna Television) communication network, Virtual Private Network (Virtual Private Network), A telephone line network, a mobile communication network, a satellite communication network, etc. can be used.
- the transmission medium constituting the communication network may be any medium that can transmit the program code, and is not limited to a specific configuration or type.
- the present invention can also be realized in the form of a computer data signal embedded in a carrier wave in which the program code is embodied by electronic transmission.
- the present invention is suitable for a hierarchical image decoding device that decodes encoded data in which image data is hierarchically encoded, and a hierarchical image encoding device that generates encoded data in which image data is hierarchically encoded. Can be applied to. Further, the present invention can be suitably applied to the data structure of hierarchically encoded data that is generated by a hierarchical image encoding device and referenced by the hierarchical image decoding device.
- Hierarchical video decoding device (image decoding device) 11 NAL Demultiplexing Unit 12 Variable Length Decoding Unit 13 Base Decoding Unit 14 Prediction Parameter Restoration Unit 15 Texture Restoration Unit 152 Texture Prediction Unit 152C Inter-layer Intra Prediction Unit (Predicted Image Generation Unit) 143 Intra prediction mode restoration unit (selection means) 122 MPM Deriving Unit 123 MPM Determination Unit 124 Prediction Mode Restoration Unit 126 Color Difference Prediction Mode Restoration Unit 127 Context Storage Unit 2 Hierarchical Video Coding Device (Image Coding Device) 21 Prediction parameter determination unit 22 Prediction information generation unit 223 Intra prediction mode derivation unit (selection means) 23 Base decoding unit 24 Texture information generation unit 241 Texture prediction unit 241C Intra-layer intra prediction unit (predicted image generation unit) 25 Variable length encoding unit 26 NAL multiplexing unit
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
本発明は、画像が階層的に符号化された階層符号化データを復号する画像復号装置、および画像を階層的に符号化することによって階層符号化データを生成する画像符号化装置に関する。
通信システムで伝送される情報、あるいは蓄積装置に記録される情報の1つに画像あるいは動画像がある。従来、これらの画像(以降、動画像を含む)の伝送・蓄積のため、画像を符号化する技術が知られている。
動画像符号化方式としては、H.264/MPEG-4.AVCや、その後継コーデックであるHEVC(High-Efficiency Video Coding)が知られている(非特許文献1)。
これらの動画像符号化方式では、通常、入力画像を符号化/復号することによって得られる局所復号画像に基づいて予測画像が生成され、当該予測画像を入力画像(原画像)から減算して得られる予測残差(「差分画像」または「残差画像」と呼ぶこともある)が符号化される。また、予測画像の生成方法としては、画面間予測(インター予測)、および、画面内予測(イントラ予測)が挙げられる。
イントラ予測においては、同一フレーム内の局所復号画像に基づいて、当該フレームにおける予測画像が順次生成される。
インター予測については、フレーム間の動き補償により予測画像が生成される。動き補償に関する情報(動き補償パラメータ)は、たいていの場合、符号量の削減のため直接符号化されない。そこで、インター予測では、対象ブロック周辺の復号状況等に基づく動き補償パラメータの推定が行われる。
また、近年、必要なデータレートに従って、画像を階層的に符号化する階層符号化技術が提案されている。
階層符号化の方式としては、ISO/IECとITU-Tの標準としてH.264/AVC Annex G Scalable Video Coding(SVC)が挙げられる。
SVCでは空間スケーラビリティ、時間スケーラビリティ、SNRスケーラビリティをサポートする。例えば空間スケーラビリティの場合、原画像から所望の解像度にダウンサンプリングした画像を下位レイヤとしてH.264/AVCで符号化する。次に上位レイヤではレイヤ間の冗長性を除去するためにレイヤ間予測を行う。
レイヤ間予測としては、動き予測に関する情報を同時刻の下位レイヤの情報から予測する動き情報予測、あるいは同時刻の下位レイヤの復号画像をアップサンプリングした画像から予測するテクスチャ予測がある(非特許文献2)。上記動き情報予測では、参照レイヤの動き情報を推定値として動き情報が符号化される。
図30は、レイヤ間予測のために参照されるシンタックスを示す図であって、(a)は、スライスヘッダに含まれるシンタックスを示しており、(b)は、マクロブロックレイヤ含まれるシンタックスを示している。
図30(a)に示すシンタックスadaptive_base_mode_flagは、ベースモードフラグ(base_mode_flag)をマクロブロック毎に符号化するか否かを指定するフラグであり、default_base_mode_flagは、ベースモードフラグの初期値を指定するためのフラグである。
図30(b)に示すベースモードフラグbase_mode_flagは、レイヤ間予測を行うか否かをマクロブロック毎に指定するフラグである。
「High efficiency video coding (HEVC) text specification draft 7(JCTVC-I1003_d1)」, Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 9th Meeting: Geneva, CH, 27 April - 7 May 2012(2012年4月公開)
ITU-T H.264 「Advanced video coding for generic audiovisual services」(2007年11月公開)
図30(b)に示すような、レイヤ間予測を行うか否かを指定するフラグを用いた場合、このフラグに起因して符号量が増大する場合があり、期待されるほど符号化効率が向上しないという問題があった。
本発明は、上記問題に鑑みてされたものであり、その目的は、階層符号化方式において、より効果的に符号化効率の向上を図ることのできる画像復号装置および画像符号化装置を実現することにある。
上記課題を解決するために、本発明に係る画像復号装置は、階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を用いて上位レイヤの復号画像を復元する画像復号装置であって、符号化データを参照し、予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群から、一の予測モードを選択する選択手段と、上記選択手段によって選択された予測モードに基づいて、上位レイヤにおける対象予測単位の予測画像を生成する予測画像生成手段とを備え、上記予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、上記選択手段は、符号化データに含まれるシンタックスであって、上記イントラレイヤ間予測モードと上記複数のイントラ予測モードとに関する共通のシンタックスを参照することによって、一の予測モードを選択することを特徴としている。
上記のように構成された画像復号装置によれば、予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、上記選択手段は、当該予測モード群から一の予測モードを選択する。
したがって、上記画像復号装置によれば、下位レイヤにおける復号画像に基づいて、上位レイヤにおける予測画像を生成することができるので、高い符号化効率を実現できる。
さらに、上記画像復号装置において、上記選択手段は、符号化データに含まれるシンタックスであって、上記イントラレイヤ間予測モードと上記複数のイントラ予測モードとに関する共通のシンタックスを参照することによって、一の予測モードを選択する。換言すれば、上記選択手段は、上記イントラレイヤ間予測モードを用いるか否かを指定する択一的なフラグを参照することなく、イントラレイヤ間予測モードを選択することができる。
このため、上記画像復号装置によれば、符号化データに含まれる符号量の増大を抑制することができるので、符号化効率の向上を図ることができる。
なお、上記予測単位とは、例えば、階層的ツリーブロック構造において、PU(Prediction Unit)と称される単位のことを指すが、これに限定されるものではなく、CU(Coding Unit)と呼ばれる単位であってもよいし、TU(Transform Unit)と呼ばれる単位であってもよい。
上記画像復号装置において、上記予測モード群には、上記予め定められた複数のイントラ予測モードの何れか1つの予測モードに代えて、上記イントラレイヤ間予測モードが含まれている、ことが好ましい。
上記の構成によれば、上記予測モード群には、上記予め定められた複数のイントラ予測モードの何れか1つの予測モードに代えて、上記イントラレイヤ間予測モードが含まれているので、予測モードの総数を増大させることなく、イントラレイヤ間予測モードを選択可能な構成が実現できる。
したがって、上記の構成によれば、符号量の増大を抑制しつつ、イントラレイヤ間予測モードを選択可能な構成が実現できる。
また、上記画像復号装置において、上記予測モード群には、上記予め定められた複数のイントラ予測モードに加えて、上記イントラレイヤ間予測モードが含まれていることが好ましい。
上記の構成よれば、上記予測モード群には、上記予め定められた複数のイントラ予測モードに加えて、上記イントラレイヤ間予測モードが含まれているので、符号化効率の向上を図ることができる。
また、上記画像復号装置において、上記予測モード群には、上記イントラレイヤ間予測モードが複数種類含まれており、上記選択手段は、上記複数種類のイントラレイヤ間予測モードの何れかを、符号化データに含まれるフラグを参照することによって選択する、ことが好ましい。
上記の構成によれば、上記予測モード群には、上記イントラレイヤ間予測モードが複数種類含まれており、上記選択手段は、上記複数種類のイントラレイヤ間予測モードの何れかを、符号化データに含まれるフラグを参照することによって選択するので、予測精度の更なる向上を図ることができる。
また、上記画像復号装置において、上記予測モード群には、上記イントラレイヤ間予測モードが複数種類含まれており、上記選択手段は、符号化データに含まれるシンタックスであって、上記複数種類のイントラレイヤ間予測モードと上記複数のイントラ予測モードとに関する共通のシンタックスを参照することによって、一の予測モードを選択する、ことが好ましい。
上記の構成によれば、上記予測モード群には、上記イントラレイヤ間予測モードが複数種類含まれており、上記選択手段は、符号化データに含まれるシンタックスであって、上記複数種類のイントラレイヤ間予測モードと上記複数のイントラ予測モードとに関する共通のシンタックスを参照することによって、一の予測モードを選択するので、予測精度の更なる向上を図ることができる。
また、発明に係る画像復号装置は、階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を用いて上位レイヤの復号画像を復元する画像復号装置であって、符号化データを参照し、予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群から、一の予測モードを選択する選択手段と、上記選択手段によって選択された予測モードに基づいて、上位レイヤにおける対象予測単位の予測画像を生成する予測画像生成手段とを備え、上記予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、上記選択手段は、符号化データに含まれるシンタックスであって、上記イントラレイヤ間予測モードを選択するか否かを示すフラグを参照することによって、一の予測モードを選択することを特徴としている。
上記のように構成された画像復号装置によれば、予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、上記選択手段は、当該予測モード群から一の予測モードを選択する。
したがって、上記画像復号装置によれば、下位レイヤにおける復号画像に基づいて、上位レイヤにおける予測画像を生成することができるので、高い符号化効率を実現できる。
上記画像復号装置において、上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、上記選択手段は、輝度に関する予測モードとして上記イントラレイヤ間予測モードを選択した場合、色差に関する予測モードとして、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードを選択することが好ましい。
上記の構成によれば、上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、上記選択手段は、輝度に関する予測モードとして上記イントラレイヤ間予測モードを選択した場合、色差に関する予測モードとしても、イントラレイヤ間予測モードを選択するので、色差に関する予測画像の予測精度を向上させることができる。
また、上記画像復号装置において、上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、色差に関する予測モード群には、輝度に関して選択された予測モードと同一の予測モードを用いるモードであるDMモードが含まれており、上記選択手段は、上記DMモードを仮選択した場合、符号化データに含まれるフラグの値を参照し、色差に関する予測モードとして、上記DMモードを実際に選択するのか、それとも、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードを選択するのかを決定することが好ましい。
上記の構成によれば、上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、色差に関する予測モード群には、輝度に関して選択された予測モードと同一の予測モードを用いるモードであるDMモードが含まれており、上記選択手段は、上記DMモードを仮選択した場合、符号化データに含まれるフラグの値を参照し、色差に関する予測モードとして、上記DMモードを実際に選択するのか、それとも、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードを選択するのかを決定するので、色差に関する予測画像の予測精度を向上させることができる。
また、上記画像復号装置において、上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、色差に関する予測モード群には、輝度に関して選択された予測モードと同一の予測モードを用いるモードであるDMモードが含まれており、上記選択手段は、上記DMモードを仮選択した場合、色差に関する予測モードとして、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードを選択することが好ましい。
上記の構成によれば、上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、色差に関する予測モード群には、輝度に関して選択された予測モードと同一の予測モードを用いるモードであるDMモードが含まれており、上記選択手段は、上記DMモードを仮選択した場合、色差に関する予測モードとして、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードを選択するので、色差に関する予測画像の予測精度を向上させることができる。
本発明に係る画像復号装置は、階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を用いて上位レイヤの復号画像を復元する画像復号装置であって、予め定められた複数のイントラ予測モードを含む予測モード群から一の予測モードを選択する選択手段と、上記選択手段によって選択された予測モードに基づいて、上位レイヤの対象予測単位における予測画像を生成する予測画像生成手段とを備え、上記予測モード群には、上位レイヤにおける対象予測単位と同時刻に位置する下位レイヤの予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位に対して選択されたイントラ予測モードが含まれている、ことを特徴としている。
発明者の知見によれば、上記レイヤにおける対象予測単位と、下位レイヤにおける参照予測単位とでは、解像度が異なったとしても、同様の予測方向を有している可能性が高い。
上記のように構成された画像復号装置によれば、予測モード群には、上位レイヤにおける対象予測単位と同時刻に位置する下位レイヤの予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位に対して選択されたイントラ予測モードが含まれており、上記選択手段は、当該予測モード群から一の予測モードを選択するので、符号化効率の向上を図ることができる。
また、本発明に係る画像復号装置において、上記選択手段は、上記予め定められた複数のイントラ予測モードの一部を含むように設定された推定予測モード群であって、上記対象予測単位の周辺の予測単位に割り付けられた予測モードに応じて定まる推定予測モード群から、一の予測モードを選択するものであり、上記推定予測モード群は、上記参照予測単位に対して選択されたイントラ予測モードを含むように設定されている、ことが好ましい。
上記の構成によれば、上記推定予測モード群は、上記参照予測単位に対して選択されたイントラ予測モードを含むように設定されているので、上記参照予測単位に対して選択されたイントラ予測モードを好適に活用して、上位レイヤにおける予測画像を生成することができる。したがって、上記構成によれば、符号化効率の向上を図ることができる。
また、本発明に係る画像復号装置において、上記推定予測モード群に含まれる推定予測モードは、インデックスによって互いに識別されるものであり、上記推定予測モード群に含まれる上記参照予測単位に対して選択されたイントラ予測モードには、予め定められたインデックスが付されている、ことが好ましい。
上記の構成によれば、上記推定予測モード群に含まれる推定予測モードは、インデックスによって互いに識別されるものであり、上記推定予測モード群に含まれる上記参照予測単位に対して選択されたイントラ予測モードには、固定的なインデックスが付されているので、上記参照予測単位に対して選択されたイントラ予測モードが選択される頻度が向上し、符号化効率の向上を図ることができる。
また、本発明に係る画像復号装置において、上記対象予測単位が、符号化単位において処理順で特定の位置を有する予測単位である場合に限って、上記予測モード群には、上記参照予測単位に対して選択されたイントラ予測モードが含まれている、ことが好ましい。
上記の構成によれば、上記対象予測単位が、符号化単位において処理順で特定の位置を有する予測単位である場合に限って、上記予測モード群には、上記参照予測単位に対して選択されたイントラ予測モードが含まれているので、上記参照予測単位に対して選択されたイントラ予測モードを保持するためのメモリを削減することができる。
本発明に係る画像符号化装置は、原画像から下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を減算して得られる残差を階層符号化して上位レイヤの符号化データを生成する画像符号化装置であって、予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群から、一の予測モードを選択する選択手段と、上記選択手段によって選択された予測モードに基づいて、上位レイヤにおける対象予測単位の予測画像を生成する予測画像生成手段とを備え、上記予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、上記イントラレイヤ間予測モードと、上記複数のイントラ予測モードとは、共通のシンタックスを用いて指定されている、ことを特徴とする。
上記のように構成された画像符号化装置によれば、予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、上記選択手段は、当該予測モード群から一の予測モードを選択する。
したがって、上記画像符号化装置によれば、下位レイヤにおける復号画像に基づいて、上位レイヤにおける予測画像を生成することができるので、高い符号化効率を実現できる。
さらに、上記画像符号化装置において、上記選択手段は、符号化データに含まれるシンタックスであって、上記イントラレイヤ間予測モードと上記複数のイントラ予測モードとに関する共通のシンタックスを参照することによって、一の予測モードを選択する。換言すれば、上記選択手段は、上記イントラレイヤ間予測モードを用いるか否かを指定する択一的なフラグを参照することなく、イントラレイヤ間予測モードを選択することができる。
このため、上記画像符号化装置によれば、符号化データに含まれる符号量の増大を抑制することができるので、符号化効率の向上を図ることができる。
以上のように、本発明に係る画像復号装置は、階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を用いて上位レイヤの復号画像を復元する画像復号装置であって、符号化データを参照し、予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群から、一の予測モードを選択する選択手段と、上記選択手段によって選択された予測モードに基づいて、上位レイヤにおける対象予測単位の予測画像を生成する予測画像生成手段とを備え、上記予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、上記選択手段は、符号化データに含まれるシンタックスであって、上記イントラレイヤ間予測モードと上記複数のイントラ予測モードとに関する共通のシンタックスを参照することによって、一の予測モードを選択する。
上記画像復号装置によれば、符号化効率の向上を図ることができる。
図1~図30に基づいて、本発明の一実施形態に係る階層動画像復号装置1および階層動画像符号化装置2について説明すれば以下のとおりである。
〔概要〕
本実施の形態に係る階層動画像復号装置(画像復号装置)1は、階層動画像符号化装置(画像符号化装置)2によってスケーラブル映像符号化(SVC;Scalable Video Coding)された符号化データを復号する。スケーラブル映像符号化とは、動画像を低品質のものから高品質のものにかけて階層的に符号化する符号化方式のことである。スケーラブル映像符号化は、例えば、H.264/AVC Annex G SVCにおいて標準化されている。なお、ここでいう動画像の品質とは、主観的および客観的な動画像の見栄えに影響する要素のことを広く意味する。動画像の品質には、例えば、“解像度”、“フレームレート”、“画質”、および、“画素の表現精度”が含まれる。よって、以下、動画像の品質が異なるといえば、例示的には、“解像度”等が異なることを指すが、これに限られない。例えば、異なる量子化ステップで量子化された動画像の場合(すなわち、異なる符号化雑音により符号化された動画像の場合)も互いに動画像の品質が異なるといえる。
〔概要〕
本実施の形態に係る階層動画像復号装置(画像復号装置)1は、階層動画像符号化装置(画像符号化装置)2によってスケーラブル映像符号化(SVC;Scalable Video Coding)された符号化データを復号する。スケーラブル映像符号化とは、動画像を低品質のものから高品質のものにかけて階層的に符号化する符号化方式のことである。スケーラブル映像符号化は、例えば、H.264/AVC Annex G SVCにおいて標準化されている。なお、ここでいう動画像の品質とは、主観的および客観的な動画像の見栄えに影響する要素のことを広く意味する。動画像の品質には、例えば、“解像度”、“フレームレート”、“画質”、および、“画素の表現精度”が含まれる。よって、以下、動画像の品質が異なるといえば、例示的には、“解像度”等が異なることを指すが、これに限られない。例えば、異なる量子化ステップで量子化された動画像の場合(すなわち、異なる符号化雑音により符号化された動画像の場合)も互いに動画像の品質が異なるといえる。
また、SVCは、階層化される情報の種類の観点から、(1)空間スケーラビリティ、(2)時間スケーラビリティ、および(3)SNR(Signal to Noise Ratio)スケーラビリティに分類されることもある。空間スケーラビリティとは、解像度や画像のサイズにおいて階層化する技術である。時間スケーラビリティとは、フレーム・レート(単位時間のフレーム数)において階層化する技術である。また、SNRスケーラビリティは、符号化雑音において階層化する技術である。
本実施形態に係る階層動画像符号化装置2及び階層動画像復号装置1の詳細な説明に先立って、まず(1)階層動画像符号化装置2によって生成され、階層動画像復号装置1によって復号される階層符号化データのレイヤ構造について説明し、次いで(2)各レイヤで採用できるデータ構造の具体例について説明を行う。
〔階層符号化データのレイヤ構造〕
ここで、図2を用いて、階層符号化データの符号化および復号について説明すると次のとおりである。図2は、動画像を、下位階層L3、中位階層L2、および上位階層L1の3階層により階層的に符号化/復号する場合について模式的に表す図である。つまり、図2(a)および(b)に示す例では、3階層のうち、上位階層L1が最上位層となり、下位階層L3が最下位層となる。
ここで、図2を用いて、階層符号化データの符号化および復号について説明すると次のとおりである。図2は、動画像を、下位階層L3、中位階層L2、および上位階層L1の3階層により階層的に符号化/復号する場合について模式的に表す図である。つまり、図2(a)および(b)に示す例では、3階層のうち、上位階層L1が最上位層となり、下位階層L3が最下位層となる。
以下において、階層符号化データから復号され得る特定の品質に対応する復号画像は、特定の階層の復号画像(または、特定の階層に対応する復号画像)と称される(例えば、上位階層L1の復号画像POUT#A)。
図2(a)は、入力画像PIN#A~PIN#Cをそれぞれ階層的に符号化して符号化データDATA#A~DATA#Cを生成する階層動画像符号化装置2#A~2#Cを示している。図2(b)は、階層的に符号化された符号化データDATA#A~DATA#Cをそれぞれ復号して復号画像POUT#A~POUT#Cを生成する階層動画像復号装置1#A~1#Cを示している。
まず、図2(a)を用いて、符号化装置側について説明する。符号化装置側の入力となる入力画像PIN#A、PIN#B、およびPIN#Cは、原画は同じだが、画像の品質(解像度、フレームレート、および画質等)が異なる。画像の品質は、入力画像PIN#A、PIN#B、およびPIN#Cの順に低くなる。
下位階層L3の階層動画像符号化装置2#Cは、下位階層L3の入力画像PIN#Cを符号化して下位階層L3の符号化データDATA#Cを生成する。下位階層L3の復号画像POUT#Cを復号するのに必要な基本情報が含まれる(図2において“C”にて示している)。下位階層L3は、最下層の階層であるため、下位階層L3の符号化データDATA#Cは、基本符号化データとも称される。
また、中位階層L2の階層動画像符号化装置2#Bは、中位階層L2の入力画像PIN#Bを、下位階層の符号化データDATA#Cを参照しながら符号化して中位階層L2の符号化データDATA#Bを生成する。中位階層L2の符号化データDATA#Bには、符号化データDATA#Cに含まれる基本情報“C”に加えて、中位階層の復号画像POUT#Bを復号するのに必要な付加的情報(図2において“B”にて示している)が含まれる。
また、上位階層L1の階層動画像符号化装置2#Aは、上位階層L1の入力画像PIN#Aを、中位階層L2の符号化データDATA#Bを参照しながら符号化して上位階層L1の符号化データDATA#Aを生成する。上位階層L1の符号化データDATA#Aには、下位階層L3の復号画像POUT#Cを復号するのに必要な基本情報“C”および中位階層L2の復号画像POUT#Bを復号するのに必要な付加的情報“B”に加えて、上位階層の復号画像POUT#Aを復号するのに必要な付加的情報(図2において“A”にて示している)が含まれる。
このように上位階層L1の符号化データDATA#Aは、異なる複数の品質の復号画像に関する情報を含む。
次に、図2(b)を参照しながら復号装置側について説明する。復号装置側では、上位階層L1、中位階層L2、および下位階層L3それぞれの階層に応じた復号装置1#A、1#B、および1#Cが、符号化データDATA#A、DATA#B、およびDATA#Cを復号して復号画像POUT#A、POUT#B、およびPOUT#Cを出力する。
なお、上位の階層符号化データの一部の情報を抽出して、より下位の特定の復号装置において、当該抽出した情報を復号することで特定の品質の動画像を再生することもできる。
例えば、中位階層L2の階層復号装置1#Bは、上位階層L1の階層符号化データDATA#Aから、復号画像POUT#Bを復号するのに必要な情報(すなわち、階層符号化データDATA#Aに含まれる“B”および“C”)を抽出して、復号画像POUT#Bを復号してもよい。言い換えれば、復号装置側では、上位階層L1の階層符号化データDATA#Aに含まれる情報に基づいて、復号画像POUT#A、POUT#B、およびPOUT#Cを復号することができる。
なお、以上の3階層の階層符号化データに限られず、階層符号化データは、2階層で階層符号化されていてもよいし、3階層よりも多い階層数にて階層符号化されていてもよい。
また、特定の階層の復号画像に関する符号化データの一部または全部を他の階層とは独立して符号化し、特定の階層の復号の際に、他の階層の情報を参照しなくても済むように階層符号化データを構成してもよい。例えば、図2(a)および(b)を用いて上述した例では、復号画像POUT#Bの復号に“C”および“B”を参照すると説明したが、これに限られない。復号画像POUT#Bが“B”だけを用いて復号できるように階層符号化データを構成することも可能である。
なお、SNRスケーラビリティを実現する場合、入力画像PIN#A、PIN#B、およびPIN#Cとして同一の原画を用いた上で、復号画像POUT#A、POUT#B、およびPOUT#Cが異なる画質となるよう階層符号化データを生成することもできる。その場合、下位階層の階層動画像符号化装置が、上位階層の階層動画像符号化装置に較べて、より大きい量子化幅を用いて予測残差を量子化することで階層符号化データを生成する。
本書では、説明の便宜上、次のとおり用語を定義する。以下の用語は、特に断りがなければ、下記の技術的事項のことを表わすのに用いる。
上位レイヤ : ある階層よりも上位に位置する階層のことを、上位レイヤと称する。例えば、図2において、下位階層L3の上位レイヤは、中位階層L2および上位階層L1である。また、上位レイヤの復号画像とは、より品質の高い(例えば、解像度が高い、フレームレートが高い、画質が高い等)復号画像のことをいう。
下位レイヤ : ある階層よりも下位に位置する階層のことを、下位レイヤと称する。例えば、図2において、上位階層L1の下位レイヤは、中位階層L2および下位階層L3である。また、下位レイヤの復号画像とは、より品質の低い復号画像のことをいう。
対象レイヤ : 復号または符号化の対象となっている階層のことをいう。
参照レイヤ(reference layer) : 対象レイヤに対応する復号画像を復号するのに参照される特定の下位レイヤのことを参照レイヤと称する。
図2(a)および(b)に示した例では、上位階層L1の参照レイヤは、中位階層L2および下位階層L3である。しかしながら、これに限られず、特定の上記レイヤの復号において、下位レイヤのすべてを参照しなくてもよいように階層符号化データを構成することもできる。例えば、上位階層L1の参照レイヤが、中位階層L2および下位階層L3のいずれか一方となるように階層符号化データを構成することも可能である。
基本レイヤ(base layer) : 最下層に位置する階層のことを基本レイヤと称する。基本レイヤの復号画像は、符号化データから復号され得るもっとも低い品質の復号画像であり、基本復号画像と呼称される。別の言い方をすれば、基本復号画像は、最下層の階層に対応する復号画像のことである。基本復号画像の復号に必要な階層符号化データの部分符号化データは基本符号化データと呼称される。例えば、上位階層L1の階層符号化データDATA#Aに含まれる基本情報“C”が基本符号化データである。
拡張レイヤ : 基本レイヤの上位レイヤは、拡張レイヤと称される。
レイヤ識別子 : レイヤ識別子は、階層を識別するためのものであり、階層と1対1に対応する。階層符号化データには特定の階層の復号画像の復号に必要な部分符号化データを選択するために用いられる階層識別子が含まれる。特定のレイヤに対応するレイヤ識別子に関連付けられた階層符号化データの部分集合は、レイヤ表現とも呼称される。
一般に、特定の階層の復号画像の復号には、当該階層のレイヤ表現、および/または、当該階層の下位レイヤに対応するレイヤ表現が用いられる。すなわち、対象レイヤの復号画像の復号においては、対象レイヤのレイヤ表現、および/または、対象レイヤの下位レイヤに含まれる1つ以上階層のレイヤ表現が用いられる。
レイヤ間予測 : レイヤ間予測とは、対象レイヤのレイヤ表現と異なる階層(参照レイヤ)のレイヤ表現に含まれるシンタックス要素値、シンタックス要素値より導出される値、および復号画像に基づいて、対象レイヤのシンタックス要素値や対象レイヤの復号に用いられる符号化パラメータ等を予測することである。動き予測に関する情報を(同時刻の)参照レイヤの情報から予測するレイヤ間予測のことを動き情報予測と称することもある。また、(同時刻の)下位レイヤの復号画像をアップサンプリングした画像から予測するレイヤ間予測のことをテクスチャ予測(あるいはレイヤ間イントラ予測)と称することもある。なお、レイヤ間予測に用いられる階層は、例示的には、対象レイヤの下位レイヤである。また、参照レイヤを用いず対象レイヤ内で予測を行うことをレイヤ内予測と称することもある。
なお、以上の用語は、飽くまで説明の便宜上のものであり、上記の技術的事項を別の用語にて表現してもかまわない。
〔階層符号化データのデータ構造について〕
以下、各階層の符号化データを生成する符号化方式として、HEVCおよびその拡張方式を用いる場合について例示する。しかしながら、これに限られず、各階層の符号化データを、MPEG-2や、H.264/AVCなどの符号化方式により生成してもよい。
以下、各階層の符号化データを生成する符号化方式として、HEVCおよびその拡張方式を用いる場合について例示する。しかしながら、これに限られず、各階層の符号化データを、MPEG-2や、H.264/AVCなどの符号化方式により生成してもよい。
また、下位レイヤと上位レイヤとが異なる符号化方式によって符号化されていてもよい。また、各階層の符号化データは、互いに異なる伝送路を介して階層動画像復号装置1に供給されるものであってもよいし、同一の伝送路を介して階層動画像復号装置1に供給されるものであってもよい。
例えば、超高精細映像(動画像、4K映像データ)を基本レイヤおよび1つの拡張レイヤによりスケーラブル符号化して伝送する場合、基本レイヤは、4K映像データをダウンスケーリングし、インタレース化した映像データをMPEG-2またはH.264/AVCにより符号化してテレビ放送網で伝送し、拡張レイヤは、4K映像(プログレッシブ)をHEVCにより符号化して、インターネットで伝送してもよい。
(基本レイヤ)
図3は、基本レイヤにおいて採用することができる符号化データ(図2の例でいえば、階層符号化データDATA#C)のデータ構造について例示する図である。階層符号化データDATA#Cは、例示的に、シーケンス、およびシーケンスを構成する複数のピクチャを含む。
図3は、基本レイヤにおいて採用することができる符号化データ(図2の例でいえば、階層符号化データDATA#C)のデータ構造について例示する図である。階層符号化データDATA#Cは、例示的に、シーケンス、およびシーケンスを構成する複数のピクチャを含む。
階層符号化データDATA#Cにおけるデータの階層構造を図3に示す。図3の(a)~(e)は、それぞれ、シーケンスSEQを規定するシーケンスレイヤ、ピクチャPICTを規定するピクチャレイヤ、スライスSを規定するスライスレイヤ、ツリーブロック(Tree block)TBLKを規定するツリーブロックレイヤ、ツリーブロックTBLKに含まれる符号化単位(Coding Unit;CU)を規定するCUレイヤを示す図である。
(シーケンスレイヤ)
シーケンスレイヤでは、処理対象のシーケンスSEQ(以下、対象シーケンスとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。シーケンスSEQは、図3の(a)に示すように、シーケンスパラメータセットSPS(Sequence Parameter Set)、ピクチャパラメータセットPPS(Picture Parameter Set)、適応パラメータセットAPS(Adaptation Parameter Set)、ピクチャPICT1~PICTNP(NPはシーケンスSEQに含まれるピクチャの総数)、及び、付加拡張情報SEI(Supplemental Enhancement Information)を含んでいる。
シーケンスレイヤでは、処理対象のシーケンスSEQ(以下、対象シーケンスとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。シーケンスSEQは、図3の(a)に示すように、シーケンスパラメータセットSPS(Sequence Parameter Set)、ピクチャパラメータセットPPS(Picture Parameter Set)、適応パラメータセットAPS(Adaptation Parameter Set)、ピクチャPICT1~PICTNP(NPはシーケンスSEQに含まれるピクチャの総数)、及び、付加拡張情報SEI(Supplemental Enhancement Information)を含んでいる。
シーケンスパラメータセットSPSでは、対象シーケンスを復号するために階層動画像復号装置1が参照する符号化パラメータの集合が規定されている。
ピクチャパラメータセットPPSでは、対象シーケンス内の各ピクチャを復号するために階層動画像復号装置1が参照する符号化パラメータの集合が規定されている。なお、PPSは複数存在してもよい。その場合、対象シーケンス内の各ピクチャから複数のPPSの何れかを選択する。
適応パラメータセットAPSは、対象シーケンス内の各スライスを復号するために階層動画像復号装置1が参照する符号化パラメータの集合が規定されている。APSは複数存在してもよい。その場合、対象シーケンス内の各スライスから複数のAPSの何れかを選択する。
(ピクチャレイヤ)
ピクチャレイヤでは、処理対象のピクチャPICT(以下、対象ピクチャとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。ピクチャPICTは、図3の(b)に示すように、ピクチャヘッダPH、及び、スライスS1~SNSを含んでいる(NSはピクチャPICTに含まれるスライスの総数)。
ピクチャレイヤでは、処理対象のピクチャPICT(以下、対象ピクチャとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。ピクチャPICTは、図3の(b)に示すように、ピクチャヘッダPH、及び、スライスS1~SNSを含んでいる(NSはピクチャPICTに含まれるスライスの総数)。
なお、以下、スライスS1~SNSのそれぞれを区別する必要が無い場合、符号の添え字を省略して記述することがある。また、以下に説明する階層符号化データDATA#Cに含まれるデータであって、添え字を付している他のデータについても同様である。
ピクチャヘッダPHには、対象ピクチャの復号方法を決定するために階層動画像復号装置1が参照する符号化パラメータ群が含まれている。なお、符号化パラメータ群は、必ずしもピクチャヘッダPH内に直接含んでいる必要はなく、例えばピクチャパラメータセットPPSへの参照を含むことで、間接的に含めても良い。
(スライスレイヤ)
スライスレイヤでは、処理対象のスライスS(対象スライスとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。スライスSは、図3の(c)に示すように、スライスヘッダSH、及び、ツリーブロックTBLK1~TBLKNC(NCはスライスSに含まれるツリーブロックの総数)のシーケンスを含んでいる。
スライスレイヤでは、処理対象のスライスS(対象スライスとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。スライスSは、図3の(c)に示すように、スライスヘッダSH、及び、ツリーブロックTBLK1~TBLKNC(NCはスライスSに含まれるツリーブロックの総数)のシーケンスを含んでいる。
スライスヘッダSHには、対象スライスの復号方法を決定するために階層動画像復号装置1が参照する符号化パラメータ群が含まれる。スライスタイプを指定するスライスタイプ指定情報(slice_type)は、スライスヘッダSHに含まれる符号化パラメータの一例である。
スライスタイプ指定情報により指定可能なスライスタイプとしては、(1)符号化の際にイントラ予測のみを用いるIスライス、(2)符号化の際に単方向予測、又は、イントラ予測を用いるPスライス、(3)符号化の際に単方向予測、双方向予測、又は、イントラ予測を用いるBスライスなどが挙げられる。
なお、スライスヘッダSHには、上記シーケンスレイヤに含まれる、ピクチャパラメータセットPPSへの参照(pic_parameter_set_id)、適応パラメータセットAPSへの参照(aps_id)を含んでいても良い。
また、スライスヘッダSHには、階層動画像復号装置1の備える適応フィルタによって参照されるフィルタパラメータFPが含まれている。フィルタパラメータFPは、フィルタ係数群を含んでいる。フィルタ係数群には、(1)フィルタのタップ数を指定するタップ数指定情報、(2)フィルタ係数a0~aNT-1(NTは、フィルタ係数群に含まれるフィルタ係数の総数)、および、(3)オフセットが含まれる。
(ツリーブロックレイヤ)
ツリーブロックレイヤでは、処理対象のツリーブロックTBLK(以下、対象ツリーブロックとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。なお、ツリーブロックのことを符号化ツリーブロック(CTB:Coding Tree block)、または、最大符号化単位(LCU:Largest Cording Unit)と呼ぶこともある。
ツリーブロックレイヤでは、処理対象のツリーブロックTBLK(以下、対象ツリーブロックとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。なお、ツリーブロックのことを符号化ツリーブロック(CTB:Coding Tree block)、または、最大符号化単位(LCU:Largest Cording Unit)と呼ぶこともある。
ツリーブロックTBLKは、ツリーブロックヘッダTBLKHと、符号化単位情報CU1~CUNL(NLはツリーブロックTBLKに含まれる符号化単位情報の総数)とを含む。ここで、まず、ツリーブロックTBLKと、符号化単位情報CUとの関係について説明すると次のとおりである。
ツリーブロックTBLKは、イントラ予測またはインター予測、および、変換の各処理ためのブロックサイズを特定するためのパーティションに分割される。
ツリーブロックTBLKの上記パーティションは、再帰的な4分木分割により分割されている。この再帰的な4分木分割により得られる木構造のことを以下、符号化ツリー(coding tree)と称する。
以下、符号化ツリーの末端のノードであるリーフ(leaf)に対応するパーティションを、符号化ノード(coding node)として参照する。また、符号化ノードは、符号化処理の基本的な単位となるため、以下、符号化ノードのことを、符号化単位(CU)とも称する。なお、符号化ノードは、符号化ブロック(CB: Coding Block)と呼ぶこともある。
つまり、符号化単位情報(以下、CU情報と称する)CU1~CUNLは、ツリーブロックTBLKを再帰的に4分木分割して得られる各符号化ノード(符号化単位)に対応する情報である。
また、符号化ツリーのルート(root)は、ツリーブロックTBLKに対応付けられる。換言すれば、ツリーブロックTBLKは、複数の符号化ノードを再帰的に含む4分木分割の木構造の最上位ノードに対応付けられる。
なお、各符号化ノードのサイズは、当該符号化ノードが直接に属する符号化ノード(すなわち、当該符号化ノードの1階層上位のノードのパーティション)のサイズの縦横とも半分である。
また、ツリーブロックTBLKのサイズ、および、各符号化ノードのとり得るサイズは、階層符号化データDATA#CのシーケンスパラメータセットSPSに含まれる、最小符号化ノードのサイズ指定情報、および最大符号化ノードと最小符号化ノードの階層深度の差分に依存する。例えば、最小符号化ノードのサイズが8×8画素であって、最大符号化ノードと最小符号化ノードの階層深度の差分が3である場合、ツリーブロックTBLKのサイズが64×64画素であって、符号化ノードのサイズは、4種類のサイズ、すなわち、64×64画素、32×32画素、16×16画素、および、8×8画素の何れかをとり得る。
(ツリーブロックヘッダ)
ツリーブロックヘッダTBLKHには、対象ツリーブロックの復号方法を決定するために階層動画像復号装置1が参照する符号化パラメータが含まれる。具体的には、図3の(d)に示すように、対象ツリーブロックの各CUへの分割パターンを指定するツリーブロック分割情報SP_TBLK、および、量子化ステップの大きさを指定する量子化パラメータ差分Δqp(qp_delta)が含まれる。
ツリーブロックヘッダTBLKHには、対象ツリーブロックの復号方法を決定するために階層動画像復号装置1が参照する符号化パラメータが含まれる。具体的には、図3の(d)に示すように、対象ツリーブロックの各CUへの分割パターンを指定するツリーブロック分割情報SP_TBLK、および、量子化ステップの大きさを指定する量子化パラメータ差分Δqp(qp_delta)が含まれる。
ツリーブロック分割情報SP_TBLKは、ツリーブロックを分割するための符号化ツリーを表す情報であり、具体的には、対象ツリーブロックに含まれる各CUの形状、サイズ、および、対象ツリーブロック内での位置を指定する情報である。
なお、ツリーブロック分割情報SP_TBLKは、CUの形状やサイズを明示的に含んでいなくてもよい。例えばツリーブロック分割情報SP_TBLKは、対象ツリーブロック全体またはツリーブロックの部分領域を四分割するか否かを示すフラグの集合であってもよい。その場合、ツリーブロックの形状やサイズを併用することで各CUの形状やサイズを特定できる。
また、量子化パラメータ差分Δqpは、対象ツリーブロックにおける量子化パラメータqpと、当該対象ツリーブロックの直前に符号化されたツリーブロックにおける量子化パラメータqp’との差分qp-qp’である。
(CUレイヤ)
CUレイヤでは、処理対象のCU(以下、対象CUとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。
CUレイヤでは、処理対象のCU(以下、対象CUとも称する)を復号するために階層動画像復号装置1が参照するデータの集合が規定されている。
ここで、CU情報CUに含まれるデータの具体的な内容の説明をする前に、CUに含まれるデータの木構造について説明する。符号化ノードは、予測ツリー(prediction tree;PT)および変換ツリー(transform tree;TT)のルートのノードとなる。予測ツリーおよび変換ツリーについて説明すると次のとおりである。
予測ツリーにおいては、符号化ノードが1または複数の予測ブロックに分割され、各予測ブロックの位置とサイズとが規定される。別の表現でいえば、予測ブロックは、符号化ノードを構成する1または複数の重複しない領域である。また、予測ツリーは、上述の分割により得られた1または複数の予測ブロックを含む。
予測処理は、この予測ブロックごとに行われる。以下、予測の単位である予測ブロックのことを、予測単位(prediction unit;PU)とも称する。
予測ツリーにおける分割(以下、PU分割と略称する)の種類は、大まかにいえば、イントラ予測の場合と、インター予測の場合との2つがある。
イントラ予測の場合、分割方法は、2N×2N(符号化ノードと同一サイズ)と、N×Nとがある。
また、インター予測の場合、分割方法は、2N×2N(符号化ノードと同一サイズ)、2N×N、2N×nU、2N×nD、N×2N、nL×2N、nR×2N、および、N×Nなどがある。PU分割の種類については、後に図面を用いて説明する。
また、変換ツリーにおいては、符号化ノードが1または複数の変換ブロックに分割され、各変換ブロックの位置とサイズとが規定される。別の表現でいえば、変換ブロックは、符号化ノードを構成する1または複数の重複しない領域のことである。また、変換ツリーは、上述の分割より得られた1または複数の変換ブロックを含む。
変換ツリーにおける分割には、符号化ノードと同一のサイズの領域を変換ブロックとして割り付けるものと、上述したツリーブロックの分割と同様、再帰的な4分木分割によるものがある。
変換処理は、この変換ブロックごとに行われる。以下、変換の単位である変換ブロックのことを、変換単位(transform unit;TU)とも称する。
(CU情報のデータ構造)
続いて、図3(e)を参照しながらCU情報CUに含まれるデータの具体的な内容について説明する。図3(e)に示すように、CU情報CUは、具体的には、スキップフラグSKIP、予測ツリー情報(以下、PT情報と略称する)PTI、および、変換ツリー情報(以下、TT情報と略称する)TTIを含む。
続いて、図3(e)を参照しながらCU情報CUに含まれるデータの具体的な内容について説明する。図3(e)に示すように、CU情報CUは、具体的には、スキップフラグSKIP、予測ツリー情報(以下、PT情報と略称する)PTI、および、変換ツリー情報(以下、TT情報と略称する)TTIを含む。
スキップフラグSKIPは、対象のPUについて、スキップモードが適用されているか否かを示すフラグであり、スキップフラグSKIPの値が1の場合、すなわち、対象CUにスキップモードが適用されている場合、そのCU情報CUにおけるPT情報PTIの一部、および、TT情報TTIは省略される。なお、スキップフラグSKIPは、Iスライスでは省略される。
[PT情報]
PT情報PTIは、CUに含まれる予測ツリー(以下、PTと略称する)に関する情報である。言い換えれば、PT情報PTIは、PTに含まれる1または複数のPUそれぞれに関する情報の集合であり、階層動画像復号装置1により予測画像を生成する際に参照される。PT情報PTIは、図3(e)に示すように、予測タイプ情報PType、および、予測情報PInfoを含んでいる。
PT情報PTIは、CUに含まれる予測ツリー(以下、PTと略称する)に関する情報である。言い換えれば、PT情報PTIは、PTに含まれる1または複数のPUそれぞれに関する情報の集合であり、階層動画像復号装置1により予測画像を生成する際に参照される。PT情報PTIは、図3(e)に示すように、予測タイプ情報PType、および、予測情報PInfoを含んでいる。
予測タイプ情報PTypeは、対象PUについての予測画像生成方法として、イントラ予測を用いるのか、または、インター予測を用いるのかを指定する情報である。
予測情報PInfoは、予測タイプ情報PTypeが何れの予測方法を指定するのかに応じて、イントラ予測情報PP_Intra、または、インター予測情報PP_Interを含む。以下では、イントラ予測が適用されるPUをイントラPUとも呼称し、インター予測が適用されるPUをインターPUとも呼称する。
インター予測情報PP_Interは、階層動画像復号装置1が、インター予測によってインター予測画像を生成する際に参照される符号化パラメータを含む。より具体的には、インター予測情報PP_Interは、対象CUの各インターPUへの分割パターンを指定するインターPU分割情報、および、各インターPUについてのインター予測パラメータを含む。
イントラ予測情報PP_Intraは、階層動画像復号装置1が、イントラ予測によってイントラ予測画像を生成する際に参照される符号化パラメータを含む。より具体的には、イントラ予測情報PP_Intraには、対象CUの各イントラPUへの分割パターンを指定するイントラPU分割情報、および、各イントラPUについてのイントラ予測パラメータが含まれる。イントラ予測パラメータは、各イントラPUについてのイントラ予測方法(予測モード)を指定するためのパラメータである。
ここで、イントラ予測パラメータは、各イントラPUについてのイントラ予測(予測モード)を復元するためのパラメータである。予測モードを復元するためのパラメータには、MPM(Most Probable Mode、以下同様)に関するフラグであるmpm_flag、MPMを選択するためのインデックスであるmpm_idx、および、MPM以外の予測モードを指定するためのインデックスであるrem_idxが含まれる。ここで、MPMとは、対象パーティションで選択される可能性が高い推定予測モードである。例えば、対象パーティションの周辺のパーティションに割り付けられた予測モードに基づいて推定された推定予測モードや、一般的に発生確率の高いDCモードやPlanarモードがMPMに含まれ得る。
また、イントラ予測パラメータは、イントラレイヤ間予測モードを用いるのか否かを指定するフラグintra_layer_pred_flagを更に含む構成とすることもできる。
また、イントラ予測パラメータは、複数種類のイントラレイヤ間予測モードの何れかを指定するためのフラグintra_layer_pred_modeを更に含む構成とすることもできる。
また、イントラ予測パラメータは、DMモードが仮選択された場合に、色差に関する予測モードとして、当該DMモード及びイントラレイヤ間予測モードの何れかを指定するためのフラグchroma_intra_layer_pred_flagを含む構成とすることもできる。
また、以下において、単に“予測モード”と表記する場合、特にことわりのない限り、輝度予測モードのことを指すものとする。色差予測モードについては、“色差予測モード”と表記し、輝度予測モードと区別する。また、予測モードを復元するパラメータには、色差予測モードを指定するためのパラメータであるchroma_modeが含まれる。
なお、mpm_flag、mpm_idx、rem_idx、およびchroma_modeのパラメータの詳細については、後述する。また、mpm_flagおよびrem_idxは、それぞれ、例えば、非特許文献1における“prev_intra_luma_pred_flag”および“rem_intra_luma_pred_mode”に対応している。また、chroma_modeは、“intra_chroma_pred_mode”に対応している。
また、PU分割情報には、対象PUの形状、サイズ、および、位置を指定する情報が含まれていてもよい。PU分割情報の詳細については後述する。
[TT情報]
TT情報TTIは、CUに含まれる変換ツリー(以下、TTと略称する)に関する情報である。言い換えれば、TT情報TTIは、TTに含まれる1または複数のTUそれぞれに関する情報の集合であり、階層動画像復号装置1により残差データを復号する際に参照される。なお、以下、TUのことをブロックと称することもある。
TT情報TTIは、CUに含まれる変換ツリー(以下、TTと略称する)に関する情報である。言い換えれば、TT情報TTIは、TTに含まれる1または複数のTUそれぞれに関する情報の集合であり、階層動画像復号装置1により残差データを復号する際に参照される。なお、以下、TUのことをブロックと称することもある。
TT情報TTIは、図3(e)に示すように、対象CUの各変換ブロックへの分割パターンを指定するTT分割情報SP_TT、および、量子化予測残差QD1~QDNT(NTは、対象CUに含まれるブロックの総数)を含んでいる。
TT分割情報SP_TTは、具体的には、対象CUに含まれる各TUの形状、サイズ、および、対象CU内での位置を決定するための情報である。例えば、TT分割情報SP_TTは、対象となるノードの分割を行うのか否かを示す情報(split_transform_unit_flag)と、その分割の深度を示す情報(trafoDepth)とから実現することができる。
また、例えば、CUのサイズが、64×64の場合、分割により得られる各TUは、32×32画素から4×4画素までのサイズをとり得る。
各量子化予測残差QDは、階層動画像符号化装置2が以下の処理1~3を、処理対象のブロックである対象ブロックに施すことによって生成した符号化データである。
処理1:符号化対象画像から予測画像を減算した予測残差を周波数変換(例えば、DCT変換(Discrete Cosine Transform)およびDST変換(Discrete Sine Transform)等)する;
処理2:処理1にて得られた変換係数を量子化する;
処理3:処理2にて量子化された変換係数を可変長符号化する;
なお、上述した量子化パラメータqpは、階層動画像符号化装置2が変換係数を量子化する際に用いた量子化ステップQPの大きさを表す(QP=2qp/6)。
処理2:処理1にて得られた変換係数を量子化する;
処理3:処理2にて量子化された変換係数を可変長符号化する;
なお、上述した量子化パラメータqpは、階層動画像符号化装置2が変換係数を量子化する際に用いた量子化ステップQPの大きさを表す(QP=2qp/6)。
(予測パラメータ)
インター予測およびイントラ予測における予測パラメータの詳細について説明する。上述のとおり、予測情報PInfoには、インター予測パラメータまたはイントラ予測パラメータが含まれる。
インター予測およびイントラ予測における予測パラメータの詳細について説明する。上述のとおり、予測情報PInfoには、インター予測パラメータまたはイントラ予測パラメータが含まれる。
インター予測パラメータとしては、例えば、マージフラグ(merge_flag)、マージインデックス(merge_idx)、推定動きベクトルインデックス(mvp_idx)、参照画像インデックス(ref_idx)、インター予測フラグ(inter_pred_flag)、および動きベクトル残差(mvd)が挙げられる。
一方、イントラ予測パラメータとしては、例えば、推定予測モードフラグ、推定予測モードインデックス、および、残余予測モードインデックスが挙げられる。
(PU分割情報)
PU分割情報によって指定されるPU分割タイプには、対象CUのサイズを2N×2N画素とすると、次の合計8種類のパターンがある。すなわち、2N×2N画素、2N×N画素、N×2N画素、およびN×N画素の4つの対称的分割(symmetric splittings)、並びに、2N×nU画素、2N×nD画素、nL×2N画素、およびnR×2N画素の4つの非対称的分割(asymmetric splittings)である。なお、N=2m(mは1以上の任意の整数)を意味している。以下、対象CUを分割して得られる領域のことをパーティションとも称する。
PU分割情報によって指定されるPU分割タイプには、対象CUのサイズを2N×2N画素とすると、次の合計8種類のパターンがある。すなわち、2N×2N画素、2N×N画素、N×2N画素、およびN×N画素の4つの対称的分割(symmetric splittings)、並びに、2N×nU画素、2N×nD画素、nL×2N画素、およびnR×2N画素の4つの非対称的分割(asymmetric splittings)である。なお、N=2m(mは1以上の任意の整数)を意味している。以下、対象CUを分割して得られる領域のことをパーティションとも称する。
図4(a)~(h)に、それぞれの分割タイプについて、CUにおけるPU分割の境界の位置を具体的に図示している。
図4(a)は、CUの分割を行わない2N×2NのPU分割タイプを示している。また、図4(b)、(c)、および(d)は、それぞれ、PU分割タイプが、2N×N、2N×nU、および、2N×nDである場合のパーティションの形状について示している。また、図4(e)、(f)、および(g)は、それぞれ、PU分割タイプが、N×2N、nL×2N、および、nR×2Nである場合のパーティションの形状について示している。また、図4(h)は、PU分割タイプが、N×Nである場合のパーティションの形状を示している。
図4(a)および(h)のPU分割タイプのことを、そのパーティションの形状に基づいて、正方形分割とも称する。また、図4(b)~(g)のPU分割タイプのことは、非正方形分割とも称する。
また、図4(a)~(h)において、各領域に付した番号は、領域の識別番号を示しており、この識別番号順に、領域に対して処理が行われる。すなわち、当該識別番号は、領域のスキャン順を表している。
[インター予測の場合の分割タイプ]
インターPUでは、上記8種類の分割タイプのうち、N×N(図4(h))以外の7種類が定義されている。なお、上記6つの非対称的分割は、AMP(Asymmetric Motion Partition)と呼ばれることもある。
インターPUでは、上記8種類の分割タイプのうち、N×N(図4(h))以外の7種類が定義されている。なお、上記6つの非対称的分割は、AMP(Asymmetric Motion Partition)と呼ばれることもある。
また、Nの具体的な値は、当該PUが属するCUのサイズによって規定され、nU、nD、nL、および、nRの具体的な値は、Nの値に応じて定められる。例えば、128×128画素のインターCUは、128×128画素、128×64画素、64×128画素、64×64画素、128×32画素、128×96画素、32×128画素、および、96×128画素のインターPUへ分割することが可能である。
[イントラ予測の場合の分割タイプ]
イントラPUでは、次の2種類の分割パターンが定義されている。対象CUを分割しない、すなわち対象CU自身が1つのPUとして取り扱われる分割パターン2N×2Nと、対象CUを、4つのPUへと対称的に分割するパターンN×Nと、である。
イントラPUでは、次の2種類の分割パターンが定義されている。対象CUを分割しない、すなわち対象CU自身が1つのPUとして取り扱われる分割パターン2N×2Nと、対象CUを、4つのPUへと対称的に分割するパターンN×Nと、である。
したがって、イントラPUでは、図4に示した例でいえば、(a)および(h)の分割パターンを取ることができる。
例えば、128×128画素のイントラCUは、128×128画素、および、64×64画素のイントラPUへ分割することが可能である。
(拡張レイヤ)
拡張レイヤの符号化データについても、例えば、図3に示すデータ構造とほぼ同様のデータ構造を採用することができる。ただし、拡張レイヤの符号化データでは、以下のとおり、付加的な情報を追加したり、パラメータを省略したりすることができる。
拡張レイヤの符号化データについても、例えば、図3に示すデータ構造とほぼ同様のデータ構造を採用することができる。ただし、拡張レイヤの符号化データでは、以下のとおり、付加的な情報を追加したり、パラメータを省略したりすることができる。
SPSには階層符号化を示す情報が符号化されていてもよい。
また、スライスレイヤでは、空間スケーラビリティ、時間スケーラビリティ、および、SNRスケーラビリティの階層の識別情報(それぞれ、dependency_id、temporal_id、および、quality_id)が符号化されていてもよい。フィルタ情報やフィルタのオン/オフ情報(後述)はPPS、スライスヘッダ、マクロブロックヘッダ等で符号化することが可能である。
また、CU情報CUでは、スキップフラグ(skip_flag)、ベースモードフラグ(base_mode_flag)および予測モードフラグ(pred_mode_flag)が符号化されていてもよい。
また、これらのフラグにより対象CUのCUタイプが、イントラCU、インターCU、スキップCUおよびベーススキップCUのいずれであるかが指定されていてもよい。
イントラCUおよびスキップCUは、上述のHEVC方式の場合と同様に定義できる。例えば、スキップCUでは、スキップフラグに“1”が設定される。スキップCUでない場合、スキップフラグに“0”が設定される。また、イントラCUでは、予測モードフラグに“0”が設定される。
また、インターCUは、非スキップかつ動き補償(MC;Motion Compensation)を適用するCUと定義されていてもよい。インターCUでは、例えば、スキップフラグに“0”が設定され、予測モードフラグに“1”が設定される。
ベーススキップCUは、CUまたはPUの情報を参照レイヤから推定するCUタイプである。また、ベーススキップCUでは、例えば、スキップフラグに“1”が設定され、ベースモードフラグに“1”が設定される。
また、PT情報PTIでは、対象PUのPUタイプが、イントラPU、インターPU、マージPU、およびベースマージPUのいずれであるかが指定されていてもよい。イントラPU、インターPU、マージPUは、上述のHEVC方式の場合と同様に定義できる。
ベースマージPUは、PUの情報を参照レイヤから推定するPUタイプである。また、例えば、PT情報PTIにおいて、マージフラグおよびベースモードフラグを符号化しておき、これらのフラグを用いて、対象PUがベースマージを行うPUであるか否かを判定してもよい。すなわち、ベースマージPUでは、マージフラグに“1”が設定され、ベースモードフラグに“1”が設定される。
なお、拡張レイヤに含まれる動きベクトル情報のうち、下位レイヤに含まれる動きベクトル情報から導出可能な動きベクトル情報については、拡張レイヤから省略する構成とすることができる。このような構成とすることによって、拡張レイヤの符号量を削減することができるので、符号化効率が向上する。
また、上述のとおり拡張レイヤの符号化データを、下位レイヤの符号化方式と異なる符号化方式により生成しても構わない。すなわち、拡張レイヤの符号化・復号処理は、下位レイヤのコーデックの種類に依存しない。
下位レイヤが、例えば、MPEG-2や、H.264/AVC方式によって符号化されていてもよい。
対象レイヤと参照レイヤとが異なる符号化方式によって符号化されている場合、参照レイヤのパラメータを、対象レイヤの対応するパラメータ、または、類似のパラメータに変換することでレイヤ間における相応の互換性を保つことができる。例えば、MPEG-2や、H.264/AVC方式におけるマクロブロックは、HEVCにおけるCTBに読み替えて解釈することが可能である。
なお、以上に説明したパラメータは、単独で符号化されていてもよいし、複数のパラメータが複合的に符号化されていてもよい。複数のパラメータが複合的に符号化される場合は、そのパラメータの値の組み合わせに対してインデックスが割り当てられ、割り当てられた当該インデックスが符号化される。また、パラメータが、別のパラメータや、復号済みの情報から導出可能であれば、当該パラメータの符号化を省略することができる。
〔階層動画像復号装置〕
以下では、本実施形態に係る階層動画像復号装置1の構成について、図5~図24を参照して説明する。
以下では、本実施形態に係る階層動画像復号装置1の構成について、図5~図24を参照して説明する。
(階層動画像復号装置の構成)
図5を用いて、階層動画像復号装置1の概略的構成について説明すると次のとおりである。図5は、階層動画像復号装置1の概略的構成について示した機能ブロック図である。階層動画像復号装置1は、階層動画像符号化装置2から供給される階層符号化データDATAを、HEVC方式により復号して、対象レイヤの復号画像POUT#Tを生成する。
図5を用いて、階層動画像復号装置1の概略的構成について説明すると次のとおりである。図5は、階層動画像復号装置1の概略的構成について示した機能ブロック図である。階層動画像復号装置1は、階層動画像符号化装置2から供給される階層符号化データDATAを、HEVC方式により復号して、対象レイヤの復号画像POUT#Tを生成する。
図5に示すように階層動画像復号装置1は、NAL逆多重化部11、可変長復号部12、予測パラメータ復元部14、テクスチャ復元部15、およびベース復号部16を備える。
NAL逆多重化部11は、NAL(Network Abstraction Layer)におけるNALユニット単位で伝送される階層符号化データDATAを逆多重化する。
NALは、VCL(Video Coding Layer)と、符号化データを伝送・蓄積する下位システムとの間における通信を抽象化するために設けられる層である。
VCLは、動画像符号化処理を行う層のことであり、VCLにおいて符号化が行われる。一方、ここでいう、下位システムは、H.264/AVCおよびHEVCのファイルフォーマットや、MPEG-2システムに対応する。以下に示す例では、下位システムは、対象レイヤおよび参照レイヤにおける復号処理に対応する。
なお、NALでは、VCLで生成されたビットストリームが、NALユニットという単位で区切られて、宛先となる下位システムへ伝送される。NALユニットには、VCLで符号化された符号化データ、および、当該符号化データが宛先の下位システムに適切に届けられるためのヘッダが含まれる。また、各階層における符号化データは、NALユニット格納されることでNAL多重化されて階層動画像復号装置1に伝送される。
NAL逆多重化部11は、階層符号化データDATAを逆多重化して、対象レイヤ符号化データDATA#Tおよび参照レイヤ符号化データDATA#Rを取り出す。また、NAL逆多重化部11は、対象レイヤ符号化データDATA#Tを可変長復号部12に供給するとともに、参照レイヤ符号化データDATA#Rをベース復号部16に供給する。
可変長復号部12は、対象レイヤ符号化データDATA#Tに含まれるバイナリから各種のシンタックス値を復号するための情報の復号処理を行う。
具体的には、可変長復号部12は、以下のように、予測情報、符号化情報および変換係数情報を符号化データDATA#Tから復号する。
すなわち、可変長復号部12は、各CUまたはPUに関する予測情報を、符号化データDATA#Tから復号する。予測情報には、例えば、CUタイプまたはPUタイプの指定が含まれる。
CUがインターCUである場合、可変長復号部12はPU分割情報を符号化DATA#Tから復号する。加えて、各PUにおいて、可変長復号部12は、さらに、予測情報として、参照画像インデックスRI、推定動きベクトルインデックスPMVI、及び、動きベクトル残差MVD等の動き情報、モード情報を符号化データDATA#Tから復号する。
一方、CUがイントラCUである場合、可変長復号部12は、さらに、予測情報として、(1)予測単位のサイズを指定するサイズ指定情報、および、(2)予測インデックスを指定する予測インデックス指定情報を含むイントラ予測情報を符号化データDATA#Tから復号する。
また、可変長復号部12は、符号化情報を符号化データDATA#Tから復号する。符号化情報には、CUの形状、サイズ、位置を特定するための情報が含まれる。より具体的には、符号化情報には、対象ツリーブロックの各CUへの分割パターンを指定するツリーブロック分割情報、すなわち、対象ツリーブロックに含まれる各CUの形状、サイズ、および、対象ツリーブロック内での位置を指定する情報が含まれる。
可変長復号部12は、復号した予測情報および符号化情報を予測パラメータ復元部14に供給する。
また、可変長復号部12は、各ブロックに関する量子化予測残差QD、及び、そのブロックを含むツリーブロックに関する量子化パラメータ差分Δqpを符号化データDATA#Tから復号する。可変長復号部12は、復号した量子化予測残差QDおよび量子化パラメータ差分Δqpを変換係数情報としてテクスチャ復元部15に供給する。
ベース復号部16は、参照レイヤ符号化データDATA#Rから、対象レイヤに対応する復号画像を復号する際に参照される参照レイヤに関する情報であるベース復号情報を復号する。ベース復号情報には、ベース予測パラメータ、ベース変換係数、およびベース復号画像が含まれる。ベース復号部16は、復号したベース復号情報を予測パラメータ復元部14およびテクスチャ復元部15に供給する。
予測パラメータ復元部14は、予測情報およびベース復号情報を用いて、予測パラメータを復元する。予測パラメータ復元部14は、復元した予測パラメータを、テクスチャ復元部15に供給する。なお、予測パラメータ復元部14は、予測パラメータを復元する際に、テクスチャ復元部15が備えるフレームメモリ155(後述)に格納された動き情報を参照することができる。
テクスチャ復元部15は、変換係数情報、ベース復号情報および予測パラメータを用いて、復号画像POUT#Tを生成し、外部に出力する。なお、テクスチャ復元部15では、復元された復号画像に関する情報が、内部に備えるフレームメモリ155(後述)に格納される。
以下において、ベース復号部16、予測パラメータ復元部14、およびテクスチャ復元部15それぞれの詳細について説明する。
(予測パラメータ復元部)
図1を用いて、予測パラメータ復元部14の詳細構成について説明する。図1は、予測パラメータ復元部14の構成について例示した機能ブロック図である。
図1を用いて、予測パラメータ復元部14の詳細構成について説明する。図1は、予測パラメータ復元部14の構成について例示した機能ブロック図である。
図1に示すように、予測パラメータ復元部14は、予測タイプ選択部141、スイッチ142、イントラ予測モード復元部143、動きベクトル候補導出部144、動き情報復元部145、マージ候補導出部146、およびマージ情報復元部147を備える。
予測タイプ選択部141は、CUタイプまたはPUタイプに応じてスイッチ142に切り替え指示を送り予測パラメータの導出処理を制御する。具体的には以下のとおりである。
イントラCUまたはイントラPUが指定されている場合、予測タイプ選択部141はイントラ予測モード復元部143を用いて予測パラメータを導出できるようスイッチ142を制御する。
インターCU(マージなし)およびインターPU(マージなし)のいずれかが指定されている場合、予測タイプ選択部141は動き情報復元部145を用いて予測パラメータを導出できるようスイッチ142を制御する。
ベーススキップCU、ベースマージPU、スキップCUおよびマージPUのいずれかが指定されている場合、予測タイプ選択部141はマージ情報復元部147を用いて予測パラメータを導出できるようスイッチ142を制御する。
スイッチ142は、予測タイプ選択部141の指示に応じて、予測情報を、イントラ予測モード復元部143、動き情報復元部145、およびマージ情報復元部147のいずれかに供給する。予測情報の供給先において予測パラメータが導出される。
イントラ予測モード復元部143は、予測情報から予測モードIntraPredMode[xB][yB]を導出する。すなわち、イントラ予測モード復元部143が予測パラメータとして復元するのは予測モードである。さらに、イントラ予測モード復元部143は、色差予測モードIntraPredModeC[xB][yB]を導出するための構成をも備えている。
図6に基づいて、イントラ予測モード復元部143の構成をさらに詳しく説明する。図6は、イントラ予測モード復元部143の構成例を示すブロック図である。なお、図6では、イントラ予測モード復元部143の構成のうち、予測モードを復号する構成のみを詳細に示している。
図6に示すように、イントラ予測モード復元部143は、MPM導出部122、MPM判定部123、予測モード復元部124、色差予測モード復元部126、およびコンテキスト記憶部127を備える。
MPM導出部122は、対象パーティションの周辺のパーティションに割り付けられた予測モードに基づいてMPMを導出する。ここで、MPM導出部122は、例えば、3つのMPMを導出する。MPM導出部122は、例えば、第1のMPM候補candModeList[0]、第2のMPM候補candModeList[1]、及び第3のMPM候補candModeList[2]を、それぞれ次のように導出する。
まず、図7に示すように、candIntraPredModeAに対象PU(図7においてRTと表記)の左に隣接する左隣接PU(図7においてNAと表記)の予測モード、pmBに対象PUの上に隣接する上隣接PU(図7においてNBと表記)の予測モードを設定する。図7に示す「pmA」及び「pmB」は、それぞれ、上記candIntraPredModeA、及びcandIntraPredModeBのことを指している。
また、MPM導出部122は、左隣接PUまたは上隣接PUの予測モードが利用不可の場合、既定の予測モード、例えば“Intra_Planar”を設定する。隣接PUが利用不可の場合には、隣接PUの予測モードが未復号の場合、隣接PUが上隣接PUであって異なるLCU(ツリーブロック)に属する場合が含まれる。
MPM導出部122は、
candIntraPredModeA==candIntraPredModeB
が満たされており、かつ、
candIntraPredModeA<2(Intra_PlanarかIntra_DC)
である場合、candModeList[0]~candModeList[2]を
candModeList[0] = Intra_Planar
candModeList[1] = Intra_DC
candModeList[2] = Intra_Angular(26)
に設定する。
candIntraPredModeA==candIntraPredModeB
が満たされており、かつ、
candIntraPredModeA<2(Intra_PlanarかIntra_DC)
である場合、candModeList[0]~candModeList[2]を
candModeList[0] = Intra_Planar
candModeList[1] = Intra_DC
candModeList[2] = Intra_Angular(26)
に設定する。
また、MPM導出部122は、
candIntraPredModeA==candIntraPredModeB
が満たされており、かつ、
candIntraPredModeA<2
でない場合、candModeList[0]~candModeList[2]を
candModeList[0] = candIntraPredModeA
candModeList[1] = 2+((candIntraPredModeA-2-1)%32
candModeList[2] = 2+((candIntraPredModeA-2+1)%32
に設定する。
candIntraPredModeA==candIntraPredModeB
が満たされており、かつ、
candIntraPredModeA<2
でない場合、candModeList[0]~candModeList[2]を
candModeList[0] = candIntraPredModeA
candModeList[1] = 2+((candIntraPredModeA-2-1)%32
candModeList[2] = 2+((candIntraPredModeA-2+1)%32
に設定する。
また、MPM導出部122は、
candIntraPredModeA != candIntraPredModeB
が満たされている場合、
candModeList[0] = candIntraPredModeA
candModeList[1] = candIntraPredModeB
と設定したうえで、candModeList[2]を、次のように決定する。すなわち、candModeList[0]も[1]もIntra_Planarでない場合には、
candModeList[2] = Intra_Planar
に設定し、
candModeList[0]及び[1]の少なくとも何れかがIntra_Planarである場合であって、candModeList[0]も[1]もIntra_DCでない場合には、
candModeList[2] = Intra_DC
に設定し、
candModeList[0]及び[1]が、それぞれIntra_Planar及びIntra_DCであるか、Intra_DC及びIntra_Planarである場合、
candModeList[2] = Intra_Angular(26)
に設定する。
candIntraPredModeA != candIntraPredModeB
が満たされている場合、
candModeList[0] = candIntraPredModeA
candModeList[1] = candIntraPredModeB
と設定したうえで、candModeList[2]を、次のように決定する。すなわち、candModeList[0]も[1]もIntra_Planarでない場合には、
candModeList[2] = Intra_Planar
に設定し、
candModeList[0]及び[1]の少なくとも何れかがIntra_Planarである場合であって、candModeList[0]も[1]もIntra_DCでない場合には、
candModeList[2] = Intra_DC
に設定し、
candModeList[0]及び[1]が、それぞれIntra_Planar及びIntra_DCであるか、Intra_DC及びIntra_Planarである場合、
candModeList[2] = Intra_Angular(26)
に設定する。
なお、以下では、candModeList[0]~candModeList[2]を、それぞれ、MPM0~MPM2と表記することもある。
MPM判定部123は、符号化データに含まれるmpm_flag(prev_intra_luma_pred_flag)に基づいて、対象PUの予測モードが、推定予測モードMPMと一致しているか否かを判定する。図8は、イントラ予測モードを復号するために参照されるシンタックスの例を示している。
mpm_flagは、対象PUの予測モードが推定予測モードMPMと一致している場合、“1”であり、対象PUの予測モードが推定予測モードMPMと一致していない場合、“0”である。MPM判定部123は、判定結果を、予測モード復元部124に通知する。
なお、MPM判定部123は、コンテキスト記憶部127に記憶されているコンテキストに応じて、符号化データからmpm_flagを復号する。
予測モード復元部124は、対象PUについての予測モードを復元する。予測モード復元部124は、MPM判定部123から通知される判定結果に応じて、予測モードを復元する。
対象PUの予測モードが推定予測モードMPMと一致している場合、予測モード復元部124は、符号化データからmpm_idxを復号し、その値に基づいて予測モードを復元する。mpm_idxは、対象PUの予測モードが、candModeList[0]と一致する場合、“0”であり、対象PUの予測モードが、candModeList[1]と一致する場合、“1”であり、対象PUの予測モードが、candModeList[2]と一致する場合、“2”である。
なお、予測モード復元部124はmpm_idxの復号時にコンテキスト記憶部127に記憶されているコンテキストを利用してもよいし、利用しなくてもよい。
対象PUの予測モードが推定予測モードMPMと一致していない場合、予測モード復元部124は、符号化データに含まれるrem_idxに基づいて予測モードを復元する。具体的には、まず、candModeList[0]~candModeList[2]を、小さい順にソートする。すなわち、
(candModeList[0]のモード番号)<(candModeList[1]のモード番号)<(candModeList[2]のモード番号)
となるようにソートする。
(candModeList[0]のモード番号)<(candModeList[1]のモード番号)<(candModeList[2]のモード番号)
となるようにソートする。
続いて、予測モード復元部124は、
mode = rem_intra_luma_pred_mode
としてパラメータ「mode」を初期化する。ここで、rem_intra_luma_pred_modeは、MPMを除く予測モードのインデクスである。
mode = rem_intra_luma_pred_mode
としてパラメータ「mode」を初期化する。ここで、rem_intra_luma_pred_modeは、MPMを除く予測モードのインデクスである。
続いて、予測モード復元部124は、
mode >= candModeList[0] であれば、mode = mode+1
mode >= candModeList[1] であれば、mode = mode+1
mode >= candModeList[2] であれば、mode = mode+1
と設定する。
mode >= candModeList[0] であれば、mode = mode+1
mode >= candModeList[1] であれば、mode = mode+1
mode >= candModeList[2] であれば、mode = mode+1
と設定する。
予測モード復元部124は、このようにして得られたmodeに対応する予測モードを復元する。
色差予測モード復元部126は、対象PUについての色差予測モードを復元する。より詳細には、色差予測モード復元部126は、以下のように色差予測モードを復元する。
まず、色差予測モード復元部126は、符号化データ#1に含まれるイントラ色差予測モード指定情報chroma_mode(intra_chroma_pred_mode)を復号する。
そして、色差予測モード復元部126は、復元したイントラ色差予測モード指定情報chroma_modeと、輝度の予測モード(IntraPredMode[xB][yB])とに基づいて、色差予測モードを復元する。
続いて、図9に基づいて、予測モードの定義の一例を説明する。図9は、予測モードの定義の一例を示す。同図に示す例においては、36種類の予測モードが定義されており、それぞれの予測モードは、「0」~「35」の番号(IntraPredModeまたはIntraPredModeCの各値であり、イントラ予測モードインデックスとも呼称することがある)により特定される。また、図10に示すように、各予測モードには次の名称が割り当てられている。すなわち、「0」は、“Intra Planar(プラナー予測モード、平面予測モード)”であり、「1」は、“Intra DC(イントラDC予測モード)”であり、「2」~「34」は、“Intra Angular(方向予測)”であり、「35」は、“Intra From Luma”である。
「35」は、色差予測モード固有のものであり、輝度の予測に基づいて色差の予測を行うモードである。言い換えれば、色差予測モード「35」は、輝度画素値と色差画素値との相関を利用した予測モードである。色差予測モード「35」はLMモードとも称する。予測モード数(intraPredModeNum)は、対象ブロックのサイズによらず「36」である。
なお、図9及び図10に示した予測モード0~予測モード35よりなるセットを、基本セットと呼称することもある。
図11は、色差予測モードを導出するために、色差予測モード復元部126によって参照されるテーブルの一例を示す図である。より具体的には、図11は、イントラ色差予測モード指定情報chroma_modeおよび輝度の予測モード(IntraPredMode[xB][yB])と、色差予測モード(IntraPredModeC)との対応付けを定義したテーブルを示す図である。
図11(a)は、色差予測モードにLMモードが含まれている場合のテーブルであり、図11(b)は、色差予測モードにLMモードが含まれていない場合のテーブルである。テーブル中、“LM”は上記LMモードを用いることを意味する。また、“X”は、輝度の予測モード(IntraPredMode[xB][yB])の値をそのまま用いることを示している。
LMモードを含むテーブルを用いるのか、または、LMモードを含まないテーブルを用いるのかは、例えば、chroma_pred_from_luma_enabled_flagの値によって指定される。
続いて、図1に戻り各部の説明を続ける。
動きベクトル候補導出部144は、ベース復号情報を用いて、レイヤ内動き推定処理、または、レイヤ間動き推定処理により推定動きベクトルの候補を導出する。動きベクトル候補導出部144は、導出した動きベクトルの候補を動き情報復元部145に供給する。
動き情報復元部145は、マージを行わない各インターPUに関する動き情報を復元する。すなわち、動き情報復元部145が予測パラメータとして復元するのは動き情報である。
動き情報復元部145は、対象PUがインターCUおよびインターPUである場合、予測情報から、動き情報を復元する。より具体的には、動き情報復元部145は、動きベクトル残差(mvd)、推定動きベクトルインデックス(mvp_idx)、インター予測フラグ(inter_pred_flag)および、参照画像インデックス(refIdx)を取得する。そして、インター予測フラグの値に基づいて、参照画像リストL0と参照画像リストL1各々について参照画像リスト利用フラグを決定する。続いて、対応する参照画像リスト利用フラグが、当該参照画像を利用することを示している場合、動き情報復元部145は、推定動きベクトルインデックスの値に基づいて、推定動きベクトルを導出するとともに、動きベクトル残差と推定動きベクトルとに基づいて動きベクトルを導出する。動き情報復元部145は、導出した動きベクトルと、参照画像リスト利用フラグ、および、参照画像インデックスと合わせて動き情報(動き補償パラメータ)として出力する。
マージ候補導出部146は、後述するフレームメモリ155から供給される復号済みの動き情報および/またはベース復号部16から供給されるベース復号情報等を用いて、各種のマージ候補を導出する。マージ候補導出部146は、導出したマージ候補をマージ情報復元部147に供給する。
マージ情報復元部147は、レイヤ内またはレイヤ間でマージを行う各PUに関する動き情報を復元する。すなわち、動き情報復元部145が予測パラメータとして復元するのは動き情報である。
具体的には、マージ情報復元部147は、対象CU(PU)がレイヤ内でマージを行うスキップCU(マージPU)である場合、マージ候補導出部146がレイヤ内マージにより導出したマージ候補リストから、予測情報に含まれるマージインデックス(merge_idx)に対応する動き補償パラメータを導出することにより、動き情報を復元する。
また、マージ情報復元部147は、レイヤ間でマージを行うベーススキップCUである場合、マージ候補導出部146がレイヤ間マージにより導出したマージ候補リストから、予測情報に含まれるマージインデックス(merge_idx)に対応する動き補償パラメータを導出することにより、動き情報を復元する。
なお、マージ候補導出部146の詳細については後述する。
(テクスチャ復元部)
図12を用いて、テクスチャ復元部15の詳細構成について説明する。図12は、テクスチャ復元部15の構成について例示した機能ブロック図である。
図12を用いて、テクスチャ復元部15の詳細構成について説明する。図12は、テクスチャ復元部15の構成について例示した機能ブロック図である。
図12に示すように、テクスチャ復元部15は、逆直交変換・逆量子化部151、テクスチャ予測部152、加算器153、ループフィルタ部154、およびフレームメモリ155を備える。
逆直交変換・逆量子化部151は、(1)可変長復号部12から供給される変換係数情報に含まれる量子化予測残差QDを逆量子化し、(2)逆量子化によって得られたDCT係数を逆直交変換(例えば、DCT(Discrete Cosine Transform)変換)し、(3)逆直交変換によって得られた予測残差Dを加算器153に供給する。なお、量子化予測残差QDを逆量子化する際に、逆直交変換・逆量子化部151は、変換係数情報に含まれる量子化パラメータ差分Δqpから量子化ステップQPを導出する。量子化パラメータqpは、直前に逆量子化/逆直交変換したツリーブロックに関する量子化パラメータqp’に量子化パラメータ差分Δqpを加算することによって導出でき、量子化ステップQPは、量子化パラメータqpからQP=2qp/6によって導出できる。また、逆直交変換・逆量子化部151による予測残差Dの生成は、ブロック(変換単位)を単位として行われる。
テクスチャ予測部152は、予測パラメータに応じて、ベース復号情報に含まれるベース復号画像またはフレームメモリに格納されている復号済みの復号画像を参照し、予測画像を生成する。
テクスチャ予測部152は、より詳細には、インター予測部152A、レイヤ内イントラ予測部152B、およびレイヤ間イントラ予測部152Cを備える。
インター予測部152Aは、各インター予測パーティションに関する予測画像をインター予測により生成する。具体的には、インター予測部152Aは、動き情報復元部145またはマージ情報復元部147から予測パラメータとして供給される動き情報を用いて、参照画像から予測画像を生成する。
レイヤ内イントラ予測部152Bは、各イントラ予測パーティションに関する予測画像をレイヤ内イントラ予測により生成する。具体的には、レイヤ内イントラ予測部152Bは、イントラ予測モード復元部143から予測パラメータとして供給される予測モードを用いて、対象パーティションにおいて復号済みの復号画像から予測画像を生成する。
レイヤ間イントラ予測部152Cは、各イントラ予測パーティションに関する予測画像をレイヤ間イントラ予測により生成する。具体的には、レイヤ間イントラ予測部152Cは、イントラ予測モード復元部143から予測パラメータとして供給される予測モードを用いて、ベース復号情報に含まれるベース復号画像に基づいて予測画像を生成する。ベース復号画像は、対象レイヤの解像度に合わせて適宜アップサンプリングされてもよい。レイヤ間イントラ予測部152Cによるイントラレイヤ間予測の詳細については後述する。
テクスチャ予測部152は、インター予測部152A、レイヤ内イントラ予測部152Bまたはレイヤ間イントラ予測部152Cが生成した予測画像を加算器153に供給する。
加算器153は、テクスチャ予測部153予測画像と、逆直交変換・逆量子化部151から供給された予測残差Dとを加算することによって復号画像を生成する。
ループフィルタ部154は、加算器153から供給される復号画像に対し、デブロッキング処理や、適応フィルタパラメータによるフィルタ処理を施すものである。
フレームメモリ155は、ループフィルタ部154によるフィルタ済み復号画像を格納する。
(ベース復号部)
図13を用いて、ベース復号部16の詳細構成について説明する。図13は、ベース復号部16の構成について例示した機能ブロック図である。
図13を用いて、ベース復号部16の詳細構成について説明する。図13は、ベース復号部16の構成について例示した機能ブロック図である。
図13に示すように、ベース復号部16は、可変長復号部161、ベース予測パラメータ復元部162、ベース変換係数復元部163、およびベーステクスチャ復元部164を備える。
可変長復号部161は、参照レイヤ符号化データDATA#Rに含まれるバイナリから各種のシンタックス値を復号するための情報の復号処理を行う。
具体的には、可変長復号部161は、予測情報および変換係数情報を符号化データDATA#Rから復号する。可変長復号部161が復号する予測情報および変換係数のシンタックスは、可変長復号部12と同様であるのでここではその詳細な説明を省略する。
可変長復号部161は、復号した予測情報をベース予測パラメータ復元部162に供給するとともに、復号した変換係数情報をベース変換係数復元部163に供給する。
ベース予測パラメータ復元部162は、可変長復号部161から供給される予測情報に基づいて、ベース予測パラメータを復元する。ベース予測パラメータ復元部162が、ベース予測パラメータを復元する方法については、予測パラメータ復元部14と同様であるので、ここではその詳細な説明を省略する。ベース予測パラメータ復元部162は、復元したベース予測パラメータを、ベーステクスチャ復元部164に供給するとともに、外部に出力する。
ベース変換係数復元部163は、可変長復号部161から供給される変換係数情報に基づいて、変換係数を復元する。ベース変換係数復元部163が変換係数を復元する方法については、逆直交変換・逆量子化部151と同様であるので、ここではその詳細な説明を省略する。ベース変換係数復元部163は、復元したベース変換係数を、ベーステクスチャ復元部164に供給するとともに、外部に出力する。
ベーステクスチャ復元部164は、ベース予測パラメータ復元部162から供給されるベース予測パラメータと、ベース変換係数復元部163から供給されるベース変換係数とを用いて、復号画像を生成する。具体的には、ベーステクスチャ復元部164は、ベース予測パラメータに基づき、テクスチャ予測部152と同様のテクスチャ予測を行って、予測画像を生成する。また、ベーステクスチャ復元部164は、ベース変換係数に基づいて予測残差を生成し、生成した予測残差と、テクスチャ予測により生成した予測画像とを加算することでベース復号画像を生成する。
なお、ベーステクスチャ復元部164は、ベース復号画像に対して、ループフィルタ部154と同様のフィルタ処理を施してもよい。また、ベーステクスチャ復元部164は、復号済みのベース復号画像を格納するためのフレームメモリを備えていてもよく、テクスチャ予測においてフレームメモリに格納されている復号済みのベース復号画像を参照してもよい。
<<イントラレイヤ間予測>>
図14を参照して、ベースレイヤの復号画像を用いたイントラレイヤ間予測について説明する。図14は、ベースレイヤの復号画像を用いたイントラレイヤ間予測を概略的に示す模式図である。
図14を参照して、ベースレイヤの復号画像を用いたイントラレイヤ間予測について説明する。図14は、ベースレイヤの復号画像を用いたイントラレイヤ間予測を概略的に示す模式図である。
図14に示すように、イントラレイヤ間予測においては、拡張レイヤの対象ブロック(対象となる予測ブロックのことを指す(以下同様))のイントラ予測画像が、ベースレイヤにおいて、時間的に該対象ブロックと同時刻に位置するブロックであって、空間的に該対象ブロックに対応する位置に配置されたブロックである参照ブロック(参照される予測ブロックのことを指す(以下同様))の復号画像に基づいて生成される。
ここで、イントラレイヤ間予測において参照されるのは、同時刻のベースレイヤ画像であるため動き補償は不要である。また、対象ブロックに隣接する領域の画素値ではなく、上記参照ブロックの画素値を用いて予測画像を生成するため、予測精度の向上を図ることができる。
なお、対象ブロックと、参照ブロックとで、画素数が異なる場合はアップサンプルを行う構成とすればよい。また、必要に応じて、参照ブロックの復号画像に対してフィルタリング(SAO、ALF、エッジ強調、ノイズ除去、インタレース解除など)を行ったものを参照してイントラ予測画像を生成する構成としてもよい。
以下では、本実施形態に係るイントラレイヤ間予測及びそれに関連するシンタックスの復号方法について、具体例を挙げつつ順に説明する。
<イントラレイヤ間予測の第1の例>
まず、図15を参照して、イントラレイヤ間予測の第1の例について説明する。
まず、図15を参照して、イントラレイヤ間予測の第1の例について説明する。
図15は、本例に係るイントラ予測パラメータに含まれるシンタックスを示す図である。図15に示すように、本例に係るイントラ予測パラメータは、図8に示した各シンタックスに加えて、intra_layer_pred_flag[x0][y0]を含んでいる。
ここで、intra_layer_pred_flag[x0][y0]は、イントラレイヤ間予測を用いるか否かを示すフラグであり、上述したイントラ予測モード復元部143によって復号される。
intra_layer_pred_flag[x0][y0]の値がfalseを示す場合、レイヤ間イントラ予測部152Cによるイントラレイヤ間予測は行われない。この場合、イントラ予測としては、レイヤ内イントラ予測部152Bによる予測のみが選択可能となる。
一方で、intra_layer_pred_flag[x0][y0]の値がtrueを示す場合、レイヤ間イントラ予測部152Cによって上述のイントラレイヤ間予測が行われる。この場合、図15に示すintra_layer_pred_flag[x0][y0]以外のシンタックスprev_intra_luma_pred_flag[x0][y0]、mpm_idx[x0][y0]、rem_intra_luma_pred_mode[x0][y0]、及びintra_chroma_pred_mode[x0][y0]は符号化データに含めない構成としておくことができる。このような構成においては、intra_layer_pred_flagを符号化すれば足りるため、イントラレイヤ間予測モードが選択される率が高いほど符号化効率も向上する。
なお、本例において、intra_layer_pred_flagの算術符号化及び復号には、他のシンタックスに関連付けられたコンテキストから独立したコンテキストを用いることが好ましい。
<イントラレイヤ間予測の第2の例>
続いて、図16を参照して、イントラレイヤ間予測の第2の例について説明する。
続いて、図16を参照して、イントラレイヤ間予測の第2の例について説明する。
本例においては、予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群において、予め定められた複数のイントラ予測モード(図10に示した予測モード0~35)の何れか1つの予測モードに代えて、イントラレイヤ間予測モードが含まれている。
より具体的には、例えば、図16に示すように、本例に係る予測モード群には、イントラDC予測モード(Intra_DC)に代えて、イントラレイヤ間予測モード(図16にてIntra_Baseと表記)が含まれている。
したがって、本例においては、予測モード復元部124によってイントラ予測モードインデックス=1が復号された場合に、レイヤ間イントラ予測部152Cによって上述のイントラレイヤ間予測が行われる。
本例のようにイントラレイヤ間予測モードを行う場合には、<イントラレイヤ間予測の第1の例>に示したような、イントラレイヤ間予測を用いるか否かを示すフラグ(intra_layer_pred_flag[x0][y0])が不要になる。
換言すれば、基本セット(より正確には、基本セットからイントラレイヤ間予測モードに差し替えた予測モードを除いたもの)に含まれる予測モード及びイントラレイヤ間予測モードよりなる予測モード群から、一の予測モードを選択するために、図8に示した共通のシンタックスを参照すれば足りる。
このように、予測モード群において、予め定められた複数のイントラ予測モード(図10に示した予測モード0~35)の何れか1つの予測モードに代えて、イントラレイヤ間予測モードを含めておくことによって、イントラ予測モードを指定するための符号量を増大させることなく、好適にイントラレイヤ間予測を行うことができる。
また、本例に係る予測モード群には、イントラDC予測モードに代えて、イントラレイヤ間予測モードが含まれている。対象ブロックの各画素値を全て同じ値として予測するイントラDC予測モードに比べて、イントラレイヤ間予測モードの方が予測精度が高いため、符号化効率が向上する。
<イントラレイヤ間予測の第3の例>
続いて、図17を参照して、イントラレイヤ間予測の第3の例について説明する。
続いて、図17を参照して、イントラレイヤ間予測の第3の例について説明する。
本例においては、予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群において、予め定められた複数のイントラ予測モード(図10に示した予測モード0~35)に加えて、イントラレイヤ間予測モードが含まれている。
より具体的には、例えば、図17に示すように、本例に係る予測モード群には、イントラレイヤ間予測モード(図17にてIntra_Baseと表記)が、イントラ予測モードインデックス=0として追加されており、その他の予測モードのインデックスが1ずつ繰り上がっている。
本例のようにイントラレイヤ間予測モードを行う場合には、<イントラレイヤ間予測の第1の例>に示したような、イントラレイヤ間予測を用いるか否かを示すフラグ(intra_layer_pred_flag[x0][y0])が不要になる。
換言すれば、基本セットに含まれる予測モード及びイントラレイヤ間予測モードよりなる予測モード群から、一の予測モードを選択するために、図8に示した共通のシンタックスを参照すれば足りる。
また、本例においては、3個のMPM以外の予測モードの総数が、33個となり、rem_idxに関して最大で6ビットが必要になる。このため、本例においては、rem_idxの符号化及び復号において、適宜可変長符号化を用いることが好ましい。
また、本例において、MPMを選択する際には、イントラレイヤ間予測モード(Intra_Base)を優先的に用いる構成とすることが好ましい。
本例におけるMPM(candModeList[x]、x=0..2)の導出方法は、以下のとおりである。
すなわち、本例に係るイントラ予測モード復元部143の備えるMPM導出部122は、対象ブロックの左隣接ブロックの予測モードをcandIntraPredModeA、対象ブロックの上隣接ブロックの予測モードをcandIntraPredModeB とする。
そして、本例に係るMPM導出部122は、
candIntraPredModeA==candIntraPredModeB
である場合であって、
candIntraPredModeA<3 (Intra_PlanarかIntra_DCかIntra_Base)
である場合に、candModeListを
candModeList[0] = Intra_Base
candModeList[1] = Intra_Planar
candModeList[2] = Intra_DC
に設定する。
candIntraPredModeA==candIntraPredModeB
である場合であって、
candIntraPredModeA<3 (Intra_PlanarかIntra_DCかIntra_Base)
である場合に、candModeListを
candModeList[0] = Intra_Base
candModeList[1] = Intra_Planar
candModeList[2] = Intra_DC
に設定する。
また、本例に係るMPM導出部122は、
candIntraPredModeA==candIntraPredModeB
である場合であって、
candIntraPredModeA<2
でない場合に、candModeListを
candModeList[0] = candIntraPredModeA
candModeList[1] = 3+((candIntraPredModeA-3-1)%32
candModeList[2] = 3+((candIntraPredModeA-3+1)%32
に設定する。
candIntraPredModeA==candIntraPredModeB
である場合であって、
candIntraPredModeA<2
でない場合に、candModeListを
candModeList[0] = candIntraPredModeA
candModeList[1] = 3+((candIntraPredModeA-3-1)%32
candModeList[2] = 3+((candIntraPredModeA-3+1)%32
に設定する。
一方で、
candIntraPredModeA != candIntraPredModeB
である場合、本例に係るMPM導出部122は、
candModeList[0] = Intra_Base
candModeList[1] = candIntraPredModeA
candModeList[2] = candIntraPredModeB
に設定する。
candIntraPredModeA != candIntraPredModeB
である場合、本例に係るMPM導出部122は、
candModeList[0] = Intra_Base
candModeList[1] = candIntraPredModeA
candModeList[2] = candIntraPredModeB
に設定する。
このように、本例においては、MPMを選択する際には、イントラレイヤ間予測モード(Intra_Base)を優先的に用いるので、符号量の増大を抑えつつ、予測精度の向上を図ることができる。
<イントラレイヤ間予測の第4の例>
続いて、図18及び図19を参照して、イントラレイヤ間予測の第4の例について説明する。
続いて、図18及び図19を参照して、イントラレイヤ間予測の第4の例について説明する。
本例においては、イントラレイヤ間予測モードが複数存在する場合を取り扱う。一例として、イントラレイヤ間予測モードを行う際に、ベースレイヤの復号画像に対して、互いに特性の異なる複数種類のフィルタを作用させる場合などが該当する。
より具体的には、
イントラレイヤ間予測モード1:ベースレイヤの復号画像に対して、ノイズ除去効果の高いアップサンプルフィルタを使用したうえで、拡張レイヤの予測画像として用いるモード
イントラレイヤ間予測モード2:ベースレイヤの復号画像に対して、エッジ強調効果のあるアップサンプルフィルタを使用したうえで、拡張レイヤの予測画像として用いるモード
などが挙げられる。
イントラレイヤ間予測モード1:ベースレイヤの復号画像に対して、ノイズ除去効果の高いアップサンプルフィルタを使用したうえで、拡張レイヤの予測画像として用いるモード
イントラレイヤ間予測モード2:ベースレイヤの復号画像に対して、エッジ強調効果のあるアップサンプルフィルタを使用したうえで、拡張レイヤの予測画像として用いるモード
などが挙げられる。
また、別の具体例としては、
イントラレイヤ間予測モード1:ベースレイヤの復号画像に対して、ある位相のアップサンプルフィルタを使用したうえで、拡張レイヤの予測画像として用いるモード
イントラレイヤ間予測モード2:ベースレイヤの復号画像に対して、イントラレイヤ間予測モード1とは異なる位相のアップサンプルフィルタを使用したうえで、拡張レイヤの予測画像として用いるモード
などが挙げられる。
イントラレイヤ間予測モード1:ベースレイヤの復号画像に対して、ある位相のアップサンプルフィルタを使用したうえで、拡張レイヤの予測画像として用いるモード
イントラレイヤ間予測モード2:ベースレイヤの復号画像に対して、イントラレイヤ間予測モード1とは異なる位相のアップサンプルフィルタを使用したうえで、拡張レイヤの予測画像として用いるモード
などが挙げられる。
このようにイントラレイヤ間予測モードが複数存在する場合、イントラ予測モード復元部143は、例えば、図18に示すように、intra_layer_pred_flag[x0][y0]を復号したうえで、intra_layer_pred_mode[x0][y0](値域は0~イントラレイヤ間予測モード数-1)を復号することによって、複数のイントラレイヤ間予測モードの一つを選択する構成とすることができる。ここで、intra_layer_pred_mode[x0][y0]は、複数のイントラレイヤ間予測モードの何れかを指定するためのシンタックスである。
また、図19に示すように、イントラレイヤ間予測モード1(Intra_Base1)及びイントラレイヤ間予測モード2(Intra_Base2)に対して、それぞれ、予測モードインデックスを付与する構成としてもよい。図19に示す構成の場合、intra_layer_pred_flag[x0][y0]を復号する必要はなく、図8に示した共通のシンタックスを参照すれば足りる。
<イントラレイヤ間予測の第5の例>
続いて、図20及び図21を参照して、イントラレイヤ間予測の第5の例について説明する。
続いて、図20及び図21を参照して、イントラレイヤ間予測の第5の例について説明する。
本例においては、輝度に関する予測モードは、<イントラレイヤ間予測の第1の例>~<イントラレイヤ間予測の第4の例>の何れかの処理によって導出される。
また、本例においては、輝度に関する予測モードがイントラレイヤ間予測モードである場合、色差予測モード復元部126は、色差に関する予測モードIntraPredModeCをイントラレイヤ間予測モードに設定する。
一方で、輝度に関する予測モードがイントラレイヤ間予測モードでない場合、色差予測モード復元部126は、色差に関する予測モードIntraPredModeCを、例えば、図11(a)または図11(b)に示したテーブルを参照して導出する。
図20は、輝度に関する予測モードとしてイントラレイヤ間予測モードを切り替える構成(<イントラレイヤ間予測の第1の例>に対応>を採用した場合の本例に係るシンタックスを示す図である。
図20に示すように、intra_layer_pred_flag[x0][y0]が真でない場合にのみ、すなわち、イントラレイヤ間予測モードでない場合にのみ、intra_chroma_pred_mode[x0][y0]が符号化及び復号される。
図21は、イントラレイヤ間予測モードに予測モードインデックスを割り当てる構成(<イントラレイヤ間予測の第2の例>~<イントラレイヤ間予測の第4の例>に対応)を採用した場合の本例に係るシンタックスを示す図である。
図21に示すように、輝度に関する予測モード(図21において、IntraLumaPredModeと表記)がイントラレイヤ間予測(図21においてIntra_Baseと表記)でない場合にのみ、intra_chroma_pred_mode[x0][y0]が符号化及び復号される。
本例の処理を行うことによって、色差に関する予測モードに対しても、適切にイントラレイヤ間予測モードを適用することができるので、符号化効率が向上する。
<イントラレイヤ間予測の第6の例>
続いて、図22及び図23を参照して、イントラレイヤ間予測の第6の例について説明する。
続いて、図22及び図23を参照して、イントラレイヤ間予測の第6の例について説明する。
本例においては、色差予測モードとして、DMモードが仮選択された場合に、色差予測モード復元部126は、当該DMモードを実際に用いるのかまたはイントラレイヤ間予測モードを用いるのかを示すフラグを復号し、当該フラグの値に応じて、当該DMモードを実際に用いるのかまたはイントラレイヤ間予測モードを用いるのかを選択する。
図22は、輝度に関する予測モードとしてイントラレイヤ間予測モードを切り替える構成(<イントラレイヤ間予測の第1の例>に対応>を採用した場合の本例に係るシンタックスを示す図である。
図22に示すように、DMモードが仮選択された場合、すなわち、
chroma_pred_from_luma_enabled_flag == 1
及び
intra_chroma_pred_mode == 5
が共に満たされる場合か、または、
chroma_pred_from_luma_enabled_flag == 0
及び
intra_chroma_pred_mode == 4
が共に満たさせる場合には、色差予測モード復元部126は、DMモードを実際に用いるのかまたはイントラレイヤ間予測モードを用いるのかを示すフラグchroma_intra_layer_pred_flagを復号する。
chroma_pred_from_luma_enabled_flag == 1
及び
intra_chroma_pred_mode == 5
が共に満たされる場合か、または、
chroma_pred_from_luma_enabled_flag == 0
及び
intra_chroma_pred_mode == 4
が共に満たさせる場合には、色差予測モード復元部126は、DMモードを実際に用いるのかまたはイントラレイヤ間予測モードを用いるのかを示すフラグchroma_intra_layer_pred_flagを復号する。
そして、色差予測モード復元部126は、当該フラグの値に応じて、DMモードを実際に用いるのかまたはイントラレイヤ間予測モードを用いるのかを選択する。
図23は、イントラレイヤ間予測モードに予測モードインデックスを割り当てる構成(<イントラレイヤ間予測の第2の例>~<イントラレイヤ間予測の第4の例>に対応)を採用した場合の本例に係るシンタックスを示す図である。
図23においても同様に、DMモードが選択された場合、色差予測モード復元部126は、DMモードを実際に用いるのかまたはイントラレイヤ間予測モードを用いるのかを示すフラグchroma_intra_layer_pred_flagを復号する。
そして、色差予測モード復元部126は、当該フラグの値に応じて、DMモードを実際に用いるのかまたはイントラレイヤ間予測モードを用いるのかを選択する。
本例の処理を行うことによって、色差に関する予測モードに対しても、適切にイントラレイヤ間予測モードを適用することができるので、符号化効率が向上する。
<イントラレイヤ間予測の第7の例>
続いて、図24を参照して、イントラレイヤ間予測の第7の例について説明する。
続いて、図24を参照して、イントラレイヤ間予測の第7の例について説明する。
本例においては、輝度に関する予測モードがイントラレイヤ間予測モードである場合に、色差予測モードとしてDMモードが仮選択されたとき、色差予測モード復元部126は、当該DMモードを色差に関するイントラレイヤ間予測モードであると解釈する。
より具体的には、輝度に関する予測モードがイントラレイヤ間予測モードである場合に、色差予測モードとしてDMモードが仮選択されたとき(LMモード使用時にintra_chroma_pred_mode=5であるとき、または、LMモード不使用時にintra_chroma_pred_mode=4であるとき)、色差予測モード復元部126は、色差に関する予測モードをイントラレイヤ間予測モードに設定する。
図24(a)は、LMモードを含むテーブルにおいて、DMモードが、イントラレイヤ間予測モード(図24(a)においてBaseと表記)として解釈されることを示している。
図24(b)は、LMモードを含まないテーブルにおいて、DMモードが、イントラレイヤ間予測モードとして解釈されることを示している。
なお、本例において、輝度に関する予測モードがイントラレイヤ間予測モードでない場合に、DMモードが選択されたときには、当該DMモードが実際に適用される。
本例の処理を行うことによって、色差に関する予測モードに対しても、適切にイントラレイヤ間予測モードを適用することができる。また、符号量を増大させることなく、予測精度を向上させることができるので、符号化効率が向上する。
<<推定予測モードにベースレイヤの予測モードを含める構成>>
本実施形態では、上記イントラレイヤ間予測を行う構成に代えて、推定予測モードにベースレイヤの予測モードを含める構成を採用してもよい。
本実施形態では、上記イントラレイヤ間予測を行う構成に代えて、推定予測モードにベースレイヤの予測モードを含める構成を採用してもよい。
より具体的には、拡張レイヤの対象ブロックの予測モードを導出する際に、時間的に拡張レイヤにおける当該対象ブロックと同時刻に位置するベースレイヤのブロックであって、空間的に該対象ブロックに対応する位置に配置されたブロックである参照ブロックに対して選択されたイントラ予測モードを、推定予測モードに含めておく構成としてもよい。
拡張レイヤにおける対象ブロックと、ベースレイヤにおける参照ブロックとでは、解像度が異なったとしても、同様の予測方向を有している可能性が高い。
このため、ベースレイヤの参照ブロックにおける予測モードを、拡張レイヤの対象ブロックの推定予測モードに加えておくことによって、符号化効率の向上を図ることができる。
以下では、このような構成の具体例について説明する。
<推定予測モードにベースレイヤの予測モードを含める構成の第1の例>
本例においては、イントラ予測モード復元部143の備えるMPM導出部122は、ベースレイヤの参照ブロックの予測モードを、3つのMPMのうち何れかのMPMに設定する。
本例においては、イントラ予測モード復元部143の備えるMPM導出部122は、ベースレイヤの参照ブロックの予測モードを、3つのMPMのうち何れかのMPMに設定する。
本例に係るMPM導出部122によるMPM(candModeList[x]、x=0..2)の導出方法は、例えば以下のとおりである。
まず、MPM導出部122は、対象ブロックの左隣接ブロックの予測モードをcandIntraPredModeA、対象ブロックの上隣接ブロックの予測モードをcandIntraPredModeB、ベースレイヤの参照ブロックの予測モードをcandIntraPredModeBLとする。
そして、本例に係るMPM導出部122は、
candIntraPredModeA==candIntraPredModeBL
である場合であって、
candIntraPredModeA<2 (Intra_PlanarかIntra_DC)
である場合に、candModeListを、
candModeList[0] = Intra_DC
candModeList[1] = Intra_Planar
に設定する。
candIntraPredModeA==candIntraPredModeBL
である場合であって、
candIntraPredModeA<2 (Intra_PlanarかIntra_DC)
である場合に、candModeListを、
candModeList[0] = Intra_DC
candModeList[1] = Intra_Planar
に設定する。
また、本例に係るMPM導出部122は、
candIntraPredModeA==candIntraPredModeBL
である場合であって、
candIntraPredModeA<2 (Intra_PlanarかIntra_DC)
でない場合に、candModeListを、
candModeList[0] = candIntraPredModeBL
candModeList[1] = Intra_Planar
に設定する。
candIntraPredModeA==candIntraPredModeBL
である場合であって、
candIntraPredModeA<2 (Intra_PlanarかIntra_DC)
でない場合に、candModeListを、
candModeList[0] = candIntraPredModeBL
candModeList[1] = Intra_Planar
に設定する。
また、本例に係るMPM導出部122は、さらに、
candIntraPredModeA==candIntraPredModeBL
である場合であって、
candIntraPredModeA == candIntraPredModeB
である場合(すなわち、candIntraPredModeA == candIntraPredModeB == candIntraPredModeBLである場合)、
candModeList[2] = Intra_angular(26)
に設定する。
candIntraPredModeA==candIntraPredModeBL
である場合であって、
candIntraPredModeA == candIntraPredModeB
である場合(すなわち、candIntraPredModeA == candIntraPredModeB == candIntraPredModeBLである場合)、
candModeList[2] = Intra_angular(26)
に設定する。
また、本例に係るMPM導出部122は、
candIntraPredModeA==candIntraPredModeBL
である場合であって、
candIntraPredModeA == candIntraPredModeB
でない場合、
candModeList[2] = candIntraPredModeB
に設定する。
candIntraPredModeA==candIntraPredModeBL
である場合であって、
candIntraPredModeA == candIntraPredModeB
でない場合、
candModeList[2] = candIntraPredModeB
に設定する。
また、本例に係るMPM導出部122は、
candIntraPredModeA==candIntraPredModeBL
でない場合であって、
candIntraPredModeB==candIntraPredModeBL
であり、
candIntraPredModeB<2 (Intra_PlanarかIntra_DC)
である場合、candModeListを
candModeList[0] = Intra_DC
candModeList[1] = Intra_Planar
に設定する。
candIntraPredModeA==candIntraPredModeBL
でない場合であって、
candIntraPredModeB==candIntraPredModeBL
であり、
candIntraPredModeB<2 (Intra_PlanarかIntra_DC)
である場合、candModeListを
candModeList[0] = Intra_DC
candModeList[1] = Intra_Planar
に設定する。
また、本例に係るMPM導出部122は、
candIntraPredModeA==candIntraPredModeBL
でない場合であって、
candIntraPredModeB==candIntraPredModeBL
であり、
candIntraPredModeB<2 (Intra_PlanarかIntra_DC)
でない場合、candModeListを
candModeList[0] = candIntraPredModeBL
candModeList[1] = Intra_Planar
candModeList[2] = candIntraPredModeA
に設定する。
candIntraPredModeA==candIntraPredModeBL
でない場合であって、
candIntraPredModeB==candIntraPredModeBL
であり、
candIntraPredModeB<2 (Intra_PlanarかIntra_DC)
でない場合、candModeListを
candModeList[0] = candIntraPredModeBL
candModeList[1] = Intra_Planar
candModeList[2] = candIntraPredModeA
に設定する。
以上のように、本例においては、3つのMPMの何れかが、参照ブロックにおいて選択された予測モードに設定される。このため、対象ブロックにて選択される予測モードがMPMに一致する可能性が高まるため、符号化効率が向上する。
<推定予測モードにベースレイヤの予測モードを含める構成の第2の例>
本例においては、MPMの個数を4個とし、そのうちの1つのMPMを参照ブロックの予測モードに定める。
本例においては、MPMの個数を4個とし、そのうちの1つのMPMを参照ブロックの予測モードに定める。
このため、本例において、mpm_idxの値は0..3 となる。
本例に係るイントラ予測モード復元部143の備えるMPM導出部122によるMPM(candModeList[x]、x=0..3)の導出方法は、例えば以下のとおりである。
まず、MPM導出部122は、対象ブロックの左隣接ブロックの予測モードをcandIntraPredModeA、対象ブロックの上隣接ブロックの予測モードをcandIntraPredModeB、ベースレイヤの参照ブロックの予測モードをcandIntraPredModeBLとする。
そして、本例に係るMPM導出部122は、
candModeList[0] = candIntraPredModeBL
に設定する。
candModeList[0] = candIntraPredModeBL
に設定する。
また、MPM導出部122は、
candIntraPredModeA==candIntraPredModeB
が満たされており、かつ、
candIntraPredModeA<2(Intra_PlanarかIntra_DC)
である場合、candModeList[1]~candModeList[3]を
candModeList[1] = Intra_Planar
candModeList[2] = Intra_DC
candModeList[3] = Intra_Angular(26)
に設定する。ただし、このように設定したcandModeList[1]~[3]の何れかがcandIntraPredModeBLに一致する場合には、当該candIntraPredModeBLに一致するcandModeListを、Intra_Angular(10)に置き換える。
candIntraPredModeA==candIntraPredModeB
が満たされており、かつ、
candIntraPredModeA<2(Intra_PlanarかIntra_DC)
である場合、candModeList[1]~candModeList[3]を
candModeList[1] = Intra_Planar
candModeList[2] = Intra_DC
candModeList[3] = Intra_Angular(26)
に設定する。ただし、このように設定したcandModeList[1]~[3]の何れかがcandIntraPredModeBLに一致する場合には、当該candIntraPredModeBLに一致するcandModeListを、Intra_Angular(10)に置き換える。
また、MPM導出部122は、
candIntraPredModeA==candIntraPredModeB
が満たされており、かつ、
candIntraPredModeA<2
でない場合、candModeList[1]~candModeList[3]を
candModeList[1] = candIntraPredModeA
candModeList[2] = 2+((candIntraPredModeA-2-1)%32
candModeList[3] = 2+((candIntraPredModeA-2+1)%32
に設定する。ただし、このように設定したcandModeList[1]~[3]の何れかがcandIntraPredModeBLに一致する場合には、当該candIntraPredModeBLに一致するcandModeListを、Intra_Planarに置き換える。
candIntraPredModeA==candIntraPredModeB
が満たされており、かつ、
candIntraPredModeA<2
でない場合、candModeList[1]~candModeList[3]を
candModeList[1] = candIntraPredModeA
candModeList[2] = 2+((candIntraPredModeA-2-1)%32
candModeList[3] = 2+((candIntraPredModeA-2+1)%32
に設定する。ただし、このように設定したcandModeList[1]~[3]の何れかがcandIntraPredModeBLに一致する場合には、当該candIntraPredModeBLに一致するcandModeListを、Intra_Planarに置き換える。
また、MPM導出部122は、
candIntraPredModeA != candIntraPredModeB
が満たされている場合、
candModeList[1] = candIntraPredModeA
candModeList[2] = candIntraPredModeB
と設定したうえで、candModeList[3]を、次のように決定する。すなわち、candModeList[1]も[2]もIntra_Planarでない場合には、
candModeList[3] = Intra_Planar
に設定し、
candModeList[1]及び[2]の少なくとも何れかがIntra_Planarである場合であって、candModeList[1]も[2]もIntra_DCでない場合には、
candModeList[3] = Intra_DC
に設定し、
candModeList[1]及び[2]が、それぞれIntra_Planar及びIntra_DCであるか、Intra_DC及びIntra_Planarである場合、
candModeList[3] = Intra_Angular(26)
に設定する。ただし、このように設定したcandModeList[1]~[3]の何れかがcandIntraPredModeBLに一致する場合には、当該candIntraPredModeBLに一致するcandModeListを、Intra_Angular(10)に置き換える。
candIntraPredModeA != candIntraPredModeB
が満たされている場合、
candModeList[1] = candIntraPredModeA
candModeList[2] = candIntraPredModeB
と設定したうえで、candModeList[3]を、次のように決定する。すなわち、candModeList[1]も[2]もIntra_Planarでない場合には、
candModeList[3] = Intra_Planar
に設定し、
candModeList[1]及び[2]の少なくとも何れかがIntra_Planarである場合であって、candModeList[1]も[2]もIntra_DCでない場合には、
candModeList[3] = Intra_DC
に設定し、
candModeList[1]及び[2]が、それぞれIntra_Planar及びIntra_DCであるか、Intra_DC及びIntra_Planarである場合、
candModeList[3] = Intra_Angular(26)
に設定する。ただし、このように設定したcandModeList[1]~[3]の何れかがcandIntraPredModeBLに一致する場合には、当該candIntraPredModeBLに一致するcandModeListを、Intra_Angular(10)に置き換える。
なお、本例においては、推定予測モードに設定するIntra_Angular予測モードの値(方向)として10(水平)および26(垂直)を用いたが、他の値を用いることもできる。
また、本例においては、MPMの個数が4個であるため、対象ブロックの予測モードがMPMと一致していない場合、以下の処理を行う。
すなわち、対象ブロックの予測モードが推定予測モードMPMと一致していない場合、予測モード復元部124は、符号化データに含まれるrem_idxに基づいて予測モードを復元する。具体的には、まず、candModeList[0]~candModeList[3]を、小さい順にソートする。すなわち、
(candModeList[0]のモード番号)<(candModeList[1]のモード番号)<(candModeList[2]のモード番号)<(candModeList[3]のモード番号)
となるようにソートする。
(candModeList[0]のモード番号)<(candModeList[1]のモード番号)<(candModeList[2]のモード番号)<(candModeList[3]のモード番号)
となるようにソートする。
続いて、予測モード復元部124は、
mode = rem_intra_luma_pred_mode
としてパラメータ「mode」を初期化する。ここで、rem_intra_luma_pred_modeは、MPMを除く予測モードのインデクスである。
mode = rem_intra_luma_pred_mode
としてパラメータ「mode」を初期化する。ここで、rem_intra_luma_pred_modeは、MPMを除く予測モードのインデクスである。
続いて、予測モード復元部124は、
mode >= candModeList[0] であれば、mode = mode+1
mode >= candModeList[1] であれば、mode = mode+1
mode >= candModeList[2] であれば、mode = mode+1
mode >= candModeList[3] であれば、mode = mode+1
と設定する。
mode >= candModeList[0] であれば、mode = mode+1
mode >= candModeList[1] であれば、mode = mode+1
mode >= candModeList[2] であれば、mode = mode+1
mode >= candModeList[3] であれば、mode = mode+1
と設定する。
本例に係る予測モード復元部124は、このようにして得られたmodeに対応する予測モードを復元する。本例のようにベースレイヤの参照ブロックの予測モードを常に推定予測モードの固定的な位置に格納しておくことにより、当該位置を示すインデクスが頻繁に用いられることになり、符号化効率の向上が可能となる。なお、「固定的な位置に格納する」とは、「固定的なインデックスを付して格納する」と表現することもできる。
<推定予測モードにベースレイヤの予測モードを含める構成の第3の例>
上記<推定予測モードにベースレイヤの予測モードを含める構成の第1の例>及び上記<推定予測モードにベースレイヤの予測モードを含める構成の第2の例>において説明した処理を、特定のブロックについてのみ実行する構成としてもよい。
上記<推定予測モードにベースレイヤの予測モードを含める構成の第1の例>及び上記<推定予測モードにベースレイヤの予測モードを含める構成の第2の例>において説明した処理を、特定のブロックについてのみ実行する構成としてもよい。
例えば、ツリーブロックの先頭ブロックのみに対して、上述の処理を適用する構成としてもよい。
このような構成とすることによって、特定のブロックについてのみ、ベースレイヤの参照ブロックの予測モードをメモリに保持しておけば足りるため、使用するメモリを削減することができる。
なお、いずれの構成においても、MPMに予測モードが重複して選択されることがないように、予測モードの一致を判定し、一致がある場合には、未選択の予測モードから適宜選択することが望ましい。
〔階層動画像符号化装置〕
以下では、本実施形態に係る階層動画像符号化装置2の構成について、図25~図27を参照して説明する。
〔階層動画像符号化装置〕
以下では、本実施形態に係る階層動画像符号化装置2の構成について、図25~図27を参照して説明する。
(階層動画像符号化装置の構成)
図25を用いて、階層動画像符号化装置2の概略的構成について説明すると次のとおりである。図25は、階層動画像符号化装置2の概略的構成について示した機能ブロック図である。階層動画像符号化装置2は、対象レイヤの入力画像PIN#Tを、参照レイヤ符号化データDATA#Rを参照しながら符号化して、対象レイヤの階層符号化データDATAを生成する。なお、参照レイヤ符号化データDATA#Rは、参照レイヤに対応する階層動画像符号化装置において符号化済みであるとする。
図25を用いて、階層動画像符号化装置2の概略的構成について説明すると次のとおりである。図25は、階層動画像符号化装置2の概略的構成について示した機能ブロック図である。階層動画像符号化装置2は、対象レイヤの入力画像PIN#Tを、参照レイヤ符号化データDATA#Rを参照しながら符号化して、対象レイヤの階層符号化データDATAを生成する。なお、参照レイヤ符号化データDATA#Rは、参照レイヤに対応する階層動画像符号化装置において符号化済みであるとする。
図25に示すように階層動画像符号化装置2は、予測パラメータ決定部21、予測情報生成部22、ベース復号部23、テクスチャ情報生成部24、可変長符号化部25、およびNAL多重化部26を備える。
予測パラメータ決定部21は、入力画像PIN#Tに基づいて、予測画像の予測に用いられる予測パラメータおよびその他の符号化の設定を決定する。
予測パラメータ決定部21は、予測パラメータをはじめとする符号化の設定を、以下のとおり行う。
まず、予測パラメータ決定部21は、入力画像PIN#Tを、スライス単位、ツリーブロック単位、CU単位に順次分割することにより、対象CUについてのCU画像を生成する。
また、予測パラメータ決定部21は、分割処理の結果に基づいて、符号化情報(ヘッダ情報とも称されることがある)を生成する。 符号化情報は、(1)対象スライスに属するツリーブロックのサイズ、形状および対象スライス内での位置についての情報であるツリーブロック情報と、(2)各ツリーブロックに属するCUのサイズ、形状および対象ツリーブロック内での位置についての情報であるCU情報とを含んでいる。
さらに、予測パラメータ決定部21は、CU画像、ツリーブロック情報、およびCU情報を参照して、対象CUの予測タイプ、対象CUのPUへの分割情報、および、予測パラメータ(対象CUが、イントラCUであればイントラ予測モード、インターCUである場合には各PUにおける動き補償パラメータ)を導出する。
予測パラメータ決定部21は、(1)対象CUの予測タイプ、(2)対象CUの各PUへの可能な分割パターン、および、(3)各PUに割り付ける可能な予測モード(イントラCUであればイントラ予測モード、インターCUであれば動き補償パラメータ)、の全ての組み合わせについて、コストを算出し、最低コストの予測タイプ、分割パターン、および、予測モードを決定する。
予測パラメータ決定部21は、符号化情報および予測パラメータを予測情報生成部22およびテクスチャ情報生成部24に供給する。なお、説明の簡便のため図示しないが、予測パラメータ決定部21において決定された上記の符号化の設定は、階層動画像符号化装置2の各部において参照可能とする。
予測情報生成部22は、予測パラメータ決定部21から供給される予測パラメータと、参照レイヤ符号化データDATA#Rとに基づいて予測パラメータに関するシンタックス値を含む予測情報を生成する。予測情報生成部22は、生成した予測情報を可変長符号化部25に供給する。なお、予測情報生成部22は、予測パラメータを復元する際に、テクスチャ情報生成24が備えるフレームメモリ244(後述)に格納された動き情報を参照することができる。
ベース復号部23は、階層動画像復号装置1のベース復号部16と同様であるので、ここではその説明を省略する。
テクスチャ情報生成部24は、入力画像PIN#Tから予測画像を減算して得られる予測残差を、直交変換・量子化した変換係数を含む変換係数情報を生成する。テクスチャ情報生成部24は、生成した変換係数情報を可変長符号化部25に供給する。なお、テクスチャ情報生成24では、復元された復号画像に関する情報が、内部に備えるフレームメモリ244(後述)に格納される。
可変長符号化部25は、予測情報生成部22から供給される予測情報およびテクスチャ情報生成部24から供給される変換係数情報を可変長符号化して対象レイヤ符号化データDATA#Tを生成する。可変長符号化部25は、生成した対象レイヤ符号化データDATA#TをNAL多重化部26に供給する。
NAL多重化部26は、可変長符号化部25から供給される対象レイヤ符号化データDATA#Tと、参照レイヤ符号化データDATA#RとをNALユニットに格納することでNAL多重化した階層動画像符号化データDATAを生成し、外部に出力する。
以下において、予測情報生成部22、およびテクスチャ情報生成部24それぞれの詳細について説明する。
(予測情報生成部)
図26を用いて、予測情報生成部22の詳細構成について説明する。図26は、予測情報生成部22の構成について例示した機能ブロック図である。
図26を用いて、予測情報生成部22の詳細構成について説明する。図26は、予測情報生成部22の構成について例示した機能ブロック図である。
図26に示すように、予測情報生成部22は、予測タイプ選択部221、スイッチ222、イントラ予測モード導出部223、動きベクトル候補導出部224、動き情報生成部225、マージ候補導出部(層間候補導出手段)226、およびマージ情報生成部227を備える。
予測タイプ選択部221は、CUタイプまたはPUタイプに応じてスイッチ222に切り替え指示を送り予測パラメータの導出処理を制御する。具体的には以下のとおりである。
イントラCUまたはイントラPUが指定されている場合、予測タイプ選択部221はイントラ予測モード導出部223を用いて予測情報を導出できるようスイッチ222を制御する。
インターCU(マージなし)およびインターPU(マージなし)のいずれかが指定されている場合、予測タイプ選択部221は動き情報生成部225を用いて予測パラメータを導出できるようスイッチ222を制御する。
ベーススキップCU、ベースマージPU、スキップCUおよびマージPUのいずれかが指定されている場合、予測タイプ選択部221はマージ情報生成部227を用いて予測パラメータを導出できるようスイッチ222を制御する。
スイッチ222は、予測タイプ選択部221の指示に応じて、予測パラメータを、イントラ予測モード導出部223、動き情報生成部225、およびマージ情報生成部227のいずれかに供給する。予測情報の供給先において予測パラメータが導出される。
イントラ予測モード導出部223は、予測モードに関するシンタックス値を導出する。すなわち、イントラ予測モード復元部143が予測情報として生成するのは、予測モードに関するシンタックス値である。
イントラ予測モード導出部223による具体的処理には、イントラ予測モード復元部143に関して説明した処理に対応する処理、特に、<イントラレイヤ間予測の第1の例>~<イントラレイヤ間予測の第7の例>、及び<予測モード群にベースレイヤの予測モードを追加する構成の第1の例>~<予測モード群にベースレイヤの予測モードを追加する構成の第3の例>に記載した処理に対応する処理が含まれる。ただし、これらの説明における「イントラ予測モード復元部143」は、「イントラ予測モード導出部223」と読み替えるものとし、「MPM導出部122」は、「イントラ予測モード導出部223の備えるMPM導出部」と読み替えるものとする。
動きベクトル候補導出部224は、ベース復号情報を用いて、レイヤ内動き推定処理、または、レイヤ間動き推定処理により推定動きベクトルの候補を導出する。動きベクトル候補導出部224は、導出した動きベクトルの候補を動き情報生成部225に供給する。
動き情報生成部225は、マージを行わない各インター予測パーティションにおける動き情報に関するシンタックス値を生成する。すなわち、動き情報復元部145が予測情報として生成するのは動き情報に関するシンタックス値である。具体的には、動き情報生成部225は、各PUにおける動き補償パラメータから、対応するシンタックス要素値であるinter_pred_flag、mvd、mvp_idx、および、refIdxを導出する。
具体的には、動き情報生成部225は、対象PUがベースマージPUである場合、動きベクトル候補導出部224から供給される動きベクトルの候補に基づいて、上記シンタックス値を導出する。
一方、動き情報復元部145は、対象CU(PU)がマージを行わないインターCU(インターPU)である場合、予測パラメータに含まれる動き情報に基づいて、上記シンタックス値を導出する。
マージ候補導出部226は、後述するフレームメモリ155から供給される復号済みの動き情報および/またはベース復号部23から供給されるベース復号情報等を用いて、各PUにおける動き補償パラメータと類似の動き補償パラメータを有するマージ候補を導出する。マージ候補導出部226は、導出したマージ候補をマージ情報生成部227に供給する。マージ候補導出部226の構成は、階層動画像復号装置1に含まれるマージ候補導出部146の構成と同様であるので、その説明を省略する。
マージ情報生成部227は、マージを行う各インター予測パーティションに関する動き情報に関するシンタックス値を生成する。すなわち、マージ情報生成部227が予測情報として生成するのは動き情報に関するシンタックス値である。具体的には、マージ情報生成部227は、各PUにおける動き補償パラメータと類似の動き補償パラメータを有するマージ候補を指定するシンタックス要素値merge_idxを出力する。
(テクスチャ情報生成部)
図27を用いて、テクスチャ情報生成部24の詳細構成について説明する。図27は、テクスチャ情報生成部24の構成について例示した機能ブロック図である。
図27を用いて、テクスチャ情報生成部24の詳細構成について説明する。図27は、テクスチャ情報生成部24の構成について例示した機能ブロック図である。
図27に示すように、テクスチャ情報生成部24は、テクスチャ予測部241、減算器242、直交変換・量子化部243、逆直交変換・逆量子化部244、加算器245、ループフィルタ部246、およびフレームメモリ247を備える。
減算器242は、入力画像PIN#Tからテクスチャ予測部241から供給される予測画像を減算することによって、予測残差Dを生成する。減算器242は、生成した予測残差Dを、変換・量子化部243に供給する。
直交変換・量子化部243は、予測残差Dに対して、直交変換および量子化を行うことで量子化予測残差を生成する。なお、ここで直交変換とは、画素領域から周波数領域への直交変換のことをさす。また、直交変換の例としては、DCT変換(Discrete Cosine Transform)、およびDST変換(Discrete Sine Transform)等が挙げられる。また、具体的な量子化過程については、すでに説明した通りであるので、ここではその説明を省略する。直交変換・量子化部243は、生成した量子化予測残差を含む変換係数情報を逆変換・逆量子化部244および可変長符号化部25に供給する。
テクスチャ予測部241、逆直交変換・逆量子化部244、加算器245、ループフィルタ部246、およびフレームメモリ247は、それぞれ、階層動画像復号装置1に含まれるテクスチャ予測部152、逆直交変換・逆量子化部151、加算器153、ループフィルタ部154、およびフレームメモリ155と同様であるので、ここではその説明は省略する。ただし、テクスチャ予測部241は、加算器245だけでなく減算器242にも予測画像を供給する。
(他の階層動画像符号化/復号システムへの適用例)
上述した階層動画像符号化装置2及び階層動画像復号装置1は、動画像の送信、受信、記録、再生を行う各種装置に搭載して利用することができる。なお、動画像は、カメラ等により撮像された自然動画像であってもよいし、コンピュータ等により生成された人工動画像(CGおよびGUIを含む)であってもよい。
上述した階層動画像符号化装置2及び階層動画像復号装置1は、動画像の送信、受信、記録、再生を行う各種装置に搭載して利用することができる。なお、動画像は、カメラ等により撮像された自然動画像であってもよいし、コンピュータ等により生成された人工動画像(CGおよびGUIを含む)であってもよい。
図28に基づいて、上述した階層動画像符号化装置2および階層動画像復号装置1を、動画像の送信および受信に利用できることを説明する。図28の(a)は、階層動画像符号化装置2を搭載した送信装置PROD_Aの構成を示したブロック図である。
図28の(a)に示すように、送信装置PROD_Aは、動画像を符号化することによって符号化データを得る符号化部PROD_A1と、符号化部PROD_A1が得た符号化データで搬送波を変調することによって変調信号を得る変調部PROD_A2と、変調部PROD_A2が得た変調信号を送信する送信部PROD_A3とを備えている。上述した階層動画像符号化装置2は、この符号化部PROD_A1として利用される。
送信装置PROD_Aは、符号化部PROD_A1に入力する動画像の供給源として、動画像を撮像するカメラPROD_A4、動画像を記録した記録媒体PROD_A5、動画像を外部から入力するための入力端子PROD_A6、及び、画像を生成または加工する画像処理部A7を更に備えていてもよい。図28の(a)においては、これら全てを送信装置PROD_Aが備えた構成を例示しているが、一部を省略しても構わない。
なお、記録媒体PROD_A5は、符号化されていない動画像を記録したものであってもよいし、伝送用の符号化方式とは異なる記録用の符号化方式で符号化された動画像を記録したものであってもよい。後者の場合、記録媒体PROD_A5と符号化部PROD_A1との間に、記録媒体PROD_A5から読み出した符号化データを記録用の符号化方式に従って復号する復号部(不図示)を介在させるとよい。
図28の(b)は、階層動画像復号装置1を搭載した受信装置PROD_Bの構成を示したブロック図である。図28の(b)に示すように、受信装置PROD_Bは、変調信号を受信する受信部PROD_B1と、受信部PROD_B1が受信した変調信号を復調することによって符号化データを得る復調部PROD_B2と、復調部PROD_B2が得た符号化データを復号することによって動画像を得る復号部PROD_B3とを備えている。上述した階層動画像復号装置1は、この復号部PROD_B3として利用される。
受信装置PROD_Bは、復号部PROD_B3が出力する動画像の供給先として、動画像を表示するディスプレイPROD_B4、動画像を記録するための記録媒体PROD_B5、及び、動画像を外部に出力するための出力端子PROD_B6を更に備えていてもよい。図28の(b)においては、これら全てを受信装置PROD_Bが備えた構成を例示しているが、一部を省略しても構わない。
なお、記録媒体PROD_B5は、符号化されていない動画像を記録するためのものであってもよいし、伝送用の符号化方式とは異なる記録用の符号化方式で符号化されたものであってもよい。後者の場合、復号部PROD_B3と記録媒体PROD_B5との間に、復号部PROD_B3から取得した動画像を記録用の符号化方式に従って符号化する符号化部(不図示)を介在させるとよい。
なお、変調信号を伝送する伝送媒体は、無線であってもよいし、有線であってもよい。また、変調信号を伝送する伝送態様は、放送(ここでは、送信先が予め特定されていない送信態様を指す)であってもよいし、通信(ここでは、送信先が予め特定されている送信態様を指す)であってもよい。すなわち、変調信号の伝送は、無線放送、有線放送、無線通信、及び有線通信の何れによって実現してもよい。
例えば、地上デジタル放送の放送局(放送設備など)/受信局(テレビジョン受像機など)は、変調信号を無線放送で送受信する送信装置PROD_A/受信装置PROD_Bの一例である。また、ケーブルテレビ放送の放送局(放送設備など)/受信局(テレビジョン受像機など)は、変調信号を有線放送で送受信する送信装置PROD_A/受信装置PROD_Bの一例である。
また、インターネットを用いたVOD(Video On Demand)サービスや動画共有サービスなどのサーバ(ワークステーションなど)/クライアント(テレビジョン受像機、パーソナルコンピュータ、スマートフォンなど)は、変調信号を通信で送受信する送信装置PROD_A/受信装置PROD_Bの一例である(通常、LANにおいては伝送媒体として無線又は有線の何れかが用いられ、WANにおいては伝送媒体として有線が用いられる)。ここで、パーソナルコンピュータには、デスクトップ型PC、ラップトップ型PC、及びタブレット型PCが含まれる。また、スマートフォンには、多機能携帯電話端末も含まれる。
なお、動画共有サービスのクライアントは、サーバからダウンロードした符号化データを復号してディスプレイに表示する機能に加え、カメラで撮像した動画像を符号化してサーバにアップロードする機能を有している。すなわち、動画共有サービスのクライアントは、送信装置PROD_A及び受信装置PROD_Bの双方として機能する。
図29に基づいて、上述した階層動画像符号化装置2および階層動画像復号装置1を、動画像の記録および再生に利用できることを説明する。図29の(a)は、上述した階層動画像符号化装置2を搭載した記録装置PROD_Cの構成を示したブロック図である。
図29の(a)に示すように、記録装置PROD_Cは、動画像を符号化することによって符号化データを得る符号化部PROD_C1と、符号化部PROD_C1が得た符号化データを記録媒体PROD_Mに書き込む書込部PROD_C2と、を備えている。上述した階層動画像符号化装置2は、この符号化部PROD_C1として利用される。
なお、記録媒体PROD_Mは、(1)HDD(Hard Disk Drive)やSSD(Solid State Drive)等のように、記録装置PROD_Cに内蔵されるタイプのものであってもよいし、(2)SDメモリカードやUSB(Universal Serial Bus)フラッシュメモリ等のように、記録装置PROD_Cに接続されるタイプのものであってもよいし、(3)DVD(Digital Versatile Disc)やBD(Blu-ray Disc:登録商標)等のように、記録装置PROD_Cに内蔵されたドライブ装置(不図示)に装填されるものであってもよい。
また、記録装置PROD_Cは、符号化部PROD_C1に入力する動画像の供給源として、動画像を撮像するカメラPROD_C3、動画像を外部から入力するための入力端子PROD_C4、動画像を受信するための受信部PROD_C5、及び、画像を生成または加工する画像処理部C6を更に備えていてもよい。図29の(a)においては、これら全てを記録装置PROD_Cが備えた構成を例示しているが、一部を省略しても構わない。
なお、受信部PROD_C5は、符号化されていない動画像を受信するものであってもよいし、記録用の符号化方式とは異なる伝送用の符号化方式で符号化された符号化データを受信するものであってもよい。後者の場合、受信部PROD_C5と符号化部PROD_C1との間に、伝送用の符号化方式で符号化された符号化データを復号する伝送用復号部(不図示)を介在させるとよい。
このような記録装置PROD_Cとしては、例えば、DVDレコーダ、BDレコーダ、HDD(Hard Disk Drive)レコーダなどが挙げられる(この場合、入力端子PROD_C4又は受信部PROD_C5が動画像の主な供給源となる)。また、カムコーダ(この場合、カメラPROD_C3が動画像の主な供給源となる)、パーソナルコンピュータ(この場合、受信部PROD_C5又は画像処理部C6が動画像の主な供給源となる)、スマートフォン(この場合、カメラPROD_C3又は受信部PROD_C5が動画像の主な供給源となる)なども、このような記録装置PROD_Cの一例である。
図29の(b)は、上述した階層動画像復号装置1を搭載した再生装置PROD_Dの構成を示したブロックである。図29の(b)に示すように、再生装置PROD_Dは、記録媒体PROD_Mに書き込まれた符号化データを読み出す読出部PROD_D1と、読出部PROD_D1が読み出した符号化データを復号することによって動画像を得る復号部PROD_D2と、を備えている。上述した階層動画像復号装置1は、この復号部PROD_D2として利用される。
なお、記録媒体PROD_Mは、(1)HDDやSSDなどのように、再生装置PROD_Dに内蔵されるタイプのものであってもよいし、(2)SDメモリカードやUSBフラッシュメモリなどのように、再生装置PROD_Dに接続されるタイプのものであってもよいし、(3)DVDやBDなどのように、再生装置PROD_Dに内蔵されたドライブ装置(不図示)に装填されるものであってもよい。
また、再生装置PROD_Dは、復号部PROD_D2が出力する動画像の供給先として、動画像を表示するディスプレイPROD_D3、動画像を外部に出力するための出力端子PROD_D4、及び、動画像を送信する送信部PROD_D5を更に備えていてもよい。図29の(b)においては、これら全てを再生装置PROD_Dが備えた構成を例示しているが、一部を省略しても構わない。
なお、送信部PROD_D5は、符号化されていない動画像を送信するものであってもよいし、記録用の符号化方式とは異なる伝送用の符号化方式で符号化された符号化データを送信するものであってもよい。後者の場合、復号部PROD_D2と送信部PROD_D5との間に、動画像を伝送用の符号化方式で符号化する符号化部(不図示)を介在させるとよい。
このような再生装置PROD_Dとしては、例えば、DVDプレイヤ、BDプレイヤ、HDDプレイヤなどが挙げられる(この場合、テレビジョン受像機等が接続される出力端子PROD_D4が動画像の主な供給先となる)。また、テレビジョン受像機(この場合、ディスプレイPROD_D3が動画像の主な供給先となる)、デジタルサイネージ(電子看板や電子掲示板等とも称され、ディスプレイPROD_D3又は送信部PROD_D5が動画像の主な供給先となる)、デスクトップ型PC(この場合、出力端子PROD_D4又は送信部PROD_D5が動画像の主な供給先となる)、ラップトップ型又はタブレット型PC(この場合、ディスプレイPROD_D3又は送信部PROD_D5が動画像の主な供給先となる)、スマートフォン(この場合、ディスプレイPROD_D3又は送信部PROD_D5が動画像の主な供給先となる)なども、このような再生装置PROD_Dの一例である。
(ハードウェア的実現およびソフトウェア的実現について)
最後に、階層動画像復号装置1、階層動画像符号化装置2の各ブロックは、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェア的に実現してもよい。
最後に、階層動画像復号装置1、階層動画像符号化装置2の各ブロックは、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェア的に実現してもよい。
後者の場合、上記各装置は、各機能を実現する制御プログラムの命令を実行するCPU、上記プログラムを格納したROM(Read Only Memory)、上記プログラムを展開するRAM(Random Access Memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである上記各装置の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記各装置に供給し、そのコンピュータ(またはCPUやMPU(Micro Processing Unit))が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ類、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD-ROM(Compact Disc Read-Only Memory)/MO(Magneto-Optical)/MD(Mini Disc)/DVD(Digital Versatile Disk)/CD-R(CD Recordable)等の光ディスクを含むディスク類、ICカード(メモリカードを含む)/光カード等のカード類、マスクROM/EPROM(Erasable Programmable Read-only Memory)/EEPROM(登録商標)(Electrically Erasable and Programmable Read-only Memory)/フラッシュROM等の半導体メモリ類、あるいはPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等の論理回路類などを用いることができる。
また、上記各装置を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN(Local Area Network)、ISDN(Integrated Services Digital Network)、VAN(Value-Added Network)、CATV(Community Antenna Television)通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE(Institute of Electrical and Electronic Engineers)1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(Asymmetric Digital Subscriber Line)回線等の有線でも、IrDA(Infrared Data Association)やリモコンのような赤外線、Bluetooth(登録商標)、IEEE802.11無線、HDR(High Data Rate)、NFC(Near Field Communication)、DLNA(Digital Living Network Alliance)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本発明は、画像データが階層的に符号化された符号化データを復号する階層画像復号装置、および、画像データが階層的に符号化された符号化データを生成する階層画像符号化装置に好適に適用することができる。また、階層画像符号化装置によって生成され、階層画像復号装置によって参照される階層符号化データのデータ構造に好適に適用することができる。
1 階層動画像復号装置(画像復号装置)
11 NAL逆多重化部
12 可変長復号部
13 ベース復号部
14 予測パラメータ復元部
15 テクスチャ復元部
152 テクスチャ予測部
152C レイヤ間イントラ予測部(予測画像生成手段)
143 イントラ予測モード復元部(選択手段)
122 MPM導出部
123 MPM判定部
124 予測モード復元部
126 色差予測モード復元部
127 コンテキスト記憶部
2 階層動画像符号化装置(画像符号化装置)
21 予測パラメータ決定部
22 予測情報生成部
223 イントラ予測モード導出部(選択手段)
23 ベース復号部
24 テクスチャ情報生成部
241 テクスチャ予測部
241C レイヤ間イントラ予測部(予測画像生成手段)
25 可変長符号化部
26 NAL多重化部
11 NAL逆多重化部
12 可変長復号部
13 ベース復号部
14 予測パラメータ復元部
15 テクスチャ復元部
152 テクスチャ予測部
152C レイヤ間イントラ予測部(予測画像生成手段)
143 イントラ予測モード復元部(選択手段)
122 MPM導出部
123 MPM判定部
124 予測モード復元部
126 色差予測モード復元部
127 コンテキスト記憶部
2 階層動画像符号化装置(画像符号化装置)
21 予測パラメータ決定部
22 予測情報生成部
223 イントラ予測モード導出部(選択手段)
23 ベース復号部
24 テクスチャ情報生成部
241 テクスチャ予測部
241C レイヤ間イントラ予測部(予測画像生成手段)
25 可変長符号化部
26 NAL多重化部
Claims (14)
- 階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を用いて上位レイヤの復号画像を復元する画像復号装置であって、
符号化データを参照し、予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群から、一の予測モードを選択する選択手段と、
上記選択手段によって選択された予測モードに基づいて、上位レイヤにおける対象予測単位の予測画像を生成する予測画像生成手段と
を備え、
上記予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、
上記選択手段は、符号化データに含まれるシンタックスであって、上記イントラレイヤ間予測モードと上記複数のイントラ予測モードとに関する共通のシンタックスを参照することによって、一の予測モードを選択する
ことを特徴とする画像復号装置。 - 上記予測モード群には、上記予め定められた複数のイントラ予測モードの何れか1つの予測モードに代えて、上記イントラレイヤ間予測モードが含まれている、
ことを特徴とする請求項1に記載の画像復号装置。 - 上記予測モード群には、上記予め定められた複数のイントラ予測モードに加えて、上記イントラレイヤ間予測モードが含まれている、
ことを特徴とする請求項1に記載の画像復号装置。 - 上記予測モード群には、上記イントラレイヤ間予測モードが複数種類含まれており、
上記選択手段は、上記複数種類のイントラレイヤ間予測モードの何れかを、符号化データに含まれるフラグを参照することによって選択する、
ことを特徴とする請求項1に記載の画像復号装置。 - 上記予測モード群には、上記イントラレイヤ間予測モードが複数種類含まれており、
上記選択手段は、符号化データに含まれるシンタックスであって、上記複数種類のイントラレイヤ間予測モードと上記複数のイントラ予測モードとに関する共通のシンタックスを参照することによって、一の予測モードを選択する、
ことを特徴とする請求項1に記載の画像復号装置。 - 階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を用いて上位レイヤの復号画像を復元する画像復号装置であって、
符号化データを参照し、予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群から、一の予測モードを選択する選択手段と、
上記選択手段によって選択された予測モードに基づいて、上位レイヤにおける対象予測単位の予測画像を生成する予測画像生成手段と
を備え、
上記予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、
上記選択手段は、符号化データに含まれるシンタックスであって、上記イントラレイヤ間予測モードを選択するか否かを示すフラグを参照することによって、一の予測モードを選択する
ことを特徴とする画像復号装置。 - 上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、
上記選択手段は、輝度に関する予測モードとして上記イントラレイヤ間予測モードを選択した場合、色差に関する予測モードとして、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードを選択する
ことを特徴とする請求項1から6の何れか1項に記載の画像復号装置。 - 上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、
色差に関する予測モード群には、輝度に関して選択された予測モードと同一の予測モードを用いるモードであるDMモードが含まれており、
上記選択手段は、上記DMモードを仮選択した場合、符号化データに含まれるフラグの値を参照し、色差に関する予測モードとして、上記DMモードを実際に選択するのか、それとも、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードを選択するのかを決定する
ことを特徴とする請求項1から6の何れか1項に記載の画像復号装置。 - 上記予測モード群に含まれる予測モードは、輝度に関する予測モードであり、
色差に関する予測モード群には、輝度に関して選択された予測モードと同一の予測モードを用いるモードであるDMモードが含まれており、
上記選択手段は、上記DMモードを仮選択した場合、色差に関する予測モードとして、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードを選択する
ことを特徴とする請求項1から6の何れか1項に記載の画像復号装置。 - 階層符号化された符号化データに含まれる上位レイヤの符号化データを復号し、下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を用いて上位レイヤの復号画像を復元する画像復号装置であって、
予め定められた複数のイントラ予測モードを含む予測モード群から一の予測モードを選択する選択手段と、
上記選択手段によって選択された予測モードに基づいて、上位レイヤの対象予測単位における予測画像を生成する予測画像生成手段と
を備え、
上記予測モード群には、上位レイヤにおける対象予測単位と同時刻に位置する下位レイヤの予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位に対して選択されたイントラ予測モードが含まれている、
ことを特徴とする画像復号装置。 - 上記選択手段は、上記予め定められた複数のイントラ予測モードの一部を含むように設定された推定予測モード群であって、上記対象予測単位の周辺の予測単位に割り付けられた予測モードに応じて定まる推定予測モード群から、一の予測モードを選択するものであり、
上記推定予測モード群は、上記参照予測単位に対して選択されたイントラ予測モードを含むように設定されている、
ことを特徴とする請求項10に記載の画像復号装置。 - 上記推定予測モード群に含まれる推定予測モードは、インデックスによって互いに識別されるものであり、
上記推定予測モード群に含まれる上記参照予測単位に対して選択されたイントラ予測モードには、固定的なインデックスが付されている、
ことを特徴とする請求項11に記載の画像復号装置。 - 上記対象予測単位が、符号化単位において処理順で特定の位置を有する予測単位である場合に限って、上記予測モード群には、上記参照予測単位に対して選択されたイントラ予測モードが含まれている、
ことを特徴とする請求項10に記載の画像復号装置。 - 原画像から下位レイヤからの復号画像を参照して生成した上位レイヤの予測画像を減算して得られる残差を階層符号化して上位レイヤの符号化データを生成する画像符号化装置であって、
予め定められた複数のイントラ予測モードの少なくとも一部を含む予測モード群から、一の予測モードを選択する選択手段と、
上記選択手段によって選択された予測モードに基づいて、上位レイヤにおける対象予測単位の予測画像を生成する予測画像生成手段と
を備え、
上記予測モード群には、上位レイヤにおける対象予測単位の予測画像を、下位レイヤにおける、時間的に該対象予測単位と同時刻に位置する予測単位であって、空間的に該対象予測単位に対応する位置に配置された予測単位である参照予測単位の復号画像に基づいて生成するイントラレイヤ間予測モードが含まれており、
上記イントラレイヤ間予測モードと、上記複数のイントラ予測モードとは、共通のシンタックスを用いて指定されている、
ことを特徴とする画像符号化装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012149982A JP2015167267A (ja) | 2012-07-03 | 2012-07-03 | 画像復号装置、および画像符号化装置 |
| JP2012-149982 | 2012-07-03 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2014007131A1 true WO2014007131A1 (ja) | 2014-01-09 |
Family
ID=49881888
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2013/067618 Ceased WO2014007131A1 (ja) | 2012-07-03 | 2013-06-27 | 画像復号装置、および画像符号化装置 |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2015167267A (ja) |
| WO (1) | WO2014007131A1 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015177343A (ja) * | 2014-03-14 | 2015-10-05 | 三菱電機株式会社 | 画像符号化装置、画像復号装置、画像符号化方法及び画像復号方法 |
| US12273544B2 (en) | 2019-03-20 | 2025-04-08 | V-Nova International Limited | Rate control for a video encoder |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102379609B1 (ko) | 2012-10-01 | 2022-03-28 | 지이 비디오 컴프레션, 엘엘씨 | 향상 레이어 모션 파라미터들에 대한 베이스-레이어 힌트들을 이용한 스케일러블 비디오 코딩 |
| CN113629177B (zh) | 2015-08-26 | 2024-06-11 | 索尼公司 | 发光装置、显示装置和照明装置 |
| CN115174912B (zh) * | 2017-07-24 | 2025-07-18 | 艾锐势有限责任公司 | 帧内模式jvet编译方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008543160A (ja) * | 2005-05-26 | 2008-11-27 | エルジー エレクトロニクス インコーポレイティド | 階層間予測を通じてエンコードされた映像信号をデコーディングする方法 |
| JP2009500981A (ja) * | 2005-07-11 | 2009-01-08 | トムソン ライセンシング | マクロブロック適応型レイヤ間テクスチャ内予測の方法及び装置 |
| JP2009538086A (ja) * | 2006-11-17 | 2009-10-29 | エルジー エレクトロニクス インコーポレイティド | ビデオ信号のデコーディング/エンコーディング方法及び装置 |
-
2012
- 2012-07-03 JP JP2012149982A patent/JP2015167267A/ja active Pending
-
2013
- 2013-06-27 WO PCT/JP2013/067618 patent/WO2014007131A1/ja not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008543160A (ja) * | 2005-05-26 | 2008-11-27 | エルジー エレクトロニクス インコーポレイティド | 階層間予測を通じてエンコードされた映像信号をデコーディングする方法 |
| JP2009500981A (ja) * | 2005-07-11 | 2009-01-08 | トムソン ライセンシング | マクロブロック適応型レイヤ間テクスチャ内予測の方法及び装置 |
| JP2009538086A (ja) * | 2006-11-17 | 2009-10-29 | エルジー エレクトロニクス インコーポレイティド | ビデオ信号のデコーディング/エンコーディング方法及び装置 |
Non-Patent Citations (1)
| Title |
|---|
| TOMOYUKI YAMAMOTO ET AL.: "Description of scalable video coding technology proposal by SHARP (proposal 2)", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG16 WP3 AND ISO/IEC JTC1/SC29/WG11, LLTH MEETING, 10 October 2012 (2012-10-10), SHANGHAI, CN * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015177343A (ja) * | 2014-03-14 | 2015-10-05 | 三菱電機株式会社 | 画像符号化装置、画像復号装置、画像符号化方法及び画像復号方法 |
| US12273544B2 (en) | 2019-03-20 | 2025-04-08 | V-Nova International Limited | Rate control for a video encoder |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015167267A (ja) | 2015-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6456535B2 (ja) | 画像符号化装置、画像符号化方法および記録媒体 | |
| JP6284661B2 (ja) | 画像符号化装置、および画像符号化方法 | |
| US10136151B2 (en) | Image decoding device and image decoding method | |
| JP6352248B2 (ja) | 画像復号装置、および画像符号化装置 | |
| US20160249056A1 (en) | Image decoding device, image coding device, and coded data | |
| JPWO2015182342A1 (ja) | 画像復号装置、および、画像符号化装置 | |
| JPWO2014104242A1 (ja) | 画像復号装置、および画像符号化装置 | |
| WO2014007131A1 (ja) | 画像復号装置、および画像符号化装置 | |
| WO2013161690A1 (ja) | 画像復号装置および画像符号化装置 | |
| JP2014176039A (ja) | 画像復号装置、および画像符号化装置 | |
| JP2014013975A (ja) | 画像復号装置、符号化データのデータ構造、および画像符号化装置 | |
| WO2014050554A1 (ja) | 画像復号装置、および画像符号化装置 | |
| JPWO2015098713A1 (ja) | 画像復号装置および画像符号化装置 | |
| WO2013161689A1 (ja) | 動画像復号装置、および動画像符号化装置 | |
| JP2014082729A (ja) | 画像復号装置、および画像符号化装置 | |
| JP2015177318A (ja) | 画像復号装置、画像符号化装置 | |
| JP2014013976A (ja) | 画像復号装置、および画像符号化装置 | |
| JP2015076807A (ja) | 画像復号装置、画像符号化装置、および符号化データのデータ構造 | |
| HK1210347B (en) | Image decoding device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13813138 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 13813138 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: JP |