[go: up one dir, main page]

WO2022209032A1 - 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム - Google Patents

映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム Download PDF

Info

Publication number
WO2022209032A1
WO2022209032A1 PCT/JP2021/045639 JP2021045639W WO2022209032A1 WO 2022209032 A1 WO2022209032 A1 WO 2022209032A1 JP 2021045639 W JP2021045639 W JP 2021045639W WO 2022209032 A1 WO2022209032 A1 WO 2022209032A1
Authority
WO
WIPO (PCT)
Prior art keywords
picture
prediction
video
display order
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2021/045639
Other languages
English (en)
French (fr)
Inventor
健太 徳満
慶一 蝶野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to EP21935181.4A priority Critical patent/EP4319153A4/en
Priority to JP2023510228A priority patent/JP7722447B2/ja
Priority to CN202180096356.8A priority patent/CN117063465A/zh
Priority to US18/284,373 priority patent/US20240163452A1/en
Publication of WO2022209032A1 publication Critical patent/WO2022209032A1/ja
Anticipated expiration legal-status Critical
Priority to JP2025081142A priority patent/JP2025114816A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/16Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter for a given display mode, e.g. for interlaced or progressive display mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer

Definitions

  • the present invention relates to a video encoding device, a video decoding device, a video encoding method, a video decoding method, and a video system.
  • a video signal is H.264 on the transmission side.
  • H.264/AVC Advanced Video Coding
  • HEVC High Efficiency Video Coding
  • SOP Structure of Pictures
  • the concept of SOP is introduced in Non-Patent Document 1.
  • the SOP is a unit in which the encoding order and reference relationship of each AU (Access Unit) are described when temporal hierarchical encoding (temporal scalable encoding) is performed.
  • Temporal scalable coding is coding that allows partial extraction of frames from a plurality of frames of video.
  • One GOP Group of Pictures
  • SOPs One or more SOPs.
  • Non-Patent Document 1 defines SOP structures applied to video formats other than 120/P (Progressive) and SOP structures applied to 120/P video formats.
  • FIG. 12 is an explanatory diagram showing the SOP structure applied to video formats other than 120/P.
  • FIG. 12 shows the SOP structure when reordering (picture reordering) is applied.
  • Temporal ID is identification information indicating the hierarchy of each AU.
  • an AU with a Temporal ID of m (a natural number equal to or greater than 0) may be referred to as a picture with a Temporal ID of m.
  • ⁇ L0 structure SOP structure composed only of pictures with a Temporal ID of 0 (that is, the number of stages (hierarchy) of pictures included in the SOP is 1. It can be said that L, which indicates the maximum Temporal ID, is 0.)
  • L1 structure SOP structure composed of pictures with Temporal ID 0 and pictures with Temporal ID 1 (That is, there are two layers included in the SOP. It can be said that L, which indicates the maximum Temporal ID, is 1.)
  • ⁇ L2 structure SOP structure composed of pictures with Temporal ID 0, pictures with 1, and pictures with 2 (that is, there are three hierarchies included in the SOP.
  • L, which indicates the maximum Temporal ID is 2. It can also be said.
  • L3 structure SOP structure composed of pictures with Temporal IDs 0, 1, 2, and 3 (that is, there are four hierarchies included in the SOP. L indicating the maximum Temporal ID can be said to be 3.)
  • FIG. 13 is an explanatory diagram showing the SOP structure applied to the 120/P video format. Note that the SOP structure shown in FIG. 13 corresponds to temporal scalable coding.
  • the SOP structure shown in FIG. 13 includes L0 structure, L1 structure, L2 structure, L3 structure and L4 structure.
  • L0 structure SOP structure composed only of pictures with a Temporal ID of 0 (that is, there is one hierarchy included in the SOP. It can be said that L, which indicates the maximum Temporal ID, is 0.)
  • L1 structure SOP structure composed of pictures with Temporal ID 0 and pictures with M (that is, there are two layers included in the SOP. It can be said that L, which indicates the maximum Temporal ID, is 1 (or M). .)
  • ⁇ L2 structure SOP structure composed of pictures with Temporal ID 0, pictures with 1, and pictures with M (that is, there are three layers included in the SOP.
  • L indicating the maximum Temporal ID is 2 (or It can also be said that it is M).
  • L3 structure SOP structure composed of pictures with Temporal ID 0, pictures with 1, pictures with 2, and pictures with M (that is, there are four hierarchies included in the SOP.
  • L indicating the maximum Temporal ID is 3 (or M).
  • L4 structure SOP structure composed of pictures with Temporal IDs 0, 1, 2, 3, and M (that is, the number of layers included in the SOP is five. Maximum Temporal It can be said that L indicating ID is 4 (or M).)
  • Non-Patent Document 2 discloses a video coding method called VVC (Versatile Video Coding).
  • VVC is ITU-T H. Also called 266.
  • the maximum size of the coding tree unit (CTU: Coding Tree Unit) is up to 128 x 128 compared to 64 x 64 pixels (hereinafter simply expressed as 64 x 64) in the HEVC standard. Extended.
  • each frame of a digitized video is divided into coding tree units (CTUs: Coding Tree Units), and each CTU is encoded.
  • CTUs Coding Tree Units
  • Each CTU is divided into coding units (CU: Coding Units) and encoded in a quad-tree (QT) structure or a multi-type tree (MMT: multi-type tree) structure.
  • CU Coding Units
  • MMT multi-type tree
  • blocks are equally partitioned horizontally and vertically.
  • partitioning using a multi-type tree structure a block is split horizontally or vertically into two or three.
  • Predictive coding includes intra prediction and motion compensation prediction.
  • the prediction error of each CU is transform-coded based on the frequency transform.
  • Motion-compensated prediction is prediction that generates a predicted image from a reconstructed image (reference picture) whose display time is different from that of the encoding target frame.
  • motion compensated prediction is also referred to as inter prediction.
  • a CU encoded based on motion compensated prediction is called an inter CU.
  • a frame encoded with only intra CUs is called an I-frame (or I-picture).
  • a frame coded including not only intra CUs but also inter CUs is called a P frame (or P picture).
  • a frame coded including an inter CU that uses not only one reference picture but also two reference pictures at the same time for inter prediction of a block is called a B-frame (or B-picture).
  • Inter prediction using one reference picture is called unidirectional prediction, and inter prediction using two reference pictures at the same time is called bidirectional prediction.
  • the amount of code in encoding based on the VVC standard will be reduced by 30-50% compared to the amount of code in encoding based on the HEVC standard.
  • arrows indicate reference pictures of encoding target pictures. That is, arrows indicate reference relationships.
  • the picture of the 5th AU in display order refers to the picture of the 3rd AU and the 7th AU in display order.
  • the 4th AU picture in display order refers to the 3rd AU picture and the 5th AU picture in display order.
  • a picture obtained by prediction from a reference picture can be used as a reference picture.
  • a plurality of lower hierarchies hierarchy with a small Temporal ID value: shallow hierarchy
  • Such a reference relationship reduces prediction residuals.
  • the amount of code in encoding based on the VVC standard is reduced compared to the amount of code in encoding based on the HEVC standard.
  • the SOP structure defined in Non-Patent Document 1 the higher the hierarchy, the higher the correlation between pictures. layer. Therefore, if the SOP structure is used when encoding is performed based on the VVC standard, the encoding efficiency (compression efficiency) may not be as high as expected.
  • the number of layers is four, 0, 1, 2, and 3, even in the L3 structure, as illustrated in FIG.
  • a large gap between the picture to be encoded and the reference picture means that there is a large difference in the display order of each picture. That is, a large interval between a picture to be coded and a reference picture means that the pictures are far apart on the time axis. An interval between pictures is hereinafter referred to as a frame interval.
  • the present invention aims to provide a video encoding device, a video decoding device, a video encoding method, a video decoding method, and a video system that do not reduce compression efficiency when encoding is performed using an SOP structure. aim.
  • a video coding apparatus is a video coding apparatus for generating a bitstream using an SOP structure including a structure of multiple levels, the prediction means performing prediction processing using intra-prediction or inter-prediction; Under a predetermined condition that a picture whose display order is later is not encoded prior to a picture whose display order is earlier, and that a picture in a lower layer does not refer to a picture in a higher layer, the prediction means encoding control means for controlling the picture closest to the picture to be encoded in display order to be the reference picture when encoding the picture with reference to the picture of the encoding target;
  • a video decoding device is a video decoding device for inputting and decoding a bitstream generated using an SOP structure including a multi-level structure, wherein prediction processing is performed using intra prediction or inter prediction.
  • the prediction means does not encode a picture whose display order is later before a picture whose display order is earlier, and a picture of a lower layer does not refer to a picture of a higher layer.
  • a video coding method is a video coding method for generating a bitstream using an SOP structure including a structure of multiple levels, performing prediction processing using intra-prediction or inter-prediction, and performing display order is not coded prior to the picture whose display order is earlier, and the picture of the lower layer does not refer to the picture of the higher layer in the prediction process. , the picture closest to the picture to be coded in display order is used as a reference picture.
  • a video decoding method is a video decoding method for inputting and decoding a bitstream generated using an SOP structure including a multi-level structure, wherein prediction processing is performed using intra prediction or inter prediction. under a predetermined condition that pictures in the display order are not coded prior to pictures in the display order in the prediction process, and pictures in the lower layer do not refer to pictures in the upper layer. Then, when a picture is coded with reference to a picture in a lower layer, the picture closest to the picture to be coded in display order is used as a reference picture.
  • a video coding program is a video coding program for generating a bitstream using an SOP structure containing multiple levels of structure, the video coding program instructing a computer to perform prediction processing using intra-prediction or inter-prediction.
  • the prediction process under a predetermined condition that a picture whose display order is later is not coded before a picture whose display order is earlier, and a picture in a lower layer does not refer to a picture in a higher layer.
  • control is performed so that the picture closest to the picture to be coded in display order is used as a reference picture.
  • a video decoding program is a video decoding program for inputting and decoding a bitstream generated using an SOP structure including a multi-level structure, wherein a computer performs intra-prediction or inter-prediction is used to perform prediction processing, and in the prediction processing, a picture whose display order is later is not coded before a picture whose display order is earlier, and a picture in a lower layer refers to a picture in a higher layer.
  • a picture is coded with reference to a picture in a lower layer under a predetermined condition that it is not, the picture closest to the picture to be coded in display order is taken as a reference picture.
  • a video system comprises the above video encoding device, an audio encoding unit that encodes an audio signal, and a bitstream from the video encoding device and a bitstream from the audio encoding unit that are multiplexed and output. and a multiplexing unit.
  • compression efficiency can be prevented from deteriorating when encoding is performed using the SOP structure.
  • FIG. 10 is an explanatory diagram showing an SOP structure applied to video formats other than 120/P in the embodiment;
  • FIG. 10 is an explanatory diagram showing an L5 structure in the SOP structure applied to the 120/P video format in the embodiment;
  • 1 is a block diagram showing a configuration example of an embodiment of a video encoding device;
  • FIG. It is a flow chart which shows operation of a picture coding device.
  • 1 is a block diagram showing a configuration example of an embodiment of a video decoding device;
  • FIG. 4 is a flow chart showing the operation of the video decoding device;
  • 1 is a block diagram showing an example of a video system;
  • FIG. 11 is a block diagram showing another example of the video system;
  • 1 is a block diagram showing an example of a computer having a CPU;
  • FIG. 1 is a block diagram showing the main parts of a video encoding device;
  • FIG. 3 is a block diagram showing main parts of a video decoding device;
  • FIG. 10 is an explanatory diagram showing an SOP structure applied to video formats other than 120/P;
  • FIG. 12 is an explanatory diagram showing an L5 structure in the SOP structure applied to the video format of 120/P;
  • FIG. 1 is an explanatory diagram showing the SOP structure applied to video formats other than 120/P in the embodiment.
  • the SOP structure shown in FIG. 1 the arrangement and reference relationship of pictures in each layer in the L0 structure, L1 structure, L2 structure and L3 structure are the same as those shown in FIG.
  • a 60P video format to which temporal scalable coding is not applied is used as an example of a video format other than 120/P.
  • the SOP structure shown in FIG. 1 has an L4 structure added to the L0 structure, L1 structure, L2 structure and L3 structure shown in FIG.
  • the L4 structure consists of 16 pictures.
  • the arrangement and reference relationship of pictures in each layer in the L4 structure shown in FIG. 1 are different from those shown in FIG.
  • each picture placed in the layer (L4) with the largest Temporal ID is placed in an odd consecutive coding order (also decoding order) in order to achieve temporal scalable coding. is encoded with
  • each picture is arranged without such restrictions.
  • the encoding order is not reversed from the display order in each layer (a picture whose display order is later is not encoded before a picture whose display order is earlier), and the lower layer
  • pictures coded with reference to pictures in a lower layer are displayed in the display order.
  • the picture closest to the picture to be coded is the reference picture.
  • the fact that the encoding order is not reversed from the display order means that the picture of B a is always a picture whose display order is earlier than the picture of B b (a ⁇ b ).
  • the reference picture must be coded before the picture to be coded.
  • the picture denoted by B5 whose display order is 2 the picture denoted by B3 whose display order is 1 and the picture denoted by B2 whose display order is 3 is encoded with reference to
  • the picture indicated by B3 and the picture indicated by B2 are closest in display order to the picture indicated by B5 in lower layers ( in this example, multiple layers with Temporal IDs 0 to 3).
  • the picture indicated by B6 whose display order is 5 is the picture indicated by B2 whose display order is 3 and the picture indicated by B1 whose display order is 7.
  • the picture indicated by B2 whose display order is 3 and the picture indicated by B1 whose display order is 7 are lower layers (in this example, Temporal IDs are 0 to 2) with respect to the picture indicated by B6. multiple layers) in the order of display.
  • the encoding order in the L4 structure is not limited to the encoding order shown in FIG. Under the condition that the coding order in each layer is not reversed from the display order and that the pictures in the lower layer do not refer to the pictures in the higher layer, the pictures that are coded with reference to the pictures in the lower layer shall be displayed in display order. Other coding orders may be used as long as the picture closest to the picture being coded can be taken as a reference picture.
  • the picture closest to the picture to be encoded in display order is used as the reference picture.
  • the frame interval between the picture to be coded and the reference picture is reduced.
  • the picture compression efficiency is higher than when the L4 structure shown in FIG. 13 is used.
  • FIG. 2 is an explanatory diagram showing the L5 structure in the SOP structure applied to the 120/P video format.
  • the L5 structure consists of 32 pictures.
  • the SOP structure applied to the 120/P video format is a structure that realizes temporal scalable coding.
  • the L0 structure, L1 structure, L2 structure and L4 structure are the same as those shown in FIG. That is, in this embodiment, the L5 structure is added to the L0 structure, L1 structure, L2 structure, L3 structure and L4 structure shown in FIG.
  • the number indicating the decoding order (also the encoding order) in FIG. 2 is double the number indicating the decoding order in FIG. It's becoming
  • the encoding order in the L5 structure is not limited to the encoding order shown in FIG.
  • the picture that is coded with reference to the picture in the lower layer under certain conditions and that is closest to the picture to be coded in display order shall be the reference picture.
  • Other coding orders may be used if possible.
  • the predetermined condition is that the coding order is not reversed from the display order, and that a picture in a lower layer does not refer to a picture in an upper layer.
  • the L4 structure is added to the SOP structure applied to the 60/P video format
  • the L5 structure is added to the SOP structure applied to the 120/P video format, thereby increasing the picture compression efficiency.
  • FIG. 3 is a block diagram showing a configuration example of an embodiment of a video encoding device.
  • the video coding device shown in FIG. 108 encoding control unit 109 and multiplexer 110 .
  • the video encoding apparatus shown in FIG. 1 performs encoding processing based on the VVC standard, but other standards such as the HEVC standard, H.264, and the like.
  • the encoding process may be performed based on the H.264/AVC standard or the MPEG (Moving Picture Experts Group)-2 standard.
  • the rearrangement unit 101 is a memory that stores each image (picture) in the video signal that is input in display order.
  • each picture is assumed to be stored in input order.
  • each picture input in display order is stored in order from the smallest address in the memory.
  • each picture input in display order may be stored in the rearrangement unit 101 in encoding order. That is, each input picture may be stored in coding order starting from the smallest address in the memory.
  • each picture is read from the rearrangement unit 101 in coding order.
  • a picture may be referred to as an input video signal.
  • each picture in the input video signal is supplied to the subtractor 102 as it is.
  • the subtractor 102 subtracts the prediction signal from the input video signal (specifically, pixel value) read from the rearrangement unit 101 to generate a prediction error signal.
  • the prediction error signal is also called prediction residual or prediction residual signal.
  • the transform/quantizer 103 frequency-transforms the prediction error signal.
  • the transform/quantizer 103 further quantizes the frequency-transformed prediction error signal (transform coefficient).
  • a quantized transform coefficient is hereinafter referred to as a transform quantized value.
  • the entropy encoder 105 entropy-encodes the prediction parameters and the transform quantization values.
  • Prediction parameters are information related to CTU (Coding Tree Unit) and block prediction, such as prediction mode (intra prediction, inter prediction), intra prediction block size, intra prediction direction, inter prediction block size, and motion vector.
  • the multiplexer 110 multiplexes the entropy-encoded data supplied from the entropy encoder 105 and the data (encoded information, etc.) from the encoding control unit 109, and outputs it as a bitstream.
  • a predictor 108 generates a prediction signal for the input video signal. Predictor 108 generates a prediction signal based on intra-prediction or inter-prediction. That is, the predictor 108 generates a prediction signal using either intra prediction or inter prediction for each block (unit) that is an encoding unit.
  • the inverse quantization/inverse transformer 104 inversely quantizes the transform quantized values to restore the transform coefficients. Further, the inverse quantization/inverse transformer 104 restores the prediction error signal by inverse frequency transforming the inversely quantized transform coefficients.
  • Adder 106 adds the reconstructed prediction error signal and the prediction signal to generate a reconstructed image. The reconstructed image is supplied to buffer 107 .
  • a buffer 107 stores the reconstructed image.
  • the buffer 107 corresponds to a block memory for storing reference blocks for intra prediction and a frame memory for storing reference pictures for inter prediction.
  • the encoding control unit 109 inputs encoding information from the outside of the video encoding device.
  • encoding information information such as the encoding method to be used (VVC standard, HEVC standard, H.264/AVC standard, MPEG-2), test sequence information (60/P, 120/P, etc.), whether scalable encoding is possible, etc.
  • the encoding control unit 109 controls each block in the video encoding device based on the encoding information.
  • each picture in the input video signal is stored in the rearrangement unit 101 in display order (step S101).
  • the rearrangement unit 101 sequentially outputs pictures to the subtractor 102 in the order of encoding according to instructions from the encoding control unit 109 (step S102).
  • the coding control unit 109 causes the pictures to be read from the rearrangement unit 101 in the decoding order (also the coding order) shown in FIG. to control. That is, when each picture is stored in the order of display in the rearrangement unit 101, the encoding control unit 109 controls so that the picture to be encoded is output from the address of the memory to be read. When each picture is stored in the order of encoding in the rearrangement unit 101, the encoding control unit 109 stores the picture in the address of the memory according to the order of encoding when the picture is written in the rearrangement unit 101. The rearrangement unit 101 is instructed to
  • the encoding control unit 109 follows the decoding order shown in FIG. In the case of the L5 structure), control is performed so that pictures are read out from the rearrangement unit 101 .
  • the encoding control unit 109 determines which of the L0 to L4 structures (60/P) is to be used, or L0 to L5 structures (120/P), depending on the situation of the video scene. case) to use. For example, the encoding control unit 109 uses an Lx structure with a small x value for images (pictures) that constitute a scene in which the entire screen does not move much, and uses an Lx structure with a small x value for images that constitute a scene in which the entire screen moves quickly. , we decide to use the Lx structure with a large value of x. In that case, the encoding control unit 109 includes a function of pre-detecting the degree of motion in the image.
  • the predictor 108 generates a prediction signal for the input video signal based on intra prediction or inter prediction (step S103). Also, the subtractor 102 generates a prediction error signal (step S103).
  • the encoding control unit 109 performs encoding according to the picture reference relationship shown in FIG. 1 (60/P case) or the picture reference relationship shown in FIGS. 12 and 2 (120/P case). It directs the predictor 108 to perform
  • the transform/quantizer 103 frequency-transforms the prediction error signal to generate transform coefficients (step S104). Further, the transform/quantizer 103 quantizes the transform coefficients with the quantization step width to generate transform quantized values (step S105). The transform quantized values are input to inverse quantizer/inverse transformer 104 and entropy encoder 105 .
  • the inverse quantization/inverse transformer 104 inversely quantizes the transform quantized values, performs inverse frequency transform on the inversely quantized transform quantized values, and restores transform coefficients (step S106).
  • the entropy encoder 105 entropy-encodes (for example, arithmetically encodes) the transform quantized values to generate entropy-encoded data (step S107).
  • steps S102 to S107 are executed for all pictures that constitute the SOP (step S108).
  • the multiplexer 110 multiplexes the entropy-encoded data supplied from the entropy encoder 105 and the data (encoded information, etc.) supplied from the encoding control unit 109, and converts the multiplexed data into a bitstream. Output.
  • the encoding control unit 109 ensures that the encoding order is not reversed from the display order in each layer in the L4 structure. And, under the condition that the picture in the lower layer does not refer to the picture in the upper layer, when the predictor 108 encodes the picture with reference to the picture in the lower layer, the picture to be encoded is displayed in display order. Control is performed so that the closest picture is used as the reference picture. Such control increases the compression efficiency of each picture in the SOP.
  • the encoding control unit 109 causes the rearrangement unit 101 to output pictures in the encoding order shown in FIG. 1 in order to realize such control.
  • FIG. 5 is a block diagram showing a configuration example of an embodiment of a video decoding device.
  • the video decoding device shown in FIG. including.
  • Note that the video decoding device shown in FIG. 5 can receive a bitstream from the video encoding device exemplified in FIG. 3, for example.
  • the demultiplexer 201 demultiplexes the input bitstream and extracts entropy-encoded data. It also outputs encoded information and the like included in the bitstream to the decoding control section 207 .
  • the entropy decoder 202 entropy-decodes the entropy-encoded data.
  • the entropy decoder 202 supplies the entropy-decoded transform quantized values to the inverse quantizer/inverse transformer 203 .
  • Entropy decoder 202 also provides prediction parameters contained in the bitstream to predictor 205 .
  • the entropy decoder 202 supplies the encoded information contained in the bitstream to the decoding control section 207 .
  • the inverse quantization/inverse transformer 203 inversely quantizes the transformed quantized values. Further, the inverse quantizer/inverse transformer 203 inverse frequency transforms the inversely quantized frequency transform coefficients.
  • a predictor 205 generates a prediction signal for each sub-block based on prediction parameters.
  • the prediction error signal inversely frequency-transformed by the inverse quantization/inverse transformer 203 is added to the prediction signal supplied from the predictor 205 by the adder 204, and then supplied to the buffer 206 as a reconstructed image.
  • a buffer 206 stores the reconstructed image.
  • the reconstructed images stored in the buffer 206 are transferred to the rearrangement unit 208 .
  • the rearrangement unit 208 is a memory that stores each image (picture) in the video signal that is input in decoding order.
  • each picture is assumed to be stored in decoding order. That is, it is assumed that each picture that is input in decoding order is stored in ascending order of address in the memory.
  • each picture input in decoding order may be stored in rearrangement section 101 in display order. In other words, each input picture may be stored in display order starting from the smallest address in the memory.
  • each picture is read from the rearrangement unit 208 in display order.
  • the entropy decoder 202 entropy-decodes the entropy-encoded data included in the bitstream (step S201).
  • the inverse quantization/inverse transformer 203 inversely quantizes the transformed quantized values with the quantization step width (step S202). Further, the inverse quantizer/inverse transformer 203 inverse frequency transforms the inversely quantized frequency transform coefficients (step S203).
  • the predictor 205 generates a prediction signal using the reconstructed image stored in the buffer 206 (step S204).
  • the adder 204 adds the prediction signal supplied from the predictor 205 to the prediction error image inversely frequency-transformed by the inverse quantization/inverse transformer 203 to generate a reconstructed image (step S204).
  • the reconstructed image is stored in buffer 206 .
  • the reconstructed images stored in the buffer 206 are transferred to the rearrangement unit 208 (step S205).
  • steps S201 to S205 is executed for all pictures that make up the SOP (step S206).
  • the rearrangement unit 208 outputs each image in display order according to the output instruction from the decoding control unit 207 (step S207).
  • the decoding control unit 207 controls so that the pictures are read out from the rearrangement unit 101 in the display order shown in FIG. That is, when each picture is stored in the order of decoding in the rearrangement unit 208, the decoding control unit 207 selects the picture from the address of the read target memory (the address where the picture to be read in the order of display is stored). Control to be output.
  • the decoding control unit 207 causes the pictures to be stored in the addresses of the memory according to the order of display when the pictures are written to the rearrangement unit 208. , the rearrangement unit 208 is instructed.
  • the decoding control unit 207 follows the display order shown in FIG. structure) so that pictures are read out from the rearrangement unit 208 .
  • the video decoding device When the video encoding device of the first embodiment receives a bitstream based on encoded data encoded using the SOP structure, the video decoding device extracts video from encoded data with high compression efficiency for each picture. can be played.
  • the prediction means predicts the lower layer picture under a predetermined condition that the encoding order is not reversed from the display order and that the lower layer picture does not refer to the higher layer picture.
  • the predictor 205 determines that the encoding order is not reversed from the display order, and that lower layer pictures refer to higher layer pictures.
  • a picture is coded with reference to a picture in a lower layer under a predetermined condition that it is not, a picture closest to the picture to be coded in display order can be used as a reference picture.
  • FIG. 7 is a block diagram showing an example of a video system.
  • the video system shown in FIG. 7 is a system in which the video encoding device 100 and the video decoding device 200 of the above embodiments are connected via a wireless transmission line or a wired transmission line 300 .
  • the configuration and operation of the video encoding device 100 are the same as the configuration and operation of the video encoding device shown in FIG.
  • the configuration and operation of video decoding device 200 are the same as the configuration and operation of the video decoding device shown in FIG.
  • FIG. 8 is a block diagram showing another example of the video system.
  • the video system shown in FIG. 8 includes an audio encoder 401 , a video encoder 402 and a multiplexer 403 .
  • the audio encoding unit 401 converts an audio signal out of data (content) including video and audio into, for example, the MPEG-4 AAC (Advanced Audio Coding) standard defined by the ARIB STD-B32 standard or the MPEG-4 ALS standard. Create and output an audio bitstream by encoding based on (Audio Lossless Coding).
  • MPEG-4 AAC Advanced Audio Coding
  • ARIB STD-B32 standard
  • MPEG-4 ALS MPEG-4 ALS
  • the video encoding unit 402 is configured, for example, as shown in FIG. 3, and creates and outputs a video bitstream.
  • the multiplexing unit 403 creates and outputs a bitstream by multiplexing an audio bitstream, a video bitstream and other information based on, for example, the ARIB STD-B32 standard.
  • FIG. 9 is a block diagram showing an example of a computer having a CPU (Central Processing Unit).
  • the computer can be implemented in each of the video encoding device shown in FIG. 3 and the video decoding device shown in FIG.
  • the CPU 1000 implements each function in each of the above embodiments by executing processing according to a program (video encoding program or video decoding program) stored in the storage device 1001 .
  • entropy encoder 105 when the computer is implemented in the video encoding device shown in FIG. , entropy encoder 105 , adder 106 , predictor 108 , encoding control section 109 and multiplexer 110 .
  • the CPU 1000 When the computer is implemented in the video decoding device shown in FIG. 5, the CPU 1000 performs the demultiplexer 201, the entropy decoder 202, the inverse quantizer/inverse transformer 203, the adder 204 in the video decoding device. , predictor 205 , and decoding control section 207 .
  • the storage device 1001 is, for example, a non-transitory computer readable medium.
  • Non-transitory computer readable media include various types of tangible storage media. Specific examples of non-transitory computer-readable media include magnetic recording media (e.g., hard disks), CD-ROMs (Compact Disc-Read Only Memory), CD-Rs (Compact Disc-Recordable), CD-R/Ws (Compact Disc-ReWritable), semiconductor memory (eg mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM).
  • magnetic recording media e.g., hard disks
  • CD-ROMs Compact Disc-Read Only Memory
  • CD-Rs Compact Disc-Recordable
  • CD-R/Ws Compact Disc-ReWritable
  • semiconductor memory eg mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM.
  • the program may also be stored on various types of transitory computer readable medium.
  • a transitory computer-readable medium is provided with a program, for example, via a wired or wireless communication path, ie, via an electrical, optical or electromagnetic wave.
  • the memory 1002 is, for example, RAM (Random Access Memory), and is storage means for temporarily storing data when the CPU 1000 executes processing.
  • RAM Random Access Memory
  • a mode in which a program held by the storage device 1001 or a temporary computer-readable medium is transferred to the memory 1002 and the CPU 1000 executes processing based on the program in the memory 1002 is also conceivable.
  • the memory 1002 can be used as the rearrangement unit 101 and the buffer 107 shown in FIG. Memory 1002 can also be used as buffer 206 and rearranger 208 shown in FIG.
  • FIG. 10 is a block diagram showing the main parts of the video encoding device.
  • the video encoding device 10 shown in FIG. 10 uses an SOP structure including multiple levels (eg, L0-L4, L0-L5) structures (eg, L0-L4 structure, L0-L5 structure) to generate a bitstream.
  • a video encoding device that generates a prediction unit 11 (implemented by a predictor 108 in the embodiment) that performs prediction processing using intra prediction or inter prediction, and a picture that is displayed later is displayed.
  • the prediction unit 11 refers to the lower layer picture and encodes the picture under a predetermined condition that the lower layer picture is not encoded prior to the earlier picture and the lower layer picture is not referred to.
  • an encoding control unit 12 (implemented by an encoding control unit 109 in the embodiment) that performs control such that, when encoding, the picture closest to the picture to be encoded in display order is used as a reference picture; It has
  • FIG. 11 is a block diagram showing the main part of the video decoding device.
  • the video decoding device 20 shown in FIG. 11 uses an SOP structure including multiple levels (eg, L0-L4, L0-L5) of structures (eg, L0-L4 structure, L0-L5 structure) to generate bit
  • a video decoding device for inputting a stream and performing decoding processing comprising prediction means 21 (implemented by a predictor 205 in the embodiment) for performing prediction processing using intra prediction or inter prediction, and prediction means 21 does not encode a picture whose display order is later than a picture whose display order is earlier, and a picture in a lower layer (a layer with a smaller Temporal ID value) is encoded as a picture in an upper layer (a When a picture is coded by referring to a picture in a lower layer, the picture closest to the picture to be coded in display order is set as a reference picture under the predetermined condition that the picture in the layer with the largest value is not referenced. works.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

映像符号化装置10は、イントラ予測またはインター予測を用いて予測処理を行う予測手段11と、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測手段11が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する符号化制御手段12とを含む。

Description

映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム
 本発明は、映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システムに関する。
 映像コンテンツの配信システムにおいて、例えば、伝送側では映像信号はH.264/AVC(Advanced Video Coding )規格やHEVC(High Efficiency Video Coding)規格に基づいて符号化され、受信側では復号処理を経て映像信号が再生される。
 非特許文献1においてSOP(Structure of Pictures)という概念が導入されている。SOPは、時間方向階層符号化(時間スケーラブル符号化)が行われる場合には、各AU(Access Unit)の符号化順および参照関係が記述される単位になる。時間スケーラブル符号化は、複数フレームの映像の中から、部分的にフレームを取り出せるようにする符号化である。なお、1つのGOP(Group of Pictures)は、1つ以上のSOPで構成される。
 非特許文献1では、120/P(Progressive)以外の映像フォーマットに適用されるSOP構造や、120/Pの映像フォーマットに適用されるSOP構造が規定されている。
 図12は、120/P以外の映像フォーマットに適用されるSOP構造を示す説明図である。図12には、リオーダリング(ピクチャリオーダリング)が適用される場合のSOP構造が示されている。
 図12に示すSOP構造は、L=0の構造、L=1の構造、L=2の構造およびL=3の構造を含む。図12に示すように、Lx(x=0,1,2,3)は、以下のような構造である。Temporal IDは、各AUの階層を示す識別情報である。以下、L=xの構造を、Lx構造ということがある。また、Temporal IDがm(0以上の自然数)のAUを、Temporal IDがmのピクチャということがある。
・L0構造:Temporal IDが0のピクチャだけで構成されるSOP構造(つまり、SOPに含まれるピクチャの段数(階層)は1つである。最大Temporal IDを示すLが0であるともいえる。)
・L1構造:Temporal IDが0のピクチャおよび1のピクチャで構成されるSOP構造(つまり、SOPに含まれる階層は2つである。最大Temporal IDを示すLが1であるともいえる。)
・L2構造:Temporal IDが0のピクチャ、1のピクチャ、および、2のピクチャで構成されるSOP構造(つまり、SOPに含まれる階層は3つである。最大Temporal IDを示すLが2であるともいえる。)
・L3構造:Temporal IDが0のピクチャ、1のピクチャ、2のピクチャ、および、3のピクチャで構成されるSOP構造(つまり、SOPに含まれる階層は4つである。最大Temporal IDを示すLが3であるともいえる。)
 図13は、120/Pの映像フォーマットに適用されるSOP構造を示す説明図である。なお、図13に示すSOP構造は、時間スケーラブル符号化に対応する。
 図13に示すSOP構造は、L0構造、L1構造、L2構造、L3構造およびL4構造を含む。図13に示すように、Lx(x=0,1,2,3,4)構造は、以下のような構造である。
・L0構造:Temporal IDが0のピクチャだけで構成されるSOP構造(つまり、SOPに含まれる階層は1つである。最大Temporal IDを示すLが0であるともいえる。)
・L1構造:Temporal IDが0のピクチャおよびMのピクチャで構成されるSOP構造(つまり、SOPに含まれる階層は2つである。最大Temporal IDを示すLが1(またはM)であるともいえる。)
・L2構造:Temporal IDが0のピクチャ、1のピクチャ、および、Mのピクチャで構成されるSOP構造(つまり、SOPに含まれる階層は3つである。最大Temporal IDを示すLが2(またはM)であるともいえる。)
・L3構造:Temporal IDが0のピクチャ、1のピクチャ、2のピクチャ、およびMのピクチャで構成されるSOP構造(つまり、SOPに含まれる階層は4つである。最大Temporal IDを示すLが3(またはM)であるともいえる。)
・L4構造:Temporal IDが0のピクチャ、1のピクチャ、2のピクチャ、3のピクチャ、および、Mのピクチャで構成されるSOP構造(つまり、SOPに含まれる階層は5つである。最大Temporal IDを示すLが4(またはM)であるともいえる。)
 非特許文献2は、VVC(Versatile Video Coding)と呼ばれる映像符号化方式を開示する。VVCは、ITU-T H.266とも呼ばれる。VVCでは、符号化ツリーユニット(CTU:Coding Tree Unit)の最大サイズが、HEVC規格における64×64画素(以下、単に、64×64のように表現する。)に対して、128×128にまで拡張されている。
 非特許文献2に記載された映像符号化方式では、ディジタル化された映像の各フレームは符号化ツリーユニット(CTU:Coding Tree Unit)に分割され、各CTUが符号化される。
 各CTUは、四分木(QT:Quad-Tree)構造またはマルチタイプ木(MMT:Multi-Type Tree)構造で、符号化ユニット(CU:Coding Unit)に分割されて符号化される。四分木構造を用いる分割では、ブロックが、水平および垂直に等分割される。マルチタイプ木構造を用いる分割では、ブロックが、水平もしくは垂直に2分割または3分割される。
 各CUは、予測符号化される。予測符号化には、イントラ予測と動き補償予測がある。各CUの予測誤差は、周波数変換に基づいて変換符号化される。動き補償予測は、符号化対象フレームとは表示時刻が異なる再構築画像(参照ピクチャ)から予測画像を生成する予測である。以下、動き補償予測をインター予測ともいう。
 動き補償予測に基づいて符号化されたCUをインターCUと呼ぶ。イントラCUのみで符号化されたフレームは、Iフレーム(または、Iピクチャ)と呼ばれる。イントラCUだけでなくインターCUも含めて符号化されたフレームは、Pフレーム(または、Pピクチャ)と呼ばれる。ブロックのインター予測に、1枚の参照ピクチャだけでなく、同時に2枚の参照ピクチャを用いるインターCUを含めて符号化されたフレームは、Bフレーム(またはBピクチャ)と呼ばれる。なお、1枚の参照ピクチャを用いるインター予測は片方向予測と呼ばれ、同時に2枚の参照ピクチャを用いるインター予測は双方向予測と呼ばれる。
 同等の画質で比較した場合、VVC規格に基づく符号化による符号量は、HEVC規格に基づく符号化による符号量に対して、30~50%削減されることが期待される。
「デジタル放送における映像符号化、音声符号化及び多重化方式」、ARIB(Association of Radio Industries and Businesses)標準規格 STD-B32 3.3版 平成27年7月3日 電波産業会 Benjamin Bross, et al., "Versatile Video Coding (Draft 10)", JVET-S2001-v7, Joint Video Experts Team (JVET) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 19th Meeting: by teleconference, 22 June - 1 July 2020
 図12および図13において、矢印は、符号化対象ピクチャの参照ピクチャを示す。すなわち、矢印は、参照関係を示す。例えば、図12に示す例では、L2構造において、表示順で5番目のAUのピクチャは、表示順で3番目のAUのピクチャと7番目のAUのピクチャを参照する。L3構造において、表示順で4番目のAUのピクチャは、表示順で3番目のAUのピクチャと5番目のAUのピクチャを参照する。
 このように、参照ピクチャから予測して得られたピクチャをさらに参照ピクチャとすることができる。図12および図13に示された階層構造において、上位階層(Temporal IDの値が大きい階層:深い階層)のピクチャの予測に関して、複数の下位階層(Temporal IDの値が小さい階層:浅い階層)のピクチを参照可能である。そのような参照関係によって、予測残差は小さくなる。
 上述したように、VVC規格に基づく符号化による符号量は、HEVC規格に基づく符号化による符号量に比べて削減される。非特許文献1において規定されているSOP構造が使用される場合、上位階層であるほどピクチャ間の相関が高くなるが、L4構造でも、層数は、0、1、2、3、Mの5層である。したがって、VVC規格に基づく符号化が行われるときに、SOP構造が使用される場合には、符号化効率(圧縮効率)が、期待されるほどには高くならないおそれがある。
 また、60/Pの映像フォーマットに適用されるSOP構造では、図12に例示されたように、L3構造でも、層数は、0、1、2、3の4層である。層数を多くするために、図13に例示された120/Pの映像フォーマットに適用されるL4構造を流用することが考えられる。しかし、当該L4構造は、時間スケーラブル符号化に適応した構造である。したがって、当該L4構造をそのまま60/Pの映像フォーマットに適用すると、最大Temporal IDの階層(L4)に属する符号化対象のピクチャと参照ピクチャ(Temporal ID=0~3の階層に属するピクチャ)との間隔が大きくなる。その結果、圧縮効率が低下する。
 なお、符号化対象のピクチャと参照ピクチャとの間の間隔が大きいということは、各々のピクチャの表示順の差が大きいということである。すなわち、符号化対象のピクチャと参照ピクチャとの間の間隔が大きいということは、時間軸において、各々のピクチャが離れているということである。以下、ピクチャ間の間隔をフレーム間隔という。
 本発明は、SOP構造を用いて符号化が行われる場合に、圧縮効率を低下させないようにする映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システムを提供することを目的とする。
 本発明による映像符号化装置は、複数レベルの構造を含むSOP構造を使用してビットストリームを生成する映像符号化装置であって、イントラ予測またはインター予測を用いて予測処理を行う予測手段と、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測手段が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する符号化制御手段とを含む。
 本発明による映像復号装置は、複数レベルの構造を含むSOP構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号装置であって、イントラ予測またはインター予測を用いて予測処理を行う予測手段を含み、予測手段が、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする。
 本発明による映像符号化方法は、複数レベルの構造を含むSOP構造を使用してビットストリームを生成する映像符号化方法であって、イントラ予測またはインター予測を用いて予測処理を実行し、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測処理で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされるように制御する。
 本発明による映像復号方法は、複数レベルの構造を含むSOP構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号方法であって、イントラ予測またはインター予測を用いて予測処理を実行し、予測処理で、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする。
 本発明による映像符号化プログラムは、複数レベルの構造を含むSOP構造を使用してビットストリームを生成するための映像符号化プログラムであって、コンピュータに、イントラ予測またはインター予測を用いて予測処理を実行させ、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測処理で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされるように制御させる。
 本発明による映像復号プログラムは、複数レベルの構造を含むSOP構造を使用して生成されたビットストリームを入力して復号処理を行うための映像復号プログラムであって、コンピュータに、イントラ予測またはインター予測を用いて予測処理を実行させ、予測処理で、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされる。
 本発明による映像システムは、上記の映像符号化装置と、音声信号を符号化する音声符号化部と、映像符号化装置からのビットストリームと音声符号化部からのビットストリームとを多重化して出力する多重化部とを備える。
 本発明によれば、SOP構造を用いて符号化が行われる場合に、圧縮効率を低下させないようにすることができる。
実施形態における120/P以外の映像フォーマットに適用されるSOP構造を示す説明図である。 実施形態における120/Pの映像フォーマットに適用されるSOP構造におけるL5構造を示す説明図である。 映像符号化装置の実施形態の構成例を示すブロック図である。 映像符号化装置の動作を示すフローチャートである。 映像復号装置の実施形態の構成例を示すブロック図である。 映像復号装置の動作を示すフローチャートである。 映像システムの一例を示すブロック図である。 映像システムの他の例を示すブロック図である。 CPUを有するコンピュータの一例を示すブロック図である。 映像符号化装置の主要部を示すブロック図である。 映像復号装置の主要部を示すブロック図である。 120/P以外の映像フォーマットに適用されるSOP構造を示す説明図である。 120/Pの映像フォーマットに適用されるSOP構造におけるL5構造を示す説明図である。
 以下、本発明の実施形態を図面を参照して説明する。
 図1は、実施形態における120/P以外の映像フォーマットに適用されるSOP構造を示す説明図である。図1に示すSOP構造において、L0構造、L1構造、L2構造およびL3構造における各層のピクチャの配置および参照関係は、図12に示されたそれらと同じである。なお、実施形態では、120/P以外の映像フォーマットとして、時間スケーラブル符号化が適用されない60Pの映像フォーマットを例にする。
 図1に示すSOP構造には、図12に示されたL0構造、L1構造、L2構造およびL3構造に対して、L4構造が追加されている。当該L4構造は、16のピクチャで構成される。図1に示すL4構造における各層のピクチャの配置および参照関係は、図13に示されたそれらとは異なる。図13に示されたL4構造では、時間スケーラブル符号化を実現するために、最大Temporal IDの階層(L4)に配置された各ピクチャは、奇数の連続する符号化順(復号順でもある。)で符号化される。しかし、図1に示すL4構造では、そのような制約を受けずに各ピクチャが配置されている。
 図1に示すL4構造では、各層において符号化順が表示順と逆転せず(表示順が後であるピクチャが表示順が先であるピクチャに先行して符号化されず)、かつ、下位層(Temporal IDの値が小さい階層)のピクチャが上位層(Temporal IDの値が大きい階層)のピクチャを参照しないという条件下で、下位層のピクチャを参照して符号化されるピクチャは、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする。なお、符号化順が表示順と逆転しないということは、Bのピクチャは、B(a<b)のピクチャに対して、必ず表示順が早いピクチャであるということである。また、参照ピクチャは、符号化対象のピクチャよりも先に符号化されている必要がある。
 例えば、Temporal IDが4である層に関して、表示順が2であるBで示されるピクチャは、表示順が1であるBで示されるピクチャおよび表示順が3であるBで示されるピクチャを参照して符号化される。Bで示されるピクチャおよびBで示されるピクチャは、Bで示されるピクチャに対して、下位層(この例では、Temporal IDが0~3の複数層)において表示順で最も近接している。
 また、Temporal IDが3である層に関して、表示順が5であるBで示されるピクチャは、表示順が3であるBで示されるピクチャおよび表示順が7であるBで示されるピクチャを参照して符号化される。表示順が3であるBで示されるピクチャおよび表示順が7であるBで示されるピクチャは、Bで示されるピクチャに対して、下位層(この例では、Temporal IDが0~2の複数層)において表示順で最も近接している。
 なお、L4構造における符号化順は、図1に示す符号化順に限られない。各層において符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという条件下で、下位層のピクチャを参照して符号化されるピクチャが、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとすることが可能であれば、他の符号化順が用いられてもよい。
 本実施形態では、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするので、図13に示された120/Pの映像フォーマットに適用されるSOP構造におけるL4構造と比較すると、符号化対象のピクチャと参照ピクチャと間のフレーム間隔が小さくなる。その結果、図13に示されたL4構造が用いられる場合と比較して、ピクチャの圧縮効率が高くなる。
 図2は、120/Pの映像フォーマットに適用されるSOP構造におけるL5構造を示す説明図である。当該L5構造は、32のピクチャで構成される。本実施形態でも、120/Pの映像フォーマットに適用されるSOP構造は、時間スケーラブル符号化を実現する構造である。図2では図示省略されているが、L0構造、L1構造、L2構造およびL4構造は、図13に示されたそれらと同じである。すなわち、本実施形態では、図13に示されたL0構造、L1構造、L2構造、L3構造およびL4構造に対して、L5構造が追加されている。
 また、図2に示されたL5構造において、Temporal ID=0~4の階層のピクチャの符号化順および参照関係は、図1に示されたL4構造のそれらと同じである。ただし、図2に示されたL5構造は32のピクチャで構成されるので、図2における復号順(符号化順でもある。)を示す数字は、図1における復号順を示す数字の2倍になっている。
 120/Pの映像フォーマットに適用されるSOP構造におけるL5構造が使用される場合には、図1に示された実施形態におけるL4構造が使用される場合に各層(Temporal ID=0~4の階層のピクチャ)の圧縮効率が高くなるのと同様に、ベース層に属するピクチャ(この場合には、Temporal ID=0~4の階層のピクチャ)の圧縮効率は高くなる。
 なお、L5構造における符号化順は、図2に示す符号化順に限られない。Temporal ID=0~4の層に関して、所定の条件下で、下位層のピクチャを参照して符号化されるピクチャが、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとすることが可能であれば、他の符号化順が用いられてもよい。なお、所定の条件は、符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという条件である。
 また、60/Pの映像フォーマットに適用されるSOP構造にL4構造が追加され、120/Pの映像フォーマットに適用されるSOP構造にL5構造が追加されることによって、ピクチャの圧縮効率は高くなる。なぜなら、一般に、参照される頻度が高い復号順で0番目のピクチャ(IピクチャまたはPピクチャであることが多い。)には多くの符号量が割り当てられる。より高い階層を含む構造(60/Pの映像フォーマットにおけるL4、120/Pの映像フォーマットにおけるLM)では、相対的に、復号順で0番目のピクチャの発生頻度が低くなるからである。
実施形態1.
 図3は、映像符号化装置の実施形態の構成例を示すブロック図である。図3に示す映像符号化装置は、並べ替え部101、減算器102、変換/量子化器103、逆量子化/逆変換器104、エントロピー符号化器105、加算器106、バッファ107、予測器108、符号化制御部109、および多重化器110を含む。なお、図1に示す映像符号化装置は、VVC規格に基づいて符号化処理を実行するが、他の規格、例えば、HEVC規格、H.264/AVC規格、MPEG(Moving Picture Experts Group)-2規格に基づいて符号化処理を実行してもよい。
 並べ替え部101は、表示順に入力される映像信号における各画像(ピクチャ)を格納するメモリである。本実施形態では、各ピクチャは入力順に記憶されるとする。すなわち、メモリにおける小さいアドレスから順に、表示順に入力される各ピクチャが格納されるとする。しかし、表示順に入力される各ピクチャが符号化順に並べ替え部101に格納されるようにしてもよい。すなわち、メモリにおける小さいアドレスから順に、符号化順で、入力される各ピクチャが格納されるようにしてもよい。
 いずれのメモリ格納方式(表示順または符号化順)が採用される場合でも、並べ替え部101から、符号化順に各ピクチャが読み出される。以下、ピクチャを入力映像信号ということがある。
 なお、並べ替え部101は、SOP構造を使用して符号化が実行される場合に活用される。SOP構造を使用しない場合には、入力される映像信号における各ピクチャは、そのまま減算器102に供給される。
 減算器102は、並べ替え部101から読み出された入力映像信号(具体的には、画素値)から予測信号を減算し、予測誤差信号を生成する。予測誤差信号は、予測残差または予測残差信号とも呼ばれる。
 変換/量子化器103は、予測誤差信号を周波数変換する。変換/量子化器103は、さらに、周波数変換された予測誤差信号(変換係数)を量子化する。以下、量子化された変換係数を変換量子化値という。
 エントロピー符号化器105は、予測パラメータと変換量子化値とをエントロピー符号化する。予測パラメータは、予測モード(イントラ予測、インター予測)、イントラ予測ブロックサイズ、イントラ予測方向、インター予測ブロックサイズ、および動きベクトルなど、CTU(Coding Tree Unit)およびブロックの予測に関連した情報である。
 多重化器110は、エントロピー符号化器105から供給されるエントロピー符号化データと符号化制御部109からのデータ(符号化情報など)とを多重化し、ビットストリームとして出力する。
 予測器108は、入力映像信号に対する予測信号を生成する。予測器108は、イントラ予測またはインター予測に基づいて予測信号を生成する。すなわち、予測器108は、符号化の単位となる各々のブロック(ユニット)について、イントラ予測とインター予測とのいずれかを用いて予測信号を生成する。
 逆量子化/逆変換器104は、変換量子化値を逆量子化して変換係数を復元する。さらに、逆量子化/逆変換器104は、逆量子化した変換係数を逆周波数変換して予測誤差信号を復元する。加算器106は、復元された予測誤差信号と予測信号とを加算して再構築画像を生成する。再構築画像は、バッファ107に供給される。バッファ107は、再構築画像を格納する。なお、バッファ107は、イントラ予測のための参照ブロックを格納するためのブロックメモリ、および、インター予測のための参照ピクチャを格納するためのフレームメモリに相当する。
 符号化制御部109は、映像符号化装置の外部から符号化情報を入力する。符号化情報として、使用する符号化方式(VVC規格、HEVC規格、H.264/AVC規格、MPEG-2)、テストシーケンス情報(60/P、120/Pなど)、スケーラブル符号化可否等の情報がある。符号化制御部109は、符号化情報に基づいて映像符号化装置における各ブロックを制御する。
 次に、映像符号化装置のSOP構造を使用して符号化を実行するときの動作を、図4のフローチャートを参照して説明する。
 まず、並べ替え部101に、表示順に入力される映像信号における各ピクチャが格納される(ステップS101)。
 並べ替え部101は、符号化制御部109の指示に従って、符号化順に順次ピクチャを減算器102に出力する(ステップS102)。
 60/Pの映像フォーマットに従うことが外部から指定されている場合、符号化制御部109は、図1に示された復号順(符号化順でもある。)でピクチャが並べ替え部101から読み出されるように制御する。すなわち、符号化制御部109は、並べ替え部101において表示順に各ピクチャが格納されている場合には、読み出し対象のメモリのアドレスから符号化対象のピクチャが出力されるように制御する。並べ替え部101において符号化順に各ピクチャが格納される場合には、符号化制御部109は、ピクチャが並べ替え部101に書き込まれるときに、符号化順に応じたメモリのアドレスにピクチャが格納されるように、並べ替え部101に指示する。
 120/Pの映像フォーマットに従うことが外部から指定されている場合、符号化制御部109は、図12に示された復号順(L0~L4構造の場合)または図2に示された復号順(L5構造の場合)でピクチャが並べ替え部101から読み出されるように制御する。
 なお、符号化制御部109は、一例として、映像のシーンの状況に応じて、L0~L4構造(60/Pの場合)のいずれを使用するのか、または、L0~L5構造(120/Pの場合)のいずれを使用するのかを決定することができる。符号化制御部109は、例えば、画面全体がさほど動かないシーンの映像を構成する画像(ピクチャ)についてはxの値が小さいLx構造を使用し、画面全体が速く動くシーンの映像を構成する画像についてはxの値が大きいLx構造を使用することに決定する。その場合には、符号化制御部109に、画像における動きの程度をあらかじめ検出する機能が含められる。
 予測器108は、イントラ予測またはインター予測に基づいて、入力映像信号に対する予測信号を生成する(ステップS103)。また、減算器102は、予測誤差信号を生成する(ステップS103)。
 なお、符号化制御部109は、図1に示されたピクチャの参照関係(60/Pの場合)または図12および図2に示されたピクチャの参照関係(120/Pの場合)に従って符号化を実行するように、予測器108に指示を与える。
 変換/量子化器103は、予測誤差信号を周波数変換して変換係数を生成する(ステップS104)。さらに、変換/量子化器103は、量子化ステップ幅で変換係数を量子化して変換量子化値を生成する(ステップS105)。変換量子化値は、逆量子化/逆変換器104およびエントロピー符号化器105に入力される。
 逆量子化/逆変換器104は、変換量子化値を逆量子化し、逆量子化された変換量子化値を逆周波数変換して変換係数を復元する(ステップS106)。エントロピー符号化器105は、変換量子化値をエントロピー符号化(例えば、算術符号化)してエントロピー符号化データを生成する(ステップS107)。
 SOPを構成する全てのピクチャについて、ステップS102~S107の処理が実行される(ステップS108)。
 なお、多重化器110は、エントロピー符号化器105から供給されるエントロピー符号化データと符号化制御部109から供給されるデータ(符号化情報など)とを多重化し、多重化データをビットストリームとして出力する。
 本実施形態では、符号化制御部109は、120/P以外の映像フォーマットに適用されるSOP構造におけるL4構造が使用されるときに、L4構造における各層において符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという条件下で、予測器108が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する。そのような制御によって、SOPにおける各ピクチャの圧縮効率が高くなる。なお、本実施形態では、符号化制御部109は、そのような制御を実現するために、並べ替え部101に、図1に示された符号化順でピクチャを出力させる。
 また、符号化制御部109は、120/Pの映像フォーマットに適用されるSOP構造におけるL5構造が使用されるときに、L5構造におけるTemporal ID=0~4の階層において符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという条件下で、下位層のピクチャを参照して符号化されるピクチャは、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように予測器108を制御する。そのような制御によって、ベース層に属するピクチャ(この場合には、Temporal ID=0~4の階層のピクチャ)の圧縮効率は高くなる。なお、本実施形態では、符号化制御部109は、そのような制御を実現するために、並べ替え部101に、図12に示された復号順(L0~L4構造の場合)または図2に示された復号順(L5構造の場合)でピクチャを出力させる。
実施形態2.
 図5は、映像復号装置の実施形態の構成例を示すブロック図である。図5に示す映像復号装置は、多重化解除器201、エントロピー復号器202、逆量子化/逆変換器203、加算器204、予測器205、バッファ206、復号制御部207、および並べ替え部208を含む。なお、図5に示す映像復号装置は、例えば、図3に例示された映像符号化装置からのビットストリームを受信することができる。
 多重化解除器201は、入力されるビットストリームを多重化解除して、エントロピー符号化データを抽出する。また、ビットストリームに含まれる符号化情報などを復号制御部207に出力する。
 エントロピー復号器202は、エントロピー符号化データをエントロピー復号する。エントロピー復号器202は、エントロピー復号した変換量子化値を逆量子化/逆変換器203に供給する。また、エントロピー復号器202は、ビットストリームに含まれている予測パラメータを、予測器205に供給する。エントロピー復号器202は、ビットストリームに含まれている符号化情報を復号制御部207に供給する。
 逆量子化/逆変換器203は、変換量子化値を逆量子化する。さらに、逆量子化/逆変換器203は、逆量子化した周波数変換係数を逆周波数変換する。
 予測器205は、予測パラメータに基づいて、各サブブロックの予測信号を生成する。逆量子化/逆変換器203で逆周波数変換された予測誤差信号は、加算器204によって、予測器205から供給される予測信号が加えられた後、再構築画像としてバッファ206に供給される。バッファ206は、再構築画像を格納する。
 バッファ206に格納された再構築画像は、並べ替え部208に転送される。並べ替え部208は、復号順に入力される映像信号における各画像(ピクチャ)を格納するメモリである。本実施形態では、各ピクチャは復号順に記憶されるとする。すなわち、メモリにおける小さいアドレスから順に、復号順に入力される各ピクチャが格納されるとする。しかし、復号順に入力される各ピクチャが表示順に並べ替え部101に格納されるようにしてもよい。すなわち、メモリにおける小さいアドレスから順に、表示順で、入力される各ピクチャが格納されるようにしてもよい。
 いずれのメモリ格納方式(復号順または表示順)が採用される場合でも、並べ替え部208から、表示順に各ピクチャが読み出される。
 次に、映像復号装置のSOP構造を使用して復号を実行するときの動作を、図6のフローチャートを参照して説明する。
 エントロピー復号器202は、ビットストリームに含まれるエントロピー符号化データをエントロピー復号する(ステップS201)。
 逆量子化/逆変換器203は、量子化ステップ幅で変換量子化値を逆量子化する(ステップS202)。さらに、逆量子化/逆変換器203は、逆量子化した周波数変換係数を逆周波数変換する(ステップS203)。
 予測器205は、バッファ206に格納された再構築画像を用いて予測信号を生成する(ステップS204)。加算器204は、逆量子化/逆変換器203で逆周波数変換された予測誤差画像に、予測器205から供給される予測信号を加えて、再構築画像を生成する(ステップS204)。再構築画像は、バッファ206に格納される。
 バッファ206に格納された再構築画像は、並べ替え部208に転送される(ステップS205)。
 SOPを構成する全てのピクチャについて、ステップS201~S205の処理が実行される(ステップS206)。
 並べ替え部208は、復号制御部207の出力指示に応じて、表示順に各画像を出力する(ステップS207)。
 60/Pの映像フォーマットに従うことが符号化情報指定されている場合、復号制御部207は、図1に示された表示順でピクチャが並べ替え部101から読み出されるように制御する。すなわち、復号制御部207は、並べ替え部208において復号順に各ピクチャが格納されている場合には、読み出し対象のメモリのアドレス(表示順に従って読み出されるべきピクチャが格納されているアドレス)からピクチャが出力されるように制御する。なお、並べ替え部101において表示順に各ピクチャが格納される場合には、復号制御部207は、ピクチャが並べ替え部208に書き込まれるときに表示順に応じたメモリのアドレスにピクチャが格納されるように、並べ替え部208に指示する。
 120/Pの映像フォーマットに従うことが外部から指定されている場合、復号制御部207は、図12に示された表示順(L0~L4構造の場合)または図2に示された表示順(L5構造の場合)でピクチャが並べ替え部208から読み出されるように制御する。
 第1の実施形態の映像符号化装置がSOP構造を使用して符号化した符号化データに基づくビットストリームを受信した場合、映像復号装置は、各ピクチャの圧縮効率が高い符号化データから映像を再生することができる。
 すなわち、本実施形態の映像復号装置は、符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測手段が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように構成された映像符号化装置からビットストリームを受信可能である。そのようなビットストリームが受信されたときに、本実施形態の映像復号装置において、予測器205は、符号化順が表示順と逆転せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとすることができる。
実施形態3.
 図7は、映像システムの一例を示すブロック図である。図7に示す映像システムは、上記の実施形態の映像符号化装置100と映像復号装置200とが、無線伝送路または有線伝送路300で接続されるシステムである。
 映像符号化装置100の構成および動作は、図3に示された映像符号化装置の構成および動作と同じである。映像復号装置200の構成および動作は、図5に示された映像復号装置の構成および動作と同じである。
実施形態4.
 図8は、映像システムの他の例を示すブロック図である。図8に示す映像システムは、音声符号化部401、映像符号化部402および多重化部403を含む。
 音声符号化部401は、映像と音声とを含むデータ(コンテンツ)のうちの音声信号を、例えばARIB STD-B32規格で規定されるMPEG-4 AAC(Advanced Audio Coding)規格やMPEG-4 ALS規格(Audio Lossless Coding)に基づいて符号化することによって音声ビットストリームを作成して出力する。
 映像符号化部402は、例えば、図3に示すように構成され、映像ビットストリームを作成して出力する。
 多重化部403は、例えばARIB STD-B32規格に基づいて、音声ビットストリーム、映像ビットストリームおよびその他の情報を多重化することによってビットストリームを作成して出力する。
 また、上記の各実施形態を、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。
 図9は、CPU(Central Processing Unit )を有するコンピュータの一例を示すブロック図である。コンピュータは、図3に示された映像符号化装置と図5に示された映像復号装置のそれぞれに実装可能である。CPU1000は、記憶装置1001に格納されたプログラム(映像符号化プログラムまたは映像復号プログラム)に従って処理を実行することによって、上記の各実施形態における各機能を実現する。
 すなわち、コンピュータが図3に示された映像符号化装置に実装される場合には、CPU1000は、映像符号化装置における、減算器102、変換/量子化器103、逆量子化/逆変換器104、エントロピー符号化器105、加算器106、予測器108、符号化制御部109、および多重化器110の機能を実現する。
 コンピュータが図5に示された映像復号装置に実装される場合には、CPU1000は、映像復号装置における、多重化解除器201、エントロピー復号器202、逆量子化/逆変換器203、加算器204、予測器205、および復号制御部207の機能を実現する。
 記憶装置1001は、例えば、非一時的なコンピュータ可読媒体(non-transitory computer readable medium )である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium )を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体(例えば、ハードディスク)、CD-ROM(Compact Disc-Read Only Memory )、CD-R(Compact Disc-Recordable )、CD-R/W(Compact Disc-ReWritable )、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM )、フラッシュROM)がある。
 また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium )に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。
 メモリ1002は、例えばRAM(Random Access Memory)で実現され、CPU1000が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ1002に、記憶装置1001または一時的なコンピュータ可読媒体が保持するプログラムが転送され、CPU1000がメモリ1002内のプログラムに基づいて処理を実行するような形態も想定しうる。
 また、メモリ1002は、図3に示された並べ替え部101およびバッファ107として使用可能である。また、メモリ1002は、図5に示されたバッファ206および並べ替え部208として使用可能である。
 図10は、映像符号化装置の主要部を示すブロック図である。図10に示す映像符号化装置10は、複数レベル(例えば、L0~L4、L0~L5)の構造(例えば、L0~L4構造、L0~L5構造)を含むSOP構造を使用してビットストリームを生成する映像符号化装置であって、イントラ予測またはインター予測を用いて予測処理を行う予測手段11(実施形態では、予測器108で実現される。)と、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、予測手段11が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する符号化制御手段12(実施形態では、符号化制御部109で実現される。)とを備えている。
 図11は、映像復号装置の主要部を示すブロック図である。図11に示す映像復号装置20は、複数レベル(例えば、L0~L4、L0~L5)の構造(例えば、L0~L4構造、L0~L5構造)を含むSOP構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号装置であって、イントラ予測またはインター予測を用いて予測処理を行う予測手段21(実施形態では、予測器205で実現される。)を備え、予測手段21は、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層(Temporal IDの値が小さい層)のピクチャが上位層(Temporal IDの値が大きい層)のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように動作する。
 11   予測手段
 12   符号化制御手段
 21   予測手段
 10,100 映像符号化装置
 101  並べ替え部
 102  減算器
 103  変換/量子化器
 104  逆量子化/逆変換器
 105  エントロピー符号化器
 106  加算器
 107  バッファ
 108  予測器
 109  符号化制御部
 110  多重化器
 20,200 映像復号装置
 201  多重化解除器
 202  エントロピー復号器
 203  逆量子化/逆変換器
 204  加算器
 205  予測器
 206  バッファ
 207  復号制御部
 208  並べ替え部
 401  音声符号化部
 402  映像符号化部
 403  多重化部
 1000 CPU
 1001 記憶装置
 1002 メモリ

Claims (10)

  1.  複数レベルの構造を含むSOP構造を使用してビットストリームを生成する映像符号化装置であって、
     イントラ予測またはインター予測を用いて予測処理を行う予測手段と、
     表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、前記予測手段が、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとするように制御する符号化制御手段と
     を備えたことを特徴とする映像符号化装置。
  2.  前記符号化制御手段は、120/P以外の映像フォーマットの映像信号が符号化される場合に、16フレームが含まれるL4構造が使用されるときに、前記所定条件下で、前記予測手段が、下位層において表示順で最も近接するピクチャを参照ピクチャとするように制御する
     請求項1記載の映像符号化装置。
  3.  前記符号化制御手段は、120/Pの映像フォーマットの映像信号が符号化される場合に、32フレームが含まれるL5構造が使用されるときに、ベース層において、前記所定条件下で、前記予測手段が、下位層のピクチャを参照してピクチャを符号化するときに、下位層において表示順で最も近接するピクチャを参照ピクチャとするように制御する
     請求項1記載の映像符号化装置。
  4.  前記予測手段は、VVC規格に基づいて予測処理を行う
     請求項1から請求項3のうちのいずれか1項に記載の映像符号化装置。
  5.  複数レベルの構造を含むSOP構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号装置であって、
     イントラ予測またはインター予測を用いて予測処理を行う予測手段を備え、
     前記予測手段は、
     表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする
     ことを特徴とする映像復号装置。
  6.  複数レベルの構造を含むSOP構造を使用してビットストリームを生成する映像符号化方法であって、
     イントラ予測またはインター予測を用いて予測処理を実行し、
     表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、前記予測処理で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされるように制御する
     ことを特徴とする映像符号化方法。
  7.  複数レベルの構造を含むSOP構造を使用して生成されたビットストリームを入力して復号処理を行う映像復号方法であって、
     イントラ予測またはインター予測を用いて予測処理を実行し、
     前記予測処理で、
     表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャを参照ピクチャとする
     ことを特徴とする映像復号方法。
  8.  複数レベルの構造を含むSOP構造を使用してビットストリームを生成するための映像符号化プログラムであって、
     コンピュータに、
     イントラ予測またはインター予測を用いて予測処理を実行させ、
     表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、前記予測処理で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされるように制御させる
     ための映像符号化プログラム。
  9.  複数レベルの構造を含むSOP構造を使用して生成されたビットストリームを入力して復号処理を行うための映像復号プログラムであって、
     コンピュータに、イントラ予測またはインター予測を用いて予測処理を実行させ、
     前記予測処理で、表示順が後であるピクチャを表示順が先であるピクチャに先行して符号化せず、かつ、下位層のピクチャが上位層のピクチャを参照しないという所定条件下で、下位層のピクチャを参照してピクチャを符号化するときに、表示順で符号化対象のピクチャに最も近接するピクチャが参照ピクチャとされる
     映像復号プログラム。
  10.  請求項1から請求項4のうちのいずれか1項に記載の映像符号化装置と、
     音声信号を符号化する音声符号化部と、
     前記映像符号化装置からのビットストリームと前記音声符号化部からのビットストリームとを多重化して出力する多重化部と
     を備える映像システム。
PCT/JP2021/045639 2021-03-30 2021-12-10 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム Ceased WO2022209032A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP21935181.4A EP4319153A4 (en) 2021-03-30 2021-12-10 VIDEO CODING DEVICE, VIDEO DECODING DEVICE, VIDEO CODING METHOD, VIDEO DECODING METHOD AND VIDEO SYSTEM
JP2023510228A JP7722447B2 (ja) 2021-03-30 2021-12-10 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム
CN202180096356.8A CN117063465A (zh) 2021-03-30 2021-12-10 视频编码设备、视频解码设备、视频编码方法、视频解码方法和视频系统
US18/284,373 US20240163452A1 (en) 2021-03-30 2021-12-10 Video encoding device, video decoding device, video encoding method, video decoding method, and video system
JP2025081142A JP2025114816A (ja) 2021-03-30 2025-05-14 映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-056391 2021-03-30
JP2021056391 2021-03-30

Publications (1)

Publication Number Publication Date
WO2022209032A1 true WO2022209032A1 (ja) 2022-10-06

Family

ID=83455823

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/045639 Ceased WO2022209032A1 (ja) 2021-03-30 2021-12-10 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法および映像システム

Country Status (5)

Country Link
US (1) US20240163452A1 (ja)
EP (1) EP4319153A4 (ja)
JP (2) JP7722447B2 (ja)
CN (1) CN117063465A (ja)
WO (1) WO2022209032A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2025074664A1 (ja) * 2023-10-05 2025-04-10 Kddi株式会社 メッシュ復号装置、メッシュ復号方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015076277A1 (ja) * 2013-11-22 2015-05-28 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2017094482A1 (ja) * 2015-12-02 2017-06-08 日本電気株式会社 映像符号化方法、映像符号化装置、映像復号方法、映像復号装置、及びプログラム、並びに映像システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015030508B1 (pt) * 2013-06-12 2023-11-07 Mitsubishi Electric Corporation Dispositivos e métodos de codificação de imagem e de decodificação de imagem

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015076277A1 (ja) * 2013-11-22 2015-05-28 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2017094482A1 (ja) * 2015-12-02 2017-06-08 日本電気株式会社 映像符号化方法、映像符号化装置、映像復号方法、映像復号装置、及びプログラム、並びに映像システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"ARIB (Association of Radio Industries and Businesses) standard STD-B32 3.3 edition", 3 July 2015, ASSOCIATION OF RADIO INDUSTRIES AND BUSINESSES
BENJAMIN BROSS ET AL.: "Versatile Video Coding (Draft 10", JVET-S2001-V7, JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG16 WP3 AND ISO/IEC JTC1/SC29/WG11 19TH MEETING: BY TELECONFERENCE, 22 June 2020 (2020-06-22)
See also references of EP4319153A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2025074664A1 (ja) * 2023-10-05 2025-04-10 Kddi株式会社 メッシュ復号装置、メッシュ復号方法及びプログラム

Also Published As

Publication number Publication date
CN117063465A (zh) 2023-11-14
EP4319153A1 (en) 2024-02-07
US20240163452A1 (en) 2024-05-16
EP4319153A4 (en) 2024-08-07
JP2025114816A (ja) 2025-08-05
JPWO2022209032A1 (ja) 2022-10-06
JP7722447B2 (ja) 2025-08-13

Similar Documents

Publication Publication Date Title
US11647205B2 (en) Video encoding device, video decoding device, video encoding method, video decoding method, and program using inter prediction
JP5421408B2 (ja) αチャンネル映像復号化装置、αチャンネル復号化方法及び記録媒体
EP2324638B1 (en) System and method for video encoding using adaptive loop filter
US11582461B2 (en) Video encoding device, video decoding device, video encoding method, video decoding method, and program restricts inter-prediction unit partitions based on coding unit depth
TWI527440B (zh) 在視訊寫碼中針對高效率視訊寫碼(hevc)延伸之多層之低複雜度支援
CN116996670A (zh) 视频译码中的经改进帧内预测
KR20190022629A (ko) 비-쿼드트리-단독 파티셔닝된 비디오 코딩에서 양자화 정보의 시그널링
US20160080753A1 (en) Method and apparatus for processing video signal
KR20060109290A (ko) 화상 복호 장치 및 화상 복호 방법과 화상 복호 프로그램
US20160100180A1 (en) Method and apparatus for processing video signal
TWI566582B (zh) 用於處理及編碼視訊資料之方法、器件及裝置以及電腦可讀儲存媒體
JP2011130410A (ja) 符号化方法、復号化方法及び装置
KR20160070771A (ko) 비디오 및 영상 코딩 및 디코딩에 대한 기본 색상 인덱스 맵 모드의 특징
TW201631967A (zh) 用於編碼及解碼之使用轉換係數以漸進更新
US20160088305A1 (en) Method and apparatus for processing video signal
JP2025019217A (ja) 映像符号化装置
JP2025114816A (ja) 映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法
WO2016194380A1 (ja) 動画像符号化装置、動画像符号化方法および動画像符号化プログラムを記憶する記録媒体
CN112887737B (zh) 用于hevc扩展处理的条件解析扩展语法
WO2022044267A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法
WO2022044268A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法および映像復号方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21935181

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023510228

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202180096356.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 18284373

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2021935181

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021935181

Country of ref document: EP

Effective date: 20231030