WO2010082463A1 - Image encoding apparatus and image encoding method, image decoding apparatus and image decoding method - Google Patents
Image encoding apparatus and image encoding method, image decoding apparatus and image decoding method Download PDFInfo
- Publication number
- WO2010082463A1 WO2010082463A1 PCT/JP2010/000050 JP2010000050W WO2010082463A1 WO 2010082463 A1 WO2010082463 A1 WO 2010082463A1 JP 2010000050 W JP2010000050 W JP 2010000050W WO 2010082463 A1 WO2010082463 A1 WO 2010082463A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- block
- prediction
- encoding
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/14—Coding unit complexity, e.g. amount of activity or edge presence estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
Definitions
- the present invention relates to an encoding technique and a decoding technique with high image quality and good encoding efficiency.
- MPEG Motion Picture Experts Group
- MPEG-4 It is an international standard encoding method as a standard.
- H.264 / AVC Advanced Video Video Coding
- one screen one frame is divided into units of macroblocks (16 pixels ⁇ 16 lines), and predictive encoding using correlation within the screen or between the screens is performed for each block.
- a macroblock is further divided into 16 ⁇ 8, 8 ⁇ 16, 8 ⁇ 8, 8 ⁇ 4, 4 ⁇ 8, and 4 ⁇ 4 small blocks.
- the prediction accuracy is improved by increasing the number of division types for blocks when encoding, and a high compression rate is realized.
- Patent Document 1 discloses that an input image is divided into first blocks of M ⁇ N size, and further, the first block is divided into second blocks of m ⁇ n size, The division shape of the first block is determined based on the feature information extracted from the image of the block.
- the code amount of the block including it will increase.
- the presence / absence of an edge is detected as feature information of the second block, and if there is an edge, it is divided into the shape of the second block, and if there is no edge, the division is performed.
- the shape of the first block is not changed. That is, the amount of codes can be reduced by treating an area where no edge exists as a large-sized block.
- the block division method since the block division method is limited to a rectangular shape, for example, an image including an edge in a diagonal direction cannot always be predicted with high accuracy. There is a problem that the image quality is lowered or the code amount is increased. This is also a problem common to the conventional MPEG systems.
- the present invention has been made in view of the above problems, and an object of the present invention is to divide a block suitably for an image feature portion such as an edge, thereby enabling high-quality and efficient encoding technology and decoding. It is to provide the technology.
- the present invention relates to an image encoding apparatus that encodes a difference image between a prediction image generated using a plurality of encoding modes and an input image divided into first blocks of a predetermined size.
- One encoding mode is selected from among the modes, a prediction image generation unit that generates a prediction image by intra prediction or inter prediction, a subtraction unit that calculates a difference image between the prediction image and the input image,
- An encoded stream generation unit configured to generate an encoded stream by performing a frequency conversion process, a quantization process, and a variable-length encoding process on the difference image
- the second block dividing unit includes the first block dividing unit Based on the rock and the edge information of encoded adjacent blocks in the same screen to determine the block shape of the second block.
- the present invention relates to an image coding method for coding a difference image between a prediction image generated using a plurality of coding modes and a first block having a predetermined size.
- One encoding mode is selected from among the modes, a prediction image generation step of generating a prediction image by intra prediction or inter prediction, a subtraction step of calculating a difference image of the prediction image and the input image,
- An encoded stream generation step of generating an encoded stream by performing a frequency conversion process, a quantization process, and a variable-length encoding process on the difference image
- Lock dividing step determines the block shape of the second blocks based on the first block and the edge information of encoded adjacent blocks in the same screen.
- the present invention provides an image decoding apparatus that generates a decoded image by decoding an encoded stream, and generates a differential image by performing variable length decoding processing, inverse quantization processing, and inverse frequency transform processing on the encoded stream.
- an addition unit that generates the decoded image by adding the difference image, and the prediction image generation unit performs the decoding based on edge information of a decoded block adjacent to the decoding target block in the same screen.
- the block shape of the target block is determined.
- the present invention provides an image decoding method for generating a decoded image by decoding an encoded stream, and generating a differential image by performing variable length decoding processing, inverse quantization processing, and inverse frequency transform processing on the encoded stream.
- an addition step of adding the difference image to generate a decoded image wherein the predicted image generation step is based on edge information of a decoded block adjacent to the decoding target block in the same screen.
- the block shape of the target block is determined.
- an image encoding device it is possible to provide an image encoding device, an image decoding device, and a method thereof with high image quality and good encoding efficiency.
- FIG 1 is a configuration block diagram showing an embodiment of an image encoding device of the present invention (Embodiment 1).
- FIG. An example of filter coefficients used to calculate edge strength. Pixel value to be referenced for calculating edge strength.
- FIG. The figure which shows the operation example of prediction between screens.
- FIG. 10 is a diagram for explaining another example of operation of the edge information acquisition unit 110 (second embodiment).
- 10 is a flowchart illustrating a decoding processing procedure according to the third embodiment. The flowchart which shows the procedure of the prediction process in a screen in FIG. The flowchart which shows the procedure of the prediction process between screens in FIG.
- FIG. 1 is a configuration block diagram showing an embodiment (Embodiment 1) of an image encoding apparatus according to the present invention.
- the first block dividing unit 101 divides the input image 150 into first input image blocks 151 each having 16 ⁇ 16 pixels.
- the subtractor 102 performs a subtraction process between the first input image block 151 and a predicted image block 155 output from the encoding mode selection unit 114 described later, and generates a difference image signal 152.
- the frequency conversion unit 103 performs frequency conversion such as discrete cosine transform (DCT conversion) on the differential image signal 152 for each image block, and outputs frequency conversion data.
- the quantization unit 104 quantizes the data and outputs quantized data 153.
- variable-length encoding unit 105 multiplexes the encoded data obtained by variable-length encoding the quantized data 153 with the information 157 such as the encoding mode information and the motion vector output from the encoding mode selection unit 114 to generate an encoded stream. 154 is generated and output.
- the inverse quantization unit 106 inversely quantizes the quantized data 153 output from the quantization unit 104, and the inverse frequency transform unit 107 performs inverse frequency transform on the quantized data 153 to output difference block data.
- the adder 108 adds the difference block data and the predicted image block 155 output from the encoding mode selection unit 114 to generate a decoded image 156.
- the frame memory 109 stores the decoded image 156.
- the edge information acquisition unit 110 acquires edge information for the image read from the frame memory 109.
- the second block division unit 111 further finely divides the input image block 151 output from the first block division unit 101 based on the acquired edge information, and outputs a second input image block 160. Detailed operations of the edge information acquisition unit 110 and the second block division unit 111 will be described later.
- the intra-screen prediction unit 112 generates an intra-screen prediction image from the reference image 159 read from the frame memory 109.
- the inter-screen prediction unit 113 generates an inter-screen prediction image from the reference image 159 read from the frame memory 109.
- the encoding mode selection unit 114 selects either the prediction image generated by the intra-screen prediction unit 112 or the prediction image generated by the inter-screen prediction unit 113, and the selected prediction image 155 is subtracted by the subtractor 102 and the adder 108. Output to. Also, the coding mode selected by the coding mode selection unit 114 and block division information 157 are output to the variable length coding unit 105.
- the input image block 151 is divided into finer second input image blocks 160, and intra prediction and inter prediction are performed.
- the method is characterized in that an optimal predicted image 155 is created.
- FIG. 2 is a diagram for explaining an operation example of the edge information acquisition unit 110.
- a screen 210 is an encoding target screen, and is divided into first blocks having a predetermined size (16 ⁇ 16 pixels) by the first block dividing unit 101.
- An arrow 210a in the screen indicates the order of blocks to be encoded, and shows an enlargement of an encoding target block 201 to be encoded next and adjacent blocks 202 to 205 referred to for obtaining edge information.
- the adjacent blocks 202 to 205 taken up here are blocks that are adjacent in the same screen as the encoding target block 201 and have already been encoded according to the encoding order 210a, and are decoded images read from the frame memory 109. .
- an edge straight line at the pixel P_edge_cal (i0) is calculated by [Formula 3]. Note that x i and y i are the horizontal and vertical coordinates of the pixel P_edge_cal (i0) when the upper left corner of the screen is the origin.
- the validity / invalidity of the obtained edge straight line is determined.
- the edge straight line calculated by [Formula 3] intersects the encoding target block 201 as shown by the straight line 220 in FIG. 2, the coordinates (x i , y i ) of the pixel i at this time and the edge angle g (i And the edge information is output to the second block dividing unit 111.
- FIG. 3 is an example of filter coefficients used for calculating the edge strength.
- (A) is a Sobel filter, and (b) is a pre-wit filter.
- Vertical filter is a factor to determine the difference in the horizontal direction of the pixel values in order to calculate the vertical edge strength f v.
- the horizontal filter is a coefficient for obtaining a difference between pixel values in the vertical direction in order to calculate the horizontal edge strength f h .
- FIG. 4 shows pixel values that are referred to for calculating the edge strength.
- A is a pixel value, and i and j represent horizontal and vertical coordinates with the upper left corner of the screen as the origin.
- Pixel A (i, j) is the central pixel, and eight adjacent pixels are used.
- the vertical edge strength f v and the horizontal edge strength f h in the pixel A (i, j) when the Sobel filter of (a) is used are calculated using [Formula 4] and [Formula 5].
- FIG. 5 is a diagram showing a mode of block division by the second block division unit 111.
- H When performing inter-screen prediction in H.264 / AVC, as shown in FIGS. 5 (1) to (7), there are four types of modes: 16 ⁇ 16 pixel mode, 16 ⁇ 8 mode, 8 ⁇ 16 mode, and 8 ⁇ 8 mode.
- the total of 4 blocks when divided and divided into 8 ⁇ 8 can be divided into 4 types of 8 ⁇ 8 mode, 8 ⁇ 4 mode, 4 ⁇ 8 mode, and 4 ⁇ 4 mode independently, for a total of 7 blocks
- the second block dividing unit 111 divides the first input image block 151 into two blocks of 16 ⁇ 8 size and inter-screen prediction unit 113. Output to.
- the block after being divided by the second block dividing unit 111 is referred to as a sub-block.
- the second block dividing unit 111 adds a new mode for dividing the first input image block 151 based on the edge information acquired by the edge information acquiring unit 110 in addition to the above seven block dividing modes.
- this mode is referred to as “edge division mode (edge_base division)”.
- edge division mode edge_base division
- the edge division mode shown in FIG. 5 (8) is provided. That is, in the new edge division mode, the encoding target block is divided into two sub-blocks 0 and 1 along the division line 220a corresponding to the edge information. Since the dividing line 220a is determined according to the edge information, an arbitrary inclination can be taken at an arbitrary position in the block.
- the shapes of the two sub blocks include not only a rectangle but also a trapezoid and a triangle, and allow the shapes to be different from each other. Further, all the pixels in the encoding target block 201 belong to only one of the sub-block 0 and the sub-block 1, and there are no pixels belonging to both sub-blocks or none of the sub-blocks. And
- Inter-screen predictive encoding is a technique of referring to a reference image block in a reference screen that has already been encoded and encoding a difference from the encoding target image.
- H.264 / AVC three types of slices, ie, an I slice, a P slice, and a B slice, are used as a unit for switching the coding mode, and inter-frame predictive coding can be performed in the P slice and the B slice. is there.
- motion compensation inter-screen prediction encoding is performed with reference to one reference image block from a past screen on the encoded time axis.
- the motion-compensated inter-prediction code is referred by referring to two reference image blocks in any combination from the past screen or the future screen on the time axis that has already been encoded. To do.
- FIGS. 6A and 6B are diagrams illustrating an example of the operation of inter-screen prediction.
- FIG. 6A illustrates a case where the block division mode is the 16 ⁇ 8 mode
- the screen 600 is a coding target screen
- the screen 610 is a past reference screen on the time axis with respect to the coding target screen 600
- a screen 620 shows a future reference screen on the time axis with respect to the encoding target screen 600.
- the encoding target block 601 in the encoding target screen 600 is composed of two sub-blocks 602 and 603 having a size of 16 ⁇ 8 (rectangular).
- an area (16 ⁇ 8 size) similar to the sub-blocks 602 and 603 is searched from the past reference screen 610 on the time axis to obtain a predicted image. For example, a square error sum or a difference error sum is used to calculate the similarity between images.
- blocks 612 and 613 are selected as the predicted images of the sub-blocks 602 and 603.
- the blocks 622 and 623 are selected from the future reference screen 620 on the time axis as predicted images of the sub-blocks 602 and 603. It is out. Then, it is possible to refer to the two blocks of the past and the future and use the average image as the predicted image.
- FIG. 6B shows the case of the edge division mode added according to this embodiment.
- the screen 650 shows the encoding target screen
- the screen 660 shows the past reference screen on the time axis with respect to the encoding target screen 650
- the screen 670 shows the future reference screen on the time axis with respect to the encoding target screen 650.
- the encoding target block 651 in the encoding target screen 650 is composed of, for example, two trapezoidal sub-blocks 652 and 653 by edge division.
- the sub-blocks 652 and 653 select blocks 662 and 663 as reference images from the past reference screens 660 on the time axis. These blocks 662 and 663 are regions having the same shape as the respective divided shapes (here, trapezoids) of the sub-blocks 652 and 653.
- the sub-blocks 652 and 653 select blocks 672 and 673 as reference images from the future reference screen 670 on the time axis in addition to the blocks 662 and 663. .
- These blocks 672 and 673 are also regions having the same shape as the divided shapes of the sub-blocks 652 and 653, respectively.
- inter-screen prediction in the edge division mode added in the present embodiment can be performed in the same manner as in the conventional rectangular block division mode, although the shape of the sub-block is different.
- the inter-screen prediction unit 113 selects a block division mode with the highest coding efficiency from among the inter-screen predictions in each block division mode according to FIGS. 5 (1) to (8).
- an RD-Optimization method for selecting an optimum mode from the relationship between image quality distortion due to encoding and code amount is used. The details of RD-Optimization are described in Reference Document 1 below. [Reference 1] G. Sullivan and T. Wiegand: “Rate-Distortion Optimization for Video Compression”, IEEE Signal Processing Magazine, vol.15 no.6, pp.74-90, 1998.
- FIG. 7 and FIG. 8 are diagrams for specifically explaining the effect of the edge division mode in inter-screen predictive coding.
- a screen 700 shown in FIG. 7B is an encoding target screen, and is a P slice here.
- a screen 710 illustrated in FIG. 7A is a past reference screen on the time axis with respect to the encoding target screen 700.
- a block 701 indicates an encoding target block
- blocks 702 to 705 indicate encoded blocks adjacent to the encoding target block 701.
- FIG. 8 is an enlarged view of blocks 701 to 705 in FIG. 7B.
- an image including a stationary building 751 and a moving automobile 752 (752 ′) is taken as an example.
- FIG. 7B is an image in which a part of both the background building 751 and the moving automobile 752 is mixed, and the boundary (edge) between the building and the automobile is in an oblique direction.
- block 701 and reference image 710 in (a) Since the building portion in the block 701 is a still image, it matches best with the block 711 in the same spatial position in the building 751 of the reference image 710.
- the car portion is a moving image, and best matches the block 712 at the corresponding position in the car 752 ′ of the reference image 710 (that is, the image 712 shifted by the amount of movement of the car on the two screens).
- the boundary between the building and the car is oblique, Regardless of which block division method (FIG.
- the encoding target block 701 is divided into two trapezoidal sub-blocks 801 and 802 along the edge straight line 800. That is, by dividing the building so that it is included in the sub-block 801 and the automobile in the sub-block 802, there is no sub-block in which both the building and the automobile are mixed.
- the sub-block 801 generates a prediction image with reference to the block 711 on the reference screen 710.
- Sub-block 802 refers to block 712 to generate a predicted image.
- the prediction error can be reduced more than the inter-screen prediction in H.264 / AVC.
- FIG. 2 shows a conventional intra-screen prediction operation in H.264 / AVC.
- a case where the block size when performing intra prediction encoding is 4 ⁇ 4 pixel units is shown.
- H. In intra-frame prediction in H.264 / AVC, prediction is performed using a total of 13 decoded pixels in four encoded blocks adjacent to the left, upper left, upper, and upper right of the encoding target block.
- FIGS. 9 (1), (2), (4) to (9) For prediction, as shown in FIGS. 9 (1), (2), (4) to (9), a mode for generating a predicted image by extending the 13 decoded pixels in the direction of the arrow, and FIG. As shown in 3), there is a mode for generating a predicted image from the average value of adjacent decoded pixels.
- the block size for performing intra-screen predictive encoding includes cases of 8 ⁇ 8 pixel units and 16 ⁇ 16 pixel units.
- FIG. 10 shows an operation in the case of performing intra prediction encoding in units of 16 ⁇ 16 pixels.
- 16 ⁇ 16 pixel units similarly to the 4 ⁇ 4 pixel unit, the decoded pixels adjacent to the block to be encoded are extended in the direction of the arrow to generate a predicted image.
- One of the modes 0 to 3) is selected.
- the second block division unit 111 divides the first input image block 151 into three sizes (16 ⁇ 16 pixel size, 8 ⁇ 8 pixel size, 4 ⁇ 4) during intra prediction.
- the pixel size is divided into any sub-block.
- the in-screen prediction unit 112 performs a process of selecting any one of the nine modes shown in FIG. 9 or the four types of modes shown in FIG.
- the second block division unit 111 calculates the edge information acquisition unit 110 in addition to the above three block division modes (16 ⁇ 16 pixel size, 8 ⁇ 8 pixel size, 4 ⁇ 4 pixel size).
- a mode for dividing the first input image block 151 based on the edge information (edge division mode) is newly provided.
- the edge division mode is the same as in the case of the inter-picture prediction encoding, and the description thereof is omitted here.
- FIG. 11 shows the operation of intra prediction in the edge division mode.
- the second block division unit 111 based on the edge information calculated by the edge information acquisition unit 110, the second block division unit 111 converts the first input image block 151 (encoding target block) into sub-blocks 1101 and 1102. An example of division is shown below.
- the intra prediction unit 112 performs intra prediction for each of the divided sub blocks.
- the prediction mode any one of the prediction mode 0 and the prediction mode 1 shown in FIG. 10 is applied.
- FIG. 11B and 11C show the intra-screen prediction operation for the sub-block 1101.
- FIG. 1101 Since the sub-block 1101 is adjacent to the upper and left encoded blocks, the prediction from the encoded upper block (prediction mode 0) and the prediction from the encoded left block (prediction mode 1) ) (B) is a case where the prediction mode 0 is applied to the sub-block 1101.
- FIG. 10 (1) shows that prediction is applied to the entire encoding target block, whereas in FIG. 11 (b), prediction is applied only to the sub-block 1101. Different points apply.
- FIG. 11C shows the case where the prediction mode 1 is applied to the sub-block 1101. This case is also similar to FIG. 10 (2), except that the prediction is applied only to the sub-block 1101 in FIG. 11 (c).
- the pixel group 1104 in FIG. 11C is not in contact with the sub-block 1101, and when a decoded image corresponding to the position of the pixel group 1104 is used as it is as a predicted image, a prediction error is expected to increase.
- it is effective to copy the value of the pixel 1103 that is in contact with both the pixel group 1104 and the sub-block 1101 to the pixel group 1104 and then use it as a predicted image.
- FIG. 11D shows the case where the prediction mode 1 is applied to the sub-block 1102. Since the sub-block 1102 is not adjacent to the encoded upper block and is adjacent to only the left block, the prediction mode applicable in this example is only the prediction mode 1.
- FIGS. 12 and 13 are diagrams for specifically explaining the effect of the edge division mode in the intra prediction encoding.
- a screen 1200 indicates an encoding target screen
- a block 1201 indicates an encoding target block
- blocks 1202 to 1205 indicate encoded blocks adjacent to the encoding target block 1201.
- FIG. 13 is an enlarged view of blocks 1201 to 1205.
- the encoding target block 1201 is a block in which a part of the building 1251 and the automobile 1252 coexists, and the boundary between the building and the automobile is in an oblique direction.
- block division mode and prediction mode FIGS. 9 (1) to (9) and FIGS. 10 (1) to (4)
- the prediction error could not be reduced sufficiently.
- the edge division mode in this embodiment is used, the edge straight line 1300 between the building and the car is calculated in the encoded adjacent block 1202 by the method shown in FIG.
- the encoding target block 1201 can be divided into a trapezoidal sub-block 1301 and a sub-block 1302 by the edge straight line 1300.
- a prediction image is generated with reference to the adjacent block 1203.
- a prediction image is generated with reference to the adjacent block 1202 in the prediction mode shown in FIG.
- the prediction error can be reduced as compared with the intra-screen prediction in H.264 / AVC.
- the intra-screen prediction image generated by the intra-screen prediction unit 112 and the inter-screen prediction image generated by the inter-screen prediction unit 113 are obtained, and both are input to the encoding mode selection unit 114.
- the encoding mode selection unit 114 selects an optimal prediction image from the input intra prediction image and inter prediction image.
- a selection method for example, the RD-Optimization method described in Reference Document 1 is used.
- the block division method (16 ⁇ 16 pixel block, 8 ⁇ 8 pixel block, 4 ⁇ 4 pixel block, edge division) is used as the encoding mode information 157.
- Mode information is output to the variable length coding unit 105.
- the block division method is any one of the 16 ⁇ 16 pixel block, the 8 ⁇ 8 pixel block, and the 4 ⁇ 4 pixel block, the prediction mode information illustrated in FIG. 9 or 10 is included.
- the block division method (FIG. 5 (1) to (8)) and the motion vector information are used as the variable length code as the encoding mode information 157.
- the conversion unit 105 To the conversion unit 105.
- the sub-block division method in this embodiment is the conventional H.264 standard.
- the types of division shapes trapezoids and triangles
- the degree of freedom of size increase, so that optimum division can be performed according to the edge of the image to be encoded, and prediction errors are reduced.
- the number of modes increases with the addition of the block division method is only one, and the influence on the increase in code amount can be minimized.
- the shape of the edge division mode added in the present embodiment is not a fixed pattern, but derived from the feature of the edge of the adjacent block. This is to determine the block division method by applying the strength of the correlation in the spatial direction of the image, that is, the property that the feature of the image is similar to the spatial direction, and it is possible to reduce the prediction error.
- the image coding apparatus in the image coding apparatus according to the first embodiment, in the coding apparatus that divides an input image into first blocks and further divides the input image into a plurality of second blocks, the same as the first block.
- the block shape of the second block is determined based on the edge information of the encoded block adjacent in the screen, thereby reducing the prediction error and realizing image coding with high image quality and good coding efficiency. It becomes possible to do.
- the block is divided based on the edge information.
- the same effect can be obtained by extracting an image feature portion having a large code amount and dividing the block based on this.
- Embodiment 2 describes a case where edge information is acquired by a method different from that in Embodiment 1 when block division is performed based on edge information.
- the image coding apparatus according to the second embodiment has the same configuration as that of the first embodiment (FIG. 1), and thus the description thereof is omitted.
- the edge information acquisition unit 110 in FIG. 1 performs a process of calculating edge information using a decoded image block adjacent in the same screen as the block to be encoded as shown in FIG. .
- the edge information acquisition unit 110 calculates the edge information of the block at the same spatial position in the encoded screen adjacent in the time direction to the encoding target block.
- FIG. 14 is a diagram for explaining an operation example of the edge information acquisition unit 110.
- a screen 1400 is an encoding target screen
- a screen 1410 is an encoded screen that precedes the encoding target screen 1400 in time, and is a decoded image screen obtained by decoding this.
- a block 1401 indicates an encoding target block.
- a block 1411 indicates a block in the decoded image screen 1410 that has the same spatial position in the screen as the block 1401.
- the edge angle g at the pixel P_edge_cal2 (i1) is calculated.
- an edge straight line at the pixel P_edge_cal2 (i1) is calculated from [Equation 3] in Embodiment 1 from the edge angle g calculated by [Equation 2].
- the edge straight line information calculated by [Formula 3] is applied to the encoding target block 1401 and divided into sub-blocks.
- the sub-block division method in the present embodiment is the same as that in the first embodiment.
- the type of division shape trapezoid or triangle
- the degree of freedom of size increase, so that optimum division is possible according to the edge (feature) of the image to be encoded, and prediction error There is an effect to reduce.
- the number of modes increases with the addition of the block division method is only one, and the influence on the increase in code amount can be minimized.
- the shape of the edge division mode added in this embodiment is not a fixed pattern, but is derived from image features of temporally adjacent screens.
- the block division method is determined by applying the strength of the correlation in the time direction of the image, that is, the property that the feature of the image is similar to the time direction, and the prediction error can be reduced.
- the block shape of the second block is determined based on the edge information of the block at the same spatial position in the encoded screen adjacent in the time direction, thereby reducing the prediction pixels and encoding efficiency with high image quality. It is possible to realize good image coding.
- the block is divided based on the edge information. However, the same effect can be obtained by extracting an image feature portion having a large code amount and dividing the block based on this.
- FIG. 15 is a configuration block diagram showing an embodiment (third embodiment) of an image decoding apparatus according to the present invention.
- the variable length decoding unit 1501 performs variable length decoding on the input encoded stream 1550, quantized data 1551 that is a frequency conversion component of the prediction difference, and the block size and motion vector.
- the encoding mode information 1555 necessary for prediction processing such as the above is acquired.
- the inverse quantization unit 1502 inversely quantizes the quantized data 1551 and outputs inversely quantized data.
- the inverse frequency transform unit 1503 performs inverse frequency transform on the inversely quantized data and outputs difference block data 1552.
- the adder 1504 adds difference block data 1552 and a predicted image block 1556 described later, and outputs a decoded image 1553.
- the decoded image 1553 is output from the image decoding device 1500 and stored in the frame memory 1505.
- the edge information acquisition unit 1506 outputs edge information 1557 for the image read from the frame memory 1505.
- the intra prediction unit 1507 generates an intra prediction image from the reference image 1554 read from the frame memory 1505 when the encoding mode information 1555 acquired from the variable length decoding unit 1501 is the intra prediction encoding mode.
- the predicted image block 1556 is output to the adder 1504.
- the inter-screen prediction unit 1508 generates an inter-screen prediction image from the reference image 1554 read from the frame memory 1505 when the encoding mode information 1555 acquired from the variable length decoding unit 1501 is the inter-screen prediction encoding mode.
- the predicted image block 1556 is output to the adder 1504.
- the edge information acquisition unit 1506 is the same as the operation in the first or second embodiment.
- the screen 210 in FIG. 2 is the encoding target screen and the block 201 is the encoding target block.
- the screen 210 is the decoding target screen and the block 201 is the decoding target. Replace with block.
- blocks 202 to 205 in FIG. 2 represent decoded images in the operation of the first embodiment, and can be applied to the present embodiment as they are.
- the edge straight line 220 for the decoding target block 201 is acquired, and the edge information 1557 is output.
- the screen 1400 in FIG. 14 is the encoding target screen and the block 1401 is the encoding target block.
- the screen 1400 is the decoding target screen and the block 1401 is the decoding target block.
- the intra prediction unit 1507 generates a prediction image block 1556 when the encoding mode information 1555 acquired from the variable length decoding unit 1501 is the intra prediction encoding mode.
- the intra-screen prediction unit 1507 acquires block division mode and prediction mode information from the coding mode information 1555.
- the block division mode is any one of 16 ⁇ 16 pixel size, 8 ⁇ 8 pixel size, 4 ⁇ 4 pixel size, and edge division mode.
- the prediction mode is acquired from the encoding mode information 1555 next.
- the prediction mode in this case is one of prediction modes 0 to 3 shown in FIG. Even when the block division mode is 8 ⁇ 8 pixel size or 4 ⁇ 4 pixel size, the prediction mode is acquired from the coding mode information 1555.
- the prediction mode in this case is one of prediction modes 0 to 8 shown in FIG.
- the block division mode is the edge division mode
- the shape of each sub-block of the decoding target block is obtained based on the edge information 1557 acquired by the edge information acquisition unit 1506.
- the prediction mode of each sub block is acquired from the coding mode information 1555.
- the prediction mode is any one of prediction mode 0 to prediction mode 1 shown in FIG.
- the intra-screen prediction unit 1507 generates an intra-screen prediction image corresponding to the prediction mode based on the reference image 1554 read from the frame memory 1505, and outputs it as a prediction image block 1556.
- the inter-screen prediction unit 1508 generates a prediction image block 1556 when the encoding mode information 1555 acquired from the variable length decoding unit 1501 is the inter-screen prediction encoding mode.
- the inter-screen prediction unit 1508 acquires block division mode and motion vector information from the coding mode information 1555.
- the block division mode is one of FIGS. 5 (1) to (8).
- the motion vector information of each sub-block is acquired from the encoding mode information 1555.
- the block division mode is the edge division mode of FIG. 5 (8)
- the shape of each sub-block of the decoding target block is obtained based on the edge information 1557 acquired by the edge information acquisition unit 1506.
- motion vector information of each sub block is acquired from the encoding mode information 1555.
- the inter-screen prediction unit 1508 generates an inter-screen prediction image corresponding to the prediction mode based on the reference image 1554 read from the frame memory 1505 and outputs it as a prediction image block 1556.
- FIG. 16 is a flowchart showing the decoding processing procedure for one frame in the present embodiment.
- the following processing is performed on all blocks in one frame (S1601). That is, the prediction difference is decoded by performing variable length decoding processing (S1602), inverse quantization processing (S1603), and inverse frequency transform processing (S1604) on the input stream. Subsequently, it is determined in which method (intra-screen, between screens) the target block is predictively encoded (S1605). In accordance with the determination result, an intra-screen prediction process (S1606) or an inter-screen prediction process (S1607) is executed to generate a predicted image.
- S1602 variable length decoding processing
- S1603 inverse quantization processing
- S1604 inverse frequency transform processing
- a decoded image generation process (S1608) is performed from the generated prediction image and the prediction difference generated in the inverse frequency conversion process (S1604). The above processing is performed for all the blocks in the frame (S1609), and decoding for one frame of the image is completed.
- FIG. 17 is a flowchart showing in more detail the procedure of the intra-screen prediction process (S1606) shown in FIG.
- the block division mode is the edge division mode (S1701).
- the edge division mode when S1701 is YES
- the block division process (S1702) based on the edge information is performed, and the screen is obtained from the coding mode information decoded in the variable length decoding process (S1602) of FIG.
- the intra prediction mode is acquired (S1703).
- the block division mode is acquired from the coding mode information decoded in the variable length decoding process (S1602) of FIG. 16 (S1704).
- the in-screen prediction mode is acquired (S1705).
- an intra-screen prediction image generation process (S1706) is performed from the block division mode and the intra-screen prediction mode acquired by any of the above methods, and the intra-screen prediction image generation process ends.
- FIG. 18 is a flowchart showing in more detail the procedure of the inter-screen prediction process (S1607) shown in FIG.
- the block division mode is the edge division mode (S1801).
- the edge division mode when S1801 is YES
- block division processing S1802 based on edge information is performed, and motion is performed from the coding mode information decoded in the variable length decoding processing (S1602) of FIG.
- a vector is acquired (S1803).
- the block division mode is acquired from the coding mode information decoded in the variable length decoding process (S1602) of FIG. 16 (S1804).
- a motion vector is acquired (S1805).
- the inter-screen prediction image generation process (S1806) is performed from the block division mode and the motion vector information acquired by any of the above methods, and the inter-screen prediction image generation process ends.
- the decoding target block is converted into a trapezoidal or triangular shape based on the edge information 1557 output from the edge information acquisition unit 1506.
- the prediction image corresponding to each sub-block is generated by dividing into sub-blocks including the shape.
- the image decoding apparatus can perform decoding only by knowing that the block division method of the decoding target block is the edge division mode.
- the image decoding apparatus is the same as that for encoding an input stream that is encoded by dividing an input image into first blocks and then dividing the input image into a plurality of second blocks.
- the division shape of the second block is determined based on the edge information of the decoded block adjacent in the same screen as the first block, and decoding is performed.
- the division shape of the second block is determined based on the edge information of the block at the same spatial position in the encoded screen adjacent to the first block in the time direction and decoded. Is.
- the block is divided based on the edge information.
- the same effect can be obtained by extracting an image feature portion having a large code amount and dividing the block based on this.
- DESCRIPTION OF SYMBOLS 100 ... Image coding apparatus 101 ... 1st block division part 102 ... Subtractor 103 ... Frequency conversion part 104 ... Quantization part 105 ... Variable length coding part 106 ... Inverse quantization part 107 ... Inverse frequency conversion part 108 ... Addition 109: Frame memory 110 ... Edge information acquisition unit 111 ... Second block division unit 112 ... Intra-screen prediction unit 113 ... Inter-screen prediction unit 114 ... Coding mode selection unit 1500 ... Image decoding device 1501 ... Variable length decoding Unit 1502 ... Inverse quantization unit 1503 ... Inverse frequency conversion unit 1504 ... Adder 1505 ... Frame memory 1506 ... Edge information acquisition unit 1507 ... In-screen prediction unit 1508 ... Inter-screen prediction unit.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本発明は、高画質で符号化効率の良い符号化技術及び復号化技術に関する。 The present invention relates to an encoding technique and a decoding technique with high image quality and good encoding efficiency.
TV信号などの動画像データを高能率に符号化して記録あるいは伝送する手法としてMPEG(Moving Picture Experts Group)方式等の符号化方式が策定され、MPEG-1規格、MPEG-2規格、MPEG-4規格等として国際標準の符号化方式となっている。また、さらに圧縮率を向上させる方式として、H.264/AVC(Advanced Video Coding)規格等が定められている。MPEG符号化方式では1画面(1フレーム)をマクロブロック(16画素×16ライン)単位に分割して、それぞれのブロックについて画面内または画面間の相関を利用した予測符号化を行う。H.264/AVC方式では、マクロブロックをさらに16×8、8×16、8×8、8×4、4×8、4×4の小ブロックに分割するモードを有しており、MPEG-1、MPEG-2と比べて符号化を行う際のブロックについて分割種別を増やすことにより予測精度を向上し、高い圧縮率を実現している。 Coding methods such as MPEG (Moving Picture Experts Group) system have been established as a technique for coding and recording or transmitting moving picture data such as TV signals with high efficiency. MPEG-1 standard, MPEG-2 standard, MPEG-4 It is an international standard encoding method as a standard. As a method for further improving the compression ratio, H. The H.264 / AVC (Advanced Video Video Coding) standard is defined. In the MPEG encoding method, one screen (one frame) is divided into units of macroblocks (16 pixels × 16 lines), and predictive encoding using correlation within the screen or between the screens is performed for each block. H. In the H.264 / AVC format, a macroblock is further divided into 16 × 8, 8 × 16, 8 × 8, 8 × 4, 4 × 8, and 4 × 4 small blocks. Compared with MPEG-2, the prediction accuracy is improved by increasing the number of division types for blocks when encoding, and a high compression rate is realized.
ブロック分割の技術に関し、例えば特許文献1には、入力画像をM×Nサイズの第1のブロックに分割し、さらに第1のブロックをm×nサイズの第2のブロックに分割し、第2のブロックの画像から抽出した特徴情報に基づいて第1のブロックの分割形状を決定することが記載されている。
Regarding block division technology, for example,
符号化対象の画像内にエッジなどの特徴的部分が存在すると、それを含むブロックの符号量が増大することになる。特許文献1に記載される技術によれば、例えば第2のブロックの特徴情報としてエッジの有無を検出し、エッジが存在すれば第2のブロックの形状に分割し、エッジが存在しなければ分割せず第1のブロックの形状のままとするものである。すなわちエッジの存在しない領域を大きなサイズのブロックとして扱うことで、符号量の削減を行うことができる。しかしながら、特許文献1に記載された技術ではブロックの分割方法が矩形形状に限定されているため、例えば斜め方向のエッジを含む画像においては必ずしも精度よく予測を行うことができず、復号化後の画質が低くなる、あるいは符号量が多くなるという課題がある。これは、従来の各MPEG方式に共通する課題でもある。
If there is a characteristic part such as an edge in the image to be encoded, the code amount of the block including it will increase. According to the technique described in
本発明は上記課題を鑑みてなされたものであり、その目的は、エッジのような画像特徴部分に対して好適にブロックを分割することで、高画質で符号化効率の良い符号化技術及び復号化技術を提供することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to divide a block suitably for an image feature portion such as an edge, thereby enabling high-quality and efficient encoding technology and decoding. It is to provide the technology.
本発明は、入力画像に対し、複数の符号化モードを用いて生成された予測画像との差分画像を符号化する画像符号化装置において、入力画像を所定サイズの第1のブロックに分割する第1のブロック分割部と、前記第1のブロックを更に複数の第2のブロックに分割する第2のブロック分割部と、前記第1のブロックまたは前記第2のブロックに対し、前記複数の符号化モードの中から1つの符号化モードを選択し、画面内予測または画面間予測により予測画像を生成する予測画像生成部と、前記予測画像と前記入力画像の差分画像を算出する減算部と、前記差分画像に対して周波数変換処理と量子化処理と可変長符号化処理を行い符号化ストリームを生成する符号化ストリーム生成部とを備え、前記第2のブロック分割部は、前記第1のブロックと同一画面内で隣接する符号化済みのブロックのエッジ情報に基づき前記第2のブロックのブロック形状を決定する。 The present invention relates to an image encoding apparatus that encodes a difference image between a prediction image generated using a plurality of encoding modes and an input image divided into first blocks of a predetermined size. One block division unit, a second block division unit that further divides the first block into a plurality of second blocks, and the plurality of encodings for the first block or the second block One encoding mode is selected from among the modes, a prediction image generation unit that generates a prediction image by intra prediction or inter prediction, a subtraction unit that calculates a difference image between the prediction image and the input image, An encoded stream generation unit configured to generate an encoded stream by performing a frequency conversion process, a quantization process, and a variable-length encoding process on the difference image, and the second block dividing unit includes the first block dividing unit Based on the rock and the edge information of encoded adjacent blocks in the same screen to determine the block shape of the second block.
本発明は、入力画像に対し、複数の符号化モードを用いて生成された予測画像との差分画像を符号化する画像符号化方法において、入力画像を所定サイズの第1のブロックに分割する第1のブロック分割ステップと、前記第1のブロックを、更に複数の第2のブロックに分割する第2のブロック分割ステップと、前記第1のブロックまたは第2のブロックに対し、前記複数の符号化モードの中から1つの符号化モードを選択し、画面内予測または画面間予測により予測画像を生成する予測画像生成ステップと、前記予測画像と前記入力画像の差分画像を算出する減算ステップと、前記差分画像に対して周波数変換処理と量子化処理と可変長符号化処理を行い符号化ストリームを生成する符号化ストリーム生成ステップとを備え、前記第2のブロック分割ステップは、前記第1のブロックと同一画面内で隣接する符号化済みのブロックのエッジ情報に基づき前記第2のブロックのブロック形状を決定する。 The present invention relates to an image coding method for coding a difference image between a prediction image generated using a plurality of coding modes and a first block having a predetermined size. One block dividing step, a second block dividing step for further dividing the first block into a plurality of second blocks, and the plurality of encodings for the first block or the second block One encoding mode is selected from among the modes, a prediction image generation step of generating a prediction image by intra prediction or inter prediction, a subtraction step of calculating a difference image of the prediction image and the input image, An encoded stream generation step of generating an encoded stream by performing a frequency conversion process, a quantization process, and a variable-length encoding process on the difference image, Lock dividing step determines the block shape of the second blocks based on the first block and the edge information of encoded adjacent blocks in the same screen.
本発明は、符号化ストリームを復号化して復号画像を生成する画像復号化装置において、前記符号化ストリームに対して可変長復号化処理と逆量子化処理と逆周波数変換処理を行い差分画像を生成する差分画像復号化部と、前記符号化ストリームに含まれる符号化モード情報に従い復号化するブロックに分割し、画面内予測または画面間予測により予測画像を生成する予測画像生成部と、前記予測画像と前記差分画像を加算して復号画像を生成する加算部とを備え、前記予測画像生成部は、復号化対象ブロックと同一画面内で隣接する復号化済みのブロックのエッジ情報に基づき前記復号化対象ブロックのブロック形状を決定する。 The present invention provides an image decoding apparatus that generates a decoded image by decoding an encoded stream, and generates a differential image by performing variable length decoding processing, inverse quantization processing, and inverse frequency transform processing on the encoded stream. A difference image decoding unit, a prediction image generation unit that divides the block into blocks to be decoded according to the encoding mode information included in the encoded stream, and generates a prediction image by intra prediction or inter prediction, and the prediction image And an addition unit that generates the decoded image by adding the difference image, and the prediction image generation unit performs the decoding based on edge information of a decoded block adjacent to the decoding target block in the same screen. The block shape of the target block is determined.
本発明は、符号化ストリームを復号化して復号画像を生成する画像復号化方法において、前記符号化ストリームに対して可変長復号化処理と逆量子化処理と逆周波数変換処理を行い差分画像を生成する差分画像復号化ステップと、前記符号化ストリームに含まれる符号化モード情報に従い復号化するブロックに分割し、画面内予測または画面間予測により予測画像を生成する予測画像生成ステップと、前記予測画像と前記差分画像を加算して復号画像を生成する加算ステップとを備え、前記予測画像生成ステップは、復号化対象ブロックと同一画面内で隣接する復号化済みのブロックのエッジ情報に基づき前記復号化対象ブロックのブロック形状を決定する。 The present invention provides an image decoding method for generating a decoded image by decoding an encoded stream, and generating a differential image by performing variable length decoding processing, inverse quantization processing, and inverse frequency transform processing on the encoded stream. A differential image decoding step, a prediction image generation step of dividing the block into blocks to be decoded according to the encoding mode information included in the encoded stream, and generating a prediction image by intra prediction or inter prediction, and the prediction image And an addition step of adding the difference image to generate a decoded image, wherein the predicted image generation step is based on edge information of a decoded block adjacent to the decoding target block in the same screen. The block shape of the target block is determined.
本発明によれば、高画質で符号化効率の良い画像符号化装置、画像復号化装置及びその方法を提供できる。 According to the present invention, it is possible to provide an image encoding device, an image decoding device, and a method thereof with high image quality and good encoding efficiency.
以下、本発明の実施例を画像符号化装置と画像復号化装置に分けて説明する。 Hereinafter, embodiments of the present invention will be described separately for an image encoding device and an image decoding device.
図1は、本発明の画像符号化装置の一実施例(実施例1)を示す構成ブロック図である。
画像符号化装置100において、第1のブロック分割部101は、入力画像150を16×16画素で構成される第1の入力画像ブロック151に分割する。減算器102は、第1の入力画像ブロック151と、後述の符号化モード選択部114から出力される予測画像ブロック155との減算処理を行い、差分画像信号152を生成する。周波数変換部103は差分画像信号152に対して、画像ブロック毎に離散コサイン変換(Discrete Cosine Transform=DCT変換)等の周波数変換を行い、周波数変換データを出力する。量子化部104はこのデータを量子化して、量子化データ153を出力する。可変長符号化部105は、量子化データ153を可変長符号化した符号化データに、符号化モード選択部114より出力する符号化モード情報や動きベクトル等の情報157を多重して符号化ストリーム154を生成し、出力する。
FIG. 1 is a configuration block diagram showing an embodiment (Embodiment 1) of an image encoding apparatus according to the present invention.
In the
逆量子化部106は、量子化部104から出力される量子化データ153を逆量子化し、逆周波数変換部107はこれを逆周波数変換して、差分ブロックデータを出力する。加算器108は、差分ブロックデータと、符号化モード選択部114から出力される予測画像ブロック155を加算して復号画像156を生成する。フレームメモリ109は復号画像156を格納する。
The
エッジ情報取得部110は、フレームメモリ109から読み出した画像についてエッジ情報を取得する。第2のブロック分割部111は、取得されたエッジ情報に基づいて、第1のブロック分割部101から出力される入力画像ブロック151を更に細かく分割し、第2の入力画像ブロック160を出力する。エッジ情報取得部110と第2のブロック分割部111の詳細動作は後述する。
The edge
画面内予測部112は、フレームメモリ109から読み出した参照画像159から画面内予測画像を生成する。画面間予測部113は、フレームメモリ109から読み出した参照画像159から画面間予測画像を生成する。
The
符号化モード選択部114は、画面内予測部112で生成した予測画像と画面間予測部113で生成した予測画像のいずれか一方を選択し、選択した予測画像155を減算器102および加算器108に出力する。また、符号化モード選択部114で選択された符号化モードとブロック分割の情報157を可変長符号化部105に出力する。
The encoding
本実施例では、エッジ情報取得部110と第2のブロック分割部111を設けることで、入力画像ブロック151を更に細かい第2の入力画像ブロック160に分割し、画面内予測および画面間予測を行い、最適な予測画像155を作成することに特徴がある。
In this embodiment, by providing the edge
以下、エッジ情報取得部110と第2のブロック分割部111の動作について詳細に説明する。
図2は、エッジ情報取得部110の動作例を説明する図である。図2において画面210は符号化対象画面であり、第1のブロック分割部101により所定サイズ(16×16画素)の第1のブロックに分割されている。画面中の矢印210aは符号化を行うブロックの順序を示し、次に符号化を行う符号化対象ブロック201、およびエッジ情報取得のために参照する隣接ブロック202~205を拡大して示す。ここで取り上げた隣接ブロック202~205は、符号化対象ブロック201と同一画面内で隣接し符号化順序210aに従い既に符号化が完了しているブロックであり、フレームメモリ109から読み出した復号画像である。
Hereinafter, operations of the edge
FIG. 2 is a diagram for explaining an operation example of the edge
エッジ情報取得部110は、図2の隣接ブロック202~205内の符号化対象ブロック201に近接するエッジ情報算出対象画素P_edge_cal(i)(i=0~47)を選択する。そしてこれらの画素について、水平エッジ強度fh、垂直エッジ強度fvを取得し、〔数式1〕によりエッジ強度fを算出する。水平エッジ強度fh、垂直エッジ強度fvの算出方法は後述する。
The edge
次に、画素P_edge_cal(i)(i=0~47)の中から〔数式1〕で算出したエッジ強度が最大となる時の画素P_edge_cal(i0)を求める。そして、画素P_edge_cal(i0)におけるエッジ角度gを〔数式2〕により算出する。 Next, the pixel P_edge_cal (i0) when the edge intensity calculated by [Equation 1] is maximum is obtained from the pixels P_edge_cal (i) (i = 0 to 47). Then, the edge angle g at the pixel P_edge_cal (i0) is calculated by [Formula 2].
〔数式2〕で算出したエッジ角度gから、画素P_edge_cal(i0)におけるエッジ直線を〔数式3〕により算出する。なお、xi、yiは、画面左上端を原点とした時の画素P_edge_cal(i0)の水平、垂直座標とする。 From the edge angle g calculated by [Formula 2], an edge straight line at the pixel P_edge_cal (i0) is calculated by [Formula 3]. Note that x i and y i are the horizontal and vertical coordinates of the pixel P_edge_cal (i0) when the upper left corner of the screen is the origin.
次に、求めたエッジ直線の有効/無効の判定を行う。〔数式3〕で算出したエッジ直線が、図2の直線220のように符号化対象ブロック201と交差する場合は、この時の画素iの座標(xi、yi)とエッジ角度g(i)を有効とし、これらのエッジ情報を第2のブロック分割部111に出力する。
Next, the validity / invalidity of the obtained edge straight line is determined. When the edge straight line calculated by [Formula 3] intersects the
一方、〔数式3〕で算出したエッジ直線が、図2の直線230のように符号化対象ブロック201と交差しなかった場合は、この時の画素iの座標とエッジ角度を無効とする。そして、画素P_edge_cal(i)(i=0~47)の中から上記の画素を除いた中でエッジ強度fが最大となる画素を再度算出し、〔数式2〕によりエッジ角度を算出する。そして、再度求めたエッジ直線が符号化対象ブロック201と交差すれば有効とし、この時のエッジ情報を第2のブロック分割部111に出力する。このようにして、求めたエッジ直線が符号化対象ブロック201と交差するエッジ情報が見つかるまで、上記の処理を繰り返す。
On the other hand, if the edge straight line calculated by [Equation 3] does not intersect the
ここで、前記〔数式1〕におけるエッジ強度fh、fvを計算する具体的方法を示す。
図3は、エッジ強度を計算するために用いるフィルタ係数の例で、(a)はソーベルフィルタ、(b)はプレウィットフィルタである。垂直方向フィルタは、垂直エッジ強度fvを算出するために水平方向の画素値の差分を求める係数である。水平方向フィルタは、水平エッジ強度fhを算出するために垂直方向の画素値の差分を求める係数である。
Here, a specific method for calculating the edge strengths f h and f v in the above [Formula 1] will be described.
FIG. 3 is an example of filter coefficients used for calculating the edge strength. (A) is a Sobel filter, and (b) is a pre-wit filter. Vertical filter is a factor to determine the difference in the horizontal direction of the pixel values in order to calculate the vertical edge strength f v. The horizontal filter is a coefficient for obtaining a difference between pixel values in the vertical direction in order to calculate the horizontal edge strength f h .
また図4は、エッジ強度を算出するために参照する画素値を示す。Aは画素値で、i,jは画面左上端を原点とした時の水平、垂直座標を表す。画素A(i,j)が中心画素で、これに隣接する8個の画素を用いる。
例えば、(a)のソーベルフィルタを用いた時の画素A(i,j)における垂直エッジ強度fvと水平エッジ強度fhは、〔数式4〕と〔数式5〕を用いて算出する。
FIG. 4 shows pixel values that are referred to for calculating the edge strength. A is a pixel value, and i and j represent horizontal and vertical coordinates with the upper left corner of the screen as the origin. Pixel A (i, j) is the central pixel, and eight adjacent pixels are used.
For example, the vertical edge strength f v and the horizontal edge strength f h in the pixel A (i, j) when the Sobel filter of (a) is used are calculated using [Formula 4] and [Formula 5].
フィルタ係数として、(b)のプレウィットフィルタを用いる時も同様に算出する。 The same calculation is performed when the pre-witt filter of (b) is used as the filter coefficient.
以下、本実施例の動作を、画面間予測符号化と画面内予測符号化の場合に分けて説明する。
<画面間予測符号化>
画面間予測符号化を行う時の第2のブロック分割部111および画面間予測部113の動作について説明する。まず、第2のブロック分割部111の動作から説明する。
Hereinafter, the operation of the present embodiment will be described separately for the case of inter-screen prediction encoding and intra-screen prediction encoding.
<Inter prediction encoding>
The operation of the second
図5は、第2のブロック分割部111によるブロック分割のモードを示す図である。H.264/AVCにおいて画面間予測を行う場合、図5(1)~(7)に示すように、16×16画素のモード、16×8モード、8×16モード、8×8モードの4通りの分割、および8×8に分割した場合の計4ブロックについて、それぞれ独立に8×8モード、8×4モード、4×8モード、4×4モードの4通りに分割が可能であり、合計7通りの分割モードが設けられている。このうち(1)の16×16モードでは、図1における第1の入力画像ブロック151がそのままのサイズ(16×16)で画面間予測部113に出力される。それ以外のモード、例えば(2)の16×8モードでは、第2のブロック分割部111にて第1の入力画像ブロック151を16×8サイズの2つのブロックに分割して画面間予測部113に出力する。以下では、第2のブロック分割部111で分割された後のブロックをサブブロックと呼ぶ。
FIG. 5 is a diagram showing a mode of block division by the second
本実施例では、第2のブロック分割部111は上記7通りのブロック分割モードに加え、エッジ情報取得部110で取得したエッジ情報に基づき、第1の入力画像ブロック151を分割する新たなモードを設ける。以下、このモードを「エッジ分割モード(edge_base division)」と呼ぶ。例えば、エッジ情報が図2の直線220で示される場合は、図5(8)に示すエッジ分割モードを設けるものである。すなわち、新しいエッジ分割モードでは、エッジ情報に対応する分割線220aに沿って、符号化対象ブロックを2つのサブブロック0,1に分割する。分割線220aはエッジ情報に従い決まるものであるから、ブロック内の任意の位置で、任意の傾きをとりえる。すなわち、2つのサブブロックの形状は矩形だけでなく台形や三角形などを含み、互いに異なる形状となることを許容する。また、符号化対象ブロック201内のすべての画素は、サブブロック0またはサブブロック1のいずれか一方のみに属し、両方のサブブロックに属する画素、またはいずれのサブブロックにも属さない画素はないこととする。
In this embodiment, the second
次に、画面間予測部113の動作について説明する。
画面間予測符号化とは、すでに符号化済みの参照画面内の参照画像ブロックを参照し、符号化対象画像との差分を符号化する手法である。H.264/AVCでは、符号化モードを切り替える単位としてIスライス、Pスライス、Bスライスの3種類のスライスを用いており、このうちPスライスおよびBスライスにおいては画面間予測符号化を行うことが可能である。Pスライスでは、符号化済みである時間軸上で過去の画面から参照画像ブロック1つを参照して動き補償画面間予測符号化を行う。またBスライスでは、左記に加えて同様にすでに符号化済みである時間軸上の過去の画面または未来の画面の中から任意の組み合わせで2つの参照画像ブロックを参照して動き補償画面間予測符号化を行う。
Next, the operation of the
Inter-screen predictive encoding is a technique of referring to a reference image block in a reference screen that has already been encoded and encoding a difference from the encoding target image. H. In H.264 / AVC, three types of slices, ie, an I slice, a P slice, and a B slice, are used as a unit for switching the coding mode, and inter-frame predictive coding can be performed in the P slice and the B slice. is there. In the P slice, motion compensation inter-screen prediction encoding is performed with reference to one reference image block from a past screen on the encoded time axis. In addition, in the B slice, in addition to the left, similarly, the motion-compensated inter-prediction code is referred by referring to two reference image blocks in any combination from the past screen or the future screen on the time axis that has already been encoded. To do.
図6は、画面間予測の動作例を示す図であり、(a)はブロック分割モードが16×8モードの場合、(b)はエッジ分割モードの場合である。
図6(a)はブロック分割モード=16×8モードの場合であって、画面600は符号化対象画面を、画面610は符号化対象画面600に対して時間軸上で過去の参照画面を、画面620は符号化対象画面600に対して時間軸上で未来の参照画面を示す。符号化対象画面600における符号化対象ブロック601は、16×8サイズ(矩形)の2つのサブブロック602、603で構成される。
FIGS. 6A and 6B are diagrams illustrating an example of the operation of inter-screen prediction. FIG. 6A illustrates a case where the block division mode is the 16 × 8 mode, and FIG.
FIG. 6A shows the case of the block division mode = 16 × 8 mode, where the
符号化対象画面600がPスライスの時、時間軸上で過去の参照画面610の中からサブブロック602、603と類似した領域(16×8サイズ)を探索して予測画像とする。画像間の類似度計算には、例えば二乗誤差和や差分誤差和を用いる。ここでは、サブブロック602、603の予測画像として、ブロック612、613を選んでいる。一方符号化対象画面600がBスライスの時は、サブブロック602、603の予測画像として、上記ブロック612、613に加えて、時間軸上で未来の参照画面620の中からブロック622、623を選んでいる。そして、過去と未来の2つのブロックを参照して、その平均値となる画像を予測画像とすることが可能である。
When the
図6(b)は、本実施例により追加するエッジ分割モードの場合である。画面650は符号化対象画面を、画面660は符号化対象画面650に対して時間軸上で過去の参照画面を、画面670は符号化対象画面650に対して時間軸上で未来の参照画面を示す。符号化対象画面650における符号化対象ブロック651は、エッジ分割による例えば台形状の2つのサブブロック652、653で構成される。
FIG. 6B shows the case of the edge division mode added according to this embodiment. The
符号化対象画面650がPスライスの時、サブブロック652、653は時間軸上で過去の参照画面660の中から参照画像としてブロック662、663を選ぶ。これらのブロック662、663は、サブブロック652、653のそれぞれの分割形状(ここでは台形)と同一形状を有する領域である。一方符号化対象画面650がBスライスの時、サブブロック652、653は上記ブロック662、663に加えて、時間軸上で未来の参照画面670の中から参照画像としてブロック672、673を選んでいる。これらのブロック672、673も、サブブロック652、653のそれぞれの分割形状と同一形状の領域である。そして、過去と未来の2つのブロックを参照して、その平均値となる画像を参照画像とすることが可能である。
以上のように、本実施例で追加したエッジ分割モードの場合の画面間予測は、サブブロックの形状が異なるものの、従来の矩形形状のブロック分割モードの場合と同様に行うことができる。
When the
As described above, inter-screen prediction in the edge division mode added in the present embodiment can be performed in the same manner as in the conventional rectangular block division mode, although the shape of the sub-block is different.
画面間予測部113は、図5(1)~(8)による各ブロック分割モードによる画面間予測の中から最も符号化効率の高くなるブロック分割モードを選択する。ブロック分割モードを選択する際の評価方法としては、例えば、符号化による画質歪みと符号量の関係から最適なモードを選択するRD-Optimization方式を利用する。RD-Optimizationの詳細については次の参考文献1に記載されている。
〔参考文献1〕G. Sullivan and T. Wiegand:”Rate-Distortion Optimization for Video Compression”, IEEE Signal Processing Magazine, vol.15 no.6, pp.74-90, 1998.
The
[Reference 1] G. Sullivan and T. Wiegand: “Rate-Distortion Optimization for Video Compression”, IEEE Signal Processing Magazine, vol.15 no.6, pp.74-90, 1998.
図7と図8は、画面間予測符号化におけるエッジ分割モードの効果を具体的に説明する図である。
図7(b)に示す画面700は符号化対象画面であり、ここではPスライスとする。図7(a)に示す画面710は符号化対象画面700に対して時間軸上で過去の参照画面である。符号化対象画面700において、ブロック701は符号化対象ブロックを、ブロック702~705は符号化対象ブロック701に隣接する符号化済みのブロックを示す。図8は、図7(b)におけるブロック701~705を拡大して示したものである。これらの画面では、静止する建物751と移動する自動車752(752’)を含む画像を例とする。
FIG. 7 and FIG. 8 are diagrams for specifically explaining the effect of the edge division mode in inter-screen predictive coding.
A
図7(b)の符号化対象ブロック701は、背景の建物751と移動する自動車752の双方の一部分が混在する画像であり、建物と自動車の境界(エッジ)は斜め方向となっている。ブロック701と(a)の参照画像710との相関を考える。ブロック701内の建物の部分は静止画像であるため、参照画像710の建物751内の同一空間位置のブロック711と最も良く一致する。一方、自動車の部分は動画像であり、参照画像710の自動車752’内の対応する位置のブロック712(すなわち2つの画面で自動車の動き量だけずらした位置の画像712)と最も良く一致する。ここで、建物と自動車の境界は斜め方向となっているため、従来のH.264/AVCにおける画面間予測時のどのブロック分割方法(図5(1)~(7))を選択しても、サブブロック内に建物と自動車が混在してしまい、符号化対象画像と予測画像の差分、即ち予測誤差を十分に小さくすることができなかった。
7B is an image in which a part of both the
これに対し本実施例によるエッジ分割モードを用いた場合、図2で示した方法により符号化済みの隣接ブロック(ここではブロック702)から背景の建物と前景の自動車との境界(エッジ直線)800を抽出する。このエッジ直線800に沿って、符号化対象ブロック701を台形の形状をした2つのサブブロック801、802に分割する。すなわち建物はサブブロック801に、自動車はサブブロック802に含まれるように分割することで、建物と自動車の両方が混在するサブブロックはなくなる。そして、サブブロック801は参照画面710におけるブロック711を参照して予測画像を生成する。サブブロック802はブロック712を参照して予測画像を生成する。本実施例によれば、建物と自動車の両方が混在するサブブロックが存在しないので、従来のH.264/AVCにおける画面間予測よりも予測誤差を削減することが可能となる。
In contrast, when the edge division mode according to the present embodiment is used, the boundary (edge straight line) 800 between the background building and the foreground car from the adjacent block (block 702 in this case) encoded by the method shown in FIG. To extract. The
<画面内予測符号化>
次に、画面内予測符号化を行う時の第2のブロック分割部111および画面内予測部112の動作について説明する。
<Intra-screen predictive coding>
Next, operations of the second
図9は、H.264/AVCにおける従来の画面内予測の動作を示したものである。ここでは、画面内予測符号化を行う際のブロックサイズが4×4画素単位の場合を示す。H.264/AVCにおける画面内予測では、符号化対象ブロックの左、左上、上、右上に隣接する符号化済みの4個のブロックにおける合計13個の復号化画素を用いて予測を行う。予測には、図9(1)、(2)、(4)~(9)に示すように、上記13個の復号画素を矢印の方向に伸ばして予測画像を生成するモードと、図9(3)に示すように、隣接する復号画素の平均値から予測画像を生成するモードが存在する。これら合計9種類の予測モード(モード0~モード8)の中からいずれか1つのモードを選択する。なお、画面内予測符号化を行う際のブロックサイズは、上記以外に8×8画素単位の場合と16×16画素単位の場合が設けられている。8×8画素単位の場合の予測モードは図9と同じく9通りであり、図9の符号化対象ブロックを4×4から8×8に拡張した動作に相当する。
FIG. 2 shows a conventional intra-screen prediction operation in H.264 / AVC. Here, a case where the block size when performing intra prediction encoding is 4 × 4 pixel units is shown. H. In intra-frame prediction in H.264 / AVC, prediction is performed using a total of 13 decoded pixels in four encoded blocks adjacent to the left, upper left, upper, and upper right of the encoding target block. For prediction, as shown in FIGS. 9 (1), (2), (4) to (9), a mode for generating a predicted image by extending the 13 decoded pixels in the direction of the arrow, and FIG. As shown in 3), there is a mode for generating a predicted image from the average value of adjacent decoded pixels. Any one of these nine types of prediction modes (
一方図10は、16×16画素単位で画面内予測符号化を行う場合の動作を示したものである。16×16画素単位の場合も4×4画素単位と同様、符号化対象ブロックに隣接する復号画素を矢印の方向に伸ばして予測画像を生成するものであり、図10に示す4種類のモード(モード0~モード3)からいずれか1つのモードを選択する。
On the other hand, FIG. 10 shows an operation in the case of performing intra prediction encoding in units of 16 × 16 pixels. In the case of 16 × 16 pixel units, similarly to the 4 × 4 pixel unit, the decoded pixels adjacent to the block to be encoded are extended in the direction of the arrow to generate a predicted image. One of the
従来のH.264/AVCに対応する動作として、第2のブロック分割部111は画面内予測時に、第1の入力画像ブロック151を3通りのサイズ(16×16画素サイズ、8×8画素サイズ、4×4画素サイズ)のいずれかのサブブロックに分割する処理を行う。また、画面内予測部112は、図9に示す9種類のモード、または図10に示す4種類のモードの中からいずれか1つのモードを選択する処理を行う。
Conventional H.264 As an operation corresponding to H.264 / AVC, the second
本実施例において第2のブロック分割部111は、上記3通りのブロック分割モード(16×16画素サイズ、8×8画素サイズ、4×4画素サイズ)に加え、エッジ情報取得部110で算出したエッジ情報によって第1の入力画像ブロック151を分割するモード(エッジ分割モード)を新たに設ける。エッジ分割モードに関しては、前記画面間予測符号化時の場合と同様であり、ここでは説明を省略する。
In the present embodiment, the second
次に、エッジ分割モードにより分割したサブブロックに対する画面内予測符号化の動作について説明する。
図11は、エッジ分割モードによる画面内予測の動作を示したものである。
図11(a)は、エッジ情報取得部110で算出したエッジ情報に基づき、第2のブロック分割部111により、第1の入力画像ブロック151(符号化対象ブロック)をサブブロック1101とサブブロック1102に分割した例を示す。そして画面内予測部112により、分割したサブブロックそれぞれに対して画面内予測を行う。予測モードとして、図10に示した予測モード0と予測モード1のいずれかのモードを適用する。
Next, the operation of intra prediction encoding for subblocks divided in the edge division mode will be described.
FIG. 11 shows the operation of intra prediction in the edge division mode.
In FIG. 11A, based on the edge information calculated by the edge
図11(b)(c)は、サブブロック1101に対する画面内予測動作を示す。サブブロック1101は、上および左に符号化済みのブロックと隣接しているため、符号化済みの上ブロックからの予測(予測モード0)と、符号化済みの左ブロックからの予測(予測モード1)のいずれかを選択する。(b)はサブブロック1101に対して予測モード0を適用した場合である。これは前記図10(1)と類似するが、図10では符号化対象ブロック全体に対して予測を適用させているのに対して、図11(b)ではサブブロック1101に対してのみ予測を適用させる点が異なる。
11B and 11C show the intra-screen prediction operation for the sub-block 1101. FIG. Since the sub-block 1101 is adjacent to the upper and left encoded blocks, the prediction from the encoded upper block (prediction mode 0) and the prediction from the encoded left block (prediction mode 1) ) (B) is a case where the
図11(c)はサブブロック1101に対して予測モード1を適用した場合である。この場合も前記図10(2)と類似するが、図11(c)ではサブブロック1101に対してのみ予測を適用させる点が異なる。ここで、図11(c)における画素群1104はサブブロック1101に接しておらず、画素群1104の位置に該当する復号画像をそのまま予測画像として用いた場合は予測誤差が大きくなることが予想される。これを避けるため、画素群1104およびサブブロック1101の両方に接する画素1103の値を画素群1104に複写した後に、予測画像として用いるのが有効である。
FIG. 11C shows the case where the
図11(d)はサブブロック1102に対して予測モード1を適用した場合である。サブブロック1102は符号化済みの上ブロックと隣接しておらず、左ブロックのみと隣接しているため、この例にて適用可能な予測モードは予測モード1のみとなる。
FIG. 11D shows the case where the
図12と図13は、画面内予測符号化におけるエッジ分割モードの効果を具体的に説明する図である。
図12において画面1200は符号化対象画面を、ブロック1201は符号化対象ブロックを、ブロック1202~1205は符号化対象ブロック1201に隣接する符号化済みのブロックを示す。
FIGS. 12 and 13 are diagrams for specifically explaining the effect of the edge division mode in the intra prediction encoding.
In FIG. 12, a
また図13は、ブロック1201~1205を拡大して示したものである。符号化対象ブロック1201は建物1251と自動車1252の一部が混在するブロックであり、建物と自動車の境界が斜め方向となっているため、従来のH.264/AVCにおける画面内予測時のブロック分割モードおよび予測モード(図9(1)~(9)、図10(1)~(4))では、予測誤差を十分に小さくすることができなかった。一方、本実施例におけるエッジ分割モードを用いた場合、符号化済みの隣接ブロック1202において建物と自動車とのエッジ直線1300を図2で示した方法により算出する。そして、このエッジ直線1300により符号化対象ブロック1201を台形状のサブブロック1301とサブブロック1302に分割することが可能である。サブブロック1301に対しては図11(b)または図11(c)に示す予測モードで、例えば隣接ブロック1203を参照して予測画像を生成する。サブブロック1302に対しては図11(d)に示す予測モードで、隣接ブロック1202を参照して予測画像を生成する。これより、従来のH.264/AVCにおける画面内予測よりも予測誤差を削減することが可能となる。
以上の結果、画面内予測部112で生成した画面内予測画像と画面間予測部113で生成した画面間予測画像が得られ、両者は符号化モード選択部114に入力する。
FIG. 13 is an enlarged view of
As a result, the intra-screen prediction image generated by the
符号化モード選択部114は、入力した画面内予測画像と画面間予測画像から最適な予測画像を選択する。選択方法として、例えば前記参考文献1に記載のRD-Optimization方式を用いる。符号化モード選択部114が画面内予測画像を選択した場合には、符号化モードの情報157として、ブロック分割方法(16×16画素ブロック、8×8画素ブロック、4×4画素ブロック、エッジ分割モード)の情報を可変長符号化部105に出力する。その際、ブロック分割方法が16×16画素ブロック、8×8画素ブロック、4×4画素ブロックのいずれかの時には、図9または図10に記載の予測モードの情報を含める。一方、符号化モード選択部114で画面間予測画像を選択した場合には、符号化モードの情報157として、ブロック分割方法(図5(1)~(8))および動きベクトル情報を可変長符号化部105に出力する。
The encoding
このように、本実施例におけるサブブロックの分割方法は従来のH.264/AVCにおけるブロック分割方法と比較して、分割形状の種類(台形や三角形)とサイズの自由度が増すために符号化する画像のエッジに合わせて最適な分割が可能となり、予測誤差を削減する効果がある。また、本実施例ではブロック分割方法の追加に伴うモード数の増加は1つのみであり、符号量増加への影響を最低限にとどめることが可能である。本実施例で追加するエッジ分割モードの形状は固定パターンではなく、隣接ブロックのエッジの特徴により導き出すものである。これは、画像の空間方向への相関の強さ、すなわち画像の特徴が空間方向に類似する性質を応用してブロック分割方法を決定するものであり、予測誤差を削減することが可能となる。 Thus, the sub-block division method in this embodiment is the conventional H.264 standard. Compared with the block division method in H.264 / AVC, the types of division shapes (trapezoids and triangles) and the degree of freedom of size increase, so that optimum division can be performed according to the edge of the image to be encoded, and prediction errors are reduced. There is an effect to. Further, in this embodiment, the number of modes increases with the addition of the block division method is only one, and the influence on the increase in code amount can be minimized. The shape of the edge division mode added in the present embodiment is not a fixed pattern, but derived from the feature of the edge of the adjacent block. This is to determine the block division method by applying the strength of the correlation in the spatial direction of the image, that is, the property that the feature of the image is similar to the spatial direction, and it is possible to reduce the prediction error.
以上のように実施例1の画像符号化装置では、入力画像を第1のブロックに分割し更に複数の第2のブロックに分割して符号化を行う符号化装置において、第1のブロックと同一画面内で隣接する符号化済みのブロックのエッジ情報に基づき第2のブロックのブロック形状を決定するものであり、これにより予測誤差を削減し、高画質で符号化効率の良い画像符号化を実現することが可能となる。上記実施例ではエッジ情報に基づきブロックを分割したが、符号量が大きくなる画像特徴部分を抽出しこれに基づきブロックを分割するようにしても同様の効果が得られる。 As described above, in the image coding apparatus according to the first embodiment, in the coding apparatus that divides an input image into first blocks and further divides the input image into a plurality of second blocks, the same as the first block. The block shape of the second block is determined based on the edge information of the encoded block adjacent in the screen, thereby reducing the prediction error and realizing image coding with high image quality and good coding efficiency. It becomes possible to do. In the above embodiment, the block is divided based on the edge information. However, the same effect can be obtained by extracting an image feature portion having a large code amount and dividing the block based on this.
実施例2では、エッジ情報に基づきブロック分割する際、前記実施例1と異なる方法でエッジ情報を取得する場合を述べる。なお、実施例2の画像符号化装置は、実施例1(図1)の構成と同一のため、その説明は割愛する。実施例1では、図1のエッジ情報取得部110において、図2に示すように符号化対象ブロックと同一画面内で隣接する復号画像ブロックを用いてエッジ情報を算出する処理を行うものであった。これに対し実施例2では、エッジ情報取得部110は符号化対象ブロックに対して時間方向に隣接する符号化済み画面内で同一空間位置のブロックのエッジ情報を算出するものである。
図14は、エッジ情報取得部110の動作例を説明する図である。図14において画面1400は符号化対象画面を、画面1410は符号化対象画面1400より時間的に先行する符号化済みの画面で、これを復号化した復号画像画面である。また符号化対象画面1400において、ブロック1401は符号化対象ブロックを示す。ブロック1411は復号画像画面1410において、ブロック1401と画面内の空間位置が同一となるブロックを示す。
FIG. 14 is a diagram for explaining an operation example of the edge
エッジ情報取得部110は、図14のブロック1411のうち、画素P_edge_cal2(i)(i=0~224)について水平エッジ強度fh、垂直エッジ強度fvを取得し、実施例1における〔数式1〕によりエッジ強度fを算出する。次に、画素P_edge_cal2(i)(i=0~224)の中から〔数式1〕で算出したエッジ強度fが最大となる画素P_edge_cal2(i1)を抽出し、実施例1における〔数式2〕により、その画素P_edge_cal2(i1)におけるエッジ角度gを算出する。次に、〔数式2〕で算出したエッジ角度gから、実施例1における〔数式3〕により画素P_edge_cal2(i1)におけるエッジ直線を算出する。〔数式3〕により算出したエッジ直線の情報を符号化対象ブロック1401に適用し、サブブロックに分割するものである。
The edge
本実施例におけるサブブロックの分割方法は、実施例1と同様、従来のH.264/AVCにおけるブロック分割方法と比較して分割形状の種類(台形や三角形)とサイズの自由度が増すために符号化する画像のエッジ(特徴)に合わせて最適な分割が可能となり、予測誤差を削減する効果がある。また、本実施例ではブロック分割方法の追加に伴うモード数の増加は1つのみであり、符号量増加への影響を最低限にとどめることが可能である。本実施例で追加するエッジ分割モードの形状は固定パターンではなく、時間的に隣接する画面の画像特徴により導き出すものである。これは、画像の時間方向への相関の強さ、すなわち画像の特徴が時間方向に類似する性質を応用してブロック分割方法を決定するものであり、予測誤差を削減することが可能となる。 The sub-block division method in the present embodiment is the same as that in the first embodiment. Compared with the block division method in H.264 / AVC, the type of division shape (trapezoid or triangle) and the degree of freedom of size increase, so that optimum division is possible according to the edge (feature) of the image to be encoded, and prediction error There is an effect to reduce. Further, in this embodiment, the number of modes increases with the addition of the block division method is only one, and the influence on the increase in code amount can be minimized. The shape of the edge division mode added in this embodiment is not a fixed pattern, but is derived from image features of temporally adjacent screens. In this method, the block division method is determined by applying the strength of the correlation in the time direction of the image, that is, the property that the feature of the image is similar to the time direction, and the prediction error can be reduced.
以上のように、実施例2の画像符号化装置では、入力画像を第1のブロックに分割し更に複数の第2のブロックに分割して符号化を行う符号化装置において、第1のブロックに対して時間方向に隣接する符号化済み画面における同一空間位置のブロックのエッジ情報に基づき第2のブロックのブロック形状を決定するものであり、これにより予測画素を削減し、高画質で符号化効率の良い画像符号化を実現することが可能となる。上記実施例ではエッジ情報に基づきブロックを分割したが、符号量が大きくなる画像特徴部分を抽出しこれに基づきブロックを分割するようにしても同様の効果が得られる。 As described above, in the image coding apparatus according to the second embodiment, in the coding apparatus that divides an input image into first blocks and further divides the input image into a plurality of second blocks and performs coding. On the other hand, the block shape of the second block is determined based on the edge information of the block at the same spatial position in the encoded screen adjacent in the time direction, thereby reducing the prediction pixels and encoding efficiency with high image quality. It is possible to realize good image coding. In the above embodiment, the block is divided based on the edge information. However, the same effect can be obtained by extracting an image feature portion having a large code amount and dividing the block based on this.
図15は、本発明による画像復号化装置の一実施例(実施例3)を示す構成ブロック図である。
画像復号化装置1500において、可変長復号化部1501は、入力した符号化ストリーム1550に対して可変長復号化を行い、予測差分の周波数変換成分である量子化データ1551と、ブロックサイズや動きベクトルなどの予測処理に必要な符号化モード情報1555を取得する。逆量子化部1502は、量子化データ1551を逆量子化し逆量子化データを出力する。逆周波数変換部1503は、逆量子化データを逆周波数変換して差分ブロックデータ1552を出力する。加算器1504は、差分ブロックデータ1552と後述する予測画像ブロック1556を加算し、復号画像1553を出力する。復号画像1553は画像復号化装置1500から出力されるとともに、フレームメモリ1505に格納される。
FIG. 15 is a configuration block diagram showing an embodiment (third embodiment) of an image decoding apparatus according to the present invention.
In the
エッジ情報取得部1506は、フレームメモリ1505から読み出した画像についてエッジ情報1557を出力する。画面内予測部1507は、可変長復号化部1501から取得した符号化モード情報1555が画面内予測符号化モードだった場合に、フレームメモリ1505から読み出した参照画像1554により画面内予測画像を生成し、予測画像ブロック1556として加算器1504に出力する。画面間予測部1508は、可変長復号化部1501から取得した符号化モード情報1555が画面間予測符号化モードだった場合に、フレームメモリ1505から読み出した参照画像1554により画面間予測画像を生成し、予測画像ブロック1556として加算器1504に出力する。
The edge
以下、エッジ情報取得部1506と画面内予測部1507及び画面間予測部1508の動作について詳細に説明する。
エッジ情報取得部1506は実施例1または実施例2における動作と同様である。なお、実施例1では図2の画面210を符号化対象画面、ブロック201を符号化対象ブロックとしていたが、本実施例における復号動作では、画面210を復号化対象画面、ブロック201を復号化対象ブロックに読み替える。なお、図2のブロック202~205は実施例1における動作において復号画像を示しており、本実施例においてもそのまま適用することができる。これにより、復号化対象ブロック201に対するエッジ直線220を取得して、エッジ情報1557を出力する。また実施例2では図14の画面1400を符号化対象画面、ブロック1401を符号化対象ブロックとしていたが、本実施例における復号動作では、画面1400を復号化対象画面、ブロック1401を復号化対象ブロックに読み替える。
Hereinafter, operations of the edge
The edge
次に、画面内予測部1507は、可変長復号化部1501から取得した符号化モード情報1555が画面内予測符号化モードだった場合に予測画像ブロック1556を生成する。画面内予測部1507は、符号化モード情報1555からブロック分割モードと予測モードの情報を取得する。ブロック分割モードは、16×16画素サイズ、8×8画素サイズ、4×4画素サイズ、エッジ分割モード、のいずれかである。ブロック分割モードが16×16画素サイズの場合は、次に符号化モード情報1555から予測モードを取得する。この場合の予測モードは図10に示す予測モード0~予測モード3のいずれかである。ブロック分割モードが8×8画素サイズまたは4×4画素サイズの場合も、符号化モード情報1555から予測モードを取得する。この場合の予測モードは図9に示す予測モード0~予測モード8のいずれかである。
Next, the
ブロック分割モードがエッジ分割モードの場合は、エッジ情報取得部1506で取得したエッジ情報1557に基づいて、復号対象ブロックの各サブブロックの形状を求める。次に符号化モード情報1555から各サブブロックの予測モードを取得する。予測モードは図11に示す予測モード0~予測モード1のいずれかである。画面内予測部1507は、フレームメモリ1505から読み出した参照画像1554により上記の予測モードに応じた画面内予測画像を生成し、予測画像ブロック1556として出力する。
When the block division mode is the edge division mode, the shape of each sub-block of the decoding target block is obtained based on the
一方画面間予測部1508は、可変長復号化部1501から取得した符号化モード情報1555が画面間予測符号化モードだった場合に予測画像ブロック1556を生成する。画面間予測部1508は、符号化モード情報1555からブロック分割モードと動きベクトルの情報を取得する。ブロック分割モードは図5(1)~(8)のいずれかである。ブロック分割モードが図5(1)~(7)の場合は、次に符号化モード情報1555から各サブブロックの動きベクトル情報を取得する。
On the other hand, the
ブロック分割モードが図5(8)のエッジ分割モードの場合は、エッジ情報取得部1506で取得したエッジ情報1557に基づいて復号対象ブロックの各サブブロックの形状を求める。次に符号化モード情報1555から各サブブロックの動きベクトル情報を取得する。画面間予測部1508は、フレームメモリ1505から読み出した参照画像1554により上記の予測モードに応じた画面間部予測画像を生成し、予測画像ブロック1556として出力する。
When the block division mode is the edge division mode of FIG. 5 (8), the shape of each sub-block of the decoding target block is obtained based on the
図16は、本実施例における1フレームの復号化処理手順を示すフローチャートである。まず、1フレーム内のすべてのブロックに対して、以下の処理を行う(S1601)。すなわち、入力ストリームに対して可変長復号化処理(S1602)、逆量子化処理(S1603)、および逆周波数変換処理(S1604)を施して予測差分を復号化する。続いて、対象ブロックがどの方法(画面内、画面間)で予測符号化されているかを判定する(S1605)。判定の結果に従い、画面内予測処理(S1606)もしくは画面間予測処理(S1607)を実行して予測画像を生成する。生成した予測画像と逆周波数変換処理(S1604)で生成した予測差分から復号化画像生成処理(S1608)を行う。以上の処理をフレーム中のすべてのブロックに対して実施し(S1609)、画像1フレーム分の復号化が終了する。 FIG. 16 is a flowchart showing the decoding processing procedure for one frame in the present embodiment. First, the following processing is performed on all blocks in one frame (S1601). That is, the prediction difference is decoded by performing variable length decoding processing (S1602), inverse quantization processing (S1603), and inverse frequency transform processing (S1604) on the input stream. Subsequently, it is determined in which method (intra-screen, between screens) the target block is predictively encoded (S1605). In accordance with the determination result, an intra-screen prediction process (S1606) or an inter-screen prediction process (S1607) is executed to generate a predicted image. A decoded image generation process (S1608) is performed from the generated prediction image and the prediction difference generated in the inverse frequency conversion process (S1604). The above processing is performed for all the blocks in the frame (S1609), and decoding for one frame of the image is completed.
図17は、図16に示す画面内予測処理(S1606)の手順を更に詳細に示すフローチャートである。まず、ブロック分割モードがエッジ分割モードかを判定する(S1701)。エッジ分割モードである場合(S1701がYESの時)には、エッジ情報に基づくブロック分割処理(S1702)を行い、図16の可変長復号化処理(S1602)にて復号した符号化モード情報から画面内予測モードを取得する(S1703)。一方、ブロック分割モードがエッジ分割モードでない場合(S1701がNOの時)には、図16の可変長復号化処理(S1602)にて復号した符号化モード情報からブロック分割モードを取得し(S1704)、さらに画面内予測モードを取得する(S1705)。次に、上記いずれかの方法により取得したブロック分割モードと画面内予測モードから画面内予測画像生成処理(S1706)を行い、画面内予測画像の生成処理が終了する。 FIG. 17 is a flowchart showing in more detail the procedure of the intra-screen prediction process (S1606) shown in FIG. First, it is determined whether the block division mode is the edge division mode (S1701). In the edge division mode (when S1701 is YES), the block division process (S1702) based on the edge information is performed, and the screen is obtained from the coding mode information decoded in the variable length decoding process (S1602) of FIG. The intra prediction mode is acquired (S1703). On the other hand, when the block division mode is not the edge division mode (when S1701 is NO), the block division mode is acquired from the coding mode information decoded in the variable length decoding process (S1602) of FIG. 16 (S1704). Further, the in-screen prediction mode is acquired (S1705). Next, an intra-screen prediction image generation process (S1706) is performed from the block division mode and the intra-screen prediction mode acquired by any of the above methods, and the intra-screen prediction image generation process ends.
図18は、図16に示す画面間予測処理(S1607)の手順を更に詳細に示すフローチャートである。まず、ブロック分割モードがエッジ分割モードかを判定する(S1801)。エッジ分割モードである場合(S1801がYESの時)には、エッジ情報に基づくブロック分割処理(S1802)を行い、図16の可変長復号化処理(S1602)にて復号した符号化モード情報から動きベクトルを取得する(S1803)。一方、ブロック分割モードがエッジ分割モードでない場合(S1801がNOの時)には、図16の可変長復号化処理(S1602)にて復号した符号化モード情報からブロック分割モードを取得し(S1804)、さらに動きベクトルを取得する(S1805)。次に、上記いずれかの方法により取得したブロック分割モードと動きベクトル情報から画面間予測画像生成処理(S1806)を行い、画面間予測画像の生成処理が終了する。 FIG. 18 is a flowchart showing in more detail the procedure of the inter-screen prediction process (S1607) shown in FIG. First, it is determined whether the block division mode is the edge division mode (S1801). In the edge division mode (when S1801 is YES), block division processing (S1802) based on edge information is performed, and motion is performed from the coding mode information decoded in the variable length decoding processing (S1602) of FIG. A vector is acquired (S1803). On the other hand, when the block division mode is not the edge division mode (when S1801 is NO), the block division mode is acquired from the coding mode information decoded in the variable length decoding process (S1602) of FIG. 16 (S1804). Further, a motion vector is acquired (S1805). Next, the inter-screen prediction image generation process (S1806) is performed from the block division mode and the motion vector information acquired by any of the above methods, and the inter-screen prediction image generation process ends.
このように、復号対象ブロックのブロック分割モードが図5(8)に示すエッジ分割モードである場合は、エッジ情報取得部1506から出力されるエッジ情報1557に基づき、復号対象ブロックを台形や三角形の形状を含むサブブロックに分割し、各サブブロックに対応する予測画像を生成する。この場合、復号化時に取得するエッジ情報は符号化時に取得したエッジ情報と同一になるので、符号化時と同一形状のサブブロックを再度生成することができる。よって画像復号化装置は、復号対象ブロックのブロック分割方法がエッジ分割モードであることを知るだけで、復号化することができる。
As described above, when the block division mode of the decoding target block is the edge division mode shown in FIG. 5 (8), the decoding target block is converted into a trapezoidal or triangular shape based on the
以上のように、本実施例の画像復号化装置は、入力画像を第1のブロックに分割し更に複数の第2のブロックに分割して符号化された入力ストリームに対し、符号化時と同様に、第1のブロックと同一画面内で隣接する復号化済みのブロックのエッジ情報に基づき第2のブロックの分割形状を決定して復号化するものである。あるいは、符号化時と同様に、第1のブロックに対して時間方向に隣接する符号化済み画面における同一空間位置のブロックのエッジ情報に基づき第2のブロックの分割形状を決定して復号化するものである。よって、画像符号化装置での符号化処理に忠実に対応した復号化処理を行うことができ、高画質の復号画像を得ることが可能となる。上記実施例ではエッジ情報に基づきブロックを分割したが、符号量が大きくなる画像特徴部分を抽出しこれに基づきブロックを分割するようにしても同様の効果が得られる。 As described above, the image decoding apparatus according to the present embodiment is the same as that for encoding an input stream that is encoded by dividing an input image into first blocks and then dividing the input image into a plurality of second blocks. In addition, the division shape of the second block is determined based on the edge information of the decoded block adjacent in the same screen as the first block, and decoding is performed. Alternatively, as in the encoding, the division shape of the second block is determined based on the edge information of the block at the same spatial position in the encoded screen adjacent to the first block in the time direction and decoded. Is. Therefore, it is possible to perform a decoding process faithfully corresponding to the encoding process in the image encoding apparatus, and to obtain a high-quality decoded image. In the above embodiment, the block is divided based on the edge information. However, the same effect can be obtained by extracting an image feature portion having a large code amount and dividing the block based on this.
100…画像符号化装置
101…第1のブロック分割部
102…減算器
103…周波数変換部
104…量子化部
105…可変長符号化部
106…逆量子化部
107…逆周波数変換部
108…加算器
109…フレームメモリ
110…エッジ情報取得部
111…第2のブロック分割部
112…画面内予測部
113…画面間予測部
114…符号化モード選択部
1500…画像復号化装置
1501…可変長復号化部
1502…逆量子化部
1503…逆周波数変換部
1504…加算器
1505…フレームメモリ
1506…エッジ情報取得部
1507…画面内予測部
1508…画面間予測部。
DESCRIPTION OF
Claims (16)
入力画像を所定サイズの第1のブロックに分割する第1のブロック分割部と、
前記第1のブロックを更に複数の第2のブロックに分割する第2のブロック分割部と、
前記第1のブロックまたは前記第2のブロックに対し、前記複数の符号化モードの中から1つの符号化モードを選択し、画面内予測または画面間予測により予測画像を生成する予測画像生成部と、
前記予測画像と前記入力画像の差分画像を算出する減算部と、
前記差分画像に対して周波数変換処理と量子化処理と可変長符号化処理を行い符号化ストリームを生成する符号化ストリーム生成部とを備え、
前記第2のブロック分割部は、前記第1のブロックと同一画面内で隣接する符号化済みのブロックのエッジ情報に基づき前記第2のブロックのブロック形状を決定することを特徴とする画像符号化装置。 In an image encoding device that encodes a difference image with a predicted image generated using a plurality of encoding modes for an input image,
A first block dividing unit that divides an input image into first blocks of a predetermined size;
A second block dividing unit that further divides the first block into a plurality of second blocks;
A prediction image generation unit that selects one encoding mode from among the plurality of encoding modes for the first block or the second block and generates a prediction image by intra prediction or inter prediction; ,
A subtraction unit that calculates a difference image between the predicted image and the input image;
An encoded stream generation unit that generates an encoded stream by performing frequency conversion processing, quantization processing, and variable-length encoding processing on the difference image;
The second block dividing unit determines a block shape of the second block based on edge information of an encoded block adjacent to the first block in the same screen. apparatus.
入力画像を所定サイズの第1のブロックに分割する第1のブロック分割部と、
前記第1のブロックを更に複数の第2のブロックに分割する第2のブロック分割部と、
前記第1のブロックまたは前記第2のブロックに対し、前記複数の符号化モードの中から1つの符号化モードを選択し、画面内予測または画面間予測により予測画像を生成する予測画像生成部と、
前記予測画像と前記入力画像の差分画像を算出する減算部と、
前記差分画像に対して周波数変換処理と量子化処理と可変長符号化処理を行い符号化ストリームを生成する符号化ストリーム生成部とを備え、
前記第2のブロック分割部は、前記第1のブロックに対して時間方向に隣接する符号化済み画面内で同一空間位置のブロックのエッジ情報に基づき前記第2のブロックのブロック形状を決定することを特徴とする画像符号化装置。 In an image encoding device that encodes a difference image with a predicted image generated using a plurality of encoding modes for an input image,
A first block dividing unit that divides an input image into first blocks of a predetermined size;
A second block dividing unit that further divides the first block into a plurality of second blocks;
A prediction image generation unit that selects one encoding mode from among the plurality of encoding modes for the first block or the second block and generates a prediction image by intra prediction or inter prediction; ,
A subtraction unit that calculates a difference image between the predicted image and the input image;
An encoded stream generation unit that generates an encoded stream by performing frequency conversion processing, quantization processing, and variable-length encoding processing on the difference image;
The second block dividing unit determines a block shape of the second block based on edge information of a block at the same spatial position in an encoded screen adjacent to the first block in the time direction. An image encoding device characterized by the above.
前記エッジ情報として、エッジ情報取得対象画素について水平方向と垂直方向のエッジ強度を求め、エッジ強度が最大となる画素位置とエッジ角度の情報を取得するエッジ情報取得部を備えることを特徴とする画像符号化装置。 The image encoding device according to claim 1 or 2,
An image comprising an edge information acquisition unit for obtaining edge information in a horizontal direction and a vertical direction for an edge information acquisition target pixel as the edge information, and acquiring information on a pixel position and an edge angle at which the edge intensity is maximum. Encoding device.
前記符号化ストリームには、前記第2のブロックの分割方法が前記エッジ情報に基づくものであることを示す符号化モード情報を含むことを特徴とする画像符号化装置。 The image encoding device according to claim 1 or 2,
The image coding apparatus, wherein the coded stream includes coding mode information indicating that the second block division method is based on the edge information.
入力画像を所定サイズの第1のブロックに分割する第1のブロック分割ステップと、
前記第1のブロックを、該第1のブロックに隣接する符号化済みのブロックのエッジ情報に基づき更に複数の第2のブロックに分割する第2のブロック分割ステップと、
前記第1のブロックまたは前記第2のブロックに対し、前記複数の符号化モードの中から1つの符号化モードを選択し、画面内予測または画面間予測により予測画像を生成する予測画像生成ステップと、
前記予測画像と前記入力画像の差分画像を算出する減算ステップと、
前記差分画像に対して周波数変換処理と量子化処理と可変長符号化処理を行い符号化ストリームを生成する符号化ストリーム生成ステップとを備え、
前記第2のブロック分割ステップは、前記第1のブロックと同一画面内で隣接する符号化済みのブロックのエッジ情報に基づき前記第2のブロックのブロック形状を決定することを特徴とする画像符号化方法。 In an image encoding method for encoding a difference image with a predicted image generated using a plurality of encoding modes for an input image,
A first block dividing step of dividing the input image into first blocks of a predetermined size;
A second block dividing step of further dividing the first block into a plurality of second blocks based on edge information of an encoded block adjacent to the first block;
A prediction image generation step of selecting one encoding mode from among the plurality of encoding modes for the first block or the second block and generating a prediction image by intra prediction or inter prediction; ,
A subtraction step of calculating a difference image between the predicted image and the input image;
An encoded stream generating step for generating an encoded stream by performing a frequency conversion process, a quantization process, and a variable length encoding process on the difference image;
The second block dividing step determines the block shape of the second block based on edge information of an encoded block adjacent to the first block in the same screen. Method.
入力画像を所定サイズの第1のブロックに分割する第1のブロック分割ステップと、
前記第1のブロックを更に複数の第2のブロックに分割する第2のブロック分割ステップと、
前記第1のブロックまたは前記第2のブロックに対し、前記複数の符号化モードの中から1つの符号化モードを選択し、画面内予測または画面間予測により予測画像を生成する予測画像生成ステップと、
前記予測画像と前記入力画像の差分画像を算出する減算ステップと、
前記差分画像に対して周波数変換処理と量子化処理と可変長符号化処理を行い符号化ストリームを生成する符号化ストリーム生成ステップとを備え、
前記第2のブロック分割ステップは、前記第1のブロックに対して時間方向に隣接する符号化済み画面内で同一空間位置のブロックのエッジ情報に基づき前記第2のブロックのブロック形状を決定することを特徴とする画像符号化方法。 In an image encoding method for encoding a difference image with a predicted image generated using a plurality of encoding modes for an input image,
A first block dividing step of dividing the input image into first blocks of a predetermined size;
A second block dividing step of further dividing the first block into a plurality of second blocks;
A prediction image generation step of selecting one encoding mode from among the plurality of encoding modes for the first block or the second block and generating a prediction image by intra prediction or inter prediction; ,
A subtraction step of calculating a difference image between the predicted image and the input image;
An encoded stream generating step for generating an encoded stream by performing a frequency conversion process, a quantization process, and a variable length encoding process on the difference image;
The second block dividing step determines a block shape of the second block based on edge information of a block at the same spatial position in an encoded screen adjacent to the first block in the time direction. An image encoding method characterized by the above.
前記エッジ情報として、エッジ情報取得対象画素について水平方向と垂直方向のエッジ強度を求め、エッジ強度が最大となる画素位置とエッジ角度の情報を取得するエッジ情報取得ステップを備えることを特徴とする画像符号化方法。 The image encoding method according to claim 5 or 6,
An image comprising an edge information acquisition step of obtaining edge information in a horizontal direction and a vertical direction for the edge information acquisition target pixel as the edge information, and acquiring information on a pixel position and an edge angle at which the edge intensity is maximum. Encoding method.
前記符号化ストリームには、前記第2のブロックの分割方法が前記エッジ情報に基づくものであることを示す符号化モード情報を含めることを特徴とする画像符号化方法。 The image encoding method according to claim 5 or 6,
The image coding method, wherein the coded stream includes coding mode information indicating that the second block division method is based on the edge information.
前記符号化ストリームに対して可変長復号化処理と逆量子化処理と逆周波数変換処理を行い差分画像を生成する差分画像復号化部と、
前記符号化ストリームに含まれる符号化モード情報に従い復号化するブロックに分割し、画面内予測または画面間予測により予測画像を生成する予測画像生成部と、
前記予測画像と前記差分画像を加算して復号画像を生成する加算部とを備え、
前記予測画像生成部は、復号化対象ブロックと同一画面内で隣接する復号化済みのブロックのエッジ情報に基づき前記復号化対象ブロックのブロック形状を決定することを特徴とする画像復号化装置。 In an image decoding apparatus that decodes an encoded stream to generate a decoded image,
A difference image decoding unit that generates a difference image by performing variable length decoding processing, inverse quantization processing, and inverse frequency transform processing on the encoded stream;
A prediction image generation unit that divides into blocks to be decoded according to the encoding mode information included in the encoded stream, and generates a prediction image by intra prediction or inter prediction;
An adder that adds the predicted image and the difference image to generate a decoded image;
The prediction image generation unit determines the block shape of the decoding target block based on edge information of a decoded block adjacent in the same screen as the decoding target block.
前記符号化ストリームに対して可変長復号化処理と逆量子化処理と逆周波数変換処理を行い差分画像を生成する差分画像復号化部と、
前記符号化ストリームに含まれる符号化モード情報に従い復号化するブロックに分割し、画面内予測または画面間予測により予測画像を生成する予測画像生成部と、
前記予測画像と前記差分画像を加算して復号画像を算出する加算部とを備え、
前記予測画像生成部は、復号化対象ブロックに対して時間方向に隣接する復号化済み画面内で同一空間位置のブロックのエッジ情報に基づき前記復号化対象ブロックのブロック形状を決定することを特徴とする画像復号化装置。 In an image decoding apparatus that decodes an encoded stream to generate a decoded image,
A difference image decoding unit that generates a difference image by performing variable length decoding processing, inverse quantization processing, and inverse frequency transform processing on the encoded stream;
A prediction image generation unit that divides into blocks to be decoded according to the encoding mode information included in the encoded stream, and generates a prediction image by intra prediction or inter prediction;
An adder that calculates the decoded image by adding the predicted image and the difference image;
The predicted image generation unit determines a block shape of the decoding target block based on edge information of a block at the same spatial position in a decoded screen adjacent to the decoding target block in the time direction. An image decoding apparatus.
前記エッジ情報として、エッジ情報取得対象画素について水平方向と垂直方向のエッジ強度を求め、エッジ強度が最大となる画素位置とエッジ角度の情報を取得するエッジ情報取得部を備えることを特徴とする画像復号化装置。 The image decoding device according to claim 9 or 10,
An image comprising an edge information acquisition unit for obtaining edge information in a horizontal direction and a vertical direction for an edge information acquisition target pixel as the edge information, and acquiring information on a pixel position and an edge angle at which the edge intensity is maximum. Decryption device.
前記予測画像生成部は、前記符号化ストリームに含まれる、符号化時のブロックの分割方法がエッジ情報に基づくものであることを示す符号化モード情報を利用することを特徴とする画像復号化装置。 The image decoding device according to claim 9 or 10,
The predictive image generation unit uses coding mode information included in the coded stream to indicate that a block division method at the time of coding is based on edge information. .
前記符号化ストリームに対して可変長復号化処理と逆量子化処理と逆周波数変換処理を行い差分画像を生成する差分画像復号化ステップと、
前記符号化ストリームに含まれる符号化モードに従い復号化するブロックに分割し、画面内予測または画面間予測により予測画像を生成する予測画像生成ステップと、
前記予測画像と前記差分画像を加算して復号画像を生成する加算ステップとを備え、
前記予測画像生成ステップは、復号化対象ブロックと同一画面内で隣接する復号化済みのブロックのエッジ情報に基づき前記復号化対象ブロックのブロック形状を決定することを特徴とする画像復号化方法。 In an image decoding method for generating a decoded image by decoding an encoded stream,
A differential image decoding step of performing a variable length decoding process, an inverse quantization process, and an inverse frequency transform process on the encoded stream to generate a differential image;
A prediction image generation step of dividing into blocks to be decoded according to an encoding mode included in the encoded stream, and generating a prediction image by intra prediction or inter prediction;
An addition step of adding the predicted image and the difference image to generate a decoded image;
The predictive image generating step determines the block shape of the decoding target block based on edge information of a decoded block adjacent in the same screen as the decoding target block.
前記符号化ストリームに対して可変長復号化処理と逆量子化処理と逆周波数変換処理を行い差分画像を生成する差分画像復号化ステップと、
前記符号化ストリームに含まれる符号化モードに従い復号化するブロックに分割し、画面内予測または画面間予測により予測画像を生成する予測画像生成ステップと、
前記予測画像と前記差分画像を加算して復号画像を算出する加算ステップとを備え、
前記予測画像生成ステップは、復号化対象ブロックに対して時間方向に隣接する復号化済み画面内で同一空間位置のブロックのエッジ情報に基づき前記復号化対象ブロックのブロック形状を決定することを特徴とする画像復号化方法。 In an image decoding method for generating a decoded image by decoding an encoded stream,
A differential image decoding step of performing a variable length decoding process, an inverse quantization process, and an inverse frequency transform process on the encoded stream to generate a differential image;
A prediction image generation step of dividing into blocks to be decoded according to an encoding mode included in the encoded stream, and generating a prediction image by intra prediction or inter prediction;
An addition step of calculating the decoded image by adding the predicted image and the difference image,
The predicted image generation step determines the block shape of the decoding target block based on edge information of the block at the same spatial position in a decoded screen adjacent in the time direction to the decoding target block. An image decoding method.
前記エッジ情報として、エッジ情報取得対象画素について水平方向と垂直方向のエッジ強度を求め、エッジ強度が最大となる画素位置とエッジ角度の情報を取得するエッジ情報取得ステップを備えることを特徴とする画像復号化方法。 The image decoding method according to claim 13 or 14,
An image comprising an edge information acquisition step of obtaining edge information in a horizontal direction and a vertical direction for the edge information acquisition target pixel as the edge information, and acquiring information on a pixel position and an edge angle at which the edge intensity is maximum. Decryption method.
前記予測画像生成ステップは、前記符号化ストリームに含まれる、符号化時のブロックの分割方法がエッジ情報に基づくものであることを示す符号化モード情報を利用することを特徴とする画像復号化方法。 The image decoding method according to claim 13 or 14,
The predictive image generation step uses encoding mode information indicating that a block division method at the time of encoding included in the encoded stream is based on edge information. .
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009004614A JP2012089905A (en) | 2009-01-13 | 2009-01-13 | Image encoder and image encoding method, and image decoder and image decoding method |
| JP2009-004614 | 2009-01-13 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2010082463A1 true WO2010082463A1 (en) | 2010-07-22 |
Family
ID=42339716
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2010/000050 Ceased WO2010082463A1 (en) | 2009-01-13 | 2010-01-06 | Image encoding apparatus and image encoding method, image decoding apparatus and image decoding method |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2012089905A (en) |
| WO (1) | WO2010082463A1 (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2360927A3 (en) * | 2010-02-12 | 2011-09-28 | Samsung Electronics Co., Ltd. | Image encoding/decoding system using graph based pixel prediction and encoding system and method |
| WO2012090413A1 (en) * | 2010-12-27 | 2012-07-05 | 日本電気株式会社 | Video encoding device, video decoding device, video encoding method, video decoding method, and program |
| JP2015502064A (en) * | 2011-11-11 | 2015-01-19 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Effective prediction using partition coding |
| US10321148B2 (en) | 2011-11-11 | 2019-06-11 | Ge Video Compression, Llc | Effective wedgelet partition coding using spatial prediction |
| US10341667B2 (en) | 2011-11-11 | 2019-07-02 | Ge Video Compression, Llc | Adaptive partition coding |
| US10574981B2 (en) | 2011-11-11 | 2020-02-25 | Ge Video Compression, Llc | Effective Wedgelet partition coding |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016074744A1 (en) | 2014-11-14 | 2016-05-19 | Huawei Technologies Co., Ltd. | Systems and methods for processing a digital image |
| JP6496821B2 (en) | 2014-11-14 | 2019-04-10 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | System and method for processing a block of a digital image |
| WO2016074746A1 (en) | 2014-11-14 | 2016-05-19 | Huawei Technologies Co., Ltd. | Systems and methods for mask based processing of a block of a digital image |
| CN105872539B (en) * | 2015-02-08 | 2020-01-14 | 同济大学 | Image encoding method and apparatus, and image decoding method and apparatus |
| CN115150613B (en) * | 2017-08-22 | 2024-02-06 | 松下电器(美国)知识产权公司 | Image encoder, image decoder, and bit stream generating apparatus |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008017305A (en) * | 2006-07-07 | 2008-01-24 | Canon Inc | Image processing apparatus and image processing method |
| WO2008016605A2 (en) * | 2006-08-02 | 2008-02-07 | Thomson Licensing | Adaptive geometric partitioning for video decoding |
-
2009
- 2009-01-13 JP JP2009004614A patent/JP2012089905A/en active Pending
-
2010
- 2010-01-06 WO PCT/JP2010/000050 patent/WO2010082463A1/en not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008017305A (en) * | 2006-07-07 | 2008-01-24 | Canon Inc | Image processing apparatus and image processing method |
| WO2008016605A2 (en) * | 2006-08-02 | 2008-02-07 | Thomson Licensing | Adaptive geometric partitioning for video decoding |
Cited By (37)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2360927A3 (en) * | 2010-02-12 | 2011-09-28 | Samsung Electronics Co., Ltd. | Image encoding/decoding system using graph based pixel prediction and encoding system and method |
| WO2012090413A1 (en) * | 2010-12-27 | 2012-07-05 | 日本電気株式会社 | Video encoding device, video decoding device, video encoding method, video decoding method, and program |
| JP2015502064A (en) * | 2011-11-11 | 2015-01-19 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Effective prediction using partition coding |
| JP2017135724A (en) * | 2011-11-11 | 2017-08-03 | ジーイー ビデオ コンプレッション エルエルシー | Effective predicting using partition encoding |
| CN109218735A (en) * | 2011-11-11 | 2019-01-15 | Ge视频压缩有限责任公司 | device and method for coding and decoding |
| JP2019068455A (en) * | 2011-11-11 | 2019-04-25 | ジーイー ビデオ コンプレッション エルエルシー | Effective prediction using partition coding |
| US10321148B2 (en) | 2011-11-11 | 2019-06-11 | Ge Video Compression, Llc | Effective wedgelet partition coding using spatial prediction |
| US10321139B2 (en) | 2011-11-11 | 2019-06-11 | Ge Video Compression, Llc | Effective prediction using partition coding |
| US10334255B2 (en) | 2011-11-11 | 2019-06-25 | Ge Video Compression, Llc | Effective prediction using partition coding |
| US10341667B2 (en) | 2011-11-11 | 2019-07-02 | Ge Video Compression, Llc | Adaptive partition coding |
| US10362317B2 (en) | 2011-11-11 | 2019-07-23 | Ge Video Compression, Llc | Adaptive partition coding |
| US10542263B2 (en) | 2011-11-11 | 2020-01-21 | Ge Video Compression, Llc | Effective prediction using partition coding |
| US10542278B2 (en) | 2011-11-11 | 2020-01-21 | Ge Video Compression, Llc | Effective wedgelet partition coding using spatial prediction |
| US10567776B2 (en) | 2011-11-11 | 2020-02-18 | Ge Video Compression, Llc | Adaptive partition coding |
| US10574981B2 (en) | 2011-11-11 | 2020-02-25 | Ge Video Compression, Llc | Effective Wedgelet partition coding |
| US10574982B2 (en) | 2011-11-11 | 2020-02-25 | Ge Video Compression, Llc | Effective wedgelet partition coding |
| US10771793B2 (en) | 2011-11-11 | 2020-09-08 | Ge Video Compression, Llc | Effective prediction using partition coding |
| US10771794B2 (en) | 2011-11-11 | 2020-09-08 | Ge Video Compression, Llc | Adaptive partition coding |
| US10785497B2 (en) | 2011-11-11 | 2020-09-22 | Ge Video Compression, Llc | Effective wedgelet partition coding using spatial prediction |
| US10911753B2 (en) | 2011-11-11 | 2021-02-02 | Ge Video Compression, Llc | Effective wedgelet partition coding |
| JP2021013197A (en) * | 2011-11-11 | 2021-02-04 | ジーイー ビデオ コンプレッション エルエルシー | Valid prediction using partition coding |
| JP2021044832A (en) * | 2011-11-11 | 2021-03-18 | ジーイー ビデオ コンプレッション エルエルシー | Effective prediction using partition coding |
| US10986352B2 (en) | 2011-11-11 | 2021-04-20 | Ge Video Compression, Llc | Adaptive partition coding |
| US11032555B2 (en) | 2011-11-11 | 2021-06-08 | Ge Video Compression, Llc | Effective prediction using partition coding |
| US11032562B2 (en) | 2011-11-11 | 2021-06-08 | Ge Video Compression, Llc | Effective wedgelet partition coding using spatial prediction |
| US11425367B2 (en) | 2011-11-11 | 2022-08-23 | Ge Video Compression, Llc | Effective wedgelet partition coding |
| JP7126329B2 (en) | 2011-11-11 | 2022-08-26 | ジーイー ビデオ コンプレッション エルエルシー | Efficient Prediction Using Partition Coding |
| JP2023025001A (en) * | 2011-11-11 | 2023-02-21 | ジーイー ビデオ コンプレッション エルエルシー | Effective prediction using partition coding |
| US11722657B2 (en) | 2011-11-11 | 2023-08-08 | Ge Video Compression, Llc | Effective wedgelet partition coding |
| US11863763B2 (en) | 2011-11-11 | 2024-01-02 | Ge Video Compression, Llc | Adaptive partition coding |
| CN109218735B (en) * | 2011-11-11 | 2024-07-05 | Ge视频压缩有限责任公司 | Device and method for encoding and decoding |
| JP7528179B2 (en) | 2011-11-11 | 2024-08-05 | ジーイー ビデオ コンプレッション エルエルシー | Efficient Prediction Using Partition Coding |
| US12075082B2 (en) | 2011-11-11 | 2024-08-27 | Ge Video Compression, Llc | Effective wedgelet partition coding using spatial prediction |
| US12137214B2 (en) | 2011-11-11 | 2024-11-05 | Ge Video Compression, Llc | Effective wedgelet partition coding |
| US12273540B2 (en) | 2011-11-11 | 2025-04-08 | Dolby Video Compression, Llc | Adaptive partition coding |
| US12284368B2 (en) | 2011-11-11 | 2025-04-22 | Dolby Video Compression, Llc | Effective prediction using partition coding |
| US12501030B2 (en) | 2011-11-11 | 2025-12-16 | Dolby Video Compression, Llc | Effective wedgelet partition coding |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012089905A (en) | 2012-05-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2010082463A1 (en) | Image encoding apparatus and image encoding method, image decoding apparatus and image decoding method | |
| US9047667B2 (en) | Methods and apparatuses for encoding/decoding high resolution images | |
| JP5401009B2 (en) | Video intra prediction encoding and decoding method and apparatus | |
| JP6084734B2 (en) | Video decoding device | |
| KR100750128B1 (en) | Method and apparatus for intra prediction encoding and decoding of images | |
| US7426308B2 (en) | Intraframe and interframe interlace coding and decoding | |
| KR100727972B1 (en) | Method and apparatus for intra prediction encoding and decoding of images | |
| KR101623124B1 (en) | Apparatus and method for encoding video, apparatus and method for decoding video and directional intra-prediction method therefor | |
| CN103039073B (en) | Method for encoding/decoding high-resolution image and device for executing the method | |
| US20130089265A1 (en) | Method for encoding/decoding high-resolution image and device for performing same | |
| JP2019149847A (en) | Image decoding device, image decoding method, image coding device, image coding method, and data structure of coded data | |
| WO2010001917A1 (en) | Image processing device and method | |
| WO2012096150A1 (en) | Dynamic image encoding device, dynamic image decoding device, dynamic image encoding method, and dynamic image decoding method | |
| JP4577778B2 (en) | Video coding and decoding method | |
| JP2009049969A (en) | Moving picture coding apparatus and method and moving picture decoding apparatus and method | |
| CN114830645A (en) | Image encoding method and image decoding method | |
| KR20200075040A (en) | Intra prediction method and apparatus using the method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10731134 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 10731134 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: JP |