CN119586132A

CN119586132A - 使用具有控制点运动向量细化的放射运动估计的方法与装置

Info

Publication number: CN119586132A
Application number: CN202380054305.8A
Authority: CN
Inventors: 赖贞延; 庄子德; 陈庆晔; 徐志玮; 罗志轩
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2022-07-19
Filing date: 2023-05-30
Publication date: 2025-03-07
Also published as: EP4559182A1; TW202406349A; WO2024016844A1; EP4559182A4

Abstract

用于对仿射编码块使用控制点运动向量(Control‑Point Motion Vectors，简称CPMV)细化或合并候选对象的适应性重新排序(Adaptive Redording of Merge Candidates，简称ARMC)进行视讯编译码的方法和装置。根据该方法，两个或多个CPMV或两个或多个角子块独立运动以生成两个或多个细化的CPMV。包括所述一个或多个细化CPMV的合并列表或高级运动向量预测(Adavanced Motion Vector Prediction，简称AMVP)列表被生成用于对当前块进行编译码。根据另一种方法，被决定用于当前块的仿射模型被应用于当前块的相邻参考子块以导出相邻参考子块的仿射变换参考块。基于仿射变换的参考块，一个或多个范本被决定。模板用于重新排序一合并候选集合，该合并候选集合用于对当前块进行编译码。

Description

使用具有控制点运动向量细化的放射运动估计的方法与装置

【技术领域】

本发明涉及使用运动估计和运动补偿的视讯编译码。具体地，本发明涉及使用译码器导出的运动向量细化相关方法或模板匹配方法的控制点运动向量细化。

【背景技术】

多功能视讯编译码(versatile video coding，简称VVC)是由ITU-T视讯编译码专家组(Video Coding Experts Group，简称VCEG)和ISO/IEC运动图像专家组(MovingPicture Experts Group，简称MPEG)的联合视讯专家组(Joint Video Experts Team，简称JVET)开发的最新国际视讯编译码标准。该标准已作为ISO标准于2021年2月发布：ISO/IEC23090-3：2021，信息技术-沉浸式媒体的编译码表示-第3部分：多功能视讯编译码。VVC是基于其上一代高效视讯编译码(High Efficiency Video Coding，简称HEVC)藉由添加更多的编解碼工具，来提高编解碼效率以及处理包括三维(3-dimensional，简称3D)视频信号在内的各种类型的视讯源。

图1A示出结合循环处理的示例适应性帧间/帧内视讯编译码系统。对于帧内预测，预测数据基于当前图片中先前编译码的视讯数据得出。对于帧间预测112，运动估计(Motion Estimation，简称ME)在编码器端执行以及运动补偿(Motion Compensation，简称MC)基于ME的结果执行以提供从其他图片和运动数据导出的预测数据。开关114选择帧内预测110或帧间预测112，以及选择的预测数据被提供至加法器116以形成预测误差，也被称为残差。然后预测误差由变换(Transform，简称T)118接着量化(Quantization，简称Q)120处理。然后经变换和量化的残差由熵编码器122进行编码，以包括在对应于压缩视讯数据的视讯比特流中。然后，与变换系数相关联的比特流与辅助信息(诸如与帧内预测和帧间预测相关联的运动和编码模式等辅助信息)和其他信息(与应用于底层图像区域的环路滤波器相关联的参数等)打包。如图1A所示，与帧内预测110、帧间预测112和环路滤波器130相关联的辅助信息被提供至熵编码器122。当帧间预测模式被使用时，一个或多个参考图片也必须在编码器端重构。因此，经变换和量化的残差由逆量化(Inverse Quantization，简称IQ)124和逆变换(Inverse Transformation，简称IT)126处理以恢复残差。然后残差在重构(REC)128被加回到预测数据136以重构视讯数据。重构的视讯数据可被存储在参考图片缓冲器134中以及用于其他帧的预测。

如图1A所示，输入的视讯数据在编码系统中经过一系列处理。由于一系列处理，来自REC 128的重构视讯数据可能会受到各种损害。因此，在重构视讯数据被存储在参考图片缓冲器134中之前，环路滤波器130通常被应用于重构视讯数据，以提高视讯质量。例如，去块滤波器(deblocking filter,简称DF)、样本适应性偏移(Sample Adaptive Offset，简称SAO)和适应性环路滤波器(Adaptive Loop Filter，简称ALF)可被使用。环路滤波器信息可能需要被合并到比特流中，以便译码器可以正确地恢复所需的信息。因此，环路滤波器信息也被提供至熵编码器122以结合到比特流中。在图1A中，在重构样本被存储在参考图片缓冲器134中之前，环路滤波器130被应用于重构的视讯。图1A中的系统旨在说明典型视讯编码器的示例结构。它可以对应于高效视讯编译码(High Efficiency Video Coding，简称HEVC)系统、VP8、VP9、H.264或VVC。

如图1B所示，译码器可以使用与编码器相似或部分相同的功能块，除了变换118和量化120，因为译码器只需要逆量化124和逆变换126。译码器使用熵译码器140而不是熵编码器122来将视讯比特流译码为量化的变换系数和所需的编译码信息(例如，ILPF信息、帧内预测信息和帧间预测信息)。译码器侧的帧内预测150不需要执行模式搜索。相反，译码器只需要根据从熵译码器140接收到的帧内预测信息生成帧内预测。此外，对于帧间预测，译码器只需要根据从熵译码器140接收到的帧内预测信息执行运动补偿(MC 152)无需运动估计。

根据VVC，类似于HEVC，输入图片被划分为被称为编译码树单元(Coding Treeunit，简称CTU)的非重迭正方形块区域。每个CTU都可以被划分为一个或多个较小尺寸的编译码单元(coding unit，简称CU)。生成的CU分区可以是正方形或矩形。此外，VVC将CTU划分为预测单元(prediction unit，简称PU)作为应用预测处理的单元，例如帧间预测，帧内预测等。

VVC标准合并各种新的编解碼工具以进一步提高超过HEVC标准的编解碼效率。在各种新的编译码工具中，与本发明相关的一些编译码工具综述如下。

仿射光流(Affine Optical Flow)

当编译码单元(coding unit，简称CU)使用仿射模式进行编译码时，编译码单元被划分为4x4子块，以及对于每个子块，一个运动向量基于仿射模型被导出以及运动补偿被执行以生成相应的预测子。使用4x4块作为一个子块而不是使用其他更小尺寸的原因是为了在运动补偿的计算复杂性和编解碼效率之间实现良好的折衷。为了提高编解碼效率，以下文文件中公开了几种方法：JVET-N0236(J.Luo，et al.，“CE2-related：Predictionrefinement with optical flow for affine mode”，Joint Video Experts Team(JVET)of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11，14th Meeting：Geneva，CH，19-27 March 2019，Document：JVET-N0236)，JVET-N0261(K.Zhang，et al.，“CE2-1.1：Interweaved Prediction for Affine Motion Compensation”，Joint Video ExpertsTeam(JVET)of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11，14th Meeting：Geneva，CH，19-27March 2019，Document：JVET-N0261)，以及JVET-N0262(H.Huang，et al.，“CE9-related：Disabling DMVR for non-equal weight BPWA”，Joint Video ExpertsTeam(JVET)of ITU-T SG 16WP 3and ISO/IEC JTC 1/SC 29/WG 11，14th Meeting：Geneva，CH，19-27March 2019，Document：JVET-N0262)。

在JVET-N0236中，为了实现更细粒度的运动补偿，文献作者提出了一种使用光流细化基于子块的仿射运动补偿预测的方法。在基于子块的仿射运动补偿被执行后，亮度预测样本藉由添加由光流方程导出的差值被细化。所提出的光流预测细化(proposedprediction refinement with Optical Flow，简称PROF)被描述为以下四个步骤。步骤1)，基于子块的仿射运动补偿被执行以生成子块预测I(i，j)。步骤2)，子块预测的空间梯度gx(i，j)和gy(i，j)使用3抽头滤波器[-1，0，1]在每个样本位置计算。

g_x(i，j)＝I(i+1，j)-I(i-1，j)以及

g_y(i，j)＝I(i，j+1)-I(i，j-1)

在每一侧子块预测被扩展一个像素用于梯度计算。为了减少内存带宽和复杂性，扩展边界上的像素从参考图片中最近的整数像素位置复制。因此，对填充区域的额外插值被避免。步骤3)，亮度预测细化由光流等式计算。

ΔI(i，j)＝g_x(i，j)*Δv_x(i，j)+g_y(i，j)*Δv_y(i，j)

其中Δv(i，j)是对样本位置(i，j)计算的像素MV(表示为v(i，j))与子块MV(表示为v_SB(212))之间的差值，子块MV为像素(i，j)所属的块210的子块220的MV，如图2所示。在图2中，子块222对应于由运动向量v_SB(212)指向的子块220的参考子块。参考子块222表示由块220的平移运动产生的参考子块。参考子块224对应于具有PROF的参考子块。每个像素的运动向量由Δv(i，j)细化。例如，基于由Δv(i，j)216修改的子块MV v_SB(212)导出子块220的左上像素的细化运动向量v(i，j)214。

由于在子块与子块之间的仿射模型参数和相对于子块中心的像素位置没有改变，因此可以对第一子块计算Δv(i，j)，以及重新用于同一CU中的其他子块。令x和y为从像素位置到子块中心的水平和垂直偏移，Δv(x,y)可以藉由以下等式导出，

对于4参数仿射模型，参数c和e可以导出为：

对于6参数仿射模型，参数c、d、e和f可以导出为：

其中(v_0x，v_0y)，(v_1x，v_1y)，(v_2x，v_2y)是左上、右上和左下控制点运动向量，w和h是CU的宽度和高度。步骤4)，最后，亮度预测细化被添加到子块预测I(i，j)。最终预测I′生成如下等式。

I′(i，j)＝I(i，j)+ΔI(i，j)

在JVET-N0261中，图3中提出另一种基于子块的仿射模式交织预测。利用交织预测，编解碼块310被划分为具有两种不同划分模式(320和322)。然后两个辅助预测(P₀ 330和P₁ 332)藉由具有两个划分模式的仿射运动补偿产生。最终预测340被计算为两个辅助预测(330和332)的加权和。为了避免使用2×H或W×2块大小进行运动补偿，交织预测仅应用于两种划分模式的子块大小为4×4的区域，如图4所示。

根据JVET-N0261中公开的方法，基于2x2子块的仿射运动补偿仅应用于亮度样本的单向预测以及2x2子块运动场仅用于运动补偿。用于运动预测等的运动向量场的存储仍然是基于4x4子块。如果带宽约束被应用，则当仿射运动参数不满足特定标准时，基于2x2子块的仿射运动补偿将被禁用。

在JVET-N0273(H.Huang，et al.，“CE9-related：Disabling DMVR for non-equalweight BPWA”，Joint Video Experts Team(JVET)of ITU-T SG 16 WP 3 and ISO/IECJTC 1/SC 29/WG 11，14th Meeting：Geneva，CH，19-27 March 2019，Document：JVET-N0262)，基于2x2子块的仿射运动补偿仅应用于亮度样本的单向预测以及2x2子块运动场仅用于运动补偿。如果带宽约束被应用，当仿射运动参数不满足特定标准时，基于2x2子块的仿射运动补偿将被禁用。

仿射模型

运动沿着时间轴跨图片发生可以由许多不同的模型来描述。假设A(x，y)是所考虑位置(x，y)处的原始像素，A′(x′，y′)为当前像素A(x，y)在参考图片中位置(x′，y′)对应的像素，仿射运动模型描述如下。

仿射模型能够描述二维块旋转以及二维变形以将正方形(或矩形)变换成平行四边形。该模型可以描述如下：

x’＝a₀+a₁*x+a₂*y，以及y’＝b₀+b₁*x+b₂*y (1)

在提交给ITU-VCEG的ITU-T13-SG16-C1016文稿中(Lin，et al.，“Affinetransform prediction for next generation video coding”，ITU-U，Study Group 16，Question Q6/16，Contribution C 1016，September 2015，Geneva，CH)，四参数仿射预测被公开，其中包括仿射合并模式。当仿射运动块在运动时，块的运动向量场可以用两个控制点运动向量或四个参数来描述如下，其中(vx，vy)表示运动向量：

图5标出四参数仿射模型的示例，其中当前块510的对应参考块520根据具有两个控制点运动向量(即，v0和v1)的仿射模型被定位。变换后的块是一个矩形块。该运动块中各点的运动向量场可用下式表示：

或

上述等式中，(v0x，v0y)为块左上角的控制点运动向量(即v0)，(v1x，v1y)为另一个控制点运动向量(即v1)在块的右上角。当两个控制点的MV被解碼时，块的每个4x4块的MV可以根据上式决定。换句话说，块的仿射运动模型可以由两个控制点处的两个运动向量指定。进一步地，虽然以块的左上角和右上角作为两个控制点，但也可以使用其他两个控制点。当前块的运动向量的示例可以根据等式(3)基于两个控制点的MV对每个4x4子块决定。

在文稿ITU-T13-SG16-C1016中，对于帧间模式编译码的CU，仿射标志被发送以指示当CU大小等于或大于16x16时仿射帧间模式是否被应用。如果当前块(例如，当前CU)以仿射帧间模式编译码，则候选MVP对列表使用相邻的有效重构块构建。图6示出用于导出角导出仿射候选的相邻块集合。如图6所示，对应于当前块610左上角的块V0的运动向量，其选自相邻块A₀(被称为左上块)的运动向量，A₁(被称为内左上块)和A₂(被称为左上块)，以及对应于当前块610右上角的块V₁的运动向量，其选自相邻块B₀(被称为上方块)和B₁(被称为右上块)的运动向量。

在投稿ITU-T13-SG16-C1016中，仿射合并模式也被提出。如果当前块610是合并编解碼PU，则邻近的五个块(图6中的C₀、B₀、B₁、C₁和A₀块)被检查以决定它们中的任一块是以仿射帧间模式还是仿射合并模式进行编译码。如果是，则affine_flag讯号被发送以指示当前PU是否为仿射模式。当当前PU应用于仿射合并模式时，它从有效的相邻重构块中获取使用仿射模式编译码的第一块。候选块的选择顺序是从左块(C₀)、上方块(B₀)、右上块(B1)、左下块(C1)到左上块(A₀)。换句话说，搜索顺序是C₀→B₀→B₁→C₁→A₀，如图6所示。仿射编解碼块的仿射参数用于导出当前PU的v0和v1。在图6的示例中，用于构建用于仿射运动模型的控制点MV的相邻块(即，C₀、B₀、B₁、C₁和A₀)在本公开中被称为相邻块集合。

在仿射运动补偿(motion compensation，简称MC)中，当前块被分成多个4x4子块。对于每个子块，中心点(2，2)用于藉由使用该子块的等式(3)导出MV。对于当前块的MC，每个子块执行一个4x4的子块平移MC。

在HEVC中，每个PU的解碼MV以16：1的比率被下采样并存储在时间MV缓冲器中用于后续帧的MVP推导。对于16x16块，只有左上角的4x4 MV存储在时间MV缓冲器中，存储的MV代表整个16x16块的MV。

双向光流(Bi-directional Optical Flow，简称BIO)

双向光流(Bi-directional Optical Flow，简称BIO)是以下文稿中公开的运动估计/补偿技术：JCTVC-C204(E.Alshina，et al.，Bi-directional optical flow，JointCollaborative Team on Video Coding(JCT-VC)of ITU-T SG 16WP 3and ISO/IEC JTC1/SC 29/WG 11，3rd Meeting：Guangzhou，CN，7-15October，2010，Document：JCTVC-C204)，以及VCEG-AZ05(E.Alshina，et al.，Known tools performance investigation fornextgeneration video coding，ITU-T SG 16 Question 6，Video Coding Experts Group(VCEG)，52nd Meeting：19-26June 2015，Warsaw，Poland，Document：VCEG-AZ05)。BIO基于如图7所示的光流和稳定运动的假设导出样本级运动细化，其中B片段(双向预测片段)720中的当前像素722由参考图片0(730)中的一个像素和参考图片1(710)中的一个像素预测。如图7所示，当前像素722由参考图片1(710)中的像素B(712)和参考图片0(730)中的像素A(732)预测。在图7中，vx和vy是x方向和y方向的像素位移向量(714或734)，它们使用双向光流(bi-direction optical flow，简称BIO)模型导出。它仅适用于真正的双向预测块，它是从对应于前一张图片和后一张图片的两个参考图片中预测出来。在VCEG-AZ05中，BIO使用5x5窗口来导出每个样本的运动细化。因此，对于NxN块，需要(N+4)x(N+4)块的运动补偿结果和相应的梯度信息来推导对NxN块的基于样本的运动细化。根据VCEG-AZ05，6抽头梯度滤波器和6抽头插值滤波器被用来生成BIO的梯度信息。因此，BIO的计算复杂度远高于传统的双向预测。为了进一步提高BIO的性能，以下方法被提出。

在HEVC中的常规双向预测中，预测子使用以下等式生成，其中P⁽⁰⁾和P⁽¹⁾分别是列表0和列表1预测子。

P_Conventional[i，j]＝(P⁽⁰⁾[i，j]+P⁽¹⁾[i，j]+1)＞＞1

在JCTVC-C204和VECG-AZ05中，BIO预测子使用以下等式生成：

P_OpticalFlow＝(P⁽⁰⁾[i，j]+P⁽¹⁾[i，j]+v_x[i，j](I_x ⁽⁰⁾-I_x ⁽¹⁾[i，j])+v_y[i，j](I_y ⁽⁰⁾-I_y ⁽¹⁾[i，j])+1)＞＞1

上式中，Ix⁽⁰⁾和Ix⁽¹⁾分别表示列表0和列表1预测子中x方向的梯度；Iy⁽⁰⁾和Iy⁽¹⁾分别表示列表0和列表1预测子中的y方向梯度；v_x和v_y分别表示x和y方向上的偏移或位移。v_x和v_y的推导过程如下所示。首先，成本函数被定义为diffCost(x，y)以找到最佳值v_x和v_y。为了找到最佳值v_x和v_y以最小化成本函数diffCost(x，y)，一个5x5窗口被使用。v_x和v_y的解可以用S1、S2、S3、S5和S6表示。

最小成本函数，可以根据以下推导：

藉由求解等式(3)和(4)，v_x和v_y可以根据以下等式求解：

其中，

上述等式中，对应于列表0图片中(x，y)处像素的x方向梯度，

对应于列表1图片中(x，y)处像素的x方向梯度，对应于列表0图片中(x，y)处像素的y方向梯度，对应列表1图片中(x，y)处像素的y方向梯度。

在一些相关技术中，S₂可以忽略，v_x和v_y可以根据以下被求解：

其中，

我们可以发现，BIO过程中需要的位深度较大，尤其是计算S₁、S₂、S₃、S₅、S₆时。例如，如果视讯序列中像素值的位深度为10位，梯度的位元深度藉由分数插值滤波器或梯度滤波器被增加，则需要16位来表示一个x方向的梯度或一个y方向的梯度。这16个位可以藉由等于4的梯度移位被进一步减少，因此一个梯度需要12位来表示值。即使藉由梯度移位可以将梯度的幅度降低到12位，BIO操作所需的位深度仍然很大。需要一个13位x13位的乘法器来计算S₁、S₂和S₅。需要另一个13位x17位的乘法器才能得到S₃和S₆。当窗口尺寸较大时，需要超过32个位来表示S₁、S₂、S₃、S₅和S₆。

具有DMVR的仿射(译码器侧运动向量细化)

在JVET-AA0144(Jie Chen，et al.，“Non-EE2：DMVR for affine merge codedblocks”，Joint Video Experts Team(JVET)of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11，27th Meeting，by teleconference，13-22 July 2022，Document：JVET-AA0144)中，一种利用多遍次(Multi-Pass，简称)-DMVR来细化仿射CPMV的技术被提出。据说，一般来说，仿射模型可以用下面的等式来描述。

其中(mv_x，mv_y)为位置(x,y)处的运动向量，(mv_0x，mv_0y)为表示仿射模型平移运动的基础MV，以及是四个非平移参数，其定义仿射模型的旋转、缩放和其他非平移运动。

在ECM中，除了等式(5)中定义的6参数仿射模型外，我们还有如式(6)中描述的4参数仿射模式，其中仅使用两个非平移参数：

在JVET-AA0144中，提出藉由仅应用多遍次DMVR的第一步来细化使用仿射合并模式进行编译码的编译码块的仿射模型的基础MV。也就是说，如果候选满足DMVR条件，我们将向仿射合并列表中候选的所有CPMV添加一个平移MV偏移量。MV偏移量藉由最小化双边匹配的成本导出，这与传统的DMVR相同。DMVR条件也没有改变。

MV偏移量搜索处理与ECM中多遍次DMVR的第一遍次相同。一个3x3正方形搜索模式用于循环遍历水平方向的搜索范围[-8，+8]和垂直方向的搜索范围[-8，+8]以找到最佳整数MV偏移量。然后围绕最佳整数位置进行半像素搜索，最后误差表面估计被执行以找到具有1/16精度的MV偏移。

细化的CPMV被存储用于空间和时间运动向量预测，作为ECM中的多遍次DMVR。

下面一些方法被提出以进一步藉由MP-DMVR或模板匹配相关算法改进对仿射CPMV的细化。

合并候选的适应性重新排序(Adaptive Redordering of Merge Candidate，简称ARMC)

在JVET-V0099(Na Zhang，et al.，“AHG 12：Adaptive Reordering of MergeCandidates with Template Matching”，Joint Video Experts Team(JVET)of ITU-T SG16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11，22nd Meeting，by teleconference，20-28April 2021，Document：JVET-V0099)中，一种使用模板匹配的合并候选的适应性重新排序(ARMC)方法被提出。重新排序方法应用于常规合并模式、模板匹配(template matching，简称TM)合并模式和仿射合并模式(不包括SbTMVP候选)。对于TM合并模式，合并候选在细化处理之前被重新排序。

在合并候选列表被构建之后，合并候选被划分成几个子组。子组大小设置为5。每个子组中的合并候选根据基于范本匹配的成本值升序重新排序。为简化起见，最后一个子组中的合并候选项不会被重新排序，除非只有一个子组。

模板匹配成本藉由当前块的模板的样本与该模板对应的参考样本之间的绝对差之和(sum of absolute difference，简称SAD)来衡量。该模板包括与当前块相邻的重构样本集合。範本的參考様本使用与当前块的运动信息相同的运动信息来定位。

当合并候选利用双向预测时，合并候选的模板的参考样本也藉由双向预测生成，如图8所示。在图8中，块812对应于当前图片810的当前块，块822和832分别对应于列表0和列表1中的参考图片820和830中的参考块。模板814和816用于当前块812，范本824和826用于参考块822，范本834和836用于参考块832。运动向量840、842和844是列表0中的合并候选以及运动向量850、852和854是列表1中的合并候选。

当合并候选利用双向预测时，合并候选的模板的参考样本也藉由双向预测生成，如图8所示。

对于子块大小等于Wsub×Hsub的基于子块的合并候选，上方的模板包括几个大小为Wsub×1的子模板，左侧的模板包括几个大小为1×Hsub的子模板。如图9所示，当前块的第一行第一列子块的运动信息被用来推导每个子模板的参考样本。在图9中，块912对应于当前图片910中的当前块以及块922对应于参考图片920中的同位块。当前块和同位块中的每个小方块对应于子块。当前块左侧和顶部的圆点填充区域对应于当前块的范本。边界子块被标记为从A到G。与每个子块关联的箭头对应于子块的运动向量。参考子块(标记为Aref到Gref)根据与边界子块相关联的运动向量定位。

本发明公开了使用译码器导出的运动向量细化相关方法或模板匹配方法来改进控制点运动向量细化的性能的技术。

【发明内容】

使用仿射模式的视讯编译码方法和装置被公开。根据该方法，与当前块相关联的输入数据被接收，其中输入数据报括在编码器侧待编码的当前块的像素数据或在译码器侧待解碼的与该当前块相关联的已编译码数据，以及当前块以仿射模式进行编译码。当前块的两个或更多控制点运动向量(Control-Point Motion Vector，简称CPMV)或两个或更多角子块运动被决定。所述两个或更多CPMV或所述两个或更多转角子块运动被独立细化以生成两个或更多细化CPMV。包括所述一个或多个细化的CPMV的合并列表或高级运动向量预测(Advanced Motion Vector Prediction，简称AMVP)列表被生成。从合并列表或AMVP列表中选择的运动候选被用来编码或译码当前块。

在一个实施例中，所述两个或更多个CPMV或所述两个或更多个角子块运动使用译码器侧运动向量细化(decoder-side motion vector refinement，简称DMVR)方案或MP-DMVR(多遍次DMVR)方案进行细化。在一个实施例中，与所述两个或更多个CPMV或所述两个或更多个角子块运动中的每一个相关联的N×N区域用于双边匹配，以及其中N是正整数。在一个实施例中，N取决于当前块的块大小或图片大小。在另一实施例中，NxN区域具有与当前块的仿射子块大小相同的大小以及NxN区域与当前块的相应仿射子块对齐。在一个实施例中，NxN区域以相应CPMV的位置为中心。

在一个实施例中，所述两个或更多个CPMV用于导出所述两个或更多个角子块运动。

在一个实施例中，所述两个或更多个CPMV或所述两个或更多个角子块运动使用模板匹配来细化。在一个实施例中，模板匹配使用以每个对应CPMV位置为中心的NxN区域内的样本，排除当前块中的当前样本和其他未译码样本，作为一个或多个模板。在另一实施例中，模板匹配使用一个对应角子块上方紧接的一个相邻子块的底N行样本和/或一个对应角子块左侧紧邻的一个相邻子块的右M行样本，其中N和M是正整数。

根据另一种方法，对当前块决定的仿射模型被应用于当前块的相邻参考子块以导出相邻参考子块的仿射变换参考块。一个或多个范本基于仿射变换的参考块被决定。基于使用所述一个或多个模板测量的相应成本值，合并候选集合被重新排序，以导出重新排序的合并候选集合。从包括重新排序的合并候选集合的合并列表中选择的运动候选被用来对当前块进行编码或译码。

在一个实施例中，相邻参考子块包括当前块的上方相邻参考子块和左侧相邻参考子块。在一个实施例中，所述一个或多个模板包括上方相邻参考子块的底部N行和左侧相邻参考子块的右侧M行，其中N和M为正整数。在一个实施例中，N和M取决于当前块的块大小或图片大小。

【附图说明】

图1A示出结合循环处理的示例适应性帧间/帧内视讯编译码系统。

图1B示出与图1A中的编码器对应的译码器。

图2示出基于子块的仿射运动补偿的示例，其中子块的各个像素的运动向量根据运动向量细化导出。

图3示出交织预测的例子，其中编解碼块被分成具有两种不同划分模式的子块，然后两个辅助预测藉由具有两种划分模式的仿射运动补偿产生。

图4示出交织预测避免采用具有2×H或W×2块大小的运动补偿的示例，其中交织预测仅应用于两种分割模式的子块大小为4×4的区域。

图5标出四参数仿射模型的示例，其中当前块和参考块被示出。

图6示出继承仿射候选推导的示例，其中当前块藉由继承相邻块的控制点MV作为当前块的控制点MV来继承相邻块的仿射模型。

图7示出基于光流和稳定运动假设的双向光流(BIO)导出的样本级运动细化的示例。

图8示出用于当前块和对应参考块以测量与合并候选相关联的匹配成本的范本的示例。

图9标出块的模板和参考样本的示例，该块具有使用当前块的子块的运动信息的子块运动。

图10示出子块大小的示例，该子块大小与仿射子块大小相同。

图11示出对应于以用于双边匹配的对应CPMV的位置为中心的NxN区域的子块大小的另一实例。

图12A-C示出使用模板匹配进行CPMV细化的模板(图12A中左上角CPMV的范本，图12B中右上角CPMV的范本，以及图12C中左下角CPMV的范本)。

图13标出使用模板匹配进行CPMV细化的模板的另一个示例，其中模板包括来自与对应的CPMV相邻的相邻子块的样本。

图14示出根据本发明的一个实施例的如果当前块被编译码为仿射模式则在相邻参考块上使用导出的仿射模型的示例。

图15示出根据本发明的实施例的视讯编译码系统独立地细化CPMV或角子块运动的示例性流程图。

图16示出根据本发明的实施例的视讯编译码系统使用基于仿射变换的参考块的模板对合并候选集合重新排序的示例性流程图。

【具体实施方式】

容易理解的是，如本文附图中一般描述和说明的本发明的组件可以以各种不同的配置来布置和设计。因此，如附图所示，本发明的系统和方法的实施例的以下更详细的描述并非旨在限制所要求保护的本发明的范围，而仅仅代表本发明的所选实施例。本说明书中对“实施例”，“一些实施例”或类似语言的引用意味着结合实施例描述的具体特征，结构或特性可以包括在本发明的至少一实施例中。因此，贯穿本说明书在各个地方出现的短语“在实施例中”或“在一些实施例中”不一定都指代相同的实施例。

此外，所描述的特征，结构或特性可在一个或多个实施例中以任何合适的方式组合。然而，相关领域的习知技艺者将认识到，可在没有一个或多个具体细节的情况下或者利用其他方法，组件等来实施本发明。在其他情况下，未示出或详细描述公知的结构或操作，以避免模糊本发明的各方面。藉由参考附图将最好地理解本发明的所示实施例，其中相同的部件自始至终由相同的数字表示。以下描述仅作为示例，并且简单地说明了与如本文所要求保护的本发明一致的装置和方法的一些选定实施例。

提出的方法1：使用MP-DMVR(双边匹配)的仿射运动细化

根据该方法，运动使用MP-DMVR细化。在一个实施例中，6参数仿射块中的3个CPMV或4参数仿射块中的2个CPMV藉由MP-DMVR相关算法独立地细化。使用这种方法，所有子块的运动可以移动不同的MV偏移量，此外，仿射块的形状可以进一步被改变。在JVET-AA0144中，MP-DMVR相关算法导出的3个或2个CPMV的MV偏移量相同，仿射块中的所有子块将向相同方向移动。例如，当具有正方形搜索的双边匹配的第一遍次MP-DMVR被应用时，仿射块的左上角、右上角和左下角NxN用于双边匹配，对应的起始MV为左上角、右上角和左下角的CPMV。又如，当具有菱形搜索区域(diamond shape search region，简称DSSR)双边匹配的第二遍次MP-DMVR被应用时，使仿射块的左上、右上、左下NxN用于双边匹配，对应的起始MV是左上角、右上角和左下角的CPMV。N可以是任一预定的整数值。N可以根据CU大小或图片大小来设计。又例如，第三遍次的MP-DMVR被使用。藉由应用BDOF相关算法，左上角、右上角和左下角CPMV的MV偏移量可以独立地导出。相应的子块是仿射块的左上角、右上角和左下角NxN区域。图10示出与仿射子块大小相同的子块大小的示例。此外，子块的位置与仿射子块完全对齐，如图10所示(即，虚线框与实线框对齐)。子块大小也可以是预定的NxN区域或者可以是包括预定数量的仿射子块的区域。

又例如，用于双边匹配的对应CPMV的子块位置可以进一步细化。对于左上角的CPMV，子块是以仿射块的左上角位置为中心的NxN区域(即，第11图中的区域1110)。对于右上角的CPMV，子块是以仿射块的右上角位置为中心的NxN区域(即，图11中的区域1120)。对于左下角的CPMV，子块是以仿射块的左下角位置为中心的NxN区域(即，图11中的区域1130)。在图11中，CPMV的位置是当前块的角(例如，1112、1122或1132)。换言之，在此示例中，NxN区域以相应CPMV的位置为中心。

在一个实施例中，可以对对应的角子块运动执行MP-DMVR相关运动细化。例如，3个CPMV用于使用光流算法导出仿射块内的所有子块运动。之后，仿射块的左上、右上和左下子块上的运动用于进一步导出仿射块的更精确的3个CPMV(即改进的CPMV)。之后，改进的3个CPMV被用于藉由光流算法导出仿射块的所有子块运动。第二轮导出的子块运动可以让子块预测块更好地拟合原始模式。

提出的方法2：使用模板匹配的仿射运动细化

在一个实施例中，上述MP-DMVR相关运动细化方法可以由基于模板匹配(基于TM)的运动细化代替。根据本实施例，一些样本用于形成用于模板匹配的模板。例如，3个CPMV使用模板匹配被独立地细化，它们是范本匹配的起点，如图12A-C所示。对于左上角的CPMV，以仿射块的左上角位置为中心的NxN区域内且不在仿射块内的所有样本都用于形成用于模板匹配细化的模板(如图12A中的点填充区域所示)。对于右上角的CPMV，以仿射块右上角位置为中心的NxN区域内的所有可用样本，不包括仿射块和仿射块右侧的未编译码样本，用于形成模板匹配细化的模板(如图12B中的点填充区域所示)。对于左下角的CPMV，以仿射块左下角位置为中心的NxN区域内的所有可用样本，不包括仿射块和仿射块底部的未编译码样本，用于形成模板匹配细化的模板(如图12C中的点填充区域所示)。相应的模板在下图中显示。在图12A-C中，CPMV的位置是当前块的角(例如，1112、1122或1132)。换言之，在此示例中，NxN区域以相应CPMV的位置为中心。

又如，3个CPMV独立地使用模板匹配进行细化，它们是模板匹配的起点，如图13所示。对于左上角的CPMV，上方子块1310的底部N行1312和左侧子块1314的右侧M行1316形成用于模板匹配细化的模板。对于右上角的CPMV，上方子块1320的底部N行1322形成用于模板匹配细化的模板。对于左下角的CPMV，左侧子块1330的右侧N行1332形成用于模板匹配细化的模板。N和M可以根据CU的大小来设计。

提出的方法3：子块运动改进的范本

在JVET-V0099中，上方和左侧参考子块根据子块仿射运动导出。之后，导出的参考块的上方N行和左侧M行被用来形成ARMC的范本。被旋转物体覆盖的块通常有很高的机会被仿射模式编译码。因此，仿射编译码块的相邻块通常也采用仿射模式进行编译码。为了使ARMC更有效，如果当前块被编译码为仿射模式，建议对相邻参考块执行导出的仿射模型。

在一个实施例中，对上方和左侧的相邻参考子块进行当前块的仿射模型，然后，相邻子块的仿射变换后的参考块的底部N行或最右侧的M行被用来形成ARMC的范本。与JVET-V0099不同，所提出的方法在执行仿射模式后对相邻子块进行采样。N和M可以是根据CU大小或图片大小设计的任一整数值。

图14示出根据本发明的一个实施例的如果当前块被编译码为仿射模式则在相邻参考块上使用导出的仿射模型的示例。在图14中，块1412对应于当前图片1410中的当前块，其中A、B、C、D、E、F和G是当前块顶部和左侧的边界子块。图片1420对应参考块，A′、B′、C′、D′、E′、F′和G′是根据子块运动的边界子块的对应参考子块。在JVET-V0099中，在找到相邻的参考子块(即A′、B′、C′、D′、E′、F′和G′)后，子范本藉由直接参考相邻参考子块(即，Aref、B ref、C ref、D ref、E ref、F ref和G ref)的上方行和左侧行，如图9所示。

在相应的设计中。H′、I′、J′、K′、L′、M′、N′和O′是根据子块运动对相邻子块进行仿射变换的参考块。在所提出的方法中，覆盖上方子范本的子块首先由导出的仿射模型(即块H′、I′、J′和K′)进行细化。之后，细化子块的底部N行用于形成相应子块的子范本。覆盖左侧子范本的子块首先由导出的仿射模型(即块L′、M′、N′和O′)进行细化。之后，细化子块的右侧M行用于形成相应子块的子范本。

在一个实施例中，相邻参考块的中心位置用于根据当前块的仿射模型推导对应参考块的运动偏移量。在另一个实施例中，相邻参考块的预定位置用于根据当前块的仿射模型推导对应参考块的运动偏移量。例如，左上、右上或左下位置。

上述技术也可以应用于任一其他使用模板匹配相关算法对子块模式进行运动细化或列表重新排序的工具。

任一前述提出的方法都可以在编码器和/或译码器中实现。例如，所提出的任一方法都可以在编码器和/或译码器的仿射帧间预测模块(例如，图1A中的帧间预测112或图1B中的MC 152)中实现。或者，所提出的任一方法都可以实现为耦合到编码器和/或译码器的仿射帧间预测模块的电路。

图15示出根据本发明的实施例的视讯编译码系统独立地细化CPMV或角子块运动的示例性流程图。流程图中所示的步骤可以实现为可在编码器侧的一个或多个处理器(例如，一个或多个CPU)上执行的程序代码。流程图中所示的步骤也可以基于硬件来实现，诸如被布置为执行流程图中的步骤的一个或多个电子设备或处理器。根据该方法，在步骤1510中，与当前块相关联的输入数据被接收，其中输入数据报括在编码器侧待编码的当前块的像素数据或在译码器侧待解碼的与当前块相关联的已编译码数据，以及当前块以仿射模式进行编译码。在步骤1520中，当前块的两个或更多个控制点运动向量(CPMV)或两个或更多个角子块运动被决定。在步骤1530中，所述两个或更多个CPMV或所述两个或更多个角子块运动被独立地细化以生成两个或更多个细化的CPMV。在步骤1540中，包括所述一个或多个细化的CPMV的合并列表或高级运动向量预测(AMVP)列表被生成。在步骤1550中，当前块使用从合并列表或AMVP列表选择的运动候选进行编码或译码。

图16示出根据本发明的实施例的视讯编译码系统使用基于仿射变换的参考块的模板对合并候选集合重新排序的示例性流程图。根据该方法，在步骤1610中，与当前块相关联的输入数据被接收，其中输入数据报括在编码器侧待编码的当前块的像素数据或在译码器侧待解碼的与当前块相关联的已编译码数据，以及该当前块以仿射模式进行编译码。在步骤1620中，对当前块决定的仿射模型被应用于当前块的相邻参考子块，以导出相邻参考子块的仿射变换参考块。在步骤1630，基于仿射变换参考块，一个或多个范本被决定。在步骤1640中，基于使用所述一个或多个模板测量的相应成本值，合并候选集合被重新排序，以导出重新排序的合并候选集合。在步骤1650中，当前块使用从包括重新排序的合并候选集合的合并列表中选择的运动候选进行编码或译码。

所示流程图旨在说明根据本发明的视讯编译码的示例。在不脱离本发明的精神的情况下，本领域技术人员可以修改每个步骤，重新排列步骤，拆分步骤或组合步骤来实施本发明。在本公开中，特定的语法和语义被用来说明示例以实现本发明的实施例。技术人员可藉由用等效的语法和语义代替上述语法和语义来实施本发明，而不背离本发明的精神。

呈现上述描述是为了使本领域普通技术人员能够实施在特定应用及其要求的上下文中提供的本发明。对所描述的实施例的各种修改对于本领域技术人员来说将是显而易见的，并且本文定义的一般原理可以应用于其他实施例。因此，本发明不旨在限于所示和描述的特定实施例，而是要符合与本文公开的原理和新颖特征相一致的最宽范围。在以上详细描述中，为了提供对本发明的透彻理解，说明了各种具体细节。然而，本领域的技术人员将理解，本发明可被实施。

如上所述的本发明的实施例可以以各种硬件，软件代码或两者的组合来实现。例如，本发明的一个实施例可以是集成到视频压缩芯片中的一个或多个电路或集成到视频压缩软件中的程序代码以执行本文描述的处理。本发明的实施例还可以是要在数字信号处理器(Digital Signal Processor，简称DSP)上执行以执行本文描述的处理的程序代码。本发明还可以涉及由计算机处理器，数字信号处理器，微处理器或现场可程序设计门阵列(field programmable gate array，简称FPGA)执行的许多功能。这些处理器可以被配置为藉由执行定义本发明所体现的特定方法的机器可读软件代码或韧体代码来执行根据本发明的特定任务。软件代码或韧体代码可以以不同的程序设计语言和不同的格式或样式开发。软件代码也可以对不同的目标平台进行编译。然而，软件代码的不同代码格式，风格和语言以及配置代码以执行根据本发明的任务的其他方式将不脱离本发明的精神和范围。

在不背离其精神或本质特征的情况下，本发明可以以其他特定形式体现。所描述的示例在所有方面都仅被认为是说明性的而不是限制性的。因此，本发明的范围由所附申请专利范围而不是由前述描述指示。在申请专利范围的等效含义和范围内的所有变化都应包含在其范围内。

Claims

1.一种视讯编译码方法，该方法包括：

接收与一当前块相关联的输入数据，其中该输入数据报括在一编码器侧待编码的一当前块的像素数据或在一译码器侧待解碼的与该当前块相关联的一已编译码数据，以及该当前块以一仿射模式进行编译码；

决定该当前块的两个或更多个控制点运动向量或两个或更多个角子块运动；

独立地细化该两个或更多个控制点运动向量或所述两个或更多个角子块运动以生成两个或更多个细化的控制点运动向量；

生成包括该一个或多个细化的控制点运动向量的一合并列表或一高级运动向量预测列表；以及

使用从该合并列表或该高级运动向量预测列表中选择的一运动候选对该当前块进行编码或译码。

2.如权利要求1所述之视讯编译码方法，其中，使用一译码器侧运动向量细化方案或一多遍次译码器侧运动向量细化方案来细化该两个或更多个控制点运动向量或该两个或更多个角子块运动。

3.如权利要求2所述之视讯编译码方法，其中，与该两个或更多个控制点运动向量或该两个或更多个角子块运动中的每一个相关联的一N×N区域用于双边匹配，以及其中N是一正整数。

4.如权利要求3所述之视讯编译码方法，其中，N取决于该当前块的块大小或图片大小。

5.如权利要求3所述之视讯编译码方法，其中，该NxN区域的大小与该当前块的仿射子块大小相同，以及该NxN区域与该当前块的一对应仿射子块对齐。

6.如权利要求3所述之视讯编译码方法，其中，该NxN区域以一相应控制点运动向量的一位置为中心。

7.如权利要求1所述之视讯编译码方法，其中，该两个或更多个控制点运动向量用于导出该两个或更多个角子块运动。

8.如权利要求1所述之视讯编译码方法，其中，该两个或更多个控制点运动向量或该两个或更多个角子块运动使用模板匹配来细化。

9.如权利要求8所述之视讯编译码方法，其中，该模板匹配使用以每个相应控制点运动向量位置为中心的一NxN区域内的多个样本，排除该当前块中的多个当前样本和其他多个未译码样本，作为一个或多个模板。

10.如权利要求8所述之视讯编译码方法，其中，该模板匹配使用的多个样本来自一对应的角子块的上方紧邻的一相邻子块的底下N行样本，或者来自一对应的角子块的左侧紧邻的一相邻子块的右侧M行样本，其中N和M为正整数。

11.一种用于视讯编译码的装置，该装置包括一个或多个电子电路或处理器，用于：

12.一种视讯编译码方法，该方法包括：

将对该当前块决定的一仿射模型应用于该当前块的多个相邻参考子块，以导出该等相邻参考子块的多个仿射变换参考块；

基于该等仿射变换参考块决定一个或多个范本；

基于使用该一个或多个模板测量的相应成本值，对一合并候选集合重新排序，以导出重新排序的一合并候选集合；以及

使用从包括重新排序的该合并候选集合的一合并列表中选择的一运动候选对该当前块进行编码或译码。

13.如权利要求12所述之视讯编译码方法，其中，该等相邻参考子块包括该当前块的多个上方相邻参考子块和多个左侧相邻参考子块。

14.如权利要求13所述之视讯编译码方法，其中，该一个或多个模板包括该等上方相邻参考子块的底部N行和该左侧相邻参考子块的右侧M行，其中N和M为正整数。

15.如权利要求14所述之视讯编译码方法，其中，N和M取决于该当前块的块大小或图片大小。

16.一种用于视讯编译码的装置，该装置包括一个或多个电子电路或处理器，用于：

基于该等仿射变换参考块决定一个或多个范本；