CN102099831A

CN102099831A - 通过平滑块伪影改进压缩视频信号的质量的系统和方法

Info

Publication number: CN102099831A
Application number: CN2009801283433A
Authority: CN
Inventors: 李奥那多·T·布朗顿; 葛瑞·兰卡斯特; 丹尼·D·罗蔚; 麦特·夏伍德
Original assignee: Headplay Barbados Inc Barbados
Current assignee: Headplay Barbados Inc Barbados
Priority date: 2008-07-19
Filing date: 2009-07-16
Publication date: 2011-06-15
Also published as: BRPI0916325A2; CA2731241A1; MX2011000691A; AU2009273706A1; MA32494B1; JP2011528873A; EP2319012A4; TW201016012A; KR20110038142A; EP2319012A1; US20100014596A1; ZA201100639B; WO2010009539A1

Abstract

本发明涉及系统和方法，其中对于给定量的需要表示压缩视频信号的数据，如由典型的人类观察者察觉到的，提高了未被压缩显示的实时视频的质量。这里的系统和方法通过减弱块的出现实现这种改进，而不一定需要事先知道它们的位置。这里描述的这些方法减弱了这些块的出现，使得由HVS察觉到的所产生的实时视频的质量被提高。

Description

通过平滑块伪影改进压缩视频信号的质量的系统和方法

技术领域

本发明涉及数字视频信号，更具体地涉及通过将视频信号分离成去块(Deblock)区和细节区(Detail region)、以及通过平滑去块区，来提高压缩数字视频信号的质量的系统和方法。

背景技术

众所周知的是，与表示文本信息或声频信号的所需要的数字数据的量相比，视频信号由大量的数字数据所表示。因此当数字视频信号以高比特率传输时，尤其是当这些比特率必须对应于视频显示装置所需要的实时数字视频信号时，数字视频信号占据相当大的带宽。

尤其是，在例如为电缆或者光纤的通信信道上同时传输和接收大量的不同的视频信号常常是通过以在不同的通信信道中共享可用带宽的方式频分复用或者时分复用这些视频信号来实现。

数字化的视频数据通常在根据国际认同的格式标准(例如MPEG2、MPEG4、H264)的格式化的媒体文件中嵌入音频和其它数据。这些文件通常在互联网上分布和多路传输，并且分别存储在计算机的数字存储器、移动电话、数码摄像机中以及存储在光碟(CD)和数字化视频光盘(DVD)上。许多这些装置被物理上的难以察觉地结合到单个装置中。

在创建格式化的媒体文件的过程中，对文件数据进行各种级别和类型的数字压缩以降低它们再现所需要的数字数据的量，由此减少所需要的记忆存储量以及减少当与许多其它视频文件多路复用时的准确可靠的同时传输所需要的带宽。

互联网提供一个特别复杂的传输视频数据的例子，其中当终端用户从中央服务器下载视频文件的传输过程中，视频文件以许多不同的方式沿着许多不通的信道(即路径)多路传输。然而，在几乎所有的情况下，对于给定的原始数据视频源和给定的终端用户的接受和显示视频的质量，期望使获得的视频文件被压缩至最小可能的尺寸。

格式化的视频文件可以表示完全数字化的影片。影片文件可以“按需”下载以用于立即显示和实时观看，或者用于存储在终端用户的例如为数码摄像机的记录装置中，用于将来实时观看。

这些视频文件的视频部分的压缩不仅由于传输的目的而节约了带宽，还减少了存储这些影片文件所需要的总存储量。

在上述通信信道的接收终端，典型的是使用单用户计算和存储装置。这些单用户装置的目前不同的例子为个人计算机和数字机顶盒，它们中的每个或全部典型地输出连接到终端用户的视频显示装置(例如TV)，直接或间接输入连接到有线铜分布电缆线(即有线电视)。典型地，该电缆同时传输数百个实时多路传输的数字视频信号，并且常常输入连接到一个光纤电缆，该光纤电缆从视频节目的本地分发服务器传输来自地面站的视频信号。终端用户的卫星天线也用来接受广播视频信号。不论终端用户使用的是通过地球线缆还是卫星所传输的视频信号，终端用户数字机顶盒或者等同设备通常被用来接收数字视频信号，以及选择要观看的特定的视频信号(即所谓TV频道或者TV节目)。这些传输的数字视频信号常常为压缩数字格式，并且因此必须在由终端用户接收后进行实时解压缩。

大多数的视频压缩方法通过仅保留原始未压缩的视频信号的数字近似值而减少了数字视频数据的量。

因此，在压缩之前的原始视频信号与被压缩的视频信号之间存在着较大差异。该差异被定义为视频失真。对于给定的视频压缩方法，由于通过为这些方法选择不同参数而降低被压缩的视频数据的数据量，视频失真的程度几乎总是变大。即，视频失真随着压缩程度的增加而趋于增加。

随着视频压缩程度的增加，视频失真最终对于人类视觉系统(HVS)变得可视的，并且最终该失真在选择的显示装置上对于实时视频的通常观众而言变得明显的令人不愉快。被观察到的该视频失真为所谓的伪影。视频伪影是HVS所解读出的不属于原始未压缩的视频场景中的观察到的视频内容。

已有用于在压缩过程中或者在压缩之后从压缩视频中显著减少明显的令人不愉快的伪影的方法。这些方法中的大多数仅适用于使用基于块的二维(2D)离散余弦转换(DCT)或其近似法的压缩方法。下文中，我们称这些方法为基于DCT的。在这种情况下，迄今为止的最明显的令人不愉快的伪影是在显示的视频场景中出现的伪影块。

已有通常通过查找块或者通过需要块在视频的每个帧的位置的先验知识而减轻伪影块的方法。

对于视频数据已经预先被压缩和解压缩可能超过一次、或者视频数据已经预先被调整了大小、转换了格式或者再混了颜色的广泛发生的情况下，减轻视觉上令人不愉快的伪影的出现的问题尤其困难。例如，视频数据可能已经从NTSC重新被格式化为PAL格式，或者从RGB格式转换为YCrCb格式。在这些情况下，几乎肯定不知道伪影块的位置的先验知识，因此基于该知识的方法不起作用。

用于减轻视频伪影的出现的方法必须不明显增加表示被压缩视频数据所需要的数据总量。这一约束是主要的设计难题。例如，在显示的视频的每个帧中的每个像素的三色中的每个颜色通常用8比特来表示，因此每个有色像素总计为24比特。例如，如果在压缩的最大限度(此时有明显的令人不愉快的伪影)，H264(基于DCT)视频压缩标准能够实现在其低端对应于大约每个像素一比特的1/40的视频数据的压缩。因此这对应于优于40x24＝960的平均压缩率。任何用于减轻视频伪影的方法在该压缩率时相对于每像素一比特的1/40必须因此增加不显著数量的比特，当压缩比如此高以致于每像素的平均比特数典型地小于一比特的1/40时，需要用于减轻块伪影的出现的方法。

对于基于DCT的和其它的基于块的压缩方法，最严重的明显令人不愉快的伪影为通常的随着时间、大小和方向变化的小矩形块的形式，该变化取决于视频场景的局部时空特性。特别地，伪影块的性质取决于视频场景中的目标的局部运动和那些目标包含的空间细节的量。对于一特定的视频，随着压缩比的增加，基于MPEG的基于DCT的视频编码器逐渐地分配较少的比特给代表每个块内的像素的强度的所谓量化基础。每个块中分配的比特的数目取决于与HVS有关的大量的心理视觉知识。例如，视频目标的形状和边缘以及它们运动的光滑的时间轨迹在心理视觉方面是重要的，因此如在所有基于MPEG DCT的方法中，必须分配比特以确保它们的保真度。

随着压缩程度的增加，并且出于保持上述保真度的目的，压缩方法(在所谓的编码器中)最终给每个块分配恒定(或者几乎恒定)的强度，这就是通常最明显的令人不愉快的块伪影。预计，如果伪影块比它们最接近的相邻块之间的相对均一强度大3％，那么包含这些块的空间区域是明显的令人不愉快的。在通过使用基于块的DCT型方法而严重压缩的视频场景中，许多帧的大片区域包含这样的块伪影。

发明内容

本发明涉及一种系统和方法，其中对于给定量的需要表示压缩视频信号的数据，如由典型的人类观察者察觉到的，提高了未被压缩显示的实时视频的质量。这里的系统和方法通过减弱块的出现实现这种改进，而不一定需要事先知道它们的位置。在一些实施方式中，这里描述的这些方法减弱了这些块的出现，使得如HVS察觉到的，所产生的实时视频的质量被改进。

就压缩视频和非压缩视频之间的强度差异而言，块状区域可能不是整个视频失真的数学度量的最大促成者。在视频的细节区中通常有显著的数学失真，但是其利用如下事实：HVS不像察觉由于块伪影导致的失真一样察觉这种失真。

在在此公开的实施方式中，该方法的第一步骤是将每个帧的数字表示分离成两部分，即去块区和细节区。该方法的第二步骤是在去块区上操作以减弱块状伪影从而产生平滑的去块区。该方法的第三步骤是重新组合平滑的去块区和细节区。

在一个实施方式中，去块区的识别通过选择候选区开始，然后使用一套标准将每个候选区与其周围的相邻区域比较，这些标准例如是：

a.强度平坦标准(F)

b.不连续标准(D)，和

c.向前看/向后看标准(L)。

上文已经相当宽泛地概述了本发明的特征和技术优势，以便下文中本发明的具体描述可以更易被理解。本发明的另外特征和优势将在下文中描述，并形成本发明的权利要求的主题。本领域的技术人员应当可以领会到，所公开的构思和具体实施方式可以作为基础，用于修改或设计其它结构，以实现本发明的相同目的。本领域技术人员还应当体会到这些等同构造并不偏离在所附的权利要求中所述的本发明的精神和范围。根据下文的描述并结合考虑所附的附图将更好地理解在结构和操作方法方面被认为是本发明的特点的新特征、以及另外的目标和优势。然后，可以清楚地理解提供的每个附图仅是出于阐述和描述的目的，而非用于定义限制本发明。

附图说明

为了更全面地理解本发明，可以结合附图参考下文的描述，其中：

图1示出了典型的块状图像帧；

图2示出了图1的去块区(以黑色表示)和细节区(以白色表示)的图像；

图3示出了在帧中选择分离的像素的一个示例；

图4显示了候选像素C_i的一个闭合区，候选像素C_i相距x像素，并且候选像素C_i由于不满足去块标准而属于细节区DET；

图5显示了通过使用9像素交叉蒙版将一个块分配到去块区的一方法的一个实施方式；

图6示出了在图像帧的特定位置使用的9像素交叉蒙版(crossed mask)的一个示例；

图7示出了用于获得改进的视频图像质量的方法的一个实施方式；

图8示出了使用本文中所讨论的概念的一个实施方式。

具体实施方式

公开的实施方式的一个方面是通过使用平坦度标准(flatness criteria)和不连续标准(discontinuity criteria)识别视频信号的每个帧中的去块区域，以减轻实时视频信号中块伪影的出现。可以结合使用另外的梯度标准(gradient criteria)来进一步改善鲁棒性。使用这些概念，由于与被减少的文件大小相关联的伪影的视觉效果被降低，视频文件的大小(或者在视频信号的传输中需要的比特数)能够被降低。。

进行这些概念的方法的一个实施方式包括与视频信号的图像帧相关的三个部分：

1.识别去块区(DEB)的步骤，将去块区从所谓细节区DET中区分开来；

2.对去块区DEB进行处理，以通过空间上平滑来减轻去块区中的块伪影的出现；以及

3.将在第2部分中获得的当前平滑的去块区合并到细节区的步骤。

在该实施方式的方法中，空间平滑操作不对去块区之外进行处理：相当于，其不对细节区进行处理。如将在下文中所讨论的，使用方法来确定空间平滑处理已经到达去块区DEB的边界，以便平滑不在去块区之外发生。

预先已经经受过基于块类型的视频压缩(例如基于DCT的压缩)和解压缩、以及可能经过调整大小和/或格式变换和/或颜色再混处理过的视频信号，典型地包含明显的令人不愉快的块伪影残留，该块伪影首先在先前的压缩操作中发生。因此，仅通过减轻那些在最后的或当前的压缩操作中产生的块的出现是不可能完全实现块诱发的伪影的移除。

在许多情况下，关于这些先前创建的块的位置的先验信息是得不到的，并且位于未知位置的块常常促成了令人不愉快的伪影。该方法的实施方式通过不需要关于块的位置的先验知识的标准来识别要被去块的区。

在一个实施方式中，使用了强度平坦化标准方法，以及使用强度不连续标准和/或强度梯度标准来识别每个视频帧的将被去块的去块区，而不需要具体的寻找或识别单个块的位置。每个帧的去块区通常包括各种大小和形状的许多不连接的子区。该方法仅依靠图像帧内的信息来识别该图像帧中的去块区。在该识别后，图像帧的保留区被定义为细节区。

视频场景由视频目标构成。这些目标典型地依据它们的强度边缘的位置和运动以及它们的内部的纹理而被区分和识别(通过HVS和相关的神经响应)。例如，图1示出了包含明显的令人不愉快的块伪影的典型的图像帧10，当实时显示时，块伪影同样出现在对应的视频剪辑中。典型地，在一秒钟的片段中，HVS察觉并识别在对应视频剪辑中的原始目标。例如，脸目标101和其子目标(例如眼睛14和鼻子15)与帽子一起被HVS快速识别，帽子又包含子目标，例如带状物13和帽沿12。HVS将脸的大的空旷的内部识别为具有非常少的细节并且特征在于其颜色和平滑描影的皮肤纹理。

块伪影虽然在图1的图像帧中不能清晰地可见，但是其在相应的电子显示实时视频信号中清楚地可见，块伪影具有各种大小，它们的位置并不局限于在最后的压缩操作中所产生的块的位置。仅减轻那些在最后的压缩操作过程中所产生的块常常是不够的。

该方法利用了HVS能特别察觉到那些位于图像的相对大的空旷的区域的块伪影(和它们的相关边缘的强度不连续)并对其敏感的心理视觉性质，其中在该原始图像的空旷区域中有着几乎不变的强度或者平稳变化的图像强度。例如，在图1中，HVS相对不能察觉到位于帽子的条纹之间的任何块伪影，但是特别能察觉到在脸上的大的空旷的平滑描影的皮肤区域中出现的块伪影并且对其敏感，而且也对帽沿的左侧(下方)大的空旷的区域中的块伪影敏感。

作为HVS对块伪影敏感的另一个例子，如果HVS察觉到均匀着色的平面阴影表面的视频图像，例如被照明的墙，那么超过大约3％的块边缘强度不连续就是明显的令人不愉快的，而在高度纹理目标的视频图像中的类似的块边缘的强度的不连续，例如草叶的高度纹理区，通常对于HVS而言是不可见的。减轻大的空旷的平滑强度区域中的块要比减轻高空间细节区域中的块更重要。该方法利用了HVS的这一特性。

然而，如果上述墙被遮挡，仅露出小部分的单独的区域，HVS再次相对不能觉察到块伪影。即，HVS对于这些块较不敏感，因为尽管它们位于平滑强度的区域，这些区域不够大。该方法利用了HVS的这一特性。

将这一方法应用到图像帧的结果是，图像被分离成至少两个区：去块区和其余的细节区。该方法可以分级使用，以便上述第一被识别出的细节区本身接着又被分离成第二去块区和第二细节区，如此递推。

图2示出了识别去块区(以黑色表示)和细节区(以白色表示)的结果20。眼睛14、鼻子15和嘴属于脸目标的细节区(白色)，如同具有条纹的细节纹理的帽子的大部分右侧区。然而，帽子的左侧的大部分是几乎恒定强度的区域，因此属于去块区，而帽沿12的边缘为强烈的不连续区，且对应于细节区的细线部分。

如同在下文中所描述的，使用标准来确保去块区是HVS最能察觉并对块伪影敏感的区域，并因此为将被去块的区。然后细节区就是HVS对块伪影不特别敏感的区域。在这一方法中，去块区的去块可以通过空间强度平滑来实现。该空间强度平滑处理可以通过低通量滤波器或者通过其它方式来实现。强度平滑显著减轻了被平滑区域的所谓高空间频率，并因此显著降低了与块阴影的边界相关的强度的边缘不连续。

该方法的一个实施方式使用空间不变低通量滤波器来对被识别出的去块区进行空间平滑。所述滤波器可以是无穷脉冲响应(IIR)滤波器或者有限脉冲响应(FIR)滤波器或者上述滤波器的组合。这些滤波器是典型的低通量滤波器，并被用来减轻去块区的所谓的高空间频率，由此平滑强度，减轻块伪影的出现。

上述去块区DEB和细节区DET的定义不妨碍对一个区或两个区的进一步的信号处理。特别地，使用该方法，能够将DET区进一步分离成新的DET1区和DEB1区，其中DEB1区是第二个去块区(DEB1∈DET)，与用于去块DEB的方法或滤波器相比，可能使用不同的去块方法或者不同的滤波器。DEB1和DET1显然是DET的子区。

识别去块区(DEB)常常需要能够实时运行视频的识别算法。对于这样的应用，与使用相对少的MACs/s和使用整数的简单逻辑语句的识别算法相比，高计算复杂度(例如使用每秒大量的乘积累加操作(MACs)的识别算法)常常较不令人满意。该方法的实施方式使用相对少的MACs/s。类似地，该方法的实施方式保证了进出片外存储器的大量数据的交换最小化。在该方法的一个具体实施方式中，用于确定区DEB(因此也确定了DET)的识别算法利用了这样的事实：严重压缩视频剪辑中的大多数的明显的令人不愉快的块在它们的整个内部具有几乎恒定的强度。

在该方法的一个实施方式中，通过在帧中选择候选区C_i来开始去块区DEB的识别。在一个实施方式中，这些区C_i在空间大小上与一个像素一样小。其它实施方式可以使用大小大于一个像素的候选区C_i。每个候选区C_i通过一组标准与其周围的相邻区进行对照测试，如果符合标准，使得C_i被分类到图像帧的去块区DEB。如果C_i不属于去块区，则其被设为属于细节区DET。注意，这并不意味着所有C_i的集合等于DEB，而仅意味着它们形成了DEB的子集。

在该方法的一个实施方式中，用于确定C_i是否属于去块区DEB的这套标准可以分类如下：

a.平坦强度标准(F)，

b.不连续标准(D)，和

c.向前看/向后看标准(L)。

如果满足上述标准(或者它们的任何有用组合)，候选区C_i就被分配到去块区(即C_i∈DEB)。如果不满足，那么候选区C_i被分配到细节区DET(C_i∈DET)。在一个特定的实施方式中，例如当对特定的视频剪辑去块时，所有三种类型的标准(F、D和L)并不都是必须的。另外，这些标准根据图像帧的局部性质来调整。所述局部性质可以是统计学上的或者它们可以具有与编码器/解码器相关的性质，例如压缩和解压缩的部分处理中使用的量化参数或者运动参数。

在该方法的一个实施方式中，由于计算效率的原因，选择候选区C_i，以使候选区稀疏散布于图像帧中。这具有明显减少每个帧中的候选区C_i的数目的作用，由此，降低算法复杂性和提高算法的计算能力(即速度)。

图3示出了对于帧的小区域被选择的稀疏分布的像素，这些像素可以被用来根据标准检验图1的图像帧。图3中，像素31-1至31-6在水平和垂直方向上都距它们的相邻像素7个像素。这些像素为原始图像中像素的数目的大约1/64，这意味着用来识别去块区的任何基于像素的算法仅对每个帧中的像素数目的1/64进行运算，由此相对于对每个像素测试标准的方法，降低了复杂性，提高了计算能力。

在该说明性的示例中，将图1的去块标准应用到图3中的稀疏分布的候选区，获得如图4中所示的对应的稀疏分布的C_i∈DEB。

在该方法的一个实施方式中，整个去块区DEB从上述的稀疏分布的候选区C_i∈DEB“扩大”到周围的区域。

例如，通过设定N为7像素，使图2中的去块区的识别从图4中的稀疏分布的C_i进行“扩大”，由此使得稀疏分布的候选区像素C_i“扩大”为图2中的更大的去块区，该区具有更连续连接的性质。

上述扩大处理在空间上连接稀疏分布的Ci∈DEB以形成整个去块区DEB。

在该方法的一个实施方式中，上述扩大处理是基于合适的距离长度而进行的，该距离长度为像素与最近的候选区像素C_i之间的水平或垂直距离。例如，对候选区像素C_i选择在竖直和水平方向上相距7像素，获得如图2所示的去块区。

作为一种增强，对细节区DET进行扩大处理，以将细节区DET扩展到先前确定的去块区DEB中。这可用于防止空间上恒定的低通平滑滤波器的交叉蒙版突出到原始细节区，并由此避免可能产生不期望的“光晕”效果。如果这样，细节区可能在其扩展边界中包含未被减轻的块或其部分。这不成为实际问题，因为HVS对这样的接近细节区的块伪影相对不敏感。

可以使用替换的距离度量标准。例如，可以使用这样的度量标准，该度量标准对应于以候选区C_i为中心的给定直径的圆内的图像帧的所有区域。

通过上述或者其他扩大方法获得的去块区具有包围(即空间覆盖)要被去块的部分图像帧的特性。

通过形象化上述的扩大处理，整个去块区DEB(或者整个细节区DET)能够通过由环绕的扩大区G_i(Surrounding Grown region)环绕每个候选区C_i(符合标准C_i∈DEB或者C_i∈DET)来确定，因此，整个去块区DEB(或者整个细节区DET)是所有C_i和所有G_i的并集。

相当于，整个去块区能够逻辑地表示成

DET = \underset{i}{\cup} ((C_{i} &NotElement; DET) \cup G_{i}) = \underset{i}{\cup} ((C_{i} &Element; DEB) \cup G_{i})

其中∪是所述区的并集，而DET仅是图像帧的其余部分。可选择地，整个细节区DET可以根据

通过限定候选区(使用)而被确定。

如果扩大环绕区G_i(图3中的32-1至32-N)足够大，则它们可以与相邻的区重叠或接触，以产生一个去块区DEB，该去块区在图像帧的扩展的区域上连续。

该方法的一个实施方式如图5所示，使用了9像素的交叉蒙版(crossed-mask)以识别候选区像素C_i，该候选区像素C_i将被分配到去块区或者分配到细节区DET。在该实施方式中，候选区C_i是1x1像素大小(即单个像素)。交叉蒙版的中心(像素51)在像素x(r，c)，其中(r，c)指的是像素的行和列位置，强度x典型地由x∈[0，1，2，3，...255]给出。注意的是该实施方式中，交叉蒙版由两个相互垂直的单像素宽的线组成，从而形成一个+(交叉)。

图5中的8个独立的平坦标准由ax、bx、cx、dx、ay、by、cy和dy标记，并且应用在8个对应的像素位置。接下来，在交叉蒙版52的内部和可选的交叉蒙版52的外部应用不连续(即梯度强度)标准。

图6示出了在图像帧60内的特定位置使用9像素交叉蒙版52的示例。在一个特定的位置来说明，并且大体上在图像帧的多个位置用标准来检验交叉蒙版52。对于特定的位置，例如图像帧60的位置61，根据标准使用交叉蒙版52的中心和8个平坦强度标准ax、bx、cx、dx、ay、by、cy和dy。

用于这8个平坦标准的特定的识别算法可以是那些本领域技术人员所公知的算法。符合8个平坦标准，则用逻辑符号ax∈F、bx∈F，...，dy∈F表示。如果符合，对应区域根据采用的任何平坦强度标准均“足够平坦”。

可以使用下列示例逻辑条件来确定是否每个候选像素x(r，c)都满足全部的平坦标准：

如果

(ax∈F和bx∈F)或者(cx∈F和dx∈F) (1)

以及

(ay∈F和by∈F)或者(cy∈F和dy∈F) (2)

那么

C_i∈平坦。

等同地，上述布尔语句在下列三个条件中的至少一个的条件下，使得语句C_i∈平坦为真：

a)交叉蒙版52位于9像素区域上，该区域是完全足够平坦的强度，因此，包括足够平坦的区域，52完全位于块的内部

或者

b)交叉蒙版52覆盖四个位置之一的不连续点

(r+1，c)或者(r+2，c)或者(r-1，c)或者(r-2，c)

而在剩余的三个位置满足平坦标准

或者

c)交叉蒙版52覆盖四个位置之一的不连续点

(r，c+1)或者(r，c+2)或者(r，c-1)或者(r，c-2)

而剩余的三个位置满足平坦标准。

在上述过程中，正如识别候选像素所需要的，不管位置在哪，交叉蒙版52在空间上覆盖块的不连续边界、或者块的部分，同时保持语句C_i∈平坦为真。

一个对上述逻辑的更详细的解释如下。当(1)和(2)中所有的括号内的语句为真，条件a)为真。假设b)中给出的位置中有一个不连续，那么语句(2)为真，因为括号内的语句中的有一个为真。假设c)中给出的位置中有一个不连续。那么语句(1)为真，因为括号内的语句中有一个为真。

通过使用上述布尔逻辑，当交叉蒙版52跨越了块的边界轮廓或者块的一部分的不连续点时，不管其位置在哪，都符合平坦标准。

用于确定平坦标准F(应用于候选像素C_i)的特定算法的使用对于该方法而言不关键。然而，为了获得高计算能力，一个示例算法对ax、bx、cx、dx、ay、by、cy和dy使用简单的数学平坦标准为，即，“水平相邻的和竖直相邻的像素之间的强度的第一前部差异(first-forward difference)的大小”。例如，2D连续的x(r，c)在竖直方向上的第一前部差异是简单的x(r+1，c)-x(r，c)。

上文讨论的平坦标准有时不足以正确地识别每个视频信号中的每个帧的每个区中的区DEB。现在假设对于C_i的候选像素而言符合上述平坦条件C_i∈平坦。那么，在该方法中，可以在压缩前和压缩后使用大小不连续标准来改善块的边界伪影部分的不连续和属于存在于原始图像中的需要的细节的非伪影不连续之间的区分。

大小不连续标准(Magnitude-Discontinuity Criterion)方法设置了一个简单的阈D，小于该阈时，不连续被假定为块伪影。用其强度x表示C_i的像素x(r，c)，大小不连续标准的形式如下：

dx＜D，

其中dx为交叉蒙版52的中心(r，c)的强度的不连续的大小。

需要的D的值能够从压缩算法的帧内量化步骤大小推测出，帧内量化步骤大小可以从解码器和编码器中获得或者从已知的被压缩文件大小估计出。通过该方法，等于或大于D的原始图像中的转换对于块伪影的边界来说是正确的，因此被错误地去块了。将该条件与平坦条件结合获得了一个有力的条件。

发现D值为x(r，c)的强度范围的10％至20％时能够在宽范围的各种类型的视频场景中使得块伪影满意地减轻。

Ci∈平坦，且dx＜D。

几乎总是存在非伪影不连续(因此不应被去块)，因为它们存在于未被压缩的视频帧中。这样的非伪影不连续可以满足dx＜D，也可能位于引起环绕区产生C_i∈平坦的位置，根据上述标准，这将导致所述不连续满足上述标准，由此被错误地分类到去块区，并因此被错误的平滑。然而，所述非伪影不连续对应于高度局部的图像细节。实验证实，这样的错误去块对于HVS是典型地令人不愉快的。然而，为了显著降低这种错误去块的罕见例子的可能性，可以使用该方法的下列向前看(Look-Ahead)(LA)和向后看(Look-Behind)(LB)实施方式。

实验发现，在特定的视频图像帧中，可能存在一组特定的数值条件，在该条件下，原始视频帧中的需要的原始细节满足上述局部平坦和局部不连续条件的要求，并因此被错误地识别(例如，遭受错误去块和错误平滑)。相当于，C_i的一小部分被错误地分配到DEB，而不是被分配到DET。例如，在目标的边缘的(在未被压缩的原始图像帧中)强度的竖直方向的变换能够满足去块的平坦条件和不连续条件。这有时会在显示的对应的实时视频信号过程中导致明显的令人不愉快的伪影。

下列LA和LB标准是可选的，能校正上述特定的数值条件。它们是通过测量从交叉蒙版52到交叉蒙版52之外的合适的位置的图像的强度改变而完成的。

如果符合上述标准C_i∈平坦和dx＜D，并且也超出了“向前看LA”的阈值标准或者“向后看LB”的阈值标准L，那么候选C_i像素就不被分配到去块区。以导数的幅值表示，LA和LB标准的一个示例是：

如果

(dxA≥L)或者(dxB≥L)或者(dxC≥L)或者(dxD≥L)

那么

C_{i} &NotElement; DEB

上文中，表达方式例如(dxA≥L)仅意指，如从位置(r，c)到像素A的位置dx所测量出的LA幅值梯度的幅值或者变化标准dx在此情况下大于或等于阈值数L。另外三个表达方式的含义类似，但是相对于像素在位置B、C和D。

上述LA和LB标准的作用是确保去块不在强度幅值改变为L或更大的特定距离内发生。

这些LA和LB约束条件具有降低可能的错误去块的期望效果。LA和LB约束条件还足以防止不期望的在强度梯度幅值高的紧邻区域去块，而不考虑平坦和不连续标准。

通过结合上述三组标准而获得的用于将在C_i的像素分配至去块区DEB的组合标准的一个实施方式，可以表达为下列示例标准：

如果

C_i∈平坦且x＜D且((dxA＜L和dxB＜L和dxC＜L和dxD＜L))

那么

C_i∈DEB

作为该方法的一个实施方式，上述的事实可以通过使用短整型快速逻辑运算的硬件来确定。对各种类型的许多视频进行上述标准的评估证实了其在正确识别去块区DEB方面的鲁棒性(也因此正确识别互补的细节区DET)。

许多预先处理过的视频具有“展开”的块边缘不连续点。当明显的令人不愉快时，展开的块边缘不联系点在竖直和/或水平方向上占据超过一个像素。这将引起不正确地将块边缘不连续点分类到去块区，这将在下文的示例中描述。

例如，考虑水平的1像素宽的幅值为40的不连续点，该不连续点分离满足C_i∈平坦的平坦强度区域，产生于从x(r，c)＝100至x(r，c+1)＝140，并且标准不连续阈值D＝30。不连续的幅值为40，并且这超过了D，表明像素x(r，c)不属于去块区DEB。考虑如果其为从x(r，c)＝100向x(r，c+1)＝120向x(r，c+2)＝140展开的不连续，该相同的幅值为40的不连续点将如何分类。在这一情况下，在(r，c)和x(r，c+1)的不连续点的每个幅值为20，并且由于其未超过值D，这导致错误去块的发生。即，x(r，c)和x(r，c+1)将被错误地被分配到去块区DEB。

类似的展开边缘不连续点可能存在于竖直方向。

更通常地，所述展开不连续点占据2像素，尽管在一些严重压缩的视频信号中也发现占据3像素的。

用于正确地对展开边缘不连续点分类的本方法的一个实施方式是使用扩大类型的上述9像素交叉蒙版52，其可以用来识别和由此对展开的不连续边界去块。例如，图5的9像素交叉蒙版52所识别出的所有的候选区为1像素大小，但是对于整个交叉蒙版不能使用类似逻辑而被在空间上扩大(例如，伸展)是没有理由的。因此，ax，bx，...等相隔2像素，并环绕一个2x2像素的中间区。上述合并的像素级别的去块条件仍然有效，并被设计成在下列三个条件中的至少一个成立的条件下C_i∈平坦：

d)交叉蒙版52(M)位于一个20像素区域上，该区域是完全的足够平坦的强度，因此，包括足够平坦的区域，在该区域内M完全位于块的内部，

或者

e)交叉蒙版52在四个1x2像素位置中的一个处位于2像素宽的不连续点上

(r+2：r+3，c)或者(r+4：r+5，c)或者(r-2：r-1，c)或者(r-4：r-3，c)

同时剩余的三个位置满足平坦标准

或者

f)交叉蒙版52在四个2x1像素位置中的一个处位于2像素宽的不连续位置

(r，c+2：c+3)或者(r，c+4：c+5)或者(r，c-2：c-1)或者(r，c-4：c-3)

同时在剩余三个位置满足平坦标准。

以这种方式，根据需要，交叉蒙版M能够覆盖块的1像素宽的边界以及展开的2像素宽的边界，不管他们的位置在哪，同时保持语句C_i∈平坦为真。用于20像素的交叉蒙版的计算的最小数量与用于9像素类型的相同。

具体有许多变量，可以通过这些变量确定上述的平坦和不连续标准。例如，用于“平坦”的标准可以包括统计量度，例如方差、平均值和标准偏差以及异常值的去除，典型的是额外的计算成本和较慢的计算能力时。类似地，限定不连续可以包括强度的分数改变，而不是绝对改变，并且交叉蒙版M可以被扩大为允许不连续点在两个方向上扩展数个像素。

上述标准的特定变量涉及强度的分数改变而不是绝对改变。这很重要，因为公知的是HVS以近似线性的方式对强度的分数改变进行响应。对上述方法进行若干的修改以适用于分数改变，并由此改善去块的感知，尤其是在图像帧的暗区。它们包括：

i.代替将图像强度x(r，c)直接用于候选像素C_i用于平坦和不连续标准处理，而是全部使用强度的对数C_i＝log_b(x(r，c))，其中底数b可以是10或者自然指数e＝2.718...

或者

ii.代替直接使用强度差异的幅值，而是直接使用分数差异作为用于平坦度、不连续、向前看和向后看的全部或部分标准。例如，平坦度标准可将下列形式的绝对强度阈值e

|x(r+1，c)-x(r，c)|＜e

修改为包含相对强度的阈值，例如为下列形式的相对阈值e_R：

e_{R} &equiv; (e + \frac{x (r, c)}{I_{MAX}})

其中，在示例中，我们使用e＝3，I_max＝255，这是x(r，c)所能假设的最大强度。

候选区C_i必须对图像帧的2D空间进行足够密集的采样，以便大多数的块伪影的边界不会由于采样过疏而漏掉。考虑到基于块的压缩算法确保了大多数块的大多数边界在两个方向上被至少4像素所分开，因此可以使用该方法在每个方向上每隔4像素对图像进行二次采样，使得不遗漏几乎所有的块边界不连续点。还发现实际中在每个方向上高达8个像素也可以很好的起作用。这显著的降低了计算开销。例如，在每个方向上每隔4像素进行二次采样，获得属于去块区的不连续的点的集合。该方法的一个实施方式中采用这样的二次采样。

假设候选像素在两个方向上分离L像素。于是去块区可以根据稀疏分布的候选像素，而被定义为包围所有的候选像素点的L×L的正方形块的区。这利用有效算法容易实现。

一旦去块区被识别出来，可以对去块区域进行各种去块策略，以减轻产生明显令人不愉快的感觉的区块效应。一个方法是对去块区进行平滑操作，例如，通过使用空间上恒定的低通IIR滤波器或者空间上恒定的低通FIR滤波器或者基于FFT的低通滤波器。

该方法的一个实施方式在平滑处理之前对原始图像帧进行降采样，在平滑后接着上采样至原始分辨率。这一实施方式获得快速的全部平滑，因为对较少数量的像素进行平滑处理。

除了某些滤波器例如递归移动平均(即BOX)2D滤波器，2D FIR滤波器的计算复杂度随着需要进行的平滑的程度的增加而增加。这样的FIR平滑滤波器需要许多MACs/s，其近似与平滑的程度成正比。

对应于每像素至少11次加法和多达11次的乘法，高压缩视频(例如，量化参数q＞40)典型地需要级别大于11的FIR滤波器，以获得足够的平滑效果。可以通过较低级别的IIR滤波器，典型地级别为2，而获得类似的平滑程度。本方法的一个实施方式使用IIR滤波器用于平滑去块区。

另一个用于平滑的方法类似于上述方法，除了平滑滤波器是空间上可变的(即空间适应的)，这样以使滤波器的交叉蒙版随着空间位置而改变，以便不与细节区重叠。在这种方法中，滤波器的级别(和因而交叉蒙版的大小)随着与细节区的边界的接近而适应性地减小。

交叉蒙版的大小也可以根据局部统计信息而改变，以获得需要程度的平滑，然而增加了计算开销。该方法使用空间上可变程度的平滑，以使得滤波器的响应不能覆盖(以及因此扭曲失真)细节区或者不能穿透小细节区以围绕细节区的边缘产生不期望的“光晕”效果。

本方法的另一个改进是在上述a)中对所有关键帧的细节区DET进行“扩大”处理，这样DET围绕其边界扩展。可以使用本文中所描述的用于扩大的方法以扩展边界，或者使用其它本领域技术人员所公知的方法。在这一另外的改进中，获得的扩展的细节区EXPDET被用作相邻图像帧的细节区，在该区域中其覆盖这些帧的画布图像CAN。这增加了计算能力，并降低了计算复杂性，因为这仅需要识别在关键帧中的细节区DET(及其扩展EXPDET)。用EXPDET代替DET的优势是EXPDET与DET相比能更有效的覆盖高速移动目标。对于一个给定视频信号，这使得关键帧被分隔的更远，并由此提高了计算能力，降低了复杂性。

在本方法中，细节区DET可以在其边界被扩展，以空间上覆盖由用来对去块区去块所进行的平滑操作所产生的任何“光晕”效果，并由此使得其不可见。

在本方法的另一个实施方式中，使用空间上可变的2D递归移动平均滤波(即所谓的2D BOX滤波)，其具有2D Z变换转移函数

H (z_{1}, z_{2}) = \frac{(1 - {z_{1}}^{- L_{1}}) (1 - {z_{2}}^{- L_{2}})}{(1 - {z_{1}}^{- 1}) (1 - {z_{2}}^{- 1})} \frac{1}{L_{1} L_{2}}

这有助于2D级别(L₁，L₂)的快速递归2DFIR滤波。相应的2D递归FIR输入-输出差分方程为

y (r, c) = y (r - 1, c) + y (r, c - 1) - y (r - 1, c - 1) + . . .

\frac{1}{L_{1} L_{2}} [x (r, c) + x (r - L_{1}, c) + x (r, c - L_{2}) + x (r - L_{1}, c - L_{2})]

其中y为输出且x为输入。该实施方式的优势在于具有低算法复杂度并且独立于滤波程度。

在该方法的特定示例中，级别参数(L₁，L₂)是空间上可变的(即，上述2DFIR移动平均滤波的空间性可改变以避免平滑滤波的响应与细节区DET重叠)。

图7示出了例如为方法70的方法的实施方式，通过使用上文中讨论的概念，以改善视频图像质量。用于执行该方法的一个系统可以是，例如，通过软件、固件或者通过在图8所示的系统80中运行的或者在处理器82-1和/或84-1的控制下的专用集成电路(ASIC)进行的。步骤701确定去块区。当所有去块区被找到(这由步骤702所确定)，步骤703接着识别所有去块区，并隐含识别所有细节区。

接着步骤704开始平滑，使得步骤705确定何时到达第N个去块区的边界，并且步骤706确定何时第N个区的平滑已经完成。步骤708通过为值N加1而索引区，继续进行步骤704至707，直至步骤707确定所有去块区已经被平滑处理过。然后步骤709将被平滑过的去块区与各自的细节区合并，已获得改善的图像帧。注意的是不必等到直到所有的去块区都被平滑才开始合并步骤，因为如果需要，这些操作可以并行地进行。

图8示出了使用在此讨论的概念的一个实施方式。在系统80中，视频和音频提供为输入81。其可来自本地存储(未示出)，或者接收自来自另一位置的视频数据流。该视频可以以多种形式出现，例如通过现场广播流，或者视频文档，并且可以在由编码器82接收之前被预压缩。编码器82使用这里描述的过程在处理器82-1的控制下处理视频帧。编码器82可以输出到文档存储装置(未示出)，或者传输为视频流，可能通过网络83到达例如解码器84的解码器，。

如果超过一个视频流被传输至解码器884，那么可以通过调谐器84-2选择数字流的各种信道，以用于根据本文中讨论的处理进行解码。处理器84-1控制解码，解码输出视频流可以存储在存储器85中，或者通过一个或多个显示器86显示，或者根据需要分布(未示出)至其它位置。注意，各种视频信道可以从单个位置例如从编码器82发出，或者从不同位置(未示出)发出。从解码器至编码器的传输可以使用有线或无线传输以任何公知的方式进行，同时保持传输介质上的带宽。

尽管本发明及其优势已经被详细描述，应当理解的是能够进行各种变化、替代或改变而不偏离如所附的权利要求的所定义的本发明的精神和范围。此外，本发明的范围并不旨在限制于本发明中所描述的过程、机器、制造、物质组分、装置、方法和步骤的特定实施方式中。如本领域普通技术人员容易地从本发明所公开的内容领会到，根据本发明可以使用现有的或后来开发出的、与本文所描述的对应的实施方式具有基本相同的功能或者获得基本相同的结果的过程、机器、制造、物质组分、装置、方法或步骤来实现。因此，所附的权利要求旨在将这样的过程、机器、制造、物质组分、装置、方法或步骤包括在该范围内。

Claims

1.一种从图像帧中移除伪影的方法，所述伪影对HVS具有视觉破坏性，所述方法包括：

将每个图像帧的数字表示分离成去块区和细节区，所述去块区被去块，所述细节区保持基本上不去块。

2.根据权利要求1所述的方法，还包括：

平滑每个所述图像帧的所述去块区；和

将已平滑的去块区与所述不去块的细节区结合，以形成比预分离的图像帧对HVS具有更小的视觉破坏性的新的图像帧。

3.根据权利要求2所述的方法，其中所述分离包括用于确定所述去块区的下列标准中的至少一个：强度-平坦度；不连续；向前看；向后看。

4.根据权利要求3所述的方法，其中所述标准的参数选择为对被压缩过的图像帧进行伪影减轻，伪影块的位置是先验未知的。

5.根据权利要求4所述的方法，其中所述伪影块由于下列原因中的一个或多个而存在于所述被压缩过的视频帧中：先前被压缩多次；重排图像帧的格式；对图像帧进行了颜色混合；调整了图像帧的大小。

6.根据权利要求3所述的方法，其中所述强度平坦标准使用统计量度，所述统计量度包括强度的局部方差和局部均值。

7.根据权利要求3所述的方法，其中强度变化标准是基于强度的分数变化。

8.根据权利要求2所述的方法，其中所述平滑包括：进行空间平滑以减弱所述去块区。

9.根据权利要求2所述的方法，其中所述平滑包括：减弱所述去块区的块和其他伪影。

10.根据权利要求1所述的方法，其中所述分离发生在基于DCT的编码器内。

11.根据权利要求2所述的方法，其中所述平滑包括下列中的至少一个：FIR滤波、IIR滤波。

12.根据权利要求11所述的方法，其中所述滤波是空间上可变的或者空间上不可变的。

13.根据权利要求11所述的方法，其中所述平滑包括：至少一移动平均FIR 2D Box滤波。

14.根据权利要求2所述的方法，其中所述平滑包括：

用于确保平滑不会在所述去块区的边界之外发生的方式。

15.据权利要求1所述的方法，其中所述分离递归地将所述图像帧分离成去块区和细节区。

16.根据权利要求1所述的方法，其中所述分离包括：

选择候选区；和

根据某一标准在由所选择的候选区选择的候选物的基础上确定所选择的候选区是否属于所述去块区。

17.根据权利要求16所述的方法，其中所述候选区稀疏分布在每个图像帧中。

18.根据权利要求17所述的方法，其中分离的细节区被扩展，以允许对所述去块区进行空间上不变的滤波，而不会在所述细节区周围导致光晕效应。

19.根据权利要求18所述的方法，其中所述扩展包括：

将每个候选像素生长成环绕的矩形像素。

20.根据权利要求1所述的方法，其中分离的细节区被扩展，以允许对所述去块区进行空间上不变的滤波，而不会在所述细节区周围导致光晕效应。

21.根据权利要求2所述的方法，其中所述平滑包括：

使用N像素的交叉蒙版。

22.根据权利要求21所述的方法，其中N为等于9。

23.根据权利要求2所述的方法，其中所述平滑包括：

使用扩张的交叉蒙版用于对具有展开边缘不连续的视频信号进行去块。

24.一种用于呈现视频的系统，所述系统包括：

用于获得第一视频帧的输入，所述第一视频帧的每像素有特定的比特量；所述特定量为使得当所述视频帧被呈现于显示器时所述显示会产生人类视觉系统(HVS)可察觉的伪影的数量；和

用于从所述第一视频帧产生第二视频帧的电路，当所述第二视频帧被呈现至所述显示器时，所述第二视频帧产生的伪影不能被所述HVS察觉。

25.根据权利要求24所述的系统，其中所述特定量扩展至0.1比特/像素的低点。

26.根据权利要求24所述的系统，其中所述特定量是通过使用H.264编码器压缩所述第一视频帧而提供的比特/像素的数。

27.根据权利要求25所述的系统，其中所述特定量是通过H.264编码器实现的比特数量的至少1/2。

28.根据权利要求24所述的系统，其中所述产生电路包括：

用于将所述视频帧分成细节区和去块区的分离装置；和

用于在结合所述两个区以形成所述第二视频帧之前平滑所述去块区的装置。

29.根据权利要求28所述的系统，还包括：

允许用户从多个数字视频流中选择一个数字视频流的调谐器，每个所述视频流包括多个数字视频帧。

30.根据权利要求28所述的系统，其中所述平滑装置包括：

具有一定的交叉蒙版尺寸的空间不变的FIR滤波器；和

用于防止所述空间上不变的滤波器平滑所述细节区的处理器。

31.根据权利要求30所述的系统，其中所述处理器操作以将所述细节区扩张至大致等于所述交叉蒙版尺寸的1/2的距离。

32.根据权利要求28所述的系统，其中所述平滑装置包括：

空间上可变的FIR滤波器。

33.根据权利要求28所述的系统，其中所述分离装置包括：

使用下列标准中的至少一个进行处理以确定所述去块区：强度平坦；不连续；向前看；向后看。

34.根据权利要求33所述的系统，其中所述标准的参数选择为，对被压缩过的图像帧进行伪影减轻，其中伪影块的位置是先验未知的。

35.根据权利要求34所述的系统，其中所述伪影块是由于下列中的一个或多个原因而存在于所述被压缩过的视频帧中：预先被压缩多次；重排图像帧的格式；对图像帧进行了颜色混合；调整图像帧的大小。

36.根据权利要求33所述的系统，其中所述强度平坦标准使用统计量度，所述统计量度包括强度的局部方差和局部均值。

37.根据权利要求33所述的系统，其中强度变化标准是基于强度的分数变化。

38.根据权利要求28所述的系统，其中所述平滑装置包括：

处理器，其可操作用于空间上平滑以减弱所述去块区。

39.根据权利要求28所述的系统，其中所述平滑装置包括：

处理器，用于减弱所述去块区中的块和其他伪影。

40.根据权利要求28所述的系统，其中所述用于分离的装置是基于DCT编码器的一部分。

41.根据权利要求28所述的系统，其中所述平滑装置包括以下至少一个：FIR滤波器；和IIR滤波器。

42.根据权利要求41所述的系统，其中所述滤波器是空间上可变的或者空间上不可变的。

43.根据权利要求28所述的系统，其中所述平滑装置包括：

至少一个移动平均FIR 2D Box滤波器。

44.根据权利要求28所述的系统，其中所述分离装置递归地将所述图像帧分离成去块区和细节区。

45.根据权利要求28所述的系统，其中所述分离装置包括：

用于选择候选区的装置；和

用于根据某一标准在由所选择的候选区选择的候选物的基础上确定所选择的候选区是否属于所述去块区的装置。

46.根据权利要求45所述的系统，其中所述候选区稀疏分布在每个图像帧中。

47.一种用于呈现视频的方法，所述方法包括：

获得具有每像素特定比特量的第一视频帧，所述特定量为使得当所述视频帧被呈现于显示器时所述显示器产生人类视觉系统(HVS)可察觉的伪影的数量；并且

从所述第一视频帧生成第二视频帧，当所述第二视频帧被呈现于所述显示器时，所述第二视频帧产生的伪影不能被所述HVS察觉。

48.根据权利要求47所述的方法，其中所述特定量扩展至0.1比特/像素的低点。

49.根据权利要求47所述的方法，其中所述生成包括：

在每个所述帧中分离细节区和去块区；和

平滑所述去块区；和

将所述平滑的去块区与所述分离的细节区结合。

50.根据权利要求49所述的方法，其中所述平滑包括：

使用具有特定交叉蒙版尺寸的空间上不可变的FIR滤波器；和

将所述细节区扩展至少等于所述交叉蒙版尺寸的1/2的距离，以避免在所述去块区和所述细节区之间的边界产生光晕效应。

51.根据权利要求50所述的方法，还包括：

在设备处接收多个数据视频流，每个所述流具有多个所述数字视频帧；和

所述获得包括：

在所述设备处选择所述接收的数字视频流中的一个。