HK1243251B

HK1243251B - 用於高动态范围图像的内容自适应感知量化器

Info

Publication number: HK1243251B
Application number: HK18102276.1A
Authority: HK
Inventors: J．弗若里奇; 苏冠铭; R．阿特金斯; S．戴勒; J.S.米勒
Original assignee: 杜比实验室特许公司; 杜比国际公司
Priority date: 2015-03-02
Filing date: 2016-03-01
Publication date: 2021-05-28

Description

用于高动态范围图像的内容自适应感知量化器

相关申请的交叉引用

本申请要求2015年3月2日提交的美国临时申请No.62/126,925的优先权，该美国临时申请No.62/126,925通过其整体引用而特此合并。

技术领域

本发明一般地涉及图像。更特别地，本发明的实施例涉及具有高动态范围的图像的内容自适应感知量化。

背景技术

如这里所使用的，术语‘动态范围’(DR)可以涉及人类视觉系统(HVS)感知图像中的强度(例如，亮度、luma)的范围(例如从最暗的暗色(黑色)到最亮的白色(高亮))的能力。在这个意义上，DR涉及‘参考场景的’强度。DR也可以涉及显示设备充分地或者近似地呈现特定宽度的强度范围的能力。在这个意义上，DR涉及‘参考显示的’强度。除非特定的意义在这里的描述中的任何点被明确地指定为具有特定的含义，否则应当推断该术语可以在任一意义上(例如，可互换地)使用。

如这里所使用的，术语高动态范围(HDR)涉及跨越人类视觉系统(HVS)的一些14-15数量级的DR宽度。在实际中，人类可以在其上同时感知强度范围中的广泛宽度的DR可能相对于HDR稍微截短。如这里所使用的，术语增强动态范围(EDR)或者视觉动态范围(VDR)可以单独地或者可互换地涉及场景或者图像内由包括眼睛运动的人类视觉系统(HVS)可感知的DR，其允许跨场景或者图像的一些光适应改变。如这里所使用的，EDR可以涉及跨越5至6数量级的DR。因此，虽然相对于真实的参考场景的HDR可能稍微略窄，但是EDR代表广的DR宽度并且也可以称作HDR。

在实际中，图像包括一个或多个颜色分量(例如，亮度Y以及色度Cb和Cr)，其中每个颜色分量由每个像素n位的精度代表(例如，n＝8)。使用线性亮度编码，其中n≤8的图像(例如，彩色24位JPEG图像)被看作标准动态范围的图像，而其中n>8的图像可以被看作增强动态范围的图像。EDR和HDR图像也可以使用高精度(例如，16位)浮点格式(诸如由Industrial Light and Magic开发的OpenEXR文件格式)存储和分发。

对于给定显示器的基准电光传递函数(EOTF)表征输入视频信号的颜色值(例如，亮度)与由显示器产生的输出屏幕颜色值(例如，屏幕亮度)之间的关系。例如，通过其整体引用而包括在这里的ITU Rec.ITU-R BT.1886，“Reference electro-optical transferfunction for flat panel displays used in HDTV studio production”，(03/2011)基于所测量的阴极射线管(CRT)的特性定义用于平板显示器的基准EOTF。给定视频流，关于它的EOTF的信息典型地作为元数据嵌入在位流中。如这里所使用的，术语“元数据”涉及作为编码位流的部分而传输并且帮助解码器呈现解码图像的任何辅助信息。如这里描述的那些，这种元数据可以包括，但不限于，颜色空间或者色域信息、基准显示器参数以及辅助信号参数。

大多数消费者桌面显示器当前支持200至300cd/m²或者尼特的亮度。大多数消费者HDTV在从300至500尼特的范围变化，其中新型号达到1000尼特(cd/m²)。因此这种传统显示器象征较低动态范围(LDR)，也称作标准动态范围(SDR)(相对于HDR或者EDR而言)。随着HDR内容的可用性由于捕获装备(例如，照相机)和HDR显示器(例如，来自杜比实验室的PRM-4200专业基准监视器)二者的进展而增长，可以对HDR内容进行颜色分级并且将其显示在支持较高动态范围(例如，从1,000尼特到5,000尼特或更多)的HDR显示器上。这种显示器可以使用支持高亮度能力(例如，0至10,000尼特)的替代EOTF定义。这种EOTF的示例定义在SMPTE ST2084:2014“High Dynamic Range EOTF of Mastering Reference Displays”(其通过其整体引用而合并在这里)中。一般地，但不限于，本公开的方法涉及高于SDR的任何动态范围。如这里由发明人领会的，期望用于高动态范围的感知量化的改进技术。

在该章节中描述的方法是可以追求的方法，但是不一定是先前已构想或者追求的方法。因此，除非另外表明，不应当假定在该章节中描述的任何方法仅由于它们包括在该章节中而有资格作为现有技术。类似地，除非另外表明，关于一个或多个方法而识别的问题不应当基于该章节而假定已经在任何现有技术中被认识到。

附图说明

本发明的实施例在附随附图的图中通过示例的方式、而不以通过限制的方式而例示，并且其中相似的标号指的是类似的元素，并且其中：

图1A描绘用于视频递送流水线的示例处理；

图1B描绘根据本发明的实施例的用于使用内容自适应量化的数据压缩或者再成形(reshape)的示例处理；

图2描绘根据本发明的实施例的用于内容自适应感知量化的示例处理；

图3描绘根据本发明的实施例的用于噪声掩蔽(mask)生成的示例处理；

图4描绘根据本发明的实施例的基于场景的噪声掩蔽直方图；

图5描绘根据本发明的实施例的将噪声掩蔽水平(level)映射到所需要的信号位深的映射函数的示例；

图6A和图6B描绘根据本发明的实施例的所计算的规范化码字分配的示例；

图6C描绘根据本发明的实施例的自适应感知量化映射的示例；以及

图7描绘根据本发明的实施例的用于码字映射的示例处理。

具体实施方式

这里描述用于高动态范围(HDR)图像的感知量化的内容自适应技术。在下面的描述中，出于解释的目的，阐明许多具体的细节以便提供本发明的透彻理解。然而，将清楚的是，本发明可以在没有这些具体细节的情况下被实践。在其它实例中，众所周知的结构和设备没有以详尽的细节描述，以便避免不必要地封闭、模糊或者混淆本发明。

概述

这里描述的示例实施例涉及图像的自适应感知量化。内容自适应量化器处理器接收具有输入位深的输入图像。噪声掩蔽生成处理被应用于输入图像以生成噪声掩蔽图像，该噪声掩蔽图像在输入图像中的每个像素在掩蔽量化噪声中的感知相关性方面表征每个像素。基于输入图像和噪声掩蔽图像生成噪声掩蔽直方图。掩蔽噪声水平到位深函数被应用于噪声掩蔽直方图以对噪声掩蔽直方图中的每个区间(bin)生成最小位深值。基于输入位深、目标位深和最小位深值生成码字映射函数。码字映射函数被应用于输入图像以生成目标位深的输出图像，该目标位深低于输入位深。

示例视频递送处理流水线

图1A描绘传统的视频递送流水线(100)的示例处理，其示出从视频捕获到视频内容显示的各个阶段。视频帧(102)的序列使用图像生成框(105)捕获或者生成。视频帧(102)可以(例如，由数字照相机)数字地捕获或者由计算机(例如，使用计算机动画)数字地生成以提供视频数据(107)。替代地，视频帧(102)可以由胶片照相机捕获在胶片上。胶片被转换成数字格式以提供视频数据(107)。在制作阶段(110)，编辑视频数据(107)以提供视频制作流(112)。

制作流(112)的视频数据然后在框(115)处提供到处理器用于后期制作编辑。框(115)后期制作编辑可以包括调整或者修改图像的特定区域中的颜色或者明度以根据视频创作者的创作意图实现图像的特定外观或者增强图像质量。这有时称作“颜色调整”或者“颜色分级”。其它编辑(例如，场景选择和排序、图像剪裁、计算机生成的视觉特效的添加等)可以在框(115)处执行以产生最终的制作版本(117)用于分发。在后期制作编辑(115)期间，视频图像在基准显示器(125)上观看。

在后期制作(115)之后，最终制作(117)的视频数据可以递送到编码框(120)，用于向下游递送到解码和回放设备，诸如电视机、机顶盒、电影院等。在一些实施例中，编码框(120)可以包括音频和视频编码器，诸如由ATSC、DVB、DVD、Blu-Ray或者其它递送格式定义的那些，以生成编码的位流(122)。在接收器中，编码的位流(122)由解码单元(130)解码以生成代表信号(117)的相同或者接近近似的解码信号(132)。接收器可以附接到可以具有与基准显示器(125)完全不同的特性的目标显示器(140)。在那种情况下，可以使用显示管理框(135)以通过生成显示映射信号(137)将解码信号(132)的动态范围映射到目标显示器(140)的特性。

信号量化

当前，用于视频递送的大多数数字接口，诸如串行数字接口(SDI))被限制为每个分量每个像素12位。而且，大多数压缩标准，诸如H.264(或者AVC)和H.265(或者HEVC)被限制为每个分量每个像素10位。因此，在现有基础设施和压缩标准内，需要高效的编码和/或量化以支持动态范围从近似0.001至10,000cd/m²(或者尼特)的HDR内容。

这里使用的术语“PQ”指的是感知亮度幅度量化。人类视觉系统以非常非线性的方式响应增加的光水平。人类看到刺激的能力受那个刺激的亮度、刺激的大小、构成刺激的空间频率以及在他观看刺激的特定时刻眼睛已适应的亮度水平所影响。在优选实施例中，感知量化器函数将线性输入灰度水平映射到更好地匹配人类视觉系统中的对比敏感度阈值的输出灰度水平。PQ映射函数(或者EOTF)的示例在SMPTE ST 2084:2014，“High DynamicRange EOTF of Mastering Reference Displays”中描述，其通过其整体引用而合并在这里，其中给定固定的刺激大小，对于每个亮度水平(即，刺激水平)，根据最敏感的适应水平和最敏感的空间频率(根据HVS模型)选择那个亮度水平处的最小可见对比步长。与代表物理阴极射线管(CRT)设备的响应曲线并且巧合地可能具有与人类视觉系统响应的方式非常粗略的相似性的传统伽马曲线相比较，PQ曲线使用相对简单的函数模型模拟人类视觉系统的真实视觉响应。

例如，在SMPTE ST 2084下，在1cd/m²处，一个12位码值对应于近似0.0048cd/m²的相对改变；然而，在1,000cd/m²处，一个12位码值对应于近似2.24cd/m²的相对改变。需要这种非线性量化以适合于人类视觉系统(HVS)的非线性对比敏感度。

感知量化的EOTF的另一个示例在J.Stessen等人的“Chromaticity based colorsignals for wide color gamut and high dynamic range”(ISO/IEC JTC1/SC29/WG11MPEG2014/M35065，Oct.2014，其通过其整体引用而合并在这里)中展示。

HVS的对比敏感度不仅取决于亮度而且还取决于图像内容的掩蔽特性(最特别是噪声和纹理)以及HVS的适应状态。换言之，取决于图像的噪声水平或者纹理特性，可以利用比由PQ或者伽马量化器预测的那些大的量化步长对图像内容进行量化，因为纹理和噪声掩蔽量化伪影。PQ量化描述HVS可以做的最好情况，这在图像中不存在噪声或者掩蔽时发生。然而，对于许多图像(视频帧)，存在显著的掩蔽。

除了噪声和纹理掩蔽之外，也可以考虑诸如光学耀斑和局部适应的视觉行为的其它特性以增加量化的水平并且允许以每个颜色分量10位或者更低代表HDR图像。如这里所使用的，术语“内容自适应PQ”或者简称“自适应PQ”表示基于它们的内容自适应地调整图像的感知量化的方法。

图1B描绘根据实施例的用于自适应PQ的示例处理。给定输入帧(117)，正向(forward)再成形框(150)分析输入和编码约束，并且生成将输入帧(117)映射到重新量化的输出帧(152)的码字映射函数。例如，可以根据某个EOTF对输入(117)进行伽马编码或者PQ编码。在一些实施例中，可以使用元数据将关于再成形处理的信息传达到下游设备(诸如解码器)。在编码(120)和解码(130)之后，解码的帧(132)可以通过反向(backward)再成形函数(160)处理，反向再成形函数(160)将重新量化的帧(132)转换回到原始EOTF域(例如，伽马或者PQ)，用于进一步的下游处理，诸如先前讨论的显示管理处理(135)。在一些实施例中，反向再成形函数(160)可以与解码器(130)中的解量化器集成在一起，例如，作为AVC或者HEVC视频解码器中的解量化器的部分。

自适应PQ

图2描绘根据本发明的实施例的用于内容自适应感知量化的示例处理。如图2中所描绘的，给定图像的序列(例如，视频帧)(117)，框(205)用来生成噪声掩蔽图像，该噪声掩蔽图像在输入图像中的每个像素在掩蔽量化噪声中的感知相关性方面表征每个像素。噪声掩蔽图像，与原始图像数据相组合，在步骤(210)中被用于生成噪声掩蔽直方图。框(215)估计对于在步骤(210)中生成的直方图的每个区间所需要的最小位数，并且最后，码字映射框(220)计算映射函数以将输入信号(117)转化成它的量化输出。接下来更详细地描述这些步骤中的每一个。

噪声掩蔽生成

自适应PQ的基本构思是要在有噪或者具有高纹理的图像的区域中分配较少的位，并且在被感知为无噪或者较平滑的图像的区域中分配较多的位。给定输入图像(117)，噪声掩蔽生成框(205)对于图像中的每个像素生成掩蔽噪声的估计。在一些实施例中，输入(117)可能已经使用基于PQ或者伽马的量化器进行编码。在一些其它实施例中，输入图像(117)可能处于线性空间中。图3描绘根据实施例的噪声掩蔽生成的示例处理。一些其它实施例可以使用本领域中已知的用于测量图像中的局部熵的替代方法(诸如移动窗口上的熵滤波、移动窗口上的标准偏差滤波或者移动窗口上的范围滤波)生成噪声掩蔽。

令I_jp表示输入序列(117)中第j帧中的量化之中的颜色分量(例如，亮度)的第p像素，规范化到[0 1)。令v_Lj和v_Hj表示该帧中的最小和最大像素值，或者

v_Lj＝min{I_jp}，

v_Hj＝max{I_jp}。 (1)

如图3中所描绘的，在框(305)中，将第一低通滤波器应用于图像帧I_j。在实施例中，该滤波器模仿人类视觉系统的特性。取决于可用的计算能力，该滤波器可以在从比如箱式滤波器或者高斯滤波器的非常简单的滤波器到比如实现皮层变换的那些的更复杂的滤波器组的范围变化。在实施例中，第一滤波器可以是具有支持范围r_L和方差的二维高斯滤波器(例如，r_L＝9并且或者r_L＝33并且)。然后，它的输出(L)可以表达为

其中符号表示卷积。给定第一滤波器的输出，输入帧的高频分量可以在框(310)中被提取为

框(310)的输出然后可以由第二低通滤波器(315)再次滤波，以生成噪声掩蔽(H)。这是要处理HVS掩蔽的低相位准确度(亦即，在掩蔽信号的零交叉处仍然存在掩蔽)。在实施例中，第二LPF也可以是具有支持范围r_H和方差的高斯滤波器(例如，r_H＝9，)。然后，噪声掩蔽(H)可以表达为

在实施例中，第一低通滤波器和第二低通滤波器的参数可以相同。在优选实施例中，第一低通滤波器和第二低通滤波器是可分离的滤波器以提高计算效率。在实施例中，可选框(320)可以用来识别在后续处理中可以忽略的H_jp像素，因为它们可能偏置自适应量化处理。例如，如果图像包括宽银幕帧(亦即，可以对原始图像成帧使得它符合特定的帧大小或者纵横比的黑色像素)，那么可以忽略与宽银幕像素相关的值。与图像边界或者宽银幕边界相关的值也可以被忽略，因为低通滤波器的输出假定这些界限处的数据利用恒定的值填充，这将生成较低的噪声值。令Ω_j表示考虑之中的所有有效像素的集合，那么最终的输出噪声掩蔽(322)可以表达为

H_j(i),i∈Ω_j。 (5)

噪声掩蔽直方图生成

令B_I表示输入图像(117)的位深(例如，B_I＝16)并且令那么0到K-1的动态范围可以划分成相等像素间隔值W的M个区间，即W＝K/M。在实施例中，对于第j帧，可以如下生成噪声直方图b_j(m)，其中m表示第m直方图区间(m＝0，1，2，…M-1)：

a)识别原始图像中具有范围中的像素值的所有像素(I_ji,i∈Ω_j)。

b)在那些像素当中，选择最小的H_j(i)，因为如先前所描述的，掩蔽标高(elevation)不是2D映射。

或者，给定

b_j(m)＝min{H_j(i)|i∈Ψ_j,m}。 (6)

注意，有时，某些区间可能是空的，因为在区间的像素范围内可能不存在任何图像像素。可以存储这些区间的索引并且将随后处理它们的状态。

可以在帧水平上或者在场景水平上调整自适应PQ值。如这里所使用的，术语视频序列的‘场景’或者‘镜头’可以涉及视频信号中共享类似颜色和动态范围特性的一系列连续帧。由于在大多数视频压缩格式中视频预测的连续性质，仅在匹配视频编码器的典型边界的边界(诸如场景改变或者新的图片组(GOP))处调整量化参数可能是优选的。因此，给定具有F个帧的场景以及基于帧的噪声掩蔽直方图b_j(m)，基于场景的噪声掩蔽直方图b(m)可以导出为

b_m＝min{b_j(m)|j＝0,1,...,F-1}。 (7)

在实施例中，假定噪声上限为1，则对于整个场景不存在像素值的噪声区间，它们可以被指派最大可能的噪声水平值1。在一些实施例中，缺失的区间也可以从相邻的区间插值。对于j＝1，2，…，F，基于场景的最小和最大像素值也可以生成为

v_L＝min{v_Lj},

v_H＝max{v_Hj}。 (8)

图4描绘对于B_I＝16和M＝64个区间的HDR场景的基于场景的噪声掩蔽直方图的示例。在该示例中，暗区域包含比中间色调和高亮高的掩蔽噪声水平。

每个直方图区间的位深计算

给定噪声掩蔽直方图中每个区间的噪声水平b_m，下一个步骤将要确定对于每个区间需要分配的位数。在实施例中，这种映射可以基于实验用户研究结果而确定。例如，在一个这种研究中，向用户示出以评估量化成不同位深的测试图像，其中高斯噪声在量化之前被添加到图像。作为示例，图5描绘使用r_L＝9并且的高斯滤波器的用户研究的结果。例如，对于2^-10的噪声掩蔽水平，所需要的位深是8位。如所期望的，图5表明具有较高水平的掩蔽噪声的图像区域可以以较小的位深实现全视觉透明。替代地，图像越平滑，对于准确并且感知无损的表示需要越多的位深。

考虑数据对的集合，i＝1，2，3，…，N，其中对于第i输入噪声水平已确定(例如，经由用户研究或者其它技术)相应的最小位深是在实施例中，这些对可以表达为掩蔽噪声到位深的函数

Q_m＝f_N(b_m)。 (9)

例如，没有限制地，使用简单线性插值，对于

在实施例中，可以使用查找表计算Q_m＝f_N(b_m)映射。在实施例中，基于直方图区间内所需要的码字的数量、而不是直接使用位深数据执行码字映射(220)可能更方便。这在下一个章节中检验。

码字映射生成

令B_T表示重新量化的信号(152)的目标位深(例如，每个颜色分量B_T＝10位/像素)，那么输出将使用个码字被映射。在实施例中，码字的范围被规范化为一，因此令

表示每个区间m的规范化的码字的数量。例如，如果Q_m＝9，B_I＝16并且B_T＝10，那么D_m＝2^-17。

令

d_i＝D_m对于(m-1)W≤i＜mW， (12)

表示每个输入的规范化的码字的数量，那么d_i可以被认为是每个输入码字的所需要的码字的数量的下限。对于所有输入码字的规范化的码字的总数量D以1为边界，或者

图6A描绘对于B_I＝16(输入码字在从0到65535的范围变化)、对于单个视频帧而计算的规范化的码字的数量(d_i(605))的示例图。该图还示出当简单地从16位截短到9个最高有效位(610)或者10个最高有效位(615)时规范化的码字的数量。如图6A中所描绘的，简单的10位截短不足以满足对于高亮范围中某些输入像素的位深要求。

令U＝1-D表示未使用的规范化的码字的数量。这些未使用的码字需要根据给定的准则重新指派给输入码字。在实施例中，没有限制地，可以采用下面的分配方案中的任何一个(或者其组合)：

i)比例分配

在该准则下，对于输入v_L≤i≤v_H，基于现有的分布指派另外的码字，或者

其中表示规范化的码字值的更新数量。

ii)恒定偏移分配

在该准则下，过剩的码字被均匀地分布，或者对于输入v_L≤i≤v_H，

iii)基于直方图的分配

令h_i表示原始输入图像的直方图，即对于v_L≤i≤v_H，h_i＝k表示P个像素当中存在具有值i的k个像素。然后，在该准则下，根据直方图值指派码字，或者对于输入v_L≤i≤v_H

在变型中，可以将输入范围分成M个子范围(例如，对于M＝3，黑色、中间色调和高亮)并且计算表示第m子范围内输入像素的总数量的直方图H_m(m＝1，2，…，M)，那么，对于属于第m像素子范围中的i

iv)基于标量的分配

这可以被认为是基于直方图的分配(例如，考虑具有仅两个区间的直方图；一个用于暗色并且一个用于高亮)与恒定偏移分配的组合。令α表示0与1之间的参数，其表示“暗色”对比“高亮”的相对重要性，那么，对于输入v_L≤i≤v_H，在该标准下

如果U＝0，那么没有码字的重新分布是可能的。在这种情景下，如随后也将讨论的，编码器可以决定要么增加目标位深，将噪声添加到输入图像以有效地减小d_i分布，要么什么都不做并且依赖于解码器和后处理滤波以减小可观察的量化噪声。剩余的处理步骤可以对数据直接操作；然而，在实施例中，这些数据可以由低通滤波器(例如，2N+1抽头均值滤波器)平滑，用于改进的性能。

令

对于i<v_L以及i>v_H，

并且

否则，其中a_k，k＝-N，-N+1，…，N，表示平滑滤波器的滤波器系数(例如，)。在实施例中，该滤波器的长度大得足以跨越至少噪声掩蔽直方图的两个连续区间的大小(例如，N＝W)。较大的滤波器将提供更好的平滑，但是需要更多的计算能力。

图6B描绘数据(620)的示例图，其代表根据恒定偏移分配方案计算的平滑的数据。在一些情况下，值的和可以超过1，因此，这些值需要再次被重新规范化为

s_i的值仍然应当满足下限约束，即

s_i≥d_i对于v_L≤i≤v_H。(20)

给定

那么，在第j帧中，对于给定的输入像素最终的规范化的重新量化的像素值s_jp可以表达为：

在实施例中，FL(i)值可以存储在预先计算的查找表(LUT)中。替代地，规范化的s_jp值也可以映射到0至的范围中的去规范化的值。基于(620)数据的FL(i)映射(630)的示例在图6C中描绘。

图7描绘码字映射处理(220)中的步骤的示例总结。给定每个噪声直方图区间(Q_m)所需要的位深(217)、输入位深(B_I)和目标位深(B_T)作为输入，步骤(705)根据等式(12)计算每个输入I_jp＝i所需要的码字的规范化数量的下限。在步骤(710)中，可以根据若干重新分布方案(例如，如由等式(14-17)所描述的)中的任何一个，重新分布任何未使用的码字。可选地，在步骤(715)中，对重新分布的数据进行滤波(例如，参见等式(18))，以生成平滑的、规范化的码字的数量，该平滑的、规范化的码字的数量在步骤(720)中用来基于累积和函数生成最终的码字映射。

基于帧的自适应量化

如先前所讨论的，根据等式(7)，在实施例中，自适应量化可以基于跨场景中的多个帧而收集的噪声掩蔽直方图数据。跨多个帧收集数据可能引入显著的延迟，这在当自适应量化需要被实时执行的环境中可能是不可接受的。在另一个实施例中，码字映射(或者再成形)可以使用来自场景中第一帧的数据执行；然而，可以周期性地调整映射以适合于场景的帧内的小变化。这种处理在表格1中的伪代码中描述。

表格1－基于帧的自适应量化

反向再成形

在一些实施例中，可以应用反向再成形(160)以反转正向再成形(150)的效果。在实施例中，用于逆量化的查找表可以如下构造：a)对于量化的域中的每个码字(s_c)，识别FL(v_i)＝s_c的所有输入码字(v_i)。令该组被表示为ω(s_c)＝{v_i|FL(v_i)＝s_c}；然后

b)构造反向再成形函数(BL(s_c))作为ω(s_c)的函数。

例如，在实施例中，没有限制地，BL(s_c)可以构造为属于ω(s_c)的所有码字的均值，或者

如果|ω(s_c)|>0，

那么

其中|ω(s_c)|表示集合ω(s_c)中的元素的数量。如果对于任何s_c值|ω(s_c)|＝0，那么在实施例中，这些值可以从其相邻非零值插值。

替代实施例

如先前所描述的，在一个实施例中，所提出的自适应量化可以在编码(压缩)步骤(120)之前执行，以适合现有编解码器的位深相关的限制。在量化之后，与再成形映射函数(630)(例如，逆映射函数)相关的数据可以作为元数据(例如，作为多段线性或者2阶多项式的系数或者作为查找表)嵌入以允许解码器执行逆映射。替代地，如果不存在可以在目标位深限制内操作的令人满意的再成形函数，那么在实施例中，本领域中已知的噪声或者抖动可以被添加到图像的原始平滑区域以提高量化误差的掩蔽。这种噪声可以根据噪声掩蔽直方图生成步骤(210)的输出而添加。

在一些实施例中，可以根据由解码器接收的信息进一步对基于内容的感知量化处理进行适应和调整。例如，如果下游设备附接到显示器，该显示器具有用于测量环境光的强度或者观看距离的传感器，那么这种信息可以向上游发送到编码器以调整用于噪声掩蔽生成(205)的滤波器或者自适应量化处理(例如，重新分布步骤)的其它参数。例如，对于高的环境光，在暗区域中需要较少的量化步长。

在一些实施例中，代替在编码器级执行噪声注入或者抖动，可以基于由编码器发送的元数据信息(例如，噪声掩蔽直方图)在解码器中执行该操作。

如具有图像处理领域中的普通技能的人员将领会到的，所提出的内容自适应量化技术可以能应用于各种其它图像处理应用，其通过应用添加的噪声、抖动或者位截短来减少位深要求。

示例计算机系统实现

本发明的实施例可以利用计算机系统，配置在电子电路和组件中的系统，诸如微控制器、现场可编程门阵列(FPGA)或者另一可配置或者可编程逻辑设备(PLD)的集成电路(IC)设备，离散时间或者数字信号处理器(DSP)，专用IC(ASIC)和/或包括这种系统、设备或者组件的一个或多个的装置实现。计算机和/或IC可以实施、控制或者执行与具有增强动态范围的图像的自适应感知量化，诸如这里描述的那些相关的指令。计算机和/或IC可以计算与这里描述的自适应感知量化处理相关的各种参数或者值中的任何一个。图像和视频实施例可以以硬件、软件、固件及其各种组合实现。

本发明的某些实现包括计算机处理器，该计算机处理器执行使处理器执行本发明的方法的软件指令。例如，显示器、编码器、机顶盒、转码器等中的一个或多个处理器可以通过执行处理器可访问的程序存储器中的软件指令实现与如上所述的HDR图像的自适应感知量化相关的方法。本发明也可以以程序产品的形式提供。程序产品可以包括任何非暂时性介质，其携载包括指令的计算机可读信号的集合，指令在由数据处理器执行时使数据处理器执行本发明的方法。根据本发明的程序产品可以是各种各样形式的任何一种。程序产品可以包括例如物理介质，诸如磁性数据存储介质(包括软盘、硬盘驱动器)、光学数据存储介质(包括CD ROM、DVD)、电子数据存储介质(包括ROM、闪速RAM)等。程序产品上的计算机可读信号可以可选地被压缩或者加密。

在组件(例如，软件模块、处理器、组装件、设备、电路等)在上面被引用的情况下，除非另外表明，对那个组件的引用(包括对“手段”的引用)应当解释为包括执行所描述组件的功能的任何组件作为那个组件的等同物(例如，在功能上等同)，包括与在所例示的本发明的示例实施例中执行功能的所公开的结构在结构上不等同的组件。

等同、扩展、替代和其它

涉及HDR图像的高效自适应感知量化的示例实施例因此被描述。在前面的说明书中，已参考可能从一个实现到另一个实现而变化的大量具体细节描述了本发明的实施例。因此，本发明是什么以及申请人预期将什么作为发明的单独和排他的指示是从本申请以权利要求发布的具体形式(包括任何随后的修正)而发布的这种权利要求的集合。在这里明确阐明的用于这种权利要求中包含的术语的任何定义将支配这种术语在权利要求中被使用时的含义。因此，不限制地，没有在权利要求中明确记载的元素、性质、特征、优点或者属性应当以任何方式限制这种权利要求的范围。因此，说明书和附图要在例示性而不是限制性的意义上被看待。

Claims

1.一种利用处理器的图像的感知量化的方法，所述方法包括：

利用处理器访问输入位深的输入图像(117)；

将噪声掩蔽生成处理(205)应用于所述输入图像以生成噪声掩蔽图像，其中，所述噪声掩蔽图像在所述输入图像中的像素与掩蔽量化噪声的感知相关性方面表征所述像素；

基于所述输入图像和噪声掩蔽图像生成噪声掩蔽直方图(212)；

对于所述噪声掩蔽直方图中的一个或多个区间，应用掩蔽噪声水平到位深函数(215)以关于掩蔽噪声水平对于所述一个或多个区间生成最小位深值；

基于所述输入位深、最小位深值和目标位深生成码字映射函数(220)；以及

将所述码字映射函数应用于所述输入图像以生成所述目标位深的输出图像，其中，所述目标位深小于所述输入位深。

2.根据权利要求1所述的方法，其中，所述噪声掩蔽生成处理包括：

将第一滤波器(305)应用于所述输入图像以生成第一滤波图像(L)；

通过计算所述输入图像与所述第一滤波图像之间的差的绝对值生成第二图像；以及

通过将第二滤波器应用于所述第二图像生成噪声掩蔽图像(H)。

3.根据权利要求2所述的方法，其中，所述第一滤波器是低通高斯滤波器。

4.根据权利要求2所述的方法，其中，所述第二滤波器是低通高斯滤波器。

5.根据权利要求2所述的方法，进一步包括：

将像素选择处理应用于所述噪声掩蔽图像以消除在量化处理中被视为非必要的像素。

6.根据权利要求1所述的方法，其中，生成所述噪声掩蔽直方图包括：

基于所述输入位深计算所述输入图像的动态范围；

将所述动态范围分成M个子范围，其中，M是大于1的整数；

对于第m子范围，其中m＝0,1,2,…,M-1：

识别所述输入图像中具有所述第m子范围内的像素值的所有像素；

对于所述第m子范围中的每个像素，

确定它在所述噪声掩蔽图像中相应的噪声掩蔽值；

确定所述第m子范围中所有像素的噪声掩蔽值的最小值；以及

将所述第m子范围中像素的噪声掩蔽值的最小值指派给所述噪声掩蔽直方图中的第m区间。

7.根据权利要求1所述的方法，其中，所述输入图像是根据伽马编码或者SMPTE ST2084而编码的高动态范围图像。

8.根据权利要求1所述的方法，其中，所述掩蔽噪声水平到位深函数根据来自感知用户研究的结果而生成。

9.根据权利要求1所述的方法，其中，生成所述码字映射函数进一步包括：

基于所述最小位深值、输入位深和目标位深生成所述目标位深的所需要的码字的规范化数量的下限；

根据分配方案将未使用的规范化码字分配给所述输入图像的整个动态范围以生成所需要的码字的更新的规范化数量；以及

通过计算所需要的码字的所述更新的规范化数量的累积和生成所述码字映射函数。

10.根据权利要求9所述的方法，进一步包括在生成所述码字映射函数之前通过低通滤波器对所需要的码字的所述更新的规范化数量进行滤波。

11.根据权利要求10所述的方法，其中，所述低通滤波器包括(2N+1)抽头均值滤波器，其中，N是正整数。

12.根据权利要求9所述的方法，其中，所述分配方案包括比例分配方案，其中，对于第i输入像素值：

其中，表示码字值的更新的规范化数量，d_i表示所需要的码字的规范化数量，D表示d_i值的和，并且U＝1-D。

13.根据权利要求9所述的方法，其中，所述分配方案包括恒定偏移分配方案，其中，对于第i输入像素值：

其中，表示码字值的更新的规范化数量，d_i表示所需要的码字的规范化数量，如果D表示d_i值的和，那么U＝1-D，v_H表示最大输入像素值，并且v_L表示最小输入像素值。

14.根据权利要求9所述的方法，其中，所述分配方案包括基于直方图的分配方案，其中，对于第i输入像素值：

其中，表示码字值的更新的规范化数量，d_i表示所需要的码字的规范化数量，h_i表示所述输入图像中具有等于i的值的像素的数量，如果D表示d_i值的和，那么U＝1-D，并且P表示所述输入图像中的考虑之中的像素的总数量。

15.根据权利要求9所述的方法，其中，所述分配方案包括基于标量的分配方案，其中，对于第i输入像素值:

其中，表示码字值的更新的规范化数量，d_i表示所需要的码字的规范化数量，如果D表示d_i值的和，那么U＝1-D，α是0与1之间的标量，v_H表示最大输入像素值，并且v_L表示最小输入像素值。

16.根据权利要求9所述的方法，其中，对于输入像素值i生成码字映射函数包括计算

其中，s_k值是基于码字值的更新的规范化数量导出的。

17.根据权利要求16所述的方法，其中，生成所述输出图像包括计算：

其中，对于所述输入图像中的像素I_p＝i，s_p表示相应的规范化的量化输出像素，v_H表示最大输入像素值，并且v_L表示最小输入像素值。

18.根据权利要求1所述的方法，其中，所述最小位深值基于跨包括所述输入图像的视频场景中的多个连续帧而计算的最小位深值计算。

19.根据权利要求9所述的方法，进一步包括：

当确定所述目标位深不能满足分配步骤时，根据所述噪声掩蔽图像将噪声或者抖动添加到所述输入图像，并且生成所需要的码字的规范化数量的较新下限以替换所需要的码字的规范化数量的下限。

20.一种用于自适应量化的系统，所述系统包括：

处理器，以及

非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质具有存储在其上的计算机可执行指令，所述计算机可执行指令在被执行时使得处理器：

接收输入帧并且根据权利要求1所述的方法生成重新量化的帧；

对所述重新量化的帧进行编码以生成编码帧；

对所述编码帧进行解码以生成解码帧；以及

通过将反向再成形函数应用于所述解码帧来生成输出帧。

21.一种用于自适应量化的方法，所述方法包括：

对所述重新量化的帧进行编码以生成编码帧；

对所述编码帧进行解码以生成解码帧；以及

通过将反向再成形函数应用于所述解码帧来生成输出帧。

22.一种用于图像的感知量化的装置，包括：

处理器，并且

非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质具有存储在其上的计算机可执行指令，所述计算机可执行指令在被处理器执行时使得处理器执行根据权利要求1-19中的任一项所述的方法的装置。

23.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质具有存储在其上的计算机可执行指令，所述计算机可执行指令用于执行根据权利要求1-19和21中的任一项所述的方法。

24.一种用于图像的感知量化的装置，包括用于执行根据权利要求1-19中的任一项所述的方法的组件。

25.一种用于自适应量化的装置，包括用于执行根据权利要求21所述的方法的组件。