CN1658673A

CN1658673A - 视频压缩编解码方法

Info

Publication number: CN1658673A
Application number: CN200510038537.8A
Authority: CN
Inventors: 马国强; 徐苏珊; 吴金勇; 徐健键
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2005-03-23
Filing date: 2005-03-23
Publication date: 2005-08-24

Abstract

视频压缩编解码方法，包括下述程序对视频压缩信号进行编码处理，离散余弦变换DCT；变换与量化；在编码比特流进入信道前需设置信道缓存；缓存器须带有控制机制；运动估计；这种位置偏移是以运动矢量来描述的，一个运动矢量代表水平和垂直两个方向上的位移；运动估计时，P帧图像使用前面最近解码的I帧或P帧作参考图像，称为前向预测；运动补偿：利用运动估计算出的运动矢量，将参考帧图像中的宏块移至水平和垂直方向上的相对应位置，即可生成对被压缩图像的预测；并对亚象素进行搜索计算；对采样信号做DCT变换之后的量化、存储、运动搜索全部在频域完成视频编码器在频域完成所有计算。压缩率高，计算量小。

Description

视频压缩编解码方法

一、技术领域

本发明涉及一种视频压缩编码算法，及建立在该算法基础上的AVCS视频会议系统。

二、背景技术

目前国外同类视频会议终端普遍采用H.263、H.264等编码技术。采用H.263的产品具有较低的计算复杂度，容易在成本较低的硬件上实现，产品的生产成本较低，但同时这类产品对视频数据的压缩率很低，占用较大的带宽，又增加了网络运营成本；采用H.264的产品具有极高的压缩比，占用较少的网络资源，但随之而带来的是极高的计算开销，使得这类产品依赖于成本相当高的硬件平台。

1995年，国际电联的视频编码专家组(VCEG)在完成了H.263标准的制订工作后，开发一种新的低码率视频通信标准，命名为H.26L。2001年，ISO的运动图像专家组(MPEG)认识到H.26L的潜在优势，与VCEG合作成立了联合视频组(JVT)。这个小组的成果就是在2003年第二季度发布的高级视频编码(Advanced Video Coding，AVC)。在ITU-T系列标准中，AVC被称作H.264。自2003年末以来，因为用一半的带宽就可以实现原有的图像质量，H.264的这一魅力迅速折服了那些一直苦于专线带宽昂贵的视讯用户。在国内市场，目前包括鼎视通、中太、中兴、科达、TANDBERG等视讯厂商都已经或即将推出支持H.264标准的视讯新品。H.264相对于H.263来说，最大优势在于它是一个甚低码率的编码方式。理论上讲，在同等的还原图像质量的情况下，H.264要比H.263节省一半的码率。换句话说，同样的一段视频，用H.264在384kbps下编解码后的图像质量，与H.263用768kbps编解码相同。这就为那些带宽资源比较紧张的用户提供了低带宽下获得高质量图像的可能。H.264在设计之初就考虑到了在不同网络资源下的分级编码传输。H.264具有较强的容错能力，在质量不稳定的网络环境中，可以得到比H.263编码视频更好的质量。随着视频通信应用逐渐从政府和企业专网向公众网转移，H.264的抗干扰特性将会发挥关键作用。H.264与H.261和H.263编码方式的另一个显著区别是它在执行运动补偿预测时，可以支持更细的分像素运动矢量。对比H.263的1/2像素级预测，H.264可以实现在1/4像素级别的预测，这就使得H.264编码出的视频质量更高。H.264所带来的好处不是免费的。H.264的代价是其计算复杂度大大高于H.263。H.264的解码复杂度是同等情况下H.263的2倍，而编码复杂度更是H.263的3倍。计算复杂度的增加就使得H.264的实现受到了一定的限制。一个简单的例子就是一个著名国际视频终端厂商的最新产品，在H.263下可以支持2M码率，但是在H.264下，只可以支持到512kbps。

当然，作为一个新的编码标准，H.264在应用方面存在其局限性。因为原始的设计目标是希望采用H.264以便在低带宽的情况下得到良好的图像质量，但在实际测试中，我们可以看到，H.264在高码率情况下，图像质量和H.263比较起来并没有明显差别。所以，在选购H.264产品的时候，所用的网络带宽是用户必须考虑的因素。因为如果视频会议是运行在专网之上，通常可以保证有1M带宽，那么也就没必要在H.264上花费更多的投资。由于H.264标准推出仅一年，大部分宣传支持H.264的终端厂商主要都是支持H.264的基本档次。因为H.264编解码复杂度的增加，对终端厂商的视频处理能力提出了挑战。现有的平台，要么就根本无法做H.264的编解码，要么就不能支持高码率下的编解码。而且，几个主要终端厂商之间H.264的实现方法不尽相同，不同品牌的终端很难使用H.264建立连接，互联互通能力很难得到保障，这些客观因素都为H.264的迅速普及设置了很大障碍。

无论如何，H.264毕竟有其技术层面的先进性，作为一个新兴的编解码标准，其高效的编码性能有助与提高资源的使用效率，节省在网络带宽上的庞大投资。在2003年，我国宽带普及程度越来越高，在DSL这样低带宽下的视频通信需求会逐渐增大，我们有理由相信H.264必将在普及视频通信的过程中发挥关键的作用。

H.264的诞生在视频通信和存储应用中，视频编解码标准占据着技术的核心地位。一直以来，视频编码存在着两个标准化体系，一个是由ISO/IEC主导的MPEG系列标准(如MPEG-1、MPEG-2、MPEG-4)；另一个是ITU-T主导的H.26x系列标准(如H.261和H.263)。MPEG系列标准被广泛应用在视频存贮、点播和转发领域，比如VCD的视频格式，就是基于MPEG-1技术开发的。同样，由于国际电联的推荐，H.26x系列标准也大量应用于视频通信领域，为广大运营商和设备提供商所采用。

视频编码方法的专利申请有：CN 200410012857.1视频编码的整数变换矩阵选择方法及相关的整数变换方法涉及视频编解码器中图像数据压缩的整数变换，针对当前我国将要制定的第一个音视频编码标准(AVS)采用8乘8整数类DCT变换，提出了一种整数变换的变换基选择方法，综合评价变换基的去相关效率和能量集中率两项指标及变换基变换动态范围和计算复杂度，并通过此方法提出两组性能优异的8乘8整数变换基(5，6，4，1)和(4，5，3，1)，并得到基于这两组基的整数变换快速算法。

CN03157077.1公开了一种用于视频编码的双向预测方法，在编码端双向预测编码时，首先，对当前B帧的每一图像块，获得当前图像块给定的候选前向运动矢量；然后，利用计算得到侯选后向运动矢量，采用双向预测的方法得到候选双向预测参考块；在给定的搜索范围之内和/或给定的匹配阈值之内，计算匹配；最后，选取最优的匹配块来确定该块最终的前向运动矢量、后向运动矢量和块残差。与前向和后向预测编码相结合，实现新的预测编码类型，可适用于正在制定的AVS标准。

CN200310116090.2提出了一种直接编码模式下确定参考图像块的方法，能够很好地解决在保持精确的运动矢量的同时，又可以通过无除法的方式来实现，从而提高运动矢量的计算的精度，可以更真实地体现视频中物体的运动，获得更准确的运动矢量预测，与前向预测编码，后向预测编码相结合，可用实现一种新的预测编码类型，既可以保证direct mode编码高效性又便于硬件的实现，取得与传统B帧编码相似的效果，可以用于正在制定的AVS标准。98123036.9一种差错恢复方式的视频编解码(CODEC)方法，含有视频CODEC方法程序的计算机可读介质，及视频CODEC装置。视频CODEC方法为防止信道差错提供更大恢复能力，使通信受差错影响较小。其中，从差错恢复方式视频数据每个宏块划分首部数据位区、运动矢量数据位区和离散余弦变换数据位区，然后对划分位区可变长编码，对按照用于恢复的优先权从可变长编码区选择的位区可逆可变长编码，在可变长编码或可逆向变长编码位区插入标记。但现有方法未集中于解决计算负荷的问题。

三、发明内容

本发明的目的是：采用自主设计的视频压缩编码算法体系，在网络开销和计算量上达到完美的平衡，具有压缩率高，同时计算负荷低的特点，既能提供接近H.264的压缩比，又能将计算负荷降低到接近H.263的水平。

视频压缩编解码方法，其特征是包括下述程序对视频压缩信号进行编码处理，离散余弦变换DCT：DCT是一种空间变换，以像块为单位进行，生成的是DCT系数数据块，将一般的图像都能够将像块的能量集中于少数低频DCT系数上；变换与量化：量化是针对DCT变换系数进行的，量化过程就是以某个量化步长去除DCT系数，对DCT变换块中的64个DCT变换系数采用不同的量化精度，以保证尽可能多地包含特定的DCT空间频率信息，又使量化精度不超过需要。DCT变换系数中，低频系数对视觉感应的重要性较高，因此分配的量化精度较细；高频系数对视觉感应的重要性较低，分配的量化精度较粗，一个DCT变换块中的大多数高频系数量化后都会变为零；

在编码比特流进入信道前需设置信道缓存。信道缓存通过一缓存器以变比特率从熵编码器向里写入数据，以传输系统标称的恒定比特率向外读出，送入信道。缓存器的大小，或称容量是设定好的，但编码器的瞬时输出比特率常明显高于或低于传输系统的频带，这就有可能造成缓存器的上溢出或下溢出。因此缓存器须带有控制机制，通过反馈控制压缩算法，调整编码器的比特率，使得缓存器的写入数据速率与读出数据速率趋于平衡。缓存器对压缩算法的控制是通过控制量化器的量化步长实现的，当编码器的瞬时输出速率过高，缓存器将要上溢时，就使量化步长增大以降低编码数据速率，当然也相应增大了图像的损失；当编码器的瞬时输出速率过低，缓存器将要下溢出时，就使量化步长减小以提高编码数据速率。

运动估计：运动估计使用于帧间编码方式时，通过参考帧图像产生对被压缩图像的估计。运动估计以宏块为单位进行，计算被压缩图像与参考图像的对应位置上的宏块间的位置偏移。这种位置偏移是以运动矢量来描述的，一个运动矢量代表水平和垂直两个方向上的位移。运动估计时，P帧和B帧图像所使用的参考帧图像是不同的。P帧图像使用前面最近解码的I帧或P帧作参考图像，称为前向预测；而B帧图像使用两帧图像作为预测参考，称为双向预测，其中一个参考帧在显示顺序上先于编码帧(前向预测)，另一帧在显示顺序上晚于编码帧(后向预测)，B帧的参考帧在任何情况下都是I帧或P帧；

运动补偿：利用运动估计算出的运动矢量，将参考帧图像中的宏块移至水平和垂直方向上的相对应位置，即可生成对被压缩图像的预测。在绝大多数的自然场景中运动都是有序的。因此这种运动补偿生成的预测图像与被压缩图像的差分值是很小的。

本发明特征是：在频域中进行运动搜索当采用在频域的运动搜索算法后，对采样信号做DCT变换之后的量化、存储、运动搜索全部在频域完成视频编码器在频域完成所有计算。

本发明的基础还包括：游程编码中，只有非零系数被编码。一个非零系数的编码由两部分组成：前一部分表示非零系数前的连续零系数的数量(称为游程)，后一部分是那个非零系数。这样就把之型扫描的优点体现出来了，因为之型扫描在大多数情况下出现连零的机会比较多，游程编码的效率就比较高。当一维序列中的后部剩余的DCT系数都为零时，只要用一个″块结束″标志(EOB)来指示，就可结束这一8×8变换块的编码，产生的压缩效果是非常明显的。

数字图像质量的主观评价：主观评价的条件包括：评价小组结构，观察距离，测试图像，环境照度和背景色调等。评价小组由一定人数观察人员构成，其中专业人员与非专业人员各占一定比例。观察距离为显示器对角线尺寸的3-6倍。测试图像有若干具有一定图像细节和运动的图像序列构成。主观评价反映的是许多人对图像质量统计评价的平均值。

之型扫描与游程编码：DCT变换产生的是一8×8的二维数组，为进行传输，还须将其转换为一维排列方式。有两种二维到一维的转换方式，或称扫描方式：之型扫描(Zig-Zag)和交替扫描，其中之型扫描是最常用的一种。由于经量化后，大多数非零DCT系数集中于8×8二维矩阵的左上角，即低频分量区，之型扫描后，这些非零DCT系数就集中于一维排列数组的前部，后面跟着长串的量化为零的DCT系数，这些就为游程编码创造了条件。熵编码，对量化生成的DCT系数的一种有效的离散表示，在传输前，进行比特流编码，产生用于传输的数字比特流。熵编码是基于编码信号的统计特性，使得平均比特率下降。游程和非零系数既可独立的，也可联合的作熵编码。熵编码中使用霍夫曼编码中，在确定了所有编码信号的概率后生产一个码表，对经常发生的大概率信号分配较少的比特表示，对不常发生的小概率信号分配较多的比特表示，使得整个码流的平均长度趋于最短。

本发明的特点在于：提高运动搜索这一步骤本身的性能。传统视频编码体系中，编码器必须在空间域-频域做反复的转换，在运动搜索时，使用的都是基于空间域的算法，而在对残差编码时，又需要在频域进行，以使系数的能量集中在低频区，方便量化。在空间域-频域之间频繁的转换相当耗费资源。

本发明的特点还在于：提供一套先进而完备的视频会议系统。视频会议的技术核心是视频编解码算法体系，本发明在这个领域展开深入研究，提出具有独创性的基于频域的亚象素运动搜索算法，建立起一套高效而稳定的视频编码算法体系，该视频编码算法体系不仅编码效率高，而且计算复杂度远低于同类其他算法，容易在低成本的硬件平台上实现。本发明在运动搜索的亚象素搜索步骤提出一种独创的搜索算法，可以将计算复杂度降低到10％以下，同时能够保证搜索结果足够的精确度。

除此外，本发明的系统实现如下的功能：

使用新颖的视频编码算法，在频域完成亚象素运动搜索。

提供远程电子白板，远程幻灯片，数据共享。

12”液晶触摸屏，可以绘制任意图形与文字交流。

支持移动电话访问，会议数据及时发往移动终端。

内建web服务器，提供用户界面修改编码参数。

内建磁盘录象机，录制超长时间视频图像。

提供usb接口，方便交换数据及接驳usb数字摄像机。

内建高灵敏运动检测算法，可兼作安防监控。

四、附图说明

图1视频压缩编码算法框图图2漏桶模型

图3物体移动时的δ响应其中图3(a)物体向右平动s时的δ响应

图3(b)物体向左平动s-1时的δ响应

图4亚象素空间位置

图5各标准测试序列下的计算性能比较

图6完全基于频域的视频编码流程

图7 4×4中像素以及周围像素的分布

图8帧内4×4预测模式

图9帧内4×4快速预测模式选择流程图

图10 4×4小块的亚采样图11当前的块和相邻块

图12当前4×4小块与前一帧相同位置4×4小块示意图

图13系统软件组成框图图14系统硬件组成框图

五、具体实施方式

1视频压缩编码算法

图1是本发明所采用的视频压缩编码算法框图。

框图中的各算法模块介绍如下：

a.运动搜索(运动估计)

运动搜索(或称为运动估计)是视频压缩编码领域的核心技术之一，同时也是视频编码中最消耗系统计算资源的算法模块。运动搜索分整象素搜索与亚象素搜索两个层次，本发明的视频编码方案在整象素搜索中采用常规的混合搜索算法；而在亚象素搜索，本发明实现了具有独创性的搜索技术。后面将详细介绍这个新颖的搜索算法。

b.帧内预测

在视频流中，每帧图像的编码方式既可以是I帧(帧内预测帧)，也可以是P帧(帧间预测帧)。P帧在编码时并不直接把自身图像中的信息作为编码的数据源，而是在以往已编码的图像中进行运动搜索，找到运动信息，作为帧间预测的依据，然后再将两帧图像的差值进行编码。这样可以大大减少用来描述图像所用的比特数，从而实现压缩的目的。I帧在编码时并不借助于任何以往的图像，但利用自身已编码部分的象素来预测未编码部分象素的值。I帧的编码效率没有P帧高，但I帧是视频码流中的重要组成单位，因为I帧提供重同步的能力。在传输中如果某帧发生丢包，则使用该帧预测的后续P帧将不能正确解码，但由于I帧是自包含的，没有引用任何以往的图像，所以码流在这里获得重新同步，将错误限制在一定范围内。由于I帧的重要性，对I帧的帧内预测算法也是任何视频编码方案的研究重点之一。本发明在后面提出一种新颖的帧内预测算法，在有限的计算开销之下提供了高效、稳定的帧内预测性能。

c.率失真优化

在各个编码模式中选择最优方案。在视频编码中会有许多编码模式和参数的决策问题。例如，在帧间预测时运动矢量应该取何值，搜索精度是多少，这些编码参数和模式的选择取决于率失真优化算法。率失真优化算法对每个侯选的编码模式或参数进行评估，然后按照一定的法则挑选出最优模式。这个挑选的法则一般是要同时衡量编码效率(即压缩性能)及压缩后的信噪比两个性能指标。这两个性能指标的关系是非线形的，为了加快计算速度，减少系统的计算开销，

本发明的视频压缩编码方案中采用拉格朗日算子来实现线性逼近。下式是本方案中的拉格朗日算子。其中，DREC是失真度，PREC是预测后的编码效率，Sk、Q是待选择的编码模式和参数，JMODE是总的代价值，使JMODE取值最小的编码模式和参数就是待选的最优值。

JMODE(Sk，Ik，λ)＝DREC(Sk，Q)+λRREC(Sk，Q)

d.码率控制

监测信道状况，对码率的分配作出决策。这个算法模块利用如图2所示的漏桶模型来检测信道的发送状况。

e.存储器管理

存储器的逻辑和物理管理，并负责对参考帧队列管理。在对P帧编码时，需要参考以往已编码或解码的图像，进行运动搜索，所以在编码和解码的同时必须建立参考帧队列，存储参考帧数据。编码器与解码器之间使用同样的存储器逻辑模型，各自独立地维护参考帧队列，仅传递最少用来同步的信息。

f.熵编码

对视频序列压缩的各种方法都围绕三个方面：消除时间冗余、消除空间冗余、消除统计冗余。帧间和帧内预测分别针对时间冗余和空间冗余，而消除统计冗余的方法就称作熵编码。本发明的视频编码算法体系采用成熟的哈夫曼算法作为熵编码。

g.变换与量化

对残差数据作时-频变换，并在频域进行量化。

1.1亚象素运动搜索

运动搜索(或称为运动估计)是视频压缩编码领域的核心技术之一。视频信号经模拟-数字转换后，具有巨大的数据量，无法直接将之存储或用来通信。然而，相对于高速的采样频率，视频图像中出现的自然物体都是缓慢变化的，这导致原始视频信息中在时间域和空间域都存在极大的冗余。运动搜索技术的基本原理是搜索视频序列中的相邻图像，找出运动信息和运动矢量，用表征物体运动的数据代替相应图像的原始信息，从而极大地消除时间冗余，达到数据压缩的目的。

现代运动搜索算法的精度已不再局限于整象素。实验证明，当达到半象素或以上的亚象素精度时，将使编码后的码率有显著降低。在低噪声条件下，当搜索精度每增加一倍，压缩比可以提高约0.5bit/sample，编码后平均码率可以下降24.41％～36.92％。然而，当搜索精度达到1/8象素以上时，由于噪声增强，压缩比的提高不再明显。目前主流的视频编码标准都采用了亚象素搜索技术以提高编码性能，在H.263和MPEG-2中引进了半象素运动搜索，而在MPEG-4及最新制定的H.264更是使用了1/4象素精度的运动搜索。

在现有亚象素搜索算法中，广泛使用的技术是基于空间域的全搜索算法或是全搜索的各种快速算法，这些算法在搜索窗内以象素块为单位查找最匹配块，以平均方差和或绝对差值和为判断法则，其搜索过程中需要作多次滤波插值，并反复计算代价函数，计算复杂度非常高。实验显示，进入亚象素精度后，运动搜索过程的计算开销往往要超出原整象素搜索的一倍以上。不仅如此，匹配的准确度还取决于插值算法的精度，从一定程度上影响编码效率。本发明提出一种新颖的搜索算法，在频域利用相位的相关性预测和搜索运动矢量，该算法在亚象素搜索过程中几乎不需做插值计算，也不用计算代价函数，能够极大削减空间域搜索算法带来的计算开销，适用于需要视频内容服务的嵌入式平台。

1.1.1频域相位与物体空间平动

众所周知，在傅立叶变换域中，相位的变化与物体在时间域/空间域中的平动相对应：

F{x(s-τ)}＝e^-jwτF{x(s)} (1)

在式(1)中F{·}表示离散信号的傅立叶变换，s表示空间位移(如果在时域，用t代替，以下只介绍空间域)。通过傅立叶变换的这个性质，可以很容易地在频域中解析出空间域中的运动信息。在视频编码的方案中，如果采用傅立叶变换，在频域中搜索运动信息将变得十分方便与精确。然而，傅立叶变换的能量收敛性能不好，变换后不能有效地去除空间冗余，这个缺点使得傅立叶变换不能应用在实际的视频编码算法中。目前被各视频编码标准普遍采用的是DCT变换，DCT变换具有接近K-L变换的能量收敛性能，能够将大部分能量集中在直流和低频部分，在通过低通滤波器后，可以在高压缩比下保证图像质量。针对这点，本发明采用DCT来实现时-频变换，下面从DCT变换域的相位来推算空间的平动，由于DCT变换的特殊性，在DCT域不再像傅立叶那样有简单的对应关系。

假设有一维离散信号(x₁(n)|n∈[0，N-1]}(N为搜索窗的大小)，经右移m后，形成信号{x₂(n)|n∈[0，N-1]}：

x_{2} (n) = \{\begin{matrix} x_{1} (n - m), n &GreaterEqual; m \\ 0, n < m \end{matrix} - - - - (2)

根据^[2]，定义如下的DCT和DST变换：

X_{2}^{C} (k) = \frac{2}{N} C (k) Σ_{n = 0}^{N - 1} x_{2} (n) \cos (\frac{kπ}{N} (n + 0.5)), k &Element; [0, N - 1] - - - - (3)

X_{2}^{S} (k) = \frac{2}{N} C (k) Σ_{n = 0}^{N - 1} x_{2} (n) \sin (\frac{kπ}{N} (n + 0.5)), k &Element; [0, N - 1] - - - - (4)

Z_{1}^{C} (k) = \frac{2}{N} C (k) Σ_{n = 0}^{N - 1} x_{1} (n) \cos (\frac{kπ}{N} n), k &Element; [0, N - 1] - - - - (5)

Z_{1}^{S} (k) = \frac{2}{N} C (k) Σ_{n = 0}^{N - 1} x_{1} (n) \sin (\frac{kπ}{N} n), k &Element; [0, N - 1] - - - - (6)

上式中，

C (k) = \{\begin{matrix} \frac{1}{\sqrt{2}}, k = {0, N} \\ 1, k = [1, N - 1] \end{matrix} - - - - (7)

容易证明，这四个变换满足如下方程：

[\begin{matrix} X_{2}^{C} (k) \\ X_{2}^{S} (k) \end{matrix}] = [\begin{matrix} Z_{1}^{C} (k) - Z_{1}^{S} (k) \\ Z_{1}^{S} (k) + Z_{1}^{C} (k) \end{matrix}] [\begin{matrix} g_{m}^{C} (k) \\ g_{m}^{S} (k) \end{matrix}] - - - - (8)

其中，

g_{m}^{S} = \sin ((kπ / N) (m + 0.5)), g_{m}^{C} = \cos ((kπ / N) (m + 0.5)) .

我们看到，这两个属于频域的变量包含了平动信息m。在已知信号x₁(n)、x₂(n)的情况下，如果能够找到快速算法解出g_m ^C、g_m ^S，并从中提取出m，就能实现DCT域的运动搜索。

将(8)中的方程改写为

\overset{&RightArrow;}{X} (k) = Z (k) \overset{&RightArrow;}{Ω} (k) .

可以证明，Z(k)是一个正交矩阵，并且有：

λZ^T(k)Z(k)＝I₂ (9)

I₂是一个2×2的单位矩阵。这样，我们可以解出方程：

\overset{&RightArrow;}{Ω} (k) = λ Z^{T} (k) \overset{&RightArrow;}{X} (k) - - - - (10)

从而可以解出g_m ^C、g_m ^S。

根据正弦函数的正交法则，有如下定律^[4]：

Σ_{k = 1}^{N} C^{2} (k) \sin (\frac{kπ}{N} (m + 0.5)) \sin (\frac{kπ}{N} (n + 0.5)) = δ (m - n) - δ (m + n + 1) - - - - (11)

Σ_{k = 0}^{N - 1} C^{2} (k) \cos (\frac{kπ}{N} (m + 0.5)) \cos (\frac{kπ}{N} (n + 0.5)) = δ (m - n) + δ (m + n + 1) - - - - (12)

其中，δ(n)是离散冲激函数。

根据式(8)、(10～12)，我们可以得出：

\frac{2}{N} Σ_{k = 1}^{N} C^{2} (k) g_{m}^{S} \sin (\frac{kπ}{N} (n + 0.5)) = δ (m - n) - δ (m + n + 1) - - - - (13)

\frac{2}{N} Σ_{k = 1}^{N} C^{2} (k) g_{m}^{C} \cos (\frac{kπ}{N} (n + 0.5)) = δ (m - n) + δ (m + n + 1) - - - - (14)

分析式(13)，当m大于0，且位于搜索窗[0，N]时，总能在n＝m处找到正的δ响应，同时在n＝-m-1处找到负的δ响应；当m＜0，且位于搜索窗的负镜象[-N，0)时，总能在n＝m处找到负的δ响应，同时在n＝-m-1处找到正的δ响应。如图3所示，灰色区域为搜索窗，当在搜索窗内发现正的δ响应，则意味着物体有向右的平动，且运动位移为s；当在搜索窗内发现负的δ响应，则意味着物体有向左的平动，且运动位移为s-1。见图3(a)物体向右平动s时的δ响应和图3(b)物体向左平动s-1时的δ响应。图4为亚象素空间位置示意图。

在具体计算时，可将代替

\frac{2}{N} Σ_{k = 1}^{N} C^{2} (k) g_{m}^{S} \sin (\frac{kπ}{N} (n + 0.5)),

以降低计算复杂度。

1.1.2频域的亚象素搜索算法流程

在上面推导的基础上，基于频域的亚象素搜索算法的流程如下：

1)确定搜索窗为N，提取在x方向上以参考图像整象素点F为起始的一维信号x₁(n)及当前图像中对应位置的x₂(n)。

2)根据式(3～6)，计算x₁(n)和x₂(n)的四个离散DCT/DST变换系数。

3)计算在[1，N]区间的g_m ^S，由式(3～6)、(8)得到：

g_{m}^{S} (k) = \{\begin{matrix} 1, k = N \\ (Z_{1}^{C} (k) \cdot X_{2}^{S} (k) - Z_{1}^{S} (k) \cdot X_{2}^{C} (k)) / ({(Z_{1}^{C} (k))}^{2} + {(Z_{1}^{S} (k))}^{2}), k &Element; [1, N) \end{matrix} - - - - (15)

4)根据式(13)得出x方向上的平动方向d_x及位移s_x。

5)在y方向上重复以上步骤，得出y方向上的d_y、s_y。

6)携带参数m_x、m_y查询表1，确定在图4中的匹配点，并确定半象素运动矢量。

表1 m与运动矢量

m_x	m_y 匹配点运动矢量
m_x	m_y 匹配点运动矢量	＞0＞0＞0＜0＜0＜0＝0＝0	＞0 3 (0.5，0.5)＜0 8 (0.5，-0.5)＝0 5 (0.5，0)＞0 1 (-0.5，0.5)＜0 6 (-0.5，-0.5)＝0 4 (-0.5，0)＞0 2 (0，0.5)＜0 7 (0，-0.5)
＝0	＝0 F (0，0)	＞0＞0＞0＜0＜0＜0＝0＝0

7)如果需要1/4象素精度的运动矢量，按6)中所得的运动矢量使用双线性滤波器插值，在所得象素块上重复1)-6)步骤。

图5是本文的算法在各标准测试序列下与全搜索算法在亚象素搜索中的计算复杂度比较，即计算性能比较。由于各测试序列的图像构成各异，计算环境各不相同，为方便起见，将各个测试序列中的全搜索算法计算复杂度设为1，作为比较基准。

DCT变换的全称是离散余弦变换(Discrete Cosine Transform)，是指将一组光强数据转换成频率数据，以便得知强度变化的情形。若对高频的数据做些修饰，再转回原来形式的数据时，显然与原始数据有些差异，但是人类的眼睛却是不容易辨认出来。压缩时，将原始图像数据分成8*8数据单元矩阵，例如亮度值的第一个矩阵内容如下：

y₀₀ y₀₁ y₀₂ y₀₃ y₀₄ y₀₅ y₀₆ y₀₇

y₁₀ y₁₁ y₁₂ y₁₃ y₁₄ y₁₅ y₁₆ y₁₇

y₂₀ y₂₁ y₂₂ y₂₃ y₂₄ y₂₅ y₂₆ y₂₇

y₃₀ y₃₁ y₃₂ y₃₃ y₃₄ y₃₅ y₃₆ y₃₇

y₄₀ y₄₁ y₄₂ y₄₃ y₄₄ y₄₅ y₄₆ y₄₇

y₅₀ y₅₁ y₅₂ y₅₃ y₅₄ y₅₅ y₅₆ y₅₇

y₆₀ y₆₁ y₆₂ y₆₃ y₆₄ y₆₅ y₆₆ y₆₇

y₇₀ y₇₁ y₇₂ y₇₃ y₇₄ y₇₅ y₇₆ y₇₇

JPEG将整个亮度矩阵与色度Cb矩阵，饱和度Cr矩阵，视为一个基本单元称作MCU。每个MCU所包含的矩阵数量不得超过10个。例如，行和列采样的比例皆为4∶2∶2，则每个MCU将包含四个亮度矩阵，一个色度矩阵及一个饱和度矩阵。

当图像数据分成一个8*8矩阵后，还必须将每个数值减去128，然后一一代入DCT变换公式中，即可达到DCT变换的目的。图像数据值必须减去128，是因为DCT转换公式所接受的数字范围是在-128到+127之间。

DCT变换公式：

x，y代表图像数据矩阵内某个数值的坐标位置。(x，y)代表图像数据矩阵内的数个数值。，v代表DCT变换后矩阵内某个数值的坐标位置，F(u，v)代表DCT变换后矩阵内的某个数值。

u＝0且v＝0 c(u)c(v)＝1/1.414

u＞0或v＞0 c(u)c(v)＝1

经过DCT变换后的矩阵数据自然数为频率系数，这些系数以F(0，0)的值最大，称为DC，其余的63个频率系数则多半是一些接近于0的正负浮点数，一概称之为AC。

1.1.3小结

对于视频编码而言，在频域中进行运动搜索，其优处不仅在于提高运动搜索这一步骤本身的性能。传统视频编码体系中，编码器必须在空间域-频域做反复的转换，在运动搜索时，使用的都是基于空间域的算法，而在对残差编码时，又需要在频域进行，以使系数的能量集中在低频区，方便量化。在空间域-频域之间频繁的转换相当耗费资源，当采用在频域的运动搜索算法后，视频编码器将在频域完成所有计算，编码流程如图6所示。与在空间域中搜索运动矢量的视频编码流程相比，图6在对采样信号做DCT变换之后的量化、存储、运动搜索全部在频域完成，这不但减少了空间域编码流程中的反DCT变换步骤，更有效地缩减存储需要的空间，有利于编码器与解码器的优化。

1.2帧内预测模式的快速选择算法

1.2.1帧内编码预测模式

如果当前图像与前面输入图像之间没有很强的时间相关性，该帧图像一般被编码为I帧，使用帧内编码模式。在以往的视频编码标准中，I帧图像不使用预测的技术而是直接编码，也就是将宏块数据直接变换、量化后编码传输，这样I帧图像编码后的数据量非常大。为了更有效的提高编码效率，本发明的视频编码体系充分利用图像中各个像素之间的空间冗余度，定义了16×16和4×4预测单位。图7 4×4中像素以及周围像素的分布

在本发明的帧内预测模块中，如果当前宏块编码模式是帧内编码，宏块的预测值是来自于相邻的编码重建后的宏块。亮度分量可以使用16×16宏块或者4×4小块作为帧内预测编码的基本单位。在使用16×16宏块作为编码单位时，有4种预测模式可供选择；在使用4×4小块作为编码单位时，共有9种预测模式可供选择。两个色度分量使用8×8宏块作为帧内预测编码的基本单位，有4种预测模式可供选择，两个色度分量选择的模式必须一样。由于4×4小块更为精细，计算复杂度主要体现在这个单位上。

4×4小块中像素以及周围像素的分布如图7所示，其中小写英文字母a到p表示小块内部的16个像素，大写字母A到M表示小块周围的像素。帧内4×4使用9种模式进行预测，其中模式2是DC预测，其余的预测模式方向如图8帧内4×4预测模式所示。例如，如果选用模式1进行水平方向的预测，小块中的预测值来自于像素I、J、K、L。

1.2.2快速帧内预测编码模式选择算法

本发明提出的帧内预测模式选择算法利用边界方向直方图、上下文模型以及前一帧相同位置小块的预测编码模式，来快速选择出可用的候选预测模式，根据预选模式进行预编码，再利用拉格朗日代价函数来选出最优的预测模式。为了进一步减少计算量，在计算边界方向向量之前，先对原始数据进行亚采样。以帧内4×4为例，快速帧内预测模式选择的流程如图9帧内4×4快速预测模式选择流程图所示，下文将对流程中的各个部分进行分别介绍。

1.2.2.1像素亚采样

对输入的原始像素数据进行2∶1亚采样，采样后的像素个数是原始像素个数的1/2，对采样后的像素进行边界方向向量计算所耗费的时间大约是原来的1/2。本文中所采用的像素的亚采样方法如图10 4×4小块的亚采样所示，在亚采样后的图中，实心圆表示的是可用的采样像素。

1.2.2.2基于边界方向的模式选择

自然图像在空间是连续和相关的，组成图像的各像素在空间上的8个预测方向上都有相关性，这个特性可以被利用来减除空间冗余，如果能找到相关性最强的那个方向，并使用帧内预测来编码像素的值，就可以达到帧内编码的最优效果。本文使用Sobel算子^[3～5]来计算亚采样后的像素的边界方向矢量，Sobel算子是

[\begin{matrix} - 1 & - 2 & - 1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{matrix}]

和

[\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}],

分别用来计算边界向量的水平和垂直方向分量。

对于亚采样后的像素pi，j，相应的边界向量为

{\overset{&RightArrow;}{D}}_{i, j} = {{dx}_{i, j}, {dy}_{i, j}},

dxi，j和dyi，j分别代表边界向量水平和垂直方向分量。dxi，j和dyi，j的计算公式，如1式所示，其中p_i-1，j+1等指的是像素pi，j在原始图像中的相邻像素。

dx_i，j＝p_i-1，j+1+2×p_i，j+1+p_i+1，j+1-p_i-1，j-1-2×p_i，j-1-p_i+1，j-1

dy_i，j＝p_i+1，j-1+2×p_i+1，j+p_i+1，j+1-p_i-1，j-1-2×p_i-1，j-p_i-1，j+1 (1)

为了方便计算，定义边界方向向量的模是：

Amp ({\overset{&RightArrow;}{D}}_{i, j}) = | {dx}_{i, j} | + | {dy}_{i, j} | - - - - (2)

边界方向向量的方向是：

将小块中相同方向的向量的模相加，得到相应的边界方向直方图(Edgedirection histogram)，帧内4×4的边界方向直方图的建立如下式3所示，选择方向直方图中模最大的方向作为候选预测方向。

Histo (k) = \underset{(m, n) &Element; SET (k)}{Σ} Amp ({\overset{&RightArrow;}{D}}_{m, n}),

SET (k) &Element; {(i, j) | Ang ({\overset{&RightArrow;}{D}}_{i, j}) &Element; a_{u}},

while

a₀＝(-103.30，-76.60]

a₁＝(-13.30，13.30]

a₃＝(35.80，54.20]

a₄＝(-54.20，-35.80]

a₅＝(-76.70，-54.20]

a₆＝(-35.80，-13.30]

a₇＝(54.20，-76.70]

a₈＝(13.30，35.80]

(3)

1.2.2.3基于上下文的模型进行模式选择

一幅图像各个小块之间有空间相关性，所以可以利用相邻小块的编码模式来预测当前小块的编码模式。如图11所示，C表示当前的4×4小块，A和B表示的是当前块上边的4×4小块和当前块左边的4×4小块。用A和B预测模式的最大值作为当前块的候选预测模式。如图11所示当前的块和相邻块

1.2.2.4基于前一帧图像相同位置上块的状态模式选择

根据当前小块在前一帧图像中对应位置的4×4小块的编码模式，如果前一帧图像的对应小块是使用的帧内编码模式，那么前一帧图像中对应小块的编码模式就被选出作为当前4×4小块的候选编码模式，如图12当前4×4小块与前一帧相同位置4×4小块示意图所示。

1.2.2.5预编码和性能比较

预编码用当前小块周围的像素，根据上文已经选择出来的候选预测模式，依次对当前小块进行预测编码，利用拉格朗日代价函数来选出最优的预测模式，拉格朗日的代价函数是：

J(s，c，IMODE|QP，λ_MODE)＝SSD(s，c，IMODE|QP)+λ_MODE·R(s，c，IMODE|QP) (4)

其中IMODE指得是帧内预测可供选择的几种预测方向，SSD指得是帧内4×4原始的像素值s和重建的像素值c之间的均方误差和，R(s，c，IMODE|QP)指的是使用IMODE模式来进行编码，所需要编码的码流大小，使用的是变长霍夫曼编码。在视频编码中使用峰值信噪比(PSNR)来进行质量检测，式(5)是峰值信噪比的公式：

PSNR = 10 \log_{10} (\frac{255^{2}}{MSE}) - - - - (5)

1.2.3实验结果

实验使用的测试序列为大小为QCIF的Mobile、Tempete、Bus、Paris，同时只对亮度分量进行测试。试验结果如表2所示。

表2在不同测试序列下的编码性能变化

测试序列	第一个I帧图像编码时间的变化(％)	序列中平均每帧图像比特率的变化(％)	序列中平均每帧图像编码时间的变化(％)	图像PSNR的变化(dB)
测试序列	第一个I帧图像编码时间的变化(％)	序列中平均每帧图像比特率的变化(％)	序列中平均每帧图像编码时间的变化(％)	图像PSNR的变化(dB)	Mobile	-70.25	0.12	-33.56	-0.016
Tempete	-69.78	0.26	-32.14	-0.014	Mobile	-70.25	0.12	-33.56	-0.016
Tempete	-69.78	0.26	-32.14	-0.014	Bus	-69.58	0.39	-24.34	-0.024
Paris	-71.03	0.42	-31.76	-0.021	Bus	-69.58	0.39	-24.34	-0.024

2系统软件组成框图(图13系统软件组成框图)

在系统的软件体系中，最核心的模块是视频编码和解码器，这两个部分是整个软件架构的主体，也是本发明的最大创新所在。本发明所设计的视频会议系统使用RTP/RTCP协议来传输视频与语音数据。其中RTP负责将媒体数据打包发送，RTCP负责沟通视频与语音数据流的发送和接收方，传递反馈信息及时间同步信息。

3系统硬件组成框图(图14所示)，系统采用嵌入式设计。

总之，视频会议是一个正在快速增长的市场，但由于行业标准尚未完全统一，西方国家还无法在核心技术上取得垄断地位，我国正面临着极大的机遇，有望在这领域一展宏图。目前国内生产的部分视频会议网络设备如MCU、网守等产品已经在国际上居于技术先进、甚至领先的地位，而对于视频会议的终端设备产品，我国尚缺少有竞争力的产品，市场几乎被国外产品完全占领。南京大学应用物理研究所研制的AVCS-II视频会议系统，从一定程度上可以说是我国在视频会议终端产品领域，尤其是视频编解码器技术上的一个新的尝试和突破，有望打开国内和国外视频会议的市场。本发明提出的基于频域的亚象素运动搜索算法在技术上是一个创新，实验和用户的实际使用证明，该算法准确率高，且计算复杂度极低，能够快速匹配最优运动矢量。除了独特的视频编码体系外，本发明设计的系统提供了丰富的视频会议工具集，从而为用户构建了完整的视频与数据交互的平台。

Claims

1、视频压缩编解码方法，包括下述程序对视频压缩信号进行编码处理，离散余弦变换DCT：DCT是一种空间变换，以像块为单位生成DCT系数数据块，将一般的图像都能够将像块的能量集中于少数低频DCT系数上；变换与量化：量化是针对DCT变换系数进行的，量化过程就是以某个量化步长去除DCT系数，DCT变换系数中，低频系数对视觉感应的重要性较高，因此分配的量化精度较细；高频系数对视觉感应的重要性较低，分配的量化精度较粗；在编码比特流进入信道前需设置信道缓存：信道缓存，通过一缓存器以变比特率从熵编码器向里写入数据，以传输系统标称的恒定比特率向外读出，送入信道；缓存器须带有控制机制，通过反馈控制压缩算法，调整编码器的比特率，使得缓存器的写入数据速率与读出数据速率趋于平衡；运动估计：使用于帧间编码方式时，通过参考帧图像产生对被压缩图像的估计，运动估计以宏块为单位进行，计算被压缩图像与参考图像的对应位置上的宏块间的位置偏移，这种位置偏移是以运动矢量来描述的，一个运动矢量代表水平和垂直两个方向上的位移；运动估计时，P帧图像使用前面最近解码的I帧或P帧作参考图像，称为前向预测；而B帧图像使用两帧图像作为预测参考，称为双向预测，其中一个参考帧在显示顺序上先于编码帧(前向预测)，另一帧在显示顺序上晚于编码帧(后向预测)，B帧的参考帧在任何情况下都是I帧或P帧；运动补偿：利用运动估计算出的运动矢量，将参考帧图像中的宏块移至水平和垂直方向上的相对应位置，即可生成对被压缩图像的预测；并对亚象素进行搜索计算；

其特征是：在频域中进行运动搜索当采用在频域的运动搜索算法后，对采样信号做DCT变换之后的量化、存储、运动搜索全部在频域完成视频编码器在频域完成所有计算。

2、由权利要求1所述的视频压缩编解码方法，其特征是：基于频域的亚象素搜索算法的流程如下：

3)计算在[1，N]区间的g_m ^S，由式(3～6)、(8)得到：

g_{m}^{S} (k) = \{\begin{matrix} 1, k = N \\ (Z_{1}^{C} (k) \cdot X_{2}^{S} (k) - Z_{1}^{S} (k) \cdot X_{2}^{C} (k)) / ({(Z_{1}^{C} (k))}^{2} + {(Z_{1}^{S} (k))}^{2}), k &Element; (1, N) \end{matrix}- - - (15)

4)根据式(13)得出x方向上的平动方向d_x及位移s_x。

5)在y方向上重复以上步骤，得出y方向上的d_y、s_y。

m与运动矢量 m_x m_y 匹配点运动矢量＞0＞0＞0＜0＜0＜0＝0＝0 ＞0 3 (0.5，0.5)＜0 8 (0.5，-0.5)＝0 5 (0.5，0)＞0 1 (-0.5，0.5)＜0 6 (-0.5，-0.5)＝0 4 (-0.5，0)＞0 2 (0，0.5)＜0 7 (0，-0.5) ＝0 ＝0 F (0，0)

3、由权利要求1所述的视频压缩编解码方法，其特征是帧内预测模式选择算法利用边界方向直方图、上下文模型以及前一帧相同位置小块的预测编码模式，来快速选择出可用的候选预测模式，根据预选模式进行预编码，再利用拉格朗日代价函数来选出最优的预测模式；并在计算边界方向向量之前，先对原始数据进行亚采样；像素亚采样：对输入的原始像素数据进行2∶1亚采样，采样后的像素个数是原始像素个数的1/2，对采样后的像素进行边界方向向量计算所耗费的时间大约是原来的1/2。基于边界方向的模式选择

自然图像在空间是连续和相关的，组成图像的各像素在空间上的8个预测方向上都有相关性，使用Sobel算子^[3～5]来计算亚采样后的像素的边界方向矢量，Sobel算子是

[\begin{matrix} - 1 & - 2 & - 1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{matrix}]

和

[\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}],

分别用来计算边界向量的水平和垂直方向分量；对于亚采样后的像素pi，j，相应的边界向量为

{\overset{&RightArrow;}{D}}_{i, j} = {{dx}_{i, j}, {dy}_{i, j}},

dxi，j和dyi，j分别代表边界向量水平和垂直方向分量。dxi，j和dyi，j的计算公式，如1式所示，其中p_i-1，j+1等指的是像素pi，j在原始图像中的相邻像素。dx_i,j＝p_i-1，j+1+2×p_i，j+1+p_i+1，j+1-p_i-1，j-1-2×p_i，j-1-p_i+1，j-1dy_i，j＝p_i+1，j-1+2×p_i+1，j+p_i+1，j+1-p_i-1，j-1-2×p_i-1，j-p_i-1，j+1 (1)

为了方便计算，定义边界方向向量的模是：

Amp ({\overset{&RightArrow;}{D}}_{i, j}) = | {dx}_{i, j} | + | {dy}_{i, j} | - - - (2)

边界方向向量的方向是：

将小块中相同方向的向量的模相加，得到相应的边界方向直方图(Edge directionhistogram)，帧内4×4的边界方向直方图的建立如下式3所示，选择方向直方图中模最大的方向作为候选预测方向；

Histo (k) = \underset{(m, n) &Element; SET (k)}{Σ} Amp ({\overset{&RightArrow;}{D}}_{m, n}),

SET (k) &Element; {(i, j) | Ang ({\overset{&RightArrow;}{D}}_{i, j}) &Element; a_{u}},

while

a₀＝(-103.3°，-76.6°]

a₁＝(-13.3°，13.3°]

a₃＝(35.8°，54.2°]

a₄＝(-54.2°，-35.8°]

a₅＝(-76.7°，-54.2°]

a₆＝(-35.8°，-13.3°]

a₇＝(54.2°，-76.7°]

a₈＝(13.3°，35.8°]

(3)根据当前小块在前一帧图像中对应位置的4×4小块的编码模式，如果前一帧图像的对应小块是使用的帧内编码模式，那么前一帧图像中对应小块的编码模式就被选出作为当前4×4小块的候选编码模式；

J(s，c，IMODE|QP，λ_MODE)＝SSD(s，c，IMODE|QP)+λ_MODE·R(s，c，IMODE|QP) (4)其中IMODE指得是帧内预测可供选择的几种预测方向，SSD指得是帧内4×4原始的像素值s和重建的像素值c之间的均方误差和，R(s，c，IMODE|QP)指的是使用IMODE模式来进行编码，所需要编码的码流大小，使用的是变长霍夫曼编码。