CN1418014A - 编码方法和编码装置 - Google Patents
编码方法和编码装置 Download PDFInfo
- Publication number
- CN1418014A CN1418014A CN02146094A CN02146094A CN1418014A CN 1418014 A CN1418014 A CN 1418014A CN 02146094 A CN02146094 A CN 02146094A CN 02146094 A CN02146094 A CN 02146094A CN 1418014 A CN1418014 A CN 1418014A
- Authority
- CN
- China
- Prior art keywords
- stage
- difference
- code book
- coding
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/008—Vector quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/94—Vector quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及编码和解码图象。本发明是具有从DCT和DWT方法获得某些改进的级联VQ的变化方案。本发明的基本方面是,当训练时预处理码本以预先确定产生的代码向量的频率分布,并且每个块被使用编码特定块所需的可变数量的差别编码阶段独立地编码和解码。
Description
技术领域
本发明涉及图像编码和解码。具体地说,本发明涉及对流式媒体中的视频进行编码和解码的方案。流式媒体意味着视频是通过网络实时地从发送方传输给接收方,而显示在接收方的终端上。
背景技术
数字视频由一系列帧构成,通常每秒有25个帧,每一帧由M1×N1个像素构成,参见图1。在诸如RGB的某些标准彩色表示中,每一像素进一步由24比特来表示,其中在RGB表示中,彩色被划分成红(R)、绿(G)和蓝(B)成份,它们进一步由范围在0~255之间的一个数字来表示。为了发送所有这些信息,需要每秒M1×N1×24×25比特(bps)的流量。甚至160×120像素的较小帧也需要11.5Mbps,这超出了大多数固定的和(特别是)所有无线互联网连接的带宽(在WLAN范围内为9.6kbps(GSM)~几百kbps)。然而,所有视频序列都包含一些冗余量,于是可进行压缩。
任何视频信号都可以通过放弃一些帧来进行压缩,即:降低帧速率和/或减小帧大小。在彩色视频中,有效选择彩色表示可进一步将可视相关信息降低至一半或更低,例如从RGB到YCrCb表示的标准转换。YCrCb是通过线性变换从RGB中得到的另一种24比特彩色表示。Y分量为0~255之间的值,相应于彩色的亮度或灰度级别值。Cr和Cb分量为-128~+127之间的值,定义色度或彩色平面。在径向坐标中,围绕原点的角度或色调确定实际彩色,而与原点的距离对应于彩色的饱和度。在以下,假设采用这些步骤,并且重点在于优化编码剩余帧中存在的详细信息。
所有视频压缩技术一方面利用帧之间或帧内存在的相互关系,另一方面利用对人类的视觉系统的限制的了解。可以对诸如静止物体和具体固定色彩区域等相互关系进行无损耗压缩,而通过定义损耗来省略不可视细节。此外,压缩需要对再现图像中的细节和彩色的准确性进行折衷考虑。
在视频中没有剪辑(场景变化)的情况下,只有在场景中的摄像机和/或一些物体移动时,连续的帧才是不同的。通过找到这些移动的方向和幅度并将由此产生的移动信息发送给接收方,可以有效地对这样的一系列帧进行编码。这种过程被称为运动补偿;参考前边帧的基本思想被称为INTER(帧)编码。于是,一个INTER帧非常接近前边的帧。通过有关前边帧的知识和一些表示所需变化的额外信息可以重构这样的帧。为了便于了解所能得到的压缩率,假设有一个8×8的块2(参见图2和图3),这相当于原始表格中的8×8×24=1536个比特。如果在两个连续帧1之间的块移动被限制在例如-7~7像素之间,则用8比特来表示二维运动向量,从而产生的压缩率为192。
为了运用该过程,每一剪辑之后的第一个帧需要被如此地压缩,将此称为INTRA编码。于是,INTRA帧是一个作为不参考任何其他帧的单独图像来压缩的视频帧。在视频开始和剪辑处需要INTRA帧,并且周期性地刷新视频以便能对误差进行恢复。
保持压缩视频的良好视觉质量正是所有实际视频压缩技术所面临的许多需求之一。为了商业目的,编码过程应足够快,以便对大量视频内容编码。除了可能在计算机存储器中对帧进行初始缓冲存储外,对视频的观看通常是实时进行的,这需要对视频进行实时解码和重放。从PC到PDA(个人数字助理),可能甚至是第三代移动电话等预期的平台在用于编/解码的存储器使用和处理能力方面做了进一步限制。
对于所谓的流式视频来说,快速解码甚至更重要,所谓的流式视频是在他或她正在观看时,实时地将视频发送给接收器。对于流式视频来说,有限的数据传输容量决定了在视频全长上的最小压缩比率。这是因为用于发送视频的比特率必须总是保持在可用带宽之内。
大多数视频压缩技术包括两个部件:用于压缩视频的编码器和将下载和安装在所有视频观看者的计算机中的解码器或播放器。尽管对于每个播放器版本只需下载一次,但是逐渐产生一种需要无播放器的流式视频方案的趋势,所有因特网用户对此都有兴趣。在此方案中,将小播放器应用程序和视频流一起发送给接收端。为了使由于这种开销信息而产生的等待时间最小,应用程序,即:解码器,应非常简单。
对于本文中的目的来说,考虑灰度等级帧/图像就足够了(彩色图像和不同彩色表示是随之直接向前生成的)。像素的灰度等级值被表示为亮度Y。它们在一帧中形成了一个二维数组,并且编码过程是对该数组以尽可能保持图像中的可视相关信息的方式来进行压缩和解压缩。
在INTRA方式中,(对INTRA帧进行编码的视频或图像压缩技术)每帧只是一个灰度—等级比特图图像。在实际中,通常将图像划分成由N×N个像素组成的块2,并且与其他块独立地对每一块进行分析,参见图3。
压缩图像块信息的最简单的方式是降低表示亮度值的准确性。代替原始的256个可能的亮度值,人们可能考虑用128(值0,2,...254)或64(值0,4,...252)个值,从而分别将表示亮度信息所需的每个像素的比特数减小了12.5%和25%。同时,这种标量量化过程导致编码误差;在前边的示意性例子中,平均误差分别是每个像素0.5和1个亮度单位。然而,标量量化没有什么效果,因为它忽视了在任何实际图像中存在的相邻像素和块之间的所有相互关系。
一种考虑像素之间相互关系的方法是把图像,也即像素的亮度值看成一个二维表面。许多现有的图像压缩算法都基于函数变换,其中该表面的函数变换被分解成一些基本函数集。
最广泛应用的变换是离散余弦变换(DCT)和离散子波变换(DWT),其中基函数分别是由余弦和子波形成。较大块大小考虑了较长距离上像素之间的相互关系;基本函数的数量在此同时按N2来增长。例如在JPEG和MPEG标准中,用于DCT代码化的块大小为8×8。DCT和DWT之间的关键差别是,在前者中,基本函数是沿整个块扩展的,而在后者中,基本函数是在空间上局部化的。
在INTER方式中,(INTER方式是在压缩INTER帧或块中使用的视频压缩技术。INTER方式参考前边的帧并且可能修改它们。运动补偿技术是可表示的INTER方式。)运动补偿块可能与原始图像不完全匹配。在许多情况下,由此产生的误差是引人注目的,但仍然很小,很容易将校正信息传送给接收端,而不是将整个块编码成新的。这是因为误差通常较小,可以用较少比特而不是实际图像块中的亮度值来表示它们。除了这种特性外,可以按与它们本身图像块相类似的方式来编码差别块。
作为另外一种函数变换,可以使用向量量化(VQ)。在VQ方法中,将N×N图像块2,或N2向量3(参见图3)与来自预先训练的码本的相同大小的向量进行匹配。对于每块,选择最佳匹配的代码向量来表示原始图像块。于是,可以用有限个代码向量4来表示所有图像块2,即:向量被量化。将最佳匹配向量的索引发送给解码器,并且通过从相同码本的解码器拷贝中找到向量来恢复图像。
VQ的编码质量取决于在准备码本时使用的训练图像集及码本中的向量数目。向量空间的维数取决于块维数N的平方(N2个像素值),而可能的向量数目按
增长—码本中的向量应代表所有这些向量。于是,为了在增加块大小的同时维持稳定的编码图像质量,所需的码本大小会按指数增加。这导致需要大存储器并且对于每个向量都会导致产生相当长的搜索时间。已提出一些基本VQ方案的扩展方案,以便在满足较小存储器和/或较短搜索时间的需求的同时获得良好质量。
诸如树搜索VQ等扩展方案目的在于与码本大小相比缩短搜索时间。这些算法并没有改善图像质量(而是使其恶化),对这些算法感兴趣仅是由于它们有可能提高其他基于VQ的算法的速度。
目的在于改善图像质量的VQ算法通常使用一个以上的专用码本。根据算法的详细情况,可将它们划分成两类:它们或者通过迭代来改进编码图像块,参见图4,使用另一码本对一阶段的编码误差进一步编码,从而减小剩余误差,或者它们首先对每一块中的图像材料进行分类;然后对于不同种材料(边、纹理、光滑表面)使用不同码本(411、412、413)。通常将这种多阶段变化方案称为级联或分级VQ,而将后者称为分类VQ。所有这些方案的目的在于通过使码本专门化来降低向量空间的有效维数。代替表示所有的可能图像块,而是例如使一码本专用于误差向量,其元素被限定为一给定值(级联)之下或具有沿这些元素的边的块(分类)。在级联VQ变化方案中,经常通过减小各阶段之间块的大小进一步降低向量维数。
变换代码化技术的最关键的好处在于它们可分析可预测特性,并且按它们之间的相关重要性来排列由此产生的去相关系数。
诸如所有基本函数在相同块区域上扩展上的DCT变换与基本函数的空间位置和扩展是变化的类似DWT方法相比,更易于阻止出现赝象。这种差别是明显的,例如在对包含锐变边(在黑和亮区域发生突变)的图像块编码时。原理上,这种块的DCT在至少一个空间方向上产生所有频率。相反,该块的DWT可能仅导致一些非零系数。另一方面,DCT对于编码大的平滑变化的表面和纹理更有效,反过来它需要大量非零子波系数。
在大多数实际图像块中,零变换系数的数目至少相当于非零变换系数的数目。于是,这些变换技术的编码效率很大程度上由表示零的效率确定,对于每一个零不占用比特并且不发送这些比特。在DCT中,按最重要和频繁出现到最不重要和很少出现的顺序对系数排序。经常会出现一系列零,于是可以有效地进行游长编码。在DWT中,将系数排列成空间上独特的分级结构,其中零系数通常一次出现在分级结构的整个分枝上。这种分枝可以由一个代码字集体地被置空。
所有变换代码化技术都有一主要的共同缺点,即:它们解码方计算量很大。解码涉及逆函数变换,并且只有在PC级处理器上才能快速进行。PDA设备和移动电话都不能满足这种要求。通常变换代码化还依赖于在观看任何视频前需要下载和安装的特定播放器方案。
在不同的编码情况下,还会出现其他变换编/解码缺点。原始的和编码的帧以及各个块之间的差别取决于图像初始编码中使用的方法。对于变换代码化方法来说,剩余的差别只是由于量化误差引起的,而对于运动补偿方案或VQ型技术,尽管差别幅值不大,但通常相对是随机的。在这种情况下,函数变换产生非零元素的任意组合,这可能比实际图像系数更难压缩。
向量量化技术的优点和缺点与变换编/解码技术正好相反。压缩技术总是非对称的,强调极亮解码过程。在其最简单的形式中,解码仅由对代码向量进行表查询组成。可以使播放器的应用程序很小,并且在视频流开始时发送它。
代码向量对应于整个N×N块,或者替代地对应于用于一个这样块的所有变换系数。如果对于每一块发送一个向量索引,则块大小愈大,则压缩率愈大。然而,需要一个大码本以便对于大N获得良好质量。这意味着编码—向量搜索—和向接收端传送码本都需要较长时间。
另一方面,块愈小,编码结果愈准确。较小的块或向量还需要较小的码本,这样需要较少的存储器并且能够更快地发送给接收端。此外,代码向量搜索操作更快,从而使整个编码过程更快。较小块的缺点是需要传送大量索引。
在改进的VQ变化方案中,将向量空间划分成几个部分,并且为各部分准备一个码本。具体地说,在级联VQ中,通过有效增加通过后继编码阶段获得的可获得向量V的数量来改善图像质量。在理想情况下,即在不同阶段的向量是正交的,增加一个具有Vi个向量的码本的阶段i,将使V增加到VxVi。该过程能够以合理的总码本大小和搜索时间有效地改善图像质量。这种改进的代价是编码每块所需的比特数;如果Vi=2n则增加了n。如果在各阶段之间降低块大小,可以进一步改善图像质量。
然而级联VQ存在两个问题。首先是根据现实差别块来训练码本,而不参考人类视觉系统。结果是,向量不必进行校正,它在视觉上最合意。其次,随着阶段数增加,编码每块需要的比特数增加,甚至如果中途块大小减小比特数增加更快。
本发明的目的在于解决以上问题。
发明内容
在阅读本说明书中应考虑以下定义。
基本方式:用于编码图像或视频帧的图像或视频压缩技术。该术语用于与差别方式相区别。
代码化:压缩、编码。由于在本文的代码化中,压缩是一项基本操作,所以可以将代码化理解为压缩操作。
解码:解压缩。
差别方式:用于对两帧,通常为原始和编码帧,之间的差别进行编码的图像或视频压缩技术。在后一种情况下,这种差别称为编码误差。
失真:编码误差的量度。通常为原始和编码亮度值在像素上的差别的欧几里德范数。
编码:压缩。
根据本发明的方案组合了几种现有方案的优良特性。简单地说,它是一种由DCT和DWT方法获得的具有某些改进的级联VQ的变化方案。本发明的基本方面是,当训练码本用于预先确定由此产生的代码向量的频率分布时,对码本进行预处理,并且对每一块独立地代码化和解码,这是使用对特定块代码化所需的一些差别代码化阶段来进行的。本发明使用差别块作为输入,并且对它进行进一步编码以一种与需要额外比特的相比有效的方式来降低剩余误差。差别块可能来自于包括VQ编码、运动补偿、DCT和DWT等任何可能的基本编码。本发明与速率(bps)成正比地有效地改善了图像质量,无论是INTER还是INTRA编码帧。
根据上述问题,本发明涉及用于压缩数据的编码方法,在该方法中,首先对数据编码,形成原始数据和编码数据之间的差别数据,将该差别数据划分成一个或多个第一块,至少在一个阶段对第一块进行编码,每个阶段包括编码操作,并且如果需要下一阶段,计算当前差别块和编码的当前差别块之间的后续差别块,按以下方式执行连续阶段:在前一阶段计算出的差别块作为后续阶段的输入,在每一阶段使用一个专用于该阶段编码的码本,直到最后阶段,使用最后码本对先前的差别块和编码的先前差别块之间的最终差别块进行编码,用于所述差别块的码本包括通过训练差别材料训练的代码向量,并且在训练之前,预处理训练差别材料以便单独采用每个代码向量的频率分布,相对于数据的特定信息进行加权,并且使用每个特定块所需的必要数量的阶段独立地编码每个块。
本发明还涉及一个编码器,按以下方式利用本发明的编码方法,相对于特定频率分布加权用于使差别代码化的至少一码本,并且该编码器包括一个评价单元,为特定的块指定所需的必要数量的阶段。
进一步考虑本发明的编码,本发明涉及用于解压缩数据的解码方法,该方法包括用于对编码的差别数据解压缩的码本,其中至少一个所述码本包括相对于特定频率分布已加权的代码向量,并使用码本一起执行解压缩结果,它至少包括最重要频率。
此外,本发明涉及解码器,使用对编码的差别数据进行解压缩的码本,其中至少一个码本已相对于特定频率分布加权。
附图说明
下面将结合附图1-10对本发明进行详细描述,其中,
图1图示了N1*M1像素大小的帧的一个示例;
图2图示了将一个帧划分为N*N像素大小的块的一个示例;
图3图示了N*N像素大小的块、代表该块的向量、和量化该向量的代码向量;
图4图示了一种已知向量量化装置的一个示例;
图5图示了根据本发明训练差别材料的一个示例;
图6和图7图示了用块特定数目个代码化阶段将每个块代码化的本发明的方法的一个简单示例;
图8图示了根据本发明包括评价单元的装置的一个示例;
图9图示了描述本发明的方法的流程图的一个示例;
图10图示了本发明的装置的一个示例。
具体实施方式
图4图示了一种已知向量量化装置的一个示例。本发明显著地改进了该装置的性能,扩展了使用该装置的能力范围。应当注意,如果在本文中块是用单数形式提及的,(虽然在实际中,图像的所有块被代码化/解码,)则该单数形式有助本文的以下部分的理解。
让我们来考虑一个原始的8*8块。在第一阶段,使用一个码本45或者替代的几个码本411,代码化41该块。可以注意到,分类的码本可以被用在一个级联VQ中。由于该代码化是关于该原始块的,所以第一阶段属于基本方式。在原始块和代码化块之间的差别416被计算48。该差别,即编码误差,可以被例如以标准方式测量作为失真
其中,dtot表示N*N块的总失真,di,j表示块的第i行和第j列的像素的失真;Yi,j 0和Yi,j e分别是原始块和编码块中该像素的亮度值。
失真块414被分为四个4*4子块417,在第二阶段(差别方式)使用码本A46或者替代的几个码本412,编码42这些子块。每个差别代码化的4*4块被从原始4*4差别块中减去49。剩下的差别418然后进步被分成四个2*2子块415。使用另一个码本E47或者替代的多个码本413编码43每个2*2差别子块419。每个被代码化的2*2差别块被从原始2*2差别块中减去410,以获得最终剩余差别。应注意,替代地在每个阶段块大小可以保持,在这种情况中不进行块的分割。
用实际的“图像”材料训练每个码本,即,在差别方式下用该码本将被使用的阶段中出现的实际差别块训练。该教授包括找到最佳地代表训练集的给定数量的向量。这是通过使用标准k-均值算法(k-means algorithm)得到的。优良度的测量是训练向量和最接近它们的代码向量之间的欧几里德距离的和。
到目前为止描述的过程与通常的级联VQ相同,并且具有相同的优点,例如简单解码。本发明包括对其的两个修改,这两个修改被设计用来解决主要的弱点和提高性能。
首先,如图5所示,在训练码本中使用的训练材料将被预处理51,以预先确定由此产生的代码向量的频率分布。这是通过以下步骤完成的:余弦变换全部训练块,通过将它们的系数设为零去除某个方式的选择,并且最后通过逆变换获得新的训练块。应当注意,DCT不是预处理训练材料的唯一方法,可以使用其它适合的函数变换。
在该过程后面的本发明是双重的。一方面,将有限数量的比特集中在校正的频率误差比试图校正包含所有频率的整个块视觉上更重要。代表频率的系数可以按照对于观测人的重要性分级:眼睛对于低空间频率比高空间频率更敏感。这并不必须以某种绝对的方式表示低频率,因为块大小越小所有的频率越高,并且因此进行基本函数的扩展。换句话说,产生的代码向量适应于希望的频率分布。
其次,在用不同频率范围训练的两个或更多的代码本中的代码向量至少接近正交并且可以被有效地一起使用彼此互补。这个概念增加了用基本编码和两个或更多差别编码阶段的组合获得的可能的代码向量的数量。对于有限数量的DCT频率的代码向量的限制有效地减少了向量维数。因此,一个给定大小的码本比不进行频率选择更好地与训练向量匹配。这个事实导致在差别块中视觉重要的组成部分的更加有效的编码。
实际应用的一些可能频率选择包括:具有最低频率的块,具有零均值的块,和具有中间频率的块(比第一种情况中高,但不是最高的)。在预处理之后,进行实际的训练52,从中发现最佳匹配代码向量53,并且形成码本。
对标准级联VQ的另一修改是关于差别编码的空间适应性。在DWT思想中,分别针对每个块决定进一步的差别方式的使用,即,一个块的编码可能包括差别编码的几个连续的阶段,而其相邻块被决定仅仅用基本方式编码就足够了。
图6和图7图示了用块特定数目个代码化阶段将每个块代码化的本发明的方法的一个简单示例。图6显示了一个8*8块ORG,该块被代码化(比较图4,41)并且在第一阶段,原始和代码化的块之间的差别被划分(图4,417)成4*4块D1A至D1D。在此之后,针对进一步代码化阶段的需要检查每个块。由于原始8*8块表示穿过统一背景的一条线61,第一阶段的代码化对于块D1A足够了,该块中只有背景。根据检查,其它块D1B至D1D需要进一步代码化。
图7显示了在第二阶段,代码化的4*4差别块(图4,415)划分成2*2块D22A-D22D,D23A-D23D,和D24A-D24D。在该分割之后,针对进一步代码化阶段的需要,检查每个块。由于块D22A,D22B,D22C,D23A,D23B,D23C,D24B,D24C和D24C只显示穿过统一背景或者单纯的背景的线61的一个小部分,第二阶段的代码化对于这些块是足够了。其它块D22D,D24A和D23D需要进一步的第三代码化阶段。作为代码化原始8*8块的结果,一个4*4块,即块D1A,被使用一个阶段代码化,几个2*2块(块D22A,D22B,D22C,D23A,D23B,D23C,D24B,D24C和D24C)被使用两阶段代码化,以及三个2*2块(D22D,D24A和D23D)被使用三阶段代码化。
对用使用附加代码化阶段的判断是基于某种成本函数形式的速率-失真考虑,该成本函数涉及使用附加比特的相对成本同时获得块失真的某种减小。换句话说,如果使用附加阶段的成本太大,附加阶段就不需要。成本函数可以按希望的方式加权,即以失真的比例加权使用的比特的成本。进而,应如何在更大范围内理解,加权考虑每一失真值(例如亮度或色度成份的失真值)比特的加权使用。比特的使用可以在失真值的范围中线性地或者非线性地被加权。
这个过程的优点是增加了每个帧中比特分配的灵活性。结果,困难的区域可以用一系列差别方式和码向量编码,而简单的区域可以校正一次或保留原样。该灵活性对于任意给定比特率增加了差别阶段的使用。
由于以上所述的原因,本发明的装置需要用于检查使用附加代码化阶段的需要的评价单元。如图8所示,优选地,评价单元102可以被实施在使用的分割模块中(比较图4,414,415和410),但是评价单元也可以使一个单独的模块。
本发明的装置将一个差别块作为每个差别方式阶段的输入并且将其编码为了进一步以与所需的附加比特相比以有效的方式减小剩余的误差。差别块可以是前面编码的结果例如基本VQ编码,运动补偿,DCT或者DWT。
本发明的解决方案包括两个部分:码本的训练和在视频编码中使用这些码本的算法。让我们考虑例如,来自一个灰度—等级视频的帧,它已经被用VQ和使用8*8块大小的运动补偿的某种组合编码了。该结果差别图像被划分成4*4的块,这些块将在两个进一步的阶段中被编码。
第一差别码本,码本A,的训练已经被使用实际差别材料执行,但是以最低频率,即,不变的组成成份被除去了。标准k-平均算法趋向于强调较低的频率,但是不会对结果向量产生虚构有限平均值。对于具有256个向量的码本,频率集中在频率表的下半部分。
第二阶段码本,码本B,被使用例如最定频率的三分之一已经被除去的差别块训练。由于训练算法,结果码向量确实在这些频率中具有一些重量,但是重点在较高频率上。因此码向量形式码本A和B可以有效地互补。在码本之间存在一些重叠的事实可以通过将来自A的两个向量或者来自B的两个向量或者分别来自A和B的两个向量组合被利用。该重叠可以通过在逆变换之前用变换系数进行训练的方式被避免。
实际编码以首先为每个4*4块从码本A中查找最佳匹配向量开始。然后计算在失真中块方面的减小并且比较引起的速率失真成本与不使用该差别向量的成本。典型的成本函数是C=d+λb,其中,d是失真,λ是加权因子,以及b是被用于该块的比特数。应当指出,加权因子也可以被附于d,或者也可以使用分别地附于d和b的加权因子处理加权。只针对这些块选择代码向量,对于这些块这样可以减小成本。在下一步骤,为剩余的4*4差别块查找码本B中的最佳匹配代码向量。再次,只当成本有效时选择代码向量。代码向量的位置可以用单独比特表示,使用一个字节足以确定原始8*8块的哪个子块会被用来自码本A的向量校正,而哪个会被用来自码本B的向量校正。
最后,该代码向量被集中在零附近并且主要地具有非常小的值。这样的码本在将其发送到接收端前可以有效地被压缩,从而减小视频接受者的初始等待时间。
图9图示了描述本发明的方法的流程图的一个示例。首先在步骤81,预处理训练材料从而预先确定将被训练的代码向量的频率分布。虽然预先进行预处理,但是根据本发明这是获得任何装置的希望的性能的基础步骤。下一步骤82,使用预处理的训练材料训练代码向量。形成码本。最后,通过针对每个原始块单独地使用必要数量的代码化或者解码阶段的方式,信息被使用级联VQ代码化/解码83。
图10图示了本发明的装置的一个示例。在实际应用中,本发明被嵌入作为完整的视频压缩/解压缩软件的一部分。压缩,即代码化,软件91一般位于发送终端93。该软件一般包括:用户接口;用于读入视频和音频信息的介质读取器;某种形式的基本编码;本发明建议的差别编码算法和码本;发送流的某种解决方案;在视频流开始时将被发送到接收终端94的小解码软件包92。但是,替代地,解码软件可以永久地位于接收终端中。
本发明结合了已有的几个解决方案的最优特性。简而言之,它是具有从DCT和DWT方法获得一些改进的级联VQ的变化方案。应当指出,可以使用任意解码技术,例如VVQ、运动补偿或者某个函数变换进行原始信息的编码,并且使用VQ处理差别信息。本发明的唯一缺点是需要针对每个块和每个码本进行一次可能较慢的码本查找。但是,这可以被使用多个快速查找算法中的任意一个解决,例如为此目的开发的树-查找VQ。
虽然本发明的编码在上下文中被主要地描述了,但是应当清楚,本发明还涉及解码。当解码时,使用的码本必须包括针对某种频率分布被加权的一些代码向量。一起使用这些码本,解压缩结果至少包括最重要的频率。还存在许多本发明的替代形式和修改。例如,帧内部和帧之间(即,块状态的或者非块状态的)函数变换和向量量化的任意形式的“基本”编码可以是本发明的装置的基础技术,因为他们都留下原始图象和编码/解码图象之间的剩余或者差别。本发明和可以被用作一序列差别编码中的一个步骤,该编码在每个步骤中使用可能变化的块大小。换句话说,在每个序列(阶段)中,在代码化差别块之前,可以使用例如DCT处理差别块。那就是说,在实际代码化前预编码。该差别可以被用任意块大小,进行按块编码。可以按任何基准来训练差别向量的向量库,即:图像块或其函数变换。在编码过程中还可以对码本进行适应性修改。在此提出的编码过程和思想可应用于任何彩色表示中,如RGB、YUV、YCrCb、CieLAB等。
本发明的视频压缩技术可以获高压缩率,同时能够保持良好的可以感知的图像质量,并且解码方只需较小的处理能力,很明显,在不背离本发明的精神实质情况下,本发明可以有多种实现方案。
Claims (44)
1.一种压缩数据的编码方法,其中首先编码该数据并且形成原始数据和编码的数据之间的差别数据,该差别数据被划分成一个或多个第一块,该第一块至少在一个阶段被编码,每个阶段包括编码操作并且,如果需要下个阶段,计算当前差别块和编码的当前差别块之间的后续差别块,通过将在前一阶段计算的差别块作为下一阶段的输入的方式,执行连续的阶段,在每个阶段使用一个码本,该码本指定用于该阶段的编码,直到最后一个阶段,前面的差别块和编码的前面的差别块之间的最后差别块被使用最后的码本编码,所述差别块的码本包括用训练差别材料训练的代码向量,其特征在于:在训练之前,预处理训练差别材料以便采用每个代码向量的频率分布相对于该数据的特定信息进行加权,以及使用特定块所需的必要数量的阶段独立地编码每个块。
2.根据权利要求1所述的方法,其特征在于:至少在一个所述阶段,差别块被划分成子块,以在下一阶段被用作差别块。
3.根据权利要求1所述的方法,其特征在于:至少在一个所述阶段使用一个以上的码本。
4.根据权利要求2所述的方法,其特征在于:至少在一个所述阶段使用一个以上码本。
5.根据权利要求1所述的方法,其特征在于:训练材料的预处理是使用离散余弦变换进行的。
6.根据权利要求1所述的方法,其特征在于:训练材料的预处理是使用任意函数变换进行的。
7.根据权利要求1所述的方法,其特征在于:阶段的必要数量是使用余弦函数按以下方式获得的,如果使用附加阶段的成本太大则附加阶段不是必要的。
8.根据权利要求7所述的方法,其特征在于:成本函数为代码化考虑中的块,考虑剩余的差别,和代表阶段成本的所使用的比特数量。
9.根据权利要求8所述的方法,其特征在于:比特数被加权。
10.根据权利要求2所述的方法,其特征在于:训练材料的预处理是使用离散余弦变换进行的。
11.根据权利要求2所述的方法,其特征在于:训练材料的预处理是使用任意函数变换进行的。
12.根据权利要求2所述的方法,其特征在于:阶段的必要数量是使用余弦函数按以下方式获得的,如果使用附加阶段的成本太大则附加阶段不是必要的。
13.根据权利要求12所述的方法,其特征在于:成本函数为代码化考虑中的块,考虑剩余的差别,和代表阶段成本的所使用的比特数量。
14.根据权利要求13所述的方法,其特征在于:比特数被加权。
15.根据权利要求3所述的方法,其特征在于:训练材料的预处理是使用离散余弦变换进行的。
16.根据权利要求3所述的方法,其特征在于:训练材料的预处理是使用任意函数变换进行的。
17.根据权利要求3所述的方法,其特征在于:阶段的必要数量是使用余弦函数按以下方式获得的,如果使用附加阶段的成本太大则附加阶段不是必要的。
18.根据权利要求17所述的方法,其特征在于:成本函数为代码化考虑中的块,考虑剩余的差别,和代表阶段成本的所使用的比特数量。
19.根据权利要求18所述的方法,其特征在于:比特数被加权。
20.根据权利要求4所述的方法,其特征在于:训练材料的预处理是使用离散余弦变换进行的。
21.根据权利要求4所述的方法,其特征在于:训练材料的预处理是使用任意函数变换进行的。
22.根据权利要求4所述的方法,其特征在于:阶段的必要数量是使用余弦函数按以下方式获得的,如果使用附加阶段的成本太大则附加阶段不是必要的。
23.根据权利要求22所述的方法,其特征在于:成本函数为代码化考虑中的块,考虑剩余的差别,和代表阶段成本的所使用的比特数量。
24.根据权利要求23所述的方法,其特征在于:比特数被加权。
25.根据权利要求1所述的方法,其特征在于:在编码之前至少在一个阶段处理差别块。
26.根据权利要求2所述的方法,其特征在于:在编码之前至少在一个阶段处理差别块。
27.一种解压缩数据的解码方法,该方法包括用于对编码差别数据解压缩的码本,其特征在于:至少一个所述码本包括相对一个特定频率分布被加权的代码向量,以及使用该码本一起执行至少包括最重要频率的解压缩结果。
28.一种压缩数据的编码器,其中首先编码该数据并且形成原始数据和编码的数据之间的差别数据,该差别数据被划分成一个或多个第一块,该第一块至少在一个阶段被编码,每个阶段包括编码动作并且,如果需要下个阶段,计算当前差别块和编码的当前差别块之间的后续差别块,通过将在前一阶段计算的差别块作为随后阶段的输入的方式,执行连续的阶段,在每个阶段使用一个码本,该码本指定用于该阶段的编码,直到最后一个阶段,前面的差别块和编码的前面的差别块之间的最后的差别块被计算并且使用最后的码本编码,所述差别块的码本包括用训练差别材料训练的代码向量,其特征在于:用于代码化差别的至少一个码本已经被相对于一个指定频率分布加权,并且该编码器包括用于为特定块指定所需必要数量的阶段的评价单元。
29.根据权利要求28所述的编码器,其特征在于:至少在一个所述阶段,将差别块划分成子块,以在下一阶段被用作差别块。
30.根据权利要求28所述的编码器,其特征在于:至少在一个所述阶段使用一个以上码本。
31.根据权利要求29所述的编码器,其特征在于:至少在一个所述阶段使用一个以上码本。
32.根据权利要求28所述的编码器,其特征在于:该评价单元进一步包括计算使用附加阶段的成本的成本函数。
33.根据权利要求32所述的编码器,其特征在于:该成本函数为代码化考虑中的块,考虑剩余的差别,和代表阶段成本的所使用的比特数量。
34.根据权利要求33所述的编码器,其特征在于:比特数被加权。
35.根据权利要求29所述的编码器,其特征在于:该评价单元进一步包括计算使用附加阶段的成本的成本函数。
36.根据权利要求35所述的编码器,其特征在于:该成本函数为代码化考虑中的块,考虑剩余的差别,和代表阶段成本的所使用的比特数量。
37.根据权利要求36所述的编码器,其特征在于:比特数被加权。
38.根据权利要求30所述的编码器,其特征在于:该评价单元进一步包括计算使用附加阶段的成本的成本函数。
39.根据权利要求38所述的编码器,其特征在于:该成本函数为代码化考虑中的块,考虑剩余的差别,和代表阶段成本的所使用的比特数量。
40.根据权利要求39所述的编码器,其特征在于:比特数被加权。
41.根据权利要求31所述的编码器,其特征在于:该评价单元进一步包括计算使用附加阶段的成本的成本函数。
42.根据权利要求41所述的编码器,其特征在于:该成本函数为代码化考虑中的块,考虑剩余的差别,和代表阶段成本的所使用的比特数量。
43.根据权利要求42所述的编码器,其特征在于:比特数被加权。
44.一种使用解压缩编码的差别数据的码本的解码器,其特征在于:至少一个码本已经被相对于一个指定频率分布加权。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FI20012095A FI112424B (fi) | 2001-10-30 | 2001-10-30 | Koodausmenetelmä ja -järjestely |
| FI20012095 | 2001-10-30 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN1418014A true CN1418014A (zh) | 2003-05-14 |
Family
ID=8562146
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN02146094A Pending CN1418014A (zh) | 2001-10-30 | 2002-10-30 | 编码方法和编码装置 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US20030081852A1 (zh) |
| EP (1) | EP1324618A3 (zh) |
| JP (1) | JP2003188733A (zh) |
| KR (1) | KR20030036021A (zh) |
| CN (1) | CN1418014A (zh) |
| FI (1) | FI112424B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1805548B (zh) * | 2005-01-14 | 2011-05-25 | 微软公司 | 重叠双正交变换的可逆二维前置/后置滤波方法和装置 |
| CN109257048A (zh) * | 2013-04-08 | 2019-01-22 | 索尼公司 | 解码数据值序列的方法、数据解码装置及视频接收机 |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20020042816A (ko) * | 1999-08-27 | 2002-06-07 | 가부시키가이샤 세라템 테크놀로지 | 화상압축방법 |
| WO2003083765A1 (en) * | 2002-03-28 | 2003-10-09 | Color Savvy Systems Limited | Method for segmenting an image |
| WO2003103288A1 (en) * | 2002-05-29 | 2003-12-11 | Diego Garrido | Predictive interpolation of a video signal |
| US7129954B2 (en) * | 2003-03-07 | 2006-10-31 | Kabushiki Kaisha Toshiba | Apparatus and method for synthesizing multi-dimensional texture |
| US8824553B2 (en) | 2003-05-12 | 2014-09-02 | Google Inc. | Video compression method |
| JP4617644B2 (ja) * | 2003-07-18 | 2011-01-26 | ソニー株式会社 | 符号化装置及び方法 |
| US7848925B2 (en) * | 2004-09-17 | 2010-12-07 | Panasonic Corporation | Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus |
| US20060080090A1 (en) * | 2004-10-07 | 2006-04-13 | Nokia Corporation | Reusing codebooks in parameter quantization |
| FR2879387B1 (fr) * | 2004-12-15 | 2007-04-27 | Tdf Sa | Procede de transmission a debit binaire variable a travers un canal de transmission. |
| JP2006295829A (ja) * | 2005-04-14 | 2006-10-26 | Nippon Hoso Kyokai <Nhk> | 量子化装置、量子化プログラム、及び信号処理装置 |
| US7692647B2 (en) * | 2006-09-14 | 2010-04-06 | Microsoft Corporation | Real-time rendering of realistic rain |
| US8819525B1 (en) * | 2012-06-14 | 2014-08-26 | Google Inc. | Error concealment guided robustness |
| USD759062S1 (en) | 2012-10-24 | 2016-06-14 | Square, Inc. | Display screen with a graphical user interface for merchant transactions |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FI92272C (fi) * | 1992-05-20 | 1994-10-10 | Valtion Teknillinen | Kuvansiirtojärjestelmän tiivistyskoodausmenetelmä |
| US5398069A (en) * | 1993-03-26 | 1995-03-14 | Scientific Atlanta | Adaptive multi-stage vector quantization |
| US5909513A (en) * | 1995-11-09 | 1999-06-01 | Utah State University | Bit allocation for sequence image compression |
-
2001
- 2001-10-30 FI FI20012095A patent/FI112424B/fi active
- 2001-11-19 US US10/001,861 patent/US20030081852A1/en not_active Abandoned
-
2002
- 2002-10-29 EP EP02396159A patent/EP1324618A3/en not_active Withdrawn
- 2002-10-30 KR KR1020020066341A patent/KR20030036021A/ko not_active Withdrawn
- 2002-10-30 JP JP2002315144A patent/JP2003188733A/ja active Pending
- 2002-10-30 CN CN02146094A patent/CN1418014A/zh active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1805548B (zh) * | 2005-01-14 | 2011-05-25 | 微软公司 | 重叠双正交变换的可逆二维前置/后置滤波方法和装置 |
| CN109257048A (zh) * | 2013-04-08 | 2019-01-22 | 索尼公司 | 解码数据值序列的方法、数据解码装置及视频接收机 |
| CN109257048B (zh) * | 2013-04-08 | 2023-03-14 | 索尼公司 | 解码数据值序列的方法、数据解码装置及视频接收机 |
| US11671599B2 (en) | 2013-04-08 | 2023-06-06 | Sony Group Corporation | Data encoding and decoding |
Also Published As
| Publication number | Publication date |
|---|---|
| US20030081852A1 (en) | 2003-05-01 |
| EP1324618A3 (en) | 2004-06-09 |
| FI112424B (fi) | 2003-11-28 |
| FI20012095L (fi) | 2003-05-01 |
| FI20012095A0 (fi) | 2001-10-30 |
| JP2003188733A (ja) | 2003-07-04 |
| EP1324618A2 (en) | 2003-07-02 |
| KR20030036021A (ko) | 2003-05-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4800571B2 (ja) | 損失の無い方法でディジタル画像を符号化するための装置および方法 | |
| KR100788220B1 (ko) | 품질기반 영상압축 | |
| CN1319017C (zh) | 使用golomb-rice的无损失帧内编码的设备和方法 | |
| CN100576195C (zh) | 以无损方式对数字图像和音频数据解码的系统和方法 | |
| Kaur et al. | A review of image compression techniques | |
| JP2018160932A5 (ja) | スクリーンコンテンツ符号化のためのパレット符号化 | |
| CN101771876B (zh) | 编码设备、编码方法和图像处理装置 | |
| JP6245888B2 (ja) | エンコーダおよび符号化方法 | |
| CN1267817C (zh) | 用于衰落补偿的信号指示 | |
| RU2567988C2 (ru) | Кодер, способ кодирования данных, декодер, способ декодирования данных, система передачи данных, способ передачи данных и программный продукт | |
| CN1418014A (zh) | 编码方法和编码装置 | |
| KR20040018400A (ko) | Golomb-rice 코딩을 사용한 dct 압축 | |
| KR20230136121A (ko) | 인공 신경망을 사용한 프로그래시브 데이터 압축 | |
| Sindhu et al. | Images and its compression techniques-A Review | |
| US20250267306A1 (en) | Coefficient decoding method, electronic device and storage medium | |
| Chawla et al. | Image compression techniques: a review | |
| WO1997015902A1 (en) | Method and device for compact representation of a discrete region contour | |
| JP2003531553A (ja) | 固定圧縮率を使用する効率的なビデオデータアクセス | |
| JP4215269B2 (ja) | 領域ベースのスケーラブルな画像コーディング | |
| KR100412176B1 (ko) | 문자와 이미지가 포함된 문서의 압축, 복원 시스템 및방법 | |
| Poolakkachalil et al. | Comparative analysis of lossless compression techniques in efficient DCT-based image compression system based on Laplacian Transparent Composite Model and An Innovative Lossless Compression Method for Discrete-Color Images | |
| US20030219167A1 (en) | Method and system for forming HCVQ vector library | |
| Mohta et al. | Image compression and gamma correction using DCT | |
| Kumar et al. | Comparative analysis of wavelet based compression methods | |
| Mishourovsky | Visually Lossless Colour Compression Technology |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
| WD01 | Invention patent application deemed withdrawn after publication |