CN121039696A - 图像特征处理方法及译码设备 - Google Patents
图像特征处理方法及译码设备Info
- Publication number
- CN121039696A CN121039696A CN202480022012.6A CN202480022012A CN121039696A CN 121039696 A CN121039696 A CN 121039696A CN 202480022012 A CN202480022012 A CN 202480022012A CN 121039696 A CN121039696 A CN 121039696A
- Authority
- CN
- China
- Prior art keywords
- image features
- processing
- image feature
- residual
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
- H04N19/436—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本公开涉及一种图像特征处理方法及译码设备,尤其涉及图像编解码技术领域。包括:获取以参数β为全连接层的输入时全连接层输出的内容增益权重;通过至少一个残差块对输入图像特征进行特征提取,以得到提取图像特征;提取输入图像特征对应的内容图像特征;根据内容图像特征和内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将提取图像特征和联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据目标图像特征和输入图像特征,生成输出图像特征。
Description
本公开要求在2023年06月06日提交中国专利局,申请号为2023106645409的;在2023年07月13日提交中国专利局,申请号为2023108633957的;在2023年07月13日提交中国专利局,申请号为2023108608315的;在2023年07月13日提交中国专利局,申请号为2023108634061的;在2023年07月13日提交中国专利局,申请号为2023108609411的;在2023年07月14日提交中国专利局,申请号为2023108710794的;在2023年07月14日提交中国专利局,申请号为2023108705029的在2023年07月14日提交中国专利局,申请号为2023108705103的中国专利申请的优先权,在先申请的全部内容通过引用结合在本公开中。
本公开涉及图像编解码技术领域,尤其涉及一种图像特征处理方法及译码设备。
图像压缩是计算机视觉和图像处理的基本任务之一。有损图像压缩技术的发展给各个领域带来了好处,图像压缩技术可以大大降低图像存储和图像传输的数据量,但是在重建图像后得到的图像质量可能会略有下降。近年来,深度神经网络在各种任务中取得了巨大的成功,基于深度神经网络的图像压缩已经开始超越传统的图像压缩技术。JPEG AI是联合图像专家小组(JPEG)创建的一个基于学习的图像编码标准。JPEG AI的验证模型针对人眼视觉与传统的图像编码相比,在相同的主观质量下,获得了更低的码率。
JPEG AI的验证模型中分析变换网络和合成变换网络中均通过残差非局部注意力块来提取深层特征,该残差非局部注意力块可以通过捕捉像素之间的相关性,减少特征图的像素冗余。该残差非局部注意力块有两个分支:主干分支和掩膜分支。主干分支包含3个残差块,用来提取深层特征;掩膜分支包含上采样卷积、下采样卷积和一系列残差块,用来缩放深层特征。
但是目前JPEG AI的验证模型中上述分析变换网络和合成变换网络均通过残差非局部注意力块来提取深层特征,忽视了不同参数β对特征图的影响,对于不同参数β平等的对待特征图,并且并未考虑不同参数β针对不同图像内容的影响。
发明内容
第一方面,提供一种图像特征处理方法,包括:
获取以参数β为全连接层的输入时所述全连接层输出的内容增益权重;
通过至少一个残差块对输入图像特征进行特征提取,以得到提取图像特征;
提取所述输入图像特征对应的内容图像特征;
根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;
将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;
根据所述目标图像特征和所述输入图像特征,生成输出图像特征。
第二方面,提供一种编码设备的图像特征处理方法,包括:
获取第一待变换图像特征;
对所述第一待变换图像特征进行第一处理、基于残差非局部注意力块的处理以及至少一次第一处理,以获取第一输入图像特征,所述第一处理包括下采样处理和残差激活处理;
获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;
通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到提取图像特征;
提取所述输入图像特征对应的内容图像特征;
根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;
将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;
根据所述目标图像特征和所述第一输入图像特征,生成第一输出图像特征;
对所述第一输出图像特征进行下采样处理以及卷积处理,以得到分析变换图像特征。
第三方面,提供一种编码设备的图像特征处理方法,包括:
获取第一待变换图像特征;
对所述第一待变换图像特征进行至少一次第一处理,以获取第一输入图像特征,所述第一处理包括下采样处理和残差激活处理;
获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;
通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到提取图像特征;
提取所述输入图像特征对应的内容图像特征;
根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;
将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;
根据所述目标图像特征和所述第一输入图像特征,生成第一输出图像特征;
对所述第一输出图像特征进行至少一次所述下采样和至少一次残差激活处理,以及下采样处理和卷积处理,以得到分析变换图像特征。
第四方面,一种解码设备的图像特征处理方法,包括:
获取第二待变换图像特征;
对所述第二待变换图像特征进行至少一次残差块的处理以及上采样处理,以获取第二输入图像特征;
获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;
通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到提取图像特征;
提取所述输入图像特征对应的内容图像特征;
根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;
将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;
根据所述目标图像特征和所述第一输入图像特征,生成第二输出图像特征;
对所述第二输出图像特征进行至少一次第二处理,基于残差非局部注意力块进行处理,以及进行所述第二处理,以得到合成变换图像特征,所述第二处理包括残差激活处理和上采样处理。
第五方面,一种解码设备的图像特征处理方法,包括:
获取第二待变换图像特征;
对第二待变换图像特征进行至少一次残差块的处理,上采样处理,以及至少一次第二处理,以获取第一输入图像特征,所述第二处理包括残差激活处理和上采样处理;
获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;
通过至少一个残差块对所述第二输入图像特征进行特征提取,以得到提取图像特征;
提取所述输入图像特征对应的内容图像特征;
根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;
将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;
根据所述目标图像特征和所述第二输入图像特征,生成第二输出图像特征;
对所述第二输出图像特征进行至少一次第二处理,以得到合成变换图像特征。
第六方面,提供一种译码设备,包括:
处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下任一所述的方法:
第一方面或其任意一种可选的实施方式所述的方法;
第二方面或其任意一种可选的实施方式所述的方法;
第三方面或其任意一种可选的实施方式所述的方法;
第四方面或其任意一种可选的实施方式所述的方法。
第七方面,提供一种计算机可读存储介质,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现以下任一所述的方法:
第一方面或其任意一种可选的实施方式所述的方法;
第二方面或其任意一种可选的实施方式所述的方法;
第三方面或其任意一种可选的实施方式所述的方法;
第四方面或其任意一种可选的实施方式所述的方法。
第八方面,提供一种计算机程序产品,所述计算机程序产品中存储计算机程序,所述计算机程序被处理器执行时实现以下任一所述的方法:
第一方面或其任意一种可选的实施方式所述的方法;
第二方面或其任意一种可选的实施方式所述的方法;
第三方面或其任意一种可选的实施方式所述的方法;
第四方面或其任意一种可选的实施方式所述的方法。
图1为本公开实施例提供的相关技术中一种JPEG AI的验证模型的架构示意图;
图2为本公开实施例提供的相关技术中一种分析变换网络101的示意图;
图3为本公开实施例提供的相关技术中一种残差激活单元的示意图;
图4为本公开实施例提供的相关技术中一种残差非局部注意力块203的示意图;
图5为本公开实施例提供的相关技术中一种残差块的示意图;
图6为本公开实施例提供的相关技术中一种自回归卷积的上下文模型使用的掩码卷积核的示意图;
图7A为本公开实施例提供的相关技术中一种JPEG AI的验证模型中上下文模型网络105使用的掩码卷积核的示意图;
图7B为本公开实施例提供的一种相关技术中潜在空间的波前并行处理机制的示意图;
图8为本公开实施例提供的一种相关技术中合成变换网络117的示意图;
图9为本公开实施例提供的相关技术中另一种JPEG AI的验证模型的示意图;
图10为本公开实施例提供的一种ICCI子网络的示意图;
图11为本公开实施例提供的一种内容增益注意力模块的示意图;
图12为本公开实施例提供的一种基于图11所示的内容增益注意力模块执行的图像特征处理方法的流程示意图;
图13为本公开实施例提供的一种移动窗口注意力模块的示意图;
图14A为本公开实施例提供的一种将内容增益注意力模块嵌入到JPEG AI的验证模型中的分析变换网络101的示意图;
图14B为本公开实施例提供的另一种将内容增益注意力模块嵌入到JPEG AI的验证模型中的分析变换网络101的示意图;
图14C为本公开实施例提供的一种基于嵌入内容增益注意力模块的分析变换网络执行的图像特征处理方法的流程示意图;
图15A为本公开实施例提供的一种将内容增益注意力模块嵌入到JPEG AI的验证模型中的合成变换网络117的示意图;
图15B为本公开实施例提供的另一种将内容增益注意力模块嵌入到JPEG AI的验证模型中的合成变换网络117的示意图;
图15C为本公开实施例提供的一种基于嵌入内容增益注意力模块的合成变换网络执行的图像特征处理方法的流程示意图;
图16A为本公开实施例提供的一种内容增益注意力模块替换分析变换网络101中的残差非局部注意力块的示意图;
图16B为本公开实施例提供的一种基于内容增益注意力模块替换残差非局部注意力块的分析变换网络执行的图像特征处理方法的流程示意图;
图17A为本公开实施例提供的一种内容增益注意力模块替换合成变换网络117中的残差非局部注意力块的示意图;
图17B为本公开实施例提供的一种基于内容增益注意力模块替换残差非局部注意力块的合成变换网络执行的图像特征处理方法的流程示意图;
图18A为本公开实施例提供的一种内容增益注意力模块在分析变换网络101中替换和嵌入方式结合的示意图;
图18B为本公开实施例提供的一种基于内容增益注意力模块嵌入和替换方式结合的分析变换网络
执行的图像特征处理方法的流程示意图;
图19A为本公开实施例提供的一种内容增益注意力模块在合成变换网络117中替换和嵌入方式结合的示意图;
图19B为本公开实施例提供的一种基于内容增益注意力模块嵌入和替换方式结合的合成变换网络执行的图像特征处理方法的流程示意图;
图20为本公开实施例提供的一种获取输入潜在张量对应的预测值的方法流程示意图;
图21为本公开实施例提供的一种潜在空间划分为3部分的示意图;
图22为本公开实施例提供的一种第一潜在张量的示意图;
图23为本公开实施例提供的一种得到第一上下文特征的示意图;
图24为本公开实施例提供的一种第二潜在张量的示意图;
图25为本公开实施例提供的一种得到第二上下文特征的示意图;
图26为本公开实施例提供的一种获取预测输入潜在张量对应的预测值的示意图;
图27为本公开实施例提供的一种获取输出潜在张量的方法流程示意图;
图28A为本公开实施例提供的一种获取第二上下文特征的示意图;
图28B为本公开实施例提供的一种获取第一上下文特征的示意图;
图28C为本公开实施例提供的一种获取输出潜在张量的示意图;
图29A为本公开实施例提供的一种基于适配器的ICCI子网络的示意图;
图29B为本公开实施例提供的图29A中的适配器的示意图;
图30为本公开实施例提供的一种图像重构增强方法的流程示意图;
图31为本公开实施例提供的一种针对图10中ICCI处理模块的示意图;
图32为本公开实施例提供的一种图29A中ICCI处理模块的示意图;
图33为本公开实施例提供的一种1D残差块的示意图;
图34为本公开实施例提供的另一种图像重构增强方法的流程示意图;
图35为本公开实施例提供的另一种基于适配器的ICCI子网络的示意图;
图36为本公开一些实施例提供的一种解码设备的硬件结构示意图。
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
本公开的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一上下文特征和第二上下文特征等是用于区别不同的上下文特征,而不是用于描述上下文特征的特定顺序。
图像压缩是计算机视觉和图像处理的基本任务之一。有损图像压缩技术的发展给各个领域带来了好处,图像压缩技术可以大大降低图像存储和图像传输的数据量,但是在重建图像后得到的图像质量可能会略有下降。在有损图像压缩技术领域中,联合图像专家组(Joint Photographic Experts Group,JPEG)、更好的可移植图形(Better Portable Graphics,BPG)和通用视频编码(Versatile Video Coding,VVC)在内的传统编解码器使用类似的变换、量化和熵编码来进行图像压缩。
近年来,深度神经网络在各种任务中取得了巨大的成功,基于深度神经网络的图像压缩已经开始超越传统的图像压缩技术。JPEG AI是联合图像专家小组(JPEG)创建的一个基于学习的图像编码标准。JPEG AI针对人眼视觉与传统的图像编码相比,在相同的主观质量下,获得了更低的码率。
图1为本公开实施例提供的相关技术中一种JPEG AI的验证模型(Verification Model 1.0)的架构示意图。该JPEG AI的验证模型包括:分析变换网络(Analysis Transform Net)101、增益单元102、第一量化单元103、第一逆增益单元104、上下文模型网络105、预测融合网络106、超先验编码网络107、超先验解码网络108、第二量化单元109、第一无损编码器110、第一无损解码器111、分解熵模型112、超先验尺度解码网络113、第二无损编码器114、第二无损解码器115、第二逆增益单元116、合成变换网络117中的至少一个。该JPEG AI的验证模型可以将输入的原始图像x,压缩成码流,并将压缩后的码流重建成重建图像该JPEG AI的验证模型中,分析变换网络(Analysis Transform Net)101、增益单元102、第一量化单元103、第一逆增益单元104、超先验解码网络108、第二量化单元109、第一无
损编码器110、第二无损编码器114这些网络模块仅在编码器中存在;第二无损解码器115、第二逆增益单元116、合成变换网络117这些网络模块仅在解码器中均存在。上下文模型网络105、预测融合网络106、超先验编码网络107、第一无损解码器111、分解熵模型112以及超先验尺度解码网络113这些网络模块在编码器和解码器中均存在。
上述分析变换网络101,用于将输入该JPEG AI的验证模型的原始图像x转化为潜在张量y。其中,该分析变换网络101仅在编码器中工作。潜在张量是数据的高维表示,潜在张量无法直接从输入数据中观察到,但它们可以通过从输入数据中学习到的信息来确定,上述潜在张量y即为根据原始图像x中学习到的信息确定的。
图2为本公开实施例提供的相关技术中一种分析变换网络101的示意图,如图2所示,该分析变换网络101从输入端至输出端依次包括:3×3的下采样卷积201、残差激活单元202、残差非局部注意力块((Residual non-local attention networks for image restoration))203、3×3的下采样卷积204、残差激活单元205、3×3的下采样卷积206、残差激活单元207、3×3的下采样卷积208和1乘1卷积209。
其中,分析变换网络101中使用称为具有注意机制的残差激活单元,例如,图2中的残差激活单元202、残差激活单元205和残差激活单元207均为具有注意机制的残差激活单元。上述图2中的3×3下采样卷积201、3×3下采样卷积204、3×3的下采样卷积206和3×3的下采样卷积208均为结构相同的3×3的下采样卷积。
图3为本公开实施例提供的相关技术中一种残差激活单元202的示意图。如图3所示,该残差激活单元202可以包括:LeakyReLU激活函数301、卷积层302、tanh激活函数303和残差连接单元304。该残差激活单元用于增加非线性变换。
JPEG AI的验证模型中,注意机制可以使用图2所示的残差非局部注意力块203实现。残差非局部注意力块203可以提取深层特征,在提取深层特征的过程中通过捕捉像素之间的相关性,可以减少特征图的像素冗余。图4为本公开实施例提供的相关技术中一种残差非局部注意力块203的示意图。如图4所示,该残差非局部注意力块203包括两个分支:主干分支41和掩膜分支42。其中,主干分支41包含3个残差块,用来提取深层特征。掩膜分支42包含一个3×3下采样卷积401、一个3×3上采样卷积402、一个1×1卷积403、一个sigmoid激活函数404,以及一系列残差块,在图4中主干分支41的3个残差块分别表示为:残差块1、残差块2、残差块3;掩膜分支42中包括的一系列残差块分别表示为:残差块4、残差块5、残差块6、残差块7、残差块8、残差块9。需要说明的是,上述的残差块1至残差块9中的每个残差块的结构和作用均相同。
图5为图4所示实施例中的一种残差块的示意图,每个残差块中包括一个LeakyReLU激活函数501和两个3×3的卷积,其中,这两个3×3的卷积在图5中分别表示为3×3卷积502和3×3卷积503。
如图1所示,在JPEG AI的验证模型(Verification Model 1.0)中,用来实现可变码率的是外插增益单元,通过参数β来控制外插增益单元的参数,对潜在残差变量进行通道维度的缩放。外插增益单元包含上述增益单元102和第一逆增益单元104。
增益单元102,用于对残差张量r进行增益处理,为残差张量r的每个元素都乘以正向增益向量mt中指定的增益因子,以得到增益处理后的残差张量r′,其中,残差张量r为潜在张量y与预测值μ的差值,其中,该预测值μ为基于潜在张量y中元素的预测值。增益单元102用于实现JPEG AI的验证模型的可变速率能力,增益单元102为了控制压缩比使用了参数β,该参数β指定训练期间损失函数中速率和失真之间的权重。在模型训练期间,针对多个β∈{βt}获得成对的正向增益向量和反向增益向量,可以表示为其中,mt为正向增益向量,为反向增益向量。在编码和解码期间,正向增益向量和反向增益向量对编码器和解码器来说是已知的(它们是模型的一部分),增益向量mt和的维度等于残差张量r的通道数。该增益单元102仅在编码器中工作。
第一量化单元103,用于对增益处理后的残差张量进行量化处理,以得到量化后的残差张量其中,量化处理是指将信号的连续取值(或者大量可能的离散取值)近似为有限多个离散取值(或较少的离散取值)的过程。该第一量化单元103仅在编码器中工作。
第一逆增益单元104,用于对量化后的残差张量进行了逆增益处理,为量化后的残差张量的每个元素都乘以逆增益向量中指定的增益因子,以得到逆增益处理后的残差张量第一逆增益单元104可以实现JPEG AI的验证模型的可变速率能力,第一逆增益单元104为了控制压缩比使用了参数β,该参数β指定训练期间损失函数中速率和失真之间的权重。该第一逆增益单元104仅在编码器中工作。
上述上下文模型网络105用于提取上下文特征,在编码器和解码器中均存在上下文模型网络105这样的网络模块。在编码器中,上下文模型网络105用于对潜在张量进行上下文特征提取,以获取潜在张量的上下文特征。其中,在编码器中潜在张量根据逆增益处理后的残差张量和预测值μ相加得到。在解码器中,上下文模型网络105用于对潜在张量进行上下文特征提取,以获取潜在张量的上下文特征。其中,在解码器中,将码流(图1中所示的码流2)经过无损解码和逆增益处理后的残差张量与预测值μ相加,可以得到该潜在张量
在一些基于学习的图像编码方法中,会采用自回归卷积的上下文模型来进行上下文特征提取。图6为本公开实施例提供的相关技术中一种自回归卷积的上下文模型使用的掩码卷积核的示意图。如图6所示,该自回归卷积的上下文模型使用潜在空间中当前编码位置601之前的已编码元素预测当前编码位置对应的上下文特征,并将上下文特征用于后续预测当前编码位置的概率分布。其中,已编码元素为图6中虚线框中所示编码位置的元素。自回归卷积的上下文模型可以显著提高超先验模型的率失真性能,然而,该自回归卷积的上下文模型由于具有自回归结构,因此只能按照固定的光栅扫描顺序解码,后解码的潜在空间总是依赖先解码的潜在空间,导致这种模型的解码速度十分缓慢。
为了解决上述问题,在一些实施例,可以在JPEG AI的验证模型中上下文模型网络105为了可以实现并行处理,在上下文模型网络105中进一步使用了潜在空间的波前并行处理(Wavefront Parallel Processing,WPP)机制,该机制中使用已经解码的元素进行潜在张量的元素预测,预测的过程是一个自回归过程,并且针对潜在张量中不同行的元素可以按照波前并行方式独立处理,其中,处理连续行的延迟取决于屏蔽卷积核的形状。
图7A为本公开实施例提供的相关技术中一种JPEG AI的验证模型中上下文模型网络105使用的掩码卷积核的示意图。图7A中是以当前编码位置为坐标原点建立的行列坐标,当前编码位置处于第0行,第0列,n=0指示当前编码位置所处行、n=-1指示当前编码位置所处行的前1行、n=-2指指示在当前编码位置所处行的前2行;图7A中的“-2”、“-1”、“0”、“1”和“2”指示不同列,其中,“0”指示在当前编码位置所处列,“-1”指示在当前编码位置所处列之前的1列,“-2”指示在当前编码位置所处列之前的2列,“1”指示在当前编码位置所处列之后的1列,“2”指示在当前编码位置所处列之后的2列。
图7B为本公开实施例提供的相关技术中一种潜在空间的波前并行处理机制的示意图。为了提高计算资源的利用率引入了波前并行处理机制。图7B中“columu”表示列,“row”表示行,图中是以5行10列的潜在空间为例示出的。如图7B所示当前像素的张量所有通道的元素相互独立(同时)预测,在预设过程中可以基于已经处理过的像素进行预测。如图7A所示的掩码卷积核的设计方式使得图7B中每行样本(即每一行像素的预测)可以并行处理,仅仅是在下一行处理时相比于上一个处理时延迟一个元素,也即延迟一个波移动(T)的时间。
超先验编码网络107,用于对潜在张量y进行超先验编码,以得到潜在张量z,并在进行超先验编码的过程中可以提取额外的辅助信息,以使得后续基于编码结果可以获得熵编码的准确概率模型。超先验编码网络107仅在编码器工作,该超先验编码网络107中可以包括两个下采样卷积、三个卷积和ReLU激活函数。上述ReLU激活函数是一种神经网络激活函数。当输入值大于0时,它保持不变,而当输入值小于0时,它将输出0。
第二量化单元109,用于对潜在张量z进行量化处理,以得到量化后的编码潜在张量第二量化单元109仅在编码器工作。
第一无损编码器110,用于对量化后的潜在张量进行熵编码,以得到码流1。其中,熵编码是一种无损操作,用于编码比特流。熵编码和熵解码过程将分解熵模型112输出的累积分布函数(CDF)作为输入,累积分布函数(CDF)本质上是在编码端将概率密度函数(PDF)和要编码的符号进行积分,或者是在解码端将概率密度函数(PDF)和要解码的码流进行积分。该第一无损编码器110仅在编码器工作。
第一无损解码器111,用于对熵编码后得到的码流1进行熵解码,以得到熵解码后的潜在张量其中,熵解码是一种无损操作用于解码比特流。熵解码过程中可以接收累积分布函数(CDF)作为输入,熵解码本质上是概率密度函数(PDF)和要解码的码流(在解码器端)的积分。该第一无损解码器111仅在解码器工作。
分解熵模型112,用于向第一无损编码器110或者第一无损解码器111输入累积分布函数(CDF),该累积分布函数(CDF)用于进行熵编码或者熵解码。分解熵模型112在解码器中工作,也在编码器中工作。该分解熵模型112进行了整数化,以解决设备互用性问题,使得任何设备上均可以使用该分解熵模型112。其中,累积分布函数(CDF)也称为概率表,该概率表是预先计算和量化的,而不是基于可
训练参数(矩阵、偏差和因子)训练得到的,该表以整数形式存储,因此无需存储上述分布的参数。
超先验解码网络108,用于进行超先验解码,超先验解码网络108用于对熵解码后的潜在张量进行解码处理,以得到潜在张量超先验解码网络108包括一系列具有上采样步长2的两个逆卷积、三个没有张量大小变化的卷积和ReLU激活函数。超先验解码网络108可以接收大小为C×h×w的张量作为输入,并生成具有双通道4C×h×w的输出张量。该超先验解码网络108与超先验编码网络107对称,每个上采样卷积层之后是裁剪操作。超先验解码网络108在解码器中工作,也在编码器中工作。
预测融合网络106,可以接收两个输入,第一个输入为由超先验解码网络108进行超先验解码后得到的潜在张量第二个输入是由上下文模型网络105输出的上下文特征。预测融合网络106根据大小为4C×h×w的两个输入,生成大小为C×h×w的预测值μ(大小为C×h×w)。在编码器中,该预测值μ可以添加到逆增益处理后的残差张量以获得潜在张量作为上下文模型网络105的输入。在解码器中,将码流(图1中所示的码流2)经过无损解码和逆增益处理后的残差张量与预测值μ相加,可以得到潜在张量作为上下文模型网络105的输入,预测融合网络106在解码器中工作,也在编码器中工作。
超先验尺度解码网络113,用于对熵解码后的潜在张量进行超先验编码网络的逆运算,并输出概率分布为0均值的高斯分布N(0,σ)的方差。超先验尺度解码网络113包括两个上采样步幅为2的5×5逆卷积序列,两个3×3卷积和LeakyReLU激活函数。超先验尺度解码网络113与超先验编码网络107对称,每个上采样卷积层之后是裁剪操作。预测融合网络106在解码器中工作,也在编码器中工作。
第二无损编码器114,用于基于N(0,σ),对量化后的残差张量进行熵编码,以得到码流2。需要说明的是,该第二无损编码器114与该第一无损编码器110的结构和作用类似。第二无损编码器114仅在编码器中工作。
第二无损解码器115,用于基于N(0,σ),对码流2进行熵解码,以得到熵解码后的残差张量需要说明的是,该第二无损解码器115与该第一无损解码器111的结构和作用类似。第二无损解码器115仅在解码器中工作。
第二逆增益单元116,用于对熵解码后的残差张量进行逆增益处理,为熵解码后的残差张量的每个元素都乘以逆增益向量中指定的增益因子,以得到逆增益处理后的残差张量第二逆增益单元116仅在解码器中工作。
合成变换网络117,用于将潜在张量表示转化为重建图像其中,潜在张量为逆增益处理后的残差张量与预测值μ相加得到的结果。合成变换网络117仅在解码器中工作。
图8为本公开实施例提供的相关技术中一种合成变换网络117的示意图。如图8所示,该合成变换网络117从输入端至输出端依次包括:残差块801、残差块802、3×3上采样卷积803、残差激活单元804、3×3上采样卷积805、残差激活单元806、3×3上采样卷积807、残差非局部注意力块808、残差激活单元809和3×3上采样卷积810。其中,两个残差块被放置在合成变换的开始处,它们增强了重建的潜在张量减少了量化误差。
需要说明的是,合成编码网络117中的各个残差激活单元均与如图3所示的残差激活单元的结构和作用相同。合成编码网络117中的残差非局部注意力块808与上述图4所示残差非局部注意力块203的结构和作用相同。合成编码网络117中的各个残差块均与如图4所示的残差块的结构和作用相同。
图9为本公开实施例提供的相关技术中另一种JPEG AI的验证模型的示意图。
如图9所示,在上述图1所示的JPEG AI的验证模型的基础上增加了内容自适应过滤器118。该内容自适应滤波器118用于对Y、U、V分量进行增强,将合成变换网络117输出的重建图像在Y、U、V分量上进行增强,以得到增强后的重建图像该自适应过滤器118中包括有一个用于对图像的Y、U、V三个分量进行重构增强的内容自适应通道信息滤波器子网络(Content adaptive Inter Channel Correlation Information filter sub network,ICCI)子网络,通过这个ICCI子网络实现对Y、U、V分量进行增强的目的。
图10为本公开实施例提供的一种ICCI子网络的示意图。如图10所示,该ICCI子网络包括有三个不同的ICCI处理模块,该ICCI子网络的输入为图像的Y、U、V三分量,在图10中图像的Y分量表示为图像的U分量表示为图像的V分量表示为图像的U分量经过双三次插值后得到与Y相同形状的U分量图像的V分量经过双三次插值后得到与Y相同形状的V分量之后将Y分量U分量和V分量均进行正向小波变换,将
变换得到的三个分量分别表示为图10中的分量1001、分量1002和分量1003,将分量1001、分量1002和分量1003在通道维度进行拼接,将拼接之后的分量1004与各自的分量分别送入三个ICCI处理模块作为输入,三个ICCI处理模块分别对Y、U、V分量进行处理,得到三个处理后分量,这样得到处理后分量1008、处理后分量1009以及处理后分量1010,将处理后分量1008、处理后分量1009以及处理后分量1010均经过逆小波变换后得到重构之后的Y、U、V分量,重构之后的Y分量为重构之后的U分量为重构之后的V分量为其中,上述3个ICCI处理模块中残差块的数量为Nb个,用于处于Y分量的ICCI处理模块1005中残差块的数量为Nb=8,用于处于U分量的ICCI处理模块1006中残差块的数量为Nb=13,用于处于V分量的ICCI处理模块1007中残差块的数量为Nb=13。其中,上述双三次插值是一种放大图像尺寸、增加像素密度的方法,可以使用双三次差值将图像像素点数量扩大一倍,其中这些扩展出的像素点就为根据已有像素点预测而来。
上述图10所示的ICCI子网络中,在图像特征增强过程中,为了考虑不同Y、U、V分量的特点,通过设置三个不同的ICCI处理模块来对不同分量进行增强处理从而达到自适应处理的目的。
针对上述图1或图9所示的JPEG AI的验证模型,上述分析变换网络101和合成变换网络117中均通过残差非局部注意力块来提取深层特征,该残差非局部注意力块可以通过捕捉像素之间的相关性,减少特征图的像素冗余。该残差非局部注意力块有两个分支:主干分支41和掩膜分支42。主干分支41包含3个残差块,用来提取深层特征;掩膜分支包含上采样卷积、下采样卷积和一系列残差块,用来缩放深层特征。但是目前JPEG AI的验证模型中上述分析变换网络101和合成变换网络117均通过残差非局部注意力块来提取深层特征,至少存在以下问题中的一个:
(1)残差非局部注意力块忽视了不同参数β对特征图的影响,对于不同参数β,平等的对待特征图;
(2)掩膜分支不能跨窗口连接,仅能分析统一窗口内的像素的相关性,因此掩膜分支捕获像素长距离的相关性的能力有限。
(3)并未考虑不同参数β针对不同图像内容的影响,在一些实施例中,JPEG AI的验证模型中,用来实现可变码率的是外插增益单元,通过参数β来控制外插增益单元的参数,对潜在残差张量进行通道维度的缩放。可以看出外插增益单元的缩放中虽然考虑了不同参数β的影响,但是仅涉及不同参数β在通道维度进行缩放时对特征图的影响。
为了解决上述问题(1)、(2)和(3),本公开实施例设置了内容增益注意力模块,该模块可以根据参数β自适应的加权图像的内容,同时可以有效的捕获像素长距离的相关性。
图11为本公开实施例提供的一种内容增益注意力模块的示意图。图11中该内容增益注意力模块中包括:主干分支和掩膜分支。其中,主干分支包括:残差块1101、残差块1102、残差块1103,掩膜分支包括:移动窗口注意力模块1104、移动窗口注意力模块1105、全连接层1107和Sigmoid激活函数1106。该内容增益注意力模块用于提取深层图像特征。其中,Sigmoid激活函数是一种具有S形曲线的激活函数,它可以将输入值映射到[0,1]之间的范围内。
图12为本公开实施例提供的一种基于图11所示的内容增益注意力模块执行的图像特征处理方法的流程示意图。如图12所示,该图像特征处理方法的流程包括但不限于以下步骤:
1201、将参数β输入全连接层,并获取全连接层输出的内容增益权重。
其中,参数β指定训练期间损失函数中速率和失真之间的权重。
上述获取内容增益权重过程可表示为:
W=fc(β) (1)
其中,参数β的取值区间为B,B=[0.0018,0.0483]。参数β∈B,W表示经过全连接层后生成的内容增益权重,fc(β)表示全连接生成内容增益权重的过程。通过全连接层将参数β映射成与内容图像特征X的维度相同的向量。可以根据不同的参数β压缩不同的码率。
如图11中所示,在将参数β输入全连接层1107之后,全连接层1107可以输出内容增益权重W。
1202、通过至少一个残差块,对输入图像特征进行特征提取,以得到提取图像特征。
需要说明的是,本公开实施例中可以通过一个或多个残差块对输入图像特征进行特征提取。
图11中是以通过3个残差块对输入图像特征y进行特征提取,以获取提取图像特征Y为例进行说明的,其中,3个残差块分别为图12中的残差块1101、残差块1102,以及残差块1103,其中,残差块1101、残差块1102,以及残差块1103的结构均相同。输入图像特征经过残差块1101、残差块1102,以及残差块1103进行特征提取,生成提取图像特征Y。
提取图像特征Y的过程可以表示为:Y=fRB3(fRB2(fRB1(y))) (2)
其中,fRB1、fRB2、fRB3分别为残差块1101、残差块1102,以及残差块1103的计算过程。
本公开实施例中的残差块可以包括神经网络卷积层和残差连接。示例性的,可以为如图5所示的残差块的结构。
1203、提取输入图像特征对应的内容图像特征。
本公开实施例中,可以通过至少一个移动窗口注意力模块对输入图像特征进行内容图像特征的提取,以提取输入图像特征对应的内容图像特征。
图11中所示的内容增益注意力模块是以包括2个移动窗口注意力模块为例进行说明的。其中,输入图像特征y经过移动窗口注意力模块1104和移动窗口注意力模块1105进行内容图像特征的提取,以得到内容图像特征X。
上述得到内容图像特征X的过程可以表示为:X=fs2(fs1(y)) (3)
其中,fs1和fs2分别为图11中所示的移动窗口注意力模块1104和移动窗口注意力模块1105的计算过程。
图13为本公开实施例提供的一种移动窗口注意力模块的示意图。如图13所示,该移动窗口注意力模块包括:多层感知器(Multi-Layer Perceptron,MLP)全连接层1301、SoftMax激活函数1302、1×1卷积1303、1×1卷积1304、1×1卷积1305以及1×1卷积1306。上述SoftMax激活函数是一种具有归一化性质的激活函数,它可以将输入值映射到[0,1]之间的范围内,并且所有输出值的和为1。其中,输入图像特征y分别经过1×1卷积1303和1×1卷积1304进行卷积处理,将卷积处理得到的图像特征Q、和图像特征K进行元素点乘运算,并通过SoftMax激活函数1302进行处理,并将SoftMax激活函数1302的处理结果,与输入图像特征y经过1×1卷积1305处理后得到的图像特征V进行元素点乘运算,将点乘运算的结果经过1×1卷积1306处理后再与输入图像特征y经过点乘运算,并输入至MLP全连接层,以得到输出的fs(y)。fs(y)为输入图像特征y经过移动窗口注意力模块处理后的结果,可以表示为:
fs(y)=y+MLP(y+Attention(Q,K,V)) (4)
其中,fs(y)为移动窗口注意力模块的计算过程的通用表示。Q、K、V为输入图像特征y经过1×1卷积后的表示,SoftMax()为SoftMax激活函数,d为Q、K、V的通道数量,B为可学习的位置编码,Attention(Q,K,V)表示对Q,K和V计算各位置元素的相关性,生成注意力矩阵。
1204、根据内容图像特征和内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜。
如图11中所示,将输入图像特征y转换为联合空间通道注意力掩膜M,可以包括但不限于输入图像特征y首先经过移动窗口注意力模块1104和移动窗口注意力模块1105,生成内容图像特征X,然后将内容图像特征X和内容增益权重W做通道维度的点乘运算,最后经过Sigmoid激活函数,生成联合空间通道注意力掩膜M。生成联合空间通道注意力掩膜M的过程可以表示为:
M=sigmoid(fs2(fs1(y))⊙W) (6)
其中,fs1和fs2为移动窗口注意力模块1104和移动窗口注意力模块1105的计算过程。⊙为通道维度的点乘运算。Sigmoid()为Sigmoid激活函数。
1205、将提取图像特征和联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征。
1206、根据目标图像特征和输入图像特征,生成输出图像特征。
其中,上述生成输出图像特征的过程具体可以为:提取图像特征y和联合空间通道注意力掩膜M先进行元素点乘运算,运算后的结果加上输入图像特征y,生成输出图像特征yo。
上述过程可以表示为:
其中,为元素点乘运算。
结合上述公式(1)至公式(7)可以获知,内容增益注意力模块的整体计算过程可以表示为:
本公开实施例中,在内容增益注意力模块中,由于在进行深层特征提取时,通过将参数β输入全连接层来获取了内容增益权重,因此相比于原有的残差非局部注意力块,考虑了不同参数β对图像特征图的影响,解决了上述问题(1)。
在一些实施例中,由于本公开实施例中还基于该内容增益权重与提取的图像内容特征进行运算,得到了联合空间通道注意力掩膜,因此在该内容增益注意力模块中,考虑了不同参数β针对不同图像内容的影响,在该内容增益注意力模块应用于JPEGAI的验证模型中时,可以解决上述问题(3)。
在本公开的一些实施例中,移动窗口注意力模块可以按照非重叠的方式将特征划分为多个窗口,并分别计算每个窗口的注意力图,以得到局部窗口的注意力,并且通过在不同移动窗口注意力块中让窗口移动到不同位置,从而让原本不同窗口内的元素能够划分在同一个窗口内,这样就可以实现跨窗口连接。该移动窗口注意力模块通过计算局部窗口的注意力,同时允许跨窗口连接,因此提高了掩膜分支对于捕获像素长距离的相关性的能力,即解决了上述问题(2)。
示例性的,上述移动窗口注意力模块可以按照以非重叠的方式将特征划分为8×8的窗口,分别计算每个窗口的注意力图。针对至少一个移动窗口注意力模块为2个移动窗口注意力模块的情况,在第二个移动窗口注意力模块中相比于第一个移动窗口注意力模块,可以将划分的窗口向右和向下分别移动4个像素,使得原来不同窗口内的元素能划分在同一个窗口内,实现跨窗口连接。
上述内容增益注意力模块可以作用于JPEG AI的验证模型中的分析变换网络101和合成变换网络117中。
本公开的一些实施例中,将内容增益注意力模块嵌入到JPEG AI的验证模型中的上述分析变换网络101,以及合成变换网络117中。
示例性的,图14A为本公开实施例提供的一种将内容增益注意力模块嵌入到JPEG AI的验证模型中的分析变换网络101的示意图。图14A在图2的基础上,在残差激活单元205与3×3下采样卷积206之间嵌入内容增益注意力模块1401。
图14A所示的分析变换网络中,将输入该JPEG AI的验证模型的原始图像(即本公开中的第一待变换图像特征)经过3×3下采样卷积201、残差激活单元202、残差非局部注意力块203,以及3×3下采样卷积204和残差激活单元205的处理,得到第一输入图像特征,将第一输入图像特征作为内容增益注意力块1401的输入图像特征,在内容增益注意力块1401通过如图12所示的流程对该输入图像特征进行处理之后,可以得到内容增益注意力模块1401输出的第一输出图像特征,并将该第一输出图像特征进一步通过3×3下采样卷积206、残差激活单元207、3×3下采样卷积208和1×1卷积209依次处理后,得到原始图像对应的潜在张量(即本公开中的分析变换图像特征)。
示例性的,图14B为本公开实施例提供的另一种将内容增益注意力模块嵌入到JPEG AI的验证模型中的分析变换网络101的示意图。图14B在图2的基础上,在残差激活单元207与3×3下采样卷积208之间嵌入内容增益注意力模块1401。
图14A和图14B所示的分析变换网络101的不同之处在于内容增益注意力模块1401被嵌入了不同位置,基于该不同之处,图14A所示的分析变换网络会在3×3下采样卷积206、残差激活单元207之前对特征处理之前通过内容增益注意力模块1401进行特征处理,而图14B分析变换网络图会在3×3下采样卷积206、残差激活单元207之后对特征处理之前通过内容增益注意力模块1401进行特征处理,由于下采样会减小分析变换网络101的感受野,同时减少分析变换网络101的计算资源消耗,因此在对分析变换图像特征的质量求较低,且计算资源较少的情况下,可以选用图14B所示的分析变换网络,而在对分析变换图像特征的质量求较高,且计算资源较充裕的情况下可以选用图14A所示的分析变换网络。
上述图14A和图14B中的内容增益注意力模块如图13中所示。
图14B所示的分析变换网络中,将输入该JPEG AI的验证模型的原始图像经过3×3下采样卷积201、残差激活单元202、残差非局部注意力块203、3×3下采样卷积204、残差激活单元205、3×3下采样卷积206、残差激活单元207的处理,得到第一输入图像特征,将第一输入图像特征作为内容增益注意力块1401的输入图像特征,在内容增益注意力块1401通过如图12所示的流程对该第一输入图像特征进行处理之后,可以得到内容增益注意力模块1401输出的第一输出图像特征,并将该第一输出图像特征进一步通过3×3下采样卷积208和1×1卷积209依次处理后,得到原始图像对应的潜在张量(即本公开中的分析变换图像特征)。
图14C为本公开实施例提供的一种基于嵌入内容增益注意力模块的分析变换网络执行的图像特征处理方法的流程示意图。该图像特征处理方法应用于编码设备,该方法可以包括但不限于以下步骤:
141、获取第一待变换图像特征。
其中,上述第一待变换图像特征可以为输入分析变换网络的特征。示例性的,如图1或图9所示,该第一待变换图像特征可以为输入分析变换网络101的原始图像x。
142、对第一待变换图像特征进行第一处理、基于残差非局部注意力块的处理以及至少一次所述第一处理,以获取第一输入图像特征。
其中,第一处理包括下采样处理和残差激活处理,例如,通过3×3下采样卷积进行的下采样处理,然后通过残差激活单元对3×3下采样卷积的输出进行的残差激活处理。
上述至少一次第一处理为一次第一处理,或者,上述至少一次第一处理为两次第一处理。
示例性的,如图14A所示,上述至少一次第一处理为一次第一处理。第一待变换图像特征在输入至分析变换网络之后,会先经过3×3下采样卷积201和残差激活单元202进行一次第一处理,之后再经过残差非局部注意力块203,以及3×3下采样卷积204和残差激活单元205再进行一次第一处理,这样就可以得到第一输入图像特征,继续输入至内容增益注意力块1401继续后续处理。
示例性的,如图14B所示,上述至少一次第一处理为两次第一处理。第一待变换图像特征在输入至分析变换网络之后,会先经过3×3下采样卷积201和残差激活单元202进行一次第一处理,之后再经过残差非局部注意力块203,然后3×3下采样卷积204和残差激活单元205进行一次第一处理,并且在次由3×3下采样卷积206和残差激活单元207进行一次第一处理(即两次第一处理),这样就可以得到第一输入图像特征,继续输入至内容增益注意力块1401继续后续处理。
143、基于内容增益注意力块对第一输入图像特征进行处理,以得到第一输出图像特征。
其中,内容增益注意力块用于对图像的内容进行注意力加权。该内容增益注意力块对第一输入图像特征进行处理,以得到第一输出图像特征的过程如上述图12所示。
144、对第一输出图像特征进行下采样处理以及卷积处理,以得到分析变换图像特征。
上述分析变换图像特征可以为分析变换网络的输出特征。示例性的,如图1或图9所示,该分析变换图像特征可以为分析变换网络101输出的潜在张量y。
示例性的,如图14B所示,在内容增益注意力块1401对第一输入图像特征进行处理后,输出第一输出图像特征,并经过3×3下采样卷积208进行下采样处理,并且经过1×1卷积209进行卷积处理,就可以得到分析变换图像特征。
在上述至少一次第一处理为一次第一处理的情况下,对第一输出图像特征进行下采样处理以及卷积处理,以得到分析变换图像特征可以是:首先对所述第一输出图像特征进行第一处理,然后在进行下采样处理以及卷积处理,以得到分析变换图像特征。
示例性的,如图14A所示,上述至少一次第一处理为一次第一处理,在第一输入图像特征输入至内容增益注意力块1401进行处理之后,会输出第一输出图像特征,之后第一输出图像特征会先经过3×3下采样卷积206和残差激活单元207进行一次第一处理,之后再经过3×3下采样卷积208进行下采样处理,并且经过1×1卷积209进行卷积处理,得到分析变换图像特征。
在上述实施例中,分析变换网络中通过嵌入了内容增益注意力模块,使得该分析变换网络在将输入图像转化为潜在张量的过程中,提高了对于捕获像素长距离的相关性的能力,考虑了不同参数β针对图像特征图的影响,以及不同参数针对不同图像内容的影响,从而可以得到更加准确的潜在张量,提升JPEG AI的验证模型的性能。
图15A为本公开实施例提供的一种将内容增益注意力模块嵌入到JPEG AI的验证模型中的合成变换网络117的示意图。图15A在图8的基础上,在3×3上采样卷积805与残差激活单元806之间嵌入了内容增益注意力块1501。
图15A所示的合成变换网络中,将该JPEG AI的验证模型中合成变换网络中输入的潜在张量(即第二待变换图像特征),经过残差块801、残差块802、3×3上采样卷积803、残差激活单元804、3×3上采样卷积805的处理,得到第三图像特征(即第二输入图像特征),将得到的该第三图像特征作为内容增益注意力块1501的输入图像特征,在内容增益注意力块1501通过如图12所示的流程对该输入图像特征进行处理之后,可以得到内容增益注意力模块1501输出的输出图像特征(即第二输出图像特征),并将该输出图像特征进一步通过残差激活单元806、3×3上采样卷积807、残差非局部注意力块808、残差激活单元809和3×3上采样卷积810依次处理后,得到重建图像(即合成变换图像特征)。
图15B为本公开实施例提供的另一种将内容增益注意力模块嵌入到JPEG AI的验证模型中的上述合成变换网络117的示意图。图15B在图8的基础上,在3×3上采样卷积803与残差激活单元804之间嵌入了内容增益注意力块1501。
上述图15A和图15B中的内容增益注意力模块如图13中所示。
图15B所示的合成变换网络中,将该JPEG AI的验证模型中合成变换网络中输入的潜在张量(即本公开中的第二待变换图像特征),经过残差块801、残差块802和3×3上采样卷积803处理,得到第二输入图像特征,将得到的第二输入图像特征作为内容增益注意力块1501的输入图像特征,在内容增益注意力块1501通过如图12所示的流程对该第二输入图像特征进行处理之后,可以得到内容增益注意力模块1501输出的第二输出图像特征,并将该第二输出图像特征进一步通过残差激活单元804、3×3上采样卷积805、残差激活单元806、3×3上采样卷积807、残差非局部注意力块808、残差激活单元809
和3×3上采样卷积810依次处理后,得到重建图像(即本公开中的合成变换图像特征)。
图15C为本公开实施例提供的一种基于嵌入内容增益注意力模块的合成变换网络执行的图像特征处理方法的流程示意图。该图像特征处理方法应用于解码设备,该方法可以包括但不限于以下步骤:
151、获取第二待变换图像特征。
其中,第二待变换图像特征为输入至合成变换网络的特征。示例性的,如图1或者图9所示,该第二待变换图像特征可以为输入至合成变换网络117的潜在张量
152、对第二待变换图像特征进行至少一次残差块的处理以及上采样处理,以获取第二输入图像特征。
示例性的,在本公开的一些实施例中,对第二待变换图像特征进行处理的上述至少一个残差块可以是两个残差块;上采样处理可以是由3×3上采样卷积执行的处理。
示例性的,如图15B所示,第二待变换图像特征输入至合成变换网络之后先经过残差块801和残差块802进行处理,之后再经过3×3上采样卷积803进行处理后,就可以得到第二输入图像特征,将该第二输入图像特征输入至内容增益注意力块1501继续后续处理过程。
在本公开的一些实施例中,对第二待变换图像特征进行至少一次残差块的处理以及上采样处理,以获取第二输入图像特征的过程中,可以首先对第二待变换图像特征进行至少一次残差块的处理,以及上采样处理,然后再进行第二处理,以获取第二输入图像特征。
示例性的,如图15A所示,第二待变换图像特征输入至合成变换网络之后先经过残差块801和残差块802进行处理,之后再经过3×3上采样卷积803进行处理,然后还经过残差激活单元804和上采样卷积805进行第二处理,才会得到第二输入图像特征,将该第二输入图像特征输入至内容增益注意力块1501继续后续处理过程。
153、基于内容增益注意力块对第二输入图像特征进行处理,以得到第二输出图像特征。
其中,内容增益注意力块用于对图像的内容进行注意力加权。该内容增益注意力块对第二输入图像特征进行处理,以得到第二输出图像特征的过程如上述图12所示。
154、对第二输出图像特征进行至少一次第二处理,基于残差非局部注意力块进行处理,以及进行第二处理,以得到合成变换图像特征。
上述第二处理包括残差激活处理和上采样处理。
其中,上述合成变换图像特征可以为合成变换网络的输出特征。示例性的,如图1或图9所示,该合成变换图像特征可以为合成变换网络117输出的重建图像
上述至少一次第二处理为一次第二处理,或者,上述至少一次第二处理为两次第二处理。
示例性的,如图15A所示,上述至少一次第二处理为一次第二处理,内容增益注意力块1501输出第二输出图像特征之后,会经过残差激活单元806和3×3上采样卷积807进行一次第二处理,并基于残差非局部注意力块808进行处理,以及经过残差激活单元809和上采样卷积810进行第二处理。
示例性的,如图15B所示,上述至少一次第二处理为两次第二处理,内容增益注意力块1501输出第二输出图像特征之后,会经过残差激活单元804和3×3上采样卷积805进行一次第二处理,并且经过残差激活单元806和3×3上采样卷积807再进行一次第二处理(即两次第二处理),然后基于残差非局部注意力块808进行处理,以及经过残差激活单元809和上采样卷积810进行第二处理。
在上述实施例中,合成变换网络中通过嵌入了内容增益注意力模块,使得该合成变换网络在将潜在张量重建为输出图像的过程中,提高了对于捕获像素长距离的相关性的能力,考虑了不同参数β针对图像特征图的影响,以及不同参数针对不同图像内容的影响,从而可以得到更加准确的输出图像,提升JPEG AI的验证模型的性能。
本公开的上述实施例中,JPEG AI的验证模型中可以包括如图14A和图14B中的任一分析变换网络,以及包括如图15A和图15B中的任一合成变换网络,通过将内容增益注意力模块嵌入到JPEG AI的验证模型中的分析变换网络和合成变换网络中,可以提高在图像编码和图像解码过程中JPEG AI的验证模型的性能。
本公开的一些实施例中,通过内容增益注意力模块,替换上述分析变换网络101中的残差非局部注意力块(即图2中所示的残差非局部注意力块203)。
图16A为本公开实施例提供的一种内容增益注意力模块替换上述分析变换网络101中的残差非局部注意力块的示意图。图16A在图2的基础上,通过内容增益注意力块1601替换了图2中原有的残差非局部注意力块203。
图16A中的内容增益注意力块1601如图13中所示。
图16A所示的分析变换网络中,将输入该JPEG AI的验证模型的原始图像(即本盛情中的第一待变换图像特征)经过3×3下采样卷积201、残差激活单元202的处理,得到第一输入图像特征,将得到的第一输入图像特征作为内容增益注意力块1601的输入图像特征,在内容增益注意力块1601通过如图12所示的流程对该输入图像特征进行处理之后,可以得到内容增益注意力模块1601输出的第一输出图像特征,并将该第一输出图像特征进一步通过3×3下采样卷积204、残差激活单元205、3×3下采样卷积206、残差激活单元207进行两次第一处理,之后再通过3×3下采样卷积208和1×1卷积209依次处理后,得到原始图像对应的潜在张量(也即本公开中的分析变换图像特征)。
图16B为本公开实施例提供的一种基于内容增益注意力模块替换残差非局部注意力块的分析变换网络执行的图像特征处理方法的流程示意图。该图像特征处理方法应用于编码设备,该方法可以包括但不限于以下步骤:
161、获取第一待变换图像特征。
其中,上述第一待变换图像特征可以为输入分析变换网络的特征。示例性的,如图1或图9所示,该第一待变换图像特征可以为输入分析变换网络101的原始图像x。
162、对第一待变换图像特征进行至少一次第一处理,以得到第一输入图像特征。
其中,所述第一处理包括下采样处理和残差激活处理。
在本公开的一些实施例中,对第一待变换图像特征进行至少一次第一处理可以包括:对第一待变换图像特征进行一次第一处理,或者,对第一待变换图像特征进行两次下CIA杨和残差激活处理。
示例性的,如图16A中示出的是针对第一待变换图像特征进行一次第一处理的情况。
163、基于内容增益注意力块对第一输入图像特征进行处理,以得到第一输出图像特征。
其中,内容增益注意力块用于对图像的内容进行注意力加权。该内容增益注意力块对第一输入图像特征进行处理,以得到第一输出图像特征的过程如上述图12所示。
164、对第一输出图像特征进行至少一次第一处理,以及下采样处理和卷积处理,以得到分析变换图像特征。
其中,上述分析变换图像特征可以为分析变换网络的输出特征。示例性的,如图1或图9所示,该分析变换图像特征可以为分析变换网络101输出的潜在张量y。
在本公开的一些实施例中,对第一输出图像特征进行至少一次第一处理包括:对第一输出图像特征进行一次第一处理,或者,对第一输出图像特征进行两次第一处理。
在本公开的一些实施例中,在上述步骤162中若对第一待变换图像特征进行一次第一处理,那么在步骤164中可以对第一输出图像特征进行两次第一处理;在上述步骤162中若对第一待变换图像特征进行两次第一处理,那么在步骤164中可以对第一输出图像特征进行一次第一处理。在整个分析变换网络执行的图像特征处理方法中,可以执行三次第一处理,这样可以得到更加准确的图像特征。
示例性的,如图16A中示出的是针对第一待变换图像特征进行一次第一处理,并且对第一输出图像特征进行两次第一处理。
在上述实施例中,分析变换网络将残差非局部注意力块替换为了内容增益注意力模块,使得该分析变换网络在将输入图像转化为潜在张量的过程中,提高了对于捕获像素长距离的相关性的能力,考虑了不同参数β针对图像特征图的影响,以及不同参数针对不同图像内容的影响,从而可以得到更加准确的潜在张量,提升JPEG AI的验证模型的性能。
本公开的一些实施例中,通过内容增益注意力模块,替换上述合成变换网络117中的残差非局部注意力块(即图8中所示的残差非局部注意力块808)。
图17A为本公开实施例提供的一种内容增益注意力模块替换合成变换网络117中的残差非局部注意力块的示意图。图17A在图8的基础上,通过内容增益注意力块1701替换了图8中原有的残差非局部注意力块808。
图17A中的内容增益注意力块1701如图13中所示。
图17A所示的合成变换网络中,将该JPEG AI的验证模型中合成变换网络中输入的潜在张量(即本公开中的第二待变换图像特征),经过残差块801、残差块802、3×3上采样卷积803、残差激活单元804、3×3上采样卷积805、残差激活单元806和3×3上采样卷积807的处理,得到第二输入图像特征,将第二输入图像特征输入内容增益注意力块1701,在内容增益注意力块1701通过如图12所示的流程对该第二输入图像特征进行处理之后,可以得到第二输出图像特征,并将该第二输出图像特征进一步通过残差激活单元809和3×3上采样卷积810依次处理后,得到重建图像(即本公开中的合成变换图像特征)。
图17B为本公开实施例提供的一种基于内容增益注意力模块替换残差非局部注意力块的合成变换网络执行的图像特征处理方法的流程示意图。该图像特征处理方法应用于解码设备,该方法可以包括但不限于以下步骤:
171、获取第二待变换图像特征。
其中,第二待变换图像特征为输入至合成变换网络的特征。示例性的,如图1或者图9所示,该第二待变换图像特征可以为输入至合成变换网络117的潜在张量
172、对第二待变换图像特征进行至少一次残差块的处理,上采样处理,以及至少一次第二处理,以获取第二输入图像特征。
示例性的,在本公开的一些实施例中,对第二待变换图像特征进行处理的上述至少一个残差块可以是两个残差块;上采样处理可以是由3×3上采样卷积执行的处理。
在本公开的一些实施例中,上述至少一次第二处理可以包括:一次第二处理,或者,两次第二处理。
示例性的,如图17A中示出的是针对第二待变换图像特征进行两次第一处理的情况。
173、基于内容增益注意力块对第二输入图像特征进行处理,以得到第二输出图像特征。
其中,内容增益注意力块用于对图像的内容进行注意力加权。该内容增益注意力块对第二输入图像特征进行处理,以得到第二输出图像特征的过程如上述图12所示。
174、对第二输出图像特征进行至少一次第二处理,以得到合成变换图像特征。
其中,上述合成变换图像特征可以为合成变换网络的输出特征。示例性的,如图1或图9所示,该合成变换图像特征可以为合成变换网络117输出的重建图像
在本公开的一些实施例中,对第二输出图像特征进行至少一次第二处理包括:对第二输出图像特征进行一次第二处理,或者,对第一输出图像特征进行两次第一处理。
在本公开的一些实施例中,在上述步骤172中若对第二待变换图像特征进行一次第一处理,那么在步骤174中可以对第二输出图像特征进行两次第一处理;在上述步骤172中若对第二待变换图像特征进行两次第一处理,那么在步骤174中可以对第二输出图像特征进行一次第一处理。在整个合成变换网络执行的图像特征处理方法中,可以执行三次第一处理,这样可以得到更加准确的图像特征。
示例性的,如图17A中示出的是针对第二待变换图像特征进行两次第一处理,并且对第一输出图像特征进行一次第一处理。
在上述实施例中,合成变换网络将残差非局部注意力块替换为了内容增益注意力模块,使得该合成变换网络在将潜在张量重建为输出图像的过程中,提高了对于捕获像素长距离的相关性的能力,考虑了不同参数β针对图像特征图的影响,以及不同参数针对不同图像内容的影响,从而可以得到更加准确的输出图像,提升JPEG AI的验证模型的性能。
本公开的上述实施例中,JPEG AI的验证模型中可以包括如图16A中的分析变换网络,以及如图17A中的合成变换网络,通过内容增益注意力模块替换残差非局部注意力块嵌入到JPEG AI的验证模型中,可以提高在图像编码和图像解码过程中JPEG AI的验证模型的性能。
本公开的一些实施例中,不仅采用一个内容增益注意力模块替换上述分析变换网络101中的残差非局部注意力块(即图2中所示的残差非局部注意力块203),并且进一步还在上述分析变换网络101中嵌入一个内容增益注意力模块。
图18A为本公开实施例提供的一种内容增益注意力模块在分析变换网络101中替换和嵌入方式结合的示意图。图18A中在图2的基础上,将图2中所示的残差非局部注意力块203替换为内容增益注意力模块1801,并且在残差激活单元205与3×3下采样卷积206之间嵌入了内容增益注意力模块1802。其中,内容增益注意力模块1801与内容增益注意力模块1802均如图13中所示。
图18A所示的分析变换网络中,将输入该JPEG AI的验证模型的原始图像(即本公开中的第一待变换图像特征)经过3×3下采样卷积201和残差激活单元202处理,以得到第一初始输入图像特征,将该第一初始输入图像特征作为内容增益注意力块1801的输入图像特征,在内容增益注意力块1801通过如图12所示的流程对该第一初始输入图像特征进行处理之后,可以得到第一初始输出图像特征。将第一初始输出图像特征经过3×3下采样卷积204和残差激活单元205的处理,得到第一再输入图像特征,将第一再输入图像特征输入内容增益注意力块1802的图像特征,在内容增益注意力块1802通过如图12所示的流程对该第一再输入图像特征进行处理之后,可以得到第一再输出图像特征,然后将第一再输出图像特征进一步通过3×3下采样卷积206、残差激活单元207、3×3下采样卷积208和1×1卷积209依次处理后,得到原始图像对应的潜在张量(即本公开中的分析变换图像特征)。
图18B为本公开实施例提供的一种基于内容增益注意力模块嵌入和替换方式结合的分析变换网络
执行的图像特征处理方法的流程示意图。该图像特征处理方法应用于编码设备,该方法可以包括但不限于以下步骤:
181、获取第一待变换图像特征。
其中,上述第一待变换图像特征可以为输入分析变换网络的特征。示例性的,如图1或图9所示,该第一待变换图像特征可以为输入分析变换网络101的原始图像x。
182、对第一待变换图像特征进行第一处理,以得到第一初始输入图像特征。
示例性的,如图18A所示,3×3下采样卷积201和残差激活单元202对输入的第一待变换图像特征进行第一处理,以得到第一初始输入图像特征。
183、基于第一内容增益注意力块对第一初始输入图像特征进行处理,以得到第一初始输出图像特征。
其中,第一内容增益注意力块用于对图像的内容进行注意力加权,该第一内容增益注意力块对第一初始输入图像特征进行处理,以得到第一初始输出图像特征的过程如上述图12所示。
184、对第一初始输出图像特征进行第一处理,以得到第一再输入图像特征。
示例性的,如图18A所示,第一内容增益注意力块表示为内容增益注意力块1801,将该第一初始输入图像特征输入内容增益注意力块1801,内容增益注意力块1801通过如图12所示的流程对该输入图像特征进行处理之后,可以得到内容增益注意力模块1801输出的第一初始输出图像特征,将第一初始输出图像特征经过3×3下采样卷积204和残差激活单元205的处理,第一再输入图像特征。
185、基于第二内容增益注意力块对第一再输入图像特征进行处理,以得到第一再输出图像特征。
其中,第二内容增益注意力块用于对图像的内容进行注意力加权。该第二内容增益注意力块对第一再输入图像特征进行处理,以得到第一再输出图像特征的过程如上述图12所示。
186、对第一再输出图像特征进行第一处理,下采样处理,以及卷积处理,以得到分析变换图像特征。
其中,上述分析变换图像特征可以为分析变换网络的输出特征。示例性的,如图1或图9所示,该分析变换图像特征可以为分析变换网络101输出的潜在张量y。
示例性的,如图18A所示,第二内容增益注意力块表示为内容增益注意力块1802,将第一再输入图像特征作为内容增益注意力块1802的输入图像特征,在内容增益注意力块1802通过如图12所示的流程对该输入图像特征进行处理之后,可以得到第一再输出图像特征,并将第一再输出图像特征进一步通过3×3下采样卷积206、残差激活单元207、3×3下采样卷积208和1×1卷积209依次处理后,得到分析变换图像特征。
在上述实施例中,分析变换网络不仅将残差非局部注意力块替换为了内容增益注意力模块,并且还在该分析变换网络中嵌入了残差非局部注意力块,这样使得该分析变换网络在将输入图像转化为潜在张量的过程中,提高了对于捕获像素长距离的相关性的能力,考虑了不同参数β针对图像特征图的影响,以及不同参数针对不同图像内容的影响,从而可以得到更加准确的潜在张量,提升JPEG AI的验证模型的性能。
本公开的一些实施例中,不仅采用一个内容增益注意力模块替换上述合成变换网络117中的残差非局部注意力块,并且进一步还在上述合成变换网络117中嵌入一个内容增益注意力模块(即图8中所示的残差非局部注意力块808)。图19A为本公开实施例提供的一种内容增益注意力模块在合成变换网络117中替换和嵌入方式结合的示意图。图19A中在图8的基础上,将图8中所示的残差非局部注意力块808替换为内容增益注意力模块1901,并且在3×3上采样卷积805与残差激活单元806之间嵌入了内容增益注意力模块1902。其中,内容增益注意力模块1902与内容增益注意力模块1901均如图13中所示。
图19A所示的合成变换网络中,将该JPEG AI的验证模型中合成变换网络中输入的潜在张量(即本公开中的第二待变换图像特征),经过残差块801、残差块802、3×3上采样卷积803、残差激活单元804、3×3上采样卷积805的处理,得到第二初始输入图像特征,将第二初始输入图像特征输入内容增益注意力块1902,在内容增益注意力块1902通过如图12所示的流程对第二初始输入图像特征行处理之后,可以得到第二初始输出图像特征。将第二初始输出图像特征通过残差激活单元806、3×3上采样卷积807的处理后,得到第二再输入图像特征,并输入内容增益注意力块1901进行处理,得到第二再输出图像特征,并将第二再输出图像特征经过残差非局部注意力块808、残差激活单元809和3×3上采样卷积810依次处理后,得到重建图像(即合成变换图像特征)。
图19B为本公开实施例提供的一种基于内容增益注意力模块嵌入和替换方式结合的合成变换网络
执行的图像特征处理方法的流程示意图。该图像特征处理方法应用于解码设备,该方法可以包括但不限于以下步骤:
191、获取第二待变换图像特征。
其中,第二待变换图像特征为输入至合成变换网络的特征。示例性的,如图1或者图9所示,该第二待变换图像特征可以为输入至合成变换网络117的潜在张量
192、对第二待变换图像特征进行至少一次残差块的处理,上采样处理,以及第二处理,以获取第二初始输入图像特征。
示例性的,在本公开的一些实施例中,对第二待变换图像特征进行处理的上述至少一个残差块可以是两个残差块;上采样处理可以是由3×3上采样卷积执行的处理。
示例性的,如图19A所示,在合成变换网络中输入第二待变换图像特征,第二待变换图像特征会经过残差块801、残差块802进行两次残差处理,之后会经过3×3上采样卷积803进行上采样处理,然后会经过残差激活单元804和3×3上采样卷积805第二处理,得到第二初始输入图像特征。
193、基于第三内容增益注意力块对第二初始输入图像特征进行处理,以得到第二初始输出图像特征。
其中,第三内容增益注意力块用于对图像的内容进行注意力加权。该第三内容增益注意力块第二初始输入图像特征进行处理,以得到第二初始输出图像特征的过程如上述图12所示。
194、对第二初始输出图像特征进行第二处理,以得到第二再输入图像特征。
如图19A所示,第三内容增益注意力块在图19A中采用内容增益注意力块1902表示,在内容增益注意力块1902通过如图12所示的流程对第二初始输出图像特征进行处理之后,可以得到第二初始输出图像特征。将内容增益注意力模块1902输出的输出图像特征通过残差激活单元806、3×3上采样卷积807的处理后,第二再输入图像特征。
195、基于第四内容增益注意力块对第二再输入图像特征进行处理,以得到第二再输出图像特征。
其中,第四内容增益注意力块用于对图像的内容进行注意力加权。该第四内容增益注意力块对第二再输入图像特征进行处理,以得到第二再输出图像特征的过程如上述图12所示。
如图19A所示,第四内容增益注意力块在图19A中采用内容增益注意力块1901表示,在内容增益注意力块1901通过如图12所示的流程对第二再输入图像特征进行处理之后,可以得到第二再输出图像特征。
196、对第二再输出图像特征进行第二处理,以得到合成变换图像特征。
如图19A所示,通过残差激活单元809和上采样卷积810对第二再输出图像特征进行第二处理合成变换图像特征。
其中,上述合成变换图像特征可以为合成变换网络的输出特征。示例性的,如图1或图9所示,该合成变换图像特征可以为合成变换网络117输出的重建图像
在上述实施例中,合成变换网络不仅将残差非局部注意力块替换为了内容增益注意力模块,并且还在该合成变换网络中嵌入了残差非局部注意力块,这样使得该合成变换网络在将潜在张量重建为输出图像的过程中,提高了对于捕获像素长距离的相关性的能力,考虑了不同参数β针对图像特征图的影响,以及不同参数针对不同图像内容的影响,从而可以得到更加准确的输出图像,提升JPEG AI的验证模型的性能。
本公开的上述实施例中,JPEG AI的验证模型中可以包括如图18中的分析变换网络,以及如图19中的合成变换网络,通过内容增益注意力模块替换残差非局部注意力块嵌入到JPEG AI的验证模型中,可以提高在图像编码和图像解码过程中JPEG AI的验证模型的性能。
其中,上述第一图像特征、第二图像特征、第三图像特征、第四图像特征、第五图像特征、第六图像特征、第七图像特征、第八图像特征、第九图像特征、第十图像特征用于区分对图像进行各种处理后得到的图像特征。
需要说明的是,在上述如图13所示的内容增益注意力模块在应用于分析变换网络中时,如图12所示的方法流程可以应用于编码器;在上述如图13所示的内容增益注意力模块应用于合成变换网络中时,如图12所示的方法流程可以应用于解码器。
图像压缩是计算机视觉和图像处理的基本任务之一。有损图像压缩技术的发展给各个领域带来了好处,图像压缩技术可以大大降低图像存储和图像传输的数据量,但是在重建图像后得到的图像质量可能会略有下降。近年来,深度神经网络在各种任务中取得了巨大的成功,基于深度神经网络的图像压缩已经开始超越传统的图像压缩技术。JPEG AI是联合图像专家小组(JPEG)创建的一个基于学习的图像编
码标准。JPEG AI验证模型针对人眼视觉与传统的图像编码相比,在相同的主观质量下,获得了更低的码率。JPEG AI验证模型的上下文模型网络中,为了实现并行处理采用卷积核计算当前像素的元素的上下文特征,在计算当前像素的元素的上下文特征时,只关注当前像素的左上方的元素,没有关注到当前像素周围的其他元素,并没有利用到当前像素的右下方的其他元素,因此得到的上下文特征的准确性较低。为了解决该问题,本公开提供了以下技术方案:
图1中的上下文模型网络105中,为了实现并行处理采用卷积核计算当前像素的元素的上下文特征,在计算当前像素的元素的上下文特征时,只关注当前像素的左上方的元素,没有关注到当前像素周围的其他元素,相较于自回归卷积的上下文模型缩小了感受野,并没有利用到当前像素的右下方的其他元素,因此得到的上下文特征的准确性较低。其中,上述感受野是指卷积神经网络中每个网络层输出的特征图中的单个元素映射回原始输入特征中的区域大小,也即卷积神经网络中网络层输出的特征图上的一个元素点,由原始输入中多大区域映射而来,其感受野就是多大,网络层越深,其输出特征的元素对应的感受野越大。
为了提高上下文特征的准确性,本公开实施例提出了一种分步进行的上下文模型,通过将该分步进行的上下文模型嵌入到图1所示的JPEG AI的验证模型的上下文模型网络105中,可以提高熵编码部分的计算速度。该分步进行的上下文模型,可以将潜在空间分为3个或3个以上部分,针对潜在空间中的一部分空间计算上下文特征,并且在计算上下文特征时不仅可以利用到当前像素的左上方的元素,还可以利用到当前像素的右下方的元素,从而可以提高计算的上下文特征的准确性,并且后续基于计算出的上下文特征计算这一部分空间对应的预测值时也可以提高准确度。还可以针对潜在空间中的另一部分空间不计算上下文特征,后续直接根据超先验解码网络108的输出计算潜在空间中该另一部分空间的预测值,提高计算潜在空间的预测值的效率。该分步进行的上下文模型可以应用在编码器和/或解码器中。
图20为本公开实施例提供的一种获取输入潜在张量对应的预测值的方法流程示意图。该方法中,在编码器中的上下文模型网络中应用了分步进行的上下文模型来进行上下文特征提取,该方法包括但不限于以下步骤:
2001、将输入潜在张量对应的潜在空间划分为3部分。
其中,可以将输入潜在张量的整个潜在空间看作由多个2×2的块拼接而成,可以将多个2×2的块中每个2×2的块左上角的第一像素位置确定为第1部分;将多个2×2的块中每个2×2的块右下角的第二像素位置确定为第2部分;将2×2的块中每个2×2的块右上角和左下角的第三像素位置确定为第3部分。
其中,所述潜在空间中,每个2×2的块左上角对应第一像素位置、每个2×2的块右下角对应所述第二像素位置、每个2×2的块右上角和左下角对应所述第三像素位置。
图21为本公开实施例提供的一种潜在空间划分为3部分的示意图。示例性的,如图21所示,输入潜在张量中,可以将第一像素位置所对应的第一部分标记为1,将第二像素位置所对应的第二部分标记为2、将每一个第三像素位置所对应的第三部分标记为3。
其中,输入潜在张量为输入至上下文模型网络105的潜在张量。在该上下文模型网络105工作在编码器中时,该输入潜在张量为图1中所示的潜在张量该潜在张量根据逆增益处理后的残差张量和预测值μ相加得到。
2002、对输入潜在张量对应的潜在空间中的第三像素位置进行置零操作,以得到第一潜在张量。
上述对输入潜在张量对应的潜在空间中的第三像素位置进行置零操作,即将输入潜在张量对应的潜在空间中第一像素位置和第二像素位置的数据保留,第三像素位置的数据置零。
示例性的,以图22所示的潜在空间划分方式,图22为本公开实施例提供的一种第一潜在张量的示意图。如图22所示的第一潜在张量中,仅保留了第一像素位置和第二像素位置的数据。需要说明的是,本公开实施例中将第三像素位置的数据置零是指将输入潜在张量对应的潜在空间中第三像素位置的数据置零,而非将图21中用于标记第三像素位置所对应的第三部分的“3”置零,将输入潜在张量对应的潜在空间中第三像素位置的数据置零之后,第三像素位置所对应的第三部分仍可以标记为3,为了展示上述步骤2002对哪些像素位置的数据进行了置零,图22中将第三像素位置所对应的第三部分标记为了
空,但其表示的含义不是将用于标记第三像素位置所对应的第三部分的“3”置为了空。
2003、通过第一掩膜卷积核对所述第一潜在张量进行卷积运算,以得到对应于第三像素位置的第一上下文特征。
其中,所述第一掩膜卷积核的尺寸为5×5。
图23为本公开实施例提供的一种得到第一上下文特征的示意图。如图23所示,将图23中所示的第一潜在张量2301与5×5的掩膜卷积2302进行卷积运算,可以得到如图23中所示的第一上下文特征2303。
2004、对输入潜在张量对应的潜在空间中第二像素位置、第三像素位置进行置零操作,以得到第二潜在张量。
其中,上述对输入潜在张量对应的潜在空间中的第二像素位置、第三像素位置进行置零操作,即为将输入潜在张量对应的潜在空间中第一像素位置和第二像素位置的数据保留,第三像素位置的数据置零。
示例性的,以图22所示的潜在空间划分方式,图24为本公开实施例提供的一种第二潜在张量的示意图。如图24所示的第二潜在张量中,仅保留了第一像素位置的数据。
2005、通过第二掩膜卷积核对所述第二潜在张量进行卷积运算,以得到对应于第二像素位置的第二上下文特征。
其中,所述第二掩膜卷积核的尺寸为3×3。
图25为本公开实施例提供的一种得到第二上下文特征的示意图。如图25所示,将图25中所示的第一潜在张量2501与3×3的掩膜卷积2502进行卷积运算,可以得到如图25中所示的第二上下文特征2503。
在得到上述第一上下文特征和第二上下文特征后,可以基于上述第一上下文特征和第二上下文特征预测输入潜在张量对应的预测值μ。
上述步骤2001至步骤2005可以由上述图1中所示的JPEG AI的验证模型的上下文模型网络105实现,且该上下文模型网络105中应用了分步进行的上下文模型。
2006、将第一上下文特征、第二上下文特征和目标潜在张量进行熵概率推导,以得到输入潜在张量中所有像素位置对应的预测值。
其中,将第一上下文特征、第二上下文特征和目标潜在张量进行熵概率推导,以得到输入潜在张量中所有像素位置对应的预测值可以包括但不限于:将第一上下文特征和第二上下文特征相加,得到目标上下文特征,并将目标上下文特征和目标潜在张量进行拼接,以得到拼接结果,对拼接结果进行卷积处理,以得到输入潜在张量中所有像素位置对应的预测值。其中,该卷积处理可以为1×1的卷积运算。
上述步骤2006可以由图1中所示的JPEG AI的验证模型的预设融合网络106执行。
图26为本公开实施例提供的一种获取预测输入潜在张量对应的预测值的示意图。本公开实施例中将分步进行的上下文模型嵌入到图1所示的JPEG AI的验证模型的上下文模型网络105,并基于该JPEG AI的验证模型实现图25所示的获取预测值μ的过程。
如图26所示,将输入潜在张量输入至上下文模型网络105,该上下文模型网络按照图20所示的方法流程处理后,输出第一上下文特征和第二上下文特征,并将第一上下文特征和第二上下文特征作为图1所示的JPEG AI的验证模型的预设融合网络106的输入,预设融合网络106还可以接收JPEG AI的验证模型中超先验解码网络108对熵解码后的潜在张量进行解码处理所得到的潜在张量预设融合网络106将第一上下文特征、第二上下文特征与潜在张量进行熵概率推导,可以得到输入潜在张量所对应的预测值μ。
本公开上述实施例中,在编码器中计算上下文模型网络105的输入潜在张量对应的预测值时,对于输入潜在张量中第一像素位置不计算上下文特征,针对输入潜在张量中第二像素位置和第三像素位置的上下文特征,并基于第二像素位置和第三像素位置的上下文特征,以及目标潜在张量,计算潜在空间的预测值。该计算输入潜在张量所对应的预测值的过程中,由于无需计算第一像素位置对应的上下文特征,因此提高了计算潜在空间的预测值的效率。
上述计算输入潜在张量所对应的预测值的方式,在计算第二像素位置和第三像素位置的上下文特征
时,不仅可以利用到当前像素的左上方的元素,还可以利用到当前像素的右下方的元素,从而可以提高计算的上下文特征的准确性。
图27为本公开实施例提供的一种获取输出潜在张量的方法流程示意图。该方法中,在解码器中的上下文模型网络中应用了分步进行的上下文模型来进行上下文特征提取,该方法包括但不限于以下步骤:
2701、对目标潜在张量进行卷积处理,以计算目标潜在张量的潜在空间中第一像素位置对应的预测值。
其中,目标潜在张量为对码流(即图1中的码流1)进行熵解码之后的潜在张量进行解码处理所得到的潜在张量。上述卷积处理为1×1的卷积运算。
上述潜在空间中,每个2×2的块左上角对应第一像素位置、每个2×2的块右下角对应第二像素位置、每个2×2的块右上角和左下角对应第三像素位置。
2702、将第一残差张量与第一像素位置对应的预测值相加,以获取第二潜在张量。
其中,在第二潜在张量的潜在空间中存在第一像素位置和第二像素位置的数据,第三像素位置的数据为零。
上述第一残差张量为目标残差张量中第一像素位置对应的残差张量,所述目标残差张量为对第二码流(即图1中的码流2)进行熵解码和逆增益处理后得到的潜在张量。
2703、通过第二掩膜卷积核对第二潜在张量进行卷积运算,以得到对应于第二像素位置的第二上下文特征。
其中,第二掩膜卷积核的尺寸为3×3。
针对上述步骤2703的描述,可以参照上述针对步骤2005的相关描述,此处不再赘述。
图28A为本公开实施例提供的一种获取第二上下文特征的示意图。本公开实施例中将分步进行的上下文模型嵌入到图1所示的JPEG AI的验证模型的上下文模型网络105,并基于该JPEG AI的验证模型实现图28A所示的获取第二上下文特征的过程。
如图28A所示,超先验尺度解码网络113对熵解码后的潜在张量进行超先验编码网络107的逆运算,得到概率分布N(0,σ),之后第二无损解码器115,基于该N(0,σ)对码流2进行熵解码,以得到熵解码后的残差张量,第二逆增益单元116,用于对熵解码后的残差张量进行逆增益处理,以得到逆增益处理后的残差张量。其中,上述步骤2701中的目标潜在张量为上述超先验解码网络108对熵解码后的潜在张量进行解码处理,得到的潜在张量
如图28A所示的预设融合网络106,可以对逆增益处理后的残差张量(即上述目标潜在张量)进行1×1的卷积,以计算第一像素位置对应的预测值μ1,将后将μ1与逆增益处理后的残差张量中第一像素位置对应的第一残差张量相加可以得到第二潜在张量2801。其中,步骤2701中的第一残差张量即为逆增益处理后的残差张量中第一像素位置对应的残差张量。
如图28A所示,将第二潜在张量2801输入上下文模型网络105之后,上下文模型网络105可以执行上述步骤2703,以得到第二上下文特征2802。
2704、将第二上下文特征和目标潜在张量经过熵概率推导,可以得到对应于两个像素位置的预测值。
其中,该两个像素位置包括第一像素位置和第二像素位置。
2705、将第二残差张量与两个像素位置的预测值相加,以获取第一潜在张量。
其中,上述第二残差张量为目标残差张量中第一像素位置和第二像素位置对应的残差张量。
2706、通过第一掩膜卷积核对第一潜在张量进行卷积运算,以得到对应于第三像素位置的第一上下文特征。
其中,第一掩膜卷积核的尺寸为5×5。
图28B为本公开实施例提供的一种获取第一上下文特征的示意图。本公开实施例中将分步进行的上下文模型嵌入到图1所示的JPEG AI的验证模型的上下文模型网络105,并基于该JPEG AI的验证模型实现图28B所示的获取第一上下文特征的过程。
如图28B所示,超先验尺度解码网络113对熵解码后的潜在张量进行超先验编码网络107的逆运算,得到概率分布N(0,σ),之后第二无损解码器115,基于该N(0,σ)对码流2进行熵解码,以得到熵
解码后的残差张量,第二逆增益单元116,用于对熵解码后的残差张量进行逆增益处理,以得到逆增益处理后的残差张量。其中,上述步骤2704中的目标潜在张量为上述超先验解码网络108对熵解码后的潜在张量进行解码处理,得到的潜在张量
图28B中预设融合网络106可以使用第二上下文特征2802与潜在张量经过熵概率推导,得到两个像素位置的预测值μ12,之后将第二残差张量与两个像素位置的预测值μ12相加可以得到第一潜在张量2803。其中,步骤2705中的第二残差张量即为逆增益处理后的残差张量中第一像素位置和第二像素位置对应的残差张量。
图28B中在将第一潜在张量2803输入上下文模型网络105之后,上下文模型网络105执行上述步骤2706,以得到第一上下文特征2804。
2707、将第一上下文特征、第二上下文特征和目标潜在张量经过熵概率推导,可以得到对应于所有像素位置的预测值。
本公开的一些实施例中,将第一上下文特征、第二上下文特征和目标潜在张量经过熵概率推导,可以得到对应于所有像素位置的预测值可以包括但不限于:将第一上下文特征和第二上下文特征相加,得到目标上下文特征;将目标上下文特征和目标潜在张量进行拼接,以得到拼接结果;对拼接结果进行卷积处理,以得到所有像素位置对应的预测值。
2708、将第三残差张量与所有像素位置的预测值相加,以获取输出潜在张量。
其中,第三残差张量为目标残差张量中所有位置对应的残差张量。
图28C为本公开实施例提供的一种获取输出潜在张量的示意图。本公开实施例中将分步进行的上下文模型嵌入到图1所示的JPEG AI的验证模型的上下文模型网络105,并基于该JPEG AI的验证模型实现图28B所示的获取输出潜在张量的过程。
如图28B所示,超先验尺度解码网络113对熵解码后的潜在张量进行超先验编码网络107的逆运算,得到概率分布N(0,σ),之后第二无损解码器115,基于该N(0,σ)对码流2进行熵解码,以得到熵解码后的残差张量,第二逆增益单元116,用于对熵解码后的残差张量进行逆增益处理,以得到逆增益处理后的残差张量。其中,上述步骤2707中的目标潜在张量为上述超先验解码网络108对熵解码后的潜在张量进行解码处理,得到的潜在张量
图28B中预设融合网络106可以使用第二上下文特征2802和第一上下文特征2804与熵解码后的潜在张量经过熵概率推导,得到所有像素位置的预测值μ123,之后将第三残差张量与所有像素位置的预测值μ123相加可以得到输出潜在张量2805。其中,步骤2708中的第三残差张量即为逆增益处理后的残差张量中所有像素位置对应的残差张量。
本公开上述实施例中,在解码器中获取输出潜在张量时,由于无需计算第一像素位置对应的上下文特征,因此提高了计算潜在空间的预测值的效率。
上述获取输出潜在张量过程中,在计算第二像素位置和第三像素位置的上下文特征时,不仅可以利用到当前像素的左上方的元素,还可以利用到当前像素的右下方的元素,从而可以提高计算的上下文特征的准确性。
本公开实施例中,在图9所示的JPEG AI验证模型中解码器中的内容自适应滤波器118中使用图10所示的ICCI子网络中进行图像特征增强时,由于需要设置3个不同ICCI处理模块,因此增加了内容自适应滤波器的复杂度。
为了降低内容自适应滤波器的复杂度,本公开实施例对图9中所示的解码器中的内容自适应滤波器118进行改进,提出了一种基于适配器的ICCI子网络,该基于适配器的ICCI子网络利用引入的适配器对Y、U、V分量进行自适应处理,之后再送入统一的ICCI模块,使得内容自适应滤波器118架构从三个ICCI模块简化到一个ICCI模块,有效降低了JPEG AI验证模型的计算复杂度,也降低了内容自适应滤波器118的复杂度。
图29A为本公开实施例提供的一种基于适配器的ICCI子网络的示意图。如图29A所示,该基于适配器的ICCI子网络中包括:该ICCI子网络包括有一个统一的ICCI处理模块,该ICCI子网络的输入为
图像的Y、U、V三分量,在图29A中图像的Y分量表示为图像的U分量表示为图像的V分量表示为图像的U分量经过双三次插值后得到与Y相同形状的U分量图像的V分量经过双三次插值后得到与Y相同形状的V分量之后将Y分量U分量和V分量均进行正向小波变换,将变换得到的三个分量分别表示为图29A中的分量2901、分量2902和分量2903,将分量2901、分量2902和分量2903在通道维度进行拼接,将拼接之后的拼接分量2904输入适配器2905,在适配器2905对拼接分量2904进行自适应处理后得到自适应增强分量,并将该自适应增强后的分量输入至ICCI处理模块2906进行增强处理,得到增强处理后的目标增强分量2907,然后将目标增强分量2907在通道维度进行拆分,分别得到拆分后的Y分量2908、U分量2909和V分量2910,之后对拆分后的三个分量进行逆小波变换,以得到输出Y分量、输出U分量和输出V分量,并基于输出Y分量、输出U分量和输出V分量得到输出图像,在图29A中输出Y分量、输出U分量和输出V分量分别表示为
基于适配器的ICCI子网络中的适配器2905用于基于注意力机制提取分量的不同特征,并且同时引入通道注意力和空间注意力,做到通道注意力与空间注意力的结合。适配器2905以三分量拼接之后的总分量(拼接分量2904)作为输入,首先经过归一化层,然后对输入分量分别做通道注意力和空间注意力。将经过通道注意力和空间注意力处理的结果进行相加并做残差连接,然后再对处理结果做归一化和全连接,再做一次残差连接之后作为适配器模块的输出。在JPEG AI图像编码框架ICCI子网络中,只是用卷积操作对分量进行局部特征提取,并没有关注到分量的全局特征,因此通过适配器模块中的通道注意力与空间注意力相结合的结构,充分提取了分量中的全局特征。
图29B为图29A所示基于适配器的ICCI子网络中的适配器2905的示意图。如图29B所示,基于适配器的ICCI子网络中的适配器2905包括:1×1卷积29051、归一化层(Layer Normalization)29052、通道注意力块(Channel Attention)29053、空间注意力块(Spatial Attention)29054、相加融合模块29055、归一化层29056、多层感知机(Multilayer Perceptron,MLP)29057、相加融合模块29058以及1×1卷积29059。适配器2905对拼接分量的处理过程包括:首先依次通过1×1卷积29051和归一化层29052对拼接分量2904进行处理,然后分别将归一化层29052的输出特征输入通道注意力块29053和基于滑动窗口的网络互感器29054,再通过相加融合模块29055对1×1卷积29051的输出、通道注意力块29053的输出以及基于滑动窗口的网络互感器29054的输出进行相加融合,并依次通过归一化层29056和多层感知机29057对相加融合模块29055的相加融合结果进行处理,最后通过相加融合模块29058对相加融合模块29055的相加融合结果和多层感知机29057的输出进行相加融合,并通过1×1卷积29059对相加融合模块29058的输出进行卷积处理,以获取适配器2905的输出(自适应增强分量)。
在一些实施例中,所述空间注意力快可以为基于滑动窗口的网络互感器(Swin Transformer)。
对比图10和图29A可以看出,图10中针对不同分量采用了三个ICCI处理模块,而图29A中则针对三个分量采用了统一的ICCI处理模块,因此图29A所示的基于适配器的ICCI子网络减少了ICCI处理模块的数量,降低了ICCI子网络的复杂度。
本公开为一种基于适配器的内容自适应滤波器在JPEG AI图像压缩标准中的应用,提出了一种图像重构增强方法,该方法作用于图1所示的JPEG AI的验证模型中的内容自适应滤波器118。本公开实施例中,一种图像重构增强方法可以包括:基于输入图像的第一Y分量、第一U分量和第一V分量确定拼接分量;将拼接分量输入适配器,并获取适配器输出的自适应增强分量,适配器为基于卷积层的框架训练得到的,在训练过程中通过学习Y、U、V三个分量的特征以具有针对Y、U、V三个分量的自适应处理能力;将自适应增强分量输入至ICCI处理模块,并获取ICCI处理模块输出的目标增强分量;将目标增强分量进行通道维度的拆分和逆变换,以得到输出Y分量、输出U分量和输出V分量;基于输出Y分量、输出U分量和输出V分量,得到输出图像。
其中,该输入图像是指输入至如图1所示的内容自适应滤波器118的图像。上述第一Y分量、第一U分量和第一V分量分别表示输入图像的Y、U、V分量。
图30为本公开实施例提供的一种图像重构增强方法的流程示意图。如图30所示,该方法包括以下步骤:
3001、对输入图像的第一U分量和第一V分量使用双三次插值,以得到与输入图像的第一Y分量形状一致的第二U分量和第二V分量。
其中,第一Y分量的尺寸为第一U分量和第一V分量的尺寸的S倍。其中,在JPEG AI验证模型中S=2。
上述基于输入图像的第一Y分量、第一U分量和第一V分量确定拼接分量,具体可以通过步骤3001和3002实现。
上述输入图像的第一Y分量与第一U分量和第一V分量的形状不同,由于后续需要对U分量、V分量和Y分量进行通道维度的拼接,因此需要先将第一U分量和第一V分量的输入图像通过双三次差值方式进行调整,得到与输入图像的第一Y分量形状一致的第二U分量和第二V分量。
3002、将第一Y分量、第二U分量和第二V分量分别进行正向小波变换,并将变换结果进行拼接操作,以得到拼接分量。
上述的过程3001和3002可以表示为:
其中,上述公式(9)至公式(12)中,和分别为输入图像的三个分量,即第一Y分量、第一U分量和第一V分量,BiCubic()表示双三次插值,DWT()表示正向小波变换,Concatenation()表示拼接函数;表示第一Y分量进行正向小波变换的变换结果;表示第一U分量进行正向小波变换得到第二U分量,并对第二U分量进行正向小波变换的变换结果;表示第一V分量进行双三次插值得到第二V分量,并对第二V分量进行正向小波变换的变换结果;xYUV表示上述拼接分量。
3003、将拼接分量输入适配器,并获取该适配器输出的自适应增强分量。
本公开实施例中,适配器的主要作用是学习Y、U、V三个分量的特征以达到针对Y、U、V三个分量的自适应处理。
上述适配器的结构可以表示为:
r(xYUV;θ)=ABTxYUV (13)
其中,上述公式(13)中,A,B代表矩阵,都是适配器的可学习参数,A,B∈RC×M表示A和B为长度为C(和xYUV的通道数相同),宽度为M的矩阵;xYUV为适配器的输入,xYUV∈RC×H×W,xYUV∈RC×H×W表示xTUV为通道数为C、高度为H、宽度为W的特征,可以看出A和B的长度与xYUV的通道数相同。θ=[A,B]表示适配器参数,r(xYUV;θ)表示适配器。
其中,该适配器为基于卷积层的框架训练得到的,在训练过程中通过学习Y、U、V三个分量的特征以具有针对Y、U、V三个分量的自适应处理能力。
在本公开一些实施例中,该框架的训练集可以为JPEGAI数据集以及与JPEGAI数据集对应的不同码率压缩得到的图像。在训练过程中,适配器模块的输入为图像的Y、U、V分量拼接之后的总分量,总分量送入适配器模块提取各分量特征,然后再进入ICCI处理模块进行特征提取,ICCI处理模块的输出为处理之后的总分量,即目标增强分量,然后对目标增强分量进行拆分并进行逆小波变换后得到处理之后的Y、U、V三分量。
其中,JPEGAI数据集中共五千两百八十四张图像,包含人物、动物、风景、建筑等多种类型图像,JPEGAI验证模型以及ICCI处理模块使用JPEGAI数据集进行训练。我们使用JPEGAI数据集进行ICCI模块的训练。其中,数据集中的每张图像可以提取Y、U、V三种分量,训练过程也是使用Y、U、V三种分量同时作为ICCI模块的输入进行训练,即使用JPEGAI数据集中每张图像的Y、U、V分量进行训练。
在训练完成得到该适配器之后,适配器可以根据输入的不同(Y、U、V三个不同的分量)提取分量的不同特征,再经过ICCI处理模块的统一处理,就可以实现对Y、U、V三种不同分量的输入,实现不同的特征提取,做到针对三种分量的适配,实现简化三个ICCI模块、降低模型复杂度的目的。
3004、将自适应增强分量输入至ICCI处理模块,并获取该ICCI处理模块输出的目标增强分量。
其中,该ICCI处理模块可以为如图29A中所示的ICCI处理模块2905。该ICCI处理模块与图10中所示的ICCI处理模块1008、ICCI处理模块1009以及ICCI处理模块1010不同,具体如下:
图31为本公开实施例提供的一种针对图10中ICCI处理模块的示意图。
如图31所示,ICCI处理模块包括:3×3卷积3101、批归一化(Batch Normalization)层3102、ReLU激活函数3103、Nb个1D残差块(一维残差块)3104,以及3×3卷积3105。其中,Batch Normalization层用于对数据进行标准化处理,经过归一化之后的数据可以使网络收敛速度更快。ICCI处理模块包括有两路输入,分别为一路输入为如图10中的分量1004,另一路为ICCI处理模块所对应的分量100X,其中,在该ICCI处理模块为图10中的ICCI处理模块1008时,该分量100X为图10中所示的分量1001,且Nb=8;在该ICCI处理模块为图10中的ICCI处理模块1009时,该分量100X为图10中所示的分量1002,Nb=13;在该ICCI处理模块为图10中的ICCI处理模块1010时,该分量100X为图10中所示的分量1003,Nb=13。分量1001在经过3×3卷积3101、批归一化层3102、ReLU激活函数3103、Nb个1D残差块3104以及3×3卷积3105处理后与缩放因子γ相乘后的结果与分量100X求和,以得到ICCI处理模块的输出。其中,缩放因子γ为ICCI处理模块中的参数,该参数可以通过对ICCI处理模块的训练过程得到。
图32为本公开实施例提供的一种图29A中ICCI处理模块的示意图。该ICCI处理模块包括:3×3卷积3201、批归一化层3202、ReLU激活函数3203、Nb个1D残差块3204以及3×3卷积3215。该ICCI处理模块1010包括有一路输入,将经过适配器处理的自适应增强分量作为ICCI模块的输入,经过3×3卷积3201,批归一化层3202、Nb个1D残差块以及3×3卷积3215的一个序列,在经过该序列的处理之后与缩放因子γ相乘后作为该ICCI模块的输出。图32中的Nb可以为一个固定值。其中,缩放因子γ为ICCI处理模块中的参数,该参数可以通过对ICCI处理模块的训练过程得到。
在本公开的一些实施例中,图32中的Nb可以为大于8,且小于13的整数。
对比上述图31和图32可以看出,图31所示的ICCI处理模块存在两路输入,且不同ICCI处理模块中1D残差块的数量不同,而图32所示的ICCI处理模块则仅有一路输入,且该ICCI处理模块中1D残差块的数量为一个定值,图32所示的ICCI处理模块的架构与图22中所示的ICCI处理模块的架构不同。
上述图32中1D残差块的数量可以是根据图31中1D残差块的数量的取值情况确定,图31中针对不同分量1D残差块的数量不同,针对Y分量,1D残差块的数量为8;针对U分量,1D残差块的数量为13;针对V分量,1D残差块的数量为13。那么在本公开的一些实施例中,图32中1D残差块的数量可以按照图31中1D残差块的数量8、13以及13确定,图32中1D残差块的数量可以取8至13之间的任意整数,示例性的,1D残差块的数量可以为10。
在本公开的一些实施例中,上述图32中1D残差块的数量可以根据图31中1D残差块的数量8、13以及13的平均值确定,例如,可以是基于该平均值进行向上取整,确定为12,或者,基于该平均值进行向下取整,确定为11。
上述图31和图32中的ID残差块的结构均相同。图33为本公开实施例提供的一种1D残差块的示意图。如图33所示,该1D残差块中包括卷积3301、批归一化层(Batch Normalization,BN)3302、ReLU激活函数3303、卷积3304以及批归一化层3305。其中,在ID残差块的输入经过卷积3301、批归一化层3302、ReLU激活函数3303、卷积3304以及批归一化层3305处理后与缩放因子γn相乘,并且将相乘的结果与ID残差块的输入相加得到ID残差块的输出。其中,γn表示第n个ID残差块的缩放因子,针对每个ID残差块均存在一个缩放因此,这些缩放因子均可以通过ICCI处理模块的训练过程得
到。1D残差块可以提高对图像特征的表达能力,提取出有效图像特征,解决图像编解码过程中梯度消失和网络退化的问题。
3005、将目标增强分量进行通道维度的拆分,以得到增强Y分量、增强U分量和增强V分量。
3006、将增强Y分量、增强U分量和增强V分量分别进行逆小波变换,得到输出Y分量、输出U分量和输出V分量,并基于输出Y分量、输出U分量和输出V分量得到输出图像。
上述将目标增强分量进行通道维度的拆分和逆变换,以得到输出Y分量、输出U分量和输出V分量可以通过步骤3005和3006实现。
其中,经过ICCI模块处理后,对得到的目标增强分量进行通道维拆分得到增强Y分量、增强U分量和增强V分量,再将三分量分别进行逆小波变换得到重构之后的输出Y分量、输出U分量和输出V分量,上述操作可以表示为:
其中,上述公式(14)至公式(17)中,表示目标增强分量,Split表示进行通道维拆分,Y,U,V表示拆分得到的增强Y分量、增强U分量和增强V分量,IDWT表示逆小波变换处理,分别表示输出Y分量、输出U分量和输出V分量。
本公开实施例提供的图像重构增强方法,通过将JPEG AI验证模型中的内容自适应滤波器中使用基于适配器的ICCI子网络,在该基于适配器的ICCI子网络中引入了适配器来对Y、U、V分量进行自适应处理,以根据每个Y、U、V分量的特征来增强输入图像,使得不再需要通过不同ICCI模块处理分别处理三个分量,而是采用统一的ICCI模块处理进行处理,从而内容自适应滤波器架构从三个ICCI模块简化到一个ICCI模块,有效降低了JPEG AI验证模型的计算复杂度。
基于适配器的内容自适应滤波器在JPEG AI图像压缩标准中的应用,本公开实施例提出了另一种图像重构增强方法,该方法作用于图1所示的JPEG AI的验证模型中的内容自适应滤波器118。本公开实施例中,该另一种图像重构增强方法可以包括:对输入图像的第一Y分量、第一U分量和第一V分量分别进行正向小波变换,以得到Y分量变换结果、U分量变换结果和V分量变换结果;将Y分量变换结果、U分量变换结果和V分量变换结果进行拼接,以得到拼接分量;将拼接分量输入适配器,并获取适配器输出的自适应增强分量;将自适应增强分量、Y分量变换结果、U分量变换结果和V分量变换结果,输入至ICCI处理模块,并获取ICCI处理模块输出的Y增强分量、U增强分量和V增强分量;基于Y增强分量、U增强分量和V增强分量分别进行逆小波变换,得到输出Y分量、输出U分量和输出V分量;基于输出Y分量、输出U分量和输出V分量,得到输出图像。
其中,该输入图像是指输入至如图1所示的内容自适应滤波器118的图像。上述第一Y分量、第一U分量和第一V分量分别表示输入图像的Y、U、V分量。
图34为本公开实施例提供的另一种图像重构增强方法的流程示意图。如图34所示,该方法包括以下步骤:
3401、对输入图像的第一U分量和第一V分量使用双三次插值,以得到与输入图像的第一Y分量形状一致的第二U分量和第二V分量。
上述输入图像的第一Y分量与第一U分量和第一V分量的形状不同,由于后续需要进行通道维度的拼接,因此需要先将第一U分量和第一V分量的输入图像通过双三次差值方式进行调整,得到与输入图像的第一Y分量形状一致的第二U分量和第二V分量。
3402、将第一Y分量、第二U分量和第二V分量分别进行正向小波变换,以得到Y分量变换结果、U分量变换结果和V分量变换结果。
其中,上述对输入图像的第一Y分量、第一U分量和第一V分量分别进行正向小波变换,以得到Y分量变换结果、U分量变换结果和V分量变换结果可以通过上述步骤3401和3402实现。
上述Y分量变换结果是指上述将第一Y分量进行正向小波变换后得到的变换结果,U分量变换结
果是指将上述第二U分量进行正向小波变换后得到的变换结果,V分量变换结果是指将第二V分量进行正向小波变换后得到的变换结果。
3403、将Y分量变换结果、U分量变换结果和V分量变换结果进行拼接,以得到拼接分量。
3404、将拼接分量输入适配器,并获取该适配器输出的自适应增强分量。
针对上述步骤3401、步骤3402、步骤3403以及步骤3404的描述,可以参照针对上述步骤3001、步骤3002以及步骤3003的相关描述,这两部分步骤所实现的过程类似,此处不再赘述。
步骤3404中的适配器与上述步骤3003中所描述的适配器相同,此处不再赘述。
3405、将自适应增强分量、Y分量变换结果、U分量变换结果和V分量变换结果,输入至ICCI处理模块,并获取该ICCI处理模块输出的Y增强分量、U增强分量和V增强分量。
其中,将自适应增强分量、Y分量变换结果、U分量变换结果和V分量变换结果,输入至ICCI处理模块,并获取该ICCI处理模块输出的Y增强分量、U增强分量和V增强分量可以包括:将自适应增强分量和Y分量变换结果输入至ICCI处理模块,获取ICCI处理模块输出的Y增强分量;将自适应增强分量和U分量变换结果输入至ICCI处理模块,获取ICCI处理模块输出的U增强分量;将自适应增强分量和V分量变换结果输入至ICCI处理模块,获取ICCI处理模块输出的V增强分量。
上述ICCI处理模块,可以基于Y分量变换结果和自适应增强分量进行Y分量的增强处理,以得到Y增强分量,ICCI处理模块还可以基于U分量变换结果和自适应增强分量进行U分量的增强处理,以得到U增强分量,还可以基于V分量变换结果和自适应增强分量进行V分量的增强处理,以得到V增强分量。
图34所示的图像重构增强方法中,基于适配器的ICCI子网络中也是仅有一个ICCI处理模块,但是该方法所对应的ICCI子网络与上述图29A所示的ICCI子网络的存在不同,不同在于:ICCI处理模块的输入不同,此时输入不仅包括了经过适配器处理后的自适应增强分量,并且也包括了Y分量变换结果、U分量变换结果和V分量变换结果,并且ICCI处理模块的输出也从原来的一路变为3路,分别为Y增强分量、U增强分量和V增强分量。
图35为本公开实施例提供的另一种基于适配器的ICCI子网络的示意图。图35所示的ICCI子网络与图29A所示的ICCI子网络的示意图相比,相同点在于:该ICCI子网络包括有一个统一的ICCI处理模块,该ICCI子网络的输入为图像的Y、U、V三分量,在图35中图像的Y分量表示为图像的U分量表示为图像的V分量表示为图像的U分量经过双三次插值后得到与Y相同形状的U分量图像的V分量经过双三次插值后得到与Y相同形状的V分量之后将Y分量U分量和V分量均进行正向小波变换,得到分量2901、分量2902和分量2903。将分量2901、分量2902和分量2903在通道维度进行拼接,将拼接之后的拼接分量2904输入适配器2905,在适配器2905对拼接分量2904进行自适应处理后得到自适应增强分量,并将该自适应增强分量输入至ICCI处理模块2906进行增强处理。
图35所示的ICCI子网络与图29A所示的ICCI子网络的示意图相比区别点在于:图35中还将分量2901、分量2902和分量2903输入至ICCI处理模块2906,其中,ICCI处理模块2906可以基于分量2901和自适应增强分量得到Y增强分量3501,ICCI处理模块2906可以基于分量2902和自适应增强分量得到U增强分量3502,ICCI处理模块2906还可以基于分量2903和自适应增强分量得到V增强分量3503。
之后Y增强分量3501、U增强分量3502以及V增强分量3503分别进行逆小波变换,以得到输出Y分量、输出U分量和输出V分量,并基于输出Y分量、输出U分量和输出V分量得到输出图像,在图35中输出Y分量、输出U分量和输出V分量分别表示为
在图35所示的ICCI子网络中,ICCI处理模块的结构与图31所示的结构类似,但在图35所示的ICCI子网络中,由于仅存在一个ICCI处理模块,因此在图35中采用图31所示的ICCI处理模块时,的1D残差块的个数Nb为一个定值。
图35所示的ICCI子网络中,ICCI处理模块中1D残差块的个数Nb可以为大于8,且小于13的整数。
其中,图35中1D残差块的数量可以根据图31中1D残差块的数量8、13以及13的平均值确定。例如,可以是基于该平均值进行向上取整,确定为12,或者,基于该平均值进行向下取整,确定为11。
3406、基于Y增强分量、U增强分量和V增强分量分别进行逆小波变换,得到输出Y分量、输出U分量和输出V分量。
其中,对Y增强分量进行逆小波变换,得到输出Y分量;对U增强分量进行逆小波变换,得到输出U分量;对V增强分量进行逆小波变换,得到输出V分量。
3407、基于输出Y分量、输出U分量和输出V分量,得到输出图像。
本公开实施例提供的图像重构增强方法,通过将JPEG AI验证模型中的内容自适应滤波器中使用基于适配器的ICCI子网络,在该基于适配器的ICCI子网络中引入了适配器来对Y、U、V分量进行自适应处理,以根据每个Y、U、V分量的特征来增强输入图像,使得不再需要通过不同ICCI模块处理分别处理三个分量,而是采用统一的ICCI模块处理进行处理,从而内容自适应滤波器架构从三个ICCI模块简化到一个ICCI模块,有效降低了JPEG AI验证模型的计算复杂度。在一些实施例中该方法,还在采用统一的ICCI模块处理时,将每个Y、U、V分量和基于适配器自适应处理后的结果均作为ICCI模块处理的输入,使得ICCI模块可以分别得到对应于Y、U、V的Y增强分量、U增强分量和V增强分量,从而可以进一步考虑到不同分量的特点,使得最终得到增强后的图像包括更多各个分量的特征。
在本公开的一些实施例中,在基于输入图像的第一Y分量、第一U分量和第一V分量确定拼接分量之前,还可以执行以下方案:对目标潜在张量进行1×1的卷积,以计算目标潜在张量的潜在空间中第一像素位置对应的预测值,目标潜在张量为对第一码流进行熵解码和超先验解码处理后得到的潜在张量;将第一残差张量与第一像素位置对应的预测值相加,以获取第二潜在张量,第一残差张量为目标残差张量中第一像素位置对应的残差张量,目标残差张量为对第二码流进行熵解码和逆增益处理后得到的残差张量;通过3×3的掩膜卷积对第二潜在张量进行卷积运算,以得到对应于第二像素位置的第二上下文特征;将第二上下文特征和目标潜在张量经过熵概率推导,可以得到对应于两个像素位置的预测值;将第二残差张量与两个像素位置的预测值相加,以获取第一潜在张量,第二残差张量为目标残差张量中第一像素位置和第二像素位置对应的残差张量;
通过5×5的掩膜卷积对第一潜在张量进行卷积运算,以得到对应于第三像素位置的第一上下文特征;将第一上下文特征、第二上下文特征和目标潜在张量经过熵概率推导,可以得到对应于所有像素位置的预测值,基于所有像素位置的预测值,确定输入图像。
其中,潜在空间中,每个2×2的块左上角对应第一像素位置、每个2×2的块右下角对应第二像素位置、每个2×2的块右上角和左下角对应第三像素位置;
在本公开的一些实施例中,基于所有像素位置的预测值确定输入图像,可以包括但不限于:将第三残差张量与所有像素位置的预测值相加,以获取输出潜在张量,其中,第三残差张量为目标残差张量中所有位置对应的残差张量;对输出潜在张量进行合成变换处理,以得到输入图像。
也就是说,在基于输入图像的第一Y分量、第一U分量和第一V分量确定拼接分量之前,本公开实施例还提供了如图27所示的一种预测值的确定方法,通过图27所示的方法计算出对应于所有像素位置的预测值,并基于所有像素位置的预测值获取输出潜在张量之后,还可以进一步确定该输入图像。
其中,基于所有像素位置的预测值,确定输入图像可以包括但不限于,将上述第三残差张量与所有像素位置的预测值相加,以获取输出潜在张量,其中,第三残差张量为目标残差张量中所有位置对应的残差张量,对输出潜在张量进行合成变换处理,以得到上述输入图像。
上述合成变换处理可以通过图9中的合成变换网络117实现。
本公开实施例中,通过图27所示的预测值的确定方法,计算出对应于所有像素位置的预测值之后,可以基于所有像素位置的预测值确定输入图像,并且基于该输入图像基于上述图像重构增强方法进行重构增强处理,得到最终的输出图像。通过这样的方案,一方面,由于在计算第二像素位置和第三像素位置的上下文特征时,不仅可以利用到当前像素的左上方的元素,还可以利用到当前像素的右下方的元素,提高了计算的上下文特征的准确性,因此可以得到更加准确的输入图像,另一方面,对输入图像进行重构增强处理时,在内容自适应滤波器中使用基于适配器的ICCI子网络,在该基于适配器的ICCI子网络
中引入了适配器来对Y、U、V分量进行自适应处理,以根据每个Y、U、V分量的特征来增强输入图像,使得不再需要通过不同ICCI模块处理分别处理三个分量,而是采用统一的ICCI模块处理进行处理,从而有效降低了JPEG AI验证模型的计算复杂度。
本公开实施例提供一种译码设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,计算机程序被处理器执行时实现上述方法实施例中的图像特征处理方法。
示例性的,图36为本公开实施例提供的一种译码设备的结构示意图,该译码设备包括:处理器3601、存储器3602;
在一些实施例中,处理器3601,被配置为:获取以参数β为全连接层的输入时所述全连接层输出的内容增益权重;通过至少一个残差块对输入图像特征进行特征提取,以得到提取图像特征;提取输入图像特征对应的内容图像特征;根据内容图像特征和内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将提取图像特征和联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据目标图像特征和输入图像特征,生成输出图像特征。
在一些实施例中,处理器3601,具体被配置为:提取输入图像特征对应的内容图像特征,包括:通过至少一个移动窗口注意力模块对输入图像特征进行内容特征提取,以获取输入图像特征对应的内容图像特征。
在一些实施例中,至少一个移动窗口注意力模块为2个移动窗口注意力模块,至少一个残差块为3个残差块。
在一些实施例中,所述译码设备为编码设备,所述处理器3601,被配置为:获取第一待变换图像特征;对所述第一待变换图像特征进行第一处理、基于残差非局部注意力块的处理以及至少一次第一处理,以获取第一输入图像特征,所述第一处理包括下采样处理和残差激活处理;获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述第一输入图像特征,生成第一输出图像特征;对所述第一输出图像特征进行下采样处理以及卷积处理,以得到分析变换图像特征。
在一些实施例中,所述译码设备为编码设备,所述处理器3601,被配置为:获取第一待变换图像特征;对所述第一待变换图像特征进行至少一次第一处理,以获取第一输入图像特征,所述第一处理包括下采样处理和残差激活处理;获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;
通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述第一输入图像特征,生成第一输出图像特征;对所述第一输出图像特征进行至少一次所述下采样和至少一次残差激活处理,以及下采样处理和卷积处理,以得到分析变换图像特征。
在一些实施例中,所述译码设备为解码设备,所述处理器3601,被配置为:获取第二待变换图像特征;对所述第二待变换图像特征进行至少一次残差块的处理以及上采样处理,以获取第二输入图像特征;
获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;
根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述第一输入图像特征,生成第二输出图像特征;对所述第二输出图像特征进行至少一次第二处理,基于残差非局部注意力块进行处理,以及进行所述第二处理,以得到合成变换图像特征,所述第二处理包括残差激活处理和上采样处理。
在一些实施例中,所述译码设备为解码设备,所述处理器3601,被配置为:获取第二待变换图像特征;对第二待变换图像特征进行至少一次残差块的处理,上采样处理,以及至少一次第二处理,以获取第一输入图像特征,所述第二处理包括残差激活处理和上采样处理;获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;通过至少一个残差块对所述第二输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通
道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述第二输入图像特征,生成第二输出图像特征;对所述第二输出图像特征进行至少一次第二处理,以得到合成变换图像特征。
在一些实施例中,处理器3601,被配置为:获取第一待变换图像特征;对第一待变换图像特征进行第一处理、基于残差非局部注意力块的处理以及至少一次第一处理,以获取第一输入图像特征,所述第一处理包括下采样处理和残差激活处理;基于内容增益注意力块对所述第一输入图像特征进行处理,以得到第一输出图像特征,所述内容增益注意力块用于对图像的内容进行注意力加权;对所述第一输出图像特征进行下采样处理以及卷积处理,以得到分析变换图像特征。
在一些实施例中,所述至少一次第一处理为一次第一处理,或者,所述至少一次第一处理为两次第一处理。
在一些实施例中,所述至少一次第一处理为一次第一处理;
处理器3601,具体被配置为:所述对所述第一输出图像特征进行下采样处理以及卷积处理,以得到分析变换图像特征,包括:对所述第一输出图像特征进行所述第一处理、下采样处理以及卷积处理,以得到分析变换图像特征。
在一些实施例中,处理器3601,具体被配置为:所述基于内容增益注意力块对所述第一输入图像特征进行处理,以得到第一输出图像特征,包括:获取以参数β为全连接层输入时所述全连接层输出的内容增益权重;通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到第一提取图像特征;提取所述第一输入图像特征对应的第一内容图像特征;根据所述第一内容图像特征和所述第一内容增益权重,进行通道维度的运算,以得到第一联合空间通道注意力掩膜;将所述第一提取图像特征和所述第一联合空间通道注意力掩膜进行元素点乘运算,以得到第一目标图像特征;根据所述第一目标图像特征和所述第一输入图像特征,生成所述第一输出图像特征。
在一些实施例中,处理器3601,具体被配置为:所述提取所述第一输入图像特征对应的第一内容图像特征,包括:通过至少一个移动窗口注意力模块对所述第一输入图像特征进行内容特征提取,以获取所述第一输入图像特征对应的内容图像特征。
在一些实施例中,所述至少一个移动窗口注意力模块为2个移动窗口注意力模块,所述至少一个残差块为3个残差块。
针对该译码设备为解码设备的情况:
在一些实施例中,处理器3601,被配置为:获取第二待变换图像特征;对第二待变换图像特征进行至少一次残差块的处理以及上采样处理,以获取第二输入图像特征;基于内容增益注意力块对所述第二输入图像特征进行处理,以得到第二输出图像特征,所述内容增益注意力块用于对图像的内容进行注意力加权;对所述第二输出图像特征进行至少一次第二处理,基于残差非局部注意力块进行处理,以及进行所述第二处理,以得到合成变换图像特征。
在一些实施例中,所述至少一次第二处理为一次第二处理,或者,所述至少一次第二处理为两次第二处理。
在一些实施例中,所述至少一次第二处理为一次第二处理;
处理器3601,具体被配置为:所述对第二待变换图像特征进行至少一次残差块的处理以及上采样处理,以获取第二输入图像特征,包括:对第二待变换图像特征进行至少一次残差块的处理、上采样处理,以及第二处理,以获取第二输入图像特征。
在一些实施例中,处理器3601,具体被配置为:所述基于内容增益注意力块对所述第二输入图像特征进行处理,以得到第二输出图像特征,包括:获取以参数β为全连接层输入时所述全连接层输出的内容增益权重;通过至少一个残差块对所述第二输入图像特征进行特征提取,以得到第二提取图像特征;提取所述第二输入图像特征对应的第二内容图像特征;根据所述第二内容图像特征和所述内容增益权重,进行通道维度的运算,以得到第二联合空间通道注意力掩膜;将所述第二提取图像特征和所述第二联合空间通道注意力掩膜进行元素点乘运算,以得到第二目标图像特征;根据所述第二目标图像特征和所述第二输入图像特征,生成第二输出图像特征。
在一些实施例中,处理器3601,具体被配置为:所述提取所述第二输入图像特征对应的第二内容图像特征,包括:通过至少一个移动窗口注意力模块对所述第二输入图像特征进行内容特征提取,以获取所述第二输入图像特征对应的第二内容图像特征。
在一些实施例中,所述至少一个移动窗口注意力模块为2个移动窗口注意力模块。
在一些实施例中,处理器3601,被配置为:获取第一待变换图像特征;对第一待变换图像特征进行至少一次第一处理,以得到第一输入图像特征,所述第一处理包括下采样处理和残差激活处理;基于内容增益注意力块对第一输入图像特征进行处理,以得到第一输出图像特征,内容增益注意力块用于对图像的内容进行注意力加权;对第一输出图像特征进行至少一次所述第一处理,以及下采样处理和卷积处理,以得到分析变换图像特征。
在一些实施例中,处理器3601,具体被配置为:基于内容增益注意力块对第一输入图像特征进行处理,以得到第一输出图像特征,包括:将参数β输入全连接层,并获取全连接层输出的内容增益权重;通过至少一个残差块对第一输入图像特征进行特征提取,以得到第一提取图像特征;提取第一输入图像特征对应的第一内容图像特征;根据第一内容图像特征和第一内容增益权重,进行通道维度的运算,以得到第一联合空间通道注意力掩膜;将第一提取图像特征和第一联合空间通道注意力掩膜进行元素点乘运算,以得到第一目标图像特征;根据第一目标图像特征和第一输入图像特征,生成第一输出图像特征。
在一些实施例中,处理器3601,具体被配置为:提取第一输入图像特征对应的第一内容图像特征,包括:通过至少一个移动窗口注意力模块对输入图像特征进行内容特征提取,以获取第一输入图像特征对应的第一内容图像特征。
在一些实施例中,至少一个移动窗口注意力模块为2个移动窗口注意力模块,至少一个残差块为3个残差块。
在一些实施例中,至少一次第一处理为两次第一处理,或者,至少一次第一处理为一次第一处理。
针对译码设备为解码设备的情况:
在一些实施例中,处理器3601,被配置为:获取第二待变换图像特征;对第二待变换图像特征进行至少一次残差块的处理,上采样处理,以及至少一次第二处理,以获取第二输入图像特征,所述第二处理包括残差激活处理和上采样处理;基于内容增益注意力块对第二输入图像特征进行处理,以得到第二输出图像特征,内容增益注意力块用于对图像的内容进行注意力加权;对第二输出图像特征进行至少一次所述第二处理,以得到合成变换图像特征。
在一些实施例中,处理器3601,具体被配置为:基于内容增益注意力块对第二输入图像特征进行处理,以得到第二输出图像特征,包括:将参数β输入全连接层,并获取全连接层输出的内容增益权重;通过至少一个残差块对第二输入图像特征进行特征提取,以得到第二提取图像特征;提取第二输入图像特征对应的第二内容图像特征;根据第二内容图像特征和内容增益权重,进行通道维度的运算,以得到第二联合空间通道注意力掩膜;将第二提取图像特征和第二联合空间通道注意力掩膜进行元素点乘运算,以得到第二目标图像特征;根据第二目标图像特征和第二输入图像特征,生成第二输出图像特征。
在一些实施例中,处理器3601,具体被配置为:提取第二输入图像特征对应的第二内容图像特征,包括:通过至少一个移动窗口注意力模块对第二输入图像特征进行内容特征提取,以获取第二输入图像特征对应的第二内容图像特征。
在一些实施例中,至少一个移动窗口注意力模块为2个移动窗口注意力模块,至少一个残差块为3个残差块。
在一些实施例中,至少一次第二处理为一次第二处理。
在一些实施例中,处理器3601,被配置为:获取第一待变换图像特征;
对第一待变换图像特征进行第一处理,以得到第一初始输入图像特征,所述第一处理包括下采样处理和残差激活处理;基于第一内容增益注意力块对第一初始输入图像特征进行处理,以得到第一初始输出图像特征;对第一初始输出图像特征进行第一处理,以得到第一再输入图像特征;基于第二内容增益注意力块对第一再输入图像特征进行处理,以得到第一再输出图像特征,第一内容增益注意力块和第二内容增益注意力块用于对图像的内容进行注意力加权;对第一再输出图像特征进行所述第一处理、下采样处理,以及卷积处理,以得到分析变换图像特征。
在一些实施例中,处理器3601,具体被配置为:基于第一内容增益注意力块对第一初始输入图像特征进行处理,以得到第一初始输出图像特征,包括:将参数β输入全连接层,并获取全连接层输出的内容增益权重;通过至少一个残差块对第一初始输入图像特征进行特征提取,以得到第一提取图像特征;提取第一初始输入图像特征对应的第一内容图像特征;根据第一内容图像特征和内容增益权重,进行通
道维度的运算,以得到第一联合空间通道注意力掩膜;将第一提取图像特征和第一联合空间通道注意力掩膜进行元素点乘运算,以得到第一目标图像特征;根据第一目标图像特征和第一初始输入图像特征,生成第一初始输出图像特征。
在一些实施例中,处理器3601,具体被配置为:提取第一初始输入图像特征对应的第一内容图像特征,包括:通过至少一个移动窗口注意力模块对第一初始输入图像特征进行内容特征提取,以获取输入图像特征对应的第一内容图像特征。
在一些实施例中,至少一个移动窗口注意力模块为2个移动窗口注意力模块,至少一个残差块为3个残差块。
针对译码设备为解码设备的情况:
在一些实施例中,处理器3601,被配置为:获取第二待变换图像特征;对第二待变换图像特征进行至少一次残差块的处理,上采样处理,以及第二处理,以获取第二初始输入图像特征,所述第二处理包括残差激活处理和上采样处理;基于第三内容增益注意力块对第二初始输入图像特征进行处理,以得到第二初始输出图像特征;对第二初始输出图像特征进行第二处理,以得到第二再输入图像特征;基于第四内容增益注意力块对第二再输入图像特征进行处理,以得到第二再输出图像特征,第三内容增益注意力块与第四内容增益注意力块用于对图像的内容进行注意力加权;对第二再输出图像特征进行第二处理,以得到合成变换图像特征。
在一些实施例中,处理器3601,具体被配置为:基于第三内容增益注意力块对第二初始输入图像特征进行处理,以得到第二初始输出图像特征,包括:将参数β输入全连接层,并获取全连接层输出的内容增益权重;通过至少一个残差块对第二初始输入图像特征进行特征提取,以得到第二提取图像特征;提取第二初始输入图像特征对应的第二内容图像特征;根据第二内容图像特征和内容增益权重,进行通道维度的运算,以得到第二联合空间通道注意力掩膜;将第二提取图像特征和第二联合空间通道注意力掩膜进行元素点乘运算,以得到第二目标图像特征;根据第二目标图像特征和第二初始输入图像特征,生成第二输出图像特征。
在一些实施例中,处理器3601,具体被配置为:提取第二初始输入图像特征对应的内容图像特征,包括:通过至少一个移动窗口注意力模块对第二输入图像特征进行内容特征提取,以获取第二初始输入图像特征对应的第二内容图像特征。
在一些实施例中,至少一个移动窗口注意力模块为2个移动窗口注意力模块。
本公开一些实施例中,处理器3601,被配置为:对输入潜在张量对应的潜在空间中的第三像素位置进行置零操作,以得到第一潜在张量;
通过第一掩膜卷积核对第一潜在张量进行卷积运算,以得到对应于第三像素位置的第一上下文特征;
对输入潜在张量对应的潜在空间中第二像素位置、第三像素位置进行置零操作,以得到第二潜在张量;
通过第二掩膜卷积核对第二潜在张量进行卷积运算,以得到对应于第二像素位置的第二上下文特征;
将第一上下文特征、第二上下文特征和目标潜在张量进行熵概率推导,以得到输入潜在张量中所有像素位置对应的预测值;
其中,潜在空间中,每个2×2的块左上角对应第一像素位置、每个2×2的块右下角对应第二像素位置、每个2×2的块右上角和左下角对应第三像素位置。
本公开一些实施例中,第一掩膜卷积核的尺寸为5×5,第二掩膜卷积核的尺寸为3×3。
本公开一些实施例中,上述处理器3601,具体被配置为:将第一上下文特征、第二上下文特征和目标潜在张量进行熵概率推导,以得到输入潜在张量中所有像素位置对应的预测值,包括:
将第一上下文特征和第二上下文特征相加,得到目标上下文特征;
将目标上下文特征和目标潜在张量进行拼接,以得到拼接结果;
对拼接结果进行卷积处理,以得到所有像素位置对应的预测值。
本公开一些实施例中,所述处理器3601,被配置为:对目标潜在张量进行卷积处理,以计算目标潜在张量的潜在空间中第一像素位置对应的预测值,目标潜在张量为对第一码流进行熵解码和超先验解码处理后得到的潜在张量;
将第一残差张量与第一像素位置对应的预测值相加,以获取第二潜在张量,第一残差张量为目标残差张量中第一像素位置对应的残差张量,目标残差张量为对第二码流进行熵解码和逆增益处理后得到的
残差张量;
通过第二掩膜卷积核对第二潜在张量进行卷积运算,以得到对应于第二像素位置的第二上下文特征;
将第二上下文特征和目标潜在张量经过熵概率推导,可以得到对应于两个像素位置的预测值;
将第二残差张量与两个像素位置的预测值相加,以获取第一潜在张量,第二残差张量为目标残差张量中第一像素位置和第二像素位置对应的残差张量;
通过第一掩膜卷积核对第一潜在张量进行卷积运算,以得到对应于第三像素位置的第一上下文特征;
将第一上下文特征、第二上下文特征和目标潜在张量经过熵概率推导,以得到对应于所有像素位置的预测值;
其中,潜在空间中,每个2×2的块左上角对应第一像素位置、每个2×2的块右下角对应第二像素位置、每个2×2的块右上角和左下角对应第三像素位置。
本公开一些实施例中,上述处理器3601,还被配置为:将第一上下文特征、第二上下文特征和目标潜在张量经过熵概率推导,可以得到对应于所有像素位置的预测值之后,将第三残差张量与所有像素位置的预测值相加,以获取输出潜在张量;其中,第三残差张量为目标残差张量中所有位置对应的残差张量。
本公开一些实施例中,第一掩膜卷积核的尺寸为5×5,第二掩膜卷积核的尺寸为3×3。
本公开一些实施例中,上述处理器3601,具体被配置为:将第一上下文特征、第二上下文特征和目标潜在张量经过熵概率推导,以得到对应于所有像素位置的预测值,包括:将第一上下文特征和第二上下文特征相加,得到目标上下文特征;将目标上下文特征和目标潜在张量进行拼接,以得到拼接结果;对拼接结果进行卷积处理,以得到所有像素位置对应的预测值。
在一些实施例中,处理器3601被配置为:对输入图像的第一Y分量、第一U分量和第一V分量分别进行正向小波变换,以得到Y分量变换结果、U分量变换结果和V分量变换结果;将所述Y分量变换结果、所述U分量变换结果和所述V分量变换结果进行拼接,以得到拼接分量;将所述拼接分量输入适配器,并获取所述适配器输出的自适应增强分量,所述适配器为基于卷积层的框架训练得到的,在训练过程中通过学习Y、U、V三个分量的特征以具有针对Y、U、V三个分量的自适应处理能力;将所述自适应增强分量、所述Y分量变换结果、所述U分量变换结果和所述V分量变换结果,输入至ICCI处理模块,并获取所述ICCI处理模块输出的Y增强分量、U增强分量和V增强分量;基于所述Y增强分量、所述U增强分量和所述V增强分量分别进行逆小波变换,得到输出Y分量、输出U分量和输出V分量;基于所述输出Y分量、所述输出U分量和所述输出V分量,得到输出图像。
本公开一些实施例中,处理器3601具体被配置为:所述对输入图像的第一Y分量、第一U分量和第一V分量分别进行正向小波变换,以得到Y分量变换结果、U分量变换结果和V分量变换结果,包括:对所述输入图像的第一U分量和第一V分量使用双三次插值,以得到与所述输入图像的第一Y分量形状一致的第二U分量和第二V分量;将所述第一Y分量、所述第二U分量和所述第二V分量分别进行正向小波变换,以得到所述Y分量变换结果、所述U分量变换结果和所述V分量变换结果。
本公开一些实施例中,处理器3601具体被配置为:所述将所述自适应增强分量、所述Y分量变换结果、所述U分量变换结果和所述V分量变换结果,输入至ICCI处理模块,并获取所述ICCI处理模块输出的Y增强分量、U增强分量和V增强分量,包括:将所述自适应增强分量和所述Y分量变换结果输入至ICCI处理模块,获取所述ICCI处理模块输出的Y增强分量;将所述自适应增强分量和所述U分量变换结果输入至ICCI处理模块,获取所述ICCI处理模块输出的U增强分量;将所述自适应增强分量和所述V分量变换结果输入至ICCI处理模块,获取所述ICCI处理模块输出的V增强分量。
本公开一些实施例中,用于训练所述卷积层的框架的训练集包括JPEG AI数据集,以及与所述JPEG AI数据即对应的不同码率压缩所得图像。
本公开一些实施例中,所述ICCI处理模块中包括:3×3卷积、批归一化层、ReLU激活函数以及Nb个1D残差块。
本公开一些实施例中,所述Nb大于8,且小于13。
本公开一些实施例中,处理器3601该被配置为:所述基于输入图像的第一Y分量、第一U分量和第一V分量确定拼接分量之前,对目标潜在张量进行1×1的卷积,以计算所述目标潜在张量的潜在空间中第一像素位置对应的预测值,所述目标潜在张量为对第一码流进行熵解码和超先验解码处理后得到的潜在张量;将第一残差张量与所述第一像素位置对应的预测值相加,以获取第二潜在张量,所述第一
残差张量为目标残差张量中所述第一像素位置对应的残差张量,所述目标残差张量为对第二码流进行熵解码和逆增益处理后得到的残差张量;通过3×3的掩膜卷积对第二潜在张量进行卷积运算,以得到对应于第二像素位置的第二上下文特征;将所述第二上下文特征和所述目标潜在张量经过熵概率推导,可以得到对应于两个像素位置的预测值;将第二残差张量与两个像素位置的预测值相加,以获取第一潜在张量,所述第二残差张量为所述目标残差张量中所述第一像素位置和所述第二像素位置对应的残差张量;通过5×5的掩膜卷积对第一潜在张量进行卷积运算,以得到对应于第三像素位置的第一上下文特征;将所述第一上下文特征、所述第二上下文特征和所述目标潜在张量经过熵概率推导,可以得到对应于所有像素位置的预测值;基于所述所有像素位置的预测值,确定所述输入图像;其中,所述潜在空间中,每个2×2的块左上角对应所述第一像素位置、每个2×2的块右下角对应所述第二像素位置、每个2×2的块右上角和左下角对应所述第三像素位置。
本公开一些实施例中,处理器3601具体被配置为:所述基于所述所有像素位置的预测值,确定所述输入图像,包括:将第三残差张量与所有像素位置的预测值相加,以获取输出潜在张量,其中,所述第三残差张量为所述目标残差张量中所有位置对应的残差张量;对所述输出潜在张量进行合成变换处理,以得到所述输入图像。
在一些实施例中,处理器3601被配置为:基于输入图像的第一Y分量、第一U分量和第一V分量确定拼接分量;将所述拼接分量输入适配器,并获取所述适配器输出的自适应增强分量,所述适配器为基于卷积层的框架训练得到的,在训练过程中通过学习Y、U、V三个分量的特征以具有针对Y、U、V三个分量的自适应处理能力;将所述自适应增强分量输入至ICCI处理模块,并获取所述ICCI处理模块输出的目标增强分量;将目标增强分量进行通道维度的拆分和逆变换,以得到输出Y分量、输出U分量和输出V分量;基于所述输出Y分量、所述输出U分量和所述输出V分量,得到输出图像。
本公开一些实施例中,处理器3601具体被配置为:所述基于输入图像的第一Y分量、第一U分量和第一V分量确定拼接分量,包括:
对输入图像的第一U分量和第一V分量使用双三次插值,以得到与输入图像的第一Y分量形状一致的第二U分量和第二V分量;
将所述第一Y分量、所述第二U分量和所述第二V分量分别进行正向小波变换,并将变换结果进行拼接操作,以得到拼接分量。
本公开一些实施例中,处理器3601具体被配置为:所述将目标增强分量进行通道维度的拆分和逆变换,以得到输出Y分量、输出U分量和输出V分量,包括:
将目标增强分量进行通道维度的拆分,以得到增强Y分量、增强U分量和增强V分量;
将增强Y分量、增强U分量和增强V分量分别进行逆小波变换,得到输出Y分量、输出U分量和输出V分量。
本公开一些实施例中,用于训练所述卷积层的框架的训练集包括JPEG AI数据集,以及与所述JPEG AI数据对应的不同码率压缩所得图像。
本公开一些实施例中,所述ICCI处理模块中包括:3×3卷积、批归一化层、ReLU激活函数以及Nb个1D残差块。
本公开一些实施例中,所述Nb大于8,且小于13。
本公开一些实施例中,处理器3601还被配置为:所述基于输入图像的第一Y分量、第一U分量和第一V分量确定拼接分量之前,还包括:对目标潜在张量进行1×1的卷积,以计算所述目标潜在张量的潜在空间中第一像素位置对应的预测值,所述目标潜在张量为对第一码流进行熵解码和超先验解码处理后得到的潜在张量;将第一残差张量与所述第一像素位置对应的预测值相加,以获取第二潜在张量,所述第一残差张量为目标残差张量中所述第一像素位置对应的残差张量,所述目标残差张量为对第二码流进行熵解码和逆增益处理后得到的残差张量;通过3×3的掩膜卷积对第二潜在张量进行卷积运算,以得到对应于第二像素位置的第二上下文特征;将所述第二上下文特征和所述目标潜在张量经过熵概率推导,可以得到对应于两个像素位置的预测值;将第二残差张量与两个像素位置的预测值相加,以获取第一潜在张量,所述第二残差张量为所述目标残差张量中所述第一像素位置和所述第二像素位置对应的残差张量;通过5×5的掩膜卷积对第一潜在张量进行卷积运算,以得到对应于第三像素位置的第一上下文特征;将所述第一上下文特征、所述第二上下文特征和所述目标潜在张量经过熵概率推导,可以得到对应于所有像素位置的预测值;其中,所述潜在空间中,每个2×2的块左上角对应所述第一像素位置、每个2×2的块右下角对应所述第二像素位置、每个2×2的块右上角和左下角对应所述第三像素位置;基于所述所有像素位置的预测值,确定所述输入图像。
本公开一些实施例中,处理器3601还被配置为:所述基于所述所有像素位置的预测值,确定所述输入图像,包括:将第三残差张量与所有像素位置的预测值相加,以获取输出潜在张量,其中,所述第三残差张量为所述目标残差张量中所有位置对应的残差张量;对所述输出潜在张量进行合成变换处理,以得到所述输入图像。
本公开一些实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的图像特征处理方法,且能达到相同的技术效果,为避免重复,这里不再赘述。本公开中,计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储,信息可以是计算机可读指令、数据结构、程序的模块或其他数据。其中,该计算机可读存储介质可以为只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本公开一些实施例提供一种计算程序产品,该计算机程序产品存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的图像特征处理方法,且能达到相同的技术效果,为避免重复,这里不再赘述。
本公开中,处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开中,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
- 一种图像特征处理方法,包括:获取以参数β为全连接层的输入时所述全连接层输出的内容增益权重;通过至少一个残差块对输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述输入图像特征,生成输出图像特征。
- 根据权利要求1所述的方法,所述提取所述输入图像特征对应的内容图像特征,包括:通过至少一个移动窗口注意力模块对所述输入图像特征进行内容特征提取,以获取所述输入图像特征对应的内容图像特征。
- 根据权利要求2所述的方法,所述至少一个移动窗口注意力模块为2个移动窗口注意力模块,所述至少一个残差块为3个残差块。
- 一种编码设备的图像特征处理方法,包括:获取第一待变换图像特征;对所述第一待变换图像特征进行第一处理、基于残差非局部注意力块的处理以及至少一次所述第一处理,以获取第一输入图像特征,所述第一处理包括下采样处理和残差激活处理;获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述第一输入图像特征,生成第一输出图像特征;对所述第一输出图像特征进行下采样处理以及卷积处理,以得到分析变换图像特征。
- 根据权利要求4所述的图像特征处理方法,所述至少一次所述第一处理为一次所述第一处理,或者,所述至少一次所述第一处理为两次所述第一处理。
- 根据权利要求4所述的图像特征处理方法,所述至少一次所述第一处理为一次所述第一处理;所述对所述第一输出图像特征进行下采样处理以及卷积处理,以得到分析变换图像特征,包括:对所述第一输出图像特征进行所述第一处理、下采样处理以及卷积处理,以得到分析变换图像特征。
- 一种编码设备的图像特征处理方法,包括:获取第一待变换图像特征;对所述第一待变换图像特征进行至少一次第一处理,以获取第一输入图像特征,所述第一处理包括下采样处理和残差激活处理;获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;通过至少一个残差块对所述第一输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述第一输入图像特征,生成第一输出图像特征;对所述第一输出图像特征进行至少一次所述下采样和至少一次残差激活处理,以及下采样处理和卷积处理,以得到分析变换图像特征。
- 一种解码设备的图像特征处理方法,包括:获取第二待变换图像特征;对所述第二待变换图像特征进行至少一次残差块的处理以及上采样处理,以获取第二输入图像特征;获取以参数β为全连接层的输入时,所述全连接层输出的内容增益权重;通过至少一个残差块对所述第二输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述第二输入图像特征,生成第二输出图像特征;对所述第二输出图像特征进行至少一次第二处理,基于残差非局部注意力块进行处理,以及进行所述第二处理,以得到合成变换图像特征,所述第二处理包括残差激活处理和上采样处理。
- 根据权利要求8所述的方法,所述至少一次第二处理为一次所述第二处理,或者,所述至少一次第二处理为两次所述第二处理。
- 根据权利要求9所述的方法,所述至少一次第二处理为一次所述第二处理;所述对所述第二待变换图像特征进行至少一次残差块的处理以及上采样处理,以获取第二输入图像特征,包括:对第二待变换图像特征进行至少一次残差块的处理、上采样处理,以及所述第二处理,以获取所述第二输入图像特征。
- 一种解码设备的图像特征处理方法,包括:获取第二待变换图像特征;对第二待变换图像特征进行至少一次残差块的处理,上采样处理,以及至少一次第二处理,以获取第二输入图像特征,所述第二处理包括残差激活处理和上采样处理;获取以参数β为全连接层的输入时所述全连接层输出的内容增益权重;通过至少一个残差块对所述第二输入图像特征进行特征提取,以得到提取图像特征;提取所述输入图像特征对应的内容图像特征;根据所述内容图像特征和所述内容增益权重,进行通道维度的运算,以得到联合空间通道注意力掩膜;将所述提取图像特征和所述联合空间通道注意力掩膜进行元素点乘运算,以得到目标图像特征;根据所述目标图像特征和所述第二输入图像特征,生成第二输出图像特征;对所述第二输出图像特征进行至少一次所述第二处理,以得到合成变换图像特征。
- 一种译码设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至11任一项所述的方法。
Applications Claiming Priority (17)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2023106645409 | 2023-06-06 | ||
| CN202310664540 | 2023-06-06 | ||
| CN2023108634061 | 2023-07-13 | ||
| CN202310860831.5A CN119094766A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310863406.1A CN119094769A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310860941.1A CN119094767A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310863395.7A CN119094768A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法及译码设备 |
| CN2023108633957 | 2023-07-13 | ||
| CN2023108608315 | 2023-07-13 | ||
| CN2023108609411 | 2023-07-13 | ||
| CN202310870510.3A CN119090727A (zh) | 2023-06-06 | 2023-07-14 | 图像重构增强方法、解码设备及存储介质 |
| CN2023108705029 | 2023-07-14 | ||
| CN202310871079.4A CN119094779A (zh) | 2023-06-06 | 2023-07-14 | 预测值确定方法、编码设备、解码设备及存储介质 |
| CN202310870502.9A CN119090726A (zh) | 2023-06-06 | 2023-07-14 | 图像重构增强方法、解码设备及存储介质 |
| CN2023108705103 | 2023-07-14 | ||
| CN2023108710794 | 2023-07-14 | ||
| PCT/CN2024/090208 WO2024250872A1 (zh) | 2023-06-06 | 2024-04-26 | 图像特征处理方法及译码设备 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN121039696A true CN121039696A (zh) | 2025-11-28 |
Family
ID=93665400
Family Applications (8)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310860941.1A Pending CN119094767A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310863406.1A Pending CN119094769A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310863395.7A Pending CN119094768A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法及译码设备 |
| CN202310860831.5A Pending CN119094766A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310871079.4A Pending CN119094779A (zh) | 2023-06-06 | 2023-07-14 | 预测值确定方法、编码设备、解码设备及存储介质 |
| CN202310870510.3A Pending CN119090727A (zh) | 2023-06-06 | 2023-07-14 | 图像重构增强方法、解码设备及存储介质 |
| CN202310870502.9A Pending CN119090726A (zh) | 2023-06-06 | 2023-07-14 | 图像重构增强方法、解码设备及存储介质 |
| CN202480022012.6A Pending CN121039696A (zh) | 2023-06-06 | 2024-04-26 | 图像特征处理方法及译码设备 |
Family Applications Before (7)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310860941.1A Pending CN119094767A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310863406.1A Pending CN119094769A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310863395.7A Pending CN119094768A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法及译码设备 |
| CN202310860831.5A Pending CN119094766A (zh) | 2023-06-06 | 2023-07-13 | 图像特征处理方法、编码设备及解码设备 |
| CN202310871079.4A Pending CN119094779A (zh) | 2023-06-06 | 2023-07-14 | 预测值确定方法、编码设备、解码设备及存储介质 |
| CN202310870510.3A Pending CN119090727A (zh) | 2023-06-06 | 2023-07-14 | 图像重构增强方法、解码设备及存储介质 |
| CN202310870502.9A Pending CN119090726A (zh) | 2023-06-06 | 2023-07-14 | 图像重构增强方法、解码设备及存储介质 |
Country Status (2)
| Country | Link |
|---|---|
| CN (8) | CN119094767A (zh) |
| WO (1) | WO2024250872A1 (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120302015A (zh) * | 2025-03-27 | 2025-07-11 | 清华大学 | 一种面向t2x星地协同的图像重建方法、装置及设备 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20220277491A1 (en) * | 2019-05-31 | 2022-09-01 | Electronics And Telecommunications Research Institute | Method and device for machine learning-based image compression using global context |
| CN114820354B (zh) * | 2022-04-10 | 2025-03-18 | 复旦大学 | 基于可逆色调映射网络的传统图像压缩增强方法 |
| CN115361559B (zh) * | 2022-06-30 | 2025-07-11 | 浙江大华技术股份有限公司 | 图像编码方法、图像解码方法、装置以及存储介质 |
| CN115866253B (zh) * | 2023-02-27 | 2023-06-06 | 鹏城实验室 | 一种基于自调制的通道间变换方法、装置、终端及介质 |
-
2023
- 2023-07-13 CN CN202310860941.1A patent/CN119094767A/zh active Pending
- 2023-07-13 CN CN202310863406.1A patent/CN119094769A/zh active Pending
- 2023-07-13 CN CN202310863395.7A patent/CN119094768A/zh active Pending
- 2023-07-13 CN CN202310860831.5A patent/CN119094766A/zh active Pending
- 2023-07-14 CN CN202310871079.4A patent/CN119094779A/zh active Pending
- 2023-07-14 CN CN202310870510.3A patent/CN119090727A/zh active Pending
- 2023-07-14 CN CN202310870502.9A patent/CN119090726A/zh active Pending
-
2024
- 2024-04-26 WO PCT/CN2024/090208 patent/WO2024250872A1/zh active Pending
- 2024-04-26 CN CN202480022012.6A patent/CN121039696A/zh active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| CN119090727A (zh) | 2024-12-06 |
| CN119090726A (zh) | 2024-12-06 |
| CN119094767A (zh) | 2024-12-06 |
| CN119094768A (zh) | 2024-12-06 |
| WO2024250872A1 (zh) | 2024-12-12 |
| CN119094769A (zh) | 2024-12-06 |
| CN119094766A (zh) | 2024-12-06 |
| CN119094779A (zh) | 2024-12-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2024528208A (ja) | 損失画像またはビデオの符号化、伝送および復号化のための方法ならびにデータ処理システム | |
| CN117321989A (zh) | 基于神经网络的图像处理中的辅助信息的独立定位 | |
| TWI826160B (zh) | 圖像編解碼方法和裝置 | |
| JP7784562B2 (ja) | 調整されたウェイトを用いるニューラル・ネットワークの動作 | |
| CN119863364A (zh) | 一种基于动态频率域自适应编码与对比约束优化的超分辨率图像重建方法、系统、设备及介质 | |
| US20250310545A1 (en) | Method and apparatus for semantic based learned image compression | |
| CN116095183A (zh) | 一种数据压缩方法以及相关设备 | |
| CN115239591A (zh) | 图像处理方法、装置、电子设备、存储介质及程序产品 | |
| WO2024250871A1 (zh) | 图像特征处理方法及译码设备 | |
| CN115512199A (zh) | 一种基于图注意和非对称卷积网络的图像压缩模型 | |
| CN120111245A (zh) | 一种基于频域感知优化的视频压缩智能预处理方法、系统、设备及介质 | |
| TW202348029A (zh) | 使用限幅輸入數據操作神經網路 | |
| Jeong et al. | An overhead-free region-based JPEG framework for task-driven image compression | |
| Zafari et al. | Attention-based generative neural image compression on solar dynamics observatory | |
| CN121039696A (zh) | 图像特征处理方法及译码设备 | |
| CN117830154A (zh) | 基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品 | |
| JP7717985B2 (ja) | チャネル間相関情報を使用した空間周波数変換ベースの画像修正 | |
| Jeny et al. | Improving image compression with adjacent attention and refinement block | |
| Sahin et al. | Image compression with learned lifting-based DWT and learned tree-based entropy models | |
| Zhu et al. | Lightweight Image Super-Resolution with Tokenized Dynamic Embedding Network | |
| TWI871240B (zh) | 一種解碼、編碼方法、裝置及其設備 | |
| Uludağ | Deep image compression with a unified spatial and channel context auto-regressive model | |
| Wang et al. | High-capacity image hiding via compressible invertible neural network | |
| EP4664887A1 (en) | Encoding and decoding method and apparatus, and device thereof | |
| CN111246205B (zh) | 基于方向双四元数滤波器组的图像压缩方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication |