CN117830154A - 基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品 - Google Patents
基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品 Download PDFInfo
- Publication number
- CN117830154A CN117830154A CN202410022360.5A CN202410022360A CN117830154A CN 117830154 A CN117830154 A CN 117830154A CN 202410022360 A CN202410022360 A CN 202410022360A CN 117830154 A CN117830154 A CN 117830154A
- Authority
- CN
- China
- Prior art keywords
- video
- network
- layer
- features
- blurred
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20064—Wavelet transform [DWT]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品,视频去模糊方法包括利用训练完成的变换网络将模糊视频去模糊后输出,变换网络的训练过程包括:获得清晰视频、以及与清晰视频相对应的模糊视频;将清晰视频输入第一编码器获得真实特征,对真实特征添加噪声后输入去噪网络;将模糊视频输入第二编码器获得条件特征,将条件特征输入去噪网络;以条件特征为条件,以真实特征为目标,使去噪网络输出先验特征;将模糊视频输入变换网络,利用先验特征训练变换网络,直至达成预期。本申请扩散模型并不直接用于将模糊视频去模糊后输出清晰视频,而是利用扩散模型训练变换网络,节省了计算资源。
Description
技术领域
本申请涉及计算机视觉和深度学习领域,特别是涉及一种基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品。
背景技术
便携式设备广泛用于捕捉视频。然而,相机抖动和物体的快速移动会导致视频出现不必要的模糊。为了减少视频模糊的影响,研究人员在视频去模糊方面做了大量的工作。
近年来,一些研究人员将Transformer应用于视频去模糊。由于Transformer能够捕获远程依赖关系和非局部空间信息,这些方法取得了出色的结果。例如,【《Flow-GuidedSparse Transformer for Video Deblurring》,作者:Jing Lin等】提出了一种通过光流捕获相邻帧的关键元素来计算自注意力的方法。【《Recurrent Video RestorationTransformer with Guided Deformable Attention》,作者:Jingyun Liang等】提出了一种循环视频恢复转换器,用于在全局循环框架内并行处理局部相邻帧。
最近,扩散模型(Diffusion Models,DM)在视频合成任务中表现出了出色的能力,可以将纯高斯噪声去噪为具有丰富高频细节的高质量视频。倘若将扩散模型应用于视频去模糊任务存在以下问题:首先,扩散模型需要大量的迭代步骤来从高斯噪声生成视频,这会消耗大量的计算资源。其次,扩散模型对运动模糊很敏感,会产生伪影或不需要的内容,从而导致视频失真。
发明内容
基于此,有必要针对上述技术问题,提供一种基于潜变量先验知识引导的视频去模糊方法。
本申请基于潜变量先验知识引导的视频去模糊方法,包括利用训练完成的变换网络将模糊视频去模糊后输出,所述变换网络的训练过程包括:
获得清晰视频、以及与所述清晰视频相对应的模糊视频;
将所述清晰视频输入第一编码器获得真实特征,对所述真实特征添加噪声后输入去噪网络;
将所述模糊视频输入第二编码器获得条件特征,将所述条件特征输入所述去噪网络;
以所述条件特征为条件,以所述真实特征为目标,使所述去噪网络输出先验特征;
将所述模糊视频输入所述变换网络,利用所述先验特征训练所述变换网络,直至达成预期。
可选的,所述变换网络依次包括第一卷积层、感知动态变换器、以及第二卷积层,所述第一卷积层用于获得全局特征,所述第二卷积层用于输出去模糊后的清晰视频。
可选的,所述变换网络包括处于所述第一卷积层和所述感知动态变换器之间的小波变换层、以及处于所述感知动态变换器和所述第二卷积层之间的逆小波变换层;
所述小波变换层用于将特征图的通道数分解,所述逆小波变换层用于执行特征融合。
可选的,所述小波变换层包括第一小波变换层、以及第二小波变换层,用于分离低频信息和高频信息;
所述逆小波变换层包括与所述第一小波变换层相对应的第一逆小波变换层、以及与所述第二小波变换层相对应的第二逆小波变换层。
可选的,所述感知动态变换器包括多头自注意力模块和动态前馈网络,所述先验特征同时用于指导所述多头自注意力模块和所述动态前馈网络。
可选的,利用训练完成的变换网络将模糊视频去模糊后输出,具体包括:对于当前模糊视频帧的特征,利用相邻时序模糊视频帧的修复结果执行进一步修复,以获得当前清晰视频帧的特征。
可选的,利用训练完成的变换网络将模糊视频去模糊后输出,所述变换网络包括双向传播融合器,所述双向传播融合器处于所述感知动态变换器、以及第二卷积层之间,所述双向传播融合器包括激活层、池化层、以及残差网络;
所述双向传播融合器用于接收所述当前模糊视频帧的特征、以及相邻时序清晰视频帧的特征,用于输出所述当前清晰视频帧的特征。
本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现本申请所述的基于潜变量先验知识引导的视频去模糊方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请所述的基于潜变量先验知识引导的视频去模糊方法的步骤。
本申请还提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现本申请所述的基于潜变量先验知识引导的视频去模糊方法的步骤。
本申请基于潜变量先验知识引导的视频去模糊方法至少具有以下效果:
本申请结合了变换网络和扩散模型,扩散模型并不直接用于将模糊视频去模糊后输出清晰视频,而是利用扩散模型训练变换网络,使变换网络输出清晰视频。本实施例节省了计算资源,并且解决了扩散模型对运动模糊敏感易发生失真的问题。
本申请通过在潜变量空间学习如何将模糊视频进行修复,其中条件特征、真实特征、先验特征均作为潜变量,本实施例将修复的潜变量结果作为辅助信息输入到作为主干修复模块的变换网络,大大地提高了视频去模糊的质量。
附图说明
图1为本申请一实施例中基于潜变量先验知识引导的视频去模糊方法的流程示意图;
图2为一个实施例中计算机设备的内部结构图;
图3为本申请一实施例中基于潜变量先验知识引导的视频去模糊方法的实施模型架构图;
图4为图3中小波感知动态Transformer(WADT,简称为感知动态变换器)的模型架构图;
图5为图3中双向传播特征融合模块(WBPF,简称为双向传播融合器)的模型架构图。
具体实施方式
此前已经有基于Transformer的视频去模糊方法,并取得了较好的效果,但生成的视频缺少细节信息。在生成任务上,扩散模型已经能够生成具有高真实性和丰富细节的图像,但仍没有人将扩散模型运用到视频去模糊领域。这是由两方面原因导致的,一方面,经典扩散模型计算量需求太大;另一方面,扩散模型容易因为运动模糊生成与真实场景不符合的内容。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
参见图1和图3,本申请提供一种基于潜变量先验知识引导的视频去模糊方法,包括步骤S100~步骤S600。其中:
步骤S100,利用训练完成的变换网络将模糊视频去模糊后输出,变换网络(Transformer)的训练过程包括:
步骤S200,获得清晰视频、以及与清晰视频相对应的模糊视频;
步骤S300,将清晰视频输入第一编码器(具体为图3中的潜空间编码器)获得真实特征z,对真实特征z添加噪声后输入去噪网络;
步骤S400,将模糊视频输入第二编码器(具体为图3中的条件编码器)获得条件特征c,将条件特征c输入去噪网络;
步骤S500,以条件特征为条件c,以真实特征z为目标,使去噪网络输出先验特征z′;
步骤S600,将模糊视频输入变换网络,利用先验特征z′训练变换网络,直至达成预期。
在本实施例中,对模糊视频的处理即对模糊视频帧的处理。先验特征以真实特征为目标,即训练的目的是二者相近,相近的程度可以通过差异损失进行精度控制。本实施例结合了变换网络和扩散模型,扩散模型并不直接用于将模糊视频去模糊后输出清晰视频,而是利用扩散模型训练变换网络,使变换网络输出清晰视频。本实施例节省了计算资源,并且解决了扩散模型对运动模糊敏感易发生失真的问题。
本实施例采用扩散模型和变换网络相结合的方式,发挥两种模型各自的优势,简化了扩散模型的训练和推理过程,并且能生成具有丰富细节和高真实性的清晰视频。
本实施例通过在潜变量空间学习如何将模糊视频进行修复,其中条件特征、真实特征、先验特征均作为潜变量,本实施例将修复的潜变量结果作为辅助信息输入到作为主干修复模块的变换网络,大大地提高了视频去模糊的质量。
参见图1~图5,本申请一实施例提供一种基于潜变量先验知识引导的视频去模糊方法(命名为VD-Diff)用于详细地解释说明实施方案,并对应地解释步骤S100~步骤S600。如图3所示,VD-Diff方法的整体实施框架由小波感知动态变换器、以及扩散模型两部分组成。
小波感知动态变换器(WADT),作为变换网络的一种具体实施方式,包括小波变换层(WT)、WADT层(WADTL,即感知动态变换器)、逆小波变换层(IWT)和基于小波的双向传播融合器(WBPF,即双向传播融合器)。
其中,变换网络(具体为小波感知动态变换器WADT)依次包括第一卷积层(Conv3D)、感知动态变换器(具体为小波感知动态变换层WADTL)、以及第二卷积层(Conv3D),第一卷积层用于获得全局特征,第二卷积层用于输出去模糊后的清晰视频。变换网络(具体为1.小波感知动态变换器WADT)包括处于第一卷积层和感知动态变换器(WADTL)、之间的小波变换层(WT)、以及处于感知动态变换器和第二卷积层之间的逆小波变换层(IWT)。小波变换层(WT)用于将特征图的通道数分解,逆小波变换层(IWT)用于执行特征融合。变换网络包括双向传播融合器(具体为基于小波的双向传播融合器WBPF),双向传播融合器(WBPF)处于感知动态变换器、以及第二卷积层之间,双向传播融合器包括激活层(如Leaky层)、池化层(如最大池化层、平均池化层)、以及残差网络。
扩散模型用于获得高度紧凑的潜在先验特征,包括获得真实特征z,式中,C′是潜在特征的通道数。然后,我们在先验特征的帮助下,使用WADT将模糊视频帧Vblur∈RT×3×H×W去模糊为VHQ∈RT×3×H×W,其中T代表时间,H×W代表尺寸大小,3代表通道数。
本申请各实施例提供的扩散模型是基于条件的去噪扩散概率模型,涉及正向扩散过程和反向去噪过程。我们首先采用以真实视频为输入的潜在编码器(LE)和以模糊视频为输入的条件编码器(CE)来生成真实特征z∈RT×4C′和条件特征c∈RT×4C′。然后,我们使用扩散模型生成先验特征z′∈RT×4C′,使用c∈RT×4C′作为条件,z∈RT×4C′作为目标。
扩散模型的方案实施可以参考有关现有技术,也可以参考以下实施方案:在前向扩散过程中,我们通过T迭代将z转化为高斯噪声,可以描述如下:其中t=1,2,...,T;z0=z;βt∈(0,1)是控制噪声方差的超参数。使用符号αt=1-βt,并通过重参数的迭代推导,上述公式可以写成:即
在反向去噪过程中,DM采样一个高斯随机噪声zT,然后逐渐将zT去噪到z0:
where
我们可以利用公式(1)来表示公式(2)中的z0,得到:
我们删除了方程中的方差估计,得到:
那么噪声∈是唯一的不确定变量。我们采用神经网络来根据zt、c和t预测噪声∈。
对于小波感知动态变换器(WADT),如图3所示。我们首先利用第一卷积层Conv3D对模糊视频帧Vblur∈RT×3×H×W进行浅层特征提取,获得全局特征C是特征图中的通道数。小波变换层包括第一小波变换层、以及第二小波变换层(图中均标记为WT),用于分离低频信息和高频信息;逆小波变换层包括与第一小波变换层相对应的第一逆小波变换层(图中均标记为IWT)、以及与第二小波变换层相对应的第二逆小波变换层。具体来说,我们使用的是深度学习框架下的Haar小波变换,它能够在深度学习网络架构中自动学习参数来分离低频高频信息。
我们使用小波变换(WT)将其分解为近似系数和细节系数至此通过第一小波变换层。再次对Fa使用小波变换WT以获得和其中至此通过第二小波变换层。接下来,我们使用感知动态变换器(WADTL)从近似系数Faa和先验特征z′中获取去模糊特征Fout。然后,我们使用双向传播融合器(WBPF)进一步探索时空信息。最后,我们使用两个逆小波变换,即第一逆小波变换和第二逆小波变换来融合特征以获得无伪影和无失真的视频VHQ。
参见图3和图4,感知动态变换器包括多头自注意力模块和动态前馈网络,先验特征z′同时用于指导多头自注意力模块和动态前馈网络训练。具体地,感知动态变换器包括多层,且每层均包括多头自注意力模块和动态前馈网络。
如图所示,感知动态变换器采用小波感知动态变换层(WADTL),多头自注意力模块(WAD-MSA)和动态前馈网络(MAD-FFN)均设置有多层。我们分层使用多个WADTL模块来融合近似系数Faa和先验特征z′。WADTL由小波感知动态多头自注意力(WAD-MSA)和小波感知动态前馈网络(WAD-FFN)组成。
在WAD-MSA部分,给定一个近似系数Faa,我们使用高度紧凑的潜在先验特征z′来指导视频恢复:其中,Wl表示线性层,z′表示先验特征,⊙表示逐元素乘法,LN表示层归一化。然后,我们使用3D卷积层和2D卷积层将投影到基于QKV(Query,Key,value)自注意力机制的矩阵。Query:Key:value:其中W3表示3D卷积的权重矩阵,W2表示2D卷积的权重矩阵。
请注意,我们在T、H和W维度中使用3D卷积,并在时间维度T中对T特征使用相同的2D卷积。然后,我们重新排列Query:Key:Value:接下来,我们进行注意力计算:其中γ是可学习的缩放参数,Wa表示表示3D卷积的权重矩阵。
在WDA-FFN部分,我们将先验z′整合到中,得到作为WDA-MSA的输出。然后我们使用Conv3D聚合时间信息,并使用Conv2D聚合相邻像素的空间信息。此外,我们使用门控机制来获取更有价值的信息。WDA-FFN的整体流程可以描述为:其中G表示高斯误差线性单元(GELU),“W”均表示对应卷积的权重矩阵,下标2和3分别表示2D卷积和3D卷积,上标1和2用于区分前后两个卷积的卷积核差异。
给定第一次小波逆变换(IWT)生成的特征为了从其他帧的特征中探索有用的内容,现有的方法通常简单地堆叠或的对齐结果。然而,直接堆叠帧的方法并没有准确估计的特征或的对齐结果,只能部分利用帧间有价值的信息,还可能导致帧间错误信息的传播。为了进一步捕获更有用的远程时空信息并减少不准确信息的影响,我们提出了基于小波的双向传播融合器(WBPF)。
参见图3和图5,双向传播融合器用于接收当前模糊视频帧的特征、以及相邻时序清晰视频帧的特征,对于当前模糊视频帧的特征,利用相邻时序模糊视频帧的修复结果执行进一步修复。修复完成后,获得去模糊后的、当前清晰视频帧的特征。可以理解,双向传播融合器作为变换网络的一部分,其接收或输出的视频帧是间接地,并可以理解为视频帧在变换网络中传递形成的特征。
双向传播融合器具体为基于小波的双向传播融合器(WBPF),WBPF由前向过程和后向过程组成。我们以前向过程为例详细介绍WBPF模块。首先,我们连接Yi和Xi+1得到其中Yi是前面前向过程的输出,Xi+1是输入当前的前进过程。然后,我们使用带有LeakyReLU的卷积层将投影到中。然后我们沿着通道维度将拆分为接下来,我们通过以下方式从获取融合特征:
其中S表示Sigmoid函数,“W2”的下标用于表示卷积是2D的,上标用于区分前后两个卷积,和的所用参数是不共享的(即不同的)。
我们使用平均池化层AvgPool、残差层ResBlock、最大池化层MaxPool和二维卷积Conv2D来更好地探索空间信息。整体流程可以描述如下:
其中P表示AvgPool、ResBlock、MaxPool、ResBlock和Conv2D的堆叠。最后,我们在上使用30个ResBlock来获得Yi+1。至此我们利用当前视频模糊帧的特征Xi+1、以及相邻清晰视频帧的特征Yi,获得了当前视频模糊帧的特征Yi+1。
本申请各实施例结合了我们提出的小波感知动态Transformer(WADT)和高效的扩散模型。作为一种基于潜变量先验知识引导的视频去模糊方法,用于将模糊视频去模糊为清晰视频,而且使得生成的视频具有丰富细节并与真实场景符合。
本申请各实施例高效地利用扩散模型,在高度紧凑的潜在空间中获取先验特征,减少了迭代步骤。我们训练扩散模型生成先验特征并将这些先验特征输入小波感知动态Transformer(WADT)以获得干净且不失真的视频,而不是直接使用扩散模型对视频进行去模糊,有效了防止扩散模型产生原始真实视频中不存在的不需要的内容。
具体来说,我们首先采用真实视频上的潜在编码器(LE)和模糊视频上的条件编码器(CE)来生成真实先验特征z和条件先验特征c中。然后,我们使用扩散模型以c作为条件、以z作为目标来生成先验特征z′。LE和CE都是由多层感知器MLP组成。值得注意的是,由于我们将视频压缩到了一个非常紧凑的潜变量空间,因此z的维度是很小的,这使得我们的扩散模型无论是训练还是推理的前后向过程都只需要4步。
小波感知动态Transformer(WADT)模块融合先验信息进行视频去模糊,WADT首先采用小波变换(WT)将模糊视频帧分解为近似系数和细节系数(分别包含低频信息和高频信息),然后利用小波感知动态Transformer层(WADTL)从近似系数中提取低频全局信息。同时,WADTL融合了DM生成的先验特征以获得额外的高频信息,从而生成无伪影和无失真的视频。此外,我们在WADT中设计了基于小波的双向传播融合器(WBPF)模块,以充分利用帧之间的信息,保证视频在时空维度上不失真。
本申请各实施例提供了一种基于潜变量先验知识引导的视频去模糊方法,用于将模糊视频转换为清晰视频,能够将模糊视频恢复为具有高真实感的视频,有效去除模糊和伪影,并确保生成的视频不会出现与真实场景不符合的细节。本申请各实施例:(a)利用扩散模型生成先验特征;(b)利用小波变换分离低频信息和高频信息,将视频信息分为高频和低频信息,通过分离可以有效地提高模型对高频信息的学习,进而提升视频的去模糊质量。(c)使用基于Transformer的模型处理低频信息的同时利用先验特征补充额外的高频细节,从而生成具有稳定轮廓和丰富细节的清晰图像。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于潜变量先验知识引导的视频去模糊方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
步骤S100,利用训练完成的变换网络将模糊视频去模糊后输出,变换网络的训练过程包括:
步骤S200,获得清晰视频、以及与清晰视频相对应的模糊视频;
步骤S300,将清晰视频输入第一编码器获得真实特征,对真实特征添加噪声后输入去噪网络;
步骤S400,将模糊视频输入第二编码器获得条件特征,将条件特征输入去噪网络;
步骤S500,以条件特征为条件,以真实特征为目标,使去噪网络输出先验特征;
步骤S600,将模糊视频输入变换网络,利用先验特征训练变换网络,直至达成预期。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤S100,利用训练完成的变换网络将模糊视频去模糊后输出,变换网络的训练过程包括:
步骤S200,获得清晰视频、以及与清晰视频相对应的模糊视频;
步骤S300,将清晰视频输入第一编码器获得真实特征,对真实特征添加噪声后输入去噪网络;
步骤S400,将模糊视频输入第二编码器获得条件特征,将条件特征输入去噪网络;
步骤S500,以条件特征为条件,以真实特征为目标,使去噪网络输出先验特征;
步骤S600,将模糊视频输入变换网络,利用先验特征训练变换网络,直至达成预期。
在一个实施例中,提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现以下步骤:
步骤S100,利用训练完成的变换网络将模糊视频去模糊后输出,变换网络的训练过程包括:
步骤S200,获得清晰视频、以及与清晰视频相对应的模糊视频;
步骤S300,将清晰视频输入第一编码器获得真实特征,对真实特征添加噪声后输入去噪网络;
步骤S400,将模糊视频输入第二编码器获得条件特征,将条件特征输入去噪网络;
步骤S500,以条件特征为条件,以真实特征为目标,使去噪网络输出先验特征;
步骤S600,将模糊视频输入变换网络,利用先验特征训练变换网络,直至达成预期。本实施例中,计算机程序产品包括程序代码部分,以用于当计算机程序产品由一个或多个计算装置执行时,执行本申请各实施例中基于潜变量先验知识引导的视频去模糊方法的步骤。计算机程序产品可被存储在计算机可读记录介质上。还可经由数据网络(例如,通过RAN、经由因特网和/或通过RBS)提供计算机程序产品以便下载。备选地或附加地,该方法可被编码在现场可编程门阵列(FPGA)和/或专用集成电路(ASIC)中,或者功能性可借助于硬件描述语言被提供以便下载。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。不同实施例中的技术特征体现在同一附图中时,可视为该附图也同时披露了所涉及的各个实施例的组合例。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.基于潜变量先验知识引导的视频去模糊方法,包括利用训练完成的变换网络将模糊视频去模糊后输出,其特征在于,所述变换网络的训练过程包括:
获得清晰视频、以及与所述清晰视频相对应的模糊视频;
将所述清晰视频输入第一编码器获得真实特征,对所述真实特征添加噪声后输入去噪网络;
将所述模糊视频输入第二编码器获得条件特征,将所述条件特征输入所述去噪网络;
以所述条件特征为条件,以所述真实特征为目标,使所述去噪网络输出先验特征;
将所述模糊视频输入所述变换网络,利用所述先验特征训练所述变换网络,直至达成预期。
2.如权利要求1所述的视频去模糊方法,其特征在于,所述变换网络依次包括第一卷积层、感知动态变换器、以及第二卷积层,所述第一卷积层用于获得全局特征,所述第二卷积层用于输出去模糊后的清晰视频。
3.如权利要求2所述的视频去模糊方法,其特征在于,所述变换网络包括处于所述第一卷积层和所述感知动态变换器之间的小波变换层、以及处于所述感知动态变换器和所述第二卷积层之间的逆小波变换层;
所述小波变换层用于将特征图的通道数分解,所述逆小波变换层用于执行特征融合。
4.如权利要求3所述的视频去模糊方法,其特征在于,所述小波变换层包括第一小波变换层、以及第二小波变换层,用于分离低频信息和高频信息;
所述逆小波变换层包括与所述第一小波变换层相对应的第一逆小波变换层、以及与所述第二小波变换层相对应的第二逆小波变换层。
5.如权利要求2所述的视频去模糊方法,其特征在于,所述感知动态变换器包括多头自注意力模块和动态前馈网络,所述先验特征同时用于指导所述多头自注意力模块和所述动态前馈网络。
6.如权利要求2所述的视频去模糊方法,其特征在于,利用训练完成的变换网络将模糊视频去模糊后输出,具体包括:对于当前模糊视频帧的特征,利用相邻时序模糊视频帧的修复结果执行进一步修复,以获得当前清晰视频帧的特征。
7.如权利要求2所述的视频去模糊方法,其特征在于,利用训练完成的变换网络将模糊视频去模糊后输出,所述变换网络包括双向传播融合器,所述双向传播融合器处于所述感知动态变换器、以及第二卷积层之间,所述双向传播融合器包括激活层、池化层、以及残差网络;
所述双向传播融合器用于接收所述当前模糊视频帧的特征、以及相邻时序清晰视频帧的特征,用于输出所述当前清晰视频帧的特征。
8.计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1~7任一项基于潜变量先验知识引导的视频去模糊方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~7任一项基于潜变量先验知识引导的视频去模糊方法的步骤。
10.计算机程序产品,包括计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要求1~7任一项所述的基于潜变量先验知识引导的视频去模糊方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410022360.5A CN117830154A (zh) | 2024-01-05 | 2024-01-05 | 基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410022360.5A CN117830154A (zh) | 2024-01-05 | 2024-01-05 | 基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117830154A true CN117830154A (zh) | 2024-04-05 |
Family
ID=90512952
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410022360.5A Pending CN117830154A (zh) | 2024-01-05 | 2024-01-05 | 基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117830154A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118537416A (zh) * | 2024-07-19 | 2024-08-23 | 海马云(天津)信息技术有限公司 | 图像处理方法与装置、电子设备及存储介质 |
| CN119784617A (zh) * | 2024-12-13 | 2025-04-08 | 中国农业大学 | 基于非高斯噪声的图像去模糊扩散模型的构建方法 |
-
2024
- 2024-01-05 CN CN202410022360.5A patent/CN117830154A/zh active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118537416A (zh) * | 2024-07-19 | 2024-08-23 | 海马云(天津)信息技术有限公司 | 图像处理方法与装置、电子设备及存储介质 |
| CN119784617A (zh) * | 2024-12-13 | 2025-04-08 | 中国农业大学 | 基于非高斯噪声的图像去模糊扩散模型的构建方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114757832B (zh) | 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置 | |
| CN111951195B (zh) | 图像增强方法及装置 | |
| CN113034408B (zh) | 一种红外热成像深度学习图像去噪方法及装置 | |
| CN112164011A (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
| CN112767251A (zh) | 基于多尺度细节特征融合神经网络的图像超分辨率方法 | |
| Li et al. | D 3 c 2-net: Dual-domain deep convolutional coding network for compressive sensing | |
| CN110246084B (zh) | 一种超分辨率图像重构方法及其系统、装置、存储介质 | |
| CN113902647B (zh) | 一种基于双闭环网络的图像去模糊方法 | |
| CN117391995A (zh) | 渐进式人脸图像复原方法、系统、设备及存储介质 | |
| US20230237627A1 (en) | Wavelet transform based deep high dynamic range imaging | |
| CN117830154A (zh) | 基于潜变量先验知识引导的视频去模糊方法、计算机设备、可读存储介质和程序产品 | |
| CN117635478B (zh) | 一种基于空间通道注意力的低光照图像增强方法 | |
| CN119027342B (zh) | 一种医学光谱重建方法及装置 | |
| Ma et al. | Gaussian pyramid of conditional generative adversarial network for real-world noisy image denoising | |
| CN118096529A (zh) | 提升高光谱影像空间分辨率的数据化融合算法 | |
| CN117237224A (zh) | 图像处理方法、光刻设备和计算机可读存储介质 | |
| CN120031936B (zh) | 基于间接扩散模型的深度估计方法及系统 | |
| Zhang et al. | Iterative multi‐scale residual network for deblurring | |
| CN120318072A (zh) | 图像超分辨率重建方法、装置、设备、介质及程序产品 | |
| Zhang et al. | DMANet: An image denoising network based on dual convolutional neural networks with multiple attention mechanisms | |
| CN121039696A (zh) | 图像特征处理方法及译码设备 | |
| CN117372279A (zh) | 基于混合注意力机制的光谱去噪方法及装置 | |
| Wang et al. | Retinex decomposition based low‐light image enhancement by integrating Swin transformer and U‐Net‐like architecture | |
| CN116523733A (zh) | 图像跨域迁移方法、计算机设备、可读存储介质和程序产品 | |
| Na et al. | A unified framework for blind super-resolution via clean image prior |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |