[go: up one dir, main page]

CN116309056A - 图像重建方法、装置和计算机存储介质 - Google Patents

图像重建方法、装置和计算机存储介质 Download PDF

Info

Publication number
CN116309056A
CN116309056A CN202310225867.6A CN202310225867A CN116309056A CN 116309056 A CN116309056 A CN 116309056A CN 202310225867 A CN202310225867 A CN 202310225867A CN 116309056 A CN116309056 A CN 116309056A
Authority
CN
China
Prior art keywords
target
image
steps
resolution
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310225867.6A
Other languages
English (en)
Inventor
胡海林
罗小同
陈汉亭
严彬维
颜蔷羽
王云鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202310225867.6A priority Critical patent/CN116309056A/zh
Publication of CN116309056A publication Critical patent/CN116309056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像重建方法、装置和计算机存储介质。方法包括获取目标模型;目标模型的训练包括反向过程,反向过程:利用预测的T步的数据分布,对具有第一分辨率的加噪样本依次进行T步去噪处理,以重构样本图像;针对小于第一分辨率的目标图像,利用采样得到的匹配第一分辨率的噪声图和目标图像上采样后匹配第一分辨率的图像,得到匹配第一分辨率的目标加噪图;基于目标模型的反向过程,对目标加噪图依次执行W步目标处理;W步中最后一步对应于T步中的第i步,i小于预设的阈值步数N;将最后一步目标处理后的重建图像确定修复图像。通过减小去噪处理的步数,在一定程度上确保图像感知失真的平衡。

Description

图像重建方法、装置和计算机存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种图像重建方法、装置和计算机存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。单帧图像超分辨率重建技术在计算机视觉领域有广泛的应用,如目标识别、多媒体技术、航空航天成像等。
单帧图像超分辨率重建技术(简称图像超分)是指将给定的低分辨率图像通过特定的算法恢复成相应的高分辨率图像的过程,可分为传统图像超分方法和深度图像超分方法。其中传统图像超分方法主要包括基于插值、基于退化模型以及基于学习的方法。本发明主要研究深度图像超分方法,因此对传统超分方法不做进一步展开。
对于深度图像超分方法,去噪扩散概率模型(DDPM)正逐步发展成为生成模型的新趋势,用于各种任务。DDPM的实现原理是:整个过程遵循马尔科夫链,包括两个步骤:前向扩散和反向扩散。前向扩散过程是指通过逐步添加噪声将目标数据转化为隐变量,如标准高斯分布;反向扩散过程则是通过神经网络来预测每个扩散步骤中的噪声,从而重构原始数据。
但是,目前的DDPM没有考虑到感知和失真平衡的问题,使得重构的原始数据无法同时满足感知和失真的平衡。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明实施例提供了一种图像重建方法、装置和计算机存储介质,在采用DDPM模型的反向过程的原理的基础上,通过减小去噪处理的步数,能够在一定程度上实现图像感知和失真的平衡。
第一方面,本发明实施例提供了一种图像重建方法,包括:
获取目标模型;其中,目标模型的训练包括反向过程,反向过程包括,利用预测的T步的数据分布,对具有第一分辨率的加噪样本依次进行T步去噪处理,以重构样本图像;针对具有第二分辨率的目标图像,利用采样得到的匹配第一分辨率的噪声图和目标图像上采样后匹配第一分辨率的图像,得到匹配第一分辨率的目标加噪图;其中,第二分辨率低于第一分辨率;基于目标模型的反向过程,对目标加噪图依次执行W步目标处理;其中,W小于T,W步各自对应T步中的目标步数;W步中最后一步对应于T步中的第i步,i小于预设的阈值步数N;将最后一步目标处理后的重建图像确定为对目标图像进行分辨率提升的修复图像。
本方案中,在采用DDPM模型的反向过程的原理的基础上,通过减小去噪处理的步数,能够在一定程度上实现图像感知和失真的平衡。
在一种可能的实现方式中,W步中的第S-1步对应的目标步数为N;W步中第1到第S-1步中相邻两步对应的目标步数的差值大于等于2。
本方案中,通过省略一些步数的去噪处理,能够在一定程度上保真,降低失真的程度。
在一种可能的实现方式中,W步中第1到第S-1步对应的目标步数为预先设置的步数。
在一种可能的实现方式中,基于目标模型的反向过程,对目标加噪图依次执行W步目标处理,包括:对于W步中第2步到第S-1步的任一步,基于W步中该步对应的目标步数的第一比值,对W步中上一步目标处理后的重建图像进行去噪处理,得到W步中下一步对应的目标步数的重建图像;其中,目标步数的第一比值为目标步数对应的W步的步数和S的比值。
在一种可能的实现方式中,W步中的第S-1步对应的目标步数为N;基于目标模型的反向过程,对目标加噪图依次执行W步目标处理,包括:在W步中第S-1步的目标处理之后,依次执行N步的目标处理;其中,N步中相邻的两步对应的目标步数的差值等于1或0。
在一种可能的实现方式中,对于N步中第1步到第N步中的每步,该步的目标处理包括:
基于决策模型判断是否跳过该步的去噪处理;
在决策模型的决策结果为跳过时,确定目标处理对应的目标步数为上一步的目标处理对应的目标步数;
在决策模型的决策结果为不跳过时,基于目标模型的反向过程,对上一步的目标处理对应的目标步数的重建图像进行去噪处理,确定上一步的目标处理对应的目标步数减1后的步数对应的重建图像。
本方案中,通过1步1步的去噪处理,能够在一定程度上确保感知效果。
在一种可能的实现方式中,基于决策模型判断是否跳过该步的去噪处理,包括:
基于上一步的目标处理对应的目标步数的重建图像确定该步的观测数据;将该步的观测数据输入到决策模型中,决策模型基于观测数据判断是否跳过该步的去噪处理。
在一种可能的实现方式中,决策模型包括特征提取单元、顺序连接的N个隐含单元和输出层;其中,N个隐含单元分别连接输出层;其中,
对于N个隐含单元中位于首位的隐含单元,隐含单元的输入为特征提取单元对N步中第1步的观测数据处理后的数据,输出的结果输入到连接的下一个隐含节点和输出层,输出层输出第1次是否跳步的结果;
对于N个隐含单元中首尾之间的第i个隐含单元,隐含单元的输入为连接的上一个隐含单元的输出和特征提取单元对N步中第i步的观测数据处理后的数据,输出的结果输入到连接的下一个隐含节点和输出层,输出层输出第i次是否跳步的结果;
对于N个隐含单元中位于末位的隐含单元,隐含单元的输入为特征提取单元对第N步中第N步的观测数据处理后的数据,输出的结果输入输出层,输出层输出第N次是否跳步的结果。
在一种可能的实现方式中,决策模型的训练包括:
基于目标模型的反向过程,对样本图像依次执行W步目标处理,将最后一步目标处理后的重建图像作为待评价图像;基于图像评价指标,或者,基于图像评价指标和样本图像,对待评价图像进行评价,确定图像评价指标的指标值;基于图像评价指标的指标值,确定样本图像的奖励值;以最大化奖励值为目标训练决策模型。
第二方面,本发明实施例提供了一种图像重建装置,图像重建装置包括若干个模块,各个模块用于执行本发明实施例第一方面提供的图像重建方法中的各个步骤,关于模块的划分在此不做限制。该图像重建装置各个模块所执行的具体功能及达到的有益效果请参考本发明实施例第一方面提供的图像重建方法的各个步骤的功能,在此不再赘述。
示例性地,图像重建装置包括:
模型获取模块,用于获取目标模型;其中,所述目标模型的训练包括反向过程,所述反向过程包括,利用预测的T步的数据分布,对具有第一分辨率的加噪样本依次进行T步去噪处理,以重构所述样本图像;
加噪模块,用于针对具有第二分辨率的目标图像,利用采样得到的匹配第一分辨率的噪声图和目标图像上采样后匹配第一分辨率的图像,得到匹配第一分辨率的目标加噪图;其中,所述第二分辨率低于所述第一分辨率;
去噪模块,用于基于所述目标模型的反向过程,对所述目标加噪图依次执行W步目标处理;其中,所述W小于T,所述W步各自对应所述T步中的目标步数;所述W步中最后一步对应于T步中的第i步,所述i小于预设的阈值步数N;
修复模块,用于将所述最后一步目标处理后的重建图像确定为对所述目标图像进行分辨率提升的修复图像。
在一种可能的实现方式中,所述W步中的第S-1步对应的目标步数为N;所述W步中第1到第S-1步中相邻两步对应的目标步数的差值大于等于2。
在一种可能的实现方式中,所述W步中第1到第S-1步对应的目标步数为预先设置的步数。
在一种可能的实现方式中,所述去噪模块,用于对于所述W步中第2步到第S-1步的任一步,基于所述W步中该步对应的目标步数的第一比值,对所述W步中上一步目标处理后的重建图像进行去噪处理,得到所述W步中下一步对应的目标步数的重建图像;其中,所述目标步数的第一比值为所述目标步数对应的所述W步的步数和S的比值。
在一种可能的实现方式中,所述W步中的第S-1步对应的目标步数为N;
所述去噪模块,用于在所述W步中第S-1步的目标处理之后,依次执行N步的目标处理;其中,所述N步中相邻的两步对应的目标步数的差值等于1或0。
在一种可能的实现方式中,所述去噪模块,用于对于所述N步中第1步到第N步中的每步,该步的目标处理包括:
基于决策模型判断是否跳过该步的去噪处理;
在所述决策模型的决策结果为跳过时,确定所述目标处理对应的目标步数为上一步的目标处理对应的目标步数;
在所述决策模型的决策结果为不跳过时,基于所述目标模型的反向过程,对上一步的目标处理对应的目标步数的重建图像进行去噪处理,确定上一步的目标处理对应的目标步数减1后的步数对应的重建图像。
在一种可能的实现方式中,所述基于决策模型判断是否跳过该步的去噪处理,包括:
基于上一步的目标处理对应的目标步数的重建图像确定该步的观测数据;将所述该步的观测数据输入到所述决策模型中,所述决策模型基于所述观测数据判断是否跳过该步的去噪处理。
在一种可能的实现方式中,所述决策模型包括特征提取单元、顺序连接的N个隐含单元和输出层;其中,所述N个隐含单元分别连接所述输出层;其中,
对于N个隐含单元中位于首位的隐含单元,所述隐含单元的输入为所述特征提取单元对所述N步中第1步的观测数据处理后的数据,输出的结果输入到连接的下一个隐含节点和输出层,所述输出层输出第1次是否跳步的结果;
对于N个隐含单元中首尾之间的第i个隐含单元,所述隐含单元的输入为连接的上一个隐含单元的输出和所述特征提取单元对所述N步中第i步的观测数据处理后的数据,输出的结果输入到连接的下一个隐含节点和输出层,所述输出层输出第i次是否跳步的结果;
对于N个隐含单元中位于末位的隐含单元,所述隐含单元的输入为所述特征提取单元对第N步中第N步的观测数据处理后的数据,输出的结果输入输出层,所述输出层输出第N次是否跳步的结果。
在一种可能的实现方式中,所述决策模型的训练包括:
基于所述目标模型的反向过程,对所述样本图像依次执行W步目标处理,将所述最后一步目标处理后的重建图像作为待评价图像;基于图像评价指标,或者,基于图像评价指标和所述样本图像,对所述待评价图像进行评价,确定所述图像评价指标的指标值;基于所述图像评价指标的指标值,确定所述样本图像的奖励值;以最大化奖励值为目标训练所述决策模型。
第三方面,本发明实施例提供了一种图像重建装置,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面中所提供的方法。
第四方面,本发明实施例提供了一种图像重建装置,其特征在于,装置运行计算机程序指令,以执行第一方面中所提供的方法。示例性的,该装置可以为芯片,或处理器。
在一个例子中,该装置可以包括处理器,该处理器可以与存储器耦合,读取存储器中的指令并根据该指令执行第一方面中所提供的方法。其中,该存储器可以集成在芯片或处理器中,也可以独立于芯片或处理器之外。
第五方面,本发明实施例提供了一种计算机存储介质,计算机存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行第一方面中所提供的方法。
第六方面,本发明实施例提供了一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行第一方面中所提供的方法。
附图说明
图1是本发明实施例提供的一种人工智能主体框架的示例图;
图2是相关技术中的DDPM的实现原理的示意图;
图3是本发明实施例提供的一种图像重建方法的流程示意图;
图4a是本发明实施例提供的决策模型的输入方式的示意图一;
图4b是本发明实施例提供的决策模型的输入方式的示意图二;
图4c是本发明实施例提供的决策模型的输入方式的示意图三;
图4d是本发明实施例提供的图像重建方法的具体应用的示意图;
图4e是本发明实施例提供的图像重建方法的实现原理的示意图;
图5a是本发明实施例提供的决策模型的结构示意图一;
图5b是本发明实施例提供的决策模型的结构示意图二;
图6a是本发明实施例提供的决策模型中卷积网络的示意图一;
图6b是本发明实施例提供的决策模型中卷积网络的示意图二;
图6c是本发明实施例提供的隐含节点的示意图一;
图6d是本发明实施例提供的隐含节点的示意图二;
图7为本发明实施例提供的一种应用环境示意图;
图8为本发明实施例提供的一种端云系统的结构示意图;
图9是本发明实施例提供的一种图像重建装置的结构示意图;
图10是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行描述。
在本发明实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本发明实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个终端是指两个或两个以上的终端。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以下,对本实施例中的部分用语进行解释说明。需要说明的是,这些解释是为了便于本领域技术人员理解,并不是对本发明所要求的保护范围构成限定。
全参考(Full-Reference,FR)图像评价:是指在选择理想图像作为参考图像的情况下,比较待评图像与参考图像之间的差异,分析待评图像的失真程度,从而得到待评图像的质量评估。全参考图像评价可以通过PSNR(Peak Signal to Noise Ratio,峰值信噪比)、SSIM(Structural Similarity,结构相似性)、LPIPS(Learned Perceptual Image PatchSimilarity,学习感知图像块相似度,也可以称为感知损失)等指标实现。其中,PSNR值越大,表示图像失真越小。SSIM取值范围[0,1],SSIM值越大,表示图像失真越小。LPIPS值越低表示两张图像越相似。
无参考(No-Reference,NR)图像评价:也称为首评价方法,因为一般的理想图像很难获得,所以这种完全脱离了对理想参考图像依赖的质量评价方法应用较为广泛。无参考方法一般都是基于图像统计特性。无参考图像评价可以通过NIQE(Natural Image QualityEvaluator,自然图像质量评估器)、CPCQI(基于颜色的面片对比度质量指数)等指标实现。较低的NIQE值大致对应较高的整体自然度。较大的CPCQI值则表示较高的对比度。
人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
归一化处理:指将数据特征按比例缩放,使之落入一个小的特定区间,以去除数据特征的单位限制,将其转化为无量纲的纯数值,便于使用不同单位或量级的指标进行比较和加权。
激活函数:在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。激活函数可以为修正线性单元(ReLU)函数、S形函数(sigmoid函数)或双曲正切(hyperbolic tangent function,一般写作tanh)函数等中的任意一个。
L2损失函数:用于最小化误差,该误差是真实值和预测值之间的所有平方差的和。
L1损失函数:用于最小化误差,该误差是真实值和预测值之间的所有绝对差之和。
随机梯度下降法(Stochastic Gradient Descent Algorithm,SGD):多用用于支持向量机、逻辑回归等凸损失函数下的线性分类器的学习。
图像超分(super-Resolution):是将低分辨率的图像或者视频序列恢复出高分辨率图像。
图1示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。
下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。
“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。
“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施:
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片提供,其中,智能芯片可以为中央处理器(central processing unit,CPU),网络处理器(neural-networkprocessing units,NPU),图形处理器(graphics processing unit,GPU),专用集成电路(application specific integrated circuit,ASIC),现场可编程逻辑门阵列(fieldprogrammable gate array,FPGA)等硬件加速芯片;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。本方案中,通用能力可以为计算机视觉的处理,图像的识别等。通用能力通过人工智能基础技术和人工智能软件技术实现,人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
在上述人工智能框架下,图1中数据可以为图像,数据处理可以为单帧图像超分辨率重建技术(简称图像超分),是指将给定的低分辨率图像通过特定的算法恢复成相应的高分辨率图像的过程。下面介绍图像超分的应用场景。
图像超分可以应用在自动驾驶、平安城市、智能终端、智能安防、智能交通等计算机视觉领域中需要进行图像处理(例如,图像分类,图像识别)的领域。比如,可以在对低质量图像进行图像分类或者图像识别之前,先对低质量图像进行图像去噪得到高质量图像,然后再对高质量图像进行图像分类或者图像识别等处理。
具体地,在使用智能终端(例如,手机)进行拍照,或者使用智能终端、电视以及其他的显示器显示图像时,需要尽可能的消除图像中的噪声,降低图像的模糊程度,并提高图像的分辨率,使得用户可以观看到高清晰度高分辨率的图片。
另外,在智能安防领域中,监控摄像头拍摄到的图像画质一般比较低,这样会影响人或者识别算法识别目标和判断事件的准确性,因此,需要提高这些图片的分辨率和清晰度,也就是需要进行图像超分,以便于后续根据图像超分后的图像进行准确的判断。
在相关技术中,随着深度学习的快速发展,图像超分不管是在重建精度还是感知质量方面都取得了显著的成就。现有的深度图像超分方法可分为两类:一类是基于PSNR导向的超分模型,旨在通过像素级别的目标函数来对超分模型进行优化,如L1和L2损失;一类是基于感知导向的超分模型,主要包括生成模型,如生成对抗网络(GAN)、归一化流(Normalizing Flow)等。GAN由生成器G(Generator)和判别器D(Discriminator)组成,两者通过博弈的方法来对抗拟合数据的分布。Normalizing Flow通过设计严格的可逆结构,将简单的概率分布转换为极其复杂的概率分布,从而建模目标数据。尽管这些超分模型可以得到较好的重建效果,但PSNR导向的超分模型通常会生成过于平滑的结果,感知导向的超分模型通常会伴随着伪影的生成。同时,模型一旦训练完成,无法实现灵活的感知失真调节。生成模型会生成一旦模型训练束,将无法对生成结果的偏向性进行修改。
由于上述方法的局限性,近来,去噪扩散概率模型(Denoising DiffusionProbabilistic Model,DDPM)正逐步发展成为生成模型的新趋势,用于各种任务。并且,其仅需要通过优化变分下界的一个变种即可方便地训练DDPM,避免了GAN训练不稳定和归一化流结构设计复杂的问题。
为了便于理解,接下来对DDPM实现图像超分的过程进行详细介绍。
DDPM的整个过程遵循马尔科夫链,包括两个过程:前向过程和反向过程。
前向过程:又称为扩散过程,是指通过逐步添加噪声将目标数据转化为隐变量,如标准高斯分布。具体地,扩散次数记为T,则前向过程可以理解为对于原始图像X0逐步添加高斯噪声,得到大量加噪后的图像X1、…、Xt、…、XT,下标就是经过扩散的步骤,XT是第T次加噪之后的到图片,看上去一般为雪花。如果扩次数T足够大,比如可以为1000,那么最终得到的xT就完全丢失了原始数据而变成了一个随机噪音,从而达到破坏图像的目的。在此过程中,T步中第t步添加的参数为噪声的方差βt,开始时小,越往后越大,换言之,越大的步数t会采用更大的βt,即满足β1<β2<…<βT
对应的,xt-1到xt的计算过程可以通过加噪模型实现,其中,加载模型为
Figure BDA0004118564450000081
Figure BDA0004118564450000082
其中,噪声∈t表示从标准正态中采样,即∈t属于N(0,1)。
由此可知,加噪过程可以理解为上一步的状态Xt-1上乘了一个系数
Figure BDA0004118564450000083
然后加上了均值为0,方差为βt的高斯分布。将其写成概率分布的形式,
Figure BDA0004118564450000084
Figure BDA0004118564450000085
Figure BDA0004118564450000086
Figure BDA0004118564450000087
其中I表示标准正态分布;进一步地,
Figure BDA0004118564450000088
∈属于N(0,1),表示标准正态分布,则
Figure BDA0004118564450000089
在前向过程中,T步的噪声参数可以记为A1、A2、…、AT。其中,A1包括β1
Figure BDA00041185644500000812
α1,A2、…、AT类同,不再赘述。X1、…、Xt、…、XT各自具有分布参数的参数值,分布参数记为Z1、…、Zt、…、ZT,可以为均值μ,也可以为噪声∈。
反向过程:DDPM的推断过程模拟的是逆向马尔科夫链,对于给定的高斯噪声,可以通过重建模型(为了便于描述和区别,可以记住为重建模型A)实现图像重建。其中,重建模型A包括预测模型A1和重建公式A2组成。其中,预测模型A1可以预测分布参数的参数值,分布参数记为zθ(xt,t),zθ(xt,t)可以是均值μθ(xt,t),也可以是噪声∈θ(xt,t),将分布参数Zθ(xt,t)的参数值代入重建公式A2,可以实现去噪,从而重构原始数据。
具体地,如图2所示,假设zθ(xt,t)=zt;在得到XT之后,将XT和T代入预测模型中,预测模型输出zT,基于zT和重建公式A2对XT-1进行重建,得到重建后的xT-1;接着,将xT-1和T-1代入预测模型A1中,预测模型A1输出zT-1,基于zT-1和重建公式A2继续重建XT-2,得到重建后的xT-2;循环反复,直到得到重建后的x0
对于反向过程,每一步的逆扩散过程服从高斯分布,则Pθ(xt-1/xt)=N(xt-1;μθ(xt,t),∑θ(xt,t));其中,xt-1为服从均值为μθ(xt,t),方差为∑θ(xt,t)的正态分布,∑θ(xt,t)可以设置为
Figure BDA00041185644500000810
Figure BDA00041185644500000811
在预测模型输出的反向过程的分布参数zθ(xt,t)为均值μθ(xt,t)时,预测模型A1可以记为A11,重建公式A2可以记为重建公式A21,重建公式A21具体参见如下公式(1)。
Figure BDA0004118564450000091
需要说明的是,可以通过对标准正态分布进行随机采样,得到公式(1)中的∈,∈可以认为是随机采样得到的噪声图;具体地,在图像重建过程中,在高斯分布即标准正态分布上随机采样得到∈,然后将得到的∈和预测模型A11的预测结果代入上述公式(1)中实现去噪。另外,在得到重建后的x1后,无需对标准正态分布进行随机采样,直接采用标准正态分布∈即可,得到重建后的x0
DDPM的关键是训练μθ(xt,t),使其预测的均值μθ(xt,t)和真实破坏用的均值μ(Xt,t)相同。用L2损失距离刻画相近程度,则预测模型的损失函数Loss=||μ(Xt,t)-μθ(xt,t)||2,即损失函数L2,损失函数L2仅仅作为示例,比如还可以是损失函数L1。
在预测模型A1输出的反向过程的分布参数zθ(xt,t)为噪声∈θ(xt,t),预测模型A1可以记为A12,重建公式A2可以记为重建公式A22。另外,
Figure BDA0004118564450000092
Figure BDA0004118564450000093
则重建公式A2可以参见如下公式(2)。
Figure BDA0004118564450000094
需要说明的是,可以通过对标准正态分布进行随机采样,得到公式(2)中的∈,∈可以认为是随机采样得到的噪声图;具体地在图像重建过程中,在高斯分布即标准正态分布上随机采样得到∈,然后将得到的∈、上一状态重建的图像和预测模型A12的预测结果代入上述公式(2)中实现去噪。另外,在得到重建后的x1后,无需对标准正态分布进行随机采样,直接采用标准正态分布∈即可,得到重建后的x0
DDPM的关键是训练∈θ(xt,t),使其预测的噪声∈θ(xt,t)和真实破坏用的噪声∈(Xt,t)相同。用L2损失距离刻画相近程度;则预测模型的损失函数Loss=||∈(Xt,t)-∈θ(xt,t)||2,即损失函数L2,损失函数L2仅仅作为示例,比如还可以是损失函数L1。
在图像超分的场景中,预测模型A1的训练过程参见下文描述。
对于第一分辨(高分辨率)的样本图像X0,基于T步的噪声参数A1、A2、…、AT,对X0添加T次噪声,得到T步中从0到T对应的参考图像X0、X1、X2、…、Xt、…、XT;之后,确定X0、X1、…、Xt、…、XT各自针对分布参数Z(Xt,t)的参数值Z0、Z1、…、Zt、…、ZT
接着,得到数据集,数据集包括样本图像X0对应的正态分布样本XT,样本图像X0添加T步噪声后得到T步中每步针对分布参数Z(Xt,t)的参数值Z0、Z1、…、Zt、…、ZT
其中,预测模型A1可以基于图像的正态分布图输出第T步针对分布参数的预测结果,重建公式A2用于基于预测模型A1输出的T步中第i(小于T)步针对分布参数Z的预测结果对第i步的重建图像进行去噪处理,得到第i-1步的重建图像;预测结果A1基于重建公式A2重建的第T步中第i步的重建图像输出第i步针对分布参数Z的预测结果;预测模型A1基于样本图像X0在T步加噪后每步各自对应的参数值和预测模型输出的T步中每步的预测结果之间的误差训练得到。
具体训练过程为:对于数据集中的每个正态分布样本XT,将对应的正态分布样本Xr输入到预测模型A1中,预测模型A1输出第T步对应的分布参数的参数值zT,计算zT和XT的真实的分布参数的参数值ZT的误差LT;将zT代入重建公式A2,得到第T-1步的重建图像xT-1,将xT-1输入到预测模型A1中,预测模型A1输出第T-1步对应的分布参数的参数值zT-1,计算zT-1和XT-1的真实的分布参数的参数值ZT-1的误差LT-1;将zT-1代入重建公式A2,得到第T-2步的重建图像xT-2;循环反复,直到得到第0、1、…、t、…、T-3步各自对应的误差L0、L1、…、Lt、…、LT-3,基于L0、L1、…、Lt、…、LT最终得到正态分布样本xT对应的误差L,比如可以基于L1损失函数或L2损失函数确定。接着基于数据集中每个正态分布样本XT的误差L训练预测模型A1,得到训练好的预测模型A1。
另外,在一些可能的实现方式,在反向过程中,上述正态分布样本XT仅仅作为示例,并不构成具体限定,在一些可能的情况,还可以将第二分辨率(低分辨)的样本图像变成第二分辨(高分辨率)的图像后和对正态分布采样得到的噪声图,确定低分辨率的样本图像对应的高分辨率的正态分布样本X′T,以X′T作为起点进行重建。
后续,在实际应用的过程中,对于小于第一分辨率的第二分辨率的样本图像,对样本图像进行上采样,同时结合匹配第一分辨率的噪声图,得到匹配第一分辨率的目标图像,基于重建模型A对目标图像依次进行T步的去噪处理,得到x0,得到的x0作为分辨率提升后的图像。进行T步的去噪处理的详细内容参见上文对训练过程的描述区别在于无需计算误差也无需训练预测模型A1。
示例性地,预测模型可以为U-net网络。U-net网络是一个基于CNN(convnet,卷积神经网络)的图像分割网络。该网络的结构参考现有技术的描述,不再赘述。
在相关技术中,在采用DDPM的基础上,主要通过如下两种实现方式实现图像超分。
实现方式1:采用SRDiff模型实现图像超分,SRDiff模型是一种条件生成模型,分为两个阶段,一个是训练阶段,另外一个是推理阶段,推理阶段和DDPM的原理是一样的。差异表现为在SRDiff模型中,需要通过特征编码器(LR Encoder)将低分图像编码成特征的方式作为条件输入到预测模型中;在训练阶段,预测模型采用残差预测的方式进行训练,具体过程为:对输入的低分辨率xT进行bicubic(双三次插值)得到图片up(XL),对up(XL)和真实的高分辨率的图片相减之后,得到高频信息图片,基于高频信息图片和随机采样得到的噪声∈计算得到xt的噪声图,然后和预测模型估计的xt的噪声图计算损失,对预测模型进行训练。
实现方式2:首先利用预训练好的超分模型对低分图进行超分重构,得到一个较好的超分结果;将此超分结果经过单步前向过程加噪得到中间扩散结果;以此中间结果作为初始化,通过预测模型进行反向扩散。
实现方式1通过设计新的网络结构进行噪声预测,从而减少网络结构的复杂度,但是没有关注到感知失真平衡问题。
实现方式2针对DDPM进行加速,通过随机收缩理论减少迭代次数,没有考虑到生成样本的感知失真平衡问题。
综上,考虑到感知和失真具有互斥性,因此,如何设计出高保真感知的方法对于图像生成任务是一个巨大的挑战。
为了解决DDPM的感知失真平衡的问题,本发明实施例提供了图像重建的方法。
图3是本发明实施例提供的图像重建方法的流程示意图。本实施例可应用在电子设备上,具体可以应用在服务器或一般计算机上。如图3所示,本发明实施例提供的图像重建方法至少包括如下步骤:
步骤310、获取目标模型;其中,目标模型的训练包括反向过程,反向过程包括,利用预测的T步的数据分布,对具有第一分辨率的加噪样本依次进行T步去噪处理,以重构样本图像。
目标模型为DDPM模型,训练的详细内容参见上文对DDPM的详细介绍,不再赘述。
步骤320、针对具有第二分辨率的目标图像,利用采样得到的匹配第一分辨率的噪声图和目标图像上采样后匹配第一分辨率的图像,得到匹配第一分辨率的目标加噪图;其中,第二分辨率低于第一分辨率。
在一种可行的实现方式,首先将第二分辨率的目标图像放大到第一分辨率的图像,接着,在高斯分布即标准正态分布上随机采样得到的第一分辨率的噪声图,将第二分辨率的目标图像放大到第一分辨率的图像和随机采样得到的第一分辨率的噪声图,作为匹配第一分辨率的目标加噪图x′T
步骤330、基于目标模型的反向过程,对目标加噪图依次执行W步目标处理;其中,W小于T,W步各自对应T步中的目标步数;W步中最后一步对应于T步中的第i步,i小于预设的阈值步数N。
本发明实施例中,阈值步数N指示了最低失真要求的步数,或者,最低感知要求的步数。
需要说明的是,本发明实施例中,对于W步目标处理中的每步的目标处理,该不目标处理后可以确定该步对应的目标步数对应的重建图像。
在一种可选的实现方式,W步各自对应的T步中的目标步数从大到小。
步骤340、将最后一步目标处理后的重建图像确定为对目标图像进行分辨率提升的修复图像。
综上,本发明实施例中,在对低分辨率的图像扩大和加噪,得到高分辨的加噪图后,基于目标模型对加噪图进行小于T步的去噪处理,并以最低感知要求和/或最低失真要求的阈值步数N作为分界,确定T步数中0到N中任一对应的重建图像作为分辨率提升的修复图像,从而实现感知和失真平衡,并且能够降低图像重建的迭代次数。
需要说明的是,发明人经过实验验证,在加噪过程,较大的采样步长能带来较低的重构误差,比如(PSNR,SSIM),即图像的失真程度较低;较小的采样步长能带来较好的感知质量(比如NIQE、LPIPS)。因此,本发明实施例通过减少步长,从而考虑失真和感知的平衡,得到失真和感知能够达到平衡的重建图像,实现图像超分的感知和失真的平衡。
本发明实施例中,在步骤330中,W步中的第S-1步对应的目标步数为N;对应的,在步骤330中,需要进行S步的目标处理(包括去噪处理),确定W步中第1到第S-1步各自对应的目标步数对应的重建图像。
这里,为了便于描述,将W步中的第1到第S-1步记为f1、f2、…、ft-1、ft、…、fS-1,分别对应的目标步数记为Ss、Ss-1、…、St+1、St、…、S1。Ss、…、St+1、St、…、S1顺序递减。其中,fS-1对应的目标步数S1为N,f1、f2、…、ft-1、ft、…、fS-1对应的步数为Ss、Ss-1、…、St+1、St、…、S2。另外,Ss、Ss-1、…、St+1、St、…、S1分别对应的重建图像记为
Figure BDA0004118564450000111
Figure BDA0004118564450000112
具体地,本发明实施例中,目标模型包括重建模型B,重建模型B可以实现去噪处理。其中,重建模型B包括预测网络B1和重建公式B2组成。其中,预测网络B1可以预测反向过程的分布参数,记为
Figure BDA0004118564450000113
分布参数
Figure BDA0004118564450000114
可以是均值
Figure BDA0004118564450000115
也可以是噪声
Figure BDA0004118564450000116
将分布参数
Figure BDA0004118564450000117
代入重建公式B2,可以获得重建后的图像,从而重构原始数据。
结合上文对DDPM的反向过程的描述可知,本发明实施例中,
Figure BDA0004118564450000121
其中,
Figure BDA0004118564450000122
在预测模型B1输出的反向过程的分布参数
Figure BDA0004118564450000123
为均值
Figure BDA0004118564450000124
时,预测模型B11可以记为B11,重建公式B2可以记为重建公式B21,重建公式B21具体参见如下公式(3)。
Figure BDA0004118564450000125
其中,
Figure BDA0004118564450000126
在预测模型B1输出的反向过程的分布参数
Figure BDA0004118564450000127
为噪声
Figure BDA0004118564450000128
时,预测模型B11可以记为B12,重建公式B2可以记为重建公式B22,重建公式B22具体参见如下公式(4)。
Figure BDA0004118564450000129
需要说明的,预测模型B1的训练方式参见上文所述的DDPM的反向过程中的预测模型A1的训练方式,不再赘述;但是预测模型A1和预测模型B1的结构可以不同。
可选地,S个第一步数为人为预先设置好的。
在一些可能的情况中,S可以等于N,则W步中第1到第S-1步对应的S个步数中相邻的目标步数St+1、St的差值等于1,对应的,上述公式(3)和公式(1)相同,上述公式(4)和公式(2)相同。
在一些可能的情况中,S小于N,则W步中第1到第S-1步对应的S个目标步数中相邻的目标步数St+1、St的差值大于等于2,另外,步数的差值大于等于2,可以称为粗糙跳步。
在实际应用中,需要对T中第T步到第N步进行采样得到W步中第1到第S-1步对应的S个目标步数,这样可以在一定程度上减少迭代的次数,能够提高图像重建的效率;另外,发明人经过验证,较小的步长能够带来较少的失真程度,因此,采用粗糙跳步的方式能够在一定程度上减少失真的程度,即具有保真的效果。
示例性地,(S-f1)和S的比值(为了便于描述和区别,可以称为第一比值)等于f1对应的目标步数Ss和T的比值(为了便于描述和区别,可以称为第二比值)。在该示例下,
Figure BDA00041185644500001210
St/T=(S-ft)/S;其中,s是预先设置的常量,数值范围为0到1之间。
W步中第1到第S-1步各自对应的S个目标步数的具体采样过程为:基于N和T的比值确定S,基于1/S、2/S、…、S-1/S分别和T相乘的结果,确定S-1个目标步数。
举例来说,假设T=1000,N=100,N/T=10,则S有10个,S-1个目标步数为100,200,…、900,各自对应W中第9步、第8步、第7步、…、第1步。
接下来对W步中第1到S步的目标处理的过程进行描述。
对于等于1的步数f1的目标处理processC1,将目标加噪图x′T和T输入至预测模型B2中,得到预测模型B2输出的第T步对应的分布参数
Figure BDA00041185644500001211
的参数值,基于分布参数
Figure BDA00041185644500001212
的参数值、步数f1对应的目标步数Ss对应的噪声参数
Figure BDA00041185644500001213
和重建公式B1,对目标加噪图x′T进行去噪,得到f1对应的重建图像
Figure BDA00041185644500001214
可选地,对于大于等于2的步数ft的目标处理processC2,将上一步数ft-1对应的重建图像
Figure BDA00041185644500001215
和上一步数ft-1对应的目标步数St+1输入至预测模型B2中,得到预测模型B2输出的上一步数ft-1对应的目标步数St+1对应的分布参数
Figure BDA00041185644500001216
的参数值,至少基于分布参数
Figure BDA00041185644500001217
的参数值、步数ft对应的目标步数St的噪声参数
Figure BDA00041185644500001218
和重建公式B1,对上一步数ft-1对应的重建图像
Figure BDA00041185644500001219
进行去噪,得到步数ft对应的重建图像
Figure BDA00041185644500001220
这里,在图像重建过程processC1和图像重建过程processC2中,重建公式B1和预测模型B2预测出的分布参数是适配的,重建公式B11和预测模型B21适配,重建公式B12和预测模型B22适配。
具体地,若分布参数Z为均值μ,则对于等于1的步数f1的图像重建过程processC1,分布参数
Figure BDA0004118564450000131
表示
Figure BDA0004118564450000132
的值,接着在标准正态分布中进行随机采样,得到∈,然后基于第1次到第T次的加噪参数中的α1到αT,计算得到
Figure BDA0004118564450000133
Figure BDA0004118564450000134
最后,将
Figure BDA0004118564450000135
和f1对应的步数T的加噪参数βT代入重建公式B11中,得到f1对应的重建图像
Figure BDA0004118564450000136
大于等于2的步数ft的图像重建过程processC2和processC1类同,区别仅仅在于参数的值不同,不再赘述。
具体地,若分布参数Z为噪声,则对于等于1的步数f1的图像重建过程processC1,分布参数
Figure BDA0004118564450000137
表示
Figure BDA0004118564450000138
的值,接着在标准正态分布中进行随机采样,得到∈,然后基于第1次到第T次的加噪参数中的α1到αT,计算得到
Figure BDA0004118564450000139
Figure BDA00041185644500001310
最后,将x′T
Figure BDA00041185644500001311
∈、
Figure BDA00041185644500001312
和ft对应的步数T的加噪参数βT代入重建公式B12中,得到f1对应的重建图像
Figure BDA00041185644500001313
大于等于2的步数ft的图像重建过程processC2和processC1类同,区别仅仅在于参数的值不同,不再赘述。
本发明实施例中,所述W步中的第S-1步对应的目标步数为N;本发明实施例中,步骤330还包括如下步骤:
在W步中第S-1步的目标处理之后,依次执行N步的目标处理;其中,N步中相邻的两步对应的目标步数的差值等于1或0。
需要说明的是,为了便于描述,将W步中S-1步之后的N步记为k1、k2、…、kt-1、kt、…、kN。W步中S-1步之后的N步中的每一步的目标处理,均会对应一个重建图像,将k1、k2、…、kt-1、kt、…、kN对应的重建图像记为
Figure BDA00041185644500001314
其中,
Figure BDA00041185644500001315
Figure BDA00041185644500001316
对应T步中的第N到第i步,其中,i=0,1,2,…,N-1中的任一个。为了便于描述和区别,将
Figure BDA00041185644500001317
分别对应的T步中的目标步数记为R1、R2、…、Rt-1、Rt、RN,也即k1、k2、…、kt-1、kt、…、kN各自对应的目标步数为R1、R2、…、Rt-1、Rt、RN。应当理解的是,R1、R2、…、Rt-1、Rt、RN中相邻的两个目标步数之间的差值等于0或1,跳步步长较小,可以称为精细化跳步。
具体的,对于N步中第1步到第N步中的每步,该步的目标处理包括:
判断是否跳过该步的去噪处理;在决策结果为跳过时,确定目标处理对应的目标步数为上一步的目标处理对应的目标步数;在决策结果为不跳过时,基于目标模型的反向过程,对上一步的目标处理对应的目标步数的重建图像进行去噪处理,确定上一步的目标处理对应的目标步数减1后的步数对应的重建图像。
值得注意的是,对于N步中第N步的目标处理包括:
判断是否跳过第N步的去噪处理;在决策结果为跳过时,确定目标处理对应的目标步数为上一步的目标处理对应的目标步数,则W步中最后一步的目标处理后的重建图像为上一步的目标处理对应的目标步数的重建图像;在决策结果为不跳过时,基于目标模型的反向过程,对上一步的目标处理对应的目标步数的重建图像进行去噪处理,确定上一步的目标处理对应的目标步数减1后的步数对应的重建图像,此时,该重建图像即为W步中最后一步的目标处理后的重建图像。
在具体实现时,判断是否跳过当前步的去噪处理的过程如下:
确定该步的观测数据;基于该步的观测数据,判断是否跳过该步的去噪处理。
确定该步的观测数据的实现方式有如下3种。
实现方式1:如图4a和图4b所示,基于上一步的目标处理对应的目标步数的重建图像确定该步的观测数据。
在实现方式1中,如图4a所示,该步的观测数据可以为上一步的目标处理对应的目标步数的重建图像,如图4b所示,也可以为上一步的目标处理对应的目标步数的重建图像的分布参数zθ(xt,t)的参数值。若观测数据为分布参数zθ(xt,t)的参数值,首先需要将上一步的目标处理对应的目标步数的重建图像和上一步的目标处理对应的目标步数输入到预测模型B1中,将预测模型B1输出的结果作为该步的观测数据。另外,在一些可能的场景下,观测数据还可以包括上一步的目标处理对应的目标步数。本发明实施例并不意图限制观测数据的内容,具体可以结合实际情况确定。
需要说明的是,当对于W步中的N步中的第1步,上一步的目标处理对应的目标步数的重建图像为第S-1步的目标处理对应的目标步数的重建图像,即
Figure BDA0004118564450000141
实现方式2:如图4c所示,若上一步的目标处理的结果为跳过该步的去噪处理,则基于W步中第S-1步对应的目标步数的重建图像,确定该步的观测数据;若上一步的目标处理的结果为不跳过该步的去噪处理,则基于上一步的目标处理对应的目标步数的重建图像确定该步的观测数据。
这里,实现方式2相对于实现方式1的区别在于,若上一步的目标处理的结果为跳过该步的去噪处理,则基于W步中第S-1步对应的目标步数的重建图像,作为该步的观测数据;观测数据可以为重建图像,也可以为重建图像的分布参数zθ(xt,t)的参数值。这里,若上一步的目标处理的结果为不跳过该步的去噪处理,该步的观测数据基于上一步的目标处理对应的目标步数的重建图像确定,详细内容参见对实现方式1的描述不再赘述。
示例性地,在W步中第S-1步的去噪处理之后,以T步中的第N-1步作为当前步数开始,进行N步的目标处理,对于W步中S-1步之后的N步中的每步,目标处理包括:
确定该步的观测数据,基于该步的观测数据判断是否跳过该步的去噪处理;若判断不跳过则将当前步数更新为自身减1之后的步数,并将更新后的当前步数作为该步对应的目标步数,若未进行该目标步数的去噪处理,则基于目标模型的反向过程,进行对应目标步数的去噪处理;若判断跳过,则当前步数不变,并将该当前步数作为该步对应的目标步数。
需要说明的是,在第W步中第S-1步之后的目标处理,N步的目标处理中可能完全不需要去噪处理,可能需要步需要去噪处理,可以每一步均需要去噪处理,这样,在N步中第N步的目标处理后,可以确定T步中第0到第N步对应的重建图像,实现感知和失真的平衡。
示例性地,如图4d和图4e所示,W步中第S-1步目标处理得到的重建图像为
Figure BDA0004118564450000142
在W步中第S-1步的去噪处理之后,N步的目标处理的具体过程如下:
对于等于1的步数k1的目标处理processD1,确定是否跳过重建,若跳过,则将T步中的第N步作为步数k1对应的目标步数R1,将S步中第S-1步对应的重建图像
Figure BDA0004118564450000143
作为步数k1对应的重建图像
Figure BDA0004118564450000144
若不跳过,则当前步数R1更新为目标步数R2(等于R1-1),基于目标模型,对第S-1步对应的重建图像
Figure BDA0004118564450000145
进行去噪处理,重建T步中的N-1步(即目标步数R2)对应的重建图像,得到步数k1对应的重建图像
Figure BDA0004118564450000146
这里,去噪处理的过程通过上文所述的反向过程中实现,可以基于上述公式(1)和公式(2)实现,不再赘述。
对于大于等于2的步数ki的目标处理processD2,确定是否跳过重建,若跳过,则将上一步数ki-1对应的目标步数Ri-1作为步数ki对应的目标步数Ri,将上一步数ki-1对应的重建图像
Figure BDA0004118564450000147
作为步数ki对应的重建图像
Figure BDA0004118564450000148
若不跳过,则当前步数Ri-1更新为目标步数Ri(等于Ri-1-1),基于目标模型,对上一步数ki-1对应的重建图像
Figure BDA0004118564450000149
进行去噪处理,重建目标步数Ri对应的重建图像,得到步数ki对应的重建图像
Figure BDA0004118564450000151
这里,去噪处理的过程通过上文所述的反向过程中实现,可以基于上述公式(1)和公式(2)实现,不再赘述。
这里,确定是否跳步重建参见图4a至图4c,和上文对图4a至图4c的描述,不再赘述。
其中,判断是否跳过该步的去噪处理由决策模型实现。对应的,在W步中第S-1步的去噪处理之后的N步的每步的目标处理的过程中,在确定了该步对应的观测数据之后,将观测数据输入到决策模型中,决策模型基于观测数据判断是否跳过该步的去噪处理,输出决策结果。
接下来对决策模型的模型结构进行描述,需要说明的是,下文所示的决策模型的模型结构仅仅作为示例,并不构成具体限定,在具体实现时,可以结合实际需求灵活设计决策模型的结构。另外,以重建图像作为决策模型的输入为例进行详细描述。
这里,决策模型的输出为是否跳过重建的预测结果,将该预测结果记为Y;
Figure BDA0004118564450000152
Figure BDA0004118564450000153
分别输入到决策模型时,决策模型顺序输出预测结果,为了便于描述和区别,记为y1、y2、…、yN。其中,预测结果为[p1,p2],其中,p1表示跳步的概率值,可以为0,或1,还可以为0到1中的任一数值,p2表示不跳步的概率值,可以为0,或1,还可以为0到1中的任一数值。应当注意的是,当[p1,p2]表示0到1之间的数值时,当p1大于p2,说明需要跳步,否则不跳步。
示例性地,如图5a和图5b所示,决策模型由卷积网络和分析网络依次连接构成。
其中,卷积网络可以包括多个卷积单元,示例性地,如图6a所示,卷积单元可以包括卷积层、归一层、激活层和融合层依次连接组成,卷积单元的融合层的输出作为连接的下一卷积单元的卷积层的输入;示例性地,如图6b所示,卷积单元可以包括卷积层、归一层、激活层依次连接组成,卷积单元的激活层的输出作为下一卷积单元的卷积层的输入。需要说明的是,本发明实施例所示的卷积网络仅作为一种卷积网络的示例,在具体的应用中,卷积网络还可以以其他网络模型的形式存在,例如,在卷积层/激活层/融合层中可以包含多组由卷积层、归一化层、激活层组成的处理层,和/或包含多组由卷积层、归一化层、激活层和融合层组成的处理层。
示例性地,卷积层可以包括很多个卷积算子,卷积算子也称为卷积核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同,经过该多个维度相同的权重矩阵提取后的特征图维度也相同,再将提取到的多个维度相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息,从而帮助进行正确的预测。
当决策模型有多个卷积层的时候,初始的卷积层(例如121)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着决策模型100深度的加深,越往后的卷积层提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
另外,卷积层中的卷积核的尺寸可以相同,也可以不同。卷积层可以包括多个不同尺寸的卷积核。示例性地,卷积层包括卷积核11-1n,其中,卷积核11-1n为多个不同尺寸的卷积核,例如,卷积核11的尺寸为1x1,卷积核12的尺寸为3x3,卷积核13的尺寸为5x5。本方案中,卷积核11-1n主要用于对输入的数据分别进行特征提取,从而获取到不同尺度的特征表示。可以理解的是,如果使用相同尺寸的卷积核进行特征提取,那提取出的特征将会是固定不变的,即获取到的感受野下的上下文信息是一致的,这就难以找寻到最优的感受野下的上下文信息;而本方案中,使用多个不同尺寸的卷积核进行特征提取,则使得提取出的特征是变化的,即获取到的感受野下的上下文信息是不一致的,从而使得可以从不同的感受野下的上下文信息中,寻到最优的感受野下的上下文信息,提升了图像处理的准确度,以及提升了图像重建的分布参数的预测。此外,通过将卷积层设置为多个不同尺寸的卷积核,也减少了卷积层的个数,从而减少了卷积操作数,降低了系统功耗。
进一步地,依次连接的多个卷积单元的卷积核的尺寸一般是越来越小的。
示例性地,激活层可以包括激活函数,该激活函数可以用于加入非线性因素,以解决线性模型表达力不够的问题。对于图像,主要采用了卷积的方式来处理,也就是对每个像素点赋予一个权值,这个操作显然就是线性的。但是对于样本图像来说,其不一定是线性可分的,为了解决这个问题,可以引入非线性因素,解决线性模型所不能解决的问题。示例性的,激活函数可以选用ReLU函数。
示例性地,归一化层可以包括归一化函数,归一化函数用于实现归一化处理。
示例性地,融合层,可以包括卷积核,其中,该层与卷积层类似,但该层的结构与卷积层不同。示例性地,假设卷积层包括卷积核11-1n,融合层包括卷积核21,其中,卷积核11-1n为多个不同尺寸的卷积核,例如,卷积核11的尺寸为1x1,卷积核12的尺寸为3x3,卷积核13的尺寸为5x5;卷积核21的尺寸为1x1。本方案中,卷积核11-1n主要用于对输入的数据分别进行特征提取,从而获取到不同尺度的特征表示;卷积核21主要是用于对卷积核11-1n提取到的特征进行整合,然后输入到下一卷积网络。
在经过多个卷积网络的处理后,还不足以输出所需要的输出信息。因为如前所述,卷积层/激活层/融合层只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)。
此时,需要利用分析网络来生成一个或者一组所需要的类的数量的输出,本发明实施例中,分析网络需要输出二分类信息,一个类别为跳步,另一个类别为不跳步,也即上述预测结果。为了满足分析网络对输入的图像的尺寸要求,卷积网络还包括张量flatten层,张量flatten层可以对连接的卷积单元的输出进行尺寸变化,得到适配分析网络的输入。
在一些可选的实现方式中,如图5a所示,分析网络包括隐含层和输出层,隐含层包括从1开始递增到N的N个时刻各自对应的隐含节点,N个隐含节点依次连接,同时,N个隐含节点连接输出层。
其中,计算过程为:隐含层的隐含节点从1到N个时刻正向计算一遍,得到并保存每个时刻的输出;在每个时刻,输出层对每个时刻的输出进行全连接计算,得到最终的输出。
其中,输出层可以基于任一时刻的隐含节点的输出,得到任一时刻的预测结果。
如图5a所示,将
Figure BDA0004118564450000171
输入到卷积网络,卷积网络会输出一个内部向量,记为x′1,此时,x′1作为第1时刻的输入,输入到对应的隐含节点,隐含节点输出一个内部向量,记为h1;输出层可以第1时刻的隐含节点的输出h1,输出第1个时刻的预测结果y1;将
Figure BDA0004118564450000172
输入到卷积网络,卷积网络会输出一个内部向量,记为x′2,此时,x′2作为第2时刻的输入,输入到对应的隐含节点,隐含节点输出一个内部向量,记为h2;输出层可以基于第2时刻的隐含节点的输出h2,输出输出第2个时刻的预测结果y2;
Figure BDA0004118564450000173
类同,不再赘述。
下面对隐含节点的进行详细描述。
在一种可能的实现方式中,隐含节点可以为循环神经网络(Recurrent NeuralNetwork,RNN)中的节点。其中,ht的具体计算过程参见下述公式(5)。
ht=δ(W(h)×x′t+U(h)×ht-1+b(h) (5)
其中,ht表示第t个时刻的隐含节点状态;W(h)表示隐含节点状态对应的输入权值矩阵;U(h)表示隐含节点状态对应的输出权值矩阵;b(h)表示隐含节点状态对应的偏置矩阵。
在一种可能的实现方式中,隐含节点可以为长短期记忆网络(Iong short-termmemory,LSTM)中的节点。
在该实现方式中,该隐含节点在每个时刻均有一个节点状态,例如t时刻的状态向量ct,用于指示隐含节点在t时刻的状态,也可以视为隐含节点在t时刻的信息,从而使得隐含节点可以从1时刻到t时刻一直维持记忆,以实现长短期记忆。
示例性地,如图6c所示,隐含节点包括4个门,分别为输入门、更新门、遗忘门以及输出门,该隐含节点的输入可以包括t时刻的输入数据x′t、t-1时刻的输出数据ht-1以及t-1时刻的节点状态ct-1
在计算过程,输入门用于控制将新信息存储至节点状态;遗忘门用于控制上一时刻的节点状态有多少可以保留在当前时刻的节点状态;更新门用于将新信息转换为能够加入节点状态的形式,新信息可以从当前时刻LSTM网络的输入数据中获取;输入门、更新门以及遗忘门可以实现对隐含节点的节点状态的控制;输出门用于控制当前时刻的节点状态有多少可以作为该隐含节点当前时刻的输出。
在一种可能的实现方式中,隐含节点可以为门控循环单元(Gated RecurrentUnit,GRU)中的节点。
GRU是循环神经网络(Recurrent NeuralNetwork,RNN)的一种,相比于传统神经网络,RNN能够更好的处理输入为时间序列的任务。因为RNN神经网络能够将之前输入产生的影响保留到模型,并共同参与到对下一步的计算中。理论上,RNN神经网络可以利用任意长度的时间序列信息,但是实际中当两个输入之间的步长太大时会很快出现梯度消失,从而难以实现。GRU神经网络作为RNN的一种变体,其特殊的门结构能够有效解决长短时间序列上的变化问题。
示例性地,如图6d所示,隐含节点包括更新门、重置门和候选记忆单元。该隐含节点的输入可以包括t时刻的输入数据x′t、t-1时刻的输出数据ht-1
在计算过程,更新门用于确定在上一时刻以及当前时刻总共有多少有用的信息需要接着向下传递;重置门用于控制需要遗忘多少过去的信息;候选记忆单元用来判断输出与之前哪个数值相关,同时排除一些无关的可以不要的信息。
本发明实施例并不意图对分析网络的结构进行任何限定。比如可以为循环神经网络(RNN)、长短期记忆网络(LSTM)以及门控循环单元(GRU)。再比如,如图5b所示,分析网络,可以通过隐含层的堆叠来形成多层的神经网络。
比如,本实施例中,可以构建3层的单向的神经网络。其中,计算过程为:每个隐含层的隐含节点从1时刻到N时刻正向计算一遍,得到并保存每个时刻的输出;在每个时刻,输出层连接的隐含层在该时刻的输出进行计算,得到概率分布。
如图5b所示,将
Figure BDA0004118564450000181
输入到卷积网络,卷积网络会输出一个内部向量x′1,此时,x′1作为第1时刻的输入,输入到第一隐含层连接的隐含节点,隐含节点输出一个内部向量,记为
Figure BDA0004118564450000182
输入到第二隐含层连接的隐含节点,隐含节点输出一个内部向量,记为
Figure BDA0004118564450000183
输入到第三隐含层连接的隐含节点,隐含节点输出一个内部向量,记为
Figure BDA0004118564450000184
输出层可以第1时刻的隐含节点的输出
Figure BDA0004118564450000185
输出第1个时刻的预测结果y1;将
Figure BDA0004118564450000186
输入到卷积网络,卷积网络会输出一个内部向量x′2,此时,x′2作为第2时刻的输入,输入到第一隐含层连接的隐含节点,隐含节点输出一个内部向量,记为
Figure BDA0004118564450000187
输入到第二隐含层连接的隐含节点,隐含节点输出一个内部向量,记为
Figure BDA0004118564450000188
输入到第三隐含层连接的隐含节点,隐含节点输出一个内部向量,记为
Figure BDA0004118564450000189
输出层可以基于第2时刻的隐含节点的输出
Figure BDA00041185644500001810
输出第2个时刻的预测结果y2;
Figure BDA00041185644500001811
Figure BDA00041185644500001812
类同,不再赘述。
需要说明的是,本发明实施例中,可以将相同时刻的隐含节点称为隐含单元,分析网络包括N个隐含单元。示例性地,如图5a所示,分析网络包括1层的隐含层时,每个隐含节点作为一个隐含单元;如图5b所示,分析网络包括3层的隐含层时,将相同时刻的3个隐含节点作为一个隐含单元,比如,将输出
Figure BDA00041185644500001813
的隐含节点作为1个隐含单元。
在一些可选的实现方式中,分析网络可以包括特征提取层和输出层,输出层的输出参见上文描述,不再赘述;其中,特征提取层的输入为当前时刻之前的每个时刻的预测结果和当前时刻的重建图像。
具体地,将
Figure BDA00041185644500001814
输入到卷积网络,卷积网络会输出一个内部向量x′1,此时,x′1作为第1时刻的输入,输入到特征提取层,特征提取层输出的数据输入到输出层,输出层可以输出第1时刻的预测结果y1;将
Figure BDA00041185644500001815
输入到卷积网络,卷积网络会输出一个内部向量x′2,此时,x′2和输出层输出的第1时刻的预测结果y1作为第2时刻的输入,输入到特征提取层,特征提取层输出的数据输入到输出层,输出层可以输出第2时刻的预测结果y2;
Figure BDA00041185644500001816
Figure BDA00041185644500001817
类同,不再赘述。
接下来对图5a和图5b所示的决策模型的训练过程进行描述。
其中,决策模型通过训练集训练得到。训练集中包括多个样本图像;其中,样本图像即为具有第一分辨率(高分辨)的图像。
根据一种可行的实现方式,决策模型可以采用强化学习(ReinforcementLearning,RL)的方式训练得到。
具体地,决策模型作为智能体,用于自适应地选择是否跳过当前的重建处理,从而获得最佳的恢复结果,实现感知和失真的平衡。其中,决策模型可以输出动作(Action)、输入状态、并在训练决策模型的过程中采用奖励。接下来,对动作、状态和奖励进行定义。
动作(Action):动作空间Y表示智能体可以采取的所有可能的动作。为了确定是否跳过当前的扩散过程,y被定义为一个二值变量,即:
y={0,1}
其中,0表示将当前状态传递到预测模型B1进行分布参数zθ(xt,t)的预测,1表示跳过当前的去噪处理。
状态(State):状态是指输入给智能体进行下一步决策的观测数据。这里,状态集U={Ut,t=N,...,2,1}。
如图4a所示,智能体(决策模型)的输入为重建图像,Ut可以定义为:
Figure BDA0004118564450000191
其中,yt为第t步所采取的动作,x(Ut-1)表示上一步对应的重建图像。N为总步数。采用粗糙近似xS1作为初始状态。
在另一些可能的情况下,示例性地,如图4c所示,智能体(决策模型)的输入在一些条件可以为预测模型B1的预测结果,在另一些条件可以为xS1,则Ut可以定义为:
Figure BDA0004118564450000192
其中,yt为第t步所采取的动作,μθ(Ut-1)表示上一步预测模型B1预测出的均值。N为总步数。采用粗糙近似xS1作为初始状态。
奖励(Reward):奖励函数在强化学习中是至关重要的,其作为优化目标来指导策略网络的训练。在训练过程中,智能体学习做出不同的决策轨迹,以最大化累积奖励。也就是说,智能体需要学习一个好的策略,才能生成质量最优的样本。考虑到精细跳步过程主要追求感知质量,可将奖励函数R设计为:
Figure BDA0004118564450000193
其中,M表示奖励值,M越大说明图像的质量越好。需要说明的是,由于只关心每个决策对最终重建的图像的质量的影响,所以中间决策过程的奖励都设为0,仅仅考虑最终重建的图像的质量即可。
在实际应用中,基于决策模型最后输出的预测结果,得到最终的重建图像
Figure BDA0004118564450000194
计算重建图像
Figure BDA0004118564450000195
的M,得到奖励函数R的函数值,基于该函数值训练决策模型即可。
奖励值M可以通过图像度量指标确定。图像度量指标可以包括但不限于图像感知指标和图像失真指标。其中,图像感知指标可以为NIQE、CPCQI中的一个或多个,图像失真指标可以是PSNR、SSIM、LPIPS中的一个或多个。注意,可以灵活使用其他图像度量指标(例如,GAN损失,有监督损失)作为奖励。
示例性地,奖励值M可以为如下中的任意一项或多项的和。
PSNR、SSIM的指标值、NIQE的倒数、CPCQI的倒数、LPIPS的倒数、有监督损失的倒数、GAN损失的倒数、人类评分。
其中,PSNR的计算方式如下。
若图像为单通道的图像,比如灰度图像,则可以通过
Figure BDA0004118564450000196
其中,MAXi表示可能的最大的像素值;MSE表示像素值的均方误差。
若图像为RGB图像,则可以通过如下3种方式计算PSNR。
方式1:分别计算RGB三个通道的PSNR,然后取平均值。
方式2:计算RGB三通道的MSE,然后再除以3。
方式3:将图片转化为YCbCr格式,然后只计算Y分量也就是亮度分量的PSNR。其中,YCbCr是色彩空间的一种,通常会用于影片中的影像连续处理,或是数字摄影系统中。Y为颜色的亮度(1uma)成分、而CB和CR则为蓝色和红色的浓度偏移量成份。
其中,SSIM通过
Figure BDA0004118564450000197
计算。其中,μx是x的均值,μy是y的均值,
Figure BDA0004118564450000198
是x的方差,
Figure BDA0004118564450000201
是y的方差,σxy是x和y的协方差。c1=(k1L)2,c2=(k2L)2,L表示像素值的动态范围,k1=0.01,k1=0.03。本发明实施例中,x可以为X0、y可以为
Figure BDA0004118564450000202
其中,NIQE是基于一组“质量感知”特征,并将其拟合到MVG((Model ViewController,是模型(model)-视图(view)一控制器(controller)的缩写)模型中。质量感知特征源于一个简单但高度正则化的NSS(NATURAL SCENE STATISTICS,自然图像的统计特性)模型。然后,将给定的测试图像的NIQE指标表示为从测试图像中提取的NSS特征的MVG模型与从自然图像语料中提取的质量感知特征的MVG模型之间的距离。本发明实施例中测试图像为
Figure BDA0004118564450000203
自然图像语料为上述训练集。详细的计算过程为现有技术,不再赘述。
其中,CPCQI一种基于色彩的对比度质量评估指标,考虑了五个因素,即图像对比度、清晰度、亮度、色彩和自然度。本发明实施例中,可以确定
Figure BDA0004118564450000204
的CPCQI的指标值。
其中,感知损失LPIPS是将真实图片X0卷积得到的特征图(feature)与重建图片
Figure BDA0004118564450000205
卷积得到的特征图(feature)作比较,使得高层信息(内容和全局结构)接近,也就是感知的意思。在具体实现时,需要构建卷积核,通过卷积核分别对真实图片x0和重建图片
Figure BDA0004118564450000206
进行卷积,得到真实图片X0和重建图片
Figure BDA0004118564450000207
各自的特征图(feature),计算这两个特征图(feature)的误差。误差越大则说明感知损失越大。
其中,GAN是由生成器G和判别器D组成,通过大量样本数据训练使得生成器的生成能力和判别器的判别能力在对抗中逐步提高,最终目的是让生成器G输入到生成器中生成假的样本。其中,对于判别器D,用于对输入的图片进行判断,得到判断结果,判断结果为0或者1,1表示判断输入的图片为真实的图片,0表示判断输入的图片为生成的图片;生成器将最终生成的图片的标签定义为1,将生成的图片输入到判别器D,得到判别器D的判断结果。具体过程为,对于真实图片X0,将真实图片X0输入到生成器G中,得到生成的图片
Figure BDA0004118564450000208
标签为1,接着,将生成的图片
Figure BDA0004118564450000209
输入到判别器D中,得到判断结果,判断
Figure BDA00041185644500002010
为真实图片,则判断结果为1,若判断
Figure BDA00041185644500002011
为生成图片,则判断结果为0。
GAN损失可以同时达到两个目的,第一个目的是让生成器G能够生成真实的样本,第二个目的是让判别器D能更好地区分开真实样本和生成样本。GAN的损失参见下述公式(16)。
LossGAN=log(D(x))+log(1-D(G(z)))
其中,D(x)表示判断器D对输入图片x的判断结果;G(z)表示生成器G生成的图片,D(G(z))表示判断器D对生成器G生成的图片z的判断结果。本发明实施例中,输入到判别器D的输入图片x包括真实图片x0。生成器G生成的图片z为
Figure BDA00041185644500002012
在训练过程,生成器G需要最小化损失LossGAN,判别器D需要最大化损失LossGAN
需要说明的是,本发明实施例中,生成器G可以为决策模型和重建模型A(包括预测模型A1和重建公式A2),判别器D为另外构建的网络。应当理解的是,重建模型A中仅仅需要训练预测模型A1,预测模型A1是预先训练好的。因此,生成器G的训练为对决策模型的训练。
在实际训练过程中,首先基于最大化损失LossGAN训练判别器D,在判别器D具有较好的表现时,基于最小化损失LossGAN训练生成器G中的决策模型,依次轮换训练,最终得到训练好的决策模型。
综上,本发明实施例中,训练决策模型的过程为:基于目标模型的反向过程,对样本图像依次执行W步目标处理,将最后一步目标处理后的重建图像作为待评价图像,基于图像评价指标,或者,基于图像评价指标和样本图像,对待评价图像进行评价,确定图像评价指标的指标值;基于图像评价指标的指标值,确定样本图像的奖励值;以最大化奖励值为目标训练决策模型。
需要说明的是,在图像评价指标包括PSNR、CPCQI时,具体地,基于待评价图像
Figure BDA0004118564450000211
即可确定PSNR或CPCQI的指标值。在图像评价指标包括SSIM、NIQE、感知损失LPIPS、GAN损失时,需要基于待评价图像
Figure BDA0004118564450000212
和样本图像X0比较,确定SSIM、NIQE、感知损失LPIPS或GAN损失。详细内容参见上文不再赘述。
其中,人类评分可以理解为人类看到一张图像之后进行感知决策评判所给出的主观分数。示例性地,具体实现方式可以为线下方式或者线上方式。线下方式为,设计待评价图像
Figure BDA0004118564450000213
和打分选项,得到纸质问卷,之后,到公众场所比如学校商场等发放问卷,收集各种各样的人对待评价图像
Figure BDA0004118564450000214
的分数后,将这些分数的均值、方差或标准差等作为对待评价图像
Figure BDA0004118564450000215
的奖励值M。线上方式可以为开发小程序,用户访问小程序,看到待评价图像
Figure BDA0004118564450000216
和打分选项后进行打分,小程序可以直接获取各种各样的用户对待评价图像
Figure BDA0004118564450000217
的分数后进行计算,比如,计算均值,方差,标准差等,将得到的分数作为对待评价图像
Figure BDA0004118564450000218
的奖励值M。这里,线下方式或者线上方式仅仅作为示例,在一些可能的实现方式,可以将线上方式和线下方式得到的分数取平均后得到奖励值M。
下面给出本发明实施例提供的一个具体应用。
对第一分辨率的目标加噪图x′T进行的W步的去噪处理可以分成第一重建处理和第二重建处理。其中,第一重建处理可以理解为粗糙跳步处理。第二重建处理可以理解为精细跳步处理。
在第一重建处理的过程中,基于目标模型的反向过程,S步的目标处理(包括去噪处理),确定W步中第1到第S-1步各自对应的目标步数对应的重建图像。W步中的第S-1步对应的目标步数为N,W步中的第1到第S-1中相邻的2步对应的目标步数之间的差值大于等于2,此时是一种粗糙的跳步方式,在该情况下,第一重建处理可以称为粗糙跳步处理。
在第二重建处理的过程中,在W步中第S-1步的目标处理之后,依次执行N步的目标处理;其中,N步中相邻的两步对应的目标步数的差值等于1或0。具体的,对于N步中第1步到第N步中的每步,该步的目标处理包括:判断是否跳过该步的去噪处理;在决策结果为跳过时,确定目标处理对应的目标步数为上一步的目标处理对应的目标步数;在决策结果为不跳过时,基于目标模型的反向过程,对上一步的目标处理对应的目标步数的重建图像进行去噪处理,确定上一步的目标处理对应的目标步数减1后的步数对应的重建图像。这里,相邻的两步对应的目标步数的差值等于1或0,可以认为是一种精细化的跳步方式,因此,在一些可能的实现方式中,第二重建处理也可以称为精细跳步处理。
综上,本发明实施例中,在对低分辨率的图像扩大和加噪,得到高分辨的加噪图后,基于目标模型对加噪图进行粗糙跳步的去噪处理,得到粗糙去噪后的重建图像,降低失真的可能性,接着,基于目标模型和是否跳步的决策处理对粗糙跳步后的重建图像进行精细跳步重建,可以确定T步数中0到N中任一对应的重建图像作为分辨率提升的修复图像,从而实现感知和失真平衡,并且能够降低图像重建的迭代次数。需要说明的是,发明人经过实验验证,在加噪过程,较大的采样步长能带来较低的重构误差,比如(PSNR,SSIM),即图像的失真程度较低;较小的采样步长能带来较好的感知质量(比如NIQE、LPIPS)。因此,本发明实施例通过粗糙跳步重建的方式减少步长,降低失真的可能性;通过精细化跳步重建的方式,确保图像感知效果,从而实现失真和感知的平衡。
下面结合上文描述,对该具体应用进行示例。
在反向过程中,分成两个重建处理的过程:粗糙重建处理和精细化重建处理。
在粗糙重建处理的过程中,确定W步中第1到第S-1中f1、f2、…、ft-1、ft、…、fS-1对应的T步中的步数Ss、Ss-1、…、St+1、St、…、S1;其中,St/T=ft/S。接着,基于Ss、Ss-1、…、St+1、St、…、S1对应的的噪声参数、预测模型B1和重建公式B2,对目标加噪图x′T进行s步去噪处理,得到f1、f2、…、ft-1、ft、…、fS-1对应的重建图像
Figure BDA0004118564450000221
接着,描述第二重建处理的过程。
示例性地,假设决策模型采用图4a所述的输入方式,结合图4d和图5a所示的决策模型,第二重建处理的过程为:将粗糙重建处理的过程得到的第S-1步的重建图像
Figure BDA0004118564450000222
输入到决策模型,决策模型输出第1时刻的预测结果y1,若y1=0表示不跳步,则将T步中的第N步作为目标步数R1,将重建图像
Figure BDA0004118564450000223
作为
Figure BDA0004118564450000224
若y1=1表示跳步,则将T步中的第N步作为R1,将
Figure BDA0004118564450000225
和S1输入到预测模型B1中,预测模型B1输出S1对应的分布参数
Figure BDA0004118564450000226
的参数值,假设为均值,基于分布参数
Figure BDA0004118564450000227
的参数值和重建公式B21,对重建图像
Figure BDA0004118564450000228
进行去噪处理,重建T步中第N-1(R1)步的图像,得到重建图像
Figure BDA0004118564450000229
接着,将
Figure BDA00041185644500002210
输入到决策模型,决策模型输出第2时刻的预测结果y2,若y2=0表示不跳步,则将上一步对应的目标步数R1作为目标步数R2,将重建图像
Figure BDA00041185644500002211
作为
Figure BDA00041185644500002212
若y2=1表示跳步,则将上一步对应的目标步数R1-1作为目标步数R2,将
Figure BDA00041185644500002245
Figure BDA00041185644500002246
对应的T步中的目标步数R1输入到预测模型B1中,预测模型B1输出步数R1对应的分布参数
Figure BDA00041185644500002247
的参数值,假设为均值,基于分布参数
Figure BDA00041185644500002213
和重建公式B2,对重建图像
Figure BDA00041185644500002214
进行去噪处理,重建
Figure BDA00041185644500002215
对应的T步中的目标步数R1—1(R2)的图像,得到重建图像
Figure BDA00041185644500002216
循环反复,直到得到
Figure BDA00041185644500002217
在一种可能的情况,如图4e所示,若在第二重建过程中每一步都确定不跳步,则
Figure BDA00041185644500002218
对应的目标步数RN=0,若每一步都跳步,则
Figure BDA00041185644500002219
对应的目标步数RN=N,相当于
Figure BDA00041185644500002220
若部分不跳步,则
Figure BDA00041185644500002221
对应的目标步数RN大于0小于N。
对应的,本发明实施例中,在对低分辨率的图像扩大和加噪,得到高分辨的加噪图后,基于目标模型对加噪图进行粗糙跳步的去噪处理,得到粗糙去噪后的重建图像,降低失真的可能性,接着,基于目标模型和是否跳步的决策处理对粗糙跳步后的重建图像进行精细跳步重建,可以确定T步数中0到N中任一对应的重建图像作为分辨率提升的修复图像,从而实现感知和失真平衡,并且能够降低图像重建的迭代次数。
示例性地,假设决策模型采用图4b所述的输入方式,其相对于图4a来说,区别在于,将
Figure BDA00041185644500002222
和S1输入到预测模型B1中,预测模型B1输出S1对应的分布参数
Figure BDA00041185644500002223
的参数值,假设为均值,将分布参数
Figure BDA00041185644500002224
的参数值输入到决策模型,决策模型输出第1时刻的预测结果y1,若y1=0表示不跳步,则将T步中的第N步作为目标步数R1,将重建图像
Figure BDA00041185644500002225
作为
Figure BDA00041185644500002226
若y1=1表示跳步,则基于分布参数
Figure BDA00041185644500002227
的参数值和重建公式B2,对重建图像
Figure BDA00041185644500002228
进行去噪处理,重建T步中N-1的图像,得到重建图像
Figure BDA00041185644500002229
接着,将
Figure BDA00041185644500002230
Figure BDA00041185644500002231
对应的T步中的目标步数R1输入到预测模型B1中,预测模型B1输出步数R1对应的分布参数
Figure BDA00041185644500002232
的参数值,假设为均值,将分布参数
Figure BDA00041185644500002233
的参数值输入到决策模型,决策模型输出第2时刻的预测结果y2,若y2=0表示不跳步,则将上一步对应的目标步数R1作为目标步数R2,将重建图像
Figure BDA00041185644500002234
作为
Figure BDA00041185644500002235
若y1=1表示跳步,则基于分布参数
Figure BDA00041185644500002236
和重建公式B21,对重建图像
Figure BDA00041185644500002237
进行去噪处理,重建
Figure BDA00041185644500002238
对应的T步中的目标步数R1-1(R2)的图像,得到重建图像
Figure BDA00041185644500002239
循环反复,直到得到
Figure BDA00041185644500002240
在一种可能的情况,如图4e所示,若在第二重建过程中每一步都确定不跳步,则
Figure BDA00041185644500002241
对应的目标步数RN=0,若每一步都跳步,则
Figure BDA00041185644500002242
对应的目标步数RN=N,相当于
Figure BDA00041185644500002243
若部分不跳步,则
Figure BDA00041185644500002244
对应的目标步数RN大于0小于N。
接下来基于上述人工智能主体框架,介绍本发明实施例中的一种系统架构。
参见附图7,本发明实施例提供了一种系统架构700。
数据采集设备760用于采集目标数据并存入数据库730,训练设备720基于数据库730中维护的数据集(包括样本图像)等数据生成目标模型/规则701。
下面将更详细地描述训练设备720如何基于数据集中的样本图像得到目标模型/规则701,目标模型/规则701能够预测图片的分布参数zθ(xt,t),以及决定是跳过重建。
本发明实施例中,目标模型/规则701包括预测模型和决策模型。其中,数据集包括多个样本图像。
训练预测模型B1的详细过程参加上文对预先预测模型A1的描述,不再赘述。
在一种可能的场景中,在训练决策模型时,对于每个图片样本,可以得到
Figure BDA0004118564450000231
进一步地,得到奖励值M;基于数据集中每个样本图像的奖励值M,训练决策模型。关于奖励值M的详细描述参见上文,不再赘述。
训练设备720得到的目标模型/规则701可以应用不同的系统或设备中。在附图7中,执行设备710配置有I/0接口712,与外部设备进行数据交互,“用户”可以通过客户设备740向I/0接口712输入数据。
执行设备710可以调用数据存储系统750中的数据、代码等,也可以将数据、指令等存入数据存储系统750中。
计算模块711使用目标模型/规则701对输入的数据进行处理。例如,输入的数据为具有第二分辨率的目标图像,则处理过程可以为:针对具有第二分辨率的目标图像,利用目标模型中T步的噪声参数添加噪声,得到匹配第一分辨率的目标加噪图;其中,第二分辨率低于第一分辨率;基于目标模型的反向过程,对目标加噪图依次执行W步目标处理;其中,W小于T,W步各自对应T步中的目标步数;W步中最后一步对应于T步中的第i步,i小于预设的阈值步数N;将最后一步目标处理后的重建图像确定为对所述目标图像进行分辨率提升的修复图像。具体可以参见图3和上文对图3的描述,图4a到图4e,以及,上文对4a到图4e的描述。
关联功能模块713,用于将重建模型B中的预测模型B1和重建公式B2关联,从而使得预测模型B1的输出可以直接输入到重建公式B2中,重建公式B2计算出重建图像。
关联功能模块714,用于将预测模型B1和重建公式B2和决策模型关联。在一种可能的场景,决策模型的输入为分布参数zt的参数值,使得预测模型B1的输出可以直接输入到决策模型中,决策模型在确定不跳过去噪处理时,将输入到决策模型的分布参数zt的参数值输入到重建公式A2中,重建公式A2输出重建图像。在一种可能的场景,决策模型的输入为重建图像
Figure BDA0004118564450000232
决策模型在确定不跳过去噪处理时,将重建图像
Figure BDA0004118564450000233
输入到预测模型B1中,在跳过去噪处理时,将重建图像
Figure BDA0004118564450000234
输入到决策模型。
最后,I/0接口712将处理结果返回给客户设备740,提供给用户。例如,将得到重建后的高分辨率的图像
Figure BDA0004118564450000235
提供给用户。
在附图7中所示情况下,用户可以手动指定输入执行设备710中的数据,例如,在I/0接口712提供的界面中操作。另一种情况下,客户设备740可以自动地向I/0接口712输入数据并获得结果,如果客户设备740自动输入数据需要获得用户的授权,用户可以在客户设备740中设置相应权限。用户可以在客户设备740查看执行设备710输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备740也可以作为数据采集端将采集到样本图像(用于模型训练),或输入的数据(具有第二分辨率(低分辨)的目标图像)等数据存入数据库730。
值得注意的,附图7仅是本发明实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在附图7中,数据存储系统750相对执行设备710是外部存储器,在其它情况下,也可以将数据存储系统750置于执行设备710中。
接下来,基于图7所示的系统架构,介绍本方案提供的另一种系统架构。
参见附图8,本发明实施例提供了一种系统架构800。该系统架构800包括本地设备801、本地设备802以及执行设备710和数据存储系统750,其中,本地设备801和本地设备802通过通信网络与执行设备710连接。
执行设备710由一个或多个服务器实现,可选的,与其它计算设备配合,例如:数据存储、路由器、负载均衡器等设备;执行设备710可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备710可以使用数据存储系统750中的数据,或者调用数据存储系统750中的程序代码实现本发明实施例提供的方法,比如,图3提供的方法、图4a到图4e提供的示例图。
用户可以操作各自的用户设备(例如本地设备801和本地设备802)与执行设备710进行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备710进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在一种实现中,执行设备710的一个方面或多个方面可以由每个本地设备实现,例如,本地设备801可以为执行设备710提供本地数据或反馈计算结果。
在一种实现方式中,本地设备801、本地设备802从执行设备710获取到预测模型B1和决策模型的网络参数,将预测模型和决策模型部署在本地设备801、本地设备802上,利用该预测模型和决策模型实现上文描述的本发明实施例提供的图像超分的方法。
在另一种实现中,执行设备710上可以直接部署预测模型,执行设备710通过从本地设备801和本地设备802获取具有第二分辨率(低分辨)的目标图像(本地设备801和本地设备802可以将具有第二分辨率(低分辨)的目标图像上传给执行设备710),并根据预测模型和决策模型对具有第二分辨率(低分辨)的目标图像进行图像超分,并将重建后的高分辨率的图像
Figure BDA0004118564450000241
发送给本地设备801和本地设备802。
需要注意的,执行设备710的所有功能也可以由本地设备实现。例如,本地设备801实现执行设备710的的功能并为自己的用户提供服务,或者为本地设备802的用户提供服务。
上述执行设备710也可以称为云端设备,此时执行设备710一般部署在云端。
基于与本发明方法实施例相同的构思,本发明实施例还提供了一种图像重建装置。图像重建装置包括若干个模块,各个模块用于执行本发明实施例提供的图像重建方法中的各个步骤,关于模块的划分在此不做限制。另外,各模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
示例地,图像重建装置用于执行本发明实施例提供的图像重建方法,图9是本发明实施例提供的图像重建装置的结构示意图。如图9所示,本发明实施例提供的图像重建装置,包括:
模型获取模块901,用于获取目标模型;其中,所述目标模型的训练包括反向过程,所述反向过程包括,利用预测的T步的数据分布,对具有第一分辨率的加噪样本依次进行T步去噪处理,以重构所述样本图像;
加噪模块902,用于针对具有第二分辨率的目标图像,利用采样得到的匹配第一分辨率的噪声图和目标图像上采样后匹配第一分辨率的图像,得到匹配第一分辨率的目标加噪图;其中,所述第二分辨率低于所述第一分辨率;
去噪模块903,用于基于所述目标模型的反向过程,对所述目标加噪图依次执行W步目标处理;其中,所述W小于T,所述W步各自对应所述T步中的目标步数;所述W步中最后一步对应于T步中的第i步,所述i小于预设的阈值步数N;
修复模块904,用于将所述最后一步目标处理后的重建图像确定为对所述目标图像进行分辨率提升的修复图像。
基于与本发明方法实施例相同的构思,本发明实施例还提供了一种电子设备。该电子设备也即图像重建设备。该电子设备可以为服务器、终端设备。其中,终端设备可以为手机,平板电脑,可穿戴设备,智能电视,华为智慧屏,智能音箱,车机等。电子设备可以为图7和图8示出的执行设备710,还可以为图8示出的本地设备801或本地设备802。
图10是本发明实施例提供的一种电子设备的结构示意图。
如图10所示,电子设备1000包括处理器1001、存储器1002和网络接口1003。
处理器1001可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明。
示例地,存储器1002上可以存储计算机程序,处理器1001执行计算机程序时实现上述图像重建方法实施例中的步骤,例如图3所示的步骤310至340。或者,所述处理器1001执行计算机程序时实现上述装置实施例中各模块的功能。示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在所述存储器1002中,并由所述处理器1001执行,以完成本发明。例如,计算机程序可以被分割成模型获取模块901、加噪模块902、去噪模块903、修复模块904,各模块具体功能参见上文描述。
网络接口1003用于收发数据,例如,将处理器1001处理后的数据发送至其他的电子设备,或者,接收其他的电子设备发送的数据等。
当然,为了简化,图10中仅示出了该电子设备1000中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备1000还可以包括任何其他适当的组件。
本发明实施例提供的图像重建方法,涉及人工智能技术领域。本发明实施例提供的图像重建方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现图像处理方法的应用等,但并不局限于以上形式。
本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络个人计算机(Personal Computer,PC)、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
另外,本发明实施例还可以提供了一种计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时,使得所述处理器执行本说明书上述“方法”部分中描述的本发明各种实施例的图像重建方法中的步骤。其中,所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。
此外,本发明实施例还可以提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“方法”部分中描述的根据本公开各种实施例的图像重建方法中的步骤。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
可以理解的是,在本发明的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本发明的实施例的范围。

Claims (14)

1.一种图像重建方法,其特征在于,包括:
获取目标模型;其中,所述目标模型的训练包括反向过程,所述反向过程包括,利用预测的T步的数据分布,对具有第一分辨率的加噪样本依次进行T步去噪处理,以重构所述样本图像;
针对具有第二分辨率的目标图像,利用采样得到的匹配第一分辨率的噪声图和目标图像上采样后匹配第一分辨率的图像,得到匹配第一分辨率的目标加噪图;其中,所述第二分辨率低于所述第一分辨率;
基于所述目标模型的反向过程,对所述目标加噪图依次执行W步目标处理;其中,所述W小于T,所述W步各自对应所述T步中的目标步数;所述W步中最后一步对应于T步中的第i步,所述i小于预设的阈值步数N;
将所述最后一步目标处理后的重建图像确定为对所述目标图像进行分辨率提升的修复图像。
2.根据权利要求1所述的方法,其特征在于,所述W步中的第S-1步对应的目标步数为N;
所述W步中第1到第S-1步中相邻两步对应的目标步数的差值大于等于2;或者,所述W步中第1到第S-1步对应的目标步数为预先设置的步数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标模型的反向过程,对所述目标加噪图依次执行W步目标处理,包括:
对于所述W步中第2步到第S-1步的任一步,基于所述W步中该步对应的目标步数的第一比值,对所述W步中上一步目标处理后的重建图像进行去噪处理,得到所述W步中下一步对应的目标步数的重建图像;其中,所述目标步数的第一比值为S和所述目标步数对应的所述W步的步数的差值和S的比值。
4.根据权利要求3所述的方法,其特征在于,所述目标步数对应的第一比值和所述目标步数和T的第二比值相同。
5.根据权利要求1所述的方法,其特征在于,所述W步中的第S-1步对应的目标步数为N;所述基于所述目标模型的反向过程,对所述目标加噪图依次执行W步目标处理,包括:
在所述W步中第S-1步的目标处理之后,依次执行N步的目标处理;其中,所述N步中相邻的两步对应的目标步数的差值等于1或0。
6.根据权利要求5所述的方法,其特征在于,对于所述N步中第1步到第N步中的每步,该步的目标处理包括:
基于决策模型判断是否跳过该步的去噪处理;
在所述决策模型的决策结果为跳过时,确定所述目标处理对应的目标步数为上一步的目标处理对应的目标步数;
在所述决策模型的决策结果为不跳过时,基于所述目标模型的反向过程,对上一步的目标处理对应的目标步数的重建图像进行去噪处理,确定上一步的目标处理对应的目标步数减1后的步数对应的重建图像。
7.根据权利要求6所述的方法,其特征在于,所述基于决策模型判断是否跳过该步的去噪处理,包括:
基于上一步的目标处理对应的目标步数的重建图像确定该步的观测数据;
将所述该步的观测数据输入到所述决策模型中,所述决策模型基于所述观测数据判断是否跳过该步的去噪处理。
8.根据权利要求7所述的方法,其特征在于,所述决策模型包括特征提取单元、顺序连接的N个隐含单元和输出层;其中,所述N个隐含单元分别连接所述输出层;其中,
对于N个隐含单元中位于首位的隐含单元,所述隐含单元的输入为所述特征提取单元对所述N步中第1步的观测数据处理后的数据,输出的结果输入到连接的下一个隐含节点和输出层,所述输出层输出第1次是否跳步的结果;
对于N个隐含单元中首尾之间的第i个隐含单元,所述隐含单元的输入为连接的上一个隐含单元的输出和所述特征提取单元对所述N步中第i步的观测数据处理后的数据,输出的结果输入到连接的下一个隐含节点和输出层,所述输出层输出第i次是否跳步的结果;
对于N个隐含单元中位于末位的隐含单元,所述隐含单元的输入为所述特征提取单元对第N步中第N步的观测数据处理后的数据,输出的结果输入输出层,所述输出层输出第N次是否跳步的结果。
9.根据权利要求8所述的方法,其特征在于,所述决策模型的训练包括:
基于所述目标模型的反向过程,对所述样本图像依次执行W步目标处理,将所述最后一步目标处理后的重建图像作为待评价图像;
基于图像评价指标,或者,基于图像评价指标和所述样本图像,对所述待评价图像进行评价,确定所述图像评价指标的指标值;
基于所述图像评价指标的指标值,确定所述样本图像的奖励值;
以最大化奖励值为目标训练所述决策模型。
10.一种图像重建装置,其特征在于,包括:
模型获取模块,用于获取目标模型;其中,所述目标模型的训练包括反向过程,所述反向过程包括,利用预测的T步的数据分布,对具有第一分辨率的加噪样本依次进行T步去噪处理,以重构所述样本图像;
加噪模块,用于针对具有第二分辨率的目标图像,利用采样得到的匹配第一分辨率的噪声图和目标图像上采样后匹配第一分辨率的图像,得到匹配第一分辨率的目标加噪图;其中,所述第二分辨率低于所述第一分辨率;
去噪模块,用于基于所述目标模型的反向过程,对所述目标加噪图依次执行W步目标处理;其中,所述W小于T,所述W步各自对应所述T步中的目标步数;所述W步中最后一步对应于T步中的第i步,所述i小于预设的阈值步数N;
修复模块,用于将所述最后一步目标处理后的重建图像确定为对所述目标图像进行分辨率提升的修复图像。
11.一种图像重建装置,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-9任一所述的方法。
12.一种图像重建装置,其特征在于,所述装置运行计算机程序指令,以执行如权利要求1-9任一所述的方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-9任一所述的方法。
14.一种包含指令的计算机程序产品,其特征在于,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1-9任一所述的方法。
CN202310225867.6A 2023-02-28 2023-02-28 图像重建方法、装置和计算机存储介质 Pending CN116309056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310225867.6A CN116309056A (zh) 2023-02-28 2023-02-28 图像重建方法、装置和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310225867.6A CN116309056A (zh) 2023-02-28 2023-02-28 图像重建方法、装置和计算机存储介质

Publications (1)

Publication Number Publication Date
CN116309056A true CN116309056A (zh) 2023-06-23

Family

ID=86788244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310225867.6A Pending CN116309056A (zh) 2023-02-28 2023-02-28 图像重建方法、装置和计算机存储介质

Country Status (1)

Country Link
CN (1) CN116309056A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993770A (zh) * 2023-08-16 2023-11-03 哈尔滨工业大学 一种基于残差扩散模型的图像分割方法
CN117115108A (zh) * 2023-08-24 2023-11-24 国网北京市电力公司 图像异常检测方法、装置及电子设备
CN117173035A (zh) * 2023-07-28 2023-12-05 华为技术有限公司 一种数据处理方法及其装置
WO2025118382A1 (zh) * 2023-12-08 2025-06-12 中国科学院深圳先进技术研究院 能谱图像处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210110517A1 (en) * 2019-10-09 2021-04-15 Siemens Healthcare Gmbh Method and device for noise reduction in image recordings
CN113920013A (zh) * 2021-10-14 2022-01-11 中国科学院深圳先进技术研究院 一种基于超分辨率的小图像多目标检测方法
CN115409733A (zh) * 2022-09-02 2022-11-29 山东财经大学 一种基于图像增强和扩散模型的低剂量ct图像降噪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210110517A1 (en) * 2019-10-09 2021-04-15 Siemens Healthcare Gmbh Method and device for noise reduction in image recordings
CN113920013A (zh) * 2021-10-14 2022-01-11 中国科学院深圳先进技术研究院 一种基于超分辨率的小图像多目标检测方法
CN115409733A (zh) * 2022-09-02 2022-11-29 山东财经大学 一种基于图像增强和扩散模型的低剂量ct图像降噪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAMING SONG: "DENOISING DIFFUSION IMPLICIT MODELS", pages 1 - 22, Retrieved from the Internet <URL:https://arxiv.org/abs/2010.02502v4> *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173035A (zh) * 2023-07-28 2023-12-05 华为技术有限公司 一种数据处理方法及其装置
CN116993770A (zh) * 2023-08-16 2023-11-03 哈尔滨工业大学 一种基于残差扩散模型的图像分割方法
CN116993770B (zh) * 2023-08-16 2024-05-28 哈尔滨工业大学 一种基于残差扩散模型的图像分割方法
CN117115108A (zh) * 2023-08-24 2023-11-24 国网北京市电力公司 图像异常检测方法、装置及电子设备
WO2025118382A1 (zh) * 2023-12-08 2025-06-12 中国科学院深圳先进技术研究院 能谱图像处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Kumar et al. Videoflow: A flow-based generative model for video
CN113705769B (zh) 一种神经网络训练方法以及装置
CN113570029B (zh) 获取神经网络模型的方法、图像处理方法及装置
CN112308200B (zh) 神经网络的搜索方法及装置
CN111914997B (zh) 训练神经网络的方法、图像处理方法及装置
Rahmon et al. Motion U-Net: Multi-cue encoder-decoder network for motion segmentation
CN116309056A (zh) 图像重建方法、装置和计算机存储介质
US20200160065A1 (en) Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
CN111507378A (zh) 训练图像处理模型的方法和装置
CN118710571A (zh) 图像增强方法以及图像增强装置
CN111667399A (zh) 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN115457015B (zh) 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置
CN113011562A (zh) 一种模型训练方法及装置
CN114266897B (zh) 痘痘类别的预测方法、装置、电子设备及存储介质
CN112257759A (zh) 一种图像处理的方法以及装置
CN109168003B (zh) 一种生成用于视频预测的神经网络模型的方法
CN114529899A (zh) 用于训练卷积神经网络的方法和系统
CN112597847B (zh) 人脸姿态估计方法、装置、电子设备和存储介质
CN120226020A (zh) 用于机器学习的前向-前向训练
US20250157213A1 (en) Method and apparatus with image-quality assessment
CN113066018A (zh) 一种图像增强方法及相关装置
CN116452472B (zh) 基于语义知识引导的低照度图像增强方法
CN117710875A (zh) 一种车辆状态识别方法及装置
CN110489584B (zh) 基于密集连接的MobileNets模型的图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination