CN117036906A

CN117036906A - 一种基于生成对抗神经网络压缩的图像翻译方法和装置

Info

Publication number: CN117036906A
Application number: CN202311019433.7A
Authority: CN
Inventors: 宫禄齐; 李超; 刁博宇
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-11
Filing date: 2023-08-14
Publication date: 2023-11-10
Also published as: CN115660070A

Abstract

一种基于gan神经网络压缩的图像翻译方法和装置，其方法包括：(1)装置配置、初始化：从图像翻译程序中获取将要压缩的生成对抗网络(未压缩网络)，并将其作为教师网络，设置压缩率、参数规模的超参数；(2)构建最大学生网络模型并预训练；(3)学生网络模型剪枝；(4)学生网络模型蒸馏；(5)用学生网络模型执行图像翻译算法，获得翻译后的图像。本发明可以保证在图像翻译质量不下降的前提下，压缩图像翻译算法的参数量，进而减少图像翻译程序的硬件占用空间。

Description

一种基于生成对抗神经网络压缩的图像翻译方法和装置

技术领域

本发明属于人工智能领域，具体涉及一种基于生成对抗神经网络压缩的图像翻译方法和装置，更具体说，面向由生成对抗神经网络实现的图像翻译任务，进行网络模型压缩优化，达到优化图像翻译程序的目的。

背景技术

当下在图像翻译、图像生成、图像转换、数据增强领域，生成对抗神经网络(gan)模型取得了广泛的应用，并获得了巨大的成功。其中，使用gan网络实现的图像翻译任务中，生成对抗神经网络巨大的模型规模决定着其包含巨大的参数量、计算量。与此同时，边缘智能技术将人工智能算法模型融入边缘计算，将智能算法部署在边缘设备,作为更快更好地提供智能服务的一种服务模式，已逐渐渗入各行各业。

综上所述，将图像翻译程序中的gan网络模型部署在边缘设备上面临着计算、存储、能耗资源受限的挑战：边缘设备的计算、存储能力往往远小于专用服务器，无法满足图像翻译任务训练、推理所需。除此之外，部分边缘设备采用蓄电池等小型供电设备，无法满足计算所需的能耗。例如：NVIDIA的AI嵌入式设备Jetson TX2拥有256个CUDA核心、8G内存、7.5W能耗；而NVIDIA 1080TI GPU拥有3584个CUDA核心，11G显存，二者有很大性能差异。

对图像翻译任务中的gan网络模型进行压缩后再部署是解决图像翻译任务面临的难部署、推理慢挑战的有效方法。压缩后的模型对设备的计算、存储、能耗资源需求降低很多，同时推理的效果不受太大影响。

往常，面向传统图像识别任务的通用模型压缩方法由两步构成：1.精细网络结构设计与修剪；2.精细网络表现提升。其中，精细网络结构设计与修剪的常见方法有如下几类：手工设计、量化、剪枝、自动机器学习、网络分解；精细网络表现提升的常见方法有：重训练、知识蒸馏。

对于精细网络结构设计与修剪：手工设计网络常用于卷积层结构设计、需要大量经验和试错、普适性差；量化通常会导致精度大幅度损失；自动机器学习的假设空间通常非常大，需要强大的计算资源；网络分解方法普适性差。剪枝方法是最常用的精细网络设计与修剪方法。对于精细网络表现提升：经过重训练后的模型表现通常差于知识蒸馏方法，知识蒸馏方法是最常用的精细网络表现提升方法。

知识蒸馏的基本思想是通过软化的softmax目标变换学习教师网络输出的类别分布，将大型网络模型(压缩前教师网络)的知识精炼为小型网络模型(压缩后学生模型)的知识。该方法的表现较稳定、有完备的数学理论基础，是较常用的表现提升方法。

模型剪枝的基本思想是寻找一种有效的评判手段来判断参数或卷积核的重要性，将不重要的连接或者卷积核进行裁剪来减少模型的冗余。常见的模型剪枝分为结构化剪枝和非结构化剪枝。以卷积神经网络为例，非结构化剪枝的修剪维度是卷积核中的单个连接，结构化剪枝的修剪维度是整个卷积核。

以上技术常用于传统卷积神经网络和其他深度学习模型中，并取得了优异的表现。以上的模型压缩方法由于以下原因，难以直接运用到图像翻译任务的gan网络模型中：

1.图像翻译任务中的gan网络模型和图像识别任务中的卷积神经网络模型实现机理不同、网络结构不同，直接使用图像识别任务中的卷积神经网络剪枝算法，取得的效果较差，精度损失严重。

2.面向图像翻译任务的gan网络模型损失函数收敛不稳定，难以训练，难以直接应用重训练方法进行精细网络表现提升。

3.图像翻译任务的输出为图像，不是逻辑向量输出，传统知识蒸馏通常针对逻辑向量输出，这导致传统知识蒸馏方法难以直接应用。

发明内容

本发明要解决上述现有卷积神经网络模型压缩技术难以直接应用在面向图像翻译任务的gan网络模型中的问题，提出了一种基于生成对抗神经网络压缩的图像翻译方法和装置。本发明的目的可以通过本发明中的中间层蒸馏、关系蒸馏、结构化剪枝等方法来达到。

一种基于生成对抗神经网络压缩的图像翻译方法，包括如下步骤：

(1)装置配置、初始化：从图像翻译程序中获取将要压缩的生成对抗网络，并将其命名为教师网络。设置压缩率、参数规模超参数；

(2)复制教师网络，将复制的网络命名为最大学生网络模型，修改最大学生网络模型的网络结构，再通过梯度算法对最大学生网络进行微调训练，得到训练后的学生网络模型；

(3)将训练后的学生网络模型进行剪枝，得到剪枝后的学生网络模型；

(4)将剪枝后的学生网络模型进行蒸馏，得到蒸馏后的学生网络模型；

(5)用学生网络模型带入到图像翻译程序，执行图像翻译算法，获得翻译后的图像。

进一步，步骤(1)从任意现有图像翻译程序中剥离出生成对抗网络，或使用任意开源社区中图像翻译任务的预训练生成对抗网络来作为教师网络，该gan教师网络作为整个方法流程的输入，同时输入压缩率f、参数规模超参数。

进一步，步骤(2)如图4所示，复制教师网络，将复制的网络命名为最大学生网络模型，但修改最大学生网络模型的以下部分：

(2.1)修改网络的残差块结构：

(2.2)降低网络宽度：将网络每层卷积层按比例进行缩减；

(2.3)增加网络的残差块层数。

步骤(2.1)具体包括：将教师网络中的标准残差块中目前的三个卷积层替换为特制的三个卷积层，其由膨胀卷积层、深度卷积层、线性映射层组成。其中，膨胀卷积层：卷积核尺寸为1*1，作用为将输入特征的通道数增加，从低维空间映射到高维空间，便于在高维空间提取输入待翻译图像特征；深度卷积层：卷积核尺寸为3*3。该层为组卷积层，分组数目等于该卷积层输入通道数目；线性映射层：卷积核尺寸为1*1。该改动使得图像翻译任务中，将输入图像的特征通道数降低，从高维空间映射到低维空间，便于后续层的处理；

以原始网络中的残差块的输入、输出通道数为128为例，标准残差块卷积层的参数量为：128*128*3*3＝147456。经过上述修改操作，特制残差块卷积层的参数量为：128*128*2*1*1+128*2*3*3+128*2*128*1*1＝67840，该修改操作使得残差块达到两倍以上参数量压缩效果；

步骤(2.3)具体包括：增加网络残差块数目，达到增加整体网络深度的目的。以用于图像翻译的生成对抗网络cyclegan为例，教师网络的网络中共有18层残差块，学生网络的网络中可增加为24层残差块；在步骤(2.1)、步骤(2.2)中减少模型宽度的同时步骤(2.3)增加模型深度，避免网络的表达能力下降。

上述操作做完后，将修改结构后的最大学生网络模型结构通过梯度算法进行微调训练，得到训练后的学生网络模型。微调过程中，先进行前向传播，再进行反向传播。前向传播通过训练数据和权重参数计算输出损失函数的结果，反向传播通过链式法则计算损失函数对各参数的梯度，并根据梯度进行参数的更新。该微调训练的损失函数使用原始图像翻译程序中的训练部分的损失函数，这里将gan神经网络的输出输入给该损失函数，计算出损失值Loss。使用反向传播算法更新待微调网络的参数θ，降低上述Loss的值，达到更新学生网络模型权重的目的，上述操作的更新公式为：

将学生网络中的全部网络更新前的参数θ替换为更新后的参数θ′，得到微调训练后的学生网络。

进一步，步骤(3)使用的剪枝方法为结构化剪枝方法，用于对卷积层进行卷积核维度修剪，即以卷积核为剪枝的最小单位，每次剪枝都剪掉整数个卷积核。对于同一个卷积层中的所有卷积核，计算卷积核之间的几何距离，两个几何距离近的卷积核简化为一个卷积核表示。

再进一步，步骤(3)针对图像翻译任务设计了面向gan网络模型的剪枝算法，具体包括：

定义几何中心的概念：在一个d维的空间中，给定一个点集，a₁,a₂,…,a_n，在该空间中找到一个点a^*，使得该点到各个点的距离和最小，a^*就是这个d维空间的几何中心；

(3.1)计算卷积层的几何中心：卷积核的权重是一个四维张量，把该张量展平，得到展平后的卷积核，是个一维向量。把展平后的一维向量卷积核抽象成欧氏空间中的点，对于网络中的每一层，在该层的卷积核空间中，计算几何中心，也是该层的卷积核权重中心。如果某个卷积核接近于这个几何中心，可以认为这个卷积核的信息跟其他卷积核重合，甚至是冗余的，于是能移除这个卷积核而不对网络产生大的影响；设某层卷积层的输入通道维度为C_in，输出通道维度为C_out，卷积核尺寸为k，输入特征图高度为w，宽度为h，输入特征图尺寸为权重参数为该层共有C_out个卷积核，第i个卷积核的权重参数为假设压缩比例为f，则需要去掉f×c_out个卷积核，压缩后剩余的目标卷积核数目为(1-f)×c_out个；针对某一层卷积层，计算该卷积层所有卷积核的几何中心W^*：

(3.2)计算该卷积层所有卷积核W＝[W₁,W₂,…,W_cout]与几何中心W^*的L2距离d＝[d₁,d₂,…,d_cout]，其中：

dⁱ＝‖Wⁱ-W^*‖₂ (4)

(3.3)移除该卷积层中冗余的卷积核：设函数Top(d,(1-f)×c_out)为取数字列表d＝[d₁,d₂,…,d_cout]中最大的(1-f)×c_out个值的函数，返回值为一个长度为(1-f)×c_out的有序递减的列表，取列表最后一个值作为阈值t，即：

t＝Top(d,(1-f)×c_out)[(1-f)×c_out-1] (5)

去掉所有卷积核W＝[W₁,W₂,…,W_cout]中与几何中心W^*的L2距离d＝[d₁,d₂,…,d_cout]小于阈值t的卷积核，得到的裁剪后的新卷积核为：

用裁剪后的新卷积核来代替原来的卷积核

该卷积层的卷积核压缩后参数量减少为压缩前卷积核的(1-f)。

进一步，步骤(4)包括：

设教师网络共有L_tea层需要蒸馏，需要蒸馏的层号组合为N_tea＝[n₁,n₂,…,n_Ltea]；设学生网络共有L_stu层需要蒸馏，需要蒸馏的层号组合为N_stu＝[n₁,n₂,…,n_Lstu]，上述剪枝后的学生网络和教师网络需要蒸馏的层号组合长度一致并且一一对应；设教师网络第N_tea[i]层卷积核的输入通道数为C_teain，输出通道数为C_teaout；该层的输出特征图为同理，剪枝后的学生网络的第N_stu[i]层卷积核的输入通道数为C_stuin，输出通道数为C_stuout；该层的输出特征图为利用特征图知识蒸馏方法将教师网络的第N_tea[i]层的知识传给剪枝后的学生网络的第N_stu[i]层，令剪枝后的学生网络的第N_stu[i]层的输出特征图和教师网络的第N_tea[i]层的输入特征图匹配即可；由于剪枝后的学生网络的第N_stu[i]层的输出通道数和教师网络的第N_tea[i]层的输出通道数通常不一致，故需要进行对齐维度；这里使用一个卷积层(Conv2D)进行对齐操作，将F_stu[i]输入卷积层经过卷积操作后，卷积层的输出记为最终剪枝后的学生网络的输出通道数由stuout转换为teaout，和教师网络对应层的输出通道数一致；

F′_stu[i]＝Conv2D(F_stu[i],stuout,teaout) (7)

损失函数设计：这里使用MSE损失函数将F′_stu[i]和F_tea[i]对齐，公式如下所示：

Loss＝‖F′_stu[i]-F_tea[i]‖₂ (8)

固定教师网络的参数不动，使用反向传播算法更新学生网络的参数θ，降低上述损失函数，达到更新学生网络模型权重的目的，更新公式为：

将学生网络中的全部网络更新前的参数θ替换为更新后的参数θ′，得到蒸馏后的学生网络。

进一步，步骤(5)包括：

将步骤(4)获得的学生网络模型(压缩后的网络)带入到图像翻译任务推理程序中，在程序中替换原始图像翻译任务中的教师网络模型(压缩前的网络)，获得新的图像翻译程序。对该图像翻译程序输入图像，运行图像翻译任务，获得翻译后的图像。

本发明的第二方面涉及一种基于生成对抗神经网络压缩的图像翻译装置，包括：

图像翻译生成对抗网络获取模块，用于获得将要压缩的图像翻译生成对抗网络，并将其作为教师网络；

最大学生网络模型构建预训练模块，用于构建最大学生网络模型并预训练；

学生图像翻译网络模型剪枝模块，用于学生图像翻译网络模型剪枝；

学生图像翻译网络模型蒸馏模块，用于学生图像翻译网络模型蒸馏。

图像翻译任务推理程序模块，用于运行包含压缩后对抗生产网络模型的图像翻译程序。

本发明的第三个方面涉及一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的一种基于生成对抗神经网络压缩的图像翻译方法，用于优化图像翻译任务中生成对抗网络在计算机中的存储空间，从而达到将图像翻译程序部署到边缘智能设备的目的。

本发明的工作原理是：

(1)构建学生网络时对图像翻译任务神经网络中的标准残差块网络结构进行优化：选取特制的三个卷积层进行替换，分别为：膨胀卷积层、深度卷积层、线性映射层。不影响原有的性能，同时降低图像翻译网络模型的参数量。

(2)对构建好的学生图像翻译网络进行结构化剪枝：将卷积核抽象成欧式空间内的点，通过设置距离阈值来对卷积核进行删减，进一步的降低网络模型的参数量。

(3)通过知识蒸馏方法将教师图像翻译网络的知识传授给上述得到的学生图像翻译网络，完成不损失模型能力的情况下模型参数的减少。

本发明的优点是：针对由生成对抗网络组成的图像翻译任务，能够在不损失效果的情况下，将原生成对抗神经网络替换为参数更小的网络。获得压缩后的生成对抗网络后，将压缩后的网络替换压缩前的网络，可以直接用于图像翻译任务推理程序中，使得图像翻译任务能够顺利部署在资源受限的物端平台上，并快速推理运行。本发明可以保证在图像翻译质量不下降的前提下，压缩图像翻译算法的参数量，进而减少图像翻译程序的硬件占用空间。本发明还可以起到压缩图像翻译程序计算量的作用，进而缩减图像翻译程序执行时间，达到图像翻译程序优化加速的效果。上述存储空间和执行时间的优化使得图像翻译程序能够在资源受限的物端平台上顺利部署并快速运行。

附图说明

图1是本发明方法的流程图。

图2是本发明装置的结构图。

图3a—图3b展示由本发明方法压缩后的基于cyclegan′的图像翻译程序与未压缩的基于cyclegan的图像翻译程序所生成的图片的结果对比，其中图3a是未经压缩的cyclegan图像翻译程序所生成图片，图3b是由本发明方法压缩后的cyclegan′图像翻译程序所生成的图片。

图4是学生网络残差块修改后的结构示意图。

图5a—图5b展示图像翻译任务的直观效果，其中图5a为原始图片，图5b是由基于pix2pix模型的图像翻译程序进行风格迁移后图片。

具体实例方法

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合实施例。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

如图1，本实施例提供一种基于生成对抗神经网络压缩的图像翻译方法，包括如下步骤：

步骤(1)从任意现有图像翻译程序中剥离出生成对抗网络，或使用任意开源社区中图像翻译任务的预训练生成对抗网络来作为教师网络，该gan教师网络作为整个方法流程的输入，同时输入压缩率f、参数规模超参数。

步骤(2)如图4所示，复制教师网络，将复制的网络命名为最大学生网络模型，但修改最大学生网络模型的以下部分：

(2.1)修改网络的残差块结构：

(2.2)降低网络宽度：将网络每层卷积层按比例进行缩减；

(2.3)增加网络的残差块层数。

步骤(3)使用的剪枝方法为结构化剪枝方法，用于对卷积层进行卷积核维度修剪，即以卷积核为剪枝的最小单位，每次剪枝都剪掉整数个卷积核。对于同一个卷积层中的所有卷积核，计算卷积核之间的几何距离，两个几何距离近的卷积核简化为一个卷积核表示。

步骤(3)针对图像翻译任务设计了面向gan网络模型的剪枝算法，具体包括：

dⁱ＝‖Wⁱ-W^*‖₂ (4)

t＝Top(d,(1-f)×c_out)[(1-f)×c_out-1] (5)

用裁剪后的新卷积核来代替原来的卷积核该卷积层的卷积核压缩后参数量减少为压缩前卷积核的(1-f)。

步骤(4)包括：

F′_stu[i]＝Conv2D(F_stu[i],stuout,teaout) (7)

Loss＝‖F′_stu[i]-F_tea[i]‖₂ (8)

步骤(5)包括：

本实施例提供了一种应用本发明的软件安装应用场景。本实例的图像翻译程序中的模型是生成对抗网络cyclegan，该gan网络将马/斑马图像作为输入，经过图像翻译程序生成斑马/马的图像。

如图3a和图3b，本实例应用于horse2zebra数据集中，cyclegan为压缩前网络(教师网络)，其具有11.378M参数量、56.832G计算量，其图像翻译质量指标(FID)值为61.53。对该该网络使用本方法进行压缩，压缩后的cyclegan′网络(学生网络)具有0.266M参数量、1.947G计算量，压缩后得到的图像翻译网络的评价指标(FID)值为62.776。压缩前后模型具体参数如下表所示：

通过本实施例的方法，在工业中广泛使用的图像翻译程序中的cyclegan模型参数量压缩43倍，模型计算量压缩29倍，模型的表现能力(指标为FID)几乎没有下降，压缩后的cyclegan′生成的图片与原cyclegan网络生成的图片，见图1，用肉眼难以分辨。

实施例二

本实施例提供一种应用本发明的软件安装应用场景，该功能效果可见图5，其主要使用图像翻译程序中的Pix2pix模型来进行实现，该模型是gan模型的一种，软件初始化时Pix2pix模型包含在图像翻译软件内。完整的Pix2pix模型的参数为11.38M，该大小要求了软件安装所需要的空间。为解决目前软件安装空间过大问题，便可应用该发明，其步骤包括：

(1)从图像翻译软件中剥离原始未压缩的生成对抗网络，并将其命名为教师网络，设置超参数压缩率为f。

(2)将教师网络整体复制一份，命名为最大学生网络模型，但修改最大学生网络模型的以下部分：：

(2.1)修改网络的残差块结构：

将教师网络(Pix2pix模型)中的标准残差块中的卷积层替换为特制的三个卷积层，其由膨胀卷积层、深度卷积层、线性映射层组成。其中，膨胀卷积层：卷积核尺寸为1*1，作用为将输入特征的通道数增加，从低维空间映射到高维空间，便于在高维空间提取特征。深度卷积层：卷积核尺寸为3*3。该层为组卷积层，分组数目等于该卷积层输入通道数目。线性映射层：卷积核尺寸为1*1。将特征的通道数降低，从高维空间映射到低维空间，便于后续层的处理。

(2.2)降低网络宽度：将网络每层卷积层按比例进行缩减，具体比例系数可由使用者定义。

(2.3)增加网络残差块层数，达到增加整体网络深度的目的：具体增加数量可由使用者定义。在减少模型宽度的同时增加模型深度，避免网络的表达能力下降。

(3)学生网络模型(Pix2pix′模型)剪枝：使用的剪枝方法为结构化剪枝方法，用于对卷积层进行卷积核维度修剪，即以卷积核为剪枝的最小单位，每次剪枝都剪掉整数个卷积核。将训练后的学生网络作为输入，对其同一个卷积层中的所有卷积核，计算卷积核之间的几何距离，两个几何距离近的卷积核可以简化为一个卷积核表示。

(3.1)计算卷积层的几何中心：把展平后的一维向量卷积核抽象成欧氏空间中的点，对于网络中的每一层，在该层的若干卷积核空间中，计算几何中心，也是该层的卷积核权重中心,按照公式(2)进行计算。如果某个卷积核权重接近于这个几何中心，可以认为这个卷积核的信息跟其他卷积核重合，甚至是冗余的，于是可以移除这个卷积核而不对网络产生大的影响。设某层卷积层的输入通道维度为C_in，输出通道维度为C_out，卷积核尺寸为k，输入特征图高度为w，宽度为h，输入特征图尺寸为权重参数为该层共有C_out个卷积核，第i个卷积核的权重参数为假设压缩比例为f，则需要去掉f×c_out个卷积核，压缩后剩余的目标卷积核数目为(1-f)×c_out个。

(3.2)按照公式(3)计算该卷积层所有卷积核W＝[W₁,W₂,…,W_cout]与几何中心W^*的L2距离d＝[d₁,d₂,…,d_cout]。

(3.3)移除该卷积层中冗余的卷积核：设函数Top(d,(1-f)×c_out)为取数字列表d＝[d₁,d₂,…,d_cout]中最大的(1-f)×c_out个值的函数，返回值为一个长度为(1-f)×c_out的有序递减的列表，取列表最后一个值作为阈值t，即公式(4)。去掉所有卷积核W＝[W₁,W₂,…,W_cout]中与几何中心W^*的L2距离d＝[d₁,d₂,…,d_cout]小于阈值t的卷积核，得到的裁剪后的新卷积核。

用裁剪后的新卷积核来代替原来的卷积核明显看出，该卷积层的卷积核压缩后参数量减少为压缩前卷积核的(1-f)。

(4)学生网络模型蒸馏:由于剪枝更改了网络结构，故直接使用剪枝前的网络的对应权重会导致精度丢失严重的问题。为解决该问题，提出多层知识蒸馏算法提升网络表现，使得剪枝后的小网络的模型精度照剪枝前的大网络的模型精度不会有太大下滑。设教师网络共有L_tea层需要蒸馏，需要蒸馏的层号组合为N_tea＝[n₁,n₂,…,n_Ltea]；设剪枝后的学生网络共有L_stu层需要蒸馏，需要蒸馏的层号组合为N_stu＝[n₁,n₂,…,n_Lstu]，剪枝后的学生网络和教师网络需要蒸馏的层号组合长度一致并且一一对应。设教师网络第N_tea[i]层卷积核的输入通道数为C_teain，输出通道数为C_teaout。该层的输出特征图为同理，剪枝后的学生网络的第N_stu[i]层卷积核的输入通道数为C_stuin，输出通道数为C_stuout。该层的输出特征图为利用特征图知识蒸馏方法将教师网络的第N_tea[i]层的知识传给剪枝后的学生网络的第N_stu[i]层，令剪枝后的学生网络的第N_stu[i]层的输出特征图和教师网络的第N_tea[i]层的输入特征图匹配即可。由于剪枝后的学生网络的第N_stu[i]层的输出通道数和教师网络的第N_tea[i]层的输出通道数通常不一致，故需要进行对齐维度。这里使用一个卷积层(Conv2D)进行对齐操作，将F_stu[i]输入卷积层经过卷积操作后，卷积层的输出记为剪枝后的学生网络的输出通道数由stuout转换为teaout，和教师网络对应层的输出通道数一致。

损失函数设计：使用MSE损失函数将F′_stu[i]和F_tea[i]对齐，公式(7)所示。使用反向传播算法降低损失函数来优化学生网络模型权重。

使用梯度算法降低上述损失函数，达到更新学生网络权重的目的，得到蒸馏后的学生网络模型。

(5)获得蒸馏后pix2pix学生网络(参数为0.51M，在map->arial photo数据集上图像翻译质量FID基本不变)。将该模型带入到图像翻译推理程序中替代原pix2pix网络，即在软件安装文件中进行模型替换可完成软件安装空间需求的降低，从而获得新的图像翻译程序。对该图像翻译程序输入图像，运行图像翻译程序，可以自动生成翻译后的图像。

本发明的目的是解决现有的图像翻译程序由于使用了计算量大、参数量大的生成对抗网络，难以部署到物端边缘设备，难以实现实时推理的问题。同时深度学习中的卷积神经网络模型压缩技术，如剪枝,量化难以直接应用在生成对抗网络模型中，本发明提出了一种基于生成对抗神经网络压缩的图像翻译方法，能够有效的减少图像翻译程序网络的参数量与计算量。涉及人工智能领域，具体涉及图像翻译领域。对图像翻译程序的实际应用与部署有着重要意义。通过本方法，在工业中广泛使用的cyclegan模型参数量压缩43倍，模型计算量压缩29倍，模型的表现能力(FID)几乎没有下降，压缩后的cyclegan'生成的图片与原cyclegan网络生成的图片用肉眼难以分辨。

实施例三

参照图2，本发明的一种基于生成对抗神经网络压缩的图像翻译装置，实现实施例1的一种基于生成对抗神经网络压缩的图像翻译方法，包括：

图像翻译生成对抗网络获取模块，用于获得图像翻译程序中压缩前的生成对抗网络，并将其作为教师图像翻译网络；

学生图像翻译网络模型剪枝模块，用于预训练后学生图像翻译网络模型剪枝；

学生图像翻译网络模型蒸馏模块，用于剪枝后学生图像翻译网络模型蒸馏。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现实施例1的一种基于生成对抗神经网络压缩的图像翻译方法，用于优化图像翻译程序在计算机中的存储空间。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于gan神经网络压缩的图像翻译方法，包括如下步骤：

(1)装置配置、初始化：从图像翻译程序中获取将要压缩的生成对抗网络，并将其命名为教师网络，设置压缩率、参数规模的超参数；

(5)用蒸馏后的学生网络模型带入到图像翻译程序，执行图像翻译算法，获得翻译后的图像。

2.如权利要求1所述的一种基于gan神经网络压缩的图像翻译方法，其特征在于，步骤(1)从任意现有图像翻译程序中剥离出生成对抗网络，或使用任意开源社区中图像翻译任务的预训练生成对抗网络来作为教师网络，该gan教师网络作为整个方法流程的输入，同时输入压缩率f、参数规模的超参数。

3.如权利要求1所述的一种基于gan神经网络压缩的图像翻译方法，其特征在于，步骤(2)复制教师网络一份，将复制的网络命名为最大学生网络模型，修改最大学生网络模型的网络结构，包括：

(2.1)修改网络的残差块结构：

(2.2)降低网络宽度：将主干网络每层卷积层按比例进行缩减；

(2.3)增加网络的残差块层数。

将修改结构后的最大学生网络模型结构通过梯度算法进行微调训练，得到训练后的学生网络模型。微调过程中，先进行前向传播，再进行反向传播。前向传播通过训练数据和权重参数计算输出损失函数的结果，反向传播通过链式法则计算损失函数对各参数的梯度，并根据梯度进行参数的更新。

4.如权利要求3所述的一种基于gan神经网络压缩的图像翻译方法，其特征在于，步骤(2.1)具体包括：将教师网络中的标准残差块中目前的三个卷积层替换为特制的三个卷积层，其由膨胀卷积层、深度卷积层、线性映射层组成，其中，膨胀卷积层：卷积核尺寸为1*1，作用为将输入特征的通道数增加，从低维空间映射到高维空间，便于在高维空间提取输入待翻译图像特征；深度卷积层：卷积核尺寸为3*3；该层为组卷积层，分组数目等于该卷积层输入通道数目；线性映射层：卷积核尺寸为1*1；该改动使得图像翻译任务中，将输入图像的特征通道数降低，从高维空间映射到低维空间，便于后续层的处理；

步骤(2.3)具体包括：增加网络残差块数目，在步骤(2.1)、步骤(2.2)中减少模型宽度的同时步骤(2.3)增加模型深度，避免网络的表达能力下降。

5.如权利要求1所述的一种基于gan神经网络压缩的图像翻译方法，其特征在于，步骤(3)使用的剪枝方法为结构化剪枝方法，将训练后的学生网络作为输入，对其卷积层进行卷积核维度修剪，即以卷积核为剪枝的最小单位，每次剪枝都剪掉整数个卷积核，对于同一个卷积层中的所有卷积核，计算卷积核之间的几何距离，两个几何距离近的卷积核简化为一个卷积核表示。

6.如权利要求5所述的一种基于gan神经网络压缩的图像翻译方法，其特征在于，步骤(3)针对图像翻译任务设计了面向gan网络模型的剪枝算法，具体包括：

(3.1)计算卷积层的几何中心：卷积核的权重是一个四维张量，把该张量展平，得到展平后的卷积核，是个一维向量，把展平后的一维向量卷积核抽象成欧氏空间中的点，对于网络中的每一层，在该层的若干卷积核空间中，计算几何中心，也是该层的卷积核权重中心；如果某个卷积核权重接近于这个几何中心，这个卷积核的信息跟其他卷积核重合，是冗余的，移除这个卷积核而不对网络产生大的影响；设某层卷积层的输入通道维度为C_in，输出通道维度为C_out，卷积核尺寸为k，输入特征图高度为w，宽度为h，输入特征图尺寸为权重参数为该层共有C_out个卷积核，第i个卷积核的权重参数为假设压缩比例为f，则需要去掉f×c_out个卷积核，压缩后剩余的目标卷积核数目为(1-f)×c_out个；针对某一层卷积层，计算该卷积层所有卷积核的几何中心W^*：

dⁱ＝‖Wⁱ-W^*‖₂ (4)

t＝Top(d,(1-f)×c_out)[(1-f)×c_out-1] (5)

7.如权利要求1所述的一种基于gan神经网络压缩的图像翻译方法，其特征在于，步骤(4)包括：

设教师网络共有L_tea层需要蒸馏，需要蒸馏的层号组合为N_tea＝[n₁,n₂,…,n_Ltea]；设剪枝后的学生网络共有L_stu层需要蒸馏，需要蒸馏的层号组合为N_stu＝[n₁,n₂,…,n_Lstu]，上述剪枝后的学生网络和教师网络需要蒸馏的层号组合长度一致并且一一对应；设教师网络第N_tea[i]层卷积核的输入通道数为C_teain，输出通道数为C_teaout；该层的输出特征图为同理，学生网络的第N_stu[i]层卷积核的输入通道数为C_stuin，输出通道数为C_stuout；该层的输出特征图为利用特征图知识蒸馏方法将教师网络的第N_tea[i]层的知识传给学生网络的第N_stu[i]层，令剪枝后的学生网络的第N_stu[i]层的输出特征图和教师网络的第N_tea[i]层的输入特征图匹配即可；由于剪枝后的学生网络的第N_stu[i]层的输出通道数和教师网络的第N_tea[i]层的输出通道数通常不一致，故需要进行对齐维度；这里使用一个卷积层(Conv2D)进行对齐操作，将F_stu[i]输入卷积层经过卷积操作后，卷积层的输出记为剪枝后的学生网络的输出通道数由stuout转换为teaout，和教师网络对应层的输出通道数一致；

F_s ^′ _tu[i]＝Conv2D(F_stu[i],stuout,teaout) (7)

损失函数设计：这里使用MSE损失函数将F_s ^′ _tu[i]和F_tea[i]对齐，公式如下所示：

Loss＝‖F_s ^′ _tu[i]-F_tea[i]‖₂ (8)

使用梯度算法降低上述损失函数，更新剪枝后的学生网络模型权重，得到蒸馏后的学生网络模型。

8.如权利要求1所述的一种基于gan神经网络压缩的图像翻译方法，其特征在于，步骤(5)包括：

将步骤(4)获得的蒸馏后的学生网络模型带入到图像翻译任务推理程序中，在程序中替换原始图像翻译任务中的教师网络模型，获得新的图像翻译程序；对该图像翻译程序输入图像，运行图像翻译任务，获得翻译后的图像。

9.一种基于生成对抗神经网络压缩的图像翻译装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的一种基于生成对抗神经网络压缩的图像翻译方法，优化图像翻译任务中生成对抗网络在计算机中的存储空间，将图像翻译程序部署到边缘智能设备。