CN111626156B

CN111626156B - 一种基于行人掩模和多尺度判别的行人生成方法

Info

Publication number: CN111626156B
Application number: CN202010406802.8A
Authority: CN
Inventors: 匡平; 肖小霞
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-05-09
Anticipated expiration: 2040-05-14
Also published as: CN111626156A

Abstract

本发明公开了一种基于行人掩模和多尺度判别的行人生成方法，具体包括：将行人掩模输入到生成器中生成行人图像；判别器通过对行人掩模和生成行人图像组成的图像对进行判别；判别器将判别结果返回给生成器，指导生成器继续生成更符合行人掩模姿态的行人图像。本发明使用了多尺度判别方式，包含了多个判别器，分别对不同尺度行人掩模和生成行人组成的图像对进行判别。本方法证明了基于行人掩模和多尺度判别的方法能生成具有特定掩模姿态的行人且生成图像更精细化，行人轮廓与背景边界更清晰。

Description

一种基于行人掩模和多尺度判别的行人生成方法

技术领域

本发明涉及图像生成技术领域，具体涉及一种基于行人掩模和多尺度判别的行人生成方法。

背景技术

图像处理的很多问题都是将一张输入的图片转变为一张对应的输出图片，比如灰度图、梯度图、彩色图之间的转换等。通常每一种问题都使用特定的算法如：使用CNN来解决图像转换问题时，要根据每个问题设定一个特定的损失函数来让CNN优化。这些方法的本质其实都是从像素到像素的映射。“翻译”常用于语言之间的翻译，就比如中文和英文的之间的翻译。但是图像翻译的意思是以不同形式在图与图之间转换。比如，一张场景可以转换为RGB全彩图，也可以转化成素描，也可以转化为灰度图。一张夜景图也可以转化为这个地方的日景图。常规的图像处理方法输出的行人图像较为不清晰，行人轮廓与背景边界较为模糊。

发明内容

针对上述技术问题，本发明提供了解决上述问题的一种基于行人掩模和多尺度判别的行人生成方法，利于生成具有特定掩模姿态的行人且生成图像更精细化，行人轮廓与背景边界更清晰。

本发明通过下述技术方案实现：

一种基于行人掩模和多尺度判别的行人生成方法，包括以下步骤：

S1.将包含行人掩模的原始信息输入到基于pix2pix网络结构的生成器中生成行人图像；

S2.通过多个判别器均接收一组内容相同的图像，每个判别器接收的图像尺度大小不同，用于判别输入图像的真假，并通过损失函数将判别信息反馈给生成器，指导生成器生成行人图像，最终生成并输出具有掩模姿态特征的行人图像；所述判别器接收的一组图像包括输入生成器的行人掩模和生成器输出的行人图像。

本发明基于pix2pix网络结构，利用多尺度判别思想，构建了基于多个不同判别器，用于判别不同尺度的图像，以指导生成器生成行人图像。通过在Market-1501的训练集上进行训练，在其测试集上进行测试，生成了具有特定掩模姿态的行人且生成图像更精细化，行人轮廓与背景边界更清晰。

尤其，判别部分采用了多尺度判别的思想，包含了多个判别器，每个判别器的结构相同，接收的图像尺度大小不一样大小，用于判别输入图像的真假，优选3个判别器。

进一步优选，所述判别器包括多层卷积层，采用了基于图像块patch的判别方法，将图像切分为多个固定大小的patch输入进判别器进行判断。

这样不仅减小了判别器的计算量，加快了训练速度；而且对输入图像的大小没有限定，增大了框架的扩展性。

进一步优选，所述多个判别器依次以倍数逐渐减小的下采样来创造多个不同尺度的图像金字塔，判别器分别对相应尺度的行人掩模和行人图像、进行判别。

本发明主要利用金字塔多尺度判别思想，构建了基于多个不同判别器，用于判别不同尺度的图像，指导生成器生成行人的方法。以三个判别器为例：

设定三个判别器D1、D2、D3依次以原图、2倍和4倍的下采样来创造3个不同尺度的图像金字塔，判别器D1、D2和D3分别对这三个不同尺寸的行人图像和行人掩模进行判别。其中判别器D1输入的是原始256*256的行人及其掩模图像，具有最大的感受野和的图像全局视角信息。能够指导生成器生成全局一致的图像。判别器D2和D3的输入是行人及其掩模的2倍和4倍的下采样后的图像，用于鼓励生成器能够补充生成更加精细的行人细节信息。

进一步优选，所述生成器使用u-Net结构，包括编码器和解码器；所述编码器以卷积的形式进行下采样对输入的原始信息进行编码；所述解码器以反卷积的形式进行上采样还原生成图像；在编码器和解码器中加入了跳转连接，将编码后的特征图和解码之后同样大小的特征图按通道连接在一起，用于补充输入图像的信息。

进一步优选，所述编码器包括多层卷积层，在卷积层后加入批归一化处理；所述解码器包括多层反卷积层。

进一步优选，输入到生成器的行人掩模大小为256*256。

进一步优选，使用生成式对抗损失L_GAN(G,D)指导图像的生成，如下式所示：

L_GAN(G,D)＝E_s,x[logD(s,x)]+E_s,z[log(1-D(s,G(s,z)))]

其中，G表示生成器，D表示判别器，s为行人掩模，x为真实行人，z为噪声向量；G(s,z)为生成图像，D_k表示第k个判别器。

进一步优选，使用L1损失函数来保证输入图像与生成图像的一致性映射关系，如下式所示：

L_L1(G)＝E_s,x,z[||y-G(s,z)||₁]

L_GAN(G,D)＝E_(s,x)[logD(s,x)]+E_s[log(1-D(s,G(s))]；

其中，G表示生成器，D表示判别器，s为行人掩模，x为真实行人，z为噪声向量。

进一步优选，使用特征匹配损失L_FM(G,D_k)来提升网络训练的稳定性；所述特征匹配损失用于从判别器的多隔层中提取特征，然后学习匹配真实和合成图像中的中间表示；如下式所示：

其中，G表示生成器，D表示判别器，s为行人掩模，x为真实行人；

表示第k个判别器D_k中第i层的特征提取值，T表示判别器总共的层数，N_i表示判别器的第i层的元素个数。

进一步优选，总的损失函数结合了对抗损失和特征匹配损失，如下式所示：

其中，G表示生成器，D表示判别器；D_k表示第k个判别器，γ参数控制了特征匹配损失L_FM(G,D_k)在整体损失函数中所占的权重。

本发明具有如下的优点和有益效果：

1、pix2pix网络来解决行人图像翻译问题；该网络利用完全配对的输入和输出图像训练模型，通过训练好的模型将输入的图像生成指定任务的目标图像。多尺度图像技术(多分辨率技术)旨在找到图像的多尺度的表达、各尺度之间的相互联系并且在不同尺度下分别对图像进行处理。通过该技术能够实现另一某尺度下发现或者获取在一种尺度中不容易看清的的图像特性。

本发明中在pix2pix网络技术上引入多尺度判别思想，使用成对的行人掩模和行人图像训练pix2pix网络，在测试阶段将行人掩模输入到训练好的pix2pix网络中，得到具有掩模姿态特征的行人图像。

2、本发明基于pix2pix网络结构，利用多尺度判别思想，构建了基于多个不同判别器，用于判别不同尺度的图像，以指导生成器生成行人图像。通过在Market-1501的训练集上进行训练，在其测试集上进行测试，生成了具有特定掩模姿态的行人且生成图像更精细化，行人轮廓与背景边界更清晰。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明基于行人掩模和多尺度判别的基本架构图；

图2为本发明生成器u-Net结构图；

图3本发明生成器生成行人过程中图像变换过程图；

图4生成行人图像结果对比图；其中DCGAN表示基于DCGAN算法的图像处理结果，pix2pix表示基于pix2pix网络结果图像处理结果，our表示本发明图像处理结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

本实施例提供了一种基于行人掩模和多尺度判别的行人生成方法，如图1所示，在本方法中构建了一个包含生成器和三个判别器的网络结构。将行人掩模和噪声输入到生成器中生成行人图像。判别器接收行人掩模和行人图像，判断其图像对的真假，并通过损失函数将判别信息反馈给生成器，指导生成器生成行人，通过生成器和判别器的不断博弈，最终生成具有掩模姿态特征的行人。

生成器使用u-Net结构，包含了编码器，解码器。如图3所示，所述编码器以卷积的形式进行下采样对输入的图像进行编码；所述解码器以反卷积的形式进行上采样还原生成图像。在编码器和解码器中加入了跳转连接，如图2所示，模块上的第i层拼接到第n-i层引入了跳转连接(skip-connect)，即每一层反卷积层以前一层的输出与该层对称的卷积层的输出作为该层的输入。

编码器包括了8层卷积层，在卷积层后加入批归一化处理。在编码过程中卷积核分别为4*4*64，4*4*128，4*4*256，4*4*512，4*4*512，4*4*512，4*4*512，4*4*512(4*4表示卷积核大小，后面一维代表卷积核数量)。卷积核为4*4，步长为2，因而每经过一次卷积操作，图像的大小缩小为原来图像的一半。

解码器包含了7层反卷积层，卷积核依次设置为，4*4*512，4*4*512，4*4*512，4*4*512，4*4*512，4*4*256，4*4*128，4*4*64，步长为1，进行上采样。最后通过tanh()函数输出图像。

判别器包括了6层卷积层，卷积核大小为4*4，前5个卷积层的步长设置为2，后一个卷积层的步长设置为1。采用了基于图像块patch的判别方法，我们将每个图像块的大小设置为70*70。判别器D1、D2、D3以2倍和4倍的下采样来创造3个不同尺度的图像金字塔，输入图像大小分别为256*256,128*128,64*64。

我们以Market-1501的训练集中的行人图像及对应的行人掩模训练网络，在Market-1501的测试机上对训练过后的网络进行测试。在本方法中，其输入到生成器中的掩模图像为256*256大小，噪声向量z大小为100维，其生成器生成的行人图像为256*256。

实施例2

基于实施例1的基础上进一步改进，损失函数包括生成式对抗损失、L1损失函数、特征匹配损失和总损失：

(1)本方法中生成式对抗损失，指导图像的生成。其中，G表示生成器，D表示判别器，s为行人掩模，x为真实行人，z为噪声向量。G(s,z)为生成图像，D_k表示第k个判别器。

L_GAN(G,D)＝E_s,x[logD(s,x)]+E_s,z[log(1-D(s,G(s,z)))]；

(2)本方法使用L1损失函数来保证输入图像与生成图像的一致性映射关系。

L_L1(G)＝E_s,x,z[||y-G(s,z)||₁]；

L_GAN(G,D)＝E_(s,x)[logD(s,x)]+E_s[log(1-D(s,G(s))]；

(3)本方法使用使用特征匹配损失L_FM(G,D_k)来提升网络训练的稳定性；该损失函数的主要目标是从判别器的多隔层中提取特征，然后学习匹配真实和合成图像中的中间表示。其中

(4)本方法总的损失函数结合了对抗损失和特征匹配损失，其中γ参数控制了特征匹配损失L_FM(G,D_k)在整体损失函数中所占的权重。

在训练过程中batchsize设置为1，Adam初始学习率lr为0.0002，Adam的动量beta1为0.5。其最大训练轮数epoch设置为200，其整体损失函数中L1损失所占的比重的γ参数设置为100。训练后的网络在测试集生的生成结果如图4所示。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于行人掩模和多尺度判别的行人生成方法，其特征在于，包括以下步骤：

S2.通过多个判别器均接收一组内容相同的图像，每个判别器接收的图像尺度大小不同，用于判别输入图像的真假，并通过损失函数将判别信息反馈给生成器，指导生成器生成行人图像，最终生成并输出具有掩模姿态特征的行人图像；

所述判别器接收的一组图像包括输入生成器的行人掩模和生成器输出的行人图像；所述判别器包括多层卷积层，采用了基于图像块patch的判别方法，将图像切分为多个固定大小的patch输入进判别器进行判断；

所述多个判别器依次以倍数逐渐减小的下采样来创造多个不同尺度的图像金字塔，判别器分别对相应尺度的行人掩模和行人图像、进行判别；

所述生成器使用u-Net结构，包括编码器和解码器；

所述编码器以卷积的形式进行下采样对输入的原始信息进行编码；

所述解码器以反卷积的形式进行上采样还原生成图像；

在编码器和解码器中加入了跳转连接，将编码后的特征图和解码之后同样大小的特征图按通道连接在一起，用于补充输入图像的信息。

2.根据权利要求1所述的一种基于行人掩模和多尺度判别的行人生成方法，其特征在于，所述编码器包括多层卷积层，在卷积层后加入批归一化处理；所述解码器包括多层反卷积层。

3.根据权利要求1所述的一种基于行人掩模和多尺度判别的行人生成方法，其特征在于，输入到生成器的行人掩模大小为256*256。

4.根据权利要求1至3任一项所述的一种基于行人掩模和多尺度判别的行人生成方法，其特征在于，使用生成式对抗损失L_GAN(G，D)指导图像的生成，如下式所示：

L_GAN(G，D)＝E_s，x[log D(s，x)]+E_s，z[log(1-D(s，G(s，z)))]

其中，G表示生成器，D表示判别器，s为行人掩模，x为真实行人，z为噪声向量；G(s，z)为生成图像，D_k表示第k个判别器。

5.根据权利要求1至3任一项所述的一种基于行人掩模和多尺度判别的行人生成方法，其特征在于，使用L1损失函数来保证输入图像与生成图像的一致性映射关系，如下式所示：

L_L1(G)＝E_s，x，z[||y-G(s，z)||₁]

L_GAN(G，D)＝E_(s，x)[log D(s，x)]+E_s[log(1-D(s，G(s))]；

6.根据权利要求1至3任一项所述的一种基于行人掩模和多尺度判别的行人生成方法，其特征在于，使用特征匹配损失L_FM(G，D_k)来提升网络训练的稳定性；所述特征匹配损失用于从判别器的多隔层中提取特征，然后学习匹配真实和合成图像中的中间表示；如下式所示：

7.根据权利要求1至3任一项所述的一种基于行人掩模和多尺度判别的行人生成方法，其特征在于，总的损失函数结合了对抗损失和特征匹配损失，如下式所示：

其中，G表示生成器，D表示判别器；D_k表示第k个判别器，γ参数控制了特征匹配损失L_FM(G，D_k)在整体损失函数中所占的权重。