CN111626156B - 一种基于行人掩模和多尺度判别的行人生成方法 - Google Patents
一种基于行人掩模和多尺度判别的行人生成方法 Download PDFInfo
- Publication number
- CN111626156B CN111626156B CN202010406802.8A CN202010406802A CN111626156B CN 111626156 B CN111626156 B CN 111626156B CN 202010406802 A CN202010406802 A CN 202010406802A CN 111626156 B CN111626156 B CN 111626156B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- discriminator
- image
- generator
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于行人掩模和多尺度判别的行人生成方法,具体包括:将行人掩模输入到生成器中生成行人图像;判别器通过对行人掩模和生成行人图像组成的图像对进行判别;判别器将判别结果返回给生成器,指导生成器继续生成更符合行人掩模姿态的行人图像。本发明使用了多尺度判别方式,包含了多个判别器,分别对不同尺度行人掩模和生成行人组成的图像对进行判别。本方法证明了基于行人掩模和多尺度判别的方法能生成具有特定掩模姿态的行人且生成图像更精细化,行人轮廓与背景边界更清晰。
Description
技术领域
本发明涉及图像生成技术领域,具体涉及一种基于行人掩模和多尺度判别的行人生成方法。
背景技术
图像处理的很多问题都是将一张输入的图片转变为一张对应的输出图片,比如灰度图、梯度图、彩色图之间的转换等。通常每一种问题都使用特定的算法如:使用CNN来解决图像转换问题时,要根据每个问题设定一个特定的损失函数来让CNN优化。这些方法的本质其实都是从像素到像素的映射。“翻译”常用于语言之间的翻译,就比如中文和英文的之间的翻译。但是图像翻译的意思是以不同形式在图与图之间转换。比如,一张场景可以转换为RGB全彩图,也可以转化成素描,也可以转化为灰度图。一张夜景图也可以转化为这个地方的日景图。常规的图像处理方法输出的行人图像较为不清晰,行人轮廓与背景边界较为模糊。
发明内容
针对上述技术问题,本发明提供了解决上述问题的一种基于行人掩模和多尺度判别的行人生成方法,利于生成具有特定掩模姿态的行人且生成图像更精细化,行人轮廓与背景边界更清晰。
本发明通过下述技术方案实现:
一种基于行人掩模和多尺度判别的行人生成方法,包括以下步骤:
S1.将包含行人掩模的原始信息输入到基于pix2pix网络结构的生成器中生成行人图像;
S2.通过多个判别器均接收一组内容相同的图像,每个判别器接收的图像尺度大小不同,用于判别输入图像的真假,并通过损失函数将判别信息反馈给生成器,指导生成器生成行人图像,最终生成并输出具有掩模姿态特征的行人图像;所述判别器接收的一组图像包括输入生成器的行人掩模和生成器输出的行人图像。
本发明基于pix2pix网络结构,利用多尺度判别思想,构建了基于多个不同判别器,用于判别不同尺度的图像,以指导生成器生成行人图像。通过在Market-1501的训练集上进行训练,在其测试集上进行测试,生成了具有特定掩模姿态的行人且生成图像更精细化,行人轮廓与背景边界更清晰。
尤其,判别部分采用了多尺度判别的思想,包含了多个判别器,每个判别器的结构相同,接收的图像尺度大小不一样大小,用于判别输入图像的真假,优选3个判别器。
进一步优选,所述判别器包括多层卷积层,采用了基于图像块patch的判别方法,将图像切分为多个固定大小的patch输入进判别器进行判断。
这样不仅减小了判别器的计算量,加快了训练速度;而且对输入图像的大小没有限定,增大了框架的扩展性。
进一步优选,所述多个判别器依次以倍数逐渐减小的下采样来创造多个不同尺度的图像金字塔,判别器分别对相应尺度的行人掩模和行人图像、进行判别。
本发明主要利用金字塔多尺度判别思想,构建了基于多个不同判别器,用于判别不同尺度的图像,指导生成器生成行人的方法。以三个判别器为例:
设定三个判别器D1、D2、D3依次以原图、2倍和4倍的下采样来创造3个不同尺度的图像金字塔,判别器D1、D2和D3分别对这三个不同尺寸的行人图像和行人掩模进行判别。其中判别器D1输入的是原始256*256的行人及其掩模图像,具有最大的感受野和的图像全局视角信息。能够指导生成器生成全局一致的图像。判别器D2和D3的输入是行人及其掩模的2倍和4倍的下采样后的图像,用于鼓励生成器能够补充生成更加精细的行人细节信息。
进一步优选,所述生成器使用u-Net结构,包括编码器和解码器;所述编码器以卷积的形式进行下采样对输入的原始信息进行编码;所述解码器以反卷积的形式进行上采样还原生成图像;在编码器和解码器中加入了跳转连接,将编码后的特征图和解码之后同样大小的特征图按通道连接在一起,用于补充输入图像的信息。
进一步优选,所述编码器包括多层卷积层,在卷积层后加入批归一化处理;所述解码器包括多层反卷积层。
进一步优选,输入到生成器的行人掩模大小为256*256。
进一步优选,使用生成式对抗损失LGAN(G,D)指导图像的生成,如下式所示:
LGAN(G,D)=Es,x[logD(s,x)]+Es,z[log(1-D(s,G(s,z)))]
其中,G表示生成器,D表示判别器,s为行人掩模,x为真实行人,z为噪声向量;G(s,z)为生成图像,Dk表示第k个判别器。
进一步优选,使用L1损失函数来保证输入图像与生成图像的一致性映射关系,如下式所示:
LL1(G)=Es,x,z[||y-G(s,z)||1]
LGAN(G,D)=E(s,x)[logD(s,x)]+Es[log(1-D(s,G(s))];
其中,G表示生成器,D表示判别器,s为行人掩模,x为真实行人,z为噪声向量。
进一步优选,使用特征匹配损失LFM(G,Dk)来提升网络训练的稳定性;所述特征匹配损失用于从判别器的多隔层中提取特征,然后学习匹配真实和合成图像中的中间表示;如下式所示:
进一步优选,总的损失函数结合了对抗损失和特征匹配损失,如下式所示:
其中,G表示生成器,D表示判别器;Dk表示第k个判别器,γ参数控制了特征匹配损失LFM(G,Dk)在整体损失函数中所占的权重。
本发明具有如下的优点和有益效果:
1、pix2pix网络来解决行人图像翻译问题;该网络利用完全配对的输入和输出图像训练模型,通过训练好的模型将输入的图像生成指定任务的目标图像。多尺度图像技术(多分辨率技术)旨在找到图像的多尺度的表达、各尺度之间的相互联系并且在不同尺度下分别对图像进行处理。通过该技术能够实现另一某尺度下发现或者获取在一种尺度中不容易看清的的图像特性。
本发明中在pix2pix网络技术上引入多尺度判别思想,使用成对的行人掩模和行人图像训练pix2pix网络,在测试阶段将行人掩模输入到训练好的pix2pix网络中,得到具有掩模姿态特征的行人图像。
2、本发明基于pix2pix网络结构,利用多尺度判别思想,构建了基于多个不同判别器,用于判别不同尺度的图像,以指导生成器生成行人图像。通过在Market-1501的训练集上进行训练,在其测试集上进行测试,生成了具有特定掩模姿态的行人且生成图像更精细化,行人轮廓与背景边界更清晰。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明基于行人掩模和多尺度判别的基本架构图;
图2为本发明生成器u-Net结构图;
图3本发明生成器生成行人过程中图像变换过程图;
图4生成行人图像结果对比图;其中DCGAN表示基于DCGAN算法的图像处理结果,pix2pix表示基于pix2pix网络结果图像处理结果,our表示本发明图像处理结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
本实施例提供了一种基于行人掩模和多尺度判别的行人生成方法,如图1所示,在本方法中构建了一个包含生成器和三个判别器的网络结构。将行人掩模和噪声输入到生成器中生成行人图像。判别器接收行人掩模和行人图像,判断其图像对的真假,并通过损失函数将判别信息反馈给生成器,指导生成器生成行人,通过生成器和判别器的不断博弈,最终生成具有掩模姿态特征的行人。
生成器使用u-Net结构,包含了编码器,解码器。如图3所示,所述编码器以卷积的形式进行下采样对输入的图像进行编码;所述解码器以反卷积的形式进行上采样还原生成图像。在编码器和解码器中加入了跳转连接,如图2所示,模块上的第i层拼接到第n-i层引入了跳转连接(skip-connect),即每一层反卷积层以前一层的输出与该层对称的卷积层的输出作为该层的输入。
编码器包括了8层卷积层,在卷积层后加入批归一化处理。在编码过程中卷积核分别为4*4*64,4*4*128,4*4*256,4*4*512,4*4*512,4*4*512,4*4*512,4*4*512(4*4表示卷积核大小,后面一维代表卷积核数量)。卷积核为4*4,步长为2,因而每经过一次卷积操作,图像的大小缩小为原来图像的一半。
解码器包含了7层反卷积层,卷积核依次设置为,4*4*512,4*4*512,4*4*512,4*4*512,4*4*512,4*4*256,4*4*128,4*4*64,步长为1,进行上采样。最后通过tanh()函数输出图像。
判别器包括了6层卷积层,卷积核大小为4*4,前5个卷积层的步长设置为2,后一个卷积层的步长设置为1。采用了基于图像块patch的判别方法,我们将每个图像块的大小设置为70*70。判别器D1、D2、D3以2倍和4倍的下采样来创造3个不同尺度的图像金字塔,输入图像大小分别为256*256,128*128,64*64。
我们以Market-1501的训练集中的行人图像及对应的行人掩模训练网络,在Market-1501的测试机上对训练过后的网络进行测试。在本方法中,其输入到生成器中的掩模图像为256*256大小,噪声向量z大小为100维,其生成器生成的行人图像为256*256。
实施例2
基于实施例1的基础上进一步改进,损失函数包括生成式对抗损失、L1损失函数、特征匹配损失和总损失:
(1)本方法中生成式对抗损失,指导图像的生成。其中,G表示生成器,D表示判别器,s为行人掩模,x为真实行人,z为噪声向量。G(s,z)为生成图像,Dk表示第k个判别器。
LGAN(G,D)=Es,x[logD(s,x)]+Es,z[log(1-D(s,G(s,z)))];
(2)本方法使用L1损失函数来保证输入图像与生成图像的一致性映射关系。
LL1(G)=Es,x,z[||y-G(s,z)||1];
LGAN(G,D)=E(s,x)[logD(s,x)]+Es[log(1-D(s,G(s))];
(3)本方法使用使用特征匹配损失LFM(G,Dk)来提升网络训练的稳定性;该损失函数的主要目标是从判别器的多隔层中提取特征,然后学习匹配真实和合成图像中的中间表示。其中表示第k个判别器Dk中第i层的特征提取值,T表示判别器总共的层数,Ni表示判别器的第i层的元素个数。
(4)本方法总的损失函数结合了对抗损失和特征匹配损失,其中γ参数控制了特征匹配损失LFM(G,Dk)在整体损失函数中所占的权重。
在训练过程中batchsize设置为1,Adam初始学习率lr为0.0002,Adam的动量beta1为0.5。其最大训练轮数epoch设置为200,其整体损失函数中L1损失所占的比重的γ参数设置为100。训练后的网络在测试集生的生成结果如图4所示。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于行人掩模和多尺度判别的行人生成方法,其特征在于,包括以下步骤:
S1.将包含行人掩模的原始信息输入到基于pix2pix网络结构的生成器中生成行人图像;
S2.通过多个判别器均接收一组内容相同的图像,每个判别器接收的图像尺度大小不同,用于判别输入图像的真假,并通过损失函数将判别信息反馈给生成器,指导生成器生成行人图像,最终生成并输出具有掩模姿态特征的行人图像;
所述判别器接收的一组图像包括输入生成器的行人掩模和生成器输出的行人图像;所述判别器包括多层卷积层,采用了基于图像块patch的判别方法,将图像切分为多个固定大小的patch输入进判别器进行判断;
所述多个判别器依次以倍数逐渐减小的下采样来创造多个不同尺度的图像金字塔,判别器分别对相应尺度的行人掩模和行人图像、进行判别;
所述生成器使用u-Net结构,包括编码器和解码器;
所述编码器以卷积的形式进行下采样对输入的原始信息进行编码;
所述解码器以反卷积的形式进行上采样还原生成图像;
在编码器和解码器中加入了跳转连接,将编码后的特征图和解码之后同样大小的特征图按通道连接在一起,用于补充输入图像的信息。
2.根据权利要求1所述的一种基于行人掩模和多尺度判别的行人生成方法,其特征在于,所述编码器包括多层卷积层,在卷积层后加入批归一化处理;所述解码器包括多层反卷积层。
3.根据权利要求1所述的一种基于行人掩模和多尺度判别的行人生成方法,其特征在于,输入到生成器的行人掩模大小为256*256。
5.根据权利要求1至3任一项所述的一种基于行人掩模和多尺度判别的行人生成方法,其特征在于,使用L1损失函数来保证输入图像与生成图像的一致性映射关系,如下式所示:
LL1(G)=Es,x,z[||y-G(s,z)||1]
LGAN(G,D)=E(s,x)[log D(s,x)]+Es[log(1-D(s,G(s))];
其中,G表示生成器,D表示判别器,s为行人掩模,x为真实行人,z为噪声向量。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010406802.8A CN111626156B (zh) | 2020-05-14 | 2020-05-14 | 一种基于行人掩模和多尺度判别的行人生成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010406802.8A CN111626156B (zh) | 2020-05-14 | 2020-05-14 | 一种基于行人掩模和多尺度判别的行人生成方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111626156A CN111626156A (zh) | 2020-09-04 |
| CN111626156B true CN111626156B (zh) | 2023-05-09 |
Family
ID=72271931
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010406802.8A Active CN111626156B (zh) | 2020-05-14 | 2020-05-14 | 一种基于行人掩模和多尺度判别的行人生成方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111626156B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117036729B (zh) * | 2023-05-29 | 2026-01-16 | 电子科技大学 | 一种基于特征金字塔的轻量化语义图像翻译方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017000115A1 (zh) * | 2015-06-29 | 2017-01-05 | 北京旷视科技有限公司 | 行人再识别方法及设备 |
| CN109658508A (zh) * | 2018-11-28 | 2019-04-19 | 华东师范大学 | 一种多尺度细节融合的地形合成方法 |
| CN109977922A (zh) * | 2019-04-11 | 2019-07-05 | 电子科技大学 | 一种基于生成对抗网络的行人掩模生成方法 |
| CN110705345A (zh) * | 2019-08-21 | 2020-01-17 | 重庆特斯联智慧科技股份有限公司 | 一种基于深度学习的行人重识别方法及系统 |
| CN110874574A (zh) * | 2019-10-30 | 2020-03-10 | 平安科技(深圳)有限公司 | 行人重识别方法、装置、计算机设备及可读存储介质 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10108850B1 (en) * | 2017-04-24 | 2018-10-23 | Intel Corporation | Recognition, reidentification and security enhancements using autonomous machines |
| CN109886090B (zh) * | 2019-01-07 | 2020-12-04 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
| CN110348376B (zh) * | 2019-07-09 | 2021-05-14 | 华南理工大学 | 一种基于神经网络的行人实时检测方法 |
| CN111027493B (zh) * | 2019-12-13 | 2022-05-20 | 电子科技大学 | 一种基于深度学习多网络软融合的行人检测方法 |
-
2020
- 2020-05-14 CN CN202010406802.8A patent/CN111626156B/zh active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017000115A1 (zh) * | 2015-06-29 | 2017-01-05 | 北京旷视科技有限公司 | 行人再识别方法及设备 |
| CN109658508A (zh) * | 2018-11-28 | 2019-04-19 | 华东师范大学 | 一种多尺度细节融合的地形合成方法 |
| CN109977922A (zh) * | 2019-04-11 | 2019-07-05 | 电子科技大学 | 一种基于生成对抗网络的行人掩模生成方法 |
| CN110705345A (zh) * | 2019-08-21 | 2020-01-17 | 重庆特斯联智慧科技股份有限公司 | 一种基于深度学习的行人重识别方法及系统 |
| CN110874574A (zh) * | 2019-10-30 | 2020-03-10 | 平安科技(深圳)有限公司 | 行人重识别方法、装置、计算机设备及可读存储介质 |
Non-Patent Citations (1)
| Title |
|---|
| 基于块稀疏表示的行人重识别方法;孙金玉等;《计算机应用》;20180210(第02期);全文 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111626156A (zh) | 2020-09-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114998145B (zh) | 一种基于多尺度和上下文学习网络的低照度图像增强方法 | |
| CN113392711B (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
| CN110992275B (zh) | 一种基于生成对抗网络的细化单幅图像去雨方法 | |
| CN110689599B (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
| CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
| CN117095277A (zh) | 一种边缘引导的多注意力rgbd水下显著目标检测方法 | |
| CN112183258A (zh) | 一种基于上下文信息和注意力机制的遥感图像道路分割方法 | |
| CN110443143A (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
| CN113379707A (zh) | 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 | |
| CN116433516A (zh) | 一种基于注意力机制的低照度图像去噪增强方法 | |
| CN117274059B (zh) | 基于图像编码-解码的低分辨率图像重构方法及其系统 | |
| CN111242181A (zh) | 基于图像语义和细节的rgb-d显著性物体检测器 | |
| CN117576755A (zh) | 一种超光谱人脸融合与识别方法、电子设备及存储介质 | |
| CN119941887B (zh) | 基于gan的将可见光图像高效转换成红外光图像的方法 | |
| Xu et al. | Missing data reconstruction in VHR images based on progressive structure prediction and texture generation | |
| CN109948517A (zh) | 一种基于密集全卷积网络的高分辨率遥感图像语义分割方法 | |
| CN117237190A (zh) | 用于边缘移动设备的轻量化图像超分辨率重建系统及方法 | |
| CN109903373A (zh) | 一种基于多尺度残差网络的高质量人脸生成方法 | |
| CN117876842A (zh) | 一种基于生成对抗网络的工业产品异常检测方法及系统 | |
| CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
| CN120088629A (zh) | 一种基于YOLOv8的水下小目标检测方法 | |
| CN119624985A (zh) | 一种面向图像分割的图像超分辨率增强方法 | |
| CN111626156B (zh) | 一种基于行人掩模和多尺度判别的行人生成方法 | |
| CN116862965A (zh) | 一种基于稀疏表征的深度补全方法 | |
| CN116433788A (zh) | 基于自注意力和生成对抗网络的灰度图像上色方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |