CN111127378A

CN111127378A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111127378A
Application number: CN201911335708.1A
Authority: CN
Inventors: 朱圣晨
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-08
Also published as: WO2021129642A1

Abstract

本申请实施例公开了一种图像处理方法、装置、计算机设备及存储介质，属于图像处理领域。所述方法：获取待处理图像和风格图像，待处理图像与风格图像中目标人脸部位的风格不同；从待处理图像中提取第一局部图像，并从风格图像中提取第二局部图像，第一局部图像和第二局部图像包含目标人脸部位的影像；根据第二局部图像对第一局部图像进行风格迁移，得到目标局部图像，目标局部图像与第一局部图像中目标人脸部位的风格相同；将目标局部图像与待处理图像融合，生成目标图像。相较于相关技术中只能进行美颜参数调节，采用本申请实施例提供的方案，可以将其他图像中人脸部位的风格应用到待处理图像中，提高了人脸美颜的多样性，实现了定制化人脸美颜。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及图像处理领域，特别涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

美颜是一种对人脸图像进行美化的图像处理方法，常见的美颜方式包括美白、瘦脸、大眼(放大眼睛)、小嘴(缩小嘴巴)等等。

相关技术中，在对人脸图像进行美颜时，用户可以通过控件对美颜参数进行调节。比如，可以通过美白控件对人脸面部的美白参数进行调节；可以通过大眼控件对眼睛的放大比例进行调节。然而，相关技术中的美颜功能仅能够实现简单的美颜参数调节，美颜功能较为单一。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质。

所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

获取待处理图像和风格图像，所述待处理图像与所述风格图像中目标人脸部位的风格不同；

从所述待处理图像中提取第一局部图像，并从所述风格图像中提取第二局部图像，所述第一局部图像和所述第二局部图像包含所述目标人脸部位的影像；

根据所述第二局部图像对所述第一局部图像进行风格迁移，得到目标局部图像，所述目标局部图像与所述第一局部图像中所述目标人脸部位的风格相同；

将所述目标局部图像与所述待处理图像融合，生成目标图像。

另一方面，提供了一种图像处理装置，所述装置包括：

获取模块，用于获取待处理图像和风格图像，所述待处理图像与所述风格图像中目标人脸部位的风格不同；

提取模块，用于从所述待处理图像中提取第一局部图像，并从所述风格图像中提取第二局部图像，所述第一局部图像和所述第二局部图像包含所述目标人脸部位的影像；

风格迁移模块，用于根据所述第二局部图像对所述第一局部图像进行风格迁移，得到目标局部图像，所述目标局部图像与所述第一局部图像中所述目标人脸部位的风格相同；

生成模块，用于将所述目标局部图像与所述待处理图像融合，生成目标图像。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的图像处理方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述方面所述的图像处理方法。

另一方面，还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述方面所述的图像处理方法。

本申请实施例中，获取到待处理图像和风格图像后，分别从待处理图像和风格图像中提取包含目标人脸部位影像的第一局部图像和第二局部图像，从而根据第二局部图像对第一局部图像进行风格迁移，得到目标局部图像，最终将目标局部图像与待处理图像融合，生成目标图像；相较于相关技术中只能进行美颜参数调节，采用本申请实施例提供的方案，可以将其他图像中人脸部位的风格应用到待处理图像中，提高了人脸美颜的多样性，实现了定制化人脸美颜。

附图说明

图1示出了本申请一个示例性实施例提供的计算机设备的结构方框图；

图2示出了本申请一个示例性实施例示出的图像处理方法的流程图；

图3是一个示例性实施例示出的图像处理方法实施过程的界面示意图；

图4示出了本申请另一个示例性实施例示出的图像处理方法的流程图；

图5是一个示例性实施例提供的灰度矩阵以及裁剪矩阵的示意图；

图6是利用风格迁移网络进行风格迁移过程的原理示意图；

图7是一个示例性实施例提供的编码网络的网络结构示意图；

图8是一个示例性实施例提供的编码网络中卷积层的结构图；

图9是一个示例性实施例提供的解码网络的网络结构示意图；

图10是一个示例性实施例示出的对待处理图像进行风格迁移过程的实施示意图；

图11是一个示例性实施例示出的风格迁移网络训练过程的流程图；

图12示出了本申请一个实施例提供的图像处理装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参考图1，其示出了本申请一个示例性实施例提供的计算机设备100的结构方框图。该计算机设备100可以是智能手机、平板电脑、笔记本电脑等。本申请中的计算机设备100可以包括一个或多个如下部件：处理器110、存储器120、显示屏130。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个计算机设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行计算机设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏130所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块芯片进行实现。

在一种可能的实施方式中，本申请实施例中，与神经网络相关的步骤可以由NPU执行，与图像显示相关的步骤可以由GPU执行，与应用程序内操作相关的步骤可以由CPU执行。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据计算机设备100的使用所创建的数据(比如音频数据、电话本)等。

显示屏130是用于显示用户界面的显示组件。可选的，该显示屏130还具有触控功能，通过触控功能，用户可以使用手指、触摸笔等任何适合的物体在显示屏130上进行触控操作。

显示屏130通常设置在计算机设备100的前面板。显示屏130可被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。显示屏130还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本实施例对此不加以限定。

在一种可能的实施方式中，计算机设备100还包括摄像头组件，该摄像头组件用于采集RGB图像(比如RGB摄像头)，其可以是计算机设备100的前置摄像头或者后置摄像头。

可选的，本申请实施例中，使用计算机设备100进行拍摄时，摄像头组件处于开启状态，并进行图像采集，当接收到对快门控件的触发操作时，计算机设备100根据摄像头组件当前采集到的图像生成待处理图像。

除此之外，本领域技术人员可以理解，上述附图所示出的计算机设备100的结构并不构成对计算机设备100的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，计算机设备100中还包括麦克风、扬声器、射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

请参考图2，其示出了本申请一个示例性实施例示出的图像处理方法的流程图。本实施例以该方法应用于图1所示的计算机设备来举例说明。该方法包括：

步骤201，获取待处理图像和风格图像，待处理图像与风格图像中目标人脸部位的风格不同。

其中，待处理图像和风格图像中均包含目标人脸部位的影像，且待处理图像为需要进行风格迁移的图像，风格图像为待处理图像进行风格迁移时的参考图像，即对待处理图像中目标人脸部位进行风格迁移时，参照风格图像中目标人脸部位的风格。

在一种可能的实施方式中，待处理图像和风格图像属于不同图片，比如待处理图像是自拍图片，而风格图像是从网络下载的明星图片；或者，待处理图像和风格图像属于同一图片，比如，待处理图像是图片中人物A的影像，风格图像是该图片中人物B的影像。

可选的，目标人脸部位包括如下至少一种：眼部、嘴部、耳部、眉部、鼻部位。

步骤202，从待处理图像中提取第一局部图像，并从风格图像中提取第二局部图像，第一局部图像和第二局部图像包含目标人脸部位的影像。

在一种可能的实施方式中，当接收到风格迁移指令，且风格迁移指令指示对待处理图像中目标人脸部位进行风格迁移时，计算机设备分别从待处理图像和风格图像中，提取包含目标人脸部位的第一局部图像和第二局部图像。其中，第一局部图像和第二局部图像的提取区域由人为指定，或者，由计算机设备自动划分。

由于第一局部图像(或第二局部图像)仅占待处理图像(或风格图像)的一部分，因此后续进行风格迁移时所需的计算资源较少，且风格迁移速度较快。

在一个示意性的例子中，当需要对待处理图像中任务的眼部进行风格迁移(比如进行美瞳处理)时，计算机设备从待处理图像和风格图像中，提取包含眼部影像的第一局部图像和第二局部图像。

步骤203，根据第二局部图像对第一局部图像进行风格迁移，得到目标局部图像，目标局部图像与第一局部图像中目标人脸部位的风格相同。

进一步的，对于提取得到的第一局部图像和第二局部图像，计算机设备根据第二局部图像中目标人脸部位的风格，调整第一局部图像中目标人脸部位的风格，使第一局部图像的风格趋向于第二局部图像，最终生成目标局部图像。

其中，目标局部图像尺寸与第一局部图像的尺寸相同，且目标局部图像的图像内容参考第一局部图像，目标局部图像的图像风格参考第二局部图像，即目标局部图像融合了第一局部图像的内容特征以及第二局部图像的风格特征。

步骤204，将目标局部图像与待处理图像融合，生成目标图像。

得到目标局部图像后，计算机设备进一步将目标局部图像与待处理图像进行融合，从而生成目标图像。在一种可能的实施方式中，计算机设备将待处理图像中的第一局部图像替换为目标局部图像，得到目标图像。

相较于相关技术中，仅能够对预设的美颜参数进行调节，本申请实施例中，计算机设备可以根据风格图像中指定人脸部位的风格，对待处理图像中相应人脸部位进行风格迁移，风格迁移的参考对象并不会受到预设美颜参数的限制(可以是任意包含人脸部位的图像)，可以实现定制化美颜；并且，通过提取局部图像，并针对局部图像进行风格迁移，无需对整个人脸区域进行处理，降低了风格迁移所需的计算资源，提高了风格迁移的效率，使得上述图像处理方法可以应用于计算能力较弱的移动终端。

在一个示意性的应用场景下，本申请实施例提供的图像处理方法可以应用于美颜应用程序。如图3所示，美颜应用程序运行过程中，当需要参考其他人脸图像，对指定图像中的指定人脸部位进行美颜时，用户选择需要进行美颜的第一照片31(即待处理图像)以及所期望美颜效果的第二照片32(即风格图像)后，点击照片选择确定按键33。美颜应用程序进一步在用户界面显示美颜部位选择控件，供用户选择需要进行美颜(即风格迁移)的人脸部位。当用户选择美颜部位为左眼和右眼，并点击美颜部位确定按键34后，美颜应用程序即通过上述方法进行局部图像提取、风格迁移以及图像融合处理，最终生成目标照片35，并进行显示。

综上所述，本申请实施例中，获取到待处理图像和风格图像后，分别从待处理图像和风格图像中提取包含目标人脸部位影像的第一局部图像和第二局部图像，从而根据第二局部图像对第一局部图像进行风格迁移，得到目标局部图像，最终将目标局部图像与待处理图像融合，生成目标图像；相较于相关技术中只能进行美颜参数调节，采用本申请实施例提供的方案，可以将其他图像中人脸部位的风格应用到待处理图像中，提高了人脸美颜的多样性，实现了定制化人脸美颜。

在一种可能的实施方式中，计算机设备中设置有五官分割网络和风格迁移网络，在图像处理过程中，计算机设备即通过五官分割网络从图像中提取包含指定人脸部位的局部图像，并通过风格迁移网络对提取到的局部图像进行风格迁移。下面采用示意性的实施例进行说明。

请参考图4，其示出了本申请另一个示例性实施例示出的图像处理方法的流程图。本实施例以该方法应用于图1所示的计算机设备来举例说明。该方法包括：

步骤401，获取待处理图像和风格图像，待处理图像与风格图像中目标人脸部位的风格不同。

本步骤的实施方式可以参考上述步骤201，本实施例在此不再赘述。

对于待处理图像，计算机设备通过下述步骤402至404进行局部图像提取，对于风格图像，计算机设备通过下述步骤405至407进行局部图像提取。

步骤402，将待处理图像输入五官分割网络，得到五官分割网络输出的第一灰度矩阵，第一灰度矩阵用于表示目标人脸部位在待处理图像中的位置。

在一种可能的实施方式中，计算机设备首先将待处理图像调整为指定尺寸(符合五官分割网络的图像输入尺寸，比如256×256px)，从而将指定尺寸的待处理图像输入五官分割网络。

可选的，计算机设备读取待处理图像中各个像素点的红绿蓝(Red-Green-Blue，RGB)值，并根据读取到的RGB值生成待处理图像矩阵I_h,w,c，从而将待处理图像矩阵I_h,w,c输入五官分割网络，得到五官分割网络输出的第一灰度矩阵L_h,w。其中，h和w为待处理图像的高度和宽度，c为待处理图像的通道数(RGB图像的通道数为3)。

可选的，L_h,w中矩阵元素的值为0和1，其中，矩阵元素1所在的位置为目标人脸部位在待处理图像中的位置。示意性的，第一灰度矩阵如如图5所示。

可选的，本申请实施例中的五官分割网络可以是卷积神经网络(ConvolutionalNeural Networks,CNN)、全卷积神经网络(Fully Convolutional Network，FCN)或其他用于进行图像分割的神经网络，本申请实施例并不对此进行限定。

步骤403，对第一灰度矩阵进行裁剪，得到第一裁剪矩阵，第一裁剪矩阵用于表示包含目标人脸部位的最小矩形区域。

通过上述步骤得到第一灰度矩阵后，由于第一灰度矩阵的尺寸与待处理图像的尺寸相同，且其中包含大量无效元素(即非目标人脸部位对应的矩阵元素)，若直接使用第一灰度矩阵进行局部图像提取，将造成计算资源浪费，因此得到第一灰度矩阵后，计算机设备还需要对其进行矩阵裁剪，得到包含目标人脸部位的最小矩阵。

在一种可能的实施方式中，对于第一灰度矩阵L_h,w，计算机设备根据第一灰度矩阵中矩阵元素1的左边界、右边界、上边界和下边界，裁剪得到第一裁剪矩阵L'_h,w，该第一裁剪矩阵与包含目标人脸部位的最小矩形区域对应。

示意性的，如图5所示，计算机设备从第一灰度矩阵中裁剪得到7×3的第一裁剪矩阵51。

步骤404，根据第一裁剪矩阵和待处理图像生成第一局部图像。

在一种可能的实施方式中，计算机设备根据待处理图像对应的待处理图像矩阵I_h,w,c以及第一裁剪矩阵L'_h,w，生成第一局部图像。其中，生成的第一局部图像

表示矩阵中对应位置的元素相乘。

步骤405，将风格图像输入五官分割网络，得到五官分割网络输出的第二灰度矩阵，第二灰度矩阵用于表示目标人脸部位在风格图像中的位置。

步骤406，对第二灰度矩阵进行裁剪，得到第二裁剪矩阵，第二裁剪矩阵用于表示包含目标人脸部位的最小矩形区域。

步骤407，根据第二裁剪矩阵和风格图像生成第二局部图像。

与上述步骤402至404的实施过程相似的，计算机设备利用五官分割网络，从风格图像中提取出第二局部图像，本实施例在此不再赘述。

需要说明的是，上述步骤402至404与步骤405至407之间不存在严格的先后时序，即步骤402至404与步骤405至407可以同步执行，本申请实施例对此不做限定。

通过上述不同完成局部图像提取后，计算机设备将局部图像输入风格迁移网络，利用风格迁移网络将第一局部图像风格转换为第二局部图像的风格。

可选的，本申请实施例中的风格迁移网络采用“编码+解码”的网络结构。如图6所示，提取到的第一局部图像61和第二局部图像62首先输入风格迁移网络中的编码网络63，由编码网络63分别对第一局部图像61和第二局部图像62进行特征提取，得到第一图像特征64(第一局部图像61的内容特征)和第二图像特征65(第二局部图像62的风格特征)。进一步的，计算机设备对第一图像特征64和第二图像特征65进行特征融合，得到目标图像特征66，并将目标图像特征66输入解码网络67，由解码网络76根据目标图像特征66进行图像还原，得到目标局部图像68。

步骤408，将第一局部图像输入编码网络，得到编码网络输出的第一图像特征，编码网络用于对输入的图像进行特征提取。

在一种可能的实施方式中，为了降低图像风格迁移过程中的计算量，使图像风格迁移能够在移动终端中执行，本申请实施例中的编码网络基于挤压网络(SqueezeNet)。SqueezeNet作为一种轻量化的卷积神经网络，在保证特征提取准确率的同时，能够显著降低网络参数的数量，适用于计算性能有限的移动终端。

SqueezeNet的核心结构为火模块(Fire Module)，在一个完整的SqueezeNet中包含8个Fire Module，即包含8层Fire层，其中，位于上层的Fire Module用于提取低层图像特征，而位于下层的Fire Module用于提取高层图像特征，其中，高层图像特征相较于低层图像特征更为抽象。

若直接采用完整的SqueezeNet的作为编码网络，编码网络最终输出的图像特征的抽象程度较高，后续利用抽象程度较高的图像特征进行图像还原时，还原难度较高，且最终还原出的图像质量不佳。

因此，为了降低后续图像还原的难度，并提高图像还原质量，在一种可能的实施方式中，编码网络包括第一卷积层、最大池化层和n个Fire层，其中，n为小于等于4的正整数。由于Fire层的层数较少，因此能够避免最终输出的图像特征过于抽象，有助于提高后续图像的还原。

在一个示意性的例子中，编码网络的网络结构如图7所示。从上至下，该编码网络包括第一卷积层71、第一最大池化层(maxpool)72、第一Fire层73、第二Fire层74、第三Fire层75、第二最大池化层76和第四Fire层77。其中，第一卷积层71用于对输入的局部图像进行特征提取，第一最大池化层72和第二最大池化层77的步长为2。

示意性的，第一Fire层73、第二Fire层74、第三Fire层75和第四Fire层77的结构如图7所示。每个Fire层中包含第一挤压(squeeze)模块781、第一扩展(expand)模块782和第二扩展模块783，第一挤压模块781用于进行特征降维，第一扩展模块782和第二扩展模块783用于对第一挤压模块781输出的特征进行升维，第一扩展模块782和第二扩展模块783输出的特征进一步通过合并模块784进行拼接输出。其中，第一挤压模块781采用1×1的卷积核，第一扩展模块782采用1×1的卷积核，第二扩展模块783采用3×3的卷积核。

在一种可能的实施方式中，为了消除局部图像中的人工伪边，通过编码网络对第一局部图像进行特征提取前，计算机设备对第一局部图像进行镜像填充(Mirror Padding)处理。其中，镜像填充时，填充为[[0,0],[padding，padding]，[padding，padding],[0,0]]，padding为卷积核尺寸的1/2取整，并且镜像填充时可以采用tf.pad填充函数，本实施例在此不再赘述。

可选的，为了进一步减小运算量，编码网络中的卷积采用深度可分离卷积。深度可分离卷积是将标准卷积分解为深度卷积以及1×1的逐点卷积，能够减小网络参数以及运算量。

在一个示意性的例子中，如图8所示，局部图像输入编码网络的第一卷积层71后，第一卷积层71首先对局部图像进行镜像填充，然后依次通过深度卷积和逐点卷积对填充后的局部图像进行卷积，并利用非线性激活函数对卷积结果进行激活，从而输出图像特征。

步骤409，将第二局部图像输入编码网络，得到编码网络输出的第二图像特征。

与第一局部图像的特征提取过程相似的，计算机设备将第二局部图像输入编码网络，由编码网络对第二局部图像进行特征提取，输出第二图像特征，本实施例在此不再赘述。

需要说明的是，步骤408与步骤409之间并不存在严格的先后时序，即步骤408与步骤409可以同步执行，本申请实施例对此不做限定。

步骤410，对第一图像特征和第二图像特征进行特征融合，得到目标图像特征。

通过编码网络分别提取到内容特征(即第一图像特征)和风格特征(即第二图像特征)后，计算机设备进一步对两者进行特征融合，从而得到目标图像特征，该目标图像特征即融合了第一局部图像的内容特点以及第二局部图像的风格特点。

针对进行特征融合的方式，在一种可能的实施方式中，本步骤包括如下步骤。

一、根据第一图像特征中各个特征通道对应的第一特征均值和第一特征标准差，构建第一均值向量和第一标准差向量。

在一种可能的实施方式中，第一图像特征的尺寸为a×a×b(即包含b个通道)，对于每个a×a的特征图(feature map)，计算机设备计算特征图中a×a个特征值的均值以及标准差，得到b个均值以及b个标准差，从而根据b个均值构建第一均值向量cmean，根据b个标准差构建第一标准差向量cstd。

在一个示意性的例子中，第一图像特征的尺寸为27×27×256，计算机设备构建得到的256维的第一均值向量cmean以及256维的第一标准差向量cstd。

二、根据第二图像特征中各个特征通道对应的第二特征均值和第二特征标准差，构建第二均值向量和第二标准差向量。

与上述步骤一相似的，计算机设备计算得到第二均值向量smean以及第二标准差向量s std。

三、根据第一图像特征、第一均值向量、第一标准差向量、第二均值向量和第二标准差向量，生成目标图像特征。

进一步的，为了使融合后的目标图像特征仍旧能够体现出第一局部图像的内容特点，在第一图像特征的基础上，计算机设备进一步根据构建得到第一均值向量、第一标准差向量、第二均值向量和第二标准差向量，生成目标图像特征。

在一种可能的实现方式中，生成目标图像特征可采用如下公式：

其中，c为第一图像特征。

步骤411，将目标图像特征输入解码网络，得到解码网络输出的目标局部图像，解码网络用于根据输入的图像特征进行图像还原。

通过上述步骤完成内容特征以及风格特征融合后，计算机设备需要进一步利用解码网络，对融合得到的目标图像特征进行图像还原，从而得到兼具第一局部图像内容特点以及第二局部图像风格特点的目标局部图像。

可选的，解码网络与编码网络互为镜像结构，解码网络中包含n个火转置(Firetranspose)层、上采样(upsample)层和第二卷积层。

在一个示意性的例子中，与图7所示编码网络相对应的，解码网络的网络结构如图9所示。从上至下，该解码网络包括第一Fire transpose层91、第一上采样层92、第二Firetranspose层93、第三Fire transpose层94、第四Fire transpose层95、第二上采样层96和第二卷积层97。

示意性的，第一Fire transpose层91、第二Fire transpose层93、第三Firetranspose层94和第四Fire transpose层95的结构如图9所示。每个Fire transpose层包括分离模块981、第二挤压模块982、第三挤压模块983和第三扩展模块984，第二挤压模块982和第三挤压模块983用于进行特征降维，第三扩展模块984用于对第二挤压模块982和第三挤压模块983输出的特征进行升维。其中，第二挤压模块982采用1×1的卷积核，第三挤压模块983采用3×3的卷积核，第三扩展模块984采用1×1的卷积核。

在一种可能的实现方式中，Fire transpose层进行特征还原的过程如下：

一、(分离模块)将输入特征按照通道数平分为两部分，分别为x_l和x_r；

二、(第二挤压模块)根据1×1的卷积核，以步长1对x_l进行卷积处理，输出x_l_out；(第三挤压模块)根据3×3的卷积核，以步长1对x_r进行卷积处理，输出x_r_out。

三、对x_l_out和x_r_out进行求和后，输出x_out；

四、(第三扩展模块)根据1×1的卷积核，以步长1对x_out进行卷积处理后输出。

可选的，图9中，第一Fire transpose层91中挤压模块中深度卷积核的数量为32，扩展模块中深度卷积核的数量为256；

第二Fire transpose层93中挤压模块中深度卷积核的数量为32，扩展模块中深度卷积核的数量为128；

第三Fire transpose层94中挤压模块中深度卷积核的数量为16，扩展模块中深度卷积核的数量为128；

第四Fire transpose层95中挤压模块中深度卷积核的数量为16，扩展模块中深度卷积核的数量为64；

第二卷积层97中卷积核的尺寸为3×3，卷积核数量为3且步长为1。

为了降低运算量，并提高特征表达的准确性，可选的，解码网络中的上采样层采用的上采样方式为亚像素卷积(sub-pixel convolution)。

步骤412，将目标局部图像与待处理图像融合，生成目标图像。

本步骤的实施方式可以参考上述步骤204，本实施例在此不再赘述。

本实施例中，计算机设备利用五官分割网络进行局部图像提取，无需人工进行人脸部位划分，在提高提取效率的同时，提高了图像提取的准确性；并且，通过对灰度矩阵进行裁剪，从而利用裁剪得到的裁剪矩阵进行局部图像提取，能够降低局部图像提取时的计算量。

此外，本实施例中，计算机设备采用基于SqueezeNet的编码网络对局部图像进行特征提取，并对提取到的内容特征和风格特征进行特征融合，从而利用解码网络对融合后的图像特征进行图像还原，得到风格迁移后的局部图像，由于SqueezeNet的网络参数量较少且运行时的运算量较低，因此能够应用于移动终端中，方便用户使用手机、平板等移动终端进行人脸美颜。

在一个示意性的实施例中，计算机设备对待处理图像进行风格迁移的过程如图10所示。

一、将待处理图像1001和风格图像1002分别输入五官分割网络1003，得到第一灰度矩阵1004和第二灰度矩阵1005；

二、对第一灰度矩阵1004进行裁剪，得到第一裁剪矩阵1006；对第二灰度矩阵1005进行裁剪，得到第二裁剪矩阵1007；

三、根据待处理图像1001和第一裁剪矩阵1006，生成第一局部图像1008；根据风格图像1002和第二裁剪矩阵1007，生成第二局部图像1009；

四、将第一局部图像1008和第二局部图像1009分别输入编码网络1010，得到第一图像特征1011和第二图像特征1012；

五、对第一图像特征1011和第二图像特征1012进行特征融合，得到目标图像特征1013；

六、将目标图像特征1013输入解码网络1014，得到目标局部图像1015；

七、根据待处理图像1001和目标局部图像1015，生成目标图像1016。

针对上述实施例中五官分割网络和风格迁移网络的训练过程，在一种可能的实现方式中，五官分割网络和风格迁移网络首先经过单独训练，并在单独训练完成后进行联合训练。

可选的，如图11所示，风格迁移网络的训练过程可以包括如下步骤。

步骤1101，获取第一样本图像和第二样本图像，第一样本图像和第二样本图像包含相同人脸部位的影像，且第一样本图像和第二样本图像中人脸部位的风格不同。

可选的，第一样本图像和第二样本图像是包含同一人脸部位的局部图像。比如，第一样本图像和第二样本图像均为包含左眼的局部图像。

在一种可能的实施方式中，第一样本图像和第二样本图像可以由训练完成的五官分割网络从图像中提取得到。

步骤1102，将第一样本图像和第二样本图像输入编码网络，得到编码网络输出的第一样本特征和第二样本特征。

训练过程中，第一样本图像和第二样本图像分别输入待训练的编码网络，由待训练的编码网络进行特征提取，得到第一样本特征和第二样本特征。其中，利用编码网络进行特征提取的方式可以参考上述实施例，本实施例在此不再赘述。

步骤1103，对第一样本特征和第二样本特征进行特征融合，得到目标样本特征。

其中，对样本特征进行特征融合的过程可以参考上述实施例，本实施例在此不再赘述。

步骤1104，将目标样本特征输入解码网络，得到解码网络输出的目标样本图像，目标样本图像是根据第二样本图像的风格对第一样本图像进行风格迁移后得到的图像。

其中，利用待训练的解码网络对目标样本特征进行图像还原的过程可以参考上述实施例，本实施例在此不再赘述。

步骤1105，根据目标样本图像、第一样本图像和第二样本图像，计算目标损失。

为了衡量编码网络以及解码网络的特征提取以及图像还原质量，计算机设备以第一样本图像和第二样本图像作为监督，计算目标样本图像的目标损失，以便后续基于目标损失对编码网络以及解码网络中的网络参数进行调整。

由于目标样本图像需要同时具备第一样本图像的内容特点以及第二样本图像的风格特点，因此可以从内容损失和风格损失两方面确定目标样本图像的目标损失。在一种可能的实施方式中，本步骤可以包括如下步骤。

一、根据目标样本图像和第一样本图像计算内容损失，内容损失用于指示目标样本图像和第一样本图像之间的内容差异。

可选的，计算机设备将目标样本图像和第一样本图像分别输入编码网络，得到编码网络中输出层输出的特征图，从而根据目标样本图像和第一样本图像各自对应的特征图，计算内容损失。

在一个示意性的例子中，当编码网络的网络结构如图7所示时，计算机设备获取第四Fire层77(即输出层)输出的特征图(包括目标样本图像的特征图以及第一样本图像的特征图)，并根据输出的两张图像的特征图，计算内容损失。

可选的，内容损失的计算公式如下：

其中，P为目标样本图像，

为目标样本图像的图像特征，X为第一样本图像，

为第一样本图像的图像特征，l为输出层，i,j为像素点在图像中的横纵坐标。

二、根据目标样本图像和第二样本图像计算风格损失，风格损失用于指示目标样本图像和第二样本图像之间的风格差异。

为了提高训练质量，在计算风格损失时，计算机设备需要综合低层图像特征损失和高层图像特征损失。

可选的，计算机设备将目标样本图像和第二样本图像输入编码网络，得到编码网络中至少两层特征提取层输出的特征图；根据目标样本图像和第二样本图像各自对应的特征图，计算风格损失，该至少两层特征提取层包括编码网络的输出层和至少一层中间层。

在一个示意性的例子中，当编码网络的网络结构如图7所示时，计算机设备获取第一卷积层71、第一Fire层73、第二Fire层74和第四Fire层77输出的特征图(包括目标样本图像的特征图以及第一样本图像的特征图)，并根据同一层输出的两张图像的特征图，计算该层对应的风格损失，从而对各层的风格损失进行叠加，计算得到总的风格损失。

在一种可能的实施方式中，计算机设备首先构建特征感知矩阵，然后利用特征感知矩阵计算风格损失。

可选的，计算机设备构建的特征感知矩阵如下：

其中，h,w,c分别为图像的长、宽和通道，c'为c的转置，φ表示通过编码网络进行特征提取，j为输出特征图的层级(比如上述示例中的第一卷积层71、第一Fire层73、第二Fire层74和第四Fire层77)。

相应的，根据特征感知矩阵，计算目标样本图像的风格特征与第二样本图像的风格特征之间的距离，得到风格损失，其中，风格损失的计算公式如下：

其中，y为第二样本图像的风格特征，

为目标样本图形的风格特征。

三、根据内容损失和风格损失计算目标损失。

进一步的，计算机设备将内容损失与风格损失融合，得到目标损失，该目标损失的计算公式如下：

L＝αL_content+βL_style

其中，α和β分别用于控制内容损失和风格损失在目标损失中的权重，α越大，目标样本图像中的内容特征越明显，β越大，目标样本图像的风格特征越明显。

步骤1106，根据目标损失训练编码网络和解码网络。

在一种可能的实施方式中，计算机设备通过反向传播算法(或梯度下降算法)，根据目标损失对编码网络和解码网络中的网络参数进行调整，并在目标损失满足收敛条件时停止训练。本申请实施例并不对根据目标损失训练网络的具体方式进行限定。

请参考图12，其示出了本申请一个实施例提供的图像处理装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为图1中主叫方终端210计算机设备的全部或一部分。该装置包括：

获取模块1201，用于获取待处理图像和风格图像，所述待处理图像与所述风格图像中目标人脸部位的风格不同；

提取模块1202，用于从所述待处理图像中提取第一局部图像，并从所述风格图像中提取第二局部图像，所述第一局部图像和所述第二局部图像包含所述目标人脸部位的影像；

风格迁移模块1203，用于根据所述第二局部图像对所述第一局部图像进行风格迁移，得到目标局部图像，所述目标局部图像与所述第一局部图像中所述目标人脸部位的风格相同；

生成模块1204，用于将所述目标局部图像与所述待处理图像融合，生成目标图像。

可选的，所述风格迁移模块1203，包括：

第一特征提取单元，用于将所述第一局部图像输入编码网络，得到所述编码网络输出的第一图像特征，所述编码网络用于对输入的图像进行特征提取；

第二特征提取单元，用于将所述第二局部图像输入所述编码网络，得到所述编码网络输出的第二图像特征；

第一特征融合单元，用于对所述第一图像特征和所述第二图像特征进行特征融合，得到目标图像特征；

第一还原单元，用于将所述目标图像特征输入解码网络，得到所述解码网络输出的所述目标局部图像，所述解码网络用于根据输入的图像特征进行图像还原。

可选的，所述编码网络基于SqueezeNet，且所述解码网络与所述编码网络互为镜像结构；

所述编码网络包括第一卷积层、最大池化层和n个Fire层，各个所述Fire层包括第一挤压模块、第一扩展模块和第二扩展模块，所述第一挤压模块用于进行特征降维，所述第一扩展模块和所述第二扩展模块用于对所述第一挤压模块输出的特征进行升维，n为小于等于4的正整数；

所述编码网络包括n个Fire transpose层、上采样层和第二卷积层，各个所述Firetranspose层包括第二挤压模块、第三挤压模块和第三扩展模块，所述第二挤压模块和所述第三挤压模块用于进行特征降维，所述第三扩展模块用于对所述第二挤压模块和所述第三挤压模块输出的特征进行升维。

可选的，所述第一特征融合单元，用于：

根据所述第一图像特征中各个特征通道对应的第一特征均值和第一特征标准差，构建第一均值向量和第一标准差向量；

根据所述第二图像特征中各个特征通道对应的第二特征均值和第二特征标准差，构建第二均值向量和第二标准差向量；

根据所述第一图像特征、所述第一均值向量、所述第一标准差向量、所述第二均值向量和所述第二标准差向量，生成所述目标图像特征。

可选的，所述提取模块1202，包括：

第一图像提取单元，用于将所述待处理图像输入五官分割网络，得到所述五官分割网络输出的第一灰度矩阵，所述第一灰度矩阵用于表示所述目标人脸部位在所述待处理图像中的位置；对所述第一灰度矩阵进行裁剪，得到第一裁剪矩阵，所述第一裁剪矩阵用于表示包含所述目标人脸部位的最小矩形区域；根据所述第一裁剪矩阵和所述待处理图像生成所述第一局部图像；

第二图像提取单元，用于将所述风格图像输入所述五官分割网络，得到所述五官分割网络输出的第二灰度矩阵，所述第二灰度矩阵用于表示所述目标人脸部位在所述风格图像中的位置；对所述第二灰度矩阵进行裁剪，得到第二裁剪矩阵，所述第二裁剪矩阵用于表示包含所述目标人脸部位的最小矩形区域；根据所述第二裁剪矩阵和所述风格图像生成所述第二局部图像。

可选的，所述装置还包括：

填充模块，用于对所述第一局部图像和所述第二局部图像进行镜像填充处理，其中，所述镜像填充处理用于消除图像中的人工伪边。

可选的，所述装置还包括：

样本获取模块，用于获取第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像包含相同人脸部位的影像，且所述第一样本图像和所述第二样本图像中人脸部位的风格不同；

样本特征提取模块，用于将所述第一样本图像和所述第二样本图像输入所述编码网络，得到所述编码网络输出的第一样本特征和第二样本特征；

样本特征融合模块，用于样本特征对所述第一样本特征和所述第二样本特征进行特征融合，得到目标样本特征；

样本还原模块，用于将所述目标样本特征输入所述解码网络，得到所述解码网络输出的所述目标样本图像，所述目标样本图像是根据所述第二样本图像的风格对所述第一样本图像进行风格迁移后得到的图像；

损失计算模块，用于根据所述目标样本图像、所述第一样本图像和所述第二样本图像，计算目标损失；

训练模块，用于根据所述目标损失训练所述编码网络和所述解码网络。

可选的，所述损失计算模块，包括：

第一计算单元，用于根据所述目标样本图像和所述第一样本图像计算内容损失，所述内容损失用于指示所述目标样本图像和所述第一样本图像之间的内容差异；

第二计算单元，用于根据所述目标样本图像和所述第二样本图像计算风格损失，所述风格损失用于指示所述目标样本图像和所述第二样本图像之间的风格差异；

第三计算单元，用于根据所述内容损失和所述风格损失计算所述目标损失。

可选的，所述第一计算单元，用于：

将所述目标样本图像和所述第一样本图像输入所述编码网络，得到所述编码网络中输出层输出的特征图；根据所述目标样本图像和所述第一样本图像各自对应的特征图，计算所述内容损失；

所述第二计算单元，用于：

将所述目标样本图像和所述第二样本图像输入所述编码网络，得到所述编码网络中至少两层特征提取层输出的特征图，所述至少两层特征提取层包括输出层和至少一层中间层；根据所述目标样本图像和所述第二样本图像各自对应的特征图，计算所述风格损失。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的图像处理方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的图像处理方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二局部图像对所述第一局部图像进行风格迁移，得到目标局部图像，包括：

将所述第一局部图像输入编码网络，得到所述编码网络输出的第一图像特征，所述编码网络用于对输入的图像进行特征提取；

将所述第二局部图像输入所述编码网络，得到所述编码网络输出的第二图像特征；

对所述第一图像特征和所述第二图像特征进行特征融合，得到目标图像特征；

将所述目标图像特征输入解码网络，得到所述解码网络输出的所述目标局部图像，所述解码网络用于根据输入的图像特征进行图像还原。

3.根据权利要求2所述的方法，其特征在于，所述编码网络基于挤压网络SqueezeNet，且所述解码网络与所述编码网络互为镜像结构；

所述编码网络包括n个火转置Fire transpose层、上采样层和第二卷积层，各个所述Fire transpose层包括第二挤压模块、第三挤压模块和第三扩展模块，所述第二挤压模块和所述第三挤压模块用于进行特征降维，所述第三扩展模块用于对所述第二挤压模块和所述第三挤压模块输出的特征进行升维。

4.根据权利要求2所述的方法，其特征在于，所述对所述第一图像特征和所述第二图像特征进行特征融合，得到目标图像特征，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述从所述待处理图像中提取第一局部图像，并从所述风格图像中提取第二局部图像，包括：

将所述待处理图像输入五官分割网络，得到所述五官分割网络输出的第一灰度矩阵，所述第一灰度矩阵用于表示所述目标人脸部位在所述待处理图像中的位置；对所述第一灰度矩阵进行裁剪，得到第一裁剪矩阵，所述第一裁剪矩阵用于表示包含所述目标人脸部位的最小矩形区域；根据所述第一裁剪矩阵和所述待处理图像生成所述第一局部图像；

将所述风格图像输入所述五官分割网络，得到所述五官分割网络输出的第二灰度矩阵，所述第二灰度矩阵用于表示所述目标人脸部位在所述风格图像中的位置；对所述第二灰度矩阵进行裁剪，得到第二裁剪矩阵，所述第二裁剪矩阵用于表示包含所述目标人脸部位的最小矩形区域；根据所述第二裁剪矩阵和所述风格图像生成所述第二局部图像。

6.根据权利要求5所述的方法，其特征在于，所述从所述待处理图像中提取第一局部图像，并从所述风格图像中提取第二局部图像之后，所述方法还包括：

对所述第一局部图像和所述第二局部图像进行镜像填充处理，其中，所述镜像填充处理用于消除图像中的人工伪边。

7.根据权利要求2至4任一所述的方法，其特征在于，所述方法还包括：

获取第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像包含相同人脸部位的影像，且所述第一样本图像和所述第二样本图像中人脸部位的风格不同；

将所述第一样本图像和所述第二样本图像输入所述编码网络，得到所述编码网络输出的第一样本特征和第二样本特征；

对所述第一样本特征和所述第二样本特征进行特征融合，得到目标样本特征；

将所述目标样本特征输入所述解码网络，得到所述解码网络输出的所述目标样本图像，所述目标样本图像是根据所述第二样本图像的风格对所述第一样本图像进行风格迁移后得到的图像；

根据所述目标样本图像、所述第一样本图像和所述第二样本图像，计算目标损失；

根据所述目标损失训练所述编码网络和所述解码网络。

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标样本图像、所述第一样本图像和所述第二样本图像，计算目标损失，包括：

根据所述目标样本图像和所述第一样本图像计算内容损失，所述内容损失用于指示所述目标样本图像和所述第一样本图像之间的内容差异；

根据所述目标样本图像和所述第二样本图像计算风格损失，所述风格损失用于指示所述目标样本图像和所述第二样本图像之间的风格差异；

根据所述内容损失和所述风格损失计算所述目标损失。

9.根据权利要求8所述的方法，其特征在于，所述根据所述目标样本图像和所述第一样本图像计算内容损失，包括：

所述根据所述目标样本图像和所述第二样本图像计算风格损失，包括：

10.一种图像处理装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至9任一所述的图像处理方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至9任一所述的图像处理方法。