CN111597926A

CN111597926A - 图像处理方法及装置、电子设备及存储介质

Info

Publication number: CN111597926A
Application number: CN202010356731.5A
Authority: CN
Inventors: 李佳桦
Original assignee: Shenzhen Shangtang Intelligent Sensor Technology Co ltd
Current assignee: Shenzhen Shangtang Intelligent Sensor Technology Co ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-28

Abstract

本申请公开了一种图像处理方法及装置、电子设备及存储介质。该方法包括：获取第一人脸模型以及参考表情数据，其中，所述第一人脸模型基于人脸得到；依据所述参考表情数据渲染所述第一人脸模型的表情，得到第二人脸模型。

Description

图像处理方法及装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法及装置、电子设备及存储介质。

背景技术

随着图像处理技术的发展，基于图像处理实现的应用也越来越多，其中，表情迁移即为众多应用中的一个。通过将待迁移表情迁移至人脸模型，可改变人脸模型的表情，得到迁移表情后的人脸模型，而如何提高迁移表情后的人脸模型的逼真度具有非常重要的意义。

发明内容

本申请提供一种图像处理方法及装置、电子设备及存储介质。

第一方面，提供了一种图像处理方法，所述方法包括：

获取第一人脸模型以及参考表情数据，其中，所述第一人脸模型基于人脸得到；

依据所述参考表情数据渲染所述第一人脸模型的表情，得到第二人脸模型。

在该方面中，依据参考表情数据和第一人脸模型得到第二人脸模型，实现将参考表情数据所指示的表情迁移至第一人脸模型，进一步的，通过改变参考表情数据所指示的表情，可得到任意表情下的第一人脸模型。由于第一人脸模型比非基于人脸得到的人脸模型更逼真，通过将参考表情数据所指示的表情迁移至第一人脸模型，可得到更逼真的第二人脸模型，使表情迁移的效果更加自然。

结合本申请任一实施方式，所述获取参考表情数据，包括：

获取第一人脸图像；

对所述第一人脸图像进行人脸关键点提取处理，得到所述第一人脸图像中的人脸关键点信息；

依据所述人脸关键点信息，得到所述参考表情数据。

在实施方式中，通过对第一人脸图像进行人脸关键点提取处理，可得到人脸关键点信息，进而可依据人脸关键点信息确定第一人脸图像中的表情数据，作为参考表情数据。

结合本申请任一实施方式，所述依据所述参考表情数据和所述第一人脸模型，得到第二人脸模型，包括：

对所述第一人脸模型进行特征提取处理，得到第一特征图像；

对所述第一特征图像和所述参考表情数据进行融合处理，得到第二特征图像；

对所述第二特征图像进行上采样处理，得到所述第二人脸模型。

在该实施方式中，通过对参考表情数据和第一人脸模型进行融合处理，实现将参考表情数据所指示的表情迁移至第一人脸模型，得到第二人脸模型。

结合本申请任一实施方式，所述获取第一人脸图像，包括：

获取视频流；

对所述视频流中的图像进行人脸检测处理，得到包含人脸的图像，作为所述第一人脸图像。

在该实施方式中，通过对视频流中的图像进行人脸检测处理，得到第一人脸图像，进而可实现将视频流中的表情迁移至第一人脸模型。

结合本申请任一实施方式，所述获取参考表情数据，包括：

获取第一音频数据；

依据映射关系与所述第一音频数据中携带的信息，得到所述参考表情数据，其中，所述映射关系用于表示音频数据中携带的信息与表情数据之间的映射。

在该实施方式中，可通过第一音频数据改变第一人脸模型的表情，得到第二人脸模型。

结合本申请任一实施方式，所述方法还包括：

获取所述第一人脸模型的人物属性；

依据所述人物属性，得到第二音频数据，其中，所述第二音频数据中携带的信息与所述第一音频数据中携带的信息相同；

在控制所述第二人脸模型执行说话操作的过程中，输出所述第二音频数据。

结合本申请任一实施方式，在所述依据映射关系与所述第一音频数据中携带的信息，得到所述参考表情数据之前，所述方法还包括：

对所述第一音频数据进行声音特征提取处理，得到特征数据；

所述依据映射关系与所述第一音频数据中携带的信息，得到所述参考表情数据，包括：

依据所述映射关系与所述第一音频数据中携带的信息，得到中间表情数据；

依据所述特征数据，调整所述中间表情数据得到所述参考表情数据。

结合本申请任一实施方式，所述获取第一音频数据，包括：

通过语音采集组件采集语音数据；

对所述语音数据进行语义分析处理，得到语义数据；

依据所述语义数据中携带的信息得到所述第一音频数据。

结合本申请任一实施方式，所述第一人脸模型基于人脸得到，包括：

获取第二人脸图像和所述第二人脸图像的深度图像；

依据所述第二人脸图像和所述深度图像，得到所述第一人脸模型。

在该实施方式中，依据第二人脸图像和深度图像可得到第一人脸模型。

结合本申请任一实施方式，所述依据所述第二人脸图像和所述深度图像，得到所述第一人脸模型，包括：

依据所述第二人脸图像和所述深度图像，得到第三人脸模型；

将所述第三人脸模型中属于参考区域的像素区域去除，得到第四人脸模型，其中，所述参考区域包括以下至少一个：眼睛区域、口腔区域；

向所述第四人脸模型中的参考区域填充参考数据，得到所述第一人脸模型，其中，所述参考数据包括以下至少一个：眼睛区域的数据、口腔区域的数据。

在该实施方式中，通过将第三人脸模型中属于参考区域的像素区域去除，得到第四人脸模型，并向第四人脸模型中的参考区域填充参考数据，得到第一人脸模型。这样，在调整第一人脸模型的表情的过程中，可利用与参考数据关联的相关数据，从而降低得到的第二人脸模型中出现缺失信息的情况发生的概率，提高第二人脸模型的逼真度。

结合本申请任一实施方式，所述第一人脸模型为三维人脸模型。

第二方面，提供了一种图像处理装置，所述装置包括：

第一获取单元，用于获取第一人脸模型以及参考表情数据，其中，所述第一人脸模型基于人脸得到；

第一处理单元，用于依据所述参考表情数据渲染所述第一人脸模型的表情，得到第二人脸模型。

结合本申请任一实施方式，所述第一获取单元，用于：

获取第一人脸图像；

依据所述人脸关键点信息，得到所述参考表情数据。

结合本申请任一实施方式，所述第一处理单元，用于：

结合本申请任一实施方式，所述第一获取单元，用于：

获取视频流；

结合本申请任一实施方式，所述第一获取单元，用于：

获取第一音频数据；

结合本申请任一实施方式，所述装置还包括：

第二获取单元，用于获取所述第一人脸模型的人物属性；

第二处理单元，用于依据所述人物属性，得到第二音频数据，其中，所述第二音频数据中携带的信息与所述第一音频数据中携带的信息相同；

控制单元，在控制所述第二人脸模型执行说话操作的过程中，输出所述第二音频数据。

结合本申请任一实施方式，所述装置还包括：

第三处理单元，用于在所述依据映射关系与所述第一音频数据中携带的信息，得到所述参考表情数据之前，对所述第一音频数据进行声音特征提取处理，得到特征数据；

所述第一获取单元用于：

结合本申请任一实施方式，所述第一获取单元用于：

通过语音采集组件采集语音数据；

对所述语音数据进行语义分析处理，得到语义数据；

依据所述语义数据中携带的信息得到所述第一音频数据。

获取第二人脸图像和所述第二人脸图像的深度图像；

第三方面，提供了一种处理器，所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种像素坐标系的示意图；

图2为本申请实施例提供的另一种像素坐标系的示意图；

图3为本申请实施例提供的一种图像处理方法的流程示意图；

图4为本申请实施例提供的一种人脸关键点的示意图；

图5为本申请实施例提供的另一种图像处理方法的流程示意图；

图6为本申请实施例提供的另一种图像处理方法的流程示意图；

图7为本申请实施例提供的另一种图像处理方法的流程示意图；

图8为本申请实施例提供的一种白模的示意图；

图9为本申请实施例提供的另一种图像处理方法的流程示意图；

图10为本申请实施例提供的一种图像处理装置的结构示意图；

图11为本申请实施例提供的一种图像处理装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例的执行主体为图像处理装置，可选的，图像处理装置可以是以下中的一种：手机、计算机、服务器、平板电脑。

在进行接下来的阐述之前，首先对本申请实施例中的像素坐标系进行定义。在本申请实施例中，像素坐标系包括二维图像中像素坐标系和三维人脸模型中的像素坐标系。

二维图像中像素坐标系可参见图1，如图1所示，以人脸图像A的右下角为像素坐标系的原点o、平行于人脸图像A的行的方向为x轴的方向、平行于人脸图像A的列的方向为y轴的方向，构建像素坐标系xoy。在像素坐标系下，横坐标用于表示人脸图像A中的像素在人脸图像A中的列数，纵坐标用于表示人脸图像A中的像素在人脸图像A中的行数，横坐标和纵坐标的单位均可以是像素。例如，假设图1中的像素a的坐标为(10，30)，即像素a的横坐标为10个像素，像素a的纵坐标为30个像素，像素a为人脸图像A中的第10列第30行的像素。

三维人脸模型中的像素坐标系oxyz为：以三维人脸模型中两眼之间的中点为原点o、构建得到的三维坐标系，其中，ox轴垂直于三维人脸模型的正中矢状面，且指向三维人脸模型的左脸区域。上述正中矢状面为过三维人脸模型的正中线，且将三维人脸模型分为左、右对称的两部分的矢状面。三维人脸模型中的左脸区域和右脸区域的划分可参见图2，在图2所示的三维人脸模型中，正中矢状面将三维人脸模型分为左脸区域和右脸区域。oy轴平行于三维人脸模型的正中矢状面。oz轴垂直于xoy平面，且oz轴的方向(下文将oz轴的方向称为深度方向)与三维人脸模型的面部朝向相同，在本申请实施例中，ox轴的方向为水平方向，oy轴的方向为竖直方向，oz轴的方向为深度方向。下文将ox轴上的坐标称为横坐标，将OY轴上的坐标称为纵坐标，将oz轴上的坐标称为竖坐标。在像素坐标系下，横坐标用于表示三维人脸模型中的像素在三维人脸模型中的列数，纵坐标用于表示三维人脸模型中的像素在三维人脸模型中的行数，竖坐标用于表示三维人脸模型中的像素在三维人脸模型中的深度数，横坐标、纵坐标和竖坐标的单位均可以是像素。例如，假设三维人脸模型的像素a的坐标为(10，30，20)，即像素a的横坐标为10个像素，像素a的纵坐标为30个像素。

下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图3，图3是本申请实施例提供的一种图像处理方法的流程示意图。

301、获取第一人脸模型以及参考表情数据。

本申请实施例中，第一人脸模型可以是包含人脸的二维图像，也可以是三维人脸模型。其中，三维人脸模型可以是计算机辅助设计(computer aided design，CAD)三维人脸模型，三维人脸模型也可以是三维人脸凸包，三维人脸模型也可以是三维人脸点云。无论第一人脸模型为人脸图像还是三维人脸模型，第一人脸模型均基于人脸得到。

在第一人脸模型为包含人脸的二维图像的情况下，作为一种获取第一人脸模型的可能实现的方式，图像处理装置通过成像设备采集人脸图像，获取第一人脸模型。例如，假设图像处理装置为具有摄像头的手机。手机通过摄像头对张三的脸部进行拍摄，得到包含张三的脸部的图像，作为第一人脸模型。

在第一人脸模型为包含人脸的二维图像的情况下，作为另一种获取第一人脸模型的可能实现的方式，图像处理装置接收用户通过输入组件输入的人脸图像，作为第一人脸模型，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在第一人脸模型为包含人脸的二维图像的情况下，作为另一种获取第一人脸模型的可能实现的方式，图像处理装置接收第一终端发送的人脸图像，其中，第一终端包括手机、计算机、服务器、平板电脑等。

在第一人脸模型为包含人脸的二维图像的情况下，作为又一种获取第一人脸模型的可能实现的方式，图像处理装置通过成像设备采集人脸图像，获取第一人脸模型。例如，假设图像处理装置为具有摄像头的手机。手机通过摄像头对张三的脸部进行拍摄，得到包含张三的脸部的图像，作为第一人脸模型。

在第一人脸模型为三维人脸模型的情况下，作为另一种获取第一人脸模型的可能实现的方式，图像处理装置接收用户通过输入组件输入的三维人脸模型，作为第一人脸模型，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在第一人脸模型为三维人脸模型的情况下，作为另一种获取第一人脸模型的可能实现的方式，图像处理装置接收第二终端发送的三维人脸模型，其中，第二终端包括手机、计算机、服务器、平板电脑等。

在第一人脸模型为三维人脸模型的情况下，作为又一种获取第一人脸模型的可能实现的方式，通过图像处理装置的成像设备对人脸进行扫描，可获取三维人脸模型，作为第一人脸模型。例如，图像处理装置为平板电脑，使用平板电脑的RGB摄像头对李四的脸部进行拍摄得到第一图像，在拍摄得到第一图像的同时使用飞行时间(time of flight，TOF)摄像头对李四的脸部进行拍摄得到第二图像。基于第一图像和第二图像，可得到李四的脸部三维模型，作为第一人脸模型。

由于本申请实施例中的第一人脸模型基于人脸得到，第一人脸模型比非基于人脸得到的人脸模型更逼真，其中，逼真指与人脸的相似度，非基于人脸得到的人脸模型包括卡通人脸图像、卡通三维人脸模型。人脸模型越逼真，在用户的视觉感受上，人脸模型与真人的相似度越高。

本申请实施例中，参考表情数据可以是通过对人脸图像进行人脸关键点提取处理得到的表情数据。例如，对包含小明的脸部的图像进行人脸关键点提取处理，得到小明的人脸掩膜，其中，人脸掩膜携带小明的表情数据。

参考表情数据还可以是表情指令所指示的表情数据，例如，图像处理装置中存储有3种表情数据，分别为微笑、奸笑、愤怒，其中，指示的表情数据为微笑的表情指令为a，指示的表情数据为奸笑的表情指令为b，指示的表情数据为愤怒的表情指令为c。在图像处理装置接收到的表情指令为a的情况下，参考表情数据为微笑。在图像处理装置接收到的表情指令为b的情况下，参考表情数据为奸笑。在图像处理装置接收到的表情指令为c的情况下，参考表情数据为愤怒。

参考表情数据还可以是携带表情数据的语句，例如，该语句可以是微笑，又例如，该语句可以是愁眉苦脸。

在一种获取参考表情数据的实现方式中，图像处理装置接收用户通过输入组件输入的参考表情数据。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取参考表情数据的实现方式中，图像处理装置接收第三终端发送的参考表情数据。第三终端包括手机、计算机、平板电脑、服务器、可穿戴设备。

在又一种获取参考表情数据的实现方式中，图像处理装置接收用户输入的表情指令，并依据表情指令确定参考表情数据。

302、依据上述参考表情数据渲染上述第一人脸模型，得到第二人脸模型。

本申请实施例中，第二人脸模型的五官与第一人脸模型的五官相同，第二人脸模型的发型与第一人脸模型的发型相同，第二人脸模型的脸部轮廓与第一人脸模型的脸部轮廓相同，第二人脸模型的人脸纹理数据与第一人脸模型的人脸模型数据相同，第二人脸模型的表情与参考表情数据所指示的表情相同。

上述人脸纹理数据包括人脸皮肤的肤色信息、人脸皮肤的光泽度信息、人脸皮肤的皱纹信息、人脸皮肤的纹理信息。

上述五官相同包括五官关键点的位置信息相同。上述脸部轮廓相同包括脸部轮廓关键点的位置信息相同。其中，脸部轮廓关键点的位置信息包括脸部轮廓关键点在人脸模型(包括第一人脸模型和第二人脸模型)坐标系下的坐标，五官的位置信息包括五官关键点在像素坐标下的坐标。

举例来说，如图4所示，五官关键点包括眉毛区域的关键点、眼睛区域的关键点、鼻子区域的关键点、嘴巴区域的关键点、耳朵区域的关键点。脸部轮廓关键点包括脸部轮廓线上的关键点。需要理解的是图4所示关键点(包括五官关键点和脸部轮廓关键点)的数量和位置仅为本申请实施例提供的一个示例，不应对本申请构成限定。

对同一个人而言，人脸纹理数据是固定不变的，也就是说，好比指纹信息、虹膜信息可作为一个人的身份信息，人脸纹理数据也可视为一个人的身份信息。由于第一人脸模型的人脸纹理数据与第二人脸模型的人脸纹理数据相同，第二人脸模型的表情与参考表情数据所指示的表情相同，依据参考表情数据和第一人脸模型得到第二人脸模型，可实现将参考表情数据所指示的表情迁移至第一人脸模型。

举例来说，第一人脸模型为小红的三维人脸模型，且第一人脸模型的表情为微笑，参考表情数据所指示的表情为愤怒。依据参考表情数据和第一人脸模型得到的第二人脸模型为小红的三维人脸模型，但第二人脸模型的表情为愤怒。

作为一种得到第二人脸模型的实现方式，在参考表情数据通过对人脸图像进行人脸关键点提取处理得到的情况下，对参考表情数据和第一人脸模型进行融合处理，可得到第二人脸模型。例如，假设人脸图像a中的表情为微笑。通过对人脸图像a进行人脸关键点提取处理，得到的参考表情数据携带人脸图像a中的微笑表情的信息。对参考表情数据a和第一人脸模型进行融合处理，得到表情为人脸图像a中的微笑的第二人脸模型。

作为另一种得到第二人脸模型的实现方式，在参考表情数据为表情指令所指示的表情数据的情况下，依据参考表情数据，对第一人脸模型进行形变处理，可得到第二人脸模型。上述形变处理包括以下至少一种：调整第一人脸模型的形状、调整第一人脸模型的大小。例如，假设参考表情数据为奸笑。通过对第一人脸模型进行形变处理，得到表情为奸笑的第二人脸模型。

本申请实施例依据参考表情数据和第一人脸模型得到第二人脸模型，实现将参考表情数据所指示的表情迁移至第一人脸模型，进一步的，通过改变参考表情数据所指示的表情，可得到任意表情下的第一人脸模型。由于第一人脸模型比非基于人脸得到的人脸模型更逼真，通过将参考表情数据所指示的表情迁移至第一人脸模型，可得到更逼真的第二人脸模型，使表情迁移的效果更加自然。

请参阅图5，图5是本申请实施例提供的步骤302的一种可能实现的方法的流程示意图。

501、获取第一人脸图像。

本申请实施例中，第一人脸图像为包含人脸的图像。

获取第一人脸图像的方式可以是：图像处理装置接收用户通过输入组件输入的第一人脸图像，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

获取第一人脸图像的方式也可以是：图像处理装置接收第四终端发送的第一人脸图像，其中，第四终端包括手机、计算机、平板电脑、服务器等。

获取第一人脸图像还可以是：图像处理装置通过摄像头采集获得，例如，图像处理装置为手机，将通过手机的摄像头拍摄获得的人脸图像作为第一人脸图像。

获取第一人脸图像的方式还可以是：图像处理装置从视频流中截取的一帧包含人脸的图像，作为第一人脸图像。

本申请对获取第一人脸图像的方式不做限定。

502、对上述第一人脸图像进行人脸关键点提取处理，得到上述第一人脸图像中的人脸关键点信息。

本实施例中，通过对第一人脸图像进行人脸关键点提取处理，可得到第一人脸图像中的人脸关键点在像素坐标系下的坐标。依据人脸关键点在像素坐标系下的坐标，可确定第一人脸图像中的人脸关键点信息。本申请实施例中，人脸关键点包括五官关键点和脸部轮廓关键点。

在一种确定第一人脸图像中的人脸关键点信息的实现方式中，对第一人脸图像进行人脸关键点提取处理可通过卷积神经网络实现。通过将带有标注信息的图像作为训练数据，对卷积神经网络进行训练，使训练后的卷积神经网络可完成对第一人脸图像的人脸关键点提取处理。训练数据中的图像的标注信息为人脸关键点在像素坐标系下的坐标。在使用训练数据对卷积神经网络进行训练的过程中，卷积神经网络从图像中提取出图像的特征数据，并依据特征数据确定图像中的人脸关键点在像素坐标系下的坐标。以标注信息为监督信息监督卷积神经网络在训练过程中得到的结果，并更新卷积神经网络的参数，完成对卷积神经网络的训练。这样，可使用训练后的卷积神经网络对第一人脸图像进行人脸关键点提取处理，以得到第一待处理图像中的人脸关键点在像素坐标系下的坐标。

在另一种确定第一人脸图像中的人脸关键点信息的实现方式中，人脸关键点提取处理可通过人脸关键点提取算法实现，其中，上述人脸关键点提取处理可通过以下任意一种算法实现：OpenFace、多任务级联卷积神经网络(multi-task cascaded convolutionalnetworks，MTCNN)、调整卷积神经网络(tweaked convolutional neural networks，TCNN)、或任务约束深度卷积神经网络(tasks-constrained deep convolutional network，TCDCN)，本申请对实现人脸关键点提取处理的人脸关键点提取算法不做限定。

503、依据上述人脸关键点信息，得到上述参考表情数据。

在得到第一人脸图像中的人脸关键点信息后，可依据人脸关键点信息，得到参考表情数据。

在一种依据人脸关键点信息得到参考表情数据的实现方式中，通过将带有标注信息的图像(该图像中包含人脸关键点信息)作为训练数据，对卷积神经网络进行训练，使训练后的卷积神经网络可依据人脸关键点信息得到表情数据。训练数据中的图像的标注信息为表情数据(例如：微笑，又例如：愤怒)。在使用训练数据对卷积神经网络进行训练的过程中，卷积神经网络从图像中提取出图像的特征数据，并依据特征数据确定图像中的表情数据。以标注信息为监督信息监督卷积神经网络在训练过程中得到的结果，并更新卷积神经网络的参数，完成对卷积神经网络的训练，使卷积神经网络通过训练在人脸关键点信息与表情数据之间建立映射关系。这样，可使用训练后的卷积神经网络对第一人脸图像中的人脸关键点信息进行处理，可得到第一人脸图像中的表情数据，作为参考表情数据。

在另一种依据人脸关键点信息得到参考表情数据的实现方式中，基于第一人脸图像中的人脸关键点信息，得到人脸掩膜，其中，人脸掩膜携带第一人脸图像中的人脸关键点信息。将人脸掩膜作为参考表情数据。在基于该种实现方式得到参考表情数据后，步骤302具体包括以下步骤：

对上述第一人脸模型进行特征提取处理，得到第一特征图像；

对上述第一特征图像和上述参考表情数据进行融合处理，得到第二特征图像；

对上述第二特征图像进行上采样处理，得到上述第二人脸模型。

由于人脸掩膜携带第一人脸图像的表情信息，通过将人脸掩膜与第一人脸模型融合，可实现将第一人脸图像的表情迁移至第一人脸模型，得到第二人脸模型。

本实施通过对第一人脸图像进行人脸关键点提取处理，可得到参考表情数据，基于本实施提供的技术方案，可实现将第一人脸图像中的表情迁移至第一人脸模型。

请参阅图6，图6为本申请实施例提供的步骤302的一种可能实现的方法的流程示意图。

601、获取第一音频数据。

本申请实施例中，第一音频数据可以携带语音信息，第一音频数据也可以不携带语音信息。例如，第一音频数据可以是语音数据，第一音频数据也可以是纯音乐音频数据。

获取第一音频数据的方式可以是：图像处理装置接收用户通过输入组件输入的第一音频数据，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

获取第一音频数据的方式也可以是：图像处理装置接收第五终端发送的第一音频数据，其中，第五终端包括手机、计算机、平板电脑、服务器等。

获取第一音频数据还可以是：图像处理装置通过麦克风采集获得，例如，图像处理装置为手机，将通过手机的麦克风采集获得的音频数据作为第一音频数据。

获取第一音频数据的方式还可以是：图像处理装置从视频流中截取的音频数据，作为第一音频数据。

本申请对获取第一音频数据的方式不做限定。

602、依据映射关系与上述第一音频数据中携带的信息，得到上述参考表情数据。

本申请实施例中，第一音频数据携带的信息为第一音频数据承载的内容。例如，假设第一音频数据承载的内容为：你好，则第一音频数据携带的信息为：你好。又例如，假设第一音频数据承载的内容为：今天好开心，则第一音频数据携带的信息为：今天好开心。再例如，在第一音频数据为纯音乐音频数据的情况下，第一音频数据承载的内容为第一音频数据的旋律类型。上述旋律类型可以包括以下至少一种：欢快、忧伤、沉重。

人说话的内容不同时，心情也会不一样，进而表情也会不一样。例如，在小红说：“好开心啊”的情况下，小红的心情是愉悦的，表情为开心的笑。又例如，在小明说：“今天丢了100元钱”的情况下，小红的心情是难过的，表情为愁眉苦脸。不同类型的旋律对应的表情也不一样。比如，欢快的旋律对应愉快的表情、忧伤的旋律对应忧伤的表情、沉重的旋律对应沉重的表情。因此，基于第一音频数据中携带的信息，可确定与第一音频数据匹配的表情。

本申请实施例中，基于映射关系和第一音频数据中携带的信息，可得到与第一音频数据匹配的表情，进而得到参考表情数据。映射关系用于表示音频数据中携带的信息与表情数据之间的映射。例如，音频数据中携带的信息与表情数据之间的映射可参见下表：

音频数据携带的信息	表情数据
		你好或您好	微笑
股票涨了	喜上眉梢
		欢快的旋律	开心

表1

基于本实施提供的技术方案，可通过第一音频数据改变第一人脸模型的表情，得到第二人脸模型。作为一种可选的实施方式，图像处理装置可依据第一音频数据中携带的信息，驱动第二人脸模型的面部表情以及唇部的姿态，以达到通过第二人脸模型输出第一音频数据中携带的信息的效果。例如，假设第一音频数据中携带的信息为：你好，可在基于第一音频数据改变第一人脸模型的表情，得到表情为微笑的第二人脸模型的同时，改变第二人脸模型的唇部姿态，使第二人脸模型的唇部姿态所表达的唇语为：你好，并通过图像处理装置输出“你好”的音频数据(如：通过图像处理器的扬声器输出：你好)。

由于具有不同人物属性的人脸模型所匹配的声音属性不同。例如，年轻的女性的声音活泼，年老的女性的声音松弛。又例如，年轻的女性的声音活泼，年轻的男性的声音低沉。作为一种可选的实施方式，可依据第一人脸模型的人物属性，确定图像处理装置输出的音频数据的声音属性。

本申请实施例中，人物属性可包括：性别、年龄。可选的，性别包括：男、女。年龄包括以下7个年龄段：1～10岁、11～15岁、15～20岁、21～30岁、31～43岁、44～60岁、60岁以上。声音属性包括：音色、音调、响度。

可选的，图像处理装置可通过对第一人脸模型进行特征提取处理，可得到第一人脸模型的特征数据，该特征数据包含第一人脸模型的语义信息，该语义信息可用于描述第一人脸图像的内容。依据该特征数据，可得到第一人脸模型的人物属性。依据人物属性，可得到第二音频数据的声音属性，其中，第二音频数据中携带的信息与第一音频数据中携带的信息相同。

举例来说，假设：第一人脸模型的人物属性包括：女、20岁至30岁，第一音频数据中携带的信息为：你好。依据人物属性可确定第二音频数据的音色、音调、响度，依据第一音频数据中携带的信息可确定第二音频数据中携带的信息为：你好。

作为一种可选的实施方式，在图像处理装置执行步骤602之前，还执行以下步骤：

对上述第一音频数据进行声音特征提取处理，得到特征数据。

本申请实施例中，特征数据携带第一音频数据的声音特征信息，其中，声音特征信息包括：音量。

在得到特征数据的情况下，图像处理装置通过执行以下步骤实现步骤602：

61、依据上述映射关系与上述第一音频数据中携带的信息，得到中间表情数据；

在本步骤中，依据映射关系与第一音频数据中携带的信息，得到的不是参考表情数据，而是中间表情数据。中间表情数据中携带的信息与第一音频数据中携带的信息相同。

62、依据上述特征数据，调整上述中间表情数据得到上述参考表情数据。

由于不同的声音特征对应的表情不同，依据第一音频数据的声音特征信息，可调整中间表情数据，得到参考表情数据。例如，音量越大，表情幅度越大。依据特征数据，调整中间表情数据的幅度，可得到参考表情数据。

可选的，在图像处理装置装载有语音采集组件(如：麦克风)的情况下，图像处理装置通过执行以下步骤实现步骤601：

63、通过语音采集组件采集语音数据；

上述语音数据可以是人在说话的过程中发出的声音。上述语音数据也可以是语音终端输出的语音数据，其中，语音终端包括：手机、计算机、平板电脑、服务器、可穿戴设备。例如，图像处理装置通过麦克风采集手机通过扬声器输出语音数据。

64、对上述语音数据进行语义分析处理，得到语义数据。

通过对语音数据进行语音分析处理，提取语音数据的语义，得到语义数据。

65、依据上述语义数据中携带的信息得到上述第一音频数据。

语义数据中携带的信息包括语音数据的语义。依据语音数据的语义，得到第一音频数据，以应答语音数据。

基于步骤63～步骤65，可实现在控制虚拟人物进行对话的同时，控制虚拟人物的表情。

请参阅图7，图7是本申请实施例提供的一种得到第一人脸模型的方法的流程示意图。

701、获取第二人脸图像和第二人脸图像的深度图像。

本实施例中，第二人脸图像的深度图像包含第二人脸图像中的像素的深度信息。

获取第二人脸图像的方式可以是：图像处理装置接收用户通过输入组件输入的第二人脸图像，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

获取第二人脸图像的方式也可以是：图像处理装置接收第六终端发送的第二人脸图像，其中，第六终端包括手机、计算机、平板电脑、服务器等。

获取第二人脸图像还可以是：图像处理装置通过摄像头采集获得，例如，图像处理装置为手机，将通过手机的摄像头拍摄获得的人脸图像作为第二人脸图像。

获取第二人脸图像的方式还可以是：图像处理装置从视频流中截取的一帧包含人脸的图像，作为第二人脸图像。

获取深度图像的方式可以是通过深度摄像头拍摄获得，其中，深度摄像头可以是以下任意一种：结构光(structured light)摄像头、TOF摄像头、双目立体视觉(binocularstereo vision)摄像头。获取深度图像的方式也可以是接收用户通过输入组件输入的深度图像。获取深度图像的方式还可以是接收第七终端发送的深度图像，其中，第七终端包括手机、计算机、平板电脑、服务器等。本实施例中，第六终端与第七终端可以相同，也可以不同。

在一种可能实现的方式中，图像处理装置为手机。手机上装载有RGB摄像头和TOF摄像头。手机使用RGB摄像头对人脸进行拍摄获得第二人脸图像。在RGB摄像头拍摄获得第二人脸图像的同时，手机使用TOF摄像头对人脸进行拍摄，得到第二人脸图像的深度图像。

702、依据上述第二人脸图像和上述深度图像，得到上述第一人脸模型。

在一种可能实现的方式中，依据人脸关键点(获取人脸关键点的方式可参见步骤301)可确定以下信息：三维人脸模型的轮廓、五官的轮廓、五官在三维人脸模型中的位置，得到人脸轮廓模型。依据深度图像中的深度信息，可确定人脸轮廓模型中的人脸关键点的深度信息，进而得到第三人脸模型。由于第三人脸模型中不包含人脸纹理数据，第三人脸模型为人脸白模(如图8所示，图8为一个人脸白模)。将第二人脸图像中人脸纹理数据和第三人脸模型融合，可得到具有人脸纹理数据的人脸模型，即第一人脸模型。

表情的改变需要通过对人脸模型的面部进行形变处理实现，面部的形变处理包括五官的形变处理，例如，眼球的转动、嘴巴的张合、鼻翼的扩张和收缩、眼眶大小的改变、眉毛位置的改变。由于第二图像中的五官区域的信息有限，而表情的种类众多，导致在将第一人脸模型的表情调整为非第二人脸图像中的表情的情况下，得到的第二人脸模型中的五官中存在缺失信息。上述“缺失信息”指由于第二图像中的表情和参考表情数据所指示的表情之间的差异产生的信息。

举例来说，第二人脸图像中的表情是闭眼睛，基于第二人脸图像得到的第一人脸模型中的表情也是闭眼睛，而参考表情数据所指示的表情为睁开眼睛。这样，依据第一人脸模型和参考表情数据得到的第二人脸模型中不包含眼睛区域的信息。也就是说，第二人脸模型中的眼睛区域的信息是缺失信息。

再举例来说，第二人脸图像中的表情是闭嘴，基于第二人脸图像得到的第一人脸模型中的表情也是闭嘴，而参考表情数据所指示的表情为张嘴大笑。这样，依据第一人脸模型和参考表情数据得到的第二人脸模型中不包含空腔区域的信息。也就是说，第二人脸模型中的口腔区域的信息是缺失信息。

显然，在第二人脸模型中出现缺失信息的情况下，第二人脸模型的逼真度将降低。为此，本申请实施例提供了一种技术方案，以降低第二人脸模型中出现缺失信息的情况发生的概率，从而提高第二人脸模型的逼真度。

作为一种可选的实施方式，步骤702具体包括以下步骤：

71、依据上述第二人脸图像和上述深度图像，得到第三人脸模型。

本步骤的实现方式可参见步骤702，此处将不再赘述。

72、将上述第三人脸模型中属于参考区域的像素区域去除，得到第四人脸模型。

本申请实施例中，参考区域包括以下至少一个：眼睛区域、口腔区域。在得到第三人脸模型后，将第三人脸模型中参考区域内的像素区域去除，得到第四人脸模型。例如，参考区域包括：眼睛区域和口腔区域。在得到第三人脸模型后，将第三人脸模型中眼睛区域内的像素区域和口腔区域内像素区域去除，得到第四人脸模型。

73、向上述第四人脸模型中的参考区域填充参考数据，得到上述第一人脸模型。

本申请实施例中，参考数据包括以下至少一个：眼睛区域的数据、口腔区域的数据。参考数据为与第四人脸模型匹配的像素区域。例如，向第四人脸模型填充的口腔区域的数据所覆盖的面积，需与第四人脸模型中的口腔区域的面积相同。再例如，向第四人脸模型填充的眼睛区域的数据所覆盖的面积，从第三人脸模型中去除的眼睛区域所覆盖的面积相同。

与从第三人脸模型中去除的像素区域不同，向第四人脸模型中填充的像素区域具有至少一个关联像素区域，该关联像素区域(下文将关联像素区域称为相关数据)分别与各种表情匹配。例如，向第四人脸模型中填充的参考数据包括眼睛区域内的像素区域，且填充后的视线偏转角为0度、填充后的表情为微笑。与该填充的像素区域关联的像素区域包括：视线的偏转角为30度的眼睛区域内的像素区域，与该像素区域匹配的表情为轻蔑；视线的偏转角为60度的眼睛区域内的像素区域，与该像素区域匹配的表情为奸笑。本申请实施例中，在采集上述第二人脸图像的成像设备的拍摄方向与过被拍摄人物的视线之间的夹角称为视线偏转角，且从被拍摄人物的头顶从上往下看，成像设备的拍摄方向相较于被拍摄人物的视线的偏移方向为顺时针方向时，视线偏转角为正，反之，从被拍摄人物的头顶从上往下看，成像设备的拍摄方向相较于被拍摄人物的视线的偏移方向为逆时针方向时，视线偏转角为负。

又例如，向第四人脸模型中填充的参考数据包括口腔区域内的像素区域，且填充的像素区域所覆盖的面积为15平方英寸、填充后的表情为微笑。与该填充的像素区域关联的像素区域包括：所覆盖的面积为40平方英寸的口腔区域内的像素区域，与该像素区域匹配的表情为开怀大笑；所覆盖的面积为5平方英寸的口腔区域内的像素区域，与该像素区域匹配的表情为咬牙切齿。

将向第四人脸模型中的参考区域填充参考数据得到的人脸模型，作为第一人脸模型。由于参考数据与相关数据均为预先设置的数据，即参考数据与相关数据的匹配度高，这样，在调整第一人脸模型的表情的过程中，可依据与参考数据关联的相关数据，确定第一人脸模型中的五官区域的数据，从而降低第二人脸模型中出现缺失信息的情况发生的概率，提高第二人脸模型的逼真度。

本申请实施例通过将第三人脸模型中属于参考区域的像素区域去除，得到第四人脸模型，并向第四人脸模型中的参考区域填充参考数据，得到第一人脸模型。这样，在调整第一人脸模型的表情的过程中，可利用与参考数据关联的相关数据，从而降低得到的第二人脸模型中出现缺失信息的情况发生的概率，提高第二人脸模型的逼真度。

基于本申请实施例提供的技术方案，本申请实施例还提供了几种可能的应用场景。

场景A：随着移动终端的普及，以及互联网技术的快速发展，越来越多的人们使用移动终端进行视频通话。基于本申请实施例提供的技术方案，可实现对在视频通话的过程中使用人脸模型，以提升视频通话的趣味性。

请参阅图9，图9为本申请实施例提供的另一种图像处理方法的流程示意图。

901、获取视频流和第一人脸模型。

本申请实施例中，图像处理装置上装载有摄像头，通过该摄像头可采集视频流。

获取第一人脸模型的实现方式可参见步骤301，或步骤701至步骤702，此处将不再赘述。可选的，

902、对上述视频流中的图像进行人脸检测处理，得到包含人脸的图像，作为第一人脸图像。

本申请实施例中，通过对视频流中的每一帧图像进行人脸检测处理，可确定视频流中包含人脸的图像，并将包含人脸的图像作为第一人脸图像。例如(例1)，视频流包含图像A、图像B、图像C，对视频流进行人脸检测处理，确定图像A和图像B均包含人脸，图像c不包含人脸。基于人脸检测处理的结果，将图像A和图像B作为第一人脸图像。

903、基于上述第一人脸图像，得到参考表情数据。

本步骤的实现方式可参见步骤502，此处将不再赘述。

需要理解的是，在第一人脸图像的数量大于或等于2的情况下，可分别依据每一张第一人脸图像，得到一个参考表情数据。以例1为例(例2)，依据图像A可得到参考表情数据D，依据图像B可得到参考表情数据E，其中，参考表情数据D所指示的表情与图像A中的表情相同，参考表情数据E所指示的表情与图像B中的表情相同。

904、依据参考表情数据和第一人脸模型，得到第二人脸模型。

本步骤的实现方式可参见步骤302，此处将不再赘述。

需要理解的是，在参考表情数据的数量大于或等于2的情况下，可分别依据每一个参考表情数据，得到一个第二人脸模型。以例2为例，依据参考表情数据D和第一人脸模型可得到第二人脸模型F，依据参考表情数据E和第一人脸模型可得到第二人脸模型G，其中，参考表情数据F所指示的表情与图像A中的表情相同，参考表情数据G所指示的表情与图像B中的表情相同。

基于本申请实施例提供的技术方案，在用户在进行视频通话的过程中，可将用户的表情迁移至第一人脸模型，得到第二人脸模型，进而通过第二人脸模型完成视频通话。例如，小红想使用人脸模型与小明进行视频通话，以达到增加趣味性的效果。在进行视频通话之前，小红可使用手机对自己的脸部进行扫描，得到自己的人脸模型(下文将称为人脸模型a)。在进行视频通话的过程中，手机对采集到的视频流进行人脸检测处理，得到包含小红脸部的图像，作为第一人脸图像。手机将人脸模型a作为第一人脸模型，基于本申请实施例提供的技术方案，手机可将第一人脸图像中的表情迁移至人脸模型a，得到人脸模型b(即第二人脸模型)，并使用人脸模型b与小明进行视频通话。

场景B：随着三维打印(3D printing)技术的快速发展，三维打印技术被广泛应用到了如模具制造、工业设计等领域。通过三维打印技术可得到与三维模型对应的实物模型，因此如何高效的得到精确度高的三维模型具有非常重要的意义。

例如，小明觉得自己的一张照片(下文将称为照片c)中的笑容很灿烂，想要一个自己在照片c中的表情下的实物模型。小明可使用手机对自己的脸部进行扫描，得到自己的人脸模型(下文将称为人脸模型d)。手机可将照片c作为第一人脸图像、将人脸模型d作为第一人脸模型，基于本申请实施例提供的技术方案，将照片c中的表情迁移至人脸模型d，得到人脸模型e(即第二人脸模型)。使用三维打印机对人脸模型e进行处理，可得到实物模型f，其中，实物模型f中的表情与照片c中的表情相同。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图10，图10为本申请实施例提供的一种图像处理装置的结构示意图，该装置1包括：第一获取单元11、第一处理单元12、第二获取单元13、第二处理单元14、控制单元15以及第三处理单元16，其中：

第一获取单元11，用于获取第一人脸模型以及参考表情数据，其中，所述第一人脸模型基于人脸得到；

第一处理单元12，用于依据所述参考表情数据渲染所述第一人脸模型的表情，得到第二人脸模型。

结合本申请任一实施方式，所述第一获取单元，用于：

获取第一人脸图像；

依据所述人脸关键点信息，得到所述参考表情数据。

结合本申请任一实施方式，所述第一处理单元，用于：

结合本申请任一实施方式，所述第一获取单元，用于：

获取视频流；

结合本申请任一实施方式，所述第一获取单元，用于：

获取第一音频数据；

结合本申请任一实施方式，所述装置1还包括：

第二获取单元13，用于获取所述第一人脸模型的人物属性；

第二处理单元14，用于依据所述人物属性，得到第二音频数据，其中，所述第二音频数据中携带的信息与所述第一音频数据中携带的信息相同；

控制单元15，在控制所述第二人脸模型执行说话操作的过程中，输出所述第二音频数据。

结合本申请任一实施方式，所述装置1还包括：

第三处理单元16，用于在所述依据映射关系与所述第一音频数据中携带的信息，得到所述参考表情数据之前，对所述第一音频数据进行声音特征提取处理，得到特征数据；

所述第一获取单元用于：

结合本申请任一实施方式，所述第一获取单元用于：

通过语音采集组件采集语音数据；

对所述语音数据进行语义分析处理，得到语义数据；

依据所述语义数据中携带的信息得到所述第一音频数据。

获取第二人脸图像和所述第二人脸图像的深度图像；

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图11为本申请实施例提供的一种图像处理装置的硬件结构示意图。该图像处理装置2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的参考表情数据，又或者该存储器22还可用于存储通过处理器21得到的第二人脸模型等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图10仅仅示出了一种图像处理装置的简化设计。在实际应用中，三维模型处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的图像处理装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个第一处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取参考表情数据，包括：

获取第一人脸图像；

依据所述人脸关键点信息，得到所述参考表情数据。

3.根据权利要求2所述的方法，其特征在于，所述依据所述参考表情数据渲染所述第一人脸模型的表情，得到第二人脸模型，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述获取第一人脸图像，包括：

获取视频流；

对所述视频流中的图像进行人脸检测处理，得到包含人脸的第一人脸图像。

5.根据权利要求1所述的方法，其特征在于，所述获取参考表情数据，包括：

获取第一音频数据；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述第一人脸模型的人物属性；

7.根据权利要求5或6所述的方法，其特征在于，在所述依据映射关系与所述第一音频数据中携带的信息，得到所述参考表情数据之前，所述方法还包括：

8.根据权利要求5至7中任意一项所述的方法，其特征在于，所述获取第一音频数据，包括：

通过语音采集组件采集语音数据；

对所述语音数据进行语义分析处理，得到语义数据；

依据所述语义数据中携带的信息得到所述第一音频数据。

9.根据权利要求1至8中任意一项所述的方法，其特征在于，所述第一人脸模型基于人脸得到，包括：

获取第二人脸图像和所述第二人脸图像的深度图像；

10.根据权利要求9所述的方法，其特征在于，所述依据所述第二人脸图像和所述深度图像，得到所述第一人脸模型，包括：

将所述第三人脸模型中属于参考区域的像素区域去除，得到第四人脸模型；

根据参考数据对所述第四人脸模型中的参考区域进行填充，得到所述第一人脸模型。

11.一种图像处理装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行权利要求1至10中任意一项所述的方法。