CN106980811A

CN106980811A - 人脸表情识别方法和人脸表情识别装置

Info

Publication number: CN106980811A
Application number: CN201610921132.7A
Authority: CN
Inventors: 金啸; 胡晨晨; 旷章辉; 张伟
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2017-07-25

Abstract

本发明公开了一种人脸表情识别方法和人脸表情识别装置，其中，该人脸表情识别方法包括：获取待识别的人脸图像序列，所述人脸图像序列包含单帧或两帧以上人脸图像；分别对所述人脸图像序列中的各帧人脸图像进行预处理；将预处理后的各帧人脸图像输入已训练好的训练模型进行表情识别，得到所述人脸图像序列的表情识别结果；其中，所述训练模型的输入端到输出端依次由卷积神经网络模型、长短时记忆循环神经网络模型、第一池化层和逻辑回归模型构建，且所述训练模型通过标注表情类别的连续帧图像集合训练得到。本发明提供的技术方案能够有效提升人脸表情的识别性能。

Description

人脸表情识别方法和人脸表情识别装置

技术领域

本发明涉及图像识别技术领域，具体涉及一种人脸表情识别方法和人脸表情识别装置。

背景技术

人脸表情识别技术是指对给定的人脸图像指定一个表情类别,包括：愤怒,厌恶,开心,伤心,恐惧,惊讶等。目前,人脸表情识别技术在人机交互、临床诊断、远程教育和侦查审讯等领域逐渐显现广阔的应用前景,是计算机视觉和人工智能的热门研究方向。

目前存在一种基于深度卷积神经网络的人脸表情识别方法，该人脸表情识别方法通过人脸图像检测、校准后，将校准后的人脸图像输入已训练好的深度卷积神经网络进行表情识别。在上述人脸表情识别方法中，深度卷积神经网络通过单帧图像训练得到，而由于人脸的表情与场景上下文联系紧密，且与对象的中性表情十分相关，因此，通过上述人脸表情识别方法难以对中性表情进行准确识别，人脸表情的识别性能较差。

发明内容

本发明提供一种人脸表情识别方法和人脸表情识别装置，用于提升人脸表情的识别性能。

本发明第一方面提供一种人脸表情识别方法，包括：

获取待识别的人脸图像序列，所述人脸图像序列包含单帧或两帧以上人脸图像；

分别对所述人脸图像序列中的各帧人脸图像进行预处理；

将预处理后的各帧人脸图像输入已训练好的训练模型进行表情识别，得到所述人脸图像序列的表情识别结果；

其中，所述训练模型的输入端到输出端依次由卷积神经网络模型、长短时记忆循环神经网络模型、第一池化层和逻辑回归模型构建，且所述训练模型通过标注表情类别的连续帧图像集合训练得到。

本发明第二方面提供一种人脸表情识别装置，包括：

图像获取单元，用于获取待识别的人脸图像序列，所述人脸图像序列包含单帧或两帧以上人脸图像；

图像预处理单元，用于分别对所述人脸图像序列中的各帧人脸图像进行预处理；

识别处理单元，用于将预处理后的各帧人脸图像输入已训练好的训练模型进行表情识别，得到所述人脸图像序列的表情识别结果；

由上可见，本发明中基于长短时记忆循环神经网络(LSTM-RNN，Long Short TermMemory-Recurrent Neural Networks)模型构建训练模型，并将连续帧图像集合(例如视频)作为该训练模型的训练输入，能够使该训练模型充分利用脸部表情变化的动态信息自动学习识别对象的中性表情以及不同姿态表情特征之间的映射关系，从而提高该训练模型的预测精度和鲁棒性，进而提升人脸表情的识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1-a为本发明提供的一种人脸表情识别方法一个实施例流程示意图；

图1-b为本发明提供的应用于图1-a所示人脸表情识别方法的一种训练模型实施例结构示意图；

图1-c为本发明提供的图1-b所示的训练模型在一种应用场景下的时序处理流向示意图；

图1-d为本发明提供的图1-b所示的训练模型在另一种应用场景下的时序处理流向示意图；

图1-e为本发明提供的应用于图1-b所示的训练模型的一种LSTM-RNN模型结构示意图；

图1-f为本发明提供的应用于图1-b所示的训练模型的一种CNN模型结构示意图；

图2为本发明提供的一种人脸表情识别装置一个实施例结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实例提供一种人脸表情识别方法。如图1-a所示，本发明实施例中的人脸表情识别方法包括：

步骤101、获取待识别的人脸图像序列；

其中，上述人脸图像序列包含单帧或两帧以上人脸图像。也即，本发明实施例中的人脸表情识别方法可以对连续的多帧人脸图像(例如视频)进行识别，同时，也兼容对单帧人脸图像的识别。

在步骤101中，可以通过摄像头实时获取待识别的人脸图像序列，或者，也可以通过接收来自外部设备的人脸图像序列的方式，获取待识别的人脸图像序列，或者，也可以基于用户在已有图像数据库或视频数据库中的选取来获取待识别的人脸图像序列，此处不作限定。

步骤102、分别对上述人脸图像序列中的各帧人脸图像进行预处理；

在步骤101获取待识别的人脸图像序列之后，分别对上述人脸图像序列中的各帧人脸图像进行预处理，以使得预处理后的人脸图像能够更适用于后续的表情识别，具体地，在不同的应用场景下，对人脸图像的预处理也可以采用相应的处理方法。

例如，在一种实施例中，上述分别对上述人脸图像序列中的各帧人脸图像进行预处理具体可以包括如下两个步骤：

步骤1、针对上述各帧人脸图像中的每帧人脸图像进行人脸检测，确定人脸区域。上述人脸检测的过程可以采用多种人脸检测算法进行实现，例如基于Haar-Like特征的Adaboost人脸检测算法等。基于人脸检测算法，可以以适当大小的窗口和适当的步长扫描输入图像(也即上述每帧人脸图像)，直到确定出该人脸图像中的人脸区域(人脸区域也即人脸所在的区域)。

步骤2、检测上述人脸区域中的关键特征点，并基于检测到的关键特征点对相应的人脸图像进行对齐校准。在人脸检测的基础上，进一步确定人脸区域中的关键特征点(例如眼睛、眉毛、鼻子、嘴巴、脸部外轮廓等)的位置。根据在人脸区域中检测到的关键特征点，可通过刚体变换对相应的人脸图像进行对齐校准，使得人脸在图像中各关键特征点的位置基本一致。在本发明实施例中，具体可以采用landmark方法来进行人脸图像的对齐校准。另外，在对人脸图像进行对齐校准的过程中，还可以根据预置的人脸模型进行关键特征点的定位调整。

进一步，为了避免图像大小不统一影响识别的结果，上述分别对上述人脸图像序列中的各帧人脸图像进行预处理还可以包括如下步骤：将步骤2对齐校准后的人脸图像按照预设的模板进行编辑处理，以获得统一大小的人脸图像，其中，上述编辑处理包括如下一种或两种以上：剪切处理、缩放处理。例如，在上述编辑处理过程中，基于检测到的人脸区域中的关键特征点，将相应的人脸图像按统一模板剪切出来，并将人脸图像缩放到统一大小。

需要说明的是，若上述人脸图像序列包含单帧人脸图像，则上述分别对上述人脸图像序列中的各帧人脸图像进行预处理实际表现为对该单帧人脸图像进行预处理；若上述人脸图像序列包含两帧以上人脸图像，则上述分别对上述人脸图像序列中的各帧人脸图像进行预处理实际表现为对上述两帧以上人脸图像中的各帧人脸图像分别进行预处理。

步骤103、将预处理后的各帧人脸图像输入已训练好的训练模型进行表情识别，得到上述人脸图像序列的表情识别结果；

在步骤103中，将步骤102预处理后的各帧人脸图像输入已训练好的训练模型进行表情识别，获得上述人脸图像序列的表情识别结果。上述表情识别结果可指示上述人脸图像序列所属的表情类别，其中，存在的表情类别可包括但不限于：生气、平静、困惑、厌恶、快乐、难过、害怕、惊讶、斜眼和尖叫。

本发明实施中，如图1-b所示，上述训练模型的输入端到输出端依次由卷积神经网络(CNN，Convolutional Neural Network)模型、长短时记忆循环神经网络模型(即LSTM-RNN模型)、第一池化层和逻辑回归模型构建。并且，上述训练模型通过标注表情类别的连续帧图像集合训练得到。由于上述训练模型是通过标注表情类别的连续帧图像集合训练得到，因此，一方面，上述训练模型可自动学习时间尺度的依赖关系，充分利用脸部表情变化的动态信息，联系表情当前帧的前后帧信息，使得表情识别更具鲁棒性；另一方面，可以精确界定中性表情以消除不同对象之间表情张力与强度等不同所带来的影响，提升识别准确率；再一方面，由于连续帧图像集合中的各帧图像与所标注的表情类别具有强相关性，因此，即使输入的图像序列存在扭曲失真也能够实现表情识别。

可选的，上述第一池化层可以为平均池化层或者最大值池化层或其它类型的池化层，此处不作限定。

可选的，若上述人脸图像序列包含两帧以上人脸图像，则，上述将预处理后的各帧人脸图像输入已训练好的训练模型进行人脸识别，包括：通过上述第一池化层对上述长短时记忆循环神经网络模型输入的上述各帧人脸图像的人脸特征向量统一进行降维处理，得到降维处理后的人脸特征向量；向上述逻辑回归模型输出上述降维处理后的人脸特征向量。下面以连续帧图像(即输入的人脸图像序列包含两帧以上人脸图像)为例对该训练模型的时序处理流向进行描述，如图1-c所示的训练模型的时序处理流向示意图，其中，X0，X1，...，Xn是长度为n帧的视频的每个帧图像，将各帧图像经CNN模块提取的人脸特征向量按照时间顺序依次输入LSTM模块，将经LSTM模块处理得到的不同时刻输出的人脸特征向量h0，h1，...，hn经过第一池化层统一进行降维处理，得到用于表情分类的人脸特征向量h，最后将人脸特征向量h输入逻辑回归模型进行逻辑回归处理，得到该连续帧图像的表情识别结果。当输入的人脸图像序列为单帧人脸图像(即上述n＝1)时，图1-c所示的训练模型的时序处理流向示意图可简化为如图1-d所示的训练模型的时序处理流向示意图。

本发明实施例中，上述训练模型所包含的LSTM-RNN模型的结构可以如图1-e所示，包括：输入门(即input gate)、遗忘门(即forget gate)、输出门(即output gate)、状态单元(即cell)和LSTM-RNN模型输出结果。

对于输入的人脸图像序列包含两帧以上人脸图像的情况，上述输入门、上述遗忘门、上述输出门、上述状态单元和上述LSTM-RNN模型输出结果的处理过程可以分别通过以下公式实现：

i_t＝σ(W_ixx_t+W_imm_t-1+W_icc_t-1+b_i)；

f_t＝σ(W_fxx_t+W_fmm_t-1+W_fcc_t-1+b_f)；

c_t＝f_t⊙c_t-1+i_t⊙σ(W_cxx_t+W_cmm_t-1+b_c)；

o_t＝σ(W_oxx_t+W_omm_t-1+W_occ_t-1+b_o)；

m_t＝o_t⊙h(c_t)。

其中，在上述公式中，x_t表示为t时刻输入的人脸特征向量；W(即W_ix、W_im、W_ic、W_fx、W_fm、W_fc、W_cx、W_cm、W_ox、W_om和W_oc)为预设的权重矩阵，表示每个门的元素都是由对应维数的数据得到，也就是说不同维数的节点之间互不干扰；b(即b_i、b_f、b_c、b_o)表示预设的偏置向量，i_t、f_t、o_t、c_t、m_t分别表示t时刻的上述输入门、上述遗忘门、上述输出门、上述状态单元和上述LSTM-RNN模型输出结果的状态，⊙为点积，σ()为sigmoid函数，h()为上述状态单元的输出激活函数，该输出激活函数具体可以为tanh函数。

可选的，对于输入的人脸图像序列包含单帧人脸图像的情况，上述输入门、上述遗忘门、上述输出门、上述状态单元和上述LSTM-RNN模型输出结果的处理过程还可以简化为如下公式实现：

i_t＝σ(W_ixx_t+consatant₁)；

f_t＝σ(W_fxx_t+consatant₂)；

c_t＝f_t⊙c_t-1+i_t⊙σ(W_cxx_t+consatant₃)；

o_t＝σ(W_oxx_t+W_omm_t-1+consatant₄)；

m_t＝o_t⊙h(c_t)。

其中，在上述公式中，x_t表示为t时刻输入的人脸特征向量；W(即W_ix、W_im、W_ic、W_fx、W_fm、W_fc、W_cx、W_cm、W_ox、W_om和W_oc)为预设的权重矩阵，表示每个门的元素都是由对应维数的数据得到，也就是说不同维数的节点之间互不干扰；consatant(即consatant₁、consatant₂、consatant₃和consatant₄)为预设的常量，i_t、f_t、o_t、c_t、m_t分别表示t时刻的上述输入门、上述遗忘门、上述输出门、上述状态单元和上述LSTM-RNN模型输出结果的状态，⊙为点积，σ()为sigmoid函数，h()为上述状态单元的输出激活函数，该输出激活函数具体可以为tanh函数。

可选的，如图1-f所示，上述CNN模型的输入端到输出端依次由第一卷积层、第二池化层、第二卷积层和第三池化层构建。上述将预处理后的各帧人脸图像输入已训练好的训练模型进行人脸识别，包括：向上述LSTM-RNN模型输出经上述第三池化层处理后得到的人脸特征向量。其中，上述第二池化层和第三池化层可以为平均池化层或最大值池化层或其它类型的池化层，此处不作限定。当然，在其它实施例中，上述CNN模型也可以参照已有的CNN模型构建，此处不作限定。

下面对上述通过标注表情类别的连续帧图像集合对上述训练模型进行训练的过程经说明，具体可如下：1、收集一个或多个连续帧图像集合(上述连续帧图像集合可包含连续的帧图像(例如视频))以及每个连续帧图像集合所属的表情类别(同一连续帧图像集合中的各个图像所属的表情类别相同)，将各个连续帧图像集合所属的表情类别标注为期望通过上述训练模型输出的表情类别。本发明实施例中，可以预先设定多种表情类别(例如生气、平静、困惑、厌恶、快乐、难过、害怕、惊讶、斜眼和尖叫等)，每种表情类别对应一映射值。2、对上述连续帧图像集合中的图像进行预处理(预处理的过程可以参照步骤102中的描述，此处不再赘述)。3、将预处理后的图像输入上述训练模型中，并基于反向传播算法对该训练模型进行训练，以使得输入的图像经上述训练模型处理后输出的值与该图像所属表情类别的映射值的偏差在预设的允许范围内。当然，对训练模型的训练过程也可以参照其它已有的技术方案实现，此处不作限定。

需要说明的是，本发明实施例中的人脸表情识别方法可以由人脸表情识别装置执行，上述人脸表情识别装置可以集成在机器人、监控终端或其它终端中，此处不作限定。

由上可见，本发明实施例中的人脸表情识别方法基于LSTM-RNN模型构建训练模型，并将连续帧图像集合(例如视频)作为该训练模型的训练输入，能够使该训练模型充分利用脸部表情变化的动态信息自动学习识别对象的中性表情以及不同姿态表情特征之间的映射关系，从而提高该训练模型的预测精度和鲁棒性，进而提升人脸表情的识别性能。

实施例二

本发明实例提供一种人脸表情识别装置，如图2所示，本发明实施例中的人脸表情识别装置200包括：

图像获取单元201，用于获取待识别的人脸图像序列，所述人脸图像序列包含单帧或两帧以上人脸图像；

图像预处理单元202，用于分别对所述人脸图像序列中的各帧人脸图像进行预处理；

识别处理单元203，用于将预处理后的各帧人脸图像输入已训练好的训练模型进行表情识别，得到所述人脸图像序列的表情识别结果；

可选的，识别处理单元203具体用于：当所述人脸图像序列包含两帧以上人脸图像时，通过所述第一池化层对所述长短时记忆循环神经网络模型输入的所述各帧人脸图像的人脸特征向量统一进行降维处理，得到降维处理后的人脸特征向量；向所述逻辑回归模型输出所述降维处理后的人脸特征向量。

可选的，所述卷积神经网络模型的输入端到输出端依次由第一卷积层、第二池化层、第二卷积层和第三池化层构建；识别处理单元203具体用于：向所述长短时记忆循环神经网络模型输出经所述第三池化层处理后得到的人脸特征向量。

可选的，图像预处理单元202具体用于：针对所述各帧人脸图像中的每帧人脸图像进行人脸检测，确定人脸区域；检测所述人脸区域中的关键特征点，并基于检测到的关键特征点对相应的人脸图像进行对齐校准。

可选的，图像预处理单元202具体还用于：将对齐校准后的人脸图像按照预设的模板进行编辑处理，以获得统一大小的人脸图像，其中，所述编辑处理包括如下一种或两种以上：剪切处理、缩放处理。

需要说明的是，本发明实施例中的人脸表情识别装置可以集成在机器人、监控终端或其它终端中。该人脸表情识别装置的各个功能模块的功能可以参照上述方法实施例中的描述，其具体实现过程可参照上述方法实施例中的相关描述，此处不再赘述。

由上可见，本发明实施例中的人脸表情识别装置基于LSTM-RNN模型构建训练模型，并将连续帧图像集合(例如视频)作为该训练模型的训练输入，能够使该训练模型充分利用脸部表情变化的动态信息自动学习识别对象的中性表情以及不同姿态表情特征之间的映射关系，从而提高该训练模型的预测精度和鲁棒性，进而提升人脸表情的识别性能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种人脸表情识别方法和人脸表情识别装置的描述，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人脸表情识别方法，其特征在于，包括：

分别对所述人脸图像序列中的各帧人脸图像进行预处理；

2.根据权利要求1所述的人脸表情识别方法，其特征在于，若所述人脸图像序列包含两帧以上人脸图像，则，所述将预处理后的各帧人脸图像输入已训练好的训练模型进行人脸识别，包括：

通过所述第一池化层对所述长短时记忆循环神经网络模型输入的所述各帧人脸图像的人脸特征向量统一进行降维处理，得到降维处理后的人脸特征向量；

向所述逻辑回归模型输出所述降维处理后的人脸特征向量。

3.根据权利要求1或2所述的人脸表情识别方法，其特征在于，所述卷积神经网络模型的输入端到输出端依次由第一卷积层、第二池化层、第二卷积层和第三池化层构建；

所述将预处理后的各帧人脸图像输入已训练好的训练模型进行人脸识别，包括：向所述长短时记忆循环神经网络模型输出经所述第三池化层处理后得到的人脸特征向量。

4.根据权利要求1或2所述的人脸表情识别方法，其特征在于，所述分别对所述人脸图像序列中的各帧人脸图像进行预处理，包括：

针对所述各帧人脸图像中的每帧人脸图像进行人脸检测，确定人脸区域；

检测所述人脸区域中的关键特征点，并基于检测到的关键特征点对相应的人脸图像进行对齐校准。

5.根据权利要求4所述的人脸表情识别方法，其特征在于，所述检测所述人脸区域中的关键特征点，并基于检测到的关键特征点对相应的人脸图像进行对齐校准，之后还包括：

将对齐校准后的人脸图像按照预设的模板进行编辑处理，以获得统一大小的人脸图像，其中，所述编辑处理包括如下一种或两种以上：剪切处理、缩放处理。

6.一种人脸表情识别装置，其特征在于，包括：

7.根据权利要求6所述的人脸表情识别装置，其特征在于，识别处理单元具体用于：当所述人脸图像序列包含两帧以上人脸图像时，通过所述第一池化层对所述长短时记忆循环神经网络模型输入的所述各帧人脸图像的人脸特征向量统一进行降维处理，得到降维处理后的人脸特征向量；

向所述逻辑回归模型输出所述降维处理后的人脸特征向量。

8.根据权利要求6或7所述的人脸表情识别装置，其特征在于，所述卷积神经网络模型的输入端到输出端依次由第一卷积层、第二池化层、第二卷积层和第三池化层构建；

所述识别处理单元具体用于：向所述长短时记忆循环神经网络模型输出经所述第三池化层处理后得到的人脸特征向量。

9.根据权利要求6或7所述的人脸表情识别装置，其特征在于，所述图像预处理单元具体用于：针对所述各帧人脸图像中的每帧人脸图像进行人脸检测，确定人脸区域；检测所述人脸区域中的关键特征点，并基于检测到的关键特征点对相应的人脸图像进行对齐校准。

10.根据权利要求9所述的人脸表情识别装置，其特征在于，所述图像预处理单元具体还用于：将对齐校准后的人脸图像按照预设的模板进行编辑处理，以获得统一大小的人脸图像，其中，所述编辑处理包括如下一种或两种以上：剪切处理、缩放处理。