CN111339988A

CN111339988A - 基于动态间隔损失函数和概率特征的视频人脸识别方法

Info

Publication number: CN111339988A
Application number: CN202010166807.8A
Authority: CN
Inventors: 柯逍; 郑毅腾; 朱敏琛
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-06-26
Anticipated expiration: 2040-03-11
Also published as: CN111339988B

Abstract

本发明涉及一种基于动态间隔损失函数和概率特征的视频人脸识别方法，包括以下步骤：步骤S1：通过人脸识别训练集训练识别网络；步骤S2：采用已训练的识别网络作为特征提取模块，并通过同一个训练集训练不确定性模块；步骤S3：利用学习到的不确定性作为特征的重要程度，对输入的视频特征集合进行聚合，得到聚合后的特征；步骤S4：采用互似然分数对聚合后的特征进行比对，完成最终的识别。该方法能够有效地对视频中的人脸进行识别。

Description

基于动态间隔损失函数和概率特征的视频人脸识别方法

技术领域

本发明涉及模式识别与计算机视觉领域，特别是一种基于动态间隔损失函数和概率特征的视频人脸识别方法。

背景技术

近些年来，深度卷积神经网络在计算机视觉领域取得了巨大的成功，而基于深度学习的人脸识别方法也利用了深度卷积神经网络在特征提取方面的优势，在公开数据集上不断创造新的记录并取得了很大的发展。此外，在各个计算机视觉会议里也有越来越多的研究者发表与人脸识别有关的论文。因为人脸识别具有广泛的应用领域与巨大的商业价值，学术界与工业界都在不断地探索新的人脸识别技术，近些年来，借助于深度学习与卷积神经网络在计算机视觉领域取得的重大突破，人脸识别算法在各个公开基准数据集上不断刷新纪录并在工业界产生了许多落地产品。

尽管人脸识别技术已经取得很大进步，在真实环境中还面临着许多挑战，如光照、姿态、遮挡、年龄等诸多因素都会影响人脸识别的性能。

发明内容

本发明的目的在于提供一种基于动态间隔损失函数和概率特征的视频人脸识别方法，该方法能够有效地对视频中的人脸进行识别。

为实现上述目的，本发明采用的技术方案是：一种基于动态间隔损失函数和概率特征的视频人脸识别方法，包括以下步骤：

步骤S1：通过人脸识别训练集训练识别网络；

步骤S2：采用已训练的识别网络作为特征提取模块，并通过同一个训练集训练不确定性模块；

步骤S3：利用学习到的不确定性作为特征的重要程度，对输入的视频特征集合进行聚合，得到聚合后的特征；

步骤S4：采用互似然分数对聚合后的特征进行比对，完成最终的识别。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：从网络上获取公开的人脸识别训练集，并获得训练数据的相关标注；

步骤S12：对人脸识别训练集中的人脸图像采用预训练的RetinaFace人脸检测模型输出人脸包围框和人脸关键点位置，并应用相似变换进行人脸对齐，对所有输入的人脸图像的像素值减去均值，并进行归一化；

步骤S13：采用18层的ResNet作为用于人脸深度特征抽取的网络模型，并将其中第一个7×7的卷积核以3个3×3的卷积核代替；同时，将第一个卷积层的步长设为1，使得最后一个特征图的输出大小保持为7×7；此外，将恒等映射所在路径设为步长为2的平均池化接上步长为1的1×1卷积，以防止信息损失；最后，采用大小为7×7的卷积层代替平均池化层，输出最终的人脸特征x_i；

步骤S14：设D＝{d₁,d₂,...,d_N}为测试集中的人脸图像，d_i为第i张人脸图像，E(·)为用于提取深度特征的深度卷积神经网络模型，x_i＝E(d_i)为第i张人脸图像对应的特征，将深度特征x_i与最后一个全连接层W的第j列作点积，得到第j个类别的分数z_i,j，并输入到Softmax激活函数中生成分类概率P_i,j，其计算公式如下：

其中C为总的类别数量，k为不同类别的下标；

步骤S15：设y_i为第i个数据对应的标签，

为深度特征x_i与对应类别权重向量

之间的夹角，采用

关于

的函数曲线中变化率最大的点作为一个基准点，并将该点与

相关联，即当设置了第i个样本的动态间隔参数

之后，

关于

的函数曲线在θ_m处导数的绝对值达到最大，其中θ_m为使得函数曲线导数最大的基准点，动态间隔参数

的计算公式如下：

其中v为对应的缩放参数，用于防止分类概率达不到应有的范围，

为除自己类别外，所有其他类别分数的总和；

步骤S16：得到分类概率P_i,j和动态间隔参数

之后，使用交叉熵损失函数计算预测得到的分类概率P_i与真实概率Q_i之间的差异并得到损失值L_CE(x_i)，其计算公式如下：

然后利用梯度下降与反向传播算法更新网络参数。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：将步骤S1中训练好的人脸识别模型作为特征抽取模型，在同一个训练数据集上提取每一张人脸图像的深度特征x_i，输出对应的最后一个特征图作为不确定性模块的输入；

步骤S22：所述不确定性模块为一个浅层的神经网络模型，其包含两个全连接层，采用Relu作为激活函数，并在全连接层与激活函数之间插入批量归一化层用于输入的归一化操作，最后采用指数函数作为激活函数输出每张人脸图像对应的不确定性σ_i，其与深度特征x_i具有相同的维度，表示了特征空间中对应特征的方差；

步骤S23：采用如下的函数计算任意两个样本之间的互似然分数s(x_i,x_j)：

其中

和

分别表示特征均值μ和特征方差σ的第l个维度上的值，h为人脸特征的维度；

步骤S24：根据一个批次中的人脸图像分布情况，采用如下的函数计算最终的损失L_pair：

其中R是所有同一个人的人脸对集合，s(·,·)为互似然分数的计算函数，其用于计算两个人脸对之间的互似然分数，该损失函数的目标是最大化同一个人的所有人脸对之间的互似然分数值。

进一步地，所述步骤S3的具体方法为：

特征抽取网络输出的深度人脸特征x_i反映了输入的人脸图像最有可能的特征表示，而不确定性模块的输出σ_i则表示特征在每一个维度上的不确定性，σ_i的大小随着图像质量的变化而变化，σ_i反映了对应深度特征在整个输入视频图像集合中的重要程度，将其作为权重对深度特征x_i进行加权融合，融合后的特征a_i计算如下：

其中M为一个批次中的样本数量；

采用最小不确定性的方法将特征对应的不确定性进行融合，即对集合中所有的不确定性向量，取每一个维度的最小值作为最终的向量。

进一步地，所述步骤S4中，对于输入的特征x_i以及对应的不确定性σ_i，采用互似然分数进行比对，具体包括以下步骤：

步骤S41：将训练好的模型在验证集上进行十折交叉验证，得到最终的平均准确率，并在每一折上对可能的阈值进行遍历，取使得最终准确率最高的阈值作为比对阈值t；

步骤S42：设G＝{g₁,g₂,...,g_M}为数据库中的人脸图像，将一张测试的人脸图像特征x_i与G中每个人的人脸图像特征x_j做比对，并采用最近邻与阈值法作为判断依据；对数据库G以及测试集D中的人脸图像，用训练好的特征抽取模型以及不确定性模块提取对应的深度特征x_i以及相应的不确定性σ_i，计算互似然分数，若分数大于比对阈值t，则认为是同一个人，反之则认为是不同的人；遍历数据库中每一张图像，即得到最终的识别结果。

与现有技术相比，本发明具有以下有益效果：

1、能够有效地对视频中的人脸进行识别，提升了人脸识别的准确率，并降低了图像质量对人脸识别的影响。

2、能够在模型训练过程中逐渐增强约束，提高特征的泛化性。

3、针对传统基于间隔损失函数中，间隔参数难以选择的问题，提出了基于动态间隔的损失函数。该损失函数不需要对间隔参数进行调参，其能够根据不同的数据集与不同的网络结构自适应地调整间隔大小，以此细粒度地控制每一个样本的梯度大小。此外，其能够随着模型的收敛，在训练过程中逐渐增加约束的强度，使模型能持续接收到有效的梯度并对参数进行更新，从而提升最终特征的判别。

4、针对非受限场景下的人脸识别问题，提出了基于概率特征的学习方法，该方法利用预训练网络学习特征的不确定性，并利用该不确定性对集合特征进行融合，最终采用互似然分数对融合后的特征进行比较，能够有效改善非受限场景下人脸识别的效果。

附图说明

图1是本发明实施例的方法实现流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本发明提供了一种基于动态间隔损失函数和概率特征的视频人脸识别方法，包括以下步骤：

步骤S1：通过人脸识别训练集训练识别网络。具体包括以下步骤：

步骤S11：从网络上获取公开的人脸识别训练集，并获得训练数据的相关标注。

步骤S12：对人脸识别训练集中的人脸图像采用预训练的RetinaFace人脸检测模型输出人脸包围框和人脸关键点位置，并应用相似变换进行人脸对齐，对所有输入的人脸图像的像素值减去均值127.5，并除以128进行归一化。

步骤S13：采用18层的ResNet作为用于人脸深度特征抽取的网络模型，并将其中第一个7×7的卷积核以3个3×3的卷积核代替；同时，将第一个卷积层的步长由2改为1，使得最后一个特征图的输出大小保持为7×7；此外，将恒等映射所在路径改为步长为2的平均池化接上步长为1的1×1卷积，以防止信息损失；最后，采用大小为7×7的卷积层代替平均池化层，输出最终的人脸特征x_i。

其中C为总的类别数量，k为不同类别的下标。

步骤S15：设y_i为第i个数据对应的标签，

为深度特征x_i与对应类别权重向量

之间的夹角，采用

关于

的函数曲线中变化率最大的点作为一个基准点，并将该点与

相关联，即当设置了第i个样本的动态间隔参数

之后，

关于

的函数曲线在θ_m处导数的绝对值达到最大，其中θ_m为使得函数曲线导数最大的基准点，而P(θ_m)接近0.5，在训练初期，

相对较大，为了能够对网络的优化提供合适的约束，我们限制基准点θ_m的值小于π/4，动态间隔参数

的计算公式如下：

为除自己类别外，所有其他类别分数的总和，一般可取为总的类别数减去一。

步骤S16：得到分类概率P_i,j和动态间隔参数

然后利用梯度下降与反向传播算法更新网络参数。

步骤S2：采用已训练的识别网络作为特征提取模块，并通过同一个训练集训练不确定性模块。具体包括以下步骤：

步骤S21：将步骤S1中训练好的人脸识别模型作为特征抽取模型，在同一个训练数据集上提取每一张人脸图像的深度特征x_i，输出对应的最后一个特征图作为不确定性模块的输入。

步骤S22：所述不确定性模块为一个浅层的神经网络模型，其包含两个全连接层，采用Relu作为激活函数，并在全连接层与激活函数之间插入批量归一化层用于输入的归一化操作，最后采用指数函数作为激活函数输出每张人脸图像对应的不确定性σ_i，其与深度特征x_i具有相同的维度，表示了特征空间中对应特征的方差。

其中

和

分别表示特征均值μ和特征方差σ的第l个维度上的值，h为人脸特征的维度；从公式中可以看出，若深度特征x_i和x_j有着很大的不确定性，则互似然分数的值将会很低，而不管其特征之间的距离是多少；只有当两个输入都有很小的不确定性且相应的均值非常靠近，互似然分数的值才会很高。

步骤S3：利用学习到的不确定性作为特征的重要程度，对输入的视频特征集合进行聚合，得到聚合后的特征。

特征抽取网络输出的深度人脸特征x_i反映了输入的人脸图像最有可能的特征表示，而不确定性模块的输出σ_i则表示特征在每一个维度上的不确定性，σ_i的大小随着图像质量的变化而变化，σ_i反映了对应深度特征在整个输入视频图像集合中的重要程度，因此将其作为权重对深度特征x_i进行加权融合，融合后的特征a_i计算如下：

其中M为一个批次中的样本数量；

为了能够在测试阶段对聚合后的特征进行比对，采用最小不确定性的方法将特征对应的不确定性进行融合，即对集合中所有的不确定性向量，取每一个维度的最小值作为最终的向量。

步骤S4：采用互似然分数代替余弦相似度对聚合后的特征进行比对，完成最终的识别。

在测试阶段，对于输入的特征x_i以及对应的不确定性σ_i，采用互似然分数代替余弦相似度进行比对，由于互似然分数同时考虑了输入图像的质量对特征的影响，因此其能够更加有效地抑制较差的图像质量对最终识别结果的影响；其具体包括以下步骤：

步骤S41：相比余弦相似度，互似然分数的取值范围更加广泛，因此对于比对阈值的选取也更加困难。为了能够有效选取比对的阈值，将训练好的模型在验证集上进行十折交叉验证，得到最终的平均准确率，并在每一折上对可能的阈值进行遍历，取使得最终准确率最高的阈值作为比对阈值t。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。