CN108229532A

CN108229532A - 图像识别方法、装置和电子设备

Info

Publication number: CN108229532A
Application number: CN201711042845.7A
Authority: CN
Inventors: 王飞; 黄诗尧; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: SHANGHAI YOUMENG INFORMATION TECHNOLOGY CO LTD
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-06-29
Anticipated expiration: 2037-10-30
Also published as: CN108229532B

Abstract

本申请实施方式公开了一种图像识别方法、装置、电子设备以及计算机可读介质，其中的方法包括：将待识别图像输入深度神经网络；经所述深度神经网络输出所述待识别图像的图像特征；基于所述待识别图像的图像特征，对所述待识别图像进行识别；其中，所述深度神经网络经三元损失函数训练获得，所述三元损失函数中的三元组利用所述深度神经网络中包含的至少两个中心的类别中心及所述中心的特征向量得到。

Description

图像识别方法、装置和电子设备

技术领域

本申请涉及计算机视觉技术，尤其是涉及一种图像识别方法、介质、图像识别装置以及电子设备。

背景技术

针对图像实现人脸识别、物体分类、场景分类或者动作识别等，通常会使用到相应的图像识别算法，例如，人脸识别算法、物体类别识别算法、场景类别识别算法或者动作识别算法等。

图像识别算法的目的之一包括：使深度神经网络(如深度卷积神经网络)可以学习到更加紧致的人脸特征向量、物体特征向量、场景特征向量或者动作特征向量等目标特征向量。学习到更加紧致的目标特征向量可以是指：使深度神经网络针对同一个目标的不同图像所提取出的目标特征向量在特征空间的距离尽可能的近，即类内方差尽可能的小，使深度神经网络针对不同目标的不同图像所提取出的目标特征向量在特征空间的距离尽可能的远，即类间方差尽可能的大。一个具体的例子，使深度神经网络学习到更加紧致的人脸特征向量可以是指：使深度神经网络针对同一个人的不同图像所提取出的人脸特征向量在特征空间的距离尽可能的近，即类内方差尽可能的小，使深度神经网络针对不同人的不同图像所提取出的人脸特征向量在特征空间的距离尽可能的远，即类间方差尽可能的大。

如何使深度神经网络学习到更加紧致的目标特征向量(如人脸特征向量)，从而提高深度神经网络的图像识别准确性，是一个值得关注的技术问题。

发明内容

本申请实施方式提供一种图像识别的实现技术方案。

根据本申请实施方式的其中一个方面，提供了一种图像识别方法，该方法包括：将待识别图像输入深度神经网络；经所述深度神经网络输出所述待识别图像的图像特征；基于所述待识别图像的图像特征，对所述待识别图像进行识别；其中，所述深度神经网络经三元损失函数训练获得，所述三元损失函数中的三元组利用所述深度神经网络中包含的至少两个中心的类别中心及所述中心的特征向量得到。

在本申请一个实施方式中，所述基于所述待识别图像的图像特征，对所述待识别图像进行识别包括下述至少之一：基于所述待识别图像的图像特征，对所述待识别图像进行人脸识别；基于所述待识别图像的图像特征，对所述待识别图像进行手势识别；基于所述待识别图像的图像特征，对所述待识别图像进行行人识别；基于所述待识别图像的图像特征，对所述待识别图像进行车辆识别；基于所述待识别图像的图像特征，对所述待识别图像进行动作识别；基于所述待识别图像的图像特征，对所述待识别图像进行场景识别。

在本申请又一个实施方式中，所述方法还包括：对所述深度神经网络进行训练；所述对所述深度神经网络进行训练，包括：基于深度神经网络获取待识别图像样本的目标特征向量；计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度，并从各相似度中选取出一个相似度；基于所述待识别图像样本的目标特征向量、待识别图像样本在类别中心中所对应的中心的特征向量、以及所述选取出的相似度所对应的中心的特征向量形成的三元组，经三元损失函数对所述深度神经网络进行监督学习。

在本申请再一个实施方式中，所述基于深度神经网络获取到的待识别图像样本的目标特征向量的维度与所述类别中心中的各中心的特征向量的维度相同。

在本申请再一个实施方式中，所述计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度包括：计算所述待识别图像样本的目标特征向量与类别中心中的除所述待识别图像样本所对应的中心之外的各中心的特征向量之间的相似度。

在本申请再一个实施方式中，所述计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度包括：从所述类别中心中选取除所述待识别图像样本所对应的中心之外的M个中心，并分别计算所述待识别图像样本的目标特征向量与所述M个中心的特征向量之间的相似度；其中，M为不小于2的整数，且M小于N-1，N为类别中心所包含的中心数量。

在本申请再一个实施方式中，所述计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度包括：计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的余弦相似度。

在本申请再一个实施方式中，针对待识别图像样本的目标特征向量和类别中心中的一个中心的特征向量进行余弦相似度计算的过程包括：利用所述待识别图像样本的目标特征向量的模值和所述中心的特征向量的模值分别对所述待识别图像样本的目标特征向量和所述中心的特征向量进行归一化处理；计算归一化处理后的两个结果的点积，获得所述待识别图像样本的目标特征向量和所述中心的特征向量之间的余弦相似度。

在本申请再一个实施方式中，所述从各相似度中选取出一个相似度包括：从各相似度中选取出最高相似度。

在本申请再一个实施方式中，所述基于所述待识别图像样本的目标特征向量、待识别图像样本在类别中心中所对应的中心的特征向量、以及所述选取出的相似度所对应的中心的特征向量形成的三元组，经三元损失函数对所述深度神经网络进行监督学习包括：将所述待识别图像样本的目标特征向量作为三元组的基本元，将所述待识别图像样本在类别中心中所对应的中心的特征向量作为正例元，将所述选取出的相似度所对应的中心的特征向量作为负例元；基于所述基本元与正例元的余弦相似度、基本元与负例元的余弦相似度，经由三元损失函数对所述深度神经网络进行监督学习。

在本申请再一个实施方式中，所述三元损失函数包括：利用预设常数对所述基本元与负例元的余弦相似度和基本元与正例元的余弦相似度的差值进行松弛的三元损失函数。

在本申请再一个实施方式中，所述待识别图像样本在类别中心中所对应的中心的特征向量包括：类别中心中的标签与所述待识别图像样本的标签相匹配的中心的特征向量。

在本申请再一个实施方式中，所述待识别图像样本包括：基于人脸的待识别图像样本，所述目标特征向量包括：人脸特征向量；或者所述待识别图像样本包括：基于手势的待识别图像样本，所述目标特征向量包括：手势特征向量；或者所述待识别图像样本包括：基于行人的待识别图像样本，所述目标特征向量包括：行人特征向量；或者所述待识别图像样本包括：基于车辆的待识别图像样本，所述目标特征向量包括：车辆特征向量；或者，所述待识别图像样本包括：基于动作的待识别图像样本，所述目标特征向量包括：动作特征向量；或者所述待识别图像样本包括：基于场景的待识别图像样本，所述目标特征向量包括：场景特征向量。

根据本申请实施方式的其中另一个方面，提供了一种图像识别装置，该装置包括：输入模块，用于将待识别图像输入深度神经网络；获取模块，用于经所述深度神经网络输出所述待识别图像的图像特征；识别模块，用于基于所述待识别图像的图像特征，对所述待识别图像进行识别；其中，所述深度神经网络经三元损失函数训练获得，所述三元损失函数中的三元组利用所述深度神经网络中包含的至少两个中心的类别中心及所述中心的特征向量得到。

在本申请一个实施方式中，所述识别模块具体用于下述至少之一：基于所述待识别图像的图像特征，对所述待识别图像进行人脸识别；基于所述待识别图像的图像特征，对所述待识别图像进行手势识别；基于所述待识别图像的图像特征，对所述待识别图像进行行人识别；基于所述待识别图像的图像特征，对所述待识别图像进行车辆识别；基于所述待识别图像的图像特征，对所述待识别图像进行动作识别；基于所述待识别图像的图像特征，对所述待识别图像进行场景识别。

在本申请又一个实施方式中，所述装置还包括：训练模块，用于对所述深度神经网络进行训练；所述训练模块包括：获取特征向量子模块，用于基于深度神经网络获取待识别图像样本的目标特征向量；计算相似度子模块，用于计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度；选取相似度子模块，用于从各相似度中选取出一个相似度；监督学习子模块，用于基于所述待识别图像样本的目标特征向量、待识别图像样本在类别中心中所对应的中心的特征向量、以及所述选取出的相似度所对应的中心的特征向量形成的三元组，经三元损失函数对所述深度神经网络进行监督学习。

在本申请再一个实施方式中，所述监督学习子模块基于深度神经网络获取到的待识别图像样本的目标特征向量的维度与所述类别中心中的各中心的特征向量的维度相同。

在本申请再一个实施方式中，所述计算相似度子模块具体用于：计算所述待识别图像样本的目标特征向量与类别中心中的除所述待识别图像样本所对应的中心之外的各中心的特征向量之间的相似度。

在本申请再一个实施方式中，所述计算相似度子模块具体用于：从所述类别中心中选取除所述待识别图像样本所对应的中心之外的M个中心，并分别计算所述待识别图像样本的目标特征向量与所述M个中心的特征向量之间的相似度；其中，M为不小于2的整数，且M小于N-1，N为类别中心所包含的中心数量。

在本申请再一个实施方式中，所述计算相似度子模块具体用于：计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的余弦相似度。

在本申请再一个实施方式中，所述计算相似度子模块针对待识别图像样本的目标特征向量和类别中心中的一个中心的特征向量进行余弦相似度计算的过程包括：利用所述待识别图像样本的目标特征向量的模值和所述中心的特征向量的模值分别对所述待识别图像样本的目标特征向量和所述中心的特征向量进行归一化处理；计算归一化处理后的两个结果的点积，获得所述待识别图像样本的目标特征向量和所述中心的特征向量之间的余弦相似度。

在本申请再一个实施方式中，所述选取相似度子模块具体用于：从各相似度中选取出最高相似度。

在本申请再一个实施方式中，所述监督学习子模块具体用于：将所述待识别图像样本的目标特征向量作为三元组的基本元，将所述待识别图像样本在类别中心中所对应的中心的特征向量作为正例元，将所述选取出的相似度所对应的中心的特征向量作为负例元；基于所述基本元与正例元的余弦相似度、基本元与负例元的余弦相似度，经由三元损失函数对所述深度神经网络进行监督学习。

在本申请再一个实施方式中，所述待识别图像样本包括：基于人脸的待识别图像样本，所述目标特征向量包括：人脸特征向量；或者所述待识别图像样本包括：基于手势的待识别图像样本，所述目标特征向量包括：手势特征向量；或者所述待识别图像样本包括：基于行人的待识别图像样本，所述目标特征向量包括：行人特征向量；或者所述待识别图像样本包括：基于车辆的待识别图像样本，所述目标特征向量包括：车辆特征向量；或者所述待识别图像样本包括：基于动作的待识别图像样本，所述目标特征向量包括：动作特征向量；或者所述待识别图像样本包括：基于场景的待识别图像样本，所述目标特征向量包括：场景特征向量。

根据本申请实施方式的再一个方面，提供了一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，执行本申请方法实施方式中的各步骤。

根据本申请实施方式的再一个方面，提供的一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行本申请方法实施方式中的各步骤。

根据本申请实施方式的再一个方面，提供的一种计算机程序，该计算机程序在被设备中的处理器执行时，执行本申请方法实施方式中的各步骤。

基于本申请提供的图像识别方法、图像识别装置、电子设备以及计算机存储介质，本申请中的深度神经网络是利用三元损失函数训练获得的深度神经网络；由于本申请通过为类别的特征向量设置类别中心，并通过计算待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度，因此，可以方便快捷的基于待识别图像样本的目标特征向量、待识别图像样本在类别中心中所对应的中心的特征向量、以及从计算出的相似度中选取出的相似度所对应的中心的特征向量形成三元组，避免了形成三元组过程中的选取相应的样例困难的现象；通过基于三元组经三元损失函数对深度神经网络进行监督学习，有利于使深度神经网络学习到更加紧致的目标特征向量，从而有利于提高深度神经网络的图像识别准确性。

下面通过附图和实施方式，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施方式，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请的图像识别方法的一个实施方式的流程图；

图2为本申请的人脸识别方法的一个实施方式的流程图；

图3为本申请的训练深度神经网络方法的一个实施方式的流程图；

图4为本申请的图像识别装置的一个实施方式的结构示意图；

图5为本申请的用于训练深度神经网络的训练模块的一个实施方式的结构示意图；

图6为实现本申请实施方式的一示例性设备的框图；

图7为本申请的一个应用场景示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施方式。应该注意到：除非另外具体说明，否则在这些实施方式中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施方式的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施方式可以应用于计算机系统/服务器，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或者远程计算系统存储介质上。

示例性实施例

本申请提供的图像识别的技术方案可以由单片机、微处理器、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、智能移动电话、笔记型计算机、平板电脑、台式计算机或者服务器等能够运行计算机程序(也可以称为程序代码)的电子设备实现，且该计算机程序可以存储于闪存、缓存、硬盘或者光盘等计算机可读存储介质中。

在一个可选示例中，本申请中的图像识别算法可以具体表现为人脸识别算法、物体类别识别算法、场景类别识别算法或者动作识别算法等。也就是说，本申请的技术方案可以应用于人脸识别技术领域、物体类别识别技术领域、场景类别识别技术领域以及动作识别技术领域等基于分类识别的多种技术领域中。

下面结合图1至图3对本申请提供的图像识别的技术方案进行说明。

图1为本申请的图像识别方法的一个实施例的流程图。如图1所示，该实施例的方法主要包括：步骤S100、步骤S110以及步骤S120。

S100、将待识别图像输入深度神经网络。

在一个可选示例中，在本申请提供的图像识别方法应用于人脸识别技术领域的情况下，待识别图像可以具体为基于人脸的待识别图像，待识别图像的目标特征向量可以具体为待识别图像的人脸特征向量。在本申请提供的图像识别方法应用于物体类别识别技术领域的情况下，待识别图像可以具体为基于物体的待识别图像，待识别图像的目标特征向量可以具体为待识别图像的物体特征向量。在本申请提供的图像识别方法应用于场景类别识别技术领域的情况下，待识别图像可以具体为基于场景的待识别图像，待识别图像的目标特征向量可以具体为待识别图像的场景特征向量。在本申请提供的图像识别方法应用于动作识别技术领域的情况下，待识别图像可以具体为基于动作的待识别图像，待识别图像的目标特征向量可以具体为待识别图像的动作特征向量。

在一个可选示例中，本申请中的深度神经网络是经三元损失函数训练获得的，三元损失函数中的三元组是利用深度神经网络中包含的至少两个中心的类别中心及中心的特征向量得到的。训练该深度神经网络的一个具体例子如下述针对图2的描述。

在一个可选示例中，本申请中的深度神经网络可以具体为基于AlexNet、VGGNet、GoogLeNet或者ResNet等网络结构的深度卷积神经网络。本申请不限制深度神经网络的具体结构。

S110、经深度神经网络输出待识别图像的图像特征。

在一个可选示例中，待识别图像在经过至少一层卷积层以及至少一非线性ReLU层的相应处理后，深度神经网络从输入的待识别图像中提取出图像特征，并输出。本申请不限制深度神经网络提取图像特征的具体实现方式。

S120、基于待识别图像的图像特征，对待识别图像进行识别。

在一个可选示例中，本申请可以基于待识别图像的图像特征，对待识别图像进行人脸识别；也可以基于待识别图像的图像特征，对待识别图像进行手势识别；还可以基于待识别图像的图像特征，对待识别图像进行行人识别；还可以基于待识别图像的图像特征，对待识别图像进行车辆识别；还可以基于待识别图像的图像特征，对待识别图像进行动作识别；还可以基于待识别图像的图像特征，对待识别图像进行场景识别。另外，本申请还可以基于待识别图像的图像特征，对待识别图像进行人脸位置检测、人脸关键点检测、人体位置检测、人体动作检测、人体关键点检测以及活体检测等识别处理，本申请不限制对待识别图像进行识别的具体表现形式。还有，本申请可以采用现有的神经网络(如卷积神经网络等)来实现基于待识别图像的图像特征，对待识别图像进行识别的操作。

图2为本申请的对应用于图像识别方法中的深度神经网络进行训练的一个实施例的流程图。如图2所示，该实施例的方法主要包括：步骤S200、步骤S210以及步骤S220。

S200、基于深度神经网络获取输入的待识别图像样本的目标特征向量。

在一个可选示例中，在本申请提供的技术方案应用于人脸识别技术领域的情况下，待识别图像样本可以具体为基于人脸的待识别图像样本，待识别图像样本的目标特征向量可以具体为待识别图像样本的人脸特征向量。在本申请提供的技术方案应用于物体类别识别技术领域的情况下，待识别图像样本可以具体为基于物体的待识别图像样本，待识别图像样本的目标特征向量可以具体为待识别图像样本的物体特征向量。在本申请提供的技术方案应用于场景类别识别技术领域的情况下，待识别图像样本可以具体为基于场景的待识别图像样本，待识别图像样本的目标特征向量可以具体为待识别图像样本的场景特征向量。在本申请提供的技术方案应用于动作识别技术领域的情况下，待识别图像样本可以具体为基于动作的待识别图像样本，待识别图像样本的目标特征向量可以具体为待识别图像样本的动作特征向量。

在一个可选示例中，本申请设置有图像样本集合，该图像样本集合中通常包含有数量众多的图像样本，图像样本集合也可以称为训练集，图像样本也可以称为训练样本。可选的，图像样本集合中的每一个图像样本都具有标签，该标签用于标识图像样本中的目标所属的类别。一个可选的例子，在基于人脸的图像样本集合中，属于同一个人的人脸的不同图像样本具有相同的标签，即一个类别对应一个人，不同的类别对应不同的人；在基于物体的图像样本集合中，属于同一个物体的不同图像样本具有相同的标签，即一个类别对应一个物体，不同的类别对应不同的物体；在基于场景的图像样本集合中，属于同一个场景的不同图像样本具有相同的标签，即一个类别对应一个场景，不同的类别对应不同的场景；在基于动作的图像样本集合中，属于同一个动作的不同图像样本具有相同的标签，即一个类别对应一个动作，不同的类别对应不同的动作。

在一个可选示例中，本申请可以从图像样本集合中选取(如随机选取)一个图像样本作为待识别的图像样本，输入给深度神经网络，由该深度神经网络从该待识别图像样本中提取目标特征向量。

S210、计算该待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度，并从各相似度中选取出一个相似度。

在一个可选示例中，本申请中设置有类别中心，该类别中心可以被认为是本申请的深度神经网络中的类别中心层。本申请中的类别中心通常包括多个中心，可选的，每一个中心对应一个类别，不同的中心对应不同类别。可选的，类别中心中的任一中心的特征向量可以反映出该中心对应的类别的特征在特征空间中的平均位置，即类别中心中的任一中心的特征向量可以反映出该中心对应的类别的特征向量在特征空间中的平均方向或者在超球面上的平均位置。另外，类别中心中的中心的特征向量会随着深度神经网络的训练而动态更新。

在一个可选示例中，类别中心中的任一个中心的特征向量可以反映出最能够代表该中心所对应的类别的特征。类别中心中的任一中心的特征向量可以理解为是该中心所对应的类别的曾经出现过的所有特征向量的平均/折中的特征向量。类别中心中的任一中心均具有唯一的一个标签，不同中心具有不同的标签。

在本申请提供的技术方案应用于人脸识别技术领域的情况下，类别中心可以具体为基于人脸的类别中心，类别中心中的每一个中心对应一个人，不同中心对应不同的人，中心的特征向量即该中心所对应的人的曾经出现过的所有人脸特征向量的平均/折中的特征向量。在本申请提供的技术方案应用于物体类别识别技术领域的情况下，类别中心可以具体为基于物体的类别中心，类别中心中的每一个中心对应一个物体，不同中心对应不同的物体，中心的特征向量即该中心所对应的物体的曾经出现过的所有物体特征向量的平均/折中的特征向量。在本申请提供的技术方案应用于场景类别识别技术领域的情况下，类别中心可以具体为基于场景的类别中心，类别中心中的每一个中心对应一个场景，不同中心对应不同的场景，中心的特征向量即该中心所对应的场景的曾经出现过的所有场景特征向量的平均/折中的特征向量。在本申请提供的技术方案应用于动作识别技术领域的情况下，类别中心可以具体为基于动作的类别中心，类别中心中的每一个中心对应一种动作，不同中心对应不同的动作，中心的特征向量即该中心所对应的动作的曾经出现过的所有动作特征向量的平均/折中的特征向量。

在一个可选示例中，类别中心中的所有中心的特征向量的维度相同。类别中心中的任一中心的特征向量的维度与深度神经网络从输入的待识别图像样本中提取出的目标特征向量的维度相同。

在一个可选示例中，本申请可以获取输入深度神经网络的待识别图像样本的标签，并判断类别中心中是否存在该标签所对应的中心，如果类别中心并不存在该标签所对应的中心，则本申请可以在类别中心中添加新的中心，使该新的中心的标签为待识别图像样本的标签，并根据深度神经网络从该待识别图像样本中提取出的目标特征向量设置该新的中心的特征向量；如果类别中心中存在该标签所对应的中心，则本申请可以计算该待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度。

在一个可选示例中，本申请可以计算该待识别图像样本的目标特征向量与类别中心中的除待识别图像样本所对应的中心之外的各中心的特征向量之间的相似度，例如，类别中心包括N个中心，利用待识别图像样本的标签可以查找到类别中心中的具有该标签的中心(例如，第X中心)，除了第X中心之外，类别中心中还存在N-1个中心，本申请可以计算待识别图像样本的目标特征向量分别与这N-1个中心中的每一个中心的特征向量之间的相似度。

在一个可选示例中，本申请可以计算该待识别图像样本的目标特征向量与类别中心中的除待识别图像样本所对应的中心之外的部分中心的特征向量之间的相似度，例如，类别中心包括N个中心，利用待识别图像样本的标签可以查找到类别中心中的具有该标签的中心(例如，第X中心)，除了第X中心之外，类别中心中还存在N-1个中心，本申请可以从这N-1个中心中选取(例如，随机选取)出M(M<N-1)个中心，并计算待识别图像样本的目标特征向量分别与这M个中心中的每一个中心的特征向量之间的相似度。

在需要计算待识别图像样本的目标特征向量与类别中心中的除待识别图像样本所对应的中心之外的各中心的特征向量之间的相似度的情况下，需要进行的浮点运算的次数为(N-1)×K²次，其中，N为类别中心所包含的中心的数量，K为目标特征向量和中心的特征向量的维度。在需要计算待识别图像样本的目标特征向量与类别中心中的除待识别图像样本所对应的中心之外的部分中心的特征向量之间的相似度的情况下，需要进行的浮点运算的次数为M×K²次，其中，M为选取出的中心的数量，M小于N-1。由此可知，本申请通过控制从类别中心中选取的中心的数量M，有利于对深度神经网络训练过程中的计算开销以及内存开销进行控制。

在一个可选示例中，本申请在针对待识别图像样本的目标特征向量与类别中心中的任一个中心的特征向量进行相似度计算时，可以对待识别图像样本的目标特征向量和中心的特征向量分别进行归一化处理，然后，通过计算两个归一化处理后的结果的点积，获得待识别图像样本的目标特征向量和中心的特征向量的余弦相似度。具体的，本申请可以利用下述公式(1)计算两者之间的余弦相似度：

在上述公式(1)中，f表示经由深度神经网络从待识别图像样本中提取出的目标特征向量，c表示类别中心中的任一个中心的特征向量，||f||为目标特征向量f的模值，||c||为目标特征向量c的模值。

在一个可选示例中，本申请可以从计算获得的所有相似度(例如，欧式距离或者余弦相似度等)中选取出最高相似度(例如，最短欧式距离或者最高余弦相似度等)。最高相似度所对应的中心的特征向量可以作为与待识别图像样本的特征向量最为相近的困难样例的特征向量。当然，本申请也不排除选取出次高相似度的可能性。需要特别说明的是，本申请也可以采用除余弦相似度之外的其他计算方式(如欧式距离等)来确定两个特征向量之间的相似度，本申请不限制确定两个特征向量之间的相似度的具体计算方式。

本申请通过设置类别中心，并通过计算待识别图像样本的特征向量与多个中心的特征向量之间的余弦相似度，可以基于余弦相似度从类别中心中选取一个中心，例如，选取出余弦相似度最高的中心，从而可以方便快捷的实现困难样例或者半困难样例的特征向量的采样。

S220、基于待识别图像样本的目标特征向量、待识别图像样本在类别中心中所对应的中心的特征向量、以及上述选取出的相似度所对应的中心的特征向量形成的三元组，经三元损失函数对深度神经网络进行监督学习。

在一个可选示例中，本申请中的三元组包括三个组成部分，为了便于描述，这三个组成部分可以分别称为基本元、正例元以及负例元。本申请可以将经由深度神经网络提取出的待识别图像样本的目标特征向量作为三元组中的基本元，将待识别图像样本在类别中心中所对应的中心的特征向量作为三元组中的正例元，将选取出的最高相似度所对应的中心的特征向量作为负例元。

在一个可选示例中，设定图像样本集合中的图像样本可以表示为x_i，图像样本x_i所具有的标签可以表示为y_i，经由深度神经网络从图像样本x_i中提取出的K维的目标特征向量(例如，人脸特征向量)可以表示为f_i。设定类别中心中的具有标签y_i的中心的特征向量可以表示为c_yi。在上述设定下，本申请可以将f_i作为三元组中的基本元a，将c_yi作为三元组中的正例元p，将基于相似度计算结果确定出的相似度最高的中心的特征向量作为三元组中的负例元n，从而形成三元组(a，p，n)。

在一个可选示例中，本申请可以计算三元组中的基本元a与正例元p之间的相似度(如余弦相似度或者欧氏距离等)，并计算三元组中的基本元a与负例元n之间的相似度(如余弦相似度或者欧氏距离等)。为了提高聚类效果，需使基本元a与正例元p之间的相似度尽可能的大，并需使基本元a与负例元n之间的相似度尽可能的小，本申请可以通过三元损失函数对较小的基本元a与正例元p之间的相似度以及较大的基本元a与负例元n之间的相似度进行惩罚。可选的，本申请可以采用下述公式(2)所示的三元损失函数对深度神经网络进行监督学习：

在上述公式(2)中，Z表示在对深度神经网络进行训练时，一次迭代所输入的批尺寸，即基于一次迭代所输入深度神经网络的待识别的图像样本的数量，i表示输入到深度神经网络中的待识别的图像样本的顺序号，γ表示预设常数，γ主要用于对大于的条件进行松弛；[ ]₊符号表示：在括号中的数值大于等于0的情况下，则将三元组放入三元损失函数中，在括号中的数值小于0的情况下，则不将此三元组放入三元损失函数中；表示针对第i个输入深度神经网络中的待识别的图像样本的三元组(a，p，n)中的a和n所计算出的余弦相似度；表示针对第i个输入深度神经网络中的待识别的图像样本的三元组(a，p，n)中的a和p所计算出的余弦相似度。

本申请通过设置预设常数γ，对大于的条件进行松弛，使本申请在这一条件满足时，对三元损失函数产生贡献，从而进一步有利于使深度神经网络学习到更加紧致的目标特征向量。

图3为本申请的对应用于人脸识别方法中的深度神经网络进行训练的一个实施例的流程图。如图3所示，该实施例方法包括：步骤S300、步骤S310以及步骤S320。

S300、基于深度神经网络获取输入的待识别人脸图像样本的人脸特征向量。

在一个可选示例中，本申请设置有人脸图像样本集合，该人脸图像样本集合中通常包含有数量众多的人脸图像样本，人脸图像样本集合也可以称为训练集，人脸图像样本也可以称为训练样本。可选的，人脸图像样本集合中的每一个人脸图像样本都具有标签，属于同一个人的人脸的不同人脸图像样本具有相同的标签，即一个类别对应一个人，不同的类别对应不同的人。

在一个可选示例中，本申请可以从人脸图像样本集合中选取(如随机选取)一个人脸图像样本作为待识别的人脸图像样本，输入给深度神经网络，由该深度神经网络从该待识别的人脸图像样本中提取人脸特征向量。

S310、计算该待识别人脸图像样本的人脸特征向量与类别中心中的至少两个中心的特征向量之间的相似度，并从各相似度中选取出一个相似度。

在一个可选示例中，类别中心中的任一个中心的特征向量可以反映出最能够代表该中心所对应的类别的人脸特征。类别中心中的所有中心的特征向量的维度相同。类别中心中的任一中心的特征向量的维度与深度神经网络从输入的待识别人脸图像样本中提取出的人脸特征向量的维度相同。

在一个可选示例中，本申请可以获取输入深度神经网络的待识别人脸图像样本的标签，并判断类别中心中是否存在该标签所对应的中心，如果类别中心不存在该标签所对应的中心，则本申请可以在类别中心中添加新的中心，使该新的中心的标签为待识别人脸图像样本的标签，并根据深度神经网络从该待识别人脸图像样本中提取出的人脸特征向量设置该新的中心的特征向量；如果类别中心中存在该标签所对应的中心，则本申请可以计算该待识别人脸图像样本的人脸特征向量与类别中心中的至少两个中心的特征向量之间的相似度。

在一个可选示例中，本申请可以计算该待识别人脸图像样本的人脸特征向量与类别中心中的除待识别人脸图像样本所对应的中心之外的各中心的特征向量之间的相似度，例如，类别中心包括N个中心，利用待识别人脸图像样本的标签可以查找到类别中心中的具有该标签的中心(例如，第X中心)，除了第X中心之外，类别中心中还存在N-1个中心，本申请可以计算待识别人脸图像样本的人脸特征向量分别与这N-1个中心中的每一个中心的特征向量之间的相似度。

在一个可选示例中，本申请可以计算该待识别人脸图像样本的人脸特征向量与类别中心中的除待识别人脸图像样本所对应的中心之外的部分中心的特征向量之间的相似度，例如，类别中心包括N个中心，利用待识别人脸图像样本的标签可以查找到类别中心中的具有该标签的中心(如第X中心)，除了第X中心之外，类别中心中还存在N-1个中心，本申请可以从这N-1个中心中选取(例如，随机选取)出M(M<N-1)个中心，并计算待识别人脸图像样本的人脸特征向量分别与这M个中心中的每一个中心的特征向量之间的相似度。

在计算待识别人脸图像样本的人脸特征向量与类别中心中的除待识别人脸图像样本所对应的中心之外的各中心的特征向量之间的相似度的情况下，需要进行的浮点运算的次数为(N-1)×K²次，其中，N为类别中心所包含的中心的数量，K为人脸特征向量和中心的特征向量的维度。在需要计算待识别人脸图像样本的人脸特征向量与类别中心中的除待识别人脸图像样本所对应的中心之外的部分中心的特征向量之间的相似度的情况下，需要进行的浮点运算的次数为M×K²次，其中，M为选取出的中心的数量，M小于N-1。由此可知，本申请通过控制从类别中心中选取的中心的数量M，有利于根据实际情况对用于人脸识别的深度神经网络进行训练过程中的计算开销以及内存开销进行控制。

在一个可选示例中，本申请在针对待识别人脸图像样本的人脸特征向量与类别中心中的任一个中心的特征向量进行相似度计算时，可以对待识别人脸图像样本的人脸特征向量和中心的特征向量分别进行归一化处理，并通过计算两个归一化处理后的结果的点积，获得待识别人脸图像样本的人脸特征向量和中心的特征向量的余弦相似度。具体的如上述针对公式(1)的描述。

在一个可选示例中，本申请可以从计算获得的所有相似度(例如，欧式距离或者余弦相似度等)中选取出最高相似度(例如，最短欧式距离或者最高余弦相似度等)。最高相似度所对应的中心的特征向量可以作为与待识别人脸图像样本的人脸特征向量最为相近的困难样例的特征向量。

本申请通过设置类别中心，并通过计算待识别人脸图像样本的人脸特征向量与多个中心的特征向量之间的余弦相似度，可以基于余弦相似度从类别中心中选取一个中心，例如，选取出余弦相似度最高的中心，从而可以方便快捷的实现困难样例或者半困难样例的特征向量的采样。

S320、基于待识别人脸图像样本的人脸特征向量、待识别人脸图像样本在类别中心中所对应的中心的特征向量、以及上述选取出的相似度所对应的中心的特征向量形成的三元组，经三元损失函数对用于人脸识别的深度神经网络进行监督学习。

在一个可选示例中，本申请中的三元组包括三个组成部分，为了便于描述，这三个组成部分可以分别称为基本元、正例元以及负例元。本申请可以将经由用于人脸识别的深度神经网络提取出的待识别人脸图像样本的人脸特征向量作为三元组中的基本元，将待识别人脸图像样本在类别中心中所对应的中心的特征向量作为三元组中的正例元，将选取出的最高相似度所对应的中心的特征向量作为负例元。

在一个可选示例中，本申请可以计算三元组中的基本元a与正例元p之间的相似度(如余弦相似度或者欧氏距离等)，并计算三元组中的基本元a与负例元n之间的相似度(如余弦相似度或者欧氏距离等)，然后，采用上述公式(2)所示的三元损失函数对深度神经网络进行监督学习。

图4为本申请的图像识别装置的一个实施例的结构示意图。如图3所示，该实施例的图像识别装置包括：输入模块400、获取模块410以及识别模块420。可选的，该图像识别装置还可以包括：训练模块430。

输入模块400主要用于将待识别图像输入深度神经网络。

在一个可选示例中，在本申请提供的图像识别装置应用于人脸识别技术领域的情况下，待识别图像可以具体为基于人脸的待识别图像，待识别图像的目标特征向量可以具体为待识别图像的人脸特征向量。在本申请提供的图像识别装置应用于物体类别识别技术领域的情况下，待识别图像可以具体为基于物体的待识别图像，待识别图像的目标特征向量可以具体为待识别图像的物体特征向量。在本申请提供的图像识别装置应用于场景类别识别技术领域的情况下，待识别图像可以具体为基于场景的待识别图像，待识别图像的目标特征向量可以具体为待识别图像的场景特征向量。在本申请提供的图像识别装置应用于动作识别技术领域的情况下，待识别图像可以具体为基于动作的待识别图像，待识别图像的目标特征向量可以具体为待识别图像的动作特征向量。

获取模块410主要用于经深度神经网络输出待识别图像的图像特征。

在一个可选示例中，待识别图像在经过深度神经网络中的至少一层卷积层以及至少一非线性ReLU层的相应处理后，深度神经网络从输入的待识别图像中提取出图像特征，从额获取模块410获取到待识别图像的图像特征。

识别模块420主要用于基于待识别图像的图像特征，对待识别图像进行识别。

在一个可选示例中，识别模块420可以基于待识别图像的图像特征，对待识别图像进行人脸识别；也可以基于待识别图像的图像特征，对待识别图像进行手势识别；还可以基于待识别图像的图像特征，对待识别图像进行行人识别；还可以基于待识别图像的图像特征，对待识别图像进行车辆识别；还可以基于待识别图像的图像特征，对待识别图像进行动作识别；还可以基于待识别图像的图像特征，对待识别图像进行场景识别。另外，识别模块420可以基于待识别图像的图像特征，对待识别图像进行人脸位置检测、人脸关键点检测、人体位置检测、人体动作检测、人体关键点检测以及活体检测等识别处理。本申请不限制识别模块420对待识别图像进行识别的具体表现形式。还有，识别模块420可以采用现有的神经网络(如卷积神经网络等)来实现。

训练模块430主要用于对上述深度神经网络进行训练。训练模块430的结构如图5所示。

图5为本申请的训练模块430的一个实施例的结构示意图。如图5所示，该实施例的训练模块430包括：获取特征向量子模块500、计算相似度子模块510、选取相似度子模块520以及监督学习子模块530。

获取特征向量子模块500主要用于基于深度神经网络获取输入的待识别图像样本的目标特征向量。

在一个可选示例中，本申请设置有图像样本集合，该图像样本集合中通常包含有数量众多的图像样本，图像样本集合也可以称为训练集，图像样本也可以称为训练样本。可选的，图像样本集合中的每一个图像样本都具有标签，该标签用于标识图像样本中的目标所属的类别。

在一个可选示例中，获取特征向量子模块500可以从图像样本集合中选取(如随机选取)一个图像样本作为待识别的图像样本，输入给深度神经网络，由该深度神经网络从该待识别的图像样本中提取目标特征向量。本申请中的深度神经网络可以具体为基于AlexNet、VGGNet、GoogLeNet或者ResNet等网络结构的待训练的深度卷积神经网络。本申请不限制深度神经网络的具体结构。

计算相似度子模块510主要用于计算待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度。

在一个可选示例中，本申请中设置有类别中心，该类别中心可以被认为是深度神经网络中的类别中心层。本申请中的类别中心通常包括多个中心，可选的，每一个中心对应一个类别，不同的中心对应不同类别。可选的，类别中心中的任一中心的特征向量可以反映出该中心对应的类别的特征在特征空间中的平均位置，即类别中心中的任一中心的特征向量可以反映出该中心对应的类别的特征向量在特征空间中的平均方向或者在超球面上的平均位置。另外，类别中心中的中心的特征向量会随着深度神经网络的训练而动态更新。

在一个可选示例中，计算相似度子模块510可以获取输入深度神经网络的待识别图像样本的标签，并判断类别中心中是否存在该标签所对应的中心，如果类别中心并不存在该标签所对应的中心，则计算相似度子模块510可以在类别中心中添加新的中心，使该新的中心的标签为待识别图像样本的标签，并根据深度神经网络从该待识别图像样本中提取出的目标特征向量设置该新的中心的特征向量；如果类别中心中存在该标签所对应的中心，则计算相似度子模块510可以计算该待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度。

在一个可选示例中，计算相似度子模块510可以计算该待识别图像样本的目标特征向量与类别中心中的除待识别图像样本所对应的中心之外的各中心的特征向量之间的相似度，例如，类别中心包括N个中心，计算相似度子模块510利用待识别图像样本的标签可以查找到类别中心中的具有该标签的中心(例如，第X中心)，除了第X中心之外，类别中心中还存在N-1个中心，计算相似度子模块510可以计算待识别图像样本的目标特征向量分别与这N-1个中心中的每一个中心的特征向量之间的相似度。

在一个可选示例中，计算相似度子模块510可以计算该待识别图像样本的目标特征向量与类别中心中的除待识别图像样本所对应的中心之外的部分中心的特征向量之间的相似度，例如，类别中心包括N个中心，计算相似度子模块510利用待识别图像样本的标签可以查找到类别中心中的具有该标签的中心(如第X中心)，除了第X中心之外，类别中心中还存在N-1个中心，计算相似度子模块510可以从这N-1个中心中选取(例如，随机选取)出M(M<N-1)个中心，并计算待识别图像样本的目标特征向量分别与这M个中心中的每一个中心的特征向量之间的相似度。

在需要计算待识别图像样本的目标特征向量与类别中心中的除待识别图像样本所对应的中心之外的各中心的特征向量之间的相似度的情况下，计算相似度子模块510需要进行的浮点运算的次数为(N-1)×K²次，其中，N为类别中心所包含的中心的数量，K为目标特征向量和中心的特征向量的维度。在需要计算待识别图像样本的目标特征向量与类别中心中的除待识别图像样本所对应的中心之外的部分中心的特征向量之间的相似度的情况下，计算相似度子模块510需要进行的浮点运算的次数为M×K²次，其中，M为选取出的中心的数量，M小于N-1。由此可知，计算相似度子模块510通过控制从类别中心中选取的中心的数量M，有利于对深度神经网络训练过程中的计算开销以及内存开销进行控制。

在一个可选示例中，计算相似度子模块510在针对待识别图像样本的目标特征向量与类别中心中的任一个中心的特征向量进行相似度计算时，可以对待识别图像样本的目标特征向量和中心的特征向量分别进行归一化处理，然后，计算相似度子模块510通过计算两个归一化处理后的结果的点积，获得待识别图像样本的目标特征向量和中心的特征向量的余弦相似度。具体的，计算相似度子模块510可以利用上述公式(1)计算两者之间的余弦相似度。需要特别说明的是，计算相似度子模块510也可以采用除余弦相似度之外的其他计算方式(如欧式距离等)来确定两个特征向量之间的相似度，本申请不限制计算相似度子模块510计算两个特征向量之间的相似度的具体计算方式。

在一个可选示例中，计算相似度子模块510还可以计算待识别图像样本的目标特征向量与类别中心中的具有该待识别图像样本的标签的中心之间的相似度(如余弦相似度或者欧氏距离等)。

选取相似度子模块520主要用于从计算相似度子模块510计算出的各相似度中选取出一个相似度。

在一个可选示例中，选取相似度子模块520可以从计算获得的所有相似度(例如，欧式距离或者余弦相似度等)中选取出最高相似度(例如，最短欧式距离或者最高余弦相似度等)。最高相似度所对应的中心的特征向量可以作为与待识别图像样本的特征向量最为相近的困难样例的特征向量。当然，本申请也不排除选取相似度子模块520选取出次高相似度的可能性。

本申请通过设置类别中心，并通过计算相似度子模块510计算待识别图像样本的特征向量与多个中心的特征向量之间的余弦相似度，选取相似度子模块520可以基于余弦相似度从类别中心中选取一个中心，例如，选取相似度子模块520选取出余弦相似度最高的中心，从而可以方便快捷的实现困难样例或者半困难样例的特征向量的采样。

监督学习子模块530主要用于基于待识别图像样本的目标特征向量、待识别图像样本在类别中心中所对应的中心的特征向量、以及所述选取出的相似度所对应的中心的特征向量形成的三元组，经三元损失函数对深度神经网络进行监督学习。

在一个可选示例中，本申请中的三元组包括：基本元、正例元以及负例元。监督学习子模块530可以将经由深度神经网络提取出的待识别图像样本的目标特征向量作为三元组中的基本元，将待识别图像样本在类别中心中所对应的中心的特征向量作为三元组中的正例元，将选取出的最高相似度所对应的中心的特征向量作为负例元。

在一个可选示例中，监督学习子模块530可以获得计算相似度子模块510计算三元组中的基本元a与正例元p之间的相似度(如余弦相似度或者欧氏距离等)，并获得计算相似度子模块510计算出的三元组中的基本元a与负例元n之间的相似度(如余弦相似度或者欧氏距离等)。为了使基本元a与正例元p之间的相似度尽可能的大，使基本元a与负例元n之间的相似度尽可能的小，监督学习子模块530可以通过三元损失函数对较小的基本元a与正例元p之间的相似度以及较大的基本元a与负例元n之间的相似度进行惩罚。可选的，监督学习子模块530可以采用上述公式(2)所示的三元损失函数对深度神经网络进行监督学习。

在本申请的训练模块430用于训练实现人脸识别的深度神经网络的情况下，训练模块430中的各模块所执行的操作如下。

获取特征向量子模块500主要用于基于深度神经网络获取输入的待识别人脸图像样本的人脸特征向量。

在一个可选示例中，获取特征向量子模块500可以从人脸图像样本集合中选取(如随机选取)一个人脸图像样本作为待识别的人脸图像样本，输入给深度神经网络，由该深度神经网络从该待识别的人脸图像样本中提取人脸特征向量。

计算相似度子模块510主要用于计算该待识别人脸图像样本的人脸特征向量与类别中心中的至少两个中心的特征向量之间的相似度。

在一个可选示例中，计算相似度子模块510可以获取输入深度神经网络的待识别人脸图像样本的标签，并判断类别中心中是否存在该标签所对应的中心，如果类别中心不存在该标签所对应的中心，则计算相似度子模块510可以在类别中心中添加新的中心，使该新的中心的标签为待识别人脸图像样本的标签，并根据深度神经网络从该待识别人脸图像样本中提取出的人脸特征向量设置该新的中心的特征向量；如果类别中心中存在该标签所对应的中心，则计算相似度子模块510可以计算该待识别人脸图像样本的人脸特征向量与类别中心中的至少两个中心的特征向量之间的相似度。

在一个可选示例中，计算相似度子模块510可以计算该待识别人脸图像样本的人脸特征向量与类别中心中的除待识别人脸图像样本所对应的中心之外的各中心的特征向量之间的相似度，例如，类别中心包括N个中心，计算相似度子模块510利用待识别人脸图像样本的标签可以查找到类别中心中的具有该标签的中心(例如，第X中心)，除了第X中心之外，类别中心中还存在N-1个中心，计算相似度子模块510可以计算待识别人脸图像样本的人脸特征向量分别与这N-1个中心中的每一个中心的特征向量之间的相似度。

在一个可选示例中，计算相似度子模块510可以计算该待识别人脸图像样本的人脸特征向量与类别中心中的除待识别人脸图像样本所对应的中心之外的部分中心的特征向量之间的相似度，例如，类别中心包括N个中心，计算相似度子模块510利用待识别人脸图像样本的标签可以查找到类别中心中的具有该标签的中心(如第X中心)，除了第X中心之外，类别中心中还存在N-1个中心，计算相似度子模块510可以从这N-1个中心中选取(例如，随机选取)出M(M<N-1)个中心，并计算待识别人脸图像样本的人脸特征向量分别与这M个中心中的每一个中心的特征向量之间的相似度。

在计算待识别人脸图像样本的人脸特征向量与类别中心中的除待识别人脸图像样本所对应的中心之外的各中心的特征向量之间的相似度的情况下，计算相似度子模块510需要进行的浮点运算的次数为(N-1)×K²次，其中，N为类别中心所包含的中心的数量，K为人脸特征向量和中心的特征向量的维度。

在需要计算待识别人脸图像样本的人脸特征向量与类别中心中的除待识别人脸图像样本所对应的中心之外的部分中心的特征向量之间的相似度的情况下，计算相似度子模块510需要进行的浮点运算的次数为M×K²次，其中，M为选取出的中心的数量，M小于N-1。

由此可知，计算相似度子模块510通过控制从类别中心中选取的中心的数量M，有利于根据实际情况对用于人脸识别的深度神经网络进行训练过程中的计算开销以及内存开销进行控制。

在一个可选示例中，计算相似度子模块510在针对待识别人脸图像样本的人脸特征向量与类别中心中的任一个中心的特征向量进行相似度计算时，可以对待识别人脸图像样本的人脸特征向量和中心的特征向量分别进行归一化处理，并通过计算两个归一化处理后的结果的点积，获得待识别人脸图像样本的人脸特征向量和中心的特征向量的余弦相似度。具体的如上述针对公式(1)的描述。

在一个可选示例中，计算相似度子模块510还可以计算待识别人脸图像样本的人脸特征向量与类别中心中的具有该待识别人脸图像样本的标签的中心之间的相似度(如余弦相似度或者欧氏距离等)。

在一个可选示例中，选取相似度子模块520可以从计算相似度子模块510计算获得的所有相似度(例如，欧式距离或者余弦相似度等)中选取出最高相似度(例如，最短欧式距离或者最高余弦相似度等)。最高相似度所对应的中心的特征向量可以作为与待识别人脸图像样本的人脸特征向量最为相近的困难样例的特征向量。

本申请通过设置类别中心，并通过计算相似度子模块510计算待识别人脸图像样本的人脸特征向量与多个中心的特征向量之间的余弦相似度，选取相似度子模块520可以基于余弦相似度从类别中心中选取一个中心，例如，选取相似度子模块520选取出余弦相似度最高的中心，从而可以方便快捷的实现困难样例或者半困难样例的特征向量的采样。

监督学习子模块530用于基于待识别人脸图像样本的人脸特征向量、待识别人脸图像样本在类别中心中所对应的中心的特征向量、以及上述选取出的相似度所对应的中心的特征向量形成的三元组，经三元损失函数对用于人脸识别的深度神经网络进行监督学习。

在一个可选示例中，本申请中的三元组包括三个组成部分，为了便于描述，这三个组成部分可以分别称为基本元、正例元以及负例元。本申请可以将经由用于人脸识别的深度神经网络提取出的待识别人脸图像样本的人脸特征向量作为三元组中的基本元a，将待识别人脸图像样本在类别中心中所对应的中心的特征向量作为三元组中的正例元p，将选取出的最高相似度所对应的中心的特征向量作为负例元n。

在一个可选示例中，监督学习子模块530可以获得计算相似度子模块510计算出的三元组中的基本元a与正例元p之间的相似度(如余弦相似度或者欧氏距离等)，并获得计算相似度子模块510计算出的三元组中的基本元a与负例元n之间的相似度(如余弦相似度或者欧氏距离等)，监督学习子模块530可以采用上述公式(2)所示的三元损失函数对深度神经网络进行监督学习。

示例性设备

图6示出了适于实现本申请的示例性设备600，设备600可以是移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图6中，设备600包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)601，和/或，一个或者多个图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请方法实施例中的相应步骤。

此外，在RAM 603中，还可以存储有装置操作所需的各种程序以及数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使中央处理单元601执行上述方法实施例所包括的步骤。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装在存储部分608中。

需要特别说明的是，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU和CPU可分离设置，再如理，可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请实施方式包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本申请提供的步骤对应的指令。

在这样的实施方式中，该计算机程序可以通过通信部分609从网络上被下载及安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请中记载的上述指令。

示例性应用场景

参考图7，示意性地示出了根据本申请实施方式的可以在其中实现的一个应用场景。

图7中，深度神经网络700可以为用于人脸识别、物体分类、场景分类或者动作识别等应用的深度卷积神经网络，用于训练深度神经网络700的图像样本集合至少包括Z个图像样本，即至少包括图像样本1、图像样本2、……以及图像样本Z。每一个图像样本均具有用于表征其所属类别的标签，属于同一类别的不同图像样本具有相同的标签，属于不同类别的不同图像样本具有不同的标签。在基于图像样本集合中的多个图像样本利用本申请的上述技术方案对深度神经网络700进行训练后，可以方便快捷的使神经学习到更加紧致的目标特征向量(如人脸特征向量等)，从而有利于提高深度神经网络的图像识别准确性。

然而，本领域技术人员完全可以理解，本申请实施方式的适用场景不受到该框架任何方面的限制。

可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施方式是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

将待识别图像输入深度神经网络；

经所述深度神经网络输出所述待识别图像的图像特征；

基于所述待识别图像的图像特征，对所述待识别图像进行识别；

其中，所述深度神经网络经三元损失函数训练获得，所述三元损失函数中的三元组利用所述深度神经网络中包含的至少两个中心的类别中心及所述中心的特征向量得到。

2.如权利要求1所述的方法，其特征在于，所述基于所述待识别图像的图像特征，对所述待识别图像进行识别包括下述至少之一：

基于所述待识别图像的图像特征，对所述待识别图像进行人脸识别；

基于所述待识别图像的图像特征，对所述待识别图像进行手势识别；

基于所述待识别图像的图像特征，对所述待识别图像进行行人识别；

基于所述待识别图像的图像特征，对所述待识别图像进行车辆识别；

基于所述待识别图像的图像特征，对所述待识别图像进行动作识别；

基于所述待识别图像的图像特征，对所述待识别图像进行场景识别。

3.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

对所述深度神经网络进行训练；

所述对所述深度神经网络进行训练，包括：

基于深度神经网络获取待识别图像样本的目标特征向量；

计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度，并从各相似度中选取出一个相似度；

基于所述待识别图像样本的目标特征向量、待识别图像样本在类别中心中所对应的中心的特征向量、以及所述选取出的相似度所对应的中心的特征向量形成的三元组，经三元损失函数对所述深度神经网络进行监督学习。

4.根据权利要求3所述的方法，其特征在于，所述基于深度神经网络获取到的待识别图像样本的目标特征向量的维度与所述类别中心中的各中心的特征向量的维度相同。

5.根据权利要求3至4中任一项所述的方法，其特征在于，所述计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度包括：

计算所述待识别图像样本的目标特征向量与类别中心中的除所述待识别图像样本所对应的中心之外的各中心的特征向量之间的相似度。

6.根据权利要求3至4中任一项所述的方法，其特征在于，所述计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度包括：

从所述类别中心中选取除所述待识别图像样本所对应的中心之外的M个中心，并分别计算所述待识别图像样本的目标特征向量与所述M个中心的特征向量之间的相似度；

其中，M为不小于2的整数，且M小于N-1，N为类别中心所包含的中心数量。

7.根据权利要求3至6中任一项所述的方法，其特征在于，所述计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的相似度包括：

计算所述待识别图像样本的目标特征向量与类别中心中的至少两个中心的特征向量之间的余弦相似度。

8.一种图像识别装置，其特征在于，包括：

输入模块，用于将待识别图像输入深度神经网络；

获取模块，用于经所述深度神经网络输出所述待识别图像的图像特征；

识别模块，用于基于所述待识别图像的图像特征，对所述待识别图像进行识别；

9.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述权利要求1-7中任一项所述的方法。