CN111028216A

CN111028216A - 图像评分方法、装置、存储介质及电子设备

Info

Publication number: CN111028216A
Application number: CN201911252218.5A
Authority: CN
Inventors: 彭冬炜
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-17

Abstract

本申请实施例公开了一种图像评分方法、装置、存储介质及电子设备，其中，方法包括：当确定目标图像包含指定语义信息时，基于所述指定语义信息计算所述目标图像的第一评分，将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分，基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。采用本申请实施例，可以提高图像美学质量评价的准确率。

Description

图像评分方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像评分方法、装置、存储介质及电子设备。

背景技术

随着智能终端设备的普及，图像、视频、3D等可视内容数据与日俱增，可视内容感知理解已经成为可视计算、计算机视觉、计算摄像学等科学研究领域及其交叉方向国际前沿的研究方向。其中图像美学质量评价(Image Aesthetic Quality Assessment)是近期可视内容感知理解方向中的研究热点。

目前，图像美学质量评价通常是基于深度学习的图像质量分类方法，使用端到端的网络结构，网络部分采用卷积神经网络创建初始图像美学质量评价模型，通过基于现有的美学质量评价数据集(如，AVA数据集)进行特征提取，输入至卷积神经网络进行训练，从而得到训练好的图像美学质量评价模型。然而，通常美学质量评价数据集分布不均衡，即中等质量的图像多而高质量和低质量图像相对较少，从而造成图像美学质量评价模型不能覆盖到各质量水平的图像，进而导致图像美学质量评价不准确。

发明内容

本申请实施例提供了一种图像评分方法、装置、存储介质及电子设备，可以提高图像美学质量评价的准确率。所述技术方案如下：

第一方面，本申请实施例提供了一种图像评分方法，所述方法包括：

当确定目标图像包含指定语义信息时，基于所述指定语义信息计算所述目标图像的第一评分；

将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分；

基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。

第二方面，本申请实施例提供了一种图像评分装置，所述装置包括：

第一评分计算模块，用于当确定目标图像包含指定语义信息时，基于所述指定语义信息计算所述目标图像的第一评分；

第二评分计算模块，用于将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分；

质量评分确定模块，用于基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请一个或多个实施例中，终端当确定目标图像包含指定语义信息时，基于所述指定语义信息计算所述目标图像的第一评分，将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分，基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。在现有基础上，通过结合指定语义信息计算图像美学质量评分，可以避免仅基于美学质量评价数据集分布不均衡而导致最终评价不准确的问题，可以使得图像的美学质量评分更加贴近人类的真实评价方式，进而可以提高图像美学质量评价的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像评分方法的流程示意图；

图2是本申请实施例提供的一种图像评分方法涉及的深度神经网络的场景示意图；

图3是本申请实施例提供的另一种图像评分方法的流程示意图；

图4是本申请实施例提供的图像评分方法涉及的表示人脸角度的场景示意图；

图5是本申请实施例提供的图像评分方法涉及的一种神经网络的卷积层为图卷积的示意图；

图6是本申请实施例提供的图像评分方法涉及的一种人脸检测模型输入输出的场景示意图；

图7是本申请实施例提供的一种图像评分装置的结构示意图；

图8是本申请实施例提供的一种第一评分计算模块的结构示意图；

图9是本申请实施例提供的一种人脸质量分计算单元的结构示意图；

图10是本申请实施例提供的一种第二评分确定单元的结构示意图；

图11是本申请实施例提供的一种质量评分确定模块的结构示意图；

图12是本申请实施例提供的另一种图像评分装置的结构示意图；

图13是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在一个实施例中，如图1所示，特提出了一种图像评分方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的图像评分装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本申请实施例中的模型训练装置可以为终端，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、服务器、计算设备或连接到无线调制解调器的其它处理设备等。

具体的，该图像评分方法包括：

步骤101：当确定目标图像包含指定语义信息时，基于所述指定语义信息计算所述目标图像的第一评分。

所述图像是指对自然事物或客观对象(人、动物、植物、景观等)的一种相似性、生动性的描述或写真，或所述图像可以理解为是自然事物或客观对象(人、动物、植物、景观等)的一种表示方式，它包含了被描述对象的有关信息。通常所述图像就是具有视觉效果的画面。而所述目标图像，在本实施例中可以理解待评分的图像。所述目标图像可以是照片、绘画、剪贴画、地图、卫星云图、影视画面、X光片、脑电图、心电图等等。

所述语义信息是信息的表现形式之一，对信息接受者来说，信息可表现为语法信息、语义信息和语用信息三个层次。语义信息可以借助自然语言去领会和解释。所述指定语义信息在本实施例中可以理解为指定同一场景标签的多个语义信息，例如人脸场景标签的多个语义信息(人脸情绪、人脸表情、人脸质量、人脸眼态等等)。

所述第一评分可以理解为终端基于目标图像的指定语义信息的打分。

在一种可行的实施方式中，终端可以预先创建场景分类器，所述场景分类器可以用于检测或分类所输入图像的场景标签。在本申请实施例中，终端确定所述目标图像是否包含指定语义信息，可以将所述目标图像输入至场景分类器中，输出所述目标图像的目标场景标签，再通过判断所述目标场景标签与所述指定语义信息的场景标签是否一致，当所述目标场景标签与所述指定语义信息的场景标签一致时，终端即可确定所述目标图像包含指定语义信息；当所述目标场景标签与所述指定语义信息的场景标签不一致时，终端即可确定所述目标图像不包含指定语义信息。

在一种具体的实施场景中，所述指定语义信息可以是人脸场景标签的多个语义信息，例如人脸情绪、人脸表情、人脸质量、人脸眼态等语义信息，终端确定目标图像是否包含指定语义信息(如人脸情绪、人脸表情、人脸质量、人脸眼态等语义信息)时，即通过将所述目标图像输入至所述场景分类器中，以根据输出的目标场景标签，判断所述目标场景标签是否与人脸场景标签一致，当目标场景标签与人脸场景标签一致时，终端确定所述目标图像包含人脸场景标签的指定语义信息。

其中，所述场景分类器是基于图像分类训练的一种机器学习模型(如神经网络模型)，通过输入一个图像至场景分类器，场景分类器对所述图像进行识别分类处理，从给定的场景分类集合中给图像确定一个标签。

在创建场景分类器之后，获取大量图像数据，确定由不同内容的图像分别构成的图像集，如，风景图像构成的图像集、人脸图像构成的图像集、建筑图像构成的图像集等等，之后针对每一种内容的图像集，提取该图像集包含的各图像之间的共同特征，即特征向量。然后将所述特征向量输入到所述场景分类器中进行训练，在训练过程中，计算场景分类器的实际输出值与期望输出值的期望误差，基于所述期望误差调整所述场景分类器的参数，训练完成后，即可得到训练好的生成场景分类器。

可选的，在对所述场景分类器进行训练，可以是采用基于动态时间规整的训练方法(DTW)，可以是基于矢量量化的训练方法(VQ)，还可以是基于图像信号的时间序列的训练方法(HMM)，等等。

具体的，通过训练最终得到训练好的场景分类器之后，即可将所述待识别的目标图像输入至场景分类器进行图像识别，以得到待识别图像-目标图像所属场景标签。

具体的，终端在确定目标图像包含指定语义信息，可以将所述目标图像输入至预先训练好的图像语义模型中，输出所述目标图像的指定语义信息，终端基于预设的语义信息评价规则对所述目标图像的指定语义信息进行评分，即可得到所述目标图像的第一评分。

在实际应用中，终端可以创建初始图像语义模型，并可以从已有的图像数据库中获取全部或部分样本图像，和/或获取采用具有拍照功能的设备对实际环境下拍摄的样本图像。通过获取大量样本图像，对所述样本图像进行预处理，所述预处理包含数字化、几何变换、归一化、平滑、复原增强等处理过程，消除样本图像中无关的信息，并提取图像特征，将所述图像特征输入至所述初始图像语义模型中进行训练，从而得到训练好的图像语义模型。

其中，终端可以从已有的CUHKPQ图库、AVA图库等图像数据库中获取全部或部分样本图像。

可选的，所述图像语义模型可以是基于卷积神经网络(Convolutional NeuralNetwork，CNN)模型，深度神经网络(Deep Neural Network，DNN)模型、循环神经网络(Recurrent Neural Networks，RNN)、模型、嵌入(embedding)模型、梯度提升决策树(Gradient Boosting Decision Tree，GBDT)模型、逻辑回归(Logistic Regression，LR)模型等模型中的一种或多种的拟合实现的，同时在现有神经网络模型基础上引入误差反向传播算法进行优化，可以提高基于神经网络模型的初始图像语义模型的识别准确率。

具体的，终端通常基于所述图像语义模型得到所述目标图像的指定语义信息，所述指定语义信息通常为同一场景标签的多个语义信息，以人脸场景标签为例，所述指定语义信息可以是人脸情绪信息、人脸眼态、人脸置信度、人脸角度、人脸框信息以及人脸关键点信息等。终端基于预设的语义信息评价规则对所述目标图像的指定语义信息进行评分，所述语义信息评价规则可以是终端预先设置有各语义信息对应的评判算法，如对人脸关键点信息设置人脸关键点评判算法，针对人脸置信度、人脸角度设置人脸质量分算法，等等，然后基于至少一个所述评判算法(如人脸关键点评判算法、人脸质量分算法)得到相对应的得分，然后对所述得分进行加权运算，即可得到所述目标图像的第一评分。

例如：基于至少一个所述评判算法(如人脸关键点评判算法、人脸质量分算法)得到4个得分，分别为A、B、C、D，然后乘以相应的权重因子：q1、q2、q3、q4。则所述：第一评分＝A*q1+B*q2+C*q3+D*q4。

步骤102：将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分。

所述自然图像评价模型是基于深度神经网络的模型，在本申请实施例中，所述自然图像评价模型，通过获取大量的样本图像，提取样本图像的图像特征，并基于已标注的样本图像的评价分数对深度神经网络的模型进行训练，同时可以在现有神经网络模型基础上引入误差反向传播算法进行优化，提高神经网络模型的评价准确率。

所述第二评分为经自然图像评价模型评分处理之后，输出的图像评分。

具体的，所述深度神经网络通常由输入层、隐层、输出层组成，如图2所示，所述输入层用于根据输入所述深度神经网络的图像特征计算输入至最底层的隐层单元的输出值，所述输入层通常包括多个输入单元，所述输入单元用于根据输入的图像特征计算输入至最底层的隐层单元的输出值。将所述图像特征输入至所述输入单元后，所述输入单元根据自身的加权值利用输入至所述输入单元的图像特征计算向最底层的隐层输出的输出值。

所述隐层通常为多个，每一层隐层包括多个隐层单元，所述隐层单元接收来自于下一隐层中的隐层单元的输入值。根据本层的加权值对来自于下一层隐层中的隐层单元的输入值进行加权求和，并将加权求和的结果作为输出至上一层隐层的隐层单元的输出值。

所述输出层包括多个输出单元，所述输出单元接收来自于最上层隐层中的隐层单元的输入值，在本申请实施例中，所述自然图像评价模型的输出层为10个神经元(即输出单元)的全连接层，也可以理解为输出层的激励函数(SOFTMAX)为10维向量，其中向量的每一维代表一个分值的概率。然后根据本层的加权值对来自于隐层的隐层单元的输入值进行点积运算，根据点积运算的结果计算实际输出值。

其中，为了生成对图像质量的评价结果相对而言准确的自然图像评价模型，可以在对自然图像评价模型进行训练的过程中，基于期望输出值(预测评价结果)、多个样本图像的期望输出值以及预设的损失函数，判断处于当前训练阶段的自然图像评价模型是否收敛。如果收敛，表明各预测评价结果与相应的评价结果标签之间的误差，均达到期望值，例如，预设的损失函数的输出小于预设阈值。此时的评价模型对图像质量的评价结果相对而言准确，如果未收敛，则表明各预测评价结果与相应的评价结果标签(已标注的评价分数)之间的误差，未达到期望值。此时，基于期望输出值与实际输出值的误差从输出层反向传播并沿输出路径调整各层连接权重值和阈值。

具体的，终端首先对所述目标图像进行预处理，所述预处理包含数字化、几何变换、归一化、平滑、复原增强等处理过程，消除目标图像中无关的信息，然后将所述经预处理之后的目标图像输入至自然图像评价模型中，即可得到所述目标图像对应得第二评分。

步骤103：基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。

所述美学质量评分可以理解为结合语义信息的综合美学评价或最终综合美学评分，通过评分的数值可以用于表征美学质量的美感程度。

所述第一评分反映了基于自然图像评价模型得到美学质量的美感程度、以及所述第二评分反映了基于目标图像的语义信息得到美学质量的美感程度。

在一种可行的实施方式中，终端在基于所述指定语义信息计算所述目标图像的第一评分，以及将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分之后，采用统计学的算法，计算所述第一评分以及第二评分的平均值，将所述平均值作为所述目标图像的美学质量评分。

在另一种可行的实施方式中，终端在基于所述指定语义信息计算所述目标图像的第一评分，以及将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分之后，采用统计学方法，对所述第一评分以及第二评分进行加权计算，将加权计算的结果作为所述目标图像的美学质量评分。

在本申请实施例中，终端当确定目标图像包含指定语义信息时，基于所述指定语义信息计算所述目标图像的第一评分，将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分，基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。在现有基础上，通过结合指定语义信息计算图像美学质量评分，可以避免仅基于美学质量评价数据集分布不均衡而导致最终评价不准确的问题，可以使得图像的美学质量评分更加贴近人类的真实评价方式，进而可以提高图像美学质量评价的准确率。

请参见图3，图3是本申请提出的一种图像评分方法的另一种实施例的流程示意图。具体的：

步骤201：将所述目标图像输入至人脸检测模型中。

所述人脸检测模型是面部分析算法的一种具体应用，通常，人脸检测模型常用于人脸对齐、人脸建模、人脸重新照明、人脸识别、人脸美妆、人脸AR、人脸验证/认证、头部姿态跟踪、面部表情跟踪/识别、性别/年龄识别等领域。在本申请实施例中所述人脸检测模型可以用于检测所述目标图像是否包含人脸区域。即给定任意输入图像，可以通过人脸检测模型确定图像中是否存在人脸，如果存在，通常会返回该图像中，人脸在图像中的位置或其它表征人脸的信息(如人脸置信度、人脸关键点、人脸框等)。

在本申请实施例中，所述人脸检测模型可以是基于深度学习的人脸检测方法，如级联卷积神经网络(Cascade Convolutional Neural Network，Cascade CNN)，快速区域卷积神经网络(Faster Regions with CNN features，Faster RCNN)，以及基于传统物体检测网络(RetinaNet)的RetinaFace人脸检测模型等等。相比传统的人脸检测方法(如刚性模板(rigid templates)法)，深度神经网络提取的特征具有更强的鲁棒性和描述能力。

需要说明的是，在本申请实施例中，所述人脸检测模型可以是上述的一种或多种的拟合，此处不做具体的限定。具体的，终端获取所述目标图像，所述目标图像可以是本地存储的，可以是终端接收其他电子设备(如服务器、数据库、移动终端)通过通信网络发送的目标图像，然后将所述目标图像输入至所述人脸检测模型中，检测所述目标图像中是否包含人脸区域。

步骤202：当检测到所述目标图像不包含人脸区域时，确定所述目标图像不包含指定语义信息。

具体的，终端将所述目标图像输入至人脸检测模型，基于人脸检测模型的输出结果，所述输出结果通常是以字符串、二进制数字组等数据进行表示，终端对所述输出结果进行识别处理，即可判断所述目标图像是否包含人脸区域，当所述目标图像不包含人脸区域时，即可确定所述目标图像不包含人脸场景标签对应的指定语义信息。

步骤203：将所述目标图像输入所述自然图像评价模型中，得到第三评分，将所述第三评分作为所述评分图像的美学质量评分。

所述第三评分可以理解为所述目标图像不包含人脸区域时，经自然图像评价模型评分处理之后，输出的图像评分。

其中，所述自然图像评价模型的详细释义可参考步骤102。

具体的，终端首先对所述目标图像进行预处理，所述预处理包含数字化、几何变换、归一化、平滑、复原增强等处理过程，消除目标图像中无关的信息，然后将所述经预处理之后的目标图像输入至自然图像评价模型中，即可得到所述目标图像对应得第三评分，终端此时将所述第三评分作为所述评分图像的美学质量评分。

步骤204：当检测到所述目标图像包含人脸区域时，确定所述目标图像包含指定语义信息。

具体的，终端将所述目标图像输入至人脸检测模型，基于人脸检测模型的输出结果，所述输出结果通常是以字符串、二进制数字组等数据进行表示，终端对所述输出结果进行识别处理，即可判断所述目标图像是否包含人脸区域，当所述目标图像包含人脸区域时，即可确定所述目标图像包含人脸场景标签对应的指定语义信息。

步骤205：输出所述目标图像对应的指定语义信息，所述指定语义信息包括人脸置信度、人脸角度、人脸框信息以及人脸关键点信息。

所述人脸置信度为人脸质量评判的一种参数，通常根据目标图像提取人脸特征点，由人脸检测模型基于所述人脸特征点评判该目标图像所包含人脸区域的可信程度(或准确程度)，人脸置信度越高，代表该目标图像所对应的人脸质量越高。

所述人脸角度通常分为三种分别是俯仰角、偏航角和旋转角；如图4所示，图4是一种表示人脸角度的场景示意图，其中，俯仰角为绕x轴方向旋转的角度，也称为Pitch；偏航角为绕y轴旋转的角度，也称为Yaw；旋转角为绕z轴旋转的角度，也称为Roll。通常在提取到目标图像的人脸特征点，根据人脸特征点所包含的眼部特征点和耳部特征点，人脸检测模型可以根据眼部特征点和/或耳部特征点之间的位置关系，确定图像中的人脸角度。其中，所述根据位置关系确定图像中的人脸角度为现有技术，此处不再赘述。

所述人脸框信息为包含人脸区域的闭合框的图像信息。

所述人脸关键点信息可以理解为将人脸面部的关键区域位置(包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等)通过若干关键点的标注出来，所述标注通常可以是以坐标的形式。

在本申请实施例中，所述人脸检测模型可以是基于深度学习网络中的一种，通过预先创建初始人脸检测模型，并可以从已有的图像数据库(如WIDER FACE数据集、IJB-C测试集、AVA数据集等)中获取全部或部分样本图像，和/或获取采用具有拍照功能的设备对实际环境下拍摄的样本图像。通过获取大量样本图像，对所述样本图像进行预处理，所述预处理包含数字化、几何变换、归一化、平滑、复原增强等处理过程，消除样本图像中无关的信息，并对各样本图像标注指定个数的面部标志(具体个数基于实际人脸检测环境确定，如确定5个面部标志)，所述面部标志作为监督信号的帮助下对模型训练进行监测，同时提取图像特征，将所述图像特征输入至所述初始人脸检测模型中进行训练，从而得到训练好的人脸检测模型。

可选的，如图5所示，图5是一种神经网络的卷积层为图卷积的示意图，所述人脸检测模型训练在神经网络的卷积层使用图卷积以替换常用的二维卷积加快对人脸检测模型的训练速度。并设定多任务训练的损失函数，判断处于当前训练阶段的人脸检测模型是否收敛。如果收敛，表明各预测评价结果与相应的评价结果标签之间的误差，均达到期望值，例如，预设的损失函数的输出小于预设阈值。此时的人脸检测模型对图像质量的评价结果相对而言准确，如果未收敛，则表明各实际输出值与相应的期望输出值之间的误差，未达到期望值。此时，基于期望输出值与实际输出值的误差从输出层反向传播并沿输出路径调整各层连接权重值和阈值。

具体的，所述预设的损失函数可以是采用如下的公式：

L＝L_cls(pi,pi*)+λ₁pi*L_box(ti,ti*)+λ₂pi*L_pts(li,li*)+λ₃pi*L_pixel

其中，pi为人脸置信度，pi*是人脸表征值(包含人脸为1，非人脸为0)，L_cls(pi,pi*)为人脸分类SOFTMAX函数，ti预测位置(通常以(tx，ty，tw，th)表示)，ti*标注位置(通常以(tx*，ty*，tw*，th*)表示)，L_box(ti，ti*)为中心归一化处理后的人脸框定位损失，li为预测的面部标志的坐标，li*为标注的面部标志的坐标，L_pts(li，li*)为中心归一化处理后人脸关键点定位损失。L_pixel自监督3D Mesh Renderer稠密人脸回归损失。λ1、λ2、λ3为损失平衡权重(通常为0.25、0.1、0.01)。

即通过上述损失函数在人脸检测的训练监督中加入检测框和关键点的损失监督信号。

具体的，终端将所述目标图像输入至人脸检测模型，，如图6所示，图6是一种人脸检测模型输入输出的场景示意图，当检测到所述目标图像包含人脸区域时，在图6所示的“人脸分类”分支中输出包含人脸区域的人脸检测信息，在图6所示的其他分支(“人脸框信息”分支、“人脸关键点”分支、···)中，输出所述目标图像对应的指定语义信息--人脸置信度、人脸角度、人脸框信息以及人脸关键点信息。

步骤206：根据所述人脸置信度以及所述人脸角度，计算人脸质量分。

所述人脸质量分可以理解为基于人脸质量指示参数计算得到的分数，通过所述人脸质量分表征人脸质量的区分度或区分程度。

在一种可行的实施方式中，终端采用统计学的算法，计算所述人脸置信度以及人脸角度的平均值，将所述平均值作为所述目标图像的美学质量评分。

例如：所述人脸置信度为a，所述人脸角度为b，则人脸质量分S的计算公式为：S＝(a+b)/2。

在另一种可行的实施方式中，终端采用统计学方法，获取人脸置信度所对应的第一加权因子，获取人脸角度的第二加权因子。然后计算所述人脸置信度与第一加权因子的第一乘积，并计算人脸角度与第二加权因子的第二乘积，将所述第一乘积与所述第二乘积进行求和，得到所述人脸质量分。

其中，若所述人脸角度以俯仰角a、偏航角b和旋转角c表示时，且以第一加权因子为d1、第二加权因子为d2，置信度a表示时，则所述人脸质量分s可以经下述公式计算得到：

S＝a*d2+(a+b+c)*d1

步骤207：将所述人脸关键点输入至人脸表情分类器中，输出人脸表情分。

在实际应用中，所述人脸表情可以包括六种基本表情：高兴、惊讶、愤怒、恐惧、厌恶和悲伤，也可以对所述六种表情进行进一步分类，愤怒表情可进一步包括：impatience(急躁)、anger(气愤)和fury(狂怒)；如高兴表情可以进一步包括：smile(微笑)、laugh(大笑)和sneer(冷笑)；惊讶表情可进一步包括：doubt(疑惑)、curiousness(好奇)、surprise(吃惊)和gape(目瞪口呆)；恐惧表情可进一步包括：fear(害怕)和shyness(胆怯)；厌恶表情可进一步包括：disgust(憎恶)和contempt(蔑视)；悲伤表情可进一步包括：despair(绝望)和sadness(悲伤)等。

在本申请实施例中，所述人脸表情分类器可以是线性分类器、神经网络分类器、支持向量机、隐马尔可夫模型等分类识别方法。

其中，所述人脸表情分类器可以是基于卷积神经网络的分类器，采用卷积神经网络创建方法建立初始人脸表情分类器，通过获取大量的人脸表情样本数据，所述人脸表情样本数据包含上述涉及的所有类型的表情，然后对所述人脸表情样本数据提取的人脸关键点，并基于已标注的人脸表情样本数据的人脸表情分对初始人脸表情分类器进行训练，可以得到训练好的人脸表情分类器。

具体的，终端将所述人脸关键点输入至训练好的人脸表情分类器中，即可得到所述人脸表情分类器的输出结果-人脸表情分。

步骤208：将所述人脸框信息输入至人脸眼态检测器中，输出人脸眼态分。

所述人脸框信息通常包含眼态的信息(睁眼、闭眼等信息)，在实际应用中，由于睁闭眼图像都有其特征，不同拍摄条件下的人眼相片中还存在很多的随机性变异(例如眼微睁等)，可以预先对人眼做出适当的分割，人眼的上到下可以分为上中下3个重要组成部分，分别为上睫毛、瞳孔以及下睫毛，即具有结构上的恒常性。人眼的睁闭特征首先表现为上述组成部分特征的不同。此时可以通过人脸框信息中获取人眼图像信息构造观察向量，那么观察向量与人眼状态特征之间的关系通常可以用于训练初始人脸眼态检测器。

具体的，所述人脸眼态检测器可以是线性分类器、神经网络分类器、支持向量机、隐马尔可夫模型等分类识别方法进行创建。在本申请实施例中，所述人脸眼态检测器用基于卷积神经网络的马尔可夫模型(HiddenMarkov Model，HMM)创建，则人眼状态的特征可以抽象为HMM的状态序列，相同状态的眼睛图像由于受到外界因素的影响而造成各个方面的不同，可以把这些不同的图像看作是同一组状态序列，它们对应的是同一个HMM，状态的出现及其转移可以用模型中的概率矩阵描述。对于相同的眼睛状态，所对应的HMM应当是唯一的。通过已收集的人眼图像来分析和建立隐Markov模型，人眼水平方向自左向右也具有相对稳定的空间结构，因此，可将沿垂直方向划分的上中下3个状态再分别扩充为含有沿水平方向变化的HMM，我们把垂直方向的HMM称为主HMM，水平方向嵌入的多组HMM称为子HMM，因而可以将这种嵌入了水平方向状态转移的扩充了的一维HMM称嵌入式隐马尔可夫模型(Embedded Hidden Markov Model，EHMM)。通过获取大量的包含人脸眼态的人脸框样本数据，然后对所述人脸框样本数据提取的人脸眼态特征，并基于已标注人脸眼态分的包含人脸眼态的人脸框样本数据对初始人脸眼态检测器进行训练，可以得到训练好的人脸眼态检测器。然后终端将所述人脸框信息输入至训练好的人脸眼态检测器中，即可得到所述人脸眼态检测器的输出结果-人脸眼态分。

步骤209：基于所述人脸质量分、人脸表情分以及人脸眼态分，确定所述目标图像的第一评分。

在一种可行的实施方式中，终端在获取到所述人脸质量分、人脸表情分以及人脸眼态分之后，采用统计学的算法，计算所述人脸质量分、人脸表情分以及人脸眼态分，将所述平均值作为所述目标图像的第一评分。

在一种可行的实施方式中，终端在获取到所述人脸质量分、人脸表情分以及人脸眼态分之后，采用统计学的算法，预先获取所述人脸质量分对应的第三加权因子，获取所述人脸表情分所对应的第四加权因子，获取所述人脸眼态分所对应的所述第五加权因子，计算所述人脸质量分别与第三加权因子的第三乘积，并计算所述人脸表情分与第四加权因子的第四乘积，并计算所述人脸眼态分与所述第五加权因子的第五乘积，将所述第三乘积、第四乘积以及所述第五乘积进行求和，得到所述目标图像的第一评分。

步骤210：将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分。

具体可参见步骤102，此处不再赘述。

步骤211：基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。

在另一种可行的实施方式中，终端在基于所述指定语义信息计算所述目标图像的第一评分，以及将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分之后，采用统计学方法，获取所述第一评分所对应的第六加权因子，获取所述第二评分所对应的第七加权因子，计算所述第一评分与第六加权因子的第六乘积，并计算所述第二评分与第七加权因子的第七乘积，将所述第六乘积与所述第七乘积进行求和，得到所述评分图像的美学质量评分。

其中，在本申请实施例中，涉及的加权因子，如第一加权因子、第二加权因子、第三加权因子···，通过在实际应用环境中获取大量样本图像，对所述样本图像进行图像评分，基于实际评分与期望评分对反向对各加权因子进行校正。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图7，其示出了本申请一个示例性实施例提供的图像评分装置的结构示意图。该图像评分装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括第一评分计算模块11、第二评分计算模块12和业质量评分确定模块13。

第一评分计算模块11，用于当确定目标图像包含指定语义信息时，基于所述指定语义信息计算所述目标图像的第一评分；

第二评分计算模块12，用于将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分；

质量评分确定模块13，用于基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。

可选的，如图8所示，所述第一评分计算模块11，包括：

人脸质量分计算单元111，用于根据所述人脸置信度以及所述人脸角度，计算人脸质量分；

人脸表情分输出单元112，用于将所述人脸关键点输入至人脸表情分类器中，输出人脸表情分；

人脸眼态分输出单元113，用于将所述人脸框信息输入至人脸眼态检测器中，输出人脸眼态分；

第二评分确定单元114，用于基于所述人脸质量分、人脸表情分以及人脸眼态分，确定所述目标图像的第一评分。

可选的，如图9所示，所述人脸质量分计算单元111，包括：

乘积计算子单元1111，用于计算所述人脸置信度与第一加权因子的第一乘积，并计算人脸角度与第二加权因子的第二乘积；

乘积求和子单元1112，用于将所述第一乘积与所述第二乘积进行求和，得到所述人脸质量分。

可选的，如图10所示，第二评分确定单元114，包括：

乘积计算子单元1141，用于计算所述人脸质量分别与第三加权因子的第三乘积，并计算所述人脸表情分与第四加权因子的第四乘积，并计算所述人脸眼态分与所述第五加权因子的第五乘积；

乘积求和子单元1142，用于将所述第三乘积、第四乘积以及所述第五乘积进行求和，得到所述目标图像的第一评分。

可选的，如图11所示，所述质量评分确定模块13，包括：

乘积计算单元131，用于计算所述第一评分与第六加权因子的第六乘积，并计算所述第二评分与第七加权因子的第七乘积；

乘积求和单元132，用于将所述第六乘积与所述第七乘积进行求和，得到所述评分图像的美学质量评分。

可选的，如图12所示，所述装置1，还包括：

目标图像输入模块14，用于将所述目标图像输入至人脸检测模型中；

目标图像检测模块15，用于当检测到所述目标图像包含人脸区域时，确定所述目标图像包含指定语义信息；

所述目标图像检测模块15，还用于当检测到所述目标图像不包含人脸区域时，确定所述目标图像不包含指定语义信息。

可选的，如图12所示，所述装置1，还包括：

指定语义信息输出模块16，用于当检测到所述目标图像包含人脸区域时，输出所述目标图像对应的指定语义信息。

可选的，所述装置1，包括：

所述目标图像检测模块15，还用于当检测到所述目标图像不包含人脸区域时，将所述目标图像输入所述自然图像评价模型中，得到第三评分；

所述质量评分确定模块13，还用于将所述第三评分作为所述评分图像的美学质量评分。

需要说明的是，上述实施例提供的图像评分装置在执行图像评分方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像评分装置与图像评分方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本实施例中，终端当确定目标图像包含指定语义信息时，基于所述指定语义信息计算所述目标图像的第一评分，将所述目标图像输入自然图像评价模型中，得到所述目标图像的第二评分，基于所述第一评分以及所述第二评分，确定所述目标图像的美学质量评分。在现有基础上，通过结合指定语义信息计算图像美学质量评分，可以避免仅基于美学质量评价数据集分布不均衡而导致最终评价不准确的问题，可以使得图像的美学质量评分更加贴近人类的真实评价方式，进而可以提高图像美学质量评价的准确率。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图6所示实施例的所述图像评分方法，具体执行过程可以参见图1-图6所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1-图6所示实施例的所述图像评分方法，具体执行过程可以参见图1-图6所示实施例的具体说明，在此不进行赘述。

请参见图13，为本申请实施例提供了一种电子设备的结构示意图。如图13所示，所述电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个服务器1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行服务器1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图像评分应用程序。

在图13所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的图像评分应用程序，并具体执行以下操作：

在一个实施例中，所述指定语义信息包括人脸置信度、人脸角度、人脸框信息以及人脸关键点信息，所述处理器1001在执行所述基于所述指定语义信息计算所述目标图像的第一评分时，具体执行以下操作：

根据所述人脸置信度以及所述人脸角度，计算人脸质量分；

将所述人脸关键点输入至人脸表情分类器中，输出人脸表情分；

将所述人脸框信息输入至人脸眼态检测器中，输出人脸眼态分；

基于所述人脸质量分、人脸表情分以及人脸眼态分，确定所述目标图像的第一评分。

在一个实施例中，所述处理器1001在执行所述根据所述人脸置信度以及所述人脸角度，计算人脸质量分时，具体执行以下操作：

计算所述人脸置信度与第一加权因子的第一乘积，并计算人脸角度与第二加权因子的第二乘积；

将所述第一乘积与所述第二乘积进行求和，得到所述人脸质量分。

在一个实施例中，所述处理器1001在执行所述基于所述人脸质量分、人脸表情分以及人脸眼态分，确定第一评分时，具体执行以下操作：

计算所述人脸质量分别与第三加权因子的第三乘积，并计算所述人脸表情分与第四加权因子的第四乘积，并计算所述人脸眼态分与所述第五加权因子的第五乘积；

将所述第三乘积、第四乘积以及所述第五乘积进行求和，得到所述目标图像的第一评分。

在一个实施例中，所述处理器1001在执行所述基于所述第一评分以及所述第二评分，确定所述评分图像的美学质量评分时，具体以下操作：

计算所述第一评分与第六加权因子的第六乘积，并计算所述第二评分与第七加权因子的第七乘积；

将所述第六乘积与所述第七乘积进行求和，得到所述评分图像的美学质量评分。

在一个实施例中，所述处理器1001在执行所述图像评分方法，还执行以下操作：

将所述目标图像输入至人脸检测模型中；

当检测到所述目标图像包含人脸区域时，确定所述目标图像包含指定语义信息；

当检测到所述目标图像不包含人脸区域时，确定所述目标图像不包含指定语义信息。

当检测到所述目标图像包含人脸区域时，输出所述目标图像对应的指定语义信息。

当检测到所述目标图像不包含人脸区域时，将所述目标图像输入所述自然图像评价模型中，得到第三评分；

将所述第三评分作为所述评分图像的美学质量评分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像评分方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述指定语义信息包括人脸置信度、人脸角度、人脸框信息以及人脸关键点信息，所述基于所述指定语义信息计算所述目标图像的第一评分，包括：

根据所述人脸置信度以及所述人脸角度，计算人脸质量分；

3.根据权利要求2所述的方法，其特征在于，所述根据所述人脸置信度以及所述人脸角度，计算人脸质量分，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述人脸质量分、人脸表情分以及人脸眼态分，确定第一评分，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一评分以及所述第二评分，确定所述评分图像的美学质量评分，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标图像输入至人脸检测模型中；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述第三评分作为所述评分图像的美学质量评分。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～8任意一项的方法步骤。

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～8任意一项的方法步骤。