CN116311426A

CN116311426A - 一种少儿表情评分系统

Info

Publication number: CN116311426A
Application number: CN202310120894.7A
Authority: CN
Inventors: 曹操; 李洋; 陈畅捷; 刘炫宇; 蒋晓峰
Original assignee: Shanghai Media Tech Co ltd
Current assignee: Shanghai Media Tech Co ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-23

Abstract

本发明涉及人脸识别技术领域，具体涉及一种少儿表情评分系统，包括：面部检测模块，面部检测模块接收外部输入的表情图片，自表情图片中检测得到第一面部区域；特征抽取模块，对第一面部区域中的多个动作单元进行抽取得到第一特征组；评分生成模块，根据第一特征组和预先生成的第二特征组生成相似度评分。有益效果在于：针对现有技术中对舞蹈表情的评价过程主要由教师依照主观作出不够准确的问题，本方案通过构建上述系统，对输入的表情图片抽取相应的动作单元来组建第一特征组，实现了对面部表情较好的量化表征，随后，通过与预先采集的第二特征组进行计算，从而实现了较好的量化评价效果。

Description

一种少儿表情评分系统

技术领域

本发明涉及人脸识别技术领域，具体涉及一种少儿表情评分系统。

背景技术

舞蹈是表演艺术的一种，是由一连串的动作形成，可以是即兴的，也可以是经过专业编排的；舞蹈分为街舞、现代舞、民族舞、街舞、芭蕾舞等。为实现较好的表现效果，在舞蹈动作中，通常会加入特定的舞蹈表情，以实现更好的情感表达效果。

现有技术中，针对少儿舞蹈表情的评价过程，主要是依赖于教师对特定的舞蹈动作所对应的表情做出示范，并由学生进行模仿，随后由教师给出相应的评价。

但是，在实际实施过程中，发明人发现，上述方案由于是通过人工对表情的相似度进行评价，导致了评价过程相对主观，难以进行准确量化的问题。

发明内容

针对现有技术中存在的上述问题，现提供一种少儿表情评分系统。

具体技术方案如下：

一种少儿表情评分系统，包括：

面部检测模块，所述面部检测模块接收外部输入的表情图片，自所述表情图片中检测得到第一面部区域；

特征抽取模块，所述特征抽取模块连接所述面部检测模块，所述特征抽取模块对所述第一面部区域中的多个动作单元进行抽取得到第一特征组；

评分生成模块，所述评分生成模块连接所述特征抽取模块，所述评分生成模块根据所述第一特征组和预先生成的第二特征组生成相似度评分。

另一方面，所述面部检测模块采用一预先训练的人脸检测模型对所述表情图片进行检测；

所述人脸检测模型包括：

特征抽取网络，所述特征抽取网络对输入的所述表情图片抽取特征图组合；

特征金字塔，所述特征金字塔连接所述特征抽取网络，所述特征金字塔对所述特征图组合进行融合以得到特征融合结果；

单阶段检测模块，所述单阶段检测模块根据所述特征融合结果生成所述第一面部区域。

另一方面，所述单阶段检测模块包括：

卷积层，所述卷积层自所述特征融合结果中抽取图像特征；

上下文网络，所述上下文网络自所述特征融合结果中生成关联特征；

合并层，所述合并层分别连接所述卷积层和所述上下文网络，所述合并层根据所述图像特征和所述关联特征生成合并特征；

人脸分类层，所述人脸分类层连接所述合并层，所述人脸分类层根据所述合并特征生成人脸分类结果；

坐标回归层，所述坐标回归层连接所述合并层，所述坐标回归层根据所述合并特征生成坐标位移预测结果；

形变卷积网络，所述形变卷积网络分别连接所述人脸分类层和所述坐标回归层，所述形变卷积网络根据所述人脸分类结果和所述坐标位移预测结果生成所述第一面部区域。

另一方面，所述特征抽取模块包括：

元素提取模块，所述元素提取模块自所述第一面部区域中识别得到多个脸部元素；

向量组合模块，所述向量组合模块连接所述元素提取模块，所述向量组合模块选取所述脸部元素并将所述脸部元素组合为子向量；

动作单元预测模块，所述动作单元预测模块连接所述向量组合模块，所述动作单元预测模块根据所述子向量预测得到所述动作单元并添加至所述第一特征组中。

另一方面，所述动作单元预测模块包括：

预处理层，所述预处理层接收输入的所述子向量并生成预处理向量；

第一全连接层，所述第一全连接层连接所述预处理层，所述第一全连接层分别生成每个所述预处理向量的向量得分；

权重生成层，所述权重生成层连接所述第一全连接层，所述权重生成层分别生成每个所述预处理向量的向量权重；

前馈层，所述前馈层连接所述第一全连接层和所述权重生成层，所述前馈层根据所述向量得分和所述向量权重自所述子向量中筛选的得到多个所述动作单元。

另一方面，所述预处理层包括依次连接的第二全连接层、批标准化层和线性修正层。

另一方面，于采集所述表情图片之前，还预先采集有参考图片；

所述面部检测模块自所述参考图片中检测得到第二面部区域，所述特征抽取模块对所述第二面部区域中的多个参考单元进行抽取得到所述第二特征组。

另一方面，还包括动作单元衡量模块，所述动作单元衡量模块连接所述特征抽取模块，所述动作单元衡量模块对所述参考单元进行选择以筛选出实际添加至所述第二特征组的所述参考单元。

另一方面，所述动作单元衡量模块包括：

节点生成模块，所述节点生成模块获取所述参考单元并创建树节点；

连接模块，所述连接模块连接所述节点生成模块，所述连接模块根据所述参考单元和所述树节点创建决策树；

衡量模块，所述衡量模块连接所述连接模块，所述衡量模块对所述树节点进行改变，并计算所述决策树的方差以生成衡量结果；

筛选模块，所述筛选模块连接所述衡量模块，所述筛选模块根据所述衡量结果和预先配置的抽取数量选择对所述决策树的方差影响最大的多个所述参考单元，作为所述第二特征组中的所述参考的那元。

另一方面，所述评分生成模块中，对所述第一特征组中的所述动作单元和所述第二特征组中的参考单元分别计算均方误差，以作为所述相似度评分。

上述技术方案具有如下优点或有益效果：

针对现有技术中对舞蹈表情的评价过程主要由教师依照主观作出不够准确的问题，本方案通过构建上述系统，对输入的表情图片抽取相应的动作单元来组建第一特征组，实现了对面部表情较好的量化表征，随后，通过与预先采集的第二特征组进行计算，从而实现了较好的量化评价效果。

附图说明

参考所附附图，以更加充分的描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。

图1为本发明实施例的整体示意图；

图2为本发明实施例中人脸检测模型示意图；

图3为本发明实施例中单阶段检测模型示意图；

图4为本发明实施例中特征抽取模块示意图；

图5为本发明实施例中动作单元预测模块示意图；

图6为本发明实施例中预处理层示意图；

图7为本发明实施例中动作单元衡量模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明包括：

一种少儿表情评分系统，如图1所示，包括：

面部检测模块1，面部检测模块1接收外部输入的表情图片，自表情图片中检测得到第一面部区域；

特征抽取模块2，特征抽取模块2连接面部检测模块1，特征抽取模块2对第一面部区域中的多个动作单元进行抽取得到第一特征组；

于采集表情图片之前，还预先采集有参考图片；

面部检测模块1自参考图片中检测得到第二面部区域，特征抽取模块2对第二面部区域中的多个参考单元进行抽取得到第二特征组；

评分生成模块3，评分生成模块3连接特征抽取模块2，评分生成模块3根据第一特征组和预先生成的第二特征组生成相似度评分；

具体地，针对现有技术中的表情评估过程相对主观，难以进行量化的问题，本实施例中，通过构建上述的少儿表情评分系统，采用面部检测模块1对输入的表情图片进行截取，提取得到表情图片中对应于脸部的第一面部区域，随后通过特征抽取模块2对第一面部区域中对应于各面部肌肉动作的动作单元进行提取作为第一特征组，实现了对面部表情较好的表征效果；通过该少儿表情评分系统预先对教师作出的参考图片进行第二面部区域的采集、参考单元抽取形成第二特征组，可以同样实现对标准表情较好的表征效果，进而使得评分生成模块3可以根据量化后的第一特征组和第二特征组计算得到相似度评分。

在实施过程中，表情图片指针对待评价的学员采集的脸部照片，参考照片指针对教师采集或者通过对教学图像进行截取得到的脸部照片，该脸部照片通过图像传感器拍摄得到，可能包含有人脸、背景和部分上半身及肢体部分；第一面部区域和第二面部区域为通过面部检测模块1检测、截取得到的对应于实际的人脸区域的脸部图像，其相对于原始采集的脸部照片去除了无关的背景和边缘部分。动作单元和参考单元指人脸上可检测到的多个对应于面部肌肉动作的部位，比如提眉、拉唇角、下眉、内提眉等，通过对动作单元和参考单元进行检测可以实现对较为复杂的面部表情的检测。

在一个实施例中，面部检测模块采用一预先训练的人脸检测模型对表情图片进行检测；

如图2所示，人脸检测模型包括：

特征抽取网络11，特征抽取网络11对输入的表情图片抽取特征图组合；

特征金字塔12，特征金字塔12连接特征抽取网络12，特征金字塔12对特征图组合进行融合以得到特征融合结果；

单阶段检测模块13，单阶段检测模块13根据特征融合结果生成第一面部区域。

具体地，为实现较好的识别效果，本实施例中，通过构建上述的人脸检测模型，通过将输入的表情图片通过深度可分离卷积结构的特征抽取网络11，实现了对图像特征的抽取，并将特征抽取网络11中的最后三层卷积层的特征图作为输出来形成特征图组合；随后，通过特征金字塔12中的1X1卷积对特征图组合中的三个有效特征层进行通道数的调整，再通过上采样和特征值叠加的方式对这三个有效特征层进行特征融合得到特征融合结果，进而使得单阶段检测模块13能够根据特征融合结果预测得到实际的人脸位置来作为第一面部区域或第二面部区域，以此来实现对人脸较好的检测效果。

在一个实施例中，如图3所示，单阶段检测模块13包括：

卷积层131，卷积层131自特征融合结果中抽取图像特征；

上下文网络132，上下文网络132自特征融合结果中生成关联特征；

合并层133，合并层133分别连接卷积层131和上下文网络132，合并层133根据图像特征和关联特征生成合并特征；

人脸分类层134，人脸分类层134连接合并层133，人脸分类层134根据合并特征生成人脸分类结果；

坐标回归层135，坐标回归层135连接合并层133，坐标回归层135根据合并特征生成坐标位移预测结果；

形变卷积网络136，形变卷积网络136分别连接人脸分类层134和坐标回归层135，形变卷积网络136根据人脸分类结果和坐标位移预测结果生成第一面部区域。

具体地，为实现对人脸区域较好的预测效果，本实施例中，通过添加1X1的卷积层131实现了对特征融合结果的特征抽取，并通过上下文网络132对特征融合结果进行上下文之间互信息的识别，进而生成关联特征来实现对人脸边缘部分较好的识别效果；随后，通过合并层133对图像特征和关联特征进行concat处理得到合并特征，分别输入人脸分类层134和坐标回归层135中。其中，人脸分类层134的输出向量维度为W/S*H/S*2K，其能够对图像特征中的人脸部分进行判别、分类；坐标回归层135对检测得到的人脸检测框进行修正坐标回归，其输出的向量维度为W/S*H/S*4K，在坐标回归层135中，其通过预测每个滑动点处每个含有人脸与ground truth的相对缩放量和位移量来实现这一过程。随后，当实现了对人脸分类结果和坐标位于预测结果的生成后，进一步地添加形变卷积网络136来作为形变层，模拟几何形变，以此来实现对少儿表情和成人表情之间的差异的较好的模拟效果，进而提取得到第一面部区域。

在一个实施例中，如图4所示，特征抽取模块2包括：

元素提取模块21，元素提取模块21自第一面部区域中识别得到多个脸部元素；

向量组合模块22，向量组合模块22连接元素提取模块21，向量组合模块选取脸部元素并将脸部元素组合为子向量；

动作单元预测模块23，动作单元预测模块23连接向量组合模块22，动作单元预测模块23根据子向量预测得到动作单元并添加至第一特征组中。

具体地，为实现较好的动作单元的生成过程，本实施例中，在通过面部检测模块1对人脸区域进行提取、特征层的生成后，进一步地通过元素提取模块21自第一面部区域中识别得到脸部元素，并由向量组合模块22来对特定数量的脸部元素组装为W*H的子向量，每个子向量均可能表征一动作单元。随后，通过动作单元预测模块23对每个子向量分别进行预测从而判断出实际的动作单元来添加至第一特征组中。

在一个实施例中，如图5所示，动作单元预测模块23包括：

预处理层231，预处理层231接收输入的子向量并生成预处理向量；

第一全连接层232，第一全连接层232连接预处理层231，第一全连接层232分别生成每个预处理向量的向量得分；

权重生成层233，权重生成层233连接第一全连接层232，权重生成层233分别生成每个预处理向量的向量权重；

前馈层234，前馈层234连接第一全连接层232和权重生成层233，前馈层234根据向量得分和向量权重自子向量中筛选的得到多个动作单元。

具体地，为实现对动作单元较好的预测效果，本实施例中，通过设置预处理层231对输入的子向量进行预处理，随后，在第一全连接层232中对每个预处理向量分别计算向量得分，并通过权重生成层233通过Softmax函数计算得到每个预处理向量的向量权重，进而使得前馈层234能够基于sigmoid激活函数来计算得到实际的动作单元。

在一个实施例中，如图6所示，预处理层231包括依次连接的第二全连接层2311、批标准化层2312和线性修正层2313。

具体地，为实现对子向量较好的预处理效果，本实施例中，通过在预处理层231中依次设置第二全连接层2311、批标准化层2312对子向量进行标准化处理(BatchNormalization)以及具有ReLU函数的线性修正层2313，实现了较好的向量预处理效果。

在一个实施例中，如图7所示，还包括动作单元衡量模块4，动作单元衡量模块4连接特征抽取模块2，动作单元衡量模块4对参考单元进行选择以筛选出实际添加至第二特征组的参考单元；

动作单元衡量模块4包括：

节点生成模块41，节点生成模块41获取参考单元并创建树节点；

连接模块42，连接模块42连接节点生成模块41，连接模块42根据参考单元和树节点创建决策树；

衡量模块43，衡量模块43连接连接模块42，衡量模块43对树节点进行改变，并计算决策树的方差以生成衡量结果；

筛选模块44，筛选模块44连接衡量模块43，筛选模块44根据衡量结果和预先配置的抽取数量选择对决策树的方差影响最大的多个参考单元，作为第二特征组中的参考单元。

具体地，为实现对表情的相似度较为显著的评价效果，本实施例中，在采集参考图片的过程中，还进一步地通过设置动作单元衡量模块4来对参考单元中对表情影响较大的部分进行筛选，并仅将该部分参考单元作为实际进行评价时会选用的参考单元添加至第二特征组中。通过该方法可以在对各动作单元与参考单元之间的相似度进行计算的过程中增大相似度评分的区间，实现更好的衡量效果。

在实施过程中，为实现较好的筛选效果，本实施例中通过采用决策树的方式来衡量各参考单元对表情的影响。具体来说，通过节点生成模块41将每个参考单元作为树节点和叶子，并由连接模块42依照各参考节点之间的关联性对树节点进行联结从而创建出决策树。随后，通过衡量模块43对树节点进行随机改变，并计算决策树整体的方差来衡量决策树的纯度，以此来使得筛选模块44能够依照方差的变化情况以及对应的参考单元的变化情况来筛选得到对表情影响最大的TopN个参考单元。在一个实施例中，筛选模块44对各参考单元的变化情况对方差的影响进行统计，并筛选得到影响最大的10个参考单元作为第二特征组中的参考单元。

在一个实施例中，评分生成模块3中，对第一特征组中的动作单元和第二特征组中的参考单元分别计算均方误差，以作为相似度评分。

具体地，为实现较好的相似度计算效果，本实施例中，通过选择均方误差作为衡量表情相似度的评分方法，从而实现了对各动作单元与参考单元的相似度较好的评估效果。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种少儿表情评分系统，其特征在于，包括：

2.根据权利要求1所述的少儿表情评分系统，其特征在于，所述面部检测模块采用一预先训练的人脸检测模型对所述表情图片进行检测；

所述人脸检测模型包括：

3.根据权利要求2所述的少儿表情评分系统，其特征在于，所述单阶段检测模块包括：

卷积层，所述卷积层自所述特征融合结果中抽取图像特征；

4.根据权利要求1所述的少儿表情评分系统，其特征在于，所述特征抽取模块包括：

5.根据权利要求4所述的少儿表情评分系统，其特征在于，所述动作单元预测模块包括：

6.根据权利要求5所述的少儿表情评分系统，其特征在于，所述预处理层包括依次连接的第二全连接层、批标准化层和线性修正层。

7.根据权利要求1所述的少儿表情评分系统，其特征在于，于采集所述表情图片之前，还预先采集有参考图片；

8.根据权利要求7所述的少儿表情评分系统，其特征在于，还包括动作单元衡量模块，所述动作单元衡量模块连接所述特征抽取模块，所述动作单元衡量模块对所述参考单元进行选择以筛选出实际添加至所述第二特征组的所述参考单元。

9.根据权利要求8所述的少儿表情评分系统，其特征在于，所述动作单元衡量模块包括：

10.根据权利要求1所述的少儿表情评分系统，其特征在于，所述评分生成模块中，对所述第一特征组中的所述动作单元和所述第二特征组中的参考单元分别计算均方误差，以作为所述相似度评分。