CN105359166B

CN105359166B - 收集用于表情识别的机器学习训练数据

Info

Publication number: CN105359166B
Application number: CN201480020227.0A
Authority: CN
Inventors: J·慕芙兰; M·S·巴特利特; I·法塞尔; G·F·利特莱沃特; J·萨斯坎德; J·怀特希尔
Original assignee: Emotient Inc
Current assignee: Apple Inc
Priority date: 2013-02-08
Filing date: 2014-02-10
Publication date: 2018-11-09
Anticipated expiration: 2034-02-10
Also published as: US10248851B2; US20140321737A1; JP2016517052A; US9008416B2; KR20150140644A; EP2954459A2; US9779289B2; EP2954459A4; AU2014214662A1; CA2900765A1; AU2014214662B2; US20150186712A1; US20180012067A1; CN105359166A; WO2014124407A3; WO2014124407A2

Abstract

用于实现为机器学习表情分类器生成训练示例的众包管线的设备、方法和制品。众包提供者根据提示或目标主动地生成带有表情的图像。提示或目标可以是模仿表情或以某种方式呈现或“突破”现有表情识别器。由相同或不同的众包提供者收集图像并对其评分，并且然后由专家审核满足第一质量标准的图像。然后使用审核的图像作为训练机器学习表情分类器中的肯定性或否定性示例。

Description

收集用于表情识别的机器学习训练数据

相关申请的交叉引用

本申请要求于2013年2月8日提交的，标题为“SYSTEM FOR COLLECTING MACHINELEARNING TRAINING DATA FOR FACIAL EXPRESSION RECOGNITION”的美国临时专利申请序列号61/762,820的优先权，其全部内容特此以引用的方式并入，如同在本文中予以充分地阐述一样，包括该美国临时专利申请中的文本、附图、权利要求、表格和计算机程序清单附录(如果有的话)以及所有其他事宜。

技术领域

本文件大体上涉及用于收集情绪、情感状态、动作单元和类似心理状态的表情的可视化机器学习分类器的训练示例的设备、方法和制品；在训练机器学习分类器中此类训练示例的使用；以及情绪、情感状态、动作单元和类似心理状态的表情的机器学习分类器。

背景技术

对于情绪、情感状态和类似心理状态的表情的自动化识别，有许多应用。或许最为人熟知的应用是数字相机中的笑脸检测。但是，也存在其他应用，包括检测响应外部刺激的面部反应，如消费者对广告、产品展示、标签、包装和定价的反应；以及选民对话题以及辩论表现的评价的面部反应。这种列述完全不是排他性的。

情绪、情感状态和类似心理状态的表情的自动识别是令人期待的。这种自动化降低识别成本，并且还对识别流程的结果提供客观性的测量。情绪、情感状态和类似心理状态的表情的自动化(或机器)识别不是普通的设计任务，因为面部表情、姿态、手势和其他面孔/肢体移动并不易使用标准编程技术来定义。机器学习是可以用于此目的的技术集合。机器学习允许人工智能系统从示例学习，实际上是基于训练数据来执行自适应。这些技术通常需要大量且细心收集的训练示例数据集，例如在不同照明条件下多个种族和不同年龄且存在一定范围的面部假象(facial artifact)的情况下的不同人的大量样本图像。需要这些示例以允许机器分类器(识别器)发现不同表情类别之间进行鉴别的特征。虽然从Web收集摆拍的笑容的示例相对容易，但是收集大量情绪(如恐惧、蔑视、愤怒、厌恶及其他)的真实或逼真表情的示例是困难的。

需要改进的方法和设备以用于自动地检测通过面部表情、姿态、手势和其他面部/肢体移动所展现的心理状态并将其分类，而无论是否是对已知刺激的反应。还需要有效率的方法来生成和收集能够用于训练情绪、情感状态和类似心理状态的表情的自动化分类器的数据。

发明内容

本文件中描述的实施方案针对的是可以满足上文描述的需要以及其他需要中的一个或多个的方法、设备和制品。

在实施方案中，计算机实现的方法包括向第一多个未受训的提供者提供提示用于模仿预定表情；从所述第一多个未受训的提供者接收响应提供提示的步骤而创建的图像；向第二多个未受训的提供者发送对图像进行评分的请求；响应发送请求的步骤，接收所述第二多个未受训的提供者的评分；对所述第二多个未受训的提供者评分的图像应用第一质量检查，所述第一质量检查基于所述第二多个未受训的提供者的评分，应用所述第一质量检查的步骤产生通过所述第一质量检查的多个图像；将通过所述第一质量检查的多个图像发送给一个或多个专家，用于由所述一个或多个专家评分；响应发送所述多个图像的步骤，从所述一个或多个专家接收评分；对所述一个或多个专家评分的图像应用第二质量检查，所述第二质量检查基于所述一个或多个专家的评分，应用所述第二质量检查的步骤产生通过所述第二质量检查的一个或多个图像；使用通过所述第二质量检查的所述一个或多个图像来训练分类器；以及在训练的步骤之后使用所述分类器。

在实施方案中，计算机实现的方法包括向第一多个未受训的提供者提供目标用于突破预定表情的分类器；从所述第一多个未受训的提供者接收响应提供目标的步骤而创建的图像，从而产生多个接收的图像；利用所述分类器检查所述接收的图像，并废弃不满足所提供的目标的客观目标的图像，从而产生客观上合格的图像；向第二多个未受训的提供者发送对所述客观上合格的图像进行评分的请求；响应发送请求的步骤，接收所述第二多个未受训的提供者的评分；对所述第二多个未受训的提供者评分的图像应用第一质量检查，所述第一质量检查基于所述第二多个未受训的提供者的评分，应用所述第一质量检查的步骤产生通过所述第一质量检查的多个图像；将通过所述第一质量检查的多个图像发送给一个或多个专家，用于由所述一个或多个专家评分；响应发送所述多个图像的步骤，从所述一个或多个专家接收评分；对所述一个或多个专家评分的图像应用第二质量检查，所述第二质量检查基于所述一个或多个专家的评分，应用所述第二质量检查的步骤产生通过所述第二质量检查的一个或多个图像；使用通过所述第二质量检查的所述一个或多个图像来训练分类器；以及在训练的步骤之后使用所述分类器。

参考下文描述、附图以及所附权利要求，将更好地理解这些和其他特征和方面。

附图说明

图1是根据本发明描述的选定方面配置的基于计算机的系统的简化框图表示；

图2图示用于生成自动表情分类器的训练数据的流程的选定步骤；

图3图示用于生成自动表情分类器的训练数据的否定示例的流程的选定步骤；

图4图示用于生成用于训练自动表情分类器的识别器“突破”数据的流程的选定步骤；以及

图5图示用于生成自动表情分类器的训练数据的迭代流程的选定步骤/框。

具体实施方式

在本文件中，词汇“实施方案”、“变化”、“示例”和类似表述是指特定的设备、流程或制品，以及不一定是指同一个设备、流程或制品。因此，在一个位置或上下文环境中使用的“一个实施方案”(或类似表述)可能是指特定的设备、流程或制品；在不同位置或上下文环境中使用的同一个或类似表述可能是指不同的设备、流程或制品。可以使用表述“可替代实施方案”和类似表述和词组来指示多个不同可能的实施方案中的一个。多个可能的实施方案/变化/示例不一定局限于两个或任何其他数量。将项目表征为“示范性”意味着该项目被用作示例。实施方案/变化/示例的此类表征不一定意味着该实施方案/变化/示例是优选的实施方案/变化/示例；该实施方案/变化/示例可以是但不必一定是目前优选的实施方案/变化/示例。所有的实施方案/变化/示例均是出于说明目的而描述的，而不一定是严格的限制。

词汇“耦接”、“连接”和含其曲折性语素的类似表述不一定暗示即刻或直接连接，而是在其含义内包含通过中介元件的连接。

与图像或视频关联的“情感”信息包括多种类型的心理反应，如情感、认识、生理和/或行为响应，包括记录的原始信号及其解释。在本发明描述中，将表示或描述就特定人的情感、认识、生理或行为响应而言该特定人对刺激的反应的相关信息称为情感信息。情感信息可以归因于心理和生理反应，如记忆、联想等。

“促使显示”和类似表述是指采取促成显示的一个或多个动作。计算机或移动设备(例如，智能电话或平板电脑)在程序代码的控制下可以促使向例如计算机的用户显示图片和/或文本。此外，程序代码控制下的服务器计算机可以通过使得web页面或其他信息，通过如因特网的网络，可供客户端计算机或移动设备访问，客户端计算机或移动设备然后可以将该web页面显示给计算机或移动设备的用户，来促使该web页面或其他信息被显示。

“促使呈现”和类似表述是指采取导致显示和/或创建和发出声音的一个或多个动作。这些表述将如上文定义的表述“促使显示”包含在其含义内。此外，这些表述将促使发出声音包含在其含义内。

对作为训练数据使用的“图像”的引述是指静态图像、视频以及静态图像和视频兼有。“图片”是静态图像。“视频”是指运动图形。

如本文件中所使用的“面部表情”表示主要情绪(例如，愤怒、蔑视、厌恶、恐惧、快乐、悲伤、惊讶、中性)的面部表情；以及感兴趣的情感状态的表情(如无聊、感兴趣、约会)；以及所谓的“动作单元”(面部肌肉子集的移动，包括个别肌肉的移动)。术语“面部表情”包括头部姿态和手势。

如本文件中所使用的“精神状态”表示情绪、情感状态或类似心理状态；“情绪、情感状态和类似心理状态的表情”表示情绪、情感状态或类似心理状态的表情。

正如本文件中所使用的，当分类器在对数据样本分类中出错时其会“突破”或“被突破”。因此，当分类器在对于人没有目标情绪或情感状态的表情呈现的图像中检测到目标情绪或情感状态时，其会突破。当分类器在具有目标情绪或情感状态的表情呈现的图像中未能检测到目标情绪或情感状态时，其也突破。

在本发明文件通篇可以见到其他以及进一步的显性和隐性定义和定义的阐明。

现在将详细地参考附图中图示的若干实施方案。在附图以及描述中使用了多个相同引用数字以指代相同的设备元件和方法步骤。这些附图采用简化形式，而未按比例绘制，并且省略了可以添加到所描述的系统和方法中的设备元件和方法步骤，同时可能地包含某些可选元件和步骤。

有利的是，可以采用模仿来生成精神状态的表情的逼真训练示例以用作训练数据和/或其他目的。在示例中，通过Web来收集数据。用户具有配备摄像机的通信装置，并且能够将他们的面部图像发送到服务器。这可以使用众包(crowdsourcing)服务，如AmazonMechanical Turk来实现。

Amazon Mechanical Turk是一个基于因特网的众包资源，其使得“请求方”能够管理将人的智慧用于多种任务，如此时未很好地配备计算机来执行的任务。请求方能够发布“提供者”或“土耳其人”能够执行以获取请求方设定的报酬的任务。注意，使用术语“土耳其人”、“请求方”或“提供者”以及相关的术语不一定表示亚马逊公司的资源，但是适用于任何众包资源。

图1是根据本发明描述的选定方面配置的基于计算机的系统100的简化框图表示，基于计算机的系统100通过通信网络190与位于提供者机器180(例如，个人计算机或PC、智能电话、平板电脑、启用网络功能的摄像机)处的众包提供者交互。具体来说，系统100和提供者机器180可以被配置来在通过模仿使用获取训练数据时使用，正如本文件中所描述的。

图1未示出提供者机器180的系统100的多个硬件和软件模块，并省略若干物理和逻辑连接。系统100可以作为被配置来执行本文件描述的方法步骤的专用数据处理器、通用计算机、计算机系统或一群联网的计算机或计算机系统来实现。在一些实施方案中，系统100构建于个人计算机平台，如Wintel PC、Linux计算机或Mac计算机上。个人计算机可以是桌上型或笔记本计算机。系统100可以起到服务器计算机的功能。在一些实施方案中，系统100实现为通过网络(如网络190或另一个网络的网络)互连的多个计算机。

如图1所示，系统100包括处理器110、只读存储器(ROM)模块120、随机存取存储器(RAM)模块130、网络接口140、海量存储装置150和数据库160。这些组件通过总线115耦接在一起。在图示的实施方案中，处理器110可以是微处理器，并且海量存储装置150可以是磁盘驱动器。海量存储装置150和存储器模块120和130中的每一个均连接到处理器110以允许处理器110将数据写入这些存储装置和存储器装置以及从这些存储装置和存储器装置读取数据。网络接口140将处理器110耦接到网络190，例如因特网。网络190的特性和可能插入到系统100与网络190之间的装置的特性决定了系统100中所使用的网络接口140的类型。在一些实施方案中，例如，网络接口140是将系统100连接到局域网然后连接到因特网的以太网接口。因此，网络190实际可以包括网络集合。

数据库160可以用于组织和存储执行本文件描述的方法步骤所需要或期望的数据。数据库160可以是耦接到处理器110的物理上分开的系统。在可替代实施方案中，处理器110和海量存储装置150可以被配置来执行数据库160的功能。

处理器110可以读取以及执行ROM模块120、RAM模块130和/或存储装置150中存储的程序代码指令。在程序代码的控制下，处理器110可以将系统100配置来执行本发明文件中描述或提及的方法步骤。除了ROM/RAM模块120/130和存储装置150外，还可以将这些程序代码指令存储在其他机器可读有形存储介质中，如其他硬盘驱动器、软盘、CD-ROM、DVD、闪存存储器和类似装置。还可以通过传输介质，例如通过电布线或缆线，经由光纤，以无线方式或通过任何其他物理传输形式来传送程序代码。传输可以通过电信设备之间的专用链路或经由广域网或局域网，如因特网、内联网、外联网或任何其他类型的公用或专用网络来进行。还可以经由网络接口140或另一个网络接口将程序代码下载到系统100中。

在实施方案中，系统100可以起到众包服务器的功能，其使得机器180处的提供者能够执行系统100指定的人类智慧任务(“HIT”)。可以预先确定这些任务的描述并将其存储在系统100的存储装置中的一个中，或可以由系统100从另一个装置或人接收。本领域技术人员应该熟悉实现执行众包功能的Amazon Mechanical Turk的亚马逊Web服务。

系统100可以将从提供者接收的信息存储在数据库中，该数据库可以利用系统100的组件和/或其他组件来实现。存储来自提供者的信息的数据库可以是数据库160。

图2图示用于呈现目标面部表情的众包提供者示例的流程200的选定步骤，其要求提供者模仿这些表情，并选定/使用来自这些图像的训练示例。在实施方案中，示例中的一些或全部可以基于情绪与可通过面部移动检测到的其表情之间的关系来选定，这些面部移动是依据用于描述面部移动的系统的元件，如面部动作编码系统(FACS)或其他研究的动作单元来描述的。

在流程点201处，系统100和至少一些提供者机器被配置来彼此通信并且执行该流程的其他步骤。注意多个不同提供者可能在不同时间与系统100通信，并且因此他们的机器可能是在不同时间配置的。

在步骤205中，向第一组提供者中的一个或多个提供者提供有关他们应该模仿/复制哪些面部表情的特征的提示；提示可以包括要做什么的语言(声音、书写的)指令、要模仿或复制的图片/视频、描述表情的在线或其他材料、其他提示的引用以及其任何组合。第一组提供者无需在面部表情识别中进行专门训练。例如，系统100和提供者的各个机器促使示例表情(或其一部分)显示给提供者，和/或促使向提供者显示或呈现用于模仿表情或表情的一部分的指令(“像这样”、“看上去害怕”、“看上去无聊”、“看上去开心”、“看上去激动”、“看上去惊恐”、“看上去专注”、“像这样皱一下脸”、“竖起眉毛像是你吃惊一样”、“观察并模仿所显示的面孔的这一部分”)。可以将示例和/或指令存储在数据库160中或其他位置，并通过网络190、通过电子邮件或其他方式传送给提供者。

在步骤210中，第一组提供者创建表情并采撷表情，例如，作出面部表情并使用其各个机器180中的静态或视频摄像机。同样地，此处以及其他地方，提供者可能是在不同时间执行这些步骤的。

在步骤215中，第一组提供者将带有表情的图像提交到系统100，例如，促使图像通过网络190传送。

在步骤220中，系统100例如通过网络190接收带有表情的图像。

在步骤225中，要求第二组提供者中的一个或多个提供者参照一组预定的一个或多个标准对来自第一组提供者的带有表情的图像评分。第二组提供者无需在面部表情识别中进行专门训练。例如，系统100和/或第二组各个提供者的机器180促使向第二组提供者显示标准和/或问题。例如，这可以通过显示图像并询问“这看上去像在笑吗？”来完成。所显示的信息(标准/问题)可以询问第二组提供者所显示的表情有多匹配表情的特性，如愤怒、蔑视、厌恶、害怕、开心、悲伤、惊奇或另一种表情、情感状态或动作单元；具体的情绪、情感状态或动作单元可以是第一状态的提供者被要求模仿的那些。所显示的问题还可以询问或作为替代询问所显示的表情(先前在步骤210-220中获得的)有多相像于样本表情(在步骤205中提供给第一组提供者或为其定义的)。在实施方案中，可以要求第二组提供者认可或否决每个表情。在实施方案中，可以要求第二组提供者对这些表情评级；评级可以为如下：1.看上去不像；2.表现不佳；3.正常；4.表现非常好；5.模仿得难以置信地好。

在实施方案中，第二组提供者全部不同于第一组提供者。在实施方案中，在第一组提供者与第二组提供者之间可能存在至少一些或甚至完全重叠部分。在不一定限制的变化中，不要求提供者对他或她自己提交的带有表情的图像评分。

在步骤230中，该步骤可以响应步骤225来执行，第二组提供者对已评分的表情有多匹配被模仿表情或每个表情有多符合预定的一个或多个标准。机器180可以接收第二组提供者给出的评分，并通过例如网络190将其传送到系统100。系统100通过例如网络190接收评分。评分可以是简单的是/否，或较为复杂，如尺度从1至10或字母评级尺度的评分。

在步骤232中，使用一个或多个第一预定的质量标准来测试从第一组提供者接收的图像，而在步骤235中，发送(例如通过网络190以电子方式从系统100发送)通过一个(或多个)第一预定的质量标准的图像以便由面部表情专家池审核。第一质量标准可以是例如，至少N个未受训的提供者认同该表情匹配情绪X的表情。数值N可以是绝对预定阈值数值(例如，五)、标度的预定阈值数值(例如，M个中的N个，如10个中的6个)、预定阈值百分比(例如，65％)。此处给出的百分比和数值是示范性的且不一定作为限制。

在步骤240中，系统100接收专家对每个审核的图像的判定，并存储判定。例如，系统100可以通过网络100接收专家的判定。

在步骤245中，使用一个(或多个)第二预定的质量标准将图像作为肯定性示例来接受。一个或多个第二质量标准可以采用设置第一预定的质量标准的方式来设置，例如至少P个专家认同该表情匹配情绪X的表情。数值P可以是绝对数值、标度的数值或百分比。

在实施方案中，仅使用一个专家。可以要求该一个专家例如基于通过/未通过来对图像评分或相对于每种特定类型的表情从两个、三个或更多个可用评级选择评级并将其赋予图像。在其他实施方案中，可以使用两个、三个或更多个专家。

在步骤250中，系统选定专家已审核的一些或全部图像作为用于表情识别机器(分类器)的训练数据。例如，可以选定全部或预定部分的可用训练图像或预定数量的图像。

在步骤255中，使用训练数据来训练表情识别机器。本文件中下文以及其他地方描述了此步骤中可以采用的一些机器学习技术。其他机器学习和优化技术也可以被采用。

在步骤260中，使用步骤255中训练的表情识别机器。例如，可以在摄像机中实现该机器以允许摄像机的用户自动采撷带有具体表情的图像。又如，表情识别机器判断人暴露于某个或某些刺激，如广告所产生的反应。再如，该表情识别机器可以在用户计算机上或通过网络(或许经由浏览器)来实现以允许用户在产生各种表情中自行训练；可使该用户能够采撷用户的图像(图片/视频)，并使用分类器对存在给定表情(担心、关注、高兴等)的图像评分。

在流程点299处，该流程结束；该流程可以按需完整地或部分地重复执行。

流程200获得已知为“肯定性示例”是什么。换言之，这些示例属于搜索以进行匹配的特定表情。重要地，如果已知两个表情不相容(例如，“开心”和“悲伤”)，则来自一个表情(x)的肯定性示例可以视为另一个表情(y)的否定性示例。而且，作为特定情绪、情感状态或动作单元的表情的评分差的图像可以在机器学习中被用作该相同情绪、情感状态或动作单元的否定性示例。因此，步骤255中的训练可以用于肯定性示例(x)的表情的肯定性识别或用于与另一个(否定性)情绪(y)相同的表情的不识别的训练。

流程200中的步骤225至250可以视为用于降低为训练表情识别机器而同时生成肯定性和否定性示例的成本的“管线”。因此，可以通过多种方式(例如从web搜索)来收集所有类型的面部图像，并通过该管线以生成肯定性或否定性示例。对于否定性示例，可以询问第二组提供者每个图像是否明显不是目标情绪的表情。图3的流程300图示这种生成否定性示例的方法。

步骤325与步骤225类似，只是适于生成否定性示例而非肯定性示例。由此，要求(第二组或可以与第二组相似的第三组的)一个或多个提供者参照一组预定的一个或多个标准对来自第一组提供者的带有表情的图像评分。这些提供者也无需面部表情识别中的专门训练。例如，系统100和/或相应提供者的机器180促使向这些提供者显示这些标准和/或问题。例如，显示图像并询问“这看上去像在笑吗？”所显示的信息(标准/问题)可以询问第二组提供者所显示的表情有多匹配具体表情，如愤怒、蔑视、厌恶、害怕、开心、悲伤、惊奇或另一种表情、情感状态；具体的情绪、情感状态或动作单元可以是第一状态的提供者被要求模仿的那些。该情绪、情感状态或动作单元可以不同于生成图像的提供者模仿的情绪、情感状态或动作单元。在实施方案中，可以要求第二组提供者对这些表情评级为认可/拒绝。在实施方案中，可以要求第二组提供者对这些表情评级；评级可以为如下：1.看上去不像；2.表现不佳；3.正常；4.表现非常好；5.模仿得难以置信地好。

在实施方案中，步骤325的提供者可以完全不同于第一组提供者，或者在第二组提供者与第一组提供者之间可能存在至少一些或甚至完全重叠部分。在不一定限制的变化中，不要求提供者对他或她自己提交的带有表情的图像评分。

在步骤330中，其与步骤230完全相同或类似，系统100接收提供者的响应，该响应是响应步骤325而生成的。

在步骤332中，其与步骤232完全相同或类似，使用一个或多个第一预定的质量标准测试从第一组提供者接收的图像。在步骤335中，与步骤235相似，发送(例如通过网络190以电子方式从系统100发送)通过一个(或多个)第一预定的质量标准的图像以便由面部表情专家池审核。第一质量标准可以是例如，至少N个未受训的提供者认同该表情是情绪X的差表情。数值N可以是绝对预定阈值数值(例如，五)、标度的预定阈值数值(例如，M个中的N个，如10个中的6个)、预定阈值百分比(例如，65％)。此处给出的百分比和数值是示范性的且不一定作为限制。

在步骤340中，系统100例如通过网络190接收专家的判定/评分。

在步骤345中，其与步骤245完全相同或类似，使用一个(或多个)第二预定的质量标准将图像作为否定性示例来接受。一个/多个第二质量标准可以采用与设置第一预定的质量标准的方式来设置，例如至少P个专家认同该表情是情绪X的差表情。数值P可以是绝对数值、标度的数值或百分比。在实施方案中，仅使用一个专家。可以要求该一个专家例如基于通过/未通过来对图像评分或相对于每种特定类型的表情从两个、三个或更多个可用评级选择评级并将其赋予图像。在其他实施方案中，可以使用两个、三个或更多个专家。

在步骤350中，其与步骤250完全相同或类似，系统选定专家已审核的一些或全部图像作为用于表情识别机器的训练数据。但是，在这里，训练数据是否定性示例。例如，可以选定全部或预定部分的可用训练图像或预定数量的图像。

管线(肯定性和否定性)的目的可以是将被接受为示例的每个图像的成本和时间减到最小。因此，设置选定的参数(第一和第二预定标准)可以基于成本函数。该成本函数可以基于时间和成本的加权组合，或简单地基于考虑到未受训提供者和专家的成本的实际成本。可以根据未受训受检者数量和专家响应强度使用数学模型将成本函数最小化。可使用应用于机器学习的强化学习方法来进一步调整这些参数。

因此，可以使用上文描述的方法收集的训练数据来开发使用机器学习方法的第一代表情识别系统(例如，模式识别器、神经网络、支持矢量机器、adaboost和可能的其他类型的分类器)。可以进一步将这些技术扩展到收集“突破”表情识别器的某个版本(例如，当前版本)的数据。由此，系统可以被配置来要求众包提供者发送系统出错的示例图像。这还可以通过嵌入能够向中央服务器发送数据的应用来实现。然后可以使用与上文针对收集肯定性和/或否定性示例描述的方法类似的方法(管线)审核新的突破我(break-me)示例。然后该新数据被用于训练，以开发第二代表情识别系统。该流程可以被迭代以开发第三代系统等。

在实施方案中，该系统要求众包提供者针对某个情绪(例如，愤怒)创建一般会被人识别为该表情但是会促使表情识别器(即，检测器或分类器)不将其标识为如愤怒的该特定情绪(且可能地将其标识为另一种类型的情绪，如开心)的表情示例；或反之，该系统要求众包提供者创建对于人看上去不是与某个情绪(例如，愤怒)对应的表情但是会促使表情识别器(即，检测器或分类器)将其标识为该特定情绪的表情示例。然后，提供者将他们如此标识的图像发送到系统；系统会接收这些图像并将其连同适合的描述来存储。然后通过如结合图2(步骤225-260)和图3描述的管线发送这些图像。图4图示用于获取“突破”检测器的此类数据的方法400。

在步骤405中，对第一组提供者中的一个或多个提供者赋予创建图像的目标，这些图像中，面部表情看上去像是第一类型的表情，但是分类器不会将其分类为第一类型；或者，目标可以是创建看上去不像第一类型的表情但是分类器将其分类为第一类型的表情的面部表情；或反之。例如，可以要求第一组提供者创建看上去像是愤怒，但是不被目前这一代分类器分类为愤怒的表情；例如，可以要求第一组提供者创建看上去像是愤怒但是不被目前这一代分类器分类为愤怒的表情。可以向提供者提供利用分类器将他们创建的图像分类的装置。例如，该分类器可以设为在线可用或将其安装在提供者的机器180上。与先前一样，第一组提供者无需面部表情识别中的专门训练。可以将目标和/或提示/指令存储在数据库160或其他地方。

在步骤410中，第一组提供者创建表情并采撷表情，然后对照分类器测试这些表情。例如，提供者使用他们相应的机器180中的摄像机采撷他们的图像，并还使用机器180测试这些图像来访问分类器。

如果特定提供者满意地确信他或她通过特定图像已达到目标，则提供者通过例如选择促使图像通过网络190被传送的菜单项将该图像提供到系统100。这在步骤415中执行。

在步骤420中，系统100接收提供者提交的图像。

在步骤422中，系统使用与第一组提供者所使用的分类器相同的分类器和/或一个或多个其他分类器来测试接收到的图像。如果特定图像不满足客观性目标，则废弃该图像。如果例如目标是要获取分类为愤怒(但是看上去不像愤怒)的图像，且当系统将该图像提交到分类器时，分类器的输出不是愤怒，则可以废弃该图像(该方法中不进一步使用)。相似地，如果目标是要获取不分类为愤怒(但是人看上去像愤怒)的图像，则在分类器输出对应于愤怒的情况下可以废弃该图像。

在步骤425中，要求第二组提供者中的一个或多个提供者参照第一组提供者所使用的客观性目标对这些图像评分。(第二组提供者也无需在面部表情识别中进行专门训练。)接续前一段的示例，可以询问第二组提供者图像是否属于愤怒的面孔。

在实施方案中，第二组提供者全部不同于第一组提供者。在实施方案中，在第一组提供者与第二组提供者之间可能存在至少一些或甚至完全重叠部分。在实施方案中，在第一组提供者与第二组提供者之间可能存在至少一些或甚至完全重叠部分。在不一定限制的变化中，不要求提供者对他或她自己提交的带有表情的图像评分。

在步骤430中，第二组提供者基于客观性标准对图像评分，机器180接收第二组提供者给出的评分，并通过例如网络190将其传送到系统100。系统100接收这些评分。这些评分可以是简单的是/否(看上去像是愤怒或不像是愤怒)，或较为复杂，如尺度从1至10的评分。

在步骤432中，使用一个或多个第一预定的质量标准来测试这些图像，以及在步骤435中，发送(例如以电子方式从系统发送)通过第一(或多个)预定的质量标准的图像以便由面部表情专家池审核。第一质量标准可以是例如，至少N个未受训的提供者认同该表情匹配情绪X的表情。数值N可以是绝对预定阈值数值(例如，五)、标度的预定阈值数值(例如，M个中的N个，如10个中的6个)、预定阈值百分比(例如，65％)。此处给出的百分比和数值是示范性的且不一定作为限制。

在步骤440中，系统100接收专家对每个审核的图像的判定，并存储判定。

在步骤445中，系统应用一个(或多个)第二预定的质量标准以将图像接受为“突破”分类器示例的图像。一个或多个第二质量标准可以采用与设置第一预定质量标准的方式来设置，例如至少P个专家认同该表情匹配(或不匹配)情绪X的表情。数值P可以是绝对数值、标度的数值或百分比。

在实施方案中，仅使用一个专家。可以要求该一个专家例如基于通过/未通过来对图像评分或相对于每种特定类型的表情，对该图像赋予三个或更多个可用评级的评级。在其他实施方案中，使用两个、三个或更多个专家。

在步骤450中，系统选定专家已审核的一些或全部图像作为用于已被数据“突破”的分类器的训练数据。

在步骤455中，通过“突破”数据训练分类器，并且分类器成为下一代分类器。将上文的步骤迭代执行一次或多次以进一步精细化分类器。

在步骤460中，以上文结合步骤260描述的方式来使用分类器。

在流程点499处，流程结束，以便按需完整地或部分地重复执行。

图5示出迭代方法500的选定步骤/框，迭代方法500基于上文结合图2描述的方法200。但是，在这里，在判断框556中判断是否要继续找出人类标注者/提供者(可以是第二组提供者)赋予的标注与受训的分类器的对应输出之间的差异。该判断可以基于是否达到预定的迭代次数(例如，两次、三次或更多)或基于另一种标准。如果判断不继续，则流程流行进到步骤560(与方法200的步骤260相似或完全相同)，以便使用已训练的表情识别机器。

否则，流程流继续到步骤557，其中选择人类评分与表情识别机器的输出之间存在差异的图像；例如，可以选择所有此类图像。

从步骤557，流程流继续到步骤558，以向人类标注者(如，第二组提供者)请求确认或否定差异的其他意见。当找到此类差异时，流程继续到向专家询问第二意见。此第二意见包含在表情识别机器的第二轮(或后续)训练中。该流程可以迭代几次(例如，询问第三、第四意见等)。基本上，这是用于精细化人类赋予的标注的迭代机制。根据此流程，并非对于所有标注都请求第二、第三和后续意见，而是仅人类赋予的标注与系统输出之间存在差异时才请求其他意见。例如，如果专家指示图像X显示害怕，但是表情识别器指示其不显示害怕，则将图像X发回给专家请求其他意见。

图5示出流程200的修改。可以对流程300和400进行类似的更改，以实现迭代以便将这些流程精细化。

本文件通篇描述的系统和流程特征可以单独地存在，或以任何组合或排列的形式存在，除非固有地要求、显性地指示或以其他方式从上下文明确地显示具体特征/元件、限制的存在或不存在。

虽然这些流程步骤和判断(如果存在判断框的话)在本发明文件中是顺序描述的，但是某些步骤和/或判断可以由单独元件同时或并行地、异步或同步地、以管线式方式或以其他方式来执行。没有特别要求这些步骤和判断按本发明文件列述或附图示出的次序来执行，除非固有地要求、显性地指示或以其他方式从上下文明确地显示具体次序。再者，并非每个图示的步骤和判断框在根据本文件描述的概念的每个实施方案中都是必需的，而在根据这些概念的一些实施方案中，未专门图示的一些步骤和判断框可能是需要或必需的。但是，应该注意，具体实施方案/变化/示例使用示出和/或描述步骤和判断框(如果适用的话)所采用的特定次序来执行。

与本文件中披露的实施方案、变化和示例的方法步骤对应的指令(机器可执行代码)可以直接包含在硬件、软件、固件或其组合中。可以将软件模块存储在易失性存储器、闪存存储器、只读存储器(ROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、硬盘、CD-ROM、DVD-ROM或本领域中公知的其他形式的非瞬态存储介质，无论是易失性还是非易失性的。可以将一个或多个示范性存储介质耦接到一个或多个处理器，以使该一个或多个处理器能够从该一个或多个存储介质读取信息以及将信息写入到该一个或多个存储介质中。可替代地，该一个或多个存储介质可以与一个或多个处理器成为一体。

本文件相当详细地描述了用于获取和使用机器学习系统的训练数据的创造性设备、方法和制品。这样是出于说明性目的。具体实施方案或其特征不一定限定基于本发明的通用原理。本文描述的具体特征可能在一些实施方案中被使用，而在另一些实施方案中可能没有被使用，这不背离本文阐述的本发明精神和范围。组件的多种物理安排和多种步骤顺序也落在本发明的预设范围内。前文披露中理应有许多其他修改，相关领域的技术人员将认识到，在一些实例中，一些特征将在其他特征并未对应地使用的情况下被采用。因此，这些说明性示例不一定定义本发明的以及赋予本发明的法律保护的边界和范围，此功能由权利要求及其等效物来实现。

Claims

1.一种用于收集机器学习训练数据的计算机实现的方法，包括：

指示第一多个提供者设备提供一个或多个提示用于模仿预定表情，所述第一多个提供者设备中的每一个对应于未受训的提供者；

从所述第一多个提供者设备中的至少一个提供者设备接收响应于所述一个或多个提示的图像数据；

向第二多个提供者设备发送对与所述图像数据相对应的评分的请求，所述第二多个提供者设备中的每一个对应于第二未受训的提供者；

从所述第二多个提供者设备中的至少一个提供者设备接收与所发送的图像数据相对应的评分；

对所述图像数据应用质量检查，所述质量检查基于所接收的评分；以及

存储通过质量检查的图像数据。

2.如权利要求1所述的计算机实现的方法，其还包括：

使用通过质量检查的图像数据的至少一部分来训练分类器，所述分类器用于将描绘与所述预定表情相关联的情绪状态、情感状态或动作单元的一个或多个图像进行分类；以及

使用所述分类器将额外的图像数据进行分类。

3.如权利要求2所述的计算机实现的方法，其中

所述预定表情是预定情绪状态、情感状态或动作单元的表情，

所述分类器是所述预定情绪状态、情感状态或动作单元的分类器，

提供一个或多个提示包括提供用于模仿所述预定情绪、情感状态或动作单元的一个或多个提示，而训练所述分类器包括训练所述预定情绪、情感状态或动作单元的分类器。

4.如权利要求3所述的计算机实现的方法，其中提供一个或多个提示，接收响应所述一个或多个提示的图像数据，发送对与图像数据相对应的评分的请求，以及接收与图像数据相对应的评分由基于计算机的系统通过网络来执行，所述网络将所述基于计算机的系统耦接到所述第一多个和第二多个提供者设备。

5.如权利要求4所述的计算机实现的方法，其中提供一个或多个提示包括下列各项中的至少一个：通过所述网络从所述基于计算机的系统向所述第一多个和第二多个提供者设备发送指令，以及通过所述网络发送一个或多个预定图像。

6.如权利要求4所述的计算机实现的方法，其中使用分类器包括对摄像机进行编程以采撷描绘所述预定表情的图片。

7.如权利要求4所述的计算机实现的方法，其中使用分类器包括对电子设备进行编程以评估描绘人脸表情的图像。

8.如权利要求4所述的计算机实现的方法，其中使用分类器包括提供用于创建所述预定表情的训练指令，其中采用所述分类器来针对所述预定表情的呈现为用户的图片评分。

9.如权利要求2所述的计算机实现的方法，其还包括：

从通过质量检查的图像数据中检测导致从所述第二多个提供者设备接收的标注与所述分类器赋值的标注之间的差异的有差异图像；

将有差异图像数据的至少一部分发送到所述第二多个提供者设备；

从所述第二多个提供者设备接收所发送的有差异图像数据的至少一部分的评分；

对与从所述第二多个提供者设备接收的评分相对应的有差异图像数据应用第二质量检查；

进一步相对于通过所述第二质量检查的有差异图像数据来训练所述分类器。

10.一种用于收集机器学习训练数据的计算机实现的方法，所述方法包括：

向第一多个电子设备提供指令以给予用于测试分类器的提示，所述分类器包括对应于与预定表情相关联的预定情绪、情感状态或动作单元的预定表情的机器学习分类器；

从所述第一多个电子设备接收响应所述提示的多个图像；

利用所述分类器检查所接收的图像，并废弃不满足应用于所述分类器的输出的预定标准的图像，从而产生通过所述预定标准的客观上合格的图像；

向第二多个电子设备发送指令以显示参照所述客观上合格的图像中的所述预定情绪、情感状态或动作单元的呈现对所述客观上合格的图像评分的请求；

接收响应于所述请求的来自所述第二多个电子设备的评分；

基于从所述第二多个电子设备接收的评分对接收到的图像应用第一质量检查，得到通过所述第一质量检查的多个图像；

将通过所述第一质量检查的多个图像发送给一个或多个电子设备，并且指令所述一个或多个电子设备显示参照通过所述第一质量检查的所述多个图像中的所述预定情绪、情感状态或动作单元的呈现对通过所述第一质量检查的所述多个图像评分的请求；

接收响应于发送通过所述第一质量检查的所述多个图像的来自所述一个或多个电子设备的评分；

对与从所述一个或多个电子设备接收的评分相对应的图像应用第二质量检查；以及

存储通过第二质量检查的图像的至少一部分。

11.如权利要求10所述的计算机实现的方法，其中：

指令包括创建肯定性示例图像的指令，所述肯定性示例图像在被分类器分类时促使所述分类器正确指示未呈现所述预定情绪状态、情感状态或动作单元；

所述方法还包括：

使用通过所述第二质量检查的一个或多个图像作为所述预定情绪状态、情感状态或动作单元的呈现的肯定性示例来训练所述分类器；以及

在所述训练的步骤之后使用所述分类器。

12.如权利要求10所述的计算机实现的方法，其中提供指令以给予提示，从所述第一多个电子设备接收对所述提示的响应，向第二多个电子设备发送评分的请求，以及从所述第二多个电子设备接收评分由基于计算机的系统通过网络来执行，所述网络将所述基于计算机的系统耦接到所述第一多个和第二多个电子设备。

13.如权利要求12所述的计算机实现的方法，其中所述第一多个和第二多个电子设备中的至少一个电子设备是移动电子设备。

14.如权利要求12所述的计算机实现的方法，其中提供指令以给予提示包括通过所述网络从所述基于计算机的系统向所述第一多个电子设备发送一个或多个图像。

15.如权利要求12所述的计算机实现的方法，其中使用分类器包括将所述分类器编程到摄像机中以使所述摄像机能够采撷描绘所述预定情绪、情感状态或动作单元的图片。

16.如权利要求12所述的计算机实现的方法，其中使用分类器包括将所述分类器编程到被配置来评估暴露于一个或多个刺激所产生的反应的装置中。

17.如权利要求12所述的计算机实现的方法，其中使用分类器包括使用所述分类器以显示用于创建所述预定情绪、情感状态或动作单元的呈现的自行训练指令。

18.如权利要求10所述的计算机实现的方法，所述方法还包括：

创建使得分类器不正确地指示所述预定情绪状态、情感状态或动作单元的呈现的否定性示例；

使用通过所述第二质量检查的一个或多个图像作为所述预定情绪状态、情感状态或动作单元的呈现的否定性示例来训练所述分类器；以及

使用所训练的分类器。

19.一种用于收集机器学习训练数据的计算机系统，其包括：

至少一个处理器；

耦接到处理器并存储用于模仿预定情绪状态、情感状态或动作单元的表情的一个或多个提示的至少存储器装置；以及

耦接到处理器以及耦接到至少一个网络的至少一个网络接口；

其中所述至少一个处理器被配置来：

通过所述至少一个网络接口将所述一个或多个提示发送给第一多个电子设备；

从所述第一多个电子设备中的至少一些接收响应所述一个或多个提示的图像；

通过所述至少一个网络接口向第二多个电子设备发送对图像评分的请求；

接收响应所述请求的来自所述第二多个电子设备中的至少一些的评分；

基于从所述第二多个电子设备接收的评分对图像应用第一质量检查，从而获得通过所述第一质量检查的一个或多个图像；

将通过所述第一质量检查的所述一个或多个图像与对所述一个或多个图像评分的请求一起发送给一个或多个电子设备；

从所述一个或多个电子设备中的至少一个电子设备接收一个或多个评分，该评分对应于被发送到电子设备的图像的至少一部分；

基于从所述一个或多个电子设备接收的所述一个或多个评分对图像应用第二质量检查；以及

存储通过第二质量检查的那些图像。

20.一种用于收集机器学习训练数据的计算机系统，其包括：

至少一个处理器；以及

耦接到处理器的至少一个非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储指令，所述指令在被处理器执行时操作以使得处理器：

从第一提供者设备接收对应于至少一个图像的图像数据；

从第二提供者设备接收对应于所述图像数据的至少一个选择；

基于所接收的选择为图像数据赋予评分；

确定评分满足至少一个质量准则；

在这样的确定之后指令第三提供者设备在第三提供者设备的显示器上给予对于与图像数据相对应的至少一个补充选择的提示；

从第三提供者设备接收与图像数据相对应的至少一个补充选择；以及

基于所接收的补充选择为图像数据赋予第二评分。

21.一种用于收集机器学习训练数据的装置，包括：

至少一个处理器，以及

耦接到处理器的至少一个非暂态计算机可读存储介质，存储指令，所述指令在被所述至少一个处理器执行时使得所述装置执行根据权利要求1-18中任一项所述的方法。

22.一种用于收集机器学习训练数据的装置，包含用于执行根据权利要求1-18中任一项所述的方法的部件。

23.一种用于收集机器学习训练数据的非暂态计算机可读存储介质，存储指令，所述指令在被至少一个处理器执行时使得执行根据权利要求1-18中任一项所述的方法。