CN105027144A

CN105027144A - 用于无校准注视估计的方法和设备

Info

Publication number: CN105027144A
Application number: CN201480010593.8A
Authority: CN
Inventors: 阮非邦; 朱利安·弗勒罗; 克里斯特尔·沙马雷; 菲利普·古约泰尔
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-02-27
Filing date: 2014-02-20
Publication date: 2015-11-04
Also published as: US20160005176A1; US9965860B2; WO2014131690A1; EP2962251A1; JP2016515242A; KR20150122666A

Abstract

本发明涉及一种注视估计方法。为了在不对用于确定注视的系统进行校准的情况下确定注视的位置，所述方法包括以下步骤：至少检测(103)至少眼睛的中心在正在观看显示在屏幕上的至少视频图像的观看者的至少眼睛图像上的位置；通过使用至少所检测到的至少眼睛的中心的位置和基于人类注视分布的中心偏离属性的映射函数，确定(105)所述观看者的注视在所述屏幕上的至少第一位置。本发明还涉及被配置用于估计所述注视的设备。

Description

用于无校准注视估计的方法和设备

技术领域

本发明涉及关于由观看者观看的图像序列的眼睛注视估计领域。

背景技术

人类是所有生活领域中的最核心因素。视觉是人类最重要的感觉；人类大脑中的大约80-90％的神经元被假定牵扯到视觉感知。眼睛注视被认为是可以揭示人类思想的有用且确凿信息的重要线索。眼睛注视被认为能够反映人在视觉环境中的注意力、行为和感情。实际上，多种人机交互(HCI)应用中都会涉及对眼睛注视的解释处理，比如基于注视的交互用户界面、自适应和交互的内容展示、虚拟现实、人类行为研究和诊断应用等。因此，在过去的几十年中，眼睛注视估计已经成为了活跃的研究领域，但由于该问题的诸多难点，其仍然是一个具有挑战性的课题。通常，可将眼睛注视追踪器分成两类：根据设备与受试者进行接触的方式不同，分为侵入式系统和远程系统。最早的侵入式注视追踪器之一基于固定在眼睛上的允许检测其位置的特殊接触透镜。这些接触透镜包含传感器(镜面或感应线圈)，传感器用来反射光线或用来测量高频电磁场中的眼睛位置。虽然提供了高精确度，但由于其不舒适且扎眼的使用，该方法只适合用于医疗或认知研究。基于眼动电图描记法(EOG)的方法对眼睛转动时存在静电场这一事实进行利用。通过(使用电极)测量眼睛周围的皮肤区域中的电势差，可以估计眼睛的位置。EOG技术使用能够在暗环境(此时视频眼动描记是没有用的)中进行记录并且不需要睁眼的简单配置提供可靠的测量。主要问题在于，EOG信号会受到由于眨眼、面部肌肉移动和EOG潜在漂移所带来的噪声(尤其是在长期记录实验中)。视频眼动描记技术也可被分类为侵入式方法(如果它们用于头戴式系统中的话)。一般地，侵入式方法能够实现高精确度以及自由的头部移动，但其主要缺陷在于，其要求只限制于实验室实验的对用户进行紧密接触。

因此，对于日常应用，非侵入式(或远程)方法是更为优选的。针对这一类别，基于视频的技术是最为广泛使用的。可以对方法的两个群组进行区分：基于(几何)模型的方法和基于外观的方法。前者使用眼睛的3D几何模型来估计注视。将关注点确定为3D注视方向(包括光轴和视轴)与屏幕平面之间的交点。大多数基于模型的方法基于角膜反射技术，并使用附加光源(通常为红外光)来照射眼睛。主要想法是根据瞳孔中心与闪光点(由于反射所导致的眼睛上的最亮光点)之间的相对位置估计注视。

作为对照，基于外观的方法认为注视估计是眼睛的图像特征和注视在屏幕上的位置之间的2D映射问题。可通过训练多层神经网络或回归模型(比如Gaussian过程回归)或通过使用非线性流形嵌入技术(比如局部线性嵌入)来得到映射函数，以将高维眼睛图像缩减到2维并通过低维空间中的线性组合导出所述注视。

基于几何模型的方法一般来讲更加准确(小于一度)并且在商用眼睛追踪器中使用的更为广泛。然而，它要求高清相机和附加光源。当前的基于外观的方法已知不太准确(准确度为若干度)。还已知更为准确的基于外观的方法，这些方法可以实现小于一度的准确度，但代价是使用大量的校准点，参见例如K.H.Tan，D.J.Kriegman，and N.Ahuja，“Appearance-based eye gaze estimation”，Proceedings of the Sixth IEEEWorkshop on Applications of Computer Vision(WACV)，pages 191-195，2002。

几乎所有当前的注视追踪技术都要求校准过程，以便推断出某些人员特定的眼睛参数(在基于几何的方法的情况中)或对眼睛移动和屏幕之间的相应映射函数进行回归(在基于外观的方法的情况中)。这种过程是非常麻烦、不舒适的，并且难以完成。此外，在一些消费者家庭应用中，比如交互游戏界面或自适应内容选择界面，由于要求眼睛追踪对于用户是透明的，所以主动校准几乎是不可能的。存在不要求显式校准的眼睛注视估计方法。然而，它们的基于模型的方法要求使用多个相机和IR光源。

另一方法关注于使用视觉显著性作为注视的几率分布的先验信息。文献Y.Sugano，Y.Matsushita，and Y.Sato，“Calibration-free gaze sensingusing saliency maps”，In Proc.of the 23rd IEEE Conference on Computer，Vision and Pattern Recognition(CVPR)，June 2010提出：如果连续眼睛外观不显著改变，则表明用户正在注意相同的固定点。通过集群化和平均化所有训练视频，获得“固定群组”的集合，每个“固定群组”包括平均注视几率图和其相应的平均眼睛图像。这些数据用来获得Gaussian过程回归(GPR)。由于不具有注视点的“真实”位置(相反地，只知道注视几率)，通过Monte-Carlo近似来实现GPR的训练过程(即根据平均注视几率图生成样本)。然而，该方法受到限制。首先，为了进入操作模式，系统需要事先进行离线且耗时的训练(针对10分钟的测试，进行10分钟的训练)。第二，方法利用许多通过经验确定的参数。第三，为了使Monte Carlo近似达到期望的准确度，需要许多样本，其代价是严重地增加了计算成本。然而，由于所述方法完全基于并不总是可靠的显著性信息，导致所述方法只实现6度的低准确度。

文献R.Valenti，N.Sebe，and T.Gevers，“What are you looking at？improving visual gaze estimation by saliency”，International Journal ofComputer Vision，2012公开了在随后处理阶段中使用显著性图来改善任何注视估计系统的性能。视网膜中凹区域(foveated region)被建模为所估计的固定点周围的Gaussian核。然后，计算所述显著性图。使用在所述固定点处初始化的均值移动窗来找到显著性图中的最接近的最大值点，该最大值点被认为是新的修正注视点。通过假定注视追踪器中的误差是相同且仿射的(例如移位或缩放)，可通过在所估计的和所修正的注视之间应用加权的最小二乘最小化来获得修正矩阵。

由于两个主要原因，现有的眼睛注视感应系统离在消费者家庭应用中广泛使用还有相当的距离。这种系统的成本仍然很高并且大多数系统要求进行麻烦且耗时的校准过程。

发明内容

本发明的目的是克服现有技术中存在的至少一个缺点。

具体地，本发明的目的是在不进行任何校准的情况下确定观看者在其所观看的屏幕上注视的位置。

本发明涉及用于注视估计的方法，包括以下步骤：

-至少检测至少眼睛的中心在正在观看显示在屏幕上的至少视频图像的观看者的至少眼睛图像上的位置；

-通过使用至少所检测到的至少眼睛的中心的位置和基于人类注视分布的中心偏离属性的映射函数，确定所述观看者的注视在所述屏幕上的至少第一位置。

根据一种具体特性，所述检测步骤包括以下步骤：

-将所述至少眼睛图像转换成至少热图；

-确定所述至少热图的第一像素，所述第一像素具有大于第一预定阈值的关联值；

-确定位于所述第一像素附近的第二像素，所述第二像素具有大于第二预定阈值的关联值；

-将至少所述至少眼睛的中心的位置计算为对应于第一和第二确定像素的位置的加权平均。

优选地，所述至少热图在颜色空间YC_bC_r中被表示为所述转换的输出。

根据一种具体特性，所述检测步骤还包括对所述至少热图进行Gaussian滤波，所述第一和第二像素是在Gaussian滤波之后确定的。

优选地，所述方法还包括以下步骤：

-根据与所述至少视频图像相关联的至少显著性图，确定观看者的注视在所述屏幕上的至少第二位置；

-确定观看者的注视在所述屏幕上的至少第三位置，所述注视的所述至少第三位置对应于所述注视的所述至少第一位置和所述注视的所述至少第二位置的融合。

根据另一特性，通过使用粒子滤波方法和在时间角度上之前确定的所述注视的至少另一第一位置，确定所述注视的所述至少第一位置。

优选地，通过将粒子滤波方法用于在时间角度上之前确定的所述注视的至少另一第一位置和所述注视的至少另一第二位置，确定所述注视的所述至少第三位置。

根据一种具体特性，通过考虑所述观看者的头部的移动，确定所述观看者的注视的所述至少第一位置。

本发明还涉及一种被配置用于确定观看者的注视的设备，所述设备包括至少一个处理器，所述至少一个处理器被配置用于：

-检测至少眼睛的中心在正在观看显示在屏幕上的至少视频图像的观看者的至少眼睛图像上的位置；

-通过使用所检测到的至少眼睛的中心的位置和基于人类注视分布的中心偏离属性的映射函数，确定所述观看者的注视在所述屏幕上的至少第一位置。

优选地，所述至少一个处理器还被配置用于：

-将所述至少眼睛图像转换成至少热图；

根据一种具体特性，所述至少一个处理器还被配置用于：使用Gaussian滤波对所述至少热图进行滤波。

根据另一特性，所述至少一个处理器还被配置用于：

优选地，所述至少一个处理器还被配置用于：执行粒子滤波方法。

根据另一特性，所述至少一个处理器还被配置用于：检测所述观看者的头部的移动。

本发明还涉及一种计算机程序产品，所述计算机程序产品包括程序代码的指令，所述指令用于当在计算机上执行所述程序时执行估计注视的方法。

附图说明

通过阅读以下参照附图的具体描述，将更好地理解本发明以及其它特定特征和优点，其中：

图1示出了根据本发明的具体实施例的用于估计观看者的注视位置的方法。

图2示出了根据本发明的具体实施例的观看者的眼睛图像，以及相关联的热图。

图3示出了根据本发明的具体实施例的根据观看者正在观看的视频内容的不同类型的注视位置的平均空间直方图。

图4示出了根据本发明的具体实施例的应用于对图1中的观看者的注视位置的估计的粒子滤波架构。

图5示出了根据本发明的具体实施例的与估计注视位置的方法相关的图形用户界面。

图6示意性地示出了根据本发明的具体实施例的用于实现估计注视位置的方法的设备。

图7示出了根据本发明的具体实施例的估计注视位置的方法。

具体实施方式

将参照用于对正在观看显示在屏幕上的一个或多个视频图像的观看者的注视位置进行估计的方法的具体实施例来描述本发明。为了实现该目标，通过分析观看者的至少一部分(包括对观看者的一只或两只眼睛的表示)的一个或多个图像，检测观看者的一只或两只眼睛的中心的位置。在观看者观看一个视频图像时，所分析的图像有利地对应于观看者的图像。表示眼睛外观和屏幕上的注视位置之间的映射并且基于人类注视分布的中心偏离属性的映射函数用来确定观看者在屏幕上注视的位置。

对基于人类注视分布的中心偏离属性的映射函数的使用使得能够避免对映射函数进行校准，即能够避免眼睛外观和屏幕上的注视位置之间的映射函数发生任何退化(例如通过使用测试视频图像和正在观看这些测试视频图像的观看者的相关联的眼睛图像来执行)。

图1示出了根据本发明的具体且非限制性实施例的用于估计观看者的注视位置的方法。过程的输入10包括表示一个或若干个视频图像101的数据和表示一个或若干个眼睛图像102的数据。眼睛图像102有利地对应于正在观看视频图像102的观看者的一只或两只眼睛的图像，或更为一般地对应于观看者面部的图像，从中可提取表示眼睛的图像的数据。在一种有利的方式中，眼睛图像102是经由相机(例如网络相机)获取的。所述相机例如位于显示视频图像的屏幕的上方，意味着相机没有集成到屏幕中，并且有线或无线地连接到屏幕。根据一种变形，相机可以集成到屏幕中。一个眼睛图像102有利地与一个视频图像101相关联，意味着在显示相关联的视频图像101的同时拍摄一个眼睛图像102。例如，视频图像101对应于图像序列(例如电影)的图像，对应于照片，对应于网页等等。

在第一步骤103中，从眼睛图像102检测一只眼睛的中心或每只眼睛的中心。可通过使用面部检测算法(例如加强级联面部检测器，参见“Robust real-time object detection”by P.Viola and M.Jones，IJCV，vol.57，no.2，pp.137-154，2002)检测观看者的面部。然后，基于人体测量关系从所检测到的面部确定眼睛区域的粗略位置。经验性地，发现眼睛中心总是包含在两个区域内，针对左眼的区域开始于检测到的面部区域的20％×30％，针对右眼的区域开始于60％×30％，其大小是所检测到的面部区域的25％×20％。

根据一种变形，Hough变换(HT)方法用于检测眼睛的中心，HT方法使用基于评选的算法在参数空间中检测圆圈(和线)。例如，美国专利US 3,069,654中对HT方法进行了描述。

在一种有利的方式中，通过使用利用眼睛图像102中可用的颜色信息的方法来检测眼睛的中心。根据该方法：

1.首先将在RGB颜色空间中捕获的眼睛图像转换到YCbCr空间。

2.基于经验观察(瞳孔区域中的像素通常在Cb分量中具有高值而在Y和Cr分量中具有低值)，可按如下来确定眼睛中心热图(HM)：

HM(x，y)＝Cb(x，y).(1-Cr(x，y)).(1-Y(x，y)) (1)

其中(x，y)对应于热图的像素的坐标，热图有利地包括与从中获得热图的眼睛图像一样多的像素，具有坐标(x，y)的眼睛图像的像素在热图中的相应像素具有相同坐标(x，y)。图2中根据本发明的特定且非限制性实施例示出了这一热图。图2示出了眼睛图像20及其相关联的热图21。向热图的像素指派不同的值210-213，这些值是根据式1计算得到的。

3.然后，使用区域生长方法提取所有可能是瞳孔区域的子区域。为了做到这一点，大于预定阈值T1的局部最大值被选为种子点，称为第一点212。然后，通过生长值大于预定阈值T2的所有像素(这些像素被称为第二像素213)来在每个种子点周围构建四个连接的区域。所选择的点然后被动态地添加到“候选点”集合，然后所述过程继续，直到到达眼睛区域的末端为止。经验性地，T1和T2可以按如下设置：T1＝0.98以及T2＝0.85，以获得良好性能。

4.最后，通过对所有候选点进行加权评选来估计眼睛中心位置(x_c，y_c)：

其中，PR是候选像素的集合。

在第二步骤104中，将眼睛的中心的位置转换成注视的位置。在自由观看模式中，实际上，注视分布偏向屏幕中心。图3中可观察到这一效果。在图3中，示出了由注视追踪器(例如具有50Hz的采样频率的SMI RED追踪器)记录的注视位置的平均空间直方图，此时观看者处于三种屏幕观看活动中：电影观看30、电视观看31和网页浏览31。对于前两种活动30和31，举例来讲，四个观测者被要求观看8个视频序列(即4个电影剪辑和4个电视剪辑，每个10分钟)。针对网页浏览活动，观看者能够随便选择5个喜欢的网站来在10分钟期间进行浏览。然后，针对所有激励和所有受试者对结果进行平均。当注视位置(亮像素300和310)分布在位于屏幕中间的非常窄的区域中时，针对电影和电视观看活动可以观测到强烈的中心偏离效应。对于网页浏览活动，尽管注视分布在中心附近存在较大扩散(亮像素320)，仍然能够注意到中心偏离。

基于注视分布的这一统计属性，可通过以下投影模型根据当前眼睛中心坐标(x_c，y_c)(在眼睛图像中)确定“观测注视”位置(归一化为[01])：

(3)和(4)

其中：

-和是转换成的注视位置，对应于注视的第一位置105；

-x_c和y_c是采用绝对图像坐标的当前眼睛中心位置。由于受试者的头部被假定为固定的，所以不要求眼角局域化技术将这些值转换为眼睛坐标的相对位置；

-σ_xc和σ_yc分别是x_c和y_c的均值和标准差值。这些参数是在所述过程期间连续计算和更新的。

-A_x和A_y是调谐因子，它们描述注视分布的“尺度”。通常根据经验将它们设为例如4，这对于对中心偏差级别进行量化来讲足够大了。

通过这种方式，当当前眼睛中心位置等于其均值()时，注视位置将位于屏幕的中心(采用归一化注视坐标，(x_g，y_g)＝(0.5，0.5))，以及当当前眼睛中心位置从其均值偏差A_x(相应的，A_y)倍的标准差时，注视将位于屏幕边界处(即(x_g，y_g)＝1).

使用这一简单映射模型使得能够从眼睛图像获得对注视位置的粗略估计(同时给出良好性能)，而独立于(即不需要)显著性图。

在一种可选方式中，并且根据一种变形，可通过使用与视频图像101相关联的显著性图106对注视位置的估计进行改善。然后，可从显著性图获得第二注视位置107。通过融合第一注视位置105和第二注视位置107，可获得第三注视位置109，其优点在于，比第一注视位置105和第二注视位置107单独考虑都要更为精细。第三注视位置105有利地对应于第一注视位置和第二注视位置的平均。根据一种变形，第三注视位置105有利地对应于第一注视位置和第二注视位置的加权平均，如果对第一注视位置的估计的置信度大于对第二注视位置的估计的置信度的话，指派给第一注视位置的权重大于指派给第二注视位置的权重，反之亦然。根据另一变形，使用显著性图来适配调谐因子A_x和A_y。例如，根据显著性图中的扩散(即根据显著性图的方差)来适配A_x和A_y。

根据另一可选变形，可基于第一注视位置105和第二注视位置107实现粒子滤波108，以获得更为精细的第三注视位置109。图4示出了这一变形，其中示出了根据本发明的一种具体且非限制性实施例应用于对观看者的注视位置的估计的粒子滤波架构。从最一般的观点并且根据本发明的特定示例性实施例，注视感应系统接收两种信息源作为输入，即视觉内容(例如图像/视频)和观看者的外观(例如头部姿势或眼睛外观)，并输出最可能的注视点，即第三注视位置109。激励图像I40、41和42(对应于不同连续时刻t-1、t和t+1处的视频图像101)、不同连续时刻t-1、t和t+1的注视位置g＝(x，y)(其中g是2D向量，x和y分别是横轴和纵轴上的注视位置)43、44、45和眼睛图像e46、47、48(对应于不同连续时刻t-1、t和t+1的眼睛图像103)之间的几率关系可如图4所示经由几率图形模型4示出。该图形模型4描述DBN(动态Bayesian网络)，其中每个时间帧t-1、t和t+1中的节点表示所考虑的随机变量之间的关系，有向边表示它们的条件相关性。没有连接的节点被认为是彼此“条件无关”的。时间帧之间的联系反映了时间关系。基于该DBN，注视位置被估计为后验几率p(g_t|I_1∶t，e_1∶t)。如图4中所见，眼睛外观e_t47并不完全与激励I_t41无关。清楚的是，激励以某种方式影响注视位置g_t44，并从而间接地影响眼睛外观。然而，不失一般性地，可认为这两种观测是“条件无关”的(即经由第三变量g_t相关)。同样，注视位置分布也被假定为遵循一阶Markov过程，即当前状态只取决于之前的状态。该假设对于固定和平滑跟随眼睛移动尤其有效。在跳跃式眼睛移动中，如果当前注视位置是通过具有足够大尺度的分布建模的，则还可认为当前注视位置与之前的注视位置有关。通过使用Bayes规则以及一些因式分解，得到：

p(g_t|I_1∶t，e_1∶t)∝p(I_t，e_t|g_t)p(g_t|I_1∶t-1，e_1∶t-1). (5)

在式5中，可经由先验几率p(g_t|I_1∶t-1，e_1∶t-1)(给定之前的测量的情况下对当前状态g_t的预测)和似然性p(I_t，e_t|g_t)估计后验几率p(g_t|I_1∶t，e_1∶t)。符号∝意思是“与......成比例”。对先验几率应用链规则(即Chapman-Kolmogoroff等式)，能够得到以下熟悉结果：

式6使用一个状态变量g和两个同时测量I和e来表征动态系统。在关于状态噪声和测量噪声的线性条件和Gaussian假设下，可通过使用Kalman滤波方法得到采用闭合表达式的优化解。作为对照，粒子滤波架构可被用作次优备选方案，以与基本分布无关的解决问题。此外，粒子滤波提供一种更为多模的架构，其允许集成不同类型(即不同分布)的观测。基于粒子滤波的方法经由两个步骤来近似所述后验概率密度p(g_t|o_1∶t)(其中o指示的观测是激励图像I或眼睛外观e)：

1.预测：从之前的观测o_1∶t-1预测当前状态：

p(g_t|o_1∶t-1)＝∫p(g_t|g_t-1)p(g_t-1|o_1∶t-1)do_t-1. (7)

2.更新：利用Bayes规则使用传入观测y_t更新对当前状态的估计

p(g_t|o_1∶t)∝p(o_t|g_t)p(g_t|o_1∶t-1). (8)

通过与权重相关联的N个粒子的集合来近似后验分布p(g_t|o_1∶t)。通常，不能直接从p(g_t|o_1∶t)获得样本，而是从所谓的“提议分布”q(g_t|g_1∶t-1，o_1∶t)获得，其中q(.)可在某些限制下选择。通过下式更新权重：

在最简单的情境中，将p(g_t|g_t-1)选为提议分布，其导致具有简单实现的自举滤波。通过这种方式，简单地将权重更新化简为对似然性的计算。为了避免退化问题，可根据一种变形进行重采样，已使用根据重要权重均等加权粒子的新的集合取代粒子的旧集合。

为了应用粒子滤波架构，按照以下来对状态转移模型和观测模型进行建模。

A.状态转移模型

一般地，存在两种类型的眼睛移动：平滑跟随移动和跳跃式移动。前者表示逐渐移动，其通常在注视移动对象时发生，后者是从一个眼睛位置向另一位置的非常快速的跳跃。其它类型的眼睛移动(比如固定或转向)都可被粗略地归到这两种类型中。

直觉上，平滑跟随眼睛移动可通过峰值以之前的注视位置状态g_t-1为中心的分布(例如Gaussian分布)来成功地建模。否则，对于跳跃式眼睛移动，即像屏幕上的任意位置的眼睛移动，还可使用以之前的注视位置为中心的另一Gaussian分布(但具有大得多的尺度)来描述跳跃式的不确定性属性。

从而，应该通过两种密度的Gaussian混合来对状态转移进行建模。但是，为了简单，针对两种类型的眼睛移动采用唯一分布：

其中diag(σ²)是对角协方差矩阵，其对应于每个独立变量x_t和y_t的方差(注视点表示为二维向量g_t＝(x_t，y_t))。σ²需要大到足以覆盖显示器上的注视的所有可能范围，以便对跳跃式眼睛移动进行建模。例如，σ被设为＝1/3屏幕尺寸。

B.观测模型

由于I_1∶t和e_1∶t是条件无关的(如图4中所示)，可通过下式给出复合似然性p(I_t，e_t|g_t)：

在只给出可从显著性图直接获得的图像帧的情况下，第一项p(g_t|I_t)表示注视几率。在给出当前眼睛图像的情况下，第二项p(g_t|e_t)表示似然性分布。在对象追踪的上下文中，该似然性通常通过当前观测和现有对象模型之间的相似性测量计算得到。与这些工作一致，在注视估计的上下文中，按照如下对似然性p(g_t|e_t)进行建模：

p(g_t|e_t)∝exp(-λd(e_t)). (12)

其中，λ是确定分布的“峰形”的参数，表示当前观测e_t和估计的眼部图像(对应于粒子位置)之间的距离测量。

在无需校准的上下文中，无法访问用来估计的眼睛图像的训练集合。从而，经由对眼睛中心的位置的检测，提出了用来估计p(g_t|e_t)的简单模型。该估计经过如上所述的两个步骤：i)对眼睛的中心的位置进行检测103；和ii)将眼睛的中心转换104到第一注视位置。

更为精确地，给定了观测e_t的似然性值p(g_t|e_t)与g_t和“观测注视位置”之间的距离指数式地成比例，所述“观测注视位置”是通过式3和4从眼睛中心位置导出的：

确定式13中的参数λ，以使得当时(其中D是一般设置于屏幕的对角线的最大可能误差)，p(g_t|e_t)≈ε(其中ε是非常小的正数，例如10^-2或10^-3)。

图5示出了根据本发明的具体且非限制性实施例的适于辅助用户控制注视位置估计的结果的图形用户界面(GUI)5。GUI 5包括用于显示正在观看视频图像(还称为激励图像)的观看者的面部的图像的第一部分51。可生成帧511，以图形示出观看者的面部的图像中对应于观看者的眼睛的部分。有利地，还可通过红点对眼睛的中心进行图形标识。这可使得能够检查对眼睛中心的检测运转良好。观看者正在观看的视频图像被显示在GUI 5的第二部分53中。有利地使用特定图形标识符531(例如红点)将第一注视位置示于视频图像53上。然后，用户可以与观看者检查图形标识符的位置是否实际对应于视频图像53的观看者正在观看的部分。自然地，用户和观看者可以是同一个人。GUI的第三部分52示出了对应于显示在GUI 5的第二部分53中的视频图像的显著性图。有利地经由例如蓝点在该第三部分52上对该最大显著性峰值进行图形标识。根据一种变形，还可在视频图像53上标识第二注视位置，例如可以使用与第三部分52上相同的图形标识符进行标识。根据另一变形，还经由例如黄点在视频图像53上示出了第三注视位置，其对应于第一注视位置和第二注视位置的融合。GUI 5还包括第四部分54，该第四部分54示出了针对每个配置(即检测右眼的中心、检测左眼的中心、估计第一注视位置、估计第二注视位置和估计第三注视位置)的表示均值误差随时间的演变(例如以度每毫米为单位)的曲线，针对每条曲线使用一种特定的颜色。

GUI 5使得用户(和/或其观看者)能够直接在屏幕上看到由系统执行的不同的检测和估计的结果，并且对结果的有效性进行视觉检查。

图6示意性地示出了根据本发明的具体且非限制性实施例的被配置用于确定正在观看屏幕上的视频图像的观看者的注视的设备6的硬件实施例。设备6还被配置用于创建一个或若干个图像(例如表示图形用户界面5的图像)的显示信号。设备6对应于例如个人计算机(PC)、膝上型计算机、平板计算机、智能电话、游戏控制台或多媒体终端。

设备6包括以下元件，这些元件通过地址和数据的总线65(还传输时钟信号)彼此相连：

-微处理器61(或CPU)；

-图形卡62，包括

● 若干图形处理器单元(或GPU)620

● 图形随机存取存储器(GRAM)621

-ROM(只读存储器)类型的非易失性存储器66；

-随机存取存储器或RAM 67

-一个或若干个I/O(输入/输出)设备64，比如键盘、鼠标、网络摄像头，以及

-电源68。

设备6还包括直接连接到图形卡62的显示屏类型的显示设备63，以用来(例如现场地)显示在图形卡中计算和组合的合成图像。使用专用总线来将显示设备63连接到图形卡62带来以下优势：具有大得多的数据传输比特率并从而减少对由图形卡组合的图像进行显示的时延。根据一种变形，显示设备位于设备6的外部，并且有线或无线地连接到设备6，以用于传送显示信号。设备6(例如图形卡62)包括用于传送或连接的接口(图6未示出)，其适于向外部显示装置(比如LCD或等离子屏幕或视频投影仪)传送显示信号。

注意的是，存储器621、66和67的描述中使用的词语“寄存器”在每个所提及的存储器中指定低容量存储区域(一些二进制数据)和大容量存储区域(能够存储整个程序或表示所计算的或将被显示的数据的全部或部分数据)。

当开启时，微处理器61加载并执行RAM 67中所包含的程序的指令。

随机存取存储器67显著地包括：

-在寄存器670中，负责开启设备6的微处理器61的操作程序；

-表示由相机获取的、或从另一设备有线或无线地接收的一个或若干个眼睛图像的数据671；

-表示映射函数的参数672，例如根据所观看的内容的人类注视分布的统计属性；

-表示图形用户界面的参数673。

实现本发明特定的以及下文所述的方法步骤的算法存储在与实现这些步骤的设备6相关联的图形卡62的存储器GRAM 621中。当开启时并且一旦表示眼睛图像的数据671和表示映射函数的参数672(以及根据可选变形，表示GUI的参数673)被加载到RAM 67中，则图形卡62的图形处理器620将这些参数加载到GRAM 621中并且例如以使用HLSL(高级着色器语言)语言或GLSL(OpenGL着色语言)的“着色器”类型微程序的形式执行这些算法的指令。

随机存取存储器GRAM 621显著地包括：

-在寄存器6211中，眼睛图像的数据；

-在寄存器6212中，表示眼睛中心的位置的参数(例如中心的坐标)；

-在寄存器6213中，表示映射函数的参数；

-在寄存器6214中，表示第一注视位置的参数(例如注视位置的坐标x、y)；根据一种变形，表示第二和第三注视位置的参数存储于寄存器6214中或其它寄存器中；

-在寄存器6215中，表示GUI的参数。

根据图6中未示出的一种变形，GRAM还在寄存器中包括表示与视频图像相关联的显著性图的数据以及表示最大显著性峰值的参数、表示第二注视位置的参数和表示第三注视位置的参数。

根据一种变形，眼睛图像的数据671和表示映射功能的参数672未被加载到GRAM 621中，并且被CPU 61处理。根据该变形，表示眼睛的中心的位置的参数和表示第一注视位置的参数(以及当计算时表示第二和第三注视位置的参数)存储在RAM 67中，而不是GRAM 621中。

根据另一变形，电源68在设备6的外部。

图7示出了根据本发明的非限制性有利实施例在设备6中实现的用于估计观看者的注视位置的方法。

在初始化步骤70期间，更新设备的不同参数。

然后，在步骤71期间，检测正在观看显示在屏幕上的视频内容的观看者的眼睛中心的位置。显示在屏幕上的视频内容可以是任何视频图像或视频图像的序列或包括文字和/或图像元素(比如网页、图像等)的任何内容。通过分析观看者的眼睛的一个或多个图像，检测眼睛的中心的位置，所述一个或多个图像是在观看者观看视频图像时使用例如网络摄像头获取的。眼睛的图像可以是观看者面部的图像，其中通过本领域技术人员已知的任何方法在所述图像中检测到眼睛。通过使用Hough变换(HT)方法或基于边缘(梯度)检测和/或机器学习算法的任何方法检测眼睛的中心的位置。

根据有利的变形，通过将眼睛图像(即观看者的图像中包括眼睛的部分)转换成热图来检测眼睛的中心的位置，一个热图与一个眼睛图像相关联。热图有利地对应于将RGB眼睛图像转换成YC_bC_r颜色空间中表示的像素图像。根据一种变形，热图对应于将RGB眼睛图像转换成YUV颜色空间中或RGB颜色空间中表示的像素图像。使用例如式1计算的值与热图的每个像素相关联。选择热图的具有大于第一阈值T1的关联值(例如等于0.98到1之间的任何值)的第一像素212，其坐标例如存储在RAM类型或GRAM类型的存储器中。然后选择属于第一像素附近的第二像素213，所选择的第二像素是具有大于第二阈值T2的关联值(例如等于包括在0.90到0.95之间的任何值)的第一像素的附近的像素，其坐标例如存储在RAM类型或GRAM类型的存储器中。然后，通过使用例如式3和4，将眼睛的中心的坐标确定为第一和第二像素的坐标的加权平均。基于颜色线索的这一变形的优势在于，方法简单且该变形所隐含的计算速度快，这使得能够实现例如实时实现。

根据另一变形，在确定用于计算眼睛中心的位置的第一和第二像素之前，使用Gaussian滤波或扩展Kalman滤波对从对眼睛图像的转换获得的热图进行滤波。这种滤波使得能够从热图消除一些噪声，所述热图通过滤波而平滑。对Gaussian滤波的使用具有使结果稳定(即，避免由于例如眼睑、眼镜、反射导致的错误检测)的优势。

然后，在步骤72期间，通过使用如上结合步骤71所述的眼睛的中心的检测到的位置以及通过使用基于人类注视分布的中心偏差属性的映射功能，确定观看者的注视的第一位置。对这一映射函数以及眼睛的中心的所检测到的位置的使用使得能够避免对用于确定注视位置的系统进行校准的需要，这种校准通常由用户在对注视位置进行任何确定之前执行(例如使用一系列测试图像)。

根据一种变形，通过使用第二注视位置来使对第一注视位置的确定更加精细，所述第二注视位置是当确定了注视的第一位置时通过使用从观看者正在观看的视频图像计算的显著性图确定的。然后，获得从第一注视位置和第二注视位置的组合/融合得到的注视的第三位置。第三注视位置是通过例如对第一和第二注视位置进行平均或通过对指派了不同权重的第一和第二注视位置进行平均而计算得到的。根据另一变形，使用显著性图的方差，以便对用于确定第一注视位置的等式的参数进行适配。第一注视位置和第二注视位置的“融合”这一表述可被解释为均值平均、加权平均或适配用于计算第一注视位置的参数。

根据一个变形，将粒子滤波实现为确定第一注视位置，粒子滤波使得能够在计算当前第一注视位置时考虑到(在时间角度上)之前确定的第一注视位置的结果。

根据另一变形，通过使用对第一注视位置的确定以及对第二注视位置的确定来实现粒子滤波方法。

根据又一变形，在确定观看者的注视的第一位置时，考虑观看者的头部移动。举例来讲，当当前眼睛中心位置与其均值之间的差别足够大时检测到头部移动，例如，当满足以下条件时

\sqrt{x_{c}^{2} + y_{c}^{2}} - \sqrt{{\overset{&OverBar;}{x}}_{c}^{2} + {\overset{&OverBar;}{y}}_{c}^{2}} > T

其中，T被设置为与用户和显示器之间的距离成比例，所述距离可通过所检测到的观看者的面部的大小隐含地导出。

当检测到头部移动时，眼睛中心位置(即均值()和标准差())被重新初始化为0。

针对每个新接收或获得的眼睛图像，有利地反复迭代步骤71和72。

自然地，本发明不限于之前所描述的实施例。

具体地，本发明不限于一种方法，而是还可扩展到实现该方法的任何设备，尤其是包括至少一个CPU和/或至少一个GPU的任何设备。对实现方法步骤所需的计算的实现不限于着色器类型的微程序中的实现，而是还扩展到采用任意程序类型的实现，比如可由CPU类型微处理器执行的程序。

本发明还涉及用于估计注视的似然性的方法(和设备)。本发明还涉及用于根据所确定的注视位置的结果来适配由观看者观看的视频图像的内容的方法或用于通过使用所确定的注视位置使用眼睛控制用户界面的方法。

这里描述的实现可被实现于例如方法或过程、装置、软件程序、数据流或信号中。即使只在单一形式的实现的上下文中进行了讨论(只作为方法或设备进行讨论)，对所讨论的特征的实现还可被实现为其它形式(例如程序)。装置可以例如合适的硬件、软件和固件实现。所述方法可被实现于诸如处理器的装置中，所述处理器一般地称为处理设备，包括例如计算机、微处理器、集成电路或可编程逻辑器件。处理器还包括通信设备，比如智能电话、平板计算机、计算机、移动电话、便携式/个人数字助理(PDA)以及便于端用户之间的信息通信的其它设备。

对这里所描述的多种过程和特征的实现可实施于多种不同的设备或应用中，具体例如与以下内容相关联的设备或应用：数据编码、数据解码、视图生成、纹理处理以及对图像和相关纹理信息和/或深度信息的其它处理。这种设备的示例可包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型计算机、个人计算机、蜂窝电话、PDA和其它通信设备。应该清楚的是，设备可以是移动的，甚至可以安装在移动车辆中。

此外，可通过由处理器执行的指令实现所述方法，而且这些指令(和/或通过实现产生的数据值)可存储在处理器可读介质上，比如集成电路、软件载体或其它存储设备，比如硬盘、压缩盘(CD)、光盘(比如DVD，其通常称为数字多功能盘或数字视频盘)、随机存取存储器(RAM)、或只读存储器(ROM)。指令可形成有形地实现在处理器可读介质上的应用程序。指令可位于例如硬件、固件、软件或其组合中。指令可存在于例如操作系统、分离应用或二者的组合中。因此，处理器可被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(比如存储设备)的设备两者。此外，处理器可读介质除了可以存储指令，还可以存储通过实现所产生的数据值。

对本领域技术人员来讲明显的是，实现可产生被格式化为承载可存储或发送的信息的多种信号。信息可包括例如用于执行方法的指令、或由所描述的实现之一产生的数据。例如，可对信号进行格式化，以将用于写入或读取所描述的实施例的语法的规则作为数据进行承载，或将由所描述的实施例写入的实际语法值作为数据进行承载。这种信号可被格式化为例如电磁波(例如使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码和使用所编码的数据流对载波进行调制。信号承载的信息可以是例如模拟或数字信息。已知地，可在多种不同的有线或无线链路上发送信号。可在处理器可读介质上存储所述信号。

已经描述了多种实现。然而，将理解的是，可以进行多种修改。例如，可组合、补充、修改或移除多种实现的元素，以产生其它的实现。此外，本领域技术人员将理解，可使用其它的结构和过程来代替所公开的结构和过程，并且与所公开的实现相比，所得到的实现将采用至少基本相同的方式，执行至少基本相同的功能，以实现至少基本相同的结果。从而，通过本申请可以想到这些和其它实现。

本发明可用于实时应用。参照图6描述的设备6有利地装备有交互装置，比如键盘、鼠标、游戏控制器或用于引入指令(语音识别也是可能的)的任何其它模式。

Claims

1.一种注视估计的方法，其特征在于，所述方法包括以下步骤：

-至少检测(103；71)至少眼睛的中心在正在观看显示在屏幕上的至少视频图像(101)的观看者的至少眼睛图像(102)上的位置；

-通过使用至少所检测到的至少眼睛的中心的位置和基于人类注视分布的中心偏离属性的映射函数(672)，确定(105；72)所述观看者的注视在所述屏幕上的至少第一位置。

2.根据权利要求1所述的方法，其中所述检测步骤包括以下步骤：

-将所述至少眼睛图像转换(104)成至少热图；

-确定所述至少热图的第一像素(212)，所述第一像素(212)具有大于第一预定阈值的关联值；

-确定位于所述第一像素附近的第二像素(213)，所述第二像素(213)具有大于第二预定阈值的关联值；

-将至少所述至少眼睛的中心的位置计算为对应于第一(212)和第二(213)确定像素的位置的加权平均。

3.根据权利要求2所述的方法，其中所述至少热图在颜色空间YC_bC_r中被表示为所述转换的输出。

4.根据权利要求2或3所述的方法，其中所述检测步骤还包括：对所述至少热图进行Gaussian滤波，所述第一和第二像素是在Gaussian滤波之后确定的。

5.根据权利要求1-4中的任一项所述的方法，其中所述方法还包括以下步骤：

-根据与所述至少视频图像(101)相关联的至少显著性图(106)，确定(107)观看者的注视在所述屏幕上的至少第二位置；

-确定观看者的注视在所述屏幕上的至少第三位置(109)，所述注视的所述至少第三位置(109)对应于所述注视的所述至少第一位置(105)和所述注视的所述至少第二位置(107)的融合。

6.根据权利要求1-5中的任一项所述的方法，其中通过使用粒子滤波方法(108)和在时间角度上之前确定的所述注视的至少另一第一位置，确定所述注视的所述至少第一位置。

7.根据权利要求5所述的方法，其中通过将粒子滤波方法(108)用于在时间角度上之前确定的所述注视的至少另一第一位置和所述注视的至少另一第二位置，确定所述注视的所述至少第三位置。

8.根据权利要求1-7中的任一项所述的方法，其中通过考虑所述观看者的头部的移动，确定所述观看者的注视的所述至少第一位置。

9.一种被配置用于确定观看者的注视的设备(6)，其特征在于，所述设备包括至少一个处理器(61；620)，所述至少一个处理器(61；620)被配置用于：

-检测至少眼睛的中心在正在观看显示在屏幕上的至少视频图像的观看者的至少眼睛图像上的位置，所述至少眼睛图像包括至少眼睛的表示；

10.根据权利要求9所述的设备，其中所述至少一个处理器(61；620)还被配置用于：

-将所述至少眼睛图像转换成至少热图；

11.根据权利要求9或10所述的设备，其中所述至少一个处理器(61；620)还被配置用于：使用Gaussian滤波器对所述至少热图进行滤波。

12.根据权利要求9-11中的任一项所述的设备，其中所述至少一个处理器(61；620)还被配置用于：

13.根据权利要求9-12中的任一项所述的设备，其中所述至少一个处理器(61；620)还被配置用于：执行粒子滤波方法。

14.根据权利要求9-13中的任一项所述的设备，其中所述至少一个处理器(61；620)还被配置用于：检测所述观看者的头部的移动。

15.一种计算机程序产品，其特征在于，包括程序代码的指令，所述指令用于：当所述程序在计算机上执行时，执行根据权利要求1-8之一所述的方法的步骤。