CN102279977A

CN102279977A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN102279977A
Application number: CN2011101379469A
Authority: CN
Inventors: 青山一美; 佐部浩太郎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-06-14
Filing date: 2011-05-26
Publication date: 2011-12-14
Also published as: JP2012003326A; US20110305384A1

Abstract

本发明提供一种信息处理设备、信息处理方法和程序。信息处理设备包括：第一产生单元，其对应于学习运动图像产生学习图像；第一合成单元，其产生合成学习图像，使得多个学习图像按预定位置布置并且被合成；学习单元，其计算所产生的所述合成学习图像的特征量，并且通过使用所述特征量执行统计学习以产生辨别器；第二产生单元，其产生判定图像；第二合成单元，其产生合成判定图像，使得多个判定图像按预定位置布置并且被合成；特征量计算单元，其计算所产生的所述合成判定图像的特征量；以及判定单元，其判定所述判定图像是否对应于预定运动。

Description

信息处理设备、信息处理方法和程序

技术领域

本发明涉及信息处理设备、信息处理方法和程序，更具体来讲，涉及被设计用于能够判定人(作为例如运动图像中的被摄体)的语音段的信息处理设备、信息处理方法和程序。

背景技术

在相关技术中，存在一种用于从静止图像中检测预先学习的预定物体的技术，例如，根据日本未经审查的专利申请公开No.2005-284348，可以从静止图像中检测人的面部。更具体来讲，在静止图像中，将多个两像素组合设置为物体(在这种情况下，人的面部)的特征量，并且计算每个组合中的两个像素的值(亮度值)之差，由此基于特征量判定是否存在已学习的物体。特征量是指PixDif特征量，在下文中也被称作像素差特征量。

另外，在相关技术中，存在一种用于辨别运动图像中被摄体的运动的技术，例如，根据日本未经审查的专利申请公开No.2009-223761，可以判定表明人(运动图像中的被摄体)正在说话的时间段的语音段。更具体来讲，计算运动图像中相邻两帧中的所有像素的值之差，并且基于计算结果检测语音段。

发明内容

日本未经审查的专利申请公开No.2005-284348中描述的像素差特征量可以用相对小的计算成本来计算特征量，在使用特征量检测物体的处理中可以获得相对高的精确度。然而，像素差特征量表明静止图像中的特征量，所以在例如辨别运动图像中人的语音段的情况下不能被用作时序特征量。

根据日本未经审查专利申请公开No.2009-223761中描述的发明，可以辨别运动图像中人的语音段。然而，本发明仅关注相邻两帧之间的关系，并且难以提高辨别的精确度。另外，由于将计算两帧中所有像素值之间的差，因此计算量相对大。因此，当图像中存在多个人并且将检测每个人的语音段时，难以执行实时处理。

本发明考虑了以上情况，希望以高精确度迅速辨别其中运动图像中的被摄体显示出运动的运动段。

根据本发明的实施例，提供了一种信息处理设备，其包括：第一产生装置，其用于分别对应于学习运动图像的各帧产生学习图像，在所述学习运动图像中，对进行预定运动的物体成像；第一合成装置，其用于对合成学习图像进行合成，使得顺序产生的学习图像中的一个被设置成用作基准，包括用作所述基准的所述学习图像的对应于预定帧数的多个学习图像按预定位置布置并且被合成；学习装置，其用于计算所产生的所述合成学习图像的特征量，并且通过使用作为计算结果得到的所述特征量执行统计学习以产生辨别器，所述辨别器辨别用作输入合成辨别图像的基准的判定图像是否对应于所述预定运动；第二产生装置，其用于产生分别对应于判定运动图像的各帧的判定图像，判定所述判定图像是否对应于所述预定运动；第二合成装置，其用于产生合成判定图像，使得顺序产生的所述判定图像中的一个被设置成用作基准，并且包括用作所述基准的所述判定图像的对应于预定帧数的多个判定图像按预定位置布置并且被合成；特征量计算装置，其用于计算所产生的所述合成判定图像的特征量；以及判定装置，其用于基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的所述基准的所述判定图像是否对应于所述预定运动。

图像的特征量可以是像素差特征量。

根据本发明的实施例，所述信息处理设备还包括：归一化装置，其用于归一化作为通过计算出的所述特征量输入到所述辨别器得到辨别结果的评分，并且所述判定装置可以基于归一化的所述评分判定用作所述合成判定图像的所述基准的所述判定图像是否对应于所述预定运动。

所述预定运动可以是作为物体的人的语音，并且所述判定装置可以基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的所述基准的所述判定图像是否对应于语音段。

所述第一产生装置可以从其中说话的人被作为物体成像的所述学习运动图像的各帧中检测人的面部区域，从检测到的所述面部区域中检测唇部区域，并且基于检测到的所述唇部区域产生唇部图像作为所述学习图像，并且所述第二产生装置可以从所述判定运动图像的各帧中检测人的所述面部区域，从检测到的所述面部区域中检测所述唇部区域，并且基于检测到的所述唇部区域产生唇部图像作为所述判定图像。

当从所述判定运动图像中待处理的帧中没有检测到所述面部图像时，所述第二产生装置可以基于之前帧中检测到的面部图像的位置信息产生所述唇部图像作为所述判定图像。

所述预定运动可以是作为物体的人的语音，并且所述判定装置可以基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定对应于用作所述合成判定图像的所述基准的所述判定图像的语音内容。

根据本发明的实施例，提供了一种由辨识输入运动图像的信息处理设备执行的信息处理方法，其包括如下步骤：首先分别对应于学习图像的各帧产生学习图像，在所述学习图像中，对进行预定运动的物体成像；首先进行合成，以产生合成学习图像，使得顺序产生的学习图像中的一个被设置成用作基准，包括用作所述基准的所述学习图像的对应于预定帧数的多个学习图像按预定位置布置并且被合成；学习计算所产生的合成学习图像的特征量，并且使用作为计算结果得到的所述特征量来执行统计学习以产生辨别器，所述辨别器辨别用作输入的合成判定图像的基准的判定图像是否对应于所述预定运动；再分别对应于判定运动图像的各帧产生判定图像，判定所述判定图像是否对应于所述预定运动；再进行合成，以产生合成判定图像，使得顺序产生的所述判定图像中的一个被设置成用作基准，并且包括用作所述基准的所述判定图像的对应于预定帧数的多个判定图像按预定位置布置并且被合成；计算所产生的所述合成判定图像的特征量；以及基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的所述基准的所述判定图像是否对应于所述预定运动。

根据本发明的又一个实施例，提供了一种使计算机用作如下部分的程序：第一产生装置，其用于分别对应于学习运动图像的各帧产生学习图像，在所述学习运动图像中，对进行预定运动的物体成像；第一合成装置，其用于产生合成学习图像，使得顺序产生的学习图像中的一个被设置成用作基准，包括用作所述基准的所述学习图像的对应于预定帧数的多个学习图像按预定位置布置并且被合成；学习装置，其用于计算所产生的所述合成学习图像的特征量，并且通过使用作为计算结果得到的所述特征量执行统计学习以产生辨别器，所述辨别器辨别用作输入合成辨别图像的基准的判定图像是否对应于所述预定运动；第二产生装置，其用于产生分别对应于判定运动图像的各帧的判定图像，判定所述判定图像是否对应于所述预定运动；第二合成装置，其用于产生合成判定图像，使得顺序产生的所述判定图像中的一个被设置成用作基准，并且包括用作所述基准的所述判定图像的对应于预定帧数的多个判定图像按预定位置布置并且被合成；特征量计算装置，其用于计算所产生的所述合成判定图像的特征量；以及判定装置，其用于基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的所述基准的所述判定图像是否对应于所述预定运动。

根据本发明的实施例，产生了分别对应于学习运动图像的各帧的学习图像，在所述学习图像中物体进行运动运动，产生了合成学习图像，使得顺序产生的学习图像中的一个被设置成用作基准，包括用作所述基准的所述学习图像的对应于预定帧数的多个学习图像按预定位置布置并且被合成；通过计算所产生的合成学习图像的特征量并且使用作为计算结果得到的特征量执行统计学习，产生了辨别器，所述辨别器辨别用作输入合成辨别图像的基准的判定图像是否对应于所述预定运动。此外，产生了分别对应于判定运动图像的各帧的判定图像，判定所述判定图像是否对应于所述预定运动，产生了合成判定图像，使得顺序产生的所述判定图像中的一个被设置成用作基准，并且包括用作所述基准的所述判定图像的对应于预定帧数的多个判定图像按预定位置布置并且被合成，计算所产生的所述合成判定图像的特征量，并且基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的所述基准的所述判定图像是否对应于所述预定运动。

根据本发明的实施例，有可能迅速以高精度辨别其中运动图像中的物体显示出运动的运动段。

附图说明

图1是示出应用了本发明实施例的学习装置(learning device)的构造实例的框图；

图2A至图2C是示出面部图像、唇部区域和唇部图像的实例的示意图；

图3A和图3B是示出唇部图像和按时序合成图像的示意图；

图4是示出语音段辨别器学习处理的流程图；

图5是应用了本发明实施例的语音段判定装置的构造实例的框图；

图6是用于示出语音评分归一化的曲线图；

图7是用于示出语音评分归一化的曲线图；

图8是用于示出归一化评分的插值的示意图；

图9是示出语音段判定处理的流程图；

图10是示出追踪处理的流程图；

图11是示出基于2N+1的判定性能之差的曲线图，2N+1是作为按时序合成图像的基础的面部图像帧数；

图12是示出语音段中使用的语音段判定装置的判定性能的曲线图；

图13是示出在语音识别的应用中的性能的曲线图；以及

图14是示出计算机构造实例的框图。

具体实施方式

下文中，将参照附图详细描述本发明的示例性实施例(下文中，被称作“实施例”)。

<1.实施例>

图1是示出作为本发明实施例的学习装置的构造实例的框图。学习装置10用于学习随后将描述的语音段判定装置30中使用的语音段辨别器20。此外，学习装置10可以与语音段判定装置30一体地组合。

学习装置10由视频-音频分离单元11、面部区域检测单元12、唇部区域检测单元13、唇部图像产生单元14、语音段检测单元15、语音段标记分配单元16、按时序合成图像产生单元17和学习单元18。

用于学习的具有语音的运动图像(下文中，被称作学习运动图像)输入到视频-音频分离单元11，该运动图像是通过拍摄作为被摄体的人正在说话或者相反地不说话的状态而得到的，并且视频-音频分离单元11将图像分成学习视频信号和学习音频信号。分离的学习视频信号被输入到面部区域检测单元12，并且分离的学习音频信号被输入到语音段检测单元15。

此外，可以通过为了学习而进行视频拍摄来准备学习运动图像，例如，可以使用诸如电视节目的内容。

面部区域检测单元12从如图2A中所示的学习运动图像中分离的各帧视频信号中检测并提取包含人面部的面部区域，并且将所提取的面部区域输出到唇部区域检测单元13。

唇部区域检测单元13从如图2B中所示的由面部区域检测单元12输入的各帧面部区域中检测并提取包含唇部的嘴角端点的唇部区域，并且将所提取的唇部区域输出到唇部图像产生单元14。

此外，面部和唇部区域的检测方法可以与任何现有方法(例如，日本未经审查的专利申请公开No.2005-284487等中公开的方法)一起应用。

唇部图像产生单元14对唇部区域检测单元13输入的各帧的唇部区域适当执行旋转校正，使得连接唇部的嘴角端点的线是水平的，如图2C中所示。此外，唇部图像产生单元14通过放大或缩小已经历旋转校正从而具有预定尺寸(例如，32×32像素)的唇部区域并且将这部分转换成单色调来产生其像素具有亮度值的唇部图像，并且将图像输出到语音段标记分配单元16。

语音段检测单元15将从学习运动图像分离的学习视频信号的语音级别与预定阈值相比较，以辨别语音是对应于学习运动图像中作为被摄体的人正在说话的语音段，还是对应于人没有说话的非语音段，并且将辨别结果输出到语音段标记分配单元16。

语音段标记分配单元16基于语音段检测单元15的辨别结果，向各帧的唇部图像分配表明唇部图像是语音段还是非语音段的语音段标记。然后，根据该结果得到的带标记学习唇部图像被顺序输出到按时序合成图像产生单元17。

按时序合成图像产生单元17包括用于存储带标记唇部学习图像的数帧的存储器内部，顺序关注对应于顺序输入的学习视频信号的各帧的带标记各唇部学习图像。此外，按时序合成图像产生单元17通过将总共2N+1个带标记学习唇部图像布置到预定位置来产生一个合成图像，该2N+1个带标记学习唇部图像由分别设置在以所关注的带标记学习唇部图像t为基准的前部和后部上的N帧组成。由于所产生的一个合成图像由2N+1帧的带标记唇部图像(换言之，按时序排列的带标记学习唇部图像)组成，因此在下文中所合成的图像将被称作按时序合成图像。此外，N是等于或大于0的整数，但是优选的值为大约2(以下将提供对其的详细描述)。

图3B示出由五个带标记学习唇部图像t+2、t+1、t、t-1和t-2组成的按时序合成图像，对应于N＝2的情况。在产生按时序合成图像的处理中的五个带标记学习唇部图像的布置不限于图3B中所示的布置，而是可以任意地设置。

下文中，在按时序合成图像产生单元17产生的按时序合成图像之中，当用作基础的所有2N+1个带标记学习唇部图像都对应于语音段时，按时序合成图像被称作正数据，而当用作基础的所有2N+1个带标记学习唇部图像都对应于非语音段时，按时序合成图像被称作负数据。

按时序合成图像产生单元17被设计用于向学习单元18提供正数据和负数据。换言之，与正数据或负数据都不相关的按时序合成图像(包括对应于语音段和非语音段之间的边界的带标记唇部图像的合成图像)不用于学习。

学习单元18将按时序合成图像产生单元17提供的带标记按时序合成图像(正数据和负数据)作为基础来计算其像素差特征量。

在此，将参照图3A和图3B描述计算学习单元18中的按时序合成图像的像素差特征量的处理。

图3A示出对作为现有特征量的像素差特征量的计算，并且图3B示出对学习单元18中的按时序合成图像的像素差特征量的计算。通过计算像素上的两个像素值(亮度值)I1和I2之差(I1-I2)来得到像素差特征量。

换言之，在图3A和图3B所示的计算处理中，在静止图像中设置多个两像素组合，并且计算每个组合中的两个像素值(亮度值)I1和I2之差(I1-I2)，因此在两幅附图中的计算方法并没有差别。因此，当将计算按时序合成图像的像素差特征量时，有可能按原样使用现有的程序进行计算等。

此外，如图3B中所示，由于根据作为静止图像的按时序合成图像和按时序的图像信息计算学习单元18中的像素差特征量，因此示出所得到的按时序的像素差特征量的特性。

语音段辨别器20由多个二进制弱辨别器h(x)组成。这多个二进制弱辨别器h(x)分别对应于按时序合成图像上的两像素组合，并且在各二进制弱辨别器h(x)中，根据各组合的像素差特征量(I1-I2)与阈值Th的比较结果来执行辨别，使得肯定(+1)表明语音段或者否定(-1)表明非语音段，如下式(1)中所示。

如果I1-I2≤Th，则h(x)＝-1

如果I1-I2＞Th，则h(x)＝+1...(1)

此外，学习单元18通过以下步骤产生语音段辨别器20：将多个两像素组合及其阈值Th作为各二进制弱辨别器的参数，并且通过放大学习从这些参数中选出最佳参数。

[学习装置10的操作]

接着，将描述学习装置10的操作。图4是示出由学习装置10进行的语音段辨别器学习处理的流程图。

在步骤S1中，学习运动图像被输入到视频-音频分离单元11。在步骤S2中，视频-音频分离单元11将输入的学习运动图像分成学习视频信号和学习音频信号，并且将学习视频信号输入到面部区域检测单元12并将学习音频信号输入到语音段检测单元15。

在步骤S3中，语音段检测单元15通过将学习音频信号的语音级别与预定的阈值相比较来辨别学习运动图像中的声音是对应于语音段还是非语音段，并且将辨别结果输出到语音段标记分配单元16。

在步骤S4中，面部区域检测单元12从各帧学习视频信号中提取面部区域，并且将数据输出到唇部区域检测单元13。唇部区域检测单元13从各帧的面部区域中提取唇部区域，并且将数据输出到唇部图像产生单元14。唇部图像产生单元14基于各帧的唇部区域产生唇部图像，并且将图像输出到语音段标记分配单元16。

此外，实际上并行地执行步骤S3的处理和步骤S4的处理。

在步骤S5中，语音段标记分配单元16通过基于语音段检测单元15的辨别结果将语音段标记分配到对应于各帧的唇部图像来产生带标记唇部学习图像，并且将带标记唇部学习图像顺序输出到按时序合成图像产生单元17。

在步骤S6中，按时序合成图像产生单元17顺序关注对应于各帧的带标记学习唇部图像，产生以所关注的带标记学习唇部图像t为基准的按时序合成图像，并且将按时序合成图像中的正数据和负数据提供到学习单元18。

在步骤S7中，学习单元18计算从按时序合成图像产生单元17输入的正数据和负数据的像素差特征量。此外，在步骤S8中，学习单元18通过以下步骤学习(产生)语音段辨别器20：将像素差特征量计算处理中的多个两像素组合及其阈值作为各二进制弱辨别器的参数，并且通过放大学习从这些参数中选出最佳参数。然后，语音段辨别器学习处理结束。在此产生的语音段辨别器20用于随后将描述的语音段判定装置30。

[语音段判定装置的构造实例]

图5示出作为本发明实施例的语音段判定装置的构造实例。语音段判定装置30使用学习装置10所学习的语音段辨别器20，并且判定待处理运动图像(下文中，被称作判定对象运动图像)中被摄体的人的语音段。此外，语音段判定装置30可以与学习装置10一体地组合。

语音段判定装置30由面部区域检测单元31、追踪单元32、唇部区域检测单元33、唇部图像产生单元34、按时序合成图像产生单元35、特征量计算单元36、归一化单元37和语音段判定单元38以及语音段辨别器20组成。

面部区域检测单元31采用与图1中的面部区域检测单元12相同的方式从各帧判定对象运动图像中检测包括人面部的面部区域，并且告知追踪单元32其坐标信息。当在一帧判定对象运动图像中存在多个人面部区域时，检测各区域。另外，面部区域检测单元31提取检测到的面部区域，并且将数据输出到唇部区域检测单元33。此外，当追踪单元32告知将被提取作为面部区域的位置的信息时，面部区域检测单元31基于该信息提取面部区域并且将数据输出到唇部图像产生单元34。

追踪单元32管理追踪ID列表，将追踪ID分配到面部区域检测单元31检测到的各面部区域，并且通过使数据对应于位置信息而将数据记录在追踪ID列表中或者更新列表。另外，当面部区域检测单元31没有从各帧判定对象运动图像中检测到人面部区域时，追踪单元32告知面部区域检测单元31、唇部区域检测单元33和唇部图像产生单元34假定为面部区域、唇部区域和唇部图像的位置信息。

采用与图1中的唇部区域检测单元13相同的方式，唇部区域检测单元33从面部区域检测单元31输入的各帧的面部区域中检测并提取包括唇部的嘴角端点的唇部区域，并且将所提取的唇部区域输出到唇部区域产生单元34。此外，当追踪单元32告知将被提取作为唇部区域的位置信息时，唇部区域检测单元33根据该信息提取唇部区域，并且将数据输出到唇部图像产生单元34。

采用与图1中的唇部图像产生单元14相同的方式，唇部图像产生单元34对从唇部区域检测单元33输入的各帧的唇部区域适当地执行旋转校正，使得连接唇部的嘴角端点的线是水平的。此外，通过放大或缩小已经历旋转校正从而具有预定尺寸(例如，32×32像素)的唇部区域并且将这部分转换成单色调来产生其像素具有亮度值的唇部图像并且将图像输出到按时序合成图像产生单元35。此外，当追踪单元32告知将被提取作为唇部图像的位置的信息时，唇部图像产生单元34根据该信息产生唇部图像并且将数据输出到按时序合成图像产生单元35。此外，当从一帧判定对象运动图像中检测到多个人面部区域时，换言之，当检测到被分配有不同追踪ID的面部区域时，产生与各追踪ID对应的唇部图像。下文中，从唇部图像产生单元34输出到按时序合成图像产生单元35的唇部图像被称作判定对象唇部图像。

采用与图1中的按时序合成图像产生单元17相同的方式，按时序合成图像产生单元35包括用于存储判定对象唇部图像的数帧的存储器内部，针对每个追踪ID顺序关注各帧的判定对象唇部图像。此外，按时序合成图像产生单元35通过将总共2N+1个判定对象唇部图像合成来产生按时序合成图像，该2N+1个判定对象唇部图像由分别设置在以所关注的判定对象唇部图像t为基准的前部和后部上的N帧组成。在此，假定N的值和各判定对象唇部图像的布置与图1中的按时序合成图像产生单元17所产生的按时序合成图像相同。此外，按时序合成图像产生单元35将对应于各追踪ID顺序产生的按时序合成图像输出到特征量计算单元36。

特征量计算单元36计算按时序合成图像产生单元35提供并且对应于各追踪ID的按时序合成图像的像素差特征量，并且将计算结果输出到语音段辨别器20。此外，在像素差特征量计算处理中的两像素组合可以仅分别对应于组成语音段辨别器20的多个二进制弱辨别器。换言之，基于各按时序合成图像，特征量计算单元36计算数量与组成语音段辨别器20的二进制弱辨别器的数量相同的像素差特征量。

语音段辨别器20将特征量计算单元36输入的对应于各追踪ID的按时序合成图像的像素差特征量输出到对应的二进制弱辨别器，并且得到判定结果(肯定(+1)或否定(-1))。此外，语音段辨别器20根据结果的可靠性将各二进制辨别器的辨别结果乘以加权系数，对其执行加权加法，然后计算语音评分，并且将结果输出到归一化单元37，所述语音评分表明变成按时序合成图像的基准的判定对象唇部图像是对应于语音段还是非语音段。

归一化单元37将语音段辨别器20输入的语音评分归一化为等于或高于0并且等于或低于1的值，并且将结果输出到语音段判定单元38。

此外，通过提供归一化单元37，可以抑制以下的非便利性。换言之，当基于学习语音段辨别器20时使用的学习运动图像将语音段辨别器20输出的语音评分加上正数据或负数据而对语音评分进行改变时，对于同一判定对象运动图像，语音评分具有不同值。因此，由于语音评分的最大值和最小值发生改变，因此在随后部分中，不方便的是，将在语音段判定单元38中与语音评分相比较的阈值必须相应改变。

然而，由于通过提供归一化单元37将输入到语音段判定单元38的语音评分的最大值固定为1并且将其最小值固定为0，因此还可以固定与语音评分相比较的阈值。

在此，将参照图6至图8详细描述归一化单元37对语音评分进行的归一化处理。

首先，准备与语音段辨别器20的学习中使用的正数据片断和负数据片断不同的多个正数据片断和负数据片断。然后，数据片断被输入到语音段辨别器20以获取语音评分，并且产生对应于正数据片断和负数据片断中的每个的语音评分的频率分布，如图6中所示。在图6中，水平轴表示语音评分，垂直轴表示频率，虚线对应于正数据，并且实线对应于负数据。

接着，在水平轴的语音评分上以预定间隔设置取样点，并且针对各取样点，根据下式(2)，将对应于正数据的频率除以对应于正数据的频率与对应于负数据的频率之和来计算归一化语音评分(下文中，也被称作归一化评分)。

归一化评分＝对应于正数据的频率/(对应于正数据的频率+对应于负数据的频率)...(2)

因此，可以得到语音评分取样点的归一化评分。图7示出语音评分与归一化评分之间的对应关系。此外，在附图中，水平轴表示语音评分，并且垂直轴表示归一化评分。

归一化单元37保持语音评分与归一化评分之间的对应关系，如图7中所示，并且根据数据输入的语音评分被转换成归一化评分。

此外，语音评分与归一化评分之间的对应关系可以被保持为表或函数。当保持为表时，例如，如图8中所示，仅针对语音评分的取样点保持对应于取样点的归一化评分。另外，通过针对对应于语音评分取样点的归一化评分执行线性插值，得到归一化评分，该归一化评分对应于语音评分的取样点之间的值并且没有得以保持。

返回到图5，语音段判定单元38通过将归一化单元37输入的归一化评分与预定阈值相比较来判定对应于归一化评分的判定对象唇部图像是对应于语音段还是非语音段。此外，判定结果可以被按一帧为单元输出，但是按一帧为单元的判定结果可以被保持为多达数帧并且被求平均，并且判定结果可以按数帧为单元输出。

[语音段判定装置30的操作]

接着，将描述语音段判定装置30的操作。图9是示出语音段判定装置30进行的语音段判定处理的流程图。

在步骤S11中，判定对象运动图像被输入到面部区域检测单元31。在步骤S12中，面部区域检测单元31从判定对象运动图像的各帧中检测包括人面部的面部区域，并且告知追踪单元32其坐标信息。此外，当在一帧判定对象运动图像中存在多个人的面部区域时，检测各区域。

在步骤S13中，追踪单元32针对面部区域检测单元31检测到的各面部区域执行追踪处理。将详细描述所述追踪处理。

图10是详细示出步骤13的追踪处理的流程图。在步骤S21中，追踪单元32指定前一步骤S12的处理中面部区域检测单元31检测到的一个面部区域作为处理对象。然而，当在前一步骤S12的处理中没有检测到任何面部区域时并且没有面部区域被指定为处理对象时，跳过步骤S21至S25，并且处理前进至步骤S26。

在步骤S22中，判定是否有追踪ID已经被分配到作为追踪单元32的处理对象的面部区域。更具体来讲，当之前帧中检测到面部区域的位置和作为处理对象的面部区域的位置之间的差在预定范围内时，作为处理对象的面部区域被判定为已在之前帧内被检测到，并且已经被分配有追踪ID。相反，当之前帧中检测到面部区域的位置和作为处理对象的面部区域的位置之间的差超出预定范围时，作为处理对象的面部区域被判定为此时首次被检测到，并且没有被分配有追踪ID。

在步骤S22中，当判定追踪ID已分配到作为处理对象的面部区域时，处理前进至步骤S23。在步骤S23中，追踪单元32用作为处理对象的面部区域的位置信息来更新对应于所保持的追踪ID列表的追踪ID所记录的面部区域的位置信息。此后，处理前进至步骤S25。

相反，在步骤S22中，当判定追踪ID未分配到作为处理对象的面部区域时，处理前进至步骤S24。在步骤S24中，追踪单元32将追踪ID分配到作为处理对象的面部区域，使所分配的追踪ID对应于作为处理对象的面部区域的位置信息，并且将数据记录在追踪ID列表上。此后，处理前进至步骤S25。

在步骤S25中，追踪单元32验证没有被指定为处理对象的面部区域是否保持在前一步骤S12的处理中面部区域检测单元31检测到的所有面部区域之中。然后，当没有被指定为处理对象的面部区域保持时，处理返回到步骤S21并且重复此后的处理。相反，当没有被指定为处理对象的面部区域没有保持时，换言之，当前一步骤S12的处理中检测到的所有面部区域被指定为处理对象时，处理前进至步骤S26。

在步骤S26中，在追踪ID列表上记录的追踪ID之中，追踪单元32逐一指定前一步骤S12的处理中没有检测到的面部区域的追踪ID作为处理对象。此外，当在追踪ID列表上记录的追踪ID之中不存在前一步骤S12的处理中没有检测到的面部区域的追踪ID并且没有追踪ID将被指定为处理对象时，跳过步骤S26至S30，追踪处理结束并且返回到图9所示的语音段判定处理。

在步骤S27中，追踪单元32判定没有检测到对应于处理对象的追踪ID的面部区域的状态是否在预定数量的帧或更多帧(例如，对应于大约2秒的时间段的帧数)内继续。当判定所述状态没有在预定数的帧或更多帧内继续时，处理前进至步骤S28。在步骤S28中，使用在相邻帧中检测到的面部区域的位置信息(例如，使用之前帧中的面部区域的位置信息)对与处理对象的追踪ID对应的面部区域的位置进行插值处理，并且更新追踪ID列表。此后，处理前进至步骤S30。

另一方面，在步骤S27中，当判定没有检测到对应于处理对象的追踪ID的面部区域的状态在预定数量的帧或更多帧内继续时，处理前进至步骤S29。在步骤S29中，追踪单元32从追踪ID列表中删除处理对象的追踪ID。此后，处理前进至步骤S30。

在步骤S30中，追踪单元32验证在记录在追踪ID列表上的追踪ID之中没有被指定为处理对象并且在前一步骤S12的处理中没有检测到其面部区域的追踪ID是否保持。然后，当没有被指定为处理对象的追踪ID保持时，处理返回到步骤S26，并且重复此后的处理。相反，当没有被指定为处理对象的追踪ID没有保持时，追踪处理结束并且返回到图9所示的语音段判定处理。

在上述追踪处理结束之后，顺序关注追踪ID列表上的各追踪ID，并且以下将描述的步骤S14至S19的处理将对应于各追踪ID来执行。

在步骤S14中，面部区域检测单元31提取对应于所关注的追踪ID的面部区域，并且将数据输出到唇部区域检测单元33。唇部区域检测单元33从面部区域检测单元31输入的面部区域中提取唇部区域，并且将数据输出到唇部图像产生单元34。唇部图像产生单元34基于唇部区域检测单元33输入的唇部区域产生判定对象唇部图像，并且将数据输出到按时序合成图像产生单元35。

在步骤S15中，按时序合成图像产生单元35基于包括对应于所关注追踪ID的判定对象唇部图像的总共2N+1个判定对象唇部图像来产生按时序合成图像，并且将数据输出到特征量计算单元36。

此外，此处输出的按时序合成图像从作为处理对象的帧直至步骤S14延迟了N帧。

在步骤S16中，特征量计算单元36计算按时序合成图像产生单元35提供的按时序合成图像的像素差特征量并且对应于所关注的追踪ID，并且将计算结果输出到语音段辨别器20。

在步骤S17中，语音段辨别器20基于从特征量计算单元36输入的像素差特征量计算语音评分并且对应于所关注的追踪ID的按时序合成图像，并且将结果输出到归一化单元37。在步骤S18中，归一化单元37将语音段辨别器20输入的语音评分归一化，并且将由结果得到的归一化评分输出到语音段判定单元38。

在步骤S19中，通过将归一化单元37输入的归一化评分与预订阈值相比较，语音段判定单元38判定对应于所关注追踪ID的面部区域是对应于语音段还是对应于非语音段。此外，如上所述，由于通过对应于追踪ID列表上的各追踪ID执行步骤S14至S19的处理，因此从语音段判定单元38得到对应于追踪ID列表上的各追踪ID的判定结果。

此后，处理返回到步骤S12，并且在判定对象运动图像的输入结束之前继续此后的处理。如以上内容，对语音段判定处理的描述结束。

[关于2N+1，作为按时序同步图像的基础的面部图像帧数]

图11是示出基于2N+1(作为按时序合成图像的基础的面部图像帧数)判定性能之差的曲线图。附图示出作为按时序合成图像的基础的面部图像帧数为0(N＝0)、2(N＝1)和5(N＝2)时的判定精确度。

如图11中所示，当作为按时序合成图像的基础的面部图像帧数增大时，判定性能提高。然而，如果帧数高，则噪声可能容易包括在按时序的像素差特征量中。因此，可以说，N的最佳值为大约2。

[关于语音段判定装置30的判定性能]

图12示出当判定对象运动图像(等价于200个语音动作)中的语音段由语音段判定装置30判定时的判定处理中的肯定或否定与上述日本未经审查专利申请公开No.2009-223761的发明的比较结果。在附图中，所推荐的方法对应于语音段判定装置30，并且相关技术的方法对应于日本未经审查专利申请公开No.2009-223761的发明。如附图中所示，已发现，语音段判定装置30得到比日本未经审查专利申请公开No.2009-223761的发明更准确的判定结果。

[关于语音段判定装置30的判定时间]

图13示出比较语音段判定装置30与上述日本未经审查专利申请公开No.2009-223761的发明在同一帧内存在六个人的面部区域时得到判定结果所必需的时间的结果。在附图中，所推荐的方法对应于语音段判定装置30并且相关技术的方法对应于日本未经审查专利申请公开No.2009-223761的发明。如附图中所示，应当理解的是，与日本未经审查专利申请公开No.2009-223761的发明相比，语音段判定装置30可以在压倒性的短时间段内得到判定结果。

顺带地，采用与实施例相同的方法，有可能通过学习产生辨别器，其用于辨别例如作为被摄体的人是否步行、跑动等以及在拍摄的背景中是否下雨等、在屏幕上是否有任何运动连续。

[应用按时序合成图像的像素差特征量]

此外，为了学习用于识别语音内容的语音识别辨别器，可以应用按时序合成图像的像素差特征量。更具体来讲，表明语音内容的标记被分配到按时序合成图像作为学习样品数据，并且使用像素差特征量学习语音识别辨别器。通过使用学习处理中按时序合成图像的像素差特征量，有可能提高语音识别辨别器的识别性能。

顺带地，可以通过硬件和通过软件执行上述一系列处理。当通过软件执行一系列处理时，组成软件的程序从程序记录介质安装到包括专用硬件的计算机或者例如可以通过安装各种程序执行各种功能的通用个人计算机等中。

图14是示出通过程序执行上述一系列处理的计算机的硬件构造实例的框图。

在计算机200中，CPU(中央处理单元)201、ROM(只读存储器)202和RAM(随机存取存储器)203通过总线204相互连接。

总线204还连接到输入/输出接口205。输入/输出接口205连接到：输入单元206，其包括键盘、鼠标、麦克风等；输出单元207，其包括显示器、扬声器等；存储单元208，其包括硬盘、非易失性存储器等；通信单元209，其包括网络接口等；以及驱动器210，其驱动包括磁盘、光盘、磁光盘、半导体存储器等的可移动介质211。

如上组成的计算机执行上述一系列处理，使得CPU 201通过输入/输出接口205和总线204将存储单元208中存储的程序加载到RAM 203中以供执行。

计算机(CPU 201)所执行的程序被记录在可移动介质211中，可移动介质21由例如磁盘(包括软盘)、光盘(CD-ROM(光盘只读存储器)、DVD(数字通用盘)等)、磁光盘、半导体存储器等组成，或者所述程序通过诸如局域网、因特网、数字卫星广播之类的有线或无线传输介质提供。

另外，通过将可移动介质211加载到驱动器210上，可以借助输入/输出接口205将程序安装在存储单元208中。此外，程序可以借助有线或无线传输介质被接收在通信单元209中并且被安装在存储单元208中。除此之外，程序可以预先安装在ROM 202和存储单元208中。

此外，计算机执行的程序可以是按照在本说明书中描述的次序按时序执行处理的程序，或者可以是并行地或者在必要时间(例如，当其被调用时)执行处理的程序。

除此之外，程序可以由一个计算机处理，或者可以按分布方式由多个计算机处理。此外，程序可以通过被传输到远程计算机来执行。

本专利申请包含与2010年7月14日在日本专利局提交的日本优先权专利申请JP 2010-135307所公开的主题相关的主题，该专利申请的全部内容以引用方式并入本文。

本领域的技术人员应该理解，根据设计要求和其它因素，可以出现各种修改、组合、子组合和替换，只要它们在所附权利要求书或其等同物的范围内。

Claims

1.一种信息处理设备，包括：

第一产生装置，其用于根据学习运动图像的各帧产生分别对应于所述学习运动图像的各帧的学习图像，在所述学习运动图像中对进行预定运动的被摄体进行成像；

第一合成装置，其用于通过将顺序产生的学习图像中的一个设置成用作基准，以及将包括用作所述基准的所述学习图像的对应于预定帧数的多个学习图像按预定位置布置并且进行合成，来产生合成学习图像；

学习装置，其用于计算所产生的所述合成学习图像的特征量，并且通过使用作为计算结果得到的所述特征量执行统计学习以产生辨别器，所述辨别器辨别用作输入的合成判定图像的基准的判定图像是否对应于所述预定运动；

第二产生装置，其用于根据判定运动图像的各帧产生分别对应于所述判定运动图像的各帧的判定图像，所述判定运动图像为是否对应于所述预定运动的判定对象；

第二合成装置，其用于通过将顺序产生的所述判定图像中的一个设置成用作基准，以及将包括用作所述基准的所述判定图像的对应于预定帧数的多个判定图像按预定位置布置并且进行合成，来产生合成判定图像；

特征量计算装置，其用于计算所产生的所述合成判定图像的特征量；以及

判定装置，其用于基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的基准的所述判定图像是否对应于所述预定运动。

2.根据权利要求1所述的信息处理设备，其中图像的特征量是像素差特征量。

3.根据权利要求2所述的信息处理设备，还包括：

归一化装置，其用于归一化作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，

其中所述判定装置基于归一化的评分判定用作所述合成判定图像的基准的所述判定图像是否对应于所述预定运动。

4.根据权利要求2所述的信息处理设备，

其中所述预定运动是作为被摄体的人的语音，以及

其中所述判定装置基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的基准的所述判定图像是否对应于语音段。

5.根据权利要求4所述的信息处理设备，

其中所述第一产生装置从说话的人被作为被摄体成像的所述学习运动图像的各帧中检测人的面部区域，从检测到的所述面部区域中检测唇部区域，并且基于检测到的所述唇部区域产生唇部图像作为所述学习图像，以及

其中所述第二产生装置从所述判定运动图像的各帧中检测人的面部区域，从检测到的所述面部区域中检测唇部区域，并且基于检测到的所述唇部区域产生唇部图像作为所述判定图像。

6.根据权利要求5所述的信息处理设备，其中当从所述判定运动图像中待处理的帧中没有检测到所述面部图像时，所述第二产生装置基于之前帧中检测到的面部图像的位置信息产生所述唇部图像作为所述判定图像。

7.根据权利要求2所述的信息处理设备，

其中所述预定运动是作为被摄体的人的语音，以及

其中所述判定装置基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定对应于用作所述合成判定图像的基准的所述判定图像的语音内容。

8.一种由辨识输入运动图像的信息处理设备执行的信息处理方法，包括如下步骤：

第一产生步骤，其用于根据学习运动图像的各帧产生分别对应于所述学习运动图像的各帧的学习图像，在所述学习运动图像中对进行预定运动的被摄体进行成像；

第一合成步骤，其用于通过将顺序产生的学习图像中的一个设置成用作基准，以及将包括用作所述基准的所述学习图像的对应于预定帧数的多个学习图像按预定位置布置并且进行合成，来产生合成学习图像；

学习步骤，其用于计算所产生的所述合成学习图像的特征量，并且通过使用作为计算结果得到的所述特征量执行统计学习以产生辨别器，所述辨别器辨别用作输入的合成判定图像的基准的判定图像是否对应于所述预定运动；

第二产生步骤，其用于根据判定运动图像的各帧产生分别对应于所述判定运动图像的各帧的判定图像，所述判定运动图像为是否对应于所述预定运动的判定对象；

第二合成步骤，其用于通过将顺序产生的所述判定图像中的一个设置成用作基准，以及将包括用作所述基准的所述判定图像的对应于预定帧数的多个判定图像按预定位置布置并且进行合成，来产生合成判定图像；

特征量计算步骤，其用于计算所产生的所述合成判定图像的特征量；以及

判定步骤，其用于基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的基准的所述判定图像是否对应于所述预定运动。

9.一种使计算机用作如下装置的程序：

10.一种信息处理设备，包括：

第一产生单元，其用于根据学习运动图像的各帧产生分别对应于所述学习运动图像的各帧的学习图像，在所述学习运动图像中对进行预定运动的被摄体进行成像；

第一合成单元，其用于通过将顺序产生的学习图像中的一个设置成用作基准，以及将包括用作所述基准的所述学习图像的对应于预定帧数的多个学习图像按预定位置布置并且进行合成，来产生合成学习图像；

学习单元，其用于计算所产生的所述合成学习图像的特征量，并且通过使用作为计算结果得到的所述特征量执行统计学习以产生辨别器，所述辨别器辨别用作输入的合成判定图像的基准的判定图像是否对应于所述预定运动；

第二产生单元，其用于根据判定运动图像的各帧产生分别对应于所述判定运动图像的各帧的判定图像，判定所述判定运动图像是否对应于所述预定运动；

第二合成单元，其用于通过将顺序产生的所述判定图像中的一个设置成用作基准，以及将包括用作所述基准的所述判定图像的对应于预定帧数的多个判定图像按预定位置布置并且进行合成，来产生合成判定图像；

特征量计算单元，其用于计算所产生的所述合成判定图像的特征量；以及

判定单元，其用于基于作为通过将计算出的所述特征量输入到所述辨别器得到的辨别结果的评分，判定用作所述合成判定图像的基准的所述判定图像是否对应于所述预定运动。