CN102915320A

CN102915320A - 用于音频辨识的扩展的视频镜头媒体引擎

Info

Publication number: CN102915320A
Application number: CN2012102060012A
Authority: CN
Inventors: 普里彦·甘塔堤雷克; 董·恩古因; 阿布希舍克·帕提尔; 迪鹏杜·萨哈
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-06-28
Filing date: 2012-06-14
Publication date: 2013-02-06
Also published as: US20130006625A1; US8938393B2

Abstract

本发明公开了用于音频辨识的扩展的视频镜头媒体引擎。用于自动分析多媒体数据的系统、方法和计算机程序产品被公开。实施例接收多媒体数据；检测具有指定的音频特征的部分；并且输出多媒体数据的相应子集和生成的元数据。包括下载的或流传输的电影中的语音、非语音的声音和隐藏字幕在内的音频内容特征像人们可能做的那样被识别，然而实质上是实时的。特定说话者、最有意义的内容声音以及字词和相应的时间戳经由数据库比较被辨识，并且可按照匹配概率的次序被呈现。实施例响应性地预先取得相关数据、辨识地点并且提供相关广告。内容特征也可被发送给搜索引擎从而进一步的相关内容可被识别。用户反馈和确认可随时间过去而改进实施例。

Description

用于音频辨识的扩展的视频镜头媒体引擎

技术领域

本专利申请一般地涉及管理多媒体数据，并且更具体地涉及基于所选择的多媒体音频内容来收集、分类、总结、编辑、标记、共享以及执行定向(directed)搜索和广告。

背景技术

在线视频的发展的确是显著的。Comscore公司估计超过75％的美国因特网用户观看在线视频。他们平均每月花235分钟来观看总计达50亿份视频。

内容类型通常决定了观看体验。例如，优质内容向用户提供丰富且交互式的观看体验。诸如故事概要、演员表和导演简档(profile)、评级、用户评论和章节划分之类的伴随内容的元数据也对整体体验有所贡献。在web上可获得的优质内容通常是收费的并且通常持续30分钟或更长。

相反，免费内容大多是用户生成的并且提供“无装饰的(no frills)”观看体验。文本、特殊场合的缩略图、用户评级以及链接是此观看体验的一部分。观看通常被限制为通过“盲目”搜寻的“开始到结束”回放(没有对内容的可视指南)。免费内容流的平均长度为1-5分钟，Comscore公司估计在线视频的平均持续时间为2.9分钟。

假设海量在线内容的大多数是免费的(且是用户生成的)，那么存在如下的不断增长的需求：需要改进免费内容的目前“无装饰的”观看体验。

在线视频体验的增强是许多人和机构共有的目标。结果，开发出了许多解决方案。针对优质内容的选择的解决方案是元数据。元数据是与如下内容有关的信息，该内容可表现为用以提供故事概要、演员和导演简档、删除了的场景以及章节划分的文本、图像、视频或音频，此信息允许定制的回放。此外，元数据通过相关链接、用户评论和评级被补充。元数据将描述性和交互性层添加到内容回放。内容创建者、发行者以及其间的公司已认识到它的价值，并且已经使元数据成为优质内容供应的整体所需部分。

遗憾的是，针对优质内容的元数据创建处理因其依赖于手动创建而并未扩展到免费内容。手动处理用户生成的免费内容是经济上不切实际的提议，因此需要自动的方法。这些方法可作用于内容的音频和视频方面以提取有意义的信息。它们可被认为是制作机器生成的元数据。

自动方法落入以下三个类别中的一个：音频/视频分析、编解码器技术和产业标准。

受到学术界最多关注的类别是音频/视频分析。这些方法分析内容的音频和视频数据并且试图提取对用户而言有意义的关键信息。压缩域(compressed domain)视频分析、运动分析、物体分割、文本检测、谱分析以及话音到文本转换是用于提取关键信息的一些技术。大多数方法提供良好的准确性，然而它们的复杂性限制了在实时应用中的使用以及在资源受限消费类设备上的使用。因此，大多数音频/视频分析是离线执行的。

编解码器技术为免费内容提供了替代的自动元数据生成处理。在这种情况下，关于内容的关键信息在编码处理期间被封装在压缩的流中。回放处理提取它们并将它们与内容一起呈现。诸如MPEG2、MPEG4-Part2、AVC(H.264)、VCI和其他先进的编解码器之类的编解码器标准定义了特别的简档以支持此能力。遗憾的是，该方法将高复杂度加至编码和解码处理，这限制了它的广泛使用。

第三种方法是工业标准的使用。诸如MPEG-7、MPEG-21和HTML-5之类的标准试图通过实现对内容中关键信息的搜索、共享和增强显示来丰富在线视频体验。MPEG-7和MPEG-21的流行性一直受限，因为它们不解决从内容中提取关键信息的根本问题。而是，这些标准提供在设备间查询和共享信息的机制。HTML-5最近在媒体报道中获得了显著的关注。它提出针对视频标签的主要修正，该视频标签实现对显示在浏览器上的回放内容的动态且交互式的访问。视频窗定位、着色、边缘效果和技巧模式控制是由该标准提出的效果中的一些。HTML-5可能是卓越的，因为其承诺通过其丰富的图形操作和音频/视频效果来增强在线视频体验。

总之，免费内容需要添加诸如关键帧、场景分类和概要等之类的元数据以反映出像优质内容所提供的那样的丰富视频体验。然而，与优质内容不同，预期该数据由用户来生成并标记到流上是不切实际的。为了成为一个可行的选择，数据需要被实时地生成，同时仅需要适度的计算资源。以上讨论的目前方法因各种因素而不能满足此要求。音频和视频分析技术可能有能力创建元数据，然而因其复杂性，需要远超出消费类媒体设备的能力的计算资源。此外，这些技术不是实时性的，因此最适合用于离线创建。编解码器技术已经证明了其在编码处理期间将关键信息嵌入到流中的能力。然而，编码复杂度和缺乏对解码器/播放器的支持限制了其使用。包括HTML-5在内的工业标准也不提供全面的解决方案，因为它们未能解决元数据创建的核心问题。

本专利申请描述了针对这些挑战的解决方案。

发明内容

用于执行多媒体数据自动分析的系统、方法和计算机程序产品被公开并在此被要求保护。下载的或流传输的电影或视频剪辑(video clip)可被分析以像人们可能做的那样基于音频响度和视频运动水平来识别动作场景、安静场景和可能的跳变点。索引或菜单可然后基于消费者偏好被创建，并被用于播放感兴趣的场景、产生定制的宣传片或者按需用元数据编辑和标记电影。结果可被发送到可视化搜索引擎用于进一步的搜索，用于替换商业消息，或者经由社交网络共享。实施例还可以通过内容特征来分类并群聚(cluster)用户选择的输入。

示例性实施例接收多媒体数据，识别具有指定内容特征的至少一个多媒体数据部分，并且响应性地输出至少一个所识别的多媒体数据部分。针对多媒体数据，元数据也被生成。分析优选地是实时发生的，并且可以由资源受限消费类应用(比如媒体播放器插件工具)来执行。分析可包括基于人类感知来执行启发式算法。

在一个实施例中，分析基于时间划分或图片组边界对帧子集进行操作。分析可包括将话音转换为文本和/或执行面部识别。分析可对如下视频特征进行操作，这些视频特征包括：(a)压缩域运动向量和位置分布，(b)压缩域宏块大小和相应分布以及块类型和相应位置，(c)压缩域帧类型，和/或(d)原始颜色直方图和相关联的统计特性。分析还可以对如下的音频特征进行操作，这些音频特征包括：(a)采样的音频帧的RMS功率，(b)经由短期傅里叶变换计算出的谱质心，和/或(c)非线性梅尔测度(Mel scale)频率上的短期MFC功率谱表示。

分析可将动作场景识别为具有提高的音频水平和/或提高的运动向量大小(magnitude)的多媒体数据部分。动作场景识别还可包括选择具有提高的运动向量大小的P帧子集，然后针对每个所选P帧，解码相应的音频帧、针对相应的音频帧计算RMS功率值并且最终选择具有最高RMS功率值的音频帧。

分析还可将低运动场景识别为既具有最大相邻宏块又具有最小运动向量大小的多媒体数据部分。低运动场景识别还可包括选择P帧子集，然后针对每个所选P帧，提取宏块和运动向量、确定宏块大小和运动向量大小并且最终选择具有最大相邻宏块和最小运动向量大小的P帧。

分析还可将预览点识别为具有较宽颜色分布的多媒体数据部分。预览点识别还可包括将多媒体数据划分为不重叠的部分，然后针对每个部分，提取三个均等分隔的候选帧、计算每个候选帧的颜色直方图并且最终选择具有最大标准偏差的候选帧。分析还可将MFCC视为特征向量并且响应性地识别具有人的对话和音乐的至少一个的多媒体数据部分。

多媒体数据可包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和/或免费数据。所识别部分可包括音频剪辑、视频图像和/或视频剪辑。本发明的实施例还生成与分析相对应的元数据。

替代实施例可输出所识别多媒体数据部分的集合，其中该集合可包括索引、视频剪辑集、视频图像集和/或音频剪辑集。实施例还可用元数据标记该集合，并且在诸如DVD菜单之类的图形用户界面中显示该集合。

实施例还可以通过内容特征来分类和/或群聚用户选择的多媒体数据部分集合。与用户定义的内容特征序列相对应的回放序列也可被创建、标记、剪切、混合和保存。回放序列可被用于替换至少一个广告，可产生监视视频的概要，并且可包括用户定制的电影宣传片。回放序列可在DVD上被用作介绍、菜单跳变序列、章节和/或特定特征。

进一步的实施例可将所识别多媒体数据部分输出到社交网络和/或可视化搜索引擎。诸如索引、视频剪辑集、视频图像集、音频剪辑集之类的多媒体数据部分的集合可通过社交网络共享。具有指定内容特征的更多多媒体数据项可被可视化搜索引擎识别并输出和/或添加到集合中。

用于进一步的多媒体数据自动分析的增强实施例包括接收多媒体数据；识别具有目标音频内容特征的至少一个多媒体数据部分；辨识所识别特征的至少一个方面；以及响应性地输出对所述方面的指示。通过其他实施例，分析可基本上实时地发生，可由资源受限消费类应用执行，并且可对包括采样的音频帧的RMS功率和/或非线性梅尔测度频率上的短期MFC功率谱表示的音频特征进行操作。再一次地，多媒体数据可包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和/或免费数据，并且所识别部分可包括音频剪辑、视频图像和/或视频剪辑。还可生成与分析相对应的元数据。

在增强的实施例中，目标音频内容特征可包括人的对话、笑声、动物的声音和/或依地点而定的声音。对于人的对话，所述方面可以是正在说话的演员的名字和/或正在说话的角色的名字。可通过以下步骤来辨识所述方面：将所识别部分与语音样本集进行比较来找出至少一个最佳匹配样本；然后输出说话者姓名和/或角色姓名。比较可包括将语音样本表示为MFC系数向量和特征向量中的一个，然后从所述表示计算欧几里得距离或相关量度，并且按概率的次序输出至少一个最佳匹配样本，该最佳匹配样本具有低欧几里得距离和/或高相关量度。还可应用最小差异阈值来排除不匹配样本。

另外，增强的实施例可将人的对话作为目标并辨识诸如字词和相应的时间戳之类的方面，通过以下步骤来辨识所述方面：在所述字词不是文本形式的情况下选择性地将话音转换为文本；选择最有意义的内容字词；以及输出所选字词和相应的时间戳。增强的实施例还可通过定向搜索找到与所述指示有关的更多多媒体数据。可按照对用户兴趣的预期预先取得所述更多多媒体数据。更多多媒体数据可包括相关电影、正上映的电影、电影预览、正发生的事件、档案、影片集锦、相关广告、有关辨识出的地点的信息和/或场景特性。可存储对所述指示的用户确认并且用其来通过合并在先辨识改进辨识准确性。

如以下更充分地描述的，所公开的实施例的装置和处理允许多媒体数据的自动分析。考虑了详细描述和其后的附图之后，这里公开的装置和方法的更多方面、目的、希望的特征和优点将被相应领域技术人员更好地理解并变得显而易见，在附图中各个实施例作为示例被图示。然而，将清楚地理解，附图仅用于说明的目的而非意欲限定对所主张发明的限制。

附图说明

图1示出本发明实施例的软件体系架构的框图；

图2A示出根据一个实施例的对动作帧的检测；

图2B示出根据一个实施例的对低运动帧的检测；

图2C示出根据一个实施例的对预览帧的检测；

图3A示出根据一个实施例的具有覆盖的运动向量的帧；

图3B示出根据一个实施例的被映射到帧的运动向量和宏块大小；

图3C示出根据一个实施例的基于颜色分布的预览帧选择；

图4A示出根据一个实施例的实用原型媒体播放器的画面捕捉；

图4B示出根据一个实施例的所生成的帧；

图4C示出根据一个实施例的另一所生成的帧；

图5示出根据一个实施例的流程图；

图6示出根据一个实施例的流程图；以及

图7示出根据一个实施例的流程图。

具体实施方式

本专利申请提出了视频镜头(VideoLens)媒体引擎，一种递送能够丰富在线观看体验的有意义的可视信息的实时场景搜索引擎。视频镜头引擎例如可在索尼SNAP框架的交互式媒体播放器应用中实现。开发者可优化引擎以将新的且令人激动的在线视频特征加入到他们的在视听设备上运行的应用中。

引擎通过识别并输出具有指定内容特征的部分来执行对所接收多媒体数据的自动分析。内容特征因此使得输入数据能够被分类或群聚。本发明的实施例包括以下主要设计选择：

1.基于人类感知的算法设计的启发式方法。例如，喧闹的声音通常伴随着动作场景。具有较大色彩分布的帧通常比其他帧更有吸引力。

2.对音频和视频数据的组合分析或多模态分析。人类大脑共同地使用视觉和听觉。注意，此技术领域中的大部分学术工作或者使用视频或者使用音频，而非同时使用二者。

3.在所生成元数据的严格的准确度之上强调算法速度和简单性。算法应当能够在资源受限的消费类媒体设备上运行，尤其是实时地运行。

现参考图1，示出了本发明实施例的软件体系架构的框图。视频镜头媒体引擎100是在FFMPEG开源软件包上构建的。FFMPEG是支持视听记录、编码、解码和流传输功能的交叉平台包。诸如媒体编码器和解码器之类的超过一百种软件应用110以及上千种流传输服务器是基于FFMPEG的。

定制的支持流传输和音频/视频解码功能的“轻(lite)”版FFMPEG形成基本层160。此“轻”定制实现了将包大小减至2MB以下(对标准包的90％的缩减)并且使其适用于闪存和存储器受限的消费类媒体设备。此层形成了系统的数据层。

视频和音频算法库140和150存在于FFMPEG层160之上。这些库包含被开发来支持引擎的场景搜索能力的算法。这些算法对由FFMPEG层提供的数据进行操作并且受控制层130的控制。这些算法的细节将在下文中提供。

控制层发起并管理FFMPEG层和音频/视频算法库的并行操作。基于(经由应用程序接口或API120)从应用接收的请求，它指示FFMPEG层执行流传输操作以获得流。此外，控制层选择适当的音频和视频算法来执行API任务。它将解码的或者压缩的数据按其类型提供给算法。音频和视频算法的组合输出被作为与搜索查询相对应的视频帧阵列传回给所请求的API。

引擎因形成其基本层的FFMPEG层的轻便性而在许多硬件平台之中是便携式的。经由将新的搜索方法添加到其算法库，其能力能够随时间过去而增强。

场景搜索能力

以下提供从视频镜头引擎获得的场景搜索结果示例。

1.动作场景(图2A示出在“现实的创痛(realitybites)”mp4流中检

测到的动作帧。这些帧包含运动中的物体。)

2.低运动场景(图2B示出在“公主和青蛙(princess-and-frog)”

mp4流中检测到的低运动帧。这些帧具有很少的运动。)

3.预览/章节划分(图2C示出“飞屋环游记(Up)”mp4流的预览帧。帧在流中均等间隔，并且具有超出阈值的直方图标准偏差。)

4.人的对话和音乐场景

算法细节

视频镜头媒体引擎的场景搜索能力是通过其核心音频和视频算法来驱动的。这些算法是基于人类感知属性启发式地设计的。引擎的输入通常是视频文件，并且经常是经由下载或流传输在线可得的免费视频；然而，音频文件也可被处理。压缩的或未压缩的多媒体数据可被输入。输出通常是与各搜索查询相对应的一系列帧，然而也可包括音频剪辑或视频图像。

视频算法可对压缩的和解码的视频特征进行操作，具体而言：

1.压缩域运动向量和分布-运动向量大小和位置。

2.压缩域宏块大小和分布-块类型和位置。

3.压缩域帧类型-帧内(I)、预测(P)和双向(B)。

4.原始颜色直方图和相关联的统计数据。

注意，运动向量和宏块类型是压缩域信息。对它们的利用为视频镜头引擎提供了许多明显的优点。首先，这些特征在编码处理期间被生成。因此，获取它们的计算成本很小(限于解析压缩流)。其次，这些特征直接涉及视频的物理特性并因此传达出对于提取算法而言重要的信息。

与视频配对物类似，音频算法对能够以高效且轻资源(resource-lite)方式从音频数据中计算出的简单特征集进行操作：

1.功率-512个样本的音频帧的RMS值。

2.谱质心-经由短期傅里叶变换计算出的谱的质量中心。

3.梅尔频率倒频谱(MFC)谱系数-非线性梅尔测度频率上声音的短期功率谱的表示。梅尔测度比线性分隔的频带更紧密地接近人类听觉系统的响应。MFC是话音辨识系统中的常用特征。(随后关于图6和7来提供基于音频的多媒体分析的增强实施例的进一步细节)。

以下算法具有预分析成分，其从流中提取候选帧子集。为了满足实时操作要求，通过帧子集进行工作是重要的。这些帧基于时间划分或者图片组(GOP)边界来选择。

活动场景检测

活动场景是基于音频信号振幅和运动向量大小来检测的。相应前提是大多数运动场景通常伴随有提高的声音：

基于时间或GOP边界从流中选择预测(P)帧子集。

针对每个所选帧：

--解码相应音频帧。音频帧经由其到所选帧的PTS值而被关联。

--计算每个音频帧的RMS值。

--选择具有最高RMS值的帧。

针对每个所选帧：

--提取运动向量。

--动作帧将是具有最大共址(co-located)运动向量大小的那些帧。

此算法可被修改为通过仅考虑运动向量来作用于不具有音频的流。图3A示出具有覆盖的运动向量的一些帧。运动向量被映射在动作帧上。注意，运动向量位于飞机和云周围。飞机的声音伴随着帧序列。

低运动场景检测

低运动场景是通过分析宏块大小和运动向量大小来检测的。(图3B示出被映射到帧上的运动向量和宏块大小。矩形对应于16×16、16×8和8×16的宏块。注意不存在运动向量。)相应前提是低运动场景包含具有小运动的图片的较大相邻区域(宏块)：

基于时间或GOP边界从流中选择预测(P)帧子集。

针对每个所选帧：

--提取宏块和运动向量。

--确定宏块的大小、运动向量的大小。

--低运动帧将是具有有着最小运动向量大小的最大相邻宏块的那些帧。

预览/章节分割创建

此方法从流中选择表示内容预览的关键帧。这基于如下前提：具有(如通过直方图测得的)较宽颜色分布的帧比具有窄分布的那些包含更多信息(并因此是更有吸引力的)：

将流划分为不重叠的部分。

针对每个部分：

--提取均等地分隔开的三个候选帧。

--计算每个候选帧的直方图。

--选择具有最大标准偏差的帧。

不重叠的部分被示出在图3C中(持续时间/N)，其中N是预览帧的数目。针对每个部分，三个均等地分隔开的候选帧被选择。按部分获得的候选的图被示出。产生内容的四个不重叠的部分(n-2到n+1)。每一部分得到三个候选帧。

人的对话和音乐场景检测

这些算法是基于利用其梅尔频率倒频谱系数(MFCC)的音频样本分析和分类的。MFCC提供了人类听觉系统的良好模型。MFCC被广泛地应用于音频辨识系统中。MFCC系数可被用作特征向量来检测人的对话和/或音乐的存在。

示例性实现方式-SNAP媒体播放器

视频镜头媒体引擎使得多媒体应用能够向用户提供丰富的在线视频体验。就免费在线内容而言，这尤其真实且有价值。应用通过使用引擎的实时场景搜索能力来创建帧的快照(snapshot)实现了这样的效果。这些帧能够以新的且交互式的方式被使用并呈现给用户。

SNAP或索尼联网应用平台是用于索尼设备的应用框架。它为第三方应用开发者提供了完全生态的系统，以在运行SNAP的索尼设备上开发并部署(并且货币化)它们的应用。假设大多数索尼设备是视听相关的，则SNAP提供了展示视频镜头媒体引擎的优点的理想环境。

SNAP系统内的媒体播放器被选择作为使用视频镜头媒体引擎的应用。视频镜头引擎被提供为用于播放器的基于C的对象库。使用引擎使得SNAP媒体播放器能够提供超出传统媒体播放器的丰富的交互式媒体体验。例如，通过选项面板，用户能够查询播放器来提供与动作、静止、预览、人的对话或音乐场景相对应的场景的快照(根据视频中的帧)。与单个场景类别相对应的框被水平地显示在播放器的下部部分。用户可使用例如触摸挥击(swip)手势来滑动这些框。另外，用户可通过选择播放一个或多个帧来定制回放场景。这些帧将以选择的次序被媒体播放器引擎回放。总的来说，这些实时功能增强了对内容的观看体验，对于免费内容而言尤其如此。

例如，用户可产生具有所选帧或由引擎找到的部分的定制DVD，从而例如产生DVD菜单、介绍性的DVD视频剪辑、DVD菜单跳变序列、DVD章节以及DVD特有特征(例如访谈或纪录片)。根据所选特征回放序列，可组合成定制的电影宣传片。另外，所选回放序列可替代广告或产生监视视频的概要。

图4A示出用于SNAP的实用原型媒体播放器的画面捕捉。垂直的列提供了选项的列表。水平的行示出与(在垂直的列中的)所选选项相对应的选择。画面捕捉显示了可用于视频镜头选项的场景搜索选择。注意，播放器的最终的外观和感觉将由所采用的图形用户界面决定。

图4B和4C示出由视频镜头引擎生成的帧，这些帧被显示在播放器的底部。用户可通过挥击或高亮一个或多个帧来开始对这些特定高亮部分的定制回放，从而浏览这些帧。注意，主回放序列不被引擎中断。

所实现的应用

视频镜头可被利用来开发许多与在线视频交互的令人激动的多媒体应用。一些示例是：

1.媒体播放器增强-画面搜索和显示、可视化搜寻和回放、跨社交网络进行共享。

2.社交网络应用一对内容的快速浏览、标记和共享。

3.可视化搜索-找到的关键帧可被转发到像谷歌Goggles^TM应用那样的可视化搜索引擎来生成与帧有关的搜索结果。

(Goggles是谷歌公司的注册商标)。

4.视频编辑-由帧定义的视频部分集合能够被剪切、混合、用元数据标记并且保存。

5.自动元数据生成-基于所找到的匹配内容。

现参考图5，示出了完整实施例500的一般操作的流程图。在此实施例中，示出了大量内容特征目标方面，如可能从一复杂用户查询产生的那样。然而，可以理解，并不是所示出的每一步针对较简单的用户查询也被需要，因此实施例可更快速地完成其任务。在步骤510，用户查询和多媒体数据被输入。用户查询可以指定希望找到动作场景、低运动场景、预览帧、对话/音乐场景，和/或希望自动生成有关于每个内容特征方面的元数据。一旦输出生成，用户还可以指定要采取的进一步动作。

在步骤520，如果用户查询指示出对动作场景感兴趣，则实施例选择性地基于高音频水平(如果音频可用)和高大小运动向量来找到动作场景。在步骤530，实施例可以选择性地基于大相邻宏块和低大小运动向量来找到低运动场景。在步骤540，实施例可以选择性地基于从采样的候选帧得到的颜色直方图的标准偏差来找到预览帧。在步骤550，实施例可以选择性地基于用作特征向量的MFCC系数来找到对话和音乐场景。

在步骤560，多媒体数据的匹配用户查询的部分如所指定的那样被与自动生成的元数据一起输出。实施例可以在此时停止、回放输出部分、将其转发到可视化搜索引擎以找到进一步匹配素材和/或共享输出部分以及更多匹配素材以及元数据，如上所述。

现针对图6和7来描述用于基于音频内容进一步自动分析多媒体数据的增强实施例。图6示出致力于特定语音辨识的实施例，而图7示出致力于决定进一步处理的特定字词的辨识的实施例。

如图6所示，实施例600在步骤602接收多媒体数据(通常是PCM格式的音频样本)。如步骤604所示，音频内容可被表示为使背景噪声影响和音频功率水平最小化的MFC系数向量或类似音频特征向量表示。接下来，目标音频内容特征(其例如可包括人的话音或对话)被识别；例如，在步骤606，作为语音片段的多媒体数据部分被定位并且在步骤608被分离用于进一步处理。在步骤612，语音片段然后被呈现给语音ID服务器用于对感兴趣的至少一方面进行可能的辨识。在增强的实施例中，目标音频内容特征通常是人的对话，然而也可以包括笑声、动物的声音和/或依地点而定的声音。

与其他实施例一样，分析可基本上实时地发生，可由资源受限消费类应用来执行，并且可对包括采样的音频帧的RMS功率和/或非线性梅尔尺度频率上的短期MFC功率谱表示在内的音频特征进行操作。再一次地，多媒体数据可包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和/或免费数据，并且所识别的部分可以是音频剪辑、视频图像和/或视频剪辑。与分析对应的元数据也可被生成。

就人的对话而言，所述方面可以是例如正在说话的演员的名字和/或正在说话的角色的名字。通过将识别出的部分(例如语音片段)与语音样本数据库614中的语音样本集进行比较来找到至少一个最佳匹配样本，可辨识所述方面。在步骤610中，所述方面然后在匹配被找到的情况下被输出。比较可包括将语音样本表示为MFC系数向量或其他特征向量，然后从该表示计算欧几里得距离和/或相关量度，并且输出至少一个最佳匹配样本。许多最佳匹配样本可按概率次序被列出，其中最佳匹配样本被定义为基于低欧几里得距离和/或高相关量度而具有高辨识概率的那些样本。最小差异阈值也可被应用来帮助排除不匹配的样本。因此，仅基于音频分析，用户就可快速且容易地识别多媒体内容中的特定演员或说话者或角色。

可对来自各种多媒体数据源的动物的声音或依地点而定的声音执行类似的分析。例如，纪录片、真实TV表演或海滩假期的假日旅行视频可各自包括海鸥和撞击的海浪的可辨识的声音。对于如可能发生在打斗场景中的喧闹的、快速的、猛烈的声音的辨识或者对于如可能发生在浪漫的餐馆场景中的安静然而可辨识的声音的辨识可进一步帮助分析场景特性，如之前描述过的。

另外，现参考图7，增强的实施例700可具体地将人的对话作为目标，并且辨识多媒体数据中的诸如字词和它们相应的时间戳之类的方面。步骤702中的传入多媒体数据(再一次地，通常是PCM格式的音频样本，然而还包括隐藏字幕(closed caption)文本和如前所述的其他数据)在步骤704中在传入数据尚不是文本形式的情况下被从话音转换到文本。文本流被发送到web服务器706用于选择最有意义的内容字词。帮助索引到传入文件或流的所选字词及其相应的时间戳可帮助标识多媒体数据中的多媒体信息内容从而使得后续处理更容易。例如，在步骤708，广告服务器可找到并输出与所标识内容最佳相关的广告710。

增强的实施例还可以使用辨识出的方面来通过定向搜索找到与所述方面指示有关的更多多媒体数据。更多多媒体数据可包括相关的电影、正上映的电影、电影预览、正发生的事件、所辨识的演员的档案、影片集锦、有关辨识出的地点的信息和/或场景特性。与所找到的更多多媒体数据有关的商品和服务广告也可呈现给用户。更多多媒体数据可按需提供，例如当用户在细读多媒体数据时选择“更多”菜单时提供或者根据对用户兴趣的预期来预先取得，从而用户可获得想要细读的数据而无需特别地对其进行请求并等待其到达。

增强的实施例也可以通过经验来学习。对辨识出的方面指示的用户确认可被存储并用来通过合并并选择性地加强在先辨识来改进辨识准确性。因此，通过提供更新相应数据库和实施例的决定引擎的指导，一个用户可有效地辅助其他用户。

如在此使用的术语“一”或“一个”应意味着一个或多于一个。术语“多个”应意味着两个或多于两个。术语“另一个”被定义为第二个或更多个。数据“包含”和/或“具有”是开放式的(例如包括)。贯穿此文档提到的“一个实施例”、“某些实施例”、“实施例”或类似术语意味着联系实施例描述的具体特征、结构或特性被包括在至少一个实施例中。因此，在此说明书中各处出现的这些短语不一定都是指同一个实施例。另外，具体特征、结构或特性可基于一个或多个实施例被以任意合适的方式组合而不受限制。如在此使用的术语“或者”应被解释为包含的或者意味着任一个或任意组合。因此，“A、B或C”意味着“以下中的任一个：A；B；C；A和B；A和C；B和C；A、B和C”。对此定义的例外将仅在要素、功能、步骤或行为的组合以某种方式固有地互斥时发生。

根据计算机编程领域的技术人员的实践，以下参考由计算机系统或类似电子系统执行的操作来描述实施例。这些操作有时被称作计算机运行的。应理解，符号化表示的操作包括诸如中央处理单元之类的处理器对表示存储器位置处(比如在系统存储器中)的数据比特以及数据比特的维护的电子信号的操纵以及其他的信号处理。数据比特被维护的存储器位置是具有与数据比特相对应的具体电、磁、光或有机属性的物理位置。

当以软件实现时，实施例的要素实质上是用于执行必要任务的代码段。非瞬时性的代码段可被存储在处理器可读介质或计算机可读介质中，其可包括能存储或传送信息的任意介质。这样的介质的示例包括：电子电路、半导体存储器件、只读存储器(ROM)、闪存或其他非易失性存储器、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路等等。用户输入可包括键盘、鼠标、触摸屏、语音命令输入等的任意组合。用户输入可类似地被用于将在用户计算设备上运行的浏览器应用引至一个或多个从其可访问计算资源的网络资源，比如web页面。

虽然联系具体示例和各种实施例描述了本发明，但是本领域技术人员应该容易理解，这里描述的发明的许多修正和修改是可能的而不会背离如在权利要求书中主张的本发明的精神和范围。因此，要清楚理解，仅作为示例而非作为对在权利要求书中主张的本发明的范围的限制而做出本申请。描述意欲覆盖本发明的任意变体、使用或修改，本发明一般地遵循本发明的原理并且包括从本公开的出发的落入本领域中本发明所涉及的已知和习惯实践范围内的变更。

Claims

1.一种用于自动分析多媒体数据的方法，包括：

接收多媒体数据；

识别具有目标音频内容特征的至少一个多媒体数据部分；

辨识所识别特征的至少一个方面；以及

响应性地输出对所述方面的指示。

2.根据权利要求1所述的方法，其中所述分析实时地发生，由资源受限消费类应用来执行，并对包括采样的音频帧的RMS功率和非线性梅尔测度频率上的短期MFC功率谱表示中的至少一个的音频特征进行操作。

3.根据权利要求1所述的方法，其中所述多媒体数据包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和免费数据中的至少一个，并且其中所识别部分是音频剪辑、视频图像和视频剪辑中的至少一个。

4.根据权利要求1所述的方法，还包括生成与所述分析相对应的元数据。

5.根据权利要求1所述的方法，其中所述目标音频内容特征是人的对话、笑声、动物的声音和依地点而定的声音中的至少一个。

6.根据权利要求1所述的方法，其中所述目标音频内容特征是人的对话并且所述方面是正在说话的演员的名字和正在说话的角色的名字中的至少一个，

其中，所述方法还包括通过以下步骤来辨识所述方面：

将所识别部分与语音样本集进行比较来找出至少一个最佳匹配样本；以及

输出说话者姓名和角色姓名中的至少一个。

7.根据权利要求6所述的方法，其中所述比较步骤包括：

将语音样本表示为MFC系数向量和特征向量中的一个；

从所述表示计算欧几里得距离和相关量度中的至少一个；以及

按概率的次序输出至少一个最佳匹配样本，该最佳匹配样本具有低欧几里得距离和高相关量度中的至少一个，

其中，所述方法还包括应用最小差异阈值来排除不匹配样本。

8.根据权利要求1所述的方法，其中所述目标音频内容特征是人的对话并且所述方面包括字词和相应的时间戳，

其中，所述方法还包括通过以下步骤来辨识所述方面：

在所述字词不是文本形式的情况下选择性地将话音转换为文本；

选择最有意义的内容字词；以及

输出所选字词和相应的时间戳。

9.根据权利要求1所述的方法，还包括：

通过定向搜索找到与所述指示有关的更多多媒体数据；

存储对所述指示的用户确认；以及

通过合并在先辨识来改进辨识准确性，

其中，所述更多多媒体数据按照对用户兴趣的预期被预先取得，并且其中，所述更多多媒体数据包括相关电影、正上映的电影、电影预览、正发生的事件、档案、影片集锦、相关广告、有关辨识出的地点的信息和场景特性中的至少一个。

10.一种用于自动分析多媒体数据的系统，包括：

用于接收多媒体数据的装置；

用于识别具有目标音频内容特征的至少一个多媒体数据部分的装置；

用于辨识所识别特征的至少一个方面的装置；以及

用于响应性地输出对所述方面的指示的装置。