[go: up one dir, main page]

CN102915320A - 用于音频辨识的扩展的视频镜头媒体引擎 - Google Patents

用于音频辨识的扩展的视频镜头媒体引擎 Download PDF

Info

Publication number
CN102915320A
CN102915320A CN2012102060012A CN201210206001A CN102915320A CN 102915320 A CN102915320 A CN 102915320A CN 2012102060012 A CN2012102060012 A CN 2012102060012A CN 201210206001 A CN201210206001 A CN 201210206001A CN 102915320 A CN102915320 A CN 102915320A
Authority
CN
China
Prior art keywords
multimedia data
audio
content
video
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102060012A
Other languages
English (en)
Inventor
普里彦·甘塔堤雷克
董·恩古因
阿布希舍克·帕提尔
迪鹏杜·萨哈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102915320A publication Critical patent/CN102915320A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了用于音频辨识的扩展的视频镜头媒体引擎。用于自动分析多媒体数据的系统、方法和计算机程序产品被公开。实施例接收多媒体数据;检测具有指定的音频特征的部分;并且输出多媒体数据的相应子集和生成的元数据。包括下载的或流传输的电影中的语音、非语音的声音和隐藏字幕在内的音频内容特征像人们可能做的那样被识别,然而实质上是实时的。特定说话者、最有意义的内容声音以及字词和相应的时间戳经由数据库比较被辨识,并且可按照匹配概率的次序被呈现。实施例响应性地预先取得相关数据、辨识地点并且提供相关广告。内容特征也可被发送给搜索引擎从而进一步的相关内容可被识别。用户反馈和确认可随时间过去而改进实施例。

Description

用于音频辨识的扩展的视频镜头媒体引擎
技术领域
本专利申请一般地涉及管理多媒体数据,并且更具体地涉及基于所选择的多媒体音频内容来收集、分类、总结、编辑、标记、共享以及执行定向(directed)搜索和广告。
背景技术
在线视频的发展的确是显著的。Comscore公司估计超过75%的美国因特网用户观看在线视频。他们平均每月花235分钟来观看总计达50亿份视频。
内容类型通常决定了观看体验。例如,优质内容向用户提供丰富且交互式的观看体验。诸如故事概要、演员表和导演简档(profile)、评级、用户评论和章节划分之类的伴随内容的元数据也对整体体验有所贡献。在web上可获得的优质内容通常是收费的并且通常持续30分钟或更长。
相反,免费内容大多是用户生成的并且提供“无装饰的(no frills)”观看体验。文本、特殊场合的缩略图、用户评级以及链接是此观看体验的一部分。观看通常被限制为通过“盲目”搜寻的“开始到结束”回放(没有对内容的可视指南)。免费内容流的平均长度为1-5分钟,Comscore公司估计在线视频的平均持续时间为2.9分钟。
假设海量在线内容的大多数是免费的(且是用户生成的),那么存在如下的不断增长的需求:需要改进免费内容的目前“无装饰的”观看体验。
在线视频体验的增强是许多人和机构共有的目标。结果,开发出了许多解决方案。针对优质内容的选择的解决方案是元数据。元数据是与如下内容有关的信息,该内容可表现为用以提供故事概要、演员和导演简档、删除了的场景以及章节划分的文本、图像、视频或音频,此信息允许定制的回放。此外,元数据通过相关链接、用户评论和评级被补充。元数据将描述性和交互性层添加到内容回放。内容创建者、发行者以及其间的公司已认识到它的价值,并且已经使元数据成为优质内容供应的整体所需部分。
遗憾的是,针对优质内容的元数据创建处理因其依赖于手动创建而并未扩展到免费内容。手动处理用户生成的免费内容是经济上不切实际的提议,因此需要自动的方法。这些方法可作用于内容的音频和视频方面以提取有意义的信息。它们可被认为是制作机器生成的元数据。
自动方法落入以下三个类别中的一个:音频/视频分析、编解码器技术和产业标准。
受到学术界最多关注的类别是音频/视频分析。这些方法分析内容的音频和视频数据并且试图提取对用户而言有意义的关键信息。压缩域(compressed domain)视频分析、运动分析、物体分割、文本检测、谱分析以及话音到文本转换是用于提取关键信息的一些技术。大多数方法提供良好的准确性,然而它们的复杂性限制了在实时应用中的使用以及在资源受限消费类设备上的使用。因此,大多数音频/视频分析是离线执行的。
编解码器技术为免费内容提供了替代的自动元数据生成处理。在这种情况下,关于内容的关键信息在编码处理期间被封装在压缩的流中。回放处理提取它们并将它们与内容一起呈现。诸如MPEG2、MPEG4-Part2、AVC(H.264)、VCI和其他先进的编解码器之类的编解码器标准定义了特别的简档以支持此能力。遗憾的是,该方法将高复杂度加至编码和解码处理,这限制了它的广泛使用。
第三种方法是工业标准的使用。诸如MPEG-7、MPEG-21和HTML-5之类的标准试图通过实现对内容中关键信息的搜索、共享和增强显示来丰富在线视频体验。MPEG-7和MPEG-21的流行性一直受限,因为它们不解决从内容中提取关键信息的根本问题。而是,这些标准提供在设备间查询和共享信息的机制。HTML-5最近在媒体报道中获得了显著的关注。它提出针对视频标签的主要修正,该视频标签实现对显示在浏览器上的回放内容的动态且交互式的访问。视频窗定位、着色、边缘效果和技巧模式控制是由该标准提出的效果中的一些。HTML-5可能是卓越的,因为其承诺通过其丰富的图形操作和音频/视频效果来增强在线视频体验。
总之,免费内容需要添加诸如关键帧、场景分类和概要等之类的元数据以反映出像优质内容所提供的那样的丰富视频体验。然而,与优质内容不同,预期该数据由用户来生成并标记到流上是不切实际的。为了成为一个可行的选择,数据需要被实时地生成,同时仅需要适度的计算资源。以上讨论的目前方法因各种因素而不能满足此要求。音频和视频分析技术可能有能力创建元数据,然而因其复杂性,需要远超出消费类媒体设备的能力的计算资源。此外,这些技术不是实时性的,因此最适合用于离线创建。编解码器技术已经证明了其在编码处理期间将关键信息嵌入到流中的能力。然而,编码复杂度和缺乏对解码器/播放器的支持限制了其使用。包括HTML-5在内的工业标准也不提供全面的解决方案,因为它们未能解决元数据创建的核心问题。
本专利申请描述了针对这些挑战的解决方案。
发明内容
用于执行多媒体数据自动分析的系统、方法和计算机程序产品被公开并在此被要求保护。下载的或流传输的电影或视频剪辑(video clip)可被分析以像人们可能做的那样基于音频响度和视频运动水平来识别动作场景、安静场景和可能的跳变点。索引或菜单可然后基于消费者偏好被创建,并被用于播放感兴趣的场景、产生定制的宣传片或者按需用元数据编辑和标记电影。结果可被发送到可视化搜索引擎用于进一步的搜索,用于替换商业消息,或者经由社交网络共享。实施例还可以通过内容特征来分类并群聚(cluster)用户选择的输入。
示例性实施例接收多媒体数据,识别具有指定内容特征的至少一个多媒体数据部分,并且响应性地输出至少一个所识别的多媒体数据部分。针对多媒体数据,元数据也被生成。分析优选地是实时发生的,并且可以由资源受限消费类应用(比如媒体播放器插件工具)来执行。分析可包括基于人类感知来执行启发式算法。
在一个实施例中,分析基于时间划分或图片组边界对帧子集进行操作。分析可包括将话音转换为文本和/或执行面部识别。分析可对如下视频特征进行操作,这些视频特征包括:(a)压缩域运动向量和位置分布,(b)压缩域宏块大小和相应分布以及块类型和相应位置,(c)压缩域帧类型,和/或(d)原始颜色直方图和相关联的统计特性。分析还可以对如下的音频特征进行操作,这些音频特征包括:(a)采样的音频帧的RMS功率,(b)经由短期傅里叶变换计算出的谱质心,和/或(c)非线性梅尔测度(Mel scale)频率上的短期MFC功率谱表示。
分析可将动作场景识别为具有提高的音频水平和/或提高的运动向量大小(magnitude)的多媒体数据部分。动作场景识别还可包括选择具有提高的运动向量大小的P帧子集,然后针对每个所选P帧,解码相应的音频帧、针对相应的音频帧计算RMS功率值并且最终选择具有最高RMS功率值的音频帧。
分析还可将低运动场景识别为既具有最大相邻宏块又具有最小运动向量大小的多媒体数据部分。低运动场景识别还可包括选择P帧子集,然后针对每个所选P帧,提取宏块和运动向量、确定宏块大小和运动向量大小并且最终选择具有最大相邻宏块和最小运动向量大小的P帧。
分析还可将预览点识别为具有较宽颜色分布的多媒体数据部分。预览点识别还可包括将多媒体数据划分为不重叠的部分,然后针对每个部分,提取三个均等分隔的候选帧、计算每个候选帧的颜色直方图并且最终选择具有最大标准偏差的候选帧。分析还可将MFCC视为特征向量并且响应性地识别具有人的对话和音乐的至少一个的多媒体数据部分。
多媒体数据可包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和/或免费数据。所识别部分可包括音频剪辑、视频图像和/或视频剪辑。本发明的实施例还生成与分析相对应的元数据。
替代实施例可输出所识别多媒体数据部分的集合,其中该集合可包括索引、视频剪辑集、视频图像集和/或音频剪辑集。实施例还可用元数据标记该集合,并且在诸如DVD菜单之类的图形用户界面中显示该集合。
实施例还可以通过内容特征来分类和/或群聚用户选择的多媒体数据部分集合。与用户定义的内容特征序列相对应的回放序列也可被创建、标记、剪切、混合和保存。回放序列可被用于替换至少一个广告,可产生监视视频的概要,并且可包括用户定制的电影宣传片。回放序列可在DVD上被用作介绍、菜单跳变序列、章节和/或特定特征。
进一步的实施例可将所识别多媒体数据部分输出到社交网络和/或可视化搜索引擎。诸如索引、视频剪辑集、视频图像集、音频剪辑集之类的多媒体数据部分的集合可通过社交网络共享。具有指定内容特征的更多多媒体数据项可被可视化搜索引擎识别并输出和/或添加到集合中。
用于进一步的多媒体数据自动分析的增强实施例包括接收多媒体数据;识别具有目标音频内容特征的至少一个多媒体数据部分;辨识所识别特征的至少一个方面;以及响应性地输出对所述方面的指示。通过其他实施例,分析可基本上实时地发生,可由资源受限消费类应用执行,并且可对包括采样的音频帧的RMS功率和/或非线性梅尔测度频率上的短期MFC功率谱表示的音频特征进行操作。再一次地,多媒体数据可包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和/或免费数据,并且所识别部分可包括音频剪辑、视频图像和/或视频剪辑。还可生成与分析相对应的元数据。
在增强的实施例中,目标音频内容特征可包括人的对话、笑声、动物的声音和/或依地点而定的声音。对于人的对话,所述方面可以是正在说话的演员的名字和/或正在说话的角色的名字。可通过以下步骤来辨识所述方面:将所识别部分与语音样本集进行比较来找出至少一个最佳匹配样本;然后输出说话者姓名和/或角色姓名。比较可包括将语音样本表示为MFC系数向量和特征向量中的一个,然后从所述表示计算欧几里得距离或相关量度,并且按概率的次序输出至少一个最佳匹配样本,该最佳匹配样本具有低欧几里得距离和/或高相关量度。还可应用最小差异阈值来排除不匹配样本。
另外,增强的实施例可将人的对话作为目标并辨识诸如字词和相应的时间戳之类的方面,通过以下步骤来辨识所述方面:在所述字词不是文本形式的情况下选择性地将话音转换为文本;选择最有意义的内容字词;以及输出所选字词和相应的时间戳。增强的实施例还可通过定向搜索找到与所述指示有关的更多多媒体数据。可按照对用户兴趣的预期预先取得所述更多多媒体数据。更多多媒体数据可包括相关电影、正上映的电影、电影预览、正发生的事件、档案、影片集锦、相关广告、有关辨识出的地点的信息和/或场景特性。可存储对所述指示的用户确认并且用其来通过合并在先辨识改进辨识准确性。
如以下更充分地描述的,所公开的实施例的装置和处理允许多媒体数据的自动分析。考虑了详细描述和其后的附图之后,这里公开的装置和方法的更多方面、目的、希望的特征和优点将被相应领域技术人员更好地理解并变得显而易见,在附图中各个实施例作为示例被图示。然而,将清楚地理解,附图仅用于说明的目的而非意欲限定对所主张发明的限制。
附图说明
图1示出本发明实施例的软件体系架构的框图;
图2A示出根据一个实施例的对动作帧的检测;
图2B示出根据一个实施例的对低运动帧的检测;
图2C示出根据一个实施例的对预览帧的检测;
图3A示出根据一个实施例的具有覆盖的运动向量的帧;
图3B示出根据一个实施例的被映射到帧的运动向量和宏块大小;
图3C示出根据一个实施例的基于颜色分布的预览帧选择;
图4A示出根据一个实施例的实用原型媒体播放器的画面捕捉;
图4B示出根据一个实施例的所生成的帧;
图4C示出根据一个实施例的另一所生成的帧;
图5示出根据一个实施例的流程图;
图6示出根据一个实施例的流程图;以及
图7示出根据一个实施例的流程图。
具体实施方式
本专利申请提出了视频镜头(VideoLens)媒体引擎,一种递送能够丰富在线观看体验的有意义的可视信息的实时场景搜索引擎。视频镜头引擎例如可在索尼SNAP框架的交互式媒体播放器应用中实现。开发者可优化引擎以将新的且令人激动的在线视频特征加入到他们的在视听设备上运行的应用中。
引擎通过识别并输出具有指定内容特征的部分来执行对所接收多媒体数据的自动分析。内容特征因此使得输入数据能够被分类或群聚。本发明的实施例包括以下主要设计选择:
1.基于人类感知的算法设计的启发式方法。例如,喧闹的声音通常伴随着动作场景。具有较大色彩分布的帧通常比其他帧更有吸引力。
2.对音频和视频数据的组合分析或多模态分析。人类大脑共同地使用视觉和听觉。注意,此技术领域中的大部分学术工作或者使用视频或者使用音频,而非同时使用二者。
3.在所生成元数据的严格的准确度之上强调算法速度和简单性。算法应当能够在资源受限的消费类媒体设备上运行,尤其是实时地运行。
现参考图1,示出了本发明实施例的软件体系架构的框图。视频镜头媒体引擎100是在FFMPEG开源软件包上构建的。FFMPEG是支持视听记录、编码、解码和流传输功能的交叉平台包。诸如媒体编码器和解码器之类的超过一百种软件应用110以及上千种流传输服务器是基于FFMPEG的。
定制的支持流传输和音频/视频解码功能的“轻(lite)”版FFMPEG形成基本层160。此“轻”定制实现了将包大小减至2MB以下(对标准包的90%的缩减)并且使其适用于闪存和存储器受限的消费类媒体设备。此层形成了系统的数据层。
视频和音频算法库140和150存在于FFMPEG层160之上。这些库包含被开发来支持引擎的场景搜索能力的算法。这些算法对由FFMPEG层提供的数据进行操作并且受控制层130的控制。这些算法的细节将在下文中提供。
控制层发起并管理FFMPEG层和音频/视频算法库的并行操作。基于(经由应用程序接口或API120)从应用接收的请求,它指示FFMPEG层执行流传输操作以获得流。此外,控制层选择适当的音频和视频算法来执行API任务。它将解码的或者压缩的数据按其类型提供给算法。音频和视频算法的组合输出被作为与搜索查询相对应的视频帧阵列传回给所请求的API。
引擎因形成其基本层的FFMPEG层的轻便性而在许多硬件平台之中是便携式的。经由将新的搜索方法添加到其算法库,其能力能够随时间过去而增强。
场景搜索能力
以下提供从视频镜头引擎获得的场景搜索结果示例。
1.动作场景(图2A示出在“现实的创痛(realitybites)”mp4流中检
测到的动作帧。这些帧包含运动中的物体。)
2.低运动场景(图2B示出在“公主和青蛙(princess-and-frog)”
mp4流中检测到的低运动帧。这些帧具有很少的运动。)
3.预览/章节划分(图2C示出“飞屋环游记(Up)”mp4流的预览帧。帧在流中均等间隔,并且具有超出阈值的直方图标准偏差。)
4.人的对话和音乐场景
算法细节
视频镜头媒体引擎的场景搜索能力是通过其核心音频和视频算法来驱动的。这些算法是基于人类感知属性启发式地设计的。引擎的输入通常是视频文件,并且经常是经由下载或流传输在线可得的免费视频;然而,音频文件也可被处理。压缩的或未压缩的多媒体数据可被输入。输出通常是与各搜索查询相对应的一系列帧,然而也可包括音频剪辑或视频图像。
视频算法可对压缩的和解码的视频特征进行操作,具体而言:
1.压缩域运动向量和分布-运动向量大小和位置。
2.压缩域宏块大小和分布-块类型和位置。
3.压缩域帧类型-帧内(I)、预测(P)和双向(B)。
4.原始颜色直方图和相关联的统计数据。
注意,运动向量和宏块类型是压缩域信息。对它们的利用为视频镜头引擎提供了许多明显的优点。首先,这些特征在编码处理期间被生成。因此,获取它们的计算成本很小(限于解析压缩流)。其次,这些特征直接涉及视频的物理特性并因此传达出对于提取算法而言重要的信息。
与视频配对物类似,音频算法对能够以高效且轻资源(resource-lite)方式从音频数据中计算出的简单特征集进行操作:
1.功率-512个样本的音频帧的RMS值。
2.谱质心-经由短期傅里叶变换计算出的谱的质量中心。
3.梅尔频率倒频谱(MFC)谱系数-非线性梅尔测度频率上声音的短期功率谱的表示。梅尔测度比线性分隔的频带更紧密地接近人类听觉系统的响应。MFC是话音辨识系统中的常用特征。(随后关于图6和7来提供基于音频的多媒体分析的增强实施例的进一步细节)。
以下算法具有预分析成分,其从流中提取候选帧子集。为了满足实时操作要求,通过帧子集进行工作是重要的。这些帧基于时间划分或者图片组(GOP)边界来选择。
活动场景检测
活动场景是基于音频信号振幅和运动向量大小来检测的。相应前提是大多数运动场景通常伴随有提高的声音:
基于时间或GOP边界从流中选择预测(P)帧子集。
针对每个所选帧:
--解码相应音频帧。音频帧经由其到所选帧的PTS值而被关联。
--计算每个音频帧的RMS值。
--选择具有最高RMS值的帧。
针对每个所选帧:
--提取运动向量。
--动作帧将是具有最大共址(co-located)运动向量大小的那些帧。
此算法可被修改为通过仅考虑运动向量来作用于不具有音频的流。图3A示出具有覆盖的运动向量的一些帧。运动向量被映射在动作帧上。注意,运动向量位于飞机和云周围。飞机的声音伴随着帧序列。
低运动场景检测
低运动场景是通过分析宏块大小和运动向量大小来检测的。(图3B示出被映射到帧上的运动向量和宏块大小。矩形对应于16×16、16×8和8×16的宏块。注意不存在运动向量。)相应前提是低运动场景包含具有小运动的图片的较大相邻区域(宏块):
基于时间或GOP边界从流中选择预测(P)帧子集。
针对每个所选帧:
--提取宏块和运动向量。
--确定宏块的大小、运动向量的大小。
--低运动帧将是具有有着最小运动向量大小的最大相邻宏块的那些帧。
预览/章节分割创建
此方法从流中选择表示内容预览的关键帧。这基于如下前提:具有(如通过直方图测得的)较宽颜色分布的帧比具有窄分布的那些包含更多信息(并因此是更有吸引力的):
将流划分为不重叠的部分。
针对每个部分:
--提取均等地分隔开的三个候选帧。
--计算每个候选帧的直方图。
--选择具有最大标准偏差的帧。
不重叠的部分被示出在图3C中(持续时间/N),其中N是预览帧的数目。针对每个部分,三个均等地分隔开的候选帧被选择。按部分获得的候选的图被示出。产生内容的四个不重叠的部分(n-2到n+1)。每一部分得到三个候选帧。
人的对话和音乐场景检测
这些算法是基于利用其梅尔频率倒频谱系数(MFCC)的音频样本分析和分类的。MFCC提供了人类听觉系统的良好模型。MFCC被广泛地应用于音频辨识系统中。MFCC系数可被用作特征向量来检测人的对话和/或音乐的存在。
示例性实现方式-SNAP媒体播放器
视频镜头媒体引擎使得多媒体应用能够向用户提供丰富的在线视频体验。就免费在线内容而言,这尤其真实且有价值。应用通过使用引擎的实时场景搜索能力来创建帧的快照(snapshot)实现了这样的效果。这些帧能够以新的且交互式的方式被使用并呈现给用户。
SNAP或索尼联网应用平台是用于索尼设备的应用框架。它为第三方应用开发者提供了完全生态的系统,以在运行SNAP的索尼设备上开发并部署(并且货币化)它们的应用。假设大多数索尼设备是视听相关的,则SNAP提供了展示视频镜头媒体引擎的优点的理想环境。
SNAP系统内的媒体播放器被选择作为使用视频镜头媒体引擎的应用。视频镜头引擎被提供为用于播放器的基于C的对象库。使用引擎使得SNAP媒体播放器能够提供超出传统媒体播放器的丰富的交互式媒体体验。例如,通过选项面板,用户能够查询播放器来提供与动作、静止、预览、人的对话或音乐场景相对应的场景的快照(根据视频中的帧)。与单个场景类别相对应的框被水平地显示在播放器的下部部分。用户可使用例如触摸挥击(swip)手势来滑动这些框。另外,用户可通过选择播放一个或多个帧来定制回放场景。这些帧将以选择的次序被媒体播放器引擎回放。总的来说,这些实时功能增强了对内容的观看体验,对于免费内容而言尤其如此。
例如,用户可产生具有所选帧或由引擎找到的部分的定制DVD,从而例如产生DVD菜单、介绍性的DVD视频剪辑、DVD菜单跳变序列、DVD章节以及DVD特有特征(例如访谈或纪录片)。根据所选特征回放序列,可组合成定制的电影宣传片。另外,所选回放序列可替代广告或产生监视视频的概要。
图4A示出用于SNAP的实用原型媒体播放器的画面捕捉。垂直的列提供了选项的列表。水平的行示出与(在垂直的列中的)所选选项相对应的选择。画面捕捉显示了可用于视频镜头选项的场景搜索选择。注意,播放器的最终的外观和感觉将由所采用的图形用户界面决定。
图4B和4C示出由视频镜头引擎生成的帧,这些帧被显示在播放器的底部。用户可通过挥击或高亮一个或多个帧来开始对这些特定高亮部分的定制回放,从而浏览这些帧。注意,主回放序列不被引擎中断。
所实现的应用
视频镜头可被利用来开发许多与在线视频交互的令人激动的多媒体应用。一些示例是:
1.媒体播放器增强-画面搜索和显示、可视化搜寻和回放、跨社交网络进行共享。
2.社交网络应用一对内容的快速浏览、标记和共享。
3.可视化搜索-找到的关键帧可被转发到像谷歌GogglesTM应用那样的可视化搜索引擎来生成与帧有关的搜索结果。
(Goggles是谷歌公司的注册商标)。
4.视频编辑-由帧定义的视频部分集合能够被剪切、混合、用元数据标记并且保存。
5.自动元数据生成-基于所找到的匹配内容。
现参考图5,示出了完整实施例500的一般操作的流程图。在此实施例中,示出了大量内容特征目标方面,如可能从一复杂用户查询产生的那样。然而,可以理解,并不是所示出的每一步针对较简单的用户查询也被需要,因此实施例可更快速地完成其任务。在步骤510,用户查询和多媒体数据被输入。用户查询可以指定希望找到动作场景、低运动场景、预览帧、对话/音乐场景,和/或希望自动生成有关于每个内容特征方面的元数据。一旦输出生成,用户还可以指定要采取的进一步动作。
在步骤520,如果用户查询指示出对动作场景感兴趣,则实施例选择性地基于高音频水平(如果音频可用)和高大小运动向量来找到动作场景。在步骤530,实施例可以选择性地基于大相邻宏块和低大小运动向量来找到低运动场景。在步骤540,实施例可以选择性地基于从采样的候选帧得到的颜色直方图的标准偏差来找到预览帧。在步骤550,实施例可以选择性地基于用作特征向量的MFCC系数来找到对话和音乐场景。
在步骤560,多媒体数据的匹配用户查询的部分如所指定的那样被与自动生成的元数据一起输出。实施例可以在此时停止、回放输出部分、将其转发到可视化搜索引擎以找到进一步匹配素材和/或共享输出部分以及更多匹配素材以及元数据,如上所述。
现针对图6和7来描述用于基于音频内容进一步自动分析多媒体数据的增强实施例。图6示出致力于特定语音辨识的实施例,而图7示出致力于决定进一步处理的特定字词的辨识的实施例。
如图6所示,实施例600在步骤602接收多媒体数据(通常是PCM格式的音频样本)。如步骤604所示,音频内容可被表示为使背景噪声影响和音频功率水平最小化的MFC系数向量或类似音频特征向量表示。接下来,目标音频内容特征(其例如可包括人的话音或对话)被识别;例如,在步骤606,作为语音片段的多媒体数据部分被定位并且在步骤608被分离用于进一步处理。在步骤612,语音片段然后被呈现给语音ID服务器用于对感兴趣的至少一方面进行可能的辨识。在增强的实施例中,目标音频内容特征通常是人的对话,然而也可以包括笑声、动物的声音和/或依地点而定的声音。
与其他实施例一样,分析可基本上实时地发生,可由资源受限消费类应用来执行,并且可对包括采样的音频帧的RMS功率和/或非线性梅尔尺度频率上的短期MFC功率谱表示在内的音频特征进行操作。再一次地,多媒体数据可包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和/或免费数据,并且所识别的部分可以是音频剪辑、视频图像和/或视频剪辑。与分析对应的元数据也可被生成。
就人的对话而言,所述方面可以是例如正在说话的演员的名字和/或正在说话的角色的名字。通过将识别出的部分(例如语音片段)与语音样本数据库614中的语音样本集进行比较来找到至少一个最佳匹配样本,可辨识所述方面。在步骤610中,所述方面然后在匹配被找到的情况下被输出。比较可包括将语音样本表示为MFC系数向量或其他特征向量,然后从该表示计算欧几里得距离和/或相关量度,并且输出至少一个最佳匹配样本。许多最佳匹配样本可按概率次序被列出,其中最佳匹配样本被定义为基于低欧几里得距离和/或高相关量度而具有高辨识概率的那些样本。最小差异阈值也可被应用来帮助排除不匹配的样本。因此,仅基于音频分析,用户就可快速且容易地识别多媒体内容中的特定演员或说话者或角色。
可对来自各种多媒体数据源的动物的声音或依地点而定的声音执行类似的分析。例如,纪录片、真实TV表演或海滩假期的假日旅行视频可各自包括海鸥和撞击的海浪的可辨识的声音。对于如可能发生在打斗场景中的喧闹的、快速的、猛烈的声音的辨识或者对于如可能发生在浪漫的餐馆场景中的安静然而可辨识的声音的辨识可进一步帮助分析场景特性,如之前描述过的。
另外,现参考图7,增强的实施例700可具体地将人的对话作为目标,并且辨识多媒体数据中的诸如字词和它们相应的时间戳之类的方面。步骤702中的传入多媒体数据(再一次地,通常是PCM格式的音频样本,然而还包括隐藏字幕(closed caption)文本和如前所述的其他数据)在步骤704中在传入数据尚不是文本形式的情况下被从话音转换到文本。文本流被发送到web服务器706用于选择最有意义的内容字词。帮助索引到传入文件或流的所选字词及其相应的时间戳可帮助标识多媒体数据中的多媒体信息内容从而使得后续处理更容易。例如,在步骤708,广告服务器可找到并输出与所标识内容最佳相关的广告710。
增强的实施例还可以使用辨识出的方面来通过定向搜索找到与所述方面指示有关的更多多媒体数据。更多多媒体数据可包括相关的电影、正上映的电影、电影预览、正发生的事件、所辨识的演员的档案、影片集锦、有关辨识出的地点的信息和/或场景特性。与所找到的更多多媒体数据有关的商品和服务广告也可呈现给用户。更多多媒体数据可按需提供,例如当用户在细读多媒体数据时选择“更多”菜单时提供或者根据对用户兴趣的预期来预先取得,从而用户可获得想要细读的数据而无需特别地对其进行请求并等待其到达。
增强的实施例也可以通过经验来学习。对辨识出的方面指示的用户确认可被存储并用来通过合并并选择性地加强在先辨识来改进辨识准确性。因此,通过提供更新相应数据库和实施例的决定引擎的指导,一个用户可有效地辅助其他用户。
如在此使用的术语“一”或“一个”应意味着一个或多于一个。术语“多个”应意味着两个或多于两个。术语“另一个”被定义为第二个或更多个。数据“包含”和/或“具有”是开放式的(例如包括)。贯穿此文档提到的“一个实施例”、“某些实施例”、“实施例”或类似术语意味着联系实施例描述的具体特征、结构或特性被包括在至少一个实施例中。因此,在此说明书中各处出现的这些短语不一定都是指同一个实施例。另外,具体特征、结构或特性可基于一个或多个实施例被以任意合适的方式组合而不受限制。如在此使用的术语“或者”应被解释为包含的或者意味着任一个或任意组合。因此,“A、B或C”意味着“以下中的任一个:A;B;C;A和B;A和C;B和C;A、B和C”。对此定义的例外将仅在要素、功能、步骤或行为的组合以某种方式固有地互斥时发生。
根据计算机编程领域的技术人员的实践,以下参考由计算机系统或类似电子系统执行的操作来描述实施例。这些操作有时被称作计算机运行的。应理解,符号化表示的操作包括诸如中央处理单元之类的处理器对表示存储器位置处(比如在系统存储器中)的数据比特以及数据比特的维护的电子信号的操纵以及其他的信号处理。数据比特被维护的存储器位置是具有与数据比特相对应的具体电、磁、光或有机属性的物理位置。
当以软件实现时,实施例的要素实质上是用于执行必要任务的代码段。非瞬时性的代码段可被存储在处理器可读介质或计算机可读介质中,其可包括能存储或传送信息的任意介质。这样的介质的示例包括:电子电路、半导体存储器件、只读存储器(ROM)、闪存或其他非易失性存储器、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路等等。用户输入可包括键盘、鼠标、触摸屏、语音命令输入等的任意组合。用户输入可类似地被用于将在用户计算设备上运行的浏览器应用引至一个或多个从其可访问计算资源的网络资源,比如web页面。
虽然联系具体示例和各种实施例描述了本发明,但是本领域技术人员应该容易理解,这里描述的发明的许多修正和修改是可能的而不会背离如在权利要求书中主张的本发明的精神和范围。因此,要清楚理解,仅作为示例而非作为对在权利要求书中主张的本发明的范围的限制而做出本申请。描述意欲覆盖本发明的任意变体、使用或修改,本发明一般地遵循本发明的原理并且包括从本公开的出发的落入本领域中本发明所涉及的已知和习惯实践范围内的变更。
相关申请的交叉引用
本申请与以下三个其他申请相关,代理人案号为S1162.1100US-1的题为“视频镜头媒体引擎”的申请、代理人案号为S1162.1100US-2的题为“可修改的视频镜头媒体引擎”的申请以及代理人案号为S1162.1100US-3的题为“用于特征选择的视频镜头媒体系统”的申请,这三个申请中的每个申请的全部内容都通过引用被结合于此。

Claims (10)

1.一种用于自动分析多媒体数据的方法,包括:
接收多媒体数据;
识别具有目标音频内容特征的至少一个多媒体数据部分;
辨识所识别特征的至少一个方面;以及
响应性地输出对所述方面的指示。
2.根据权利要求1所述的方法,其中所述分析实时地发生,由资源受限消费类应用来执行,并对包括采样的音频帧的RMS功率和非线性梅尔测度频率上的短期MFC功率谱表示中的至少一个的音频特征进行操作。
3.根据权利要求1所述的方法,其中所述多媒体数据包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和免费数据中的至少一个,并且其中所识别部分是音频剪辑、视频图像和视频剪辑中的至少一个。
4.根据权利要求1所述的方法,还包括生成与所述分析相对应的元数据。
5.根据权利要求1所述的方法,其中所述目标音频内容特征是人的对话、笑声、动物的声音和依地点而定的声音中的至少一个。
6.根据权利要求1所述的方法,其中所述目标音频内容特征是人的对话并且所述方面是正在说话的演员的名字和正在说话的角色的名字中的至少一个,
其中,所述方法还包括通过以下步骤来辨识所述方面:
将所识别部分与语音样本集进行比较来找出至少一个最佳匹配样本;以及
输出说话者姓名和角色姓名中的至少一个。
7.根据权利要求6所述的方法,其中所述比较步骤包括:
将语音样本表示为MFC系数向量和特征向量中的一个;
从所述表示计算欧几里得距离和相关量度中的至少一个;以及
按概率的次序输出至少一个最佳匹配样本,该最佳匹配样本具有低欧几里得距离和高相关量度中的至少一个,
其中,所述方法还包括应用最小差异阈值来排除不匹配样本。
8.根据权利要求1所述的方法,其中所述目标音频内容特征是人的对话并且所述方面包括字词和相应的时间戳,
其中,所述方法还包括通过以下步骤来辨识所述方面:
在所述字词不是文本形式的情况下选择性地将话音转换为文本;
选择最有意义的内容字词;以及
输出所选字词和相应的时间戳。
9.根据权利要求1所述的方法,还包括:
通过定向搜索找到与所述指示有关的更多多媒体数据;
存储对所述指示的用户确认;以及
通过合并在先辨识来改进辨识准确性,
其中,所述更多多媒体数据按照对用户兴趣的预期被预先取得,并且其中,所述更多多媒体数据包括相关电影、正上映的电影、电影预览、正发生的事件、档案、影片集锦、相关广告、有关辨识出的地点的信息和场景特性中的至少一个。
10.一种用于自动分析多媒体数据的系统,包括:
用于接收多媒体数据的装置;
用于识别具有目标音频内容特征的至少一个多媒体数据部分的装置;
用于辨识所识别特征的至少一个方面的装置;以及
用于响应性地输出对所述方面的指示的装置。
CN2012102060012A 2011-06-28 2012-06-14 用于音频辨识的扩展的视频镜头媒体引擎 Pending CN102915320A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/171,246 US8938393B2 (en) 2011-06-28 2011-06-28 Extended videolens media engine for audio recognition
US13/171,246 2011-06-28

Publications (1)

Publication Number Publication Date
CN102915320A true CN102915320A (zh) 2013-02-06

Family

ID=47391469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102060012A Pending CN102915320A (zh) 2011-06-28 2012-06-14 用于音频辨识的扩展的视频镜头媒体引擎

Country Status (2)

Country Link
US (1) US8938393B2 (zh)
CN (1) CN102915320A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424955A (zh) * 2013-08-29 2015-03-18 国际商业机器公司 生成音频的图形表示的方法和设备、音频搜索方法和设备
TWI514861B (zh) * 2013-04-19 2015-12-21 Chih Yao Lin 影音播放媒體之廣告方法
CN106105233A (zh) * 2014-03-10 2016-11-09 思科技术公司 用于导出视频内容的时间轴元数据的系统和方法
CN108391064A (zh) * 2018-02-11 2018-08-10 北京秀眼科技有限公司 一种视频剪辑方法及装置

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8769048B2 (en) 2008-06-18 2014-07-01 Commvault Systems, Inc. Data protection scheduling, such as providing a flexible backup window in a data protection system
US9128883B2 (en) 2008-06-19 2015-09-08 Commvault Systems, Inc Data storage resource allocation by performing abbreviated resource checks based on relative chances of failure of the data storage resources to determine whether data storage requests would fail
US8352954B2 (en) 2008-06-19 2013-01-08 Commvault Systems, Inc. Data storage resource allocation by employing dynamic methods and blacklisting resource request pools
US8725688B2 (en) 2008-09-05 2014-05-13 Commvault Systems, Inc. Image level copy or restore, such as image level restore without knowledge of data object metadata
US8959071B2 (en) 2010-11-08 2015-02-17 Sony Corporation Videolens media system for feature selection
EP2678820A4 (en) * 2011-02-27 2014-12-03 Affectiva Inc VIDEO RECOMMENDATION BASED ON AN AFFECT
US9406303B2 (en) * 2011-11-18 2016-08-02 Sirius Xm Radio Inc. Systems and methods for implementing cross-fading, interstitials and other effects downstream
MX343807B (es) 2012-03-06 2016-11-24 Sirius Xm Radio Inc Sistemas y métodos para el mapeo de atributos de audio.
US10157184B2 (en) * 2012-03-30 2018-12-18 Commvault Systems, Inc. Data previewing before recalling large data files
CA2870884C (en) 2012-04-17 2022-06-21 Sirius Xm Radio Inc. Systems and methods for implementing efficient cross-fading between compressed audio streams
EP2872079B1 (en) * 2012-07-16 2021-03-24 Valco Acquisition LLC as Designee of Wesley Holdings Ltd. Medical procedure monitoring system
US8881209B2 (en) * 2012-10-26 2014-11-04 Mobitv, Inc. Feedback loop content recommendation
US10971191B2 (en) 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
US9633216B2 (en) 2012-12-27 2017-04-25 Commvault Systems, Inc. Application of information management policies based on operation with a geographic entity
US9459968B2 (en) 2013-03-11 2016-10-04 Commvault Systems, Inc. Single index to query multiple backup formats
US9798596B2 (en) 2014-02-27 2017-10-24 Commvault Systems, Inc. Automatic alert escalation for an information management system
US9648100B2 (en) 2014-03-05 2017-05-09 Commvault Systems, Inc. Cross-system storage management for transferring data across autonomous information management systems
US20150319506A1 (en) * 2014-04-30 2015-11-05 Netflix, Inc. Displaying data associated with a program based on automatic recognition
US9740574B2 (en) 2014-05-09 2017-08-22 Commvault Systems, Inc. Load balancing across multiple data paths
WO2015192130A1 (en) * 2014-06-13 2015-12-17 Godfrey Mark T Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
CN104023070B (zh) * 2014-06-16 2017-02-15 杜海洋 基于云存储的文件压缩方法
US11249858B2 (en) 2014-08-06 2022-02-15 Commvault Systems, Inc. Point-in-time backups of a production application made accessible over fibre channel and/or ISCSI as data sources to a remote application by representing the backups as pseudo-disks operating apart from the production application and its host
US9852026B2 (en) 2014-08-06 2017-12-26 Commvault Systems, Inc. Efficient application recovery in an information management system based on a pseudo-storage-device driver
US9444811B2 (en) 2014-10-21 2016-09-13 Commvault Systems, Inc. Using an enhanced data agent to restore backed up data across autonomous storage management systems
US10091260B2 (en) 2015-03-23 2018-10-02 Adobe Systems Incorporated Copy and paste for web conference content
US11488569B2 (en) 2015-06-03 2022-11-01 Smule, Inc. Audio-visual effects system for augmentation of captured performance based on content thereof
GB2554322B (en) 2015-06-03 2021-07-14 Smule Inc Automated generation of coordinated audiovisual work based on content captured from geographically distributed performers
US9766825B2 (en) 2015-07-22 2017-09-19 Commvault Systems, Inc. Browse and restore for block-level backups
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
US10296368B2 (en) 2016-03-09 2019-05-21 Commvault Systems, Inc. Hypervisor-independent block-level live browse for access to backed up virtual machine (VM) data and hypervisor-free file-level recovery (block-level pseudo-mount)
CN107507627B (zh) * 2016-06-14 2021-02-02 科大讯飞股份有限公司 语音数据热度分析方法及系统
US10838821B2 (en) 2017-02-08 2020-11-17 Commvault Systems, Inc. Migrating content and metadata from a backup system
US10740193B2 (en) 2017-02-27 2020-08-11 Commvault Systems, Inc. Hypervisor-independent reference copies of virtual machine payload data based on block-level pseudo-mount
US10891069B2 (en) 2017-03-27 2021-01-12 Commvault Systems, Inc. Creating local copies of data stored in online data repositories
US10776329B2 (en) 2017-03-28 2020-09-15 Commvault Systems, Inc. Migration of a database management system to cloud storage
US11074140B2 (en) 2017-03-29 2021-07-27 Commvault Systems, Inc. Live browsing of granular mailbox data
US11310538B2 (en) 2017-04-03 2022-04-19 Smule, Inc. Audiovisual collaboration system and method with latency management for wide-area broadcast and social media-type user interface mechanics
CN110692252B (zh) 2017-04-03 2022-11-01 思妙公司 具有用于广域广播的延迟管理的视听协作方法
CN107124648A (zh) * 2017-04-17 2017-09-01 浙江德塔森特数据技术有限公司 通过智能终端识别广告视频来源的方法
US10349134B2 (en) * 2017-05-10 2019-07-09 Accenture Global Solutions Limited Analyzing multimedia content using knowledge graph embeddings
US10845956B2 (en) 2017-05-31 2020-11-24 Snap Inc. Methods and systems for voice driven dynamic menus
US10664352B2 (en) 2017-06-14 2020-05-26 Commvault Systems, Inc. Live browsing of backed up data residing on cloned disks
CN111031271B (zh) 2017-12-20 2022-07-29 海信视像科技股份有限公司 智能电视及电视画面截图的图形用户界面的显示方法
US10795927B2 (en) 2018-02-05 2020-10-06 Commvault Systems, Inc. On-demand metadata extraction of clinical image data
US10754729B2 (en) 2018-03-12 2020-08-25 Commvault Systems, Inc. Recovery point objective (RPO) driven backup scheduling in a data storage management system
US10789387B2 (en) 2018-03-13 2020-09-29 Commvault Systems, Inc. Graphical representation of an information management system
CN108537157B (zh) * 2018-03-30 2019-02-12 特斯联(北京)科技有限公司 一种基于人工智能分类实现的视频场景判断方法与装置
US10965985B2 (en) 2018-05-21 2021-03-30 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
US11507619B2 (en) * 2018-05-21 2022-11-22 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
CN110503970B (zh) * 2018-11-23 2021-11-23 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
US10860443B2 (en) 2018-12-10 2020-12-08 Commvault Systems, Inc. Evaluation and reporting of recovery readiness in a data storage management system
WO2020167660A1 (en) * 2019-02-11 2020-08-20 Gemiini Educational Systems, Inc. Verbal expression system
US11308034B2 (en) 2019-06-27 2022-04-19 Commvault Systems, Inc. Continuously run log backup with minimal configuration and resource usage from the source machine
US12124553B2 (en) 2020-01-08 2024-10-22 Disney Enterprises, Inc. Content authentication based on intrinsic attributes
US11403369B2 (en) 2020-01-21 2022-08-02 Disney Enterprises, Inc. Secure content processing pipeline
US11425120B2 (en) 2020-02-11 2022-08-23 Disney Enterprises, Inc. Systems for authenticating digital contents
CN116320595B (zh) * 2023-02-08 2025-11-21 联想(北京)有限公司 多媒体数据的录制方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1352450A (zh) * 2000-11-15 2002-06-05 中国科学院自动化研究所 中国人名、地名和单位名的语音识别方法
US20030115047A1 (en) * 1999-06-04 2003-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for voice recognition in mobile communication systems
CN1703694A (zh) * 2001-12-11 2005-11-30 皇家飞利浦电子股份有限公司 用于在视频节目中检索与人物相关的信息的系统和方法

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US20030093790A1 (en) 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
US6496228B1 (en) 1997-06-02 2002-12-17 Koninklijke Philips Electronics N.V. Significant scene detection and frame filtering for a visual indexing system using dynamic thresholds
US7295752B1 (en) 1997-08-14 2007-11-13 Virage, Inc. Video cataloger system with audio track extraction
US6377995B2 (en) * 1998-02-19 2002-04-23 At&T Corp. Indexing multimedia communications
US6400652B1 (en) * 1998-12-04 2002-06-04 At&T Corp. Recording system having pattern recognition
WO2000040011A1 (en) 1998-12-28 2000-07-06 Sony Corporation Method for editing video information and editing device
US6748481B1 (en) * 1999-04-06 2004-06-08 Microsoft Corporation Streaming information appliance with circular buffer for receiving and selectively reading blocks of streaming information
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US7181757B1 (en) 1999-10-11 2007-02-20 Electronics And Telecommunications Research Institute Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
KR100305964B1 (ko) 1999-10-22 2001-11-02 구자홍 사용자 적응적인 다단계 요약 스트림 제공방법
US7260564B1 (en) 2000-04-07 2007-08-21 Virage, Inc. Network video guide and spidering
US7222163B1 (en) 2000-04-07 2007-05-22 Virage, Inc. System and method for hosting of video content over a network
AU2001283004A1 (en) 2000-07-24 2002-02-05 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US8949878B2 (en) 2001-03-30 2015-02-03 Funai Electric Co., Ltd. System for parental control in video programs based on multimedia content information
US7003515B1 (en) 2001-05-16 2006-02-21 Pandora Media, Inc. Consumer item matching method and system
JP4615166B2 (ja) 2001-07-17 2011-01-19 パイオニア株式会社 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム
US20030098869A1 (en) 2001-11-09 2003-05-29 Arnold Glenn Christopher Real time interactive video system
US6925197B2 (en) * 2001-12-27 2005-08-02 Koninklijke Philips Electronics N.V. Method and system for name-face/voice-role association
US7739601B1 (en) 2002-01-23 2010-06-15 Microsoft Corporation Media authoring and presentation
US7047494B2 (en) 2002-05-07 2006-05-16 Hewlett-Packard Development Company, L.P. Scalable video summarization
US7349477B2 (en) 2002-07-10 2008-03-25 Mitsubishi Electric Research Laboratories, Inc. Audio-assisted video segmentation and summarization
US20040013405A1 (en) 2002-07-18 2004-01-22 Christiansen Robert D Method for preparing/printing video scene indices
AU2003265318A1 (en) 2002-08-02 2004-02-23 University Of Rochester Automatic soccer video analysis and summarization
US7778438B2 (en) 2002-09-30 2010-08-17 Myport Technologies, Inc. Method for multi-media recognition, data conversion, creation of metatags, storage and search retrieval
JP4036328B2 (ja) 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
WO2004061711A1 (en) 2003-01-06 2004-07-22 Koninklijke Philips Electronics N.V. Method and apparatus for similar video content hopping
US7212666B2 (en) 2003-04-01 2007-05-01 Microsoft Corporation Generating visually representative video thumbnails
US7734568B2 (en) 2003-06-26 2010-06-08 Microsoft Corporation DVD metadata wizard
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US7697785B2 (en) 2004-03-31 2010-04-13 Fuji Xerox Co., Ltd. Generating a highly condensed visual summary
US20050234985A1 (en) 2004-04-09 2005-10-20 Nexjenn Media, Inc. System, method and computer program product for extracting metadata faster than real-time
US7302451B2 (en) * 2004-05-07 2007-11-27 Mitsubishi Electric Research Laboratories, Inc. Feature identification of events in multimedia
EP1834157A2 (en) 2005-01-06 2007-09-19 SHULMAN, Alan Navigation and inspection system
US7617188B2 (en) * 2005-03-24 2009-11-10 The Mitre Corporation System and method for audio hot spotting
KR20060127459A (ko) * 2005-06-07 2006-12-13 엘지전자 주식회사 디지털방송 콘텐츠 변환 기능을 갖는 디지털방송용 단말기및 그 방법
US8013229B2 (en) * 2005-07-22 2011-09-06 Agency For Science, Technology And Research Automatic creation of thumbnails for music videos
NO327155B1 (no) 2005-10-19 2009-05-04 Fast Search & Transfer Asa Fremgangsmåte for å vise videodata innenfor resultatpresentasjoner i systemer for aksessering og søking av informasjon
US20110246483A1 (en) 2006-03-21 2011-10-06 21St Century Technologies, Inc. Pattern Detection and Recommendation
US7668369B2 (en) 2006-04-26 2010-02-23 Hewlett-Packard Development Company, L.P. Using camera metadata to classify images into scene type classes
US20080222120A1 (en) 2007-03-08 2008-09-11 Nikolaos Georgis System and method for video recommendation based on video frame features
AU2007261457A1 (en) 2006-06-16 2007-12-27 Droplet Technology, Inc. System, method and apparatus of video processing and applications
US7826675B2 (en) 2006-07-04 2010-11-02 Hewlett-Packard Development Company, L.P. Feature-aware image defect removal
US20080071749A1 (en) 2006-09-17 2008-03-20 Nokia Corporation Method, Apparatus and Computer Program Product for a Tag-Based Visual Search User Interface
US8196045B2 (en) 2006-10-05 2012-06-05 Blinkx Uk Limited Various methods and apparatus for moving thumbnails with metadata
US20080209330A1 (en) 2007-02-23 2008-08-28 Wesley Cruver System and Method for Collaborative and Interactive Communication and Presentation over the Internet
US20080229357A1 (en) 2007-03-15 2008-09-18 Sony Corporation Video Content Identification Using Scene Lengths
EP2153641B2 (en) 2007-04-13 2021-10-27 Ari M. Presler Digital cinema camera system for recording, editing and visualizing images
US20080267504A1 (en) 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
WO2008131520A1 (en) 2007-04-25 2008-11-06 Miovision Technologies Incorporated Method and system for analyzing multimedia content
US8224087B2 (en) 2007-07-16 2012-07-17 Michael Bronstein Method and apparatus for video digest generation
US8442384B2 (en) 2007-07-16 2013-05-14 Michael Bronstein Method and apparatus for video digest generation
US20090210395A1 (en) 2008-02-12 2009-08-20 Sedam Marc C Methods, systems, and computer readable media for dynamically searching and presenting factually tagged media clips
US20090328102A1 (en) 2008-06-26 2009-12-31 Microsoft Corporation Representative Scene Images
US8259082B2 (en) * 2008-09-12 2012-09-04 At&T Intellectual Property I, L.P. Multimodal portable communication interface for accessing video content
US8239359B2 (en) 2008-09-23 2012-08-07 Disney Enterprises, Inc. System and method for visual search in a video media player
US20100103173A1 (en) 2008-10-27 2010-04-29 Minkyu Lee Real time object tagging for interactive image display applications
US20100235313A1 (en) * 2009-03-16 2010-09-16 Tim Rea Media information analysis and recommendation platform
US20100315506A1 (en) 2009-06-10 2010-12-16 Microsoft Corporation Action detection in video through sub-volume mutual information maximization
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
US20110047163A1 (en) 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
US9208776B2 (en) * 2009-10-05 2015-12-08 At&T Intellectual Property I, L.P. System and method for speech-enabled access to media content by a ranked normalized weighted graph
US9098758B2 (en) * 2009-10-05 2015-08-04 Adobe Systems Incorporated Framework for combining content intelligence modules
US20110113461A1 (en) 2009-10-07 2011-05-12 Robert Laganiere Video analytics based control of video data storage
US8660355B2 (en) 2010-03-19 2014-02-25 Digimarc Corporation Methods and systems for determining image processing operations relevant to particular imagery
US9311395B2 (en) 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
US9251503B2 (en) 2010-11-01 2016-02-02 Microsoft Technology Licensing, Llc Video viewing and tagging system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030115047A1 (en) * 1999-06-04 2003-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for voice recognition in mobile communication systems
CN1352450A (zh) * 2000-11-15 2002-06-05 中国科学院自动化研究所 中国人名、地名和单位名的语音识别方法
CN1703694A (zh) * 2001-12-11 2005-11-30 皇家飞利浦电子股份有限公司 用于在视频节目中检索与人物相关的信息的系统和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI514861B (zh) * 2013-04-19 2015-12-21 Chih Yao Lin 影音播放媒體之廣告方法
CN104424955A (zh) * 2013-08-29 2015-03-18 国际商业机器公司 生成音频的图形表示的方法和设备、音频搜索方法和设备
CN104424955B (zh) * 2013-08-29 2018-11-27 国际商业机器公司 生成音频的图形表示的方法和设备、音频搜索方法和设备
CN106105233A (zh) * 2014-03-10 2016-11-09 思科技术公司 用于导出视频内容的时间轴元数据的系统和方法
CN108391064A (zh) * 2018-02-11 2018-08-10 北京秀眼科技有限公司 一种视频剪辑方法及装置

Also Published As

Publication number Publication date
US20130006625A1 (en) 2013-01-03
US8938393B2 (en) 2015-01-20

Similar Documents

Publication Publication Date Title
US8938393B2 (en) Extended videolens media engine for audio recognition
US8971651B2 (en) Videolens media engine
US9888279B2 (en) Content based video content segmentation
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
Li et al. Video content analysis using multimodal information: For movie content extraction, indexing and representation
US20160014482A1 (en) Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
US10789990B2 (en) Video data learning and prediction
US10326829B2 (en) Television key phrase detection
Moreira et al. Multimodal data fusion for sensitive scene localization
JP7541972B2 (ja) 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理
EP4550274A1 (en) Processing and contextual understanding of video segments
CN106105233A (zh) 用于导出视频内容的时间轴元数据的系统和方法
Midoglu et al. Mmsys' 22 grand challenge on ai-based video production for soccer
Iwan et al. Temporal video segmentation: detecting the end-of-act in circus performance videos
KR102160095B1 (ko) 미디어 컨텐츠 구간 분석 방법 및 이를 지원하는 서비스 장치
US12541949B2 (en) Contextual understanding of media content to generate targeted media content
US20250142183A1 (en) Scene break detection
Daneshi et al. Eigennews: Generating and delivering personalized news video
US12439108B2 (en) Video clip learning model
US20250330665A1 (en) Adaptive ad break classification and recommendation based on multimodal media features
Yeh et al. Movie story intensity representation through audiovisual tempo analysis
Kataria et al. Scene intensity estimation and ranking for movie scenes through direct content analysis
CN119232969A (zh) 一种内容聚合方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130206