CN1842867A

CN1842867A - 使用模糊一级支持向量机的自动视频摘要装置和方法

Info

Publication number: CN1842867A
Application number: CNA2004800244388A
Authority: CN
Inventors: 崔瑛殖; 李相沦; 金宣廷
Original assignee: KT Corp
Current assignee: KT Corp
Priority date: 2003-06-27
Filing date: 2004-06-28
Publication date: 2006-10-04
Anticipated expiration: 2024-06-28
Also published as: KR20050000483A; JP2007528622A; CN1842867B; JP2009201144A; HK1097645A1; WO2005001838A1; US20070046669A1; JP4965250B2; US8238672B2; KR100708337B1

Abstract

本发明公开了一种自动视频摘要设备和方法，其使用模糊OC－SVM(一级支持向量机)算法。它反映用户的主观判断，以产生有效的视频摘要，并提供一种用于产生灵活的视频摘要信息的方法，该方法满足用户环境或用户要求。从给定的视频提取重要视频片段，并且从视频片段提取关键帧序列，由此，用户可以快速捕捉视频内容并访问期望的视频场景。

Description

使用模糊一级支持向量机的自动视频摘要装置和方法

技术领域

本发明涉及视频摘要技术。更具体地说，本发明涉及一种使用模糊一级支持向量机的自动视频摘要设备和方法。

背景技术

由于大容量多媒体数据库的增长以及通信和数字介质处理技术的发展，提供了各种电影，因此已经实行了在删节视频的摘要信息基础上的检索服务以试图增加用户的方便性和满意度。然而，当前大部分视频由人工直接处理，通过分类和提取合适的场景或图片来删节。

随着各类与视频有关的商业的繁荣，自动分析大量视频的要求也在增加，因此，已经在积极地倡导用于解决上述问题的各种研究。

视频删节方法分为：视频浏览、强调和视频摘要。

视频浏览方案是一种连续连接不同部分并产生简短视频概要的方法，所述部分是从视频和音频数据中提取的具有重要意义的部分。强调方案是一种在预定事件的基础上从视频中分类有意义的部分并删节它们的方法。视频摘要是从视频中挑选出有意义的内容和结构信息。通常以关键帧(静像)序列表示视频摘要结果，并且视频删节的研究旨在产生视频摘要信息。

由关键帧表示的视频摘要使用户一看就领会全部视频内容，并作为具有相应关键帧的场景或镜头(shot)的入口。因此，视频摘要任务也是选择最佳关键帧的任务或选择其中有最佳关键帧的片段的任务，而且视觉特征例如颜色和动作的视觉特征用作选择关键帧的重要因素。

按照它的应用范围，视频摘要分为基于镜头的摘要和基于片段的摘要。

基于镜头的摘要是一种展示短视频的方法，也就是具有若干关键帧的视频剪辑，而基于片段的摘要是一种删节全部长视频的技术。

因为基于片段的删节技术的应用范围更广，所以近来更多的研究集中在基于片段的摘要。本公开发明同样针对基于片段的摘要。

按片段删节分开的视频的方法包括：(a)分析临时窗口中镜头间相关性、并将具有高相关性的镜头分为故事单元(或场景)的镜头分组方法和(b)分析通过传统聚类获得的聚类特征并选择重要聚类的方法。

这些方法可以依据使用什么视觉特征或选择哪个镜头作为典型而进一步划分。

上述方法共有的一个重要问题是典型的判断过于依赖阈值。也就是说，典型的镜头基于已建立的特定阈值来决定。例如，选择重要性大于阈值的镜头或重要性在前10％范围内的镜头。阈值由实验决定。严重依赖实验阈值的视频删节算法所导致的问题是视频删节系统可以很有效地应用到一些特定的视频，但它难以用于不同类型的视频。

同样，该问题在处理不同种类视频信息的应用范围内可能是致命的缺陷，而通过实验设置最佳阈值的工作需要巨大的成本。

基于人为判断和视觉特征的主观判断可作为选择视频摘要关键帧的重要因素。

事实上当用户手动删节视频时，他可以创建视频摘要，该摘要通过引入主观判断打动人心。所以，需要对视频删节过程应用该主观判断，以产生有效的视频摘要。

另外，必须产生考虑用户环境的可扩展视频摘要信息，以产生更有效的视频摘要。

发明内容

本发明的一个优点是提供一种产生视频摘要的技术，通过从给定视频中提取重要视频片段并从视频片段中提取关键帧序列使用户领会视频内容并访问期望的视频场景。

本发明的一个方面，一种自动视频摘要器，包括：输入单元，用来接收要概括的视频资源和用户期望的摘要时间；重要度测量模块，用来按照视频的种类特征和所期望摘要的目的产生重要度等级；和视频摘要生成模块，用来将镜头信息和重要度值用于特征支持向量算法，并产生视频摘要。

特征支持向量算法是OC-SVM(一级支持向量机)算法，进一步是模糊OC-SVM算法。

自动视频摘要器进一步包括镜头检测模块，用于为各个镜头提取视频资源。

自动视频摘要器包括：向屏幕输出所产生的视频摘要的输出单元；和存储所产生的视频摘要的存储单元。

视频摘要生成模块包括：特征支持向量模块，用来将镜头信息和重要度值用于特征支持向量算法，并产生视频摘要；和扩展处理模块，用于接收来自用户的摘要时间信息，重复地执行扩展过程，并产生用户期望的时间范围的视频摘要。

镜头检测模块检测要概括的视频资源中的镜头，配置镜头列表，并将该镜头列表传送到视频摘要生成模块。

本发明的另一个方面，一种自动视频摘要方法，包括：(a)接收要概括的视频资源和用户期望的摘要时间；(b)为每个镜头提取视频资源；(c)按照视频的种类特征和所期望摘要的目的产生重要度等级；和(d)将镜头信息和重要度值应用到特征支持向量算法，并产生视频摘要。

本发明的又一个方面，一种自动视频摘要方法，包括：(a)接收要概括的视频资源和用户期望的摘要时间；(b)按照视频的种类特征和所期望摘要的目的产生重要度等级；(c)将镜头信息和重要度值应用到特征支持向量算法，并产生视频摘要；(d)向屏幕输出产生的视频摘要；和(e)存储所产生的视频摘要。

本发明的另一个方面，一种存储自动视频摘要方法的程序的记录介质，该方法：接收要提取摘要的视频资源和用户期望的摘要时间；为每个镜头提取视频资源；按照视频的种类特征和所期望摘要的目的产生重要度等级；以及将镜头信息和重要度值应用到特征支持向量算法，并产生视频摘要。

当用户搜索网络文件时，搜索引擎提供网页的摘要信息，通过允许用户在没有访问所有搜索到的结果网站情况下猜测其内容，以减少信息查找时间。

在一个与其类似的方式中，视频摘要的主要目的是允许用户在没有看到全部视频时了解其内容并使信息访问的效果最佳。当考虑视频信息的数量时，自动产生视频摘要的技术变得比文本摘要技术更重要。

此外，用较少量的数据传送重要信息的视频摘要技术将被用作有限带宽的无线环境中的移动视频内容业的核心。

附图说明

结合附图(其组成本说明书的一部分)和描述来说明本发明的实施例并解释本发明的原理，其中：

图1示出使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器；

图2示出使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器的操作流程图；

图3示出应用于生成可扩展摘要信息的可扩展新颖性检测的示意图；和

图4和图5示出电影和音乐视频的试验结果，说明按照重复抽取重要片段(相对于全部片段)增加的重要片段的比率和片段覆盖整个视频事件的比率。

具体实施方式

本发明从将分析视频摘要作为新的检测问题的概念开始，脱离阈值依赖方法。也就是说，定义视觉特征不同于那些其它帧的帧作为给定视频的典型帧。

OC-SVM(一级支持向量机)为新检测问题提供良好的执行性能。SVM源于基于统计学习理论的学习方法，当未标识新数据到达时，它使用标识数据允许机器学习并推导出正确的答案。

SVM不同于传统的学习方法，它使结构风险最小化，使用一种在向量空间寻找最优决策边界区的方法，并在二元分类问题如模式识别中提供好的结果。在它们之中，OC-SVM基于SVM决策边界区目标定位在已标识正类的数据，即表示最好在正类和负类之间的对象的数据。例如，用户在文本或图像搜索的情况下对所有搜索到的数据中的很小部分感兴趣。在这种情况下重要的不是所有数据，而是一些正样本。

OC-SVM并不预计给定数据的分配，但是预计最佳描述给定数据的优化支持向量。

OC-SVM从大量视频帧中有效地检测具有独有特征的关键帧，因为它对于在一般特征向量空间中找到独有特征向量有用。

然而，在通过OC-SVM获得期望的视频摘要中存在一些限制。由于OC-SVM 目标为应用视觉特征的支持向量，因此很难应用由用户决定的主观元素(例如，其中远景而不是近景可能被给予更重要意义的元素，而且其中最好生成排除了包括新闻节目主持人的片段的摘要信息的元素)，并且即使定义了应用上述元素的特征向量，仍需要结合特征向量与传统的视觉特征向量。

在本发明中，通过定义模糊理论隶属函数来应用用户的主观元素，并且通过结合统计特征向量的模糊OC-SVM找到全部支持向量。

模糊OC-SVM通过使用发现包围给定数据的最小球(sphere)的性质可以产生考虑用户环境具有灵活性的可扩展视频摘要。也就是说，在模糊OC-SVM中，提取最外表面的向量并生成为顶级摘要。剥离表面，找到围绕当前数据的球，并且通过将该向量与先前的向量集相结合，生成详细的视频摘要。根据用户环境适当地重复本过程，可以产生可扩展视频摘要，并且扩展适用于分层群集算法。用于每一级的向量数量最好在优选实施例中得到，并且最好按照与优选实施例不同的分层群集算法中的群集条件执行缩放比例任务。

在下面详细说明中，只显示并描述本发明的优选实施例，简单地通过说明执行本发明的一个或多个发明人所预期的最佳方式。正如要实现的那样，能够在各种明显方面修改本发明，这些修改都没有背离本发明。因此，附图及描述本质上是说明性的而非限制性的。为使本发明清晰，忽略说明中没有描述的部分，并且进行了相似描述的部分具有相同的参考标号。

图1是使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器。

参考图1，自动视频摘要器包括：输入单元40、镜头检测模块10、重要度测量模块20、视频摘要生成模块30、存储单元60和输出单元50。输入单元40接收两种信息，包括：(1)要概括的视频资源和(2)用户期望的摘要时间。镜头检测模块10将全部视频分解为镜头，这是在片段级别对例如电影的视频进行摘要的预先任务。目标定位于短视频的情况、比如视频剪辑可以不需要镜头检测模块10。镜头检测模块10从要概括的视频资源(1)中提取镜头以配置镜头列表，并将镜头列表传送到视频摘要生成模块30。重要度测量模块20按照视频的种类特征或期望摘要的目的产生重要度等级β_j，这依赖目标(如用户手动输入的数据或从数据库检索的数据)以多种方式来执行。视频摘要生成模块30将模糊OC-SVM算法应用到镜头信息和重要值并产生VS(视频摘要)，并根据用户输入的摘要时间信息确定是否进行扩展。需要时，视频摘要生成模块30重复扩展处理模块32的操作，并产生具有用户期望的时间范围的视频摘要。输出单元50向屏幕输出所产生的视频摘要，并且存储单元60存储相应的信息。

描述使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器的操作。

图2是使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器的操作流程图，描述通过应用基于模糊OC-SVM的自动视频摘要方案来执行摘要任务的全部过程。

参考图2详细描述每个任务的执行。

(0)预先任务

视频摘要之前的任务是分析视频帧序列，并且通过镜头检测模块10为每个镜头提取它们。具体说，该任务是从形成视频内容的典型图案的独立帧图像中提取视觉特征，根据提取的视觉特征比较各个帧间的相似性，并且将帧分解成短暂并篇幅地显示连续运动的镜头。然而，同样应用传统的HAC(分层附聚聚类)(hierarchical agglomerativeclustering)或K-平均数聚类方法，从由于上述镜头边界检测未完成而没有分解视频的帧开始。随后的摘要任务是以已划分片段的序列为基础的。

(1)测量重要度等级

重要度测量模块20通过在视频片段上应用用户的主观观点来测量重要度等级，该重要度等级由用户以不同方式定义。重要度等级β_j表示相应片段的重要度，并且它的范围为β∈(0，1)，将通过一些例子对它进行更清楚的描述。

(1-1)考虑片段长度的情况

当假设视频片段的平均长度是m，并且给出标准偏差是σ，片段的重要度用数学式1表示。

【数学式1】

β_{j} = 0.5 [\frac{(duration - m)}{3 σ} + 1]

其中duration是第j个片段的长度。当β_j小于或等于0时，它被调整为很小的值(例如，0.001)，而当β_j大于1时，它被调整为1。

(1-2)根据用户喜好指定片段的情况

例如，当用户从视频片段中指定特定的片段时，或者当用户从另一视频资源指定预存视频片段，并且没有期望视频摘要中包括与指定片段相对应的片段时，按照给出的数学式2定义重要度。

【数学式2】

β_j＝1-sim(X_j，u)

其中sim(x，y)是作为特征向量x和y给出的两个片段间的相似度，u是用户指定的片段的特征向量。

(2)模糊一级支持向量机算法

(2-1)传统的OC-SVM算法

现在描述OC-SVM算法。假设包括从代表视觉特征向量的数据点而来的n个数据点{X_j，j＝1，…，n}的数据集S，并将数据点映射到特征空间的特征映射Φ定义为_(X_j)。在这个特征映射空间中，在数学式3中定义一个点积。

【数学式3】

Φ(x_i)·Φ(x_j)＝K(x_i，x_j)

其中K(x_i，x_j)使用不同的函数，这里使用高斯核函数以便于描述。从而，给出K(x_i，x_j)＝exp(-0.5‖x_i-x_j‖²/σ²)。

OC-SVM目标在于使随后的目标函数最小化。

也就是说，它找到包括特征向量_(X_j)的最小球。

【数学式4】

R²+C∑ξ_j，

‖φ(x_j)-a‖²≤R²+ξ_jandξ_j≥0 __j

当引入拉格朗日乘法器(α_j≥0和μ_j≥0)时，关于L数学式4表示如下。

【数学式5】

L = R^{2} - \underset{j}{Σ} (R^{2} + ξ_{j} - {| | φ (X_{j}) - a | |}^{2}) α_{j} - \underset{j}{Σ} ξ_{j} u_{j} + c \underset{j}{Σ} ξ_{j}

当假设ξ_j为0，L对R、a求导时，得到对偶问题。

【数学式6】

最大化

W＝∑_jφ(x_j)·φ(x_j)α_j-∑_i，jα_iα_jφ(x_j)·φ(x_j)＝∑_jα_jK(x_j，x_i)-∑_i，jα_iα_jK(x_i，x_j)

其中它将满足0≤α_j≤C，∑_jα_j＝1，并且a＝∑_jα_j_(x_j)。在这种情况下，通过使用数学式7中给出的KKT条件最小球的半径R如数学式8。

【数学式7】

ξ_ju_j＝0，

(R²+ξ_j-‖φ(x_j)-α‖²)α_j＝0

【数学式8】

R²＝‖φ(X)-α‖²＝K(X，X)-2∑_iα_iK(X，X_j)+∑_i，jα_iα_jK(X_i，X_j)

其中X是支持向量。a的值由数学式6给出的一般二次规划得到。当从二次规划得到的值大于0时，相应的特征向量X被认为是支持向量。

(2-2)模糊OC-SVM算法

在模糊OC-SVM算法中得出最小球，所述算法结合与(2-1)OC-SVM算法比较的(1)的重要度。

假定数据集S＝{(x1，β1)，(x2，β2)，…，(xn，βn)，(xi，βi)}，其中数据点Xi是从片段中获得的视觉特征向量，并且重要度βi表示相应片段的重要度。将模糊特征映射到数据集S的结果是{β1(_(X1)，…βj_(xj)，…，βn_(xn)}，并且该重要度与(2-1)的OC-SVM应用的数学式如下结合。

【数学式9】

Φ(β_i，x_i)·Φ(β_j，x_j)＝β_iβ_jK(x_i，x_j).

‖β_jφ(x_j)-a‖²≤R²+ξ_j and ξ_j≥0 _j

当数学式9中引入拉格朗日乘法器(α_j≥0并且μ_j≥0)，并且数学式9关于L进行表示时，给出数学式10。

【数学式10】

L = R^{2} - \underset{j}{Σ} (R^{2} + ξ_{j} - {| | β_{j} φ (X_{j}) - a | |}^{2}) α_{j} - \underset{j}{Σ} ξ_{j} u_{j} + c \underset{j}{Σ} ξ_{j}

通过使用L的微分结果对偶问题满足数学式11。

【数学式11】

\max imize W = Σ_{j} α_{j} β_{j}^{2} K (X_{j}, X_{j}) - Σ_{i, j} α_{i} α_{j} β_{i} β_{j} K (X_{i}, X_{j})

同样，等式12给出KKT条件。

【数学式12】

(R²+ξ_j-‖β_jφ(x_j)-α‖²)α_j＝0

当模糊OC-SVM通过上述过程应用时，在数学式13中得到最小球的半径R。

【数学式13】

R²＝‖βφ(X)-α‖²＝β²K(X，X)-2β∑_iα_iβ_iK(X，X_i)+∑_i，jα_iα_jβ_iβ_jK(X_i，X_j)

其中X是支持向量并且β是相应支持向量X的重要度。

(3)应用于视频摘要

通过控制模糊OC-SVM算法的数学式11中的常数C，可以控制支持向量的数目。当假定C＝1时，OC-SVM得到包括特征向量的最小球因为它不允许离群数据(outlier)。因此，假定C的值为1，以便在视频摘要内得到包括特征向量的最小球并且得到的最小球由中央向量a和球的半径R表示。在这种情况下，在球的表面提供支持向量，所述支持向量是在值大于0的向量a上的特征向量。OC-SVM模块31从该表面上提供的特征向量的片段中提取关键帧，并且将其用于视频摘要。

(4)可扩展的视频摘要

使用模糊OC-SVM的目标即找到最小球，这如图3所示。

参考图3，OC-SVM模块31收集提供在第一表面的支持向量并配置视频摘要。当收集的视频摘要不足时，扩展模块32除去形成最外层的球(象剥落洋葱皮一样))。当模糊OC-SVM再次用于剩余的特征向量时，获得紧挨着最外层的球，如图3所示。

新支持向量从新球获得，而在核对最初阶段视频片段和第二阶段增加的片段之后，通过将对应于新支持向量的片段增加到第一个得到的视频摘要而获得稍进一步的详细摘要信息。通过从在最外层提供的球开始，重复地除去球，直到最初的视频片段用尽或直到满足预定的条件，扩展模块32可产生可扩展视频摘要。这些过程概括如下。

输入：包括重要度信息β和特征向量的片段数据

阶段1：接收输入数据，规定数学式4的C＝1，并通过二次规划得到a的值。

阶段2：找到一组满足在阶段1中0＜a的条件的视频片段关键帧，并从输入数据中删除相应的特征向量。

阶段3：

情况1：用阶段2得到的关键帧配置VS(视频摘要)，并第一次进入当前循环时，转到阶段4。

情况2：重复地从TS中删除关键帧，并核对属于该相应关键帧的片段和邻近的片段(从划分的最初视频中得到)是否属于当前VS，直到当进入除第一循环外时删除连续关键帧的序列TS为止，所述关键帧依据片段重要度β以非升序排列。

(1)在片段不属于当前VS情况下，把从TS删除的关键帧加到VS中。

(2)在片段属于当前VS情况下，在最小相似度小于阈值时，把关键帧加到VS中。

阶段4：将在阶段2支持向量删除的数据规定为输入数据，并进入阶段1。(另外当不满足预定的结束条件时，进入阶段1并连续地提取关键帧，而当满足结束条件时，终止该过程。)

图4和图5显示通过应用模糊OC-SVM系统产生电影和音乐视频的视频摘要所产生的模拟结果。

如所示，并不产生依照随机阈值具有固定长度的主要场景，但是通过若干次重复过程配置包括视频中超过90％的重要事件的主要场景，从而产生视频摘要。

在优选实施例中描述的使用模糊一级SVM的视频摘要生成方法考虑了用户在片段及其视觉特征上的主观重要度，并提取优化片段以描述给定视频的内容，从而极大的改善了严重依赖阈值的传统视频摘要，找到适于不同视频特征的最佳阈值并产生适当的视频摘要。

输出单元50将产生的视频摘要显示在屏幕上存储单元60存储输出信息。

虽然结合目前认为是最实用的优选实施例描述了本发明，但是应当理解，本发明不限制于公开的实施例，相反的是，它可以涵盖包括在所附权利要求的精神和范围内的等效方案的各种修改。

Claims

1、一种自动视频摘要器，包括：

输入装置，用来接收要概括的视频资源和用户期望的摘要时间；

重要度测量模块，用来按照视频的种类特征和所期望摘要的目的产生重要度等级；和

视频摘要生成模块，用来将镜头信息和重要度值用于特征支持向量算法，并产生视频摘要。

2、如权利要求1所述的自动视频摘要器，其特征在于所述特征支持向量算法是OC-SVM(一级支持向量机)算法。

3、如权利要求1所述的自动视频摘要器，其特征在于所述特征支持向量算法是模糊OC-SVM算法。

4、如权利要求1所述的自动视频摘要器，进一步包括镜头检测模块，用于为各个镜头提取所述视频资源。

5、如权利要求1到4其中之一所述的自动视频摘要器，包括：

输出单元，用于将产生的视频摘要输出到屏幕；和

存储单元，用于存储产生的视频摘要。

6、如权利要求5所述的自动视频摘要器，其特征在于所述视频摘要生成模块包括：

特征支持向量模块，用来将所述镜头信息和所述重要度值用于所述特征支持向量算法，并产生视频摘要；和

扩展处理模块，用于接收来自用户的摘要时间信息，重复地执行扩展过程，并产生具有用户期望的时间范围的视频摘要。

7、如权利要求6所述的自动视频摘要器，其特征在于所述镜头检测模块检测来自要概括的所述视频资源中的镜头，配置镜头列表，并将所述镜头列表传送到所述视频摘要生成模块。

8、一种自动视频摘要方法，包括：

(a)接收要概括的视频资源和用户期望的摘要时间；

(b)为每个镜头提取所述视频资源；

(c)按照视频的种类特征和所要求摘要的目的产生重要度等级；和

(d)将镜头信息和重要度值应用到特征支持向量算法，并产生视频摘要。

9、如权利要求8所述的自动视频摘要方法，其特征在于所述特征支持向量算法是OC-SVM(一级支持向量机)算法。

10、如权利要求8所述的自动视频摘要方法，其特征在于所述特征支持向量算法是模糊OC-SVM(一级支持向量机)算法。

11、如权利要求8到10其中之一所述的自动视频摘要方法，进一步包括：

将产生的视频摘要输出到屏幕；和

存储产生的视频摘要。

12、如权利要求11所述的自动视频摘要方法，其特征在于(d)包括将所述镜头信息和重要度值应用到所述特征支持向量算法，产生视频摘要，基于从用户接收的摘要时间信息重复执行扩展过程并产生具有用户期望的时间范围的视频摘要。

13、一种自动视频摘要方法，包括：

(a)接收要概括的视频资源和用户期望的摘要时间；

(b)按照视频的种类特征和所期望摘要的目的产生重要度；

(c)将镜头信息和重要度值应用到特征支持向量算法，并产生视频摘要；

(d)将产生的视频摘要输出到屏幕；和

(e)存储产生的视频摘要。

14、如权利要求13所述的自动视频摘要方法，其特征在于特征支持向量算法是OC-SVM(一级支持向量机)算法。

15、如权利要求13所述的自动视频摘要方法，其特征在于特征支持向量算法是模糊OC-SVM算法。

16、一种用于存储自动视频摘要方法的程序的记录介质，所述方法包括：

接收要概括的视频资源和用户期望的摘要时间；

为每个镜头提取所述视频资源；

按照视频的种类特征和所要求摘要的目的产生重要度；和

将镜头信息和重要度值应用到特征支持向量算法，并产生视频摘要。

17、如权利要求16所述的记录介质，其特征在于特征支持向量算法是OC-SVM(一级支持向量机)算法。

18、如权利要求16所述的记录介质，其特征在于特征支持向量算法是模糊OC-SVM算法。