[go: up one dir, main page]

CN1842867A - 使用模糊一级支持向量机的自动视频摘要装置和方法 - Google Patents

使用模糊一级支持向量机的自动视频摘要装置和方法 Download PDF

Info

Publication number
CN1842867A
CN1842867A CNA2004800244388A CN200480024438A CN1842867A CN 1842867 A CN1842867 A CN 1842867A CN A2004800244388 A CNA2004800244388 A CN A2004800244388A CN 200480024438 A CN200480024438 A CN 200480024438A CN 1842867 A CN1842867 A CN 1842867A
Authority
CN
China
Prior art keywords
video
video frequency
support vector
algorithm
svm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800244388A
Other languages
English (en)
Other versions
CN1842867B (zh
Inventor
崔瑛殖
李相沦
金宣廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KT Corp
Original Assignee
KT Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KT Corp filed Critical KT Corp
Publication of CN1842867A publication Critical patent/CN1842867A/zh
Application granted granted Critical
Publication of CN1842867B publication Critical patent/CN1842867B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种自动视频摘要设备和方法,其使用模糊OC-SVM(一级支持向量机)算法。它反映用户的主观判断,以产生有效的视频摘要,并提供一种用于产生灵活的视频摘要信息的方法,该方法满足用户环境或用户要求。从给定的视频提取重要视频片段,并且从视频片段提取关键帧序列,由此,用户可以快速捕捉视频内容并访问期望的视频场景。

Description

使用模糊一级支持向量机的自动视频摘要装置和方法
技术领域
本发明涉及视频摘要技术。更具体地说,本发明涉及一种使用模糊一级支持向量机的自动视频摘要设备和方法。
背景技术
由于大容量多媒体数据库的增长以及通信和数字介质处理技术的发展,提供了各种电影,因此已经实行了在删节视频的摘要信息基础上的检索服务以试图增加用户的方便性和满意度。然而,当前大部分视频由人工直接处理,通过分类和提取合适的场景或图片来删节。
随着各类与视频有关的商业的繁荣,自动分析大量视频的要求也在增加,因此,已经在积极地倡导用于解决上述问题的各种研究。
视频删节方法分为:视频浏览、强调和视频摘要。
视频浏览方案是一种连续连接不同部分并产生简短视频概要的方法,所述部分是从视频和音频数据中提取的具有重要意义的部分。强调方案是一种在预定事件的基础上从视频中分类有意义的部分并删节它们的方法。视频摘要是从视频中挑选出有意义的内容和结构信息。通常以关键帧(静像)序列表示视频摘要结果,并且视频删节的研究旨在产生视频摘要信息。
由关键帧表示的视频摘要使用户一看就领会全部视频内容,并作为具有相应关键帧的场景或镜头(shot)的入口。因此,视频摘要任务也是选择最佳关键帧的任务或选择其中有最佳关键帧的片段的任务,而且视觉特征例如颜色和动作的视觉特征用作选择关键帧的重要因素。
按照它的应用范围,视频摘要分为基于镜头的摘要和基于片段的摘要。
基于镜头的摘要是一种展示短视频的方法,也就是具有若干关键帧的视频剪辑,而基于片段的摘要是一种删节全部长视频的技术。
因为基于片段的删节技术的应用范围更广,所以近来更多的研究集中在基于片段的摘要。本公开发明同样针对基于片段的摘要。
按片段删节分开的视频的方法包括:(a)分析临时窗口中镜头间相关性、并将具有高相关性的镜头分为故事单元(或场景)的镜头分组方法和(b)分析通过传统聚类获得的聚类特征并选择重要聚类的方法。
这些方法可以依据使用什么视觉特征或选择哪个镜头作为典型而进一步划分。
上述方法共有的一个重要问题是典型的判断过于依赖阈值。也就是说,典型的镜头基于已建立的特定阈值来决定。例如,选择重要性大于阈值的镜头或重要性在前10%范围内的镜头。阈值由实验决定。严重依赖实验阈值的视频删节算法所导致的问题是视频删节系统可以很有效地应用到一些特定的视频,但它难以用于不同类型的视频。
同样,该问题在处理不同种类视频信息的应用范围内可能是致命的缺陷,而通过实验设置最佳阈值的工作需要巨大的成本。
基于人为判断和视觉特征的主观判断可作为选择视频摘要关键帧的重要因素。
事实上当用户手动删节视频时,他可以创建视频摘要,该摘要通过引入主观判断打动人心。所以,需要对视频删节过程应用该主观判断,以产生有效的视频摘要。
另外,必须产生考虑用户环境的可扩展视频摘要信息,以产生更有效的视频摘要。
发明内容
本发明的一个优点是提供一种产生视频摘要的技术,通过从给定视频中提取重要视频片段并从视频片段中提取关键帧序列使用户领会视频内容并访问期望的视频场景。
本发明的一个方面,一种自动视频摘要器,包括:输入单元,用来接收要概括的视频资源和用户期望的摘要时间;重要度测量模块,用来按照视频的种类特征和所期望摘要的目的产生重要度等级;和视频摘要生成模块,用来将镜头信息和重要度值用于特征支持向量算法,并产生视频摘要。
特征支持向量算法是OC-SVM(一级支持向量机)算法,进一步是模糊OC-SVM算法。
自动视频摘要器进一步包括镜头检测模块,用于为各个镜头提取视频资源。
自动视频摘要器包括:向屏幕输出所产生的视频摘要的输出单元;和存储所产生的视频摘要的存储单元。
视频摘要生成模块包括:特征支持向量模块,用来将镜头信息和重要度值用于特征支持向量算法,并产生视频摘要;和扩展处理模块,用于接收来自用户的摘要时间信息,重复地执行扩展过程,并产生用户期望的时间范围的视频摘要。
镜头检测模块检测要概括的视频资源中的镜头,配置镜头列表,并将该镜头列表传送到视频摘要生成模块。
本发明的另一个方面,一种自动视频摘要方法,包括:(a)接收要概括的视频资源和用户期望的摘要时间;(b)为每个镜头提取视频资源;(c)按照视频的种类特征和所期望摘要的目的产生重要度等级;和(d)将镜头信息和重要度值应用到特征支持向量算法,并产生视频摘要。
本发明的又一个方面,一种自动视频摘要方法,包括:(a)接收要概括的视频资源和用户期望的摘要时间;(b)按照视频的种类特征和所期望摘要的目的产生重要度等级;(c)将镜头信息和重要度值应用到特征支持向量算法,并产生视频摘要;(d)向屏幕输出产生的视频摘要;和(e)存储所产生的视频摘要。
本发明的另一个方面,一种存储自动视频摘要方法的程序的记录介质,该方法:接收要提取摘要的视频资源和用户期望的摘要时间;为每个镜头提取视频资源;按照视频的种类特征和所期望摘要的目的产生重要度等级;以及将镜头信息和重要度值应用到特征支持向量算法,并产生视频摘要。
当用户搜索网络文件时,搜索引擎提供网页的摘要信息,通过允许用户在没有访问所有搜索到的结果网站情况下猜测其内容,以减少信息查找时间。
在一个与其类似的方式中,视频摘要的主要目的是允许用户在没有看到全部视频时了解其内容并使信息访问的效果最佳。当考虑视频信息的数量时,自动产生视频摘要的技术变得比文本摘要技术更重要。
此外,用较少量的数据传送重要信息的视频摘要技术将被用作有限带宽的无线环境中的移动视频内容业的核心。
附图说明
结合附图(其组成本说明书的一部分)和描述来说明本发明的实施例并解释本发明的原理,其中:
图1示出使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器;
图2示出使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器的操作流程图;
图3示出应用于生成可扩展摘要信息的可扩展新颖性检测的示意图;和
图4和图5示出电影和音乐视频的试验结果,说明按照重复抽取重要片段(相对于全部片段)增加的重要片段的比率和片段覆盖整个视频事件的比率。
具体实施方式
本发明从将分析视频摘要作为新的检测问题的概念开始,脱离阈值依赖方法。也就是说,定义视觉特征不同于那些其它帧的帧作为给定视频的典型帧。
OC-SVM(一级支持向量机)为新检测问题提供良好的执行性能。SVM源于基于统计学习理论的学习方法,当未标识新数据到达时,它使用标识数据允许机器学习并推导出正确的答案。
SVM不同于传统的学习方法,它使结构风险最小化,使用一种在向量空间寻找最优决策边界区的方法,并在二元分类问题如模式识别中提供好的结果。在它们之中,OC-SVM基于SVM决策边界区目标定位在已标识正类的数据,即表示最好在正类和负类之间的对象的数据。例如,用户在文本或图像搜索的情况下对所有搜索到的数据中的很小部分感兴趣。在这种情况下重要的不是所有数据,而是一些正样本。
OC-SVM并不预计给定数据的分配,但是预计最佳描述给定数据的优化支持向量。
OC-SVM从大量视频帧中有效地检测具有独有特征的关键帧,因为它对于在一般特征向量空间中找到独有特征向量有用。
然而,在通过OC-SVM获得期望的视频摘要中存在一些限制。由于OC-SVM  目标为应用视觉特征的支持向量,因此很难应用由用户决定的主观元素(例如,其中远景而不是近景可能被给予更重要意义的元素,而且其中最好生成排除了包括新闻节目主持人的片段的摘要信息的元素),并且即使定义了应用上述元素的特征向量,仍需要结合特征向量与传统的视觉特征向量。
在本发明中,通过定义模糊理论隶属函数来应用用户的主观元素,并且通过结合统计特征向量的模糊OC-SVM找到全部支持向量。
模糊OC-SVM通过使用发现包围给定数据的最小球(sphere)的性质可以产生考虑用户环境具有灵活性的可扩展视频摘要。也就是说,在模糊OC-SVM中,提取最外表面的向量并生成为顶级摘要。剥离表面,找到围绕当前数据的球,并且通过将该向量与先前的向量集相结合,生成详细的视频摘要。根据用户环境适当地重复本过程,可以产生可扩展视频摘要,并且扩展适用于分层群集算法。用于每一级的向量数量最好在优选实施例中得到,并且最好按照与优选实施例不同的分层群集算法中的群集条件执行缩放比例任务。
在下面详细说明中,只显示并描述本发明的优选实施例,简单地通过说明执行本发明的一个或多个发明人所预期的最佳方式。正如要实现的那样,能够在各种明显方面修改本发明,这些修改都没有背离本发明。因此,附图及描述本质上是说明性的而非限制性的。为使本发明清晰,忽略说明中没有描述的部分,并且进行了相似描述的部分具有相同的参考标号。
图1是使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器。
参考图1,自动视频摘要器包括:输入单元40、镜头检测模块10、重要度测量模块20、视频摘要生成模块30、存储单元60和输出单元50。输入单元40接收两种信息,包括:(1)要概括的视频资源和(2)用户期望的摘要时间。镜头检测模块10将全部视频分解为镜头,这是在片段级别对例如电影的视频进行摘要的预先任务。目标定位于短视频的情况、比如视频剪辑可以不需要镜头检测模块10。镜头检测模块10从要概括的视频资源(1)中提取镜头以配置镜头列表,并将镜头列表传送到视频摘要生成模块30。重要度测量模块20按照视频的种类特征或期望摘要的目的产生重要度等级βj,这依赖目标(如用户手动输入的数据或从数据库检索的数据)以多种方式来执行。视频摘要生成模块30将模糊OC-SVM算法应用到镜头信息和重要值并产生VS(视频摘要),并根据用户输入的摘要时间信息确定是否进行扩展。需要时,视频摘要生成模块30重复扩展处理模块32的操作,并产生具有用户期望的时间范围的视频摘要。输出单元50向屏幕输出所产生的视频摘要,并且存储单元60存储相应的信息。
描述使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器的操作。
图2是使用根据本发明优选实施例的模糊OC-SVM的自动视频摘要器的操作流程图,描述通过应用基于模糊OC-SVM的自动视频摘要方案来执行摘要任务的全部过程。
参考图2详细描述每个任务的执行。
(0)预先任务
视频摘要之前的任务是分析视频帧序列,并且通过镜头检测模块10为每个镜头提取它们。具体说,该任务是从形成视频内容的典型图案的独立帧图像中提取视觉特征,根据提取的视觉特征比较各个帧间的相似性,并且将帧分解成短暂并篇幅地显示连续运动的镜头。然而,同样应用传统的HAC(分层附聚聚类)(hierarchical agglomerativeclustering)或K-平均数聚类方法,从由于上述镜头边界检测未完成而没有分解视频的帧开始。随后的摘要任务是以已划分片段的序列为基础的。
(1)测量重要度等级
重要度测量模块20通过在视频片段上应用用户的主观观点来测量重要度等级,该重要度等级由用户以不同方式定义。重要度等级βj表示相应片段的重要度,并且它的范围为β∈(0,1),将通过一些例子对它进行更清楚的描述。
(1-1)考虑片段长度的情况
当假设视频片段的平均长度是m,并且给出标准偏差是σ,片段的重要度用数学式1表示。
【数学式1】
β j = 0.5 [ ( duration - m ) 3 σ + 1 ]
其中duration是第j个片段的长度。当βj小于或等于0时,它被调整为很小的值(例如,0.001),而当βj大于1时,它被调整为1。
(1-2)根据用户喜好指定片段的情况
例如,当用户从视频片段中指定特定的片段时,或者当用户从另一视频资源指定预存视频片段,并且没有期望视频摘要中包括与指定片段相对应的片段时,按照给出的数学式2定义重要度。
【数学式2】
βj=1-sim(Xj,u)
其中sim(x,y)是作为特征向量x和y给出的两个片段间的相似度,u是用户指定的片段的特征向量。
(2)模糊一级支持向量机算法
(2-1)传统的OC-SVM算法
现在描述OC-SVM算法。假设包括从代表视觉特征向量的数据点而来的n个数据点{Xj,j=1,…,n}的数据集S,并将数据点映射到特征空间的特征映射Φ定义为_(Xj)。在这个特征映射空间中,在数学式3中定义一个点积。
【数学式3】
Φ(xi)·Φ(xj)=K(xi,xj)
其中K(xi,xj)使用不同的函数,这里使用高斯核函数以便于描述。从而,给出K(xi,xj)=exp(-0.5‖xi-xj22)。
OC-SVM目标在于使随后的目标函数最小化。
也就是说,它找到包括特征向量_(Xj)的最小球。
【数学式4】
R2+C∑ξj
‖φ(xj)-a‖2≤R2jandξj≥0 _j
当引入拉格朗日乘法器(αj≥0和μj≥0)时,关于L数学式4表示如下。
【数学式5】
L = R 2 - Σ j ( R 2 + ξ j - | | φ ( X j ) - a | | 2 ) α j - Σ j ξ j u j + c Σ j ξ j
当假设ξj为0,L对R、a求导时,得到对偶问题。
【数学式6】
最大化
W=∑jφ(xj)·φ(xjj-∑i,jαiαjφ(xj)·φ(xj)=∑jαjK(xj,xi)-∑i,jαiαjK(xi,xj)
其中它将满足0≤αj≤C,∑jαj=1,并且a=∑jαj_(xj)。在这种情况下,通过使用数学式7中给出的KKT条件最小球的半径R如数学式8。
【数学式7】
ξjuj=0,
(R2j-‖φ(xj)-α‖2j=0
【数学式8】
R2=‖φ(X)-α‖2=K(X,X)-2∑iαiK(X,Xj)+∑i,jαiαjK(Xi,Xj)
其中X是支持向量。a的值由数学式6给出的一般二次规划得到。当从二次规划得到的值大于0时,相应的特征向量X被认为是支持向量。
(2-2)模糊OC-SVM算法
在模糊OC-SVM算法中得出最小球,所述算法结合与(2-1)OC-SVM算法比较的(1)的重要度。
假定数据集S={(x1,β1),(x2,β2),…,(xn,βn),(xi,βi)},其中数据点Xi是从片段中获得的视觉特征向量,并且重要度βi表示相应片段的重要度。将模糊特征映射到数据集S的结果是{β1(_(X1),…βj_(xj),…,βn_(xn)},并且该重要度与(2-1)的OC-SVM应用的数学式如下结合。
【数学式9】
Φ(βi,xi)·Φ(βj,xj)=βiβjK(xi,xj).
‖βjφ(xj)-a‖2≤R2j and ξj≥0 _j
当数学式9中引入拉格朗日乘法器(αj≥0并且μj≥0),并且数学式9关于L进行表示时,给出数学式10。
【数学式10】
L = R 2 - Σ j ( R 2 + ξ j - | | β j φ ( X j ) - a | | 2 ) α j - Σ j ξ j u j + c Σ j ξ j
通过使用L的微分结果对偶问题满足数学式11。
【数学式11】
max imize W = Σ j α j β j 2 K ( X j , X j ) - Σ i , j α i α j β i β j K ( X i , X j )
同样,等式12给出KKT条件。
【数学式12】
(R2j-‖βjφ(xj)-α‖2j=0
当模糊OC-SVM通过上述过程应用时,在数学式13中得到最小球的半径R。
【数学式13】
R2=‖βφ(X)-α‖2=β2K(X,X)-2β∑iαiβiK(X,Xi)+∑i,jαiαjβiβjK(Xi,Xj)
其中X是支持向量并且β是相应支持向量X的重要度。
(3)应用于视频摘要
通过控制模糊OC-SVM算法的数学式11中的常数C,可以控制支持向量的数目。当假定C=1时,OC-SVM得到包括特征向量的最小球因为它不允许离群数据(outlier)。因此,假定C的值为1,以便在视频摘要内得到包括特征向量的最小球并且得到的最小球由中央向量a和球的半径R表示。在这种情况下,在球的表面提供支持向量,所述支持向量是在值大于0的向量a上的特征向量。OC-SVM模块31从该表面上提供的特征向量的片段中提取关键帧,并且将其用于视频摘要。
(4)可扩展的视频摘要
使用模糊OC-SVM的目标即找到最小球,这如图3所示。
参考图3,OC-SVM模块31收集提供在第一表面的支持向量并配置视频摘要。当收集的视频摘要不足时,扩展模块32除去形成最外层的球(象剥落洋葱皮一样))。当模糊OC-SVM再次用于剩余的特征向量时,获得紧挨着最外层的球,如图3所示。
新支持向量从新球获得,而在核对最初阶段视频片段和第二阶段增加的片段之后,通过将对应于新支持向量的片段增加到第一个得到的视频摘要而获得稍进一步的详细摘要信息。通过从在最外层提供的球开始,重复地除去球,直到最初的视频片段用尽或直到满足预定的条件,扩展模块32可产生可扩展视频摘要。这些过程概括如下。
输入:包括重要度信息β和特征向量的片段数据
阶段1:接收输入数据,规定数学式4的C=1,并通过二次规划得到a的值。
阶段2:找到一组满足在阶段1中0<a的条件的视频片段关键帧,并从输入数据中删除相应的特征向量。
阶段3:
情况1:用阶段2得到的关键帧配置VS(视频摘要),并第一次进入当前循环时,转到阶段4。
情况2:重复地从TS中删除关键帧,并核对属于该相应关键帧的片段和邻近的片段(从划分的最初视频中得到)是否属于当前VS,直到当进入除第一循环外时删除连续关键帧的序列TS为止,所述关键帧依据片段重要度β以非升序排列。
(1)在片段不属于当前VS情况下,把从TS删除的关键帧加到VS中。
(2)在片段属于当前VS情况下,在最小相似度小于阈值时,把关键帧加到VS中。
阶段4:将在阶段2支持向量删除的数据规定为输入数据,并进入阶段1。(另外当不满足预定的结束条件时,进入阶段1并连续地提取关键帧,而当满足结束条件时,终止该过程。)
图4和图5显示通过应用模糊OC-SVM系统产生电影和音乐视频的视频摘要所产生的模拟结果。
如所示,并不产生依照随机阈值具有固定长度的主要场景,但是通过若干次重复过程配置包括视频中超过90%的重要事件的主要场景,从而产生视频摘要。
在优选实施例中描述的使用模糊一级SVM的视频摘要生成方法考虑了用户在片段及其视觉特征上的主观重要度,并提取优化片段以描述给定视频的内容,从而极大的改善了严重依赖阈值的传统视频摘要,找到适于不同视频特征的最佳阈值并产生适当的视频摘要。
输出单元50将产生的视频摘要显示在屏幕上存储单元60存储输出信息。
虽然结合目前认为是最实用的优选实施例描述了本发明,但是应当理解,本发明不限制于公开的实施例,相反的是,它可以涵盖包括在所附权利要求的精神和范围内的等效方案的各种修改。

Claims (18)

1、一种自动视频摘要器,包括:
输入装置,用来接收要概括的视频资源和用户期望的摘要时间;
重要度测量模块,用来按照视频的种类特征和所期望摘要的目的产生重要度等级;和
视频摘要生成模块,用来将镜头信息和重要度值用于特征支持向量算法,并产生视频摘要。
2、如权利要求1所述的自动视频摘要器,其特征在于所述特征支持向量算法是OC-SVM(一级支持向量机)算法。
3、如权利要求1所述的自动视频摘要器,其特征在于所述特征支持向量算法是模糊OC-SVM算法。
4、如权利要求1所述的自动视频摘要器,进一步包括镜头检测模块,用于为各个镜头提取所述视频资源。
5、如权利要求1到4其中之一所述的自动视频摘要器,包括:
输出单元,用于将产生的视频摘要输出到屏幕;和
存储单元,用于存储产生的视频摘要。
6、如权利要求5所述的自动视频摘要器,其特征在于所述视频摘要生成模块包括:
特征支持向量模块,用来将所述镜头信息和所述重要度值用于所述特征支持向量算法,并产生视频摘要;和
扩展处理模块,用于接收来自用户的摘要时间信息,重复地执行扩展过程,并产生具有用户期望的时间范围的视频摘要。
7、如权利要求6所述的自动视频摘要器,其特征在于所述镜头检测模块检测来自要概括的所述视频资源中的镜头,配置镜头列表,并将所述镜头列表传送到所述视频摘要生成模块。
8、一种自动视频摘要方法,包括:
(a)接收要概括的视频资源和用户期望的摘要时间;
(b)为每个镜头提取所述视频资源;
(c)按照视频的种类特征和所要求摘要的目的产生重要度等级;和
(d)将镜头信息和重要度值应用到特征支持向量算法,并产生视频摘要。
9、如权利要求8所述的自动视频摘要方法,其特征在于所述特征支持向量算法是OC-SVM(一级支持向量机)算法。
10、如权利要求8所述的自动视频摘要方法,其特征在于所述特征支持向量算法是模糊OC-SVM(一级支持向量机)算法。
11、如权利要求8到10其中之一所述的自动视频摘要方法,进一步包括:
将产生的视频摘要输出到屏幕;和
存储产生的视频摘要。
12、如权利要求11所述的自动视频摘要方法,其特征在于(d)包括将所述镜头信息和重要度值应用到所述特征支持向量算法,产生视频摘要,基于从用户接收的摘要时间信息重复执行扩展过程并产生具有用户期望的时间范围的视频摘要。
13、一种自动视频摘要方法,包括:
(a)接收要概括的视频资源和用户期望的摘要时间;
(b)按照视频的种类特征和所期望摘要的目的产生重要度;
(c)将镜头信息和重要度值应用到特征支持向量算法,并产生视频摘要;
(d)将产生的视频摘要输出到屏幕;和
(e)存储产生的视频摘要。
14、如权利要求13所述的自动视频摘要方法,其特征在于特征支持向量算法是OC-SVM(一级支持向量机)算法。
15、如权利要求13所述的自动视频摘要方法,其特征在于特征支持向量算法是模糊OC-SVM算法。
16、一种用于存储自动视频摘要方法的程序的记录介质,所述方法包括:
接收要概括的视频资源和用户期望的摘要时间;
为每个镜头提取所述视频资源;
按照视频的种类特征和所要求摘要的目的产生重要度;和
将镜头信息和重要度值应用到特征支持向量算法,并产生视频摘要。
17、如权利要求16所述的记录介质,其特征在于特征支持向量算法是OC-SVM(一级支持向量机)算法。
18、如权利要求16所述的记录介质,其特征在于特征支持向量算法是模糊OC-SVM算法。
CN2004800244388A 2003-06-27 2004-06-28 使用模糊一级支持向量机的自动视频摘要装置和方法 Expired - Fee Related CN1842867B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2003-0042613 2003-06-27
KR1020030042613A KR100708337B1 (ko) 2003-06-27 2003-06-27 퍼지 기반 oc―svm을 이용한 동영상 자동 요약 장치및 방법
KR1020030042613 2003-06-27
PCT/KR2004/001568 WO2005001838A1 (en) 2003-06-27 2004-06-28 Apparatus and method for automatic video summarization using fuzzy one-class support vector machines

Publications (2)

Publication Number Publication Date
CN1842867A true CN1842867A (zh) 2006-10-04
CN1842867B CN1842867B (zh) 2010-06-16

Family

ID=33550203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800244388A Expired - Fee Related CN1842867B (zh) 2003-06-27 2004-06-28 使用模糊一级支持向量机的自动视频摘要装置和方法

Country Status (5)

Country Link
US (1) US8238672B2 (zh)
JP (2) JP4965250B2 (zh)
KR (1) KR100708337B1 (zh)
CN (1) CN1842867B (zh)
WO (1) WO2005001838A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102906818A (zh) * 2010-05-25 2013-01-30 伊斯曼柯达公司 将视频摘要存储为元数据
CN103443785A (zh) * 2011-01-28 2013-12-11 英特尔公司 作为上下文信息的函数而概括源文本的方法和系统
CN110366050A (zh) * 2018-04-10 2019-10-22 北京搜狗科技发展有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN110418191A (zh) * 2019-06-24 2019-11-05 华为技术有限公司 一种短视频的生成方法及装置
CN110753269A (zh) * 2018-07-24 2020-02-04 Tcl集团股份有限公司 视频摘要生成方法、智能终端及存储介质

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458754B2 (en) 2001-01-22 2013-06-04 Sony Computer Entertainment Inc. Method and system for providing instant start multimedia content
CN100360901C (zh) * 2005-09-19 2008-01-09 西安理工大学 基于模糊核函数支持向量机的空气预热器热点检测方法
KR100718351B1 (ko) 2005-09-28 2007-05-14 주식회사 팬택 동영상 파일의 요약 재생 시스템 및 이를 탑재한 이동통신단말기
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US8000533B2 (en) 2006-11-14 2011-08-16 Microsoft Corporation Space-time video montage
US8503523B2 (en) * 2007-06-29 2013-08-06 Microsoft Corporation Forming a representation of a video item and use thereof
US9483405B2 (en) 2007-09-20 2016-11-01 Sony Interactive Entertainment Inc. Simplified run-time program translation for emulating complex processor pipelines
US20090150784A1 (en) * 2007-12-07 2009-06-11 Microsoft Corporation User interface for previewing video items
US20100293072A1 (en) * 2009-05-13 2010-11-18 David Murrant Preserving the Integrity of Segments of Audio Streams
US8370288B2 (en) 2009-07-20 2013-02-05 Sony Computer Entertainment America Llc Summarizing a body of media by assembling selected summaries
JP5436367B2 (ja) * 2009-09-29 2014-03-05 富士フイルム株式会社 グラフィック配置決定方法ならびにそのプログラムおよび情報処理装置
US8126987B2 (en) 2009-11-16 2012-02-28 Sony Computer Entertainment Inc. Mediation of content-related services
US8433759B2 (en) 2010-05-24 2013-04-30 Sony Computer Entertainment America Llc Direction-conscious information sharing
US8786597B2 (en) 2010-06-30 2014-07-22 International Business Machines Corporation Management of a history of a meeting
US8687941B2 (en) 2010-10-29 2014-04-01 International Business Machines Corporation Automatic static video summarization
US9025872B2 (en) * 2011-08-29 2015-05-05 Panasonic Intellectual Property Corporation Of America Image processing device, image processing method, program, and integrated circuit
US8914452B2 (en) 2012-05-31 2014-12-16 International Business Machines Corporation Automatically generating a personalized digest of meetings
CN102902756B (zh) * 2012-09-24 2016-02-03 南京邮电大学 一种基于故事情节的视频摘要提取方法
US9639762B2 (en) * 2014-09-04 2017-05-02 Intel Corporation Real time video summarization
US10462519B2 (en) 2015-06-19 2019-10-29 Disney Enterprises, Inc. Generating dynamic temporal versions of content
CN106469315B (zh) * 2016-09-05 2019-12-27 南京理工大学 基于改进One-Class SVM算法的多模复合探测目标识别方法
AU2018271424A1 (en) 2017-12-13 2019-06-27 Playable Pty Ltd System and Method for Algorithmic Editing of Video Content
CN112740713B (zh) 2018-09-21 2023-08-22 三星电子株式会社 用于提供多媒体内容中的关键时刻的方法及其电子设备
CN113099128B (zh) * 2021-04-08 2022-09-13 杭州竖品文化创意有限公司 一种视频处理方法与视频处理系统
JP2022169009A (ja) * 2021-04-27 2022-11-09 国立大学法人 東京大学 プログラム、情報処理方法及び情報処理装置
CN114697761B (zh) * 2022-04-07 2024-02-13 脸萌有限公司 一种处理方法、装置、终端设备及介质
US12445684B2 (en) 2023-07-06 2025-10-14 Sony Group Corporation Content category based media clip generation from media content using machine learning (ML) model

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
US6134344A (en) * 1997-06-26 2000-10-17 Lucent Technologies Inc. Method and apparatus for improving the efficiency of support vector machines
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
US6331859B1 (en) * 1999-04-06 2001-12-18 Sharp Laboratories Of America, Inc. Video skimming system utilizing the vector rank filter
SE9902328A0 (sv) * 1999-06-18 2000-12-19 Ericsson Telefon Ab L M Förfarande och system för att alstra sammanfattad video
US7028325B1 (en) * 1999-09-13 2006-04-11 Microsoft Corporation Annotating programs for automatic summary generation
EP1182584A3 (en) * 2000-08-19 2005-12-28 Lg Electronics Inc. Method and apparatus for video skimming
KR100403238B1 (ko) * 2000-09-30 2003-10-30 엘지전자 주식회사 비디오의 지능형 빨리 보기 시스템
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US20020083471A1 (en) * 2000-12-21 2002-06-27 Philips Electronics North America Corporation System and method for providing a multimedia summary of a video program
KR100492093B1 (ko) * 2001-07-13 2005-06-01 삼성전자주식회사 영상데이터의 요약정보 제공시스템 및 방법
US7069259B2 (en) * 2002-06-28 2006-06-27 Microsoft Corporation Multi-attribute specification of preferences about people, priorities and privacy for guiding messaging and communications
GB0221925D0 (en) * 2002-09-20 2002-10-30 Neural Technologies Ltd A system for the retrospective classification of archived events
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7636479B2 (en) * 2004-02-24 2009-12-22 Trw Automotive U.S. Llc Method and apparatus for controlling classification and classification switching in a vision system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102906818A (zh) * 2010-05-25 2013-01-30 伊斯曼柯达公司 将视频摘要存储为元数据
CN102906818B (zh) * 2010-05-25 2015-09-09 高智83基金会有限责任公司 存储视频摘要的方法和显示相应于视频摘要的视频帧的系统
CN103443785A (zh) * 2011-01-28 2013-12-11 英特尔公司 作为上下文信息的函数而概括源文本的方法和系统
CN103443785B (zh) * 2011-01-28 2016-11-02 英特尔公司 作为上下文信息的函数而概括源文本的方法和系统
CN110366050A (zh) * 2018-04-10 2019-10-22 北京搜狗科技发展有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN110753269A (zh) * 2018-07-24 2020-02-04 Tcl集团股份有限公司 视频摘要生成方法、智能终端及存储介质
CN110753269B (zh) * 2018-07-24 2022-05-03 Tcl科技集团股份有限公司 视频摘要生成方法、智能终端及存储介质
CN110418191A (zh) * 2019-06-24 2019-11-05 华为技术有限公司 一种短视频的生成方法及装置

Also Published As

Publication number Publication date
KR20050000483A (ko) 2005-01-05
JP2007528622A (ja) 2007-10-11
CN1842867B (zh) 2010-06-16
JP2009201144A (ja) 2009-09-03
HK1097645A1 (zh) 2007-06-29
WO2005001838A1 (en) 2005-01-06
US20070046669A1 (en) 2007-03-01
JP4965250B2 (ja) 2012-07-04
US8238672B2 (en) 2012-08-07
KR100708337B1 (ko) 2007-04-17

Similar Documents

Publication Publication Date Title
CN1842867A (zh) 使用模糊一级支持向量机的自动视频摘要装置和方法
CN1306438C (zh) 媒介分段系统和相关的方法
CN100342399C (zh) 提取用作面貌识别和重现的特征向量的方法和装置
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
CN1717685A (zh) 信息存储与检索
CN1145872C (zh) 手写汉字自动分割和识别方法以及使用该方法的系统
CN1168036C (zh) 产生合成关键帧的方法和使用该方法的视频浏览系统
CN1503167A (zh) 信息存储及检索
CN1538351A (zh) 视觉上代表性的视频缩略图的生成
Graham et al. Unsupervised learning of parsimonious mixtures on large spaces with integrated feature and component selection
CN1664819A (zh) 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法
US11481432B2 (en) Reverse image search method, apparatus and application system
CN111324768B (zh) 一种视频搜索系统和方法
CN1723456A (zh) 图像搜索
US8165983B2 (en) Method and apparatus for resource allocation among classifiers in classification systems
JP2001155169A (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
CN1773492A (zh) 组织多个文档的方法以及显示多个文档的设备
CN1991865A (zh) 从复杂背景文档图像提取文本的装置、方法、程序及介质
Zanetti et al. A walk through the web’s video clips
CN112381114A (zh) 一种深度学习图像标注系统及方法
CN1495646A (zh) 信息存储和检索
CN101030230A (zh) 一种图像检索方法及系统
CN1909677A (zh) 图像表示和分析方法
CN1746891A (zh) 信息处理
CN1692373A (zh) 图像系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1097645

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1097645

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100616

Termination date: 20160628

CF01 Termination of patent right due to non-payment of annual fee