[go: up one dir, main page]

CN1661600A - 生成音频缩略图的系统和方法 - Google Patents

生成音频缩略图的系统和方法 Download PDF

Info

Publication number
CN1661600A
CN1661600A CN2005100528668A CN200510052866A CN1661600A CN 1661600 A CN1661600 A CN 1661600A CN 2005100528668 A CN2005100528668 A CN 2005100528668A CN 200510052866 A CN200510052866 A CN 200510052866A CN 1661600 A CN1661600 A CN 1661600A
Authority
CN
China
Prior art keywords
fingerprint
audio
clusters
thumbnail
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2005100528668A
Other languages
English (en)
Other versions
CN100461168C (zh
Inventor
C·J·C·布吉斯
D·普拉斯迪纳
E·L·任斯豪
H·S·马尔瓦
J·C·普拉特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1661600A publication Critical patent/CN1661600A/zh
Application granted granted Critical
Publication of CN100461168C publication Critical patent/CN100461168C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99939Privileged access

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本发明涉及便于自动生成助记音频部分或片断(被称为音频缩略图)的系统和方法。提供了一种系统用于概括音频信息。该系统包括一确定音频文件中的公共特征的分析组件,以及一部分地基于公共特征提取音频文件的指纹部分以生成音频文件的缩略图的助记检测器。所生成的缩略图然后可用于方便浏览或搜索音频文件,以减轻收听这类文件的较长部分或片断的问题。

Description

生成音频缩略图的系统和方法
相关申请
本申请要求2003年10月24日提交的名为“用音频加指纹的重复检测和音频缩略图(DUPLICATE DETECTION AND AUDIO THUMBNAILS WITH AUDIOFINGERPRINTING)”的美国临时专利申请序列号60/514,490的优先权。
技术领域
本发明一般涉及计算机系统,尤其涉及采用音频指纹来确定音频文件内的公共或重复元素,以生成便于浏览音频文件或其它目的的助记音频缩略图或剪辑的系统和方法。
背景技术
许多现代软件系统支持的现有特征之一是储存和播放音频文件的能力。许多这样的系统使用户能够储存并管理音频文件的不同组。然而,随着时间的推移,许多用户因大量的数据而受挫,它们不可避免地占用了大量的存储空间。同样,当组变得更大时,检索和播放期望的音频信息变得更难且更耗时。许多系统提供了软件来帮助用户管理这些日益增长的音频信息量。例如,这些系统可包括支持流行音频文件格式的音频管理器,包括MP3、Ogg Vorbis(OGG)、Windows Media Audio(WMA)、MPC和MP+文件等等。这使用户能够对其整个音频文件组进行分类,并立即搜索喜欢的歌曲、使用专辑封面作为缩略图浏览专辑、创建报告以及其它有用特征。
除组织音频文件之外,这些系统提供了一组工具,以通过例如编辑标签、改变名字、编辑歌词、创建CD和查找艺人信息来管理文件。用户可采用储存在硬盘、CD-ROM、网络驱动器、ZIP驱动器或任何其它可移动介质中的音频文件来工作。这包括允许用户播放多个播放列表并显示与每一标题相关联的图像的工具。另外的特征包括自动生成的数据库统计、个人分级、按流派、基调、年份分类以及自定义数据库查询。
音频加指纹(fingerprinting)(AFP)近来作为一种用于标识流或文件中的音频的强大的方法出现。若干公司现在提供基于音频加指纹的音乐服务。这些服务要求从要标识的音频中提取一个或多个指纹,并且对照先前计算的指纹的大数据库来核查这些指纹。
然而,管理大音频组是困难的,因为当前不可能快速地分析音频文件(这与图像相反,对于图像可使用缩略图)。用户一般必须依赖于加标签,但是即使是标签也没有太大的帮助;通常加标签是不准确的,但是即使有准确的标签,用户在听到它之前可能无法记住给定的歌曲。如果用户不能记住歌曲听上去如何,他们通常必须播放它,然后当他们识别了该音乐之后停止播放。另外,某些情形要求“脱手”方式对音乐的选择;例如,可能在驾驶时希望浏览音频组来选择歌曲。
先前的努力试图概括音乐以减轻音乐浏览的问题。然而,这些先前的努力集中在从音频的单个帧中计算特征。这些帧通常是16-30毫秒长。先前的努力计算这些帧之间的相似度。该相似度不可避免地是粗糙的,这是由于对相似度度量可用的不足的信息。
发明内容
以下提出了本发明的简化概述,以提供对本发明的某些方面的基本理解。本概述并非本发明的广泛综述。它并不旨在标识本发明的关键/决定性元素或描绘本发明的范围。其唯一的目的是以简化的形式提出本发明的某些概念,作为以后给出的更详细描述的序言。
本发明涉及用于生成音频缩略图的系统和方法。本发明解决了向用户呈现助记“音频缩略图”的问题,以便于浏览,或为其它目的而概括音频。缩略图较短(通常约15秒或更少),然而是从用户最可能记住的歌曲或音频文件的一部分中提取的。由此,本发明部分地通过确定在音频剪辑中近似重复的音频部分来运作。例如,如果歌曲具有合唱,并且合唱的副本十分相似,则系统可标识合唱,并构造高度助记原始音频的音频片断。为找出近似的重复,本发明使用一加指纹组件,其输出(部分地)基于所变换的音频数据的多个帧。
除加指纹组件之外,本系统也可采用频谱平直度的测量,以及频谱能量的测量,以在重复的音频部分之间作出判定。同样,本系统可利用这些测量来标识音频的助记片断,即使音频不包含重复片断。当系统标识了助记片断时,它从文件中该位置周围提取片断(在一个方面,使用了15秒)。所提取的片断(或等效地为音频文件中确定所标识的片断位于音频文件的何处的指针)被用作“音频缩略图”。
为实现上述和相关目的,此处结合以下描述和附图描述了本发明的某些说明性方面。这些方面标识可实施本发明的各种方式,它们都由本发明所覆盖。当结合附图考虑,从以下本发明的详细描述中,本发明的其它优点和新颖特征将变得显而易见。
附图说明
图1是依照本发明的一个方面的音频缩略图生成器系统的示意性框图。
图2所示是依照本发明的特征计算的图示。
图3所示是依照本发明的音频缩略图处理的流程图。
图4所示是依照本发明的一个方面的失真判别式分析的图示。
图5所示是依照本发明的一个方面的广义本征值的图示。
图6所示是依照本发明的一个方面的合适的操作环境的示意性框图。
图7所示是可与本发明交互的示例计算环境的示意性框图。
具体实施方式
本发明涉及便于自动生成助记音频部分或片断(被称为音频缩略图)的系统和方法。本发明通过(部分地)基于包含在多个帧中的信息计算指纹代替了较早的音乐概括技术。由此,指纹具有更多的信息,并且其之间的相似度含更少的噪声。提供了一种用于概括音频信息的系统。该系统包括一将音频转换成帧的分析器,以及一将帧转换成指纹的加指纹组件,每一指纹部分地基于多个帧。一相似度检测器计算指纹之间的相似度,其中,一试探模块部分地基于指纹之间的相似度生成音频文件的缩略图。该系统包括一确定音频文件中的公共特征的分析组件,以及一部分地基于公共特征提取音频文件的指纹部分,以生成音频文件的缩略图的助记检测器。所生成的缩略图然后可用于方便浏览或搜索音频文件,以减轻收听这类文件的较长的部分或片断的问题。
如本申请中所使用的,术语“组件”、“对象”、“生成器”、“系统”等指的是计算机相关的实体,它们可以是硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是,但不限于,运行在处理器上的进程、处理器、对象、可执行码(executable)、执行线程、程序和/或计算机。作为说明,运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可驻留在进程和/或执行线程中,并且组件可位于一个计算机上和/或在两个或多个计算机之间分布。同样,这些组件可从在其上储存了各种数据结构的各种计算机可读介质执行。组件可诸如依照具有一个或多个数据分组(如,通过信号与本地系统、分布式系统、和/或在诸如与其它系统的因特网连接等网络上另一组件交互的一个组件中的数据)的信号通过本地和/或远程进程来通信。
最初参考图1,依照本发明的一个方面示出了音频缩略图生成器系统100。系统100包括音频文件数据库110,它由概括器120(也被称为音频缩略图生成器)处理。生成器120包括分析器130,它处理音频文件以确定音频文件110中适合用作音频缩略图140的成分、片断或部分。音频缩略图140一般是可能向用户提醒音频文件110的较大的内容的音频短剪辑或片断(如,具有词语“再见黄砖路(GoodbyeYelow Brick Road)”的歌词,当作为缩略图播放时提醒用户这是Elton John的同名歌曲)。
助记检测器150与分析器130一起运作,以确定音频文件110的哪一部分要用作音频缩略图140。如图所示,分析器130包括用于分析音频信息流的指纹组件、进一步处理音频文件以确定音频作为缩略图140的合适片断的能量组件和/或平直度(flatness)组件。注意,分析器130中的组件可在各种组合和程度中使用,以确定缩略图140,
一般而言,系统100采用音频加指纹来查找音频的重复片断。一个概念是音乐的相似片断生成相似的指纹。由此,通过使用指纹而非使用原始音频,本发明提供了这样一个优点:略微不同的变化提供了十分相似的指纹,并且由此,指纹比使用原始音频更健壮。此外,指纹具有这样的优点:它们集成了从比现有技术中使用的更大时间窗中提取的信息,并且因此更健壮。指纹也具有另外的优点:它们是原始音乐的非常低维(low dimensional)表示,并由此处理这些实体在存储器和CPU使用方面更有效。对于图3-5的讨论提供了依照本发明的指纹处理的更多的细节。
有各种技术可用于标识可用作音频缩略图140的音频片断(见图2-3)。以下描述提供了一个实现系统的细节,然而可以理解,这仅是这类系统的一个示例。例如,实现系统使用持续时间为3秒(或其它时间)的指纹,和在后续指纹的起始点之间的186毫秒(或其它时间)的步进(step)。另一系统使用6秒的指纹,然而加指纹系统可生成任意长度的指纹,3秒是对歌词检测的合适的匹配。
在系统100中,包括在分析器130中的音频缩略图计算涉及三个基本对象:指纹和关联的归一化(A)、从中计算指纹的音频中能量的测量(B)、以及从中计算指纹的音频中频谱平直度的测量(C)。一个方面是使用这些特征以使系统能够自动选择纯乐器、重复的短语上的有声歌词,因为有声歌词被认为比纯乐器重复更有助于记忆。同样,当(A)特征无法找出合适的歌词时,可以使用特征(B)和(C)。当前的系统通过串接16个372毫秒的窗(其每一个重叠一半(即186毫秒)来计算大约为3秒长的指纹。所有这三个量(A、B、C)可使用这些372毫秒帧(或其它时间帧)来计算。注意,在分析器130中计算这些特征之前,可使用直接的基于能量的阈值移除剪辑始端和末端的静音部分。
现在参考图2,依照本发明示出了特征计算200和相关联的处理方面。在本方面中,上文相对于分析器组件描述的量A、B和C被更详细地描述。在210,例如如相对于图4-6所描述地计算指纹。在一个示例中,在音频剪辑中对每-3秒窗计算指纹,按186毫秒步进(或以其它采样速率)。对于每一指纹,计算归一化,使得从该指纹到该音频剪辑的其它指纹的欧几里得距离为1。这也不同于如何通常对系统计算归一化,后者使用指纹来检索任务:此处,仅使用了剪辑中的音频,因为指纹通常仅与从同一剪辑中提取的其它指纹进行比较。
在220,处理音频的频谱能量。指纹的计算一般需要对每一帧计算一组频谱幅度。频谱幅度可通过例如已调制复重叠变换(modulated complex lapped transform)(MCLT)操作符来计算。下文描述的频谱能量220和频谱平直度230使用了平均频谱幅度作为归一化因子(使得由220和230生成的特征不取决于音频的总音量等级)。对于每一帧,通过将该帧内的每一频率分量的平均能量除以剪辑中帧上的平均量来计算平均、归一化能量E。平均能量是在对给定指纹(本示例中为16)有影响的所有帧上平均的。该量可以通过使用一移动平均(running average)来有效地计算。由此,频谱能量220是每一指纹的频谱能量的度量。
在230,可确定频谱平直度量。例如,首先考虑给定帧的该量的计算,其中,对每一频谱分量的频谱幅度添加一非常小的数字(如,10-10),以减轻当取对数时的数字问题。所计算的帧量是幅度的对数归一化几何平均值。这被计算为幅度的几何平均值的对数,减去频谱幅度的算术平均值的对数。注意,这得到被限定在0以下的量,因为几何平均值小于或等于算术平均值。由此,如果频谱能量是遍布整个频谱均匀分布的,则该量将远大于当跨几个频率分量串接时的量。
对于某些类型的音频,发现该量的高值(high value)指示“全声音”(如,对于当唱歌时嗓音占声音主要部分的音频,该值在唱歌过程中是高的)。对于频谱能量220,对每一指纹通过在对该指纹有影响的所有帧求平均值来计算该量230。由此,230是每一指纹的频谱平直度的度量。
图3所示是依照本发明的一个方面音频缩略图处理的流程图。尽管为简化说明的目的,方法被示出并描述为一系列动作,然而可以理解并明白,本发明不受动作的顺序限制,依照本发明,某些动作可以不同的顺序发生和/或与此处示出并描述的其它动作一起发生。例如,本领域的技术人员可以理解并明白,方法可选地可被表示为如状态图中一系列相关的状态或事件。此外,并非需要所有示出的动作来实现依照本发明的方法。
前进到310,考虑群集(cluster)计算。“群集”可以被定义为在时间上聚集,并表示在音频剪辑中某处重复的音乐的连续片断的若干指纹。为描述群集计算,引入以下概念:“群集组S”和群集组S的“多重性M”。每一组S可包含索引指纹的零个或多个整数(其中,其始端对应于音频剪辑的始端的第一计算指纹具有索引1,其始端对应于音频剪辑的始端加上半帧的第二指纹具有索引2,依此类推)。
通过“向组添加指纹”,这包括向该组添加该指纹的索引。给定组的多重性M是包含在该组中的群集的数目。例如,如果组包含整数1、2、3、100、101、102,则多重性可以是2,因为该组包含两个群集(一个对应于指纹索引0、1、2,另一个对应于指纹索引100、101、102)。每一指纹也具有与其相关联的“被考虑(AccountedFor)”布尔标记,其默认值为“假”。
一般而言,所有的组为空。第一指纹F1(即,对应于音频剪辑的前3秒的指纹)然后被输入到组1(S1)中。然后检查所有剩余的指纹。对于每一剩余指纹Fi,当且仅当F1和Fi满足下列条件时,也将其添加到S1中:(1)F1和Fi之间的归一化欧几里得距离位于初始阈值T以下,其中,归一化欧几里得距离是除以F1的归一化因子的欧几里得距离,以及(2)音频中对应于F1的始端的点与音频中对应于Fi的始端的点之间的持续时间超过第二固定阈值Z(例如,Z=6秒)。条件(2)通常是需要的,因为相邻的指纹可具有处于T之下的归一化欧几里得距离,而应当确定听上去相同但在时间上相互分离的音频片断。当以此方式将剩余的指纹与F1比较时,执行第二循环,递归地向组添加在与组中已有的指纹比较时满足上述条件的所有指纹。
当向组添加指纹时,其“被考虑”标记被设为真,并且从被考虑为添加到任一组的指纹集合中移除。然后重复上述阶段,为其“被考虑”标记尚未被设置的第一指纹创建一新的集合,并如上所述地添加指纹。这继续直到所有的指纹都是一个(且仅一个)组的成员(并且所有的“被考虑”标记为真)为止。由此,指纹向组的分配形成了所有指纹的组的一个分区。对于每一组,计算对应的多重性。这可通过顺序地对指纹进行排序,然后搜索排序中对应于至少Z秒的间距来完成。群集的数目则为在每一端都具有指纹的这类间距的数目加一。
上述所有都对阈值T的初始值执行。在这一点上,对至少三的值核查最大多重性(即,存在包含至少三个群集的至少一个群集组)。如果这不为真,则将T递增一小量,并且重新计算群集组。该过程继续,直到找到具有至少三个群集的组,或直到T达到一上限。以这一方式,对成为群集成员的要求被逐步放松,以试图找出至少3个群集。可能会出现这样的情况,该过程导致了其所有都仅包含2个群集的群集组,在这一情况下,它们可在下文描述的过程中使用,或者导致仅包含一个群集的群集组,在这一情况下,将使用下文描述的能量测量来计算音频缩略图。
在320,确定最优群集组。在这一点上,假定上述聚集310确实导致包含至少两个群集的一个或多个群集组,则剩余的任务是选择一合适的群集组,其中“合适”意味着“可能包含对应于歌词或重复乐器的指纹索引”,并使用该指纹从音频剪辑中选择合适的15秒(或其它时间量),其中,该15秒将为音频缩略图。
为计算合适的群集组,上述(图1)测量(B)和(C)与第三测量相组合,后者测量群集如何遍及歌曲而均匀分布(称为测量(D))。例如,如果找到三个群集,但是它们都位于歌曲的前20秒中,则那些群集是歌词是不可能的,而如果找到三个群集,并且它们遍及歌曲均匀地分布,则这些群集更可能为歌词。对找到的每一组测量量(D)。对于给定的组,测量(D)如下。考虑对给定的群集组找到N个群集的情况。首先,将整个音频文件归一化以使其持续时间等于1。设第i个群集的时间位置为ti。定义t0□0和tN+1□1。然后,量(D)计算如下:
( N + 1 ) N ( 1 - Σ i = 1 N + 1 ( t i - t i - 1 ) 2 ) .
量(D)具有以下属性:首先,由于 Σ i = 1 N + 1 ( t i - t i - 1 ) = 1 , 并且由于ti≥ti-1i,差ti-ti-1可被解释为概率,并且因此(D)与对应的分布(具有加性偏移)的雷尼(Renyi)熵成正比。由此,在此意义上,选择具有较大的(D)值的群集对应于选择更均匀分布的群集(因为已知,对于任何离散分布,最大熵是在所有概率具有相同值时找到的)。要强调,ti-ti-1仅被解释为概率,以示出最大化(D)等效于选择最均匀分布的群集;这一概率解释不在别处使用。第二,选择偏移和缩放因子,使得对任意N,(D)最大值为1,最小值为0。这允许在群集组之间比较群集组的分布质量,即使那些组包含不同数量的群集。另外,它允许容易地应用关于赞成哪些多重性的先验知识(如,通过给予比其它多重性稍高的权值选择多重性3、4或5,因为歌词更可能出现那么多次数)。
尽管在某些情况下,几何平均值特征(上述(C))预示了包含语音的音频片断,然而在其它情况下(例如,当歌唱声学地不比音乐的剩余部分突出时),它可能并不于此。然而,在后一情况下,量(C)往往贯穿音频剪辑的大部分不显著地变化,而在前一情况下,它的确贯穿音频剪辑显著地变化。为考虑这一情况,对一组确认歌曲(对其能量测量(B)高于阈值的那些指纹,以避免由于歌曲中的静音而引起的偏离)的中间三个计算每一指纹对数几何平均值的标准偏差。中间三个用于减轻由于歌曲的始端和末端具有较低的(C)值而引起的偏离,这些较低的值是由于安静的引入和渐弱而引起的。
在这一点上,设smax和smin为确认组中找到的每一帧特征(C)的最大和最小标准偏差。定义线性映射(a,b)为asmin+b=0和asmax+b=1(因此参数a和b由确认组所固定)。假定对一个新歌曲计算音频缩略图:计算其每一帧(C)值的标准偏差,并且应用线性映射y=as+b。如果y>1,用1替换y,如果y<0,用0替换y。然后对于该歌曲,线性地将歌曲的值(C)映射到区间[0,y]。然后,向每一组授予一平均频谱质量,它是该组中的指纹的经缩放的值(C)的平均值。当与群集质量(D)(最大值为1)的测量相组合时,这一缩放的结果将,例如,降低特征(C)在为那些歌曲选择缩略图中的影响,对那些歌曲,特征(C)不很显著穿过歌曲的变化。
由此,每一组现在具有与其相关联的两个数字:一个测量群集分布质量,并从0到1变化,另一个测量频谱分布质量,并从0到y变化,其中y至多为1,并且其中,y对其频谱分布中的方差较大的歌曲较大。选择“最佳”或最优组为这两个数字的平方和最高的那一组。对于其频谱分布(几何平均值)量具有较小方差(与确认组相比)的那些歌曲,y将较小,并且因此,当与群集分布质量组合时,其值具有较小的权值。对于其频谱分布(几何平均值)量具有较大方差(与确认组相比)的那些歌曲,y将近似为1,并且因此,当与群集分布质量组合时,其值与群集分布质量具有近似相同的权值。
前进到330,可考虑群集的替换选择。在这一方面中,聚集可通过找出剪辑内在该剪辑中任何地方重复的音频的最长片断来执行。当群集组合被如上计算时,这可通过用零填充其大小等于指纹数量的矢量,然后对出现在多重性至少为2的组中的每一指纹用1替换0,最后在矢量上执行行程长度编码以找出最长的1串来实现。然后采用对应的指纹以对应于最佳群集。
在340,从上述确定的群集组中确定最优指纹。由此,剩余的任务是找出该组内的最佳群集,然后找出该群集中的最佳指纹,并提取围绕该指纹的音频作为音频缩略图。在这一点上可使用各种试探。在一个示例中,太接近歌曲的始端或末端的群集被拒绝;对围绕群集的6秒窗中的任一指纹其能量(上述测量(B))低于阈值的群集被拒绝;最后,选择围绕该指纹的15秒窗中具有最高平均频谱平直度测量(C)的指纹(从上述测试中幸存的那些指纹中选择)。
在上述处理失败的情况下(例如,如果没有找到其多重性大于1的群集组合),则使用上述两个能量测量(B)和(C)来计算最佳指纹,如下:仅被认为其能量测量(B)位于整个歌曲的前三个(B)值中的那些指纹被考虑在内,以避免歌曲的安静部分(尽管如此,仍具有较高的频谱平直度测量(C),因为白噪声具有最高的可能频谱平直度测量,并且音乐的非常安静的部分可以十分接近白噪声)。对于在这一测试中幸存的那些指纹,其周围的15秒具有最高平均频谱平直度测量(C)的那些指纹被选中作为最佳指纹。
在350,从340中选择的指纹中提取音频。围绕该指纹的位置的固定持续时间音频的片断被用作缩略图。将指纹放置在考虑该片断的始端被发现是有利的,因为系统可识别出紧靠实际歌词之前的重复的乐器段。这一“音频缩略图”(如,15秒剪辑)然后可被例如保存在盘上作为单独的音频文件,或者定义缩略图在完整的音频文件中的位置的时间偏移可被保存在一合适的文件中(如,播放列表,.ASX文件)。如有需要,使用标准技术向音频的始端和末端自动应用渐弱,以提供更满意的效果。
图4示出了依照本发明的一个方面的失真判别式分析系统400。用于音频处理的技术,例如从语音中提取特征的音频处理技术,通常使用约20ms的帧持续时间。然而,为减少加指纹应用的计算开销,希望以约每秒数次从流中生成指纹。对于20ms输入帧,最后一个DDA层中使用的步长将必须以小于100Hz的初始采样频率进行采样,并且这可导致混淆,它作为失真的另一来源。图4所示的系统400避免了这一问题。一般没有混淆,因为没有降低采样速率的中间层。由于这一要求,以及在约为半秒等级的时间长短上生成指纹的要求,显著地约束第一层帧的可能持续时间。同样,时间上较宽的第一层允许DDA能够更灵活地选择频率空间中的重要方向。
图5示出了依照本发明的一个方面的广义本征值500。上文描述的对系统400的第一层的64输出维度的选择由图5所示的训练数据上测量的广义本征频谱(eigenspectra)来引导。来自第一层的大多数有用信息在前100个投影中捕捉。第二层的频谱较不快速地下降。然而,为加快数据库查找,仅考虑第二层上的前64个投影。数据库查找的速度可以通过仅对每372ms而非每186ms的数据采样被提高2的因子。
上述的流音频加指纹系统首先将立体声音频信号转换成单声道,然后向下采样到11025Hz。信号被分割成固定的长度-372ms的帧,半帧重叠。然后向每一帧应用MCLT(重叠傅立叶变换)。通过对每一MCLT系数取对数模生成对数频谱。流音频加指纹系统执行两个逐帧预处理步骤,其抑制了特定的、易于识别的失真。
第一个预处理步骤移除了由频率均衡化和音量调整引起的失真。这一“去均衡化加阈值”步骤通过取对数频谱的DCT、将每一DCT系数乘以从第一分量的1到第六和更高分量的0线性地倾斜(ramp)的权值、然后执行反向DCT,来向对数频谱应用低通滤波器。这可获得对对数频谱的平滑逼近A。A然后被均匀低降低6dB并在-70dB出剪断。第一个预处理步骤的输出矢量则是对数频谱之间的分量之差,如果该差为正,取此差,否则取0。
第二个预处理步骤移除信号中不能由人类收听者听见的失真。这一步骤对第一步骤的对数频谱取幂,然后通过一算法生成一频率相关感知阈值。最终经预处理的信号则是以dB表示的对数频谱和对数感知阈值之差,如果该差为正,取此差,否则取0。最终经预处理的数据由每帧2048个实系数(并由此有2048个频带)构成。
参考图6,用于实现本发明的各方面的示例性环境710包括计算机712。计算机712包括处理单元714、系统存储器716和系统总线718。系统总线718将包括但不限于系统存储器716的系统组件耦合至处理单元714。处理单元714可以是各种可用处理器的任一种。双微处理器和其它多处理器体系结构也可用作处理单元714。
系统总线718可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用各类可用总线体系结构的任一种局部总线,这些体系结构包括但不限于,16位总线、工业标准体系结构(ISA)、微通道体系结构(MCA)、扩展ISA(EISA)、智能驱动电子设备(IDE)、VESA局部总线、外围部件互连(PCI),通用串行总线(USB)、高级图形端口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)以及小型计算机系统接口(SCSI)。
系统存储器716包括易失存储器720和非易失存储器722。基本输入/输出系统(BIOS)包括如在启动时帮助在计算机712内的元件之间传输信息的基本例程,通常储存在非易失存储器722中。作为说明而非局限,非易失存储器722可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)或闪存。易失存储器720包括随机存取存储器(RAM)、它担当外部高速缓存。作为说明而非局限,RAM以许多形式可用,如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)和直接存储器总线RAM(DRRAM)。
计算机712也包括可移动/不可移动、易失/非易失计算机存储介质。例如,图6示出了盘存储724。盘存储724包括但不限于,诸如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或记忆棒等设备。另外,盘存储724可单独包括存储介质或与其它存储介质组合,其它存储介质包括但不限于,诸如光盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字多功能盘ROM驱动器(DVD-ROM)等光盘驱动器。为便于盘存储设备724连接到系统总线718,通常使用可移动或不可移动接口,如接口726。
可以理解,图6描述了担当用户和合适的操作环境710中描述的基本计算机资源之间的中介的软件。这类软件包括操作系统728。操作系统728可储存在盘存储724中,它用于控制并分配计算机系统712的资源。系统应用程序730利用操作系统728通过储存在系统存储器716或盘存储724上的程序模块732和程序数据734对资源的管理。可以理解,本发明可用各种操作系统或操作系统的组合来实现。
用户通过输入设备736向计算机712输入命令和信息。输入设备736包括但不限于,诸如鼠标、跟踪球、触针、触摸垫等定位设备、键盘、麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、TV调谐卡、数码相机、数码摄像机、web相机等等。这些和其它输入设备通过系统总线718经由接口端口738连接到处理单元714。接口端口738包括,例如,串行端口、并行端口、游戏端口、通用串行总线(USB)。输出设备740使用与输入设备736相同类型端口中的某一些。由此,例如,USB端口可用于向计算机712提供输入,并从计算机712输出信息到输出设备740。提供了输出适配器742以说明存在一些输出设备740,如监视器、扬声器和打印机,以及需要特殊适配器的其它输出设备740。输出适配器742包括,作为说明而非局限,提供输出设备740和系统总线718之间的连接装置的视频卡和声卡。应当注意,其它设备和/或设备的系统提供了输入和输出能力,如远程计算机744。
计算机712可以在使用到一个或多个远程计算机,如远程计算机744的逻辑连接的网络化环境中操作。远程计算机744可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、对等设备或其它公用网络节点等等,并通常包括相对于计算机712所描述的许多或所有元件。为简明性目的,仅示出了远程计算机744具有存储器存储设备746。远程计算机744通过网络接口748逻辑上连接至计算机712,然后通过通信连接750物理地连接。网络接口748包含诸如局域网(LAN)和广域网(WAN)等通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜缆分布式数据接口(CDDI)、以太网/IEEE 802.3、令牌环/IEEE 802.5等等。WAN技术包括但不限于,点对点链路、诸如综合业务数字网(ISDN)及其变种等电路交换网络、分组交换网络以及数字订户线(DSL)。
通信连接750指用于将网络接口748连接到总线718的硬件/软件。尽管为说明的清晰性,示出通信连接750在计算机712内,然而它也可以对计算机712是外部的。仅为示例性目的,连接到网路接口748必须的硬件/软件包括内部和外部技术,如包括常规电话级调制解调器、线缆调制解调器和DSL调制解调器的调制解调器、ISDN适配器和以太网卡。
图7示出了本发明可交互的示例计算环境800的示意框图。系统800包括一个或多个客户机810。客户机810可以是硬件和/或软件(如,线程、进程、计算装置)。系统800也包括一个或多个服务器830。服务器830也可以是硬件和/或软件(如,线程、进程、计算装置)。例如,服务器830可容纳线程,以通过使用本发明完成变换。客户机810和服务器830之间的一个可能的通信可以是适用于在两个或多个计算机进程之间传输的数据分组的形式。系统800包括可用于便于在客户机810和服务器830之间通信的通信框架850。客户机810操作上连接至可用于储存对客户机810本地的信息的一个或多个客户机数据存储860。类似地,服务器830操作上连接至可用于储存对服务器830本地的信息的一个或多个服务器数据存储840。
上文所描述的包括本发明的示例。当然,不可能为了描述本发明而描述组件或方法的每一可想象的组合,但是本领域的普通技术人员可以认识到,本发明的许多另外的组合和置换是可能的。因此,本发明旨在包含落入所附权利要求书的精神和范围中的所有这样的改变、修改和变化。此外,在术语“包括”用于详细描述和权利要求书的意义上,这类术语旨在以与术语“包含”用作权利要求书中的过渡词语所解释的类似的方式为包含性的。

Claims (37)

1.一种用于概括音频信息的系统,其特征在于,包括:
一分析器,它将音频转换成帧;
一加指纹组件,它将所述帧转换成指纹,每一指纹部分地基于多个帧;
一相似度检测器,它计算指纹之间的相似度;
一试探模块,它部分地基于所述指纹之间的相似度生成所述音频文件的缩略图。
2.如权利要求1所述的系统,其特征在于,所述试探模块包括能量组件和平直度组件的至少一个,以帮助确定一用于所述缩略图的合适的音频分段。
3.如权利要求2所述的系统,其特征在于,所述试探模块用于自动选择乐器部分上的有声歌词。
4.如权利要求2所述的系统,其特征在于,所述能量组件和所述平直度组件在所述指纹不导致找到一合适的歌词时使用。
5.如权利要求1所述的系统,其特征在于,它还包括一通过基于能量的阈值移除音频剪辑的始端和末端处的静音的组件。
6.如权利要求1所述的系统,其特征在于,所述加指纹组件还包括一归一化组件,使得从每一指纹到音频剪辑内的其它指纹的平均欧几里得距离为1。
7.如权利要求1所述的系统,其特征在于,所述分析器对音频帧计算一组频谱幅度。
8.如权利要求7所述的系统,其特征在于,对于每一帧,通过将所述帧内的每一频率分量的平均能量除以音频文件中该量的平均值来计算一平均、归一化的能量E。
9.如权利要求8所述的系统,其特征在于,它还包括一选择音频文件的中间部分以减轻出现在所述音频文件中的安静引入和渐弱的组件。
10.如权利要求2所述的系统,其特征在于,所述平直度组件采用一被添加到每一频率分量的频谱幅度的数字,来减轻当确定对数时的数字问题。
11.如权利要求10所述的系统,其特征在于,所述平直度组件包括一帧量,它被计算为所述频谱幅度的对数归一化几何平均值。
12.如权利要求11所述的系统,其特征在于,所述归一化是通过从所述几何平均值中减去逐帧幅度的逐帧对数算术平均值来执行的。
13.如权利要求1所述的系统,其特征在于,所述相似度检测器包括一聚集功能,所述聚集功能产生相似指纹的群集。
14.如权利要求13所述的系统,其特征在于,所述聚集功能还产生群集组。
15.如权利要求14所述的系统,其特征在于,它还包括一指纹F1或涉及F1的标识索引,如果F1和F2满足以下至少两个条件,则该标识索引被添加到所述群集组中包含指纹F2的群集中:对于第一条件,从F1到F2的归一化欧几里得距离低于第一阈值,对于第二条件,音频中计算F1处和计算F2处之间的时间间隔高于第二阈值。
16.一种在其上储存了用于实现权利要求1所述的系统的计算机可读指令的计算机可读介质。
17.一种自动缩略图生成器,其特征在于,包括:
用于将音频文件转换成帧的装置;
用于对所述音频文件加指纹、部分地基于多个帧产生指纹的装置;以及
用于部分地基于所述指纹确定音频缩略图的装置。
18.一种生成音频缩略图的方法,其特征在于,包括:
生成多个音频指纹,每一音频指纹部分地基于多个音频帧;
将所述多个指纹聚集到指纹群集;以及
部分地基于所述指纹群集创建缩略图。
19.如权利要求18所述的方法,其特征在于,所述聚集还产生一个或多个群集组,每一群集组包括指纹群集。
20.如权利要求19所述的方法,其特征在于,所述聚集还包括确定一群集组是否具有三个或更多的指纹群集。
21.如权利要求18所述的方法,其特征在于,所述聚集部分地基于一阈值,所述阈值对音频文件自适应地选择,并用于帮助确定两个指纹是否属于同一群集组。
22.如权利要求18所述的方法,其特征在于,所述聚集通过一次考虑一个指纹来操作。
23.如权利要求18所述的方法,其特征在于,它还包括确定一参数(D),它描述了群集贯穿音频文件如何在时间上均匀分布。
24.如权利要求23所述的方法,其特征在于,一时间分布测量被应用于给定群集组中的群集。
25.如权利要求24所述的方法,其特征在于,(D)被测量如下:
归一化歌曲以使持续时间为1;
将第i个群集的时间位置设置为ti
定义t0□0和tN+1□1;以及
计算 ( N + 1 ) N ( 1 - Σ i = 1 N + 1 ( t i - t i - 1 ) 2 ) , 其中,N是群集组中群集的数量。
26.如权利要求25所述的方法,其特征在于,它还包括确定一偏移和缩放因子,使得对任一N,(D)的最大值为1,最小值为0。
27.如权利要求25所述的方法,其特征在于,它还包括对组中的指纹确定一平均频谱质量。
28.如权利要求27所述的方法,其特征在于,将一个组的平均平铺平直度和参数D组合,以从多个群集组中确定一最佳群集组。
29.如权利要求28所述的方法,其特征在于,所述平均平铺平直度和参数D被组合成与每一群集组相关联的单个参数,使得具有所述参数的外部值的组被选中作为最佳组。
30.如权利要求29所述的方法,其特征在于,当选择所述最佳群集组时,所述群集组中的最佳指纹被确定为其中持续时间约等于音频缩略图的持续时间的环绕音频具有最大频谱能量或平直度的指纹。
31.如权利要求18所述的方法,其特征在于,所述创建还包括通过确定在所述音频文件中重复的音频文件中最长音频片断来确定群集。
32.如权利要求18所述的方法,其特征在于,所述创建还包括以下的至少之一:
拒绝接近歌曲的始端或末端的群集;
拒绝对于预定窗内的任一指纹其能量低于阈值的群集;以及
选择在预定窗中具有最高平均频谱平直度测量的指纹。
33.如权利要求18所述的方法,其特征在于,所述创建还包括通过指定音频文件中的时间偏移来生成缩略图。
34.如权利要求18所述的方法,其特征在于,所述创建还包括自动渐弱音频缩略图的始端或末端。
35.如权利要求18所述的方法,其特征在于,所述生成还包括在至少两层中处理音频文件,其中,第一层的输出基于在小窗上计算的对数频谱,而第二层在通过总计由第一层产生的矢量计算的矢量上操作。
36.如权利要求35所述的方法,其特征在于,它还包括后一层中提供比前一层更宽的时间窗。
37.如权利要求36所述的方法,其特征在于,它还包括采用所述层的至少一个来补偿时间不对准。
CNB2005100528668A 2004-02-24 2005-02-24 生成音频缩略图的系统和方法 Expired - Fee Related CN100461168C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/785,560 US7379875B2 (en) 2003-10-24 2004-02-24 Systems and methods for generating audio thumbnails
US10/785,560 2004-02-24

Publications (2)

Publication Number Publication Date
CN1661600A true CN1661600A (zh) 2005-08-31
CN100461168C CN100461168C (zh) 2009-02-11

Family

ID=34750474

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100528668A Expired - Fee Related CN100461168C (zh) 2004-02-24 2005-02-24 生成音频缩略图的系统和方法

Country Status (5)

Country Link
US (1) US7379875B2 (zh)
EP (1) EP1571670B1 (zh)
JP (1) JP4878437B2 (zh)
KR (1) KR101117933B1 (zh)
CN (1) CN100461168C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975917B (zh) * 2005-12-01 2012-06-13 三星电子株式会社 提供音频内容选择信息的方法、装置及记录介质存储程序
WO2012163013A1 (zh) * 2011-10-19 2012-12-06 华为技术有限公司 音乐查询方法和装置
CN103093761A (zh) * 2011-11-01 2013-05-08 腾讯科技(深圳)有限公司 音频指纹检索方法及装置
CN105976828A (zh) * 2016-04-19 2016-09-28 乐视控股(北京)有限公司 一种声音区分方法和终端
CN112346684A (zh) * 2020-10-20 2021-02-09 深圳Tcl新技术有限公司 数据的显示方法、装置、电视和计算机可读存储介质

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8554681B1 (en) * 2003-11-03 2013-10-08 James W. Wieder Providing “identified” compositions and digital-works
US7953504B2 (en) * 2004-05-14 2011-05-31 Synaptics Incorporated Method and apparatus for selecting an audio track based upon audio excerpts
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
ATE467207T1 (de) * 2005-01-21 2010-05-15 Unltd Media Gmbh Vervahren zum erzeugen eines abdrucks eines audiosignals
TWI269268B (en) * 2005-01-24 2006-12-21 Delta Electronics Inc Speech recognizing method and system
EP1905035B1 (en) * 2005-07-19 2013-07-03 Samsung Electronics Co., Ltd. Audio reproduction method and apparatus supporting audio thumbnail function
KR100733145B1 (ko) * 2005-09-15 2007-06-27 한국과학기술원 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
KR100725018B1 (ko) * 2005-11-24 2007-06-07 삼성전자주식회사 음악 내용 자동 요약 방법 및 그 장치
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
US11128489B2 (en) 2017-07-18 2021-09-21 Nicira, Inc. Maintaining data-plane connectivity between hosts
WO2007068119A1 (en) * 2005-12-13 2007-06-21 Audio Pod Inc. Segmentation and transmission of audio streams
US9319720B2 (en) 2005-12-13 2016-04-19 Audio Pod Inc. System and method for rendering digital content using time offsets
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
US7603434B2 (en) * 2006-04-13 2009-10-13 Domingo Enterprises, Llc Central system providing previews of a user's media collection to a portable media player
US20070245378A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews to an associated portable media player
US8316081B2 (en) 2006-04-13 2012-11-20 Domingo Enterprises, Llc Portable media player enabled to obtain previews of a user's media collection
KR100764346B1 (ko) * 2006-08-01 2007-10-08 한국정보통신대학교 산학협력단 구간유사도 기반의 자동 음악요약 방법 및 시스템
US20080046406A1 (en) * 2006-08-15 2008-02-21 Microsoft Corporation Audio and video thumbnails
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
GB2462969A (en) * 2007-06-28 2010-03-03 Taptu Ltd Audio thumbnail
US20090006551A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Dynamic awareness of people
US8208643B2 (en) * 2007-06-29 2012-06-26 Tong Zhang Generating music thumbnails and identifying related song structure
US8650094B2 (en) * 2008-05-07 2014-02-11 Microsoft Corporation Music recommendation using emotional allocation modeling
US8344233B2 (en) * 2008-05-07 2013-01-01 Microsoft Corporation Scalable music recommendation by search
KR100995839B1 (ko) * 2008-08-08 2010-11-22 주식회사 아이토비 멀티미디어 디지털 콘텐츠의 축약정보 추출시스템과 축약 정보를 활용한 다중 멀티미디어 콘텐츠 디스플레이 시스템 및 그 방법
US8452731B2 (en) * 2008-09-25 2013-05-28 Quest Software, Inc. Remote backup and restore
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US20100132122A1 (en) * 2008-12-02 2010-06-03 Dan Hollingshead Bed-Mounted Computer Terminal
US8687839B2 (en) * 2009-05-21 2014-04-01 Digimarc Corporation Robust signatures derived from local nonlinear filters
US20110258211A1 (en) * 2010-04-18 2011-10-20 Kalisky Ofer System and method for synchronous matching of media samples with broadcast media streams
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
CN102467939B (zh) * 2010-11-04 2014-08-13 北京彩云在线技术开发有限公司 一种歌曲音频切割装置及方法
US9449024B2 (en) 2010-11-19 2016-09-20 Microsoft Technology Licensing, Llc File kinship for multimedia data tracking
WO2012091936A1 (en) 2010-12-30 2012-07-05 Dolby Laboratories Licensing Corporation Scene change detection around a set of seed points in media data
CN103688272A (zh) * 2011-03-03 2014-03-26 赛弗有限责任公司 用于数据内的共同元素的自主检测和分离的系统以及与之关联的方法和设备
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US20140074466A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
CN103020174B (zh) * 2012-11-28 2016-01-06 华为技术有限公司 相似性分析方法、装置及系统
US9065971B2 (en) * 2012-12-19 2015-06-23 Microsoft Technology Licensing, Llc Video and audio tagging for active speaker detection
US10122983B1 (en) * 2013-03-05 2018-11-06 Google Llc Creating a video for an audio file
US9679583B2 (en) * 2013-03-15 2017-06-13 Facebook, Inc. Managing silence in audio signal identification
KR101419764B1 (ko) * 2013-06-07 2014-07-17 정영민 휴대단말기의 음성 이모티콘 제어방법
US9053711B1 (en) 2013-09-10 2015-06-09 Ampersand, Inc. Method of matching a digitized stream of audio signals to a known audio recording
US10014006B1 (en) 2013-09-10 2018-07-03 Ampersand, Inc. Method of determining whether a phone call is answered by a human or by an automated device
EP2879047A3 (en) * 2013-11-28 2015-12-16 LG Electronics Inc. Mobile terminal and controlling method thereof
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
KR101844516B1 (ko) 2014-03-03 2018-04-02 삼성전자주식회사 컨텐츠 분석 방법 및 디바이스
JP6587625B2 (ja) 2014-03-04 2019-10-09 インタラクティブ・インテリジェンス・グループ・インコーポレイテッド オーディオ指紋探索の最適化のためのシステムおよび方法
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US9606766B2 (en) 2015-04-28 2017-03-28 International Business Machines Corporation Creating an audio file sample based upon user preferences
US10089994B1 (en) * 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
US11062693B1 (en) * 2019-06-20 2021-07-13 West Corporation Silence calculator

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4567606A (en) * 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition
AU1436792A (en) * 1991-02-22 1992-09-15 Seaway Technologies, Inc. Acoustic method and apparatus for identifying human sonic sources
WO1992022891A1 (en) * 1991-06-11 1992-12-23 Qualcomm Incorporated Variable rate vocoder
US5386493A (en) * 1992-09-25 1995-01-31 Apple Computer, Inc. Apparatus and method for playing back audio at faster or slower rates without pitch distortion
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
DE19861167A1 (de) * 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US6606744B1 (en) * 1999-11-22 2003-08-12 Accenture, Llp Providing collaborative installation management in a network-based supply chain environment
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6763136B1 (en) * 2000-09-19 2004-07-13 Bae Systems Mission Solutions, Inc. Method and apparatus for determining spectral similarity
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
JP3736394B2 (ja) * 2001-07-10 2006-01-18 松下電器産業株式会社 画像圧縮装置
KR20040024870A (ko) * 2001-07-20 2004-03-22 그레이스노트 아이엔씨 음성 기록의 자동 확인
US6845357B2 (en) * 2001-07-24 2005-01-18 Honeywell International Inc. Pattern recognition using an observable operator model
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US6933432B2 (en) * 2002-03-28 2005-08-23 Koninklijke Philips Electronics N.V. Media player with “DJ” mode
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US20030191764A1 (en) * 2002-08-06 2003-10-09 Isaac Richards System and method for acoustic fingerpringting
US7386357B2 (en) * 2002-09-30 2008-06-10 Hewlett-Packard Development Company, L.P. System and method for generating an audio thumbnail of an audio track
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
US7233832B2 (en) * 2003-04-04 2007-06-19 Apple Inc. Method and apparatus for expanding audio data
US20040260682A1 (en) * 2003-06-19 2004-12-23 Microsoft Corporation System and method for identifying content and managing information corresponding to objects in a signal

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975917B (zh) * 2005-12-01 2012-06-13 三星电子株式会社 提供音频内容选择信息的方法、装置及记录介质存储程序
WO2012163013A1 (zh) * 2011-10-19 2012-12-06 华为技术有限公司 音乐查询方法和装置
CN103093761A (zh) * 2011-11-01 2013-05-08 腾讯科技(深圳)有限公司 音频指纹检索方法及装置
CN105976828A (zh) * 2016-04-19 2016-09-28 乐视控股(北京)有限公司 一种声音区分方法和终端
CN112346684A (zh) * 2020-10-20 2021-02-09 深圳Tcl新技术有限公司 数据的显示方法、装置、电视和计算机可读存储介质

Also Published As

Publication number Publication date
KR20060043080A (ko) 2006-05-15
US20050091062A1 (en) 2005-04-28
CN100461168C (zh) 2009-02-11
EP1571670A3 (en) 2011-01-12
JP4878437B2 (ja) 2012-02-15
EP1571670B1 (en) 2018-12-19
EP1571670A2 (en) 2005-09-07
KR101117933B1 (ko) 2012-03-09
US7379875B2 (en) 2008-05-27
JP2005250472A (ja) 2005-09-15

Similar Documents

Publication Publication Date Title
CN100461168C (zh) 生成音频缩略图的系统和方法
US6996390B2 (en) Smart car radio
KR100776495B1 (ko) 오디오 데이터베이스에서의 검색 방법
US7522967B2 (en) Audio summary based audio processing
US20040093354A1 (en) Method and system of representing musical information in a digital representation for use in content-based multimedia information retrieval
CN1627295A (zh) 声频复制检测器
US20220238087A1 (en) Methods and systems for determining compact semantic representations of digital audio signals
Shen et al. A novel framework for efficient automated singer identification in large music databases
CN115146157A (zh) 一种推荐列表生成方法、匹配模型训练方法、装置及设备
KR20100007102A (ko) 온라인을 통한 디지털 컨텐츠 관리 시스템
CA3017999A1 (en) Audio search user interface
You et al. Estimating Classification Accuracy for Unlabeled Datasets Based on Block Scaling.
Bayle et al. Toward Faultless Content-Based Playlists Generation for Instrumentals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150512

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150512

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090211

Termination date: 20200224