[go: up one dir, main page]

CN107274916B - 基于声纹信息对音频/视频文件进行操作的方法及装置 - Google Patents

基于声纹信息对音频/视频文件进行操作的方法及装置 Download PDF

Info

Publication number
CN107274916B
CN107274916B CN201710439537.1A CN201710439537A CN107274916B CN 107274916 B CN107274916 B CN 107274916B CN 201710439537 A CN201710439537 A CN 201710439537A CN 107274916 B CN107274916 B CN 107274916B
Authority
CN
China
Prior art keywords
audio
contact
target
voiceprint information
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710439537.1A
Other languages
English (en)
Other versions
CN107274916A (zh
Inventor
杨帆
苏腾荣
李世全
马永健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN201710439537.1A priority Critical patent/CN107274916B/zh
Publication of CN107274916A publication Critical patent/CN107274916A/zh
Application granted granted Critical
Publication of CN107274916B publication Critical patent/CN107274916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开一种基于声纹信息对音/视频文件进行操作的方法,包括如下步骤:采集发声目标的声纹信息;以及根据所述声纹信息搜索音/视频文件。本发明还提供了一种终端设备。本发明提出的技术方案,能够根据特定联系人的声纹信息对音/视频文件进行分类,当用户想找到包含有特定联系人的音/视频文件,不必一个一个文件的播放查看,而是直接进行选择,从而方便用户查找含有特定人员声音的音视频文件。进一步地,本发明提供的基于声纹信息对音/视频文件进行操作的方法可以直接跳转到音/视频中某个联系人说话的时间节点进行播放,从而提供用户的搜索效率。

Description

基于声纹信息对音频/视频文件进行操作的方法及装置
本申请是2012年12月05日提交的名称为“基于声纹信息对音频/视频文件进行操作的方法及装置”的中国专利申请NO.201210518118.4的分案申请。
技术领域
本发明涉及移动设备通信应用领域,尤其涉及根据特定联系人声纹对终端设备音视频操作的方法及装置。
背景技术
现有终端设备上的录音器或摄像器可以方便用户录制和拍摄音频和视频文件。随着终端设备的性能提高,存储容量增大,多媒体应用程序的种类增多等条件,用户很容易录制或拍摄大量的音频/视频文件。然而,面对着大量音频/视频文件,当用户需要查找所有录制有某个特定联系人的音频/视频文件,或查找和播放某个特定联系人在某个音频/视频文件中的某一段特定信息时,由于无法快速定位,会遇到无从查找的情况。只有一个一个文件的播放查看,才能得到所需文件或片段。
有鉴于此,需要提供一种快速查找和分类目标音频/视频文件,并定位特定联系人在该文件中出现时间点的方法和终端设备,以方便用户查找录制有特定人员声音和视频的文件。
发明内容
为了解决上述技术问题,实现用户快速查找录制有特定人员声音或视频的文件。
本发明的目的之一在于提供一种基于声纹信息对音/视频文件进行操作的方法,包括如下步骤:采集发声目标的声纹信息;以及根据所述声纹信息搜索音/视频文件;其中,所述音/视频文件中的所有被录制的声音被分割为多个语音单元,每个语音单元只包含其中一个发声目标的语音,并记录所述发声目标在所述音/视频文件中的时间点。
本发明的另一目的在于提供一种终端设备,包括:声纹提取模块,用于采集发声目标的声纹信息;以及执行模块,用于根据所述声纹信息搜索音/视频文件;其中,所述音/视频文件中的所有被录制的声音被分割为多个语音单元,每个语音单元只包含其中一个发声目标的语音,并记录所述发声目标在所述音/视频文件中的时间点。
本发明提供的方法和装置,能够快速查找录制有特定人员声音或视频的文件,以提高用户的搜索效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施方法的描述中将变得明显和容易理解,其中:
图1示出了根据本发明一实施例的流程示意图;
图2示出了根据本发明的一实施例的终端设备进行音频采集之前的界面示意图;
图3示出了根据本发明实施例的音频采集的流程图;
图4示出了根据本发明的一实施例的终端设备进行音频采集时的界面示意图;
图5示出了搜索出录制的视频和音频文件后终端设备显示出在文件中标注有发声目标的声纹信息出现和/或结束的时间点的界面示意图;
图6示出了根据本发明的一实施例的通过终端设备查看联系人媒体库的流程图;
图7示出了根据本发明实施例的录制联系人声音的流程图;
图8示出了根据本发明一实施例的整体结构示意图;
图9示出了根据本发明一实施例的结构示意图。
具体实施方式
现在参照附图来具体描述本发明的示例性实施方法。然而,本发明可以用许多不同形式来实施并且不应该认为局限于这里阐述的具体实施方法;相反,提供这些实施方法是为了使本发明的公开彻底和完整,并向本领域技术人员完整地传达本发明的思想、观念、目的、构思、参考方案和保护范围。附图中示例的具体示例性实施方法的详细描述中使用的术语并不是为了限制本发明。附图中,相同标号指代相同要素。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
如图1所示,本发明提供了一种基于声纹信息对音/视频文件进行操作的方法,包括如下步骤:S1、采集发声目标的声纹信息;以及S2、根据声纹信息搜索音/视频文件。
例如,步骤S1通过如下方法实现:当联系人X1给用户Y打电话时,终端设备开启内置录音器录制一段联系人X1单独讲话的语音(例如,录制的该讲话语音,时间长度7-10秒),并从中提取声纹信息;接着,停止通话后,终端设备根据录制的声纹信息生成说话人模型M1后,将该样本存入媒体库中;接着,终端设备将说话人模型对应通讯录中联系人X的名录。
例如,步骤S1还通过如下方法实现:当用户Y带儿子X2去公园游玩时,终端设备在通讯录中儿子X2的记录中开启“录制声纹样本”选项并录制儿子X2的声纹信息;接着,停止录制后,终端设备根据录制的声纹信息生成说话人模型M2后,该样本存入终端存储器中;接着,终端设备将说话人模型对应媒体库中联系人X2的文件。当然,可以理解是,媒体库是存储多媒体文件集合的一种表述,也可以表述为文件夹、文件管理器、媒体管理器、视频管理器、音频管理器等等。如图5所示,当以后再遇到包括有说话人模型M1和M2的声纹信息,终端设备将这些视频和音频文件根据特定对象(例如,“我”和“儿子”)进行分类并标记。在分类存储之后,可以生成相应分类的主题栏、文件夹、媒体库等信息。
步骤S1还可以通过如下步骤实现:步骤S11、当选中通讯录应用程序中的一个发声目标(例如,张三)时,显示屏上提供录制声纹样本选项;步骤S12、当用户点击录制声纹样本选项后,终端设备采集声纹信息,并将根据声纹信息生成的说话人模型存储在联系人媒体库中;以及步骤S13、当进入联系人媒体库页面后,显示屏呈现出搜索到的音/视频文件。因此,采集发声目标的声纹信息包括:当选中某个发声目标时,采集声纹信息;以及存储采集的声纹信息。
图2示出了根据本发明的一实施例的终端设备进行音频采集之前的界面示意图。图3示出了根据本发明实施例的音频采集的流程图。音频采集流程包括如下步骤:步骤101:进入通讯录,打开电话簿上特定联系人。接着,步骤102:按“录制声纹样本”选项(如图2所示),录制联系人声音(即,采集联系人的声纹信息)。接着,步骤103:录制完成后,对联系人的声音进行建模,以生成说话人模型,并将说话人模型保存到联系人信息中。因此,采集和存储声纹信息包括:根据声纹信息生成说话人模型;以及将说话人模型存储在本地存储模块中。
图4示出了根据本发明一实施方式的建模过程。利用声纹信息识别说话人身份的技术可以称为说话人识别(Speaker Recognition,SR),相应的模型可以称为说话人模型(Speaker Model,SM)。说话人识别系统通常采用UBM-GMM的方法进行建模,即通过大量训练音频(不止一位说话人)训练一个通用背景模型(Universal Background Model,UBM),然后在此UBM的基础上通过自适应的方法对特定的说话人进行建模,得到说话人模型(SM)。无论是通用背景模型还是说话人模型,通常都采用混合高斯模型(Gaussian Mixture Model,GMM)结构。
图4示出了根据本发明的一实施例的终端设备进行音频采集时的界面示意图。例如,在终端设备录制声纹样本时通讯录联系人界面(如图4所示)下,点击添加录制声纹样本按钮就可以录制联系人声音。
进一步地,如图3所示,声纹识别流程包括如下步骤:步骤104:确定音/视频文件。接着,步骤105:对音/视频文件中的语音进行说话人分割,并生成n个语音单元,每个语音单元只包含单一的说话人语音。接着,步骤106:对分割出的每个语音单元(例如,n个语音单元)进行联系人声纹识别并判断是否匹配。接着,步骤107:如果识别结果是匹配的,则为终端设备建立一个联系人和本音/视频文件之间对应关系的数据库。进一步地,对应关系的数据库可以记录出现联系人声音的音/视频文件。进一步地,对应关系的数据库还可以记录联系人声音出现在音/视频文件中的时间点。也就是说,通过时间点映射音/视频出现在相应文件中的位置。
图6示出了根据本发明的一实施例的通过终端设备查看联系人媒体库的流程图。通过终端设备查看联系人媒体库的流程可以包括如下步骤:步骤201:打开媒体库,选择进入“联系人媒体库”菜单。接着,步骤202:开始读取联系人和音/视频文件关系数据库。接着,步骤203:读取完成后显示联系人及其对应媒体文件及时间点203。
图5示出了搜索出录制的视频和音频文件后终端设备显示出在文件中标注有发声目标的声纹信息出现和/或结束的时间点的界面示意图。例如,打开媒体库,选择进入“联系人媒体库”菜单,这时查看联系人媒体库的界面呈现给用户。界面上提供了经读取联系人和音/视频文件关系数据库后的各项信息。因此,根据声纹信息搜索音/视频文件包括:当打开本地存储模块时,显示音/视频文件。
进一步地,从图5所示的界面中可以看出,该实施方式的媒体库中有“儿子”和“我”两类媒体文件,其中:“儿子”文件的“六一儿童节”项目里有三个时间点,即3’45”、18’23”、45’34”。这三个时间点就是“六一儿童节”项目里出现“儿子”声音的时间点。例如,用户可以选择“3’45””,这时终端设备可以自动进去到“六一儿童节”项目中3分钟45秒时开始播放。因此,存储采集的声纹信息包括:根据说话人模型进行分类存储。进一步地,根据声纹信息搜索音/视频文件包括:当打开本地存储模块时,显示音/视频文件。进一步地,所述分类包括:根据说话人模型对音/视频文件进行分类显示。进一步地,所述显示包括:显示发声目标出现在音/视频文件中的时间点。进一步地,所述分类包括:根据发声目标的种类对音/视频文件进行分类搜索。进一步地,所述时间点包括:当选中分类显示中的时间点时,播放音/视频文件中含有的发声目标的音频/视频。
如图1-6所示,根据本发明的另一实施方式,当终端设备对音/视频文件根据特定联系人进行分类时,首先需要在通讯录模块中针对其重点联系人进行声纹的建模和存储。本发明在终端设备通讯录模块中,为每个联系人记录增加一个“声纹样本”字段,用于存储联系人的声纹样。具体操作方法为:用户新建或编辑其关注的重要联系人(例如“孩子”)。随后,录制一段该特定联系人(“孩子”)的音频(例如,录制正常讲话,时间长度7-10秒)。终端设备根据声音样本对该特定联系人(“孩子”)声纹进行建模,并保存到通讯录该联系人记录(“孩子”)的声纹样本字段中。接着,用户录制并保存在终端设备上的音/视频文件。本发明可以进行重要联系人声纹分析并根据联系人进行分类,标记联系人声音发生时间点的对象。接着,利用说话人分割技术将音/视频文件中的所有被录制的说话人的声音提取并分割为多个语音单元,每个语音单元只包含其中一个说话人的语音。接着,利用说话人模型对每个语音单元进行声纹识别。接着,对声纹识别后存放联系人和音/视频关系的数据库,用于记录联系人和音/视频文件的对应关系,及联系人声音在本音/视频文件中出现的时间点。本发明提到的声纹是指:用户声音的声波频谱即该用户声音的生物特征。通过声纹比较,移动终端可以找出存储的多媒体中的相应目标。因此,当发声目标为联系人应用程序中的某个联系人时,采集发声目标的声纹信息的方法包括:当与该联系人进行通话时,记录联系人的一段声音,该段声音时间长度7-10秒及以上且该段声音中只有该联系人的声音。使用该段声音提取声纹信息并生成声纹模板。进一步地,当发声目标为联系人应用程序中的某个联系人时,采集发声目标的声纹信息包括:当与该联系人进行通话时,记录联系人的声纹信息。进一步地,当发声目标为联系人应用程序中的某个联系人时,采集发声目标的声纹信息包括:用户手动录制该联系人语音,记录联系人的声纹信息。进一步地,当发声目标为联系人应用程序中的某个联系人时,搜索音/视频文件包括:当选中该联系人时,播放映射联系人的音/视频。
图7示出了根据本发明实施例的录制联系人声音的流程图。录制联系人声音的流程包括:步骤301:打开通讯录上某个联系人。接着,步骤302:判断是否是第一次录制。
当判断结果是第一次录制时,进入步骤303:开始录制。接着,步骤304:录制完成后保存本音频。接着,步骤305:对该音频进行声纹建模。接着,步骤306:保存声纹建模信息。接着,步骤307:用本声纹信息识别现有音/视频文件。接着,步骤308:将识别出的文件及时间点保存到联系人和音/视频关系数据库中。最后,步骤309:声纹录制工作结束。
当判断结果不是第一次录制时,则进入步骤310:进一步判断提示是否重新录制。如果需要重新录制,则进入步骤311:删除原来录音文件。删除原来录音文件后,则进入步骤303。随后依次执行上述步骤303至309。如果不需要重新录制,则不录制,过程结束(309)。
根据本发明的另一实施方式,一种基于声纹识别技术对终端设备上视频和音频进行分类和标识的方法,包括如下步骤之一:录制联系人声音以提前声纹信息。接着,将音/视频文件进行说话人分割,分割为多个语音单元,且每个语音单元只含有一个说话人的语音,对这些语音单元逐个进行声纹识别。接着,将识别结果保存到联系人和音/视频关系数据库中。当进入联系人媒体库时,或者当用户在终端设备任意媒体库或文件管理器中进行“根据联系人分类”或“根据联系人查找”操作时,或者在联系人应用程序中直接查看该联系人相关音视频时,读取联系人和音/视频的关系数据库并将他们的关系显示出来。本发明不仅可以以在媒体库中以某一菜单项的方式显示联系人和音/视频的关系,也可以在联系人或文件管理器中以菜单形式显示。
进一步地,根据本发明的另一实施方式,在终端设备媒体库、联系人管理器、文件管理器等应用程序中,选择“根据联系人分类”或“根据联系人查找”来进行音频、视频的分类显示和查找。进一步地,根据本发明的另一实施方式,可以在联系人应用程序中直接查看该联系人相关的音/视频。
因此,本发明提供的基于声纹信息对音/视频文件进行操作的方法能够根据特定联系人的声纹信息对音/视频文件进行分类。因此,当用户想找到包含有特定联系人的音/视频文件,不必一个一个文件的播放查看,而是直接通过媒体库、联系人管理器、文件管理器显示信息进行选择,从而方便用户查找含有特定人员声音或视频的文件。进一步地,本发明提供的基于声纹信息对音/视频文件进行操作的方法可以直接跳转到音/视频中某个联系人说话的时间节点进行播放,从而提供用户的搜索效率。
如图8所示,本发明的整体方案利用声纹信息识别说话人身份的技术可以称为说话人识别(Speaker Recognition,SR),相应的模型可以称为说话人模型(Speaker Model,SM)。说话人识别系统通常采用UBM-GMM的方法进行建模,即通过大量训练音频(不止一位说话人)训练一个通用背景模型(Universal Background Model,UBM),然后在此UBM的基础上通过自适应的方法对特定的说话人进行建模,得到说话人模型(SM)。无论是通用背景模型还是说话人模型,通常都采用混合高斯模型(Gaussian Mixture Model,GMM)结构。如图8所示,本发明提供的基于声纹信息对音/视频文件进行操作的方法可以包括:建模过程,识别过程。建模过程可以包括以下步骤:步骤1:训练音频;步骤2:静音检测;步骤3:语音分割;步骤4:特征提取;步骤5:根据通用背景模型进行交叉自适应;步骤6:生成说话人模型;步骤7:基于假冒者音频进行Z-norm处理;步骤8:归一化说话人模型。识别过程可以包括以下步骤:步骤1:检测待识别音频;步骤2:静音检测;步骤3:语音分割;步骤4:特征提取;步骤5:根据归一化说话人模型进行得分计算;步骤6:基于假冒者音频进行T-norm处理;步骤7:判决;步骤8:输出识别结果。其中:归一化说话人模型和假冒者模型组成说话人模型。根据本发明的一实施方式,说话人模型的建模过程可以大致描述为以下几个阶段:1、特征提取阶段:利用静音检测技术(Voice Activity Detection,VAD),将有效的语音从输入音频中检测出来,并根据语音间的静音长度将输入音频分割成若干句语音,然后从分割出来的每一句语音提取说话人识别所需要的语音特征;2、UBM建模阶段:利用从训练音频提取的大量语音特征,计算通用背景模型(UBM);3、SM建模阶段:利用通用背景模型和少量特定说话人的语音特征,通过自适应方法计算该说话人的模型(SM);4、SM归一化阶段:为了增强说话人模型的抗干扰能力,完成说话人模型建模以后,经常利用一些假冒说话人的语音特征对说话人模型进行归一化(Normalization)操作,最终得到归一化后的说话人模型(Normalized SM)。根据本发明的一实施方式,说话人识别的识别过程可以大致描述为以下几个阶段:1、特征提取阶段:此阶段与建模过程的特征提取阶段相同;2、得分计算阶段:利用说话人模型,计算输入语音特征的得分;3、得分归一化阶段:利用归一化的说话人模型,对上一步得到的得分进行归一化,并做出最终判决。进一步而言,在上文所描述的建模和识别过程中,部分步骤可以有不同的实现方法:1、特征提取阶段的静音检测技术:本申请采用的方法是首先利用输入音频的能量信息和基频信息,将静音与非静音区分出来,再利用一个支持向量机(Support Vector Machine,SVM)模型将非静音部分的语音和非语音区分出来。确定了语音的部分,就可以根据语音段之间的间隔长度,将输入音频分成若干句语音;2、利用通用背景模型计算说话人模型的自适应方法:本申请采用的是本征音(Eigenvoice)方法,约束最大似然线性回归(Constrained Maximum Likelihood Linear Regression,CMLLR)方法以及结构化最大后验概率(Structured Maximum A Posterior,SMAP)方法相结合的方法;3、说话人模型归一化方法:本申请采用的是Z-Norm方法;4、得分归一化方法:本申请采用的是T-Norm方法。Z-Norm和T-Norm方法相结合的归一化方法是目前在说话人识别技术中最流行的归一化方法,前者用于建模阶段,后者用于识别阶段。
如图9所示,本发明的另一目的在于提供一种终端设备,包括:声纹提取模块,用于采集发声目标的声纹信息;以及执行模块,用于根据声纹信息搜索音/视频文件。
进一步地,声纹提取模块包括:声纹信息采集单元,用于在选中某个发声目标时采集声纹信息;声纹样本生成单元,用于根据声纹信息生成说话人模型。
进一步地,装置还包括:存储模块,用于存储采集的声纹信息。
进一步地,存储模块还用于:存储声纹模板样。
进一步地,声纹提取模块包括:目标分类单元,根据说话人模型进行分类存储。
进一步地,装置还包括:显示器,当打开本地存储模块时,显示音/视频文件。
进一步地,显示器用于:根据目标分类单元基于发声目标的种类对音/视频文件进行分类显示。
进一步地,显示器用于:显示发声目标出现在音/视频文件中的时间点。
进一步地,目标分类单元还用于:根据发声目标的种类对音/视频文件进行分类搜索。
进一步地,执行模块还用于:当选中分类显示中的时间点时,播放音/视频文件中含有的发声目标的音频/视频。
进一步地,当发声目标为联系人应用程序中的某个联系人时,声纹提取模块用于:当与该联系人进行通话时,记录联系人的声纹信息。
进一步地,当发声目标为联系人应用程序中的某个联系人时,声纹提取模块用于:用户手动录制该联系人语音,记录联系人的声纹信息。
进一步地,当发声目标为联系人应用程序中的某个联系人时,执行模块还用于:当选中该联系人时,播放映射联系人的音/视频。
本发明提供的方法和装置,能够快速查找录制有特定人员声音或视频的文件,以提高用户的搜索效率。
本技术领域技术人员可以理解,本发明可以涉及用于执行本申请中所述操作中的一项或多项操作的设备。所述设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备,所述通用计算机有存储在其内的程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、随即存储器(RAM)、只读存储器(ROM)、电可编程ROM、电可擦ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁性卡片或光线卡片。可读介质包括用于以由设备(例如,计算机)可读的形式存储或传输信息的任何机构。例如,可读介质包括随即存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光学存储介质、闪存装置、以电的、光的、声的或其他的形式传播的信号(例如载波、红外信号、数字信号)等。
本技术领域技术人员可以理解,上面参照根据本发明的实施方法的方法、方法、系统以及计算机程序产品的结构图和/或框图和/或流图对本发明进行了描述。应该理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步而言,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步而言,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
附图和说明书中公开了本发明的示例性实施方法。尽管采用了特定术语,但是它们仅用于一般以及描述的意义,而并不是出于限制的目的。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本发明的保护范围应以本发明的权利要求书来限定。

Claims (27)

1.一种基于声纹信息对音/视频文件进行操作的方法,其特征在于,包括如下步骤:
采集发声目标的声纹信息;其中,所述声纹信息包括声波频谱;以及
根据所述声纹信息和说话人模型搜索音/视频文件,显示搜索到的标注有发声目标的音/视频文件,其中,所述说话人模型是通过训练的通用背景模型对特定的说话人进行建模得到的。
2.根据权利要求1所述的方法,其特征在于,所述采集发声目标的声纹信息包括:
当选中某个发声目标时,采集声纹信息;以及
存储采集的声纹信息。
3.根据权利要求2所述的方法,其特征在于,采集和存储声纹信息包括:
根据所述声纹信息生成所述说话人模型;以及
将所述说话人模型存储在本地存储模块中。
4.根据权利要求3所述的方法,其特征在于,所述存储采集的声纹信息包括:
根据所述说话人模型进行分类存储。
5.根据权利要求3所述的方法,其特征在于,显示搜索到的标注有发声目标的音/视频文件,包括:
当打开所述本地存储模块时,显示所述搜索到的标注有发声目标的音/视频文件。
6.根据权利要求4所述的方法,其特征在于,所述分类包括:
根据所述说话人模型对音/视频文件进行分类显示。
7.根据权利要求1所述的方法,其特征在于,所述显示包括:
显示所述发声目标出现在音/视频文件中的时间点;
其中,所述音/视频文件中的所有被录制的声音被分割为多个语音单元,每个语音单元只包含其中一个发声目标的语音,并记录所述发声目标在所述音/视频文件中的时间点,通过所述时间点映射所述音/视频出现在相应文件中的位置。
8.根据权利要求4所述的方法,其特征在于,所述分类包括:
根据所述发声目标的种类对音/视频文件进行分类搜索。
9.根据权利要求7所述的方法,其特征在于,所述时间点包括:
当选中分类显示中的所述时间点时,从该时间点开始播放所述音/视频文件中含有的所述发声目标的音频/视频。
10.根据权利要求1所述的方法,其特征在于,当所述发声目标为联系人应用程序中的某个联系人时,所述采集发声目标的声纹信息包括:
当与该联系人进行通话时,记录所述联系人的声纹信息。
11.根据权利要求1所述的方法,其特征在于,当所述发声目标为联系人应用程序中的某个联系人时,所述采集发声目标的声纹信息包括:
用户手动录制该联系人语音,记录所述联系人的声纹信息。
12.根据权利要求1所述的方法,其特征在于,当所述发声目标为联系人应用程序中的某个联系人时,所述搜索音/视频文件包括:
当选中该联系人时,播放映射所述联系人的音/视频。
13.一种终端设备,其特征在于,包括:
声纹提取模块,用于采集发声目标的声纹信息;其中,所述声纹信息包括声波频谱;
执行模块,用于根据所述声纹信息和说话人模型搜索音/视频文件;其中,所述说话人模型是通过训练的通用背景模型对特定的说话人进行建模得到的;
显示器,用于显示搜索到的标注有发声目标的音/视频文件。
14.根据权利要求13所述的终端设备,其特征在于,所述声纹提取模块包括:
声纹信息采集单元,用于在选中某个发声目标时采集声纹信息;
声纹样本生成单元,用于根据所述声纹信息生成说话人模型。
15.根据权利要求14所述的终端设备,其特征在于,还包括:
存储模块,用于存储采集的声纹信息。
16.根据权利要求15所述的终端设备,其特征在于,所述存储模块还用于:存储所述说话人模型。
17.根据权利要求14或16所述的终端设备,其特征在于,所述声纹提取模块包括:
目标分类单元,根据所述说话人模型进行分类存储。
18.根据权利要求15所述的终端设备,其特征在于,所述显示器,当打开本地存储模块时,显示所述搜索到的标注有发声目标的音/视频文件。
19.根据权利要求17所述的终端设备,其特征在于,所述显示器用于:
根据所述目标分类单元基于所述发声目标的种类对所述音/视频文件进行分类显示。
20.根据权利要求13所述的终端设备,其特征在于,所述显示器用于:
显示所述发声目标出现在音/视频文件中的时间点;其中,所述音/视频文件中的所有被录制的声音被分割为多个语音单元,每个语音单元只包含其中一个发声目标的语音,并记录所述发声目标在所述音/视频文件中的时间点,通过所述时间点映射所述音/视频出现在相应文件中的位置。
21.根据权利要求17所述的终端设备,其特征在于,所述目标分类单元还用于:
根据发声目标的种类对音/视频文件进行分类搜索。
22.根据权利要求19所述的终端设备,其特征在于,所述执行模块还用于:
当选中分类显示中的时间点时,从该时间点开始播放所述音/视频文件中含有的所述发声目标的音频/视频。
23.根据权利要求13所述的终端设备,其特征在于,当所述发声目标为联系人应用程序中的某个联系人时,所述声纹提取模块用于:
当与该联系人进行通话时,记录所述联系人的声纹信息。
24.根据权利要求13所述的终端设备,其特征在于,当所述发声目标为联系人应用程序中的某个联系人时,所述声纹提取模块用于:
用户手动录制该联系人语音,记录所述联系人的声纹信息。
25.根据权利要求13所述的终端设备,其特征在于,当所述发声目标为联系人应用程序中的某个联系人时,所述执行模块还用于:
当选中该联系人时,播放映射所述联系人的音/视频。
26.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至12任一项所述的基于声纹信息对音/视频文件进行操作的方法。
27.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一项所述的基于声纹信息对音/视频文件进行操作的方法。
CN201710439537.1A 2012-12-05 2012-12-05 基于声纹信息对音频/视频文件进行操作的方法及装置 Active CN107274916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710439537.1A CN107274916B (zh) 2012-12-05 2012-12-05 基于声纹信息对音频/视频文件进行操作的方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710439537.1A CN107274916B (zh) 2012-12-05 2012-12-05 基于声纹信息对音频/视频文件进行操作的方法及装置
CN201210518118.4A CN103035247B (zh) 2012-12-05 2012-12-05 基于声纹信息对音频/视频文件进行操作的方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201210518118.4A Division CN103035247B (zh) 2012-12-05 2012-12-05 基于声纹信息对音频/视频文件进行操作的方法及装置

Publications (2)

Publication Number Publication Date
CN107274916A CN107274916A (zh) 2017-10-20
CN107274916B true CN107274916B (zh) 2021-08-20

Family

ID=48022078

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710439537.1A Active CN107274916B (zh) 2012-12-05 2012-12-05 基于声纹信息对音频/视频文件进行操作的方法及装置
CN201210518118.4A Active CN103035247B (zh) 2012-12-05 2012-12-05 基于声纹信息对音频/视频文件进行操作的方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201210518118.4A Active CN103035247B (zh) 2012-12-05 2012-12-05 基于声纹信息对音频/视频文件进行操作的方法及装置

Country Status (1)

Country Link
CN (2) CN107274916B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117665A (zh) * 2013-08-14 2019-01-01 华为终端(东莞)有限公司 实现隐私保护方法及装置
CN104123115B (zh) * 2014-07-28 2017-05-24 联想(北京)有限公司 一种音频信息处理方法及电子设备
CN104243934A (zh) * 2014-09-30 2014-12-24 智慧城市信息技术有限公司 一种监控视频采集方法、检索方法和装置
TWI571120B (zh) * 2014-10-06 2017-02-11 財團法人資訊工業策進會 影片擷取系統及其影片擷取方法
CN104268279B (zh) * 2014-10-16 2018-04-20 魔方天空科技(北京)有限公司 语料数据的查询方法和装置
CN105828179A (zh) * 2015-06-24 2016-08-03 维沃移动通信有限公司 视频定位方法和装置
CN105022263B (zh) * 2015-07-28 2018-03-27 广东欧珀移动通信有限公司 一种控制智能手表的方法及智能手表
CN106548793A (zh) * 2015-09-16 2017-03-29 中兴通讯股份有限公司 存储和播放音频文件的方法和装置
CN105635452B (zh) * 2015-12-28 2019-05-10 努比亚技术有限公司 移动终端及其联系人标识方法
CN105654942A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于统计参数的疑问句、感叹句的语音合成方法
CN106095764A (zh) * 2016-03-31 2016-11-09 乐视控股(北京)有限公司 一种动态图片处理方法及系统
CN106448683A (zh) * 2016-09-30 2017-02-22 珠海市魅族科技有限公司 查看多媒体文件中录音的方法及装置
CN107452408B (zh) * 2017-07-27 2020-09-25 成都声玩文化传播有限公司 一种音频播放方法及装置
CN108305636B (zh) * 2017-11-06 2019-11-15 腾讯科技(深圳)有限公司 一种音频文件处理方法及装置
CN108074574A (zh) * 2017-11-29 2018-05-25 维沃移动通信有限公司 音频处理方法、装置及移动终端
CN108364663A (zh) * 2018-01-02 2018-08-03 山东浪潮商用系统有限公司 一种自动录制人声的方法及模块
CN108364654B (zh) * 2018-01-30 2020-10-13 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108319371A (zh) * 2018-02-11 2018-07-24 广东欧珀移动通信有限公司 播放控制方法及相关产品
CN108920619A (zh) * 2018-06-28 2018-11-30 Oppo广东移动通信有限公司 文件显示方法、装置、存储介质及电子设备
CN109446356A (zh) * 2018-09-21 2019-03-08 深圳市九洲电器有限公司 一种多媒体文件检索方法及装置
CN111091844A (zh) * 2018-10-23 2020-05-01 北京嘀嘀无限科技发展有限公司 一种视频处理方法和系统
CN111462761A (zh) * 2020-03-03 2020-07-28 深圳壹账通智能科技有限公司 声纹数据生成方法、装置、计算机装置及存储介质
CN111883139A (zh) * 2020-07-24 2020-11-03 北京字节跳动网络技术有限公司 用于筛选目标语音的方法、装置、设备和介质
CN112153461B (zh) * 2020-09-25 2022-11-18 北京百度网讯科技有限公司 用于定位发声物的方法、装置、电子设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3707115B2 (ja) * 1995-11-17 2005-10-19 ヤマハ株式会社 個人情報利用システム
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
JP2004533640A (ja) * 2001-04-17 2004-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 人についての情報を管理する方法及び装置
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
CN102347060A (zh) * 2010-08-04 2012-02-08 鸿富锦精密工业(深圳)有限公司 电子记录装置及方法
CN102404278A (zh) * 2010-09-08 2012-04-04 盛乐信息技术(上海)有限公司 一种基于声纹识别的点歌系统及其应用方法
CN102655002B (zh) * 2011-03-01 2013-11-27 株式会社理光 音频处理方法和音频处理设备
CN102238189B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统

Also Published As

Publication number Publication date
CN103035247B (zh) 2017-07-07
CN103035247A (zh) 2013-04-10
CN107274916A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
US10977299B2 (en) Systems and methods for consolidating recorded content
Hanilci et al. Recognition of brand and models of cell-phones from recorded speech signals
CN104835498B (zh) 基于多类型组合特征参数的声纹识别方法
US9058384B2 (en) System and method for identification of highly-variable vocalizations
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN111128223A (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
CN103530432A (zh) 一种具有语音提取功能的会议记录器及语音提取方法
CN110797032B (zh) 一种声纹数据库建立方法及声纹识别方法
CN105512348A (zh) 用于处理视频和相关音频的方法和装置及检索方法和装置
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
CN115954007B (zh) 一种声纹检测方法、装置、电子设备及存储介质
CN113409774A (zh) 语音识别方法、装置及电子设备
CN105895077A (zh) 录音标记方法及录音装置
CN119766583A (zh) 一种会议纪要文件智能生成方法
CN113838469A (zh) 一种身份识别方法、系统及存储介质
CN114121023A (zh) 说话人分离方法、装置、电子设备及计算机可读存储介质
CN117831544A (zh) 一种面向复杂声景的鸟声特征提取和识别的方法与系统
Fox et al. Call-independent individual identification in birds
CN109635151A (zh) 建立音频检索索引的方法、装置及计算机设备
CN111326161B (zh) 一种声纹确定方法及装置
Reimao Synthetic speech detection using deep neural networks
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant