CN111629267B

CN111629267B - 音频标注方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111629267B
Application number: CN202010371102.XA
Authority: CN
Inventors: 蒋亚雄; 刘洪�
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-06-09
Anticipated expiration: 2040-04-30
Also published as: CN111629267A

Abstract

本申请的实施例揭示了一种音频标注方法、装置、设备及计算机可读存储介质。该方法包括：显示标注对象的身份信息、包含有所述标注对象的视频以及与所述视频的音频播放进度相对应的音频图形；同步播放所述视频和所述音频图形，并在所述音频图形中检测与所述标注对象的身份信息相匹配的音频时段；根据所述音频时段对应的音频以及所述标注对象的身份信息生成音频标注语料。本申请实施例的技术方案能够极大地提升语音标注效率。

Description

音频标注方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种音频标注方法、装置、设备和计算机可读存储介质。

背景技术

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。例如在声纹识别技术领域，通过机器学习自动识别说话人的身份，使得说话人身份的识别过程更加智能化。

为获得自动识别说话人身份的机器学习模型，需使用大量的标注语料对机器学习模型进行训练，直至机器学习模型具备较佳的说话人识别效果。由此，如何方便且快速地获得音频标注语料是现有技术中还有待解决的技术问题。

发明内容

为解决上述技术问题，本申请的实施例提供了一种音频标注方法、装置、设备以及计算机可读存储介质，本申请的实施例能够快速地获得音频标注语料。

其中，本申请所采用的技术方案为：

一种音频标注方法，包括：显示标注对象的身份信息、包含有所述标注对象的视频以及与所述视频的音频播放进度相对应的音频图形；同步播放所述视频和所述音频图形，并在所述音频图形中检测与所述标注对象的身份信息相匹配的音频时段；根据所述音频时段对应的音频以及所述标注对象的身份信息生成音频标注语料。。

一种音频标注装置，包括：信息显示模块，用于显示标注对象的身份信息、包含有所述标注对象的视频以及与所述视频的音频播放进度相对应的音频图形；播放检测模块，用于同步播放所述视频和所述音频图形，并在所述音频图形中检测与所述标注对象的身份信息相匹配的音频时段；信息生成模块，用于根据所述音频时段对应的音频以及所述标注对象的身份信息生成音频标注语料。

一种音频标注设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的音频标注方法。

一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的音频标注方法。

在上述技术方案中，通过将标注对象的身份信息以及包含有标注对象的视频进行显示，并显示与视频的音频播放进度相对应的音频图形，使得语音标注过程中可以结合标注对象的身份信息、包含有标注对象的视频、以及视频的音频信息对标注对象对应的音频进行快速标注。本申请还通过在音频图形中检测与标注对象的身份信息相匹配的音频时段，并根据检测到的音频时段对应的音频以及标注对象的身份信息生成音频标注语料，使得音频标注语料可以智能化地生成，极大地提升了音频标注语料的获取效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是根据一示例性实施例示出的一种音频标注方法的流程图；

图3是图2所示实施例中步骤110在一个示例性实施例的流程图；

图4是根据一示例性实施例示出的一种音频标注界面的示意图；

图5是根据另一示例性实施例示出的一种音频标注界面的示意图；

图6是图3所示实施例中步骤111在一个示例性实施例的流程图；

图7是根据一示例性实施例示出的一种音频标注界面进行数据显示的流程图；

图8是图2所示实施例中步骤130在一个示例性实施例的流程图；

图9是根据另一示例性实施例示出的一种音频标注界面的示意图；

图10是根据另一示例性实施例示出的一种音频标注方法的流程图；

图11是根据一示例性实施例示出的一种音频标注流程的示意图；

图12是根据一示例性实施例示出的一种音频标注装置的框图；

图13是根据一示例性实施例示出的一种音频标注设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

请参阅图1，图1是本申请涉及的一种实施环境的示例图。

如图1所示，该实施环境包括终端100和服务端200，终端100与服务端200预先建立通信连接，以进行数据交互。终端100中运行有音频标注程序，该音频标注程序提供一音频标注界面，用以显示音频标注所需的信息。服务端200用于为终端100中运行的音频标注程序提供数据服务，例如终端100需要从服务端200中获取音频标注所需的信息进行显示，并且终端100所生成的音频标注语料存储于服务端200中。

需要说明的是，终端100可以是计算机、笔记本电脑、平板等终端设备，服务端200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云计算、云函数、云存储、大数据和人工智能平台等基础云计算服务的云服务器。。

图2是根据一示例性实施例示出的一种音频标注方法的流程图，该方法可以适用于图1所示实施环境中的终端100。如图2所示，在一示例性实施例中，该音频标注方法至少包括如下步骤：

步骤110，显示标注对象的身份信息、包含有标注对象的视频以及与该视频的音频播放进度相对应的音频图形。

如前所述，为获得自动识别说话人身份的机器学习模型，需使用大量的音频标注语料对机器学习模型进行训练，直至机器学习模型具备较佳的说话人识别效果。

音频标注语料通常是由标注人员手动进行标注的，例如标注人员获取到待标注的音频文件后，通过播放音频文件来辨别说话人的身份，然后根据说话人的身份对该音频文件进行标注，进而得到一条音频标注语料。但是仅依靠标注人员的听觉去辨别说话人身份是极为困难的，并且标注准确度不高，导致音频标注语料的获取效率十分低下。

为解决以上问题，本实施例提出一种音频标注方法，本实施例通过结合多维度的信息快速进行音频标注，并且标注准确性较高，适用于对大量音频标注语料进行获取。

在本实施例中，标注对象是指待识别的说话人，标注对象的身份信息用于描述该说话人的身份，例如包括说话人的姓名和图像等信息。包含有标注对象的视频是指该视频中含有标注对象的图像画面，音频图形用于描述该视频的音频播放进度。

应理解，视频文件中通常含有视频数据以及音频数据，音频数据随着视频数据同步进行播放，因此在视频的播放过程中，音频图形中显示的音频播放进度与视频的播放进度同步。

音频图形根据音频数据进行显示，例如将音频图形显示为进度条形式，进度条的总长度对应于视频的总时长，并在视频的播放过程中不断地调整进度条中的进度变化。也可以将音频图形显示为音频波形图，音频波形图不仅能够显示视频的音频播放进度，还显示音频采样率的波动情况，本处不进行限定。

如前所述，基于标注对象的身份信息以及待标注对象对应的语音数据即可生成关于该标注对象的音频标注语料，本实施例由于标注对象的身份信息是已知的，因此需要根据显示的标注对象的身份信息、包含有标注对象的视频以及音频图形获取标注对象的语音数据。

在一个实施例中，标注对象的身份信息、包含有标注对象的视频以及与该视频的音频播放进度相对应的音频图形显示在音频标注界面的不同区域中，该音频标注界面是可视化的显示界面，以基于界面上显示的标注对象的身份信息、视频以及音频图形快速地进行音频标注。例如，标注人员根据音频标注界面上显示的标注对象的身份信息、视频以及音频图像，能够多方位地辨别标注对象的语音，提升了音频标注的速率和准确率。

步骤130，同步播放含有标注对象的视频以及与该视频的音频播放进度相对应的音频图形，并在音频图形中检测与标注对象的身份信息相匹配的音频时段。

如前所述，音频图形显示的音频播放进度与含有标注对象的视频的播放进度保持同步，也即是说，在同一播放时间，音频图形中显示的音频播放进度与视频的播放进度是保持同步的。针对视频播放的任一播放时间，音频图形中显示的音频播放进度都将对应于相同的播放时间。

因此在视频的播放过程中，音频图形将随着视频的播放不断地变化实时播放进度，以使得音频图形所显示的音频播放进度与视频的播放进度对应于同一播放时间，从而保证音频图形与视频是同步进行播放的。由此，将音频图形中显示的播放进度变化区间称为音频图形中的音频时段。

并且由于音频图形是根据视频对应的音频数据进行显示的，音频图形中的音频时段对应于音频数据中的一段数据，因此音频图形中与标注对象的身份信息相匹配的音频时段即对应于视频所对应音频数据中包含的标注对象的语音数据。

因此，在视频的播放过程中，通过识别同步播放的音频数据中含有的标注对象对应的语音数据，即可在音频图形中定位对应于标注对象的语音数据的音频时段。

示例性的，在视频的播放过程中，通过识别播放音频与标注对象的语音特征之间的相似程度，将连续播放与标注对象的语音特征相似的音频的音频时段确定为与标注对象的身份信息相匹配的音频时段。

标注对象的语音特征可以包括音色和音调等信息，这些语音特征信息均可以根据显示的标注对象的身份信息以及包含有标注对象的视频进行获取。例如，在已知标注对象的身份信息的情况下，预先从视频中获取说话人为标注对象的视频画面，并根据与该视频画面同步播放的音频确定标注对象的音色和音调。

在另一个实施例中，根据显示的标注对象的图像，在视频的播放过程识别播放画面与标注对象的图像之间的匹配程度，并将连续显示与标注对象的图像相匹配的视频画面对应的音频时段确定为与标注对象的身份信息相匹配的音频时段。

而在其它的实施例中，与标注对象的身份信息相匹配的音频时段是配合标注人员的手动操作所确定的。标注人员根据显示的标注对象的身份信息和包含有标注对象的视频，预先通过播放视频获知标注对象的音色以及音调等语音特征，然后重新播放视频，并根据预先获知的语音特征确定标注对象的语音数据所对应的音频时段。

例如，在开始播放以及结束播放标注对象的语音时，标注人员通过鼠标或键盘等设备输入预设的音频选择指令，音频图形会显示音频选择指令输入时对应的开始播放进度点和结束播放进度点，进而能够将开始播放进度点和结束播放进度点之间的音频时段确定为与标注对象的身份信息相匹配的音频时段。

需要说明的是，以上检测与标注对象的身份信息相匹配的音频时段的方式仅是示例，并不表示本实施例对该音频时段的检测方式进行了限制。

并且以上通过显示的视频、音频图像以及标注对象的身份信息预先获知标注对象的语音特征，并随着视频的播放在音频图形中准确地定位与标注对象的身份信息相匹配的音频时段，使得本实施例能够从视频对应的音频数据中准确定位标注对象的语音数据，进而获得准确的标注语料。

步骤150，根据音频时段对应的音频以及标注对象的身份信息生成音频标注语料。

如前所述，音频图形中与标注对象的身份信息相匹配的音频时段对应于标注对象的语音数据，因此根据标注对象的身份信息即可对标注对象的语音数据进行标注，进而生成标注对象对应的音频标注语料。

示例性的，基于音频图形中与标注对象的身份信息相匹配的音频时段，即可在视频对应的音频数据中定位相应的一段音频数据，该段音频数据即为标注对象对应的语音数据，然后将定位得到的音频数据与标注对象的身份信息进行关联存储，即实现对于标注对象的语音数据的标注，从而得到语音标注信息。

在一个实施例中，视频对应的音频数据中含有多段标注对象的语音数据，因此在播放视频的过程中，将在音频图形中检测多个与标注对象的身份信息相匹配的音频时段，并根据每个音频时段以及标注对象的身份信息生成各个音频标注语料。也即是说，本实施例可以方便且快速地得到多条关于标注对象的音频标注语料。

在另一个实施例中，视频中含有多个标注对象，并且每个标注对象的身份信息相应显示，在视频的播放过程中，将在音频图形中检测得到与每个标注对象的身份信息相匹配的音频时段，并根据检测到的音频时段和对应标注对象的身份信息生成音频标注语料。由此，本实施例也可以方便地快速地得到多条音频标注语料，并且每条音频标注语料所对应的标注对象可能不同。

由此，本实施例通过显示标注对象的身份信息、包含有标注对象的视频、以及与视频的音频播放进度相对应的音频图形，并在视频和音频图形同步播放的过程中，在音频图形中检测与标注对象的身份信息相匹配的音频时段，并根据检测得到的音频时段和标注对象的身份信息生成音频标注语料，使得音频标注过程中可以结合多方信息识别不同标注对象分别对应的音频数据，或者识别标注对象的多段音频数据，并自动生成音频标注语料，极大地提升了音频标注效率，能够适应于大量音频标注语料的获取。

图3是图2所示实施例中步骤110在一个示例性实施例的流程图。如图3所示，在一示例性实施例中，步骤110至少包括以下步骤：

步骤111，分别获取标注对象的身份信息，包含有标注对象的视频数据，以及视频对应的音频采样率数据。

如前所述，标注对象的身份信息可以包括姓名、图像等信息，标注对象的图像中含有标注对象的人脸特征，因此根据标注对象的图像即可准确识别视频中显示的标注对象的身份。

示例性的，标注对象的图像可以包括jpeg(Joint Photographic Expert Group，联合照片专家组)、png(Portable Network Graphics，便携式网络图形)等图像格式，本处不进行限制。

包含有标注对象的视频数据可以是mp4(是一套用于音频、视频信息的压缩编码标准)、MPEG(Moving Picture Experts Group，运动图像专家组格式)等视频格式，本处仍不进行限制。

视频数据对应的音频采样率数据则可以是通过FFmpeg(是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序)从视频数据中提取得到的。

在一个实施例中，标注对象的身份信息、包含有标注对象的视频数据以及视频对应的音频采样率数据存储于本地，例如在进行音频标注之前，预先通过拷贝、下载等操作获得这些数据，并将这些数据存储于本地，在进行音频标注时即可从本地相应获取。

在另外的实施例中，标注对象的身份信息、包含有标注对象的视频数据以及视频对应的音频采样率数据存储于服务端，因此需要从服务端中查询得到这些数据。

需要说明的是，这些数据可以从服务端或者本地同时查询得到的，也可以是分别查询得到的，本处不进行限制。

步骤113，根据视频数据执行视频的显示，以及执行标注对象的身份信息的显示，并根据音频采样率数据绘制与视频的播放进度相对应的音频图形。

对于视频数据以及标注对象的身份信息的显示，可以将标注对象的身份信息以及视频数据配置为与各自的数据类型相匹配的HTML(Hyper Text Markup Language，超文本标记语言，是用来标记网页信息如何展示以及其它特性的一种语法规则)标签，然后根据所配置的HTML标签执行标注对象的身份信息的显示，以及包含有标注对象的视频的显示。

示例性的，可将标注对象的姓名配置为<lable>标签，将标注对象的图像配置为<img>标签，将视频数据配置为<video>标签，通过这些HTML标签即可执行相应数据在标注界面中的显示。

音频图形的绘制可以通过调用Canvas API(画布应用程序接口)实现。Canvas API是一种在网页中实时生成图像，并操作图像内容的技术，通过HTML5(是超文本标记语言一个版本)的canvas元素使用JavaScript(是一种具有函数优先的轻量级，解释型或即时编译型的编程语言)在音频标注界面上绘制音频图形。

图4是根据一示例性实施例示出的一种音频标注界面的示意图。如图4所示，音频标注界面中划分有若干界面区域，根据以上配置的HTML标签即可将标注对象的图像和姓名、以及包含有标注对象的视频显示在相应的界面区域中，并根据视频对应的音频采样率数据在相应界面区域中绘制音频图形。

应理解，基于音频采样率数据绘制的音频图形为音频波形图，音频波形图反映了音频采样率的波动情况，有经验的标注人员可以根据该波动情况识别与标注对象的身份信息相匹配的音频时段，提高了标注人员进行语料标注的效率。

而在另外的实施例中，音频采样率数据是从视频数据中对标注对象的音频进行采样得到的，因此音频图形中仅显示标注对象的音频波动情况。

例如在图5所示的音频标注界面中，根据音频采样率数据绘制得到音频波形图仅显示了标注对象的音频采样率波动情况，并且随着视频的播放，音频图形中用于标识实时播放进度点的游标也将同步变化。标注人员根据图5所示的音频标注界面，能够更加容易识别标注对象的语音数据，能够进一步提升音频标注的效率和准确性。

图6是图3所示实施例中步骤111在一个示例性实施例的流程图。如图6所示，步骤111可以包括如下步骤：

步骤210，检测输入的标注对象标识；

步骤230，根据检测到的标注对象标识向服务端发起数据查询请求；

步骤250，接收服务端根据数据查询请求所返回的查询结果，该查询结果中含有与标注对象标识对应的视频数据、身份信息以及音频采样率数据。

首先需要说明的是，在本实施例中，标注对象的身份信息、包含有标注对象的视频数据以及视频对应的音频采样率数据均基于标注对象标识在服务端中关联存储，因此需要根据标注对象标识从服务端中查询这些数据，以进行这些数据的显示。

标注对象标识可以是标注对象的ID(Identitydocument，身份标识号)，也可以是标注对象的姓名等信息，本处不进行限制。

为确定数据查询目标，标注界面将检测输入的标注对象标识。示例性的，音频标注界面中设有一数据查询区域，标注人员在此数据查询区域中输入待标注的标注对象的标识信息，即可向服务端发起数据查询请求。服务端根据接收的标识对象标识，即可在数据库中查找到与该标识对象标识关联存储的身份信息、视频数据和音频采样率数据，并将这些数据返回至音频标注界面进行显示。

在一个实施例中，为减少服务端的数据库中的冗余信息，可以将标注对象的身份信息、包含有标注对象的视频数据以及视频对应的音频采样率数据通过两个数据表在服务端中进行结构化存储。

示例性的，其中一个数据表用于存储标注对象的基本信息，例如存储下表1所示的标注对象ID、姓名和图像。

ID	姓名	图像
			1	***	***.jpg
2	***	***.jpg

表1

另一个数据表用于存储包含有标注对象的视频数据和视频对应的音频采样率数据，并存储视频与标注对象之间的对应关系，如下表2所示：

ID	视频数据	音频采样率数据
			1	***.mp4	***
2	***.mp4	***
			1	***.mp4	***
1	***.mp4	***

表2

从表2中可以看出，根据一个标注对象的ID的可以关联存储有至少一个视频数据。

服务端根据标注对象的ID，通过表连接查询各个数据表中与标注对象相关的数据，可以得到如表3所示的结果：

ID	姓名	图像	视频数据	音频采样率数据
					1	***	***.jpg	***.mp4	***
1	***	***.jpg	***.mp4	***
					1	***	***.jpg	***.mp4	***
2	***	***.jpg	***.mp4	***

表3

由此，服务端将根据查询请求中含有的标注对象的ID返回该标注对象的姓名和图像、包含有该标注对象的至少一个视频数据，以及每个视频数据对应的音频采样率数据。

在另一示例性实施例中，为保证数据库安全，服务端中还设有数据库访问权限，因此需要根据音频标注界面中登录的进行音频标注的账号信息向服务端查询相关数据。

音频标注界面根据输入的标注对象标识以及登录的进行音频标注的账号信息生成数据查询请求，并将数据查询请求发送至服务端，使得服务端在验证该账号信息具有数据库访问权限之后，将数据库中与标注对象标识关联存储的相关数据返回给音频标注界面。音频标注界面根据返回的相关数据，即可执行对于相关数据的显示。

示例性的，基于本实施例提供的数据查询过程，音频标注界面进行相关数据的显示的流程图如图7所示。服务端通过表连接从数据库存储的各个数据表中查询所有待进行音频标注的相关数据，并根据数据查询请求中含有的标注对象标识查询与标注对象相关的数据，包括标注对象的姓名、图像、包含有标注对象的视频数据以及从视频数据中提取得到的音频采样率数据。标注界面根据这些数据配置相应的HTML标签，并根据配置的HTML执行相应显示，还根据音频采样率数据绘制音频图形。音频标注界面中显示的相关信息即可向标注人员提供一种可靠识别标注对象语音的途径，使得标注人员进行音频标注的效率得到较大提升。

图8是图2所示实施例中步骤130在一个示例性实施例的流程图。如图8所示，在一个示例性实施例中，步骤130可以包括如下步骤：

步骤131，当检测到视频播放指令时，同步播放视频和音频图形；

首先需要说明的是，视频播放指令是预设指令，用于指示视频以及音频图形的播放或者暂停。

视频播放指令可以通过鼠标或者键盘等设备输入，或者通过触碰显示有视频、音频图形以及标注对象的身份信息的音频标注界面输入，本实施例不进行限制。例如，当标注人员点击音频标注界面中显示的视频播放/暂停按钮时，即视为检测到视频播放指令。

步骤133，当检测到音频选择指令时，在音频图形中定位与标注对象的身份信息相匹配的音频时段。

其中，音频选择指令也是预设指令，用于在音频图形中定位与标注对象的身份信息相匹配的音频时段的开始位置和结束位置。当标注对象为多个时，可分别为每个标注对象设置不同的音频选择指令，以根据音频选择指令区分不同的标注对象，确保所生成音频标注语料中的标注对象身份是准确的，进而保证音频标注语料的准确性。

音频选择指令也可以通过鼠标或者键盘等设备输入，或者通过触碰显示有视频、音频图形以及标注对象的身份信息的标注界面输入，本实施例也不进行限制。

例如在一个具体的实施例中，在视频的播放过程中，当标注人员识别到当前播放的音频为标注对象的语音时，标注人员通过按下键盘的回车键以输入音频选择指令，并在标注对象的语音结束播放时再次按下回车键输入音频选择指令，因此基于前后两次输入的音频选择指令即可确定音频时段的开始位置和结束位置，从而得到与标注对象的身份信息相匹配的音频时段。

为在音频图形中定位与标注对象的身份信息相匹配的音频时段，需要根据音频选择指令在音频图形中定位音频时段的开始位置和结束位置，从而将位于开始位置和结束位置之间的音频时段确定为与标注对象的身份信息相匹配的音频时段。

在一个实施例中，在第奇数次检测到音频选择指令时，将音频图形中显示的实时播放进度点确定为开始位置，并在第偶数次检测到音频选择指令时，将音频图形中显示的实时播放进度点确定为与前一次检测到音频选择指令时确定的开始位置相对应的结束位置。

举例来说，如果视频对应的音频数据中仅含有一段标注对象的语音数据，则将检测到两次输入的音频选择指令，将第一次输入音频选择指令时音频图形中显示的实时播放进度点确定为开始位置，相应的，将第二次输入音频选择指令时音频图形中显示的实时播放进度点确定结束位置，该开始位置和结束位置之间的时段即与标注对象的身份信息相匹配。

同理，如果视频对应的音频数据中含有多段标注对象的语音数据，则将第奇数次输入音频选择指令时音频图形中显示的实时播放进度点确定为开始位置，将第偶数次输入音频选择指令时音频图形中显示的实时播放进度点确定为与前一次输入音频选择指示时确定的开始位置相对应的结束位置。由此，针对确定的每一开始位置都将获得相应的结束位置，进而获得多个与标注对象的身份信息相匹配的音频时段。

如果视频对应的音频数据中含有多个标注对象的语音数据，在检测到输入的音频选择指令时，还将根据音频选择指令确定相应的标注对象，进而在获得多个音频时段的同时，还相应获知各个音频时段对应的标注对象的身份信息。

在另外的实施例中，根据音频选择指令在音频图形中定位得到与标注对象的身份信息相匹配的音频时段后，还可以对定位的音频时段进行微调，以使得最终确定的音频时段更加准确。

如图9所示，音频标注界面上显示的音频图形中，采用标记线分别针对音频时段的开始位置和结束位置进行标记，标记人员可通过鼠标拉动音频时段两端的标记线进行音频时段的微调。

由此，本实施例通过在视频播放过程中检测输入的音频选择指令，并根据检测到的音频选择指令在音频图形中定位与标注对象的身份信息相匹配的音频时段，能够准确地在视频对应的音频数据中准确定位至少一个标注对象的至少一段语音数据，从而满足于大量音频标注语料的获取场景。

图10是根据另一示例性实施例示出的一种音频标注方法的流程图。如图10所示，在一示例性实施例中，该音频标注方法还包括如下步骤：

步骤310，从预先收集的视频中截取含有说话人画面的目标图像；

步骤330，将说话人作为视频中含有的标注对象，并将目标图像作为标注对象的身份信息。

考虑到音频标注语料的获取还与视频数据的收集过程相关，如果能提升视频数据的收集效率，则能够在一定程度上提升音频标注语料的获取效率，因此本实施例将针对视频数据的收集过程进行改进。

为快速获得大量视频，通常使用网络爬虫(又称为网页蜘蛛或者网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本)在网络中自动收集视频数据，但这些视频数据中含有的标注对象需要负责视频收集的人员手动添加，效率十分低下。

在视频录制时，摄像师通常在目标人员说话时将摄像头对准目标人员，因此在播放录制好的视频的过程中，说话人画面与说话人音频同步进行播放，使得观众能够获得较好的观看体验。

基于此，本实施例从预先收集的视频中截取含有说话人画面的目标图像，将说话人作为视频中含有的标注对象，以及将目标图像作为标注对象的身份信息，从而能够准确地获得标注对象的身份信息。

在一个实施例中，对预先收集的各个视频进行人脸识别，确定含有人脸特征的视频，以从含有人脸特征的视频中截取目标图像。具体来说，预先对收集的各个视频进行人脸识别，如果确定视频中不含有人脸特征，则表示无法针对该视频确定标注对象，也不会将这些视频作为待进行音频标注的视频。针对含有人脸特征的视频，即可从视频中截取含有说话人画面的目标图像，这些视频将应用于后续进行的音频标注。

由此，本实施例能够针对收集的视频自动地生成视频中含有的标注对象的身份信息，无需负责视频收集的人员手动添加，从整体上提升了音频标注效率。本实施例还能够快速地过滤不含有说话人画面的视频，能够保证后续用于音频标注的视频数据是有效的。

为便于理解本申请的技术实质，下面将以一个具体的应用场景对上述实施例提出的音频标注方法进行详细描述。

图11中示出了一种示例性的音频标注流程图，该音频标注流程包括待标注数据源的显示、数据标注以及标注结果获得三个阶段。待标注数据源包括标注对象的图像和姓名，以及包含有标注对象的视频和音频采样数据。如图4、图5和图9所示，这些待标注数据源均显示在终端的音频标注界面中，音频采样率具体显示为音频波形图。标注人员通过在视频的播放过程中确定标注对象对应的音频时段，终端根据标注人员确定的音频时段在音频波形图切分音频段，进而根据切分得到的音频段和标注对象的姓名生成标注结果。应理解，切分音频段即为根据确定的音频时段获取相应的音频数据的过程。

具体来说，终端的音频标注界面中登录有音频标注账号，标注人员操作音频标注界面使终端向服务端查询待标注数据源，服务端验证音频标注账号具有查询权限后，将相关数据源返回至终端。

终端接收到相关数据源之后，按照数据顺序依次读取每一数据源，将标注对象的图像、姓名、包含有标注对象的视频的第一帧图像显示在音频标注界面中，并根据音频采样率数据在音频标注界面绘制音频波形图。

当终端接收到标注人员点击的视频播放指令，音频标注界面开始播放视频，音频图形中的游标与视频的播放时间同步游走。待视频播放至标注对象说话的音频时段，标注人员通过按下键盘上的回车键进行音频时段的快速切分，终端根据切分的音频时段得到表述对象说话的开始时间点和结束时间点，并在开始时间点和结束时间点之间的时间段内标记标注对象的姓名，即可生成音频标注语料，从而完成这段视频的标注工作。

生成的一条音频标注语料为xml(eXtensible Markup Language，可扩展标记语言)文件，例如为：

<Turn starTime＝”64.972826”endTime＝”94.993206”type＝“张三”>。

如果仅通过播放音频文件来辨别说话人身份并进行音频标注，标注人员平均每小时可以完成10分钟音频的标注，而采用本申请的方法后，标注人员平均每小时可以完成25-35分钟音频的标注，并且标注准确性从80％提升至95％。

由此可以看出，本申请提出的音频标注方法能够使得标注人员快速完成大量视频的标注工作，标注效率得到了极大提升。

图12是根据一示例性实施例示出的一种音频标注装置的框图，该音频标注装置可以适用于图1所示实施环境中的终端100。如图12所示，该音频标注装置包括信息显示模块410、播放检测模块430和信息生成模块450。

信息显示模块410用于显示显示标注对象的身份信息、包含有标注对象的视频以及与视频的音频播放进度相对应的音频图形。播放检测模块430用于同步播放视频和音频图形，并在音频图形中检测与标注对象的身份信息相匹配的音频时段。信息生成模块450用于根据音频时段对应的音频以及标注对象的身份信息生成音频标注语料。

在另一示例性实施例中，播放检测模块430包括指令检测单元和音频定位单元。指令检测单元用于在检测到视频播放指令时，同步播放视频和音频图形。音频定位单元用于在检测到音频选择指令时，在音频图形中定位与标注对象的身份信息相匹配的音频时段。

在另一示例性实施例中，音频定位单元包括位置定位子单元和匹配确定子单元。位置定位子单元用于根据音频选择指令在音频图形中定位音频时段的开始位置和结束位置。匹配确定子单元用于将位于开始位置和结束位置之间的音频时段确定为与标注对象的身份信息相匹配的音频时段。

在另一示例性实施例中，位置定位子单元包括开始位置确定子单元和结束位置确定子单元。开始位置确定子单元用于在第奇数次检测到音频选择指令时，将音频图形中显示的实时播放进度点确定为开始位置。结束位置确定子单元用于在第偶数次检测到音频选择指令时，将音频图形中显示的实时播放进度点确定为与前一次检测到音频选择指令时确定的开始位置相对应的结束位置。

在另一示例性实施例中，信息显示模块410包括采样率获取单元和图形绘制单元。采样率获取单元用于获取视频对应的音频采样率数据。图形绘制单元用于根据音频采样率数据绘制与视频的音频播放进度相对应的音频图形。

在另一示例性实施例中，信息显示模块410还包括数据获取单元、标签配置单元和标签显示单元。数据获取单元用于获取标注对象的身份信息，以及包含有标注对象的视频数据。标签配置单元用于分别将标注对象的身份信息以及视频数据配置为与各自的数据类型相匹配的HTML标签。标签显示单元用于根据HTML标签执行标注对象的身份信息的显示，以及包含有标注对象的视频的显示。

在另一示例性实施例中，数据获取单元包括标识检测子单元、请求发送子单元和结果接收子单元。标识检测子单元用于检测输入的标注对象标识。请求发送子单元用于根据检测到的标注对象标识以及进行音频标注的账号信息向服务端发起数据查询请求。结果接收子单元用于接收服务端根据数据查询请求所返回的查询结果，查询结果中含有与标注对象标识对应的视频数据以及身份信息。

在另一示例性实施例中，该装置还包括图像截取模块和信息获取模块。图像截取模块用于从预先收集的视频中截取含有说话人画面的目标图像。信息获取模块用于将说话人作为视频中含有的标注对象，并将目标图像作为标注对象的身份信息。

在另一示例性实施例中，图像截取模块包括人脸识别单元和特征截取单元。人脸识别单元用于对预先收集的各个视频进行人脸识别，确定含有人脸特征的视频。特征截取单元用于从含有人脸特征的视频中截取目标图像。

在另一示例性实施例中，信息生成模块450包括音频数据获取单元和关联存储单元。音频数据获取单元用于获取音频时段对应的音频数据，关联存储单元用于将音频数据与标注对象的身份信息进行关联存储，获得音频标注语料。

需要说明的是，上述实施例提供的装置与上述实施例提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

本申请的实施例还提供了一种音频标注设备，包括处理器和存储器，其中，存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时实现如前所述的音频标注方法。

需要说明的是，该音频标注设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该音频标注设备也不能解释为需要依赖于或者必须具有图13中示出的示例性的音频标注设备中的一个或者多个组件。

如图13所示，在一示例性实施例中，音频标注设备包括处理组件501、存储器502、电源组件503、多媒体组件504、音频组件505、传感器组件507和通信组件508。其中，上述组件并不全是必须的，音频标注设备可以根据自身功能需求增加其他组件或减少某些组件，本实施例不作限定。

处理组件501通常控制音频标注设备的整体操作，诸如与显示、数据通信以及日志数据处理相关联的操作等。处理组件501可以包括一个或多个处理器509来执行指令，以完成上述操作的全部或部分步骤。此外，处理组件501可以包括一个或多个模块，便于处理组件501和其他组件之间的交互。例如，处理组件501可以包括多媒体模块，以方便多媒体组件504和处理组件501之间的交互。

存储器502被配置为存储各种类型的数据以支持在音频标注设备的操作，这些数据的示例包括用于在音频标注设备上操作的任何应用程序或方法的指令。存储器502中存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器509执行，以完成上述实施例中所描述的音频标注方法中的全部或者部分步骤。

电源组件503为音频标注设备的各种组件提供电力。电源组件503可以包括电源管理系统，一个或多个电源，及其他与为音频标注设备生成、管理和分配电力相关联的组件。

多媒体组件504包括在音频标注设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括TP(Touch Panel，触摸面板)和LCD(Liquid CrystalDisplay，液晶显示器)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件505被配置为输出和/或输入音频信号。例如，音频组件505包括一个麦克风，当音频标注设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。在一些实施例中，音频组件505还包括一个扬声器，用于输出音频信号。

传感器组件507包括一个或多个传感器，用于为音频标注设备提供各个方面的状态评估。例如，传感器组件507可以检测到音频标注设备的打开/关闭状态，还可以检测音频标注设备的温度变化。

通信组件508被配置为便于音频标注设备和其他设备之间有线或无线方式的通信。音频标注设备可以接入基于通信标准的无线网络，例如Wi-Fi(Wireless-Fidelity，无线网络)。

可以理解，图13所示的结构仅为示意，音频标注设备该可以包括比图13中所示更多或更少的组件，或者具有与图13所示不同的组件。图13中所示的各组件均可以采用硬件、软件或者其组合来实现。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的音频标注方法。该计算机可读存储介质可以是上述实施例中描述的音频标注设备中所包含的，也可以是单独存在，而未装配入该音频标注设备中。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种音频标注方法，其特征在于，包括：

显示音频标注界面，所述音频标注界面上的不同区域中分别显示有标注对象的身份信息、包含有所述标注对象的视频以及与所述视频的音频播放进度相对应的音频图形；

同步播放所述视频和所述音频图形，并在所述音频图形中检测与所述标注对象的身份信息相匹配的音频时段；

从所述视频对应的音频数据中获取所述音频时段对应的音频，并根据所述音频时段对应的音频以及所述标注对象的身份信息生成音频标注语料；

其中，所述同步播放所述视频和所述音频图形，并在所述音频图形中检测与所述标注对象的身份信息相匹配的音频时段，包括：

同步播放所述视频和所述音频图形；

在显示所述标注对象的身份信息，并同步播放所述视频和所述音频图形的过程中，若检测到音频选择指令，则根据所述音频选择指令在所述音频图形中定位音频时段的开始位置和结束位置；将位于所述开始位置和所述结束位置之间的音频时段确定为与所述标注对象的身份信息相匹配的音频时段。

2.根据权利要求1所述的方法，其特征在于，同步播放所述视频和所述音频图形，包括：

当检测到视频播放指令时，同步播放所述视频和所述音频图形。

3.根据权利要求1所述的方法，其特征在于，根据所述音频选择指令在所述音频图形中定位音频时段的开始位置和结束位置，包括：

在第奇数次检测到所述音频选择指令时，将所述音频图形中显示的实时播放进度点确定为所述开始位置；

在第偶数次检测到所述音频选择指令时，将所述音频图形中显示的实时播放进度点确定为与前一次检测到所述音频选择指令时确定的开始位置相对应的结束位置。

4.根据权利要求1所述的方法，其特征在于，显示与所述视频的音频播放进度相对应的音频图形，包括：

获取所述视频对应的音频采样率数据；

根据所述音频采样率数据绘制与所述视频的音频播放进度相对应的音频图形。

5.根据权利要求1述的方法，其特征在于，所述音频图形包括音频波形图，所述音频波形图用于显示所述视频的音频采样率波动情况以及音频播放进度。

6.根据权利要求1所述的方法，其特征在于，显示标注对象的身份信息以及包含有所述标注对象的视频，包括：

获取标注对象的身份信息，以及包含有所述标注对象的视频数据；

分别将所述标注对象的身份信息以及所述视频数据配置为与各自的数据类型相匹配的HTML标签；

根据所述HTML标签执行所述标注对象的身份信息的显示，以及包含有所述标注对象的视频的显示。

7.根据权利要求6所述的方法，其特征在于，获取标注对象的身份信息，以及包含有所述标注对象的视频数据，包括：

检测输入的标注对象标识；

根据检测到的标注对象标识以及进行音频标注的账号信息向服务端发起数据查询请求；

接收所述服务端根据所述数据查询请求所返回的查询结果，所述查询结果中含有与所述标注对象标识对应的视频数据以及身份信息。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从预先收集的视频中截取含有说话人画面的目标图像；

将所述说话人作为所述视频中含有的标注对象，并将所述目标图像作为所述标注对象的身份信息。

9.根据权利要求8所述的方法，其特征在于，从预先收集的视频中截取含有说话人画面的目标图像，包括：

对预先收集的各个视频进行人脸识别，确定含有人脸特征的视频；

从所述含有人脸特征的视频中截取所述目标图像。

10.根据权利要求1所述的方法，其特征在于，根据所述音频时段对应的音频以及所述标注对象的身份信息生成音频标注语料，包括：

获取所述音频时段对应的音频数据；

将所述音频数据与所述标注对象的身份信息进行关联存储，获得所述音频标注语料。

11.一种音频标注装置，其特征在于，包括：

信息显示模块，用于显示音频标注界面，所述音频标注界面上的不同区域中分别显示有标注对象的身份信息、包含有所述标注对象的视频以及与所述视频的音频播放进度相对应的音频图形；

播放检测模块，用于同步播放所述视频和所述音频图形，并在所述音频图形中检测与所述标注对象的身份信息相匹配的音频时段；

信息生成模块，用于从所述视频对应的音频数据中获取所述音频时段对应的音频，并根据所述音频时段对应的音频以及所述标注对象的身份信息生成音频标注语料；

同步播放所述视频和所述音频图形；

12.一种音频标注设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-10中的任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-10中的任一项所述的方法。