CN109815360A

CN109815360A - 音频数据的处理方法、装置和设备

Info

Publication number: CN109815360A
Application number: CN201910079735.0A
Authority: CN
Inventors: 林梅贞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-05-28
Anticipated expiration: 2039-01-28
Also published as: CN109815360B

Abstract

本发明实施例公开了一种音频数据的处理方法、装置和设备。方法包括：获取音频数据；检测对音频数据启动标注功能的触发指令；根据触发指令确定音频数据的标注点，标注点位于音频数据的数据帧之间；对标注点创建标注图标，以通过标注图标对音频数据的标注点进行标识定位。获取音频数据后，通过根据检测到的触发指令对音频数据的标注点创建标注图标，从而通过该标注图标对音频数据的标注点进行标识定位，使得无需在整个音频数据中不断找寻即可实现标注点的定位，从而在用户想听某个内容时，很快找到对应的内容，提高了效率，进而提升用户体验。

Description

音频数据的处理方法、装置和设备

技术领域

本发明实施例涉及数据处理技术领域，特别涉及一种音频数据的处理方法、装置和设备。

背景技术

在日常生活和工作过程中，各种场景和各类角色都难免会参加一些重要的场合和会议，例如记者的采访、律师的会晤、参加现场的课程和重要的会议，当这些场景中出现的关键信息，我们通常都会选择记录下来，以免在后续需要使用时，无法回忆。在所有记录方法中，最有效且最精准的记录方式就是录音，通过录音获取的音频数据来记录内容。

在对启动录音功能采集的音频数据进行处理时，若需要播放音频数据中的某个音频内容，相关技术采用的方式是对整个音频数据进行播放，由用户在播放的音频数据中找寻需要的音频内容。

然而，该种方式下，由于需要用户在播放的音频数据中不断找寻，导致效率低下，影响用户体验。

发明内容

本发明实施例提供了一种音频数据的处理方法、装置、设备及存储介质，可用于解决相关技术中的问题。所述技术方案如下：

一方面，本发明实施例提供了一种音频数据的处理方法，所述方法包括：

获取音频数据；

检测对所述音频数据启动标注功能的触发指令；

根据所述触发指令确定所述音频数据的标注点，所述标注点位于所述音频数据的数据帧之间；

对所述标注点创建标注图标，以通过所述标注图标对所述音频数据的标注点进行标识定位。

还提供了一种音频数据的处理方法，所述方法包括：

接收对音频数据启动标注功能的触发指令，所述触发指令是由终端获取所述音频数据后检测及发送的；

根据所述触发指令确定所述音频数据的标注点，生成所述标注点的名称及用于标识所述标注点的节点标识ID；

向所述终端返回所述标注点的节点ID，所述终端存储所述标注点的节点ID，还根据所述触发指令确定所述音频数据的标注点，对所述标注点创建标注图标，以通过所述标注图标对所述音频数据的标注点进行标识定位。

还提供了一种音频数据的处理装置，所述装置包括：

获取模块，用于获取音频数据；

检测模块，用于检测对所述音频数据启动标注功能的触发指令；

确定模块，用于根据所述触发指令确定所述音频数据的标注点，所述标注点位于所述音频数据的数据帧之间；

创建模块，用于对所述标注点创建标注图标，以通过所述标注图标对所述音频数据的标注点进行标识定位。

还提供了一种音频数据的处理装置，所述装置包括：

接收模块，用于接收对音频数据启动标注功能的触发指令，所述触发指令是由终端获取所述音频数据后检测及发送的；

生成模块，用于根据所述触发指令确定所述音频数据的标注点，生成所述标注点的名称及用于标识所述标注点的节点标识ID；

返回模块，用于向所述终端返回所述标注点的节点ID，所述终端存储所述标注点的节点ID，还根据所述触发指令确定所述音频数据的标注点，对所述标注点创建标注图标，以通过所述标注图标对所述音频数据的标注点进行标识定位。

一方面，提供了一种计算机设备，计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令在被所述处理器执行时实现如上任一所述的音频数据的处理方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令在被执行时实现如上任一所述的音频数据的处理方法。

本发明实施例提供的技术方案至少带来如下有益效果：

获取音频数据后，通过根据检测到的触发指令对音频数据的标注点创建标注图标，从而通过该标注图标对音频数据的标注点进行标识定位，使得无需在整个音频数据中不断找寻即可实现标注点的定位，从而在用户想听某个内容时，很快找到对应的内容，提高了效率，进而提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种音频数据的处理方法流程图；

图3是本发明实施例提供的一种界面示意图；

图4是本发明实施例提供的一种终端状态示意图；

图5是本发明实施例提供的一种音频数据的处理方法流程图；

图6是本发明实施例提供的一种界面示意图；

图7是本发明实施例提供的一种音频数据的处理方法流程图；

图8是本发明实施例提供的一种音频数据的处理方法流程图；

图9是本发明实施例提供的一种音频数据的处理方法流程图；

图10是本发明实施例提供的一种音频数据的处理方法流程图；

图11是本发明实施例提供的一种音频数据的处理方法流程图；

图12是本发明实施例提供的一种音频数据的处理装置示意图；

图13是本发明实施例提供的一种音频数据的处理装置示意图；

图14是本发明实施例提供的一种服务器的结构示意图；

图15是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种音频数据的处理方法，请参考图1，其示出了本发明实施例提供的方法实施环境的示意图。该实施环境可以包括：终端11和服务器12。

其中，终端11安装有应用程序客户端，例如，录音类应用程序客户端等。当该应用程序客户端启动后，启动录音功能，可通过终端11上的麦克风采集音频数据。采集之后的音频数据可发送至服务器12上进行存储。当然，终端11上也可以对采集的音频数据进行存储。从而在需要对该音频数据进行处理时，获取采集的音频数据。

其中，终端11可在录音过程中边采集音频数据，边采用本发明实施例提供的方法对该音频数据进行处理。当然，也可以在录音结束后，再采用本发明实施例提供的方法对采集的音频数据进行处理。

可选地，图1所示的终端11可以是诸如手机、平板电脑、个人计算机等电子设备。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

基于上述图1所示的实施环境，本发明实施例提供的音频数据的处理方法可如图2所示，以该方法应用于图1所示实施环境的终端11中为例。如图2所示，本发明实施例提供的方法可以包括如下几个步骤：

在步骤201中，获取音频数据。

在本实施例中，音频数据为启动录音功能后采集的音频数据，可以是在录音过程中采集的音频数据。例如，启动录音功能后，通过终端的麦克风采集音频数据。此外，本发明实施例提供的方法也适用于录音结束后的音频处理，则该步骤中获取到的音频数据是已经采集好的音频数据。本发明实施例对此不加以限定，例如，除了是本终端启动录音功能采集的音频数据外，还可以是其他终端采集的音频数据，本终端从其他终端获取音频数据，或者从服务器中获取。

在步骤202中，检测对音频数据启动标注功能的触发指令。

无论是录音过程中，还是录音结束后，如果有标注需求，均可以触发标注功能。可选地，本发明实施例提供的方法中，检测对音频数据启动标注功能的触发指令，包括但不限于如下三种实施方式：

第一种实施方式：显示音频数据的处理界面，处理界面上显示有标注控件，处理界面包括音频数据的录音采集界面或播放界面；若检测到对标注控件的触控操作，则基于触控操作检测到对音频数据启动标注功能的触发指令。

其中，录音采集界面是指终端开启录音功能后所显示的录音采集界面。播放界面可以是在录音结束得到音频数据后，播放该音频数据时的界面。无论是哪种界面，均可以设置有标注控件，以在检测到对标注控件的触控操作后，由此获取到启动标注功能的触发指令。

例如，如图3(1)所示，以音频数据的录音采集界面为例，该录音采集界面可以是在打开终端上的语音备忘录的录音App后呈现，该界面上显示有名称为“标注”的标注控件。当检测到对该标注控件的触控操作，如点击操作后，基于触控操作检测到对音频数据启动标注功能的触发指令。

第二种实施方式：在启动录音功能后，启动终端内置的速度传感器，终端为对音频数据进行处理的终端；若通过速度传感器检测到终端进行了启动标注功能的参考动作，则基于参考动作获取到对音频数据启动标注功能的触发指令。

该种实施方式下，考虑到在记录的现实场景中，如果时刻看着终端屏幕点击标注控件，使用上并不便利，也无法专注的完成场景中的工作。因此，本发明实施例提供的方法支持使用速度传感器来启动录音标注功能。例如，通过角速度传感器对终端的移动位置进行检测，以确定终端是否进行了参考动作。该种方式下，采用速度传感器检测终端进行了启动标注功能的参考动作，一旦检测到，即可确认用户需要启动标注功能。

其中，参考动作可以是设定好的，本发明实施例不对设定的参考动作加以限定。例如，该参考动作可以是将终端进行前后抬起动作，则启动标注功能，如图4(1)所示，箭头所指方向为前后方向。可选地，参考动作还可以是将终端进行垂直向右移动时，则启动标注功能，如图4(2)所示，箭头所指方向为向右的方向。可选地，参考动作还可以是将终端进行垂直向左移动时，则启动标注功能，如图4(3)所示，箭头所指方向为向左的方向。

无论采用哪种参考动作，本发明实施例提供的方法可对参考动作发生的角度范围进行设定，以避免速度传感器出现误判现象。例如，仍以图4(1)至(3)的参考动作为例，当角速度传感器判断终端前后抬起动作大于30度时，启动标注功能，反之则不启动；当终端进行垂直向左移动时，移动角度大于30度时，启动标注功能，反之则不启动；当终端进行垂直向右移动时，移动角度大于30度时，启动标注功能，反之则不启动。无论是上述哪种参考动作，通过参考动作启动录音标注功能的过程可如图5所示。打开终端的录音App后，启动录音功能，通过API启动角速度传感器。判断手机角度是否有改变，如果没有改变，则不启动标注功能。如果手机角度有改变，判断手机角度是否改变超过30度，如果超过30度，则启动标注功能。如果没超过30度，则不启动标注功能。

第三种实施方式：获取语音指令；对语音指令进行识别，得到语音识别结果；若检测到语音识别结果中包括对音频数据启动标注功能的指令信息，则基于指令信息获取到对音频数据启动标注功能的触发指令。

针对该种实施方式，用户可以无需点击终端界面上的控件，也无需使得终端发生位置移动，而是可以直接通过语音指令来控制。其中，该方式可以设置对音频数据启动标注功能的指令信息，当用户发出的语音指令中包含该指令信息时，即可触发启动标注功能的触发指令。本发明实施例不对设置的指令信息的内容进行限定。例如，用户可以直接说出内容为“启动标注功能”的语音指令，则当终端获取到该语音指令，通过对该语音指令进行识别，得到语音识别结果。该语音识别结果可以是文本，通过识别出的文本与设置的指令信息对应的文本内容进行比对，二者一致，则认为语音识别结果中包括对音频数据启动标注功能的指令信息，由此得到触发指令。或者，还可以检测语音识别结果中是否包含启动标注功能的关键字，如果包含，则由此得到触发指令。

需要说明的是，由于语音指令需要用户发出声音才能实现，因而对于开会等需要保持安静不能发出声音的场景，该种方式没有上述第一种实施方式和第二种实施方式更为符合实际场景。因此，采用哪种方式开启标注功能，本发明实施例提供的方法不加以限定，可根据需要录音的场景情况来选择。

在步骤203中，根据触发指令确定音频数据的标注点，标注点位于音频数据的数据帧之间。

可选地，根据触发指令确定音频数据的标注点，包括：将音频数据中与触发指令的时间点所匹配的点作为音频数据的标注点。

其中，音频数据包括多个数据帧，每个数据帧均有各自对应的时间点。例如，采集音频数据时，各个数据帧对应一个采集时间点，或者，播放音频数据时，各个数据帧对应一个播放时间点。可选地，将音频数据中与触发指令的时间点所匹配的点作为音频数据的标注点时，将对应的时间点与触发指令的时间点相同的数据帧作为目标数据帧，将该目标数据帧与前一数据帧之间的点作为标注点，即音频数据中与触发指令的时间点所匹配的点。

例如，如果是在采集音频数据的过程中检测到对音频数据启动标注功能的触发指令，将对应的采集时间点与触发指令的时间点相同的数据帧作为目标数据帧，将该目标数据帧与前一数据帧之间的点作为标注点，即音频数据中与触发指令的时间点所匹配的点。以在采集音频数据的过程中，检测到触发指令时正在采集第6个数据帧为例，即第6个数据帧对应的采集时间点与触发指令的时间点相同，将第6个数据帧与第5个数据帧之间的点作为音频数据的标注点。

又例如，如果是在播放音频数据的过程中检测到对音频数据启动标注功能的触发指令，将对应的播放时间点与触发指令的时间点相同的数据帧作为目标数据帧，将该目标数据帧与前一数据帧之间的点作为标注点，即音频数据中与触发指令的时间点所匹配的点。以在播放音频数据的过程中，正在播放第8个数据帧为例，即第8个数据帧对应的播放时间点与触发指令的时间点相同，将第8个数据帧与第7个数据帧之间的点作为音频数据的标注点。

可选地，根据触发指令确定音频数据的标注点，包括：若检测到触发指令的时间与上次启动标注功能的时间间隔大于参考阈值，则根据触发指令确定音频数据的标注点。

其中，参考阈值可以根据经验设置，也可以由用户设置，例如采用5秒作为参考阈值，由此，通过参考阈值来避免在使用录音标注功能时，终端出现误判的现象。例如，在启动标注功能后，5秒内无法使用标注功能，即在第一次以任何方法使用标注功能后，第二次以任何方法使用标注功能需要在第一次使用的5秒后才能使用。

在步骤204中，对标注点创建标注图标，以通过标注图标对音频数据的标注点进行标识定位。

可选地，对标注点创建标注图标，包括：显示音频数据的录音轨迹，将标注点在录音轨迹中的位置作为标记位置，在标记位置处创建标注图标。

如图3(2)所示，标注功能启动后，会在录音进度条上显示标注图标；并显示默认的标注点的名称：“标注1”。如图3(3)所示，在录音过程中，可以不限次数的使用标注功能，每次启动标注功能后，都会在页面内添加标注点的记录，即标注图标。

可选地，对标注点创建标注图标之后，还包括：显示标注点的名称以及处理按钮，处理按钮包括第一按钮和第二按钮中的至少一种，第一按钮用于对标注点的名称进行编辑，第二按钮用于对标注点进行删除；若检测到处理按钮被触发，则基于触发的处理按钮对标注点进行处理。例如，若检测到第一按钮被触发，则对标注点的名称进行编辑，获取编辑后的名称并进行保存。若检测到第二按钮被触发，则删除标注点。

可选地，考虑到可以多次设置标注点，而终端界面的显示区域有限，因而本发明实施例提供的方法在显示标注点的名称以及处理按钮时，若标注点超过参考数量，则显示动态面板，通过动态面板显示每个标注点的名称以及每个标注点的处理按钮。

例如，该动态面板可以设置下滑菜单，通过该下滑菜单将全部标注点显示出来。如图6(1)所示，当超过三个标注点时，页面会显示动态面板，通过该动态面板显示标注点的名称以及处理按钮，可以通过下拉滑动条来查看所有标注点的信息记录。

进一步地，本发明实施例提供的方法在创建标注图标后，还支持用户对标注点的名称进行自定义，从而更加符合用户的个性化需求。例如，点击处理按钮中的编辑按钮，可编辑标注点的名称，该过程可参考图7所示的流程。通过角速度传感器或App页面启动标注功能后，如果需要编辑标注内容，则获取编辑的标注内容，即更新的标注点的名称。保存编辑标注内容后，结束录音，关闭手机角速度传感器。

考虑到音频数据大多存储在服务器侧，对于用户更换终端等情况，本发明实施例提供的方法仍然可以支持对音频数据的处理。例如，将音频数据存储于服务器侧，无论采用哪种检测触发指令的方式，检测对音频数据启动标注功能的触发指令之后，还包括：将触发指令发送至服务器，服务器根据触发指令确定音频数据的标注点，生成标注点的名称及用于标识标注点的节点标识ID；接收服务器返回的标注点的节点ID，存储标注点的节点ID。

例如，如图8所示，启动标注功能时，给后台服务器发送一个触发指令；后台服务器接收触发指令后，判断5秒内是否执行过启动标注功能的触发指令，如果没有启动过则启动标注功能，反之则不启动；接收启动标注功能的触发指令后，后台服务器会在触发的时间点上创建标注点。默认生成节点名称为“标注1”和对应的节点ID。创建节点ID后，发送节点ID给前端，即终端。前端会在录音轨迹(音频数据的进度条)上在启动标注点的时间点上创建标注图标，并显示标注点的名称以及处理按钮，编辑按钮和删除按钮。

可选地，基于触发的处理按钮对标注点进行处理之后，还包括：

获取被处理的目标标注点的节点ID，将目标标注点的节点ID及处理信息发送至服务器，服务器根据目标标注点的节点ID及处理信息对目标标注点进行处理。

例如，仍以图6(1)所示，每个标注图标后包括删除和编辑两个按钮，如果检测到删除按钮被触发，则删除对应的标注图标，将该标注点的ID发送至服务器，由服务器将服务器侧存储的该标注点的ID对应的标注点进行删除。如果检测到编辑按钮被触发，则编辑对应的标注点的名称，将该标注点的ID及编辑的名称一同发送至服务器，由服务器将服务器侧存储的该标注点的ID对应的标注点的名称进行，该过程也同样可以参考图8所示的流程。

以上仅是以录音过程为例，录音完毕后，得到的播放界面可如图6(2)所示。需要播放全程录音时，点击播放图标即可播放全程录音的音频数据；需要播放录音得到的音频数据时，点击标注点的名称后面的“播放”按钮，即可在标注点开始播放录音；在播放全程录音的过程中，点击标注后的“播放”按钮，即可跳转到标注点开始播放录音，该过程还可参考下面图9所示的方法流程。

本实施例提供的方法，获取音频数据后，通过根据检测到的触发指令对音频数据的标注点创建标注图标，从而通过该标注图标对音频数据的标注点进行标识定位，使得无需在整个音频数据中不断找寻即可实现标注点的定位，从而在用户想听某个内容时，很快找到对应的内容，提高了效率，进而提升用户体验。

也正是因为可以记录标注点的名称，回放录音时，可以通过名称查找标注点，再也无需盲目寻找；且通过引用终端的速度传感器，可快速便捷的标注录音节点，高效的操作方法，可以有效的提升工作的效率，从而获得更高的回报率。

本发明实施例提供了一种音频数据的处理方法，针对录音结束后，对录音采集到的音频数据的处理，本发明实施例提供的方法同样支持标注功能。参见图9，本发明实施例提供的方法包括如下步骤。

在步骤301中，获取音频数据。

该步骤的实现方式详见上述步骤201的内容，此处不再赘述。

在步骤302中，检测对音频数据启动标注功能的触发指令。

该步骤的实现方式详见上述步骤202的内容，此处不再赘述。

在步骤303中，根据触发指令确定音频数据的标注点，标注点位于音频数据的数据帧之间。

该步骤的实现方式详见上述步骤203的内容，此处不再赘述。

此外，在播放录音的过程中，本发明实施例提供的方法同样支持对标注点的名称进行修改，该修改过程可参考图10所示的方法流程。

在步骤304中，对标注点创建标注图标，以通过标注图标对音频数据的标注点进行标识定位。

该步骤的实现方式详见上述步骤204的内容，此处不再赘述。

在步骤305中，获取标注点的选择指令，基于选择指令，从被选标注点的时间点开始播放包括被选标注点的音频数据。

可选地，基于选择指令，从被选标注点的时间点开始播放包括被选标注点的音频数据，包括：基于选择指令获取被选标注点的节点ID；将被选标注点的节点ID发送至服务器，服务器根据被选标注点的节点ID返回包括被选标注点的音频数据；接收被选标注点的音频数据，从被选标注点的时间点开始播放包括被选标注点的音频数据。

上述终端与后台服务器的交互过程可参考图11。终端上的录音APP在播放录音时，将用户选择的标注点的节点ID发送至后台服务器，由后台服务器返回包括该节点ID的标注点的音频数据，从而使得终端侧的APP可以从被选标注点的时间点开始播放包括被选标注点的音频数据。

正是因为可以记录标注点的名称，回放录音时，可以通过名称查找标注点，再也无需盲目寻找；且通过引用终端的速度传感器，可快速便捷的标注录音节点，高效的操作方法，可以有效的提升工作的效率，从而获得更高的回报率。

基于相同技术构思，参见图12，本发明实施例提供了一种音频数据的处理装置，该装置包括：

获取模块121，用于获取音频数据；

检测模块122，用于检测对音频数据启动标注功能的触发指令；

确定模块123，用于根据触发指令确定音频数据的标注点，标注点位于音频数据的数据帧之间；

创建模块124，用于对标注点创建标注图标，以通过标注图标对音频数据的标注点进行标识定位。

可选地，检测模块122，用于显示音频数据的处理界面，处理界面上显示有标注控件，处理界面包括音频数据的录音采集界面或播放界面；若检测到对标注控件的触控操作，则基于触控操作检测到对音频数据启动标注功能的触发指令。

可选地，检测模块122，用于在启动录音功能后，启动终端内置的速度传感器，终端为对音频数据进行处理的终端；若通过速度传感器检测到终端进行了启动标注功能的参考动作，则基于参考动作获取到对音频数据启动标注功能的触发指令。

可选地，检测模块122，用于获取语音指令；对语音指令进行识别，得到语音识别结果；若检测到语音识别结果中包括对音频数据启动标注功能的指令信息，则基于指令信息获取到对音频数据启动标注功能的触发指令。

可选地，确定模块123，用于若检测到触发指令的时间与上次启动标注功能的时间间隔大于参考阈值，则根据触发指令确定音频数据的标注点。

可选地，确定模块123，用于将音频数据中与触发指令的时间点所匹配的点作为音频数据的标注点；

创建模块124，用于显示音频数据的录音轨迹，将标注点在录音轨迹中的位置作为标记位置，在标记位置处创建标注图标。

可选地，该装置，还包括：

第一发送模块，用于将触发指令发送至服务器，服务器根据触发指令确定音频数据的标注点，生成标注点的名称及用于标识标注点的节点标识ID；

接收模块，用于接收服务器返回的标注点的节点ID，存储标注点的节点ID。

可选地，该装置，还包括：

显示模块，用于显示标注点的名称以及处理按钮，处理按钮包括第一按钮和第二按钮中的至少一种，第一按钮用于对标注点的名称进行编辑，第二按钮用于对标注点进行删除；

处理模块，用于若检测到处理按钮被触发，则基于触发的处理按钮对标注点进行处理。

可选地，显示模块，用于若标注点超过参考数量，则显示动态面板，通过动态面板显示每个标注点的名称以及每个标注点的处理按钮。

可选地，该装置，还包括：

第二发送模块，用于获取被处理的目标标注点的节点ID，将目标标注点的节点ID及处理信息发送至服务器，服务器根据目标标注点的节点ID及处理信息对目标标注点进行处理。

可选地，该装置，还包括：

获取模块，用于获取标注点的选择指令；

播放模块，用于基于选择指令，从被选标注点的时间点开始播放包括被选标注点的音频数据。

可选地，播放模块，用于基于选择指令获取被选标注点的节点ID；将被选标注点的节点ID发送至服务器，服务器根据被选标注点的节点ID返回包括被选标注点的音频数据；接收被选标注点的音频数据，从被选标注点的时间点开始播放包括被选标注点的音频数据。

参见图13，本发明实施例提供了一种音频数据的处理装置，装置包括：

接收模块131，用于接收对音频数据启动标注功能的触发指令，触发指令是由终端获取音频数据后检测及发送的；

生成模块132，用于根据触发指令确定音频数据的标注点，生成标注点的名称及用于标识标注点的节点标识ID；

返回模块133，用于向终端返回标注点的节点ID，终端存储标注点的节点ID，还根据触发指令确定音频数据的标注点，对标注点创建标注图标，以通过标注图标对音频数据的标注点进行标识定位。

可选地，接收模块131，还用于接收终端发送的被处理的目标标注点的节点ID及处理信息，根据目标标注点的节点ID及处理信息对目标标注点进行处理。

可选地，接收模块131，还用于接收终端发送的被选标注点的节点ID；

返回模块133，还用于根据被选标注点的节点ID向终端返回包括被选标注点的音频数据，以通过终端从被选标注点的时间点开始播放包括被选标注点的音频数据。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14是本发明实施例提供的一种音频数据的处理设备结构示意图，该设备可以为服务器，服务器可以是单独的服务器或集群服务器。具体来讲：

服务器包括中央处理单元(CPU)1401、随机存取存储器(RAM)1402和只读存储器(ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。服务器还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1407及其相关联的计算机可读介质为服务器提供非易失性存储。也就是说，大容量存储设备1407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

根据本发明的各种实施例，服务器还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本发明实施例提供的音频数据的处理方法的指令。

图15是本发明实施例提供的一种音频数据的处理设备的结构示意图。该设备可以为终端，例如可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1501所执行以实现本申请中方法实施例提供的音频数据的处理方法。

在一些实施例中，终端还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备包括：射频电路1504、触摸显示屏1505、摄像头1506、音频电路1507、定位组件1508和电源1509中的至少一种。

外围设备接口1503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中，处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上；在一些其他实施例中，处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时，显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时，显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1505可以为一个，设置终端的前面板；在另一些实施例中，显示屏1505可以为至少两个，分别设置在终端的不同表面或呈折叠设计；在再一些实施例中，显示屏1505可以是柔性显示屏，设置在终端的弯曲表面上或折叠面上。甚至，显示屏1505还可以设置成非矩形的不规则图形，也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1506用于采集图像或视频。可选地，摄像头组件1506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1501进行处理，或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1507还可以包括耳机插孔。

定位组件1508用于定位终端的当前地理位置，以实现导航或LBS(Location BasedService，基于位置的服务)。定位组件1508可以是基于美国的GPS(Global PositioningSystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1509用于为终端中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端还包括有一个或多个传感器1510。该一个或多个传感器1510包括但不限于：加速度传感器1511、陀螺仪传感器1512、压力传感器1513、指纹传感器1514、光学传感器1515以及接近传感器1516。

加速度传感器1511可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1511可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1511采集的重力加速度信号，控制触摸显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1512可以检测终端的机体方向及转动角度，陀螺仪传感器1512可以与加速度传感器1511协同采集用户对终端的15D动作。处理器1501根据陀螺仪传感器1512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1513可以设置在终端的侧边框和/或触摸显示屏1505的下层。当压力传感器1513设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器1501根据压力传感器1513采集的握持信号进行左右手识别或快捷操作。当压力传感器1513设置在触摸显示屏1505的下层时，由处理器1501根据用户对触摸显示屏1505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1514用于采集用户的指纹，由处理器1501根据指纹传感器1514采集到的指纹识别用户的身份，或者，由指纹传感器1514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1514可以被设置终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时，指纹传感器1514可以与物理按键或厂商Logo集成在一起。

光学传感器1515用于采集环境光强度。在一个实施例中，处理器1501可以根据光学传感器1515采集的环境光强度，控制触摸显示屏1505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1505的显示亮度；当环境光强度较低时，调低触摸显示屏1505的显示亮度。在另一个实施例中，处理器1501还可以根据光学传感器1515采集的环境光强度，动态调整摄像头组件1506的拍摄参数。

接近传感器1516，也称距离传感器，通常设置在终端的前面板。接近传感器1516用于采集用户与终端的正面之间的距离。在一个实施例中，当接近传感器1516检测到用户与终端的正面之间的距离逐渐变小时，由处理器1501控制触摸显示屏1505从亮屏状态切换为息屏状态；当接近传感器1516检测到用户与终端的正面之间的距离逐渐变大时，由处理器1501控制触摸显示屏1505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图15中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例中实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述任一种音频数据的处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述任一种音频数据的处理方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的示例性实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据的处理方法，其特征在于，所述方法包括：

获取音频数据；

检测对所述音频数据启动标注功能的触发指令；

2.根据权利要求1所述的方法，其特征在于，所述检测对所述音频数据启动标注功能的触发指令，包括：

显示所述音频数据的处理界面，所述处理界面上显示有标注控件，所述处理界面包括所述音频数据的录音采集界面或播放界面；

若检测到对所述标注控件的触控操作，则基于所述触控操作检测到对所述音频数据启动标注功能的触发指令。

3.根据权利要求1所述的方法，其特征在于，所述检测对所述音频数据启动标注功能的触发指令，包括：

在启动录音功能后，启动终端内置的速度传感器，所述终端为对所述音频数据进行处理的终端；

若通过所述速度传感器检测到所述终端进行了启动标注功能的参考动作，则基于所述参考动作获取到对所述音频数据启动标注功能的触发指令。

4.根据权利要求1所述的方法，其特征在于，所述检测对所述音频数据启动标注功能的触发指令，包括：

获取语音指令；

对所述语音指令进行识别，得到语音识别结果；

若检测到所述语音识别结果中包括对所述音频数据启动标注功能的指令信息，则基于所述指令信息获取到对所述音频数据启动标注功能的触发指令。

5.根据权利要求1所述的方法，其特征在于，所述根据所述触发指令确定所述音频数据的标注点，包括：

若检测到所述触发指令的时间与上次启动标注功能的时间间隔大于参考阈值，则根据所述触发指令确定所述音频数据的标注点。

6.根据权利要求1所述的方法，其特征在于，所述根据所述触发指令确定所述音频数据的标注点，包括：

将所述音频数据中与所述触发指令的时间点所匹配的点作为所述音频数据的标注点；

所述对所述标注点创建标注图标，包括：

显示所述音频数据的录音轨迹，将所述标注点在所述录音轨迹中的位置作为标记位置，在所述标记位置处创建标注图标。

7.根据权利要求1-6任一所述的方法，其特征在于，所述检测对所述音频数据启动标注功能的触发指令之后，还包括：

将所述触发指令发送至服务器，所述服务器根据所述触发指令确定所述音频数据的标注点，生成所述标注点的名称及用于标识所述标注点的节点标识ID；

接收所述服务器返回的所述标注点的节点ID，存储所述标注点的节点ID。

8.根据权利要求7所述的方法，其特征在于，所述对所述标注点创建标注图标之后，还包括：

显示所述标注点的名称以及处理按钮，所述处理按钮包括第一按钮和第二按钮中的至少一种，所述第一按钮用于对所述标注点的名称进行编辑，所述第二按钮用于对所述标注点进行删除；

若检测到所述处理按钮被触发，则基于触发的处理按钮对所述标注点进行处理。

9.根据权利要求8所述的方法，其特征在于，所述显示所述标注点的名称以及处理按钮，包括：

若所述标注点超过参考数量，则显示动态面板，通过所述动态面板显示每个标注点的名称以及每个标注点的处理按钮。

10.根据权利要求8所述的方法，其特征在于，所述基于触发的处理按钮对所述标注点进行处理之后，还包括：

获取被处理的目标标注点的节点ID，将所述目标标注点的节点ID及处理信息发送至服务器，所述服务器根据所述目标标注点的节点ID及处理信息对所述目标标注点进行处理。

11.根据权利要求7所述的方法，其特征在于，所述对所述标注点创建标注图标之后，还包括：

获取标注点的选择指令；

基于所述选择指令，从被选标注点的时间点开始播放包括所述被选标注点的音频数据。

12.根据权利要求11所述的方法，其特征在于，所述基于所述选择指令，从被选标注点的时间点开始播放包括所述被选标注点的音频数据，包括：

基于所述选择指令获取被选标注点的节点ID；

将所述被选标注点的节点ID发送至所述服务器，所述服务器根据所述被选标注点的节点ID返回包括所述被选标注点的音频数据；

接收所述被选标注点的音频数据，从被选标注点的时间点开始播放包括所述被选标注点的音频数据。

13.一种音频数据的处理方法，其特征在于，所述方法包括：

14.一种音频数据的处理装置，其特征在于，所述装置包括：

获取模块，用于获取音频数据；

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令在被所述处理器执行时实现如权利要求1至12任一所述的音频数据的处理方法，或权利要求13所述的音频数据的处理方法。