CN105895079A

CN105895079A - 语音数据的处理方法和装置

Info

Publication number: CN105895079A
Application number: CN201510926346.9A
Authority: CN
Inventors: 刘方宇
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: Tianjin Zhirong Innovation Technology Development Co ltd
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2016-08-24
Anticipated expiration: 2035-12-14
Also published as: CN105895079B

Abstract

本发明实施例提供一种语音数据的处理方法和装置。所述处理方法包括：获取待处理的语音数据；从所述待处理的语音数据中提取相应的声学特征信息；根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱。采用本发明实施例，可以快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验。

Description

语音数据的处理方法和装置

技术领域

本发明涉及计算机技术，尤其涉及一种语音数据的处理方法和装置。

背景技术

随着互联网的普及和音频视频技术的提升，人们的日常娱乐生活越来越丰富，例如可以到KTV唱歌，或者通过视频直播的方式为在线用户唱歌等。

音乐会让人赏心悦目，可以陶冶人的情操，因此很多人喜欢音乐。音乐中并不单单包括歌词还包括曲谱，曲谱是准确记录音乐的载体，它是记录音乐音高或者节奏的各种书面符号的有规律的组合。曲谱是音乐的重要组成部分。

然而，没有学过音乐的人只知道歌词，而并不知道曲谱，而且也无法识别曲谱，并且用户头脑里偶尔闪过的新奇音乐想法也很快会被遗忘，这样，人们只能通过录音设备将自己的几句音调录下来，而这种方式的传播性并不强，用户体验也较差。

发明内容

本发明的目的在于，提供一种对语音数据进行谱曲的方法以及实现该方法的装置，基于从待处理的语音数据中获取的声学特征信息，获取待处理的语音数据对应的曲谱，从而可以快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验。

根据本发明的一方面，提供一种语音数据的处理方法。所述处理方法包括，获取待处理的语音数据；从所述待处理的语音数据中获取相应的声学特征信息；根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱。

优选地，所述根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱的处理包括：根据所述声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值；将查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。

优选地，所述处理方法还包括：输出所述待处理的语音数据和获取的曲谱。

优选地，所述从所述待处理的语音数据中获取相应的声学特征信息的处理包括：根据所述待处理的语音数据的采样时间，将所述待处理的语音数据分割成多个预设时长的数据段，从任一数据段中获取相应的声学特征信息。

优选地，所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。

根据本发明的另一方面，提供一种语音数据的处理装置。所述处理装置包括：语音数据获取模块，用于获取待处理的语音数据；声学特征获取模块，用于从所述语音数据获取模块获取的待处理的语音数据中获取相应的声学特征信息；曲谱获取模块，用于根据所述声学特征获取模块获取的声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱。

优选地，所述曲谱获取模块包括：信息查找单元，用于根据所述声学特征获取模块获取的声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值；曲谱获取单元，用于将所述信息查找单元查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。

优选地，所述处理装置还包括：曲谱输出模块，用于输出所述待处理的语音数据和获取的曲谱。

优选地，所述声学特征获取模块用于：根据所述语音数据获取模块获取的待处理的语音数据的采样时间，将所述待处理的语音数据分割成多个预设时长的数据段，从任一数据段中提取相应的声学特征信息。

根据本发明实施例提供的语音数据的处理方法和装置，通过从获取的待处理的语音数据中获取相应的声学特征信息，并根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱，从而可以快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验。

附图说明

图1是示出根据本发明实施例一的语音数据的处理方法的流程图；

图2是示出语音数据处理的应用程序的首页的显示界面的示例性示意图；

图3是示出根据本发明实施例二的语音数据的处理方法的流程图；

图4是示出包含曲谱的语音数据处理的应用程序的首页的显示界面的示例性示意图；

图5是示出根据本发明实施例三的语音数据的处理装置的一种逻辑框图；

图6是示出根据本发明实施例三的语音数据的处理装置的另一种逻辑框图；

图7是示出根据本发明实施例三的语音数据的处理装置的又一种逻辑框图。

具体实施方式

本方案的发明构思是，提供一种对语音数据进行谱曲的技术方案，该技术方案可应用于录音棚、在线视频直播等语音数据处理场景中，通过从获取的待处理的语音数据中获取相应的声学特征信息，并根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱，从而可以快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验。

下面结合附图详细描述本发明的示例性实施例。

实施例一

图1是示出根据本发明实施例一的语音数据的处理方法的流程图。通过包括如图5所示的处理装置的计算机系统执行所述处理方法。

参照图1，在步骤S110，获取待处理的语音数据。

终端设备中可安装有语音数据处理的应用程序，当用户需要对自己或其他用户演唱的歌曲或曲调进行谱曲时，可点击该应用程序的快捷方式图标，终端设备启动该应用程序，并显示该应用程序的首页，如图2所示，该首页中可包括话筒图标、语音输入框、输出框和帮助图标等，其中，话筒图标可包括激活状态和未激活状态，例如，当用户点击该话筒图标时，终端设备启动话筒，并通过话筒采集用户输入的语音数据，此时，话筒图标处于激活状态；如果用户在预定时长内未输入语音数据，则终端设备可关闭话筒，此时，话筒图标处于未激活状态；语音输入框可用于显示用户输入的语音数据的图标，或该语音数据的文本等，以便用户确定终端设备采集的语音数据是否准确；输出框可用于输出对该语音数据处理后得到的数据等。终端设备显示该应用程序的首页后，可启动话筒，此时，话筒图标处于激活状态，然后，用户可将终端设备的话筒朝向演唱歌曲或曲调的用户，终端设备可通过话筒采集用户输入的语音数据(即待处理的语音数据)。该首页中还可包括确定按键，当用户输入完成后可点击确定按键，终端设备获取话筒采集的待处理的语音数据，或者，可以预先设置接收时长阈值，当用户停止输入后的时长达到接收时长阈值时，可以将用户停止输入之前输入的语音数据确定为待处理的语音数据。

需要说明的是，如果用户的声音过小，终端设备无法接收到语音数据，则终端设备可发出语音数据接收失败的提示信号，以提示用户重新输入。

在步骤S120，从所述待处理的语音数据中获取相应的声学特征信息。

具体地，终端设备可以对待处理的语音数据进行预处理，例如，对该语音数据进行如采样(采样频率可以为10KHz或16KHz等)、反混叠滤波、去除声门激励和噪声影响等处理，然后，可以对处理后的语音数据进行特征提取，其中，特征提取的作用是从语音数据的波形中提取一组或多组能够描述语音数据中声学属性特征的参数，如平均能量、过零数、共振峰、倒谱、线性预测系数等，以便进行后续的语音训练和声学特征信息的获取，而且该参数的选择直接关系着语音数据中声学特征信息的准确率的高低。通过对该语音数据的上述参数的分析，可得到该语音数据的声学特征信息，如音调信息、音色信息、响度信息和/或音阶信息等。

在步骤S130，根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱。

具体地，终端设备中可以预先存储有基准声学特征曲谱表，该基准声学特征曲谱表中可包括多个基准声学特征信息，该基准声学特征曲谱表可以是通过对上述处理得到的语音数据进行大量训练得到的，也可以是由通用的标准声学特征信息构成。终端设备可以将基准声学特征曲谱表中的每一个基准声学特征信息与该声学特征信息进行对比，并计算得到该声学特征信息与每个基准声学特征信息的匹配度，可将匹配度最高的第一基准声学特征信息确定为该语音数据对应的声学特征信息，终端设备可对得到的第一基准声学特征信息进行分析，并基于第一基准声学特征信息中的音调信息、音色信息、响度信息和/或音阶信息等信息设置相应的曲谱，从而得到该语音数据对应的曲谱。

本发明实施例提供的语音数据的处理方法，通过从获取的待处理的语音数据中获取相应的声学特征信息，并根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱，从而可以快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验。

实施例二

图3是示出根据本发明实施例二的语音数据的处理方法的流程图，所述实施例可视为图1的又一种具体的实现方案。

参照图3，在步骤S310，获取待处理的语音数据。

其中，上述步骤S310的步骤内容与上述实施例一中的步骤S110的步骤内容相同，在此不再赘述。

在步骤S320，根据所述待处理的语音数据的采样时间，将所述待处理的语音数据分割成多个预设时长的数据段，从任一数据段中获取相应的声学特征信息。

具体地，由于语音数据对应的语音信号通常可看作为短时平稳的信号，例如可以认为在该语音数据的相邻采样时间之间(如10-20ms)的语音信号为短时平稳的信号，其频谱特性和某些物理特征参量可近似地看作是不变的，这样就可以采用平稳过程的分析处理方法，对待处理的语音数据进行处理，具体可以为：可将待处理的语音数据根据采样时间分隔成多个预设时长(如10-20ms)的数据段，可以对每一个数据段进行端点检测，其中，端点检测就是指从包含语音的一段数据中确定出语音的起始点和结束点。然后，可以对每一个数据段进行特征提取，从每一个数据段中提取一组或多组能够描述相应数据段中声学属性特征的参数，通过对每一个数据段的上述参数的分析，可得到每一个数据段的声学特征信息。

在步骤S330，根据所述声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值。

其中，所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。

具体地，终端设备中可以预先存储有基准声学特征曲谱表，该基准声学特征曲谱表中可包括音阶、音调、半音阶、半音调和/或长音等多个基准声学特征信息，可根据预定的划分标准分别为音阶、音调、半音阶、半音调和/或长音等划分不同的识别范围，并设置相应的范围值，该基准声学特征曲谱表可以是通过对语音数据进行大量训练而得到，也可以使用通用的标准声学特征信息组成。可根据预定标准为每一个数据段的声学特征信息设置特征值，针对该语音数据中的某一个数据段的声学特征信息，终端设备可以将基准声学特征曲谱表中的每一个基准声学特征信息与该数据段的声学特征信息进行对比，在基准声学特征曲谱表中查找到该数据段的声学特征信息的特征值所在的基准声学特征信息范围值。通过上述方式可以对该语音数据中的其他数据段执行上述处理，分别基准声学特征曲谱表中查找到每个数据段的声学特征信息的特征值所在的基准声学特征信息范围值。

在步骤S340，将查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。

具体地，并计算得到该数据段的声学特征信息与每个基准声学特征信息的匹配度，可将匹配度最高的第一基准声学特征信息确定为该数据段对应的声学特征信息，终端设备可对查找到的每个基准声学特征信息范围值对应的基准声学特征信息进行分析，并基于相应的基准声学特征信息中的音阶、音调、半音阶、半音调和/或长音等信息设置相应的曲谱，从而得到相应数据段对应的曲谱，通过上述方式可以对该语音数据中的其他数据段执行上述处理，分别得到每个数据段对应的曲谱，然后，可根据每个数据段对应的开始点和结束点确定数据段在该语音数据中的位置，可按照各数据段的位置对相应的曲谱进行排序，得到该语音数据对应的曲谱。

另外，对语音数据进行谱曲的处理除可通过上述方式外，还可以通过其它多种方式实现，例如，可以通过语音谱曲模型，对语音数据进行谱曲，在对语音数据进行谱曲之前，可以对上述语音谱曲模型进行训练，技术人员可以通过多种途径获取多种语音数据，例如，技术人员在开发语音谱曲机制之前，可以从多种渠道(如向用户购买等)获取语音数据，然后，使用得到的语音数据对语音谱曲模型进行训练，具体的，可以设置有多个语音谱曲模型的参数，在获取到语音数据后，提取语音数据中的相关参数，并根据该相关参数得到语音数据的声学特征信息，然后，可以对每一帧语音数据进行状态标注，具体地，可以设置神经网络模型，可以将语音数据划分成三层，则可以使用上下文的声学特征的神经网络模型，在该语音数据中提取出头层、中间层和尾层的声学特征信息，可以将三层的声学特征信息作为一个样本特征空间，并基于该样本特征空间得到其对应的声学特征信息，可以将中间层对应的声学特征信息作为一个标记。可以使用人工神经网络拓扑结构作为语音识别模型的核心，在人工神经网络拓扑结构中可以包括三层，如输入层、隐含层和输出层，首先，可以对人工神经网络进行初始化，此时，其中的每两个神经元直接的网络连接权重被初始化为一个很小的随机数(例如-1.0～1.0)，同时每个神经元有一个偏置，被初始化为一个随机数，根据输入的语音数据的网络输入层，通过计算得到每个神经元的输出，其中每个神经元的计算方法相同，可以是由其输入的线性组合得到，最终在输出层得到实际输出，即对应的曲谱，可以通过与预期输出结果比较得到每个输出单元的误差，得到的误差需要从输出层向输入层传播，前面一层单元的误差可以通过和它连接的后面一层的所有单元的误差计算所得，同时可以对网络权重和神经元偏置进行调整。对于每个语音数据，如果最终的输出误差小于预设的可以接受的范围或者预设的迭代次数阈值，则对下一个语音数据继续进行上述处理，这样，进行不断训练，得到语音谱曲模型。终端设备获取到待处理的语音数据后，可以将该语音数据输入到上述语音识别模型中进行语音谱曲，得到语音谱曲结果。

在步骤S350，输出所述待处理的语音数据和获取的曲谱。

具体地，如图4所示，终端设备可在该语音数据处理的应用程序的首页中的输出框的预设位置显示待处理的语音数据的文本和获取的曲谱，图4中“XXXX”表示语音数据的文本，“a a a…”表示曲谱。

需要说明的是，待处理的语音数据的文本和获取的曲谱可以对应显示，如文本中的第一个字符对应曲谱中的第一个曲符，文本中的第二个字符对应曲谱中的第二个和第三个曲符等。

另外，该语音数据处理的应用程序的首页中还可包括播放曲谱的按键，当用户需要收听该曲谱时，可点击该按键，终端设备播放该曲谱。为了提高用户体验，在播放曲谱时，还可以播放用户输入的待处理的语音数据，这样，用户可通过终端设备的播放，了解语音数据和曲谱之间的匹配程度。

本发明实施例提供的语音数据的处理方法，一方面，通过从获取的待处理的语音数据分割成多个预设时长的数据段，从任一数据段中获取相应的声学特征信息，并根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱，从而可快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验；另一方面，通过将待处理的语音数据和获取的曲谱输出显示，并可通过播放该曲谱，使得用户可以了解语音数据和曲谱之间的匹配程度，提高用户体验。

实施例三

基于相同的技术构思，图5是示出根据本发明实施例三的语音数据的处理装置的逻辑框图。参照图5，所述处理装置包括语音数据获取模块510、声学特征获取模块520和曲谱获取模块530，其中，语音数据获取模块510与声学特征获取模块520相连接，声学特征获取模块520与曲谱获取模块530相连接。

语音数据获取模块510用于获取待处理的语音数据。

声学特征获取模块520用于从语音数据获取模块510获取的待处理的语音数据中获取相应的声学特征信息。

曲谱获取模块530用于根据声学特征获取模块520获取的声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱。

本发明实施例提供的语音数据的处理装置，通过从获取的待处理的语音数据中获取相应的声学特征信息，并根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱，从而可快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验。

进一步地，在图5所示实施例的基础上，如图6所示的曲谱获取模块530包括：信息查找单元531，用于根据声学特征获取模块520获取的声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值；曲谱获取单元532，用于将信息查找单元531查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。

进一步地，在图6所示实施例的基础上，如图7所示的处理装置还包括：曲谱输出模块540，用于输出所述待处理的语音数据和获取的曲谱。

优选地，声学特征获取模块520用于根据语音数据获取模块510获取的待处理的语音数据的采样时间，将所述待处理的语音数据分割成多个预设时长的数据段，从任一数据段中提取相应的声学特征信息。

进一步地，本发明实施例提供的语音数据的处理装置，一方面，通过从获取的待处理的语音数据分割成多个预设时长的数据段，从任一数据段中获取相应的声学特征信息，并根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱，从而可快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验；另一方面，通过将待处理的语音数据和获取的曲谱输出显示，并可通过播放该曲谱，使得用户可以了解语音数据和曲谱之间的匹配程度，提高用户体验。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音数据的处理方法，其特征在于，所述处理方法包括：

获取待处理的语音数据；

从所述待处理的语音数据中获取相应的声学特征信息；

根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱。

2.根据权利要求1所述的处理方法，其特征在于，所述根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱的处理包括：

根据所述声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值；

将查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。

3.根据权利要求2所述的处理方法，其特征在于，所述处理方法还包括：

输出所述待处理的语音数据和获取的曲谱。

4.根据权利要求1所述的处理方法，其特征在于，所述从所述待处理的语音数据中获取相应的声学特征信息的处理包括：

根据所述待处理的语音数据的采样时间，将所述待处理的语音数据分割成多个预设时长的数据段，从任一数据段中获取相应的声学特征信息。

5.根据权利要求1所述的处理方法，其特征在于，所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。

6.一种语音数据的处理装置，其特征在于，所述处理装置包括：

语音数据获取模块，用于获取待处理的语音数据；

声学特征获取模块，用于从所述语音数据获取模块获取的待处理的语音数据中获取相应的声学特征信息；

曲谱获取模块，用于根据所述声学特征获取模块获取的声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱。

7.根据权利要求6所述的处理装置，其特征在于，所述曲谱获取模块包括：

信息查找单元，用于根据所述声学特征获取模块获取的声学特征信息查找所述预先存储的基准声学特征曲谱表中所在的基准声学特征信息范围值；

曲谱获取单元，用于将所述信息查找单元查找到的基准声学特征信息范围值对应的曲谱作为所述待处理的语音数据对应的曲谱。

8.根据权利要求7所述的处理装置，其特征在于，所述处理装置还包括：

曲谱输出模块，用于输出所述待处理的语音数据和获取的曲谱。

9.根据权利要求6所述的处理装置，其特征在于，所述声学特征获取模块用于：

根据所述语音数据获取模块获取的待处理的语音数据的采样时间，将所述待处理的语音数据分割成多个预设时长的数据段，从任一数据段中提取相应的声学特征信息。

10.根据权利要求6所述的处理装置，其特征在于，所述基准声学特征曲谱表中包括音阶、音调、半音阶、半音调和/或长音。