CN106611603A

CN106611603A - 一种音频处理方法及装置

Info

Publication number: CN106611603A
Application number: CN201510701330.8A
Authority: CN
Inventors: 刘培; 牟伟成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2017-05-03

Abstract

本发明提供一种音频处理方法和装置，可应用于K歌系统中，首先分别获取相同语音内容的标准音频文件和用户输入的比对音频文件，然后获取所述比对音频文件与所述标准音频文件的匹配程度，之后，根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对应不同的显示文本信息。该方案中根据用户输入的比对音频文件与标准音频文件的匹配程度来选择显示文本信息，避免了现有技术中只显示一个分数用户很难明确自己唱歌的水平的问题，针对用户的唱歌水平给出多样性的文字提示，使得用户可以更好的了解其水平，提高了用户体验，有其适用于K歌系统中。

Description

一种音频处理方法及装置

技术领域

本发明涉及声电领域，具体涉及一种音频处理方法及装置。

背景技术

K歌是目前很受欢迎的娱乐项目之一，K歌软件由于方便使用，也很受欢迎。k歌软件其实就电脑录音软件，把用户自己的歌声融入在软件提供的伴奏中，之后可以用软件进行免费的卡拉音频效果处理和ok音频编辑，比如背景噪音处理、音频数据编辑、混音设置等。全民k歌是一款由腾讯公司出品的k歌软件，具有智能打分、专业混音、好友擂台、趣味互动以及社交分享功能。在K歌录歌页面，用户可以对着歌词，播放伴奏来录制歌曲。用户在唱歌、录歌的过程中，全民K歌系统中还具有为用户唱歌打分的分数展示区。

无论是全民K歌线上的版本，还是行业内的K歌产品，在唱歌的过程中一般会使用分数来帮助用户感知自己这一句唱的怎么样，以便于用户的改进和提高。但不同的K歌系统对分数的定义不同，总分数设置的也不同，因此只通过一个分数用户很难明确自己唱歌的水平，用户体验性差。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的k歌评测方法中用户很难明确自己的歌唱水平使得用户体验性差的缺陷，从而提供一种提高了用户体验性的音频处理方法和系统。

本实施例中提供一种音频处理方法，包括如下步骤：

分别获取相同语音内容的标准音频文件和用户输入的比对音频文件；

获取所述比对音频文件与所述标准音频文件的匹配程度；

根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对应不同的显示文本信息。

优选地，所述获取所述比对音频文件与所述标准音频文件的匹配程度的步骤，包括

提取所述标准音频文件位于起始时刻和结束时刻之间的第一音调信息；

提取所述比对音频文件位于起始时刻和结束时刻之间的第二音调信息；

将所述第二音调信息与所述第一音调信息进行比较，以得到所述第二音调信息与所述第一音调信息的相似度。

优选地，不同的相似度区间对应不同的显示文本信息。

优选地，还包括获取所述标准音频文件的音频发出者的信息，所述显示文本信息与所述音频发出者相对应。

优选地，所述显示文本信息和/音频发出者的信息存储在内容分发网络服务器中。

此外，本发明还提供一种音频处理装置，包括：

输入单元，分别获取相同语音内容的标准音频文件和用户输入的比对音频文件；

匹配单元，获取所述比对音频文件与所述标准音频文件的匹配程度；

文本显示单元，根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对应不同的显示文本信息。

优选地，所述匹配单元包括

第一音调信息提取子单元，提取所述标准音频文件位于起始时刻和结束时刻之间的第一音调信息；

第二音调信息提取子单元，提取所述比对音频文件位于起始时刻和结束时刻之间的第二音调信息；

相似度计算子单元，将所述第二音调信息与所述第一音调信息进行比较，以得到所述第二音调信息与所述第一音调信息的相似度。

优选地，所述显示单元中，不同的相似度区间对应不同的显示文本信息。

优选地，还包括音频发出者显示单元，获取所述标准音频文件的音频发出者的信息，所述显示文本信息与所述音频发出者相对应。

优选地，所述显示文本信息存储在内容分发网络服务器中。

本发明技术方案，具有如下优点：

1.本发明提供的音频处理方法，首先分别获取相同语音内容的标准音频文件和用户输入的比对音频文件，然后获取所述比对音频文件与所述标准音频文件的匹配程度，之后，根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对应不同的显示文本信息。该方案中根据用户输入的比对音频文件与标准音频文件的匹配程度来选择显示文本信息，避免了现有技术中只显示一个分数用户很难明确自己唱歌的水平的问题，针对用户的唱歌水平给出多样性的文字提示，使得用户可以更好的了解其水平，提高了用户体验。

2.本发明所述的音频处理方法，通过将来自比对音频文件的第二音调信息与来自标准音频文件的第一音调信息进行比较，以得到所述第二音调信息与所述第一音调信息的相似度，从而客观地体现出用户的水平，为用户了解其自身水平提供客观依据。

3.本发明所述的音频处理方法，还包括获取所述标准音频文件的音频发出者的信息，所述显示文本信息与所述音频发出者相对应。所述标准音频文件的音频发出者也就是该歌曲对应的歌手，由于不同的歌手具有不同的风格，因此将显示文本信息与歌手的信息相对应，可以选择与歌手风格一致的文本显示信息，使得显示文本的针对性更强，具有更好的用户体验。

4.本发明所述的音频处理方法，将显示文本信息和/音频发出者的信息存储在内容分发网络服务器中，可以提高资源的利用率，减少用户在首次获取歌手信息和显示文本信息时的时间。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中手机上的K歌应用系统的示意图；

图2为本发明实施例1中的音频处理方法的流程图；

图3为本发明实施例1中的K歌系统的界面示意图；

图4为本发明实施例1中的比对音频文件与所述标准音频文件的匹配程度的流程图；

图5为本发明实施例2中的音频处理装置的结构框图；

图6为本发明实施例2中的音频处理装置的匹配单元的结构框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种音频处理方法，可用于KTV的K歌系统中，也可以应用于手机、电脑等智能设备的K歌应用系统中，还可以应用于网络中在线的K歌网页中。如图1给出了一种用于手机上的K歌应用系统，该音频处理方法可应用该K歌系统中。在该K歌系统中，预先存储有若干歌曲的伴奏音乐，以及每首伴奏音乐的标准音频文件，这些标准音频文件也就是歌曲的原唱的音频信息，可以通过midi格式的音乐来存储。

本实施例中的音频处理方法，流程图如图2所示，包括以下步骤：

S1、分别获取相同语音内容的标准音频文件和用户输入的比对音频文件。

标准音频文件和用户输入的比对音频文件都是针对同一首歌曲，标准音频文件是当前选定歌曲的原唱歌手的音频文件，一般预存为midi格式。用户输入的比对音频文件也就是用户演唱的音频文件，当然此处可以是用户实时演唱的音频文件，也可以是用户预先录制好的音频文件，可以选用常用的wav音频格式。此处音频文件的长度可以是用户演唱的一句歌曲或几句歌曲。

S2、获取所述比对音频文件与所述标准音频文件的匹配程度。

该步骤中比对音频文件与所述标准音频文件的匹配程度可以有多种获取方式，如可以采用现有技术中的打分方法，为比对音频文件打分，分数越高说明匹配程度越高。

S3、根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对应不同的显示文本信息。

根据步骤S2中得到的匹配程度，获取与其相对应的显示文本信息。此处不同的匹配程度区间对应不同的显示文本信息，在界面上预留有显示文本信息的空间。例如匹配程度为大于80％，则对应的显示文本信息为称赞，如“太棒了”“歌王”“赞一个”等信息；如匹配程度为60％-80％，则对应的显示文本为鼓励，如“还不错”“唱的还可以”等信息；如匹配程度小于60％，则对应的显示文本为激励，如“加油啊”“继续努力吧”“有待提高”等。匹配区间的大小可以根据匹配程度的计算方式来设置，如果匹配程度的要求较高，很难达到较高的匹配程度，则可以将匹配区间的阈值设置的低一些；如果匹配程度的要求不是很高，则可以相应地调整匹配区间的阈值。

该方案中根据用户输入的比对音频文件与标准音频文件的匹配程度来选择显示文本信息，避免了现有技术中只显示一个分数用户很难明确自己唱歌的水平的问题，针对用户的唱歌水平给出多样性的文字提示，使得用户可以更好的了解其水平，提高了用户体验。

作为进一步优化的实施方案，还可以在用户唱歌之前也显示相应的文本信息，用于提示并鼓励用户开始进行唱歌，如“期待你的表现”。在用户唱完之间也可以显示相应的结束文本信息，提示用户已经唱完并给出总体评价。

作为进一步的实现方案，还可以获取所述标准音频文件的音频发出者的信息，此处的音频发出者也就是该歌曲的原唱的歌手信息，如歌手的头像、名称、歌手形式的动画等信息，歌手的头像或形象动画可以通过图片或动画的形式显示在界面上。为了使得用户获取最佳的用户体验，可以将所述显示文本信息与所述音频发出者相对应，也就是针对每位歌手的性格特点和语言习惯，设置个性化的显示文本信息，当用户唱歌时，根据其唱歌情况，给出对应的情感化的鼓励文案，使得用户的体验性更好，可以客观的获得其演唱水平，也增加了趣味性。在显示界面上，可将歌手的头像信息和显示的文本信息共同展示，更加直观。如图3给出了一个该K歌系统的界面，可以显示歌曲的信息、歌手信息以及对应该歌手和当前演唱者的演唱水平的显示文本信息，下方还可以显示当前演唱者录入的声音的波形和滚动的歌词。

在上述方法的实现过程中，可以采用json配置文件的形式管理文案，文案可以分为几个状态，如：开始、称赞、鼓励、激励、结束，还可以包括分数显示。每种状态配置一种规则，如称赞的规则为两次分数大于90。还可以针对每个歌手设置一个头像或者动作，每种状态对应不同的文本信息，如称赞状态下，可以针对歌手的语言习惯设置为“你好棒”“太棒了”等。

例如一个完整的json样式如下：

[{“state”:“praise”,“rule”:“scroe>90&&score1>90”,“avatar”:“http://abc.com/sample.png”,“terms”:[“你好棒”,“继续加油哦”]}]

可以借助有限状态机的原理，在录音的过程中，歌手会在生命周期出现如下的状态变化：开始->[称赞，鼓励，报告分数]->结束。

作为其他可以替换的实施方案，上述步骤S2中获取所述比对音频文件与所述标准音频文件的匹配程度的步骤，还可以通过如下过程来实现，流程图如图4所示：

S21、提取所述标准音频文件位于起始时刻和结束时刻之间的第一音调信息。

标准音频文件和比对音频文件的起始时刻和结束时刻都是对应的，先提取标准音频文件位于起始时刻和结束时刻之间的音频文件，midi格式的音频文件中记录了其音频的变化等信息，从中可以获取其音调的信息，作为第一音调信息。

S22、提取所述比对音频文件位于起始时刻和结束时刻之间的第二音调信息。

比对音频文件是录入的用户的音频信息，可以是WAV等语音格式，通过去噪等处理后，获取与标准音频文件时间相对应的位于起始时刻和结束时刻之间的音频信号，然后通过基频检测算法如基于自相关的基频检测算法，可以得到该音频信号的音调高低的信息，作为第二音调信息。

S23、将所述第二音调信息与所述第一音调信息进行比较，以得到所述第二音调信息与所述第一音调信息的相似度。

将上述第二音调信息与所述第一音调信息进行比较时，可以通过比较其幅值的变化率、频率变化等方面，确定第二音调信息与所述第一音调信息的相似度，采用不同的比较方式相似度会略有不同，但差别大不。

通过该相似度来表征这两个音频文件的匹配程度，在步骤S3中不同的相似度区间对应不同的显示文本信息，通过相似度的大小可获得其对应的相似度区间，从而获取其对应的显示文本信息进行显示。此外，也可以将当前歌曲对应的歌手信息共同展示，也可以采用上述方案中选择与符合歌手特点的显示文本信息和歌手的头像共同显示。

作为进一步优化的方案，上述显示文本信息(如各种现实信息)和音频发出者的信息(即歌手的头像、动作等信息)存储在内容分发网络服务器中。为了提高资源获取的效率，减少用户在首次获取歌手文案资源的时间，所有的歌手文案，头像等资源均存放在CDN(内容分发网络)服务器中。此外，每次音乐播放都加在歌手头像，语句等信息会导致用户等待时间过长，因此，还可以采用缓存的措施，将新的歌手信息缓存到本地，有效地减少了网络请求的时间。歌手文案由一个工厂类如定义为SingerExpressionFactory来管理，当需要获取一个歌手文案时，该类会先从本地查找，找到直接返回，查找失败，会发起网络请求，然后将结果保存本地再返回。当用户在唱歌时，不再只能干瘪的数字反馈，同时可以获得来自这首歌原唱的情感化表达，让唱歌这件事情变得更加富于情感化和趣味性。

实施例2

本实施例中提供一种音频处理装置，结构框图如图5所示，可用于KTV系统中，包括：

输入单元1，分别获取相同语音内容的标准音频文件和用户输入的比对音频文件；

匹配单元2，获取所述比对音频文件与所述标准音频文件的匹配程度；

文本显示单元3，根据所述匹配程度获取对应的显示文本信息，不同的匹配程度区间对应不同的显示文本信息。

其中，所述匹配单元结构框图如图6所示，包括

第一音调信息提取子单元21，提取所述标准音频文件位于起始时刻和结束时刻之间的第一音调信息；

第二音调信息提取子单元22，提取所述比对音频文件位于起始时刻和结束时刻之间的第二音调信息；

相似度计算子单元23，将所述第二音调信息与所述第一音调信息进行比较，以得到所述第二音调信息与所述第一音调信息的相似度。

其中，所述显示单元中，不同的相似度区间对应不同的显示文本信息。

进一步优选地，所述显示文本信息存储在内容分发网络服务器中。

本实施中的音频处理装置，根据用户输入的比对音频文件与标准音频文件的匹配程度来选择显示文本信息，避免了现有技术中只显示一个分数用户很难明确自己唱歌的水平的问题，针对用户的唱歌水平给出多样性的文字提示，使得用户可以更好的了解其水平，提高了用户体验

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种音频处理方法，其特征在于，包括如下步骤：

获取所述比对音频文件与所述标准音频文件的匹配程度；

2.根据权利要求1所述的方法，其特征在于，所述获取所述比对音频文件与所述标准音频文件的匹配程度的步骤，包括

3.根据权利要求2所述的方法，其特征在于，不同的相似度区间对应不同的显示文本信息。

4.根据权利要求1所述的方法，其特征在于，还包括获取所述标准音频文件的音频发出者的信息，所述显示文本信息与所述音频发出者相对应。

5.根据权利要求1-4任一所述的方法，其特征在于，所述显示文本信息和/音频发出者的信息存储在内容分发网络服务器中。

6.一种音频处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述匹配单元包括

8.根据权利要求7所述的装置，其特征在于，所述显示单元中，不同的相似度区间对应不同的显示文本信息。

9.根据权利要求6或7或8所述的装置，其特征在于，还包括音频发出者显示单元，获取所述标准音频文件的音频发出者的信息，所述显示文本信息与所述音频发出者相对应。

10.根据权利要求6-9任一所述的装置，其特征在于，所述显示文本信息存储在内容分发网络服务器中。