CN120600047A

CN120600047A - 基于本地化处理的实时音频变音控制方法、系统及终端

Info

Publication number: CN120600047A
Application number: CN202510903166.2A
Authority: CN
Inventors: 鲁骏; 陶志刚; 方亮
Original assignee: Guangdong Dingchuangzhi Technology Co ltd
Current assignee: Guangdong Dingchuangzhi Technology Co ltd
Priority date: 2025-07-01
Filing date: 2025-07-01
Publication date: 2025-09-05

Abstract

本申请提供一种基于本地化处理的实时音频变音控制方法、系统及终端，该方法包括以下步骤：获取实体麦克风采集的实时音频数据；依据本地数据库存储的变音参数对实时音频数据进行处理并获得变音数据；将变音数据提供至实体麦克风，使实体麦克风将变音数据提供至具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音。该方法中实时音频数据的输入、变音处理操作和变音数据通过实体麦克风的输出在本地形成闭环，实现本地化变音控制，无需云端交互，不需要占用云端服务器的资源，使用成本低。

Description

基于本地化处理的实时音频变音控制方法、系统及终端

技术领域

本申请涉及音频控制技术领域，尤其涉及一种基于本地化处理的实时音频变音控制方法、系统及终端。

背景技术

随着科技的发展，AI技术的应用越来越成熟，很多领域都应用上了AI技术，例如变声领域，通过应用AI技术，用户可以用更加搞笑的声音来制作短视频，从而让用户自己的视频更有趣，吸引大家的关注。

相关技术中，需要将麦克风采集的音频数据上传至云服务器进行变音处理，再回传至客户端，如此处理需占用云端服务器的资源，增加使用成本；此外，上述变音处理方式需要联网数据上传及回传等，也需要花费较多时间，无法满足用户实时的变音处理需求。

发明内容

本申请提出一种基于本地化处理的实时音频变音控制方法、系统及终端，能够解决相关技术中因需要将麦克风采集的音频数据上传至云服务器进行变音处理，再回传至客户端，导致占用云端服务器的资源，增加使用成本和/或无法实时处理变音需求的问题。

第一方面，本申请提供一种基于本地化处理的实时音频变音控制方法；该方法包括以下步骤：

获取实体麦克风采集的实时音频数据；

依据本地数据库存储的变音参数对实时音频数据进行处理并获得变音数据；以及

将变音数据提供至实体麦克风，使实体麦克风将变音数据提供至具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音。

第二方面，本申请提供一种基于本地化处理的实时音频变音控制系统；该系统包括：

实体麦克风，用于采集用户发出的声音以得到实时音频数据；

终端，与实体麦克风通信连接，终端包括交互的本地数据库和具有语音播放功能的软件，本地数据库依据存储的变音参数对实时音频数据进行处理并获得变音数据，本地数据库还能够将变音数据发送给实体麦克风，以使实体麦克风能够将变音数据发送给具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音。

第三方面，本申请提供一种终端；该终端包括处理器、存储器以及存储在存储器中并可在处理器上运行的程序，处理器执行程序时实现上述基于本地化处理的实时音频变音控制方法的步骤。

相较于相关技术，申请中的基于本地化处理的实时音频变音控制方法，通过执行获取实体麦克风采集的实时音频数据，依据本地数据库的变音参数对实时音频数据进行处理并获得变音数据，将变音数据提供至实体麦克风，让实体麦克风将变音数据提供至具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音的步骤，可直接在终端上完成变音处理操作，且变音数据通过回传到实体麦克风，再由实体麦克风直接映射到具有语音播放功能的软件上，使实时音频数据的输入、变音处理操作和变音数据通过实体麦克风的输出在本地形成闭环，实现本地化变音控制，无需云端交互，故不需要占用云端服务器的资源，使用成本低。并且，实时音频数据依据本地数据库存储的变音参数进行变音处理以获得变音数据，如此不需要依赖稳定的网络环境，可进一步降低使用成本。另外，本地化的处理无需联网数据上传及回传等，效率较高，可以实时处理用户的变音处理需求，用户体验较高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请一种实施例中的基于本地化处理的实时音频变音控制系统的框架结构示意图；

图2为本申请一种实施例执行基于本地化处理的实时音频变音控制方法的终端的结构示意图；

图3为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图一；

图4为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图二；

图5为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图三；

图6为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图四；

图7为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图五；

图8为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图六；

图9为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图七；

图10为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图八；

图11为本申请一种实施例中的基于本地化处理的实时音频变音控制装置的框架结构示意图。

附图标记：

1、基于本地化处理的实时音频变音控制系统；11、终端；111、存储器；112、处理器；113、网络接口；114、通信总线；12、实体麦克风；13、监听设备；2、基于本地化处理的实时音频变音控制装置；21、获取模块；22、变音处理模块；23、控制模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

如前所述，相关技术中的变音处理多在云端服务器进行，需要联网、数据上传及回传等，存在成本较高、效率较低的问题，另外，可能存在一些本地变音处理的设备，但也变音效果不佳和/或用户体验不佳的问题，特别是在游戏、直播、社交聊天、影视制作等场景中的实时音频变音控制，如何给用户提供即时优质的变音处理方案是业界的一个重要技术问题。

针对以上技术问题，本申请实施例提供一种基于本地化处理的实时音频变音控制系统1，请参阅图1，图1为本申请一种实施例中的基于本地化处理的实时音频变音控制系统的框架结构示意图，如图1所示，该基于本地化处理的实时音频变音控制系统1包括终端11、实体麦克风12和监听设备13。

实体麦克风12可以为用户在例如游戏、直播、社交聊天、影视制作等场景中使用的桌面麦克风或领夹麦克风。具体地，实体麦克风12与终端11通过无线或者有线的方式通信连接，从而使实体麦克风12可以采集实时音频数据，并将实时音频数据发送至终端11。

监听设备13可以为用户在例如游戏、直播、社交聊天、影视制作等场景中使用的监听耳机或监听耳麦。具体地，监听设备13可以与终端11通过无线或者有线的方式通信连接，从而使监听设备13可以从终端11获取监听的音频数据，以供用户监听使用。

终端11可以为可进行例如游戏、直播、社交聊天、影视制作等使用的上位机，具体可以但不仅限于是平板电脑、笔记本电脑、台式电脑、超级移动个人计算机(ultra mobilepersonal computer，UMPC)、上网本等。

终端11上安装有多个应用程序(如APP、插件等)，具体包括且不限于变音软件、驱动程序等。变音软件用于对上述实体麦克风12采集的实时音频数据进行变音处理以获得变音数据。实体麦克风12采集实时音频数据，并将实时音频数据传送至终端11，终端11的变音软件对实时音频数据进行变音处理以获得变音数据，终端11可以将变音数据传送至监听设备13，使用户通过监听设备13对变音数据进行实时监听。

终端11包括交互的本地数据库和具有语音播放功能的软件，本地数据库依据存储的变音参数对实时音频数据进行处理并获得变音数据，本地数据库还能够将变音数据发送给实体麦克风12，以使实体麦克风12能够将变音数据发送给具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音。

其中，本地数据库可以是终端11内预先安装的变音软件，变音软件中预存有变音参数，利用变音软件中存储的变音参数对实时音频数据进行变音处理以得到变音数据。具有语音播放功能的软件可以但不仅限于包括抖音、快手、小红书等直播软件，具有语音播放功能的软件也可以但不仅限于包括王者荣耀、LOL等游戏软件，具有语音播放功能的软件还可以但不仅限于包括唱吧、K歌等唱歌软件。需要说明的是，本申请中的监听设备13仅用于监听用户的实时音频数据或经变音处理后得到的变音数据，且获得用户许可，不涉及其他个人隐私数据等。

请参阅图2，图2为本申请一种实施例执行基于本地化处理的实时音频变音控制方法的终端的结构示意图，如图2所示，终端11包括存储器111、处理器112、网络接口113及通信总线114。

存储器111包括至少一种类型的可读存储介质。至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，可读存储介质可以是终端11的内部存储单元，例如该终端11的硬盘。在另一些实施例中，可读存储介质也可以是终端11的外部存储器，例如终端11上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，存储器111的可读存储介质通常用于存储安装于终端11的基于本地化处理的实时音频变音控制方法的程序。存储器111还可以用于暂时地存储已经输出或者将要输出的数据。

处理器112在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器111中存储的程序代码或处理数据，例如执行基于本地化处理的实时音频变音控制系统1的程序等。

网络接口113可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该终端11与其他终端之间建立通信连接。

通信总线114用于实现存储器111、处理器112和网络接口113之间的连接通信。

需要说明的是，图2仅示出了包括存储器111、处理器112、网络接口113和通信总线114的终端11，但是本领域技术人员应理解的是，这并不构成对终端11的限定，终端11还可以包括比图示更多或更少的部件，或者组合某些部件。

该终端11还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响等，用户接口还可以包括标准的有线接口、无线接口。

可选地，该终端11还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在终端11中处理的信息以及用于显示可视化的用户界面。

可选地，该终端11还包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该终端11的显示器的面积可以与触摸传感器的面积相同，也可以不同。可选地，将显示器与触摸传感器层叠设置，以形成触摸显示屏，使该终端11基于触摸显示屏侦测用户触发的触控操作。

可选地，该终端11还可以包括射频(Radio Frequency，RF)电路等，在此不再赘述。

在图2所示的终端11实施例中，处理器112执行存储器111中存储的基于本地化处理的实时音频变音控制方法的程序时，实现图3所示的步骤S101-步骤S103。

请参阅图3，图3为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图一，以下结合图3，对基于本地化处理的实时音频变音控制方法的步骤S101-步骤S103进行展开介绍。

步骤S101：获取实体麦克风12采集的实时音频数据。

具体地，实体麦克风12可以为用户在例如游戏、直播、社交聊天、影视制作等场景中使用的桌面麦克风或领夹麦克风。实体麦克风12用于采集用户发出的声音以得到实时音频数据，实体麦克风12可通过有线或者无线的方式与终端11通讯连接，以将所采集到的实时音频数据发送至终端11。

步骤S102：依据本地数据库存储的变音参数对实时音频数据进行处理并获得变音数据。

具体地，变音数据是实时音频数据经过变音处理后得到的数据。本地数据库可以是终端11内预先安装的变音软件，变音软件中预存有变音参数，利用变音软件中存储的变音参数对实时音频数据进行变音处理以得到变音数据。

步骤S103：将变音数据提供至实体麦克风12，使实体麦克风12将变音数据提供至具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音。

具体地，实体麦克风12可实现变音软件和具有语音播放功能的软件之间的数据通信交互。终端11可以将经变音软件处理后得到的变音数据回传到实体麦克风12，并通过实体麦克风12将变音数据发送给具有语音播放功能的软件，最终使具有语音播放功能的软件按照变音数据进行实时播音。其中，具有语音播放功能的软件可以但不仅限于包括抖音、快手、小红书等直播软件，具有语音播放功能的软件也可以但不仅限于包括王者荣耀、LOL等游戏软件，具有语音播放功能的软件还可以但不仅限于包括唱吧、K歌等唱歌软件。

本申请实施例中的基于本地化处理的实时音频变音控制方法，通过执行获取实体麦克风12采集的实时音频数据，依据本地数据库的变音参数对实时音频数据进行处理并获得变音数据，将变音数据提供至实体麦克风12，让实体麦克风12将变音数据提供至具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音的步骤，可直接在终端11上完成变音处理操作，且变音数据通过回传到实体麦克风12，再由实体麦克风12直接映射到具有语音播放功能的软件上，使实时音频数据的输入、变音处理操作和变音数据通过实体麦克风12的输出在本地形成闭环，实现本地化变音控制，无需云端交互，故不需要占用云端服务器的资源，使用成本低。并且，实时音频数据依据本地数据库存储的变音参数进行变音处理以获得变音数据，如此不需要依赖稳定的网络环境，可进一步降低使用成本。另外，本地化的处理无需联网数据上传及回传等，效率较高，可以实时处理用户的变音处理需求，用户体验较高。

请参阅图4，图4为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图二，从图4中可以看到，上述步骤S102包括步骤S201和步骤S202：

步骤S201：对实时音频数据进行降噪处理。

具体地，可以但不仅限于利用基于频域的降噪方法对实时音频数据进行降噪处理，或者利用基于时域的降噪方法对实时音频数据进行降噪处理，或者利用基于统计模型的降噪方法对实时音频数据进行降噪处理，或者利用基于深度学习的降噪方法对实时音频数据进行降噪处理等等。当利用基于频域的降噪方法时，可以通过傅里叶变换(将时域信号转换为频域信号，分析频率成分，去除高频噪声或低频噪声)或者小波变换(对信号进行多分辨率分析，灵活处理不同频率和时间尺度上的噪声)实现对实时音频数据进行降噪处理；当利用基于时域的降噪方法时，可以通过波形阈值处理(通过设置阈值，将信号中低于阈值的部分视为噪声并去除)或者动态范围压缩(通过调整信号的动态范围，降低噪声的相对幅度)实现对实时音频数据进行降噪处理；当利用基于统计模型的降噪方法时，可以通过谱减法(假设噪声是加性噪声，通过估计噪声功率谱，从信号功率谱中减去噪声功率谱，从而恢复干净的信号)或者维纳滤波(基于最小均方误差准则，通过估计信号和噪声的功率谱，设计一个滤波器，以最小化处理后信号与原始信号之间的误差)实现对实时音频数据进行降噪处理；当利用基于深度学习的降噪方法时，可以通过卷积神经网络模型(CNN，通过卷积层提取音频信号的特征，使用全连接层进行降噪处理)或者循环神经网络模型(RNN，利用循环神经网络(如LSTM、GRU)处理音频信号的时间序列特征)实现对实时音频数据进行降噪处理。

步骤S202，依据本地数据库存储的变音参数对降噪处理后的实时音频数据进行变音处理并获得变音数据。

具体地，终端11可利用变音软件中存储的变音参数对降噪处理后的实时音频数据进行变音处理以得到变音数据。

本申请实施例通过在依据本地数据库存储的变音参数对实体麦克风12采集的实时音频数据进行变音处理之前，先对实时音频数据进行降噪处理，以有效消除实时音频数据中混入的非人声频段噪声，可有效提升变音质量。

具体地，在本申请实施例中，降噪处理包括使用循环神经网络模型(RNN)实时滤除非人声频段噪声。其中，非人声频段噪声可以但不仅限于包括电脑、手机、电视等电子设备所产生高频电磁干扰(表现为“嗡嗡”声或“滋滋”声)，非人声频段噪声也可以但不仅限于包括如风扇、空调等设备的电机运行时所产生的高频风噪或机械噪声，非人声频段噪声还可以但不仅限于包括汽车鸣笛声等环境噪声。

请参阅图5，图5为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图三，从图5中可以看到，上述步骤S202包括步骤S301-步骤S303：

步骤S301：使用自动语音识别模型提取实时音频数据的音素内容，使用自监督语音表示学习模型提取实时音频数据的音素特征。

在步骤S301中，可以理解，自动语音识别(Automatic Speech Recognition,ASR)模型是一种能够将人类的语音信号自动转换为文字的技术系统，其通过算法和机器学习技术，对语音数据进行分析和处理，从而实现语音到文字的转换。在本申请实施例中，自动语音识别模型能够对经降噪处理后的实时音频数据进行分析和处理，以实现语音到文字的转换，从而提取出音素内容(如可以为经降噪处理后的实时音频数据经分析和处理后得到的文字内容)。

可以理解，自监督语音表示学习模型是一种在无监督或弱监督条件下，通过自我生成的标签或任务来学习语音信号特征表示的深度学习方法。自监督语音表示学习模型可以但不仅限于包括Wave2Vec 2.0(是一种基于Transformer架构的自监督语音表示学习模型，由Facebook AI Research(FAIR)提出)、HuBERT(是一种基于BERT架构的自监督语音表示学习模型，由Meta AI提出)、Data2Vec(是一种通用的自监督学习框架，可以应用于语音、图像和文本等多种模态的数据)等。在本申请实施例中，自监督语音表示学习模型能够从经降噪处理后的实时音频数据中提取音素特征，其中，音素特征包括音色、口音和音调中的至少一种。

具体地，实时音频数据会被分帧，即实时音频数据被分割成一系列时间步，每个时间步对应一个高维向量(如256维)，这些高维向量不仅严格保留了音素的顺序(因为是基于时间的帧序列)，还通过上下文编码(如Transformer的self-attention机制)捕捉到韵律信息(包括节奏、停顿、重音、音素持续时间)和语流特征。此外，预训练模型(是一种深度学习模型，如Transformer架构的模型)已在大规模多说话人语料上学到的自监督任务会自动忽略说话人的音色或声线信息，从而提取出与说话人无关、但与语音内容相关的特征表示。在训练时，声学模型会将内容特征作为条件输入，预测出目标说话人的Mel频谱，从而在语音合成时重建出带有目标人声线的音频信号。

步骤S302：将音素特征转换成用户指定的理想音素特征。

在步骤S302中，本地数据库存储的变音参数包括具有不同变音音效的变音处理单元(下文有介绍)，不同的变音处理单元的音素特征不同。用户可根据实际需要(即下文介绍的变音选择指令)选择合适的变音处理单元，该合适的变音处理单元所对应的音素特征即为理想音素特征，且待合适的变音处理单元选定后，该合适的变音处理单元的理想音素特征即可替换实时音频数据的音素特征。

具体地，关于本地数据库的建立主要包括以下几个步骤：

(1)收集变音角色音频：收集指定说话人/角色的录音素材；要求在没有噪音的环境中，采样率统一为48kHz，时间大致为10分钟，覆盖多样化的说话内容、情绪和韵律的音频。

(2)数据预处理：对录入的音频进行降噪处理，把录入的音频分割成若干短音频，以避免单段信息过多、内容和韵律信息干扰音色提取。

(3)声纹编码器提取：使用预训练的Speaker Encode模型对输入的每一段音频进行声纹提取，并输出对应的固定维度的说话人向量，将得到的所有段落的说话人向量集中存储以得到变音参数。

步骤S303：使用神经网络语音合成器将音素内容和理想音素特征转换成变音数据。

在步骤S303中，神经网络语音合成器(Neural Network-based Text-to-Speech，简称TTS)是一种利用深度学习技术，特别是神经网络，将文本自动转换为自然语音的技术。神经网络语音合成器的工作原理主要包括：文本预处理阶段-文本到音素转换阶段-音素到语音特征转换阶段-语音特征到波形转换阶段。在本申请实施例中，神经网络语音合成器能够将音素内容和理想音素特征结合并生成变音数据。

具体地，神经网络语音合成器将音素内容与理想音素特征进行拼接或条件融合，声学模型利用音素内容和理想音素特征的组合，预测并生成声学Mel频谱(Mel频谱是音频信号的时间-频率表示，包含了目标说话人音色、共振峰特征、能量分布等信息)，生成的Mel频谱可以作为输入传递给声码器(Vocoder)，将其解码回波形音频，从而最终得到保留原始音素内容、但带有指定角色音色的自然音频输出，也即输出变音数据。

本申请实施例通过自动语音识别模型提取实时音频数据的音素内容，通过自监督语音表示学习模型提取实时音频数据的音素特征，根据实际需要将音素特征转换成理想音素特征，并通过神经网络语音合成器将音素内容和理想音素特征结合生成变音数据，如此可实现实时音频数据到变音数据的有效转换，从而使具有语音播放功能的软件依据变音数据进行实时播音，丰富播音效果。

当然，请参阅图6，图6为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图四，从图6中可以看到，步骤S202还可以包括位于步骤S301之前的步骤S304-步骤S306：

步骤S304：将采集到实时音频数据进行浮点转换。

步骤S305：将经浮点转换后的实时音频数据放入二维数组中。

步骤S306：提取二维数组中的实时音频数据。

当然，步骤S202还可以包括位于步骤S303之后的步骤S307：将变音数据存入缓冲区。基于此，步骤S103包括步骤S401和步骤S402：

步骤S401：从缓冲区提取变音数据。

步骤S402：将从缓冲区提取到的变音数据提供至实体麦克风12，使实体麦克风12将变音数据提供至具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音。

请参阅图7，图7为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图五，从图7中可以看到，上述步骤S102之后还包括步骤S104：

步骤S104：将变音数据提供至监听设备13以进行实时监听。

具体地，监听设备13可以但不仅限于是用户在例如游戏、直播、社交聊天、影视制作等场景中使用的监听耳机或监听耳麦。监听设备13可以与实体麦克风12通过无线或者有线的方式通信连接，从而使监听设备13从实体麦克风12获取监听的变音数据，以供用户监听使用，此时变音软件将变音数据提供至与终端11通信连接的实体麦克风12，实体麦克风12再将变音数据提供至与之通信连接的监听设备13，以使用户借助监听设备13对变音数据进行实时监听。当然，监听设备13也可以与终端11通过无线或者有线的方式通信连接，从而使监听设备13从终端11获取监听的变音数据，以供用户监听使用；此时变音软件将变音数据提供至与终端11通信连接的监听设备13，以使用户借助监听设备13对变音数据进行实时监听。

本申请实施例通过配置监听设备13，用户通过监听设备13对变音数据进行实时监听，可即时听到变音后的效果，无需等待云端处理完成，有效提升用户体验。

本地数据库存储的变音参数包括多个具有不同变音音效的变音处理单元。其中，变音音效可以但不仅限于包括音调变化、音色变化等；而音调变化可以但不仅限于包括升高音调变化或者降低音调变化等，音色变化可以但不仅限于包括卡通音效、小孩音效或者老人音效等。

请参阅图8，图8为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图六，从图8中可以看到，步骤S102包括步骤S501：

步骤S501：依据变音选择指令选择对应的变音处理单元对实时音频数据进行变音处理并获得变音数据。

在步骤S501中，变音选择指令为预设默认执行的指令或者用户通过输入设备预先设定的指令。其中，输入设备可以但不仅限于是鼠标、键盘或者触摸屏等触控设备，输入设备也可以但不仅限于是智能手机、天猫精灵、小米音响等声控设备。输入设备可以通过无线或者有线的方式与终端11通信连接，从而将变音选择指令发送至终端11，以使变音软件依据变音选择指令选择对应的变音处理单元对实时音频数据进行变音处理并获得对应的变音数据。

可以理解，变音选择指令用于决定实时音频数据的变音音效，不同的变音选择指令对应实时音频数据不同的变音音效。针对相同的实时音频数据而言，在整个变音处理过程中，实时音频数据的音素内容不变，而实时音频数据的音素特征会根据不同的变音选择指令转换成用户指定的不同的理想音素特征，音素内容与不同的理想音素特征结合生成不同变音音效的变音数据。

可以理解，每个变音选择指令至少对应一个变音处理单元。例如，以变音选择指令的数量为四个，且变音处理单元的数量为四个为例，该四个变音选择指令分别为第一变音选择指令、第二变音选择指令、第三变音选择指令和第四变音选择指令，该四个变音处理单元分别为第一变音处理单元、第二变音处理单元、第三变音处理单元和第四变音处理单元，其中，第一变音处理单元对应升高音调变化的变音音效，第二变音处理单元对应降低音调变化的变音音效，第三变音处理单元对应卡通音效的变音音效，第四变音处理单元对应小孩音效的变音音效。当每个变音选择指令只对应一个变音处理单元时，可以是第一变音选择指令对应第一变音处理单元，第二变音选择指令对应第二变音处理单元，第三变音选择指令对应第三变音处理单元，第四变音选择指令对应第四变音处理单元；此时可依据第一变音选择指令选择第一变音处理单元对实时音频数据进行升高音调变化的变音处理并获得对应的变音数据，也可依据第二变音选择指令选择第二变音处理单元对实时音频数据进行降低音调变化的变音处理并获得对应的变音数据，还可依据第三变音选择指令选择第三变音处理单元对实时音频数据进行卡通音效的变音处理并获得对应的变音数据，还可依据第四变音选择指令选择第四变音处理单元对实时音频数据进行小孩音效的变音处理并获得对应的变音数据。当每个变音选择指令对应多个(两个及两个以上)变音处理单元时，可以是第一变音选择指令对应第一变音处理单元和第三变音处理单元，此时可依据第一变音选择指令选择第一变音处理单元和第三变音处理单元对实时音频数据进行升高音调变化和卡通音效叠加的变音处理以获得对应的变音数据，也可以是第二变音选择指令对应第一变音处理单元和第四变音处理单元，此时可依据第二变音选择指令选择第一变音处理单元和第四变音处理单元对实时音频数据进行升高音调变化和小孩音效叠加的变音处理以获得对应的变音数据，还可以是第三变音选择指令对应第二变音处理单元和第三变音处理单元，此时可依据第三变音选择指令选择第二变音处理单元和第三变音处理单元对实时音频数据进行降低音调变化和卡通音效叠加的变音处理以获得对应的变音数据，还可以是第四变音选择指令对应第二变音处理单元和第四变音处理单元，此时可依据第四变音选择指令选择第二变音处理单元和第四变音处理单元对实时音频数据进行降低音调变化和小孩音效叠加的变音处理以获得对应的变音数据。

本申请实施例通过将本地数据库存储的变音参数设计成多个具有不同变音音效的变音处理单元，依据不同的变音选择指令选择对应的变音处理单元对实时音频数据进行变音处理以获得不同变音音效的变音数据，变音效果多样，可供用户多样化选择，有效提升用户体验。

请参阅图9，图9为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图七，从图9中可以看到，步骤S101之前还包括步骤S105：

步骤S105：获取用户开启变音功能的指令。

在步骤S105中，当实体麦克风12与终端11建立通信连接后，用户即可根据实际需要开启变音功能，此时终端11便可获取到用户开启变音功能的指令，只要实体麦克风12采集到实时音频数据，变音软件即可依据变音参数对实时音频数据进行变音处理以获得变音数据。

需要说明的是，由于实体麦克风12与终端11通信连接后，终端11只能识别到一个麦克风(也即实体麦克风12)，故用户只需要借助例如键盘或者鼠标等输入设备操作终端11并生成用户开启变音功能的指令，就能让变音软件依据变音参数对实时音频数据进行变音处理获得变音数据，并让变音数据通过实体麦克风12发送给具有语音播放功能的软件进行实时播音，使整个变音处理和变音数据传输的过程中，不需要用户再借助例如键盘或者鼠标等输入设备操作终端11生成除开用户开启变音功能的指令之外的其他的任何指令，操作更为简单。

具体地，基于步骤S105，步骤S101具体包括步骤S601：

步骤S601：依据用户开启变音功能的指令获取实体麦克风12采集的实时音频数据。

本申请实施例终端11通过在获取实体麦克风12采集的实时音频数据之前，确认是否获取用户开启变音功能的指令，且在确认获取用户开启变音功能的指令之后，依据本地数据库存储的变音参数对实体麦克风12所采集的实时音频数据进行变音处理，如此便于用户根据自身实际需求来选择依据变音数据进行实时播音，选择性多样，有效提升用户体验。

请参阅图10，图10为本申请一种实施例中的基于本地化处理的实时音频变音控制方法的流程示意图八，从图10中可以看到，该方法还包括步骤S106-步骤S109：

步骤S106：获取用户关闭变音功能的指令。

在步骤S106中，当实体麦克风12与终端11建立通讯连接后，用户即可根据实际需要关闭变音功能，此时终端11便可获取到用户关闭变音功能的指令。

需要说明的是，由于实体麦克风12与终端11通信连接后，终端11只能识别到一个麦克风(也即实体麦克风12)，故用户只需要借助例如键盘或者鼠标等输入设备操作终端11并生成用户关闭变音功能的指令，就能让实时音频数据通过实体麦克风12发送给具有语音播放功能的软件进行实时播音，使整个实时音频数据传输的过程中，不需要用户再借助例如键盘或者鼠标等输入设备操作终端11生成除开用户关闭变音功能的指令之外的其他的任何指令，操作更为简单。

步骤S107：依据用户关闭变音功能的指令获取实体麦克风12采集的实时音频数据。

步骤S108：将实时音频数据提供至具有语音播放功能的软件，使具有语音播放功能的软件依据实时音频数据进行实时播音。

步骤S109：将实时音频数据提供至监听设备13以进行实时监听。

在步骤S109中，监听设备13可以但不仅限于是用户在例如游戏、直播、社交聊天、影视制作等场景中使用的监听耳机或监听耳麦。具体地，监听设备13可以与终端11通过无线或者有线的方式通信连接，从而使监听设备13从终端11获取监听的实时音频数据，以供用户监听使用，此时终端11将实时音频数据提供至与终端11通信连接的监听设备13，以使用户借助监听设备13对实时音频数据进行实时监听。监听设备13也可以从实体麦克风12获取监听的实时音频数据，以供用户监听使用，此时终端11将实时音频数据提供至与终端11通信连接的实体麦克风12，实体麦克风12再将实时音频数据提供至与之通信连接的监听设备13，以使用户借助监听设备13对实时音频数据进行实时监听。

本申请实施例终端11通过在获取实体麦克风12采集的实时音频数据之前，确认是否获取用户开启变音功能的指令，且在确认获取用户关闭变音功能的指令之后，变音软件不需要对实体麦克风12所采集的实时音频数据进行变音处理，如此便于用户根据自身实际需求来选择实时音频数据进行实时播音，选择性多样，有效提升用户体验。本申请实施例通过配置监听设备13，用户通过监听设备13对实时音频数据进行实时监听，无需等待云端处理完成，有效提升用户体验。

请参阅图11，图11为本申请一种实施例中的基于本地化处理的实时音频变音控制装置的框架结构示意图，该装置2具体包括：

获取模块21，用于获取实体麦克风12采集的实时音频数据。

变音处理模块22，用于依据本地数据库存储的变音参数对实时音频数据进行处理并获得变音数据。

控制模块23，用于将变音数据提供至实体麦克风12，使实体麦克风12将变音数据提供至具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音。

本申请实施例中的基于本地化处理的实时音频变音控制装置2，获取模块21用于获取实体麦克风12采集的实时音频数据，变音处理模块22用于依据本地数据库的变音参数对实时音频数据进行处理并获得变音数据，控制模块23用于将变音数据提供至实体麦克风12，使实体麦克风12将变音数据提供至具有语音播放功能的软件，从而使具有语音播放功能的软件依据变音数据进行实时播音，如此可直接在终端11上完成变音处理操作，且变音数据通过回传到实体麦克风12，再由实体麦克风12直接映射到具有语音播放功能的软件上，使实时音频数据的输入、变音处理操作和变音数据通过实体麦克风12的输出在本地形成闭环，实现本地化变音控制，无需云端交互，故不需要占用云端服务器的资源，使用成本低。并且，实时音频数据通过变音处理模块22依据本地数据库存储的变音参数进行变音处理以获得变音数据，如此不需要依赖稳定的网络环境，可进一步降低使用成本。另外，本地化的处理无需联网数据上传及回传等，效率较高，可以实时处理用户的变音处理需求，用户体验较高。

需要说明的是，处理器112执行基于本地化处理的实时音频变音控制方法的程序时实现上述基于本地化处理的实时音频变音控制装置中各模块/单元的功能，例如图10所示的获取模块21、变音处理模块22和控制模块23。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器112执行时可实现上述基于本地化处理的实时音频变音控制方法中的步骤。

以上说明的本申请的特征性的手段可以通过集成电路来实现，并控制实现上述任意实施例中基于本地化处理的实时音频变音控制方法的功能。

在任意实施例中所述基于本地化处理的实时音频变音控制方法所能实现的功能都能通过本申请的集成电路安装于所述终端11中，使所述终端11发挥任意实施例中所述基于本地化处理的实时音频变音控制方法所能实现的功能，在此不再详述。

以下针对上述基于本地化处理的实时音频变音控制方法对用户的使用过程进行展开介绍：

用户将实体麦克风12与终端11建立通信连接。

用户将监听设备13与终端11进行通信连接。

若用户需要依据变音数据进行实时播音：用户开启变音功能，此时终端11获取到用户开启变音功能的指令，随后用户可借助键盘、鼠标、智能手机、天猫精灵、小米音响等输入设备将变音选择指令发送给终端11；用户语音输出，实体麦克风12采集实时音频数据，变音软件则依据变音选择指令选择对应的变音处理单元对实时音频数据进行变音处理并获得对应的变音数据，变音软件将变音数据回传给实体麦克风12，实体麦克风12将变音数据发送给具有语音播放功能的软件，最终具有语音播放功能的软件便可按照变音数据进行实时播音。此时，用户可借助监听设备13对变音数据进行实时监听。

若用户需要依据实时音频数据进行实时播音：用户关闭变音功能，此时终端11获取到用户关闭变音功能的指令；用户语音输出，实体麦克风12采集实时音频数据，变音软件不会对实时音频数据进行变音处理，实体麦克风12将实时音频数据发送给具有语音播放功能的软件，最终具有语音播放功能的软件便可按照实时音频数据进行实时播音。此时，用户可借助监听设备13对实时音频数据进行实时监听。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种基于本地化处理的实时音频变音控制方法，其特征在于，所述方法包括以下步骤：

获取实体麦克风采集的实时音频数据；

依据本地数据库存储的变音参数对所述实时音频数据进行处理并获得变音数据；以及

将所述变音数据提供至所述实体麦克风，使所述实体麦克风将所述变音数据提供至具有语音播放功能的软件，从而使所述具有语音播放功能的软件依据所述变音数据进行实时播音。

2.如权利要求1所述的基于本地化处理的实时音频变音控制方法，其特征在于，所述依据本地数据库存储的变音参数对所述实时音频数据进行处理并获得变音数据的步骤，包括：

对所述实时音频数据进行降噪处理；以及

依据所述本地数据库存储的所述变音参数对降噪处理后的所述实时音频数据进行变音处理并获得所述变音数据。

3.如权利要求2所述的基于本地化处理的实时音频变音控制方法，其特征在于，所述降噪处理包括使用循环神经网络模型实时滤除非人声频段噪声。

4.如权利要求2所述的基于本地化处理的实时音频变音控制方法，其特征在于，所述依据所述本地数据库存储的所述变音参数对降噪处理后的所述实时音频数据进行变音处理并获得所述变音数据的步骤，包括：

使用自动语音识别模型提取所述实时音频数据的音素内容，使用自监督语音表示学习模型提取所述实时音频数据的音素特征；其中，所述音素特征包括音色、口音和音调中的至少一种；

将所述音素特征转换成用户指定的理想音素特征；

使用神经网络语音合成器将所述音素内容和所述理想音素特征转换成所述变音数据。

5.如权利要求1所述的基于本地化处理的实时音频变音控制方法，其特征在于，所述依据本地数据库存储的变音参数对所述实时音频数据进行处理并获得变音数据的步骤之后，还包括以下步骤：

将所述变音数据提供至监听设备以进行实时监听。

6.如权利要求1所述的基于本地化处理的实时音频变音控制方法，其特征在于，所述本地数据库存储的所述变音参数包括多个具有不同变音音效的变音处理单元；所述依据本地数据库存储的变音参数对所述实时音频数据进行处理并获得变音数据的步骤，包括：

依据变音选择指令选择对应的所述变音处理单元对所述实时音频数据进行变音处理并获得所述变音数据；其中，所述变音选择指令为预设默认执行的指令或者用户通过输入设备预先设定的指令。

7.如权利要求1所述的基于本地化处理的实时音频变音控制方法，其特征在于，

所述方法还包括在所述获取实体麦克风采集的实时音频数据的步骤之前执行的获取用户开启变音功能的指令的步骤；所述获取实体麦克风采集的实时音频数据的步骤包括：依据所述用户开启变音功能的指令获取所述实体麦克风采集的所述实时音频数据。

8.如权利要求1所述的基于本地化处理的实时音频变音控制方法，其特征在于，所述方法还包括：

获取用户关闭变音功能的指令；

依据所述用户关闭变音功能的指令获取所述实体麦克风采集的所述实时音频数据；

将所述实时音频数据提供至所述具有语音播放功能的软件，使所述具有语音播放功能的软件依据所述实时音频数据进行实时播音；以及

将所述实时音频数据提供至监听设备以进行实时监听。

9.一种基于本地化处理的实时音频变音控制系统，其特征在于，包括：

终端，与所述实体麦克风通信连接，所述终端包括交互的本地数据库和具有语音播放功能的软件，所述本地数据库依据存储的变音参数对所述实时音频数据进行处理并获得变音数据，所述本地数据库还能够将所述变音数据发送给所述实体麦克风，以使所述实体麦克风能够将所述变音数据发送给所述具有语音播放功能的软件，从而使所述具有语音播放功能的软件依据所述变音数据进行实时播音。

10.一种终端，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1-8中任一所述基于本地化处理的实时音频变音控制方法的步骤。