CN116403592A

CN116403592A - 一种语音增强方法、装置、电子设备、芯片及存储介质

Info

Publication number: CN116403592A
Application number: CN202310450463.7A
Authority: CN
Inventors: 杨修祥
Original assignee: Zeku Technology Shanghai Corp Ltd
Current assignee: Weiguang Co ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-07

Abstract

本申请实施例公开了一种语音增强方法、装置、电子设备、芯片及存储介质，该方法包括：在用户佩戴第一耳机的情况下，获取第一耳机的麦克风采集的第一气导信号，以及第一耳机的振动传感器采集的第一骨传导信号；将第一气导信号和所述第一骨传导信号输入到基于神经网络的语音重建单元，输出重建语音信号。这样，通过振动传感器采集骨传导信号，骨传导信号为一种低频段语音信号，相比于具有较宽频段的气导语音信号，对空气传输的环境噪声相对不敏感，具有较强的抗干扰性，进一步的将骨传导信号和气导信号输入到语音重建单元，利用神经网络强大的学习能力实现语音重建，得到清晰纯净的重建语音信号，提高语音重建效果。

Description

一种语音增强方法、装置、电子设备、芯片及存储介质

技术领域

本申请涉及语音处理技术，尤其涉及一种语音增强方法、装置、电子设备、芯片及存储介质。

背景技术

目前，使用通话设备进行沟通交流已经成为人们的日常行为，真无线立体声(TrueWireless Stereo，TWS)耳机凭借着其小巧易携带的优点，很好地适应于各种场景。然而在使用耳机进行通话时，通话质量常常会受到多种噪声的影响，期望语音会与不相关的背景噪声混在一起，甚至淹没在背景噪声中，因此需要设计相应算法抑制或降低噪声干扰提取期望语音。

语音增强技术主要目的在于将被淹没在噪声中的期望信号提取出来，并提高期望语音的可懂度与清晰度。按照麦克风个数划分，语音增强技术可以被分为单通道与多通道语音增强技术，单通道语音增强技术往往利用语音信号的统计分布特征，估计噪声特性；或者利用神经网络实现单通道语音增强。而多通道语音增强技术可以利用麦克风采集语音信号的空间信息，利用波束形成方法实现指定方向的信号增强，相比单通道处理技术可以利用更多的信息量，提高处理效果。

然而，由于麦克风抗噪能力较差，使得现有的语音增强技术的增强效果受到极大限制。

发明内容

为解决上述技术问题，本申请实施例期望提供一种语音增强方法、装置、电子设备、芯片及存储介质。

本申请的技术方案是这样实现的：

第一方面，提供了一种语音增强方法，包括：

在用户佩戴第一耳机的情况下，获取所述第一耳机的麦克风采集的第一气导信号，以及所述第一耳机的振动传感器采集的第一骨传导信号；

将所述第一气导信号和所述第一骨传导信号输入到基于神经网络的语音重建单元，输出重建语音信号。

第二方面，提供了一种语音增强装置，包括：

获取单元，用于在检测到用户佩戴第一耳机的情况下，获取所述第一耳机的麦克风采集的第一气导信号，以及所述第一耳机的振动传感器采集的第一骨传导信号；

语音重建单元，用于基于神经网络对所述第一气导信号和所述第一骨传导信号进行语音重建，输出重建语音信号。

第三方面，提供了一种电子设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行前述方法的步骤。

第四方面，提供了一种芯片，包括：处理器，配置为从存储器中调用并运行计算机程序，执行前述方法的步骤。

第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

本申请实施例中提供了一种语音增强方法、装置、电子设备、芯片及存储介质，该方法包括：在用户佩戴第一耳机的情况下，获取所述第一耳机的麦克风采集的第一气导信号，以及所述第一耳机的振动传感器采集的第一骨传导信号；将所述第一气导信号和所述第一骨传导信号输入到基于神经网络的语音重建单元，输出重建语音信号。这样，通过振动传感器采集骨传导信号，骨传导信号为一种低频段语音信号，相比于具有较宽频段的气导语音信号，对空气传输的环境噪声相对不敏感，具有较强的抗干扰性，进一步的将骨传导信号和气导信号输入到语音重建单元，利用神经网络强大的学习能力实现语音重建，得到清晰纯净的重建语音信号，提高语音重建效果。

附图说明

图1为本申请实施例中语音增强方法的第一流程示意图；

图2为本申请实施例中语音增强方法的第二流程示意图；

图3为本申请实施例中语音增强单元的网络结构示意图；

图4为本申请实施例中语音增强方法的第三流程示意图；

图5为本申请实施例中语音增强方法的第四流程示意图；

图6为本申请实施例中语音增强装置的组成结构示意图；

图7为本申请实施例中电子设备的组成结构示意图；

图8为本申请实施例中芯片的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

本申请实施例中提供了一种语音增强方法，应用于电子设备。在一些实施例中，电子设备可以为耳机。示例性的，耳机类型可以为入耳式耳机、头戴式耳机、有线耳机、无线耳机等任一形式的耳机。耳机具体可以为TWS耳机。，耳机可以包括处理器、存储器、通信装置、扬声器、麦克风、骨传导传感器、加速度传感器等等。

在另一些实施例中，电子设备还可以为与耳机建立连接的设备。例如，包括诸如手机、可穿戴设备、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)等移动设备。

图1为本申请实施例中语音增强方法的第一流程示意图，如图1所示，该方法具体可以包括：

步骤101：在用户佩戴第一耳机的情况下，获取第一耳机的麦克风采集的第一气导信号，以及第一耳机的振动传感器采集的第一骨传导信号；

其中，第一气导信号的频段为第一频段，第一骨传导信号的频段为第二频段，第一频段高于第二频段，或者，第二频段和第一频段的低频部分重合。

需要说明的是，耳机组件包括左耳机和右耳机。在一些实施例中，左耳机和右耳机独立存在时，第一耳机可以为左耳机或者右耳机，第一耳机包括麦克风和振动传感器，在用户佩戴第一耳机可以理解为一种单耳佩戴状态。在一些实施例中，左耳机和右耳机视为一个整体时第一耳机也可以为耳机组件，左耳机和/或右耳机设置麦克风，左耳机和/或右耳机设置振动传感器。

声音的传播介质包括固体、空气等。也就是说，声波至少可通过两条路径传入内耳，包括空气传导和骨传导。

麦克风可以是气导麦克风，耳机可采用一个或多个气导麦克风实时采集通过空气传导的声音信号，包括耳机周围的环境噪声以及说话人发出的通过空气传导的声音信号。

振动传感器可以为骨传导传感器、加速度传感器等用于采集说话人从声带传输到骨骼的振动信号。相比气导麦克风可以在嘈杂的环境获得更为清晰的说话人低频语音信号，以增强气导信号低频部分，且抗人声干扰性能更佳。

在一些实施例中，第一耳机还包括用于检测佩戴状态的传感器，用于检测第一耳机的佩戴信号，根据佩戴信号确定用户佩戴第一耳机。

在一些实施例中，麦克风为耳内麦克风，振动传感器包括骨传导传感器、加速度传感器等具备振动检测功能的一种或多种传感器。

图2为本申请实施例中语音增强方法的第二流程示意图，如图2所示，用户佩戴TWS耳机进行录音或者通话时，耳内多个传感器包括但不限于骨传导、耳内麦克风、加速度传感器采集到说话人的语音信号，语音信号包括低频的骨传导信号和全频带的气导信号。骨传导信号通常只包含1khz以下的信号，可以保存语音信号最根本的振动信息，携带着说话人的基频信息，对环境噪声不敏感，气导信号可以采集到目标说话人的全频带语音，但是会存在着环境噪声以及干扰人声一同被采集的情况。为了进一步处理，骨传导信号与气导信号都需要进行预处理，预处理后的气导信号和骨传导信号送入语音重建网络进行重建，得到。

在一些实施例中，将第一气导信号和第一骨传导信号输入到基于神经网络的语音重建单元之前，还包括：在用户佩戴第二耳机的情况下，获取第二耳机的振动传感器采集的第二骨传导信号；根据第一骨传导信号和第二骨传导信号，确定更新后的第一骨传导信号。

在一些实施例中，将第一骨传导信号和第二骨传导信号进行融合处理，得到更新后的第一骨传导信号。在另一些实施例中，确定第一骨传导信号的第一信噪比；确定第二骨传导信号的第二信噪比；将第一信噪比和第二信噪比之间最大信噪比对应的骨传导信号作为更新后的第一骨传导信号。

在一些实施例中，将第一骨传导信号和第二骨传导信号进行融合处理，得到更新后的第一骨传导信号，包括：确定第一骨传导信号的第一信噪比；确定第二骨传导信号的第二信噪比；在第一信噪比大于或者等于第一信噪比阈值，且第二信噪比大于或者等于第一信噪比阈值的情况下，将第一骨传导信号和第二骨传导信号进行融合处理，得到更新后的第一骨传导信号。

示例性的，将第一骨传导信号和第二骨传导信号进行融合处理，得到更新后的第一骨传导信号，包括：将第一骨传导信号和第二骨传导信号进行时间对齐，得到更新后的第一骨传导信号。

进一步地，根据第一骨传导信号和第二骨传导信号，确定更新后的第一骨传导信号，还包括：在第一信噪比大于或者等于第二信噪比阈值，且第二信噪比小于第一信噪比阈值的情况下，将第一骨传导信号作为更新后的第一骨传导信号；在第一信噪比小于第一信噪比阈值，且第二信噪比大于或者等于第二信噪比阈值的情况下，将第二骨传导信号作为更新后的第一骨传导信号；其中，第二信噪比阈值大于或者等于第一信噪比阈值。

需要说明的是，信噪比大于或者等于第一信噪比阈值，表征采集到的骨传导信号均为有效，可以进行信号融合。信噪比小于第一信噪比阈值，表征采集到的骨传导信号噪声较大，不能用于语音重建。

在一些实施例中，将第一气导信号和第一骨传导信号输入到基于神经网络的语音重建单元之前，还包括：在用户佩戴第二耳机的情况下，获取第二耳机的麦克风采集的第二气导信号；根据第一气导信号和第二气导信号，确定更新后的第一气导信号。

在一些实施例中，将第一气导信号和第二气导信号进行融合处理，得到更新后的第一气导信号。在另一些实施例中，确定第一骨传导信号的第一信噪比；确定第二骨传导信号的第二信噪比；将第一信噪比和第二信噪比之间最大信噪比对应的骨传导信号作为更新后的第一骨传导信号。

在一些实施例中，将第一气导信号和第二气导信号进行融合处理，得到更新后的第一气导信号，包括：确定第一气导信号的第一信噪比；确定第二气导信号的第二信噪比；在第一信噪比大于或者等于第三信噪比阈值，且第二信噪比大于或者等于第三信噪比阈值的情况下，将第一气导信号和第二气导信号进行融合处理，得到更新后的第一气导信号。示例性的，将第一气导信号和第二气导信号进行时间对齐，得到更新后的第一气导信号。

示例性的，将第一气导信号和第二气导信号进行融合处理，得到更新后的第一气导信号，包括：将第一气导信号和第二气导信号进行时间对齐，得到更新后的第一骨传导信号。

进一步地，根据第一气导信号和第二气导信号，确定更新后的第一气导信号，还包括：在第一信噪比大于或者等于第四信噪比阈值，且第二信噪比小于第三信噪比阈值的情况下，将第一气导信号作为更新后的第一气导信号；在第一信噪比小于第三信噪比阈值，且第二信噪比大于或者等于第四信噪比阈值的情况下，将第二气导信号作为更新后的第一气导信号；其中，第四信噪比阈值大于或者等于第三信噪比阈值。

需要说明的是，信噪比大于或者等于第三信噪比阈值，表征采集到的气导信号均为有效，可以进行信号融合。信噪比小于第三信噪比阈值，表征采集到的骨传导信号噪声较大，不能用于语音重建。

步骤102：将第一气导信号和第一骨传导信号输入到基于神经网络的语音重建单元，输出重建语音信号；

在一些实施例中，将第一气导信号和第一骨传导信号输入到基于神经网络的语音重建单元之前，该方法还包括：对第一气导信号和第一骨传导信号进行预处理；

在一些实施例中，预处理包括以下至少之一：时间对齐处理、预滤波处理、预加重处理、分帧处理。

示例性的，时间对齐处理，基于不同传感器数据的时间信息做数据对齐。

预滤波处理，对气导信号和骨传导信号进行滤波，以消除电子元件带来的热噪声。传感器除了采集说话人语音信息，还会采集电子元器件的热噪声。

预加重处理，对气导信号的高频部分进行加重，去除口唇辐射的影响，增加气导语音的高频分辨率。

分帧处理，将语音信号截取成小段，即将整个时域过程分解为无数个等长的小过程，每个小过程近似平稳(短时间内的信号可以看作是平稳的，可以截取出来做傅里叶变换)。

需要说明的是，当振动传感器包括两个以上时，对骨传导信号进行预处理包括对至少两个振动传感器采集的振动信号进行时间对齐。

需要说明的是，将第一气导信号和第一骨传导信号，或者经过预处理后的第一气导信号和第一骨传导信号，输入到基于神经网络(Neural Network，NN)的语音重建单元，利用神经网络强大的学习能力，提取语音特征，实现语音重建，能够保证语音信号各频带的完整，实现噪声的抑制甚至消除，提高语音通话质量。

示例性的，神经网络结构可以为深度神经网络(Deep Neural Network，DNN)，循环神经网络(Recurrent Neural Network，RNN)，卷积神经网络(Convolutional NeuralNetworkRNN，CNN)等网络结构。训练方式可以根据结果选择生成对抗网络(GenerativeAdversarial Network，GAN)，另外其网络层数和输入输出通道数可以根据训练结果加以调整。

基于神经网络的语音重建单元的训练阶段，损失函数可以为时域语音信号的(Mean Squared Error，MSE)、尺度不变信号失真比(Scale-invariant Signal-to-Distortion Ratio，SI_SDR)，均方对数梅尔谱(Log Mel Square，LMS)等，或者基于上述损失函数的加权值进行训练。

在一些实施例中，基于神经网络的语音重建单元包括：骨传导信号的语音特征提取子单元，编码子单元、神经网络子单元和解码子单元；

语音重建单元配置为：

将第一骨传导信号输入到语音特征提取子单元，输出第一骨传导信号的骨传导语音特征；

将第一气导信号输入到编码子单元，输出所第一气导信号的气导语音特征；

将第一骨传导语音特征和第一气导语音特征输入到神经网络子单元，输出重建语音特征；

将重建语音特征输入到解码子单元，输出重建语音信号。

需要说明的是，对骨传导语音特征提取方法包括但不限于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、滤波器组件(filterbank)、基音频率等。

在一些实施例中，编码子单元包括至少两个串联的编码层；解码子单元包括至少两个串联的解码层；

编码子单元配置为：利用第一个编码层将第一气导信号从时域转换到频域，利用后N个编码层对频域信号依次进行编码，得到气导语音特征；

解码子单元配置为：利用前N个编码层对重建语音特征依次进行解码，利用最后一个解码层将解码后的语音信号从频域转换到时域，得到重建语音信号；其中，N取正整数。

具体地，编码层可以由卷积层实现，解码层可以由反卷积层实现。

示例性的，图3为本申请实施例中语音增强单元的网络结构示意图。如图3所示，基于神经网络的语音重建单元包括：骨传导信号的语音特征提取子单元，编码子单元、神经网络子单元和解码子单元；其中，编码子单元包括：n个串联的编码层，解码子单元包括n个串联的解码层，n大于1。

将预处理后的骨传导信号以及气导信号作为网络的输入，特征提取单元对骨传导语音特征提取包括但不限于MFCC、基音频率等特征，气导信号输入后依次进入编码层，经过数个编码层后得到气导语音特征(可以通过语音向量形式表示)，将骨传导语音特征与气导语音特征一同作为该神经网络子单元的输入，进行拼接，通过神经网络子单元后再进入解码层，最后输出得到重建语音。其中，最外层的编码层1与解码层n可以使用短时傅里叶变换以及反变换实现时频转换，也可以使用卷积层等结构来实现信号不同域的转换。

这里，步骤101至步骤102的执行主体可以为第一耳机的处理器，或者为与第一耳机建立连接的设备的处理器。

采用上述技术方案，通过振动传感器采集骨传导信号，骨传导信号为一种低频段语音信号，相比于具有较宽频段的气导语音信号，对空气传输的环境噪声相对不敏感，具有较强的抗干扰性，进一步的将骨传导信号和气导信号输入到语音重建单元，利用神经网络强大的学习能力实现语音重建，得到清晰纯净的重建语音信号，提高语音重建效果。

为了能更加体现本申请的目的，在本申请上述实施例的基础上，进行进一步的举例说明，耳机组件包括第一耳机和第二耳机，第一耳机包括麦克风和振动传感器，第二耳机包括麦克风和振动传感器。如图4所示，该方法具体包括：

步骤401：在用户佩戴第一耳机的情况下，获取第一耳机的麦克风采集的第一气导信号，以及第一耳机的振动传感器采集的第一骨传导信号；

在一些实施例中，第一耳机还包括佩戴检测传感器，用于检测第一耳机的佩戴信号，根据佩戴信号确定用户佩戴第一耳机。

步骤402：在用户佩戴第二耳机的情况下，获取第二耳机的麦克风采集的第二气导信号，以及第二耳机的振动传感器采集的第二骨传导信号；

在一些实施例中，耳机组件包括左耳机和右耳机，左耳机和右耳机独立存在时，第一耳机为左耳机，第二耳机为右耳机；或者第一耳机为右耳机，第二耳机为左耳机。

在一些实施例中，左右耳机区分主副时，第一耳机为主耳机，第二耳机为副耳机；或者第一耳机为副耳机第二耳机为主耳机。

在一些实施例中，第二耳机还包括佩戴检测传感器，用于检测第二耳机的佩戴信号，根据佩戴信号确定用户佩戴第二耳机。

在一些实施例中，该方法还包括：在用户佩戴第二耳机的情况下，且确定第二耳机佩戴异常的情况下，忽略第二耳机的麦克风采集的第二气导信号，和/或，忽略第二耳机的振动传感器采集的第二骨传导信号。

在一些实施例中，若忽略第二耳机的麦克风采集的第二气导信号，将第一起导信号直接作为更新后的第一起导信号进行语音重建。若忽略第二耳机的振动传感器采集的第二骨传导信号，将第一骨传导信号直接作为更新后的第一骨传导信号进行语音重建。

步骤403：根据第一气导信号和第二气导信号，确定更新后的第一气导信号，根据第一骨传导信号和第二骨传导信号，确定更新后的第一骨传导信号；

在一些实施例中，根据第一气导信号和第二气导信号，确定更新后的第一气导信号，可以包括：将第一气导信号和第二气导信号进行融合处理，得到更新后的第一气导信号。示例性的，融合处理包括：将第一气导信号和第二气导信号进行时间对齐，得到更新后的第一气导信号。

在一些实施例中，根据第一骨传导信号和第二骨传导信号，确定更新后的第一骨传导信号，可以包括：将第一骨传导信号和第二骨传导信号进行融合处理，得到更新后的第一骨传导信号。示例性的，融合处理包括：将第一骨传导信号和第二骨传导信号进行时间对齐，得到更新后的第一骨传导信号。

可以理解的是，当处于双耳佩戴状态时，可以使用双边传感器采集数据，将第二耳机的传感器数据传输到第一耳机上与第一耳机的传感器数据进行融合做预处理，随后经过神经网络处理得到重建语音信号。示例性的，第一耳机可以为主耳机，第二耳机可以为副耳机。

在另一些实施例中，根据第一气导信号和第二气导信号，确定更新后的第一气导信号，可以包括：确定第一气导信号的第一信噪比；确定第二气导信号的第二信噪比；将第一信噪比和第二信噪比之间最大信噪比对应的气导信号作为更新后的第一气导信号。

在一些实施例中，在两只耳机处于双耳异常佩戴状态的情况下，将第一信噪比和第二信噪比之间最大信噪比对应的气导信号作为更新后的第一气导信号。

在另一些实施例中，根据第一骨传导信号和第二骨传导信号，确定更新后的第一骨传导信号，可以包括：确定第一骨传导信号的第一信噪比；确定第二骨传导信号的第二信噪比；将第一信噪比和第二信噪比之间最大信噪比对应的骨传导信号作为更新后的第一骨传导信号。

在一些实施例中，在两只耳机处于双耳异常佩戴状态的情况下，将第一信噪比和第二信噪比之间最大信噪比对应的骨传导信号作为更新后的第一骨传导信号。

步骤404：对更新后的第一气导信号和第一骨传导信号进行预处理；

步骤405：经过预处理后的第一气导信号和第一骨传导信号输入到基于神经网络的语音重建单元，输出重建语音信号。

语音重建单元配置为：

将第一气导信号输入到编码子单元，输出第一气导信号的气导语音特征；

将骨传导语音特征和气导语音特征输入到神经网络子单元，输出重建语音特征；

将重建语音特征输入到解码子单元，输出重建语音信号。

需要说明的是，对骨传导语音特征提取包括但不限于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、基音频率等特征。

这里，步骤401至步骤405的执行主体可以为第一耳机的处理器。第一耳机可以为主耳机，第二耳机可以为副耳机。当耳机处于双耳佩戴状态时，将副耳机的传感器数据传输到主耳机上，根据双边传感器采集数据确定参与语音重建的骨传导信号和气导信号，用于实现信号增强，随后经过神经网络处理得到重建语音。

为了能更加体现本申请的目的，在本申请上述实施例的基础上，进行进一步的举例说明，耳机组件包括第一耳机和第二耳机，第一耳机包括麦克风和振动传感器，第二耳机包括麦克风和振动传感器。第一耳机和第二耳机可以独立存在。图5为本申请实施例中语音增强方法的第四流程示意图，如图5所示，该方法具体可以包括：

步骤501：用户佩戴耳机；

步骤502：通话或者录音状态；

步骤503：检测耳机状态；

在通话或者录音场景下，用户佩戴上TWS耳机之后，耳机开始自测佩戴状态。

这里，状态1表示用户正确佩戴两只耳机，可以称为双耳正常佩戴状态；状态2表示用户佩戴两只耳机但存在佩戴异常，可以称为双耳异常佩戴状态。例如佩戴异常可以为一只耳机在耳朵处于错误佩戴状态，或者左右耳机带反，导致振动传感器无法正常采集信号；状态3表示单耳佩戴装置，具体可以包括：两只耳机被不同用户佩戴，只有一只耳机被一个用户佩戴。

步骤504：耳机状态为状态1，采集双边耳机信号；

当自检状态为状态1时，可以使用双边传感器采集数据，基于双边数据时间信息做数据对齐，将副耳机的数据传输到主耳机上与主耳机采集的数据进行融合做预处理。

步骤505：耳机状态为状态2，采集双边耳机信号；

当自检状态为状态2时，可以比较两只耳机采集到骨传导信号的信噪比，利用信噪比较大的骨传导信号进行语音重建，即利用信噪比较大的骨传导信号做预处理，送入神经网络提取其特征信息，在两只耳机之间共享骨传导信号，分别进行语音重建得到重建信号。

步骤506：耳机状态为状态3，采集单侧耳机信号；

当自检状态为状态3时，采集单只耳机的骨传导信号和气导信号，进行预处理和神经网络处理，得到重建语音信号。

在一些实施例中，两只耳机可以均具备信号采集，预处理和神经网络处理功能。在一些实施例中，第一耳机(例如，主耳机)具备预处理和神经网络处理功能，第一耳机将重建语音信号共享给第二耳机(例如，副耳机)。

步骤507：预处理；

步骤508：语音重建单元；

步骤509：重建语音信号。

本申请实施例提出一种利用多传感器信息的目标说话人语音增强方法，使用多个传感器包括但不限于骨传导传感器、耳内麦克风、振动传感器等采集目标说话人语音，再使用神经网络方法加以处理，避免嘈杂环境下环境噪声与其余人声的干扰，可以获得更为纯净的期望语音。

进一步地，通过对耳机的佩戴状态的检测，进而采用单边或者双边的处理算法，对于采集的骨传导信号以及气导信号进行预处理，预处理过程可以消除电子元件带来的热噪声，并且可以对气导语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。经过预处理的骨传导信号以及气导信号作为神经网络的输入，利用神经网络提取到骨传导信号携带的语音特征，辅助气导信号进行语音重建，得到纯净的期望语音。语音重建网络使用了多种不同的网络结构，可以提取到更高维度的特征以及时序信号的时间依赖性。该技术方案可以得到更好的语音重建效果。该技术方案可以产生以下有益效果：

1、通过加入骨传导传感器、耳内麦克风、振动传感器等采集目标说话人语音，多传感器信息可以更好地获取期望说话人的语音特征，得到更加纯净的恢复语音。

2.基于神经网络的语音增强方法，基于神经元强大的模拟能力，消除背景噪声以及干扰人声，清晰地提取出目标说话人语音，营造出更好的通话体验。

为实现本申请实施例的方法，基于同一发明构思本申请实施例还提供了一种语音增强装置，如图6所示，该装置60包括：

获取单元601，用于在用户佩戴第一耳机的情况下，获取第一耳机的麦克风采集的第一气导信号，以及第一耳机的振动传感器采集的第一骨传导信号；

语音重建单元602，用于基于神经网络对第一气导信号和第一骨传导信号进行语音重建，输出重建语音信号。

在一些实施例中，获取单元601，用于在用户佩戴第二耳机的情况下，获取第二耳机的振动传感器采集的第二骨传导信号；该装置还可以包括：确定单元，用于根据第一骨传导信号和第二骨传导信号，确定更新后的第一骨传导信号。

在一些实施例中，确定单元，用于将第一骨传导信号和第二骨传导信号进行融合处理，得到更新后的第一骨传导信号。

在一些实施例中，确定单元，用于确定第一骨传导信号的第一信噪比；确定第二骨传导信号的第二信噪比；在第一信噪比大于或者等于第一信噪比阈值，且第二信噪比大于或者等于第一信噪比阈值的情况下，将第一骨传导信号和第二骨传导信号进行融合处理，得到更新后的第一骨传导信号。

在一些实施例中，确定单元，用于在第一信噪比大于或者等于第二信噪比阈值，且第二信噪比小于第一信噪比阈值的情况下，将第一骨传导信号作为更新后的第一骨传导信号；在第一信噪比小于第一信噪比阈值，且第二信噪比大于或者等于第二信噪比阈值的情况下，将第二骨传导信号作为更新后的第一骨传导信号；其中，第二信噪比阈值大于或者等于第一信噪比阈值。

在一些实施例中，确定单元，用于确定第一骨传导信号的第一信噪比；确定第二骨传导信号的第二信噪比；将第一信噪比和第二信噪比之间最大信噪比对应的骨传导信号作为更新后的第一骨传导信号。

在一些实施例中，获取单元601，用于在用户佩戴第二耳机的情况下，获取第二耳机的麦克风采集的第二气导信号；

确定单元，用于根据第一气导信号和第二气导信号，确定更新后的第一气导信号。

在一些实施例中，确定单元，用于将第一气导信号和第二气导信号进行融合处理，得到更新后的第一气导信号。

在一些实施例中，确定单元，用于确定第一气导信号的第一信噪比；确定第二气导信号的第二信噪比；在第一信噪比大于或者等于第三信噪比阈值，且第二信噪比大于或者等于第三信噪比阈值的情况下，将第一气导信号和第二气导信号进行融合处理，得到更新后的第一气导信号。

在一些实施例中，确定单元，用于在第一信噪比大于或者等于第四信噪比阈值，且第二信噪比小于第三信噪比阈值的情况下，将第一气导信号作为更新后的第一气导信号；在第一信噪比小于第三信噪比阈值，且第二信噪比大于或者等于第四信噪比阈值的情况下，将第二气导信号作为更新后的第一气导信号；其中，第四信噪比阈值大于或者等于第三信噪比阈值。

在一些实施例中，确定单元，用于确定第一气导信号的第一信噪比；确定第二气导信号的第二信噪比；将第一信噪比和第二信噪比之间最大信噪比对应的气导信号作为更新后的第一气导信号。

在一些实施例中，该装置还包括：预处理单元，用于对第一气导信号和第一骨传导信号进行预处理，将预处理后的第一气导信号和第一骨传导信号发送给语音重建单元。

在一些实施例中，基于神经网络的语音重建单元602包括：骨传导信号的语音特征提取子单元，编码子单元、神经网络子单元和解码子单元；

语音重建单元602，用于将第一骨传导信号输入到语音特征提取子单元，输出第一骨传导信号的骨传导语音特征；将第一气导信号输入到编码子单元，输出第一气导信号的气导语音特征；将骨传导语音特征和气导语音特征输入到神经网络子单元，输出重建语音特征；将重建语音特征输入到解码子单元，输出重建语音信号。

在一些实施例中，麦克风为耳内麦克风，振动传感器包括以下至少之一：骨传导传感器、加速度传感器。

实际应用中，上述装置可以是第一耳机，也可以是第一耳机中的芯片，还可以是与第一耳机连接的电子设备，或者电子设备中的芯片。在本申请中，该装置可以通过或软件、或硬件、或软件与硬件相结合的方式，实现多个单元的功能，使该装置可以执行如上述任一实施例所提供的语音增强方法。且该装置的各技术方案的技术效果可以参考语音增强方法中相应的技术方案的技术效果，本申请对此不再一一赘述。

基于上述语音增强装置中各单元的硬件实现，本申请实施例还提供了一种电子设备，该电子设备为移动设备，如图7所示，该电子设备70包括：处理器701和配置为存储能够在处理器上运行的计算机程序的存储器702；

其中，处理器701配置为运行计算机程序时，执行前述实施例中的方法步骤。

当然，实际应用时，如图7所示，该电子设备70中的各个组件通过总线系统703耦合在一起。可理解，总线系统703用于实现这些组件之间的连接通信。总线系统703除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都标为总线系统703。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal ProcessingDevice)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard Disk Drive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

上述电子设备可以为耳机，还可以为与耳机建立连接的设备。耳机可以为入耳式耳机、头戴式耳机、有线耳机、无线耳机等任一形式的耳机。进一步地，耳机还可以分为左耳机和右耳机。

本申请实施例还提供了一种芯片，图8是本申请实施例的芯片的示意性结构图。图8所示的芯片800包括处理器810，处理器810可以从存储器中调用并运行计算机程序，以实现本申请实施例中的方法。

可选地，如图8所示，芯片800还可以包括存储器820。其中，处理器810可以从存储器820中调用并运行计算机程序，以实现本申请实施例中的方法。

其中，存储器820可以是独立于处理器810的一个单独的器件，也可以集成在处理器810中。

可选地，该芯片800还可以包括输入接口830。其中，处理器810可以控制该输入接口830与其他设备或芯片进行通信，具体地，可以获取其他设备或芯片发送的信息或数据。

可选地，该芯片800还可以包括输出接口840。其中，处理器810可以控制该输出接口840与其他设备或芯片进行通信，具体地，可以向其他设备或芯片输出信息或数据。

可选地，该芯片可应用于本申请实施例中的电子设备，并且该芯片可以实现本申请实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。

在示例性实施例中，本申请实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，计算机程序可由电子设备的处理器执行，以完成前述方法的步骤。

本申请实施例还提供了一种计算机程序产品，包括计算机程序指令。

可选的，该计算机程序产品可应用于本申请实施例中的电子设备，并且该计算机程序指令使得计算机执行本申请实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序。

可选的，该计算机程序可应用于本申请实施例中的电子设备，当该计算机程序在计算机上运行时，使得计算机执行本申请实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。

应当理解，在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本申请中表述“具有”、“可以具有”、“包括”和“包含”、或者“可以包括”和“可以包含”在本文中可以用于指示存在对应的特征(例如，诸如数值、功能、操作或组件等元素)，但不排除附加特征的存在。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，不必用于描述特定的顺序或先后次序。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种语音增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一气导信号和所述第一骨传导信号输入到基于神经网络的语音重建单元之前，所述方法还包括：

在用户佩戴第二耳机的情况下，获取所述第二耳机的振动传感器采集的第二骨传导信号；

根据所述第一骨传导信号和所述第二骨传导信号，确定更新后的所述第一骨传导信号。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一骨传导信号和所述第二骨传导信号，确定更新后的所述第一骨传导信号，包括：

将所述第一骨传导信号和所述第二骨传导信号进行融合处理，得到更新后的所述第一骨传导信号。

4.根据权利要求3所述的方法，其特征在于，所述将所述第一骨传导信号和所述第二骨传导信号进行融合处理，得到更新后的所述第一骨传导信号，包括：

确定所述第一骨传导信号的第一信噪比；

确定所述第二骨传导信号的第二信噪比；

在所述第一信噪比大于或者等于第一信噪比阈值，且所述第二信噪比大于或者等于所述第一信噪比阈值的情况下，将所述第一骨传导信号和所述第二骨传导信号进行融合处理，得到更新后的所述第一骨传导信号。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一骨传导信号和所述第二骨传导信号，确定更新后的所述第一骨传导信号，还包括：

在所述第一信噪比大于或者等于第二信噪比阈值，且所述第二信噪比小于所述第一信噪比阈值的情况下，将所述第一骨传导信号作为更新后的所述第一骨传导信号；

在所述第一信噪比小于所述第一信噪比阈值，且所述第二信噪比大于或者等于第二信噪比阈值的情况下，将所述第二骨传导信号作为更新后的所述第一骨传导信号；

其中，所述第二信噪比阈值大于或者等于所述第一信噪比阈值。

6.根据权利要求2所述的方法，其特征在于，所述根据所述第一骨传导信号和所述第二骨传导信号，确定更新后的第一骨传导信号，包括：

确定所述第一骨传导信号的第一信噪比；

确定所述第二骨传导信号的第二信噪比；

将所述第一信噪比和所述第二信噪比之间最大信噪比对应的骨传导信号作为更新后的所述第一骨传导信号。

7.根据权利要求1所述的方法，其特征在于，所述将所述第一气导信号和所述第一骨传导信号输入到基于神经网络的语音重建单元之前，所述方法还包括：

在用户佩戴第二耳机的情况下，获取所述第二耳机的麦克风采集的第二气导信号；

根据所述第一气导信号和所述第二气导信号，确定更新后的第一气导信号。

8.根据权利要求1-7任一项所述的方法，所述将所述第一气导信号和所述第一骨传导信号输入到基于神经网络的语音重建单元之前，所述方法还包括：

对所述第一气导信号和所述第一骨传导信号进行预处理。

9.根据权利要求8所述的方法，其特征在于，所述预处理包括以下至少之一：时间对齐处理、预滤波处理、预加重处理、分帧处理。

10.根据权利要求1-7任一项所述的方法，其特征在于，所述基于神经网络的语音重建单元包括：骨传导信号的语音特征提取子单元，编码子单元、神经网络子单元和解码子单元；

所述基于神经网络的语音重建单元配置为：

将所述第一骨传导信号输入到所述语音特征提取子单元，输出所述第一骨传导信号的骨传导语音特征；

将所述第一气导信号输入到所述编码子单元，输出所述第一气导信号的气导语音特征；

将所述骨传导语音特征和所述气导语音特征输入到神经网络子单元，输出重建语音特征；

将所述重建语音特征输入到所述解码子单元，输出所述重建语音信号。

11.根据权利要求10所述的方法，其特征在于，所述编码子单元包括至少两个串联的编码层；所述解码子单元包括至少两个串联的解码层；

所述编码子单元配置为：利用第一个编码层将所述第一气导信号从时域转换到频域，利用后N个编码层对频域信号依次进行编码，得到所述气导语音特征；

所述解码子单元配置为：利用前N个编码层对所述重建语音特征依次进行解码，利用最后一个解码层将解码后的语音信号从频域转换到时域，得到所述重建语音信号；

其中，N取正整数。

12.根据权利要求1所述的方法，其特征在于，所述麦克风为耳内麦克风，所述振动传感器包括以下至少之一：骨传导传感器、加速度传感器。

13.一种语音增强装置，其特征在于，所述装置包括：

获取单元，用于在用户佩戴第一耳机的情况下，获取所述第一耳机的麦克风采集的第一气导信号，以及所述第一耳机的振动传感器采集的第一骨传导信号；

14.一种电子设备，其特征在于，所述电子设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1至12任一项所述方法的步骤。

15.一种芯片，其特征在于，包括：处理器，配置为从存储器中调用并运行计算机程序，执行权利要求1至12任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12任一项所述方法的步骤。