WO2023088156A1

WO2023088156A1 - 一种声速矫正方法以及装置

Info

Publication number: WO2023088156A1
Application number: PCT/CN2022/131002
Authority: WO
Inventors: 张磊; 简旻捷; 郭臻鸿
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-11-22
Filing date: 2022-11-10
Publication date: 2023-05-25
Anticipated expiration: 2024-05-22
Also published as: CN116148769A

Abstract

一种声速矫正方法以及装置，方法包括：矫正声源向麦克风阵列（11）发送声速矫正信号（601），声源定位设备（1）通过麦克风阵列（11）接收声速矫正信号，并根据矫正声源与麦克风阵列（11）的空间相对位置，以及声速矫正信号确定目标声速（602）。声源定位设备（1）不需要进行人脸识别，并且可以一次性确定目标声速，减少声速矫正的计算量以及提高声速矫正的实时性。

Description

一种声速矫正方法以及装置

本申请要求于2021年11月22日提交中国专利局、申请号为202111382634.4、发明名称为“一种矫正声速的方法和会议系统”的中国专利申请的优先权，以及要求于2021年12月31日提交中国专利局、申请号为CN202111672798.0、发明名称为“一种声速矫正方法以及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及音频处理领域，尤其涉及一种声速矫正方法以及装置。

背景技术

会议终端中常会用到麦克风阵列对与会人进行拾音和声源定位，从而对与会人的位置进行定位与跟踪，实现音幕，导播等功能。其中，声速是麦克风阵列声源定位算法中重要参数之一，声速的大小依赖于环境温度的高低，在实际会议场景中，由于温度的变化，声速变化范围可在337-350m/s之间，影响对与会人定位的准确定位与跟踪。

当前采用人脸识别对声速进行矫正的方式，通过人脸识别确定说话人角度，简称人脸角度，麦克风阵列基于预设声速进行声源定位测量出说话人角度，简称声音角度，以人脸角度为基准，通过对声速的不断微调，使得声音角度与人脸角度的差值在预设范围内，则可以确定当前实际的声速。但是，由于人脸识别使用的图像识别计算量大，而且需要不断调节声速导致声源定位的实时性差。

发明内容

本申请提供了一种声速矫正方法以及装置，用于减少声速矫正的计算量以及提高声速矫正的实时性。

本申请第一方面提供了一种声速矫正方法，该方法包括：通过麦克风阵列接收来自矫正声源的声速矫正信号；确定目标声速，目标声速与麦克风阵列和矫正声源的空间相对距离，及声速矫正信号相关。

上述方面中，本申请实施例的执行主体可以为声源定位设备，会议会场可以设置有一个矫正声源，该矫正声源可以输出声速矫正信号，声源定位设备中包括的麦克风阵列可以采集该声速矫正信号。其中，声速矫正信号可以用来计算麦克风阵列中麦克风之间的时延，声源定位设备可以再获得矫正声源和麦克风阵列的位置信息，并基于该位置信息确定矫正声源和麦克风阵列的空间相对距离，然后基于时间和距离的关系获得目标声速。声源定位设备不需要进行人脸识别，且可以一次性确定目标声速，减少声速矫正的计算量以及提高声速矫正的实时性。

在一个可能的实施方式中，声速矫正信号为超声波或第一声音，第一声音的频率在预设频段范围之外，上述步骤通过麦克风阵列接收来自矫正声源的声速矫正信号包括：通过麦克风阵列实时接收来自矫正声源的声速矫正信号。

上述可能的实施方式中，声速矫正信号为超声波时，矫正声源为超声波发射器，由于人体无法听到超声波，因此，超声波发射器可以实时输出声速矫正信号，不影响会议现场与会人的语音信号；声速矫正信号为第一声音时，此时矫正声源可以是扬声器，预设频段范围为人的发声范围，声源定位设备在进行声源定位的时候只针对人的发声频段范围的声音进行定位，因此第一声音不会影响声源定位，此时声源定位设备同样可以实时接收声速矫正信号更新目标声速，提高目标声速的准确度。

在一个可能的实施方式中，声速矫正信号为第二声音，第二声音的频率在预设频段范围之内，上述步骤通过麦克风阵列接收来自矫正声源的声速矫正信号包括：通过麦克风阵列周期性接收来自矫正声源的声速矫正信号。

上述可能的实施方式中，声速矫正信号为第二声音时，此时矫正声源可以是扬声器，预设频段范围为人的发声频段范围，因第二声音的频段与人的发声频段范围重叠，声源定位设备同一时间采集第二声音和人声容易使得声源定位不准确，若会议现场有人发声，此时扬声器只能周期性发送第二声音给麦克风阵列，声源定位设备周期性矫正目标声速，岔开会议时间，提高声源定位的准确度。当会议现场外的人通过会议现场内的扬声器发声(远端单讲)，会议现场内无人讲话时，该远端单讲时扬声器发出的声音也可以作为第二声音，此时声源定位设备无需自行提供第二声音。

在一个可能的实施方式中，声速矫正信号用于确定麦克风阵列中麦克风之间的时延，目标声速与空间相对距离成正比关系，目标声速与时延成反比关系。

上述可能的实施方式中，声源定位设备通过麦克风阵列接收到声速矫正信号后，可以统计麦克风阵列中不同麦克风之间收到声速矫正信号的时延，然后基于矫正声源和不同麦克风之间的空间相对距离的差值确定目标声速，由于矫正声源和不同麦克风之间的空间相对距离的差值固定，则时延越低，目标声速越高，提供一种确定目标声速的方式，直接确定目标声速，提高实时性。

在一个可能的实施方式中，该方法还包括：通过摄像头获取矫正声源的位置；根据矫正声源的位置和麦克风阵列的位置确定空间相对距离。

上述可能的实施方式中，矫正声源的位置除了可以是预先输入的，还可以是声源定位设备通过摄像头采集图像并进行图像识别获得的，通过图像中矫正声源的位置与预先输入的麦克风阵列的位置的几何关系获得空间相对距离，提高方案的灵活性。

在一个可能的实施方式中，上述步骤根据矫正声源的位置和麦克风阵列的位置确定空间相对距离包括：根据矫正声源的位置确定矫正声源在三维空间坐标系中的第一坐标；根据麦克风阵列的位置确定麦克风阵列在三维空间坐标系中的第二坐标；根据第一坐标和第二坐标的几何关系确定空间相对距离。

上述可能的实施方式中，声源定位设备根据矫正声源的位置和麦克风阵列的位置确定空间相对距离的方式可以是通过建立一个三维空间坐标系，使得矫正声源和麦克风阵列在该三维空间坐标系中都有坐标，然后基于坐标与坐标之间的几何运算关系即可获得该空间相对距离，提高距离计算的准确度。

在一个可能的实施方式中，该方法还包括：根据目标声速进行声源定位。

上述可能的实施方式中，声源定位设备在确定目标声速后，可以采用该目标声速对会议现场的与会人的位置进行声源定位，减少了温度对声源定位的影响，提高了声源定位的准确度。

本申请第二方面提供了一种声速矫正装置，可以实现上述第一方面或第一方面中任一种可能的实施方式中的方法。该装置包括用于执行上述方法的相应的单元或模块。该装置包括的单元或模块可以通过软件和/或硬件方式实现。该装置例如可以为网络设备，也可以为支持网络设备实现上述方法的芯片、芯片系统、或处理器等，还可以为能实现全部或部分网络设备功能的逻辑模块或软件。

本申请第三方面提供了一种计算机设备，包括：处理器，该处理器与存储器耦合，该存储器用于存储指令，当指令被处理器执行时，使得该装置实现上述第一方面或第一方面中任一种可能的实施方式中的方法。该装置例如可以为网络设备，也可以为支持网络设备实现上述方法的芯片或芯片系统等。

本申请第四方面提供了一种计算机可读存储介质，该计算机可读存储介质中保存有指令，当该指令被执行时，使得计算机执行前述第一方面或第一方面任一种可能的实施方式提供的方法。

本申请第五方面提供了一种计算机程序产品，计算机程序产品中包括计算机程序代码，当该计算机程序代码被执行时，使得计算机执行前述第一方面或第一方面任一种可能的实施方式提供的方法。

附图说明

图1为本申请实施例提供的一种声源定位装置的结构示意图；

图2为本申请实施例提供的一种均匀直线麦克风阵列的结构示意图；

图3为本申请实施例提供的一种均匀圆形麦克风阵列的结构示意图；

图4为本申请实施例提供的一种均匀球面形麦克风阵列的结构示意图；

图5为本申请实施例提供的一种三维均匀直线麦克风阵列的结构示意图；

图6为本申请实施例提供的一种声速矫正方法的流程示意图；

图7为本申请实施例提供的一种时延估计流程示意图；

图8为本申请实施例提供的一种声源定位示意图；

图9为本申请实施例提供的另一种声源定位示意图；

图10为本申请实施例提供的一种声速矫正流程示意图；

图11为本申请实施例提供的一种矫正声源的位置示意图；

图12为本申请实施例提供的一种矫正声源与麦克风阵列的空间相对距离的示意图；

图13为本申请实施例提供的另一种矫正声源的位置示意图；

图14为本申请实施例提供的另一种矫正声源与麦克风阵列的空间相对距离的示意图；

图15为本申请实施例提供的另一种矫正声源的位置示意图；

图16为本申请实施例提供的另一种矫正声源与麦克风阵列的空间相对距离的示意图；

图17为本申请实施例提供的一种声速矫正装置的结构示意图；

图18为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

本申请实施例提供了一种声速矫正方法以及装置，用于减少声速矫正的计算量以及提高声速矫正的实时性。

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

首先对本申请实施例提供的一些概念做解释说明。

麦克风阵列(microphone array)：一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。

远端单讲：来自远端的发音，由本端的扬声器输出语音信号。

mean(·)表示求平均，argmax(f(s))表示当f(s)最大时s的值。

本申请提供的声源矫正方法可以由声源定位设备执行，应用于各种需要进行拾音的场景，例如，视频通话、语音通话、多人会议、录音或者录视频等场景。

首先介绍本申请提供的声源定位设备，该声源定位设备可以包括多种可以进行拾音的终端，该终端可以包括大屏会议终端、电视、平板电脑、头戴显示设备(head mount display，HMD)、增强现实(augmented reality，AR)设备，混合现实(mixed reality，MR)设备、个人数字助理(personal digital assistant，PDA)、平板型电脑、车载电子设备、膝上型电脑(laptop computer)、个人电脑(personal computer，PC)、监控设备、机器人、车载终端、穿戴设备或者自动驾驶车辆等。当然，在以下实施例中，该终端以大屏会议终端为例。

示例性地，声源定位装置(或者也可以称为拾音装置)的结构可以如图1所示，该声源定位设备1可以包括麦克风阵列11和处理器12。

麦克风阵列11可以包括多个麦克风组成的阵列，用于采集语音信号。该多个麦克风组成的结构可以包括集中式阵列结构，也可以包括分布式阵列结构。例如，当用户发出的语音声压超过音源检测阈值，则通过麦克风阵列来采集语音信号，每个麦克风可以形成一路语音信号，多路语音信号融合后形成当前环境下采集到的数据。

本申请中的麦克风可以为普通的全向麦克风，且多个麦克风按照一定的拓扑结构组成的麦克风阵列可以为任意阵列形式，如8个普通全向麦克风组成的如附图2所示的均匀直线麦克风阵列，相邻麦克风之间的距离为d；如8个普通全向麦克风组成的如附图3所示的均匀圆形麦克风阵列，相邻麦克风与圆心的连线的夹角为o；如18个普通全向麦克风组成的如附图4所示的均匀球面形麦克风阵列，再如10个普通全向麦克风组成的如附图5所示的三维均匀直线麦克风阵列，每一维度上相邻麦克风之间的距离为d，本实施例中以多个普通全向麦克风组成的均匀直线麦克风阵列为例。

处理器12可以用于对麦克风阵列采集到的数据进行处理，从而提取出声源对应的语音数据。可以理解为，可以通过该处理器12执行本申请提供的声源矫正方法的步骤。

可选地，该声源定位设备可以包括八爪鱼会议设备、物联网(internet of things，IoT)、智能音箱或智能机器人等设备。

请参阅图6，如图6所示为本申请实施例提供的一种声速矫正方法，该方法的流程具体如下所述。

步骤601.矫正声源向麦克风阵列发送声速矫正信号，相应的，声源定位设备通过麦克风阵列接收来自矫正声源的声速矫正信号。

本实施例中，可以在会议会场设置一个矫正声源，该矫正声源可以输出声速矫正信号，声源定位设备中包括的麦克风阵列可以采集该声速矫正信号。其中，该声速矫正信号可以为任意的声波信号，即可以选取任意的声波信号用来参与声速矫正流程。

具体的，麦克风阵列在处于麦克风拾取范围内的所有声波信号。麦克风的拾音距离可根据具体的应用环境来确定，如房间大小为长5米、宽10米、高4米，则可以要求麦克风阵列对该房间内的所有声音进行处理，麦克风的拾音距离应至少为10米。

通常，麦克风阵列通常可以采集声压超过一定阈值的声波信号，如语音的声压超过阈值，以下将该阈值统称为音源检测阈值，未超过阈值的声波信号通常丢弃。通常，音源检测阈值越高，拾音灵敏度越低，声源检测阈值越低，拾音灵敏度越高。

步骤602.声源定位设备确定目标声速，目标声速与麦克风阵列和矫正声源的空间相对距离，及声速矫正信号相关。

本实施例中，声源定位设备通过麦克风阵列获得该声速矫正信号后，可以先获得矫正声源和麦克风阵列的位置信息，并基于该位置信息确定矫正声源和麦克风阵列的空间相对距离，而声速矫正信号可以用来计算麦克风阵列中麦克风之间的时延，因此，基于时间和距离的关系即可获得目标声速。

矫正声源的位置可以是预先确定的，即用户设置好矫正声源后将矫正声源的位置信息输入到矫正声源中。该矫正声源的位置还可以是声源定位设备通过摄像头采集图像并进行图像识别获得的，声源定位设备通过图像中矫正声源的位置与预先输入的麦克风阵列的位置的几何关系获得空间相对距离，此处不作限定。

具体的，声源定位设备确定空间相对距离的方式可以是在麦克风阵列的拾音范围内的三维空间中设置三维空间坐标系，该三维空间坐标系的原点可以是在拾音范围的任意位置，示例性的，本实施例中，三维空间坐标的原点可以为麦克风阵列的中心位置，也可以为麦克风阵列中的任意一个麦克风的位置，或其他位置。在确定三维空间坐标系后，可以根据麦克风阵列和矫正声源在三维空间坐标系中的位置确定各麦克风的第二坐标和矫正声源的第一坐标，相应的，即可基于各麦克风的第二坐标和矫正声源的第一坐标之间的几何关系获得矫正声源和麦克风阵列的空间相对距离。

矫正声源的第一坐标可以用(s _x,s _y,s _z)，麦克风阵列的第二坐标可以用

表示，其中，n＝1,2,…,M,M为麦克风数量。

声源定位设备通过麦克风阵列接收到声速矫正信号后，可以统计麦克风阵列中不同麦克风之间收到声速矫正信号的时延，然后基于矫正声源和不同麦克风之间的空间相对距离的差值确定目标声速，其中，由于矫正声源和不同麦克风之间的空间相对距离的差值固定，则时延越低，目标声速越高。

具体的，目标声速估计可通过以下方程组得出：

其中，t _ij代表第i个麦克风与第j个麦克风之间的时延，

代表第i个麦克风与第j个麦克风之间估计出来的声速，

代表总的声速估计，t _ij的数量越多，则

越准确。其中，对于直线型的麦克风阵列，除了第1个麦克风的其他麦克风之间的时延都可以由不同j值的t _1j的差值获得，例如t ₂₃＝t ₁₃-t ₁₂，因此直线型的麦克风阵列可以只计算

的声速。

其中，t _ij的估计可以采用广义互相关函数(Generalized Cross Correlation,GCC)方法。具体的流程图可以参照图7所示，图7为本申请实施例提供的时延估计流程图，该流程如下：步骤701：第i个麦克风和第j个麦克风接收声速矫正信号，不同麦克风收到的声速矫正信号的相位不同；步骤702：对第i个麦克风的声速矫正信号进行快速傅里叶变换(fast fourier transform,FFT)获得信号1,对第j个麦克风的声速矫正信号进行FFT并共进行轭运算获得信号2；步骤703：将信号1和信号2进行卷积获得信号3；步骤704：对信号3进行功率谱加权获得信号4；步骤705：对信号4进行快速傅里叶逆变换(inverse fast fourier transform，IFFT)获得信号5；步骤706：将信号5的峰值对应的时延作为第i个麦克风与第j个麦克风之间的时延。

具体的，GCC方法的计算公式为：

其中，ψ _ij(ω)为加权函数，常用值为

为互频谱(信号3)，τ为时延差参数，ω为角速度，

的计算方式为：

其中，X _i(ω)为第i个麦克风收到的信号的时频谱(信号1)，

为第j个麦克风收到的信号的时频谱共轭(信号2)。则时延估计计算方式为：

本申请实施例中，该矫正声源可以是扬声器或者超声波发射器，此处不作限定。当矫正声源为超声波发射器时，此时声速矫正信号为超声波，由于人体无法听到超声波，因此，超声波发射器可以实时输出声速矫正信号，相应的，声源定位设备可以实时接收声速矫正信号更新目标声速，进一步减少温度对声源定位的影响，提高声速矫正的实时性。例如图8所示的一种声源定位示意图，步骤801：麦克风阵列拾音和采样；步骤802：采用高通滤波器提取声速矫正信号，采用低通滤波器提取人声信号；步骤803：对声速矫正信号估计时延，并确定目标声速；步骤804：基于目标声速对人声信号进行声源定位。

当矫正声源为扬声器时，该扬声器可以是由声源定位设备控制的，也可以是其他设备控制的，此处不作限定。其中，该扬声器输出的声音可以是频率在预设频段范围之外的第一声音，其中，人的发声范围是在100Hz(男低音)到10kHz(女高音)之间，则预设频段范围可以设置为100Hz至10kHz，假如此时第一声音的频率为18kHz，则该第一声音与人声的频段不重叠，不影响声源定位设备对人声的采集，此时声源定位设备同样可以实时接收声速矫正信号更新目标声速。例如图9所示的另一种声源定位示意图，步骤901：麦克风阵列拾音和采样；步骤902：采用带通滤波器提取声速矫正信号(示例性的，带通滤波器采集的频段可以是10kHz-20kHz)，采用低通滤波器提取人声信号；步骤903：对声速矫正信号估计时延，并确定目标声速；步骤904：基于目标声速对人声信号进行声源定位。

当该扬声器输出的声音频率在该预设频段范围内时，声源定位设备只能周期性更新目标声速，将扬声器输出声速矫正信号的时间与会议现场的声源定位的声源输出信号的时间错开，避免声源定位受到影响。

正常会议中往往存在远端单讲的情况，当声源定位设备的扬声器输出远端单讲的语音信号时，由于该扬声器的位置已确认，因此可以直接对远端单讲的语音信号和扬声器的位置确定目标声速，作为后续声源定位的参数输入，此时无需由本地再去提供声速矫正信号。示例性的，在不配置声速矫正信号的情况下，矫正声速的流程可以参照图10所示的声速矫正流程示意图。步骤1001:确定当前是否为远程单讲，若是则执行步骤1002，若否则执行步骤1003；步骤1002：基于当前扬声器输出的语音信号执行确定目标声速的操作；步骤1003：基于当前的目标声速进行声源定位。

本申请实施例中对矫正声源的位置不作限定。具体的，当矫正声源由声源定位设备控制时，如果麦克风阵列内置于声源定位设备，该矫正声源可以是内置于该声源定位设备，请参阅图11，如图11所示为本申请实施例提供的一种矫正声源的位置示意图，该矫正声源可以在声源定位设备中的任意位置，如图11中虚线圆圈的任意一个位置，以其中一个位置为例，此时矫正声源与麦克风阵列的空间相对距离如图12所示。当麦克风阵列外置于声源定位设备时，该矫正声源可以内置于麦克风阵列，请参阅图13，如图13所示为本申请实施例提供的另一种矫正声源的位置示意图，该矫正声源可以是在麦克风阵列中的任意位置，如图13中虚线圆圈的任意位置。在另一种方式中，该矫正声源还可以外置于麦克风阵列，该矫正声源可以与声源定位设备相接也可以不相接，此处不作限定，以其中一个位置为例，此时矫正声源与麦克风阵列的空间相对距离如图14所示。请参阅图15，如图15所示为本申请实施例提供的另一种矫正声源的位置示意图，该矫正声源可以设置于声源定位设备之外的任意位置，此时麦克风阵列不限于内置于声源定位设备或者外置与声源定位设备，以其中一个位置为例，此时矫正声源与麦克风阵列的空间相对距离如图16所示。

声源定位设备在确定目标声速后，可以采用该目标声速对会议现场的与会人的位置进行声源定位，减少了温度对声源定位的影响，提高了声源定位的准确度。

矫正声源向麦克风阵列发送声速矫正信号，声源定位设备通过麦克风阵列接收该声速矫正信号，并根据该矫正声源与麦克风阵列的空间相对位置，以及该声速矫正信号确定目标声速，声源定位设备不需要进行人脸识别，并且可以一次性确定目标声速，减少声速矫正的计算量以及提高声速矫正的实时性。

上面讲述了声速矫正方法，下面对执行该方法的装置进行描述。

请参阅图17，如图17所示为本申请实施例提供的一种声速矫正装置，该装置170包括：

接收单元1701，用于通过麦克风阵列接收来自矫正声源的声速矫正信号；

确定单元1702，用于确定目标声速，目标声速与麦克风阵列和矫正声源的空间相对距离，及声速矫正信号相关。

可选的，声速矫正信号为超声波或第一声音，第一声音的频率在预设频段范围之外，接收单元1701具体用于：通过麦克风阵列实时接收来自矫正声源的声速矫正信号。

可选的，声速矫正信号为第二声音，第二声音的频率在预设频段范围之内，通接收单元1701具体用于：通过麦克风阵列周期性接收来自矫正声源的声速矫正信号。

可选的，声速矫正信号用于确定麦克风阵列中麦克风之间的时延，目标声速与空间相对距离成正比关系，目标声速与时延成反比关系。

可选的，装置170还包括：获取单元1703，获取单元1703具体用于：通过摄像头获取矫正声源的位置；确定单元1702还用于：根据矫正声源的位置和麦克风阵列的位置确定空间相对距离。

可选的，确定单元1702具体用于：根据矫正声源的位置确定矫正声源在三维空间坐标系中的第一坐标；根据麦克风阵列的位置确定麦克风阵列在三维空间坐标系中的第二坐标；根据第一坐标和第二坐标的几何关系确定空间相对距离。

可选的，装置170还包括定位单元1704，定位单元1704具体用于：根据目标声速进行声源定位。

装置170的接收单元1701用于执行图6中的步骤601，装置170的确定单元1702用于执行图6中的步骤602，此处不再赘述。

图18所示，为本申请的实施例提供的计算机设备180的一种可能的逻辑结构示意图。计算机设备180包括：处理器1801、通信接口1802、存储系统1803以及总线1804。处理器1801、通信接口1802以及存储系统1803通过总线1804相互连接。在本申请的实施例中，处理器1801用于对计算机设备180的动作进行控制管理，例如，处理器1801用于执行图6的方法实施例中声源定位设备所执行的步骤。通信接口1802用于支持计算机设备180进行通信。存储系统1803，用于存储计算机设备180的程序代码和数据。

其中，处理器1801可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1801也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。总线1804可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图18中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

装置170中的接收单元1701相当于计算机设备180中的通信接口1802，装置170中的确定单元1702、获取单元1703和定位单元1704相当于计算机设备180中的处理器1801。

本实施例的计算机设备180可对应于上述图6方法实施例中的声源定位设备，该计算机设备180中的通信接口1802可以实现上述图6方法实施例中的声源定位设备所具有的功能和/或所实施的各种步骤，为了简洁，在此不再赘述。

应理解以上装置中单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且装置中的单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分单元以软件通过处理元件调用的形式实现，部分单元以硬件的形式实现。例如，各个单元可以为单独设立的处理元件，也可以集成在装置的某一个芯片中实现，此外，也可以以程序的形式存储于存储器中，由装置的某一个处理元件调用并执行该单元的功能。此外这些单元全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件又可以成为处理器，可以是一种具有信号的处理能力的集成电路。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路实现或者以软件通过处理元件调用的形式实现。

在一个例子中，以上任一装置中的单元可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital singnal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)，或这些集成电路形式中至少两种的组合。再如，当装置中的单元可以通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，CPU)或其它可以调用程序的处理器。再如，这些单元可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在本申请的另一个实施例中，还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当设备的处理器执行该计算机执行指令时，设备执行上述方法实施例中声源定位设备所执行的方法。

在本申请的另一个实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中。当设备的处理器执行该计算机执行指令时，设备执行上述方法实施例中声源定位设备所执行的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种声速矫正方法，其特征在于，包括：

通过麦克风阵列接收来自矫正声源的声速矫正信号；

确定目标声速，所述目标声速与所述麦克风阵列和所述矫正声源的空间相对距离，及所述声速矫正信号相关。
根据权利要求1所述的方法，其特征在于，所述声速矫正信号为超声波或第一声音，所述第一声音的频率在预设频段范围之外，所述通过麦克风阵列接收来自矫正声源的声速矫正信号包括：

通过麦克风阵列实时接收来自矫正声源的声速矫正信号。
根据权利要求1所述的方法，其特征在于，所述声速矫正信号为第二声音，所述第二声音的频率在预设频段范围之内，所述通过麦克风阵列接收来自矫正声源的声速矫正信号包括：

通过麦克风阵列周期性接收来自矫正声源的声速矫正信号。
根据权利要求1-3所述的方法，其特征在于，所述声速矫正信号用于确定所述麦克风阵列中麦克风之间的时延，所述目标声速与所述空间相对距离成正比关系，所述目标声速与所述时延成反比关系。
根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

通过摄像头获取所述矫正声源的位置；

根据所述矫正声源的位置和所述麦克风阵列的位置确定所述空间相对距离。
根据权利要求5所述的方法，其特征在于，所述根据所述矫正声源的位置和所述麦克风阵列的位置确定所述空间相对距离包括：

根据所述矫正声源的位置确定所述矫正声源在三维空间坐标系中的第一坐标；

根据所述麦克风阵列的位置确定所述麦克风阵列在所述三维空间坐标系中的第二坐标；

根据所述第一坐标和所述第二坐标的几何关系确定所述空间相对距离。
根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标声速进行声源定位。
一种声速矫正装置，其特征在于，包括：

接收单元，用于通过麦克风阵列接收来自矫正声源的声速矫正信号；

确定单元，用于确定目标声速，所述目标声速与所述麦克风阵列和所述矫正声源的空间相对距离，及所述声速矫正信号相关。
根据权利要求8所述的装置，其特征在于，所述声速矫正信号为超声波或第一声音，所述第一声音的频率在预设频段范围之外，所述接收单元具体用于：

通过麦克风阵列实时接收来自矫正声源的声速矫正信号。
根据权利要求8所述的装置，其特征在于，所述声速矫正信号为第二声音，所述第二声音的频率在预设频段范围之内，所述接收单元具体用于：

通过麦克风阵列周期性接收来自矫正声源的声速矫正信号。
根据权利要求8-10所述的装置，其特征在于，所述声速矫正信号用于确定所述麦克风阵列中麦克风之间的时延，所述目标声速与所述空间相对距离成正比关系，所述目标声速与所述时延成反比关系。
根据权利要求8-11任一项所述的装置，其特征在于，所述装置还包括：获取单元，所述获取单元具体用于：

通过摄像头获取所述矫正声源的位置；

所述确定单元还用于：根据所述矫正声源的位置和所述麦克风阵列的位置确定所述空间相对距离。
根据权利要求12所述的装置，其特征在于，所述确定单元具体用于：

根据所述矫正声源的位置确定所述矫正声源在三维空间坐标系中的第一坐标；

根据所述麦克风阵列的位置确定所述麦克风阵列在所述三维空间坐标系中的第二坐标；

根据所述第一坐标和所述第二坐标的几何关系确定所述空间相对距离。
根据权利要求8-13任一项所述的装置，其特征在于，所述装置还包括定位单元，所述定位单元具体用于：

根据所述目标声速进行声源定位。
一种计算机设备，其特征在于，包括：处理器，所述处理器与存储器耦合，

所述处理器用于执行所述存储器中存储的指令，使得所述计算机设备执行如权利要求1至7中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令被执行时，使得计算机执行如权利要求1至7中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品中包括计算机程序代码，其特征在于，当所述计算机程序代码在计算机上运行时，使得计算机实现如权利要求1至7中任一项所述的方法。