CN118382032B

CN118382032B - 一种基于p2p的分布麦克风会议装置

Info

Publication number: CN118382032B
Application number: CN202410807436.5A
Authority: CN
Inventors: 陈尚武; 肖芳; 邬文达
Original assignee: Deep Blue Perception Hangzhou Iot Technology Co ltd
Current assignee: Deep Blue Perception Hangzhou Iot Technology Co ltd
Priority date: 2024-06-21
Filing date: 2024-06-21
Publication date: 2024-08-20
Anticipated expiration: 2044-06-21
Also published as: CN118382032A

Abstract

本发明会议技术领域，具体为一种基于P2P的分布麦克风会议装置，包括：手机麦克风模块、手机主控模块、会议终端互联模块、会议终端声音对齐选择模块、会议终端融合回音消除模块、会议终端主控模块、会议终端麦克风阵列模块和会议终端杨声器模块，本申请本申请通过手机麦克风模块获取高质量近场声音，通过会议终端声音对齐选择模块替换会议终端麦克风阵列模块获取较差远场声音，会议终端融合回音消除模块将会议终端麦克风阵列模块的回音消除参数做参考对所有声音进行回音消除，最终会议终端机部分较差声音替换上手机高质量近场声音，从而提升整个会议的音频质量。

Description

一种基于P2P的分布麦克风会议装置

技术领域

本发明会议技术领域，具体为一种基于P2P的分布麦克风会议装置。

背景技术

在现代企业中,会议作为一种重要的沟通和决策机制,被广泛运用，而为了更好的促进会议更好的进行，所以现有技术陆续出现配合会议使用的装置，现有技术中的大多通过会议终端机与麦克风的组合来实现对会议更好完成的促进，且现有会议终端机普遍使用远场阵列麦克风会议室的多人识音,阵列麦克风的波束形成技术实现远端声音，但同时也降低了音质。如果在会议室中使用手机加入会议，变成近场识音，提升识音的质量，但会议终端机产生的回音在手机无消除，所以提出一种基于P2P的分布麦克风会议装置是十分必要的。

发明内容

本发明的目的在于提供基于P2P的分布麦克风会议装置，使得在有通过手机加入会议的时候，能够更好的保证整个会议的音频质量，以解决现有的技术缺陷和不能达到的技术要求。

为实现上述目的，本发明提供如下技术方案：一种基于P2P的分布麦克风会议装置，其特征在于，包括：

手机麦克风模块:用于采集高质量的近场声音(需要说明的是，此处的近场声音包括与会人的高质量声音，以及会议终端杨声器模块所播放的远端声音)，并将近场声音转换成手机声源PCM分片数据，再将手机声源PCM分片数据发送给手机主控模块；

手机主控模块:用于接收手机麦克风模块发来的手机声源PCM分片数据，并通过wifi5G网络与会议终端互联模块连接，并把接收到的手机声源PCM分片数据实时发送给会议终端互联模块；

会议终端互联模块:用于接收手机主控模块发送来的手机声源PCM分片数据，提供wifi5G热点，并通过wifi5G网络与手机主控模块连接，最后将接收到的手机声源PCM分片数据发送给会议终端声音对齐选择模块；

会议终端声音对齐选择模块:用于接收会议终端麦克风阵列模块发送过来的所有声源(需要说明的是，此处的所有声源是麦克风阵列声源)的PCM分片数据和会议终端互联模块发送过来的手机声源PCM分片数据，并将接收到的所有声源PCM分片数据转换为声源频率分片数据，再将手机声源频率分片数据分别与麦克风阵列声源频率分片数据进行相似度比较，将具有同一声源的手机声源PCM分片数据和麦克风阵列声源PCM分片数据进行延时修正，计算出手机声源与阵列声源之间的声源时延，再将各个声源频率分片数据(指的是手机声源频率分片数据和麦克风阵列声源频率分片数据的总和)与声源时延发送给会议终端融合回音消除模块；

会议终端融合回音消除模块:用于接收会议终端主控模块的远端PCM分片数据作为消除参考，同时接收会议终端声音对齐选择模块发送过来的各个声源频率分片数据与声源时延，并对每个声源(此处每个声源包括手机声源频率数据和麦克风阵列声源频率数据)进行回音消除处理，再把经过回音消除后的所有声源频率分片数据转化成声源PCM分片数据，再将声源PCM分片数据进一步处理得到一个最终近端音频PCM分片数据，最后将近端音频PCM分片数据发送给会议终端主控模块；

会议终端主控模块:用于从网络上接收远端异地与会者的远端音频数据流，并将其音频解码为远端音频PCM分片数据，再将远端音频PCM分片数据发送给会议终端杨声器模块和会议终端融合回音消除模块，同时接收会议终端融合回音消除模块发送来的近端音频PCM分片数据，并将其进行音频解码，通过网络发送到远端异地会议设备中；

会议终端麦克风阵列模块：用于接收阵列设置的麦克风所收集到的声音(包括使用麦克风的人的声音以及使用手机的人的声音)，并将此声音转换为阵列声源PCM分片数据，再将阵列声源PCM分片数据发送到会议终端声音对齐选择模块，同时接收会议终端杨声器模块所播放的远端声音；

会议终端杨声器模块：用于接收会议终端主控模块发送来的远端音频PCM分片数据，并将远端音频PCM数据进行声音播放。

一种基于P2P的分布麦克风会议方法：包括以下步骤：

1)、手机麦克风模块采集高质量的近场声音数据，并将采集到的声音数据进行切片得到手机声源PCM分片数据，并将手机声源PCM分片数据发送给手机主控模块；

2)、手机主控模块通过wifi5G网络与会议终端互联模块连接，并将从手机麦克风模块接收过来的手机声源PCM分片数据发送给会议终端互联模块；

3)、会议终端互联模块为手机主控模块提供wifi5G热点，并将从手机主控模块接收过来的手机声源PCM分片数据发送给会议终端声音对齐选择模块；

4)、会议终端声音对齐选择模块生成频率分片数据和声音时延：

4.1)、会议终端声音对齐选择模块接收从会议终端互联模块发送过来的手机声源PCM分片数据和从会议终端麦克风阵列模块发送过来的所有声源的PCM分片数据；

4.2)、会议终端声音对齐选择模块通过傅立叶变换将接收到手机声源PCM分片数据和所有声源的PCM分片数据转换成对应的手机声源频率分片数据和麦克风阵列声源频率分片数据；

4.3)、会议终端声音对齐选择模块将手机声源频率分片数据分别与麦克风阵列声源频率分片数据进行相似度比较，确定同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据；

4.4)、会议终端声音对齐选择模块再将同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据进行时延修正，生成声音时延；

4.5)、会议终端声音对齐选择模块将步骤4.2)中两种声源频率分片数据和步骤4.4)中的声音时延发送给会议终端融合回音消除模块；

5)、会议终端融合回音消除模块对接受的数据进行回音消除，并生成近端音频PCM分片数据；

5.1)、会议终端融合回音消除模块接收会议终端主控模块的远端PCM分片数据，同时接收会议终端声音对齐选择模块发送过来的各个声源频率分片数据与声源时延；

5.2)、会议终端融合回音消除模块以远端PCM分片数据为回音消除参考，将每个声源进行回音消除；

5.3)、会议终端融合回音消除模块再将回音消除后的声源频率分片数据进行傅里叶逆变换成声源PCM分片数据；

5.4)、会议终端融合回音消除模块将近端声源PCM分片数据累加计算得到近端音频PCM分片数据；

5.5)、最后再将近端音频PCM分片数据发送给会议终端主控模块；

6)、会议终端主控模块从网络上接收远端异地与会人的远端音频数据流，同时接收会议终端融合回音消除模块发送来的近端音频PCM分片数据；

6.1)、会议终端主控模块将远端音频数据流音频解码成远端音频PCM分片数据，发送给会议终端杨声器模块；

6.2)、将近端音频PCM分片数据进行音频解码，并将其发送到网络上的远端异地会议设备中；

7)、会议终端麦克风阵列模块接收阵列设置的麦克风所收集到的声音数据，并将此声音数据进行分片，得到阵列声源分片数据，再将阵列声源分片数据发送给会议终端声音对齐选择模块，同时接收会议终端杨声器模块所播放的远端声音；

8)、议终端杨声器模块接收会议终端主控模块发送来的远端音频PCM分片数据，并将远端声音播放。

优选的，所述步骤4.2)中将所有声源PCM分片数据转化为声源频率分片数据的具体方式为：所述声音对齐选择模块将所有PCM分片数据进行128点快速傅立叶变换得到64点声源频率分片数据。

优选的，所述步骤4.3)中相似度比较的具体方式为：

4.3.1)、声音对齐选择模块按照64频率点进行逐点乘积，得到一个新的序列；

4.3.2)、将步骤4.3.1)中新序列的每个元素相加，得到手机声源的分片数据和一个麦克风阵列声源的分片数据的一个声源互相关系数；

4.3.3)、取手机声源频率分片数据和麦克风阵列声源频率分片数据得互相关系数得峰值，且该峰值大于预设阀值(此预设阀值是基于测试数据的统计分析，得出的经验参数)时，则认为此手机声源频率分片数据和对应得麦克风阵列声源频率分片数据为同一声源。

优选的，所述步骤4.4)中)将同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据进行时延修正，并生成声音时延的具体方式为：

4.4.1)、声源的PCM分片数据把手机频率分片数据和麦克风阵列一个声源历史的频率分片数据(指的是一个麦克风阵列声源的之前几个频率分片数据)按照64频率点进行逐点乘积，再得到一个新的序列；

4.4.2)、将步骤4.4.1)中新序列中的每个元素相加，得到手机与麦克风阵列一个声源历史分片互相关系数；

4.4.3)、取步骤4.4.2)中手机与麦克风阵列该声源历史分片互相关系数的峰值对应手机声源与阵列声源于之间的最佳匹配时间位置，根据峰值得位置，计算出手机声源与阵列声源之间的声源时延。

优选的，所述步骤4.4.3)中，作为会议终端声音对齐选择模块向外输出的最终声源时延为：

会议终端声音对齐选择模块将手机与麦克风阵列匹配声源的所有频率分片数据取绝对值进行累加得到分片能量值；

当手机声源频率分片数据为对应阵列声源的声源频率分片数据的分片能量值的两倍，会议终端声音对齐选择模块用手机声源频率分片数据替换对应阵列声源的声源频率分片数据,并把此手机声源频率分片数据携带上时延，这样将质量较差远场声音用高质量近场声音替换；

当麦克风阵列声源频率分片数据没有被手机声源频率分片数据替换时，则声源时延为0。

优选的，所述步骤5.2)中将每个声源进行回音消除处理的具体步骤为：

5.2.1)、会议终端融合回音消除模块对远端声音PCM分片进行128点快速傅立叶变换得到64点远端频率分片数据，并保留最近10个远端频率分片数据作为历史远端频率分片数据；

5.2.2)、会议终端融合回音消除模块选择一个声源频率(手机音源与麦克风阵列音源)分片数据与历史远端声源频率分片数据进行按照64频率点进行逐点乘积，得到一个新的序列，把这个新序列中的每个元素相加，得到近端一个声源与远端声音的历史分片互相关系数；

5.2.3)、取步骤近端一个声源与远端声音的历史分片互相关系数的峰值，根据峰值的位置计算回音消除基准时延；

5.2.4)、会议终端融合回音消除模块根据步骤5.2.3)中的回音消除基准时延计算近端各个声源频率分片数据的回音消除时延；

5.2.5)、会议终端融合回音消除模块根据步骤5.2.4)中的回音消除时延进一步计算得到一个声源的本身线性回音时延。

优选的，所述步骤5.2.3)中，计算回音消除基准时延的具体方式为：

会议终端融合回音消除模块根据峰值的位置，计算出近端一个声源的声音与远端声音之间的回音消除时延，再减去近端一个声源的声源时延得到回音消除基准时延。

优选的，所述步骤5.2.4)中，计算近端其他各个声源频率分片数据的回音消除时延的具体方式为：

会议终端融合回音消除模块将回音消除基准时延累加声源时延作为近端声源频率分片数据的回音消除时延。

优选的，所述步骤5.2.5)中，计算线性回音时延的具体方式为：

会议终端融合回音消除模块按照回音消除时延，对近端声源频率分片数据减去远端声音频率分片数据来计算，得到线性回音消除。

优选的，所述步骤7)中，会议终端麦克风阵列模块使用声源定位算法确定每个声源的位置，使用波束成形技术来获得阵列式麦克风收集到的声音数据。

本申请中，会议终端麦克风阵列模块采用多个麦克风方案，会议终端麦克风阵列模块使用声源定位算法如协方差矩阵估计法确定每个声源的位置，使用波束成形beamforming)技术，它可以根据声源方向加强来自特定方向的声音，并抑制来自其他方向的声音，实现不同声源的声音信号分离出来，会议终端麦克风阵列模块把分离不同声源的PCM数据流，进行分片得到各个声源的PCM分片数据，发送给会议终端声音对齐选择模块。

与现有技术相比，本发明的有益效果是：

1、本申请通过手机麦克风模块获取高质量近场声音，通过会议终端声音对齐选择模块替换会议终端麦克风阵列模块获取较差远场声音，会议终端融合回音消除模块将会议终端麦克风阵列模块的回音消除参数做参考对所有声音进行回音消除，最终会议终端机部分较差声音替换上手机高质量近场声音，从而提升整个会议的音频质量。

附图说明

图1为本发明的整体逻辑示意图；

图中：手机麦克风模块1、手机主控模块2、会议终端互联模块3、会议终端声音对齐选择模块4、会议终端融合回音消除模块5、会议终端主控模块6、会议终端麦克风阵列模块7、会议终端杨声器模块8。

具体实施方式

下面将结合本发明实施例中的附图1，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例：

实施例：

如图1所示：一种基于P2P的分布麦克风会议装置，包括：

手机麦克风模块1:用于采集高质量的近场声音，并将近场声音转换成手机声源PCM分片数据，再将手机声源PCM分片数据发送给手机主控模块2；

手机主控模块2:用于接收手机麦克风模块1发来的手机声源PCM分片数据，并通过wifi5G网络与会议终端互联模块3连接，并把接收到的手机声源PCM分片数据实时发送给会议终端互联模块3；

会议终端互联模块3:用于接收手机主控模块2发送来的手机声源PCM分片数据，提供wifi5G热点，并通过wifi5G网络与手机主控模块2连接，最后将接收到的手机声源PCM分片数据发送给会议终端声音对齐选择模块4；

会议终端声音对齐选择模块4:用于接收会议终端麦克风阵列模块7发送过来的所有声源的PCM分片数据和会议终端互联模块3发送过来的手机声源PCM分片数据，并将接收到的所有声源PCM分片数据转换为声源频率分片数据，再将手机声源频率分片数据分别与麦克风阵列声源频率分片数据进行相似度比较，将具有同一声源的手机声源PCM分片数据和麦克风阵列声源PCM分片数据进行延时修正，计算出手机声源与阵列声源之间的声源时延，再将各个声源频率分片数据与声源时延发送给会议终端融合回音消除模块5；

会议终端融合回音消除模块5:用于接收会议终端主控模块6的远端PCM分片数据作为消除参考，同时接收会议终端声音对齐选择模块4发送过来的各个声源频率分片数据与声源时延，并对每个声源进行回音消除处理，再把经过回音消除后的所有声源频率分片数据转化成声源PCM分片数据，再将声源PCM分片数据进一步处理得到一个最终近端音频PCM分片数据，最后将近端音频PCM分片数据发送给会议终端主控模块6；

会议终端主控模块6:用于从网络接收异地与会者的远端音频数据流，并将其音频解码为远端音频PCM分片数据，再将远端音频PCM分片数据发送给会议终端杨声器模块8和会议终端融合回音消除模块5，同时接收会议终端融合回音消除模块5发送来的近端音频PCM分片数据，并将其进行音频解码，通过网络发送到远端异地会议设备中；

会议终端麦克风阵列模块7：用于接收阵列设置的麦克风所收集到的声音，并将此声音转换为阵列声源PCM分片数据，再将阵列声源PCM分片数据发送到会议终端声音对齐选择模块4，同时接收会议终端杨声器模块8所播放的远端声音；

会议终端杨声器模块8：用于接收会议终端主控模块6发送来的远端音频PCM分片数据，并将远端声音播放。

本申请通过手机麦克风模块获取高质量近场声音，通过会议终端声音对齐选择模块4替换会议终端麦克风阵列模块获取较差远场声音，会议终端融合回音消除模块5将会议终端麦克风阵列模块7的回音消除参数做参考对所有声音进行回音消除，最终会议终端机部分较差声音替换上手机高质量近场声音，从而提升整个会议的音频质量。

一种基于P2P的分布麦克风会议方法：包括以下步骤：

1)、手机麦克风模块1采集高质量的近场声音数据，并将采集到的声音数据进行切片得到手机声源PCM分片数据，并将手机声源PCM分片数据发送给手机主控模块2；

2)、手机主控模块2通过wifi5G网络与会议终端互联模块3连接，并将从手机麦克风模块1接收过来的手机声源PCM分片数据发送给会议终端互联模块3；

3)、会议终端互联模块3为手机主控模块2提供wifi5G热点，并将从手机主控模块2接收过来的手机声源PCM分片数据发送给会议终端声音对齐选择模块4；

4)、会议终端声音对齐选择模块4生成频率分片数据和声音时延：

4.1)、会议终端声音对齐选择模块4接收从会议终端互联模块3发送过来的手机声源PCM分片数据和从会议终端麦克风阵列模块7发送过来的所有声源的PCM分片数据；

4.2)、会议终端声音对齐选择模块4通过傅立叶变换将接收到手机声源PCM分片数据和所有声源的PCM分片数据转换成对应的手机声源频率分片数据和麦克风阵列声源频率分片数据；

4.3)、会议终端声音对齐选择模块4将手机声源频率分片数据分别与麦克风阵列声源频率分片数据进行相似度比较，确定同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据；

4.4)、会议终端声音对齐选择模块4再将同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据进行时延修正，生成声音时延；

4.5)、会议终端声音对齐选择模块4将步骤4.2)中两种声源频率分片数据和步骤4.4)中的声音时延发送给会议终端融合回音消除模块5；

5)、会议终端融合回音消除模块5对接受的数据进行回音消除，并生成近端音频PCM分片数据；

5.1)、会议终端融合回音消除模块5接收会议终端主控模块6的远端PCM分片数据，同时接收会议终端声音对齐选择模块4发送过来的各个声源频率分片数据与声源时延；

5.2)、会议终端融合回音消除模块5以远端PCM分片数据为回音消除参考，将每个声源进行回音消除；

5.3)、会议终端融合回音消除模块5再将回音消除后的声源频率分片数据进行傅里叶逆变换成声源PCM分片数据；

5.4)、会议终端融合回音消除模块5将近端声源PCM分片数据累加计算得到近端音频PCM分片数据；

5.5)、最后再将近端音频PCM分片数据发送给会议终端主控模块6；

6)、会议终端主控模块6从网络上接收异地与会者的远端音频数据流，同时接收会议终端融合回音消除模块5发送来的近端音频PCM分片数据；

6.1)、会议终端主控模块6将远端音频数据流音频解码成远端音频PCM分片数据，发送给会议终端杨声器模块8；

6.2)、将近端音频PCM分片数据进行opus音频压缩编码，并将其通过网络发送到异地远端的设备中；

7)、会议终端麦克风阵列模块7接收阵列设置的麦克风所收集到的声音数据，并将此声音数据进行分片，得到阵列声源分片数据，再将阵列声源分片数据发送给会议终端声音对齐选择模块4，同时接收会议终端杨声器模块8所播放的远端声音；

8)、议终端杨声器模块8接收会议终端主控模块6发送来的远端音频PCM分片数据，并将远端声音播放。

所述步骤4.2)中将所有声源PCM分片数据转化为声源频率分片数据的具体方式为：所述声音对齐选择模块4将所有PCM分片数据进行128点快速傅立叶变换得到64点声源频率分片数据。

本实施例中，通过模块会议终端声音对齐选择模块4和模块会议终端融合回音消除模块的配合使用，使得各个声音实现对齐与替换，以及回音消除，以实现在通过手机直连会议终端机的方式中，会议终端机把质量较差远场声音替换上高质量近场声音，从而提升整个会议的音频质量。

所述步骤4.3)中相似度比较的具体方式为：

4.3.1)、声音对齐选择模块4按照64频率点进行逐点乘积，得到一个新的序列；

4.3.2)、将步骤4.3.1)中新序列的每个元素相加，得到手机声源的分片数据和一个麦克风阵列声源频率分片数据的一个声源互相关系数；

4.3.3)、取手机声源频率分片数据和麦克风阵列声源频率分片数据得互相关系数得峰值，且该峰值大于预设阀值时，则认为此手机声源频率分片数据和对应得麦克风阵列声源频率分片数据为同一声源。

本实施例中如此操作为了识别出手机声源与麦克风阵列一个声源的声音来自同一与会者。

所述步骤4.4)中)将同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据进行时延修正，并生成声音时延的具体方式为：

4.4.1)、声源的PCM分片数据4)把手机频率分片数据和麦克风阵列一个声源历史的频率分片数据按照64频率点进行逐点乘积，再得到一个新的序列；

本实施例中如此操作，得到手机声源与麦克风阵列一个声源的时间差，用于后续替换。

所述步骤4.4.3)中，作为会议终端声音对齐选择模块4向外输出的最终声源时延为：

会议终端声音对齐选择模块4将手机与麦克风阵列匹配声源的所有频率分片数据取绝对值进行累加得到分片能量值；

当手机声源频率分片数据为对应阵列声源的声源频率分片数据的分片能量值的两倍，会议终端声音对齐选择模块4用手机声源频率分片数据替换对应阵列声源的声源频率分片数据,并把此手机声源频率分片数据携带上时延，这样将质量较差远场声音用高质量近场声音替换；

本实施例中如此操作，是把质量较差远场声音替换上高质量近场声音。

所述步骤5.2)中将每个声源进行回音消除处理的具体步骤为：

5.2.1)、会议终端融合回音消除模块5对远端声音PCM分片进行128点快速傅立叶变换得到64点远端频率分片数据，并保留最近10个远端频率分片数据作为历史远端频率分片数据；

5.2.2)、会议终端融合回音消除模块5选择一个声源频率分片数据与历史远端声源频率分片数据进行按照64频率点进行逐点乘积，得到一个新的序列，把这个新序列中的每个元素相加，得到近端一个声源与远端声音的历史分片互相关系数；

5.2.4)、会议终端融合回音消除模块5根据步骤5.2.3)中的回音消除基准时延计算近端各个声源频率分片数据的回音消除时延；

5.2.5)、会议终端融合回音消除模块5根据步骤5.2.4)中的回音消除时延进一步计算得到一个声源本身的线性回音时延。

本实施例中如此操作，是计算一个声源的回音本身消除线性回音时延,用于计算回音消除基准时延。

所述步骤5.2.3)中，计算回音消除基准时延的具体方式为：

会议终端融合回音消除模块5根据峰值的位置，计算出近端一个声音与远端声音之间的回音消除时延，再减去近端一个声源的声源时延得到回音消除基准时延。

本实施例中如此操作，利用消除声源本身声源时延，得到基准计算，作为基准用于其它声源的回音消除计算。

所述步骤5.2.4)中，计算近端各个声源频率分片数据的回音消除时延的具体方式为：

会议终端融合回音消除模块5将回音消除基准时延累加声源时延作为近端声源频率分片数据的回音消除时延。

本实施例中如此操作，是消除其他各个声源的回音。

所述步骤5.2.5)中，计算线性回音时延的具体方式为：

会议终端融合回音消除模块5按照回音消除时延，对近端声源频率分片数据减去远端声音频率分片数据来计算，得到线性回音消除。

本实施例中如此操作是为了消除线性回音。

所述步骤7)中，会议终端麦克风阵列模块7使用声源定位算法确定每个声源的位置，使用波束成形技术来获得阵列式麦克风收集到的声音数据。

本实施例中如此操作是，分开会议终端麦克风阵列周边与会人的声音，生成各个独立声源。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也能够经适当组合，形成本领域技术人员能够理解的其他实施方式。

Claims

1.一种基于P2P的分布麦克风会议装置，其特征在于，包括：

手机麦克风模块(1):用于采集高质量的近场声音，并将近场声音转换成手机声源PCM分片数据，再将手机声源PCM分片数据发送给手机主控模块(2)；

手机主控模块(2):用于接收手机麦克风模块(1)发来的手机声源PCM分片数据，并通过wifi5G网络与会议终端互联模块(3)连接，并把接收到的手机声源PCM分片数据实时发送给会议终端互联模块(3)；

会议终端互联模块(3):用于接收手机主控模块(2)发送来的手机声源PCM分片数据，提供wifi5G热点，并通过wifi5G网络与手机主控模块(2)连接，最后将接收到的手机声源PCM分片数据发送给会议终端声音对齐选择模块(4)；

会议终端声音对齐选择模块(4):用于接收会议终端麦克风阵列模块(7)发送过来的所有声源的PCM分片数据和会议终端互联模块(3)发送过来的手机声源PCM分片数据，并将接收到的所有声源PCM分片数据转换为声源频率分片数据，再将手机声源频率分片数据分别与麦克风阵列声源频率分片数据进行相似度比较，将具有同一声源的手机声源PCM分片数据和麦克风阵列声源PCM分片数据进行延时修正，计算出手机声源与阵列声源之间的声源时延，再将各个声源频率分片数据与声源时延发送给会议终端融合回音消除模块(5)；

所述会议终端声音对齐选择模块(4)将同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据进行时延修正，并生成声音时延的具体方式为：

所述声源的PCM分片数据把手机频率分片数据和麦克风阵列一个声源历史的频率分片数据按照64频率点进行逐点乘积，再得到一个新的序列；

再将新序列中的每个元素相加，得到手机与麦克风阵列一个声源历史分片互相关系数；

然后取手机与麦克风阵列该声源历史分片互相关系数的峰值对应手机声源与阵列声源于之间的最佳匹配时间位置，根据峰值得位置，计算出手机声源与阵列声源之间的声源时延；

作为会议终端声音对齐选择模块(4)向外输出的最终声源时延为：

会议终端声音对齐选择模块(4)将手机与麦克风阵列匹配声源的所有频率分片数据取绝对值进行累加得到分片能量值；

当手机声源频率分片数据为对应阵列声源的声源频率分片数据的分片能量值的两倍，会议终端声音对齐选择模块(4)用手机声源频率分片数据替换对应阵列声源的声源频率分片数据,并把此手机声源频率分片数据携带上时延，这样将质量较差远场声音用高质量近场声音替换；

当麦克风阵列声源频率分片数据没有被手机声源频率分片数据替换时，则声源时延为0；

会议终端融合回音消除模块(5):用于接收会议终端主控模块(6)的远端PCM分片数据作为消除参考，同时接收会议终端声音对齐选择模块(4)发送过来的各个声源频率分片数据与声源时延，并对每个声源进行回音消除处理，再把经过回音消除后的所有声源频率分片数据转化成声源PCM分片数据，再将声源PCM分片数据进一步处理得到一个最终近端音频PCM分片数据，最后将近端音频PCM分片数据发送给会议终端主控模块(6)；

会议终端主控模块(6):用于接收远端异地与会者的远端音频数据流，并将其音频解码为远端音频PCM分片数据，再将远端音频PCM分片数据发送给会议终端杨声器模块(8)和议终端融合回音消除模块(5)，同时接收议终端融合回音消除模块(5)发送来的近端音频PCM分片数据，并将其进行音频解码，通过网络发送到远端异地会议设备中；

会议终端麦克风阵列模块(7)：用于接收阵列设置的麦克风所收集到的声音，并将此声音转换为阵列声源PCM分片数据，再将阵列声源PCM分片数据发送到会议终端声音对齐选择模块(4)，同时接收会议终端杨声器模块(8)所播放的远端声音；

会议终端杨声器模块(8)：用于接收会议终端主控模块(6)发送来的远端音频PCM分片数据，并将远端声音播放。

2.一种基于P2P的分布麦克风会议方法：其特征在于，包括以下步骤：

1)、手机麦克风模块(1)采集高质量的近场声音数据，并将采集到的声音数据进行切片得到手机声源PCM分片数据，并将手机声源PCM分片数据发送给手机主控模块(2)；

2)、手机主控模块(2)通过wifi5G网络与会议终端互联模块(3)连接，并将从手机麦克风模块(1)接收过来的手机声源PCM分片数据发送给会议终端互联模块(3)；

3)、会议终端互联模块(3)为手机主控模块(2)提供wifi5G热点，并将从手机主控模块(2)接收过来的手机声源PCM分片数据发送给会议终端声音对齐选择模块(4)；

4)、会议终端声音对齐选择模块(4)生成频率分片数据和声音时延：

4.1)、会议终端声音对齐选择模块(4)接收从会议终端互联模块(3)发送过来的手机声源PCM分片数据和从会议终端麦克风阵列模块(7)发送过来的所有声源的PCM分片数据；

4.2)、会议终端声音对齐选择模块(4)通过傅立叶变换将接收到手机声源PCM分片数据和所有声源的PCM分片数据转换成对应的手机声源频率分片数据和麦克风阵列声源频率分片数据；

4.3)、会议终端声音对齐选择模块(4)将手机声源频率分片数据分别与麦克风阵列声源频率分片数据进行相似度比较，确定同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据；

4.4)、会议终端声音对齐选择模块(4)再将同为一个声源的手机声源频率分片数据和麦克风阵列声源频率分片数据进行时延修正，生成声音时延；

4.4.1)、声源的PCM分片数据把手机频率分片数据和麦克风阵列一个声源历史的频率分片数据按照64频率点进行逐点乘积，再得到一个新的序列；

4.4.3)、取步骤4.4.2)中手机与麦克风阵列该声源历史分片互相关系数的峰值对应手机声源与阵列声源于之间的最佳匹配时间位置，根据峰值得位置，计算出手机声源与阵列声源之间的声源时延；

所述步骤4.4.3)中，作为会议终端声音对齐选择模块(4)向外输出的最终声源时延为：

4.5)、会议终端声音对齐选择模块(4)将步骤4.2)中两种声源频率分片数据和步骤4.4)中的声音时延发送给会议终端融合回音消除模块(5)；

5)、会议终端融合回音消除模块(5)对接受的数据进行回音消除，并生成近端音频PCM分片数据；

5.1)、会议终端融合回音消除模块(5)接收会议终端主控模块(6)的远端PCM分片数据，同时接收会议终端声音对齐选择模块(4)发送过来的各个声源频率分片数据与声源时延；

5.2)、会议终端融合回音消除模块(5)以远端PCM分片数据为回音消除参考，将每个声源进行回音消除；

5.3)、会议终端融合回音消除模块(5)再将回音消除后的声源频率分片数据进行傅里叶逆变换成声源PCM分片数据；

5.4)、会议终端融合回音消除模块(5)将近端声源PCM分片数据累加计算得到近端音频PCM分片数据；

5.5)、最后再将近端音频PCM分片数据发送给会议终端主控模块(6)；

6)、会议终端主控模块(6)从网络上接收异地与会者的远端音频数据流，同时接收会议终端融合回音消除模块(5)发送来的近端音频PCM分片数据；

6.1)、会议终端主控模块(6)将远端音频数据流音频解码成远端音频PCM分片数据，发送给会议终端杨声器模块(8)；

6.2)、将近端音频PCM分片数据进行音频解码，并将其通过网络发送到远端异地会设备中；

7)、会议终端麦克风阵列模块(7)接收阵列设置的麦克风所收集到的声音数据，并将此声音数据进行分片，得到阵列声源分片数据，再将阵列声源分片数据发送给会议终端声音对齐选择模块(4)，同时接收议终端杨声器模块(8)所播放的远端声音；

8)、议终端杨声器模块(8)接收会议终端主控模块(6)发送来的远端音频PCM分片数据，并将远端音频PCM数据进行声音播放。

3.根据权利要求2所述的一种基于P2P的分布麦克风会议方法：其特征在于，所述步骤4.2)中将所有声源PCM分片数据转化为声源频率分片数据的具体方式为：所述声音对齐选择模块(4)将所有PCM分片数据进行128点快速傅立叶变换得到64点声源频率分片数据。

4.根据权利要求2所述的一种基于P2P的分布麦克风会议方法：其特征在于，所述步骤4.3)中相似度比较的具体方式为：

4.3.1)、声音对齐选择模块(4)按照64频率点进行逐点乘积，得到一个新的序列；

5.根据权利要求2所述的一种基于P2P的分布麦克风会议方法：其特征在于，所述步骤5.2)中将每个声源进行回音消除处理的具体步骤为：

5.2.1)、会议终端融合回音消除模块(5)对远端声音PCM分片进行128点快速傅立叶变换得到64点远端频率分片数据，并保留最近10个远端频率分片数据作为历史远端频率分片数据；

5.2.2)、会议终端融合回音消除模块(5)选择一个声源频率分片数据与历史远端声源频率分片数据进行按照64频率点进行逐点乘积，得到一个新的序列，把这个新序列中的每个元素相加，得到近端一个声源与远端声音的历史分片互相关系数；

5.2.4)、会议终端融合回音消除模块(5)根据步骤5.2.3)中的回音消除基准时延计算近端各个声源频率分片数据的回音消除时延；

5.2.5)、会议终端融合回音消除模块(5)根据步骤5.2.4)中的回音消除时延进一步计算得到一个声源本身的线性回音时延。

6.根据权利要求5所述的一种基于P2P的分布麦克风会议方法：其特征在于，所述步骤5.2.3)中，计算回音消除基准时延的具体方式为：

会议终端融合回音消除模块(5)根据峰值的位置，计算出一个声音与远端声音之间的回音消除时延，再减去近端一个声源的声源时延得到回音消除基准时延。

7.根据权利要求6所述的一种基于P2P的分布麦克风会议方法：其特征在于，所述步骤5.2.4)中，计算近端各个声源频率分片数据的回音消除时延的具体方式为：

会议终端融合回音消除模块(5)将回音消除基准时延累加声源时延作为近端声源频率分片数据的回音消除时延；

所述步骤5.2.5)中，计算线性回音时延的具体方式为：

会议终端融合回音消除模块(5)按照回音消除时延，对近端声源频率分片数据减去远端声音频率分片数据来计算，得到线性回音消除。

8.根据权利要求2所述的一种基于P2P的分布麦克风会议方法：其特征在于，所述步骤7)中，会议终端麦克风阵列模块(7)使用声源定位算法确定每个声源的位置，使用波束成形技术来获得阵列式麦克风收集到的声音数据。