CN114203196B - 一种基于毫米波信号的音频重建方法 - Google Patents
一种基于毫米波信号的音频重建方法 Download PDFInfo
- Publication number
- CN114203196B CN114203196B CN202111441882.1A CN202111441882A CN114203196B CN 114203196 B CN114203196 B CN 114203196B CN 202111441882 A CN202111441882 A CN 202111441882A CN 114203196 B CN114203196 B CN 114203196B
- Authority
- CN
- China
- Prior art keywords
- millimeter wave
- audio
- spectrogram
- mel
- mel spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000008859 change Effects 0.000 claims abstract description 18
- 238000006073 displacement reaction Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 6
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000004888 barrier function Effects 0.000 abstract description 6
- 239000011810 insulating material Substances 0.000 abstract description 4
- 230000000149 penetrating effect Effects 0.000 abstract description 2
- 230000005236 sound signal Effects 0.000 description 22
- 238000000605 extraction Methods 0.000 description 9
- 239000011521 glass Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000012774 insulation material Substances 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009413 insulation Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 101150113338 spaO gene Proteins 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 239000004698 Polyethylene Substances 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000006260 foam Substances 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000004033 plastic Substances 0.000 description 2
- 229920003023 plastic Polymers 0.000 description 2
- 239000011120 plywood Substances 0.000 description 2
- -1 polyethylene Polymers 0.000 description 2
- 229920000573 polyethylene Polymers 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 229920000742 Cotton Polymers 0.000 description 1
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000002942 anti-growth Effects 0.000 description 1
- 230000035559 beat frequency Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 229910052602 gypsum Inorganic materials 0.000 description 1
- 239000010440 gypsum Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 229920000728 polyester Polymers 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/88—Radar or analogous systems specially adapted for specific applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Evolutionary Computation (AREA)
- Electromagnetism (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于毫米波信号的音频重建方法,包括如下步骤:频谱图生成:毫米波雷达发射chirp信号,经过振动目标的反射返回毫米波雷达,识别振动目标的位置距离;对振动目标利用毫米波雷达执行慢时间采样操作,得到相位变化,利用相位变化得到振动位移,然后合并成振动波形;利用振动波形获得时间频谱图,并转换成毫米波梅尔频谱图;音频重建:将毫米波梅尔频谱图和对应的真实音频梅尔频谱图输入人工智能模型cGAN,对模型进行训练,训练完成后,利用模型生成音频梅尔频谱图,并进行波形合成,实现音频重建。本发明所公开的方法具有更高的分辨率、不受限制的词汇集,可以在不同距离、不同角度,穿透不同绝缘材料的阻隔精确重建音频。
Description
技术领域
本发明涉及音频重建技术领域,特别涉及一种基于毫米波信号的音频重建方法。
背景技术
当今的信息化发展进入了“万物互联”时代,个人数字助理、智能音响、智能麦克风、智能影音系统、在线会议系统、智能办公系统和智能家居系统中都存在着大量的音频信号的收发设备,声音通信系统正变得比以往任何时候都更受欢迎。
虽然,在智能互联场景中采用了丰富多样的语音采集技术手段,但这些手段都存在这样或那样的不足。有的适用空间范围较小,只能用在较小空间场景中的语音信号采集,当使用场景在较大范围空间内时,则不能达到较好的收音效果,如常见的视频办公会议中所使用的通用型麦克风。有的适用频域不足,只能采集有限的人声频域内的声音信号,而对较低频、较高频的人声信号或乐器声音、环境声音无法采集,造成适用场景受限。有的抗干扰能力较弱,当使用场景发声源较多、环境噪音较大、存在环境回声时,对目标声音无法实现较高质量的采集,甚至产生啸叫现象。
综上,现阶段的常规收音手段不能很好的满足在更大范围空间内对宽频域声音信号的高质量声音信号收集。
发明内容
为解决上述技术问题,本发明提供了一种基于毫米波信号的音频重建方法,具有更高的分辨率、不受限制的词汇集,可以在不同距离、不同角度,穿透不同绝缘材料的阻隔精确重建音频。
为达到上述目的,本发明的技术方案如下:
一种基于毫米波信号的音频重建方法,包括如下步骤:
步骤一,频谱图生成:
(1)毫米波雷达以固定的时间间隔发射chirp信号,经过振动目标的反射返回毫米波雷达,结合毫米波雷达接收到的回波信号,对快时间采样信号进行距离快速傅里叶变换,识别出振动目标的位置距离;
(2)根据识别出的振动目标的位置距离,对振动目标利用毫米波雷达执行慢时间采样操作,然后对慢时间采样信号进行多普勒快速傅里叶变换,得到相位变化,利用相位变化得到振动位移,然后用一个时间戳将所有的振动位移合并成一个振动波形;
(3)对振动波形进行短时距傅里叶变换,从而获得时间频谱图,然后将时间频谱图转换成毫米波梅尔频谱图;
步骤二,音频重建:
将毫米波梅尔频谱图和对应的真实音频梅尔频谱图输入人工智能模型cGAN,对模型进行训练,模型中的生成器利用毫米波梅尔频谱图生成模拟音频梅尔频谱图,模型中的鉴别器利用真实音频梅尔频谱图鉴别模拟音频梅尔频谱图的真假,生成器和鉴别器交替训练,使得生成器生成的模拟音频梅尔频谱图接近真实音频梅尔频谱图;
训练完成后,利用训练后的模型中的生成器将采集到的毫米波梅尔频谱图生成音频梅尔频谱图,利用Griffin-Lim算法对生成的音频梅尔频谱图进行波形合成,来恢复出音频波形,实现音频重建。
上述方案中,识别振动目标的位置时,在一个chirp内对快时间采样应用一个滑动窗口来产生更多的精确子chirp,然后对每个精确子chirp进行距离快速傅里叶变换,得到多个慢时间采样。
上述方案中,所述振动位移的计算公式如下:
其中,Δd为振动位移,Δφ是相位变化,λ是毫米波信号的波长。
上述方案中,短时距傅里叶变换的公式如下:
其中,h(τ-t)是窗口函数,τ是时间t的窗口大小的一半,x是毫米波信号的波形,f为毫米波信号的频率,j是复数基本单位。
上述方案中,将时间频谱图转换成梅尔频谱图的公式如下:
其中,mel(f)是梅尔频谱,f是毫米波信号的频率。
上述方案中,所述生成器采用UNET架构,生成器和鉴别器中的每个卷积块由4×4大小的平方核构成,步长为2;所述鉴别器包括三个卷积块和真假补丁预测,补丁大小为30×30。
上述方案中,模型训练过程中,生成器采用毫米波梅尔频谱图作为条件输入,并对其进行增强;增强后的模拟梅尔频谱图与毫米波梅尔频谱图连接,输入到鉴别器中,鉴别器将其分类为假音频;当输入真实音频梅尔频谱图与毫米波梅尔频谱图连接结合体时,鉴别器将其分类为真实音频;随着训练的进行,生成器学会增强输入,使鉴别器难以区分生成器增强后的模拟梅尔频谱图和真实梅尔频谱图。
通过上述技术方案,本发明提供的基于毫米波信号的音频重建方法具有如下有益效果:
(1)本发明实现的音频重建方法,使用商用毫米波FMCW雷达,可以精确捕捉振动目标的振动,然后通过生成机器学习模型增强捕捉到的扬声器振动信号,可以重建高品质的无限词汇空间的音频信号。
(2)本发明采用毫米波雷达发射毫米波,对常规的隔音材料,如玻璃、聚乙烯泡沫塑料、胶合板等具有良好的穿透性,可以一定程度上突破常规干扰措施。
(3)本发明基于毫米波无线电信号探测声学振动信号,作用距离较长,精度高,而且成本较为低廉。
(4)本发明的方法以固定的时间间隔发射chirp信号,并将一系列chirp信号组合成一帧进行距离-多普勒处理。对一个chrip内的快时间采样引入一个滑动窗口来产生更多的精确的子chirp,多个子chirp信号的交叉印证,提升了对声音目标距离位置判断的精确度。
(5)本发明整合chirp信号进行慢时间采样,进行多普勒—快速傅里叶变换,并且引入时间戳,提升了声音目标振动位移的提取速度,并为后续人工智能技术的引入做好数据准备。
(6)本发明针对cGAN人工智能模型,创新性采取引入时间戳的音频信号二维图像表达方法—梅尔频谱图,很好的减少了毫米波信号到音频信号转换过程中的信息损失。
(7)本发明创新性地利用图像处理领域的人工智能技术—cGAN,对转换后的毫米波信号进行增强处理,拓宽了音频信号的人工智能增强技术路线,高质量实现了音频信号的重建技术。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的一种基于毫米波信号的音频重建方法示意图;
图2为从FMCW中提取振动示意图;
图3为从FMCW中提取相位示意图;
图4为原声频谱图和扬声器的毫米波反射信号频谱图;(a)为原声频谱图,(b)为扬声器的毫米波反射信号频谱图;
图5为抗生成网络cGAN架构图;
图6为基于毫米波的声音信号重建系统图;
图7为实验场景布置图;(a)木质门干扰的会议室场景;(b)双层玻璃干扰的会议室场景;
图8为音频重建性能对比图;(a)真人演讲声音频谱图,(b)未增强的毫米波采样的原始数据频谱图,(c)利用cGAN从毫米波采样数据重建的声音频谱图;
图9为对声音的客观MCD评分;
图10为对声音的主观评分;(a)音频片段1(60s),(b)音频片段2(58s);
图11为不同距离和角度下的振动提取性能图;(a)不同距离情况下,(b)不同角度情况下;
图12为不同距离和角度下的音频重建性能图;(a)不同距离情况下,(b)不同角度情况下;
图13为不同隔音材料对音频重建性能的影响;
图14为不同扬声器的音频重建性能;
图15为模型泛化性能:比较不同声音样本下cGAN的MCD评分:(a)当User 2、User3、User 4的语音用各自的数据单独训练的模型进行测试时的MCD评分和使用User 1数据训练的模型进行测试时的MCD评分,(b)使用来自User1到User4的数据对模型进行训练,并在User5到User7上进行测试时的MCD评分。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明设计并实现了声音信号重建系统“毫耳”。它有一个毫米波雷达,可以捕捉微小的振动造成的声音。毫米波雷达首先会向扬声器(振动目标)发射一个调频信号。到达扬声器的信号会反射回毫米波雷达。通过处理和增强接收到的信号,“毫耳”可以提取出扬声器的振动。然后,振动数据将被输入到生成对抗性网络cGAN,以便进行增强和消噪,最终实现高质量的音频重构。如图1所示,“毫耳”由两个模块组成:
(1)声谱生成(SG):声谱生成由目标(说话人)定位和声谱提取两个阶段组成。为了定位扬声器的位置,从毫米波雷达中提取原始样本作为输入。对原始数据进行距离快速傅里叶变换,测量到目标的距离。然后根据距离快速傅里叶变换的结果进行多普勒快速傅里叶变换,找到候选距离区段,并识别出包含期望振动的距离区段。为了提高快速傅里叶变换的分辨率,将帧的每个chirp分解为多个chirp,在提取声音振动位移的同时提供多个观测值。然后对每个线性调频进行短时距傅里叶变换(STFT)处理,得到时域频谱图。
(2)音频重建(AR):AR使用cGAN,通过两幅声谱图像进行训练,一幅来自毫米波雷达采样数据,另一幅来自原始音频。利用训练数据,cGAN学习如何通过增强典型的频率和振幅分量以及降低噪声来增强毫米波波谱图。然后使用经过训练的cGAN模型直接从捕获的毫米波频谱图重建音频。
基于上述声音信号重建系统,本发明提供了一种基于毫米波信号的音频重建方法,包括如下步骤:
步骤一,频谱图生成:
(1)毫米波FMCW雷达以固定的时间间隔发射chirp信号,经过振动目标的反射返回毫米波雷达,结合毫米波雷达接收到的回波信号,对快时间采样信号进行距离快速傅里叶变换,识别出振动目标的位置距离。
具体为:毫米波FMCW雷达以固定的时间间隔发射chirp信号,并将一系列chirp信号组合成一帧进行距离快速傅里叶变换。距离快速傅里叶变换(Range-FFT)一般采用一个chirp的所有快时间采样作为输入,并产生一个慢时间采样。然而,低成本的商用毫米波雷达不能保证在低信噪比(SNR)条件下基于单一chirp进行精确的相位提取。为了改善相位提取,在一个chirp内对快时间采样应用一个滑动窗口来产生更多的精确子chirp,如图2所示。这些子chirp会被用来相互参照。然后对每个子线性调频信号进行距离快速傅里叶变换(Range-FFT),得到多个慢时间采样。由于慢时间采样(一帧)的持续时间比快时间采样(一个chirp)的持续时间长得多,因此可以忽略一组chirp在一个chirp内的时间方差,即可以认为这些子chirp是同时传输的。如图2所示,子chirp2(深色chirp)检测到的语音信箱的位置不同于其他子chirp(浅色chirp)的位置。由于本发明有多个交叉验证的观察,异常部分(深色)可以被识别和消除。通过这种方法,本发明可以准确地识别出正确的振动目标-语音信箱位置。
(2)根据识别出的振动目标的位置距离,对振动目标利用毫米波雷达执行慢时间采样操作,然后对慢时间采样信号进行多普勒快速傅里叶变换,得到相位变化,利用相位变化得到振动位移,然后用一个时间戳将所有的振动位移合并成一个振动波形。
通过对振动目标-语音信箱的精确提取,对慢时间采样进行多普勒快速傅里叶变换,得到相位变化。振动位移可以根据公式(1)计算出来。
其中,Δd为振动位移,Δφ是相位变化,λ是毫米波信号的波长。
基于上述公式,本发明使用77GHz的调频连续波雷达,可以探测到10微米左右的位移。扬声器的振动幅度通常是百微米级。因此,毫米波雷达能够捕捉到扬声器的微小振动。
基于上述公式,振动位移与相位变化直接相关。本发明可以从毫米波信号中提取出精确的相位变化,进而就能得到振动位移。
STx(t)和SRx(t)为发送和接收的FMCW信号,则有下式:
STx(t)=ATx·cos[2π·fTx(t)·t+φTx] (2)
SRx(t)=ARx·cos[2π·fRx(t)·t+φRx] (3)
其中,fTx(t)和fRx(t)分别代表t时刻发射信号和接收信号的频率,φTx和φRx分别代表发射信号和接收信号的相位,ATx和ARx代表发射信号和接收信号的振幅。
对发射和接收信号施加混频器后,可以得到如下拍频信号:
其中,fb(t)=fTx(t)-fRx(t)是拍频信号的频率变化函数,φb=φTx-φRx。由于拍频(MHz级)远低于载波频率(GHz级),本发明可以使用低通滤波器来排除载波,然后拍频信号可以表示如下:
Sb=Ab·cos[2π·fb(t)·t+φb] (4)
其中,这是发射机和接收机的合成振幅。
因此,最终的拍频信号只与fb波段φb有关。实际上,由于在原始数据中存在着来自不同距离的物体的反射信号,Sb(t)的频率分量是不同的。如图3所示,在线性调频中对快时间采样执行距离快速傅立叶变换Range-FFT。它把时域信号映射到频域。不同距离的物体在频率域会有一个峰值。对于振动源定位,本发明只关注相应距离的对应的范围。进一步地,在推导出相位变化φ1-φ2的结果上执行多普勒快速傅里叶变换(Doppler-FFT)。对于同一范围内的两个chirp,执行多普勒快速傅里叶变换运算(Doppler-FFT),将提取相应位置的相位。这样就推导出由扬声器振动引起的时变相位。
为了验证该方案的可行性,本发明对比了接收到的毫米波信号和通过扬声器播放的音频之间的相关性。在实验中,本发明通过扬声器播放一段演讲,毫米波雷达放置在扬声器前方一米距离处进行采样,两者中间没有任何阻挡。图4(a)显示了由FMCW雷达捕获的播放音频频谱图,图4(b)显示了相应的毫米波雷达信号频谱图。可以观察到毫米波信号与音频信号有很高的相似性。由于FMCW雷达的采样率较低,雷达信号在高频段与音频信号的相似性较差。此外,FMCW雷达也受到低频噪声的影响。为了解决这两个问题,引入了生成机器学习模型来对音频信息进行重建。
(3)对振动波形进行短时距傅里叶变换,从而获得时间频谱图,然后将时间频谱图转换成毫米波梅尔频谱图。
本实验环境中的振动波形是一维信号。然而,音频重建中的条件生成对抗网络(cGAN)需要像图一样的输入以及周围像素间的相关性。因此,本发明首先将振动波形转换成梅尔频谱图。梅尔频谱图是音频信号的一种常用表示方法,广泛应用于语音合成、音频去噪等领域。可以直接将这种类似图像的声谱图输入cGAN进行增强。增强的频谱图转换回音频,几乎没有信息损失。
在这项工作中,本发明选择短时距傅里叶变换(STFT)来获得时间频谱图。STFT本质上是一个带窗口的傅里叶变换,定义如下:
其中,h(τ-t)是窗口函数,τ是时间t的窗口大小的一半,x是毫米波信号的波形,f为毫米波信号的频率,j是复数基本单位(同i)。
由于生成的频谱图幅度相对较大,为了获得适当大小的声音特征,通常需要通过mel-scale滤波器组生成梅尔频谱。研究表明,人类不能线性地感知频率变化。人类在低频率比高频率更容易发现差异。例如,本发明可以很容易地区分500Hz和1000Hz的区别,但本发明很难区分10000Hz和10500Hz的区别。为了捕捉这个特征,本发明将STFT产生的频谱图转换成梅尔频谱图。计算梅尔频谱的转换过程符合以下方程:
其中,mel(f)是梅尔频谱,f是毫米波信号的频率。
上述过程实现对测试过程中的振动信号以及相应的音频波形进行变换。
步骤二,音频重建:
将毫米波梅尔频谱图和对应的真实音频梅尔频谱图输入人工智能模型cGAN,对模型进行训练,模型中的生成器利用毫米波梅尔频谱图生成模拟音频梅尔频谱图,模型中的鉴别器利用真实音频梅尔频谱图鉴别模拟音频梅尔频谱图的真假,生成器和鉴别器交替训练,使得生成器生成的模拟音频梅尔频谱图接近真实音频梅尔频谱图。
A.cGAN结构
本发明采用图像到图像的转换方法来增强毫米波梅尔频谱图。本发明使用条件对抗生成网络称为cGAN。不同于其他GAN从一个随机噪声向量生成数据,cGAN另外获取一个条件变量,对生成的数据进行控制。对生成器和鉴别器的目标进行修改,使其包含条件输入。生成器和鉴别器公式分别表示为log(1-D(y,G(z,y)))和log(D(y,x))。
生成对抗网络(cGAN)属于生成模型的一类。cGAN的目标是学习一个可以映射两个分布的函数:源和目标。源是随机噪声分布(pz(z)),目标是数据(pdata)的底层分布。一旦完成了这种映射,cGAN就可以取一个样本z∈pz,并将它映射到x∈pdata上。cGAN模型通过模拟两个网络之间的min-max博弈进行训练,一个是生成器(G),另一个是鉴别器(D)。生成器的目标是通过从噪声分布的(pz(z))中生成样本,来欺骗鉴别器,(pz(z))类似于那些pdata中采样的数据。鉴别器的工作就是正确地将来自生成器的数据标记为假数据,将来自pdata的数据标记为真数据。两个网络之间的min-max博弈的目标函数V(G,D)可以写成
其中,生成器的目标是最小化log(1-D(G(z))),鉴别器的目标是最小化log D(x)。模型在做这个训练任务时,当生成器已经成功地逼近了数据,并且鉴别器不再能够区分真假数据时,就达到了一个均衡。
图5显示了本发明的cGAN结构。在训练过程中,生成器采用毫米波梅尔频谱图作为条件输入,并对其进行增强。增强后的模拟音频梅尔频谱图与毫米波梅尔频谱图连接,输入到鉴别器中,鉴别器可以鉴别出这是假的。此外,当输入真实音频梅尔频谱图与毫米波梅尔频谱图结合体时,鉴别器将其分类为真实音频。随着训练的进行,生成器学会增强输入,使鉴别器难以区分生成器增强的模拟梅尔频谱图和从真实音频中获得的真实音频梅尔频谱图。在此之后,为了测试,生成器被独立地用来增强毫米波梅尔频谱图,没有鉴别器的存在。可以观察到,鉴别器实质上是通过指出生成数据中的错误来帮助生成器学习。
对于生成器网络,本发明利用UNET架构。UNET是一种基于编码/解码器的结构,用于生物医学图像分割。生成器和鉴别器中的每个卷积块由4×4大小的平方核构成,步长为2,然后进行批量归一化和校正线性单元(ReLU)处理非线性。批量归一化使不同单元的激活正常化,并加速网络收敛。在中间层中使用0.5的压降值,并将滤波器的数目设置为64的倍数,在随后的层中,滤波器的大小按照经验性建议线性减小。对于鉴别器,本发明使用三个卷积块,然后是真假的补丁预测,补丁大小为30×30。与逐像素或逐图像预测相比,逐块预测利用了距离较远的区域的独立性。此外,由于捕获的毫米波数据不包括音频的高频成分,网络对这些部分的预测可以独立地改进。生成器网络和鉴别器网络可以交替训练。本发明使用生成器网络上预测和真值标记之间的二进制交叉熵损失以及L1范数作为损失函数。L1范数提供了规则化,没有L2范数的模糊工件。本发明经验性地观察到0.0002的学习率会更快地收敛。Adam优化器用于优化网络。该网络经过200个epoch的训练,在一个验证集上的性能用于选择最佳的训练epoch。
B、由增强频谱图重建
训练完成后,利用训练后的模型中的生成器将采集到的毫米波梅尔频谱图生成音频梅尔频谱图,利用Griffin-Lim算法对生成的音频梅尔频谱图进行波形合成,来恢复出音频波形,实现音频重建。
cGAN增强了毫米波梅尔频谱图,使其具有更丰富的声学特征,本发明可以用声码器将声学参数转换成语音波形。本发明利用Griffin-Lim算法对生成的声谱图进行波形合成。Griffin-Lim利用帧间的相位约束来实现迭代收敛,并在缺乏原始相位信息的基础上利用频谱图重构语音信号。它解决了如何在不破坏相邻振幅谱和自身振幅谱的情况下找到近似相位的问题。考虑到最坏情况和最好情况阶段之间有很大的差异,通过迭代可以得到更精确的阶段。这样,即使没有原始的相位信息,本发明也可以使用Griffin-Lim算法,在很大程度上恢复音频波形。
性能评价:
在现实场景中,使用环境中往往会存在一些阻挡物会影响声音的传播,有的甚至是一些隔音材料,如玻璃、聚乙烯泡沫塑料、胶合板等,本发明的声音信号重建系统即使在具有一定隔声材料干扰的情况下,也能对声音信号进行较好的采集和重建。如图6所示,本发明可以设想收音系统处于以下情况:
(i)收音系统与声源之间有声音隔离,即声源的声音不能穿透隔音装置;收音系统不能在声源所在的房间内部署任何设备、传感器;
(ii)收音系统事先没有从声源扬声器发出的声音信息的资料。收音系统不仅能够分类少量的音频信号(例如,单词或数字),而且能够从整个词汇表(包括完整的句子)重新创建任何音频。
(iii)收音系统便于携带并且价格相对便宜。在这种情况下,收音系统可以在隔音空间外使用低成本的商用毫米波雷达进行声音信号采集。
在本发明的实验中使用的所有音频样本的采样率是44.1KHz。本发明使用一个典型的会议室设置,扬声器音量设置为70分贝,背景噪音约为45分贝(典型的室内办公室背景噪音)。图7(a)显示了本发明的实验中使用的一个典型的会议室场景,中间存在木质门阻隔,图7(b)显示了本发明的实验中使用的一个典型的会议室场景,中间存在玻璃隔断阻隔。在不同的设置下,本发明评估了“毫耳”捕捉感应距离和角度、隔离材料等对每个设置的影响。
具体来说,从以下几个方面对系统的效能进行了评价:
梅尔谱失真:
梅尔谱失真(MCD)是一种客观的语音质量评价方法。它已经被广泛用于比较合成语音和原始语音、自然语音的质量。一般来说,一个较小的MCD评分表明重建的音频和原始音频之间相似度更好。
Likert评分:
为了对重建的音频进行主观评估,本发明招募了20名志愿者来听恢复的音频。这些参与者包括年龄在20到30岁之间的以英语为母语和非英语为母语的人。本发明让他们一个接一个地听重建的音频和原始的音频,然后按0到10的等级对恢复的音频质量进行评分。这里Likert评分越高,重建的音频质量就越好。0分表示重建的音频是难以理解的,而10分表示重建的音频和原始音频之间几乎没有差别。
在数值结果方面,本发明分两部分来分析本发明的实验结果:
(i)“毫耳”的整体音频重建性能;
(ii)在不同场景和设置下“毫耳”的鲁棒性。
音频重建的表现:
本发明首先评估了人耳在会议室环境中重建语音信号的能力,如图7(a)和图7(b)所示。在这里,毫米波传感器和扬声器被一个双面板玻璃墙隔离。图8(a)显示了用户使用的原始音频的频谱图,图8(b)显示了直接从毫米波采样产生的没有任何增强的频谱图,图8(c)显示了使用本发明的cGAN模型从毫米波采样数据重建的音频的频谱图。我们观察到原始的声音和重建的声音频谱图有很高的相似性。这是因为本发明的cGAN模型能够学习如何通过减少毫米波采样数据中的噪声,并在不同的频率和振幅中添加特定的声学数据来增强毫米波采样数据的频谱图。
图9显示了对User1的声音到User4的声音的MCD评分。在这里,cGAN模型为每个User的声音分别进行训练和测试。可以观察到所有声音的平均MCD小于4。这意味着重建的音频不仅是人可辨别,而且与原始语音有较强的相似性。进一步地,本发明还对语音进行相似性主观评估。图10(a)和图10(b)显示了20名志愿者对为4个音频样本(包括原始和重建)的Likert评分中位数。如图10(a)和图10(b)所示,每个用户在两个音频样本片段上的中位分数都高于6,这表明“毫耳”有能力重建清晰可辨的声音。
在现实情况下,收音系统可能需要调整毫米波传感器的位置,以便进行声音信号收集。然而,调整位置将改变声源装置和毫米波雷达之间的距离和方向。因此,必须评估“毫耳”对不同距离和方向的稳定性。在本发明的实验中,将毫米波传感器和扬声器之间的距离从1米改为5米,将角度从0°改为45°。
图11(a)显示了针对不同距离上的声音目标本系统的振动提取的性能,图11(b)显示了针对不同角度上的声音目标本系统的振动提取性能。本发明用相对误差er来评估从毫米波信号中提取振动信号的准确性(未经增强)。由于振幅处于不同的尺度,在计算不同距离和角度的相对误差之前,对振幅进行归一化处理。相对于原始音频的相对误差是基于推导出来的,其中振动波形的归一化幅度和原始音频信号的归一化幅度分别达到了8.9%的距离平均相对误差和9.6%的角度平均相对误差。比较结果表明:0°和45°之间的相对误差为8.8%,0°和45°之间的相对误差为10.2%。这表明在本发明的实验中,该系统的振动提取达到了一个较高的精度。
图12(a)示出4个声音样本(User1到User4)的MCD,测试距离从1米到5米不等。本发明观察到MCD分数随之增加,表明重建质量逐渐下降。但是,在雷达的探测范围内,整体的变化是不明显的。图12(b)表明,角度对重建音频的质量比距离有更大的影响。这可以归因于当扬声器和毫米波雷达之间存在一定角度时,扬声器表面的振动(即往复运动)越来越难以通过雷达捕捉。本发明发现,“毫耳”系统可以合理地、精确地在45°之内重建音频。这表明本发明提出的系统可以用来在合理的距离和方向进行收音。
现实环境中空间特征复杂,会存在大量的隔音材料。本发明对此进行实验,以测试“毫耳”对不同绝缘材料的抵抗能力稳定性。本发明选择了5种流行的隔音板,分别由密实的木材、聚酯纤维、棉花、玻璃和隔音石膏组成。如图13所示,除玻璃外,当观测到的MCD小于4时,“毫耳”的性能没有显著变化。由于在所研究的材料中,玻璃是最强的毫米波信号反射器,因此声音重建的质量有一定的下降,但仍在可接受的范围内。
考虑到不同厂家的扬声器有不同的特点(背景、材料等),本发明评估了四种不同类型的扬声器。他们是飞利浦SPA33、飞利浦SPA311、Edifier R12U、天猫IN。本发明注意到飞利浦SPA311和Edifier R12U的扬声器膜片上没有盖子,而飞利浦SPA33和天猫IN的音箱中的膜片上覆盖着。图14显示,对飞利浦SPA311和Edifiier R12U的音频重建性能比飞利浦SPA33和天猫IN更好,因为前两者的振动表面直接暴露在毫米波传感器下。
交叉用户训练的模型泛化。为了证明该模型的通用性,本发明针对不同的用户对cGAN模型进行了训练和测试(交叉用户训练和测试)。首先,本发明使用User1的数据训练模型,并使用User2、User3和User 4的数据测试它。图15(a)显示了当User 2、User 3和User 4的语音用他们自己单独训练的模型与使用User 1数据训练的模型进行测试时的MCD缩减。本发明发现,虽然音频重构性能明显下降,但总体性能仍然在合理的范围内。这种降低可以归因于不同人的语音特征具有不同的主频分量,这些主频分量在跨用户训练时并不总是能够准确地重建。
为了评估在训练中增加更多的用户数据是否会进一步提高跨用户性能,本发明使用来自User 1到User 4的数据对模型进行训练,并在User 5到User 7上进行测试。图15(b)示出MCD。本发明发现,当训练中考虑了更多用户的数据时,该模型通过学习捕获更多样化的声学特征集更好地进行了概括。这些跨用户训练结果表明,本发明可以利用大量用户的音频数据离线训练模型,然后对未知用户的音频数据进行采样和重建,使本发明提出的音频重建方法更加有效。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于毫米波信号的音频重建方法,其特征在于,包括如下步骤:
步骤一,频谱图生成:
(1)毫米波雷达以固定的时间间隔发射chirp信号,经过振动目标的反射返回毫米波雷达,结合毫米波雷达接收到的回波信号,对快时间采样信号进行距离快速傅里叶变换,识别出振动目标的位置距离;
(2)根据识别出的振动目标的位置距离,对振动目标利用毫米波雷达执行慢时间采样操作,然后对慢时间采样信号进行多普勒快速傅里叶变换,得到相位变化,利用相位变化得到振动位移,然后用一个时间戳将所有的振动位移合并成一个振动波形;
(3)对振动波形进行短时距傅里叶变换,从而获得时间频谱图,然后将时间频谱图转换成毫米波梅尔频谱图;
步骤二,音频重建:
将毫米波梅尔频谱图和对应的真实音频梅尔频谱图输入人工智能模型cGAN,对模型进行训练,模型中的生成器利用毫米波梅尔频谱图生成模拟音频梅尔频谱图,模型中的鉴别器利用真实音频梅尔频谱图鉴别模拟音频梅尔频谱图的真假,生成器和鉴别器交替训练,使得生成器生成的模拟音频梅尔频谱图接近真实音频梅尔频谱图;
训练完成后,利用训练后的模型中的生成器将采集到的毫米波梅尔频谱图生成音频梅尔频谱图,利用Griffin-Lim算法对生成的音频梅尔频谱图进行波形合成,来恢复出音频波形,实现音频重建。
2.根据权利要求1所述的一种基于毫米波信号的音频重建方法,其特征在于,识别振动目标的位置时,在一个chirp内对快时间采样应用一个滑动窗口来产生更多的精确子chirp,然后对每个精确子chirp进行距离快速傅里叶变换,得到多个慢时间采样。
3.根据权利要求1所述的一种基于毫米波信号的音频重建方法,其特征在于,所述振动位移的计算公式如下:
其中,Δd为振动位移,Δφ是相位变化,λ是毫米波信号的波长。
4.根据权利要求1所述的一种基于毫米波信号的音频重建方法,其特征在于,短时距傅里叶变换的公式如下:
其中,h(τ-t)是窗口函数,τ是时间t的窗口大小的一半,x是毫米波信号的波形,f为毫米波信号的频率,j是复数基本单位。
5.根据权利要求1所述的一种基于毫米波信号的音频重建方法,其特征在于,将时间频谱图转换成梅尔频谱图的公式如下:
其中,mel(f)是梅尔频谱,f是毫米波信号的频率。
6.根据权利要求1所述的一种基于毫米波信号的音频重建方法,其特征在于,所述生成器采用UNET架构,生成器和鉴别器中的每个卷积块由4×4大小的平方核构成,步长为2;所述鉴别器包括三个卷积块和真假补丁预测,补丁大小为30×30。
7.根据权利要求1所述的一种基于毫米波信号的音频重建方法,其特征在于,模型训练过程中,生成器采用毫米波梅尔频谱图作为条件输入,并对其进行增强;增强后的模拟梅尔频谱图与毫米波梅尔频谱图连接,输入到鉴别器中,鉴别器将其分类为假音频;当输入真实音频梅尔频谱图与毫米波梅尔频谱图连接结合体时,鉴别器将其分类为真实音频;随着训练的进行,生成器学会增强输入,使鉴别器难以区分生成器增强后的模拟梅尔频谱图和真实梅尔频谱图。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111441882.1A CN114203196B (zh) | 2021-11-30 | 2021-11-30 | 一种基于毫米波信号的音频重建方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111441882.1A CN114203196B (zh) | 2021-11-30 | 2021-11-30 | 一种基于毫米波信号的音频重建方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN114203196A CN114203196A (zh) | 2022-03-18 |
| CN114203196B true CN114203196B (zh) | 2025-02-07 |
Family
ID=80649667
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111441882.1A Active CN114203196B (zh) | 2021-11-30 | 2021-11-30 | 一种基于毫米波信号的音频重建方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114203196B (zh) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115015915B (zh) * | 2022-06-14 | 2024-10-08 | 中国人民解放军国防科技大学 | 通过双层玻璃的基于微波干涉的音源获取方法 |
| CN114822567B (zh) * | 2022-06-22 | 2022-09-27 | 天津大学 | 一种基于能量算子的病理嗓音频谱重构方法 |
| CN115273807B (zh) * | 2022-07-29 | 2025-12-30 | 平安科技(深圳)有限公司 | 环境声音生成方法、装置、计算机设备及存储介质 |
| CN115775556B (zh) * | 2022-10-31 | 2025-12-02 | 清华大学 | 一种基于毫米波雷达的非视距路径语音识别方法及系统 |
| CN119724184B (zh) * | 2024-12-27 | 2026-01-06 | 西安理工大学 | 基于毫米波传感的语音命令识别方法 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105654944B (zh) * | 2015-12-30 | 2019-11-01 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
| CN112466273B (zh) * | 2020-12-10 | 2024-11-08 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
| CN113421585A (zh) * | 2021-05-10 | 2021-09-21 | 云境商务智能研究院南京有限公司 | 一种音频指纹库生成方法及装置 |
| CN113296087B (zh) * | 2021-05-25 | 2023-09-22 | 沈阳航空航天大学 | 一种基于数据增强的调频连续波雷达人体动作识别方法 |
| CN113421589B (zh) * | 2021-06-30 | 2024-03-01 | 平安科技(深圳)有限公司 | 歌手识别方法、装置、设备及存储介质 |
-
2021
- 2021-11-30 CN CN202111441882.1A patent/CN114203196B/zh active Active
Non-Patent Citations (1)
| Title |
|---|
| Towards Unconstrained Vocabulary Eavesdropping With mmWave Radar Using GAN;Pengfei Hu;《IEEE TRANSACTIONS ON MOBILE COMPUTING》;20240131;第23卷(第1期);941-954 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN114203196A (zh) | 2022-03-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114203196B (zh) | 一种基于毫米波信号的音频重建方法 | |
| Hu et al. | Milliear: Millimeter-wave acoustic eavesdropping with unconstrained vocabulary | |
| Huang et al. | Source localization using deep neural networks in a shallow water environment | |
| Xu et al. | Waveear: Exploring a mmwave-based noise-resistant speech sensing for voice-user interface | |
| JP6526083B2 (ja) | 源信号分離のためのシステム及び方法 | |
| Benesty et al. | Fundamentals of signal enhancement and array signal processing | |
| CN111856422B (zh) | 基于宽带多通道毫米波雷达的唇语识别方法 | |
| Hu et al. | Towards unconstrained vocabulary eavesdropping with mmWave radar using GAN | |
| Wang et al. | Wavesdropper: Through-wall word detection of human speech via commercial mmwave devices | |
| CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
| JP2017516131A (ja) | 源信号分離における改良された測定、エンティティ及びパラメータ推定、及び経路伝播効果測定及び軽減のための方法及びシステム | |
| Kotus | Multiple sound sources localization in free field using acoustic vector sensor | |
| CN116110417A (zh) | 一种面向超声波声纹防伪的数据增强方法及装置 | |
| Sun et al. | Akte-liquid: Acoustic-based liquid identification with smartphones | |
| CN114325721A (zh) | 一种实时生成水声被动跟踪目标数据集的方法及装置 | |
| Eisele et al. | Convolutional neural network with data augmentation for object classification in automotive ultrasonic sensing | |
| Yao et al. | Underwater acoustic target classification using scattering transform with small sample size | |
| Ashok et al. | Absorption of echo signal for underwater acoustic signal target system using hybrid of ensemble empirical mode with machine learning techniques | |
| Hu et al. | Robust binaural sound localisation with temporal attention | |
| Sun et al. | Spatial-Aware Multi-Task Learning Based Speech Separation | |
| Berdugo et al. | Speakers’ direction finding using estimated time delays in the frequency domain | |
| Murphy et al. | Classifying continuous active sonar echoes for target recognition | |
| Cheong et al. | Temporal-feature-based classification of active sonar targets in a deep-water environment | |
| Sheikh et al. | Marine vessels acoustic classification with enhanced machinery and propeller feature extraction, using convolutional neural network | |
| Xiang et al. | The development of deep convolutional generative adversarial network to synthesize odontocetes' clicks |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |