CN119924826B - 基于声学特征分析的自适应听力筛查优化方法 - Google Patents
基于声学特征分析的自适应听力筛查优化方法 Download PDFInfo
- Publication number
- CN119924826B CN119924826B CN202510431366.2A CN202510431366A CN119924826B CN 119924826 B CN119924826 B CN 119924826B CN 202510431366 A CN202510431366 A CN 202510431366A CN 119924826 B CN119924826 B CN 119924826B
- Authority
- CN
- China
- Prior art keywords
- hearing
- frequency
- signal
- time
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请属于听力测试技术领域,涉及基于声学特征分析的自适应听力筛查优化方法,通过构建的音频库生成不同信噪比的音频数据,利用探管麦克风测量用户耳道的声学传递函数,并结合头相关传递函数生成个性化的声学传递函数,借助EEG数据提取时域和时频特征,结合双耳仿真麦克风的空间定位特征,量化用户的听觉反应能力和空间听觉能力;通过多模态听觉特征向量的构建,结合多头注意力机制对特征进行加权,结合用户年龄和标准阈值,通过时序Transformer编码器预测用户的听力年龄,并根据预测结果评估听力衰退;使得能够精准地适应每个用户的个性化差异,克服传统听力筛查方法中忽略个体差异和复杂环境噪声的缺陷,从而提高筛查结果的准确性。
Description
技术领域
本申请属于听力测试技术领域,更具体地说,涉及基于声学特征分析的自适应听力筛查优化方法。
背景技术
听力障碍已经成为全球范围内越来越严重的公共健康问题,尤其是在老年人群体中,听力衰退对生活质量的影响极为显著。根据世界卫生组织的统计,全球约有4亿人受到不同程度的听力障碍困扰。随着人口老龄化的加剧,听力障碍的筛查和早期干预需求日益增加。准确的听力筛查不仅有助于早期发现听力问题,还能够为相关干预措施提供数据支持,从而有效减缓或延缓听力衰退的进程。
在传统的听力筛查方法中,最常见的是纯音测听法,它通过播放标准频率的纯音,评估个体在不同频率下的听力阈值。尽管这一方法简便且普遍应用,但其依赖于听力专家的主观判断,并且容易受到环境噪声、设备精度等因素的影响,导致测试结果的准确性和可靠性有限。此外,纯音测听法通常忽略了个体的空间听觉能力、环境噪声的影响以及不同频率间的复杂交互,因此在面对噪声环境和复杂听力损伤时,准确性大打折扣。
近年来,随着计算机技术和人工智能的进步,基于声学特征分析的听力筛查方法逐渐得到关注。这些方法通过使用不同的声学信号(如纯音、语音和环境噪声),结合先进的信号处理技术,分析用户的听觉响应。
尽管现代技术已在时域特征提取、时频特征分析、以及多模态信号融合方面取得了一定进展,但现有技术在噪声抑制、空间听觉能力量化和个性化筛查方面仍存在较大挑战。尤其是在实际应用中,环境噪声对听力测试结果的影响不可忽视,而现有技术在对噪声和信号进行有效区分、并融合个性化听觉特性时,准确度往往不够理想。此外,大多数现有技术还难以做到实时、动态、个性化的听力评估,尤其是在不同用户的听力状况和听觉能力有较大差异时,无法充分考虑个体差异,导致评估结果的准确性受到限制。
发明内容
本发明提供了基于声学特征分析的自适应听力筛查优化方法,拟解决目前在不同用户的听力状况和听觉能力有较大差异时,无法充分考虑个体差异,导致评估结果的准确性收到限制的技术问题。
基于声学特征分析的自适应听力筛查优化方法,包括以下步骤:
步骤1:基于所构建的音频库,生成包含125Hz到8kHz的纯音、标准语音材料和多类环境噪声,并通过设置不同的信噪比将噪声和目标信号叠加,形成多种信噪比的音频数据;
步骤2:采用探管麦克风测量用户耳道的声学传递函数,结合头相关传递函数数据库生成个性化声学传递函数;
步骤3:通过人工头搭载双耳仿真麦克风播放校准后的音频,并记录双耳音频信号,同时通过光耦合硬件触发器同步音频播放和EEG设备,得到EEG数据,并对EEG数据进行预处理,基于预处理后的EEG数据提取时域特征和时频特征;
步骤4:基于滤波器处理双耳音频信号,得到各频带的时域包络,再计算各频带的时域包络的动态范围压缩比;基于互相关法计算双耳信号的时差和能量比,并使用个性化的声学传递函数和标准的声学传递函数库进行相似度计算,量化用户的空间定位能力,得到空间听觉特征;基于所述时域特征、时频特征以及空间听觉特征构建统一的多模态听觉特征向量;
步骤5:基于多模态听觉特征向量采用多头注意力机制对多模态特征向量进行加权,得到加权后的多模态特征向量;
步骤6:基于加权后的多模态特征向量和频率/强度参数,通过深度神经网络模型进行听力阈值预测,输出每个频率点的阈值偏差,再结合传统纯音测听法得到标准阈值;
步骤7:基于所述多模态特征向量、用户实际年龄以及标准阈值,采用时序Transformer编码器预测用户的听力年龄,基于预测的听力年龄对用户的听力进行衰退评估。
本发明基于构建的音频库生成不同信噪比的音频数据,结合环境噪声和目标信号,确保能够覆盖各种噪声条件下的听力测试需求;其次,利用探管麦克风测量用户耳道的声学传递函数,并结合头相关传递函数生成个性化的声学传递函数,从而准确反映个体的耳道声学特性,避免传统方法中的一刀切假设;接着,借助EEG数据提取时域和时频特征,结合双耳仿真麦克风的空间定位特征,进一步量化用户的听觉反应能力和空间听觉能力;通过多模态听觉特征向量的构建,结合多头注意力机制对特征进行加权,从而更精确地预测听力阈值;最后,结合用户年龄和标准阈值,通过时序Transformer编码器预测用户的听力年龄,并根据预测结果评估听力衰退;使得能够精准地适应每个用户的个性化差异,克服传统听力筛查方法中忽略个体差异和复杂环境噪声的缺陷,从而提高筛查结果的准确性,确保能够在多变的听力环境下提供有效的听力评估。
优选的,所述步骤2包括以下步骤:
测量纯音信号:通过外部扬声器播放多频段的纯音刺激,同时采用探管麦克风插入耳道内记录该纯音刺激经过耳道后的声波响应,得到测量信号;
计算耳道的声学传递函数:基于输入信号和测量得到的输出信号,在频域中计算耳道的声学传递函数:;式中:为耳道的频率响应,即声学传递函数;和分别表示输入信号和输出信号的频域的表示;
用户HRTF获取:基于用户的个体体征从标准HRTF数据库中推断出适用的HRTF函数;
合成个性化声学传递函数:基于推断出的HRTF函数以及计算的耳道的声学传递函数的乘积得到用户的个性化声学传递函数。
优选的,在所述步骤2中设计个性化的耳道传递函数后,采用FIR滤波器反向补偿耳机频响,包括以下步骤:
测量耳机频响:将标准的纯音信号通过耳机播放,并使用探管麦克风记录耳机输出的信号,并基于耳机输出的信号计算耳机的频率响应:式中:表示耳机输出信号的频域表示;表示输入信号的频域表示;表示耳机的频率响应;
FIR滤波器:通过FIR滤波器对耳机的输出进行补偿:;式中:表示滤波器的频率响应;
基于频率响应采用离散傅里叶变换得到FIR滤波器系数,基于滤波器的系数对输出信号进行反向补偿:;式中:表示卷积操作;表示输入信号的时域表示;表示输出信号的时域表示。
优选的,所述步骤3中EEG数据的获取和预处理的步骤如下:
双耳音频信号播放:采用校准后的音频信号,通过人工搭载双耳仿真麦克风播放,其中音频信号包括多段纯音、标准语音材料以及多类环境噪声,并设置不同的信噪比,形成不同的测试情景;在测试过程中双耳播放的音频信号通过光耦合硬件触发器同步EEG设备,EEG设备记录大脑对双耳音频信号的神经反应,同时保证音频播放与EEG记录之间的时间同步;
EEG信号预处理:对EEG信号进行多尺度小波变换,将信号分解为多个尺度的子信号;对每个尺度的子信号进行软阈值去噪,去除高频噪声;对去噪后的信号进行自适应滤波,去除由伪影引入的噪声;经过处理后的信号通过逆小波变换进行重构,得到预处理后的EEG信号。
优选的,所述提取时域特征和时频特征包括以下步骤:
时域特征提取:经过预处理后的EEG信号进行时域分析,提取平均电位、波幅和波形复杂性特征,得到提取的时域特征;
时频特征提取:采用小波变换对预处理后的EEG信号进行时频分析,提取每个频段的特征。
优选的,所述步骤4包括以下步骤:
滤波器处理双耳音频信号:采用带通滤波器将双耳音频信号分解为多个频段,每个频段包含音频信号在该频段上的能量分布;
时域包络提取及动态范围压缩比:在每个频段上,通过包络检测器提取出信号的时域包络,在提取时,采用希尔伯特变换来得到时域包络;在计算每个频段的时域包括的动态范围压缩比;
互相关计算双耳信号的时差和能量比:通过计算双耳信号之间的延迟来估计时差;再通过计算双耳信号的均方值来得到能量比;
相似度计算:采用个性化的声学传递函数和标准化的声学传递函数库中传递函数来计算两个函数之间的相似度;其中相似度采用互归一化相关性作为相似度度量;
构建多模态听觉特征向量:将时域特征、时频特征和空间听觉特征中提取的所有特征进行拼接,构建一个统一的多模态听觉特征向量。
优选的,在所述多头注意力机制对多模态特征向量进行加权时,引入特征重要性权重来调整注意力权重,包括以下步骤:
特征重要性计算:基于多头注意力机制中的输入向量中的每个子特征的方差、阈值的相关性和不同噪声条件下的鲁棒性计算特征重要性:;;;式中:、、分别表示时域特征、时频特征和空间听觉特征的方差;、、分别表示时域特征、时频特征和空间听觉特征的相关性;、、分别表示时域特征、时频特征和空间听觉特征的鲁棒性;、、表示超参数,用于调整方差、相关性和鲁棒性对特征重要性计算的贡献;
基于计算的时域特征、时频特征和空间听觉特征的重要性进行归一化,得到各个模态的特征重要性权重;
特征重要性与注意力权重结合:对每个模态的查询和键进行加权时引入特征重要性权重来得到注意力权重:;式中:表示每个模态的特征重要性权重;表示查询向量和键向量的内积;表示缩放因子;表示函数,对内积结果采用函数,确保所有注意力权重是正数且总和为1。
优选的,所述步骤6包括以下步骤:
特征构建:将加权后的多模态特征向量和频率/强度参数进行拼接,得到拼接后的特征向量;
听力阈值偏差预测:将所述拼接后的特征向量作为训练好的深度神经网络模型的输入,通过深度神经网络模型预测得到听力阈值偏差;
纯音测听法阈值:基于纯音测听法得到听力阈值;
阈值融合:将纯音测听法得到的听力阈值和听力阈值偏差进行求和,并基于求和得到的值与纯音测听法得到的听力阈值进行加权融合,得到标准阈值;其中加权融合时的权重基于贝叶斯优化得到,其中贝叶斯优化的目标函数如下:;
式中:表示真实的第i个频点的听力阈值;表示融合后的第i个频点的听力阈值。
优选的,所述时序Transformer编码器包括输入嵌入层、位置编码层、自注意力机制层、前馈神经网络层以及输出层;
由加权后的多模态特征向量和频率/强度参数融合后的特征被输入到输入嵌入层,通过一个全连接层进行映射,得到每个时间步的特征表示;再通过位置编码层来引入序列的顺序信息;
经过位置编码层处理后的特征,通过自注意力机制层捕捉时间序列中各时间步之间的依赖关系,计算每个时间步和其他时间步之间的加权关系,得到每个时间步的注意力权重,基于每个时间步的注意力权重得到每个时间步的加权表示;将每个时间的步的加权表示输入到前馈神经网络层进行非线性变化,经过非线性变化后的特征表示进入到输出层,通过一个全连接层映射为预测的听力年龄。
本发明的有益效果包括:
本发明基于构建的音频库生成不同信噪比的音频数据,结合环境噪声和目标信号,确保能够覆盖各种噪声条件下的听力测试需求;其次,利用探管麦克风测量用户耳道的声学传递函数,并结合头相关传递函数生成个性化的声学传递函数,从而准确反映个体的耳道声学特性,避免传统方法中的一刀切假设;接着,借助EEG数据提取时域和时频特征,结合双耳仿真麦克风的空间定位特征,进一步量化用户的听觉反应能力和空间听觉能力;通过多模态听觉特征向量的构建,结合多头注意力机制对特征进行加权,从而更精确地预测听力阈值;最后,结合用户年龄和标准阈值,通过时序Transformer编码器预测用户的听力年龄,并根据预测结果评估听力衰退;使得能够精准地适应每个用户的个性化差异,克服传统听力筛查方法中忽略个体差异和复杂环境噪声的缺陷,从而提高筛查结果的准确性,确保能够在多变的听力环境下提供有效的听力评估。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1 为本发明实施例提供的整体步骤框图。
图2为本发明实施例提供的整体数据处理逻辑的流程示意框图。
具体实施方式
为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参见图1和图2所示,基于声学特征分析的自适应听力筛查优化方法,包括以下步骤:
步骤1:基于所构建的音频库,生成包含125Hz到8kHz的纯音、标准语音材料和多类环境噪声,并通过设置不同的信噪比将噪声和目标信号叠加,形成多种信噪比的音频数据;
示例性的,音频库中包含了三类音频内容:
纯音:选择频率范围从125Hz到8kHz的纯音(包括低频、中频和高频),每个纯音信号的持续时间选择为500ms或大于500ms,确保频率响应准确;
标准语音材料:选择标准的语言语音材料,例如字母、数字、常用词或短句;
环境噪声:如城市噪声、家庭背景噪声、办公室噪声等;
信噪比(SNR)的设置:通过设置不同的信噪比,模拟不同环境下的听力挑战,SNR的设置涵盖从低信噪比到高信噪比,其中信噪比的计算公式如下:;式中:表示信号的功率;表示噪声的功率;表示信噪比,以分贝表示;
在本实施例中,为了覆盖多种听力场景,我们可以选择多个SNR值,例如:-10dB、0dB、10dB、20dB等,形成具有不同噪声干扰强度的音频样本;
音频信号合成:将不同类型的环境噪声与纯音和标准语音材料叠加,形成最终的音频样本,具体步骤如下:
纯音与噪声合成:选定一个频率的纯音信号(例如1000Hz),并根据选择的SNR值将其与环境噪声迭代;示例性的,在-dB的SNR下,噪声的功率会比纯音信号高很多,而在30dB的SNR下,纯音信号则比噪声强的多;
标准语音与噪声合成:与所述纯音与噪声的合成相似,将标准语音材料与不同的噪声信号进行叠加,产生具有不同噪声干扰的语音信号;
上述纯音与噪声合成、标准语音与噪声合成可以参照如下公式进行混合:;式中:表示混合后的音频信号;表示原始目标信号(纯音或语音信号);表示噪声信号;表示噪声的缩放因子,用于控制噪声强度与信号强度的比例,根据选择的SNR计算得到:;
基于上述过程生成一个多信噪比、多种类的音频数据集;音频数据集中包括了不同噪声类型、纯音频率范围、语音内容以及不同SNR设置。
步骤2:采用探管麦克风测量用户耳道的声学传递函数,结合头相关传递函数数据库生成个性化的声学传递函数;
所述步骤2包括以下步骤:
测量纯音信号:通过外部扬声器播放多频段的纯音刺激(例如125Hz、250Hz等等),同时采用探管麦克风插入耳道内记录该纯音刺激经过耳道后的声波响应,得到测量信号;
计算耳道的声学传递函数:设和 为输入信号和输出信号在频域的表示,基于输入信号和测量到的输出信号,在频域中计算耳道的声学传递函数:;
式中:为耳道的频率响应,即声学传递函数;和分别表示输入信号和输出信号的频域的表示;
对应的时域信号计算为:;
其中:表示逆傅里叶变换;
用户HRTF获取:基于用户的个体体征从标准HRTF数据库中推断出适用的HRTF函数;
示例性的,用户的个体特征包括头部的长度、宽度以及耳道的长度和耳廓的高度;
将用户个体特征形成的特征向量和数据库中的每个用户的特征向量计算欧几里得距离,得到相似度,选择相似度最高的N个个体数据;
对所述N个个体数据进行加权平均,得到推断出的HRTF函数;
合成个性化声学传递函数:基于推断出的HRTF函数以及计算的耳道的声学传递函数进行乘积运算得到用户的个性化声学传递函数:;
式中:表示推断出的HRTF函数;
作为本实施例的进一步的实现方式,在所述步骤2中设计个性化的耳道传递函数后,采用FIR滤波器反向补偿耳机频响,包括以下步骤:
测量耳机频响:将标准的纯音信号通过耳机播放,并使用探管麦克风记录耳机输出的信号,并基于耳机输出的信号计算耳机的频率响应:;式中:表示耳机输出信号的频域表示;表示输入信号的频域表示;表示耳机的频率响应;
FIR滤波器:通过FIR滤波器对耳机的输出进行补偿:;式中:表示滤波器的频率响应;
基于频率响应采用离散傅里叶变换得到FIR滤波器系数,基于滤波器的系数对输出信号进行反向补偿:;
式中:表示卷积操作;表示输入信号的时域表示;表示输出信号的时域表示。
步骤3:通过人工头搭载双耳仿真麦克风播放校准后的音频,并记录双耳音频信号,同时通过光耦合硬件触发器同步音频播放和EEG设备,得到脑电图(EEG)数据,并对EEG数据进行预处理,基于预处理后的EEG数据提取时域特征和时频特征;
所述步骤3中EEG数据的获取和预处理的步骤如下:
双耳音频信号播放:采用校准后的音频信号,通过人工搭载双耳仿真麦克风播放,其中音频信号包括多段纯音、标准语音材料以及多类环境噪声,并设置不同的信噪比,形成不同的测试情景;在测试过程中双耳播放的音频信号通过光耦合硬件触发器同步EEG设备,EEG设备记录大脑对双耳音频信号的神经反应,同时保证音频播放与EEG记录之间的时间同步;
EEG信号预处理:对EEG信号进行多尺度小波变换,将信号分解为多个尺度的子信号;对每个尺度的子信号进行软阈值去噪,去除高频噪声;对去噪后的信号进行自适应滤波,去除由伪影引入的噪声;经过处理后的信号通过逆小波变换进行重构,得到预处理后的EEG信号,具体的技术方案如下:;
式中:表示在尺度a和位移b下的小波变换系数;表示原始EEG信号;表示母小波函数;a表示尺度因子;b表示平移因子;
在小波变换后的各尺度系数上进行阈值处理:
;
式中:为阈值后的系数;表示阈值;
通过阈值处理后,将信号中的噪声系数削弱或去除,保留重要的脑电信号成分;
自适应滤波:设去噪后的输入信号为,噪声信号为,目标信号为,滤波器的输出为:;
式中:表示输入信号的特征向量;w表示滤波器的权重;表示均方误差;
根据LMS算法,滤波器权重在每个时间步更新为:;式中:表示学习步长;
在自适应滤波处理后得到信号基于信号进行逆小波变换重构,得到最终去噪且滤波后的EEG信号:
所述提取时域特征和时频特征包括以下步骤:
时域特征提取:经过预处理后的EEG信号进行时域分析,提取平均电位、波幅和波形复杂性特征,得到提取的时域特征;其中平均点位通过计算信号在给定时间窗口内的均值来量化EEG信号的全局电位水平;波幅通过计算信号的最大值和最小值的差异来衡量EEG信号的强度;波形复杂性通过样本熵衡量信号的复杂性,反映EEG信号的非线性和不可预测性;
时频特征提取:采用小波变换对预处理后的EEG信号进行时频分析,提取每个频段的特征:;
式中:表示EEG信号;表示小波函数;t和f分别表示时间和频率;
通过小波变换提供信号的瞬时频率信息,计算每个频段的能量密度,反映用户大脑在不同频率下的响应情况。
步骤4:基于滤波器处理双耳音频信号,得到各频带的时域包络,再计算各频带的时域包络的动态范围压缩比;基于互相关法计算双耳信号的时差和能量比,并使用个性化的声学传递函数和标准的声学传递函数库进行相似度计算,量化用户的空间定位能力,得到空间听觉特征;基于所述时域特征、时频特征以及空间听觉特征构建统一的多模态听觉特征向量;
所述步骤4包括以下步骤:
滤波器处理双耳音频信号:采用带通滤波器将双耳音频信号分解为多个频段,每个频段包含音频信号在该频段上的能量分布:假设信号通过一个带通滤波器后得到频带i的滤波输出信号,其带通滤波器的传递函数为,则滤波过程的数学表达为:;
式中:表示逆傅里叶变换;表示傅里叶变换;
基于此,通过带通滤波器将信号分解为多个频段,每个频段包含音频信号在该频段上的能量分布;
时域包络提取及动态范围压缩比:在每个频段上,通过包络检测器提取出信号的时域包络,在提取时,采用希尔伯特变换来得到时域包络;在计算每个频段的时域包括的动态范围压缩比:
其中时域包络的计算公式如下:;式中:表示第i个频带的时域包络;表示信号的绝对值;
在本实施例中,为了减少低频成分的影响,采用希尔波特变换来得到包络:;
式中:表示希尔波特变换;
再计算每个频带的时域包络的动态范围压缩比,其中动态范围压缩的计算公式如下:;
式中:表示频带i的包络信号的最大值;表示频带i的包络信号的最小值;表示频带i的包络信号的均值;
再本实施例中动态范围压缩比对应的高值表示信号在该频段的变化较为剧烈,低值表示信号变化较为平稳;
互相关计算双耳信号的时差和能量比:通过计算双耳信号之间的延迟来估计时差;再通过计算双耳信号的均方值来得到能量比;
时差计算:假设左耳信号为,右耳信号为,则互相关函数定义为:;
式中:表示时延;最大互相关位置对应的时差为:;在本实施例中,时差反映了双耳信号达到大脑的相对时间差,影响空间定位;
能量比计算:能量比为左耳和右耳信号的能量比值,通过计算两个信号的均方值得到,设左耳信号和右耳信号的能量分别为和,则能量比为:
;
在本实施例中,能量比反映了左右耳之间的声音强度差异,影响空间定位的精度。
相似度计算:采用个性化的声学传递函数和标准化的声学传递函数库中传递函数来计算两个函数之间的相似度;其中相似度采用互归一化相关性作为相似度度量;
基于在前序过程中得到的个性化声学传递函数与标准化的声学传递函数库中的传递函数来计算互归一化相关性:
;
式中:表示标准传递函数;表示归一化相似度;
在本实施例中相似度计算进一步细化了空间定位的量化,为每个用户提供了个个性化的空间定位能力评估。
构建多模态听觉特征向量:将时域特征、时频特征和空间听觉特征中提取的所有特征进行拼接,构建一个统一的多模态听觉特征向量,其中空间听觉特征包括了动态范围压缩比、时差、能量比和声学传递函数相似度。
步骤5:基于多模态听觉特征向量采用多头注意力机制对多模态特征向量进行加权,得到加权后的多模态特征向量;
在所述多头注意力机制对多模态特征向量进行加权时,引入特征重要性权重来调整注意力权重,包括以下步骤:
特征重要性计算:基于多头注意力机制中的输入向量中的每个子特征的方差、阈值的相关性和不同噪声条件下的鲁棒性计算特征重要性:;;;
式中:、、分别表示时域特征、时频特征和空间听觉特征的方差;、、分别表示时域特征、时频特征和空间听觉特征的相关性;、、分别表示时域特征、时频特征和空间听觉特征的鲁棒性;、、表示超参数,用于调整方差、相关性和鲁棒性对特征重要性计算的贡献;
其中时域特征、时频特征和空间听觉特征的相关性通过计算每个特征与目标的Pearson相关系数,得到每个模态特征的相关性;
时域特征、时频特征和空间听觉特征的鲁棒性通过模拟不同噪声环境,添加高斯噪声,再通过计算噪声加入后特征变化来评估稳定性,其中特征变化通过计算原始特征和加入高斯噪声后的的特征之间的欧氏距离距离来评估;若稳定性高的特征表现为噪声下变化较小,则其鲁棒性较好。
基于计算的时域特征、时频特征和空间听觉特征的重要性进行归一化,得到各个模态的特征重要性权重;
特征重要性与注意力权重结合:对每个模态的查询和键进行加权时引入特征重要性权重来得到注意力权重:;
式中:表示每个模态的特征重要性权重;表示查询向量和键向量的内积;表示缩放因子;表示函数,对内积结果采用函数,确保所有注意力权重是正数且总和为1;
基于所计算的注意力权重为每个特征进行加权;
在本实施例通过总和考虑多个因素来动态评估特征的重要性,而并非依赖传统的基于相关性的注意力机制,可以更好的适应不同用户,不同环境下的听力筛查任务。
步骤6:基于加权后的多模态特征向量和频率/强度参数,通过深度神经网络模型进行听力阈值预测,输出每个频率点的阈值偏差,再结合传统纯音测听法得到标准阈值;
所述步骤6包括以下步骤:
特征构建:将加权后的多模态特征向量和频率/强度参数进行拼接,得到拼接后的特征向量;
听力阈值偏差预测:将所述拼接后的特征向量作为训练好的深度神经网络模型的输入,通过深度神经网络模型预测得到听力阈值偏差;
示例性的,所述深度神经网络模型包括输入层、多个全连接层以及输出层,所述每个全连接层均采用ReLU激活函数来捕捉非线性关系;其中损失函数采用均方误差损失函数;在训练过程中为了最小化损失函数采用Adam优化器来进行优化。
纯音测听法阈值:基于纯音测听法得到听力阈值;需要说明的是纯音测听法为目前常见的听力测试方法,通过对纯音音频信号进行测量,确定个体能够听到的声音的最低强度或最低可听见音调。
阈值融合:将纯音测听法得到的听力阈值和听力阈值偏差进行求和,并基于求和得到的值与纯音测听法得到的听力阈值进行加权融合,得到标准阈值;;
式中:表示融合后的第i个频率点的听力阈值;和表示待优化的权重参数,和为1;表示传统方法测得的真实阈值;表示深度神经网络模型预测的听力阈值偏差。
其中加权融合时的权重基于贝叶斯优化得到,其中贝叶斯优化的目标函数如下:
;
式中:表示真实的第i个频点的听力阈值;表示融合后的第i个频点的听力阈值。
基于所述贝叶斯进行优化的流程如下:
初始采样:随机选择一些初始点进行采样,计算目标函数值;
高斯过程建模:使用选择的初始点构建高斯过程模型,作为目标函数的代理模型;
选择下一个采样点:在代理模型上寻找下一个采样点,通过最大化预期改进函数来选择;
更新模型:在新的采样点计算目标函数值,并更新高斯过程模型;
迭代:重复选择采样点和更新模型的步骤,直到收敛或达到预设的迭代次数。
通过贝叶斯优化得到最优权重,然后再实际应用中采用权重来进行加权融合,得到每个频率点的标准阈值;
步骤7:基于所述多模态特征向量、用户实际年龄以及标准阈值,采用时序Transformer编码器预测用户的听力年龄,基于预测的听力年龄对用户的听力进行衰退评估;
在本实施例中时序Transformer编码器的输入包括多模态听觉特征向量,用户实际年龄以及标准阈值,我们将输入特征进行组合得到输入时序Transformer编码器的输入特征向量,示例性的输入特征向量如下:;
其中:表示标准阈值;表示用户年龄;表示多模态听觉特征向量;
输入嵌入:首先将输入的特征进行嵌入,得到每个时间步的表示,通过一个全连接层进行映射:;
位置编码:通过位置编码来引入序列的顺序信息,通过正弦和余弦函数来生成:
;
式中:t表示时间步;i表示维度索引;d表示特征向量的维度;自注意力机制:通过自注意力机制来捕捉时间序列中各时间步之间的依赖关系,计算每个时间步与其他时间步之间的加权关系,将经过位置编码的特征作为输入,自注意力机制的计算过程如下:;;;;
式中:、、分别表示查询、键和值的矩阵;、、分别表示权重矩阵;d表示特征维度;
前馈神经网络:在自注意力加权后,经过一层前馈神经网络来增加非线性变换:
;
式中:、、表示权重矩阵;和均表示偏置项;表示通过注意力机制加权后的输入特征表示;
在时序Transformer编码器输出后得到一个包含历史事件步的表示该表示结合了各个时间步的特征,通过一个全连接层将该表示映射为预测的听力年龄;
在听力预测完成后,衰退评估为对比预测的听力年龄和实际的年龄,得到听力衰退程度;;
式中:表示实际年龄;
若显著高于,则表明用户存在较为严重的听力衰退;若低于则表明用户听力功能良好。
在本实施例的步骤5中通过多头注意力机制对不同模态的特征进行加权和融合,关注特征层面上的加权,在步骤7中时序Transformer注意力机制,则专注于时间维度,捕捉不同时间步之间的依赖关系,对时间序列数据中的时间信息进行建模,帮助模型学习如何根据历史信息预测未来状态,两个注意力机制相互补充,增强了模型的表达能力。
以上仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.基于声学特征分析的自适应听力筛查优化方法,其特征在于,包括以下步骤:
步骤1:基于所构建的音频库,生成包含125Hz到8kHz的纯音、标准语音材料和多类环境噪声,并通过设置不同的信噪比将噪声和目标信号叠加,形成多种信噪比的音频数据;
步骤2:采用探管麦克风测量用户耳道的声学传递函数,结合头相关传递函数数据库生成个性化声学传递函数;
所述步骤2包括以下步骤:
测量纯音信号:通过外部扬声器播放多频段的纯音刺激,同时采用探管麦克风插入耳道内记录该纯音刺激经过耳道后的声波响应,得到测量信号;
计算耳道的声学传递函数:基于输入信号和测量得到的输出信号,在频域中计算耳道的声学传递函数:;式中:为耳道的频率响应,即声学传递函数;和分别表示输入信号和输出信号的频域的表示;
用户HRTF获取:基于用户的个体体征从标准HRTF数据库中推断出适用的HRTF函数;
合成个性化声学传递函数:基于推断出的HRTF函数以及计算的耳道的声学传递函数的乘积得到用户的个性化声学传递函数;
步骤3:通过人工头搭载双耳仿真麦克风播放校准后的音频,并记录双耳音频信号,同时通过光耦合硬件触发器同步音频播放和EEG设备,得到EEG数据,并对EEG数据进行预处理,基于预处理后的EEG数据提取时域特征和时频特征;
步骤4:基于滤波器处理双耳音频信号,得到各频带的时域包络,再计算各频带的时域包络的动态范围压缩比;基于互相关法计算双耳信号的时差和能量比,并使用个性化的声学传递函数和标准的声学传递函数库进行相似度计算,量化用户的空间定位能力,得到空间听觉特征;基于所述时域特征、时频特征以及空间听觉特征构建统一的多模态听觉特征向量;
步骤5:基于多模态听觉特征向量采用多头注意力机制对多模态特征向量进行加权,得到加权后的多模态特征向量;
步骤6:基于加权后的多模态特征向量和频率/强度参数,通过深度神经网络模型进行听力阈值预测,输出每个频率点的阈值偏差,再结合传统纯音测听法得到标准阈值;
步骤7:基于所述多模态特征向量、用户实际年龄以及标准阈值,采用时序Transformer编码器预测用户的听力年龄,基于预测的听力年龄对用户的听力进行衰退评估。
2.根据权利要求1所述的基于声学特征分析的自适应听力筛查优化方法,其特征在于,在所述步骤2中设计个性化声学传递函数后,采用FIR滤波器反向补偿耳机频响,包括以下步骤:
测量耳机频响:将标准的纯音信号通过耳机播放,并使用探管麦克风记录耳机输出的信号,并基于耳机输出的信号计算耳机的频率响应:;
式中:表示耳机输出信号的频域表示;表示输入信号的频域表示;表示耳机的频率响应;
FIR滤波器:通过FIR滤波器对耳机的输出进行补偿:;
式中:表示滤波器的频率响应;
基于频率响应采用离散傅里叶变换得到FIR滤波器系数,基于滤波器的系数对输出信号进行反向补偿:式中:表示卷积操作;表示输入信号的时域表示;表示输出信号的时域表示。
3.根据权利要求1所述的基于声学特征分析的自适应听力筛查优化方法,其特征在于,所述步骤3中EEG数据的获取和预处理的步骤如下:
双耳音频信号播放:采用校准后的音频信号,通过人工搭载双耳仿真麦克风播放,其中音频信号包括多段纯音、标准语音材料以及多类环境噪声,并设置不同的信噪比,形成不同的测试情景;在测试过程中双耳播放的音频信号通过光耦合硬件触发器同步EEG设备,EEG设备记录大脑对双耳音频信号的神经反应,同时保证音频播放与EEG记录之间的时间同步;
EEG信号预处理:对EEG信号进行多尺度小波变换,将信号分解为多个尺度的子信号;对每个尺度的子信号进行软阈值去噪,去除高频噪声;对去噪后的信号进行自适应滤波,去除由伪影引入的噪声;经过处理后的信号通过逆小波变换进行重构,得到预处理后的EEG信号。
4.根据权利要求1所述的基于声学特征分析的自适应听力筛查优化方法,其特征在于,所述提取时域特征和时频特征包括以下步骤:
时域特征提取:经过预处理后的EEG信号进行时域分析,提取平均电位、波幅和波形复杂性特征,得到提取的时域特征;
时频特征提取:采用小波变换对预处理后的EEG信号进行时频分析,提取每个频段的特征。
5.根据权利要求1所述的基于声学特征分析的自适应听力筛查优化方法,其特征在于,所述步骤4包括以下步骤:
滤波器处理双耳音频信号:采用带通滤波器将双耳音频信号分解为多个频段,每个频段包含音频信号在该频段上的能量分布;
时域包络提取及动态范围压缩比:在每个频段上,通过包络检测器提取出信号的时域包络,在提取时,采用希尔伯特变换来得到时域包络;在计算每个频段的时域包括的动态范围压缩比;
互相关计算双耳信号的时差和能量比:通过计算双耳信号之间的延迟来估计时差;再通过计算双耳信号的均方值来得到能量比;
相似度计算:采用个性化的声学传递函数和标准化的声学传递函数库中传递函数来计算两个函数之间的相似度;其中相似度采用互归一化相关性作为相似度度量;
构建多模态听觉特征向量:将时域特征、时频特征和空间听觉特征中提取的所有特征进行拼接,构建一个统一的多模态听觉特征向量。
6.根据权利要求1所述的基于声学特征分析的自适应听力筛查优化方法,其特征在于,在所述多头注意力机制对多模态特征向量进行加权时,引入特征重要性权重来调整注意力权重,包括以下步骤:
特征重要性计算:基于多头注意力机制中的输入向量中的每个子特征的方差、阈值的相关性和不同噪声条件下的鲁棒性计算特征重要性:;;;式中:、、分别表示时域特征、时频特征和空间听觉特征的方差;、、分别表示时域特征、时频特征和空间听觉特征的相关性;、、分别表示时域特征、时频特征和空间听觉特征的鲁棒性;、 表示超参数,用于调整方差、相关性和鲁棒性对特征重要性计算的贡献;
基于计算的时域特征、时频特征和空间听觉特征的重要性进行归一化,得到各个模态的特征重要性权重;
特征重要性与注意力权重结合:对每个模态的查询和键进行加权时引入特征重要性权重来得到注意力权重:;
式中:表示每个模态的特征重要性权重;表示查询向量和键向量的内积;表示缩放因子;表示函 数,对内积结果采用函数,确保所有注意力权重是正数且总和为1。
7.根据权利要求1所述的基于声学特征分析的自适应听力筛查优化方法,其特征在于,所述步骤6包括以下步骤:
特征构建:将加权后的多模态特征向量和频率/强度参数进行拼接,得到拼接后的特征向量;
听力阈值偏差预测:将所述拼接后的特征向量作为训练好的深度神经网络模型的输入,通过深度神经网络模型预测得到听力阈值偏差;
纯音测听法阈值:基于纯音测听法得到听力阈值;
阈值融合:将纯音测听法得到的听力阈值和听力阈值偏差进行求和,并基于求和得到的值与纯音测听法得到的听力阈值进行加权融合,得到标准阈值;其中加权融合时的权重基于贝叶斯优化得到,其中贝叶斯优化的目标函数如下:;
式中:表示真实的第i个频点的听力阈值;表示融合后的第i个频点的听力阈值。
8.根据权利要求1所述的基于声学特征分析的自适应听力筛查优化方法,其特征在于,所述时序Transformer编码器包括输入嵌入层、位置编码层、自注意力机制层、前馈神经网络层以及输出层;
由加权后的多模态特征向量和频率/强度参数融合后的特征被输入到输入嵌入层,通过一个全连接层进行映射,得到每个时间步的特征表示;再通过位置编码层来引入序列的顺序信息;
经过位置编码层处理后的特征,通过自注意力机制层捕捉时间序列中各时间步之间的依赖关系,计算每个时间步和其他时间步之间的加权关系,得到每个时间步的注意力权重,基于每个时间步的注意力权重得到每个时间步的加权表示;将每个时间的步的加权表示输入到前馈神经网络层进行非线性变化,经过非线性变化后的特征表示进入到输出层,通过一个全连接层映射为预测的听力年龄。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510431366.2A CN119924826B (zh) | 2025-04-08 | 2025-04-08 | 基于声学特征分析的自适应听力筛查优化方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510431366.2A CN119924826B (zh) | 2025-04-08 | 2025-04-08 | 基于声学特征分析的自适应听力筛查优化方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN119924826A CN119924826A (zh) | 2025-05-06 |
| CN119924826B true CN119924826B (zh) | 2025-06-10 |
Family
ID=95545082
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510431366.2A Active CN119924826B (zh) | 2025-04-08 | 2025-04-08 | 基于声学特征分析的自适应听力筛查优化方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119924826B (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120585319B (zh) * | 2025-08-04 | 2025-11-04 | 杭州汇听科技有限公司 | 基于assr结果反馈的听觉检测方法及系统 |
| CN120602882B (zh) * | 2025-08-08 | 2025-10-10 | 深圳市泉音丽声科技有限公司 | 一种空间音频的测试方法 |
| CN120954287B (zh) * | 2025-10-14 | 2025-12-23 | 四川师范大学 | 一种英语教学用听力训练系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109480859A (zh) * | 2018-12-20 | 2019-03-19 | 江苏贝泰福医疗科技有限公司 | 一种自动修正环境噪声影响的听力测试方法及听力筛查仪 |
| CN112315462A (zh) * | 2020-11-02 | 2021-02-05 | 深圳镭洱晟科创有限公司 | 一种多功能听力评估耳机及其评估方法 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5825894A (en) * | 1994-08-17 | 1998-10-20 | Decibel Instruments, Inc. | Spatialization for hearing evaluation |
| CN1260104A (zh) * | 1995-12-20 | 2000-07-12 | 戴西伯仪器有限公司 | 用于非辅助、模拟辅助和辅助听觉评价的虚拟电声听力测试法 |
| US6602202B2 (en) * | 2000-05-19 | 2003-08-05 | Baycrest Centre For Geriatric Care | System and methods for objective evaluation of hearing using auditory steady-state responses |
| CN103239236B (zh) * | 2013-04-27 | 2016-08-17 | 江苏贝泰福医疗科技有限公司 | 听力测试与听觉评估装置 |
| WO2016065137A1 (en) * | 2014-10-22 | 2016-04-28 | Small Signals, Llc | Information processing system, apparatus and method for measuring a head-related transfer function |
| US9497530B1 (en) * | 2015-08-31 | 2016-11-15 | Nura Holdings Pty Ltd | Personalization of auditory stimulus |
| US11607155B2 (en) * | 2018-03-10 | 2023-03-21 | Staton Techiya, Llc | Method to estimate hearing impairment compensation function |
| EP3669780B1 (en) * | 2018-12-21 | 2023-10-04 | Audiodo AB (publ) | Methods, devices and system for a compensated hearing test |
| CN114305403A (zh) * | 2021-12-31 | 2022-04-12 | 无锡矽太益耳听力科技有限公司 | 一种自动校准的听力智能筛查方法和装置 |
| CN117153387A (zh) * | 2023-08-07 | 2023-12-01 | 四川大学 | 一种高噪声暴露听力损伤个体早期风险预警系统及方法 |
| CN118614910B (zh) * | 2024-08-12 | 2024-10-11 | 中国人民解放军空军特色医学中心 | 一种听力筛查装置 |
-
2025
- 2025-04-08 CN CN202510431366.2A patent/CN119924826B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109480859A (zh) * | 2018-12-20 | 2019-03-19 | 江苏贝泰福医疗科技有限公司 | 一种自动修正环境噪声影响的听力测试方法及听力筛查仪 |
| CN112315462A (zh) * | 2020-11-02 | 2021-02-05 | 深圳镭洱晟科创有限公司 | 一种多功能听力评估耳机及其评估方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN119924826A (zh) | 2025-05-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN119924826B (zh) | 基于声学特征分析的自适应听力筛查优化方法 | |
| CN107358966B (zh) | 基于深度学习语音增强的无参考语音质量客观评估方法 | |
| CN106558308B (zh) | 一种互联网音频数据质量自动打分系统及方法 | |
| Edraki et al. | Speech intelligibility prediction using spectro-temporal modulation analysis | |
| JPH08314884A (ja) | 入力信号を特性化するための方法及び装置 | |
| CN109328380A (zh) | 具有噪声模型适配的递归噪声功率估计 | |
| Mawalim et al. | Non-intrusive speech intelligibility prediction using an auditory periphery model with hearing loss | |
| Nossier et al. | Mapping and masking targets comparison using different deep learning based speech enhancement architectures | |
| CN119052696B (zh) | 一种基于声纹识别及反向波抵消降风噪的耳机控制方法 | |
| CN119815240A (zh) | 蓝牙耳机的混合降噪方法及系统 | |
| CN117041847B (zh) | 用于助听器中自适应传声器匹配方法及系统 | |
| Patil et al. | Marathi speech intelligibility enhancement using I-AMS based neuro-fuzzy classifier approach for hearing aid users | |
| Liang et al. | A non-invasive speech quality evaluation algorithm for hearing aids with multi-head self-attention and audiogram-based features | |
| Magadum et al. | An innovative method for improving speech intelligibility in automatic sound classification based on relative-CNN-RNN | |
| CN120412657A (zh) | 一种基于脑神经模型的音频特征提取方法 | |
| CN116453547B (zh) | 基于听损分类的助听器语音质量自评价方法 | |
| Bondy et al. | Predicting speech intelligibility from a population of neurons | |
| Mawalim et al. | Auditory Model Optimization with Wavegram-CNN and Acoustic Parameter Models for Nonintrusive Speech Intelligibility Prediction in Hearing Aids | |
| Mahmmod et al. | Speech Enhancement: A Review of Various Approaches, Trends, and challenges | |
| CN117692855B (zh) | 一种助听器语音质量评价方法及系统 | |
| Mamun et al. | Prediction of behavioral speech intelligibility using a computational model of the auditory system | |
| CN119296588B (zh) | 一种基于扩散增强和多粒度特征融合的语音情感识别方法 | |
| Abdallah Abdelhafiz Nossier | Deep Learning-based Speech Enhancement for Real-life Applications | |
| Mourad et al. | Recurrent neural network and bionic wavelet transform for speech enhancement | |
| Stoeckle et al. | Environmental sound sources classification using neural networks |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |