[go: up one dir, main page]

CN112102818B - 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 - Google Patents

结合语音活性检测和滑动窗噪声估计的信噪比计算方法 Download PDF

Info

Publication number
CN112102818B
CN112102818B CN202011297932.9A CN202011297932A CN112102818B CN 112102818 B CN112102818 B CN 112102818B CN 202011297932 A CN202011297932 A CN 202011297932A CN 112102818 B CN112102818 B CN 112102818B
Authority
CN
China
Prior art keywords
frame
energy
entropy
activity detection
voice activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011297932.9A
Other languages
English (en)
Other versions
CN112102818A (zh
Inventor
胡岸
何云鹏
许兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202011297932.9A priority Critical patent/CN112102818B/zh
Publication of CN112102818A publication Critical patent/CN112102818A/zh
Application granted granted Critical
Publication of CN112102818B publication Critical patent/CN112102818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

结合语音活性检测和滑动窗噪声估计的信噪比计算方法,包括以下步骤:S1.对输入的带噪语音进行逐帧处理,S2.设置滑动窗,对窗内频谱的每一个频点的最小值进行持续更新;S3.求出每一帧的帧能量f和帧谱熵;S4.根据帧能量和帧谱熵是否同时大于各自的设定门限值,判断是否处于语音活性检测状态;S5.处于语音活性检测状态时,进行帧信噪比的求取和更新。本发明通过判断是否符合语音活性检测状态控制帧信噪比更新时机,可以判断出环境即时状态,从而更为有效和准确的更新帧信噪比。

Description

结合语音活性检测和滑动窗噪声估计的信噪比计算方法
技术领域
本发明属于人工智能技术领域,涉及语音识别,具体涉及一种结合语音活性检测和滑动窗噪声估计的信噪比计算方法。
背景技术
语音应用场景日渐丰富,不同的应用场景往往都是伴随着噪声的。这些语音相关应用需求比如分贝检测议等工具,语音识别、阵列信号处理等等语音技术也会需要信噪比或者根据信噪比来优化体验。因此需要获取准确的信噪比估计,首先需要对背景噪声进行一个较为准确的实时估计,其次需要决定什么时候去对信噪比进行更新。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种结合语音活性检测和滑动窗噪声估计的信噪比计算方法。
本发明所述结合语音活性检测和滑动窗噪声估计的信噪比计算方法,包括以下步骤:
S1.对输入的带噪语音进行逐帧处理,每帧数据对其进行短时傅里叶变换后得到频谱Y(k,l),其中k为频点频率,l为帧数;
S2.设置滑动窗,对窗内频谱的每一个频点的最小值进行持续更新;
所述持续更新的具体方式为:
以第一帧每个频点的频谱幅度
Figure 601763DEST_PATH_IMAGE001
平方值之和作为背景能量初始值;从第二帧开始,该帧每个频点与该帧前且位于窗内全部帧的相同频点值进行比较并选择最小值,在求得单一频点的最小值后,对该帧逐频点更新,得到该帧全频段的背景能量最小值;
S3.求出每一帧的帧能量frame_energy和帧谱熵frame_entropy;
S4.根据帧能量frame_energy和帧谱熵frame_entropy是否同时大于各自的设定门限值,判断是否处于语音活性检测状态;
S5.处于语音活性检测状态时,进行帧信噪比的求取和更新。
优选的:所述步骤S2中,背景能量最小值的更新方程为:
Figure 568058DEST_PATH_IMAGE002
其中min(k,l)为频点k的更新前最小值,frame_energy为帧能量; back_energy(l)为第l帧的背景能量;α为背景能量平滑参数,N为傅里叶变换的点数。
优选的:第l帧的帧能量
Figure 958588DEST_PATH_IMAGE003
帧谱熵frame_entropy,采取以下公式进行估计,其中N为傅里叶变换的点数:
Figure 459102DEST_PATH_IMAGE004
p(k,l)为每一个频点的功率谱占整帧功率谱的比重,其中k是频点频率,l是帧数。
优选的:所述步骤S4中设定门限值与背景谱熵线性相关,
第l帧的所述背景谱熵back_entropy(l)的计算公式为:
Figure 694911DEST_PATH_IMAGE005
;其中β为背景帧谱熵平滑参数,l为帧数。
优选的:所述步骤S4具体为:
当帧能量frame_energy和帧谱熵frame_entropy同时大于各自的设定门限值,定义该状态为状态1,否则为状态2;
在状态1下,语音计数帧voice_frame的值加1,安静计数帧silence_frame的值为0;
在状态2下,安静计数帧silence_frame的值加1, 语音计数帧voice_frame的值为0;
仅在状态1连续出现次数达到设定的状态1次数阈值,判断语音活性检测状态为1,即认为处于语音活性检测状态。
优选的:所述步骤S5中帧信噪比在语音活性检测状态为1时根据如下公式求得,
第l帧的帧信噪比:
Figure 971172DEST_PATH_IMAGE006
γ为帧信噪比平滑参数,frame_energy(l)为第l帧的帧能量,back_energy(l)为第l帧的背景能量。
本发明通过语音活性检测状态控制帧信噪比的更新时机,可以判断出环境即时状态,从而更为有效和准确的更新帧信噪比。
附图说明
图1是本发明所述信噪比计算方法的一个具体实施方式流程示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述结合语音活性检测和滑动窗噪声估计的信噪比计算方法,包括以下步骤:
S1.对输入的带噪语音进行逐帧处理,每帧数据对其进行短时傅里叶变换后得到频谱Y(k,l),其中k为频点频率,l为帧数;
S2.设置滑动窗,对窗内频谱的每一个频点的最小值进行持续更新;
所述持续更新的具体方式为:
以第一帧每个频点的频谱幅度
Figure 267024DEST_PATH_IMAGE007
平方值作为背景能量初始值;从第二帧开始,该帧每个频点与该帧前且位于窗内全部帧的相同频点值进行比较并选择最小值,在求得单一频点的最小值后,对该帧逐频点更新,得到该帧全频段的背景能量最小值;
S3.求出每一帧的帧能量和帧谱熵frame_entropy;
S4.根据帧能量frame_energy和帧谱熵frame_entropy是否同时大于设定门限值,判断是否处于语音活性检测状态,是则处于,否则不处于;
S5.处于语音活性检测状态时,进行帧信噪比的求取和更新。
具体方式为:
以第一帧每个频点的频谱幅度Y(k,l)平方值之和作为背景能量初始值;从第二帧开始,该帧每个频点与该帧前且位于窗内全部帧的相同频点值进行比较并选择最小值,在求得单一频点的最小值后,对该帧逐频点更新,得到该帧全频段的背景能量最小值;
S3.求出每一帧的帧能量和帧谱熵frame_entropy;
S4.根据帧能量frame_energy和帧谱熵frame_entropy是否同时大于各自的设定门限值的连续持续次数,判断是否处于语音活性检测状态;
S5.处于语音活性检测状态时,进行帧信噪比的求取和更新
如图1所示,对输入的带噪语音y进行逐帧处理,以滑动窗更新背景能量最小值,求出每一帧的帧能量和帧谱熵,判断是否处于语音活性检测状态后进行帧信噪比snr 的更新输出。
逐帧处理中,每帧数据对其进行短时傅里叶变换后得到频谱Y(k,l);其频谱幅度
Figure 929867DEST_PATH_IMAGE008
;其中k代表的是频点频率,l代表的是帧数。
设置滑动窗,通过滑动窗对窗内频谱的每一个频点的最小值进行持续更新,并通过平滑策略保证估计出的背景能量值back_energy尽量平滑且不会被突发噪声引起突变;
同时求得帧能量frame_energy和帧谱熵frame_entropy,本方法会将在每一帧分别求得帧能量和帧谱熵值后,将两者的值来和各自的门限值作比较,
根据帧能量frame_energy和帧谱熵frame_entropy,求得语音活性检测状态,如果大于门限值,则语音计数帧加1,否则安静计数帧加1,
例如设置语音计数帧大于5或者安静计数帧大于10则可以用来判断语音的开启或者停止,随即输出语音活性检测状态0/1来确定是否更新信噪比snr。
以下给出滑动窗噪声估计的一个具体流程:
以第一帧内每个频点的频谱幅度
Figure 907050DEST_PATH_IMAGE009
平方值之和作为背景能量初始化值,记录为初始的背景能量数据min(k,l)。可以把该滑动窗帧长设定为L=80,即帧的长度能覆盖到中文单音节字的发音时常,但该长度的设置不局限于L=80,因语速和语种而变化。
即每一帧的每个频点都会去和过去窗长L帧内的L-1帧的值去进行比较并选择各频点的最小值,并更新到背景能量数据min(k,l)里。在求得单一频点的背景能量数据min(k,l)后,对其逐频点更新,得到该帧全频段的背景能量最小值,后续运算需要使用该最小值来进行背景能量的更新。
第l帧的背景能量
Figure 100134DEST_PATH_IMAGE010
其中frame_energy为帧能量值。
本发明中可以将背景能量平滑参数α设置为0.9,l为帧数。
以下给出语音活性检测的一个具体流程:
首先需要求取每一帧的帧能量frame_energy,根据时域方法来求取,本发明中提供的具体时域方法供参考,求取方式不限于时域方法,频域方法求取亦可。具体即对频谱幅度
Figure 504571DEST_PATH_IMAGE011
的平方进行逐频点相加得到第l帧的帧能量:
Figure 150316DEST_PATH_IMAGE012
,sum表示求和;
其次需要求取该帧的帧谱熵frame_entropy,最简单的估计方法可采取以下公式对当前帧的谱熵进行估计,其中N为傅里叶变换的点数,因为共轭对称性质,取N/2求和。
帧谱熵frame_entropy,采取以下公式进行估计,其中N为傅里叶变换的点数:
Figure 229393DEST_PATH_IMAGE013
;
在求得以上帧能量frame_energy和帧谱熵frame_entropy之后,还需要求得背景谱熵back_entropy,背景谱熵的更新时机根据是否处于语音活性检测状态进行,即处于语音活性检测状态时,才进行背景谱熵的更新。
背景谱熵back_entropy的平滑方式如下式,第l帧的背景谱熵
Figure 480245DEST_PATH_IMAGE014
其中背景帧谱熵平滑参数β值可以选择为0.95,l为帧数。
所述步骤S4可以具体为:
当帧能量frame_energy和帧谱熵frame_entropy同时大于各自的设定门限,定义该状态为状态1,否则为状态2;
在状态1下,语音计数帧voice_frame的值加1,安静计数帧silence_frame值为0;
在状态2下,安静计数帧silence_frame的值加1, 语音计数帧voice_frame值为0。
在逐帧检测状态下,状态1连续出现次数达到设定的状态1次数阈值,判断语音活性检测状态为1,此时处于语音活性检测状态,其他状态下均不处于语音活性检测状态;如果状态2连续出现次数达到设定的状态2次数阈值,语音活性检测状态为0,此时可以判断无语音,系统可以进入省电的待机模式。
以th_energy表示为帧能量的门限,th_entropy表示为帧谱熵的门限。语音活性检测中的门限可参考如下但不局限于如下方式设定,本发明中的设定作为一个具体的实施:
Figure 117900DEST_PATH_IMAGE015
即当前帧能量frame_energy和帧谱熵frame_entropy同时大于各自的门限时,语音计数帧voice_frame值加1,安静计数帧silence_frame值为0;
否则安静计数帧silence_frame值加1, 语音计数帧voice_frame值为0;此处计数帧的更新方式表示需要连续语音帧出现,语音计数帧voice_frame值才会加1,否则会清零,同样需要连续静音帧出现时安静计数帧silence_frame值才会加1,否则会清零。即语音计数帧和安静计数帧的增加累积过程中不能出现间断,必须是连续出现的加1状态才能累积,出现中断即清零,重新开始累积。
例如可以设置语音计数帧voice_frame>5,即状态1次数阈值为5,则可判决语音活性检测状态vad_state为1,此时处于语音活性检测状态;
若安静计数帧silence_frame>10,即状态2次数阈值为10,认为语音活性检测状态vad_state为0,此时不处于语音活性检测状态,且认为此时无语音,可以进入系统省电状态。
求得上述的语音活性检测状态vad_state为1,认为处于语音活性检测状态,即可进行帧信噪比的求取和更新。
其中,帧信噪比在处于语音活性检测状态下即语音活性检测状态vad_state为1时候可根据如下公式求得第l帧的帧信噪比
Figure 454203DEST_PATH_IMAGE016
语音活性检测状态vad_state为0时,认为未处于语音活性检测状态,则不进行更新,帧信噪比平滑参数γ值可以为0.8,frame_energy(l),back_energy(l)分别表示第l帧的帧能量和背景能量。
本发明通过语音活性检测状态控制帧信噪比的更新时机,可以判断出环境即时状态,从而更为有效和准确的更新帧信噪比。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (2)

1.结合语音活性检测和滑动窗噪声估计的信噪比计算方法,其特征在于,包括以下步骤:
S1.对输入的带噪语音进行逐帧处理,每帧数据对其进行短时傅里叶变换后得到频谱Y(k,l),其中k为频点频率,l为帧数;
S2.设置滑动窗,对窗内频谱的每一个频点的最小值进行持续更新;
所述持续更新的具体方式为:
以第一帧每个频点的频谱幅度
Figure DEST_PATH_IMAGE001
平方值之和作为背景能量初始值;从第二帧开始,该帧每个频点与该帧前且位于窗内全部帧的相同频点值进行比较并选择最小值,在求得单一频点的最小值后,对该帧逐频点更新,得到该帧全频段的背景能量最小值;
S3.求出每一帧的帧能量frame_energy和帧谱熵frame_entropy;
S4.根据帧能量frame_energy和帧谱熵frame_entropy是否同时大于各自的设定门限值,判断是否处于语音活性检测状态;
S5.处于语音活性检测状态时,进行帧信噪比的求取和更新;
所述步骤S3中;第l帧的帧能量
Figure DEST_PATH_IMAGE002
帧谱熵frame_entropy,采取以下公式进行估计,其中N为傅里叶变换的点数:
Figure DEST_PATH_IMAGE003
p(k,l)为每一个频点的功率谱占整帧功率谱的比重,其中k是频点频率,l是帧数;
所述步骤S4中设定门限值与背景谱熵线性相关;
第l帧的所述背景谱熵back_entropy(l)的计算公式为:
Figure DEST_PATH_IMAGE004
其中β为背景帧谱熵平滑参数,l为帧数;
所述步骤S4具体为:
当帧能量frame_energy和帧谱熵frame_entropy同时大于各自的设定门限值,定义该状态为状态1,否则为状态2;
在状态1下,语音计数帧voice_frame的值加1,安静计数帧silence_frame的值为0;
在状态2下,安静计数帧silence_frame的值加1, 语音计数帧voice_frame的值为0;
仅在状态1连续出现次数达到设定的状态1次数阈值,判断语音活性检测状态为1,即认为处于语音活性检测状态;
所述步骤S5中帧信噪比在语音活性检测状态为1时根据如下公式求得,
第l帧的帧信噪比:
Figure DEST_PATH_IMAGE005
γ为帧信噪比平滑参数,frame_energy(l)为第l帧的帧能量,back_energy(l)为第l帧的背景能量。
2.根据权利要求1所述的信噪比计算方法,其特征在于:所述步骤S2中,背景能量最小值的更新方程为:
Figure DEST_PATH_IMAGE006
其中min(k,l)为频点k的更新前最小值,frame_energy为帧能量; back_energy(l)为第l帧的背景能量;α为背景能量平滑参数,N为傅里叶变换的点数。
CN202011297932.9A 2020-11-19 2020-11-19 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 Active CN112102818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011297932.9A CN112102818B (zh) 2020-11-19 2020-11-19 结合语音活性检测和滑动窗噪声估计的信噪比计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011297932.9A CN112102818B (zh) 2020-11-19 2020-11-19 结合语音活性检测和滑动窗噪声估计的信噪比计算方法

Publications (2)

Publication Number Publication Date
CN112102818A CN112102818A (zh) 2020-12-18
CN112102818B true CN112102818B (zh) 2021-01-26

Family

ID=73785304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011297932.9A Active CN112102818B (zh) 2020-11-19 2020-11-19 结合语音活性检测和滑动窗噪声估计的信噪比计算方法

Country Status (1)

Country Link
CN (1) CN112102818B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114038477B (zh) * 2021-11-04 2025-08-01 杭州网易智企科技有限公司 信噪比估计方法、装置、介质和计算设备
CN115798514B (zh) * 2023-02-06 2023-04-21 成都启英泰伦科技有限公司 一种敲击声检测方法
CN119135197A (zh) * 2024-08-21 2024-12-13 山东大学 一种用于提升太阳射电望远镜系统信噪比的方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1212603C (zh) * 2003-08-08 2005-07-27 中国科学院声学研究所 非线性谱减缺失分量估计方法
US7660713B2 (en) * 2003-10-23 2010-02-09 Microsoft Corporation Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR)
CN1322488C (zh) * 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
WO2009035613A1 (en) * 2007-09-12 2009-03-19 Dolby Laboratories Licensing Corporation Speech enhancement with noise level estimation adjustment
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN104021796B (zh) * 2013-02-28 2017-06-20 华为技术有限公司 语音增强处理方法和装置
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN104125579B (zh) * 2014-08-07 2017-07-11 桂林电子科技大学 一种基于时域能量与频域谱熵的频谱感知方法及装置
CN105741849B (zh) * 2016-03-06 2019-03-22 北京工业大学 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN107331393B (zh) * 2017-08-15 2020-05-12 成都启英泰伦科技有限公司 一种自适应语音活动检测方法
CN110706693B (zh) * 2019-10-18 2022-04-19 浙江大华技术股份有限公司 语音端点的确定方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN112102818A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN103456310B (zh) 一种基于谱估计的瞬态噪声抑制方法
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法
US6289309B1 (en) Noise spectrum tracking for speech enhancement
US9142221B2 (en) Noise reduction
CN112102818B (zh) 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
US20050038651A1 (en) Method and apparatus for detecting voice activity
US9349384B2 (en) Method and system for object-dependent adjustment of levels of audio objects
CN103559887B (zh) 用于语音增强系统的背景噪声估计方法
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
WO2001073758A1 (en) Spectrally interdependent gain adjustment techniques
US12531078B2 (en) Noise suppression for speech enhancement
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
EP1887559B1 (en) Yule walker based low-complexity voice activity detector in noise suppression systems
Ma et al. Perceptual Kalman filtering for speech enhancement in colored noise
Nelke et al. Single microphone wind noise PSD estimation using signal centroids
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
US8788265B2 (en) System and method for babble noise detection
KR102718917B1 (ko) 음성 신호에서의 마찰음의 검출
CN118398022B (zh) 改进的语音增强降噪方法
KR100901367B1 (ko) 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
CN113409812B (zh) 一种语音降噪训练数据的处理方法及其装置、训练方法
Hendriks et al. Speech reinforcement in noisy reverberant conditions under an approximation of the short-time SII
US12537021B2 (en) Low complexity sub-band speech onset detection (SOD)
Verteletskaya et al. Enhanced spectral subtraction method for noise reduction with minimal speech distortion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant