[go: up one dir, main page]

CN102137194A - 一种通话检测方法及装置 - Google Patents

一种通话检测方法及装置 Download PDF

Info

Publication number
CN102137194A
CN102137194A CN2010100010876A CN201010001087A CN102137194A CN 102137194 A CN102137194 A CN 102137194A CN 2010100010876 A CN2010100010876 A CN 2010100010876A CN 201010001087 A CN201010001087 A CN 201010001087A CN 102137194 A CN102137194 A CN 102137194A
Authority
CN
China
Prior art keywords
signal frame
speech signal
far
end speech
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010100010876A
Other languages
English (en)
Other versions
CN102137194B (zh
Inventor
程荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Huawei Device Shenzhen Co Ltd
Original Assignee
Huawei Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Priority to CN201010001087.6A priority Critical patent/CN102137194B/zh
Publication of CN102137194A publication Critical patent/CN102137194A/zh
Application granted granted Critical
Publication of CN102137194B publication Critical patent/CN102137194B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种通话检测方法和装置,属于通讯技术领域。本发明实施例通过接收到的近端语音信号帧和远端语音信号帧的特征参数曲线来区分是单讲状态还是双讲状态。本发明实施例不依赖于远端信号的和回声的能量水平;且解决了由于信号失真带来双端通话检测鲁棒性较差的问题。在硬件对信号的失真的情况下,本发明实施例依然能较准确的检测双讲情况,优于传统的检测方法。且发明方法的检测精度不依赖于远端信号的和回声的能量水平,优于传统的基于能量的检测方法。

Description

一种通话检测方法及装置
技术领域
本发明涉及通讯技术领域,特别涉及一种通话检测方法及装置。
背景技术
语音终端接收到的语音会包括近端语音信号帧和远端语音信号帧。其中远端语音信号帧是指从网络侧传输来的对端的语音;近端语音信号帧是指该语音终端使用者发出的语音。语音终端接收到的远端语音信号帧并由扬声器发声后,该远端语音信号帧会传输到移动终端的麦克风,形成回声。回声消除是通讯领域一个重要的过程。
在回声消除领域,通话检测技术是制约回声消除器性能的关键因素。通话检测技术要判断近端语音信号是否存在回声,并以此确定通话状态。通话状态分为单讲状态和双讲状态。如果检测到只有回声,可以称为单讲状态,即只有远端语音信号帧而没有近端语音信号帧,使用者没有说话。如果检测到既有回声又有近端语音信号帧,可以称为双讲状态,即同时具有远端语音信号帧和近端语音信号帧,双方都在同时说话。
现有技术中用于区分近端语音信号帧和回声时,主要采用能量检测方法、信号相关性检测方法、双滤波检测方法。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有的通话检测技术都是非常依赖硬件条件,在硬件条件接近理想化的情况下才能较好的性能,鲁棒性差。但是在实际环境下,手机扬声器带来的回声非线性失真是无法避免的。在硬件条件无法理想化,甚至硬件条件恶劣的情况下,现有的这些技术都无法提供一个较好的通话检测结果。
发明内容
为了解决现有技术中的双端通话检测技术中存在的双端通话检测效果不好且对硬件要求比较高的问题,本发明实施例提供了一种通话检测方法及装置。所述技术方案如下:
本发明实施例提出了一种通话检测方法,其特征在于,包括:
提取近端语音信号帧,以及相对应的远端语音信号帧;
计算所述近端语音信号帧及所述远端语音信号帧的声道的特征参数;
根据所述近端语音信号帧及所述远端语音信号帧的声道的特征参数,判断通话状态。
同时,本发明实施例提出了一种通话检测装置,其特征在于,包括:
语音信号提取模块,用于提取近端语音信号帧,以及相对应的远端语音信号帧;
特征参数计算模块,用于根据所述近端语音信号帧及所述远端语音信号帧,计算所述近端语音信号帧及所述远端语音信号帧的声道的特征参数;
状态判断模块,用于根据所述近端语音信号帧及所述远端语音信号帧的声道的特征参数,判断通话状态。
本发明实施例提供的技术方案带来的有益效果是:本发明实施例通过接收到的近端语音信号帧和远端语音信号帧的特征参数来区分是单讲状态还是双讲状态。这是由于人在发声时,由声门向上开始的喉腔、咽腔和口腔组成的声道是一个共振腔,每个人发出的语音信号都包含了自己独有的声道共振特性。通过采集声道的特征参数,并通过远端语音信号帧与近端语音信号帧的特征参数判断是单讲状态还是双讲状态。本发明实施例不依赖于远端信号的和回声的能量水平,且解决了由于信号失真带来双端通话检测鲁棒性较差的问题。在硬件(例如手机扬声器、麦克风等)对信号的失真的情况下,本发明实施例依然能较准确的检测双讲情况,优于传统的信号相关性检测方法、双滤波检测方法。且发明方法的检测精度不依赖于远端信号的回声的能量水平,优于传统的基于能量的检测方法。
附图说明
图1为本发明第一实施例提出的通话检测方法的流程示意图;
图2为本发明第三实施例提出的通话检测方法的流程示意图;
图3为一种单讲状态的近端语音信号帧与远端语音信号帧的示意图;
图4为一种双讲状态的近端语音信号帧与远端语音信号帧的示意图;
图5为一种单讲状态的近端语音信号帧与远端语音信号帧的示意图;
图6为本发明第四实施例提出的通话检测装置的结构示意图;
图7为图6中的语音信号提取模块的结构示意图;
图8为图6中的特征参数计算模块的结构示意图;
图9为增加了平滑模块的通话检测装置的结构示意图;
图10为图6中的状态判断模块的结构示意图;
图11为本发明第六实施例的一个具体实例的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本发明第一优选实施例提出了一种通话检测方法,其流程如图1所示,具体为:
步骤101、提取近端语音信号帧,以及相对应的远端语音信号帧;
步骤102、计算近端语音信号帧及远端语音信号帧的声道的特征参数;
步骤103、根据近端语音信号帧及远端语音信号帧的声道的特征参数,判断通话状态。
本发明实施例可以通过接收到的近端语音信号帧和远端语音信号帧的特征参数来区分通话状态,即是单讲状态还是双讲状态。这是由于人在发声时,由声门向上开始的喉腔、咽腔和口腔组成的声道是一个共振腔,每个人发出的语音信号都包含了自己独有的声道共振特性。本发明实施例通过采集声道的特征参数,并根据远端语音信号帧与近端语音信号帧的特征参数判断是单讲状态还是双讲状态。这样相比较现有的方式,其所获得的效果更佳。本实施例中以对于提取的近端语音信号帧和远端语音信号帧都以一帧信号为单位。如一般一个语音帧20ms,即160个样点。当然,帧的长度可以根据需要进行调整,并不以20ms为限。
实施例2
本发明第二实施例是在第一实施例的基础上改进而来,即如图2所示,该方法可以具体为:
其中,步骤101可以具体为:
步骤1011、将远端语音信号帧缓存;
步骤1012、获取当前的一帧近端语音信号帧,并从缓存中读取预定时延之前的相对应的一帧远端语音信号帧。
采用这种方式可以获得预定时延值之前的远端语音信号帧。这里取的预定时延值是对实际回声延迟时间的估计,加了这个延迟后是为了和实际的情况相符合,该延迟取值越准确,越可以提高性能。预定时延值的长度可以根据实际情况调整。
其中,步骤102可以具体为:
步骤1021、根据近端语音信号帧和远端语音信号帧,采用Levinson-Durbin递推算法计算远端语音信号帧的线性预测系数a1,a2,...,ap,及近端语音信号帧的线性预测系数b1,b2,...,bp;其中p为线性预测的阶数。
具体计算方式为:获取远端语音信号帧及近端语音信号帧在时间点n的值
Figure G2010100010876D00041
并根据语音线性预测器 s ^ ( n ) = Σ i = 1 p a i s ( n - i ) , 以及 s ^ ( n ) = Σ i = 1 p b i s ( n - i ) , 计算a1,a2,...,ap及b1,b2,...,bp
其中上述语音线性预测器中的
Figure G2010100010876D00044
Figure G2010100010876D00045
为语音信号在时刻n和时刻n-1的脉冲编码调制(Pulse Code Modulation,PCM)码流值,在获取了远端语音信号帧及近端语音信号帧后即为已知参数。
其中,Levinson-Durbin递推算法是一种现有技术,是计算线性预测系数的一种常用方法。本发明实施例中采用这种算法只是举例说明,本发明并不以此为限。本发明实施例是通过语音线性预测器进行反推。在获得了近端语音信号帧和远端语音信号帧后,这两个信号的
Figure G2010100010876D00046
Figure G2010100010876D00047
成为已知参数。在获取了
Figure G2010100010876D00048
Figure G2010100010876D00049
取值后反推出每一时刻的特征参数a1,a2,...,ap和b1,b2,...,bp。这样可以简单的通过已经获取的近端语音信号帧与远端语音信号帧的特征参数。其中
Figure G2010100010876D000411
为接收到的近端语音信号帧与远端语音信号帧16bit的PCM码流值。其中PCM是一种现有的数字通信的编码方式,在此不再赘述。
同时,本发明实施例中是采用线性预测系数作为声道的特征参数。这只是举例说明,本发明实施例并不以此为限,还可以采用其他形式的参数作为声道的特征参数。
其中,步骤102之后还可以包括:
步骤102A、对远端语音信号帧的线性预测系数a1,a2,...,ap及近端语音信号帧的线性预测系数b1,b2,...,bp进行平滑处理;其中,该平滑处理可以为低通平滑滤波处理,具体为:
a i = a i * α + ( 1 - α ) * a i pre
b i = b i * α + ( 1 - α ) * b i pre
其中α为平滑系数,且0≤α≤1。i的取值为1到p。ai pre和bi pre为前一帧的远端语音信号帧的第i个线性预测系数和前一帧的近端语音信号帧的第i个线性预测系数;当该帧为第一帧时,ai pre和bi pre为一预设参数。
其中α为平滑系数,且0≤α≤1。i的取值为1到p。ai pre和bi pre为前一帧的远端语音信号帧的第i个线性预测系数和前一帧的近端语音信号帧的第i个线性预测系数;当该帧为第一帧时,ai pre和bi pre为一预设参数。
采用平滑处理后,可以更好的解决因扬声器对回声信号带来的非线性失真问题。当然,平滑处理只是一个优选步骤,不经过平滑处理同样可以实现发明目的。同时,平滑处理方法也可以采用其他方法,本发明实施例并不对此作出限定。
其中,步骤103可以具体为:
步骤1031、然后根据平滑处理后的远端语音信号帧的线性预测系数及近端语音信号帧的线性预测系数,获得远端语音信号帧及近端语音信号帧的特征曲线;其中,该近端语音信号帧及远端语音信号帧可以是经过平滑处理的,也可以是未经过平滑处理的;
步骤1032、计算近端语音信号帧与该远端语音信号帧的声道的特征参数曲线的相似度D,
Figure G2010100010876D00053
其中,
Figure G2010100010876D00054
表示该端语音信号与该远端语音信号帧的特征参数之间的差值的平均值;其中j取值为1~p;
步骤1033、判断相似度是否小于等于门限值T,即D≤T;如果是则为单讲状态,否则为双讲状态。
其中,相似度D的计算公式为方差度量方式。当然,计算公式仅为本发明实施例的举例说明,本发明并不以此为限。在上式中,
Figure G2010100010876D00056
表示这一帧的近端语音信号帧与对应的远端语音信号帧的特征参数之间的差值的平均值。在每一远端语音信号帧的线性预测系数a1,a2,...,ap及近端语音信号帧的线性预测系数b1,b2,...,bp之间的差值(ai-bi),将该差值减去平均差值后求和后,除以(p-1)。这样计算出的平均差值即为相似度D。
通过特征参数获得特征参数曲线,并通过方差度量计算近端语音信号帧和远端语音信号帧的特征参数曲线的相似度,并以此判断是单讲状态还是双讲状态。这样可以简单的声道的特征参数计算出近端语音信号帧和远端语音信号帧的特征参数曲线的相似度。
当然,本实施例提出的通过特征曲线相似度判断通话状态的方式仅为本发明实施例的一个具体实施方式,还可以采用特征参数通过其他方式计算,本发明实施例并不以此为限。同时,本发明实施例中通过方差度量计算两个特征曲线相似度的方式也只是本发明实施例的一个具体实施方式,还可以采用其他方式计算特征参数曲线,本发明实施例并不以此为限。
特征曲线可以如图3或如图4所示。图3为单讲状态下的一帧20ms的近端语音信号帧和远端语音信号帧的特征曲线,而图4为双讲状态。由图3可以看出,在单讲状态下,近端语音信号帧与远端语音信号帧的特征曲线相似度很高,近端语音信号帧为远端语音信号帧的回声。由图4可以看出,在双讲状态下,近端语音信号帧与远端语音信号帧的特征曲线相似度则很低,这是由于近端语音信号帧为远端语音信号帧的回声与使用者的声音的混合。
如图5所示的,在图5中的A段中,近端语音信号帧与远端语音信号帧很相似,则A段的近端语音信号帧为回声,此时为单讲状态。在B段中,近端语音信号帧与远端语音信号帧不相似,此时为双讲状态。在图5中的C段中,近端语音信号帧与远端语音信号帧很相似,此时为单讲状态。
实施例3
其中,上述第二实施例中的技术方案,可以归纳为如图2所示的流程,具体包括:
步骤201、将远端语音信号帧缓存;
步骤202、获取当前的一帧近端语音信号帧,并从缓存中读取预定时延之前的相对应的一帧远端语音信号帧;
步骤203根据近端语音信号帧和远端语音信号帧,采用Levinson-Durbin递推算法计算远端语音信号帧的线性预测系数a1,a2,...,ap及近端语音信号帧的线性预测系数b1,b2,...,bp;其中p为线性预测的阶数;
步骤204、对远端语音信号帧的线性预测系数a1,a2,...,ap及近端语音信号帧的线性预测系数b1,b2,...,bp进行平滑处理;
步骤205、计算近端语音信号帧与该远端语音信号帧的声道的特征参数曲线的相似度D,
Figure G2010100010876D00061
步骤206、判断相似度是否小于等于门限值T,即D≤T;如果是则为单讲状态,否则为双讲状态。
上述第三实施例为本发明实施例的一个具体的方式,本发明实施例并不以此为限。
实施例4
本实用新型第四实施例提出了一种通话检测装置,其结构如图6所示,包括:
语音信号提取模块1,用于提取近端语音信号帧,以及相对应的远端语音信号帧;
特征参数计算模块2,用于根据语音信号提取模块提取的近端语音信号帧与该远端语音信号帧,计算近端语音信号帧与远端语音信号帧的声道的特征参数;
状态判断模块3,用于根据近端语音信号帧及远端语音信号帧的声道的特征参数,判断通话状态。
本发明实施例可以通过接收到的近端语音信号帧和远端语音信号帧的特征参数来区分通话状态,即是单讲状态还是双讲状态。这是由于人在发声时,由声门向上开始的喉腔、咽腔和口腔组成的声道是一个共振腔,每个人发出的语音信号都包含了自己独有的声道共振特性。本发明实施例通过采集声道的特征参数,并根据远端语音信号帧与近端语音信号帧的特征参数判断是单讲状态还是双讲状态。这样相比较现有的方式,其所获得的效果更佳。本实施例中以对于提取的近端语音信号帧和远端语音信号帧都以一帧信号为单位。如一般一个语音帧20ms,即160个样点。当然,帧的长度可以根据需要进行调整,并不以20ms为限。
实施例5
本发明第五实施例是在第四实施例的基础上改进而来,其中:
如图7所示,语音信号提取模块1可以包括:
缓存单元11,用于将远端语音信号帧缓存;
提取单元12,获取当前的一帧近端语音信号帧,并从缓存中读取预定时延之前的相对应的一帧远端语音信号帧。
采用这种方式可以获得预定时延值之前的远端语音信号帧。这里取的预定时延值是对实际回声延迟长度的估计,加了这个延迟后是为了和实际的情况相符合,该延迟取值越准确,越可以提高性能。预定时延值的长度可以根据实际情况调整。
如图8所示,声道的特征参数计算模块2可以包括:
语音信息分析单元21,用于根据提取单元12的近端语音信号帧和远端语音信号帧,获取远端语音信号帧及近端语音信号帧在时间点n的值
Figure G2010100010876D00071
参数计算单元22,用于根据语音线性预测器 s ^ ( n ) = Σ i = 1 p a i s ( n - i ) , 以及 s ^ ( n ) = Σ i = 1 p b i s ( n - i ) , 计算远端语音信号帧的线性预测系数a1,a2,...,ap及近端语音信号帧的线性预测系数b1,b2,...,bp;其中p为线性预测的阶数。其中,参数计算单元可以采用Levinson-Durbin递推算法计算远端语音信号帧的线性预测系数a1,a2,...,ap及近端语音信号帧的线性预测系数b1,b2,...,bp
具体计算方式为:根据获取远端语音信号帧及近端语音信号帧在时间点n的值
Figure G2010100010876D00074
并根据语音线性预测器 s ^ ( n ) = Σ i = 1 p a i s ( n - i ) , 以及 s ^ ( n ) = Σ i = 1 p b i s ( n - i ) , 计算a1,a2,...,ap及b1,b2,...,bp
具体计算方式为:获取远端语音信号帧及近端语音信号帧在时间点n的值
Figure G2010100010876D00083
并根据语音线性预测器 s ^ ( n ) = Σ i = 1 p a i s ( n - i ) , 以及 s ^ ( n ) = Σ i = 1 p b i s ( n - i ) , 计算a1,a2,...,ap及b1,b2,...,bp
其中上述语音线性预测器中的
Figure G2010100010876D00086
Figure G2010100010876D00087
为语音信号在时刻n和时刻n-1的PCM码流值,在获取了远端语音信号帧及近端语音信号帧后即为已知参数。
其中,Levinson-Durbin递推算法是一种现有技术,是计算线性预测系数的一种方法。还可以采用其他方式计算声道的特征参数,本发明实施例并不以此为限。
本实施例是通过语音线性预测器进行反推。在获得了近端语音信号帧和远端语音信号帧后,这两个信号的
Figure G2010100010876D00088
Figure G2010100010876D00089
成为已知参数。在获取了
Figure G2010100010876D000810
Figure G2010100010876D000811
驭值后反推出每一时刻的特征参数a1,a2,...,ap和b1,b2,...,bp。这样可以简单的通过已经获取的近端语音信号帧与远端语音信号帧的特征参数。其中
Figure G2010100010876D000812
Figure G2010100010876D000813
为接收到的近端语音信号帧与远端语音信号帧的16bit的PCM码流值。其中PCM是一种现有的数字通信的编码方式,在此不再赘述。
如图9所示,本发明实施例的通话检测装置还可以包括:
平滑模块4,用于对远端语音信号帧的线性预测系数a1,a2,...,ap及近端语音信号帧的线性预测系数b1,b2,...,bp进行平滑处理;其中,该平滑处理可以为低通平滑滤波处理,具体为:
a i = a i * α + ( 1 - α ) * a i pre
b i = b i * α + ( 1 - α ) * b i pre
其中α为平滑系数,且0≤α≤1。i的取值为1到p。ai pre和bi pre为前一帧的远端语音信号帧的第i个线性预测系数和前一帧的近端语音信号帧的第i个线性预测系数;当该帧为第一帧时,ai pre和bi pre为一预设参数。
采用平滑处理后,可以更好的解决因扬声器对回声信号带来的非线性失真问题。当然,平滑处理只是一个优选步骤,不经过平滑处理同样可以实现发明目的。同时,平滑处理方法也可以采用其他方法,本发明实施例并不对此作出限定。
如图10所示,状态判断模块3可以具体为:
特征参数曲线计算单元31,用于根据近端语音信号帧及远端语音信号帧的声道的特征参数,获得近端语音信号帧及远端语音信号帧的特征参数曲线;其中,该近端语音信号帧及远端语音信号帧可以是经过平滑处理的,也可以是未经过平滑处理的;
相似度计算单元32,用于根据近端语音信号帧及远端语音信号帧的特征曲线,计算相似度D,
Figure G2010100010876D00091
其中j取值为1~p;
判断单元33,用于根据相似度D与预设的门限值T进行比较,判断相似度是否小于等于门限值T,即D≤T;如果是则为单讲状态,否则为双讲状态。
其中,相似度D的计算公式为方差度量方式。当然,计算公式仅为本发明实施例的举例说明,本发明并不以此为限。在上式中,
Figure G2010100010876D00092
表示这一帧的近端语音信号帧与对应的远端语音信号帧的特征参数之间的差值的平均值。在每一远端语音信号帧的线性预测系数a1,a2,...,ap及近端语音信号帧的线性预测系数b1,b2,...,bp之间的差值(ai-bi),将该差值减去平均差值后求和后,除以(p-1)。这样计算出的平均差值即为相似度D。
通过特征参数获得特征参数曲线,并通过方差度量计算近端语音信号帧和远端语音信号帧的特征参数曲线的相似度,并以此判断是单讲状态还是双讲状态。这样可以简单的声道的特征参数计算出近端语音信号帧和远端语音信号帧的特征参数曲线的相似度。
当然,本实施例提出的通过特征曲线相似度判断通话状态的方式仅为本发明实施例的一个具体实施方式,还可以采用特征参数通过其他方式计算,本发明实施例并不以此为限。同时,本发明实施例中通过方差度量计算两个特征曲线相似度的方式也只是本发明实施例的一个具体实施方式,还可以采用其他方式计算特征参数曲线,本发明实施例并不以此为限。
特征曲线可以如图3或如图4所示。图3为单讲状态下的一帧20ms的近端语音信号帧和远端语音信号帧的特征曲线,而图4为双讲状态。由图3可以看出,在单讲状态下,近端语音信号帧与远端语音信号帧的特征曲线相似度很高,近端语音信号帧为远端语音信号帧的回声。由图4可以看出,在双讲状态下,近端语音信号帧与远端语音信号帧的特征曲线相似度则很低,这是由于近端语音信号帧为远端语音信号帧的回声与使用者的声音的混合。
如图5所示的,在图5中的A段中,近端语音信号帧与远端语音信号帧很相似,则A段的近端语音信号帧为回声,此时为单讲状态。在B段中,近端语音信号帧与远端语音信号帧不相似,此时为双讲状态。在图5中的C段中,近端语音信号帧与远端语音信号帧很相似,此时为单讲状态。
实施例6
下面通过一个具体的实例对本发明实施例作出进一步说明:
如图11所示,本实施例的方法包括:
步骤301:输入远端信号和近端信号帧,当前远端信号帧写入缓冲区Buffer。然后从缓冲区Buffer中读取相对当前输入帧延迟Tail_length个点的历史帧信号Far_frame,远端信号帧Far_frame和当前输入的近端信号帧一起进入下一步计算。
其中Tail_length为回声相对于远端信号的实际延迟长度,一般手机的回声延迟为16ms左右,对于8000采样率的信号,即为128个采样点;之所以要取延迟Tail_length个点的远端信号参与计算,是因为包含在当前近端信号帧中的回声信号实际是与延迟Tail_length个点的远端信号相对应;
步骤302:计算当前帧声道的特征参数。
采用Levinson-Durbin递推算法算法计算远端参考信号和近端信号和的N阶线性预测系数分别为a1,a2,...,ap和b1,b2,...,bp,其中p表线性预测的阶数。
s(n)为语音信号在时刻点n时的PCM码流值,公式(2)和公式(3)所示为语音线性预测器,它是由与s(n)邻近的过去p个值来预测或估计当前值s(n),其中ai和bi称为线型预测系数;
通过近端语音信号帧和远端语音信号帧分别获取其s(n)值,并采用Levinson-Durbin递推算法,求解系数ai和bi
s ^ ( n ) = Σ i = 1 p a i s ( n - i ) - - - ( 2 )
s ^ ( n ) = Σ i = 1 p b i s ( n - i ) - - - ( 3 )
步骤303:对步骤2计算的语音特征参数a1,a2,...,ap和b1,b2,...,bp进行低通平滑滤波,平滑方法如公式(5)和公式(6):
a i = a i * α + ( 1 - α ) * a i pre - - - ( 4 )
b i = b i * α + ( 1 - α ) * b i pre - - - ( 5 )
其中α为平滑系数,且 0 ≤ α ≤ 1 . i的取值为1到p。ai pre和bi pre为前一帧的远端语音信号帧的第i个线性预测系数和前一帧的近端语音信号帧的第i个线性预测系数;当该帧为第一帧时,ai pre和bi pre为一预设参数;
步骤304:通过方差度量方式,计算近端信号帧和远端信号帧特征曲线的相似度,采用如下公式计算曲线的相似度,
Figure G2010100010876D001010
其中j取值为1~p;
步骤305:将相似度D与预设阈值T进行比较;如果D≤T,则认为两个特征曲线相似,即当前为单讲状态(近端语音信号帧仅为回声),否则该为双讲状态。
其中T为判决门限,大于0小于1,T的取值取决于实际系统扬声器非线性失真的程度,具体值的选取在仿真调试阶段确定,默认取T=0.05。
通过以上实施例可以看出,本发明实施例通过接收到的近端语音信号帧和远端语音信号帧的特征参数曲线来区分是单讲状态还是双讲状态。这是由于人在发声时,由声门向上开始的喉腔、咽腔和口腔组成的声道是一个共振腔,每个人发出的语音信号都包含了自己独有的声道共振特性。通过采集声道的特征参数,可以获得特征参数曲线,并通过远端语音信号帧与近端语音信号帧的特征参数曲线相似度来判断是单讲状态还是双讲状态。不依赖于远端信号的和回声的能量水平。且本发明实施例解决了由于信号失真带来双端通话检测鲁棒性较差的问题。在硬件(例如手机扬声器、麦克风等)对信号的失真的情况下,本发明实施例依然能较准确的检测双讲情况,优于传统的检测方法。且发明方法的检测精度不依赖于远端信号的和回声的能量水平,优于传统的基于能量的检测方法。同时本发明实施例可以通过简单的算法获取特征参数,并根据特征参数获得特征曲线。这样不会过多占用系统内存。为了更好解决失真问题,还可以在获得特征曲线之前先对系统参数进行平滑处理。在获得特征曲线后,可以通过远端语音信号帧与近端语音信号帧的特征参数曲线相似度来判断是单讲状态还是双讲状态。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种通话检测方法,其特征在于,包括:
提取近端语音信号帧,以及相对应的远端语音信号帧;
计算所述近端语音信号帧及所述远端语音信号帧的声道的特征参数;
根据所述近端语音信号帧及所述远端语音信号帧的声道的特征参数,判断通话状态。
2.根据权利要求1所述的通话检测方法,其特征在于,所述的提取近端语音信号帧,以及相对应的远端语音信号帧包括:
获取当前的一帧近端语音信号帧,并从缓存中读取预定时延之前的相对应的一帧远端语音信号帧。
3.根据权利要求1所述的通话检测方法,其特征在于,所述的计算所述近端语音信号帧及所述远端语音信号帧的声道的特征参数包括:
根据所述近端语音信号帧和远端语音信号帧,获取所述远端语音信号帧及所述近端语音信号帧在每一预设时间点的脉冲编码调制码流值,并根据每一预设时间点的脉冲编码调制码流值计算每一预设时间点的线性预测系数值作为声道的特征参数。
4.根据权利要求1或2或3所述的通话检测方法,其特征在于,所述方法还包括:
对所述线性预测参数值进行平滑处理。
5.根据权利要求1所述的通话检测方法,其特征在于,所述根据所述近端语音信号帧及所述远端语音信号帧的声道的特征参数,判断通话状态包括:
根据所述近端语音信号帧及所述远端语音信号帧的声道的特征参数,获得所述近端语音信号帧及所述远端语音信号帧的特征参数曲线;
计算所述近端语音信号帧及所述远端语音信号帧的特征参数曲线的相似度,并根据相似度判断所述近端语音信号帧为单讲状态或双讲状态。
6.一种通话检测装置,其特征在于,包括:
语音信号提取模块,用于提取近端语音信号帧,以及相对应的远端语音信号帧;
特征参数计算模块,用于根据所述近端语音信号帧及所述远端语音信号帧,计算所述近端语音信号帧及所述远端语音信号帧的声道的特征参数;
状态判断模块,用于根据所述近端语音信号帧及所述远端语音信号帧的声道的特征参数,判断通话状态。
7.根据权利要求6所述的通话检测装置,其特征在于,所述语音信号提取模块具体用于获取当前的一帧近端语音信号帧,并从缓存中读取预定时延之前的相对应的一帧远端语音信号帧。
8.根据权利要求6所述的通话检测装置,其特征在于,所述特征参数计算模块包括:
语音信息分析单元,根据所述近端语音信号帧和远端语音信号帧,获取所述远端语音信号帧及所述近端语音信号帧在每一预设时间点的脉冲编码调制码流值;
参数计算单元,根据所述每一预设时间点的脉冲编码调制码流值计算每一预设时间点的线性预测系数值,并以所述线性预测系数值作为声道的特征参数。
9.根据权利要求8所述的通话检测装置,其特征在于,所述装置还包括:
平滑模块,用于对远端语音信号帧及近端语音信号帧的线性预测系数进行平滑处理;
10.根据权利要求8或9所述的通话检测装置,其特征在于,状态判断模块包括:
特征参数曲线计算单元,用于根据所述近端语音信号帧及所述远端语音信号帧的声道的特征参数,获得所述近端语音信号帧及所述远端语音信号帧的特征参数曲线;
相似度计算单元,用于计算所述近端语音信号帧的特征曲线及远端语音信号帧的特征曲线的相似度;
判断单元,用于将该相似度与门限值进行比较,以确定所述近端语音信号帧为单讲状态或双讲状态。
CN201010001087.6A 2010-01-21 2010-01-21 一种通话检测方法及装置 Expired - Fee Related CN102137194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010001087.6A CN102137194B (zh) 2010-01-21 2010-01-21 一种通话检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010001087.6A CN102137194B (zh) 2010-01-21 2010-01-21 一种通话检测方法及装置

Publications (2)

Publication Number Publication Date
CN102137194A true CN102137194A (zh) 2011-07-27
CN102137194B CN102137194B (zh) 2014-01-01

Family

ID=44296844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010001087.6A Expired - Fee Related CN102137194B (zh) 2010-01-21 2010-01-21 一种通话检测方法及装置

Country Status (1)

Country Link
CN (1) CN102137194B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332261A (zh) * 2011-09-09 2012-01-25 华南理工大学 非介入式双端采集的音频端到端延迟测量方法及装置
CN102368384A (zh) * 2011-10-19 2012-03-07 福建联迪商用设备有限公司 一种语音模块测试方法及语音模块测试设备
CN103546839A (zh) * 2012-07-09 2014-01-29 三星电子株式会社 音频信号处理系统及其回音信号去除方法
WO2016141773A1 (zh) * 2015-03-09 2016-09-15 电信科学技术研究院 一种近端语音信号检测方法及装置
WO2017092216A1 (zh) * 2015-11-30 2017-06-08 华为技术有限公司 一种语音质量评估方法、装置及设备
CN107635082A (zh) * 2016-07-18 2018-01-26 深圳市有信网络技术有限公司 一种双端发声端检测系统
CN108429994A (zh) * 2017-02-15 2018-08-21 阿里巴巴集团控股有限公司 音频识别、回声消除方法、装置及设备
CN111294474A (zh) * 2020-02-13 2020-06-16 杭州国芯科技股份有限公司 一种双端通话检测方法
CN111741168A (zh) * 2020-08-07 2020-10-02 睿云联(厦门)网络通讯技术有限公司 一种通讯设备测试方法、装置、计算机可读介质及其设备
CN112367594A (zh) * 2020-11-25 2021-02-12 厦门亿联网络技术股份有限公司 Aec调试方法、装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
CN1391212A (zh) * 2001-06-11 2003-01-15 阿尔卡塔尔公司 在信号中检测话音活动的方法,以及包含用于实现该方法的装置的话音信号编码器
CN1890948A (zh) * 2003-12-12 2007-01-03 摩托罗拉公司 双向通话活动检测器以及用于回波抵消器电路的方法
WO2008103087A1 (en) * 2007-02-21 2008-08-28 Telefonaktiebolaget L M Ericsson (Publ) Double talk detector
CN102160296A (zh) * 2009-01-20 2011-08-17 华为技术有限公司 双端通话检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
CN1391212A (zh) * 2001-06-11 2003-01-15 阿尔卡塔尔公司 在信号中检测话音活动的方法,以及包含用于实现该方法的装置的话音信号编码器
CN1890948A (zh) * 2003-12-12 2007-01-03 摩托罗拉公司 双向通话活动检测器以及用于回波抵消器电路的方法
WO2008103087A1 (en) * 2007-02-21 2008-08-28 Telefonaktiebolaget L M Ericsson (Publ) Double talk detector
CN102160296A (zh) * 2009-01-20 2011-08-17 华为技术有限公司 双端通话检测方法及装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332261B (zh) * 2011-09-09 2013-05-08 华南理工大学 非介入式双端采集的音频端到端延迟测量方法及装置
CN102332261A (zh) * 2011-09-09 2012-01-25 华南理工大学 非介入式双端采集的音频端到端延迟测量方法及装置
CN102368384A (zh) * 2011-10-19 2012-03-07 福建联迪商用设备有限公司 一种语音模块测试方法及语音模块测试设备
CN103546839B (zh) * 2012-07-09 2018-05-04 三星电子株式会社 音频信号处理系统及其回音信号去除方法
CN103546839A (zh) * 2012-07-09 2014-01-29 三星电子株式会社 音频信号处理系统及其回音信号去除方法
WO2016141773A1 (zh) * 2015-03-09 2016-09-15 电信科学技术研究院 一种近端语音信号检测方法及装置
CN106033673A (zh) * 2015-03-09 2016-10-19 电信科学技术研究院 一种近端语音信号检测方法及装置
CN106033673B (zh) * 2015-03-09 2019-09-17 电信科学技术研究院 一种近端语音信号检测方法及装置
WO2017092216A1 (zh) * 2015-11-30 2017-06-08 华为技术有限公司 一种语音质量评估方法、装置及设备
US10497383B2 (en) 2015-11-30 2019-12-03 Huawei Technologies Co., Ltd. Voice quality evaluation method, apparatus, and device
CN107635082A (zh) * 2016-07-18 2018-01-26 深圳市有信网络技术有限公司 一种双端发声端检测系统
CN108429994A (zh) * 2017-02-15 2018-08-21 阿里巴巴集团控股有限公司 音频识别、回声消除方法、装置及设备
CN108429994B (zh) * 2017-02-15 2020-10-09 阿里巴巴集团控股有限公司 音频识别、回声消除方法、装置及设备
CN111294474A (zh) * 2020-02-13 2020-06-16 杭州国芯科技股份有限公司 一种双端通话检测方法
CN111294474B (zh) * 2020-02-13 2021-04-16 杭州国芯科技股份有限公司 一种双端通话检测方法
CN111741168A (zh) * 2020-08-07 2020-10-02 睿云联(厦门)网络通讯技术有限公司 一种通讯设备测试方法、装置、计算机可读介质及其设备
CN111741168B (zh) * 2020-08-07 2022-02-18 睿云联(厦门)网络通讯技术有限公司 一种通讯设备测试方法、装置、计算机可读介质及其设备
CN112367594A (zh) * 2020-11-25 2021-02-12 厦门亿联网络技术股份有限公司 Aec调试方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN102137194B (zh) 2014-01-01

Similar Documents

Publication Publication Date Title
CN102137194B (zh) 一种通话检测方法及装置
CN102160296B (zh) 双端通话检测方法及装置
CN103578470B (zh) 一种电话录音数据的处理方法及系统
KR101498347B1 (ko) 모바일 디바이스들에 대한 스마트 오디오 로깅의 시스템 및 방법
CN101617363B (zh) 双端话音检测器
CN102726034B (zh) 一种参数域回声控制装置和方法
CN113724725B (zh) 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备
CN110853664A (zh) 评估语音增强算法性能的方法及装置、电子设备
JP2002366174A (ja) G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
DK2551847T3 (en) A method of reducing power consumption calls for a mobile terminal and a mobile terminal
JP2008530591A (ja) 背景雑音情報の断続伝送及び正確な再生の方法
CN106210371A (zh) 一种回声时延的确定方法、装置及智能会议设备
CN110265065A (zh) 一种构建语音检测模型的方法及语音端点检测系统
WO2021114779A1 (zh) 基于双端发声检测的回声消除方法、装置及系统
US7558729B1 (en) Music detection for enhancing echo cancellation and speech coding
CN114420146B (zh) 音频数据处理方法、装置、电子设备和存储介质
CN108305637A (zh) 耳机语音处理方法、终端设备及存储介质
CN105848052A (zh) 一种麦克切换方法及终端
CN114283844A (zh) 一种用于音视频会议的双讲检测方法及装置
CN101026659B (zh) 一种回声延时定位的实现方法
CN101753657B (zh) 一种降低通话噪音的方法及装置
CN108540680B (zh) 讲话状态的切换方法及装置、通话系统
CN114582362B (zh) 一种处理方法和处理装置
CN100508031C (zh) 一种在scdma手机中识别并消除远端语音产生的回声的方法
CN113223547B (zh) 双讲检测方法、装置、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 518129 Building 2, B District, Bantian HUAWEI base, Longgang District, Shenzhen, Guangdong.

Patentee after: Huawei terminal (Shenzhen) Co.,Ltd.

Address before: 518129 Building 2, B District, Bantian HUAWEI base, Longgang District, Shenzhen, Guangdong.

Patentee before: HUAWEI DEVICE Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20181221

Address after: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee after: HUAWEI DEVICE Co.,Ltd.

Address before: 518129 Building 2, B District, Bantian HUAWEI base, Longgang District, Shenzhen, Guangdong.

Patentee before: Huawei terminal (Shenzhen) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140101

CF01 Termination of patent right due to non-payment of annual fee