[go: up one dir, main page]

CN111711918B - 一种多通道信号的相干声与环境声提取方法及系统 - Google Patents

一种多通道信号的相干声与环境声提取方法及系统 Download PDF

Info

Publication number
CN111711918B
CN111711918B CN202010448458.9A CN202010448458A CN111711918B CN 111711918 B CN111711918 B CN 111711918B CN 202010448458 A CN202010448458 A CN 202010448458A CN 111711918 B CN111711918 B CN 111711918B
Authority
CN
China
Prior art keywords
channel
sound
coherent
coherent sound
ambient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010448458.9A
Other languages
English (en)
Other versions
CN111711918A (zh
Inventor
吴彦琴
桑晋秋
郑成诗
张芳杰
李晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202010448458.9A priority Critical patent/CN111711918B/zh
Publication of CN111711918A publication Critical patent/CN111711918A/zh
Application granted granted Critical
Publication of CN111711918B publication Critical patent/CN111711918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种多通道信号的相干声与环境声提取方法及系统,所述方法包括:计算N个通道信号相干声的权重表达式,根据权重表达式估计相干声,由此计算各个通道的相干声;根据各个通道的相干声计算各个通道的环境声;将N个通道相干声与N个通道环境声进行逆傅里叶变换,得到时域表示的相干声与环境声。无论相干声能量所占比例大小、环境声在各个通道能量是否相等,本发明方法均可实现相干声与环境声提取,而且提取误差较小,精度高。

Description

一种多通道信号的相干声与环境声提取方法及系统
技术领域
本发明涉及空间声重放领域,特别涉及一种多通道信号的相干声与环境声提取方法及系统。
背景技术
空间声重放时,不仅需要满足一定的声源定位、声像宽度要求,还需形成良好的空间感和沉浸感。空间声主要包括具有方向性的相干声和具有扩散性的环境声两种成分。相干声与环境声的特性不同,人们对其感知也不同,因此为了实现更好的空间声重放效果,需要对相干声与环境声提取(Primary-Ambient Extraction,PAE)并进行不同的处理。
PAE技术可以与空间音频场景编码、方向音频编码等空间音频编码系统相融合,已经成为空间声重放系统的关键技术之一。通常,PAE技术作为音频编码或解码的前端,可以实现复杂、有效而且具有沉浸感的空间声重放。首先,PAE技术将空间声场景中的相干声与环境声分离,可以使重放空间声的音频格式与原始的音频格式独立,增加空间声重放的灵活性。其次,对于基于目标的音频格式,基于PAE的声重放系统在不分离出单个声源目标的情况下,一样能重放出空间感较好的声场景,维持了空间声重放的效率性。最后,PAE技术分离出声场景中的两个重要组成成分,即相干声成分和环境声成分,对其分别处理可以在重构声场景时提升听觉体验。
PAE可通过主成分分析法(Principal Component Analysis,PCA)完成,PCA法利用通道间的相关性,将输入信号的协方差矩阵的最大特征值对应的特征向量认定为相干声向量,对该向量进行归一化得到单位向量,输入信号向此单位向量做投影即可得到各个通道的相干声。PCA法的使用前提是相干声占主要能量,当相干声能量较少时提取误差增大。此外,当通道数较多时,输入信号的协方差矩阵的最大特征值对应的特征向量不易求解。除PCA法外,PAE中应用较广的另一种方法是最小二乘法(Least-Squares,LS)。由于使用LS法估计相干声时估计权重计算量较大,尤其是通道数较多时,无法计算估计权重,因此目前LS法仅用于立体声信号的PAE。成对相关法是专门针对多通道信号的PAE方法,此方法将多通道信号两两组对,并探究出各个通道的相干声能量占比与通道间相关值存在线性关系,利用通道间相关值求出各个通道的相干声能量占比,完成多通道信号的PAE。但是该方法仅使用了相关值的幅度信息,提取相干声的准确度不高。
发明内容
本发明的目的在于克服上述技术缺陷,提出了一种多通道信号的相干声与环境声提取方法。该方法通过计算通道数较少时使用最小二乘法估计相干声的权重,根据权重随通道数变化的规律性,得出针对任意通道数的多通道信号进行相干声估计时的权重表达式。此外,本发明的方法利用各个通道的信号能量以及通道间相关值,求出权重表达式中的各个未知参数,实现多通道信号的PAE。
为实现上述目的,本发明的实施例1提供了一种多通道信号的相干声与环境声提取方法,所述方法包括:
计算N个通道信号相干声的权重表达式,根据权重表达式估计相干声,由此计算各个通道的相干声;
根据各个通道的相干声计算各个通道的环境声;
将N个通道相干声与N个通道环境声进行逆傅里叶变换,得到时域表示的相干声与环境声。
作为上述方法的一种改进,所述计算N个通道信号相干声的权重表达式,根据权重表达式估计相干声,由此计算各个通道的相干声;具体包括:
将时域多通道信号进行傅里叶变换,第n个通道输入信号Xn表示为:
Xn=βnS+An
其中,S表示相干声的频谱,βn表示第n个通道的相干声与第一个通道的相干声存在的幅度差异因子,1≤n≤N,β1=1,An表示第n个通道的环境声的频谱;
计算第n个通道输入信号Xn的短时能量
Figure BDA0002506801810000021
Figure BDA0002506801810000022
计算任意两个通道间的相关值:
Figure BDA0002506801810000023
其中,
Figure BDA0002506801810000024
为第n1个通道和第n2个通道间的相关值,n1=1,2,…,N,n2=1,2,…,N,n1≠n2;共有
Figure BDA0002506801810000025
个不同的互相关值;
利用
Figure BDA0002506801810000031
选取N组互相关值联立计算出各个通道中相干声所占比例为ηn
对于第一个通道,已知β1=1,因此有:
Figure BDA0002506801810000032
Figure BDA0002506801810000033
其中,PS表示相干声的短时能量,
Figure BDA0002506801810000034
表示第一个通道环境声的短时能量;
对于其他通道,根据输入信号Xn的短时能量
Figure BDA0002506801810000035
以及通道间相关值,得到:
Figure BDA0002506801810000036
Figure BDA0002506801810000037
其中,
Figure BDA0002506801810000038
表示第n个通道环境声的短时能量,其中n=2,3,…,N;
计算第n个通道的权重值wn
Figure BDA0002506801810000039
则相干声的估计值
Figure BDA00025068018100000310
为:
Figure BDA00025068018100000311
则第n个通道相干声Sn
Figure BDA00025068018100000312
作为上述方法的一种改进,所述根据各个通道的相干声计算各个通道的环境声;具体为:
第n个通道的环境声An为:
An=Xn-Sn
本发明的实施例2提供了一种多通道信号的相干声与环境声提取系统,所述系统包括:
相干声提取模块,用于计算N个通道信号相干声的权重表达式,根据权重表达式估计相干声,由此计算各个通道的相干声;
环境声提取模块,用于根据各个通道的相干声计算各个通道的环境声;
频域转时域模块,用于将所N个通道相干声与N个通道环境声进行逆傅里叶变换,得到时域表示的相干声与环境声。
作为上述系统的一种改进,所述相干声提取模块的具体实现过程为:
将时域多通道信号进行傅里叶变换,第n个通道输入信号Xn表示为:
Xn=βnS+An
其中,S表示相干声的频谱,βn表示第n个通道的相干声与第一个通道的相干声存在的幅度差异因子,1≤n≤N,β1=1,An表示第n个通道的环境声的频谱;
计算第n个通道输入信号Xn的短时能量
Figure BDA0002506801810000041
Figure BDA0002506801810000042
计算任意两个通道间的相关值:
Figure BDA0002506801810000043
其中,
Figure BDA0002506801810000044
为第n1个通道和第n2个通道间的相关值,n1=1,2,…,N,n2=1,2,…,N,n1≠n2;共有
Figure BDA0002506801810000045
个不同的互相关值;
利用
Figure BDA0002506801810000046
选取N组互相关值联立计算出各个通道中相干声所占比例为ηn
对于第一个通道,已知β1=1,因此有:
Figure BDA0002506801810000047
Figure BDA0002506801810000048
其中,PS表示相干声的短时能量,
Figure BDA0002506801810000049
表示第一个通道环境声的短时能量;
对于其他通道,根据输入信号Xn的短时能量
Figure BDA00025068018100000410
以及通道间相关值,得到:
Figure BDA0002506801810000051
Figure BDA0002506801810000052
其中,
Figure BDA0002506801810000053
表示第n个通道环境声的短时能量,其中n=2,3,…,N;
计算第n个通道的权重值wn
Figure BDA0002506801810000054
则相干声的估计值
Figure BDA0002506801810000055
为:
Figure BDA0002506801810000056
则第n个通道相干声Sn
Figure BDA0002506801810000057
作为上述系统的一种改进,所述环境声提取模块的具体实现过程为:
第n个通道的环境声An为:
An=Xn-Sn
本发明的优势在于:
无论相干声能量所占比例大小、环境声在各个通道能量是否相等,本发明方法均可实现相干声和环境声的提取,而且提取误差较小,精度高。
附图说明
图1是本发明的多通道信号的相干声与环境声提取方法的流程图;
图2(a)是使用本发明的方法和成对相关法对混合五通道信号1进行相干声成分提取的误差图;
图2(b)是使用本发明的方法和成对相关法对混合五通道信号1进行环境声成分提取的误差图;
图3(a)是使用本发明的方法和成对相关法对混合五通道信号2进行相干声成分提取的误差图;
图3(b)是使用本发明的方法和成对相关法对混合五通道信号2进行环境声成分提取的误差图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
实施例1
如图1所示,本发明的实施例1提出了一种多通道信号的相干声与环境声提取方法,包括以下步骤:
步骤1)将多通道信号分帧后进行傅里叶变换得到频谱,根据多通道信号模型表示出各个通道的短时能量以及任意两个通道间相关值,具体包括:
多通道信号模型中,输入信号表示为相干声与环境声的叠加。由于相干声和环境声自身的特性不同,假设各个通道的相干声之间是完全相关的,即存在线性关系;假设相干声与每个通道的环境声以及通道间的环境声均是不相关的。
步骤1-1)将时域多通道信号进行傅里叶变换,得到频谱:
Xn=βnS+An,n=1,2,…,N
其中,N为通道数,S表示相干声的频谱,βn表示第n个通道相干声与第一个通道的相干声存在的幅度差异因子,且β1=1,An表示第n个通道的环境声的频谱;
步骤1-2)各个通道的信号能量可以表示为:
Figure BDA0002506801810000061
其中,E{}表示短时平均。
步骤1-3)各个通道间的相关值可以表示为:
Figure BDA0002506801810000062
其中,
Figure BDA0002506801810000063
为第n1个通道和第n2个通道间的相关值,n1=1,2,…,N,n2=1,2,…,N,n1≠n2;共有
Figure BDA0002506801810000064
个不同的互相关值;
步骤2)使用最小二乘法估计计算两个通道和三个通道的相干声的权重值,并探究其规律性,由此给出N个通道的相干声的权重值;
步骤2-1)对于两通道信号,利用输入信号X1和X2估计相干声的权重值:
步骤2-1-1)估计两通道的相干声
Figure BDA0002506801810000071
Figure BDA0002506801810000072
其中,w1和w2表示待求的估计权重。
步骤2-1-2)计算
Figure BDA0002506801810000073
的估计误差σS
Figure BDA0002506801810000074
步骤2-1-3)使用最小二乘算法进行求解,即当估计误差与输入立体声信号完全不相关时,得到的权重为最优估计:
E{σSX1}=0
E{σSX2}=0
此时,最优估计的权重表示为:
Figure BDA0002506801810000075
Figure BDA0002506801810000076
其中,PS表示相干声的短时能量,
Figure BDA0002506801810000077
Figure BDA0002506801810000078
分别表示两个通道环境声的短时能量。
步骤2-2)对于三通道信号,计算出输入信号X1、X2以及X3估计相干声
Figure BDA0002506801810000079
的权重值:
步骤2-2-1)估计相干声
Figure BDA00025068018100000710
Figure BDA00025068018100000711
其中,w1、w2和w3表示待求的估计权重。
步骤2-2-2)利用与步骤2-1)类似的处理方法可以求得三通道信号估计相干声的权重值:
Figure BDA0002506801810000081
Figure BDA0002506801810000082
Figure BDA0002506801810000083
其中,PS表示相干声的短时能量,
Figure BDA0002506801810000084
Figure BDA0002506801810000085
分别表示三个通道环境声的短时能量。
步骤2-3)针对通道数为N的多通道信号,计算相干声的各通道的估计权重;
针对通道数为N的多通道信号,估计的相干声表示为:
Figure BDA0002506801810000086
其中,权重值可以表示为:
Figure BDA0002506801810000087
其中,PS表示相干声的短时能量,
Figure BDA0002506801810000088
分别表示N个通道环境声的短时能量。
步骤3)计算估计相干声的权重中各个未知参数,完成多通道信号的相干声与环境声提取,具体包括:
步骤3-1)由于各个通道的相干声之间是完全相关的,相干声与各个通道的环境声以及通道间的环境声均是不相关的,因此,各个通道的信号能量可以表示为:
Figure BDA0002506801810000089
其中,PS表示相干声的短时能量,
Figure BDA00025068018100000810
表示第n个通道环境声的短时能量。
两个不同通道间相关值为:
Figure BDA00025068018100000811
步骤3-2)定义各个通道中相干声所占比例为ηn,并由通道间相关值求ηn;包括:
步骤3-2-1)将N个通道两两分组并计算其相关值
Figure BDA00025068018100000812
根据ηn的定义得:
Figure BDA0002506801810000091
因此,可得关系:
Figure BDA0002506801810000092
两边取对数,得:
Figure BDA0002506801810000093
步骤3-2-2)N个通道信号存在
Figure BDA0002506801810000094
个不同的互相关值,当N=3时为适定问题,当N>3时为超定问题。因此,当N>3时,选出可靠性较强的N组互相关值即可求出N个未知的通道中相干声所占比例。
步骤3-3)对于第一个通道,已知β1=1,因此有:
Figure BDA0002506801810000095
Figure BDA0002506801810000096
对于其他通道,根据各个通道的信号能量以及通道间相关值,可得:
Figure BDA0002506801810000097
Figure BDA0002506801810000098
步骤3-4)将步骤3-3)中所有参数带入步骤3-2)中权重的表达式,即可实现对第一个通道相干声S的估计。
步骤4)对任意通道数的多通道信号进行PAE,具体包括:
步骤4-1)计算各个通道的相干声,具体包括:
由于步骤2)计算出对任意通道数的多通道信号进行PAE时估计相干声的权重表达式,步骤3)计算出权重表达式中的各个未知参数,因此当确定了多通道信号的通道数,可直接根据权重表达式估计相干声S。此相干声直接为第一个通道的相干声,其他通道的相干声由S线性处理得到,即为βnS(n=2,…,N)。
步骤4-2)计算各个通道的环境声,具体包括:
将各个通道剩余成分认定为环境声,即An=XnnS。
步骤4-3)将所得的N个通道相干声与N个通道环境声进行逆傅里叶变换,得到时域表示的相干声与环境声。
下面结合仿真实例,对本发明所提出的方法性能进行说明:
将完全相关的相干声与完全不相关的环境声按照一定比例合成混合五通道信号,使用本发明提出的多通道PAE方法和成对相关法进行成分提取。合成了两组混合多通道信号,即纯净语音作为相干声、海浪声作为环境声的混合五通道信号1以及纯净音乐声作为相干声、森林背景声作为环境声的混合五通道信号2。混合时,为了控制各个通道间相干声能量的分布,设定各个通道间相干声幅度差异因子βn与其参考值β0之间呈一定的比例关系;为了控制各个通道间环境声能量的分布,设定各个通道环境声能量
Figure BDA0002506801810000101
与其参考值
Figure BDA0002506801810000102
之间呈一定的比例关系;为了控制混合信号中相干声成分所占比例,设定不同的相干声能量占比γ。参考值β0由γ决定。
本实验设定各个通道相干声的幅度存在β1=β2=β0,β3=2β0,β4=β5=0.5β0的比例关系,各个通道环境声的能量存在
Figure BDA0002506801810000103
相干声能量占比γ取值为0.05至0.95(间隔为0.1)。相干声的提取误差εP分别表示为:
Figure BDA0002506801810000104
环境声的提取误差εa分别表示为:
Figure BDA0002506801810000105
图2(a)和图2(b)代表了本发明所提出的算法和成对相关法分别对混合五通道信号1进行PAE时相干声和环境声的提取误差;图3(a)和图3(b)代表了本发明所提出的算法和成对相关法分别对混合五通道信号2进行PAE时相干声和环境声的提取误差。可以看出,在相干声能量占比γ取值为0.05至0.95(间隔为0.1)的整个区间内,本发明提出的算法的提取误差均小于成对相关法。
实施例2
本发明的实施例2提供了一种多通道信号的相干声与环境声提取系统,所述系统包括:
相干声提取模块,用于计算N个通道信号相干声的权重表达式,根据权重表达式估计相干声,由此计算各个通道的相干声;
环境声提取模块,用于根据各个通道的相干声计算各个通道的环境声;
频域转时域模块,用于将所N个通道相干声与N个通道环境声进行逆傅里叶变换,得到时域表示的相干声与环境声。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种多通道信号的相干声与环境声提取方法,所述方法包括:
计算N个通道信号相干声的权重表达式,根据权重表达式估计相干声,由此计算各个通道的相干声;
根据各个通道的相干声计算各个通道的环境声;
将N个通道相干声与N个通道环境声进行逆傅里叶变换,得到时域表示的相干声与环境声;
所述计算N个通道信号相干声的权重表达式,根据权重表达式估计相干声,由此计算各个通道的相干声;具体包括:
将时域多通道信号进行傅里叶变换,第n个通道输入信号Xn表示为:
Xn=βnS+An
其中,S表示相干声的频谱,βn表示第n个通道的相干声与第一个通道的相干声存在的幅度差异因子,1≤n≤N,β1=1,An表示第n个通道的环境声的频谱;
计算第n个通道输入信号Xn的短时能量
Figure FDA0002921795040000011
Figure FDA0002921795040000012
计算任意两个通道间的相关值:
Figure FDA0002921795040000013
其中,
Figure FDA0002921795040000014
为第n1个通道和第n2个通道间的相关值,n1=1,2,…,N,n2=1,2,…,N,n1≠n2;共有
Figure FDA0002921795040000015
个不同的互相关值;
利用
Figure FDA0002921795040000016
选取N组互相关值联立计算出各个通道中相干声所占比例为ηn
对于第一个通道,已知β1=1,因此有:
Figure FDA0002921795040000017
Figure FDA0002921795040000018
其中,PS表示相干声的短时能量,
Figure FDA0002921795040000019
表示第一个通道环境声的短时能量;
对于其他通道,根据输入信号Xn的短时能量
Figure FDA0002921795040000021
以及通道间相关值,得到:
Figure FDA0002921795040000022
Figure FDA0002921795040000023
其中,
Figure FDA0002921795040000024
表示第n个通道环境声的短时能量,其中n≥2;
计算第n个通道的权重值wn
Figure FDA0002921795040000025
则相干声的估计值
Figure FDA0002921795040000026
为:
Figure FDA0002921795040000027
则第n个通道相干声Sn
Figure FDA0002921795040000028
2.根据权利要求1所述的多通道信号的相干声与环境声提取方法,其特征在于,所述根据各个通道的相干声计算各个通道的环境声;具体为:
第n个通道的环境声An为:
An=Xn-Sn
3.一种多通道信号的相干声与环境声提取系统,其特征在于,所述系统包括:
相干声提取模块,用于计算N个通道信号相干声的权重表达式,根据权重表达式估计相干声,由此计算各个通道的相干声;
环境声提取模块,用于根据各个通道的相干声计算各个通道的环境声;
频域转时域模块,用于将N个通道相干声与N个通道环境声进行逆傅里叶变换,得到时域表示的相干声与环境声;
所述相干声提取模块的具体实现过程为:
将时域多通道信号进行傅里叶变换,第n个通道输入信号Xn表示为:
Xn=βnS+An
其中,S表示相干声的频谱,βn表示第n个通道的相干声与第一个通道的相干声存在的幅度差异因子,1≤n≤N,β1=1,An表示第n个通道的环境声的频谱;
计算第n个通道输入信号Xn的短时能量
Figure FDA0002921795040000031
Figure FDA0002921795040000032
计算任意两个通道间的相关值:
Figure FDA0002921795040000033
其中,
Figure FDA0002921795040000034
为第n1个通道和第n2个通道间的相关值,n1=1,2,…,N,n2=1,2,…,N,n1≠n2;共有
Figure FDA0002921795040000035
个不同的互相关值;
利用
Figure FDA0002921795040000036
选取N组互相关值联立计算出各个通道中相干声所占比例为ηn
对于第一个通道,已知β1=1,因此有:
Figure FDA0002921795040000037
Figure FDA0002921795040000038
其中,PS表示相干声的短时能量,
Figure FDA0002921795040000039
表示第一个通道环境声的短时能量;
对于其他通道,根据输入信号Xn的短时能量
Figure FDA00029217950400000310
以及通道间相关值,得到:
Figure FDA00029217950400000311
Figure FDA00029217950400000312
其中,
Figure FDA00029217950400000313
表示第n个通道环境声的短时能量,其中n≥2;
计算第n个通道的权重值wn
Figure FDA0002921795040000041
则相干声的估计值
Figure FDA0002921795040000042
为:
Figure FDA0002921795040000043
则第n个通道相干声Sn
Figure FDA0002921795040000044
4.根据权利要求3所述的多通道信号的相干声与环境声提取系统,其特征在于,所述环境声提取模块的具体实现过程为:
第n个通道的环境声An为:
An=Xn-Sn
CN202010448458.9A 2020-05-25 2020-05-25 一种多通道信号的相干声与环境声提取方法及系统 Active CN111711918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010448458.9A CN111711918B (zh) 2020-05-25 2020-05-25 一种多通道信号的相干声与环境声提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010448458.9A CN111711918B (zh) 2020-05-25 2020-05-25 一种多通道信号的相干声与环境声提取方法及系统

Publications (2)

Publication Number Publication Date
CN111711918A CN111711918A (zh) 2020-09-25
CN111711918B true CN111711918B (zh) 2021-05-18

Family

ID=72538330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010448458.9A Active CN111711918B (zh) 2020-05-25 2020-05-25 一种多通道信号的相干声与环境声提取方法及系统

Country Status (1)

Country Link
CN (1) CN111711918B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119785819A (zh) * 2024-12-23 2025-04-08 科大讯飞(苏州)科技有限公司 音频信号分离方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101401151A (zh) * 2006-03-15 2009-04-01 法国电信公司 根据主分量分析的多通道音频信号的可分级编码的设备和方法
EP2523473A1 (en) * 2011-05-11 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an output signal employing a decomposer
CN110534129A (zh) * 2018-05-23 2019-12-03 哈曼贝克自动系统股份有限公司 干声和环境声音的分离

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2472306C2 (ru) * 2007-09-26 2013-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды
CN103474066B (zh) * 2013-10-11 2016-01-06 福州大学 基于多频带信号重构的生态声音识别方法
CN103902822B (zh) * 2014-03-28 2017-09-08 西安交通大学苏州研究院 非相干和相干信号混合情况下的信号个数检测方法
CN110531310B (zh) * 2019-07-25 2021-07-13 西安交通大学 基于子空间和内插变换的远场相干信号波达方向估计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101401151A (zh) * 2006-03-15 2009-04-01 法国电信公司 根据主分量分析的多通道音频信号的可分级编码的设备和方法
EP2523473A1 (en) * 2011-05-11 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an output signal employing a decomposer
CN110534129A (zh) * 2018-05-23 2019-12-03 哈曼贝克自动系统股份有限公司 干声和环境声音的分离

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
相干声与环境声提取方法的客观性能评估;吴彦琴等;《声学技术》;20191031;第38卷(第5期);全文 *

Also Published As

Publication number Publication date
CN111711918A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN110089134B (zh) 用于再现空间分布声音的方法、系统及计算机可读介质
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
RU2568926C2 (ru) Устройство и способ извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации
JP5595602B2 (ja) 予め計算された参照曲線を用いて入力信号を分解する装置および方法
CN105432097B (zh) 伴有内容分析和加权的具有立体声房间脉冲响应的滤波
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
EP3776544A1 (en) Spatial audio parameters and associated spatial audio playback
CN114203163A (zh) 音频信号处理方法及装置
CN103165136A (zh) 音频处理方法及音频处理设备
CN113870893B (zh) 一种多通道双说话人分离方法及系统
CN112216301B (zh) 基于对数幅度谱和耳间相位差的深度聚类语音分离方法
CN111711918B (zh) 一种多通道信号的相干声与环境声提取方法及系统
Zhou et al. Binaural sound source localization based on convolutional neural network
CN111707990A (zh) 一种基于密集卷积网络的双耳声源定位方法
CN109068262B (zh) 一种基于扬声器的声像个性化重现方法及装置
CN111669697B (zh) 一种多通道信号的相干声与环境声提取方法及系统
CN115421099B (zh) 一种语音波达方向估计方法及系统
WO2020057050A1 (zh) 直达声与背景声提取方法、扬声器系统及其声重放方法
Hammond et al. Robust full-sphere binaural sound source localization using interaural and spectral cues
CN113449255A (zh) 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质
Li et al. Separation of Multiple Speech Sources in Reverberant Environments Based on Sparse Component Enhancement
Ellinson et al. Binaural Target Speaker Extraction using HRTFs
EP4346235A1 (en) Apparatus and method employing a perception-based distance metric for spatial audio
Chen et al. Interpolation method of head-related transfer functions based on common-pole/zero modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant