CN111477233A - 一种音频信号的处理方法、装置、设备及介质 - Google Patents
一种音频信号的处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111477233A CN111477233A CN202010273091.1A CN202010273091A CN111477233A CN 111477233 A CN111477233 A CN 111477233A CN 202010273091 A CN202010273091 A CN 202010273091A CN 111477233 A CN111477233 A CN 111477233A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- frame
- matrix
- determining
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 456
- 238000003672 processing method Methods 0.000 title claims description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 252
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012899 de-mixing Methods 0.000 claims description 56
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本发明关于一种音频信号的处理方法、装置、设备及介质,应用于电梯、智能汽车等语音控制场景,用以从包含多个对象音频信号中分离每个对象语音信号,提升分离对象语音信号效率,优化语音识别过程。方法包括:获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值;根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
Description
技术领域
本发明涉及语音处理领域,尤其涉及一种音频信号的处理方法、装置、设备及介质。
背景技术
在语音控制领域中,通常同一时间由一个用户发出语音控制命令,根据采集该用户的音频确定具体的命令意图。但在共享语音控制权限的场景中(例如,电梯场景),多个用户均享有语音控制权限,若出现多个用户同一时间发出语音控制命令,被采集的音频中包含了多个用户的语音控制命令,因无法确定每个用户的语音控制命令音频,造成无法确定每个用户的具体命令意图,还需要确认多个用户逐个发出语音控制命令,使得处理效率低下。因此,亟需一种确定包含多个用户语音的音频中每个用户语音音频的解决方案。
发明内容
本发明提供一种音频信号的处理方法、装置、设备及介质,用以从包含多个对象音频信号中分离每个对象语音信号,提升分离对象语音信号效率,优化语音识别过程。
本发明的技术方案如下:
根据本发明实施例的第一方面,提供一种音频信号的处理方法,包括:
获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值;
根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,各帧音频信号的解混矩阵,采用如下步骤确定:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解混矩阵,确定首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中间解混矩阵,确定非首帧音频信号的解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中确定每路音频信号中首帧音频信号的中间解混矩阵,包括:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中确定每路音频信号中非首帧音频信号的中间解混矩阵,包括:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值,包括:
根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
依据各帧语音信号的幅值矩阵的维数以及多个预设频率的数量,确定对象数量;
基于各帧语音信号的幅值矩阵、对象数量,确定每个对象的各帧语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理方法中,根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频,包括:
基于预设转换关系,将每个对象的各帧语音信号在多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据每个对象的各帧语音信号,确定每个对象的语音音频。
根据本发明实施例的第二方面,提供一种音频信号的处理装置,包括:
获取单元,用于获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
矩阵确定单元,用于基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
处理单元,用于根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值;
语音音频确定单元,用于根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元具体用于:
采用如下步骤确定各帧音频信号的解混矩阵:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解混矩阵,确定首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中间解混矩阵,确定非首帧音频信号的解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元具体用于:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元具体用于:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元具体用于:
根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
依据各帧语音信号的幅值矩阵的维数以及多个预设频率的数量,确定对象数量;
基于各帧语音信号的幅值矩阵、对象数量,确定每个对象的各帧语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,语音音频确定单元,具体用于:
基于预设转换关系,将每个对象的各帧语音信号在多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据每个对象的各帧语音信号,确定每个对象的语音音频。
根据本发明实施例的第三方面,提供一种音频信号的处理设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令以实现第一方面中任一项的音频信号的处理方法。
根据本发明实施例的第四方面,提供一种存储介质,当存储介质中的指令由音频信号的处理设备的处理器执行时,使得音频信号的处理设备能够执行第一方面中任一项的音频信号的处理方法。
本发明的实施例提供的技术方案至少带来以下有益效果:
获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号,基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵,根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值,根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。利用各帧语音信号的解混矩阵以及多路音频信号的各帧音频幅值矩阵,确定出包含多个对象的语音信号在多个预设频率的幅值,实现从多路音频信号中分离多个对象的语音信号信息。利用多个对象的语音信号在多个预设频率的幅值可以确定多个对象的语音信号,从而从多路包含多个对象语音信号的音频信号中分离出每个对象的语音信号,提升确定对象语音信号的效率,有利于提升对象语音识别效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理,并不构成对本发明的不当限定。
图1是根据一示例性实施例示出的一种音频信号的处理方法的示意流程图。
图2是根据一示例性实施例示出的一种音频信号的处理方法的示意流程图。
图3是根据一示例性实施例示出的音频信号的处理方法信号流向示意图。
图4是根据一示例性实施例示出的一种音频信号的处理装置的结构示意图。
图5是根据一示例性实施例示出的一种音频信号的处理设备的结构示意图。
图6是根据一示例性实施例示出的另一种音频信号的处理设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例描述的应用是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明实施例中的音频信号的处理方法,可以应用于识别多人同时进行语音控制的场景。例如,电梯的语音控制场景、智能汽车的语音控制场景、其他语音控制智能设备的语音控制场景等。
图1是根据一示例性实施例示出的一种音频信号的处理方法的流程示意图,如图1所示,音频信号的处理方法,包括以下步骤:
步骤S101,获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号。
具体实施时,在同一场景中,利用多个音频采集设备采集多路音频信号,例如,每个音频采集设备采集一路音频信号,音频采集设备可以是麦克风等设备。由于在同一场景中,例如电梯场景中,乘坐者通过语音控制命令控制电梯停靠某个楼层,当多个乘坐者同时发出语音控制命令时,因采集的音频为混有多个乘坐者的语音,导致无法识别每一个乘坐者的语音,可以在电梯场景中可以通过本发明实施例提供的音频信号的处理方法确定出每一个乘坐者的语音,可以对每一个乘坐者的语音进行语义识别,从而实现确定每一个乘坐者的语音控制命令。需要说明的是,本发明实施例中提供的音频信号的处理方法可以应用于带有唤醒词的语音控制场景中,也可以应用于无唤醒词的语音控制场景中。
在实际应用场景中,为了提升确定出的每个乘坐者的语音信号的效果,可以增加对音频采集设备采集条件的限定,例如,音频采集设备以预设采样频率(如16000Hz)进行音频信号的采集等。为便于对本发明实施例提供的音频信号的处理方法的描述,获取的多路音频信号中第m路音频信号记为xm。
步骤S102,基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵。
具体实施时,根据采集频率确定可以确定每路音频信号都包含数量相同帧音频信号,第m路音频信号的第n帧音频信号记为xm(n)。利用短时傅里叶变换方法,可以确定每路音频信号中各帧音频信号在多个预设频率的幅值,例如,第m路音频信号的第n帧音频信号在多个预设频率中的第k个频率的幅值记为Xm(k,n)。根据每路音频信号中各帧音频信号在多个预设频率的幅值,可以确定各帧音频信号的幅值矩阵X(k,n),例如
步骤S103,根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值。
具体实施时,利用各帧音频信号的幅值矩阵X(k,n),以及预先确定的各帧音频信号的解混矩阵W(k,n),这两个矩阵的乘积X(k,n)W(k,n)=Y(k,n),可以确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值。
在实际应用场景中,根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
依据各帧语音信号的幅值矩阵的维数以及多个预设频率的数量,确定对象数量;
基于各帧语音信号的幅值矩阵、对象数量,确定每个对象的各帧语音信号在多个预设频率的幅值。
具体实施时,各帧音频信号的幅值矩阵X(k,n)以及预先确定的各帧音频信号的解混矩阵W(k,n)的乘积X(k,n)W(k,n)=Y(k,n),各帧语音信号的幅值矩阵的维数i(行数),以及多个预设频率的数量k,l与k的比值为对象数量,例如,矩阵Y(k,n)的维数为8,多个预设频率的数量为4,则对象数量为2。根据各帧语音信号的幅值矩阵Y(k,n)和对象数量p(p=i/k),可以确定包含多个对象各帧语音信号在各个预设频率的幅值矩阵Y(k),并且矩阵的维数为p,并且第p个对象在第k个频率的幅值为Y(k)矩阵中第p行的元素,也因而可以确定出每个对象在各个频率的幅值,从而确定每个对象的各帧语音信号在多个预设频率的幅值Yp(k,n)。
一种可能的实施方式中,预先确定的各帧音频信号的解混矩阵,采用如下步骤确定:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解混矩阵,确定首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中间解混矩阵,确定非首帧音频信号的解混矩阵。
具体实施时,第m路音频信号中首帧音频信号(n=1)的中间解混矩阵记为wm(k,1),根据所有路音频信号中首帧音频信号的中间解混矩阵,可以确定首帧音频信号的解混矩阵第m路音频信号中非首帧音频信号(n≠1)的中间解混矩阵记为wm(k,n),根据所有路音频信号中第n帧音频信号的中间解混矩阵,可以确定第n帧音频信号的解混矩阵 实现确定每帧音频信号的解混矩阵,需要说明的是,为了便于区分中间解混矩阵与解混矩阵,本发明实施例中的中间解混矩阵为每路音频信号中各帧音频信号的中间解混矩阵,解混矩阵是由每路音频信号中帧次序相同的音频信号的中间解混矩阵组成的矩阵。也即,中间解混矩阵中仅包含一路音频信号中一帧音频信号的信息,解混矩阵中包含多路音频信号中帧次序相同的音频信号的信息。
在实际应用场景中,确定每路音频信号中首帧音频信号的中间解混矩阵,包括:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
具体实施时,针对每路音频信号首帧音频信号的中间解混矩阵,可以设置为单位矩阵,也即预设矩阵设置为单位矩阵,例如第m路音频信号中首帧音频信号(n=1)的中间解混矩阵wm(k,1)中每个频点的幅值均为1,假设预设多个频点数量k=3,那么
在实际应用场景中,确定每路音频信号中非首帧音频信号的中间解混矩阵,包括:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
具体实施时,确定每路音频信号中非首帧音频信号的中间解混矩阵时,针对第m路音频信号中的当前帧音频信号(第n帧音频信号),进行如下处理:
根据第n帧音频信号在多个预设频率的幅值Xm(k,n),前一帧音频信号的解混矩阵W(k,n-1)中可以确定出第m路音频信号的前一帧音频信号的中间解混矩阵wm(k,n-1),然后通过如下公式确定每路音频信号中当前帧音频信号(n≠1)的信号能量:其中,为wm(k,n-1)的共轭矩阵。
基于第n帧音频信号的能量rm(n)、第n帧音频信号在多个预设频率的幅值Xm(k,n)、以及前一帧音频信号的协方差矩阵Vm(k,n-1),通过公式确定第m路音频信号中第n帧音频信号的协方差矩阵,其中a为预设平滑系数,在实际应用场景中G·(rm(n))的值可以取1。
根据第m路音频信号中第n帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵W(k,n-1),通过公式wm(k,n)=(W(k,n-1)Vm(k,n))-1ek,确定出第m路音频信号中第n帧音频信号的中间解混矩阵wm(k,n)。
需要说明的是,由于各路首帧音频信号的中间解混矩阵是根据预设矩阵确定的,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的,其中,确定协方差矩阵时的平滑系数a的值可以等于0。
步骤S104,根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
具体实施时,可以根据步骤S102中预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值的方法,确定将每个对象的各帧语音信号在多个预设频率的幅值转换为确定每个对象的语音音频的方法。
例如,基于预设转换关系,将每个对象的各帧语音信号在多个预设频率的幅值,转换为每个对象的各帧语音信号。在实际应用场景中,例如,预先确定每路音频信号中各帧音频信号在多个预设频率的幅值采用短时傅里叶变换,那个预设转换关系可以是短时傅里叶变换的逆变换,将每个对象的各帧语音信号在多个预设频率的幅值Yp(k,n),通过预设转换关系,转换为各帧语音信号yp(n)。将每个对象的各帧语音信号yp(n),根据帧时序关系,将各帧语音信号拼接得到每个对象的语音音频yp={yp(1)…yp(n)}。
图2为根据一示例性示出的音频信号的处理方法的示意流程图,如图2所示,音频信号的处理方法,包括:
步骤S201,获取多路音频信号。
具体实施时,多路音频信号是以利用设置在统一场景中的多个音频采集设备采集的,并且每路音频信号中混有多个对象的语音信号。其中,多个对象可指多个说话人,语音信号可指多个说话人的语音。如图3示出音频信号的处理方法信号流向示意图,获取的多路音频信号记为xm,每路音频信号中各帧音频信号记为xm(n)。
步骤S202,确定每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵。
具体实施时,如图3所示,可以通过图3中示出的短时傅里叶变换模块301,将每路音频信号中各帧音频信号通过变换确定其在频域中多个预设频率的幅值Xm(k,n),并组成各帧音频信号的幅值矩阵X(k,n)。
步骤S203,确定各帧音频信号的解混矩阵。
具体实施时,确定各帧音频信号的解混矩阵是一个迭代的过程,也即确定当前帧音频信号的解混矩阵,需要基于前一帧音频信号的解混矩阵进行确定。第n帧音频信号的解混矩阵W(k,n),是由各路音频信号中第n帧音频信号的中间解混矩阵wm(k,n)确定的,
若第n帧音频信号为非首帧音频信号(n≠1),采用如下过程确定每路音频信号中第n帧音频信号的中间解混矩阵:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵。
具体实施时,根据第n帧音频信号在多个预设频率的幅值Xm(k,n),前一帧音频信号的解混矩阵W(k,n-1)中可以确定出第m路音频信号的前一帧音频信号的中间解混矩阵wm(k,n-1),然后通过如下公式确定每路音频信号中当前帧音频信号(n≠1)的信号能量:
基于第n帧音频信号的能量rm(n)、第n帧音频信号在多个预设频率的幅值Xm(k,n)、以及前一帧音频信号的协方差矩阵Vm(k,n-1),通过公式确定第m路音频信号中第n帧音频信号的协方差矩阵,其中a为预设平滑系数,在实际应用场景中G·(rm(n))的值可以取1。
根据第m路音频信号中第n帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵W(k,n-1),通过公式wm(k,n)=(W(k,n-1)Vm(k,n))-1ek,确定出第m路音频信号中第n帧音频信号的中间解混矩阵wm(k,n)。
若第n帧音频信号为首帧音频信号(n=1),将预设矩阵确定为每路音频信号中首帧音频信号的中间解混矩阵,例如预设矩阵可以为单位矩阵,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的,其中,确定协方差矩阵时的平滑系数a的值可以等于0。
步骤S204,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值。
具体实施时,利用第n帧音频信号的幅值矩阵X(k,n)以及第n帧音频信号的解混矩阵W(k,n),通过X(k,n)W(k,n)=Y(k,n),确定出包含多个对象的各帧语音信号在多个预设频率的幅值矩阵Y(k,n),其中,矩阵Y(k,n)的维数与多个预设频率的数量之比为对象数量,例如矩阵Y(k,n)的维数为q,多个预设频率的数量为k,对象的数量为q/k。可以确定其中,多个对象在同一频率的幅值矩阵可表示为Yk(n),并且Yk(n)的维数与对象的数量一致。根据多个对象在各频率的幅值矩阵可以确定出每个对象第n帧语音信号在多个预设频率的幅值。
步骤S205,根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
具体实施时,可以通过如图3中示出的短时傅里叶逆变换模块302,将每个对象的第n帧语音信号在多个预设频率的幅值,转换为每个对象第n帧的语音音频。每个对象的语音音频由全部帧语音音频组成,实现从混合多个对象的音频信号中分离出每个对象的语音音频。
图4是根据一示例性实施例示出的一种音频信号的处理装置结构示意图,如图4所示,该装置包括获取单元401,矩阵确定单元402,处理单元403,语音音频确定单元404。
获取单元401,用于获取多路音频信号,多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
矩阵确定单元402,用于基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
处理单元403,用于根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值;
语音音频确定单元404,用于根据每个对象的各帧语音信号在多个预设频率的幅值,确定每个对象的语音音频。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元403具体用于:
采用如下步骤确定各帧音频信号的解混矩阵:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于每路音频信号中首帧音频信号的中间解混矩阵,确定首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于每路音频信号中非首帧音频信号的中间解混矩阵,确定非首帧音频信号的解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元403具体用于:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元403具体用于:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,处理单元403具体用于:
根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
依据各帧语音信号的幅值矩阵的维数以及多个预设频率的数量,确定对象数量;
基于各帧语音信号的幅值矩阵、对象数量,确定每个对象的各帧语音信号在多个预设频率的幅值。
一种可能的实施方式中,本发明实施例提供的音频信号的处理装置中,语音音频确定单元404,具体用于:
基于预设转换关系,将每个对象的各帧语音信号在多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据每个对象的各帧语音信号,确定每个对象的语音音频。
基于上述本发明实施例相同构思,图5是根据一示例性实施例示出的音频信号的处理设备500的结构示意图,如图5所示,本发明实施例示出的音频信号的处理设备500包括:
处理器510;
用于存储处理器510可执行指令的存储器520;
其中,处理器510被配置为执行指令,以实现本发明实施例中音频信号的处理方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器520,上述指令可由音频信号的处理装置的处理器510执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
另外,结合图1、2、3所描述的本发明实施例提供的音频信号的处理方法及装置可以由音频信号的处理设备来实现。图6示出了本发明实施例提供的音频信号的处理设备结构示意图。
该音频信号的处理设备可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器602可以包括用于存储数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在数据处理装置的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的音频信号的处理方法。
在一个示例中,该音频信号的处理设备还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。
通信接口603,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将该音频信号的处理设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其它图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其它合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的音频信号的处理方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一项音频信号的处理方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种音频信号的处理方法,其特征在于,所述方法包括:
获取多路音频信号,所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在所述多个预设频率的幅值;
根据所述每个对象的各帧语音信号在所述多个预设频率的幅值,确定每个对象的语音音频。
2.根据权利要求1所述的方法,其特征在于,所述各帧音频信号的解混矩阵,采用如下步骤确定:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于所述每路音频信号中首帧音频信号的中间解混矩阵,确定所述首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于所述每路音频信号中非首帧音频信号的中间解混矩阵,确定所述非首帧音频信号的解混矩阵。
3.根据权利要求2所述的方法,其特征在于,所述确定每路音频信号中首帧音频信号的中间解混矩阵,包括:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
4.根据权利要求3所述的方法,其特征在于,所述确定每路音频信号中非首帧音频信号的中间解混矩阵,包括:
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在所述多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在所述多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于所述预设矩阵以及各路音频信号中首帧音频信号在所述多个预设频率的幅值确定的。
5.根据权利要求1所述的方法,其特征在于,所述根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在所述多个预设频率的幅值,包括:
根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
依据所述各帧语音信号的幅值矩阵的维数以及所述多个预设频率的数量,确定对象数量;
基于所述各帧语音信号的幅值矩阵、所述对象数量,确定每个对象的各帧语音信号在所述多个预设频率的幅值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述每个对象的各帧语音信号在所述多个预设频率的幅值,确定每个对象的语音音频,包括:
基于预设转换关系,将所述每个对象的各帧语音信号在所述多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据所述每个对象的各帧语音信号,确定每个对象的语音音频。
7.一种音频信号的处理装置,其特征在于,所述装置包括:
获取单元,用于获取多路音频信号,所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的,且每路音频信号中包含多个对象的语音信号;
矩阵确定单元,用于基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值,确定各帧音频信号的幅值矩阵;
处理单元,用于根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定对象数量以及每个对象的各帧语音信号在所述多个预设频率的幅值;
语音音频确定单元,用于根据所述每个对象的各帧语音信号在所述多个预设频率的幅值,确定每个对象的语音音频。
8.根据权利要求7所述的装置,其特征在于,所述处理单元具体用于:
采用如下步骤确定所述各帧音频信号的解混矩阵:
确定每路音频信号中首帧音频信号的中间解混矩阵,并基于所述每路音频信号中首帧音频信号的中间解混矩阵,确定所述首帧音频信号的解混矩阵;
确定每路音频信号中非首帧音频信号的中间解混矩阵,并基于所述每路音频信号中非首帧音频信号的中间解混矩阵,确定所述非首帧音频信号的解混矩阵。
9.根据权利要求8所述的装置,其特征在于,所述处理单元具体用于:
针对每路音频信号,将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
10.根据权利要求9所述的装置,其特征在于,所述处理单元具体用于
针对每路音频信号中非首帧音频信号:
根据当前帧音频信号在所述多个预设频率的幅值以及前一帧音频信号的解混矩阵,确定当前帧音频信号的信号能量;
基于当前帧音频信号的信号能量、当前帧音频信号在所述多个预设频率的幅值、以及前一帧音频信号的协方差矩阵,确定当前帧音频信号的协方差矩阵;
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵,确定当前帧音频信号的中间解混矩阵;
其中,各路首帧音频信号的协方差矩阵是基于所述预设矩阵以及各路音频信号中首帧音频信号在所述多个预设频率的幅值确定的。
11.根据权利要求7所述的装置,其特征在于,所述处理单元具体用于:
根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵,确定各帧语音信号幅值矩阵;
依据所述各帧语音信号的幅值矩阵的维数以及所述多个预设频率的数量,确定对象数量;
基于所述各帧语音信号的幅值矩阵、所述对象数量,确定每个对象的各帧语音信号在所述多个预设频率的幅值。
12.根据权利要求7所述的装置,其特征在于,所述语音音频确定单元,具体用于:
基于预设转换关系,将所述每个对象的各帧语音信号在所述多个预设频率的幅值,转换为每个对象的各帧语音信号;
根据所述每个对象的各帧语音信号,确定每个对象的语音音频。
13.一种音频信号的处理设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令以实现如权利要求1至6中任一项所述的音频信号的处理方法。
14.一种存储介质,其特征在于,当所述存储介质中的指令由音频信号的处理设备的处理器执行时,使得所述音频信号的处理设备能够执行如权利要求1至6中任一项所述的音频信号的处理方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010273091.1A CN111477233B (zh) | 2020-04-09 | 2020-04-09 | 一种音频信号的处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010273091.1A CN111477233B (zh) | 2020-04-09 | 2020-04-09 | 一种音频信号的处理方法、装置、设备及介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111477233A true CN111477233A (zh) | 2020-07-31 |
| CN111477233B CN111477233B (zh) | 2021-02-09 |
Family
ID=71751385
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010273091.1A Active CN111477233B (zh) | 2020-04-09 | 2020-04-09 | 一种音频信号的处理方法、装置、设备及介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111477233B (zh) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20080205676A1 (en) * | 2006-05-17 | 2008-08-28 | Creative Technology Ltd | Phase-Amplitude Matrixed Surround Decoder |
| CN101667425A (zh) * | 2009-09-22 | 2010-03-10 | 山东大学 | 一种对卷积混叠语音信号进行盲源分离的方法 |
| CN104200813A (zh) * | 2014-07-01 | 2014-12-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
| CN107464564A (zh) * | 2017-08-21 | 2017-12-12 | 腾讯科技(深圳)有限公司 | 语音交互方法、装置及设备 |
| CN110010148A (zh) * | 2019-03-19 | 2019-07-12 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
-
2020
- 2020-04-09 CN CN202010273091.1A patent/CN111477233B/zh active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20080205676A1 (en) * | 2006-05-17 | 2008-08-28 | Creative Technology Ltd | Phase-Amplitude Matrixed Surround Decoder |
| CN101667425A (zh) * | 2009-09-22 | 2010-03-10 | 山东大学 | 一种对卷积混叠语音信号进行盲源分离的方法 |
| CN104200813A (zh) * | 2014-07-01 | 2014-12-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
| CN107464564A (zh) * | 2017-08-21 | 2017-12-12 | 腾讯科技(深圳)有限公司 | 语音交互方法、装置及设备 |
| CN110010148A (zh) * | 2019-03-19 | 2019-07-12 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111477233B (zh) | 2021-02-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109473123B (zh) | 语音活动检测方法及装置 | |
| CN114333896B (zh) | 语音分离方法、电子设备、芯片及计算机可读存储介质 | |
| CN108630193B (zh) | 语音识别方法及装置 | |
| US8838447B2 (en) | Method for classifying voice conference minutes, device, and system | |
| CN111179911A (zh) | 目标语音提取方法、装置、设备、介质和联合训练方法 | |
| CN111916075A (zh) | 一种音频信号的处理方法、装置、设备及介质 | |
| CN106356067A (zh) | 录音方法、装置及终端 | |
| CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
| CN105488227A (zh) | 一种电子设备及其基于声纹特征处理音频文件的方法 | |
| CN109065051B (zh) | 一种语音识别处理方法及装置 | |
| CN111128212A (zh) | 混合语音分离方法及装置 | |
| CN118197346A (zh) | 基于多尺度语音-脑电融合的脑控说话人提取方法及系统 | |
| CN111477233B (zh) | 一种音频信号的处理方法、装置、设备及介质 | |
| CN115910037B (zh) | 语音信号的提取方法、装置、可读存储介质及电子设备 | |
| CN112420056A (zh) | 基于变分自编码器的说话人身份鉴别方法、系统及无人机 | |
| US11863946B2 (en) | Method, apparatus and computer program for processing audio signals | |
| CN116153328A (zh) | 一种音频数据处理方法、系统、存储介质及电子设备 | |
| Vilouras | Acoustic scene classification using fully convolutional neural networks and per-channel energy normalization | |
| CN111103568A (zh) | 一种声源定位方法、装置、介质和设备 | |
| US11250871B2 (en) | Acoustic signal separation device and acoustic signal separating method | |
| CN114974260B (zh) | 基于对抗学习的跨通道内容无关说话人识别方法及系统 | |
| CN114220428B (zh) | 一种语音识别方法、装置、设备及计算机存储介质 | |
| CN118098254A (zh) | 模型训练及多通道语音增强方法、装置及设备 | |
| CN111354341A (zh) | 语音唤醒方法及装置、处理器、音箱和电视机 | |
| CN117409802A (zh) | 信号处理方法、装置、电子设备和存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |