JP2006243664A - Signal separation device, signal separation method, signal separation program, and recording medium - Google Patents
Signal separation device, signal separation method, signal separation program, and recording medium Download PDFInfo
- Publication number
- JP2006243664A JP2006243664A JP2005062957A JP2005062957A JP2006243664A JP 2006243664 A JP2006243664 A JP 2006243664A JP 2005062957 A JP2005062957 A JP 2005062957A JP 2005062957 A JP2005062957 A JP 2005062957A JP 2006243664 A JP2006243664 A JP 2006243664A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- time
- frequency domain
- separation
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 複数の信号源から発せられた信号が混合された混合信号から目的信号を小さな歪みで分離抽出する。
【解決手段】 まず、窓関数の長さTの1/S(S>2)倍シフトで設定された各フレームにおいて当該窓関数を混合信号に掛け合わせ、それらの各演算結果を時間周波数領域の信号に変換する。次に、これらの時間周波数領域の信号から抽出した特徴量をクラスタリングしてクラスタを生成し、これを用いて時間周波数毎のマスクを生成する。その後、マスクと時間周波数領域の信号とを用い、時間周波数毎に時間周波数領域の分離信号を抽出し、この時間周波数領域の分離信号を時間領域の分離信号に変換し、各フレームに対応する時間領域の分離信号を加算合成する。
【選択図】 図2PROBLEM TO BE SOLVED: To separate and extract a target signal with small distortion from a mixed signal obtained by mixing signals emitted from a plurality of signal sources.
First, the window function is multiplied by the mixed signal in each frame set by 1 / S (S> 2) times shift of the length T of the window function, and each calculation result is calculated in the time-frequency domain. Convert to signal. Next, a cluster is generated by clustering the feature amounts extracted from these signals in the time frequency domain, and a mask for each time frequency is generated using the cluster. Then, using the mask and the time-frequency domain signal, a time-frequency domain separation signal is extracted for each time frequency, and the time-frequency domain separation signal is converted into a time-domain separation signal. The separated signals of the areas are added and synthesized.
[Selection] Figure 2
Description
本発明は、信号処理の技術分野に関し、特に目的信号に他のノイズなどが重畳されて観測される状況において目的信号を推定し分離抽出する技術に関する。 The present invention relates to a technical field of signal processing, and more particularly, to a technique for estimating and separating and extracting a target signal in a situation where other noises are superimposed on the target signal and observed.
複数のセンサを用いた信号抽出技術としては、ビームフォーマ(beamformer)(ビームフォーミング(beamforming)とも呼ぶ)が広く知られている(例えば、非特許文献1参照)。しかし、ビームフォーマでは、目的信号の方向や目的信号がアクティブでない時間区間などの情報を必要とし、これらの情報が正確に与えられない(または推定できない)場合、信号抽出の精度は低くなる。また、別の技術として、独立成分分析(Independent Component Analysis: ICA)によるブラインド信号分離(Blind Signal Separation: BSS)がある(例えば、非特許文献2参照)。BSSでは、上記ビームフォーマが必要とした情報を必要としない点が優れている。しかし、ビームフォーマ、BSSともに、センサ数Mが信号数N(目的信号数+ノイズの数)と同じか多い場合(N≦M)にしか精度良く信号抽出を行うことはできない。 As a signal extraction technique using a plurality of sensors, a beamformer (also referred to as beamforming) is widely known (for example, see Non-Patent Document 1). However, the beamformer requires information such as the direction of the target signal and a time interval during which the target signal is not active, and if such information cannot be accurately given (or cannot be estimated), the accuracy of signal extraction is low. Another technique is blind signal separation (BSS) by independent component analysis (ICA) (see, for example, Non-Patent Document 2). BSS is superior in that it does not require the information required by the beamformer. However, in both the beamformer and the BSS, signal extraction can be performed accurately only when the number of sensors M is equal to or greater than the number of signals N (number of target signals + number of noises) (N ≦ M).
一方、センサ数Mが信号数Nよりも少ない場合(N>M)の技術としては、時間周波数マスク(時間周波数毎のマスクを意味し、例えば、1か0の値をとるバイナリマスクが広く用いられる)による方法(例えば、非特許文献3参照)がある。この方法によると、N>Mの場合についても信号抽出が可能である。
しかし、時間周波数マスクによる処理は非線形処理であることから、時間周波数マスクによる方法によって抽出された信号には非線形歪みが生じるという難点がある。特に、音響信号の場合、この非線形歪みはmusical noiseと呼ばれ、可聴で不快なノイズとして知覚されてしまう。
つまり、この時間周波数マスクによる処理は時間周波数領域で行われるが、信号を時間周波数領域に変換する際に用いる短時間フーリエ変換(Short-Time Fourier Transform: STFT)では、用いる窓関数の長さTの半分の窓シフト(T/2シフト)を用いることが多い。そして、時間周波数マスクは、このT/2シフトで求められた観測信号の時間周波数信号に対して推定され適用される。すなわち、時間周波数マスクによる非線形処理が、窓関数の半分の長さ毎に行われ、その粒度で抽出信号が急に立ち上がったり立ち下がったりする。これが歪みの大きな要因である。なお、Tは短時間フーリエ変換に用いるサンプル数に等しい整数(この好ましくは偶数)である。また、窓関数の実際の時間長は、サンプリング周波数をfsとすると、T/fs秒である。
However, since the process using the time frequency mask is a non-linear process, the signal extracted by the method using the time frequency mask has a drawback that nonlinear distortion occurs. In particular, in the case of an acoustic signal, this nonlinear distortion is called musical noise and is perceived as audible and unpleasant noise.
That is, the processing by the time frequency mask is performed in the time frequency domain, but in the short-time Fourier transform (STFT) used when the signal is converted into the time frequency domain, the length T of the window function used Often a half window shift (T / 2 shift) is used. Then, the time frequency mask is estimated and applied to the time frequency signal of the observation signal obtained by this T / 2 shift. That is, nonlinear processing using a time-frequency mask is performed every half length of the window function, and the extracted signal suddenly rises or falls depending on the granularity. This is a major factor of distortion. T is an integer equal to the number of samples used for the short-time Fourier transform (preferably an even number). The actual time length of the window function is T / f s seconds where the sampling frequency is f s .
本発明はこのような点に鑑みてなたものであり、目的信号を小さな歪みで分離抽出することができる技術を提供することを目的とする。 The present invention has been made in view of these points, and an object of the present invention is to provide a technique capable of separating and extracting a target signal with a small distortion.
本発明では上記課題を解決するために、まず、窓関数の長さTの1/S(S>2)倍シフトで設定された各フレーム(窓)において当該窓関数を混合信号に掛け合わせ、それらの各演算結果を時間周波数領域の信号に変換する。そして、時間周波数領域の信号から抽出した特徴量をクラスタリングし、クラスタを生成し、このクラスタの情報を用い、時間周波数毎のマスクを生成する。さらに、これらのマスクと時間周波数領域の信号とを用い、時間周波数毎に時間周波数領域の分離信号を抽出し、時間周波数領域の分離信号を時間領域の分離信号に変換して、各フレームに対応する時間領域の分離信号を加算合成(重畳加算)する。 In the present invention, in order to solve the above-described problem, first, in each frame (window) set with a 1 / S (S> 2) times shift of the length T of the window function, the window function is multiplied by the mixed signal, Each of the calculation results is converted into a time-frequency domain signal. Then, the feature quantities extracted from the signal in the time frequency domain are clustered to generate a cluster, and a mask for each time frequency is generated using the cluster information. Furthermore, using these masks and time-frequency domain signals, the time-frequency domain separation signal is extracted for each time frequency, and the time-frequency domain separation signal is converted to the time-domain separation signal to support each frame. The time domain separation signals to be added are added and combined (superposition addition).
ここで、本発明では、窓関数の長さTの1/S(S>2)倍シフトで各フレームを設定している。すなわち、従来、観測信号の時間周波数表現を得る際、T/2シフト長で各フレームを設定していたところを、それよりも細かい窓シフト(ファインシフト)で各フレームを設定している。このように細かい窓シフト(短い窓シフト長)を用いることで、時間軸上における各フレーム間の重複範囲と重複数とを増加させることができる。また、本発明では、各フレームにおいて窓関数を混合信号に掛け合わせた演算結果をそれぞれ時間周波数領域の信号に変換し、それらを用いて時間周波数領域の分離信号を抽出し、それを時間領域の分離信号に変換して加算合成する。ここで各フレームは時間軸上で密に重複しているため、時間領域に変換された分離信号も時間軸上で密に重複している。そして、最後にこれらを加算合成することにより、各フレームに対応する各分離信号が各離散時刻において平均化され、分離信号の平滑化効果を得ることができる。その結果、分離信号の急な立ち上がりや立ち下がりが減少し、非線形歪みが低減される。 Here, in the present invention, each frame is set with a 1 / S (S> 2) times shift of the length T of the window function. That is, conventionally, when obtaining the time-frequency representation of the observation signal, each frame is set with a finer window shift (fine shift) than where each frame was set with the T / 2 shift length. By using such a fine window shift (short window shift length), it is possible to increase the overlapping range and overlapping number between frames on the time axis. In the present invention, the calculation result obtained by multiplying the mixed signal by the window function in each frame is converted into a signal in the time frequency domain, and a separated signal in the time frequency domain is extracted using them. It is converted into a separated signal and added and synthesized. Here, since the frames overlap closely on the time axis, the separated signals converted into the time domain also overlap closely on the time axis. Finally, by adding and synthesizing these, each separated signal corresponding to each frame is averaged at each discrete time, and a smoothing effect of the separated signal can be obtained. As a result, the sudden rise or fall of the separated signal is reduced, and nonlinear distortion is reduced.
また、本発明において好ましくは、窓関数が、各フレームに対応する時間領域の分離信号が有する当該窓関数成分の加算合成値が各離散時刻において一定となる関数である。これにより、加算合成された信号の強度の揺らぎを防止でき、質の高い分離信号を再現できる。
さらに、本発明において好ましくは、T及びSを2のべき乗とする。これにより、時間周波数領域の信号への変換処理に高速フーリエ変換(Fast Fourier Trasform:FFT)を利用することが可能となり、処理を高速化できる。
In the present invention, it is preferable that the window function is a function in which the added composite value of the window function components included in the time domain separation signal corresponding to each frame is constant at each discrete time. Thereby, fluctuations in the intensity of the added and synthesized signal can be prevented, and a high-quality separated signal can be reproduced.
In the present invention, T and S are preferably powers of 2. Thereby, it becomes possible to use a fast Fourier transform (FFT) for the conversion process to the signal of a time frequency domain, and can speed up a process.
以上のように、本発明では、N>Mの場合でも目的信号を小さな歪みで分離抽出することが可能となる。 As described above, according to the present invention, the target signal can be separated and extracted with small distortion even when N> M.
以下、本発明の実施の形態を図面を参照して説明する。
<原理>
まず、本形態の原理を説明する。
ブラインド信号分離では、複数の信号源から発せられた原信号が混合し、複数のセンサで観測される状況下において、その観測信号のみから、原信号と推測される分離信号を取り出す。
[混合信号(観測信号)のモデル]
Nを信号源の数、Mをセンサの数とする。尚、本形態ではN>Mであるものとする。また、siをi(i=1,…,N)番目の信号源iから発せられた信号、hjiを信号源iからj(j=1,…,M)番目のセンサjまでのインパルス応答とする。この場合、センサjで観測される信号xjは、これら原信号siとインパルス応答hjiとの畳み込み混合
<Principle>
First, the principle of this embodiment will be described.
In the blind signal separation, original signals emitted from a plurality of signal sources are mixed, and a separated signal that is assumed to be an original signal is extracted from only the observed signals under the condition of being observed by a plurality of sensors.
[Model of mixed signal (observation signal)]
Let N be the number of signal sources and M be the number of sensors. In this embodiment, it is assumed that N> M. In addition, s i is a signal generated from the i (i = 1,..., N) th signal source i, and h ji is an impulse from the signal source i to the j (j = 1,..., M) th sensor j. A response. In this case, the signal x j observed by the sensor j is a convolution mixture of the original signal s i and the impulse response h ji.
[時間周波数領域表現]
ブラインド信号分離では、このように畳み込み混合でモデル化される観測信号から原信号を分離抽出するが、この畳み込み混合の問題は扱いが繁雑である。そのため、式(1)に短時間フーリエ変換(STFT)を施して、観測信号を時間周波数領域に変換した上で問題を扱うことが有効である。
時間周波数領域では、式(1)は、
X(f,m)= H(f)・S(f,m) …(3)
となる。ここで、H(f)は、ji要素に信号源iからセンサjまでの周波数応答Hji(f)を持つ(N×M)行列(今後これを混合行列と呼ぶ)、S(f,m)= [S1(f,m),…,SN(f,m)]T及びX(f,m)=[X1(f,m),…,XM(f,m)]Tは、それぞれ、原信号si及び観測信号xjのSTFT結果を要素に持つベクトルである。尚、[*]Tは[*]の転置ベクトルを示す。
[Time-frequency domain representation]
In the blind signal separation, the original signal is separated and extracted from the observation signal modeled by the convolution mixing as described above, but the problem of the convolution mixing is complicated. Therefore, it is effective to handle the problem after applying short-time Fourier transform (STFT) to Equation (1) to convert the observation signal into the time-frequency domain.
In the time frequency domain, equation (1) is
X (f, m) = H (f) ・ S (f, m) (3)
It becomes. Here, H (f) is an (N × M) matrix having frequency response H ji (f) from the signal source i to the sensor j in the ji element (hereinafter referred to as a mixing matrix), S (f, m ) = [S 1 (f, m), ..., S N (f, m)] T and X (f, m) = [X 1 (f, m), ..., X M (f, m)] T Are vectors having STFT results of the original signal s i and the observation signal x j as elements, respectively. [*] T indicates a transposed vector of [*].
[本形態のポイント]
前述した通り、非線形歪みは分離信号の急な立ち上がり立ち下がりに起因する。これを減らすために本形態では、(a)観測信号を時間周波数領域の信号に変換する際の窓シフト長を短くし、(b)時間周波数領域の信号を時間領域の信号に戻す際に重畳加算法を用い、(c)この重畳加算に適した窓関数を用いる。
このように窓シフト長を短くすることで、時間軸上における各フレーム間の重複範囲と重複数とを増加させることができる。そして、時間周波数領域の信号を時間領域の信号に戻す際に重畳加算法を用いることにより、各フレームに対応する各分離信号を各離散時刻において平均化でき、分離信号の平滑化効果を得ることができる。その結果、分離信号の急な立ち上がりや立ち下がりが減少し、非線形歪みが低減される。そして、この重畳加算に適した窓関数を用いることにより、高い品質の分離信号を得ることができる。
[Points of this form]
As described above, the non-linear distortion is caused by the sudden rise and fall of the separated signal. In order to reduce this, in the present embodiment, (a) the window shift length when the observation signal is converted into the time-frequency domain signal is shortened, and (b) the superposition is performed when the time-frequency domain signal is returned to the time-domain signal. An addition method is used, and (c) a window function suitable for this superposition addition is used.
Thus, by shortening the window shift length, it is possible to increase the overlapping range and overlapping number between frames on the time axis. Then, by using the superposition addition method when returning the time-frequency domain signal to the time-domain signal, each separated signal corresponding to each frame can be averaged at each discrete time, and a smoothing effect of the separated signal can be obtained. Can do. As a result, the sudden rise or fall of the separated signal is reduced, and nonlinear distortion is reduced. By using a window function suitable for this superposition addition, a high quality separated signal can be obtained.
<本形態の具体例>
次に、本形態の具体例について説明する。
[ハードウェア構成]
図1は、本形態における信号分離装置1のハードウェア構成を例示したブロック図である。
図1に例示するように、この例の信号分離装置1は、CPU(Central Processing Unit)10、入力部20、出力部30、補助記憶装置40、RAM(Random Access Memory)50、ROM(Read Only Memory)60及びバス70を有している。
<Specific example of this embodiment>
Next, a specific example of this embodiment will be described.
[Hardware configuration]
FIG. 1 is a block diagram illustrating a hardware configuration of a
As illustrated in FIG. 1, a
この例のCPU10は、制御部11、演算部12及びレジスタ13を有し、レジスタ13に読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部20は、データが入力される入力ポート、キーボード、マウス等であり、出力部30は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置40は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本形態の信号分離処理を実行するための信号分離プログラムを格納した信号分離プログラム領域41及びセンサで観測された時間領域の混合信号等の各種データが格納されるデータ領域42を有している。また、RAM50は、例えば、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、信号分離プログラムが書き込まれる信号分離プログラム領域51及び各種データが書き込まれるデータ領域52を有している。また、この例のバス70は、CPU10、入力部20、出力部30、補助記憶装置40、RAM50及びROM60を通信可能に接続している。
The CPU 10 in this example includes a control unit 11, a
<ハードウェアとソフトウェアとの協働>
この例のCPU10は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置40の信号分離プログラム領域41に格納されている信号分離プログラムを、RAM50の信号分離プログラム領域51に書き込む。同様にCPU10は、補助記憶装置40のデータ領域42に格納されている時間領域の混合信号等の各種データをRAM50のデータ領域52に書き込む。さらに、CPU10は、この信号分離プログラムや各種データが書き込まれたRAM50上のアドレスをレジスタ13に格納する。そして、CPU10の制御部11は、レジスタ13に格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM50上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部12に順次実行させ、その演算結果をレジスタ13に格納していく。
<Cooperation between hardware and software>
The CPU 10 of this example writes the signal separation program stored in the signal
図2は、このようにCPU10に信号分離プログラムが読み込まれることにより構成される信号分離装置1のブロック図の例示である。また、図3(a)は、図2における時間周波数領域変換部130の詳細を例示したブロック図であり、図3(b)は、図2における時間領域変換部160及び重畳加算部170の構成を示したブロック図である。尚、これらの図において、実線の矢印は実際のデータの流れを示し、破線の矢印は理論上の情報の流れを示す。また、説明の簡略化のため、制御部180に出入りするデータの流れの記載は省略してある。
FIG. 2 is an example of a block diagram of the
図2に例示するように、本形態の信号分離装置1は、メモリ110と、窓関数の長さTの1/S(S>2)倍シフトで設定された各フレームにおいて当該窓関数を混合信号に掛け合わせ、それらの各演算結果を時間周波数領域の信号に変換する時間周波数領域変換部130と、時間周波数毎のマスクを生成する時間周波数マスク推定部140と、マスクと時間周波数領域の信号とを用い、時間周波数毎に時間周波数領域の分離信号を抽出する時間周波数領域信号抽出部150と、時間周波数領域の分離信号を時間領域の分離信号に変換する時間領域変換部160と、各フレームに対応する時間領域の分離信号を加算合成する重畳加算部170と、信号分離装置1全体を制御する制御部180とを有している。
As illustrated in FIG. 2, the
ここで、時間周波数マスク推定部140は、時間周波数領域の信号から抽出した特徴量をクラスタリングし、クラスタを生成するクラスタリング部141と、クラスタの情報を用い、時間周波数毎のマスクを生成するマスク生成部142とを有している。また、メモリ110は記憶領域111〜121を有し、制御部180は一時メモリ181を有している。尚、この例のメモリ110及び一時メモリ181は、補助記憶装置40のデータ領域42、RAM50のデータ領域51及びレジスタ13の何れか或いはこれらの組合せである。
Here, the time-frequency
また、図3(a)に例示するように、時間周波数領域変換部130は、窓関数生成部131、シフト量Sを調整するシフト調整部132と、カウンタ133〜136と、離散時刻r+m・T/S(rは整数)における混合信号を抽出するT/Sシフト部137と、離散時刻r+m・T/Sにおける混合信号を離散時刻rにおける窓関数の値に掛け合わせる乗算部138と、乗算部138における演算結果に離散フーリエ変換を施す離散フーリエ変換部139とを有している。
また、図3(b)に例示するように、時間領域変換部160は、離散フーリエ逆変換によって時間周波数領域の信号を時間領域の信号に変換する機能を有し、重畳加算部170は、入力された複数の時間領域の信号を重畳加算して出力する機能を有する。
Also, as illustrated in FIG. 3A, the time-frequency
Further, as illustrated in FIG. 3B, the time
<処理>
次に、本形態における信号分離装置1の処理について説明する。尚、以下の各処理は、制御部180の制御のもと行われ、特に明示しない限り、演算途中の各データは一時メモリ181に読み書きされながらそれぞれの演算処理に用いられる。
[処理の全体]
図4は、本形態における信号分離装置1の処理の全体を説明するためのフローチャートである。以下、このフローチャートに沿って、本形態における信号分離装置1の処理の全体を説明する。
信号分離装置1に対する入力は、M個のセンサjによって観測された時間領域の混合信号xj(n)(j={1,...,M})を要素とする観測信号ベクトルx(n)=[x1(n),...,xM(n)]Tである。この例の場合、これらの時間領域の混合信号xj(n)は、対応するセンサj及びサンプリング時刻nに関連付けてメモリ110の記憶領域111に格納される。また、使用する窓関数の長さTをメモリ110の記憶領域112に格納しておく。
<Processing>
Next, processing of the
[Overall processing]
FIG. 4 is a flowchart for explaining the entire processing of the
The input to the
信号分離が開始されると、まず、時間周波数領域変換部130に観測信号ベクトルx(n)=[x1(n),...,xM(n)]Tが入力され、時間周波数領域変換部130は、短時間フーリエ変換(STFT)により、それを時間周波数領域の観測信号ベクトルX(f,m)=[X1(f,m),...,XM(f,m)]Tに変換する。この例の場合、時間周波数領域変換部130は、まず、メモリ110の記憶領域111から混合信号xjを読み出す。時間領域の混合信号xjが入力された時間周波数領域変換部130は、窓関数w(n)の長さTの1/S(S>2)倍シフトで設定された各フレームにおいて当該窓関数w(n)を混合信号xj(n)に掛け合わせ、それらの各演算結果を時間周波数領域の信号Xj(f,m)に変換し、それらをメモリ110の記憶領域115に格納する(ステップS1)。尚、mは各フレームに対応する整数である。また時間周波数領域変換部130の処理の詳細については後述する。
When signal separation is started, first, an observation signal vector x (n) = [x 1 (n), ..., x M (n)] T is input to the time-frequency
次に、時間周波数マスク推定部140に観測信号ベクトルX(f,m)=[X1(f,m),...,XM(f,m)]Tが入力され、時間周波数マスク推定部140は、この観測信号ベクトルX(f,m)=[X1(f,m),...,XM(f,m)]Tを用い、信号を分離抽出するマスクM(f,m)= [M1(f,m),...,MK(f,m)]Tを時間周波数毎に推定する。ここで、Mk(f,m)(k={1,...,M})は、k番目の分離信号を抽出するためのマスク、Kは分離抽出する信号の数(≦N)である。この例の場合、まず、クラスタリング部141が、メモリ110の記憶領域115から時間周波数領域の信号Xj(f,m)(j∈{1,...,M})を読み出し、それから特徴量θ(f,m)を抽出し、これらをメモリ110の記憶領域116に格納する(ステップS2)。次に、クラスタリング部141において、メモリ110の記憶領域115から特徴量θ(f,m)を読み出し、これらの特徴量θ(f,m)をクラスタリングしてクラスタを生成し、各クラスタを特定するための情報θk 〜(k={1,...,K})をメモリ110の記憶領域117に格納する(ステップS3)。次に、マスク生成部142において、k番目の分離信号を抽出するマスクMk(f,m)を時間周波数毎に生成し、これらをメモリ110の記憶領域118に格納する(ステップS4)。尚、時間周波数マスク推定部140の処理の詳細については後述する。
Next, the observation signal vector X (f, m) = [X 1 (f, m), ..., X M (f, m)] T is input to the time-frequency
次に、時間周波数領域信号抽出部150において、時間周波数領域の分離信号
Y(f,m)=M(f,m)XJ(f,m)
が算出される。ここで、Y(f,m)は、時間周波数領域の分離信号Yk(f,m)を要素とする分離信号ベクトルY(f,m)=[Y1(f,m),...,YK(f,m)]Tを意味する。また、XJ(f,m)は、時間周波数領域の信号Xj(f,m)の1つでありJ∈{1,...,M}である。また、M(f,m)は[M1(f,m),...,MK(f,m)]Tである。この例の場合、まず、時間周波数領域信号抽出部150において、メモリ110の記憶領域118からマスクMk(f,m)を、記憶領域115から時間周波数領域の信号の1つXJ(f,m)を読み出す。そして、時間周波数領域信号抽出部150は、これらを用いて時間周波数毎に
Yk(f,m)=Mk(f,m)XJ(f,m)
の演算を行い、時間周波数領域の分離信号Yk(f,m)を抽出し、抽出した時間周波数領域の分離信号Yk(f,m)をメモリ110の記憶領域119に格納する(ステップS5)。
Next, in the time-frequency domain
Y (f, m) = M (f, m) X J (f, m)
Is calculated. Here, Y (f, m) is a separated signal vector Y (f, m) = [Y 1 (f, m), ... with the separated signal Y k (f, m) in the time-frequency domain as an element. , Y K (f, m)] T. X J (f, m) is one of the signals X j (f, m) in the time frequency domain, and J∈ {1,..., M}. M (f, m) is [M 1 (f, m), ..., M K (f, m)] T. In this example, first, in the time-frequency domain
Y k (f, m) = M k (f, m) X J (f, m)
The time frequency domain separation signal Y k (f, m) is extracted, and the extracted time frequency domain separation signal Y k (f, m) is stored in the
尚、ここでは、Yk(f,m)=Mk(f,m)XJ(f,m)の演算によって時間周波数領域の分離信号Yk(f,m)を抽出する例を説明したが、他の信号分離抽出手法とマスクMk(f,m)とを組み合わせた手法を用いて時間周波数領域の分離信号Yk(f,m)を抽出することとしてもよい。例えば、時間周波数毎のマスクと独立成分分析(ICA)とを組み合わせた手法(例えば「S. Araki, S. Makino, A. Blin, R. Mukai and H. Sawada, "Blind separation of more speech than sensors with less distortion by combining sparseness and ICA," Proc. IWAENC2003, pp. 271-274, 2003.」参照)や、時間周波数毎のマスクとビームフォーマとを組み合わせた手法(例えば「N. Roman and D. Wang, "Binaural sound segregation for multisource reverberant environments," Proc. ICASSP2004, pp. 373-386, 2004.」参照)などを用いて時間周波数領域の分離信号Yk(f,m)を抽出することとしてもよい。 Here, the example in which the separation signal Y k (f, m) in the time-frequency domain is extracted by the calculation of Y k (f, m) = M k (f, m) X J (f, m) has been described. However, the separation signal Y k (f, m) in the time-frequency domain may be extracted using a method in which another signal separation extraction method and the mask M k (f, m) are combined. For example, methods combining masks for each time frequency and independent component analysis (ICA) (for example, “S. Araki, S. Makino, A. Blin, R. Mukai and H. Sawada,“ Blind separation of more speech than sensors with less distortion by combining sparseness and ICA, "Proc. IWAENC2003, pp. 271-274, 2003.") and methods that combine masks and beamformers for each time frequency (for example, "N. Roman and D. Wang" , "Binaural sound segregation for multisource reverberant environments," Proc. ICASSP2004, pp. 373-386, 2004.) etc. may be used to extract the separation signal Y k (f, m) in the time-frequency domain .
次に、時間領域変換部160において、メモリ110の記憶領域119から時間周波数領域の分離信号Yk(f,m),Yk(f,m+1),Yk(f,m+2),...,Yk(f,m+S−1)を読み出し、短時間フーリエ逆変換(STIFT)によってこれらを時間領域の分離信号
最後に、重畳加算部170において、メモリ110の記憶領域120から各サンプリング時刻nに対応する時間領域の分離信号yk m(n),yk m+1(n),yk m+2(n),...,yk m+S-1(n)を読み出して加算合成し(図3(b))、時間領域の分離信号yk(n)を算出し、記憶領域121に格納する(ステップS7)。尚、重畳加算部170の処理の詳細については後述する。
Next, in the time
Finally, in the
[時間周波数領域変換部130の処理の詳細]
時間周波数領域変換部130は、観測された時間領域の混合信号xj(n)から長さTの窓関数w(n)にて信号を切り出し、それに対して離散フーリエ変換を行うことで時間周波数領域の信号Xj(f,m)を算出する。そして、この窓関数を従来(T/2シフト)よりも細かいT/S(S>2)シフトでずらしながら、順次、時間周波数領域の信号Xj(f,m)を算出していく。以下、この時間周波数領域変換部130による処理の詳細を説明する。
[Details of Processing of Time Frequency Domain Transformer 130]
The time-frequency
最初に時間周波数領域変換部130が行う前処理について説明する。
まず、時間周波数領域変換部130は、窓関数生成部131においてメモリ110の記憶領域112から長さTを読み出し、長さTの窓関数w(n)を生成してメモリ110の記憶領域113に格納する。尚、本形態に適した窓関数w(n)については後述する。また、窓関数生成部131を設けず、使用する窓関数w(n)を予めメモリ110の記憶領域113に格納しておいてもよい。
First, preprocessing performed by the time-frequency
First, the time frequency
次に、シフト調整部132において、シフト率1/S(S>2)を決定し、このパラメータSをメモリ110の記憶領域112に格納する。ここで、シフト調整部132は、分離信号に求められる品質(非線型歪みをどこまで許すか)と、システムに許される計算時間(Sが大きいほど計算時間大)とを比較考慮し、適切なパラメータSを決めて出力する。具体的には、例えば、分離信号に求められる品質とシステムに許される計算時間とをキーとしてパラメータSが特定される表(lookup table)をメモリ110に格納しておき、シフト調整部132がこの表を参照しつつ、別途与えられた分離信号に求められる品質とシステムに許される計算時間とに適したパラメータSを決定する。また、シフト調整部132を設けず、人間が適切なパラメータSを選択し、これをメモリ110の記憶領域112に格納しておくこととしてもよい。尚、上述した長さT及びパラメータSは、2のべき乗であることが望ましい。これにより、後述する離散フーリエ変換部139における処理に高速フーリエ変換を利用することが可能となり、処理を高速化できるからである。
Next, the
次に、本形態の時間周波数領域変換部130による時間領域から時間周波数領域への変換処理について説明する。
時間周波数領域変換部130は、
The time-frequency
図5は、この時間周波数領域変換部130による時間領域から時間周波数領域への変換処理を説明するためのフローチャートである。
まず、時間周波数領域変換部130のカウンタ133においてjを1に初期化し(ステップS11)、カウンタ134においてmを0に初期化し(ステップS12)、カウンタ136においてfを0に初期化し(ステップS13)、カウンタ135においてrを0に初期化し、制御部180において0を代入したXを一時メモリ181に格納する(ステップS14)。
FIG. 5 is a flowchart for explaining the conversion process from the time domain to the time frequency domain by the time frequency
First, j is initialized to 1 in the
次に、T/Sシフト部137において、メモリ110の記憶領域112からS及びTを読み出し、カウンタ134からmを受け取り、カウンタ135からrを受け取り、
r+m・R(R=T/S)
の演算を行い、その演算結果を一時メモリ181に格納する(ステップS15)。次に、T/Sシフト部137において、一時メモリ181からr+m・Rを読み出し、メモリ110の記憶領域111から時間領域の混合信号xj(r+m・R)を抽出し、乗算部138に送る(ステップS16)。乗算部138は、さらにメモリ110の記憶領域113から窓関数w(n)を読み出し、カウンタ135からrを受け取り、
w(r)・xj(r+m・R)
を演算し、これをメモリ110の記憶領域114に格納する(ステップS17)。
Next, the T /
r + m ・ R (R = T / S)
And the result of the calculation is stored in the temporary memory 181 (step S15). Next, the T /
w (r) ・ x j (r + m ・ R)
Is stored in the
次に、離散フーリエ変換部139において、メモリ110の記憶領域114からw(r)・xj(r+m・R)を読み出し、カウンタ135からrを受け取り、カウンタ136からfを受け取り、一時メモリ181からXを読み出し、
X+ w(r)・xj(r+m・R)・e-v2πft
の演算を行い、その演算結果を新たなXとして一時メモリ181に格納する(ステップS18)。
Next, the discrete
X + w (r) ・ x j (r + m ・ R) ・ e -v2πft
The calculation result is stored in the
次に、制御部180において、カウンタ135のrがT-1であるか否かを判断する(ステップS19)。ここで、r=T-1でなければ、カウンタ135においてr+1を新たなrとし(rをカウントアップし)、ステップS15の処理に戻る(ステップS20)。一方、r=T-1であれば、離散フーリエ変換部139において、一時メモリ181に格納されている最新のXを時間周波数領域の信号Xj(f,m)として、メモリ110の記憶領域115に格納する(ステップS21)。
Next, the
次に、制御部180において、メモリ110の記憶領域112からTを読み出し、カウンタ136のfが(T−1)fs/Tであるか否かを判断する(ステップS22)。ここで、f=(T−1)fs/Tでなければ、カウンタ136において、f+fs/Tを新たなfとし(カウントアップし)、ステップS14に戻る(ステップS23)。一方、f=(T−1)fs/Tならば、制御部180において、カウンタ134のmがmmax(mの最大値)であるか否かを判断する(ステップS24)。尚、この例の場合mmaxの値は予め定めておくものとする。ここで、m=mmaxでなければ、カウンタ134においてm+1を新たなmとし(mをカウントアップし)、ステップS13の処理に戻る(ステップS25)。一方、m=mmaxであれば、制御部180において、カウンタ133のjがMであるか否かを判断する(ステップS26)。ここで、j=Mでなければ、カウンタ133においてj+1を新たなjとし(カウントアップし)、ステップS12に戻る。一方、j=Mであれば、ステップS1の処理を終了する。
Next, the
[時間周波数マスク推定部140の処理の詳細]
次に、時間周波数マスク推定部140の処理の詳細について説明する。
本形態の手法では、信号のスパース性を仮定する。ここでスパースとは、信号が殆どのサンプリング時刻nにおいて0であることを指す。信号のスパース性は、例えば音声信号で確認される。信号のスパース性を仮定することで、複数の信号が存在していても、各時間周波数ポイント(f,m)では互いに重なって観測される確率が低いことを仮定できる。よって、各時間周波数ポイント(f,m)の各センサにおける観測信号は、その時間周波数ポイント(f,m)でアクティブな信号Si(f,m)から各センサまでの周波数応答Hi(f)=[H1i(f),...,HMi(f)]Tを反映して観測される。従って、観測信号ベクトルは、その反映する周波数応答Hi(f)によってクラスタリングすることができる。そして、それぞれのクラスに属するメンバの時間周波数に対応する観測信号X(f,m)のみを抽出する時間周波数毎のマスクM(f,m)を用いることで各信号を分離抽出できる。以下に、この時間周波数毎のマスクを生成する手法を例示する。
[Details of processing of time-frequency mask estimation unit 140]
Next, details of the processing of the time-frequency
In the method of this embodiment, signal sparsity is assumed. Here, sparse means that the signal is 0 at most sampling times n. The sparsity of the signal is confirmed by an audio signal, for example. By assuming the sparseness of the signal, it can be assumed that even if there are a plurality of signals, the probability that they are observed overlapping each other at each time frequency point (f, m) is low. Therefore, the observed signal at each sensor at each time frequency point (f, m) is the frequency response H i (f from the signal S i (f, m) active at that time frequency point (f, m) to each sensor. ) = [H 1i (f), ..., H Mi (f)] T is observed. Therefore, the observed signal vectors can be clustered by the reflected frequency response H i (f). Each signal can be separated and extracted by using a mask M (f, m) for each time frequency for extracting only the observation signal X (f, m) corresponding to the time frequency of the member belonging to each class. Hereinafter, a method for generating a mask for each time frequency will be exemplified.
まず、時間周波数マスク推定部140のクラスタリング部141において、メモリ110の記憶領域115から時間周波数領域の信号Xj(f,m)を読み出し、これらを用いてクラスタリングに用いる特徴量を抽出する。この例の場合、クラスタリング部141において、メモリ110の記憶領域115から時間周波数領域の信号Xj(f,m)を順次読み出し、2つのセンサ(各センサjと基準となるセンサJ')における観測信号Xj(f,m),XJ'(f,m)間の位相差
次にクラスタリング部141において、メモリ110の記憶領域116から信号の推定到来方向θ(f,m)(「特徴量」に相当)を読み出し、これらを例えばk-means法(例えば、”R. O. Duda, P. E. Hart, and D. G. Stork,(尾上守夫監訳), パターン認識, John Wiley & Sons, 新技術コミュニケーションズ,ISBN 0-471-05669-3, 2003.”参照)等を用いてクラスタリングし、クラスタを生成する。そして、クラスタリング部141は、生成した各クラスタの平均値θk 〜(k={1,...,K})(「各クラスタを特定するための情報」に相当)を求め、これらをメモリ110の記憶領域117に格納する(ステップS3)。次に、マスク生成部142において、メモリ110の記憶領域117から各クラスタの平均値θk 〜を読み出し、
尚、ここでは、信号の推定到来方向を特徴量としてクラスタリングを行ったが、例えば、2つのセンサ(各センサjと基準となるセンサJ')における観測信号Xj(f,m),XJ'(f,m)間の位相差(式(4))自身や、両者のゲイン比
[時間領域変換部160の処理の詳細]
次に、時間領域変換部160の処理の詳細について説明する。
時間領域変換部160は、離散フーリエ逆変換により時間周波数領域の分離信号Yk(f,m)を時間領域の分離信号yk m(n)に変換する。この例の場合、時間領域変換部160において、メモリ110の記憶領域112からS,Tを読み出し、記憶領域119からk毎にSフレーム分の分離信号Yk(f,m),Yk(f,m+1),Yk(f,m+2),...,Yk(f,m+S−1)を読み出す。そして、時間領域変換部160は、k毎に各フレームmに対して以下のような時間領域の分離信号yk m(n)を算出して、メモリ110の記憶領域120に格納する(ステップS6)。尚、以下においてvは虚数単位であり、g=n−m・R、R=T/Sである。
Next, details of the processing of the time
The time
図6は、時間周波数領域の分離信号Yk(f,m)から時間領域の分離信号yk m(n)が生成され、さらにそれらが加算合成される様子を例示した概念図である。
この図に示すように、この時間領域変換部160の処理により、各フレーム{m, m+1,m+2,...,m+S−1}の時間周波数領域の分離信号Yk(f,m),Yk(f,m+1),Yk(f,m+2),...,Yk(f,m+S−1)は、それぞれn=m・Rから長さTだけ値を持ち、あとは0であるような時間領域の分離信号yk m(n)に変換される。
FIG. 6 is a conceptual diagram illustrating a state in which a time-domain separated signal y k m (n) is generated from a time-frequency domain separated signal Y k (f, m) and further added and synthesized.
As shown in this figure, by the processing of the time
尚、式(6)の右辺(m・R≦n≦m・R+T−1)は、
[重畳加算部170の処理の詳細]
次に、重畳加算部170の処理の詳細について説明する。
この例の場合、重畳加算部170において、メモリ110の記憶領域120から各フレーム{m, m+1,m+2,...,m+S−1}の時間領域の分離信号yk m(n),yk m+1(n),yk m+2(n),...,yk m+S-1(n)を読み出し、これらを以下の式に従って加算合成し、その合成結果を時間領域の分離信号yk(n)としてメモリ110の記憶領域121に格納する(ステップ7)。尚、この例のCは窓関数w(n)とシフト率1/Sによって決められた定数である(後述)。
Next, the details of the processing of the
In the case of this example, in the
[本形態に適した窓関数w(n)]
次に、本形態に適した窓関数w(n)について説明する。
上述した通り、時間周波数領域変換部130の乗算部138において混合信号に窓関数w(n)を乗じている関係上、時間領域変換部160で算出される時間領域の分離信号yk m(n)は、本来の時間領域の分離信号yk(n)に窓関数成分w(n−m・R)(式(7))を乗じたものとなっている。よって、式(8)に従って時間領域の分離信号yk m(n)を加算合成した際における窓関数成分w(n−m・R)の加算合成分が歪みの原因とならないよう適切な窓関数w(n)を選択しなければならない。具体的には、各フレームmに対応する時間領域の分離信号yk m(n)が有する窓関数成分w(n−m・R)の加算合成値が時間軸上の所定の範囲において一定となる窓関数w(n)を用いることが望ましい。すなわち、窓関数w(n)は、
Next, the window function w (n) suitable for this embodiment will be described.
As described above, the time domain separation signal y k m (n calculated by the time
このような条件を満たす窓関数としては以下のものを例示できる。
ハニング窓(Hanning window)
w(n)=0.5−0.5・cos(2πn/T) (n=0,...,T−1)
ハミング窓(Hamming window)
w(n)=0.54−0.46・cos(2πn/T) (n=0,...,T−1)
バートレット(三角)窓(Bartlett window)
Hanning window
w (n) = 0.5−0.5 ・ cos (2πn / T) (n = 0, ..., T−1)
Hamming window
w (n) = 0.54−0.46 ・ cos (2πn / T) (n = 0, ..., T−1)
Bartlett window
図7(a)〜(c)は、これらのハニング窓(Hanning window)、ハミング窓(Hamming window)及びバートレット(三角)窓(Bartlett window)をそれぞれ式(9)に従って加算合成した様子を示した図である。この図に示すように各窓関数の窓関数波形201,211,221を式(9)に従って加算合成した加算合成波形202,212,222は、n=500〜1300程度の範囲において1となっている。
FIGS. 7A to 7C show how the Hanning window, the Hamming window, and the Bartlett window are added and synthesized according to the equation (9). FIG. As shown in this figure, the added
尚、上述したハニング窓やバートレット窓を用いる場合、式(8)における定数Cは、0.5Sであることが望ましく、ハミング窓を用いる場合には、0.54Sであることが望ましい。また、一般化してハニング窓やバートレット窓をb倍した窓関数を用いる場合には、定数Cは、0.5S・bであることが望ましく、ハミング窓を用いる場合には、0.54S・bであることが望ましい。さらに、式(8)で算出される分離信号yk(n)の出力レベルが問題にならないのであれば、定数Cをこれ以外の値(例えば、窓関数w(n)やシフト率1/Sに依存しない値)としてもよい。
When the Hanning window or Bartlett window described above is used, the constant C in Equation (8) is preferably 0.5S, and when a Hamming window is used, it is preferably 0.54S. Further, when a window function obtained by generalizing a Hanning window or Bartlett window is multiplied by b, the constant C is preferably 0.5 S · b, and when a Hamming window is used, it is 0.54 S · b. It is desirable. Further, if the output level of the separated signal y k (n) calculated by the equation (8) is not a problem, the constant C is set to a value other than this (for example, the window function w (n) or the
<本形態の特徴>
[聴感上の特徴]
以上説明した通り、時間周波数毎のマスクMk(f,m)による非線形処理によって時間周波数領域の分離信号Yk(f,m)が抽出され、時間領域変換部160において長さTの時間領域の信号yk m(n)に変換され、式(8)によって加算合成して分離信号yk(n)を算出する。ここでは、滑らかに分離信号yk(n)が抽出されるかを定性的に確かめるため重畳加算されたマスクの形状を示す。これは、式(5)において各周波数f,各離散時刻mで決めた時間周波数毎のマスクMk(f,m)を式(8)と同様に重畳加算したものであり、次のように表されるものである。
[Hearing characteristics]
As described above, the separation signal Y k (f, m) in the time frequency domain is extracted by nonlinear processing using the mask M k (f, m) for each time frequency, and the time domain of the length T is obtained in the time
図8は、縦軸をMf(n)とし横軸をサンプリング時刻nとしたグラフである。ここで、図8(a)は、S=2(粗いシフト)の場合におけるMf(n)のグラフであり、図8(b)は、S=8(細かいシフト)の場合におけるMf(n)のグラフである。また、T=512(サンプリング周波数=8000Hzでの実験のため、64msに相当)であり、S=2の場合のシフト量R=T/Sは256(サンプリング周波数=8000Hzでの実験のため、32msに相当)であり、S=8の場合のシフト量R=T/Sは64(サンプリング周波数=8000Hzでの実験のため、8msに相当)である。また、図8のMf(n)は、図9の実験条件において信号源S1から発せられた信号を抽出するマスクMk(f,m)に式(10)を適用したものである。 FIG. 8 is a graph in which the vertical axis represents M f (n) and the horizontal axis represents sampling time n. Here, FIG. 8 (a) is a graph of M f (n) in the case of S = 2 (rough shift), FIG. 8 (b), M in the case of S = 8 (fine shift) f ( It is a graph of n). Also, T = 512 (equivalent to 64 ms for sampling frequency = 8000 Hz), and shift amount R = T / S when S = 2 is 256 (32 ms for sampling frequency = 8000 Hz) The shift amount R = T / S when S = 8 is 64 (corresponding to 8 ms for the sampling frequency = 8000 Hz experiment). Further, M f (n) in FIG. 8 is obtained by applying Equation (10) to a mask M k (f, m) for extracting a signal emitted from the signal source S 1 under the experimental conditions in FIG.
図8から、S=2のときにMf(n)には32ms(>22ms)のギャップがあることが分かる(図8(a)の位置(A)や位置(C))。ここで、時間方向の音響信号の平滑さについて、「ヒトは、22ms以上のギャップ(連続信号の中の急な立ち上がり/立ち下がりを伴う無音区間)を認知できる」とされている(例えば、"B. C. J. Moore, An introduction to the psychology of hearing, 3rd Ed., Academic Press, 1989."参照)。よって、このギャップがmusical noiseの一因となっていることは十分考えられる。
一方、S=8のときは、ギャップは見られるものの(図8(b)の位置(B))その長さは8msであり、ヒトには認知されない。さらに、図8(b)の位置(D)付近では、Mf(n)の値は徐々に変化している。そのため、位置(D)付近のギャップはmusical noiseの原因となりにくい。すなわち、シフト長を短くすることによりmusical noiseの発生を低減させることができると考えられる。
From FIG. 8, it can be seen that there is a gap of 32 ms (> 22 ms) in M f (n) when S = 2 (position (A) and position (C) in FIG. 8A). Here, with regard to the smoothness of the acoustic signal in the time direction, it is said that “a human can recognize a gap of 22 ms or more (a silent section with a sudden rise / fall in a continuous signal)” (for example, “ BCJ Moore, An introduction to the psychology of hearing, 3rd Ed., Academic Press, 1989. "). Therefore, it is quite possible that this gap contributes to musical noise.
On the other hand, when S = 8, although a gap is seen (position (B) in FIG. 8B), its length is 8 ms and is not recognized by humans. Furthermore, the value of M f (n) gradually changes near the position (D) in FIG. Therefore, the gap near the position (D) is unlikely to cause musical noise. That is, it is considered that the generation of musical noise can be reduced by shortening the shift length.
また、Mf(n)の振幅の変化を見た場合、S=2(粗いシフト)の場合は一段が0.5と大きいのに比べ、S=8(細かいシフト)の場合は一段が0.125と小さい。これは、Mk(f,m)∈{1,0}であるので一段の大きさが必ず1/Sとなることに起因する。すなわち、細かいシフトを用いた場合、Mf(n)の振幅が急激に変化することはない。よって本形態で用いる細かいシフトと加算合成とは、musical noiseの一因である分離信号の振幅の急激な変化を起こさないことが分かる。
以上のようにS=2の場合に比べて有利な効果を有するのはS=4の場合についても同様である。
Also, when looking at the change in the amplitude of M f (n), one step is as small as 0.5 when S = 2 (coarse shift), and one step is as small as 0.125 when S = 8 (fine shift). . This is because M k (f, m) ∈ {1, 0}, so that the size of one stage is always 1 / S. That is, when a fine shift is used, the amplitude of M f (n) does not change abruptly. Therefore, it can be seen that the fine shift and addition synthesis used in this embodiment do not cause a sudden change in the amplitude of the separated signal, which is a cause of musical noise.
As described above, the same effect is obtained in the case of S = 4 as compared to the case of S = 2.
[実験結果(分離性能による客観評価およびMOSによる主観評価]
図10は、本形態においてシフト量Sを変化させた場合の分離信号yk(n)の性能比較を示した表である。ここでSIR(信号対干渉信号比)は分離性能を、SDR(信号対歪み比)は信号の歪みの程度を、MOS(Mean Opinion Score)は聴感上の品質を表す。特にMOSは、実際に20名の被験者が抽出された出力信号(音)を聞いて点数をつけたものの平均値である。どの評価値についでも、値が大きい方が性能が良いことを示す。また、図10(a)は残響のない環境における結果を示しており、図10(b)は残響時間RT60=130msのときの結果を示している。
[Experimental results (objective evaluation by separation performance and subjective evaluation by MOS]
FIG. 10 is a table showing a performance comparison of the separated signal y k (n) when the shift amount S is changed in the present embodiment. Here, SIR (signal-to-interference signal ratio) represents separation performance, SDR (signal-to-distortion ratio) represents the degree of signal distortion, and MOS (Mean Opinion Score) represents auditory quality. In particular, MOS is an average value of points obtained by listening to output signals (sounds) actually extracted by 20 subjects. For any evaluation value, a larger value indicates better performance. FIG. 10A shows the result in an environment without reverberation, and FIG. 10B shows the result when the reverberation time RT 60 = 130 ms.
原信号としては、3人の話者(男性2名・女性1名)による音声信号を用いた(図9)。図10(a)では、残響のない環境における2つの無指向性マイクでの観測信号を模擬した。図10(b)では、130msの残響のある部屋で観測したインパルス応答を原信号に畳み込み、式(1)に従って観測信号を作成した。また、DOAでクラスタリングを行い、窓関数としてはハニング窓w(n)=0.5−0.5・cos(2πn/T) (n=0,...,T−1)を用い、式(8)におけるCは0.5Sとした。
図10の結果より、シフト長を短くする(=Sを大きくする)ことで、分離性能(SIR)を落とすことなく、SDR及び'MOSの値を向上させることが可能であることが分かる。ここで、MOSだけでなくSDRの値も上がっている。よって本形態の手法では、音響信号musical noiseの除去のみでなく、一般の信号の非線型歪みの除去にも有効であると期待される。尚、MOS値については、分散分析により有意性が認められた。
As the original signal, speech signals from three speakers (two men and one woman) were used (Fig. 9). In FIG. 10A, an observation signal with two omnidirectional microphones in an environment without reverberation was simulated. In FIG. 10 (b), an impulse response observed in a room with 130 ms of reverberation was convolved with the original signal, and an observation signal was created according to equation (1). Also, clustering is performed with DOA, and Hanning window w (n) = 0.5−0.5 · cos (2πn / T) (n = 0,..., T−1) is used as the window function, and in equation (8) C was set to 0.5S.
From the result of FIG. 10, it can be seen that by decreasing the shift length (= increasing S), the values of SDR and 'MOS can be improved without degrading the separation performance (SIR). Here, not only the MOS but also the SDR value has risen. Therefore, the method of this embodiment is expected to be effective not only for removing the acoustic signal musical noise but also for removing non-linear distortion of general signals. In addition, about MOS value, the significance was recognized by analysis of variance.
さらに、シフトを細かくすることでSIRも向上している。これは、細かい窓シフト長(ファインシフト)を用いることで各周波数でのサンプル点が多くなり、クラスタリングの精度が上がるためと考えられる。これもファインシフトの効果の1つである。
図11は、その他の信号分離抽出手法を用いたときの窓シフト量による性能を比較した結果である。ここで図11(a)は、前述したマスクMk(f,m)と独立成分分析(ICA)とを組み合わせた手法を用いたときの性能比較を示しており、図11(b)は、前述したマスクMk(f,m)とビームフォーマとを組み合わせた手法を用いたときの性能比較を示している。尚、共に前述の残響のある環境下での結果を示している。ここでもシフトを細かくする(Sを大きくする)ことで、分離性能(SIR)を落とすことなく、SDRの値を向上できていることが分かる。尚、本形態により聴感上良い音が得られることを<URL>http://www.kecl.ntt.co.jp/icl/signal/araki/fineshift.htmlのホームページ上に示す。
Furthermore, SIR is improved by making the shift finer. This is presumably because the use of a fine window shift length (fine shift) increases the number of sample points at each frequency and improves the accuracy of clustering. This is one of the effects of fine shift.
FIG. 11 shows the result of comparing the performance depending on the window shift amount when other signal separation and extraction methods are used. Here, FIG. 11A shows a performance comparison when using a method combining the above-described mask M k (f, m) and independent component analysis (ICA), and FIG. The performance comparison when using the method combining the mask M k (f, m) and the beam former described above is shown. Both show the results under the above-mentioned reverberant environment. Here again, it can be seen that by making the shift finer (increasing S), the SDR value can be improved without degrading the separation performance (SIR). In addition, it is shown on the homepage of <URL> http://www.kecl.ntt.co.jp/icl/signal/araki/fineshift.html that this embodiment can obtain a good sound.
尚、本発明は上述の実施の形態に限定されるものではない。例えば、図4や図5等に示した各種の処理は、記載に従った時系列で実行されるのみならず、必要に応じてその処理順序を入れ替えて実行してもよい。また、これらの各処理は、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行してもよい。 The present invention is not limited to the embodiment described above. For example, the various processes shown in FIG. 4 and FIG. 5 are not only executed in time series according to the description, but may be executed by changing the processing order as necessary. In addition, each of these processes may be executed in parallel or individually as required by the processing capability of the apparatus that executes the process.
また、本形態では、マスクとして式(5)に示したようなハイレベル値(上述の例では「1」)からローレベル値(上述の例では「0」)への推移が不連続なバイナリマスクを使用することとした。しかし、その代わりにハイレベル値からローレベル値への推移が連続的な滑らかな形状のマスクを使用することとしてもよい(例えば、「S. Araki, S. Makino, H. Sawada and R. Mukai, "Underdetermined Blind Speech Separation with Directivity Pattern based Continuous Mask and ICA, "EUSIPCO2004, pp.1991-1994, Sept. 2004.」参照)。ここで「滑らかな形状のマスク」は、物理的に限定されたある方向からセンサに届いたと推定される信号を、空間的に1/0で切ることをせず、滑らかに取り出そうとするマスクであり、いわば空間的に滑らかなマスクであるといえる。これに対し、上述した本形態は、時間方向の信号の急激な変化を抑える効果があり、いわば時間的に滑らかなマスクを生成していたといえる。よって、本形態の構成に空間的に滑らかなマスクを組み合わせることにより、より一層分離信号の歪を低減させることができるといえる。 Also, in this embodiment, a binary pattern in which the transition from a high level value (“1” in the above example) to a low level value (“0” in the above example) as shown in Expression (5) is a discontinuous mask. It was decided to use a mask. However, it is also possible to use a mask having a smooth shape in which the transition from the high level value to the low level value is continuous (for example, “S. Araki, S. Makino, H. Sawada and R. Mukai”). , "Underdetermined Blind Speech Separation with Directivity Pattern based Continuous Mask and ICA," EUSIPCO2004, pp.1991-1994, Sept. 2004. "). Here, the “smooth-shaped mask” is a mask that tries to smoothly extract a signal that is estimated to have reached the sensor from a physically limited direction without being spatially cut by 1/0. In other words, it can be said to be a spatially smooth mask. On the other hand, the present embodiment described above has an effect of suppressing a rapid change in a signal in the time direction, and it can be said that a mask that is smooth in time is generated. Therefore, it can be said that the distortion of the separated signal can be further reduced by combining a spatially smooth mask with the configuration of this embodiment.
また、本形態の信号分離手法として、このような滑らかな形状のマスクと他の信号分離抽出手法、例えば、独立成分分析(ICA)とを組み合わせた手法(例えば、「S. Araki, S. Makino, H. Sawada and R. Mukai, "Underdetermined Blind Speech Separation with Directivity Pattern based Continuous Mask and ICA, "EUSIPCO2004, pp.1991-1994, Sept. 2004.」参照)を用いることとしてもよい。
また、本形態ではN>Mであることとしたが、N≦Mの場合に本発明を適用することとしてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
In addition, as a signal separation method of this embodiment, a method in which such a smooth mask and another signal separation extraction method, for example, independent component analysis (ICA) are combined (for example, “S. Araki, S. Makino”). , H. Sawada and R. Mukai, "Underdetermined Blind Speech Separation with Directivity Pattern based Continuous Mask and ICA," EUSIPCO 2004, pp. 1991-1994, Sept. 2004.) may be used.
In this embodiment, N> M. However, the present invention may be applied when N ≦ M. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の処理内容を記述した信号分離プログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 Further, the signal separation program describing the above-described processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.
また、この信号分離プログラムの流通は、例えば、その信号分離プログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、この信号分離プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータに転送することにより流通させる構成としてもよい。 The signal separation program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the signal separation program is recorded. Further, the signal separation program may be stored in a storage device of a server computer and distributed by transferring it from the server computer to another computer via a network.
また、上述した信号分離プログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接信号分離プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータから信号分離プログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへの信号分離プログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。尚、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 As another execution form of the signal separation program described above, the computer may directly read the signal separation program from a portable recording medium and execute processing according to the program. Each time the signal separation program is transferred, the processing according to the received program may be executed sequentially. In addition, the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service that realizes processing functions only by the execution instruction and result acquisition without transferring the signal separation program from the server computer to the computer. It is good also as composition to do. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
本発明により、様々なノイズ・妨害信号・干渉信号が存在する環境下においても、目的信号を精度よく分離抽出することが可能となる。例えば、本発明をオーディオ分野へ応用した場合、音声認識機の入力マイクロホンと話者とが離れた位置にありマイクロホンが目的話者音声以外の音まで収音してしまう状況でも、目的音声を分離抽出することで認識率の高い音声認識系を構築できる。 According to the present invention, it is possible to accurately separate and extract a target signal even in an environment where various noises, interference signals, and interference signals exist. For example, when the present invention is applied to the audio field, the target speech is separated even in a situation where the input microphone of the speech recognizer is far away from the speaker and the microphone picks up sounds other than the target speaker. By extracting, a speech recognition system with a high recognition rate can be constructed.
1 信号分離装置
130 時間周波数領域変換部
140 時間周波数マスク推定部
150 時間周波数領域信号抽出部
160 時間領域変換部
170 重畳加算部
1
Claims (7)
窓関数の長さTの1/S(S>2)倍シフトで設定された各フレームにおいて当該窓関数を前記混合信号に掛け合わせ、それらの各演算結果を時間周波数領域の信号に変換する時間周波数領域変換手段と、
前記時間周波数領域の信号から抽出した特徴量をクラスタリングし、クラスタを生成するクラスタリング手段と、
前記クラスタの情報を用い、時間周波数毎のマスクを生成するマスク生成手段と、
前記マスクと前記時間周波数領域の信号とを用い、時間周波数毎に時間周波数領域の分離信号を抽出する時間周波数領域信号抽出手段と、
前記時間周波数領域の分離信号を時間領域の分離信号に変換する時間領域変換手段と、
各フレームに対応する前記時間領域の分離信号を加算合成する重畳加算手段と、
を有することを特徴とする信号分離装置。 A signal separation device that separates a mixed signal obtained by mixing signals emitted from a plurality of signal sources into the signal,
Time for multiplying the mixed signal by the window function in each frame set with 1 / S (S> 2) times shift of the length T of the window function, and converting each operation result into a signal in the time-frequency domain A frequency domain transforming means;
Clustering the feature quantities extracted from the signals in the time-frequency domain, and clustering means for generating a cluster;
Mask generating means for generating a mask for each time frequency using the cluster information;
Using the mask and the signal in the time frequency domain, time frequency domain signal extraction means for extracting a separation signal in the time frequency domain for each time frequency;
Time domain transforming means for transforming the time frequency domain separation signal into a time domain separation signal;
Superimposing and adding means for adding and synthesizing the time domain separation signals corresponding to each frame;
A signal separation device comprising:
前記窓関数が、
各フレームに対応する前記時間領域の分離信号が有する窓関数成分の加算合成値が時間軸上の所定の範囲において一定となる関数である、
ことを特徴とする信号分離装置。 The signal separation device according to claim 1,
The window function is
The added composite value of the window function components of the time domain separation signal corresponding to each frame is a function that is constant in a predetermined range on the time axis.
A signal separation device.
T及びSが2のべき乗である、
ことを特徴とする信号分離装置。 The signal separation device according to claim 1,
T and S are powers of 2,
A signal separation device.
時間周波数領域変換手段が、
離散時刻r+m・T/S(r,mは整数)における前記混合信号を抽出するT/Sシフト手段と、
離散時刻r+m・T/Sにおける前記混合信号を離散時刻rにおける窓関数の値に掛け合わせる乗算手段と、
前記乗算手段における演算結果に離散フーリエ変換を施す離散フーリエ変換手段と、
を有することを特徴とする信号分離装置。 The signal separation device according to claim 1,
Time frequency domain transforming means
T / S shift means for extracting the mixed signal at discrete time r + m · T / S (r and m are integers);
Multiplication means for multiplying the mixed signal at the discrete time r + m · T / S by the value of the window function at the discrete time r;
Discrete Fourier transform means for performing a discrete Fourier transform on the operation result in the multiplication means;
A signal separation device comprising:
前記混合信号が入力された時間周波数領域変換手段が、窓関数の長さTの1/S(S>2)倍シフトで設定された各フレームにおいて当該窓関数を前記混合信号に掛け合わせ、それらの各演算結果を時間周波数領域の信号に変換する手順と、
クラスタリング手段が、前記時間周波数領域の信号から抽出した特徴量をクラスタリングし、クラスタを生成する手順と、
マスク生成手段が、前記クラスタの情報を用い、時間周波数毎のマスクを生成する手順と、
時間周波数領域信号抽出手段が、前記マスクと前記時間周波数領域の信号とを用い、時間周波数毎に時間周波数領域の分離信号を抽出する手順と、
時間領域変換手段が、前記時間周波数領域の分離信号を時間領域の分離信号に変換する手順と、
重畳加算手段が、各フレームに対応する前記時間領域の分離信号を加算合成する手順と、
を有することを特徴とする信号分離方法。 A signal separation method for separating a mixed signal obtained by mixing signals emitted from a plurality of signal sources into the signal,
The time-frequency domain transforming means to which the mixed signal is input multiplies the mixed signal by the window function in each frame set with a 1 / S (S> 2) times shift of the length T of the window function, A procedure for converting each of the calculation results into a signal in the time-frequency domain,
Clustering means clustering the feature quantities extracted from the signal in the time frequency domain, and generating a cluster;
A mask generating means uses the cluster information to generate a mask for each time frequency; and
The time frequency domain signal extraction means uses the mask and the signal of the time frequency domain to extract a separation signal of the time frequency domain for each time frequency,
A time domain converting means for converting the time-frequency domain separation signal into a time-domain separation signal;
A step of superimposing and adding and synthesizing the time domain separated signals corresponding to each frame;
A signal separation method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005062957A JP2006243664A (en) | 2005-03-07 | 2005-03-07 | Signal separation device, signal separation method, signal separation program, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005062957A JP2006243664A (en) | 2005-03-07 | 2005-03-07 | Signal separation device, signal separation method, signal separation program, and recording medium |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006243664A true JP2006243664A (en) | 2006-09-14 |
Family
ID=37050096
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005062957A Pending JP2006243664A (en) | 2005-03-07 | 2005-03-07 | Signal separation device, signal separation method, signal separation program, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006243664A (en) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008203474A (en) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | Multi-signal enhancement apparatus, method, program, and recording medium thereof |
| JP2009169439A (en) * | 2007-02-21 | 2009-07-30 | Sony Corp | Signal separation device, signal separation method, and computer program |
| JP2010507111A (en) * | 2006-10-18 | 2010-03-04 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Analysis filter bank, synthesis filter bank, encoder, decoder, mixer, and conference system |
| JP2013531264A (en) * | 2010-03-11 | 2013-08-01 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | Signal processor, window provider, encoded media signal, method for processing signal and method for providing window |
| JP2014089249A (en) * | 2012-10-29 | 2014-05-15 | Mitsubishi Electric Corp | Sound source separation device |
| WO2019049276A1 (en) * | 2017-09-07 | 2019-03-14 | 三菱電機株式会社 | Noise elimination device and noise elimination method |
| CN110943771A (en) * | 2019-11-22 | 2020-03-31 | 大连海事大学 | Wavelet resolution processing method based on angle entropy |
| CN114898767A (en) * | 2022-04-15 | 2022-08-12 | 中国电子科技集团公司第十研究所 | Airborne speech noise separation method, equipment and medium based on U-Net |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11288299A (en) * | 1998-03-31 | 1999-10-19 | Brother Ind Ltd | Speech unit data creation method, speech synthesis device, and storage medium |
| JP2001222289A (en) * | 2000-02-08 | 2001-08-17 | Yamaha Corp | Sound signal analyzing method and device and voice signal processing method and device |
| JP2005049364A (en) * | 2003-05-30 | 2005-02-24 | National Institute Of Advanced Industrial & Technology | Known acoustic signal removal method and apparatus |
-
2005
- 2005-03-07 JP JP2005062957A patent/JP2006243664A/en active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11288299A (en) * | 1998-03-31 | 1999-10-19 | Brother Ind Ltd | Speech unit data creation method, speech synthesis device, and storage medium |
| JP2001222289A (en) * | 2000-02-08 | 2001-08-17 | Yamaha Corp | Sound signal analyzing method and device and voice signal processing method and device |
| JP2005049364A (en) * | 2003-05-30 | 2005-02-24 | National Institute Of Advanced Industrial & Technology | Known acoustic signal removal method and apparatus |
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| USRE45294E1 (en) | 2006-10-18 | 2014-12-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
| JP2010507111A (en) * | 2006-10-18 | 2010-03-04 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Analysis filter bank, synthesis filter bank, encoder, decoder, mixer, and conference system |
| JP2012150507A (en) * | 2006-10-18 | 2012-08-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandte Forschung E V | Synthesis filterbank, decoder, mixer and conferencing system |
| USRE45526E1 (en) | 2006-10-18 | 2015-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
| JP2013228740A (en) * | 2006-10-18 | 2013-11-07 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandte Forschung E V | Mixer, mixing method and computer program |
| USRE45339E1 (en) | 2006-10-18 | 2015-01-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
| USRE45276E1 (en) | 2006-10-18 | 2014-12-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
| USRE45277E1 (en) | 2006-10-18 | 2014-12-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
| JP2008203474A (en) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | Multi-signal enhancement apparatus, method, program, and recording medium thereof |
| JP2009169439A (en) * | 2007-02-21 | 2009-07-30 | Sony Corp | Signal separation device, signal separation method, and computer program |
| JP2011215649A (en) * | 2007-02-21 | 2011-10-27 | Sony Corp | Signal separating device, signal separating method, and computer program |
| US8907822B2 (en) | 2010-03-11 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window |
| JP2013531264A (en) * | 2010-03-11 | 2013-08-01 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | Signal processor, window provider, encoded media signal, method for processing signal and method for providing window |
| US9252803B2 (en) | 2010-03-11 | 2016-02-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window |
| JP2014089249A (en) * | 2012-10-29 | 2014-05-15 | Mitsubishi Electric Corp | Sound source separation device |
| WO2019049276A1 (en) * | 2017-09-07 | 2019-03-14 | 三菱電機株式会社 | Noise elimination device and noise elimination method |
| JPWO2019049276A1 (en) * | 2017-09-07 | 2019-12-26 | 三菱電機株式会社 | Noise removal apparatus and noise removal method |
| CN110943771A (en) * | 2019-11-22 | 2020-03-31 | 大连海事大学 | Wavelet resolution processing method based on angle entropy |
| CN114898767A (en) * | 2022-04-15 | 2022-08-12 | 中国电子科技集团公司第十研究所 | Airborne speech noise separation method, equipment and medium based on U-Net |
| CN114898767B (en) * | 2022-04-15 | 2023-08-15 | 中国电子科技集团公司第十研究所 | Airborne speech noise separation method, equipment and medium based on U-Net |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11282505B2 (en) | Acoustic signal processing with neural network using amplitude, phase, and frequency | |
| CN107919133B (en) | Speech enhancement system and speech enhancement method for target object | |
| US10382849B2 (en) | Spatial audio processing apparatus | |
| US20210089967A1 (en) | Data training in multi-sensor setups | |
| JP2021036297A (en) | Signal processing equipment, signal processing methods, and programs | |
| JP5127754B2 (en) | Signal processing device | |
| JP2005249816A (en) | Device, method and program for signal enhancement, and device, method and program for speech recognition | |
| JP6054142B2 (en) | Signal processing apparatus, method and program | |
| JP6482173B2 (en) | Acoustic signal processing apparatus and method | |
| JPWO2007100137A1 (en) | Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium | |
| JP4457221B2 (en) | Sound source separation method and system, and speech recognition method and system | |
| JP4891801B2 (en) | Multi-signal enhancement apparatus, method, program, and recording medium thereof | |
| JP5148414B2 (en) | Signal band expander | |
| JP4914319B2 (en) | COMMUNICATION VOICE PROCESSING METHOD, DEVICE THEREOF, AND PROGRAM THEREOF | |
| JP2006243664A (en) | Signal separation device, signal separation method, signal separation program, and recording medium | |
| JP2020076907A (en) | Signal processing device, signal processing program and signal processing method | |
| JP4746533B2 (en) | Multi-sound source section determination method, method, program and recording medium thereof | |
| JP5443547B2 (en) | Signal processing device | |
| JP2019090930A (en) | Sound source enhancement device, sound source enhancement learning device, sound source enhancement method and program | |
| JP4448464B2 (en) | Noise reduction method, apparatus, program, and recording medium | |
| Selvi et al. | Hybridization of spectral filtering with particle swarm optimization for speech signal enhancement | |
| JP2009139615A (en) | Sound reproduction device, sound reproduction method, sound reproduction program, and sound reproduction system | |
| JP6567216B2 (en) | Signal processing device | |
| JP6925995B2 (en) | Signal processor, speech enhancer, signal processing method and program | |
| Hsu et al. | Array configuration-agnostic personalized speech enhancement using long-short-term spatial coherence |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070116 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070130 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091127 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100406 |