JP2010049086A - Object signal section estimating device, method and program, and recording medium - Google Patents
Object signal section estimating device, method and program, and recording medium Download PDFInfo
- Publication number
- JP2010049086A JP2010049086A JP2008214097A JP2008214097A JP2010049086A JP 2010049086 A JP2010049086 A JP 2010049086A JP 2008214097 A JP2008214097 A JP 2008214097A JP 2008214097 A JP2008214097 A JP 2008214097A JP 2010049086 A JP2010049086 A JP 2010049086A
- Authority
- JP
- Japan
- Prior art keywords
- value
- signal
- frame
- target signal
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【課題】雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、少ない計算量で精度よく目的信号区間を推定する。
【解決手段】複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出し、切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する。また、基本周波数を推定し、基本周波数又はその倍音成分近傍のグリッドのみについて、基準センサに対応する周波数領域信号を基準として、当該基準センサ以外のセンサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する。そして、グリッド毎に正規化信号値の偏在性を示す偏在値を求め、それらを用いてフレーム毎の偏在性を示す偏在性指標値を算出し、当該偏在性指標値を指標とし、各フレームが目的信号区間に対応するか否かを判定する。
【選択図】図1In a noise environment and in a situation where the direction of arrival of a target signal cannot be accurately determined, a target signal section is accurately estimated with a small amount of calculation.
Each signal observed by a plurality of sensors is cut out for each frame that is a predetermined time interval, the signal of each frame for each cut out sensor is converted into a frequency domain, and the frequency domain for each time frequency bin A signal is generated for each sensor. In addition, the fundamental frequency is estimated, and only the frequency domain signal corresponding to the reference sensor is normalized with respect to only the grid near the fundamental frequency or its harmonic component, and the frequency domain signals corresponding to the sensors other than the reference sensor are normalized. Generate a normalized signal value for each frequency bin. Then, an uneven distribution value indicating the uneven distribution of the normalized signal value is obtained for each grid, and an uneven distribution index value indicating the uneven distribution for each frame is calculated using them, and the uneven distribution index value is used as an index. It is determined whether or not it corresponds to the target signal section.
[Selection] Figure 1
Description
本発明は、信号処理技術に関し、特に、雑音が含まれる観測信号から目的信号が存在する区間を推定する技術に関する。 The present invention relates to a signal processing technique, and more particularly, to a technique for estimating a section where a target signal exists from an observation signal including noise.
音声信号や音楽信号などの目的信号を処理対象とする符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理技術では、複数種類の信号が含まれる入力音響信号から目的信号が存在する区間を推定する必要がある。この目的信号区間推定の精度はその後の信号処理性能に大きく影響する。 In acoustic signal processing technologies such as encoding, processing for target signals such as audio signals and music signals, suppression of noise signals, dereverberation, and automatic speech recognition, the target signal is derived from an input acoustic signal containing multiple types of signals. It is necessary to estimate existing intervals. The accuracy of the target signal interval estimation greatly affects the subsequent signal processing performance.
環境雑音下での目的信号区間推定を行う際に複数のマイクロフォンが利用可能な場合には、目的音響信号の区間を推定するために信号の到達時間差の情報を利用できる。従来、目的信号の到来方向を既知として到来方向の信号を強調することで目的信号区間推定を行う手法(非特許文献1)や、零交差数などの音響特徴に対する閾値を目的信号の推定到来方向の信頼度によって決定する方法(非特許文献2)や、空間スペクトルのピークの有無で音声の有無を推定する手法(非特許文献3)や、推定信号到来方向が時間的に一定となる区間を音声の存在する区間とする手法(非特許文献4)などがある。しかしながら、これらの方法で十分な精度を得るためには、目的信号の到来方向が既知であったり、周辺環境が静かであったりする必要がある。 When a plurality of microphones can be used when estimating a target signal section under environmental noise, information on the difference in arrival time of signals can be used to estimate a section of the target acoustic signal. Conventionally, a method for estimating a target signal section by emphasizing a signal in the direction of arrival with a known direction of arrival of the target signal (Non-patent Document 1), and a threshold for acoustic features such as the number of zero crossings are used as the estimated direction of arrival of the target signal A method for determining the presence / absence of speech based on the presence / absence of a spatial spectrum peak (Non-Patent Document 3), and a section in which the estimated signal arrival direction is constant over time. There is a technique (Non-patent Document 4) that uses a section in which speech exists. However, in order to obtain sufficient accuracy by these methods, it is necessary that the arrival direction of the target signal is known or the surrounding environment is quiet.
また、複数のマイクロフォンを利用し、各マイクロフォンの信号に対してそれぞれ目的信号区間を推定した後、各マイクロフォンに対応する推定結果を比較して最終的な目的信号区間推定結果を得る手法が存在する(非特許文献5)。しかしながら、この方法では、複数のマイクロフォンを利用することによる空間情報(目的信号の到来方向の情報)を十分利用できていなかった。 Also, there is a method of using a plurality of microphones and estimating a target signal section for each microphone signal and then comparing the estimation results corresponding to the microphones to obtain a final target signal section estimation result. (Non-patent document 5). However, this method cannot sufficiently use the spatial information (information on the arrival direction of the target signal) by using a plurality of microphones.
その一方で、複数の音響信号が同時にあらゆる方向・あらゆる周波数帯域において到来するような環境(例えば街頭や駅・空港のような日常環境)で信号の到達時間差を用いて十分な目的信号区間推定精度を得るための手法として、一定範囲の時間周波数区間で推定した信号の到達時間差がある一定の値に偏る度合い(偏在性)を利用する手法(非特許文献6)がある。
しかし、非特許文献6の方法では、全ての時間周波数区間での偏在性を計算するため多大な計算量を要し、また方向性の雑音がある場合にはそれも目的信号として検出してしまうという問題点がある。 However, in the method of Non-Patent Document 6, a large amount of calculation is required to calculate the uneven distribution in all time frequency sections, and if there is directional noise, it is also detected as a target signal. There is a problem.
本発明はこのような点に鑑みてなされたものであり、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、少ない計算量で精度よく目的信号区間を推定することが可能な技術を提供することを目的とする。 The present invention has been made in view of the above points, and in a situation where it is under noisy environment and the arrival direction of the target signal cannot be accurately determined, the target signal section can be accurately obtained with a small amount of calculation. It is an object to provide a technique capable of estimating
本発明では上記課題を解決するために、まず、信号抽出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出し、周波数領域変換部が、信号切出部で切り出された各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する。また、基本周波数推定部が、信号切出部で切り出された各フレームの信号の基本周波数をそれぞれ推定し、時間周波数領域分割部が、基本周波数又はその各倍音成分をそれぞれ含む有限の時間周波数区間であるグリッドをフレーム毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの周波数領域信号を抽出する。その後、正規化部が、センサに含まれる特定の基準センサに対応する時間周波数領域分割部で抽出された周波数領域信号を基準として、少なくとも当該基準センサ以外のセンサに対応する各周波数領域信号を正規化し、センサで観測された信号の到来方向に対応する時間周波数領域分割部で抽出された正規化信号値を時間周波数ビン毎に生成する。そして、偏在性指標値算出部が、正規化信号値のグリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、正規化信号値のフレーム毎の偏在性を示す偏在性指標値を算出する。
In the present invention, in order to solve the above-described problem, first, the signal extraction unit cuts out each signal observed by a plurality of sensors for each frame that is a predetermined time interval, and the frequency domain conversion unit generates a signal extraction unit. The signal of each frame cut out in
ここで、本発明の正規化部が生成する正規化信号値は信号の到来方方向に対応する値となる。通常、環境雑音は多様な方向からセンサに到来するのに対し、目的信号は或る方向のみからセンサに到来するという性質(性質1)を持つ。そのため、目的信号が存在しない時間周波数ビンの正規化信号値は広く分布する(偏在性が低い)のに対し、目的信号が存在する時間周波数ビンの正規化信号値は目的信号の到来方方向に対応する値の付近に偏って分布する(偏在性が高い)。また、同一の目的信号の基本周波数又はその倍音成分(基本周波数の整数倍の周波数成分)はそれぞれ時間周波数領域で狭く分布するのに対し、雑音のパワーは時間周波数領域に広く分布する(性質2)。本発明では、これらの性質を利用し、基本周波数又はその倍音成分をそれぞれ含む有限の時間周波数区間であるグリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、正規化信号値のフレーム毎の偏在性を示す偏在性指標値を算出する。これにより、目的信号区間を精度よく推定することができる。また、本発明では、各グリッドに属する各時間周波数ビンのみについて正規化信号値を求め、各グリッドのみについて偏在値を求めるため、全ての時間周波数区間で正規化信号値や偏在値を求める場合に比べ演算量を削減できる。なお、このように正規化信号値の偏在性を指標とする場合、目的信号の到来方向を正確に知る必要はない。よって、本発明では、目的信号の正確な到来方向を推定できない場合であっても、適切に目的信号区間を推定することができる。 Here, the normalized signal value generated by the normalization unit of the present invention is a value corresponding to the direction of arrival of the signal. Normally, environmental noises arrive at the sensor from various directions, whereas the target signal has a property (characteristic 1) that arrives at the sensor only from a certain direction. Therefore, the normalized signal values of time frequency bins where the target signal does not exist are widely distributed (low unevenness), whereas the normalized signal values of the time frequency bin where the target signal exists are in the direction of arrival of the target signal. Distributed in the vicinity of the corresponding value (highly ubiquitous). Further, the fundamental frequency of the same target signal or its harmonic component (a frequency component that is an integral multiple of the fundamental frequency) is distributed narrowly in the time frequency domain, whereas the noise power is widely distributed in the time frequency domain (property 2). ). In the present invention, using these properties, an uneven value indicating the uneven distribution for each grid, which is a finite time frequency section including the fundamental frequency or its harmonic component, is obtained, and the uneven distribution value for each grid is used for normalization. An ubiquity index value indicating the ubiquity of the signal value for each frame is calculated. Thereby, the target signal section can be estimated with high accuracy. Also, in the present invention, since the normalized signal value is obtained only for each time frequency bin belonging to each grid and the uneven value is obtained only for each grid, the normalized signal value and the uneven value are obtained in all time frequency sections. Compared to the amount of calculation. In addition, when the uneven distribution of normalized signal values is used as an index, it is not necessary to know the arrival direction of the target signal accurately. Therefore, in the present invention, even when the accurate arrival direction of the target signal cannot be estimated, the target signal section can be estimated appropriately.
また、本発明において好ましくは、偏在性指標値算出部は、正規化信号値を量子化し、量子化された正規化信号値の頻度をグリッド毎に求め、グリッド毎のヒストグラムを生成するヒストグラム生成部と、グリッド毎のヒストグラムを用い、当該ヒストグラムの分布の偏りを示す偏在値をグリッド毎に算出する偏在性計算部と、同一のフレームに対応する各グリッドの偏在値を平均し、その平均値を当該フレームの偏在性指標値として算出する平均部と、を有する。 Preferably, in the present invention, the uneven distribution index value calculation unit quantizes the normalized signal value, obtains the frequency of the quantized normalized signal value for each grid, and generates a histogram for each grid. Then, using the histogram for each grid, the ubiquity calculation unit that calculates the ubiquitous value indicating the deviation of the distribution of the histogram for each grid, the omnidirectional value of each grid corresponding to the same frame, and the average value And an average part calculated as an uneven distribution index value of the frame.
このように、同一のフレームに対応する各グリッドの偏在値を平均し、その平均値を当該フレームの偏在性指標値として算出することにより、パワーや到来方向が時間周波数領域に広く分布する雑音成分の影響を低減させ、目的信号区間の推定精度を向上させることができる。 In this way, by averaging the uneven distribution values of the grids corresponding to the same frame and calculating the average value as the uneven distribution index value of the frame, a noise component whose power and arrival direction are widely distributed in the time frequency domain Can be reduced, and the estimation accuracy of the target signal section can be improved.
また、本発明において好ましくは、ヒストグラム生成部は、重み係数を用い、量子化された正規化信号値の頻度を重み付けし、当該重み付けされた頻度を用いてグリッド毎のヒストグラムを生成する。この重み係数を適宜設定することにより、各環境に最適な目的信号区間推定方法が構築できる。 Preferably, in the present invention, the histogram generation unit weights the frequency of the quantized normalized signal value using a weighting factor, and generates a histogram for each grid using the weighted frequency. By setting this weighting factor as appropriate, an optimal target signal interval estimation method can be constructed for each environment.
また、本発明において好ましくは、偏在性計算部は、グリッド毎のヒストグラムを用い、量子化された各正規化信号値にそれぞれ対応する値を確率変数とする確率密度関数をグリッド毎に求める確率密度関数生成部と、確率密度関数のエントロピーに対して単調増加する関数値、又は、当該エントロピーに対して単調減少する関数値を、偏在値として求める偏在値算出部とを有する。このように偏在値を求めることにより、目的信号が存在する区間で小さな値をとり、目的信号が存在しない区間で大きな値をとる偏在性指標値、又は、目的信号が存在する区間で大きな値をとり、目的信号が存在しない区間で小さな値をとる偏在性指標値を生成することが可能となる。 In the present invention, it is preferable that the ubiquitous calculation unit uses a histogram for each grid, and obtains a probability density function for each grid, which uses a value corresponding to each quantized normalized signal value as a random variable. A function generation unit; and a ubiquitous value calculation unit that obtains a function value monotonously increasing with respect to the entropy of the probability density function or a function value monotonously decreasing with respect to the entropy as an ubiquitous value. By obtaining the ubiquitous value in this way, a ubiquitous index value that takes a small value in a section where the target signal exists and takes a large value in a section where the target signal does not exist, or a large value in a section where the target signal exists. Therefore, it is possible to generate an uneven distribution index value that takes a small value in a section where there is no target signal.
また、本発明において好ましくは、正規化部は、基準センサに対応する周波数領域信号の位相及び/又は振幅を基準とし、少なくとも当該基準センサ以外のセンサに対応する各周波数領域信号の位相及び/又は振幅を正規化し、当該正規化値又はその写像である正規化信号値を生成する。また、この場合に好ましくは、正規化信号値は、周波数成分が正規化され、周波数依存性が排除された値である。正規化信号値の周波数依存性が排除されていない場合、目的信号の時間周波数ビンにおける正規化信号値は、信号の到来方向と周波数とに依存した値となる。一方、正規化信号値の周波数依存性が排除されていた場合、目的信号の時間周波数ビンにおける正規化信号値は、信号の到来方向のみに依存した値となる。すなわち、同じ目的信号に対応する正規化信号値であったとしても、周波数依存性が排除された正規化信号値のほうが、周波数依存性が排除されていない正規化信号値よりも偏在性が高い。その結果、目的信号に起因する正規化信号値の偏在性がより明確に表れた偏在性指標値を得ることができ、偏在性指標値を指標として行われる目的信号区間の推定精度が向上する。 Preferably, in the present invention, the normalization unit uses the phase and / or amplitude of the frequency domain signal corresponding to the reference sensor as a reference, and at least the phase and / or each frequency domain signal corresponding to a sensor other than the reference sensor. The amplitude is normalized, and a normalized signal value that is the normalized value or a map thereof is generated. In this case, the normalized signal value is preferably a value obtained by normalizing frequency components and eliminating frequency dependence. When the frequency dependency of the normalized signal value is not excluded, the normalized signal value in the time frequency bin of the target signal is a value depending on the arrival direction and the frequency of the signal. On the other hand, when the frequency dependence of the normalized signal value is eliminated, the normalized signal value in the time frequency bin of the target signal is a value that depends only on the arrival direction of the signal. That is, even if the normalized signal values correspond to the same target signal, the normalized signal value from which the frequency dependence is eliminated is more unevenly distributed than the normalized signal value from which the frequency dependence is not eliminated. . As a result, it is possible to obtain an unevenness index value in which the unevenness of the normalized signal value caused by the target signal appears more clearly, and the accuracy of estimation of the target signal section performed using the unevenness index value as an index is improved.
また、本発明において判定部は、例えば、各フレームの偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各フレームが目的信号区間であるか否かを判定する。また、判定部が、判定対象のフレームの偏在性指標値と、を非目的信号区間のフレームの偏在性指標値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に判定対象のフレームが目的信号区間であると判定するか、当該所定の閾値を超える場合に判定対象のフレームが目的信号区間であると判定してもよい。また、例えば、判定部が、事前学習されたフレームの偏在性指標値と当該フレームが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するフレームが目的信号区間であるか否かを判定してもよい。 In the present invention, for example, the determination unit compares the ubiquity index values of each frame or their mapping with a predetermined threshold value, and determines whether each frame is a target signal section. Further, the determination unit has a division value that is a ratio of the ubiquity index value of the frame to be determined and the ubiquity index value of the frame in the non-target signal section, or the mapping of the division value is equal to or greater than a predetermined threshold value. The determination target frame may be determined to be the target signal section, or if the predetermined threshold is exceeded, the determination target frame may be determined to be the target signal section. Further, for example, the determination unit uses the pattern recognition using the relationship between the pre-learned frame ubiquitous index value and the determination result as to whether or not the frame is the target signal section. It may be determined whether or not the frame corresponding to the calculated uneven distribution index value is the target signal section.
以上のように本発明では、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、少ない計算量で精度よく目的信号区間を推定することが可能となる。 As described above, according to the present invention, it is possible to accurately estimate the target signal section with a small amount of calculation in a situation where the direction of arrival of the target signal cannot be accurately obtained even in a noisy environment. .
以下、本発明を実施するための最良の形態を図面を参照して説明する。
図1は、本形態の目的信号区間推定装置10の全体構成を例示したブロック図である。また、図2は、図1の偏在性指標値算出部16の詳細構成を例示したブロック図である。また、図3は、図1の判定部17の詳細構成を例示したブロック図である。
The best mode for carrying out the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram illustrating the overall configuration of a target signal
<構成>
図1に例示するように、本形態の目的信号区間推定装置10は、信号切出部11と周波数領域変換部12と基本周波数推定部13と時間周波数領域分割部14と正規化部15と偏在性指標値算出部16と判定部17と制御部18と記憶部19とを具備し、S(S≧2)個のセンサ20−1〜Sで観測され、サンプリング部30でサンプリングされた信号が入力され、目的信号区間の分析結果を出力する装置である。また、図2(a)に例示するように、この例の偏在性指標値算出部16は、ヒストグラム生成部16aと確率密度関数計算部16bとエントロピー計算部16cと平均部16dを具備する。また、図2(b)に例示するように、この例の判定部17は、相対値計算部17aと尤度比算出部17bと閾値判定部17cとを具備する。
<Configuration>
As illustrated in FIG. 1, the target signal
なお、目的信号区間推定装置10は、例えば、CPU(central processing unit),RAM(random access memory),ROM(read only memory)等から構成される公知のコンピュータに所定のプログラムを実行させることによって構成されるものである。
The target signal
<処理>
次に、本形態の目的信号区間推定方法について説明する。
本形態の目的信号区間推定方法では、複数のセンサ20−1〜S(S≧2)で観測された各信号を時間周波数分析し、特定の基準センサを基準とした正規化信号値を求め、所定の時間周波数区間であるグリッド内における正規化信号値の偏在性に基づいて、目的信号の有無を検出して出力する。なお、本形態では、複数のセンサ20−1〜Sとしてマイクロフォンを利用し、それらで観測された各音響信号を用い、音声信号や音楽信号などの目的信号の有無を検出して出力する場合を例示する。また、以下では明記しないが、目的信号区間推定装置10は、制御部18の制御に基づいて各演算処理を実行し、各演算処理の過程で得られたデータは記憶部19に逐次格納され、それ以降の各演算処理に利用される。
<Processing>
Next, the target signal section estimation method of this embodiment will be described.
In the target signal section estimation method of this embodiment, each signal observed by a plurality of sensors 20-1 to S (S ≧ 2) is subjected to time-frequency analysis, and a normalized signal value based on a specific reference sensor is obtained, Based on the uneven distribution of the normalized signal value in the grid that is a predetermined time frequency interval, the presence or absence of the target signal is detected and output. In this embodiment, a microphone is used as the plurality of sensors 20-1 to 20 -S, and each acoustic signal observed with them is used to detect and output the presence of a target signal such as a voice signal or a music signal. Illustrate. Further, although not specified below, the target signal
図4は、本形態の目的信号区間推定方法を説明するためのフローチャートである。また、図5は、ステップS7の詳細を説明するためのフローチャートであり、図6は、ステップS8の詳細を説明するためのフローチャートである。以下、これらのフローチャートに沿って本形態の目的信号区間推定方法を説明していく。 FIG. 4 is a flowchart for explaining the target signal section estimation method of the present embodiment. FIG. 5 is a flowchart for explaining details of step S7, and FIG. 6 is a flowchart for explaining details of step S8. Hereinafter, the target signal section estimation method of this embodiment will be described along these flowcharts.
まず、S(S≧2)個のセンサ20−1〜Sでそれぞれ観測された各信号がサンプリング部30に入力される。これらの信号には音声信号や音楽信号等目的信号の他に環境雑音信号も含まれる。サンプリング部30は、各信号を所定(例えば16,000Hz)のサンプリング周波数fsでサンプリングし、これにより各センサ20−1〜Sに対応する時間領域の信号x(1,t),...,x(S,t)を抽出する(ステップS1)。なお、tはt番目のサンプリング点を示す。
First, each signal observed by S (S ≧ 2) sensors 20-1 to S is input to the
サンプリング部30で抽出された各時間領域の信号x(1,t),...,x(S,t)は、目的信号区間推定装置10の信号切出部11に入力される。信号切出部11は、入力された各信号x(1,t),...x(S,t)を所定の時間区間であるフレーム毎に切り出し、各センサ20−1〜Sについての各フレームi(iはフレームインデックスを示す)の信号x’(1,i,n),...,x’(S,i,n)を抽出する(ステップS2)。なお、nはフレームiにおけるn番目のサンプル点を表す。具体的には、信号切出部11は、例えば、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ所定の窓関数を例えば時間軸方向に16msずつ移動(シフト)させながら乗じ、これにより、例えば32msの時間長の信号x’(1,i,n),...,x’(S,i,n)を切り出す。より具体的には、例えば、サンプリング周波数が16,000Hzの場合、信号切出部11は、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ例えば式(1)のハニング窓を256サンプル点(16,000Hz×16ms)ずつ移動(シフト)させながら乗じ、センサ20−1〜S毎に、512サンプル点(16,000Hz×32ms)の離散信号を1フレーム分の信号として切り出す。ここで、Lは切り出される1フレーム分の信号のサンプル点数(フレーム長:上述の例ではL=512)を表す。
Signals x (1, t),..., X (S, t) in each time domain extracted by the
周波数領域変換部12では、各センサ20−1〜Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を周波数領域に変換し、時間周波数ビン(i,k)毎の周波数領域信号(周波数領域スペクトル)X(1,i,k),...,X(S,i,k)を各センサ20−1〜Sについて生成する(ステップS3)。離散フーリエ変換によってこの変換を行う場合、周波数領域変換部12は、以下の式(2)のように周波数領域信号X(1,i,k),...,X(S,i,k)を算出する。
The
また、信号切出部11で切り出された各センサ20−1〜Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)は、基本周波数推定部13にも入力される。基本周波数推定部13は、各フレームiの時間領域の信号x’(1,i,n),...,x’(S,i,n)を用い、各センサs及びフレームi毎の基本周波数F0(1,i),...,F0(S,i)をそれぞれ推定する(ステップS4)。この推定には、例えば以下の自己相関法(例えば、「Quatieri, T. F., "Discre-time Speech Signal Processing principles and practice," Prentice-Hall, 2002; pp. 504-505」参照)を用いる。この場合、基本周波数推定部13は、まず、以下のように各センサs及びフレームi毎の自己相関関数の係数c(s,i,n)をn=1,...,Lについて求める。
Further, the signals x ′ (1, i, n),..., X ′ (S, i, n) of each frame i for the sensors 20-1 to S cut out by the
次に、基本周波数推定部13は、各センサs及びフレームi毎に、nの一定の探索範囲、例えば、32≦n≦320(サンプリング周波数fs=16,000Hzの場合の50Hzから500Hzの周波数範囲に該当)の範囲内において、自己相関関数の係数c(s,i,n)が最大となるnを検出する。その結果得られたnは、入力信号x’(1,i,n),...,x’(S,i,n)の当該探索範囲において最も支配的な周期成分の周期長に対応し、入力信号x’(1,i,n),...,x’(S,i,n)がそれぞれ単一の完全な周期信号(例えば、正弦波)の場合にはその周期長に対応する。基本周波数推定部13は、サンプリング周波数fsを各センサs及びフレームi毎に得られたnで割ることで、各センサs及びフレームi毎の基本周波数F0(1,i),...,F0(S,i)を生成し、これらを出力する。なお、基本周波数の推定方法として、並列処理法、SIFTアルゴリズム、ケプストラム分析等を用いてもよい(例えば、「古井貞煕,“デジタル音声処理”,東海大学出版,ISBN4-486-00896-0」参照)。 Next, the fundamental frequency estimation unit 13 performs a constant search range of n for each sensor s and frame i, for example, 32 ≦ n ≦ 320 (a frequency range from 50 Hz to 500 Hz when the sampling frequency f s is 16,000 Hz). N) where the coefficient c (s, i, n) of the autocorrelation function is maximized. The resulting n corresponds to the period length of the most dominant periodic component in the search range of the input signal x ′ (1, i, n), ..., x ′ (S, i, n). , If the input signals x '(1, i, n), ..., x' (S, i, n) are each a single perfect periodic signal (eg sine wave), it corresponds to the period length To do. The fundamental frequency estimator 13 divides the sampling frequency f s by n obtained for each sensor s and frame i, so that the fundamental frequency F 0 (1, i),. , F 0 (S, i) are generated and output. Note that parallel processing, SIFT algorithm, cepstrum analysis, etc. may be used as the fundamental frequency estimation method (for example, “Sadaaki Furui,“ Digital Speech Processing ”, Tokai University Press, ISBN4-486-00896-0”). reference).
次に、時間周波数領域分割部14に、各基本周波数F0(1,i),...,F0(S,i)と、周波数領域信号X(1,i,k),...,X(S,i,k)とが入力される。時間周波数領域分割部14は、入力された各基本周波数F0(1,i),...,F0(S,i)又はその各倍音成分(基本周波数の整数倍の周波数成分)をそれぞれ含む有限の時間周波数区間であるグリッドを各センサs及びフレームi毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの周波数領域信号XGRID1(1,i,k),...,XGRIDG(S,i,k)を抽出して出力する(ステップS5)。なお、センサsのフレームiの各グリッドは、基本周波数F0(s,i)又はその各倍音成分の近傍にある一定の時間周波数区間であり、例えば、基本周波数F0(s,i)に最も近い時間周波数ビンから所定の時間周波数範囲にある時間周波数区間、及び、基本周波数F0(s,i)の各倍音成分にそれぞれ最も近い時間周波数ビンから所定の時間周波数範囲にある時間周波数区間である。例えば、基本周波数F0(s,i)に最も近い周波数ビン及び基本周波数F0(s,i)の各倍音成分にそれぞれ最も近い周波数ビンをk'と表現すると(f=fs・k'/Mが基本周波数F0(s,i)又はその各倍音成分に最も近くなる)、センサsのフレームiの各グリッドに属する各時間周波数ビンの周波数領域信号XGRIDg(s,i,k)(g=1,...,G)は以下のように表現できる。
XGRIDg(s,i,k)={X(s,i+P,k'+Q)} ...(4)
Next, each time frequency domain dividing unit 14 is supplied with each fundamental frequency F 0 (1, i),..., F 0 (S, i) and frequency domain signal X (1, i, k),. , X (S, i, k) are input. The time-frequency domain dividing unit 14 inputs each input fundamental frequency F 0 (1, i),..., F 0 (S, i) or each harmonic component (a frequency component that is an integral multiple of the fundamental frequency). A grid that is a finite time frequency interval including one or more is specified for each sensor s and frame i, and the frequency domain signal XGRID 1 (1, i, k), ..., of each time frequency bin belonging to each grid. XGRID G (S, i, k) is extracted and output (step S5). Each grid of the frame i of the sensor s is a fixed time frequency interval in the vicinity of the fundamental frequency F 0 (s, i) or each harmonic component thereof, for example, at the fundamental frequency F 0 (s, i). A time frequency interval in the predetermined time frequency range from the nearest time frequency bin, and a time frequency interval in the predetermined time frequency range from the time frequency bin closest to each harmonic component of the fundamental frequency F 0 (s, i) It is. For example, if the frequency bin closest to the fundamental frequency F 0 (s, i) and the frequency bin closest to each harmonic component of the fundamental frequency F 0 (s, i) are expressed as k ′ (f = f s · k ′) / M is the closest to the fundamental frequency F 0 (s, i) or its harmonic component), the frequency domain signal XGRID g (s, i, k) of each time frequency bin belonging to each grid of frame i of sensor s (G = 1, ..., G) can be expressed as follows.
XGRID g (s, i, k) = {X (s, i + P, k '+ Q)} ... (4)
[好ましいグリッド幅の設定方法]
なお、前述したように、本発明では、正規化信号値のグリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、正規化信号値のフレーム毎の偏在性を示す偏在性指標値を算出し、そのフレームが目的信号区間であるか否かの判定を行う。ここで、グリッドの時間周波数区間が広すぎるとグリッド内での正規化信号値の偏在性が平坦化され、偏在性から目的信号区間であるか非目的信号区間であるかを判定することが困難となる。逆にグリッドの時間周波数区間が狭すぎると、サンプル数が少ないため全てのグリッドでの正規化信号値の偏在性が高くなり、偏在性から目的信号区間であるか非目的信号区間であるかを判定することが困難となる。よって、グリッド幅はこのような問題が生じない範囲で設定する必要がある。以下に好ましいグリッド幅の設定方法について説明する。
[Preferred grid width setting method]
As described above, in the present invention, an uneven value indicating the uneven distribution of each normalized signal value for each grid is obtained, and the uneven distribution value indicating the uneven distribution of each normalized signal value for each frame is obtained using the uneven distribution value for each grid. The sex index value is calculated, and it is determined whether or not the frame is the target signal section. Here, if the time frequency section of the grid is too wide, the uneven distribution of the normalized signal value in the grid is flattened, and it is difficult to determine whether the signal is the target signal section or the non-target signal section from the uneven distribution. It becomes. On the other hand, if the time frequency section of the grid is too narrow, the number of samples is small and the unevenness of the normalized signal value in all grids becomes high, and it is determined whether it is the target signal section or the non-target signal section from the uneven distribution. It becomes difficult to judge. Therefore, it is necessary to set the grid width within a range where such a problem does not occur. A preferable grid width setting method will be described below.
《式(5)のAについて》
信号が音声信号の場合、およそ音声信号の定常性が仮定できる50〜300 msの時間長に対応するAを決定すればよい。すなわち、フレームシフトの幅をSF msとすると、50/SF〜300/SFの間の整数値をAとすればよい。また、話者の発話速度SR syllables/sec(1秒あたりに発話される音節数)が事前に分かるならば、(1000/SR)/SF近傍の(例えば最も近い)整数値をAとしてもよい(例えば、SR=7 syllables/sec, SF=16msならば、(1000/SR)/SF=(1000/7)/16=8.93なので、A=9とする、など)。また、対象信号が音楽信号ならば、音楽のリズム(音声のSRに対応)から同様にAを求める値を用いることが望ましい。
<< About A in Formula (5) >>
When the signal is an audio signal, A corresponding to a time length of 50 to 300 ms in which the steadiness of the audio signal can be assumed is determined. That is, if the width of the frame shift is SF ms, an integer value between 50 / SF and 300 / SF may be A. Also, if the speaker's speech rate SR syllables / sec (the number of syllables spoken per second) is known in advance, an integer value in the vicinity of (1000 / SR) / SF (for example, the closest) may be set to A. (For example, if SR = 7 syllables / sec and SF = 16 ms, (1000 / SR) / SF = (1000/7) /16=8.93, so A = 9). If the target signal is a music signal, it is desirable to use a value for obtaining A in the same way from the rhythm of music (corresponding to the SR of sound).
《式(5)のBについて》
基本的に、窓関数w(n)のメインローブ幅から得られる幅を用いるとよい。例えば、窓関数w(n)の離散フーリエ変換値をW(k)とし、1<k<M/2の範囲で20 log10(W(k)/W(0))> -60dBを満たす最大の周波数ビンkをcfとし、cf・2+1近傍の(例えば最も近い)整数値をBとする。この値はサンプリング周波数fs,分析フレーム長L,離散フーリエ変換の周波数ビンの総数Mに応じて変化する(例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256ならば、cf=2となり、B=5となる)。
<< About B in Formula (5) >>
Basically, a width obtained from the main lobe width of the window function w (n) may be used. For example, the discrete Fourier transform value of the window function w (n) is W (k), and the maximum value satisfying 20 log 10 (W (k) / W (0))>-60dB in the range of 1 <k <M / 2 And cf · 2 + 1 (for example, the closest integer value) is B. This value varies depending on the sampling frequency f s , the analysis frame length L, and the total number M of frequency bins of the discrete Fourier transform (for example, if the sampling frequency is 8 kHz, the width of the window function is 256 sampling points, and M = 256, cf = 2 and B = 5).
また、基本周波数推定部13で推定された基本周波数がF0(s,i)Hzであった場合には、一つのグリッドに2つ以上の音声信号の調波成分が入らないように、例えばB=2・F0(s,i)/(fs/M)+1により定め、これが上記のメインローブ幅から求まる幅より大きくなる場合は、上記のメインローブ幅から求める値を採用することとしてもよい。例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256のとき、F0(s,i)=50 HzならB=2・50・(8000/256)+1=4.2となるので、例えばB=4とする。一方、F0(s,i)=200 HzならB=2・200・(8000/256)+1=13.8となるが、上記のメインローブ幅から求める値B=5よりも大きくなるため、B=5を採用する。これは、メインローブ幅の中でのみ音声信号の到来方向が偏在することによる。これらは目的信号が音楽信号である場合も同様である(「好ましいグリッド幅の設定方法」の説明終わり)。 Further, when the fundamental frequency estimated by the fundamental frequency estimation unit 13 is F 0 (s, i) Hz, for example, to prevent harmonic components of two or more audio signals from entering one grid, for example, If B = 2 · F 0 (s, i) / (f s / M) +1 and this is larger than the width obtained from the main lobe width, the value obtained from the main lobe width should be adopted. It is good. For example, if the sampling frequency is 8 kHz, the window function width is 256 sampling points, and M = 256, then F = 0 (s, i) = 50 Hz, so B = 2 · 50 · (8000/256) + 1 = 4.2 For example, B = 4. On the other hand, if F 0 (s, i) = 200 Hz, B = 2 · 200 · (8000/256) + 1 = 13.8, but this is larger than the value B = 5 obtained from the above main lobe width. = 5 is adopted. This is because the arrival direction of the audio signal is unevenly distributed only within the main lobe width. The same applies to the case where the target signal is a music signal (end of description of “preferred grid width setting method”).
次に、時間周波数領域分割部14から出力された各グリッドに属する各時間周波数ビンの周波数領域信号XGRID1(1,i,k),...,XGRIDG(S,i,k)が正規化部15に入力される。正規化部15は、特定の基準センサsB∈{1,...,S}に対応する時間周波数領域分割部14で抽出された周波数領域信号XGRID1(sB,i,k),...,XGRIDG(sB,i,k)を基準として、少なくとも当該基準センサsB以外のセンサs(≠sB)に対応する時間周波数領域分割部14で抽出された各周波数領域信号XGRID1(s,i,k),...,XGRIDG(s,i,k)を正規化し、センサで観測された信号の到来方向に対応する正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)を時間周波数ビン(i,k)毎に生成する(ステップS5)。なお、このような各正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)は、目的信号が存在する時間周波数ビン(i,k)において、目的信号の到来方向に対応する値に偏ったものとなる。以下に正規化部15が生成する正規化信号値ZGRIDg(i,k)(g=1,...,G)の例を示す。
Next, the frequency domain signals XGRID 1 (1, i, k),..., XGRID G (S, i, k) of each time frequency bin belonging to each grid output from the time frequency domain dividing unit 14 are normalized. Is input to the
[正規化信号値ZGRIDg(i,k)の例]
本形態では正規化信号値ZGRIDg(i,k)の一例として、S=2とし、基準センサ20−1に対応する周波数領域信号XGRIDg(1,i,k)と、他方のセンサ20−2に対応する周波数領域信号XGRIDg(2,i,k)とから信号到来方向を推定し、その信号到来方向推定値を正規化信号値ZGRIDg(i,k)とする(正規化信号値ZGRIDg(i,k)の例1)。この例では、正規化部15は、以下の式(7)(8)によって算出された信号到来方向θg(i,k)を正規化信号値ZGRIDg(i,k)とする。なお、νは音速(約340m/秒)を示し、dはセンサ間距離(m)を示し、fは周波数ビンkに対応する離散周波数f=fs・k/Mを示し、arg(・)は・の位相(偏角)を示す。また、τg(i,k)は信号源から各センサ20−1,2までの信号到達時間差を示し、θg(i,k)は信号到来方向推定値を示す。また、式(8)によって算出される信号到来方向θg(i,k)は、センサ20−1,2を結ぶ線分の中点を通り、その線分と直交する方向を0radianとした角度(radian)である。なお、このように算出された正規化信号値ZGRIDg(i,k)は、周波数成分fが正規化され、周波数依存性が排除された値となる。
[Example of normalized signal value ZGRID g (i, k)]
In this embodiment, as an example of the normalized signal value ZGRID g (i, k), S = 2, the frequency domain signal XGRID g (1, i, k) corresponding to the reference sensor 20-1, and the other sensor 20- 2 is estimated from the frequency domain signal XGRID g (2, i, k) corresponding to 2, and the estimated signal arrival direction is set as a normalized signal value ZGRID g (i, k) (normalized signal value). Example 1 of ZGRID g (i, k). In this example, the
また、周波数領域信号XGRIDg(2,i,k)の位相に対する周波数領域信号XGRIDg(1,i,k)の位相差arg(XGRIDg(2,i,k)/XGRIDg(1,i,k))を正規化信号値ZGRIDg(i,k)としてもよいし(正規化信号値ZGRIDg(i,k)の例3)、周波数領域信号XGRIDg(2,i,k)の位相と周波数領域信号XGRIDg(1,i,k)の位相との差arg(XGRIDg(2,i,k))- arg (XGRIDg(1,i,k))を正規化信号値ZGRIDg(i,k)としてもよい(正規化信号値ZGRIDg(i,k)の例4)。さらに、周波数領域信号XGRIDg(2,i,k)振幅に対する周波数領域信号XGRIDg(1,i,k)の振幅の比|XGRIDg(2,i,k)|/|XGRIDg(1,i,k)|を正規化信号値ZGRIDg(i,k)としてもよいし(正規化信号値ZGRIDg(i,k)の例5)、周波数領域信号XGRIDg(1,i,k)のパワーに対する周波数領域信号XGRIDg(2,i,k)のパワーの比|XGRIDg(2,i,k)|2/|XGRIDg(1,i,k)|2を正規化信号値ZGRIDg(i,k)としてもよい(正規化ZGRIDg(i,k)の例6)。何れの場合も、目的信号が存在する時間周波数ビン(i,k)においてのみ、目的信号の到来方向に対応する値に偏った値を取るため、正規化信号値ZGRIDg(i,k)の偏在性を指標として目的信号が存在するか否かを判定できる。 The phase difference arg (XGRID g (2, i of the frequency domain signal XGRID g (2, i, k ) a frequency domain signal XGRID g with respect to the phase of the (1, i, k), k) / XGRID g (1, i , k)) may be set as the normalized signal value zGRID g (i, k) (eg normalized signal value zGRID g (i, k) 3 ), the frequency domain signal XGRID g (2, i, k ) phase and frequency domain signal XGRID g (1, i, k ) the difference between the phase of arg (XGRID g (2, i , k)) - arg (XGRID g (1, i, k)) normalized signal value ZGRID g (i, k) may be used (Example 4 of normalized signal value ZGRID g (i, k)). Further, the ratio of the amplitude of the frequency domain signal XGRID g (1, i, k) to the amplitude of the frequency domain signal XGRID g (2, i, k) | XGRID g (2, i, k) | / | XGRID g (1, i, k) | (may be a i, k) (normalized signal value zGRID g (i, k) a normalized signal value zgrid g example 5), the frequency domain signal XGRID g (1, i, k ) Of power of frequency domain signal XGRID g (2, i, k) to power of | XGRID g (2, i, k) | 2 / | XGRID g (1, i, k) | 2 is normalized signal value ZGRID g (i, k) may also be used (Example 6 of normalized ZGRID g (i, k)). In either case, only in the time frequency bin (i, k) where the target signal exists, a value biased to a value corresponding to the direction of arrival of the target signal is taken, so that the normalized signal value ZGRID g (i, k) Whether or not the target signal exists can be determined using the uneven distribution as an index.
また、上記ではセンサの数が2つの場合を例示したが、センサの数が3以上の場合は、例えば以下のように、目的信号の到来方位角推定値θg(i,k)と仰角推定値φg (i,k)とを求め、それら2つの値を時間周波数ビン(i,k)に対する正規化信号値ZGRIDg(i,k)としてもよい(正規化信号値ZGRIDg(i,k)の例7)。 Moreover, although the case where the number of sensors was two was illustrated above, when the number of sensors is three or more, for example, as shown below, the arrival azimuth angle estimated value θ g (i, k) of the target signal and the elevation angle estimation value phi g (i, k) and seeking, these two values time-frequency bins (i, k) the normalized signal values for zGRID g (i, k) may be (normalized signal value zgrid g (i, Example 7) of k).
まず、各センサ20−s(s=1,...,S)の空間中の座標ベクトルをds=[x座標,y座標,z座標]とする。また、J(J∈(1,...,S))番目のセンサ20−Jを基準センサとし、基準センサ20−Jと各センサ20−sとの距離ベクトルDを以下の式(9)のように設定する。なお、[・]Tはベクトル・の転置を示す。 First, a coordinate vector in the space of each sensor 20-s (s = 1,..., S) is set to d s = [x coordinate, y coordinate, z coordinate]. Further, a J (J∈ (1,..., S)) th sensor 20-J is set as a reference sensor, and a distance vector D between the reference sensor 20-J and each sensor 20-s is expressed by the following equation (9). Set as follows. [•] T indicates transposition of a vector.
D=[d1-dJ, d2-dJ,...,dS-dJ]T ...(9)
また、基準センサ20−Jと各センサ20−sとの信号到達時間差τg(s,i,k)を以下の式(10)で求め、それらを要素とした信号到達時間差ベクトルτg'(i,k)を以下の式(11)のように求める。
D = [d 1 -d J , d 2 -d J , ..., d S -d J ] T ... (9)
Further, a signal arrival time difference τ g (s, i, k) between the reference sensor 20-J and each sensor 20-s is obtained by the following equation (10), and a signal arrival time difference vector τ g ′ () using them as elements. i, k) is obtained as in the following equation (11).
上述の式(9)〜(11)には以下の式(12)の関係が成り立ち、以下の式(12)から目的信号の到来方位角推定値θg(i,k)と仰角推定値φg(i,k)とを求める。なお、式(12)におけるD-1はムーア・ペンローズ型一般化逆行列などの一般化逆行列である。また、目的信号の到来方位角とはx−y平面上の目的信号の到来方向を意味し、目的信号の仰角とはx−z平面上の目的信号の到来方向を意味する。また、y軸線方向が0radianである。
The relationship of the following equation (12) is established in the above equations (9) to (11). From the following equation (12), the arrival azimuth angle estimated value θ g (i, k) of the target signal and the elevation angle estimated value φ Find g (i, k). In Equation (12), D −1 is a generalized inverse matrix such as a Moore-Penrose type generalized inverse matrix. Also, the arrival azimuth angle of the target signal means the arrival direction of the target signal on the xy plane, and the elevation angle of the target signal means the arrival direction of the target signal on the xz plane. The y-axis direction is 0radian.
ν・D-1・τg'(i,k)=[cosθg(i,k) cosφg(i,k),sinθg(i,k)sinφg(i,k),sinφg(i,k)] T ...(12)
また、上述の正規化信号値Z (i,k)の例1〜7で例示した正規化信号値ZGRIDg(i,k)を組み合わせ、時間周波数ビン(i,k)毎に2以上の正規化信号値ZGRIDg(i,k)算出する構成であってもよい(正規化信号値ZGRIDg(i,k)の例8)。例えば、位相差arg(XGRIDg(2,i,k)/XGRIDg(1,i,k))と振幅の比|XGRIDg(2,i,k)|/|XGRIDg(1,i,k)|との組を時間周波数ビン(i,k)の正規化信号値ZGRIDg(i,k)としてもよい。また、例えばS=3とし、位相差arg(XGRIDg(2,i,k)/XGRIDg(1,i,k))と振幅の比|XGRIDg(3,i,k)|/|XGRIDg(1,i,k)|との組を時間周波数ビン(i,k)の正規化信号値ZGRIDg(i,k)としてもよい。また、上述のように生成した値の写像を正規化信号値ZGRIDg(i,k)としてもよい([正規化信号値ZGRIDg(i,k)の例]の説明終わり)。
ν ・ D −1・ τ g ′ (i, k) = (cosθ g (i, k) cosφ g (i, k), sinθ g (i, k) sinφ g (i, k), sinφ g (i , k)] T ... (12)
Further, the normalized signal value ZGRID g (i, k) illustrated in Examples 1 to 7 of the above-described normalized signal value Z (i, k) is combined, and two or more normalized values are obtained for each time frequency bin (i, k). The normalized signal value ZGRID g (i, k) may be calculated (Example 8 of the normalized signal value ZGRID g (i, k)). For example, the ratio of the phase difference arg (XGRID g (2, i, k) / XGRID g (1, i, k)) to the amplitude | XGRID g (2, i, k) | / | XGRID g (1, i, k k) | may be a normalized signal value ZGRID g (i, k) of the time frequency bin (i, k). Also, for example, S = 3, and the ratio of the phase difference arg (XGRID g (2, i, k) / XGRID g (1, i, k)) and amplitude | XGRID g (3, i, k) | / | XGRID The pair with g (1, i, k) | may be the normalized signal value ZGRID g (i, k) of the time frequency bin (i, k). Moreover, (End description of the example of the normalized signal values ZGRID g (i, k)] ) mapping the normalized signal value ZGRID g (i, k) of the value generated as described above may be.
以上のようにステップS6では、正規化部15が上述のような正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)を生成し、出力する。
As described above, in step S6, the
正規化部15から出力された各正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)は、偏在性指標値算出部16に入力される。偏在性指標値算出部16は、各正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)のグリッド毎の偏在性を示す偏在値H1(i,k),...,HG(i,k)を求め、当該グリッド毎の偏在値H1(i,k),...,HG(i,k)を用い、正規化信号値のフレームi毎の偏在性を示す偏在性指標値H(i)を算出する(ステップS7)。以下にステップS7の詳細を例示する。
Each normalized signal value ZGRID 1 (i, k),..., ZGRID G (i, k) output from the normalizing
[ステップS7の例]
この例の場合、まず、偏在性指標値算出部16のヒストグラム生成部16a(図2)が、入力された各正規化信号値ZGRID1(i,k),...,ZGRIDG(i,k)をそれぞれC個の値Z(c)(c=1,..,C)に量子化し、量子化された正規化信号値Z(c)の頻度bin1(i,k,c),...,binG(i,k,c)(c=1,...,C)をグリッド毎に求め、グリッド毎のヒストグラムを生成する(ステップS71)。例えば、正規化信号値ZGRIDg(i,k)が信号到来方向θg(i,k)であり、C=32であった場合、各正規化信号値ZGRIDg(i,k)は以下のようなC個の正規化信号値Z(c)に量子化される。
[Example of Step S7]
In this example, first, the
Z(1) (-π/2≦ZGRIDg(i,k)<-7π/16)
Z(2) (-7π/16≦ZGRIDg(i,k)<-3π/16)
・・・
Z(C) (7π/16<ZGRIDg(i,k)<π/2)
なお、前述の式(7)で算出された信号到達時間差τg(i,k)を正規化信号値ZGRIDg(i,k)とした場合には、ヒストグラム生成部16aは、例えば|τg(i,k)|≦(d/ν)×α(αは正の定数)の単位で正規化信号値ZGRIDg(i,k)をC個に量子化する。
Z (1) (-π / 2 ≦ ZGRID g (i, k) <-7π / 16)
Z (2) (-7π / 16 ≦ ZGRID g (i, k) <-3π / 16)
...
Z (C) (7π / 16 <ZGRID g (i, k) <π / 2)
When the signal arrival time difference τ g (i, k) calculated by the above equation (7) is the normalized signal value ZGRID g (i, k), the
そして、ヒストグラム生成部16aは、時間周波数ビン(i,k)毎に正規化信号値ZGRIDg(i,k)がいずれの正規化信号値Z(c)に対応するかを判断し、その頻度をグリッド毎にカウントし、グリッド毎のヒストグラムを生成する。この際、ヒストグラム生成部16aが、或る重み係数を用い、量子化された正規化信号値Z(c)の頻度を重み付けし、当該重み付けされた頻度を用いてグリッド毎のヒストグラムを生成してもよい。例えば、ヒストグラム生成部16aが、頻度のカウントの際、対応する時間周波数ビン(i,k)の重み係数W(i,k)で頻度を重み付けしてもよい。より具体的には、例えば、時間周波数ビン(1,2)の正規化信号値ZGRIDg(i,k)を量子化した値がZ(5)であった場合、Z(5)に対する頻度としてW(1,2)をカウントする。すなわち、正規化信号値ZGRIDg(i,k)に対する、量子化された正規化信号値Z(c)の頻度bing(i,k,c)(c=1,...,C)は、例えば、以下の式(13)のようにカウントされてもよい。
Then, the
bing(i,k,c)=ΣW(i+P,k+Q) if ZGRIDg(i+P,k+Q)∈Z(c) ...(13) bin g (i, k, c) = ΣW (i + P, k + Q) if ZGRID g (i + P, k + Q) ∈Z (c) ... (13)
《重み係数W(i,k)の例》
以下に重み係数W(i,k)の例を示す。重み係数W(i,k)の例として、例えば、以下の式(14)のように、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)のパワーを合算し、それを全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和で正規化した値を例示できる(重み係数W(i,k)の例1)。
<< Example of weighting factor W (i, k) >>
An example of the weighting factor W (i, k) is shown below. As an example of the weighting factor W (i, k), for example, the frequency domain signals X (1, i, k),..., X (S, i, k) is summed and normalized by the sum of the power of the frequency domain signals X (1, i, k), ..., X (S, i, k) for all sensors and all frequencies. (Example 1 of weighting factor W (i, k)).
W(i,k)=|X(J,i,k)| ...(18)
W(i,k)=|X(J,i,k)|2 ...(19)
なお、重み係数W(i,k)を1などの固定値としてもよい。また、雑音環境や目的信号の状況に応じ、重み係数W(i,k)を1などの固定値とする場合と、重み係数W(i,k)の例1〜4のように重み係数W(i,k)を逐次算出する場合と、を切り替え制御可能な構成としてもよい(《重み係数W(i,k)の例》の説明終わり)。
W (i, k) = | X (J, i, k) | ... (18)
W (i, k) = | X (J, i, k) | 2 ... (19)
The weight coefficient W (i, k) may be a fixed value such as 1. In addition, the weighting factor W (i, k) is set to a fixed value such as 1 according to the noise environment and the state of the target signal, and the weighting factor W as in Examples 1 to 4 of the weighting factor W (i, k). A configuration in which (i, k) is sequentially calculated and a switchable control may be employed (end of explanation of << example of weighting factor W (i, k) >>).
図11は、以上のように生成したヒストグラムを、横軸を量子化された正規化信号値(信号到来方向)Z(c)とし、縦軸を正規化された重み付け後の頻度bing(i,k,c)として表示した例である。ここで、図11(a)は、目的信号が存在する時間周波数ビンを含むグリッドについて作成されたヒストグラムであり、図11(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッドについて作成されたヒストグラムの例示である。なお、これらの例において重み係数W(i,k)は1である。 FIG. 11 shows the histogram generated as described above, with the horizontal axis representing quantized normalized signal value (signal arrival direction) Z (c) and the vertical axis representing normalized frequency bin g (i , k, c). Here, FIG. 11A is a histogram created for a grid including a time frequency bin in which the target signal exists, and FIG. 11B shows a time in which only the noise signal exists without the target signal. It is an example of the histogram produced about the grid containing a frequency bin. In these examples, the weighting factor W (i, k) is 1.
図11(a)(b)の対比から分かるように、目的信号が存在する時間周波数ビンを含むグリッドのヒストグラム(図11(a))は、正規化信号値Z(c)が特定の値に偏った分布をみせる(偏在性が高い)のに対し、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッドのヒストグラム(図11(b))は、幅広く分布する形状となることが分かる。 As can be seen from the comparison between FIGS. 11 (a) and 11 (b), the grid histogram (FIG. 11 (a)) including the time-frequency bin where the target signal exists has a normalized signal value Z (c) of a specific value. The histogram of the grid (FIG. 11 (b)) including the time frequency bin where the target signal does not exist and only the noise signal exists while the distribution is uneven (highly uneven) has a widely distributed shape. I understand that
ヒストグラム生成部16aは、以上のように生成したグリッド毎のヒストグラムを特定するためのbing(i,k,c)(c=1,...,C)を出力し、bing(i,k,c)は確率密度関数計算部16bに入力される。
The
確率密度関数計算部16bは、bing(i,k,c)を用い、以下の式(20)のようにヒストグラムを確率密度関数Pg(i,k,c)とみなし、量子化された各正規化信号値にそれぞれ対応する値c=1,...,Cを確率変数とする確率密度関数Pg(i,k,c)を算出し、出力する(ステップS72)。
Probability density
エントロピー計算部16cから出力された各グリッドの偏在値Hg(i,k)は、平均部16dに入力される。平均部16dは、同一のフレームiに対応する各グリッドの偏在値Hg(i,k)を平均し、その平均値を当該フレームiの偏在性指標値H(i)として算出する(ステップS74)。すなわち、平均部16dは、同一のフレームiに対応する各グリッドの偏在値Hg(i,k)をg=1,...,Gについて合算し、Gで割ることにより当該フレームiの偏在性指標値H(i)を算出する。
The uneven distribution value H g (i, k) of each grid output from the
なお、ここではヒストグラムの偏りを示す指標としてエントロピーを用い、それを偏在性指標値H(i)としているが、その他の正規化信号値ZGRIDg(i,k)の偏在性を示す指標を在性指標値H(i)としてもよい。以下に他の偏在性指標値H(i)を例示する。 Here, entropy is used as an index indicating the bias of the histogram and is used as the ubiquitous index value H (i), but other indexes indicating the ubiquity of the normalized signal value ZGRID g (i, k) are present. It may be the sex index value H (i). Examples of other uneven distribution index values H (i) are shown below.
《偏在性指標値H(i)の変形例》
例えば、図2の偏在性指標値算出部16の代わりに、図7の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i)の変形例1)。この例では分散を偏在性指標値H(i)として用いる。この場合、まず、偏在性指標値算出部16の平均値算出部16eに、正規化信号値ZGRIDg(i,k)が入力される。平均値算出部16eは、以下の式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値ZGRIDg(i,k)を重み係数W(i,k)で重み付けし、グリッド毎に重み付け後の平均値Eg(i,k)を求めて出力する。なお、μはグリッド毎の正規化信号値ZGRIDg(i,k)の要素数である。
<Modification of uneven distribution index value H (i)>
For example, the ubiquitous index
また、図2の偏在性指標値算出部16の代わりに、図8の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i)の変形例2)。この例では尖度を偏在性指標値H(i)として用いる。
Further, the ubiquitous
この場合、まず、偏在性指標値算出部16の平均値算出部16eに、正規化信号値ZGRIDg(i,k)が入力される。平均値算出部16eは、式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値ZGRIDg(i,k)を重み係数W(i,k)で重み付けし、重み付け後の平均値Eg(i,k)を求めて出力する。また、偏在性指標値算出部16の分散計算部16gには、平均値Eg(i,k)と、各正規化信号値ZGRIDg(i,k)とが入力され、式(23)と同様に分散σg (i,k)を計算し出力する。
In this case, first, the normalized signal value ZGRID g (i, k) is input to the average
さらに尖度計算部16hに、分散σg(i,k)と、平均値Eg(i,k)と、各正規化信号値ZGRIDg(i,k)とが入力され、尖度計算部16hは、例えば以下の式(24)によって尖度Hg(i,k)を求めて出力する。 Further, the variance σ g (i, k), the average value E g (i, k), and each normalized signal value ZGRID g (i, k) are input to the kurtosis calculation unit 16h, and the kurtosis calculation unit For 16h, for example, the kurtosis H g (i, k) is obtained and output by the following equation (24).
また、標準偏差等その他正規化信号値ZGRIDg(i,k)の偏在性を示す統計量を各グリッドの偏在値Hg(i,k)とし、それをフレームi毎に平均して偏在性指標値H(i)としてもよい。 Also, the statistic indicating the uneven distribution of other normalized signal values ZGRID g (i, k) such as standard deviation is defined as the uneven distribution value H g (i, k) of each grid, which is averaged for each frame i. The index value H (i) may be used.
さらに、時間周波数ビン(i,k)毎に2種類以上の正規化信号値ZGRIDg(i,k)(例えば位相差と振幅比)が生成されている場合には、当該2種類以上の正規化信号値ZGRIDg(i,k)の偏在性をそれぞれ示す2以上の偏在性指標値H(i)を算出してもよいし、当該2種類以上の正規化信号値ZGRIDg(i,k)を要素とするベクトルの偏在性を示す偏在性指標値H(i)を算出してもよいが、2以上の偏在性指標値H(i)を算出する場合と1種類の偏在性指標値H(i)を算出する場合とでは、後述する判定部17での処理内容が相違する(《偏在性指標値H(i)の変形例》[ステップS7の例]の説明終わり)。
Furthermore, when two or more kinds of normalized signal values ZGRID g (i, k) (for example, phase difference and amplitude ratio) are generated for each time frequency bin (i, k), the two or more kinds of normalization signal values are generated. Two or more uneven distribution index values H (i) each indicating the uneven distribution of the normalized signal value ZGRID g (i, k) may be calculated, or the two or more types of normalized signal values ZGRID g (i, k) may be calculated. ) May be calculated as the ubiquity index value H (i) indicating the ubiquity of the vector, but when calculating two or more ubiquity index values H (i) and one type of ubiquity index value The content of processing in the
上述のように偏在性指標値算出部16から出力された正規偏在性指標値H(i)は、判定部17に入力され、判定部17は、偏在性指標値H(i)を指標とし、各フレームが目的信号区間であるか否かを判定する(ステップS8)。
As described above, the normal ubiquity index value H (i) output from the ubiquitous index
本形態の判定部17は、判定対象のフレームの偏在性指標値と、非目的信号区間のフレームの偏在性指標値と、の比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に判定対象のフレームが目的信号区間であると判定するか、当該所定の閾値を超える場合に判定対象のフレームが目的信号区間であると判定する。
The
[ステップS8の詳細]
図3及び図6に示す例では、まず、判定部17の相対値算出部17a(図3)は、式(21)によって算出されて偏在性指標値算出部16から出力された偏在性指標値のうち、判定対象のフレームの偏在性指標値H’(i)とし、目的信号が存在しないと推定される非目的信号区間のフレームの偏在性指標値λとし、それらの比である除算値γ(i)を以下のように算出して出力する(ステップS81)。なお、目的信号が存在しないと推定される非目的信号区間の一例、例えば、i=1,...,20などの初期区間である。
[Details of Step S8]
In the example shown in FIGS. 3 and 6, first, the relative
γ(i)=H’(i)/λ ...(25)
次に、尤度比算出部17bに除算値γ(i)が入力され、尤度比算出部17bは、以下の式(26)に従って尤度比Λ(i)を算出して出力する(ステップS82)。なお、式(26)の対数は自然対数である。また、この尤度比の計算式は、例えば、Shon, J, Kim, N.-S., and Sung, W., “A Statistical Model-based Voice Activity Detection,” IEEE Signal Processing Letters, Vol. 6, No. 1, pp.1-3, 1999.等に開示されている。
γ (i) = H '(i) / λ ... (25)
Next, the division value γ (i) is input to the likelihood ratio calculation unit 17b, and the likelihood ratio calculation unit 17b calculates and outputs the likelihood ratio Λ (i) according to the following equation (26) (Step S1). S82). In addition, the logarithm of Formula (26) is a natural logarithm. The likelihood ratio calculation formula is, for example, Shon, J, Kim, N.-S., and Sung, W., “A Statistical Model-based Voice Activity Detection,” IEEE Signal Processing Letters, Vol. , No. 1, pp.1-3, 1999.
なお、偏在性指標値H(i)を指標として目的信号区間を判定する方法はこれに限定されない。前述のように偏在性指標値H(i)の大きさは、各フレームiが目的信号区間であるか否かによって変化する値である。偏在性指標値H(i)の大きさを評価し、その評価結果を各フレームiが目的信号区間であるか否かの判定結果に対応付ける方法であれば、どのような方法を用いてもよい。以下に目的信号区間判定方法の変形例を示す。 Note that the method of determining the target signal section using the uneven distribution index value H (i) as an index is not limited to this. As described above, the size of the uneven distribution index value H (i) is a value that varies depending on whether or not each frame i is the target signal section. Any method may be used as long as it evaluates the size of the ubiquitous index value H (i) and associates the evaluation result with the determination result of whether or not each frame i is the target signal section. . Below, the modification of the target signal area determination method is shown.
[目的信号区間判定方法の変形例]
例えば、図3の判定部17の代わりに、図9の判定部17を用いてもよい(目的信号区間判定方法の変形例1)。この変形例の場合、第1値算出部17aに前述の判定対象のフレームの偏在性指標値H’(i)と、目的信号が存在しないと推定される非目的信号区間のフレームの偏在性指標値λとが入力され、それらの比である除算値γ(i)を上述の式(25)のように算出して出力する。次に、閾値判定部17dに除算値γ(i)が入力され、閾値判定部17dは、フレームi毎に除算値γ(i)と閾値thとを比較し、除算値γ(i)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i)に対応するフレームiが目的信号区間に対応し、そうでなければ除算値γ(i)に対応するフレームiが非目的信号区間であると判定し、その判定結果(1 or 0)を出力する。また、除算値γ(i)を用いる代わりに、偏在性指標値H’(i)から偏在性指標値λを減算した減算値を用い、その減算値に対して上記と同様な閾値処理を行って、目的信号区間であるか否かを推定してもよい。
[Modification of target signal section judgment method]
For example, the
また、例えば、図3の判定部17の代わりに、図10(a)の判定部17を用いてもよい(目的信号区間判定方法の変形例2)。この変形例の場合、判定部17の閾値判定部17iに、式(21)によって算出されて偏在性指標値算出部16から出力された偏在性指標値H(i)が入力され、閾値判定部17iは、フレームi毎に除算値γ(i)と閾値thとを比較し、除算値γ(i)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i)に対応するフレームiが目的信号区間に対応し、そうでなければ除算値γ(i)に対応するフレームiが非目的信号区間に対応すると判定し、その判定結果(1 or 0)を出力する。なお、閾値thは、例えば、閾値算出部17hが入力された偏在性指標値H(i)のフレームi毎の平均値等の統計量をもとに動的に設定される。また、閾値thは固定値であってもよい。
Further, for example, the
なお、上述した以外の偏在性指標値H(i)を用い、上述のように目的信号区間を判定してもよい。この場合の閾値判定は偏在性指標値H(i)の特性による。すなわち、偏在性が高いほど値が大きくなる偏在性指標値H(i)を用いる際には、偏在性指標値H(i)又はその写像が所定の閾値を超えた場合(又は「以上の場合」)に目的信号区間であると判定し、偏在性指標値H(i)又はその写像が所定の閾値を未満場合(又は「以下の場合」)に目的信号区間でないと判定する。一方、偏在性が低いほど値が大きくなる偏在性指標値H(i)を用いる際には、偏在性指標値H(i)又はその写像が所定の閾値を超えた場合(又は「以上の場合」)に目的信号区間でないと判定し、偏在性指標値H(i)又はその写像が所定の閾値を未満場合(又は「以下の場合」)に目的信号区間であると判定する。 Note that the target signal section may be determined as described above using an uneven distribution index value H (i) other than that described above. The threshold determination in this case is based on the characteristic of the uneven distribution index value H (i). That is, when using the ubiquitous index value H (i), which increases in value as the ubiquity increases, the ubiquitous index value H (i) or its mapping exceeds a predetermined threshold (or )) Is determined to be the target signal section, and if the ubiquitous index value H (i) or its mapping is less than a predetermined threshold (or “in the following case”), it is determined not to be the target signal section. On the other hand, when using the ubiquitous index value H (i) whose value increases as the ubiquity is low, the ubiquitous index value H (i) or its mapping exceeds a predetermined threshold (or ]), It is determined that it is not the target signal section, and is determined to be the target signal section when the ubiquitous index value H (i) or the mapping thereof is less than a predetermined threshold (or “in the following case”).
また、時間周波数ビン(i,k)毎に2種類以上の正規化信号値ZGRIDg(i,k)が生成され、各グリッドに属する2種類以上の正規化信号値ZGRIDg(i,k)を要素とするベクトルの偏在性を示す偏在性指標値H(i)がフレームi毎に算出されている場合であっても、判定部17は、上述と同様に目的信号区間であるか否かの判定を行うことができる。
Further, time-frequency bins (i, k) normalized signal values of two or more for each ZGRID g (i, k) are generated, two or more of the normalized signal values belonging to each grid ZGRID g (i, k) Even when the ubiquity index value H (i) indicating the ubiquity of the vector having the element is calculated for each frame i, the
一方、時間周波数ビン(i,k)毎に2種類以上の正規化信号値ZGRIDg(i,k)が生成され、各グリッドに属する2種類以上の正規化信号値ZGRIDg(i,k)の偏在性をそれぞれ示す2以上の偏在性指標値H(i)がフレームi毎に算出されている場合、判定部17は、例えば、フレームi毎の2以上の偏在性指標値H(i)に重み付けを行い、当該重み付け後の偏在性指標値を指標とし、各フレームiが目的信号区間であるか否かを判定する。具体的には、例えば、2以上の偏在性指標値H(i)の重み付け和が所定の閾値を超えるか否かによって、フレームiが目的信号区間であるか否かを判定する。
On the other hand, time-frequency bins (i, k) normalized signal values of two or more for each ZGRID g (i, k) are generated, two or more of the normalized signal values belonging to each grid ZGRID g (i, k) When two or more uneven distribution index values H (i) each indicating the uneven distribution of each frame i are calculated for each frame i, for example, the
また、上述のように偏在性指標値H(i)又はその写像と、所定の閾値との大小を比較して目的信号区間であるか否かを判定する代わりに、事前学習されたフレームの偏在性指標値と当該フレームが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するフレームが目的信号区間に対応するか否かを判定してもよい。この場合、例えば、図10(b)の判定部17のように、パラメータ学習部17hに、フレームの音響特徴量(偏在性指標値やγ(i)など)と当該フレームが目的信号区間であるか否かの判定結果との組からなる学習サンプルを入力し、パラメータ学習部17hでパターン認識学習を行い、モデルパラメータを求める。そして、パターン認識部17iにこのパラメータと判定対象の偏在性指標値H(i)とを入力し、パターン認識によって偏在性指標値H(i)に対応するフレームiが目的信号区間のものであるか否かを判定する。なお、パターン認識技術には、例えば、公知のサポートベクターマシーン(津田宏治,“サポートベクターマシーンとは何か”,電子情報通信学会誌,2000:460〜466頁)や、隠れマルコフモデル(北研二,中村哲,永田昌明,“音声言語処理”,森出版株式会社,1996:57〜90頁)等を利用する。
Further, as described above, instead of determining whether or not the target signal section is a comparison by comparing the ubiquity index value H (i) or its mapping with a predetermined threshold value, the pre-learned frame ubiquity The frame corresponding to the ubiquitous index value calculated by the ubiquitous index value calculation unit by the pattern recognition using the relationship between the sex index value and the determination result of whether or not the frame is the target signal section is the target signal section It may be determined whether or not it corresponds to. In this case, for example, as in the
判定部17が、目的信号区間であるか否かの判定結果を出力するのではなく、前述の尤度比Λ(i)そのもの、または、それを確率値に変換したΛ(i)/(1+Λ(i))などを出力してもよい。
The
<実験結果>
本形態の効果を示すための実験結果を示す。この実験では、センサとして2本のマイクロフォンを用い、音声信号と雑音信号が混在する音響信号を観測し、その音響信号を本形態の信号区間推定方法によって分析し、音声信号区間を検出する実施例を示す。なお、この実験では、正規化信号値Z (i,k)として信号到来方向推定値を用い、偏在性指標値H(i)として式(21)によって算出されて偏在性指標値算出部16から出力された偏在性指標値を用いて目的信号区間の推定を行った。
<Experimental result>
The experimental result for showing the effect of this form is shown. In this experiment, two microphones are used as sensors, an acoustic signal in which an audio signal and a noise signal are mixed is observed, the acoustic signal is analyzed by the signal interval estimation method of this embodiment, and an audio signal interval is detected. Indicates. In this experiment, the signal arrival direction estimation value is used as the normalized signal value Z (i, k), and the ubiquity index value H (i) is calculated by the equation (21) and is calculated from the ubiquity index
使用した音響信号データは大学の研究室内で学生がポスターを用いて自身の研究の発表を行っている発話を収録した信号で、サンプリング周波数16kHz、量子化ビット数16ビットで離散サンプリングされたものを用いた。収録には2本のマイクロフォンを用いており、2本のマイクロフォンは同一直線上に4cmの間隔で配置されている。図12(a)に収録された音響信号を示す。なお、図12(a)における横軸は時間であり、縦軸は音響信号の振幅である。この音響信号には、冒頭の部分にポスター発表が行われている研究室のドアを開閉する音(方向性雑音)が混入している。この音響信号に対し、本形態による信号区間推定方法を、1フレームの時間長を32ms(512サンプル点)とし、16ms(256サンプル点)毎にフレーム始点を移動させて適用する。図12(b)は、これによって各フレームで推定された偏在性指標値H(i)(音響特徴量)を示すグラフである。なお、図12(a)における横軸は時間であり、縦軸は偏在性指標値H(i)の振幅である。また、非特許文献6記載の方法で求まる偏在性指標値H(i)を図12(c)に示す。 The acoustic signal data used was a signal that recorded the utterances that students gave their research presentations using posters in a university laboratory, and was sampled discretely at a sampling frequency of 16 kHz and a quantization bit rate of 16 bits. Using. Two microphones are used for recording, and the two microphones are arranged on the same line at intervals of 4 cm. FIG. 12A shows an acoustic signal recorded. In FIG. 12A, the horizontal axis is time, and the vertical axis is the amplitude of the acoustic signal. The sound signal contains sound (directional noise) that opens and closes the door of the laboratory where the poster is being presented at the beginning. The signal section estimation method according to the present embodiment is applied to this acoustic signal by setting the time length of one frame to 32 ms (512 sample points) and moving the frame start point every 16 ms (256 sample points). FIG. 12B is a graph illustrating the uneven distribution index value H (i) (acoustic feature amount) estimated in each frame. In FIG. 12A, the horizontal axis is time, and the vertical axis is the amplitude of the uneven distribution index value H (i). Moreover, the uneven distribution index value H (i) obtained by the method described in Non-Patent Document 6 is shown in FIG.
図示のように本形態による目的信号区間推定方法により出力される偏在性指標値H(i)が、音声信号の存在区間Bでは高い値を示し、それ以外の区間では小さい値を示すことがわかる。また、図12(b)と(c)とを比較すると、図12(a)のデータに含まれるドアの開閉音のみが収録されている区間Aにおいて、本形態による手法では偏在性指標値H(i)の値が小さいままなのに対し(図12(b))、非特許文献6記載の方法では音声信号区間と同程度の高い値が見られる(図12(c))。このことから、本形態によって得られる偏在性指標値H(i)が、調波性を持たない、ドアの開閉音のような方向性雑音に対し頑健であることがわかる。加えて、本形態では基本周波数とその倍音成分の近傍における到達時間差の偏在性のみを利用しているため、全時間周波数帯域で到達時間差の偏在性を計算する非特許文献6記載の方法よりも高速に偏在性指標値H(i)を計算できる。この実験においては、本形態の方法は非特許文献6記載の方法の9%の計算時間で音響特徴の計算を行うことができた。なお、最悪の計算量は、
(サンプリング周波数/基本周波数推定の探索範囲の下限周波数)/離散フーリエ変換の点数
により計算することができる。本形態に例示したサンプリング周波数(16kHz)と離散フーリエ変換の点数(512点)、及び基本周波数推定の探索範囲の下限周波数(50Hz)の場合は、(16000/50)/512=約31.25%の計算量で済む。実際は、推定される基本周波数の値は50~500Hzに分布するため、上記の実験により示されたように、最悪の計算量よりも少ない時間で計算が可能となる。
As shown in the figure, it is understood that the ubiquitous index value H (i) output by the target signal section estimation method according to the present embodiment shows a high value in the voice signal existence section B and a small value in the other sections. . Further, when FIGS. 12B and 12C are compared, in the section A in which only the door opening / closing sound included in the data of FIG. While the value of (i) remains small (FIG. 12 (b)), the method described in Non-Patent Document 6 shows a high value similar to that of the audio signal interval (FIG. 12 (c)). From this, it can be seen that the ubiquitous index value H (i) obtained by the present embodiment is robust against directional noise such as door opening / closing sound that does not have harmonics. In addition, in this embodiment, only the ubiquity of the arrival time difference in the vicinity of the fundamental frequency and its harmonic component is used, so that the ubiquity of the arrival time difference is calculated in the entire time frequency band than the method described in Non-Patent Document 6. The uneven distribution index value H (i) can be calculated at high speed. In this experiment, the method of this embodiment was able to calculate the acoustic features with a calculation time of 9% of the method described in Non-Patent Document 6. The worst calculation amount is
(Sampling frequency / lower frequency limit of search range of fundamental frequency estimation) / discrete Fourier transform score. In the case of the sampling frequency (16 kHz) and the discrete Fourier transform score (512 points) exemplified in this embodiment and the lower limit frequency (50 Hz) of the search range of the fundamental frequency estimation, (16000/50) / 512 = about 31.25% Just the amount of calculation. Actually, since the estimated fundamental frequency value is distributed in the range of 50 to 500 Hz, the calculation can be performed in a time shorter than the worst calculation amount as shown by the above experiment.
以上のことから、本形態により、方向性雑音の影響を受けにくく、高速に目的音響信号区間を検出することが可能になることがわかる。なお、非特許文献6記載の方法と比較して、本形態では観測信号の基本周波数を推定する必要があるが、本形態記載の基本周波数推定方法は高速での実行が可能であることから、全体の計算量には影響を与えない。 From the above, it can be seen that this embodiment makes it possible to detect the target acoustic signal section at high speed without being affected by the directional noise. In addition, compared with the method described in Non-Patent Document 6, it is necessary to estimate the fundamental frequency of the observation signal in this embodiment, but the fundamental frequency estimation method described in this embodiment can be executed at high speed. It does not affect the overall computational complexity.
なお、本発明は上述の実施の形態に限定されるものではない。例えば、本形態のステップS4では、基本周波数推定部13が全てのセンサに対応する基本周波数を推定し、それらをそれ以降の各センサに対応する処理にそれぞれ利用することとした。しかし、ステップS4において、基本周波数推定部13が一部のセンサ(例えば1つのセンサ)に対応する基本周波数のみを推定し、それをそれ以降の全てのセンサに対応する処理に利用してもよい。 The present invention is not limited to the embodiment described above. For example, in step S4 of the present embodiment, the fundamental frequency estimation unit 13 estimates fundamental frequencies corresponding to all sensors, and uses them for processing corresponding to each subsequent sensor. However, in step S4, the fundamental frequency estimation unit 13 may estimate only the fundamental frequencies corresponding to some sensors (for example, one sensor) and use it for processing corresponding to all subsequent sensors. .
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、信号区間推定装置10がサンプリング部30を包含する構成であってもよいし、信号区間推定装置10の機能を複数のコンピュータで分散処理する構成であってもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Moreover, the structure which includes the
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい In this embodiment, the apparatus is configured by executing a predetermined program on a computer. However, at least a part of the processing contents may be realized by hardware.
本発明の利用分野としては、例えば、音声信号や音楽信号などの目的信号が雑音信号とともに観測される環境においてなされる、目的信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理分野を例示できる。もちろん、音響信号以外の信号処理に本発明を適用してもかまわない。 The fields of application of the present invention include, for example, encoding of target signals, suppression of noise signals, dereverberation, automatic speech recognition, etc., in an environment where target signals such as voice signals and music signals are observed together with noise signals. The acoustic signal processing field can be exemplified. Of course, the present invention may be applied to signal processing other than acoustic signals.
10 信号区間推定装置 10 Signal section estimation device
Claims (10)
複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出す信号抽出部と、
上記信号切出部で切り出された各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換部と、
上記信号切出部で切り出された各フレームの信号の基本周波数をそれぞれ推定する基本周波数推定部と、
上記基本周波数又はその各倍音成分をそれぞれ含む有限の時間周波数区間であるグリッドを上記フレーム毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの上記周波数領域信号を抽出する時間周波数領域分割部と、
上記センサに含まれる特定の基準センサに対応する上記時間周波数領域分割部で抽出された上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する上記時間周波数領域分割部で抽出された各周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を時間周波数ビン毎に生成する正規化部と、
上記正規化信号値の上記グリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、上記正規化信号値の上記フレーム毎の偏在性を示す偏在性指標値を算出する偏在性指標値算出部と、
を有することを特徴とする目的信号区間推定装置。 A target signal section estimation device for estimating a target signal section,
A signal extraction unit that extracts each signal observed by a plurality of sensors for each frame that is a predetermined time interval;
A frequency domain conversion unit that converts the signal of each frame extracted by the signal extraction unit into a frequency domain, and generates a frequency domain signal for each time frequency bin for each sensor;
A fundamental frequency estimation unit that estimates the fundamental frequency of each frame signal cut out by the signal cutout unit;
Time-frequency domain division that identifies one or more grids that are finite time-frequency sections each including the fundamental frequency or each harmonic component thereof for each frame, and extracts the frequency-domain signal of each time-frequency bin belonging to each grid And
Based on the frequency domain signal extracted by the time frequency domain dividing unit corresponding to a specific reference sensor included in the sensor, it is extracted by at least the time frequency domain dividing unit corresponding to the sensor other than the reference sensor. Normalizing each frequency domain signal, and generating a normalized signal value corresponding to the direction of arrival of the signal observed by the sensor for each time frequency bin,
The ubiquitous value for calculating the ubiquity index value indicating the ubiquity of the normalized signal value for each frame by using the ubiquitous value for each frame by obtaining the ubiquitous value indicating the ubiquity of the normalized signal value for each grid. A sex index value calculator,
A target signal section estimation device comprising:
上記偏在性指標値を指標とし、各フレームが上記目的信号区間に対応するか否かを判定する判定部をさらに有する、
ことを特徴とする目的信号区間推定装置。 The target signal section estimation device according to claim 1,
A determination unit that determines whether each frame corresponds to the target signal section using the uneven distribution index value as an index;
A target signal section estimation device characterized by the above.
上記偏在性指標値算出部は、
上記正規化信号値を量子化し、量子化された正規化信号値の頻度を上記グリッド毎に求め、上記グリッド毎のヒストグラムを生成するヒストグラム生成部と、
上記グリッド毎のヒストグラムを用い、当該ヒストグラムの分布の偏りを示す偏在値を上記グリッド毎に算出する偏在性計算部と、
同一のフレームに対応する各グリッドの上記偏在値を平均し、その平均値を当該フレームの上記偏在性指標値として算出する平均部と、
を有することを特徴とする目的信号区間推定装置。 The target signal section estimation device according to claim 1 or 2,
The uneven distribution index value calculation unit
A histogram generating unit that quantizes the normalized signal value, calculates a frequency of the quantized normalized signal value for each grid, and generates a histogram for each grid;
Using the histogram for each grid, an uneven distribution calculating unit that calculates an uneven value indicating the distribution of the histogram for each grid,
An average part that averages the uneven value of each grid corresponding to the same frame, and calculates the average value as the uneven index value of the frame,
A target signal section estimation device comprising:
上記偏在性計算部は、
上記グリッド毎のヒストグラムを用い、上記量子化された各正規化信号値にそれぞれ対応する値を確率変数とする確率密度関数を上記グリッド毎に求める確率密度関数生成部と、
上記確率密度関数のエントロピーに対して単調増加する関数値、又は、当該エントロピーに対して単調減少する関数値を、上記偏在値として求める偏在値算出部と、
を有することを特徴とする目的信号区間推定装置。 The target signal section estimation apparatus according to claim 3, wherein
The uneven distribution calculation unit
A probability density function generating unit for obtaining a probability density function for each grid using a histogram for each grid and using a value corresponding to each quantized normalized signal value as a random variable;
A function value that monotonically increases with respect to the entropy of the probability density function, or a function value that monotonously decreases with respect to the entropy, and an uneven value calculation unit that calculates the uneven value,
A target signal section estimation device comprising:
上記判定部は、
各フレームの上記偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各フレームが上記目的信号区間であるか否かを判定する、
ことを特徴とする目的信号区間推定装置。 The target signal section estimation device according to any one of claims 2 to 4,
The determination unit is
Comparing the ubiquitous index value of each frame or a map thereof and a predetermined threshold value to determine whether each frame is the target signal section;
A target signal section estimation device characterized by the above.
上記判定部は、
判定対象のフレームの上記偏在性指標値と、非目的信号区間のフレームの上記偏在性指標値と、の比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に上記判定対象のフレームが上記目的信号区間であると判定するか、当該所定の閾値を超える場合に上記判定対象のフレームが上記目的信号区間であると判定する閾値判定部と、を有する、
ことを特徴とする目的信号区間推定装置。 The target signal section estimation device according to any one of claims 2 to 4,
The determination unit is
The division value that is the ratio of the ubiquitous index value of the frame to be determined and the ubiquitous index value of the frame of the non-target signal section or the mapping of the divided value is greater than or equal to a predetermined threshold value. A threshold determination unit that determines that the determination target frame is the target signal interval or determines that the determination target frame is the target signal interval when the predetermined threshold is exceeded.
A target signal section estimation device characterized by the above.
上記判定部は、
事前学習されたフレームの上記偏在性指標値と当該フレームが上記目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、上記偏在性指標値算出部で算出された上記偏在性指標値に対応するフレームが上記目的信号区間であるか否かを判定する、
ことを特徴とする目的信号区間推定装置。 The target signal section estimation device according to any one of claims 2 to 4,
The determination unit is
The uneven distribution calculated by the uneven distribution index value calculation unit by pattern recognition using a relationship between the pre-learned frame unevenness index value and a determination result of whether or not the frame is the target signal section. Determining whether the frame corresponding to the sex index value is the target signal interval;
A target signal section estimation device characterized by the above.
信号抽出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出すステップと、
周波数領域変換部が、上記信号切出部で切り出された各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成するステップと、
基本周波数推定部が、上記信号切出部で切り出された各フレームの信号の基本周波数をそれぞれ推定するステップと、
時間周波数領域分割部が、上記基本周波数又はその各倍音成分をそれぞれ含む有限の時間周波数区間であるグリッドを上記フレーム毎に1以上ずつ特定し、各グリッドに属する各時間周波数ビンの上記周波数領域信号を抽出するステップと、
正規化部が、上記センサに含まれる特定の基準センサに対応する上記時間周波数領域分割部で抽出された上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する上記時間周波数領域分割部で抽出された各周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を時間周波数ビン毎に生成するステップと、
偏在性指標値算出部が、上記正規化信号値の上記グリッド毎の偏在性を示す偏在値を求め、当該グリッド毎の偏在値を用い、上記正規化信号値の上記フレーム毎の偏在性を示す偏在性指標値を算出するステップと、
を有することを特徴とする目的信号区間推定方法。 A target signal section estimation method of a target signal section estimation device for estimating a target signal section,
A step in which the signal extraction unit cuts out each signal observed by a plurality of sensors for each frame that is a predetermined time interval;
A frequency domain transforming unit transforming the signal of each frame cut out by the signal cutout unit into a frequency domain, and generating a frequency domain signal for each time frequency bin for each sensor;
A step of estimating a fundamental frequency of a signal of each frame cut out by the signal cutout unit,
The time-frequency domain dividing unit specifies one or more grids that are finite time-frequency sections each including the fundamental frequency or each harmonic component thereof for each frame, and the frequency-domain signal of each time-frequency bin belonging to each grid Extracting the
The time frequency domain corresponding to at least the sensor other than the reference sensor based on the frequency domain signal extracted by the time frequency domain dividing unit corresponding to the specific reference sensor included in the sensor. Normalizing each frequency domain signal extracted by the dividing unit and generating a normalized signal value corresponding to the direction of arrival of the signal observed by the sensor for each time frequency bin;
An unevenness index value calculation unit obtains an uneven value indicating the unevenness of the normalized signal value for each grid, and indicates the unevenness of the normalized signal value for each frame by using the uneven value for each grid. Calculating an uneven distribution index value;
A target signal section estimation method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008214097A JP5147012B2 (en) | 2008-08-22 | 2008-08-22 | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008214097A JP5147012B2 (en) | 2008-08-22 | 2008-08-22 | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010049086A true JP2010049086A (en) | 2010-03-04 |
| JP5147012B2 JP5147012B2 (en) | 2013-02-20 |
Family
ID=42066208
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008214097A Expired - Fee Related JP5147012B2 (en) | 2008-08-22 | 2008-08-22 | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5147012B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010072164A (en) * | 2008-09-17 | 2010-04-02 | Nippon Telegr & Teleph Corp <Ntt> | Target signal section estimation device, target signal section estimation method, target signal section estimation program and recording medium |
| JP2012215600A (en) * | 2011-03-31 | 2012-11-08 | Oki Electric Ind Co Ltd | Voice section determination device, voice section determination method, and program |
-
2008
- 2008-08-22 JP JP2008214097A patent/JP5147012B2/en not_active Expired - Fee Related
Non-Patent Citations (3)
| Title |
|---|
| CSNJ201010078415; 石塚 健太郎 Kentaro ISHIZUKA: '信号到来方向の推定値の偏りを用いた耐雑音音声区間検出法' 日本音響学会 2007年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 20070921, 日本音響学会 * |
| JPN6012035638; 石塚 健太郎 Kentaro ISHIZUKA: '信号到来方向の推定値の偏りを用いた耐雑音音声区間検出法' 日本音響学会 2007年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 20070921, 日本音響学会 * |
| JPN6012035640; Juan E. Rubio, Kentaro Ishizuka, Hiroshi Sawada, Shoko Araki: '"Two-Microphone Voice Activity Detection Based on the Homogeneity of the Direction of Arrival Estima' Proceedings of the 32nd International Conference on Acoustics, Speech, and Signal Processi&# * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010072164A (en) * | 2008-09-17 | 2010-04-02 | Nippon Telegr & Teleph Corp <Ntt> | Target signal section estimation device, target signal section estimation method, target signal section estimation program and recording medium |
| JP2012215600A (en) * | 2011-03-31 | 2012-11-08 | Oki Electric Ind Co Ltd | Voice section determination device, voice section determination method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5147012B2 (en) | 2013-02-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108597496B (en) | Voice generation method and device based on generation type countermeasure network | |
| US10373609B2 (en) | Voice recognition method and apparatus | |
| EP1536414B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
| US7499686B2 (en) | Method and apparatus for multi-sensory speech enhancement on a mobile device | |
| Mousazadeh et al. | Voice activity detection in presence of transient noise using spectral clustering | |
| US20190172480A1 (en) | Voice activity detection systems and methods | |
| US20150340027A1 (en) | Voice recognition system | |
| EP2083417B1 (en) | Sound processing device and program | |
| WO2017108097A1 (en) | Localization algorithm for sound sources with known statistics | |
| JP6195548B2 (en) | Signal analysis apparatus, method, and program | |
| WO2012063963A1 (en) | Speech recognition device, speech recognition method, and speech recognition program | |
| Zhu et al. | A robust and lightweight voice activity detection algorithm for speech enhancement at low signal-to-noise ratio | |
| CN112002307B (en) | Voice recognition method and device | |
| Berdibaeva et al. | Pre-processing voice signals for voice recognition systems | |
| CN115223584A (en) | Audio data processing method, device, equipment and storage medium | |
| JP4871191B2 (en) | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium | |
| Saleem et al. | Spectral phase estimation based on deep neural networks for single channel speech enhancement | |
| JP5147012B2 (en) | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium | |
| Wang et al. | Deep learning approaches for voice activity detection | |
| JP6724290B2 (en) | Sound processing device, sound processing method, and program | |
| Sinha et al. | Voice-Based Speaker Identification and Verification | |
| Dov et al. | Voice activity detection in presence of transients using the scattering transform | |
| Ondusko et al. | Blind signal-to-noise ratio estimation of speech based on vector quantizer classifiers and decision level fusion | |
| Sharma et al. | Unsupervised voice activity detection with improved signal-to-noise ratio in noisy environment | |
| Nidhyananthan et al. | A review on speech enhancement algorithms and why to combine with environment classification |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110627 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110627 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20111121 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20111121 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120628 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120831 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120918 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121025 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121121 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5147012 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151207 Year of fee payment: 3 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |