JP2010245984A - Device for correcting sensitivity of microphone in microphone array, microphone array system including the same, and program - Google Patents
Device for correcting sensitivity of microphone in microphone array, microphone array system including the same, and program Download PDFInfo
- Publication number
- JP2010245984A JP2010245984A JP2009094577A JP2009094577A JP2010245984A JP 2010245984 A JP2010245984 A JP 2010245984A JP 2009094577 A JP2009094577 A JP 2009094577A JP 2009094577 A JP2009094577 A JP 2009094577A JP 2010245984 A JP2010245984 A JP 2010245984A
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- matrix
- sound
- row
- sensitivity correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000035945 sensitivity Effects 0.000 title claims abstract description 121
- 239000011159 matrix material Substances 0.000 claims abstract description 183
- 238000000926 separation method Methods 0.000 claims abstract description 142
- 238000012937 correction Methods 0.000 claims abstract description 97
- 238000012880 independent component analysis Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 abstract description 2
- 239000006185 dispersion Substances 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 41
- 238000000034 method Methods 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- 230000009469 supplementation Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを補正する技術に関する。 The present invention relates to a technique for correcting variations in sensitivity of microphones constituting a microphone array.
特定の方向から到来する音のみを収音することができるように指向性パターンの設定が可能な収音システムの一例として、マイクロホンアレイシステムが挙げられる。マイクロホンアレイシステムは、複数のマイクロホンを1次元或いは2次元的に配列したマイクロホンアレイを含んでおり、マイクロホンアレイを構成する各マイクロホンから出力されるオーディオ信号にFIR(Finite Impulse Response)フィルタ処理などのフィルタ処理を施し、フィルタ処理済みのオーディオ信号をミキシングして出力する構成となっている。そして、上記フィルタ処理のフィルタ係数を調整することで指向性パターンの調整が行われる。 A microphone array system is an example of a sound collection system in which a directivity pattern can be set so that only sound coming from a specific direction can be collected. The microphone array system includes a microphone array in which a plurality of microphones are arranged one-dimensionally or two-dimensionally, and filters such as FIR (Finite Impulse Response) filter processing are performed on audio signals output from the microphones constituting the microphone array. Processing is performed, and the filtered audio signal is mixed and output. The directivity pattern is adjusted by adjusting the filter coefficient of the filter processing.
この種の収音システムでは、各マイクロホンの感度が揃っている必要がある。何故ならば、各マイクロホンの感度にばらつきがあると、指向性パターンの調整に支障が生じ得るからである。しかし、マイクロホンは機械部品であるため製造ばらつきを避けることはできず、製造段階では±4デシベル若しくはそれ以上の感度のばらつきが生じる可能性がある。マイクロホンアレイを構成する各マイクロホンの感度に±4デシベル程度のばらつきがあると、指向性能の劣化は避けられない。そこで、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを補正する技術が種々提案されている(特許文献1や特許文献2など)。特許文献1には、マイクロホンアレイを構成する複数のマイクロホンの何れか一つを基準マイクロホンとし、他のマイクロホンの出力信号の信号レベルが基準マイクロホンの出力信号のレベルと等しくなるようにゲインを調整することで、感度のばらつきを補正する技術が開示されている。一方、特許文献2には、マイクロホンアレイを構成する複数のマイクロホンのうち、一定周波数かつ一定音圧の音響信号が所定時間以上入力されているマイクロホンを基準マイクロホンとして他のマイクロホンの感度を補正する技術が開示されている。
In this type of sound collection system, the sensitivity of each microphone needs to be uniform. This is because if the sensitivity of each microphone varies, it may hinder the adjustment of the directivity pattern. However, since the microphone is a mechanical component, manufacturing variations cannot be avoided, and variations in sensitivity of ± 4 dB or more may occur in the manufacturing stage. When the sensitivity of each microphone constituting the microphone array has a variation of about ± 4 dB, deterioration of directivity is inevitable. Therefore, various techniques for correcting variations in sensitivity of the microphones constituting the microphone array have been proposed (
しかし、マイクロホンアレイを構成する複数のマイクロホンの何れか1つを基準として他のマイクロホンの出力信号のレベル調整を行うことで感度のばらつきを補正する技術には、マイクロホンアレイに対して音源が正対していない場合(アレイ面の中心を通り、かつアレイ面に垂直な方向(以下、アレイ面の法線方向)に音源が位置していない場合)に適切な感度補正をすることができないといった問題がある。これは、遠隔音源からの音波は平面波となって空間を伝搬するため、マイクロホンアレイに対して音源が正対していない場合には各マイクロホンと音源との距離の差により、各マイクロホンの位置で観測される音波の音圧が各々異なったものになるからである。したがって、特許文献1等に開示された技術によりマイクロホンの感度を補正する場合は、感度補正を適切に行い得る条件(音源がマイクロホンアレイに正対している等)が揃っているか否かについて十分に注意を払う必要があり、煩わしいといった問題があった。なお、このような問題を解決するには、各マイクロホンの出力信号に基づいて音の到来方向を推定し、その到来方向を加味して感度補正を行うようにすることが考えられる。しかし、ステアリングベクトルを用いた方法(MVDRやMUSICを含む)など音の到来方向を推定するための従来技術では、マイクロホンアレイを構成する各マイクロホンの感度が揃っていることを前提としている。このため、この種の到来方向推定技術を、マイクロホンアレイを構成する各マイクロホンの感度のばらつきの補正の前提として用いることはできない。
However, in the technology that corrects the variation in sensitivity by adjusting the level of the output signal of another microphone on the basis of any one of the plurality of microphones constituting the microphone array, the sound source is directly opposed to the microphone array. If the sound source is not located in the direction that passes through the center of the array surface and is perpendicular to the array surface (hereinafter referred to as the normal direction of the array surface), the sensitivity correction cannot be performed properly. is there. This is because the sound wave from the remote sound source propagates through the space as a plane wave, and if the sound source is not facing the microphone array, it is observed at the position of each microphone due to the difference in distance between each microphone and the sound source. This is because the sound pressures of the sound waves to be produced are different from each other. Therefore, when the sensitivity of the microphone is corrected by the technique disclosed in
本発明は上記課題に鑑みて為されたものであり、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを適切に補正するための条件が揃っているか否かについて特段の注意を払うことなく、感度補正を適切に行うことを可能にする技術を提供することを目的とする。 The present invention has been made in view of the above problems, and without paying special attention to whether or not the conditions for appropriately correcting the sensitivity variations of the microphones constituting the microphone array are met. An object of the present invention is to provide a technique that enables appropriate correction.
上記課題を解決するため、本発明は、各々異なる音源から放射されるM(Mは2以上の自然数)種類の音の混合音をマイクロホンアレイを構成するM個のマイクロホンの各々で収音して得られるM個の観測信号の各々に周波数分析を施し、複数の周波数の各々における信号強度を示す時系列の観測データをマイクロホン毎に算出する周波数分析部と、前記複数の周波数のうちの少なくとも1つを選択し、当該周波数成分についての音源分離を行うためのM行M列の複素数値行列である分離行列を当該周波数成分の観測データに対する独立成分分析により生成する分離行列生成部と、前記分離行列生成部により生成される分離行列の各行について、各行の行列要素の偏角の差から、当該行の行列要素により抑圧される音の到来方向を推定する方向推定部と、前記方向推定部により推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない前記分離行列の行がある場合に、当該行の行列要素の絶対値の比に応じて前記各マイクロホンの出力信号の信号レベルのばらつきを補正する感度補正部とを有することを特徴とするマイクロホンアレイを構成するマイクロホンの感度補正装置、およびコンピュータを上記各部として機能させることを特徴とするプログラム、を提供する。 In order to solve the above problems, the present invention collects a mixed sound of M kinds of sounds (M is a natural number of 2 or more) radiated from different sound sources by each of the M microphones constituting the microphone array. A frequency analysis unit that performs frequency analysis on each of the obtained M observation signals and calculates time-series observation data indicating the signal intensity at each of the plurality of frequencies for each microphone, and at least one of the plurality of frequencies A separation matrix generation unit that generates a separation matrix that is a complex value matrix of M rows and M columns for performing sound source separation for the frequency component by independent component analysis with respect to observation data of the frequency component; For each row of the separation matrix generated by the matrix generation unit, a method for estimating the arrival direction of the sound suppressed by the matrix element of the row from the difference in the declination of the matrix element of each row When there is a row of the separation matrix in which the direction of arrival of the sound estimated by the estimation unit and the direction estimation unit is not greatly deviated from the normal direction of the microphone array, the ratio of absolute values of matrix elements of the row And a sensitivity correction unit that corrects variations in the signal level of the output signal of each microphone according to the above, and a microphone sensitivity correction device that constitutes a microphone array, and a computer that functions as the above-described units. Program.
このような感度補正装置およびプログラムによれば、まず、マイクロホンアレイを構成するM個のマイクロホンの各々から出力されるM個の観測信号を用いた独立成分分析により、M種類の音の音源分離を行うためのM行M列の分離行列が算出され、この分離行列の行毎に、行列要素の偏角の差に基づいてその行により抑圧される音の到来方向が推定される。そして、上記のようにして推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない行が分離行列に含まれている場合に、当該行の行列要素の絶対値の比に応じて各マイクロホンの出力信号の信号レベルのばらつきが補正される。詳細については後述するが、M=2である場合、アレイ面の法線方向に死角を形成する(すなわち、アレイ面の法線方向から到来する音を抑圧する)行の行列要素の絶対値の比は、2つのマイクロホンの出力信号の信号レベルの比(すなわち、2つのマイクロホンの感度の比)に等しくなる。このため、本発明によれば、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを適切に補正するための条件(独立成分分析により生成される分離行列のM個の行に、前記マイクロホンアレイの法線方向から到来する音を抑圧するものが含まれているという条件、換言すれば、アレイ面の法線方向に何れかの音源が位置しているという条件)を満たしているか否かについて特段の注意を払わなくとも、その条件が満たされたときに、マイクロホンアレイを構成する各マイクロホンの感度のばらつきが自動的に補正される。 According to such a sensitivity correction apparatus and program, first, M types of sound sources are separated by independent component analysis using M observation signals output from each of the M microphones constituting the microphone array. A separation matrix of M rows and M columns to perform is calculated, and for each row of the separation matrix, the arrival direction of the sound suppressed by the row is estimated based on the difference in the declination of the matrix elements. If the separation matrix includes a row in which the direction of arrival of the sound estimated as described above is not greatly deviated from the normal direction of the microphone array, the ratio of the absolute values of the matrix elements of the row Accordingly, the variation in the signal level of the output signal of each microphone is corrected. Although details will be described later, when M = 2, the absolute value of the matrix element of the row that forms a blind spot in the normal direction of the array surface (that is, suppresses sound coming from the normal direction of the array surface). The ratio is equal to the ratio of the signal levels of the output signals of the two microphones (ie, the ratio of the sensitivity of the two microphones). Therefore, according to the present invention, a condition for appropriately correcting the sensitivity variation of each microphone constituting the microphone array (the method of the microphone array is included in M rows of the separation matrix generated by independent component analysis). Whether or not the condition that the sound coming from the line direction is included, in other words, the condition that any sound source is located in the normal direction of the array surface) is satisfied. Even if care is not taken, when the condition is satisfied, variations in sensitivity of the microphones constituting the microphone array are automatically corrected.
M=2である場合、前記感度補正装置の分離行列生成部は、前記独立成分分析の出発点となる初期分離行列を、一方の行の行列要素に関しては前記マイクロホンアレイのアレイ面の法線方向から到来する音を抑圧するように値を設定し、かつ他方の行の行列要素についてはアレイ面におけるマイクロホンの配列方向から到来する音を抑圧するように値を設定することを特徴とする。M=2の場合に独立成分分析の出発点となる初期分離行列を上記のように設定するのは、このような初期分離行列を用いて逐次学習を行えば、アレイ面の法線方向およびアレイ面におけるマイクロホンの配列方向に死角を有する分離行列を得やすくなることが一般に知られているからである。 When M = 2, the separation matrix generation unit of the sensitivity correction apparatus uses the initial separation matrix as a starting point for the independent component analysis, and the normal direction of the array surface of the microphone array with respect to the matrix element of one row The values are set so as to suppress the sound coming from the sound source, and the matrix elements in the other row are set so as to suppress the sound coming from the arrangement direction of the microphones on the array surface. The initial separation matrix that is the starting point for independent component analysis when M = 2 is set as described above. If sequential learning is performed using such an initial separation matrix, the normal direction of the array surface and the array This is because it is generally known that it becomes easy to obtain a separation matrix having a blind spot in the arrangement direction of microphones on the surface.
また、上記課題を解決するために本発明は、N(Nは2以上の自然数)のマイクロホンで構成されるマイクロホンアレイと、M=2である場合の上記感度補正装置をN−1個備え、前記N個のマイクロホンのうちの何れか1つを基準マイクロホンとするとともに、他のN−1個のマイクロホンの各々を感度補正対象のマイクロホンとし、前記N−1個の感度補正装置の各々を前記N−1個の感度補正対象のマイクロホンの各々に一つずつ接続するとともに、当該N−1個の感度補正装置の各々を前記基準マイクロホンに接続し、当該N−1個の感度補正装置の各々により前記N−1個の補正対象マイクロホンの各々の出力信号の信号レベルを補正することを特徴とするマイクロホンアレイシステムを提供する。このような態様によれば、上記基準マイクロホンの出力信号の信号レベルを基準として、他のN−1個のマイクロホンの感度を補正する処理が上記N−1個の感度補正装置の各々によって実行される。これにより、マイクロホンアレイを構成するN個のマイクロホンの感度のばらつきが補正される。 In order to solve the above-mentioned problem, the present invention includes N-1 microphone arrays each including N (N is a natural number of 2 or more) microphones, and the sensitivity correction device when M = 2. Any one of the N microphones is a reference microphone, each of the other N-1 microphones is a sensitivity correction target microphone, and each of the N-1 sensitivity correction devices is the above-described microphone. Each of the N-1 sensitivity correction target microphones is connected to each of the N-1 sensitivity correction target microphones, and each of the N-1 sensitivity correction device is connected to the reference microphone. To provide a microphone array system that corrects the signal level of the output signal of each of the N-1 correction target microphones. According to such an aspect, the process of correcting the sensitivity of the other N−1 microphones based on the signal level of the output signal of the reference microphone is executed by each of the N−1 sensitivity correction devices. The Thereby, the variation in sensitivity of the N microphones constituting the microphone array is corrected.
以下、図面を参照しつつ本発明の実施形態について説明する。
<A:第1実施形態>
図1は、本発明の第1実施形態であるマイクロホンアレイシステム100Aの構成例を示すブロック図である。マイクロホンアレイシステム100Aは、n個(nは2以上の自然数)のマイクロホンにより構成されるマイクロホンアレイ10Aを含んでいる。本実施形態では、図1に示すように、マイクロホンM1およびマイクロホンM2の2個でマイクロホンアレイ10Aが構成されている場合(n=2)を想定する。マイクロホンM1およびマイクロホンM2の各々は、収音軸が平行になるように相互に間隔をあけて平面PLに沿って配置されている。このため、マイクロホンアレイ10Aのアレイ面は平面PLと平行になる。マイクロホンM1およびマイクロホンM2の周囲の相異なる位置には、上記各マイクロホンの収音軸およびマイクロホンアレイ10Aのアレイ面の法線を含む平面内にn個の音源S(S1,S2)が存在する。音源S1は、マイクロホンアレイ10Aのアレイ面の法線Lnに対して角度θ1の方向に位置し、音源S2は、法線Lnに対して角度θ2(θ2≠θ1)の方向に位置する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<A: First Embodiment>
FIG. 1 is a block diagram showing a configuration example of a microphone array system 100A according to the first embodiment of the present invention. The microphone array system 100A includes a
音源S1から放射された音SV1と音源S2から放射された音SV2はマイクロホンM1およびマイクロホンM2の両方に到達する。マイクロホンM1は、音源S1からの音SV1と音源S2からの音SV2との混合音の波形を表す観測信号V1を生成する。同様に、マイクロホンM2は、音源S1からの音SV1と音源S2からの音SV2との混合音の波形を表す観測信号V2を生成する。図1に示すようにマイクロホンM2から出力される観測信号V2はアンプG2による信号レベルの増幅を経て信号処理部30に与えられる一方、マイクロホンM1から出力される観測信号V1はそのまま(アンプによる増幅を経ることなく)信号処理部30に与えられる。
The sound SV1 emitted from the sound source S1 and the sound SV2 emitted from the sound source S2 reach both the microphone M1 and the microphone M2. The microphone M1 generates an observation signal V1 that represents the mixed sound waveform of the sound SV1 from the sound source S1 and the sound SV2 from the sound source S2. Similarly, the microphone M2 generates an observation signal V2 that represents a mixed sound waveform of the sound SV1 from the sound source S1 and the sound SV2 from the sound source S2. As shown in FIG. 1, the observation signal V2 output from the microphone M2 is supplied to the
信号処理部30は、指向性収話のためのフィルタ処理を観測信号V1および観測信号V2に施すフィルタ部と、各々フィルタ処理を経た観測信号V1および観測信号V2をミキシングして出力する加算器を含んでいる(何れも図示省略)。マイクロホンアレイシステム100Aでは、上記フィルタ処理にて使用するフィルタ係数を調整することで指向パターンの設定が行われる。そして、信号処理部30から出力される信号は、放音機器(例えばスピーカやヘッドホン)に供給されることで音響として再生される。なお、観測信号V1および観測信号V2をデジタル信号に変換するA/D変換器や、信号処理部30の出力信号をアナログ信号に変換するD/A変換器の図示は省略されている。
The
感度補正装置20は、観測信号SV1の信号レベルを基準として観測信号SV2の信号レベルを調整することでマイクロホンM1およびマイクロホンM2の感度のばらつきを補正する。詳細については後述するが、感度補正装置20は、観測信号V1および観測信号V2から本実施形態の特徴を顕著に示す手法で感度補正量Rを算出し、この感度補正量Rに応じたゲインをアンプG2に設定する。これにより、観測信号V1と観測信号V2の信号レベルが略揃い、マイクロホンM1とマイクロホンM2の感度のばらつきが補正されるのである。
The
感度補正装置20は、例えばパーソナルコンピュータなどのコンピュータ装置である。この感度補正装置20のCPU(Central Processing Unit:図示略)は、記憶装置14に格納されているプログラムを実行することにより、本実施形態の特徴を顕著に示す感度補正処理を実行する。記憶装置14には、上記プログラム(以下、感度補正支援プログラム)や各種のデータが格納されている。この記憶装置14としては、半導体記録媒体や磁気記録媒体などの公知の記録媒体が採用される。
The
感度補正装置20のCPUは感度補正支援プログラムを実行し、図1に示す周波数分析部22、分離行列生成部40A、および感度補正制御部28として機能する。なお、本実施形態では、周波数分析部22、分離行列生成部40Aおよび感度補正制御部28の各々をソフトウェアで実現したが、DSPなどの信号処理専用の電子回路で周波数分析部22、分離行列生成部40Aおよび感度補正制御部28を実現しても良く、これら各部を複数の集積回路に分散的に搭載した構成でも良い。
The CPU of the
周波数分析部22は、観測信号V(V1,V2)を時間軸上で区分した複数のフレームの各々について周波数スペクトルQ(観測信号V1の周波数スペクトルQ1および観測信号V2の周波数スペクトルQ2)を算定する。周波数スペクトルQの算定には、例えば短時間フーリエ変換が利用される。図2に示すように、番号(時刻)tで識別される1個のフレームの周波数スペクトルQ1は、周波数軸上に設定されたK個の周波数f1〜fKの各々における強度x1(t,f1)〜x1(t,fK)として算定される。同様に、周波数スペクトルQ2は、K個の周波数f1〜fKの各々における強度x2(t,f1)〜x2(t,fK)として算定される。
The
周波数分析部22は、K個の周波数f1〜fKについてフレーム毎に観測ベクトルX(t,f1)〜X(t,fK)を生成する。第k番目(k=1〜K)の周波数fkの観測ベクトルX(t,fK)は、図2に示すように、周波数スペクトルQ1のうち周波数fkでの強度x1(t,fk)と、共通のフレームの周波数スペクトルQ2のうち周波数fkでの強度x2(t,fk)とを要素とするベクトル(X(t,fk)=[x1(t,fk)*x2(t,fk)*]Hである。記号*は複素共役を意味し、記号Hは行列の転置(エルミート転置)を意味する。周波数分析部22がフレーム毎に生成した観測ベクトルX(t,f1)〜X(t,fK)は記憶装置14に格納される。記憶装置14に格納された観測ベクトルX(t,f1)〜X(t,fK)は、図2に示すように、所定個(例えば50個)のフレームで構成される単位区間TU毎に観測データD(f1)〜D(fK)に区分される。周波数fkの観測データD(fk)は、単位区間TU内の各フレームについて算定された周波数fkの観測ベクトルX(t,fk)の時系列である。
The
分離行列生成部40Aは、観測データD(fk)から所謂独立成分分析により分離行列W(f1)〜W(fK)を生成する。ここで、分離行列とは、本来的には、観測信号V1および観測信号V2から音SV1または音SV2(或いは両者)を分離するための信号処理演算に用いられる2行2列(n行n列)の複素数値行列である。しかし、本実施形態では、この分離行列を用いてマイクロホンM1とマイクロホンM2の感度のばらつきを補正することに特徴がある。
The separation
図3は、分離行列生成部40Aのブロック図である。
図3に示すように、分離行列生成部40Aは、初期値生成部42、周波数選択部54、および学習処理部44を含んでいる。初期値生成部42は、K個の周波数f1〜fKの各々について初期的な分離行列(以下「初期分離行列」という)W0(f1)〜W0(fK)を生成する。周波数fkに対応する初期分離行列W0(fk)は、記憶装置14に格納された観測データD(fk)を利用して単位区間TU毎に生成される。初期分離行列W0(f1)〜W0(fK)の生成手法としては公知の手法を適宜採用すれば良い。ここで、初期分離行列W0(f1)〜W0(fK)としてどのようなものを生成するのかについては、種々の態様が考えられるが、本実施形態では、所謂死角型ビームフォーマを採用する。より詳細に説明すると、周波数f1〜fKの各々について初期分離行列を観測信号V1およびV2に乗算したとした場合に、これら2つの観測信号と当該分離行列の1行目の行列要素(すなわち、(1,1)成分および(1,2)成分)との乗算により得られる信号においてはマイクロホンアレイ10Aのアレイ面の法線方向から到来する音が抑圧され(すなわち、同法線方向が死角となり)、これら2つの観測信号と当該初期分離行列の2行目の行列要素(すなわち、(2,1)成分および(2,2)成分)との乗算により得られる信号においてはマイクロホンアレイ10Aにおける各マイクロホンの配列方向から到来する音が抑圧される(すなわち、同配列方向が死角となる)ように初期分離行列を設定する。本実施形態では上記のように初期分離行列を設定するため、死角型ビームフォーマの分離行列、すなわち、分離行列の行毎にその死角方向から到来する音を抑圧する(換言すれば、死角以外の方向から到来する音を強調する)ことで音源分離を行う分離行列が生成されることになる。
FIG. 3 is a block diagram of the
As illustrated in FIG. 3, the separation
周波数選択部54は、K種類の周波数f1〜fKのうちから、独立成分分析による分離行列の学習対象とする1または複数の周波数をマイクロホンアレイ10AにおけるマイクロホンM1およびマイクロホンM2の配置間隔の大きさに応じて選択する。より詳細に説明すると、周波数選択部54は、マイクロホンM1およびマイクロホンM2の配置間隔との関係でアレイゲインが高く、かつ折り返し雑音の少ない1または複数の周波数をK種類の周波数f1〜fKのうちから選択する。以下、周波数選択部54により選択される周波数のことを「選択周波数」と呼ぶ。つまり、本実施形態では、K種類の周波数f1〜fKのうち周波数選択部54により選択された周波数に関してのみ、独立成分分析を用いた分離行列の学習が行われる。その理由は以下の通りである。
The
音源分離を目的として分離行列の学習を行う場合には、K種類の周波数f1〜fKの全てについて分離行列を算出することが理想的である。しかし、本実施形態では、音源分離を目的としている訳ではなく、音の到来方向の推定と各マイクロホンの感度補正を目的としているため、その目的が達せられる範囲で分離行列を算定することができれば十分である。そこで、第1実施形態においては、K個の周波数f1〜fKのうち、アレイゲインが高くかつ折り返し雑音のない1または複数の周波数をマイクロホンアレイ10AにおけるマイクロホンM1およびマイクロホンM2の配置間隔に基づいて選択し、それら周波数についてのみ観測データD(fk)を使用した分離行列W(fk)の逐次学習を実行することとして、感度補正に要する演算量を削減しているのである。
When learning the separation matrix for the purpose of sound source separation, it is ideal to calculate the separation matrix for all of the K types of frequencies f1 to fK. However, the present embodiment is not intended for sound source separation, but for the purpose of estimating the direction of arrival of sound and correcting the sensitivity of each microphone, so long as the separation matrix can be calculated within a range that can achieve that purpose. It is enough. Therefore, in the first embodiment, one or more frequencies having a high array gain and no aliasing noise are selected from the K frequencies f1 to fK based on the arrangement interval of the microphone M1 and the microphone M2 in the
学習処理部44は、周波数選択部54により選択された選択周波数fkの各々について、初期分離行列W0(fk)を初期値とした逐次的な学習で分離行列W(fk)を生成する。分離行列W(fk)の学習には、記憶装置14に格納された周波数fkの観測データD(fk)が使用される。例えば、観測データD(fk)に分離行列W(fk)を乗算して得られる分離信号U1(数1で定義される強度u1(t,fk)の時系列)と分離信号U2(数2で定義される強度u2(t,fk)の時系列)とが統計的に相互に独立となるように分離行列W(fk)の更新を反復する独立成分分析(例えば高次ICA)が、分離行列W(fk)の生成に好適に採用される。なお、以下の数1および数2において、wij(fk)は分離行列W(fk)のi行j列成分である。
次いで、感度補正制御部28の構成について説明する。
図4は感度補正制御部28の構成を示すブロック図である。図4に示すように感度補正制御部28は、方向推定部72と補正量算定部76を含んでいる。
Next, the configuration of the sensitivity
FIG. 4 is a block diagram showing the configuration of the sensitivity
方向推定部72には、選択周波数fkを示すデータと、学習処理部44による学習後の分離行列W(fk)とが供給される。方向推定部72は、選択周波数fkに関し学習後の各分離行列W(fk)から、この分離行列W(fk)の各行により抑圧される音の到来方向(具体的には、アレイ面の法線Lnと音の到来方向とがなす角度)を推定する。より詳細に説明すると、方向推定部72は、学習処理部44による学習後の分離行列W(fk)の1行目の行列要素の偏角の差(すなわち、w11(fk)の偏角とw12(fk)の偏角の差)から当該1行目の行列要素により抑圧される音の到来方向θ1(fk)を推定し、同2行目の行列要素の偏角の差(すなわち、w21(fk)の偏角とw22(fk)の偏角の差)から当該2行目の行列要素により抑圧される音の到来方向θ2(fk)を推定する。分離行列W(fk)の行列要素を利用した到来方向θ1(fk)および到来方向θ2(fk)の推定には、H. Saruwatari, et. al., "Blind Source Separation Combining
Independent Component Analysis and Beamforming", EURASIP Journal on
Applied Signal Processing Vol.2003, No.11, pp.1135-1146, 2003に開示された方法などを用いることができる。例えば、w11(fk)の偏角とw12(fk)の偏角の差がゼロであれば、分離行列の1行目の行列要素により抑圧される音の到来方向θ1(fk)はマイクロホンアレイ10Aのアレイ面の法線方向であると推定される。
The
Independent Component Analysis and Beamforming ", EURASIP Journal on
The methods disclosed in Applied Signal Processing Vol. 2003, No. 11, pp. 1135-1146, 2003 can be used. For example, if the difference between the deviation angle of w11 (fk) and the deviation angle of w12 (fk) is zero, the arrival direction θ1 (fk) of the sound suppressed by the matrix element in the first row of the separation matrix is the
補正量算定部76は、学習処理部44による学習後の分離行列W(fk)からマイクロホンM2についての感度の補正量Rを算出し、その補正量Rに応じたゲインをアンプG2に設定する処理を実行する。図5は、補正量算定部76が実行する処理の流れを示すフローチャートである。図5に示すように補正量算定部76は、選択周波数fkの各々に関して方向推定部72により推定される音の到来方向θ1(fk)(すなわち、分離行列W(fk)の1行目により抑圧される音の到来方向)がアレイ面の法線方向から大幅にはずれているか否かを判定し、大幅にはずれていると判定される周波数fkを選択周波数から除外する(ステップSA100)。例えば、補正量算定部76は、到来方向を示す角度(すなわち、θ1(fk)やθ2(fk))の絶対値が所定の閾値を超えている場合に、その到来方向はアレイ面の法線方向から大幅に外れていると判定する。ここで、到来方向θ1(fk)がアレイ面の法線方向から大幅にはずれている周波数を除外するのは、そのような周波数に対応する分離行列に対してステップSA120以降の演算を行っても、感度補正の精度向上を望めないからである。
The correction
次いで、補正量算定部76は、ステップSA100にて選択周波数の全てが除外されたか否かを判定し(ステップSA110)、その判定結果が“No”である場合(すなわち、選択周波数fkのうち除外されなかったものがあった場合)にのみ、ステップSA120以降の処理を実行する。このステップSA120では、補正量算定部76は、ステップSA100にて除外されなかった周波数(すなわち、到来方向θ1(fk)がアレイ面の法線方向から大幅にはずれてはいないと判定された周波数)fkの各々についての分離行列w(fk)の1行目の行列要素(すなわち、w11(fk)およびw12(fk))から以下の数3にしたがってマイクロホンM2についての感度の補正量R(fk)を算定する。この数3において||は絶対値を意味する。
ここで、マイクロホンM2についての感度の補正量R(fk)を前掲数3にしたがって算出することができる理由は以下の通りである。音源S1から放射される音SV1と音源S2から放射される音SV2の混合系が図6に示すように表され、マイクロホンM1とマイクロホンM2の感度が揃っておらず、あたかもマイクロホンM1側にのみゲインpが入っているかのように観測信号V1の信号レベルと観測信号V2の信号レベルに差がある場合(図6参照)、音SV1および音SV2から観測信号V1および観測信号V2を以下の数4にしたがって生成する混合行列Aは、以下の数5で表される。なお、以下の数5においてaijは音源SjからマイクロホンMiへ至る音の伝搬経路の伝達関数である。
この場合、観測信号V1および観測信号V2から音SV1および音SV2を分離するための分離行列Wの候補の一つとしては混合行列Aの逆行列A−1が挙げられる。この場合の分離行列Wは以下の数6で与えられる。この分離行列Wは、その1行目の行列要素によって音源S2から放射された音を抑圧し、同2行目の行列要素によって音源S1から放射された音を抑圧する。
分離行列Wの1行目の行列要素がアレイ面の法線方向に死角を形成している場合(分離行列W(fk)の1行目により抑圧される音がマイクロホンアレイ10Aのアレイ面の法線方向から到来している場合、すなわち、音源S2がアレイ面に正対している場合)、音源S2からマイクロホンM1へ至る距離と音源S2からマイクロホンM2へ至る距離は等しくなり、a12=a22となる。したがって、分離行列Wの1行目の行列要素がアレイ面の法線方向に死角を形成している場合、分離行列Wの1行目の行列要素W11およびW12の比Rは以下の数7で算定され、この数7にしたがって算定される値Rの大きさは、マイクロホンM1とマイクロホンM2の感度比pに等しくなる。
したがって、分離行列W(fk)の1行目がアレイ面の法線方向に死角を形成している場合には、前掲数3にしたがって算出されるR(fk)に応じたゲインをアンプG2に設定することで、マイクロホンM1とマイクロホンM2の感度のばらつきを補正することができるのである。
Therefore, when the first row of the separation matrix W (fk) forms a blind spot in the normal direction of the array surface, a gain corresponding to R (fk) calculated according to the
そして、補正量算定部76は、ステップSA100にて除外されなかった周波数fkの各々に関して数3にしたがって算出される補正量R(fk)を代表する値R(選択周波数fkが複数の残っている場合には、それら選択周波数fkの各々について算出されるR(fk)の相加平均や中央値など、選択周波数fkが1つしか残っていない場合には、その選択周波数fkについて算出されるR(fk))を求める(ステップSA130)。そして、補正量算定部76は、ステップSA130で算出したRに応じたゲインをアンプG2に設定し(ステップSA140)、感度補正を完了する。
以上が補正量算定部76が実行する処理の流れである。
Then, the correction
The above is the flow of processing executed by the correction
以上説明しように、マイクロホンアレイシステム100Aにおいては、マイクロホンアレイ10Aを構成する各マイクロホンの感度の補正を適切に行うための条件が揃ったこと(アレイ面の法線方向に音源が位置していること)を自動的に検出し、マイクロホンM1およびマイクロホンM2の感度のばらつきを補正する処理が感度補正装置20によって実行される。これにより、上記条件に特段の注意を払わなくとも、各マイクロホンの感度のばらつきが自動的に補正されるのである。
As described above, in the microphone array system 100A, the conditions for appropriately correcting the sensitivity of the microphones constituting the
なお、マイクロホンアレイ10Aを構成する各マイクロホンの感度の補正は、工場出荷時或いは運用開始直後に一回だけ行えば良いから、感度補正を実行済みであるか否かを示すフラグ(値が0ならば感度補正を未実行、値が1ならば感度補正済み)に初期値“0”をセットして記憶装置14に書き込んでおき、このフラグの値が0である間は定期的に感度補正支援プログラムを感度補正装置20のCPUに実行させ、上記ステップSA140の処理の実行を契機として上記フラグを1に更新する処理を上記CPUに実行させるようにしても良い。また、本実施形態では、分離行列W(fk)の1行目の行列要素の絶対値の比(数3にしたがって算出される値R(fk)または、複数の選択周波数fkについてのR(fk)を代表する値)に応じて、マイクロホンM2の出力信号の信号レベルを調整することでマイクロホンM1およびマイクロホンM2の感度のばらつきを補正したが、マイクロホンM1の出力信号の信号レベルを上記R(fk)の逆数(或いはR(fk)を代表する値の逆数)に応じて調整することで、両マイクロホンの感度のばらつきを補正しても勿論良い。
Note that the sensitivity of each microphone constituting the
<B:第2実施形態>
次いで本発明の第2実施形態について説明する。第1実施形態においては2個のマイクロホンM(M1、M2)からなるマイクロホンアレイ10Aを用いてマイクロホンアレイシステム100Aを構成した。これに対して、第2実施形態では、3個以上のマイクロホンM(M1、M2…MN:Nは3以上の自然数)からなるマイクロホンアレイ10Bを用いてマイクロホンアレイシステム100Bが構成されている。図7は、マイクロホンアレイシステム100Bの構成例を示すブロック図である。図7に示すように、マイクロホンアレイシステム100Bにおいて、マイクロホンM1以外の(N−1)個のマイクロホンMk(k=2〜N)は、各々アンプGk(k=2〜N)を介して信号処理部30に接続されている。そして、マイクロホンM1とマイクロホンMk(k=2〜N)とは、感度補正装置20−k(k=2〜N)に接続されており、この感度補正装置20−kによってアンプGkのゲインの調整が行われる。これら感度補正装置20−k(k=2〜N)の各々は、図1の感度補正装置20と同一の構成を有している。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In the first embodiment, the microphone array system 100A is configured by using the
つまり、マイクロホンアレイシステム100Bにおいては、マイクロホンM1を基準マイクロホンとし、他の(N−1)個のマイクロホンMk(k=2〜N)の感度補正が感度補正装置20−k(k=2〜N)の各々によって行われる。これによりマイクロホンアレイ10Bを構成する各マイクロホンMkの感度を補正するための条件が揃ったときに、各マイクロホンMkの感度の補正が順次実行される。このように本実施形態によれば、マイクロホンアレイが3個以上のマイクロホンで構成されている場合であっても、マイクロホンアレイシステム100Bの利用者に特段の注意を払わせることなく自動的に、マイクロホンアレイ10Bを構成する各マイクロホンの感度のばらつきを補正することができる。
That is, in the microphone array system 100B, the microphone M1 is used as a reference microphone, and the sensitivity correction of the other (N−1) microphones Mk (k = 2 to N) is performed by the sensitivity correction device 20-k (k = 2 to N). ) Each. Thus, when the conditions for correcting the sensitivity of each microphone Mk constituting the
ここで、図7に示すようにマイクロホンアレイがN個のマイクロホンで構成されている場合には、Nチャネルの独立成分分析を行って各マイクロホンの感度のばらつきを補正することも考えられる。具体的には、
各々異なる音源から放射されるN種類の音の混合音をマイクロホンアレイを構成するN個のマイクロホンの各々で収音して得られるN個の観測信号の各々に周波数分析を施し、複数の周波数の各々における信号強度を示す時系列の観測データをマイクロホン毎に算出する周波数分析部と、
前記複数の周波数のうちの少なくとも1つを選択し、当該周波数成分についての音源分離を行うためのN行N列の複素数値行列である分離行列を当該周波数成分の観測データに対する独立成分分析により生成する分離行列生成部と、
前記分離行列生成部により生成される分離行列の各行について、各行の行列要素の偏角の差から、当該行の行列要素により抑圧される音の到来方向を推定する方向推定部と、
前記方向推定部により推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない前記分離行列の行がある場合に、当該行の行列要素の絶対値の比に応じて前記各マイクロホンの出力信号の信号レベルのばらつきを補正する感度補正部と、を組み合わせて感度補正装置を構成し、この感度補正装置に上記N個のマイクロホンとN−1個のアンプを接続してマイクロホンアレイシステムを構成しても勿論良い。
Here, when the microphone array is composed of N microphones as shown in FIG. 7, it is conceivable to perform an N-channel independent component analysis to correct variations in sensitivity of each microphone. In particular,
A frequency analysis is performed on each of the N observation signals obtained by collecting a mixed sound of N kinds of sounds emitted from different sound sources by each of the N microphones constituting the microphone array, and a plurality of frequencies are obtained. A frequency analysis unit that calculates time-series observation data indicating the signal intensity at each microphone;
Select at least one of the plurality of frequencies and generate an N-by-N complex-value matrix separation matrix for performing sound source separation on the frequency component by independent component analysis on the observation data of the frequency component A separating matrix generating unit,
For each row of the separation matrix generated by the separation matrix generation unit, a direction estimation unit that estimates the arrival direction of the sound suppressed by the matrix element of the row from the difference in declination of the matrix element of each row;
When there is a row of the separation matrix in which the direction of arrival of the sound estimated by the direction estimation unit is not greatly deviated from the normal direction of the microphone array, depending on the ratio of absolute values of the matrix elements of the row A sensitivity correction unit is configured by combining a sensitivity correction unit that corrects variation in the signal level of the output signal of each microphone, and the N microphones and N-1 amplifiers are connected to the sensitivity correction device to connect the microphones. Of course, an array system may be configured.
Nチャネルの独立成分分析を行う態様と、本実施形態のように2チャンネルの独立成分分析を行う感度補正装置をN−1個組み合わせる態様の何れを採用してマイクロホンアレイシステムを構成するのかについては、マイクロホンアレイシステムの構成が簡潔になることが好ましいのか、それとも、分離行列の演算に要する演算量が少なくなることが好ましいのかに応じて定めるようにすれば良い。Nチャネルの独立成分分析を行う態様では、感度補正装置が1つで済むため、マイクロホンアレイシステムの構成は簡潔になる。これに対して、本実施形態のように2チャンネルの独立成分分析を行う感度補正装置をN−1個組み合わせてマイクロホンアレイシステムを構成する態様では、Nチャネルの独立成分分析を行う態様に比較して演算量が少なくなるといった特徴がある。Nチャネルの独立成分分析では、分離行列の逐次学習に要する演算量がN2に比例するのに対し、2チャンネルの独立成分分析を行う感度補正装置をN−1個組み合わせる態様では、同演算量は22×(N−1)に比例するからである。 As to which of the mode of performing N-channel independent component analysis and the mode of combining N-1 sensitivity correction devices that perform 2-channel independent component analysis as in this embodiment, the microphone array system is configured. It may be determined depending on whether the configuration of the microphone array system is preferably simplified or it is preferable that the amount of computation required for the computation of the separation matrix is reduced. In the aspect in which the N-channel independent component analysis is performed, the configuration of the microphone array system is simplified because only one sensitivity correction device is required. On the other hand, in the embodiment in which the microphone array system is configured by combining N-1 sensitivity correction apparatuses that perform 2-channel independent component analysis as in the present embodiment, it is compared with the embodiment in which N-channel independent component analysis is performed. Therefore, the calculation amount is reduced. In the N-channel independent component analysis, the amount of calculation required for the sequential learning of the separation matrix is proportional to N 2 , whereas in the aspect in which N−1 sensitivity correction devices that perform 2-channel independent component analysis are combined, the amount of calculation is the same. This is because is proportional to 2 2 × (N−1).
<C:第3実施形態>
上述した第1および第2実施形態では、分離行列生成部40Aにより生成された分離行列W(fk)を用いて、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを補正した。しかし、分離行列W(fk)を用いて音源分離を行っても良いことは勿論である。図8は、観測信号V1および観測信号V2にフィルタ処理(音源分離)を施して分離信号U1およびU2を生成するマイクロホンアレイシステム100の構成例を示すブロック図である。図8に示すマイクロホンアレイシステム100は、マイクロホンM1およびマイクロホンM2からなるマイクロホンアレイと、観測信号V1および観測信号V2から分離信号U1および分離信号U2を生成する演算を実行する演算装置12と、記憶装置14とを含んでいる。図8においては、図1と同一の構成要素には同一の符号が付されている。以下、図1に示すシステムとの相違点を中心に説明する。
<C: Third Embodiment>
In the first and second embodiments described above, the variation in sensitivity of each microphone constituting the microphone array is corrected using the separation matrix W (fk) generated by the separation
図8に示すように演算装置12は、周波数分析部22、信号処理部24、信号合成部26および分離行列生成部40を含んでいる。この演算装置12は、前述した第1実施形態における感度補正装置20と同様にコンピュータ装置であり、記憶装置14に格納されているプログラムをCPUに実行させることで周波数分析部22、信号処理部24、信号合成部26および分離行列生成部40として機能する。
As shown in FIG. 8, the arithmetic device 12 includes a
図8の信号処理部24は、周波数分析部22が算定した強度x1(t,fk)と強度x2(t,fk)とにフィルタ処理(音源分離)を実行することでフレーム毎に順次に強度u1(t,fk)および強度u2(t,fk)を生成する。信号合成部26は、信号処理部24が生成した強度u1(t,f1)〜u1(t,fK)を時間領域の信号に変換するとともに前後のフレームで連結して分離信号U1を生成する。同様に、信号合成部26は、強度u2(t,f1)〜u2(t,fK)を時間領域の信号に変換するとともに前後のフレームで連結して分離信号U2を生成する。
The
図9は、信号処理部24のブロック図である。図9に示すように、信号処理部24は、K個の周波数f1〜fKの各々に対応するK個の処理部P1〜PKで構成される。周波数fkに対応する処理部Pkは、強度x1(t,fk)および強度x2(t,fk)から強度u1(t,fk)を生成するフィルタ32と、強度x1(t,fk)および強度x2(t,fk)から強度u2(t,fk)を生成するフィルタ34とを含んでいる。
FIG. 9 is a block diagram of the
フィルタ32およびフィルタ34には遅延加算型(DS(delay-sum)型)のビームフォーマが利用される。すなわち、処理部Pkのフィルタ32は、前掲数1で定義されるように、係数w11(fk)に応じた遅延を強度x1(t,fk)に付加する遅延素子321と、係数w12(fk)に応じた遅延を強度x2(t,fk)に付加する遅延素子323と、遅延素子321の出力と遅延素子323の出力とを加算して分離信号U1の強度u1(t,fk)を生成する加算部325とを含んでいる。同様に、フィルタ34は、前掲数2で定義されるように、係数w21(fk)に応じた遅延を強度x1(t,fk)に付加する遅延素子341と、係数w22(fk)に応じた遅延を強度x2(t,fk)に付加する遅延素子343と、遅延素子341の出力と遅延素子343の出力とを加算して分離信号U2の強度u2(t,fk)を生成する加算部345とを含む。
For the
図10は、分離行列生成部40の構成例を示すブロック図である。この分離行列生成部40は、前述した第1実施形態における分離行列生成部40Aと同様に観測データD(fk)を用いて独立成分分析を行うことにより分離行列を生成する。図10に示すように分離行列生成部40は、初期値生成部42、学習処理部44および周波数選択部54を含んでいる。そして、分離行列生成部40は、選択周波数fkに関して学習処理部44による学習処理で生成される分離行列W(fk)の各行列要素を信号処理部24の処理部Pkのフィルタ32およびフィルタ34に各々設定する。
FIG. 10 is a block diagram illustrating a configuration example of the separation
加えて、分離行列生成部40は、図10に示すように方向推定部72と行列補充部74とを有している。方向推定部72は、選択周波数fkの各々に関して学習処理部44により生成された分離行列W(fk)の各行により分離される音の到来方向θ1(fk)およびθ2(fk)を推定し、それらθ1(fk)を代表する値θ1(θ1(fk)の相加平均や中央値)およびθ2(fk)を代表する値θ2を算出し、θ1およびθ2を示すデータを行列補充部74に与える。図10の行列補充部74は、周波数f1〜fKのK種類の周波数のうち、周波数選択部54により選択されなかった周波数(以下、非選択周波数)についての分離行列を以下の要領で生成し、信号処理部24に与える。すなわち、行列補充部74は、前述した初期値生成部42における初期分離行列の生成と同様のアルゴリズムにしたがって、非選択周波数についての分離行列をその1行目についてはθ1方向が死角となり、2行目についてはθ2方向が死角となるように生成する。
In addition, the separation
分離行列を用いた従来の音源分離では、分離行列の生成に要する演算量を削減するため、周波数f1〜fKのK種類の周波数のうちの特定の周波数(本実施形態では、選択周波数fk)についてのみ分離行列の学習を行い、その他の周波数については初期値生成部42により生成した初期分離行列をそのまま用いることが一般的であった。学習処理により得られた分離行列を用いる周波数帯域では、その分離行列を介してマイクロホンアレイを構成する各マイクロホンの感度のばらつきが補正されるが、初期分離行列を用いる周波数帯域では各マイクロホンの感度のばらつきが補正されておらず、各マイクロホンの感度のばらつきに起因して死角が適切に形成されず、音源の分離精度が劣化するという問題があった。これに対して本実施形態では、非選択周波数について、学習処理により得られた分離行列から推定される方向に死角を形成するように生成された分離行列を用いることで、精度良く音源分離を行うことが可能になる。
In the conventional sound source separation using the separation matrix, in order to reduce the amount of calculation required to generate the separation matrix, a specific frequency (selected frequency fk in the present embodiment) among the K types of frequencies f1 to fK is selected. In general, only the separation matrix is learned, and the initial separation matrix generated by the initial
<D:変形>
以上、本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
(1)上述した各実施形態では、マイクロホンアレイのアレイ面におけるマイクロホンの配置間隔に応じて、分離行列を学習する周波数を選択したが、他の尺度を基準に周波数の選択を行っても良い。このような尺度の一例としては学習の有意性(分離行列を学習することにより音源分離の精度が初期分離行列を用いた音源分離に比較して向上する場合に、その向上の度合い)を用いることが考えられる。ここで、学習の有意性を示す指標としては、例えば、K個の周波数f1〜fKの各々についての観測データD(fk)の共分散行列Rxx(fk)の行列式z1(fk)が好適であることが知られている。具体的には、行列式z1(fk)が所定の閾値を上回っている周波数fkを学習対象として選択するといった具合である。なお、共分散行列Rxx(fk)は以下の数8で定義される。以下の数8や数9における記号Eは期待値(加算値)を意味し、記号Σ_{t}は、単位区間TU内の複数(例えば50個)のフレームにわたる加算(平均)を意味する。すなわち、共分散行列Rxx(fk)は、観測ベクトルX(t,fk)と観測ベクトルX(t,fk)の転置との乗算を単位区間TU内(観測データD(fk)内)の複数の観測ベクトルX(t,fk)について加算したn行n列の行列である。ただし、以下の数9では、単位区間TU内の総てのフレームにわたる観測ベクトルX(t,fk)の加算を零行列と仮定した(ゼロ平均)。
As mentioned above, although each embodiment of this invention was described, it is needless to say that the following modifications may be added to these embodiments.
(1) In each of the above-described embodiments, the frequency for learning the separation matrix is selected according to the arrangement interval of the microphones on the array surface of the microphone array. However, the frequency may be selected based on another scale. One example of such a measure is the significance of learning (the degree of improvement when learning the separation matrix improves the accuracy of sound source separation compared to sound source separation using the initial separation matrix). Can be considered. Here, as an index indicating the significance of learning, for example, the determinant z1 (fk) of the covariance matrix Rxx (fk) of the observation data D (fk) for each of the K frequencies f1 to fK is preferable. It is known that there is. Specifically, the frequency fk at which the determinant z1 (fk) exceeds a predetermined threshold is selected as a learning target. The covariance matrix Rxx (fk) is defined by the following formula 8. Symbol E in the following equations 8 and 9 means an expected value (added value), and symbol Σ_ {t} means addition (average) over a plurality of (for example, 50) frames in the unit interval TU. That is, the covariance matrix Rxx (fk) is obtained by multiplying the observation vector X (t, fk) by the transpose of the observation vector X (t, fk) within a unit interval TU (in the observation data D (fk)). It is an n-by-n matrix added for the observation vector X (t, fk). However, in the following Equation 9, the addition of the observation vectors X (t, fk) over all the frames in the unit interval TU is assumed to be a zero matrix (zero average).
(2)上述した各実施形態では、初期分離行列W0(fk)として、1行目の行列要素によりマイクロホンアレイのアレイ面の法線方向に死角を形成し、かつ、2行目の行列要素によりマイクロホンアレイにおける各マイクロホンの配列方向に死角を形成する死角型ビームフォーマのものを用いたが、1行目の行列要素の役割と2行目の行列要素の役割とを入れ替えたものを用いても良い。このように、1行目の行列要素によりマイクロホンアレイにおけるマイクロホンの配列方向に死角を形成し、かつ、2行目の行列要素によりマイクロホンアレイのアレイ面の法線方向に死角を形成する死角型ビームフォーマのものを用いる場合には、逐次学習により生成される分離行列W(fk)の2行目の行列要素により抑圧される音の到来方向がアレイ面の法線方向から大幅にはずれているか否かを判定し、はずれてはいない場合に、当該2行目の行列要素の絶対値の比(すなわち、|w22|/|w21|)に応じて補正対象マイクロホン(第1実施形態においては、マイクロホンM2、第2実施形態においてはマイクロホンM2〜MN)の出力信号のゲインを調整することで感度補正を行えば良い。 (2) In each of the embodiments described above, a blind spot is formed in the normal direction of the array surface of the microphone array by the matrix element in the first row as the initial separation matrix W 0 (fk), and the matrix element in the second row Thus, a blind spot beamformer that forms a blind spot in the direction of arrangement of each microphone in the microphone array was used, but the role of the matrix element in the first row and the role of the matrix element in the second row were used interchangeably. Also good. In this way, a blind spot beam that forms a blind spot in the microphone array direction in the microphone array by the matrix element in the first row and forms a blind spot in the normal direction of the array surface of the microphone array by the matrix element in the second row. When the former one is used, whether or not the arrival direction of the sound suppressed by the matrix element in the second row of the separation matrix W (fk) generated by the sequential learning is greatly deviated from the normal direction of the array surface. If not, the correction target microphone (in the first embodiment, the microphone) is determined according to the ratio of the absolute values of the matrix elements in the second row (that is, | w22 | / | w21 |). M2, in the second embodiment, sensitivity correction may be performed by adjusting the gain of the output signal of the microphones M2 to MN).
(3)上述した各実施形態では、本発明の特徴を顕著に示す感度補正装置がマイクロホンアレイシステムに予め組み込まれていたが、感度補正装置単体で提供し、感度補正装置の各部をマイクロホンアレイの各部に接続してマイクロホンアレイシステム100Aやマイクロホンアレイシステム100Bと同様な構成となるようにしても良い。 (3) In each of the above-described embodiments, the sensitivity correction apparatus that significantly shows the features of the present invention is incorporated in the microphone array system in advance. However, the sensitivity correction apparatus is provided as a single unit, and each part of the sensitivity correction apparatus is connected to the microphone array. It may be configured to be connected to each unit to have a configuration similar to that of the microphone array system 100A or the microphone array system 100B.
(4)上述した実施形態では、本発明に特徴的なマイクロホンの感度補正をCPUに実行させるプログラムが記憶装置14に予め格納されていた。しかしながら、CD−ROM(Compact Disk-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより上記プログラムを配布しても良い。
(4) In the above-described embodiment, the program for causing the CPU to perform the microphone sensitivity correction characteristic of the present invention is stored in the
100A,100B,100…マイクロホンアレイシステム、10A,10B…マイクロホンアレイ、M1,M2,MN…マイクロホン、20,20−2,20−3…20−N…感度補正装置、12…演算装置、22…周波数分析部、14…記憶装置、40A,40…分離行列生成部、42…初期値生成部、44…学習処理部、54…周波数選択部、28…感度補正制御部、72…方向推定部、74…行列補充部、76…補正量算定部。 100A, 100B, 100 ... microphone array system, 10A, 10B ... microphone array, M1, M2, MN ... microphone, 20, 20-2, 20-3 ... 20-N ... sensitivity correction device, 12 ... arithmetic device, 22 ... Frequency analysis unit, 14 ... storage device, 40A, 40 ... separation matrix generation unit, 42 ... initial value generation unit, 44 ... learning processing unit, 54 ... frequency selection unit, 28 ... sensitivity correction control unit, 72 ... direction estimation unit, 74: Matrix replenishment unit, 76 ... Correction amount calculation unit.
Claims (4)
前記複数の周波数のうちの少なくとも1つを選択し、当該周波数成分についての音源分離を行うためのM行M列の複素数値行列である分離行列を当該周波数成分の観測データに対する独立成分分析により生成する分離行列生成部と、
前記分離行列生成部により生成される分離行列の各行について、各行の行列要素の偏角の差から、当該行の行列要素により抑圧される音の到来方向を推定する方向推定部と、
前記方向推定部により推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない前記分離行列の行がある場合に、当該行の行列要素の絶対値の比に応じて前記各マイクロホンの出力信号の信号レベルのばらつきを補正する感度補正部と
を有することを特徴とするマイクロホンアレイを構成するマイクロホンの感度補正装置。 Each of M observation signals obtained by collecting a mixed sound of M kinds of sounds (M is a natural number of 2 or more) radiated from different sound sources with each of the M microphones constituting the microphone array has a frequency. A frequency analysis unit that performs analysis and calculates time-series observation data indicating the signal strength at each of a plurality of frequencies for each microphone;
Select at least one of the plurality of frequencies, and generate a separation matrix that is a complex value matrix of M rows and M columns to perform sound source separation for the frequency component by independent component analysis on the observation data of the frequency component A separating matrix generating unit,
For each row of the separation matrix generated by the separation matrix generation unit, a direction estimation unit that estimates the arrival direction of the sound suppressed by the matrix element of the row from the difference in declination of the matrix element of each row;
When there is a row of the separation matrix in which the direction of arrival of the sound estimated by the direction estimation unit is not greatly deviated from the normal direction of the microphone array, depending on the ratio of absolute values of the matrix elements of the row And a sensitivity correction unit that corrects variations in the signal level of the output signal of each microphone. A microphone sensitivity correction apparatus constituting a microphone array.
前記独立成分分析の出発点となる初期分離行列を、一方の行の行列要素に関しては前記マイクロホンアレイのアレイ面の法線方向から到来する音を抑圧するように値を設定し、かつ他方の行の行列要素についてはアレイ面におけるマイクロホンの配列方向から到来する音を抑圧するように値を設定する
ことを特徴とする請求項1に記載の感度補正装置。 When M = 2, the separation matrix generation unit
The initial separation matrix that is the starting point for the independent component analysis is set to a value that suppresses sound coming from the normal direction of the array surface of the microphone array with respect to the matrix element of one row, and the other row. The sensitivity correction apparatus according to claim 1, wherein values are set so as to suppress sound coming from the arrangement direction of the microphones on the array surface.
M=2である請求項1に記載の感度補正装置をN−1個備え、
前記N個のマイクロホンのうちの何れか1つを基準マイクロホンとするとともに、他のN−1個のマイクロホンの各々を感度補正対象のマイクロホンとし、前記N−1個の感度補正装置の各々を前記N−1個の感度補正対象のマイクロホンの各々に一つずつ接続するとともに、当該N−1個の感度補正装置の各々を前記基準マイクロホンに接続し、当該N−1個の感度補正装置の各々により前記N−1個の補正対象マイクロホンの各々の出力信号の信号レベルを補正する
ことを特徴とするマイクロホンアレイシステム。 A microphone array composed of N (N is a natural number of 2 or more) microphones;
The sensitivity correction device according to claim 1, wherein M = 2 is provided, and N−1 sensitivity correction devices are provided.
Any one of the N microphones is a reference microphone, each of the other N-1 microphones is a sensitivity correction target microphone, and each of the N-1 sensitivity correction devices is the above-described microphone. Each of the N-1 sensitivity correction target microphones is connected to each of the N-1 sensitivity correction target microphones, and each of the N-1 sensitivity correction device is connected to the reference microphone. The microphone array system, wherein the signal level of the output signal of each of the N-1 correction target microphones is corrected by:
各々異なる音源から放射されるM(Mは2以上の自然数)種類の音の混合音をマイクロホンアレイを構成するM個のマイクロホンの各々で収音して得られるM個の観測信号の各々に周波数分析を施し、複数の周波数の各々における信号強度を示す時系列の観測データをマイクロホン毎に算出する周波数分析部と、
前記複数の周波数のうちの少なくとも1つを選択し、当該周波数成分についての音源分離を行うためのM行M列の複素数値行列である分離行列を当該周波数成分の観測データに対する独立成分分析により生成する分離行列生成部と、
前記分離行列生成部により生成される分離行列の各行について、各行の行列要素の偏角の差から、当該行の行列要素により抑圧される音の到来方向を推定する方向推定部と、
前記方向推定部により推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない前記分離行列の行がある場合に、当該行の行列要素の絶対値の比に応じて前記各マイクロホンの出力信号の信号レベルのばらつきを補正する感度補正部
として機能させることを特徴とするプログラム。 Computer
Each of M observation signals obtained by collecting a mixed sound of M kinds of sounds (M is a natural number of 2 or more) radiated from different sound sources with each of the M microphones constituting the microphone array has a frequency. A frequency analysis unit that performs analysis and calculates time-series observation data indicating the signal strength at each of a plurality of frequencies for each microphone;
Select at least one of the plurality of frequencies, and generate a separation matrix that is a complex value matrix of M rows and M columns to perform sound source separation for the frequency component by independent component analysis on the observation data of the frequency component A separating matrix generating unit,
For each row of the separation matrix generated by the separation matrix generation unit, a direction estimation unit that estimates the arrival direction of the sound suppressed by the matrix element of the row from the difference in declination of the matrix element of each row;
When there is a row of the separation matrix in which the direction of arrival of the sound estimated by the direction estimation unit is not greatly deviated from the normal direction of the microphone array, depending on the ratio of absolute values of the matrix elements of the row A program that functions as a sensitivity correction unit that corrects variations in the signal level of the output signal of each microphone.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009094577A JP5240026B2 (en) | 2009-04-09 | 2009-04-09 | Device for correcting sensitivity of microphone in microphone array, microphone array system including the device, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009094577A JP5240026B2 (en) | 2009-04-09 | 2009-04-09 | Device for correcting sensitivity of microphone in microphone array, microphone array system including the device, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010245984A true JP2010245984A (en) | 2010-10-28 |
| JP5240026B2 JP5240026B2 (en) | 2013-07-17 |
Family
ID=43098486
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009094577A Expired - Fee Related JP5240026B2 (en) | 2009-04-09 | 2009-04-09 | Device for correcting sensitivity of microphone in microphone array, microphone array system including the device, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5240026B2 (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2013115385A1 (en) * | 2012-02-01 | 2013-08-08 | 株式会社ニコン | Sound processing device and sound processing program |
| JP2014045317A (en) * | 2012-08-27 | 2014-03-13 | Xacti Corp | Audio processing apparatus |
| JP2014168188A (en) * | 2013-02-28 | 2014-09-11 | Fujitsu Ltd | Microphone sensitivity correction device, method, program, and noise suppression device |
| CN104332161A (en) * | 2014-09-28 | 2015-02-04 | 武汉理工大学 | Underdetermined blind identification method based on receiving prior experience and single source point detection |
| CN111009257A (en) * | 2019-12-17 | 2020-04-14 | 北京小米智能科技有限公司 | Audio signal processing method and device, terminal and storage medium |
| CN115580809A (en) * | 2022-10-14 | 2023-01-06 | 杭州研极微电子有限公司 | Sound positioning compensation method and device |
| WO2025036395A1 (en) * | 2023-08-16 | 2025-02-20 | 杭州微影软件有限公司 | Correction method and apparatus for microphone array, device and storage medium |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2000057671A2 (en) * | 1999-03-19 | 2000-09-28 | Siemens Aktiengesellschaft | Method and device for receiving and treating audiosignals in surroundings affected by noise |
| WO2004025989A1 (en) * | 2002-09-13 | 2004-03-25 | Koninklijke Philips Electronics N.V. | Calibrating a first and a second microphone |
| WO2006077745A1 (en) * | 2005-01-20 | 2006-07-27 | Nec Corporation | Signal removal method, signal removal system, and signal removal program |
| WO2007018293A1 (en) * | 2005-08-11 | 2007-02-15 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
| JP2007068125A (en) * | 2005-09-02 | 2007-03-15 | Nec Corp | Method and apparatus for signal processing and computer program |
| JP2008060625A (en) * | 2006-08-29 | 2008-03-13 | Casio Comput Co Ltd | Stereo audio recording apparatus and microphone sensitivity difference correction method |
-
2009
- 2009-04-09 JP JP2009094577A patent/JP5240026B2/en not_active Expired - Fee Related
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2000057671A2 (en) * | 1999-03-19 | 2000-09-28 | Siemens Aktiengesellschaft | Method and device for receiving and treating audiosignals in surroundings affected by noise |
| WO2004025989A1 (en) * | 2002-09-13 | 2004-03-25 | Koninklijke Philips Electronics N.V. | Calibrating a first and a second microphone |
| WO2006077745A1 (en) * | 2005-01-20 | 2006-07-27 | Nec Corporation | Signal removal method, signal removal system, and signal removal program |
| WO2007018293A1 (en) * | 2005-08-11 | 2007-02-15 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
| JP2007068125A (en) * | 2005-09-02 | 2007-03-15 | Nec Corp | Method and apparatus for signal processing and computer program |
| JP2008060625A (en) * | 2006-08-29 | 2008-03-13 | Casio Comput Co Ltd | Stereo audio recording apparatus and microphone sensitivity difference correction method |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2013115385A1 (en) * | 2012-02-01 | 2013-08-08 | 株式会社ニコン | Sound processing device and sound processing program |
| JP2014045317A (en) * | 2012-08-27 | 2014-03-13 | Xacti Corp | Audio processing apparatus |
| JP2014168188A (en) * | 2013-02-28 | 2014-09-11 | Fujitsu Ltd | Microphone sensitivity correction device, method, program, and noise suppression device |
| CN104332161A (en) * | 2014-09-28 | 2015-02-04 | 武汉理工大学 | Underdetermined blind identification method based on receiving prior experience and single source point detection |
| CN111009257A (en) * | 2019-12-17 | 2020-04-14 | 北京小米智能科技有限公司 | Audio signal processing method and device, terminal and storage medium |
| CN111009257B (en) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | Audio signal processing method, device, terminal and storage medium |
| CN115580809A (en) * | 2022-10-14 | 2023-01-06 | 杭州研极微电子有限公司 | Sound positioning compensation method and device |
| WO2025036395A1 (en) * | 2023-08-16 | 2025-02-20 | 杭州微影软件有限公司 | Correction method and apparatus for microphone array, device and storage medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5240026B2 (en) | 2013-07-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2647221B1 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
| DK3253075T3 (en) | A HEARING EQUIPMENT INCLUDING A RADIO FORM FILTER UNIT CONTAINING AN EXCHANGE UNIT | |
| JP4897519B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
| JP5240026B2 (en) | Device for correcting sensitivity of microphone in microphone array, microphone array system including the device, and program | |
| US7809145B2 (en) | Ultra small microphone array | |
| CN107018470B (en) | A kind of voice recording method and system based on annular microphone array | |
| JP6363213B2 (en) | Apparatus, method, and computer program for signal processing for removing reverberation of some input audio signals | |
| EP2938098B1 (en) | Directional microphone device, audio signal processing method and program | |
| WO2015196729A1 (en) | Microphone array speech enhancement method and device | |
| WO2016074495A1 (en) | Signal processing method and device | |
| US8615392B1 (en) | Systems and methods for producing an acoustic field having a target spatial pattern | |
| JP2010232717A (en) | Received signal processing apparatus, method and program | |
| JP2017503388A5 (en) | ||
| CN104521245B (en) | Beam-forming device | |
| JP6724905B2 (en) | Signal processing device, signal processing method, and program | |
| JP4096104B2 (en) | Noise reduction system and noise reduction method | |
| US7991166B2 (en) | Microphone apparatus | |
| JP6567216B2 (en) | Signal processing device | |
| Mabande et al. | Towards superdirective beamforming with loudspeaker arrays | |
| JP2020120261A (en) | Sound pickup device, sound pickup program, and sound pickup method | |
| CN113782046A (en) | Method and system for microphone array pickup for long-distance speech recognition | |
| JP5105336B2 (en) | Sound source separation apparatus, program and method | |
| JP2022008732A (en) | Signal processing device and method, as well as program | |
| JP2006148453A (en) | SIGNAL ESTIMATION METHOD, SIGNAL ESTIMATION DEVICE, SIGNAL ESTIMATION PROGRAM, AND ITS RECORDING MEDIUM | |
| Chen et al. | A new approach for speaker tracking in reverberant environment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120221 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130220 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130305 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130318 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |