JP2008020872A - Voice recognition device for vehicle and navigation device for vehicle - Google Patents
Voice recognition device for vehicle and navigation device for vehicle Download PDFInfo
- Publication number
- JP2008020872A JP2008020872A JP2006254358A JP2006254358A JP2008020872A JP 2008020872 A JP2008020872 A JP 2008020872A JP 2006254358 A JP2006254358 A JP 2006254358A JP 2006254358 A JP2006254358 A JP 2006254358A JP 2008020872 A JP2008020872 A JP 2008020872A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- vehicle
- voice
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Navigation (AREA)
Abstract
Description
本発明は、車室内において車両の乗員が発した音声を集音マイクにより集音し、音声認識処理を行なう車両用音声認識装置、及び当該装置を備えてなる車両用ナビゲーション装置に関する。 The present invention relates to a voice recognition device for a vehicle that performs voice recognition processing by collecting voice generated by a vehicle occupant in a vehicle interior using a sound collecting microphone, and a vehicle navigation device including the device.
最近の車両用ナビゲーション装置は、音声認識処理機能が向上した結果、ドライバが発した音声によって操作が可能であるものが増えてきている。例えば、音声認識処理に関する従来技術としては、特許文献1〜5に開示されているものがある。
As a result of the improvement of the voice recognition processing function, recent vehicle navigation apparatuses are increasing in number that can be operated by voice emitted by a driver. For example, as a related art regarding the voice recognition processing, there are those disclosed in
しかし、車室内は、車両のエンジン音や、カーオーディオ装置がスピーカより出力する音など、多くのノイズが発生する環境であるため、音声の認識率を向上させるには更なる改良を行うことが好ましい。上記従来技術のうち、特許文献4,5に開示されているブラインドソースセパレーション(BSS)法は、雑音のみが発生している区間が存在せずとも、認識対象の音声信号とその他の雑音信号とを明確に認識することができる。
また、特許文献5には、BSS法を車室内の音声認識に適用することが示唆されているが、適用するに当たり、具体的にどのような構成に基づいてBSS法を実施するかについては、全く開示されていない。
本発明は上記事情に鑑みてなされたものであり、その目的は、車室内で行う音声認識処理の認識率を更に向上させることができる車両用音声認識装置,並びにその車両用音声認識装置備えて構成される車両用ナビゲーション装置を提供することにある。
In addition,
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a vehicle speech recognition device capable of further improving the recognition rate of speech recognition processing performed in the vehicle interior, and the vehicle speech recognition device. It is providing the vehicle navigation apparatus comprised.
請求項1記載の車両用音声認識装置によれば、集音マイクを、少なくとも、運転者音声,エンジン音,スピーカ出力音声を夫々収集する位置に設置し、これらの集音マイクにより入力された音声信号を、ブラインドソースセパレーション法によって運転者音声信号とその他の雑音信号とに分離し、分離した運転者音声信号について音声認識処理を行なう。即ち、車室内において運転者が発する音声以外の音源としては、エンジン音,カーオーディオが発する音声などが主であるから、少なくともそれらの音源が発する音声を集音するためのマイクを配置してBSS法を適用すれば、運転者が発した音声以外の雑音を効果的に分離することが可能となる。
According to the vehicle voice recognition apparatus of
請求項2記載の車両用音声認識装置によれば、ブラインドソースセパレーション法によって分離した信号yを、信号源sが前記集音マイクによって集音される場合の混合過程を非線形モデル化することで、y=hs+ks2のように設定する。そして、ks2+hs−y=0を、2次方程式の解の公式よりsについて解くと、
s=−h/(2k)±(h2/(4k2)+y/k)1/2
が得られる。このsを非線形関数Gとして、演算
z=G(y)=−α/2±(α2/4+y/β)1/2
(α=h/k,β=1/k)
を行なうことで、線形化処理した信号zを得る。即ち、信号源sが、例えばスピーカのように、周期性を有する音響信号を発するものである場合、混合過程は非線形的となる。従って、非線形関数Gを最適化するように係数α,βを決定すれば、非線形関数Gを用いて分離信号yを線形化することで、運転者音声信号とその他の各雑音信号とをより高精度に分離することが可能となる。
According to the vehicle voice recognition device of claim 2, the signal y separated by the blind source separation method is subjected to nonlinear modeling of a mixing process when the signal source s is collected by the sound collecting microphone. Set as y = hs + ks 2 . And when ks 2 + hs−y = 0 is solved for s from the quadratic equation solution formula,
s = −h / (2k) ± (h 2 / (4k 2 ) + y / k) 1/2
Is obtained. The s as a nonlinear function G, calculation z = G (y) = - α / 2 ± (α 2/4 + y / β) 1/2
(Α = h / k, β = 1 / k)
To obtain a linearized signal z. That is, when the signal source s emits an acoustic signal having periodicity such as a speaker, the mixing process is nonlinear. Therefore, if the coefficients α and β are determined so as to optimize the nonlinear function G, the separated signal y is linearized using the nonlinear function G, so that the driver voice signal and other noise signals are increased. It becomes possible to separate with accuracy.
請求項3記載の車両用音声認識装置によれば、複数の集音マイクを、ハンドル,ダッシュボード,助手席側スピーカの前方に夫々設置する。即ち、上記の配置は、運転者の音声、エンジン音,カーオーディオの音声を夫々集音するのに適切であり、車室内の主たる雑音を確実に捉えることができる。 According to the vehicle voice recognition apparatus of the third aspect, the plurality of sound collecting microphones are respectively installed in front of the steering wheel, the dashboard, and the front passenger side speaker. That is, the above arrangement is suitable for collecting the driver's voice, engine sound, and car audio sound, respectively, and can reliably capture main noise in the passenger compartment.
請求項4記載の車両用音声認識装置によれば、集音マイクを、後部座席の乗員音声を収集する位置にも設置する。即ち、後部座席が存在する車両で且つ当該座席に乗員が存在する場合は、その乗員が音声を発することも想定される。従って、後部座席の乗員音声も集音することで、運転者音声の分離をより良好に行うことができる。
請求項5記載の車両用ナビゲーション装置によれば、請求項4の場合に、集音マイクを助手席後方側に設置するので、後部座席の乗員音声を良好に集音することができる。
According to the vehicle voice recognition apparatus of the fourth aspect, the sound collecting microphone is also installed at a position where the passenger's voice of the rear seat is collected. That is, when the vehicle has a rear seat and an occupant is present in the seat, it is also assumed that the occupant emits sound. Therefore, the driver's voice can be separated more favorably by collecting the passenger's voice in the rear seat.
According to the vehicle navigation device of the fifth aspect, in the case of the fourth aspect, since the sound collecting microphone is installed on the rear side of the passenger seat, the passenger's voice in the rear seat can be collected well.
請求項6記載の車両用音声認識装置によれば、分離した雑音信号を、複数の集音マイクより入力される信号より減算する。即ち、BSS法により分離されて得られた運転者音声信号においても雑音信号は僅かに含まれているので、分離した雑音信号を入力側にフィードバックして集音マイクより入力される信号より減算すれば、入力される雑音信号のレベルを低減させることができ、よりクリアな運転者音声信号を得ることが可能となる。 According to the vehicle voice recognition apparatus of the sixth aspect, the separated noise signal is subtracted from the signals input from the plurality of sound collecting microphones. In other words, the driver's voice signal obtained by separation by the BSS method also contains a slight amount of noise signal. Therefore, the separated noise signal is fed back to the input side and subtracted from the signal input from the sound collecting microphone. Accordingly, the level of the input noise signal can be reduced, and a clearer driver voice signal can be obtained.
請求項7記載の車両用ナビゲーション装置によれば、請求項1乃至6の何れかに記載の車両用音声認識装置を備え、分離された運転者音声信号についての音声認識処理結果に基き、より確度が高い操作制御を行うことが可能となる。 According to the vehicle navigation device of the seventh aspect, the vehicle voice recognition device according to any one of the first to sixth aspects is provided, and more accurate based on the voice recognition processing result for the separated driver voice signal. It becomes possible to perform high operation control.
(第1実施例)
以下、本発明を車両用ナビゲーション装置に適用した場合の第1実施例について図1乃至図6を参照して説明する。図1は、車両用ナビゲーション装置の構成を概略的に示す機能ブロック図である。車両用ナビゲーション装置(車両用音声認識装置)1は、音声分離処理部2及び音声認識処理部3を内蔵して構成されている。音声分離処理部2は、車室内に配置される4本の集音マイク4〜7より入力される音声信号を、ドライバ(運転者)が発した音声信号とその他の雑音信号とに分離し、前者の音声信号を音声認識処理部3に出力する。すると、音声認識処理部3は、与えられた運転者音声信号について音声認識処理を行なう。
音声認識処理部3による音声認識結果はナビ操作制御回路9に出力され、ナビ操作制御回路9は、上記の音声認識結果に基づいてナビゲーション装置1の操作制御、例えば、目的地の設定などを行うようになっている。
(First embodiment)
Hereinafter, a first embodiment in which the present invention is applied to a vehicle navigation apparatus will be described with reference to FIGS. FIG. 1 is a functional block diagram schematically showing the configuration of the vehicle navigation device. A vehicle navigation device (vehicle speech recognition device) 1 includes a speech separation processing unit 2 and a speech recognition processing unit 3. The voice separation processing unit 2 separates a voice signal input from the four
A voice recognition result by the voice recognition processing unit 3 is output to the navigation
図2には、車室内における集音マイク4〜7の配置状態を示す。集音マイク4は、ドライバが発する音声を集音するためハンドル11部分に配置されており、集音マイク5は、車両のエンジン音を集音するため、前方のダッシュボード12上に配置されている。集音マイク6は、カーオーディオシステムによって出力される音声を集音するため、助手側13のドアスピーカ13の前に配置されており、集音マイク7は、後部座席の乗員が発する音声を集音するため、助手席14の後方側に配置されている。
そして、図1に示すように、集音マイク4〜7によって夫々集音される音声は、各レベルの比に差はあるが、ドライバの音声と、その他のノイズであるエンジン音,スピーカ音,後部座席乗員の音声とが混合されたものとなっている。
In FIG. 2, the arrangement | positioning state of the sound collection microphones 4-7 in a vehicle interior is shown. The sound collecting microphone 4 is disposed on the
As shown in FIG. 1, the sounds collected by the
次に、本実施例の作用について図3乃至図6も参照して説明する。図3は、ナビゲーション装置1による処理を、本発明の要旨に係る部分について示すフローチャートである。音声分離処理部2は、集音マイク4〜7により集音された音声信号の入力受付けを開始すると(ステップS1)、その入力が完了するまで待機する(ステップS2)。ここで、各集音マイク4〜7によって夫々集音される信号を、x1(i)〜x4(i)とする。変数i(=1〜n)は入力信号のサンプル数を示し、サンプル数がnに達すると入力完了となる(「YES」)。
Next, the operation of this embodiment will be described with reference to FIGS. FIG. 3 is a flowchart showing the processing by the
続くステップS3では、入力信号にドライバが発声した音声信号が含まれているかどうかを判断する。例えば、集音マイク4の入力レベルが、その他の集音マイク5〜7の入力レベルに比較してある程度高い場合は、入力信号にドライバが発声した音声が含まれていると判断することができる(「YES」)。すると、ステップS4に移行して、音声分離処理を行う。
In a succeeding step S3, it is determined whether or not the input signal includes an audio signal uttered by the driver. For example, when the input level of the
音声分離処理では、詳細は後述するが、各集音マイク4〜7に入力された信号からBSS(Blind Source Separation)法によりドライバが発声した音声信号とその他のノイズとを分離する。そして、分離した音声信号だけを音声認識処理部3に出力して、音声認識処理を実行させる(ステップS5)。音声認識を正常に行うことができた場合(ステップS6:「YES」)、ナビ操作制御回路9は、その認識結果に対応するナビゲーション装置1の操作制御を行う(ステップS7)。
In the audio separation process, the details will be described later, but the audio signal uttered by the driver and other noises are separated from the signals input to the
図4は、ステップS4における音声分離処理の内容を示すフローチャートである。また、図5は、BSS法による音声分離処理を概念的に説明するものである。複数の信号源S1〜Snより出力される音声信号(Si)を同数の集音マイクX1〜Xnで集音する場合、各集音マイクに入力される信号(Xi)は、音声信号(Si)と、音声信号の伝達環境に応じた混合係数Aijとの線形和(X=AS:ベクトル表示式)となる。そして、各集音マイクに入力される信号(Xi)から、各信号源S1〜Snに対応する音声信号(Si)を分離して得られる出力信号(Yi)も、入力信号(Xi)と分離係数Wijとの線形和(Y=WX)となる。 FIG. 4 is a flowchart showing the contents of the voice separation process in step S4. FIG. 5 conceptually illustrates voice separation processing by the BSS method. When sound signals (Si) output from a plurality of signal sources S1 to Sn are collected by the same number of sound collecting microphones X1 to Xn, the signals (Xi) input to the sound collecting microphones are sound signals (Si). And a linear sum (X = AS: vector expression) of the mixing coefficient Aij according to the transmission environment of the audio signal. The output signal (Yi) obtained by separating the audio signals (Si) corresponding to the signal sources S1 to Sn from the signal (Xi) input to each sound collecting microphone is also separated from the input signal (Xi). It becomes a linear sum (Y = WX) with the coefficient Wij.
上記2つの式を合わせればY=WASとなり、T=WAとすると、Y=TSとなる。この行列Tが図5に示すように単位行列となる場合に、各信号が完全に分離できたと言える。BSSでは、このように分離を行うため、自然勾配法を用いる。自然勾配法は、相互情報量を最小化するように学習するアルゴリズムであり、分離係数Wを得るための学習更新式は、
W(t+1)=W(t)+η[Λ(t)−f(Y(t))YT(t)]W(t)
・・・(1)
ここで、η:学習率,Λ(t):対角行列であり、
f(Y)=−dp(Y)/dY/p(Y),p(Y)は出力信号Yの確率密度関数
である。また、tは処理の時系列を示す変数である。そして、BSS法を用いれば、混合係数Aijが未知であっても、信号の分離を行なうことが可能となっている。
If the above two expressions are combined, Y = WAS, and if T = WA, Y = TS. When this matrix T becomes a unit matrix as shown in FIG. 5, it can be said that each signal was completely separated. In the BSS, a natural gradient method is used to perform the separation in this way. The natural gradient method is an algorithm that learns to minimize the mutual information amount, and the learning update formula for obtaining the separation coefficient W is:
W (t + 1) = W (t) + η [Λ (t) −f (Y (t)) Y T (t)] W (t)
... (1)
Where η: learning rate, Λ (t): diagonal matrix,
f (Y) = − dp (Y) / dY / p (Y), p (Y) is a probability density function of the output signal Y. T is a variable indicating a time series of processing. If the BSS method is used, the signal can be separated even if the mixing coefficient Aij is unknown.
図4において、音声分離処理部2は、先ず、変数iを「0」に初期化すると(ステップS11)、変数iをインクリメントする(ステップS12)。そして、変数iが全サンプル数を示す[n]に達するまでの間(ステップS13:「NO」)、以降の処理を繰り返し実行する。 In FIG. 4, the speech separation processing unit 2 first initializes a variable i to “0” (step S11), and increments the variable i (step S12). Until the variable i reaches [n] indicating the total number of samples (step S13: “NO”), the subsequent processing is repeatedly executed.
ステップS14において、音声分離処理部2は、入力信号x1(i)〜x4(i)より、前回の処理で分離されたノイズ成分N1(i−1)〜N3(i−1)の総和を減算し、x’1(i)〜x4’(i)を得る。この処理については、図6で説明している。即ち、BSS法により分離して得られた音声信号には、僅かではあるがノイズ成分も含まれている。そこで、分離したノイズ成分を入力側フィードバックして入力信号より減算したものについて音声分離処理を行うことで、出力信号におけるノイズレベルの更なる低減を図るようにしている。 In step S14, the speech separation processing unit 2 subtracts the sum of the noise components N1 (i-1) to N3 (i-1) separated in the previous process from the input signals x1 (i) to x4 (i). X'1 (i) to x4 '(i) are obtained. This process is described in FIG. That is, the audio signal obtained by separation by the BSS method contains a small amount of noise components. Therefore, the noise level in the output signal is further reduced by performing a sound separation process on the separated noise component fed back on the input side and subtracted from the input signal.
再び、図4を参照する。続くステップS15において、音声分離処理部2は、入力信号X’(i)に、前回の処理で得られている分離係数W(i)を乗じることで、分離出力信号Y(i)を得る。尚、アルファベットの大文字で表記したものは、行列を示すものとする。それから、上記(1)式を演算して、次回の処理に使用する分離係数W(i+1)を求めておく(ステップS16)。尚、ステップS16では、(1)式の変数tをiに置き換えて表記している。 Reference is again made to FIG. In subsequent step S15, the sound separation processing unit 2 obtains a separated output signal Y (i) by multiplying the input signal X '(i) by the separation coefficient W (i) obtained in the previous process. In addition, what was written with the capital letter of an alphabet shall show a matrix. Then, the above equation (1) is calculated to obtain the separation coefficient W (i + 1) used for the next processing (step S16). In step S16, the variable t in equation (1) is replaced with i.
以降のステップS17〜S20では、音声特定処理を行う。即ち、BSS法では、図5に示すように得られる分離出力信号は、何れの出力にドライバの音声信号が得られるかが特定できない。即ち、図1の構成では、4つの入力(集音マイク4〜7)に対応して、音源が分離された4つの出力が得られるが、その4つの何れがドライバ音声であるのかが分からない。そこで、特許文献4に開示されている技術を使用し、何れの分離出力信号がドライバの音声信号であるかを特定する。そのため、変数iを変数jに置き換え、その変数jが変数iの現在値となるまで、ステップS18において音声特定処理を実行する。
In subsequent steps S17 to S20, a voice specifying process is performed. In other words, in the BSS method, the separated output signal obtained as shown in FIG. 5 cannot be specified for which output the driver's audio signal is obtained. That is, in the configuration of FIG. 1, four outputs from which the sound source is separated are obtained corresponding to the four inputs (
上記音声特定処理について簡単に説明すると、分離された各出力信号について確率分布の尖度を計算して比較する。そして、尖度が最も大きくなっている信号がドライバの音声信号S(i)であり、その他の信号がノイズN1(i)〜N3(i)となる(ステップS21)。尚、ノイズN1(i)〜N3(i)については、上述したようにステップS14においてそれらの総和を減算するために使用するので、敢えて発生音源を特定する必要はない。音声信号の特定を行なうと、ステップS12に移行して変数iをインクリメントし、処理を続行する。
音声分離処理部2は、以上のようにしてドライバが発した音声信号S(i)を得ると音声認識処理部3に出力し、ステップS6における音声認識処理を実行させる。
The speech specifying process will be briefly described. The kurtosis of the probability distribution is calculated and compared for each separated output signal. The signal having the highest kurtosis is the driver's voice signal S (i), and the other signals are noises N1 (i) to N3 (i) (step S21). Since the noises N1 (i) to N3 (i) are used for subtracting the sum in step S14 as described above, it is not necessary to dare to specify the generated sound source. When the audio signal is specified, the process proceeds to step S12, the variable i is incremented, and the process is continued.
When the voice separation processing unit 2 obtains the voice signal S (i) issued by the driver as described above, the voice separation processing unit 2 outputs the voice signal S (i) to the voice recognition processing unit 3 to execute the voice recognition processing in step S6.
以上のように本実施例によれば、車室内において、集音マイク4〜7を、ドライバが発した音声,エンジン音,スピーカ出力音声,後部座席の乗員が発した音声を夫々収集するように、ハンドル11,ダッシュボード5,助手席側スピーカ14の前,助手席13後方側に設置した。そして、音声分離処理部2は、BSS法により、これらの集音マイク4〜7により入力された音声信号を、ドライバ音声信号Sとその他の雑音信号N1〜N3とに分離し、ナビゲーション装置1の音声認識処理部3は、分離されたドライバ音声信号について音声認識処理を行なうようにした。
即ち、車室内においてドライバが発する音声以外の音源としては、エンジン音,カーオーディオが発する音声,後部座席の乗員が発する音声などが主であるので、少なくともそれらの音源が発する音声を集音するように集音マイク4〜7を配置し、BSS法を適用すれば、ノイズを効果的に分離することが可能となる。
As described above, according to the present embodiment, in the vehicle interior, the
That is, as the sound source other than the sound emitted by the driver in the vehicle interior, mainly the engine sound, the sound emitted by the car audio, the sound emitted by the occupant of the rear seat, etc., so that at least the sound emitted by those sound sources is collected. If the
また、音声分離処理部2は、分離した雑音信号を、集音マイク4〜7より入力される信号より減算するので、集音マイク4〜7より入力される信号に含まれる雑音信号のレベルを低減させることができ、よりクリアな運転者音声信号を得ることが可能となる。そして、ナビゲーション装置1は、分離されたドライバ音声信号についての音声認識処理結果に基き、より確度が高い操作制御を行うことが可能となる。
Further, since the sound separation processing unit 2 subtracts the separated noise signal from the signal input from the
(第2実施例)
図7乃至図9は本発明の第2実施例を示すものであり、第1実施例と同一部分には同一符号を付して説明を省略し、以下異なる部分について説明する。第1実施例では、音声信号と雑音信号とが混合されてマイクに入力される過程(混合過程)が線形であることを前提としている。即ち、
xi=ai1・s1+ai2・s2+・・・ ・・・(2)
というモデルである(i=1〜4)。
(Second embodiment)
7 to 9 show a second embodiment of the present invention. The same parts as those of the first embodiment are denoted by the same reference numerals and the description thereof will be omitted. Hereinafter, different parts will be described. In the first embodiment, it is assumed that the process (mixing process) in which the audio signal and the noise signal are mixed and input to the microphone is linear. That is,
xi = ai1.s1 + ai2.s2 + (2)
(I = 1 to 4).
しかし、車室内のように、雑音となる音源がスピーカ等のように周期性を有する音響信号を発生する場合は、混合過程は非線形となることがあり、マイクに入力される信号には非線形成分も含まれることになる。即ち、
xi=ai1・s1+ai2・s2+ai12・s12+ai22・s22・・・
・・・(3)
というモデルとなる。実際には、3次以上の項は極めて値が小さく無視しても問題がないので、各信号源sが係数aにより混合された信号uに作用する非線形関数Fi(u)を、
Fi(ui)=ai・ui+bi・ui2 ・・・(4)
として想定する。尚、(4)式の係数aiは図7に示す混合係数ではなく、非線形関数Fi(ui)を記述するための係数である。
そこで、第2実施例では、第1実施例のようにBSS法を用いて分離した信号Yiに非線形関数Giを作用させることで信号Yiを線形化する処理を行い、信号Ziを得るようにする。
However, if the sound source that generates noise, such as a speaker, generates an acoustic signal with periodicity such as a speaker, the mixing process may be nonlinear, and the signal input to the microphone is nonlinear. Will also be included. That is,
xi = ai1 · s1 + ai2 · s2 + ai1 2 · s1 2 + ai2 2 · s2 2 ···
... (3)
Model. Actually, the third and higher terms are extremely small in value and can be ignored, so there is no problem. Therefore, the nonlinear function Fi (u) acting on the signal u mixed with the coefficient a by each signal source s is expressed as follows:
Fi (ui) = ai · ui + bi · ui 2 (4)
Assuming that Note that the coefficient ai in the equation (4) is not a mixing coefficient shown in FIG. 7, but a coefficient for describing the nonlinear function Fi (ui).
Therefore, in the second embodiment, the signal Yi is linearized by applying a nonlinear function Gi to the signal Yi separated by using the BSS method as in the first embodiment to obtain the signal Zi. .
図7は、混合過程が非線形的である場合に、線形化する処理までを含めてモデル化した図5相当図である。但し、非線形関数Giをより簡単化するため、信号源については、音声信号と、その他の雑音を1つにまとめたものとに2本化して、S1,S2としている(従って、信号S,関数G,信号Zに関するiは、i=1,2である)。例えば、Y1が第1実施例における音声信号Sであるとすると、Y2は、ノイズ1〜3を全て足し合わせたもの、即ち、
Y2=N1+N2+N3 ・・・(5)
となっている。
FIG. 7 is a diagram corresponding to FIG. 5 modeled including the linearization process when the mixing process is nonlinear. However, in order to further simplify the nonlinear function Gi, the signal source is divided into a speech signal and other noises that are combined into one, and S1 and S2 are obtained (therefore, the signal S, the function). I for G and signal Z is i = 1, 2). For example, if Y1 is the audio signal S in the first embodiment, Y2 is the sum of all noises 1-3, ie,
Y2 = N1 + N2 + N3 (5)
It has become.
また、図8は図3相当図であるが、ステップS4,S5の間に「線形化処理」のステップ8が挿入されることになる。
以下、ステップS8で行う線形化処理についてより詳細に説明する。また、各信号は全て小文字で表記する。混合過程において非線形関数Fi(ui)を経て得られる混合信号xiは、
xi=ci・s1+di・s2+ei・s12+fi・s1・s2+gi・s22
・・・(6)
となる。尚、c,d,e,f,gは、各項の係数である。
FIG. 8 is a diagram corresponding to FIG. 3, but step 8 of “linearization processing” is inserted between steps S4 and S5.
Hereinafter, the linearization process performed in step S8 will be described in more detail. Each signal is written in lower case. The mixed signal xi obtained through the nonlinear function Fi (ui) in the mixing process is
xi = ci · s1 + di · s2 + ei · s1 2 + fi · s1 · s2 + gi · s2 2
... (6)
It becomes. Note that c, d, e, f, and g are coefficients of each term.
ある2つの独立な信号(s1,s2)は、その高次項(s12,s22)を含んでいても独立であると、一般に言うことができる。従って、混合信号xiを独立した形に分離した信号yiは、
y1=h1・s1+k1・s12 ・・・(7)
y2=h2・s2+k2・s22 ・・・(8)
となる。但し、h,kは、任意の暫定的な係数である。ここで、例えば(7)式を導出する場合、(6)式よりs2,s1・s2,s22の3項を消去する必要があるが、集音マイクが4つあることから4つの連立方程式が立てられるため、それらに基づき不要な3項を消去することができる。
It can be generally said that two independent signals (s1, s2) are independent even if their higher-order terms (s1 2 , s2 2 ) are included. Therefore, the signal yi obtained by separating the mixed signal xi into an independent form is
y1 = h1 · s1 + k1 · s1 2 (7)
y2 = h2 · s2 + k2 · s2 2 (8)
It becomes. However, h and k are arbitrary provisional coefficients. Here, for example, when the equation (7) is derived, it is necessary to eliminate the three terms s2, s1, s2, and s2 2 from the equation (6), but since there are four sound collecting microphones, four simultaneous equations are required. Therefore, unnecessary three terms can be deleted based on them.
そして、siの2次方程式
ki・si2+hi・si−yi=0 ・・・(9)
より、解の公式から原信号siを求めると、
si=−hi/(2ki)±(hi2/(4ki2)+yi/ki)1/2
・・・(10)
が得られる。この(10)式を非線形関数Gi(yi)として、演算
zi=Gi(yi)=−αi/2±(αi2/4+yi/βi)1/2 ・・・(11)
(αi=hi/ki,βi=1/ki)
を行なうことで、線形化処理した信号ziが得られる。つまり、非線形関数Giは、非線形関数Fiの逆関数的な存在である。
And the quadratic equation of si ki · si 2 + hi · si−yi = 0 (9)
From the solution formula, the original signal si is
si = −hi / (2ki) ± (hi 2 / (4ki 2 ) + yi / ki) 1/2
... (10)
Is obtained. The (10) as a nonlinear function Gi (yi), and operation zi = Gi (yi) = - αi / 2 ± (αi 2/4 + yi / βi) 1/2 ··· (11)
(Αi = hi / ki, βi = 1 / ki)
By performing the above, a linearized signal zi is obtained. That is, the nonlinear function Gi is an inverse function of the nonlinear function Fi.
ここで、BSS法により分離された信号yiには、(7)〜(9)式に示すように1次項siと2次項si2とが含まれているが、周期性を有する音声信号等の場合、1次項の平均は「0」となり、2次項の平均はある値を持つ。従って、分離信号yiの平均値が「0」になれば2次項も「0」になるので、2次項を消去して1次項だけを取り出すことができる。そこで、最終出力信号ziの平均値を誤差関数Ei(t)とする。尚、tは演算の時系列を示す変数である。
尚、(13),(14)式におけるηは学習率(ステップ関数)であり、更新される度合いを設定するものである。学習率ηが小さい場合は学習(更新)に時間を要するが確実に最適値に到達することができる。一方、学習率ηが大きい場合は学習(更新)にはあまり時間はかからないが、最適値の近傍で発散してしまい、最適値に到達しないおそれがある。また、Mは1回の演算で使用するサンプル数であり、例えば500〜1000程度である。 In the equations (13) and (14), η is a learning rate (step function) and sets the degree of updating. When the learning rate η is small, learning (update) takes time, but the optimum value can be surely reached. On the other hand, when the learning rate η is large, learning (updating) does not take much time, but it diverges in the vicinity of the optimum value and may not reach the optimum value. M is the number of samples used in one calculation, and is about 500 to 1000, for example.
図9は、図8のステップS8における「線形化処理」の詳細を示すフローチャートである。即ち、出力信号zi(t)の平均である誤差関数Ei(t)を演算し(ステップS31)、その結果が最適値(=0)となるか否かを判定する(ステップS32)。最適値で無ければ(「NO」)(13),(14)式により係数α,βを更新し(ステップS33)、ステップS31に戻って誤差関数Ei(t)を再度演算する。 FIG. 9 is a flowchart showing details of the “linearization process” in step S8 of FIG. That is, an error function Ei (t) that is an average of the output signals zi (t) is calculated (step S31), and it is determined whether or not the result is an optimum value (= 0) (step S32). If it is not the optimum value (“NO”), the coefficients α and β are updated by the equations (13) and (14) (step S33), and the process returns to step S31 to calculate the error function Ei (t) again.
以上の処理を繰り返した結果、ステップS32においてEi(t)=0となると(「YES」)、その時点で係数α,βが確定し、非線形関数Gi(yi)が得られる(ステップS34)。そして、非線形関数Gi(yi)を演算することで、分離信号yiに2次項si2を含むことなく、1次項si(原信号)に、例えば所定の係数qを乗じた形式の出力信号zi,即ち、
zi=Gi(yi)=q・si ・・・(17)
を得ることができる(ステップS35)。
As a result of repeating the above processing, when Ei (t) = 0 in Step S32 (“YES”), the coefficients α and β are determined at that time, and the nonlinear function Gi (yi) is obtained (Step S34). Then, by calculating the nonlinear function Gi (yi), the output signal zi in the form in which the primary term si (original signal) is multiplied by, for example, a predetermined coefficient q without including the secondary term si 2 in the separated signal yi. That is,
zi = Gi (yi) = q · si (17)
Can be obtained (step S35).
以上のように第2実施例によれば、BSS法により分離した信号yを、信号源sが集音マイク4〜7によって集音される場合の混合過程を非線形モデル化することで、y=hs+ks2のように設定し、そのモデルに基づいて非線形関数Giを(10)式のように定め、学習により係数α,βを最適化して、分離信号yを線形化した信号ziを得るようにした。従って、運転者の音声信号とその他の各雑音信号とを、互いにより高精度に分離することが可能となる。
As described above, according to the second embodiment, the signal y separated by the BSS method is converted into a non-linear model by mixing the signal source s when the signal source s is collected by the
本発明は上記し又は図面に記載した実施例にのみ限定されるものではなく、以下のような変形が可能である。
ステップS14におけるノイズN1(i)〜N3(i)の減算処理は、必要に応じて行えば良い。その場合、x’1(i)〜x4’(i)をx1(i)〜x4(i)に置き換えれば良い。
集音マイク4〜7の配置は一例であり、ドライバ音声,エンジン音,スピーカ出力音声,後部座席乗員音声を夫々良好に収集することができれば、異なる車室の構造に応じて適宜変更して実施すれば良い。
The present invention is not limited to the embodiments described above or shown in the drawings, and the following modifications are possible.
The subtraction processing of the noises N1 (i) to N3 (i) in step S14 may be performed as necessary. In that case, x′1 (i) to x4 ′ (i) may be replaced with x1 (i) to x4 (i).
The arrangement of the
後部座席の乗員音声を収集するための集音マイク7は、必要に応じて配置すれば良い。例えば、後部座席に乗員が存在するケースが殆どない車両の場合は削除しても良い。また、2シータの車両の場合も不要である。
また、車室内に配置する集音マイクの数は、5つ以上であっても良い。
車両用ナビゲーション装置に適用するものに限らず、例えば、カーオーディオやカーエアコンなどのシステムに適用して、それらの操作制御を音声認識によって行うようにしても良い。
The
Further, the number of sound collecting microphones arranged in the vehicle compartment may be five or more.
For example, the present invention may be applied to a system such as a car audio system or a car air conditioner, and the operation control thereof may be performed by voice recognition.
図面中、1は車両用ナビゲーション装置(車両用音声認識装置)、2は音声分離処理部、3は音声認識処理部、4〜7は集音マイク、9はナビ操作制御回路を示す。 In the drawings, 1 is a vehicle navigation device (vehicle speech recognition device), 2 is a speech separation processing unit, 3 is a speech recognition processing unit, 4 to 7 are sound collecting microphones, and 9 is a navigation operation control circuit.
Claims (7)
前記集音マイクを、少なくとも、運転者音声,エンジン音,スピーカ出力音声を夫々収集する位置に設置し、これら複数の集音マイクにより入力された音声信号を、ブラインドソースセパレーション法によって運転者音声信号とその他の雑音信号とに分離し、前記運転者音声信号について音声認識処理を行なうことを特徴とする車両用音声認識装置。 In a vehicle voice recognition device that collects voice generated by a vehicle occupant in a passenger compartment with a microphone and performs voice recognition processing.
The sound collecting microphone is installed at a position for collecting at least the driver sound, engine sound, and speaker output sound, and the sound signal input by the plurality of sound collecting microphones is converted into the driver sound signal by the blind source separation method. And a noise signal, and a voice recognition process is performed on the driver voice signal.
y=hs+ks2 (h,kは任意の暫定係数)
上式を解いて得られるsを、非線形関数Gとして用いた演算
z=G(y)=−α/2±(α2/4+y/β)1/2
(α=h/k,β=1/k)
を行なうことで、線形化処理した信号zを得ることを特徴とする請求項1記載の車両用音声認識装置。 The signal y separated by the blind source separation method is set as shown in the following equation by nonlinear modeling the mixing process when the signal source s is collected by the sound collecting microphone,
y = hs + ks 2 (h and k are arbitrary provisional coefficients)
The s obtained by solving the above equation, calculation z = G was used as the nonlinear function G (y) = - α / 2 ± (α 2/4 + y / β) 1/2
(Α = h / k, β = 1 / k)
The vehicle speech recognition apparatus according to claim 1, wherein a linearized signal z is obtained by performing the step.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006254358A JP2008020872A (en) | 2006-06-14 | 2006-09-20 | Voice recognition device for vehicle and navigation device for vehicle |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006164675 | 2006-06-14 | ||
| JP2006254358A JP2008020872A (en) | 2006-06-14 | 2006-09-20 | Voice recognition device for vehicle and navigation device for vehicle |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008020872A true JP2008020872A (en) | 2008-01-31 |
Family
ID=39076813
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006254358A Pending JP2008020872A (en) | 2006-06-14 | 2006-09-20 | Voice recognition device for vehicle and navigation device for vehicle |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2008020872A (en) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010054954A (en) * | 2008-08-29 | 2010-03-11 | Toyota Motor Corp | Voice emphasizing device and voice emphasizing method |
| WO2011059727A1 (en) * | 2009-10-29 | 2011-05-19 | Tk Holdings Inc. | Steering wheel system with audio input |
| WO2015040886A1 (en) * | 2013-09-17 | 2015-03-26 | 日本電気株式会社 | Voice-processing system, vehicle, voice-processing unit, steering-wheel unit, voice-processing method, and voice-processing program |
| JP2017016414A (en) * | 2015-07-01 | 2017-01-19 | 株式会社リコー | Learning method, program, and learning apparatus |
| JP2017090789A (en) * | 2015-11-13 | 2017-05-25 | 日本電信電話株式会社 | Voice recognition device, voice recognition method, and voice recognition program |
| US9870770B2 (en) | 2014-11-10 | 2018-01-16 | Hyundai Motor Company | Voice recognition device and method in vehicle |
| KR101851637B1 (en) * | 2016-10-12 | 2018-04-25 | 금오공과대학교 산학협력단 | Driver sound separation system based on active beacon for autonomous vehicle, and method thereof |
| WO2019012646A1 (en) * | 2017-07-13 | 2019-01-17 | ヤマハ株式会社 | Sound collection device, moving body, and sound collection method |
| CN109443393A (en) * | 2018-12-11 | 2019-03-08 | 中国人民解放军火箭军工程大学 | A kind of inertial navigation method for extracting signal and system based on blind separation algorithm |
| JP2019045818A (en) * | 2017-09-07 | 2019-03-22 | ヤフー株式会社 | Voice extraction device, voice extraction method and voice extraction program |
| CN111344778A (en) * | 2017-11-23 | 2020-06-26 | 哈曼国际工业有限公司 | Method and system for speech enhancement |
| CN115440190A (en) * | 2021-06-04 | 2022-12-06 | 上海博泰悦臻网络技术服务有限公司 | Voice broadcasting method, system, storage medium and equipment based on sound repeated carving |
| CN119107947A (en) * | 2024-08-30 | 2024-12-10 | 岚图汽车科技有限公司 | In-vehicle voice interaction method, device, equipment and storage medium |
-
2006
- 2006-09-20 JP JP2006254358A patent/JP2008020872A/en active Pending
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010054954A (en) * | 2008-08-29 | 2010-03-11 | Toyota Motor Corp | Voice emphasizing device and voice emphasizing method |
| WO2011059727A1 (en) * | 2009-10-29 | 2011-05-19 | Tk Holdings Inc. | Steering wheel system with audio input |
| US8424904B2 (en) | 2009-10-29 | 2013-04-23 | Tk Holdings Inc. | Steering wheel system with audio input |
| DE112010004222B4 (en) | 2009-10-29 | 2022-05-05 | Joyson Safety Systems Acquisition Llc | Steering wheel system with audio input, steering wheel for a vehicle and audio input system for a vehicle steering wheel |
| JPWO2015040886A1 (en) * | 2013-09-17 | 2017-03-02 | 日本電気株式会社 | Audio processing system, vehicle, audio processing unit, steering wheel unit, audio processing method, and audio processing program |
| US10026414B2 (en) | 2013-09-17 | 2018-07-17 | Nec Corporation | Speech processing system, vehicle, speech processing unit, steering wheel unit, speech processing method, and speech processing program |
| WO2015040886A1 (en) * | 2013-09-17 | 2015-03-26 | 日本電気株式会社 | Voice-processing system, vehicle, voice-processing unit, steering-wheel unit, voice-processing method, and voice-processing program |
| US9870770B2 (en) | 2014-11-10 | 2018-01-16 | Hyundai Motor Company | Voice recognition device and method in vehicle |
| JP2017016414A (en) * | 2015-07-01 | 2017-01-19 | 株式会社リコー | Learning method, program, and learning apparatus |
| JP2017090789A (en) * | 2015-11-13 | 2017-05-25 | 日本電信電話株式会社 | Voice recognition device, voice recognition method, and voice recognition program |
| KR101851637B1 (en) * | 2016-10-12 | 2018-04-25 | 금오공과대학교 산학협력단 | Driver sound separation system based on active beacon for autonomous vehicle, and method thereof |
| US11217263B2 (en) | 2017-07-13 | 2022-01-04 | Yamaha Corporation | Sound collection device, moving body, and sound collection method |
| WO2019012646A1 (en) * | 2017-07-13 | 2019-01-17 | ヤマハ株式会社 | Sound collection device, moving body, and sound collection method |
| JP2019045818A (en) * | 2017-09-07 | 2019-03-22 | ヤフー株式会社 | Voice extraction device, voice extraction method and voice extraction program |
| CN111344778A (en) * | 2017-11-23 | 2020-06-26 | 哈曼国际工业有限公司 | Method and system for speech enhancement |
| US11557306B2 (en) * | 2017-11-23 | 2023-01-17 | Harman International Industries, Incorporated | Method and system for speech enhancement |
| CN111344778B (en) * | 2017-11-23 | 2024-05-28 | 哈曼国际工业有限公司 | Method and system for speech enhancement |
| CN109443393A (en) * | 2018-12-11 | 2019-03-08 | 中国人民解放军火箭军工程大学 | A kind of inertial navigation method for extracting signal and system based on blind separation algorithm |
| CN115440190A (en) * | 2021-06-04 | 2022-12-06 | 上海博泰悦臻网络技术服务有限公司 | Voice broadcasting method, system, storage medium and equipment based on sound repeated carving |
| CN119107947A (en) * | 2024-08-30 | 2024-12-10 | 岚图汽车科技有限公司 | In-vehicle voice interaction method, device, equipment and storage medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2008020872A (en) | Voice recognition device for vehicle and navigation device for vehicle | |
| JP4333369B2 (en) | Noise removing device, voice recognition device, and car navigation device | |
| JP4289394B2 (en) | Active noise reduction device | |
| EP3598431B1 (en) | Active noise control system and on-vehicle audio system | |
| JP6318376B2 (en) | Sound source separation device and sound source separation method | |
| US20020042712A1 (en) | Voice recognition system | |
| JP2006163231A (en) | Device, program, and method for noise elimination | |
| JP4496186B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
| EP3675120B1 (en) | Active noise control system, setting method of active noise control system, automobile, and audio system | |
| JP2017090612A (en) | Speech recognition control system | |
| JP6453681B2 (en) | Arithmetic apparatus, arithmetic method and program | |
| JP7692069B2 (en) | Signal processing device and signal processing method | |
| CN114730565A (en) | Acoustic crosstalk suppression device and acoustic crosstalk suppression method | |
| EP3951770B1 (en) | Active noise control system | |
| JP4187615B2 (en) | Output sound correction device | |
| JP2020134566A (en) | Voice processing system, voice processing device and voice processing method | |
| JP2007219262A (en) | Active vibration noise control device | |
| EP4057275A1 (en) | Active noise control system | |
| JP4110783B2 (en) | Noise control device | |
| KR20180102914A (en) | Infotainment system with noise canceling using neural network learning algorithm and control method thereof | |
| JP2009103904A (en) | Speech separation method and device | |
| JP4924652B2 (en) | Voice recognition device and car navigation device | |
| EP4236284A1 (en) | Communication support system | |
| JP4255888B2 (en) | Signal separation method and apparatus, signal separation program, and recording medium recording the program | |
| KR20250056525A (en) | Method And Apparatus for Providing Voice Recognition Service |