JP2001356791A

JP2001356791A - 変換行列を用いた自動音声認識の雑音適応化方法

Info

Publication number: JP2001356791A
Application number: JP2001119722A
Authority: JP
Inventors: Christophe Cerisara; スリザラクリストフ; Luca Rigazio; リガツィオルカ; Booman Robert; ボーマンロバート; Jean-Claude Junqua; ジュンカジャン−クロード
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-04-18
Filing date: 2001-04-18
Publication date: 2001-12-26
Anticipated expiration: 2021-04-18
Also published as: DE60100637T2; US6529872B1; US6691091B1; JP3848845B2; EP1148471B1; DE60100637D1; EP1148471A1

Abstract

(57)【要約】【課題】雑音の影響を過小評価せず、認識精度の高い
自動音声認識の雑音適応化技術を提供する。【解決手段】改良型雑音適応化技術は初期雑音条件Ａ
に対応するヤコビ行列の集合に対して線形変換または非
線形変換を適用する（３０）。α適応化パラメータまた
は人工知能演算を線形または非線形に利用して音声モデ
ルに付加する適応化バイアスを増加させる。これによ
り、雑音の影響を過小評価しがちな従来のヤコビ適応化
の短所を補正する。計算の負担を軽減する主成分分析Ｐ
ＣＡによって次元を圧縮すること（３６）により改良型
適応化技術の性能をさらに向上させ、適応化技術を組込
み型認識システムにも有益に利用できるようにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は主として自動音声認
識システムに関する。特に、本発明は雑音がある場合に
認識器を適応化してその性能を向上させる技術に関す
る。

【０００２】

【従来の技術】現在の自動音声認識システムは研究室条
件下では適度に良好に機能するが、実世界のアプリケー
ションで使用されるときは急激に性能を低下させる。実
世界アプリケーションにおける認識器の性能に影響を及
ぼしている大きな要因の一つは音声信号を汚染する環境
雑音の存在である。この雑音問題に対処するために、ス
ペクトルサブトラクションや並列モデル結合など多数の
方法が開発されている。しかしながら、これらの解決策
は制限がありすぎるか計算コストが高すぎるかどちらか
である。

【０００３】近年、雑音が雑音Ａから雑音Ｂに変わる場
合に、付加雑音に対処するために、ヤコビ適応化方法が
提案されている。例えば、ヤマグチの米国特許６，０２
６，３５９号には、モデルのパラメータを表現するテイ
ラー展開のヤコビ行列を格納し、その格納したヤコビ行
列に基づいてパターン認識におけるモデル適応化を行う
方式が記載されている。

【０００４】

【発明が解決しようとする課題】しかしながら、上記の
方法がうまく機能するためには、雑音Ａと雑音Ｂが特性
とレベルに関して互いに近いことが必要である。例え
ば、ヤコビ適応化技術は、雑音Ａが時速３０マイルで平
坦な道路を走行する車両の客室内で測定され、雑音Ｂ
が、例えば、時速４５マイルで走行する同じ道路上の同
じ車両内で測定された雑音であるような同じ特性を有す
る場合に、うまく機能すると思われる。

【０００５】雑音ＡとＢが互いにもっと遠い場合、例え
ば、雑音Ａが時速３０マイルの上記車両内で測定され、
雑音Ｂが窓を下ろした状態の上記車両や時速６０マイル
の上記車両内で測定される場合には、上記公知のヤコビ
適応化技術は機能しなくなり始める。

【０００６】このヤコビ雑音適応化方法は、試験時（シ
ステムが使用中のとき）に存在するような雑音を学習時
に期待することは難しい場合が多いので、実際の多くの
アプリケーションではその有用性に限界がある。また、
ヤコビ雑音適応化技術はその必要とされる計算コスト
（処理時間および／または必要記憶容量）の高さのため
に非実用的であるので、多数のアプリケーションにおい
てヤコビ適応化技術を改良することには限界がある。

【０００７】

【課題を解決するための手段】本発明は上記の欠点に対
処するものであり、ヤコビ行列を使用する代わりに、ヤ
コビ行列の形に似ているが異なる値を含む変換行列を使
用する。この変換行列は、学習時と認識時のそれぞれの
雑音が遥かに遠い場合を補償する。本発明の方法の好ま
しい実施形態では、α適応化パラメータを用いてヤコビ
行列の線形変換または非線形変換を行うことにより変換
行列を生成する。あるいは、その変換処理を、ニューラ
ルネットワークや他の人工知能機構を使用するなど、他
の線形または非線形変換手段により行うことも可能であ
る。計算速度を上げるために、結果得られる変換行列を
主成分分析などの次元圧縮技術を用いて圧縮してもよ
い。

【０００８】本発明とその目的および長所をより深く理
解するために、以下の詳細説明と添付の図面が参照され
る。

【０００９】

【発明の実施の形態】図１は本発明が解決しようとする
課題を示す。図に符号１０で示すように、例えば、自動
音声認識システムが走行中の車両の客室内などの騒音環
境内で動作しなければならないと仮定する。客室内で測
定される雑音レベルは、一般に、車両の速度が上昇する
と、雑音Ａから雑音Ａ’に上昇する。雑音レベルがＡか
らＡ’に上昇しても、雑音の特性と品質はほぼ同じまま
である。例えば、走行中の車両内では、通常、雑音スペ
クトルは車両速度が上昇するにつれて予測可能に変化す
る。風騒音の場合、振幅は上昇するが、その非常にラン
ダムな白色雑音特性とピンク雑音特性を保持する。路面
雑音（路面上を転動するタイヤの音）の周波数は速度の
上昇に比例して増大する。

【００１０】残念ながら、実世界アプリケーションの多
くは、周囲雑音の品質を図１の符号１０の状態が示すよ
うには容易に予測できない。例えば、携帯セルラー電話
の場合、符号１０で示す範囲の雑音下にある走行車両内
で使用される場合もあれば、全く異なる様々な交通音に
あふれている街角で使用される場合もあり、また全く異
なる雑音品質を有する商店街で使用される場合もある。
このような様々な雑音品質の幅広いダイバーシティを図
１に符号１２で示す。この図では、３種類の異なる雑音
パターンをそれぞれ雑音Ａ、雑音Ｂ、雑音Ｃで図示して
いる。雑音品質が予測不可能であることは、これら様々
な雑音環境内で機能しなければならない自動音声認識シ
ステムにとってこれまで大いにやりがいをもたらすもの
であった。

【００１１】図２は音声認識アプリケーションにおける
本発明の一実施形態を示す。この音声認識アプリケーシ
ョンでは、モデル準拠の認識器を採用する。モデルは学
習時に開発され、後に認識時に使用される。図２では、
通常、システムの学習段階を符号２０で示し、認識段階
を符号４０で示す。符号２２に示すように、入力音声は
雑音条件Ａ下の学習段階時に提供される。この入力音声
を利用して、ステップ２４に示すように音声モデルに学
習させ、例えば、符号２６で図示するような音声モデル
を得る。典型的な入力音声信号では、例えば音声の開始
前または音声の終了後など、音声が存在しない時間があ
る。このような無音声部分を利用して雑音条件Ａに関連
する基準雑音Ｎａを示すデータを記録してもよい。図２
では、この基準雑音Ｎａをブロック２８で格納する。必
要ならば、音声モデル２６の構築のために使用される場
合と同じ学習処理を用いて雑音をモデル化（背景モデル
化）してもよい。

【００１２】音声モデルに学習させた後、ステップ３０
で変換行列の集合を算出し、ステップ３２で格納する。
これらの行列を認識時に使用して音声モデルを適応化
し、認識時に存在する雑音条件下でより優れた性能を発
揮させるようにする。基本的なヤコビ適応化処理は、認
識時の雑音の品質が学習時とほぼ同じであることを想定
している。そうでない場合には、古典的なヤコビ適応化
法は全く最適ではない結果を生じることがある。

【００１３】改良型適応化技術は初期雑音条件Ｎａに関
して生成された変換行列の集合を使用することを基本に
している。変換行列は初期雑音条件Ｎａに関して生成さ
れたヤコビ行列の集合に線形変換または非線形変換を適
用することによって計算される。本好ましい実施形態で
は、次の節で開示するようなα適応化因子を適用するこ
とによって変換（線形も非線形も）を実行する。α適応
化因子が現時点で好ましいが、ニューラルネットワーク
や他の人工知能構成要素を利用して変換を行ってもよ
い。

【００１４】行列の操作は非常に計算コストの高い処理
になりうる。無視できないコスト要因は全ての行列を格
納するのに必要な記憶領域である。代表的な実施形態で
は、辞典の各項目用の音声モデルが複数の隠れマルコフ
モデル状態を使用し、その各状態に関連して複数のガウ
ス密度が使用される。すなわち、各状態の各ガウス密度
に対して一つの行列が存在することになる。その結果、
数百の行列を格納する必要が生じることになる。

【００１５】好ましい実施形態では、行列分解ステップ
３６を実行して計算量を軽減したヤコビ行列集合３８を
生成する。以下により詳しく説明するように、この好ま
しい分解技術は、主成分分析（ＰＣＡ）を利用して計算
量を軽減した変換行列を作成する。

【００１６】認識時には、ステップ４２でユーザから入
力音声が提供される。入力音声は、符号４４で示すよう
に、雑音条件Ｂ（目的雑音Ｎｂとも称する）に関連して
いる。上述したように、雑音条件Ｂが学習時に使用され
る雑音条件Ａと品質的に異なっていれば、従来のヤコビ
適応化技術は最適な結果を全く生じないかもしれない。
しかしながら、発明者らは、（ヤコビ行列が学習時に定
義された場合に実行される）α適応化処理が雑音悪条件
下での認識性能を大きく向上させることがわかった。発
明者らの試験結果を以下の実施例で示す。

【００１７】図２に符号４４で示す目的雑音Ｎｂは入力
音声４２から抽出された後、符号４６で示すように基準
雑音Ｎａとの差を算出するために使用される。その後、
符号４８で示すように、上記雑音差と学習時に作成され
た圧縮済変換行列とを利用して新しい適応音声モデルを
算出する。その結果得られた適応音声モデル５０をステ
ップ５２で利用して入力音声４２に対して音声認識を実
行し、認識出力５４を生じる。

【００１８】α適応化上記変換行列の作用をより詳しく理解するためには、従
来のヤコビ適応化を理解することが有利である。従来の
ヤコビ適応化は並列モデル結合（ＰＭＣ）として知られ
る別の形の適応化に関連している。従来、ヤコビ適応化
は、ＰＭＣが必要とする計算の負担を軽減するために、
ＰＭＣの近似法として使用されている。ＰＭＣは、音声
モデルの密度ごとに平均ベクトルをスペクトル領域に変
換しなければならないので、計算コストが非常に高い。
その後、目的雑音に平均ベクトルを付加した後、結果得
られたベクトルをケプストラム領域に逆変換しなければ
ならない。通常、このように１回の行列乗算と２回の非
線形関数を利用する二重変換は組込み型システムにとっ
て非常に時間を消費することになる。

【００１９】従来、ヤコビ適応化はケプストラム領域で
のＰＭＣの近似法として利用されている。比較のため、
以下に示す式１はＰＭＣ演算を記述しており、大文字の
Ｆは離散コサイン変換（ＤＣＴ）の行列を示す。式２は
より計算コストの高いＰＭＣ演算の近似法として利用さ
れる従来のヤコビ適応化演算を示す。

【００２０】

【式１】

【００２１】

【式２】

【００２２】ヤコビ適応化近似法が有する問題は、（シ
ステム利用時に被る）目的雑音の品質が（システム学習
時に存在する）基準雑音と類似している場合のみに成立
するという点である。この問題の本質を、雑音増加時の
対数スペクトル領域における有雑音音声のパラメータ評
価を図示した図３で示す。すなわち、この図は対数スペ
クトル領域におけるＰＭＣ適応化と従来のヤコビ適応化
の比較を示している。図３において、左側の陰影領域は
音声信号の出力が雑音よりも遥かに大きい状態に相当
し、右側の陰影領域は雑音の出力が音声信号の出力より
も大きい状態に相当する。学習時の環境と試験時の環境
がこれら２つの領域に関して同じであれば、ヤコビ適応
化とＰＭＣ適応化は同様に機能する。しかしながら、こ
れら２つの環境の一方が中間領域にある場合や他方の環
境と別の領域に存在する場合には、ヤコビ適応化はＰＭ
Ｃ適応化と異なるものとなり、実際には常にモデルの適
応化を過小評価することになる。

【００２３】発明者らは従来のヤコビ適応化がヤコビ行
列の線形または非線形変換により大幅に改良できること
を見出した。線形または非線形変換を行うため、好まし
い実施形態では、以下「α適応化パラメータ」と称する
パラメータを採用する。以下の式３は非線形変換を実行
するためのα適応化パラメータの好ましい使用例を示
す。式４は線形変換を実行するためのα適応化パラメー
タの別の使用例を示す。上述したように、上記の変換を
実行するために現時点ではα適応化パラメータを利用す
ることが好ましいが、他の変換技術も利用可能である。
例えば、ニューラルネットワークや他の人工知能構成要
素を利用し、初期雑音条件に関するヤコビ行列を変換し
てもよい。さらに別の変換技術として、入力音声に対し
て第１のα適応化パラメータまたは因子を適用し、雑音
に対して第２のα適応化パラメータまたは因子を適用す
る方法がある。それ以外の変形例も利用可能である。

【００２４】

【式３】

【００２５】

【式４】

【００２６】式３に示すように、α適応化パラメータは
次のように機能する。基準雑音がゼロに近く、αの値が
大きすぎない場合には、（ｘ座標ＮとαＮでそれぞれ算
出された）両接線が水平である。基準雑音が非常に大き
い場合には、両接線が直線ｙ＝ｘに相当する。基準雑音
が図３の中央領域に属する場合には、接線の新しい傾斜
が従来のヤコビ適応化曲線によって生じる傾斜よりも大
きくなることになる。

【００２７】式３においてα適応化パラメータを利用す
ることにより、行列の非線形変換が得られる。分子と分
母の両方をパラメータで乗算することにより、非線形変
換効果が発生する。式４では、α適応化パラメータを分
子／分母の商に対して乗算するので、線形変換効果が発
生する。

【００２８】どちらの場合でも、α適応化パラメータの
主要な効果は音声モデルに付加される適応化バイアスを
増大させることである。このことは、雑音の影響を過小
評価する従来のヤコビ適応化の欠点を補正するので、有
利である。本明細書の後の節では、α適応化パラメータ
を用いて実行可能な改良例である実験結果を示す。

【００２９】α適応化パラメータの選択理論的には、α適応化パラメータの最適値は環境に依存
している。すなわち、αの値は目的雑音と基準雑音との
間の不一致が大きいほどより大きい必要がある。しかし
ながら、発明者らはα適応化パラメータが理論的に予想
される値よりもはるかに安定していることを見出した。
α適応化を従来のヤコビ適応化の代わりに利用して変換
行列を生成すると、音声認識精度のばらつきは、α値が
小さい場合には小さく、α値が中間値の場合には増加
し、αが一定の値を超えて上昇すると再び小さくなる。
この現象は図３の曲線形状に拠るものである。すなわ
ち、αの値に関わらず、接線の傾斜は０と１の間でのみ
変動する。

【００３０】この点を明らかにするために、発明者らは
不利な環境の中で数字認識の実験セットを行った。１か
ら９までの数と“ｏ”および“ゼロ”のモデルと無声の
モデルからなる１２個の文脈独立数字モデルを作成し
た。無声は５つの状態を持つ隠れマルコフモデル（ＨＭ
Ｍ）によってモデル化された。残りのモデルでは１５個
の状態を使用した。全ての隠れマルコフモデルの各状態
において４つのガウス密度を使用した。上記の学習用セ
ットを使用し、８０個のスピーカーから発声された３８
０３個の数字シーケンスからなるモデルを学習させた。
学習用セットを雑音のない研究室条件下で記録した。図
４および図５はαが１から４までの値域内で変動する場
合の精度のばらつきを示す。以下の６種類の異なる音響
環境に基づいてデータを作成した。

【００３１】１．クリーンな条件で記録された妥当性検
証コーパス。

【００３２】２．ＳＮ比１０ｄＢの車両騒音を加えた場
合の妥当性検証コーパス。

【００３３】３．ＳＮ比０ｄＢの車両騒音を加えた場合
の妥当性検証コーパス。

【００３４】４．ＳＮ比１５ｄＢの白色雑音を加えた場
合の妥当性検証コーパス。

【００３５】５．時速３０マイルの車両内で記録された
試験コーパス。

【００３６】６．時速６０マイルの車両内で記録された
別の試験コーパス。

【００３７】図４および図５から、音響環境がどうであ
ろうと、αの様々な値に対する精度のばらつきがα＝
２．４からα＝３．６までの値域内では非常に小さいこ
とがわかる。このことは、αが本発明の実施形態で適切
に使用可能な安定した値域を有していることを実証して
いる。約２．４ないし３．６の間のα適応化パラメータ
が推奨されるが、これが単に安定した値域のひとつの可
能性を例示しているに過ぎないことは理解できるであろ
う。一般に、他のα値を使用して有益な結果を得ること
もできる。別の言い方をすれば、αの真の“最適”値と
充分考慮された値域（例えば、２．４〜３．６）内で選
択されるそれ以外の値との間の精度の低下は非常に小さ
い。発明者らのデータは“最適”値からの精度の低下が
３％未満であることを示している。したがって、本改良
型ヤコビ適応化法は非常にロバストな方法である。

【００３８】計算コストを削減する次元圧縮技術上述し
たように、ヤコビ適応化はＰＭＣよりも計算コストが低
くて済むが、それでもまだ認識システム、特に組込み型
システムに対してかなり厄介な負担を掛けている。

【００３９】発明者らは各変換行列が以下の式５により
表現可能であることに気付いた。

【００４０】

【式５】但し、

【式６】は次元数NFilt×NFiltの対角行列である（NFiltはスペ
クトルフィルタバンク内で使用されるフィルタの数を示
す）。

【００４１】したがって、各変換行列は、実際にはヤコ
ビ行列が属する空間の基底であるNFilt個の標準行列の
重み付き和の形で表現可能である。これら標準行列は次
のように定義される。すなわち、

【式７】但し、diag(i)は位置ｉで１である以外は全て０であるN
Filt×NFilt対角行列を指す。

【００４２】したがって、各変換行列は次のように表現
することができる。

【式８】

【００４３】したがって、Nd（全ての音声モデルの総密
度数）個の行列を格納する代わりに、NFilt個の標準行
列とNd×NFilt個の係数γｉを格納すれば済む。これに
より、必要記憶容量を大幅に低減させることができる。

【００４４】しかしながら、この解法はアルゴリズムの
時間複雑性を増加させるのでさらに改良の余地がある。
実際、全ての変換行列を格納する場合、式２が全密度に
対して直接適用され、それにはＮｄ個の行列乗算が必要
になる。

【００４５】第２の解法を選択する場合、式２の右側部
分が次のようになる。

【式９】

【００４６】この等式では、計算コストはNFilt個の行
列加算とNFilt個の行列スカラ倍であり、それを各密度
ごとに繰り返す必要がある。したがって、総計算コスト
は2・Nd・NFilt個の行列演算になる。

【００４７】余計な計算時間を使用したくないならば、
標準行列の数を減らす必要がある。

【００４８】空間の次元を圧縮する好適な技術はその空
間に属する要素の集合に主成分分析を実行することであ
る。そこで、まず全てのベクトル

【式１０】を算出し、このベクトル集合に対して特異値分解を実行
した。その結果得られた標準ベクトルを利用してNFilt
個の標準ヤコビ行列

【式１１】を算出し、各固有値の降順でソートした。

【００４９】上述したように、主成分分析を利用するこ
とにより、計算の負担軽減をかなり向上させることがで
きる。実験の結果、有効標準行列数を５つまで削減可能
であることが分かった。さらに削減することも可能であ
る。行列数を削減することにより、適応化の実行に必要
な記憶領域だけでなく計算時間も低減させることができ
る。次元圧縮（主成分分析）により実現される改良をよ
り詳しく理解するために、表１において、変換行列適応
化処理を主成分分析を採用した場合と採用しなかった場
合とで比較する。

【００５０】

【表１】

【００５１】上記表１において、第１欄は標準行列数で
ある次元数を示す。その次の欄は使用されるα適応化値
を示す。残りの欄は、認識精度の百分率と次の３つの環
境条件、すなわち、クリーンな状態（無雑音）、時速３
０マイルの走行車両および時速６０マイルの走行車両に
関して必要な計算時間（データベース全体にわたる適応
化のμ秒単位の累積時間）である。

【００５２】実験結果上述の雑音適応化技術を様々な条件下で試験した。その
試験結果をこの節で開示する。適応化システムを試験す
るために、カーナビゲーションシステム用の音声認識器
を使用した。勿論、本文に記載の適応化技術はカーナビ
ゲーションやその他の認識タスクに限定されるものでは
ない。走行車両内の雑音条件は様々な車両速度でまった
く広範囲に変化するので、本発明の試験に対してカーナ
ビゲーションを選択した。すなわち、車両環境内での適
応化システムの試験を該適応化システムの能力を測る好
適な尺度として選択した。

【００５３】これらの実験の準備は既に記載した場合と
同様である。３つの試験用セットは、（１）（学習用セ
ットと異なる）２０個のスピーカーによって発声され学
習用セットと同じ条件で記録される４６２個の数字シー
ケンスから構成される妥当性検証セットと、（２）別の
スピーカーによって発声され時速３０マイルの車両内で
記録される９４７個の数字シーケンスから構成される妥
当性検証セットと、（３）（２）と同じスピーカーから
発声されるが時速６０マイルの車両内で記録される５つ
の数字からなり４７５個のシーケンスから構成される妥
当性検証セットを備えるように構成された。

【００５４】単純なループ型文法を使用し、全ての数
（“ｏ”と“ゼロ”のモデルは同じ数）と無声音の遷移
確率を等しくして認識を実行した。認識されたセンテン
スの中の無声音を除去した後、１０個の数に関して精度
を計算した。

【００５５】これら最初の実験では、信号を９個のＰＬ
Ｐ係数（残余誤差を含む）と９個のデルタ係数からなる
ベクトル系列に符号化した。最初の９個の静的な係数の
平均値に対してのみ、実行する場合は、適応化を適用し
た。適応化に当り、各センテンスの３０個の第１フレー
ムを使用して目的雑音を計算した。

【００５６】以下の表２に示す結果は、適応化を行わな
い隠れマルコフモデル（ＨＭＭ）の性能と並列モデル結
合（ＰＭＣ）および従来のヤコビ適応化（ＪＡ）を利用
して得られた結果とを比較したものである。すなわち、
表２は雑音がある場合に並列モデル結合とヤコビ適応化
がいかにして認識精度を向上させるかを示したものであ
る。しかしながら、表２はα適応化を用いた改良型変換
行列適応化の性能を示していない。この表は改良型変換
行列適応化技術をさらに詳しく理解するための基準線と
なるよう提示したものである。

【００５７】

【表２】

【００５８】

【表３】

【００５９】表３はα因子がある場合とない場合の並列
モデル結合とヤコビ適応化の両方の比較性能を示す。表
３では、α適応化を伴う変換行列適応化を“α−ＴＭ”
と示す。比較のために、並列モデル結合技術に対しても
α因子を適用し、その結果をα−ＰＭＣ”の行で示し
た。

【００６０】表３の結果を比較すると、改良型変換行列
適応化（α−ＴＭ）が雑音存在下で標準ヤコビ適応化
（ＪＡ）よりも非常に優れた性能を発揮していることに
気付く。α因子はＰＭＣ適応化の性能をほとんど低下さ
せなかったが、大幅な性能の向上ももたらさなかった。

【００６１】上記の実験結果は、α適応化因子を採用し
た改良型変換行列適応化技術が標準ヤコビ適応化よりも
非常に優れた結果をもたらすことを示している。さら
に、変換行列適応化は本質的にＰＭＣよりも計算コスト
が低くて済むので、多くの処理能力や記憶容量を持たな
い組込み型認識システムにとって理想的な候補になる。
そのようなアプリケーションとしては、例えば、セルラ
ー電話認識システムや車両ナビゲーションシステムやそ
の他消費製品がある。

【００６２】さらに、本明細書に記載の次元圧縮技術を
利用することによりシステムの性能をさらに向上させる
ことも可能である。変換行列適応化と組み合わせること
により、多数の認識アプリケーションで良好に機能する
コンパクトで効率のよいロバストな適応化システムが得
られる。

【００６３】本発明をその好ましい実施形態の形で説明
したが、本発明が特許請求の範囲に記載の発明の精神か
ら逸脱することなく変更可能であることは理解できるで
あろう。

【図面の簡単な説明】

【図１】本発明の理解に役立つ様々な雑音条件を示す図
である。

【図２】改良型変換行列適応化の好ましい実施形態を示
す学習段階および認識段階のデータフロー図である。

【図３】従来のヤコビ適応化と並列モデル結合（ＰＭ
Ｃ）適応化とを比較した対数スペクトル特性図である。

【図４】認識精度に対する様々なα値の影響を示すα適
応化パラメータ曲線である。

【図５】認識精度に対する様々なα値の影響を示すα適
応化パラメータ曲線である。

【符号の説明】

２０学習段階２６音声モデル３８圧縮済ヤコビ行列集合４０認識段階５０適応音声モデルＡ初期雑音条件Ｂ認識時雑音条件Ｎａ基準雑音Ｎｂ目的雑音

───────────────────────────────────────────────────── フロントページの続き (72)発明者ロバートボーマンアメリカ合衆国カリフォルニア州 91360，サウザンドオークス，ストームクラウドストリート 3331 (72)発明者ジャン−クロードジュンカアメリカ合衆国カリフォルニア州 93110 サンタバーバラ、ニュエセスドライヴ 4543 Ｆターム(参考） 5D015 GG01 GG06

Claims

【特許請求の範囲】

【請求項１】音声認識システムにおいて雑音適応化を
実行する方法であって、第１の雑音条件下で音声モデルの集合を作成する工程
と、上記第１の雑音条件下の音声モデルに関してヤコビ行列
の集合を設け、該ヤコビ行列を変換して変換行列の集合
を定義し、音声認識に利用するため上記変換行列を格納
する工程と、第２の雑音条件下で入力音声を提供する工程と、上記第１および第２の雑音条件に基づいて雑音条件の第
１の変化を求める工程と、上記雑音条件の第１の変化と上記変換行列を利用して上
記音声モデルの集合を適応化する工程とを備えている雑
音適応化方法。
【請求項２】上記ヤコビ行列を変換する工程は線形変
換を利用して行うことを特徴とする請求項１記載の雑音
適応化方法。
【請求項３】上記ヤコビ行列を変換する工程は非線形
変換を利用して行うことを特徴とする請求項１記載の雑
音適応化方法。
【請求項４】上記ヤコビ行列を変換する工程は上記ヤ
コビ行列にα適応化因子を適用することによって実行さ
れ、上記α適応化因子は２．４ないし３．６の値域にほ
ぼ関連する値を有する重み付け因子であることを特徴と
する請求項１記載の雑音適応化方法。
【請求項５】次元圧縮処理を用いて上記変換行列を分
解する工程をさらに備えている請求項１記載の雑音適応
化方法。
【請求項６】上記次元圧縮処理は主成分分析を使用す
ることを特徴とする請求項５記載の雑音適応化方法。
【請求項７】学習時に作成され使用時に使用される音
声認識システムの雑音適応化用適応行列を作成する方法
であって、上記学習時に関連する第１の雑音条件下で音声モデルの
集合を作成する工程と、上記第１の雑音条件下の音声モデルに関してヤコビ行列
の集合を算出する工程と、所定の変換処理を利用して上記ヤコビ行列の集合を変換
し、学習時の雑音と使用時の雑音との間の差を補償する
工程と、使用時に上記音声認識システムが使用するための適応行
列として上記変換された行列の集合を格納する工程とを
備えている適応行列作成方法。
【請求項８】上記変換処理は上記ヤコビ行列に対して
線形変換を実行することである請求項７記載の適応行列
作成方法。
【請求項９】上記変換処理は上記ヤコビ行列に対して
非線形変換を実行することである請求項７記載の適応行
列作成方法。
【請求項１０】上記変換処理は上記ヤコビ行列にα適
応化因子を適用する工程を備え、上記α適応化因子は
２．４ないし３．６の値域にほぼ関連する値を有する重
み付け因子であることを特徴とする請求項７記載の適応
行列作成方法。
【請求項１１】次元圧縮処理を用いて上記適応行列を
分解する工程をさらに備えている請求項７記載の適応行
列作成方法。
【請求項１２】上記次元圧縮処理は主成分分析を使用
することを特徴とする請求項１１記載の適応行列作成方
法。
【請求項１３】第１の雑音条件下で訓練される音声モ
デルの集合と、第２の雑音条件に従って上記音声モデルを適応化する適
応化システムと、上記音声モデルに相当する格納された適応行列の集合を
含み、上記適応化システムに関連する記憶部とを備え、上記適応行列は上記第１の雑音条件のヤコビ行列の集合
に対して線形変換または非線形変換を適用することによ
り作成された変換行列であることを特徴とする音声認識
器。
【請求項１４】上記ヤコビ行列の変換は２．４ないし
３．６の値域にほぼ関連する値を有する重み付け因子の
形で上記ヤコビ行列に適用されたα適応化因子を使用す
ることを特徴とする請求項１３記載の音声認識器。
【請求項１５】上記適応行列の集合は次元圧縮によ
り分解されることを特徴とする請求項１３記載の音声認
識器。
【請求項１６】上記適応行列の集合は主成分分析によ
り分解されることを特徴とする請求項１３記載の音声認
識器。