[go: up one dir, main page]

JP2001356791A - 変換行列を用いた自動音声認識の雑音適応化方法 - Google Patents

変換行列を用いた自動音声認識の雑音適応化方法

Info

Publication number
JP2001356791A
JP2001356791A JP2001119722A JP2001119722A JP2001356791A JP 2001356791 A JP2001356791 A JP 2001356791A JP 2001119722 A JP2001119722 A JP 2001119722A JP 2001119722 A JP2001119722 A JP 2001119722A JP 2001356791 A JP2001356791 A JP 2001356791A
Authority
JP
Japan
Prior art keywords
noise
adaptation
matrix
speech
jacobi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001119722A
Other languages
English (en)
Other versions
JP3848845B2 (ja
Inventor
Christophe Cerisara
スリザラ クリストフ
Luca Rigazio
リガツィオ ルカ
Booman Robert
ボーマン ロバート
Jean-Claude Junqua
ジュンカ ジャン−クロード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2001356791A publication Critical patent/JP2001356791A/ja
Application granted granted Critical
Publication of JP3848845B2 publication Critical patent/JP3848845B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 【課題】 雑音の影響を過小評価せず、認識精度の高い
自動音声認識の雑音適応化技術を提供する。 【解決手段】 改良型雑音適応化技術は初期雑音条件A
に対応するヤコビ行列の集合に対して線形変換または非
線形変換を適用する(30)。α適応化パラメータまた
は人工知能演算を線形または非線形に利用して音声モデ
ルに付加する適応化バイアスを増加させる。これによ
り、雑音の影響を過小評価しがちな従来のヤコビ適応化
の短所を補正する。計算の負担を軽減する主成分分析P
CAによって次元を圧縮すること(36)により改良型
適応化技術の性能をさらに向上させ、適応化技術を組込
み型認識システムにも有益に利用できるようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は主として自動音声認
識システムに関する。特に、本発明は雑音がある場合に
認識器を適応化してその性能を向上させる技術に関す
る。
【0002】
【従来の技術】現在の自動音声認識システムは研究室条
件下では適度に良好に機能するが、実世界のアプリケー
ションで使用されるときは急激に性能を低下させる。実
世界アプリケーションにおける認識器の性能に影響を及
ぼしている大きな要因の一つは音声信号を汚染する環境
雑音の存在である。この雑音問題に対処するために、ス
ペクトルサブトラクションや並列モデル結合など多数の
方法が開発されている。しかしながら、これらの解決策
は制限がありすぎるか計算コストが高すぎるかどちらか
である。
【0003】近年、雑音が雑音Aから雑音Bに変わる場
合に、付加雑音に対処するために、ヤコビ適応化方法が
提案されている。例えば、ヤマグチの米国特許6,02
6,359号には、モデルのパラメータを表現するテイ
ラー展開のヤコビ行列を格納し、その格納したヤコビ行
列に基づいてパターン認識におけるモデル適応化を行う
方式が記載されている。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
方法がうまく機能するためには、雑音Aと雑音Bが特性
とレベルに関して互いに近いことが必要である。例え
ば、ヤコビ適応化技術は、雑音Aが時速30マイルで平
坦な道路を走行する車両の客室内で測定され、雑音B
が、例えば、時速45マイルで走行する同じ道路上の同
じ車両内で測定された雑音であるような同じ特性を有す
る場合に、うまく機能すると思われる。
【0005】雑音AとBが互いにもっと遠い場合、例え
ば、雑音Aが時速30マイルの上記車両内で測定され、
雑音Bが窓を下ろした状態の上記車両や時速60マイル
の上記車両内で測定される場合には、上記公知のヤコビ
適応化技術は機能しなくなり始める。
【0006】このヤコビ雑音適応化方法は、試験時(シ
ステムが使用中のとき)に存在するような雑音を学習時
に期待することは難しい場合が多いので、実際の多くの
アプリケーションではその有用性に限界がある。また、
ヤコビ雑音適応化技術はその必要とされる計算コスト
(処理時間および/または必要記憶容量)の高さのため
に非実用的であるので、多数のアプリケーションにおい
てヤコビ適応化技術を改良することには限界がある。
【0007】
【課題を解決するための手段】本発明は上記の欠点に対
処するものであり、ヤコビ行列を使用する代わりに、ヤ
コビ行列の形に似ているが異なる値を含む変換行列を使
用する。この変換行列は、学習時と認識時のそれぞれの
雑音が遥かに遠い場合を補償する。本発明の方法の好ま
しい実施形態では、α適応化パラメータを用いてヤコビ
行列の線形変換または非線形変換を行うことにより変換
行列を生成する。あるいは、その変換処理を、ニューラ
ルネットワークや他の人工知能機構を使用するなど、他
の線形または非線形変換手段により行うことも可能であ
る。計算速度を上げるために、結果得られる変換行列を
主成分分析などの次元圧縮技術を用いて圧縮してもよ
い。
【0008】本発明とその目的および長所をより深く理
解するために、以下の詳細説明と添付の図面が参照され
る。
【0009】
【発明の実施の形態】図1は本発明が解決しようとする
課題を示す。図に符号10で示すように、例えば、自動
音声認識システムが走行中の車両の客室内などの騒音環
境内で動作しなければならないと仮定する。客室内で測
定される雑音レベルは、一般に、車両の速度が上昇する
と、雑音Aから雑音A’に上昇する。雑音レベルがAか
らA’に上昇しても、雑音の特性と品質はほぼ同じまま
である。例えば、走行中の車両内では、通常、雑音スペ
クトルは車両速度が上昇するにつれて予測可能に変化す
る。風騒音の場合、振幅は上昇するが、その非常にラン
ダムな白色雑音特性とピンク雑音特性を保持する。路面
雑音(路面上を転動するタイヤの音)の周波数は速度の
上昇に比例して増大する。
【0010】残念ながら、実世界アプリケーションの多
くは、周囲雑音の品質を図1の符号10の状態が示すよ
うには容易に予測できない。例えば、携帯セルラー電話
の場合、符号10で示す範囲の雑音下にある走行車両内
で使用される場合もあれば、全く異なる様々な交通音に
あふれている街角で使用される場合もあり、また全く異
なる雑音品質を有する商店街で使用される場合もある。
このような様々な雑音品質の幅広いダイバーシティを図
1に符号12で示す。この図では、3種類の異なる雑音
パターンをそれぞれ雑音A、雑音B、雑音Cで図示して
いる。雑音品質が予測不可能であることは、これら様々
な雑音環境内で機能しなければならない自動音声認識シ
ステムにとってこれまで大いにやりがいをもたらすもの
であった。
【0011】図2は音声認識アプリケーションにおける
本発明の一実施形態を示す。この音声認識アプリケーシ
ョンでは、モデル準拠の認識器を採用する。モデルは学
習時に開発され、後に認識時に使用される。図2では、
通常、システムの学習段階を符号20で示し、認識段階
を符号40で示す。符号22に示すように、入力音声は
雑音条件A下の学習段階時に提供される。この入力音声
を利用して、ステップ24に示すように音声モデルに学
習させ、例えば、符号26で図示するような音声モデル
を得る。典型的な入力音声信号では、例えば音声の開始
前または音声の終了後など、音声が存在しない時間があ
る。このような無音声部分を利用して雑音条件Aに関連
する基準雑音Naを示すデータを記録してもよい。図2
では、この基準雑音Naをブロック28で格納する。必
要ならば、音声モデル26の構築のために使用される場
合と同じ学習処理を用いて雑音をモデル化(背景モデル
化)してもよい。
【0012】音声モデルに学習させた後、ステップ30
で変換行列の集合を算出し、ステップ32で格納する。
これらの行列を認識時に使用して音声モデルを適応化
し、認識時に存在する雑音条件下でより優れた性能を発
揮させるようにする。基本的なヤコビ適応化処理は、認
識時の雑音の品質が学習時とほぼ同じであることを想定
している。そうでない場合には、古典的なヤコビ適応化
法は全く最適ではない結果を生じることがある。
【0013】改良型適応化技術は初期雑音条件Naに関
して生成された変換行列の集合を使用することを基本に
している。変換行列は初期雑音条件Naに関して生成さ
れたヤコビ行列の集合に線形変換または非線形変換を適
用することによって計算される。本好ましい実施形態で
は、次の節で開示するようなα適応化因子を適用するこ
とによって変換(線形も非線形も)を実行する。α適応
化因子が現時点で好ましいが、ニューラルネットワーク
や他の人工知能構成要素を利用して変換を行ってもよ
い。
【0014】行列の操作は非常に計算コストの高い処理
になりうる。無視できないコスト要因は全ての行列を格
納するのに必要な記憶領域である。代表的な実施形態で
は、辞典の各項目用の音声モデルが複数の隠れマルコフ
モデル状態を使用し、その各状態に関連して複数のガウ
ス密度が使用される。すなわち、各状態の各ガウス密度
に対して一つの行列が存在することになる。その結果、
数百の行列を格納する必要が生じることになる。
【0015】好ましい実施形態では、行列分解ステップ
36を実行して計算量を軽減したヤコビ行列集合38を
生成する。以下により詳しく説明するように、この好ま
しい分解技術は、主成分分析(PCA)を利用して計算
量を軽減した変換行列を作成する。
【0016】認識時には、ステップ42でユーザから入
力音声が提供される。入力音声は、符号44で示すよう
に、雑音条件B(目的雑音Nbとも称する)に関連して
いる。上述したように、雑音条件Bが学習時に使用され
る雑音条件Aと品質的に異なっていれば、従来のヤコビ
適応化技術は最適な結果を全く生じないかもしれない。
しかしながら、発明者らは、(ヤコビ行列が学習時に定
義された場合に実行される)α適応化処理が雑音悪条件
下での認識性能を大きく向上させることがわかった。発
明者らの試験結果を以下の実施例で示す。
【0017】図2に符号44で示す目的雑音Nbは入力
音声42から抽出された後、符号46で示すように基準
雑音Naとの差を算出するために使用される。その後、
符号48で示すように、上記雑音差と学習時に作成され
た圧縮済変換行列とを利用して新しい適応音声モデルを
算出する。その結果得られた適応音声モデル50をステ
ップ52で利用して入力音声42に対して音声認識を実
行し、認識出力54を生じる。
【0018】α適応化 上記変換行列の作用をより詳しく理解するためには、従
来のヤコビ適応化を理解することが有利である。従来の
ヤコビ適応化は並列モデル結合(PMC)として知られ
る別の形の適応化に関連している。従来、ヤコビ適応化
は、PMCが必要とする計算の負担を軽減するために、
PMCの近似法として使用されている。PMCは、音声
モデルの密度ごとに平均ベクトルをスペクトル領域に変
換しなければならないので、計算コストが非常に高い。
その後、目的雑音に平均ベクトルを付加した後、結果得
られたベクトルをケプストラム領域に逆変換しなければ
ならない。通常、このように1回の行列乗算と2回の非
線形関数を利用する二重変換は組込み型システムにとっ
て非常に時間を消費することになる。
【0019】従来、ヤコビ適応化はケプストラム領域で
のPMCの近似法として利用されている。比較のため、
以下に示す式1はPMC演算を記述しており、大文字の
Fは離散コサイン変換(DCT)の行列を示す。式2は
より計算コストの高いPMC演算の近似法として利用さ
れる従来のヤコビ適応化演算を示す。
【0020】
【式1】
【0021】
【式2】
【0022】ヤコビ適応化近似法が有する問題は、(シ
ステム利用時に被る)目的雑音の品質が(システム学習
時に存在する)基準雑音と類似している場合のみに成立
するという点である。この問題の本質を、雑音増加時の
対数スペクトル領域における有雑音音声のパラメータ評
価を図示した図3で示す。すなわち、この図は対数スペ
クトル領域におけるPMC適応化と従来のヤコビ適応化
の比較を示している。図3において、左側の陰影領域は
音声信号の出力が雑音よりも遥かに大きい状態に相当
し、右側の陰影領域は雑音の出力が音声信号の出力より
も大きい状態に相当する。学習時の環境と試験時の環境
がこれら2つの領域に関して同じであれば、ヤコビ適応
化とPMC適応化は同様に機能する。しかしながら、こ
れら2つの環境の一方が中間領域にある場合や他方の環
境と別の領域に存在する場合には、ヤコビ適応化はPM
C適応化と異なるものとなり、実際には常にモデルの適
応化を過小評価することになる。
【0023】発明者らは従来のヤコビ適応化がヤコビ行
列の線形または非線形変換により大幅に改良できること
を見出した。線形または非線形変換を行うため、好まし
い実施形態では、以下「α適応化パラメータ」と称する
パラメータを採用する。以下の式3は非線形変換を実行
するためのα適応化パラメータの好ましい使用例を示
す。式4は線形変換を実行するためのα適応化パラメー
タの別の使用例を示す。上述したように、上記の変換を
実行するために現時点ではα適応化パラメータを利用す
ることが好ましいが、他の変換技術も利用可能である。
例えば、ニューラルネットワークや他の人工知能構成要
素を利用し、初期雑音条件に関するヤコビ行列を変換し
てもよい。さらに別の変換技術として、入力音声に対し
て第1のα適応化パラメータまたは因子を適用し、雑音
に対して第2のα適応化パラメータまたは因子を適用す
る方法がある。それ以外の変形例も利用可能である。
【0024】
【式3】
【0025】
【式4】
【0026】式3に示すように、α適応化パラメータは
次のように機能する。基準雑音がゼロに近く、αの値が
大きすぎない場合には、(x座標NとαNでそれぞれ算
出された)両接線が水平である。基準雑音が非常に大き
い場合には、両接線が直線y=xに相当する。基準雑音
が図3の中央領域に属する場合には、接線の新しい傾斜
が従来のヤコビ適応化曲線によって生じる傾斜よりも大
きくなることになる。
【0027】式3においてα適応化パラメータを利用す
ることにより、行列の非線形変換が得られる。分子と分
母の両方をパラメータで乗算することにより、非線形変
換効果が発生する。式4では、α適応化パラメータを分
子/分母の商に対して乗算するので、線形変換効果が発
生する。
【0028】どちらの場合でも、α適応化パラメータの
主要な効果は音声モデルに付加される適応化バイアスを
増大させることである。このことは、雑音の影響を過小
評価する従来のヤコビ適応化の欠点を補正するので、有
利である。本明細書の後の節では、α適応化パラメータ
を用いて実行可能な改良例である実験結果を示す。
【0029】α適応化パラメータの選択 理論的には、α適応化パラメータの最適値は環境に依存
している。すなわち、αの値は目的雑音と基準雑音との
間の不一致が大きいほどより大きい必要がある。しかし
ながら、発明者らはα適応化パラメータが理論的に予想
される値よりもはるかに安定していることを見出した。
α適応化を従来のヤコビ適応化の代わりに利用して変換
行列を生成すると、音声認識精度のばらつきは、α値が
小さい場合には小さく、α値が中間値の場合には増加
し、αが一定の値を超えて上昇すると再び小さくなる。
この現象は図3の曲線形状に拠るものである。すなわ
ち、αの値に関わらず、接線の傾斜は0と1の間でのみ
変動する。
【0030】この点を明らかにするために、発明者らは
不利な環境の中で数字認識の実験セットを行った。1か
ら9までの数と“o”および“ゼロ”のモデルと無声の
モデルからなる12個の文脈独立数字モデルを作成し
た。無声は5つの状態を持つ隠れマルコフモデル(HM
M)によってモデル化された。残りのモデルでは15個
の状態を使用した。全ての隠れマルコフモデルの各状態
において4つのガウス密度を使用した。上記の学習用セ
ットを使用し、80個のスピーカーから発声された38
03個の数字シーケンスからなるモデルを学習させた。
学習用セットを雑音のない研究室条件下で記録した。図
4および図5はαが1から4までの値域内で変動する場
合の精度のばらつきを示す。以下の6種類の異なる音響
環境に基づいてデータを作成した。
【0031】1.クリーンな条件で記録された妥当性検
証コーパス。
【0032】2.SN比10dBの車両騒音を加えた場
合の妥当性検証コーパス。
【0033】3.SN比0dBの車両騒音を加えた場合
の妥当性検証コーパス。
【0034】4.SN比15dBの白色雑音を加えた場
合の妥当性検証コーパス。
【0035】5.時速30マイルの車両内で記録された
試験コーパス。
【0036】6.時速60マイルの車両内で記録された
別の試験コーパス。
【0037】図4および図5から、音響環境がどうであ
ろうと、αの様々な値に対する精度のばらつきがα=
2.4からα=3.6までの値域内では非常に小さいこ
とがわかる。このことは、αが本発明の実施形態で適切
に使用可能な安定した値域を有していることを実証して
いる。約2.4ないし3.6の間のα適応化パラメータ
が推奨されるが、これが単に安定した値域のひとつの可
能性を例示しているに過ぎないことは理解できるであろ
う。一般に、他のα値を使用して有益な結果を得ること
もできる。別の言い方をすれば、αの真の“最適”値と
充分考慮された値域(例えば、2.4〜3.6)内で選
択されるそれ以外の値との間の精度の低下は非常に小さ
い。発明者らのデータは“最適”値からの精度の低下が
3%未満であることを示している。したがって、本改良
型ヤコビ適応化法は非常にロバストな方法である。
【0038】計算コストを削減する次元圧縮技術上述し
たように、ヤコビ適応化はPMCよりも計算コストが低
くて済むが、それでもまだ認識システム、特に組込み型
システムに対してかなり厄介な負担を掛けている。
【0039】発明者らは各変換行列が以下の式5により
表現可能であることに気付いた。
【0040】
【式5】 但し、
【式6】 は次元数NFilt×NFiltの対角行列である(NFiltはスペ
クトルフィルタバンク内で使用されるフィルタの数を示
す)。
【0041】したがって、各変換行列は、実際にはヤコ
ビ行列が属する空間の基底であるNFilt個の標準行列の
重み付き和の形で表現可能である。これら標準行列は次
のように定義される。すなわち、
【式7】 但し、diag(i)は位置iで1である以外は全て0であるN
Filt×NFilt対角行列を指す。
【0042】したがって、各変換行列は次のように表現
することができる。
【式8】
【0043】したがって、Nd(全ての音声モデルの総密
度数)個の行列を格納する代わりに、NFilt個の標準行
列とNd×NFilt個の係数γiを格納すれば済む。これに
より、必要記憶容量を大幅に低減させることができる。
【0044】しかしながら、この解法はアルゴリズムの
時間複雑性を増加させるのでさらに改良の余地がある。
実際、全ての変換行列を格納する場合、式2が全密度に
対して直接適用され、それにはNd個の行列乗算が必要
になる。
【0045】第2の解法を選択する場合、式2の右側部
分が次のようになる。
【式9】
【0046】この等式では、計算コストはNFilt個の行
列加算とNFilt個の行列スカラ倍であり、それを各密度
ごとに繰り返す必要がある。したがって、総計算コスト
は2・Nd・NFilt個の行列演算になる。
【0047】余計な計算時間を使用したくないならば、
標準行列の数を減らす必要がある。
【0048】空間の次元を圧縮する好適な技術はその空
間に属する要素の集合に主成分分析を実行することであ
る。そこで、まず全てのベクトル
【式10】 を算出し、このベクトル集合に対して特異値分解を実行
した。その結果得られた標準ベクトルを利用してNFilt
個の標準ヤコビ行列
【式11】 を算出し、各固有値の降順でソートした。
【0049】上述したように、主成分分析を利用するこ
とにより、計算の負担軽減をかなり向上させることがで
きる。実験の結果、有効標準行列数を5つまで削減可能
であることが分かった。さらに削減することも可能であ
る。行列数を削減することにより、適応化の実行に必要
な記憶領域だけでなく計算時間も低減させることができ
る。次元圧縮(主成分分析)により実現される改良をよ
り詳しく理解するために、表1において、変換行列適応
化処理を主成分分析を採用した場合と採用しなかった場
合とで比較する。
【0050】
【表1】
【0051】上記表1において、第1欄は標準行列数で
ある次元数を示す。その次の欄は使用されるα適応化値
を示す。残りの欄は、認識精度の百分率と次の3つの環
境条件、すなわち、クリーンな状態(無雑音)、時速3
0マイルの走行車両および時速60マイルの走行車両に
関して必要な計算時間(データベース全体にわたる適応
化のμ秒単位の累積時間)である。
【0052】実験結果 上述の雑音適応化技術を様々な条件下で試験した。その
試験結果をこの節で開示する。適応化システムを試験す
るために、カーナビゲーションシステム用の音声認識器
を使用した。勿論、本文に記載の適応化技術はカーナビ
ゲーションやその他の認識タスクに限定されるものでは
ない。走行車両内の雑音条件は様々な車両速度でまった
く広範囲に変化するので、本発明の試験に対してカーナ
ビゲーションを選択した。すなわち、車両環境内での適
応化システムの試験を該適応化システムの能力を測る好
適な尺度として選択した。
【0053】これらの実験の準備は既に記載した場合と
同様である。3つの試験用セットは、(1)(学習用セ
ットと異なる)20個のスピーカーによって発声され学
習用セットと同じ条件で記録される462個の数字シー
ケンスから構成される妥当性検証セットと、(2)別の
スピーカーによって発声され時速30マイルの車両内で
記録される947個の数字シーケンスから構成される妥
当性検証セットと、(3)(2)と同じスピーカーから
発声されるが時速60マイルの車両内で記録される5つ
の数字からなり475個のシーケンスから構成される妥
当性検証セットを備えるように構成された。
【0054】単純なループ型文法を使用し、全ての数
(“o”と“ゼロ”のモデルは同じ数)と無声音の遷移
確率を等しくして認識を実行した。認識されたセンテン
スの中の無声音を除去した後、10個の数に関して精度
を計算した。
【0055】これら最初の実験では、信号を9個のPL
P係数(残余誤差を含む)と9個のデルタ係数からなる
ベクトル系列に符号化した。最初の9個の静的な係数の
平均値に対してのみ、実行する場合は、適応化を適用し
た。適応化に当り、各センテンスの30個の第1フレー
ムを使用して目的雑音を計算した。
【0056】以下の表2に示す結果は、適応化を行わな
い隠れマルコフモデル(HMM)の性能と並列モデル結
合(PMC)および従来のヤコビ適応化(JA)を利用
して得られた結果とを比較したものである。すなわち、
表2は雑音がある場合に並列モデル結合とヤコビ適応化
がいかにして認識精度を向上させるかを示したものであ
る。しかしながら、表2はα適応化を用いた改良型変換
行列適応化の性能を示していない。この表は改良型変換
行列適応化技術をさらに詳しく理解するための基準線と
なるよう提示したものである。
【0057】
【表2】
【0058】
【表3】
【0059】表3はα因子がある場合とない場合の並列
モデル結合とヤコビ適応化の両方の比較性能を示す。表
3では、α適応化を伴う変換行列適応化を“α−TM”
と示す。比較のために、並列モデル結合技術に対しても
α因子を適用し、その結果をα−PMC”の行で示し
た。
【0060】表3の結果を比較すると、改良型変換行列
適応化(α−TM)が雑音存在下で標準ヤコビ適応化
(JA)よりも非常に優れた性能を発揮していることに
気付く。α因子はPMC適応化の性能をほとんど低下さ
せなかったが、大幅な性能の向上ももたらさなかった。
【0061】上記の実験結果は、α適応化因子を採用し
た改良型変換行列適応化技術が標準ヤコビ適応化よりも
非常に優れた結果をもたらすことを示している。さら
に、変換行列適応化は本質的にPMCよりも計算コスト
が低くて済むので、多くの処理能力や記憶容量を持たな
い組込み型認識システムにとって理想的な候補になる。
そのようなアプリケーションとしては、例えば、セルラ
ー電話認識システムや車両ナビゲーションシステムやそ
の他消費製品がある。
【0062】さらに、本明細書に記載の次元圧縮技術を
利用することによりシステムの性能をさらに向上させる
ことも可能である。変換行列適応化と組み合わせること
により、多数の認識アプリケーションで良好に機能する
コンパクトで効率のよいロバストな適応化システムが得
られる。
【0063】本発明をその好ましい実施形態の形で説明
したが、本発明が特許請求の範囲に記載の発明の精神か
ら逸脱することなく変更可能であることは理解できるで
あろう。
【図面の簡単な説明】
【図1】本発明の理解に役立つ様々な雑音条件を示す図
である。
【図2】改良型変換行列適応化の好ましい実施形態を示
す学習段階および認識段階のデータフロー図である。
【図3】従来のヤコビ適応化と並列モデル結合(PM
C)適応化とを比較した対数スペクトル特性図である。
【図4】認識精度に対する様々なα値の影響を示すα適
応化パラメータ曲線である。
【図5】認識精度に対する様々なα値の影響を示すα適
応化パラメータ曲線である。
【符号の説明】
20 学習段階 26 音声モデル 38 圧縮済ヤコビ行列集合 40 認識段階 50 適応音声モデル A 初期雑音条件 B 認識時雑音条件 Na 基準雑音 Nb 目的雑音
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ロバート ボーマン アメリカ合衆国 カリフォルニア州 91360,サウザンドオークス,ストームク ラウドストリート 3331 (72)発明者 ジャン−クロード ジュンカ アメリカ合衆国 カリフォルニア州 93110 サンタバーバラ、ニュエセスドラ イヴ 4543 Fターム(参考) 5D015 GG01 GG06

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 音声認識システムにおいて雑音適応化を
    実行する方法であって、 第1の雑音条件下で音声モデルの集合を作成する工程
    と、 上記第1の雑音条件下の音声モデルに関してヤコビ行列
    の集合を設け、該ヤコビ行列を変換して変換行列の集合
    を定義し、音声認識に利用するため上記変換行列を格納
    する工程と、 第2の雑音条件下で入力音声を提供する工程と、 上記第1および第2の雑音条件に基づいて雑音条件の第
    1の変化を求める工程と、 上記雑音条件の第1の変化と上記変換行列を利用して上
    記音声モデルの集合を適応化する工程とを備えている雑
    音適応化方法。
  2. 【請求項2】 上記ヤコビ行列を変換する工程は線形変
    換を利用して行うことを特徴とする請求項1記載の雑音
    適応化方法。
  3. 【請求項3】 上記ヤコビ行列を変換する工程は非線形
    変換を利用して行うことを特徴とする請求項1記載の雑
    音適応化方法。
  4. 【請求項4】 上記ヤコビ行列を変換する工程は上記ヤ
    コビ行列にα適応化因子を適用することによって実行さ
    れ、上記α適応化因子は2.4ないし3.6の値域にほ
    ぼ関連する値を有する重み付け因子であることを特徴と
    する請求項1記載の雑音適応化方法。
  5. 【請求項5】 次元圧縮処理を用いて上記変換行列を分
    解する工程をさらに備えている請求項1記載の雑音適応
    化方法。
  6. 【請求項6】 上記次元圧縮処理は主成分分析を使用す
    ることを特徴とする請求項5記載の雑音適応化方法。
  7. 【請求項7】 学習時に作成され使用時に使用される音
    声認識システムの雑音適応化用適応行列を作成する方法
    であって、 上記学習時に関連する第1の雑音条件下で音声モデルの
    集合を作成する工程と、 上記第1の雑音条件下の音声モデルに関してヤコビ行列
    の集合を算出する工程と、 所定の変換処理を利用して上記ヤコビ行列の集合を変換
    し、学習時の雑音と使用時の雑音との間の差を補償する
    工程と、 使用時に上記音声認識システムが使用するための適応行
    列として上記変換された行列の集合を格納する工程とを
    備えている適応行列作成方法。
  8. 【請求項8】 上記変換処理は上記ヤコビ行列に対して
    線形変換を実行することである請求項7記載の適応行列
    作成方法。
  9. 【請求項9】 上記変換処理は上記ヤコビ行列に対して
    非線形変換を実行することである請求項7記載の適応行
    列作成方法。
  10. 【請求項10】 上記変換処理は上記ヤコビ行列にα適
    応化因子を適用する工程を備え、上記α適応化因子は
    2.4ないし3.6の値域にほぼ関連する値を有する重
    み付け因子であることを特徴とする請求項7記載の適応
    行列作成方法。
  11. 【請求項11】 次元圧縮処理を用いて上記適応行列を
    分解する工程をさらに備えている請求項7記載の適応行
    列作成方法。
  12. 【請求項12】 上記次元圧縮処理は主成分分析を使用
    することを特徴とする請求項11記載の適応行列作成方
    法。
  13. 【請求項13】 第1の雑音条件下で訓練される音声モ
    デルの集合と、 第2の雑音条件に従って上記音声モデルを適応化する適
    応化システムと、 上記音声モデルに相当する格納された適応行列の集合を
    含み、上記適応化システムに関連する記憶部とを備え、 上記適応行列は上記第1の雑音条件のヤコビ行列の集合
    に対して線形変換または非線形変換を適用することによ
    り作成された変換行列であることを特徴とする音声認識
    器。
  14. 【請求項14】 上記ヤコビ行列の変換は2.4ないし
    3.6の値域にほぼ関連する値を有する重み付け因子の
    形で上記ヤコビ行列に適用されたα適応化因子を使用す
    ることを特徴とする請求項13記載の音声認識器。
  15. 【請求項15】 上記適応行列の集合は次元圧縮によ
    り分解されることを特徴とする請求項13記載の音声認
    識器。
  16. 【請求項16】 上記適応行列の集合は主成分分析によ
    り分解されることを特徴とする請求項13記載の音声認
    識器。
JP2001119722A 2000-04-18 2001-04-18 変換行列を用いた自動音声認識の雑音適応化方法 Expired - Fee Related JP3848845B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/551,001 US6529872B1 (en) 2000-04-18 2000-04-18 Method for noise adaptation in automatic speech recognition using transformed matrices
US09/551001 2000-04-18

Publications (2)

Publication Number Publication Date
JP2001356791A true JP2001356791A (ja) 2001-12-26
JP3848845B2 JP3848845B2 (ja) 2006-11-22

Family

ID=24199418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001119722A Expired - Fee Related JP3848845B2 (ja) 2000-04-18 2001-04-18 変換行列を用いた自動音声認識の雑音適応化方法

Country Status (4)

Country Link
US (2) US6529872B1 (ja)
EP (1) EP1148471B1 (ja)
JP (1) JP3848845B2 (ja)
DE (1) DE60100637T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049426A (ja) * 2017-09-08 2019-03-28 日本電信電話株式会社 センサ信号処理方法、センサ信号処理装置、およびプログラム

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7387253B1 (en) 1996-09-03 2008-06-17 Hand Held Products, Inc. Optical reader system comprising local host processor and optical reader
WO2001063597A1 (en) * 2000-02-25 2001-08-30 Koninklijke Philips Electronics N.V. Speech recognition device with reference transformation means
US6631348B1 (en) * 2000-08-08 2003-10-07 Intel Corporation Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US7003455B1 (en) * 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
EP1229516A1 (en) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Method, device, terminal and system for the automatic recognition of distorted speech data
US7062433B2 (en) * 2001-03-14 2006-06-13 Texas Instruments Incorporated Method of speech recognition with compensation for both channel distortion and background noise
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US6912497B2 (en) * 2001-03-28 2005-06-28 Texas Instruments Incorporated Calibration of speech data acquisition path
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
GB2389217A (en) * 2002-05-27 2003-12-03 Canon Kk Speech recognition system
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP4333369B2 (ja) * 2004-01-07 2009-09-16 株式会社デンソー 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US20070033027A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition
US7584097B2 (en) * 2005-08-03 2009-09-01 Texas Instruments Incorporated System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
AU2006343470B2 (en) * 2006-05-16 2012-07-19 Loquendo S.P.A. Intersession variability compensation for automatic extraction of information from voice
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8214215B2 (en) * 2008-09-24 2012-07-03 Microsoft Corporation Phase sensitive model adaptation for noisy speech recognition
KR101239318B1 (ko) * 2008-12-22 2013-03-05 한국전자통신연구원 음질 향상 장치와 음성 인식 시스템 및 방법
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
KR20120054845A (ko) * 2010-11-22 2012-05-31 삼성전자주식회사 로봇의 음성인식방법
JP5966689B2 (ja) * 2012-07-04 2016-08-10 日本電気株式会社 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
WO2014100236A1 (en) 2012-12-19 2014-06-26 Visa International Service Association System and method for voice authentication
US8949224B2 (en) 2013-01-15 2015-02-03 Amazon Technologies, Inc. Efficient query processing using histograms in a columnar database
CN103903630A (zh) * 2014-03-18 2014-07-02 北京捷通华声语音技术有限公司 一种用于消除稀疏噪声方法及装置
JP6464650B2 (ja) * 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
CN106384588B (zh) * 2016-09-08 2019-09-10 河海大学 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
CN110570845B (zh) * 2019-08-15 2021-10-22 武汉理工大学 一种基于域不变特征的语音识别方法
US11335329B2 (en) * 2019-08-28 2022-05-17 Tata Consultancy Services Limited Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition
CN113223505B (zh) * 2021-04-30 2023-12-08 珠海格力电器股份有限公司 模型训练、数据处理方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226092A (en) * 1991-06-28 1993-07-06 Digital Equipment Corporation Method and apparatus for learning in a neural network
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6182270B1 (en) * 1996-12-04 2001-01-30 Lucent Technologies Inc. Low-displacement rank preconditioners for simplified non-linear analysis of circuits and other devices
US6154716A (en) * 1998-07-29 2000-11-28 Lucent Technologies - Inc. System and method for simulating electronic circuits

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049426A (ja) * 2017-09-08 2019-03-28 日本電信電話株式会社 センサ信号処理方法、センサ信号処理装置、およびプログラム

Also Published As

Publication number Publication date
DE60100637T2 (de) 2004-06-17
US6529872B1 (en) 2003-03-04
US6691091B1 (en) 2004-02-10
JP3848845B2 (ja) 2006-11-22
EP1148471B1 (en) 2003-08-27
DE60100637D1 (de) 2003-10-02
EP1148471A1 (en) 2001-10-24

Similar Documents

Publication Publication Date Title
JP3848845B2 (ja) 変換行列を用いた自動音声認識の雑音適応化方法
US7089182B2 (en) Method and apparatus for feature domain joint channel and additive noise compensation
Qi et al. Voiced-unvoiced-silence classifications of speech using hybrid features and a network classifier
JP4218982B2 (ja) 音声処理
Sreenivas et al. Codebook constrained Wiener filtering for speech enhancement
JP2795058B2 (ja) 時系列信号処理装置
JP3654831B2 (ja) 自動音声認識のための特徴量抽出方法
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
Chang et al. A segment-based speech recognition system for isolated Mandarin syllables
JPH0850499A (ja) 信号識別方法
US20100076759A1 (en) Apparatus and method for recognizing a speech
van Dalen et al. Extended VTS for noise-robust speech recognition
Stouten et al. Robust speech recognition using model-based feature enhancement
Takahashi et al. Discrete mixture HMM
Yao et al. Residual noise compensation for robust speech recognition in nonstationary noise
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
Srinivasarao Speech signal analysis and enhancement using combined wavelet fourier transform with stacked deep learning architecture
EP1178465B1 (en) Method for noise adaptation in automatic speech recognition using transformed matrices
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
CN117935826B (zh) 音频升采样方法、装置、设备及存储介质
JP3898676B2 (ja) 音声認識装置
Manfredi et al. SVD-based portable device for real-time hoarse voice denoising
Yamamoto et al. Speech recognition under noisy environments using segmental unit input HMM

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060828

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees