JP2001356791A - 変換行列を用いた自動音声認識の雑音適応化方法 - Google Patents
変換行列を用いた自動音声認識の雑音適応化方法Info
- Publication number
- JP2001356791A JP2001356791A JP2001119722A JP2001119722A JP2001356791A JP 2001356791 A JP2001356791 A JP 2001356791A JP 2001119722 A JP2001119722 A JP 2001119722A JP 2001119722 A JP2001119722 A JP 2001119722A JP 2001356791 A JP2001356791 A JP 2001356791A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- adaptation
- matrix
- speech
- jacobi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
自動音声認識の雑音適応化技術を提供する。 【解決手段】 改良型雑音適応化技術は初期雑音条件A
に対応するヤコビ行列の集合に対して線形変換または非
線形変換を適用する(30)。α適応化パラメータまた
は人工知能演算を線形または非線形に利用して音声モデ
ルに付加する適応化バイアスを増加させる。これによ
り、雑音の影響を過小評価しがちな従来のヤコビ適応化
の短所を補正する。計算の負担を軽減する主成分分析P
CAによって次元を圧縮すること(36)により改良型
適応化技術の性能をさらに向上させ、適応化技術を組込
み型認識システムにも有益に利用できるようにする。
Description
識システムに関する。特に、本発明は雑音がある場合に
認識器を適応化してその性能を向上させる技術に関す
る。
件下では適度に良好に機能するが、実世界のアプリケー
ションで使用されるときは急激に性能を低下させる。実
世界アプリケーションにおける認識器の性能に影響を及
ぼしている大きな要因の一つは音声信号を汚染する環境
雑音の存在である。この雑音問題に対処するために、ス
ペクトルサブトラクションや並列モデル結合など多数の
方法が開発されている。しかしながら、これらの解決策
は制限がありすぎるか計算コストが高すぎるかどちらか
である。
合に、付加雑音に対処するために、ヤコビ適応化方法が
提案されている。例えば、ヤマグチの米国特許6,02
6,359号には、モデルのパラメータを表現するテイ
ラー展開のヤコビ行列を格納し、その格納したヤコビ行
列に基づいてパターン認識におけるモデル適応化を行う
方式が記載されている。
方法がうまく機能するためには、雑音Aと雑音Bが特性
とレベルに関して互いに近いことが必要である。例え
ば、ヤコビ適応化技術は、雑音Aが時速30マイルで平
坦な道路を走行する車両の客室内で測定され、雑音B
が、例えば、時速45マイルで走行する同じ道路上の同
じ車両内で測定された雑音であるような同じ特性を有す
る場合に、うまく機能すると思われる。
ば、雑音Aが時速30マイルの上記車両内で測定され、
雑音Bが窓を下ろした状態の上記車両や時速60マイル
の上記車両内で測定される場合には、上記公知のヤコビ
適応化技術は機能しなくなり始める。
ステムが使用中のとき)に存在するような雑音を学習時
に期待することは難しい場合が多いので、実際の多くの
アプリケーションではその有用性に限界がある。また、
ヤコビ雑音適応化技術はその必要とされる計算コスト
(処理時間および/または必要記憶容量)の高さのため
に非実用的であるので、多数のアプリケーションにおい
てヤコビ適応化技術を改良することには限界がある。
処するものであり、ヤコビ行列を使用する代わりに、ヤ
コビ行列の形に似ているが異なる値を含む変換行列を使
用する。この変換行列は、学習時と認識時のそれぞれの
雑音が遥かに遠い場合を補償する。本発明の方法の好ま
しい実施形態では、α適応化パラメータを用いてヤコビ
行列の線形変換または非線形変換を行うことにより変換
行列を生成する。あるいは、その変換処理を、ニューラ
ルネットワークや他の人工知能機構を使用するなど、他
の線形または非線形変換手段により行うことも可能であ
る。計算速度を上げるために、結果得られる変換行列を
主成分分析などの次元圧縮技術を用いて圧縮してもよ
い。
解するために、以下の詳細説明と添付の図面が参照され
る。
課題を示す。図に符号10で示すように、例えば、自動
音声認識システムが走行中の車両の客室内などの騒音環
境内で動作しなければならないと仮定する。客室内で測
定される雑音レベルは、一般に、車両の速度が上昇する
と、雑音Aから雑音A’に上昇する。雑音レベルがAか
らA’に上昇しても、雑音の特性と品質はほぼ同じまま
である。例えば、走行中の車両内では、通常、雑音スペ
クトルは車両速度が上昇するにつれて予測可能に変化す
る。風騒音の場合、振幅は上昇するが、その非常にラン
ダムな白色雑音特性とピンク雑音特性を保持する。路面
雑音(路面上を転動するタイヤの音)の周波数は速度の
上昇に比例して増大する。
くは、周囲雑音の品質を図1の符号10の状態が示すよ
うには容易に予測できない。例えば、携帯セルラー電話
の場合、符号10で示す範囲の雑音下にある走行車両内
で使用される場合もあれば、全く異なる様々な交通音に
あふれている街角で使用される場合もあり、また全く異
なる雑音品質を有する商店街で使用される場合もある。
このような様々な雑音品質の幅広いダイバーシティを図
1に符号12で示す。この図では、3種類の異なる雑音
パターンをそれぞれ雑音A、雑音B、雑音Cで図示して
いる。雑音品質が予測不可能であることは、これら様々
な雑音環境内で機能しなければならない自動音声認識シ
ステムにとってこれまで大いにやりがいをもたらすもの
であった。
本発明の一実施形態を示す。この音声認識アプリケーシ
ョンでは、モデル準拠の認識器を採用する。モデルは学
習時に開発され、後に認識時に使用される。図2では、
通常、システムの学習段階を符号20で示し、認識段階
を符号40で示す。符号22に示すように、入力音声は
雑音条件A下の学習段階時に提供される。この入力音声
を利用して、ステップ24に示すように音声モデルに学
習させ、例えば、符号26で図示するような音声モデル
を得る。典型的な入力音声信号では、例えば音声の開始
前または音声の終了後など、音声が存在しない時間があ
る。このような無音声部分を利用して雑音条件Aに関連
する基準雑音Naを示すデータを記録してもよい。図2
では、この基準雑音Naをブロック28で格納する。必
要ならば、音声モデル26の構築のために使用される場
合と同じ学習処理を用いて雑音をモデル化(背景モデル
化)してもよい。
で変換行列の集合を算出し、ステップ32で格納する。
これらの行列を認識時に使用して音声モデルを適応化
し、認識時に存在する雑音条件下でより優れた性能を発
揮させるようにする。基本的なヤコビ適応化処理は、認
識時の雑音の品質が学習時とほぼ同じであることを想定
している。そうでない場合には、古典的なヤコビ適応化
法は全く最適ではない結果を生じることがある。
して生成された変換行列の集合を使用することを基本に
している。変換行列は初期雑音条件Naに関して生成さ
れたヤコビ行列の集合に線形変換または非線形変換を適
用することによって計算される。本好ましい実施形態で
は、次の節で開示するようなα適応化因子を適用するこ
とによって変換(線形も非線形も)を実行する。α適応
化因子が現時点で好ましいが、ニューラルネットワーク
や他の人工知能構成要素を利用して変換を行ってもよ
い。
になりうる。無視できないコスト要因は全ての行列を格
納するのに必要な記憶領域である。代表的な実施形態で
は、辞典の各項目用の音声モデルが複数の隠れマルコフ
モデル状態を使用し、その各状態に関連して複数のガウ
ス密度が使用される。すなわち、各状態の各ガウス密度
に対して一つの行列が存在することになる。その結果、
数百の行列を格納する必要が生じることになる。
36を実行して計算量を軽減したヤコビ行列集合38を
生成する。以下により詳しく説明するように、この好ま
しい分解技術は、主成分分析(PCA)を利用して計算
量を軽減した変換行列を作成する。
力音声が提供される。入力音声は、符号44で示すよう
に、雑音条件B(目的雑音Nbとも称する)に関連して
いる。上述したように、雑音条件Bが学習時に使用され
る雑音条件Aと品質的に異なっていれば、従来のヤコビ
適応化技術は最適な結果を全く生じないかもしれない。
しかしながら、発明者らは、(ヤコビ行列が学習時に定
義された場合に実行される)α適応化処理が雑音悪条件
下での認識性能を大きく向上させることがわかった。発
明者らの試験結果を以下の実施例で示す。
音声42から抽出された後、符号46で示すように基準
雑音Naとの差を算出するために使用される。その後、
符号48で示すように、上記雑音差と学習時に作成され
た圧縮済変換行列とを利用して新しい適応音声モデルを
算出する。その結果得られた適応音声モデル50をステ
ップ52で利用して入力音声42に対して音声認識を実
行し、認識出力54を生じる。
来のヤコビ適応化を理解することが有利である。従来の
ヤコビ適応化は並列モデル結合(PMC)として知られ
る別の形の適応化に関連している。従来、ヤコビ適応化
は、PMCが必要とする計算の負担を軽減するために、
PMCの近似法として使用されている。PMCは、音声
モデルの密度ごとに平均ベクトルをスペクトル領域に変
換しなければならないので、計算コストが非常に高い。
その後、目的雑音に平均ベクトルを付加した後、結果得
られたベクトルをケプストラム領域に逆変換しなければ
ならない。通常、このように1回の行列乗算と2回の非
線形関数を利用する二重変換は組込み型システムにとっ
て非常に時間を消費することになる。
のPMCの近似法として利用されている。比較のため、
以下に示す式1はPMC演算を記述しており、大文字の
Fは離散コサイン変換(DCT)の行列を示す。式2は
より計算コストの高いPMC演算の近似法として利用さ
れる従来のヤコビ適応化演算を示す。
ステム利用時に被る)目的雑音の品質が(システム学習
時に存在する)基準雑音と類似している場合のみに成立
するという点である。この問題の本質を、雑音増加時の
対数スペクトル領域における有雑音音声のパラメータ評
価を図示した図3で示す。すなわち、この図は対数スペ
クトル領域におけるPMC適応化と従来のヤコビ適応化
の比較を示している。図3において、左側の陰影領域は
音声信号の出力が雑音よりも遥かに大きい状態に相当
し、右側の陰影領域は雑音の出力が音声信号の出力より
も大きい状態に相当する。学習時の環境と試験時の環境
がこれら2つの領域に関して同じであれば、ヤコビ適応
化とPMC適応化は同様に機能する。しかしながら、こ
れら2つの環境の一方が中間領域にある場合や他方の環
境と別の領域に存在する場合には、ヤコビ適応化はPM
C適応化と異なるものとなり、実際には常にモデルの適
応化を過小評価することになる。
列の線形または非線形変換により大幅に改良できること
を見出した。線形または非線形変換を行うため、好まし
い実施形態では、以下「α適応化パラメータ」と称する
パラメータを採用する。以下の式3は非線形変換を実行
するためのα適応化パラメータの好ましい使用例を示
す。式4は線形変換を実行するためのα適応化パラメー
タの別の使用例を示す。上述したように、上記の変換を
実行するために現時点ではα適応化パラメータを利用す
ることが好ましいが、他の変換技術も利用可能である。
例えば、ニューラルネットワークや他の人工知能構成要
素を利用し、初期雑音条件に関するヤコビ行列を変換し
てもよい。さらに別の変換技術として、入力音声に対し
て第1のα適応化パラメータまたは因子を適用し、雑音
に対して第2のα適応化パラメータまたは因子を適用す
る方法がある。それ以外の変形例も利用可能である。
次のように機能する。基準雑音がゼロに近く、αの値が
大きすぎない場合には、(x座標NとαNでそれぞれ算
出された)両接線が水平である。基準雑音が非常に大き
い場合には、両接線が直線y=xに相当する。基準雑音
が図3の中央領域に属する場合には、接線の新しい傾斜
が従来のヤコビ適応化曲線によって生じる傾斜よりも大
きくなることになる。
ることにより、行列の非線形変換が得られる。分子と分
母の両方をパラメータで乗算することにより、非線形変
換効果が発生する。式4では、α適応化パラメータを分
子/分母の商に対して乗算するので、線形変換効果が発
生する。
主要な効果は音声モデルに付加される適応化バイアスを
増大させることである。このことは、雑音の影響を過小
評価する従来のヤコビ適応化の欠点を補正するので、有
利である。本明細書の後の節では、α適応化パラメータ
を用いて実行可能な改良例である実験結果を示す。
している。すなわち、αの値は目的雑音と基準雑音との
間の不一致が大きいほどより大きい必要がある。しかし
ながら、発明者らはα適応化パラメータが理論的に予想
される値よりもはるかに安定していることを見出した。
α適応化を従来のヤコビ適応化の代わりに利用して変換
行列を生成すると、音声認識精度のばらつきは、α値が
小さい場合には小さく、α値が中間値の場合には増加
し、αが一定の値を超えて上昇すると再び小さくなる。
この現象は図3の曲線形状に拠るものである。すなわ
ち、αの値に関わらず、接線の傾斜は0と1の間でのみ
変動する。
不利な環境の中で数字認識の実験セットを行った。1か
ら9までの数と“o”および“ゼロ”のモデルと無声の
モデルからなる12個の文脈独立数字モデルを作成し
た。無声は5つの状態を持つ隠れマルコフモデル(HM
M)によってモデル化された。残りのモデルでは15個
の状態を使用した。全ての隠れマルコフモデルの各状態
において4つのガウス密度を使用した。上記の学習用セ
ットを使用し、80個のスピーカーから発声された38
03個の数字シーケンスからなるモデルを学習させた。
学習用セットを雑音のない研究室条件下で記録した。図
4および図5はαが1から4までの値域内で変動する場
合の精度のばらつきを示す。以下の6種類の異なる音響
環境に基づいてデータを作成した。
証コーパス。
合の妥当性検証コーパス。
の妥当性検証コーパス。
合の妥当性検証コーパス。
試験コーパス。
別の試験コーパス。
ろうと、αの様々な値に対する精度のばらつきがα=
2.4からα=3.6までの値域内では非常に小さいこ
とがわかる。このことは、αが本発明の実施形態で適切
に使用可能な安定した値域を有していることを実証して
いる。約2.4ないし3.6の間のα適応化パラメータ
が推奨されるが、これが単に安定した値域のひとつの可
能性を例示しているに過ぎないことは理解できるであろ
う。一般に、他のα値を使用して有益な結果を得ること
もできる。別の言い方をすれば、αの真の“最適”値と
充分考慮された値域(例えば、2.4〜3.6)内で選
択されるそれ以外の値との間の精度の低下は非常に小さ
い。発明者らのデータは“最適”値からの精度の低下が
3%未満であることを示している。したがって、本改良
型ヤコビ適応化法は非常にロバストな方法である。
たように、ヤコビ適応化はPMCよりも計算コストが低
くて済むが、それでもまだ認識システム、特に組込み型
システムに対してかなり厄介な負担を掛けている。
表現可能であることに気付いた。
クトルフィルタバンク内で使用されるフィルタの数を示
す)。
ビ行列が属する空間の基底であるNFilt個の標準行列の
重み付き和の形で表現可能である。これら標準行列は次
のように定義される。すなわち、
Filt×NFilt対角行列を指す。
することができる。
度数)個の行列を格納する代わりに、NFilt個の標準行
列とNd×NFilt個の係数γiを格納すれば済む。これに
より、必要記憶容量を大幅に低減させることができる。
時間複雑性を増加させるのでさらに改良の余地がある。
実際、全ての変換行列を格納する場合、式2が全密度に
対して直接適用され、それにはNd個の行列乗算が必要
になる。
分が次のようになる。
列加算とNFilt個の行列スカラ倍であり、それを各密度
ごとに繰り返す必要がある。したがって、総計算コスト
は2・Nd・NFilt個の行列演算になる。
標準行列の数を減らす必要がある。
間に属する要素の集合に主成分分析を実行することであ
る。そこで、まず全てのベクトル
した。その結果得られた標準ベクトルを利用してNFilt
個の標準ヤコビ行列
とにより、計算の負担軽減をかなり向上させることがで
きる。実験の結果、有効標準行列数を5つまで削減可能
であることが分かった。さらに削減することも可能であ
る。行列数を削減することにより、適応化の実行に必要
な記憶領域だけでなく計算時間も低減させることができ
る。次元圧縮(主成分分析)により実現される改良をよ
り詳しく理解するために、表1において、変換行列適応
化処理を主成分分析を採用した場合と採用しなかった場
合とで比較する。
ある次元数を示す。その次の欄は使用されるα適応化値
を示す。残りの欄は、認識精度の百分率と次の3つの環
境条件、すなわち、クリーンな状態(無雑音)、時速3
0マイルの走行車両および時速60マイルの走行車両に
関して必要な計算時間(データベース全体にわたる適応
化のμ秒単位の累積時間)である。
試験結果をこの節で開示する。適応化システムを試験す
るために、カーナビゲーションシステム用の音声認識器
を使用した。勿論、本文に記載の適応化技術はカーナビ
ゲーションやその他の認識タスクに限定されるものでは
ない。走行車両内の雑音条件は様々な車両速度でまった
く広範囲に変化するので、本発明の試験に対してカーナ
ビゲーションを選択した。すなわち、車両環境内での適
応化システムの試験を該適応化システムの能力を測る好
適な尺度として選択した。
同様である。3つの試験用セットは、(1)(学習用セ
ットと異なる)20個のスピーカーによって発声され学
習用セットと同じ条件で記録される462個の数字シー
ケンスから構成される妥当性検証セットと、(2)別の
スピーカーによって発声され時速30マイルの車両内で
記録される947個の数字シーケンスから構成される妥
当性検証セットと、(3)(2)と同じスピーカーから
発声されるが時速60マイルの車両内で記録される5つ
の数字からなり475個のシーケンスから構成される妥
当性検証セットを備えるように構成された。
(“o”と“ゼロ”のモデルは同じ数)と無声音の遷移
確率を等しくして認識を実行した。認識されたセンテン
スの中の無声音を除去した後、10個の数に関して精度
を計算した。
P係数(残余誤差を含む)と9個のデルタ係数からなる
ベクトル系列に符号化した。最初の9個の静的な係数の
平均値に対してのみ、実行する場合は、適応化を適用し
た。適応化に当り、各センテンスの30個の第1フレー
ムを使用して目的雑音を計算した。
い隠れマルコフモデル(HMM)の性能と並列モデル結
合(PMC)および従来のヤコビ適応化(JA)を利用
して得られた結果とを比較したものである。すなわち、
表2は雑音がある場合に並列モデル結合とヤコビ適応化
がいかにして認識精度を向上させるかを示したものであ
る。しかしながら、表2はα適応化を用いた改良型変換
行列適応化の性能を示していない。この表は改良型変換
行列適応化技術をさらに詳しく理解するための基準線と
なるよう提示したものである。
モデル結合とヤコビ適応化の両方の比較性能を示す。表
3では、α適応化を伴う変換行列適応化を“α−TM”
と示す。比較のために、並列モデル結合技術に対しても
α因子を適用し、その結果をα−PMC”の行で示し
た。
適応化(α−TM)が雑音存在下で標準ヤコビ適応化
(JA)よりも非常に優れた性能を発揮していることに
気付く。α因子はPMC適応化の性能をほとんど低下さ
せなかったが、大幅な性能の向上ももたらさなかった。
た改良型変換行列適応化技術が標準ヤコビ適応化よりも
非常に優れた結果をもたらすことを示している。さら
に、変換行列適応化は本質的にPMCよりも計算コスト
が低くて済むので、多くの処理能力や記憶容量を持たな
い組込み型認識システムにとって理想的な候補になる。
そのようなアプリケーションとしては、例えば、セルラ
ー電話認識システムや車両ナビゲーションシステムやそ
の他消費製品がある。
利用することによりシステムの性能をさらに向上させる
ことも可能である。変換行列適応化と組み合わせること
により、多数の認識アプリケーションで良好に機能する
コンパクトで効率のよいロバストな適応化システムが得
られる。
したが、本発明が特許請求の範囲に記載の発明の精神か
ら逸脱することなく変更可能であることは理解できるで
あろう。
である。
す学習段階および認識段階のデータフロー図である。
C)適応化とを比較した対数スペクトル特性図である。
応化パラメータ曲線である。
応化パラメータ曲線である。
Claims (16)
- 【請求項1】 音声認識システムにおいて雑音適応化を
実行する方法であって、 第1の雑音条件下で音声モデルの集合を作成する工程
と、 上記第1の雑音条件下の音声モデルに関してヤコビ行列
の集合を設け、該ヤコビ行列を変換して変換行列の集合
を定義し、音声認識に利用するため上記変換行列を格納
する工程と、 第2の雑音条件下で入力音声を提供する工程と、 上記第1および第2の雑音条件に基づいて雑音条件の第
1の変化を求める工程と、 上記雑音条件の第1の変化と上記変換行列を利用して上
記音声モデルの集合を適応化する工程とを備えている雑
音適応化方法。 - 【請求項2】 上記ヤコビ行列を変換する工程は線形変
換を利用して行うことを特徴とする請求項1記載の雑音
適応化方法。 - 【請求項3】 上記ヤコビ行列を変換する工程は非線形
変換を利用して行うことを特徴とする請求項1記載の雑
音適応化方法。 - 【請求項4】 上記ヤコビ行列を変換する工程は上記ヤ
コビ行列にα適応化因子を適用することによって実行さ
れ、上記α適応化因子は2.4ないし3.6の値域にほ
ぼ関連する値を有する重み付け因子であることを特徴と
する請求項1記載の雑音適応化方法。 - 【請求項5】 次元圧縮処理を用いて上記変換行列を分
解する工程をさらに備えている請求項1記載の雑音適応
化方法。 - 【請求項6】 上記次元圧縮処理は主成分分析を使用す
ることを特徴とする請求項5記載の雑音適応化方法。 - 【請求項7】 学習時に作成され使用時に使用される音
声認識システムの雑音適応化用適応行列を作成する方法
であって、 上記学習時に関連する第1の雑音条件下で音声モデルの
集合を作成する工程と、 上記第1の雑音条件下の音声モデルに関してヤコビ行列
の集合を算出する工程と、 所定の変換処理を利用して上記ヤコビ行列の集合を変換
し、学習時の雑音と使用時の雑音との間の差を補償する
工程と、 使用時に上記音声認識システムが使用するための適応行
列として上記変換された行列の集合を格納する工程とを
備えている適応行列作成方法。 - 【請求項8】 上記変換処理は上記ヤコビ行列に対して
線形変換を実行することである請求項7記載の適応行列
作成方法。 - 【請求項9】 上記変換処理は上記ヤコビ行列に対して
非線形変換を実行することである請求項7記載の適応行
列作成方法。 - 【請求項10】 上記変換処理は上記ヤコビ行列にα適
応化因子を適用する工程を備え、上記α適応化因子は
2.4ないし3.6の値域にほぼ関連する値を有する重
み付け因子であることを特徴とする請求項7記載の適応
行列作成方法。 - 【請求項11】 次元圧縮処理を用いて上記適応行列を
分解する工程をさらに備えている請求項7記載の適応行
列作成方法。 - 【請求項12】 上記次元圧縮処理は主成分分析を使用
することを特徴とする請求項11記載の適応行列作成方
法。 - 【請求項13】 第1の雑音条件下で訓練される音声モ
デルの集合と、 第2の雑音条件に従って上記音声モデルを適応化する適
応化システムと、 上記音声モデルに相当する格納された適応行列の集合を
含み、上記適応化システムに関連する記憶部とを備え、 上記適応行列は上記第1の雑音条件のヤコビ行列の集合
に対して線形変換または非線形変換を適用することによ
り作成された変換行列であることを特徴とする音声認識
器。 - 【請求項14】 上記ヤコビ行列の変換は2.4ないし
3.6の値域にほぼ関連する値を有する重み付け因子の
形で上記ヤコビ行列に適用されたα適応化因子を使用す
ることを特徴とする請求項13記載の音声認識器。 - 【請求項15】 上記適応行列の集合は次元圧縮によ
り分解されることを特徴とする請求項13記載の音声認
識器。 - 【請求項16】 上記適応行列の集合は主成分分析によ
り分解されることを特徴とする請求項13記載の音声認
識器。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US09/551,001 US6529872B1 (en) | 2000-04-18 | 2000-04-18 | Method for noise adaptation in automatic speech recognition using transformed matrices |
| US09/551001 | 2000-04-18 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2001356791A true JP2001356791A (ja) | 2001-12-26 |
| JP3848845B2 JP3848845B2 (ja) | 2006-11-22 |
Family
ID=24199418
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001119722A Expired - Fee Related JP3848845B2 (ja) | 2000-04-18 | 2001-04-18 | 変換行列を用いた自動音声認識の雑音適応化方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (2) | US6529872B1 (ja) |
| EP (1) | EP1148471B1 (ja) |
| JP (1) | JP3848845B2 (ja) |
| DE (1) | DE60100637T2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019049426A (ja) * | 2017-09-08 | 2019-03-28 | 日本電信電話株式会社 | センサ信号処理方法、センサ信号処理装置、およびプログラム |
Families Citing this family (41)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7387253B1 (en) | 1996-09-03 | 2008-06-17 | Hand Held Products, Inc. | Optical reader system comprising local host processor and optical reader |
| WO2001063597A1 (en) * | 2000-02-25 | 2001-08-30 | Koninklijke Philips Electronics N.V. | Speech recognition device with reference transformation means |
| US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
| US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
| US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
| US7003455B1 (en) * | 2000-10-16 | 2006-02-21 | Microsoft Corporation | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech |
| US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
| EP1229516A1 (en) * | 2001-01-26 | 2002-08-07 | Telefonaktiebolaget L M Ericsson (Publ) | Method, device, terminal and system for the automatic recognition of distorted speech data |
| US7062433B2 (en) * | 2001-03-14 | 2006-06-13 | Texas Instruments Incorporated | Method of speech recognition with compensation for both channel distortion and background noise |
| US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
| US6912497B2 (en) * | 2001-03-28 | 2005-06-28 | Texas Instruments Incorporated | Calibration of speech data acquisition path |
| US7165028B2 (en) * | 2001-12-12 | 2007-01-16 | Texas Instruments Incorporated | Method of speech recognition resistant to convolutive distortion and additive distortion |
| US7117148B2 (en) | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
| GB2389217A (en) * | 2002-05-27 | 2003-12-03 | Canon Kk | Speech recognition system |
| US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
| JP4033299B2 (ja) * | 2003-03-12 | 2008-01-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
| JP4333369B2 (ja) * | 2004-01-07 | 2009-09-16 | 株式会社デンソー | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 |
| US7729908B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Joint signal and model based noise matching noise robustness method for automatic speech recognition |
| US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
| US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
| US20070033027A1 (en) * | 2005-08-03 | 2007-02-08 | Texas Instruments, Incorporated | Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition |
| US7584097B2 (en) * | 2005-08-03 | 2009-09-01 | Texas Instruments Incorporated | System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions |
| JP2007114413A (ja) * | 2005-10-19 | 2007-05-10 | Toshiba Corp | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム |
| US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
| AU2006343470B2 (en) * | 2006-05-16 | 2012-07-19 | Loquendo S.P.A. | Intersession variability compensation for automatic extraction of information from voice |
| JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
| US8180637B2 (en) * | 2007-12-03 | 2012-05-15 | Microsoft Corporation | High performance HMM adaptation with joint compensation of additive and convolutive distortions |
| JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
| US8214215B2 (en) * | 2008-09-24 | 2012-07-03 | Microsoft Corporation | Phase sensitive model adaptation for noisy speech recognition |
| KR101239318B1 (ko) * | 2008-12-22 | 2013-03-05 | 한국전자통신연구원 | 음질 향상 장치와 음성 인식 시스템 및 방법 |
| US8433564B2 (en) * | 2009-07-02 | 2013-04-30 | Alon Konchitsky | Method for wind noise reduction |
| KR20120054845A (ko) * | 2010-11-22 | 2012-05-31 | 삼성전자주식회사 | 로봇의 음성인식방법 |
| JP5966689B2 (ja) * | 2012-07-04 | 2016-08-10 | 日本電気株式会社 | 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム |
| WO2014100236A1 (en) | 2012-12-19 | 2014-06-26 | Visa International Service Association | System and method for voice authentication |
| US8949224B2 (en) | 2013-01-15 | 2015-02-03 | Amazon Technologies, Inc. | Efficient query processing using histograms in a columnar database |
| CN103903630A (zh) * | 2014-03-18 | 2014-07-02 | 北京捷通华声语音技术有限公司 | 一种用于消除稀疏噪声方法及装置 |
| JP6464650B2 (ja) * | 2014-10-03 | 2019-02-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
| CN106384588B (zh) * | 2016-09-08 | 2019-09-10 | 河海大学 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
| CN110570845B (zh) * | 2019-08-15 | 2021-10-22 | 武汉理工大学 | 一种基于域不变特征的语音识别方法 |
| US11335329B2 (en) * | 2019-08-28 | 2022-05-17 | Tata Consultancy Services Limited | Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition |
| CN113223505B (zh) * | 2021-04-30 | 2023-12-08 | 珠海格力电器股份有限公司 | 模型训练、数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5226092A (en) * | 1991-06-28 | 1993-07-06 | Digital Equipment Corporation | Method and apparatus for learning in a neural network |
| US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
| US6182270B1 (en) * | 1996-12-04 | 2001-01-30 | Lucent Technologies Inc. | Low-displacement rank preconditioners for simplified non-linear analysis of circuits and other devices |
| US6154716A (en) * | 1998-07-29 | 2000-11-28 | Lucent Technologies - Inc. | System and method for simulating electronic circuits |
-
2000
- 2000-04-18 US US09/551,001 patent/US6529872B1/en not_active Expired - Lifetime
- 2000-07-31 US US09/628,376 patent/US6691091B1/en not_active Expired - Lifetime
-
2001
- 2001-04-18 DE DE60100637T patent/DE60100637T2/de not_active Expired - Fee Related
- 2001-04-18 EP EP01303537A patent/EP1148471B1/en not_active Expired - Lifetime
- 2001-04-18 JP JP2001119722A patent/JP3848845B2/ja not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019049426A (ja) * | 2017-09-08 | 2019-03-28 | 日本電信電話株式会社 | センサ信号処理方法、センサ信号処理装置、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| DE60100637T2 (de) | 2004-06-17 |
| US6529872B1 (en) | 2003-03-04 |
| US6691091B1 (en) | 2004-02-10 |
| JP3848845B2 (ja) | 2006-11-22 |
| EP1148471B1 (en) | 2003-08-27 |
| DE60100637D1 (de) | 2003-10-02 |
| EP1148471A1 (en) | 2001-10-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3848845B2 (ja) | 変換行列を用いた自動音声認識の雑音適応化方法 | |
| US7089182B2 (en) | Method and apparatus for feature domain joint channel and additive noise compensation | |
| Qi et al. | Voiced-unvoiced-silence classifications of speech using hybrid features and a network classifier | |
| JP4218982B2 (ja) | 音声処理 | |
| Sreenivas et al. | Codebook constrained Wiener filtering for speech enhancement | |
| JP2795058B2 (ja) | 時系列信号処理装置 | |
| JP3654831B2 (ja) | 自動音声認識のための特徴量抽出方法 | |
| Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
| JP3154487B2 (ja) | 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法 | |
| JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
| Chang et al. | A segment-based speech recognition system for isolated Mandarin syllables | |
| JPH0850499A (ja) | 信号識別方法 | |
| US20100076759A1 (en) | Apparatus and method for recognizing a speech | |
| van Dalen et al. | Extended VTS for noise-robust speech recognition | |
| Stouten et al. | Robust speech recognition using model-based feature enhancement | |
| Takahashi et al. | Discrete mixture HMM | |
| Yao et al. | Residual noise compensation for robust speech recognition in nonstationary noise | |
| JP3628245B2 (ja) | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 | |
| Srinivasarao | Speech signal analysis and enhancement using combined wavelet fourier transform with stacked deep learning architecture | |
| EP1178465B1 (en) | Method for noise adaptation in automatic speech recognition using transformed matrices | |
| JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
| CN117935826B (zh) | 音频升采样方法、装置、设备及存储介质 | |
| JP3898676B2 (ja) | 音声認識装置 | |
| Manfredi et al. | SVD-based portable device for real-time hoarse voice denoising | |
| Yamamoto et al. | Speech recognition under noisy environments using segmental unit input HMM |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041130 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050124 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050916 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060801 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060828 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |