JP2001067094A

JP2001067094A - 音声認識装置及び方法

Info

Publication number: JP2001067094A
Application number: JP24285699A
Authority: JP
Inventors: Tomohiro Narita; 知宏成田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-08-30
Filing date: 1999-08-30
Publication date: 2001-03-16

Abstract

(57)【要約】【課題】音声信号の入力端と騒音源との距離の変化や
環境騒音の変動による認識性能劣化を削減することがで
きる音声認識装置及び方法を得る。【解決手段】雑音重畳音声スペクトル時系列を得るス
ペクトル演算手段１０１、非音声区間から重畳雑音のス
ペクトルを推定し雑音スペクトルを得る平均スペクトル
演算手段１０２、雑音スペクトルに対する倍率を変えて
複数種類の雑音除去音声スペクトル時系列を得る雑音除
去スペクトル群演算手段２０１、複数種類の雑音除去音
声スペクトル時系列を複数種類の特徴ベクトル時系列に
変換する特徴ベクトル群演算手段２０２、雑音無し音声
パターンと特徴ベクトルの種類の遷移を表したモデルを
記憶してなる照合モデルメモリ２０５、時刻、状態、特
徴ベクトルの３軸でなる３次元空間内で、雑音無し音声
パターンと特徴ベクトルの種類の遷移を表したモデルと
の照合を行う３次元照合手段２０３を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、騒音環境下で発
声され雑音が重畳した音声を対象とする音声認識装置及
び方法に関するものである。

【０００２】

【従来の技術】雑音環境下で発声された音声には背景雑
音が重畳しており音声認識率が劣化する。この重畳雑音
を除去するための簡単で有効な手法として、スペクトル
サブトラクション法が広く用いられる。ここでは、その
一例として、文献「日本音響学会編音響工学講座７改訂
音声」（中田和男、コロナ社、ｐ．１３０−１３１）に
記載されているスペクトルサブトラクション法を用いる
従来の音声認識装置の説明を行う。

【０００３】図８は従来の音声認識装置の構成を示すブ
ロック図である。図８において、１０１は雑音重畳音声
入力に対してスペクトル分析を施し雑音重畳音声スペク
トル時系列を抽出演算するスペクトル演算手段、１０２
は非音声区間のスペクトルを平均し雑音スペクトルとし
て出力する平均スペクトル演算手段、１０３は雑音重畳
音声スペクトル時系列から雑音スペクトルを減算し雑音
除去スペクトル時系列を出力する雑音除去スペクトル演
算手段、１０４は雑音除去スペクトル時系列から特徴ベ
クトル時系列を求める特徴ベクトル演算手段、１０５は
照合用の雑音無し音声パターンを記憶する照合モデルメ
モリ、１０６は特徴ベクトル時系列に対して、照合モデ
ルメモリ１０５が記憶する雑音無し音声パターンとの照
合処理を行い、最大の尤度を与える認識結果を出力する
照合手段である。

【０００４】以下、従来の音声認識装置の動作について
説明する。スペクトル演算手段１０１では、雑音重畳音
声入力に対して、一定時間ごとにフーリエ変換によりパ
ワースペクトルを計算し、雑音重畳音声スペクトルの時
系列として出力する。また、平均スペクトル演算手段１
０２では、雑音重畳音声スペクトル時系列の中の非音声
区間、例えば音声区間の直前、もしくは音声発声中の休
止区間から抽出した数フレーム分の雑音重畳音声スペク
トルを各周波数毎に平均し、雑音スペクトルとして出力
する。雑音除去スペクトル演算手段１０３では雑音重畳
音声スペクトルの時系列の各雑音重畳音声スペクトルか
ら雑音スペクトルを減算する。

【０００５】ここで、雑音除去音声スペクトルの周波数
ωにおけるパワーＳ（ω）、雑音重畳音声スペクトルの
周波数ωにおけるパワーＸ（ω）、および推定雑音スペ
クトルの周波数ωにおけるパワーＮ（ω）の関係を示す
と式（１）のとおりである。

【０００６】

【数１】

【０００７】なお、αはサブトラクト係数と呼ばれるパ
ラメータで、雑音成分を除去する程度を表し、通常、認
識精度を最大にするように調整する。また、ｍａｘ｛｝
は、括弧内の要素の中で最大の値の要素を返す関数であ
る。

【０００８】特徴ベクトル演算手段１０４は、雑音除去
スペクトル演算手段１０３が出力する雑音除去音声スペ
クトル時系列から、ＬＰＣ（Linear Predictive Codin
g）ケプストラムなどの音声認識において音響的な特徴
を表現するベクトルに変換する。

【０００９】照合手段１０６は、特徴ベクトル演算手段
１０４が出力する特徴ベクトル時系列に対して、照合モ
デルメモリ１０５が記憶する雑音無し音声パターンとの
照合を行い、最大尤度を与える認識候補を認識結果とし
て出力する。ここでは、照合手段の一例として、文献
「音声認識の基礎（下）」（Lawrence Rabiner, Biing-
Hwang Juang 共著、ＮＴＴアドバンステクノロジ株式会
社、ｐ．１２５−１２８）に記載されている、隠れマル
コフモデル（以下ＨＭＭという）を用いた音声認識装置
における、Viterbiサーチを用いた最大尤度の演算方法
を説明する。

【００１０】すなわち、時刻１〜Ｔまでの特徴ベクトル
時系列Ｙ＝（ｙ₁，ｙ₂，・・・，ｙ _T）に対して尤度最
大となる一本の最適状態系列ｑ＝（ｑ₁，ｑ₂，・・・，
ｑ_T）を見つけるViterbiサーチは以下の４つのステップ
から構成される。

【００１１】ＳＴＥＰ１（初期化）

【００１２】

【数２】

【００１３】

【数３】

【００１４】ＳＴＥＰ２（繰り返し）

【００１５】

【数４】

【００１６】

【数５】

【００１７】ＳＴＥＰ３（終了）

【００１８】

【数６】

【００１９】

【数７】

【００２０】ＳＴＥＰ４（バックトラック）

【００２１】

【数８】

【００２２】ここで、δ_t（ｉ）は一本のパス上の、時
刻ｔでの最大尤度であり、以下の式で表される。

【００２３】

【数９】

【００２４】式（２）〜（８）において、Ψ_t（ｊ）は
各時刻ｔ、各状態ｊで式（９）を最大にする経路の引数
を記憶する配列である。また、ａ_ijは状態ｉから状態ｊ
への遷移確率、ｂ_i（ｙ_t）は状態ｉにおける特徴ベクト
ルｙ_tの出力確率、π_iは初期状態で状態ｉに存在する確
率、λは照合用音声モデルを表し、それぞれ雑音の無い
環境下で発声した音声データから学習される。

【００２５】一般的な音声認識装置では、照合用音声パ
ターンの状態遷移を、図９に示すような状態遷移に制約
のついたLeft-to-rightのＨＭＭモデルで表現する。な
お、ｂ_i（ｙ）は状態ｉにおける特徴ベクトルｙの出力
確率である。

【００２６】照合用音声パターンの状態遷移をLeft-to-
rightのＨＭＭモデルで表現する場合のViterbiサーチの
様子を図１０に示す。図１０は、時刻ｔ、状態ｊにおけ
る最大尤度δ_t（ｊ）が、時刻ｔ−１、状態ｊにおける
最大尤度δ_tー1（ｊ）と時刻ｔ−１、状態ｊ−１におけ
る最大尤度δ _tー1（ｊ−１）から、尤度最大になるよう
なパスが選択されることによって演算されることを示し
ている。

【００２７】以上の動作により、入力される雑音重畳音
声信号のスペクトル時系列に非音声区間の雑音区間の平
均スペクトルが重畳していると見なして、パワースペク
トル上で雑音成分を除去した上で雑音無し照合モデルと
の照合処理を施し、認識結果を得る。

【００２８】

【発明が解決しようとしする課題】従来のスペクトルサ
ブトラクション法を用いた騒音下音声認識装置は上記の
ように構成されているため、発声直前等の雑音の平均ス
ペクトルと実際の音声区間に重畳している雑音スペクト
ルの差が小さい場合、即ち環境騒音の変動が小さい場合
は比較的良好に動作する。しかし、騒音源が移動物であ
り、音声信号の入力端から騒音源までの距離が変化する
場合や、環境騒音が非定常で変動が大きい場合は、推定
した雑音スペクトルと実際に音声に重畳している雑音ス
ペクトルとの推定誤差が大きくなり、認識性能が劣化す
るという問題があった。

【００２９】この発明は上記のような問題を解決するた
めのもので、音声信号の入力端と騒音源との距離の変化
による認識性能劣化を削減することができる音声認識装
置及び方法を得ることを目的としている。また、環境騒
音の変動による認識性能劣化を削減することができる音
声認識装置及び方法を得ることを目的としている。

【００３０】

【課題を解決するための手段】この発明に係る音声認識
装置は、非音声区間を含む雑音重畳入力音声信号をスペ
クトル分析しスペクトル特徴パラメータを求め音声認識
処理を行う音声認識装置において、雑音重畳入力音声信
号をスペクトル分析し雑音重畳音声スペクトル時系列を
出力するスペクトル演算手段と、上記スペクトル演算手
段から出力される雑音重畳音声スペクトル時系列の中の
非音声区間から重畳雑音のスペクトルを推定し雑音スペ
クトルとして出力する平均スペクトル演算手段と、上記
スペクトル演算手段から出力される雑音重畳音声スペク
トル時系列から上記平均スペクトル演算手段から出力さ
れる雑音スペクトルを減算する際の当該雑音スペクトル
に対する倍率を変えて複数種類の雑音除去音声スペクト
ル時系列を出力する雑音除去スペクトル群演算手段と、
上記雑音除去スペクトル群演算手段から出力される複数
種類の雑音除去音声スペクトル時系列を複数種類の特徴
ベクトル時系列に変換する特徴ベクトル群演算手段と、
雑音のない環境下で発声した音声データを用いて学習し
た雑音無し音声パターンと特徴ベクトルの種類の遷移を
表したモデルを記憶してなる照合モデルメモリと、上記
特徴ベクトル群演算手段から出力される複数種類の雑音
除去音声特徴ベクトル時系列に対して、時刻、状態、特
徴ベクトルの種類の３軸からなる３次元空間内で、上記
照合モデルメモリに記憶された雑音無し音声パターンと
特徴ベクトルの種類の遷移を表したモデルとの照合を行
い認識結果を出力する３次元照合手段とを備えたことを
特徴とするものである。

【００３１】また、上記平均スペクトル演算手段から出
力される雑音スペクトル、及び予め大量の雑音データか
らクラスタリング手法を用いて学習した複数種類の雑音
スペクトルパターンを記憶する雑音スペクトルメモリを
さらに備え、上記雑音除去スペクトル演算手段は、上記
スペクトル演算手段から出力される雑音重畳音声スペク
トル時系列の各雑音重畳音声スペクトルから、上記雑音
ベクトルに対する複数種類の倍率と、上記雑音スペクト
ルメモリに記憶された複数種類の雑音スペクトルパター
ンとを組み合わせて、複数種類の雑音除去音声スペクト
ルを求めることを特徴とするものである。

【００３２】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移を表したモデルとして、特徴ベクトル
の種類の遷移に制約を加えないモデルを記憶したことを
特徴とするものである。

【００３３】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移に制約を加えないモデルとして、全て
の種類に遷移可能なelgotic 隠れマルコフモデルを記憶
したことを特徴とするものである。

【００３４】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移を表したモデルとして、特徴ベクトル
の種類の遷移に制約を加えたモデルを記憶したことを特
徴とするものである。

【００３５】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移に制約を加えたモデルとして、隣接す
る特徴ベクトルの種類間のみ遷移可能な隠れマルコフモ
デルを記憶したことを特徴とするものである。

【００３６】また、この発明に係る音声認識方法は、非
音声区間を含む雑音重畳入力音声信号をスペクトル分析
しスペクトル特徴パラメータを求め音声認識処理を行う
音声認識方法において、雑音重畳入力音声に対しスペク
トル分析を施し雑音重畳音声スペクトル時系列を得るス
ペクトル演算工程と、上記スペクトル演算工程で得られ
る雑音重畳音声スペクトル時系列の中の非音声区間から
重畳雑音のスペクトルを推定し雑音スペクトルとして得
る平均スペクトル演算工程と、上記スペクトル演算工程
で得られる雑音重畳音声スペクトル時系列から上記平均
スペクトル演算工程で得られる雑音スペクトルを減算す
る際の当該雑音スペクトルに対する倍率を変えて複数種
類の雑音除去音声スペクトル時系列を得る雑音除去スペ
クトル群演算工程と、上記雑音除去スペクトル群演算工
程で得られる複数種類の雑音除去音声スペクトル時系列
を複数種類の特徴ベクトル時系列に変換する特徴ベクト
ル群演算工程と、上記特徴ベクトル群演算工程で得られ
る複数種類の雑音除去音声特徴ベクトル時系列に対し
て、時刻、状態、特徴ベクトルの種類の３軸からなる３
次元空間内で、雑音のない環境下で発声した音声データ
を用いて学習した雑音無し音声パターンと特徴ベクトル
の種類の遷移を表したモデルとの照合を行いその認識結
果を得る３次元照合工程とを備えたことを特徴とするも
のである。

【００３７】また、上記雑音除去スペクトル演算工程
は、上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列の各雑音重畳音声スペクトルから、上記
雑音ベクトルに対する複数種類の倍率と、予め大量の雑
音データからクラスタリング手法を用いて学習した複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求めることを特徴とす
るものである。

【００３８】また、上記３次元照合工程は、特徴ベクト
ルの種類の遷移を表したモデルとして、特徴ベクトルの
種類の遷移に制約を加えないモデルを用いたことを特徴
とするものである。

【００３９】また、上記３次元照合工程は、上記特徴ベ
クトルの種類の遷移に制約を加えないモデルとして、全
ての種類に遷移可能なelgotic 隠れマルコフモデルを用
いたことを特徴とするものである。

【００４０】また、上記３次元照合工程は、特徴ベクト
ルの種類の遷移を表したモデルとして、特徴ベクトルの
種類の遷移に制約を加えたモデルを用いたことを特徴と
するものである。

【００４１】さらに、上記３次元照合工程は、特徴ベク
トルの種類の遷移に制約を加えたモデルとして、隣接す
る特徴ベクトルの種類間のみ遷移可能な隠れマルコフモ
デルを用いたことを特徴とするものである。

【００４２】

【発明の実施の形態】実施の形態１．図１はこの発明の
実施の形態１に係る音声認識装置及び方法を説明するた
めの構成を示すブロック図である。図１において、図８
に示す従来例と同一部分は同一符号を付して示すものと
し、１０１は雑音重畳音声入力に対してスペクトル分析
を施し雑音重畳音声スペクトル時系列を抽出するスペク
トル演算手段、１０２は上記スペクトル演算手段１０１
から出力される雑音重畳音声スペクトル時系列の中の非
音声区間のスペクトルを平均し、雑音スペクトルとして
出力する平均スペクトル演算手段である。

【００４３】また、新たな符号として、２０１は上記ス
ペクトル演算手段１０１から出力される雑音重畳音声ス
ペクトル時系列から上記平均スペクトル演算手段１０２
から出力される雑音スペクトルを減算する際の雑音スペ
クトルに対する倍率を変えて雑音スペクトルを減算し、
複数種類の雑音除去スペクトル時系列を出力する雑音除
去スペクトル群演算手段、２０２は複数種類の雑音除去
スペクトル時系列を複数種類の特徴ベクトル時系列に変
換する特徴ベクトル群演算手段、２０３は上記特徴ベク
トル群演算手段２０２から出力される複数種類の雑音除
去音声特徴ベクトル時系列に対して、時刻、状態、特徴
ベクトルの種類の３軸からなる３次元空間内で、後述す
る照合モデルメモリ２０５が記憶する雑音無し音声パタ
ーンと特徴ベクトルの種類の遷移を表したモデルとの照
合を行い認識結果を出力する３次元照合手段、２０５は
雑音のない環境下で発生した音声データを用いて学習し
た雑音無し音声パターンと特徴ベクトルの種類の遷移を
表したモデルを記憶してなる照合モデルメモリである。

【００４４】この図１に示す実施の形態１に係る音声認
識装置は、上述した図１に示すブロック図により構成さ
れるものであるが、対応する音声認識方法を構成する工
程としては次に示す工程を備える。ａ．雑音重畳入力音声に対しスペクトル分析を施し雑音
重畳音声スペクトル時系列を得るスペクトル演算工程、ｂ．上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列の中の非音声区間から重畳雑音のスペク
トルを推定し雑音スペクトルとして得る平均スペクトル
演算工程、ｃ．上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列から上記平均スペクトル演算工程で得ら
れる雑音スペクトルを減算する際の当該雑音スペクトル
に対する倍率を変えて複数種類の雑音除去音声スペクト
ル時系列を得る雑音除去スペクトル群演算工程、ｄ．上記雑音除去スペクトル群演算工程で得られる複数
種類の雑音除去音声スペクトル時系列を複数種類の特徴
ベクトル時系列に変換する特徴ベクトル群演算工程、ｅ．上記特徴ベクトル群演算工程で得られる複数種類の
雑音除去音声特徴ベクトル時系列に対して、時刻、状
態、特徴ベクトルの種類の３軸からなる３次元空間内
で、雑音のない環境下で発声した音声データを用いて学
習した雑音無し音声パターンと特徴ベクトルの種類の遷
移を表したモデルとの照合を行いその認識結果を得る３
次元照合工程。

【００４５】次に、上記構成に係る実施の形態１の動作
について説明する。スペクトル演算手段１０１及び平均
スペクトル演算手段１０２の動作は従来例の動作と同様
なため、ここでは説明を省略する。雑音除去スペクトル
群演算手段２０１では、雑音重畳音声スペクトルの時系
列の各雑音重畳音声スペクトルから、Ｖ種類（複数種
類）のサブトラクト係数α^(k ⁾，（１≦ｋ≦Ｖ）を用い
て、雑音スペクトルを減算し、Ｖ種類の雑音除去音声ス
ペクトルＳ^(k)（ω）を求める。ここでは、以下のよう
に０.５刻みにα^(k)の値を設定する。

【００４６】

【数１０】

【００４７】ここで、Ｓ^(k)（ω）はｋ種類目の雑音除
去音声スペクトルの周波数ωにおけるパワー、Ｘ（ω）
は雑音重畳音声スペクトルの周波数ωにおけるパワーを
表す。このようにして、Ｖ種類の雑音除去音声スペクト
ル時系列Ｓ⁽¹⁾（ω），Ｓ⁽²⁾（ω），・・・，Ｓ^(v)（ω）（ただしＳ^(k)（ω）＝（Ｓ₁ ^(k)（ω），Ｓ
₂ ^(k)（ω），・・・，Ｓ_T ^(k)（ω）））を求める。

【００４８】特徴ベクトル群演算手段２０２では、雑音
除去スペクトル群演算手段２０１が出力するＶ種類の雑
音除去音声スペクトル時系列Ｓ⁽¹⁾（ω），Ｓ
⁽²⁾（ω），・・・，Ｓ^(v)（ω）を従来例と同様に、Ｌ
ＰＣケプストラムなどの音声認識において音響的な特徴
を表現するＶ種類の特徴ベクトル時系列Ｙ⁽¹⁾，Ｙ⁽²⁾，
・・・，Ｙ^(v)（ただしＹ^(k)＝Ｙ₁ ^(k)，Ｙ₂ ^(k)，・・
・，Ｙ_T ^(k)）に変換する。

【００４９】３次元照合処理手段２０３では、特徴ベク
トル群演算手段２０２が出力するＶ種類の特徴ベクトル
時系列Ｙ⁽¹⁾，Ｙ⁽²⁾，・・・，Ｙ^(v)に対して、時刻、
状態、特徴ベクトルの種類の３軸からなる３次元空間内
で照合を行い、最大尤度を与える認識候補を認識結果と
して出力する。

【００５０】特徴ベクトルの種類の遷移は、図２に示す
elgoticＨＭＭモデルで表現する。図２において、ｃ_kl
は特徴ベクトルの種類ｋから特徴ベクトルの種類ｌへの
遷移確率であり、各状態間は観測事象を出力しないナル
遷移で結ばれている。elgoticＨＭＭモデルを用いてい
るのは、本実施の形態１では特徴ベクトルの種類の遷移
に制約を付けないためである。

【００５１】尤度最大となる一本の最適な、状態及び特
徴ベクトルの種類の組み合わせの系列（ｑ、ｖ）＝（ｑ
₁、ｖ₁），（ｑ₂、ｖ₂），・・・，（ｑ_T、ｖ_T）を見つ
けるために、以下の４つのステップから構成される、３
次元に拡張したViterbiサーチを実行する。

【００５２】ＳＴＥＰ１（初期化）

【００５３】

【数１１】

【００５４】

【数１２】

【００５５】ＳＴＥＰ２（繰り返し）

【００５６】

【数１３】

【００５７】

【数１４】

【００５８】ＳＴＥＰ３（終了）

【００５９】

【数１５】

【００６０】

【数１６】

【００６１】ＳＴＥＰ４（バックトラック）

【００６２】

【数１７】

【００６３】ここで、δ_t（ｉ，ｋ）は時刻、状態、特
徴ベクトルの種類の３軸から構成される３次元空間内の
一本のパス上の、時刻ｔ、状態ｉ、特徴ベクトルの種類
ｋでの最大尤度であり、以下の式で表される。

【００６４】

【数１８】

【００６５】式（１１）〜（１７）において、Ψ
_t（ｊ，ｌ）は各時刻ｔ、各状態ｊ、特徴ベクトルの種
類ｌで式（１８）を最大にする経路の引数を記憶する２
次元配列である。また、ｂ_i（ｙ_t ^(k)）は状態ｉにおけ
る特徴ベクトルｙ_t ^(k)の出力確率、ｃ_klは特徴ベクトル
の種類ｋから特徴ベクトルの種類ｌへの遷移確率、ρ_k
は初期状態で特徴ベクトルの種類がｋである確率であ
る。

【００６６】図３は照合用音声パターンの状態遷移をLe
ft-to-right のＨＭＭモデルで表現し、特徴ベクトルの
種類の遷移をelgotic ＨＭＭモデルで表現する場合の３
次元Viterbiサーチの様子を表したものである。

【００６７】また、図４は、図３における時刻ｔ−１〜
ｔの範囲を抽出した図であり、時刻ｔ、状態ｊ、特徴ベ
クトルの種類ｌにおける最大尤度δ_t（ｊ，ｌ）が、時
刻ｔ−１、状態ｊ、特徴ベクトルの種類ｋにおける最大
尤度δ_tー1（ｊ，ｋ）（ただし（１≦ｋ≦Ｖ））と、時
刻ｔ−１、状態ｊ−１、特徴ベクトルの種類ｋ（におけ
る最大尤度δ_tー1（ｊ−１，ｋ）（ただし（１≦ｋ≦
Ｖ））とから、尤度最大になるようなパスが選択される
ことによって演算されることを示している。

【００６８】以下、実施の形態１に対する作用効果を述
べる。従来の騒音下音声認識装置では、非音声区間から
推定した雑音スペクトルが全音声区間に一様に重畳して
いると仮定し、評価データに対して認識性能が最大にな
るように調整した唯一つのサブトラクト係数αの値を用
いていた。しかし、騒音源と音声入力端の距離が時刻と
共に変動する場合には、ある時刻において音声に重畳す
る雑音スペクトルのパワーが雑音推定時の雑音スペクト
ルのパワーと異なるため、雑音スペクトルを引き過ぎた
り、引かな過ぎたりすることが起こり、正確な雑音除去
音声スペクトルを求めることができない。その結果とし
て、雑音無し音声パターンとのミスマッチが起き認識率
が劣化する。

【００６９】文献「並列ＨＭＭ法とスペクトルサブトラ
クションによる非定常雑音騒音下における音声認識」
（嶺竜治、電子情報通信学会論文誌（Ｄ−II）、Ｖｏ
ｌ．Ｊ−７８−Ｄ−II、Ｎｏ．７、ｐｐ．１０２１−１
０２７、１９９５）では、雑音ＨＭＭをelgotic ＨＭＭ
で表現し、スペクトルサブトラクション後の雑音除去音
声特徴ベクトルに対して、時刻、音声モデルの状態、雑
音モデルの状態の３次元空間上で照合処理を行うことに
よって非定常な雑音環境下での認識性能を向上させてい
る。しかし、上記文献には、サブトラクト係数の値につ
いての記述はないこと、本実施の形態１では、雑音モデ
ルではなく、特徴ベクトルの種類の遷移をモデル化して
いることから、両者は別の技術であるといえる。

【００７０】本実施の形態１に係る音声認識装置及び方
法では、各時刻ｔ毎にＶ種類のサブトラクト係数α^(k)
を用いて演算されたＶ種類の特徴ベクトル候補が存在す
る。各時刻ｔにおける特徴ベクトルの種類ｋは、尤度が
最大となるように選択されるため、騒音源と音声入力端
の距離が変動しても雑音スペクトルを引き過ぎたり、引
かな過ぎたりすることを防ぎ、認識率の劣化を抑えるこ
とができる。

【００７１】また、本実施の形態１に係る音声認識装置
及び方法では、特徴ベクトルの種類の遷移を表したモデ
ルとして、特徴ベクトルの種類の遷移に制限を加えず
に、すべての種類に遷移可能なelgotic ＨＭＭモデルを
用いているが、特徴ベクトルの種類の遷移に制限を加え
たモデルとして、雑音除去時のサブトラクト係数α^(k)
の値が隣接する特徴ベクトルの種類間のみ遷移可能にし
た図５に示すＨＭＭモデルを用いることで、重畳雑音パ
ワーの時間的変化を適切にモデル化することが可能であ
る。

【００７２】実施の形態２．次に、図６はこの発明の実
施の形態２に係る音声認識装置及び方法を説明するため
の構成を示すブロック図である。図６において、図１に
示す実施の形態１と同一部分は同一符号を付して示し、
その説明は省略する。新たな符号として、２０４は平均
スペクトル演算手段１０２から出力される雑音スペクト
ル及び予め大量の雑音データからクラスタリング手法を
用いて学習した複数種類の雑音スペクトルパターンを記
憶する雑音スペクトルメモリであり、雑音除去スペクト
ル演算手段２０１は、スペクトル演算手段１０１から出
力される雑音重畳音声スペクトル時系列の各雑音重畳音
声スペクトルから雑音ベクトルに対する複数種類の倍率
と、上記雑音スペクトルメモリ２０４に記憶された複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求めるようになされて
いる。

【００７３】なお、実施の形態２に係る音声認識装置
は、上述した図６に示すブロック図により構成されるも
のであるが、対応する音声認識方法を構成する工程とし
ては、前述した実施の形態１に係る雑音除去スペクトル
演算工程が、スペクトル演算工程で得られる雑音重畳音
声スペクトル時系列の各雑音重畳音声スペクトルから、
雑音ベクトルに対する複数種類の倍率と、予め大量の雑
音データからクラスタリング手法を用いて学習した複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求める点が異なるのみ
である。

【００７４】次に上記構成に係る実施の形態２の動作に
ついて説明する。スペクトル演算手段１０１及び平均ス
ペクトル演算手段１０２の動作は従来例の動作と同様な
ため、ここでは説明を省略する。雑音スペクトルメモリ
２０４では、平均スペクトル演算手段１０２が出力する
雑音スペクトル及びに予め大量の雑音データからクラス
タリング手法を用いて学習した、Ｖ₂ 種類の代表雑音ス
ペクトルパターンを記憶する。

【００７５】雑音除去スペクトル群演算手段２０１で
は、雑音重畳音声スペクトルの時系列の各雑音重畳音声
スペクトルから、Ｖ₁ 種類のサブトラクト係数α^(k1)，
（１≦ｋ₁≦Ｖ₁）と、Ｖ₂ 種類の雑音スペクトルパター
ンＮ_k2（ω），（１≦ｋ₂≦Ｖ₂）を組み合わせ、合計Ｖ
＝Ｖ₁Ｖ₂種類の雑音除去音声スペクトルＳ^(k)（ω），
（１≦ｋ≦Ｖ）を求める。ここでは、以下のように０.
５刻みにα^(k1)の値を設定する。

【００７６】

【数１９】

【００７７】ここで、Ｓ^(k)（ω）はｋ種類目の雑音除
去音声スペクトルの周波数ωにおけるパワー、Ｘ（ω）
は雑音重畳音声スペクトルの周波数ωにおけるパワー、
Ｎ（ω）は推定雑音スペクトルの周波数ωにおけるパワ
ーをそれぞれ表す。このようにして、Ｖ種類の雑音除去
音声スペクトル時系列Ｓ⁽¹⁾（ω），Ｓ⁽²⁾（ω），・・
・，Ｓ^(V)（ω）（ただし、Ｓ^(k)（ω）＝（Ｓ
₁ ^(k)（ω），Ｓ₂ ^(k)（ω），・・・，Ｓ_T ^(k)（ω））を
求める。

【００７８】特徴ベクトル群演算手段２０２と３次元照
合手段２０３の動作は実施の形態１と同様なため、ここ
では説明を省略する。

【００７９】以下、実施の形態２に係る音声認識装置及
び方法に関する効果を述べる。従来の騒音下音声認識装
置では、非音声区間から推定した雑音スペクトルが全音
声区間に一様に重畳していると仮定している。しかし、
走行自動車内等の非定常騒音環境下のように、時刻と共
に音声に重畳するスペクトルのパターンが変動する場合
には、ある時刻において音声に重畳する雑音スペクトル
のパターンが平均スペクトル演算時の雑音スペクトルの
パターンと異なるため、正確な雑音除去音声スペクトル
を求めることができない。その結果として雑音無し音声
パターンとのミスマッチが起き認識率が劣化する。

【００８０】また、実施の形態１の音声認識装置及び方
法では、スペクトルパワーの変動には対応できるもの
の、単一の雑音スペクトルパターンのみを用いるため、
スペクトルパターンの変動については対応できない。本
実施の形態２に係る音声認識装置及び方法では、各時刻
ｔ毎に、Ｖ₁種類のサブトラクト係数α^(k1)とＶ₂ 種類
の雑音スペクトルパターンＮ_k2（ω）を用いて演算され
た、Ｖ＝Ｖ₁Ｖ₂ 種類の特徴ベクトル候補が存在する。
各時刻ｔにおける特徴ベクトルの種類ｋは、尤度が最大
となるように選択されるため、騒音源と音声入力端の距
離や音声に重畳する雑音スペクトルパターンが変動して
も、認識率の劣化を抑えることができる。

【００８１】また、本実施の形態２に係る音声認識装置
及び方法では、特徴ベクトルの種類の遷移を表したモデ
ルとして、特徴ベクトルの種類の遷移に制限を加えず
に、すべての種類に遷移可能なelgotic ＨＭＭモデルを
用いているが、特徴ベクトルの種類の遷移に制限を加え
たモデルとして、雑音除去時の雑音スペクトルパターン
Ｎ_k2（ω）が類似する、もしくは雑音除去時のサブトラ
クト係数α^(k)の値が隣接する特徴ベクトルの種類間の
み遷移可能にした図７に示すＨＭＭモデルを用いること
で、雑音スペクトルの時間的変化及び重畳雑音パワーの
時間的変化を適切にモデル化することが可能である。

【００８２】

【発明の効果】以上のように、この発明によれば、各時
刻毎に複数種類のサブトラクト係数を用いて演算された
複数種類の特徴ベクトル候補が存在し、各時刻における
特徴ベクトルの種類は、尤度が最大となるように選択さ
れるため、騒音源と音声入力端の距離が変動しても雑音
スペクトルを引き過ぎたり、引かな過ぎたりすることを
防ぎ、認識率の劣化を抑えることができ、音声信号の入
力端と騒音源との距離の変化による認識性能劣化を削減
することができる。

【００８３】また、音声に重畳する雑音スペクトルパタ
ーンが変動しても、認識率の劣化を抑えることができ、
環境騒音の変動による認識性能劣化を削減することがで
きる。

【００８４】また、特徴ベクトルの種類の遷移を表した
モデルとして、特徴ベクトルの種類の遷移に制限を加え
ないモデルを用いることにより、認識率の劣化を抑える
ことができる。

【００８５】また、特徴ベクトルの種類の遷移に制限を
加えないモデルとして、すべての種類に遷移可能なelgo
tic ＨＭＭモデルを用いることにより、認識率の劣化を
抑えることができる。

【００８６】また、特徴ベクトルの種類の遷移を表した
モデルとして、特徴ベクトルの種類の遷移に制限を加え
たモデルを用いることにより、重畳雑音パワーの時間的
変化を適切にモデル化することができる。

【００８７】さらに、特徴ベクトルの種類の遷移に制限
を加えたモデルとして、隣接する特徴ベクトルの種類間
のみ遷移可能にしたＨＭＭモデルを用いることにより、
重畳雑音パワーの時間的変化を適切にモデル化すること
ができる。

【図面の簡単な説明】

【図１】この発明の実施の形態１に係る音声認識装置
及び方法を説明するための構成を示すブロック図であ
る。

【図２】この発明の実施の形態１に係る音声認識装置
及び方法を説明するもので、特徴ベクトルの種類の遷移
を表すelgoticＨＭＭモデルの説明図である。

【図３】この発明の実施の形態１に係る音声認識装置
及び方法を説明するもので、照合用音声パターンの状態
遷移をLeft-to-right のＨＭＭモデルで表現し、特徴ベ
クトルの種類の遷移をelgotic ＨＭＭモデルで表現する
場合の３次元Viterbiサーチの様子を表した説明図であ
る。

【図４】図３における時刻ｔ−１〜ｔの範囲を抽出し
た説明図である。

【図５】この発明の実施の形態１に係る音声認識装置
及び方法を説明するもので、隣接する特徴ベクトルの種
類間のみ遷移可能にしたＨＭＭモデルの説明図である。

【図６】この発明の実施の形態２に係る音声認識装置
及び方法を説明するための構成を示すブロック図であ
る。

【図７】この発明の実施の形態２に係る音声認識装置
及び方法を説明するもので、隣接する特徴ベクトルの種
類間のみ遷移可能にしたＨＭＭモデルの説明図である。

【図８】従来例の音声認識装置の構成を示すブロック
図である。

【図９】従来例の照合用音声パターンの状態遷移を状
態遷移に制約のついたLeft-to-rightのＨＭＭモデルで
表現する説明図である。

【図１０】照合用音声パターンの状態遷移をLeft-to-
rightのＨＭＭモデルで表現する場合のViterbiサーチの
様子を示す説明図である。

【符号の説明】

１０１スペクトル演算手段、１０２平均スペクトル
演算手段、２０１雑音除去スペクトル群演算手段、２
０２特徴ベクトル群演算手段、２０３３次元照合手
段、２０４雑音スペクトルメモリ、２０５照合モデ
ルメモリ。

Claims

【特許請求の範囲】

【請求項１】非音声区間を含む雑音重畳入力音声信号
をスペクトル分析しスペクトル特徴パラメータを求め音
声認識処理を行う音声認識装置において、雑音重畳入力音声信号をスペクトル分析し雑音重畳音声
スペクトル時系列を出力するスペクトル演算手段と、上記スペクトル演算手段から出力される雑音重畳音声ス
ペクトル時系列の中の非音声区間から重畳雑音のスペク
トルを推定し雑音スペクトルとして出力する平均スペク
トル演算手段と、上記スペクトル演算手段から出力される雑音重畳音声ス
ペクトル時系列から上記平均スペクトル演算手段から出
力される雑音スペクトルを減算する際の当該雑音スペク
トルに対する倍率を変えて複数種類の雑音除去音声スペ
クトル時系列を出力する雑音除去スペクトル群演算手段
と、上記雑音除去スペクトル群演算手段から出力される複数
種類の雑音除去音声スペクトル時系列を複数種類の特徴
ベクトル時系列に変換する特徴ベクトル群演算手段と、雑音のない環境下で発声した音声データを用いて学習し
た雑音無し音声パターンと特徴ベクトルの種類の遷移を
表したモデルを記憶してなる照合モデルメモリと、上記特徴ベクトル群演算手段から出力される複数種類の
雑音除去音声特徴ベクトル時系列に対して、時刻、状
態、特徴ベクトルの種類の３軸からなる３次元空間内
で、上記照合モデルメモリに記憶された雑音無し音声パ
ターンと特徴ベクトルの種類の遷移を表したモデルとの
照合を行い認識結果を出力する３次元照合手段とを備え
たことを特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置におい
て、上記平均スペクトル演算手段から出力される雑音ス
ペクトル、及び予め大量の雑音データからクラスタリン
グ手法を用いて学習した複数種類の雑音スペクトルパタ
ーンを記憶する雑音スペクトルメモリをさらに備え、上
記雑音除去スペクトル演算手段は、上記スペクトル演算
手段から出力される雑音重畳音声スペクトル時系列の各
雑音重畳音声スペクトルから、上記雑音ベクトルに対す
る複数種類の倍率と、上記雑音スペクトルメモリに記憶
された複数種類の雑音スペクトルパターンとを組み合わ
せて、複数種類の雑音除去音声スペクトルを求めること
を特徴とする音声認識装置。
【請求項３】請求項１または２に記載の音声認識装置
において、上記照合モデルメモリは、特徴ベクトルの種
類の遷移を表したモデルとして、特徴ベクトルの種類の
遷移に制約を加えないモデルを記憶したことを特徴とす
る音声認識装置。
【請求項４】請求項３に記載の音声認識装置におい
て、上記照合モデルメモリは、特徴ベクトルの種類の遷
移に制約を加えないモデルとして、全ての種類に遷移可
能なelgotic 隠れマルコフモデルを記憶したことを特徴
とする音声認識装置。
【請求項５】請求項１または２に記載の音声認識装置
において、上記照合モデルメモリは、特徴ベクトルの種
類の遷移を表したモデルとして、特徴ベクトルの種類の
遷移に制約を加えたモデルを記憶したことを特徴とする
音声認識装置。
【請求項６】請求項５に記載の音声認識装置におい
て、上記照合モデルメモリは、特徴ベクトルの種類の遷
移に制約を加えたモデルとして、隣接する特徴ベクトル
の種類間のみ遷移可能な隠れマルコフモデルを記憶した
ことを特徴とする音声認識装置。
【請求項７】非音声区間を含む雑音重畳入力音声信号
をスペクトル分析しスペクトル特徴パラメータを求め音
声認識処理を行う音声認識方法において、雑音重畳入力音声に対しスペクトル分析を施し雑音重畳
音声スペクトル時系列を得るスペクトル演算工程と、上記スペクトル演算工程で得られる雑音重畳音声スペク
トル時系列の中の非音声区間から重畳雑音のスペクトル
を推定し雑音スペクトルとして得る平均スペクトル演算
工程と、上記スペクトル演算工程で得られる雑音重畳音声スペク
トル時系列から上記平均スペクトル演算工程で得られる
雑音スペクトルを減算する際の当該雑音スペクトルに対
する倍率を変えて複数種類の雑音除去音声スペクトル時
系列を得る雑音除去スペクトル群演算工程と、上記雑音除去スペクトル群演算工程で得られる複数種類
の雑音除去音声スペクトル時系列を複数種類の特徴ベク
トル時系列に変換する特徴ベクトル群演算工程と、上記特徴ベクトル群演算工程で得られる複数種類の雑音
除去音声特徴ベクトル時系列に対して、時刻、状態、特
徴ベクトルの種類の３軸からなる３次元空間内で、雑音
のない環境下で発声した音声データを用いて学習した雑
音無し音声パターンと特徴ベクトルの種類の遷移を表し
たモデルとの照合を行いその認識結果を得る３次元照合
工程とを備えたことを特徴とする音声認識方法。
【請求項８】請求項７に記載の音声認識方法におい
て、上記雑音除去スペクトル演算工程は、上記スペクト
ル演算工程で得られる雑音重畳音声スペクトル時系列の
各雑音重畳音声スペクトルから、上記雑音ベクトルに対
する複数種類の倍率と、予め大量の雑音データからクラ
スタリング手法を用いて学習した複数種類の雑音スペク
トルパターンとを組み合わせて、複数種類の雑音除去音
声スペクトルを求めることを特徴とする音声認識方法。
【請求項９】請求項７または８に記載の音声認識方法
において、上記３次元照合工程は、特徴ベクトルの種類
の遷移を表したモデルとして、特徴ベクトルの種類の遷
移に制約を加えないモデルを用いたことを特徴とする音
声認識方法。
【請求項１０】請求項９に記載の音声認識方法におい
て、上記３次元照合工程は、上記特徴ベクトルの種類の
遷移に制約を加えないモデルとして、全ての種類に遷移
可能なelgotic 隠れマルコフモデルを用いたことを特徴
とする音声認識方法。
【請求項１１】請求項７たは８に記載の音声認識方法
において、上記３次元照合工程は、特徴ベクトルの種類
の遷移を表したモデルとして、特徴ベクトルの種類の遷
移に制約を加えたモデルを用いたことを特徴とする音声
認識方法。
【請求項１２】請求項１１に記載の音声認識方法にお
いて、上記３次元照合工程は、特徴ベクトルの種類の遷
移に制約を加えたモデルとして、隣接する特徴ベクトル
の種類間のみ遷移可能な隠れマルコフモデルを用いたこ
とを特徴とする音声認識方法。