[go: up one dir, main page]

JP2001067094A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法

Info

Publication number
JP2001067094A
JP2001067094A JP24285699A JP24285699A JP2001067094A JP 2001067094 A JP2001067094 A JP 2001067094A JP 24285699 A JP24285699 A JP 24285699A JP 24285699 A JP24285699 A JP 24285699A JP 2001067094 A JP2001067094 A JP 2001067094A
Authority
JP
Japan
Prior art keywords
noise
spectrum
speech
feature vector
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP24285699A
Other languages
English (en)
Inventor
Tomohiro Narita
知宏 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP24285699A priority Critical patent/JP2001067094A/ja
Publication of JP2001067094A publication Critical patent/JP2001067094A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声信号の入力端と騒音源との距離の変化や
環境騒音の変動による認識性能劣化を削減することがで
きる音声認識装置及び方法を得る。 【解決手段】 雑音重畳音声スペクトル時系列を得るス
ペクトル演算手段101、非音声区間から重畳雑音のス
ペクトルを推定し雑音スペクトルを得る平均スペクトル
演算手段102、雑音スペクトルに対する倍率を変えて
複数種類の雑音除去音声スペクトル時系列を得る雑音除
去スペクトル群演算手段201、複数種類の雑音除去音
声スペクトル時系列を複数種類の特徴ベクトル時系列に
変換する特徴ベクトル群演算手段202、雑音無し音声
パターンと特徴ベクトルの種類の遷移を表したモデルを
記憶してなる照合モデルメモリ205、時刻、状態、特
徴ベクトルの3軸でなる3次元空間内で、雑音無し音声
パターンと特徴ベクトルの種類の遷移を表したモデルと
の照合を行う3次元照合手段203を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、騒音環境下で発
声され雑音が重畳した音声を対象とする音声認識装置及
び方法に関するものである。
【0002】
【従来の技術】雑音環境下で発声された音声には背景雑
音が重畳しており音声認識率が劣化する。この重畳雑音
を除去するための簡単で有効な手法として、スペクトル
サブトラクション法が広く用いられる。ここでは、その
一例として、文献「日本音響学会編音響工学講座7改訂
音声」(中田和男、コロナ社、p.130−131)に
記載されているスペクトルサブトラクション法を用いる
従来の音声認識装置の説明を行う。
【0003】図8は従来の音声認識装置の構成を示すブ
ロック図である。図8において、101は雑音重畳音声
入力に対してスペクトル分析を施し雑音重畳音声スペク
トル時系列を抽出演算するスペクトル演算手段、102
は非音声区間のスペクトルを平均し雑音スペクトルとし
て出力する平均スペクトル演算手段、103は雑音重畳
音声スペクトル時系列から雑音スペクトルを減算し雑音
除去スペクトル時系列を出力する雑音除去スペクトル演
算手段、104は雑音除去スペクトル時系列から特徴ベ
クトル時系列を求める特徴ベクトル演算手段、105は
照合用の雑音無し音声パターンを記憶する照合モデルメ
モリ、106は特徴ベクトル時系列に対して、照合モデ
ルメモリ105が記憶する雑音無し音声パターンとの照
合処理を行い、最大の尤度を与える認識結果を出力する
照合手段である。
【0004】以下、従来の音声認識装置の動作について
説明する。スペクトル演算手段101では、雑音重畳音
声入力に対して、一定時間ごとにフーリエ変換によりパ
ワースペクトルを計算し、雑音重畳音声スペクトルの時
系列として出力する。また、平均スペクトル演算手段1
02では、雑音重畳音声スペクトル時系列の中の非音声
区間、例えば音声区間の直前、もしくは音声発声中の休
止区間から抽出した数フレーム分の雑音重畳音声スペク
トルを各周波数毎に平均し、雑音スペクトルとして出力
する。雑音除去スペクトル演算手段103では雑音重畳
音声スペクトルの時系列の各雑音重畳音声スペクトルか
ら雑音スペクトルを減算する。
【0005】ここで、雑音除去音声スペクトルの周波数
ωにおけるパワーS(ω)、雑音重畳音声スペクトルの
周波数ωにおけるパワーX(ω)、および推定雑音スペ
クトルの周波数ωにおけるパワーN(ω)の関係を示す
と式(1)のとおりである。
【0006】
【数1】
【0007】なお、αはサブトラクト係数と呼ばれるパ
ラメータで、雑音成分を除去する程度を表し、通常、認
識精度を最大にするように調整する。また、max{}
は、括弧内の要素の中で最大の値の要素を返す関数であ
る。
【0008】特徴ベクトル演算手段104は、雑音除去
スペクトル演算手段103が出力する雑音除去音声スペ
クトル時系列から、LPC(Linear Predictive Codin
g)ケプストラムなどの音声認識において音響的な特徴
を表現するベクトルに変換する。
【0009】照合手段106は、特徴ベクトル演算手段
104が出力する特徴ベクトル時系列に対して、照合モ
デルメモリ105が記憶する雑音無し音声パターンとの
照合を行い、最大尤度を与える認識候補を認識結果とし
て出力する。ここでは、照合手段の一例として、文献
「音声認識の基礎(下)」(Lawrence Rabiner, Biing-
Hwang Juang 共著、NTTアドバンステクノロジ株式会
社、p.125−128)に記載されている、隠れマル
コフモデル(以下HMMという)を用いた音声認識装置
における、Viterbiサーチを用いた最大尤度の演算方法
を説明する。
【0010】すなわち、時刻1〜Tまでの特徴ベクトル
時系列Y=(y1,y2,・・・,y T )に対して尤度最
大となる一本の最適状態系列q=(q1,q2,・・・,
T)を見つけるViterbiサーチは以下の4つのステップ
から構成される。
【0011】STEP1(初期化)
【0012】
【数2】
【0013】
【数3】
【0014】STEP2(繰り返し)
【0015】
【数4】
【0016】
【数5】
【0017】STEP3(終了)
【0018】
【数6】
【0019】
【数7】
【0020】STEP4(バックトラック)
【0021】
【数8】
【0022】ここで、δt(i)は一本のパス上の、時
刻tでの最大尤度であり、以下の式で表される。
【0023】
【数9】
【0024】式(2)〜(8)において、Ψt(j)は
各時刻t、各状態jで式(9)を最大にする経路の引数
を記憶する配列である。また、aijは状態iから状態j
への遷移確率、bi(yt)は状態iにおける特徴ベクト
ルytの出力確率、πiは初期状態で状態iに存在する確
率、λは照合用音声モデルを表し、それぞれ雑音の無い
環境下で発声した音声データから学習される。
【0025】一般的な音声認識装置では、照合用音声パ
ターンの状態遷移を、図9に示すような状態遷移に制約
のついたLeft-to-rightのHMMモデルで表現する。な
お、bi(y)は状態iにおける特徴ベクトルyの出力
確率である。
【0026】照合用音声パターンの状態遷移をLeft-to-
rightのHMMモデルで表現する場合のViterbiサーチの
様子を図10に示す。図10は、時刻t、状態jにおけ
る最大尤度δt(j)が、時刻t−1、状態jにおける
最大尤度δtー1(j)と時刻t−1、状態j−1におけ
る最大尤度δ tー1(j−1)から、尤度最大になるよう
なパスが選択されることによって演算されることを示し
ている。
【0027】以上の動作により、入力される雑音重畳音
声信号のスペクトル時系列に非音声区間の雑音区間の平
均スペクトルが重畳していると見なして、パワースペク
トル上で雑音成分を除去した上で雑音無し照合モデルと
の照合処理を施し、認識結果を得る。
【0028】
【発明が解決しようとしする課題】従来のスペクトルサ
ブトラクション法を用いた騒音下音声認識装置は上記の
ように構成されているため、発声直前等の雑音の平均ス
ペクトルと実際の音声区間に重畳している雑音スペクト
ルの差が小さい場合、即ち環境騒音の変動が小さい場合
は比較的良好に動作する。しかし、騒音源が移動物であ
り、音声信号の入力端から騒音源までの距離が変化する
場合や、環境騒音が非定常で変動が大きい場合は、推定
した雑音スペクトルと実際に音声に重畳している雑音ス
ペクトルとの推定誤差が大きくなり、認識性能が劣化す
るという問題があった。
【0029】この発明は上記のような問題を解決するた
めのもので、音声信号の入力端と騒音源との距離の変化
による認識性能劣化を削減することができる音声認識装
置及び方法を得ることを目的としている。また、環境騒
音の変動による認識性能劣化を削減することができる音
声認識装置及び方法を得ることを目的としている。
【0030】
【課題を解決するための手段】この発明に係る音声認識
装置は、非音声区間を含む雑音重畳入力音声信号をスペ
クトル分析しスペクトル特徴パラメータを求め音声認識
処理を行う音声認識装置において、雑音重畳入力音声信
号をスペクトル分析し雑音重畳音声スペクトル時系列を
出力するスペクトル演算手段と、上記スペクトル演算手
段から出力される雑音重畳音声スペクトル時系列の中の
非音声区間から重畳雑音のスペクトルを推定し雑音スペ
クトルとして出力する平均スペクトル演算手段と、上記
スペクトル演算手段から出力される雑音重畳音声スペク
トル時系列から上記平均スペクトル演算手段から出力さ
れる雑音スペクトルを減算する際の当該雑音スペクトル
に対する倍率を変えて複数種類の雑音除去音声スペクト
ル時系列を出力する雑音除去スペクトル群演算手段と、
上記雑音除去スペクトル群演算手段から出力される複数
種類の雑音除去音声スペクトル時系列を複数種類の特徴
ベクトル時系列に変換する特徴ベクトル群演算手段と、
雑音のない環境下で発声した音声データを用いて学習し
た雑音無し音声パターンと特徴ベクトルの種類の遷移を
表したモデルを記憶してなる照合モデルメモリと、上記
特徴ベクトル群演算手段から出力される複数種類の雑音
除去音声特徴ベクトル時系列に対して、時刻、状態、特
徴ベクトルの種類の3軸からなる3次元空間内で、上記
照合モデルメモリに記憶された雑音無し音声パターンと
特徴ベクトルの種類の遷移を表したモデルとの照合を行
い認識結果を出力する3次元照合手段とを備えたことを
特徴とするものである。
【0031】また、上記平均スペクトル演算手段から出
力される雑音スペクトル、及び予め大量の雑音データか
らクラスタリング手法を用いて学習した複数種類の雑音
スペクトルパターンを記憶する雑音スペクトルメモリを
さらに備え、上記雑音除去スペクトル演算手段は、上記
スペクトル演算手段から出力される雑音重畳音声スペク
トル時系列の各雑音重畳音声スペクトルから、上記雑音
ベクトルに対する複数種類の倍率と、上記雑音スペクト
ルメモリに記憶された複数種類の雑音スペクトルパター
ンとを組み合わせて、複数種類の雑音除去音声スペクト
ルを求めることを特徴とするものである。
【0032】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移を表したモデルとして、特徴ベクトル
の種類の遷移に制約を加えないモデルを記憶したことを
特徴とするものである。
【0033】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移に制約を加えないモデルとして、全て
の種類に遷移可能なelgotic 隠れマルコフモデルを記憶
したことを特徴とするものである。
【0034】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移を表したモデルとして、特徴ベクトル
の種類の遷移に制約を加えたモデルを記憶したことを特
徴とするものである。
【0035】また、上記照合モデルメモリは、特徴ベク
トルの種類の遷移に制約を加えたモデルとして、隣接す
る特徴ベクトルの種類間のみ遷移可能な隠れマルコフモ
デルを記憶したことを特徴とするものである。
【0036】また、この発明に係る音声認識方法は、非
音声区間を含む雑音重畳入力音声信号をスペクトル分析
しスペクトル特徴パラメータを求め音声認識処理を行う
音声認識方法において、雑音重畳入力音声に対しスペク
トル分析を施し雑音重畳音声スペクトル時系列を得るス
ペクトル演算工程と、上記スペクトル演算工程で得られ
る雑音重畳音声スペクトル時系列の中の非音声区間から
重畳雑音のスペクトルを推定し雑音スペクトルとして得
る平均スペクトル演算工程と、上記スペクトル演算工程
で得られる雑音重畳音声スペクトル時系列から上記平均
スペクトル演算工程で得られる雑音スペクトルを減算す
る際の当該雑音スペクトルに対する倍率を変えて複数種
類の雑音除去音声スペクトル時系列を得る雑音除去スペ
クトル群演算工程と、上記雑音除去スペクトル群演算工
程で得られる複数種類の雑音除去音声スペクトル時系列
を複数種類の特徴ベクトル時系列に変換する特徴ベクト
ル群演算工程と、上記特徴ベクトル群演算工程で得られ
る複数種類の雑音除去音声特徴ベクトル時系列に対し
て、時刻、状態、特徴ベクトルの種類の3軸からなる3
次元空間内で、雑音のない環境下で発声した音声データ
を用いて学習した雑音無し音声パターンと特徴ベクトル
の種類の遷移を表したモデルとの照合を行いその認識結
果を得る3次元照合工程とを備えたことを特徴とするも
のである。
【0037】また、上記雑音除去スペクトル演算工程
は、上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列の各雑音重畳音声スペクトルから、上記
雑音ベクトルに対する複数種類の倍率と、予め大量の雑
音データからクラスタリング手法を用いて学習した複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求めることを特徴とす
るものである。
【0038】また、上記3次元照合工程は、特徴ベクト
ルの種類の遷移を表したモデルとして、特徴ベクトルの
種類の遷移に制約を加えないモデルを用いたことを特徴
とするものである。
【0039】また、上記3次元照合工程は、上記特徴ベ
クトルの種類の遷移に制約を加えないモデルとして、全
ての種類に遷移可能なelgotic 隠れマルコフモデルを用
いたことを特徴とするものである。
【0040】また、上記3次元照合工程は、特徴ベクト
ルの種類の遷移を表したモデルとして、特徴ベクトルの
種類の遷移に制約を加えたモデルを用いたことを特徴と
するものである。
【0041】さらに、上記3次元照合工程は、特徴ベク
トルの種類の遷移に制約を加えたモデルとして、隣接す
る特徴ベクトルの種類間のみ遷移可能な隠れマルコフモ
デルを用いたことを特徴とするものである。
【0042】
【発明の実施の形態】実施の形態1.図1はこの発明の
実施の形態1に係る音声認識装置及び方法を説明するた
めの構成を示すブロック図である。図1において、図8
に示す従来例と同一部分は同一符号を付して示すものと
し、101は雑音重畳音声入力に対してスペクトル分析
を施し雑音重畳音声スペクトル時系列を抽出するスペク
トル演算手段、102は上記スペクトル演算手段101
から出力される雑音重畳音声スペクトル時系列の中の非
音声区間のスペクトルを平均し、雑音スペクトルとして
出力する平均スペクトル演算手段である。
【0043】また、新たな符号として、201は上記ス
ペクトル演算手段101から出力される雑音重畳音声ス
ペクトル時系列から上記平均スペクトル演算手段102
から出力される雑音スペクトルを減算する際の雑音スペ
クトルに対する倍率を変えて雑音スペクトルを減算し、
複数種類の雑音除去スペクトル時系列を出力する雑音除
去スペクトル群演算手段、202は複数種類の雑音除去
スペクトル時系列を複数種類の特徴ベクトル時系列に変
換する特徴ベクトル群演算手段、203は上記特徴ベク
トル群演算手段202から出力される複数種類の雑音除
去音声特徴ベクトル時系列に対して、時刻、状態、特徴
ベクトルの種類の3軸からなる3次元空間内で、後述す
る照合モデルメモリ205が記憶する雑音無し音声パタ
ーンと特徴ベクトルの種類の遷移を表したモデルとの照
合を行い認識結果を出力する3次元照合手段、205は
雑音のない環境下で発生した音声データを用いて学習し
た雑音無し音声パターンと特徴ベクトルの種類の遷移を
表したモデルを記憶してなる照合モデルメモリである。
【0044】この図1に示す実施の形態1に係る音声認
識装置は、上述した図1に示すブロック図により構成さ
れるものであるが、対応する音声認識方法を構成する工
程としては次に示す工程を備える。 a.雑音重畳入力音声に対しスペクトル分析を施し雑音
重畳音声スペクトル時系列を得るスペクトル演算工程、 b.上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列の中の非音声区間から重畳雑音のスペク
トルを推定し雑音スペクトルとして得る平均スペクトル
演算工程、 c.上記スペクトル演算工程で得られる雑音重畳音声ス
ペクトル時系列から上記平均スペクトル演算工程で得ら
れる雑音スペクトルを減算する際の当該雑音スペクトル
に対する倍率を変えて複数種類の雑音除去音声スペクト
ル時系列を得る雑音除去スペクトル群演算工程、 d.上記雑音除去スペクトル群演算工程で得られる複数
種類の雑音除去音声スペクトル時系列を複数種類の特徴
ベクトル時系列に変換する特徴ベクトル群演算工程、 e.上記特徴ベクトル群演算工程で得られる複数種類の
雑音除去音声特徴ベクトル時系列に対して、時刻、状
態、特徴ベクトルの種類の3軸からなる3次元空間内
で、雑音のない環境下で発声した音声データを用いて学
習した雑音無し音声パターンと特徴ベクトルの種類の遷
移を表したモデルとの照合を行いその認識結果を得る3
次元照合工程。
【0045】次に、上記構成に係る実施の形態1の動作
について説明する。スペクトル演算手段101及び平均
スペクトル演算手段102の動作は従来例の動作と同様
なため、ここでは説明を省略する。雑音除去スペクトル
群演算手段201では、雑音重畳音声スペクトルの時系
列の各雑音重畳音声スペクトルから、V種類(複数種
類)のサブトラクト係数α(k ),(1≦k≦V)を用い
て、雑音スペクトルを減算し、V種類の雑音除去音声ス
ペクトルS(k)(ω)を求める。ここでは、以下のよう
に0.5刻みにα(k)の値を設定する。
【0046】
【数10】
【0047】ここで、S(k)(ω)はk種類目の雑音除
去音声スペクトルの周波数ωにおけるパワー、X(ω)
は雑音重畳音声スペクトルの周波数ωにおけるパワーを
表す。このようにして、V種類の雑音除去音声スペクト
ル時系列 S(1)(ω),S(2)(ω),・・・,S(v)(ω) (ただしS(k)(ω)=(S1 (k)(ω),S
2 (k)(ω),・・・,ST (k)(ω))) を求める。
【0048】特徴ベクトル群演算手段202では、雑音
除去スペクトル群演算手段201が出力するV種類の雑
音除去音声スペクトル時系列S(1)(ω),S
(2)(ω),・・・,S(v)(ω)を従来例と同様に、L
PCケプストラムなどの音声認識において音響的な特徴
を表現するV種類の特徴ベクトル時系列Y(1),Y(2)
・・・,Y(v)(ただしY(k)=Y1 (k),Y2 (k),・・
・,YT (k))に変換する。
【0049】3次元照合処理手段203では、特徴ベク
トル群演算手段202が出力するV種類の特徴ベクトル
時系列Y(1),Y(2),・・・,Y(v)に対して、時刻、
状態、特徴ベクトルの種類の3軸からなる3次元空間内
で照合を行い、最大尤度を与える認識候補を認識結果と
して出力する。
【0050】特徴ベクトルの種類の遷移は、図2に示す
elgoticHMMモデルで表現する。図2において、ckl
は特徴ベクトルの種類kから特徴ベクトルの種類lへの
遷移確率であり、各状態間は観測事象を出力しないナル
遷移で結ばれている。elgoticHMMモデルを用いてい
るのは、本実施の形態1では特徴ベクトルの種類の遷移
に制約を付けないためである。
【0051】尤度最大となる一本の最適な、状態及び特
徴ベクトルの種類の組み合わせの系列(q、v)=(q
1、v1),(q2、v2),・・・,(qT、vT)を見つ
けるために、以下の4つのステップから構成される、3
次元に拡張したViterbiサーチを実行する。
【0052】STEP1(初期化)
【0053】
【数11】
【0054】
【数12】
【0055】STEP2(繰り返し)
【0056】
【数13】
【0057】
【数14】
【0058】STEP3(終了)
【0059】
【数15】
【0060】
【数16】
【0061】STEP4(バックトラック)
【0062】
【数17】
【0063】ここで、δt(i,k)は時刻、状態、特
徴ベクトルの種類の3軸から構成される3次元空間内の
一本のパス上の、時刻t、状態i、特徴ベクトルの種類
kでの最大尤度であり、以下の式で表される。
【0064】
【数18】
【0065】式(11)〜(17)において、Ψ
t(j,l)は各時刻t、各状態j、特徴ベクトルの種
類lで式(18)を最大にする経路の引数を記憶する2
次元配列である。また、bi(yt (k))は状態iにおけ
る特徴ベクトルyt (k)の出力確率、cklは特徴ベクトル
の種類kから特徴ベクトルの種類lへの遷移確率、ρk
は初期状態で特徴ベクトルの種類がkである確率であ
る。
【0066】図3は照合用音声パターンの状態遷移をLe
ft-to-right のHMMモデルで表現し、特徴ベクトルの
種類の遷移をelgotic HMMモデルで表現する場合の3
次元Viterbiサーチの様子を表したものである。
【0067】また、図4は、図3における時刻t−1〜
tの範囲を抽出した図であり、時刻t、状態j、特徴ベ
クトルの種類lにおける最大尤度δt(j,l)が、時
刻t−1、状態j、特徴ベクトルの種類kにおける最大
尤度δtー1(j,k)(ただし(1≦k≦V))と、時
刻t−1、状態j−1、特徴ベクトルの種類k(におけ
る最大尤度δtー1(j−1,k)(ただし(1≦k≦
V))とから、尤度最大になるようなパスが選択される
ことによって演算されることを示している。
【0068】以下、実施の形態1に対する作用効果を述
べる。従来の騒音下音声認識装置では、非音声区間から
推定した雑音スペクトルが全音声区間に一様に重畳して
いると仮定し、評価データに対して認識性能が最大にな
るように調整した唯一つのサブトラクト係数αの値を用
いていた。しかし、騒音源と音声入力端の距離が時刻と
共に変動する場合には、ある時刻において音声に重畳す
る雑音スペクトルのパワーが雑音推定時の雑音スペクト
ルのパワーと異なるため、雑音スペクトルを引き過ぎた
り、引かな過ぎたりすることが起こり、正確な雑音除去
音声スペクトルを求めることができない。その結果とし
て、雑音無し音声パターンとのミスマッチが起き認識率
が劣化する。
【0069】文献「並列HMM法とスペクトルサブトラ
クションによる非定常雑音騒音下における音声認識」
(嶺竜治、電子情報通信学会論文誌(D−II)、Vo
l.J−78−D−II、No.7、pp.1021−1
027、1995)では、雑音HMMをelgotic HMM
で表現し、スペクトルサブトラクション後の雑音除去音
声特徴ベクトルに対して、時刻、音声モデルの状態、雑
音モデルの状態の3次元空間上で照合処理を行うことに
よって非定常な雑音環境下での認識性能を向上させてい
る。しかし、上記文献には、サブトラクト係数の値につ
いての記述はないこと、本実施の形態1では、雑音モデ
ルではなく、特徴ベクトルの種類の遷移をモデル化して
いることから、両者は別の技術であるといえる。
【0070】本実施の形態1に係る音声認識装置及び方
法では、各時刻t毎にV種類のサブトラクト係数α(k)
を用いて演算されたV種類の特徴ベクトル候補が存在す
る。各時刻tにおける特徴ベクトルの種類kは、尤度が
最大となるように選択されるため、騒音源と音声入力端
の距離が変動しても雑音スペクトルを引き過ぎたり、引
かな過ぎたりすることを防ぎ、認識率の劣化を抑えるこ
とができる。
【0071】また、本実施の形態1に係る音声認識装置
及び方法では、特徴ベクトルの種類の遷移を表したモデ
ルとして、特徴ベクトルの種類の遷移に制限を加えず
に、すべての種類に遷移可能なelgotic HMMモデルを
用いているが、特徴ベクトルの種類の遷移に制限を加え
たモデルとして、雑音除去時のサブトラクト係数α(k)
の値が隣接する特徴ベクトルの種類間のみ遷移可能にし
た図5に示すHMMモデルを用いることで、重畳雑音パ
ワーの時間的変化を適切にモデル化することが可能であ
る。
【0072】実施の形態2.次に、図6はこの発明の実
施の形態2に係る音声認識装置及び方法を説明するため
の構成を示すブロック図である。図6において、図1に
示す実施の形態1と同一部分は同一符号を付して示し、
その説明は省略する。新たな符号として、204は平均
スペクトル演算手段102から出力される雑音スペクト
ル及び予め大量の雑音データからクラスタリング手法を
用いて学習した複数種類の雑音スペクトルパターンを記
憶する雑音スペクトルメモリであり、雑音除去スペクト
ル演算手段201は、スペクトル演算手段101から出
力される雑音重畳音声スペクトル時系列の各雑音重畳音
声スペクトルから雑音ベクトルに対する複数種類の倍率
と、上記雑音スペクトルメモリ204に記憶された複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求めるようになされて
いる。
【0073】なお、実施の形態2に係る音声認識装置
は、上述した図6に示すブロック図により構成されるも
のであるが、対応する音声認識方法を構成する工程とし
ては、前述した実施の形態1に係る雑音除去スペクトル
演算工程が、スペクトル演算工程で得られる雑音重畳音
声スペクトル時系列の各雑音重畳音声スペクトルから、
雑音ベクトルに対する複数種類の倍率と、予め大量の雑
音データからクラスタリング手法を用いて学習した複数
種類の雑音スペクトルパターンとを組み合わせて、複数
種類の雑音除去音声スペクトルを求める点が異なるのみ
である。
【0074】次に上記構成に係る実施の形態2の動作に
ついて説明する。スペクトル演算手段101及び平均ス
ペクトル演算手段102の動作は従来例の動作と同様な
ため、ここでは説明を省略する。雑音スペクトルメモリ
204では、平均スペクトル演算手段102が出力する
雑音スペクトル及びに予め大量の雑音データからクラス
タリング手法を用いて学習した、V2 種類の代表雑音ス
ペクトルパターンを記憶する。
【0075】雑音除去スペクトル群演算手段201で
は、雑音重畳音声スペクトルの時系列の各雑音重畳音声
スペクトルから、V1 種類のサブトラクト係数α(k1)
(1≦k1≦V1)と、V2 種類の雑音スペクトルパター
ンNk2(ω),(1≦k2≦V2)を組み合わせ、合計V
=V12 種類の雑音除去音声スペクトルS(k)(ω),
(1≦k≦V)を求める。ここでは、以下のように0.
5刻みにα(k1)の値を設定する。
【0076】
【数19】
【0077】ここで、S(k)(ω)はk種類目の雑音除
去音声スペクトルの周波数ωにおけるパワー、X(ω)
は雑音重畳音声スペクトルの周波数ωにおけるパワー、
N(ω)は推定雑音スペクトルの周波数ωにおけるパワ
ーをそれぞれ表す。このようにして、V種類の雑音除去
音声スペクトル時系列S(1)(ω),S(2)(ω),・・
・,S(V)(ω)(ただし、S(k)(ω)=(S
1 (k)(ω),S2 (k)(ω),・・・,ST (k)(ω))を
求める。
【0078】特徴ベクトル群演算手段202と3次元照
合手段203の動作は実施の形態1と同様なため、ここ
では説明を省略する。
【0079】以下、実施の形態2に係る音声認識装置及
び方法に関する効果を述べる。従来の騒音下音声認識装
置では、非音声区間から推定した雑音スペクトルが全音
声区間に一様に重畳していると仮定している。しかし、
走行自動車内等の非定常騒音環境下のように、時刻と共
に音声に重畳するスペクトルのパターンが変動する場合
には、ある時刻において音声に重畳する雑音スペクトル
のパターンが平均スペクトル演算時の雑音スペクトルの
パターンと異なるため、正確な雑音除去音声スペクトル
を求めることができない。その結果として雑音無し音声
パターンとのミスマッチが起き認識率が劣化する。
【0080】また、実施の形態1の音声認識装置及び方
法では、スペクトルパワーの変動には対応できるもの
の、単一の雑音スペクトルパターンのみを用いるため、
スペクトルパターンの変動については対応できない。本
実施の形態2に係る音声認識装置及び方法では、各時刻
t毎に、V1 種類のサブトラクト係数α(k1)とV2 種類
の雑音スペクトルパターンNk2(ω)を用いて演算され
た、V=V12 種類の特徴ベクトル候補が存在する。
各時刻tにおける特徴ベクトルの種類kは、尤度が最大
となるように選択されるため、騒音源と音声入力端の距
離や音声に重畳する雑音スペクトルパターンが変動して
も、認識率の劣化を抑えることができる。
【0081】また、本実施の形態2に係る音声認識装置
及び方法では、特徴ベクトルの種類の遷移を表したモデ
ルとして、特徴ベクトルの種類の遷移に制限を加えず
に、すべての種類に遷移可能なelgotic HMMモデルを
用いているが、特徴ベクトルの種類の遷移に制限を加え
たモデルとして、雑音除去時の雑音スペクトルパターン
k2(ω)が類似する、もしくは雑音除去時のサブトラ
クト係数α(k)の値が隣接する特徴ベクトルの種類間の
み遷移可能にした図7に示すHMMモデルを用いること
で、雑音スペクトルの時間的変化及び重畳雑音パワーの
時間的変化を適切にモデル化することが可能である。
【0082】
【発明の効果】以上のように、この発明によれば、各時
刻毎に複数種類のサブトラクト係数を用いて演算された
複数種類の特徴ベクトル候補が存在し、各時刻における
特徴ベクトルの種類は、尤度が最大となるように選択さ
れるため、騒音源と音声入力端の距離が変動しても雑音
スペクトルを引き過ぎたり、引かな過ぎたりすることを
防ぎ、認識率の劣化を抑えることができ、音声信号の入
力端と騒音源との距離の変化による認識性能劣化を削減
することができる。
【0083】また、音声に重畳する雑音スペクトルパタ
ーンが変動しても、認識率の劣化を抑えることができ、
環境騒音の変動による認識性能劣化を削減することがで
きる。
【0084】また、特徴ベクトルの種類の遷移を表した
モデルとして、特徴ベクトルの種類の遷移に制限を加え
ないモデルを用いることにより、認識率の劣化を抑える
ことができる。
【0085】また、特徴ベクトルの種類の遷移に制限を
加えないモデルとして、すべての種類に遷移可能なelgo
tic HMMモデルを用いることにより、認識率の劣化を
抑えることができる。
【0086】また、特徴ベクトルの種類の遷移を表した
モデルとして、特徴ベクトルの種類の遷移に制限を加え
たモデルを用いることにより、重畳雑音パワーの時間的
変化を適切にモデル化することができる。
【0087】さらに、特徴ベクトルの種類の遷移に制限
を加えたモデルとして、隣接する特徴ベクトルの種類間
のみ遷移可能にしたHMMモデルを用いることにより、
重畳雑音パワーの時間的変化を適切にモデル化すること
ができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る音声認識装置
及び方法を説明するための構成を示すブロック図であ
る。
【図2】 この発明の実施の形態1に係る音声認識装置
及び方法を説明するもので、特徴ベクトルの種類の遷移
を表すelgoticHMMモデルの説明図である。
【図3】 この発明の実施の形態1に係る音声認識装置
及び方法を説明するもので、照合用音声パターンの状態
遷移をLeft-to-right のHMMモデルで表現し、特徴ベ
クトルの種類の遷移をelgotic HMMモデルで表現する
場合の3次元Viterbiサーチの様子を表した説明図であ
る。
【図4】 図3における時刻t−1〜tの範囲を抽出し
た説明図である。
【図5】 この発明の実施の形態1に係る音声認識装置
及び方法を説明するもので、隣接する特徴ベクトルの種
類間のみ遷移可能にしたHMMモデルの説明図である。
【図6】 この発明の実施の形態2に係る音声認識装置
及び方法を説明するための構成を示すブロック図であ
る。
【図7】 この発明の実施の形態2に係る音声認識装置
及び方法を説明するもので、隣接する特徴ベクトルの種
類間のみ遷移可能にしたHMMモデルの説明図である。
【図8】 従来例の音声認識装置の構成を示すブロック
図である。
【図9】 従来例の照合用音声パターンの状態遷移を状
態遷移に制約のついたLeft-to-rightのHMMモデルで
表現する説明図である。
【図10】 照合用音声パターンの状態遷移をLeft-to-
rightのHMMモデルで表現する場合のViterbiサーチの
様子を示す説明図である。
【符号の説明】
101 スペクトル演算手段、102 平均スペクトル
演算手段、201 雑音除去スペクトル群演算手段、2
02 特徴ベクトル群演算手段、203 3次元照合手
段、204 雑音スペクトルメモリ、205 照合モデ
ルメモリ。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 非音声区間を含む雑音重畳入力音声信号
    をスペクトル分析しスペクトル特徴パラメータを求め音
    声認識処理を行う音声認識装置において、 雑音重畳入力音声信号をスペクトル分析し雑音重畳音声
    スペクトル時系列を出力するスペクトル演算手段と、 上記スペクトル演算手段から出力される雑音重畳音声ス
    ペクトル時系列の中の非音声区間から重畳雑音のスペク
    トルを推定し雑音スペクトルとして出力する平均スペク
    トル演算手段と、 上記スペクトル演算手段から出力される雑音重畳音声ス
    ペクトル時系列から上記平均スペクトル演算手段から出
    力される雑音スペクトルを減算する際の当該雑音スペク
    トルに対する倍率を変えて複数種類の雑音除去音声スペ
    クトル時系列を出力する雑音除去スペクトル群演算手段
    と、 上記雑音除去スペクトル群演算手段から出力される複数
    種類の雑音除去音声スペクトル時系列を複数種類の特徴
    ベクトル時系列に変換する特徴ベクトル群演算手段と、 雑音のない環境下で発声した音声データを用いて学習し
    た雑音無し音声パターンと特徴ベクトルの種類の遷移を
    表したモデルを記憶してなる照合モデルメモリと、 上記特徴ベクトル群演算手段から出力される複数種類の
    雑音除去音声特徴ベクトル時系列に対して、時刻、状
    態、特徴ベクトルの種類の3軸からなる3次元空間内
    で、上記照合モデルメモリに記憶された雑音無し音声パ
    ターンと特徴ベクトルの種類の遷移を表したモデルとの
    照合を行い認識結果を出力する3次元照合手段とを備え
    たことを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、上記平均スペクトル演算手段から出力される雑音ス
    ペクトル、及び予め大量の雑音データからクラスタリン
    グ手法を用いて学習した複数種類の雑音スペクトルパタ
    ーンを記憶する雑音スペクトルメモリをさらに備え、上
    記雑音除去スペクトル演算手段は、上記スペクトル演算
    手段から出力される雑音重畳音声スペクトル時系列の各
    雑音重畳音声スペクトルから、上記雑音ベクトルに対す
    る複数種類の倍率と、上記雑音スペクトルメモリに記憶
    された複数種類の雑音スペクトルパターンとを組み合わ
    せて、複数種類の雑音除去音声スペクトルを求めること
    を特徴とする音声認識装置。
  3. 【請求項3】 請求項1または2に記載の音声認識装置
    において、上記照合モデルメモリは、特徴ベクトルの種
    類の遷移を表したモデルとして、特徴ベクトルの種類の
    遷移に制約を加えないモデルを記憶したことを特徴とす
    る音声認識装置。
  4. 【請求項4】 請求項3に記載の音声認識装置におい
    て、上記照合モデルメモリは、特徴ベクトルの種類の遷
    移に制約を加えないモデルとして、全ての種類に遷移可
    能なelgotic 隠れマルコフモデルを記憶したことを特徴
    とする音声認識装置。
  5. 【請求項5】 請求項1または2に記載の音声認識装置
    において、上記照合モデルメモリは、特徴ベクトルの種
    類の遷移を表したモデルとして、特徴ベクトルの種類の
    遷移に制約を加えたモデルを記憶したことを特徴とする
    音声認識装置。
  6. 【請求項6】 請求項5に記載の音声認識装置におい
    て、上記照合モデルメモリは、特徴ベクトルの種類の遷
    移に制約を加えたモデルとして、隣接する特徴ベクトル
    の種類間のみ遷移可能な隠れマルコフモデルを記憶した
    ことを特徴とする音声認識装置。
  7. 【請求項7】 非音声区間を含む雑音重畳入力音声信号
    をスペクトル分析しスペクトル特徴パラメータを求め音
    声認識処理を行う音声認識方法において、 雑音重畳入力音声に対しスペクトル分析を施し雑音重畳
    音声スペクトル時系列を得るスペクトル演算工程と、 上記スペクトル演算工程で得られる雑音重畳音声スペク
    トル時系列の中の非音声区間から重畳雑音のスペクトル
    を推定し雑音スペクトルとして得る平均スペクトル演算
    工程と、 上記スペクトル演算工程で得られる雑音重畳音声スペク
    トル時系列から上記平均スペクトル演算工程で得られる
    雑音スペクトルを減算する際の当該雑音スペクトルに対
    する倍率を変えて複数種類の雑音除去音声スペクトル時
    系列を得る雑音除去スペクトル群演算工程と、 上記雑音除去スペクトル群演算工程で得られる複数種類
    の雑音除去音声スペクトル時系列を複数種類の特徴ベク
    トル時系列に変換する特徴ベクトル群演算工程と、 上記特徴ベクトル群演算工程で得られる複数種類の雑音
    除去音声特徴ベクトル時系列に対して、時刻、状態、特
    徴ベクトルの種類の3軸からなる3次元空間内で、雑音
    のない環境下で発声した音声データを用いて学習した雑
    音無し音声パターンと特徴ベクトルの種類の遷移を表し
    たモデルとの照合を行いその認識結果を得る3次元照合
    工程とを備えたことを特徴とする音声認識方法。
  8. 【請求項8】 請求項7に記載の音声認識方法におい
    て、上記雑音除去スペクトル演算工程は、上記スペクト
    ル演算工程で得られる雑音重畳音声スペクトル時系列の
    各雑音重畳音声スペクトルから、上記雑音ベクトルに対
    する複数種類の倍率と、予め大量の雑音データからクラ
    スタリング手法を用いて学習した複数種類の雑音スペク
    トルパターンとを組み合わせて、複数種類の雑音除去音
    声スペクトルを求めることを特徴とする音声認識方法。
  9. 【請求項9】 請求項7または8に記載の音声認識方法
    において、上記3次元照合工程は、特徴ベクトルの種類
    の遷移を表したモデルとして、特徴ベクトルの種類の遷
    移に制約を加えないモデルを用いたことを特徴とする音
    声認識方法。
  10. 【請求項10】 請求項9に記載の音声認識方法におい
    て、上記3次元照合工程は、上記特徴ベクトルの種類の
    遷移に制約を加えないモデルとして、全ての種類に遷移
    可能なelgotic 隠れマルコフモデルを用いたことを特徴
    とする音声認識方法。
  11. 【請求項11】 請求項7たは8に記載の音声認識方法
    において、上記3次元照合工程は、特徴ベクトルの種類
    の遷移を表したモデルとして、特徴ベクトルの種類の遷
    移に制約を加えたモデルを用いたことを特徴とする音声
    認識方法。
  12. 【請求項12】 請求項11に記載の音声認識方法にお
    いて、上記3次元照合工程は、特徴ベクトルの種類の遷
    移に制約を加えたモデルとして、隣接する特徴ベクトル
    の種類間のみ遷移可能な隠れマルコフモデルを用いたこ
    とを特徴とする音声認識方法。
JP24285699A 1999-08-30 1999-08-30 音声認識装置及び方法 Pending JP2001067094A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24285699A JP2001067094A (ja) 1999-08-30 1999-08-30 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24285699A JP2001067094A (ja) 1999-08-30 1999-08-30 音声認識装置及び方法

Publications (1)

Publication Number Publication Date
JP2001067094A true JP2001067094A (ja) 2001-03-16

Family

ID=17095296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24285699A Pending JP2001067094A (ja) 1999-08-30 1999-08-30 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP2001067094A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050974B1 (en) * 1999-09-14 2006-05-23 Canon Kabushiki Kaisha Environment adaptation for speech recognition in a speech communication system
US8423360B2 (en) 2003-05-23 2013-04-16 Kabushiki Kaisha Toshiba Speech recognition apparatus, method and computer program product
JP2015069063A (ja) * 2013-09-30 2015-04-13 日本電気通信システム株式会社 音声認識システム、音声認識方法、及び音声認識プログラム
US9666184B2 (en) 2014-12-08 2017-05-30 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
JP2020068500A (ja) * 2018-10-26 2020-04-30 古野電気株式会社 水中通信システムおよび水中通信方法
CN113223547A (zh) * 2021-04-30 2021-08-06 杭州朗和科技有限公司 双讲检测方法、装置、设备和介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050974B1 (en) * 1999-09-14 2006-05-23 Canon Kabushiki Kaisha Environment adaptation for speech recognition in a speech communication system
US8423360B2 (en) 2003-05-23 2013-04-16 Kabushiki Kaisha Toshiba Speech recognition apparatus, method and computer program product
JP2015069063A (ja) * 2013-09-30 2015-04-13 日本電気通信システム株式会社 音声認識システム、音声認識方法、及び音声認識プログラム
US9666184B2 (en) 2014-12-08 2017-05-30 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
US10332510B2 (en) 2014-12-08 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for training language model and recognizing speech
JP2020068500A (ja) * 2018-10-26 2020-04-30 古野電気株式会社 水中通信システムおよび水中通信方法
JP7216520B2 (ja) 2018-10-26 2023-02-01 古野電気株式会社 水中通信システムおよび水中通信方法
CN113223547A (zh) * 2021-04-30 2021-08-06 杭州朗和科技有限公司 双讲检测方法、装置、设备和介质
CN113223547B (zh) * 2021-04-30 2024-05-24 杭州网易智企科技有限公司 双讲检测方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
US5924065A (en) Environmently compensated speech processing
JP3457431B2 (ja) 信号識別方法
US8515758B2 (en) Speech recognition including removal of irrelevant information
US8370139B2 (en) Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
US7089182B2 (en) Method and apparatus for feature domain joint channel and additive noise compensation
US20080300875A1 (en) Efficient Speech Recognition with Cluster Methods
Chowdhury et al. Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR
JPH09258768A (ja) 騒音下音声認識装置及び騒音下音声認識方法
JPH11133992A (ja) 特徴抽出装置および特徴抽出方法、並びにパターン認識装置およびパターン認識方法
US8423360B2 (en) Speech recognition apparatus, method and computer program product
US6934681B1 (en) Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients
KR20050076696A (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
US20060165202A1 (en) Signal processor for robust pattern recognition
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2001067094A (ja) 音声認識装置及び方法
US5953699A (en) Speech recognition using distance between feature vector of one sequence and line segment connecting feature-variation-end-point vectors in another sequence
Stouten et al. Joint removal of additive and convolutional noise with model-based feature enhancement
Windmann et al. Approaches to iterative speech feature enhancement and recognition
Wu et al. An environment-compensated minimum classification error training approach based on stochastic vector mapping
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP4325044B2 (ja) 音声認識システム
Cerisara et al. α-Jacobian environmental adaptation
US7912715B2 (en) Determining distortion measures in a pattern recognition process
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体