JP2003050595A

JP2003050595A - 音声認識装置及び方法、並びにプログラム

Info

Publication number: JP2003050595A
Application number: JP2001239710A
Authority: JP
Inventors: Shigeru Kafuku; 滋加福
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2001-08-07
Filing date: 2001-08-07
Publication date: 2003-02-21
Anticipated expiration: 2021-08-07
Also published as: JP4604424B2

Abstract

(57)【要約】【課題】音声認識の結果として高い尤度を示している
ノイズを棄却して、音声認識の精度を高くする。【解決手段】入力された音声を所定時間間隔のフレー
ムに区分し、各フレームのパワー成分を求める。パワー
成分の値から音声区間が抽出され、各音声区間の音声特
徴が抽出される。各音声区間の音声特徴と予め用意され
た隠れマルコフ音素モデルに基づいて、単語辞書に含ま
れる単語のうちで最も尤度の高いものを候補として抽出
する。また、フレーム毎の取得尤度、最高尤度及び最低
尤度に基づいて尤度信頼度率を求め、予め設定された閾
値と比較する。尤度信頼度率が閾値を上回れば、抽出さ
れた音声区間のうちの母音率を求め、予め設定された閾
値と比較する。母音率が閾値を上回れば、候補の単語が
音声認識結果として出力されるが、尤度信頼度率が閾値
以下であるか、母音率が閾値以下であった場合には、候
補の単語は棄却される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、不特定話者または
特定話者の発話を音声認識する音声認識装置等に関す
る。

【０００２】

【従来の技術】音声認識処理を行う場合、話者がマイク
から入力した音声をデジタルデータ化したＰＣＭデータ
からノイズなどの無関係なデータを極力排除し、話者が
発声した音声だけを切り出して音声認識し、認識結果を
返すことが理想である。無関係なデータを切り出して、
意味のない認識結果を返してしまうことは、混乱を生む
原因となる。

【０００３】ノイズに強い音声認識システムを構築する
ためには、音声区間の検出精度を向上させるのに加え
て、話者が発した音声以外のノイズなどを音声区間とし
て誤って検出してしまった場合にも、その誤って検出し
た区間を棄却することが望まれる。音声以外から誤って
検出した音声区間を棄却することができれば、すぐに再
び音声入力待ちの状態に戻すことができ、何事もなかっ
たかのように処理していくことが可能である。

【０００４】ここで、音声区間を検出するための処理で
は、一般に、音声のパワー成分に着目し、パワーが大き
く増大する部分を音声の開始区間と判断している。そし
て、パワーが大きな部分が連続して長時間続かずに、短
時間の後に下がってしまう部分については、ノイズと見
なして棄却するようにしている。

【０００５】

【発明が解決しようとする課題】しかしながら、このよ
うな処理では、話者が発した音声と似たようなパワー成
分を持つノイズを棄却することができずに、音声区間で
あると判断してしまうことになる。また、「ええと」な
どといった話者が本来発話したい内容と無関係な音声
は、音声区間の検出だけでは棄却することができない。

【０００６】そこで、パワー成分に基づく判断で音声区
間として検出された部分については、全て音声認識処理
を行い、認識結果が正解である確率、すなわち認識結果
の尤度を判定して、音声認識結果を出力するか、または
検出された音声区間を棄却して再び入力待ちの状態に戻
すかしている。ここで、認識結果の確からしさを求め方
としては、連続音素認識の結果との比較、ガベージモデ
ルの尤度との差の比較、などの方法が一般的に適用され
ている。

【０００７】ところが、現実の世界で発生するノイズ
は、種々雑多であり、認識結果の尤度が高いと判定され
てしまうようなものも中には存在する。とりわけこのよ
うなノイズが多く発生するような環境では、上記したよ
うな従来の方法だけでは、ノイズの区間を棄却できる確
率が十分なものとならず、音声認識の精度が低くなって
しまうという問題があった。

【０００８】本発明は、上記従来技術の問題点を解消す
るためになされたものであり、音声認識の結果として高
い尤度を示しているノイズを棄却できるようにすること
で、音声認識の精度を高くすることができる音声認識装
置及び方法、並びにそのためのプログラムを提供するこ
とを目的とする。

【０００９】

【課題を解決するための手段】上記目的を達成するた
め、本発明の第１の観点にかかる音声認識装置は、認識
対象となる音声に含まれる各音素をモデル化した音素モ
デルを格納した音素モデル格納手段と、認識結果として
出力されるべき複数種類の単語の音素パターン系列をそ
れぞれ登録した単語辞書を格納した単語辞書格納手段
と、入力された音声を前記音素モデル及び前記単語辞書
を参照して音声認識し、前記単語辞書に登録された各種
類の単語の尤度を求め、該求めた尤度に基づいて、認識
結果として出力される単語の候補を抽出する候補単語抽
出手段と、前記入力された音声に含まれる母音と子音と
の比率を算出する比率算出手段と、前記比率算出手段が
算出した母音と子音との比率が所定の範囲にあるかどう
かを判定する比率判定手段と、前記比率判定手段が所定
の範囲にあると判定したときに、前記候補単語抽出手段
が候補として抽出した単語を音声認識結果として出力す
る結果出力手段とを備えることを特徴とする。

【００１０】上記音声認識装置では、入力された音声を
音声認識して候補単語抽出手段から候補単語が抽出され
ても、これをそのまま最終的な音声認識結果として出力
せず、さらに入力された音声に含まれる母音と子音との
比率による判定が行われる。ノイズを音声認識して尤度
の高い第１候補単語が抽出されたとしても、母音と子音
との比率が人間の発話した音声としてあり得ないような
範囲にあれば、これを棄却して音声認識結果として出力
しないでよいので、音声認識の精度を高くすることがで
きる。

【００１１】上記音声認識装置において、前記比率判定
手段は、前記母音と子音との比率を予め設定された閾値
と比較することで、所定の範囲にあるかどうかの判定を
行うことができる。

【００１２】人間が発話した音声は、一般に、そこに含
まれる母音の比率が極端に低い値とはならないことが知
られている。比率判定手段の比較に用いる閾値を、人間
が発話した音声とは考えられないような値に設定してお
けば、母音の比率が極端に低いものをノイズと判断して
棄却することができる。

【００１３】上記音声認識装置において、前記単語辞書
は、前記複数種類の単語のそれぞれに対応付けて、さら
に前記比率判定手段の判定に用いるための比率範囲を登
録していてもよい。この場合、前記比率判定手段は、前
記母音と子音との比率が前記候補単語抽出手段が候補と
して抽出した単語に対応した比率範囲にあるかどうかを
判定するものとすることができる。

【００１４】単語の中には、本来的に母音の比率が高い
ものと、それほど高くないものとが含まれている。本来
的な母音の比率が高いか低いかによって、単語毎に比率
範囲を設定しておくことにより、ノイズを棄却できる場
合が増え、精度の高い音声認識を行うことができるよう
になる。

【００１５】上記音声認識装置は、同一の話者から入力
された同一の単語について、前記比率算出手段が算出し
た母音と子音との比率の履歴を複数回分登録する履歴登
録手段をさらに備えていてもよい。この場合、少なくと
も１の単語に対応付けて前記単語辞書に登録された比率
範囲は、前記履歴登録手段に登録された比率の履歴に従
って算出されたものとすることができる。

【００１６】特定話者が同じ単語を何回か発話した場
合、同じ単語内に含まれる母音の比率はほぼ同じになる
ことが知られている。このため、特に特定話者の音声認
識について母音と子音との比率の履歴を登録しておき、
登録された履歴に基づいて比率範囲を調整することによ
り、より正確な音声認識を行えるようになる。

【００１７】上記音声認識装置は、前記候補単語抽出手
段は、尤度の高いほうから順位付けられた複数の単語の
候補を抽出してもよい。この場合、前記比率算出手段
は、尤度の高い単語から順に母音と子音との比率を算出
し、該算出した母音と子音との比率が所定の範囲にない
と前記比率判定手段によって判定されたときに、次の順
位の単語について母音と子音との比率を算出するものと
することができる。

【００１８】候補単語抽出手段が尤度が最も高いものを
候補の単語として抽出しても、母音の比率が低いために
棄却される場合があり、音声認識結果を出力することが
できない。ところが、求めた尤度が若干低くても、母音
の比率が高く、しかもそれが正解の単語である場合もあ
り得る。上記のように複数の単語に順位を付けて候補を
抽出し、順に母音と子音との比率の判定を行っているこ
とにより、正解の単語を音声認識結果として出力できる
可能性が高くなる。

【００１９】上記音声認識装置は、前記候補単語抽出手
段が候補として抽出した単語について、その尤度の信頼
度を算出する尤度信頼度算出手段と、前記尤度信頼度算
出手段が算出した尤度の信頼度が所定の閾値を上回るか
どうかを判定する尤度信頼度判定手段とをさらに備えて
いてもよい。この場合、前記結果出力手段は、前記尤度
信頼度判定手段が所定の閾値を上回ると判定し、且つ前
記比率判定手段が所定の範囲にあると判定したときに、
前記候補単語抽出手段が抽出した単語を音声認識結果と
して出力するものとすることができる。

【００２０】ノイズを音声認識した結果として単語が抽
出されたとしても、この場合には、尤度の信頼度が低く
なることが経験則的に分かる。このような構成を加えた
ことにより、尤度の信頼度が低いもの、すなわち処置の
閾値を下回るものをノイズとして棄却することができる
ので、音声認識の精度をさらに高くすることができる。

【００２１】上記音声認識装置において、前記候補単語
抽出手段が、尤度の高いほうから順位付けられた複数の
単語の候補を抽出する場合には、前記尤度信頼度算出手
段は、尤度の高い単語から順に尤度の信頼度を算出し、
該算出した尤度の信頼度が前記所定の閾値を上回らない
と前記尤度信頼度判定手段によって判定されたときに、
次の順位の単語について尤度の信頼度を算出するものと
することができる。

【００２２】候補単語抽出手段が尤度が最も高いものを
候補の単語として抽出しても、その尤度の信頼度が低く
なって棄却される場合があり、音声認識結果を出力する
ことができない。ところが、求めた尤度が若干低くて
も、尤度の信頼度が高く、しかもそれが正解の単語であ
る場合もあり得る。上記のように複数の単語に順位を付
けて候補を抽出し、順に尤度の信頼度の判定を行ってい
ることにより、正解の単語を音声認識結果として出力で
きる可能性が高くなる。

【００２３】上記音声認識装置において、前記音素モデ
ルは、認識対象となる音声に含まれる各音素を隠れマル
コフモデルでモデル化したものであってもよい。この場
合、前記候補単語抽出手段は、前記入力された音声を所
定時間を単位として複数の区間に分割し、該分割した区
間のうちの音声区間について音響特徴ベクトルを求め、
各区間の音響特徴ベクトルと前記音素モデルとに基づい
て連続音素認識を行い、各フレームでの尤度の合計が最
大となる単語を候補として抽出できる。

【００２４】上記目的を達成するため、本発明の第２の
観点に音声認識方法は、入力された音声を、認識対象と
なる音声に含まれる各音素をモデル化した音素モデル及
び認識結果として出力されるべき複数種類の単語の音素
パターン系列をそれぞれ登録した単語辞書を参照して音
声認識し、前記単語辞書に登録された各種類の単語の尤
度を求め、該求めた尤度に基づいて、認識結果として出
力される単語の候補を抽出する候補単語抽出ステップ
と、前記入力された音声に含まれる母音と子音との比率
を算出する比率算出ステップと、前記比率算出ステップ
で算出した母音と子音との比率が所定の範囲にあるかど
うかを判定する比率判定ステップと、前記比率判定ステ
ップで所定の範囲にあると判定したときに、前記候補単
語抽出ステップにおいて候補として抽出した単語を音声
認識結果として出力する結果出力ステップとを含むこと
を特徴とする。

【００２５】上記音声認識方法は、前記候補単語抽出ス
テップで候補として抽出した単語について、その尤度の
信頼度を算出する尤度信頼度算出ステップと、前記尤度
信頼度算出ステップで算出した尤度の信頼度が所定の閾
値を上回るかどうかを判定する尤度信頼度判定ステップ
とをさらに含むことができ、この場合、前記結果出力ス
テップは、前記尤度信頼度判定ステップ所定の閾値を上
回ると判定し、且つ前記比率判定ステップで所定の範囲
にあると判定したときに、前記候補単語抽出ステップで
抽出した単語を音声認識結果として出力するものとする
ことができる。

【００２６】上記目的を達成するため、本発明の第３の
観点にかかるプログラムは、入力された音声を、認識対
象となる音声に含まれる各音素をモデル化した音素モデ
ル及び認識結果として出力されるべき複数種類の単語の
音素パターン系列をそれぞれ登録した単語辞書を参照し
て音声認識し、前記単語辞書に登録された各種類の単語
の尤度を求め、該求めた尤度に基づいて、認識結果とし
て出力される単語の候補を抽出する候補単語抽出手段、
前記入力された音声に含まれる母音と子音との比率を算
出する比率算出手段、前記比率算出手段が算出した母音
と子音との比率が所定の範囲にあるかどうかを判定する
比率判定手段、及び、前記比率判定手段が所定の範囲に
あると判定したときに、前記候補単語抽出手段が候補と
して抽出した単語を音声認識結果として出力する結果出
力手段としてコンピュータ装置を機能させることを特徴
とする。

【００２７】上記プログラムは、前記候補単語抽出手段
が候補として抽出した単語について、その尤度の信頼度
を算出する尤度信頼度算出手段、及び、前記尤度信頼度
算出手段が算出した尤度の信頼度が所定の閾値を上回る
かどうかを判定する尤度信頼度判定手段として前記コン
ピュータ装置を機能させることができ、この場合、前記
結果出力手段は、前記尤度信頼度判定手段が所定の閾値
を上回ると判定し、且つ前記比率判定手段が所定の範囲
にあると判定したときに、前記候補単語抽出手段が抽出
した単語を音声認識結果として出力するものとすること
ができる。

【００２８】

【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。

【００２９】［第１の実施の形態］図１は、この実施の
形態にかかる音声認識装置の構成を示すブロック図であ
る。図示するように、この音声認識装置は、音声入力部
１と、入力音声格納部２と、パワー算出部３と、音声区
間検出部４と、音声特徴抽出部５と、音素モデル格納部
６と、単語辞書格納部７と、尤度計算部８と、検証部９
と、最終判定部１０と、出力部１１とを備えている。

【００３０】音声入力部１は、不特定話者から入力され
た音声（アナログ信号）をＡ／Ｄ変換するもので、この
音声を時系列で示すデジタル音声信号（例えば、ＰＣＭ
信号）に変換する。入力音声格納部２は、音声入力部１
によって変換されたデジタル音声信号を格納する。

【００３１】パワー算出部３は、入力音声格納部２に格
納されたデジタル音声信号を、所定の時間間隔（２．０
〜４．０ミリ秒）で音声データを、時間窓などのハミン
グ窓によって複数のフレームに区分し、区分した各フレ
ームから音声データを切り出してパワー成分を求める。
音声区間検出部４は、パワー算出部３が算出したパワー
成分が所定の閾値を超えたフレームを音声区間として検
出する。例えば、１秒以内にパワー成分が閾値を下回っ
たフレームは、音声区間としない。音声特徴抽出部５
は、音声区間検出部４が検出した音声区間について、そ
れぞれパワー算出部３が算出したパワー成分に基づいて
音響特徴ベクトルＸ（ｔ）を計算する。

【００３２】音素モデル格納部６は、認識対象となる音
声を構成する全ての音素をモデル化した音素モデルを格
納している。音素モデルとしては、例えば図２に示すよ
うな隠れマルコフモデル（ＨＭＭ）が適用される。図２
では、音素“ｚ”についてのみ示しているが、実際に
は、全ての音素についてのＨＭＭが記憶されていること
となる。

【００３３】単語辞書格納部７は、単語毎の音素パター
ン系列情報を登録した単語辞書を格納している。この単
語辞書は、例えば図３に示すようなものであり、“善光
寺（ぜんこうじ）”という単語について、ｚ→ｅ→ｎ→
ｋ→ｏ→ｕ→ｊ→ｉという音素パターン系列を登録し、
“善通寺（ぜんつうじ）”という単語について、ｚ→ｅ
→ｎ→ｔｓ→→ｕ→ｊ→ｉという音素パターン系列を登
録している。

【００３４】尤度計算部８は、音響特徴ベクトルＸ
（ｔ）とＨＭＭによる音素モデルとを参照してフレーム
毎の連続音素認識を行い、各フレームの尤度の合計が最
大となるものを暫定的に第１位候補単語として抽出す
る。尤度計算部８は、第１位候補単語を抽出するのに必
要となる尤度（取得尤度）の他に、検証部９が尤度信頼
度率Ｓを求めるために必要となる最低尤度と最高尤度と
を求めている。

【００３５】次に、尤度計算部８による尤度（取得尤
度、最低尤度及び最高尤度）の計算について、図４を参
照して説明する。これは、「善通寺（ぜんつうじ）」と
いう単語を音声認識する場合の例であり、その理想的な
音素の並びとしては、ｚ・・・ｚ、ｅ・・・ｅ、ｎ・・・ｎ、ｔ
ｓ・・・ｔｓ、ｕ・・・ｕ、ｊ・・・ｊ、ｉ・・・ｉとなる。

【００３６】この図において、縦軸は時間（フレーム）
を示しており、第０〜第７９までの８０フレームが尤度
計算の対象となっている。図の左側（フレーム番号のす
ぐ右側）の格子状に示される○は、音素モデルとしての
ＨＭＭの状態を表しており、単語「善通寺」を音声認識
する際の状態の遷移の経路を太矢印で示している。この
経路を進むために各フレームで出力された値が取得尤度
である。

【００３７】第１位音素は、入力音声格納部２に格納さ
れた音声信号をフレーム毎に音声認識した結果、当該フ
レームにおいて尤度が最も高くなった音素であり、その
尤度が最高尤度となる。また、音声認識した結果として
最低だった音素の尤度が最低尤度となる。各フレームで
の取得尤度、最低尤度及び最高尤度は、次の検証部９で
尤度信頼度率Ｓを求めるのに用いられる。第０フレーム
から第７９フレームまでに状態の経路として複数の経路
を考えることができるが、そのうちで取得尤度の合計が
最も高くなるものを抽出し、第１候補単語としている。

【００３８】検証部９は、音声認識の精度を高めるべ
く、尤度計算部８が抽出した第１位候補単語について、
次の数式による演算を行って、その尤度信頼度率Ｓを求
める。

【数１】Ｓ＝｛Σ（取得尤度−最低尤度）／（最高尤度
−最低尤度）｝／フレーム数

【００３９】尤度信頼度率Ｓが求まると、検証部９は、
これが予め定めた閾値Ｓminよりも大きいかどうかを判
定する。閾値Ｓmin以下であれば第１位候補単語を棄却
し、閾値より大きければさらに最終判定部１０による判
定を行わせる。尤度信頼度率Ｓと比較される閾値Ｓmin
の値は、例えば９０％に設定される。これは、何らかの
認識結果が得られることと、認識結果が正確であること
のバランスをとるための値として設定されたものであ
る。

【００４０】最終判定部１０は、検証部９が閾値Ｓmin
より大きいと判定した尤度信頼度率Ｓを持つ第１候補単
語の母音率Ｖを求める。母音率Ｖは、音声区間検出部４
が音声区間であると検出したフレームのうちでａ、ｉ，
ｕ、ｅ、ｏ、ｎの音素を持つフレームを母音系音素のフ
レームとし、その他の音素を持つフレームを子音系音素
のフレームとして、母音系音素のフレームと子音系音素
のフレームの合計に対して母音系音素のフレームが示す
比率を示すものである。

【００４１】そして、最終判定部１０は、求めた母音率
Ｖが予め設定した閾値Ｖminよりも大きいかどうかを判
定する。閾値Ｖminよりも大きければ第１位候補単語を
正解の単語として出力部１１に渡し、閾値Ｖmin以下で
あれば第１位候補単語を棄却する。ここで、母音率Ｖと
比較される閾値Ｖminの値は、例えば１５％に設定され
る。これは、人間が言語で発話した音声は比較的母音率
が高くなることが経験上知られているのに対して、例え
ば、図５に示すようにキーボードを打つ音の実測結果で
は母音率が非常に低くなっていることから、このような
値に設定されたものである。

【００４２】出力部１１は、最終判定部１０から渡され
た正解となった単語を出力する。出力部１１は、第１位
候補単語が棄却され、正解が得られなかった場合には、
その旨を出力する。

【００４３】なお、上記の音声認識装置は、パーソナル
コンピュータなどの汎用コンピュータをプラットフォー
ムとして実現することができ、例えば、音声入力部１及
び出力部１１は、それぞれ汎用コンピュータに接続され
るマイクロフォン、表示装置によって実現される。入力
音声格納部２、音素モデル格納部６、単語辞書格納部７
は、それぞれに対応した領域がメモリに確保されること
によって実現される。音素モデル格納部６が格納する音
素モデル、単語辞書格納部７が格納する単語辞書は、音
声認識処理を行う前に予め外部装置から読み込まれてメ
モリに記憶されるものである。パワー算出部３、音声区
間検出部４、音声特徴検出部５、尤度計算部８、検証部
９及び最終判定部１０は、ＣＰＵ（Central Processing
Unit）がメモリに記憶されたプログラムを実行するこ
とによって実現される。

【００４４】次に、動作について説明する。図６は、こ
の実施の形態にかかる音声認識装置における処理を示す
フローチャートである。

【００４５】最初に、音素モデルと、単語辞書及び母音
率テーブルとを外部記憶装置からメモリに読み込み、音
素モデル格納部６と単語辞書格納部７とを構築する（ス
テップＳ１０１）。次に、尤度信頼度率Ｓと比較される
閾値Ｓminの値と、母音率Ｖと比較される閾値Ｖminの値
とを最終判定部１０に設定する（ステップＳ１０２）。
そして、次に示す音声認識処理を行い（ステップＳ１０
３）、このフローチャートの処理を終了する。

【００４６】図７は、ステップＳ１０３の音声認識処理
を詳細に示すフローチャートである。まず、話者が認識
対象として発声した音声を音声入力部１から入力し、時
系列のデジタル音声信号に変換して入力音声格納部２に
格納する（ステップＳ２０１）。次に、パワー算出部３
は、入力音声格納部２に格納したデジタル音声信号を所
定時間毎で複数のフレームに区分し、各フレームのパワ
ー成分を算出する（ステップＳ２０２）。

【００４７】次に、音声区間検出部４は、ステップＳ２
０２で算出した各フレームのパワー成分を所定の閾値と
比較し、閾値を上回ったフレームを音声区間として抽出
する（ステップＳ２０３）。そして、この処理で候補の
単語を抽出するのに必要なだけの音声区間が検出された
かどうかを判定する（ステップＳ２０４）。必要なだけ
の音声区間が検出されていなければ、処理を終了する。
必要なだけの音声区間が検出された場合には、音声特徴
抽出部５は、ステップＳ２０２で算出した各フレームの
パワー成分に基づいて、ステップＳ２０３で抽出した音
声区間の音響特徴ベクトルＸ（ｔ）を計算する（ステッ
プＳ２０５）。

【００４８】次に、尤度計算部８は、ステップＳ２０５
で算出した音声特徴ベクトルＸ（ｔ）と音素モデル格納
部６に格納されている音素モデルとしての隠れマルコフ
モデルに基づいて、単語辞書格納部７に格納されている
単語辞書に登録された単語のうちで尤度が最も高くなる
ものを、第１位候補単語として抽出する（ステップＳ２
０６）。

【００４９】第１位候補単語が抽出されると、検証部９
は、前述した処理を行うことで、第１位候補単語につい
ての尤度信頼度率Ｓを求める（ステップＳ２０７）。そ
して、この尤度信頼度率ＳをステップＳ１０２で設定し
た閾値Ｓminと比較し、尤度信頼度率Ｓが閾値Ｓminを上
回っているかどうかを判定する（ステップＳ２０８）。
尤度信頼度率Ｓが閾値Ｓmin以下であれば、抽出された
第１候補単語を棄却して（ステップＳ２１２）、処理を
終了する。

【００５０】尤度信頼度率Ｓが閾値Ｓminを上回ってい
れば、第１位候補単語が最終判定部１０に渡され、最終
判定部１０は、ステップＳ２０３で検出された音声区間
のうちの母音率Ｖを求める（ステップＳ２０９）。そし
て、この母音率ＶをステップＳ１０２で設定した閾値Ｖ
minと比較し、母音率Ｖが閾値Ｖminを上回っているかど
うかを判定する（ステップＳ２１０）。

【００５１】母音率Ｖが閾値Ｖmin以下であれば、抽出
された第１位候補単語を棄却して（ステップＳ２１
２）、処理を終了する。一方、母音率Ｖが閾値Ｖminを
上回っていた場合には、抽出された第１位候補単語を出
力部１１に渡す。そして、出力部１１は、この第１位候
補単語を音声認識の結果として出力する（ステップＳ２
１１）。そして、処理を終了する。なお、ステップＳ２
１２で第１候補単語が棄却された場合は、その旨を示す
メッセージが出力部１１から出力される。

【００５２】以上説明したように、この実施の形態にか
かる音声認識装置では、尤度計算部８において尤度が最
大となる第１位候補単語を抽出した後、さらに検証部９
において尤度信頼度率Ｓに基づく検証を行い、最終判定
部１０において母音率Ｖに基づく最終判定を行ってい
る。ここで、尤度計算部８は、尤度が最大となる第１位
候補単語を抽出するだけであるが、音声区間検証部４が
音声区間として検出したフレームがノイズのフレームで
あった場合には、経験則的に尤度信頼度率Ｓの値は低く
なる。また、話者の発した音声の母音率Ｖは、極端に低
くなることがない。

【００５３】このため、ノイズを音声認識した場合に、
尤度信頼度率Ｓが低くなるか、母音率Ｖが極端に低くな
ることによって、尤度計算部８で計算した尤度が高かっ
たとしてもノイズとして棄却することができるようにな
る。これにより、ノイズについての棄却率を高めること
ができ、従来に比べて精度の高い音声認識を行うことが
できるようになる。

【００５４】［第２の実施の形態］この実施の形態にか
かる音声認識装置は、第１の実施の形態にかかるものと
ほぼ同じ構成を有しているが、特定話者の音声認識を対
象とするもので、単語辞書格納部７に格納される単語辞
書が第１の実施の形態のものと異なっており、また、単
語辞書格納部７は、後述する母音率履歴テーブルをさら
に格納している。また、音声認識のために実行される処
理（プログラム）が第１の実施の形態のものと異なり、
最終判定部１０の機能が異なる。

【００５５】図８（ａ）は、この実施の形態にかかる音
声認識装置において、単語辞書格納部７に格納される単
語辞書の例を示す図である。この単語辞書は、単語毎の
音素パターン系列情報に加えて、最終判定部１０で母音
率Ｖと比較される規定範囲（最小値Ｖminと最大値Ｖma
x）を登録している。この規定範囲は、初期状態では所
定のデフォルト値が登録されているが、単語辞書格納部
７内に格納された母音率履歴テーブルに登録された母音
率に基づいて変更されることができる。

【００５６】図８（ｂ）は、この実施の形態にかかる音
声認識装置において、単語辞書格納部７に格納される母
音率履歴テーブルを示す図である。母音率履歴テーブル
は、最終判定部１０が求めた母音率Ｖの履歴を単語辞書
に登録された単語毎に登録するテーブルである。なお、
母音率履歴テーブルへの母音率Ｖの登録の処理、及び単
語辞書に登録された規定範囲の変更の処理は、最終判定
部１０が行うこととなる。

【００５７】次に、動作について説明する。図９は、こ
の実施の形態にかかる音声認識装置における処理を示す
フローチャートである。

【００５８】まず、第１の実施の形態の場合と同じく、
音素モデルと、単語辞書及び母音率履歴テーブルとを外
部記憶装置からメモリに読み込み、音素モデル格納部６
と単語辞書格納部７とを構築する（ステップＳ３０
１）。次に、尤度信頼度率Ｓと比較される閾値Ｓminの
値を判定部１０に設定する（ステップＳ３０２）。そし
て、次に示す音声認識処理を行い（ステップＳ３０
３）、このフローチャートの処理を終了する。

【００５９】図１０、図１１は、ステップＳ３０３の音
声認識処理を示すフローチャートである。このフローチ
ャートにおけるステップＳ４０１〜Ｓ４０９、Ｓ４１８
の処理は、それぞれ図７のステップＳ２０１〜Ｓ２０
９、Ｓ２１２の処理と同じである。

【００６０】ステップＳ４０９で母音率Ｖが求められる
と、最終判定部１０は、第１位候補単語に対応付けて単
語辞書に登録されている規定範囲の最小値Ｖminと最大
値Ｖmaxとを読み出し、求めた母音率Ｖが最小値Ｖminよ
りも大きく、最大値Ｖmaxよりも小さい範囲、すなわち
規定範囲内にあるかどうかを判定する（ステップＳ４１
１）。規定範囲内になければ、ステップＳ４１８の処理
に進み、第１位候補単語が棄却される。

【００６１】規定範囲内にあれば、抽出された第１位候
補単語を出力部１１に渡し、出力部１１が、この第１位
候補単語を音声認識の結果として出力する（ステップＳ
４１１）。さらに最終判定部１０は、出力した単語につ
いて母音率履歴テーブルに既に登録されている母音率の
数を変数ｎに代入し、さらに変数ｎの値を１だけプラス
する（ステップＳ４１２）。そして、ステップＳ４０９
で求めた母音率Ｖを当該単語のｎ個目の母音率として母
音率履歴テーブルに登録する（ステップＳ４１３）。

【００６２】次に、最終判定部１０は、当該単語につい
て母音率履歴テーブルに登録された母音率の個数ｎが所
定数ｍ以上となっているかどうかを判定する（ステップ
Ｓ４１４）。母音率の個数ｎが所定数ｍ以上となってい
なければ、そのまま処理を終了する。

【００６３】一方、母音率の個数ｎが所定数ｍ以上とな
っていれば、最終判定部１０は、当該単語について母音
率履歴テーブルに登録されたｎ個の母音率の分散ｐを求
める（ステップＳ４１５）。次に、分散ｐの値が予め定
められた値ｘよりも小さいかどうかを判定する。分散ｐ
の値が値ｘ以上である場合には、そのまま処理を終了す
る。分散ｐの値が値ｘよりも小さい場合には、当該単語
について単語辞書に登録された規定範囲の最小値Ｖmin
と最大値Ｖmaxとにそれぞれ分散ｐの値を加算し、規定
範囲を再設定する（ステップＳ４１７）。そして、処理
を終了する。

【００６４】以上説明したように、この実施の形態にか
かる音声認識装置では、母音率Ｖによる判定には、単語
毎に登録された規定範囲（最小値Ｖminと最大値Ｖmax）
を用いている。このため、第１の実施の形態に示した音
声認識装置に比べて、より正確にノイズの棄却を行うこ
とができ、音声認識の精度が向上する。しかも、規定範
囲の値は、話者が過去に発した同じ単語についての母音
率の履歴に従って変更することができる。この音声認識
装置は、特定話者を対象としているものであるので、母
音率の履歴によって規定範囲をより適正なものとしてい
くことができ、音声認識の精度を高めることができるよ
うになる。

【００６５】［実施の形態の変形］本発明は、上記の第
１、第２の実施の形態に限られず、種々の変形、応用が
可能である。以下、本発明に適用可能な上記の実施の形
態の変形態様について説明する。

【００６６】上記の第１の実施の形態では、母音率Ｖと
比較される閾値Ｖminは、第１位候補単語に関わらず、
同一の値が用いられていたが、第１の実施の形態のよう
に単語辞書に単語毎に対応付けて閾値Ｖminを登録して
おき、第１位候補単語に対応づけられた閾値Ｖminを、
求めた母音率Ｖと比較するものとしてもよい。ここで、
「愛（あい）」といった母音率が高くなる単語に関して
は閾値Ｖminの値を高めに設定し、「被災（ひさい）」
といった母音率が低くなる単語に関しては閾値Ｖminの
値を低めに設定しておけばよい。

【００６７】上記の第２の実施の形態では、全ての単語
について単語辞書に規定範囲が登録されているものとし
ていたが、一部の単語についてのみ独自の規定範囲を登
録し、他の単語については共通の規定範囲（ＶMIN、ＶM
AX）を用いるものとしてもよい。この場合、ステップＳ
３０２の処理で共通の規定範囲（ＶMIN、ＶMAX）を最終
判定部１０に設定しておく。ステップＳ４０９で母音率
Ｖを求めた後に、第１位候補単語に独自の規定範囲が登
録されているかどうかを判別する。独自の規定範囲が登
録されていなければ、そのままステップＳ４１０の処理
に進むものとし、独自の規定範囲が登録されていれば、
最終判定部に設定される規定範囲を共通の規定範囲（Ｖ
MIN、ＶMAX）から独自の規定範囲（Ｖmin、Ｖmax）に書
き替えて、ステップＳ４１０の処理に進めばよい。

【００６８】上記の第２の実施の形態では、単語辞書に
登録される規定範囲（Ｖmin、Ｖmax）は、母音率履歴テ
ーブルに登録された母音率の分散ｐが加算されて変更さ
れるものとなっていた。これに対して、特定話者が発話
した同じ単語であれば、その母音率の値はほぼ同じ値に
なることが一般に知られている。このため、母音率履歴
テーブルに登録された母音率の個数が多くなるに従っ
て、その計算結果に基づいて規定範囲を狭く設定してい
くようにしてもよい。

【００６９】上記の第１、第２の実施の形態では、検証
部９で尤度信頼度率Ｓが閾値Ｓminよりも大きいと判定
された場合に、最終判定部１０は、母音率Ｖについての
判定を行うものとしていた。しかしながら、検証部９の
処理を経ずに母音率Ｖについての判定を行い、その判定
結果を最終結果とするものとしてもよい。また、母音率
Ｖについての判定を先に行い、母音率Ｖが閾値Ｖminよ
りも大きい場合（第２の実施の形態では、規定範囲（Ｖ
minからＶmaxの間）内にあると判定した場合）、さらに
尤度信頼度率Ｓを閾値Ｓminと比較させるものとしても
よい。

【００７０】上記の第１、第２の実施の形態では、第１
位候補単語の尤度信頼度率Ｓ及び母音率Ｖを、全てのフ
レームに基づいて算出していたが、２つまたはそれ以上
の間隔毎のフレームに基づいて算出するものとしてもよ
い。これにより、尤度信頼度率Ｓおよび／または母音率
Ｖの計算精度が低下するが、処理時間を短縮することが
できるというメリットが得られる。

【００７１】上記の第１、第２の実施の形態では、尤度
計算部８は、ＨＭＭによる音素モデルを参照し、フレー
ム毎の連続音素認識により尤度を計算していた。これに
対して、ＨＭＭを母音毎にまたは子音毎に混合したガベ
ージモデルで表現したモデルを用いて、尤度を計算する
ものとしてもよい。この場合、フレーム毎の音声認識を
必要としないので、計算量が少なくなり、特に単語辞書
に登録されている単語数が少ない場合に適用するのに好
適である。

【００７２】上記の第１、第２の実施の形態では、第１
位候補単語による尤度信頼度率Ｓと母音率Ｖの判定で棄
却されれば、その時点で音声認識結果が得られないもの
となっていた。しかしながら、第１位候補単語よりも尤
度が低くても、ある程度の尤度がある単語（ＨＭＭの状
態の経路が異なるのみで、単語としては第１位候補単語
と同じである場合を含む）であれば、尤度信頼度率Ｓと
母音率Ｖの判定で棄却されず、しかもこれが正解の単語
である可能性も存在する。そこで、次のような変形を加
えるものとしてもよい。

【００７３】尤度計算部８は、例えば、尤度が高い単語
に３つの単語を第１位、第２位、第３位候補単語として
抽出する。第１位候補単語が尤度信頼度率Ｓまたは母音
率Ｖに基づいて棄却された場合には、第２位候補単語の
尤度信頼度率Ｓと母音率Ｖとを順次求める。これで棄却
されなければ、第２位候補単語を音声認識結果として出
力部１１から出力する。第２位候補単語についても尤度
信頼度率Ｓまたは母音率Ｖに基づいて棄却された場合に
は、第３位候補単語の尤度信頼度率Ｓと母音率Ｖとを順
次求める。これで棄却されなければ、第３位候補単語を
音声認識結果として出力部１１から出力する。第３位候
補単語も棄却された場合には、音声認識結果が得られな
かった旨を出力部１１から出力すればよい。

【００７４】上記の第１、第２の実施の形態では、出力
部１１は、例えば表示装置によって構成され、音声認識
結果（棄却された旨の情報を含む）を話者に提示するも
のであった。これに対して、出力部１１を何らかの電子
回路に接続させ、出力部１１からの出力結果に従って当
該電子回路を動作させるものとしてもよい。

【００７５】上記の第１、第２の実施の形態では、図６
及び図７に示したフローチャートの処理、或いは図９乃
至図１１に示したフローチャートの処理を実行させるた
めのプログラムは、汎用コンピュータのメモリに記憶さ
れているものとして説明した。そして、ＣＰＵがメモリ
に記憶されたプログラムを実行することで、パワー算出
部３、音声区間検出部４、音声特徴検出部５、尤度計算
部８、検証部９及び最終判定部１０が実現されるものと
していた。これに対して、図６及び図７のフローチャー
トの処理、或いは図９乃至図１１のフローチャートの処
理を汎用コンピュータに実行させ、パワー算出部３、音
声区間検出部４、音声特徴抽出部５、尤度計算部８、検
証部９及び最終判定部１０を実現させるためのプログラ
ムを、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどのコンピュー
タ読み取り可能な記録媒体に格納して配布してもよい。
または、これらのプログラムをＷｅｂサーバ装置が有す
る固定ディスク装置に格納しておき、インターネットを
汎用コンピュータにダウンロードさせるものとしてもよ
い。

【００７６】

【発明の効果】以上説明したように、本発明によれば、
音声認識の結果として高い尤度を示しているノイズでも
棄却できるようなり、音声認識の精度を高めることがで
きる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態にかかる音声認識装
置の構成を示すブロック図である。

【図２】図１の音素モデル格納部に格納される音素モデ
ルの例を示す図である。

【図３】図１の単語辞書格納部に格納される単語辞書の
例を示す図である。

【図４】尤度信頼度率を求める方法を説明する図であ
る。

【図５】キーボードを打つ音の実測結果を示す図であ
る。

【図６】本発明の第１の実施の形態にかかる音声認識装
置における処理を示すフローチャートである。

【図７】図６の音声認識処理を詳細に示すフローチャー
トである。

【図８】（ａ）は、本発明の第２の実施の形態にかかる
音声認識装置において単語辞書格納部に格納される単語
辞書の例を、（ｂ）は、母音率履歴テーブルを示す図で
ある。

【図９】本発明の第２の実施の形態にかかる音声認識装
置における処理を示すフローチャートである。

【図１０】図９の音声認識処理を詳細に示すフローチャ
ートである。

【図１１】図９の音声認識処理を詳細に示すフローチャ
ートである。

【符号の説明】

１・・・音声入力部、２・・・入力音声格納部、３・・・パワー
算出部、４・・・音声区間検出部、５・・・音声特徴抽出部、
６・・・音素モデル格納部、７・・・単語辞書格納部、８・・・
尤度計算部、９・・・検証部、１０・・・最終判定部、１１・・
・出力部

Claims

【特許請求の範囲】

【請求項１】認識対象となる音声に含まれる各音素をモ
デル化した音素モデルを格納した音素モデル格納手段
と、認識結果として出力されるべき複数種類の単語の音素パ
ターン系列をそれぞれ登録した単語辞書を格納した単語
辞書格納手段と、入力された音声を前記音素モデル及び前記単語辞書を参
照して音声認識し、前記単語辞書に登録された各種類の
単語の尤度を求め、該求めた尤度に基づいて、認識結果
として出力される単語の候補を抽出する候補単語抽出手
段と、前記入力された音声に含まれる母音と子音との比率を算
出する比率算出手段と、前記比率算出手段が算出した母音と子音との比率が所定
の範囲にあるかどうかを判定する比率判定手段と、前記比率判定手段が所定の範囲にあると判定したとき
に、前記候補単語抽出手段が候補として抽出した単語を
音声認識結果として出力する結果出力手段とを備えるこ
とを特徴とする音声認識装置。
【請求項２】前記比率判定手段は、前記母音と子音との
比率を予め設定された閾値と比較することで、所定の範
囲にあるかどうかの判定を行うことを特徴とする請求項
１に記載の音声認識装置。
【請求項３】前記単語辞書は、前記複数種類の単語のそ
れぞれに対応付けて、さらに前記比率判定手段の判定に
用いるための比率範囲を登録しており、前記比率判定手段は、前記母音と子音との比率が前記候
補単語抽出手段が候補として抽出した単語に対応した比
率範囲にあるかどうかを判定することを特徴とする請求
項１または２に記載の音声認識装置。
【請求項４】同一の話者から入力された同一の単語につ
いて、前記比率算出手段が算出した母音と子音との比率
の履歴を複数回分登録する履歴登録手段をさらに備え、少なくとも１の単語に対応付けて前記単語辞書に登録さ
れた比率範囲は、前記履歴登録手段に登録された比率の
履歴に従って算出されたものであることを特徴とする請
求項３に記載の音声認識装置。
【請求項５】前記候補単語抽出手段は、尤度の高いほう
から順位付けられた複数の単語の候補を抽出し、前記比率算出手段は、尤度の高い単語から順に母音と子
音との比率を算出し、該算出した母音と子音との比率が
所定の範囲にないと前記比率判定手段によって判定され
たときに、次の順位の単語について母音と子音との比率
を算出することを特徴とする請求項１乃至４のいずれか
１項に記載の音声認識装置。
【請求項６】前記候補単語抽出手段が候補として抽出し
た単語について、その尤度の信頼度を算出する尤度信頼
度算出手段と、前記尤度信頼度算出手段が算出した尤度の信頼度が所定
の閾値を上回るかどうかを判定する尤度信頼度判定手段
とをさらに備え、前記結果出力手段は、前記尤度信頼度判定手段が所定の
閾値を上回ると判定し、且つ前記比率判定手段が所定の
範囲にあると判定したときに、前記候補単語抽出手段が
抽出した単語を音声認識結果として出力することを特徴
とする請求項１乃至５のいずれか１項に記載の音声認識
装置。
【請求項７】前記候補単語抽出手段は、尤度の高いほう
から順位付けられた複数の単語の候補を抽出し、前記尤度信頼度算出手段は、尤度の高い単語から順に尤
度の信頼度を算出し、該算出した尤度の信頼度が前記所
定の閾値を上回らないと前記尤度信頼度判定手段によっ
て判定されたときに、次の順位の単語について尤度の信
頼度を算出することを特徴とする請求項６に記載の音声
認識装置。
【請求項８】前記音素モデルは、認識対象となる音声に
含まれる各音素を隠れマルコフモデルでモデル化したも
のであり、前記候補単語抽出手段は、前記入力された音声を所定時
間を単位として複数の区間に分割し、該分割した区間の
うちの音声区間について音響特徴ベクトルを求め、各区
間の音響特徴ベクトルと前記音素モデルとに基づいて連
続音素認識を行い、各フレームでの尤度の合計が最大と
なる単語を候補として抽出することを特徴とする請求項
１乃至７のいずれか１項に記載の音声認識装置。
【請求項９】入力された音声を、認識対象となる音声に
含まれる各音素をモデル化した音素モデル及び認識結果
として出力されるべき複数種類の単語の音素パターン系
列をそれぞれ登録した単語辞書を参照して音声認識し、
前記単語辞書に登録された各種類の単語の尤度を求め、
該求めた尤度に基づいて、認識結果として出力される単
語の候補を抽出する候補単語抽出ステップと、前記入力された音声に含まれる母音と子音との比率を算
出する比率算出ステップと、前記比率算出ステップで算出した母音と子音との比率が
所定の範囲にあるかどうかを判定する比率判定ステップ
と、前記比率判定ステップで所定の範囲にあると判定したと
きに、前記候補単語抽出ステップにおいて候補として抽
出した単語を音声認識結果として出力する結果出力ステ
ップとを含むことを特徴とする音声認識方法。
【請求項１０】前記候補単語抽出ステップで候補として
抽出した単語について、その尤度の信頼度を算出する尤
度信頼度算出ステップと、前記尤度信頼度算出ステップで算出した尤度の信頼度が
所定の閾値を上回るかどうかを判定する尤度信頼度判定
ステップとをさらに含み、前記結果出力ステップは、前記尤度信頼度判定ステップ
所定の閾値を上回ると判定し、且つ前記比率判定ステッ
プで所定の範囲にあると判定したときに、前記候補単語
抽出ステップで抽出した単語を音声認識結果として出力
することを特徴とする請求項９に記載の音声認識方法。
【請求項１１】入力された音声を、認識対象となる音声
に含まれる各音素をモデル化した音素モデル及び認識結
果として出力されるべき複数種類の単語の音素パターン
系列をそれぞれ登録した単語辞書を参照して音声認識
し、前記単語辞書に登録された各種類の単語の尤度を求
め、該求めた尤度に基づいて、認識結果として出力され
る単語の候補を抽出する候補単語抽出手段、前記入力された音声に含まれる母音と子音との比率を算
出する比率算出手段、前記比率算出手段が算出した母音と子音との比率が所定
の範囲にあるかどうかを判定する比率判定手段、及び、前記比率判定手段が所定の範囲にあると判定したとき
に、前記候補単語抽出手段が候補として抽出した単語を
音声認識結果として出力する結果出力手段としてコンピ
ュータ装置を機能させるためのプログラム。
【請求項１２】前記候補単語抽出手段が候補として抽出
した単語について、その尤度の信頼度を算出する尤度信
頼度算出手段、及び、前記尤度信頼度算出手段が算出した尤度の信頼度が所定
の閾値を上回るかどうかを判定する尤度信頼度判定手段
として前記コンピュータ装置を機能させ、前記結果出力手段は、前記尤度信頼度判定手段が所定の
閾値を上回ると判定し、且つ前記比率判定手段が所定の
範囲にあると判定したときに、前記候補単語抽出手段が
抽出した単語を音声認識結果として出力することを特徴
とする請求項１１に記載のプログラム。