JP2005004018A

JP2005004018A - 音声認識装置

Info

Publication number: JP2005004018A
Application number: JP2003168641A
Authority: JP
Inventors: Michihiro Yamazaki; 道弘山崎; Jun Ishii; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-06-13
Filing date: 2003-06-13
Publication date: 2005-01-06

Abstract

【課題】瞬断区間やＡ／Ｄ変換器の入力レンジを超えるオーバーフロー区間を有するアナログ音声信号に対して音声認識処理を行う場合に、認識率の低下を防ぐ手段を提供する。
【解決手段】アナログ音声信号に、瞬断区間又はＡ／Ｄ変換器１の入力レンジを超えるオーバーフロー区間が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析部３を備えて、不安定区間の音声信号をも用いて、音声認識するようにした。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、入力音声のパワーがＡ／Ｄ変換器の入力レンジを超えたり、瞬断が発生しうる環境にある場合においても、音声認識の精度を向上する音声認識装置に係るものであり、特に入力レンジを超えた区間又は瞬断区間の信号処理又は尤度算出処理を工夫することによって、音声認識の精度を向上する技術に関する。
【０００２】
【従来の技術】
従来の技術によれば、瞬断・オーバーフローが生じている区間において、すべての認識基本単位（ある音響モデル中に記憶されているすべての音素または音韻、音節）に対して同じ音響尤度（以下、単に尤度と呼ぶ）を与えるようにしていた。このようにすることで、音声信号の歪んだ区間で正しい認識基本単位の尤度が低くなり、そのために正解語彙の尤度が低くなることによる誤認識を防いでいる（例えば、非特許文献１）。
【０００３】
また、瞬断・オーバーフローに対処する技術ではないが、パワーの低い区間を無音区間として、無音区間の音声特徴量をパターン照合から除外する方法などもある（例えば、特許文献１や特許文献２）。
【０００４】
【特許文献１】
特開２００１−１３９８８「音声認識方法及び装置」第２図、第３頁−第７頁
【特許文献２】
特開２０００−１９４３８５「音声認識処理装置」
【非特許文献】
日本音響学会講演論文集（１９９９年９月〜１０月Ｖｏｌ．１Ｐ１４９３−Ｑ−１６）
【０００５】
【発明が解決しようとする課題】
従来の技術による音声認識装置では、オーバーフロー区間や瞬断区間、無音区間に残存する音声の情報を使用しないため、高精度な音声認識を行うことが難しく、特にオーバーフロー区間や瞬断区間が長くなると認識率が低下するという問題があった。
【０００６】
一方、これらの区間に残存する音声の情報は不安定であり、例えば、瞬断区間のようにサンプル値０のディジタル信号が連続した区間に対して音響分析を行うと音響分析に失敗するという問題があった。このような問題を回避するため、従来技術では、この区間直前の音響分析結果を繰り返して使用する方法もあった。しかしこの方法では、瞬断区間が長くなるにつれて、直前の音響分析結果との乖離が大きくなり、誤ったデータにより照合を行うことになるという問題があった。
【０００７】
この発明は上記のような問題点を解決するためになされたもので、瞬断やオーバーフローがある音声に対しても高精度な音声認識を行うことを目的とする。
【０００８】
【課題を解決するための手段】
この発明に係る音声認識装置は、アナログ音声信号を入力し、Ａ／Ｄ変換器によりディジタル信号に変換して、このディジタル信号から入力音声特徴量を算出するとともに、前記入力音声特徴量に基づいて前記アナログ音声信号の音声認識結果を算出する音声認識装置であって、
前記アナログ音声信号に、不安定区間が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析手段を備えたことを特徴とするものである。
【０００９】
ここで、不安定区間とは、音声認識装置の有するＡ／Ｄ変換器に入力されるアナログ音声信号に含まれる瞬断区間又は前記Ａ／Ｄ変換手段の入力レンジを超えるオーバーフロー区間をいうものとする。
【００１０】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声認識装置の構成を示すブロック図である。図において、Ａ／Ｄ変換器１は入力された音声のアナログ信号をディジタル信号に変換する素子又は回路であって、例えばサンプリング周波数を８ｋＨｚ、ビット数分解能を１６ビットとし、線形パルス符号化（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ：ＰＣＭ）によって入力信号をディジタル化するものである。このサンプル値は式（１）によって与えられる値域に含まれる値をとる。
【数１】

【００１１】
図２は、Ａ／Ｄ変換器１に入力されるアナログ信号を示した波形図である。図３は、図２によって示されるアナログ信号をディジタル変換した後の波形図である。図において、ＳｍａｘとＳｍｉｎはＡ／Ｄ変換器１の入力レンジの上限と下限を示すものである。図の破線で描かれた円１０１における信号の状況を拡大して示したのが、破線で描かれた円１０２であって、入力信号のうちＳｍａｘを超える部分（オーバーフローしたサンプル）については、入力レンジの上限であるＳｍａｘに平滑化されていることを示している。
【００１２】
また図４は、図２に示されたアナログ信号波形において、瞬断が発生した場合の入力音声の波形を示す波形図である。この場合は、Ａ／Ｄ変換器１の入力レンジとは関係なく、一定区間の間のサンプル値が存在しないこととなり、Ａ／Ｄ変換器１は、その区間においてサンプル値が０の出力信号を出力することになる。
【００１３】
引き続き、図１によって、この発明の実施の形態１による音声認識装置の構成を説明する。微小信号出力部２は、Ａ／Ｄ変換器１の出力信号に微小信号（微小雑音）を重畳する素子又は回路である。音響分析部３は、微小信号（微小雑音）が重畳されたディジタル信号から、一定時間毎の信号を用いて、音声認識を行うための音声特徴量（入力音声特徴量）を出力する部位である。音響尤度演算部４は、認識基本単位毎の音声の標準パタン（標準音声特徴量）と音響分析部３から出力された音声特徴量とを比較し、認識基本単位毎の尤度を算出する部位である。
【００１４】
音響モデル記憶部５は、音響尤度演算部４が尤度を算出する認識基本単位の音声標準パタンを記憶する記憶媒体又は記憶素子及び回路（記憶装置と総称する）から構成されるが、さらにこの記憶装置を管理・構成するコンピュータプログラムやコントローラを含んでいてもよい。
【００１５】
また、照合部６は、この音声認識装置が基づいている語彙・言語モデルに従って、認識基本単位毎に算出された尤度から語彙の尤度を算出し、この語彙の尤度が最大となる語彙を認識候補として算出する部位である。語彙・言語モデル記憶部７は、照合部６が参照する語彙・言語モデルを記憶する記憶媒体又は記憶素子及び回路（記憶装置）であって、この記憶装置を管理・構成するコンピュータプログラムやコントローラまでをも含んでもよいという点については、音響モデル記憶部５と同様である。
【００１６】
なおＡ／Ｄ変換器１はＡ／Ｄ変換手段、微小信号出力部２は微小信号出力手段、音響分析部は音響分析手段、音響尤度演算部４と音響モデル記憶部５は音響尤度演算手段、照合部６と語彙・言語モデル記憶部７は照合手段にそれぞれ相当する。
【００１７】
次にこの発明の実施の形態１による音声認識装置の動作について説明する。Ａ／Ｄ変換器１は、アナログ信号として入力された音声信号をディジタル信号に変換する。微小信号出力手段２は、Ａ／Ｄ変換器１が出力したディジタル信号に微小な信号を重畳し出力する。このような微小信号を重畳する処理を、ここでは非０化と呼ぶこととする。微小信号としては、例えば、サンプル値の最大値が２^４程度の白色雑音を出力する。
【００１８】
なお、Ａ／Ｄ変換器１と微小信号出力部２とを直列に接続する他に、例えばＡ／Ｄ変換器１において、パワーを検知することによって、瞬断やオーバーフローが発生したことを検出し、その検出結果に基づいて、可動端子をＡ／Ｄ変換器１の出力と、微小信号出力部２の出力とのいずれかに接続するスイッチを設けるようにしてもよい。
【００１９】
また、非０化の方法としては、例えばＡ／Ｄ変換器１と微小信号出力部２との接続位置を入れ替えて、微小信号出力部２の出力がＡ／Ｄ変換器１の入力となるようにしてもよい。このようにすると、常に微小信号出力部２の出力がＡ／Ｄ変換器１に入力され続けるので、瞬断が発生しても、Ａ／Ｄ変換器１が出力するサンプル値は一定期間以上連続して０になることがない。
【００２０】
続いて、音響分析部３は、微小信号出力部２から出力される微小な雑音を重畳された音声（ディジタル信号）に対して、一定時間（例えばフレーム周期＝１０ｍｓｅｃ）毎に、一定時間分（例えばフレーム長＝２５ｍｓｅｃ）のディジタル信号を用いて特徴量（例えばＬＰＣケプストラム係数）を算出する。その結果、音響分析部３の出力Ｏは、例えば式（２）に示すように特徴量の時系列となる。
【数２】

【００２１】
なお、式（２）において、ｏ（ｔ）はｔ番目のフレームにおける特徴量であって、式３に示すように次元数Ｋのベクトルとなる。
【数３】

【００２２】
ここで、音声特徴量をＬＰＣケプストラム係数とした場合のｎ次のＬＰＣケプストラムｏ’（ｔ，ｎ）は、式（４）〜（６）によって算出される。
【数４】

なお、α_ｉ（ｉ＝１，２，…，Ｎａ）は線形予測係数であり、以下のように求める。
【００２３】
すなわち、まず窓長（１フレーム内のサンプル数）をＮｓとし、ｔ番目のフレームにおける１〜Ｎｓ番目の音声信号にフレームの外側では０であるような有限長の窓関数（ハミング窓など）を乗じた音声信号をｘ（ｔ，ｉ）（０≦ｉ≦Ｎｓ−１）として、式（７）により、自己相関数列Ｒ_０，Ｒ_１、Ｒ_２、…、Ｒ_Ｎａを算出する。
【数５】

【００２４】
次に、α_ｉについての連立方程式である式（８）を解く。
【数６】

式（８）を行列表示に直すと、式（９）となる。
【数７】

ただし、ｒ_ｉ＝Ｒ_ｉ／Ｒ_０とする。
【００２５】
この式（９）による行列のＴｏｅｐｌｉｔｚ性を利用して、レビンソン・ダービン（Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ）の巡回解法によりα_ｉを求めることができる。なお、ここでは、各α_ｎについてｎ＝１からｎ＝Ｎａまで巡回させて計算するが、ｍ回目（ただし１≦ｍ≦Ｎａ）の計算で得られたα_ｎをα_ｎ ^（ｍ）と表し、特にｍ＝ｎのときｋ_ｎ＝ａ_ｎ ^（ｎ）と表記することとする。そうすると、まず初期値として、
【数８】

として、次の漸化式からｍ＝２、３、４…について、順に、ｋ_ｍ、ａ_ｉ ^（ｍ）、Ｅ^（ｍ）を計算する。
【数９】

【００２６】
式（１１）において、ｍを順次大きくしていき、Ｎａになったところで、この漸化式による計算を終了し、α_ｉ（ｉ＝１，２，…，Ｎａ）が算出される。ところで、以上のＬＰＣケプストラムの演算過程において、得られた音声信号がすべて０であるとすると、ｘ_ｉ＝０（ｔ＝０，１，２，…，Ｎ−１）となるので、式（７）によって算出するＲ_０は、次式のように０となる。
【数１０】

【００２７】
その結果、式（９）におけるｒ_ｉ＝Ｒ_ｉ／Ｒ_０を求めようとすると、０で除算することとなってしまい、ｒ_ｉを計算できない。このことは、ＬＰＣケプストラムｏ’（ｔ，ｎ）を算出することができないことを意味している。すなわち、瞬断やオーバーフローによってＡ／Ｄ変換器１の出力が０となると、ＬＰＣケプストラムが算出できないために、音声特徴量の計算でエラーが生じる。０による除算は、通常の計算機システムではトラップの発生で処理されるような重大エラーとして扱われる。このため従来は、不安定区間に残存している音声信号を用いて安定的に音声認識することができない。これが従来における入力信号に不安定区間が存在する場合の音声認識処理の問題点であった。
【００２８】
しかし実施の形態１による音声認識装置では、微小信号出力部２を設けることにより、このような問題を解決している。すなわち不安定区間において、Ａ／Ｄ変換器１の出力が０となっても、微小信号出力部２が非０成分からなる微小信号を補うので、音響分析部３の入力音声信号は決して０になることがない。したがって、不安定区間が存在する入力音声信号に対して音声特徴量を安定的に算出するので、不安定区間に残存している音声信号から音声特徴量を求める演算を行っても、上記のような問題は生じない。
【００２９】
なお、実施の形態１では微小信号出力部２を設けることで、物理的に非０化、すなわち入力信号が０とならないような対策を講じたが、このような方法の他に、例えば音響分析部３において、入力音声信号の所定の下位ビット、例えば最下位ビットを１にマスクして非０化する方法を採用してもよいことはいうまでもない。
【００３０】
以上が音響分析部３の動作である。引き続き、実施の形態１による音声認識装置の動作について説明する。
【００３１】
音響モデル記憶部５は、認識基本単位毎の標準的な特徴量を表す標準パタンを記憶している。ＨＭＭ（ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄｅｌ）においては標準パタンはガウス分布で表されることが多い。なお以後の説明において、認識基本単位として音素を用いることとするが、音素の代わりに音韻、音節等を用いる場合であっても、処理の流れは何ら変わることがない。
【００３２】
音響尤度演算部４は、音響分析部３が出力した音声の特徴量の時系列Ｏと、音響モデル記憶部５が記憶している例えば音素毎の標準パタンとを比較し、各フレームの各音素に対する尤度を演算する。フレームｔにおける特徴量ｏ（ｔ）の音素ｐに対する尤度Ｂ（ｐ，ｔ）は、対角共分散行列を用いたガウス分布では、式（１４）によって算出される。
【数１１】

【００３３】
照合部６は、音響尤度演算部４で求めた尤度と、語彙・言語モデル記憶部７により記憶される各語彙の音素系列から各認識語彙の尤度を算出し、最終的に最も尤度が高くなる語彙を認識結果として出力する。すなわち音響分析部３が出力した音声特徴量の時系列Ｏに対して下記の式（１５）を用いて音声認識結果Ｗ’を抽出する。
【数１２】

【００３４】
式（１５）において、第１項のＰ（Ｏ｜Ｗ）は音響的な確率である。この確率は認識対象語彙Ｗを仮定して計算する。最近では音響的な確率を計算するためにＨＭＭを用いることが多い。また、第２項のＰ（Ｗ）は仮定された語彙Ｗの確率を表すものであり、言語的な確率である。最近では言語的な確率を求めるために統計的言語モデルを用いることが多い。
【００３５】
ここで状態遷移系列をｑ＝｛ｑ（０），ｑ（１），．．．．ｑ（Ｔ）｝（但し、ｑ（０）は初期状態、ｑ（Ｔ）は最終状態の集合Ｆの要素）としたとき、式５のＰ（Ｏ｜Ｗ）は下記の式（１６）で表すことができる。
【数１３】

【００３６】
なお、式（１６）において、π_ｉはｉ番目の状態の初期確率（π_０＝１，π_１，…，π_Ｔ＝０）、ａ（ｉ，ｊ）はｉ番目の状態からｊ番目の状態への遷移確率、ｂ（ｉ，ｔ）は時刻（フレーム）ｔでのｉ番目の状態の尤度をあらわす。またＦは最終状態の集合を表す。ここで、ｉ番目の状態が音素ｐを表す状態ならばｂ（ｉ，ｔ）＝Ｂ（ｐ，ｔ）である。
【００３７】
このようにして、実施の形態１による音声認識装置は入力音声信号について最尤の音声認識結果を出力するのである。
【００３８】
以上から明らかなように、実施の形態１の音声認識装置によれば、アナログ音声信号またはこのアナログ音声信号をディジタル変換して得たディジタル信号を非０化することで、入力されるアナログ音声信号中に不安定区間が存在しても安定的に音声特徴量を算出する。したがって不安定区間に残存する音声信号に基づいて音声認識を行えるようになり、その結果、オーバーフローや瞬断のある音声信号に対しても認識率の低下を防ぐことができる。
【００３９】
なお、実施の形態１の構成要素中、Ａ／Ｄ変換器１、微小信号出力部２、音響分析部３以外の構成要素をその他の構成要素に代えても、この発明の特徴を損なうことはない。
【００４０】
また、Ａ／Ｄ変換部１、微小信号出力部２、音響分析部３、音響尤度演算部４、照合部５をハードウェアで構成してもよいが、これらの処理を行う音声認識プログラムを作成し、コンピュータがこの音声認識プログラムを実行するようにしてもよい。
【００４１】
実施の形態２．
実施の形態１では、不安定区間において音声特徴量の算出が行えない問題点を、入力信号に微小信号を重畳する、あるいはディジタル信号の下位ビットを１にマスクすることで解決し、安定的に音声特徴量を算出するようにして、不安定区間に残存する音声信号を利用できるようにした。実施の形態２では、このような不安定区間における尤度の信頼性が低いことに着目し、不安定区間以外の尤度を用いて、不安定区間の尤度を補正することで、不安定区間の音響尤度の信頼性を向上するものである。
【００４２】
図５は、実施の形態２による音声認識装置の構成を示すブロック図である。図において図１と同一の符号を付した構成要素については、実施の形態１と同様であるので説明を省略する。不安定区間検出部８は、Ａ／Ｄ変換器１において瞬断やオーバーフローが発生したか否かを検出する部位である。また、音響尤度補正部９は、不安定区間について音響尤度演算部４で算出された尤度を補正する部位であって、不安定区間検出部８との間に不安定区間か否かを通知するための信号線が設けられている。
【００４３】
なお、音響尤度演算部４と音響モデル記憶部５、不安定区間検出部８は音響尤度演算手段、音響尤度補正部９は音響尤度補正手段、照合部６と語彙・言語モデル記憶部７、不安定区間検出部８は照合手段にそれぞれ相当する。
【００４４】
次に、実施の形態２による音声認識装置の動作について説明する。Ａ／Ｄ変換器１は、実施の形態１と同じようにアナログ音声信号をディジタル信号に変換する。不安定区間検出部８は、Ａ／Ｄ変換器１の入力線のパワーを監視していて、不安定区間の検出、すなわち瞬断の発生やオーバーフローの発生を検出すると、音響尤度補正部９への信号線をＨｉにする。また不安定区間にない場合は、この信号線をＬｏｗのままとする。
【００４５】
音響分析部３、音響尤度演算部４は実施の形態１と同様に作用し、フレームｔごとに音声特徴量ｏ（ｔ）と、音素ｐに対する音響尤度Ｂ（ｐ，ｔ）の算出を行う。
【００４６】
音響尤度補正部９は、不安定区間検出部８からの信号線がＬｏｗである場合には、音響尤度演算部４が算出した尤度Ｂ（ｐ，ｔ）をそのまま出力する。また、信号線がＨｉの場合、音響尤度補正部９は、音響尤度演算部４により算出された尤度を次のように補正する。すなわち、不安定区間が開始する時刻と終了する時刻の時間軸上の点を始点ｔｓと終点ｔｅとして、式（１８）によって尤度を補正する。
【数１４】

【００４７】
ここでＮは不安定区間の前後の尤度（不安定区間の始点直前に算出された尤度および終点直後に算出された尤度）を用いて補正することを許容する最大時間であり、Ｂｔｈは予め定められた値である。すなわち、式（１８）では、始点と終点から時間Ｎを超える時間だけ離れている区間（上記（Ｃ））では、一定値Ｂｔｈとし、始点と終点から離れている時間が時間Ｎ以内の区間（上記（Ａ）と（Ｂ））では、始点直前の尤度と終点直後の尤度、さらに（Ｃ）のＢｔｈに連続な尤度分布となる尤度を与えるようにしている。時間Ｎは、例えば４０ｍｓｅｃとするなど、音響分析のフレーム長を考慮して定められる。
【００４８】
次に照合部６は実施の形態１と同様にして、式（１５）を用いて最尤なる音声認識結果を算出する。以上が実施の形態２による音声認識装置の動作である。
【００４９】
以上から明らかなように、実施の形態２の音声認識装置によれば、不安定区間の音響尤度を、その区間の前後の尤度に基づいて補正することとした。これにより、不安定区間の前後の音素の尤度が不安定区間の始点または終点近傍に反映されるようになるので、オーバーフローや瞬断による音声情報の不連続性を補うことによって、誤認識を防ぐことができる。
【００５０】
また始点と終点から離れるにつれて、始点直前の尤度と終点直後の尤度の影響が小さくなると考えられ、さらに一定以上離れた中間区間においては、始点や終点の効果がなくなると考えられることから、一定値を尤度とすることとした。これによって、不安定区間が長い場合に、始点直前の尤度と終点直後の尤度が必要以上に効果を及ぼすことを回避できる。
【００５１】
また、不安定区間においても尤度を補正しながら、その区間に残存する音声信号に基づいて音声認識を行うので、その結果、オーバーフローや瞬断のある音声信号に対しても認識率の低下を防ぐことができる。
【００５２】
なお、式（１８）による補正以外にも、始点直前の尤度と終点直後の尤度とを不安定区間の尤度に反映させる方法が考えられる。例えば、始点直前の尤度から終点直後の尤度に向かって単調増加、あるいは単調減少するような尤度分布を仮定し、このような尤度分布に基づいて、不安定区間の尤度を決定するようにしてもよい。このような方法によっても、オーバーフローや瞬断による音声情報の不連続性を補うことができるので、誤認識を防ぐことができる。
【００５３】
また、実施の形態１で示したように、不安定区間の入力信号を非０化して、安定的に音声特徴量を算出する技術と組み合わせて構成するようにしてもよいことはいうまでもない。
【００５４】
さらに、実施の形態２による音声認識装置では、不安定区間検出部８を設けることによって、Ａ／Ｄ変換器１で瞬断やオーバーフローが発生していることを検知するようにした。しかし、この他にも、例えば音響分析部３において、Ａ／Ｄ変換器１によるサンプル値が所定の下限値以下または未満であれば、瞬断と判断し、さらにサンプル値の絶対値が所定の値以上または超えていれば、オーバーフローと判断し、このようなサンプル値に基づいて音声特徴量を生成する場合に、特別なフラグなどを立てて、音響尤度演算部４や音響尤度補正部５において判断できるようにしておいてもよい。例えば実施の形態１で示した微小信号出力部２を備えるようにして、さらに微小信号出力部で２^４程度の微小信号を重畳するのであれば、下限値は２^５程度として整合を図るようにしてもよい。またＡ／Ｄ変換器１のビット数分解能が１６ビットならば、−３２７６８〜３２７６７が値域となるので、サンプル値の絶対値が３２７６７以上となった場合をオーバーフロー発生と判断するようにしてもよい。
【００５５】
実施の形態３．
実施の形態２による音声認識装置は、不安定区間における音響尤度の補正によって、最尤音素（あるいは他の認識基本単位でもよい）を適切に選択し、誤認識を防ぐものであった。その他に、語彙との照合時に不安定区間における音響尤度の重み付けを低くする方法も考えられる。実施の形態３による音声認識装置は、このような原理によって動作するものである。
【００５６】
図６は、実施の形態３による音声認識装置の構成を示すブロック図である。図において、図５と同じ符号を付した構成要素は、実施の形態２と同様であるので説明を省略する。図６から明らかなように、不安定区間検出部８からの信号線が照合部６に至っていることが図５との相違点である。なお、実施の形態３における不安定区間検出部８は、不安定区間か否かを検出するだけでなく、不安定区間についてはオーバーフロー区間と瞬断区間のいずれであるかについても検出することとし、信号線は３つの状態（例えばＮｏｒｍａｌ：不安定区間でない、Ｈｉ：オーバーフロー、Ｌｏｗ：瞬断）をとりうるものとする。
【００５７】
次に実施の形態３による音声認識装置の動作について説明する。Ａ／Ｄ変換器１、不安定区間検出部８、音響分析部３、音響尤度演算部４の動作については、実施の形態２と同様であるので説明を省略する。続いて、照合部１０は、不安定区間検出部８の信号線がＮｏｒｍａｌ、Ｈｉ、Ｌｏｗのいずれでであるかによって、音響尤度演算部４で算出された音素毎の尤度の、入力音声信号全体の尤度算出における寄与度を設定し、その後、音素毎の尤度と語彙・言語モデル７と寄与度とを用いて照合し、認識結果を出力する。
【００５８】
ここでフレームｔにおけるフレーム寄与度をｆ（ｔ）とした場合の式（１５）における音響的確率Ｐ（Ｏ｜Ｗ）は、式（１９）によって与えられる。
【数１５】

またフレーム寄与度ｆ（ｔ）は次のようにする。
【数１６】

【００５９】
ここでｆ１、ｆ２を一定の値とし、例えばｆ１＝０．５、ｆ２＝０．１などのように設定する。この例ではオーバーフロー区間の尤度の全体の寄与度は通常区間の半分、瞬断区間の尤度の全体への寄与度は通常区間の１／１０としている。
【００６０】
また、時刻ｔの１フレーム内で最大値をオーバーしている信号の割合を、ピーク検出率と呼び、Ｐｏ（ｔ）で表すこととし、時刻ｔの１フレーム内で瞬断状態の信号の割合を、瞬断検出率と呼び、Ｐｃ（ｔ）で表すこととすると、式（２２）に示すように、フレーム寄与度ｆ（ｔ）は、オーバーフロー時にはピーク検出率Ｐｏ（ｔ）、瞬断時にはＰｃ（ｔ）としてもよい。
【数１７】

【００６１】
さらに具体的にこれらの演算方法を示すと、例えば式（２３）や式（２４）に示すような方法が考えられる。
【数１８】

【数１９】

【００６２】
この例では、ピーク検出率が一定値以下（０．０５）の場合は、求めた尤度が信用できるためフレーム寄与度は１（通常時と同じ）とし、またピーク検出率が一定値（０．３）より大きくなった場合は、入力歪みが大きすぎて尤度演算が信用できないため、フレーム寄与度を０（全体の尤度に寄与しない）としている。またピーク検出率が０．０５と０．３との間の値では、ピーク検出率が大きくなるほどフレーム寄与度が小さくなるものとしている。
【００６３】
またフレーム寄与度をオーバーフロー区間の始端、終端からの時間を用いてもよい。この場合の算出例を式（２５）に示す。なお式（２５）において、ｔｓは不安定区間の始点、ｔｅは不安定区間の終点である。
【数２０】

なお、上式において、ｍｉｎ（ｘ，ｙ）とは、ｘとｙの小さい方を選択する演算である。この例では、始点と終点の寄与度は１となり、不安定区間の中間では０．５となる。
【００６４】
以上から明らかなように、不安定区間検出部８により出力された瞬断区間又はオーバーフロー区間の尤度の全体の尤度への寄与度を小さくする（反映しにくくする）ことにより、不安定区間に残存する音声信号を利用しながら、一方で、尤度の信頼性の低い区間による誤認識を減らすことができる。
【００６５】
また、ピーク検出率や、オーバーフロー区間の端からの時間差等に基づいて、フレーム寄与度を設定することにより、入力状態に応じた寄与度を設定することが可能となる。
【００６６】
なお、実施の形態３では、不安定区間検出部８がオーバーフロ区間、瞬断区間、通常区間の３つの状態を判断することとしたが、実施の形態２と同じように、音響分析部３が判断するようにし、音声特徴量中にこれらの情報を識別するような成分やデータを含めるようにしてもよい。
【００６７】
さらに、実施の形態１における微小信号出力部２や、実施の形態２における音響尤度補正部９と組み合わせて用いることが可能なことはいうまでもない。
【００６８】
実施の形態４．
実施の形態１〜３による音声認識装置では、不安定区間においても安定的に音声特徴量を演算する方法、不安定区間の尤度を補正する方法、不安定区間の尤度の重み付けを不安定区間以外の尤度の重み付けより小さくする方法などによって、オーバーフローや瞬断の存在する音声信号に基づいて、音声認識を行うものであった。この他に、不安定区間における音声信号を認識することを前提とした音響モデルを準備する方法も考えられる。実施の形態４による音声認識装置はかかる原理により動作するものである。
【００６９】
図７は、実施の形態４による音声認識装置の構成を示したブロック図である。図において、図６と同じ符号を付した構成要素については、実施の形態３と同様であるので、説明を省略する。ただし、実施の形態４において、音響モデル記憶部５は、複数の音響モデルを記憶しているものとする。また音響モデル選択部１０は、音響モデル記憶部５が記憶している複数の音響モデルから条件に見合う音響モデルを選択する部位である。さらに不安定区間検出部８からの信号線は音響モデル選択部１０に接続されている。
【００７０】
次に、実施の形態４による音声認識装置の動作について説明する。Ａ／Ｄ変換器１、不安定区間検出部８、音響分析部３の動作については実施の形態３と同様であるので説明を省略するが、実施の形態４においても、実施の形態３と同様、不安定区間検出部８の検出結果である信号線はＨｉ（オーバーフロー区間を表す）、Ｌｏｗ（瞬断区間を表す）、Ｎｏｒｍａｌ（定常状態又は通常状態、あるいは安定区間を表す）の３つの状態を表すものとする。
【００７１】
なお、音響尤度演算部４と音響モデル記憶部５、不安定区間検出部８、音響モデル選択部１０は音響尤度演算手段に相当する。
【００７２】
続いて音響モデル選択部１０の動作について説明する。音響モデル選択部１０は、不安定区間検出部８から出力される不安定区間検出結果に基づいて、ピーク検出率と瞬断検出率を算出する。そして算出されたピーク検出率・瞬断検出率に基づいて、音響モデル記憶部５が記憶している複数の音響モデルの中から最適な音響モデルを選択する。
【００７３】
音響モデル記憶部５は、所定のピーク検出率・瞬断検出率となる環境下で学習された音響モデルをそれぞれのピーク検出率・瞬断検出率に関連づけて記憶している。音響モデル選択部１０は、音響モデルが関連づけられているピーク検出率・瞬断検出率と、現在のピーク検出率・瞬断検出率とを比較し、現在のピーク検出率・瞬断検出率に最も距離値の小さいピーク検出率・瞬断検出率に関連づけられている音響モデルを選択する。すなわち、劣悪な環境下で学習した音響モデルと良好な環境下で学習した音響モデルとを準備しておき、現実の環境に近い音響モデルを選択するようにする。
【００７４】
音響尤度演算部４は音響モデル選択部１０がピーク検出率・瞬断検出率に基づいて選択した音響モデルから音素（又は音韻・音節などの基本認識単位）ごとの尤度を算出し、照合部６は算出された尤度に基づいて、最尤の認識結果を出力する。
【００７５】
以上から明らかなように、実施の形態４による音声認識装置によれば、種々のピーク検出率・瞬断検出率にあわせて予め学習された音響モデルを複数準備しておき、現在のピーク検出率・瞬断検出率に最も近い音響モデルを選択することとした。これによって、不安定区間に残存する音声信号を利用し、劣悪な環境にあわせた音響モデルを使用して音声認識を行うので、精度を向上することができる。すなわち、瞬断やオーバーフローを興していない区間に対しても、量子化ノイズによるＳ／Ｎの劣化に応じた音響モデルを選択して、認識率を向上できるのである。
【００７６】
なお、上記においてピーク検出率・瞬断検出率は実施の形態３において定義したとおりフレーム毎のオーバーフローした信号の割合、あるいは瞬断した信号の割合に基づいて算出されるものである。しかし、これらの率の算出の区間はフレームに限られるものではなく、例えば発話単位に算出してもよいし、所定の時間毎（例．４０ｍｓｅｃなど）に算出するようにしてもよい。
【００７７】
また、音響モデルの学習条件として、ピーク検出率・瞬断検出率の代わりに各フレームのパワーを採用してもよい。すなわち所定のパワーの下で学習された複数の音響モデルを準備しておき、現実のフレームのパワーに基づいて音響モデルを選択するようにしてもよい。またこの場合においても、フレーム毎ではなく、発話毎や所定の時間の平均パワーに基づいて音響モデルを選択するようにしてもよいことはいうまでもない。
【００７８】
【発明の効果】
この発明に係る音声認識装置は、不安定区間に残存する音声の情報を使用することとしたので、不安定区間が長い場合であっても、認識率の低下を防ぐことができる、という極めて顕著な効果を奏するものである。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声認識装置の構成を示したブロック図である。
【図２】この発明の実施の形態１による音声認識装置に入力されるオーバーフローしたアナログ音声信号の波形図である。
【図３】この発明の実施の形態１によるオーバーフローした音声信号が音声認識装置に入力され、ディジタル変換された後の波形図である。
【図４】この発明の実施の形態１による音声認識装置に入力される瞬断を含む音声信号の波形図である。
【図５】この発明の実施の形態２による音声認識装置の構成を示したブロック図である。
【図６】この発明の実施の形態３による音声認識装置の構成を示したブロック図である。
【図７】この発明の実施の形態４による音声認識装置の構成を示したブロック図である。
【符号の説明】
１Ａ／Ｄ変換器
２微小信号出力部
３音響分析部
４音響尤度演算部
５音響モデル記憶部
６照合部
７語彙・言語モデル記憶部
８不安定区間検出部
９音響尤度補正部
１０音響モデル選択部。

Claims

アナログ音声信号を入力し、Ａ／Ｄ変換器によりディジタル信号に変換して、このディジタル信号から入力音声特徴量を算出するとともに、前記入力音声特徴量に基づいて前記アナログ音声信号の音声認識結果を算出する音声認識装置において、
前記アナログ音声信号に、瞬断区間又は前記Ａ／Ｄ変換器の入力レンジを超えるオーバーフロー区間（以下、不安定区間とする）が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析手段を備えたことを特徴とする音声認識装置。
前記音響分析手段は、非ゼロ値化された前記不安定区間の前記ディジタル信号から前記入力音声特徴量を算出することを特徴とする請求項１に記載の音声認識装置。
前記アナログ音声信号に前記不安定区間が存在する場合であっても、微小信号を重畳して前記ディジタル信号を非ゼロ化する微小信号出力手段をさらに備え、
前記音響分析手段は、前記微小信号出力手段により非ゼロ化された前記ディジタル信号から前記入力音声特徴量を算出することを特徴とする請求項２に記載の音声認識装置。
前記入力音声特徴量と標準音声特徴量との音響尤度を算出する音響尤度演算手段と、
前記不安定区間の直前と直後において前記音響尤度演算手段が算出した音響尤度に基づいて前記不安定区間の音響尤度を補正する音響尤度補正手段と、
前記音響尤度演算手段算出した音響尤度又は前記音響尤度補正手段が補正した音響尤度に基づいて、前記入力音声特徴量について音声認識結果を算出する照合手段と、
をさらに備えることを特徴とする請求項１に記載の音声認識装置。
前記音響尤度補正手段は、前記不安定区間の音響尤度分布として、前記不安定区間の直前と直後の音響尤度のそれぞれに連続な音響尤度分布を仮定し、この音響尤度分布に基づいて前記不安定区間の音響尤度を補正することを特徴とする請求項４に記載の音声認識装置。
前記音響尤度補正手段は、前記不安定区間の時間長が所定の長さを超える場合に、前記区間の始点と終点の双方から一定時間離れた中間区間の音響尤度を一定値に補正することを特徴とする請求項４に記載の音声認識装置。
前記音響尤度補正手段は、前記不安定区間の直前の音響尤度から前記区間の直後の音響尤度に向かって単調増加又は単調減少する音響尤度分布を仮定し、この音響尤度分布に基づいて、前記不安定区間の音響尤度を補正することを特徴とする請求項４に記載の音声認識装置。
前記入力音声特徴量と標準音声特徴量との音響尤度を算出する音響尤度演算手段と、
前記音響尤度演算手段が算出した音響尤度のうち、前記不安定区間の音響尤度の重み付けをその不安定区間以外の区間の音響尤度の重み付けより小さくして、前記入力音声特徴量について音声認識結果を算出する照合手段と、
をさらに備えることを特徴とする請求項１に記載の音声認識装置。
前記照合手段は、前記Ａ／Ｄ変換器において入力レンジ超過または瞬断が発生する割合に基づいて、前記不安定区間の音響尤度についての重み付けを変更することを特徴とする請求項８に記載の音声認識装置。
前記音響分析手段及び前記音響尤度演算手段は、フレーム単位に、前記入力音声特徴量及び前記音響尤度を算出し、
前記照合手段は、前記フレームと前記不安定区間の開始点又は終了点との時間差が大きくなるにつれて、そのフレームについての前記音響尤度の重み付けを小さくすることを特徴とする請求項８又は９のいずれかに記載の音声認識装置。
前記Ａ／Ｄ変換器の入力レンジ超過または瞬断が相異なる割合で発生する環境下において学習された複数の音響モデルを記憶する音響モデル記憶手段と、
前記音響尤度演算手段は、前記Ａ／Ｄ変換器の入力レンジ超過または瞬断が発生する割合に基づいて、前記複数の音響モデルのいずれかを選択し、前記選択された音響モデルに記憶された標準音声特徴量と前記入力音声特徴量とを照合して音響尤度を算出することを特徴とする請求項１乃至請求項１０のいずれか一に記載の音声認識装置。
前記音響尤度演算手段は、一定の期間ごとに前記割合を算出し、その割合に基づいて前記複数の音響モデルのいずれかを選択することを特徴とする請求項１１に記載の音声認識装置。
前記音響尤度演算手段は、各発話の期間を前記一定の期間とすることを特徴とする請求項１２に記載の音声認識装置。
前記音響尤度演算手段は、各フレームの期間を前記一定の期間とすることを特徴とする請求項１２に記載の音声認識装置。
前記音響モデル記憶手段は、入力レンジ超過または瞬断が発生する割合に代えて、異なるパワー環境で学習された複数の音響モデルを記憶し、
前記音響尤度手段は、入力レンジ超過または瞬断が発生する割合に代えて、前記Ａ／Ｄ変換器におけるアナログ音声信号パワーに基づいて、前記複数の音響モデルのいずれかを選択することを特徴とする請求項１１乃至請求項１４のいずれか一に記載の音声認識装置。