JP2005004018A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2005004018A JP2005004018A JP2003168641A JP2003168641A JP2005004018A JP 2005004018 A JP2005004018 A JP 2005004018A JP 2003168641 A JP2003168641 A JP 2003168641A JP 2003168641 A JP2003168641 A JP 2003168641A JP 2005004018 A JP2005004018 A JP 2005004018A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- likelihood
- acoustic likelihood
- section
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Abstract
【課題】瞬断区間やA/D変換器の入力レンジを超えるオーバーフロー区間を有するアナログ音声信号に対して音声認識処理を行う場合に、認識率の低下を防ぐ手段を提供する。
【解決手段】アナログ音声信号に、瞬断区間又はA/D変換器1の入力レンジを超えるオーバーフロー区間が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析部3を備えて、不安定区間の音声信号をも用いて、音声認識するようにした。
【選択図】 図1
【解決手段】アナログ音声信号に、瞬断区間又はA/D変換器1の入力レンジを超えるオーバーフロー区間が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析部3を備えて、不安定区間の音声信号をも用いて、音声認識するようにした。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、入力音声のパワーがA/D変換器の入力レンジを超えたり、瞬断が発生しうる環境にある場合においても、音声認識の精度を向上する音声認識装置に係るものであり、特に入力レンジを超えた区間又は瞬断区間の信号処理又は尤度算出処理を工夫することによって、音声認識の精度を向上する技術に関する。
【0002】
【従来の技術】
従来の技術によれば、瞬断・オーバーフローが生じている区間において、すべての認識基本単位(ある音響モデル中に記憶されているすべての音素または音韻、音節)に対して同じ音響尤度(以下、単に尤度と呼ぶ)を与えるようにしていた。このようにすることで、音声信号の歪んだ区間で正しい認識基本単位の尤度が低くなり、そのために正解語彙の尤度が低くなることによる誤認識を防いでいる(例えば、非特許文献1)。
【0003】
また、瞬断・オーバーフローに対処する技術ではないが、パワーの低い区間を無音区間として、無音区間の音声特徴量をパターン照合から除外する方法などもある(例えば、特許文献1や特許文献2)。
【0004】
【特許文献1】
特開2001−13988「音声認識方法及び装置」第2図、第3頁−第7頁
【特許文献2】
特開2000−194385「音声認識処理装置」
【非特許文献】
日本音響学会講演論文集(1999年9月〜10月 Vol.1 P149 3−Q−16)
【0005】
【発明が解決しようとする課題】
従来の技術による音声認識装置では、オーバーフロー区間や瞬断区間、無音区間に残存する音声の情報を使用しないため、高精度な音声認識を行うことが難しく、特にオーバーフロー区間や瞬断区間が長くなると認識率が低下するという問題があった。
【0006】
一方、これらの区間に残存する音声の情報は不安定であり、例えば、瞬断区間のようにサンプル値0のディジタル信号が連続した区間に対して音響分析を行うと音響分析に失敗するという問題があった。このような問題を回避するため、従来技術では、この区間直前の音響分析結果を繰り返して使用する方法もあった。しかしこの方法では、瞬断区間が長くなるにつれて、直前の音響分析結果との乖離が大きくなり、誤ったデータにより照合を行うことになるという問題があった。
【0007】
この発明は上記のような問題点を解決するためになされたもので、瞬断やオーバーフローがある音声に対しても高精度な音声認識を行うことを目的とする。
【0008】
【課題を解決するための手段】
この発明に係る音声認識装置は、アナログ音声信号を入力し、A/D変換器によりディジタル信号に変換して、このディジタル信号から入力音声特徴量を算出するとともに、前記入力音声特徴量に基づいて前記アナログ音声信号の音声認識結果を算出する音声認識装置であって、
前記アナログ音声信号に、不安定区間が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析手段を備えたことを特徴とするものである。
【0009】
ここで、不安定区間とは、音声認識装置の有するA/D変換器に入力されるアナログ音声信号に含まれる瞬断区間又は前記A/D変換手段の入力レンジを超えるオーバーフロー区間をいうものとする。
【0010】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、A/D変換器1は入力された音声のアナログ信号をディジタル信号に変換する素子又は回路であって、例えばサンプリング周波数を8kHz、ビット数分解能を16ビットとし、線形パルス符号化(Pulse Code Modulation :PCM)によって入力信号をディジタル化するものである。このサンプル値は式(1)によって与えられる値域に含まれる値をとる。
【数1】
【0011】
図2は、A/D変換器1に入力されるアナログ信号を示した波形図である。図3は、図2によって示されるアナログ信号をディジタル変換した後の波形図である。図において、SmaxとSminはA/D変換器1の入力レンジの上限と下限を示すものである。図の破線で描かれた円101における信号の状況を拡大して示したのが、破線で描かれた円102であって、入力信号のうちSmaxを超える部分(オーバーフローしたサンプル)については、入力レンジの上限であるSmaxに平滑化されていることを示している。
【0012】
また図4は、図2に示されたアナログ信号波形において、瞬断が発生した場合の入力音声の波形を示す波形図である。この場合は、A/D変換器1の入力レンジとは関係なく、一定区間の間のサンプル値が存在しないこととなり、A/D変換器1は、その区間においてサンプル値が0の出力信号を出力することになる。
【0013】
引き続き、図1によって、この発明の実施の形態1による音声認識装置の構成を説明する。微小信号出力部2は、A/D変換器1の出力信号に微小信号(微小雑音)を重畳する素子又は回路である。音響分析部3は、微小信号(微小雑音)が重畳されたディジタル信号から、一定時間毎の信号を用いて、音声認識を行うための音声特徴量(入力音声特徴量)を出力する部位である。音響尤度演算部4は、認識基本単位毎の音声の標準パタン(標準音声特徴量)と音響分析部3から出力された音声特徴量とを比較し、認識基本単位毎の尤度を算出する部位である。
【0014】
音響モデル記憶部5は、音響尤度演算部4が尤度を算出する認識基本単位の音声標準パタンを記憶する記憶媒体又は記憶素子及び回路(記憶装置と総称する)から構成されるが、さらにこの記憶装置を管理・構成するコンピュータプログラムやコントローラを含んでいてもよい。
【0015】
また、照合部6は、この音声認識装置が基づいている語彙・言語モデルに従って、認識基本単位毎に算出された尤度から語彙の尤度を算出し、この語彙の尤度が最大となる語彙を認識候補として算出する部位である。語彙・言語モデル記憶部7は、照合部6が参照する語彙・言語モデルを記憶する記憶媒体又は記憶素子及び回路(記憶装置)であって、この記憶装置を管理・構成するコンピュータプログラムやコントローラまでをも含んでもよいという点については、音響モデル記憶部5と同様である。
【0016】
なおA/D変換器1はA/D変換手段、微小信号出力部2は微小信号出力手段、音響分析部は音響分析手段、音響尤度演算部4と音響モデル記憶部5は音響尤度演算手段、照合部6と語彙・言語モデル記憶部7は照合手段にそれぞれ相当する。
【0017】
次にこの発明の実施の形態1による音声認識装置の動作について説明する。A/D変換器1は、アナログ信号として入力された音声信号をディジタル信号に変換する。微小信号出力手段2は、A/D変換器1が出力したディジタル信号に微小な信号を重畳し出力する。このような微小信号を重畳する処理を、ここでは非0化と呼ぶこととする。微小信号としては、例えば、サンプル値の最大値が24程度の白色雑音を出力する。
【0018】
なお、A/D変換器1と微小信号出力部2とを直列に接続する他に、例えばA/D変換器1において、パワーを検知することによって、瞬断やオーバーフローが発生したことを検出し、その検出結果に基づいて、可動端子をA/D変換器1の出力と、微小信号出力部2の出力とのいずれかに接続するスイッチを設けるようにしてもよい。
【0019】
また、非0化の方法としては、例えばA/D変換器1と微小信号出力部2との接続位置を入れ替えて、微小信号出力部2の出力がA/D変換器1の入力となるようにしてもよい。このようにすると、常に微小信号出力部2の出力がA/D変換器1に入力され続けるので、瞬断が発生しても、A/D変換器1が出力するサンプル値は一定期間以上連続して0になることがない。
【0020】
続いて、音響分析部3は、微小信号出力部2から出力される微小な雑音を重畳された音声(ディジタル信号)に対して、一定時間(例えばフレーム周期=10msec)毎に、一定時間分(例えばフレーム長=25msec)のディジタル信号を用いて特徴量(例えばLPCケプストラム係数)を算出する。その結果、音響分析部3の出力Oは、例えば式(2)に示すように特徴量の時系列となる。
【数2】
【0021】
なお、式(2)において、o(t)はt番目のフレームにおける特徴量であって、式3に示すように次元数Kのベクトルとなる。
【数3】
【0022】
ここで、音声特徴量をLPCケプストラム係数とした場合のn次のLPCケプストラムo’(t,n)は、式(4)〜(6)によって算出される。
【数4】
なお、αi(i=1,2,…,Na)は線形予測係数であり、以下のように求める。
【0023】
すなわち、まず窓長(1フレーム内のサンプル数)をNsとし、t番目のフレームにおける1〜Ns番目の音声信号にフレームの外側では0であるような有限長の窓関数(ハミング窓など)を乗じた音声信号をx(t,i)(0≦i≦Ns−1)として、式(7)により、自己相関数列R0,R1、R2、…、RNaを算出する。
【数5】
【0024】
次に、αiについての連立方程式である式(8)を解く。
【数6】
式(8)を行列表示に直すと、式(9)となる。
【数7】
ただし、ri=Ri/R0とする。
【0025】
この式(9)による行列のToeplitz性を利用して、レビンソン・ダービン(Levinson−Durbin)の巡回解法によりαiを求めることができる。なお、ここでは、各αnについてn=1からn=Naまで巡回させて計算するが、m回目(ただし1≦m≦Na)の計算で得られたαnをαn (m)と表し、特にm=nのときkn=an (n)と表記することとする。そうすると、まず初期値として、
【数8】
として、次の漸化式からm=2、3、4…について、順に、km、ai (m)、E(m)を計算する。
【数9】
【0026】
式(11)において、mを順次大きくしていき、Naになったところで、この漸化式による計算を終了し、αi(i=1,2,…,Na)が算出される。ところで、以上のLPCケプストラムの演算過程において、得られた音声信号がすべて0であるとすると、xi=0(t=0,1,2,…,N−1)となるので、式(7)によって算出するR0は、次式のように0となる。
【数10】
【0027】
その結果、式(9)におけるri=Ri/R0を求めようとすると、0で除算することとなってしまい、riを計算できない。このことは、LPCケプストラムo’(t,n)を算出することができないことを意味している。すなわち、瞬断やオーバーフローによってA/D変換器1の出力が0となると、LPCケプストラムが算出できないために、音声特徴量の計算でエラーが生じる。0による除算は、通常の計算機システムではトラップの発生で処理されるような重大エラーとして扱われる。このため従来は、不安定区間に残存している音声信号を用いて安定的に音声認識することができない。これが従来における入力信号に不安定区間が存在する場合の音声認識処理の問題点であった。
【0028】
しかし実施の形態1による音声認識装置では、微小信号出力部2を設けることにより、このような問題を解決している。すなわち不安定区間において、A/D変換器1の出力が0となっても、微小信号出力部2が非0成分からなる微小信号を補うので、音響分析部3の入力音声信号は決して0になることがない。したがって、不安定区間が存在する入力音声信号に対して音声特徴量を安定的に算出するので、不安定区間に残存している音声信号から音声特徴量を求める演算を行っても、上記のような問題は生じない。
【0029】
なお、実施の形態1では微小信号出力部2を設けることで、物理的に非0化、すなわち入力信号が0とならないような対策を講じたが、このような方法の他に、例えば音響分析部3において、入力音声信号の所定の下位ビット、例えば最下位ビットを1にマスクして非0化する方法を採用してもよいことはいうまでもない。
【0030】
以上が音響分析部3の動作である。引き続き、実施の形態1による音声認識装置の動作について説明する。
【0031】
音響モデル記憶部5は、認識基本単位毎の標準的な特徴量を表す標準パタンを記憶している。HMM(Hidden Marcov Model)においては標準パタンはガウス分布で表されることが多い。なお以後の説明において、認識基本単位として音素を用いることとするが、音素の代わりに音韻、音節等を用いる場合であっても、処理の流れは何ら変わることがない。
【0032】
音響尤度演算部4は、音響分析部3が出力した音声の特徴量の時系列Oと、音響モデル記憶部5が記憶している例えば音素毎の標準パタンとを比較し、各フレームの各音素に対する尤度を演算する。フレームtにおける特徴量o(t)の音素pに対する尤度B(p,t)は、対角共分散行列を用いたガウス分布では、式(14)によって算出される。
【数11】
【0033】
照合部6は、音響尤度演算部4で求めた尤度と、語彙・言語モデル記憶部7により記憶される各語彙の音素系列から各認識語彙の尤度を算出し、最終的に最も尤度が高くなる語彙を認識結果として出力する。すなわち音響分析部3が出力した音声特徴量の時系列Oに対して下記の式(15)を用いて音声認識結果W’を抽出する。
【数12】
【0034】
式(15)において、第1項のP(O|W)は音響的な確率である。この確率は認識対象語彙Wを仮定して計算する。最近では音響的な確率を計算するためにHMMを用いることが多い。また、第2項のP(W)は仮定された語彙Wの確率を表すものであり、言語的な確率である。最近では言語的な確率を求めるために統計的言語モデルを用いることが多い。
【0035】
ここで状態遷移系列をq={q(0),q(1),....q(T)} (但し、q(0)は初期状態、q(T)は最終状態の集合Fの要素)としたとき、式5のP(O|W)は下記の式(16)で表すことができる。
【数13】
【0036】
なお、式(16)において、πiはi番目の状態の初期確率(π0=1,π1,…,πT=0)、a(i,j)はi番目の状態からj番目の状態への遷移確率、b(i,t)は時刻(フレーム)tでのi番目の状態の尤度をあらわす。またFは最終状態の集合を表す。ここで、i番目の状態が音素pを表す状態ならばb(i,t)=B(p,t)である。
【0037】
このようにして、実施の形態1による音声認識装置は入力音声信号について最尤の音声認識結果を出力するのである。
【0038】
以上から明らかなように、実施の形態1の音声認識装置によれば、アナログ音声信号またはこのアナログ音声信号をディジタル変換して得たディジタル信号を非0化することで、入力されるアナログ音声信号中に不安定区間が存在しても安定的に音声特徴量を算出する。したがって不安定区間に残存する音声信号に基づいて音声認識を行えるようになり、その結果、オーバーフローや瞬断のある音声信号に対しても認識率の低下を防ぐことができる。
【0039】
なお、実施の形態1の構成要素中、A/D変換器1、微小信号出力部2、音響分析部3以外の構成要素をその他の構成要素に代えても、この発明の特徴を損なうことはない。
【0040】
また、A/D変換部1、微小信号出力部2、音響分析部3、音響尤度演算部4、照合部5をハードウェアで構成してもよいが、これらの処理を行う音声認識プログラムを作成し、コンピュータがこの音声認識プログラムを実行するようにしてもよい。
【0041】
実施の形態2.
実施の形態1では、不安定区間において音声特徴量の算出が行えない問題点を、入力信号に微小信号を重畳する、あるいはディジタル信号の下位ビットを1にマスクすることで解決し、安定的に音声特徴量を算出するようにして、不安定区間に残存する音声信号を利用できるようにした。実施の形態2では、このような不安定区間における尤度の信頼性が低いことに着目し、不安定区間以外の尤度を用いて、不安定区間の尤度を補正することで、不安定区間の音響尤度の信頼性を向上するものである。
【0042】
図5は、実施の形態2による音声認識装置の構成を示すブロック図である。図において図1と同一の符号を付した構成要素については、実施の形態1と同様であるので説明を省略する。不安定区間検出部8は、A/D変換器1において瞬断やオーバーフローが発生したか否かを検出する部位である。また、音響尤度補正部9は、不安定区間について音響尤度演算部4で算出された尤度を補正する部位であって、不安定区間検出部8との間に不安定区間か否かを通知するための信号線が設けられている。
【0043】
なお、音響尤度演算部4と音響モデル記憶部5、不安定区間検出部8は音響尤度演算手段、音響尤度補正部9は音響尤度補正手段、照合部6と語彙・言語モデル記憶部7、不安定区間検出部8は照合手段にそれぞれ相当する。
【0044】
次に、実施の形態2による音声認識装置の動作について説明する。A/D変換器1は、実施の形態1と同じようにアナログ音声信号をディジタル信号に変換する。不安定区間検出部8は、A/D変換器1の入力線のパワーを監視していて、不安定区間の検出、すなわち瞬断の発生やオーバーフローの発生を検出すると、音響尤度補正部9への信号線をHiにする。また不安定区間にない場合は、この信号線をLowのままとする。
【0045】
音響分析部3、音響尤度演算部4は実施の形態1と同様に作用し、フレームtごとに音声特徴量o(t)と、音素pに対する音響尤度B(p,t)の算出を行う。
【0046】
音響尤度補正部9は、不安定区間検出部8からの信号線がLowである場合には、音響尤度演算部4が算出した尤度B(p,t)をそのまま出力する。また、信号線がHiの場合、音響尤度補正部9は、音響尤度演算部4により算出された尤度を次のように補正する。すなわち、不安定区間が開始する時刻と終了する時刻の時間軸上の点を始点tsと終点teとして、式(18)によって尤度を補正する。
【数14】
【0047】
ここでNは不安定区間の前後の尤度(不安定区間の始点直前に算出された尤度および終点直後に算出された尤度)を用いて補正することを許容する最大時間であり、Bthは予め定められた値である。すなわち、式(18)では、始点と終点から時間Nを超える時間だけ離れている区間(上記(C))では、一定値Bthとし、始点と終点から離れている時間が時間N以内の区間(上記(A)と(B))では、始点直前の尤度と終点直後の尤度、さらに(C)のBthに連続な尤度分布となる尤度を与えるようにしている。時間Nは、例えば40msecとするなど、音響分析のフレーム長を考慮して定められる。
【0048】
次に照合部6は実施の形態1と同様にして、式(15)を用いて最尤なる音声認識結果を算出する。以上が実施の形態2による音声認識装置の動作である。
【0049】
以上から明らかなように、実施の形態2の音声認識装置によれば、不安定区間の音響尤度を、その区間の前後の尤度に基づいて補正することとした。これにより、不安定区間の前後の音素の尤度が不安定区間の始点または終点近傍に反映されるようになるので、オーバーフローや瞬断による音声情報の不連続性を補うことによって、誤認識を防ぐことができる。
【0050】
また始点と終点から離れるにつれて、始点直前の尤度と終点直後の尤度の影響が小さくなると考えられ、さらに一定以上離れた中間区間においては、始点や終点の効果がなくなると考えられることから、一定値を尤度とすることとした。これによって、不安定区間が長い場合に、始点直前の尤度と終点直後の尤度が必要以上に効果を及ぼすことを回避できる。
【0051】
また、不安定区間においても尤度を補正しながら、その区間に残存する音声信号に基づいて音声認識を行うので、その結果、オーバーフローや瞬断のある音声信号に対しても認識率の低下を防ぐことができる。
【0052】
なお、式(18)による補正以外にも、始点直前の尤度と終点直後の尤度とを不安定区間の尤度に反映させる方法が考えられる。例えば、始点直前の尤度から終点直後の尤度に向かって単調増加、あるいは単調減少するような尤度分布を仮定し、このような尤度分布に基づいて、不安定区間の尤度を決定するようにしてもよい。このような方法によっても、オーバーフローや瞬断による音声情報の不連続性を補うことができるので、誤認識を防ぐことができる。
【0053】
また、実施の形態1で示したように、不安定区間の入力信号を非0化して、安定的に音声特徴量を算出する技術と組み合わせて構成するようにしてもよいことはいうまでもない。
【0054】
さらに、実施の形態2による音声認識装置では、不安定区間検出部8を設けることによって、A/D変換器1で瞬断やオーバーフローが発生していることを検知するようにした。しかし、この他にも、例えば音響分析部3において、A/D変換器1によるサンプル値が所定の下限値以下または未満であれば、瞬断と判断し、さらにサンプル値の絶対値が所定の値以上または超えていれば、オーバーフローと判断し、このようなサンプル値に基づいて音声特徴量を生成する場合に、特別なフラグなどを立てて、音響尤度演算部4や音響尤度補正部5において判断できるようにしておいてもよい。例えば実施の形態1で示した微小信号出力部2を備えるようにして、さらに微小信号出力部で24程度の微小信号を重畳するのであれば、下限値は25程度として整合を図るようにしてもよい。またA/D変換器1のビット数分解能が16ビットならば、−32768〜32767が値域となるので、サンプル値の絶対値が32767以上となった場合をオーバーフロー発生と判断するようにしてもよい。
【0055】
実施の形態3.
実施の形態2による音声認識装置は、不安定区間における音響尤度の補正によって、最尤音素(あるいは他の認識基本単位でもよい)を適切に選択し、誤認識を防ぐものであった。その他に、語彙との照合時に不安定区間における音響尤度の重み付けを低くする方法も考えられる。実施の形態3による音声認識装置は、このような原理によって動作するものである。
【0056】
図6は、実施の形態3による音声認識装置の構成を示すブロック図である。図において、図5と同じ符号を付した構成要素は、実施の形態2と同様であるので説明を省略する。図6から明らかなように、不安定区間検出部8からの信号線が照合部6に至っていることが図5との相違点である。なお、実施の形態3における不安定区間検出部8は、不安定区間か否かを検出するだけでなく、不安定区間についてはオーバーフロー区間と瞬断区間のいずれであるかについても検出することとし、信号線は3つの状態(例えばNormal:不安定区間でない、Hi:オーバーフロー、Low:瞬断)をとりうるものとする。
【0057】
次に実施の形態3による音声認識装置の動作について説明する。A/D変換器1、不安定区間検出部8、音響分析部3、音響尤度演算部4の動作については、実施の形態2と同様であるので説明を省略する。続いて、照合部10は、不安定区間検出部8の信号線がNormal、Hi、Lowのいずれでであるかによって、音響尤度演算部4で算出された音素毎の尤度の、入力音声信号全体の尤度算出における寄与度を設定し、その後、音素毎の尤度と語彙・言語モデル7と寄与度とを用いて照合し、認識結果を出力する。
【0058】
ここでフレームtにおけるフレーム寄与度をf(t)とした場合の式(15)における音響的確率P(O|W)は、式(19)によって与えられる。
【数15】
またフレーム寄与度f(t)は次のようにする。
【数16】
【0059】
ここでf1 、f2を一定の値とし、例えばf1=0.5、f2=0.1などのように設定する。この例ではオーバーフロー区間の尤度の全体の寄与度は通常区間の半分、瞬断区間の尤度の全体への寄与度は通常区間の1/10としている。
【0060】
また、時刻tの1フレーム内で最大値をオーバーしている信号の割合を、ピーク検出率と呼び、Po(t)で表すこととし、時刻tの1フレーム内で瞬断状態の信号の割合を、瞬断検出率と呼び、Pc(t)で表すこととすると、式(22)に示すように、フレーム寄与度f(t)は、オーバーフロー時にはピーク検出率Po(t)、瞬断時にはPc(t)としてもよい。
【数17】
【0061】
さらに具体的にこれらの演算方法を示すと、例えば式(23)や式(24)に示すような方法が考えられる。
【数18】
【数19】
【0062】
この例では、ピーク検出率が一定値以下(0.05)の場合は、求めた尤度が信用できるためフレーム寄与度は1(通常時と同じ)とし、またピーク検出率が一定値(0.3)より大きくなった場合は、入力歪みが大きすぎて尤度演算が信用できないため、フレーム寄与度を0(全体の尤度に寄与しない)としている。またピーク検出率が0.05と0.3との間の値では、ピーク検出率が大きくなるほどフレーム寄与度が小さくなるものとしている。
【0063】
またフレーム寄与度をオーバーフロー区間の始端、終端からの時間を用いてもよい。この場合の算出例を式(25)に示す。なお式(25)において、tsは不安定区間の始点、teは不安定区間の終点である。
【数20】
なお、上式において、min(x,y)とは、xとyの小さい方を選択する演算である。この例では、始点と終点の寄与度は1となり、不安定区間の中間では0.5となる。
【0064】
以上から明らかなように、不安定区間検出部8により出力された瞬断区間又はオーバーフロー区間の尤度の全体の尤度への寄与度を小さくする(反映しにくくする)ことにより、不安定区間に残存する音声信号を利用しながら、一方で、尤度の信頼性の低い区間による誤認識を減らすことができる。
【0065】
また、ピーク検出率や、オーバーフロー区間の端からの時間差等に基づいて、フレーム寄与度を設定することにより、入力状態に応じた寄与度を設定することが可能となる。
【0066】
なお、実施の形態3では、不安定区間検出部8がオーバーフロ区間、瞬断区間、通常区間の3つの状態を判断することとしたが、実施の形態2と同じように、音響分析部3が判断するようにし、音声特徴量中にこれらの情報を識別するような成分やデータを含めるようにしてもよい。
【0067】
さらに、実施の形態1における微小信号出力部2や、実施の形態2における音響尤度補正部9と組み合わせて用いることが可能なことはいうまでもない。
【0068】
実施の形態4.
実施の形態1〜3による音声認識装置では、不安定区間においても安定的に音声特徴量を演算する方法、不安定区間の尤度を補正する方法、不安定区間の尤度の重み付けを不安定区間以外の尤度の重み付けより小さくする方法などによって、オーバーフローや瞬断の存在する音声信号に基づいて、音声認識を行うものであった。この他に、不安定区間における音声信号を認識することを前提とした音響モデルを準備する方法も考えられる。実施の形態4による音声認識装置はかかる原理により動作するものである。
【0069】
図7は、実施の形態4による音声認識装置の構成を示したブロック図である。図において、図6と同じ符号を付した構成要素については、実施の形態3と同様であるので、説明を省略する。ただし、実施の形態4において、音響モデル記憶部5は、複数の音響モデルを記憶しているものとする。また音響モデル選択部10は、音響モデル記憶部5が記憶している複数の音響モデルから条件に見合う音響モデルを選択する部位である。さらに不安定区間検出部8からの信号線は音響モデル選択部10に接続されている。
【0070】
次に、実施の形態4による音声認識装置の動作について説明する。A/D変換器1、不安定区間検出部8、音響分析部3の動作については実施の形態3と同様であるので説明を省略するが、実施の形態4においても、実施の形態3と同様、不安定区間検出部8の検出結果である信号線はHi(オーバーフロー区間を表す)、Low(瞬断区間を表す)、Normal(定常状態又は通常状態、あるいは安定区間を表す)の3つの状態を表すものとする。
【0071】
なお、音響尤度演算部4と音響モデル記憶部5、不安定区間検出部8、音響モデル選択部10は音響尤度演算手段に相当する。
【0072】
続いて音響モデル選択部10の動作について説明する。音響モデル選択部10は、不安定区間検出部8から出力される不安定区間検出結果に基づいて、ピーク検出率と瞬断検出率を算出する。そして算出されたピーク検出率・瞬断検出率に基づいて、音響モデル記憶部5が記憶している複数の音響モデルの中から最適な音響モデルを選択する。
【0073】
音響モデル記憶部5は、所定のピーク検出率・瞬断検出率となる環境下で学習された音響モデルをそれぞれのピーク検出率・瞬断検出率に関連づけて記憶している。音響モデル選択部10は、音響モデルが関連づけられているピーク検出率・瞬断検出率と、現在のピーク検出率・瞬断検出率とを比較し、現在のピーク検出率・瞬断検出率に最も距離値の小さいピーク検出率・瞬断検出率に関連づけられている音響モデルを選択する。すなわち、劣悪な環境下で学習した音響モデルと良好な環境下で学習した音響モデルとを準備しておき、現実の環境に近い音響モデルを選択するようにする。
【0074】
音響尤度演算部4は音響モデル選択部10がピーク検出率・瞬断検出率に基づいて選択した音響モデルから音素(又は音韻・音節などの基本認識単位)ごとの尤度を算出し、照合部6は算出された尤度に基づいて、最尤の認識結果を出力する。
【0075】
以上から明らかなように、実施の形態4による音声認識装置によれば、種々のピーク検出率・瞬断検出率にあわせて予め学習された音響モデルを複数準備しておき、現在のピーク検出率・瞬断検出率に最も近い音響モデルを選択することとした。これによって、不安定区間に残存する音声信号を利用し、劣悪な環境にあわせた音響モデルを使用して音声認識を行うので、精度を向上することができる。すなわち、瞬断やオーバーフローを興していない区間に対しても、量子化ノイズによるS/Nの劣化に応じた音響モデルを選択して、認識率を向上できるのである。
【0076】
なお、上記においてピーク検出率・瞬断検出率は実施の形態3において定義したとおりフレーム毎のオーバーフローした信号の割合、あるいは瞬断した信号の割合に基づいて算出されるものである。しかし、これらの率の算出の区間はフレームに限られるものではなく、例えば発話単位に算出してもよいし、所定の時間毎(例.40msecなど)に算出するようにしてもよい。
【0077】
また、音響モデルの学習条件として、ピーク検出率・瞬断検出率の代わりに各フレームのパワーを採用してもよい。すなわち所定のパワーの下で学習された複数の音響モデルを準備しておき、現実のフレームのパワーに基づいて音響モデルを選択するようにしてもよい。またこの場合においても、フレーム毎ではなく、発話毎や所定の時間の平均パワーに基づいて音響モデルを選択するようにしてもよいことはいうまでもない。
【0078】
【発明の効果】
この発明に係る音声認識装置は、不安定区間に残存する音声の情報を使用することとしたので、不安定区間が長い場合であっても、認識率の低下を防ぐことができる、という極めて顕著な効果を奏するものである。
【図面の簡単な説明】
【図1】この発明の実施の形態1による音声認識装置の構成を示したブロック図である。
【図2】この発明の実施の形態1による音声認識装置に入力されるオーバーフローしたアナログ音声信号の波形図である。
【図3】この発明の実施の形態1によるオーバーフローした音声信号が音声認識装置に入力され、ディジタル変換された後の波形図である。
【図4】この発明の実施の形態1による音声認識装置に入力される瞬断を含む音声信号の波形図である。
【図5】この発明の実施の形態2による音声認識装置の構成を示したブロック図である。
【図6】この発明の実施の形態3による音声認識装置の構成を示したブロック図である。
【図7】この発明の実施の形態4による音声認識装置の構成を示したブロック図である。
【符号の説明】
1 A/D変換器
2 微小信号出力部
3 音響分析部
4 音響尤度演算部
5 音響モデル記憶部
6 照合部
7 語彙・言語モデル記憶部
8 不安定区間検出部
9 音響尤度補正部
10 音響モデル選択部。
【発明の属する技術分野】
この発明は、入力音声のパワーがA/D変換器の入力レンジを超えたり、瞬断が発生しうる環境にある場合においても、音声認識の精度を向上する音声認識装置に係るものであり、特に入力レンジを超えた区間又は瞬断区間の信号処理又は尤度算出処理を工夫することによって、音声認識の精度を向上する技術に関する。
【0002】
【従来の技術】
従来の技術によれば、瞬断・オーバーフローが生じている区間において、すべての認識基本単位(ある音響モデル中に記憶されているすべての音素または音韻、音節)に対して同じ音響尤度(以下、単に尤度と呼ぶ)を与えるようにしていた。このようにすることで、音声信号の歪んだ区間で正しい認識基本単位の尤度が低くなり、そのために正解語彙の尤度が低くなることによる誤認識を防いでいる(例えば、非特許文献1)。
【0003】
また、瞬断・オーバーフローに対処する技術ではないが、パワーの低い区間を無音区間として、無音区間の音声特徴量をパターン照合から除外する方法などもある(例えば、特許文献1や特許文献2)。
【0004】
【特許文献1】
特開2001−13988「音声認識方法及び装置」第2図、第3頁−第7頁
【特許文献2】
特開2000−194385「音声認識処理装置」
【非特許文献】
日本音響学会講演論文集(1999年9月〜10月 Vol.1 P149 3−Q−16)
【0005】
【発明が解決しようとする課題】
従来の技術による音声認識装置では、オーバーフロー区間や瞬断区間、無音区間に残存する音声の情報を使用しないため、高精度な音声認識を行うことが難しく、特にオーバーフロー区間や瞬断区間が長くなると認識率が低下するという問題があった。
【0006】
一方、これらの区間に残存する音声の情報は不安定であり、例えば、瞬断区間のようにサンプル値0のディジタル信号が連続した区間に対して音響分析を行うと音響分析に失敗するという問題があった。このような問題を回避するため、従来技術では、この区間直前の音響分析結果を繰り返して使用する方法もあった。しかしこの方法では、瞬断区間が長くなるにつれて、直前の音響分析結果との乖離が大きくなり、誤ったデータにより照合を行うことになるという問題があった。
【0007】
この発明は上記のような問題点を解決するためになされたもので、瞬断やオーバーフローがある音声に対しても高精度な音声認識を行うことを目的とする。
【0008】
【課題を解決するための手段】
この発明に係る音声認識装置は、アナログ音声信号を入力し、A/D変換器によりディジタル信号に変換して、このディジタル信号から入力音声特徴量を算出するとともに、前記入力音声特徴量に基づいて前記アナログ音声信号の音声認識結果を算出する音声認識装置であって、
前記アナログ音声信号に、不安定区間が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析手段を備えたことを特徴とするものである。
【0009】
ここで、不安定区間とは、音声認識装置の有するA/D変換器に入力されるアナログ音声信号に含まれる瞬断区間又は前記A/D変換手段の入力レンジを超えるオーバーフロー区間をいうものとする。
【0010】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、A/D変換器1は入力された音声のアナログ信号をディジタル信号に変換する素子又は回路であって、例えばサンプリング周波数を8kHz、ビット数分解能を16ビットとし、線形パルス符号化(Pulse Code Modulation :PCM)によって入力信号をディジタル化するものである。このサンプル値は式(1)によって与えられる値域に含まれる値をとる。
【数1】
【0011】
図2は、A/D変換器1に入力されるアナログ信号を示した波形図である。図3は、図2によって示されるアナログ信号をディジタル変換した後の波形図である。図において、SmaxとSminはA/D変換器1の入力レンジの上限と下限を示すものである。図の破線で描かれた円101における信号の状況を拡大して示したのが、破線で描かれた円102であって、入力信号のうちSmaxを超える部分(オーバーフローしたサンプル)については、入力レンジの上限であるSmaxに平滑化されていることを示している。
【0012】
また図4は、図2に示されたアナログ信号波形において、瞬断が発生した場合の入力音声の波形を示す波形図である。この場合は、A/D変換器1の入力レンジとは関係なく、一定区間の間のサンプル値が存在しないこととなり、A/D変換器1は、その区間においてサンプル値が0の出力信号を出力することになる。
【0013】
引き続き、図1によって、この発明の実施の形態1による音声認識装置の構成を説明する。微小信号出力部2は、A/D変換器1の出力信号に微小信号(微小雑音)を重畳する素子又は回路である。音響分析部3は、微小信号(微小雑音)が重畳されたディジタル信号から、一定時間毎の信号を用いて、音声認識を行うための音声特徴量(入力音声特徴量)を出力する部位である。音響尤度演算部4は、認識基本単位毎の音声の標準パタン(標準音声特徴量)と音響分析部3から出力された音声特徴量とを比較し、認識基本単位毎の尤度を算出する部位である。
【0014】
音響モデル記憶部5は、音響尤度演算部4が尤度を算出する認識基本単位の音声標準パタンを記憶する記憶媒体又は記憶素子及び回路(記憶装置と総称する)から構成されるが、さらにこの記憶装置を管理・構成するコンピュータプログラムやコントローラを含んでいてもよい。
【0015】
また、照合部6は、この音声認識装置が基づいている語彙・言語モデルに従って、認識基本単位毎に算出された尤度から語彙の尤度を算出し、この語彙の尤度が最大となる語彙を認識候補として算出する部位である。語彙・言語モデル記憶部7は、照合部6が参照する語彙・言語モデルを記憶する記憶媒体又は記憶素子及び回路(記憶装置)であって、この記憶装置を管理・構成するコンピュータプログラムやコントローラまでをも含んでもよいという点については、音響モデル記憶部5と同様である。
【0016】
なおA/D変換器1はA/D変換手段、微小信号出力部2は微小信号出力手段、音響分析部は音響分析手段、音響尤度演算部4と音響モデル記憶部5は音響尤度演算手段、照合部6と語彙・言語モデル記憶部7は照合手段にそれぞれ相当する。
【0017】
次にこの発明の実施の形態1による音声認識装置の動作について説明する。A/D変換器1は、アナログ信号として入力された音声信号をディジタル信号に変換する。微小信号出力手段2は、A/D変換器1が出力したディジタル信号に微小な信号を重畳し出力する。このような微小信号を重畳する処理を、ここでは非0化と呼ぶこととする。微小信号としては、例えば、サンプル値の最大値が24程度の白色雑音を出力する。
【0018】
なお、A/D変換器1と微小信号出力部2とを直列に接続する他に、例えばA/D変換器1において、パワーを検知することによって、瞬断やオーバーフローが発生したことを検出し、その検出結果に基づいて、可動端子をA/D変換器1の出力と、微小信号出力部2の出力とのいずれかに接続するスイッチを設けるようにしてもよい。
【0019】
また、非0化の方法としては、例えばA/D変換器1と微小信号出力部2との接続位置を入れ替えて、微小信号出力部2の出力がA/D変換器1の入力となるようにしてもよい。このようにすると、常に微小信号出力部2の出力がA/D変換器1に入力され続けるので、瞬断が発生しても、A/D変換器1が出力するサンプル値は一定期間以上連続して0になることがない。
【0020】
続いて、音響分析部3は、微小信号出力部2から出力される微小な雑音を重畳された音声(ディジタル信号)に対して、一定時間(例えばフレーム周期=10msec)毎に、一定時間分(例えばフレーム長=25msec)のディジタル信号を用いて特徴量(例えばLPCケプストラム係数)を算出する。その結果、音響分析部3の出力Oは、例えば式(2)に示すように特徴量の時系列となる。
【数2】
【0021】
なお、式(2)において、o(t)はt番目のフレームにおける特徴量であって、式3に示すように次元数Kのベクトルとなる。
【数3】
【0022】
ここで、音声特徴量をLPCケプストラム係数とした場合のn次のLPCケプストラムo’(t,n)は、式(4)〜(6)によって算出される。
【数4】
なお、αi(i=1,2,…,Na)は線形予測係数であり、以下のように求める。
【0023】
すなわち、まず窓長(1フレーム内のサンプル数)をNsとし、t番目のフレームにおける1〜Ns番目の音声信号にフレームの外側では0であるような有限長の窓関数(ハミング窓など)を乗じた音声信号をx(t,i)(0≦i≦Ns−1)として、式(7)により、自己相関数列R0,R1、R2、…、RNaを算出する。
【数5】
【0024】
次に、αiについての連立方程式である式(8)を解く。
【数6】
式(8)を行列表示に直すと、式(9)となる。
【数7】
ただし、ri=Ri/R0とする。
【0025】
この式(9)による行列のToeplitz性を利用して、レビンソン・ダービン(Levinson−Durbin)の巡回解法によりαiを求めることができる。なお、ここでは、各αnについてn=1からn=Naまで巡回させて計算するが、m回目(ただし1≦m≦Na)の計算で得られたαnをαn (m)と表し、特にm=nのときkn=an (n)と表記することとする。そうすると、まず初期値として、
【数8】
として、次の漸化式からm=2、3、4…について、順に、km、ai (m)、E(m)を計算する。
【数9】
【0026】
式(11)において、mを順次大きくしていき、Naになったところで、この漸化式による計算を終了し、αi(i=1,2,…,Na)が算出される。ところで、以上のLPCケプストラムの演算過程において、得られた音声信号がすべて0であるとすると、xi=0(t=0,1,2,…,N−1)となるので、式(7)によって算出するR0は、次式のように0となる。
【数10】
【0027】
その結果、式(9)におけるri=Ri/R0を求めようとすると、0で除算することとなってしまい、riを計算できない。このことは、LPCケプストラムo’(t,n)を算出することができないことを意味している。すなわち、瞬断やオーバーフローによってA/D変換器1の出力が0となると、LPCケプストラムが算出できないために、音声特徴量の計算でエラーが生じる。0による除算は、通常の計算機システムではトラップの発生で処理されるような重大エラーとして扱われる。このため従来は、不安定区間に残存している音声信号を用いて安定的に音声認識することができない。これが従来における入力信号に不安定区間が存在する場合の音声認識処理の問題点であった。
【0028】
しかし実施の形態1による音声認識装置では、微小信号出力部2を設けることにより、このような問題を解決している。すなわち不安定区間において、A/D変換器1の出力が0となっても、微小信号出力部2が非0成分からなる微小信号を補うので、音響分析部3の入力音声信号は決して0になることがない。したがって、不安定区間が存在する入力音声信号に対して音声特徴量を安定的に算出するので、不安定区間に残存している音声信号から音声特徴量を求める演算を行っても、上記のような問題は生じない。
【0029】
なお、実施の形態1では微小信号出力部2を設けることで、物理的に非0化、すなわち入力信号が0とならないような対策を講じたが、このような方法の他に、例えば音響分析部3において、入力音声信号の所定の下位ビット、例えば最下位ビットを1にマスクして非0化する方法を採用してもよいことはいうまでもない。
【0030】
以上が音響分析部3の動作である。引き続き、実施の形態1による音声認識装置の動作について説明する。
【0031】
音響モデル記憶部5は、認識基本単位毎の標準的な特徴量を表す標準パタンを記憶している。HMM(Hidden Marcov Model)においては標準パタンはガウス分布で表されることが多い。なお以後の説明において、認識基本単位として音素を用いることとするが、音素の代わりに音韻、音節等を用いる場合であっても、処理の流れは何ら変わることがない。
【0032】
音響尤度演算部4は、音響分析部3が出力した音声の特徴量の時系列Oと、音響モデル記憶部5が記憶している例えば音素毎の標準パタンとを比較し、各フレームの各音素に対する尤度を演算する。フレームtにおける特徴量o(t)の音素pに対する尤度B(p,t)は、対角共分散行列を用いたガウス分布では、式(14)によって算出される。
【数11】
【0033】
照合部6は、音響尤度演算部4で求めた尤度と、語彙・言語モデル記憶部7により記憶される各語彙の音素系列から各認識語彙の尤度を算出し、最終的に最も尤度が高くなる語彙を認識結果として出力する。すなわち音響分析部3が出力した音声特徴量の時系列Oに対して下記の式(15)を用いて音声認識結果W’を抽出する。
【数12】
【0034】
式(15)において、第1項のP(O|W)は音響的な確率である。この確率は認識対象語彙Wを仮定して計算する。最近では音響的な確率を計算するためにHMMを用いることが多い。また、第2項のP(W)は仮定された語彙Wの確率を表すものであり、言語的な確率である。最近では言語的な確率を求めるために統計的言語モデルを用いることが多い。
【0035】
ここで状態遷移系列をq={q(0),q(1),....q(T)} (但し、q(0)は初期状態、q(T)は最終状態の集合Fの要素)としたとき、式5のP(O|W)は下記の式(16)で表すことができる。
【数13】
【0036】
なお、式(16)において、πiはi番目の状態の初期確率(π0=1,π1,…,πT=0)、a(i,j)はi番目の状態からj番目の状態への遷移確率、b(i,t)は時刻(フレーム)tでのi番目の状態の尤度をあらわす。またFは最終状態の集合を表す。ここで、i番目の状態が音素pを表す状態ならばb(i,t)=B(p,t)である。
【0037】
このようにして、実施の形態1による音声認識装置は入力音声信号について最尤の音声認識結果を出力するのである。
【0038】
以上から明らかなように、実施の形態1の音声認識装置によれば、アナログ音声信号またはこのアナログ音声信号をディジタル変換して得たディジタル信号を非0化することで、入力されるアナログ音声信号中に不安定区間が存在しても安定的に音声特徴量を算出する。したがって不安定区間に残存する音声信号に基づいて音声認識を行えるようになり、その結果、オーバーフローや瞬断のある音声信号に対しても認識率の低下を防ぐことができる。
【0039】
なお、実施の形態1の構成要素中、A/D変換器1、微小信号出力部2、音響分析部3以外の構成要素をその他の構成要素に代えても、この発明の特徴を損なうことはない。
【0040】
また、A/D変換部1、微小信号出力部2、音響分析部3、音響尤度演算部4、照合部5をハードウェアで構成してもよいが、これらの処理を行う音声認識プログラムを作成し、コンピュータがこの音声認識プログラムを実行するようにしてもよい。
【0041】
実施の形態2.
実施の形態1では、不安定区間において音声特徴量の算出が行えない問題点を、入力信号に微小信号を重畳する、あるいはディジタル信号の下位ビットを1にマスクすることで解決し、安定的に音声特徴量を算出するようにして、不安定区間に残存する音声信号を利用できるようにした。実施の形態2では、このような不安定区間における尤度の信頼性が低いことに着目し、不安定区間以外の尤度を用いて、不安定区間の尤度を補正することで、不安定区間の音響尤度の信頼性を向上するものである。
【0042】
図5は、実施の形態2による音声認識装置の構成を示すブロック図である。図において図1と同一の符号を付した構成要素については、実施の形態1と同様であるので説明を省略する。不安定区間検出部8は、A/D変換器1において瞬断やオーバーフローが発生したか否かを検出する部位である。また、音響尤度補正部9は、不安定区間について音響尤度演算部4で算出された尤度を補正する部位であって、不安定区間検出部8との間に不安定区間か否かを通知するための信号線が設けられている。
【0043】
なお、音響尤度演算部4と音響モデル記憶部5、不安定区間検出部8は音響尤度演算手段、音響尤度補正部9は音響尤度補正手段、照合部6と語彙・言語モデル記憶部7、不安定区間検出部8は照合手段にそれぞれ相当する。
【0044】
次に、実施の形態2による音声認識装置の動作について説明する。A/D変換器1は、実施の形態1と同じようにアナログ音声信号をディジタル信号に変換する。不安定区間検出部8は、A/D変換器1の入力線のパワーを監視していて、不安定区間の検出、すなわち瞬断の発生やオーバーフローの発生を検出すると、音響尤度補正部9への信号線をHiにする。また不安定区間にない場合は、この信号線をLowのままとする。
【0045】
音響分析部3、音響尤度演算部4は実施の形態1と同様に作用し、フレームtごとに音声特徴量o(t)と、音素pに対する音響尤度B(p,t)の算出を行う。
【0046】
音響尤度補正部9は、不安定区間検出部8からの信号線がLowである場合には、音響尤度演算部4が算出した尤度B(p,t)をそのまま出力する。また、信号線がHiの場合、音響尤度補正部9は、音響尤度演算部4により算出された尤度を次のように補正する。すなわち、不安定区間が開始する時刻と終了する時刻の時間軸上の点を始点tsと終点teとして、式(18)によって尤度を補正する。
【数14】
【0047】
ここでNは不安定区間の前後の尤度(不安定区間の始点直前に算出された尤度および終点直後に算出された尤度)を用いて補正することを許容する最大時間であり、Bthは予め定められた値である。すなわち、式(18)では、始点と終点から時間Nを超える時間だけ離れている区間(上記(C))では、一定値Bthとし、始点と終点から離れている時間が時間N以内の区間(上記(A)と(B))では、始点直前の尤度と終点直後の尤度、さらに(C)のBthに連続な尤度分布となる尤度を与えるようにしている。時間Nは、例えば40msecとするなど、音響分析のフレーム長を考慮して定められる。
【0048】
次に照合部6は実施の形態1と同様にして、式(15)を用いて最尤なる音声認識結果を算出する。以上が実施の形態2による音声認識装置の動作である。
【0049】
以上から明らかなように、実施の形態2の音声認識装置によれば、不安定区間の音響尤度を、その区間の前後の尤度に基づいて補正することとした。これにより、不安定区間の前後の音素の尤度が不安定区間の始点または終点近傍に反映されるようになるので、オーバーフローや瞬断による音声情報の不連続性を補うことによって、誤認識を防ぐことができる。
【0050】
また始点と終点から離れるにつれて、始点直前の尤度と終点直後の尤度の影響が小さくなると考えられ、さらに一定以上離れた中間区間においては、始点や終点の効果がなくなると考えられることから、一定値を尤度とすることとした。これによって、不安定区間が長い場合に、始点直前の尤度と終点直後の尤度が必要以上に効果を及ぼすことを回避できる。
【0051】
また、不安定区間においても尤度を補正しながら、その区間に残存する音声信号に基づいて音声認識を行うので、その結果、オーバーフローや瞬断のある音声信号に対しても認識率の低下を防ぐことができる。
【0052】
なお、式(18)による補正以外にも、始点直前の尤度と終点直後の尤度とを不安定区間の尤度に反映させる方法が考えられる。例えば、始点直前の尤度から終点直後の尤度に向かって単調増加、あるいは単調減少するような尤度分布を仮定し、このような尤度分布に基づいて、不安定区間の尤度を決定するようにしてもよい。このような方法によっても、オーバーフローや瞬断による音声情報の不連続性を補うことができるので、誤認識を防ぐことができる。
【0053】
また、実施の形態1で示したように、不安定区間の入力信号を非0化して、安定的に音声特徴量を算出する技術と組み合わせて構成するようにしてもよいことはいうまでもない。
【0054】
さらに、実施の形態2による音声認識装置では、不安定区間検出部8を設けることによって、A/D変換器1で瞬断やオーバーフローが発生していることを検知するようにした。しかし、この他にも、例えば音響分析部3において、A/D変換器1によるサンプル値が所定の下限値以下または未満であれば、瞬断と判断し、さらにサンプル値の絶対値が所定の値以上または超えていれば、オーバーフローと判断し、このようなサンプル値に基づいて音声特徴量を生成する場合に、特別なフラグなどを立てて、音響尤度演算部4や音響尤度補正部5において判断できるようにしておいてもよい。例えば実施の形態1で示した微小信号出力部2を備えるようにして、さらに微小信号出力部で24程度の微小信号を重畳するのであれば、下限値は25程度として整合を図るようにしてもよい。またA/D変換器1のビット数分解能が16ビットならば、−32768〜32767が値域となるので、サンプル値の絶対値が32767以上となった場合をオーバーフロー発生と判断するようにしてもよい。
【0055】
実施の形態3.
実施の形態2による音声認識装置は、不安定区間における音響尤度の補正によって、最尤音素(あるいは他の認識基本単位でもよい)を適切に選択し、誤認識を防ぐものであった。その他に、語彙との照合時に不安定区間における音響尤度の重み付けを低くする方法も考えられる。実施の形態3による音声認識装置は、このような原理によって動作するものである。
【0056】
図6は、実施の形態3による音声認識装置の構成を示すブロック図である。図において、図5と同じ符号を付した構成要素は、実施の形態2と同様であるので説明を省略する。図6から明らかなように、不安定区間検出部8からの信号線が照合部6に至っていることが図5との相違点である。なお、実施の形態3における不安定区間検出部8は、不安定区間か否かを検出するだけでなく、不安定区間についてはオーバーフロー区間と瞬断区間のいずれであるかについても検出することとし、信号線は3つの状態(例えばNormal:不安定区間でない、Hi:オーバーフロー、Low:瞬断)をとりうるものとする。
【0057】
次に実施の形態3による音声認識装置の動作について説明する。A/D変換器1、不安定区間検出部8、音響分析部3、音響尤度演算部4の動作については、実施の形態2と同様であるので説明を省略する。続いて、照合部10は、不安定区間検出部8の信号線がNormal、Hi、Lowのいずれでであるかによって、音響尤度演算部4で算出された音素毎の尤度の、入力音声信号全体の尤度算出における寄与度を設定し、その後、音素毎の尤度と語彙・言語モデル7と寄与度とを用いて照合し、認識結果を出力する。
【0058】
ここでフレームtにおけるフレーム寄与度をf(t)とした場合の式(15)における音響的確率P(O|W)は、式(19)によって与えられる。
【数15】
またフレーム寄与度f(t)は次のようにする。
【数16】
【0059】
ここでf1 、f2を一定の値とし、例えばf1=0.5、f2=0.1などのように設定する。この例ではオーバーフロー区間の尤度の全体の寄与度は通常区間の半分、瞬断区間の尤度の全体への寄与度は通常区間の1/10としている。
【0060】
また、時刻tの1フレーム内で最大値をオーバーしている信号の割合を、ピーク検出率と呼び、Po(t)で表すこととし、時刻tの1フレーム内で瞬断状態の信号の割合を、瞬断検出率と呼び、Pc(t)で表すこととすると、式(22)に示すように、フレーム寄与度f(t)は、オーバーフロー時にはピーク検出率Po(t)、瞬断時にはPc(t)としてもよい。
【数17】
【0061】
さらに具体的にこれらの演算方法を示すと、例えば式(23)や式(24)に示すような方法が考えられる。
【数18】
【数19】
【0062】
この例では、ピーク検出率が一定値以下(0.05)の場合は、求めた尤度が信用できるためフレーム寄与度は1(通常時と同じ)とし、またピーク検出率が一定値(0.3)より大きくなった場合は、入力歪みが大きすぎて尤度演算が信用できないため、フレーム寄与度を0(全体の尤度に寄与しない)としている。またピーク検出率が0.05と0.3との間の値では、ピーク検出率が大きくなるほどフレーム寄与度が小さくなるものとしている。
【0063】
またフレーム寄与度をオーバーフロー区間の始端、終端からの時間を用いてもよい。この場合の算出例を式(25)に示す。なお式(25)において、tsは不安定区間の始点、teは不安定区間の終点である。
【数20】
なお、上式において、min(x,y)とは、xとyの小さい方を選択する演算である。この例では、始点と終点の寄与度は1となり、不安定区間の中間では0.5となる。
【0064】
以上から明らかなように、不安定区間検出部8により出力された瞬断区間又はオーバーフロー区間の尤度の全体の尤度への寄与度を小さくする(反映しにくくする)ことにより、不安定区間に残存する音声信号を利用しながら、一方で、尤度の信頼性の低い区間による誤認識を減らすことができる。
【0065】
また、ピーク検出率や、オーバーフロー区間の端からの時間差等に基づいて、フレーム寄与度を設定することにより、入力状態に応じた寄与度を設定することが可能となる。
【0066】
なお、実施の形態3では、不安定区間検出部8がオーバーフロ区間、瞬断区間、通常区間の3つの状態を判断することとしたが、実施の形態2と同じように、音響分析部3が判断するようにし、音声特徴量中にこれらの情報を識別するような成分やデータを含めるようにしてもよい。
【0067】
さらに、実施の形態1における微小信号出力部2や、実施の形態2における音響尤度補正部9と組み合わせて用いることが可能なことはいうまでもない。
【0068】
実施の形態4.
実施の形態1〜3による音声認識装置では、不安定区間においても安定的に音声特徴量を演算する方法、不安定区間の尤度を補正する方法、不安定区間の尤度の重み付けを不安定区間以外の尤度の重み付けより小さくする方法などによって、オーバーフローや瞬断の存在する音声信号に基づいて、音声認識を行うものであった。この他に、不安定区間における音声信号を認識することを前提とした音響モデルを準備する方法も考えられる。実施の形態4による音声認識装置はかかる原理により動作するものである。
【0069】
図7は、実施の形態4による音声認識装置の構成を示したブロック図である。図において、図6と同じ符号を付した構成要素については、実施の形態3と同様であるので、説明を省略する。ただし、実施の形態4において、音響モデル記憶部5は、複数の音響モデルを記憶しているものとする。また音響モデル選択部10は、音響モデル記憶部5が記憶している複数の音響モデルから条件に見合う音響モデルを選択する部位である。さらに不安定区間検出部8からの信号線は音響モデル選択部10に接続されている。
【0070】
次に、実施の形態4による音声認識装置の動作について説明する。A/D変換器1、不安定区間検出部8、音響分析部3の動作については実施の形態3と同様であるので説明を省略するが、実施の形態4においても、実施の形態3と同様、不安定区間検出部8の検出結果である信号線はHi(オーバーフロー区間を表す)、Low(瞬断区間を表す)、Normal(定常状態又は通常状態、あるいは安定区間を表す)の3つの状態を表すものとする。
【0071】
なお、音響尤度演算部4と音響モデル記憶部5、不安定区間検出部8、音響モデル選択部10は音響尤度演算手段に相当する。
【0072】
続いて音響モデル選択部10の動作について説明する。音響モデル選択部10は、不安定区間検出部8から出力される不安定区間検出結果に基づいて、ピーク検出率と瞬断検出率を算出する。そして算出されたピーク検出率・瞬断検出率に基づいて、音響モデル記憶部5が記憶している複数の音響モデルの中から最適な音響モデルを選択する。
【0073】
音響モデル記憶部5は、所定のピーク検出率・瞬断検出率となる環境下で学習された音響モデルをそれぞれのピーク検出率・瞬断検出率に関連づけて記憶している。音響モデル選択部10は、音響モデルが関連づけられているピーク検出率・瞬断検出率と、現在のピーク検出率・瞬断検出率とを比較し、現在のピーク検出率・瞬断検出率に最も距離値の小さいピーク検出率・瞬断検出率に関連づけられている音響モデルを選択する。すなわち、劣悪な環境下で学習した音響モデルと良好な環境下で学習した音響モデルとを準備しておき、現実の環境に近い音響モデルを選択するようにする。
【0074】
音響尤度演算部4は音響モデル選択部10がピーク検出率・瞬断検出率に基づいて選択した音響モデルから音素(又は音韻・音節などの基本認識単位)ごとの尤度を算出し、照合部6は算出された尤度に基づいて、最尤の認識結果を出力する。
【0075】
以上から明らかなように、実施の形態4による音声認識装置によれば、種々のピーク検出率・瞬断検出率にあわせて予め学習された音響モデルを複数準備しておき、現在のピーク検出率・瞬断検出率に最も近い音響モデルを選択することとした。これによって、不安定区間に残存する音声信号を利用し、劣悪な環境にあわせた音響モデルを使用して音声認識を行うので、精度を向上することができる。すなわち、瞬断やオーバーフローを興していない区間に対しても、量子化ノイズによるS/Nの劣化に応じた音響モデルを選択して、認識率を向上できるのである。
【0076】
なお、上記においてピーク検出率・瞬断検出率は実施の形態3において定義したとおりフレーム毎のオーバーフローした信号の割合、あるいは瞬断した信号の割合に基づいて算出されるものである。しかし、これらの率の算出の区間はフレームに限られるものではなく、例えば発話単位に算出してもよいし、所定の時間毎(例.40msecなど)に算出するようにしてもよい。
【0077】
また、音響モデルの学習条件として、ピーク検出率・瞬断検出率の代わりに各フレームのパワーを採用してもよい。すなわち所定のパワーの下で学習された複数の音響モデルを準備しておき、現実のフレームのパワーに基づいて音響モデルを選択するようにしてもよい。またこの場合においても、フレーム毎ではなく、発話毎や所定の時間の平均パワーに基づいて音響モデルを選択するようにしてもよいことはいうまでもない。
【0078】
【発明の効果】
この発明に係る音声認識装置は、不安定区間に残存する音声の情報を使用することとしたので、不安定区間が長い場合であっても、認識率の低下を防ぐことができる、という極めて顕著な効果を奏するものである。
【図面の簡単な説明】
【図1】この発明の実施の形態1による音声認識装置の構成を示したブロック図である。
【図2】この発明の実施の形態1による音声認識装置に入力されるオーバーフローしたアナログ音声信号の波形図である。
【図3】この発明の実施の形態1によるオーバーフローした音声信号が音声認識装置に入力され、ディジタル変換された後の波形図である。
【図4】この発明の実施の形態1による音声認識装置に入力される瞬断を含む音声信号の波形図である。
【図5】この発明の実施の形態2による音声認識装置の構成を示したブロック図である。
【図6】この発明の実施の形態3による音声認識装置の構成を示したブロック図である。
【図7】この発明の実施の形態4による音声認識装置の構成を示したブロック図である。
【符号の説明】
1 A/D変換器
2 微小信号出力部
3 音響分析部
4 音響尤度演算部
5 音響モデル記憶部
6 照合部
7 語彙・言語モデル記憶部
8 不安定区間検出部
9 音響尤度補正部
10 音響モデル選択部。
Claims (15)
- アナログ音声信号を入力し、A/D変換器によりディジタル信号に変換して、このディジタル信号から入力音声特徴量を算出するとともに、前記入力音声特徴量に基づいて前記アナログ音声信号の音声認識結果を算出する音声認識装置において、
前記アナログ音声信号に、瞬断区間又は前記A/D変換器の入力レンジを超えるオーバーフロー区間(以下、不安定区間とする)が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析手段を備えたことを特徴とする音声認識装置。 - 前記音響分析手段は、非ゼロ値化された前記不安定区間の前記ディジタル信号から前記入力音声特徴量を算出することを特徴とする請求項1に記載の音声認識装置。
- 前記アナログ音声信号に前記不安定区間が存在する場合であっても、微小信号を重畳して前記ディジタル信号を非ゼロ化する微小信号出力手段をさらに備え、
前記音響分析手段は、前記微小信号出力手段により非ゼロ化された前記ディジタル信号から前記入力音声特徴量を算出することを特徴とする請求項2に記載の音声認識装置。 - 前記入力音声特徴量と標準音声特徴量との音響尤度を算出する音響尤度演算手段と、
前記不安定区間の直前と直後において前記音響尤度演算手段が算出した音響尤度に基づいて前記不安定区間の音響尤度を補正する音響尤度補正手段と、
前記音響尤度演算手段算出した音響尤度又は前記音響尤度補正手段が補正した音響尤度に基づいて、前記入力音声特徴量について音声認識結果を算出する照合手段と、
をさらに備えることを特徴とする請求項1に記載の音声認識装置。 - 前記音響尤度補正手段は、前記不安定区間の音響尤度分布として、前記不安定区間の直前と直後の音響尤度のそれぞれに連続な音響尤度分布を仮定し、この音響尤度分布に基づいて前記不安定区間の音響尤度を補正することを特徴とする請求項4に記載の音声認識装置。
- 前記音響尤度補正手段は、前記不安定区間の時間長が所定の長さを超える場合に、前記区間の始点と終点の双方から一定時間離れた中間区間の音響尤度を一定値に補正することを特徴とする請求項4に記載の音声認識装置。
- 前記音響尤度補正手段は、前記不安定区間の直前の音響尤度から前記区間の直後の音響尤度に向かって単調増加又は単調減少する音響尤度分布を仮定し、この音響尤度分布に基づいて、前記不安定区間の音響尤度を補正することを特徴とする請求項4に記載の音声認識装置。
- 前記入力音声特徴量と標準音声特徴量との音響尤度を算出する音響尤度演算手段と、
前記音響尤度演算手段が算出した音響尤度のうち、前記不安定区間の音響尤度の重み付けをその不安定区間以外の区間の音響尤度の重み付けより小さくして、前記入力音声特徴量について音声認識結果を算出する照合手段と、
をさらに備えることを特徴とする請求項1に記載の音声認識装置。 - 前記照合手段は、前記A/D変換器において入力レンジ超過または瞬断が発生する割合に基づいて、前記不安定区間の音響尤度についての重み付けを変更することを特徴とする請求項8に記載の音声認識装置。
- 前記音響分析手段及び前記音響尤度演算手段は、フレーム単位に、前記入力音声特徴量及び前記音響尤度を算出し、
前記照合手段は、前記フレームと前記不安定区間の開始点又は終了点との時間差が大きくなるにつれて、そのフレームについての前記音響尤度の重み付けを小さくすることを特徴とする請求項8又は9のいずれかに記載の音声認識装置。 - 前記A/D変換器の入力レンジ超過または瞬断が相異なる割合で発生する環境下において学習された複数の音響モデルを記憶する音響モデル記憶手段と、
前記音響尤度演算手段は、前記A/D変換器の入力レンジ超過または瞬断が発生する割合に基づいて、前記複数の音響モデルのいずれかを選択し、前記選択された音響モデルに記憶された標準音声特徴量と前記入力音声特徴量とを照合して音響尤度を算出することを特徴とする請求項1乃至請求項10のいずれか一に記載の音声認識装置。 - 前記音響尤度演算手段は、一定の期間ごとに前記割合を算出し、その割合に基づいて前記複数の音響モデルのいずれかを選択することを特徴とする請求項11に記載の音声認識装置。
- 前記音響尤度演算手段は、各発話の期間を前記一定の期間とすることを特徴とする請求項12に記載の音声認識装置。
- 前記音響尤度演算手段は、各フレームの期間を前記一定の期間とすることを特徴とする請求項12に記載の音声認識装置。
- 前記音響モデル記憶手段は、入力レンジ超過または瞬断が発生する割合に代えて、異なるパワー環境で学習された複数の音響モデルを記憶し、
前記音響尤度手段は、入力レンジ超過または瞬断が発生する割合に代えて、前記A/D変換器におけるアナログ音声信号パワーに基づいて、前記複数の音響モデルのいずれかを選択することを特徴とする請求項11乃至請求項14のいずれか一に記載の音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003168641A JP2005004018A (ja) | 2003-06-13 | 2003-06-13 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003168641A JP2005004018A (ja) | 2003-06-13 | 2003-06-13 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2005004018A true JP2005004018A (ja) | 2005-01-06 |
Family
ID=34094015
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003168641A Abandoned JP2005004018A (ja) | 2003-06-13 | 2003-06-13 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2005004018A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007156076A (ja) * | 2005-12-05 | 2007-06-21 | Kddi Corp | 音声入力評価装置 |
| WO2008108232A1 (ja) * | 2007-02-28 | 2008-09-12 | Nec Corporation | 音声認識装置、音声認識方法及び音声認識プログラム |
-
2003
- 2003-06-13 JP JP2003168641A patent/JP2005004018A/ja not_active Abandoned
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007156076A (ja) * | 2005-12-05 | 2007-06-21 | Kddi Corp | 音声入力評価装置 |
| WO2008108232A1 (ja) * | 2007-02-28 | 2008-09-12 | Nec Corporation | 音声認識装置、音声認識方法及び音声認識プログラム |
| JP5229216B2 (ja) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
| US8612225B2 (en) | 2007-02-28 | 2013-12-17 | Nec Corporation | Voice recognition device, voice recognition method, and voice recognition program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
| EP0907949B1 (en) | Method and system for dynamically adjusted training for speech recognition | |
| US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
| JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
| US8886534B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition robot | |
| US9002709B2 (en) | Voice recognition system and voice recognition method | |
| KR100651957B1 (ko) | 음성 인식에서 무음을 사용한 시스템 | |
| JP2000181482A (ja) | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 | |
| US20100131262A1 (en) | Speech Recognition Based on a Multilingual Acoustic Model | |
| EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
| US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
| EP1576580B1 (en) | Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames | |
| KR20050083547A (ko) | 음성 처리 장치 및 방법, 기록 매체와 프로그램 | |
| US6934681B1 (en) | Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients | |
| JP2002358097A (ja) | 音声認識装置 | |
| JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
| JP2005004018A (ja) | 音声認識装置 | |
| JPH06214596A (ja) | 音声認識装置および話者適応化方法 | |
| EP1369847B1 (en) | Speech recognition method and system | |
| JP3285704B2 (ja) | 音声対話のための音声認識方法及び装置 | |
| JP2005091504A (ja) | 音声認識装置 | |
| JPH09258783A (ja) | 音声認識装置 | |
| US20090254335A1 (en) | Multilingual weighted codebooks | |
| KR100298118B1 (ko) | Hmm모델의유사성을이용한음성인식장치및방법 | |
| JPH0635495A (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060120 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080930 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
| A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20081127 |