JPH064093A

JPH064093A - Ｈｍｍ作成装置、ｈｍｍ記憶装置、尤度計算装置及び、認識装置

Info

Publication number: JPH064093A
Application number: JP4159835A
Authority: JP
Inventors: Hidekazu Tsuboka; 英一坪香
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-06-18
Filing date: 1992-06-18
Publication date: 1994-01-14
Also published as: US6434522B1

Abstract

(57)【要約】【目的】高い精度でしかも計算量を少なく、ＨＭＭを
利用して認識を行う装置の提供。【構成】ベクトル系列からなる訓練パターンの各々の
ベクトルをベクトル量子化し、ベクトルをそれが属する
クラスタのラベルの系列に変換するベクトル量子化手段
１０５と、ラベル系列の各ラベルに対応する量子化ベク
トルの系列から連続分布確率密度ＨＭＭを作成する連続
分布確率密度ＨＭＭ作成手段１０７と、クラスタの同一
のものに属する訓練ベクトルと連続分布確率密度ＨＭＭ
から、各状態におけるラベルの発生度合を算出するラベ
ル発生度合算出手段１０９とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】音声認識等のパターン認識に適用
可能な新しいＨＭＭ（ヒト゛ンマルコフモテ゛ル(Hidden Markov
Model)）のＨＭＭ作成装置、ＨＭＭ記憶装置、尤度計
算装置及び、認識装置に関するものである。

【０００２】

【従来の技術】ＨＭＭは一般の時系列信号処理分野に適
用可能なものであるが、説明の便宜のために、以下、音
声認識を例にとって説明する。

【０００３】先ずＨＭＭを用いた音声認識装置について
説明する。

【０００４】図３は、ＨＭＭを用いた音声認識装置のブ
ロック図である。音声分析部２０１は、入力音声信号を
フィルタバンク、フーリエ変換、ＬＰＣ分析等の周知の
方法により、一定時間間隔（フレームと呼ぶ）例えば１
０msec毎に特徴ベクトルに変換する。従って、入力音声
信号は特徴ベクトルの系列Ｙ＝(ｙ(１),ｙ(２),・・・,ｙ
(Ｔ))に変換される。Ｔはフレーム数である。コードブ
ック２０２は、ラベル付けされた代表ベクトルを保持し
ている。ベクトル量子化部２０３は、前記ベクトル系列
Ｙのそれぞれのベクトルをそれに最も近い前記コードブ
ック２０２に登録されている代表ベクトルに対応するラ
ベルに置き換えるものである。ＨＭＭ作成部２０４は、
訓練データから認識語彙たる各単語に対応するＨＭＭを
作成するものである。即ち、単語ｖに対応するＨＭＭを
作るには、先ず、ＨＭＭの構造（状態数やそれら状態の
間に許される遷移規則）を適当に定め、然る後に前記の
如くして単語ｖを多数回発声して得られたラベル系列か
ら、それらラベル系列の発生確率が出来るだけ高くなる
ように、前記モデルにおける状態遷移確率や状態の遷移
に伴って発生するラベルの発生確率を求めるものであ
る。ＨＭＭ記憶部２０５は、このようにして得られたＨ
ＭＭを各単語毎に記憶するものである。尤度計算部２０
６は、認識すべき未知入力音声のラベル系列に対し、前
記ＨＭＭ記憶部２０５に記憶されているそれぞれのモデ
ルのそのラベル系列に対する尤度を計算するものであ
る。比較判定部２０７は尤度計算部２０６で得られた前
記それぞれのモデルの尤度の最大値を与えるモデルに対
応する単語を認識結果として判定するものである。

【０００５】このＨＭＭによる認識は具体的には次のよ
うにして行われる。即ち、未知入力に対して得られたラ
ベル系列をＯ＝(ｏ(１),ｏ(２),・・・,ｏ(Ｔ))、単語ｖに
対応したモデルをλ^vとし、モデルλ^vにより発生される
長さＴの任意の状態系列を１、Ｘ＝(ｘ(１),ｘ(２),・・
・,ｘ(Ｔ))とするとき、λ^vのラベル系列Ｏに対する尤度
は〔厳密解〕

【０００６】

【数１】

【０００７】〔近似解〕

【０００８】

【数２】

【０００９】または、対数をとって

【００１０】

【数３】

【００１１】で定義される。ここで、Ｐ(ｘ,ｙ|λ^v)
は、モデルλ^vにおけるｘ,ｙの同時確率である。

【００１２】従って、例えば、（数１）を用いれば

【００１３】

【数４】

【００１４】とするとき、ｖ^が認識結果となる。（数
２），（数３）を用いるときも同様である。

【００１５】Ｐ(Ｏ,Ｘ|λ) は次のようにして求められ
る。

【００１６】いま、ＨＭＭλの状態ｑ_i(ｉ＝１〜Ｉ)に
対して、状態ｑ_i毎に、ラベルｏの発生確率ｂ_i(ｏ)と状
態ｑ_i(ｉ＝１〜Ｉ)から状態ｑ_j(ｊ＝１〜Ｉ＋１)への遷
移確率ａ_ijが与えられているとき、状態系列Ｘ＝(ｘ
(１),ｘ(２),・・・,ｘ(Ｔ＋１))とラベル系列Ｏ＝(ｏ
(１),ｏ(２),・・・,ｏ(Ｔ))のＨＭＭλから発生する同時
確率は

【００１７】

【数５】

【００１８】と定義出来る。ここでπ_x(1)は状態ｘ(１)
の初期確率である。また、ｘ(Ｔ＋１)＝Ｉ＋１は最終状
態であって、如何なるラベルも発生しないとする。

【００１９】この例では入力の特徴ベクトルｙをラベル
に変換したが、各状態におけるラベルの発生確率の代り
に特徴ベクトルｙをそのまま用い、各状態において特徴
ベクトルｙの確率密度関数を与える方法もある。このと
きは（数５）における前記ラベルｏの状態ｑ_iにおける
発生確率ｂ_i(ｏ)の代わりに特徴ベクトルｙの確率密度
ｂ_i(ｙ)を用いることになる（以後、ｚがラベルのとき
はｂ_i(ｚ)はｚが状態ｉにおいて生じる確率、ｚがベク
トルのときはｂ_i(ｚ)はｚの確率密度を意味するものと
する）。このときは、前記（数１）、（数２）、（数
３）は次のようになる。〔厳密解〕

【００２０】

【数６】

【００２１】〔近似解〕

【００２２】

【数７】

【００２３】または、対数をとれば次式が得られる。

【００２４】

【数８】

【００２５】以上、何れの方式を用いるにしても最終的
な認識結果は、それぞれの単語ｖに対してＨＭＭλ^vを
ｖ＝１〜Ｖについて準備しておけば、入力音声信号Ｙ
に対して

【００２６】

【数９】

【００２７】あるいは

【００２８】

【数１０】

【００２９】がＹの認識結果となる。勿論、ここでのＹ
は前記それぞれ方法に応じて、入力されたラベル系列、
特徴ベクトル系列等である。

【００３０】

【発明が解決しようとする課題】このような従来例にお
いて、入力特徴ベクトルをラベルに変換するものを離散
確率分布ＨＭＭ、入力特徴ベクトルをそのまま用いるも
のを連続確率分布ＨＭＭと、以下呼ぶこととする。この
とき、これら両者の特徴は次のとうりである。

【００３１】離散確率分布ＨＭＭは、入力ラベル系列に
対するモデルの尤度の計算において、各状態での各ラベ
ルの発生度合ｂ_i(Ｃ_m)はラベルに関連して予め記憶され
ている記憶装置から読み出すことで実行できるから計算
量が非常に少ないと言う利点がある反面、量子化に伴う
誤差のため、認識精度が悪くなると言う課題がある。こ
れを避けるためにラベル数（クラスタ数）を多くする必
要があるが、その増加に伴ってモデルを学習するために
必要な学習パターン数が膨大になる。ここで、学習パタ
ーン数が不十分な場合は、前記ｂ_i(Ｃ_m)が頻繁に０にな
ることがあり、正しい推定が出来なくなる。例えば、次
のようなことが生じる。

【００３２】コードブックの作成は、認識すべき全ての
単語について多数の話者の発声音声を特徴ベクトル系列
に変換し、この特徴ベクトルの集合をクラスタリング
し、それぞれのクラスタにラベリングすることによって
行われる。それぞれのクラスタは、セントロイドと呼ば
れるそのクラスタの代表ベクトルを持ち、通常これは各
々のクラスタに分類されたベクトルの期待値である。コ
ードブックは、これらセントロイドを前記ラベルで検索
可能な形で記憶したものである。

【００３３】いま、前記認識語彙の中に、例えば「大
阪」と言う単語があって、これに対応するモデルを作る
場合を考える。多数話者が発声した単語「大阪」に対応
する音声サンプルが特徴ベクトル列に変換され、各々の
特徴ベクトルが前記セントロイドと比較され、最近隣の
セントロイドに対応するラベルがその特徴ベクトルの量
子化されたものとなる。このようにして、前記「大阪」
に対する各々の音声サンプルは、ラベル系列に変換され
る。得られたラベル系列から、それらラベル系列に対す
る尤度が最大になるようにＨＭＭのパラメータを推定す
ることにより、単語「大阪」に対応するモデルが出来上
がる。この推定には周知のホ゛ーム・ウェルチ(Baum-Welch)法等
が用いられ得る。

【００３４】この場合、前記コードブックにあるラベル
の中で、単語「大阪」に対応する学習ラベル系列の中に
は含まれていないものが有り得る。この含まれていない
ラベルの発生確率は学習の過程で“０”と推定されてし
まう。従って、認識の時に発声される「大阪」と言う単
語が変換されたラベル系列の中に、前記「大阪」のモデ
ルの作成に用いたラベル系列には含まれていないラベル
が存在することは十分有り得る。この場合は、この認識
時に発声された「大阪」のラベル系列が前記「大阪」の
モデルから発生する確率は“０”になってしまう。しか
し、このような場合でも、ラベルとしては異なっていて
も、ラベルに変換される前の特徴ベクトルの段階ではモ
デルの学習に用いた音声サンプルとかなり近く、ベクト
ルの段階で見れば十分「大阪」と認識されても良い場合
がある。もともと同じ単語を発声しているのであるから
ベクトルのレベルでは似通っているにも関わらず、ラベ
ルのレベルでは僅かの差で全く異なったラベルに変換さ
れてしまうということは十分起こり得るのであって、こ
のようなことが認識精度に悪影響を及ぼすことは容易に
想像がつく。クラスタ数が増加する程、訓練データ数が
少ない程このような問題は頻繁に生じることになる。

【００３５】この課題を除去するためには、訓練集合に
は現れてこない（含まれていない）ラベルに対して、平
滑化や補完を行う等の工夫が必要となる。「結び」と呼
ばれる概念を用いてパラメータ数を減少させる工夫をは
じめとして、０確率が推定される場合はそれを０にせず
に微小量に置き換えたり、ファジイベクトル量子化等の
ようにクラスタの境界をぼかしたりする方法等、平滑化
や補完を行う方法が種々提案されているが、何れも上記
問題を根本的に解決するものではない。また、場合に応
じて経験的に決めなければならない要素があって、それ
らの要素を決める理論的な指標はない。

【００３６】他方、連続確率分布ＨＭＭは、分布形状は
正規分布等と予め関数の形で与えておき、学習データか
らこの関数を規定するパラメータを推定するものであ
る。従って、推定すべきパラメータ数は少なく、前記離
散型のものに比べて少ない学習パターンで精度良くパラ
メータの推定が出来、平滑化や補完を考える必要もなく
なり、一般に離散型よりも高い認識率の得られることが
報告されている。

【００３７】因に、離散型と連続型とで、図４のような
４状態３ループのＨＭＭにおけるパラメータ数を比較す
れば例えば次のようになる。離散型の場合は用いられる
ラベルの種類を２５６とすれば、ラベルの発生確率は２
５６×３=７６８、遷移確率は６の計８７４が１モデル
当り必要である。連続型の場合は１０次元の正規分布と
すれば、平均ベクトルは１０×３=３０、分散共分散行
列は５５×３=１６５（∵対称行列）、遷移確率は６の
計２０１となり、推定すべきパラメータの値は、連続型
は離散型の１／４以下となる。

【００３８】しかしながら、連続型は認識精度の点で優
れているが計算量は離散型に比べて非常に多くなるとい
う問題がある。即ち、入力特徴ベクトルｙ(ｔ)が、状態
ｉで平均ベクトルμ_i、分散共分散行列Σ_iの正規分布を
するとするき、状態ｉにおけるｙ(ｔ)の発生確率（密
度）の計算には(ｙ(ｔ)−μ_i)^TΣ_i ^-1(ｙ(ｔ)−μ_i)なる
計算を必要とし、例えば、１０次元の連続型のＨＭＭで
は、この計算だけでも１１０回のかけ算が必要であり、
１つのモデルに対しては、これの（状態数×入力フレー
ム数）倍になる。従って、入力フレーム数が５０フレー
ムの場合で前記モデルを想定すれば、１つのモデル当り
必要とされる(ｙ(ｔ)−μ_i)^TΣ_i ^-1(ｙ(ｔ)−μ_i)の計算
における掛算の回数は、１１０×３×５０＝１６５００
となり、単語数が５００であるとさらにこれが５００倍
される。即ち、その場合はこの部分の掛け算のみで８２
５万回が必要となる。

【００３９】離散型の場合は、ベクトル量子化の計算を
完了すれば、前記のようにラベルに従って記憶装置から
そのラベルの発生確率を読み出すのみでよい。また、ｙ
(ｔ)をベクトル量子化するのに必要な計算は、前記の例
では、２５６個の代表ベクトルとｙ(ｔ)との距離あるい
は類似度の計算である。距離を(ユークリッド距離)²と
する場合は、ｙ(ｔ)をラベル付けするのに必要な計算
は、１０回の引算と１０回の掛算と１０回の足算の２５
６倍である。従って５０フレームでは、掛算のみで考え
れば、１０×２５６×５０＝１２８０００回と言うこと
になる。もし、バイナリサーチと呼ばれる方法でベクト
ル量子化する場合は、前記２５６は２log₂２５６＝１６
でおきかえて、１０×１６×５０＝８０００回と言うこ
とになる。

【００４０】以上のように離散型とすることにより計算
量が著しく減少し、連続型の場合は認識単語数が増える
と計算量もそれに比例して増大するが、離散型の場合
は、入力音声信号を一旦ベクトル量子化するときのみこ
の計算が必要なのであって、認識単語数が増えてもこの
計算量は不変である。

【００４１】要するに、離散型の場合は計算量は少ない
が認識精度的に課題があり、連続型の場合は認識精度は
よいが計算量に課題がある。

【００４２】本発明は、このような従来のＨＭＭの課題
を考慮し、認識精度が高く、しかも計算量を少なくでき
るＨＭＭ作成装置、ＨＭＭ記憶装置、尤度計算装置及
び、認識装置を提供することを目的とする。

【００４３】

【課題を解決するための手段】本発明はのＨＭＭ作成装
置は、ベクトル系列からなる訓練パターンの各々のベク
トルをベクトル量子化し、該ベクトルをそれが属するク
ラスタのラベルの系列に変換するベクトル量子化手段
と、該ラベル系列の各ラベルに対応する量子化ベクトル
の系列から連続分布確率密度ＨＭＭを作成する連続分布
確率密度ＨＭＭ作成手段と、クラスタの同一のものに属
する訓練ベクトルと連続分布確率密度ＨＭＭから、各状
態におけるラベルの発生度合を算出する手段とを備え
る。

【００４４】また、本発明の尤度計算装置は、入力パタ
ーンを構成する特徴ベクトル系列の各ベクトルをラベル
に置き換えることにより、ベクトル系列をラベル系列に
変換するベクトル量子化手段と、ＨＭＭ作成装置で作成
されたＨＭＭの各状態におけるラベルの発生度合から、
該ＨＭＭの入力パターンに対する尤度を計算する手段を
備える。

【００４５】

【作用】本発明のＨＭＭ作成装置では、ベクトル量子化
手段によってベクトル系列からなる訓練パターンの各々
のベクトルをベクトル量子化し、該ベクトルをそれが属
するクラスタのラベルの系列に変換し、連続分布確率密
度ＨＭＭ作成手段によってラベル系列の各ラベルに対応
する量子化ベクトルの系列から連続分布確率密度ＨＭＭ
を作成し、クラスタの同一のものに属する訓練ベクトル
と連続分布確率密度ＨＭＭから、各状態におけるラベル
の発生度合を算出する。

【００４６】また、本発明の尤度計算装置では、ベクト
ル量子化手段入力によって、パターンを構成する特徴ベ
クトル系列の各ベクトルをラベルに置き換えることによ
り、ベクトル系列をラベル系列に変換し、ＨＭＭ作成装
置で作成されたＨＭＭの各状態におけるラベルの発生度
合から、該ＨＭＭの入力パターンに対する尤度を計算す
る。

【００４７】

【実施例】以下、本発明の実施例について図面を参照し
て説明する。

【００４８】ここで、以後用いる記号の定義をまとめて
説明する。簡単のために、誤解を生じない限り、状態ｑ
_i，ｑ_j等は単にｉ，ｊ等と表記することにする。また、
モデルの学習は単語ｖについて行う場合を述べることと
し、区別する必要のある場合はパラメータの右肩に添字
ｖを付加し、通常はこれを省くものとする。以下の通り
である。

【００４９】ｉ＝１,２,・・・,Ｉ＋１：第ｉ番の状態 [ａ_ij]：遷移マトリクスａ_ij：状態ｉから状態ｊへの遷移確率ｒ：単語ｖに対する訓練パターン番号(ｒ＝１,・・・,Ｒ) ｙ^(r)(ｔ)：訓練パターンｒの第ｔフレームにおける観
測ベクトルｏ^(r)(ｔ)：訓練パターンｒの第ｔフレームにおける観
測ラベルｂ_i(ｙ^(r)(ｔ))：訓練パターンｒのフレームｔの観測ベ
クトルｙ^(r)(ｔ)の状態ｉにおける確率密度ｂ_i(ｏ^(r)(ｔ))：訓練パターンｒのフレームｔの観測ラ
ベルｏ^(r)(ｔ)の状態ｉにおける発生度合（確率、確率
密度、等）ｙ^(r)＝(ｙ^(r)(１),ｙ^(r)(２),・・・,ｙ^(r)(Ｔ^(r)))：訓
練パターンｒのベクトル系列(ただし、ｒ＝１,２,・・・,
Ｒ) Ｏ^(r)＝(ｏ^(r)(１),ｏ^(r)(２),・・・,ｏ^(r)(Ｔ^(r)))：単
語ｖに対する第ｒ番のラベル系列(ただし、ｒ＝１,２,・
・・,Ｒ) Ｘ^(r)＝(ｘ^(r)(１),ｘ^(r)(２),・・・,ｘ^(r)(Ｔ^(r)),ｘ^(r)
(Ｔ^(r)＋１))：X^(r)またはＯ^(r)に対応する状態系列ｘ^(r)(ｔ)：単語ｖに対する第ｒ番の訓練パターンの第
ｔフレームにおける状態Ｔ^(r)：単語ｖに対する第ｒ番の訓練パターンのフレー
ム数 μ_i：ｂ_i(ｙ)の平均ベクトル Σ_i：ｂ_i(ｙ)の分散共分散行列 ξ_i：状態ｉにおける観測ベクトルの確率分布を規定す
るパラメータの集合 (ξ_i＝{μ_i,Σ_i}) λ_i＝［ξ_i,{ａ_ij}_{j=1,・・・,I+1} ]：状態ｉのパラメー
タの集合 λ＝{λ_i}：全パラメータの集合(λをパラメータとする
モデルをモデルλとも呼ぶ) Ｐ(Ｙ|λ)：観測ベクトル系列Ｙがモデルλから発生す
る確率密度Ｐ(Ｏ|λ)：観測ラベル系列Ｏがモデルλから発生する
確率 π_i：状態ｉがｔ＝１で生じる確率先ず、単語ｖに対応する連続確率分布ＨＭＭを学習する
方法について述べる。

【００５０】問題は、単語ｖについて準備されたｒ＝１
〜Ｒの訓練パターンに対して尤度関数Ｐ(Ｙ⁽¹⁾,Ｙ⁽²⁾,
^・・・,Ｙ^(R)|λ)を最大にするパラメータλを推定するこ
とである。

【００５１】Ｙ^(r)が互いに独立であるとすれば

【００５２】

【数１１】

【００５３】で与えられる。ここで、次の補助関数Q
(λ,λ')を定義する。

【００５４】

【数１２】

【００５５】このとき、次のことが言える。Ｑ(λ,λ')
≧Ｑ(λ,λ)なら、Ｐ(Ｙ⁽¹⁾,…,Ｙ^(R)|λ')≧Ｐ(Ｙ⁽¹⁾,
…,Ｙ^(R)|λ)であって、等号はλ'＝λの時に成り立
つ。故に、

【００５６】

【数１３】

【００５７】を求めることが出来れば、λ^*→λとして
（数１３）を繰り返し適用することによって、λはＰ
(Ｙ⁽¹⁾,…,Ｙ^(R)|λ)の停留点、即ち、Ｐ(Ｙ⁽¹⁾,…,Ｙ
^(R)|λ)の極大値または鞍点を与える点に収束すること
になり、Ｐ(Ｙ⁽¹⁾,…,Ｙ^(R)|λ)の変化率が予め定めた
閾値以下になるまでこの操作を繰り返すことにより局所
最適解が得られる。

【００５８】次にＱ(λ,λ')を用いてパラメータを推定
する方法について説明する。

【００５９】（数１２）を変形すれば、次式が得られ
る。

【００６０】

【数１４】

【００６１】前述の説明から、Ｑ(λ,λ')をλ'の関数
と見なしてＱ(λ,λ')＞Ｑ(λ,λ)なるλ'を見出せば、
それはλの更新されたものとなり、Ｐ(Ｙ⁽¹⁾,・・・,Ｙ^(R)
|λ)はλ'に関しては一定値となるから、これを取り除
いて

【００６２】

【数３０】

【００６３】とするとき、Ｑ'(λ,λ')＞Ｑ'(λ,λ)な
るλ'を見出すことと同様である。ただし、ここで

【００６４】

【数１５】

【００６５】とおいている。

【００６６】（数１４）はさらに次のようになる。

【００６７】

【数１６】

【００６８】右辺第１項からπ_i'について最大化すれば
π_iの再推定値π_i ^*は

【００６９】

【数１７】

【００７０】右辺第２項からａ_ij'について最大化すれ
ばａ_ijの再推定値ａ_ij ^*は

【００７１】

【数１８】

【００７２】右辺第３項からμ_i'，Σ_i'について最大化
すれば、μ_i，Σ_i各々の再推定値μ_i ^*，Σ_i ^*は

【００７３】

【数１９】

【００７４】

【数２０】

【００７５】ここで、ξ^(r) _ij(ｔ)は次のように計算さ
れる。即ち、

【００７６】

【数２１】

【００７７】とおけば、

【００７８】

【数２２】

【００７９】である。

【００８０】このとき

【００８１】

【数２３】

【００８２】

【数２４】

【００８３】なる漸化式が成り立つ。従って、α
^(r) ₁(１)＝１としてパラメータλに適当な初期値を与
え、ｔ＝１〜Ｔ^(r)＋１，ｊ＝１〜Ｉ＋１について（数
２３）に従ってα^(r) _j(ｔ)を、β^(r) _I+1(Ｔ^(r)＋１)＝
１としてｔ＝Ｔ^(r)＋１〜１、ｉ＝Ｉ〜１について（数
２４）に従ってβ^(r) _i(ｔ)をそれぞれ順次計算して行け
ば、（数１５）が計算できる。

【００８４】パラメータ推定の実際の計算手順は次のよ
うになる。

【００８５】（１）Ｌ₁＝∞ （２）ｉ,ｊ＝１〜Iについてλ_i={(a_ij)_{j=1,・・・,I+1},μ
_i,Σ_i} に適当な初期値を与える。

【００８６】（３）ｒ＝１〜Ｒ, ｔ＝２〜Ｔ^(r), ｉ＝
１〜Ｉ＋１についてα^(r) _i(ｔ)をλ＝{λ_i}として（数
２３）に従って計算する。

【００８７】（４）ｒ＝１〜Ｒ, ｔ＝２〜Ｔ^(r), ｉ＝
１〜Ｉ＋１についてβ^(r) _i(ｔ)とξ^(r) _ij(ｔ)をλ＝{λ
_i}としてそれぞれ（数２４）（数２２）に従って計算す
る。

【００８８】（５）ｒ＝１〜Ｒ，ｉ，ｊ＝１〜Ｉ＋１に
ついて、（数１８）（数１９）（数２０）の分子：ａ_ij,num(ｒ), μ_i,num(ｒ), Σ_i,num(ｒ) と、分母：Den_i(ｒ)＝ａ_ij,denom(ｒ)＝ μ_i,denom(ｒ)＝Σ
_i,denom(r) を計算する。

【００８９】（６）ａ_ij,μ_i,Σ_iの再推定値ａ_ij ^*, μ_i
^*, Σ_i ^*を次の(数)に従って計算する。

【００９０】

【数２５】

【００９１】（７）ｉ,ｊ＝１〜Ｉ＋１についてａ_ij＝
ａ_ij ^*, μ_i＝μ_i ^*, Σ_i＝Σ_i ^*なる代入を行うことによ
って、再推定されたパラメータ集合λ＝{λ_i}を得る。

【００９２】（８）ｒ＝１〜Ｒ，ｔ＝２〜Ｔ^(r),ｉ＝
１〜Ｉ＋１に対してstep（７）で得たパラメータ集合λ
に対して

【００９３】

【数２６】

【００９４】を計算する。

【００９５】（９）|Ｌ₁−Ｌ₂|／Ｌ₁＞εならば、Ｌ₂＝
Ｌ₁とおいてステップ（４）へ、そうでなければ終了。

【００９６】前記ステップ（９）におけるεは収束の幅
を決める適当に小さな正の数であって、その値は状況に
よって実用的な値が選ばれる。

【００９７】以上のようにして、連続確率分布ＨＭＭが
得られる。本発明ではこれをもとにして離散確率分布Ｈ
ＭＭを得るものであって、次の手順による。

【００９８】（１）学習ベクトルのクラスタリング行
い、Ｍ個のクラスタを算出する。クラスタ名をＣ₁,Ｃ₂,
・・・,Ｃ_m,・・・,Ｃ_Mとする。クラスタＣ_mのセントロイドを
ｙ_m0とする。

【００９９】（２）訓練パターンのベクトル系列ｙ
^(r)(１),ｙ^(r)(２),・・・,ｙ^(r)(Ｔ^(r))をセントロイド系
列ｚ^(r)(１),ｚ^(r)(２),・・・,ｚ^(r)(Ｔ^(r))に変換する。

【０１００】（３）ステップ（２）のセントロイド系列
を学習パターン集合と見做して前記連続型ＨＭＭを用い
て該ＨＭＭの各状態におけるＣ_m（ｍ＝１,・・・,Ｍ）の発
生度合を求める。

【０１０１】ここで、各ラベルの発生度合を定義する方
法は種々考えられる。即ち、(ａ)状態ｉにおけるＣ_mの
セントロイドの発生確率密度、(ｂ)Ｃ_mに属する学習ベ
クトルの確率密度の平均値または中央値、(ａ)、(ｂ)に
おいてそれらのクラスタに関する総和が１になるように
正規化したもの、また、前記(ｂ)において平均値の場合
は、その平均として、算術平均、幾何平均、調和平均等
が考えられる。ここでは本発明の一実施例として(ｂ)の
方法で、算術平均を用い、前記正規化はしない場合を例
にとって説明する。次式で用いるｂ_i(ｙ)は前記連続型
ＨＭＭの推定パラメータから得られたものである。この
場合は、状態ｉにおけるクラスタＣ_mの発生度合ｂ_imは
次式で与えられる。

【０１０２】

【数２７】

【０１０３】前記ステップ（１）におけるクラスタリン
グの方法は、例えば、ＬＢＧ法と呼ばれる周知の方法が
用いられ得る(具体的方法の説明は省略する)。クラスタ
リングするデータとしては、前記ＨＭＭの学習に用いた
ｖ＝１〜Ｖの単語音声に対応するパターンを構成する特
徴ベクトルの全集合を用いることが出来る。

【０１０４】図１及び図２は、本発明のＨＭＭ作成装置
の一実施例であって、その構成及び作用を同時に説明す
る。

【０１０５】特徴抽出部１０１は、周知の方法によっ
て、単語ｖ（=1,…,Ｖ）に対応するモデル作成のために
準備された訓練単語ｒ＝１〜Ｒ^vの音声信号を、特徴ベ
クトルの系列

【０１０６】

【数２８】

【０１０７】に変換する。

【０１０８】単語パターン記憶部１０２は、ＲＡＭ、Ｒ
ＯＭ、各種ディスク等の記憶手段であり、モデルλ^vを
作成するための学習用単語を、前記特徴ベクトル系列の
形でＲ^v個記憶する。

【０１０９】クラスタリング部１０３は、単語パターン
記憶部１０２に記憶されている

【０１１０】

【数２９】

【０１１１】個の特徴ベクトル集合をＭ個のクラスタに
クラスタリングするものである。このとき、第ｍクラス
タのラベルをＣ_m，セントロイドをｙ_0mとする。

【０１１２】クラスタベクトル記憶部１０４は、クラス
タリング部１０３で求められたＭ個のそれぞれのクラス
タのベクトルとセントロイドをｍにて参照可能な形で記
憶する。

【０１１３】ベクトル量子化部１０５は、クラスタベク
トル記憶部１０４のセントロイドを利用し、単語パター
ン記憶部１０２に記憶されている単語ｖの訓練パターン
を構成するベクトル系列の各々のベクトルを、それに最
も近いセントロイドベクトルに変換するものである。そ
こで、入力ベクトルｙ^v(r)(ｔ)がセントロイドｚ
^v(r)(ｔ)に変換されるものとする。

【０１１４】バッファメモリ１０６は、ベクトル量子化
部１０５で変換されたｖに対する単語パターンをＲ^v個
一時的に記憶する。

【０１１５】パラメータ推定部１０７は、前記モデルλ
^vを作成するステップ（１）〜（９）を、ｚ^v(r)(１),ｚ
^v(r)(２),・・・,ｚ^v(r)(Ｔ^v(r))を訓練パターン集合と見
做して実行し、単語ｖに対応するモデルλ^vを推定する
ものである。

【０１１６】第１のパラメータ記憶部１０８は、前記ス
テップ（６）で得られたパラメータの再推定値を一次的
に記憶するものである。パラメータ推定部１０７はこの
パラメータ記憶部１０８の値を用いて再推定を行う。

【０１１７】ラベル発生度合計算部１０９は、パラメー
タ記憶部１０８に記憶されているモデルλ^vの確率密度
関数から、クラスタベクトル記憶部１０４に記憶されて
いるクラスタＣ_mのベクトルｙ_m(１),・・・,ｙ_m(Ｋ^m)の確
率密度をｖ＝１,・・・,Ｖ，ｉ＝１,・・・,Ｉ，ｍ＝１,・・・,
Ｍについて計算し、（数２７）に従って、単語ｖのＨＭ
Ｍの状態ｉにおけるＣ_mの発生度合ｂ^v _imを計算する。

【０１１８】第２のパラメータ記憶部１１０は単語ｖ＝
１〜Ｖに対応するパラメータを記憶する手段であって、
前記それぞれの単語ｖ＝１,・・・,Ｖに対応するパラメー
タが、パラメータ記憶部１,・・・,パラメータ記憶部Ｖに
それぞれ記憶される。即ち、それぞれの単語の各状態に
対応する遷移確率は、第１のパラメータ記憶部１０８か
ら読み出され、ｖ,ｉ,ｊで参照可能な形で記憶される。
また、それぞれの単語の各状態におけるラベルの発生度
合はラベル発生度合算出部１０９から読み出され、ｖ,
ｉ，ｍで参照可能な形で記憶される。

【０１１９】以上のようにして、離散確率分布ＨＭＭが
作成される。

【０１２０】すなわち、本発明は、連続確率密度分布Ｈ
ＭＭを先ず作成し、学習に用いたパターン集合を形成す
るベクトルの集合をクラスタリングし、クラスタｍに含
まれるベクトルの前記ＨＭＭの状態ｉにおける発生度合
ｂ_imを連続確率分布型ＨＭＭとして求められた確率密度
を用いて求め、離散確率分布型ＨＭＭに変換するもので
ある。

【０１２１】次に、以上のようなモデルを用いて実際の
入力音声を認識する方法及び装置について説明する。

【０１２２】図５はその認識装置のブロック図であっ
て、その構成及び作用を同時に説明する。

【０１２３】特徴抽出部４０１は、図１の特徴抽出部１
０１と全く同様の構成、機能を有するものである。

【０１２４】コードブック４０３は、図１及び図２のＨ
ＭＭ作成装置のクラスタベクトル記憶部１０４に記憶さ
れている各クラスタのセントロイドが記憶されている。

【０１２５】ベクトル量子化部４０２は、特徴抽出部４
０１の出力の特徴ベクトルｙ(ｔ)とコードブック４０３
に記憶されている前記それぞれのクラスタの代表ベクト
ルｙ_0m（ｍ＝１,…,Ｍ）との距離を計算し、ｙ(ｔ)をｙ
(ｔ)に最も近い代表ベクトルに対応するクラスタのラベ
ルに置き換えて、特徴ベクトル系列をラベル系列に変換
する。

【０１２６】パラメータ記憶部４０４は、図２のパラメ
ータ記憶部１１０と全く同様の構成、機能を有するもの
であって、パラメータ記憶部ｖには、単語ｖ（=１,・・・,
Ｖ）に対応するモデルのパラメータが記憶されている。

【０１２７】尤度計算部４０５は、ベクトル量子化部４
０２の出力に得られるラベル系列に対する各モデルの尤
度をパラメータ記憶部４０４の内容を用いて計算するも
のである。即ち、尤度計算部ｖではパラメータ記憶部ｖ
の内容が用いられる。尤度の計算方法は、（数１）、
（数２）、（数３）等の何れかが用いられ得る。

【０１２８】比較判定部４０６は、尤度計算部４０５に
含まれる尤度計算部１,・・・，Ｖの何れの出力が最大であ
るかを比較判定し、それに対応する単語を認識結果とし
て出力するもので、（数４）に相当する計算を実行する
ものである。

【０１２９】この比較判定部４０６から認識結果が求め
られる。

【０１３０】なお、本実施例においては、単語を認識す
るとして述べたが、本発明では、単語を音韻や音節等に
置き換えても勿論よく、また、音声以外のパターンにも
適用出来るものである。

【０１３１】さらに、本実施例では特徴ベクトルの分布
は、各状態において単一の正規分布に従うとして説明し
たが、本発明は、いわゆる混合分布を用いることによ
り、より精密なラベルの発生度合を得ることも勿論可能
である。

【０１３２】また、本発明は、音声認識装置にかぎら
ず、他の時系列信号処理分野に適用可能である。

【０１３３】なお、本発明の各手段は、コンピュータを
用いてソフトウェア的に実現し、あるいはそれら各機能
を有する専用のハード回路を用いて実現してもかまわな
い。

【０１３４】

【発明の効果】以上述べたところから明らかなように、
本発明は、ベクトル系列からなる訓練パターンの各々の
ベクトルをベクトル量子化し、ベクトルをそれが属する
クラスタのラベルの系列に変換するベクトル量子化手段
と、ラベル系列の各ラベルに対応する量子化ベクトルの
系列から連続分布確率密度ＨＭＭを作成する連続分布確
率密度ＨＭＭ作成手段と、クラスタの同一のものに属す
る訓練ベクトルと連続分布確率密度ＨＭＭから、各状態
におけるラベルの発生度合を算出するラベル発生度合算
出手段とを備えているので、離散型ＨＭＭにおける課題
である訓練データの不足やその偏りによる推定誤差を解
消し、離散型ＨＭＭのもつ計算量が少ないという利点を
活かしたモデルの実現を可能とする。

【図面の簡単な説明】

【図１】本発明によるＨＭＭのパラメータ推定を行う装
置の一実施例を示すブロック図の一部である。

【図２】本発明によるＨＭＭのパラメータ推定を行う装
置の一実施例を示すブロック図の残部である。

【図３】ＨＭＭを用いた音声認識装置の従来例を説明す
るブロック図である。

【図４】連続確率分布型ＨＭＭの構成を示すＨＭＭの構
成図である。

【図５】本発明により構成されたＨＭＭを用いた音声認
識装置の一実施例を示すブロック図である。

【符号の説明】

１０１・・・・特徴抽出部１０２・・・・単語パターン記憶部１０３・・・・クラスタリング部１０４・・・・クラスタベクトル記憶部１０５・・・・ベクトル量子化部１０６・・・・バッファメモリ１０７・・・・パラメータ推定部１０８・・・・パラメータ記憶部１０９・・・・ラベル発生度合計算部１１０・・・・パラメータ記憶部

Claims

【特許請求の範囲】

【請求項１】ベクトル系列からなる訓練パターンの各々
のベクトルをベクトル量子化し、該ベクトルをそれが属
するクラスタのラベルの系列に変換するベクトル量子化
手段と、該ラベル系列の各ラベルに対応する量子化ベク
トルの系列から連続分布確率密度ＨＭＭを作成する連続
分布確率密度ＨＭＭ作成手段と、前記クラスタの同一の
ものに属する前記訓練ベクトルと前記連続分布確率密度
ＨＭＭから、各状態における前記ラベルの発生度合を算
出するラベル発生度合算出手段とを備えたことを特徴と
するＨＭＭ作成装置。
【請求項２】請求項１記載のＨＭＭ作成装置によって得
られた状態遷移確率を記憶する状態遷移確率記憶手段
と、各状態における各ラベルの発生度合を記憶するラベ
ル発生度合記憶手段を備えたことを特徴とするＨＭＭ記
憶装置。
【請求項３】入力パターンを構成する特徴ベクトル系列
の各ベクトルをラベルに置き換えることにより、前記ベ
クトル系列をラベル系列に変換する請求項１記載のベク
トル量子化手段と、請求項２記載のＨＭＭ記憶装置に記
憶されている状態遷移確率と各状態におけるラベルの発
生度合から、前記ＨＭＭ記憶装置に記憶されているパラ
メータで記述されるＨＭＭの、前記入力パターンに対す
る尤度を計算する尤度計算手段とを備えたことを特徴と
する尤度計算装置。
【請求項４】認識単位毎に請求項３記載の尤度計算装置
を備え、入力信号に対する前記各々の認識単位モデル毎
の尤度を計算し、該尤度の値から前記入力信号が前記認
識単位の何れであるかを判定することを特徴とする認識
装置。
【請求項５】ラベル発生度合算出手段は、前記クラスタ
をＣ_m（ｍ＝１,・・・,Ｍ）とするとき、前記連続確率密度
分布ＨＭＭの状態ｉの確率密度関数から前記各クラスタ
に対応する量子化ベクトルの確率密度を求め、該確率密
度を状態ｉにおけるＣ_mの発生度合ｂ_imとすることを特
徴とする請求項１記載のＨＭＭ作成装置。
【請求項６】ラベル発生度合算出手段は、前記クラスタ
をＣ_m（ｍ＝１,・・・,Ｍ）とするとき、前記連続確率密度
分布ＨＭＭの状態ｉの確率密度関数からＣ_mに含まれる
訓練ベクトル各々の確率密度を求め、該確率密度の平均
値や中央値等の特性値を算出する特性値算出手段を含
み、該特性値を状態ｉにおけるＣ_mの発生度合ｂ_imとす
ることを特徴とする請求項１記載のＨＭＭ作成装置。
【請求項７】ラベル発生度合算出手段は、前記ｂ_imから
更に、ｂ_im'＝ｂ_im／(ｂ_i1＋・・・＋ｂ_iM)を算出する発生
度合正規化手段を含み、該正規化発生度合ｂ_im'を状態
ｉにおけるＣ_mの発生度合とすることを特徴とする請求
項５又は６記載のＨＭＭ作成装置。