JPH0962647A

JPH0962647A - 確率モデルの学習方法

Info

Publication number: JPH0962647A
Application number: JP7215669A
Authority: JP
Inventors: Makoto Iwayama; 真岩山; Hiroshi Motoda; 浩元田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-08-24
Filing date: 1995-08-24
Publication date: 1997-03-07

Abstract

(57)【要約】【目的】訓練用系列データが与えられたとき、それを
モデル化する最適な隠れマルコフモデルの構造とパラメ
ータ値を自動的に学習する方法の提供。【構成】まず、初期の隠れマルコフモデルとしてパラ
メータ数が非常に多い確率モデルを与える。各パラメー
タ値には初期値として乱数を与えておく。次に、提示さ
れた訓練用データを最も高確率で生成するようにパラメ
ータの値を徐々に調節していく。この際、不要なパラメ
ータは必要に応じで削除していく。パラメータの数、値
とも変化がなくなった時点で手続きは終了する。収束し
た隠れマルコフモデルは、パラメータ数、各パラメータ
値とも最適なモデルとなっている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ノイズを含む大量のデ
ータから確率モデルを帰納的に学習する手法に係わるも
のであり、従来は人手で行っていた確率モデルの構造同
定（パラメータ数の決定など）を自動的に行う仕組みを
与えるものである。

【０００２】

【従来の技術】株価の変動や天候の変化などにも見られ
るように、世の中で観測される種々のデータには不確実
な要素が含まれていることが多い。このようなデータを
モデル化するためには確率モデルが有用である。データ
のモデル化においては、与えられた訓練用データを最も
高い確率で生成するように確率モデルを作成するのが普
通である。例えば、あるコインを投げた結果として、
「表、裏、裏、裏」といった系列が観測された場合を考
える。この場合、最も単純な確率モデルとして、表が出
る確率“Ｐ（表）”、裏が出る確率“Ｐ（裏）”の二つ
のパラメータを持つ確率モデルを使うと仮定する。する
と、各パラメータの値がそれぞれ、“Ｐ（表）＝１／
４”、“Ｐ（裏）＝３／４”である時、このモデルは与
えられた訓練用データを最大の確率で生成する確率モデ
ルになっており、このコイン投げによるデータをモデル
化したことに相当する。

【０００３】以上の手法は、最尤推定法と呼ばれてお
り、例えば、坂元・石黒・北川の書籍「情報量統計学
（共立出版）」に一般的なパラメータ推定手法が示され
ている。

【０００４】隠れマルコフモデルなどの複雑な確率モデ
ルの場合は、一回で最適なパラメータ値を計算すること
は不可能であるため、パラメータの値を次第に自動的に
修正して最適なモデルへ段々と収束させていく繰り返し
学習方式が用いられる。隠れマルコフモデルの繰り返し
学習方式については、中川の書籍「確率モデルによる音
声認識（コロナ社）」に詳しく示されている。

【０００５】

【発明が解決しようとする課題】上記従来技術におい
て、訓練用データから複雑な確率モデルを学習する繰り
返し学習手法を実際に用いる場合、学習対象となる確率
モデルのパラメータの個数および種類を予め人手により
決定しておく必要があった。更に、予め決定しておいた
パラメータの個数および種類は繰り返し学習において全
く変化せず、パラメータの値(確率)のみが自動的に最適
化されていった。

【０００６】一般に、パラメータ数が多い確率モデルほ
ど、提示された訓練用データをより高い確率で生成する
モデルとなることが可能である。ところが、パラメータ
数の多すぎる確率モデルでは、学習時には提示されなか
った訓練用データと同じ特徴を持つデータ（未知デー
タ）を生成する確率が低くなってしまう。パラメータ数
が多い確率モデルは、提示されたデータを詳細に表現で
きる（高い確率で生成できる）がゆえに、提示されたデ
ータに含まれているノイズ部分ですら高い確率で生成し
てしまうからである。

【０００７】以上のことから、学習時に提示されなかっ
た多数のデータをより高い確率で生成する確率モデルを
自動的に構成するためは、パラメータ値の自動最適化に
加え、パラメータ数の自動最適化をも行う必要がある。
しかし、従来の手法では、パラメータ数の自動的な最適
化は不可能であった。

【０００８】本発明の目的は、上記問題点を解決するた
めに、隠れマルコフモデルの繰り返し学習法にパラメー
タ数を自動的な調節機能を提供することである。

【０００９】

【課題を解決するための手段】上記目的は、非常に多く
のパラメータを持つ隠れマルコフモデルから学習を始
め、不要なパラメータを徐々に自動削除していく仕組み
を持った機械学習の方法により達成される。

【００１０】

【作用】まず、初期の隠れマルコフモデルとしてパラメ
ータ数が非常に多い確率モデルを与える。各パラメータ
値には初期値として乱数を与えておく。次に、提示され
た訓練用データを最も高い確率で生成するようにパラメ
ータの値を自動的に調節していく。この際、不要なパラ
メータは必要に応じて自動的に削除されていく。パラメ
ータの数、値とも変化がなくなった時点で手続きは終了
する。収束した隠れマルコフモデルは、パラメータ数、
各パラメータ値とも最適なモデルとなっている。

【００１１】

【実施例】以下、本発明の実施例を図面を参照して説明
する。

【００１２】図１は本発明の実施例の概要を示した図で
ある。本発明では、初期隠れマルコフモデル１−１、訓
練用データ１−２を入力とし、訓練用データ１−２をで
きるだけ高い確率で生成する隠れマルコフモデル１−３
を結果として出力する。訓練用データ１−２とは、これ
からモデル化したいデータの実際の例である。

【００１３】隠れマルコフモデルでは、系列データをモ
デル化の対象としている。例えば、ある種のコイン投げ
の結果として得られた系列データ「表、裏、裏、裏、
表」などを訓練用データとして用意して、その背後にひ
そむ規則性を隠れマルコフモデルでモデル化する。

【００１４】初期隠れマルコフモデル１−１とは、学習
の対象として初めに与えておく隠れマルコフモデルであ
る。

【００１５】本発明では、初期隠れマルコフモデル１−
１として十分大きな隠れマルコフモデルを与えておく。
隠れマルコフモデルの一例として、図２に４状態の全結
合型隠れマルコフモデルを示す。

【００１６】図２からもわかるように、隠れマルコフモ
デルはネットワーク構造を成している。各ノード間のリ
ンクには確率が付加されていて、ノード間での遷移が確
率的に行われることを意味している（ノード間遷移確率
“Ａ”）。例えば、ノード１からノード２へ確率０．８
で遷移する場合、ａ（１、２）＝０．８と書く。また、
ノード間の遷移の際にシンボルが出力される。ある遷移
の際どのシンボルが出力されるかも確率により決定され
る（シンボル出力確率“Ｂ”）。例えば、ノード１から
ノード２ヘ遷移する際シンボル“０”が出力される確率
が０．５の場合、ｂ（１、２、０）＝０．５と書く。更
に、遷移をどのノードから始めるかも確率により決定さ
れる（初期ノード確率“ＰＩ”）。例えば、ノード１か
ら遷移が始まる確率が０．２５の場合、ｐｉ（１）＝
０．２５と書く。

【００１７】つまり、隠れマルコフモデル“Ｍ”は、ノ
ード間遷移確率、シンボル出力確率、初期ノード確率の
三つ組“（Ａ、Ｂ、ＰＩ）”で定義される。この三つ組
を隠れマルコフモデルのパラメータと呼ぶ。初期隠れマ
ルコフモデル１−２では、ノード間遷移確率、シンボル
出力確率、初期ノード確率には乱数値を与えておく。初
期隠れマルコフモデル１−１、訓練用データ１−２を用
意し、図３のアルゴリズムに従うと、訓練用データ１−
１を出来るだけ高い確率で出力するような隠れマルコフ
モデル１−３が学習されていく。アルゴリズムの詳細に
入る前に、ある隠れマルコフモデル“Ｍ”があるデータ
“Ｙ”を出力する確率“Ｐ（Ｙ｜Ｍ）”を計算する式を
（数１）に示す。

【００１８】

【数１】

【００１９】（数１）で、“Ｘ＝ｘ０、ｘ
１、．．．、”はノードの遷移系列を表している。図３
のアルゴリズムでは、まず処理機能３−１において、初
期隠れマルコフモデルを読み込み“Ｍ＝（Ａ、Ｂ、Ｐ
Ｉ）”とする。また、訓練用データを読み込み“Ｙ”と
する。

【００２０】次に、現在の隠れマルコフモデル“Ｍ”か
ら修正された新しい隠れマルコフモデル“ＭＮ＝（Ａ
Ｎ、ＢＮ、ＰＩＮ）”を求める方法を述べる。本発明で
は、“ＭＮ”の候補として以下の二種類を考える。これ
らの候補は、独立に計算されうる。つまり処理機能３−
２と処理機能３−３、４は並列に実行可能である。

【００２１】（１）“Ｍ”のパラメータ数は変化せず、
処理機能３−２においてパラメータの値のみを修正し
“ＭＮ１＝（ＡＮ１、ＢＮ１、ＰＩＮ１）”とする。
“ＭＮ１”は（数２）に従って計算される。

【００２２】

【数２】

【００２３】なお、（数２）により計算された“ＭＮ
１”は、パラメータ数の変更なしに“Ｍ”を修正すると
いう仮定のもとで、“Ｐ（Ｙ｜ＭＮ）”が最大になる
“ＭＮ”であることが証明されている。

【００２４】（２）“Ｍ”のリンクで最低の遷移確率を
持つリンクを処理機能３−３で削除する。つまり、ある
ノードからあるノードへ遷移する確率が小さいリンクは
不要であると仮定する。次に、残りのパラメータを処理
機能３−４で修正し、結果のモデルを“ＭＮ２＝（ＡＮ
２、ＢＮ２、ＰＩＮ２）”とする。“ＭＮ２”は（数
３）に従って計算される。（数３）では、ノードＳｐか
らノードＳｑへのリンクが削除されたと仮定している。

【００２５】

【数３】

【００２６】（数３）により計算された“ＭＮ２”はノ
ードＳｐからノードＳｑへのリンク削除をともない
“Ｍ”を修正するという仮定のもとで、“Ｐ（Ｙ｜Ｍ
Ｎ）”が最大になる“ＭＮ”であることが証明されてい
る。

【００２７】以上より、修正後の隠れマルコフモデル
“ＭＮ”の候補として二種類のモデル“ＭＮ１”、“Ｍ
Ｎ２”が考えられることになる。判定機能３−５では、
このいずれが“ＭＮ”として適しているかを決定するた
めに、それぞれが、訓練用データ“Ｙ”を生成する確
率、つまり、“Ｐ（Ｙ｜ＭＮ１）”、“Ｐ（Ｙ｜ＭＮ
２）”を計算する。アルゴリズムの最終的な目標は、
“Ｐ（Ｙ｜Ｍ）”を最大とする“Ｍ”を求めることであ
るため、計算した二つの確率を比較し、大きい値を生成
するモデルを修正後の“ＭＮ”とする。

【００２８】最後に、判定機能３−６において、修正前
の“Ｐ（Ｙ｜Ｍ）”と修正後の“Ｐ（Ｙ｜ＭＮ）”を比
較する。この差が十分小さければ、これ以上の修正はな
いと仮定してアルゴリズムは停止する。それ以外の場
合、また新たな修正ステップを繰り返す。

【００２９】

【発明の効果】本発明で提案するアルゴリズムによる
と、まず大きな初期隠れマルコフモデルを用意しておけ
ば、不必要なリンクを徐々に削除してきながら最適なモ
デルへと自動的に収束させることが可能になる。

【図面の簡単な説明】

【図１】本発明の実施例の処理手順を示した図。

【図２】隠れマルコフモデルの一例を説明した図。

【図３】本発明の実施例のアルゴリズムを示した図。

Claims

【特許請求の範囲】

【請求項１】ある種の特徴を持つデータを隠れマルコフ
モデルと呼ばれる確率モデルの一種でモデル化する際
に、最適な隠れマルコフモデル自動的に構成するため
に、初めはパラメータの数が多い大きな隠れマルコフモ
デルを用意しておき、不必要なパラメータを徐々に削除
しながら同時にパラメータの値を最適化していく学習方
法。
【請求項２】あるパラメータを削除した後、削除後の他
のパラメータの値は常にその時点で、訓練用に見せるデ
ータを出来るだけ高い確率で生成する値になっている請
求項１記載の学習方法。
【請求項３】パラメータの値は繰り返し再計算され、次
第に最終的な最適値に収束していくが、各再計算時にお
いて、あるパラメータの削除を伴う場合とパラメータの
削除を伴わない場合との二つの可能性を比較し、より適
した方を様々な基準で選択する請求項１記載の学習方
法。
【請求項４】どのパラメータを削除べきかを決定する際
に、その時点で値が最低であるパラメータを削除する請
求項１記載の学習方法。