JP2003271185A

JP2003271185A - 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体

Info

Publication number: JP2003271185A
Application number: JP2002071260A
Authority: JP
Inventors: Yasuhiro Minami; 泰浩南; Mcdermott Eric; マクダーモットエリック; Atsushi Nakamura; 篤中村; Shigeru Katagiri; 滋片桐
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2003-09-25

Abstract

(57)【要約】【課題】本発明は、ヒドンマルコフモデル（ＨＭＭ）に
より入力音声を認識するときにあって、高精度の音声認
識を実現できるようにすることを目的とする。【解決手段】学習時には、学習用音声から静的特徴量及
び動的特徴量を抽出し、ＨＭＭを学習して記憶装置に保
存し、その学習用音声のＨＭＭと、静的特徴量と動的特
徴量との間の関係とを使って学習用音声に対してのトラ
ジェクトリを作成し、それからの分散を計算して記憶装
置に保存する。認識時には、入力音声から静的特徴量及
び動的特徴量を抽出し、保存されるＨＭＭを使って、入
力音声の音声認識を行い複数個の候補を得て、それらの
候補のＨＭＭと、静的特徴量と動的特徴量との間の関係
とを使って、それらの候補に対してのトラジェクトリを
作成し、保存される分散を参照することで、それらの候
補のトラジェクトリと入力音声との間のスコアを再計算
することで、それらの候補の再評価を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ヒドンマルコフモ
デルによる音声認識で用いられる音声認識用情報を作成
する音声認識用情報作成装置及びその方法と、その音声
認識用情報作成技術により作成された音声認識用情報を
使って、ヒドンマルコフモデルに従って入力音声を認識
する音声認識装置及びその方法と、その音声認識用情報
作成方法の実現に用いられる音声認識用情報作成プログ
ラム及びそのプログラムを記録した記録媒体と、その音
声認識方法の実現に用いられる音声認識プログラム及び
そのプログラムを記録した記録媒体とに関する。

【０００２】

【従来の技術】図７を使って、従来の音声認識手法につ
いて説明する。

【０００３】この図に示すように、従来の音声認識手法
では、入力された音声は、特徴量抽出部１０で、特徴量
（静的特徴量）が計算されるとともに、その動的特徴量
である例えば特徴量の微分係数や２次微分係数が計算さ
れる。

【０００４】学習時には、例えば音韻で構成される学習
用音声について計算される特徴量及び動的特徴量が音響
モデル学習部１１に送られ、音響モデル学習部１１は、
例えば特徴量の微分係数と２次微分係数とが動的特徴量
である場合で説明するならば、特徴パターンとして、特
徴量の平均値及び分散と、特徴量の微分係数の平均値及
び分散と、特徴量の２次微分係数の平均値及び分散とを
計算して、例えば音韻で構成される学習用音声に対応付
けて定義されるヒドンマルコフ（ＨＭＭ）の構造上に保
存することで、ＨＭＭデータベース１２を構築する。

【０００５】そして、認識時には、認識対象となる入力
音声について計算されるこれらの特徴量及び動的特徴量
が音声認識部１３に送られ、音声認識部１３は、辞書１
４に登録されている認識対象データを順番に１つずつ読
み出して、その読み出した認識対象データの持つ音韻に
対応付けられるＨＭＭ（ＨＭＭデータベース１２に格納
されている）を組み合わせることで、その読み出した認
識対象データのＨＭＭを作成して、その作成したＨＭＭ
に対応付けて保存されている平均値及び分散から、入力
音声とその読み出した認識対象データとの間のスコアを
計算して、スコアの高い認識対象データを認識結果とし
て出力する。

【０００６】

【発明が解決しようとする課題】最初に、トラジェクト
リという概念について説明する。

【０００７】トラジェクトリとは、モデル化された音声
の代表的な特徴量の時系列（パターン）であると考え
る。例えば、ＤＰマッチングのような手法であれば、複
数の話者の発声した時系列であり、ＨＭＭの場合は、ビ
タービアルゴリズム（Ｖiterbiアルゴリズム）によって
決まる平均値時系列である。

【０００８】音声認識では、このトラジェクトリを基
に、入力音声のスコア計算（距離計算やスコアの計算）
が実行される。ＨＭＭでは、ビタービアルゴリズムによ
って平均値時系列であるトラジェクトリを効率よく求め
て、それと入力音声との間のスコアを計算している。

【０００９】ＨＭＭでは、このトラジェクトリを求める
際に、特徴量と特徴量の微分係数との間と、特徴量と特
徴量の２次微分係数との間と、特徴量の微分係数と特徴
量の２次微分係数との間を、それぞれ独立と仮定してい
た。

【００１０】ところが、実際の音声では、静的特徴量と
動的特徴量（例えば、特徴量の微分係数や２次微分係数
など）との間には一定の関係式が成立している。

【００１１】しかしながら、従来のＨＭＭでは、この関
係式を使っていない。これがために、従来技術に従って
いると、スコアを計算する際に基準となるＨＭＭの平均
値の時系列（トラジェクトリ）がＨＭＭの状態遷移部分
でなめらかではなくなる。

【００１２】これから、従来技術に従っていると、精度
のよい音声認識結果が得られないという問題点があっ
た。また、スコアの計算に必要とされる分散について
も、この平均値を基に計算しているため、この点からし
ても、精度のよい音声認識結果が得られないという問題
点があった。

【００１３】従来のＨＭＭで、音声の持つ静的特徴量と
動的特徴量との間に成立する関係を積極的に利用しなか
った大きな原因は、ＨＭＭにおける認識手法であるビタ
ービアルゴリズムにこの関係式を導入することができな
かったからである。

【００１４】本発明はかかる事情に鑑みてなされたもの
であって、ヒドンマルコフモデルに従って入力音声を認
識するという構成を採るときにあって、音声の持つ静的
特徴量と動的特徴量との間に成立する関係を用いてトラ
ジェクトリを生成することで、高精度の音声認識を実現
できるようにする新たな技術の提供を目的とする。

【００１５】

【課題を解決するための手段】この目的を達成するため
に、本発明の音声認識用情報作成装置（例えば、本発明
の音声認識装置が学習モードとして動作するときに機能
することで実現される）は、ヒドンマルコフモデルによ
る音声認識で用いられる音声認識用情報を作成するため
に、学習用音声を特徴量分析して静的特徴量及び動的
特徴量を抽出する手段と、静的特徴量及び動的特徴量
からヒドンマルコフモデルを学習して、ＨＭＭ記憶装置
に保存する手段と、学習したヒドンマルコフモデル
と、静的特徴量と動的特徴量との間の関係とを使って、
学習用音声に対してのトラジェクトリを作成する手段
と、作成したトラジェクトリからの学習用音声の分散
を計算して、分散記憶装置に保存する手段とを備えるよ
うに構成する。

【００１６】ここで、本発明の音声認識用情報作成装置
の備える各処理手段はコンピュータプログラムで実現で
きるものであり、このコンピュータプログラムは、半導
体メモリなどの記録媒体に記録して提供することができ
る。

【００１７】一方、本発明の音声認識装置は、ヒドンマ
ルコフモデルに従って入力音声を認識するために、入
力音声を特徴量分析して静的特徴量及び動的特徴量を抽
出する手段と、本発明の音声認識用情報作成装置によ
り構築されたＨＭＭ記憶装置（学習用音声のヒドンマル
コフモデルを記憶している）を参照することで、入力音
声との比較対象となるヒドンマルコフモデルを取得し
て、入力音声の音声認識を行い複数個の候補を得る手段
と、それらの候補のヒドンマルコフモデルと、静的特
徴量と動的特徴量との間の関係とを使って、それらの候
補に対してのトラジェクトリを作成する手段と、本発
明の音声認識用情報作成装置により構築された分散記憶
装置（学習用音声のトラジェクトリからの学習用音声の
分散を記憶している）を参照することで、それらの候補
のトラジェクトリからの分散を取得して、それらの候補
のトラジェクトリと入力音声との間のスコアを計算する
ことで、それらの候補を再評価する手段とを備えるよう
に構成する。

【００１８】ここで、本発明の音声認識装置の備える各
処理手段はコンピュータプログラムで実現できるもので
あり、このコンピュータプログラムは、半導体メモリな
どの記録媒体に記録して提供することができる。

【００１９】このように構成される本発明の音声認識用
情報作成装置では、例えば音韻で構成される学習用音声
を特徴量分析して静的特徴量及び動的特徴量を抽出する
と、その抽出した静的特徴量及び動的特徴量から学習用
音声のヒドンマルコフモデルを学習して、ＨＭＭ記憶装
置に保存する。

【００２０】続いて、学習した学習用音声のヒドンマル
コフモデルと、静的特徴量と動的特徴量との間の関係と
を使い、例えばヒドンマルコフモデルを使った音声認識
で得られるガウス分布時系列を使って、学習用音声に対
してのトラジェクトリを作成して、そのトラジェクトリ
からの学習用音声の分散（静的特徴量及び動的特徴量の
分散）を計算し、分散記憶装置に保存する。

【００２１】このようにして構築されるＨＭＭ記憶装置
と分散記憶装置とを受けて、本発明の音声認識装置は、
入力音声を特徴量分析して静的特徴量及び動的特徴量を
抽出すると、ＨＭＭ記憶装置に記憶されるヒドンマルコ
フモデルを参照することで、入力音声とのスコア計算の
対象となるヒドンマルコフモデルを取得して、抽出した
静的特徴量及び動的特徴量を使い、それらのヒドンマル
コフモデルと入力音声との間のスコアを計算すること
で、入力音声の音声認識を行い複数個の候補を得る。

【００２２】続いて、それらの候補のヒドンマルコフモ
デルと、抽出した静的特徴量と動的特徴量との間の関係
とを使い、例えばヒドンマルコフモデルを使った音声認
識で得られるガウス分布時系列を使って、それらの候補
に対してのトラジェクトリを作成する。

【００２３】続いて、分散記憶装置に記憶される分散を
参照することで、取得した候補のトラジェクトリからの
分散（静的特徴量及び動的特徴量の分散）を取得して、
その分散と抽出した静的特徴量及び動的特徴量とを使っ
て、それらの候補のトラジェクトリと入力音声との間の
スコアを再計算することで、それらの候補の順位を並べ
替えるなどの再評価を行う。

【００２４】このようにして、本発明によれば、音声の
持つ静的特徴量と動的特徴量との間に成立する関係を考
慮してトラジェクトリを作成することで、従来技術で用
いられていた不連続なＨＭＭの平均値の時系列で構成さ
れる不自然なスコア関数が自然なスコア関数に変換され
ることになり、これにより、高精度の音声認識を実現で
きるようになる。

【００２５】本発明で用いている音声の持つ静的特徴量
と動的特徴量との間に成立する関係を考慮して、ヒドン
マルコフモデルからトラジェクトリを作成するという操
作は、いわば、ヒドンマルコフモデルの平均値時系列に
ローパスフィルタ操作を施すことを意味しており、これ
から、本来的には滑らかな動きを示すべきヒドンマルコ
フモデルの平均値時系列について、従来技術に従ってい
ると、あくまで不連続な平均値時系列のものとして取り
扱われるのに対して、本発明によれば、滑らかな動きを
示すものに変換されることになる。

【００２６】

【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。

【００２７】先ず最初に、図１及び図２を参照して、本
発明の音声認識装置１が実行する処理の概要について説
明する。

【００２８】ここで、図１は本発明の音声認識装置１が
学習モードで動作するときの機能を示しており、図２は
本発明の音声認識装置１が認識モードで動作するときの
機能を示している。

【００２９】図１及び図２中、１００は特徴量抽出部、
１０１は音響モデル学習部、１０２はＨＭＭデータベー
ス、１０３はトラジェクトリ合成部、１０４は分散計算
部、１０５は分散データベース、１０６は特徴量間関係
式、１０７は音声認識部、１０８は辞書、１０９はトラ
ジェクトリ再合成部、１１０はスコア再計算部である。

【００３０】本発明の音声認識装置１は、図１に示す機
能で実現される学習モードで動作する場合、特徴量抽出
部１００で、例えば音韻で構成される学習用音声の特徴
量（静的特徴量）を計算するとともに、その動的特徴量
（以下、説明の便宜上、動的特徴量として、特徴量の微
分係数と特徴量の２次微分係数とを想定する）を計算す
る。

【００３１】この静的特徴量及び動的特徴量の計算を受
けて、音響モデル学習部１０１は、特徴パターンとし
て、特徴量の平均値及び分散と、特徴量の微分係数の平
均値及び分散と、特徴量の２次微分係数の平均値及び分
散とを計算して、例えば音韻で構成される学習用音声に
対応付けて定義されるヒドンマルコフ（ＨＭＭ）の構造
上に保存することで、ＨＭＭデータベース１０２を構築
する。

【００３２】なお、ここまでの処理については、従来技
術で行われている処理と基本的に変わるところはない。

【００３３】このＨＭＭデータベース１０２の構築後
に、トラジェクトリ合成部１０３は、静的特徴量と動的
特徴量との間に成立する特徴量間関係式１０６の条件の
基に、学習用音声のＨＭＭから、学習用音声に対しての
トラジェクトリを計算する。

【００３４】このとき計算されるトラジェクトリは、Ｈ
ＭＭの平均値（静的特徴量及び動的特徴量の平均値）の
時系列を基に計算されるが、静的特徴量と動的特徴量と
の間の関係を考慮しているため、ＨＭＭの平均値の時系
列のように、不連続ではなくて滑らかなで自然な時系列
となる。

【００３５】認識モードで説明するように、本発明の音
声認識装置１は、このトラジェクトリを基にスコア計算
を行うことにより精度の高い音声認識を実現することに
なるが、このスコア計算を行うためには、トラジェクト
リからの入力特徴量の広がりを表す分散（静的特徴量及
び動的特徴量の分散）をあらかじめ学習用音声を用いて
学習しておく必要がある。

【００３６】そこで、分散計算部１０４は、各学習用音
声に対してトラジェクトリが求められると、これらのト
ラジェクトリとそれに対応付けられる学習用音声とか
ら、この分散をＨＭＭの状態毎に計算して分散データベ
ース１０５に記憶する。

【００３７】このようにして、本発明の音声認識装置１
は、学習モードで動作する場合には、図３の処理フロー
に示す処理を実行することで、音声認識のために必要と
なるＨＭＭデータベース１０２と分散データベース１０
５とを作成するように処理するのである。

【００３８】ここで、図３中、２００は学習用音声を格
納する学習用音声ファイル、２０１は特徴量を格納する
特徴量ファイル、２０２はトラジェクトリの合成に用い
るトラジェクトリワークファイルである。

【００３９】一方、本発明の音声認識装置１は、図２に
示す機能で実現される認識モードで動作する場合、特徴
量抽出部１００で、認識対象となる入力音声の特徴量
（静的特徴量）を計算するとともに、その動的特徴量を
計算する。

【００４０】この静的特徴量及び動的特徴量の計算を受
けて、音声認識部１０７は、辞書１０８に登録されてい
る認識対象データを順番に１つずつ読み出して、その読
み出した認識対象データの持つ音韻に対応付けられるＨ
ＭＭ（ＨＭＭデータベース１０２に格納されている）を
組み合わせることで、その読み出した認識対象データの
ＨＭＭを作成して、その作成したＨＭＭに対応付けて保
存されている平均値及び分散から、入力音声とその読み
出した認識対象データとの間のスコアを計算して、スコ
アの高い上位複数個の候補を選択する。

【００４１】この複数個の候補の選択を受けて、トラジ
ェクトリ再合成部１０９は、静的特徴量と動的特徴量と
の間に成立する特徴量間関係式１０６の条件の基に、各
々の候補のＨＭＭから、各々の候補に対してのトラジェ
クトリを計算する。

【００４２】このとき計算されるトラジェクトリは、Ｈ
ＭＭの平均値（静的特徴量及び動的特徴量の平均値）の
時系列を基に計算されるが、静的特徴量と動的特徴量と
の間の関係を考慮しているため、ＨＭＭの平均値の時系
列のように、不連続ではなくて滑らかなで自然な時系列
となる。

【００４３】これらのトラジェクトリの計算を受けて、
スコア再計算部１１０は、これらのトラジェクトリと入
力音声との間のスコアを、分散データベース１０５に格
納されるトラジェクトリからの分散を使って計算して、
候補の順位を入れ替えて最終結果とする。

【００４４】このようにして、本発明の音声認識装置１
は、認識モードで動作する場合には、図４の処理フロー
に示す処理を実行することで、不連続ではなくて滑らか
で自然な時系列となるトラジェクトリを使って、入力音
声の認識処理を実行するように処理するのである。

【００４５】次に、本発明の音声認識装置１が実行する
処理の詳細について説明する。

【００４６】先ず最初に、図１で示したトラジェクトリ
合成部１０３の実行するトラジェクトリの生成処理につ
いて詳細に説明する。

【００４７】入力音声の静的な特徴量時系列、その特徴
量の微分係数時系列、その特徴量の２次微分係数時系列
として、それぞれ、ケプストラムＣ＝｛ｃ₁,ｃ₂,...,ｃ
_T｝、ΔケプストラムΔＣ＝｛Δｃ₁,Δｃ₂,...,Δ
ｃ_T｝、Δ²ケプストラムΔ²Ｃ＝｛Δ²ｃ₁,Δ
²ｃ₂,...,Δ²ｃ_T｝というベクトル時系列が与えられ
るとする。

【００４８】また、Ｓ＝｛ｓ₁,ｓ₂,...,ｓ_T｝はＨＭＭ
のガウス分布時系列を示し、Ｍ＝｛μ₁,μ₂,...,
μ_T｝、ΔＭ＝｛Δμ₁,Δμ₂,...,Δμ_T｝、Δ²Ｍ＝
｛Δ²μ₁,Δ²μ₂,...,Δ²μ_T｝は、それぞれ、その
ガウス分布時系列でのＨＭＭのケプストラムの平均値の
ベクトル時系列、Δケプストラムの平均値のベクトル時
系列、Δ²ケプストラムの平均値のベクトル時系列を示
すものとする。

【００４９】また、Σ＝｛Σ₁,Σ₂,...,Σ_T｝、ΔΣ＝
｛ΔΣ₁,ΔΣ₂,...,ΔΣ_T｝、Δ²Σ＝｛Δ²Σ₁,Δ²
Σ₂,...,Δ²Σ_T｝は、それぞれ、ＨＭＭのケプストラ
ムの共分散行列（対角共分散行列を仮定）の時系列、Δ
ケプストラムの共分散行列（対角共分散行列を仮定）の
時系列、Δ²ケプストラムの共分散行列（対角共分散行
列を仮定）の時系列を示すものとする。

【００５０】ところで、静的特徴量であるケプストラム
と、動的特徴量である２つのΔケプストラム、Δ²ケプ
ストラムとの間には、下記の〔数１〕式、〔数２〕式に
示すような拘束条件がある（なお、その他の拘束条件を
使っても同様のことが実現できる）。

【００５１】

【数１】

【００５２】

【数２】

【００５３】ここで、（２Ｌ＋１）はウィンドウサイ
ズ、ｂ₀,ｂ₁,ｂ₂はウィンドウサイズによって決まる固
定値である。

【００５４】通常のビタービアルゴリズムによる音声認
識では、音声信号に対して、下記の〔数３〕式が最大に
なるように、入力音声に対するＨＭＭのスコアを計算す
る。この最大化によって、ＨＭＭのガウス分布時系列が
求まる。

【００５５】

【数３】

【００５６】ところが、この〔数３〕式により選ばれた
平均値の時系列は、〔数１〕式および〔数２〕式を満た
すようには選ばれていない。このため、ＨＭＭの状態間
での平均値の不連続点が発生するなどといったように、
音声としては不自然な時系列となっていることが多い。

【００５７】しかるに、従来技術では、この〔数３〕式
に従い、不自然な平均値時系列を基準にして入力音声時
系列のスコアの計算を行なっている。これでは高い精度
の音声認識を実現できない。

【００５８】そこで、本発明では、音声合成で使われて
いる手法［参考文献１〜３］を使って、この平均値の時
系列を変形して、滑らかな特徴量時系列を生成するとい
う構成を採っている。〔参考文献〕 [1]K.Tokuda,T.Kobayashi and S.Imai, "Speech parame
ter generation from HMM using dynamic features・ P
roc.ICASSP,pp.660-663,1995. [2]K.Tokuda,T.Masuko,T.Yamada,T.Kobayashi and S.Im
ai,"An algorithm for speech parameter generation f
rom continuous mixture HMMs with dynamic features
・Proc.Eurospeech,pp.757-760,1995. [3]T.Masuko,K.Tokuda,T.Kobayashi and S.Imai,"Speec
h synthesis from HMMsusing dynamic features・Proc.
ICASSP,pp.389-392,1996. 次に、この音声合成で使われている手法について説明す
る。

【００５９】いま、ガウス分布時系列が与えられている
と仮定する。この音声合成で使われている手法では、与
えられたガウス分布時系列に対して、〔数２〕式および
〔数３〕式（但し、ＣをＯに置き換える）の条件の下
で、下記の〔数４〕式を最大化するＯ、ΔＯ、Δ²Ｏを
選ぶことによって、特徴量の時系列を生成するようにし
ている。

【００６０】これは、下記の〔数４〕式のΔＯ、Δ²Ｏ
を、〔数２〕式および〔数３〕式を用いてＯだけで表現
し、下記の〔数５〕式のようにすることで実現できる。
以上が、音声合成で使われている手法である。

【００６１】

【数４】

【００６２】

【数５】

【００６３】このようにして求められるＯ、ΔＯ、Δ²
Ｏの時系列を、ここではトラジェクトリと呼ぶ。このト
ラジェクトリは、任意のガウス分布時系列に対して生成
され、元々のＨＭＭの統計量を保ちながら、音声として
の自然性を持つ特徴量時系列となる。

【００６４】このトラジェクトリを用いた入力音声に対
するスコアを、下記の〔数６〕式に示すように定義す
る。

【００６５】

【数６】

【００６６】ここで、Σ’＝｛Σ’₁,Σ’₂,...,
Σ’_T｝、ΔΣ’＝｛ΔΣ’₁,ΔΣ’₂,...,Δ
Σ’_T｝、Δ²Σ’＝｛Δ²Σ’₁,Δ²Σ’₂,...,Δ²
Σ’_T｝は、ガウス分布時系列Ｓに沿ってのトラジェク
トリからの広がりを表す共分散時系列を示す。

【００６７】これまでの議論では、トラジェクトリを生
成するのに、ＨＭＭのガウス分布の時系列が与えられて
いるものとして議論を行った。次に、入力音声が与えら
れたときに、このガウス分布の時系列を求める方法につ
いて述べる。

【００６８】ケプストラムＣを出力するような最適なガ
ウス分布時系列を求めるためには、下記の〔数７〕式で
示すような関数を用いることが必要である。

【００６９】

【数７】

【００７０】ここで、probは〔数６〕式に示すスコアで
ある。また、Ｏ（Ｓ）はガウス分布時系列Ｓが与えられ
ているときのＨＭＭから出力されるトラジェクトリであ
る。

【００７１】しかし、この〔数７〕式の計算を実現する
ためには、可能なガウス分布時系列に対するすべてのＯ
を求めなければならない。また、ビタービアルゴリズム
などの効率的な探索が実現できないので、膨大な計算量
が必要となる。

【００７２】そこで、ここでは、通常の音声認識で用い
られる〔数３〕式のビタービアルゴリズムによって得ら
れるガウス分布時系列を、この最適ガウス分布時系列の
近似として用いることにする。

【００７３】次に、図１で示した分散計算部１０４の実
行する分散の計算処理について詳細に説明する。

【００７４】〔数６〕式で示したように、トラジェクト
リ導入に伴って新しい分散の計算が必要になる。ここで
は、分散は１つのガウス分布で、時刻によらず一定であ
るとする。分散を求めるために、以下に示すビタービ学
習法を採用する。

【００７５】すなわち、（ａ）ＭＬＥ学習を行い通常のＨＭＭを作成する。（ｂ）各学習データ（学習用音声）に対して、ＨＭＭを
使用して、〔数１〕式のスコアが最大になるガウス分布
時系列をビタービアルゴリズムにより計算する。（ｃ）求められたガウス分布時系列からトラジェクトリ
を求める。（ｄ）ビタービアルゴリズムの結果により、各学習デー
タを各状態ごとにセグメンテーションし、セグメント毎
の小さなデータに分割する。それらのデータを対応する
状態に割り当てる。（ｅ）各状態毎に、その状態に割り当てられたセグメン
トデータを用いて下記の〔数８〕式に従って分散値を推
定する。という手順に従って分散を計算する。

【００７６】

【数８】

【００７７】ここで、〔数８〕式において、ｎは状態ｓ
に割り当てられたデータの数を示し、ｃ^k _iはｋ番目の
長さのデータのｉ番目のケプストラムを示す。また、ｏ
^k _iはそのケプストラムに対応するトラジェクトリの値
である。

【００７８】ΔΣ’についても、同様の手順に従って下
記の〔数９〕式に従って計算で求めることができるとと
もに、Δ²Σ’についても、同様の手順に従って下記の
〔数１０〕式に従って計算で求めことができる。

【００７９】

【数９】

【００８０】

【数１０】

【００８１】次に、本発明の音声認識装置１が認識モー
ド（図２に示す機能で実現されるモード）で実行する音
声認識処理について詳細に説明する。

【００８２】本発明の音声認識装置１は、認識モードで
は、はじめに、通常のＨＭＭを用いてビタービアルゴリ
ズムによる認識を行い、上位数個の認識候補を出力す
る。

【００８３】この複数個の候補に対して、ＨＭＭと、静
的特徴量と動的特徴量との間の関係とを使って、各々の
候補に対してのトラジェクトリを生成する。

【００８４】そして、これらの候補に対して、〔数６〕
式による再スコアを行う。ここでは、スコアとして、動
的特徴量のスコアに重みをかけるため、〔数６〕式に代
えて下記の〔数１１〕式を用いる。

【００８５】

【数１１】

【００８６】ここで、αとβは、それぞれ、Δケプスト
ラムとΔ²ケプストラムに対するスコアの重みを表す。

【００８７】以上に説明した手法を使って認識実験を行
った。この実験では、話者独立、タスク独立の認識を行
った。学習データ（学習用音声）として、音響学会の５
０３音韻バランス文の不特定話者音声データを用いた。
サンプリングレートを１６ｋＨｚとし、フレームシフト
を１０ｍｓとした。このデータを用いて、各状態のガウ
ス分布数が１である環境依存ＨＭＭを学習した。

【００８８】評価データ（入力音声）として、学習デー
タと同条件で分析した男女各１０人による１００都市発
声を用いた。αとβとを各々１，２，３，４，５，１０
と変化させて、最も認識率の高いものを本発明の認識結
果とした。従来のＨＭＭを用いたスコアについても同様
にαとβとを変化させて認識率が最大になるようにし
た。

【００８９】この認識実験で、従来のＨＭＭを用いる
認識を行った場合の認識結果として４.1％の認識率（誤
った認識を行った割合）、本発明による認識を行った
場合の認識結果として３.4％の認識率（誤った認識を行
った割合）、従来のＨＭＭを用いて、αとβとを変化
させて認識を行った場合の認識結果として４.0％の認識
率（誤った認識を行った割合）が得られた。

【００９０】この実験結果から、本発明による認識を行
った場合の認識率（誤った認識を行った割合）が一番小
さくなることで確認できたことで、本発明による音声認
識の有効性を検証できた。

【００９１】このように、従来技術に従っていると、図
５に示すように、不連続なＨＭＭの平均値の系列を基準
とする不自然なスコア関数を用いて音声認識を行うのに
対して、本発明では、静的特徴量と動的特徴量間との間
の関係を用いてトラジェクトリを生成することにより、
図６のように、トラジェクトリを基準とするより自然な
スコア関数と変換され、この自然なスコア関数を用いて
音声認識を行うことになる。

【００９２】そして、このトラジェクトリからの広がり
である分散を、〔数８〕式〜〔数１１〕式のように計算
することにより、図６で示すような、より広がりの小さ
いスコア関数を実現することができるようになる。

【００９３】このようにして、本発明によれば、ヒドン
マルコフモデルに従って入力音声を認識するときに、高
い認識を期待できるようになる。

【００９４】

【発明の効果】以上説明したように、本発明によれば、
音声の持つ静的特徴量と動的特徴量との間に成立する関
係を考慮してトラジェクトリを作成することで、従来技
術で用いられていた不連続なＨＭＭの平均値の時系列で
構成される不自然なスコア関数が自然なスコア関数に変
換されることになり、これにより、高精度の音声認識を
実現できるようになる。

【図面の簡単な説明】

【図１】本発明の一実施形態例である。

【図２】本発明の一実施形態例である。

【図３】本発明の実行する処理フローの一実施形態例で
ある。

【図４】本発明の実行する処理フローの一実施形態例で
ある。

【図５】従来技術で用いるスコア関数の説明図である。

【図６】本発明で用いるスコア関数の説明図である。

【図７】従来技術の説明図である。

【符号の説明】

１音声認識装置１００特徴量抽出部１０１音響モデル学習部１０２ＨＭＭデータベース１０３トラジェクトリ合成部１０４分散計算部１０５分散データベース１０６特徴量間関係式１０７音声認識部１０８辞書１０９トラジェクトリ再合成部１１０スコア再計算部

───────────────────────────────────────────────────── フロントページの続き (72)発明者中村篤東京都千代田区大手町二丁目３番１号日本電信電話株式会社内 (72)発明者片桐滋東京都千代田区大手町二丁目３番１号日本電信電話株式会社内Ｆターム(参考） 5D015 FF00 HH23 (54)【発明の名称】音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体

Claims

【特許請求の範囲】

【請求項１】ヒドンマルコフモデルによる音声認識で
用いられる音声認識用情報を作成する音声認識用情報作
成装置であって、学習用音声を特徴量分析して静的特徴量及び動的特徴量
を抽出する手段と、上記静的特徴量及び上記動的特徴量からヒドンマルコフ
モデルを学習して、記憶装置に保存する手段と、上記学習したヒドンマルコフモデルと、上記静的特徴量
と上記動的特徴量との間の関係とを使って、学習用音声
に対してのトラジェクトリを作成する手段と、上記作成したトラジェクトリからの学習用音声の分散を
計算して、記憶装置に保存する手段とを備えることを、特徴とする音声認識用情報作成装置。
【請求項２】請求項１記載の音声認識用情報作成装置
において、上記トラジェクトリを作成する手段は、ヒドンマルコフ
モデルを使った音声認識で得られるガウス分布時系列を
使って、学習用音声に対してのトラジェクトリを作成す
ることを、特徴とする音声認識用情報作成装置。
【請求項３】ヒドンマルコフモデルによる音声認識で
用いられる音声認識用情報を作成する音声認識用情報作
成方法であって、学習用音声を特徴量分析して静的特徴量及び動的特徴量
を抽出する過程と、上記静的特徴量及び上記動的特徴量からヒドンマルコフ
モデルを学習して、記憶装置に保存する過程と、上記学習したヒドンマルコフモデルと、上記静的特徴量
と上記動的特徴量との間の関係とを使って、学習用音声
に対してのトラジェクトリを作成する過程と、上記作成したトラジェクトリからの学習用音声の分散を
計算して、記憶装置に保存する過程とを備えることを、特徴とする音声認識用情報作成方法。
【請求項４】請求項３記載の音声認識用情報作成方法
において、上記トラジェクトリを作成する過程では、ヒドンマルコ
フモデルを使った音声認識で得られるガウス分布時系列
を使って、学習用音声に対してのトラジェクトリを作成
することを、特徴とする音声認識用情報作成方法。
【請求項５】ヒドンマルコフモデルに従って入力音声
を認識する音声認識装置であって、入力音声を特徴量分析して静的特徴量及び動的特徴量を
抽出する手段と、学習用音声に基づいて作成されたヒドンマルコフモデル
を記憶する記憶装置を参照することで、入力音声との比
較対象となるヒドンマルコフモデルを取得して、入力音
声の音声認識を行い複数個の候補を得る手段と、上記候補のヒドンマルコフモデルと、上記静的特徴量と
上記動的特徴量との間の関係とを使って、上記候補に対
してのトラジェクトリを作成する手段と、学習用音声に基づいて作成されたトラジェクトリからの
分散を記憶する記憶装置を参照することで、上記候補の
トラジェクトリからの分散を取得して、上記候補のトラ
ジェクトリと入力音声との間のスコアを計算すること
で、上記候補を再評価する手段とを備えることを、特徴とする音声認識装置。
【請求項６】請求項５記載の音声認識装置において、上記トラジェクトリを作成する手段は、ヒドンマルコフ
モデルを使った音声認識で得られるガウス分布時系列を
使って、上記候補に対してのトラジェクトリを作成する
ことを、特徴とする音声認識装置。
【請求項７】ヒドンマルコフモデルに従って入力音声
を認識する音声認識方法であって、入力音声を特徴量分析して静的特徴量及び動的特徴量を
抽出する過程と、学習用音声に基づいて作成されたヒドンマルコフモデル
を記憶する記憶装置を参照することで、入力音声との比
較対象となるヒドンマルコフモデルを取得して、入力音
声の音声認識を行い複数個の候補を得る過程と、上記候補のヒドンマルコフモデルと、上記静的特徴量と
上記動的特徴量との間の関係とを使って、上記候補に対
してのトラジェクトリを作成する過程と、学習用音声に基づいて作成されたトラジェクトリからの
分散を記憶する記憶装置を参照することで、上記候補の
トラジェクトリからの分散を取得して、上記候補のトラ
ジェクトリと入力音声との間のスコアを計算すること
で、上記候補を再評価する過程とを備えることを、特徴とする音声認識方法。
【請求項８】請求項７記載の音声認識方法において、上記トラジェクトリを作成する過程では、ヒドンマルコ
フモデルを使った音声認識で得られるガウス分布時系列
を使って、上記候補に対してのトラジェクトリを作成す
ることを、特徴とする音声認識方法。
【請求項９】請求項３又は４に記載の音声認識用情報
作成方法の実現に用いられる処理をコンピュータに実行
させるための音声認識用情報作成プログラム。
【請求項１０】請求項３又は４に記載の音声認識用情
報作成方法の実現に用いられる処理をコンピュータに実
行させるためのプログラムを記録した音声認識用情報作
成プログラムの記録媒体。
【請求項１１】請求項７又は８に記載の音声認識方法
の実現に用いられる処理をコンピュータに実行させるた
めの音声認識プログラム。
【請求項１２】請求項３又は４に記載の音声認識方法
の実現に用いられる処理をコンピュータに実行させるた
めのプログラムを記録した音声認識プログラムの記録媒
体。