[go: up one dir, main page]

JP2003271185A - 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 - Google Patents

音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体

Info

Publication number
JP2003271185A
JP2003271185A JP2002071260A JP2002071260A JP2003271185A JP 2003271185 A JP2003271185 A JP 2003271185A JP 2002071260 A JP2002071260 A JP 2002071260A JP 2002071260 A JP2002071260 A JP 2002071260A JP 2003271185 A JP2003271185 A JP 2003271185A
Authority
JP
Japan
Prior art keywords
voice
trajectory
creating
markov model
hidden markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002071260A
Other languages
English (en)
Inventor
Yasuhiro Minami
泰浩 南
Mcdermott Eric
マクダーモット エリック
Atsushi Nakamura
篤 中村
Shigeru Katagiri
滋 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002071260A priority Critical patent/JP2003271185A/ja
Publication of JP2003271185A publication Critical patent/JP2003271185A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】本発明は、ヒドンマルコフモデル(HMM)に
より入力音声を認識するときにあって、高精度の音声認
識を実現できるようにすることを目的とする。 【解決手段】学習時には、学習用音声から静的特徴量及
び動的特徴量を抽出し、HMMを学習して記憶装置に保
存し、その学習用音声のHMMと、静的特徴量と動的特
徴量との間の関係とを使って学習用音声に対してのトラ
ジェクトリを作成し、それからの分散を計算して記憶装
置に保存する。認識時には、入力音声から静的特徴量及
び動的特徴量を抽出し、保存されるHMMを使って、入
力音声の音声認識を行い複数個の候補を得て、それらの
候補のHMMと、静的特徴量と動的特徴量との間の関係
とを使って、それらの候補に対してのトラジェクトリを
作成し、保存される分散を参照することで、それらの候
補のトラジェクトリと入力音声との間のスコアを再計算
することで、それらの候補の再評価を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ヒドンマルコフモ
デルによる音声認識で用いられる音声認識用情報を作成
する音声認識用情報作成装置及びその方法と、その音声
認識用情報作成技術により作成された音声認識用情報を
使って、ヒドンマルコフモデルに従って入力音声を認識
する音声認識装置及びその方法と、その音声認識用情報
作成方法の実現に用いられる音声認識用情報作成プログ
ラム及びそのプログラムを記録した記録媒体と、その音
声認識方法の実現に用いられる音声認識プログラム及び
そのプログラムを記録した記録媒体とに関する。
【0002】
【従来の技術】図7を使って、従来の音声認識手法につ
いて説明する。
【0003】この図に示すように、従来の音声認識手法
では、入力された音声は、特徴量抽出部10で、特徴量
(静的特徴量)が計算されるとともに、その動的特徴量
である例えば特徴量の微分係数や2次微分係数が計算さ
れる。
【0004】学習時には、例えば音韻で構成される学習
用音声について計算される特徴量及び動的特徴量が音響
モデル学習部11に送られ、音響モデル学習部11は、
例えば特徴量の微分係数と2次微分係数とが動的特徴量
である場合で説明するならば、特徴パターンとして、特
徴量の平均値及び分散と、特徴量の微分係数の平均値及
び分散と、特徴量の2次微分係数の平均値及び分散とを
計算して、例えば音韻で構成される学習用音声に対応付
けて定義されるヒドンマルコフ(HMM)の構造上に保
存することで、HMMデータベース12を構築する。
【0005】そして、認識時には、認識対象となる入力
音声について計算されるこれらの特徴量及び動的特徴量
が音声認識部13に送られ、音声認識部13は、辞書1
4に登録されている認識対象データを順番に1つずつ読
み出して、その読み出した認識対象データの持つ音韻に
対応付けられるHMM(HMMデータベース12に格納
されている)を組み合わせることで、その読み出した認
識対象データのHMMを作成して、その作成したHMM
に対応付けて保存されている平均値及び分散から、入力
音声とその読み出した認識対象データとの間のスコアを
計算して、スコアの高い認識対象データを認識結果とし
て出力する。
【0006】
【発明が解決しようとする課題】最初に、トラジェクト
リという概念について説明する。
【0007】トラジェクトリとは、モデル化された音声
の代表的な特徴量の時系列(パターン)であると考え
る。例えば、DPマッチングのような手法であれば、複
数の話者の発声した時系列であり、HMMの場合は、ビ
タービアルゴリズム(Viterbiアルゴリズム)によって
決まる平均値時系列である。
【0008】音声認識では、このトラジェクトリを基
に、入力音声のスコア計算(距離計算やスコアの計算)
が実行される。HMMでは、ビタービアルゴリズムによ
って平均値時系列であるトラジェクトリを効率よく求め
て、それと入力音声との間のスコアを計算している。
【0009】HMMでは、このトラジェクトリを求める
際に、特徴量と特徴量の微分係数との間と、特徴量と特
徴量の2次微分係数との間と、特徴量の微分係数と特徴
量の2次微分係数との間を、それぞれ独立と仮定してい
た。
【0010】ところが、実際の音声では、静的特徴量と
動的特徴量(例えば、特徴量の微分係数や2次微分係数
など)との間には一定の関係式が成立している。
【0011】しかしながら、従来のHMMでは、この関
係式を使っていない。これがために、従来技術に従って
いると、スコアを計算する際に基準となるHMMの平均
値の時系列(トラジェクトリ)がHMMの状態遷移部分
でなめらかではなくなる。
【0012】これから、従来技術に従っていると、精度
のよい音声認識結果が得られないという問題点があっ
た。また、スコアの計算に必要とされる分散について
も、この平均値を基に計算しているため、この点からし
ても、精度のよい音声認識結果が得られないという問題
点があった。
【0013】従来のHMMで、音声の持つ静的特徴量と
動的特徴量との間に成立する関係を積極的に利用しなか
った大きな原因は、HMMにおける認識手法であるビタ
ービアルゴリズムにこの関係式を導入することができな
かったからである。
【0014】本発明はかかる事情に鑑みてなされたもの
であって、ヒドンマルコフモデルに従って入力音声を認
識するという構成を採るときにあって、音声の持つ静的
特徴量と動的特徴量との間に成立する関係を用いてトラ
ジェクトリを生成することで、高精度の音声認識を実現
できるようにする新たな技術の提供を目的とする。
【0015】
【課題を解決するための手段】この目的を達成するため
に、本発明の音声認識用情報作成装置(例えば、本発明
の音声認識装置が学習モードとして動作するときに機能
することで実現される)は、ヒドンマルコフモデルによ
る音声認識で用いられる音声認識用情報を作成するため
に、学習用音声を特徴量分析して静的特徴量及び動的
特徴量を抽出する手段と、静的特徴量及び動的特徴量
からヒドンマルコフモデルを学習して、HMM記憶装置
に保存する手段と、学習したヒドンマルコフモデル
と、静的特徴量と動的特徴量との間の関係とを使って、
学習用音声に対してのトラジェクトリを作成する手段
と、作成したトラジェクトリからの学習用音声の分散
を計算して、分散記憶装置に保存する手段とを備えるよ
うに構成する。
【0016】ここで、本発明の音声認識用情報作成装置
の備える各処理手段はコンピュータプログラムで実現で
きるものであり、このコンピュータプログラムは、半導
体メモリなどの記録媒体に記録して提供することができ
る。
【0017】一方、本発明の音声認識装置は、ヒドンマ
ルコフモデルに従って入力音声を認識するために、入
力音声を特徴量分析して静的特徴量及び動的特徴量を抽
出する手段と、本発明の音声認識用情報作成装置によ
り構築されたHMM記憶装置(学習用音声のヒドンマル
コフモデルを記憶している)を参照することで、入力音
声との比較対象となるヒドンマルコフモデルを取得し
て、入力音声の音声認識を行い複数個の候補を得る手段
と、それらの候補のヒドンマルコフモデルと、静的特
徴量と動的特徴量との間の関係とを使って、それらの候
補に対してのトラジェクトリを作成する手段と、本発
明の音声認識用情報作成装置により構築された分散記憶
装置(学習用音声のトラジェクトリからの学習用音声の
分散を記憶している)を参照することで、それらの候補
のトラジェクトリからの分散を取得して、それらの候補
のトラジェクトリと入力音声との間のスコアを計算する
ことで、それらの候補を再評価する手段とを備えるよう
に構成する。
【0018】ここで、本発明の音声認識装置の備える各
処理手段はコンピュータプログラムで実現できるもので
あり、このコンピュータプログラムは、半導体メモリな
どの記録媒体に記録して提供することができる。
【0019】このように構成される本発明の音声認識用
情報作成装置では、例えば音韻で構成される学習用音声
を特徴量分析して静的特徴量及び動的特徴量を抽出する
と、その抽出した静的特徴量及び動的特徴量から学習用
音声のヒドンマルコフモデルを学習して、HMM記憶装
置に保存する。
【0020】続いて、学習した学習用音声のヒドンマル
コフモデルと、静的特徴量と動的特徴量との間の関係と
を使い、例えばヒドンマルコフモデルを使った音声認識
で得られるガウス分布時系列を使って、学習用音声に対
してのトラジェクトリを作成して、そのトラジェクトリ
からの学習用音声の分散(静的特徴量及び動的特徴量の
分散)を計算し、分散記憶装置に保存する。
【0021】このようにして構築されるHMM記憶装置
と分散記憶装置とを受けて、本発明の音声認識装置は、
入力音声を特徴量分析して静的特徴量及び動的特徴量を
抽出すると、HMM記憶装置に記憶されるヒドンマルコ
フモデルを参照することで、入力音声とのスコア計算の
対象となるヒドンマルコフモデルを取得して、抽出した
静的特徴量及び動的特徴量を使い、それらのヒドンマル
コフモデルと入力音声との間のスコアを計算すること
で、入力音声の音声認識を行い複数個の候補を得る。
【0022】続いて、それらの候補のヒドンマルコフモ
デルと、抽出した静的特徴量と動的特徴量との間の関係
とを使い、例えばヒドンマルコフモデルを使った音声認
識で得られるガウス分布時系列を使って、それらの候補
に対してのトラジェクトリを作成する。
【0023】続いて、分散記憶装置に記憶される分散を
参照することで、取得した候補のトラジェクトリからの
分散(静的特徴量及び動的特徴量の分散)を取得して、
その分散と抽出した静的特徴量及び動的特徴量とを使っ
て、それらの候補のトラジェクトリと入力音声との間の
スコアを再計算することで、それらの候補の順位を並べ
替えるなどの再評価を行う。
【0024】このようにして、本発明によれば、音声の
持つ静的特徴量と動的特徴量との間に成立する関係を考
慮してトラジェクトリを作成することで、従来技術で用
いられていた不連続なHMMの平均値の時系列で構成さ
れる不自然なスコア関数が自然なスコア関数に変換され
ることになり、これにより、高精度の音声認識を実現で
きるようになる。
【0025】本発明で用いている音声の持つ静的特徴量
と動的特徴量との間に成立する関係を考慮して、ヒドン
マルコフモデルからトラジェクトリを作成するという操
作は、いわば、ヒドンマルコフモデルの平均値時系列に
ローパスフィルタ操作を施すことを意味しており、これ
から、本来的には滑らかな動きを示すべきヒドンマルコ
フモデルの平均値時系列について、従来技術に従ってい
ると、あくまで不連続な平均値時系列のものとして取り
扱われるのに対して、本発明によれば、滑らかな動きを
示すものに変換されることになる。
【0026】
【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。
【0027】先ず最初に、図1及び図2を参照して、本
発明の音声認識装置1が実行する処理の概要について説
明する。
【0028】ここで、図1は本発明の音声認識装置1が
学習モードで動作するときの機能を示しており、図2は
本発明の音声認識装置1が認識モードで動作するときの
機能を示している。
【0029】図1及び図2中、100は特徴量抽出部、
101は音響モデル学習部、102はHMMデータベー
ス、103はトラジェクトリ合成部、104は分散計算
部、105は分散データベース、106は特徴量間関係
式、107は音声認識部、108は辞書、109はトラ
ジェクトリ再合成部、110はスコア再計算部である。
【0030】本発明の音声認識装置1は、図1に示す機
能で実現される学習モードで動作する場合、特徴量抽出
部100で、例えば音韻で構成される学習用音声の特徴
量(静的特徴量)を計算するとともに、その動的特徴量
(以下、説明の便宜上、動的特徴量として、特徴量の微
分係数と特徴量の2次微分係数とを想定する)を計算す
る。
【0031】この静的特徴量及び動的特徴量の計算を受
けて、音響モデル学習部101は、特徴パターンとし
て、特徴量の平均値及び分散と、特徴量の微分係数の平
均値及び分散と、特徴量の2次微分係数の平均値及び分
散とを計算して、例えば音韻で構成される学習用音声に
対応付けて定義されるヒドンマルコフ(HMM)の構造
上に保存することで、HMMデータベース102を構築
する。
【0032】なお、ここまでの処理については、従来技
術で行われている処理と基本的に変わるところはない。
【0033】このHMMデータベース102の構築後
に、トラジェクトリ合成部103は、静的特徴量と動的
特徴量との間に成立する特徴量間関係式106の条件の
基に、学習用音声のHMMから、学習用音声に対しての
トラジェクトリを計算する。
【0034】このとき計算されるトラジェクトリは、H
MMの平均値(静的特徴量及び動的特徴量の平均値)の
時系列を基に計算されるが、静的特徴量と動的特徴量と
の間の関係を考慮しているため、HMMの平均値の時系
列のように、不連続ではなくて滑らかなで自然な時系列
となる。
【0035】認識モードで説明するように、本発明の音
声認識装置1は、このトラジェクトリを基にスコア計算
を行うことにより精度の高い音声認識を実現することに
なるが、このスコア計算を行うためには、トラジェクト
リからの入力特徴量の広がりを表す分散(静的特徴量及
び動的特徴量の分散)をあらかじめ学習用音声を用いて
学習しておく必要がある。
【0036】そこで、分散計算部104は、各学習用音
声に対してトラジェクトリが求められると、これらのト
ラジェクトリとそれに対応付けられる学習用音声とか
ら、この分散をHMMの状態毎に計算して分散データベ
ース105に記憶する。
【0037】このようにして、本発明の音声認識装置1
は、学習モードで動作する場合には、図3の処理フロー
に示す処理を実行することで、音声認識のために必要と
なるHMMデータベース102と分散データベース10
5とを作成するように処理するのである。
【0038】ここで、図3中、200は学習用音声を格
納する学習用音声ファイル、201は特徴量を格納する
特徴量ファイル、202はトラジェクトリの合成に用い
るトラジェクトリワークファイルである。
【0039】一方、本発明の音声認識装置1は、図2に
示す機能で実現される認識モードで動作する場合、特徴
量抽出部100で、認識対象となる入力音声の特徴量
(静的特徴量)を計算するとともに、その動的特徴量を
計算する。
【0040】この静的特徴量及び動的特徴量の計算を受
けて、音声認識部107は、辞書108に登録されてい
る認識対象データを順番に1つずつ読み出して、その読
み出した認識対象データの持つ音韻に対応付けられるH
MM(HMMデータベース102に格納されている)を
組み合わせることで、その読み出した認識対象データの
HMMを作成して、その作成したHMMに対応付けて保
存されている平均値及び分散から、入力音声とその読み
出した認識対象データとの間のスコアを計算して、スコ
アの高い上位複数個の候補を選択する。
【0041】この複数個の候補の選択を受けて、トラジ
ェクトリ再合成部109は、静的特徴量と動的特徴量と
の間に成立する特徴量間関係式106の条件の基に、各
々の候補のHMMから、各々の候補に対してのトラジェ
クトリを計算する。
【0042】このとき計算されるトラジェクトリは、H
MMの平均値(静的特徴量及び動的特徴量の平均値)の
時系列を基に計算されるが、静的特徴量と動的特徴量と
の間の関係を考慮しているため、HMMの平均値の時系
列のように、不連続ではなくて滑らかなで自然な時系列
となる。
【0043】これらのトラジェクトリの計算を受けて、
スコア再計算部110は、これらのトラジェクトリと入
力音声との間のスコアを、分散データベース105に格
納されるトラジェクトリからの分散を使って計算して、
候補の順位を入れ替えて最終結果とする。
【0044】このようにして、本発明の音声認識装置1
は、認識モードで動作する場合には、図4の処理フロー
に示す処理を実行することで、不連続ではなくて滑らか
で自然な時系列となるトラジェクトリを使って、入力音
声の認識処理を実行するように処理するのである。
【0045】次に、本発明の音声認識装置1が実行する
処理の詳細について説明する。
【0046】先ず最初に、図1で示したトラジェクトリ
合成部103の実行するトラジェクトリの生成処理につ
いて詳細に説明する。
【0047】入力音声の静的な特徴量時系列、その特徴
量の微分係数時系列、その特徴量の2次微分係数時系列
として、それぞれ、ケプストラムC={c1,c2,...,c
T }、ΔケプストラムΔC={Δc1,Δc2,...,Δ
T }、Δ2 ケプストラムΔ2 C={Δ2 1
2 2,...,Δ2 T }というベクトル時系列が与えられ
るとする。
【0048】また、S={s1,s2,...,sT }はHMM
のガウス分布時系列を示し、M={μ12,...,
μT }、ΔM={Δμ1,Δμ2,...,ΔμT }、Δ2 M=
{Δ2 μ12 μ2,...,Δ2 μT }は、それぞれ、その
ガウス分布時系列でのHMMのケプストラムの平均値の
ベクトル時系列、Δケプストラムの平均値のベクトル時
系列、Δ2 ケプストラムの平均値のベクトル時系列を示
すものとする。
【0049】また、Σ={Σ12,...,ΣT }、ΔΣ=
{ΔΣ1,ΔΣ2,...,ΔΣT }、Δ2Σ={Δ2 Σ12
Σ2,...,Δ2 ΣT }は、それぞれ、HMMのケプストラ
ムの共分散行列(対角共分散行列を仮定)の時系列、Δ
ケプストラムの共分散行列(対角共分散行列を仮定)の
時系列、Δ2 ケプストラムの共分散行列(対角共分散行
列を仮定)の時系列を示すものとする。
【0050】ところで、静的特徴量であるケプストラム
と、動的特徴量である2つのΔケプストラム、Δ2 ケプ
ストラムとの間には、下記の〔数1〕式、〔数2〕式に
示すような拘束条件がある(なお、その他の拘束条件を
使っても同様のことが実現できる)。
【0051】
【数1】
【0052】
【数2】
【0053】ここで、(2L+1)はウィンドウサイ
ズ、b0,b1,b2 はウィンドウサイズによって決まる固
定値である。
【0054】通常のビタービアルゴリズムによる音声認
識では、音声信号に対して、下記の〔数3〕式が最大に
なるように、入力音声に対するHMMのスコアを計算す
る。この最大化によって、HMMのガウス分布時系列が
求まる。
【0055】
【数3】
【0056】ところが、この〔数3〕式により選ばれた
平均値の時系列は、〔数1〕式および〔数2〕式を満た
すようには選ばれていない。このため、HMMの状態間
での平均値の不連続点が発生するなどといったように、
音声としては不自然な時系列となっていることが多い。
【0057】しかるに、従来技術では、この〔数3〕式
に従い、不自然な平均値時系列を基準にして入力音声時
系列のスコアの計算を行なっている。これでは高い精度
の音声認識を実現できない。
【0058】そこで、本発明では、音声合成で使われて
いる手法[参考文献1〜3]を使って、この平均値の時
系列を変形して、滑らかな特徴量時系列を生成するとい
う構成を採っている。 〔参考文献〕 [1]K.Tokuda,T.Kobayashi and S.Imai, "Speech parame
ter generation from HMM using dynamic features・ P
roc.ICASSP,pp.660-663,1995. [2]K.Tokuda,T.Masuko,T.Yamada,T.Kobayashi and S.Im
ai,"An algorithm for speech parameter generation f
rom continuous mixture HMMs with dynamic features
・Proc.Eurospeech,pp.757-760,1995. [3]T.Masuko,K.Tokuda,T.Kobayashi and S.Imai,"Speec
h synthesis from HMMsusing dynamic features・Proc.
ICASSP,pp.389-392,1996. 次に、この音声合成で使われている手法について説明す
る。
【0059】いま、ガウス分布時系列が与えられている
と仮定する。この音声合成で使われている手法では、与
えられたガウス分布時系列に対して、〔数2〕式および
〔数3〕式(但し、CをOに置き換える)の条件の下
で、下記の〔数4〕式を最大化するO、ΔO、Δ2 Oを
選ぶことによって、特徴量の時系列を生成するようにし
ている。
【0060】これは、下記の〔数4〕式のΔO、Δ2
を、〔数2〕式および〔数3〕式を用いてOだけで表現
し、下記の〔数5〕式のようにすることで実現できる。
以上が、音声合成で使われている手法である。
【0061】
【数4】
【0062】
【数5】
【0063】このようにして求められるO、ΔO、Δ2
Oの時系列を、ここではトラジェクトリと呼ぶ。このト
ラジェクトリは、任意のガウス分布時系列に対して生成
され、元々のHMMの統計量を保ちながら、音声として
の自然性を持つ特徴量時系列となる。
【0064】このトラジェクトリを用いた入力音声に対
するスコアを、下記の〔数6〕式に示すように定義す
る。
【0065】
【数6】
【0066】ここで、Σ’={Σ’1,Σ’2,...,
Σ’T }、ΔΣ’={ΔΣ’1,ΔΣ’2,...,Δ
Σ’T }、Δ2 Σ’={Δ2 Σ’12 Σ’2,...,Δ2
Σ’T }は、ガウス分布時系列Sに沿ってのトラジェク
トリからの広がりを表す共分散時系列を示す。
【0067】これまでの議論では、トラジェクトリを生
成するのに、HMMのガウス分布の時系列が与えられて
いるものとして議論を行った。次に、入力音声が与えら
れたときに、このガウス分布の時系列を求める方法につ
いて述べる。
【0068】ケプストラムCを出力するような最適なガ
ウス分布時系列を求めるためには、下記の〔数7〕式で
示すような関数を用いることが必要である。
【0069】
【数7】
【0070】ここで、probは〔数6〕式に示すスコアで
ある。また、O(S)はガウス分布時系列Sが与えられ
ているときのHMMから出力されるトラジェクトリであ
る。
【0071】しかし、この〔数7〕式の計算を実現する
ためには、可能なガウス分布時系列に対するすべてのO
を求めなければならない。また、ビタービアルゴリズム
などの効率的な探索が実現できないので、膨大な計算量
が必要となる。
【0072】そこで、ここでは、通常の音声認識で用い
られる〔数3〕式のビタービアルゴリズムによって得ら
れるガウス分布時系列を、この最適ガウス分布時系列の
近似として用いることにする。
【0073】次に、図1で示した分散計算部104の実
行する分散の計算処理について詳細に説明する。
【0074】〔数6〕式で示したように、トラジェクト
リ導入に伴って新しい分散の計算が必要になる。ここで
は、分散は1つのガウス分布で、時刻によらず一定であ
るとする。分散を求めるために、以下に示すビタービ学
習法を採用する。
【0075】すなわち、 (a)MLE学習を行い通常のHMMを作成する。 (b)各学習データ(学習用音声)に対して、HMMを
使用して、〔数1〕式のスコアが最大になるガウス分布
時系列をビタービアルゴリズムにより計算する。 (c)求められたガウス分布時系列からトラジェクトリ
を求める。 (d)ビタービアルゴリズムの結果により、各学習デー
タを各状態ごとにセグメンテーションし、セグメント毎
の小さなデータに分割する。それらのデータを対応する
状態に割り当てる。 (e)各状態毎に、その状態に割り当てられたセグメン
トデータを用いて下記の〔数8〕式に従って分散値を推
定する。 という手順に従って分散を計算する。
【0076】
【数8】
【0077】ここで、〔数8〕式において、nは状態s
に割り当てられたデータの数を示し、ck i はk番目の
長さのデータのi番目のケプストラムを示す。また、o
k iはそのケプストラムに対応するトラジェクトリの値
である。
【0078】ΔΣ’についても、同様の手順に従って下
記の〔数9〕式に従って計算で求めることができるとと
もに、Δ2 Σ’についても、同様の手順に従って下記の
〔数10〕式に従って計算で求めことができる。
【0079】
【数9】
【0080】
【数10】
【0081】次に、本発明の音声認識装置1が認識モー
ド(図2に示す機能で実現されるモード)で実行する音
声認識処理について詳細に説明する。
【0082】本発明の音声認識装置1は、認識モードで
は、はじめに、通常のHMMを用いてビタービアルゴリ
ズムによる認識を行い、上位数個の認識候補を出力す
る。
【0083】この複数個の候補に対して、HMMと、静
的特徴量と動的特徴量との間の関係とを使って、各々の
候補に対してのトラジェクトリを生成する。
【0084】そして、これらの候補に対して、〔数6〕
式による再スコアを行う。ここでは、スコアとして、動
的特徴量のスコアに重みをかけるため、〔数6〕式に代
えて下記の〔数11〕式を用いる。
【0085】
【数11】
【0086】ここで、αとβは、それぞれ、Δケプスト
ラムとΔ2 ケプストラムに対するスコアの重みを表す。
【0087】以上に説明した手法を使って認識実験を行
った。この実験では、話者独立、タスク独立の認識を行
った。学習データ(学習用音声)として、音響学会の5
03音韻バランス文の不特定話者音声データを用いた。
サンプリングレートを16kHzとし、フレームシフト
を10msとした。このデータを用いて、各状態のガウ
ス分布数が1である環境依存HMMを学習した。
【0088】評価データ(入力音声)として、学習デー
タと同条件で分析した男女各10人による100都市発
声を用いた。αとβとを各々1,2,3,4,5,10
と変化させて、最も認識率の高いものを本発明の認識結
果とした。従来のHMMを用いたスコアについても同様
にαとβとを変化させて認識率が最大になるようにし
た。
【0089】この認識実験で、従来のHMMを用いる
認識を行った場合の認識結果として4.1%の認識率(誤
った認識を行った割合)、本発明による認識を行った
場合の認識結果として3.4%の認識率(誤った認識を行
った割合)、従来のHMMを用いて、αとβとを変化
させて認識を行った場合の認識結果として4.0%の認識
率(誤った認識を行った割合)が得られた。
【0090】この実験結果から、本発明による認識を行
った場合の認識率(誤った認識を行った割合)が一番小
さくなることで確認できたことで、本発明による音声認
識の有効性を検証できた。
【0091】このように、従来技術に従っていると、図
5に示すように、不連続なHMMの平均値の系列を基準
とする不自然なスコア関数を用いて音声認識を行うのに
対して、本発明では、静的特徴量と動的特徴量間との間
の関係を用いてトラジェクトリを生成することにより、
図6のように、トラジェクトリを基準とするより自然な
スコア関数と変換され、この自然なスコア関数を用いて
音声認識を行うことになる。
【0092】そして、このトラジェクトリからの広がり
である分散を、〔数8〕式〜〔数11〕式のように計算
することにより、図6で示すような、より広がりの小さ
いスコア関数を実現することができるようになる。
【0093】このようにして、本発明によれば、ヒドン
マルコフモデルに従って入力音声を認識するときに、高
い認識を期待できるようになる。
【0094】
【発明の効果】以上説明したように、本発明によれば、
音声の持つ静的特徴量と動的特徴量との間に成立する関
係を考慮してトラジェクトリを作成することで、従来技
術で用いられていた不連続なHMMの平均値の時系列で
構成される不自然なスコア関数が自然なスコア関数に変
換されることになり、これにより、高精度の音声認識を
実現できるようになる。
【図面の簡単な説明】
【図1】本発明の一実施形態例である。
【図2】本発明の一実施形態例である。
【図3】本発明の実行する処理フローの一実施形態例で
ある。
【図4】本発明の実行する処理フローの一実施形態例で
ある。
【図5】従来技術で用いるスコア関数の説明図である。
【図6】本発明で用いるスコア関数の説明図である。
【図7】従来技術の説明図である。
【符号の説明】
1 音声認識装置 100 特徴量抽出部 101 音響モデル学習部 102 HMMデータベース 103 トラジェクトリ合成部 104 分散計算部 105 分散データベース 106 特徴量間関係式 107 音声認識部 108 辞書 109 トラジェクトリ再合成部 110 スコア再計算部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中村 篤 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 片桐 滋 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5D015 FF00 HH23 (54)【発明の名称】 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プ ログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを 記録した記録媒体

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 ヒドンマルコフモデルによる音声認識で
    用いられる音声認識用情報を作成する音声認識用情報作
    成装置であって、 学習用音声を特徴量分析して静的特徴量及び動的特徴量
    を抽出する手段と、 上記静的特徴量及び上記動的特徴量からヒドンマルコフ
    モデルを学習して、記憶装置に保存する手段と、 上記学習したヒドンマルコフモデルと、上記静的特徴量
    と上記動的特徴量との間の関係とを使って、学習用音声
    に対してのトラジェクトリを作成する手段と、 上記作成したトラジェクトリからの学習用音声の分散を
    計算して、記憶装置に保存する手段とを備えることを、 特徴とする音声認識用情報作成装置。
  2. 【請求項2】 請求項1記載の音声認識用情報作成装置
    において、 上記トラジェクトリを作成する手段は、ヒドンマルコフ
    モデルを使った音声認識で得られるガウス分布時系列を
    使って、学習用音声に対してのトラジェクトリを作成す
    ることを、 特徴とする音声認識用情報作成装置。
  3. 【請求項3】 ヒドンマルコフモデルによる音声認識で
    用いられる音声認識用情報を作成する音声認識用情報作
    成方法であって、 学習用音声を特徴量分析して静的特徴量及び動的特徴量
    を抽出する過程と、 上記静的特徴量及び上記動的特徴量からヒドンマルコフ
    モデルを学習して、記憶装置に保存する過程と、 上記学習したヒドンマルコフモデルと、上記静的特徴量
    と上記動的特徴量との間の関係とを使って、学習用音声
    に対してのトラジェクトリを作成する過程と、 上記作成したトラジェクトリからの学習用音声の分散を
    計算して、記憶装置に保存する過程とを備えることを、 特徴とする音声認識用情報作成方法。
  4. 【請求項4】 請求項3記載の音声認識用情報作成方法
    において、 上記トラジェクトリを作成する過程では、ヒドンマルコ
    フモデルを使った音声認識で得られるガウス分布時系列
    を使って、学習用音声に対してのトラジェクトリを作成
    することを、 特徴とする音声認識用情報作成方法。
  5. 【請求項5】 ヒドンマルコフモデルに従って入力音声
    を認識する音声認識装置であって、 入力音声を特徴量分析して静的特徴量及び動的特徴量を
    抽出する手段と、 学習用音声に基づいて作成されたヒドンマルコフモデル
    を記憶する記憶装置を参照することで、入力音声との比
    較対象となるヒドンマルコフモデルを取得して、入力音
    声の音声認識を行い複数個の候補を得る手段と、 上記候補のヒドンマルコフモデルと、上記静的特徴量と
    上記動的特徴量との間の関係とを使って、上記候補に対
    してのトラジェクトリを作成する手段と、 学習用音声に基づいて作成されたトラジェクトリからの
    分散を記憶する記憶装置を参照することで、上記候補の
    トラジェクトリからの分散を取得して、上記候補のトラ
    ジェクトリと入力音声との間のスコアを計算すること
    で、上記候補を再評価する手段とを備えることを、 特徴とする音声認識装置。
  6. 【請求項6】 請求項5記載の音声認識装置において、 上記トラジェクトリを作成する手段は、ヒドンマルコフ
    モデルを使った音声認識で得られるガウス分布時系列を
    使って、上記候補に対してのトラジェクトリを作成する
    ことを、 特徴とする音声認識装置。
  7. 【請求項7】 ヒドンマルコフモデルに従って入力音声
    を認識する音声認識方法であって、 入力音声を特徴量分析して静的特徴量及び動的特徴量を
    抽出する過程と、 学習用音声に基づいて作成されたヒドンマルコフモデル
    を記憶する記憶装置を参照することで、入力音声との比
    較対象となるヒドンマルコフモデルを取得して、入力音
    声の音声認識を行い複数個の候補を得る過程と、 上記候補のヒドンマルコフモデルと、上記静的特徴量と
    上記動的特徴量との間の関係とを使って、上記候補に対
    してのトラジェクトリを作成する過程と、 学習用音声に基づいて作成されたトラジェクトリからの
    分散を記憶する記憶装置を参照することで、上記候補の
    トラジェクトリからの分散を取得して、上記候補のトラ
    ジェクトリと入力音声との間のスコアを計算すること
    で、上記候補を再評価する過程とを備えることを、 特徴とする音声認識方法。
  8. 【請求項8】 請求項7記載の音声認識方法において、 上記トラジェクトリを作成する過程では、ヒドンマルコ
    フモデルを使った音声認識で得られるガウス分布時系列
    を使って、上記候補に対してのトラジェクトリを作成す
    ることを、 特徴とする音声認識方法。
  9. 【請求項9】 請求項3又は4に記載の音声認識用情報
    作成方法の実現に用いられる処理をコンピュータに実行
    させるための音声認識用情報作成プログラム。
  10. 【請求項10】 請求項3又は4に記載の音声認識用情
    報作成方法の実現に用いられる処理をコンピュータに実
    行させるためのプログラムを記録した音声認識用情報作
    成プログラムの記録媒体。
  11. 【請求項11】 請求項7又は8に記載の音声認識方法
    の実現に用いられる処理をコンピュータに実行させるた
    めの音声認識プログラム。
  12. 【請求項12】 請求項3又は4に記載の音声認識方法
    の実現に用いられる処理をコンピュータに実行させるた
    めのプログラムを記録した音声認識プログラムの記録媒
    体。
JP2002071260A 2002-03-15 2002-03-15 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 Pending JP2003271185A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002071260A JP2003271185A (ja) 2002-03-15 2002-03-15 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002071260A JP2003271185A (ja) 2002-03-15 2002-03-15 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2003271185A true JP2003271185A (ja) 2003-09-25

Family

ID=29201584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002071260A Pending JP2003271185A (ja) 2002-03-15 2002-03-15 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2003271185A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009063773A (ja) * 2007-09-05 2009-03-26 Nippon Telegr & Teleph Corp <Ntt> 音声特徴学習装置、音声認識装置、それらの方法、それらのプログラム、それらの記録媒体
JP2010204391A (ja) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 音声信号モデル化方法、信号認識装置及び方法、パラメータ学習装置及び方法、特徴量生成装置及び方法並びにプログラム
JP2011002792A (ja) * 2009-06-22 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、その方法及びプログラム
KR101094763B1 (ko) 2010-01-29 2011-12-16 숭실대학교산학협력단 사용자 인증을 위한 특징벡터 추출장치 및 방법
WO2012063424A1 (ja) * 2010-11-08 2012-05-18 日本電気株式会社 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009063773A (ja) * 2007-09-05 2009-03-26 Nippon Telegr & Teleph Corp <Ntt> 音声特徴学習装置、音声認識装置、それらの方法、それらのプログラム、それらの記録媒体
JP2010204391A (ja) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 音声信号モデル化方法、信号認識装置及び方法、パラメータ学習装置及び方法、特徴量生成装置及び方法並びにプログラム
JP2011002792A (ja) * 2009-06-22 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、その方法及びプログラム
KR101094763B1 (ko) 2010-01-29 2011-12-16 숭실대학교산학협력단 사용자 인증을 위한 특징벡터 추출장치 및 방법
WO2012063424A1 (ja) * 2010-11-08 2012-05-18 日本電気株式会社 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
JPWO2012063424A1 (ja) * 2010-11-08 2014-05-12 日本電気株式会社 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
US9299338B2 (en) 2010-11-08 2016-03-29 Nec Corporation Feature sequence generating device, feature sequence generating method, and feature sequence generating program

Similar Documents

Publication Publication Date Title
US10157610B2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
Arora et al. Automatic speech recognition: a review
CN107615376B (zh) 声音识别装置及计算机程序记录介质
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
AU2013305615B2 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
JP2016065924A (ja) 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
CN105654940B (zh) 一种语音合成方法和装置
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
WO2000014723A1 (en) Speech recognizer
Aggarwal et al. Using Gaussian mixtures for Hindi speech recognition system
Kannadaguli et al. A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
JPWO2005096271A1 (ja) 音声認識装置及び音声認識方法
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
EP1369847B1 (en) Speech recognition method and system
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP2923243B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Ganesh et al. Grapheme Gaussian model and prosodic syllable based Tamil speech recognition system
Kim et al. Deleted strategy for MMI-based HMM training
JP3277522B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060501

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060530