JP2003271185A - 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 - Google Patents
音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体Info
- Publication number
- JP2003271185A JP2003271185A JP2002071260A JP2002071260A JP2003271185A JP 2003271185 A JP2003271185 A JP 2003271185A JP 2002071260 A JP2002071260 A JP 2002071260A JP 2002071260 A JP2002071260 A JP 2002071260A JP 2003271185 A JP2003271185 A JP 2003271185A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- trajectory
- creating
- markov model
- hidden markov
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
より入力音声を認識するときにあって、高精度の音声認
識を実現できるようにすることを目的とする。 【解決手段】学習時には、学習用音声から静的特徴量及
び動的特徴量を抽出し、HMMを学習して記憶装置に保
存し、その学習用音声のHMMと、静的特徴量と動的特
徴量との間の関係とを使って学習用音声に対してのトラ
ジェクトリを作成し、それからの分散を計算して記憶装
置に保存する。認識時には、入力音声から静的特徴量及
び動的特徴量を抽出し、保存されるHMMを使って、入
力音声の音声認識を行い複数個の候補を得て、それらの
候補のHMMと、静的特徴量と動的特徴量との間の関係
とを使って、それらの候補に対してのトラジェクトリを
作成し、保存される分散を参照することで、それらの候
補のトラジェクトリと入力音声との間のスコアを再計算
することで、それらの候補の再評価を行う。
Description
デルによる音声認識で用いられる音声認識用情報を作成
する音声認識用情報作成装置及びその方法と、その音声
認識用情報作成技術により作成された音声認識用情報を
使って、ヒドンマルコフモデルに従って入力音声を認識
する音声認識装置及びその方法と、その音声認識用情報
作成方法の実現に用いられる音声認識用情報作成プログ
ラム及びそのプログラムを記録した記録媒体と、その音
声認識方法の実現に用いられる音声認識プログラム及び
そのプログラムを記録した記録媒体とに関する。
いて説明する。
では、入力された音声は、特徴量抽出部10で、特徴量
(静的特徴量)が計算されるとともに、その動的特徴量
である例えば特徴量の微分係数や2次微分係数が計算さ
れる。
用音声について計算される特徴量及び動的特徴量が音響
モデル学習部11に送られ、音響モデル学習部11は、
例えば特徴量の微分係数と2次微分係数とが動的特徴量
である場合で説明するならば、特徴パターンとして、特
徴量の平均値及び分散と、特徴量の微分係数の平均値及
び分散と、特徴量の2次微分係数の平均値及び分散とを
計算して、例えば音韻で構成される学習用音声に対応付
けて定義されるヒドンマルコフ(HMM)の構造上に保
存することで、HMMデータベース12を構築する。
音声について計算されるこれらの特徴量及び動的特徴量
が音声認識部13に送られ、音声認識部13は、辞書1
4に登録されている認識対象データを順番に1つずつ読
み出して、その読み出した認識対象データの持つ音韻に
対応付けられるHMM(HMMデータベース12に格納
されている)を組み合わせることで、その読み出した認
識対象データのHMMを作成して、その作成したHMM
に対応付けて保存されている平均値及び分散から、入力
音声とその読み出した認識対象データとの間のスコアを
計算して、スコアの高い認識対象データを認識結果とし
て出力する。
リという概念について説明する。
の代表的な特徴量の時系列(パターン)であると考え
る。例えば、DPマッチングのような手法であれば、複
数の話者の発声した時系列であり、HMMの場合は、ビ
タービアルゴリズム(Viterbiアルゴリズム)によって
決まる平均値時系列である。
に、入力音声のスコア計算(距離計算やスコアの計算)
が実行される。HMMでは、ビタービアルゴリズムによ
って平均値時系列であるトラジェクトリを効率よく求め
て、それと入力音声との間のスコアを計算している。
際に、特徴量と特徴量の微分係数との間と、特徴量と特
徴量の2次微分係数との間と、特徴量の微分係数と特徴
量の2次微分係数との間を、それぞれ独立と仮定してい
た。
動的特徴量(例えば、特徴量の微分係数や2次微分係数
など)との間には一定の関係式が成立している。
係式を使っていない。これがために、従来技術に従って
いると、スコアを計算する際に基準となるHMMの平均
値の時系列(トラジェクトリ)がHMMの状態遷移部分
でなめらかではなくなる。
のよい音声認識結果が得られないという問題点があっ
た。また、スコアの計算に必要とされる分散について
も、この平均値を基に計算しているため、この点からし
ても、精度のよい音声認識結果が得られないという問題
点があった。
動的特徴量との間に成立する関係を積極的に利用しなか
った大きな原因は、HMMにおける認識手法であるビタ
ービアルゴリズムにこの関係式を導入することができな
かったからである。
であって、ヒドンマルコフモデルに従って入力音声を認
識するという構成を採るときにあって、音声の持つ静的
特徴量と動的特徴量との間に成立する関係を用いてトラ
ジェクトリを生成することで、高精度の音声認識を実現
できるようにする新たな技術の提供を目的とする。
に、本発明の音声認識用情報作成装置(例えば、本発明
の音声認識装置が学習モードとして動作するときに機能
することで実現される)は、ヒドンマルコフモデルによ
る音声認識で用いられる音声認識用情報を作成するため
に、学習用音声を特徴量分析して静的特徴量及び動的
特徴量を抽出する手段と、静的特徴量及び動的特徴量
からヒドンマルコフモデルを学習して、HMM記憶装置
に保存する手段と、学習したヒドンマルコフモデル
と、静的特徴量と動的特徴量との間の関係とを使って、
学習用音声に対してのトラジェクトリを作成する手段
と、作成したトラジェクトリからの学習用音声の分散
を計算して、分散記憶装置に保存する手段とを備えるよ
うに構成する。
の備える各処理手段はコンピュータプログラムで実現で
きるものであり、このコンピュータプログラムは、半導
体メモリなどの記録媒体に記録して提供することができ
る。
ルコフモデルに従って入力音声を認識するために、入
力音声を特徴量分析して静的特徴量及び動的特徴量を抽
出する手段と、本発明の音声認識用情報作成装置によ
り構築されたHMM記憶装置(学習用音声のヒドンマル
コフモデルを記憶している)を参照することで、入力音
声との比較対象となるヒドンマルコフモデルを取得し
て、入力音声の音声認識を行い複数個の候補を得る手段
と、それらの候補のヒドンマルコフモデルと、静的特
徴量と動的特徴量との間の関係とを使って、それらの候
補に対してのトラジェクトリを作成する手段と、本発
明の音声認識用情報作成装置により構築された分散記憶
装置(学習用音声のトラジェクトリからの学習用音声の
分散を記憶している)を参照することで、それらの候補
のトラジェクトリからの分散を取得して、それらの候補
のトラジェクトリと入力音声との間のスコアを計算する
ことで、それらの候補を再評価する手段とを備えるよう
に構成する。
処理手段はコンピュータプログラムで実現できるもので
あり、このコンピュータプログラムは、半導体メモリな
どの記録媒体に記録して提供することができる。
情報作成装置では、例えば音韻で構成される学習用音声
を特徴量分析して静的特徴量及び動的特徴量を抽出する
と、その抽出した静的特徴量及び動的特徴量から学習用
音声のヒドンマルコフモデルを学習して、HMM記憶装
置に保存する。
コフモデルと、静的特徴量と動的特徴量との間の関係と
を使い、例えばヒドンマルコフモデルを使った音声認識
で得られるガウス分布時系列を使って、学習用音声に対
してのトラジェクトリを作成して、そのトラジェクトリ
からの学習用音声の分散(静的特徴量及び動的特徴量の
分散)を計算し、分散記憶装置に保存する。
と分散記憶装置とを受けて、本発明の音声認識装置は、
入力音声を特徴量分析して静的特徴量及び動的特徴量を
抽出すると、HMM記憶装置に記憶されるヒドンマルコ
フモデルを参照することで、入力音声とのスコア計算の
対象となるヒドンマルコフモデルを取得して、抽出した
静的特徴量及び動的特徴量を使い、それらのヒドンマル
コフモデルと入力音声との間のスコアを計算すること
で、入力音声の音声認識を行い複数個の候補を得る。
デルと、抽出した静的特徴量と動的特徴量との間の関係
とを使い、例えばヒドンマルコフモデルを使った音声認
識で得られるガウス分布時系列を使って、それらの候補
に対してのトラジェクトリを作成する。
参照することで、取得した候補のトラジェクトリからの
分散(静的特徴量及び動的特徴量の分散)を取得して、
その分散と抽出した静的特徴量及び動的特徴量とを使っ
て、それらの候補のトラジェクトリと入力音声との間の
スコアを再計算することで、それらの候補の順位を並べ
替えるなどの再評価を行う。
持つ静的特徴量と動的特徴量との間に成立する関係を考
慮してトラジェクトリを作成することで、従来技術で用
いられていた不連続なHMMの平均値の時系列で構成さ
れる不自然なスコア関数が自然なスコア関数に変換され
ることになり、これにより、高精度の音声認識を実現で
きるようになる。
と動的特徴量との間に成立する関係を考慮して、ヒドン
マルコフモデルからトラジェクトリを作成するという操
作は、いわば、ヒドンマルコフモデルの平均値時系列に
ローパスフィルタ操作を施すことを意味しており、これ
から、本来的には滑らかな動きを示すべきヒドンマルコ
フモデルの平均値時系列について、従来技術に従ってい
ると、あくまで不連続な平均値時系列のものとして取り
扱われるのに対して、本発明によれば、滑らかな動きを
示すものに変換されることになる。
を詳細に説明する。
発明の音声認識装置1が実行する処理の概要について説
明する。
学習モードで動作するときの機能を示しており、図2は
本発明の音声認識装置1が認識モードで動作するときの
機能を示している。
101は音響モデル学習部、102はHMMデータベー
ス、103はトラジェクトリ合成部、104は分散計算
部、105は分散データベース、106は特徴量間関係
式、107は音声認識部、108は辞書、109はトラ
ジェクトリ再合成部、110はスコア再計算部である。
能で実現される学習モードで動作する場合、特徴量抽出
部100で、例えば音韻で構成される学習用音声の特徴
量(静的特徴量)を計算するとともに、その動的特徴量
(以下、説明の便宜上、動的特徴量として、特徴量の微
分係数と特徴量の2次微分係数とを想定する)を計算す
る。
けて、音響モデル学習部101は、特徴パターンとし
て、特徴量の平均値及び分散と、特徴量の微分係数の平
均値及び分散と、特徴量の2次微分係数の平均値及び分
散とを計算して、例えば音韻で構成される学習用音声に
対応付けて定義されるヒドンマルコフ(HMM)の構造
上に保存することで、HMMデータベース102を構築
する。
術で行われている処理と基本的に変わるところはない。
に、トラジェクトリ合成部103は、静的特徴量と動的
特徴量との間に成立する特徴量間関係式106の条件の
基に、学習用音声のHMMから、学習用音声に対しての
トラジェクトリを計算する。
MMの平均値(静的特徴量及び動的特徴量の平均値)の
時系列を基に計算されるが、静的特徴量と動的特徴量と
の間の関係を考慮しているため、HMMの平均値の時系
列のように、不連続ではなくて滑らかなで自然な時系列
となる。
声認識装置1は、このトラジェクトリを基にスコア計算
を行うことにより精度の高い音声認識を実現することに
なるが、このスコア計算を行うためには、トラジェクト
リからの入力特徴量の広がりを表す分散(静的特徴量及
び動的特徴量の分散)をあらかじめ学習用音声を用いて
学習しておく必要がある。
声に対してトラジェクトリが求められると、これらのト
ラジェクトリとそれに対応付けられる学習用音声とか
ら、この分散をHMMの状態毎に計算して分散データベ
ース105に記憶する。
は、学習モードで動作する場合には、図3の処理フロー
に示す処理を実行することで、音声認識のために必要と
なるHMMデータベース102と分散データベース10
5とを作成するように処理するのである。
納する学習用音声ファイル、201は特徴量を格納する
特徴量ファイル、202はトラジェクトリの合成に用い
るトラジェクトリワークファイルである。
示す機能で実現される認識モードで動作する場合、特徴
量抽出部100で、認識対象となる入力音声の特徴量
(静的特徴量)を計算するとともに、その動的特徴量を
計算する。
けて、音声認識部107は、辞書108に登録されてい
る認識対象データを順番に1つずつ読み出して、その読
み出した認識対象データの持つ音韻に対応付けられるH
MM(HMMデータベース102に格納されている)を
組み合わせることで、その読み出した認識対象データの
HMMを作成して、その作成したHMMに対応付けて保
存されている平均値及び分散から、入力音声とその読み
出した認識対象データとの間のスコアを計算して、スコ
アの高い上位複数個の候補を選択する。
ェクトリ再合成部109は、静的特徴量と動的特徴量と
の間に成立する特徴量間関係式106の条件の基に、各
々の候補のHMMから、各々の候補に対してのトラジェ
クトリを計算する。
MMの平均値(静的特徴量及び動的特徴量の平均値)の
時系列を基に計算されるが、静的特徴量と動的特徴量と
の間の関係を考慮しているため、HMMの平均値の時系
列のように、不連続ではなくて滑らかなで自然な時系列
となる。
スコア再計算部110は、これらのトラジェクトリと入
力音声との間のスコアを、分散データベース105に格
納されるトラジェクトリからの分散を使って計算して、
候補の順位を入れ替えて最終結果とする。
は、認識モードで動作する場合には、図4の処理フロー
に示す処理を実行することで、不連続ではなくて滑らか
で自然な時系列となるトラジェクトリを使って、入力音
声の認識処理を実行するように処理するのである。
処理の詳細について説明する。
合成部103の実行するトラジェクトリの生成処理につ
いて詳細に説明する。
量の微分係数時系列、その特徴量の2次微分係数時系列
として、それぞれ、ケプストラムC={c1,c2,...,c
T }、ΔケプストラムΔC={Δc1,Δc2,...,Δ
cT }、Δ2 ケプストラムΔ2 C={Δ2 c1,Δ
2 c2,...,Δ2 cT }というベクトル時系列が与えられ
るとする。
のガウス分布時系列を示し、M={μ1,μ2,...,
μT }、ΔM={Δμ1,Δμ2,...,ΔμT }、Δ2 M=
{Δ2 μ1,Δ2 μ2,...,Δ2 μT }は、それぞれ、その
ガウス分布時系列でのHMMのケプストラムの平均値の
ベクトル時系列、Δケプストラムの平均値のベクトル時
系列、Δ2 ケプストラムの平均値のベクトル時系列を示
すものとする。
{ΔΣ1,ΔΣ2,...,ΔΣT }、Δ2Σ={Δ2 Σ1,Δ2
Σ2,...,Δ2 ΣT }は、それぞれ、HMMのケプストラ
ムの共分散行列(対角共分散行列を仮定)の時系列、Δ
ケプストラムの共分散行列(対角共分散行列を仮定)の
時系列、Δ2 ケプストラムの共分散行列(対角共分散行
列を仮定)の時系列を示すものとする。
と、動的特徴量である2つのΔケプストラム、Δ2 ケプ
ストラムとの間には、下記の〔数1〕式、〔数2〕式に
示すような拘束条件がある(なお、その他の拘束条件を
使っても同様のことが実現できる)。
ズ、b0,b1,b2 はウィンドウサイズによって決まる固
定値である。
識では、音声信号に対して、下記の〔数3〕式が最大に
なるように、入力音声に対するHMMのスコアを計算す
る。この最大化によって、HMMのガウス分布時系列が
求まる。
平均値の時系列は、〔数1〕式および〔数2〕式を満た
すようには選ばれていない。このため、HMMの状態間
での平均値の不連続点が発生するなどといったように、
音声としては不自然な時系列となっていることが多い。
に従い、不自然な平均値時系列を基準にして入力音声時
系列のスコアの計算を行なっている。これでは高い精度
の音声認識を実現できない。
いる手法[参考文献1〜3]を使って、この平均値の時
系列を変形して、滑らかな特徴量時系列を生成するとい
う構成を採っている。 〔参考文献〕 [1]K.Tokuda,T.Kobayashi and S.Imai, "Speech parame
ter generation from HMM using dynamic features・ P
roc.ICASSP,pp.660-663,1995. [2]K.Tokuda,T.Masuko,T.Yamada,T.Kobayashi and S.Im
ai,"An algorithm for speech parameter generation f
rom continuous mixture HMMs with dynamic features
・Proc.Eurospeech,pp.757-760,1995. [3]T.Masuko,K.Tokuda,T.Kobayashi and S.Imai,"Speec
h synthesis from HMMsusing dynamic features・Proc.
ICASSP,pp.389-392,1996. 次に、この音声合成で使われている手法について説明す
る。
と仮定する。この音声合成で使われている手法では、与
えられたガウス分布時系列に対して、〔数2〕式および
〔数3〕式(但し、CをOに置き換える)の条件の下
で、下記の〔数4〕式を最大化するO、ΔO、Δ2 Oを
選ぶことによって、特徴量の時系列を生成するようにし
ている。
を、〔数2〕式および〔数3〕式を用いてOだけで表現
し、下記の〔数5〕式のようにすることで実現できる。
以上が、音声合成で使われている手法である。
Oの時系列を、ここではトラジェクトリと呼ぶ。このト
ラジェクトリは、任意のガウス分布時系列に対して生成
され、元々のHMMの統計量を保ちながら、音声として
の自然性を持つ特徴量時系列となる。
するスコアを、下記の〔数6〕式に示すように定義す
る。
Σ’T }、ΔΣ’={ΔΣ’1,ΔΣ’2,...,Δ
Σ’T }、Δ2 Σ’={Δ2 Σ’1,Δ2 Σ’2,...,Δ2
Σ’T }は、ガウス分布時系列Sに沿ってのトラジェク
トリからの広がりを表す共分散時系列を示す。
成するのに、HMMのガウス分布の時系列が与えられて
いるものとして議論を行った。次に、入力音声が与えら
れたときに、このガウス分布の時系列を求める方法につ
いて述べる。
ウス分布時系列を求めるためには、下記の〔数7〕式で
示すような関数を用いることが必要である。
ある。また、O(S)はガウス分布時系列Sが与えられ
ているときのHMMから出力されるトラジェクトリであ
る。
ためには、可能なガウス分布時系列に対するすべてのO
を求めなければならない。また、ビタービアルゴリズム
などの効率的な探索が実現できないので、膨大な計算量
が必要となる。
られる〔数3〕式のビタービアルゴリズムによって得ら
れるガウス分布時系列を、この最適ガウス分布時系列の
近似として用いることにする。
行する分散の計算処理について詳細に説明する。
リ導入に伴って新しい分散の計算が必要になる。ここで
は、分散は1つのガウス分布で、時刻によらず一定であ
るとする。分散を求めるために、以下に示すビタービ学
習法を採用する。
使用して、〔数1〕式のスコアが最大になるガウス分布
時系列をビタービアルゴリズムにより計算する。 (c)求められたガウス分布時系列からトラジェクトリ
を求める。 (d)ビタービアルゴリズムの結果により、各学習デー
タを各状態ごとにセグメンテーションし、セグメント毎
の小さなデータに分割する。それらのデータを対応する
状態に割り当てる。 (e)各状態毎に、その状態に割り当てられたセグメン
トデータを用いて下記の〔数8〕式に従って分散値を推
定する。 という手順に従って分散を計算する。
に割り当てられたデータの数を示し、ck i はk番目の
長さのデータのi番目のケプストラムを示す。また、o
k iはそのケプストラムに対応するトラジェクトリの値
である。
記の〔数9〕式に従って計算で求めることができるとと
もに、Δ2 Σ’についても、同様の手順に従って下記の
〔数10〕式に従って計算で求めことができる。
ド(図2に示す機能で実現されるモード)で実行する音
声認識処理について詳細に説明する。
は、はじめに、通常のHMMを用いてビタービアルゴリ
ズムによる認識を行い、上位数個の認識候補を出力す
る。
的特徴量と動的特徴量との間の関係とを使って、各々の
候補に対してのトラジェクトリを生成する。
式による再スコアを行う。ここでは、スコアとして、動
的特徴量のスコアに重みをかけるため、〔数6〕式に代
えて下記の〔数11〕式を用いる。
ラムとΔ2 ケプストラムに対するスコアの重みを表す。
った。この実験では、話者独立、タスク独立の認識を行
った。学習データ(学習用音声)として、音響学会の5
03音韻バランス文の不特定話者音声データを用いた。
サンプリングレートを16kHzとし、フレームシフト
を10msとした。このデータを用いて、各状態のガウ
ス分布数が1である環境依存HMMを学習した。
タと同条件で分析した男女各10人による100都市発
声を用いた。αとβとを各々1,2,3,4,5,10
と変化させて、最も認識率の高いものを本発明の認識結
果とした。従来のHMMを用いたスコアについても同様
にαとβとを変化させて認識率が最大になるようにし
た。
認識を行った場合の認識結果として4.1%の認識率(誤
った認識を行った割合)、本発明による認識を行った
場合の認識結果として3.4%の認識率(誤った認識を行
った割合)、従来のHMMを用いて、αとβとを変化
させて認識を行った場合の認識結果として4.0%の認識
率(誤った認識を行った割合)が得られた。
った場合の認識率(誤った認識を行った割合)が一番小
さくなることで確認できたことで、本発明による音声認
識の有効性を検証できた。
5に示すように、不連続なHMMの平均値の系列を基準
とする不自然なスコア関数を用いて音声認識を行うのに
対して、本発明では、静的特徴量と動的特徴量間との間
の関係を用いてトラジェクトリを生成することにより、
図6のように、トラジェクトリを基準とするより自然な
スコア関数と変換され、この自然なスコア関数を用いて
音声認識を行うことになる。
である分散を、〔数8〕式〜〔数11〕式のように計算
することにより、図6で示すような、より広がりの小さ
いスコア関数を実現することができるようになる。
マルコフモデルに従って入力音声を認識するときに、高
い認識を期待できるようになる。
音声の持つ静的特徴量と動的特徴量との間に成立する関
係を考慮してトラジェクトリを作成することで、従来技
術で用いられていた不連続なHMMの平均値の時系列で
構成される不自然なスコア関数が自然なスコア関数に変
換されることになり、これにより、高精度の音声認識を
実現できるようになる。
ある。
ある。
Claims (12)
- 【請求項1】 ヒドンマルコフモデルによる音声認識で
用いられる音声認識用情報を作成する音声認識用情報作
成装置であって、 学習用音声を特徴量分析して静的特徴量及び動的特徴量
を抽出する手段と、 上記静的特徴量及び上記動的特徴量からヒドンマルコフ
モデルを学習して、記憶装置に保存する手段と、 上記学習したヒドンマルコフモデルと、上記静的特徴量
と上記動的特徴量との間の関係とを使って、学習用音声
に対してのトラジェクトリを作成する手段と、 上記作成したトラジェクトリからの学習用音声の分散を
計算して、記憶装置に保存する手段とを備えることを、 特徴とする音声認識用情報作成装置。 - 【請求項2】 請求項1記載の音声認識用情報作成装置
において、 上記トラジェクトリを作成する手段は、ヒドンマルコフ
モデルを使った音声認識で得られるガウス分布時系列を
使って、学習用音声に対してのトラジェクトリを作成す
ることを、 特徴とする音声認識用情報作成装置。 - 【請求項3】 ヒドンマルコフモデルによる音声認識で
用いられる音声認識用情報を作成する音声認識用情報作
成方法であって、 学習用音声を特徴量分析して静的特徴量及び動的特徴量
を抽出する過程と、 上記静的特徴量及び上記動的特徴量からヒドンマルコフ
モデルを学習して、記憶装置に保存する過程と、 上記学習したヒドンマルコフモデルと、上記静的特徴量
と上記動的特徴量との間の関係とを使って、学習用音声
に対してのトラジェクトリを作成する過程と、 上記作成したトラジェクトリからの学習用音声の分散を
計算して、記憶装置に保存する過程とを備えることを、 特徴とする音声認識用情報作成方法。 - 【請求項4】 請求項3記載の音声認識用情報作成方法
において、 上記トラジェクトリを作成する過程では、ヒドンマルコ
フモデルを使った音声認識で得られるガウス分布時系列
を使って、学習用音声に対してのトラジェクトリを作成
することを、 特徴とする音声認識用情報作成方法。 - 【請求項5】 ヒドンマルコフモデルに従って入力音声
を認識する音声認識装置であって、 入力音声を特徴量分析して静的特徴量及び動的特徴量を
抽出する手段と、 学習用音声に基づいて作成されたヒドンマルコフモデル
を記憶する記憶装置を参照することで、入力音声との比
較対象となるヒドンマルコフモデルを取得して、入力音
声の音声認識を行い複数個の候補を得る手段と、 上記候補のヒドンマルコフモデルと、上記静的特徴量と
上記動的特徴量との間の関係とを使って、上記候補に対
してのトラジェクトリを作成する手段と、 学習用音声に基づいて作成されたトラジェクトリからの
分散を記憶する記憶装置を参照することで、上記候補の
トラジェクトリからの分散を取得して、上記候補のトラ
ジェクトリと入力音声との間のスコアを計算すること
で、上記候補を再評価する手段とを備えることを、 特徴とする音声認識装置。 - 【請求項6】 請求項5記載の音声認識装置において、 上記トラジェクトリを作成する手段は、ヒドンマルコフ
モデルを使った音声認識で得られるガウス分布時系列を
使って、上記候補に対してのトラジェクトリを作成する
ことを、 特徴とする音声認識装置。 - 【請求項7】 ヒドンマルコフモデルに従って入力音声
を認識する音声認識方法であって、 入力音声を特徴量分析して静的特徴量及び動的特徴量を
抽出する過程と、 学習用音声に基づいて作成されたヒドンマルコフモデル
を記憶する記憶装置を参照することで、入力音声との比
較対象となるヒドンマルコフモデルを取得して、入力音
声の音声認識を行い複数個の候補を得る過程と、 上記候補のヒドンマルコフモデルと、上記静的特徴量と
上記動的特徴量との間の関係とを使って、上記候補に対
してのトラジェクトリを作成する過程と、 学習用音声に基づいて作成されたトラジェクトリからの
分散を記憶する記憶装置を参照することで、上記候補の
トラジェクトリからの分散を取得して、上記候補のトラ
ジェクトリと入力音声との間のスコアを計算すること
で、上記候補を再評価する過程とを備えることを、 特徴とする音声認識方法。 - 【請求項8】 請求項7記載の音声認識方法において、 上記トラジェクトリを作成する過程では、ヒドンマルコ
フモデルを使った音声認識で得られるガウス分布時系列
を使って、上記候補に対してのトラジェクトリを作成す
ることを、 特徴とする音声認識方法。 - 【請求項9】 請求項3又は4に記載の音声認識用情報
作成方法の実現に用いられる処理をコンピュータに実行
させるための音声認識用情報作成プログラム。 - 【請求項10】 請求項3又は4に記載の音声認識用情
報作成方法の実現に用いられる処理をコンピュータに実
行させるためのプログラムを記録した音声認識用情報作
成プログラムの記録媒体。 - 【請求項11】 請求項7又は8に記載の音声認識方法
の実現に用いられる処理をコンピュータに実行させるた
めの音声認識プログラム。 - 【請求項12】 請求項3又は4に記載の音声認識方法
の実現に用いられる処理をコンピュータに実行させるた
めのプログラムを記録した音声認識プログラムの記録媒
体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002071260A JP2003271185A (ja) | 2002-03-15 | 2002-03-15 | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002071260A JP2003271185A (ja) | 2002-03-15 | 2002-03-15 | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003271185A true JP2003271185A (ja) | 2003-09-25 |
Family
ID=29201584
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002071260A Pending JP2003271185A (ja) | 2002-03-15 | 2002-03-15 | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2003271185A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009063773A (ja) * | 2007-09-05 | 2009-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声特徴学習装置、音声認識装置、それらの方法、それらのプログラム、それらの記録媒体 |
| JP2010204391A (ja) * | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号モデル化方法、信号認識装置及び方法、パラメータ学習装置及び方法、特徴量生成装置及び方法並びにプログラム |
| JP2011002792A (ja) * | 2009-06-22 | 2011-01-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル作成装置、その方法及びプログラム |
| KR101094763B1 (ko) | 2010-01-29 | 2011-12-16 | 숭실대학교산학협력단 | 사용자 인증을 위한 특징벡터 추출장치 및 방법 |
| WO2012063424A1 (ja) * | 2010-11-08 | 2012-05-18 | 日本電気株式会社 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
-
2002
- 2002-03-15 JP JP2002071260A patent/JP2003271185A/ja active Pending
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009063773A (ja) * | 2007-09-05 | 2009-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声特徴学習装置、音声認識装置、それらの方法、それらのプログラム、それらの記録媒体 |
| JP2010204391A (ja) * | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号モデル化方法、信号認識装置及び方法、パラメータ学習装置及び方法、特徴量生成装置及び方法並びにプログラム |
| JP2011002792A (ja) * | 2009-06-22 | 2011-01-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル作成装置、その方法及びプログラム |
| KR101094763B1 (ko) | 2010-01-29 | 2011-12-16 | 숭실대학교산학협력단 | 사용자 인증을 위한 특징벡터 추출장치 및 방법 |
| WO2012063424A1 (ja) * | 2010-11-08 | 2012-05-18 | 日本電気株式会社 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
| JPWO2012063424A1 (ja) * | 2010-11-08 | 2014-05-12 | 日本電気株式会社 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
| US9299338B2 (en) | 2010-11-08 | 2016-03-29 | Nec Corporation | Feature sequence generating device, feature sequence generating method, and feature sequence generating program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10157610B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
| Arora et al. | Automatic speech recognition: a review | |
| CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
| JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
| AU2013305615B2 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
| JP2016065924A (ja) | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 | |
| CN105654940B (zh) | 一种语音合成方法和装置 | |
| KR20050082253A (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
| WO2000014723A1 (en) | Speech recognizer | |
| Aggarwal et al. | Using Gaussian mixtures for Hindi speech recognition system | |
| Kannadaguli et al. | A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker | |
| Devi et al. | Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn | |
| JPWO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
| JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
| JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 | |
| Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
| JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
| EP1369847B1 (en) | Speech recognition method and system | |
| JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
| JP2923243B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
| JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
| Ganesh et al. | Grapheme Gaussian model and prosodic syllable based Tamil speech recognition system | |
| Kim et al. | Deleted strategy for MMI-based HMM training | |
| JP3277522B2 (ja) | 音声認識方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051227 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060228 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060501 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060501 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060530 |