JPH064093A - Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 - Google Patents
Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置Info
- Publication number
- JPH064093A JPH064093A JP4159835A JP15983592A JPH064093A JP H064093 A JPH064093 A JP H064093A JP 4159835 A JP4159835 A JP 4159835A JP 15983592 A JP15983592 A JP 15983592A JP H064093 A JPH064093 A JP H064093A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- hmm
- label
- state
- probability density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】
【目的】 高い精度でしかも計算量を少なく、HMMを
利用して認識を行う装置の提供。 【構成】 ベクトル系列からなる訓練パターンの各々の
ベクトルをベクトル量子化し、ベクトルをそれが属する
クラスタのラベルの系列に変換するベクトル量子化手段
105と、ラベル系列の各ラベルに対応する量子化ベク
トルの系列から連続分布確率密度HMMを作成する連続
分布確率密度HMM作成手段107と、クラスタの同一
のものに属する訓練ベクトルと連続分布確率密度HMM
から、各状態におけるラベルの発生度合を算出するラベ
ル発生度合算出手段109とを備える。
利用して認識を行う装置の提供。 【構成】 ベクトル系列からなる訓練パターンの各々の
ベクトルをベクトル量子化し、ベクトルをそれが属する
クラスタのラベルの系列に変換するベクトル量子化手段
105と、ラベル系列の各ラベルに対応する量子化ベク
トルの系列から連続分布確率密度HMMを作成する連続
分布確率密度HMM作成手段107と、クラスタの同一
のものに属する訓練ベクトルと連続分布確率密度HMM
から、各状態におけるラベルの発生度合を算出するラベ
ル発生度合算出手段109とを備える。
Description
【0001】
【産業上の利用分野】音声認識等のパターン認識に適用
可能な新しいHMM(ヒト゛ン マルコフ モテ゛ル(Hidden Markov
Model))のHMM作成装置、HMM記憶装置、尤度計
算装置及び、認識装置に関するものである。
可能な新しいHMM(ヒト゛ン マルコフ モテ゛ル(Hidden Markov
Model))のHMM作成装置、HMM記憶装置、尤度計
算装置及び、認識装置に関するものである。
【0002】
【従来の技術】HMMは一般の時系列信号処理分野に適
用可能なものであるが、説明の便宜のために、以下、音
声認識を例にとって説明する。
用可能なものであるが、説明の便宜のために、以下、音
声認識を例にとって説明する。
【0003】先ずHMMを用いた音声認識装置について
説明する。
説明する。
【0004】図3は、HMMを用いた音声認識装置のブ
ロック図である。音声分析部201は、入力音声信号を
フィルタバンク、フーリエ変換、LPC分析等の周知の
方法により、一定時間間隔(フレームと呼ぶ)例えば1
0msec毎に特徴ベクトルに変換する。従って、入力音声
信号は特徴ベクトルの系列Y=(y(1),y(2),・・・,y
(T))に変換される。Tはフレーム数である。コードブ
ック202は、ラベル付けされた代表ベクトルを保持し
ている。ベクトル量子化部203は、前記ベクトル系列
Yのそれぞれのベクトルをそれに最も近い前記コードブ
ック202に登録されている代表ベクトルに対応するラ
ベルに置き換えるものである。HMM作成部204は、
訓練データから認識語彙たる各単語に対応するHMMを
作成するものである。即ち、単語vに対応するHMMを
作るには、先ず、HMMの構造(状態数やそれら状態の
間に許される遷移規則)を適当に定め、然る後に前記の
如くして単語vを多数回発声して得られたラベル系列か
ら、それらラベル系列の発生確率が出来るだけ高くなる
ように、前記モデルにおける状態遷移確率や状態の遷移
に伴って発生するラベルの発生確率を求めるものであ
る。HMM記憶部205は、このようにして得られたH
MMを各単語毎に記憶するものである。尤度計算部20
6は、認識すべき未知入力音声のラベル系列に対し、前
記HMM記憶部205に記憶されているそれぞれのモデ
ルのそのラベル系列に対する尤度を計算するものであ
る。比較判定部207は尤度計算部206で得られた前
記それぞれのモデルの尤度の最大値を与えるモデルに対
応する単語を認識結果として判定するものである。
ロック図である。音声分析部201は、入力音声信号を
フィルタバンク、フーリエ変換、LPC分析等の周知の
方法により、一定時間間隔(フレームと呼ぶ)例えば1
0msec毎に特徴ベクトルに変換する。従って、入力音声
信号は特徴ベクトルの系列Y=(y(1),y(2),・・・,y
(T))に変換される。Tはフレーム数である。コードブ
ック202は、ラベル付けされた代表ベクトルを保持し
ている。ベクトル量子化部203は、前記ベクトル系列
Yのそれぞれのベクトルをそれに最も近い前記コードブ
ック202に登録されている代表ベクトルに対応するラ
ベルに置き換えるものである。HMM作成部204は、
訓練データから認識語彙たる各単語に対応するHMMを
作成するものである。即ち、単語vに対応するHMMを
作るには、先ず、HMMの構造(状態数やそれら状態の
間に許される遷移規則)を適当に定め、然る後に前記の
如くして単語vを多数回発声して得られたラベル系列か
ら、それらラベル系列の発生確率が出来るだけ高くなる
ように、前記モデルにおける状態遷移確率や状態の遷移
に伴って発生するラベルの発生確率を求めるものであ
る。HMM記憶部205は、このようにして得られたH
MMを各単語毎に記憶するものである。尤度計算部20
6は、認識すべき未知入力音声のラベル系列に対し、前
記HMM記憶部205に記憶されているそれぞれのモデ
ルのそのラベル系列に対する尤度を計算するものであ
る。比較判定部207は尤度計算部206で得られた前
記それぞれのモデルの尤度の最大値を与えるモデルに対
応する単語を認識結果として判定するものである。
【0005】このHMMによる認識は具体的には次のよ
うにして行われる。即ち、未知入力に対して得られたラ
ベル系列をO=(o(1),o(2),・・・,o(T))、単語vに
対応したモデルをλvとし、モデルλvにより発生される
長さTの任意の状態系列を1、X=(x(1),x(2),・・
・,x(T))とするとき、λvのラベル系列Oに対する尤度
は 〔厳密解〕
うにして行われる。即ち、未知入力に対して得られたラ
ベル系列をO=(o(1),o(2),・・・,o(T))、単語vに
対応したモデルをλvとし、モデルλvにより発生される
長さTの任意の状態系列を1、X=(x(1),x(2),・・
・,x(T))とするとき、λvのラベル系列Oに対する尤度
は 〔厳密解〕
【0006】
【数1】
【0007】〔近似解〕
【0008】
【数2】
【0009】または、対数をとって
【0010】
【数3】
【0011】で定義される。ここで、P(x,y|λv)
は、モデルλvにおけるx,yの同時確率である。
は、モデルλvにおけるx,yの同時確率である。
【0012】従って、例えば、(数1)を用いれば
【0013】
【数4】
【0014】とするとき、v^が認識結果となる。(数
2),(数3)を用いるときも同様である。
2),(数3)を用いるときも同様である。
【0015】P(O,X|λ) は次のようにして求められ
る。
る。
【0016】いま、HMMλの状態qi(i=1〜I)に
対して、状態qi毎に、ラベルoの発生確率bi(o)と状
態qi(i=1〜I)から状態qj(j=1〜I+1)への遷
移確率aijが与えられているとき、状態系列X=(x
(1),x(2),・・・,x(T+1))とラベル系列O=(o
(1),o(2),・・・,o(T))のHMMλから発生する同時
確率は
対して、状態qi毎に、ラベルoの発生確率bi(o)と状
態qi(i=1〜I)から状態qj(j=1〜I+1)への遷
移確率aijが与えられているとき、状態系列X=(x
(1),x(2),・・・,x(T+1))とラベル系列O=(o
(1),o(2),・・・,o(T))のHMMλから発生する同時
確率は
【0017】
【数5】
【0018】と定義出来る。ここでπx(1)は状態x(1)
の初期確率である。また、x(T+1)=I+1は最終状
態であって、如何なるラベルも発生しないとする。
の初期確率である。また、x(T+1)=I+1は最終状
態であって、如何なるラベルも発生しないとする。
【0019】この例では入力の特徴ベクトルyをラベル
に変換したが、各状態におけるラベルの発生確率の代り
に特徴ベクトルyをそのまま用い、各状態において特徴
ベクトルyの確率密度関数を与える方法もある。このと
きは(数5)における前記ラベルoの状態qiにおける
発生確率bi(o) の代わりに特徴ベクトルyの確率密度
bi(y)を用いることになる(以後、zがラベルのとき
はbi(z)はzが状態iにおいて生じる確率、zがベク
トルのときはbi(z)はzの確率密度を意味するものと
する)。このときは、前記(数1)、(数2)、(数
3)は次のようになる。 〔厳密解〕
に変換したが、各状態におけるラベルの発生確率の代り
に特徴ベクトルyをそのまま用い、各状態において特徴
ベクトルyの確率密度関数を与える方法もある。このと
きは(数5)における前記ラベルoの状態qiにおける
発生確率bi(o) の代わりに特徴ベクトルyの確率密度
bi(y)を用いることになる(以後、zがラベルのとき
はbi(z)はzが状態iにおいて生じる確率、zがベク
トルのときはbi(z)はzの確率密度を意味するものと
する)。このときは、前記(数1)、(数2)、(数
3)は次のようになる。 〔厳密解〕
【0020】
【数6】
【0021】〔近似解〕
【0022】
【数7】
【0023】または、対数をとれば次式が得られる。
【0024】
【数8】
【0025】以上、何れの方式を用いるにしても最終的
な認識結果は、それぞれの単語vに対してHMMλvを
v=1〜V について準備しておけば、入力音声信号Y
に対して
な認識結果は、それぞれの単語vに対してHMMλvを
v=1〜V について準備しておけば、入力音声信号Y
に対して
【0026】
【数9】
【0027】あるいは
【0028】
【数10】
【0029】がYの認識結果となる。勿論、ここでのY
は前記それぞれ方法に応じて、入力されたラベル系列、
特徴ベクトル系列等である。
は前記それぞれ方法に応じて、入力されたラベル系列、
特徴ベクトル系列等である。
【0030】
【発明が解決しようとする課題】このような従来例にお
いて、入力特徴ベクトルをラベルに変換するものを離散
確率分布HMM、入力特徴ベクトルをそのまま用いるも
のを連続確率分布HMMと、以下呼ぶこととする。この
とき、これら両者の特徴は次のとうりである。
いて、入力特徴ベクトルをラベルに変換するものを離散
確率分布HMM、入力特徴ベクトルをそのまま用いるも
のを連続確率分布HMMと、以下呼ぶこととする。この
とき、これら両者の特徴は次のとうりである。
【0031】離散確率分布HMMは、入力ラベル系列に
対するモデルの尤度の計算において、各状態での各ラベ
ルの発生度合bi(Cm)はラベルに関連して予め記憶され
ている記憶装置から読み出すことで実行できるから計算
量が非常に少ないと言う利点がある反面、量子化に伴う
誤差のため、認識精度が悪くなると言う課題がある。こ
れを避けるためにラベル数(クラスタ数)を多くする必
要があるが、その増加に伴ってモデルを学習するために
必要な学習パターン数が膨大になる。ここで、学習パタ
ーン数が不十分な場合は、前記bi(Cm)が頻繁に0にな
ることがあり、正しい推定が出来なくなる。例えば、次
のようなことが生じる。
対するモデルの尤度の計算において、各状態での各ラベ
ルの発生度合bi(Cm)はラベルに関連して予め記憶され
ている記憶装置から読み出すことで実行できるから計算
量が非常に少ないと言う利点がある反面、量子化に伴う
誤差のため、認識精度が悪くなると言う課題がある。こ
れを避けるためにラベル数(クラスタ数)を多くする必
要があるが、その増加に伴ってモデルを学習するために
必要な学習パターン数が膨大になる。ここで、学習パタ
ーン数が不十分な場合は、前記bi(Cm)が頻繁に0にな
ることがあり、正しい推定が出来なくなる。例えば、次
のようなことが生じる。
【0032】コードブックの作成は、認識すべき全ての
単語について多数の話者の発声音声を特徴ベクトル系列
に変換し、この特徴ベクトルの集合をクラスタリング
し、それぞれのクラスタにラベリングすることによって
行われる。それぞれのクラスタは、セントロイドと呼ば
れるそのクラスタの代表ベクトルを持ち、通常これは各
々のクラスタに分類されたベクトルの期待値である。コ
ードブックは、これらセントロイドを前記ラベルで検索
可能な形で記憶したものである。
単語について多数の話者の発声音声を特徴ベクトル系列
に変換し、この特徴ベクトルの集合をクラスタリング
し、それぞれのクラスタにラベリングすることによって
行われる。それぞれのクラスタは、セントロイドと呼ば
れるそのクラスタの代表ベクトルを持ち、通常これは各
々のクラスタに分類されたベクトルの期待値である。コ
ードブックは、これらセントロイドを前記ラベルで検索
可能な形で記憶したものである。
【0033】いま、前記認識語彙の中に、例えば「大
阪」と言う単語があって、これに対応するモデルを作る
場合を考える。多数話者が発声した単語「大阪」に対応
する音声サンプルが特徴ベクトル列に変換され、各々の
特徴ベクトルが前記セントロイドと比較され、最近隣の
セントロイドに対応するラベルがその特徴ベクトルの量
子化されたものとなる。このようにして、前記「大阪」
に対する各々の音声サンプルは、ラベル系列に変換され
る。得られたラベル系列から、それらラベル系列に対す
る尤度が最大になるようにHMMのパラメータを推定す
ることにより、単語「大阪」に対応するモデルが出来上
がる。この推定には周知のホ゛ーム・ウェルチ(Baum-Welch)法等
が用いられ得る。
阪」と言う単語があって、これに対応するモデルを作る
場合を考える。多数話者が発声した単語「大阪」に対応
する音声サンプルが特徴ベクトル列に変換され、各々の
特徴ベクトルが前記セントロイドと比較され、最近隣の
セントロイドに対応するラベルがその特徴ベクトルの量
子化されたものとなる。このようにして、前記「大阪」
に対する各々の音声サンプルは、ラベル系列に変換され
る。得られたラベル系列から、それらラベル系列に対す
る尤度が最大になるようにHMMのパラメータを推定す
ることにより、単語「大阪」に対応するモデルが出来上
がる。この推定には周知のホ゛ーム・ウェルチ(Baum-Welch)法等
が用いられ得る。
【0034】この場合、前記コードブックにあるラベル
の中で、単語「大阪」に対応する学習ラベル系列の中に
は含まれていないものが有り得る。この含まれていない
ラベルの発生確率は学習の過程で“0”と推定されてし
まう。従って、認識の時に発声される「大阪」と言う単
語が変換されたラベル系列の中に、前記「大阪」のモデ
ルの作成に用いたラベル系列には含まれていないラベル
が存在することは十分有り得る。この場合は、この認識
時に発声された「大阪」のラベル系列が前記「大阪」の
モデルから発生する確率は“0”になってしまう。しか
し、このような場合でも、ラベルとしては異なっていて
も、ラベルに変換される前の特徴ベクトルの段階ではモ
デルの学習に用いた音声サンプルとかなり近く、ベクト
ルの段階で見れば十分「大阪」と認識されても良い場合
がある。もともと同じ単語を発声しているのであるから
ベクトルのレベルでは似通っているにも関わらず、ラベ
ルのレベルでは僅かの差で全く異なったラベルに変換さ
れてしまうということは十分起こり得るのであって、こ
のようなことが認識精度に悪影響を及ぼすことは容易に
想像がつく。クラスタ数が増加する程、訓練データ数が
少ない程このような問題は頻繁に生じることになる。
の中で、単語「大阪」に対応する学習ラベル系列の中に
は含まれていないものが有り得る。この含まれていない
ラベルの発生確率は学習の過程で“0”と推定されてし
まう。従って、認識の時に発声される「大阪」と言う単
語が変換されたラベル系列の中に、前記「大阪」のモデ
ルの作成に用いたラベル系列には含まれていないラベル
が存在することは十分有り得る。この場合は、この認識
時に発声された「大阪」のラベル系列が前記「大阪」の
モデルから発生する確率は“0”になってしまう。しか
し、このような場合でも、ラベルとしては異なっていて
も、ラベルに変換される前の特徴ベクトルの段階ではモ
デルの学習に用いた音声サンプルとかなり近く、ベクト
ルの段階で見れば十分「大阪」と認識されても良い場合
がある。もともと同じ単語を発声しているのであるから
ベクトルのレベルでは似通っているにも関わらず、ラベ
ルのレベルでは僅かの差で全く異なったラベルに変換さ
れてしまうということは十分起こり得るのであって、こ
のようなことが認識精度に悪影響を及ぼすことは容易に
想像がつく。クラスタ数が増加する程、訓練データ数が
少ない程このような問題は頻繁に生じることになる。
【0035】この課題を除去するためには、訓練集合に
は現れてこない(含まれていない)ラベルに対して、平
滑化や補完を行う等の工夫が必要となる。「結び」と呼
ばれる概念を用いてパラメータ数を減少させる工夫をは
じめとして、0確率が推定される場合はそれを0にせず
に微小量に置き換えたり、ファジイベクトル量子化等の
ようにクラスタの境界をぼかしたりする方法等、平滑化
や補完を行う方法が種々提案されているが、何れも上記
問題を根本的に解決するものではない。また、場合に応
じて経験的に決めなければならない要素があって、それ
らの要素を決める理論的な指標はない。
は現れてこない(含まれていない)ラベルに対して、平
滑化や補完を行う等の工夫が必要となる。「結び」と呼
ばれる概念を用いてパラメータ数を減少させる工夫をは
じめとして、0確率が推定される場合はそれを0にせず
に微小量に置き換えたり、ファジイベクトル量子化等の
ようにクラスタの境界をぼかしたりする方法等、平滑化
や補完を行う方法が種々提案されているが、何れも上記
問題を根本的に解決するものではない。また、場合に応
じて経験的に決めなければならない要素があって、それ
らの要素を決める理論的な指標はない。
【0036】他方、連続確率分布HMMは、分布形状は
正規分布等と予め関数の形で与えておき、学習データか
らこの関数を規定するパラメータを推定するものであ
る。従って、推定すべきパラメータ数は少なく、前記離
散型のものに比べて少ない学習パターンで精度良くパラ
メータの推定が出来、平滑化や補完を考える必要もなく
なり、一般に離散型よりも高い認識率の得られることが
報告されている。
正規分布等と予め関数の形で与えておき、学習データか
らこの関数を規定するパラメータを推定するものであ
る。従って、推定すべきパラメータ数は少なく、前記離
散型のものに比べて少ない学習パターンで精度良くパラ
メータの推定が出来、平滑化や補完を考える必要もなく
なり、一般に離散型よりも高い認識率の得られることが
報告されている。
【0037】因に、離散型と連続型とで、図4のような
4状態3ループのHMMにおけるパラメータ数を比較す
れば例えば次のようになる。離散型の場合は用いられる
ラベルの種類を256とすれば、ラベルの発生確率は2
56×3=768、遷移確率は6の計874が1モデル
当り必要である。連続型の場合は10次元の正規分布と
すれば、平均ベクトルは10×3=30、分散共分散行
列は55×3=165(∵対称行列)、遷移確率は6の
計201となり、推定すべきパラメータの値は、連続型
は離散型の1/4以下となる。
4状態3ループのHMMにおけるパラメータ数を比較す
れば例えば次のようになる。離散型の場合は用いられる
ラベルの種類を256とすれば、ラベルの発生確率は2
56×3=768、遷移確率は6の計874が1モデル
当り必要である。連続型の場合は10次元の正規分布と
すれば、平均ベクトルは10×3=30、分散共分散行
列は55×3=165(∵対称行列)、遷移確率は6の
計201となり、推定すべきパラメータの値は、連続型
は離散型の1/4以下となる。
【0038】しかしながら、連続型は認識精度の点で優
れているが計算量は離散型に比べて非常に多くなるとい
う問題がある。即ち、入力特徴ベクトルy(t)が、状態
iで平均ベクトルμi、分散共分散行列Σiの正規分布を
するとするき、状態iにおけるy(t)の発生確率(密
度)の計算には(y(t)−μi)TΣi -1(y(t)−μi)なる
計算を必要とし、例えば、10次元の連続型のHMMで
は、この計算だけでも110回のかけ算が必要であり、
1つのモデルに対しては、これの(状態数×入力フレー
ム数)倍になる。従って、入力フレーム数が50フレー
ムの場合で前記モデルを想定すれば、1つのモデル当り
必要とされる(y(t)−μi)TΣi -1(y(t)−μi)の計算
における掛算の回数は、110×3×50=16500
となり、単語数が500であるとさらにこれが500倍
される。即ち、その場合はこの部分の掛け算のみで82
5万回が必要となる。
れているが計算量は離散型に比べて非常に多くなるとい
う問題がある。即ち、入力特徴ベクトルy(t)が、状態
iで平均ベクトルμi、分散共分散行列Σiの正規分布を
するとするき、状態iにおけるy(t)の発生確率(密
度)の計算には(y(t)−μi)TΣi -1(y(t)−μi)なる
計算を必要とし、例えば、10次元の連続型のHMMで
は、この計算だけでも110回のかけ算が必要であり、
1つのモデルに対しては、これの(状態数×入力フレー
ム数)倍になる。従って、入力フレーム数が50フレー
ムの場合で前記モデルを想定すれば、1つのモデル当り
必要とされる(y(t)−μi)TΣi -1(y(t)−μi)の計算
における掛算の回数は、110×3×50=16500
となり、単語数が500であるとさらにこれが500倍
される。即ち、その場合はこの部分の掛け算のみで82
5万回が必要となる。
【0039】離散型の場合は、ベクトル量子化の計算を
完了すれば、前記のようにラベルに従って記憶装置から
そのラベルの発生確率を読み出すのみでよい。また、y
(t)をベクトル量子化するのに必要な計算は、前記の例
では、256個の代表ベクトルとy(t)との距離あるい
は類似度の計算である。距離を(ユークリッド距離)2と
する場合は、y(t)をラベル付けするのに必要な計算
は、10回の引算と10回の掛算と10回の足算の25
6倍である。従って50フレームでは、掛算のみで考え
れば、10×256×50=128000回と言うこと
になる。もし、バイナリサーチと呼ばれる方法でベクト
ル量子化する場合は、前記256は2log2256=16
でおきかえて、10×16×50=8000回と言うこ
とになる。
完了すれば、前記のようにラベルに従って記憶装置から
そのラベルの発生確率を読み出すのみでよい。また、y
(t)をベクトル量子化するのに必要な計算は、前記の例
では、256個の代表ベクトルとy(t)との距離あるい
は類似度の計算である。距離を(ユークリッド距離)2と
する場合は、y(t)をラベル付けするのに必要な計算
は、10回の引算と10回の掛算と10回の足算の25
6倍である。従って50フレームでは、掛算のみで考え
れば、10×256×50=128000回と言うこと
になる。もし、バイナリサーチと呼ばれる方法でベクト
ル量子化する場合は、前記256は2log2256=16
でおきかえて、10×16×50=8000回と言うこ
とになる。
【0040】以上のように離散型とすることにより計算
量が著しく減少し、連続型の場合は認識単語数が増える
と計算量もそれに比例して増大するが、離散型の場合
は、入力音声信号を一旦ベクトル量子化するときのみこ
の計算が必要なのであって、認識単語数が増えてもこの
計算量は不変である。
量が著しく減少し、連続型の場合は認識単語数が増える
と計算量もそれに比例して増大するが、離散型の場合
は、入力音声信号を一旦ベクトル量子化するときのみこ
の計算が必要なのであって、認識単語数が増えてもこの
計算量は不変である。
【0041】要するに、離散型の場合は計算量は少ない
が認識精度的に課題があり、連続型の場合は認識精度は
よいが計算量に課題がある。
が認識精度的に課題があり、連続型の場合は認識精度は
よいが計算量に課題がある。
【0042】本発明は、このような従来のHMMの課題
を考慮し、認識精度が高く、しかも計算量を少なくでき
るHMM作成装置、HMM記憶装置、尤度計算装置及
び、認識装置を提供することを目的とする。
を考慮し、認識精度が高く、しかも計算量を少なくでき
るHMM作成装置、HMM記憶装置、尤度計算装置及
び、認識装置を提供することを目的とする。
【0043】
【課題を解決するための手段】本発明はのHMM作成装
置は、ベクトル系列からなる訓練パターンの各々のベク
トルをベクトル量子化し、該ベクトルをそれが属するク
ラスタのラベルの系列に変換するベクトル量子化手段
と、該ラベル系列の各ラベルに対応する量子化ベクトル
の系列から連続分布確率密度HMMを作成する連続分布
確率密度HMM作成手段と、クラスタの同一のものに属
する訓練ベクトルと連続分布確率密度HMMから、各状
態におけるラベルの発生度合を算出する手段とを備え
る。
置は、ベクトル系列からなる訓練パターンの各々のベク
トルをベクトル量子化し、該ベクトルをそれが属するク
ラスタのラベルの系列に変換するベクトル量子化手段
と、該ラベル系列の各ラベルに対応する量子化ベクトル
の系列から連続分布確率密度HMMを作成する連続分布
確率密度HMM作成手段と、クラスタの同一のものに属
する訓練ベクトルと連続分布確率密度HMMから、各状
態におけるラベルの発生度合を算出する手段とを備え
る。
【0044】また、本発明の尤度計算装置は、入力パタ
ーンを構成する特徴ベクトル系列の各ベクトルをラベル
に置き換えることにより、ベクトル系列をラベル系列に
変換するベクトル量子化手段と、HMM作成装置で作成
されたHMMの各状態におけるラベルの発生度合から、
該HMMの入力パターンに対する尤度を計算する手段を
備える。
ーンを構成する特徴ベクトル系列の各ベクトルをラベル
に置き換えることにより、ベクトル系列をラベル系列に
変換するベクトル量子化手段と、HMM作成装置で作成
されたHMMの各状態におけるラベルの発生度合から、
該HMMの入力パターンに対する尤度を計算する手段を
備える。
【0045】
【作用】本発明のHMM作成装置では、ベクトル量子化
手段によってベクトル系列からなる訓練パターンの各々
のベクトルをベクトル量子化し、該ベクトルをそれが属
するクラスタのラベルの系列に変換し、連続分布確率密
度HMM作成手段によってラベル系列の各ラベルに対応
する量子化ベクトルの系列から連続分布確率密度HMM
を作成し、クラスタの同一のものに属する訓練ベクトル
と連続分布確率密度HMMから、各状態におけるラベル
の発生度合を算出する。
手段によってベクトル系列からなる訓練パターンの各々
のベクトルをベクトル量子化し、該ベクトルをそれが属
するクラスタのラベルの系列に変換し、連続分布確率密
度HMM作成手段によってラベル系列の各ラベルに対応
する量子化ベクトルの系列から連続分布確率密度HMM
を作成し、クラスタの同一のものに属する訓練ベクトル
と連続分布確率密度HMMから、各状態におけるラベル
の発生度合を算出する。
【0046】また、本発明の尤度計算装置では、ベクト
ル量子化手段入力によって、パターンを構成する特徴ベ
クトル系列の各ベクトルをラベルに置き換えることによ
り、ベクトル系列をラベル系列に変換し、HMM作成装
置で作成されたHMMの各状態におけるラベルの発生度
合から、該HMMの入力パターンに対する尤度を計算す
る。
ル量子化手段入力によって、パターンを構成する特徴ベ
クトル系列の各ベクトルをラベルに置き換えることによ
り、ベクトル系列をラベル系列に変換し、HMM作成装
置で作成されたHMMの各状態におけるラベルの発生度
合から、該HMMの入力パターンに対する尤度を計算す
る。
【0047】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。
て説明する。
【0048】ここで、以後用いる記号の定義をまとめて
説明する。簡単のために、誤解を生じない限り、状態q
i,qj等は単にi,j等と表記することにする。また、
モデルの学習は単語vについて行う場合を述べることと
し、区別する必要のある場合はパラメータの右肩に添字
vを付加し、通常はこれを省くものとする。以下の通り
である。
説明する。簡単のために、誤解を生じない限り、状態q
i,qj等は単にi,j等と表記することにする。また、
モデルの学習は単語vについて行う場合を述べることと
し、区別する必要のある場合はパラメータの右肩に添字
vを付加し、通常はこれを省くものとする。以下の通り
である。
【0049】i=1,2,・・・,I+1:第i番の状態 [aij]:遷移マトリクス aij:状態iから状態jへの遷移確率 r:単語vに対する訓練パターン番号(r=1,・・・,R) y(r)(t):訓練パターンrの第tフレームにおける観
測ベクトル o(r)(t):訓練パターンrの第tフレームにおける観
測ラベル bi(y(r)(t)):訓練パターンrのフレームtの観測ベ
クトルy(r)(t)の状態iにおける確率密度 bi(o(r)(t)):訓練パターンrのフレームtの観測ラ
ベルo(r)(t)の状態iにおける発生度合(確率、確率
密度、等) y(r)=(y(r)(1),y(r)(2),・・・,y(r)(T(r))):訓
練パターンrのベクトル系列(ただし、r=1,2,・・・,
R) O(r)=(o(r)(1),o(r)(2),・・・,o(r)(T(r))):単
語vに対する第r番のラベル系列(ただし、r=1,2,・
・・,R) X(r)=(x(r)(1),x(r)(2),・・・,x(r)(T(r)),x(r)
(T(r)+1)):X(r)またはO(r)に対応する状態系列 x(r)(t):単語vに対する第r番の訓練パターンの第
tフレームにおける状態 T(r):単語vに対する第r番の訓練パターンのフレー
ム数 μi:bi(y)の平均ベクトル Σi:bi(y)の分散共分散行列 ξi:状態iにおける観測ベクトルの確率分布を規定す
るパラメータの集合 (ξi={μi,Σi}) λi=[ξi,{aij}j=1,・・・,I+1 ]:状態iのパラメー
タの集合 λ={λi}:全パラメータの集合(λをパラメータとする
モデルをモデルλとも呼ぶ) P(Y|λ):観測ベクトル系列Yがモデルλから発生す
る確率密度 P(O|λ):観測ラベル系列Oがモデルλから発生する
確率 πi:状態iがt=1で生じる確率 先ず、単語vに対応する連続確率分布HMMを学習する
方法について述べる。
測ベクトル o(r)(t):訓練パターンrの第tフレームにおける観
測ラベル bi(y(r)(t)):訓練パターンrのフレームtの観測ベ
クトルy(r)(t)の状態iにおける確率密度 bi(o(r)(t)):訓練パターンrのフレームtの観測ラ
ベルo(r)(t)の状態iにおける発生度合(確率、確率
密度、等) y(r)=(y(r)(1),y(r)(2),・・・,y(r)(T(r))):訓
練パターンrのベクトル系列(ただし、r=1,2,・・・,
R) O(r)=(o(r)(1),o(r)(2),・・・,o(r)(T(r))):単
語vに対する第r番のラベル系列(ただし、r=1,2,・
・・,R) X(r)=(x(r)(1),x(r)(2),・・・,x(r)(T(r)),x(r)
(T(r)+1)):X(r)またはO(r)に対応する状態系列 x(r)(t):単語vに対する第r番の訓練パターンの第
tフレームにおける状態 T(r):単語vに対する第r番の訓練パターンのフレー
ム数 μi:bi(y)の平均ベクトル Σi:bi(y)の分散共分散行列 ξi:状態iにおける観測ベクトルの確率分布を規定す
るパラメータの集合 (ξi={μi,Σi}) λi=[ξi,{aij}j=1,・・・,I+1 ]:状態iのパラメー
タの集合 λ={λi}:全パラメータの集合(λをパラメータとする
モデルをモデルλとも呼ぶ) P(Y|λ):観測ベクトル系列Yがモデルλから発生す
る確率密度 P(O|λ):観測ラベル系列Oがモデルλから発生する
確率 πi:状態iがt=1で生じる確率 先ず、単語vに対応する連続確率分布HMMを学習する
方法について述べる。
【0050】問題は、単語vについて準備されたr=1
〜Rの訓練パターンに対して尤度関数P(Y(1),Y(2),
・・・,Y(R)|λ)を最大にするパラメータλを推定するこ
とである。
〜Rの訓練パターンに対して尤度関数P(Y(1),Y(2),
・・・,Y(R)|λ)を最大にするパラメータλを推定するこ
とである。
【0051】Y(r)が互いに独立であるとすれば
【0052】
【数11】
【0053】で与えられる。ここで、次の補助関数Q
(λ,λ')を定義する。
(λ,λ')を定義する。
【0054】
【数12】
【0055】このとき、次のことが言える。Q(λ,λ')
≧Q(λ,λ)なら、P(Y(1),…,Y(R)|λ')≧P(Y(1),
…,Y(R)|λ)であって、等号はλ'=λの時に成り立
つ。故に、
≧Q(λ,λ)なら、P(Y(1),…,Y(R)|λ')≧P(Y(1),
…,Y(R)|λ)であって、等号はλ'=λの時に成り立
つ。故に、
【0056】
【数13】
【0057】を求めることが出来れば、λ*→λとして
(数13)を繰り返し適用することによって、λはP
(Y(1),…,Y(R)|λ)の停留点、即ち、P(Y(1),…,Y
(R)|λ)の極大値または鞍点を与える点に収束すること
になり、P(Y(1),…,Y(R)|λ)の変化率が予め定めた
閾値以下になるまでこの操作を繰り返すことにより局所
最適解が得られる。
(数13)を繰り返し適用することによって、λはP
(Y(1),…,Y(R)|λ)の停留点、即ち、P(Y(1),…,Y
(R)|λ)の極大値または鞍点を与える点に収束すること
になり、P(Y(1),…,Y(R)|λ)の変化率が予め定めた
閾値以下になるまでこの操作を繰り返すことにより局所
最適解が得られる。
【0058】次にQ(λ,λ')を用いてパラメータを推定
する方法について説明する。
する方法について説明する。
【0059】(数12)を変形すれば、次式が得られ
る。
る。
【0060】
【数14】
【0061】前述の説明から、Q(λ,λ')をλ'の関数
と見なしてQ(λ,λ')>Q(λ,λ)なるλ'を見出せば、
それはλの更新されたものとなり、P(Y(1),・・・,Y(R)
|λ)はλ'に関しては一定値となるから、これを取り除
いて
と見なしてQ(λ,λ')>Q(λ,λ)なるλ'を見出せば、
それはλの更新されたものとなり、P(Y(1),・・・,Y(R)
|λ)はλ'に関しては一定値となるから、これを取り除
いて
【0062】
【数30】
【0063】とするとき、Q'(λ,λ')>Q'(λ,λ)な
るλ'を見出すことと同様である。ただし、ここで
るλ'を見出すことと同様である。ただし、ここで
【0064】
【数15】
【0065】とおいている。
【0066】(数14)はさらに次のようになる。
【0067】
【数16】
【0068】右辺第1項からπi'について最大化すれば
πiの再推定値πi *は
πiの再推定値πi *は
【0069】
【数17】
【0070】右辺第2項からaij'について最大化すれ
ばaijの再推定値aij *は
ばaijの再推定値aij *は
【0071】
【数18】
【0072】右辺第3項からμi',Σi'について最大化
すれば、μi,Σi各々の再推定値μi *,Σi *は
すれば、μi,Σi各々の再推定値μi *,Σi *は
【0073】
【数19】
【0074】
【数20】
【0075】ここで、ξ(r) ij(t)は次のように計算さ
れる。即ち、
れる。即ち、
【0076】
【数21】
【0077】とおけば、
【0078】
【数22】
【0079】である。
【0080】このとき
【0081】
【数23】
【0082】
【数24】
【0083】なる漸化式が成り立つ。従って、α
(r) 1(1)=1としてパラメータλに適当な初期値を与
え、t=1〜T(r)+1,j=1〜I+1について(数
23)に従ってα(r) j(t)を、β(r) I+1(T(r)+1)=
1としてt=T(r)+1〜1、i=I〜1について(数
24)に従ってβ(r) i(t)をそれぞれ順次計算して行け
ば、(数15)が計算できる。
(r) 1(1)=1としてパラメータλに適当な初期値を与
え、t=1〜T(r)+1,j=1〜I+1について(数
23)に従ってα(r) j(t)を、β(r) I+1(T(r)+1)=
1としてt=T(r)+1〜1、i=I〜1について(数
24)に従ってβ(r) i(t)をそれぞれ順次計算して行け
ば、(数15)が計算できる。
【0084】パラメータ推定の実際の計算手順は次のよ
うになる。
うになる。
【0085】(1)L1=∞ (2)i,j=1〜Iについてλi={(aij)j=1,・・・,I+1,μ
i,Σi} に適当な初期値を与える。
i,Σi} に適当な初期値を与える。
【0086】(3)r=1〜R, t=2〜T(r), i=
1〜I+1についてα(r) i(t)をλ={λi}として(数
23)に従って計算する。
1〜I+1についてα(r) i(t)をλ={λi}として(数
23)に従って計算する。
【0087】(4)r=1〜R, t=2〜T(r), i=
1〜I+1についてβ(r) i(t)とξ(r) ij(t)をλ={λ
i}としてそれぞれ(数24)(数22)に従って計算す
る。
1〜I+1についてβ(r) i(t)とξ(r) ij(t)をλ={λ
i}としてそれぞれ(数24)(数22)に従って計算す
る。
【0088】(5)r=1〜R,i,j=1〜I+1に
ついて、(数18)(数19)(数20)の 分子:aij,num(r), μi,num(r), Σi,num(r) と、 分母:Deni(r)=aij,denom(r)= μi,denom(r)=Σ
i,denom(r) を計算する。
ついて、(数18)(数19)(数20)の 分子:aij,num(r), μi,num(r), Σi,num(r) と、 分母:Deni(r)=aij,denom(r)= μi,denom(r)=Σ
i,denom(r) を計算する。
【0089】(6)aij,μi,Σiの再推定値aij *, μi
*, Σi *を次の(数)に従って計算する。
*, Σi *を次の(数)に従って計算する。
【0090】
【数25】
【0091】(7)i,j=1〜I+1についてaij=
aij *, μi=μi *, Σi=Σi *なる代入を行うことによ
って、再推定されたパラメータ集合λ={λi}を得る。
aij *, μi=μi *, Σi=Σi *なる代入を行うことによ
って、再推定されたパラメータ集合λ={λi}を得る。
【0092】(8)r=1〜R,t=2〜T(r), i=
1〜I+1に対してstep(7)で得たパラメータ集合λ
に対して
1〜I+1に対してstep(7)で得たパラメータ集合λ
に対して
【0093】
【数26】
【0094】を計算する。
【0095】(9)|L1−L2|/L1>εならば、L2=
L1とおいてステップ(4)へ、そうでなければ終了。
L1とおいてステップ(4)へ、そうでなければ終了。
【0096】前記ステップ(9)におけるεは収束の幅
を決める適当に小さな正の数であって、その値は状況に
よって実用的な値が選ばれる。
を決める適当に小さな正の数であって、その値は状況に
よって実用的な値が選ばれる。
【0097】以上のようにして、連続確率分布HMMが
得られる。本発明ではこれをもとにして離散確率分布H
MMを得るものであって、次の手順による。
得られる。本発明ではこれをもとにして離散確率分布H
MMを得るものであって、次の手順による。
【0098】(1)学習ベクトルのクラスタリング行
い、M個のクラスタを算出する。クラスタ名をC1,C2,
・・・,Cm,・・・,CMとする。クラスタCmのセントロイドを
ym0とする。
い、M個のクラスタを算出する。クラスタ名をC1,C2,
・・・,Cm,・・・,CMとする。クラスタCmのセントロイドを
ym0とする。
【0099】(2)訓練パターンのベクトル系列y
(r)(1),y(r)(2),・・・,y(r)(T(r))をセントロイド系
列z(r)(1),z(r)(2),・・・,z(r)(T(r))に変換する。
(r)(1),y(r)(2),・・・,y(r)(T(r))をセントロイド系
列z(r)(1),z(r)(2),・・・,z(r)(T(r))に変換する。
【0100】(3)ステップ(2)のセントロイド系列
を学習パターン集合と見做して前記連続型HMMを用い
て該HMMの各状態におけるCm(m=1,・・・,M)の発
生度合を求める。
を学習パターン集合と見做して前記連続型HMMを用い
て該HMMの各状態におけるCm(m=1,・・・,M)の発
生度合を求める。
【0101】ここで、各ラベルの発生度合を定義する方
法は種々考えられる。即ち、(a)状態iにおけるCmの
セントロイドの発生確率密度、(b)Cmに属する学習ベ
クトルの確率密度の平均値または中央値、(a)、(b)に
おいてそれらのクラスタに関する総和が1になるように
正規化したもの、また、前記(b)において平均値の場合
は、その平均として、算術平均、幾何平均、調和平均等
が考えられる。ここでは本発明の一実施例として(b)の
方法で、算術平均を用い、前記正規化はしない場合を例
にとって説明する。次式で用いるbi(y)は前記連続型
HMMの推定パラメータから得られたものである。この
場合は、状態iにおけるクラスタCmの発生度合bimは
次式で与えられる。
法は種々考えられる。即ち、(a)状態iにおけるCmの
セントロイドの発生確率密度、(b)Cmに属する学習ベ
クトルの確率密度の平均値または中央値、(a)、(b)に
おいてそれらのクラスタに関する総和が1になるように
正規化したもの、また、前記(b)において平均値の場合
は、その平均として、算術平均、幾何平均、調和平均等
が考えられる。ここでは本発明の一実施例として(b)の
方法で、算術平均を用い、前記正規化はしない場合を例
にとって説明する。次式で用いるbi(y)は前記連続型
HMMの推定パラメータから得られたものである。この
場合は、状態iにおけるクラスタCmの発生度合bimは
次式で与えられる。
【0102】
【数27】
【0103】前記ステップ(1)におけるクラスタリン
グの方法は、例えば、LBG法と呼ばれる周知の方法が
用いられ得る(具体的方法の説明は省略する)。クラスタ
リングするデータとしては、前記HMMの学習に用いた
v=1〜Vの単語音声に対応するパターンを構成する特
徴ベクトルの全集合を用いることが出来る。
グの方法は、例えば、LBG法と呼ばれる周知の方法が
用いられ得る(具体的方法の説明は省略する)。クラスタ
リングするデータとしては、前記HMMの学習に用いた
v=1〜Vの単語音声に対応するパターンを構成する特
徴ベクトルの全集合を用いることが出来る。
【0104】図1及び図2は、本発明のHMM作成装置
の一実施例であって、その構成及び作用を同時に説明す
る。
の一実施例であって、その構成及び作用を同時に説明す
る。
【0105】特徴抽出部101は、周知の方法によっ
て、単語v(=1,…,V)に対応するモデル作成のために
準備された訓練単語r=1〜Rvの音声信号を、特徴ベ
クトルの系列
て、単語v(=1,…,V)に対応するモデル作成のために
準備された訓練単語r=1〜Rvの音声信号を、特徴ベ
クトルの系列
【0106】
【数28】
【0107】に変換する。
【0108】単語パターン記憶部102は、RAM、R
OM、各種ディスク等の記憶手段であり、モデルλvを
作成するための学習用単語を、前記特徴ベクトル系列の
形でRv個記憶する。
OM、各種ディスク等の記憶手段であり、モデルλvを
作成するための学習用単語を、前記特徴ベクトル系列の
形でRv個記憶する。
【0109】クラスタリング部103は、単語パターン
記憶部102に記憶されている
記憶部102に記憶されている
【0110】
【数29】
【0111】個の特徴ベクトル集合をM個のクラスタに
クラスタリングするものである。このとき、第mクラス
タのラベルをCm,セントロイドをy0mとする。
クラスタリングするものである。このとき、第mクラス
タのラベルをCm,セントロイドをy0mとする。
【0112】クラスタベクトル記憶部104は、クラス
タリング部103で求められたM個のそれぞれのクラス
タのベクトルとセントロイドをmにて参照可能な形で記
憶する。
タリング部103で求められたM個のそれぞれのクラス
タのベクトルとセントロイドをmにて参照可能な形で記
憶する。
【0113】ベクトル量子化部105は、クラスタベク
トル記憶部104のセントロイドを利用し、単語パター
ン記憶部102に記憶されている単語vの訓練パターン
を構成するベクトル系列の各々のベクトルを、それに最
も近いセントロイドベクトルに変換するものである。そ
こで、入力ベクトルyv(r)(t)がセントロイドz
v(r)(t)に変換されるものとする。
トル記憶部104のセントロイドを利用し、単語パター
ン記憶部102に記憶されている単語vの訓練パターン
を構成するベクトル系列の各々のベクトルを、それに最
も近いセントロイドベクトルに変換するものである。そ
こで、入力ベクトルyv(r)(t)がセントロイドz
v(r)(t)に変換されるものとする。
【0114】バッファメモリ106は、ベクトル量子化
部105で変換されたvに対する単語パターンをRv個
一時的に記憶する。
部105で変換されたvに対する単語パターンをRv個
一時的に記憶する。
【0115】パラメータ推定部107は、前記モデルλ
vを作成するステップ(1)〜(9)を、zv(r)(1),z
v(r)(2),・・・,zv(r)(Tv(r))を訓練パターン集合と見
做して実行し、単語vに対応するモデルλvを推定する
ものである。
vを作成するステップ(1)〜(9)を、zv(r)(1),z
v(r)(2),・・・,zv(r)(Tv(r))を訓練パターン集合と見
做して実行し、単語vに対応するモデルλvを推定する
ものである。
【0116】第1のパラメータ記憶部108は、前記ス
テップ(6)で得られたパラメータの再推定値を一次的
に記憶するものである。パラメータ推定部107はこの
パラメータ記憶部108の値を用いて再推定を行う。
テップ(6)で得られたパラメータの再推定値を一次的
に記憶するものである。パラメータ推定部107はこの
パラメータ記憶部108の値を用いて再推定を行う。
【0117】ラベル発生度合計算部109は、パラメー
タ記憶部108に記憶されているモデルλvの確率密度
関数から、クラスタベクトル記憶部104に記憶されて
いるクラスタCmのベクトルym(1),・・・,ym(Km)の確
率密度をv=1,・・・,V,i=1,・・・,I,m=1,・・・,
Mについて計算し、(数27)に従って、単語vのHM
Mの状態iにおけるCmの発生度合bv imを計算する。
タ記憶部108に記憶されているモデルλvの確率密度
関数から、クラスタベクトル記憶部104に記憶されて
いるクラスタCmのベクトルym(1),・・・,ym(Km)の確
率密度をv=1,・・・,V,i=1,・・・,I,m=1,・・・,
Mについて計算し、(数27)に従って、単語vのHM
Mの状態iにおけるCmの発生度合bv imを計算する。
【0118】第2のパラメータ記憶部110は単語v=
1〜Vに対応するパラメータを記憶する手段であって、
前記それぞれの単語v=1,・・・,Vに対応するパラメー
タが、パラメータ記憶部1,・・・,パラメータ記憶部Vに
それぞれ記憶される。即ち、それぞれの単語の各状態に
対応する遷移確率は、第1のパラメータ記憶部108か
ら読み出され、v,i,jで参照可能な形で記憶される。
また、それぞれの単語の各状態におけるラベルの発生度
合はラベル発生度合算出部109から読み出され、v,
i,mで参照可能な形で記憶される。
1〜Vに対応するパラメータを記憶する手段であって、
前記それぞれの単語v=1,・・・,Vに対応するパラメー
タが、パラメータ記憶部1,・・・,パラメータ記憶部Vに
それぞれ記憶される。即ち、それぞれの単語の各状態に
対応する遷移確率は、第1のパラメータ記憶部108か
ら読み出され、v,i,jで参照可能な形で記憶される。
また、それぞれの単語の各状態におけるラベルの発生度
合はラベル発生度合算出部109から読み出され、v,
i,mで参照可能な形で記憶される。
【0119】以上のようにして、離散確率分布HMMが
作成される。
作成される。
【0120】すなわち、本発明は、連続確率密度分布H
MMを先ず作成し、学習に用いたパターン集合を形成す
るベクトルの集合をクラスタリングし、クラスタmに含
まれるベクトルの前記HMMの状態iにおける発生度合
bimを連続確率分布型HMMとして求められた確率密度
を用いて求め、離散確率分布型HMMに変換するもので
ある。
MMを先ず作成し、学習に用いたパターン集合を形成す
るベクトルの集合をクラスタリングし、クラスタmに含
まれるベクトルの前記HMMの状態iにおける発生度合
bimを連続確率分布型HMMとして求められた確率密度
を用いて求め、離散確率分布型HMMに変換するもので
ある。
【0121】次に、以上のようなモデルを用いて実際の
入力音声を認識する方法及び装置について説明する。
入力音声を認識する方法及び装置について説明する。
【0122】図5はその認識装置のブロック図であっ
て、その構成及び作用を同時に説明する。
て、その構成及び作用を同時に説明する。
【0123】特徴抽出部401は、図1の特徴抽出部1
01と全く同様の構成、機能を有するものである。
01と全く同様の構成、機能を有するものである。
【0124】コードブック403は、図1及び図2のH
MM作成装置のクラスタベクトル記憶部104に記憶さ
れている各クラスタのセントロイドが記憶されている。
MM作成装置のクラスタベクトル記憶部104に記憶さ
れている各クラスタのセントロイドが記憶されている。
【0125】ベクトル量子化部402は、特徴抽出部4
01の出力の特徴ベクトルy(t)とコードブック403
に記憶されている前記それぞれのクラスタの代表ベクト
ルy0m(m=1,…,M)との距離を計算し、y(t)をy
(t)に最も近い代表ベクトルに対応するクラスタのラベ
ルに置き換えて、特徴ベクトル系列をラベル系列に変換
する。
01の出力の特徴ベクトルy(t)とコードブック403
に記憶されている前記それぞれのクラスタの代表ベクト
ルy0m(m=1,…,M)との距離を計算し、y(t)をy
(t)に最も近い代表ベクトルに対応するクラスタのラベ
ルに置き換えて、特徴ベクトル系列をラベル系列に変換
する。
【0126】パラメータ記憶部404は、図2のパラメ
ータ記憶部110と全く同様の構成、機能を有するもの
であって、パラメータ記憶部vには、単語v(=1,・・・,
V)に対応するモデルのパラメータが記憶されている。
ータ記憶部110と全く同様の構成、機能を有するもの
であって、パラメータ記憶部vには、単語v(=1,・・・,
V)に対応するモデルのパラメータが記憶されている。
【0127】尤度計算部405は、ベクトル量子化部4
02の出力に得られるラベル系列に対する各モデルの尤
度をパラメータ記憶部404の内容を用いて計算するも
のである。即ち、尤度計算部vではパラメータ記憶部v
の内容が用いられる。尤度の計算方法は、(数1)、
(数2)、(数3)等の何れかが用いられ得る。
02の出力に得られるラベル系列に対する各モデルの尤
度をパラメータ記憶部404の内容を用いて計算するも
のである。即ち、尤度計算部vではパラメータ記憶部v
の内容が用いられる。尤度の計算方法は、(数1)、
(数2)、(数3)等の何れかが用いられ得る。
【0128】比較判定部406は、尤度計算部405に
含まれる尤度計算部1,・・・,Vの何れの出力が最大であ
るかを比較判定し、それに対応する単語を認識結果とし
て出力するもので、(数4)に相当する計算を実行する
ものである。
含まれる尤度計算部1,・・・,Vの何れの出力が最大であ
るかを比較判定し、それに対応する単語を認識結果とし
て出力するもので、(数4)に相当する計算を実行する
ものである。
【0129】この比較判定部406から認識結果が求め
られる。
られる。
【0130】なお、本実施例においては、単語を認識す
るとして述べたが、本発明では、単語を音韻や音節等に
置き換えても勿論よく、また、音声以外のパターンにも
適用出来るものである。
るとして述べたが、本発明では、単語を音韻や音節等に
置き換えても勿論よく、また、音声以外のパターンにも
適用出来るものである。
【0131】さらに、本実施例では特徴ベクトルの分布
は、各状態において単一の正規分布に従うとして説明し
たが、本発明は、いわゆる混合分布を用いることによ
り、より精密なラベルの発生度合を得ることも勿論可能
である。
は、各状態において単一の正規分布に従うとして説明し
たが、本発明は、いわゆる混合分布を用いることによ
り、より精密なラベルの発生度合を得ることも勿論可能
である。
【0132】また、本発明は、音声認識装置にかぎら
ず、他の時系列信号処理分野に適用可能である。
ず、他の時系列信号処理分野に適用可能である。
【0133】なお、本発明の各手段は、コンピュータを
用いてソフトウェア的に実現し、あるいはそれら各機能
を有する専用のハード回路を用いて実現してもかまわな
い。
用いてソフトウェア的に実現し、あるいはそれら各機能
を有する専用のハード回路を用いて実現してもかまわな
い。
【0134】
【発明の効果】以上述べたところから明らかなように、
本発明は、ベクトル系列からなる訓練パターンの各々の
ベクトルをベクトル量子化し、ベクトルをそれが属する
クラスタのラベルの系列に変換するベクトル量子化手段
と、ラベル系列の各ラベルに対応する量子化ベクトルの
系列から連続分布確率密度HMMを作成する連続分布確
率密度HMM作成手段と、クラスタの同一のものに属す
る訓練ベクトルと連続分布確率密度HMMから、各状態
におけるラベルの発生度合を算出するラベル発生度合算
出手段とを備えているので、離散型HMMにおける課題
である訓練データの不足やその偏りによる推定誤差を解
消し、離散型HMMのもつ計算量が少ないという利点を
活かしたモデルの実現を可能とする。
本発明は、ベクトル系列からなる訓練パターンの各々の
ベクトルをベクトル量子化し、ベクトルをそれが属する
クラスタのラベルの系列に変換するベクトル量子化手段
と、ラベル系列の各ラベルに対応する量子化ベクトルの
系列から連続分布確率密度HMMを作成する連続分布確
率密度HMM作成手段と、クラスタの同一のものに属す
る訓練ベクトルと連続分布確率密度HMMから、各状態
におけるラベルの発生度合を算出するラベル発生度合算
出手段とを備えているので、離散型HMMにおける課題
である訓練データの不足やその偏りによる推定誤差を解
消し、離散型HMMのもつ計算量が少ないという利点を
活かしたモデルの実現を可能とする。
【図1】本発明によるHMMのパラメータ推定を行う装
置の一実施例を示すブロック図の一部である。
置の一実施例を示すブロック図の一部である。
【図2】本発明によるHMMのパラメータ推定を行う装
置の一実施例を示すブロック図の残部である。
置の一実施例を示すブロック図の残部である。
【図3】HMMを用いた音声認識装置の従来例を説明す
るブロック図である。
るブロック図である。
【図4】連続確率分布型HMMの構成を示すHMMの構
成図である。
成図である。
【図5】本発明により構成されたHMMを用いた音声認
識装置の一実施例を示すブロック図である。
識装置の一実施例を示すブロック図である。
101・・・・特徴抽出部 102・・・・単語パターン記憶部 103・・・・クラスタリング部 104・・・・クラスタベクトル記憶部 105・・・・ベクトル量子化部 106・・・・バッファメモリ 107・・・・パラメータ推定部 108・・・・パラメータ記憶部 109・・・・ラベル発生度合計算部 110・・・・パラメータ記憶部
Claims (7)
- 【請求項1】ベクトル系列からなる訓練パターンの各々
のベクトルをベクトル量子化し、該ベクトルをそれが属
するクラスタのラベルの系列に変換するベクトル量子化
手段と、該ラベル系列の各ラベルに対応する量子化ベク
トルの系列から連続分布確率密度HMMを作成する連続
分布確率密度HMM作成手段と、前記クラスタの同一の
ものに属する前記訓練ベクトルと前記連続分布確率密度
HMMから、各状態における前記ラベルの発生度合を算
出するラベル発生度合算出手段とを備えたことを特徴と
するHMM作成装置。 - 【請求項2】請求項1記載のHMM作成装置によって得
られた状態遷移確率を記憶する状態遷移確率記憶手段
と、各状態における各ラベルの発生度合を記憶するラベ
ル発生度合記憶手段を備えたことを特徴とするHMM記
憶装置。 - 【請求項3】入力パターンを構成する特徴ベクトル系列
の各ベクトルをラベルに置き換えることにより、前記ベ
クトル系列をラベル系列に変換する請求項1記載のベク
トル量子化手段と、請求項2記載のHMM記憶装置に記
憶されている状態遷移確率と各状態におけるラベルの発
生度合から、前記HMM記憶装置に記憶されているパラ
メータで記述されるHMMの、前記入力パターンに対す
る尤度を計算する尤度計算手段とを備えたことを特徴と
する尤度計算装置。 - 【請求項4】認識単位毎に請求項3記載の尤度計算装置
を備え、入力信号に対する前記各々の認識単位モデル毎
の尤度を計算し、該尤度の値から前記入力信号が前記認
識単位の何れであるかを判定することを特徴とする認識
装置。 - 【請求項5】ラベル発生度合算出手段は、前記クラスタ
をCm(m=1,・・・,M)とするとき、前記連続確率密度
分布HMMの状態iの確率密度関数から前記各クラスタ
に対応する量子化ベクトルの確率密度を求め、該確率密
度を状態iにおけるCmの発生度合bimとすることを特
徴とする請求項1記載のHMM作成装置。 - 【請求項6】ラベル発生度合算出手段は、前記クラスタ
をCm(m=1,・・・,M)とするとき、前記連続確率密度
分布HMMの状態iの確率密度関数からCmに含まれる
訓練ベクトル各々の確率密度を求め、該確率密度の平均
値や中央値等の特性値を算出する特性値算出手段を含
み、該特性値を状態iにおけるCmの発生度合bimとす
ることを特徴とする請求項1記載のHMM作成装置。 - 【請求項7】ラベル発生度合算出手段は、前記bimから
更に、bim'=bim/(bi1+・・・+biM)を算出する発生
度合正規化手段を含み、該正規化発生度合bim'を状態
iにおけるCmの発生度合とすることを特徴とする請求
項5又は6記載のHMM作成装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4159835A JPH064093A (ja) | 1992-06-18 | 1992-06-18 | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 |
| US08/864,460 US6434522B1 (en) | 1992-06-18 | 1997-05-28 | Combined quantized and continuous feature vector HMM approach to speech recognition |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4159835A JPH064093A (ja) | 1992-06-18 | 1992-06-18 | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH064093A true JPH064093A (ja) | 1994-01-14 |
Family
ID=15702289
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4159835A Pending JPH064093A (ja) | 1992-06-18 | 1992-06-18 | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US6434522B1 (ja) |
| JP (1) | JPH064093A (ja) |
Families Citing this family (123)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1863014B1 (en) * | 1998-10-09 | 2009-09-30 | Sony Corporation | Apparatuses and methods for learning and using a distance transition model |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| CN101950376B (zh) * | 2009-07-09 | 2014-10-29 | 索尼公司 | 隐马尔可夫模型学习设备和方法 |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| CN102543073B (zh) * | 2010-12-10 | 2014-05-14 | 上海上大海润信息系统有限公司 | 一种沪语语音识别信息处理方法 |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
| CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
| WO2015196281A1 (en) * | 2014-06-24 | 2015-12-30 | Sportlogiq Inc. | System and method for visual event description and event analysis |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| CN105989849B (zh) * | 2015-06-03 | 2019-12-03 | 乐融致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US10929767B2 (en) * | 2016-05-25 | 2021-02-23 | International Business Machines Corporation | Method for complex events detection using hidden markov models |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
| JP6477943B1 (ja) * | 2018-02-27 | 2019-03-06 | オムロン株式会社 | メタデータ生成装置、メタデータ生成方法及びプログラム |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
| US5129002A (en) * | 1987-12-16 | 1992-07-07 | Matsushita Electric Industrial Co., Ltd. | Pattern recognition apparatus |
| US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
| US5075896A (en) * | 1989-10-25 | 1991-12-24 | Xerox Corporation | Character and phoneme recognition based on probability clustering |
| JPH0483296A (ja) * | 1990-07-26 | 1992-03-17 | Matsushita Electric Ind Co Ltd | Hmm作成装置 |
| JPH0833739B2 (ja) * | 1990-09-13 | 1996-03-29 | 三菱電機株式会社 | パターン表現モデル学習装置 |
-
1992
- 1992-06-18 JP JP4159835A patent/JPH064093A/ja active Pending
-
1997
- 1997-05-28 US US08/864,460 patent/US6434522B1/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| US6434522B1 (en) | 2002-08-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH064093A (ja) | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 | |
| JP2795058B2 (ja) | 時系列信号処理装置 | |
| Meng et al. | Internal language model estimation for domain-adaptive end-to-end speech recognition | |
| Ostendorf et al. | From HMM's to segment models: A unified view of stochastic modeling for speech recognition | |
| KR100324988B1 (ko) | 신호해석장치 | |
| US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
| US5664059A (en) | Self-learning speaker adaptation based on spectral variation source decomposition | |
| US5794192A (en) | Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech | |
| CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
| JPH02238496A (ja) | 音声認識装置 | |
| Mohanty et al. | Child emotion recognition using probabilistic neural network with effective features | |
| Rabiner | Mathematical foundations of hidden Markov models | |
| JPH05257492A (ja) | 音声認識方式 | |
| EP0732685A2 (en) | A system for recognizing continuous speech | |
| JPH07110695A (ja) | 音声符号化装置および方法 | |
| US7805301B2 (en) | Covariance estimation for pattern recognition | |
| Bacchiani et al. | Joint lexicon, acoustic unit inventory and model design | |
| Bahl et al. | Context dependent vector quantization for continuous speech recognition | |
| He et al. | Discriminative Learning for Speech Recognition | |
| Dermatas et al. | Algorithm for clustering continuous density HMM by recognition error | |
| Nishimura et al. | HMM-based speech recognition using multi-dimensional multi-labeling | |
| JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
| JPH064092A (ja) | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 | |
| Juang et al. | Mixture autoregressive hidden Markov models for speaker independent isolated word recognition | |
| JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 |