JP3474071B2 - 音声認識装置および標準パターン登録方法 - Google Patents
音声認識装置および標準パターン登録方法Info
- Publication number
- JP3474071B2 JP3474071B2 JP01781297A JP1781297A JP3474071B2 JP 3474071 B2 JP3474071 B2 JP 3474071B2 JP 01781297 A JP01781297 A JP 01781297A JP 1781297 A JP1781297 A JP 1781297A JP 3474071 B2 JP3474071 B2 JP 3474071B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- pattern
- standard
- voice pattern
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
び標準パターン登録方法に関する。
音声についての標準パターンを生成,登録するのに、話
者に複数回(例えば3回)発声させ、それぞれの発声に対
して特徴抽出を行ない、それぞれの発声について得られ
た特徴量で各発声についての音声パターンを生成し、各
音声パターンを時間軸で正規化し、重ね合わせることに
よって、1つの標準パターンを生成し、登録するように
なっている。また、標準パターンを再登録する際には、
上述したと同じ手順で、新しい標準パターンを生成し、
これを古い標準パターンと入れ替えることによって、標
準パターンの再登録を行なっている。
ーンの再登録の際に、標準パターンの品質を保つため
に、または他の標準パターンへの悪影響を軽減させるた
めに、新しい標準パターンを古い標準パターンと入れ替
えるに先立って、新しい標準パターンの類似度および他
の標準パターンの類似度を算出し、新しい標準パターン
の類似度が他の標準パターンの類似度よりもある値以上
大きくなった時のみ、標準パターンの入れ替えを行な
い、ある値よりも小さいときには標準パターンの入れ替
えは行なわず、登録のやり直しを促す表示または警報等
を出している。
方法において、再登録の際の複数回の発声にノイズ等が
混入し、悪影響が及ぶことがある。例えば、再登録のた
めに3回発声したが、2回目の発声をしたときにノイズ
が混入したような場合、類似度が所定値より大きくなら
ず登録が拒否され、再び再登録の操作を行なわなければ
ならない。また、上記の方法のように他の標準パターン
との類似度の差だけに着目する場合、ノイズの混入した
標準パターンでも登録される可能性があり、認識率の低
下を招く。また、ノイズの混入した標準パターンが多く
登録されると類似度の差は小さくなり、新規登録や再登
録の際に類似度の差が所定値より大きくならず登録不可
能となる場合もある。
たは再登録時に、登録のやり直し等を行なう必要なく、
最適な標準パターンを得ることが可能な音声認識装置お
よび標準パターン登録方法を提供することを目的として
いる。
に、請求項1記載の発明は、入力された音声の特徴量を
抽出する特徴抽出手段と、抽出した音声の特徴量を音声
パターンとして記憶する音声パターン記憶手段と、音声
パターン記憶手段に記憶された各音声パターンに基づい
て標準パターンを生成する標準パターン生成手段と、標
準パターン生成手段で生成された標準パターンを記憶す
る標準パターン記憶手段と、環境ノイズのレベルを検知
するノイズレベル検知手段と、選択手段とを備え、前記
音声パターン記憶手段は、複数の音声パターン記憶部か
らなり、前記選択手段は、特徴抽出手段で抽出した音声
の特徴量を音声パターンとして記憶するときに、ノイズ
レベル検知手段によって検知された環境ノイズのレベル
に応じて複数の音声パターン記憶部のうちの1つの音声
パターン記憶部を選択し、選択した音声パターン記憶部
に特徴抽出手段で抽出した音声の特徴量を音声パターン
として記憶するようになっており、また、前記標準パタ
ーン生成手段は、選択手段によって選択された音声パタ
ーン記憶部に記憶された各音声パターンに基づいて標準
パターンを生成することを特徴としている。
載の音声認識装置において、前記標準パターン生成手段
は、前記選択手段によって選択された音声パターン記憶
部に記憶されている音声パターンを任意に組み合わせた
仮の標準パターンと入力された音声パターンとの類似度
を計算し、最大の類似度が得られる仮の標準パターンを
標準パターンとして生成することを特徴としている。
音声の特徴量を抽出し、抽出した音声の特徴量を音声パ
ターン記憶手段に音声パターンとして記憶し、記憶され
た各音声パターンに基づいて標準パターンを生成して登
録する標準パターン登録方法であって、前記音声パター
ン記憶手段として、複数の音声パターン記憶部を用意
し、入力された音声の特徴量を音声パターンとして記憶
するときに、環境ノイズのレベルに応じて複数の音声パ
ターン記憶部のうちの1つの音声パターン記憶部を選択
し、選択した音声パターン記憶部に音声の特徴量を音声
パターンとして記憶し、選択された音声パターン記憶部
に記憶された各音声パターンに基づいて標準パターンを
生成して登録することを特徴としている。
基づいて説明する。図1は本発明に係る音声認識装置の
構成例を示す図である。図1を参照すると、この音声認
識装置は、入力音声を電気信号(音声信号)に変換するマ
イクロホン等の入力部1と、入力部1からの音声信号に
対して前処理(増幅,フィルタおよびA/D変換)を施す
前処理部2と、前処理部2から出力される音声信号の特
徴量を抽出する特徴抽出部3と、登録時あるいは再登録
時にオンとなる切替スイッチSW1と、特徴抽出部3で
抽出された例えば所定の単語についての音声信号の特徴
量を音声パターンとして記憶する音声パターン記憶手段
4と、音声パターン記憶手段4に記憶された所定の単語
についての各音声パターンに基づいて所定の単語につい
ての標準パターンを生成する標準パターン生成部5と、
標準パターン生成部5で生成された単語毎の標準パター
ンを記憶する標準パターン記憶部6と、認識時にオンと
なる切替スイッチSW2と、特徴抽出部3で抽出された
音声信号の特徴量(音声パターン)と標準パターン記憶部
6に記憶されている各単語の標準パターンとの類似度を
計算する類似度計算部7と、類似度計算部7で算出され
た音声パターンと各単語の標準パターンの類似度から、
最も高い類似度を与える単語候補を認識結果として選択
する認識結果選択部8とを備えている。
域(250Hz〜6.35kHz)に15チャネルのバン
ドパスフィルタを1/3オクターブごとに配置し、それ
ぞれのフィルタのパワー値を、特徴量として求めるよう
になっている。この場合、この特徴量は、ある一定間隔
ごとにサンプルするものとし、この特徴量をパターン化
したものを音声パターンとして出力する。
8,標準パターン記憶部6は、認識時に用いられ、ま
た、音声パターン記憶手段4,標準パターン生成部5,
標準パターン記憶部6は、登録時,再登録時に用いられ
るようになっている。
ターン記憶手段4に記憶されている音声パターンを任意
に組み合わせた仮の標準パターンと入力された音声パタ
ーンとの類似度を計算し最大の類似度が得られる仮の標
準パターンを標準パターンとして生成するようになって
いても良い。
ンを記憶しておき、標準パターンの登録時または再登録
時には、これまでに記憶された音声パターンから標準パ
ターンを再構築することによって最適な標準パターンを
作成し、登録または再登録するようになっていても良
く、この場合には、登録のやり直し等の必要がなく、最
適な標準パターンを作成し、登録または再登録すること
ができ、高い認識率を得ることができる。
じものであり、標準パターン記憶部6に、ある単語の標
準パターンが登録されていない状態でこれから登録する
ときに、“登録”と称し、また、標準パターン記憶部6
に、ある単語の標準パターンが登録されている状態で、
これを登録し直すことを“再登録”と称す。
再登録を行なうことができるが、この場合、環境ノイズ
はほぼ定常的に発生しており、環境ノイズが大きい所
(例えば、走行中の車内等)ではノイズを含んだ音声パタ
ーンしか入力されてこない。すなわち、環境ノイズが大
幅に変動すると、入力される音声パターンも変動する。
これら異なるノイズレベルを含んだ音声パターンを一緒
に再構築すると、最適な標準パターンが作成できない場
合がある。また、音声パターン記憶手段4が1つの音声
パターン記憶部からなる場合には、この1つの音声パタ
ーン記憶部に記憶する音声パターンの数を増やせば増や
すほど処理時間が大幅に増えていく。このような問題を
回避するため、本願の発明者は、音声パターン記憶手段
4として、音声パターンを記憶する音声パターン記憶部
を複数用意し、環境ノイズのレベルに応じて、複数の音
声パターン記憶部のうちの1つの音声パターン記憶部を
選択して、これに音声パターンを記憶することを案出し
た。
ン記憶部を複数用意し、環境ノイズのレベルに応じて音
声パターン記憶部を選択する機能を備えた音声認識装置
の構成例を示す図である。図2を参照すると、この音声
認識装置では、図1の音声認識装置において、抽出した
音声の特徴量を音声パターンとして記憶する音声パター
ン記憶手段4として、複数の音声パターン記憶部4−1
〜4−nが設けられている。また、環境ノイズのレベル
を検知するノイズレベル検知部9と、選択部10とが設
けられている。
出した音声の特徴量を音声パターンとして記憶するとき
に、ノイズレベル検知部9によって検知された環境ノイ
ズのレベルに応じて、複数の音声パターン記憶部4−1
〜4−nのうちの1つの音声パターン記憶部を選択し、
選択した音声パターン記憶部に特徴抽出部3で抽出した
音声の特徴量を音声パターンとして記憶するようになっ
ており、また、標準パターン生成部5は、選択部10に
よって選択された音声パターン記憶部に記憶された各音
声パターンに基づいて標準パターンを生成するようにな
っている。
装置の動作について説明する。なお、以下では、ある単
語音声の標準パターンの登録時あるいは再登録時には、
3つの音声パターンを組み合わせることによって標準パ
ターンを生成するものとする。すなわち、音声パターン
が3つ以上存在するときには、3つ以上の音声パターン
から任意の3つの音声パターンを選び、選んだ3つの音
声パターンにより仮の標準パターンを生成し、仮の標準
パターンと入力された音声パターンとの類似度を計算
し、最大の類似度が得られる仮の標準パターンを標準パ
ターンとして生成するものとする。
チSW2をオフにし、スイッチSW1をオンにする。次い
で、例えば、Aという単語を新規に登録する場合、話者
はAを発声する。特徴抽出部3は、例えば、音声帯域
(250Hz〜6.35kHz)に15チャネルのバンド
パスフィルタを1/3オクターブごとに配置し、それぞ
れのフィルタのパワー値を、特徴量として求める。この
場合、この特徴量は、ある一定間隔ごとにサンプルする
ものとし、この特徴量をパターン化したものを音声パタ
ーンとして出力する。
9により環境ノイズのレベルを検知させる。なお、環境
ノイズのレベルを検知するには種々の方法がある。例え
ば、音声が検出された前後のある一定時間のパワーの平
均値などをノイズレベルとして検知することができる。
ノイズレベル検知部9は、このようにして検知されたノ
イズのレベルを所定の閾値により複数の段階に分け、そ
の結果を選択部10に出力する。
から出力される音声パターンを記憶すべき音声パターン
記憶部を、ノイズレベルに応じて、複数の音声パターン
記憶部4−1〜4−nの中から選択する。すなわち、選
択部10の選択によって、特徴抽出部3から出力された
音声パターンは、複数の音声パターン記憶部4−1〜4
−nのいずれか1つの音声パターン記憶部に記憶され
る。例えば、複数の音声パターン記憶部4−1〜4−n
として、2つの音声パターン記憶部4−1,4−2(n
=2)が設けられているとし、また、上記所定の閾値と
して1つの閾値だけが設定されている場合、ノイズレベ
ルがこの閾値より小さいときには音声パターン記憶部4
−1を選択し、また、ノイズレベルがこの閾値より大き
いときには音声パターン記憶部4−2を選択するという
ように、環境ノイズのレベルに応じて複数の音声パター
ン記憶部のうちの1つの音声パターン記憶部を選択する
ことができる。
合、話者がAを3回発声するとすると、単語Aについて
のそれぞれの発声に対して入力部1から音声パターン記
憶部までの動作が行なわれ、3回の発声が完了すると、
単語Aについてそれぞれの発声に対する音声パターン
(AV1,AV2,AV3)が生成される。なお、生成されたそ
れぞれの音声パターンはその発声時間により時間軸の長
さは一定ではない。このように生成された音声パターン
(AV1,AV2,AV3)は、選択部10によって選択された
1つの音声パターン記憶部に記憶される。
されたノイズレベルが所定の閾値よりも小さく、選択部
10で音声パターン記憶部4−1が選択されたときに
は、特徴抽出部3で生成された音声パターン(AV1,A
V2,AV3)は、音声パターン記憶部4−1に例えば図3
のように記憶される。なお、図3には、単語A以外の単
語B,Cについての音声パターンもすでに記憶されてい
る状態が示されている。このようにして、選択部10に
よって、ノイズレベル検知部9で検知されたノイズレベ
ルに基づき、音声パターン記憶部が選択されると、特徴
抽出部3からの音声パターン(AV1,AV2,AV3)は、選
択部10で選択された音声パターン記憶部に記憶され
る。
作成を行なう。すなわち、標準パターン生成部5では、
選択部10で選択されて単語Aについての3つの音声パ
ターン(AV1,AV2,AV3)が記憶された音声パターン記
憶部(上記例では、4−1)から、単語Aについての音声
パターンを読み出して単語Aについての標準パターンの
作成を行なう。いまの場合(図3の例では)、音声パター
ン記憶部4−1に記憶されている単語Aについて音声パ
ターンは、3つ(1組)しかないので、標準パターン生成
部5は、無条件で、3つの(1組の)音声パターンAV1,
AV2,AV3を重ね合せて標準パターンASを生成する。
なお、重ね合わせの際に時間長の異なるパターンは、時
間長を正規化してから重ね合わせを行なうものとする。
このようにして生成された標準パターンASは標準パタ
ーン記憶部6に例えば図4に示すように記憶される。す
なわち、単語Aの標準パターンとして登録される。な
お、図4には、単語A以外の単語B,Cについての標準
パターンBS,CSもすでに登録されている状態が示され
ている。
ーンの登録がなされた後、音声認識動作を行なうことが
できる。認識時には、スイッチSW1をオフにし、スイ
ッチSW2をオンにする。次いで、話者が音声を発声す
ると、この音声は、入力部1で電気信号に変換され、前
処理部2で前処理され、特徴抽出部3で特徴量(音声パ
ターン)が抽出される。次いで、特徴抽出部3から出力
される音声パターンは、類似度計算部7に入力し、類似
度計算部7では、入力された特徴量(音声パターン)と標
準パターン記憶部6に記憶されている各単語A,B,
C,…の標準パターンAS,BS,CS,…との類似度を
それぞれ算出し、認識結果選択部8に与える。認識結果
選択部8では、最も高い類似度を与えた標準パターンの
単語を認識結果として選択し、出力する。
認識装置では、標準パターンの登録,および話者音声認
識を行なうことができる。
という単語の標準パターンが標準パターン記憶部6にす
でに登録されているとき(例えば図4のような状態にあ
るとき)、標準パターン記憶部6に登録されている単語
Aの標準パターンを更新,変更したい場合がある。この
ような場合、図1あるいは図2の音声認識装置では、標
準パターンの再登録を行なうことができる。
ば、Aという単語を再登録する場合、話者はAをN回発
声する。N回の発声音声のそれぞれは、登録時の場合と
同様にして、入力部1で電気信号に変換され、前処理部
2で前処理され、特徴抽出部3で特徴量(音声パターン)
が音声パターン(AV4,…,AVN+3)として抽出される。
知部9は環境ノイズのレベルを検知し、選択部10は、
ノイズレベル検知部9で検知されたノイズレベルに応じ
て、音声パターン記憶部を選択し、特徴抽出部3で抽出
された音声パターン(AV4,…,AVN+3)を選択された音
声パターン記憶部に記憶する。
のレベルが同程度であり、登録時と同じ音声パターン記
憶部が選択されたときには(例えば登録時と再登録時と
で環境ノイズのレベルがいずれも低く、音声パターン記
憶部4−1が選択されたときには)、この音声パターン
記憶部4−1には、図5に示すように、音声パターン
(AV1,…,AVN+3)が記憶されることになる。
で環境ノイズのレベルが大きく異なり、登録時と異なる
音声パターン記憶部が選択されたときには(例えば登録
時には環境ノイズのレベルが低く音声パターン記憶部4
−1が選択されたが再登録時には環境ノイズのレベルが
高く音声パターン記憶部4−2が選択されたときに
は)、この音声パターン記憶部4−2には、音声パター
ン(AV4,…,AVN+3)が記憶されることになる。
記憶されている音声パターンで標準パターンの再構築を
行ない、標準パターン記憶部6に記憶する。例えば、登
録時と同じ音声パターン記憶部(例えば、4−1)に記憶
された場合は、AV1からAVN+3までで標準パターンの再
構築を行なって、標準パターン記憶部6に記憶する。
ば、登録時と同じ音声パターン記憶部4−1が選択さ
れ、これに音声パターン(AV4,…,AVN+3)が記憶され
たときには、この音声パターン記憶部4−1に記憶され
ている音声パターンの個数は所定個数(例えば3個)以上
となるので、この場合、標準パターン生成部5は、標準
パターンを構築(再構築)する際、仮の標準パターンの作
成を先ず行なう。ここで、AV4を入力パターンとする
と、AV4を除くAV1からAVN+3までの音声パターンか
ら、仮の標準パターンはN+3-1C3通りできる。次いで、
標準パターン生成部5は、N+3-1C3通りの仮の標準パタ
ーンに対しての入力パターンAV4の類似度を算出し、さ
らに入力パターンをAV4からAVN+3まで変えていった場
合も同様に類似度を算出する。ここで最も高い類似度を
示す仮の標準パターンを最適の標準パターンとみなし、
これを標準パターン記憶部6に記憶(再登録)する。図6
にはこの状態が示されており、この再登録によって、図
4の標準パターンASは新たな標準パターンAS’に入れ
替わる。
る際に最大の類似度が得られる音声パターンの組合せで
標準パターンを生成することにより、音声の標準パター
ンの登録時または再登録時に、登録のやり直し等の必要
がなく最適な標準パターンを得ることが可能となる。
部(例えば、4−2)に記憶された場合は、AV4からA
VN+3までで標準パターンの再構築を行なう。この場合に
も、Nが所定個数(例えば3個)以上のときには、上述し
たと同様に、この中からN-1C3通りの仮の標準パターン
を作成し、この仮の標準パターンと入力された音声パタ
ーンとの類似度を計算し、最大の類似度が得られる仮の
標準パターンを標準パターンとして生成する。
録や再登録の動作)を続けていくと、例えば、音声パタ
ーン記憶部4−1にはノイズの少ない音声パターンのみ
が蓄積され、音声パターン記憶部4−2にはノイズの多
い音声パターンのみが蓄積されていく。従って、ノイズ
の少ない環境で再登録したときには音声パターン記憶部
4−1に蓄積されている音声パターンで標準パターンを
再構築し、ノイズの多い環境で再登録したときには音声
パターン記憶部4−2に蓄積されている音声パターンで
標準パターンを再構築する。これにより、環境ノイズの
レベルに応じた標準パターンが作成でき、環境ノイズに
よる標準パターンの劣化を低減でき、処理時間の低減も
できる。
ノイズのレベルに応じて、音声パターンを記憶する音声
パターン記憶部を選択することによって、環境ノイズに
よる標準パターンの劣化を低減し、また、処理時間を低
減することができる。
語について上記のような再登録処理を何回か行なうと、
音声パターン記憶部(例えば4−1)に記憶される音声パ
ターンの個数が音声パターン記憶部(例えば4−1)の容
量によって定められる制限値(音声パターンの数または
記憶部の容量等で制限できるが、ここでは音声パターン
の数を制限値としてた場合の説明をする。)を超えてし
まうことがある。音声パターン記憶部4−1に既に記憶
されている音声パターンの数がYであり、今回の再登録
時に話者がAをN回(NはN<X)発声した場合、音声パ
ターン記憶部4−1の容量の制限値がXであるとする
と、音声パターン記憶部4−1から、Y+N−X個の音
声パターンを削除する必要がある。
性能の低い音声パターンを削除する機能を備えた音声認
識装置の構成例を示す図である。図7を参照すると、こ
の音声認識装置では、図2の音声認識装置において、さ
らに、選択された音声パターン記憶部(例えば、4−1)
に記憶されている所定の単語についての各音声パターン
と標準パターン記憶部6に記憶されている該単語の標準
パターンとの類似度をそれぞれ算出し、所定の単語の各
音声パターンについての標準パターンとの類似度を音声
パターン情報として生成する音声パターン情報生成部1
2と、音声パターン情報生成部12で生成された音声パ
ターン情報が単語毎に記憶される音声パターン情報記憶
部13とが設けられている。
ン情報生成部12で生成され音声パターン情報記憶部1
3に記憶される各音声パターン情報は、所定の単語につ
いての標準パターンの登録時,特に再登録時に、この単
語について、選択された音声パターン記憶部(例えば、
4−1)に記憶される音声パターンの個数が所定の制限
値を越える場合に、これに対処するために用いられるよ
うになっている。すなわち、所定の単語についての標準
パターンの登録時,特に再登録時に、この単語について
音声パターン記憶部4−1に記憶される音声パターンの
個数が所定の制限値を越える場合に、この単語について
音声パターン情報記憶部13に記憶されている各音声パ
ターン情報に基づいて、音声パターン記憶部4−1に現
在記憶されている音声パターンのうち、性能の低い音声
パターンを判断して、これを音声パターン記憶部4−1
から削除し、再登録時において、この単語について音声
パターン記憶部4−1に記憶される音声パターンの個数
が所定の制限値以内に収まるようにしている。
ーンが(AVY+1,…AVY+N)であるとき、音声パターン記
憶部4−1に記憶されているY個の音声パターン
(AV1,…AVY)をも含めた音声パターンの個数Y+N
が、Y+N>Xのときには、新たなN個の音声パターン
が音声パターン記憶部4−1に記憶される前に、音声パ
ターン記憶部4−1から性能の低い音声パターンを削除
することができる。すなわち、音声パターン情報記憶部
13から、音声パターン記憶部4−1にすでに記憶され
ているY個の音声パターンのそれぞれに対応した各音声
パターン情報を読み取り、それらの音声パターン情報の
うち、最も性能が低いと判断された音声パターンから順
に、(Y+N−X)個の音声パターンを音声パターン記憶
部4−1から削除する。これによって、音声パターン記
憶部4−1に記憶される音声パターンの数をX個に制限
することができる。そして、この場合、音声パターン記
憶部4−1内のX個の音声パターンに基づいて、上記と
同様に標準パターンを作成してこれを再登録し、また、
音声パターン情報の作成を行なうことができる。
しては、音声パターン記憶部(例えば、4−1)に記憶さ
れている各音声パターンと標準パターンとの類似度を用
いているが、これのかわりに、音声パターン記憶部に記
憶された順番、または、標準パターンに使用された頻度
等、または、これらの組合せを音声パターン情報として
用いることもできる。
回数Nは重ね合わせの回数に関係なく任意の発声回数で
よい。従来は重ね合わせの回数と同じ回数の発声が必要
であった。ただし、N<Xの条件はある。
憶部(例えば、4−1)に記憶されている音声パターンか
ら最適な組合せの標準パターンを再構築することによっ
て、登録のやり直しの必要性がない登録処理を実現する
ことができ、さらに、音声パターン記憶部(例えば、4
−1)に記憶する音声パターンの数を制限することによ
って、コストの低減および処理時間の低減を図ることが
でき、また、音声パターン記憶部(例えば、4−1)に記
憶する音声パターンの数を制限する場合にも、精度の高
い標準パターンを作成でき(標準パターンの最適化を図
ることができ)、認識率の低下を防止することができ
る。
装置のハードウェア構成例を示す図である。図8を参照
すると、この音声認識装置は、例えばパーソナルコンピ
ュータ等で実現され、全体を制御するCPU21と、C
PU21の制御プログラム等が記憶されているROM2
2と、CPU21のワークエリア等として使用されるR
AM23と、音声を入力する入力装置(マイクなど)24
と、操作装置(スイッチ等)25と、音声認識結果を出力
する結果出力装置(例えば、ディスプレイやプリンタ)2
6とを有している。
は図7の前処理部2,特徴抽出部3,標準パターン生成
部5,類似度計算部7,認識結果選択部8,ノイズレベ
ル検知部9,選択部10,音声パターン情報生成部12
などの機能を有している。
理部2,特徴抽出部3,標準パターン生成部5,類似度
計算部7,認識結果選択部8,ノイズレベル検知部9,
選択部10,音声パターン情報生成部12等としての機
能は、例えばソフトウェアパッケージ(具体的には、C
D−ROM等の情報記録媒体)の形で提供することがで
き、このため、図8の例では、情報記録媒体30がセッ
トさせるとき、これを駆動する媒体駆動装置31が設け
られている。
用の計算機システムにCD−ROM等の情報記録媒体に
記録されたプログラムを読み込ませて、この汎用計算機
システムのマイクロプロセッサに音声認識処理,標準パ
ターン登録処理を実行させる装置構成においても実施す
ることが可能である。この場合、本発明の音声認識処
理,特に標準パターン登録処理を実行するためのプログ
ラム(すなわち、ハードウェアシステムで用いられるプ
ログラム)は、媒体に記録された状態で提供される。プ
ログラムなどが記録される情報記録媒体としては、CD
−ROMに限られるものではなく、ROM,RAM,フ
レキシブルディスク,メモリカード等が用いられても良
い。媒体に記録されたプログラムは、ハードウェアシス
テムに組み込まれている記憶装置、例えばハードディス
ク装置にインストールされることにより、このプログラ
ムを実行して、上述した本発明の音声認識処理,標準パ
ターン登録処理機能を実現する音声認識装置の構築に寄
与する。
ン登録処理機能を実現するためのプログラムは、媒体の
形で提供されるのみならず、通信によって(例えばサー
バによって)提供されるものであっても良い。
求項3記載の発明によれば、入力された音声の特徴量を
抽出する特徴抽出手段と、抽出した音声の特徴量を音声
パターンとして記憶する音声パターン記憶手段と、音声
パターン記憶手段に記憶された各音声パターンに基づい
て標準パターンを生成する標準パターン生成手段と、標
準パターン生成手段で生成された標準パターンを記憶す
る標準パターン記憶手段と、環境ノイズのレベルを検知
するノイズレベル検知手段と、選択手段とを備え、前記
音声パターン記憶手段として、複数の音声パターン記憶
部を用意し、入力された音声の特徴量を音声パターンと
して記憶するときに、環境ノイズのレベルに応じて複数
の音声パターン記憶部のうちの1つの音声パターン記憶
部を選択し、選択した音声パターン記憶部に音声の特徴
量を音声パターンとして記憶し、選択された音声パター
ン記憶部に記憶された各音声パターンに基づいて標準パ
ターンを生成して登録するようになっているので、音声
の標準パターンの登録時または再登録時に、登録のやり
直し等の必要がなく最適な標準パターンを得ることが可
能となり、さらに、環境ノイズによる標準パターンの劣
化を低減し、また、処理時間を低減することができる。
ある。
図である。
図である。
示す図である。
Claims (3)
- 【請求項1】 入力された音声の特徴量を抽出する特徴
抽出手段と、抽出した音声の特徴量を音声パターンとし
て記憶する音声パターン記憶手段と、音声パターン記憶
手段に記憶された各音声パターンに基づいて標準パター
ンを生成する標準パターン生成手段と、標準パターン生
成手段で生成された標準パターンを記憶する標準パター
ン記憶手段と、環境ノイズのレベルを検知するノイズレ
ベル検知手段と、選択手段とを備え、前記音声パターン
記憶手段は、複数の音声パターン記憶部からなり、前記
選択手段は、特徴抽出手段で抽出した音声の特徴量を音
声パターンとして記憶するときに、ノイズレベル検知手
段によって検知された環境ノイズのレベルに応じて複数
の音声パターン記憶部のうちの1つの音声パターン記憶
部を選択し、選択した音声パターン記憶部に特徴抽出手
段で抽出した音声の特徴量を音声パターンとして記憶す
るようになっており、また、前記標準パターン生成手段
は、選択手段によって選択された音声パターン記憶部に
記憶された各音声パターンに基づいて標準パターンを生
成することを特徴とする音声認識装置。 - 【請求項2】 請求項1記載の音声認識装置において、
前記標準パターン生成手段は、前記選択手段によって選
択された音声パターン記憶部に記憶されている音声パタ
ーンを任意に組み合わせた仮の標準パターンと入力され
た音声パターンとの類似度を計算し、最大の類似度が得
られる仮の標準パターンを標準パターンとして生成する
ことを特徴とする音声認識装置。 - 【請求項3】 入力された音声の特徴量を抽出し、抽出
した音声の特徴量を音声パターン記憶手段に音声パター
ンとして記憶し、記憶された各音声パターンに基づいて
標準パターンを生成して登録する標準パターン登録方法
であって、前記音声パターン記憶手段として、複数の音
声パターン記憶部を用意し、入力された音声の特徴量を
音声パターンとして記憶するときに、環境ノイズのレベ
ルに応じて複数の音声パターン記憶部のうちの1つの音
声パターン記憶部を選択し、選択した音声パターン記憶
部に音声の特徴量を音声パターンとして記憶し、選択さ
れた音声パターン記憶部に記憶された各音声パターンに
基づいて標準パターンを生成して登録することを特徴と
する標準パターン登録方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP01781297A JP3474071B2 (ja) | 1997-01-16 | 1997-01-16 | 音声認識装置および標準パターン登録方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP01781297A JP3474071B2 (ja) | 1997-01-16 | 1997-01-16 | 音声認識装置および標準パターン登録方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH10207483A JPH10207483A (ja) | 1998-08-07 |
| JP3474071B2 true JP3474071B2 (ja) | 2003-12-08 |
Family
ID=11954157
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP01781297A Expired - Fee Related JP3474071B2 (ja) | 1997-01-16 | 1997-01-16 | 音声認識装置および標準パターン登録方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3474071B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008111190A1 (ja) * | 2007-03-14 | 2008-09-18 | Pioneer Corporation | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム |
| US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
-
1997
- 1997-01-16 JP JP01781297A patent/JP3474071B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH10207483A (ja) | 1998-08-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6266637B1 (en) | Phrase splicing and variable substitution using a trainable speech synthesizer | |
| JP3337233B2 (ja) | 音声符号化方法及び装置 | |
| JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
| JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
| JP2003150187A (ja) | スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 | |
| EP3879526B1 (en) | Method and apparatus for reconstructing a voice conversation | |
| JP2019179257A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
| JPH06230800A (ja) | 音声データ圧縮及び再生の方法及び装置 | |
| US20090157397A1 (en) | Voice Rule-Synthesizer and Compressed Voice-Element Data Generator for the same | |
| CN118197329A (zh) | 一种基于语音转换的音色生成方法 | |
| JP3474071B2 (ja) | 音声認識装置および標準パターン登録方法 | |
| US8990092B2 (en) | Voice recognition device | |
| JP4005360B2 (ja) | 合成すべき音声応答の基本周波数の時間特性を定めるための方法 | |
| US6219636B1 (en) | Audio pitch coding method, apparatus, and program storage device calculating voicing and pitch of subframes of a frame | |
| JP3803302B2 (ja) | 映像要約装置 | |
| US12431150B2 (en) | Method and apparatus for reconstructing voice conversation | |
| JP3582934B2 (ja) | 音声認識装置および標準パターン登録方法 | |
| JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
| JP2931059B2 (ja) | 音声合成方式およびこれに用いる装置 | |
| JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
| KR101888059B1 (ko) | 문맥 기반 음성 모델 관리 장치 및 그 방법 | |
| JP3148322B2 (ja) | 音声認識装置 | |
| JP6251219B2 (ja) | 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム | |
| JP4758931B2 (ja) | 音声合成装置、方法、プログラム及びその記録媒体 | |
| JP2006508386A (ja) | サウンドフレームを正弦波成分と残留ノイズとに分離する方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080919 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080919 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090919 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090919 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100919 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130919 Year of fee payment: 10 |
|
| LAPS | Cancellation because of no payment of annual fees |