JP3058125B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3058125B2 JP3058125B2 JP9172067A JP17206797A JP3058125B2 JP 3058125 B2 JP3058125 B2 JP 3058125B2 JP 9172067 A JP9172067 A JP 9172067A JP 17206797 A JP17206797 A JP 17206797A JP 3058125 B2 JP3058125 B2 JP 3058125B2
- Authority
- JP
- Japan
- Prior art keywords
- point
- start point
- pause
- recognition
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012882 sequential analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Description
ョンシステムにおける音声を用いた地名の検索等に用い
ることのできる、音声認識装置に関するものである。
力手段である音声を用いたマシンインタフェースを実現
させる技術である。音声による入力を行う場合、発声の
途中で意味的、あるいは生理的に短い無音区間(以下、
ポーズと称する。)を入れることが多い。このため、従
来、特開平6−259090号公報や特開平6−202
689号公報に示すように、話者にとり、より自然に音
声による入力が行えるよう、発声のポーズの時点で認識
結果の出力を行なうことにより、認識結果の確認が容易
にできる音声認識装置があった。
示される音声認識装置は、連続音声を認識するにあた
り、ポーズを文の区切りの単位とし、ポーズが検出され
た時点で、それまでの認識結果の表示および、それに対
するアプリケーションの実行を行っている。発声が続い
た場合、継続して認識を行い、次のポーズが検出された
時点で、新たにそれまでの認識結果を表示している。
音声認識装置は、音声を認識するための語順を規定する
情報の中のポーズが出現する可能性のある部分に、それ
ぞれポーズの時間を設定し、発声中のポーズの時間が設
定時間を越えた場合、それまでの認識結果を提示する。
このとき、認識結果によって、それまでの認識結果を基
に不足情報の提示を行い、再入力を促すことが可能であ
る。
0号公報に示される音声認識装置では、例えば、電子情
報通信学会によって1988年7月に出版された、電子
情報通信学会論文誌D Vo1.J71 No.9 pp1650-1659に掲載
されている、迫江らによって書かれた、「フレーム同
期、ビームサーチ、ベクトル量子化の統合による、DP
マッチングの高速化」(以下、参考文献1と称する)に
示されるような、有限状態オートマトンで表現された文
法に従って単語パターンを接続して連続音声を認識する
方法を用いている。この場合、全ての単語パターンを認
識対象として、最適単語列を探索することにより音声認
識を行うことになる。ポーズが検出されたことにより、
認識結果が出力されたあと、続いて発声した音声を認識
する場合、認識結果が得られた時点で既に認識されてい
る単語を含む文法全体を探索の対象として処理を行うた
め、単語の探索範囲を小さくすることができない。この
ため、認識結果が得られて確認された後も探索範囲が大
きいままであり、認識結果が得られたことによる演算量
と、認識性能の向上が期待できない。また、ポーズ後の
認識結果に言い直しの発声を許す場合、言い直しを含む
全ての単語の組合せが探索の対象となるので、探索範囲
が大きくなり多くの計算量が必要となり、かつ、認識性
能を高くできないという欠点がある。さらに、参考文献
1に示されるような、全体として最適な単語列を認識結
果とする方式を用いている場合、ポーズが検出された時
点で認識結果が出力され既に結果が確認されている認識
結果の単語でも、全ての発話が終了した時点で全体とし
て最適な単語列を与える単語に変化してしまう可能性が
ある。
される音声認識装置では、認識結果によって再入力を促
すことを行っているが、例えば、再入力に対する文法を
新たに用意する必要がある。
認識結果に続けて発声したり、言い直しを発声する際
に、演算量を少なくし、さらに認識精度を向上し、且つ
すでに確認された結果が変化しないという使いやすい音
声認識装置を提供することである。
認識対象の単語に関する単語情報と各単語の接続関係の
情報と文が始まる可能性のある接続点である1つ以上の
開始点情報と文が区切れる可能性のある接続点である1
つ以上の休止点とを含む辞書情報を保持する辞書記録部
と、辞書情報をもとにあらかじめ指定された1つ以上の
開始点から、入力された音声に対する認識処理を行い休
止点までの認識結果を出力する音声認識部と、認識結果
に従って休止点に対応して次の認識処理の開始点を指定
する開始点制御部とを有することを特徴とする。
の音声認識装置において、認識結果に従って休止点を次
の認識処理に対する開始点として指定する開始点制御部
とを有することを特徴とする。
の音声認識装置において、認識結果に従って休止点に対
応して次の認識処理の開始点、および、休止点から文の
先頭に至る単語の接続点に含まれる開始点を、次の認識
処理に対する開始点として指定する開始点制御部とを有
することを特徴とする。
ば、参考文献1に示されるような、有限状態オートマト
ンで表現された文法に従い標準パターンを接続して連続
音声を認識する方法において、認識を開始する単語を制
御することにより、続きの発声および、言い直しの発声
の場合に効率よく音声を入力することができるようにす
るものである。ここで、有限状態オートマトンに対し、
接続されている任意の単語から認識を開始することを指
定でき、任意の単語での認識の終了を指定することがで
きるとする。また、本発明の音声認識装置では、例えば
認識の単位に、特開平6−259090号公報で示され
る300ミリ秒以上の無音区間であるポーズで区切られ
た区間とすることができる。図3は、有限状態オートマ
トンで表現された文法にしたがった標準パターンの接続
の一例である。実線は単語単位の標準パターンをあらわ
す。標準パターンの先頭を認識を開始することのできる
開始点401〜404とし、最後尾を認識を終了するこ
とができる休止点405〜411とする。また、各単語
は、破線で表された接続情報で接続されている。
の、ポーズ後の発声が、ポーズ前の発声の続きの内容で
ある場合の認識の方法を従来の方法と比較しながら説明
する。例えば、ポーズによって、第1発声「神奈川県横
浜市」と、第2発声「港北区」に分かれている発声が入
力された場合、まず、認識処理の結果、第1発声の認識
結果「神奈川県横浜市」と、それに対応する休止点40
6が出力される。続いて、第2発声が入力された場合の
処理について説明する。従来の有限状態オートマトンに
従って認識を行う音声認識装置で、第2発声の認識を行
う場合、第1発声と同様、開始点401〜404の全て
を認識の開始点として指定する方法を用いることができ
る。これにより、再度認識を開始することにより、第2
発声を認識できる。ただし、この場合は常に全ての単語
の探索を行う必要があるため、演算量が減ることがな
い。
初に文の先頭の開始点401を指定し、音声認識部によ
って上記のような第1発声の認識結果が出力された後、
出力された休止点406の情報を基に、休止点406の
接続先である開始点403を新たな開始点として指定す
る。これにより、開始点403以降の文法のみ探索を行
うことになるので、探索範囲を従来より小さくすること
ができるので、演算量も減らすことができる。さらに、
認識対象の候補数が減るので、認識性能も向上する可能
性がある。また、本発明では、第1発声の認識結果「神
奈川県横浜市」は、第2発声の認識結果が「港北区」や
「金沢区」のいずれでも、「神奈川県横浜市」の認識結
果は変化せずに保存される。一方、従来の有限オートマ
トンに従って認識を行う音声認識装置では、「神奈川県
横浜市港北区」の発声全体が「神奈川県川崎市中原区」
に近い場合、第1発声の認識結果である「神奈川県横浜
市」は「神奈川県川崎市」に変化してしまうので、「神
奈川県横浜市」の認識結果が生かされない。
音声認識装置の、ポーズ後の発声が、ポーズ前の発声の
言い直しの内容である場合の認識の方法を、従来の方法
と比較しながら説明する。例えば、第1発声「神奈川県
横浜市」の後ポーズをおいて、第2発声に「横浜市」の
言い直しである「川崎市」が入力された場合、先ず第1
発声の認識結果「神奈川県横浜市」に対応する休止点4
06が出力される。続いて、第2発声が入力された場
合、開始点401〜404の全てを認識の開始点として
指定するような従来の方法では、全ての単語の探索を行
うことにより言い直しを認識することも可能である。た
だし、演算量が減ることがない。
は、最初に文の先頭の開始点101を認識の開始点とし
て指定し、音声認識部によって上記のような第1発声の
認識結果が出力された場合、休止点406の接続先であ
る開始点403に加えて、文の始まりから休止点406
に至る単語列である単語の開始点402と、開始点40
2の接続元の単語の開始点401が新たな認識の開始点
として指定される。これにより、開始点404から開始
される単語など、指定された開始点以外の探索を行う必
要がないため、探索範囲を従来より小さくすることがで
きる。これにより、演算量も減らすことができ、認識性
能も向上する。
明する。図1は、本発明の音声認識装置の第1の実施例
の形態を示すブロック図である。第1の実施例の音声認
識装置は、音声認識部101と、辞書記録部102と、
第1開始点制御部103と、から構成されている。辞書
記録部102は、登録された複数の認識対象の単語の音
響的特徴を表す標準パターンと、各単語の接続情報と開
始点情報と休止点情報が記録されている。各単語の標準
パターンや接続情報と休止情報と開始点情報の1例とし
て、先に説明した図3のような有限状態オートマトンで
表現された文法を用いることにする。音声認識部101
は、入力信号Sから、特開平6−259090号公報に
示されるようにパワー情報を用いて音声区間とポーズを
検出し、音声区間を辞書記憶部102に記録されている
情報を用いて、参考文献1のような、有限状態オートマ
トンで記述された文法に従う連続音声認識を行う。ポー
ズが検出された場合、単語列と、それに対応する休止点
と、その休止点の接続先の開始点を認識結果Rとして出
力する。第1開始点制御部103は、音声認識部101
から出力された認識結果R中の休止点を基に、認識結果
R中の休止点の接続先の開始点に設定し、この設定され
た開始点を、次の発声を認識するための開始点情報Aと
して出力する。
「神奈川県横浜市」と第2発声「港北区」が、発声の間
にポーズを挿入して発声されたとする。最初、開始点情
報Aには、文の始まりの開始点401が指定されてい
る。音声認識部101は、第1発声「神奈川県横浜市」
の入力信号Sが入力され、開始点情報Aである開始点4
01から単語の探索を行う。ポーズが検出された場合、
類似度が最大の単語列「神奈川県横浜市」とそれに対応
する休止点406と休止点406の接続先の開始点40
3を認識結果Rとして出力する。第1開始点制御部10
3は、認識結果Rが入力され、認識結果R中の休止点4
06の接続先である開始点403を第2発声の音声認識
の単語の探索の開始点に指定し、開始点情報Aとして出
力する。音声認識部101は、開始点403から、第2
発声の単語の探索を行う。これにより、認識結果Rの単
語「港北区」が得られる。
を用いて説明する。図2は、第2の実施例の音声認識装
置を示すブロック図である。第2の実施例の音声認識装
置は、音声認識部101と、辞書記録部102と、第2
開始点制御部201と、から構成されている。音声認識
部101と、辞書記録部102は、第1実施例と共通で
ある。第2開始点制御部201は、辞書記録部102を
参照し、次の発声を認識するための開始点を認識結果R
中の休止点の接続先と、同休止点の単語の開始点と、同
休止点の単語の接続元の単語の開始点と、更に文の始ま
りまでさかのぼった開始点全てを、開始点情報Aとして
出力する。
「神奈川県横浜市」と第2発声「川崎市」が、発声の間
にポーズを挿入して発声されたとする。最初、開始点情
報Aには、文の始まりの開始点401が指定されてい
る。音声認識部101は、第1発声「神奈川県横浜市」
の入力信号Sが入力され、開始点情報Aである開始点4
01から単語の探索を行う。ポーズが検出された場合、
類似度が最大の単語列である「神奈川県横浜市」とそれ
に対応する休止点406とを認識結果Rとして出力す
る。第2開始点制御部201は、辞書記録部102を参
照し、認識結果R中の休止点406の接続先である開始
点403と、休止点406の単語「横浜市」の開始点4
02と、休止点406の単語「横浜市」の接続元の単語
「神奈川県」の開始点401を、第2発声の音声認識の
単語の探索の開始点に指定し、開始点情報Aとして出力
する。音声認識部101は、開始点401〜403か
ら、第2発声の単語の探索を行う。これにより、認識結
果Rの単語「川崎市」が得られる。
上記で用いることのできる音声認識方法は、参考文献1
で用いられているDPマッチングに限定されるものでは
なく、株式会社オーム社で出版された株式会社国際電気
通信基礎技術研究所編の「ATR先端テクノロジーシリ
ーズ自動翻訳電話」(以下参考文献2と称する)の20
〜38ページに示されるようなHMMによる方法等も用
いることができる。また、単語の接続情報は、上記に限
定されるものではなく、参考文献2の49〜68ページ
に示されるような、文脈自由文法等の文法等によって
も、表現できる。さらに、上記では、認識の単位にポー
ズによって区切られた区間を用いたが、ワードスポティ
ング等の方法によっての抽出された単語列を認識の単位
に用いることもできる。本発明による第2実施例による
音声認識装置の第2開始点制御部201では、認識結果
Rの休止点から、文の始まりまでさかのぼって全ての開
始点を開始点情報Aとして選択しているが、例えば1つ
前の単語迄のように定められた1部に限定することもで
きる。
ポーズ等の後に、次の発声の認識を行うために、ポーズ
の前の認識結果の続きの発声の認識に必要な開始点や、
ポーズの前の認識結果に対する言い直しの発声の認識に
必要な開始点を指定することによって、ポーズの後の発
声の認識を行う際の単語の探索範囲が減少するため、演
算量が減り、認識性能を向上させることができる。ま
た、続きの認識を行う場合、既に確認された認識結果は
変化しないので、使いやすい音声認識装置を提供でき
る。
ク図である。
ク図である。
図
Claims (7)
- 【請求項1】 認識対象の単語に関する単語情報と各単
語の接続関係の情報と文が始まる可能性のある接続点で
ある1つ以上の開始点の情報と文が区切れる可能性のあ
る接続点である1つ以上の休止点の情報とを含む辞書情
報を保持する辞書記録部と、前記辞書情報をもとにあら
かじめ指定された1つ以上の開始点から入力された音声
に対する認識処理を行い休止点までの認識結果を出力す
る音声認識部と、前記認識結果に従って前記休止点に対
応して次の認識処理の開始点を指定する開始点制御部と
を有してなる音声認識装置。 - 【請求項2】 請求項1の音声認識装置において、前記
認識結果に従って前記休止点を次の認識処理に対する開
始点として指定する開始点制御部とを有してなる音声認
識装置。 - 【請求項3】 請求項1の音声認識装置において前記認
識結果に従って、前記休止点に対応して次の認識処理の
開始点、および、前記休止点から文の先頭に至る単語の
接続点に含まれる開始点を、次の認識処理に対する開始
点として指定する開始点制御部とを有してなる音声認識
装置。 - 【請求項4】 前記開始点制御部が、 前記休止点と一致する開始点と、更に前記休止点から文
の先頭に至る単語の接続点に含まれる開始点とを次の認
識処理に対する開始点として指定する開始点制御部を有
する請求項2記載の音声認識装置。 - 【請求項5】 前記辞書情報が、 認識対象となる単語に関する音声パターンを含む単語情
報と、 前記単語の接続位置を示す位置情報と、 文が始まる可能性のある接続点である1つ以上の開始点
情報と、 文が区切れる可能性のある接続点である1つ以上の休止
点情報を含む辞書情報を有する請求項1記載の音声認識
装置。 - 【請求項6】 前記休止点と対応する開始点が、 任意の単語情報の1つの休止点に接続する可能性のある
複数の前記単語情報の開始点である請求項1または3記
載の音声認識装置。 - 【請求項7】 前記休止点と一致する開始点が、 任意の単語情報の1つの休止点に接続される複数の前記
単語情報の中から選択された開始点である請求項2また
は4記載の音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9172067A JP3058125B2 (ja) | 1997-06-27 | 1997-06-27 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9172067A JP3058125B2 (ja) | 1997-06-27 | 1997-06-27 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH1124693A JPH1124693A (ja) | 1999-01-29 |
| JP3058125B2 true JP3058125B2 (ja) | 2000-07-04 |
Family
ID=15934929
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9172067A Expired - Fee Related JP3058125B2 (ja) | 1997-06-27 | 1997-06-27 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3058125B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7240002B2 (en) | 2000-11-07 | 2007-07-03 | Sony Corporation | Speech recognition apparatus |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3358498B2 (ja) * | 1997-07-17 | 2002-12-16 | 株式会社デンソー | 音声認識装置及びナビゲーションシステム |
| JP3654262B2 (ja) * | 2002-05-09 | 2005-06-02 | 株式会社デンソー | 音声認識装置及びナビゲーションシステム |
| JP2007057844A (ja) | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
| US8706487B2 (en) | 2006-12-08 | 2014-04-22 | Nec Corporation | Audio recognition apparatus and speech recognition method using acoustic models and language models |
| KR101422020B1 (ko) * | 2007-11-27 | 2014-07-23 | 엘지전자 주식회사 | 음성 인식 방법 및 장치 |
| JPWO2012093451A1 (ja) * | 2011-01-07 | 2014-06-09 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
-
1997
- 1997-06-27 JP JP9172067A patent/JP3058125B2/ja not_active Expired - Fee Related
Non-Patent Citations (4)
| Title |
|---|
| ICOT研究速報 TM−0489「韻律情報を用いた音声会話文の文構造推定方式」,p.1−33,April 1988 |
| ICOT研究速報 TM−1123「逐次的解析における音声情報の利用」,p.1−10,October 1991 |
| 情報処理学会研究報告[自然言語処理]Vol.91,No.80,NL−85−7,「逐次的解析における音声情報の利用」p.49−56(1991/9/20) |
| 情報処理学会研究報告[音声言語情報処理]Vol.95,No.51,SLP−6−5,「自然言語発話の言語現象と音声認識用日本語文法」p.27−34,(1995/5/25) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7240002B2 (en) | 2000-11-07 | 2007-07-03 | Sony Corporation | Speech recognition apparatus |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH1124693A (ja) | 1999-01-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8275621B2 (en) | Determining text to speech pronunciation based on an utterance from a user | |
| US6243680B1 (en) | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances | |
| US8224645B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
| US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
| JP3126985B2 (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
| JP4481035B2 (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
| US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
| EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
| EP0769184B1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
| US20020173956A1 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
| JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
| JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
| JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
| JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
| JPH06214587A (ja) | 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法 | |
| JPH10198396A (ja) | ユーザが定義したフレーズの話者に依存しない認識方法及びシステム | |
| US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
| US20020152068A1 (en) | New language context dependent data labeling | |
| JP3058125B2 (ja) | 音声認識装置 | |
| JP3277579B2 (ja) | 音声認識方法および装置 | |
| JP2871420B2 (ja) | 音声対話システム | |
| US6934680B2 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
| JPH09179578A (ja) | 単音節認識装置 | |
| JPH07230293A (ja) | 音声認識装置 | |
| JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080421 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090421 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100421 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110421 Year of fee payment: 11 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110421 Year of fee payment: 11 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120421 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120421 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130421 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140421 Year of fee payment: 14 |
|
| LAPS | Cancellation because of no payment of annual fees |