JP3058125B2

JP3058125B2 - 音声認識装置

Info

Publication number: JP3058125B2
Application number: JP9172067A
Authority: JP
Inventors: 正江森
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-06-27
Filing date: 1997-06-27
Publication date: 2000-07-04
Anticipated expiration: 2017-06-27
Also published as: JPH1124693A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、カーナビゲーシ
ョンシステムにおける音声を用いた地名の検索等に用い
ることのできる、音声認識装置に関するものである。

【０００２】

【従来の技術】音声認識の技術は、より自然で容易な入
力手段である音声を用いたマシンインタフェースを実現
させる技術である。音声による入力を行う場合、発声の
途中で意味的、あるいは生理的に短い無音区間（以下、
ポーズと称する。）を入れることが多い。このため、従
来、特開平６−２５９０９０号公報や特開平６−２０２
６８９号公報に示すように、話者にとり、より自然に音
声による入力が行えるよう、発声のポーズの時点で認識
結果の出力を行なうことにより、認識結果の確認が容易
にできる音声認識装置があった。

【０００３】例えば、特開平６−２５９０９０号公報に
示される音声認識装置は、連続音声を認識するにあた
り、ポーズを文の区切りの単位とし、ポーズが検出され
た時点で、それまでの認識結果の表示および、それに対
するアプリケーションの実行を行っている。発声が続い
た場合、継続して認識を行い、次のポーズが検出された
時点で、新たにそれまでの認識結果を表示している。

【０００４】特開平６−２０２６８９号公報に示される
音声認識装置は、音声を認識するための語順を規定する
情報の中のポーズが出現する可能性のある部分に、それ
ぞれポーズの時間を設定し、発声中のポーズの時間が設
定時間を越えた場合、それまでの認識結果を提示する。
このとき、認識結果によって、それまでの認識結果を基
に不足情報の提示を行い、再入力を促すことが可能であ
る。

【０００５】

【発明が解決しようとする課題】特開平６−２５９０９
０号公報に示される音声認識装置では、例えば、電子情
報通信学会によって１９８８年７月に出版された、電子
情報通信学会論文誌D Vo1.J71 No.9 pp1650-1659に掲載
されている、迫江らによって書かれた、「フレーム同
期、ビームサーチ、ベクトル量子化の統合による、ＤＰ
マッチングの高速化」（以下、参考文献１と称する）に
示されるような、有限状態オートマトンで表現された文
法に従って単語パターンを接続して連続音声を認識する
方法を用いている。この場合、全ての単語パターンを認
識対象として、最適単語列を探索することにより音声認
識を行うことになる。ポーズが検出されたことにより、
認識結果が出力されたあと、続いて発声した音声を認識
する場合、認識結果が得られた時点で既に認識されてい
る単語を含む文法全体を探索の対象として処理を行うた
め、単語の探索範囲を小さくすることができない。この
ため、認識結果が得られて確認された後も探索範囲が大
きいままであり、認識結果が得られたことによる演算量
と、認識性能の向上が期待できない。また、ポーズ後の
認識結果に言い直しの発声を許す場合、言い直しを含む
全ての単語の組合せが探索の対象となるので、探索範囲
が大きくなり多くの計算量が必要となり、かつ、認識性
能を高くできないという欠点がある。さらに、参考文献
１に示されるような、全体として最適な単語列を認識結
果とする方式を用いている場合、ポーズが検出された時
点で認識結果が出力され既に結果が確認されている認識
結果の単語でも、全ての発話が終了した時点で全体とし
て最適な単語列を与える単語に変化してしまう可能性が
ある。

【０００６】また、特開平６−２０２６８９号公報に示
される音声認識装置では、認識結果によって再入力を促
すことを行っているが、例えば、再入力に対する文法を
新たに用意する必要がある。

【０００７】本発明の目的は、文の区切りで出力された
認識結果に続けて発声したり、言い直しを発声する際
に、演算量を少なくし、さらに認識精度を向上し、且つ
すでに確認された結果が変化しないという使いやすい音
声認識装置を提供することである。

【０００８】

【問題を解決する手段】第１の発明の音声認識装置は、
認識対象の単語に関する単語情報と各単語の接続関係の
情報と文が始まる可能性のある接続点である１つ以上の
開始点情報と文が区切れる可能性のある接続点である１
つ以上の休止点とを含む辞書情報を保持する辞書記録部
と、辞書情報をもとにあらかじめ指定された１つ以上の
開始点から、入力された音声に対する認識処理を行い休
止点までの認識結果を出力する音声認識部と、認識結果
に従って休止点に対応して次の認識処理の開始点を指定
する開始点制御部とを有することを特徴とする。

【０００９】第２の発明の音声認識装置は、第１の発明
の音声認識装置において、認識結果に従って休止点を次
の認識処理に対する開始点として指定する開始点制御部
とを有することを特徴とする。

【００１０】第３の発明の音声認識装置は、第１の発明
の音声認識装置において、認識結果に従って休止点に対
応して次の認識処理の開始点、および、休止点から文の
先頭に至る単語の接続点に含まれる開始点を、次の認識
処理に対する開始点として指定する開始点制御部とを有
することを特徴とする。

【００１１】

【発明の実施の形態】本発明の音声認識装置は、例え
ば、参考文献１に示されるような、有限状態オートマト
ンで表現された文法に従い標準パターンを接続して連続
音声を認識する方法において、認識を開始する単語を制
御することにより、続きの発声および、言い直しの発声
の場合に効率よく音声を入力することができるようにす
るものである。ここで、有限状態オートマトンに対し、
接続されている任意の単語から認識を開始することを指
定でき、任意の単語での認識の終了を指定することがで
きるとする。また、本発明の音声認識装置では、例えば
認識の単位に、特開平６−２５９０９０号公報で示され
る３００ミリ秒以上の無音区間であるポーズで区切られ
た区間とすることができる。図３は、有限状態オートマ
トンで表現された文法にしたがった標準パターンの接続
の一例である。実線は単語単位の標準パターンをあらわ
す。標準パターンの先頭を認識を開始することのできる
開始点４０１〜４０４とし、最後尾を認識を終了するこ
とができる休止点４０５〜４１１とする。また、各単語
は、破線で表された接続情報で接続されている。

【００１２】次に、図３を用いて本発明の音声認識装置
の、ポーズ後の発声が、ポーズ前の発声の続きの内容で
ある場合の認識の方法を従来の方法と比較しながら説明
する。例えば、ポーズによって、第１発声「神奈川県横
浜市」と、第２発声「港北区」に分かれている発声が入
力された場合、まず、認識処理の結果、第１発声の認識
結果「神奈川県横浜市」と、それに対応する休止点４０
６が出力される。続いて、第２発声が入力された場合の
処理について説明する。従来の有限状態オートマトンに
従って認識を行う音声認識装置で、第２発声の認識を行
う場合、第１発声と同様、開始点４０１〜４０４の全て
を認識の開始点として指定する方法を用いることができ
る。これにより、再度認識を開始することにより、第２
発声を認識できる。ただし、この場合は常に全ての単語
の探索を行う必要があるため、演算量が減ることがな
い。

【００１３】一方、本発明における開始点制御部は、最
初に文の先頭の開始点４０１を指定し、音声認識部によ
って上記のような第１発声の認識結果が出力された後、
出力された休止点４０６の情報を基に、休止点４０６の
接続先である開始点４０３を新たな開始点として指定す
る。これにより、開始点４０３以降の文法のみ探索を行
うことになるので、探索範囲を従来より小さくすること
ができるので、演算量も減らすことができる。さらに、
認識対象の候補数が減るので、認識性能も向上する可能
性がある。また、本発明では、第１発声の認識結果「神
奈川県横浜市」は、第２発声の認識結果が「港北区」や
「金沢区」のいずれでも、「神奈川県横浜市」の認識結
果は変化せずに保存される。一方、従来の有限オートマ
トンに従って認識を行う音声認識装置では、「神奈川県
横浜市港北区」の発声全体が「神奈川県川崎市中原区」
に近い場合、第１発声の認識結果である「神奈川県横浜
市」は「神奈川県川崎市」に変化してしまうので、「神
奈川県横浜市」の認識結果が生かされない。

【００１４】次に、図３を用いて本発明の第３の発明の
音声認識装置の、ポーズ後の発声が、ポーズ前の発声の
言い直しの内容である場合の認識の方法を、従来の方法
と比較しながら説明する。例えば、第１発声「神奈川県
横浜市」の後ポーズをおいて、第２発声に「横浜市」の
言い直しである「川崎市」が入力された場合、先ず第１
発声の認識結果「神奈川県横浜市」に対応する休止点４
０６が出力される。続いて、第２発声が入力された場
合、開始点４０１〜４０４の全てを認識の開始点として
指定するような従来の方法では、全ての単語の探索を行
うことにより言い直しを認識することも可能である。た
だし、演算量が減ることがない。

【００１５】一方、本発明における第２開始点制御部で
は、最初に文の先頭の開始点１０１を認識の開始点とし
て指定し、音声認識部によって上記のような第１発声の
認識結果が出力された場合、休止点４０６の接続先であ
る開始点４０３に加えて、文の始まりから休止点４０６
に至る単語列である単語の開始点４０２と、開始点４０
２の接続元の単語の開始点４０１が新たな認識の開始点
として指定される。これにより、開始点４０４から開始
される単語など、指定された開始点以外の探索を行う必
要がないため、探索範囲を従来より小さくすることがで
きる。これにより、演算量も減らすことができ、認識性
能も向上する。

【００１６】

【実施例】次に、本発明による実施例を図面を用いて説
明する。図１は、本発明の音声認識装置の第１の実施例
の形態を示すブロック図である。第１の実施例の音声認
識装置は、音声認識部１０１と、辞書記録部１０２と、
第１開始点制御部１０３と、から構成されている。辞書
記録部１０２は、登録された複数の認識対象の単語の音
響的特徴を表す標準パターンと、各単語の接続情報と開
始点情報と休止点情報が記録されている。各単語の標準
パターンや接続情報と休止情報と開始点情報の１例とし
て、先に説明した図３のような有限状態オートマトンで
表現された文法を用いることにする。音声認識部１０１
は、入力信号Ｓから、特開平６−２５９０９０号公報に
示されるようにパワー情報を用いて音声区間とポーズを
検出し、音声区間を辞書記憶部１０２に記録されている
情報を用いて、参考文献１のような、有限状態オートマ
トンで記述された文法に従う連続音声認識を行う。ポー
ズが検出された場合、単語列と、それに対応する休止点
と、その休止点の接続先の開始点を認識結果Ｒとして出
力する。第１開始点制御部１０３は、音声認識部１０１
から出力された認識結果Ｒ中の休止点を基に、認識結果
Ｒ中の休止点の接続先の開始点に設定し、この設定され
た開始点を、次の発声を認識するための開始点情報Ａと
して出力する。

【００１７】次に動作を説明する。例えば、第１発声
「神奈川県横浜市」と第２発声「港北区」が、発声の間
にポーズを挿入して発声されたとする。最初、開始点情
報Ａには、文の始まりの開始点４０１が指定されてい
る。音声認識部１０１は、第１発声「神奈川県横浜市」
の入力信号Ｓが入力され、開始点情報Ａである開始点４
０１から単語の探索を行う。ポーズが検出された場合、
類似度が最大の単語列「神奈川県横浜市」とそれに対応
する休止点４０６と休止点４０６の接続先の開始点４０
３を認識結果Ｒとして出力する。第１開始点制御部１０
３は、認識結果Ｒが入力され、認識結果Ｒ中の休止点４
０６の接続先である開始点４０３を第２発声の音声認識
の単語の探索の開始点に指定し、開始点情報Ａとして出
力する。音声認識部１０１は、開始点４０３から、第２
発声の単語の探索を行う。これにより、認識結果Ｒの単
語「港北区」が得られる。

【００１８】以下、本発明に対する第２の実施例を図面
を用いて説明する。図２は、第２の実施例の音声認識装
置を示すブロック図である。第２の実施例の音声認識装
置は、音声認識部１０１と、辞書記録部１０２と、第２
開始点制御部２０１と、から構成されている。音声認識
部１０１と、辞書記録部１０２は、第１実施例と共通で
ある。第２開始点制御部２０１は、辞書記録部１０２を
参照し、次の発声を認識するための開始点を認識結果Ｒ
中の休止点の接続先と、同休止点の単語の開始点と、同
休止点の単語の接続元の単語の開始点と、更に文の始ま
りまでさかのぼった開始点全てを、開始点情報Ａとして
出力する。

【００１９】次に動作を説明する。例えば、第１発声
「神奈川県横浜市」と第２発声「川崎市」が、発声の間
にポーズを挿入して発声されたとする。最初、開始点情
報Ａには、文の始まりの開始点４０１が指定されてい
る。音声認識部１０１は、第１発声「神奈川県横浜市」
の入力信号Ｓが入力され、開始点情報Ａである開始点４
０１から単語の探索を行う。ポーズが検出された場合、
類似度が最大の単語列である「神奈川県横浜市」とそれ
に対応する休止点４０６とを認識結果Ｒとして出力す
る。第２開始点制御部２０１は、辞書記録部１０２を参
照し、認識結果Ｒ中の休止点４０６の接続先である開始
点４０３と、休止点４０６の単語「横浜市」の開始点４
０２と、休止点４０６の単語「横浜市」の接続元の単語
「神奈川県」の開始点４０１を、第２発声の音声認識の
単語の探索の開始点に指定し、開始点情報Ａとして出力
する。音声認識部１０１は、開始点４０１〜４０３か
ら、第２発声の単語の探索を行う。これにより、認識結
果Ｒの単語「川崎市」が得られる。

【００２０】以上、本発明による実施例を説明したが、
上記で用いることのできる音声認識方法は、参考文献１
で用いられているＤＰマッチングに限定されるものでは
なく、株式会社オーム社で出版された株式会社国際電気
通信基礎技術研究所編の「ＡＴＲ先端テクノロジーシリ
ーズ自動翻訳電話」（以下参考文献２と称する）の２０
〜３８ページに示されるようなＨＭＭによる方法等も用
いることができる。また、単語の接続情報は、上記に限
定されるものではなく、参考文献２の４９〜６８ページ
に示されるような、文脈自由文法等の文法等によって
も、表現できる。さらに、上記では、認識の単位にポー
ズによって区切られた区間を用いたが、ワードスポティ
ング等の方法によっての抽出された単語列を認識の単位
に用いることもできる。本発明による第２実施例による
音声認識装置の第２開始点制御部２０１では、認識結果
Ｒの休止点から、文の始まりまでさかのぼって全ての開
始点を開始点情報Ａとして選択しているが、例えば１つ
前の単語迄のように定められた１部に限定することもで
きる。

【００２１】

【発明の効果】以上に説明したように、本発明によれば
ポーズ等の後に、次の発声の認識を行うために、ポーズ
の前の認識結果の続きの発声の認識に必要な開始点や、
ポーズの前の認識結果に対する言い直しの発声の認識に
必要な開始点を指定することによって、ポーズの後の発
声の認識を行う際の単語の探索範囲が減少するため、演
算量が減り、認識性能を向上させることができる。ま
た、続きの認識を行う場合、既に確認された認識結果は
変化しないので、使いやすい音声認識装置を提供でき
る。

【図面の簡単な説明】

【図１】本発明の第１の実施例を説明するためのブロッ
ク図である。

【図２】本発明の第２の実施例を説明するためのブロッ
ク図である。

【図３】有限状態オートマトンの一例を説明するための
図

【符号の説明】

１０１音声認識部１０２辞書記録部１０３第１開始点制御部２０１第２開始点制御部Ｓ入力信号Ｒ認識結果Ａ開始点情報

フロントページの続き (56)参考文献特開平６−202689（ＪＰ，Ａ) 特開昭59−62899（ＪＰ，Ａ) 特開昭61−240296（ＪＰ，Ａ) 特開昭61−245198（ＪＰ，Ａ) 特開平４−310000（ＪＰ，Ａ) 特開平７−104782（ＪＰ，Ａ) 特開平７−121192（ＪＰ，Ａ) 特開平10−78961（ＪＰ，Ａ) 特公平７−1437（ＪＰ，Ｂ２) 特公平７−43599（ＪＰ，Ｂ２) 情報処理学会研究報告［自然言語処理］Ｖｏｌ．91，Ｎｏ．80，ＮＬ−85− ７，「逐次的解析における音声情報の利用」ｐ．49−56（1991／９／20) 情報処理学会研究報告［音声言語情報処理］Ｖｏｌ．95，Ｎｏ．51，ＳＬＰ− ６−５，「自然言語発話の言語現象と音声認識用日本語文法」ｐ．27−34, （1995／５／25) ＩＣＯＴ研究速報ＴＭ−0489「韻律情報を用いた音声会話文の文構造推定方式」，ｐ．１−33，Ａｐｒｉｌ 1988 ＩＣＯＴ研究速報ＴＭ−1123「逐次的解析における音声情報の利用」，ｐ. １−10，Ｏｃｔｏｂｅｒ 1991 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/18 G10L 15/00 G10L 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】認識対象の単語に関する単語情報と各単
語の接続関係の情報と文が始まる可能性のある接続点で
ある１つ以上の開始点の情報と文が区切れる可能性のあ
る接続点である１つ以上の休止点の情報とを含む辞書情
報を保持する辞書記録部と、前記辞書情報をもとにあら
かじめ指定された１つ以上の開始点から入力された音声
に対する認識処理を行い休止点までの認識結果を出力す
る音声認識部と、前記認識結果に従って前記休止点に対
応して次の認識処理の開始点を指定する開始点制御部と
を有してなる音声認識装置。
【請求項２】請求項１の音声認識装置において、前記
認識結果に従って前記休止点を次の認識処理に対する開
始点として指定する開始点制御部とを有してなる音声認
識装置。
【請求項３】請求項１の音声認識装置において前記認
識結果に従って、前記休止点に対応して次の認識処理の
開始点、および、前記休止点から文の先頭に至る単語の
接続点に含まれる開始点を、次の認識処理に対する開始
点として指定する開始点制御部とを有してなる音声認識
装置。
【請求項４】前記開始点制御部が、前記休止点と一致する開始点と、更に前記休止点から文
の先頭に至る単語の接続点に含まれる開始点とを次の認
識処理に対する開始点として指定する開始点制御部を有
する請求項２記載の音声認識装置。
【請求項５】前記辞書情報が、認識対象となる単語に関する音声パターンを含む単語情
報と、前記単語の接続位置を示す位置情報と、文が始まる可能性のある接続点である１つ以上の開始点
情報と、文が区切れる可能性のある接続点である１つ以上の休止
点情報を含む辞書情報を有する請求項１記載の音声認識
装置。
【請求項６】前記休止点と対応する開始点が、任意の単語情報の1つの休止点に接続する可能性のある
複数の前記単語情報の開始点である請求項１または３記
載の音声認識装置。
【請求項７】前記休止点と一致する開始点が、任意の単語情報の1つの休止点に接続される複数の前記
単語情報の中から選択された開始点である請求項２また
は４記載の音声認識装置。