JP2003015688A - 音声認識方法および装置 - Google Patents
音声認識方法および装置Info
- Publication number
- JP2003015688A JP2003015688A JP2001201888A JP2001201888A JP2003015688A JP 2003015688 A JP2003015688 A JP 2003015688A JP 2001201888 A JP2001201888 A JP 2001201888A JP 2001201888 A JP2001201888 A JP 2001201888A JP 2003015688 A JP2003015688 A JP 2003015688A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- output
- word
- similarity
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Navigation (AREA)
- Traffic Control Systems (AREA)
Abstract
(57)【要約】
【課題】 トークバック機能付きの音声認識方法では、
認識結果を「○○○を表示します」と表現内容が固定的
であり、また、誤認識が発生した場合に音声入力操作を
繰り返す必要があった。 【解決手段】 入力した単語の音声データと単語辞書内
の音声パターンとの類似度を計算し、類似度の高い順に
5個の認識結果候補を取得し、類似度の高い順に1個ず
つトークバックにより出力して、類似度が基準よりも高
いものについては「○○○を表示します」と肯定表現と
し、類似度が基準よりも低いものについては「○○○で
すか」と間接疑問表現とし、さらにその認識結果が正し
いか間違っているかをユーザに音声により確認を求め、
正しい場合にはその認識結果を確定し、間違っている場
合には次候補の認識結果を表示する。
認識結果を「○○○を表示します」と表現内容が固定的
であり、また、誤認識が発生した場合に音声入力操作を
繰り返す必要があった。 【解決手段】 入力した単語の音声データと単語辞書内
の音声パターンとの類似度を計算し、類似度の高い順に
5個の認識結果候補を取得し、類似度の高い順に1個ず
つトークバックにより出力して、類似度が基準よりも高
いものについては「○○○を表示します」と肯定表現と
し、類似度が基準よりも低いものについては「○○○で
すか」と間接疑問表現とし、さらにその認識結果が正し
いか間違っているかをユーザに音声により確認を求め、
正しい場合にはその認識結果を確定し、間違っている場
合には次候補の認識結果を表示する。
Description
【0001】
【発明の属する技術分野】本発明は、入力操作の確認を
行うトークバック機能を備えた音声認識方法および装置
と車載ナビゲーション装置に関する。
行うトークバック機能を備えた音声認識方法および装置
と車載ナビゲーション装置に関する。
【0002】
【従来の技術】従来、この種の車載ナビゲーション装置
では、目的地の設定やルートの設定、施設の検索等を、
ディスプレイの前面に設けられたタッチパネルまたはリ
モコン操作の他に、音声認識技術を利用して音声入力に
より簡単に行うことができる。例えば音声入力ボタンを
押してから「○○○へ行く」と音声入力するだけで、そ
こを目的地に設定した推奨経路がディスプレイ上の地図
に表示される。また、施設の名称、住所、電話番号、郵
便番号等を、何段階かに分けて音声入力することによ
り、希望する施設や住居の検索が可能である。このよう
な車載ナビゲーション装置おける音声による入力は、ユ
ーザが車両の運転のために前方を注視しながら、またハ
ンドルから手を離すことなく入力できるので、安全運転
に大きく寄与することができる。また、装置に入力され
た音声に応答して音声を出力するトークバック機能によ
り、ユーザが入力操作した内容と装置が判断した内容と
が一致しているかどうかを確認することができ、大変便
利である。
では、目的地の設定やルートの設定、施設の検索等を、
ディスプレイの前面に設けられたタッチパネルまたはリ
モコン操作の他に、音声認識技術を利用して音声入力に
より簡単に行うことができる。例えば音声入力ボタンを
押してから「○○○へ行く」と音声入力するだけで、そ
こを目的地に設定した推奨経路がディスプレイ上の地図
に表示される。また、施設の名称、住所、電話番号、郵
便番号等を、何段階かに分けて音声入力することによ
り、希望する施設や住居の検索が可能である。このよう
な車載ナビゲーション装置おける音声による入力は、ユ
ーザが車両の運転のために前方を注視しながら、またハ
ンドルから手を離すことなく入力できるので、安全運転
に大きく寄与することができる。また、装置に入力され
た音声に応答して音声を出力するトークバック機能によ
り、ユーザが入力操作した内容と装置が判断した内容と
が一致しているかどうかを確認することができ、大変便
利である。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来のトークバック機能付きの音声認識方法では、例えば
「八王子駅」と音声入力した場合に、トークバックによ
り「八王子駅を表示します」と認識結果が音声により出
力されるが、その場合の表現内容が固定的である。ユー
ザが「八王子駅」を音声入力して、音声認識の結果、八
王子駅が正しく認識された場合はよいが、常に正しい音
声認識ができるとは限らない。話者の発音が不明確であ
ったり、外部の雑音が混入することにより、誤認識が発
生することがあり、このため通常は3回までの再入力が
可能になっている。そこで、「八王子駅」と音声入力し
たにも拘らず、誤って「王子駅」として認識され、「王
子駅を表示します」とトークバックが行われた場合、ユ
ーザは再びリモコンを操作して音声入力をやり直さなけ
ればならず、負担が大きくなるばかりでなく、装置の信
頼性に対して不満を持つことになる。
来のトークバック機能付きの音声認識方法では、例えば
「八王子駅」と音声入力した場合に、トークバックによ
り「八王子駅を表示します」と認識結果が音声により出
力されるが、その場合の表現内容が固定的である。ユー
ザが「八王子駅」を音声入力して、音声認識の結果、八
王子駅が正しく認識された場合はよいが、常に正しい音
声認識ができるとは限らない。話者の発音が不明確であ
ったり、外部の雑音が混入することにより、誤認識が発
生することがあり、このため通常は3回までの再入力が
可能になっている。そこで、「八王子駅」と音声入力し
たにも拘らず、誤って「王子駅」として認識され、「王
子駅を表示します」とトークバックが行われた場合、ユ
ーザは再びリモコンを操作して音声入力をやり直さなけ
ればならず、負担が大きくなるばかりでなく、装置の信
頼性に対して不満を持つことになる。
【0004】本発明は、このような従来の問題を解決す
るものであり、装置に対する信頼性を高めることがで
き、操作が簡単で使い勝手の良好な音声認識方法および
装置とそれを利用した車載ナビゲーション装置を提供す
ることを目的とする。
るものであり、装置に対する信頼性を高めることがで
き、操作が簡単で使い勝手の良好な音声認識方法および
装置とそれを利用した車載ナビゲーション装置を提供す
ることを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、本発明の音声認識方法は、入力した単語の音声デー
タと単語辞書内の音声パターンとの類似度を計算し、類
似度の高い順に複数の音声パターンを単語認識候補と
し、前記単語認識候補を音声で出力することにより入力
操作の確認を行う際に、類似度が基準よりも高いか低い
かによって出力される音声の表現内容を変えることを特
徴するものである。類似度の計算は、通常はゼロから9
999通りの計算結果が得られ、得点数が高いほど類似
度が高くなる。そこで、例えば3000点を基準とし
て、3000点以下の場合には誤認識の可能性が高くな
り、3000点を越えると誤認識の可能性が低くなるこ
とが経験的に知られているので、この点数を基準として
トークバックによる表現内容を変えることにより、ユー
ザは、装置がきちんと判断を行っていると理解し、装置
に対する信頼性を高めることができる。
に、本発明の音声認識方法は、入力した単語の音声デー
タと単語辞書内の音声パターンとの類似度を計算し、類
似度の高い順に複数の音声パターンを単語認識候補と
し、前記単語認識候補を音声で出力することにより入力
操作の確認を行う際に、類似度が基準よりも高いか低い
かによって出力される音声の表現内容を変えることを特
徴するものである。類似度の計算は、通常はゼロから9
999通りの計算結果が得られ、得点数が高いほど類似
度が高くなる。そこで、例えば3000点を基準とし
て、3000点以下の場合には誤認識の可能性が高くな
り、3000点を越えると誤認識の可能性が低くなるこ
とが経験的に知られているので、この点数を基準として
トークバックによる表現内容を変えることにより、ユー
ザは、装置がきちんと判断を行っていると理解し、装置
に対する信頼性を高めることができる。
【0006】また、本発明の音声認識方法は、前記類似
度が基準よりも高い場合には前記出力される音声の表現
内容を肯定形とし、前記類似度が基準よりも低い場合に
は前記出力される音声の表現内容を疑問形とすることを
特徴とするものであり、例えば類似度が高い場合は「○
○○を表示します」と表現し、類似度が低い場合には
「○○○ですか」と問いかける表現をすることにより、
ユーザは、装置がきちんと判断を行っていると理解し、
装置に対する信頼性をより高めることができる。
度が基準よりも高い場合には前記出力される音声の表現
内容を肯定形とし、前記類似度が基準よりも低い場合に
は前記出力される音声の表現内容を疑問形とすることを
特徴とするものであり、例えば類似度が高い場合は「○
○○を表示します」と表現し、類似度が低い場合には
「○○○ですか」と問いかける表現をすることにより、
ユーザは、装置がきちんと判断を行っていると理解し、
装置に対する信頼性をより高めることができる。
【0007】また、本発明の音声認識方法は、前記出力
される音声によりユーザに出力単語の「正」「否」の確
認を求め、「正」の場合にはその出力単語を確定し、
「否」の場合には次候補の単語を音声で出力することを
特徴するものであり、誤認識が発生した場合でも、従来
のように音声入力を再び行う必要がなく、例えば「いい
え」と発声するだけで次候補が表示されるので、ユーザ
にとっては負担が少なく、使い勝手を向上させることが
できる。
される音声によりユーザに出力単語の「正」「否」の確
認を求め、「正」の場合にはその出力単語を確定し、
「否」の場合には次候補の単語を音声で出力することを
特徴するものであり、誤認識が発生した場合でも、従来
のように音声入力を再び行う必要がなく、例えば「いい
え」と発声するだけで次候補が表示されるので、ユーザ
にとっては負担が少なく、使い勝手を向上させることが
できる。
【0008】また、本発明の音声認識装置は、入力した
単語の音声データと単語辞書内の音声パターンとの類似
度を計算し、類似度の高い順に複数の音声パターンを単
語認識候補として出力することにより入力操作の確認を
行う音声認識手段と、前記出力される音声により確認を
行う際に、類似度が基準よりも高いか低いかによって前
記出力される音声による表現内容を変える制御手段とを
備えたものであり、例えば類似度が高い場合は「○○○
を表示します」と表現し、類似度が低い場合には「○○
○ですか」と問いかける表現をすることにより、ユーザ
は装置がきちんと判断を行っていると理解し、装置に対
する信頼性をより高めることができる。
単語の音声データと単語辞書内の音声パターンとの類似
度を計算し、類似度の高い順に複数の音声パターンを単
語認識候補として出力することにより入力操作の確認を
行う音声認識手段と、前記出力される音声により確認を
行う際に、類似度が基準よりも高いか低いかによって前
記出力される音声による表現内容を変える制御手段とを
備えたものであり、例えば類似度が高い場合は「○○○
を表示します」と表現し、類似度が低い場合には「○○
○ですか」と問いかける表現をすることにより、ユーザ
は装置がきちんと判断を行っていると理解し、装置に対
する信頼性をより高めることができる。
【0009】また、本発明の音声認識装置は、前記制御
手段が、前記出力される音声によりユーザに出力単語の
「正」「否」の確認を求め、「正」の場合にはその出力
単語を確定し、「否」の場合には次候補の単語を音声で
出力することを特徴するものであり、誤認識が発生した
場合でも、従来のように音声入力を再び行う必要がな
く、例えば「いいえ」と発声するだけで次候補が表示さ
れるので、ユーザにとっては負担が少なく、使い勝手を
向上させることができる。
手段が、前記出力される音声によりユーザに出力単語の
「正」「否」の確認を求め、「正」の場合にはその出力
単語を確定し、「否」の場合には次候補の単語を音声で
出力することを特徴するものであり、誤認識が発生した
場合でも、従来のように音声入力を再び行う必要がな
く、例えば「いいえ」と発声するだけで次候補が表示さ
れるので、ユーザにとっては負担が少なく、使い勝手を
向上させることができる。
【0010】また、本発明は、上記した音声認識装置を
備えた車載ナビゲーション装置であり、ナビゲーション
装置の利便性および操作性をより向上させることができ
る。
備えた車載ナビゲーション装置であり、ナビゲーション
装置の利便性および操作性をより向上させることができ
る。
【0011】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。図1は本発明の実施の形態
における音声認識装置を備えた車載ナビゲーション装置
の構成を示している。図1において、方位センサ1は、
3Dジャイロが使用され、自車の進行方位を検出する。
車速センサ2は、本装置を搭載した車両の電子制御装置
に使用されているもので、車輪の回転数に応じた車速パ
ルスを発生する。各種センサ3は、リバーススイッチ、
パーキングスイッチ、ライトスイッチなどであり、車両
の走行状態を検出する。センサ信号処理部4は、方位セ
ンサ1からの信号を基に車両の進行方向を算出するとと
もに、車速センサ2からの車速信号から走行距離を算出
し、さらに各種センサ3からの信号を基に車両の走行状
態を検出して、制御に必要な信号を生成する。DVD−
ROM5は、地図データや音声データ、音声認識辞書デ
ータなどが記録されている。DVD−ROMドライブ6
は、DVD−ROM5から地図データや音声データ、音
声認識辞書データなどを読み出すものである。液晶ディ
スプレイ7は、地図および現在の自車位置、方位、操作
メニューなどを表示するものであり、その前面にタッチ
パネルなどの操作部を備えていてもよい。GPS受信機
8は、複数の衛星から送信される電波を受信演算するこ
とで自車の現在位置(緯度・経度)を求めるものであ
る。GPSアンテナ9は、GPS電波を受信するための
アンテナである。これらDVD−ROMドライブ6、液
晶ディスプレイ7、GPS受信機8等は、車両のダッシ
ュボード上に配置され、車内LAN10を通じて装置本
体11の通信インターフェース12に接続される。装置
本体11は、車両のトランクルームや車内のセンターコ
ンソールなどに設置される。
て図面を参照して説明する。図1は本発明の実施の形態
における音声認識装置を備えた車載ナビゲーション装置
の構成を示している。図1において、方位センサ1は、
3Dジャイロが使用され、自車の進行方位を検出する。
車速センサ2は、本装置を搭載した車両の電子制御装置
に使用されているもので、車輪の回転数に応じた車速パ
ルスを発生する。各種センサ3は、リバーススイッチ、
パーキングスイッチ、ライトスイッチなどであり、車両
の走行状態を検出する。センサ信号処理部4は、方位セ
ンサ1からの信号を基に車両の進行方向を算出するとと
もに、車速センサ2からの車速信号から走行距離を算出
し、さらに各種センサ3からの信号を基に車両の走行状
態を検出して、制御に必要な信号を生成する。DVD−
ROM5は、地図データや音声データ、音声認識辞書デ
ータなどが記録されている。DVD−ROMドライブ6
は、DVD−ROM5から地図データや音声データ、音
声認識辞書データなどを読み出すものである。液晶ディ
スプレイ7は、地図および現在の自車位置、方位、操作
メニューなどを表示するものであり、その前面にタッチ
パネルなどの操作部を備えていてもよい。GPS受信機
8は、複数の衛星から送信される電波を受信演算するこ
とで自車の現在位置(緯度・経度)を求めるものであ
る。GPSアンテナ9は、GPS電波を受信するための
アンテナである。これらDVD−ROMドライブ6、液
晶ディスプレイ7、GPS受信機8等は、車両のダッシ
ュボード上に配置され、車内LAN10を通じて装置本
体11の通信インターフェース12に接続される。装置
本体11は、車両のトランクルームや車内のセンターコ
ンソールなどに設置される。
【0012】マイク13は、車内の運転者近傍に配置さ
れ、使用者からの発声語句を入力するものであり、スピ
ーカ14は、検索結果や音声認識結果、走行ルート上の
交差点案内、分岐案内、料金所案内、出口案内などの音
声案内、リモコンでの操作内容を音声で確認したりする
場合に使用される。音声認識装置15は、マイク13か
ら入力された語句の音声認識を行う。記憶部16は、プ
ログラムを格納したROMや作業データを一時的に格納
するRAM、画像データを格納するVRAMなどから構
成されている。画像プロセッサ17は、メニューデータ
や地図データ、自車の現在位置データ、建物データなど
に基づき表示画像の生成処理を行う。表示制御部18
は、通常設定モード時および音声認識モード時におい
て、それぞれ必要な画像データを画像プロセッサ17か
ら読み出してCPU20に渡す。音声プロセッサ19
は、音声認識結果を音声信号に変換したり、検索結果や
走行ルート上の音声案内、リモコンでの操作内容を表す
音声信号をスピーカ14に出力する。CPU(中央処理
装置)20は、装置全体を制御するものであり、通常設
定モード時および音声認識モード時においてそれぞれ必
要な制御を行うためのプログラムを実行する。リモコン
21は、通常設定モードと音声認識モードとを切り替え
るための操作ボタンやその他の操作ボタンを有し、赤外
線を利用してリモコン受光部22と通信を行う。リモコ
ン受光部22は、液晶ディスプレイ7の前面に設けられ
ているが、他の位置に設けられる場合もあり、リモコン
21から受信した操作信号を車内LAN10から通信イ
ンタフェース12を介してCPU20に送る。
れ、使用者からの発声語句を入力するものであり、スピ
ーカ14は、検索結果や音声認識結果、走行ルート上の
交差点案内、分岐案内、料金所案内、出口案内などの音
声案内、リモコンでの操作内容を音声で確認したりする
場合に使用される。音声認識装置15は、マイク13か
ら入力された語句の音声認識を行う。記憶部16は、プ
ログラムを格納したROMや作業データを一時的に格納
するRAM、画像データを格納するVRAMなどから構
成されている。画像プロセッサ17は、メニューデータ
や地図データ、自車の現在位置データ、建物データなど
に基づき表示画像の生成処理を行う。表示制御部18
は、通常設定モード時および音声認識モード時におい
て、それぞれ必要な画像データを画像プロセッサ17か
ら読み出してCPU20に渡す。音声プロセッサ19
は、音声認識結果を音声信号に変換したり、検索結果や
走行ルート上の音声案内、リモコンでの操作内容を表す
音声信号をスピーカ14に出力する。CPU(中央処理
装置)20は、装置全体を制御するものであり、通常設
定モード時および音声認識モード時においてそれぞれ必
要な制御を行うためのプログラムを実行する。リモコン
21は、通常設定モードと音声認識モードとを切り替え
るための操作ボタンやその他の操作ボタンを有し、赤外
線を利用してリモコン受光部22と通信を行う。リモコ
ン受光部22は、液晶ディスプレイ7の前面に設けられ
ているが、他の位置に設けられる場合もあり、リモコン
21から受信した操作信号を車内LAN10から通信イ
ンタフェース12を介してCPU20に送る。
【0013】次に、本実施の形態における動作につい
て、まずナビゲーション装置としての基本動作について
説明する。図1において、車両のエンジンをかけると、
ナビゲーション装置の電源がオンになり、液晶ディスプ
レイ7にはメニュー画面が表示され、CPU20が現在
位置検出プログラムを起動させる。車両が走行を開始す
ると、GPS受信機8からの位置情報と、方位センサ1
および車速センサ2からの信号をセンサ信号処理部4に
より処理したデータを基に、自車の正確な現在位置を算
出する。この自車位置情報に基づき、CPU20が、D
VD−ROMドライブ6を通じてDVD−ROM5から
該当する地図データを読み出し、画像プロセッサ17に
より画像データに変換して記憶部16のVRAMに一旦
記憶した後、色信号に変換して通信インターフェイス1
2を通じて液晶ディスプレイ7の画面上に自車位置とと
もに表示する。また、マイク13を通じて目的地などの
住所名を入力すると、音声認識装置15の音声認識機能
によりその住所名を認識し、目的地が設定される。目的
地が設定されると、CPU20は、経路探索プログラム
を起動し、設定された目的地までの自車現在位置からの
最適な案内経路を算出し、液晶ディスプレイ7の地図上
に重ねて表示する。ユーザは液晶ディスプレイ7に表示
された案内経路に沿って車両を進めると、CPU20
は、現在位置情報と地図データ上の道路ネットワークデ
ータを基に、液晶ディスプレイ7上の自車位置マークを
順次更新してゆく。車両が案内経路中の分岐点などに差
し掛かると、地図データに付加された音声案内がスピー
カ14から出力される。
て、まずナビゲーション装置としての基本動作について
説明する。図1において、車両のエンジンをかけると、
ナビゲーション装置の電源がオンになり、液晶ディスプ
レイ7にはメニュー画面が表示され、CPU20が現在
位置検出プログラムを起動させる。車両が走行を開始す
ると、GPS受信機8からの位置情報と、方位センサ1
および車速センサ2からの信号をセンサ信号処理部4に
より処理したデータを基に、自車の正確な現在位置を算
出する。この自車位置情報に基づき、CPU20が、D
VD−ROMドライブ6を通じてDVD−ROM5から
該当する地図データを読み出し、画像プロセッサ17に
より画像データに変換して記憶部16のVRAMに一旦
記憶した後、色信号に変換して通信インターフェイス1
2を通じて液晶ディスプレイ7の画面上に自車位置とと
もに表示する。また、マイク13を通じて目的地などの
住所名を入力すると、音声認識装置15の音声認識機能
によりその住所名を認識し、目的地が設定される。目的
地が設定されると、CPU20は、経路探索プログラム
を起動し、設定された目的地までの自車現在位置からの
最適な案内経路を算出し、液晶ディスプレイ7の地図上
に重ねて表示する。ユーザは液晶ディスプレイ7に表示
された案内経路に沿って車両を進めると、CPU20
は、現在位置情報と地図データ上の道路ネットワークデ
ータを基に、液晶ディスプレイ7上の自車位置マークを
順次更新してゆく。車両が案内経路中の分岐点などに差
し掛かると、地図データに付加された音声案内がスピー
カ14から出力される。
【0014】次に、上記実施の形態における音声認識装
置15について説明する。図2は音声認識装置15の構
成を示している。音声分析部23は、マイク13から入
力された音声を周波数分析して出力する。単語辞書部2
4には、単語音声の標準パターンが格納されている。音
声照合部25は、音声分析部23から出力された入力音
声のデータと単語辞書部24から出力された単語の標準
パターンとの類似度を計算し、両者の間の類似度が高い
順に認識結果として出力する。制御部26は、音声認識
装置15の全体を制御するマイクロコンピュータであ
り、車載ナビゲーション装置のCPU20を通じてDV
D−ROM5から読み出した単語辞書データを単語辞書
部24に格納し、音声照合部25における照合の際に読
み出したり、音声照合部25から出力された認識結果を
音声プロセッサ19を介して合成音声としてスピーカ1
4から出力する処理を行う。
置15について説明する。図2は音声認識装置15の構
成を示している。音声分析部23は、マイク13から入
力された音声を周波数分析して出力する。単語辞書部2
4には、単語音声の標準パターンが格納されている。音
声照合部25は、音声分析部23から出力された入力音
声のデータと単語辞書部24から出力された単語の標準
パターンとの類似度を計算し、両者の間の類似度が高い
順に認識結果として出力する。制御部26は、音声認識
装置15の全体を制御するマイクロコンピュータであ
り、車載ナビゲーション装置のCPU20を通じてDV
D−ROM5から読み出した単語辞書データを単語辞書
部24に格納し、音声照合部25における照合の際に読
み出したり、音声照合部25から出力された認識結果を
音声プロセッサ19を介して合成音声としてスピーカ1
4から出力する処理を行う。
【0015】次に、制御部26における制御について図
3のフロー図を参照して説明する。マイク13から音声
が入力されると(ステップS1)、その音声が音声分析
部23で単語毎に周波数分析され、短時間スペクトルの
時系列(LPCケプストラム係数列)として出力される
(ステップS2)。単語辞書部24には、音素記号系列
(LPCケプストラム係数列)からなる約3000単語
の標準パターンが格納されている。音声照合部25は、
音声分析部23から出力された単語の短時間スペクトル
の時系列と単語辞書部24から出力された単語の音素記
号系列との類似度を計算し、ゼロから9999通りの計
算結果から得点数の高いすなわち類似度の高い順に5個
の音素記号系列を認識結果として出力し(ステップS
3)、類似度点数の高い方から順番に並べて上位5個の
リストを作成する(ステップS4)。制御部26は、音
声照合部25から認識結果が出力されると、その都度、
類似度点数が3000点を越えているかどうかを調べ
(ステップS5)、3000点を越えている認識結果出
力に対してはトークバックの表現パターンAに分類し
(ステップS6)、3000点を越えていない認識結果
出力に対してはトークバックの表現パターンBに分類す
る(ステップS7)。表現パターンAは、図4に示すよ
うに、「○○○を表示します。」という肯定文からな
り、表現パターンBは、「○○○ですか?正しかったら
「はい」、間違っていたら「いいえ」とお話下さい」と
いう間接疑問文とその確認からなる。このように分類し
た後、上から順番に1つずつトークバックにより出力す
る(ステップS8)。例えば、「東京ドーム」と音声入
力した場合に、音声認識結果が図5に示すように、「東
京堂」が2900点、「東京ドーン」が2300点、
「東京ドーム」が1800点、「東京ドール」が150
0点、「東京都」が1000点の場合に、まず初めに
「東京堂を表示します。正しかったら“はい”、間違っ
ていたら“いいえ”とお話下さい」とトークバックが音
声出力される(ステップS9)。これに対しユーザが
“いいえ”と発声すると、それを音声認識装置15が音
声認識するとともに、制御部26は“いいえ”に対応し
て次ぎの音声認識結果候補をリストから抽出して、「東
京ドーンですか?正しかったら“はい”、間違っていた
ら“いいえ”とお話下さい」とトークバックが音声出力
される。そして、これに対しても、ユーザから“いい
え”が発声されると、制御部26は次ぎの音声認識結果
候補を抽出して、「東京ドームですか?正しかったら
“はい”、間違っていたら“いいえ”とお話下さい」と
トークバックが音声出力される。そして、これに対し
て、ユーザから“はい”が発声されると、制御部26は
音声認識結果として「東京ドーム」を確定する(ステッ
プS10)。音声認識処理をこれで終了するが、その後
のナビゲーション機能として、「行き先」、「経由地設
定」、「ポイント登録」の3つの選択項目が液晶ディス
プレイ7に表示され、「行き先設定か経由地設定かポイ
ント登録のいずれにしますか」という音声案内が出力さ
れるので、ユーザがその1つを選択することにより、検
索した施設に対する設定登録が行われる。
3のフロー図を参照して説明する。マイク13から音声
が入力されると(ステップS1)、その音声が音声分析
部23で単語毎に周波数分析され、短時間スペクトルの
時系列(LPCケプストラム係数列)として出力される
(ステップS2)。単語辞書部24には、音素記号系列
(LPCケプストラム係数列)からなる約3000単語
の標準パターンが格納されている。音声照合部25は、
音声分析部23から出力された単語の短時間スペクトル
の時系列と単語辞書部24から出力された単語の音素記
号系列との類似度を計算し、ゼロから9999通りの計
算結果から得点数の高いすなわち類似度の高い順に5個
の音素記号系列を認識結果として出力し(ステップS
3)、類似度点数の高い方から順番に並べて上位5個の
リストを作成する(ステップS4)。制御部26は、音
声照合部25から認識結果が出力されると、その都度、
類似度点数が3000点を越えているかどうかを調べ
(ステップS5)、3000点を越えている認識結果出
力に対してはトークバックの表現パターンAに分類し
(ステップS6)、3000点を越えていない認識結果
出力に対してはトークバックの表現パターンBに分類す
る(ステップS7)。表現パターンAは、図4に示すよ
うに、「○○○を表示します。」という肯定文からな
り、表現パターンBは、「○○○ですか?正しかったら
「はい」、間違っていたら「いいえ」とお話下さい」と
いう間接疑問文とその確認からなる。このように分類し
た後、上から順番に1つずつトークバックにより出力す
る(ステップS8)。例えば、「東京ドーム」と音声入
力した場合に、音声認識結果が図5に示すように、「東
京堂」が2900点、「東京ドーン」が2300点、
「東京ドーム」が1800点、「東京ドール」が150
0点、「東京都」が1000点の場合に、まず初めに
「東京堂を表示します。正しかったら“はい”、間違っ
ていたら“いいえ”とお話下さい」とトークバックが音
声出力される(ステップS9)。これに対しユーザが
“いいえ”と発声すると、それを音声認識装置15が音
声認識するとともに、制御部26は“いいえ”に対応し
て次ぎの音声認識結果候補をリストから抽出して、「東
京ドーンですか?正しかったら“はい”、間違っていた
ら“いいえ”とお話下さい」とトークバックが音声出力
される。そして、これに対しても、ユーザから“いい
え”が発声されると、制御部26は次ぎの音声認識結果
候補を抽出して、「東京ドームですか?正しかったら
“はい”、間違っていたら“いいえ”とお話下さい」と
トークバックが音声出力される。そして、これに対し
て、ユーザから“はい”が発声されると、制御部26は
音声認識結果として「東京ドーム」を確定する(ステッ
プS10)。音声認識処理をこれで終了するが、その後
のナビゲーション機能として、「行き先」、「経由地設
定」、「ポイント登録」の3つの選択項目が液晶ディス
プレイ7に表示され、「行き先設定か経由地設定かポイ
ント登録のいずれにしますか」という音声案内が出力さ
れるので、ユーザがその1つを選択することにより、検
索した施設に対する設定登録が行われる。
【0016】このように、本実施の形態によれば、入力
した単語の音声データと単語辞書内の音声パターンとの
類似度を計算し、類似度の高い順に5個の認識結果候補
をリストとして保持し、類似度の高い順番に1個ずつト
ークバックにより出力して、類似度点数が3000点を
超えるものについては肯定表現とし、3000点以下の
ものについては間接疑問表現とし、さらにその認識結果
が正しいか間違っているかをユーザに確認を求めるの
で、ユーザは装置が正しく判断を行っていることを理解
できるとともに、従来のような何回も音声入力操作を繰
り返す必要がないので、装置に対する信頼性と操作性を
向上させることができる。
した単語の音声データと単語辞書内の音声パターンとの
類似度を計算し、類似度の高い順に5個の認識結果候補
をリストとして保持し、類似度の高い順番に1個ずつト
ークバックにより出力して、類似度点数が3000点を
超えるものについては肯定表現とし、3000点以下の
ものについては間接疑問表現とし、さらにその認識結果
が正しいか間違っているかをユーザに確認を求めるの
で、ユーザは装置が正しく判断を行っていることを理解
できるとともに、従来のような何回も音声入力操作を繰
り返す必要がないので、装置に対する信頼性と操作性を
向上させることができる。
【0017】なお、上記実施の形態におけるトークバッ
クの表現パターンは一例であり、これら以外の種々の表
現が可能である。また、トークバックの表現内容を変更
する際の類似度点数の設定も可変であり、トークバック
の表現パターンの数や音声認識結果リストに計上する単
語数も任意に設定することができる。
クの表現パターンは一例であり、これら以外の種々の表
現が可能である。また、トークバックの表現内容を変更
する際の類似度点数の設定も可変であり、トークバック
の表現パターンの数や音声認識結果リストに計上する単
語数も任意に設定することができる。
【0018】
【発明の効果】以上説明したように、本発明の音声認識
方法および装置は、入力した単語の音声データと単語辞
書内の音声パターンとの類似度を計算し、類似度の高い
順に複数の音声パターンを単語認識候補として出力し、
出力される音声により入力操作の確認を行う際に、類似
度が基準よりも高いか低いかによって出力される音声に
よる表現内容を変えるので、ユーザは、装置が類似度に
応じて音声認識をきちんと行っていると判断し、装置に
対する信頼性を高めることができる。
方法および装置は、入力した単語の音声データと単語辞
書内の音声パターンとの類似度を計算し、類似度の高い
順に複数の音声パターンを単語認識候補として出力し、
出力される音声により入力操作の確認を行う際に、類似
度が基準よりも高いか低いかによって出力される音声に
よる表現内容を変えるので、ユーザは、装置が類似度に
応じて音声認識をきちんと行っていると判断し、装置に
対する信頼性を高めることができる。
【0019】また、出力される音声によりユーザに出力
単語の「正」「否」の確認を求め、「正」の場合にはそ
の出力単語を確定し、「否」の場合には次候補の単語を
音声で出力するので、誤認識が発生した場合でも、従来
のように音声入力操作を繰り返す必要がなく、例えば
「いいえ」と発声するだけで次候補が表示されるので、
ユーザにとっては負担が少なく、使い勝手を向上させる
ことができる。
単語の「正」「否」の確認を求め、「正」の場合にはそ
の出力単語を確定し、「否」の場合には次候補の単語を
音声で出力するので、誤認識が発生した場合でも、従来
のように音声入力操作を繰り返す必要がなく、例えば
「いいえ」と発声するだけで次候補が表示されるので、
ユーザにとっては負担が少なく、使い勝手を向上させる
ことができる。
【図1】本発明の実施の形態における車載ナビゲーショ
ン装置の構成を示すブロック図
ン装置の構成を示すブロック図
【図2】本発明の実施の形態における音声認識装置の構
成を示すブロック図
成を示すブロック図
【図3】本発明の実施の形態における音声認識装置の処
理を示すフロー図
理を示すフロー図
【図4】本発明の実施の形態におけるトークバックにお
ける表現パターンを示すテーブル図
ける表現パターンを示すテーブル図
【図5】本発明の実施の形態における類似度点数による
音声認識結果のリストを示すテーブル図
音声認識結果のリストを示すテーブル図
1 方位センサ
2 車速センサ
3 各種センサ
4 センサ信号処理部
5 DVD−ROM
6 DVD−ROMドライブ
7 液晶ディスプレイ
8 GPS受信機
9 GPSアンテナ
10 車内LAN
11 装置本体
12 通信インターフェイス
13 マイク
14 スピーカ
15 音声認識装置
16 記憶部
17 画像プロセッサ
18 表示制御部
19 音声プロセッサ
20 CPU
21 リモコン
22 リモコン受光部
23 音声分析部
24 単語辞書部
25 音声照合部
26 制御部
─────────────────────────────────────────────────────
フロントページの続き
Fターム(参考) 2F029 AA02 AB01 AB07 AB09 AB13
AC02 AC08 AC14 AC18
5D015 KK01 LL06
5H180 AA01 BB13 EE01 FF04 FF05
FF22 FF25 FF27 FF33
Claims (6)
- 【請求項1】 入力した単語の音声データと単語辞書内
の音声パターンとの類似度を計算し、類似度の高い順に
複数の音声パターンを単語認識候補とし、前記単語認識
候補を音声で出力することにより入力操作の確認を行う
際に、類似度が基準よりも高いか低いかによって出力さ
れる音声の表現内容を変えることを特徴する音声認識方
法。 - 【請求項2】 前記類似度が基準よりも高い場合には前
記出力される音声の表現内容を肯定形とし、前記類似度
が基準よりも低い場合には前記出力される音声の表現内
容を疑問形とすることを特徴とする請求項1記載の音声
認識方法。 - 【請求項3】 前記出力される音声によりユーザに出力
単語の「正」「否」の確認を求め、「正」の場合にはそ
の出力単語を確定し、「否」の場合には次候補の単語を
音声で出力することを特徴する請求項1または請求項2
記載の音声認識方法。 - 【請求項4】 入力した単語の音声データと単語辞書内
の音声パターンとの類似度を計算し、類似度の高い順に
複数の音声パターンを単語認識候補として出力すること
により入力操作の確認を行う音声認識手段と、前記出力
される音声により確認を行う際に、類似度が基準よりも
高いか低いかによって前記出力される音声の表現内容を
変える制御手段とを備えた音声認識装置。 - 【請求項5】 前記制御手段が、前記出力される音声に
よりユーザに出力単語の「正」「否」の確認を求め、
「正」の場合にはその出力単語を確定し、「否」の場合
には次候補の単語を音声で出力することを特徴する請求
項4記載の音声認識装置。 - 【請求項6】 請求項4または請求項5記載の音声認識
装置を備えた車載ナビゲーション装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001201888A JP2003015688A (ja) | 2001-07-03 | 2001-07-03 | 音声認識方法および装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001201888A JP2003015688A (ja) | 2001-07-03 | 2001-07-03 | 音声認識方法および装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003015688A true JP2003015688A (ja) | 2003-01-17 |
Family
ID=19038781
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001201888A Pending JP2003015688A (ja) | 2001-07-03 | 2001-07-03 | 音声認識方法および装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2003015688A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006083020A1 (ja) * | 2005-02-04 | 2006-08-10 | Hitachi, Ltd. | 抽出された音声データを用いて応答音声を生成する音声認識システム |
| JP2013037030A (ja) * | 2011-08-03 | 2013-02-21 | Casio Comput Co Ltd | エミュレータ装置およびプログラム |
| DE112016007158T5 (de) | 2016-10-19 | 2019-05-09 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
-
2001
- 2001-07-03 JP JP2001201888A patent/JP2003015688A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006083020A1 (ja) * | 2005-02-04 | 2006-08-10 | Hitachi, Ltd. | 抽出された音声データを用いて応答音声を生成する音声認識システム |
| JP2013037030A (ja) * | 2011-08-03 | 2013-02-21 | Casio Comput Co Ltd | エミュレータ装置およびプログラム |
| DE112016007158T5 (de) | 2016-10-19 | 2019-05-09 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
| US11126661B2 (en) | 2016-10-19 | 2021-09-21 | Mitsubishi Electric Corporation | Voice recognition apparatus |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6064323A (en) | Navigation apparatus, navigation method and automotive vehicles | |
| US6253174B1 (en) | Speech recognition system that restarts recognition operation when a new speech signal is entered using a talk switch | |
| JPH09114489A (ja) | 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車 | |
| JPH09292255A (ja) | ナビゲーション方法及び装置 | |
| JP3892338B2 (ja) | 単語辞書登録装置および単語登録用プログラム | |
| JP4258890B2 (ja) | 音声認識装置、その装置を用いたナビゲーションシステム | |
| JP3474089B2 (ja) | ナビゲーション装置 | |
| JP2947143B2 (ja) | 音声認識装置及びナビゲーション装置 | |
| JP3677833B2 (ja) | ナビゲーション装置,ナビゲート方法及び自動車 | |
| JP2003015688A (ja) | 音声認識方法および装置 | |
| JP3818352B2 (ja) | ナビゲーション装置及び記憶媒体 | |
| JP2005227369A (ja) | 音声認識装置および方法と車載ナビゲーション装置 | |
| JP3296783B2 (ja) | 車載用ナビゲーション装置および音声認識方法 | |
| JP3700533B2 (ja) | 音声認識装置及び処理システム | |
| KR101804766B1 (ko) | 음성 인식 장치, 이를 포함하는 차량 및 그 제어방법 | |
| JP2002108389A (ja) | 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置 | |
| JP2003021530A (ja) | 音声によるエリア内施設検索方法および装置 | |
| JP3679033B2 (ja) | ナビゲーション装置 | |
| JPH0844387A (ja) | 音声認識装置 | |
| JP2002108386A (ja) | 音声認識方法および装置と車載ナビゲーション装置 | |
| JP2877045B2 (ja) | 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車 | |
| JP2000074685A (ja) | 車載装置における検索方法と車載ナビゲーション装置 | |
| JP3678997B2 (ja) | 音声認識ナビゲーション検索方法および装置 | |
| JPH11231892A (ja) | 音声認識装置 | |
| JP2001215994A (ja) | 音声認識住所検索装置と車載ナビゲーション装置 |