JP2000322088A

JP2000322088A - 音声認識マイクおよび音声認識システムならびに音声認識方法

Info

Publication number: JP2000322088A
Application number: JP11133659A
Authority: JP
Inventors: Shinji Wakizaka; 新路脇坂; Kazuo Kondo; 和夫近藤; Hiroaki Kokubo; 浩明小窪; Nobuo Hataoka; 信夫畑岡
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-05-14
Filing date: 1999-05-14
Publication date: 2000-11-24

Abstract

(57)【要約】【課題】カーナビゲーションシステム、小型情報機
器、ゲームなどに用いられる音声認識システムにおい
て、音声認識を使い易いインタフェースにする。【解決手段】音声認識処理を実行する機能を有する音
声認識マイク１と、システム本体５とを通信手段４で接
続し、音声認識部１３で認識した認識結果をシステム本
体５に転送してシステムを動作させる。音声認識マイク
１は、音響モデル１３５と音声認識処理部１３４とを有
する音声認識部１３と、コマンド辞書１３１と認識対象
辞書１５２とユーザ登録辞書１５３と、データ通信部１
７とを有し、システム本体５から転送された認識対象辞
書１５２から必要な単語をユーザ登録辞書１５４に登録
し、通常は、コマンド辞書１５１とユーザ登録辞書１５
４とを用いて音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
および方法にかかわり、カーナビゲーションシステム、
車載用ＰＣ、カーエレクトロニクスや、ＰＤＡ、ハンド
ヘルドＰＣに代表される小型情報機器、携帯型音声翻訳
機、ならびに、ゲーム機器、家電機器に用いる音声認識
システムであって、特に、カーナビゲーションシステム
や車載用ＰＣ、カーエレクトロニクスに代表されるカー
マルチメディア分野において、認識応答時間、認識率向
上の面で、使い勝手の良い音声認識システムおよび方法
に関する。

【０００２】

【従来の技術】近年、音声認識技術を用いた小型情報シ
ステムが普久しつつある。カーナビゲーションシステム
をはじめとして、ＰＤＡに代表される小型情報機器、携
帯型翻訳機等である。このような音声認識システムの例
として、特開平５ー３５７７６号公報には「言語自動選
択機能付翻訳装置」として、マイクから入力した操作者
の音声を認識して、翻訳し、翻訳した言語の音声を出力
するようにした携帯用の翻訳装置に関する技術が開示さ
れている。

【０００３】以下、図６を用いて、このような従来技術
にかかわる音声翻訳装置の概要を説明する。図６は、従
来技術にかかわる音声翻訳装置の構成を示すブロック図
である。音声認識手段を備えた音声翻訳装置７は、マイ
ク７１と、音声認識部７２と、翻訳部７３と、制御部７
４と、これら各部７２，７３，７４管でデータを転送す
るバス７５とを有して構成される。

【０００４】音声認識部７２は、音声区間切出部７２１
と、音声認識処理部７２２と、音声モデル格納部７２３
と、音声認識辞書部７２４とを有して構成される。

【０００５】翻訳部７３は、翻訳語データ用メモリカー
ド７３１と、音声合成部７３２と、表示部７３５とを有
している。さらに、音声合成部７３２には、スピーカア
ンプ７３３と、スピーカ７３４が接続されている。

【０００６】マイク７１は、ユーザの音声などを電気信
号に変換して入力する。

【０００７】音声区間切出部７２１は、マイク７１から
入力された音声と雑音を含んだ音声信号をデジタル信号
に変換するとともに音声区間を切り出し、音声区間の信
号を音声認識処理部７２２に送る。

【０００８】音声認識処理部７２２は、キーボード又は
スイッチ等による操作信号７９を受けた制御部７４の指
示により、マイク７１、音声区間切出部７２１を経て、
切り出された音声を音響モデル格納部７２３に格納され
た音響モデルを用いて分析する。さらに、音声認識処理
部７２２は、分析した結果を、音声認識辞書部７２４に
格納された標準音声パターンと比較することによって、
音声認識を行う。

【０００９】音響モデル格納部７２３には、音声認識に
用いる切り出された音声区間の音響モデルが格納されて
いる。

【００１０】音声認識辞書部７２４は、ＲＡＭ等からな
り、操作者の発声に応じた標準音声パターンを格納して
いる。この標準音声パターンは、操作者があらかじめ格
納しておく。

【００１１】一方、翻訳部７３の翻訳語データ用メモリ
カード７３１は、ＲＯＭカード等からなり、音声認識し
た単語に対応する翻訳語が格納されており、翻訳語を音
声合成して出力する場合には、音声データを格納してい
る。また、この翻訳語データ用メモリカード７３１か
ら、翻訳語に対応したキャラクターコードを読み込み、
表示部７３５に表示する。翻訳語データ用メモリカード
７３１を他の言語のものと交換することによって、音声
認識した単語を複数の言語に対応して翻訳することが可
能となる。

【００１２】音声合成部７３２は、音声認識処理部７２
２により認識された音声に対応した翻訳語を、翻訳語デ
ータ用メモリカード７３１から読み込み、音声信号に変
換してスピーカアンプ７３３、スピーカ７３４を経て出
力する。

【００１３】表示部７３５は、翻訳装置の使用者への指
示や翻訳語の文字による表示等をおこなう。

【００１４】制御部７４は、マイクロプロセッサ等から
なり、音声翻訳装置７の各部を制御する。

【００１５】このような音声認識、音声合成技術の分野
は、半導体技術の向上を背景として、システムがより人
間的なユーザインタフェースを提供すべきであるという
要望から、その発展が期待されている。上記従来の音声
認識技術を用いた小型情報システムにおいても、カーナ
ビゲーションシステムをはじめとして、ＰＤＡに代表さ
れる携帯型情報機器、携帯型翻訳機、さらに、音声イン
タフェースを持った情報家電として、今後ますます普及
してくることが予想される。

【００１６】そこで、このような音声認識技術を使用し
た分野での実用化における課題は、認識率の向上と認識
応答時間の短縮にある。従来の技術では、認識率や認識
応答時間の性能を低下させないためには、認識する語数
に制約を設ける必要がある。その制約の中で、あらかじ
め登録しておいた単語、文に対して、その文字列が持つ
統計的な話者の音声の特徴と、実際に話者が発声した音
声の特徴とを比較し、確率的に一番近い値を認識結果と
している。特に、雑音環境下におけるあるレベル以上の
認識率を確保するには、この手法が必要不可欠である。

【００１７】今後、音声認識における技術革新や、それ
を実現するソフトウエア、ハードウエアの性能向上によ
り、認識する語数に制約を設けなくとも、認識率や認識
応答時間の性能は向上することが考えられる。しかしな
がら、音声認識システムの実用的な観点から、処理量は
できるだけ小さい方が認識率や認識応答時間における音
声認識の単体性能、並びに音声認識を組み込んだシステ
ム全体の性能と使い勝手の面では好ましい。また、音声
認識を使い易いインタフェースにするための課題は、音
声認識を音声を用いた単なる一つのユーザインタフェー
スにすることである。

【００１８】そのためには、音声認識処理をシステム本
体で行わず、マイク等のインタフェース側で実現するこ
とである。それにより、システム本体とマイク等の音声
認識インタフェースは、既存のシステムに容易に接続可
能となる。さらに、音声認識処理した結果をシステム本
体へ転送することから、従来のアナログ音声信号をシス
テム本体へ転送してから音声認識する場合と比べて、環
境からのノイズの影響を小さくすることができる。した
がってシステム全体の認識性能を向上させることができ
る。そのためには、システム本体と、音声認識を実行す
るマイクなどのインタフェース部とを分離して使い勝手
のよいシステムを提供する必要がある。

【００１９】従来のカーナビゲーションシステムにおけ
る音声認識システムでは、地名、交差点名、建物名、駅
名、電話番号などの音声認識対象となる辞書を数十万単
語用意して、辞書を階層的に分割して音声認識を階層的
に実行する。目的の単語まで到達するまでに、数回の音
声を発生し、かつ音声認識するまでくり返す。目的の単
語が認識されると、例えば、目的地までのルート探索が
行われる。

【００２０】このようなシステムでは、認識対象となる
辞書の語数は膨大であり、認識率や認識応答時間の性能
を低下させないために、辞書の階層化および音声認識を
階層的に実行する。これでは、一つの目的単語を認識さ
せるのに数回の音声認識を実行しなければならない。し
たがって、便利であるはずの音声認識によるインタフェ
ースが逆に不便なものとなりシステム全体の使い勝手が
悪くなってしまう。

【００２１】また、辞書を階層的にせず、数十万単語か
らなる辞書で、はじめから目的の単語を発声する音声認
識システムでは、将来、音声認識技術の革新で認識率が
向上したとしても、特に、システムの低価格化において
は、認識率や認識応答時間の面で充分な性能が得られな
い。

【００２２】さらに、辞書を階層化し数回の音声認識を
実行して、基本的な音声認識の性能が得られたとして
も、認識率は１００％にはならない。それは、人間が音
的に類似した単語を聞き間違えるのと同じである。

【００２３】例えば、カーナビゲーションシステムに適
用した音声認識システムを図７を用いて説明する。図７
は、従来の音声認識システムであり、音声認識処理をカ
ーナビゲーションシステム本体側で行っているシステム
における音声認識処理の流れを説明する図である。従来
のシステムでは、音声認識に関わる一連の処理は、カー
ナビゲーションシステム本体が行っているので、カーナ
ビゲーションシステムに限らず、他に優先順位の高い処
理との競合が起こり、ＣＰＵの負荷は大きくなる。ま
た、もともと音声のインタフェースを持たないシステム
においては、ＣＰＵの負荷に加えて、ハードウエアの改
造が伴う。

【００２４】ここでは、第１の発生「ホテル」の後に、
第２の発生「△△△ホテル」を発した場合の音声認識処
理を説明する。このシステムでは、対象別に複数の辞書
が設けられている。第１の発声「ホテル」が入力される
（Ｓ１）と、音声認識処理Ｐ１は、一連の音声認識処理
を行って、認識結果「ホテル」を出力し、アプリケーシ
ョンＰ２へ送出する（Ｓ２）。認識結果「ホテル」は、
アプリケーションＰ２で、辞書選択処理Ｐ３を起動し
（Ｓ３）、大規模認識対象辞書５３内のホテル単語辞書
５３１を選択する（Ｓ４）。

【００２５】ホテル単語辞書５３１は、ホテル名の単語
で構成された辞書であり、単語数は、５０００単語であ
るとする。大規模認識対象辞書５３として、ホテル単語
辞書の他にパーク単語辞書５３１、スキー場単語辞書５
３２などが保存されており、単語数は、それぞれ１００
００単語、４０００単語であるとする。選択されたホテ
ル単語辞書５３１は、認識対象辞書５３４として以降の
音声認識処理Ｐ１に用いられる。

【００２６】第２以降の発声「△△△ホテル」が入力さ
れると（Ｓ５）、音声認識所利Ｐ１は音声認識処理を行
い、認識結果「△△△ホテル」をアプリケーションＰ２
に出力する（Ｓ６）。アプリケーションＰ２は、このデ
ータを、目的地設定、ルート検索などの処理に渡す（Ｓ
７）。

【００２７】このような方式では、ユーザは、以上の様
な「ホテル」の入力から始まるやり取りを、目的地を設
定するごとに行わなければならない。先に述べた通り、
このような手法は、ＣＰＵの負荷と、辞書の単語数か
ら、認識応答時間と認識率の面で、特に、システムトー
タルの低価格化において認識性能を劣化させることとな
る。

【００２８】

【発明が解決しようとする課題】以上の点に鑑み、本発
明の第一の目的は、音声認識を実行する音声認識インタ
フェース部を音声認識結果を利用するシステム本体と分
離して、システム本体へは認識した結果だけを転送する
音声認識マイクを提供することにある。また、本発明の
第二の目的は、性能の面から見ても使い勝手の良い音声
認識マイクを提供することである。

【００２９】すなわち、例えば、カーナビゲーションシ
ステムに登録されている膨大な辞書の中で、ユーザがよ
く使う複数の辞書の単語数は、コマンドや目的地の地名
など合計しても１００単語以下であると想定する。そこ
で、音声認識マイクの認識対象単語は、ユーザが、シス
テム本体側の膨大な辞書から必要な単語だけを、システ
ム本体側から音声認識マイク側へ登録した単語に限って
音声認識処理を実行する。したがって、認識率は１００
％に近くなり、また処理量も小さくなることから、低価
格なハードウエアでも十分な性能が実現できる。

【００３０】

【課題を解決するための手段】上記目的を達成するため
に、請求項１の発明は、音声認識の対象となる単語や文
章を集めて辞書として定義し、音声認識結果に基づいて
それらの単語や文章を取り出して、後続する情報処理用
データや文字列表示や単語が示す画像などとして出力し
たり、認識結果を音声合成を用いて音声として出力する
音声認識システムにける音声認識機能を備えた音声認識
マイクにおいて、マイク単体の機能を有するマイク部
と、マイク部からのアナログ信号をデジタル信号に変換
するＡ／Ｄ変換器と、音声区間を検出する音声区間検出
処理と、取り込んだ音声に対して音声分析する音声分析
処理と、音声の特徴を音素単位でもつ音響モデルと、あ
らかじめ登録された辞書と音響モデルを連結して、音響
モデルと連結された全ての辞書において、入力された音
声の音声分析結果と照合し、確からしい認識結果を出力
する音声認識処理部を備えて構成し、マイクから音声認
識結果を出力するようにした。

【００３１】請求項２の発明は請求項１の音声認識マイ
クにおいて、音声の入力から音声認識結果を出力するま
での一連の音声認識処理を行う音声認識部と、音声認識
結果を用いて新たな処理を実行するシステム本体へ認識
結果を転送しシステム本体から認識対象データを転送す
るデータ通信部と、認識対象となる辞書を含む辞書部を
有して構成した。

【００３２】請求項３の発明は、請求項２の音声認識マ
イクにおいて、データ通信部を、音声認識マイクとシス
テム本体を有線または無線もしくは赤外線通信で接続す
るインタフェースとして構成し、通信されるデータをデ
ジタルデータとし、その内容を、音声認識結果を表すテ
キストデータおよび／またはデジタル化された音声波形
データおよび／または音声でない雑音Ｎと音声Ｓのレベ
ルを示すＳ／Ｎ比のデータとした。

【００３３】請求項４の発明は、上記音声認識マイクに
おいて、これから音声を入力することを音声認識マイク
に知らせるための音声入力通知手段を接続するためのイ
ンタフェースを備えた。

【００３４】請求項５の発明は、上記音声認識マイクに
おいて、あらかじめ音声認識マイクに登録したコマンド
辞書と、システム本体の記憶媒体に登録された大規模な
辞書から認識対象となる辞書を読み出した認識対象辞書
と、ユーザの登録処理によって作成されるユーザ登録辞
書とを有して構成した。

【００３５】請求項６の発明は、音声認識機能を有し入
力された音声を認識した結果を出力する音声認識マイク
と、音声認識結果を用いて後続する処理を実行する情報
処理手段とから音声認識システムを構築した。

【００３６】請求項７の発明は、上記音声認識システム
において、上記音声認識マイクが音声認識処理部と辞書
部とデータ通信部を有し、上記情報処理手段が音声認識
に使用する認識対象辞書とデータ通信部を有し、前記音
声認識マイクでの音声認識結果に基づいて音声認識マイ
クの辞書部に前記情報処理手段の認識対象辞書の一部分
を転送し、転送された認識対象辞書を用いて音声認識す
るようにした。

【００３７】請求項８の発明は、上記音声認識システム
において、上記音声認識マイクの辞書部にユーザ登録辞
書を設け、該ユーザ辞書に認識対象辞書の中のユーザが
必要とする単語を登録し、通常の音声認識では、コマン
ド辞書とユーザ登録辞書を認識対象として音声認識する
ようにした。

【００３８】請求項９の発明は、音声認識処理部と辞書
部とデータ通信部を有する音声認識マイクと、音声認識
結果に基づいて処理を行う情報処理手段とからなる音声
認識システムの音声認識方法において、音声認識マイク
の辞書部に、コマンド辞書と、情報処理手段から転送さ
れた認識対象辞書と、ユーザ登録辞書とを備え、認識対
象辞書の中から最終的にユーザが必要とする複数の単語
を集めてユーザ登録辞書を作成し、通常の音声認識では
コマンド辞書とユーザ登録辞書を認識対象として音声認
識するようにした。

【００３９】

【発明の実施の形態】以下、本発明に係る各実施形態
を、図１から図５を用いて説明する。図１は、本発明に
かかる音声認識マイクの機能構成を示すブロック図であ
る。

【００４０】図１に示す音声認識マイク１は、音声認識
した結果３を出力する。この音声認識マイク１の出力３
は、音声認識した結果に限らず、音声認識に関わる情報
であってよい。例えば、本来のマイクの基本機能である
音声や周囲の音を集音して、従来はアナログ信号として
伝達していたものをデジタル化して出力したデジタル波
形信号である。また、音声でない雑音Ｎのレベルと、音
声Ｓのレベルを相対的な比で表したＳ／Ｎ比のデータで
ある。これらのデジタル化された情報は、音声認識マイ
クとシステム本体を組み合わせて新たなシステムを構築
する場合のアプリケーションに必要な基本情報である。

【００４１】音声認識マイク１は、マイク１１と、音声
認識部１３と、辞書部１５と、データ通信部１７との機
能ブロックで構成される。

【００４２】マイク１１は、音声や雑音を取り込むもの
で、従来から有るコンデンサマイクなどで構成され、指
向性を有している。

【００４３】音声認識部１３は、入力された音声や雑音
から音声だけを検出して、音声分析を行う。さらに、音
声認識部１３は、あらかじめ登録された辞書と、音声の
特徴を音素単位でもつ音響モデルから、登録された全て
の辞書と音響モデルを連結して、実際に入力された音声
の音声分析結果と照合して、確からしい認識結果を出力
する。

【００４４】辞書部１５は、音声認識の対象となる辞書
が格納される。辞書部１５に格納される辞書には、あら
かじめ音声認識マイク１に登録しておくコマンド辞書
と、システム本体の記憶媒体に登録されている大規模な
認識辞書から転送された認識対象辞書と、コマンド辞書
や認識対象辞書からユーザが必要とする単語のみ取り出
して登録して構成するユーザ登録辞書がある。辞書部１
５は、音声認識結果、コマンド辞書に登録された「ユー
ザ辞書へ登録（辞書へ登録）」を受けて、ユーザ登録辞
書を作成する。

【００４５】データ通信部１７は、音声認識部の音声認
識結果を、音声認識マイク１が接続されたシステム本体
あるいは音声認識マイク１を使用しているシステム本体
に、転送するための処理を行う。また、音声認識結果と
同様に、デジタル化された音声信号や、音声に関わる情
報を転送する。

【００４６】図２を用いて、音声認識マイク１のハード
ウエア構成を説明する。音声認識マイク１は、マイク１
１と、アンプ２１と、Ａ／Ｄ変換器２２と、ＣＰＵ２３
と、ＲＯＭ２４と、ＲＡＭ２５と、有線インタフェース
２６−１と、赤外線インタフェース（ＩＲ）２６−２
と、無線インタフェース２６−３と、音声認識モードイ
ンタフェース２６−４と、これらを相互に接続するシス
テムバス２７と、音声入力ボタン２９とを有して構成さ
れる。

【００４７】マイク１１は、図１に示したマイク１１と
同じである。

【００４８】アンプ２１は、抵抗、コンデンサなどの電
子部品で構成されたアンプであり、雑音を除去するため
のハイパスフィルタや、バンドパスフィルタを含んでい
る。

【００４９】Ａ／Ｄ変換器２２は、アンプ２１を経由し
てマイク１１から入力された音声や雑音のアナログ信号
をデジタル信号に変換する。Ａ／Ｄ変換器２２は、シス
テムバス２７に接続されている。

【００５０】ＣＰＵ２３は、音声認識マイク１におい
て、音声認識および辞書登録ならびにデータ通信の全て
の処理をソフトウエアで行う中央処理ユニットあるいは
ＣＰＵコアである。

【００５１】ＲＯＭ２４には、音声認識マイクシステム
の初期化および一連の音声認識および辞書登録ならびに
データ通信の全ての処理をソフトウエアで実行するため
のプログラムが、書き込まれている。また、ＲＯＭ２４
には、音声認識に必要な音響モデルや辞書、文法なども
書き込まれている。

【００５２】ＲＡＭ２５は、一連の音声認識、辞書登
録、データ通信の全ての処理をソフトウエアで実行する
ためのプログラムをアクセスの高速なメモリに転送して
実行するためのメモリであり、また、プログラム実行中
に必要なワークエリアを確保するためのメモリである。
さらに、電源を切ってもユーザの登録した辞書などが消
えない様にするためのメモリである。

【００５３】有線インタフェース２６−１は、音声認識
マイク１と接続されたシステム本体の間で情報（データ
３１）をやり取りするためのインタフェースである。シ
ステム本体とは、有線で接続され、データビット幅は、
シリアルでもパラレルでもよい。

【００５４】データ３１は、音声認識マイク１とシステ
ム本体の間で、有線を介して双方向に転送されるデータ
である。その第１は、音声認識マイク１から出力される
認識結果である。認識結果は、テキストデータの文字情
報であっても、コード化されたデータもよい。第２は、
認識対象となる辞書データである。辞書データは、シス
テム本体から音声認識マイク１へ転送される。第３は、
音声でない雑音Ｎと音声Ｓのレベルを示すＳ／Ｎ比のデ
ータである。第４は、システム本体で音声認識モードに
入っていることを伝えるための情報である。例えば、シ
ステム本体側のカーナビゲーションシステムにおいて、
音声認識モードとしてリモコンの発話ボタンが押された
場合などである。そこで、音声認識マイク１は、入力さ
れた音声に対して、音声認識処理を実行する。

【００５５】赤外線インタフェース２６−２は、音声認
識マイク１と接続されたシステム本体の間で情報（デー
タ３２）をやり取りするためのインタフェースである。
システム本体とは、赤外線ＩＲを使った無線でインタフ
ェースされ、データビット幅は、シリアルでもパラレル
でもよい。

【００５６】データ３２は、音声認識マイク１とシステ
ム本体の間で、赤外線通信方式を介して双方向に転送さ
れるデータである。その内容はデータ３１と同じであ
る。

【００５７】無線インタフェース２６−３は、音声認識
マイク１と接続されたシステム本体の間で情報（データ
３３）をやり取りするためのインタフェースである。シ
ステム本体とは、無線ＬＡＮなどを使った無線でインタ
フェースされ、データビット幅は、シリアルでもパラレ
ルでもよい。

【００５８】データ３３は、音声認識マイク１とシステ
ム本体の間で、無線を介して双方向に転送されるデータ
である。その内容はデータ３１と同様である。

【００５９】ここで、システム本体とのインタフェース
をとる有線インタフェース２６−１、赤外線インタフェ
ース２６−２、無線インタフェース２６−３は、音声認
識マイク１において、どれか１つだけのインタフェース
をそなえていてもよいし、全てのインタフェースを備え
ていてもよい。

【００６０】音声認識モードインタフェース２６−４
は、上記システム本体で音声認識モードに入っているこ
とを伝えるための情報において、直接に音声認識マイク
１に音声認識モードに入っていることを伝えるためのイ
ンタフェースである。音声認識モードインタフェース２
６−４には、音声入力状態を通知する音声入力ボタン２
９が接続されている。直接に音声認識マイク１に音声認
識モードに入っていることを伝えるための意味は、例え
ば、システム本体は、音声認識マイク１からの認識結果
３１〜３３を一方向的に受けて、システム本体が別のあ
る処理や仕事をする場合などに有効である。このような
手法が必要な場合は、音声リモコンに適応した場合が考
えられる。

【００６１】音声認識マイク１は、複数のＬＳＩやＩＣ
で構成してもよいし、ＡＳＩＣ等の一つの半導体素子上
に構成してもよい。ＡＳＩＣであれば、ＣＰＵ２３はＣ
ＰＵコアとして構成される。

【００６２】図３を用いて、音声認識マイク１と音声認
識の結果を用いて動作するシステム本体５を、無線ある
いは有線で接続し、音声認識をインタフェースに持つシ
ステム構成と、処理の流れを説明する。例えば、本願に
おけるシステムの一例として、カーナビゲーションシス
テムがあげられる。

【００６３】このシステムは、音声認識マイク１とシス
テム本体５を、無線あるいは有線４などの通信方式で接
続して構成される。

【００６４】音声認識マイク１は、例えば、カーナビゲ
ーションシステムにおいては、車内のサンバイザー、シ
ートベルト、ステアリングコラム、ピラーやハンドルに
設置されるか内蔵される。または、音声認識マイク１
は、システムをコントロールするリモコンに内蔵され
る。

【００６５】カーナビゲーションシステム本体５は、オ
ーディオシステムや空調システムと一体化され、ディス
プレイも含めて車内に搭載される。

【００６６】音声認識マイク１は、マイク１１と、音声
認識部１３と、辞書部１５と、データ通信部１７と、音
声入力ボタン２９とを有して構成される。

【００６７】音声認識部１３は、Ａ／Ｄ変換器１３１
と、音声区間切出部１３２と、音声分析処理部１３３
と、音声認識処理部１３４と、音響モデル格納部１３５
とを有して構成される。

【００６８】辞書部１５は、コマンド辞書１５１と、認
識対象辞書１５２と、辞書登録処理部１５３と、ユーザ
登録辞書１５４を有して構成される。

【００６９】データ通信部１７は、音声認識処理部１３
４によって認識された結果をシステム本体５に転送する
処理を行うデータ通信部である。あるいは、システム本
体５から転送されてくる認識対象の辞書データや音声認
識モードに入ったことを伝えるための情報を受け取る。

【００７０】システム本体５は、例えば、カーナビゲー
ションシステムとして構成される。この場合、システム
本体５は、データ通信部５１と、辞書読出部５２と、認
識対象大規模辞書５３と、アプリケーションソフト５４
と、音声合成部５５と、表示部５６とを有して構成され
る。

【００７１】Ａ／Ｄ変換器１３１は、マイク１１から出
力されたアナログ信号をディジタル信号に変換して、音
声区間切出部１３３に出力する。

【００７２】音声区間切出部１３２は、ディジタル信号
に変換された音声や雑音を含む入力信号から音声を切り
出して、音声分析処理部１３３へ出力する。

【００７３】音声分析処理部１３３は、音声を分析して
分析結果を音声認識処理部１３４へ出力する。

【００７４】音声認識処理部１３４は、音声分析結果と
音響モデルと辞書を用いて、確率的に音声照合の一連の
処理を行い、確からしい認識結果を出力する音声認識部
である。

【００７５】音響モデル格納部１３５には、音声認識に
必要な音響モデルが格納される。実用化されつつある一
般的な音声認識システムでは、あらかじめ声を登録しな
くても、誰が話し手でもその声を認識できるいわゆる
「不特定話者対応」が主流になっている。このような音
声認識に用いられる音響モデルとしては、例えば、隠れ
マルコフモデル（HMM：Hidden Markov Model）を用いる
ことができる。

【００７６】コマンド辞書１５１は、あらかじめ音声認
識マイク１に登録されている辞書で、音声認識処理を実
行するジャンルや、音声認識処理の命令などの単語が記
述されている。

【００７７】認識対象辞書１５２は、音声認識の対象と
なる辞書であり、システム本体５から必要に応じて、転
送されてくる。

【００７８】辞書登録処理部１５３は、認識対象となっ
ている認識対象辞書１５２の中から、常に音声認識マイ
ク１の中に登録しておきたい単語に対して、ユーザがコ
マンド辞書１５１の「辞書へ登録」を音声入力して、認
識結果として「辞書へ登録」が音声認識処理部１３４か
ら出力された場合に登録を行う処理部である。

【００７９】ユーザ登録辞書１５４は、常に音声認識マ
イク１の中に登録しておきたい単語を登録する辞書であ
る。

【００８０】図４を用いて、図３に示した辞書の構成に
ついて説明する。あらかじめ音声認識マイク１に登録さ
れたコマンド辞書１５１は、例えば３００語の単語数か
らなる辞書として構成され、図４（ａ）に示すデータＤ
１５１として例示される。この例では、コマンド辞書１
５１は、認識対象ジャンルを表す「ホテル」，「パー
ク」，「スキー場」，「ゴルフ場」を始め、処理の命令
を表す「辞書へ登録」，「辞書から削除」，「辞書の内
容」などの単語で構成されている。

【００８１】音声認識対象辞書１５２は、音声認識の対
象となる辞書であり、システム本体５の認識対象大規模
辞書５３から、必要に応じて転送されてくる。音声認識
マイク１は、コマンド辞書１５１と、この認識対象辞書
１５２の単語の範囲に限り、入力音声に対して音声認識
処理を行う。

【００８２】認識対象辞書１５２は、５０００語ぐらい
の単語数からなり、コマンド辞書のジャンルを指定する
コマンドに対応した単語からなる辞書として構成され
る。例えば、ジャンルを指定するコマンド「ホテル」に
対応して、図４（ｂ）のデータＤ１５２として例示した
ように、「○○○ホテル」，「△△△ホテル」，「ホテ
ル□□□□」，「◇◇◇◇旅館」…「××××ホテ
ル」，「☆☆☆ホテル」などのホテル名を表す単語のみ
が登録されている。

【００８３】ユーザ登録辞書データＤ１５４は、ユーザ
登録辞書１５４の具体的な内容の一例を示している。例
えば、ユーザが登録しておきたい単語で構成されてお
り、ユーザ登録辞書１５４を構成している単語の数は、
１００単語ぐらいとする。

【００８４】ユーザ登録辞書１５４は、１００語程度の
単語数からなる辞書として構成される。ユーザ登録辞書
１５４は、ユーザが登録しておきたい単語を、コマンド
辞書１５１や認識対象辞書１５２から取り出して登録し
た辞書として構成され、図４（ｃ）のデータＤ１５４と
して例示した、「△△△ホテル」，「東京○○○ラン
ド」，…「自宅へ戻る」など、場所や処理の命令などの
単語が登録されている。

【００８５】つぎに、システム本体５側の処理について
説明する。システム本体５のデータ通信部５１は、音声
認識マイク１によって認識された結果をシステム本体５
で受け取るためのデータ通信部である。あるいは、シス
テム本体５から音声認識マイク１に対して、認識対象の
辞書データや音声認識モードに入ったことを伝えるため
の情報を転送する。

【００８６】辞書読出部５２は、ＣＤ−ＲＯＭやＤＶＤ
に代表される大記憶容量の記憶媒体に保存されている認
識対象大規模辞書５３の中から、認識対象の辞書として
分類されている辞書を読み出し、データ通信部５１か
ら、音声認識マイク１へ転送する。

【００８７】認識対象大規模辞書５３は、認識対象の辞
書が各項目ごとに分類されてＣＤ−ＲＯＭやＤＶＤに保
存されている。例えば、ホテル単語辞書５３１は、ホテ
ル名の単語で構成された辞書であり、単語数は、５００
０単語であるとする。認識対象辞書として、ホテル単語
辞書の他にパーク単語辞書５３２、スキー場単語辞書５
３３などの各種の認識対象ジャンルが保存されており、
単語数は、それぞれ１００００単語、４０００単語であ
るとする。

【００８８】アプリケーションソフト５４は、カーナビ
ゲーションシステムの主な処理を行うアプリケーション
ソフトであり、ＧＰＳの処理やナビゲーションの処理や
音声インタフェースなどのシステム全般にわたる処理を
行う。

【００８９】表示部５６は、液晶表示装置（ＬＣＤ）な
どから構成され、地図や進行状況、音声認識結果に対す
る情報などを表示する。

【００９０】音声合成部５５は、進行状況や音声認識結
果のコールバック、音声案内等を音声合成して処理す
る。

【００９１】図５を用いて、音声認識マイク１とシステ
ム本体５内での音声認識処理を説明する。本発明の音声
認識システムは、図７に示した従来の音声認識システム
に対して、音声認識処理を音声認識マイク１側で行うの
で、カーナビゲーションシステムに限らず、システム本
体５での処理は既存のままでよく、システム側のＣＰＵ
の負荷は変らない。また、もともと音声のインタフェー
スを持たないシステムにおいても、システム本体のＣＰ
Ｕの負荷は変らない上、ハードウエアの改造も小さな変
更ですみ、通信インタフェースを持っているシステムに
おいては、音声インタフェースを持たない既存のハード
ウエアで、音声による操作を実現できる。

【００９２】図５において、破線から上は音声認識マイ
ク１における辞書の登録処理と音声認識処理とこの処理
に用いる辞書を、破線から下はシステム本体５における
音声認識結果の利用と辞書を示している。音声認識マイ
ク１側は、一連の音声認識を行う。この処理には、辞書
登録前に実施するユーザ登録辞書作成処理と、ユーザ登
録辞書を用いた音声認識処理を行う。

【００９３】まず、登録前に第１の発生「ホテル」が入
力される（Ｓ１１）と、コマンド辞書１５１を用いて音
声認識処理Ｐ１１を実行し、音声認識結果「ホテル」を
出力する（Ｓ１２）。認識結果「ホテル」は、システム
本体５側へ転送され、システム本体側のアプリケーショ
ン５４で、辞書選択処理Ｐ５２を起動し（Ｓ１３）、認
識対象を網羅した認識対象大規模辞書５３の内のホテル
単語辞書５３１を選択する。

【００９４】選択されたホテル単語辞書５３１は、シス
テム本体５から、音声認識マイク１側へ転送され、認識
対象辞書１５２に格納される（Ｓ１４）。

【００９５】第２以降の発声「△△△ホテル」が入力さ
れると（Ｓ１５）、認識対象辞書１５２に格納されたホ
テル辞書データＤ５３１を用いて音声認識処理Ｐ１１を
行い、認識結果「△△△ホテル」を出力する（Ｓ１
６）。認識結果「△△△ホテル」は、システム本体側へ
転送され、システム本体５のアプリケーション５４で、
目的地設定、ルート検索などの処理Ｐ５７に渡される
（Ｓ１７）。

【００９６】第３の発声「辞書へ登録」が入力される
（Ｓ１８）と、音声認識処理Ｐ１１は、コマンド辞書１
５１を用いて音声認識処理を行い認識結果「辞書へ登
録」を出力する（Ｓ１９）。認識結果「辞書へ登録」を
受けて、辞書登録処理１５３は、音声認識マイク側のユ
ーザ登録辞書１５４に、「△△△ホテル」を登録する
（Ｓ２０）。ユーザ登録辞書１５４の単語数は、１００
単語とする。

【００９７】登録後は、ユーザは、目的地を第１の発声
として、いきなり「△△△ホテル」を発声する（Ｓ２
１）と、ユーザ登録辞書１５２に格納されたユーザ登録
辞書データＤ１５４を用いて音声認識処理Ｐ１１を行
い、認識結果「△△△ホテル」を出力する（Ｓ１６）。
認識結果「△△△ホテル」は、システム本体側へ転送さ
れ、システム本体５のアプリケーション５４で、目的地
設定、ルート検索などの処理Ｐ５７に渡される（Ｓ１
７）。

【００９８】このように、本発明によれば、必要な単語
を選択してユーザ辞書１５４に登録した後は、ユーザは
直ちに「△△△ホテル」と発生するだけで音声認識が実
行される。さらに、先にも述べた通り、ユーザ登録辞書
１５４の単語数は、１００単語と少ないので、認識応答
時間および認識率の面で、良好な認識性能を発揮するこ
とができ、音声認識インタフェースの向上が期待でき
る。

【００９９】さらに、この音声認識システムは、音声認
識処理におけるシステム本体の負荷が大幅に軽減される
ので、音声認識マイクからの認識結果を受信できるイン
タフェースを追加するだけで、既存の様々なシステムに
応用できる。

【０１００】

【発明の効果】本発明によれば、カーナビゲーションシ
ステム、小型情報システム、ゲームに用いられる音声認
識システムにおいて、実際に使用する環境で、雑音のレ
ベルに合わせて音声区間検出用しきい値の設定を自動化
し、自動しきい値設定による音声区間検出および、認識
性能が実環境下でも劣化しない、良好な音声認識システ
ムを実現することができる。

【図面の簡単な説明】

【図１】本発明にかかる音声認識マイクの機能の概要を
説明するブロック図。

【図２】本発明にかかる音声認識マイクのハードウエア
構成を示すブロック図。

【図３】本発明にかかる音声認識システムの概要を説明
するブロック図。

【図４】本発明にかかる音声認識システムにおける辞書
構成を説明する図。

【図５】本発明にかかる音声認識システムの動作を説明
する図。

【図６】従来の音声認識システムを使用した携帯型翻訳
装置の構成を説明するブロック図。

【図７】従来の音声認識システムの動作を説明する図。

【符号の説明】

１音声認識マイク１１音声認識マイク１３音声認識部１３１Ａ／Ｄ変換器１３２音声区間切出部１３３音声分析処理部１３４音声認識処理部１３５音響モデル格納部１５辞書部１５１コマンド辞書１５２認識対象辞書１５３辞書登録処理部１５４ユーザ登録辞書１７データ通信部２１アンプ２２Ａ／Ｄ変換器２３ＣＰＵ２４ＲＯＭ２５ＲＡＭ２６インタフェース２９音声入力ボタン３認識結果４通信手段５システム本体５１データ通信部５２辞書読出部５３認識対象大規模辞書５３１ホテル単語辞書５３２パーク単語辞書５３３スキー場単語辞書５４アプリケーションソフ５５音声合成部５６表示部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５７１Ａ (72)発明者小窪浩明東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者畑岡信夫東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内Ｆターム(参考） 5B075 ND02 PP07 PP22 PQ02 PQ04 PQ05 UU01 5D015 DD02 GG03 LL09 LL11 9A001 CC05 EE05 HH16 HH17 JJ77 JZ76

Claims

【特許請求の範囲】

【請求項１】音声認識の対象となる単語や文章を集め
て辞書として定義し、音声認識結果に基づいてそれらの
単語や文章を取り出して、後続する情報処理用データや
文字列表示や単語が示す画像などとして出力したり、認
識結果を音声合成を用いて音声として出力する音声認識
システムにける音声認識機能を備えた音声認識マイクに
おいて、マイク単体の機能を有するマイク部と、マイク
部からのアナログ信号をデジタル信号に変換するＡ／Ｄ
変換器と、音声区間を検出する音声区間検出処理と、取
り込んだ音声に対して音声分析する音声分析処理と、音
声の特徴を音素単位でもつ音響モデルと、あらかじめ登
録された辞書と音響モデルを連結して、音響モデルと連
結された全ての辞書において、入力された音声の音声分
析結果と照合し、確からしい認識結果を出力する音声認
識処理部を備え、マイクから音声認識結果を出力するこ
とを特徴とする音声認識マイク。
【請求項２】音声の入力から音声認識結果を出力する
までの一連の音声認識処理を行う音声認識部と、音声認
識結果を用いて新たな処理を実行するシステム本体へ認
識結果を転送しシステム本体から認識対象データを転送
するデータ通信部と、認識対象となる辞書を含む辞書部
を有していることを特徴とする請求項１に記載の音声認
識マイク。
【請求項３】データ通信部は、音声認識マイクとシス
テム本体を有線または無線もしくは赤外線通信で接続す
るインタフェースであり、通信されるデータはデジタル
データであり、その内容は、音声認識結果を表すテキス
トデータおよび／またはデジタル化された音声波形デー
タおよび／または音声でない雑音Ｎと音声Ｓのレベルを
示すＳ／Ｎ比のデータであることを特徴とする請求項２
に記載の音声認識マイク。
【請求項４】これから音声を入力することを音声認識
マイクに知らせるための音声入力通知手段を接続するた
めのインタフェースを有することを特徴とする請求項１
ないし請求項３のいずれか１項に記載の音声認識マイ
ク。
【請求項５】あらかじめ音声認識マイクに登録してた
コマンド辞書と、システム本体の記憶媒体に登録された
大規模な辞書から認識対象となる辞書を読み出した認識
対象辞書と、ユーザの登録処理によって作成されるユー
ザ登録辞書とを有することを特徴とする請求項１ないし
請求項４のいずれか１項に記載の音声認識マイク。
【請求項６】音声認識機能を有し入力された音声を認
識した結果を出力する音声認識マイクと、音声認識結果
を用いて後続する処理を実行する情報処理手段からなる
音声認識システム。
【請求項７】上記音声認識マイクが音声認識処理部と
辞書部とデータ通信部を有し、上記情報処理手段が音声
認識に使用する認識対象辞書とデータ通信部を有し、前
記音声認識マイクでの音声認識結果に基づいて音声認識
マイクの辞書部に前記情報処理手段の認識対象辞書の一
部分を転送し、転送された認識対象辞書を用いて音声認
識することを特徴とする請求項６に記載の音声認識シス
テム。
【請求項８】上記音声認識マイクの辞書部にユーザ登
録辞書を設け、該ユーザ辞書に認識対象辞書の中のユー
ザが必要とする単語を登録し、通常の音声認識では、コ
マンド辞書とユーザ登録辞書を認識対象として音声認識
することを特徴とする請求項６または請求７に記載の音
声認識システム。
【請求項９】音声認識処理部と辞書部とデータ通信部
を有する音声認識マイクと、音声認識結果に基づいて処
理を行う情報処理手段とからなる音声認識システムの音
声認識方法において、音声認識マイクの辞書部に、コマ
ンド辞書と、情報処理手段から転送された認識対象辞書
と、ユーザ登録辞書とを備え、認識対象辞書の中から最
終的にユーザが必要とする複数の単語を集めてユーザ登
録辞書を作成し、通常の音声認識ではコマンド辞書とユ
ーザ登録辞書を認識対象として音声認識することを特徴
とする音声認識システムの音声認識方法。