JP2003036093A

JP2003036093A - 音声入力検索システム

Info

Publication number: JP2003036093A
Application number: JP2001222194A
Authority: JP
Inventors: Tetsuya Ishikawa; 徹也石川; Atsushi Fujii; 敦藤井; Katsunobu Ito; 克亘伊藤; Tomoyoshi Akiba; 友良秋葉
Original assignee: National Institute of Advanced Industrial Science and Technology AIST; Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency; National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2001-07-23
Filing date: 2001-07-23
Publication date: 2003-02-07
Also published as: CA2454506A1; WO2003010754A1; US20040254795A1

Abstract

(57)【要約】【課題】音声入力検索システムの音声認識及び情報検索
の精度を高めること。【解決手段】オフラインのモデリング処理１３０（実線
矢印）によって、テキスト・データベース１２２から音
声認識用の言語モデル１１４を作成する。オンライン処
理では、ユーザが検索要求を発話すると、音響モデル１
１２と言語モデル１１４を用いて音声認識処理１１０が
行われ、書き起こしが生成される。次に、書き起こされ
た検索要求を用いてテキスト検索処理１２０を実行し、
検察結果を、関連するものから順位付けて出力する。検
索結果の上位文書から情報を取得してモデリング処理１
３０を行い、音声認識用の言語モデルを洗練して（点線
矢印）、音声認識およびテキスト検索を再度実行する。
これにより、初期検索に比べて認識・検索精度を向上さ
せることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声入力に関する
ものであり、特に、音声入力により検索を行うシステム
に関するものである。

【０００２】

【技術的背景】近年の音声認識技術は、内容がある程度
整理されている発話に対しては実用的な認識精度を達成
できる。また、ハードウェア技術の発展にも支えられ、
パソコン上で動作する商用／無償の音声認識ソフトウェ
アが存在する。そこで、既存のアプリケーションに音声
認識を導入することは比較的容易になっており、その需
要は今後ますます増加すると思われる。とりわけ、情報
検索システムは歴史が長く主要な情報処理アプリケーシ
ョンの一つであるため、音声認識を採り入れた研究も近
年数多く行われている。これらは目的に応じて以下の２
つに大別できる。・音声データの検索放送音声データなどを対象にした検索である。入力手段
は問わないものの、テキスト（キーボード）入力が中心
である。・音声による検索検索要求（質問）を音声入力によって行う。検索対象の
形式は問わないものの、テキストが中心である。すなわ
ち、これらは検索対象と検索要求のどちらを音声データ
と捉えるかが異なる。さらに、両者を統合すれば、音声
入力による音声データ検索を実現することも可能であ
る。しかし、現在そのような研究事例はあまり存在しな
い。

【０００３】音声データの検索は、ＴＲＥＣの Spoken
Document Retrieval（SDR）トラックで放送音声データ
を対象にしたテスト・コレクションが整備されているこ
とを背景にして、盛んに研究が行われている。他方にお
いて、音声による検索は、カーナビゲーション・システ
ムやコール・センターのようにキーボード入力を前提と
しない（バリアフリーな）アプリケーションを支える重
要な基盤技術であるにも拘らず、音声データ検索に比べ
て研究事例は極端に少ない。このように、音声による検
索に関する従来のシステムでは、概して、音声認識とテ
キスト検索は完全に独立したモジュ−ルとして存在し、
単に入出力インタフェースで接続されているだけであ
る。また、検索精度の向上に焦点が当てられ、音声認識
精度の向上は研究対象となっていないことが多い。

【０００４】Barnettら（J. Barnett, S. Anderson, J.
Broglio, M. Singh, R. Iludson,and S. W. Kuo "Expe
riments in spoken queries for document retrieval"
InProceedings of Eurospeech 97 pp. 1323-1326, 199
7 参照）は、既存の音声認識システム（語彙サイズ20,0
00）をテキスト検索システムＩＮＱＵＥＲＹの入力とし
て利用して、音声による検索の評価実験を行った。具体
的には、ＴＲＥＣの検索課題３５件（101−135）に対す
る単一話者の読み上げ音声をテスト入力として利用し、
ＴＲＥＣコレクションの検索実験を行った。Crestani
（Fabio Crestani, "Word recognition errors and rel
evance feedback in spoken query processing" In Pro
ceedings of the Forth International Conference on
Flexible Quey Answering Systems, pp. 267-281, 2000
参照）も上記３５件の読み上げ検索課題を用いた実験
を行い（通常のテキスト検索で用いられる）適合性フィ
ードバックによって検索精度が向上することを示してい
る。しかし、どちらの実験においても既存の音声認識シ
ステムを改良せずに利用しているため、単語誤り率は比
較的高い（30％以上）。

【０００５】統計的な音声認識システム（例えば、Lali
t. R. Bahl, Fredrick Jelinek, and L. Mercer "A ma
ximum likelihood approach to continuous speech rec
ognition" IEEE Transactions on Pattern Analysis an
d Machine Intelligence, vol.5, no. 2, pp. 179-190,
1983参照）は、主に音響モデルと言語モデルで構成さ
れ、両者は音声認識精度に強く影響する。音響モデルは
音響的な特性に関するモデルであり、検索対象テキスト
とは独立な要素である。言語モデルは、音声認識結果
（候補）の言語的妥当性を定量化するためのモデルであ
る。しかし、あらゆる言語現象全てをモデル化すること
は不可能であるため、一般的には、与えられた学習用コ
ーパスに出現する言語現象に特化したモデルを作成す
る。

【０００６】音声認識の精度を高めることは、インタラ
クティプ検索を円滑に進めたり、発話通りの要求に基づ
いて検索が行われている安心感をユーザに与える上でも
重要である。音声による検索に関する従来のシステムで
は、概して、音声認識とテキスト検索は完全に独立した
モジュ−ルとして存在し、単に入出力インタフェースで
接続されているだけである。また、検索精度の向上に焦
点が当てられ、音声認識精度の向上は研究対象となって
いないことが多い。

【０００７】

【発明が解決しようとする課題】本発明は、音声認識と
テキスト検索の有機的な統合を指向して、音声認識と情
報検索の両方の精度向上を目的としている。

【０００８】

【課題を解決するための手段】上記の目的を達成するた
めに、本発明は、音声入力した質問に対して検索を行う
音声入力検索システムであって、音声入力された質問
を、音響モデルと言語モデルとを用いて音声認識する音
声認識手段と、音声認識した質問で、データベースを検
索する検索手段と、前記検索結果を表示する検索結果表
示手段とを備え、前記言語モデルは、前記検索対象のデ
ータベースから生成されたことを特徴とする。前記言語
モデルを、前記検索手段による検索結果で生成し直し、
前記音声認識手段は、生成し直した言語モデルを使用し
て、前記質問に対して再度音声認識を行い、前記検索手
段は、再度音声認識した質問を用いて、再度検索を行う
ことができる。これにより、音声認識の精度をさらにあ
げることが可能となる。前記検索手段は、質問との適合
度を計算して、適合度の高い順に出力し、前記言語モデ
ルを、前記検索手段による検索結果で生成し直すとき、
予め定めた関連度の高い検索結果を用いることができ
る。これらの音声入力検索システムをコンピュータ・シ
ステムに構築させることができるコンピュータ・プログ
ラムやこのプログラムを記録した記録媒体も本発明であ
る。

【０００９】

【発明の実施の形態】以下、図面を参照して、本発明の
実施形態を説明する。音声で入力して検索するシステム
においては、ユーザの発話は検索対象テキストに関連す
る内容である可能性が高い。そこで、検索対象テキスト
に基づいて言語モデルを作成すれば、音声認識の精度向
上が期待できる。その結果、ユーザの発話が正しく認識
されるので、テキスト入力に近い検索精度を実現するこ
とが可能になる。音声認識の精度を高めることは、イン
タラクティプ検索を円滑に進めたり、発話通りの要求に
基づいて検索が行われている安心感をユーザに与える上
でも重要である。

【００１０】本発明の実施形態における音声入力検索シ
ステム１００の構成を図１に示す。本システムの特長
は、検索テキストに基づいて音声認識精度を高めること
で、音声認識とテキスト検索の有機的な統合を実現する
点にある。そこで、まず、オフラインのモデリング処理
１３０（実線矢印）によって、検索対象となるテキスト
・データベース１２２から音声認識用の言語モデル１１
４を作成する。オンライン処理では、ユーザが検索要求
を発話すると、音響モデル１１２と言語モデル１１４を
用いて音声認識処理１１０が行われ、書き起こしが生成
される。実際には、複数の書き起こし候補が生成され、
尤度を最大化する候補が選択される。ここで、言語モデ
ル１１４はテキスト・データベース１２２に基づいて作
成されているので、データベース中のテキストに言語的
に類似する書き起こしが優先的に選択される点に注意を
要する。次に、書き起こされた検索要求を用いてテキス
ト検索処理１２０を実行し、検索結果を、関連するもの
から順位付けて出力する。

【００１１】この時点で、検索結果表示処理１４０で検
索結果を表示してもよい。しかしながら、音声認識結果
には誤りが含まれることがあるため、検索結果にはユー
ザの発話に関連しない情報も含まれる。検索結果には、
他方において、正しく音声認識された発話部分によって
関連する情報も検索されているため、テキスト・データ
ベース１２２全体に比べると、ユーザの検索要求に関連
する情報の密度が高い。そこで、検索結果の上位文書か
ら情報を取得してモデリング処理１３０を行い、音声認
識用の言語モデルを洗練する（点線矢印）。そして、音
声認識およびテキスト検索を再度実行する。これによ
り、初期検索に比べて認識・検索精度を向上させること
ができる。この音声認識・検索精度を向上した検索内容
を、検索結果表示処理１４０でユーザに提示する。な
お、本システムは、日本語を対象にした例で説明してい
るが、原理的には対象言語を問わない。以下、音声認識
とテキスト検索についてそれぞれ説明する。

【００１２】＜音声認識＞音声認識には、例えば、連続
音声認識コンソーシアムの日本語ディクテーション基本
ソフトウェア（例えば、鹿野清宏ほか編著「音声認識
システム」，オーム社，２００１年発行を参照）を用い
ることができる。このソフトウェアは、２万語規模の単
語辞書を用いて、ほぼ実時間に近い動作で９０％の認識
精度を実現できる。音響モデルと認識エンジン（デコー
ダー）は、本ソフトウェアのものを変更せずに利用す
る。他方において、統計的言語モデル（単語Ｎグラム）
は検索対象のテキスト・コレクションに基づいて作成す
る。上述のソフトウェアに付属されている関連ツール群
や一般に利用可能な形態索解析システム「茶筌」を併用
することで、様々な対象に対して比較的容易に言語モデ
ルを作成できる。すなわち、対象テキストから不要部分
を削除するなどの前処理を行い「茶筌」を用いて形態索
に分割し、読みを考慮した高頻度語制限モデルを作成す
る（この処理については、伊藤克亘，山田篤，天白成
一，山本俊一郎，踊堂憲道，宇津呂武仁，鹿野清宏「日
本語ディクテーションのための言語資源・ツールの整
備」情報処理学会研究報告９９−ＳＬＰ−２６−５
１９９９等参照）。

【００１３】＜テキスト検索＞テキスト検索には確率的
手法を用いることができる。本手法は、近年のいくつか
の評価実験によって比較的高い検索精度を実現すること
が示されている。検索要求が与えられると、索引語の頻
度分布に基づいてコレクション中の各テキストに対する
適合度を計算し、適合度が高いテキストから優先的に出
力する。テキストiの適合度は式（１）によって計算す
る。

【数１】ここで、tは検索要求（本システムでは、ユーザ発話の
書き起こしに相当する）に含まれる索引語である。ＴＦ
_ｔ，ｉはテキストｉにおける索引語ｔの出現頻度であ
る。ＤＦ_ｔは対象コレクションにおいて索引語ｔを含む
テキストの数であり、Ｎはコレクション中のテキスト総
数である。ＤＬ_ｉはテキストｉの文書長（バイト数）で
あり、avglenはコレクション中の全テキストに関する平
均長である。適合度を適切に計算するためには、オフラ
インでの索引語抽出（索引付け）が必要である。そこで
「茶筌」を用いて単語分割、品詞付与を行う。さらに、
品詞情報に基づいて内容語（主に名詞）を抽出し、単語
単位で索引付けを行って転置ファイルを作成する。オン
ライン処理では、書き起こされた検索要求に対しても同
様の処理で索引語を抽出し、検索に利用する。

【００１４】

【実施例】テキスト・データベースを論文抄録とした論
文抄録検索を例に、上述の実施形態のシステムを実施し
た例を説明する。音声発語「人工知能の将棋への応用」
を例にとる。この音声発語が、音声認識処理１１０によ
って「人工知能の消費への応用」のように誤認識された
とする。しかしながら、論文抄録のデータベースを検索
した結果としては、正しく音声認識された「人工知能」
が有効なキーワードとなって、以下のような適合度の順
位で論文タイトルのリストが検索される。１．応用面からの理論教育・人工知能２．アミューズメントへの人工生命の応用３．実世界知能をめざして（II）・メタファに基づく人
工知能 ………… ２９．将棋の序盤における柔軟な駒組みのための一手法
（２） ………… この検索結果のリストにおいて、所望の「人工知能将
棋」に関する文献は２９番目で始めて登場する。このた
め、この結果がそのままユーザに提示されたとすると、
ユーザが当該論文まで到達するまでの手間が大きい。し
かし、この結果をすぐに提示するのではなく、検索結果
の上位リスト（例えば、１００位まで）の論文抄録を用
いて言語モデルを獲得すると、ユーザが発声したもの
（即ち、「人工知能の将棋への応用」）に対する音声認
識精度が向上し、再認識によって正しく音声認識され
る。

【００１５】その結果、次回検索は以下のようになり、
人工知能将棋に関する論文が最上位に順位付けられる。１．将棋の序盤における柔軟な駒組みのための一手法
（２）２．最良優先検索による将棋の指し手生成の手法３．コンピュータ将棋の現状１９９９春４．将棋プログラムにおける序盤プログラムのアルゴリ
ズムと実装５．名人に勝つ将棋システムに向けて ………… このように、音声認識のための言語モデルに対して、検
索対象により予め学習するとともに、ユーザの発話内容
による検索結果により学習することにより、音声認識を
向上することができる。検索を繰り返すごとに学習する
ことにより、音声認識精度を高めることも可能である。
なお、上述では、検索結果上位１００を用いたが、例え
ば、適合度に閾値を設けて、この閾値以上のものを用い
てもよい。

【００１６】

【発明の効果】上述するように、本発明の構成により、
検索対象となるテキスト・データベースに関連する発話
の音声認識精度が向上し、さらに検索を繰り返すたびに
リアルタイムで音声認識精度が漸進的に向上するので、
音声によって精度の高い情報検索を実現することができ
る。

【図面の簡単な説明】

【図１】本発明の実施形態を示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者伊藤克亘茨城県つくば市東１−１−１独立行政法人産業技術総合研究所つくばセンター内 (72)発明者秋葉友良茨城県つくば市東１−１−１独立行政法人産業技術総合研究所つくばセンター内Ｆターム(参考） 5B075 ND03 PP07 PP24 PQ02 UU06 5D015 HH00 KK02

Claims

【特許請求の範囲】

【請求項１】音声入力した質問に対して検索を行う音
声入力検索システムであって、音声入力された質問を、音響モデルと言語モデルとを用
いて音声認識する音声認識手段と、音声認識した質問で、データベースを検索する検索手段
と、前記検索結果を表示する検索結果表示手段とを備え、前記言語モデルは、前記検索対象のデータベースから生
成されたことを特徴とする音声入力検索システム。
【請求項２】請求項１記載の音声入力検索システムに
おいて、前記言語モデルを、前記検索手段による検索結果で生成
し直し、前記音声認識手段は、生成し直した言語モデルを使用し
て、前記質問に対して再度音声認識を行い、前記検索手段は、再度音声認識した質問を用いて、再度
検索を行うことを特徴とする音声入力検索システム。
【請求項３】請求項２記載の音声入力検索システムに
おいて、前記検索手段は、質問との関連度を計算して、関連度の
高い順に出力し、前記言語モデルを、前記検索手段による検索結果で生成
し直すとき、予め定めた関連度の高い検索結果を用いる
ことを特徴とする音声入力検索システム。
【請求項４】請求項１〜３のいずれか記載の音声入力
検索システムをコンピュータ・システムに構築させるこ
とができるコンピュータ・プログラムを記録した記録媒
体。
【請求項５】請求項１〜３のいずれか記載の音声入力
検索システムをコンピュータ・システムに構築させるこ
とができるコンピュータ・プログラム。