JP2003036093A - 音声入力検索システム - Google Patents
音声入力検索システムInfo
- Publication number
- JP2003036093A JP2003036093A JP2001222194A JP2001222194A JP2003036093A JP 2003036093 A JP2003036093 A JP 2003036093A JP 2001222194 A JP2001222194 A JP 2001222194A JP 2001222194 A JP2001222194 A JP 2001222194A JP 2003036093 A JP2003036093 A JP 2003036093A
- Authority
- JP
- Japan
- Prior art keywords
- search
- voice
- language model
- text
- voice input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
の精度を高めること。 【解決手段】オフラインのモデリング処理130(実線
矢印)によって、テキスト・データベース122から音
声認識用の言語モデル114を作成する。オンライン処
理では、ユーザが検索要求を発話すると、音響モデル1
12と言語モデル114を用いて音声認識処理110が
行われ、書き起こしが生成される。次に、書き起こされ
た検索要求を用いてテキスト検索処理120を実行し、
検察結果を、関連するものから順位付けて出力する。検
索結果の上位文書から情報を取得してモデリング処理1
30を行い、音声認識用の言語モデルを洗練して(点線
矢印)、音声認識およびテキスト検索を再度実行する。
これにより、初期検索に比べて認識・検索精度を向上さ
せることができる。
Description
ものであり、特に、音声入力により検索を行うシステム
に関するものである。
整理されている発話に対しては実用的な認識精度を達成
できる。また、ハードウェア技術の発展にも支えられ、
パソコン上で動作する商用/無償の音声認識ソフトウェ
アが存在する。そこで、既存のアプリケーションに音声
認識を導入することは比較的容易になっており、その需
要は今後ますます増加すると思われる。とりわけ、情報
検索システムは歴史が長く主要な情報処理アプリケーシ
ョンの一つであるため、音声認識を採り入れた研究も近
年数多く行われている。これらは目的に応じて以下の2
つに大別できる。 ・音声データの検索 放送音声データなどを対象にした検索である。入力手段
は問わないものの、テキスト(キーボード)入力が中心
である。 ・音声による検索 検索要求(質問)を音声入力によって行う。検索対象の
形式は問わないものの、テキストが中心である。すなわ
ち、これらは検索対象と検索要求のどちらを音声データ
と捉えるかが異なる。さらに、両者を統合すれば、音声
入力による音声データ検索を実現することも可能であ
る。しかし、現在そのような研究事例はあまり存在しな
い。
Document Retrieval(SDR)トラックで放送音声データ
を対象にしたテスト・コレクションが整備されているこ
とを背景にして、盛んに研究が行われている。他方にお
いて、音声による検索は、カーナビゲーション・システ
ムやコール・センターのようにキーボード入力を前提と
しない(バリアフリーな)アプリケーションを支える重
要な基盤技術であるにも拘らず、音声データ検索に比べ
て研究事例は極端に少ない。このように、音声による検
索に関する従来のシステムでは、概して、音声認識とテ
キスト検索は完全に独立したモジュ−ルとして存在し、
単に入出力インタフェースで接続されているだけであ
る。また、検索精度の向上に焦点が当てられ、音声認識
精度の向上は研究対象となっていないことが多い。
Broglio, M. Singh, R. Iludson,and S. W. Kuo "Expe
riments in spoken queries for document retrieval"
InProceedings of Eurospeech 97 pp. 1323-1326, 199
7 参照)は、既存の音声認識システム(語彙サイズ20,0
00)をテキスト検索システムINQUERYの入力とし
て利用して、音声による検索の評価実験を行った。具体
的には、TRECの検索課題35件(101−135)に対す
る単一話者の読み上げ音声をテスト入力として利用し、
TRECコレクションの検索実験を行った。Crestani
(Fabio Crestani, "Word recognition errors and rel
evance feedback in spoken query processing" In Pro
ceedings of the Forth International Conference on
Flexible Quey Answering Systems, pp. 267-281, 2000
参照)も上記35件の読み上げ検索課題を用いた実験
を行い(通常のテキスト検索で用いられる)適合性フィ
ードバックによって検索精度が向上することを示してい
る。しかし、どちらの実験においても既存の音声認識シ
ステムを改良せずに利用しているため、単語誤り率は比
較的高い(30%以上)。
t. R. Bahl, Fredrick Jelinek, and L. Mercer "A ma
ximum likelihood approach to continuous speech rec
ognition" IEEE Transactions on Pattern Analysis an
d Machine Intelligence, vol.5, no. 2, pp. 179-190,
1983参照)は、主に音響モデルと言語モデルで構成さ
れ、両者は音声認識精度に強く影響する。音響モデルは
音響的な特性に関するモデルであり、検索対象テキスト
とは独立な要素である。言語モデルは、音声認識結果
(候補)の言語的妥当性を定量化するためのモデルであ
る。しかし、あらゆる言語現象全てをモデル化すること
は不可能であるため、一般的には、与えられた学習用コ
ーパスに出現する言語現象に特化したモデルを作成す
る。
クティプ検索を円滑に進めたり、発話通りの要求に基づ
いて検索が行われている安心感をユーザに与える上でも
重要である。音声による検索に関する従来のシステムで
は、概して、音声認識とテキスト検索は完全に独立した
モジュ−ルとして存在し、単に入出力インタフェースで
接続されているだけである。また、検索精度の向上に焦
点が当てられ、音声認識精度の向上は研究対象となって
いないことが多い。
テキスト検索の有機的な統合を指向して、音声認識と情
報検索の両方の精度向上を目的としている。
めに、本発明は、音声入力した質問に対して検索を行う
音声入力検索システムであって、音声入力された質問
を、音響モデルと言語モデルとを用いて音声認識する音
声認識手段と、音声認識した質問で、データベースを検
索する検索手段と、前記検索結果を表示する検索結果表
示手段とを備え、前記言語モデルは、前記検索対象のデ
ータベースから生成されたことを特徴とする。前記言語
モデルを、前記検索手段による検索結果で生成し直し、
前記音声認識手段は、生成し直した言語モデルを使用し
て、前記質問に対して再度音声認識を行い、前記検索手
段は、再度音声認識した質問を用いて、再度検索を行う
ことができる。これにより、音声認識の精度をさらにあ
げることが可能となる。前記検索手段は、質問との適合
度を計算して、適合度の高い順に出力し、前記言語モデ
ルを、前記検索手段による検索結果で生成し直すとき、
予め定めた関連度の高い検索結果を用いることができ
る。これらの音声入力検索システムをコンピュータ・シ
ステムに構築させることができるコンピュータ・プログ
ラムやこのプログラムを記録した記録媒体も本発明であ
る。
実施形態を説明する。音声で入力して検索するシステム
においては、ユーザの発話は検索対象テキストに関連す
る内容である可能性が高い。そこで、検索対象テキスト
に基づいて言語モデルを作成すれば、音声認識の精度向
上が期待できる。その結果、ユーザの発話が正しく認識
されるので、テキスト入力に近い検索精度を実現するこ
とが可能になる。音声認識の精度を高めることは、イン
タラクティプ検索を円滑に進めたり、発話通りの要求に
基づいて検索が行われている安心感をユーザに与える上
でも重要である。
ステム100の構成を図1に示す。本システムの特長
は、検索テキストに基づいて音声認識精度を高めること
で、音声認識とテキスト検索の有機的な統合を実現する
点にある。そこで、まず、オフラインのモデリング処理
130(実線矢印)によって、検索対象となるテキスト
・データベース122から音声認識用の言語モデル11
4を作成する。オンライン処理では、ユーザが検索要求
を発話すると、音響モデル112と言語モデル114を
用いて音声認識処理110が行われ、書き起こしが生成
される。実際には、複数の書き起こし候補が生成され、
尤度を最大化する候補が選択される。ここで、言語モデ
ル114はテキスト・データベース122に基づいて作
成されているので、データベース中のテキストに言語的
に類似する書き起こしが優先的に選択される点に注意を
要する。次に、書き起こされた検索要求を用いてテキス
ト検索処理120を実行し、検索結果を、関連するもの
から順位付けて出力する。
索結果を表示してもよい。しかしながら、音声認識結果
には誤りが含まれることがあるため、検索結果にはユー
ザの発話に関連しない情報も含まれる。検索結果には、
他方において、正しく音声認識された発話部分によって
関連する情報も検索されているため、テキスト・データ
ベース122全体に比べると、ユーザの検索要求に関連
する情報の密度が高い。そこで、検索結果の上位文書か
ら情報を取得してモデリング処理130を行い、音声認
識用の言語モデルを洗練する(点線矢印)。そして、音
声認識およびテキスト検索を再度実行する。これによ
り、初期検索に比べて認識・検索精度を向上させること
ができる。この音声認識・検索精度を向上した検索内容
を、検索結果表示処理140でユーザに提示する。な
お、本システムは、日本語を対象にした例で説明してい
るが、原理的には対象言語を問わない。以下、音声認識
とテキスト検索についてそれぞれ説明する。
音声認識コンソーシアムの日本語ディクテーション基本
ソフトウェア(例えば、鹿野清宏ほか編著 「音声認識
システム」,オーム社,2001年発行を参照)を用い
ることができる。このソフトウェアは、2万語規模の単
語辞書を用いて、ほぼ実時間に近い動作で90%の認識
精度を実現できる。音響モデルと認識エンジン(デコー
ダー)は、本ソフトウェアのものを変更せずに利用す
る。他方において、統計的言語モデル(単語Nグラム)
は検索対象のテキスト・コレクションに基づいて作成す
る。上述のソフトウェアに付属されている関連ツール群
や一般に利用可能な形態索解析システム「茶筌」を併用
することで、様々な対象に対して比較的容易に言語モデ
ルを作成できる。すなわち、対象テキストから不要部分
を削除するなどの前処理を行い「茶筌」を用いて形態索
に分割し、読みを考慮した高頻度語制限モデルを作成す
る(この処理については、伊藤克亘,山田篤,天白成
一,山本俊一郎,踊堂憲道,宇津呂武仁,鹿野清宏「日
本語ディクテーションのための言語資源・ツールの整
備」 情報処理学会研究報告 99−SLP−26−5
1999等参照)。
手法を用いることができる。本手法は、近年のいくつか
の評価実験によって比較的高い検索精度を実現すること
が示されている。検索要求が与えられると、索引語の頻
度分布に基づいてコレクション中の各テキストに対する
適合度を計算し、適合度が高いテキストから優先的に出
力する。テキストiの適合度は式(1)によって計算す
る。
書き起こしに相当する)に含まれる索引語である。TF
t,iはテキストiにおける索引語tの出現頻度であ
る。DFtは対象コレクションにおいて索引語tを含む
テキストの数であり、Nはコレクション中のテキスト総
数である。DLiはテキストiの文書長(バイト数)で
あり、avglenはコレクション中の全テキストに関する平
均長である。適合度を適切に計算するためには、オフラ
インでの索引語抽出(索引付け)が必要である。そこで
「茶筌」を用いて単語分割、品詞付与を行う。さらに、
品詞情報に基づいて内容語(主に名詞)を抽出し、単語
単位で索引付けを行って転置ファイルを作成する。オン
ライン処理では、書き起こされた検索要求に対しても同
様の処理で索引語を抽出し、検索に利用する。
文抄録検索を例に、上述の実施形態のシステムを実施し
た例を説明する。音声発語「人工知能の将棋への応用」
を例にとる。この音声発語が、音声認識処理110によ
って「人工知能の消費への応用」のように誤認識された
とする。しかしながら、論文抄録のデータベースを検索
した結果としては、正しく音声認識された「人工知能」
が有効なキーワードとなって、以下のような適合度の順
位で論文タイトルのリストが検索される。 1.応用面からの理論教育・人工知能 2.アミューズメントへの人工生命の応用 3.実世界知能をめざして(II)・メタファに基づく人
工知能 ………… 29.将棋の序盤における柔軟な駒組みのための一手法
(2) ………… この検索結果のリストにおいて、所望の「人工知能将
棋」に関する文献は29番目で始めて登場する。このた
め、この結果がそのままユーザに提示されたとすると、
ユーザが当該論文まで到達するまでの手間が大きい。し
かし、この結果をすぐに提示するのではなく、検索結果
の上位リスト(例えば、100位まで)の論文抄録を用
いて言語モデルを獲得すると、ユーザが発声したもの
(即ち、「人工知能の将棋への応用」)に対する音声認
識精度が向上し、再認識によって正しく音声認識され
る。
人工知能将棋に関する論文が最上位に順位付けられる。 1.将棋の序盤における柔軟な駒組みのための一手法
(2) 2.最良優先検索による将棋の指し手生成の手法 3.コンピュータ将棋の現状1999春 4.将棋プログラムにおける序盤プログラムのアルゴリ
ズムと実装 5.名人に勝つ将棋システムに向けて ………… このように、音声認識のための言語モデルに対して、検
索対象により予め学習するとともに、ユーザの発話内容
による検索結果により学習することにより、音声認識を
向上することができる。検索を繰り返すごとに学習する
ことにより、音声認識精度を高めることも可能である。
なお、上述では、検索結果上位100を用いたが、例え
ば、適合度に閾値を設けて、この閾値以上のものを用い
てもよい。
検索対象となるテキスト・データベースに関連する発話
の音声認識精度が向上し、さらに検索を繰り返すたびに
リアルタイムで音声認識精度が漸進的に向上するので、
音声によって精度の高い情報検索を実現することができ
る。
Claims (5)
- 【請求項1】 音声入力した質問に対して検索を行う音
声入力検索システムであって、 音声入力された質問を、音響モデルと言語モデルとを用
いて音声認識する音声認識手段と、 音声認識した質問で、データベースを検索する検索手段
と、 前記検索結果を表示する検索結果表示手段とを備え、 前記言語モデルは、前記検索対象のデータベースから生
成されたことを特徴とする音声入力検索システム。 - 【請求項2】 請求項1記載の音声入力検索システムに
おいて、 前記言語モデルを、前記検索手段による検索結果で生成
し直し、 前記音声認識手段は、生成し直した言語モデルを使用し
て、前記質問に対して再度音声認識を行い、 前記検索手段は、再度音声認識した質問を用いて、再度
検索を行うことを特徴とする音声入力検索システム。 - 【請求項3】 請求項2記載の音声入力検索システムに
おいて、 前記検索手段は、質問との関連度を計算して、関連度の
高い順に出力し、 前記言語モデルを、前記検索手段による検索結果で生成
し直すとき、予め定めた関連度の高い検索結果を用いる
ことを特徴とする音声入力検索システム。 - 【請求項4】 請求項1〜3のいずれか記載の音声入力
検索システムをコンピュータ・システムに構築させるこ
とができるコンピュータ・プログラムを記録した記録媒
体。 - 【請求項5】 請求項1〜3のいずれか記載の音声入力
検索システムをコンピュータ・システムに構築させるこ
とができるコンピュータ・プログラム。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001222194A JP2003036093A (ja) | 2001-07-23 | 2001-07-23 | 音声入力検索システム |
| CA002454506A CA2454506A1 (en) | 2001-07-23 | 2002-07-22 | Speech input search system |
| US10/484,386 US20040254795A1 (en) | 2001-07-23 | 2002-07-22 | Speech input search system |
| PCT/JP2002/007391 WO2003010754A1 (fr) | 2001-07-23 | 2002-07-22 | Systeme de recherche a entree vocale |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001222194A JP2003036093A (ja) | 2001-07-23 | 2001-07-23 | 音声入力検索システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003036093A true JP2003036093A (ja) | 2003-02-07 |
Family
ID=19055721
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001222194A Pending JP2003036093A (ja) | 2001-07-23 | 2001-07-23 | 音声入力検索システム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20040254795A1 (ja) |
| JP (1) | JP2003036093A (ja) |
| CA (1) | CA2454506A1 (ja) |
| WO (1) | WO2003010754A1 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004279841A (ja) * | 2003-03-17 | 2004-10-07 | Fujitsu Ltd | 音声対話システム及び方法 |
| JP2006525552A (ja) * | 2003-04-30 | 2006-11-09 | ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | 音声認識における統計的言語モデリング方法 |
| US7310601B2 (en) | 2004-06-08 | 2007-12-18 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus and speech recognition method |
| JP2011053373A (ja) * | 2009-08-31 | 2011-03-17 | Toshiba Corp | 立体視映像表示装置及び立体視映像表示方法 |
| WO2014049998A1 (ja) * | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | 情報検索システム、情報検索方法およびプログラム |
Families Citing this family (52)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
| US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
| US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
| US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
| US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
| US8799303B2 (en) | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
| US20060041484A1 (en) | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
| US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
| US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
| WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
| US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
| US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
| US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
| US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
| US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
| US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
| US20070300142A1 (en) | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
| US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
| US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
| US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
| US8081849B2 (en) | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
| US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
| US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
| US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
| US8874504B2 (en) * | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
| US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
| US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
| US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
| TWI293753B (en) * | 2004-12-31 | 2008-02-21 | Delta Electronics Inc | Method and apparatus of speech pattern selection for speech recognition |
| US7672931B2 (en) * | 2005-06-30 | 2010-03-02 | Microsoft Corporation | Searching for content using voice search queries |
| US7499858B2 (en) * | 2006-08-18 | 2009-03-03 | Talkhouse Llc | Methods of information retrieval |
| JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
| US8713016B2 (en) | 2008-12-24 | 2014-04-29 | Comcast Interactive Media, Llc | Method and apparatus for organizing segments of media assets and determining relevance of segments to a query |
| US9442933B2 (en) * | 2008-12-24 | 2016-09-13 | Comcast Interactive Media, Llc | Identification of segments within audio, video, and multimedia items |
| US11531668B2 (en) * | 2008-12-29 | 2022-12-20 | Comcast Interactive Media, Llc | Merging of multiple data sets |
| DE202010018601U1 (de) | 2009-02-18 | 2018-04-30 | Google LLC (n.d.Ges.d. Staates Delaware) | Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung |
| US8990235B2 (en) | 2009-03-12 | 2015-03-24 | Google Inc. | Automatically providing content associated with captured information, such as information captured in real-time |
| US8176043B2 (en) | 2009-03-12 | 2012-05-08 | Comcast Interactive Media, Llc | Ranking search results |
| US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
| US20100250614A1 (en) * | 2009-03-31 | 2010-09-30 | Comcast Cable Holdings, Llc | Storing and searching encoded data |
| US8533223B2 (en) * | 2009-05-12 | 2013-09-10 | Comcast Interactive Media, LLC. | Disambiguation and tagging of entities |
| US9892730B2 (en) | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
| US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
| US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
| JP5533042B2 (ja) * | 2010-03-04 | 2014-06-25 | 富士通株式会社 | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
| CN104685493A (zh) * | 2012-09-27 | 2015-06-03 | 日本电气株式会社 | 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 |
| EP3393112B1 (en) * | 2014-05-23 | 2020-12-30 | Samsung Electronics Co., Ltd. | System and method of providing voice-message call service |
| CN104899002A (zh) * | 2015-05-29 | 2015-09-09 | 深圳市锐曼智能装备有限公司 | 机器人基于对话预测的在线与离线的识别切换方法及系统 |
| CN106910504A (zh) * | 2015-12-22 | 2017-06-30 | 北京君正集成电路股份有限公司 | 一种基于语音识别的演讲提示方法及装置 |
| CN106843523B (zh) * | 2016-12-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文字输入方法和装置 |
| EP3882889A1 (en) * | 2020-03-19 | 2021-09-22 | Honeywell International Inc. | Methods and systems for querying for parameter retrieval |
| US11676496B2 (en) | 2020-03-19 | 2023-06-13 | Honeywell International Inc. | Methods and systems for querying for parameter retrieval |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3278222B2 (ja) * | 1993-01-13 | 2002-04-30 | キヤノン株式会社 | 情報処理方法及び装置 |
| US5819220A (en) * | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
| DE19708183A1 (de) * | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
| JPH10254480A (ja) * | 1997-03-13 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
| JP2001507482A (ja) * | 1997-10-08 | 2001-06-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 語彙及び/又は言語モデルのトレーニング |
| US6178401B1 (en) * | 1998-08-28 | 2001-01-23 | International Business Machines Corporation | Method for reducing search complexity in a speech recognition system |
| US6275803B1 (en) * | 1999-02-12 | 2001-08-14 | International Business Machines Corp. | Updating a language model based on a function-word to total-word ratio |
| US6345253B1 (en) * | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Method and apparatus for retrieving audio information using primary and supplemental indexes |
| JP2001100781A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
| US7072838B1 (en) * | 2001-03-20 | 2006-07-04 | Nuance Communications, Inc. | Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data |
-
2001
- 2001-07-23 JP JP2001222194A patent/JP2003036093A/ja active Pending
-
2002
- 2002-07-22 US US10/484,386 patent/US20040254795A1/en not_active Abandoned
- 2002-07-22 CA CA002454506A patent/CA2454506A1/en not_active Abandoned
- 2002-07-22 WO PCT/JP2002/007391 patent/WO2003010754A1/ja not_active Ceased
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004279841A (ja) * | 2003-03-17 | 2004-10-07 | Fujitsu Ltd | 音声対話システム及び方法 |
| JP2006525552A (ja) * | 2003-04-30 | 2006-11-09 | ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | 音声認識における統計的言語モデリング方法 |
| US7310601B2 (en) | 2004-06-08 | 2007-12-18 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus and speech recognition method |
| JP2011053373A (ja) * | 2009-08-31 | 2011-03-17 | Toshiba Corp | 立体視映像表示装置及び立体視映像表示方法 |
| WO2014049998A1 (ja) * | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | 情報検索システム、情報検索方法およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| CA2454506A1 (en) | 2003-02-06 |
| WO2003010754A1 (fr) | 2003-02-06 |
| US20040254795A1 (en) | 2004-12-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2003036093A (ja) | 音声入力検索システム | |
| Larson et al. | Spoken content retrieval: A survey of techniques and technologies | |
| JP3720068B2 (ja) | 質問の転記方法及び装置 | |
| Chelba et al. | Retrieval and browsing of spoken content | |
| US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
| CN1112669C (zh) | 采用连续密度隐藏式马尔克夫模型的语音识别方法和系统 | |
| JP3488174B2 (ja) | 内容情報と話者情報を使用して音声情報を検索するための方法および装置 | |
| US9361879B2 (en) | Word spotting false alarm phrases | |
| US8321218B2 (en) | Searching in audio speech | |
| JP2004005600A (ja) | データベースに格納された文書をインデックス付け及び検索する方法及びシステム | |
| JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
| JPWO2009081861A1 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
| Chen et al. | Discriminating capabilities of syllable-based features and approaches of utilizing them for voice retrieval of speech information in Mandarin Chinese | |
| CN101415259A (zh) | 嵌入式设备上基于双语语音查询的信息检索系统及方法 | |
| Shokouhi et al. | Did you say U2 or YouTube? Inferring implicit transcripts from voice search logs | |
| Moyal et al. | Phonetic search methods for large speech databases | |
| KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
| JP4115723B2 (ja) | 音声入力によるテキスト検索装置 | |
| JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
| Bai et al. | Syllable-based Chinese text/spoken document retrieval using text/speech queries | |
| JP2005250071A (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
| Li et al. | Towards unsupervised semantic retrieval of spoken content with query expansion based on automatically discovered acoustic patterns | |
| Akiba et al. | Effects of Query Expansion for Spoken Document Passage Retrieval. | |
| Lee et al. | Integrating recognition and retrieval with user feedback: A new framework for spoken term detection | |
| JP2003099086A (ja) | 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20031031 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040129 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050202 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071002 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080325 |