JP5606951B2 - Speech recognition system and search system using the same - Google Patents
Speech recognition system and search system using the same Download PDFInfo
- Publication number
- JP5606951B2 JP5606951B2 JP2011029301A JP2011029301A JP5606951B2 JP 5606951 B2 JP5606951 B2 JP 5606951B2 JP 2011029301 A JP2011029301 A JP 2011029301A JP 2011029301 A JP2011029301 A JP 2011029301A JP 5606951 B2 JP5606951 B2 JP 5606951B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- speech
- dictionary
- facility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 96
- 238000000034 method Methods 0.000 claims description 51
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 35
- 239000012536 storage buffer Substances 0.000 description 35
- 238000010586 diagram Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000872 buffer Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Description
本発明は、使用者の発声した音声に対して音声認識処理を行う音声認識システムおよびこれを用いた検索システムに関する。 The present invention relates to a speech recognition system that performs speech recognition processing on speech uttered by a user, and a search system using the speech recognition system.
従来から、利用者が発声した音声に対して音声認識処理を行う際に、年間行事を含むカレンダーデータベースを用いてこのカレンダーデータベースに記録されている行事に関連する語彙を優先語彙として決定し、この語彙を優先的に認識処理を行うように認識辞書での語彙配列の内容を更新するようにした音声認識装置が知られている(例えば、特許文献1参照)。 Conventionally, when performing speech recognition processing on speech uttered by a user, a vocabulary related to an event recorded in this calendar database is determined as a priority vocabulary using a calendar database including annual events. A speech recognition apparatus is known in which the contents of a vocabulary array in a recognition dictionary are updated so that vocabulary is recognized preferentially (see, for example, Patent Document 1).
ところで、上述した特許文献1に用いられる音声認識装置では、カレンダーデータベースに記録されている行事に関連する語彙が優先されるが、利用者が発生する音声は、必ずしも行事に関連するものとは限らないため、行事に関連しない音声に対して音声認識の精度が低いという問題があった。音声認識処理によって1つの語彙が抽出されたときに、誤認識が生じると、発声からやりなおす必要があるため、操作が煩雑になる。また、音声認識処理によって1つの語彙に絞り込むことができず認識候補として複数の語彙が抽出されると、その中からいずれかを利用者が選択する必要が生じるため、やはり操作が煩雑になる。特に、この音声認識装置を車両に搭載してナビゲーション装置等の施設検索に用いる場合には、施設検索のキーワードとしての語彙が適切に決まらないことになり、所望の施設情報が得られるまでの操作が煩雑になったり時間がかかるという問題があった。 By the way, in the speech recognition apparatus used in Patent Document 1 described above, priority is given to the vocabulary related to the event recorded in the calendar database, but the speech generated by the user is not necessarily related to the event. Therefore, there is a problem that the accuracy of speech recognition is low for speech not related to the event. When a single vocabulary is extracted by the speech recognition process, if a misrecognition occurs, it is necessary to start over from the utterance, which makes the operation complicated. In addition, if a plurality of vocabularies cannot be narrowed down to one vocabulary by voice recognition processing and a plurality of vocabularies are extracted as recognition candidates, it becomes necessary for the user to select one of them, so that the operation becomes complicated. In particular, when this speech recognition device is mounted on a vehicle and used for facility search such as a navigation device, the vocabulary as a facility search keyword is not properly determined, and operations until desired facility information is obtained. There was a problem that became complicated and time consuming.
本発明は、このような点に鑑みて創作されたものであり、その目的は、認識精度を向上させることができるとともに正しい認識結果を得るまでの操作を簡略化することができる音声認識システムを提供することにある。また、本発明の他の目的は、音声認識処理を用いて検索キーワードを指定してコンテンツ検索を行う場合に、コンテンツ情報が得られるまでの操作を簡略化することができる検索システムを提供することにある。 The present invention has been created in view of the above points, and an object of the present invention is to provide a speech recognition system that can improve recognition accuracy and simplify operations until obtaining a correct recognition result. It is to provide. Another object of the present invention is to provide a search system capable of simplifying operations until content information is obtained when a content search is performed by specifying a search keyword using voice recognition processing. It is in.
上述した課題を解決するために、本発明の音声認識システムは、話者が発声した音声を保存する音声保存手段と、第1の認識辞書を用いて、音声保存手段に保存された音声に対して音声認識処理を行う第1の音声認識手段と、第1の認識辞書と異なる第2の認識辞書を用いて、音声保存手段に保存された音声に対して音声認識処理を行う第2の音声認識手段と、第1および第2の音声認識手段の認識結果に基づいて、音声保存手段に保存された音声に対応する認識候補を決定する認識結果決定手段とを備えている。 In order to solve the above-described problem, the speech recognition system of the present invention uses a speech storage unit that stores speech uttered by a speaker and a speech stored in the speech storage unit using the first recognition dictionary. A second voice for performing voice recognition processing on the voice stored in the voice storage means by using a first voice recognition means for performing voice recognition processing and a second recognition dictionary different from the first recognition dictionary. A recognition means; and a recognition result determination means for determining a recognition candidate corresponding to the voice stored in the voice storage means based on the recognition results of the first and second voice recognition means.
2組の認識辞書と音声認識手段を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、1つの認識候補としての語彙を決定する可能性が高まり、複数の語彙の中から利用者自身が正解となる語彙を指示する機会が減るため、操作の簡略化が可能となる。 By performing speech recognition processing on the same speech using two sets of recognition dictionaries and speech recognition means, recognition accuracy can be increased. As a result, the possibility of determining a vocabulary as one recognition candidate is increased, and the opportunity for the user himself / herself to specify a correct vocabulary from a plurality of vocabularies is reduced, so that the operation can be simplified.
また、上述した第1の音声認識手段による音声認識処理の処理時間は、第2の音声認識手段による音声認識処理の処理時間よりも短く、第2の音声認識手段による音声認識処理の認識精度は、第1の音声認識手段による音声認識処理の認識精度よりも高いことが望ましい。これにより、処理時間と認識精度の異なる2種類の音声認識処理を組み合わせることにより、必要に応じて認識精度を上げることが可能となる。 Further, the processing time of the speech recognition process according to the first speech recognition means described above, shorter than the processing time of the speech recognition processing by the second speech recognition means, the recognition accuracy of the speech recognition processing by the second speech recognition means It is desirable that the recognition accuracy is higher than the speech recognition processing by the first speech recognition means . Thereby, it becomes possible to raise recognition accuracy as needed by combining two types of speech recognition processing with different processing time and recognition accuracy.
また、上述した第1および第2の音声認識手段による音声認識処理は、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われることが望ましい。これにより、音響モデルと照合アルゴリズムが異なる2種類の音声認識処理を組み合わせることにより、同時に誤認識が発生する可能性が低くなるため、認識精度を上げることができる。 Moreover, it is preferable that the voice recognition processing by the first and second voice recognition units described above is performed using different acoustic models and matching algorithms. Thus, by combining two types of speech recognition processes with different acoustic models and matching algorithms, the possibility of erroneous recognition occurring at the same time is reduced, so that the recognition accuracy can be increased.
また、上述した音声保存手段、第1の音声認識手段、認識結果決定手段は、車両に設けられており、第2の音声認識手段は、ネットワークを介して接続された車両外部のサーバに設けられている。これにより、車両に設けられた第1の音声認識手段による音声認識処理だけでなく、車両外部のサーバに設けられた第2の音声認識手段による音声認識処理を併用することができるため、必要に応じて認識精度を上げることが可能となる。 Further, the above-described voice storage means, first voice recognition means, and recognition result determination means are provided in the vehicle, and the second voice recognition means is provided in a server outside the vehicle connected via a network. ing. As a result, not only the voice recognition processing by the first voice recognition means provided in the vehicle but also the voice recognition processing by the second voice recognition means provided in the server outside the vehicle can be used together. Accordingly, the recognition accuracy can be increased.
また、上述した第2の音声認識手段による音声認識処理によって複数の認識候補に絞られたときに、これら複数の認識候補に対応する第1の認識辞書を作成する辞書作成手段をさらに備え、認識結果決定手段は、辞書作成手段によって作成された第1の認識辞書を用いた第1の音声認識手段の認識結果を用いて、音声保存手段に保存された音声に対応する認識候補を決定する。第2の音声認識手段の音声認識処理によって複数の認識候補を抽出した後、第1の音声認識手段の音声認識処理によってこれら複数の認識候補の中から入力音声に最も近いものを抽出することができるため、一方の音声認識手段のみで認識候補を決定する場合に比べて大幅に認識精度を向上させることができる。 Further, the apparatus further comprises dictionary creation means for creating a first recognition dictionary corresponding to the plurality of recognition candidates when the plurality of recognition candidates are narrowed down by the voice recognition processing by the second voice recognition means described above. The result determination unit determines a recognition candidate corresponding to the voice stored in the voice storage unit, using the recognition result of the first voice recognition unit using the first recognition dictionary created by the dictionary creation unit . After extracting a plurality of recognition candidates by the voice recognition process of the second voice recognition means, the voice recognition process of the first voice recognition means can extract the one closest to the input voice from the plurality of recognition candidates. Therefore, the recognition accuracy can be greatly improved as compared with the case where the recognition candidate is determined by only one speech recognition means.
また、上述した認識結果決定手段は、第2の音声認識手段による音声認識処理によって1つの認識候補に絞られたときに、この認識候補を、音声保存手段に保存された音声に対応する認識候補として決定することが望ましい。これにより、不要な処理を削減して最終的な認識候補を決定するまでの時間を短縮することができる。 In addition, the above-described recognition result determination unit selects a recognition candidate corresponding to the speech stored in the speech storage unit when the recognition candidate is narrowed down to one recognition candidate by the speech recognition processing by the second speech recognition unit. It is desirable to determine as As a result, unnecessary processing can be reduced and the time required to determine the final recognition candidate can be shortened.
また、上述した辞書作成手段は、複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、第1の認識辞書を動的に作成することが望ましい。これにより、複数の認識候補の中から入力音声に最も類似するものを正確に決定することができる。 Further, the dictionary creation means described above dynamically creates a first recognition dictionary by generating readings corresponding to each of a plurality of recognition candidates by grapheme-phoneme conversion and converting the readings into speech waveforms. It is desirable to do. Thereby, it is possible to accurately determine the most similar to the input speech from among a plurality of recognition candidates.
また、本発明の検索システムは、上述した音声認識システムと、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、認識結果決定手段によって決定された認識候補を検索キーワードとして複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えており、コンテンツデータベースとコンテンツ検索手段は、サーバに設けられている。上述した認識精度が高く操作が簡単な音声認識システムをコンテンツ検索に適用することにより、コンテンツ情報が得られるまでの操作を簡略化することができる。また、サーバ側でコンテンツ検索を行うことにより、車両側で同様のコンテンツ検索を行う場合に比べて、検索対象となるコンテンツの数を増加させるとともに最新のコンテンツ情報を得ることが可能となる。 In addition, the search system of the present invention selects one of a plurality of contents from the above-described voice recognition system , a content database storing information on a plurality of contents, and a recognition candidate determined by the recognition result determining means as a search keyword. Content search means for searching for information on one or a plurality of contents, and the content database and the content search means are provided in the server . By applying the above-described speech recognition system with high recognition accuracy and easy operation to content search, the operation until content information can be obtained can be simplified. Further, by performing a content search on the server side, it is possible to increase the number of content items to be searched and obtain the latest content information as compared to the case where a similar content search is performed on the vehicle side.
以下、本発明を適用した一実施形態の施設検索システムについて、図面を参照しながら説明する。 Hereinafter, a facility search system according to an embodiment to which the present invention is applied will be described with reference to the drawings.
(第1の実施形態)
図1は、第1の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置100と施設検索サーバ150とを備えている。車載装置100は車両に搭載されている。また、施設検索サーバ150は、車両外部に設けられており、車載装置100と無線回線を介して接続されている。具体的には、車載装置100は、携帯電話機および基地局を介してインターネット経由で施設検索サーバ150に接続される場合の他、無線LAN用の通信装置およびアクセスポイントを介してインターネット経由で施設検索サーバ150に接続される場合などが考えられる。
(First embodiment)
FIG. 1 is a diagram illustrating a configuration of a facility search system according to the first embodiment. The facility search system of this embodiment includes an in-
車載装置100は、マイクロホン110、音声保存バッファ112、音声認識部114、認識辞書116、辞書生成部118、認識結果保存バッファ120、優先度調整部122、操作部124、認識結果表示処理部126、表示装置128、検索結果保存バッファ130、検索結果表示処理部132、通信部134を備えている。
The in-
マイクロホン110は、利用者(話者)が発声する音声を集音する。集音された音声は、デジタルの音声データに変換された後、音声保存バッファ112に保存される。音声認識部114は、認識辞書116を用いて、音声保存バッファ112に保存された音声に対して音声認識処理を行う。辞書生成部118は、認識辞書116を作成する。辞書生成部118による認識辞書作成動作については後述する。
The
認識結果保存バッファ120は、施設検索サーバ150側において行われる音声認識処理によって得られた1あるいは複数の認識候補を受信したときにこれらを保存する。優先度調整部122は、施設検索サーバ150側あるいは車載装置100において行われる音声認識処理によって複数の認識候補が得られたときに、この中から優先順位が高い認識候補を選択する。いずれの認識候補を選択するかは、例えば、操作部124を操作した利用者によって指示される。
The recognition result
認識結果表示処理部126は、音声認識処理によって得られた認識候補を表示装置128に表示する。検索結果保存バッファ130は、施設検索サーバ150側において行われる施設検索によって得られた施設情報を受信したときにこれを保存する。検索結果表示処理部132は、検索結果保存バッファ130に保持された施設情報を表示装置128に表示する。通信部134は、施設検索サーバ150との間で各種データ(音声、認識候補、施設情報や各種の制御データなど)を送信あるいは受信する。
The recognition result
また、施設検索サーバ150は、音声認識部160、認識辞書162、施設検索部164、施設DB(データベース)166、通信部168を備えている。
The facility search server 150 includes a
音声認識部160は、認識辞書162を用いて、車両側から送られてくる音声(音声保存バッファ112に保存された音声)に対して音声認識処理を行う。なお、車載装置100側で行われる音声認識処理と、施設検索サーバ150側で行われる音声認識処理とは、望ましくは、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われる。
Using the
施設検索部164は、車載装置100側あるいは施設検索サーバ150側で行われる音声認識処理によって抽出された認識候補に対応する施設情報を、施設DB166から検索する。施設DB166は、検索候補となる施設情報を格納する。また、施設DB166に格納された施設情報は、定期的あるいは不定期的に更新されており、必要に応じて内容変更、追加、削除が適宜行われる。通信部168は、車載装置100との間で各種データ(音声、認識候補、施設情報や各種の制御データなど)を送信あるいは受信する。
The
上述した音声保存バッファ112が音声保存手段に、認識辞書116が第1の認識辞書に、音声認識部114が第1の音声認識手段に、認識辞書162が第2の認識辞書に、音声認識部160が第2の音声認識手段に、優先度調整部122が認識結果決定手段に、辞書生成部118が辞書作成手段にそれぞれ対応する。また、上述した施設検索部164がコンテンツ検索手段に、施設DB166がコンテンツデータベースにそれぞれ対応する。
The
第1の実施形態の施設検索システムはこのような構成を有しており、次にその動作を説明する。図2は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第1の実施形態の一連の動作手順を示す流れ図である。 The facility search system of the first embodiment has such a configuration, and the operation thereof will be described next. FIG. 2 is a flowchart showing a series of operation procedures of the first embodiment from taking in the voice uttered by the user and displaying the facility search result corresponding to the voice.
利用者が施設検索用の音声を発声すると、この音声がマイクロホン110によって取り込まれ、対応する音声(音声データ)が音声保存バッファ112に保存される(ステップ100)。この保存された音声は、通信部134によって施設検索サーバ150に向けて送信される(ステップ102)。
When the user utters a facility search sound, the sound is captured by the
施設検索サーバ150側では、通信部168によって、車載装置100から送られてきた音声を受信すると、音声認識部160は、認識辞書162を用いてこの受信した音声に対して音声認識処理を行う(ステップ104)。この音声認識処理では、受信音声と認識辞書162に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大3つの認識候補が抽出される。なお、1つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に(どの程度大きい場合に極端に大きいとするかは、設計時に適宜決めればよい)、この類似度が大きい1つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に3つの認識候補が抽出される。このようにして抽出された認識候補は通信部168によって車載装置100側に送信される。
On the facility search server 150 side, when the voice sent from the in-
車載装置100側では、通信部134によって、施設検索サーバ150から送られてきた認識結果を受信する(ステップ106)。受信した認識結果は、認識結果保存バッファ120に保存される。次に、優先度調整部122は、認識結果保存バッファ120に保存された認識結果が複数か否かを判定する(ステップ108)。複数の場合には肯定判断が行われ、次に、辞書生成部118は、認識結果としての文字列に対してGTP(Grapheme To Phoneme、書記素−音素変換)処理を行って、文字列の「よみ情報」を作成する(ステップ110)。また、辞書生成部118は、このよみ情報から音声認識処理用の動的な認識辞書を作成する(ステップ112)。例えば、よみ情報に対してTTS(Text-to-Speech)処理を行って音声波形を生成し、この音声波形について音声認識処理用の特徴抽出を行うことにより動的な認識辞書の作成が行われる。作成された認識辞書は、認識辞書116に追加、格納される。
On the in-
次に、音声認識部114は、このようにして作成された動的な認識辞書を用いて、音声保存バッファ112に保存されている音声に対して音声認識処理を行う(ステップ114)。一般に、施設検索サーバ150側の音声認識処理と車載装置100側の音声認識処理とを比較すると、コストや処理能力の制限が少ない分施設検索サーバ150側の音声認識処理の方が認識精度が高いといえる。しかし、車載装置100から施設検索サーバ150に対して音声を送受信する際の帯域が狭いことや、車載装置100側の処理ではロードノイズ等の影響を考慮した車載装置特有の音声認識処理を実現することができることなどから必ずしも車載装置100側の音声認識処理の方が精度が低いとは限らない。特に、上述したように、少ない認識候補に対応した動的な認識辞書を作成した場合には、これらの認識候補については認識精度をかなり高めることができると考えられる。
Next, the
次に、優先度調整部122は、ステップ114の音声認識処理によって複数の認識候補が得られたか否かを判定する(ステップ116)。この時点でも複数の認識候補の類似度が近く、1つの認識候補に絞り込めない場合には肯定判断が行われる。この場合には、優先度調整部122は、これら複数の認識候補について、音声保存バッファ112に保存された音声との類似度が大きい順に並べ替えを行い、最も類似度が大きい認識候補の表示位置が最も上位であって、しかも、強調表示となるように、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部126によって表示装置128に表示させる(ステップ118)。このようにして選択画面が表示された状態で、優先度調整部122は、利用者が操作部124を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する(ステップ120)。選択されるまで否定判断が行われ、ステップ118の表示が行われる。
Next, the
また、利用者によって認識候補が選択されるとステップ120の判定において肯定判断が行われる。この場合には、あるいは、ステップ114の音声認識処理において1つの認識候補が抽出されてステップ116の判定において否定判断が行われた場合には、次に、優先度調整部122は、この選択された、あるいは、抽出された1つの選択候補を通信部134を介して施設検索サーバ150に向けて送信する(ステップ122)。
When a recognition candidate is selected by the user, an affirmative determination is made in the determination in
施設検索サーバ150では、通信部168によって、車載装置100から送られてくる1つの認識候補を受信すると、施設検索部164は、この認識候補を検索キーワードとして施設検索を行い、施設DB166に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ124)。抽出された施設情報は通信部168から車載装置100に向けて送信される。車載装置100では、通信部134によって、施設検索サーバ150から送られてきた施設情報を受信する(ステップ126)。この受信した施設情報は、検索結果保存バッファ130に一旦保存された後、検索結果表示処理部132によって読み出されてその内容が表示装置128に表示される(ステップ128)。なお、施設検索サーバ150による音声認識処理によって1つの認識結果のみが抽出された場合(ステップ108の判定において否定判断された場合)には、車載装置100における動的な認識辞書による音声認識処理は省略され、ただちにステップ124の施設検索が実施される。
In the facility search server 150, when one recognition candidate sent from the in-
このように、本実施形態の施設検索システムでは、2組の認識辞書と音声認識部を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、1つの認識候補(語彙)を決定する可能性が高まり、複数の認識候補の中から利用者自身が正解となる認識候補を選択する機会が減るため、操作の簡略化が可能となる。 As described above, in the facility search system according to the present embodiment, it is possible to improve recognition accuracy by performing voice recognition processing on the same voice using two sets of recognition dictionaries and a voice recognition unit. As a result, the possibility of determining one recognition candidate (vocabulary) is increased, and the opportunity for the user himself / herself to select a recognition candidate that is the correct answer from a plurality of recognition candidates is reduced, thereby simplifying the operation. .
また、車載装置100と施設検索サーバ150とで、処理時間と認識精度の異なる2種類の音声認識処理を組み合わせることになり、必要に応じて認識精度を上げることが可能となる。特に、音響モデルと照合アルゴリズムが異なる2種類の音声認識処理を組み合わせることにより、同時に誤認識が発生する可能性が低くなるため、認識精度を上げることができる。また、車両(車載装置100)に設けられた音声認識部114による音声認識処理と、施設検索サーバ150に設けられた音声認識部160による音声認識処理とを併用することにより、必要に応じて認識精度を上げることが可能となる。
In addition, the in-
また、施設検索サーバ150側の音声認識処理によって複数の認識候補を抽出した後、車載装置100側の音声認識処理によってこれら複数の認識候補の中から入力音声に最も近いものを抽出することができるため、一方の音声認識部160のみで認識候補を決定する場合に比べて大幅に認識精度を向上させることができる。また、施設検索サーバ150側の音声認識処理によって1つの認識候補に絞られたときに、入力音声に対応する最終的な認識候補として決定することにより、不要な処理(車載装置100側の音声認識処理)を削減して最終的な認識候補を決定するまでの時間を短縮することができる。
In addition, after extracting a plurality of recognition candidates by the voice recognition process on the facility search server 150 side, the one closest to the input voice can be extracted from the plurality of recognition candidates by the voice recognition process on the in-
また、上述した辞書作成手段は、複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、第1の認識辞書を作成することが望ましい。これにより、複数の認識候補の中から入力音声に最も類似するものを正確に決定することができる。 Further, the dictionary creation means described above can create a first recognition dictionary by generating a reading corresponding to each of a plurality of recognition candidates by grapheme-phoneme conversion and converting the reading into a speech waveform. desirable. Thereby, it is possible to accurately determine the most similar to the input speech from among a plurality of recognition candidates.
また、上述したような認識精度が高く操作が簡単な音声認識手法を施設検索システムに適用することにより、施設情報が得られるまでの操作を簡略化することができる。また、施設検索サーバ150側で施設検索を行うことにより、車載装置側で同様の施設検索を行う場合に比べて、検索対象となる施設の数を増加させるとともに最新の施設情報を得ることが可能となる。 In addition, by applying the speech recognition method with high recognition accuracy and easy operation as described above to the facility search system, the operation until facility information is obtained can be simplified. In addition, by performing a facility search on the facility search server 150 side, it is possible to increase the number of facilities to be searched and obtain the latest facility information as compared to the case where a similar facility search is performed on the in-vehicle device side. It becomes.
(第1の参考実施形態)
次に、第1の参考実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、車載装置側で入力音声に対して音声認識処理を行うが、その認識結果が誤りであった場合に、施設検索サーバ側に同じ入力音声についての音声認識処理を依頼する。
( First Reference Embodiment)
Next, the facility search system of the first reference embodiment will be described. In the facility search system of the present embodiment, voice recognition processing is performed on the input voice on the in-vehicle device side, but if the recognition result is incorrect, the facility search server side performs voice recognition processing on the same input voice. Ask.
図3は、第1の参考実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置100Aと施設検索サーバ150Aとを備えている。これらに含まれる各構成は、図1に示した車載装置100と施設検索サーバ150に含まれる各構成と基本的に共通するものであり、一部が削除されるとともに信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。車載装置100Aに含まれる認識結果表示処理部126、表示装置128が通知手段に、操作部124が操作手段にそれぞれ対応する。
FIG. 3 is a diagram illustrating a configuration of the facility search system according to the first reference embodiment. The facility search system of the present embodiment includes an in-
図4は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示す
るまでの第1の参考実施形態の一連の動作手順を示す流れ図である。
FIG. 4 is a flowchart showing a series of operation procedures of the first reference embodiment from taking in the voice uttered by the user and displaying the facility search result corresponding to the voice.
利用者が施設検索用の音声を発声すると、この音声がマイクロホン110によって取り込まれ、対応する音声(音声データ)が音声保存バッファ112に保存される(ステップ200)。次に、音声認識部114は、認識辞書116を用いて、音声保存バッファ112に保存されている音声に対して音声認識処理を行う(ステップ202)。この音声認識処理によって、入力音声との類似度が最も大きい1つの認識候補が抽出される。なお、第1の実施形態では、認識辞書116に含まれる動的な認識辞書を用いて音声認識処理が行われたが、ステップ202の音声認識処理は、予め作成された一般的な内容を有する認識辞書116を用いて行われる。優先度調整部122は、抽出された認識候補が含まれる確認画面を認識結果表示処理部126によって表示装置128に表示させる(ステップ204)。このようにして確認画面が表示された状態で、優先度調整部122は、利用者が操作部124を操作することによりこの確認画面に含まれる認識候補が正解であることを示す所定の操作がなされたか否かを判定する(ステップ206)。正解でない場合(認識候補が誤りである場合)には否定判断が行われる。
When the user utters the facility search sound, the sound is captured by the
次に、優先度調整部122は、音声保存バッファ112に保存された音声を通信部134によって施設検索サーバ150Aに向けて送信する(ステップ208)。施設検索サーバ150A側では、通信部168によって、車載装置100Aから送られてきた音声を受信すると、音声認識部160は、認識辞書162を用いてこの受信した音声に対して音声認識処理を行う(ステップ210)。この音声認識処理では、受信音声と認識辞書162に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大で所定個数の認識候補が抽出される。なお、1つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に、この類似度が大きい1つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に複数の認識候補が抽出される。このようにして抽出された認識候補は通信部168によって車載装置100A側に送信される。
Next, the
車載装置100A側では、通信部134によって、施設検索サーバ150Aから送られてきた認識結果を受信する(ステップ212)。受信した認識結果は、認識結果保存バッファ120に保存される。次に、優先度調整部122は、認識結果保存バッファ120に保存された認識結果が複数か否かを判定する(ステップ214)。複数の場合には肯定判断が行われる。この場合には、優先度調整部122は、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部126によって表示装置128に表示させる(ステップ216)。このようにして選択画面が表示された状態で、優先度調整部122は、利用者が操作部124を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する(ステップ218)。選択されるまで否定判断が行われ、ステップ216の表示が行われる。
On the in-
また、利用者によって認識候補が選択されるとステップ218の判定において肯定判断が行われる。この場合には、あるいは、ステップ206の正解判定で肯定判断が行われた場合には、次に、優先度調整部122は、この選択された、あるいは、正しいと判定された1つの認識候補を通信部134を介して施設検索サーバ150Aに向けて送信する(ステップ220)。
When a recognition candidate is selected by the user, an affirmative determination is made in the determination in
施設検索サーバ150Aでは、通信部168によって、車載装置100Aから送られてくる1つの認識候補を受信すると、施設検索部164は、この認識候補を検索キーワードとして施設検索を行い、施設DB166に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ222)。抽出された施設情報は通信部168から車載装置100Aに向けて送信される。車載装置100Aでは、通信部134によって、施設検索サーバ150Aから送られてきた施設情報を受信する(ステップ224)。この受信した施設情報は、検索結果保存バッファ130に一旦保存された後、検索結果表示処理部132によって読み出されてその内容が表示装置128に表示される(ステップ226)。なお、施設検索サーバ150Aによる音声認識処理によって1つの認識結果のみが抽出された場合(ステップ214の判定において否定判断)には、車載装置100Aにおける選択画面表示による認識候補の選択動作等は省略され、ただちにステップ222の施設検索が実施される。
In the
このように、本実施形態の施設検索システムでは、車載装置100A側の認識結果が誤りであった場合に、施設検索サーバ150A側に音声認識処理を依頼しており、必要に応じて施設検索サーバ150A側の音声認識処理を実施して認識候補を得ることにより、認識精度を上げることができる。また、入力音声については、車載装置100Aの音声保存バッファ112に保存されたものを用いることができるため、発声を繰り返す必要がなく、これに伴う操作の簡略化および処理時間の短縮が可能となる。また、車載装置100A側の音声認識処理の認識結果が誤っているか否かを利用者自身が操作部124を操作して直接指示することになるため、認識誤りが確実な場合に限って施設検索サーバ150Aによる音声認識処理を実施することにより、処理の簡略化による処理時間の短縮が可能となる。
As described above, in the facility search system of this embodiment, when the recognition result on the in-
(第2の参考実施形態)
次に、第2の参考実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、施設検索サーバ側の音声認識処理によって得られた認識候補が正しいことが確かめられ後に、この認識候補に対応して第1の実施形態と同様の動的な認識辞書を作成して車載装置側で音声認識処理を行う。
( Second Reference Embodiment)
Next, the facility search system of the second reference embodiment will be described. In the facility search system of this embodiment, after confirming that the recognition candidate obtained by the speech recognition processing on the facility search server side is correct, the dynamic recognition similar to the first embodiment corresponding to this recognition candidate is performed. Create a dictionary and perform voice recognition on the in-vehicle device.
図5は、第2の参考実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置100Bと施設検索サーバ150Bとを備えている。これらに含まれる各構成は、図1に示した車載装置100と施設検索サーバ150に含まれる各構成と基本的に共通するものであり、信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。
FIG. 5 is a diagram illustrating a configuration of the facility search system according to the second reference embodiment. The facility search system of the present embodiment includes an in-
図6は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第2の参考実施形態の一連の動作手順を示す流れ図である。 FIG. 6 is a flowchart showing a series of operation procedures of the second reference embodiment from taking in the voice uttered by the user and displaying the facility search result corresponding to the voice.
利用者が施設検索用の音声を発声すると、この音声がマイクロホン110によって取り込まれ、対応する音声(音声データ)が音声保存バッファ112に保存される(ステップ300)。次に、音声認識部114は、認識辞書116に含まれる動的な認識辞書(後述するステップ322で作成される)を用いて、音声保存バッファ112に保存されている音声に対して音声認識処理を行う(ステップ302)。優先度調整部122は、この音声認識処理の結果に基づいて、過去に施設検索サーバ150Bによる音声認識処理によって抽出された認識候補が正しいことが確かめられた音声と今回音声認識処理の対象になっている音声とが同一であるか否かを判定する(ステップ304)。ステップ302の音声認識処理において、既に作成されている動的な認識辞書が存在する音声は、過去に施設検索サーバ150Bによる音声認識処理によって抽出された認識候補が正しいことが確かめられた音声であるといえる。反対に、対応する動的な認識辞書が存在しない音声が音声認識処理の対象である場合にはステップ304の判定において否定判断が行われる。
When the user utters the facility search sound, the sound is captured by the
ステップ304の判定において否定判断がなされると、次に、優先度調整部122は、音声保存バッファ112に保存された音声を通信部134によって施設検索サーバ150Bに向けて送信する(ステップ306)。施設検索サーバ150B側では、通信部168によって、車載装置100Bから送られてきた音声を受信すると、音声認識部160は、認識辞書162を用いてこの受信した音声に対して音声認識処理を行う(ステップ308)。この音声認識処理では、受信音声と認識辞書162に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大で所定個数の認識候補が抽出される。なお、1つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に、この類似度が大きい1つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に複数の認識候補が抽出される。このようにして抽出された認識候補は通信部168によって車載装置100B側に送信される。
If a negative determination is made in the determination in
車載装置100B側では、通信部134によって、施設検索サーバ150Bから送られてきた認識結果を受信する(ステップ310)。受信した認識結果は、認識結果保存バッファ120に保存される。次に、優先度調整部122は、認識結果保存バッファ120に保存された認識結果が複数か否かを判定する(ステップ312)。複数の場合には肯定判断が行われる。この場合には、優先度調整部122は、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部126によって表示装置128に表示させる(ステップ314)。このようにして選択画面が表示された状態で、優先度調整部122は、利用者が操作部124を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する(ステップ316)。選択されるまで否定判断が行われ、ステップ314の表示が行われる。
On the in-
また、利用者によって認識候補が選択されるとステップ316の判定において肯定判断が行われる。次に、優先度調整部122は、この選択された認識候補を通信部134を介して施設検索サーバ150Bに向けて送信する(ステップ318)。
If a recognition candidate is selected by the user, an affirmative determination is made in the determination in
次に、ステップ316で選択された1つの認識候補について、あるいは、施設検索サーバ150Bから受信した認識候補が1つだった場合(ステップ312の判定において否定判断)にはその認識候補について、辞書生成部118は、認識結果としての文字列に対してGTP処理を行って、文字列の「よみ情報」を作成する(ステップ320)。また、辞書生成部118は、このよみ情報から音声認識処理用の動的な認識辞書とこのよみ情報に対応する文字情報(よみ情報そのものを文字情報として用いるが場合や、GTP処理を行う前の認識結果としての文字列を文字情報として用いる場合などが考えられる)を作成する(ステップ322)。作成された動的な認識辞書は、認識辞書116に追加、格納される。
Next, for one recognition candidate selected in
なお、作成された文字情報は、動的な認識辞書に対応づけられて認識辞書116の一部に保存されており、いずれかの動的な認識辞書を用いて認識候補の抽出が行われたときに、この動的な認識辞書に対応する文字情報も同時に認識辞書116から読み出され、音声認識部114から優先度調整部122に入力されるようになっている。したがって、優先度調整部122は、この文字情報の有無を調べるだけでステップ304の判定を行うことができる。
The created character information is stored in a part of the
対応する文字情報が存在する場合にはステップ304の判定において肯定判断が行われる。この場合には、優先度調整部122は、入力された文字情報を通信部134によって施設検索サーバ150Bに向けて送信する(ステップ324)。
If the corresponding character information exists, an affirmative determination is made in the determination in
施設検索サーバ150Bでは、通信部168によって、車載装置100Bから送られてくる1つの認識候補(ステップ318で送信)や文字情報(ステップ324で送信)を受信すると、施設検索部164は、この認識候補あるいは文字情報を検索キーワードとして施設検索を行い、施設DB166に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ326)。抽出された施設情報は通信部168から車載装置100Bに向けて送信される。車載装置100Bでは、通信部134によって、施設検索サーバ150Bから送られてきた施設情報を受信する(ステップ328)。この受信した施設情報は、検索結果保存バッファ130に一旦保存された後、検索結果表示処理部132によって読み出されてその内容が表示装置128に表示される(ステップ330)。
In the
このように、本実施形態の施設検索システムでは、施設検索サーバ150B側の音声認識処理によって正しい認識結果が得られた音声について車載装置100B側において動的な認識辞書が作成されるため、この音声については次回以降に車載装置100B側の音声認識処理の認識精度を上げることが可能となる。また、この音声については、次回以降は、施設検索サーバ150B側における音声認識処理が不要となるため、施設検索に要する時間を短縮することができる。特に、文字情報を検索キーワードとして用いることにより、施設検索サーバ150Bにおける施設検索処理を簡略化することができる。
As described above, in the facility search system of the present embodiment, a dynamic recognition dictionary is created on the in-
(第3の参考実施形態)
次に、第3の参考実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、車載装置と施設検索サーバの両方において、入力音声に対する音声認識処理およびその認識結果を用いた施設検索処理を並行して行い、結果が先に得られる車載装置側の検索結果を先に表示し、結果が後から得られる施設検索サーバ側の検索結果については必要に応じて表示するようにした。
( Third reference embodiment)
Next, the facility search system of the third reference embodiment will be described. In the facility search system of this embodiment, both the in-vehicle device and the facility search server perform the speech recognition process for the input voice and the facility search process using the recognition result in parallel, and the result is obtained first. The search results on the facility search server side where the results are obtained later are displayed as needed.
図7は、第3の参考実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置100Cと施設検索サーバ150Cとを備えている。これらに含まれる各構成は、図1に示した車載装置100と施設検索サーバ150に含まれる各構成と基本的に共通するものであり、一部が削除あるいは追加されるとともに信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。車載装置100Cに含まれる施設検索部140が第1のコンテンツ検索手段に、施設DB142が第1のコンテンツデータベースに、施設検索サーバ150Cに含まれる施設検索部164が第2のコンテンツ検索手段に、施設DB166が第2のコンテンツデータベースにそれぞれ対応する。車載装置100C内の施設検索部140および施設DB142は、施設検索サーバ150C内の施設検索部164および施設DB166と比べて基本的に同じものである。また、検索結果保存バッファ144には、施設検索部140の施設検索によって抽出された施設情報が保存される。
FIG. 7 is a diagram illustrating a configuration of a facility search system according to the third reference embodiment. The facility search system of the present embodiment includes an in-
図8は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第3の参考実施形態の一連の動作手順を示す流れ図である。 FIG. 8 is a flowchart showing a series of operation procedures of the third reference embodiment from taking in the voice uttered by the user and displaying the facility search result corresponding to the voice.
利用者が施設検索用の音声を発声すると、この音声がマイクロホン110によって取り込まれ、対応する音声(音声データ)が音声保存バッファ112に保存される(ステップ400)。次に、音声認識部114は、認識辞書116を用いて、音声保存バッファ112に保存されている音声に対して音声認識処理を行う(ステップ402)。この音声認識処理によって、入力音声との類似度が最も大きい1つの認識候補が抽出される。なお、第1の実施形態では、認識辞書116に含まれる動的な認識辞書を用いて音声認識処理が行われたが、ステップ402の音声認識処理は、予め作成された一般的な内容を有する認識辞書116を用いて行われる。
When the user utters the facility search sound, the sound is captured by the
次に、施設検索部140は、音声認識部114によって抽出された認識候補を検索キーワードとして施設検索を行い、施設DB142に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ404)。この抽出された施設情報は、検索結果表示処理部132によってその内容が表示装置128に表示される(ステップ406)。
Next, the
また、音声保存バッファ112に保存された音声は、通信部134によって施設検索サーバ150Cに向けて送信される(ステップ408)。施設検索サーバ150C側では、通信部168によって、車載装置100Cから送られてきた音声を受信すると、音声認識部160は、認識辞書162を用いてこの受信した音声に対して音声認識処理を行う(ステップ410)。この音声認識処理では、受信音声と認識辞書162に格納された複数の認識候補のそれぞれとの間で類似度が判定され、1つの認識候補が抽出される。
The voice stored in the
また、施設検索部164は、この認識候補を検索キーワードとして施設検索を行い、施設DB166に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ412)。ステップ410の音声認識処理によって抽出された1つの認識候補と、ステップ412の施設検索処理によって抽出された施設情報は、ともに通信部168から車載装置100Cに向けて送信される。車載装置100Cでは、通信部134によって、施設検索サーバ150Cから送られてきた認識候補と施設情報を受信する(ステップ414)。その後、検索結果表示処理部132によって、この新たに受信した施設情報の内容が表示装置128に表示され、表示内容の変更が行われる(ステップ416)。
Further, the
なお、この例では、施設検索サーバ150Cから施設情報を受信したときに、それまで表示していた車載装置100C側の施設情報に代えて、この新たに受信した施設情報を表示するようにしたが、この表示切り替え等については各種の変形例が考えられる。例えば、車載装置100Cと施設検索サーバ150Cのそれぞれの音声認識処理によって同一の認識候補が得られた場合には、上述した場合と同様に施設検索サーバ150C側の施設情報に表示を切り替える。一方、認識候補が異なる場合には、車載装置100C側の認識候補を用いて再度施設検索サーバ150C側で施設検索を行い、検索により抽出された施設情報を取得して車載装置100Cの表示装置128に表示するようにしてもよい。認識候補が同じであるか否かは優先度調整部122によって判定することができる。
In this example, when the facility information is received from the facility search server 150C, the newly received facility information is displayed instead of the facility information on the in-
このように、本実施形態の施設検索システムでは、車載装置100C側において行われる音声認識処理によって抽出された認識候補を用いた施設検索を行うことにより、速やかに施設情報を表示させることができ、その後、施設検索サーバ150C側において行われる音声認識処理によって抽出された認識候補を用いた施設検索による施設情報が得られたときに、この新たに得られた施設情報に表示内容を変更することで検索精度を向上させることができる。しかも、これら一連の動作を実施する際に特別な操作が不要であって操作の簡略化が可能となる。
Thus, in the facility search system of this embodiment, facility information can be quickly displayed by performing a facility search using recognition candidates extracted by the voice recognition processing performed on the in-
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。上述した実施形態では、施設検索サーバ150等において施設情報を検索する場合について説明したが、音声認識処理によって抽出された認識候補を検索キーワードとして検索する対象は、施設を含むあるいは施設以外の広い概念としてのコンテンツとすることができる。 In addition, this invention is not limited to the said embodiment, A various deformation | transformation implementation is possible within the range of the summary of this invention. In the above-described embodiment, the case where the facility information is searched in the facility search server 150 or the like has been described. However, the object to be searched using the recognition candidate extracted by the voice recognition process as a search keyword includes a wide concept other than the facility or the facility. It can be set as content.
また、上述した実施形態では、音声認識処理によって抽出された認識候補を検索キーワードとして施設情報を検索する施設検索システムについて本発明を適用したが、音声認識処理に関する構成に着目した「音声認識システム」としてもよい。 In the above-described embodiment, the present invention is applied to a facility search system that searches facility information using recognition candidates extracted by the speech recognition processing as search keywords. However, the “voice recognition system” focusing on the configuration related to the speech recognition processing. It is good.
上述したように、本発明によれば、2組の認識辞書と音声認識部を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、1つの認識候補(語彙)を決定する可能性が高まり、複数の認識候補の中から利用者自身が正解となる認識候補を選択する機会が減るため、操作の簡略化が可能となる。 As described above, according to the present invention, it is possible to improve recognition accuracy by performing voice recognition processing on the same voice using two sets of recognition dictionaries and a voice recognition unit. As a result, the possibility of determining one recognition candidate (vocabulary) is increased, and the opportunity for the user himself / herself to select a recognition candidate that is the correct answer from a plurality of recognition candidates is reduced, thereby simplifying the operation. .
100 車載装置
150 施設検索サーバ
110 マイクロホン
112 音声保存バッファ
114、160 音声認識部
116、162 認識辞書
118 辞書生成部
120 認識結果保存バッファ
122 優先度調整部
124 操作部
126 認識結果表示処理部
128 表示装置
130 検索結果保存バッファ
132 検索結果表示処理部
134、168 通信部
164 施設検索部
166 施設DB(データベース)
DESCRIPTION OF
Claims (6)
第1の認識辞書を用いて、前記音声保存手段に保存された音声に対して音声認識処理を行う第1の音声認識手段と、
前記第1の認識辞書と異なる第2の認識辞書を用いて、前記音声保存手段に保存された音声に対して音声認識処理を行う第2の音声認識手段と、
前記第1および第2の音声認識手段の認識結果に基づいて、前記音声保存手段に保存された音声に対応する認識候補を決定する認識結果決定手段と、
を備え、前記音声保存手段、前記第1の音声認識手段、前記認識結果決定手段は、車両に設けられており、
前記第2の音声認識手段は、ネットワークを介して接続された車両外部のサーバに設けられており、
前記第2の音声認識手段による音声認識処理によって複数の認識候補に絞られたときに、これら複数の認識候補に対応する前記第1の認識辞書を作成する辞書作成手段をさらに備え、
前記認識結果決定手段は、前記辞書作成手段によって作成された前記第1の認識辞書を用いた前記第1の音声認識手段の認識結果を用いて、前記音声保存手段に保存された音声に対応する認識候補を決定することを特徴とする音声認識システム。 A voice storage means for storing the voice uttered by the speaker;
First speech recognition means for performing speech recognition processing on speech stored in the speech storage means using a first recognition dictionary;
Second speech recognition means for performing speech recognition processing on the speech stored in the speech storage means using a second recognition dictionary different from the first recognition dictionary;
Recognition result determination means for determining recognition candidates corresponding to the voice stored in the voice storage means based on the recognition results of the first and second voice recognition means;
The voice storage means, the first voice recognition means, and the recognition result determination means are provided in a vehicle,
The second voice recognition means is provided in a server outside the vehicle connected via a network,
A dictionary creating means for creating the first recognition dictionary corresponding to the plurality of recognition candidates when the second speech recognition means narrows down to a plurality of recognition candidates by the voice recognition processing;
The recognition result determination means corresponds to the voice stored in the voice storage means by using the recognition result of the first voice recognition means using the first recognition dictionary created by the dictionary creation means. A speech recognition system characterized by determining a recognition candidate.
前記第1の音声認識手段による音声認識処理の処理時間は、前記第2の音声認識手段による音声認識処理の処理時間よりも短く、
前記第2の音声認識手段による音声認識処理の認識精度は、前記第1の音声認識手段による音声認識処理の認識精度よりも高いことを特徴とする音声認識システム。 In claim 1,
The processing time of the voice recognition processing by the first voice recognition means is shorter than the processing time of the voice recognition processing by the second voice recognition means ,
The speech recognition system characterized in that the recognition accuracy of the speech recognition process by the second speech recognition means is higher than the recognition accuracy of the speech recognition process by the first speech recognition means .
前記第1および第2の音声認識手段による音声認識処理は、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われることを特徴とする音声認識システム。 In claim 1 or 2,
The speech recognition system according to claim 1, wherein the speech recognition processing by the first and second speech recognition means is performed using different acoustic models and matching algorithms.
前記認識結果決定手段は、前記第2の音声認識手段による音声認識処理によって1つの認識候補に絞られたときに、この認識候補を、前記音声保存手段に保存された音声に対応する認識候補として決定することを特徴とする音声認識システム。 In any one of Claims 1-3,
When the recognition result determination means is narrowed down to one recognition candidate by the voice recognition processing by the second voice recognition means, the recognition candidate is set as a recognition candidate corresponding to the voice stored in the voice storage means. A speech recognition system characterized by determining.
前記辞書作成手段は、前記複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、前記第1の認識辞書を作成することを特徴とする音声認識システム。 In any one of Claims 1-4,
The dictionary creation means creates the first recognition dictionary by generating a reading corresponding to each of the plurality of recognition candidates by grapheme-phoneme conversion, and converting the reading into a speech waveform. Voice recognition system.
前記コンテンツデータベースと前記コンテンツ検索手段は、前記サーバに設けられていることを特徴とする検索システム。 The speech recognition system according to any one of claims 1 to 5, a content database in which information on a plurality of contents is stored, and the plurality of contents using a recognition candidate determined by the recognition result determination unit as a search keyword. A search system comprising content search means for searching for information related to one or a plurality of contents ,
The content database and the content search means are provided in the server .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011029301A JP5606951B2 (en) | 2011-02-15 | 2011-02-15 | Speech recognition system and search system using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011029301A JP5606951B2 (en) | 2011-02-15 | 2011-02-15 | Speech recognition system and search system using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012168349A JP2012168349A (en) | 2012-09-06 |
JP5606951B2 true JP5606951B2 (en) | 2014-10-15 |
Family
ID=46972567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011029301A Active JP5606951B2 (en) | 2011-02-15 | 2011-02-15 | Speech recognition system and search system using the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5606951B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101330671B1 (en) | 2012-09-28 | 2013-11-15 | 삼성전자주식회사 | Electronic device, server and control methods thereof |
JP5753212B2 (en) * | 2013-03-19 | 2015-07-22 | シャープ株式会社 | Speech recognition system, server, and speech processing apparatus |
JP5753869B2 (en) * | 2013-03-26 | 2015-07-22 | 富士ソフト株式会社 | Speech recognition terminal and speech recognition method using computer terminal |
JP5973030B2 (en) * | 2015-05-21 | 2016-08-17 | シャープ株式会社 | Speech recognition system and speech processing apparatus |
DE102015210430A1 (en) * | 2015-06-08 | 2016-12-08 | Robert Bosch Gmbh | A method for recognizing a speech context for a voice control, a method for determining a voice control signal for a voice control and apparatus for carrying out the methods |
CN109524002A (en) * | 2018-12-28 | 2019-03-26 | 江苏惠通集团有限责任公司 | Intelligent voice recognition method and device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325688A (en) * | 2003-04-23 | 2004-11-18 | Toyota Motor Corp | Speech recognition system |
JP2005037662A (en) * | 2003-07-14 | 2005-02-10 | Denso Corp | Voice dialog system |
JP2007041089A (en) * | 2005-08-01 | 2007-02-15 | Hitachi Ltd | Information terminal and voice recognition program |
JP5277704B2 (en) * | 2008-04-24 | 2013-08-28 | トヨタ自動車株式会社 | Voice recognition apparatus and vehicle system using the same |
JP5056784B2 (en) * | 2009-03-24 | 2012-10-24 | 株式会社デンソー | Speech recognition system |
-
2011
- 2011-02-15 JP JP2011029301A patent/JP5606951B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012168349A (en) | 2012-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107039038B (en) | Learning personalized entity pronunciation | |
JP5334178B2 (en) | Speech recognition apparatus and data update method | |
US9239829B2 (en) | Speech recognition device | |
JP4709887B2 (en) | Speech recognition result correction apparatus, speech recognition result correction method, and speech recognition result correction system | |
US20180190288A1 (en) | System and method of performing automatic speech recognition using local private data | |
JP5957269B2 (en) | Voice recognition server integration apparatus and voice recognition server integration method | |
JP5613335B2 (en) | Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device | |
US9177545B2 (en) | Recognition dictionary creating device, voice recognition device, and voice synthesizer | |
US20090164218A1 (en) | Method and apparatus for uniterm discovery and voice-to-voice search on mobile device | |
US20080126093A1 (en) | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System | |
JP5606951B2 (en) | Speech recognition system and search system using the same | |
CN103035240A (en) | Method and system for speech recognition repair using contextual information | |
JP2004510239A (en) | How to improve dictation and command distinction | |
JP2012194245A (en) | Speech recognition device, speech recognition method and speech recognition program | |
JP2018040904A (en) | Voice recognition device and voice recognition method | |
CN107112007B (en) | Speech recognition apparatus and speech recognition method | |
CN107885720B (en) | Keyword generation device and keyword generation method | |
JP5335165B2 (en) | Pronunciation information generating apparatus, in-vehicle information apparatus, and database generating method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
CN118486293B (en) | Speech synthesis method and device based on retrieval enhanced generation | |
JP2013050742A (en) | Speech recognition device and speech recognition method | |
JP2009282835A (en) | Method and device for voice search | |
US20250061884A1 (en) | Speech recognizing system, and speech recognizing method | |
KR20190030970A (en) | Apparatus for converting voice to text | |
JP2003099089A (en) | Speech recognition / synthesis apparatus and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130821 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140827 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5606951 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |