JP2018155997A - Apparatus for retrieving facilities - Google Patents
Apparatus for retrieving facilities Download PDFInfo
- Publication number
- JP2018155997A JP2018155997A JP2017054286A JP2017054286A JP2018155997A JP 2018155997 A JP2018155997 A JP 2018155997A JP 2017054286 A JP2017054286 A JP 2017054286A JP 2017054286 A JP2017054286 A JP 2017054286A JP 2018155997 A JP2018155997 A JP 2018155997A
- Authority
- JP
- Japan
- Prior art keywords
- facility
- score
- recognition result
- recognition
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】施設名を対象に認識率を向上させることができる施設検索装置を提供すること。【解決手段】ナビゲーション装置100の音声入力部42は、利用者によって発声された施設名に対して音声認識処理を行い、複数の施設名のそれぞれに対応する類似度を発音スコアとして算出する発音スコア算出部46と、複数の施設名のそれぞれに対応する属性情報としてのチェーン店の店舗数に基づいて算出される店舗数スコアと発音スコアとに基づいて、複数の施設名のそれぞれに対応する尤度としての総合スコアを算出する総合スコア算出部50と、算出された総合スコアに基づいて、利用者によって発声された施設名に対応する音声認識結果を出力する認識結果出力部52とを備えている。【選択図】図1To provide a facility search apparatus capable of improving the recognition rate for a facility name. A voice input unit of a navigation device performs voice recognition processing on a facility name uttered by a user and calculates a similarity score corresponding to each of a plurality of facility names as a pronunciation score. The likelihood corresponding to each of a plurality of facility names based on the store number score calculated based on the calculation unit 46 and the number of stores of the chain store as attribute information corresponding to each of the plurality of facility names and the pronunciation score. A total score calculation unit 50 that calculates a total score as a degree, and a recognition result output unit 52 that outputs a voice recognition result corresponding to the facility name uttered by the user based on the calculated total score. Yes. [Selection] Figure 1
Description
本発明は、車両等に搭載されて、音声入力により対応施設の抽出を行う施設検索装置に関する。 The present invention relates to a facility search apparatus that is mounted on a vehicle or the like and extracts a corresponding facility by voice input.
従来から、利用者が発声した地名に対して特徴量を抽出し、音声認識辞書に登録された複数の認識対象語彙に対する尤度を算出した後、地名の下位階層に対応するストリート名などの情報量に基づいて設定された重み係数を乗算して重み付き尤度を算出することにより、音声認識結果を得るようにした音声認識装置が知られている(例えば、特許文献1参照。)。例えば、多くのストリートが属する都市名を利用者が発声した場合には、この都市名に対応する本来の尤度よりも高い重み付き尤度が算出されるため、この都市名を音声認識結果として得る可能性が高くなる。 Conventionally, after extracting features for place names spoken by the user and calculating the likelihood for multiple recognition target words registered in the speech recognition dictionary, information such as street names corresponding to the lower hierarchy of place names There is known a voice recognition apparatus that obtains a voice recognition result by multiplying a weighting coefficient set based on a quantity to calculate a weighted likelihood (see, for example, Patent Document 1). For example, when a user utters a city name to which many streets belong, since a weighted likelihood higher than the original likelihood corresponding to this city name is calculated, this city name is used as a speech recognition result. The chances of getting higher.
ところで、上述した特許文献1に開示された音声認識装置では、階層関係を示すツリー構造を有する地名を音声認識の対象としており、ツリー構造を有しない名称に対しては重み係数を用いた音声認識処理を行うことができないという問題があった。例えば、利用者が発声した店舗名等の施設名に対して音声認識処理を行う場合を考えると、一般にはこの施設名にはツリー構造が存在しないため、重み係数を用いた音声認識処理を行って認識率を向上させることができない。 By the way, in the speech recognition apparatus disclosed in Patent Document 1 described above, place names having a tree structure indicating a hierarchical relationship are targeted for speech recognition, and speech recognition using a weighting coefficient for names that do not have a tree structure. There was a problem that processing could not be performed. For example, considering the case where speech recognition processing is performed for a facility name such as a store name uttered by a user, generally, the facility name does not have a tree structure, so speech recognition processing using a weighting coefficient is performed. The recognition rate cannot be improved.
本発明は、このような点に鑑みて創作されたものであり、その目的は、施設名の認識率を向上させることができる施設検索装置を提供することにある。 The present invention has been created in view of such a point, and an object thereof is to provide a facility search apparatus capable of improving the recognition rate of facility names.
上述した課題を解決するために、本発明の施設検索装置は、利用者によって発声された施設名に対して音声認識処理を行い、複数の認識対象語彙のそれぞれに対応する類似度を算出する類似度算出手段と、複数の認識対象語彙のそれぞれに対応する属性情報と類似度とに基づいて、複数の認識対象語彙のそれぞれに対応する尤度を算出する尤度算出手段と、尤度算出手段によって算出された尤度に基づいて、利用者によって発声された施設名に対応する音声認識結果を出力する認識結果出力手段とを備えている。 In order to solve the above-described problem, the facility search apparatus of the present invention performs a speech recognition process on a facility name uttered by a user, and calculates a similarity corresponding to each of a plurality of recognition target vocabularies. A likelihood calculating means, a likelihood calculating means for calculating a likelihood corresponding to each of the plurality of recognition target words based on the attribute information and similarity corresponding to each of the plurality of recognition target words, and a likelihood calculating means And a recognition result output means for outputting a speech recognition result corresponding to the facility name uttered by the user based on the likelihood calculated by the above.
発声した施設名と複数の認識対象語彙との類似度だけでなく、各認識対象語彙に対応する属性情報を組み合わせることにより、複数の認識対象語彙の間に、音声による認識結果とは別に、選択される度合いに差をつけることができるため、利用者が発声した音声のみに基づいて認識結果を得る場合に比べて施設名の認識率を向上させることができる。 In addition to the similarity between the name of the facility that spoke and multiple vocabulary to be recognized, attribute information corresponding to each vocabulary to be recognized is combined between multiple vocabulary to be recognized separately from the speech recognition results. Therefore, the facility name recognition rate can be improved as compared with the case where the recognition result is obtained based only on the voice uttered by the user.
また、上述した認識結果出力手段は、尤度算出手段によって算出された尤度が高い順に所定数の認識対象語彙が示す施設名を、最も尤度が高い施設名が最も上位に配置されるように、音声認識結果として表示することが望ましい。これにより、最も上位に配置された施設名が認識結果として正しい可能性が高くなるため、正しい施設名が最も目につきやすくなるとともに、この施設名を選択する場合の操作が容易となる。 In addition, the recognition result output unit described above is arranged such that the facility name indicated by the predetermined number of recognition target words in the descending order of the likelihood calculated by the likelihood calculating unit is the highest likelihood facility name. In addition, it is desirable to display it as a voice recognition result. Thereby, since the possibility that the name of the facility arranged at the top is correct as the recognition result is high, the correct facility name is most easily noticeable, and the operation for selecting this facility name is facilitated.
また、上述した認識結果出力手段は、所定数の認識対象語彙が示す施設名を複数ページに分けて、最も尤度が高い施設名が最前のページに含まれるように音声認識結果を表示することが望ましい。これにより、最も尤度が高い施設名が2ページ以降に配置されることがなくなるため、この施設名を選択するためのページ送り等の煩雑な操作が不要となる。 Further, the above-described recognition result output means divides the facility name indicated by a predetermined number of recognition target words into a plurality of pages, and displays the speech recognition result so that the most likely facility name is included in the front page. Is desirable. As a result, the facility name with the highest likelihood is not placed on the second and subsequent pages, and a complicated operation such as page turning for selecting the facility name becomes unnecessary.
また、上述した尤度算出手段は、類似度に対応する第1の値と属性情報に対応する第2の値のそれぞれに対して所定の重み付けを行って足し合わせることにより尤度を算出することが望ましい。これにより、尤度における属性情報による寄与度を調整して、音声認識結果として特定の施設が優先的に得られるようにすることができる。 The likelihood calculating means described above calculates the likelihood by adding a predetermined weight to each of the first value corresponding to the similarity and the second value corresponding to the attribute information. Is desirable. Thereby, the contribution degree by the attribute information in likelihood can be adjusted, and a specific facility can be obtained preferentially as a voice recognition result.
また、上述した属性情報は、複数の認識対象語彙のそれぞれに対応する施設名の知名度に相関のある情報であることが望ましい。あるいは、上述した属性情報は、複数の認識対象語彙のそれぞれに対応する施設がチェーン店の店舗である場合に、このチェーン店に属する店舗数を示す情報であることが望ましい。あるいは、上述した属性情報は、複数の認識対象語彙のそれぞれに対応する施設が、全国的に有名であることを示す情報、および/または、全国を複数に区分した複数の地方のいずれかにおいて有名であることを示す情報であることが望ましい。一般に、利用者が発声した音声に類似する複数の施設が存在する場合に、知名度(店舗数が多いチェーン店の場合や、全国や一地方で有名であることが分かっている場合など)に基いて尤度を高くすることができるため、認識率を向上させることができる。 Moreover, it is desirable that the attribute information described above is information correlated to the degree of familiarity of the facility name corresponding to each of the plurality of recognition target vocabularies. Alternatively, the attribute information described above is preferably information indicating the number of stores belonging to a chain store when the facility corresponding to each of the plurality of recognition target vocabularies is a store of the chain store. Alternatively, the attribute information described above is information that indicates that facilities corresponding to each of a plurality of recognition target vocabularies are famous nationwide, and / or is famous in any of a plurality of regions that divide the country into a plurality of regions. It is desirable that the information indicates that it is. In general, when there are multiple facilities similar to the voice spoken by the user, it is based on the name recognition (in the case of a chain store with a large number of stores or when it is known to be famous in the whole country or one region). In addition, since the likelihood can be increased, the recognition rate can be improved.
以下、本発明の施設検索装置を適用した一実施形態のナビゲーション装置について、図面を参照しながら説明する。 Hereinafter, a navigation device according to an embodiment to which a facility search device of the present invention is applied will be described with reference to the drawings.
図1は、一実施形態のナビゲーション装置100の詳細構成を示す図である。図1に示すように、ナビゲーション装置100は、ナビゲーションコントローラ1、地図データ記憶装置2、操作部3、車両位置検出部4、表示装置5、オーディオ部6、マイクロホン7を含んで構成されている。このナビゲーション装置100は、車両に搭載されている。。
FIG. 1 is a diagram illustrating a detailed configuration of a
ナビゲーションコントローラ1は、CPU、ROM、RAM等を用いて所定の動作プログラムを実行することにより、自車位置周辺の地図画像表示動作、施設検索動作、出発地と目的地とを結ぶ走行経路を設定する経路探索処理やこの走行経路に沿って車両の走行を誘導する経路誘導動作などの各種機能を実現する。ナビゲーションコントローラ1の詳細構成については後述する。 The navigation controller 1 executes a predetermined operation program using a CPU, ROM, RAM, etc., thereby setting a map image display operation around the vehicle position, a facility search operation, and a travel route connecting the departure point and the destination. Various functions such as a route search process to be performed and a route guidance operation for guiding the traveling of the vehicle along the traveling route are realized. The detailed configuration of the navigation controller 1 will be described later.
地図データ記憶装置2は、地図データが格納されている記憶媒体およびその読み取り装置である。この地図データには、地図表示や経路探索・誘導などを行う際に用いられる地図データや、施設検索に必要な検索データなどが含まれている。この検索データには、音声によって施設名を入力する際の音声認識処理に必要な音声認識辞書や、各施設ごとの施設名や所在地、カテゴリ、その他の詳細情報を有する施設DB(データベース)などが含まれている。 The map data storage device 2 is a storage medium storing map data and a reading device thereof. This map data includes map data used for map display, route search / guidance, search data necessary for facility search, and the like. This search data includes a speech recognition dictionary necessary for speech recognition processing when inputting a facility name by voice, a facility DB (database) having facility names, locations, categories, and other detailed information for each facility. include.
地図データ記憶装置2には、経度および緯度で適当な大きさに区切られた矩形形状の図葉を単位とした地図データが格納されている。各図葉の地図データは、図葉番号を指定することにより特定され、読み出すことが可能となる。地図データ記憶装置2は、ハードディスク装置や半導体メモリによって、あるいは、DVDとその読み取り装置によって実現される。また、地図データ記憶装置2を通信装置に置き換えて、外部の地図配信サーバ(図示せず)から地図データを取得するようにしてもよい。 The map data storage device 2 stores map data in units of rectangular figure leaves divided into appropriate sizes by longitude and latitude. The map data of each leaf can be specified and read by designating the leaf number. The map data storage device 2 is realized by a hard disk device or a semiconductor memory, or by a DVD and its reading device. Further, the map data storage device 2 may be replaced with a communication device to acquire map data from an external map distribution server (not shown).
操作部3は、利用者の指示(操作)を受け付けるためのものであり、各種の操作ボタンや操作つまみ類を備えている。また、操作部3は、表示装置5の画面に取り付けられたタッチパネルを含んでおり、画面上の一部を直接利用者が指等で指し示すことにより、操作指示を行うことができるようになっている。車両位置検出部4は、例えば、GPS受信機、方位センサ、距離センサなどを備えており、所定のタイミングで車両位置(経度、緯度)の検出を行い、検出結果を出力する。
The operation unit 3 is for receiving user instructions (operations), and includes various operation buttons and operation knobs. In addition, the operation unit 3 includes a touch panel attached to the screen of the
表示装置5は、例えばLCD(液晶表示装置)によって構成されており、ナビゲーションコントローラ1から出力される映像信号に基づいて自車位置周辺の地図画像などを表示する。オーディオ部6は、ナビゲーションコントローラ1から入力される音声信号に基づいて生成した案内音声等を車室内に出力する。マイクロホン7は、施設名等の音声入力を行うためのものであり、利用者の音声を集音する。
The
次に、ナビゲーションコントローラ1の詳細構成について説明する。図1に示すナビゲーションコントローラ1は、地図バッファ10、地図読出制御部12、地図描画部14、車両位置計算部20、経路探索処理部30、経路誘導処理部32、目的地設定部34、施設検索部40、入力処理部60、表示処理部70を含んで構成されている。
Next, a detailed configuration of the navigation controller 1 will be described. The navigation controller 1 shown in FIG. 1 includes a
地図バッファ10は、地図データ記憶装置2から読み出された地図データや検索データを一時的に格納する。この地図データには、地図画像描画に必要なデータや、経路探索および経路誘導に必要なデータなどが少なくとも含まれる。地図読出制御部12は、車両位置計算部20により算出される車両位置や利用者が操作部3を操作して指定した位置に応じて、所定範囲の地図データの読み出し要求を地図データ記憶装置2に出力する。地図描画部14は、地図バッファ10に格納された通常地図データに基づいて、表示装置5に地図画像を表示するために必要な描画処理を行って地図描画データを作成する。
The
車両位置計算部20は、車両位置検出部4から出力される検出データに基づいて自車位置を計算するとともに、計算した自車位置が地図データの道路上にない場合には、自車位置を修正するマップマッチング処理を行う。
The vehicle
経路探索処理部30は、出発地から目的地までが最少のコストとなる走行経路(誘導経路)を、所定の探索条件を用いた経路探索処理によって算出する。経路誘導処理部32は、経路探索処理部30による探索処理によって得られた走行経路を地図上に重ねて表示したり、右左折交差点の案内図を表示するための誘導経路描画データを作成するとともに、走行経路に沿って車両の走行を誘導するために必要な交差点案内等の音声信号を生成する(経路誘導動作)。目的地設定部34は、経路探索処理部30によって行われる経路探索処理に用いられる目的地を設定する。
The route
施設検索部40は、利用者によって指定された施設を抽出するとともに、この抽出した施設の詳細情報を検索する。利用者による施設の指定は、音声入力によって行う場合をここでは想定している。この施設検索部40は、音声入力部42、施設選択部54、施設DB(データベース)56、詳細情報検索部58を含んでいる。
The
音声入力部42は、利用者が音声によって施設名を入力すると、この入力音声に対して音声認識処理を行って、候補となる複数の施設名を抽出する。抽出された複数の施設名は、音声認識結果として表示処理部70に入力され、表示装置5に表示される。施設選択部54は、音声入力部42によって抽出された複数の施設名の中から、利用者の指示に応じて一つを選択する。施設DB56は、施設の詳細情報を格納する。例えば、施設のカテゴリ(業種)や営業内容などや、チェーン店の店舗である場合にはそのチェーン店を識別するためのチェーンID、その施設が全国的に有名であるか一部の地方で有名であるかを示す知名度フラグ(例えば、全国的に有名である場合に「1」が、一部の地方で有名である場合に「2」が、それ以外の場合に「0」が設定される)が、施設の詳細情報には含まれている。詳細情報検索部58は、施設選択部54によって選択された施設名に対応する施設の詳細情報を地図DB56を用いて検索する。
When the user inputs a facility name by voice, the
また、上述した音声入力部42は、音声認識辞書44、発音スコア算出部46、店舗数スコア算出部48、総合スコア算出部50、認識結果出力部52を含んでいる。
Further, the
音声認識辞書44は、あらかじめ登録された複数の施設(認識対象語彙)のそれぞれについて施設名やこの施設名の読み方(音素モデル)を含んでいる。発音スコア算出部46は、マイクロホン7によって集音された利用者の発話による施設名から特徴量を抽出し、この特徴量と音声認識辞書44に格納されている各施設の音素モデルの特徴量とを比較し、各施設ごとの類似度を発音スコアとして算出する。例えば、音声入力された施設名の特徴量と、音声認識辞書44に格納されたいずれかの施設に対応する音素モデルの特徴量とが完全に一致した場合の発音スコアを100とすると、各施設について類似度に応じて100未満の発音スコアが得られる。
The
店舗数スコア算出部48は、発音スコア算出部46によって発音スコアが算出された複数の施設のそれぞれについて、各施設の属性情報としてのチェーン店の規模(店舗数)に対応した店舗数スコアを算出する。例えば、チェーン店の規模を10段階に分け、最も規模が大きいチェーン店に属する場合を100、次の規模のチェーン店に属する場合を90、以下、同様にして、規模が小さくなるにしたがって80、70、・・・、10、チェーン店に属さない場合を0とする場合が考えられる。なお、このような店舗数スコアの設定方法は一例であって、店舗数スコアの分け方を10段階以外にしたり、店舗数スコアの最大値を100以外(例えば50)に設定したり、適宜変更してもよい。また、各施設が属するチェーン店の店舗数は、施設DB56に格納されている各施設のチェーンIDの中から同じものをカウントすることにより知ることができるが、各施設ごとに属するチェーン店の店舗数を対応させて施設DB56に格納しておいてもよい。
The store number
総合スコア算出部50は、発音スコア算出部46によって算出された発音スコアと、店舗数スコア算出部48によって算出された店舗数スコアとに基づいて、発音スコア算出部46によって発音スコアが算出された複数の施設のそれぞれについて尤度としての総合スコアを算出する。例えば、発音スコアを第1の値A、店舗数スコアを第2の値Bとしたときに、それぞれの値に対して所定の重み付けを行って足し合わせることにより(C=aA+bB)、総合スコアCを算出する場合が考えられる。a、bのそれぞれを0.5(50%)とすると、C=0.5A+0.5Bとなって、単純な相加平均によって総合スコアCを算出することになる。また、a、bの値が0.5以外であってもよい。あるいは、このような重み付けを行う代わりに、相乗平均(C=√(A×B))やその他の演算によって総合コストCを算出するようにしてもよい。
Based on the pronunciation score calculated by the pronunciation
認識結果出力部52は、総合スコア算出部50によって算出された総合スコアが高い順に複数個(例えば10個)の施設名を抽出して認識結果として出力する。例えば、認識結果出力部52は、複数個の施設名を総合スコアが高いグループと低いグループに分けて2ページ分の認識結果を示す認識結果画像描画データを作成する。
The recognition
入力処理部60は、操作部3から入力される各種の操作指示に対応する動作を行うための命令をナビゲーションコントローラ1内の各部に向けて出力する。表示処理部70は、地図描画部14によって作成される通常地図描画データが入力されており、この描画データに基づいて所定範囲の通常地図を表示装置5の画面に表示する。また、経路探索処理部30によって作成される通常走行経路などを示す誘導経路描画データが入力されると、表示処理部70は、この描画データに対応する走行経路や右左折交差点に対応する案内図を地図に重ねて表示装置5の画面に表示する。また、認識結果出力部52によって作成される認識結果画像描画データが入力されると、表示処理部70は、複数の施設名を含む認識結果を表示する。この認識結果は、2ページ分が作成され、最初は総合スコアが高いグループが含まれる第1の認識結果リストが表示されるが、利用者によってページ送りが指示されると、総合スコアが低いグループが含まれる第2の認識結果リストに表示が切り替わるようになっている。
The
上述した発音スコア算出部46が類似度算出手段に、店舗数スコア算出部48、総合スコア算出部50が尤度算出手段に、認識結果出力部52が認識結果出力手段にそれぞれ対応する。
The pronunciation
本実施形態のナビゲーション装置100はこのような構成を有しており、次に、その動作について説明する。図2は、入力音声に対して音声認識処理を行って一の施設を抽出する動作手順を示す流れ図である。
The
利用者によって施設検索が指示されると、音声入力部42による施設名に対する音声認識処理が開始される。音声によって施設名が入力されると(ステップ100)、発音スコア算出部46は、この音声入力された施設名について特徴量を抽出し、音素モデルの特徴量が類似する順に複数の施設について発音スコアを算出する(ステップ102)。また、店舗数スコア算出部48は、発音スコア算出部46によって発音スコア算出の対象となっている複数の施設について店舗数スコアを算出する(ステップ104)。
When facility search is instructed by the user, speech recognition processing for the facility name by the
次に、総合スコア算出部50は、発音スコア算出部46によって算出された発音スコアと、店舗数スコア算出部48によって算出された店舗数スコアとを用いて総合スコアを算出する(ステップ106)。なお、上述した発音スコア、店舗数スコア、総合スコアの算出は、別々に行うのではなく、並行して行われる。
Next, the total
図3は、発音スコアと店舗数スコアに基づいて算出した総合スコアの具体例を示す図である。図3に示す例では、施設P1について、発音スコアAが60、店舗数スコアBが100であり、それぞれの重み付けa、bがともに50%の場合には、総合スコアDが80となる。同様に、施設P2について、発音スコアAが70、店舗数スコアBが40であり、総合スコアDが55となる。施設P3について、発音スコアAが80、店舗数スコアBが30であり、総合スコアDが55となる。 FIG. 3 is a diagram illustrating a specific example of the total score calculated based on the pronunciation score and the store number score. In the example shown in FIG. 3, for the facility P1, when the pronunciation score A is 60 and the store number score B is 100, and the weights a and b are both 50%, the total score D is 80. Similarly, for the facility P2, the pronunciation score A is 70, the store number score B is 40, and the total score D is 55. For facility P3, pronunciation score A is 80, store number score B is 30, and total score D is 55.
次に、認識結果出力部52は、総合スコアが高い順(値が大きい順)に、上位から複数個(例えば10個)の施設を抽出して認識結果として出力(表示)する(ステップ108)。
Next, the recognition
図4は、認識結果の表示例を示す図である。図4に示すように、認識結果として、総合スコアが高い順に10個の施設が抽出され、総合スコアが高い上位5つの施設P1、P2、P3、P4、P5のそれぞれの施設名p1、p2、p3、p4、p5が含まれる1ページ目の認識結果画像D1と、総合スコアが低い下位5つの施設P6、P7、P8、P9、P10のそれぞれの施設名p6、p7、p8、p9、p10が含まれる2ページ目の認識結果画像D2が認識結果出力部52によって作成され、最初に1ページ目の認識結果画像D1が表示装置5に表示される。この状態で、利用者によってページ送りが指示されると(操作部3を用いて指示する場合のほか、音声入力によって指示する場合などが考えられる)、2ページ目の認識結果画像D2が表示装置5に表示される。なお、認識結果画像D1、D2のそれぞれでは、総合スコアが高い施設がより上位に、総合スコアが低くなるにつれて下位になるように配置されている。
FIG. 4 is a diagram illustrating a display example of the recognition result. As shown in FIG. 4, as a recognition result, ten facilities are extracted in descending order of the overall score, and the facility names p1, p2, and p5 of the top five facilities P1, P2, P3, P4, and P5 having the highest total score are shown. The recognition result image D1 of the first page including p3, p4, and p5, and the facility names p6, p7, p8, p9, and p10 of the lower five facilities P6, P7, P8, P9, and P10 having a low overall score are The recognition result image D2 of the second page included is created by the recognition
このようにして、認識結果画像D1、D2が表示された状態において、施設選択部54は、利用者によっていずれかの施設(施設名)が選択されたか否かを判定する(ステップ110)。選択操作が行われない場合には否定判断が行われ、この判定が繰り返される。また、利用者によっていずれかの施設を指定する選択操作が行われると、ステップ110の判定において肯定判断が行われる。次に、施設選択部54は、利用者の指示に応じて一の施設を選択する(ステップ112)。このようにして、音声入力を用いた施設抽出に関する一連の動作が終了する。抽出した施設は、詳細情報検索部58による詳細情報検索の対象施設として用いたり、目的地設定部34によって設定する目的地として用いることができる。
In this way, in a state where the recognition result images D1 and D2 are displayed, the
このように、本実施形態のナビゲーション装置100の音声入力部42では、発声した施設名と複数の認識対象語彙との類似度だけでなく、各認識対象語彙に対応する属性情報(各施設が属するチェーン店の店舗数)を組み合わせることにより、複数の認識対象語彙の間に、音声による認識結果とは別に、選択される度合いに差をつけることができるため、利用者が発声した音声のみに基づいて認識結果を得る場合に比べて認識率を向上させることができる。
As described above, in the
また、総合スコア算出部50によって算出された総合スコア(尤度)が高い順に所定数の施設名を、最も総合スコアが高い施設名が最も上位に配置されるように、音声認識結果として表示している。これにより、最も上位に配置された施設名が認識結果として正しい可能性が高くなるため、正しい施設名が最も目につきやすくなるとともに、この施設名を選択する場合の操作が容易となる。
In addition, a predetermined number of facility names are displayed in order from the highest total score (likelihood) calculated by the total
また、認識結果を複数ページに分けて、総合スコアが高い施設名が最前のページに含まれるように表示しているため、最も総合スコアが高い施設名が2ページ目以降に配置されることがなくなり、最も総合スコアが高い施設名を表示させた後に選択するためのページ送り等の煩雑な操作が不要となる。 In addition, since the recognition result is divided into a plurality of pages and the facility name having the highest overall score is displayed in the first page, the facility name having the highest overall score may be arranged on the second and subsequent pages. This eliminates the need for complicated operations such as page turning for selection after the facility name with the highest overall score is displayed.
また、総合スコアを算出する際に、発音スコアと店舗数スコアのそれぞれに対して所定の重み付けを行って足し合わせているため、総合スコアにおけるチェーン店の店舗数による寄与度を調整して、音声認識結果として特定の施設が優先的に得られるようにすることができる。 In addition, when calculating the total score, each of the pronunciation score and the store number score is weighted and added together, so the contribution by the number of stores of the chain store in the total score is adjusted and the voice A specific facility can be preferentially obtained as a recognition result.
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、各施設の属性情報として、各施設の知名度に相関のあるチェーン店の店舗数を用いて店舗数スコアを算出するようにしたが、各施設の知名度に相関のある属性情報であればその他の属性情報を用いるようにしてもよい。例えば、各施設に対応する知名度フラグを用いて知名度スコアを算出し、店舗数スコアの代わりに、あるいは、店舗数スコアとともに用いるようにしてもよい。あるいは、各施設の利用履歴を記録しておいて、利用回数が多い施設について値が大きい利用スコアを設定し、店舗数スコアや知名度スコアに代えて、あるいはこれらとともに用いるようにしてもよい。 In addition, this invention is not limited to the said embodiment, A various deformation | transformation implementation is possible within the range of the summary of this invention. For example, in the above-described embodiment, the store number score is calculated using the number of stores of the chain store that has a correlation with the name recognition of each facility as the attribute information of each facility. However, there is a correlation with the name recognition of each facility. Other attribute information may be used if it is attribute information. For example, a well-known score may be calculated using a well-known flag corresponding to each facility and used instead of the store number score or together with the store number score. Alternatively, the use history of each facility may be recorded, a use score having a large value may be set for a facility having a large number of uses, and used instead of or together with the store number score or the name recognition score.
図5は、発音スコアと知名度スコアに基づいて算出した総合スコアの具体例を示す図である。図5に示す例では、施設P1について、発音スコアAが60、知名度スコアCが100(知名度フラグが「1」(全国的に有名)の場合)であり、それぞれの重み付けa、cがともに50%の場合には、総合スコアDが80となる。同様に、施設P2について、発音スコアAが70、知名度スコアCが50(知名度スコアが「2」(一部の地方で有名)の場合)であり、総合スコアDが60となる。施設P3について、発音スコアAが80、知名度スコアCが0(知名度スコアが「0」の場合)であり、総合スコアDが40となる。 FIG. 5 is a diagram illustrating a specific example of the total score calculated based on the pronunciation score and the familiarity score. In the example shown in FIG. 5, for the facility P1, the pronunciation score A is 60 and the name recognition score C is 100 (when the name recognition flag is “1” (nationally famous)), and each of the weights a and c is 50. In the case of%, the total score D is 80. Similarly, for the facility P2, the pronunciation score A is 70, the name recognition score C is 50 (when the name recognition score is “2” (famous in some regions), and the total score D is 60. For the facility P3, the pronunciation score A is 80, the name recognition score C is 0 (when the name recognition score is “0”), and the total score D is 40.
図6は、発音スコアと店舗数スコア、知名度スコアに基づいて算出した総合スコアの具体例を示す図である。図6に示す例では、施設P1について、発音スコアAが60、店舗数スコアBが100、知名度スコアCが100であり、それぞれの重み付けa、b、cが50%、30%、20%の場合には、総合スコアDが80となる。同様に、施設P2について、発音スコアAが70、店舗数スコアBが40、知名度スコアCが50であり、総合スコアDが57となる。施設P3について、発音スコアAが80、店舗数スコアBが30、知名度スコアCが0であり、総合スコアDが49となる。 FIG. 6 is a diagram illustrating a specific example of the total score calculated based on the pronunciation score, the store number score, and the name recognition score. In the example shown in FIG. 6, for the facility P1, the pronunciation score A is 60, the number-of-stores score B is 100, and the visibility score C is 100, and the weights a, b, and c are 50%, 30%, and 20%, respectively. In this case, the total score D is 80. Similarly, for the facility P2, the pronunciation score A is 70, the store number score B is 40, the name recognition score C is 50, and the total score D is 57. For the facility P3, the pronunciation score A is 80, the number-of-stores score B is 30, the visibility score C is 0, and the total score D is 49.
このように、利用者が発声した音声に類似する複数の施設が存在する場合に、店舗数スコアに代えて、あるいは、店舗数スコアとともに知名度スコアを用いることにより、知名度に基いて総合スコアを高くすることができるため、知名度がある施設名を認識結果として優先的に得ることにより、認識率を向上させることができる。 In this way, when there are a plurality of facilities similar to the voice uttered by the user, the total score is increased based on the name recognition by using the name recognition score instead of the store number score or together with the number of stores score. Therefore, the recognition rate can be improved by preferentially obtaining the name of a facility with a known degree as a recognition result.
また、上述した実施形態では、施設検索部40、音声入力部42がナビゲーション装置100の一部に備わっている場合について説明したが、施設検索部40や音声入力部42はナビゲーション装置100とは別に設けられ、認識結果としての施設名や検索結果としての施設の詳細情報がナビゲーション装置100に入力されるようにしてもよい。また、施設検索部40や音声入力部42をナビゲーション装置100以外の装置と組み合わせたり、単独で用いるようにしてもよい。
In the above-described embodiment, the case where the
上述したように、本発明によれば、発声した施設名と複数の認識対象語彙との類似度だけでなく、各認識対象語彙に対応する属性情報を組み合わせることにより、複数の認識対象語彙の間に、音声による認識結果とは別に、選択される度合いに差をつけることができるため、利用者が発声した音声のみに基づいて認識結果を得る場合に比べて認識率を向上させることができる。 As described above, according to the present invention, not only the degree of similarity between the name of a facility spoken and a plurality of recognition target vocabularies, but also a combination of attribute information corresponding to each recognition target vocabulary, In addition, since the degree of selection can be made different from the recognition result by voice, the recognition rate can be improved as compared with the case of obtaining the recognition result based only on the voice uttered by the user.
1 ナビゲーションコントローラ
10 地図バッファ
40 施設検索部
42 音声入力部
44 音声認識辞書
46 発音スコア算出部
48 店舗数スコア算出部
50 総合スコア算出部
52 認識結果出力部
54 施設選択部
56 施設DB(データベース)
58 詳細情報検索部
60 入力処理部
70 表示処理部
100 ナビゲーション装置
DESCRIPTION OF SYMBOLS 1
58 Detailed
Claims (7)
前記複数の認識対象語彙のそれぞれに対応する属性情報と前記類似度とに基づいて、前記複数の認識対象語彙のそれぞれに対応する尤度を算出する尤度算出手段と、
前記尤度算出手段によって算出された尤度に基づいて、利用者によって発声された前記施設名に対応する音声認識結果を出力する認識結果出力手段と、
を備えることを特徴とする施設検索装置。 A similarity calculation means for performing voice recognition processing on the facility name uttered by the user and calculating a similarity corresponding to each of a plurality of recognition target vocabularies;
A likelihood calculating means for calculating a likelihood corresponding to each of the plurality of recognition target words based on the attribute information corresponding to each of the plurality of recognition target words and the similarity;
A recognition result output means for outputting a speech recognition result corresponding to the facility name uttered by the user based on the likelihood calculated by the likelihood calculating means;
A facility retrieval apparatus comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017054286A JP2018155997A (en) | 2017-03-21 | 2017-03-21 | Apparatus for retrieving facilities |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017054286A JP2018155997A (en) | 2017-03-21 | 2017-03-21 | Apparatus for retrieving facilities |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2018155997A true JP2018155997A (en) | 2018-10-04 |
Family
ID=63718059
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017054286A Pending JP2018155997A (en) | 2017-03-21 | 2017-03-21 | Apparatus for retrieving facilities |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2018155997A (en) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11231889A (en) * | 1998-02-18 | 1999-08-27 | Denso Corp | Speech recognition device |
| JP2003108189A (en) * | 2001-09-28 | 2003-04-11 | Matsushita Electric Ind Co Ltd | Voice recognition device and voice recognition method |
| WO2010061751A1 (en) * | 2008-11-25 | 2010-06-03 | 旭化成株式会社 | Weight coefficient generation device, voice recognition device, navigation device, vehicle, weight coefficient generation method, and weight coefficient generation program |
| JP2012145391A (en) * | 2011-01-11 | 2012-08-02 | Alpine Electronics Inc | Navigation device |
| JP2013140269A (en) * | 2012-01-05 | 2013-07-18 | Denso Corp | Voice recognition device |
-
2017
- 2017-03-21 JP JP2017054286A patent/JP2018155997A/en active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11231889A (en) * | 1998-02-18 | 1999-08-27 | Denso Corp | Speech recognition device |
| JP2003108189A (en) * | 2001-09-28 | 2003-04-11 | Matsushita Electric Ind Co Ltd | Voice recognition device and voice recognition method |
| WO2010061751A1 (en) * | 2008-11-25 | 2010-06-03 | 旭化成株式会社 | Weight coefficient generation device, voice recognition device, navigation device, vehicle, weight coefficient generation method, and weight coefficient generation program |
| JP2012145391A (en) * | 2011-01-11 | 2012-08-02 | Alpine Electronics Inc | Navigation device |
| JP2013140269A (en) * | 2012-01-05 | 2013-07-18 | Denso Corp | Voice recognition device |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11615785B2 (en) | Speech recognition using natural language understanding related knowledge via deep feedforward neural networks | |
| JP2644376B2 (en) | Voice navigation method for vehicles | |
| KR100819234B1 (en) | Method and apparatus for setting a destination of a navigation terminal | |
| US20080177541A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
| JP5189874B2 (en) | Multilingual non-native speech recognition | |
| JP5199391B2 (en) | Weight coefficient generation apparatus, speech recognition apparatus, navigation apparatus, vehicle, weight coefficient generation method, and weight coefficient generation program | |
| JP2011503638A (en) | Improvement of free conversation command classification for car navigation system | |
| US20160335051A1 (en) | Speech recognition device, system and method | |
| JP5217969B2 (en) | Navigation device | |
| JP4642953B2 (en) | Voice search device and voice recognition navigation device | |
| US9355639B2 (en) | Candidate selection apparatus and candidate selection method utilizing voice recognition | |
| JP3645104B2 (en) | Dictionary search apparatus and recording medium storing dictionary search program | |
| US20070162284A1 (en) | Speech-conversion processing apparatus and method | |
| WO2014199428A1 (en) | Candidate announcement device, candidate announcement method, and program for candidate announcement | |
| JP4381632B2 (en) | Navigation system and its destination input method | |
| JPH11249689A (en) | Voice recognition device and map display device | |
| JP2018155997A (en) | Apparatus for retrieving facilities | |
| JPH0926799A (en) | Voice recognition device | |
| JP2010128144A (en) | Speech recognition device and program | |
| JP3296783B2 (en) | In-vehicle navigation device and voice recognition method | |
| KR100677711B1 (en) | Speech recognition device, storage medium and navigation device | |
| JP2006330577A (en) | Device and method for speech recognition | |
| JP2009157898A (en) | Character selecting device, navigator, and character selection program | |
| JP5522679B2 (en) | Search device | |
| JPWO2008105063A1 (en) | Information display device, information display method, information display program, and recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190827 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200514 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201124 |