JP2020034832A - Dictionary generation device, voice recognition system, and dictionary generation method - Google Patents
Dictionary generation device, voice recognition system, and dictionary generation method Download PDFInfo
- Publication number
- JP2020034832A JP2020034832A JP2018162731A JP2018162731A JP2020034832A JP 2020034832 A JP2020034832 A JP 2020034832A JP 2018162731 A JP2018162731 A JP 2018162731A JP 2018162731 A JP2018162731 A JP 2018162731A JP 2020034832 A JP2020034832 A JP 2020034832A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- dictionary
- unit
- speech
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 240000000220 Panda oleosa Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Landscapes
- Navigation (AREA)
Abstract
Description
本発明は、辞書生成装置、音声認識システムおよび辞書生成方法に関する。 The present invention relates to a dictionary generation device, a speech recognition system, and a dictionary generation method.
従来、例えば、ユーザの発話による音声操作を受け付ける車載装置がある。かかる車載装置では、発話音声に基づき、音声認識用の辞書を検索することで、音声操作を受け付けることが一般的である。 2. Description of the Related Art Conventionally, for example, there is an in-vehicle device that receives a voice operation by a user's speech. In such an in-vehicle device, it is common to accept a voice operation by searching a dictionary for voice recognition based on an uttered voice.
また、特許文献1には、発話音声に基づく候補が複数存在する場合、追加で音声入力を受け付けることで、最終的に1つの候補を絞り込むことが開示されている。
Further,
しかしながら、従来技術では、音声認識の認識率を向上させるうえで、改善の余地があった。すなわち、一般的に使用される音声認識用の音声辞書は、ネイティブの発話に基づいて作成されているため、ノンネイティブの発話に対して認識率が低下する。 However, in the prior art, there is room for improvement in improving the recognition rate of speech recognition. That is, since a generally used speech dictionary for speech recognition is created based on native utterances, the recognition rate is lower for non-native utterances.
本発明は、上記に鑑みてなされたものであって、音声認識の認識率を向上させることができる辞書生成装置、音声認識システムおよび辞書生成方法を提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide a dictionary generation device, a voice recognition system, and a dictionary generation method that can improve the recognition rate of voice recognition.
上述した課題を解決し、目的を達成するために、実施形態に係る辞書生成装置は、受付部と、生成部と、更新部とを備える。前記受付部は、標準発音と異なる発音による単語の発話音声を受け付ける。前記生成部は、前記受付部によって受け付けられた前記発話音声に基づく音素列を生成する。前記更新部は、前記生成部によって生成された前記音素列を音声辞書へ追加することで、当該音声辞書を更新する。 In order to solve the above-described problem and achieve the object, a dictionary generation device according to an embodiment includes a reception unit, a generation unit, and an update unit. The receiving unit receives an uttered voice of a word having a pronunciation different from a standard pronunciation. The generating unit generates a phoneme sequence based on the uttered voice received by the receiving unit. The updating unit updates the voice dictionary by adding the phoneme string generated by the generating unit to the voice dictionary.
本発明によれば、音声認識の認識率を向上させることができる。 According to the present invention, the recognition rate of voice recognition can be improved.
以下、添付図面を参照して、実施形態に係る辞書生成装置、音声認識システムおよび辞書生成方法について詳細に説明する。なお、本実施形態によりこの発明が限定されるものではない。 Hereinafter, a dictionary generation device, a speech recognition system, and a dictionary generation method according to an embodiment will be described in detail with reference to the accompanying drawings. The present invention is not limited by the embodiment.
まず、図1を用いて実施形態に係る辞書生成方法について説明する。図1は、辞書生成方法の概要を示す図である。なお、かかる辞書生成方法は、図1に示す辞書生成装置1によって実行される。
First, a dictionary generation method according to the embodiment will be described with reference to FIG. FIG. 1 is a diagram showing an outline of a dictionary generation method. The dictionary generation method is executed by the
図1に示す辞書生成装置1は、音声認識を行う際に使用する音声辞書を生成するものである。かかる音声辞書は、単語ごとに音素列や音響モデルが対応付けられたものである。
The
ところで、欧米などの移民国家においては、同じ言語(例えば、英語)であっても、発話者によって発音が異なる場合がある。具体的には、ネイティブの発話者と、ノンネイティブの発話者とでは、同じ単語であってもその発音が異なる場合がある。 Incidentally, in the immigration nations such as Europe and the United States, even in the same language (for example, English), pronunciation may be different depending on the speaker. Specifically, a native speaker and a non-native speaker may have different pronunciations even for the same word.
また、一般的な音声辞書は、ネイティブ発話者を対象として生成されているため、ノンネイティブ発話者に対する音声認識の認識精度が低下する。 Further, since a general speech dictionary is generated for native speakers, the recognition accuracy of speech recognition for non-native speakers decreases.
そこで、実施形態に係る辞書生成方法では、音声辞書にノンネイティブ発話者用の音素列を音声辞書へ追加することで、音声認識の認識精度を向上させることとした。 Therefore, in the dictionary generation method according to the embodiment, the recognition accuracy of voice recognition is improved by adding a phoneme sequence for a non-native speaker to the voice dictionary.
具体的には、図1に示すように、まず、辞書生成装置1は、標準発音とは異なるノンネイティブ発話者による単語の発話音声を受け付け(ステップS1)、受け付けた発話音声に基づく音素列を生成する(ステップS2)。
Specifically, as shown in FIG. 1, first, the
例えば、辞書生成装置1の管理者(以下、単に「管理者」と記載する)が、ノンネイティブ発話者に対して指定した単語を発話してもらったり、インターネット上のノンネイティブ発話者による発話を収集したりすることで、ノンネイティブ発話者の発話音声を収集することができる。 For example, an administrator of the dictionary generation device 1 (hereinafter simply referred to as “administrator”) has a non-native speaker speak a specified word, or speaks a non-native speaker on the Internet. By collecting, the uttered voice of the non-native speaker can be collected.
そして、管理者が、収集した発話音声の音声データを辞書生成装置1へ入力することで、辞書生成装置1は、発話音声を受け付ける。
Then, when the administrator inputs the voice data of the collected speech voice to the
音素列とは、音素を文字として表記した文字列である。すなわち、辞書生成装置1は、発話音声を音素列に書き起こす処理を行う。これにより、管理者が、発話音声から音素列を書き起こす場合に比べて、音素列を容易に得ることが可能となる。
A phoneme string is a character string in which phonemes are represented as characters. That is, the
その後、辞書生成装置1は、音素列を音声辞書41へ追加する(ステップS3)。これにより、音声辞書41には、ネイティブ発話者に対する音素列に対してノンネイティブ発話者による音素列が対応付けられることとなる。
Thereafter, the
図1に示す例では、音声辞書41の「Jason」に対してデフォルト(ネイティブ用)としてカナ表記で「ジェイソン」の音素列が予め登録されている場合を示す。
The example shown in FIG. 1 shows a case where a phoneme string of “Jason” is previously registered as a default (for native) in “Jason” of the
そして、「Jason」に対していずれもカナ表記で「ジェイスン」、「ヤソン」、「ハソン」などの音素列が追加された場合を示す。したがって、音声辞書41を用いることで、「ジェイスン」「ヤソン」、「ハソン」の発話音声を「Jason」として認識することが可能となる。
Then, a case where phoneme strings such as "Jason", "Yason", and "Hathon" are added to "Jason" in kana notation. Therefore, by using the
このように、実施形態に係る辞書生成方法では、ノンネイティブの発話音声に基づく音素列を音声辞書41に追加することで、音声辞書41を更新する。これにより、音声認識の認識率を向上させることが可能となる。
As described above, in the dictionary generation method according to the embodiment, the
また、実施形態に係る辞書生成方法では、辞書生成装置1側で音素列を生成するため、音声辞書41の更新を容易に行うことが可能となる。
Further, in the dictionary generation method according to the embodiment, since the phoneme string is generated on the
ところで、上述のように、音声辞書41には、1つの単語に対して複数の音素列が登録される。そのため、例えば、複数の単語において、近似する音素列が登録される場合がある。例えば、音声辞書41に「Jason」および「Yason」(ヤソン)の単語がそれぞれ登録されていた場合、カナ表記で「ヤソン」という音素列が、「Jason」および「Yason」の双方に登録される場合がある。
By the way, as described above, the
この場合、「ヤソン」という発話音声に対して「Jason」および「Yason」の双方の単語が音声辞書41から抽出されるため、却って音声認識の認識率が低下することが想定される。
In this case, since the words “Jason” and “Yason” are extracted from the
このため、音声辞書41に登録された各音素列に重み付けをすることで、音声認識の認識率を向上させることも可能であるが、この点の詳細については、後述する。
For this reason, it is possible to improve the recognition rate of speech recognition by weighting each phoneme string registered in the
次に、図2を用いて実施形態に係る音声認識システムSの構成について説明する。図2は、音声認識システムSの概要図である。図2に示すように、音声認識システムSは、辞書生成装置1と、複数の車載装置50−1〜50−n(nは、2以上の自然数)とを備える。なお、車載装置50−1〜50−nは、音声認識装置の一例である。また、以下では、車載装置50−1〜50−nについて、単に車載装置50と記載する。
Next, the configuration of the speech recognition system S according to the embodiment will be described with reference to FIG. FIG. 2 is a schematic diagram of the speech recognition system S. As shown in FIG. 2, the speech recognition system S includes the
辞書生成装置1と、車載装置50とは、ネットワークNを介して接続されており、相互にデータ通信を行うことが可能である。各車載装置50は、辞書生成装置1によって生成、更新された音声辞書が搭載された音声認識装置であり、車内のユーザによる音声操作を支援する。
The
例えば、後述するように、ユーザは、車載装置50を介して、スマートフォンなどのユーザ端末の電話帳呼び出しや、ナビゲーション装置の行先決定を音声操作として行うことが可能である。
For example, as described later, the user can call the telephone directory of a user terminal such as a smartphone or determine the destination of the navigation device as a voice operation via the in-
続いて、図3を用いて辞書生成装置1の構成例について説明する。図3は、辞書生成装置1のブロック図である。図3に示すように、辞書生成装置1は、通信部2と、制御部3と、記憶部4とを備える。
Next, a configuration example of the
通信部2は、ネットワークNを介して各車載装置50とデータ通信を行う通信モジュールである。通信部2は、制御部3の指示に応じて音声辞書を各車載装置50へ配信したり、各車載装置50から音声辞書の配信指示を取得したりすることができる。
The communication unit 2 is a communication module that performs data communication with each in-
制御部3は、受付部30と、生成部31と、調整部32と、更新部33と、配信部34とを備える。また、制御部3は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、入出力ポートなどを有するコンピュータや各種の回路を含む。
The
コンピュータのCPUは、例えば、ROMに記憶されたプログラムを読み出して実行することによって、制御部3の受付部30、生成部31、調整部32、更新部33および配信部34として機能する。
The CPU of the computer functions as, for example, the
また、制御部3の受付部30、生成部31、調整部32、更新部33および配信部34の少なくともいずれか一部または全部をASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウェアで構成することもできる。
In addition, at least some or all of the receiving
また、記憶部4は、例えば、RAMやHDDに対応する。RAMやHDDは、音声辞書データベース40および規則情報データベース42を有する。なお、辞書生成装置1は、有線や無線のネットワークで接続された他のコンピュータや可搬型記録媒体を介して上記したプログラムや各種情報を取得することとしてもよい。
The
音声辞書データベース40は、上述の音声辞書41をテーブルとして記憶するデータベースである。図4は、音声辞書41の具体例を示す図である。図4に示すように、音声辞書41は、「名前」、「デフォルト」、「追加分」および「訛り」が互いに関連付けられた情報である。
The
「名前」は、単語の一例である。「デフォルト」は、ネイティブ発話者用の音素列を示す。「追加分」は、制御部3によって追加されたノンネイティブ発話者用の音素列を示す。
“Name” is an example of a word. "Default" indicates a phoneme sequence for a native speaker. The “addition” indicates a phoneme string for a non-native speaker added by the
「訛り」は、各音素列を発話する発話者の訛りを示す。図4では、訛りとして、ネイティブ、北欧、ゲルマン、スパニッシュを例示している。これら訛りは、後述する規則情報に基づき、制御部3によって追加される。
“Accent” indicates the accent of the speaker who speaks each phoneme sequence. FIG. 4 illustrates native, Nordic, Germanic, and Spanish as accents. These accents are added by the
図3に戻り、規則情報データベース42について説明する。規則情報データベース42は、ネイティブの発話に基づく音素列と、ノンネイティブの発話に基づく音素列との規則性に関する情報である規則情報をテーブルとして記憶するデータベースである。
Returning to FIG. 3, the
図5は、規則情報の一例を示す図である。図5に示すように、規則性情報43は、「規則性」、「適用対象」、「native」および「non native」が互いに対応付けらえた情報である。
FIG. 5 is a diagram illustrating an example of the rule information. As shown in FIG. 5, the
「規則性」は、規則性の分類を示す「分類」と、その「分類」に対応する「事象」とが含まれる。「適用対象」は、規則性が適用される単語の具体例を示し、「native」および「non native」は、それぞれネイティブおよびノンネイティブの発音を示す。 “Regularity” includes “classification” indicating a classification of regularity, and “event” corresponding to the “classification”. “Applicable object” indicates a specific example of a word to which regularity is applied, and “native” and “non native” indicate native and non-native pronunciations, respectively.
なお、ここでは、説明を分かりやすくするために、「native」および「non native」についてそれぞれカナ表記で示しているが、音素列で示すことも可能である。 Note that, here, for the sake of simplicity of explanation, “native” and “non native” are each shown in kana notation, but they may be shown by phoneme strings.
図5に示すように、例えば、「Jの発音」において、ネイティブ発話者は、ジョ、ジェ、ジュと発音するものに対して、スペイン系のノンネイティブ発話者は、イ、ヨ、ホ、フと発音する。 As shown in FIG. 5, for example, in "pronunciation of J", native speakers pronounce Jo, Jae, and Ju, whereas Spanish non-native speakers speak Lee, Yo, Ho, and Fu. Pronounced
このため、「jessica」について、ネイティブ発話者が「ジェシカ」と発音するところを、スペイン系のノンネイティブ発話者は、「イェシカ」と発音する。 For this reason, the native non-speaker pronounces "Jessica" as "Jessica", while the Spanish non-native speaker pronounces "Jessica".
「henry」について、ネイティブ発話者が、「ヘンリ」と発音するところを、フランス系のノンネイティブ発話者は、「アンリ」と発音し、スペイン系のノンネイティブ発話者は「エンリ」と発音する。同様に、「james」についても、ネイティブ発話者が、「ジェイムス」と発音するところを、フランス系のノンネイティブ発話者は「ジャムス」、スペイン系のノンネイティブ発話者は「ハメス」と発音する。なお、「henry」や「james」は、アルファベット表記とノンネイティブ発話者による発音とが異なるため、アルファベットから音素列を推定するのが困難である。 Regarding "henry", a native speaker who pronounces "henry" pronounces "enri" while a French non-native speaker pronounces "enri" and a Spanish non-native speaker pronounces "enri". Similarly, for "james", a native speaker pronounces "James", a French non-native speaker pronounces "Jams", and a Spanish non-native speaker pronounces "James". It is difficult to estimate the phoneme sequence from the alphabet of “henry” and “james” because the alphabet notation and the pronunciation by a non-native speaker are different.
このように、規則性情報43は、ノンネイティブの属性に応じて音素列の規則性を示す情報であり、かかる規則性情報43を参照することで、ユーザがどのノンネイティブの発話者かを識別することが可能である。なお、管理者によって、辞書生成装置1に規則性情報43が入力・更新されることにしてもよいし、辞書生成装置1に機械学習機能を備えることとし、辞書生成装置1側で規則性情報43を適宜更新することも可能である。
As described above, the
図3の説明に戻り、制御部3の受付部30について説明する。受付部30は、標準発音と異なる発音による単語の発話音声を受け付ける。すなわち、受付部30は、ノンネイティブ発話者の単語の発話音声を音声波形として受け付ける。
Returning to the description of FIG. 3, the receiving
上述のように、受付部30は、管理者によって収集された発話音声を受け付けることが可能となる。この際、受付部30は、単語の文字列の入力を管理者から受け付け、発話音声が示す単語の文字列を生成部31へ通知する。
As described above, the receiving
また、受付部30は、ノンネイティブ発話者の母国語の種別の入力をあわせて受け付けることにしてもよい。この場合、制御部3は、母国語に関する情報に基づいて規則情報データベース42を更新することも可能である。
The receiving
続いて、生成部31について説明する。生成部31は、受付部30によって受け付けられた発話音声に基づく音素列を生成する。例えば、生成部31は、音声波形と対応する音素列の相関関係を示すテーブルを有しており、かかるテーブルを参照することで、発話音声に基づく音素列を生成することができる。また、生成部31によって生成された音素列は、調整部32へ通知される。
Next, the
調整部32は、生成部31によって生成された音素列を調整し、更新部33へ通知する。例えば、調整部32は、音素列を音声へ変換し、音素列を再生音として図示しないスピーカから管理者へ出力する。管理者は、かかる再生音と実際の発話音声を比較することで、音素列を手動で調整することができる。これにより、音素列をより実際の発話音声に近づけることが可能となる。
The adjusting
調整部32は、上記の処理を自動的に行うことも可能である。すなわち、調整部32は、音素列に基づく音声波形と、実際の発話音声の音声波形とを比較し、波形が異なる箇所について音素列について適宜修正していく。
The adjusting
そして、調整部32は、音素列に基づく音声波形と、実際の発話音声の音声波形とが略一致するまで、かかる処理を行うことで、音素列を実際の発話音声に近づけることが可能となる。このように、調整部32は、音素列を調整することで、音素列を用いて実際の発話音声を精度よく再現することが可能となる。したがって、音声辞書41を用いた際の音声認識率を向上させることが可能となる。
Then, the adjusting
更新部33は、調整部32から通知される音素列を音声辞書41へ追加することで、音声辞書41を更新する。更新部33は、ネイティブ発話者用の音素列に対してノンネイティブ発話者用の音素列を対応付けることで、音声辞書41を更新する。
The updating
これにより、音声辞書41には、ネイティブ発話者用の音素列と、各ノンネイティブ発話者用の音素列とが含まれることとなる。したがって、音声辞書41を用いることで、ネイティブ発話者と、各ノンネイティブ発話者との双方の発話音声を認識することが可能となる。つまり、音声認識の認識率を向上させることが可能となる。
As a result, the
配信部34は、各車載装置50の配信要求に基づいて各車載装置50に対して音声辞書41を配信する。かかる配信要求には、各車載装置50の制御対象となる外部装置に登録されたテキストが含まれる。
The
配信部34は、音声辞書データベース40から、かかるテキストに対応付けられた音素列を抽出して各車載装置50へ配信する。すなわち、配信部34は、外部装置に登録されたテキストに対応する音素列のみを送信する。これにより、各車載装置50が保有する車載用音声辞書70(図6参照)のデータ容量を抑えることが可能となる。
The
このように、配信部34は、車載装置50毎に、配信する音声辞書41を最適化することで、音声辞書41の利便性を向上させることができる。
In this way, the
次に、図6を用いて車載装置50について説明する。図6は、車載装置50のブロック図である。なお、図6には、ユーザ端末80およびナビゲーション装置81をあわせて示す。ユーザ端末80およびナビゲーション装置81は、外部装置の一例である。
Next, the in-
ユーザ端末80は、例えば、ユーザが保有するスマートフォンなどのハンズフリー通話機能を有する端末である。例えば、ユーザ端末80は、電話帳に登録された名前のテキスト情報や、ユーザ端末80に操作履歴を車載装置50へ通知する。また、ユーザ端末80は、車載装置50を介してハンズフリー通話を行うことも可能である。
The user terminal 80 is a terminal having a hands-free call function, such as a smartphone owned by the user. For example, the user terminal 80 notifies the in-
ナビゲーション装置81は、車両の走行経路を案内するモジュールであり、目的地を登録可能なテキスト情報を車載装置50へ通知する。また、ナビゲーション装置81は、車載装置50を介したユーザの音声操作に基づき、目的地を設定することも可能である。
The
車載装置50は、制御部6と、記憶部7とを備える。制御部6は、取得部60と、認識部61と、重み付け部62と、実行部63とを備える。また、制御部6は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、入出力ポートなどを有するコンピュータや各種の回路を含む。
The in-
コンピュータのCPUは、例えば、ROMに記憶されたプログラムを読み出して実行することによって、制御部6の取得部60、認識部61、重み付け部62および実行部63として機能する。
The CPU of the computer functions as an
また、制御部3の取得部60、認識部61、重み付け部62および実行部63の少なくともいずれか一部または全部をASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウェアで構成することもできる。
In addition, at least some or all of the
また、記憶部7は、例えば、RAMやHDDに対応する。RAMやHDDは、車載用音声辞書70、特定用情報71およびコマンド情報72を記憶する。なお、車載装置50は、有線や無線のネットワークで接続された他のコンピュータや可搬型記録媒体を介して上記したプログラムや各種情報を取得することとしてもよい。
The storage unit 7 corresponds to, for example, a RAM or an HDD. The RAM and the HDD store the vehicle-mounted
また、車載装置50は、図示しない通信装置と接続されており、かかる通信装置を介してネットワークN(図2参照)と接続し、辞書生成装置1とデータ通信を行うことが可能である。
The in-
取得部60は、辞書生成装置1から音声辞書を取得する。具体的には、取得部60は、制御対象となるユーザ端末80や、ナビゲーション装置81に登録されたテキストに関する情報であるテキスト情報を取得し、かかるテキスト情報に対応する音声辞書の配信要求を辞書生成装置1へ送信する。
The
ここでのテキストとは、ユーザ端末80の電話帳に登録された氏名や、ナビゲーション装置81に登録された地名など、ユーザの音声操作を行う際に、必要となる単語のテキストを指す。取得部60は、辞書生成装置1から各テキストに対応する音素列を取得すると、記憶部7に車載用音声辞書70として追加する。
Here, the text refers to a text of a word that is necessary when the user performs a voice operation, such as a name registered in the telephone directory of the user terminal 80 and a place name registered in the
このように、取得部60は、テキスト情報に基づいて音素列を取得し、車載用音声辞書70へ追加することで、車載用音声辞書70のデータ容量を抑えることができる。
As described above, the acquiring
また、取得部60は、ユーザ端末80からユーザ端末80の操作履歴を取得することもできる。かかる操作履歴は、ユーザ端末80の発話履歴や、ユーザ端末80のウェブブラウザの閲覧履歴を含む。これら操作履歴は、後述する重み付け部62へ通知される。
The
認識部61は、図示しないマイクから入力されるユーザの発話音声と、車載用音声辞書70および特定用情報71とに基づいて音声認識を行う。例えば、認識部61は、車載用音声辞書70に基づいて音声認識を行う第1モードと、特定用情報71に基づいて音声認識を行う第2モードとで動作する。
The recognizing
第1モードは、車載用音声辞書70に基づき、ユーザによる音声操作を受け付けるモードである。ユーザは、各操作コマンドに応じたキーワードを発話し、認識部61がかかるキーワードを認識した場合に、第2モードから第1モードに移行する。
The first mode is a mode for receiving a voice operation by a user based on the vehicle-mounted
具体的には、ユーザが電話帳の呼び出しを行う場合、「コール(Call)○○」と発話すると、コールに続く単語(上記○○に対応)に対応する電話帳の呼び出しを行うことが可能である。認識部61は、第1モードにおいて認識した単語を実行部63へ出力する。
Specifically, when the user calls the telephone directory, when the user speaks “Call (XX)”, it is possible to call the telephone directory corresponding to the word following the call (corresponding to the above XX). It is. The
また、認識部61は、第1モードにおいて、1回の発話音声に対して複数の単語を抽出した場合、複数の単語それぞれを重み付け部62へ出力することも可能である。
In the first mode, when a plurality of words are extracted from one uttered voice in the first mode, the recognizing
また、車載用音声辞書70に登録される音素列には、後述する重み付け部62によって重み付けが行われる。これにより、認識部61による音声認識の誤認識を抑制することが可能である。なお、車載用音声辞書70の具体例については、図7を用いて後述する。
The phoneme sequence registered in the vehicle-mounted
一方、第2モードは、ユーザの「訛り」を特定するためのモードである。すなわち、認識部61は、第2モードにおいてユーザの車内の会話からユーザの訛りを特定することができる。
On the other hand, the second mode is a mode for specifying the “accent” of the user. That is, the recognizing
具体的には、認識部61は、特定用情報71を参照することで、ユーザの訛りを特定する。特定用情報71は、各ノンティティブ発話者特有の訛りを特定するための情報であり、管理者によって上記の規則性情報43に基づいて作成される。認識部61は、第2モードにおいて特定した訛りに関する情報を重み付け部62へ出力する。
Specifically, the
重み付け部62は、車載用音声辞書70に登録された音素列毎に重み付けを行う。具体的には、重み付け部62は、上述の認識部61が第2モードで動作時に、認識部61から入力される訛りに関する情報に基づき、車載用音声辞書70に登録された音素列毎に重み付けを行う。
The
図7は、車載用音声辞書70の具体例を示す図である。図7に示すように、車載用音声辞書70は、「名前」、「音素列」、「訛り」、「重み」および「有効フラグ」が互いに関連付けられた情報である。
FIG. 7 is a diagram showing a specific example of the vehicle-mounted
重み付け部62は、認識部61から入力される「訛り」に関する情報に基づき、各音素列の「重み」を更新する。図7に示す例では、北欧の重みが「0.7」であり、ゲルマンの重みが「0.3」である場合を示す。
The
言い換えれば、ユーザが北欧系もしくはゲルマン系のノンネイティブ発話者である可能性が高い場合を示す。このため、北欧系もしくはゲルマン系の音素列の有効フラグを「1」にすることで、かかる音素列を有効するとともに、それ以外の音素列の有効フラグを「0」にすることで、かかる音素列を無効にする。 In other words, the case where the user is likely to be a Nordic or Germanic non-native speaker is high. Therefore, by setting the valid flag of a Nordic or Germanic phoneme string to "1", the phoneme string is made valid, and by setting the valid flags of other phoneme strings to "0", such phoneme string is made. Disable a column.
これにより、上述の認識部61は、車載用音声辞書70に登録された音素列のうち、有効である音素列から音声認識を行うこととなる。これにより、音声認識の誤認識を抑制することが可能となる。
Thus, the above-described
また、重み付け部62は、認識部61によって1つの発話音声に対して複数の単語が認識された場合、図示しない表示画面に複数の単語を表示し、ユーザの選択操作に基づいて重み付けを行うことも可能である。
In addition, when the
すなわち、重み付け部62は、ユーザの選択操作により、重み付けを行うことで、簡便かつ精度よく各音素列に対して重み付けを行うことができる。このように、重み付け部62は、各音素列について重み付けを行うことで、発話者毎に最適な音声辞書を車載用音声辞書70とすることができる。これにより、音声認識の認識精度を向上させつつ、誤認識を抑制することができる。
That is, the
なお、重み付け部62は、有効フラグがオフである音素列を車載用音声辞書70から削除することも可能である。また、ユーザの「訛り」を特定した時点で、かかる訛りに対応する音素列のみを辞書生成装置1から取得することも可能である。
Note that the
これにより、車載用音声辞書70のデータ容量を抑えることが可能となる。また、かかる訛りに対応する音素列のみを辞書生成装置1から取得することで、通信容量を抑えることも可能である。
This makes it possible to reduce the data capacity of the vehicle-mounted
また、重み付け部62は、ユーザ端末80の操作履歴に基づき、重み付けを行うことも可能である。この場合、重み付け部62は、発話履歴の電話番号に含まれる国番号や、ウェブブラウザのドメインに含まれる国別コードに基づき、ユーザの母国語を推定する。そして、重み付け部62は、かかる母国語に基づき、上記の「訛り」を推定したうえで、音素列毎に重み付けを行うことができる。
Further, the
図6の説明に戻り、実行部63について説明する。実行部63は、上述の第1モードにおいて、認識部61によって認識された単語をコマンドへ変換し、ユーザ端末80やナビゲーション装置81を制御する。
Returning to the description of FIG. 6, the
コマンド情報72は、ユーザ端末80やナビゲーション装置81を制御するためのコマンドに関する情報であり、実行部63は、コマンド情報72を参照することで、単語をコマンドへ変換することができる。
The command information 72 is information about a command for controlling the user terminal 80 and the
そして、実行部63は、かかるコマンドをユーザ端末80やナビゲーション装置81へ出力する。これにより、ユーザ端末80やナビゲーション装置81は、かかるコマンドに基づく動作を実行することとなる。言い換えれば、ユーザ端末80やナビゲーション装置81は、ユーザによる音声操作を受け付けることができる。
Then, the
次に、図8を用いて、辞書生成装置1が実行する処理手順についてそれぞれ説明する。図8は、辞書生成装置1が実行する処理手順を示すフローチャートである。
Next, a processing procedure executed by the
図8に示すように、辞書生成装置1は、まず、ノンネイティブ発話者による単語の発話音声を受け付けたか否かを判定し(ステップS101)、発話音声を受け付けた場合(ステップS101,Yes)、発話音声に対する音素列を生成する(ステップS102)。
As shown in FIG. 8, the
続いて、辞書生成装置1は、かかる音素列を音声辞書41に追加し(ステップS103)、処理を終了する。また、辞書生成装置1は、ステップS101において、発話音声を受け付けていない場合(ステップS101,No)、そのまま処理を終了する。
Subsequently, the
次に、図9Aおよび図9Bを用いて、車載装置50が実行する処理手順について説明する。図9Aおよび図9Bは、車載装置50が実行する処理手順を示すフローチャートである。なお、図9Aは、第1モードにおける車載装置50の処理手順を示し、図9Bは、第2モードにおける車載装置50の処理手順を示す。
Next, a processing procedure executed by the vehicle-mounted
図9Aに示すように、車載装置50は、まず、音声入力を受け付けたか否かを判定し(ステップS201)、音声入力を受け付けた場合(ステップS201,Yes)、車載用音声辞書70に基づいて認識された単語の候補は1つか否かを判定する(ステップS202)。
As shown in FIG. 9A, the in-
続いて、車載装置50は、候補が1つでなかった場合(ステップS202,No)、2以上の単語の候補をユーザへ提示する(ステップS203)。続いて、車載装置50は、ユーザから複数の候補に対する選択操作を受け付けて(ステップS204)、選択操作に基づいて音素列に対して重み付けを行う(ステップS205)。
Subsequently, when the number of candidates is not one (Step S202, No), the in-
そして、車載装置50は、車載用音声辞書を更新して(ステップS206)、選択操作に基づくコマンドを出力して(ステップS207)、処理を終了する。また、車載装置50は、ステップS202の処理にて、単語の候補が1つであった場合(ステップS202,Yes)、ステップS207の処理へ移行する。また、車載装置50は、音声入力を受け付けていない場合(ステップS201,No)、処理を終了する。
Then, the vehicle-mounted
次に、図9Bを用いて第2モードにおける車載装置50の処理手順について説明する。図9Bに示すように、車載装置50は、音声入力を受け付けたか否かを判定し(ステップS211)、音声入力を受け付けた場合(ステップS211,Yes)、特定用情報71に基づいて訛りを特定できたか否かを判定する(ステップS212)。
Next, a processing procedure of the vehicle-mounted
車載装置50は、訛りを特定できた場合(ステップS212,Yes)、かかる訛りに基づいて音素列に対して重み付けを行い(ステップS213)、車載用音声辞書を更新して(ステップS214)、処理を終了する。
When the accent is specified (step S212, Yes), the in-
また、車載装置50は、音声入力を受け付けていない場合(ステップS211,No)、訛りを特定できなかった場合(ステップS212,No)、そのまま処理を終了することとなる。
If the in-
上述したように、実施形態に係る辞書生成装置1は、受付部30と、生成部31と、更新部33とを備える。受付部30は、標準発音と異なる発音による単語の発話音声を受け付ける。生成部31は、受付部30によって受付らえた発話音声に基づく音素列を生成する。
As described above, the
更新部33は、生成部31によって生成された音素列を音声辞書41へ追加することで、当該音声辞書41を更新する。したがって、実施形態に係る辞書生成装置1によれば、音声認識の認識率を向上させることができる。
The updating
ところで、例えば、車内においては、複数のユーザが搭乗する場合もある。このため、車載装置50は、ユーザ毎に乗車位置を特定することで、上記の重み付けをユーザ毎に行うことも可能である。
By the way, for example, in a car, a plurality of users may board. For this reason, the in-
図10は、マイクの搭載例を示す図である。図10に示すように、車両Cには、複数のマイクM1〜M4が搭載され、各マイクM1〜M4は、車載装置50に接続される。
FIG. 10 is a diagram illustrating an example of mounting a microphone. As shown in FIG. 10, a plurality of microphones M1 to M4 are mounted on the vehicle C, and each of the microphones M1 to M4 is connected to the vehicle-mounted
マイクM1は、運転席の前方に設けられ、運転者の音声を検出する。マイクM2は、助手席の前方に設けられ、助手席に乗車したユーザの音声を検出する。また、マイクM3およびマイクM4は、それぞれ後部座席の側壁に設けられ、後部座席に乗車したユーザの音声をそれぞれ検知する。 The microphone M1 is provided in front of the driver's seat and detects a driver's voice. The microphone M2 is provided in front of the passenger seat and detects a voice of a user who gets on the passenger seat. The microphones M3 and M4 are provided on the side wall of the rear seat, respectively, and detect the voice of the user who gets on the rear seat.
車載装置50は、各マイクM1〜M4において検知結果に基づき、発話者を特定することが可能である。すなわち、運転者が発話した場合、マイクM1から入力される音声が他のマイクM2〜M4から入力される音声よりも相対的に大きくなる。
The in-
したがって、車載装置50は、この場合に、発話者が運転者であることを認識することができる。この場合、車載装置50は、発話者毎に訛りを特定し、車載用音声辞書70の音素列について重み付けを行うことが可能である。
Therefore, in this case, the vehicle-mounted
すなわち、かかる場合に、車載用音声辞書70は、マイクM1〜M4のそれぞれに対して、重み付けが行われることとなる。そして、各ユーザがそれぞれ音声入力を行う場合に、車載装置50は、各マイクM1〜M4に対してチューニングされた車載用音声辞書70を用いることで、音声認識率を向上させることが可能となる。
That is, in such a case, the vehicle-mounted
なお、ここでは、車載装置50が、各マイクM1〜M4の音量に基づき、発話者を特定する場合について説明したが、これに限定されるものではない。例えば、車内を撮像するカメラの撮像画像において、各ユーザの口元を解析することで、発話者を特定することにしてもよい。
Here, the case where the in-
また、上述した実施形態では、音声認識装置の一例として車載装置50を例に挙げて説明したが、これに限定されるものではない。すなわち、音声認識装置は、スマートフォン、タブレット端末、パーソナルコンピュータ、家電機器等、音声認識を行う各種機器に適用することができる。
Further, in the above-described embodiment, the in-
また、上述した実施形態では、音声辞書41を音声認識時に用いる場合について説明したが、これに限定されるものではない。すなわち、音声辞書41に登録された音素列をテキスト読み上げに適用することも可能である。この場合、ユーザに応じて、認識しやすい訛りでテキスト読み上げを行うことが可能となる。
In the above-described embodiment, the case where the
さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。 Further effects and modifications can be easily derived by those skilled in the art. Thus, the broader aspects of the present invention are not limited to the specific details and representative embodiments shown and described above. Accordingly, various modifications may be made without departing from the spirit or scope of the general inventive concept as defined by the appended claims and equivalents thereof.
1 辞書生成装置
30 受付部
31 生成部
32 調整部
33 更新部
34 配信部
41 音声辞書
43 規則性情報
50 車載装置
60 取得部
61 認識部
62 重み付け部
63 実行部
70 車載用音声辞書
71 特定用情報
72 コマンド情報
S 音声認識システム
Claims (7)
前記受付部によって受け付けられた前記発話音声に基づく音素列を生成する生成部と、
前記生成部によって生成された前記音素列を音声辞書へ追加することで、当該音声辞書を更新する更新部と
を備えることを特徴とする辞書生成装置。 A receiving unit for receiving a speech sound of a word with a pronunciation different from the standard pronunciation,
A generation unit that generates a phoneme sequence based on the uttered voice received by the reception unit,
An updating unit that updates the voice dictionary by adding the phoneme string generated by the generating unit to the voice dictionary.
前記辞書生成装置によって前記音声辞書に基づいて音声認識を行う音声認識装置と
を含むことを特徴とする音声認識システム。 A speech recognition system comprising: the dictionary generation device according to claim 1; and a speech recognition device that performs speech recognition by the dictionary generation device based on the speech dictionary.
外部装置に登録された単語に対応する前記音素列を取得する取得部
を備えることを特徴とする請求項2に記載の音声認識システム。 The voice recognition device,
The speech recognition system according to claim 2, further comprising: an acquisition unit configured to acquire the phoneme string corresponding to a word registered in an external device.
前記異なる発音毎の前記音素列の規則性を示す規則情報に基づいて前記音声辞書に登録された前記音素列毎に重み付けする重み付け部
を備えることを特徴とする請求項2または3に記載の音声認識システム。 The voice recognition device,
The voice according to claim 2, further comprising a weighting unit configured to weight each of the phoneme strings registered in the speech dictionary based on rule information indicating regularity of the phoneme strings for each of the different pronunciations. Recognition system.
音声入力に基づき、前記音声辞書に登録された単語を認識する認識部
をさらに備え、
前記重み付け部は、
前記認識部によって複数の単語が抽出された場合に、当該複数の単語をユーザへ提示し、前記ユーザによる当該複数の単語に対する選択操作に基づいて重み付けを行うこと
を特徴とする請求項4に記載の音声認識システム。 The voice recognition device,
A recognition unit configured to recognize a word registered in the voice dictionary based on a voice input;
The weighting unit,
The method according to claim 4, wherein when a plurality of words are extracted by the recognition unit, the plurality of words are presented to a user, and weighting is performed based on a selection operation performed on the plurality of words by the user. Voice recognition system.
ユーザの会話音声に基づき、ユーザに適用する前記規則性を選択し、選択した規則性について重みを重くすること
を特徴とする請求項4に記載の音声認識システム。 The weighting unit,
The speech recognition system according to claim 4, wherein the regularity to be applied to the user is selected based on a conversation voice of the user, and the weight of the selected regularity is increased.
前記受付工程によって受け付けられた前記発話音声に基づく音素列を生成する生成工程と、
前記生成工程によって生成された前記音素列を音声辞書へ追加することで、当該音声辞書を更新する更新工程と
を含むことを特徴とする辞書生成方法。 A receiving step of receiving an uttered voice of a word with a pronunciation different from the standard pronunciation,
A generation step of generating a phoneme sequence based on the uttered voice received by the reception step,
Updating the voice dictionary by adding the phoneme string generated in the generating step to the voice dictionary.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018162731A JP2020034832A (en) | 2018-08-31 | 2018-08-31 | Dictionary generation device, voice recognition system, and dictionary generation method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018162731A JP2020034832A (en) | 2018-08-31 | 2018-08-31 | Dictionary generation device, voice recognition system, and dictionary generation method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2020034832A true JP2020034832A (en) | 2020-03-05 |
Family
ID=69667996
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018162731A Pending JP2020034832A (en) | 2018-08-31 | 2018-08-31 | Dictionary generation device, voice recognition system, and dictionary generation method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2020034832A (en) |
-
2018
- 2018-08-31 JP JP2018162731A patent/JP2020034832A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11450313B2 (en) | Determining phonetic relationships | |
| CN107039038B (en) | Learning personalized entity pronunciation | |
| AU2016216737B2 (en) | Voice Authentication and Speech Recognition System | |
| EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
| US9570066B2 (en) | Sender-responsive text-to-speech processing | |
| US7949523B2 (en) | Apparatus, method, and computer program product for processing voice in speech | |
| US7826945B2 (en) | Automobile speech-recognition interface | |
| US7689417B2 (en) | Method, system and apparatus for improved voice recognition | |
| US10163436B1 (en) | Training a speech processing system using spoken utterances | |
| KR102850999B1 (en) | Instant learning from text-to-speech during conversations | |
| US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
| JP2002511154A (en) | Extensible speech recognition system that provides audio feedback to the user | |
| JPH10507536A (en) | Language recognition | |
| KR20150105075A (en) | Apparatus and method for automatic interpretation | |
| US7181397B2 (en) | Speech dialog method and system | |
| JP2020034832A (en) | Dictionary generation device, voice recognition system, and dictionary generation method | |
| KR20190030970A (en) | Apparatus for converting voice to text | |
| CA2597826C (en) | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance | |
| KR20220116660A (en) | Tumbler device with artificial intelligence speaker function | |
| JP2006259641A (en) | Speech recognition apparatus and speech recognition program | |
| KR101830210B1 (en) | Method, apparatus and computer-readable recording medium for improving a set of at least one semantic unit | |
| KR20190030975A (en) | System for converting voice to text | |
| KR20200015100A (en) | Apparatus and method for large vocabulary continuous speech recognition | |
| WO2016157352A1 (en) | Speech recognition device, speech recognition system, and program | |
| HK1104625A (en) | Automobile interface |