JP2015079035A - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP2015079035A JP2015079035A JP2013214411A JP2013214411A JP2015079035A JP 2015079035 A JP2015079035 A JP 2015079035A JP 2013214411 A JP2013214411 A JP 2013214411A JP 2013214411 A JP2013214411 A JP 2013214411A JP 2015079035 A JP2015079035 A JP 2015079035A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- language model
- unit
- gram
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】 混合言語モデルおよび混合言語モデルのNグラムの学習に用いられた例文に関する情報を記憶する第2言語モデル記憶部107と、混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部106と、他の音声認識部による入力された音声信号の第1の音声認識結果が入力され、この第1の音声認識結果の単語系列と混合言語モデルのNグラムの学習に用いられた例文に関する情報とに基づいて前記第2言語モデル記憶部107に記憶された前記混合言語モデルにNグラムを追加するNグラム追加部105と、を備える。
【選択図】 図1
Description
しかしながら、音声認識結果には誤認識が含まれる可能性があり、誤認識をいかに低減するかが音声認識技術の大きな課題である。現在の音声認識技術では音声の特徴と音素を対応付ける音響モデルと、連鎖する単語間の関係を表現した言語モデルが一般的に用いられている。
この発明に係る音声認識方法によれば、第1の音声認識手順による入力された音声の認識結果の単語系列に基づいて混合言語モデルである第2言語モデルを更新する手順を実施することにより、第2言語モデルを入力音声に適応させて入力音声に現れた単語連鎖のカバー率を向上し、音声認識性能を向上することができる。
また、音響モデルは例えばJuliusディクテーション実行キットに含まれているhmmdefs_ptm_gid.binhmmを、言語モデルの更新処理におけるNグラム確率を求めるツール(以下言語モデル作成ツールと称す)は例えば教科書1に記載されたCMU-Cambridge統計的言語モデルツールキットを用いることができる。
なお、以下に示す実施の形態ではNグラムの次数が3(N=3)の場合について説明する。ただし、この発明はNグラムの次数を3に限定するものではなく、2グラムあるいは4以上の多次数のNグラムであっても良い。
図1はこの発明の実施の形態1に係る音声認識装置の構成を示す図である。実施の形態1の音声認識装置は、音声入力部101、第1音声認識部102、第1言語モデル記憶部103、第1音響モデル記憶部104、Nグラム追加部105、第2音声認識部106、第2言語モデル(混合言語モデル)記憶部107、第2音響モデル記憶部108で構成される。
第1音声認識部102では入力されたデジタル音声信号について、第1音響モデル記憶部104に記憶された第1音響モデルと第1言語モデル記憶部103に記憶された第1言語モデルを参照して、音声認識を行う。第1音声認識部102は音声認識結果の単語系列(認識文)をNグラム追加部105に出力する。Nグラム追加部105は、入力された音声認識結果の単語系列からNグラムを抽出してそのNグラム確率を計算して、第2言語モデル記憶部107に記憶される第2言語モデルにNグラムを追加する。
まず音声入力部101がユーザの発した音声をアナログの電気信号に変換し(ST201)、そしてアナログの電気信号である入力音声をADコンバーターにより、デジタル情報に変換する(ST202)。
また、例えば\3-gramsの2行目の「-0.3010 <s> カラーコード:カラーコード:カラーコード:507 </s>」は、「<s> カラーコード:カラーコード:カラーコード:507 </s>」がNグラム(「文頭、カラーコード、文末」という3グラム)であり、「-0.3010」がNグラム確率である。なお、次数が3のNグラムの言語モデルにおいて、3グラムを用いてより高次のNグラムの確率を推定することはないのでバックオフ係数は存在しない。
P(wd3|wd1,wd2) = if(trigram exists) p_3(wd1,wd2,wd3)
else if(bigram wd1,wd2 exists) bo_wt_2(wd1,wd2) * P(wd3|wd2)
else P(wd3|wd2)
この擬似コードにおいて、wd1、wd2、wd3は単語を示している。P(wd3|wd1,wd2)は前述の通り、wd1、wd2の後にwd3が生成される確率(単語wd3の確率)である。P(wd3|wd2)も同様である。また、p_3(wd1,wd2,wd3)は単語列wd1,wd2,wd3の3グラムの確率である。bo_wt_2(wd1,wd2)は単語列wd1,wd2の2グラムのバックオフ係数である。
つまり、単語列wd1,wd2,wd3の3グラムが言語モデルに存在する場合はその3グラムの確率が単語wd3の確率となる。単語列wd1,wd2,wd3の3グラムが存在せず、単語列wd1,wd2の2グラムが存在する場合は、単語列wd1,wd2の2グラムのバックオフ係数とP(wd3|wd2)の積が単語wd3の確率となる。単語列wd1,wd2の2グラムも存在しない場合にはP(wd3|wd2)が単語wd3の確率となる。
P(wd2|wd1) = if(bigram exists) p_2(wd1,wd2)
else bo_wt_1(wd1)*p_1(wd2)
ここで、p_2(wd1,wd2)は単語列wd1,wd2の2グラムの確率であり、p_1(wd2)は単語列wd2の1グラムの確率である。また、bo_wt_1(wd1)は単語列wd1の1グラムのバックオフ係数である。
なお、上記の擬似コードでは積を求めるように定義されているが、対数確率で計算をする場合には積ではなく和を計算する。
尤度計算で用いられる単語の確率は最も次数の高いNグラムの値を採用する。例えば文頭の確率であるP(<s> |)の場合、前接の単語が無いので次数は1グラムであり、図7の\1-gramsの「<s>」の値-0.6368を採用する。また文頭に続くシューズケースの確率であるP(シューズケース | <s>)の場合は、2グラムであるので\2-gramsの「<s> シューズケース:シューズケース:シューズケース:507」の値-0.5441を対数確率として採用する。
具体的な推定値の計算は、bo_wt_2(<s>,シューズケース:シューズケース:シューズケース:507)+bo_wt_1(シューズケース:シューズケース:シューズケース:507)+p_1(カラーコード:カラーコード:カラーコード:507)=(0.1761)+(-0.4046)+(-1.2109)=-1.4394となる。以上により推定値-1.4394を対数確率として採用する。同様にしてすべての単語の対数確率を取得し、この各単語の対数確率を用いて上述の数式3により正解の単語系列である「<s>シューズケースカラーコードお願いします</s>」の言語モデルに基づく尤度を計算すると、図8の表に示すように(-0.6368)+(-0.5441)+(-1.4394)+(-1.6155)+(-0.1761)+(-0.301)+(-0.301)=-5.0139となる。
しかし、誤りを含む単語系列「<s>シューズケースから行動お願いします</s>」の音響尤度は-9133.199219であり、また言語尤度は図9に示す表の通り(-0.6368)+(-0.5441)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)=-3.2879であるので、総合尤度は-9133.199219+(-3.2879×8.0)+(-2.0×9)=-9177.5となる。従って誤りを含む単語系列の総合尤度よりも正解の単語系列の総合尤度の方が高いことから、この誤りを含む単語系列は棄却され、正解の単語系列を音声認識結果として得ることができる。
実施の形態1は、1つの音声認識結果を混合言語モデルに追加するようにしたものであったが、次に2つの音声認識器から得た2つの音声認識結果を混合言語モデルに追加する実施の形態を示す。
図15はこの発明の実施の形態2に係る音声認識装置の構成図である。実施の形態2の音声認識装置は、音声入力部101、第1音声認識部102、第1言語モデル記憶部103、第1音響モデル記憶部104、Nグラム追加部105b、第2音声認識部106、第2言語モデル記憶部107b、第2音響モデル記憶部108、第3音声認識部112、第3言語モデル記憶部113、第3音響モデル記憶部114で構成される。実施の形態1と同じ符号を付した部分は実施の形態1と同様であるので説明を省略する。
実施の形態2では、第2言語モデルへのNグラムの追加時にそれぞれの音声認識部が出力する認識結果の単語列を同じ重みで混合して第2言語モデルを生成する構成であった。この実施の形態では、音声認識部毎に重み付け(混合重み)をし、混合重みを変化させた1個以上の第2言語モデルを生成して、すべての組み合わせのうち最尤の認識結果を出力するようにする。
なお、λの値はそれぞれの第2言語モデルに対応して予め定められているものとする。ここではλ=2/3、λ=1/2,λ=1/3の3種類とし、それぞれ図21に示す第2言語モデルA、第2言語モデルB、第2言語モデルCに対応するものとする。
λ=1/2の場合の学習例文は図17に示した学習例文と同様である。λ=2/3の場合は図22に示すように、第1音声認識部の認識結果の単語系列が第3音声認識部の認識結果の単語系列の2倍になるようにして学習例文を生成する。反対にλ=1/3の場合には図23に示すように、第3音声認識部の認識結果の単語系列が第3音声認識部の認識結果の単語系列の2倍になるようにして学習例文を生成する。このようにλ:1-λと同等の比になるように第1音声認識部の認識結果の単語系列と第3音声認識部の認識結果の単語系列を含む学習例文を生成してそれぞれに対応した第2言語モデルA、第2言語モデルB、第2言語モデルCを作成する。
このように第2言語モデルを作成することにより、第2言語モデルに追加するNグラムの確率にそのNグラムの元となった例文を出力した音声認識部に対応した重み付けをすることができる。
なお、実施の形態1において第1音声認識部の認識結果の単語系列を第2言語モデルに追加するときに重み付けをすることも可能である。
Claims (12)
- 混合言語モデルおよび前記混合言語モデルのNグラムの学習に用いられた例文に関する情報を記憶する第2言語モデル記憶部と、
前記混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部と、
他の音声認識部(以下、第1音声認識部と称す)による前記音声信号の第1の音声認識結果が入力され、この第1の音声認識結果の単語系列と前記例文に関する情報とに基づいて前記第2言語モデル記憶部に記憶された前記混合言語モデルにNグラムを追加するNグラム追加部と、
を備えたことを特徴とする音声認識装置。 - 前記Nグラム追加部は、前記第1および第2の音声認識部と異なる第3の音声認識部による前記音声信号の第3の音声認識結果が入力され、前記第1の音声認識結果の単語系列と前記第3の音声認識結果の単語系列に基づいて前記例文に関する情報を作成し、この作成した情報に基づいて前記第2言語モデル記憶部に記憶された前記混合言語モデルにNグラムを追加することを特徴とする請求項1に記載の音声認識装置。
- 第1言語モデルを記憶する第1言語モデル記憶部と、
前記第1言語モデルを用いて前記音声信号を認識し前記第1の音声認識結果を出力する前記第1音声認識部と、
を備えたことを特徴とする請求項1に記載の音声認識装置。 - 前記第2言語モデルは前記第1言語モデルと異なる例文に基づいてNグラムが学習された言語モデルであることを特徴とする請求項3に記載の音声認識装置。
- 第1言語モデルを記憶する第1言語モデル記憶部と、
前記第1言語モデルを用いて前記音声信号を認識し前記第1の音声認識結果を出力する前記第1音声認識部と、
第3言語モデルを記憶する第3言語モデル記憶部と、
前記第3言語モデルを用いて前記音声信号を認識し前記第3の音声認識結果を出力する前記第3音声認識部と、
を備えることを特徴とする請求項2に記載の音声認識装置。 - 前記Nグラム追加部は、前記例文に関する情報と前記第2音声認識部の前記第2の音声認識結果の単語系列に基づいて前記第2言語モデルにNグラムを追加することを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。
- 前記第1言語モデル記憶部と前記第2言語モデル記憶部が1つの言語モデル記憶部であり、前記第1言語モデルと前記第2言語モデルがこの言語モデル記憶部に記憶された一つの言語モデルであることを特徴とする請求項3に記載の音声認識装置。
- 前記Nグラム追加部は、更新もしくは作成した前記例文に関する情報に基づいて、前記混合言語モデルにNグラムを追加するとともに、前記混合言語モデルに記憶されたていたNグラムの確率を更新することを特徴とする請求項1から請求項7のいずれか一項に記載の音声認識装置。
- 前記Nグラム追加部は、前記第1音声認識結果もしくは前記第3音声認識結果にそれぞれ前記第1音声認識部もしくは前記第3音声認識部に対応した重みで重み付けをして、前記第2言語モデルに追加するNグラムの確率を算出することを特徴とする請求項1から請求項8のいずれか一項に記載の音声認識装置。
- 前記第2言語モデル記憶部は複数の前記第2言語モデルを記憶し、
前記Nグラム追加部は、前記複数の第2言語モデルのそれぞれに対応する前記第1音声認識結果に対する前記重みと前記第3音声認識結果に対する前記重みとの予め定められた組み合わせに基づいて前記重み付けをして、前記複数の第2言語モデルのそれぞれに追加するNグラムの確率を算出し、
前記第2音声認識部は、前記複数の第2言語モデルのそれぞれを参照して音声認識を行い、得られた音声認識結果のいずれかをその音声認識結果の尤度に基づいて選択して前記第2の音声認識結果とする、
ことを特徴とする請求項9に記載の音声認識装置。 - 第1音声認識部が第1言語モデルを参照して入力された音声の音声認識を行う第1の音声認識手順と、
第2音声認識部が混合言語モデルを参照して前記入力された音声の音声認識を行う第2の音声認識手順と、
Nグラム追加部が前記第1音声認識手順による音声認識結果の単語系列と前記混合言語モデルのNグラムの学習に用いられた例文に関する情報に基づいて、前記混合言語モデルにNグラムを追加するNグラム追加手順と、
を備えたことを特徴とする音声認識方法。 - 第3音声認識部が第3言語モデルを参照して前記入力された音声の音声認識を行う第3の音声認識手順と、を備え、
前記Nグラム追加手順は、前記第1の音声認識手順による音声認識結果の単語系列と前記第3の音声認識手順による音声認識結果の単語系列と基づいて前記例文に関する情報を作成し、作成した前記例文に関する情報に基づいて前記混合言語モデルにNグラムを追加することを特徴とする請求項11に記載の音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013214411A JP6277659B2 (ja) | 2013-10-15 | 2013-10-15 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013214411A JP6277659B2 (ja) | 2013-10-15 | 2013-10-15 | 音声認識装置および音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015079035A true JP2015079035A (ja) | 2015-04-23 |
| JP6277659B2 JP6277659B2 (ja) | 2018-02-14 |
Family
ID=53010514
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013214411A Active JP6277659B2 (ja) | 2013-10-15 | 2013-10-15 | 音声認識装置および音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6277659B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109273000A (zh) * | 2018-10-11 | 2019-01-25 | 河南工学院 | 一种语音识别方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002082690A (ja) * | 2000-09-05 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
| JP2002229585A (ja) * | 2001-01-31 | 2002-08-16 | Mitsubishi Electric Corp | 音声認識文章入力装置 |
| WO2010021368A1 (ja) * | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
| JP2011107314A (ja) * | 2009-11-16 | 2011-06-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法及び音声認識プログラム |
-
2013
- 2013-10-15 JP JP2013214411A patent/JP6277659B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002082690A (ja) * | 2000-09-05 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
| JP2002229585A (ja) * | 2001-01-31 | 2002-08-16 | Mitsubishi Electric Corp | 音声認識文章入力装置 |
| WO2010021368A1 (ja) * | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
| JP2011107314A (ja) * | 2009-11-16 | 2011-06-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法及び音声認識プログラム |
Non-Patent Citations (1)
| Title |
|---|
| 伊藤彰則 好田正紀: "対話音声認識のための事前タスク適応の検討", 電子情報通信学会技術研究報告 SP96−81, vol. 第96巻 第422号, JPN7017002864, 13 December 1996 (1996-12-13), JP, pages 25 - 32 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109273000A (zh) * | 2018-10-11 | 2019-01-25 | 河南工学院 | 一种语音识别方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6277659B2 (ja) | 2018-02-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
| KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
| CN107590135B (zh) | 自动翻译方法、设备和系统 | |
| US9697201B2 (en) | Adapting machine translation data using damaging channel model | |
| US11437025B2 (en) | Cross-lingual speech recognition | |
| US9594744B2 (en) | Speech transcription including written text | |
| CN109979432B (zh) | 一种方言翻译方法及装置 | |
| CN111292740B (zh) | 语音辨识系统及其方法 | |
| CN107705787A (zh) | 一种语音识别方法及装置 | |
| CN118865957A (zh) | 用于设备上语音识别模型的训练的文本片段的设备上语音合成 | |
| JP2010540976A (ja) | 自動音声認識の方法および装置 | |
| WO2017061027A1 (ja) | 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム | |
| US10482876B2 (en) | Hierarchical speech recognition decoder | |
| CN112651247B (zh) | 对话系统、对话处理方法、翻译装置和翻译方法 | |
| CN112669845A (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
| JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
| CN114863945A (zh) | 基于文本的语音变声方法、装置、电子设备及存储介质 | |
| CN117378005A (zh) | 用于自动语音识别的多语言重新评分模型 | |
| US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
| CN117059076A (zh) | 方言语音识别方法、装置、设备及存储介质 | |
| JP6277659B2 (ja) | 音声認識装置および音声認識方法 | |
| Kurian et al. | Connected digit speech recognition system for Malayalam language | |
| Nguyen et al. | Development of a Vietnamese large vocabulary continuous speech recognition system under noisy conditions | |
| CN115114933A (zh) | 用于文本处理的方法、装置、设备和存储介质 | |
| JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160930 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170825 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170912 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171107 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171219 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180101 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6277659 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |