[go: up one dir, main page]

JP2017090660A - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム - Google Patents

音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム Download PDF

Info

Publication number
JP2017090660A
JP2017090660A JP2015220304A JP2015220304A JP2017090660A JP 2017090660 A JP2017090660 A JP 2017090660A JP 2015220304 A JP2015220304 A JP 2015220304A JP 2015220304 A JP2015220304 A JP 2015220304A JP 2017090660 A JP2017090660 A JP 2017090660A
Authority
JP
Japan
Prior art keywords
learning
data
acoustic model
native
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015220304A
Other languages
English (en)
Other versions
JP6546070B2 (ja
Inventor
祐太 河内
Yuta Kawachi
祐太 河内
浩和 政瀧
Hirokazu Masataki
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015220304A priority Critical patent/JP6546070B2/ja
Publication of JP2017090660A publication Critical patent/JP2017090660A/ja
Application granted granted Critical
Publication of JP6546070B2 publication Critical patent/JP6546070B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】非ネイティブ発話を高精度に認識することができる音響モデルを学習する。
【解決手段】学習データ記憶部14は、学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データを記憶する。音響モデル学習部15は、学習データを用いて音響モデルを学習し、音響モデル記憶部16に記憶する。
【選択図】図5

Description

この発明は、音声認識技術に関し、特に、非ネイティブ発話の認識に用いる音響モデルを学習する技術に関する。
非ネイティブ発話に対する音声認識は、ネイティブ発話に対する音声認識と比較して、読み誤りや母音の挿入等、話者の言語経験や母語等に依存した、ネイティブ発話には見られない音響的性質が存在する(例えば、非特許文献1参照)。これら非ネイティブ発話に特有の性質が、入力音声の音素を判別する音響スコア計算を行う判別器(音響モデル)の判別性能に悪影響を与えるため、非ネイティブ発話音声認識はネイティブ発話音声認識と比較して精度を向上することが困難なタスクであった。
非ネイティブ発話音声認識の認識精度を向上する技術として、非ネイティブ向けGMM−HMM音声認識がある(例えば、非特許文献2参照)。非ネイティブ向けGMM−HMM音声認識では、非ネイティブ音声データセットに対して、ネイティブ教師の人手により発音の正しさを評定したラベルを付加し、この発音評定値に基づいて学習データを分割して、発音レベル別の複数の音響モデルを学習する。これにより、言語経験に由来する発音の違いにそれぞれ特化することが可能となり、音声認識精度を改善している。
また、音声認識装置の音響モデル全般で高い認識率を実現している多層ニューラルネットワーク音響モデルを用いて非ネイティブ発話を音声認識する非ネイティブ向けDNN−HMM音声認識がある(例えば、非特許文献3参照)。
河原達也, 峯松信明, "音声情報処理技術を用いた外国語学習支援", 電子情報通信学会論文誌D, vol. J96-D, no. 7, pp. 1549-1565, 2013年 安斎拓也, 咸聖俊,伊藤彰則, "日本人英語学習者の発音レベルを考慮した音響モデルに関する検討", 日本音響学会講演論文集, 2011年 木菱裕志, 中川聖一, "DNN-HMMによる日本人英語音声の認識", 日本音響学会講演論文集, 2013年
ネイティブ教師の人手による発音評定値を利用する非ネイティブ向け音声認識では、音響モデルの学習時に用いる音声データに対して人手で発音評定値を設定する必要があった。発音評定値を利用する方法には、発音評定値が主観で決まるため必ずしも信用できず、すべての発話に対し同じ基準で評価がされているとは限らないという問題と、ネイティブ教師の人手を使うことによるコストの問題が存在する。また、GMM−HMM音声認識と異なり、音響モデルに多層ニューラルネットワークを用いるDNN−HMM音声認識においては、MLLR(Maximum Likelihood Linear Regression)のような有効な適応法がなく、音響モデル学習をやり直す必要がある。このとき、発音評定値に応じて学習データを分割すると、学習データの減少に起因する認識率低下を回避できない。そのため、DNN−HMM音声認識においては、GMM−HMM音声認識と同様に発音評定値を利用するアプローチでは認識率を向上することができなった。
この発明の目的は、このような点に鑑みて、DNN−HMM音声認識であっても適用可能な、非ネイティブ発話を高精度に認識することができる音響モデルを学習する技術を提供することである。
上記の課題を解決するために、この発明の第一の態様の音響モデル学習装置は、学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データを記憶する学習データ記憶部と、学習データを用いて音響モデルを学習する音響モデル学習部と、を含む。
この発明の第二の態様の音声認識装置は、音響モデル学習装置により生成した音響モデルを記憶する音響モデル記憶部と、入力音声データから話者の非ネイティブ性を表す非ネイティブ特徴量を抽出する非ネイティブ性抽出部と、入力音声データから音響特徴量を抽出する音響特徴量抽出部と、非ネイティブ特徴量と音響特徴量とを結合した認識用入力特徴量を音響モデルへ入力して入力音声データの音声認識結果を得る音声認識部と、を含む。
この発明の音響モデル学習技術は、言語的な専門知識を持ったネイティブ教師の人手を使うことなく、客観性の高い非ネイティブ性を表現する非ネイティブ特徴量を抽出し、それを音響特徴量と結合した学習データから音響モデルを学習する。これにより、従来は発音評定値を利用した音声認識率の向上ができなかったDNN−HMM音声認識においても、非ネイティブ発話を高精度に認識することができる。
図1は、学習データ作成装置の機能構成を例示する図である。 図2は、学習データ作成方法の処理手続きを例示する図である。 図3は、学習用発話データの具体例を示す図である。 図4は、学習データの具体例を示す図である。 図5は、音響モデル学習装置の機能構成を例示する図である。 図6は、音響モデル学習方法の処理手続きを例示する図である。 図7は、音声認識装置の機能構成を例示する図である。 図8は、音声認識方法の処理手続きを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
この発明の実施形態は以下の3つの装置から構成される音声認識システムである。第一の装置は、学習用音声データから抽出した非ネイティブ特徴量を音響特徴量へ付加して音響モデル学習に用いる学習データを生成する学習データ作成装置である。第二の装置は、その学習データを用いて音響モデルの学習を行う音響モデル学習装置である。第三の装置は、認識対象の入力音声データから抽出した非ネイティブ特徴量を音響特徴量へ付加し、学習済みの音響モデルを用いて音声認識を行う音声認識装置である。
これらの装置は必ずしも3台で構成されるものではなく、各構成部を配置する装置を変更することで任意に装置構成を変更することができる。例えば、学習データ作成装置の各部を音響モデル学習装置が備えるように構成し、学習データの作成から音響モデルの学習まで1台で実行する音響モデル学習装置とすることができる。また、例えば、学習データ作成装置の各部と音響モデル学習装置の各部を音声認識装置が備えるように構成し、学習データの作成から音響認識まで1台で実行する音声認識装置とすることができる。
実施形態の学習データ作成装置、音響モデル学習装置、および音声認識装置の各装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置が備える各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。各装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
実施形態の学習データ作成装置は、図1に示すように、学習用音声記憶部10、非ネイティブ性抽出部11、音響特徴量抽出部12、学習データ生成部13、および学習データ記憶部14を含む。学習用音声記憶部10および学習データ記憶部14は必ずしも学習データ作成装置自身が備える必要はなく、外部の他の装置が備える学習用音声記憶部10および学習データ記憶部14をネットワーク等の通信手段を介して読み書き可能なように構成することも可能である。この音響モデル学習装置が図2に示す各ステップの処理を行うことにより実施形態の学習データ作成方法が実現される。
学習用音声記憶部10には、音響モデルの学習に用いる学習用発話データが記憶されている。学習用発話データは、図3に示すように、各データを一意に特定する「識別番号」と、非ネイティブ話者の発話を録音した音声ファイルへのパスを表す「音声データ」と、音声データの発話内容を書き起こした「書き起こしデータ」とが関連付けて記憶されている。
ステップS11において、非ネイティブ性抽出部11は、学習用発話データの音声データから話者の非ネイティブ性を表現する非ネイティブ特徴量を抽出する。抽出された非ネイティブ特徴量は学習用発話データの識別番号と組にして学習データ生成部13へ入力される。
非ネイティブ特徴量は、非ネイティブ話者の言語経験や発音の正しさ、母語種類、出身地方など、非ネイティブ話者に特有の情報を直接または間接的に反映した、連続または離散の、値またはベクトルとして表現される量である。非ネイティブ性抽出部としては、例えばネイティブ話者の発話音声と非ネイティブ話者の発話音声とを区別したり評価したりするように事前に学習された判別器、ニューラルネットワーク、または機械学習装置などを用いることとしてもよい。このとき、判別や回帰、自己符号化を行う多層ニューラルネットワークやSVM(Support Vector Machine)等の機械学習装置に対して発話を入力した際の中間処理結果や出力を非ネイティブ特徴量とすればよい。中間処理結果としては、例えば多層ニューラルネットワークでは、最終出力層以外の中間層の出力値を用いてもよい。判別器等の学習には、ネイティブ発話や非ネイティブ発話の音声データ、非ネイティブ話者に関する情報、発話の単語、音素等の情報を用いることとしてもよい。学習アルゴリズムは、教師あり学習、教師なし学習のいずれでもよい。
非ネイティブ特徴量の具体例としては、学習済の言語判別モデルを非ネイティブ性抽出部として用いて、言語判別結果のスコアを非ネイティブ特徴量として出力することとしてもよい。言語判別結果のスコアとしては、例えば、各言語らしさを示すスコア値である。言語判別結果のスコアの他の例は、第1の言語に近いほど数値が0、第2の言語に近いほど数値が1に近くなるような、0〜1の評価値である。また、非ネイティブ性抽出部がネイティブ向け音響モデル(すなわち、ネイティブ発話を学習した音響モデル)を有し、入力された音声データをこの音響モデルで評価した結果のスコアを非ネイティブ特徴量としてもよい。他の例としては、非ネイティブ性抽出部がネイティブ向け音声認識(すなわち、ネイティブ発話を認識対象とする音声認識)用のモデルを有し、入力された音声データをこのモデルで音声認識したときの認識信頼度を非ネイティブ特徴量としてもよい。
ステップS12において、音響特徴量抽出部12は、学習用発話データの音声データから音響特徴量を抽出する。音響特徴量としては、例えばメル周波数ケプストラム係数やそれに対して例えば正規化等の変換をしたもの、時間的に前後する複数個の特徴量を結合したもの等、音声認識における音響モデル学習で利用される音響特徴量や、その変換結果であればよい。抽出された音響特徴量は学習用発話データの識別番号と組にして学習データ生成部13へ入力される。
ステップS13において、学習データ生成部13は、非ネイティブ性抽出部11が出力する非ネイティブ特徴量と音響特徴量抽出部12が出力する音響特徴量とを、各特徴量と組にした識別番号が一致するように結合し、学習用入力特徴量を生成する。結合とは、一方の特徴量の後に他の特徴量をつなげる処理である。つなげる処理にあたって、2つの特徴量の前後関係は予め定めておくこととする。例えば、音響特徴量“xxx”と非ネイティブ特徴量“yyy”が抽出されたとき、“xxx”と“yyy”とをそのまま順に繋げた“xxxyyy”が学習用入力特徴量となる。その後、学習データ生成部13は、図4に示すように、各データを一意に特定する「識別番号」と、生成した「学習用入力特徴量」と、学習用発話データの「書き起こしデータ」とを関連付けて学習データを生成する。生成された学習データは学習データ記憶部14へ記憶される。
上述の実施形態では、2つの特徴量を結合して音響モデル学習を行う学習データとする例を説明したが、音響特徴量が学習データに含まれるという条件さえ守られれば、2つの特徴量から音響モデル学習を行う学習データを求める処理はこれに限定されない。例えば、2つの特徴量を所定の関数に入力して得られる値を音響特徴量の後(あるいは、前)に追加することとしてもよい。所定の関数としては、例えば正規化や、時間的に前後する複数個の特徴量の結合を実施してもよいし、事前に学習された別の機械学習装置に入力し、その中間処理結果や出力を関数の出力として用いてもよい。また、音響特徴量と非ネイティブ特徴量とを結合した後に、正規化や複数フレームの結合等の処理を行ったものを、音響モデル学習を行う学習データとしてもよい。
上述の実施形態では、各特徴量や音声データ、書き起こしデータを対応付けるために識別番号を付与する例を記載したが、識別番号と各データとを対応づけるのではなく、非ネイティブ性抽出部と音響特徴量抽出部とに同じ音声データを入力し、処理結果の各特徴量に対して、音声データに対応する書き起こしデータを関連付けることにより、識別番号の情報を用いることなく学習データの生成を行うように変形することも可能である。
上述の実施形態では、書き起こしデータを音響モデル学習時に用いる教師データに相当するものとして直接取得しているが、事前に、“音素に相当する記号”等の異なるシンボル形式に変換を実施してもよい。例えば、ひらがな、カタカナ、音素、モノフォン、トライフォン、クラスタリング済みトライフォンや状態番号等、読みや音を表現する記号や、それらに相当する番号への変換を行ってよい。その際、記号の変換を人間が行ってもよいし、別の音声認識デコーダや音響モデル等を用いて変換してもよい。例えば、DNN音声認識分野で従来から用いられている強制アライメント処理を用いても変換してもよい。
実施形態の音響モデル学習装置は、図5に示すように、学習データ記憶部14、音響モデル学習部15、および音響モデル記憶部16を含む。学習データ記憶部14および音響モデル記憶部16は必ずしも音響モデル学習装置自身が備える必要はなく、他の装置が備える学習データ記憶部14および音響モデル記憶部16をネットワーク等の通信手段を介して読み書き可能なように構成することも可能である。この音響モデル学習装置が図6に示す各ステップの処理を行うことにより実施形態の音響モデル学習方法が実現される。
学習データ記憶部14には、学習データ作成装置により生成された学習データが記憶されている。上述のように、学習データは、各データを一意に特定する識別番号と、学習用発話データの音声データから抽出した非ネイティブ特徴量と音響特徴量とを結合した学習用入力特徴量と、音声データの発話内容を書き起こした書き起こしデータとが関連付けられたものである。
ステップS15において、音響モデル学習部15は、学習データ記憶部14に記憶された学習データから学習用入力特徴量と書き起こしデータとを対応付けて取得し、その学習データを用いて音声認識に用いる音響モデルパラメータを学習する。音響モデルパラメータで表現されるモデルとしては、例えば、波形を音素に相当する記号に変換するモデルがある。“音素に相当する記号”としては、例えば、事前に異なる音響モデルを作成し、その音響モデルを用いたクラスタリング済みのトライフォンや、それを表現する状態番号等を用いることができる。
実施形態の音声認識装置は、図7に示すように、音響モデル記憶部16、言語モデル記憶部20、非ネイティブ性抽出部11、音響特徴量抽出部12、特徴量結合部21、および音声認識部22を含む。この音声認識装置が図8に示す各ステップの処理を行うことにより実施形態の音声認識方法が実現される。
音響モデル記憶部16には、音響モデル学習装置により生成された音響モデルパラメータを備える音響モデルが記憶されている。言語モデル記憶部20には、音声認識に用いる言語モデルが記憶されている。
ステップS11において、非ネイティブ性抽出部11は、入力音声データから話者の非ネイティブ性を表現する非ネイティブ特徴量を抽出する。入力音声データは、ネイティブ話者または非ネイティブ話者による発話を録音した、音声認識対象の音声データである。ここで抽出する非ネイティブ特徴量は、学習データ作成装置が抽出した非ネイティブ特徴量と同じものである。抽出された非ネイティブ特徴量は特徴量結合部21へ入力される。
ステップS12において、音響特徴量抽出部12は、入力音声データから音響特徴量を抽出する。ここで抽出する音響特徴量は、学習データ作成装置が抽出した音響特徴量と同じものである。抽出された音響特徴量は特徴量結合部21へ入力される。
ステップS21において、特徴量結合部21は、非ネイティブ性抽出部11が出力する非ネイティブ特徴量と音響特徴量抽出部12が出力する音響特徴量とを、学習データ作成装置が各特徴量を結合したときと同じ順序で結合し、認識用入力特徴量を生成する。生成された認識用入力特徴量は音声認識部22へ入力される。
ステップS22において、音声認識部22は、音響モデル記憶部16に記憶された音響モデルを用いて、入力された認識用入力特徴量から“音素に相当する記号”の時系列データを出力する。音声認識部が“音素に相当する記号”の時系列データから音声認識結果(例えば、テキスト)を出力する言語モデルを有する場合、音響モデルの出力が言語モデルに入力され、音声認識結果が出力される。
なお、非ネイティブ特徴量として、非ネイティブ性抽出部の出力の代わりに、非ネイティブ性抽出部の学習に使った正解ラベルを直接使用してもよい。正解ラベルは、例えば、非ネイティブ話者の言語経験や発音の正しさ、母語種類、出身地方など、非ネイティブ話者に関する情報とすればよい。音声認識時には入力音声データから推定した非ネイティブ特徴量を用いることとすればよい。
上述の実施形態では、学習データ作成装置および音声認識装置が非ネイティブ性抽出部を備える例を記載したが、学習データ作成装置および音声認識装置とは異なる外部の装置として非ネイティブ特徴量抽出装置が存在し、非ネイティブ特徴量抽出装置が識別番号と音声データとを学習用発話データから取り出して、識別番号と非ネイティブ特徴量を学習データ作成装置および音声認識装置に提示することとしてもよい。
上述の実施形態では、学習用発話データとして非ネイティブ話者による発話データのみを用いる構成としたが、ネイティブ話者による発話データも学習用発話データに含めて利用するように構成してもよい。具体的には、ネイティブ発話データを非ネイティブ性抽出部に入力し、ネイティブ発話に対する非ネイティブ特徴量を計算し、それを音響特徴量と結合して学習データを生成する。その後、その学習データを用いて音響モデルを学習するように構成すればよい。
上述のように、この発明の音響モデル学習技術は、言語的な専門知識を持ったネイティブ教師の人手を使うことなく、客観性の高い非ネイティブ性を表現する非ネイティブ特徴量を抽出し、それを音響特徴量と結合した学習データから音響モデルを学習する。また、この発明の音声認識技術は、認識対象の音声データから非ネイティブ特徴量を音響特徴量と結合して学習済みの音響モデルを用いて音声認識を行う。このように構成することにより、従来は発音評定値を利用した音声認識率の向上ができなかったDNN−HMM音声認識においても、非ネイティブ発話を高精度に認識することが可能となる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10 学習用音声記憶部
11 非ネイティブ性抽出部
12 音響特徴量抽出部
13 学習データ生成部
14 学習データ記憶部
15 音響モデル学習部
16 音響モデル記憶部
20 言語モデル記憶部
21 特徴量結合部
22 音声認識部

Claims (7)

  1. 学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と上記学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、上記学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データを記憶する学習データ記憶部と、
    上記学習データを用いて音響モデルを学習する音響モデル学習部と、
    を含む音響モデル学習装置。
  2. 請求項1に記載の音響モデル学習装置であって、
    上記学習用音声データから上記非ネイティブ特徴量を抽出する非ネイティブ性抽出部と、
    上記学習用音声データから上記音響特徴量を抽出する音響特徴量抽出部と、
    上記非ネイティブ特徴量と上記音響特徴量とを結合して上記学習用入力特徴量を生成し、その学習用入力特徴量と上記書き起こしデータとを関連付けて上記学習データを生成する学習データ生成部と、
    をさらに含む音響モデル学習装置。
  3. 請求項1または2に記載の音響モデル学習装置であって、
    上記非ネイティブ特徴量は、言語判別モデルによる言語判別結果のスコア、ネイティブ向け音響モデルによる評価結果のスコア、もしくはネイティブ向け音声認識による認識結果の信頼度のいずれかである、
    音響モデル学習装置。
  4. 請求項1から3のいずれかに記載の音響モデル学習装置により生成した音響モデルを記憶する音響モデル記憶部と、
    入力音声データから話者の非ネイティブ性を表す非ネイティブ特徴量を抽出する非ネイティブ性抽出部と、
    上記入力音声データから音響特徴量を抽出する音響特徴量抽出部と、
    上記非ネイティブ特徴量と上記音響特徴量とを結合した認識用入力特徴量を上記音響モデルへ入力して上記入力音声データの音声認識結果を得る音声認識部と、
    を含む音声認識装置。
  5. 学習データ記憶部に、学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と上記学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、上記学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データが記憶されており、
    音響モデル学習部が、上記学習データを用いて音響モデルを学習する音響モデル学習ステップを含む、
    音響モデル学習方法。
  6. 音響モデル記憶部に、請求項5に記載の音響モデル学習方法により生成した音響モデルが記憶されており、
    非ネイティブ性抽出部が、入力音声データから話者の非ネイティブ性を表す非ネイティブ特徴量を抽出する非ネイティブ性抽出ステップと、
    音響特徴量抽出部が、上記入力音声データから音響特徴量を抽出する音響特徴量抽出ステップと、
    音声認識部が、上記非ネイティブ特徴量と上記音響特徴量とを結合した認識用入力特徴量を上記音響モデルへ入力して上記入力音声データの音声認識結果を得る音声認識ステップと、
    を含む音声認識方法。
  7. 請求項1から3のいずれかに記載の音響モデル学習装置の各部もしくは請求項4に記載の音声認識装置の各部としてコンピュータを機能させるためのプログラム。
JP2015220304A 2015-11-10 2015-11-10 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム Active JP6546070B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015220304A JP6546070B2 (ja) 2015-11-10 2015-11-10 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015220304A JP6546070B2 (ja) 2015-11-10 2015-11-10 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017090660A true JP2017090660A (ja) 2017-05-25
JP6546070B2 JP6546070B2 (ja) 2019-07-17

Family

ID=58768369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015220304A Active JP6546070B2 (ja) 2015-11-10 2015-11-10 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6546070B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030286A (ja) * 2018-08-21 2020-02-27 日本電信電話株式会社 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
JP2020057129A (ja) * 2018-10-01 2020-04-09 Kddi株式会社 言語識別モデルを用いた発音評価プログラム、装置及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133693A (ja) * 1996-10-28 1998-05-22 Nec Corp 音声認識装置
JP2002082688A (ja) * 2000-09-05 2002-03-22 Mitsubishi Electric Corp 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2003022087A (ja) * 2001-03-07 2003-01-24 Sony Internatl Europ Gmbh 音声認識方法
JP2005292770A (ja) * 2004-03-10 2005-10-20 Advanced Telecommunication Research Institute International 音響モデル生成装置及び音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133693A (ja) * 1996-10-28 1998-05-22 Nec Corp 音声認識装置
JP2002082688A (ja) * 2000-09-05 2002-03-22 Mitsubishi Electric Corp 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2003022087A (ja) * 2001-03-07 2003-01-24 Sony Internatl Europ Gmbh 音声認識方法
JP2005292770A (ja) * 2004-03-10 2005-10-20 Advanced Telecommunication Research Institute International 音響モデル生成装置及び音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030286A (ja) * 2018-08-21 2020-02-27 日本電信電話株式会社 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
JP2020057129A (ja) * 2018-10-01 2020-04-09 Kddi株式会社 言語識別モデルを用いた発音評価プログラム、装置及び方法
JP7064413B2 (ja) 2018-10-01 2022-05-10 Kddi株式会社 言語識別モデルを用いた発音評価プログラム、装置及び方法

Also Published As

Publication number Publication date
JP6546070B2 (ja) 2019-07-17

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
CN113470662B (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
US12142271B2 (en) Cross-device voiceprint recognition
CN103221996B (zh) 用于验证说话人的口令建模的设备和方法、以及说话人验证系统
CN106463113B (zh) 在语音辨识中预测发音
CN110706714B (zh) 说话者模型制作系统
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
CN108885870A (zh) 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法
US9905224B2 (en) System and method for automatic language model generation
JP6189818B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
CN116778967B (zh) 基于预训练模型的多模态情感识别方法及装置
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
KR20150049449A (ko) 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
JP2008293098A (ja) 応答スコア情報生成装置、対話処理装置
TWI731921B (zh) 語音識別方法及裝置
KR102300303B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
JP6006674B2 (ja) 音響モデル選択装置とその方法とプログラム
JP6965846B2 (ja) 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
JP2012118441A (ja) 音響モデル作成方法とその装置とプログラム
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP5088314B2 (ja) 音声応答装置、及びプログラム
WO2024218877A1 (ja) 音声合成方法、音声合成装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190620

R150 Certificate of patent or registration of utility model

Ref document number: 6546070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150