JP2017090660A

JP2017090660A - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Info

Publication number: JP2017090660A
Application number: JP2015220304A
Authority: JP
Inventors: 祐太河内; Yuta Kawachi; 浩和政瀧; Hirokazu Masataki
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2015-11-10
Filing date: 2015-11-10
Publication date: 2017-05-25
Anticipated expiration: 2035-11-10
Also published as: JP6546070B2

Abstract

【課題】非ネイティブ発話を高精度に認識することができる音響モデルを学習する。
【解決手段】学習データ記憶部１４は、学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データを記憶する。音響モデル学習部１５は、学習データを用いて音響モデルを学習し、音響モデル記憶部１６に記憶する。
【選択図】図５

Description

この発明は、音声認識技術に関し、特に、非ネイティブ発話の認識に用いる音響モデルを学習する技術に関する。

非ネイティブ発話に対する音声認識は、ネイティブ発話に対する音声認識と比較して、読み誤りや母音の挿入等、話者の言語経験や母語等に依存した、ネイティブ発話には見られない音響的性質が存在する（例えば、非特許文献１参照）。これら非ネイティブ発話に特有の性質が、入力音声の音素を判別する音響スコア計算を行う判別器（音響モデル）の判別性能に悪影響を与えるため、非ネイティブ発話音声認識はネイティブ発話音声認識と比較して精度を向上することが困難なタスクであった。

非ネイティブ発話音声認識の認識精度を向上する技術として、非ネイティブ向けＧＭＭ−ＨＭＭ音声認識がある（例えば、非特許文献２参照）。非ネイティブ向けＧＭＭ−ＨＭＭ音声認識では、非ネイティブ音声データセットに対して、ネイティブ教師の人手により発音の正しさを評定したラベルを付加し、この発音評定値に基づいて学習データを分割して、発音レベル別の複数の音響モデルを学習する。これにより、言語経験に由来する発音の違いにそれぞれ特化することが可能となり、音声認識精度を改善している。

また、音声認識装置の音響モデル全般で高い認識率を実現している多層ニューラルネットワーク音響モデルを用いて非ネイティブ発話を音声認識する非ネイティブ向けＤＮＮ−ＨＭＭ音声認識がある（例えば、非特許文献３参照）。

河原達也, 峯松信明, "音声情報処理技術を用いた外国語学習支援", 電子情報通信学会論文誌D, vol. J96-D, no. 7, pp. 1549-1565, 2013年安斎拓也, 咸聖俊，伊藤彰則, "日本人英語学習者の発音レベルを考慮した音響モデルに関する検討", 日本音響学会講演論文集, 2011年木菱裕志, 中川聖一, "DNN-HMMによる日本人英語音声の認識", 日本音響学会講演論文集, 2013年

ネイティブ教師の人手による発音評定値を利用する非ネイティブ向け音声認識では、音響モデルの学習時に用いる音声データに対して人手で発音評定値を設定する必要があった。発音評定値を利用する方法には、発音評定値が主観で決まるため必ずしも信用できず、すべての発話に対し同じ基準で評価がされているとは限らないという問題と、ネイティブ教師の人手を使うことによるコストの問題が存在する。また、ＧＭＭ−ＨＭＭ音声認識と異なり、音響モデルに多層ニューラルネットワークを用いるＤＮＮ−ＨＭＭ音声認識においては、ＭＬＬＲ（Maximum Likelihood Linear Regression）のような有効な適応法がなく、音響モデル学習をやり直す必要がある。このとき、発音評定値に応じて学習データを分割すると、学習データの減少に起因する認識率低下を回避できない。そのため、ＤＮＮ−ＨＭＭ音声認識においては、ＧＭＭ−ＨＭＭ音声認識と同様に発音評定値を利用するアプローチでは認識率を向上することができなった。

この発明の目的は、このような点に鑑みて、ＤＮＮ−ＨＭＭ音声認識であっても適用可能な、非ネイティブ発話を高精度に認識することができる音響モデルを学習する技術を提供することである。

上記の課題を解決するために、この発明の第一の態様の音響モデル学習装置は、学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データを記憶する学習データ記憶部と、学習データを用いて音響モデルを学習する音響モデル学習部と、を含む。

この発明の第二の態様の音声認識装置は、音響モデル学習装置により生成した音響モデルを記憶する音響モデル記憶部と、入力音声データから話者の非ネイティブ性を表す非ネイティブ特徴量を抽出する非ネイティブ性抽出部と、入力音声データから音響特徴量を抽出する音響特徴量抽出部と、非ネイティブ特徴量と音響特徴量とを結合した認識用入力特徴量を音響モデルへ入力して入力音声データの音声認識結果を得る音声認識部と、を含む。

この発明の音響モデル学習技術は、言語的な専門知識を持ったネイティブ教師の人手を使うことなく、客観性の高い非ネイティブ性を表現する非ネイティブ特徴量を抽出し、それを音響特徴量と結合した学習データから音響モデルを学習する。これにより、従来は発音評定値を利用した音声認識率の向上ができなかったＤＮＮ−ＨＭＭ音声認識においても、非ネイティブ発話を高精度に認識することができる。

図１は、学習データ作成装置の機能構成を例示する図である。図２は、学習データ作成方法の処理手続きを例示する図である。図３は、学習用発話データの具体例を示す図である。図４は、学習データの具体例を示す図である。図５は、音響モデル学習装置の機能構成を例示する図である。図６は、音響モデル学習方法の処理手続きを例示する図である。図７は、音声認識装置の機能構成を例示する図である。図８は、音声認識方法の処理手続きを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

この発明の実施形態は以下の３つの装置から構成される音声認識システムである。第一の装置は、学習用音声データから抽出した非ネイティブ特徴量を音響特徴量へ付加して音響モデル学習に用いる学習データを生成する学習データ作成装置である。第二の装置は、その学習データを用いて音響モデルの学習を行う音響モデル学習装置である。第三の装置は、認識対象の入力音声データから抽出した非ネイティブ特徴量を音響特徴量へ付加し、学習済みの音響モデルを用いて音声認識を行う音声認識装置である。

これらの装置は必ずしも３台で構成されるものではなく、各構成部を配置する装置を変更することで任意に装置構成を変更することができる。例えば、学習データ作成装置の各部を音響モデル学習装置が備えるように構成し、学習データの作成から音響モデルの学習まで１台で実行する音響モデル学習装置とすることができる。また、例えば、学習データ作成装置の各部と音響モデル学習装置の各部を音声認識装置が備えるように構成し、学習データの作成から音響認識まで１台で実行する音声認識装置とすることができる。

実施形態の学習データ作成装置、音響モデル学習装置、および音声認識装置の各装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置が備える各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。各装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

実施形態の学習データ作成装置は、図１に示すように、学習用音声記憶部１０、非ネイティブ性抽出部１１、音響特徴量抽出部１２、学習データ生成部１３、および学習データ記憶部１４を含む。学習用音声記憶部１０および学習データ記憶部１４は必ずしも学習データ作成装置自身が備える必要はなく、外部の他の装置が備える学習用音声記憶部１０および学習データ記憶部１４をネットワーク等の通信手段を介して読み書き可能なように構成することも可能である。この音響モデル学習装置が図２に示す各ステップの処理を行うことにより実施形態の学習データ作成方法が実現される。

学習用音声記憶部１０には、音響モデルの学習に用いる学習用発話データが記憶されている。学習用発話データは、図３に示すように、各データを一意に特定する「識別番号」と、非ネイティブ話者の発話を録音した音声ファイルへのパスを表す「音声データ」と、音声データの発話内容を書き起こした「書き起こしデータ」とが関連付けて記憶されている。

ステップＳ１１において、非ネイティブ性抽出部１１は、学習用発話データの音声データから話者の非ネイティブ性を表現する非ネイティブ特徴量を抽出する。抽出された非ネイティブ特徴量は学習用発話データの識別番号と組にして学習データ生成部１３へ入力される。

非ネイティブ特徴量は、非ネイティブ話者の言語経験や発音の正しさ、母語種類、出身地方など、非ネイティブ話者に特有の情報を直接または間接的に反映した、連続または離散の、値またはベクトルとして表現される量である。非ネイティブ性抽出部としては、例えばネイティブ話者の発話音声と非ネイティブ話者の発話音声とを区別したり評価したりするように事前に学習された判別器、ニューラルネットワーク、または機械学習装置などを用いることとしてもよい。このとき、判別や回帰、自己符号化を行う多層ニューラルネットワークやＳＶＭ（Support Vector Machine）等の機械学習装置に対して発話を入力した際の中間処理結果や出力を非ネイティブ特徴量とすればよい。中間処理結果としては、例えば多層ニューラルネットワークでは、最終出力層以外の中間層の出力値を用いてもよい。判別器等の学習には、ネイティブ発話や非ネイティブ発話の音声データ、非ネイティブ話者に関する情報、発話の単語、音素等の情報を用いることとしてもよい。学習アルゴリズムは、教師あり学習、教師なし学習のいずれでもよい。

非ネイティブ特徴量の具体例としては、学習済の言語判別モデルを非ネイティブ性抽出部として用いて、言語判別結果のスコアを非ネイティブ特徴量として出力することとしてもよい。言語判別結果のスコアとしては、例えば、各言語らしさを示すスコア値である。言語判別結果のスコアの他の例は、第１の言語に近いほど数値が０、第２の言語に近いほど数値が１に近くなるような、０〜１の評価値である。また、非ネイティブ性抽出部がネイティブ向け音響モデル（すなわち、ネイティブ発話を学習した音響モデル）を有し、入力された音声データをこの音響モデルで評価した結果のスコアを非ネイティブ特徴量としてもよい。他の例としては、非ネイティブ性抽出部がネイティブ向け音声認識（すなわち、ネイティブ発話を認識対象とする音声認識）用のモデルを有し、入力された音声データをこのモデルで音声認識したときの認識信頼度を非ネイティブ特徴量としてもよい。

ステップＳ１２において、音響特徴量抽出部１２は、学習用発話データの音声データから音響特徴量を抽出する。音響特徴量としては、例えばメル周波数ケプストラム係数やそれに対して例えば正規化等の変換をしたもの、時間的に前後する複数個の特徴量を結合したもの等、音声認識における音響モデル学習で利用される音響特徴量や、その変換結果であればよい。抽出された音響特徴量は学習用発話データの識別番号と組にして学習データ生成部１３へ入力される。

ステップＳ１３において、学習データ生成部１３は、非ネイティブ性抽出部１１が出力する非ネイティブ特徴量と音響特徴量抽出部１２が出力する音響特徴量とを、各特徴量と組にした識別番号が一致するように結合し、学習用入力特徴量を生成する。結合とは、一方の特徴量の後に他の特徴量をつなげる処理である。つなげる処理にあたって、２つの特徴量の前後関係は予め定めておくこととする。例えば、音響特徴量“xxx”と非ネイティブ特徴量“yyy”が抽出されたとき、“xxx”と“yyy”とをそのまま順に繋げた“xxxyyy”が学習用入力特徴量となる。その後、学習データ生成部１３は、図４に示すように、各データを一意に特定する「識別番号」と、生成した「学習用入力特徴量」と、学習用発話データの「書き起こしデータ」とを関連付けて学習データを生成する。生成された学習データは学習データ記憶部１４へ記憶される。

上述の実施形態では、２つの特徴量を結合して音響モデル学習を行う学習データとする例を説明したが、音響特徴量が学習データに含まれるという条件さえ守られれば、２つの特徴量から音響モデル学習を行う学習データを求める処理はこれに限定されない。例えば、２つの特徴量を所定の関数に入力して得られる値を音響特徴量の後（あるいは、前）に追加することとしてもよい。所定の関数としては、例えば正規化や、時間的に前後する複数個の特徴量の結合を実施してもよいし、事前に学習された別の機械学習装置に入力し、その中間処理結果や出力を関数の出力として用いてもよい。また、音響特徴量と非ネイティブ特徴量とを結合した後に、正規化や複数フレームの結合等の処理を行ったものを、音響モデル学習を行う学習データとしてもよい。

上述の実施形態では、各特徴量や音声データ、書き起こしデータを対応付けるために識別番号を付与する例を記載したが、識別番号と各データとを対応づけるのではなく、非ネイティブ性抽出部と音響特徴量抽出部とに同じ音声データを入力し、処理結果の各特徴量に対して、音声データに対応する書き起こしデータを関連付けることにより、識別番号の情報を用いることなく学習データの生成を行うように変形することも可能である。

上述の実施形態では、書き起こしデータを音響モデル学習時に用いる教師データに相当するものとして直接取得しているが、事前に、“音素に相当する記号”等の異なるシンボル形式に変換を実施してもよい。例えば、ひらがな、カタカナ、音素、モノフォン、トライフォン、クラスタリング済みトライフォンや状態番号等、読みや音を表現する記号や、それらに相当する番号への変換を行ってよい。その際、記号の変換を人間が行ってもよいし、別の音声認識デコーダや音響モデル等を用いて変換してもよい。例えば、ＤＮＮ音声認識分野で従来から用いられている強制アライメント処理を用いても変換してもよい。

実施形態の音響モデル学習装置は、図５に示すように、学習データ記憶部１４、音響モデル学習部１５、および音響モデル記憶部１６を含む。学習データ記憶部１４および音響モデル記憶部１６は必ずしも音響モデル学習装置自身が備える必要はなく、他の装置が備える学習データ記憶部１４および音響モデル記憶部１６をネットワーク等の通信手段を介して読み書き可能なように構成することも可能である。この音響モデル学習装置が図６に示す各ステップの処理を行うことにより実施形態の音響モデル学習方法が実現される。

学習データ記憶部１４には、学習データ作成装置により生成された学習データが記憶されている。上述のように、学習データは、各データを一意に特定する識別番号と、学習用発話データの音声データから抽出した非ネイティブ特徴量と音響特徴量とを結合した学習用入力特徴量と、音声データの発話内容を書き起こした書き起こしデータとが関連付けられたものである。

ステップＳ１５において、音響モデル学習部１５は、学習データ記憶部１４に記憶された学習データから学習用入力特徴量と書き起こしデータとを対応付けて取得し、その学習データを用いて音声認識に用いる音響モデルパラメータを学習する。音響モデルパラメータで表現されるモデルとしては、例えば、波形を音素に相当する記号に変換するモデルがある。“音素に相当する記号”としては、例えば、事前に異なる音響モデルを作成し、その音響モデルを用いたクラスタリング済みのトライフォンや、それを表現する状態番号等を用いることができる。

実施形態の音声認識装置は、図７に示すように、音響モデル記憶部１６、言語モデル記憶部２０、非ネイティブ性抽出部１１、音響特徴量抽出部１２、特徴量結合部２１、および音声認識部２２を含む。この音声認識装置が図８に示す各ステップの処理を行うことにより実施形態の音声認識方法が実現される。

音響モデル記憶部１６には、音響モデル学習装置により生成された音響モデルパラメータを備える音響モデルが記憶されている。言語モデル記憶部２０には、音声認識に用いる言語モデルが記憶されている。

ステップＳ１１において、非ネイティブ性抽出部１１は、入力音声データから話者の非ネイティブ性を表現する非ネイティブ特徴量を抽出する。入力音声データは、ネイティブ話者または非ネイティブ話者による発話を録音した、音声認識対象の音声データである。ここで抽出する非ネイティブ特徴量は、学習データ作成装置が抽出した非ネイティブ特徴量と同じものである。抽出された非ネイティブ特徴量は特徴量結合部２１へ入力される。

ステップＳ１２において、音響特徴量抽出部１２は、入力音声データから音響特徴量を抽出する。ここで抽出する音響特徴量は、学習データ作成装置が抽出した音響特徴量と同じものである。抽出された音響特徴量は特徴量結合部２１へ入力される。

ステップＳ２１において、特徴量結合部２１は、非ネイティブ性抽出部１１が出力する非ネイティブ特徴量と音響特徴量抽出部１２が出力する音響特徴量とを、学習データ作成装置が各特徴量を結合したときと同じ順序で結合し、認識用入力特徴量を生成する。生成された認識用入力特徴量は音声認識部２２へ入力される。

ステップＳ２２において、音声認識部２２は、音響モデル記憶部１６に記憶された音響モデルを用いて、入力された認識用入力特徴量から“音素に相当する記号”の時系列データを出力する。音声認識部が“音素に相当する記号”の時系列データから音声認識結果（例えば、テキスト）を出力する言語モデルを有する場合、音響モデルの出力が言語モデルに入力され、音声認識結果が出力される。

なお、非ネイティブ特徴量として、非ネイティブ性抽出部の出力の代わりに、非ネイティブ性抽出部の学習に使った正解ラベルを直接使用してもよい。正解ラベルは、例えば、非ネイティブ話者の言語経験や発音の正しさ、母語種類、出身地方など、非ネイティブ話者に関する情報とすればよい。音声認識時には入力音声データから推定した非ネイティブ特徴量を用いることとすればよい。

上述の実施形態では、学習データ作成装置および音声認識装置が非ネイティブ性抽出部を備える例を記載したが、学習データ作成装置および音声認識装置とは異なる外部の装置として非ネイティブ特徴量抽出装置が存在し、非ネイティブ特徴量抽出装置が識別番号と音声データとを学習用発話データから取り出して、識別番号と非ネイティブ特徴量を学習データ作成装置および音声認識装置に提示することとしてもよい。

上述の実施形態では、学習用発話データとして非ネイティブ話者による発話データのみを用いる構成としたが、ネイティブ話者による発話データも学習用発話データに含めて利用するように構成してもよい。具体的には、ネイティブ発話データを非ネイティブ性抽出部に入力し、ネイティブ発話に対する非ネイティブ特徴量を計算し、それを音響特徴量と結合して学習データを生成する。その後、その学習データを用いて音響モデルを学習するように構成すればよい。

上述のように、この発明の音響モデル学習技術は、言語的な専門知識を持ったネイティブ教師の人手を使うことなく、客観性の高い非ネイティブ性を表現する非ネイティブ特徴量を抽出し、それを音響特徴量と結合した学習データから音響モデルを学習する。また、この発明の音声認識技術は、認識対象の音声データから非ネイティブ特徴量を音響特徴量と結合して学習済みの音響モデルを用いて音声認識を行う。このように構成することにより、従来は発音評定値を利用した音声認識率の向上ができなかったＤＮＮ−ＨＭＭ音声認識においても、非ネイティブ発話を高精度に認識することが可能となる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０学習用音声記憶部
１１非ネイティブ性抽出部
１２音響特徴量抽出部
１３学習データ生成部
１４学習データ記憶部
１５音響モデル学習部
１６音響モデル記憶部
２０言語モデル記憶部
２１特徴量結合部
２２音声認識部

Claims

学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と上記学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、上記学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データを記憶する学習データ記憶部と、
上記学習データを用いて音響モデルを学習する音響モデル学習部と、
を含む音響モデル学習装置。
請求項１に記載の音響モデル学習装置であって、
上記学習用音声データから上記非ネイティブ特徴量を抽出する非ネイティブ性抽出部と、
上記学習用音声データから上記音響特徴量を抽出する音響特徴量抽出部と、
上記非ネイティブ特徴量と上記音響特徴量とを結合して上記学習用入力特徴量を生成し、その学習用入力特徴量と上記書き起こしデータとを関連付けて上記学習データを生成する学習データ生成部と、
をさらに含む音響モデル学習装置。
請求項１または２に記載の音響モデル学習装置であって、
上記非ネイティブ特徴量は、言語判別モデルによる言語判別結果のスコア、ネイティブ向け音響モデルによる評価結果のスコア、もしくはネイティブ向け音声認識による認識結果の信頼度のいずれかである、
音響モデル学習装置。
請求項１から３のいずれかに記載の音響モデル学習装置により生成した音響モデルを記憶する音響モデル記憶部と、
入力音声データから話者の非ネイティブ性を表す非ネイティブ特徴量を抽出する非ネイティブ性抽出部と、
上記入力音声データから音響特徴量を抽出する音響特徴量抽出部と、
上記非ネイティブ特徴量と上記音響特徴量とを結合した認識用入力特徴量を上記音響モデルへ入力して上記入力音声データの音声認識結果を得る音声認識部と、
を含む音声認識装置。
学習データ記憶部に、学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と上記学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、上記学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データが記憶されており、
音響モデル学習部が、上記学習データを用いて音響モデルを学習する音響モデル学習ステップを含む、
音響モデル学習方法。
音響モデル記憶部に、請求項５に記載の音響モデル学習方法により生成した音響モデルが記憶されており、
非ネイティブ性抽出部が、入力音声データから話者の非ネイティブ性を表す非ネイティブ特徴量を抽出する非ネイティブ性抽出ステップと、
音響特徴量抽出部が、上記入力音声データから音響特徴量を抽出する音響特徴量抽出ステップと、
音声認識部が、上記非ネイティブ特徴量と上記音響特徴量とを結合した認識用入力特徴量を上記音響モデルへ入力して上記入力音声データの音声認識結果を得る音声認識ステップと、
を含む音声認識方法。
請求項１から３のいずれかに記載の音響モデル学習装置の各部もしくは請求項４に記載の音声認識装置の各部としてコンピュータを機能させるためのプログラム。