JP2012068354A

JP2012068354A - 音声認識装置、音声認識方法、及びプログラム

Info

Publication number: JP2012068354A
Application number: JP2010211791A
Authority: JP
Inventors: Sakriani Sakti; サクリアニサクティ; Ryosuke Isotani; 亮輔磯谷; Hisashi Kawai; 恒河井; Satoru Nakamura; 哲中村
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2010-09-22
Filing date: 2010-09-22
Publication date: 2012-04-05
Anticipated expiration: 2030-09-22
Also published as: JP5660441B2

Abstract

【課題】発音の変化にも対応可能な音声認識装置を提供する。
【解決手段】音響モデル記憶部１１、辞書情報記憶部１２、音声信号に応じた特徴量を受け付け、音響モデル、辞書情報、辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルを用いて、特徴量に対応する確率の高い音素列の並びを取得する取得部１６、音素の並びと、音素の並びに対応する文字列の並びとを対応付けるパラレルコーパスから生成された変換モデルが記憶される変換モデル記憶部１７、文字列言語モデルが記憶される文字列言語モデル記憶部１８、変換モデルと文字列言語モデルを用いて、取得された音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、音素列の並びを文字列の並びに統計的に変換する変換部１９、変換後の文字列の並びである音声認識結果を出力する出力部２０を備える。
【選択図】図１

Description

本発明は、音声認識を行う音声認識装置等に関する。

一つの単語が多様な発音を有すること、すなわち、発音の変化（バリエーション）は、音声認識の性能を下げる一つの要因となるものである。そのような発音の変化は、例えば、会話などの自由発話を行った時に起こることがある。例えば、会話においては、通常と異なるように発音されたり、一部の音が発音されなかったり、２以上の音が結合して発音されたりすることが起こり得る。また、韓国語のように、隣接する文字によって、文字やフレーズの発音が変化する場合にも、そのような発音の変化が起こることがある。また、フランス語のリエゾンなどでも、ある単語の語尾の子音と、次の単語の語頭の母音とが結合することによる発音の変化（リエゾン）が起こることがある。

従来の音声認識装置において、そのような発音の変化に対応するため、それらの発音の変化をも取り込むように、辞書を拡張することが考えられる。あるいは、ルールベースのアルゴリズムを用いることも考えられる。
なお、関連する技術として、流ちょうでない自由発話を修正する技術が開発されている（例えば、非特許文献１参照）。

ＭａｔｔｈｉａｓＨｏｎａｌ、ＴａｎｊａＳｃｈｕｌｔｚ、「ＣｏｒｒｅｃｔｉｏｎｏｆＤｉｓｆｌｕｅｎｃｉｅｓｉｎＳｐｏｎｔａｎｅｏｕｓＳｐｅｅｃｈｕｓｉｎｇａＮｏｉｓｙ−ＣｈａｎｎｅｌＡｐｐｒｏａｃｈ」、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ８ｔｈＥｕｒｏｓｐｅｅｃｈＣｏｎｆｅｒｅｎｃｅ、ｐ．２７１８−２７８４、２００３年

しかしながら、発音の変化に対応するために、辞書を拡張したり、ルールベースのアルゴリズムを用いたりすることは、非常に時間のかかる作業が必要となるという問題があった。特に、ルールベースのアルゴリズムを整備するためには、相当量の専門的知識が必要であった。

本発明は、上記課題を解決するためになされたものであり、辞書を拡張したり、ルールベースのアルゴリズムを用いたりすることなく、発音の変化に対応可能な音声認識装置等を提供することを目的とする。

上記目的を達成するため、本発明による音声認識装置は、音響モデルが記憶される音響モデル記憶部と、１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、発話から生成された音声信号から抽出された特徴量を受け付け、音響モデルと辞書情報と辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部と、音素の並びと、音素の並びに対応する文字列の並びと、当該音素の並び及び文字列の並びに関する確率とを対応付けて有する変換モデルが記憶される変換モデル記憶部と、文字列に関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部と、変換モデルと、文字列言語モデルとを用いて、取得部が取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、音素列の並びを文字列の並びに統計的に変換する変換部と、変換部による変換後の文字列の並びである音声認識結果を出力する出力部と、を備えたものである。

このような構成により、変換モデルとして、発音の変化を含むものを用いることによって、変換部は、発音の変化を含んだ音素の並びを、その音素の並びに対応した文字列の並びに変換することができる。その結果、辞書を拡張したり、ルールベースのアルゴリズムを用いたりすることなく、発音の変化に対応可能な音声認識を実現することができる。

また、本発明による音声認識装置では、文字列言語モデルは、文字列及び文字列に対応した音素の並びのペアに関する言語モデルであってもよい。
このような構成により、より精度の高い変換を行うことができる。

また、本発明による音声認識装置は、音響モデルが記憶される音響モデル記憶部と、１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、発話から生成された音声信号から抽出された特徴量を受け付け、音響モデルと辞書情報と辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部と、文字列及び文字列に対応する音素の並びのペアに関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部と、取得部によって取得された複数の音素列の並びから、文字列言語モデルを用いて、確率の高い文字列の並びを選択する選択部と、選択部が選択した文字列の並びである音声認識結果を出力する出力部と、を備えたものである。

このような構成により、文字列言語モデルとして、発音の変化を含むものを用いることによって、選択部は、発音の変化を含んだ音素の並びを、その音素の並びに対応した文字列の並びに変換することができる。その結果、辞書を拡張したり、ルールベースのアルゴリズムを用いたりすることなく、発音の変化に対応可能な音声認識を実現することができる。

また、本発明による音声認識装置では、音素列言語モデルが記憶される音素列言語モデル記憶部をさらに備えてもよい。
このような構成により、取得部は、音素列言語モデル記憶部で記憶されている音素列言語モデルを用いて、特徴量に対応する音素列の並びを取得することができる。

また、本発明による音声認識装置では、辞書情報は、音素列と、文字列とを対応付けて有する情報であり、取得部は、音素列言語モデルを用いて算出する音素列の並びの確率として、辞書情報を用いて音素列の並びを変換した文字列の並びに対して文字列の言語モデルを用いて算出する確率を用いてもよい。
このような構成により、文字列の言語モデルを用いて、音素列言語モデルを用いた確率の算出と同様のことを行うことができる。

また、本発明による音声認識装置では、音素列は、単語に対応した音素列であり、文字列は、単語であってもよい。
このような構成により、例えば、自由発話の音声信号に対応した単語の並びを、音声認識結果として得ることができるようになる。

また、本発明による音声認識装置では、音素列は、音素シラブルであり、文字列は、フレーズであってもよい。
このような構成により、例えば、韓国語の音声信号に対応したＥｏｊｅｏｌの並びを、音声認識結果として得ることができるようになる。

また、本発明による音声認識装置では、音素列は、音素シラブルであり、文字列は、一文字であってもよい。
このような構成により、例えば、韓国語の音声信号に対応したＥｕｍｊｅｏｌの並びを、音声認識結果として得ることができるようになる。

また、本発明による音声認識装置では、発話から生成された音声信号を受け付ける受付部と、受付部が受け付けた音声信号から特徴量を抽出して取得部に渡す特徴量抽出部と、をさらに備えてもよい。
このような構成により、音声信号から特徴量を抽出する処理を行うことになる。

本発明による音声認識装置等によれば、辞書を拡張したり、ルールベースのアルゴリズムを用いたりすることなく、発音の変化に対応可能な音声認識を実現することができる。

本発明の実施の形態１による音声認識装置の構成を示すブロック図同実施の形態による音声認識装置の動作を示すフローチャート同実施の形態の実験例におけるデータセットについて説明するための図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例におけるコーパスについて説明するための図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図本発明の実施の形態２による音声認識装置の構成を示すブロック図同実施の形態による音声認識装置の動作を示すフローチャート同実施の形態による音声認識処理について説明するための図同実施の形態の実験例におけるデータセットについて説明するための図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図同実施の形態の実験例における結果の一例を示す図上記各実施の形態におけるコンピュータシステムの外観一例を示す模式図上記各実施の形態におけるコンピュータシステムの構成の一例を示す図

以下、本発明による音声認識装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による音声認識装置について、図面を参照しながら説明する。本実施の形態による音声認識装置は、処理の後段においてＳＭＴ（統計的機械翻訳）と同様の処理を行うことによって、発音の変化を有する音素の並びに対する音声認識を行うものである。

図１は、本実施の形態による音声認識装置１の構成を示すブロック図である。本実施の形態による音声認識装置１は、音響モデル記憶部１１と、辞書情報記憶部１２と、音素列言語モデル記憶部１３と、受付部１４と、特徴量抽出部１５と、取得部１６と、変換モデル記憶部１７と、文字列言語モデル記憶部１８と、変換部１９と、出力部２０とを備える。

以下の説明において、（１）自由発話において発音の変化が起こる場合の音声認識処理、及び、（２）韓国語において、隣接する文字やフレーズ間で発音の変化が起こる場合の音声認識処理のそれぞれについて区別することがある。なお、特に明記しない場合には、その（１）（２）の両方に適用可能な説明であるとする。

音響モデル記憶部１１では、音響モデルが記憶される。この音響モデルは、音声認識において通常用いられる音響モデルである。なお、この音響モデルの学習の際には、発音の変化を考慮していないデータ、すなわち、読み上げの音声データが用いられてもよく、発音の変化を考慮したデータ、例えば、自由発話の音声データが用いられてもよい。

この音響モデルは、音韻ごとの隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであってもよく、そうでなくてもよい。また、この音響モデルは、入力される音声を構成する音素に対応するＨＭＭを入力順序に従って連結しているＨＭＭに基づくデータであってもよい。音響モデルは、全音素のＨＭＭの単なる集合であってもよい。また、音響モデルは、必ずしもＨＭＭに基づくデータである必要はない。音響モデルは、単一ガウス分布モデル、ＧＭＭ（ガウス混合モデル）などの確率モデルや、その他のモデルに基づくデータであってもよい。ＨＭＭに基づくデータは、例えば、フレームごとに、状態識別子と遷移確率の情報を有する。また、この音響モデルは、トライフォン（ｔｒｉｐｈｏｎｅ）であってもよく、テトラフォン（ｔｅｔｒａｐｈｏｎｅ）やペンタフォン（ｐｅｎｔａｐｈｏｎｅ）であってもよく、あるいは、それ以上の音素の並びを考慮したものであってもよい。

辞書情報記憶部１２では、音素列を少なくとも有する情報である辞書情報が記憶される。なお、音素列は、１または２以上の音素の並びである。この辞書情報は、音素の並びにおいて、音素列の区切位置を知ることができる情報であれば、どのような情報であってもよい。辞書情報は、例えば、（Ａ１）音素列の集合であってもよく、（Ａ２）音声認識において通常用いられる、音素列と、その音素列に対応した文字の並びとを対応付けて有する情報であってもよい。（Ａ２）の場合の辞書情報は、音声認識において音素を単語に変換するために通常用いられる辞書（ｌｅｘｉｃｏｎ）である。（Ａ１）の場合には、例えば、音節（音素のシラブル）が音素列であってもよく、単語に対応した音素の並びが音素列であってもよい。（Ａ２）の場合には、通常、音声認識と同様に、音素列は単語に対応したものとなる。（Ａ１）の場合には、前述の（１）及び（２）に対応可能であるが、（Ａ２）の場合には、前述の（１）のみに対応可能である。

音素列言語モデル記憶部１３では、音素列言語モデルが記憶される。この音素列言語モデルは、辞書情報に含まれる音素列に関する言語モデルである。言語モデルは、例えば、Ｎグラム言語モデルであってもよい。Ｎの値は、例えば、「２」「３」等であり、取得部１６が適切に音素の並びを取得することができる範囲であれば、Ｎの値はどのようなものであってもよい。なお、辞書情報が（Ａ１）である場合には、この音素列言語モデルは、音素列そのものの言語モデルである。また、辞書情報が（Ａ２）である場合には、音素列言語モデルは、音素列そのものの言語モデルであってもよく、あるいは、音素列に対応した単語の言語モデルであってもよい。後者のように、音素列言語モデルが単語の言語モデルであっても、（Ａ２）の場合の辞書情報を介して音素列と単語との変換を行うことによって、その言語モデルを、音素列の言語モデルと同様に考えることができる。

なお、音素列言語モデルが単語の言語モデルである場合には、その言語モデルは、文字列言語モデル記憶部１８で記憶されている文字列言語モデル（後述する）と同じであってもよい。その場合には、音声認識装置１は、音素列言語モデル記憶部１３を備えておらず、取得部１６は、音素の並びを取得する際に、文字列言語モデル記憶部１８で記憶されている文字列言語モデルを用いてもよい。

受付部１４は、発話から生成された音声信号を受け付ける。話者の発した音声である発話は、例えば、マイクロフォン等を介して音声信号に変換される。この音声信号は、（１）の場合には、自由発話の音声信号であり、（２）の場合には、韓国語の発話の音声信号である。（２）の場合の音声信号は、読み上げの音声信号であってもよい。受付部１４が受け付けた音声信号は、図示しない記録媒体で記憶されてもよい。受付部１４は、例えば、入力デバイス（例えば、マイクロフォンなど）から入力された音声信号を受け付けてもよく、有線もしくは無線の通信回線を介して送信された音声信号を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された音声信号を受け付けてもよい。本実施の形態では、受付部１４は、記録媒体から読み出された音声信号を受け付けるものとする。なお、受付部１４は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、受付部１４は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

特徴量抽出部１５は、受付部１４が受け付けた音声信号から特徴量（特徴パラメータ、特徴ベクトルとも呼ばれる）を抽出して、取得部１６に渡す。特徴量抽出部１５が抽出した特徴量は、図示しない記録媒体で記憶されてもよい。なお、特徴量の算出は、音声認識等の分野においてすでに公知であり、その詳細な説明を省略する。

特徴量は、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータ及びデルタデルタパラメータをそれぞれ１２次元有し、さらに正規化されたパワーとデルタパワー及びデルタデルタパワーを有してもよい（合計３９次元）。あるいは、特徴量は、ＭＦＣＣの１２次元、ΔＭＦＣＣの１２次元、Δ対数パワーの１次元を含む２５次元のものであってもよい。このように、種々の特徴量を用いることが可能である。

特徴量抽出部１５によって抽出された特徴量は、取得部１６に渡されるが、この特徴量の受け渡しは、例えば、特徴量抽出部１５と取得部１６とが物理的に異なるものである場合には、特徴量抽出部１５からの特徴量の出力と、取得部１６による特徴量の受け付けとによって行われてもよく、あるいは、特徴量抽出部１５と取得部１６とが物理的に同じものである場合には、単に特徴量の抽出のフェーズから音声認識のフェーズに移ることによって行われてもよい。また、特徴量抽出部１５が抽出した特徴量は、取得部１６によって用いられる前に、図示しない記録媒体において記憶されてもよい。その記憶は、一時的なものであってもよく、あるいは、そうでなくてもよい。

取得部１６は、特徴量抽出部１５から特徴量を受け付ける。そして、取得部１６は、音響モデル記憶部１１で記憶されている音響モデルと、辞書情報記憶部１２で記憶されている辞書情報と、音素列言語モデル記憶部１３で記憶されている音素列言語モデルとを用いて、特徴量に対応する音素列の並びのうち、確率の高いものを取得する。この取得部１６による音素列の並びを取得する方法には、主に２通りがある。（Ｂ１）音素列そのものの言語モデルである音素列言語モデルを用いて、音素列の並びを取得する方法と、（Ｂ２）単語の言語モデルである音素列言語モデルを用いて、音素列の並びと単語の並びとを取得する方法とである。

（Ｂ１）の場合には、取得部１６は、音響モデルを用いて特徴量を音素の並びに変換する。また、取得部１６は、辞書情報を用いて、音素の並びを音素列の並びに区切る。そして、取得部１６は、音素列そのものの言語モデルである音素列言語モデルを用いて、その音素列の並びの確率を算出する。その後、取得部１６は、音素列に変換した時の確率と、音素列言語モデルで算出した確率とを用いて、確率の高い音素列の並びを取得する。この処理は、辞書情報によって音素の並びを単語の並びに変換する代わりに、音素列の並びに変換し、単語の言語モデルを用いて単語の並びの確率を算出する代わりに、音素列そのものの言語モデルを用いて音素列の並びの確率を算出する以外は、音声認識で通常行われる処理と同様であり、詳細な説明を省略する。なお、（Ｂ１）の場合であって、辞書情報が（Ａ２）であるときには、取得部１６は、その辞書情報における音素列の部分のみを（Ａ１）の場合の音素列の集合と同様にして用いることによって、この処理を行うことができる。

（Ｂ２）の場合には、取得部１６は、音声認識で通常行われる処理と同様の処理を行うことになる。すなわち、取得部１６は、音響モデルを用いて特徴量を音素の並びに変換する。また、取得部１６は、辞書情報を用いて、音素の並びを単語の並びに変換する。なお、その各単語には、音素列が対応していることになる。そして、取得部１６は、単語の言語モデルである音素列言語モデルを用いて、その単語の並びの確率を算出する。また、取得部１６は、音素列に変換した時の確率と、音素列言語モデルで算出した確率とを用いて、確率の高い単語の並びを取得する。その後、取得部１６は、その単語の並びに対応する音素列の並びを最終的に取得する。前述のように、（Ｂ２）の処理は、従来の音声認識で通常行われる処理そのものであり、詳細な説明を省略する。なお、（Ｂ２）の場合であっても、後段の変換部１９で用いられるのは、単語の並びではなく、その単語の並びに対応する音素列の並びの部分のみである。

取得部１６が取得した音素列の並びは、図示しない記録媒体で記憶されてもよい。また、取得部１６は、最も確率の高い一の音素列の並びを取得してもよく、あるいは、確率の高い複数の音素列の並びを取得してもよい。後者の場合には、取得部１６は、例えば、あらかじめ決められた個数の音素列の並びを確率の高い順に取得してもよく、あるいは、あるしきい値以上の確率である音素列の並びを取得してもよい。そのしきい値は、例えば、あらかじめ決められたものであってもよく、あるいは、確率の最大値にあらかじめ決められた１より小さい数を掛けた値であってもよい。

なお、前述のように、取得部１６が、音素の並びを取得する際に、文字列言語モデル記憶部１８で記憶されている文字列言語モデルを用いる場合には、取得部１６は、音素列言語モデルを用いて算出する音素列の並びの確率として、辞書情報を用いて音素列の並びを変換した文字列の並びに対して、文字列言語モデル記憶部１８で記憶されている文字列言語モデルを用いて算出する確率を用いてもよい。

変換モデル記憶部１７では、変換モデルが記憶される。変換モデルとは、音素の並びと、音素の並びに対応する文字列の並びとを対応付けて有するパラレルコーパスから生成されたモデルである。その音素の並びは、例えば、音素列ごとの区切を有する音素の並びであってもよく、あるいは、そのような区切のない音素の並びであってもよい。その変換モデルの生成は、翻訳モデルの生成と同様にして行うことができる。すなわち、対訳コーパスに含まれる原言語のフレーズと目的言語のフレーズとがそれぞれ、音素の並びと文字列の並びとに対応することになる。ここでのフレーズとは、数単語からなる単語列のことである。したがって、変換モデルも、翻訳モデルと同様に、音素の並びと、その音素の並びに対応する文字列の並びと、その音素の並び及び文字列の並びに関する確率とを対応付けて有する情報である。音素の並びに対応する文字列の並びとは、その音素の並びに対応する音声を文字化した結果である文字列の並びの意味である。また、その確率は、音素の並びが与えられたときの文字列の並びの確率である。変換モデル及びその生成方法は、翻訳モデル及びその生成方法と同様であり、その詳細な説明を省略する。

文字列言語モデル記憶部１８では、文字列に関する言語モデルである文字列言語モデルが記憶される。言語モデルは、例えば、Ｎグラム言語モデルであってもよい。Ｎの値は、例えば、「２」「３」等であり、変換部１９が適切に文字列の並びを選択できる範囲であれば、Ｎの値はどのようなものであってもよい。文字列は、１または２以上の文字の並びである。本実施の形態による音声認識処理が（１）である場合には、文字列は、例えば、単語であってもよい。また、本実施の形態による音声認識処理が（２）である場合には、文字列は、例えば、韓国語のフレーズ（Ｅｏｊｅｏｌ）であってもよく、ハングルの一文字（Ｅｕｍｊｅｏｌ）であってもよい。

変換部１９は、変換モデル記憶部１７で記憶されている変換モデルと、文字列言語モデル記憶部１８で記憶されている文字列言語モデルとを用いて、取得部１６が取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、その音素列の並びを文字列の並びに統計的に変換する。なお、統計的に変換するとは、後述するように、統計的機械翻訳の場合と同様に、統計的な処理を行うことを意味している。変換部１９は、具体的には、取得部１６が取得した音素列の並びを、変換モデルを用いて文字列の並びに変換する。また、変換部１９は、文字列言語モデルを用いて、その文字列の並びの確率を算出する。その後、変換部１９は、音素列の並びを文字列の並びに変換した時の確率と、文字列言語モデルで算出した確率とを用いて、確率の高い文字列の並びを選択する。この処理は、翻訳モデルを用いる代わりに変換モデルを用い、原言語のフレーズを目的言語のフレーズに変換する代わりに音素列の並びを文字列の並びに変換する以外は、ＳＭＴで通常行われる処理と同様であり、詳細な説明を省略する。

なお、変換部１９が使用するモデルの生成には、例えば、ツールキットを用いてもよい。それについては、次のツールキットの文献を参照されたい。
文献：Ａ．Ｓｔｏｌｃｋｅ、「ＳＲＩＬＭ−ａｎｅｘｔｅｎｓｉｂｌｅｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇｔｏｏｌｋｉｔ」、ＩｎＰｒｏｃ．ＩＣＳＬＰ．ｐ．９０１−９０４、２００２年

また、変換部１９が変換を行う際の単語対応については、例えば、次の文献を参照されたい。
文献：Ｆ．Ｏｃｈ，Ｈ．Ｎｅｙ、「Ａｓｙｓｔｅｍａｔｉｃｃｏｍｐａｒｉｓｏｎｏｆｖａｒｉｏｕｓｓｔａｔｉｓｔｉｃａｌａｌｉｇｎｍｅｎｔｍｏｄｅｌｓ」、ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ２９Ｎｏ．１，１９−５１、２００３年

また、変換部１９は、ＳＭＴのデコーダによって変換を行う。そのデコーダとして、例えば、次の文献で示されるＣｌｅｏｐＡＴＲａを用いてもよい。
文献：Ａ．Ｆｉｎｃｈ，Ｅ．Ｄｅｎｏｕａｌ，Ｈ．Ｏｋｕｍａ，Ｍ．Ｐａｕｌ，Ｈ．Ｙａｍａｍｏｔｏ，Ｋ．Ｙａｓｕｄａ，Ｒ．Ｚｈａｎｇ，Ｅ．Ｓｕｍｉｔａ、「ＴｈｅＮＩＣＴ／ＡＴＲｓｐｅｅｃｈｔｒａｎｓｌａｔｉｏｎｓｙｓｔｅｍｆｏｒＩＷＳＬＴ２００７」、ＩｎＰｒｏｃ．ＩＷＳＬＴ．ｐ．１０３−１１０、２００７年

出力部２０は、変換部１９による変換後の文字列の並びである音声認識結果を出力する。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。この出力部２０による音声認識結果の出力がなされることによって、例えば、ユーザが音声認識結果を知ることができる。なお、図１では、音声認識装置１の外部に出力するように記載しているが、そうでなくてもよい。出力部２０は、音声認識装置１の内部に存在する記録媒体等に出力してもよい。また、出力部２０は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、出力部２０は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

なお、音響モデル記憶部１１、辞書情報記憶部１２、音素列言語モデル記憶部１３、変換モデル記憶部１７、文字列言語モデル記憶部１８とのうち、任意の２以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、音響モデルを記憶している領域が音響モデル記憶部１１となり、辞書情報を記憶している領域が辞書情報記憶部１２となる。

また、それらの記憶部に情報が記憶される過程は問わない。例えば、記録媒体を介して情報がそれらの記憶部で記憶されるようになってもよく、あるいは、通信回線等を介して送信された情報がそれらの記憶部で記憶されるようになってもよい。また、それらの記憶部での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。また、それらの記憶部は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

次に、本実施の形態による音声認識装置１の動作について、図２のフローチャートを用いて説明する。本実施の形態では、前述のように、受付部１４が記録媒体から読み出された音声信号を受け付けるものとする。

（ステップＳ１０１）受付部１４は、音声信号を受け付けるかどうか判断する。そして、音声信号を受け付ける場合には、図示しない記録媒体から音声信号を読み出して受け付け、そうでない場合には、音声信号を受け付けるまでステップＳ１０１の処理を繰り返す。なお、受付部１４は、例えば、音声信号を読み出して受け付ける旨の指示を音声認識装置１が受け付けた場合に、音声信号を受け付けると判断してもよく、その他のタイミングで、音声信号を受け付けると判断してもよい。

（ステップＳ１０２）特徴量抽出部１５は、受付部１４が受け付けた音声信号から特徴量を抽出する。なお、この特徴量は一定の時間ごとの情報である。例えば、１０ｍｓのフレームシフトで特徴量を算出する場合には、その１０ｍｓごとに特徴量が抽出されることになる。

（ステップＳ１０３）取得部１６は、特徴量抽出部１５が抽出した特徴量を音響モデル記憶部１１で記憶されている音響モデルを用いて音素の並びに変換する。この場合に、取得部１６は、複数の音素の並びと、その複数の音素の並びにそれぞれ対応する確率とを取得し、それらを図示しない記録媒体で記憶してもよい。

（ステップＳ１０４）取得部１６は、辞書情報記憶部１２で記憶されている辞書情報を用いて、音素の並びから音素列の並びを取得する。ステップＳ１０３で複数の音素の並びに変換された場合には、各音素の並びに対応する音素列の並びを取得する。また、一の音素の並びに対して、音素列の並びを複数取得することができる場合には、取得部１６は、音素列の並びを複数取得してもよい。

（ステップＳ１０５）取得部１６は、音素列言語モデル記憶部１３で記憶されている音素列言語モデルを用いて、音素列の並びの確率を算出する。そして、取得部１６は、音素の並びに変換した際の確率と、音素列言語モデルで算出した確率とを用いて、最終的な音素列の並びの確率を算出し、その確率の高い音素列の並びを取得する。前述のように、取得部１６は、１個の音素列の並びを取得してもよく、複数の音素列の並びを取得してもよい。

（ステップＳ１０６）変換部１９は、変換モデル記憶部１７で記憶されている変換モデルを用いて、取得部１６が取得した音素列の並びを文字列の並びに変換する。この場合に、変換部１９は、複数の文字列の並びと、その複数の文字列の並びにそれぞれ対応する確率とを取得し、それらを図示しない記録媒体で記憶してもよい。

（ステップＳ１０７）変換部１９は、文字列言語モデル記憶部１８で記憶されている文字列言語モデルを用いて、文字列の並びの確率を算出する。そして、変換部１９は、文字列の並びに変換した際の確率と、文字列言語モデルで算出した確率とを用いて、最終的な文字列の並びの確率を算出し、その確率の高い文字列の並びを選択する。なお、取得部１６が複数の音素列の並びを取得した場合には、変換部１９は、それらの複数の音素列の並びのそれぞれに対応する文字列の並びの確率を算出し、その確率の高い文字列の並びを選択してもよい。通常、ここで選択される文字列の並びは１個だけである。すなわち、最も確率の高い文字列の並びが選択される。

（ステップＳ１０８）出力部２０は、変換部１９が選択した文字列の並びである音声認識結果を出力する。そして、ステップＳ１０１に戻る。

なお、図２のフローチャートにおいて、受付部１４が長い音声信号を受け付けた場合には、長いポーズ等において複数の音声信号に区切り、その複数の音声信号のそれぞれに対して音声認識処理を行うようにしてもよい。また、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

ここで、（１）と（２）の場合に変換部１９等で行われる処理について、もう少し詳しく説明を行う。まず、（１）の場合について説明する。
（１）の場合に、変換部１９で行われる処理は、前述のように、ＳＭＴと類似の処理であり、ノイジーチャネルアプローチ（Ｎｏｉｓｙ−ＣｈａｎｎｅｌＡｐｐｒｏａｃｈ）と呼ばれるものである。インプットの音素の並びｐが与えられると、変換部１９は、次の最大尤度方程式を解くことによって最も確率の高い文字列の並びｗを算出する。

ここで、Ｐ（ｗ）は、文字列に関する言語モデルによって与えられる文字列ｗの確率である。また、Ｐ（ｐ｜ｗ）は、文字列ｗが与えられた時の音素の並びがｐである確率であり、音素から文字列への変換を示しており、変換モデルを用いて算出される。

次に、（２）の場合について説明する。ここで、特徴量抽出部１５によって抽出された特徴ベクトルをｘ＝［ｘ_１，ｘ_２，…，ｘ_Ｔ］とする。本実施の形態による音声認識装置１による音声認識は、条件付き確率Ｐ（ｗ_ｅ｜ｘ）の最大値をとる韓国語の文字列の並びｗ_ｅ＝［ｗ_ｅ１，ｗ_ｅ２，…，ｗ_ｅＮ］を見つけることであり、次式の最大尤度方程式を解くことに対応する。

音素シラブルである中間の記号ｓ_ｐ＝［ｓ_ｐ１，ｓ_ｐ２，…，ｓ_ｐＭ］を導入すると、この式は、次のようになる。
この式により、音声認識の処理は、２個の独立した部分の連続的な構成によってなされることが分かる。

第１のパート（前段の部分）は、最も確率の高い音素列であるｓ_ｐのハット（以下、「＾ｓ_ｐ」と書く。他の文字のハットについても同様である）を見つけることに対応する。この処理は、標準的なＨＭＭベースの音声認識によって実現することができる。ただし、次式のように、音素シラブルが認識単位として使用される。
なお、Ｐ（ｓ_ｐ）は、音素シラブル単位の言語モデルを示しており、Ｐ（ｘ｜ｓ_ｐ）は、音響モデルを示している。

第２のパート（後段の部分）は、音素シラブルの並び＾ｓ_ｐが与えられた場合における最も確率の高い文字列の並びｗ_ｅを見つけることに対応する。ここで、そのｗ_ｅは、Ｅｕｍｊｅｏｌの並びであってもよく、Ｅｏｊｅｏｌの並びであってもよい。これは、（１）の場合と同様に、次式のノイジーチャネルアプローチによって実現できるため、その詳細な説明を省略する。

［英語の自由発話の実験例］
本実施の形態による音声認識装置１の英語の自由発話の実験例について説明する。この実験例では、取得部１６は、従来の音声認識と同様の処理を行う。すなわち、辞書情報は、（Ａ２）の場合であり、音素列言語モデルは、単語の言語モデルである。そして、取得部１６は、受付部１４が受け付けた音声信号に対応する単語の並びと、その単語の並びに応じた音素の並びとを取得する。なお、そのうち、音素の並びのみが後段の変換部１９で用いられることは前述の通りである。

また、この実験例では、図３で示されるように、読み上げ音声データコーパスと、自由発話音声データコーパスとが用いられる。なお、両コーパス共に英語である。ウォールストリートジャーナル音声コーパス（ＷＳＪ０及びＷＳＪ１）は、新聞の本文記事を読んだ英語話者による読み上げ音声を録音したものが含まれている。そのコーパスについては、次の文献を参照されたい。
文献：Ｄ．Ｂ．Ｐａｕｌ，Ｊ．Ｂａｋｅｒ、「ＴｈｅｄｅｓｉｇｎｆｏｒｔｈｅＷａｌｌＳｔｒｅｅｔｊｏｕｒｎａｌ−ｂａｓｅｄＣＳＲｃｏｒｐｕｓ」、ＩｎＰｒｏｃ．ＩＣＳＬＰ、１９９２年

そのトレーニングセットは６０時間の音声データを含んでいる。また、いわゆるＷＳＪテストセットは、５０００ワードの２１５発話を含んでいるものである（Ｈｕｂ２）。それについては、次の文献を参照されたい。
文献：Ｓ．Ｐａｌｌｅｔｔ，Ｊ．Ｆｉｓｃｕｓ，Ｍ．Ｆｉｓｈｅｒ，Ｊ．Ｇａｒｏｆｏｌｏ，Ｂ．Ｌｕｎｄ，Ｍ．Ｐｒｚｙｂｏｃｋｉ、「１９９３ｂｅｎｃｈｍａｒｋｔｅｓｔｓｆｏｒｔｈｅＡＲＰＡｓｐｏｋｅｎｌａｎｇｕａｇｅｐｒｏｇｒａｍ」、ＩｎＰｒｏｃ．ＳｐｏｋｅｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＷｏｒｋｓｈｏｐ、１９９４年

自由発話音声データは、スイッチボードコーパスの２個のサブセットから得られたものである。スイッチボードコーパスは、自由発話における電話の会話についてのものであり、かなりの量の発音の変化を含んでいるものである。それらについては、次の文献を参照されたい。
文献：Ｊ．Ｇｏｄｆｒｅｙ，Ｅ．Ｈｏｌｌｉｍａｎ，Ｊ．ＭｃＤａｎｉｅｌ、「ＳＷＩＴＣＨＢＯＡＲＤ：Ｔｅｌｅｐｈｏｎｅｓｐｅｅｃｈｃｏｒｐｕｓｆｏｒｒｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔ」、ＩｎＰｒｏｃ．ＩＣＳＬＰ、ｐ．２４−２７、１９９６年
文献：Ｓ．Ｓａｋｔｉ，Ｓ．Ｍａｒｋｏｖ，Ｓ．Ｎａｋａｍｕｒａ、「ＰｒｏｂａｂｉｌｉｓｔｉｃｐｒｏｎｕｎｃｉａｔｉｏｎｖａｒｉａｔｉｏｎｍｏｄｅｌｂａｓｅｄｏｎＢａｙｅｓｉａｎｎｅｔｗｏｒｋｓｆｏｒｃｏｎｖｅｒｓａｔｉｏｎａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ」、ＩｎＳｅｃｏｎｄＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＵｎｉｖｅｒｓａｌＣｏｍｍｕｎｉｃａｔｉｏｎ、２００８年

そのスイッチボードコーパスの１個目のサブセット（手作業で文字化したスイッチボードコーパス）は、手作業で音素が文字化された４時間のデータであり、５１１７発話を含んでいる。そして、その１個目のサブセットは、自由発話のモデリングのために用いられる。すなわち、変換モデルの生成と、文字列言語モデルの生成とに用いられる。スイッチボードコーパスの２個目のサブセットは、ＳＶｉｔｃｈｂｏａｒｄ１（ＴｈｅＳｍａｌｌＶｏｃａｂｕｌａｒｙＳｗｉｔｃｈｂｏａｒｄＤａｔａｂａｓｅ）である。ＳＶｉｔｃｈｂｏａｒｄ１は、スイッチボードコーパス全体から統計的に選択された発話を含むものであり、次の文献を参照されたい。このデータセットは、１０単語から５００単語までの複数の小規模語彙タスクに区分されている。各区分はさらに、Ａ〜Ｅの５個のサブセットに分割されている。この実験例では、ＳＶｉｔｃｈｂｏａｒｄ１の３個のサブセット、すなわち、５０単語、２５０単語、５００単語の３個のサブセットを用いた。その５０単語、２５０単語、５００単語の各場合について、Ａ及びＢのサブセットからランダムに選択した最低３単語の長さの２００発話を評価のために用いた。
文献：Ｓ．Ｋｉｎｇ，Ｃ．Ｂａｒｔｅｌｓ，Ｊ．Ｂｉｌｍｅｒｓ、「ＳｍａｌｌｖｏｃａｂｕｌａｒｙｔａｓｋｓｆｒｏｍＳｗｉｔｃｈｂｏａｒｄ１」、ＩｎＰｒｏｃ．ＥＵＲＯＳＰＥＥＣＨ、ｐ．３３８５−３３８８、２００５年

なお、図３において、「ＡＳＲ訓練」は、音響モデル、辞書情報、音素列言語モデル（この実験例では、単語の言語モデルである）の生成で用いられることを示している。「ＳＭＴ訓練」は、変換モデルの生成で用いられることを示している。「ＬＭ訓練」は、文字列言語モデルの生成で用いられることを示している。また、「ＡＭ適応」は、後述するＭＡＰ適応で用いられることを示している。

また、いくつかの単語では、１０を超える異なった発音の変化がある。例えば、「ａｎｄ」の場合には、／ａｅｅｈｎ／、／ａｅｅｈｎｄ／、／ａｅｎ／、／ａｅｎｄ／、／ａｈｎ／、／ａｈｎｄ／などの発音の変化がある。

トライフォンのＨＭＭ音響モデル（ＡＭ）は、前述のＷＳＪコーパスを用いて生成された。自由発話のデータのサンプリングレートが８ｋＨｚであったため、ＷＳＪデータも１６ｋＨｚから８ｋＨｚにダウンサンプリングした。フレーム長２０ｍｓのハミング窓、１０ｍｓのフレームシフト、２５次元の特徴量を用いた。２５次元の特徴量は、ＭＦＣＣの１２次元、ΔＭＦＣＣの１２次元、Δ対数パワーの１次元を含むものである。各音素について、初期ＨＭＭとして３状態を用いた。また、ＭＤＬ−ＳＳＳ（ｍｉｎｉｍｕｍｄｅｓｃｒｉｐｔｉｏｎｌｅｎｇｔｈｃｒｉｔｅｒｉｏｎｂａｓｅｄｓｕｃｃｅｓｓｉｖｅｓｔａｔｅｓｐｌｉｔｔｉｎｇ）法を適用することによって、最適状態ＨＭｎｅｔ（隠れマルコフネットワーク）を得た。そのＭＤＬ−ＳＳＳ法の詳細については、次の文献を参照されたい。
文献：Ｔ．Ｊｉｔｓｕｈｉｒｏ，Ｔ．Ｍａｔｓｕｉ，Ｓ．Ｎａｋａｍｕｒａ、「Ａｕｔｏｍａｔｉｃｇｅｎｅｒａｔｉｏｎｏｆｎｏｎ−ｕｎｉｆｏｒｍＨＭＭｔｏｐｏｌｏｇｉｅｓｂａｓｅｄｏｎｔｈｅＭＤＬｃｒｉｔｅｒｉｏｎ」、ＩＥＩＣＥＴｒａｎｓ．Ｉｎｆ．Ｓｙｓｔ．Ｅ８７−ＤＮｏ．８、２００４年

この実験例では、４個の異なる音響モデルを生成した。各音響モデルの違いはガウス混合成分の数であり、５個、１０個、１５個、２０個である。各音響モデルの状態の総数は１９０３個である。読み上げ音声データ及び自由発話音声データに対するその音響モデルを用いた音声認識の精度は、図４で示される通りである。図４で示されるように、自由発話になると、精度が大きく落ちることになる。これがこの実験例におけるベースラインとなる。

なお、ＳＶｉｔｃｈｂｏａｒｄ１において、自由発話の音声データの量は非常に限定されているため、図３における「ＡＭ適応」で示されるデータを用いたＭＡＰ（最大事後確率推定法）適応によって、ベースラインを会話の音声データに適応させた。

変換モデルの生成には、手作業で文字化したスイッチボードコーパスが用いられた。その場合において、音素が原言語として用いられ、単語が目的言語として用いられた。ここで、そのスイッチボードコーパスには、辞書ベースの正当な音素の並びと、手作業で文字化した自由発話に応じた音素の並びとの両方が含まれており、両者の合計で１００００発話となる。また、文字列言語モデルの生成には、手作業で文字化したスイッチボードコーパスと、ＳＶｉｔｃｈｂｏａｒｄ１Ｃ＆Ｄ＆Ｅとが用いられた。なお、変換部１９の入力として、テストリストの正確な音素の並びを与えた場合には、図５で示されるように、９９％までの精度が得られた。なお、単語数が５０単語から５００単語に増えるにしたがって、少しずつ精度が落ちていく。時間的な制限から、以下の実験例では、５０単語の場合について実験を行った。

次に、音声信号を受付部１４で受け付けるところからテストを行った。すなわち、取得部１６によって、従来の音声認識と同様に、確率の高い単語の並びと音素の並びとが取得される。しかし、前述のように、その音素の並びのみが後段の変換部１９で用いられる。図６は、その結果である。図６では、前述のように、５０単語のテストデータが用いられている。また、ベースライン（Ｂａｓｅｌｉｎｅ）は、図４の結果と同じである。Ａｄａｐｔ＋ＳＭＴ（１ｂｅｓｔ）は、取得部１６が最も確率の高い１個の音素の並びのみを取得し、その音素の並びについてのみ変換部１９による変換を行った結果である。その場合には、ベースラインに対して１９．５％だけ相対的（ベースラインを１００としたパーセント）に精度がよくなっている（５混合の場合）。なお、その場合には、最も確率の高い１個の音素の並びのみを取得しただけであるため、さらに多くの音素の並びを取得することによって、さらに精度がよくなる。例えば、Ａｄａｐｔ＋ＳＭＴ（１０ｂｅｓｔ）、Ａｄａｐｔ＋ＳＭＴ（５０ｂｅｓｔ）は、取得部１６が確率の高い順にそれぞれ１０個、５０個の音素の並びを取得し、その音素の並びについて変換部１９による変換を行った結果である。それらの場合には、Ａｄａｐｔ＋ＳＭＴ（１ｂｅｓｔ）に対して９．０％だけ相対的に精度がよくなっている（５混合の場合）。

さらなる精度向上のために、取得部１６の取得結果に対する各単語の信頼性をＧＵＰＰ（ｇｅｎｅｒａｌｉｚｅｄｕｔｔｅｒａｎｃｅｐｏｓｔｅｒｉｏｒｐｒｏｂａｂｉｌｉｔｙ）アプローチを用いて評価した。なお、ＧＵＰＰについては、次の文献を参照されたい。そのＧＵＰＰアプローチでは、異なるしきい値を列挙し、しきい値よりも低い信頼性を有する発話のみを変換部１９にインプットとし、信頼性の高いものは変換部１９による変換を行わず、そのまま出力した。そのＧＵＰＰアプローチの最適な結果のみを図６において、Ａｄａｐｔ＋ＳＭＴＧＵＰＰ（５０ｂｅｓｔ）で示している。最もよいシステムでは、精度が５３．６％に達している。
文献：Ｗ．Ｋ．Ｌｏ，Ｆ．Ｓ．、「Ｇｅｎｅｒａｌｉｚｅｄｐｏｓｔｅｒｉｏｒｐｒｏｂａｂｉｌｉｔｙｆｏｒｍｉｎｉｍｕｍｅｒｒｏｒｖｅｒｉｃａｔｉｏｎｏｆｒｅｃｏｇｎｉｚｅｄｓｅｎｔｅｎｃｅｓ」、ＩｎＰｒｏｃ．ＩＣＡＳＳＰ、ｐ．８５−８８、２００５年

このように、本実施の形態による音声認識装置１によって、最適な結果の場合、ベースラインに対して２８．２％相対的に精度がよくなっている。したがって、変換部１９による変換を行うことによって、自由発話に対して、より精度の高い音声認識を実現できることが分かる。

［韓国語の実験例］
次に、本実施の形態による音声認識装置１の韓国語の実験例について説明する。韓国語では、ＥｏｊｅｏｌやＥｕｍｊｅｏｌ、音素等の関係は、例えば、次のようになる。なお、Ｅｏｊｅｏｌ、Ｅｕｍｊｅｏｌは、ローマ字表記である。

意味：法律の学習
Ｅｏｊｅｏｌ：／ｂｅｏｂ−ｈａｇ／
Ｅｕｍｊｅｏｌ：／ｂｅｏｂ／／ｈａｇ／
音素シラブル：／ｂｅｏ／／ｐａｇ／
音素：／ｂ／／ｅｏ／／ｐ／／ａ／／ｇ／

この例のように、ハングルの１文字単位での発音は／ｂｅｏｂ／と／ｈａｇ／であったとしても、両者が隣接することによって、１文字ごとの発音が／ｂｅｏ／と／ｐａｇ／のように変化することになる。本実施の形態による音声認識装置１は、このような発音の変化にも対応できることになる。

ここでの辞書情報は、（Ａ１）の場合であり、音素列言語モデルは、音素シラブルの言語モデルである。文字列言語モデルの文字列は、Ｅｏｊｅｏｌの場合と、Ｅｕｍｊｅｏｌの場合の両方について説明する。

この実験例では、ＳｉＴＥＣ（ＳｐｅｅｃｈＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙａｎｄＩｎｄｕｓｔｒｙＰｒｏｍｏｔｉｏｎＣｅｎｔｅｒ）によって開発された韓国語の大規模コーパスを用いる。このコーパスについては、次の文献を参照されたい。
文献：Ｂ．Ｋｉｍ，Ｄ．Ｃｈｏｉ，Ｙ．Ｋｉｍ，Ｋ．Ｌｅｅ，Ｙ．Ｌｅｅ、「ＣｕｒｒｅｎｔｓｔａｔｅｓａｎｄｆｕｔｕｒｅｐｌａｎｓａｔＳｉＴＥＣｆｏｒｓｐｅｅｃｈｃｏｒｐｏｒａｆｏｒｃｏｍｍｏｎｕｓｅ」、Ｍａｌｓｏｒｉ，ｖｏｌ．４６，ｐ．１７５−１８６，２００３年

この実験例で用いるコーパスを、Ｓｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２とする。
Ｓｅｎｔ０１は、音声学的にバランスのとれた文のコーパスである。すなわち、Ｓｅｎｔ０１には、韓国語の音素がバランスよく含まれている。そのＳｅｎｔ０１は、韓国語の大規模コーパスから、頻度の高い形態素を含むように選択された約２万の文を含むものである。また、Ｓｅｎｔ０１は、２００のプロンプトセットに分けられている。また、Ｓｅｎｔ０１は、２００人（男性１００人、女性１００人）の話者のクリーン音声を防音室で録音したものである。なお、各話者は、約１００文である１個のプロンプトセットの発話を行った。

Ｄｉｃｔ０１とＤｉｃｔ０２は、口述筆記のアプリケーションのための文である。Ｄｉｃｔ０１とＤｉｃｔ０２のそれぞれは、頻度の高い形態素と単語とを含むように選択された約４万の文を含むものであり、２００のプロンプトセットに分けられている。また、Ｄｉｃｔ０１及びＤｉｃｔ０２はそれぞれ、４００人（男性２００人、女性２００人）の話者のクリーン音声を防音室で録音したものである。なお、各話者は、約１００文の発話を行った。

それらのすべてのコーパスについて、ＥｕｍｊｅｏｌとＥｏｊｅｏｌと音素とがローマ字表記で文字化された。また、Ｓｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２の各コーパスについて、最後の２個のプロンプトセットがテストセットとされ、それ以外が訓練セットとされた。ＳｉＴＥＣコーパスの訓練セット、テストセットにおけるＥｏｊｅｏｌ、Ｅｕｍｊｅｏｌの範囲は図７で示される通りである。なお、「Ｅｕｍｊｅｏｌの数（重複なし）」とは、異なるＥｕｍｊｅｏｌの数のことである。「音素シラブルの数（重複なし）」も同様である。

次に、大語彙連続音声認識システムのベースラインについて説明する。ベースラインにおけるＨＭＭベースの音響モデルは、Ｓｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２の訓練データを用いて生成される。サンプリング周波数は１６ｋＨｚであり、フレーム長２０ｍｓのハミング窓、１０ｍｓのフレームシフト、２５次元の特徴量を用いた。２５次元の特徴量は、ＭＦＣＣの１２次元、ΔＭＦＣＣの１２次元、Δ対数パワーの１次元を含むものである。

音素セット全体は、４０の音素記号を有する。それらは、１９個の子音と、２１個の母音とを含んでいる。２１個の母音は、９個の単母音と、１２個の複母音とを含んでいる。音響モデルを生成する際に、１個の無音記号を追加した。各音素について、初期ＨＭＭとして３状態を用いた。また、ＭＤＬ−ＳＳＳ法を適用することによって、最適状態ＨＭｎｅｔを得た。この実験例では、４個の異なる音響モデルを生成した。各音響モデルの違いはガウス混合成分の数であり、５個、１０個、１５個、２０個である。各音響モデルにおいて、文脈依存のトライフォンの状態の総数は２２３１個である。

ベースラインでの辞書情報は、Ｅｕｍｊｅｏｌを単位としたものであり、一のＥｕｍｊｅｏｌに複数の音素の並びが対応したものとなる。また、言語モデルは、Ｅｕｍｊｅｏｌのバイグラムとトライグラムの言語モデルがＳｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２を用いて学習された。トライグラムのパープレキシティーは、Ｓｅｎｔ０１で１６．６であり、Ｄｉｃｔ０１で２０．６であり、Ｄｉｃｔ０２で３１．２であった。また、ＯＯＶ（Ｏｕｔ−ｏｆ−Ｖｏｃａｂｕｌａｒｙ）率は１％未満であった。

Ｓｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２のそれぞれのテストセットに対するベースラインの精度は図８で示される通りである。Ｓｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２はそれぞれ、最もよいモデルで７０．１３％、６７．９６％、５７．３９％を達成できただけであった。他の言語と公平に比較する場合には、この結果は文字の精度であることに留意する必要がある。辞書情報の容量が小さく、ＯＯＶ率が小さかったとしても、音響のあいまいさが大きいことによって、音声認識が困難になっていることが分かる。

次に、本実施の形態による音声認識装置１を用いた韓国語の実験例について説明する。この実験例では、取得部１６が音素シラブルである音素列の並びを取得し、変換部１９がその音素列の並びをＥｏｊｅｏｌまたはＥｕｍｊｅｏｌの並びに変換する場合について説明する。音響モデル記憶部１１で記憶される音響モデルは、ベースラインの際の音響モデルと同じである。一方、辞書情報と、言語モデルは、ベースラインの場合と異なっている。辞書情報記憶部１２で記憶される辞書情報と、音素列言語モデル記憶部１３で記憶される音素列言語モデルとは、ベースラインの場合のＥｕｍｊｅｏｌを単位としたものとは異なり、音素シラブルを単位としたものである。そのため、この場合には複数の発音は存在しない。すなわち、この場合には、音素の並びと音素シラブルとは一対一に対応することになる。そのため、辞書情報の容量は、ベースラインの場合に比べて三分の一になる。音素列言語モデルのトライグラムのパープレキシティーは少しだけ上がり、Ｓｅｎｔ０１で１８．７であり、Ｄｉｃｔ０１で２２．４であり、Ｄｉｃｔ０２で３１．３であった。また、ＯＯＶ率は１％未満であった。

取得部１６による音素シラブルの取得に関するＳｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２の精度は図９で示される通りである。Ｓｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２はそれぞれ、最もよいモデルで８８．６７％、８８．７１％、８０．１７％という非常に高い精度を実現することができた。しかしながら、これは音素シラブルの認識結果であるため、図８のベースラインの結果と直接比較することはできない。

次に、変換部１９による変換に関する訓練について説明する。この場合の変換モデルの生成及び文字列言語モデルの生成も、同じ訓練セットＳｅｎｔ０１、Ｄｉｃｔ０１、Ｄｉｃｔ０２を用いて行われる。なお、文字列がＥｏｊｅｏｌである場合と、Ｅｕｍｊｅｏｌである場合の２種類の訓練が行われた。そして、変換部１９にテストセットの正確な音素シラブルの並びを与えた場合の精度は、図１０で示される通りである。

次に、取得部１６が取得した音素列（音素シラブル）の並びに対して、変換部１９による変換を行った。Ｅｏｊｅｏｌに変換した場合の精度は図１１で示され、Ｅｕｍｊｅｏｌに変換した場合の精度は図１２で示される。他の言語と比較する場合に、図１１は単語やフレーズの精度であると考えることができ、図１２は文字の精度であると考えることができる。Ｓｅｎｔ０１のテストセットについて、最もよいシステムのＥｏｊｅｏｌ精度は７１．３０％に達し、最もよいシステムのＥｕｍｊｅｏｌ精度は９１．２１％に達した。そのＥｕｍｊｅｏｌ精度については、ベースラインと比較して絶対値で２６．６７％だけ精度がよくなったことが分かる。

以上のように、本実施の形態による音声認識装置１によれば、前段において音素の並びを取得し、後段において音素の並びを文字列の並びに変換することによって、隣接する文字に依存する発音の変化や、自由発話による発音の変化が起こったとしても、精度高く音声認識を行うことができるようになる。

（実施の形態２）
本発明の実施の形態２による音声認識装置について、図面を参照しながら説明する。本実施の形態による音声認識装置は、文字列と音素の並びとのペアに関する言語モデルを用いて音声認識を行うものである。

図１３は、本実施の形態による音声認識装置２の構成を示すブロック図である。本実施の形態による音声認識装置２は、音響モデル記憶部１１と、辞書情報記憶部１２と、音素列言語モデル記憶部１３と、受付部１４と、特徴量抽出部１５と、取得部１６と、出力部２０と、文字列言語モデル記憶部２１と、選択部２２とを備える。なお、文字列言語モデル記憶部２１、及び選択部２２以外の構成及び動作は、出力部２０が選択部２２の選択した文字列の並びである音声認識結果を出力する以外、実施の形態１と同様であり、その説明を省略する。

文字列言語モデル記憶部２１では、文字列言語モデルが記憶される。この文字列言語モデルは、文字列及びその文字列に対応する音素の並びのペアに関する言語モデルである。その文字列は通常、単語である。言語モデルは、例えば、Ｎグラム言語モデルであってもよい。Ｎの値は、例えば、「２」「３」等であり、取得部１６が適切に音素の並びを取得することができる範囲であれば、Ｎの値はどのようなものであってもよい。一のペアに含まれる文字列と音素の並びとは、互いに対応したものである。すなわち、一ペアに含まれる文字列を発音した際の音素の並びが、その同じペアに含まれる音素の並びとなる。この文字列言語モデルは、例えば、文字列「ｅｙｅ」と音素の並び「ａｙ」とのペアや、文字列「Ｉ」と音素の並び「ａｙ」とのペア等の言語モデルとなる。文字列言語モデルがバイグラムである場合には、例えば、確率Ｐ（ｗａｈｎ＋ｗａｎｔ｜ａｙ＋Ｉ）や、確率Ｐ（ｗａｈｎ＋ｗａｎｔ｜ａｙ＋ｅｙｅ）が文字列言語モデルに含まれてもよい。なお、＋の左側が音素の並びであり、＋の右側が文字列である。なお、この言語モデルは、文字列と、音素の並びとが結合されたものであるため、結合列（ｊｏｉｎｔ−ｓｅｑｕｅｎｃｅ）モデルや、結合列Ｎグラムモデル等と呼ぶこともある。この文字列言語モデルは、文字列の並びと、音素の並びとを対応付けて有するパラレルコーパスから生成されることになる。

文字列言語モデル記憶部２１に文字列言語モデルが記憶される過程は問わない。例えば、記録媒体を介して文字列言語モデルが文字列言語モデル記憶部２１で記憶されるようになってもよく、あるいは、通信回線等を介して送信された文字列言語モデルが文字列言語モデル記憶部２１で記憶されるようになってもよい。また、文字列言語モデル記憶部２１での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。また、文字列言語モデル記憶部２１は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。また、複数の記憶部が同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよいことは、実施の形態１と同様である。

選択部２２は、取得部１６によって取得された音素列の並びから、文字列言語モデルを用いて、確率の高い文字列の並びを選択する。すなわち、選択部２２は、取得部１６が取得した音素列の並びについて、文字列言語モデルを用いた確率を算出する。なお、同じ音素に対して、異なる文字列の対応しているペア（例えば、ペア「ａｙ＋Ｉ」と、ペア「ａｙ＋ｅｙｅ」など）が存在するため、一の音素の並びに対して、複数の確率を算出することができる。選択部２２は、そのようにして複数の確率を算出した上で、最も確率の高いものを特定し、その特定した最も高い確率の算出で用いられたペアの並びを特定する。そして、選択部２２は、最終的にそのペアに含まれている文字列の並びを選択する。なお、選択部２２は、取得部１６から一の音素列の並びを取得し、それに対応する最も確率の高い文字列の並びを選択してもよく、あるいは、取得部１６から複数の音素列の並びを取得し、それらに対応する最も確率の高い文字列の並びを選択してもよい。

次に、本実施の形態による音声認識装置２の動作について、図１４のフローチャートを用いて説明する。なお、ステップＳ２０１以外の処理は、実施の形態１の図２のフローチャートと同様であり、その説明を省略する。ただし、ステップＳ１０８において、図２のフローチャートでは変換部１９の変換結果を出力したが、図１４のフローチャートでは選択部２２の選択結果である音声認識結果の出力を行う。

（ステップＳ２０１）選択部２２は、取得部１６によって取得された音素列の並びに対応する確率を、文字列言語モデル記憶部２１で記憶されている文字列言語モデルを用いて算出する。そして、選択部２２は、確率の高い文字列の並びを選択する。
なお、図１４のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

ここで、選択部２２による選択について、もう少し詳しく説明を行う。結合列Ｎグラムモデルは、与えられたインプットである音素の並びｐ∈Ｐに対して、次の最大尤度方程式を解くことによって最も確率の高い文字列の並びｗ∈Ｗを算出するために用いられる。ここでは、文字列が単語の場合について説明する。したがって、ｗを単語と呼ぶこともある。

なお、Ｗは単語のセットを示すものであり、Ｐは音素のセットを示すものであり、＾ｗは、最も可能性の高い単語の並びを示すものである。また、ｐは与えられた音素の並び、すなわち、取得部１６が取得した音素の並びを示すものである。

結合列Ｎグラムモデルは、前述のように、インプットである音素の並びと、アウトプットである単語の並びとの対応したペアを用いて生成される。そのペアは、テキストデータのペアである。音素単語結合マルチグラムは、音素の並びと単語の並び（長さは異なっていてもよい）のペアｑ＝（ｐ、ｗ）∈Ｑ⊆Ｐ×Ｗである。ｑ_ｋ、ｐ_ｋ、ｗ_ｋはそれぞれ、ｑ＝（ｐ、ｗ）のｋ番目の要素を記述するために用いられる。

例えば、短い発話「ｗｅｗｉｌｌｇｏｔｏｇｅｔｈｅｒ」に対する音素と単語のペアである列ｑは、図１５（ａ）で示されるようになりうる。図１５（ａ）で示されるように、単語の並びと音素の並びとは、同じ数の区分でグループ化されている。そのことを共通区分と呼ぶことにする。あるインプット（音素の並び）とアウトプット（単語の並び）を考えた場合に、それを区分する異なる方法がありうる。したがって、区分はただ一つではないことがある。図１５（ａ）に関する異なる区分は、図１５（ｂ）で示されるものである。

このあいまいさに起因して、前述の最大尤度方程式における結合確率Ｐｒｏｂは、列ｑのすべての確率の和をとることによって算出される。すなわち、次式のようになる。

ここで、ｑ∈Ｑは、音素・単語ペアの並びであり、Ｓ（ｐ，ｗ）は、ｐ、ｗの存在するすべての共通区分のセットであり、次式のようになる。

ここで、Ｋ＝｜ｑ｜は、音素・単語ペアの長さを示しており、ｐ_ｑ１とｐ_ｑ２との間の記号は、構成要素間の連結を示すものである。確率分布Ｐｒｏｂ（ｐ，ｗ）は、いくつかの音素・単語ペアの並びｑについて確率分布Ｐｒｏｂ（ｑ）を計算することによって得られるようになった。それらのｑの並び、ｑ＝ｑ_１，…，ｑ_Ｋは、標準的なＮグラム近似によって次式のようにモデル化することができる。

この式において、発話の始点と終点における特有の現象をモデル化するために、ｉ＜０とｉ＞Ｋの位置も考慮に入れられている。区分のアルゴリズムや、モデル推定については、文字から音素（ｇｒａｐｈｅｍｅ−ｔｏ−ｐｈｏｎｅｍｅ）アプローチを、修正を加えることなく適用することができる。それらのアルゴリズムについては、次の文献を参照されたい。
文献：Ｍ．Ｂｉｓａｎｉ、Ｈ．Ｎｅｙ，「Ｊｏｉｎｔ−ｓｅｑｕｅｎｃｅｍｏｄｅｌｓｆｏｒｇｒａｐｈｅｍｅ−ｔｏ−ｐｈｏｎｅｍｅｃｏｎｖｅｒｓｉｏｎ」、ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，ｖｏｌ．５０，ｐ．４３４−４５１，２００８年

次に、本実施の形態による音声認識装置２の実験例について説明する。この実験例では、図１６で示されるように、読み上げ音声データコーパスと、自由発話音声データコーパスとが用いられる。読み上げ音声データコーパスは、実施の形態１における「英語の自由発話の実験例」と同様のウォールストリートジャーナル音声コーパスであり、その詳細な説明を省略する。

自由発話音声データは、Ｂｕｃｋｅｙｅコーパスから得られたものである。そのＢｕｃｋｅｙｅコーパスについては、次の文献を参照されたい。Ｂｕｃｋｅｙｅコーパスは、英語で入手可能な会話音声において、文字化された発音を含むクリーン音声データソースのうち、最も豊富なものの一つである。このＢｕｃｋｅｙｅコーパスは、オハイオ州の米国英語を母国語とする４０人の話者の音声で構成されている。それらの話者は、政治やスポーツ、交通、教育等の日常的な話題について、各自の意見を述べ、自由に会話を行っているものである。
文献：Ｐ．Ｍａｒｋ，Ｋ．Ｊｏｈｎｓｏｎ，Ｅ．Ｈｕｍｅ，Ｓ．Ｋｉｅｓｌｉｎｇ，Ｗ．Ｒａｙｍｏｎｄ、「Ｔｈｅｂｕｃｋｅｙｅｃｏｒｐｕｓｏｆｃｏｎｖｅｒｓａｔｉｏｎａｌｓｐｅｅｃｈ：Ｌａｂｅｌｉｎｇｃｏｎｖｅｎｔｉｏｎｓａｎｄａｔｅｓｔｏｆｔｒａｎｓｃｒｉｂｅｒｒｅｌｉａｂｉｌｉｔｙ」、ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，ｖｏｌ．４５，ｐ．９０−９５，２００５年

次の文献によれば、そのようなサンプルは、言語共同体における話者間の変化を十分扱うことができるだけ大きなものであることが示唆されている。
文献：Ｒ．Ｆａｓｏｌｄ，「ＴｈｅＳｏｃｉｏｌｉｎｇｕｉｓｔｉｃｓｏｆＬａｎｇｕａｇｅ」、ＢｌａｃｋｗｅｌｌＰｕｂｌｉｓｈｅｒｓ，Ｏｘｆｏｒｄ，１９９０年

Ｂｕｃｋｅｙｅコーパスにおいて、録音された会話は、英語のテキストに文字化され、また、音素のラベル付けがなされている。全体として、話者は約３０万単語、９６００個の異なる単語を発話している。全体の会話は音声認識のインプットには長すぎるため、各会話は、長いポーズの時点や話者の変化の時点で分割した。結局、約４万の短い発話（約４０時間の発話）となった。３６話者（３６３９０発話）がモデルの生成（訓練）のために用いられ、４話者（３３８５発話）がテストのために用いられた。音素から単語への変換（ｐｈｏｎｅｍｅ−ｔｏ−ｗｏｒｄ）システム（これを「Ｐ２Ｗ」とすることもある）で用いるモデル（文字列言語モデル）は、オープンソースのツールＳｅｑｕｉｔｕｒＧ２Ｐ（ｈｔｔｐ：／／ｗｗｗ−ｉ６．ｉｎｆｏｒｍａｔｉｋ．ｒｗｔｈ−ａａｃｈｅｎ．ｄｅ／ｗｅｂ／Ｓｏｆｔｗａｒｅ／ｇ２ｐ．ｈｔｍｌ）を用いて生成した。なお、このツールでは、２５５個の異なる記号しか用いることができない。したがって、Ｂｕｃｋｅｙｅコーパスを統計的に少ない語彙の異なるものに分割した。ここでは、５０単語、１００単語、２５０単語の３個に分割した。分割したそれぞれについて、テストセットの部分から２００発話をランダムに選択し、それを評価のために用いた。

次に、ベースラインについて説明する。最適なベースラインを探すために、異なる試みを行った。一つの試みは、読み上げ音声データを用いて音響モデルを生成し、自由発話音声データを用いてその音響モデルを改善したものを用いることである。トライフォンのＨＭＭの音響モデルを、前述のＷＳＪコーパスの読み上げ音声データを用いて生成した。サンプリングレートは１６ｋＨｚであり、フレーム長２０ｍｓのハミング窓、１０ｍｓのフレームシフトを用いた。そして、実施の形態１における「英語の自由発話の実験例」と同様の２５次元の特徴量を用いた。また、ＭＤＬ−ＳＳＳ法を適用することによって、最適状態ＨＭｎｅｔを得た。この実験例でも、５個、１０個、１５個、２０個のガウス混合成分の数に応じた４個の異なる音響モデルを生成した。各音響モデルの状態の総数は２００９個である。４個の各音響モデルは、図１６で示されるＢｕｃｋｅｙｅコーパスのデータを用いて、Ｂｕｃｋｅｙｅコーパスの会話音声データに対する適応や再訓練を行った。

もう一つの試みは、Ｂｕｃｋｅｙｅコーパスを用いて音響モデルを生成することである。この場合にも、ＷＳＪの音響モデルの場合と同様に、Ｂｕｃｋｅｙｅの音響モデルを生成した。この場合も、５個、１０個、１５個、２０個のガウス混合成分の数に応じた４個の異なる音響モデルを生成した。各音響モデルの状態の総数は６１２個である。

最適なベースラインを見つけるために、それらの音響モデルについて、自由発話音声データを用いたテストを行った。また、参考のために、ＷＳＪ音響モデルについて、ＷＳＪテストセットを用いたテストも行った。読み上げ音声データと、Ｂｕｃｋｅｙｅコーパスの２５０語のテストセットとを用いた異なる音響モデルの評価結果は、図１７で示される通りである。図１７において、Ｂｕｃｋｅｙｅコーパスに適応させた音響モデルや、Ｂｕｃｋｅｙｅコーパスで再訓練した音響モデルは、それらを行っていない読み上げ音声データの音響モデルよりも性能がよくなっている。しかしながら、Ｂｕｃｋｅｙｅコーパスの音響モデルの性能が最も優れていたため、本実験例においては、その音響モデルをベースラインとした。

次に、結合列Ｎグラムアプローチについて説明する。Ｐ２Ｗの文字列言語モデル（結合列言語モデル）は、図１６で示されるＢｕｃｋｅｙｅコーパスのデータを用い、ソースを音素とし、ターゲットを単語として生成された。ここで、辞書ベースの標準的な音素の並びと、手作業でラベル付けがなされた実際に発音された音素の並びとを用いた。それらの音素の並びは、全体として、１４０００〜２００００発話となった。言語モデルの次元を増加させることによって、Ｐ２Ｗシステムの精度（すなわち、選択部２２の精度）も向上することになる。最適な結果は、５０語、１００語のテストセットに対しては、７グラム言語モデルを用いた場合に得られ、２５０語のテストセットに対しては、８グラム言語モデルを用いた場合に得られた。モデルの生成時に標準的な音素の並びと実際に発音された音素の並びとの混ぜ合わせたにもかかわらず、選択部２２において、テストデータの正確な音素の並びを用いてテストを行った場合に、図１８で示されるように、よい精度が得られた。自由発話の音素の並びによってほんの少しの間違いは起こったが、それでもＰ２Ｗは９６％までの精度を得ることができた。図１８から、単語数が５０語から２５０語へと多くなるにしたがって、ほんの少し精度が落ちていくことが分かる。

次に、選択部２２による選択を、取得部１６による取得結果に対して実行した。取得部１６は、従来の音声認識と同様の処理を行うため、単語の並びと、それに対応した音素の並びとを取得するが、後段の選択部２２による処理は、そのうちの音素の並びのみを用いた。その結果は、図１９〜図２１で示される通りである。図１９は、５０語のテストセットを用いた場合の結果である。図２０は、１００語のテストセットを用いた場合の結果である。図２１は、２５０語のテストセットを用いた場合の結果である。１ｂｅｓｔや１０ｂｅｓｔ、５０ｂｅｓｔ、ＧＵＰＰ、ＵｐｐｅｒＢｏｕｎｄ等については、実施の形態１における「英語の自由発話の実験例」の場合と同様であり、それらの説明を省略する。取得部１６の最適の１個の結果のみを用いた場合（Ｐ２Ｗ（１ｂｅｓｔ））には、５０語や１００語のテストセットにおけるいくつかではベースラインに対する改善が見られたが、２５０語では、改善は見られなかった。しかし、これは単に１個の出力結果に対して文字列の選択を行っただけであるため、更なる精度の改善のためには、多くの出力結果を用いればよいことになる。実際、図１９〜図２１の結果において、１０ｂｅｓｔや５０ｂｅｓｔでは、精度が改善していることが分かる。なお、この場合にも、選択部２２が選択する文字列の並びは１個だけである。最適な結果では、５０語のテストセットの場合には、ベースラインに対して６．０％だけ相対的に精度がよくなっており、１００語のテストセットの場合には、ベースラインに対して３．９％だけ精度がよくなっており、２５０語のテストセットの場合には、ベースラインに対して１．０９％だけ精度がよくなっている。ＧＵＰＰの場合には、最適なシステムで６０．１％までの精度を達成することができた。Ｐ２Ｗ＋ＵｐｐｅｒＢｏｕｎｄ（５０ｂｅｓｔ）の最適なシステムでは、各テストセットにおいて、ベースラインに対してそれぞれ１２．１％、７，９％、４．３％の相対的な精度の改善が見られた。５０単語のテストセットの５混合の場合が最も精度の改善幅が大きく、精度は６２．３％までに達した。なお、選択部２２による選択は、比較的短い時間で実行することができるため、その選択の処理がリアルタイムの音声認識に影響を与えることはない。したがって、本実施の形態による手法は、精度の改善と、計算コストとの間の受け入れ可能なトレードオフを提供している。

なお、この実験例では、英語の自由発話を取り扱ったが、本実施の形態による音声認識装置２は、実施の形態１と同様に、隣接する語に応じて発音が変化しうる韓国語に対して応用することもできる。その場合には、取得部１６によって音素シラブルの並びが取得され、それに対して、選択部２２による選択が行われることになる。その場合には、音素の並びがあらかじめ音素シラブルに分割されているため、音素シラブルの間以外に区切位置が来ることはないため、単に音素の並びが取得される場合よりも区分の位置の制限が厳しくなる。

以上のように、本実施の形態による音声認識装置２によれば、取得部１６が取得した音素の並びを、音素の並びと文字列とのペアのモデルである文字列言語モデルを用いて選択部２２が文字列の並びに変換することによって、音声認識を行うことができる。また、自由発話の場合や、隣接する文字に依存して発音が変化する言語の場合などでも、精度よく音声認識を行うことができる。また、その選択部２２による後段の処理を短い時間で実現できることから、リアルタイムでの処理にも適用可能である。

なお、実施の形態２で説明した文字列言語モデル（結合列言語モデル）を、実施の形態１における文字列言語モデルとして用いてもよい。すなわち、実施の形態１における文字列言語モデルは、文字列及び文字列に対応した音素の並びのペアに関する言語モデルであってもよい。実施の形態１による音声認識装置１において、実施の形態２で説明した文字列言語モデルを用いる場合の変換部１９の処理について簡単に説明する。変換部１９が変換モデルを用いて音素列の並びを文字列の並びに変換する処理は、実施の形態１と同様である。その後、変換部１９は、文字列言語モデルの文字列の部分を用いて確率を算出する。ただし、その確率の算出時に用いた言語モデルにおいて文字列とペアになっている音素の並びが、変換部１９に入力された音素の並びと異なる場合には、その並びに応じた確率を破棄する。例えば、変換部１９に入力される音素列の並びが「ａｙｗａｈｎｔｕｈｇｏｗ」（「Ｉｗａｎｔｔｏｇｏ」に対応する）であり、次のバイグラムが文字列言語モデルに含まれていたとする。
Ｐ（ｗａｈｎ＋ｗａｎｔ｜ａｙ＋Ｉ）
Ｐ（ｗａｈｎ＋ｗａｎｔ｜ａ＋Ｉ）
Ｐ（ｔｕｈ＋ｔｏ｜ｗａｈｎ＋ｗａｎｔ）
：
：

すると、変換部１９が変換モデルを用いて音素列の並び「ａｙｗａｈｎｔｕｈｇｏｗ」を「Ｉｗａｎｔｔｏｇｏ」に変換した際に、変換部１９は、上のバイグラムを用いて、例えば、次のように文字列に対応する確率を算出する。
α：…Ｐ（ｗａｈｎ＋ｗａｎｔ｜ａｙ＋Ｉ）Ｐ（ｔｕｈ＋ｔｏ｜ｗａｈｎ＋ｗａｎｔ）…
β：…Ｐ（ｗａｈｎ＋ｗａｎｔ｜ａ＋Ｉ）Ｐ（ｔｕｈ＋ｔｏ｜ｗａｈｎ＋ｗａｎｔ）…
：
：

しかしながら、βの場合には、音素の並びが「ａｗａｈｎｔｕｈ…」となり、入力された音素列の並び「ａｙｗａｈｎｔｕｈｇｏｗ」と一致しないため、変換部１９は、βの確率は用いない。このように、文字列言語モデルが文字列のみでなく、音素の並びも含む言語モデルとなっていることによって、より正確な確率を算出することができ、より精度の高い音声認識を実現できるものと考えられる。

また、上記各実施の形態において、隣接する文字に応じて発音が変化する場合として主に韓国語の場合を用いて説明したが、前述したように、フランス語のリエゾンでもそのようなことが起こり得る。したがって、フランス語や、その他の隣接する文字に応じて発音が変化する言語に対する音声認識に対しても、上記各実施の形態による音声認識装置１，２は、精度のよい処理を実現することができるようになる。

また、上記各実施の形態では、音声認識装置１，２がスタンドアロンである場合について説明したが、音声認識装置１，２は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、情報を出力したりしてもよい。

また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記各実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。

また、上記各実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

また、上記各実施の形態において、音声認識装置１，２に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態１における音声認識装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、音響モデルが記憶される音響モデル記憶部と、１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、音素の並びと、音素の並びに対応する文字列の並びと、当該音素の並び及び文字列の並びに関する確率とを対応付けて有する変換モデルが記憶される変換モデル記憶部と、文字列に関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部とにアクセス可能なコンピュータを、発話から生成された音声信号から抽出された特徴量を受け付け、音響モデルと辞書情報と辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部、変換モデルと、文字列言語モデルとを用いて、取得部が取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、音素列の並びを文字列の並びに統計的に変換する変換部、変換部による変換後の文字列の並びである音声認識結果を出力する出力部として機能させるためのプログラムである。

また、上記実施の形態２における音声認識装置２を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、音響モデルが記憶される音響モデル記憶部と、１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、文字列及び文字列に対応する音素の並びのペアに関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部とにアクセス可能なコンピュータを、発話から生成された音声信号から抽出された特徴量を受け付け、音響モデルと辞書情報と辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部、取得部によって取得された複数の音素列の並びから、文字列言語モデルを用いて、確率の高い文字列の並びを選択する選択部、選択部が選択した文字列の並びである音声認識結果を出力する出力部として機能させるためのプログラムである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図２２は、上記プログラムを実行して、上記実施の形態による音声認識装置１，２を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

図２２において、コンピュータシステム９００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ９０５、ＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）ドライブ９０６を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

図２３は、コンピュータシステム９００の内部構成を示す図である。図２３において、コンピュータ９０１は、ＣＤ−ＲＯＭドライブ９０５、ＦＤドライブ９０６に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５とを備える。なお、コンピュータ９０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム９００に、上記実施の形態による音声認識装置１，２の機能を実行させるプログラムは、ＣＤ−ＲＯＭ９２１、またはＦＤ９２２に記憶されて、ＣＤ−ＲＯＭドライブ９０５、またはＦＤドライブ９０６に挿入され、ハードディスク９１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９１４に記憶されてもよい。プログラムは実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ９２１やＦＤ９２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９０１に、上記実施の形態による音声認識装置１，２の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による音声認識装置等によれば、発音が変化する場合にも適切な音声認識を行うことができるという効果が得られ、音声認識装置等として有用である。

１、２音声認識装置
１１音響モデル記憶部
１２辞書情報記憶部
１３音素列言語モデル記憶部
１４受付部
１５特徴量抽出部
１６取得部
１７変換モデル記憶部
１８、２１文字列言語モデル記憶部
１９変換部
２０出力部
２２選択部

Claims

音響モデルが記憶される音響モデル記憶部と、
１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、
発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部と、
音素の並びと、当該音素の並びに対応する文字列の並びと、当該音素の並び及び文字列の並びに関する確率とを対応付けて有する変換モデルが記憶される変換モデル記憶部と、
前記文字列に関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部と、
前記変換モデルと、前記文字列言語モデルとを用いて、前記取得部が取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、前記音素列の並びを文字列の並びに統計的に変換する変換部と、
前記変換部による変換後の文字列の並びである音声認識結果を出力する出力部と、を備えた音声認識装置。
前記文字列言語モデルは、前記文字列及び当該文字列に対応した音素の並びのペアに関する言語モデルである、請求項１記載の音声認識装置。
音響モデルが記憶される音響モデル記憶部と、
１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、
発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部と、
文字列及び当該文字列に対応する音素の並びのペアに関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部と、
前記取得部によって取得された複数の音素列の並びから、前記文字列言語モデルを用いて、確率の高い文字列の並びを選択する選択部と、
前記選択部が選択した文字列の並びである音声認識結果を出力する出力部と、を備えた音声認識装置。
前記音素列言語モデルが記憶される音素列言語モデル記憶部をさらに備えた、請求項１から請求項３いずれか記載の音声認識装置。
前記辞書情報は、音素列と、文字列とを対応付けて有する情報であり、
前記取得部は、前記音素列言語モデルを用いて算出する音素列の並びの確率として、前記辞書情報を用いて当該音素列の並びを変換した文字列の並びに対して前記文字列言語モデルを用いて算出する確率を用いる、請求項１記載の音声認識装置。
前記辞書情報は、音素列と、文字列とを対応付けて有する情報であり、
前記取得部は、前記音素列言語モデルを用いて算出する音素列の並びの確率として、前記辞書情報を用いて当該音素列の並びを変換した文字列の並びに対して文字列の言語モデルを用いて算出する確率を用いる、請求項３記載の音声認識装置。
前記音素列は、単語に対応した音素列であり、
前記文字列は、単語である、請求項１から請求項６いずれか記載の音声認識装置。
前記音素列は、音素シラブルであり、
前記文字列は、フレーズである、請求項１から請求項４いずれか記載の音声認識装置。
前記音素列は、音素シラブルであり、
前記文字列は、一文字である、請求項１から請求項４いずれか記載の音声認識装置。
発話から生成された音声信号を受け付ける受付部と、
前記受付部が受け付けた音声信号から特徴量を抽出して前記取得部に渡す特徴量抽出部と、をさらに備えた、請求項１から請求項９いずれか記載の音声認識装置。
音響モデルが記憶される音響モデル記憶部と、１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、取得部と、音素の並びと、当該音素の並びに対応する文字列の並びと、当該音素の並び及び文字列の並びに関する確率とを対応付けて有する変換モデルが記憶される変換モデル記憶部と、前記文字列に関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部と、変換部と、出力部とを用いて処理される音声認識方法であって、
前記取得部が、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得ステップと、
前記変換部が、前記変換モデルと、前記文字列言語モデルとを用いて、前記取得ステップで取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、前記音素列の並びを文字列の並びに統計的に変換する変換ステップと、
前記出力部が、前記変換ステップにおける変換後の文字列の並びである音声認識結果を出力する出力ステップと、を備えた音声認識方法。
音響モデルが記憶される音響モデル記憶部と、１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、取得部と、文字列及び当該文字列に対応する音素の並びのペアに関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部と、選択部と、出力部とを用いて処理される音声認識方法であって、
前記取得部が、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得ステップと、
前記選択部が、前記取得ステップで取得された複数の音素列の並びから、前記文字列言語モデルを用いて、確率の高い文字列の並びを選択する選択ステップと、
前記出力部が、前記選択ステップで選択した文字列の並びである音声認識結果を出力する出力ステップと、を備えた音声認識方法。
音響モデルが記憶される音響モデル記憶部と、１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、音素の並びと、当該音素の並びに対応する文字列の並びと、当該音素の並び及び文字列の並びに関する確率とを対応付けて有する変換モデルが記憶される変換モデル記憶部と、前記文字列に関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部とにアクセス可能なコンピュータを、
発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部、
前記変換モデルと、前記文字列言語モデルとを用いて、前記取得部が取得した音素列の並びに対応する文字列の並びのうち、確率の高いものを選択することによって、前記音素列の並びを文字列の並びに統計的に変換する変換部、
前記変換部による変換後の文字列の並びである音声認識結果を出力する出力部として機能させるためのプログラム。
音響モデルが記憶される音響モデル記憶部と、１以上の音素の並びである音素列を少なくとも有する情報である辞書情報が記憶される辞書情報記憶部と、文字列及び当該文字列に対応する音素の並びのペアに関する言語モデルである文字列言語モデルが記憶される文字列言語モデル記憶部とにアクセス可能なコンピュータを、
発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと前記辞書情報と前記辞書情報に含まれる音素列に関する言語モデルである音素列言語モデルとを用いて、前記特徴量に対応する音素列の並びのうち、確率の高いものを取得する取得部、
前記取得部によって取得された複数の音素列の並びから、前記文字列言語モデルを用いて、確率の高い文字列の並びを選択する選択部、
前記選択部が選択した文字列の並びである音声認識結果を出力する出力部として機能させるためのプログラム。