JP6188831B2

JP6188831B2 - 音声検索装置および音声検索方法

Info

Publication number: JP6188831B2
Application number: JP2015561105A
Authority: JP
Inventors: 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-02-06
Filing date: 2014-02-06
Publication date: 2017-08-30
Anticipated expiration: 2034-02-06
Also published as: CN105981099A; US20160336007A1; WO2015118645A1; DE112014006343T5; JPWO2015118645A1

Description

この発明は、言語尤度が付与された複数個の言語モデルから得た認識結果に対して検索対象語彙と文字列上で照合処理を行い、検索結果を取得する音声検索装置および音声検索方法に関するものである。

従来、言語尤度が付与された言語モデルとしては、言語尤度を後述する学習データの統計量によって算出する統計言語モデルが使用されることが殆どである。統計言語モデルを用いた音声認識では、多様な語彙や言い回しの発話を認識することを目的とする場合、様々な文章を言語モデルの学習データとして用いて統計言語モデルを構築する必要がある。しかし、広い範囲の学習データで単一の統計言語モデルを構築すると、ある特定の話題、例えば天気の話題の発話を認識するためには、必ずしも最適な統計言語モデルになっていないという問題があった。

この問題を解決する方法として、非特許文献１では、言語モデルの学習データを幾つかの話題に分類し、話題ごとに分類した学習データを用いて統計言語モデルを学習し、さらに認識時にはそれぞれの統計言語モデルを全て用いて認識照合を行い、認識スコアが最大の候補を認識結果とする技術が開示されている。この技術によれば、特定の話題の発話において、該当する話題の言語モデルによる認識候補の認識スコアが高くなり、単一の統計言語モデルを用いる場合よりも認識精度が向上することが報告されている。

中島他、「大語彙連続音声認識のための複数言語モデルの並列同時単語列探索法」、情報処理学会論文誌、２００４年、Ｖｏｌ.４５、Ｎｏ.１２

しかしながら、上述した非特許文献１に開示された技術では、学習データが異なる統計言語モデルを複数個用いて認識処理を行うため、学習データが異なる統計言語モデル同士では、認識スコアの算出に使用する言語尤度が厳密には比較できないという課題があった。これは言語尤度が、例えば統計言語モデルが単語のトライグラムモデルなら、認識候補の単語列に対するトライグラム確率に基づいて算出されるが、学習データが異なる言語モデルでは、同一の単語列に対してもトライグラム確率が異なる値となるためである。

この発明は、上記のような課題を解決するためになされたもので、学習データが異なる統計言語モデルを複数個用いて認識処理を行った場合においても比較可能な認識スコアを取得し、検索精度を向上させることを目的とする。

この発明に係る音声検索装置は、音響モデルおよび学習データの異なる複数の言語モデルを参照して音響尤度と言語尤度に重み付けして求めた認識スコアを用いて入力音声の音声認識を行い、複数の言語モデルごとに認識文字列の音響尤度および言語尤度を取得する認識部と、音声検索の対象となる検索対象語彙の文字列を示す情報を蓄積した文字列辞書を記憶する文字列辞書記憶部と、認識部が取得した複数の言語モデルごとの認識文字列と、文字列辞書に蓄積された検索対象語彙の文字列とを照合し、検索対象語彙の文字列に対する認識文字列の一致度を示す文字列照合スコアを算出し、認識文字列それぞれについて最も文字列照合スコアが高い検索対象語彙の文字列および当該文字列照合スコアを取得する文字列照合部と、文字列照合部が取得した文字列照合スコア、認識部が取得した音響尤度および言語尤度のうち、２以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に１以上の検索対象語彙を検索結果として出力する検索結果決定部とを備えるものである。

この発明によれば、学習データが異なる複数個の言語モデルを用いて入力音声の認識処理を行った場合にも、各言語モデルに対して互いに比較可能な認識スコアを得ることができ、音声検索の検索精度を向上させることができる。

実施の形態１による音声検索装置の構成を示すブロック図である。実施の形態１による音声検索装置の文字列辞書の作成方法を示す図である。実施の形態１による音声検索装置の動作を示すフローチャートである。実施の形態２による音声検索装置の構成を示すブロック図である。実施の形態２による音声検索装置の動作を示すフローチャートである。実施の形態３による音声検索装置の構成を示すブロック図である。実施の形態３による音声検索装置の動作を示すフローチャートである。実施の形態４による音声検索装置の構成を示すブロック図である。実施の形態４による音声検索装置の動作を示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声検索装置の構成を示すブロック図である。
音声検索装置１００は、音響分析部１、認識部２、第１言語モデル記憶部３、第２言語モデル記憶部４、音響モデル記憶部５、文字列照合部６、文字列辞書記憶部７および検索結果決定部８で構成されている。
音響分析部１は、入力音声の音響分析を行い、特徴ベクトルの時系列に変換する。特徴ベクトルは、例えばＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）の１〜Ｎ次元までのデータである。Ｎの値は例えば１６である。

認識部２は、第１言語モデル記憶部３に記憶された第１言語モデルおよび第２言語モデル記憶部４に記憶された第２言語モデルと、音響モデル記憶部５に記憶された音響モデルとを用いて認識照合することにより、入力音声に最も近い文字列を取得する。より詳細には、認識部２は、例えばビタビアルゴリズムを用いて音響分析部１が変換した特徴ベクトルの時系列に対して認識照合を行い、各言語モデルについて認識スコアが最も高い認識結果を取得し、認識結果である文字列を出力する。
なお、この実施の形態１では文字列は認識結果の発音を表わす音節列とする場合を例に説明する。また、認識スコアは、ビタビアルゴリズムによって音響モデルを用いて算出した音響尤度と、言語モデルを用いて算出した言語尤度との加重和によって算出するものとする。

上述のように認識部２は各文字列に対して音響モデルを用いて算出した音響尤度と、言語モデルを用いて算出した言語尤度との加重和である認識スコアも算出するが、各言語モデルに基づく認識結果の文字列が仮に同一であっても認識スコアは異なる値となる。これは、同一の認識結果の文字列である場合、音響尤度は両言語モデルで同一となるが、言語尤度は各言語モデルで異なる値を取ることによる。このため、各言語モデルに基づく認識結果の認識スコアは厳密には比較可能な値ではない。そのため、この実施の形態１では、後述する文字列照合部６において両言語モデル間で比較可能なスコアを算出し、検索結果決定部８が最終的な検索結果を決定することを特徴としている。

第１言語モデル記憶部３および第２言語モデル記憶部４は、検索対象とする名称を形態素解析して名称を単語の系列に分解し、単語系列の統計言語モデルとして作成したものを記憶している。なお、第１言語モデルおよび第２言語モデルは、音声検索が行われる前に作成しておく。
具体例を挙げて説明すると、検索対象が例えば「那智の滝」との施設の名称であった場合、「那智」、「の」および「滝」という３単語の系列に分解し、統計言語モデルを作成する。なお、この実施の形態１では単語のトライグラムモデルとするが、バイグラムやユニグラムなど、任意の言語モデルを用いて構成してもよい。施設名称を各単語の系列に分解することにより、発話が「那智滝」など正しい施設名称で行われなかった場合にも音声認識を行うことができる。

音響モデル記憶部５は、音声の特徴ベクトルをモデル化した音響モデルを記憶している。音響モデルとしては、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などが挙げられる。文字列照合部６は、文字列辞書記憶部７に記憶された文字列辞書を参照し、認識部２から出力された認識結果の文字列に対して照合処理を行う。照合処理は認識結果の文字列の先頭の音節から順に文字列辞書の転置ファイルを参照して行われ、当該音声を含む施設の文字列照合スコアに「１」を加算する。当該処理を認識結果の文字列の最終音節まで行う。認識結果の文字列ごとに、文字列照合スコアが最も高い名称を文字列照合スコアと共に出力する。

文字列辞書記憶部７は、音節を索引語とした転置ファイルで構成された文字列辞書を記憶している。転置ファイルは、例えばＩＤ番号を付与した施設名称の音節列から作成する。文字列辞書は、音声検索が行われる前に作成しておく。
ここで、図２を参照しながら転置ファイルの作成方法について具体的に説明する。
図２（ａ）は施設名称を「ＩＤ番号」、「かな漢字表記」、「音節表記」および「言語モデル」で示している。図２（ｂ）は、図２（ａ）で示した施設名称の情報に基づいて作成した文字列辞書の一例を示している。図２（ｂ）において「索引語」である各音節には、当該音節を含む名称のＩＤ番号が関連付けられている。図２に示す例の場合、検索対象と全ての施設名称を用いて転置ファイルを作成しておく。

検索結果決定部８は、文字列照合部６から出力された文字列照合スコアを参照し、文字列照合スコアの高い順に認識結果の文字列を並び替え、文字列照合スコア上位から順に１以上の文字列を検索結果として出力する。

次に、音声検索装置１００の動作について図３を参照しながら説明を行う。図３は、この発明の実施の形態１による音声検索装置の動作を示すフローチャートである。
第１言語モデル、第２言語モデルおよび文字列辞書を作成し、それぞれ第１言語モデル記憶部３、第２言語モデル記憶部４および文字列辞書記憶部７に記憶する（ステップＳＴ１）。次に、音声入力が行われると（ステップＳＴ２）、音響分析部１が入力音声の音響分析を行い、特徴ベクトルの時系列に変換する（ステップＳＴ３）。

認識部２は、ステップＳＴ３で変換された特徴ベクトルの時系列に対して、第１言語モデル、第２言語モデルおよび音響モデルを用いて認識照合を行い、認識スコアを算出する（ステップＳＴ４）。さらに認識部２は、ステップＳＴ４で算出した認識スコアを参照し、第１言語モデルについて認識スコアが最も高い認識結果、および第２言語モデルについて認識スコアが最も高い認識結果を取得する（ステップＳＴ５）。なお、ステップＳＴ５において取得される認識結果は文字列であるものとする。

文字列照合部６は、ステップＳＴ５で取得された認識結果の文字列に対して、文字列辞書記憶部７に記憶された文字列辞書を参照して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に出力する（ステップＳＴ６）。次に、検索結果決定部８は、ステップＳＴ６で出力された文字列および文字列照合スコアを用いて、文字列照合スコアが高い順に文字列を並び換えて検索結果を決定して出力し（ステップＳＴ７）、処理を終了する。

次に、具体例を挙げて図３で示したフローチャートをより詳細に説明する。なお以下では、日本の全国の施設や観光スポットの名称（以下、施設と称する）をいくつかの単語からなるテキスト文書とみなし、施設の名称を検索対象とする場合を例に説明を行う。なお、施設名称検索を通常の単語音声認識ではなく、テキスト検索の枠組みで実施することにより、ユーザが検索対象の施設の名称を正確に記憶していない場合にもテキストの部分一致により施設の名称を検索することができる。

まず、ステップＳＴ１として、第１言語モデルとなる全国の施設名称を学習データとした言語モデルを作成し、第２言語モデルとなる神奈川県の施設名称を学習データとした言語モデルを作成する。なお、上述した言語モデルは、当該音声検索装置１００のユーザが神奈川県に存在し、神奈川県内の施設を検索する場合が多いが、他の地域の施設も検索する場合があることを想定したものである。また、文字列辞書として図２（ｂ）に示した辞書を作成し、文字列辞書記憶部７が記憶しているものとする。

ここで、本例では入力音声の発話内容が「碁鎖家具（ごくさりかぐ）」であり、当該施設が神奈川県内に一軒のみであり珍しい名称である場合について説明を行う。ステップＳＴ２の音声入力の発話内容が、例えば「碁鎖家具（ごくさりかぐ）」である場合、ステップＳＴ３として「碁鎖家具（ごくさりかぐ）」に対して音響分析が行われ、ステップＳＴ４として認識照合が行われる。さらに、ステップＳＴ５として以下の認識結果が取得される。
第１言語モデルに対する認識結果は、文字列「ko,ku,sa,i,ka,gu」であったとする。但し文字列中の「,」は音節の区切りを表す記号である。これは、第１言語モデルが前述のとおり全国の施設名称を学習データとして作成した統計言語モデルであるため、学習データ中での相対的な出現頻度の低い語彙はトライグラム確率に基づいて算出される言語尤度が低くなるので認識されにくい傾向がある。この結果、第１言語モデルを用いた認識結果は、「国際家具（こくさいかぐ）」に誤認識したとする。

一方、第２言語モデルに対する認識結果は、文字列「go,ku,sa,ri,ka,gu」であったとする。これは、第２言語モデルが前述のとおり神奈川県の施設名称を学習データとして作成した統計言語モデルであるため、第２言語モデルの学習データの総数が第１言語モデルの学習データの総数よりも大幅に少なく、第２言語モデルにおける学習データ全体に対する「碁鎖家具」の相対的な出現頻度が第１言語モデルにおける出現頻度よりも大きくなり、言語尤度が高くなるためである。

このように、ステップＳＴ５として、認識部２は第１言語モデルに基づいた認識結果の文字列であるＴｘｔ（１）＝「ko,ku,sa,i,ka,gu」、および第２言語モデルに基づいた認識結果の文字列であるＴｘｔ(２)＝「go,ku,sa,ri,ka,gu」を取得する。

次に、ステップＳＴ６として文字列照合部６は第１言語モデルを用いた認識結果の文字列である「ko,ku,sa,i,ka,gu」、および第２言語モデルを用いた認識結果の文字列である「go,ku,sa,ri,ka,gu」に対して、文字列辞書を用いて照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に出力する。

上述した文字列に対する照合処理を具体的に説明すると、第１言語モデルを用いた認識結果の文字列である「ko,ku,sa,i,ka,gu」を構成する６個の音節のうち「国産家具センター」の音節列「ko,ku,saN,ka,gu,seN,taa」に、ko,ku,ka,guの４音節が含まれるため文字列照合スコアが「４」となり最も高い文字列照合スコアとなる。一方、第２言語モデルを用いた認識結果の文字列である「go,ku,sa,ri,ka,gu」を構成する６個の音節は「碁鎖家具店」の音節列「go,ku,sa,ri,ka,gu,teN」に全て含まれるため文字列照合スコアが「６」となり最も高い文字列照合スコアとなる。

この結果に基づいて、文字列照合部６は、第１言語モデルに対応する照合結果として文字列「国産家具センター」と文字列照合スコアＳ（１）＝４、および第２言語モデルに対応する照合結果として文字列「碁鎖家具店」と文字列照合スコアＳ（２）＝６を出力する。
ここでＳ（１）は第１言語モデルによる文字列Ｔｘｔ（１）に対する文字列照合スコア、Ｓ（２）は第２言語モデルによる文字列Ｔｘｔ（２）に対する文字列照合スコアである。文字列照合部６に入力された文字列Ｔｘｔ（１）および文字列Ｔｘｔ（２）に対して、同一基準で文字列照合スコアを算出しているため、算出した文字列照合スコアによって検索結果の確からしさを比較することができる。

次に、ステップＳＴ７として、検索結果決定部８は入力された文字列「国産家具センター」と文字列照合スコアＳ（１）＝４、および文字列「碁鎖家具店」と文字列照合スコアＳ（２）＝６を用いて、文字列照合スコアが高い順に文字列の並べ換えを行い、第１位が「碁鎖家具店」、第２位が「国産家具センター」である検索結果を出力する。このように、出現頻度の低い施設名称でも検索することが可能となる。

次に、入力音声の発話内容が神奈川県外の施設であった場合を例に説明を行う。
ステップＳＴ２の音声入力の発話内容が、例えば「那智の滝」である場合、ステップＳＴ３として「那智の滝」に対して音響分析が行われ、ステップＳＴ４として認識照合が行われる。さらに、ステップＳＴ５として認識部２は認識結果の文字列Ｔｘｔ（１）および文字列Ｔｘｔ（２）を取得する。ここで文字列は上記と同様に認識結果の発話を表わす音節列である。

ステップＳＴ５で取得される認識結果について具体的に説明する。第１言語モデルに対する認識結果は、文字列「na,ci,no,ta,ki」となる。但し文字列中の「,」は音節の区切りを表す記号である。これは、第１言語モデルが前述のとおり全国の施設名称を学習データとして作成した統計言語モデルであるため、「那智」や「滝」は学習データに比較的多く存在し、ステップＳＴ２の発話内容は正しく認識され、認識結果が「那智の滝」となったものとする。

一方、第２言語モデルに対する認識結果は、文字列「ma,ci,no,e,ki」となる。これは、第２言語モデルが前述のとおり神奈川県の施設名称を学習データとして作成した統計言語モデルであるため、認識語彙に「那智」が存在せず、認識結果が「町の駅」となったものとする。このように、ステップＳＴ５として、第１言語モデルに基づいた認識結果の文字列であるＴｘｔ（１）＝「na,ci,no,ta,ki」、および第２言語モデルに基づいた認識結果の文字列であるＴｘｔ(２)＝「ma,ci,no,e,ki」が取得される。

次に、ステップＳＴ６として文字列照合部６は第１言語モデルを用いた認識結果の文字列である「na,ci,no,ta,ki」、および第２言語モデルを用いた認識結果の文字列である「ma,ci,no,e,ki」に対して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に出力する。

上述した文字列に対する照合処理を具体的に説明すると、第１言語モデルを用いた認識結果の文字列である「na,ci,no,ta,ki」を構成する５個の音節のうち「那智の滝」の音節列「na,ci,no,ta,ki」に、全音節が含まれるため文字列照合スコアが「５」となり最も高い文字列照合スコアとなる。一方、第２言語モデルを用いた認識結果の文字列である「ma,ci,no,e,ki」を構成する６個の音節は「町場駅」の音節列「ma,ci,ba,e,ki」中にma,ci,e,kiの４音節が含まれるため文字列照合スコアが「４」となり最も高い文字列照合スコアとなる。
この結果に基づいて、文字列照合部６は、第１言語モデルに対応する照合結果として文字列「那智の滝」と文字列照合スコアＳ（１）＝５、および第２言語モデルに対応する照合結果として文字列「町場駅」と文字列照合スコアＳ（２）＝４を出力する。

次に、ステップＳＴ７として、検索結果決定部８は入力された文字列「那智の滝」と文字列照合スコアＳ（１）＝５、および文字列「町場駅」と文字列照合スコアＳ（２）＝４を用いて、文字列照合スコアが高い順に文字列の並べ換えを行い、第１位が「那智の滝」、第２位が「町場駅」である検索結果を出力する。このように、第２言語モデル内に存在しない施設名称に対しても精度よく検索することができる。

以上のように、この実施の形態１によれば、第１言語モデルおよび第２言語モデルそれぞれに対応する認識結果である文字列を取得する認識部２と、文字列辞書を参照して認識部２が取得した文字列の文字列照合スコアを算出する文字列照合部６と、文字列照合スコアに基づいて文字列の並べ替えを行って検索結果を決定する検索結果決定部８とを備えるように構成したので、学習データが異なる複数個の言語モデルを用いて認識処理を行った場合にも比較可能な文字列照合スコアを得ることができ、検索精度を向上させることができる。

なお、上述した実施の形態１では、２個の言語モデルを用いる例を示したが、３個以上の言語モデルを用いることも可能である。例えば、上述した第１言語モデルおよび第２言語モデルに加えて、例えば東京都の施設名称を学習データとした第３言語モデルを作成して用いるように構成してもよい。

また、上述した実施の形態１では、文字列照合部６が転置ファイルを用いた照合方式を用いる構成を示したが、文字列を入力として照合スコアを算出する任意の方式を用いるように構成してもよい。例えば、文字列のＤＰマッチングを照合方式として用いることができる。

なお、上述した実施の形態１において、第１言語モデル記憶部３および第２言語モデル記憶部４に１つの認識部２を割り当てる構成を示したが、各言語モデルにそれぞれ異なる認識部を割り当てるように構成してもよい。

実施の形態２．
図４は、この発明の実施の形態２の音声検索装置の構成を示すブロック図である。
実施の形態２の音声検索装置１００ａは、認識部２ａが認識結果である文字列に加えて、当該文字列の音響尤度および言語尤度を検索結果決定部８ａに出力する。検索結果決定部８ａは文字列照合スコアに加え、音響尤度および言語尤度を用いて検索結果を決定する。
以下では、実施の形態１による音声検索装置１００の構成要素と同一または相当する部分には、図１で使用した符号と同一の符号を付して説明を省略または簡略化する。

認識部２ａは、実施の形態１と同様に認識照合処理を行い、各言語モデルについて認識スコアが最も高い認識結果を取得し、認識結果である文字列を文字列照合部６に出力する。ここで文字列は、実施の形態１と同様に認識結果の発音を表わす音節列とする。
さらに認識部２ａは、第１言語モデルに対する認識照合処理の過程で算出した認識結果の文字列に対する音響尤度および言語尤度、および第２言語モデルに対する認識照合処理の過程で算出した認識結果の文字列に対する音響尤度および言語尤度を検索結果決定部８ａに出力する。

検索結果決定部８ａは、実施の形態１で示した文字列照合スコアに加え、認識部２ａから出力された文字列に対する言語尤度と音響尤度の３つの値のうち、少なくとも２個以上の値を加重和し、総合スコアを算出する。算出した総合スコアの高い順に認識結果の文字列を並び替え、総合スコア上位から順に１以上の文字列を検索結果として出力する。

より詳細に説明すると、検索結果決定部８ａは、文字列照合部６から出力された第１言語モデルに対する文字列照合スコアＳ（１）と第２言語モデルに対する文字列照合スコアＳ（２）、第１言語モデルの認識結果に対する音響尤度Ｓａ（１）と言語尤度Ｓｇ（１）、および第２言語モデルの認識結果に対する音響尤度Ｓａ（２）と言語尤度Ｓｇ（２）を入力とし、以下に示す式（１）を用いて総合スコアＳＴ（ｉ）を算出する。
ＳＴ(ｉ)＝Ｓ(ｉ)＋ｗａ＊Ｓａ(ｉ)＋ｗｇ＊Ｓｇ(ｉ) ・・・（１）

式（１）において、この実施の形態２の例ではｉ＝１または２であり、ＳＴ（１）は第１言語モデルに対応する検索結果の総合スコア、ＳＴ（２）は第２言語モデルに対応する検索結果の総合スコアである。また、ｗａおよびｗｇは事前に定めた０以上の定数である。さらにｗａまたはｗｇのどちらか一方は０であっても良いが、ｗａ，ｗｇともには０でない値を設定する。このように式（１）に基づいて総合スコアＳＴ（ｉ）を算出し、さらに総合スコアの高い順に認識結果の文字列を並び替え、総合スコア上位から順に１以上の文字列を検索結果として出力する。

次に、実施の形態２の音声検索装置１００ａの動作について図５を参照しながら説明する。図５は、この発明の実施の形態２による音声検索装置の動作を示すフローチャートである。なお、実施の形態１による音声検索装置と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。
実施の形態１と同様にステップＳＴ１からステップＳＴ４の処理が行われると、認識部２ａは認識結果が最も高い認識結果である文字列を取得すると共に、ステップＳＴ４の認識照合の過程で算出された第１言語モデルの文字列に対する音響尤度Ｓａ（１）および言語尤度Ｓｇ（１）、第２言語モデルの文字列に対する音響尤度Ｓａ（２）および言語尤度Ｓｇ（２）を取得する（ステップＳＴ１１）。なお、ステップＳＴ１１で取得された文字列は文字列照合部６に出力され、音響尤度Ｓａ（ｉ）および言語尤度Ｓｇ（ｉ）は検索結果決定部８ａに出力される。

文字列照合部６は、ステップＳＴ１１で取得された認識結果の文字列に対して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に出力する（ステップＳＴ６）。次に検索結果決定部８ａは、ステップＳＴ１１で取得された第１言語モデルに対する音響尤度Ｓａ（１）および言語尤度Ｓｇ（１）と、第２言語モデルに対する音響尤度Ｓａ（２）および言語尤度Ｓｇ（２）とを用いて総合スコアＳＴ（ｉ）を算出する（ステップＳＴ１２）。さらに検索結果決定部８ａは、ステップＳＴ６で出力された文字列およびステップＳＴ１２で算出された総合スコアＳＴ（ｉ）（ＳＴ（１），ＳＴ（２））を用いて、総合スコアＳＴ（ｉ）が高い順に文字列を並び換えて検索結果を決定して出力し（ステップＳＴ１３）、処理を終了する。

以上のように、この実施の形態２によれば、認識結果が最も高い認識結果である文字列を取得すると共に、各言語モデルの文字列に対する音響尤度Ｓａ（ｉ）および言語尤度Ｓｇ（ｉ）を取得する認識部２ａと、取得した音響尤度Ｓａ（ｉ）および言語尤度Ｓｇ（ｉ）の値を加味して算出した総合スコアＳＴ（ｉ）を用いて検索結果を決定する検索結果決定部８ａとを備えるように構成したので、音声認識結果の確からしさを反映することができ、検索精度を向上させることができる。

実施の形態３．
図６は、この発明の実施の形態３の音声検索装置の構成を示すブロック図である。
実施の形態３の音声検索装置１００ｂは、実施の形態２で示した音声検索装置１００ａと比較して、第２言語モデル記憶部４のみを備え、第１言語モデル記憶部３を備えていない。そのため、第１言語モデルを用いた認識処理は外部認識装置２００を用いて行う。
以下では、実施の形態２による音声検索装置１００ａの構成要素と同一または相当する部分には、図４で使用した符号と同一の符号を付して説明を省略または簡略化する。

外部認識装置２００は、例えば高い計算能力を備えたサーバなどにより構成可能であり、第１言語モデル記憶部２０１に記憶された第１言語モデルと、音響モデル記憶部２０２に記憶された音響モデルとを用いて認識照合することにより、音響分析部１から入力された特徴ベクトルの時系列に最も近い文字列を取得する。取得した認識スコアが最も高い認識結果である文字列を音声検索装置１００ｂの文字列照合部６ａ、当該文字列の音響尤度および言語尤度を音声検索装置１００ｂの検索結果決定部８ｂに出力する。
なお、第１言語モデル記憶部２０１および音響モデル記憶部２０２は、例えば実施の形態１および実施の形態２で示した第１言語モデル記憶部３および音響モデル記憶部５と同一の言語モデルおよび音響モデルを記憶している。

認識部２ａは、第２言語モデル記憶部４に記憶された第２言語モデルと、音響モデル記憶部５に記憶された音響モデルとを用いて認識照合することにより、音響分析部１から入力された特徴ベクトルの時系列に最も近い文字列を取得する。取得した認識スコアが最も高い認識結果である文字列を音声検索装置１００ｂの文字列照合部６ａ、音響尤度および言語尤度を音声検索装置１００ｂの検索結果決定部８ｂに出力する。

文字列照合部６ａは、文字列辞書記憶部７に記憶された文字列辞書を参照し、認識部２ａから出力された認識結果の文字列および外部認識装置２００から出力された認識結果の文字列に対して照合処理を行う。認識結果の文字列ごとに、文字列照合スコアが最も高い名称を文字列照合スコアと共に、検索結果決定部８ｂに出力する。

検索結果決定部８ｂは、文字列照合部６ａから出力された文字列照合スコアに加え、認識部２ａおよび外部認識装置２００から出力された２つの文字列に対する音響尤度Ｓａ（ｉ）と言語尤度Ｓｇ（ｉ）の３つの値のうち、少なくとも２個以上の値を加重和し、総合スコアＳＴ（ｉ）を算出する。算出した総合スコアの高い順に認識結果の文字列を並び替え、総合スコア上位から順に１以上の文字列を検索結果として出力する。

次に、実施の形態３の音声検索装置１００ｂの動作について図７を参照しながら説明する。図７は、この発明の実施の形態３による音声検索装置および外部認識装置の動作を示すフローチャートである。なお、実施の形態２による音声検索装置と同一のステップには図５で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音響検索装置１００ｂは、第２言語モデルおよび文字列辞書を作成し、第２言語モデル記憶部４および文字列辞書記憶部７に記憶する（ステップＳＴ２１）。なお、外部認識装置２００が参照する第１言語モデルはあらかじめ作成されているものとする。次に、音響検索装置１００ｂに音声入力が行われると（ステップＳＴ２）、音響分析部１が入力音声の音響分析を行い、特徴ベクトルの時系列に変換する（ステップＳＴ３）。変換された特徴ベクトルの時系列は認識部２ａおよび外部認識装置２００に出力される。

認識部２ａは、ステップＳＴ３で変換された特徴ベクトルの時系列に対して、第２言語モデルおよび音響モデルを用いて認識照合を行い、認識スコアを算出する（ステップＳＴ２２）。認識部２ａは、ステップＳＴ２２で算出した認識スコアを参照し、第２言語モデルについて認識スコアが最も高い認識結果である文字列を取得すると共に、ステップＳＴ２２の認識照合の過程で算出された第２言語モデルの文字列に対する音響尤度Ｓａ（２）および言語尤度Ｓｇ（２）を取得する（ステップＳＴ２３）。なお、ステップＳＴ２３で取得された文字列は文字列照合部６ａに出力され、音響尤度Ｓａ（２）および言語尤度Ｓｇ（２）は検索結果決定部８ｂに出力される。

ステップＳＴ２２およびステップＳＴ２３の処理と並列的に、外部認識装置２００はステップＳＴ３で変換された特徴ベクトルの時系列に対して、第１言語モデルおよび音響モデルを用いて認識照合を行い、認識スコアを算出する（ステップＳＴ３１）。外部認識装置２００は、ステップＳＴ３１で算出した認識スコアを参照し、第１言語モデルについて認識スコアが最も高い認識結果である文字列を取得すると共に、ステップＳＴ３１の認識照合の過程で算出された第１言語モデルの文字列に対する音響尤度Ｓａ（１）および言語尤度Ｓｇ（１）を取得する（ステップＳＴ３２）。なお、ステップＳＴ３２で取得された文字列は文字列照合部６ａに出力され、音響尤度Ｓａ（１）および言語尤度Ｓｇ（１）は検索結果決定部８ｂに出力される。

文字列照合部６ａは、ステップＳＴ２３で取得した文字列およびステップＳＴ３２で取得した文字列に対して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に検索結果決定部８ｂに出力する（ステップＳＴ２５）。検索結果決定部８ｂはステップＳＴ２３で取得された第２言語モデルに対する音響尤度Ｓａ（２）および言語尤度Ｓｇ（２）と、ステップＳＴ３２で取得された第１言語モデルに対する音響尤度Ｓａ（１）および言語尤度Ｓｇ（１）とを用いて総合スコアＳＴ（ｉ）（ＳＴ（１），ＳＴ（２）を算出する（ステップＳＴ２６）。さらに検索結果決定部８ｂは、ステップＳＴ２５で出力された文字列およびステップＳＴ２６で算出された総合スコアＳＴ（ｉ）を用いて、総合スコアＳＴ（ｉ）が高い順に文字列を並び換えて検索結果を決定して出力し（ステップＳＴ１３）、処理を終了する。

以上のように、この実施の形態３によれば、一部の言語モデルに対する認識処理を外部認識装置２００において行うように構成したので、外部認識装置を例えば計算能力の高いサーバなどに備えることにより、音声検索装置１００はより高速に認識処理を実行することが可能になる。

なお、上述した実施の形態３では、２個の言語モデルを用い、１つの言語モデルの文字列に対して外部認識装置２００において認識処理を行う例を示したが、３個以上の言語モデルを用いることも可能であり、外部認識装置において少なくとも１以上の言語モデルの文字列に対して認識処理を実行するように構成すればよい。

実施の形態４．
図８は、この発明の実施の形態４の音声検索装置の構成を示すブロック図である。
実施の形態４の音声検索装置１００ｃは、実施の形態３で示した音声検索装置１００ｂと比較して、音響尤度計算部９、および上述した音響モデルとは異なる新たな音響モデルを記憶した高精度音響モデル記憶部１０を追加して設けている。
以下では、実施の形態３による音声検索装置１００ｂの構成要素と同一または相当する部分には、図６で使用した符号と同一の符号を付して説明を省略または簡略化する。

認識部２ｂは、第２言語モデル記憶部４に記憶された第２言語モデルと、音響モデル記憶部５に記憶された音響モデルとを用いて認識照合することにより、音響分析部１から入力された特徴ベクトルの時系列に最も近い文字列を取得する。取得した認識スコアが最も高い認識結果である文字列を音声検索装置１００ｃの文字列照合部６ａ、言語尤度を音声検索装置１００ｃの検索結果決定部８ｃに出力する。

外部認識装置２００ａは、第１言語モデル記憶部２０１に記憶された第１言語モデルと、音響モデル記憶部２０２に記憶された音響モデルとを用いて認識照合することにより、音響分析部１から入力された特徴ベクトルの時系列に最も近い文字列を取得する。取得した認識スコアが最も高い認識結果である文字列を音声検索装置１００ｃの文字列照合部６ａ、当該文字列の言語尤度を音声検索装置１００ｃの検索結果決定部８ｃに出力する。

音響尤度計算部９は、音響分析部１から入力される特徴ベクトルの時系列、認識部２ｂから入力される認識結果の文字列、および外部認識装置２００ａから入力される認識結果の文字列に基づいて、高精度音響モデル記憶部１０に記憶された高精度音響モデルを用いて、例えばビタビアルゴリズムによって音響パターン照合を行い、認識部２ｂから出力された認識結果の文字列および外部認識装置２００ａから出力された認識結果の文字列に対する照合音響尤度を算出する。算出した照合音響尤度は検索結果決定部８ｃに出力される。

高精度音響モデル記憶部１０は、実施の形態１から実施の形態３で示した音響モデル記憶部５が記憶する音響モデルよりも精密で認識精度の高い音響モデルを記憶する。例えば、音響モデル記憶部５が記憶する音響モデルとしてモノフォンまたはダイフォン音素をモデル化した音響モデルを記憶する場合、高精度音響モデル記憶部１０は前後の音素の違いを考慮したトライフォン音素をモデル化した音響モデルを記憶するものとする。トライフォンの場合、「朝（／ａｓａ／）」の第２番目の音素「／ｓ／」と、「石(／ｉｓｉ／)」の第２番目の音素「／ｓ／」とでは、前後の音素が異なるので異なる音響モデルでモデル化することになり、これによって認識精度が向上することが知られている。

ただし、音響モデルの種類が増加するため、音響尤度計算部９が高精度音響モデル記憶部１０を参照して音響パターンを照合する際の演算量が増加する。しかし、音響尤度計算部９における照合対象は認識部２ｂから入力された認識結果の文字列および外部認識装置２００ａから出力された認識結果の文字列に含まれる語彙に限定されるため、処理量の増加を抑制することができる。

検索結果決定部８ｃは、文字列照合部６ａから出力された文字列照合スコアに加え、認識部２ｂおよび外部認識装置２００ａから出力された２つの文字列に対する言語尤度Ｓｇ（ｉ）と、音響尤度計算部９から出力された２つの文字列に対する照合音響尤度Ｓａ（ｉ）とのうち、少なくとも２個以上の値を加重和し、総合スコアＳＴ（ｉ）を算出する。算出した総合スコアＳＴ（ｉ）の高い順に認識結果の文字列を並び替え、総合スコア上位から順に１以上の文字列を検索結果として出力する。

次に、実施の形態４の音声検索装置１００ｃの動作について図９を参照しながら説明する。図９は、この発明の実施の形態４による音声検索装置および外部認識装置の動作を示すフローチャートである。なお、実施の形態３による音声検索装置と同一のステップには図７で使用した符号と同一の符号を付し、説明を省略または簡略化する。
実施の形態３と同様にステップＳＴ２１、ステップＳＴ２およびステップＳＴ３の処理が行われると、ステップＳＴ３において変換された特徴ベクトルの時系列は認識部２ｂおよび外部認識装置２００ａに加えて音響尤度計算部９に出力される。

認識部２ｂはステップＳＴ２２およびステップＳＴ２３の処理を行い、ステップＳＴ２３で取得した文字列を文字列照合部６ａに出力し、言語尤度Ｓｇ（２）を検索結果決定部８ｃに出力する。一方、外部認識装置２００ａはステップＳＴ３１およびステップＳＴ３２の処理を行い、ステップＳＴ３２で取得した文字列を文字列照合部６ａに出力され、言語尤度Ｓｇ（１）は検索結果決定部８ｃに出力する。

音響尤度計算部９は、ステップＳＴ３で変換された特徴ベクトルの時系列、ステップＳＴ２３で取得された文字列およびステップＳＴ３２で取得された文字列に基づいて、高精度音響モデル記憶部１０に記憶された高精度音響モデルを用いて音響パターン照合を行い、照合音響尤度Ｓａ（ｉ）を算出する（ステップＳＴ４３）。次に、文字列照合部６ａは、ステップＳＴ２３で取得した文字列およびステップＳＴ３２で取得した文字列に対して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に検索結果決定部８ｃに出力する（ステップＳＴ２５）。

検索結果決定部８ｃは、ステップＳＴ２３で算出された第２言語モデルに対する言語尤度Ｓｇ（２）、ステップＳＴ３２で算出された第１言語モデルに対する言語尤度Ｓｇ（１）、およびステップＳＴ４３で算出された照合音響尤度Ｓａ（ｉ）を用いて総合スコアＳＴ（ｉ）を算出する（ステップＳＴ４４）。さらに検索結果決定部８ｃは、ステップＳＴ２５で出力された文字列およびステップＳＴ４１で算出された総合スコアＳＴ（ｉ）を用いて、総合スコアＳＴ（ｉ）が高い順に文字列を並び換えて検索結果として出力し（ステップＳＴ１３）、処理を終了する。

以上のように、この実施の形態４によれば、認識部２ｂが参照する音響モデルよりも認識精度の高い音響モデルを用いて照合音響尤度Ｓａ（ｉ）を算出する音響尤度計算部９を備えるように構成したので、検索結果決定部８ｂにおける音響尤度の比較をより正確に行うことができ、検索精度を向上させることができる。

なお、上述した実施の形態４では、認識部２ｂが参照する音響モデル記憶部５に記憶された音響モデルと、外部認識装置２００ａが参照する音響モデル記憶部２０２に記憶された音響モデルとが同一である場合を示したが、それぞれ異なる音響モデルを参照するように構成しても良い。認識部２ｂが参照する音響モデルと外部認識装置２００ａが参照する音響モデルとが異なっても、音響尤度計算部９において照合音響尤度を再度算出するため、認識部２ｂによる認識結果の文字列に対する音響尤度と、外部認識装置２００ａによる認識結果の文字列に対する音響尤度とが厳密に比較可能になるためである。

また、上述した実施の形態４では、外部認識装置２００ａを用いる構成を示したが、音声検索装置１００ｃ内の認識部２ｂが第１言語モデル記憶部を参照して認識処理を行ってもよいし、音声検索装置１００ｃ内に新たな認識手段を設け、当該認識手段が第１言語モデル記憶部を参照して認識処理を行うように構成してもよい。

なお、上述した実施の形態４では、外部認識装置２００ａを用いる構成を示したが、外部認識装置を用いることなく、音声検索装置内で全ての認識処理を行う構成にも適用可能である。

なお、上述した実施の形態２から実施の形態４では、２個の言語モデルを用いる例を示したが、３個以上の言語モデルを用いることも可能である。

また、上述した実施の形態１から実施の形態４において、複数の言語モデルを２以上のグループに振り分け、２以上のグループそれぞれに対して認識部２，２ａ，２ｂによる認識処理を割り当てるように構成してもよい。これは認識処理を複数の音声認識エンジン（認識部）に割り当てて並列に認識処理を行うことを意味する。これにより、認識処理を高速に行うことができる。また、実施の形態４の図８で示したように、強力なＣＰＵパワーを持つ外部認識装置が使用可能になる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

以上のように、この発明に係る音声検索装置および音声検索方法は、音声認識機能を備えた種々の機器に適用可能であり、出現頻度の低い文字列の入力が行われた場合にも、精度良く最適な音声認識結果を提供することができる。

１音響分析部、２，２ａ，２ｂ認識部、３第１言語モデル記憶部、４第２言語モデル記憶部、５音響モデル記憶部、６，６ａ文字列照合部、７文字列辞書記憶部、８，８ａ，８ｂ，８ｃ検索結果決定部、９音響尤度計算部、１０高精度音響モデル記憶部、１００，１００ａ，１００ｂ，１００ｃ音声検索装置、２００外部認識装置、２０１第１言語モデル記憶部、２０２音響モデル記憶部。

Claims

音響モデルおよび学習データの異なる複数の言語モデルを参照して音響尤度と言語尤度に重み付けして求めた認識スコアを用いて入力音声の音声認識を行い、前記複数の言語モデルごとに認識文字列の音響尤度および言語尤度を取得する認識部と、
音声検索の対象となる検索対象語彙の文字列を示す情報を蓄積した文字列辞書を記憶する文字列辞書記憶部と、
前記認識部が取得した前記複数の言語モデルごとの認識文字列と、前記文字列辞書に蓄積された検索対象語彙の文字列とを照合し、前記検索対象語彙の文字列に対する前記認識文字列の一致度を示す文字列照合スコアを算出し、前記認識文字列それぞれについて最も文字列照合スコアが高い検索対象語彙の文字列および当該文字列照合スコアを取得する文字列照合部と、
前記文字列照合部が取得した前記文字列照合スコア、前記認識部が取得した音響尤度および言語尤度のうち、２以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に１以上の検索対象語彙を検索結果として出力する検索結果決定部とを備えた音声検索装置。
前記認識部が参照する前記音響モデルよりも認識精度の高い高精度音響モデルを参照して、前記認識部が取得した前記複数の言語モデルごとの認識文字列と、前記入力音声との音響パターン照合を行い、照合音響尤度を算出する音響尤度計算部を備え、
前記認識部は、前記認識文字列の言語尤度を取得し、
前記検索結果決定部は、前記文字列照合部が取得した文字列照合スコア、前記音響尤度計算部が算出した照合音響尤度および前記認識部が取得した言語尤度のうち、２以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に１以上の検索対象語彙を検索結果として出力することを特徴とする請求項１記載の音声検索装置。
前記複数の言語モデルを２以上のグループに振り分け、前記２以上のグループそれぞれに対して前記認識部による認識処理を割り当てることを特徴とする請求項１記載の音声検索装置。
音響モデルおよび少なくとも１以上の言語モデルを参照して音響尤度と言語尤度に重み付けして求めた認識スコアを用いて入力音声の音声認識を行い、前記言語モデルごとに認識文字列の音響尤度および言語尤度を取得する認識部と、
音声検索の対象となる検索対象語彙の文字列を示す情報を蓄積した文字列辞書を記憶する文字列辞書記憶部と、
外部装置において音響モデルおよび前記認識部が参照した言語モデルと学習データが異なる言語モデルを参照して前記入力音声の音声認識を行って得られた外部認識文字列を取得し、取得した外部認識文字列および前記認識部が取得した認識文字列と、前記文字列辞書に蓄積された検索対象語彙の文字列とを照合し、前記検索対象語彙の文字列に対する前記外部認識文字列および前記認識文字列の一致度を示す文字列照合スコアを算出し、前記外部認識文字列および前記認識文字列それぞれについて最も文字列照合スコアが高い検索対象語彙の文字列および当該文字列照合スコアを取得する文字列照合部と、
前記文字列照合部が取得した前記文字列照合スコア、前記認識部が取得した前記認識文字列の音響尤度および言語尤度、および前記外部装置から取得した前記外部認識文字列の音響尤度および言語尤度のうち、２以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に１以上の検索対象語彙を検索結果として出力する検索結果決定部とを備えた音声検索装置。
前記認識部が参照する前記音響モデルよりも認識精度の高い高精度音響モデルを参照して、前記認識部が取得した認識文字列および外部装置が取得した外部認識文字列と、前記入力音声との音響パターン照合を行い、照合音響尤度を算出する音響尤度計算部を備え、
前記認識部は、前記認識文字列の言語尤度を取得し、
前記検索結果決定部は、前記文字列照合部が取得した文字列照合スコア、前記音響尤度計算部が算出した照合音響尤度、前記認識部が取得した前記認識文字列の言語尤度、および前記外部装置から取得した前記外部認識文字列の言語尤度のうち、２以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に１以上の検索対象語彙を検索結果として出力することを特徴とする請求項４記載の音声検索装置。
認識手段が、音響モデルおよび学習データの異なる複数の言語モデルを参照して音響尤度と言語尤度に重み付けして求めた認識スコアを用いて入力音声の音声認識を行い、前記複数の言語モデルごとに認識文字列の音響尤度および言語尤度を取得するステップと、
文字列照合手段が、前記複数の言語モデルごとの認識文字列と、文字列辞書の蓄積された音声検索の対象となる検索対象語彙の文字列とを照合し、前記検索対象語彙の文字列に対する前記認識文字列の一致度を示す文字列照合スコアを算出し、前記認識文字列それぞれについて最も文字列照合スコアが高い検索対象語彙の文字列および当該文字列照合スコアを取得するステップと、
検索結果決定手段が、前記文字列照合スコア、前記音響尤度および言語尤度のうち、２以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に１以上の検索対象語彙を検索結果として出力するステップとを備えた音声検索方法。