JP2004004509A

JP2004004509A - 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム

Info

Publication number: JP2004004509A
Application number: JP2002367606A
Authority: JP
Inventors: Shinichi Yoshizawa; 伸一芳澤; Kiyohiro Kano; 清宏鹿野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-12-20
Filing date: 2002-12-19
Publication date: 2004-01-08
Anticipated expiration: 2022-12-19
Also published as: JP3756879B2

Abstract

【課題】雑音環境における適応モデルの精度の低下を防ぐことができる音響モデル作成方法を提供する。
【解決手段】雑音が重畳された音声データを音響的な近さに基づいてグループ化する。各グループに含まれる音声データを用いて十分統計量を作成する。音声認識を利用する人（利用者）の音声データに音響的に近いグループを選択する。選択したグループについての十分統計量の中から利用者の音声データに音響的に近い十分統計量を選択する。選択した十分統計量を用いて音響モデルを作成する。
【選択図】　図７

Description

【０００１】
【発明の属する技術分野】
この発明は、音声認識に用いられる音響モデルを作成する方法、装置、コンピュータプログラムに関する。さらに詳しくは、音声認識を利用する人の声および音声認識が利用される環境に適応した音響モデルを作成する方法、装置、コンピュータプログラムに関する。
【０００２】
【従来の技術】
近年、携帯電話・携帯端末・カーナビゲーションシステム・パーソナルコンピュータ・家電機器などのデジタル情報機器において、音声認識技術を用いて利用者の利便性を向上させることが期待されている。
【０００３】
音声認識システムに用いられる音響モデルが利用者にふさわしくない場合、その利用者は音声認識システムを利用することができない。したがって音声認識システムでは利用者の音声に適応した音響モデルを用いる必要がある。音声認識システムを利用する人の声に音響モデルを適応させる技術（話者適応技術）としては、図１に示すように様々なものが存在する。図１では、話者適応技術を実現するために必要とされるシステムの計算機パワーおよびハードディスク容量に対応させて各種の話者適応技術をマッピングしている。さらに話者適応技術の各々について、「適応化を行うために利用者が発声しなければならない文章の数」，「その適応技術によって対応可能な変動要因（話者性、声の調子）」，「認識性能（星印の大きさで示す。大きいほど性能がよい。）」を併記している。
【０００４】
従来は情報機器の計算機パワーおよび搭載可能なハードディスクの容量が小さく、「声道長正規化」，「ＭＬＬＲ＋固有声空間」のように認識性能の低い話者適応技術しか利用できなかった。情報機器の計算機パワーが増大するにつれ、この計算機パワーを利用して高い認識性能が得られる話者適応技術「ＭＬＬＲ」，「ＣＡＴ」が利用されるようになった。しかしこれらの話者適応技術では、音響モデルを適応させるために利用者が発声しなければならない文章の数が比較的多い。したがって、利用者の負担が大きく、また、利用者が頻繁に入れ替わるような情報機器（たとえばテレビリモコン）には適していない。さらには、家電機器や携帯電話のように比較的計算機パワーの小さい機器にも適していない。
【０００５】
近年、ハードディスク容量の増大化および低価格化がすすんでおり、これにともない「クラスタリングによる方法」，「十分統計量による方法」のように比較的大容量のハードディスクを利用しかつ比較的小さな計算機パワーですむ話者適応技術が登場している。これらの話者適応技術は、搭載されるハードディスクの容量が増大しつつあるカーナビゲーションシステム、テレビなどの家電機器や携帯電話のように比較的計算機パワーの小さい機器に適している。小型の家電機器や携帯電話には大容量のハードディスクを搭載することはできないが、近年ではネットワークを通じて大容量のサーバと通信できるため問題はない。また、これらの話者適応技術では、音響モデルを適応させるために利用者が発声しなければならない文章の数が少ないため（約１文章）、利用者の負担が少なく、利用者が入れ替わる場合にも瞬時に利用できる。しかしながら「クラスタリングによる方法」では、利用者に近いＨＭＭを１つ選択しこれを適応モデルとして利用するため、利用者・利用環境に近いＨＭＭがない場合に認識性能が大きく悪化する。
【０００６】
以上の点を鑑みると、携帯電話や家電機器などに最もふさわしい話者適応技術は「十分統計量を用いた方法」（芳澤伸一，馬場朗，松浪加奈子，米良祐一郎，山田実一，鹿野清宏，“充足統計量と話者距離を用いた音韻モデルの教師なし学習”，信学技報，ＳＰ２０００−８９，ｐｐ．８３−８８，２０００）であると考えられる。これによれば、利用者の１発声で瞬時に高精度な適応モデル（利用者の声に適応した音響モデル）が得られる。
【０００７】
次に、「十分統計量を用いた方法」によって適応モデルを作成する手順を図２および図３を参照しつつ説明する。
【０００８】
〜選択モデルおよび十分統計量の作成（ＳＴ２００）〜
静かな環境で収録したさまざまな話者（たとえば約３００人）の音声データを音声データベース３１０（図３）にあらかじめ蓄積しておく。
【０００９】
データベース３１０に蓄積された音声データを用いて話者ごとに選択モデル（ここでは混合ガウス分布（ＧＭＭ）で表現する。）と十分統計量（ここでは隠れマルコフモデル（ＨＭＭ）で表現する。）とを作成し、これらを十分統計量ファイル３２０（図３）に蓄積する。「十分統計量」とは、データベースの性質を表す十分な統計量であり、ここではＨＭＭの音響モデルにおける平均、分散、ＥＭカウントである。十分統計量は、ＥＭアルゴリズムを用いて不特定話者モデルから１回学習することにより計算する。選択モデルは、音韻を区別することなく１状態６４混合のＧａｕｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌにより作成する。
【００１０】
十分統計量の作成手順を図４を参照して詳しく説明する。
【００１１】
＜ＳＴ２０１＞
まず、不特定話者の十分統計量を作成する。ここでは、ＥＭアルゴリズムを用いて全ての話者のデータにより学習することによって作成する。十分統計量は隠れマルコフモデルで表現され、各状態は混合ガウス分布で表現される。作成した不特定話者の十分統計量のガウス分布に番号をつける。
【００１２】
＜ＳＴ２０２＞
作成した不特定話者の十分統計量を初期値として、各話者に対する十分統計量を作成する。ここでは、ＥＭアルゴリズムを用いて各話者のデータにより学習することによって作成する。各話者の十分統計量のガウス分布に対して、不特定話者の十分統計量に付与された番号に対応した番号を保存する。
【００１３】
〜適応用の音声データの入力（ＳＴ２１０）〜
利用者の音声が入力される。
【００１４】
〜選択モデルによる十分統計量の選択（ＳＴ２２０）〜
入力された音声と選択モデルとに基づいて、利用者の音声に「近い」複数の十分統計量（利用者の音声に音響的に近い話者についての音響モデル）を選択する。ここでいう「近い」とは、入力音声を選択モデルに入力して得られた確率尤度が大きいものから上位Ｎ個の選択モデルに対応する話者の十分統計量を意味する。上述の選択処理は、図３に示す適応モデル作成部３３０において行われる。この様子を図５に示す。
【００１５】
〜適応モデルの作成（ＳＴ２３０）〜
選択された十分統計量を用いて適応モデルを作成する。具体的には、選択された十分統計量に対して、同じ番号をもつガウス分布同士で新たに統計的計算（数１〜数３）を行い１つのガウス分布を算出する。適応モデルの作成処理は、図３に示す適応モデル作成部３３０において行われる。この様子を図５に示す。
【００１６】
【数１】

【００１７】
【数２】

【００１８】
【数３】

【００１９】
ここでは、適応モデルのＨＭＭの各状態における正規分布の平均、分散をそれぞれμ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）、ｖ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）としている。Ｎ_ｍｉｘは混合分布数である。また、状態遷移確率をａ^ａｄｐ［ｉ］［ｊ］（ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）としている。Ｎ_{ｓｔａｔｅ}は状態数であり、ａ^ａｄｐ［ｉ］［ｊ］は状態ｉから状態ｊへの遷移確率を表す。Ｎ_ｓｅｌは選択された音響モデルの数であり、μ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）、ｖ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）はそれぞれの音響モデルの平均、分散である。Ｃ_ｍｉｘ ^ｊ（ｊ＝１，２，…，Ｎ_ｓｅｌ）、Ｃ_{ｓｔａｔｅ} ^ｋ［ｉ］［ｊ］（ｋ＝１，２，…，Ｎ_ｓｅｌ、ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）はそれぞれ、正規分布におけるＥＭカウント（度数）、状態遷移に関するＥＭカウントである。
【００２０】
〜認識（ＳＴ２４０）〜
上述のようにして作成された適応モデルを用いて音声認識システム３００（図３）は利用者の音声を認識する。
【００２１】
【非特許文献１】
芳澤伸一，馬場朗，松浪加奈子，米良祐一郎，山田実一，鹿野清宏，「充足統計量と話者距離を用いた音韻モデルの教師なし学習」，信学技報，ＳＰ２０００−８９，ｐｐ．８３−８８，２０００
【特許文献１】
特開２００１−２５５８８７号公報
【特許文献２】
特開平１０−１６１６９２号公報
【特許文献３】
特開平５−２３９９号公報
【特許文献４】
特開平６−２１４５９２号公報
【特許文献５】
特開平９−２５８７６９号公報
【特許文献６】
特開２００２−１８２６８２号公報
【００２２】
【発明が解決しようとする課題】
以上に説明した「十分統計量を用いた方法」では、不特定話者（初期値）の十分統計量のガウス分布の位置関係と各話者の十分統計量のガウス分布の位置関係とが同等であると近似している。すなわち、十分統計量の初期値から各音声データの十分統計量を計算しても、ガウス分布の位置関係は維持された状態で、混合重み、平均値、分散のみが学習できると仮定している。具体的には、十分統計量の初期値のガウス分布のうち、各音声データの十分統計量のガウス分布にＫＬ距離などの分布距離で最も近いガウス分布の番号が、当該音声データの十分統計量のガウス分布の番号と同一であると仮定している。静かな環境では上記仮定が成り立っているため（図４参照）、上記方法は“静かな環境での”適応モデル作成方法として有効である。しかし、実用を考えると、“雑音環境における”適応モデルの作成を考慮しなくてはならない。その場合、図６に示すように上記仮定が成り立たなくなり、適応モデルの精度が低下する。
【００２３】
この発明の目的は、雑音環境における適応モデルの精度の低下を防ぐことができる音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムを提供することである。
【００２４】
【課題を解決するための手段および発明の効果】
この発明による方法は、音声認識に用いられる音響モデルを作成する方法であって以下のステップ（ａ）〜（ｅ）を備える。ステップ（ａ）では、雑音が重畳された音声データを音響的な近さに基づいてグループ化する。ステップ（ｂ）では、ステップ（ａ）によって得られた各グループについて、当該グループに含まれる音声データを用いて十分統計量を作成する。ステップ（ｃ）では、音声認識を利用する人（利用者）の音声データに音響的に近いグループをステップ（ａ）によって得られたグループの中から選択する。ステップ（ｄ）では、ステップ（ｃ）によって選択されたグループについての十分統計量の中から利用者の音声データに音響的に近い十分統計量を選択する。ステップ（ｅ）では、ステップ（ｄ）によって選択された十分統計量を用いて音響モデルを作成する。
【００２５】
好ましくは、上記ステップ（ａ）および（ｂ）は、利用者が音声認識を利用する時点よりも前にオフラインで行われる。
【００２６】
好ましくは、上記ステップ（ａ）では、雑音の種類に基づいてグループ化する。
【００２７】
好ましくは、上記ステップ（ａ）では、雑音が重畳された音声データのＳＮ比に基づいてグループ化する。
【００２８】
好ましくは、上記ステップ（ａ）では、音響的に近い話者ごとにグループ化する。
【００２９】
好ましくは、上記ステップ（ｂ）では、話者ごとに十分統計量を作成する。
【００３０】
好ましくは、上記ステップ（ｂ）では、話者の声の調子ごとに十分統計量を作成する。
【００３１】
好ましくは、上記ステップ（ｂ）では、雑音の種類ごとに十分統計量を作成する。
【００３２】
好ましくは、上記ステップ（ｂ）では、上記各グループに含まれる音声データのＳＮ比ごとに十分統計量を作成する。
【００３３】
この発明による装置は、音声認識に用いられる音響モデルを作成する装置であって、蓄積部と、第１の選択部と、第２の選択部と、モデル作成部とを備える。蓄積部は、雑音が重畳された音声データを音響的な近さに基づいてグループ化することによって得られた複数のグループの各々について当該グループに含まれる音声データを用いて作成された十分統計量を蓄積する。第１の選択部は、音声認識を利用する人（利用者）の音声データに音響的に近いグループを上記複数のグループの中から選択する。第２の選択部は、第１の選択部によって選択されたグループについての十分統計量の中から利用者の音声データに音響的に近い十分統計量を選択する。モデル作成部は、第２の選択部によって選択された十分統計量を用いて音響モデルを作成する。
【００３４】
好ましくは、上記装置は、グループ作成部と、十分統計量作成部とをさらに備える。グループ作成部は、雑音が重畳された音声データを音響的な近さに基づいてグループ化する。十分統計量作成部は、グループ作成部によって得られた各グループについて当該グループに含まれる音声データを用いて十分統計量を作成する。上記蓄積部は、十分統計量作成部によって作成された十分統計量を蓄積する。
【００３５】
この発明によるプログラムは、音声認識に用いられる音響モデルを作成するためのコンピュータプログラムであって、コンピュータを手段（ａ）〜手段（ｄ）として機能させる。手段（ａ）は、雑音が重畳された音声データを音響的な近さに基づいてグループ化することによって得られた複数のグループの各々について当該グループに含まれる音声データを用いて作成された十分統計量を蓄積する。手段（ｂ）は、音声認識を利用する人（利用者）の音声データに音響的に近いグループを上記複数のグループの中から選択する。手段（ｃ）は、手段（ｂ）によって選択されたグループについての十分統計量の中から上記利用者の音声データに音響的に近い十分統計量を選択する。手段（ｄ）は、手段（ｃ）によって選択された十分統計量を用いて音響モデルを作成する。
【００３６】
好ましくは、上記コンピュータをさらに手段（ｅ）〜（ｆ）として機能させる。手段（ｅ）は、雑音が重畳された音声データを音響的な近さに基づいてグループ化する。手段（ｆ）は、手段（ｅ）によって得られた各グループについて当該グループに含まれる音声データを用いて十分統計量を作成する。上記手段（ａ）は、手段（ｆ）によって作成された十分統計量を蓄積する。
【００３７】
上記方法、装置、プログラムでは、雑音の種類・ＳＮ比・話者などのバリエーションにおいて「音響的に近い」ものをグループ化し、各グループの中で十分統計量の作成および適応モデル（音響モデル）の作成を行うことができる。このようにグループ化することにより上述の仮定を成立させることができる。この結果、雑音環境における適応モデルの精度の低下を防ぐことができ、高精度の適応モデルを作成することができる。
【００３８】
この発明によるもう１つの方法は、音声認識に用いられる音響モデルを作成する方法であって以下のステップ（ａ）〜（ｄ）を備える。ステップ（ａ）では、複数の話者による複数の音声データの中から、音声認識を利用する人（利用者）の音声データに音響的に近い音声データを選択する。ステップ（ｂ）では、ステップ（ａ）によって選択された音声データに、音声認識が利用される環境における雑音を重畳する。ステップ（ｃ）では、ステップ（ｂ）によって雑音が重畳された音声データを用いて十分統計量を作成する。ステップ（ｄ）では、ステップ（ｃ）によって作成された十分統計量を用いて音響モデルを作成する。
【００３９】
好ましくは、上記方法はステップ（ｅ）〜（ｆ）をさらに備える。ステップ（ｅ）では、上記複数の話者による複数の音声データに、音声認識が利用されるであろうと予測される環境における雑音を重畳する。ステップ（ｆ）では、ステップ（ｅ）によって雑音が重畳された音声データについてのラベル情報を作成する。ステップ（ｃ）では、ステップ（ｂ）によって雑音が重畳された音声データと、ステップ（ｆ）において作成されたラベル情報のうちステップ（ａ）によって選択された音声データについてのラベル情報とを用いて十分統計量を作成する。
【００４０】
好ましくは、上記ステップ（ｆ）ではさらに、ステップ（ｅ）によって雑音が重畳された音声データについての音響モデルの状態遷移に関する情報を作成する。上記ステップ（ｃ）では、ステップ（ｆ）において作成された音響モデルの状態遷移に関する情報のうちステップ（ａ）によって選択された音声データについての音響モデルの状態遷移に関する情報をさらに用いて十分統計量を作成する。
【００４１】
好ましくは、上記ステップ（ｅ）では、複数種類の雑音の各々を上記複数の話者による複数の音声データに重畳する。上記ステップ（ｆ）では、上記複数種類の雑音の各々についてラベル情報を作成する。上記ステップ（ｃ）では、ステップ（ａ）によって選択された音声データについての複数のラベル情報の中から、音声認識が利用される環境に適したラベル情報を選択し、選択したラベル情報を用いて十分統計量を作成する。
【００４２】
この発明によるもう１つの装置は、音声認識に用いられる音響モデルを作成する装置であって、蓄積部と、選択部と、雑音重畳部と、十分統計量作成部と、モデル作成部とを備える。蓄積部は、複数の話者による複数の音声データを蓄積する。選択部は、音声認識を利用する人（利用者）の音声データに音響的に近い音声データを蓄積部に蓄積された音声データの中から選択する。雑音重畳部は、選択部によって選択された音声データに、音声認識が利用される環境における雑音を重畳する。十分統計量作成部は、雑音重畳部によって雑音が重畳された音声データを用いて十分統計量を作成する。モデル作成部は、十分統計量作成部によって作成された十分統計量を用いて音響モデルを作成する。
【００４３】
この発明によるもう１つのプログラムは、音声認識に用いられる音響モデルを作成するためのコンピュータプログラムであって、コンピュータを手段（ａ）〜（ｅ）として機能させる。手段（ａ）は、複数の話者による複数の音声データを蓄積する。手段（ｂ）は、音声認識を利用する人（利用者）の音声データに音響的に近い音声データを手段（ａ）に蓄積された音声データの中から選択する。手段（ｃ）は、手段（ｂ）によって選択された音声データに、音声認識が利用される環境における雑音を重畳する。手段（ｄ）は、手段（ｃ）によって雑音が重畳された音声データを用いて十分統計量を作成する。手段（ｅ）は、手段（ｄ）によって作成された十分統計量を用いて音響モデルを作成する。
【００４４】
上記方法、装置、プログラムでは、音響的に近い音声データで処理を行うため高精度の適応モデルが作成できる。また、音響的に近い音声データを選択してから十分統計量の計算を行うため、十分統計量を作成するための処理を速くできる。
【００４５】
この発明による適応モデル作成装置は、音声認識に用いられる音響モデルを作成する装置であって、蓄積部と、記憶部と、モデル作成部とを備える。蓄積部には、音響的な近さに基づいてグループ化された複数のグループが蓄積される。上記複数のグループの各々は複数の十分統計量を含む。記憶部には、上記複数のグループのうちの少なくとも１つのグループを示すグループＩＤが記憶される。モデル作成部は、記憶部に記憶されたグループＩＤに対応するグループの中から利用者の音声に音響的に近いグループを１つ選択する。モデル作成部は、選択したグループに含まれている十分統計量のうち上記利用者の音声に音響的に近い少なくとも２つの十分統計量を用いて音響モデルを作成する。
【００４６】
好ましくは、上記モデル作成部は、上記複数のグループのうち利用者の音声に音響的に近いグループを少なくとも１つ選択し、選択したグループを示すグループＩＤを上記記憶部に記憶させる。
【００４７】
好ましくは、上記記憶部は、音声認識が利用される環境における雑音の種類と前記グループＩＤとを対応づけて記憶する。
【００４８】
好ましくは、上記記憶部は、利用者を示す利用者ＩＤと上記グループＩＤとを対応づけて記憶する。
【００４９】
好ましくは、上記記憶部は、上記適応モデル作成装置を識別するための装置ＩＤと上記グループＩＤとを対応づけて記憶する。
【００５０】
この発明によるもう１つの適応モデル作成装置は、音声認識に用いられる音響モデルを作成する装置であって、蓄積部と、モデル作成部とを備える。蓄積部には、音響的な近さに基づいてグループ化された複数のグループが蓄積される。上記複数のグループの各々は複数の十分統計量を含む。モデル作成部は、上記複数のグループのうちの少なくとも１つのグループを示すグループＩＤを受ける。モデル作成部は、受けたグループＩＤに対応するグループの中から利用者の音声に音響的に近いグループを１つ選択する。モデル作成部は、選択したグループに含まれている十分統計量のうち上記利用者の音声に音響的に近い少なくとも２つの十分統計量を用いて音響モデルを作成する。
【００５１】
好ましくは、上記モデル作成部は、上記グループＩＤを外部の記憶装置から受ける。上記モデル作成部は、上記複数のグループのうち利用者の音声に音響的に近いグループを少なくとも１つ選択し、選択したグループを示すグループＩＤを上記記憶装置に記憶させる。
【００５２】
好ましくは、上記記憶装置は、音声認識が利用される環境における雑音の種類と前記グループＩＤとを対応づけて記憶する。
【００５３】
好ましくは、上記記憶装置は、利用者を示す利用者ＩＤと上記グループＩＤとを対応づけて記憶する。
【００５４】
好ましくは、上記記憶装置は、上記適応モデル作成装置を識別するための装置ＩＤと上記グループＩＤとを対応づけて記憶する。
【００５５】
この発明によるもう１つの適応モデル作成装置は、音声認識に用いられる音響モデルを作成する装置であって、選択部と、モデル作成部とを備える。選択部は、複数のグループのうちの少なくとも１つのグループを示すグループＩＤを受ける。上記複数のグループは、音響的な近さに基づいてグループ化されている。上記複数のグループの各々は複数の十分統計量を含む。選択部は、受けたグループＩＤに対応するグループの中から利用者の音声に音響的に近いグループを１つ選択する。モデル作成部は、選択部によって選択されたグループに含まれている十分統計量のうち上記利用者の音声に音響的に近い少なくとも２つの十分統計量を受ける。モデル作成部は、受けた十分統計量を用いて音響モデルを作成する。
【００５６】
好ましくは、上記選択部は、上記グループＩＤを外部の記憶装置から受ける。上記選択部は、上記複数のグループのうち利用者の音声に音響的に近いグループを少なくとも１つ選択し、選択したグループを示すグループＩＤを上記記憶装置に記憶させる。
【００５７】
好ましくは、上記記憶装置は、音声認識が利用される環境における雑音の種類と前記グループＩＤとを対応づけて記憶する。
【００５８】
好ましくは、上記記憶装置は、利用者を示す利用者ＩＤと上記グループＩＤとを対応づけて記憶する。
【００５９】
好ましくは、上記記憶装置は、上記適応モデル作成装置を識別するための装置ＩＤと上記グループＩＤとを対応づけて記憶する。
【００６０】
【発明の実施の形態】
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一の符号を付し、その説明は繰り返さない。
【００６１】
（第１の実施形態）
＜適応モデル作成装置の構成＞
図７は、第１の実施形態による音声認識用適応モデル作成装置の全体構成を示すブロック図である。図７に示す装置は、十分統計量作成部１と、選択モデル作成部２と、十分統計量蓄積部３と、選択モデル蓄積部４と、適応モデル作成部５と、グループ作成部６とを備える。
【００６２】
グループ作成部６は、静かな環境における音声データ８３に雑音データ８２を重畳して作成した雑音重畳音声データ８４を「音響的な近さ」によりグルーピングする。
【００６３】
十分統計量作成部１は、グループ作成部６がグルーピングした音声データ８４を用いて、グループ作成部６が作成したグループごとに十分統計量７１を作成する。
【００６４】
十分統計量蓄積部３は、十分統計量作成部１が作成した十分統計量７１を蓄積する。
【００６５】
選択モデル作成部２は、選択モデル７３を作成する。選択モデル７３は、蓄積部３に蓄積された十分統計量７１の中から利用者の音声データ８１に近い十分統計量７２を選択するためのモデルである。
【００６６】
選択モデル蓄積部４は、選択モデル作成部２が作成した選択モデル７３を蓄積する。
【００６７】
適応モデル作成部５は、蓄積部４に蓄積された選択モデル７３を用いて、蓄積部３に蓄積された十分統計量７１の中から利用者の音声データ８１に「音響的に近い」十分統計量７２を選択し、選択した十分統計量７２を用いて適応モデル７４を作成する。
【００６８】
＜適応モデルの作成手順＞
次に、以上のように構成された装置による適応モデル作成の手順について説明する。ここでは、利用者が室内で音声認識を行う場合を例にして説明する。
［十分統計量７１および選択モデル７３の作成］
はじめに、十分統計量７１と選択モデル７３の作成方法について述べる。ここでは、十分統計量７１と選択モデル７３の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。
【００６９】
静かな環境において複数話者の音声データ８３を収録する。ここでは約３００人の音声データを収録する。
【００７０】
利用者が音声認識を利用するであろう環境の雑音データ８２を収録する。ここでは室内雑音を収録する。
【００７１】
音声データ８３に、利用者が音声認識を利用するであろう環境におけるＳＮ比で雑音データ８２を重畳して音声データ８４を作成する。ここでは１５ｄＢ、２０ｄＢ、２５ｄＢのＳＮ比で雑音データ８２を重畳する。
【００７２】
グループ作成部６は、作成された音声データ８４を「音響的な近さ」によりグルーピングする。ここでは、図８に示すように、ＳＮ比ごとに１５ｄＢのグループＡ、２０ｄＢのグループＢ、２５ｄＢのグループＣにグルーピングする。
【００７３】
十分統計量７１を作成する。十分統計量作成部１は、図９に示すように、グループ作成部６が作成したグループごとに、雑音重畳音声データ８４Ａ〜８４Ｃを用いてそれぞれの不特定話者モデルＡ〜Ｃを作成する。次に、グループ作成部６が作成した各グループについて、各話者の雑音重畳音声データ８４を用いて話者ごとにＥＭアルゴリズムにより各グループの不特定話者モデルから一回学習することにより十分統計量７１Ａ〜７１Ｃを計算する。ここでは、グループごとに約３００の十分統計量が作成される。
【００７４】
選択モデル７３を作成する。一例として図１０に示すように、グループ作成部６が作成したグループごとに、雑音重畳音声データ８４Ａ〜８４Ｃを用いて、話者ごとに、音韻を区別することなく１状態６４混合のＧａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ（ＧＭＭ）により、選択モデル７３Ａ〜７３Ｃを作成する。ここでは、グループごとに約３００の十分統計量選択モデルが作成される。
【００７５】
十分統計量７１Ａ〜７１Ｃ（図９）を作成したときに用いた音声データ８４Ａ〜８４Ｃ（図９）と、これにより作成した選択モデル７３Ａ〜７３Ｃ（図１０）とは対をなしており、対応した選択モデルにより利用者の音声データに近い十分統計量が選択される。
【００７６】
十分統計量蓄積部３は、十分統計量作成部１が作成した十分統計量７１Ａ〜７１Ｃを蓄積する。選択モデル蓄積部４は、選択モデル作成部２が作成した選択モデル７３Ａ〜７３Ｃを蓄積する。十分統計量蓄積部３に蓄積される十分統計量７１の一例を図１１および図１６に示す。また、選択モデル蓄積部４に蓄積される選択モデル７３の一例を図１２に示す。ここで、各グループ（Ａ〜Ｃ）における各話者（Ａさん〜Ｚさん）の十分統計量と選択モデルとは対をなしている。
［適応モデル７４の作成］
次に、適応モデル作成部５における適応モデル７４の作成手順について述べる。
【００７７】
十分統計量７１および選択モデル７３の一例として図１１，図１２に示したものを用いて説明する。
【００７８】
利用者は、適応モデル７４の作成を要求する。
【００７９】
利用者は、音声認識用のマイクなどを利用して、音声認識を利用する環境下での音声データ８１を適応モデル作成部５に入力する。音声データ８１には、音声認識を利用する環境の雑音が重畳されている。
【００８０】
ここでは、利用者が、室内でＳＮ比が２０ｄＢとなる環境で音声認識を利用する場合について述べる。
【００８１】
適応モデル作成部５は、音声データ８１を選択モデル蓄積部４に送信して選択モデル７３に入力する。すなわち、音声データ８１は、図１２のグループＡ〜ＣのＡさん〜Ｚさんの十分統計量選択モデルに入力される。
【００８２】
グループ作成部６が作成したグループのうち利用者の音声データ８１に「音響的に近い」グループを決定する。
【００８３】
音声データ８１を選択モデル７３に入力したときの選択モデル７３の尤度を計算して尤度の大きい順番に並べる。すなわち、図１２のグループＡ〜ＣのＡさん〜Ｚさんの選択モデルの音声データ８１に対する尤度を計算して大きい順番に並べる。選択モデル７３の尤度を計算して尤度の大きい順番で並べた一例を図１３に示す。
【００８４】
尤度が大きい順番で上位Ｎ個（図１３の例では１００個）の選択モデルを選択し、最も多く選択したグループ（室内雑音のＳＮ比）を決定する。図１２の例では、最も多く選択したグループはグループＢ（室内雑音２０ｄＢ）である。すなわち、グループＢが利用者の音声データ８１に「音響的に近い」グループである。
【００８５】
適応モデル７４を、音声データ８１に「音響的に近い」グループ（グループＢ）の十分統計量を用いて作成する。音声データ８１に「音響的に近い」グループ（グループＢ）の選択モデル７３から尤度が大きい順番で上位Ｌ個（図１４の例では２０個）を選択する。そして選択した選択モデルと対をなす十分統計量７２を用いて適応モデル７４を作成する。具体的には以下の統計処理計算（数４〜数６）により適応モデル７４を作成する。適応モデル７４のＨＭＭの各状態における正規分布の平均、分散をそれぞれμ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）、ｖ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）とする。Ｎ_ｍｉｘは混合分布数である。また、状態遷移確率をａ^ａｄｐ［ｉ］［ｊ］（ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）とする。Ｎ_{ｓｔａｔｅ}は状態数であり、ａ^ａｄｐ［ｉ］［ｊ］は状態ｉから状態ｊへの遷移確率を表す。
【００８６】
【数４】

【００８７】
【数５】

【００８８】
【数６】

【００８９】
ここで、Ｎ_ｓｅｌは、選択された音響モデルの数であり、μ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）、ｖ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）はそれぞれのＨＭＭの平均、分散である。Ｃ_ｍｉｘ ^ｊ（ｊ＝１，２，…，Ｎ_ｓｅｌ）、Ｃ_{ｓｔａｔｅ} ^ｋ［ｉ］［ｊ］（ｋ＝１，２，…，Ｎ_ｓｅｌ、ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）はそれぞれ、正規分布におけるＥＭカウント（度数）、状態遷移に関するＥＭカウントである。
【００９０】
適応モデル作成部５は、利用者の次の適応モデル作成の要求に備える。
【００９１】
＜実験結果＞
適応モデルを用いて認識実験を行った結果について述べる。
【００９２】
認識実験の条件について述べる。データベースは３０６人の話者データにより構成されており、各話者は約２００文章の発声データをもつ。サンプリング周波数１６ｋＨｚ、１６ｂｉｔのデータである。特徴量として、窓シフト長１０ｍｓで分析した１２次元のＭＦＣＣ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙ　ｃｅｐｓｔｒｕｍ　ｃｏｅｆｆｉｃｉｅｎｔ）とデルタケプストラム、デルタパワーを用いる。特徴量抽出においてＣＭＮ（Ｃｅｐｓｔｒｕｍｍｅａｎ　ｎｏｒｍａｌｉｚａｔｉｏｎ）処理がほどこされている。２０ｋの新聞記事により構築した言語モデルを用いる。評価話者は４６人である。評価文章として各話者４〜５文章、合計２００文章を用いた。雑音の種類として室内雑音を用いた。
【００９３】
図１５に認識実験結果を示す。図１５では、十分統計量を用いて適応モデルを作成する従来技術の認識結果も合わせて示している。
【００９４】
図１５に示す結果をみると、この発明により作成した適応モデルの性能は、従来技術によるものと比較してきわめて高いことがわかる。
【００９５】
＜効果＞
以上説明したように第１の実施形態では、「音響的に近い」ものをクラスタリング（グルーピング）して、各グループの中で、選択モデル・十分統計量の作成と適応モデルの作成を行う。このようにクラスタリングすることにより、従来技術の箇所で説明した仮定を成立させることができる。この結果、雑音環境における適応モデルの精度の低下を防ぐことができ、高精度の適応モデルを作成することができる。ここでグルーピングされる「音響的に近い」音声データとは、従来技術の項で説明した「十分統計量による方法」における仮定が成立する範囲に存在する音声データ群のことである。具体的には、十分統計量の初期値から各音声データの十分統計量を計算しても、ガウス分布の位置関係は維持された状態で、混合重み、平均値、分散のみが学習できる音声データ群のことである（図１６参照）。いいかえると、各音声データの十分統計量のガウス分布にＫＬ距離などの分布距離で最も近い初期値の十分統計量のガウス分布の番号が上記音声データの十分統計量のガウス分布の番号と同一であることをいう（図１６参照）。
【００９６】
このような仮定を成立させることができるグルーピングの例としては、
・雑音の種類ごとにグループを作る。
・ＳＮ比ごとにグループを作る。
・各音声データを用いて音声モデル（混合ガウス分布で表現する）を作成して、ＫＬ距離などの分布間距離が近いものを同じグループとする。
などがある。一例を図１７に示す。
【００９７】
また、第１の実施形態によれば以下のような効果も得られる。
【００９８】
雑音／話者に適応した適応モデル７４を作成するための音声データとして、オフラインで収録した音声データ８３を利用するため、利用者は大量の発声を行う必要がなく利用者の負担が少ない。
【００９９】
雑音重畳音声データ８４を用いて十分統計量７１を作成して適応モデル７４を作成するため、利用環境に適応した適応モデルが作成できる。したがって、雑音環境で適応モデルが利用できる。
【０１００】
オフラインで十分統計量７１を作成するため、適応時に、瞬時に適応モデル７４を作成することができる。したがって、利用環境が変化した場合にすぐに適応モデルが利用できる。
【０１０１】
グループ作成部６により作成したグループごとに十分統計量を作成して適応モデル７４を作成するため、より利用者の音声データ８１に適応した適応モデル７４が作成できる。したがって、より多くの利用者がさまざまな雑音環境で適応モデルが利用できる。
【０１０２】
なお、雑音重畳音声データ８４として、雑音データを計算処理で重畳した音声データの代わりに、雑音環境下で発声した音声データを収録したものを用いてもよい。
【０１０３】
グループ作成部６は、雑音の種類ごと、近い話者ごとにグループを作ってもよい。
【０１０４】
雑音重畳音声データ８４として、室内雑音、車内雑音、会場騒音、掃除機の音などさまざまな雑音環境下の音声データを用いてよい。
【０１０５】
適応モデル７４を作成するタイミングは、適応モデル作成部が自動的に行ってもよい。
【０１０６】
十分統計量選択モデル７３はＧａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌに限られない。
【０１０７】
雑音データ８２として、利用環境の雑音を用いてもよい。
【０１０８】
第１の実施形態による適応モデル作成装置はハードウェアによってもソフトウェア（コンピュータプログラム）によっても実現できる。
【０１０９】
＜具体的な商品イメージおよびグルーピング例＞
第１の実施形態による話者適応技術を用いた音声認識システムは、たとえば次のような商品（情報機器）に搭載することができる。携帯電話、携帯端末（ＰＤＡ）、カーナビゲーションシステム、パソコン、テレビのリモコン、音声翻訳装置、ペットロボット、対話エージェント（グラフィックス）など。これらのうちいくつかについてグルーピング例とともに以下に示す。
【０１１０】
［グループの作成方法１］
雑音の種類×ＳＮ比ごとにグループを作り，グループ内には，話者×話者の声の調子のバリエーションごとの十分統計量を蓄積する。
【０１１１】
＜複数の雑音下，複数の話者が利用する機器（例：テレビの操作）＞
・グループの選択方法１（図１８参照）
この例によるシステムの構成を図１８Ａに示す。このシステムは、サーバ１８００と、デジタルＴＶシステム１８１０と、音声リモコン１８２０とを備える。サーバ１８００は、グループ作成部６と、選択モデル作成部２と、十分統計量作成部１とを含む。グループ作成部６は、図１８Ｂに示すように、雑音が重畳された音声データ８４を雑音の種類（掃除機の音，洗濯機の音など）×ＳＮ比（１０ｄＢ，２０ｄＢなど）ごとにグループ化する。十分統計量作成部１は、グループ作成部６によって作成されたグループの各々について、話者（話者Ａ，話者Ｂなど）×話者の声の調子（鼻声，普通の声，早口の声など）ごとに十分統計量を作成する。選択モデル作成部２は、十分統計量作成部１によって作成された十分統計量の各々について、対応する選択モデルを作成する。音声リモコン１８２０はマイク１８２１を含む。マイク１８２１は、利用者が発声した音声を所定の音声データに変換する。マイク１８２１によって変換された音声データはデジタルＴＶシステム１８１０に送信される。デジタルＴＶシステム１８１０は、ハードディスク（ＨＤＤ）１８１１と、適応モデル作成部５と、音声認識システム３００（図３参照）と、処理部１８１２とを含む。サーバ１８００の選択モデル作成部２によって作成された選択モデルおよび十分統計量作成部１によって作成された十分統計量は通信網を介してＨＤＤ１８１１にダウンロードされる。適応モデル作成部５は、音声リモコン１８２０からの音声データとＨＤＤ１８１１に蓄積された選択モデルおよび十分統計量とを利用して適応モデルを作成する。音声認識システム３００は、適応モデル作成部５によって作成された適応モデルを用いて音声リモコン１８２０からの音声データを認識する。処理部１８１２は、音声認識システム３００による認識の結果に応じて各種の処理を行う。以上のように構成されたシステムでは以下の処理が行われる。
【０１１２】
［ステップＳＴ１］
音声リモコン１８２０のマイク１８２１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルＴＶシステム１８１０に送信される。
【０１１３】
［ステップＳＴ２］
適応モデル作成部５は、音声リモコン１８２０からの音声データをＨＤＤ１８１１内の選択モデルに入力して尤度を算出する。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１１４】
［ステップＳＴ３］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１１５】
・グループの選択方法２（図１９，図２０参照）
この例による表示システムの構成を図１９Ａに示す。このシステムは、サーバ１９００と、デジタルＴＶシステム１９１０と、音声リモコン１９２０とを備える。サーバ１９００は、グループ作成部６と、選択モデル作成部２と、十分統計量作成部１と、選択モデル蓄積部４と、十分統計量蓄積部３とを含む。グループ作成部６は、図１９Ｂに示すように、雑音が重畳された音声データ８４を雑音の種類（掃除機Ａの音，掃除機Ｂの音など）×ＳＮ比（１０ｄＢ，２０ｄＢなど）ごとにグループ化する。十分統計量作成部１は、グループ作成部６によって作成されたグループの各々について、話者（話者Ａ，話者Ｂなど）×話者の声の調子（鼻声，普通の声，早口の声など）ごとに十分統計量を作成する。選択モデル作成部２は、十分統計量作成部１によって作成された十分統計量の各々について、対応する選択モデルを作成する。音声リモコン１９２０はマイク１８２１とメモリ１９２２とを含む。メモリ１９２２には、雑音の種類を示すＩＤ（雑音ＩＤ）とグループを示すＩＤ（グループＩＤ）とが対応づけられて記憶される。デジタルＴＶシステム１９１０は、適応モデル作成部５と、音声認識システム３００（図３参照）と、処理部１８１２とを含む。適応モデル作成部５は、音声リモコン１９２０からの音声データと、サーバ１９００の選択モデル蓄積部４に蓄積された選択モデルおよび十分統計量蓄積部３に蓄積された十分統計量とを利用して適応モデルを作成する。以上のように構成されたシステムでは以下の処理が行われる。
【０１１６】
［ステップＳＴ１−ａ］
デジタルＴＶシステム１９１０は、利用環境における雑音の種類をリモコン１９２０のボタン操作によって選択するように利用者を促す。たとえば、「１．洗濯機，２．掃除機，３．エアコン，…」のように選択肢を画面に表示する。利用者は、利用環境における雑音の種類をボタン操作により選択する。ここでは掃除機が使用されている環境で利用者がリモコン操作を行っているものとする。利用者は、雑音の種類として「２．掃除機」をボタン操作によって選択する。
【０１１７】
［ステップＳＴ２−ａ］
音声リモコン１９２０のマイク１８２１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルＴＶシステム１９１０に送信される。
【０１１８】
［ステップＳＴ３−ａ］
適応モデル作成部５は、音声リモコン１９２０からの音声データをサーバ１９００の選択モデル蓄積部４内の選択モデルに入力して尤度を算出する。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１１９】
［ステップＳＴ４−ａ］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１２０】
［ステップＳＴ５−ａ］
適応モデル作成部５は、ステップＳＴ３−ａにおいて選択したグループを示すＩＤ（グループＩＤ）と、当該グループと雑音の種類が同じであるグループを示すＩＤ（グループＩＤ）とを音声リモコン１９２０に送信する。これらのグループＩＤは、ステップＳＴ１−ａにおいて選択された雑音の種類を示すＩＤ（雑音ＩＤ）と対応づけられてメモリ１９２２に記憶される。ここではステップＳＴ３−ａにおいてグループ１（図１９Ｂ参照）が選択されたものとする。グループ１の雑音の種類は「掃除機Ａの音」である。雑音の種類が「掃除機Ａの音」であるグループはグループ１およびグループ２である（図１９Ｂ参照）。適応モデル作成部５は、図２０に示すように、雑音の種類が「掃除機Ａの音」であるグループ（グループ１，グループ２）のグループＩＤを音声リモコン１９２０へ送信する。これらのグループＩＤは、ステップＳＴ１−ａにおいて選択された雑音の種類「２．掃除機」を示す雑音ＩＤと対応づけられてメモリ１９２２に記憶される（図２０参照）。
【０１２１】
［ステップＳＴ１−ｂ］
ふたたび、掃除機が使用されている環境で利用者がリモコン操作を行う。利用者は、雑音の種類として「２．掃除機」をボタン操作によって選択する。音声リモコン１９２０は、選択された雑音の種類「２．掃除機」に対応づけられてメモリ１９２２に記憶されているグループＩＤ（グループ１，グループ２のグループＩＤ）をデジタルＴＶシステム１９１０へ送信する（図２０参照）。
【０１２２】
［ステップＳＴ２−ｂ］
音声リモコン１９２０のマイク１８２１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルＴＶシステム１９１０に送信される。
【０１２３】
［ステップＳＴ３−ｂ］
適応モデル作成部５は、サーバ１９００の選択モデル蓄積部４内の選択モデルのうち音声リモコン１９２０からのグループＩＤが示すグループ（グループ１，グループ２）の選択モデルに音声リモコン１９２０からの音声データを入力して尤度を算出する。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１２４】
［ステップＳＴ４−ｂ］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１２５】
適応処理ごとに（ＳＴ１−ｂ）に戻る。また，必要に応じて（ＳＴ１−ａ）に戻る（たとえば、掃除機を別の種類の掃除機に買い換えたとき、掃除機の音とは異なる雑音環境の下で音声認識を利用するときなど）。
【０１２６】
＜複数の雑音下，複数の話者が利用する機器（例：ＰＤＡの操作）＞
・グループの選択方法１
通信網で接続されたサーバーに蓄積された十分統計量から，ＧＰＳの位置情報により雑音の種類を自動的に選択した後に，雑音が付加された利用者の音声により，選択モデル（ＧＭＭ）を用いて十分統計量を選択して適応する。具体的には以下の処理を行う。
【０１２７】
ＧＰＳの位置情報を用いて，雑音の種類を自動的に選択する（ＳＴ１）。（例：駅のホームなら電車内の雑音，工事現場なら工事現場の雑音など）
【０１２８】
利用者の音声を入力する（ＳＴ２）。
【０１２９】
選択された雑音のグループにおいて，利用者の音声を選択モデルに入力したときの尤度が大きいＮ個を選択し，その中で一番個数の多いＳＮ比のグループを選択する（ＳＴ３）。
【０１３０】
選択したグループの中で，尤度の大きいＭ個の十分統計量を選択して適応する（ＳＴ４）。
【０１３１】
・グループの選択方法２
通信網で接続されたサーバーに蓄積された十分統計量から，ＰＤＡの中のスケジュール帳と時間情報により雑音の種類を自動的に選択した後に，雑音が付加された利用者の音声により，選択モデル（ＧＭＭ）を用いて十分統計量を選択して適応する。具体的には以下の処理を行う。
【０１３２】
スケジュール帳と時間情報を用いて，雑音の種類を自動的に選択する（ＳＴ１）。（例：スケジュールにて１０時に電車で移動，現在の時刻１０時５５分なら，電車内の雑音を選択する。）
【０１３３】
利用者の音声を入力する（ＳＴ２）。
【０１３４】
選択された雑音のグループにおいて，利用者の音声を選択モデルに入力したときの尤度が大きいＮ個を選択し，その中で一番個数の多いＳＮ比のグループを選択する（ＳＴ３）。
【０１３５】
選択したグループの中で，尤度の大きいＭ個の十分統計量を選択して適応する（ＳＴ４）。
【０１３６】
＜特定の雑音下で利用する機器（例：カーナビ）＞
・グループの選択方法（図２１，図２２参照）
この例による情報検索システムの構成を図２１Ａに示す。このシステムは、サーバ２１００と、カーナビゲーションシステム２１１０とを備える。サーバ２１００は、グループ作成部６と、選択モデル作成部２と、十分統計量作成部１と、選択モデル蓄積部４と、十分統計量蓄積部３と、適応モデル作成部５と、メモリ２１０１とを含む。グループ作成部６は、図２１Ｂに示すように、雑音が重畳された音声データ８４を雑音の種類（カローレの音，マークＩＩＩの音など）×ＳＮ比（１０ｄＢ，２０ｄＢなど）ごとにグループ化する。メモリ２１０１には、カーナビゲーションシステムを識別するための機器ＩＤ（たとえば製品番号）とグループを示すＩＤ（グループＩＤ）とが対応づけられて記憶される。カーナビゲーションシステム２１１０は、マイク２１１１と、データ通信モジュール２１１２と、音声認識システム３００（図３参照）と、処理部２１１３とを含む。以上のように構成されたシステムでは以下の処理が行われる。
【０１３７】
［ステップＳＴ１−ａ］
カーナビゲーションシステム２１１０のマイク２１１１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換され、データ通信モジュール２１１２によってサーバ２１００へ送信される。またデータ通信モジュール２１１２は、カーナビゲーションシステム２１１０の製品番号「１００」を示すデータ（機器ＩＤ）をサーバ２１００へ送信する。
【０１３８】
［ステップＳＴ２−ａ］
適応モデル作成部５は、カーナビゲーションシステム２１１０からの音声データを選択モデル蓄積部４内の選択モデルに入力して尤度を算出する。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１３９】
［ステップＳＴ３−ａ］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１４０】
［ステップＳＴ４−ａ］
適応モデル作成部５は、ステップＳＴ２−ａにおいて選択したグループを示すＩＤ（グループＩＤ）と、当該グループと雑音の種類が同じであるグループを示すＩＤ（グループＩＤ）とを、カーナビゲーションシステム２１１０からの製品番号「１００」に対応づけてメモリ２１０１に記憶する。ここではステップＳＴ２−ａにおいてグループ１（図２１Ｂ参照）が選択されたものとする。グループ１の雑音の種類は「カローレの音」である。雑音の種類が「カローレの音」であるグループはグループ１およびグループ２である（図２１Ｂ参照）。適応モデル作成部５は、図２２に示すように、雑音の種類が「カローレの音」であるグループ（グループ１，グループ２）のグループＩＤを製品番号「１００」に対応づけてメモリ２１０１に記憶する。
【０１４１】
［ステップＳＴ１−ｂ］
ふたたび、カーナビゲーションシステム２１１０のマイク２１１１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換され、データ通信モジュール２１１２によってサーバ２１００へ送信される。またデータ通信モジュール２１１２は、カーナビゲーションシステム２１１０の製品番号「１００」を示すデータ（機器ＩＤ）をサーバ２１００へ送信する。
【０１４２】
［ステップＳＴ２−ｂ］
適応モデル作成部５は、選択モデル蓄積部４内の選択モデルのうち、カーナビゲーションシステム２１１０からの製品番号「１００」に対応づけられてメモリ２１０１に記憶されているグループＩＤが示すグループ（グループ１，グループ２）の選択モデルにカーナビゲーションシステム２１１０からの音声データを入力して尤度を算出する（図２２参照）。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１４３】
［ステップＳＴ３−ｂ］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１４４】
適応処理ごとに（ＳＴ１−ｂ）に戻る。また，必要に応じて（ＳＴ１−ａ）に戻る（たとえば、カーナビゲーションシステム２１１０を別の種類の車（たとえばマークＩＩＩ）に取り付けたときなど）。
【０１４５】
［グループの作成方法２］
雑音の種類×ＳＮ比×近い話者ごとにグループを作り，グループ内には，近い話者において，声の調子のバリエーションごと（鼻声，早口，どもり声など）の十分統計量を蓄積する。
【０１４６】
＜複数の雑音下，複数の話者が利用する機器（例：テレビの操作）＞
・グループの選択方法（図２３，図２４参照）
この例によるシステムの構成を図２３Ａに示す。このシステムは、サーバ２３００と、デジタルＴＶシステム２３１０と、音声リモコン２３２０とを備える。サーバ２３００は、グループ作成部６と、選択モデル作成部２と、十分統計量作成部１と、選択モデル蓄積部４と、十分統計量蓄積部３と、適応モデル作成部５と、メモリ２３０１とを含む。グループ作成部６は、図２３Ｂに示すように、雑音が重畳された音声データ８４を雑音の種類（掃除機の音，エアコンの音など）×ＳＮ比（１０ｄＢ，２０ｄＢなど）×近い話者ごとにグループ化する。メモリ２３０１には、利用者を識別するためのＩＤ（利用者ＩＤ）とグループを示すＩＤ（グループＩＤ）とが対応づけられて記憶される。デジタルＴＶシステム２３１０は、データ通信モジュール２３１２と、音声認識システム３００（図３参照）と、処理部１８１２とを含む。音声リモコン２３２０はマイク１８２１を含む。以上のように構成されたシステムでは以下の処理が行われる。
【０１４７】
［ステップＳＴ１−ａ］
音声リモコン２３２０のマイク１８２１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルＴＶシステム２３１０に送信される。また利用者は、名前や暗証番号などの自己を識別するための情報（利用者ＩＤ）をリモコン２３２０のボタン操作により入力する。入力された利用者ＩＤ（ここでは「１００」）はデジタルＴＶシステム２３１０に送信される。音声リモコン２３２０からの音声データおよび利用者ＩＤ「１００」は、データ通信モジュール２１１２によってサーバ２３００へ送信される。
【０１４８】
［ステップＳＴ２−ａ］
適応モデル作成部５は、デジタルＴＶシステム２３１０からの音声データを選択モデル蓄積部４内の選択モデルに入力して尤度を算出する。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１４９】
［ステップＳＴ３−ａ］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１５０】
［ステップＳＴ４−ａ］
適応モデル作成部５は、ステップＳＴ２−ａにおいて選択したグループを示すＩＤ（グループＩＤ）と、当該グループと近い話者が同じであるグループを示すＩＤ（グループＩＤ）とを、デジタルＴＶシステム２３１０からの利用者ＩＤ「１００」に対応づけてメモリ２３０１に記憶する。ここではステップＳＴ２−ａにおいてグループ２（図２３Ｂ参照）が選択されたものとする。グループ２の近い話者は「話者Ｃ，Ｄ」である。近い話者が「話者Ｃ，Ｄ」であるグループはグループ２，グループ（Ｋ−１）およびグループＫである（図２３Ｂ参照）。適応モデル作成部５は、図２４に示すように、近い話者が「話者Ｃ，Ｄ」であるグループ（グループ２，グループ（Ｋ−１），グループＫ）のグループＩＤを利用者ＩＤ「１００」に対応づけてメモリ２３０１に記憶する。
【０１５１】
［ステップＳＴ１−ｂ］
ふたたび、音声リモコン２３２０のマイク１８２１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルＴＶシステム２３１０に送信される。また利用者は、利用者ＩＤ「１００」をリモコン２３２０のボタン操作により入力する。入力された利用者ＩＤ「１００」はデジタルＴＶシステム２３１０に送信される。音声リモコン２３２０からの音声データおよび利用者ＩＤ「１００」は、データ通信モジュール２３１２によってサーバ２３００へ送信される。
【０１５２】
［ステップＳＴ２−ｂ］
適応モデル作成部５は、選択モデル蓄積部４内の選択モデルのうち、デジタルＴＶシステム２３１０からの利用者ＩＤ「１００」に対応づけられてメモリ２３０１に記憶されているグループＩＤが示すグループ（グループ２，グループ（Ｋ−１），グループＫ）の選択モデルにデジタルＴＶシステム２３１０からの音声データを入力して尤度を算出する（図２４参照）。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１５３】
［ステップＳＴ３−ｂ］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１５４】
適応処理ごとに（ＳＴ１−ｂ）に戻る。また，必要に応じて（ＳＴ１−ａ）に戻る（たとえば、利用者が代わったときなど）。
【０１５５】
＜特定の話者が利用する機器（例：携帯電話の操作）＞
・グループの選択方法（図２５，図２６を参照）
この例によるシステムの構成を図２５Ａに示す。このシステムは、サーバ２５００と、携帯電話２５１０とを備える。サーバ２５００は、グループ作成部６と、選択モデル作成部２と、十分統計量作成部１と、選択モデル蓄積部４と、十分統計量蓄積部３と、適応モデル作成部５と、メモリ２５０１と、音声認識システム３００とを含む。グループ作成部６は、図２５Ｂに示すように、雑音が重畳された音声データ８４を雑音の種類（電車の音，バスの音など）×ＳＮ比（１０ｄＢ，２０ｄＢなど）×近い話者ごとにグループ化する。メモリ２５０１には、携帯電話を識別するための機器ＩＤ（たとえば製品番号）とグループを示すＩＤ（グループＩＤ）とが対応づけられて記憶される。音声認識システム３００による認識結果は通信網を介して携帯電話２５１０へ送信される。携帯電話２５１０は、マイク２５１１と、データ通信モジュール２５１２と、処理部２５１３とを含む。以上のように構成されたシステムでは以下の処理が行われる。
【０１５６】
［ステップＳＴ１−ａ］
携帯電話２５１０のマイク２５１１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換され、データ通信モジュール２５１２によってサーバ２５００へ送信される。またデータ通信モジュール２５１２は、携帯電話２５１０の製品番号「２００」を示すデータ（機器ＩＤ）をサーバ２５００へ送信する。
【０１５７】
［ステップＳＴ２−ａ］
適応モデル作成部５は、携帯電話２５１０からの音声データを選択モデル蓄積部４内の選択モデルに入力して尤度を算出する。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１５８】
［ステップＳＴ３−ａ］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１５９】
［ステップＳＴ４−ａ］
適応モデル作成部５は、ステップＳＴ２−ａにおいて選択したグループを示すＩＤ（グループＩＤ）と、当該グループと近い話者が同じであるグループを示すＩＤ（グループＩＤ）とを、携帯電話２５１０からの製品番号「２００」に対応づけてメモリ２５０１に記憶する。ここではステップＳＴ２−ａにおいてグループ２（図２５Ｂ参照）が選択されたものとする。グループ２の近い話者は「話者Ｃ，Ｄ」である。近い話者が「話者Ｃ，Ｄ」であるグループはグループ２，グループ（Ｋ−１）およびグループＫである（図２５Ｂ参照）。適応モデル作成部５は、図２６に示すように、近い話者が「話者Ｃ，Ｄ」であるグループ（グループ２，グループ（Ｋ−１），グループＫ）のグループＩＤを製品番号「２００」に対応づけてメモリ２５０１に記憶する。
【０１６０】
［ステップＳＴ１−ｂ］
ふたたび、携帯電話２５１０のマイク２５１１に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換され、データ通信モジュール２５１２によってサーバ２５００へ送信される。またデータ通信モジュール２５１２は、携帯電話２５１０の製品番号「２００」を示すデータ（機器ＩＤ）をサーバ２５００へ送信する。
【０１６１】
［ステップＳＴ２−ｂ］
適応モデル作成部５は、選択モデル蓄積部４内の選択モデルのうち、携帯電話２５１０からの製品番号「２００」に対応づけられてメモリ２５０１に記憶されているグループＩＤが示すグループ（グループ２，グループ（Ｋ−１），グループＫ）の選択モデルに携帯電話２５１０からの音声データを入力して尤度を算出する（図２６参照）。適応モデル作成部５は、算出した尤度のうち大きいものからＮ個を選択する。適応モデル作成部５は、これらＮ個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【０１６２】
［ステップＳＴ３−ｂ］
適応モデル作成部５は、選択したグループの中で尤度が大きいＭ個の十分統計量を選択する。適応モデル作成部５は、選択したＭ個の十分統計量を用いて適応モデルを作成する。
【０１６３】
適応処理ごとに（ＳＴ１−ｂ）に戻る。また，必要に応じて（ＳＴ１−ａ）に戻る（たとえば、利用者が代わったときなど）。
【０１６４】
［グループの作成方法３］
近い話者ごとにグループを作り，グループ内には，雑音の種類×ＳＮ比ごとの十分統計量を蓄積する。
【０１６５】
＜複数の雑音下，複数の話者が利用する機器（例：テレビの操作）＞
・グループの選択方法（図２７，図２８を参照）
家庭内のセット・トップ・ボックス，もしくは通信網で接続された家庭外のサーバーに蓄積された十分統計量から，雑音が付加された利用者の音声により，選択モデル（ＧＭＭ）を用いて十分統計量を選択して適応する。このとき，選択したグループと利用者の話者ＩＤ（名前や暗証番号など）を対応付ける。次に適応するときは，話者ＩＤを入力してグループを選択して適応する。具体的には以下の処理を行う。
【０１６６】
利用者の音声を入力する（ＳＴ１−ａ）。
【０１６７】
利用者の音声を選択モデルに入力したときの尤度が大きいＮ個を選択し，その中で一番個数の多い話者グループを選択する（ＳＴ２−ａ）。
【０１６８】
選択したグループの中で，（様々な雑音の種類・ＳＮ比の中から）尤度の大きいＭ個の十分統計量を選択して適応する（ＳＴ３−ａ）。
【０１６９】
選択したグループと話者ＩＤを対応付ける（対応関係を蓄積する）（ＳＴ４−ａ）。
【０１７０】
話者ＩＤを入力してグループを選択する（ＳＴ１−ｂ）。
【０１７１】
利用者の音声を入力する（ＳＴ２−ｂ）。
【０１７２】
選択したグループ（利用者に近い話者グループ）の中で，尤度の大きいＭ個の十分統計量を選択して適応する（ＳＴ３−ｂ）。
【０１７３】
適応処理ごとに（ＳＴ１−ｂ）に戻る。また，必要に応じて（ＳＴ１−ａ）に戻る。
【０１７４】
＜特定の話者が利用する機器（例：携帯電話の操作）＞
・グループの選択方法
通信網で接続された家庭外のサーバーに蓄積された十分統計量から，雑音が付加された利用者の音声により，選択モデル（ＧＭＭ）を用いて十分統計量を選択して適応する。このとき，選択したグループと利用した機器ＩＤを対応付ける。次に適応するときは，機器ＩＤにより自動的にグループを選択して適応する。具体的には以下の処理を行う。
【０１７５】
利用者の音声を入力する（ＳＴ１−ａ）。
【０１７６】
利用者の音声を選択モデルに入力したときの尤度が大きいＮ個を選択し，その中で一番個数の多い話者グループを選択する（ＳＴ２−ａ）。
【０１７７】
選択したグループの中で，尤度の大きいＭ個の十分統計量を選択して適応する（ＳＴ３−ａ）。
【０１７８】
選択したグループと機器ＩＤを対応付ける（対応関係を蓄積する）（ＳＴ４−ａ）。
【０１７９】
利用者の音声を入力する（ＳＴ１−ｂ）。
【０１８０】
機器ＩＤによりグループを自動的に選択する（ＳＴ２−ｂ）。
【０１８１】
選択したグループの中で，尤度の大きいＭ個の十分統計量を選択して適応する（ＳＴ２−ｂ）。
【０１８２】
適応処理ごとに（ＳＴ１−ｂ）に戻る。また，必要に応じて（ＳＴ１−ａ）に戻る（たとえば、利用者が代わったときなど）。
【０１８３】
［グループの作成方法４］
特定の雑音の種類において，ＳＮ比ごとにグループを作り，グループ内には，話者ごとの十分統計量を蓄積する。
【０１８４】
＜特定の雑音下で利用する機器（例：エレベータの操作）＞
・グループの選択方法
エレベータに備え付けられたサーバーに蓄積された十分統計量から，雑音が付加された利用者の音声により，選択モデル（ＧＭＭ）を用いて十分統計量を選択して適応する。具体的には以下の処理を行う。
【０１８５】
利用者の音声を入力する（ＳＴ１）。
【０１８６】
利用者の音声を選択モデルに入力したときの尤度が大きいＮ個を選択し，その中で一番個数の多いＳＮ比のグループを選択する（ＳＴ２）。
【０１８７】
選択したグループの中で，尤度の大きいＭ個の十分統計量を選択して適応する（ＳＴ３）。
【０１８８】
［グループの作成方法５］
特定の話者において，ＳＮ比ごとにグループを作り，グループ内には，特定の話者の声の調子のバリエーションごと（鼻声，早口，どもり声など）の十分統計量を蓄積する。
【０１８９】
＜特定の話者・雑音下で利用する機器について（例：カーナビ）＞
・グループの選択方法
車内に備え付けられたサーバー（カーナビ）に蓄積された十分統計量から，雑音付加された利用者の音声により，選択モデル（ＧＭＭ）を用いて十分統計量を選択して適応する。具体的には以下の処理を行う。
【０１９０】
利用者の音声を入力する（ＳＴ１）。
【０１９１】
利用者の音声を選択モデルに入力したときの尤度が大きいＮ個を選択し，その中で一番個数の多いＳＮ比のグループを選択する（ＳＴ２）。
【０１９２】
選択したグループの中で，尤度の大きいＭ個の十分統計量を選択して適応する（ＳＴ３）。
【０１９３】
なお，グループごとにグループ選択モデルを作成して，グループを選択しても良い（例：雑音の種類ごとにグループを作成する場合，雑音選択モデルがグループ選択モデルとなり，ＧＭＭで作成した場合，雑音を雑音選択モデルに入力して尤度が最も大きいグループを選択する。）。
【０１９４】
（第２の実施形態）
＜適応モデル作成装置の構成＞
図２９は、第２の実施形態による音声処理用適応モデル作成装置の全体構成を示すブロック図である。図２９に示す装置は、選択モデル作成部２１と、選択モデル蓄積部４１と、十分統計量作成部１１と、適応モデル作成部５１とを備える。選択モデル作成部２１は、利用者の音声データに近い音声データを選択するための選択モデル７５を作成する。選択モデル蓄積部４１は、選択モデル作成部２１が作成した選択モデル７５を蓄積する。十分統計量作成部１１は、選択モデル蓄積部４１が蓄積した選択モデル７５を用いて音声データ８３の中から利用者の音声データに近い音声データを選択し、選択した音声データに雑音を重畳した音声データを用いて十分統計量７２を作成する。適応モデル作成部５１は、十分統計量作成部１１が作成した十分統計量７２を用いて適応モデル７４を作成する。
【０１９５】
＜適応モデルの作成処理＞
次に、以上のように構成された装置による音声認識用適応モデルの作成処理について説明する。
【０１９６】
［選択モデル７５の作成］
はじめに、選択モデル７５の作成方法について述べる。ここでは、選択モデル７５の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。
【０１９７】
静かな環境において複数話者の音声データ８３を収録する。ここでは約３００人の音声データを収録する。
【０１９８】
選択モデル作成部２１は、音声データ８３を用いて、話者ごとに、音韻を区別することなく１状態６４混合のＧａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌにより選択モデル７５を作成する。
【０１９９】
一例として図３０に示すように、音声データ８３のパワーの大きいフレームを用いて選択モデル７５を作成する。この方法を用いると雑音に強い音声データ選択モデルが作成できる。
【０２００】
選択モデル蓄積部４１は、選択モデル作成部２１が作成した選択モデル７５を蓄積する。選択モデル蓄積部４１に蓄積される選択モデル７５の一例を図３０に示す。
【０２０１】
［十分統計量７２の作成］
次に、十分統計量７２の作成方法について述べる。
【０２０２】
利用者は、適応モデル７４の作成を要求する。
【０２０３】
利用者は、音声認識用のマイクなどを利用して、音声認識を利用する環境の雑音データ８５を十分統計量作成部１１に入力する。
【０２０４】
また、利用者は、音声認識用のマイクなどを利用して、音声認識を利用する環境下での音声データ８１を十分統計量作成部１１に入力する。音声データ８１は、音声認識を利用する環境の雑音が重畳されている。
【０２０５】
次に、十分統計量作成部１１は、音声データ８１を、選択モデル蓄積部４１が蓄積した選択モデル７５に入力して尤度を計算する。ここでは、音声データ８１のパワーの大きいフレーム部分を図３０に示す選択モデル７５に入力して尤度を計算する。そして、尤度の大きい上位Ｌ人（たとえば上位２０人）の話者を選択して利用者の音声データに近い話者とする。
【０２０６】
十分統計量作成部１１は、静かな環境における音声データ８３の中から利用者に近い話者の音声データに雑音データ８５を重畳し、雑音重畳音声データ８６を作成する。このとき、音声データ８１と雑音データ８５よりＳＮ比を計算して、計算したＳＮ比で雑音重畳音声データ８６を作成する。雑音重畳音声データ８６の作成方法の一例を図３１に示す。
【０２０７】
十分統計量作成部１１は、雑音重畳音声データ８６を用いて十分統計量７２を作成する。十分統計量作成部１１が作成した十分統計量７２の一例を図３２に示す。
【０２０８】
［適応モデル７４の作成］
次に、適応モデル作成部５１における適応モデル７４の作成処理について述べる。
【０２０９】
適応モデル作成部５１は、十分統計量作成部１１が作成した十分統計量７２を用いて適応モデル７４を作成する。具体的には以下の統計処理計算（数７〜数９）により適応モデル７４を作成する。適応モデル７４のＨＭＭの各状態における正規分布の平均、分散をそれぞれμ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）、ｖ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）とする。Ｎ_ｍｉｘは混合分布数である。また、状態遷移確率をａ^ａｄｐ［ｉ］［ｊ］（ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）とする。Ｎ_{ｓｔａｔｅ}は状態数であり、ａ^ａｄｐ［ｉ］［ｊ］は状態ｉから状態ｊへの遷移確率を表す。
【０２１０】
【数７】

【０２１１】
【数８】

【０２１２】
【数９】

【０２１３】
ここで、Ｎ_ｓｅｌは、選択された音響モデルの数であり、μ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）、ｖ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）はそれぞれのＨＭＭの平均、分散である。Ｃ_ｍｉｘ ^ｊ（ｊ＝１，２，…，Ｎ_ｓｅｌ）、Ｃ_{ｓｔａｔｅ} ^ｋ［ｉ］［ｊ］（ｋ＝１，２，…，Ｎ_ｓｅｌ、ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）はそれぞれ、正規分布におけるＥＭカウント（度数）、状態遷移に関するＥＭカウントである。
【０２１４】
適応モデル作成部５１は、利用者の次の適応モデル作成の要求に備える。
【０２１５】
＜効果＞
以上説明したように第２の実施形態では、利用環境の雑音データ８５を重畳した音声データ８６を用いて十分統計量７２を作成して適応モデル７４を作成するため、利用環境に適応した適応モデル７４が作成できる。したがって、さまざまな雑音環境で適応モデルが利用できる。
【０２１６】
また、利用者に音響的に近い話者の音声データに雑音を重畳した音声データ８６を用いて十分統計量７２を作成するため、瞬時に十分統計量７２を作成して適応モデル７４を作成することができる。したがって、利用環境がさまざまに変化した場合にすぐに適応モデルが利用できる。
【０２１７】
なお、雑音データ８５を、利用者が適応モデルの獲得を要求する以前にオフラインで十分統計量作成部１１に入力し、十分統計量７２をオフラインで作成してもよい。
【０２１８】
雑音データ８５を十分統計量作成部１１に入力するタイミングは、十分統計量作成部１１が自動的に決定してもよい。
【０２１９】
適応モデル７４を作成するタイミングは、適応モデル作成部５１が自動的に決定してもよい。
【０２２０】
選択モデル７５はＧａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌに限らない。
【０２２１】
ＨＭＭの各状態に対応するラベルをデータベースに蓄積し、蓄積したラベル情報を用いて雑音重畳音声データ８６の十分統計量７２を作成してもよい。
【０２２２】
＜具体的な商品イメージ＞
第２の実施形態による適応モデル作成装置を実際の製品に適用したイメージを図３３に示す。このシステムは、音声を入力する携帯端末（ＰＤＡ）と、適応モデルを作成して認識を行うサーバとから構成される。利用者は、サービスセンター（サーバ）に電話をかけ、センターからの音声ガイダンスに従い音声により指示を送る。サービスセンター（サーバ）側では、利用者の音声と雑音を受信して上述の方法により適応モデルを作成する。作成した適応モデルを用いて利用者の音声を認識し、ガイダンス（認識結果）をＰＤＡへ送る。
【０２２３】
（第３の実施形態）
＜音声認識用適応モデル作成装置の構成＞
図３４は、第３の実施形態による適応モデル作成装置の全体構成を示すブロック図である。図３４に示す適応モデル作成装置は、選択モデル作成部１５０７と、選択モデル蓄積部１５０８と、十分統計量作成部１５０６と、適応モデル作成部５１と、ラベル情報作成部１５０１と、ラベル情報蓄積部１５０２と、メモリ１５１２とを備える。選択モデル作成部１５０７は、利用者の音声データに近い音声データを選択するための選択モデル１５１０を作成する。選択モデル蓄積部１５０８は、選択モデル作成部１５０７が作成した選択モデル１５１０を蓄積する。ラベル情報作成部１５０１は、利用環境の雑音であると予測される予測雑音データ１５０３を静かな環境における音声データ８３に予測したＳＮ比で重畳した音声データ１５０５を用いて、ラベル情報１５０４を作成する。ラベル情報蓄積部１５０２は、ラベル情報作成部１５０１が作成したラベル情報１５０４を蓄積する。十分統計量作成部１５０６は、選択モデル蓄積部１５０８が蓄積した選択モデル１５１０とメモリ１５１２に記憶した静かな環境における利用者の音声データ１５１３とを用いて音声データ８３の中から利用者の音声データに音響的に近い音声データを選択し、選択した音声データに雑音データ８５を重畳した音声データと、ラベル情報蓄積部１５０２が蓄積したラベル情報１５０４とを用いて十分統計量１５０９を作成する。適応モデル作成部５１は、十分統計量作成部１５０６が作成した十分統計量１５０９を用いて適応モデル１５１１を作成する。
【０２２４】
＜適応モデル作成装置の動作＞
次に、以上のように構成された適応モデル作成装置の動作について説明する。
【０２２５】
［選択モデル１５１０の作成］
はじめに、選択モデル１５１０の作成方法について述べる。ここでは選択モデル１５１０の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。
【０２２６】
静かな環境において複数話者の音声データ８３を収録する。ここでは約３００人の音声データを収録する。
【０２２７】
選択モデル作成部１５０７は、図３５に示すように、音声データ８３を用いて、話者ごとに、音韻を区別することなく１状態６４混合のＧａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌにより選択モデル１５１０を作成する。
【０２２８】
選択モデル蓄積部１５０８は、選択モデル作成部１５０７が作成した選択モデル１５１０を蓄積する。
【０２２９】
［ラベル情報１５０４と音韻モデルの状態遷移に関する情報１５１４の作成］
ラベル情報１５０４と音韻モデルの状態遷移に関する情報１５１４の作成方法について述べる。ここでは、ラベル情報１５０４と音韻モデルの状態遷移に関する情報１５１４との作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。一例として、音声認識を車内で利用する場合について、図３６、図３７、図３８を用いて説明する。ここではカーナビゲーションシステムにおける音声認識を考える。
【０２３０】
図３６に示すように、静かな環境における音声データ８３に、利用環境であると予測した雑音データ（一般的な車種Ａの車内雑音データ）１６０１を重畳して車内雑音１０ｄＢでの音声データ１６０２を作成する。ここでは車種Ａの車内雑音データ１６０１は、事前に市内を車種Ａで走行したときに収録したものを利用する。次に、作成した音声データ１６０２を用いて車内雑音１０ｄＢの十分統計量１６０３をＥＭアルゴリズムにより計算する。ここでは、音韻ごとにＨＭＭを用いて不特定話者の十分統計量を作成する。ここでは音韻モデルの状態遷移に関する情報１５１４は、音韻ごとのＨＭＭの状態遷移確率である。次に、図３７に示すように、車内雑音１０ｄＢの雑音重畳音声データ１６０２を音声データ（ある話者のある発声データ）ごとに、車内雑音１０ｄＢの十分統計量１６０３に入力し、ビタービアルゴリズムを用いてラベル情報１５０４を音声データ（ある話者のある発声データ）ごとに作成する。図３８にラベル情報１５０４の一例を示す。ここでは、フレーム番号に対応する音韻名とＨＭＭの状態番号をラベル情報１５０４とする。
【０２３１】
ラベル情報蓄積部１５０２は、ラベル情報１５０４と音韻モデルの状態遷移に関する情報１５１４を蓄積する。
【０２３２】
［十分統計量１５０９の作成］
次に、十分統計量１５０９の作成方法について述べる。
【０２３３】
利用者は、静かな環境における利用者の音声データ１５１３をあらかじめメモリ１５１２に記憶しておく。
【０２３４】
利用者は、適応モデル１５１１の作成を要求する。
【０２３５】
十分統計量作成部１５０６は、メモリ１５１２に記憶された静かな環境における利用者の音声データ１５１３を受信する。また、十分統計量作成部１５０６は、音声認識を利用する環境での雑音データ８５を受信する。
【０２３６】
十分統計量作成部１５０６は、静かな環境における利用者の音声データ１５１３を、選択モデル蓄積部１５０８に蓄積されている選択モデル１５１０に入力して尤度を計算する。そして、尤度の大きい上位Ｌ人（たとえば上位４０人）の話者を選択して利用者の音声データに近い話者とする。
【０２３７】
十分統計量作成部１５０６は、静かな環境における音声データ８３の中から利用者に近い話者の音声データに雑音データ８５を重畳し、雑音重畳音声データ８６を作成する。音声データ８６の作成方法の一例を図３１に示す。
【０２３８】
十分統計量作成部１５０６は、雑音重畳音声データ８６とラベル情報蓄積部１５０２に蓄積されたラベル情報１５０４と音韻モデルの状態遷移に関する情報１５１４とを用いて十分統計量１５０９を作成する。図３９に示すように、雑音重畳音声データ８６に対応する音韻名とＨＭＭの状態番号を、ラベル情報１５０４に記載された雑音重畳音声データ１５０５の音韻名とＨＭＭの状態番号と同一であるとみなす。同様に、音韻ごとのＨＭＭの状態遷移確率も同一だとみなす。すなわち、ＨＭＭの状態番号、状態遷移確率などに関する計算処理を行わない。そして、ＨＭＭの同一状態の中で、平均値、分散、混合重みなどの十分統計量の計算を行う。
【０２３９】
［適応モデル１５１１の作成］
次に、適応モデル作成部５１における適応モデル１５１１作成の方法について述べる。
【０２４０】
適応モデル作成部５１は、十分統計量作成部１５０６が作成した十分統計量１５０９を用いて適応モデル１５１１を作成する。具体的には以下の統計処理計算（数１０〜数１２）により適応モデル１５１１を作成する。適応モデル１５１１のＨＭＭの各状態における正規分布の平均、分散をそれぞれμ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）、ｖ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）とする。Ｎ_ｍｉｘは混合分布数である。また、状態遷移確率をａ^ａｄｐ［ｉ］［ｊ］（ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）とする。Ｎ_{ｓｔａｔｅ}は状態数であり、ａ^ａｄｐ［ｉ］［ｊ］は状態ｉから状態ｊへの遷移確率を表す。
【０２４１】
【数１０】

【０２４２】
【数１１】

【０２４３】
【数１２】

【０２４４】
ここで、Ｎ_ｓｅｌは、選択された音響モデルの数であり、μ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）、ｖ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）はそれぞれのＨＭＭの平均、分散である。Ｃ_ｍｉｘ ^ｊ（ｊ＝１，２，…，Ｎ_ｓｅｌ）、Ｃ_{ｓｔａｔｅ} ^ｋ［ｉ］［ｊ］（ｋ＝１，２，…，Ｎ_ｓｅｌ、ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）はそれぞれ、正規分布におけるＥＭカウント（度数）、状態遷移に関するＥＭカウントである。
【０２４５】
適応モデル作成部５１は、利用者の次の適応モデル作成の要求に備える。
【０２４６】
＜効果＞
以上説明したように第３の実施形態では、ラベル情報１５０４を用いて十分統計量１５０９を計算するため、短時間に十分統計量１５０９が作成でき短時間に適応モデル１５１１が作成できる。したがって、利用環境がさまざまに変化した場合にすぐに適応モデルが利用できる。
【０２４７】
また、利用環境に近い雑音重畳音声データ１５０５を用いてラベル情報１５０４を作成するため、短時間に精度の高い十分統計量１５０９が作成できる。したがって、利用環境がさまざまに変化した場合にすぐにより精度の高い適応モデルが利用できる。
【０２４８】
また、ラベル情報１５０４と音韻モデルの状態遷移に関する情報１５１４とを用いて十分統計量１５０９を計算するため、さらに短時間に十分統計量１５０９が作成でき短時間に適応モデル１５１１が作成できる。したがって、利用環境がさまざまに変化した場合にすぐに適応モデルが利用できる。
【０２４９】
なお、雑音データ８５を、利用者が適応モデルの獲得を要求する以前にオフラインで十分統計量作成部１５０６に入力し、十分統計量１５０９をオフラインで作成してもよい。
【０２５０】
雑音データ８５を十分統計量作成部１５０６に入力するタイミングは、十分統計量作成部１５０６が自動的に決定してもよい。
【０２５１】
適応モデル１５１１を作成するタイミングは、適応モデル作成部５１が自動的に決定してもよい。
【０２５２】
選択モデル１５１０はＧａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌに限らない。
【０２５３】
メモリ１５１２に記憶する音声データ１５１３は、利用環境もしくは利用環境と予測した環境における雑音が重畳していてもよい。
【０２５４】
予測雑音データ１５０３として雑音データ８５を用いてもよい。
【０２５５】
（第４の実施形態）
＜音声認識用適応モデル作成装置の構成＞
図４０は、第４の実施形態による適応モデル作成装置の全体構成を示すブロック図である。図４０に示す適応モデル作成装置は、選択モデル作成部１５０７と、選択モデル蓄積部１５０８と、十分統計量作成部２１０７と、適応モデル作成部５１と、ラベル情報作成部２１０４と、ラベル情報蓄積部２１０６と、ラベル情報選択モデル作成部２１０１と、ラベル情報選択モデル蓄積部２１０２と、メモリ１５１２とを備える。選択モデル作成部１５０７は、利用者の音声データに近い音声データを選択するための選択モデル１５１０を作成する。選択モデル蓄積部１５０８は、選択モデル作成部１５０７が作成した選択モデル１５１０を蓄積する。ラベル情報作成部２１０４は、利用環境の雑音であると予測される予測雑音データ１５０３を静かな環境における音声データ８３に予測したＳＮ比で重畳した雑音重畳音声データを用いて、２種類以上のラベル情報２１０５を作成する。ラベル情報蓄積部２１０６は、ラベル情報作成部２１０４が作成した２種類以上のラベル情報２１０５を蓄積する。ラベル情報選択モデル作成部２１０１は、利用環境の雑音であると予測される予測雑音データ１５０３を用いてラベル情報選択モデル２１０３を作成する。ラベル情報選択モデル蓄積部２１０２は、ラベル情報選択モデル作成部２１０１が作成したラベル情報選択モデル２０１３を蓄積する。十分統計量作成部２１０７は、選択モデル蓄積部１５０８が蓄積した選択モデル１５１０とメモリ１５１２に記憶した静かな環境における利用者の音声データ１５１３とを用いて音声データ８３の中から利用者の音声データに近い音声データを選択する。また、十分統計量作成部２１０７は、ラベル情報選択モデル蓄積部２１０２が蓄積したラベル情報選択モデル２１０３と利用環境の雑音データ８５とを用いて、ラベル情報蓄積部２１０６に蓄積されているラベル情報２１０５の中から利用環境に適したラベル情報を選択する。そして十分統計量作成部２１０７は、選択した音声データに雑音データ８５を重畳した音声データと、選択した利用環境に適したラベル情報２１０５とを用いて十分統計量２１０８を作成する。適応モデル作成部５１は、十分統計量作成部２１０７が作成した十分統計量２１０８を用いて適応モデル２１０９を作成する。
【０２５６】
＜音声認識用適応モデル作成装置の動作＞
次に、以上のように構成された適応モデル作成装置の動作について説明する。
【０２５７】
［選択モデル１５１０の作成］
はじめに、選択モデル１５１０の作成方法について述べる。ここでは、選択モデル１５１０の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。
【０２５８】
静かな環境において複数話者の音声データ８３を収録する。ここでは約３００人の音声データを収録する。
【０２５９】
選択モデル作成部１５０７は、図３５に示したように、音声データ８３を用いて、話者ごとに、音韻を区別することなく１状態６４混合のＧａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌにより、選択モデル１５１０を作成する。
【０２６０】
選択モデル蓄積部１５０８は、選択モデル作成部１５０７が作成した選択モデル１５１０を蓄積する。
【０２６１】
［ラベル情報２１０５の作成］
ラベル情報２１０５の作成方法について述べる。ここでは、ラベル情報２１０５の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。一例として、音声認識を展示会場で利用する場合について、図４１、図４２を用いて説明する。
【０２６２】
利用者の行動履歴から、音声認識を車内、展示会場、家庭内でよく利用することがわかっている。そのため、車内，展示会場，家庭内における一般的な雑音をそれぞれ収録しておく。図４１に示すように、静かな環境における音声データ８３に、利用環境であると予測した３種類の雑音データ（車内雑音データ１５０３Ａ、展示会場雑音データ１５０３Ｂ、家庭内雑音データ１５０３Ｃ）を重畳して、車内雑音１０ｄＢでの雑音重畳音声データ１５０５Ａ、展示会場雑音２０ｄＢでの雑音重畳音声データ１５０５Ｂ、家庭内雑音２０ｄＢでの雑音重畳音声データ１５０５Ｃを作成する。次に、作成した雑音重畳音声データを用いて雑音の種類ごとに十分統計量１６０３Ａ，１６０３Ｂ，１６０３ＣをＥＭアルゴリズムにより計算する。ここでは、音韻ごとにＨＭＭを用いて不特定話者の十分統計量を作成する。次に、図４２に示すように、３種類の雑音重畳音声データ１５０５Ａ，１５０５ｂ，１５０５Ｃを音声データ（ある種類の雑音データのある話者のある発声データ）ごとに十分統計量１６０３Ａ，１６０３Ｂ，１６０３Ｃに入力し、ビタービアルゴリズムを用いてラベル情報２１０５Ａ，２１０５Ｂ，２１０５Ｃを音声データ（ある話者のある発声データ）ごとに作成する。
【０２６３】
［ラベル情報選択モデル２１０３の作成］
次に、ラベル情報選択モデル２１０３の作成方法を図４３を用いて説明する。ここでは一例として雑音の種類に対応したＧＭＭを作成する。ラベル情報２１０５の作成で用いた予測雑音データ１５０３Ａ，１５０３Ｂ，１５０３Ｃを用いてラベル情報選択モデル２１０３Ａ，２１０３Ｂ，２１０３Ｃを作成する。
【０２６４】
［十分統計量２１０８の作成］
次に、十分統計量２１０８の作成方法について述べる。
【０２６５】
利用者は、静かな環境における利用者の音声データ１５１３をあらかじめメモリ１５１２に記憶しておく。
【０２６６】
利用者は、適応モデル２１０９の作成を要求する。
【０２６７】
十分統計量作成部２１０７は、メモリ１５１２が記憶した静かな環境における利用者の音声データ１５１３を受信する。また、十分統計量作成部２１０７は、音声認識を利用する環境での雑音データ８５を受信する。
【０２６８】
十分統計量作成部２１０７は、静かな環境における利用者の音声データ１５１３を、選択モデル蓄積部１５０８に蓄積された選択モデル１５１０に入力して尤度を計算する。そして、尤度の大きい上位Ｌ人（たとえば上位４０人）の話者を選択して利用者の音声データに近い話者とする。
【０２６９】
十分統計量作成部２１０７は、静かな環境における音声データ８３の中から利用者に近い話者の音声データに雑音データ８５を重畳し、雑音重畳音声データ８６を作成する。雑音重畳音声データ８６の作成方法の一例を図３１に示す。
【０２７０】
十分統計量作成部２１０７は、蓄積部２１０２に蓄積されたラベル情報選択モデル２１０３に雑音データ８５を入力して、最も大きい尤度をもつラベル情報選択モデル２１０３に対応するラベル情報２１０５をラベル情報蓄積部２１０６から取り出す。ここでは、利用環境が展示会場であるので展示会場雑音２０ｄＢのラベル情報２１０５Ｂが取り出される。
【０２７１】
十分統計量作成部２１０７は、雑音重畳音声データ８６と、ラベル情報蓄積部２１０６から取り出した展示会場雑音２０ｄＢのラベル情報２１０５Ｂとを用いて十分統計量２１０８を作成する。
【０２７２】
［適応モデル２１０９の作成］
次に、適応モデル作成部５１において適応モデル２１０９を作成する方法について述べる。
【０２７３】
適応モデル作成部５１は、十分統計量作成部２１０７が作成した十分統計量２１０８を用いて適応モデル２１０９を作成する。具体的には以下の統計処理計算（数１３〜数１５）により適応モデル２１０９を作成する。適応モデル２１０９のＨＭＭの各状態における正規分布の平均、分散をそれぞれμ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）、ｖ_ｉ ^ａｄｐ（ｉ＝１，２，…，Ｎ_ｍｉｘ）とする。Ｎ_ｍｉｘは混合分布数である。また、状態遷移確率をａ^ａｄｐ［ｉ］［ｊ］（ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）とする。Ｎ_{ｓｔａｔｅ}は状態数であり、ａ^ａｄｐ［ｉ］［ｊ］は状態ｉから状態ｊへの遷移確率を表す。
【０２７４】
【数１３】

【０２７５】
【数１４】

【０２７６】
【数１５】

【０２７７】
ここで、Ｎ_ｓｅｌは、選択された音響モデルの数であり、μ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）、ｖ_ｉ ^ｊ（ｉ＝１，２，…，Ｎ_ｍｉｘ，ｊ＝１，２，…，Ｎ_ｓｅｌ）はそれぞれのＨＭＭの平均、分散である。Ｃ_ｍｉｘ ^ｊ（ｊ＝１，２，…，Ｎ_ｓｅｌ）、Ｃ_{ｓｔａｔｅ} ^ｋ［ｉ］［ｊ］（ｋ＝１，２，…，Ｎ_ｓｅｌ、ｉ，ｊ＝１，２，…，Ｎ_{ｓｔａｔｅ}）はそれぞれ、正規分布におけるＥＭカウント（度数）、状態遷移に関するＥＭカウントである。
【０２７８】
適応モデル作成部５１は、利用者の次の適応モデル作成の要求に備える。
【０２７９】
＜効果＞
以上説明したように第４の実施形態では、ラベル情報選択モデル２１０３に基づいて選択した、利用環境に適したラベル情報２１０５を用いて十分統計量２１０８を計算するため、さらに精度の高い十分統計量が作成できる。したがって、利用環境がさまざまに変化した場合にすぐにより精度の高い適応モデルが利用できる。
【０２８０】
なお、雑音データ８５を、利用者が適応モデルの獲得を要求する以前にオフラインで十分統計量作成部２１０７に入力し、十分統計量２１０８をオフラインで作成してもよい。
【０２８１】
雑音データ８５を十分統計量作成部２１０７に入力するタイミングは、十分統計量作成部２１０７が自動的に決定してもよい。
【０２８２】
適応モデル２１０９を作成するタイミングは、適応モデル作成部５１が自動的に決定してもよい。
【０２８３】
選択モデル１５１０はＧａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌに限らない。
【０２８４】
メモリ１５１２に記憶する音声データ１５１３は、利用環境もしくは利用環境と予測した環境における雑音が重畳していてもよい。
【０２８５】
ラベル情報２１０５の種類の数とラベル情報選択モデル２１０３の数は同数であるとは限らない。
【０２８６】
予測雑音データ１５０３として雑音データ８５を用いてもよい。
【０２８７】
第２の実施形態による適応モデル作成装置はハードウェアによってもソフトウェア（コンピュータプログラム）によっても実現できる。
【図面の簡単な説明】
【図１】各種の話者適応技術を示す図である。
【図２】「十分統計量を用いた方法」によって適応モデルを作成する手順を示すフローチャートである。
【図３】「十分統計量を用いた方法」によって適応モデルを作成する手順を説明するためのブロック図である。
【図４】十分統計量の作成処理を説明するための図である。
【図５】適応モデルの作成処理を説明するための図である。
【図６】従来技術の「十分統計量を用いた方法」における課題を説明するための図である。
【図７】第１の実施形態による適応モデル作成装置の構成を示すブロック図である。
【図８】図７に示したグループ作成部におけるグループ作成処理の流れを示す図である。
【図９】図７に示した十分統計量蓄積部に蓄積される十分統計量を作成する処理の流れを示す図である。
【図１０】図７に示した選択モデル蓄積部に蓄積される選択モデルを作成する処理の流れを示す図である。
【図１１】図７に示した十分統計量蓄積部に蓄積される十分統計量の一例を示す図である。
【図１２】図７に示した選択モデル蓄積部に蓄積される選択モデルの一例を示す図である。
【図１３】図７に示した適応モデル作成部において利用者の音声に音響的に近いグループを決定する処理の流れを示す図である。
【図１４】図７に示した適応モデル作成部において利用者の音声データに近い十分統計量を決定する処理の流れを示す図である。
【図１５】認識実験の結果を示す図である。
【図１６】図７に示した十分統計量蓄積部に蓄積される十分統計量の一例を示す図である。
【図１７】グループ作成部によって作成されるグループの例を示す図である。
【図１８Ａ】具体的な商品イメージおよびグルーピング例を示す図である。
【図１８Ｂ】具体的な商品イメージおよびグルーピング例を示す図である。
【図１９Ａ】具体的な商品イメージおよびグルーピング例を示す図である。
【図１９Ｂ】具体的な商品イメージおよびグルーピング例を示す図である。
【図２０】具体的な商品イメージおよびグルーピング例を示す図である。
【図２１Ａ】具体的な商品イメージおよびグルーピング例を示す図である。
【図２１Ｂ】具体的な商品イメージおよびグルーピング例を示す図である。
【図２２】具体的な商品イメージおよびグルーピング例を示す図である。
【図２３Ａ】具体的な商品イメージおよびグルーピング例を示す図である。
【図２３Ｂ】具体的な商品イメージおよびグルーピング例を示す図である。
【図２４】具体的な商品イメージおよびグルーピング例を示す図である。
【図２５Ａ】具体的な商品イメージおよびグルーピング例を示す図である。
【図２５Ｂ】具体的な商品イメージおよびグルーピング例を示す図である。
【図２６】具体的な商品イメージおよびグルーピング例を示す図である。
【図２７】具体的な商品イメージおよびグルーピング例を示す図である。
【図２８】具体的な商品イメージおよびグルーピング例を示す図である。
【図２９】第２の実施形態による適応モデル作成装置の構成を示すブロック図である。
【図３０】図２９に示した選択モデル蓄積部に蓄積される選択モデルを作成する処理の流れを示す図である。
【図３１】雑音重畳音声データを作成する処理の流れを示す図である。
【図３２】図９に示した十分統計量作成部が作成する十分統計量の一例を示す図である。
【図３３】第２の実施形態による適応モデル作成装置を実際の製品に適用したイメージを示す図である。
【図３４】第３の実施形態による適応モデル作成装置の構成を示すブロック図である。
【図３５】選択モデル蓄積部に蓄積される選択モデルを作成する処理の流れを示す図である。
【図３６】ラベル情報を作成する処理の流れを示す図である。
【図３７】ラベル情報を作成する処理の流れを示す図である。
【図３８】ラベル情報蓄積部に蓄積されるラベル情報の一例を示す図である。
【図３９】十分統計量を作成する処理の流れを示す図である。
【図４０】第４の実施形態による適応モデル作成装置の構成を示すブロック図である。
【図４１】ラベル情報を作成する処理の流れを示す図である。
【図４２】ラベル情報を作成する処理の流れを示す図である。
【図４３】ラベル情報選択モデルを作成する処理の流れを示す図である。

Claims

音声認識に用いられる音響モデルを作成する方法であって、
雑音が重畳された音声データを音響的な近さに基づいてグループ化するステップ（ａ）と、
前記ステップ（ａ）によって得られた各グループについて、当該グループに含まれる音声データを用いて十分統計量を作成するステップ（ｂ）と、
音声認識を利用する人（利用者）の音声データに音響的に近いグループを前記ステップ（ａ）によって得られたグループの中から選択するステップ（ｃ）と、
前記ステップ（ｃ）によって選択されたグループについての十分統計量の中から前記利用者の音声データに音響的に近い十分統計量を選択するステップ（ｄ）と、
前記ステップ（ｄ）によって選択された十分統計量を用いて音響モデルを作成するステップ（ｅ）とを備える
ことを特徴とする方法。
請求項１において、
前記ステップ（ａ）および（ｂ）は、前記利用者が音声認識を利用する時点よりも前にオフラインで行われる
ことを特徴とする方法。
請求項１において、
前記ステップ（ａ）では、前記雑音の種類に基づいてグループ化する
ことを特徴とする方法。
請求項１において、
前記ステップ（ａ）では、前記雑音が重畳された音声データのＳＮ比に基づいてグループ化する
ことを特徴とする方法。
請求項１において、
前記ステップ（ａ）では、音響的に近い話者ごとにグループ化する
ことを特徴とする方法。
請求項１において、
前記ステップ（ｂ）では、話者ごとに十分統計量を作成する
ことを特徴とする方法。
請求項６において、
前記ステップ（ｂ）では、話者の声の調子ごとに十分統計量を作成する
ことを特徴とする方法。
請求項１において、
前記ステップ（ｂ）では、前記雑音の種類ごとに十分統計量を作成する
ことを特徴とする方法。
請求項１において、
前記ステップ（ｂ）では、前記各グループに含まれる音声データのＳ／Ｎ比ごとに十分統計量を作成する
ことを特徴とする方法。
音声認識に用いられる音響モデルを作成する方法であって、
複数の話者による複数の音声データの中から、音声認識を利用する人（利用者）の音声データに音響的に近い音声データを選択するステップ（ａ）と、
前記ステップ（ａ）によって選択された音声データに、音声認識が利用される環境における雑音を重畳するステップ（ｂ）と、
前記ステップ（ｂ）によって雑音が重畳された音声データを用いて十分統計量を作成するステップ（ｃ）と、
前記ステップ（ｃ）によって作成された十分統計量を用いて音響モデルを作成するステップ（ｄ）とを備える
ことを特徴とする方法。
請求項１０において、
前記複数の話者による複数の音声データに、音声認識が利用されるであろうと予測される環境における雑音を重畳するステップ（ｅ）と、
前記ステップ（ｅ）によって雑音が重畳された音声データについてのラベル情報を作成するステップ（ｆ）とをさらに備え、
前記ステップ（ｃ）では、
前記ステップ（ｂ）によって雑音が重畳された音声データと、前記ステップ（ｆ）において作成されたラベル情報のうち前記ステップ（ａ）によって選択された音声データについてのラベル情報とを用いて十分統計量を作成する
ことを特徴とする方法。
請求項１１において、
前記ステップ（ｆ）ではさらに、
前記ステップ（ｅ）によって雑音が重畳された音声データについての音響モデルの状態遷移に関する情報を作成し、
前記ステップ（ｃ）では、
前記ステップ（ｆ）において作成された音響モデルの状態遷移に関する情報のうち前記ステップ（ａ）によって選択された音声データについての音響モデルの状態遷移に関する情報をさらに用いて十分統計量を作成する
ことを特徴とする方法。
請求項１１において、
前記ステップ（ｅ）では、
複数種類の雑音の各々を前記複数の話者による複数の音声データに重畳し、
前記ステップ（ｆ）では、前記複数種類の雑音の各々についてラベル情報を作成し、
前記ステップ（ｃ）では、
前記ステップ（ａ）によって選択された音声データについての複数のラベル情報の中から、音声認識が利用される環境に適したラベル情報を選択し、選択したラベル情報を用いて十分統計量を作成する
ことを特徴とする方法。
音声認識に用いられる音響モデルを作成する装置であって、
雑音が重畳された音声データを音響的な近さに基づいてグループ化することによって得られた複数のグループの各々について当該グループに含まれる音声データを用いて作成された十分統計量を蓄積する蓄積部と、
音声認識を利用する人（利用者）の音声データに音響的に近いグループを前記複数のグループの中から選択する第１の選択部と、
前記第１の選択部によって選択されたグループについての十分統計量の中から前記利用者の音声データに音響的に近い十分統計量を選択する第２の選択部と、
前記第２の選択部によって選択された十分統計量を用いて音響モデルを作成するモデル作成部とを備える
ことを特徴とする装置。
請求項１４において、
雑音が重畳された音声データを音響的な近さに基づいてグループ化するグループ作成部と、
前記グループ作成部によって得られた各グループについて当該グループに含まれる音声データを用いて十分統計量を作成する十分統計量作成部とをさらに備え、
前記蓄積部は、
前記十分統計量作成部によって作成された十分統計量を蓄積する
ことを特徴とする装置。
音声認識に用いられる音響モデルを作成する装置であって、
複数の話者による複数の音声データを蓄積する蓄積部と、
音声認識を利用する人（利用者）の音声データに音響的に近い音声データを前記蓄積部に蓄積された音声データの中から選択する選択部と、
前記選択部によって選択された音声データに、音声認識が利用される環境における雑音を重畳する雑音重畳部と、
前記雑音重畳部によって雑音が重畳された音声データを用いて十分統計量を作成する十分統計量作成部と、
前記十分統計量作成部によって作成された十分統計量を用いて音響モデルを作成するモデル作成部とを備える
ことを特徴とする装置。
音声認識に用いられる音響モデルを作成するためのコンピュータプログラムであって、
コンピュータを、
雑音が重畳された音声データを音響的な近さに基づいてグループ化することによって得られた複数のグループの各々について当該グループに含まれる音声データを用いて作成された十分統計量を蓄積する手段（ａ）、
音声認識を利用する人（利用者）の音声データに音響的に近いグループを前記複数のグループの中から選択する手段（ｂ）、
前記手段（ｂ）によって選択されたグループについての十分統計量の中から前記利用者の音声データに音響的に近い十分統計量を選択する手段（ｃ）、
前記手段（ｃ）によって選択された十分統計量を用いて音響モデルを作成する手段（ｄ）、
として機能させるためのプログラム。
請求項１７において、
前記コンピュータをさらに、
雑音が重畳された音声データを音響的な近さに基づいてグループ化する手段（ｅ）、
前記手段（ｅ）によって得られた各グループについて当該グループに含まれる音声データを用いて十分統計量を作成する手段（ｆ）、
として機能させ、
前記手段（ａ）は、
前記手段（ｆ）によって作成された十分統計量を蓄積する
ことを特徴とするプログラム。
音声認識に用いられる音響モデルを作成するためのコンピュータプログラムであって、
コンピュータを、
複数の話者による複数の音声データを蓄積する手段（ａ）、
音声認識を利用する人（利用者）の音声データに音響的に近い音声データを前記手段（ａ）に蓄積された音声データの中から選択する手段（ｂ）、
前記手段（ｂ）によって選択された音声データに、音声認識が利用される環境における雑音を重畳する手段（ｃ）、
前記手段（ｃ）によって雑音が重畳された音声データを用いて十分統計量を作成する手段（ｄ）、
前記手段（ｄ）によって作成された十分統計量を用いて音響モデルを作成する手段（ｅ）、
として機能させるためのプログラム。