[go: up one dir, main page]

JP2004004509A - 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム - Google Patents

音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム Download PDF

Info

Publication number
JP2004004509A
JP2004004509A JP2002367606A JP2002367606A JP2004004509A JP 2004004509 A JP2004004509 A JP 2004004509A JP 2002367606 A JP2002367606 A JP 2002367606A JP 2002367606 A JP2002367606 A JP 2002367606A JP 2004004509 A JP2004004509 A JP 2004004509A
Authority
JP
Japan
Prior art keywords
group
noise
sufficient
voice
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002367606A
Other languages
English (en)
Other versions
JP3756879B2 (ja
Inventor
Shinichi Yoshizawa
伸一 芳澤
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002367606A priority Critical patent/JP3756879B2/ja
Publication of JP2004004509A publication Critical patent/JP2004004509A/ja
Application granted granted Critical
Publication of JP3756879B2 publication Critical patent/JP3756879B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】雑音環境における適応モデルの精度の低下を防ぐことができる音響モデル作成方法を提供する。
【解決手段】雑音が重畳された音声データを音響的な近さに基づいてグループ化する。各グループに含まれる音声データを用いて十分統計量を作成する。音声認識を利用する人(利用者)の音声データに音響的に近いグループを選択する。選択したグループについての十分統計量の中から利用者の音声データに音響的に近い十分統計量を選択する。選択した十分統計量を用いて音響モデルを作成する。
【選択図】 図7

Description

【0001】
【発明の属する技術分野】
この発明は、音声認識に用いられる音響モデルを作成する方法、装置、コンピュータプログラムに関する。さらに詳しくは、音声認識を利用する人の声および音声認識が利用される環境に適応した音響モデルを作成する方法、装置、コンピュータプログラムに関する。
【0002】
【従来の技術】
近年、携帯電話・携帯端末・カーナビゲーションシステム・パーソナルコンピュータ・家電機器などのデジタル情報機器において、音声認識技術を用いて利用者の利便性を向上させることが期待されている。
【0003】
音声認識システムに用いられる音響モデルが利用者にふさわしくない場合、その利用者は音声認識システムを利用することができない。したがって音声認識システムでは利用者の音声に適応した音響モデルを用いる必要がある。音声認識システムを利用する人の声に音響モデルを適応させる技術(話者適応技術)としては、図1に示すように様々なものが存在する。図1では、話者適応技術を実現するために必要とされるシステムの計算機パワーおよびハードディスク容量に対応させて各種の話者適応技術をマッピングしている。さらに話者適応技術の各々について、「適応化を行うために利用者が発声しなければならない文章の数」,「その適応技術によって対応可能な変動要因(話者性、声の調子)」,「認識性能(星印の大きさで示す。大きいほど性能がよい。)」を併記している。
【0004】
従来は情報機器の計算機パワーおよび搭載可能なハードディスクの容量が小さく、「声道長正規化」,「MLLR+固有声空間」のように認識性能の低い話者適応技術しか利用できなかった。情報機器の計算機パワーが増大するにつれ、この計算機パワーを利用して高い認識性能が得られる話者適応技術「MLLR」,「CAT」が利用されるようになった。しかしこれらの話者適応技術では、音響モデルを適応させるために利用者が発声しなければならない文章の数が比較的多い。したがって、利用者の負担が大きく、また、利用者が頻繁に入れ替わるような情報機器(たとえばテレビリモコン)には適していない。さらには、家電機器や携帯電話のように比較的計算機パワーの小さい機器にも適していない。
【0005】
近年、ハードディスク容量の増大化および低価格化がすすんでおり、これにともない「クラスタリングによる方法」,「十分統計量による方法」のように比較的大容量のハードディスクを利用しかつ比較的小さな計算機パワーですむ話者適応技術が登場している。これらの話者適応技術は、搭載されるハードディスクの容量が増大しつつあるカーナビゲーションシステム、テレビなどの家電機器や携帯電話のように比較的計算機パワーの小さい機器に適している。小型の家電機器や携帯電話には大容量のハードディスクを搭載することはできないが、近年ではネットワークを通じて大容量のサーバと通信できるため問題はない。また、これらの話者適応技術では、音響モデルを適応させるために利用者が発声しなければならない文章の数が少ないため(約1文章)、利用者の負担が少なく、利用者が入れ替わる場合にも瞬時に利用できる。しかしながら「クラスタリングによる方法」では、利用者に近いHMMを1つ選択しこれを適応モデルとして利用するため、利用者・利用環境に近いHMMがない場合に認識性能が大きく悪化する。
【0006】
以上の点を鑑みると、携帯電話や家電機器などに最もふさわしい話者適応技術は「十分統計量を用いた方法」(芳澤伸一,馬場朗,松浪加奈子,米良祐一郎,山田実一,鹿野清宏,“充足統計量と話者距離を用いた音韻モデルの教師なし学習”,信学技報,SP2000−89,pp.83−88,2000)であると考えられる。これによれば、利用者の1発声で瞬時に高精度な適応モデル(利用者の声に適応した音響モデル)が得られる。
【0007】
次に、「十分統計量を用いた方法」によって適応モデルを作成する手順を図2および図3を参照しつつ説明する。
【0008】
〜選択モデルおよび十分統計量の作成(ST200)〜
静かな環境で収録したさまざまな話者(たとえば約300人)の音声データを音声データベース310(図3)にあらかじめ蓄積しておく。
【0009】
データベース310に蓄積された音声データを用いて話者ごとに選択モデル(ここでは混合ガウス分布(GMM)で表現する。)と十分統計量(ここでは隠れマルコフモデル(HMM)で表現する。)とを作成し、これらを十分統計量ファイル320(図3)に蓄積する。「十分統計量」とは、データベースの性質を表す十分な統計量であり、ここではHMMの音響モデルにおける平均、分散、EMカウントである。十分統計量は、EMアルゴリズムを用いて不特定話者モデルから1回学習することにより計算する。選択モデルは、音韻を区別することなく1状態64混合のGausian Mixture Modelにより作成する。
【0010】
十分統計量の作成手順を図4を参照して詳しく説明する。
【0011】
<ST201>
まず、不特定話者の十分統計量を作成する。ここでは、EMアルゴリズムを用いて全ての話者のデータにより学習することによって作成する。十分統計量は隠れマルコフモデルで表現され、各状態は混合ガウス分布で表現される。作成した不特定話者の十分統計量のガウス分布に番号をつける。
【0012】
<ST202>
作成した不特定話者の十分統計量を初期値として、各話者に対する十分統計量を作成する。ここでは、EMアルゴリズムを用いて各話者のデータにより学習することによって作成する。各話者の十分統計量のガウス分布に対して、不特定話者の十分統計量に付与された番号に対応した番号を保存する。
【0013】
〜適応用の音声データの入力(ST210)〜
利用者の音声が入力される。
【0014】
〜選択モデルによる十分統計量の選択(ST220)〜
入力された音声と選択モデルとに基づいて、利用者の音声に「近い」複数の十分統計量(利用者の音声に音響的に近い話者についての音響モデル)を選択する。ここでいう「近い」とは、入力音声を選択モデルに入力して得られた確率尤度が大きいものから上位N個の選択モデルに対応する話者の十分統計量を意味する。上述の選択処理は、図3に示す適応モデル作成部330において行われる。この様子を図5に示す。
【0015】
〜適応モデルの作成(ST230)〜
選択された十分統計量を用いて適応モデルを作成する。具体的には、選択された十分統計量に対して、同じ番号をもつガウス分布同士で新たに統計的計算(数1〜数3)を行い1つのガウス分布を算出する。適応モデルの作成処理は、図3に示す適応モデル作成部330において行われる。この様子を図5に示す。
【0016】
【数1】
Figure 2004004509
【0017】
【数2】
Figure 2004004509
【0018】
【数3】
Figure 2004004509
【0019】
ここでは、適応モデルのHMMの各状態における正規分布の平均、分散をそれぞれμ adp(i=1,2,…,Nmix)、v adp(i=1,2,…,Nmix)としている。Nmixは混合分布数である。また、状態遷移確率をaadp[i][j](i,j=1,2,…,Nstate)としている。Nstateは状態数であり、aadp[i][j]は状態iから状態jへの遷移確率を表す。Nselは選択された音響モデルの数であり、μ (i=1,2,…,Nmix,j=1,2,…,Nsel)、v (i=1,2,…,Nmix,j=1,2,…,Nsel)はそれぞれの音響モデルの平均、分散である。Cmix (j=1,2,…,Nsel)、Cstate [i][j](k=1,2,…,Nsel、i,j=1,2,…,Nstate)はそれぞれ、正規分布におけるEMカウント(度数)、状態遷移に関するEMカウントである。
【0020】
〜認識(ST240)〜
上述のようにして作成された適応モデルを用いて音声認識システム300(図3)は利用者の音声を認識する。
【0021】
【非特許文献1】
芳澤伸一,馬場朗,松浪加奈子,米良祐一郎,山田実一,鹿野清宏,「充足統計量と話者距離を用いた音韻モデルの教師なし学習」,信学技報,SP2000−89,pp.83−88,2000
【特許文献1】
特開2001−255887号公報
【特許文献2】
特開平10−161692号公報
【特許文献3】
特開平5−2399号公報
【特許文献4】
特開平6−214592号公報
【特許文献5】
特開平9−258769号公報
【特許文献6】
特開2002−182682号公報
【0022】
【発明が解決しようとする課題】
以上に説明した「十分統計量を用いた方法」では、不特定話者(初期値)の十分統計量のガウス分布の位置関係と各話者の十分統計量のガウス分布の位置関係とが同等であると近似している。すなわち、十分統計量の初期値から各音声データの十分統計量を計算しても、ガウス分布の位置関係は維持された状態で、混合重み、平均値、分散のみが学習できると仮定している。具体的には、十分統計量の初期値のガウス分布のうち、各音声データの十分統計量のガウス分布にKL距離などの分布距離で最も近いガウス分布の番号が、当該音声データの十分統計量のガウス分布の番号と同一であると仮定している。静かな環境では上記仮定が成り立っているため(図4参照)、上記方法は“静かな環境での”適応モデル作成方法として有効である。しかし、実用を考えると、“雑音環境における”適応モデルの作成を考慮しなくてはならない。その場合、図6に示すように上記仮定が成り立たなくなり、適応モデルの精度が低下する。
【0023】
この発明の目的は、雑音環境における適応モデルの精度の低下を防ぐことができる音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムを提供することである。
【0024】
【課題を解決するための手段および発明の効果】
この発明による方法は、音声認識に用いられる音響モデルを作成する方法であって以下のステップ(a)〜(e)を備える。ステップ(a)では、雑音が重畳された音声データを音響的な近さに基づいてグループ化する。ステップ(b)では、ステップ(a)によって得られた各グループについて、当該グループに含まれる音声データを用いて十分統計量を作成する。ステップ(c)では、音声認識を利用する人(利用者)の音声データに音響的に近いグループをステップ(a)によって得られたグループの中から選択する。ステップ(d)では、ステップ(c)によって選択されたグループについての十分統計量の中から利用者の音声データに音響的に近い十分統計量を選択する。ステップ(e)では、ステップ(d)によって選択された十分統計量を用いて音響モデルを作成する。
【0025】
好ましくは、上記ステップ(a)および(b)は、利用者が音声認識を利用する時点よりも前にオフラインで行われる。
【0026】
好ましくは、上記ステップ(a)では、雑音の種類に基づいてグループ化する。
【0027】
好ましくは、上記ステップ(a)では、雑音が重畳された音声データのSN比に基づいてグループ化する。
【0028】
好ましくは、上記ステップ(a)では、音響的に近い話者ごとにグループ化する。
【0029】
好ましくは、上記ステップ(b)では、話者ごとに十分統計量を作成する。
【0030】
好ましくは、上記ステップ(b)では、話者の声の調子ごとに十分統計量を作成する。
【0031】
好ましくは、上記ステップ(b)では、雑音の種類ごとに十分統計量を作成する。
【0032】
好ましくは、上記ステップ(b)では、上記各グループに含まれる音声データのSN比ごとに十分統計量を作成する。
【0033】
この発明による装置は、音声認識に用いられる音響モデルを作成する装置であって、蓄積部と、第1の選択部と、第2の選択部と、モデル作成部とを備える。蓄積部は、雑音が重畳された音声データを音響的な近さに基づいてグループ化することによって得られた複数のグループの各々について当該グループに含まれる音声データを用いて作成された十分統計量を蓄積する。第1の選択部は、音声認識を利用する人(利用者)の音声データに音響的に近いグループを上記複数のグループの中から選択する。第2の選択部は、第1の選択部によって選択されたグループについての十分統計量の中から利用者の音声データに音響的に近い十分統計量を選択する。モデル作成部は、第2の選択部によって選択された十分統計量を用いて音響モデルを作成する。
【0034】
好ましくは、上記装置は、グループ作成部と、十分統計量作成部とをさらに備える。グループ作成部は、雑音が重畳された音声データを音響的な近さに基づいてグループ化する。十分統計量作成部は、グループ作成部によって得られた各グループについて当該グループに含まれる音声データを用いて十分統計量を作成する。上記蓄積部は、十分統計量作成部によって作成された十分統計量を蓄積する。
【0035】
この発明によるプログラムは、音声認識に用いられる音響モデルを作成するためのコンピュータプログラムであって、コンピュータを手段(a)〜手段(d)として機能させる。手段(a)は、雑音が重畳された音声データを音響的な近さに基づいてグループ化することによって得られた複数のグループの各々について当該グループに含まれる音声データを用いて作成された十分統計量を蓄積する。手段(b)は、音声認識を利用する人(利用者)の音声データに音響的に近いグループを上記複数のグループの中から選択する。手段(c)は、手段(b)によって選択されたグループについての十分統計量の中から上記利用者の音声データに音響的に近い十分統計量を選択する。手段(d)は、手段(c)によって選択された十分統計量を用いて音響モデルを作成する。
【0036】
好ましくは、上記コンピュータをさらに手段(e)〜(f)として機能させる。手段(e)は、雑音が重畳された音声データを音響的な近さに基づいてグループ化する。手段(f)は、手段(e)によって得られた各グループについて当該グループに含まれる音声データを用いて十分統計量を作成する。上記手段(a)は、手段(f)によって作成された十分統計量を蓄積する。
【0037】
上記方法、装置、プログラムでは、雑音の種類・SN比・話者などのバリエーションにおいて「音響的に近い」ものをグループ化し、各グループの中で十分統計量の作成および適応モデル(音響モデル)の作成を行うことができる。このようにグループ化することにより上述の仮定を成立させることができる。この結果、雑音環境における適応モデルの精度の低下を防ぐことができ、高精度の適応モデルを作成することができる。
【0038】
この発明によるもう1つの方法は、音声認識に用いられる音響モデルを作成する方法であって以下のステップ(a)〜(d)を備える。ステップ(a)では、複数の話者による複数の音声データの中から、音声認識を利用する人(利用者)の音声データに音響的に近い音声データを選択する。ステップ(b)では、ステップ(a)によって選択された音声データに、音声認識が利用される環境における雑音を重畳する。ステップ(c)では、ステップ(b)によって雑音が重畳された音声データを用いて十分統計量を作成する。ステップ(d)では、ステップ(c)によって作成された十分統計量を用いて音響モデルを作成する。
【0039】
好ましくは、上記方法はステップ(e)〜(f)をさらに備える。ステップ(e)では、上記複数の話者による複数の音声データに、音声認識が利用されるであろうと予測される環境における雑音を重畳する。ステップ(f)では、ステップ(e)によって雑音が重畳された音声データについてのラベル情報を作成する。ステップ(c)では、ステップ(b)によって雑音が重畳された音声データと、ステップ(f)において作成されたラベル情報のうちステップ(a)によって選択された音声データについてのラベル情報とを用いて十分統計量を作成する。
【0040】
好ましくは、上記ステップ(f)ではさらに、ステップ(e)によって雑音が重畳された音声データについての音響モデルの状態遷移に関する情報を作成する。上記ステップ(c)では、ステップ(f)において作成された音響モデルの状態遷移に関する情報のうちステップ(a)によって選択された音声データについての音響モデルの状態遷移に関する情報をさらに用いて十分統計量を作成する。
【0041】
好ましくは、上記ステップ(e)では、複数種類の雑音の各々を上記複数の話者による複数の音声データに重畳する。上記ステップ(f)では、上記複数種類の雑音の各々についてラベル情報を作成する。上記ステップ(c)では、ステップ(a)によって選択された音声データについての複数のラベル情報の中から、音声認識が利用される環境に適したラベル情報を選択し、選択したラベル情報を用いて十分統計量を作成する。
【0042】
この発明によるもう1つの装置は、音声認識に用いられる音響モデルを作成する装置であって、蓄積部と、選択部と、雑音重畳部と、十分統計量作成部と、モデル作成部とを備える。蓄積部は、複数の話者による複数の音声データを蓄積する。選択部は、音声認識を利用する人(利用者)の音声データに音響的に近い音声データを蓄積部に蓄積された音声データの中から選択する。雑音重畳部は、選択部によって選択された音声データに、音声認識が利用される環境における雑音を重畳する。十分統計量作成部は、雑音重畳部によって雑音が重畳された音声データを用いて十分統計量を作成する。モデル作成部は、十分統計量作成部によって作成された十分統計量を用いて音響モデルを作成する。
【0043】
この発明によるもう1つのプログラムは、音声認識に用いられる音響モデルを作成するためのコンピュータプログラムであって、コンピュータを手段(a)〜(e)として機能させる。手段(a)は、複数の話者による複数の音声データを蓄積する。手段(b)は、音声認識を利用する人(利用者)の音声データに音響的に近い音声データを手段(a)に蓄積された音声データの中から選択する。手段(c)は、手段(b)によって選択された音声データに、音声認識が利用される環境における雑音を重畳する。手段(d)は、手段(c)によって雑音が重畳された音声データを用いて十分統計量を作成する。手段(e)は、手段(d)によって作成された十分統計量を用いて音響モデルを作成する。
【0044】
上記方法、装置、プログラムでは、音響的に近い音声データで処理を行うため高精度の適応モデルが作成できる。また、音響的に近い音声データを選択してから十分統計量の計算を行うため、十分統計量を作成するための処理を速くできる。
【0045】
この発明による適応モデル作成装置は、音声認識に用いられる音響モデルを作成する装置であって、蓄積部と、記憶部と、モデル作成部とを備える。蓄積部には、音響的な近さに基づいてグループ化された複数のグループが蓄積される。上記複数のグループの各々は複数の十分統計量を含む。記憶部には、上記複数のグループのうちの少なくとも1つのグループを示すグループIDが記憶される。モデル作成部は、記憶部に記憶されたグループIDに対応するグループの中から利用者の音声に音響的に近いグループを1つ選択する。モデル作成部は、選択したグループに含まれている十分統計量のうち上記利用者の音声に音響的に近い少なくとも2つの十分統計量を用いて音響モデルを作成する。
【0046】
好ましくは、上記モデル作成部は、上記複数のグループのうち利用者の音声に音響的に近いグループを少なくとも1つ選択し、選択したグループを示すグループIDを上記記憶部に記憶させる。
【0047】
好ましくは、上記記憶部は、音声認識が利用される環境における雑音の種類と前記グループIDとを対応づけて記憶する。
【0048】
好ましくは、上記記憶部は、利用者を示す利用者IDと上記グループIDとを対応づけて記憶する。
【0049】
好ましくは、上記記憶部は、上記適応モデル作成装置を識別するための装置IDと上記グループIDとを対応づけて記憶する。
【0050】
この発明によるもう1つの適応モデル作成装置は、音声認識に用いられる音響モデルを作成する装置であって、蓄積部と、モデル作成部とを備える。蓄積部には、音響的な近さに基づいてグループ化された複数のグループが蓄積される。上記複数のグループの各々は複数の十分統計量を含む。モデル作成部は、上記複数のグループのうちの少なくとも1つのグループを示すグループIDを受ける。モデル作成部は、受けたグループIDに対応するグループの中から利用者の音声に音響的に近いグループを1つ選択する。モデル作成部は、選択したグループに含まれている十分統計量のうち上記利用者の音声に音響的に近い少なくとも2つの十分統計量を用いて音響モデルを作成する。
【0051】
好ましくは、上記モデル作成部は、上記グループIDを外部の記憶装置から受ける。上記モデル作成部は、上記複数のグループのうち利用者の音声に音響的に近いグループを少なくとも1つ選択し、選択したグループを示すグループIDを上記記憶装置に記憶させる。
【0052】
好ましくは、上記記憶装置は、音声認識が利用される環境における雑音の種類と前記グループIDとを対応づけて記憶する。
【0053】
好ましくは、上記記憶装置は、利用者を示す利用者IDと上記グループIDとを対応づけて記憶する。
【0054】
好ましくは、上記記憶装置は、上記適応モデル作成装置を識別するための装置IDと上記グループIDとを対応づけて記憶する。
【0055】
この発明によるもう1つの適応モデル作成装置は、音声認識に用いられる音響モデルを作成する装置であって、選択部と、モデル作成部とを備える。選択部は、複数のグループのうちの少なくとも1つのグループを示すグループIDを受ける。上記複数のグループは、音響的な近さに基づいてグループ化されている。上記複数のグループの各々は複数の十分統計量を含む。選択部は、受けたグループIDに対応するグループの中から利用者の音声に音響的に近いグループを1つ選択する。モデル作成部は、選択部によって選択されたグループに含まれている十分統計量のうち上記利用者の音声に音響的に近い少なくとも2つの十分統計量を受ける。モデル作成部は、受けた十分統計量を用いて音響モデルを作成する。
【0056】
好ましくは、上記選択部は、上記グループIDを外部の記憶装置から受ける。上記選択部は、上記複数のグループのうち利用者の音声に音響的に近いグループを少なくとも1つ選択し、選択したグループを示すグループIDを上記記憶装置に記憶させる。
【0057】
好ましくは、上記記憶装置は、音声認識が利用される環境における雑音の種類と前記グループIDとを対応づけて記憶する。
【0058】
好ましくは、上記記憶装置は、利用者を示す利用者IDと上記グループIDとを対応づけて記憶する。
【0059】
好ましくは、上記記憶装置は、上記適応モデル作成装置を識別するための装置IDと上記グループIDとを対応づけて記憶する。
【0060】
【発明の実施の形態】
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一の符号を付し、その説明は繰り返さない。
【0061】
(第1の実施形態)
<適応モデル作成装置の構成>
図7は、第1の実施形態による音声認識用適応モデル作成装置の全体構成を示すブロック図である。図7に示す装置は、十分統計量作成部1と、選択モデル作成部2と、十分統計量蓄積部3と、選択モデル蓄積部4と、適応モデル作成部5と、グループ作成部6とを備える。
【0062】
グループ作成部6は、静かな環境における音声データ83に雑音データ82を重畳して作成した雑音重畳音声データ84を「音響的な近さ」によりグルーピングする。
【0063】
十分統計量作成部1は、グループ作成部6がグルーピングした音声データ84を用いて、グループ作成部6が作成したグループごとに十分統計量71を作成する。
【0064】
十分統計量蓄積部3は、十分統計量作成部1が作成した十分統計量71を蓄積する。
【0065】
選択モデル作成部2は、選択モデル73を作成する。選択モデル73は、蓄積部3に蓄積された十分統計量71の中から利用者の音声データ81に近い十分統計量72を選択するためのモデルである。
【0066】
選択モデル蓄積部4は、選択モデル作成部2が作成した選択モデル73を蓄積する。
【0067】
適応モデル作成部5は、蓄積部4に蓄積された選択モデル73を用いて、蓄積部3に蓄積された十分統計量71の中から利用者の音声データ81に「音響的に近い」十分統計量72を選択し、選択した十分統計量72を用いて適応モデル74を作成する。
【0068】
<適応モデルの作成手順>
次に、以上のように構成された装置による適応モデル作成の手順について説明する。ここでは、利用者が室内で音声認識を行う場合を例にして説明する。
[十分統計量71および選択モデル73の作成]
はじめに、十分統計量71と選択モデル73の作成方法について述べる。ここでは、十分統計量71と選択モデル73の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。
【0069】
静かな環境において複数話者の音声データ83を収録する。ここでは約300人の音声データを収録する。
【0070】
利用者が音声認識を利用するであろう環境の雑音データ82を収録する。ここでは室内雑音を収録する。
【0071】
音声データ83に、利用者が音声認識を利用するであろう環境におけるSN比で雑音データ82を重畳して音声データ84を作成する。ここでは15dB、20dB、25dBのSN比で雑音データ82を重畳する。
【0072】
グループ作成部6は、作成された音声データ84を「音響的な近さ」によりグルーピングする。ここでは、図8に示すように、SN比ごとに15dBのグループA、20dBのグループB、25dBのグループCにグルーピングする。
【0073】
十分統計量71を作成する。十分統計量作成部1は、図9に示すように、グループ作成部6が作成したグループごとに、雑音重畳音声データ84A〜84Cを用いてそれぞれの不特定話者モデルA〜Cを作成する。次に、グループ作成部6が作成した各グループについて、各話者の雑音重畳音声データ84を用いて話者ごとにEMアルゴリズムにより各グループの不特定話者モデルから一回学習することにより十分統計量71A〜71Cを計算する。ここでは、グループごとに約300の十分統計量が作成される。
【0074】
選択モデル73を作成する。一例として図10に示すように、グループ作成部6が作成したグループごとに、雑音重畳音声データ84A〜84Cを用いて、話者ごとに、音韻を区別することなく1状態64混合のGaussian Mixture Model(GMM)により、選択モデル73A〜73Cを作成する。ここでは、グループごとに約300の十分統計量選択モデルが作成される。
【0075】
十分統計量71A〜71C(図9)を作成したときに用いた音声データ84A〜84C(図9)と、これにより作成した選択モデル73A〜73C(図10)とは対をなしており、対応した選択モデルにより利用者の音声データに近い十分統計量が選択される。
【0076】
十分統計量蓄積部3は、十分統計量作成部1が作成した十分統計量71A〜71Cを蓄積する。選択モデル蓄積部4は、選択モデル作成部2が作成した選択モデル73A〜73Cを蓄積する。十分統計量蓄積部3に蓄積される十分統計量71の一例を図11および図16に示す。また、選択モデル蓄積部4に蓄積される選択モデル73の一例を図12に示す。ここで、各グループ(A〜C)における各話者(Aさん〜Zさん)の十分統計量と選択モデルとは対をなしている。
[適応モデル74の作成]
次に、適応モデル作成部5における適応モデル74の作成手順について述べる。
【0077】
十分統計量71および選択モデル73の一例として図11,図12に示したものを用いて説明する。
【0078】
利用者は、適応モデル74の作成を要求する。
【0079】
利用者は、音声認識用のマイクなどを利用して、音声認識を利用する環境下での音声データ81を適応モデル作成部5に入力する。音声データ81には、音声認識を利用する環境の雑音が重畳されている。
【0080】
ここでは、利用者が、室内でSN比が20dBとなる環境で音声認識を利用する場合について述べる。
【0081】
適応モデル作成部5は、音声データ81を選択モデル蓄積部4に送信して選択モデル73に入力する。すなわち、音声データ81は、図12のグループA〜CのAさん〜Zさんの十分統計量選択モデルに入力される。
【0082】
グループ作成部6が作成したグループのうち利用者の音声データ81に「音響的に近い」グループを決定する。
【0083】
音声データ81を選択モデル73に入力したときの選択モデル73の尤度を計算して尤度の大きい順番に並べる。すなわち、図12のグループA〜CのAさん〜Zさんの選択モデルの音声データ81に対する尤度を計算して大きい順番に並べる。選択モデル73の尤度を計算して尤度の大きい順番で並べた一例を図13に示す。
【0084】
尤度が大きい順番で上位N個(図13の例では100個)の選択モデルを選択し、最も多く選択したグループ(室内雑音のSN比)を決定する。図12の例では、最も多く選択したグループはグループB(室内雑音20dB)である。すなわち、グループBが利用者の音声データ81に「音響的に近い」グループである。
【0085】
適応モデル74を、音声データ81に「音響的に近い」グループ(グループB)の十分統計量を用いて作成する。音声データ81に「音響的に近い」グループ(グループB)の選択モデル73から尤度が大きい順番で上位L個(図14の例では20個)を選択する。そして選択した選択モデルと対をなす十分統計量72を用いて適応モデル74を作成する。具体的には以下の統計処理計算(数4〜数6)により適応モデル74を作成する。適応モデル74のHMMの各状態における正規分布の平均、分散をそれぞれμ adp(i=1,2,…,Nmix)、v adp(i=1,2,…,Nmix)とする。Nmixは混合分布数である。また、状態遷移確率をaadp[i][j](i,j=1,2,…,Nstate)とする。Nstateは状態数であり、aadp[i][j]は状態iから状態jへの遷移確率を表す。
【0086】
【数4】
Figure 2004004509
【0087】
【数5】
Figure 2004004509
【0088】
【数6】
Figure 2004004509
【0089】
ここで、Nselは、選択された音響モデルの数であり、μ (i=1,2,…,Nmix,j=1,2,…,Nsel)、v (i=1,2,…,Nmix,j=1,2,…,Nsel)はそれぞれのHMMの平均、分散である。Cmix (j=1,2,…,Nsel)、Cstate [i][j](k=1,2,…,Nsel、i,j=1,2,…,Nstate)はそれぞれ、正規分布におけるEMカウント(度数)、状態遷移に関するEMカウントである。
【0090】
適応モデル作成部5は、利用者の次の適応モデル作成の要求に備える。
【0091】
<実験結果>
適応モデルを用いて認識実験を行った結果について述べる。
【0092】
認識実験の条件について述べる。データベースは306人の話者データにより構成されており、各話者は約200文章の発声データをもつ。サンプリング周波数16kHz、16bitのデータである。特徴量として、窓シフト長10msで分析した12次元のMFCC(Mel−frequency cepstrum coefficient)とデルタケプストラム、デルタパワーを用いる。特徴量抽出においてCMN(Cepstrummean normalization)処理がほどこされている。20kの新聞記事により構築した言語モデルを用いる。評価話者は46人である。評価文章として各話者4〜5文章、合計200文章を用いた。雑音の種類として室内雑音を用いた。
【0093】
図15に認識実験結果を示す。図15では、十分統計量を用いて適応モデルを作成する従来技術の認識結果も合わせて示している。
【0094】
図15に示す結果をみると、この発明により作成した適応モデルの性能は、従来技術によるものと比較してきわめて高いことがわかる。
【0095】
<効果>
以上説明したように第1の実施形態では、「音響的に近い」ものをクラスタリング(グルーピング)して、各グループの中で、選択モデル・十分統計量の作成と適応モデルの作成を行う。このようにクラスタリングすることにより、従来技術の箇所で説明した仮定を成立させることができる。この結果、雑音環境における適応モデルの精度の低下を防ぐことができ、高精度の適応モデルを作成することができる。ここでグルーピングされる「音響的に近い」音声データとは、従来技術の項で説明した「十分統計量による方法」における仮定が成立する範囲に存在する音声データ群のことである。具体的には、十分統計量の初期値から各音声データの十分統計量を計算しても、ガウス分布の位置関係は維持された状態で、混合重み、平均値、分散のみが学習できる音声データ群のことである(図16参照)。いいかえると、各音声データの十分統計量のガウス分布にKL距離などの分布距離で最も近い初期値の十分統計量のガウス分布の番号が上記音声データの十分統計量のガウス分布の番号と同一であることをいう(図16参照)。
【0096】
このような仮定を成立させることができるグルーピングの例としては、
・雑音の種類ごとにグループを作る。
・SN比ごとにグループを作る。
・各音声データを用いて音声モデル(混合ガウス分布で表現する)を作成して、KL距離などの分布間距離が近いものを同じグループとする。
などがある。一例を図17に示す。
【0097】
また、第1の実施形態によれば以下のような効果も得られる。
【0098】
雑音/話者に適応した適応モデル74を作成するための音声データとして、オフラインで収録した音声データ83を利用するため、利用者は大量の発声を行う必要がなく利用者の負担が少ない。
【0099】
雑音重畳音声データ84を用いて十分統計量71を作成して適応モデル74を作成するため、利用環境に適応した適応モデルが作成できる。したがって、雑音環境で適応モデルが利用できる。
【0100】
オフラインで十分統計量71を作成するため、適応時に、瞬時に適応モデル74を作成することができる。したがって、利用環境が変化した場合にすぐに適応モデルが利用できる。
【0101】
グループ作成部6により作成したグループごとに十分統計量を作成して適応モデル74を作成するため、より利用者の音声データ81に適応した適応モデル74が作成できる。したがって、より多くの利用者がさまざまな雑音環境で適応モデルが利用できる。
【0102】
なお、雑音重畳音声データ84として、雑音データを計算処理で重畳した音声データの代わりに、雑音環境下で発声した音声データを収録したものを用いてもよい。
【0103】
グループ作成部6は、雑音の種類ごと、近い話者ごとにグループを作ってもよい。
【0104】
雑音重畳音声データ84として、室内雑音、車内雑音、会場騒音、掃除機の音などさまざまな雑音環境下の音声データを用いてよい。
【0105】
適応モデル74を作成するタイミングは、適応モデル作成部が自動的に行ってもよい。
【0106】
十分統計量選択モデル73はGaussian Mixture Modelに限られない。
【0107】
雑音データ82として、利用環境の雑音を用いてもよい。
【0108】
第1の実施形態による適応モデル作成装置はハードウェアによってもソフトウェア(コンピュータプログラム)によっても実現できる。
【0109】
<具体的な商品イメージおよびグルーピング例>
第1の実施形態による話者適応技術を用いた音声認識システムは、たとえば次のような商品(情報機器)に搭載することができる。携帯電話、携帯端末(PDA)、カーナビゲーションシステム、パソコン、テレビのリモコン、音声翻訳装置、ペットロボット、対話エージェント(グラフィックス)など。これらのうちいくつかについてグルーピング例とともに以下に示す。
【0110】
[グループの作成方法1]
雑音の種類×SN比ごとにグループを作り,グループ内には,話者×話者の声の調子のバリエーションごとの十分統計量を蓄積する。
【0111】
<複数の雑音下,複数の話者が利用する機器(例:テレビの操作)>
・グループの選択方法1(図18参照)
この例によるシステムの構成を図18Aに示す。このシステムは、サーバ1800と、デジタルTVシステム1810と、音声リモコン1820とを備える。サーバ1800は、グループ作成部6と、選択モデル作成部2と、十分統計量作成部1とを含む。グループ作成部6は、図18Bに示すように、雑音が重畳された音声データ84を雑音の種類(掃除機の音,洗濯機の音など)×SN比(10dB,20dBなど)ごとにグループ化する。十分統計量作成部1は、グループ作成部6によって作成されたグループの各々について、話者(話者A,話者Bなど)×話者の声の調子(鼻声,普通の声,早口の声など)ごとに十分統計量を作成する。選択モデル作成部2は、十分統計量作成部1によって作成された十分統計量の各々について、対応する選択モデルを作成する。音声リモコン1820はマイク1821を含む。マイク1821は、利用者が発声した音声を所定の音声データに変換する。マイク1821によって変換された音声データはデジタルTVシステム1810に送信される。デジタルTVシステム1810は、ハードディスク(HDD)1811と、適応モデル作成部5と、音声認識システム300(図3参照)と、処理部1812とを含む。サーバ1800の選択モデル作成部2によって作成された選択モデルおよび十分統計量作成部1によって作成された十分統計量は通信網を介してHDD1811にダウンロードされる。適応モデル作成部5は、音声リモコン1820からの音声データとHDD1811に蓄積された選択モデルおよび十分統計量とを利用して適応モデルを作成する。音声認識システム300は、適応モデル作成部5によって作成された適応モデルを用いて音声リモコン1820からの音声データを認識する。処理部1812は、音声認識システム300による認識の結果に応じて各種の処理を行う。以上のように構成されたシステムでは以下の処理が行われる。
【0112】
[ステップST1]
音声リモコン1820のマイク1821に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルTVシステム1810に送信される。
【0113】
[ステップST2]
適応モデル作成部5は、音声リモコン1820からの音声データをHDD1811内の選択モデルに入力して尤度を算出する。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0114】
[ステップST3]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0115】
・グループの選択方法2(図19,図20参照)
この例による表示システムの構成を図19Aに示す。このシステムは、サーバ1900と、デジタルTVシステム1910と、音声リモコン1920とを備える。サーバ1900は、グループ作成部6と、選択モデル作成部2と、十分統計量作成部1と、選択モデル蓄積部4と、十分統計量蓄積部3とを含む。グループ作成部6は、図19Bに示すように、雑音が重畳された音声データ84を雑音の種類(掃除機Aの音,掃除機Bの音など)×SN比(10dB,20dBなど)ごとにグループ化する。十分統計量作成部1は、グループ作成部6によって作成されたグループの各々について、話者(話者A,話者Bなど)×話者の声の調子(鼻声,普通の声,早口の声など)ごとに十分統計量を作成する。選択モデル作成部2は、十分統計量作成部1によって作成された十分統計量の各々について、対応する選択モデルを作成する。音声リモコン1920はマイク1821とメモリ1922とを含む。メモリ1922には、雑音の種類を示すID(雑音ID)とグループを示すID(グループID)とが対応づけられて記憶される。デジタルTVシステム1910は、適応モデル作成部5と、音声認識システム300(図3参照)と、処理部1812とを含む。適応モデル作成部5は、音声リモコン1920からの音声データと、サーバ1900の選択モデル蓄積部4に蓄積された選択モデルおよび十分統計量蓄積部3に蓄積された十分統計量とを利用して適応モデルを作成する。以上のように構成されたシステムでは以下の処理が行われる。
【0116】
[ステップST1−a]
デジタルTVシステム1910は、利用環境における雑音の種類をリモコン1920のボタン操作によって選択するように利用者を促す。たとえば、「1.洗濯機,2.掃除機,3.エアコン,…」のように選択肢を画面に表示する。利用者は、利用環境における雑音の種類をボタン操作により選択する。ここでは掃除機が使用されている環境で利用者がリモコン操作を行っているものとする。利用者は、雑音の種類として「2.掃除機」をボタン操作によって選択する。
【0117】
[ステップST2−a]
音声リモコン1920のマイク1821に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルTVシステム1910に送信される。
【0118】
[ステップST3−a]
適応モデル作成部5は、音声リモコン1920からの音声データをサーバ1900の選択モデル蓄積部4内の選択モデルに入力して尤度を算出する。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0119】
[ステップST4−a]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0120】
[ステップST5−a]
適応モデル作成部5は、ステップST3−aにおいて選択したグループを示すID(グループID)と、当該グループと雑音の種類が同じであるグループを示すID(グループID)とを音声リモコン1920に送信する。これらのグループIDは、ステップST1−aにおいて選択された雑音の種類を示すID(雑音ID)と対応づけられてメモリ1922に記憶される。ここではステップST3−aにおいてグループ1(図19B参照)が選択されたものとする。グループ1の雑音の種類は「掃除機Aの音」である。雑音の種類が「掃除機Aの音」であるグループはグループ1およびグループ2である(図19B参照)。適応モデル作成部5は、図20に示すように、雑音の種類が「掃除機Aの音」であるグループ(グループ1,グループ2)のグループIDを音声リモコン1920へ送信する。これらのグループIDは、ステップST1−aにおいて選択された雑音の種類「2.掃除機」を示す雑音IDと対応づけられてメモリ1922に記憶される(図20参照)。
【0121】
[ステップST1−b]
ふたたび、掃除機が使用されている環境で利用者がリモコン操作を行う。利用者は、雑音の種類として「2.掃除機」をボタン操作によって選択する。音声リモコン1920は、選択された雑音の種類「2.掃除機」に対応づけられてメモリ1922に記憶されているグループID(グループ1,グループ2のグループID)をデジタルTVシステム1910へ送信する(図20参照)。
【0122】
[ステップST2−b]
音声リモコン1920のマイク1821に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルTVシステム1910に送信される。
【0123】
[ステップST3−b]
適応モデル作成部5は、サーバ1900の選択モデル蓄積部4内の選択モデルのうち音声リモコン1920からのグループIDが示すグループ(グループ1,グループ2)の選択モデルに音声リモコン1920からの音声データを入力して尤度を算出する。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0124】
[ステップST4−b]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0125】
適応処理ごとに(ST1−b)に戻る。また,必要に応じて(ST1−a)に戻る(たとえば、掃除機を別の種類の掃除機に買い換えたとき、掃除機の音とは異なる雑音環境の下で音声認識を利用するときなど)。
【0126】
<複数の雑音下,複数の話者が利用する機器(例:PDAの操作)>
・グループの選択方法1
通信網で接続されたサーバーに蓄積された十分統計量から,GPSの位置情報により雑音の種類を自動的に選択した後に,雑音が付加された利用者の音声により,選択モデル(GMM)を用いて十分統計量を選択して適応する。具体的には以下の処理を行う。
【0127】
GPSの位置情報を用いて,雑音の種類を自動的に選択する(ST1)。(例:駅のホームなら電車内の雑音,工事現場なら工事現場の雑音など)
【0128】
利用者の音声を入力する(ST2)。
【0129】
選択された雑音のグループにおいて,利用者の音声を選択モデルに入力したときの尤度が大きいN個を選択し,その中で一番個数の多いSN比のグループを選択する(ST3)。
【0130】
選択したグループの中で,尤度の大きいM個の十分統計量を選択して適応する(ST4)。
【0131】
・グループの選択方法2
通信網で接続されたサーバーに蓄積された十分統計量から,PDAの中のスケジュール帳と時間情報により雑音の種類を自動的に選択した後に,雑音が付加された利用者の音声により,選択モデル(GMM)を用いて十分統計量を選択して適応する。具体的には以下の処理を行う。
【0132】
スケジュール帳と時間情報を用いて,雑音の種類を自動的に選択する(ST1)。(例:スケジュールにて10時に電車で移動,現在の時刻10時55分なら,電車内の雑音を選択する。)
【0133】
利用者の音声を入力する(ST2)。
【0134】
選択された雑音のグループにおいて,利用者の音声を選択モデルに入力したときの尤度が大きいN個を選択し,その中で一番個数の多いSN比のグループを選択する(ST3)。
【0135】
選択したグループの中で,尤度の大きいM個の十分統計量を選択して適応する(ST4)。
【0136】
<特定の雑音下で利用する機器(例:カーナビ)>
・グループの選択方法(図21,図22参照)
この例による情報検索システムの構成を図21Aに示す。このシステムは、サーバ2100と、カーナビゲーションシステム2110とを備える。サーバ2100は、グループ作成部6と、選択モデル作成部2と、十分統計量作成部1と、選択モデル蓄積部4と、十分統計量蓄積部3と、適応モデル作成部5と、メモリ2101とを含む。グループ作成部6は、図21Bに示すように、雑音が重畳された音声データ84を雑音の種類(カローレの音,マークIIIの音など)×SN比(10dB,20dBなど)ごとにグループ化する。メモリ2101には、カーナビゲーションシステムを識別するための機器ID(たとえば製品番号)とグループを示すID(グループID)とが対応づけられて記憶される。カーナビゲーションシステム2110は、マイク2111と、データ通信モジュール2112と、音声認識システム300(図3参照)と、処理部2113とを含む。以上のように構成されたシステムでは以下の処理が行われる。
【0137】
[ステップST1−a]
カーナビゲーションシステム2110のマイク2111に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換され、データ通信モジュール2112によってサーバ2100へ送信される。またデータ通信モジュール2112は、カーナビゲーションシステム2110の製品番号「100」を示すデータ(機器ID)をサーバ2100へ送信する。
【0138】
[ステップST2−a]
適応モデル作成部5は、カーナビゲーションシステム2110からの音声データを選択モデル蓄積部4内の選択モデルに入力して尤度を算出する。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0139】
[ステップST3−a]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0140】
[ステップST4−a]
適応モデル作成部5は、ステップST2−aにおいて選択したグループを示すID(グループID)と、当該グループと雑音の種類が同じであるグループを示すID(グループID)とを、カーナビゲーションシステム2110からの製品番号「100」に対応づけてメモリ2101に記憶する。ここではステップST2−aにおいてグループ1(図21B参照)が選択されたものとする。グループ1の雑音の種類は「カローレの音」である。雑音の種類が「カローレの音」であるグループはグループ1およびグループ2である(図21B参照)。適応モデル作成部5は、図22に示すように、雑音の種類が「カローレの音」であるグループ(グループ1,グループ2)のグループIDを製品番号「100」に対応づけてメモリ2101に記憶する。
【0141】
[ステップST1−b]
ふたたび、カーナビゲーションシステム2110のマイク2111に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換され、データ通信モジュール2112によってサーバ2100へ送信される。またデータ通信モジュール2112は、カーナビゲーションシステム2110の製品番号「100」を示すデータ(機器ID)をサーバ2100へ送信する。
【0142】
[ステップST2−b]
適応モデル作成部5は、選択モデル蓄積部4内の選択モデルのうち、カーナビゲーションシステム2110からの製品番号「100」に対応づけられてメモリ2101に記憶されているグループIDが示すグループ(グループ1,グループ2)の選択モデルにカーナビゲーションシステム2110からの音声データを入力して尤度を算出する(図22参照)。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0143】
[ステップST3−b]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0144】
適応処理ごとに(ST1−b)に戻る。また,必要に応じて(ST1−a)に戻る(たとえば、カーナビゲーションシステム2110を別の種類の車(たとえばマークIII)に取り付けたときなど)。
【0145】
[グループの作成方法2]
雑音の種類×SN比×近い話者ごとにグループを作り,グループ内には,近い話者において,声の調子のバリエーションごと(鼻声,早口,どもり声など)の十分統計量を蓄積する。
【0146】
<複数の雑音下,複数の話者が利用する機器(例:テレビの操作)>
・グループの選択方法(図23,図24参照)
この例によるシステムの構成を図23Aに示す。このシステムは、サーバ2300と、デジタルTVシステム2310と、音声リモコン2320とを備える。サーバ2300は、グループ作成部6と、選択モデル作成部2と、十分統計量作成部1と、選択モデル蓄積部4と、十分統計量蓄積部3と、適応モデル作成部5と、メモリ2301とを含む。グループ作成部6は、図23Bに示すように、雑音が重畳された音声データ84を雑音の種類(掃除機の音,エアコンの音など)×SN比(10dB,20dBなど)×近い話者ごとにグループ化する。メモリ2301には、利用者を識別するためのID(利用者ID)とグループを示すID(グループID)とが対応づけられて記憶される。デジタルTVシステム2310は、データ通信モジュール2312と、音声認識システム300(図3参照)と、処理部1812とを含む。音声リモコン2320はマイク1821を含む。以上のように構成されたシステムでは以下の処理が行われる。
【0147】
[ステップST1−a]
音声リモコン2320のマイク1821に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルTVシステム2310に送信される。また利用者は、名前や暗証番号などの自己を識別するための情報(利用者ID)をリモコン2320のボタン操作により入力する。入力された利用者ID(ここでは「100」)はデジタルTVシステム2310に送信される。音声リモコン2320からの音声データおよび利用者ID「100」は、データ通信モジュール2112によってサーバ2300へ送信される。
【0148】
[ステップST2−a]
適応モデル作成部5は、デジタルTVシステム2310からの音声データを選択モデル蓄積部4内の選択モデルに入力して尤度を算出する。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0149】
[ステップST3−a]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0150】
[ステップST4−a]
適応モデル作成部5は、ステップST2−aにおいて選択したグループを示すID(グループID)と、当該グループと近い話者が同じであるグループを示すID(グループID)とを、デジタルTVシステム2310からの利用者ID「100」に対応づけてメモリ2301に記憶する。ここではステップST2−aにおいてグループ2(図23B参照)が選択されたものとする。グループ2の近い話者は「話者C,D」である。近い話者が「話者C,D」であるグループはグループ2,グループ(K−1)およびグループKである(図23B参照)。適応モデル作成部5は、図24に示すように、近い話者が「話者C,D」であるグループ(グループ2,グループ(K−1),グループK)のグループIDを利用者ID「100」に対応づけてメモリ2301に記憶する。
【0151】
[ステップST1−b]
ふたたび、音声リモコン2320のマイク1821に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換されてデジタルTVシステム2310に送信される。また利用者は、利用者ID「100」をリモコン2320のボタン操作により入力する。入力された利用者ID「100」はデジタルTVシステム2310に送信される。音声リモコン2320からの音声データおよび利用者ID「100」は、データ通信モジュール2312によってサーバ2300へ送信される。
【0152】
[ステップST2−b]
適応モデル作成部5は、選択モデル蓄積部4内の選択モデルのうち、デジタルTVシステム2310からの利用者ID「100」に対応づけられてメモリ2301に記憶されているグループIDが示すグループ(グループ2,グループ(K−1),グループK)の選択モデルにデジタルTVシステム2310からの音声データを入力して尤度を算出する(図24参照)。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0153】
[ステップST3−b]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0154】
適応処理ごとに(ST1−b)に戻る。また,必要に応じて(ST1−a)に戻る(たとえば、利用者が代わったときなど)。
【0155】
<特定の話者が利用する機器(例:携帯電話の操作)>
・グループの選択方法(図25,図26を参照)
この例によるシステムの構成を図25Aに示す。このシステムは、サーバ2500と、携帯電話2510とを備える。サーバ2500は、グループ作成部6と、選択モデル作成部2と、十分統計量作成部1と、選択モデル蓄積部4と、十分統計量蓄積部3と、適応モデル作成部5と、メモリ2501と、音声認識システム300とを含む。グループ作成部6は、図25Bに示すように、雑音が重畳された音声データ84を雑音の種類(電車の音,バスの音など)×SN比(10dB,20dBなど)×近い話者ごとにグループ化する。メモリ2501には、携帯電話を識別するための機器ID(たとえば製品番号)とグループを示すID(グループID)とが対応づけられて記憶される。音声認識システム300による認識結果は通信網を介して携帯電話2510へ送信される。携帯電話2510は、マイク2511と、データ通信モジュール2512と、処理部2513とを含む。以上のように構成されたシステムでは以下の処理が行われる。
【0156】
[ステップST1−a]
携帯電話2510のマイク2511に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換され、データ通信モジュール2512によってサーバ2500へ送信される。またデータ通信モジュール2512は、携帯電話2510の製品番号「200」を示すデータ(機器ID)をサーバ2500へ送信する。
【0157】
[ステップST2−a]
適応モデル作成部5は、携帯電話2510からの音声データを選択モデル蓄積部4内の選択モデルに入力して尤度を算出する。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0158】
[ステップST3−a]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0159】
[ステップST4−a]
適応モデル作成部5は、ステップST2−aにおいて選択したグループを示すID(グループID)と、当該グループと近い話者が同じであるグループを示すID(グループID)とを、携帯電話2510からの製品番号「200」に対応づけてメモリ2501に記憶する。ここではステップST2−aにおいてグループ2(図25B参照)が選択されたものとする。グループ2の近い話者は「話者C,D」である。近い話者が「話者C,D」であるグループはグループ2,グループ(K−1)およびグループKである(図25B参照)。適応モデル作成部5は、図26に示すように、近い話者が「話者C,D」であるグループ(グループ2,グループ(K−1),グループK)のグループIDを製品番号「200」に対応づけてメモリ2501に記憶する。
【0160】
[ステップST1−b]
ふたたび、携帯電話2510のマイク2511に向かって利用者が発声する。利用者が発声した音声は所定の音声データに変換され、データ通信モジュール2512によってサーバ2500へ送信される。またデータ通信モジュール2512は、携帯電話2510の製品番号「200」を示すデータ(機器ID)をサーバ2500へ送信する。
【0161】
[ステップST2−b]
適応モデル作成部5は、選択モデル蓄積部4内の選択モデルのうち、携帯電話2510からの製品番号「200」に対応づけられてメモリ2501に記憶されているグループIDが示すグループ(グループ2,グループ(K−1),グループK)の選択モデルに携帯電話2510からの音声データを入力して尤度を算出する(図26参照)。適応モデル作成部5は、算出した尤度のうち大きいものからN個を選択する。適応モデル作成部5は、これらN個が属するグループのうち属する選択モデルの数が最も多いグループを選択する。
【0162】
[ステップST3−b]
適応モデル作成部5は、選択したグループの中で尤度が大きいM個の十分統計量を選択する。適応モデル作成部5は、選択したM個の十分統計量を用いて適応モデルを作成する。
【0163】
適応処理ごとに(ST1−b)に戻る。また,必要に応じて(ST1−a)に戻る(たとえば、利用者が代わったときなど)。
【0164】
[グループの作成方法3]
近い話者ごとにグループを作り,グループ内には,雑音の種類×SN比ごとの十分統計量を蓄積する。
【0165】
<複数の雑音下,複数の話者が利用する機器(例:テレビの操作)>
・グループの選択方法(図27,図28を参照)
家庭内のセット・トップ・ボックス,もしくは通信網で接続された家庭外のサーバーに蓄積された十分統計量から,雑音が付加された利用者の音声により,選択モデル(GMM)を用いて十分統計量を選択して適応する。このとき,選択したグループと利用者の話者ID(名前や暗証番号など)を対応付ける。次に適応するときは,話者IDを入力してグループを選択して適応する。具体的には以下の処理を行う。
【0166】
利用者の音声を入力する(ST1−a)。
【0167】
利用者の音声を選択モデルに入力したときの尤度が大きいN個を選択し,その中で一番個数の多い話者グループを選択する(ST2−a)。
【0168】
選択したグループの中で,(様々な雑音の種類・SN比の中から)尤度の大きいM個の十分統計量を選択して適応する(ST3−a)。
【0169】
選択したグループと話者IDを対応付ける(対応関係を蓄積する)(ST4−a)。
【0170】
話者IDを入力してグループを選択する(ST1−b)。
【0171】
利用者の音声を入力する(ST2−b)。
【0172】
選択したグループ(利用者に近い話者グループ)の中で,尤度の大きいM個の十分統計量を選択して適応する(ST3−b)。
【0173】
適応処理ごとに(ST1−b)に戻る。また,必要に応じて(ST1−a)に戻る。
【0174】
<特定の話者が利用する機器(例:携帯電話の操作)>
・グループの選択方法
通信網で接続された家庭外のサーバーに蓄積された十分統計量から,雑音が付加された利用者の音声により,選択モデル(GMM)を用いて十分統計量を選択して適応する。このとき,選択したグループと利用した機器IDを対応付ける。次に適応するときは,機器IDにより自動的にグループを選択して適応する。具体的には以下の処理を行う。
【0175】
利用者の音声を入力する(ST1−a)。
【0176】
利用者の音声を選択モデルに入力したときの尤度が大きいN個を選択し,その中で一番個数の多い話者グループを選択する(ST2−a)。
【0177】
選択したグループの中で,尤度の大きいM個の十分統計量を選択して適応する(ST3−a)。
【0178】
選択したグループと機器IDを対応付ける(対応関係を蓄積する)(ST4−a)。
【0179】
利用者の音声を入力する(ST1−b)。
【0180】
機器IDによりグループを自動的に選択する(ST2−b)。
【0181】
選択したグループの中で,尤度の大きいM個の十分統計量を選択して適応する(ST2−b)。
【0182】
適応処理ごとに(ST1−b)に戻る。また,必要に応じて(ST1−a)に戻る(たとえば、利用者が代わったときなど)。
【0183】
[グループの作成方法4]
特定の雑音の種類において,SN比ごとにグループを作り,グループ内には,話者ごとの十分統計量を蓄積する。
【0184】
<特定の雑音下で利用する機器(例:エレベータの操作)>
・グループの選択方法
エレベータに備え付けられたサーバーに蓄積された十分統計量から,雑音が付加された利用者の音声により,選択モデル(GMM)を用いて十分統計量を選択して適応する。具体的には以下の処理を行う。
【0185】
利用者の音声を入力する(ST1)。
【0186】
利用者の音声を選択モデルに入力したときの尤度が大きいN個を選択し,その中で一番個数の多いSN比のグループを選択する(ST2)。
【0187】
選択したグループの中で,尤度の大きいM個の十分統計量を選択して適応する(ST3)。
【0188】
[グループの作成方法5]
特定の話者において,SN比ごとにグループを作り,グループ内には,特定の話者の声の調子のバリエーションごと(鼻声,早口,どもり声など)の十分統計量を蓄積する。
【0189】
<特定の話者・雑音下で利用する機器について(例:カーナビ)>
・グループの選択方法
車内に備え付けられたサーバー(カーナビ)に蓄積された十分統計量から,雑音付加された利用者の音声により,選択モデル(GMM)を用いて十分統計量を選択して適応する。具体的には以下の処理を行う。
【0190】
利用者の音声を入力する(ST1)。
【0191】
利用者の音声を選択モデルに入力したときの尤度が大きいN個を選択し,その中で一番個数の多いSN比のグループを選択する(ST2)。
【0192】
選択したグループの中で,尤度の大きいM個の十分統計量を選択して適応する(ST3)。
【0193】
なお,グループごとにグループ選択モデルを作成して,グループを選択しても良い(例:雑音の種類ごとにグループを作成する場合,雑音選択モデルがグループ選択モデルとなり,GMMで作成した場合,雑音を雑音選択モデルに入力して尤度が最も大きいグループを選択する。)。
【0194】
(第2の実施形態)
<適応モデル作成装置の構成>
図29は、第2の実施形態による音声処理用適応モデル作成装置の全体構成を示すブロック図である。図29に示す装置は、選択モデル作成部21と、選択モデル蓄積部41と、十分統計量作成部11と、適応モデル作成部51とを備える。選択モデル作成部21は、利用者の音声データに近い音声データを選択するための選択モデル75を作成する。選択モデル蓄積部41は、選択モデル作成部21が作成した選択モデル75を蓄積する。十分統計量作成部11は、選択モデル蓄積部41が蓄積した選択モデル75を用いて音声データ83の中から利用者の音声データに近い音声データを選択し、選択した音声データに雑音を重畳した音声データを用いて十分統計量72を作成する。適応モデル作成部51は、十分統計量作成部11が作成した十分統計量72を用いて適応モデル74を作成する。
【0195】
<適応モデルの作成処理>
次に、以上のように構成された装置による音声認識用適応モデルの作成処理について説明する。
【0196】
[選択モデル75の作成]
はじめに、選択モデル75の作成方法について述べる。ここでは、選択モデル75の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。
【0197】
静かな環境において複数話者の音声データ83を収録する。ここでは約300人の音声データを収録する。
【0198】
選択モデル作成部21は、音声データ83を用いて、話者ごとに、音韻を区別することなく1状態64混合のGaussian Mixture Modelにより選択モデル75を作成する。
【0199】
一例として図30に示すように、音声データ83のパワーの大きいフレームを用いて選択モデル75を作成する。この方法を用いると雑音に強い音声データ選択モデルが作成できる。
【0200】
選択モデル蓄積部41は、選択モデル作成部21が作成した選択モデル75を蓄積する。選択モデル蓄積部41に蓄積される選択モデル75の一例を図30に示す。
【0201】
[十分統計量72の作成]
次に、十分統計量72の作成方法について述べる。
【0202】
利用者は、適応モデル74の作成を要求する。
【0203】
利用者は、音声認識用のマイクなどを利用して、音声認識を利用する環境の雑音データ85を十分統計量作成部11に入力する。
【0204】
また、利用者は、音声認識用のマイクなどを利用して、音声認識を利用する環境下での音声データ81を十分統計量作成部11に入力する。音声データ81は、音声認識を利用する環境の雑音が重畳されている。
【0205】
次に、十分統計量作成部11は、音声データ81を、選択モデル蓄積部41が蓄積した選択モデル75に入力して尤度を計算する。ここでは、音声データ81のパワーの大きいフレーム部分を図30に示す選択モデル75に入力して尤度を計算する。そして、尤度の大きい上位L人(たとえば上位20人)の話者を選択して利用者の音声データに近い話者とする。
【0206】
十分統計量作成部11は、静かな環境における音声データ83の中から利用者に近い話者の音声データに雑音データ85を重畳し、雑音重畳音声データ86を作成する。このとき、音声データ81と雑音データ85よりSN比を計算して、計算したSN比で雑音重畳音声データ86を作成する。雑音重畳音声データ86の作成方法の一例を図31に示す。
【0207】
十分統計量作成部11は、雑音重畳音声データ86を用いて十分統計量72を作成する。十分統計量作成部11が作成した十分統計量72の一例を図32に示す。
【0208】
[適応モデル74の作成]
次に、適応モデル作成部51における適応モデル74の作成処理について述べる。
【0209】
適応モデル作成部51は、十分統計量作成部11が作成した十分統計量72を用いて適応モデル74を作成する。具体的には以下の統計処理計算(数7〜数9)により適応モデル74を作成する。適応モデル74のHMMの各状態における正規分布の平均、分散をそれぞれμ adp(i=1,2,…,Nmix)、v adp(i=1,2,…,Nmix)とする。Nmixは混合分布数である。また、状態遷移確率をaadp[i][j](i,j=1,2,…,Nstate)とする。Nstateは状態数であり、aadp[i][j]は状態iから状態jへの遷移確率を表す。
【0210】
【数7】
Figure 2004004509
【0211】
【数8】
Figure 2004004509
【0212】
【数9】
Figure 2004004509
【0213】
ここで、Nselは、選択された音響モデルの数であり、μ (i=1,2,…,Nmix,j=1,2,…,Nsel)、v (i=1,2,…,Nmix,j=1,2,…,Nsel)はそれぞれのHMMの平均、分散である。Cmix (j=1,2,…,Nsel)、Cstate [i][j](k=1,2,…,Nsel、i,j=1,2,…,Nstate)はそれぞれ、正規分布におけるEMカウント(度数)、状態遷移に関するEMカウントである。
【0214】
適応モデル作成部51は、利用者の次の適応モデル作成の要求に備える。
【0215】
<効果>
以上説明したように第2の実施形態では、利用環境の雑音データ85を重畳した音声データ86を用いて十分統計量72を作成して適応モデル74を作成するため、利用環境に適応した適応モデル74が作成できる。したがって、さまざまな雑音環境で適応モデルが利用できる。
【0216】
また、利用者に音響的に近い話者の音声データに雑音を重畳した音声データ86を用いて十分統計量72を作成するため、瞬時に十分統計量72を作成して適応モデル74を作成することができる。したがって、利用環境がさまざまに変化した場合にすぐに適応モデルが利用できる。
【0217】
なお、雑音データ85を、利用者が適応モデルの獲得を要求する以前にオフラインで十分統計量作成部11に入力し、十分統計量72をオフラインで作成してもよい。
【0218】
雑音データ85を十分統計量作成部11に入力するタイミングは、十分統計量作成部11が自動的に決定してもよい。
【0219】
適応モデル74を作成するタイミングは、適応モデル作成部51が自動的に決定してもよい。
【0220】
選択モデル75はGaussian Mixture Modelに限らない。
【0221】
HMMの各状態に対応するラベルをデータベースに蓄積し、蓄積したラベル情報を用いて雑音重畳音声データ86の十分統計量72を作成してもよい。
【0222】
<具体的な商品イメージ>
第2の実施形態による適応モデル作成装置を実際の製品に適用したイメージを図33に示す。このシステムは、音声を入力する携帯端末(PDA)と、適応モデルを作成して認識を行うサーバとから構成される。利用者は、サービスセンター(サーバ)に電話をかけ、センターからの音声ガイダンスに従い音声により指示を送る。サービスセンター(サーバ)側では、利用者の音声と雑音を受信して上述の方法により適応モデルを作成する。作成した適応モデルを用いて利用者の音声を認識し、ガイダンス(認識結果)をPDAへ送る。
【0223】
(第3の実施形態)
<音声認識用適応モデル作成装置の構成>
図34は、第3の実施形態による適応モデル作成装置の全体構成を示すブロック図である。図34に示す適応モデル作成装置は、選択モデル作成部1507と、選択モデル蓄積部1508と、十分統計量作成部1506と、適応モデル作成部51と、ラベル情報作成部1501と、ラベル情報蓄積部1502と、メモリ1512とを備える。選択モデル作成部1507は、利用者の音声データに近い音声データを選択するための選択モデル1510を作成する。選択モデル蓄積部1508は、選択モデル作成部1507が作成した選択モデル1510を蓄積する。ラベル情報作成部1501は、利用環境の雑音であると予測される予測雑音データ1503を静かな環境における音声データ83に予測したSN比で重畳した音声データ1505を用いて、ラベル情報1504を作成する。ラベル情報蓄積部1502は、ラベル情報作成部1501が作成したラベル情報1504を蓄積する。十分統計量作成部1506は、選択モデル蓄積部1508が蓄積した選択モデル1510とメモリ1512に記憶した静かな環境における利用者の音声データ1513とを用いて音声データ83の中から利用者の音声データに音響的に近い音声データを選択し、選択した音声データに雑音データ85を重畳した音声データと、ラベル情報蓄積部1502が蓄積したラベル情報1504とを用いて十分統計量1509を作成する。適応モデル作成部51は、十分統計量作成部1506が作成した十分統計量1509を用いて適応モデル1511を作成する。
【0224】
<適応モデル作成装置の動作>
次に、以上のように構成された適応モデル作成装置の動作について説明する。
【0225】
[選択モデル1510の作成]
はじめに、選択モデル1510の作成方法について述べる。ここでは選択モデル1510の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。
【0226】
静かな環境において複数話者の音声データ83を収録する。ここでは約300人の音声データを収録する。
【0227】
選択モデル作成部1507は、図35に示すように、音声データ83を用いて、話者ごとに、音韻を区別することなく1状態64混合のGaussian Mixture Modelにより選択モデル1510を作成する。
【0228】
選択モデル蓄積部1508は、選択モデル作成部1507が作成した選択モデル1510を蓄積する。
【0229】
[ラベル情報1504と音韻モデルの状態遷移に関する情報1514の作成]
ラベル情報1504と音韻モデルの状態遷移に関する情報1514の作成方法について述べる。ここでは、ラベル情報1504と音韻モデルの状態遷移に関する情報1514との作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。一例として、音声認識を車内で利用する場合について、図36、図37、図38を用いて説明する。ここではカーナビゲーションシステムにおける音声認識を考える。
【0230】
図36に示すように、静かな環境における音声データ83に、利用環境であると予測した雑音データ(一般的な車種Aの車内雑音データ)1601を重畳して車内雑音10dBでの音声データ1602を作成する。ここでは車種Aの車内雑音データ1601は、事前に市内を車種Aで走行したときに収録したものを利用する。次に、作成した音声データ1602を用いて車内雑音10dBの十分統計量1603をEMアルゴリズムにより計算する。ここでは、音韻ごとにHMMを用いて不特定話者の十分統計量を作成する。ここでは音韻モデルの状態遷移に関する情報1514は、音韻ごとのHMMの状態遷移確率である。次に、図37に示すように、車内雑音10dBの雑音重畳音声データ1602を音声データ(ある話者のある発声データ)ごとに、車内雑音10dBの十分統計量1603に入力し、ビタービアルゴリズムを用いてラベル情報1504を音声データ(ある話者のある発声データ)ごとに作成する。図38にラベル情報1504の一例を示す。ここでは、フレーム番号に対応する音韻名とHMMの状態番号をラベル情報1504とする。
【0231】
ラベル情報蓄積部1502は、ラベル情報1504と音韻モデルの状態遷移に関する情報1514を蓄積する。
【0232】
[十分統計量1509の作成]
次に、十分統計量1509の作成方法について述べる。
【0233】
利用者は、静かな環境における利用者の音声データ1513をあらかじめメモリ1512に記憶しておく。
【0234】
利用者は、適応モデル1511の作成を要求する。
【0235】
十分統計量作成部1506は、メモリ1512に記憶された静かな環境における利用者の音声データ1513を受信する。また、十分統計量作成部1506は、音声認識を利用する環境での雑音データ85を受信する。
【0236】
十分統計量作成部1506は、静かな環境における利用者の音声データ1513を、選択モデル蓄積部1508に蓄積されている選択モデル1510に入力して尤度を計算する。そして、尤度の大きい上位L人(たとえば上位40人)の話者を選択して利用者の音声データに近い話者とする。
【0237】
十分統計量作成部1506は、静かな環境における音声データ83の中から利用者に近い話者の音声データに雑音データ85を重畳し、雑音重畳音声データ86を作成する。音声データ86の作成方法の一例を図31に示す。
【0238】
十分統計量作成部1506は、雑音重畳音声データ86とラベル情報蓄積部1502に蓄積されたラベル情報1504と音韻モデルの状態遷移に関する情報1514とを用いて十分統計量1509を作成する。図39に示すように、雑音重畳音声データ86に対応する音韻名とHMMの状態番号を、ラベル情報1504に記載された雑音重畳音声データ1505の音韻名とHMMの状態番号と同一であるとみなす。同様に、音韻ごとのHMMの状態遷移確率も同一だとみなす。すなわち、HMMの状態番号、状態遷移確率などに関する計算処理を行わない。そして、HMMの同一状態の中で、平均値、分散、混合重みなどの十分統計量の計算を行う。
【0239】
[適応モデル1511の作成]
次に、適応モデル作成部51における適応モデル1511作成の方法について述べる。
【0240】
適応モデル作成部51は、十分統計量作成部1506が作成した十分統計量1509を用いて適応モデル1511を作成する。具体的には以下の統計処理計算(数10〜数12)により適応モデル1511を作成する。適応モデル1511のHMMの各状態における正規分布の平均、分散をそれぞれμ adp(i=1,2,…,Nmix)、v adp(i=1,2,…,Nmix)とする。Nmixは混合分布数である。また、状態遷移確率をaadp[i][j](i,j=1,2,…,Nstate)とする。Nstateは状態数であり、aadp[i][j]は状態iから状態jへの遷移確率を表す。
【0241】
【数10】
Figure 2004004509
【0242】
【数11】
Figure 2004004509
【0243】
【数12】
Figure 2004004509
【0244】
ここで、Nselは、選択された音響モデルの数であり、μ (i=1,2,…,Nmix,j=1,2,…,Nsel)、v (i=1,2,…,Nmix,j=1,2,…,Nsel)はそれぞれのHMMの平均、分散である。Cmix (j=1,2,…,Nsel)、Cstate [i][j](k=1,2,…,Nsel、i,j=1,2,…,Nstate)はそれぞれ、正規分布におけるEMカウント(度数)、状態遷移に関するEMカウントである。
【0245】
適応モデル作成部51は、利用者の次の適応モデル作成の要求に備える。
【0246】
<効果>
以上説明したように第3の実施形態では、ラベル情報1504を用いて十分統計量1509を計算するため、短時間に十分統計量1509が作成でき短時間に適応モデル1511が作成できる。したがって、利用環境がさまざまに変化した場合にすぐに適応モデルが利用できる。
【0247】
また、利用環境に近い雑音重畳音声データ1505を用いてラベル情報1504を作成するため、短時間に精度の高い十分統計量1509が作成できる。したがって、利用環境がさまざまに変化した場合にすぐにより精度の高い適応モデルが利用できる。
【0248】
また、ラベル情報1504と音韻モデルの状態遷移に関する情報1514とを用いて十分統計量1509を計算するため、さらに短時間に十分統計量1509が作成でき短時間に適応モデル1511が作成できる。したがって、利用環境がさまざまに変化した場合にすぐに適応モデルが利用できる。
【0249】
なお、雑音データ85を、利用者が適応モデルの獲得を要求する以前にオフラインで十分統計量作成部1506に入力し、十分統計量1509をオフラインで作成してもよい。
【0250】
雑音データ85を十分統計量作成部1506に入力するタイミングは、十分統計量作成部1506が自動的に決定してもよい。
【0251】
適応モデル1511を作成するタイミングは、適応モデル作成部51が自動的に決定してもよい。
【0252】
選択モデル1510はGaussian Mixture Modelに限らない。
【0253】
メモリ1512に記憶する音声データ1513は、利用環境もしくは利用環境と予測した環境における雑音が重畳していてもよい。
【0254】
予測雑音データ1503として雑音データ85を用いてもよい。
【0255】
(第4の実施形態)
<音声認識用適応モデル作成装置の構成>
図40は、第4の実施形態による適応モデル作成装置の全体構成を示すブロック図である。図40に示す適応モデル作成装置は、選択モデル作成部1507と、選択モデル蓄積部1508と、十分統計量作成部2107と、適応モデル作成部51と、ラベル情報作成部2104と、ラベル情報蓄積部2106と、ラベル情報選択モデル作成部2101と、ラベル情報選択モデル蓄積部2102と、メモリ1512とを備える。選択モデル作成部1507は、利用者の音声データに近い音声データを選択するための選択モデル1510を作成する。選択モデル蓄積部1508は、選択モデル作成部1507が作成した選択モデル1510を蓄積する。ラベル情報作成部2104は、利用環境の雑音であると予測される予測雑音データ1503を静かな環境における音声データ83に予測したSN比で重畳した雑音重畳音声データを用いて、2種類以上のラベル情報2105を作成する。ラベル情報蓄積部2106は、ラベル情報作成部2104が作成した2種類以上のラベル情報2105を蓄積する。ラベル情報選択モデル作成部2101は、利用環境の雑音であると予測される予測雑音データ1503を用いてラベル情報選択モデル2103を作成する。ラベル情報選択モデル蓄積部2102は、ラベル情報選択モデル作成部2101が作成したラベル情報選択モデル2013を蓄積する。十分統計量作成部2107は、選択モデル蓄積部1508が蓄積した選択モデル1510とメモリ1512に記憶した静かな環境における利用者の音声データ1513とを用いて音声データ83の中から利用者の音声データに近い音声データを選択する。また、十分統計量作成部2107は、ラベル情報選択モデル蓄積部2102が蓄積したラベル情報選択モデル2103と利用環境の雑音データ85とを用いて、ラベル情報蓄積部2106に蓄積されているラベル情報2105の中から利用環境に適したラベル情報を選択する。そして十分統計量作成部2107は、選択した音声データに雑音データ85を重畳した音声データと、選択した利用環境に適したラベル情報2105とを用いて十分統計量2108を作成する。適応モデル作成部51は、十分統計量作成部2107が作成した十分統計量2108を用いて適応モデル2109を作成する。
【0256】
<音声認識用適応モデル作成装置の動作>
次に、以上のように構成された適応モデル作成装置の動作について説明する。
【0257】
[選択モデル1510の作成]
はじめに、選択モデル1510の作成方法について述べる。ここでは、選択モデル1510の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。
【0258】
静かな環境において複数話者の音声データ83を収録する。ここでは約300人の音声データを収録する。
【0259】
選択モデル作成部1507は、図35に示したように、音声データ83を用いて、話者ごとに、音韻を区別することなく1状態64混合のGaussian Mixture Modelにより、選択モデル1510を作成する。
【0260】
選択モデル蓄積部1508は、選択モデル作成部1507が作成した選択モデル1510を蓄積する。
【0261】
[ラベル情報2105の作成]
ラベル情報2105の作成方法について述べる。ここでは、ラベル情報2105の作成を、利用者が適応モデルの獲得を要求する以前にオフラインで行う場合について述べる。一例として、音声認識を展示会場で利用する場合について、図41、図42を用いて説明する。
【0262】
利用者の行動履歴から、音声認識を車内、展示会場、家庭内でよく利用することがわかっている。そのため、車内,展示会場,家庭内における一般的な雑音をそれぞれ収録しておく。図41に示すように、静かな環境における音声データ83に、利用環境であると予測した3種類の雑音データ(車内雑音データ1503A、展示会場雑音データ1503B、家庭内雑音データ1503C)を重畳して、車内雑音10dBでの雑音重畳音声データ1505A、展示会場雑音20dBでの雑音重畳音声データ1505B、家庭内雑音20dBでの雑音重畳音声データ1505Cを作成する。次に、作成した雑音重畳音声データを用いて雑音の種類ごとに十分統計量1603A,1603B,1603CをEMアルゴリズムにより計算する。ここでは、音韻ごとにHMMを用いて不特定話者の十分統計量を作成する。次に、図42に示すように、3種類の雑音重畳音声データ1505A,1505b,1505Cを音声データ(ある種類の雑音データのある話者のある発声データ)ごとに十分統計量1603A,1603B,1603Cに入力し、ビタービアルゴリズムを用いてラベル情報2105A,2105B,2105Cを音声データ(ある話者のある発声データ)ごとに作成する。
【0263】
[ラベル情報選択モデル2103の作成]
次に、ラベル情報選択モデル2103の作成方法を図43を用いて説明する。ここでは一例として雑音の種類に対応したGMMを作成する。ラベル情報2105の作成で用いた予測雑音データ1503A,1503B,1503Cを用いてラベル情報選択モデル2103A,2103B,2103Cを作成する。
【0264】
[十分統計量2108の作成]
次に、十分統計量2108の作成方法について述べる。
【0265】
利用者は、静かな環境における利用者の音声データ1513をあらかじめメモリ1512に記憶しておく。
【0266】
利用者は、適応モデル2109の作成を要求する。
【0267】
十分統計量作成部2107は、メモリ1512が記憶した静かな環境における利用者の音声データ1513を受信する。また、十分統計量作成部2107は、音声認識を利用する環境での雑音データ85を受信する。
【0268】
十分統計量作成部2107は、静かな環境における利用者の音声データ1513を、選択モデル蓄積部1508に蓄積された選択モデル1510に入力して尤度を計算する。そして、尤度の大きい上位L人(たとえば上位40人)の話者を選択して利用者の音声データに近い話者とする。
【0269】
十分統計量作成部2107は、静かな環境における音声データ83の中から利用者に近い話者の音声データに雑音データ85を重畳し、雑音重畳音声データ86を作成する。雑音重畳音声データ86の作成方法の一例を図31に示す。
【0270】
十分統計量作成部2107は、蓄積部2102に蓄積されたラベル情報選択モデル2103に雑音データ85を入力して、最も大きい尤度をもつラベル情報選択モデル2103に対応するラベル情報2105をラベル情報蓄積部2106から取り出す。ここでは、利用環境が展示会場であるので展示会場雑音20dBのラベル情報2105Bが取り出される。
【0271】
十分統計量作成部2107は、雑音重畳音声データ86と、ラベル情報蓄積部2106から取り出した展示会場雑音20dBのラベル情報2105Bとを用いて十分統計量2108を作成する。
【0272】
[適応モデル2109の作成]
次に、適応モデル作成部51において適応モデル2109を作成する方法について述べる。
【0273】
適応モデル作成部51は、十分統計量作成部2107が作成した十分統計量2108を用いて適応モデル2109を作成する。具体的には以下の統計処理計算(数13〜数15)により適応モデル2109を作成する。適応モデル2109のHMMの各状態における正規分布の平均、分散をそれぞれμ adp(i=1,2,…,Nmix)、v adp(i=1,2,…,Nmix)とする。Nmixは混合分布数である。また、状態遷移確率をaadp[i][j](i,j=1,2,…,Nstate)とする。Nstateは状態数であり、aadp[i][j]は状態iから状態jへの遷移確率を表す。
【0274】
【数13】
Figure 2004004509
【0275】
【数14】
Figure 2004004509
【0276】
【数15】
Figure 2004004509
【0277】
ここで、Nselは、選択された音響モデルの数であり、μ (i=1,2,…,Nmix,j=1,2,…,Nsel)、v (i=1,2,…,Nmix,j=1,2,…,Nsel)はそれぞれのHMMの平均、分散である。Cmix (j=1,2,…,Nsel)、Cstate [i][j](k=1,2,…,Nsel、i,j=1,2,…,Nstate)はそれぞれ、正規分布におけるEMカウント(度数)、状態遷移に関するEMカウントである。
【0278】
適応モデル作成部51は、利用者の次の適応モデル作成の要求に備える。
【0279】
<効果>
以上説明したように第4の実施形態では、ラベル情報選択モデル2103に基づいて選択した、利用環境に適したラベル情報2105を用いて十分統計量2108を計算するため、さらに精度の高い十分統計量が作成できる。したがって、利用環境がさまざまに変化した場合にすぐにより精度の高い適応モデルが利用できる。
【0280】
なお、雑音データ85を、利用者が適応モデルの獲得を要求する以前にオフラインで十分統計量作成部2107に入力し、十分統計量2108をオフラインで作成してもよい。
【0281】
雑音データ85を十分統計量作成部2107に入力するタイミングは、十分統計量作成部2107が自動的に決定してもよい。
【0282】
適応モデル2109を作成するタイミングは、適応モデル作成部51が自動的に決定してもよい。
【0283】
選択モデル1510はGaussian Mixture Modelに限らない。
【0284】
メモリ1512に記憶する音声データ1513は、利用環境もしくは利用環境と予測した環境における雑音が重畳していてもよい。
【0285】
ラベル情報2105の種類の数とラベル情報選択モデル2103の数は同数であるとは限らない。
【0286】
予測雑音データ1503として雑音データ85を用いてもよい。
【0287】
第2の実施形態による適応モデル作成装置はハードウェアによってもソフトウェア(コンピュータプログラム)によっても実現できる。
【図面の簡単な説明】
【図1】各種の話者適応技術を示す図である。
【図2】「十分統計量を用いた方法」によって適応モデルを作成する手順を示すフローチャートである。
【図3】「十分統計量を用いた方法」によって適応モデルを作成する手順を説明するためのブロック図である。
【図4】十分統計量の作成処理を説明するための図である。
【図5】適応モデルの作成処理を説明するための図である。
【図6】従来技術の「十分統計量を用いた方法」における課題を説明するための図である。
【図7】第1の実施形態による適応モデル作成装置の構成を示すブロック図である。
【図8】図7に示したグループ作成部におけるグループ作成処理の流れを示す図である。
【図9】図7に示した十分統計量蓄積部に蓄積される十分統計量を作成する処理の流れを示す図である。
【図10】図7に示した選択モデル蓄積部に蓄積される選択モデルを作成する処理の流れを示す図である。
【図11】図7に示した十分統計量蓄積部に蓄積される十分統計量の一例を示す図である。
【図12】図7に示した選択モデル蓄積部に蓄積される選択モデルの一例を示す図である。
【図13】図7に示した適応モデル作成部において利用者の音声に音響的に近いグループを決定する処理の流れを示す図である。
【図14】図7に示した適応モデル作成部において利用者の音声データに近い十分統計量を決定する処理の流れを示す図である。
【図15】認識実験の結果を示す図である。
【図16】図7に示した十分統計量蓄積部に蓄積される十分統計量の一例を示す図である。
【図17】グループ作成部によって作成されるグループの例を示す図である。
【図18A】具体的な商品イメージおよびグルーピング例を示す図である。
【図18B】具体的な商品イメージおよびグルーピング例を示す図である。
【図19A】具体的な商品イメージおよびグルーピング例を示す図である。
【図19B】具体的な商品イメージおよびグルーピング例を示す図である。
【図20】具体的な商品イメージおよびグルーピング例を示す図である。
【図21A】具体的な商品イメージおよびグルーピング例を示す図である。
【図21B】具体的な商品イメージおよびグルーピング例を示す図である。
【図22】具体的な商品イメージおよびグルーピング例を示す図である。
【図23A】具体的な商品イメージおよびグルーピング例を示す図である。
【図23B】具体的な商品イメージおよびグルーピング例を示す図である。
【図24】具体的な商品イメージおよびグルーピング例を示す図である。
【図25A】具体的な商品イメージおよびグルーピング例を示す図である。
【図25B】具体的な商品イメージおよびグルーピング例を示す図である。
【図26】具体的な商品イメージおよびグルーピング例を示す図である。
【図27】具体的な商品イメージおよびグルーピング例を示す図である。
【図28】具体的な商品イメージおよびグルーピング例を示す図である。
【図29】第2の実施形態による適応モデル作成装置の構成を示すブロック図である。
【図30】図29に示した選択モデル蓄積部に蓄積される選択モデルを作成する処理の流れを示す図である。
【図31】雑音重畳音声データを作成する処理の流れを示す図である。
【図32】図9に示した十分統計量作成部が作成する十分統計量の一例を示す図である。
【図33】第2の実施形態による適応モデル作成装置を実際の製品に適用したイメージを示す図である。
【図34】第3の実施形態による適応モデル作成装置の構成を示すブロック図である。
【図35】選択モデル蓄積部に蓄積される選択モデルを作成する処理の流れを示す図である。
【図36】ラベル情報を作成する処理の流れを示す図である。
【図37】ラベル情報を作成する処理の流れを示す図である。
【図38】ラベル情報蓄積部に蓄積されるラベル情報の一例を示す図である。
【図39】十分統計量を作成する処理の流れを示す図である。
【図40】第4の実施形態による適応モデル作成装置の構成を示すブロック図である。
【図41】ラベル情報を作成する処理の流れを示す図である。
【図42】ラベル情報を作成する処理の流れを示す図である。
【図43】ラベル情報選択モデルを作成する処理の流れを示す図である。

Claims (19)

  1. 音声認識に用いられる音響モデルを作成する方法であって、
    雑音が重畳された音声データを音響的な近さに基づいてグループ化するステップ(a)と、
    前記ステップ(a)によって得られた各グループについて、当該グループに含まれる音声データを用いて十分統計量を作成するステップ(b)と、
    音声認識を利用する人(利用者)の音声データに音響的に近いグループを前記ステップ(a)によって得られたグループの中から選択するステップ(c)と、
    前記ステップ(c)によって選択されたグループについての十分統計量の中から前記利用者の音声データに音響的に近い十分統計量を選択するステップ(d)と、
    前記ステップ(d)によって選択された十分統計量を用いて音響モデルを作成するステップ(e)とを備える
    ことを特徴とする方法。
  2. 請求項1において、
    前記ステップ(a)および(b)は、前記利用者が音声認識を利用する時点よりも前にオフラインで行われる
    ことを特徴とする方法。
  3. 請求項1において、
    前記ステップ(a)では、前記雑音の種類に基づいてグループ化する
    ことを特徴とする方法。
  4. 請求項1において、
    前記ステップ(a)では、前記雑音が重畳された音声データのSN比に基づいてグループ化する
    ことを特徴とする方法。
  5. 請求項1において、
    前記ステップ(a)では、音響的に近い話者ごとにグループ化する
    ことを特徴とする方法。
  6. 請求項1において、
    前記ステップ(b)では、話者ごとに十分統計量を作成する
    ことを特徴とする方法。
  7. 請求項6において、
    前記ステップ(b)では、話者の声の調子ごとに十分統計量を作成する
    ことを特徴とする方法。
  8. 請求項1において、
    前記ステップ(b)では、前記雑音の種類ごとに十分統計量を作成する
    ことを特徴とする方法。
  9. 請求項1において、
    前記ステップ(b)では、前記各グループに含まれる音声データのS/N比ごとに十分統計量を作成する
    ことを特徴とする方法。
  10. 音声認識に用いられる音響モデルを作成する方法であって、
    複数の話者による複数の音声データの中から、音声認識を利用する人(利用者)の音声データに音響的に近い音声データを選択するステップ(a)と、
    前記ステップ(a)によって選択された音声データに、音声認識が利用される環境における雑音を重畳するステップ(b)と、
    前記ステップ(b)によって雑音が重畳された音声データを用いて十分統計量を作成するステップ(c)と、
    前記ステップ(c)によって作成された十分統計量を用いて音響モデルを作成するステップ(d)とを備える
    ことを特徴とする方法。
  11. 請求項10において、
    前記複数の話者による複数の音声データに、音声認識が利用されるであろうと予測される環境における雑音を重畳するステップ(e)と、
    前記ステップ(e)によって雑音が重畳された音声データについてのラベル情報を作成するステップ(f)とをさらに備え、
    前記ステップ(c)では、
    前記ステップ(b)によって雑音が重畳された音声データと、前記ステップ(f)において作成されたラベル情報のうち前記ステップ(a)によって選択された音声データについてのラベル情報とを用いて十分統計量を作成する
    ことを特徴とする方法。
  12. 請求項11において、
    前記ステップ(f)ではさらに、
    前記ステップ(e)によって雑音が重畳された音声データについての音響モデルの状態遷移に関する情報を作成し、
    前記ステップ(c)では、
    前記ステップ(f)において作成された音響モデルの状態遷移に関する情報のうち前記ステップ(a)によって選択された音声データについての音響モデルの状態遷移に関する情報をさらに用いて十分統計量を作成する
    ことを特徴とする方法。
  13. 請求項11において、
    前記ステップ(e)では、
    複数種類の雑音の各々を前記複数の話者による複数の音声データに重畳し、
    前記ステップ(f)では、前記複数種類の雑音の各々についてラベル情報を作成し、
    前記ステップ(c)では、
    前記ステップ(a)によって選択された音声データについての複数のラベル情報の中から、音声認識が利用される環境に適したラベル情報を選択し、選択したラベル情報を用いて十分統計量を作成する
    ことを特徴とする方法。
  14. 音声認識に用いられる音響モデルを作成する装置であって、
    雑音が重畳された音声データを音響的な近さに基づいてグループ化することによって得られた複数のグループの各々について当該グループに含まれる音声データを用いて作成された十分統計量を蓄積する蓄積部と、
    音声認識を利用する人(利用者)の音声データに音響的に近いグループを前記複数のグループの中から選択する第1の選択部と、
    前記第1の選択部によって選択されたグループについての十分統計量の中から前記利用者の音声データに音響的に近い十分統計量を選択する第2の選択部と、
    前記第2の選択部によって選択された十分統計量を用いて音響モデルを作成するモデル作成部とを備える
    ことを特徴とする装置。
  15. 請求項14において、
    雑音が重畳された音声データを音響的な近さに基づいてグループ化するグループ作成部と、
    前記グループ作成部によって得られた各グループについて当該グループに含まれる音声データを用いて十分統計量を作成する十分統計量作成部とをさらに備え、
    前記蓄積部は、
    前記十分統計量作成部によって作成された十分統計量を蓄積する
    ことを特徴とする装置。
  16. 音声認識に用いられる音響モデルを作成する装置であって、
    複数の話者による複数の音声データを蓄積する蓄積部と、
    音声認識を利用する人(利用者)の音声データに音響的に近い音声データを前記蓄積部に蓄積された音声データの中から選択する選択部と、
    前記選択部によって選択された音声データに、音声認識が利用される環境における雑音を重畳する雑音重畳部と、
    前記雑音重畳部によって雑音が重畳された音声データを用いて十分統計量を作成する十分統計量作成部と、
    前記十分統計量作成部によって作成された十分統計量を用いて音響モデルを作成するモデル作成部とを備える
    ことを特徴とする装置。
  17. 音声認識に用いられる音響モデルを作成するためのコンピュータプログラムであって、
    コンピュータを、
    雑音が重畳された音声データを音響的な近さに基づいてグループ化することによって得られた複数のグループの各々について当該グループに含まれる音声データを用いて作成された十分統計量を蓄積する手段(a)、
    音声認識を利用する人(利用者)の音声データに音響的に近いグループを前記複数のグループの中から選択する手段(b)、
    前記手段(b)によって選択されたグループについての十分統計量の中から前記利用者の音声データに音響的に近い十分統計量を選択する手段(c)、
    前記手段(c)によって選択された十分統計量を用いて音響モデルを作成する手段(d)、
    として機能させるためのプログラム。
  18. 請求項17において、
    前記コンピュータをさらに、
    雑音が重畳された音声データを音響的な近さに基づいてグループ化する手段(e)、
    前記手段(e)によって得られた各グループについて当該グループに含まれる音声データを用いて十分統計量を作成する手段(f)、
    として機能させ、
    前記手段(a)は、
    前記手段(f)によって作成された十分統計量を蓄積する
    ことを特徴とするプログラム。
  19. 音声認識に用いられる音響モデルを作成するためのコンピュータプログラムであって、
    コンピュータを、
    複数の話者による複数の音声データを蓄積する手段(a)、
    音声認識を利用する人(利用者)の音声データに音響的に近い音声データを前記手段(a)に蓄積された音声データの中から選択する手段(b)、
    前記手段(b)によって選択された音声データに、音声認識が利用される環境における雑音を重畳する手段(c)、
    前記手段(c)によって雑音が重畳された音声データを用いて十分統計量を作成する手段(d)、
    前記手段(d)によって作成された十分統計量を用いて音響モデルを作成する手段(e)、
    として機能させるためのプログラム。
JP2002367606A 2001-12-20 2002-12-19 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム Expired - Fee Related JP3756879B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002367606A JP3756879B2 (ja) 2001-12-20 2002-12-19 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001387037 2001-12-20
JP2002107628 2002-04-10
JP2002367606A JP3756879B2 (ja) 2001-12-20 2002-12-19 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2004004509A true JP2004004509A (ja) 2004-01-08
JP3756879B2 JP3756879B2 (ja) 2006-03-15

Family

ID=30449074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002367606A Expired - Fee Related JP3756879B2 (ja) 2001-12-20 2002-12-19 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP3756879B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032865A (ja) * 2008-07-30 2010-02-12 Kddi Corp 音声認識装置、音声認識システムおよびプログラム
WO2010109725A1 (ja) * 2009-03-26 2010-09-30 株式会社東芝 音声処理装置、音声処理方法、及び、音声処理プログラム
JP2014109698A (ja) * 2012-12-03 2014-06-12 Nippon Telegr & Teleph Corp <Ntt> 話者適応化装置、話者適応化方法、プログラム
JP2016177233A (ja) * 2015-03-23 2016-10-06 日本電信電話株式会社 学習データ生成装置、方法及びプログラム
JP2021529978A (ja) * 2018-05-10 2021-11-04 エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. 人工知能サービス方法及びそのための装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5229219B2 (ja) 2007-03-27 2013-07-03 日本電気株式会社 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP5626558B2 (ja) * 2007-10-31 2014-11-19 日本電気株式会社 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032865A (ja) * 2008-07-30 2010-02-12 Kddi Corp 音声認識装置、音声認識システムおよびプログラム
WO2010109725A1 (ja) * 2009-03-26 2010-09-30 株式会社東芝 音声処理装置、音声処理方法、及び、音声処理プログラム
JP2014109698A (ja) * 2012-12-03 2014-06-12 Nippon Telegr & Teleph Corp <Ntt> 話者適応化装置、話者適応化方法、プログラム
JP2016177233A (ja) * 2015-03-23 2016-10-06 日本電信電話株式会社 学習データ生成装置、方法及びプログラム
JP2021529978A (ja) * 2018-05-10 2021-11-04 エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. 人工知能サービス方法及びそのための装置

Also Published As

Publication number Publication date
JP3756879B2 (ja) 2006-03-15

Similar Documents

Publication Publication Date Title
EP1326232A2 (en) Method, apparatus and computer program for preparing an acoustic model
JP7317529B2 (ja) サウンドデータを処理するシステム、及びシステムの制御方法
US12125483B1 (en) Determining device groups
US11875820B1 (en) Context driven device arbitration
TWI719304B (zh) 用於說話者驗證的方法、設備及系統
US9558745B2 (en) Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US7603276B2 (en) Standard-model generation for speech recognition using a reference model
US8880402B2 (en) Automatically adapting user guidance in automated speech recognition
US20030050783A1 (en) Terminal device, server device and speech recognition method
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
US20130166279A1 (en) System and method for recognizing a user voice command in noisy environment
EP3676828A1 (en) Context-based device arbitration
JPH11511567A (ja) パターン認識
JP2009532744A (ja) 音声認識システムにモデルを適合させるための方法およびシステム
CN116583899A (zh) 用户语音简档管理
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
JP3756879B2 (ja) 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム
JP2003177790A (ja) 端末装置、サーバ装置および音声認識方法
JP7274404B2 (ja) 情報提供装置、情報提供方法、およびプログラム
JP2012168296A (ja) 音声による抑圧状態検出装置およびプログラム
EP2541544A1 (en) Voice sample tagging
JP2021047507A (ja) 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム
JP2003177788A (ja) 音声対話システムおよびその方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051222

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3756879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100106

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110106

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120106

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130106

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130106

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees