JP2002082690A

JP2002082690A - 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体

Info

Publication number: JP2002082690A
Application number: JP2000268900A
Authority: JP
Inventors: Katsutoshi Ofu; 克年大附; Takaaki Hori; 貴明堀; Shoichi Matsunaga; 昭一松永; Takeshi Kawabata; 豪川端
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2000-09-05
Filing date: 2000-09-05
Publication date: 2002-03-22
Anticipated expiration: 2020-09-05
Also published as: JP3628245B2

Abstract

(57)【要約】【課題】認識タスク（発声内容）に対し、高精度な記
号連鎖確率（言語モデル）を生成できる。【解決手段】認識タスク用テキストデータベース１５
０の他に複数の一般用テキストデータベース１６０−１
〜１６０−Ｎを用い、ＤＢ１５０の記号連鎖確率Ｐ_Tを
求め、Ｐ_Tを用いて各一般用ＤＢ１６０−ｎ（ｎ＝１，
２，…,Ｎ）のテストセットパープレキシティＰＰ_nを
求め、ＰＰ_nが小さい程、そのＤＢ１６０−ｎに大きな
重みＷ_n（０＜Ｗ_n＜１）を与え、ＤＢ１５０とＤＢ１
６０−１〜１６０−Ｎとから記号連鎖確率を求める。そ
の際に例えばある単語Ａの出現回数を求める場合にＤＢ
１６０−１〜１６０−Ｎの各出現回数にそれぞれＷ₁〜
Ｗ_nを乗算し、これらの値とＤＢ１５０の出現回数との
和をＡの出現回数とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、人が発声した文
章などの音声を入力信号とし、その音声を音響モデルお
よび記号連鎖確率（言語モデル）を用いて認識し、その
結果を記号列として出力する音声認識方法、この方法に
用いられる言語モデルの生成方法及びこれらのプログラ
ム記録媒体に関するものである。

【０００２】

【従来の技術】音声入力を音声認識により記号列（単語
列）に変換する場合、大規模なテキストデータベースか
ら記号（単語）の出現連鎖に関する記号連鎖確率（言語
モデル）を生成し、それを利用することで音声認識性能
を向上させる手法が従来から知られている。しかし、認
識タスク（発声内容）が、記号連鎖確率の生成に用いた
大規模なテキストデータベースのタスクと異なったりす
る場合には有効性が低かった。

【０００３】そこで、このような問題点を解決するた
め、特開平４−２９１３９９号公報に示すように、認識
タスクに類似したテキストデータベースから作成した学
習用記号連鎖確率を用いて、大規模なテキストデータベ
ースから生成した記号連鎖確率を適応化し、この適応化
された記号連鎖確率を利用して音声認識を行うようにし
た技術も従来から提案されている。

【０００４】

【発明が解決しようとする課題】上述した適応された記
号連鎖確率を用いる従来の技術は、大規模なテキストデ
ータベースから生成した記号連鎖確率のみを用いる技術
に比較して、高い認識性能を実現できるが、大規模なテ
キストデータベースから生成した記号連鎖確率には、認
識タスクとはかけ離れたデータの情報も含まれているた
め、記号連鎖によっては適応化した確率値の推定が不安
定になるという問題があった。また、適応化した記号連
鎖確率は、大規模なテキストデータベースと認識タスク
に類似したテキストデータベースのすべての情報を保持
するため記憶容量が大きいという問題があった。

【０００５】そこで、この発明の一つの目的は、大規模
テキストデータベースの中で認識タスクにより類似して
いるテキストにより大きな重みを付けることにより、高
精度な記号連鎖確率を生成し、それを認識に用いること
により認識性能を向上することができる言語モデルの生
成方法を提供することにある。また、認識タスクと類似
度の低いデータを排除する（重みを０とする）ことによ
り、保持する情報を削減して、記憶容量の小さな記号連
鎖確率を提供することにある。

【０００６】

【課題を解決するための手段】この発明の言語モデル生
成方法によれば、認識対象のタスク（発声内容）に関す
るテキストデータを格納した認識タスク用テキストデー
タベースと、認識対象タスクとは直接関係しない一般的
な複数のテキストデータベースとを用い、認識タスク用
テキストデータベースに対する各一般用テキストデータ
ベースの関連（類似性）を示す重みを求め、これら認識
タスク用、また一般用テキストデータベースを用い、注
目する記号（単語）についてそれが属するデータベース
の重みを与えて記号連鎖確率を生成する。

【０００７】各一般用テキストデータベースの重みを求
めるには、認識タスク用テキストデータベースのテキス
トデータから得られる情報に基づいて、各一般用テキス
トデータベースのテキストデータのそれぞれ類似性を検
証し、認識タスク用テキストデータベースとの類似度の
大きい一般用テキストデータベースに大きな重みを与え
る。認識タスク用テキストデータベースと一般用テキス
トデータベースの類似度の検証には、認識タスク用テキ
ストデータベース中のテキストデータより生成した記号
連鎖確率を、各一般用テキストデータベースのテキスト
データに対して与えた際のパープレキシティ（エントロ
ピー）、または各一般用テキストデータベースについて
その中にそれぞれ認識タスク用テキストデータベース中
の単語が含まれない率（未知語率）をそれぞれ求め、あ
るいはこれらパープレキシティおよび未知語率の組み合
わせを用いる。また認識タスク用テキストデータベース
の重みＷ_Tを決定する場合は、認識タスク用テキストデ
ータベースのデータ量と複数の一般用テキストデータベ
ースのデータ量との比に基づく値を用いる。この重みＷ
_Tは上記パープレキシティおよび未知語率に基づく値と
組み合わせて用いてもよい。

【０００８】

【発明の実施の形態】この発明の実施の形態について図
面を参照して詳細に説明する。図１にこの発明による音
声認識方法の一実施例が適用される音声認識装置の構成
例を示す。音声認識部１１０と、記号連鎖確率（言語モ
デル）データベース１２０と、音声標準パタンデータベ
ース１３０と、認識タスク用記号連鎖確率生成部１４０
と、認識タスク用テキストデータベース１５０と、複数
の一般用テキストデータベース１６０−１〜１６０−Ｎ
とを備えている。

【０００９】音声標準パタンデータベース１３０は、予
め分析された音声の標準パタンを複数保持している。認
識タスク用データベース１５０には認識対象タスク（発
声内容）と関連したテキストデータが格納される。入力
音声が例えばニュース番組の発語音声の場合、認識タス
クのテキストデータとして、多数のニュースの書き起こ
しに用いた各単語が認識タスク用テキストデータベース
１５０に格納される。一般用データベース１６０−１〜
１６０−Ｎは認識対象タスクと直接関係のない新聞記事
データベース、小説データベースなどが用いられ、例え
ば新聞記事、ホームページ、ネットニューズなどから多
数の単語を収集し、その収集した際にその単語を含んで
構成されていた一文ごとにそれぞれ１つの一般用テキス
トデータベース１６０−ｎ（ｎ＝１，２，…,Ｎ）を構
成してもよい。

【００１０】認識タスク用記号連鎖確率生成部１４０
は、この発明による言語モデル生成方法を実行するもの
であって、認識処理に先立って、認識タスク用テキスト
データベース１５０と、一般用テキストデータベース１
６０−１〜１６０−Ｎとから、認識タスクに対する類似
度の大きいテキストデータを含む一般用テキストデータ
ベースにより大きな重みを付けて、これら認識タスク用
テキストデータベースと複数の一般用テキストデータベ
ースを用いて、認識タスクに対して高精度な絞り込みを
することが可能な記号連鎖確率（言語モデル）を生成し
てそれを記号連鎖確率データベース１２０に格納する。
音声認識部１１０は、入力音声に対して、記号連鎖確率
データベース１２０の記号連鎖確率および音声標準パタ
ンデータベース１３０の音声標準パタンなどから得られ
る情報に基づいて記号列候補の絞り込みを行い、認識結
果である記号列を出力する。

【００１１】図２に、認識タスク用記号連鎖確率生成部
１４０の構成例を示しこの図２を参照してこの発明によ
る言語モデル、つまり記号連鎖確率の生成方法の実施例
を説明する。重み決定部２１０では、認識タスク用デー
タベース１５０中の各認識タスクのテキストデータと各
一般用テキストデータベース１６０−ｎの各テキストデ
ータとを入力し、認識タスクのテキストデータと各一般
用テキストデータベース１６０−ｎのテキストデータと
の類似度からその一般用テキストデータベース１６０−
ｎに対する重みＷ_nを決定する。また、各一般用テキス
トデータベースの重みＷ_iに基づいて認識タスク用テキ
ストデータベース１５０の重みＷ_Tを決定する。これら
重みＷ_n,Ｗ_Tを決定する具体的手法は後で説明する。
認識タスク用テキストデータベース１５０に重みＷ_Tを
複数の一般用テキストデータベース１６０−１〜１６０
−Ｎに重みＷ₁〜Ｗ_Nをそれぞれ与える。

【００１２】記号連鎖確率生成部２２０では、重み決定
部２１０が出力した重み付きの認識タスク用テキストデ
ータベース１５０および重み付きの複数の一般用テキス
トデータベース１６０−１〜１６０−Ｎの各テキストデ
ータを入力し、記号連鎖確率（言語モデル）を生成して
記号連鎖確率データベース１２０に格納する。この記号
連鎖確率、つまり、ユニグラム、バイグラム、トライグ
ラム、一般的にはＭグラム（Ｍは１以上の整数）の生成
の基本的な手法は従来の方法と同様であるが、認識タス
ク用テキストデータベース１５０と複数の一般的テキス
トデータベース１６０−１〜１６０−Ｎを１つのテキス
トデータベースとして、このテキストデータベースから
記号連鎖確率を生成するが、その際に、各記号（単語）
について、それが属するテキストデータベースの重みを
考慮する。例えば単語Ａについて認識タスク用テキスト
データベース１５０における出現回数をＣ_T（Ａ）、一
般用テキストデータベース１６０−１〜１６０−Ｎにお
ける各出現回数をＣ₁（Ａ）〜Ｃ_N（Ａ）とすると、これ
らに対し、そのデータベースの重みを掛算して加算し、Ｃ（Ａ）＝Ｗ_T・Ｃ_T（Ａ）＋Ｗ₁・Ｃ₁（Ａ）＋Ｗ₂・
Ｃ₂（Ａ）＋…＋Ｗ_N・Ｃ_N（Ａ）を単語Ａの出現回数と
し、同様にして他の単語の出現回数を求める。単語Ａの
単語単体の出現確率（ユニグラム）は、単語Ａの出現回
数Ｃ（Ａ）をすべての単語の出現回数ΣＣ（ｋ）で割っ
たＰ（Ａ）＝Ｃ（Ａ）／ΣＣ（ｋ）となり、同様にして他の単語の出現確率を求めて記号連
鎖確率データベース１２０に格納する。

【００１３】あるいは、例えば単語Ａの次に単語Ｂが生
じる確率であるバイグラムの場合、単語Ａに続いて単語
Ｂが出現する回数について認識タスク用テキストデータ
ベース１５０における出現回数をＣ_T（Ａ，Ｂ）、一般
用テキストデータベース１６０−１〜１６０−Ｎにおけ
る各出現回数をＣ₁（Ａ，Ｂ）〜Ｃ_N（Ａ，Ｂ）とする
と、これらについてそれぞれのデータベースの重みを掛
算したものの和Ｃ（Ａ，Ｂ）＝Ｗ_T・Ｃ_T（Ａ，Ｂ）＋Ｗ₁・Ｃ
₁（Ａ，Ｂ）＋Ｗ₂・Ｃ₂（Ａ，Ｂ）＋…＋Ｗ_N・Ｃ_N
（Ａ，Ｂ）を単語連鎖Ａ，Ｂの出現回数とし、それを単語Ａの出現
回数Ｃ（Ａ）で割ったＰ（Ｂ｜Ａ）＝Ｃ（Ａ，Ｂ）／Ｃ
（Ａ）を単語Ａの次に単語Ｂが生じるバイグラム確率と
して同様にして他の単語連鎖の確率を求めて記号確率デ
ータベース１２０に格納してもよい。

【００１４】次に、図２に示した認識タスク用記号連鎖
確率生成部１４０中の重み決定部２１０における処理手
順例を図３に示し、以下に動作を説明するｎ＝１に初期
化し（Ｓ１）、認識タスク用テキストデータベース１５
０のテキストデータと一般用テキストデータベース１６
０−ｎのテキストデータとから一般用テキストデータベ
ース１６０−ｎに対する重みｗ_nを決定する（Ｓ２）、
ｎ＝Ｎかを調べ（Ｓ３）、ｎ＝Ｎでなければｎを＋１し
てステップＳ２に戻る（Ｓ４）。ｎ＝Ｎであれば、つま
りすべての一般用テキストデータベース１６０−１〜１
６０−Ｎについて重みＷ₁〜Ｗ_Nを決定したら、認識タ
スク用テキストデータベース１５０に対する重みＷ_Tを
決定する（Ｓ５）。

【００１５】重みｗ_nの決定の具体例を図４を参照して
説明する。例えば、パープレキシティに基づいて重み付
けをする場合には、認識タスク用テキストデータベース
１５０のテキストデータを用いて記号連鎖確率Ｐ_Tを記
号連鎖確率生成部４１０で生成しテキストデータベース
重み計算部４２０でその記号連鎖確率Ｐ_Tの一般用テキ
ストデータベース１６０−ｎに対するテストセットパー
プレキシティを計算し、そのパープレキシティの値に基
づいて重みの値Ｗ_nを決める。テストセットパープレキ
シティＰＰは、言語Ｌの情報理論的な意味での単語の平
均分岐数を表し、評価用テキスト集合（単語列、記号
列）に対して適用され、次式で与えられる。

【００１６】ＰＰ＝２^H(L) ここでＨ（Ｌ）＝−Σ_w1（１／ｎ）Ｐ（ｗ₁ ⁿ）logＰ
（ｗ₁ ⁿ）であり、Ｈ（Ｌ）は一単語あたりのエントロピ
ーであり、Ｐ（ｗ₁ ⁿ）は単語列ｗ ₁ ⁿ＝ｗ₁…ｗ_nの生成
確率である。つまり、認識タスク用テキストデータベー
ス１５０を用いて生成した記号連鎖確率Ｐ_Tを用いて、
一般用テキストデータベース１６０−ｎ内のテキストデ
ータについてテストセットパープレキシティＰＰを求め
る。言語パープレキシティが大きいほど、つまり単語の
平均分岐数が多いほど、単語を特定するのが難しく、あ
る記号連鎖確率と評価テキストからテストセットパープ
レキシティＰＰを求めた場合、そのＰＰの値が小さいほ
ど、記号連鎖確率は評価テキストをよく表現できている
ことになる。従って、前記実施例で一般用テキストデー
タベース１６０−ｎについて求めたテストセットパープ
レキシティの値が小さければ、この一般用テキストデー
タベース１６０−ｎは認識タスク用テキストデータベー
ス１５０と似ていることになる。よって一般用テキスト
データベース１６０−ｎに対する重みＷ_nを大きくす
る。

【００１７】また、未知語率に基づいて一般用テキスト
データベースを重み付けをすることもできる。この場合
は図４中に示すように認識タスク用テキストデータベー
ス１５０に存在する（出現する）記号（単語）のリス
ト、即ち記号リストＬ_Tを記号リスト生成部４３０で生
成し、テキストデータベース重み計算部４２０では、一
般用テキストデータベース１６０−ｎに出現する単語
（記号）ののべ数のうち、記号リストＬ_Tに含まれない
記号（単語）が何個あるかという割合（未知語率）を計
算し、その未知語率の値に基づいて一般用テキストデー
タベース１６０−ｎの重みの値Ｗ_nを決める。例えば一
般用テキストデータベース１６０−ｎの全単語数が２０
００で、その中１００単語が記号リストＬ_Tに含まれて
いない未知語であった場合は、その未知語率は（１００
／２０００）×１００＝５００になる。未知語率が小さ
いほど、記号リストＬ_Tと一般用テキストデータベース
１６０−ｎには重複する単語が多く一般用テキストデー
タベース１６０−ｎは認識タスク用データベース１５０
と類似していることになり、重みＷ_nを大きくする。

【００１８】テキストデータベース計算部４２０では、
記号リストＬ_Tおよび記号連鎖確率Ｐ_Tのいずれかを用
いる場合に限らず、これら両者を組み合わせて用いるこ
ともできる。例えば一般用テキストデータベース１６０
−ｎの記号連鎖確率Ｐ_Tを用いたテストセットパープレ
キシティがしきい値より小さく、かつ記号リストＬ_Tに
対する未知語率がしきい値より小さい場合は一般用テキ
ストデータベース１６０−ｎの重みＷ_nを１とし、その
他の場合は重みＷ_nを０とする。なお記号リストＬ_Tの
生成は、後述する実施例では３万文、のべ１００万単語
の認識タスク用テキストデータベース１５０の場合、異
なる単語数は約１０万単語であるが、この１０万単語中
には、認識タスク用データベース１５０中に１回しか出
現しない単語も多く含まれており、それらの単語は統計
的に信頼性が低いことから、出現しなかったこととして
記号リストＬ_Tに含めない場合もあり、前記後述の実験
では記号リストＬ_Tを出現頻度の多い単語から２万単語
までとした。この頻度上位２万語の単語はこのデータベ
ース１５０ののべ１００万単語のうち約９９％を占め
る。

【００１９】次に認識タスク用テキストデータベース１
５０の重みｗ_Tを決定する処理例を図５を参照して説明
する。例えば、認識タスク用テキストデータベース１５
０のデータ量Ｌ_Tをテキストデータ量算出部５１０で求
め、一般用テキストデータベース１６０−１〜１６０−
Ｎの全テキストデータ量Ｃ_Dをテキストデータ量算出部
５２０で求め、これらの比Ｃ_D/Ｃ_Tを重み計算部５３
０で計算し、その計算結果に基づいて認識タスク用テキ
ストデータベース１５０の重みＷ_Tを与える。一般用テ
キストデータベース１６０−１〜１６０−Ｎの全テキス
トデータ量Ｃ_Dとしてその重みＷ_nを考慮する場合はＣ
_D＝Σ_n=1 ^NＷ_nＣ_nを計算して求める。Ｃ_nは一般用
テキストデータベース１６０−ｎののべ単語数である。

【００２０】上述において、認識タスク用テキストデー
タベース１５０には重みＷ_Tを与えなくてもよい。つま
り一般用テキストデータベース１６０−１〜１６０−Ｎ
の重みＷ₁〜Ｗ_Nを求めて、これを用いて図２中の記号
連鎖確率生成部２２０で記号連鎖確率を前述したように
求めてもよい。この場合はＷ_T＝１とし、Ｗ₁〜Ｗ_Nを
１以下の正数としたとも云える。また逆に、一般用テキ
ストデータベース１６０−１〜１６０−Ｎには重みを与
えず、つまりＷ₁〜Ｗ_Nを全て１とし、認識タスク用テ
キストデータベース１５０に１以上の重みＷ_Tを与え
て、記号連鎖確率生成部２２０で記号連鎖確率を求めて
もよい。

【００２１】上述した言語モデルの生成及び音声認識は
コンピュータによりプログラムを実行させて行うことも
できる。例えば図６に示すように各部がバス６７０に接
続され、メモリ６４０に言語モデル生成プログラムがＣ
Ｄ−ＲＯＭ、ハードディスクなどからあるいは通信回線
を介してしてインストールされてあり、ＣＰＵ６６０が
この言語モデル生成プログラムを実行することにより、
認識タスク用テキストデータベース１５０、一般用テキ
ストデータベース１６０−１〜１６０−Ｎを用いて、図
７に示すように認識タスク用テキストデータベース１５
０の単語から記号連鎖確率Ｐ_T又は記号リストＬ_Tを生
成し（Ｓ１）、その後、各一般用テキストデータベース
１６０−１〜１６０−Ｎのそれぞれについて、重みＷ_n
を順次計算し（Ｓ２）、次に認識タスク用テキストデー
タベース１５０の重みＷ_Tを計算し（Ｓ４）、その後、
これらの重みＷ₁〜Ｗ_N,Ｗ_Tを用いてテキストデータ
ベース１５０と１６０−１〜１６０−Ｎとの単語につい
て記号連鎖確率（言語モデル）を生成して記号連鎖確率
データベース１２０に格納する（Ｓ４）。

【００２２】その後、音声認識を行うが、メモリ６５０
に音声認識プログラムを前述と同様にインストールして
おき、入力部６１０に音声が入力されると、ＣＰＵ６６
０が音声認識プログラムを実行し、記号連鎖確率データ
ベース１２０、音声標準パタンデータベース１３０を参
照して音声認識を行い、その結果の記号列を出力部６３
０から出力する。なお入力部６１０で入力される音声は
例えば線形予測分析されたＬＰＣケプストラム、ＬＰＣ
デルタケプストラム、対数パワーなどの特徴パラメータ
のベクトルデータ時系列とされたものである。記憶部６
２０は言語モデル生成や、音声認識時に一時にデータを
記憶するためなどに用いられる。実施例この発明の効果を確認するために評価実験を行った。評
価用の入力音声データは、ニュース番組の男性アナウン
サーの発話１２９文を用いた。認識タスク用テキストデ
ータベース１５０としては、約１００万単語のニュース
の書き起こしテキストを用いた。一般用テキストデータ
ベース１６０−１〜１６０−Ｎとしては、新聞記事、ホ
ームページ、ネットニューズなどから収集した約１億５
０００万単語のデータベースを用意し、この評価実験で
は、このテキストデータベース中の一文をそれぞれ一つ
の一般用テキストデータベース１６０−１〜１６０−Ｎ
とした。一般用テキストデータベースの重みＷ_nの決定
にはパープレキシティＰＰ _nを用い、一般用テキストデ
ータベース１６０−１〜１６０−Ｎ中でパープレキシテ
ィＰＰ_nがしきい値より低い文が全体の４０％となるよ
うにパープレキシティＰＰ_nのしきい値を設定し、パー
プレキシティＰＰ_nがしきい値より小さい文の一般用テ
キストデータベース１６０−ｎの重みＷ_nを１、しきい
値以上の文の一般用テキストデータベース１６０−ｎの
重みＷ_nを０とした。また、認識タスク用テキストデー
タベース１５０に対する重みＷ_Tは、認識タスク用テキ
ストデータベース１５０のデータ量（単語数）Ｃ_Tと重
み付けした一般用テキストデータベース１６０−１〜１
６０−Ｎのデータ量（単語数）Ｃ_Dとに基づいて、Ｃ_D/
Ｃ_Tとした。

【００２３】評価用音声データの書き起こしテキストに
対する記号連鎖確率のパープレキシティ（単語の平均分
岐数、小さいほど評価テキストに対して高精度な連鎖確
率であるといえる）で評価したところ、認識タスク用テ
キストデータベース１５０のみから生成した記号連鎖確
率の場合はテキストデータ数が少ないため７５と大きな
値になり、認識タスク用テキストデータベース１５０と
大規模テキストデータベース群、つまり一般用テキスト
データベース１６０−１〜１６０−Ｎとから生成した記
号連鎖確率の場合は４２と小さくなったが、この発明の
重み付けを用いて生成した記号連鎖確率の場合は、３６
と更に小さくなった。

【００２４】また、音声認識実験により評価したとこ
ろ、単語誤り率は、認識タスク用テキストデータベース
１５０のみから生成した記号連鎖確率の場合、１４．７
％、認識タスク用テキストデータと一般用テキストデー
タベース１６０−１〜１６０−Ｎとから生成した記号連
鎖確率の場合、１１．６％、この発明の重み付けを用い
て生成した記号連鎖確率の場合は、９．９％となり、認
識率の向上が明確に得られた。

【００２５】また、記号連鎖確率のパラメータ数は、認
識タスク用テキストデータベース１５０と一般用テキス
トデータベース１６０−１〜１６０−Ｎとから生成した
記号連鎖確率の場合、約１０００万であり、この発明の
重み付けを用いて生成した記号連鎖確率の場合は、約４
６０万であり、可成り少なくなった。

【００２６】

【発明の効果】以上述べたようにこの発明によれば下記
の第１および第２の効果を得ることができる。第１の効
果は、一般の大規模データベース群から、認識タスク用
テキストデータに類似したデータに重み付けをすること
により、認識タスクに対して高精度な記号連鎖確率を生
成することができる。

【００２７】第２の効果は、重み付けの際に、認識タス
クに対して類似度の低いデータに対する重みを０にする
ことにより、高精度かつ記憶容量の小さい記号連鎖確率
を生成することができる。

【図面の簡単な説明】

【図１】この発明の音声認識方法が適用される装置の構
成を示すブロック図。

【図２】この発明の言語モデル（記号連鎖確率）生成方
法が適用される生成部の構成を示すブロック図。

【図３】この発明の言語モデル生成方法の処理の流れを
示すフローチャート。

【図４】一般用テキストデータベースの重み決定部の構
成例を示すブロック図。

【図５】認識タスク用テキストデータベースの重み決定
部の構成例を示すブロック図。

【図６】この発明による言語モデル生成方法及び音声認
識方法をコンピュータにより実行される場合の構成例を
示す図。

【図７】この発明による言語モデル生成方法の処理手順
の例を示すフローチャート。

───────────────────────────────────────────────────── フロントページの続き (72)発明者松永昭一東京都千代田区大手町二丁目３番１号日本電信電話株式会社内 (72)発明者川端豪東京都千代田区大手町二丁目３番１号日本電信電話株式会社内Ｆターム(参考） 5D015 HH23

Claims

【特許請求の範囲】

【請求項１】認識対象のタスクに関するテキストデー
タを格納した認識タスク用テキストデータベースと、上
記認識対象タスクと直接関係しない一般的なテキストデ
ータを格納した複数の一般用テキストデータベースとを
用い、上記認識タスク用テキストデータベースに対する上記各
一般用テキストデータベースの関連を示す重みを求め、上記認識タスク用テキストデータベースと上記複数の一
般的なテキストデータベースを用いて、注目する記号
（単語）についてそれが属するデータベースの重みを与
えて、記号連鎖確率（言語モデル）を生成することを特
徴とする言語モデル生成方法。
【請求項２】上記認識タスク用テキストデータベース
を用いて記号連鎖確率を求め、その記号連鎖確率を用い
て各一般用テキストデータベースについて、パープレキ
シティ（エントロピー）に基づいて、上記重みを計算す
ることを特徴とする請求項１記載の言語モデル生成方
法。
【請求項３】上記各一般用テキストデータベースにつ
いて、そのデータベース中の記号（単語）のうち、上記
認識タスク用テキストデータ中に含まれないものの比率
（未知語率）に基づいて、上記重みを計算することを特
徴とする請求項１記載の言語モデル生成方法。
【請求項４】上記認識タスク用テキストデータベース
を用いて記号連鎖確率を求め、その記号連鎖確率を用い
て、各一般用テキストデータベースについてパープレキ
シティ（エントロピー）を求め、上記各一般用テキストデータベースについて、そのデー
タベース中の記号（単語）のうち、上記認識タスク用テ
キストデータ中に含まれないものの比率（未知語率）を
求め、上記各一般用テキストデータベースについて、上記パー
プレキシティと未知語率とから上記重みを求めることを
特徴とする請求項１記載の言語モデル生成方法。
【請求項５】上記認識タスク用テキストデータベース
のテキストデータ量と、上記複数の一般用テキストデー
タベースのテキストデータ量の比に基づいて上記認識タ
スク用テキストデータベースの重みを求めることを特徴
とする請求項１乃至４の何れかに記載の言語モデル生成
方法。
【請求項６】認識対象のタスクに関するテキストデー
タを格納した認識タスク用テキストデータベースと、上
記認識対象タスクと直接関係しない一般的なテキストデ
ータを格納した複数の一般用テキストデータベースとを
用い、上記認識タスク用テキストデータベースに、上記複数の
一般用テキストデータベースよりも大きな重みを与え、上記認識タスク用テキストデータベースと上記複数の一
般的なテキストデータベースの全てを用いて、注目する
記号（単語）について認識タスク用テキストデータベー
スのものにはその重みを与えて記号連鎖確率（言語モデ
ル）を生成することを特徴とする言語モデル生成方法。
【請求項７】上記重みを与えての記号連鎖確率の生成
は、注目記号について、各データベース中の出現回数に
そのデータベースの重みを与え、その合計値を全体のデ
ータベース中の出現回数として記号連鎖確率を生成する
ことを特徴とする請求項１乃至６の何れかに記載の言語
モデル生成方法。
【請求項８】上記重みを与えての記号連鎖確率の生成
は、注目記号について、各データベース中の出現頻度又
は記号連鎖確率にそのデータベースの重みを与え、その
全積算値を全体のデータベース中の出現頻度又は記号連
鎖確率として、記号連鎖確率を求めることを特徴とする
請求項１乃至７の何れかに記載の言語モデル生成方法。
【請求項９】入力音声を音響モデルと記号連鎖確率
（言語モデル）とを用いて認識し、記号（単語）列とし
て出力する音声認識方法において、上記記号連鎖確率として請求項１乃至８の何れかに記載
の方法により生成した言語モデルを用いることを特徴と
する音声認識方法。
【請求項１０】請求項１乃至９の何れかに記載の方法
をコンピュータに実行させるプログラムを記録した記録
媒体。