[go: up one dir, main page]

JP2002082690A - 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 - Google Patents

言語モデル生成方法、音声認識方法及びそのプログラム記録媒体

Info

Publication number
JP2002082690A
JP2002082690A JP2000268900A JP2000268900A JP2002082690A JP 2002082690 A JP2002082690 A JP 2002082690A JP 2000268900 A JP2000268900 A JP 2000268900A JP 2000268900 A JP2000268900 A JP 2000268900A JP 2002082690 A JP2002082690 A JP 2002082690A
Authority
JP
Japan
Prior art keywords
database
text
symbol
weight
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000268900A
Other languages
English (en)
Other versions
JP3628245B2 (ja
Inventor
Katsutoshi Ofu
克年 大附
Takaaki Hori
貴明 堀
Shoichi Matsunaga
昭一 松永
Takeshi Kawabata
豪 川端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000268900A priority Critical patent/JP3628245B2/ja
Publication of JP2002082690A publication Critical patent/JP2002082690A/ja
Application granted granted Critical
Publication of JP3628245B2 publication Critical patent/JP3628245B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識タスク(発声内容)に対し、高精度な記
号連鎖確率(言語モデル)を生成できる。 【解決手段】 認識タスク用テキストデータベース15
0の他に複数の一般用テキストデータベース160−1
〜160−Nを用い、DB150の記号連鎖確率PT
求め、PT を用いて各一般用DB160−n(n=1,
2,…,N)のテストセットパープレキシティPPn
求め、PPn が小さい程、そのDB160−nに大きな
重みWn (0n <1)を与え、DB150とDB1
60−1〜160−Nとから記号連鎖確率を求める。そ
の際に例えばある単語Aの出現回数を求める場合にDB
160−1〜160−Nの各出現回数にそれぞれW1
nを乗算し、これらの値とDB150の出現回数との
和をAの出現回数とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、人が発声した文
章などの音声を入力信号とし、その音声を音響モデルお
よび記号連鎖確率(言語モデル)を用いて認識し、その
結果を記号列として出力する音声認識方法、この方法に
用いられる言語モデルの生成方法及びこれらのプログラ
ム記録媒体に関するものである。
【0002】
【従来の技術】音声入力を音声認識により記号列(単語
列)に変換する場合、大規模なテキストデータベースか
ら記号(単語)の出現連鎖に関する記号連鎖確率(言語
モデル)を生成し、それを利用することで音声認識性能
を向上させる手法が従来から知られている。しかし、認
識タスク(発声内容)が、記号連鎖確率の生成に用いた
大規模なテキストデータベースのタスクと異なったりす
る場合には有効性が低かった。
【0003】そこで、このような問題点を解決するた
め、特開平4−291399号公報に示すように、認識
タスクに類似したテキストデータベースから作成した学
習用記号連鎖確率を用いて、大規模なテキストデータベ
ースから生成した記号連鎖確率を適応化し、この適応化
された記号連鎖確率を利用して音声認識を行うようにし
た技術も従来から提案されている。
【0004】
【発明が解決しようとする課題】上述した適応された記
号連鎖確率を用いる従来の技術は、大規模なテキストデ
ータベースから生成した記号連鎖確率のみを用いる技術
に比較して、高い認識性能を実現できるが、大規模なテ
キストデータベースから生成した記号連鎖確率には、認
識タスクとはかけ離れたデータの情報も含まれているた
め、記号連鎖によっては適応化した確率値の推定が不安
定になるという問題があった。また、適応化した記号連
鎖確率は、大規模なテキストデータベースと認識タスク
に類似したテキストデータベースのすべての情報を保持
するため記憶容量が大きいという問題があった。
【0005】そこで、この発明の一つの目的は、大規模
テキストデータベースの中で認識タスクにより類似して
いるテキストにより大きな重みを付けることにより、高
精度な記号連鎖確率を生成し、それを認識に用いること
により認識性能を向上することができる言語モデルの生
成方法を提供することにある。また、認識タスクと類似
度の低いデータを排除する(重みを0とする)ことによ
り、保持する情報を削減して、記憶容量の小さな記号連
鎖確率を提供することにある。
【0006】
【課題を解決するための手段】この発明の言語モデル生
成方法によれば、認識対象のタスク(発声内容)に関す
るテキストデータを格納した認識タスク用テキストデー
タベースと、認識対象タスクとは直接関係しない一般的
な複数のテキストデータベースとを用い、認識タスク用
テキストデータベースに対する各一般用テキストデータ
ベースの関連(類似性)を示す重みを求め、これら認識
タスク用、また一般用テキストデータベースを用い、注
目する記号(単語)についてそれが属するデータベース
の重みを与えて記号連鎖確率を生成する。
【0007】各一般用テキストデータベースの重みを求
めるには、認識タスク用テキストデータベースのテキス
トデータから得られる情報に基づいて、各一般用テキス
トデータベースのテキストデータのそれぞれ類似性を検
証し、認識タスク用テキストデータベースとの類似度の
大きい一般用テキストデータベースに大きな重みを与え
る。認識タスク用テキストデータベースと一般用テキス
トデータベースの類似度の検証には、認識タスク用テキ
ストデータベース中のテキストデータより生成した記号
連鎖確率を、各一般用テキストデータベースのテキスト
データに対して与えた際のパープレキシティ(エントロ
ピー)、または各一般用テキストデータベースについて
その中にそれぞれ認識タスク用テキストデータベース中
の単語が含まれない率(未知語率)をそれぞれ求め、あ
るいはこれらパープレキシティおよび未知語率の組み合
わせを用いる。また認識タスク用テキストデータベース
の重みWT を決定する場合は、認識タスク用テキストデ
ータベースのデータ量と複数の一般用テキストデータベ
ースのデータ量との比に基づく値を用いる。この重みW
T は上記パープレキシティおよび未知語率に基づく値と
組み合わせて用いてもよい。
【0008】
【発明の実施の形態】この発明の実施の形態について図
面を参照して詳細に説明する。図1にこの発明による音
声認識方法の一実施例が適用される音声認識装置の構成
例を示す。音声認識部110と、記号連鎖確率(言語モ
デル)データベース120と、音声標準パタンデータベ
ース130と、認識タスク用記号連鎖確率生成部140
と、認識タスク用テキストデータベース150と、複数
の一般用テキストデータベース160−1〜160−N
とを備えている。
【0009】音声標準パタンデータベース130は、予
め分析された音声の標準パタンを複数保持している。認
識タスク用データベース150には認識対象タスク(発
声内容)と関連したテキストデータが格納される。入力
音声が例えばニュース番組の発語音声の場合、認識タス
クのテキストデータとして、多数のニュースの書き起こ
しに用いた各単語が認識タスク用テキストデータベース
150に格納される。一般用データベース160−1〜
160−Nは認識対象タスクと直接関係のない新聞記事
データベース、小説データベースなどが用いられ、例え
ば新聞記事、ホームページ、ネットニューズなどから多
数の単語を収集し、その収集した際にその単語を含んで
構成されていた一文ごとにそれぞれ1つの一般用テキス
トデータベース160−n(n=1,2,…,N)を構
成してもよい。
【0010】認識タスク用記号連鎖確率生成部140
は、この発明による言語モデル生成方法を実行するもの
であって、認識処理に先立って、認識タスク用テキスト
データベース150と、一般用テキストデータベース1
60−1〜160−Nとから、認識タスクに対する類似
度の大きいテキストデータを含む一般用テキストデータ
ベースにより大きな重みを付けて、これら認識タスク用
テキストデータベースと複数の一般用テキストデータベ
ースを用いて、認識タスクに対して高精度な絞り込みを
することが可能な記号連鎖確率(言語モデル)を生成し
てそれを記号連鎖確率データベース120に格納する。
音声認識部110は、入力音声に対して、記号連鎖確率
データベース120の記号連鎖確率および音声標準パタ
ンデータベース130の音声標準パタンなどから得られ
る情報に基づいて記号列候補の絞り込みを行い、認識結
果である記号列を出力する。
【0011】図2に、認識タスク用記号連鎖確率生成部
140の構成例を示しこの図2を参照してこの発明によ
る言語モデル、つまり記号連鎖確率の生成方法の実施例
を説明する。重み決定部210では、認識タスク用デー
タベース150中の各認識タスクのテキストデータと各
一般用テキストデータベース160−nの各テキストデ
ータとを入力し、認識タスクのテキストデータと各一般
用テキストデータベース160−nのテキストデータと
の類似度からその一般用テキストデータベース160−
nに対する重みWn を決定する。また、各一般用テキス
トデータベースの重みWi に基づいて認識タスク用テキ
ストデータベース150の重みWT を決定する。これら
重みWn ,WT を決定する具体的手法は後で説明する。
認識タスク用テキストデータベース150に重みWT
複数の一般用テキストデータベース160−1〜160
−Nに重みW1 〜WN をそれぞれ与える。
【0012】記号連鎖確率生成部220では、重み決定
部210が出力した重み付きの認識タスク用テキストデ
ータベース150および重み付きの複数の一般用テキス
トデータベース160−1〜160−Nの各テキストデ
ータを入力し、記号連鎖確率(言語モデル)を生成して
記号連鎖確率データベース120に格納する。この記号
連鎖確率、つまり、ユニグラム、バイグラム、トライグ
ラム、一般的にはMグラム(Mは1以上の整数)の生成
の基本的な手法は従来の方法と同様であるが、認識タス
ク用テキストデータベース150と複数の一般的テキス
トデータベース160−1〜160−Nを1つのテキス
トデータベースとして、このテキストデータベースから
記号連鎖確率を生成するが、その際に、各記号(単語)
について、それが属するテキストデータベースの重みを
考慮する。例えば単語Aについて認識タスク用テキスト
データベース150における出現回数をCT(A)、一
般用テキストデータベース160−1〜160−Nにお
ける各出現回数をC1(A)〜CN(A)とすると、これ
らに対し、そのデータベースの重みを掛算して加算し、 C(A)=WT ・CT(A)+W1 ・C1(A)+W2
2(A)+…+WN ・CN(A)を単語Aの出現回数と
し、同様にして他の単語の出現回数を求める。単語Aの
単語単体の出現確率(ユニグラム)は、単語Aの出現回
数C(A)をすべての単語の出現回数ΣC(k)で割っ
た P(A)=C(A)/ΣC(k) となり、同様にして他の単語の出現確率を求めて記号連
鎖確率データベース120に格納する。
【0013】あるいは、例えば単語Aの次に単語Bが生
じる確率であるバイグラムの場合、単語Aに続いて単語
Bが出現する回数について認識タスク用テキストデータ
ベース150における出現回数をCT (A,B)、一般
用テキストデータベース160−1〜160−Nにおけ
る各出現回数をC1 (A,B)〜CN(A,B)とする
と、これらについてそれぞれのデータベースの重みを掛
算したものの和 C(A,B)=WT ・CT (A,B)+W1 ・C
1 (A,B)+W2 ・C2 (A,B)+…+WN ・CN
(A,B) を単語連鎖A,Bの出現回数とし、それを単語Aの出現
回数C(A)で割ったP(B|A)=C(A,B)/C
(A)を単語Aの次に単語Bが生じるバイグラム確率と
して同様にして他の単語連鎖の確率を求めて記号確率デ
ータベース120に格納してもよい。
【0014】次に、図2に示した認識タスク用記号連鎖
確率生成部140中の重み決定部210における処理手
順例を図3に示し、以下に動作を説明するn=1に初期
化し(S1)、認識タスク用テキストデータベース15
0のテキストデータと一般用テキストデータベース16
0−nのテキストデータとから一般用テキストデータベ
ース160−nに対する重みwn を決定する(S2)、
n=Nかを調べ(S3)、n=Nでなければnを+1し
てステップS2に戻る(S4)。n=Nであれば、つま
りすべての一般用テキストデータベース160−1〜1
60−Nについて重みW1 〜WN を決定したら、認識タ
スク用テキストデータベース150に対する重みWT
決定する(S5)。
【0015】重みwn の決定の具体例を図4を参照して
説明する。例えば、パープレキシティに基づいて重み付
けをする場合には、認識タスク用テキストデータベース
150のテキストデータを用いて記号連鎖確率PT を記
号連鎖確率生成部410で生成しテキストデータベース
重み計算部420でその記号連鎖確率PT の一般用テキ
ストデータベース160−nに対するテストセットパー
プレキシティを計算し、そのパープレキシティの値に基
づいて重みの値Wn を決める。テストセットパープレキ
シティPPは、言語Lの情報理論的な意味での単語の平
均分岐数を表し、評価用テキスト集合(単語列、記号
列)に対して適用され、次式で与えられる。
【0016】PP=2H(L) ここでH(L)=−Σw1(1/n)P(w1 n)logP
(w1 n)であり、H(L)は一単語あたりのエントロピ
ーであり、P(w1 n)は単語列w 1 n=w1 …wn の生成
確率である。つまり、認識タスク用テキストデータベー
ス150を用いて生成した記号連鎖確率PT を用いて、
一般用テキストデータベース160−n内のテキストデ
ータについてテストセットパープレキシティPPを求め
る。言語パープレキシティが大きいほど、つまり単語の
平均分岐数が多いほど、単語を特定するのが難しく、あ
る記号連鎖確率と評価テキストからテストセットパープ
レキシティPPを求めた場合、そのPPの値が小さいほ
ど、記号連鎖確率は評価テキストをよく表現できている
ことになる。従って、前記実施例で一般用テキストデー
タベース160−nについて求めたテストセットパープ
レキシティの値が小さければ、この一般用テキストデー
タベース160−nは認識タスク用テキストデータベー
ス150と似ていることになる。よって一般用テキスト
データベース160−nに対する重みWn を大きくす
る。
【0017】また、未知語率に基づいて一般用テキスト
データベースを重み付けをすることもできる。この場合
は図4中に示すように認識タスク用テキストデータベー
ス150に存在する(出現する)記号(単語)のリス
ト、即ち記号リストLT を記号リスト生成部430で生
成し、テキストデータベース重み計算部420では、一
般用テキストデータベース160−nに出現する単語
(記号)ののべ数のうち、記号リストLT に含まれない
記号(単語)が何個あるかという割合(未知語率)を計
算し、その未知語率の値に基づいて一般用テキストデー
タベース160−nの重みの値Wn を決める。例えば一
般用テキストデータベース160−nの全単語数が20
00で、その中100単語が記号リストLT に含まれて
いない未知語であった場合は、その未知語率は(100
/2000)×100=500になる。未知語率が小さ
いほど、記号リストLT と一般用テキストデータベース
160−nには重複する単語が多く一般用テキストデー
タベース160−nは認識タスク用データベース150
と類似していることになり、重みWn を大きくする。
【0018】テキストデータベース計算部420では、
記号リストLT および記号連鎖確率PT のいずれかを用
いる場合に限らず、これら両者を組み合わせて用いるこ
ともできる。例えば一般用テキストデータベース160
−nの記号連鎖確率PT を用いたテストセットパープレ
キシティがしきい値より小さく、かつ記号リストLT
対する未知語率がしきい値より小さい場合は一般用テキ
ストデータベース160−nの重みWn を1とし、その
他の場合は重みWnを0とする。なお記号リストLT
生成は、後述する実施例では3万文、のべ100万単語
の認識タスク用テキストデータベース150の場合、異
なる単語数は約10万単語であるが、この10万単語中
には、認識タスク用データベース150中に1回しか出
現しない単語も多く含まれており、それらの単語は統計
的に信頼性が低いことから、出現しなかったこととして
記号リストLT に含めない場合もあり、前記後述の実験
では記号リストLT を出現頻度の多い単語から2万単語
までとした。この頻度上位2万語の単語はこのデータベ
ース150ののべ100万単語のうち約99%を占め
る。
【0019】次に認識タスク用テキストデータベース1
50の重みwT を決定する処理例を図5を参照して説明
する。例えば、認識タスク用テキストデータベース15
0のデータ量LT をテキストデータ量算出部510で求
め、一般用テキストデータベース160−1〜160−
Nの全テキストデータ量CD をテキストデータ量算出部
520で求め、これらの比CD /CT を重み計算部53
0で計算し、その計算結果に基づいて認識タスク用テキ
ストデータベース150の重みWT を与える。一般用テ
キストデータベース160−1〜160−Nの全テキス
トデータ量CD としてその重みWn を考慮する場合はC
D =Σn=1 N n n を計算して求める。Cn は一般用
テキストデータベース160−nののべ単語数である。
【0020】上述において、認識タスク用テキストデー
タベース150には重みWT を与えなくてもよい。つま
り一般用テキストデータベース160−1〜160−N
の重みW1 〜WN を求めて、これを用いて図2中の記号
連鎖確率生成部220で記号連鎖確率を前述したように
求めてもよい。この場合はWT =1とし、W1 〜WN
1以下の正数としたとも云える。また逆に、一般用テキ
ストデータベース160−1〜160−Nには重みを与
えず、つまりW1 〜WN を全て1とし、認識タスク用テ
キストデータベース150に1以上の重みWT を与え
て、記号連鎖確率生成部220で記号連鎖確率を求めて
もよい。
【0021】上述した言語モデルの生成及び音声認識は
コンピュータによりプログラムを実行させて行うことも
できる。例えば図6に示すように各部がバス670に接
続され、メモリ640に言語モデル生成プログラムがC
D−ROM、ハードディスクなどからあるいは通信回線
を介してしてインストールされてあり、CPU660が
この言語モデル生成プログラムを実行することにより、
認識タスク用テキストデータベース150、一般用テキ
ストデータベース160−1〜160−Nを用いて、図
7に示すように認識タスク用テキストデータベース15
0の単語から記号連鎖確率PT 又は記号リストLT を生
成し(S1)、その後、各一般用テキストデータベース
160−1〜160−Nのそれぞれについて、重みWn
を順次計算し(S2)、次に認識タスク用テキストデー
タベース150の重みWT を計算し(S4)、その後、
これらの重みW1 〜WN ,WT を用いてテキストデータ
ベース150と160−1〜160−Nとの単語につい
て記号連鎖確率(言語モデル)を生成して記号連鎖確率
データベース120に格納する(S4)。
【0022】その後、音声認識を行うが、メモリ650
に音声認識プログラムを前述と同様にインストールして
おき、入力部610に音声が入力されると、CPU66
0が音声認識プログラムを実行し、記号連鎖確率データ
ベース120、音声標準パタンデータベース130を参
照して音声認識を行い、その結果の記号列を出力部63
0から出力する。なお入力部610で入力される音声は
例えば線形予測分析されたLPCケプストラム、LPC
デルタケプストラム、対数パワーなどの特徴パラメータ
のベクトルデータ時系列とされたものである。記憶部6
20は言語モデル生成や、音声認識時に一時にデータを
記憶するためなどに用いられる。実施例 この発明の効果を確認するために評価実験を行った。評
価用の入力音声データは、ニュース番組の男性アナウン
サーの発話129文を用いた。認識タスク用テキストデ
ータベース150としては、約100万単語のニュース
の書き起こしテキストを用いた。一般用テキストデータ
ベース160−1〜160−Nとしては、新聞記事、ホ
ームページ、ネットニューズなどから収集した約1億5
000万単語のデータベースを用意し、この評価実験で
は、このテキストデータベース中の一文をそれぞれ一つ
の一般用テキストデータベース160−1〜160−N
とした。一般用テキストデータベースの重みWn の決定
にはパープレキシティPP n を用い、一般用テキストデ
ータベース160−1〜160−N中でパープレキシテ
ィPPn がしきい値より低い文が全体の40%となるよ
うにパープレキシティPPn のしきい値を設定し、パー
プレキシティPPn がしきい値より小さい文の一般用テ
キストデータベース160−nの重みWn を1、しきい
値以上の文の一般用テキストデータベース160−nの
重みWn を0とした。また、認識タスク用テキストデー
タベース150に対する重みWT は、認識タスク用テキ
ストデータベース150のデータ量(単語数)CT と重
み付けした一般用テキストデータベース160−1〜1
60−Nのデータ量(単語数)CD とに基づいて、CD/
T とした。
【0023】評価用音声データの書き起こしテキストに
対する記号連鎖確率のパープレキシティ(単語の平均分
岐数、小さいほど評価テキストに対して高精度な連鎖確
率であるといえる)で評価したところ、認識タスク用テ
キストデータベース150のみから生成した記号連鎖確
率の場合はテキストデータ数が少ないため75と大きな
値になり、認識タスク用テキストデータベース150と
大規模テキストデータベース群、つまり一般用テキスト
データベース160−1〜160−Nとから生成した記
号連鎖確率の場合は42と小さくなったが、この発明の
重み付けを用いて生成した記号連鎖確率の場合は、36
と更に小さくなった。
【0024】また、音声認識実験により評価したとこ
ろ、単語誤り率は、認識タスク用テキストデータベース
150のみから生成した記号連鎖確率の場合、14.7
%、認識タスク用テキストデータと一般用テキストデー
タベース160−1〜160−Nとから生成した記号連
鎖確率の場合、11.6%、この発明の重み付けを用い
て生成した記号連鎖確率の場合は、9.9%となり、認
識率の向上が明確に得られた。
【0025】また、記号連鎖確率のパラメータ数は、認
識タスク用テキストデータベース150と一般用テキス
トデータベース160−1〜160−Nとから生成した
記号連鎖確率の場合、約1000万であり、この発明の
重み付けを用いて生成した記号連鎖確率の場合は、約4
60万であり、可成り少なくなった。
【0026】
【発明の効果】以上述べたようにこの発明によれば下記
の第1および第2の効果を得ることができる。第1の効
果は、一般の大規模データベース群から、認識タスク用
テキストデータに類似したデータに重み付けをすること
により、認識タスクに対して高精度な記号連鎖確率を生
成することができる。
【0027】第2の効果は、重み付けの際に、認識タス
クに対して類似度の低いデータに対する重みを0にする
ことにより、高精度かつ記憶容量の小さい記号連鎖確率
を生成することができる。
【図面の簡単な説明】
【図1】この発明の音声認識方法が適用される装置の構
成を示すブロック図。
【図2】この発明の言語モデル(記号連鎖確率)生成方
法が適用される生成部の構成を示すブロック図。
【図3】この発明の言語モデル生成方法の処理の流れを
示すフローチャート。
【図4】一般用テキストデータベースの重み決定部の構
成例を示すブロック図。
【図5】認識タスク用テキストデータベースの重み決定
部の構成例を示すブロック図。
【図6】この発明による言語モデル生成方法及び音声認
識方法をコンピュータにより実行される場合の構成例を
示す図。
【図7】この発明による言語モデル生成方法の処理手順
の例を示すフローチャート。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松永 昭一 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 川端 豪 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5D015 HH23

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 認識対象のタスクに関するテキストデー
    タを格納した認識タスク用テキストデータベースと、上
    記認識対象タスクと直接関係しない一般的なテキストデ
    ータを格納した複数の一般用テキストデータベースとを
    用い、 上記認識タスク用テキストデータベースに対する上記各
    一般用テキストデータベースの関連を示す重みを求め、 上記認識タスク用テキストデータベースと上記複数の一
    般的なテキストデータベースを用いて、注目する記号
    (単語)についてそれが属するデータベースの重みを与
    えて、記号連鎖確率(言語モデル)を生成することを特
    徴とする言語モデル生成方法。
  2. 【請求項2】 上記認識タスク用テキストデータベース
    を用いて記号連鎖確率を求め、その記号連鎖確率を用い
    て各一般用テキストデータベースについて、パープレキ
    シティ(エントロピー)に基づいて、上記重みを計算す
    ることを特徴とする請求項1記載の言語モデル生成方
    法。
  3. 【請求項3】 上記各一般用テキストデータベースにつ
    いて、そのデータベース中の記号(単語)のうち、上記
    認識タスク用テキストデータ中に含まれないものの比率
    (未知語率)に基づいて、上記重みを計算することを特
    徴とする請求項1記載の言語モデル生成方法。
  4. 【請求項4】 上記認識タスク用テキストデータベース
    を用いて記号連鎖確率を求め、その記号連鎖確率を用い
    て、各一般用テキストデータベースについてパープレキ
    シティ(エントロピー)を求め、 上記各一般用テキストデータベースについて、そのデー
    タベース中の記号(単語)のうち、上記認識タスク用テ
    キストデータ中に含まれないものの比率(未知語率)を
    求め、 上記各一般用テキストデータベースについて、上記パー
    プレキシティと未知語率とから上記重みを求めることを
    特徴とする請求項1記載の言語モデル生成方法。
  5. 【請求項5】 上記認識タスク用テキストデータベース
    のテキストデータ量と、上記複数の一般用テキストデー
    タベースのテキストデータ量の比に基づいて上記認識タ
    スク用テキストデータベースの重みを求めることを特徴
    とする請求項1乃至4の何れかに記載の言語モデル生成
    方法。
  6. 【請求項6】 認識対象のタスクに関するテキストデー
    タを格納した認識タスク用テキストデータベースと、上
    記認識対象タスクと直接関係しない一般的なテキストデ
    ータを格納した複数の一般用テキストデータベースとを
    用い、 上記認識タスク用テキストデータベースに、上記複数の
    一般用テキストデータベースよりも大きな重みを与え、 上記認識タスク用テキストデータベースと上記複数の一
    般的なテキストデータベースの全てを用いて、注目する
    記号(単語)について認識タスク用テキストデータベー
    スのものにはその重みを与えて記号連鎖確率(言語モデ
    ル)を生成することを特徴とする言語モデル生成方法。
  7. 【請求項7】 上記重みを与えての記号連鎖確率の生成
    は、注目記号について、各データベース中の出現回数に
    そのデータベースの重みを与え、その合計値を全体のデ
    ータベース中の出現回数として記号連鎖確率を生成する
    ことを特徴とする請求項1乃至6の何れかに記載の言語
    モデル生成方法。
  8. 【請求項8】 上記重みを与えての記号連鎖確率の生成
    は、注目記号について、各データベース中の出現頻度又
    は記号連鎖確率にそのデータベースの重みを与え、その
    全積算値を全体のデータベース中の出現頻度又は記号連
    鎖確率として、記号連鎖確率を求めることを特徴とする
    請求項1乃至7の何れかに記載の言語モデル生成方法。
  9. 【請求項9】 入力音声を音響モデルと記号連鎖確率
    (言語モデル)とを用いて認識し、記号(単語)列とし
    て出力する音声認識方法において、 上記記号連鎖確率として請求項1乃至8の何れかに記載
    の方法により生成した言語モデルを用いることを特徴と
    する音声認識方法。
  10. 【請求項10】 請求項1乃至9の何れかに記載の方法
    をコンピュータに実行させるプログラムを記録した記録
    媒体。
JP2000268900A 2000-09-05 2000-09-05 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 Expired - Fee Related JP3628245B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000268900A JP3628245B2 (ja) 2000-09-05 2000-09-05 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000268900A JP3628245B2 (ja) 2000-09-05 2000-09-05 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2002082690A true JP2002082690A (ja) 2002-03-22
JP3628245B2 JP3628245B2 (ja) 2005-03-09

Family

ID=18755601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000268900A Expired - Fee Related JP3628245B2 (ja) 2000-09-05 2000-09-05 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3628245B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
JP2008165675A (ja) * 2007-01-04 2008-07-17 Fuji Xerox Co Ltd 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム
WO2010021368A1 (ja) * 2008-08-20 2010-02-25 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN101847405A (zh) * 2009-03-23 2010-09-29 索尼公司 语音识别装置和方法、语言模型产生装置和方法及程序
JP2015079035A (ja) * 2013-10-15 2015-04-23 三菱電機株式会社 音声認識装置および音声認識方法
US10748528B2 (en) 2015-10-09 2020-08-18 Mitsubishi Electric Corporation Language model generating device, language model generating method, and recording medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251135B2 (en) 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
US7310601B2 (en) 2004-06-08 2007-12-18 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
JP2008165675A (ja) * 2007-01-04 2008-07-17 Fuji Xerox Co Ltd 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム
WO2010021368A1 (ja) * 2008-08-20 2010-02-25 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP5459214B2 (ja) * 2008-08-20 2014-04-02 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN101847405A (zh) * 2009-03-23 2010-09-29 索尼公司 语音识别装置和方法、语言模型产生装置和方法及程序
JP2015079035A (ja) * 2013-10-15 2015-04-23 三菱電機株式会社 音声認識装置および音声認識方法
US10748528B2 (en) 2015-10-09 2020-08-18 Mitsubishi Electric Corporation Language model generating device, language model generating method, and recording medium

Also Published As

Publication number Publication date
JP3628245B2 (ja) 2005-03-09

Similar Documents

Publication Publication Date Title
EP1366490B1 (en) Hierarchichal language models
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US6836760B1 (en) Use of semantic inference and context-free grammar with speech recognition system
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US7143035B2 (en) Methods and apparatus for generating dialog state conditioned language models
JPH0320800A (ja) 音声認識方法および装置
CN111798840A (zh) 语音关键词识别方法和装置
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
CN101334998A (zh) 基于异类模型区分性融合的汉语语音识别系统
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP3913626B2 (ja) 言語モデル生成方法、その装置及びそのプログラム
JP2938865B1 (ja) 音声認識装置
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
Rai et al. Keyword spotting--Detecting commands in speech using deep learning
KR101095864B1 (ko) 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム
JP5170449B2 (ja) 検出装置、音声認識装置、検出方法、及びプログラム
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Patil et al. Linear collaborative discriminant regression and Cepstra features for Hindi speech recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees