JP2002082690A - Language model generation method, speech recognition method, and program recording medium therefor - Google Patents
Language model generation method, speech recognition method, and program recording medium thereforInfo
- Publication number
- JP2002082690A JP2002082690A JP2000268900A JP2000268900A JP2002082690A JP 2002082690 A JP2002082690 A JP 2002082690A JP 2000268900 A JP2000268900 A JP 2000268900A JP 2000268900 A JP2000268900 A JP 2000268900A JP 2002082690 A JP2002082690 A JP 2002082690A
- Authority
- JP
- Japan
- Prior art keywords
- database
- text
- symbol
- weight
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【課題】 認識タスク(発声内容)に対し、高精度な記
号連鎖確率(言語モデル)を生成できる。
【解決手段】 認識タスク用テキストデータベース15
0の他に複数の一般用テキストデータベース160−1
〜160−Nを用い、DB150の記号連鎖確率PT を
求め、PT を用いて各一般用DB160−n(n=1,
2,…,N)のテストセットパープレキシティPPn を
求め、PPn が小さい程、そのDB160−nに大きな
重みWn (0<Wn <1)を与え、DB150とDB1
60−1〜160−Nとから記号連鎖確率を求める。そ
の際に例えばある単語Aの出現回数を求める場合にDB
160−1〜160−Nの各出現回数にそれぞれW1 〜
Wnを乗算し、これらの値とDB150の出現回数との
和をAの出現回数とする。
(57) [Summary] [Problem] A highly accurate symbol chain probability (language model) can be generated for a recognition task (speech content). SOLUTION: A text database 15 for a recognition task.
0 and a plurality of general text databases 160-1
Used to 160-N, determined symbol linkage probability P T of DB 150, the OTC DB160-n (n = 1 with P T,
2, ..., determine the test set perplexity PP n of N), as the PP n is small, giving greater weight W n (0 <W n < 1) to the DB 160-n, DB 150 and DB1
The symbol chain probability is obtained from 60-1 to 160-N. At this time, for example, when calculating the number of appearances of a certain word A, the DB
Each of the number of appearances of 160-1 to 160-N corresponds to W 1 to
W n is multiplied, and the sum of these values and the number of occurrences of DB 150 is defined as the number of occurrences of A.
Description
【0001】[0001]
【発明の属する技術分野】この発明は、人が発声した文
章などの音声を入力信号とし、その音声を音響モデルお
よび記号連鎖確率(言語モデル)を用いて認識し、その
結果を記号列として出力する音声認識方法、この方法に
用いられる言語モデルの生成方法及びこれらのプログラ
ム記録媒体に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech such as a sentence uttered by a human as an input signal, recognizes the speech using an acoustic model and a symbol chain probability (language model), and outputs the result as a symbol sequence. The present invention relates to a method for recognizing speech, a method for generating a language model used in the method, and a program recording medium for these.
【0002】[0002]
【従来の技術】音声入力を音声認識により記号列(単語
列)に変換する場合、大規模なテキストデータベースか
ら記号(単語)の出現連鎖に関する記号連鎖確率(言語
モデル)を生成し、それを利用することで音声認識性能
を向上させる手法が従来から知られている。しかし、認
識タスク(発声内容)が、記号連鎖確率の生成に用いた
大規模なテキストデータベースのタスクと異なったりす
る場合には有効性が低かった。2. Description of the Related Art When a speech input is converted into a symbol string (word string) by speech recognition, a symbol chain probability (language model) relating to a symbol (word) occurrence chain is generated from a large-scale text database and is used. Conventionally, a technique for improving the speech recognition performance has been known. However, the effectiveness was low when the recognition task (speech content) was different from the task of the large-scale text database used to generate the symbol chain probability.
【0003】そこで、このような問題点を解決するた
め、特開平4−291399号公報に示すように、認識
タスクに類似したテキストデータベースから作成した学
習用記号連鎖確率を用いて、大規模なテキストデータベ
ースから生成した記号連鎖確率を適応化し、この適応化
された記号連鎖確率を利用して音声認識を行うようにし
た技術も従来から提案されている。In order to solve such a problem, as disclosed in Japanese Patent Application Laid-Open No. Hei 4-291399, a large-scale text data is generated by using a learning symbol chain probability created from a text database similar to a recognition task. A technique has been proposed in which a symbol chain probability generated from a database is adapted and speech recognition is performed using the adapted symbol chain probability.
【0004】[0004]
【発明が解決しようとする課題】上述した適応された記
号連鎖確率を用いる従来の技術は、大規模なテキストデ
ータベースから生成した記号連鎖確率のみを用いる技術
に比較して、高い認識性能を実現できるが、大規模なテ
キストデータベースから生成した記号連鎖確率には、認
識タスクとはかけ離れたデータの情報も含まれているた
め、記号連鎖によっては適応化した確率値の推定が不安
定になるという問題があった。また、適応化した記号連
鎖確率は、大規模なテキストデータベースと認識タスク
に類似したテキストデータベースのすべての情報を保持
するため記憶容量が大きいという問題があった。The conventional technique using the above-mentioned adapted symbol chain probability can realize higher recognition performance than the technique using only the symbol chain probability generated from a large-scale text database. However, since the symbol chain probability generated from a large-scale text database includes information on data far from the recognition task, the estimation of the adapted probability value becomes unstable depending on the symbol chain. was there. In addition, there is a problem that the adapted symbol chain probability has a large storage capacity because it holds all information of a large-scale text database and a text database similar to a recognition task.
【0005】そこで、この発明の一つの目的は、大規模
テキストデータベースの中で認識タスクにより類似して
いるテキストにより大きな重みを付けることにより、高
精度な記号連鎖確率を生成し、それを認識に用いること
により認識性能を向上することができる言語モデルの生
成方法を提供することにある。また、認識タスクと類似
度の低いデータを排除する(重みを0とする)ことによ
り、保持する情報を削減して、記憶容量の小さな記号連
鎖確率を提供することにある。Therefore, one object of the present invention is to generate a highly accurate symbol chain probability by assigning a greater weight to texts that are more similar to a recognition task in a large-scale text database, and to use this for recognition. An object of the present invention is to provide a method of generating a language model that can improve recognition performance by using the language model. Another object of the present invention is to provide a symbol chain probability with a small storage capacity by eliminating data having a low degree of similarity to the recognition task (by setting the weight to 0) to reduce information to be held.
【0006】[0006]
【課題を解決するための手段】この発明の言語モデル生
成方法によれば、認識対象のタスク(発声内容)に関す
るテキストデータを格納した認識タスク用テキストデー
タベースと、認識対象タスクとは直接関係しない一般的
な複数のテキストデータベースとを用い、認識タスク用
テキストデータベースに対する各一般用テキストデータ
ベースの関連(類似性)を示す重みを求め、これら認識
タスク用、また一般用テキストデータベースを用い、注
目する記号(単語)についてそれが属するデータベース
の重みを与えて記号連鎖確率を生成する。According to the language model generating method of the present invention, a text database for a recognition task storing text data relating to a task (speech content) to be recognized, and a general database not directly related to the task to be recognized. Weights indicating the relevance (similarity) of each general-purpose text database to the recognition task text database using a plurality of general text databases, and using the recognition task and general text databases, For each word, the weight of the database to which it belongs is given to generate a symbol chain probability.
【0007】各一般用テキストデータベースの重みを求
めるには、認識タスク用テキストデータベースのテキス
トデータから得られる情報に基づいて、各一般用テキス
トデータベースのテキストデータのそれぞれ類似性を検
証し、認識タスク用テキストデータベースとの類似度の
大きい一般用テキストデータベースに大きな重みを与え
る。認識タスク用テキストデータベースと一般用テキス
トデータベースの類似度の検証には、認識タスク用テキ
ストデータベース中のテキストデータより生成した記号
連鎖確率を、各一般用テキストデータベースのテキスト
データに対して与えた際のパープレキシティ(エントロ
ピー)、または各一般用テキストデータベースについて
その中にそれぞれ認識タスク用テキストデータベース中
の単語が含まれない率(未知語率)をそれぞれ求め、あ
るいはこれらパープレキシティおよび未知語率の組み合
わせを用いる。また認識タスク用テキストデータベース
の重みWT を決定する場合は、認識タスク用テキストデ
ータベースのデータ量と複数の一般用テキストデータベ
ースのデータ量との比に基づく値を用いる。この重みW
T は上記パープレキシティおよび未知語率に基づく値と
組み合わせて用いてもよい。To determine the weight of each general-purpose text database, the similarity of the text data of each general-purpose text database is verified based on information obtained from the text data of the recognition task text database, and the weight of each general-purpose text database is determined. A large weight is given to a general-purpose text database having a high similarity with the text database. In order to verify the similarity between the text database for the recognition task and the general text database, the symbol chain probability generated from the text data in the text database for the recognition task was used when the text data in each general text database was given. The perplexity (entropy), or the rate at which each general-purpose text database does not contain a word in the recognition task text database (unknown word rate), respectively, or the perplexity and unknown word rate Use a combination. Also when determining the weight W T of the text database for recognition tasks, a value based on the ratio of the amount of data amount and the plurality of general text database text database for recognition tasks. This weight W
T may be used in combination with the value based on the perplexity and the unknown word rate.
【0008】[0008]
【発明の実施の形態】この発明の実施の形態について図
面を参照して詳細に説明する。図1にこの発明による音
声認識方法の一実施例が適用される音声認識装置の構成
例を示す。音声認識部110と、記号連鎖確率(言語モ
デル)データベース120と、音声標準パタンデータベ
ース130と、認識タスク用記号連鎖確率生成部140
と、認識タスク用テキストデータベース150と、複数
の一般用テキストデータベース160−1〜160−N
とを備えている。Embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a configuration example of a speech recognition apparatus to which an embodiment of the speech recognition method according to the present invention is applied. A speech recognition unit 110, a symbol chain probability (language model) database 120, a speech standard pattern database 130, and a symbol chain probability generating unit 140 for a recognition task.
, A recognition task text database 150, and a plurality of general text databases 160-1 to 160-N.
And
【0009】音声標準パタンデータベース130は、予
め分析された音声の標準パタンを複数保持している。認
識タスク用データベース150には認識対象タスク(発
声内容)と関連したテキストデータが格納される。入力
音声が例えばニュース番組の発語音声の場合、認識タス
クのテキストデータとして、多数のニュースの書き起こ
しに用いた各単語が認識タスク用テキストデータベース
150に格納される。一般用データベース160−1〜
160−Nは認識対象タスクと直接関係のない新聞記事
データベース、小説データベースなどが用いられ、例え
ば新聞記事、ホームページ、ネットニューズなどから多
数の単語を収集し、その収集した際にその単語を含んで
構成されていた一文ごとにそれぞれ1つの一般用テキス
トデータベース160−n(n=1,2,…,N)を構
成してもよい。The voice standard pattern database 130 holds a plurality of voice standard patterns analyzed in advance. The recognition task database 150 stores text data related to the recognition target task (speech content). If the input speech is, for example, a spoken speech of a news program, each word used to transcribe a large number of news is stored in the recognition task text database 150 as text data of the recognition task. General database 160-1
For 160-N, a newspaper article database, a novel database, or the like, which is not directly related to the recognition target task, is used. For example, a large number of words are collected from newspaper articles, homepages, net news, and the like. One general text database 160-n (n = 1, 2,..., N) may be configured for each of the configured sentences.
【0010】認識タスク用記号連鎖確率生成部140
は、この発明による言語モデル生成方法を実行するもの
であって、認識処理に先立って、認識タスク用テキスト
データベース150と、一般用テキストデータベース1
60−1〜160−Nとから、認識タスクに対する類似
度の大きいテキストデータを含む一般用テキストデータ
ベースにより大きな重みを付けて、これら認識タスク用
テキストデータベースと複数の一般用テキストデータベ
ースを用いて、認識タスクに対して高精度な絞り込みを
することが可能な記号連鎖確率(言語モデル)を生成し
てそれを記号連鎖確率データベース120に格納する。
音声認識部110は、入力音声に対して、記号連鎖確率
データベース120の記号連鎖確率および音声標準パタ
ンデータベース130の音声標準パタンなどから得られ
る情報に基づいて記号列候補の絞り込みを行い、認識結
果である記号列を出力する。Symbol chain probability generating section 140 for recognition task
Executes the language model generation method according to the present invention, and performs a recognition task text database 150 and a general text database 1 prior to a recognition process.
From 60-1 to 160-N, a general text database including text data having a high degree of similarity to the recognition task is given a greater weight, and the recognition task text database and a plurality of general text databases are used to perform recognition. A symbol chain probability (language model) capable of narrowing down tasks with high accuracy is generated and stored in the symbol chain probability database 120.
The speech recognition unit 110 narrows down symbol string candidates for the input speech based on information obtained from the symbol chain probability of the symbol chain probability database 120 and the voice standard pattern of the voice standard pattern database 130, and based on the recognition result. Output a symbol string.
【0011】図2に、認識タスク用記号連鎖確率生成部
140の構成例を示しこの図2を参照してこの発明によ
る言語モデル、つまり記号連鎖確率の生成方法の実施例
を説明する。重み決定部210では、認識タスク用デー
タベース150中の各認識タスクのテキストデータと各
一般用テキストデータベース160−nの各テキストデ
ータとを入力し、認識タスクのテキストデータと各一般
用テキストデータベース160−nのテキストデータと
の類似度からその一般用テキストデータベース160−
nに対する重みWn を決定する。また、各一般用テキス
トデータベースの重みWi に基づいて認識タスク用テキ
ストデータベース150の重みWT を決定する。これら
重みWn ,WT を決定する具体的手法は後で説明する。
認識タスク用テキストデータベース150に重みWT を
複数の一般用テキストデータベース160−1〜160
−Nに重みW1 〜WN をそれぞれ与える。FIG. 2 shows an example of the configuration of the symbol chain probability generation section 140 for a recognition task, and an embodiment of a method of generating a language model, that is, a symbol chain probability according to the present invention will be described with reference to FIG. The weight determining unit 210 inputs the text data of each recognition task in the recognition task database 150 and the text data of each general text database 160-n, and inputs the text data of the recognition task and each general text database 160-n. n based on the similarity to the text data of the n.
Determine the weight W n for n . Further, to determine the weight W T of the recognition task text database 150 based on the weight W i of each general text database. A specific method for determining these weights W n and W T will be described later.
Multiple of the general text database the weight W T in recognition task for the text database 150 160-1 to 160
−N are given weights W 1 to W N , respectively.
【0012】記号連鎖確率生成部220では、重み決定
部210が出力した重み付きの認識タスク用テキストデ
ータベース150および重み付きの複数の一般用テキス
トデータベース160−1〜160−Nの各テキストデ
ータを入力し、記号連鎖確率(言語モデル)を生成して
記号連鎖確率データベース120に格納する。この記号
連鎖確率、つまり、ユニグラム、バイグラム、トライグ
ラム、一般的にはMグラム(Mは1以上の整数)の生成
の基本的な手法は従来の方法と同様であるが、認識タス
ク用テキストデータベース150と複数の一般的テキス
トデータベース160−1〜160−Nを1つのテキス
トデータベースとして、このテキストデータベースから
記号連鎖確率を生成するが、その際に、各記号(単語)
について、それが属するテキストデータベースの重みを
考慮する。例えば単語Aについて認識タスク用テキスト
データベース150における出現回数をCT(A)、一
般用テキストデータベース160−1〜160−Nにお
ける各出現回数をC1(A)〜CN(A)とすると、これ
らに対し、そのデータベースの重みを掛算して加算し、 C(A)=WT ・CT(A)+W1 ・C1(A)+W2 ・
C2(A)+…+WN ・CN(A)を単語Aの出現回数と
し、同様にして他の単語の出現回数を求める。単語Aの
単語単体の出現確率(ユニグラム)は、単語Aの出現回
数C(A)をすべての単語の出現回数ΣC(k)で割っ
た P(A)=C(A)/ΣC(k) となり、同様にして他の単語の出現確率を求めて記号連
鎖確率データベース120に格納する。The symbol chain probability generation section 220 receives the text data of the weighted recognition task text database 150 and the plurality of weighted general text databases 160-1 to 160-N output by the weight determination section 210. Then, a symbol chain probability (language model) is generated and stored in the symbol chain probability database 120. The basic method of generating this symbol chain probability, that is, a unigram, a bigram, a trigram, and generally an M-gram (M is an integer of 1 or more) is the same as the conventional method, but a text database for a recognition task. 150 and a plurality of general text databases 160-1 to 160-N are considered as one text database, and a symbol chain probability is generated from this text database.
Consider the weight of the text database to which it belongs. For example, if the number of appearances of the word A in the recognition task text database 150 is C T (A), and the number of appearances in the general text databases 160-1 to 160-N is C 1 (A) to C N (A), These are multiplied by the weight of the database and added, and C (A) = W T · C T (A) + W 1 · C 1 (A) + W 2 ·
C 2 (A) +... + W N · C N (A) is the number of appearances of the word A, and the number of appearances of another word is obtained in the same manner. The appearance probability (unigram) of a single word of the word A is obtained by dividing the number of appearances C (A) of the word A by the number of appearances ΣC (k) of all words P (A) = C (A) / ΣC (k) Similarly, the appearance probabilities of other words are obtained and stored in the symbol chain probability database 120.
【0013】あるいは、例えば単語Aの次に単語Bが生
じる確率であるバイグラムの場合、単語Aに続いて単語
Bが出現する回数について認識タスク用テキストデータ
ベース150における出現回数をCT (A,B)、一般
用テキストデータベース160−1〜160−Nにおけ
る各出現回数をC1 (A,B)〜CN(A,B)とする
と、これらについてそれぞれのデータベースの重みを掛
算したものの和 C(A,B)=WT ・CT (A,B)+W1 ・C
1 (A,B)+W2 ・C2 (A,B)+…+WN ・CN
(A,B) を単語連鎖A,Bの出現回数とし、それを単語Aの出現
回数C(A)で割ったP(B|A)=C(A,B)/C
(A)を単語Aの次に単語Bが生じるバイグラム確率と
して同様にして他の単語連鎖の確率を求めて記号確率デ
ータベース120に格納してもよい。Alternatively, for example, in the case of a bigram, which is the probability that word B occurs after word A, the number of occurrences of word B following word A in the recognition task text database 150 is C T (A, B ), Assuming that the number of appearances in the general text databases 160-1 to 160-N is C 1 (A, B) to C N (A, B), the sum C ( A, B) = W T · C T (A, B) + W 1 · C
1 (A, B) + W 2 · C 2 (A, B) + ... + W N · C N
(A, B) is the number of appearances of the word chains A and B, and is divided by the number of appearances C (A) of the word A, P (B | A) = C (A, B) / C
Similarly, the probability of another word chain may be obtained and stored in the symbol probability database 120 using (A) as the bigram probability that the word B follows the word A.
【0014】次に、図2に示した認識タスク用記号連鎖
確率生成部140中の重み決定部210における処理手
順例を図3に示し、以下に動作を説明するn=1に初期
化し(S1)、認識タスク用テキストデータベース15
0のテキストデータと一般用テキストデータベース16
0−nのテキストデータとから一般用テキストデータベ
ース160−nに対する重みwn を決定する(S2)、
n=Nかを調べ(S3)、n=Nでなければnを+1し
てステップS2に戻る(S4)。n=Nであれば、つま
りすべての一般用テキストデータベース160−1〜1
60−Nについて重みW1 〜WN を決定したら、認識タ
スク用テキストデータベース150に対する重みWT を
決定する(S5)。Next, FIG. 3 shows an example of a processing procedure in the weight determining section 210 in the symbol chain probability generating section 140 for the recognition task shown in FIG. 2, and the operation is initialized to n = 1 (S1). ), Recognition task text database 15
0 text data and general text database 16
A weight wn for the general text database 160- n is determined from the text data of 0-n (S2).
It is checked whether n = N (S3). If n = N, n is incremented by 1 and the process returns to step S2 (S4). If n = N, that is, all general text databases 160-1 to 160-1
After determining the weight W 1 to W-N for 60-N, it determines a weight W T for recognition task text database 150 (S5).
【0015】重みwn の決定の具体例を図4を参照して
説明する。例えば、パープレキシティに基づいて重み付
けをする場合には、認識タスク用テキストデータベース
150のテキストデータを用いて記号連鎖確率PT を記
号連鎖確率生成部410で生成しテキストデータベース
重み計算部420でその記号連鎖確率PT の一般用テキ
ストデータベース160−nに対するテストセットパー
プレキシティを計算し、そのパープレキシティの値に基
づいて重みの値Wn を決める。テストセットパープレキ
シティPPは、言語Lの情報理論的な意味での単語の平
均分岐数を表し、評価用テキスト集合(単語列、記号
列)に対して適用され、次式で与えられる。A specific example of determining the weight w n will be described with reference to FIG. For example, when weighting is performed based on perplexity, the symbol chain probability PT is generated by the symbol chain probability generation unit 410 using the text data of the recognition task text database 150, and the text database weight calculation unit 420 generates the symbol chain probability PT. calculate the test set perplexity for the general text database 160-n of symbols chain probability P T, determine the value W n of weights based on the value of the perplexity. The test set perplexity PP represents the average number of branches of a word in the information-theoretic sense of the language L, is applied to an evaluation text set (word string, symbol string), and is given by the following equation.
【0016】PP=2H(L) ここでH(L)=−Σw1(1/n)P(w1 n)logP
(w1 n)であり、H(L)は一単語あたりのエントロピ
ーであり、P(w1 n)は単語列w 1 n=w1 …wn の生成
確率である。つまり、認識タスク用テキストデータベー
ス150を用いて生成した記号連鎖確率PT を用いて、
一般用テキストデータベース160−n内のテキストデ
ータについてテストセットパープレキシティPPを求め
る。言語パープレキシティが大きいほど、つまり単語の
平均分岐数が多いほど、単語を特定するのが難しく、あ
る記号連鎖確率と評価テキストからテストセットパープ
レキシティPPを求めた場合、そのPPの値が小さいほ
ど、記号連鎖確率は評価テキストをよく表現できている
ことになる。従って、前記実施例で一般用テキストデー
タベース160−nについて求めたテストセットパープ
レキシティの値が小さければ、この一般用テキストデー
タベース160−nは認識タスク用テキストデータベー
ス150と似ていることになる。よって一般用テキスト
データベース160−nに対する重みWn を大きくす
る。PP = 2H (L) Where H (L) = − Σw1(1 / n) P (w1 n) LogP
(W1 n) And H (L) is the entropy per word
And P (w1 n) Is the word string w 1 n= W1... wnGenerate
Probability. In other words, the text database for the recognition task
Chain probability P generated using theTUsing,
Text data in the general text database 160-n
For test set perplexity PP
You. The higher the language perplexity, that is, the word
The higher the average number of branches, the more difficult it is to identify words.
Test set parp from the symbol chain probability and evaluation text
When determining the lexity PP, the smaller the value of that PP
The symbol chain probability can express the evaluation text well
Will be. Therefore, the general-purpose text data
Test set purple obtained for database 160-n
If the lexity value is small, this general text data
Database 160-n is a text database for the recognition task.
Will be similar to So general text
Weight W for database 160-nnIncrease
You.
【0017】また、未知語率に基づいて一般用テキスト
データベースを重み付けをすることもできる。この場合
は図4中に示すように認識タスク用テキストデータベー
ス150に存在する(出現する)記号(単語)のリス
ト、即ち記号リストLT を記号リスト生成部430で生
成し、テキストデータベース重み計算部420では、一
般用テキストデータベース160−nに出現する単語
(記号)ののべ数のうち、記号リストLT に含まれない
記号(単語)が何個あるかという割合(未知語率)を計
算し、その未知語率の値に基づいて一般用テキストデー
タベース160−nの重みの値Wn を決める。例えば一
般用テキストデータベース160−nの全単語数が20
00で、その中100単語が記号リストLT に含まれて
いない未知語であった場合は、その未知語率は(100
/2000)×100=500になる。未知語率が小さ
いほど、記号リストLT と一般用テキストデータベース
160−nには重複する単語が多く一般用テキストデー
タベース160−nは認識タスク用データベース150
と類似していることになり、重みWn を大きくする。Further, the general text database can be weighted based on the unknown word rate. In this case is present in the recognition task text database 150 as shown in FIG. 4 (appearing) list of symbols (words), that generates a symbol list L T by the symbol list generator 430, the text database weight calculator in 420, among the number total of words appearing for general text database 160-n (symbol), calculate the percentage (vocabulary rate) is not included in the symbol list L T sign (word) of that how many there Then, the weight value Wn of the general text database 160- n is determined based on the value of the unknown word rate. For example, if the total number of words in the general text database 160-n is 20
In 00, when 100 words in it was an unknown word that is not included in the symbol list L T, it is the unknown word rate (100
/ 2000) × 100 = 500. About the unknown word rate is low, symbol list L T and the general text database for general use text database 160-n are many words that overlap in the 160-n is recognition tasks for database 150
It will be similar to, to increase the weight W n.
【0018】テキストデータベース計算部420では、
記号リストLT および記号連鎖確率PT のいずれかを用
いる場合に限らず、これら両者を組み合わせて用いるこ
ともできる。例えば一般用テキストデータベース160
−nの記号連鎖確率PT を用いたテストセットパープレ
キシティがしきい値より小さく、かつ記号リストLTに
対する未知語率がしきい値より小さい場合は一般用テキ
ストデータベース160−nの重みWn を1とし、その
他の場合は重みWnを0とする。なお記号リストLT の
生成は、後述する実施例では3万文、のべ100万単語
の認識タスク用テキストデータベース150の場合、異
なる単語数は約10万単語であるが、この10万単語中
には、認識タスク用データベース150中に1回しか出
現しない単語も多く含まれており、それらの単語は統計
的に信頼性が低いことから、出現しなかったこととして
記号リストLT に含めない場合もあり、前記後述の実験
では記号リストLT を出現頻度の多い単語から2万単語
までとした。この頻度上位2万語の単語はこのデータベ
ース150ののべ100万単語のうち約99%を占め
る。In the text database calculation section 420,
Not only in the case of using any of the symbols list L T and symbolic chain probability P T, can be used in combination both. For example, a general text database 160
Test set perplexity using symbols linkage probability P T of -n is smaller than the threshold value, and if the unknown word rate for symbol list L T is smaller than the threshold of the general text database 160-n weights W n is set to 1; in other cases, the weight W n is set to 0. Note generating symbols list L T is 3 Manbun in Examples described later, when a total of 1,000,000 words recognition task text database 150, different but word count is about 100,000 words, the 100,000 word in the, it includes many words that do not appear only once during the recognition task database 150, from those words are the low statistical reliability, not included in the symbol list L T as it did not appear If also there, it said in the experiments described below was the symbol list L T from many word frequency of occurrence up to 20,000 words. The 20,000 words with the highest frequency account for about 99% of the total 1 million words in the database 150.
【0019】次に認識タスク用テキストデータベース1
50の重みwT を決定する処理例を図5を参照して説明
する。例えば、認識タスク用テキストデータベース15
0のデータ量LT をテキストデータ量算出部510で求
め、一般用テキストデータベース160−1〜160−
Nの全テキストデータ量CD をテキストデータ量算出部
520で求め、これらの比CD /CT を重み計算部53
0で計算し、その計算結果に基づいて認識タスク用テキ
ストデータベース150の重みWT を与える。一般用テ
キストデータベース160−1〜160−Nの全テキス
トデータ量CD としてその重みWn を考慮する場合はC
D =Σn=1 N Wn Cn を計算して求める。Cn は一般用
テキストデータベース160−nののべ単語数である。Next, the text database 1 for the recognition task
An example of processing for determining the weight w T of 50 will be described with reference to FIG. For example, the recognition task text database 15
Seeking 0 data amount L T in a text data amount calculation section 510, the general text database 160-1~160-
Obtains the full text data amount C D N-text data amount calculator 520, weight calculator 53 these ratios C D / C T
Calculated in 0, it gives the weight W T of the recognition task text database 150 based on the calculation result. When considering the weight W n as the total text data amount C D of the general text database 160 - 1 to 160-N C
Determined by calculating the D = Σ n = 1 N W n C n. C n is the base number of words of the general text database 160-n.
【0020】上述において、認識タスク用テキストデー
タベース150には重みWT を与えなくてもよい。つま
り一般用テキストデータベース160−1〜160−N
の重みW1 〜WN を求めて、これを用いて図2中の記号
連鎖確率生成部220で記号連鎖確率を前述したように
求めてもよい。この場合はWT =1とし、W1 〜WNを
1以下の正数としたとも云える。また逆に、一般用テキ
ストデータベース160−1〜160−Nには重みを与
えず、つまりW1 〜WN を全て1とし、認識タスク用テ
キストデータベース150に1以上の重みWT を与え
て、記号連鎖確率生成部220で記号連鎖確率を求めて
もよい。In the above description, the weight W T need not be given to the recognition task text database 150. That is, the general text databases 160-1 to 160-N
Seeking weight W 1 to W-N, the symbol linkage probability by the symbol linkage probability generation unit 220 in FIG. 2 may be determined as described above using the same. In this case, it can be said that W T = 1 and W 1 to W N are positive numbers of 1 or less. Conversely, without giving weights for General text database 160 - 1 to 160-N, that is to all 1 W 1 to W-N, giving one or more of the weight W T recognition task text database 150, The symbol chain probability may be calculated by the symbol chain probability generation unit 220.
【0021】上述した言語モデルの生成及び音声認識は
コンピュータによりプログラムを実行させて行うことも
できる。例えば図6に示すように各部がバス670に接
続され、メモリ640に言語モデル生成プログラムがC
D−ROM、ハードディスクなどからあるいは通信回線
を介してしてインストールされてあり、CPU660が
この言語モデル生成プログラムを実行することにより、
認識タスク用テキストデータベース150、一般用テキ
ストデータベース160−1〜160−Nを用いて、図
7に示すように認識タスク用テキストデータベース15
0の単語から記号連鎖確率PT 又は記号リストLT を生
成し(S1)、その後、各一般用テキストデータベース
160−1〜160−Nのそれぞれについて、重みWn
を順次計算し(S2)、次に認識タスク用テキストデー
タベース150の重みWT を計算し(S4)、その後、
これらの重みW1 〜WN ,WT を用いてテキストデータ
ベース150と160−1〜160−Nとの単語につい
て記号連鎖確率(言語モデル)を生成して記号連鎖確率
データベース120に格納する(S4)。The above-described generation of the language model and speech recognition can also be performed by executing a program by a computer. For example, as shown in FIG. 6, each unit is connected to a bus 670, and a language model generation program
It is installed from a D-ROM, a hard disk or the like or via a communication line, and the CPU 660 executes the language model generation program to
Using the recognition task text database 150 and the general text databases 160-1 to 160-N, as shown in FIG.
0 words generates symbol linkage probability P T or symbol list L T from (S1), then, for each of the general text database 160 - 1 to 160-N, weights W n
And sequentially calculating (S2), then calculates a weight W T of the recognition task text database 0.99 (S4), then,
These weights W 1 to W-N, and generates the word and text database 150 and 160 - 1 to 160-N symbol linkage probability (language model) using the W T stored in the symbol linkage probability database 120 (S4 ).
【0022】その後、音声認識を行うが、メモリ650
に音声認識プログラムを前述と同様にインストールして
おき、入力部610に音声が入力されると、CPU66
0が音声認識プログラムを実行し、記号連鎖確率データ
ベース120、音声標準パタンデータベース130を参
照して音声認識を行い、その結果の記号列を出力部63
0から出力する。なお入力部610で入力される音声は
例えば線形予測分析されたLPCケプストラム、LPC
デルタケプストラム、対数パワーなどの特徴パラメータ
のベクトルデータ時系列とされたものである。記憶部6
20は言語モデル生成や、音声認識時に一時にデータを
記憶するためなどに用いられる。実施例 この発明の効果を確認するために評価実験を行った。評
価用の入力音声データは、ニュース番組の男性アナウン
サーの発話129文を用いた。認識タスク用テキストデ
ータベース150としては、約100万単語のニュース
の書き起こしテキストを用いた。一般用テキストデータ
ベース160−1〜160−Nとしては、新聞記事、ホ
ームページ、ネットニューズなどから収集した約1億5
000万単語のデータベースを用意し、この評価実験で
は、このテキストデータベース中の一文をそれぞれ一つ
の一般用テキストデータベース160−1〜160−N
とした。一般用テキストデータベースの重みWn の決定
にはパープレキシティPP n を用い、一般用テキストデ
ータベース160−1〜160−N中でパープレキシテ
ィPPn がしきい値より低い文が全体の40%となるよ
うにパープレキシティPPn のしきい値を設定し、パー
プレキシティPPn がしきい値より小さい文の一般用テ
キストデータベース160−nの重みWn を1、しきい
値以上の文の一般用テキストデータベース160−nの
重みWn を0とした。また、認識タスク用テキストデー
タベース150に対する重みWT は、認識タスク用テキ
ストデータベース150のデータ量(単語数)CT と重
み付けした一般用テキストデータベース160−1〜1
60−Nのデータ量(単語数)CD とに基づいて、CD/
CT とした。Thereafter, voice recognition is performed.
Install the speech recognition program as above
When a voice is input to the input unit 610, the CPU 66
0 executes the speech recognition program, and the symbol chain probability data
Base 120 and voice standard pattern database 130
And performs a speech recognition, and outputs the resulting symbol string to an output unit 63.
Output from 0. Note that the voice input by the input unit 610 is
For example, LPC cepstrum analyzed by linear prediction, LPC
Feature parameters such as delta cepstrum and log power
The vector data is a time series. Storage unit 6
20 is used to generate language models and temporarily store data during speech recognition.
It is used for storing.Example An evaluation experiment was performed to confirm the effects of the present invention. Comment
The input voice data for the price is a male announcement of a news program.
Sir's utterance 129 sentences were used. Text data for recognition task
The database 150 contains about 1 million words of news
The transcript text was used. General text data
As the bases 160-1 to 160-N, newspaper articles, e-
About 150 million collected from websites, net news, etc.
Prepare a database of 100 million words, and in this evaluation experiment
Is one sentence in this text database
General text database 160-1 to 160-N
And Weight W of general text databasenDecision
Has Perplexity PP nAnd general text data
Perplexite in the bases 160-1 to 160-N
IPPnIs 40% of the sentences that are lower than the threshold
Sea perplexity PPnSet the threshold for
Plexity PPnGeneral-purpose text
Weight W of Kist database 160-nnOne, threshold
Value of the general text database 160-n
Weight WnWas set to 0. Also, text data for recognition tasks
Weight W for database 150TIs the text for the recognition task
Data (number of words) C of the strike database 150TAnd heavy
General-purpose text database 160-1
60-N data amount (number of words) CDAnd based on CD/
CTAnd
【0023】評価用音声データの書き起こしテキストに
対する記号連鎖確率のパープレキシティ(単語の平均分
岐数、小さいほど評価テキストに対して高精度な連鎖確
率であるといえる)で評価したところ、認識タスク用テ
キストデータベース150のみから生成した記号連鎖確
率の場合はテキストデータ数が少ないため75と大きな
値になり、認識タスク用テキストデータベース150と
大規模テキストデータベース群、つまり一般用テキスト
データベース160−1〜160−Nとから生成した記
号連鎖確率の場合は42と小さくなったが、この発明の
重み付けを用いて生成した記号連鎖確率の場合は、36
と更に小さくなった。When the evaluation was performed based on the perplexity of the symbol chain probability for the transcribed text of the evaluation speech data (the average number of branches of the word, the smaller the word, the higher the accuracy of the evaluation text is the chain probability). In the case of the symbol chain probability generated only from the text database 150 for use, the number of text data is small, so the value becomes 75, which is a large value. The text database 150 for the recognition task and the large-scale text database group, that is, the general text databases 160-1 to 160 are used. −N, the symbol chain probability is reduced to 42, but the symbol chain probability generated using the weighting of the present invention is 36.
And became even smaller.
【0024】また、音声認識実験により評価したとこ
ろ、単語誤り率は、認識タスク用テキストデータベース
150のみから生成した記号連鎖確率の場合、14.7
%、認識タスク用テキストデータと一般用テキストデー
タベース160−1〜160−Nとから生成した記号連
鎖確率の場合、11.6%、この発明の重み付けを用い
て生成した記号連鎖確率の場合は、9.9%となり、認
識率の向上が明確に得られた。When evaluated by a speech recognition experiment, the word error rate was 14.7 in the case of a symbol chain probability generated only from the recognition task text database 150.
%, 11.6% for the symbol chain probability generated from the recognition task text data and the general text databases 160-1 to 160-N, and 11.6% for the symbol chain probability generated using the weighting of the present invention. This was 9.9%, which clearly improved the recognition rate.
【0025】また、記号連鎖確率のパラメータ数は、認
識タスク用テキストデータベース150と一般用テキス
トデータベース160−1〜160−Nとから生成した
記号連鎖確率の場合、約1000万であり、この発明の
重み付けを用いて生成した記号連鎖確率の場合は、約4
60万であり、可成り少なくなった。The number of parameters of the symbol chain probability is about 10 million in the case of the symbol chain probability generated from the recognition task text database 150 and the general text databases 160-1 to 160-N. In the case of the symbol chain probability generated using weighting, about 4
It was 600,000, considerably reduced.
【0026】[0026]
【発明の効果】以上述べたようにこの発明によれば下記
の第1および第2の効果を得ることができる。第1の効
果は、一般の大規模データベース群から、認識タスク用
テキストデータに類似したデータに重み付けをすること
により、認識タスクに対して高精度な記号連鎖確率を生
成することができる。As described above, according to the present invention, the following first and second effects can be obtained. The first effect is that a high-precision symbol chain probability can be generated for a recognition task by weighting data similar to the recognition task text data from a general large-scale database group.
【0027】第2の効果は、重み付けの際に、認識タス
クに対して類似度の低いデータに対する重みを0にする
ことにより、高精度かつ記憶容量の小さい記号連鎖確率
を生成することができる。The second effect is that, by setting the weight for data having low similarity to the recognition task to 0 at the time of weighting, a symbol chain probability with high accuracy and small storage capacity can be generated.
【図1】この発明の音声認識方法が適用される装置の構
成を示すブロック図。FIG. 1 is a block diagram showing a configuration of an apparatus to which a voice recognition method according to the present invention is applied.
【図2】この発明の言語モデル(記号連鎖確率)生成方
法が適用される生成部の構成を示すブロック図。FIG. 2 is a block diagram showing a configuration of a generation unit to which a language model (symbol chain probability) generation method of the present invention is applied.
【図3】この発明の言語モデル生成方法の処理の流れを
示すフローチャート。FIG. 3 is a flowchart showing a processing flow of a language model generation method according to the present invention.
【図4】一般用テキストデータベースの重み決定部の構
成例を示すブロック図。FIG. 4 is a block diagram showing a configuration example of a weight determining unit of the general text database.
【図5】認識タスク用テキストデータベースの重み決定
部の構成例を示すブロック図。FIG. 5 is a block diagram showing a configuration example of a weight determination unit of a text database for a recognition task.
【図6】この発明による言語モデル生成方法及び音声認
識方法をコンピュータにより実行される場合の構成例を
示す図。FIG. 6 is a diagram showing a configuration example when a language model generation method and a speech recognition method according to the present invention are executed by a computer.
【図7】この発明による言語モデル生成方法の処理手順
の例を示すフローチャート。FIG. 7 is a flowchart showing an example of a processing procedure of a language model generating method according to the present invention.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松永 昭一 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 川端 豪 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5D015 HH23 ──────────────────────────────────────────────────続 き Continued on the front page (72) Shoichi Matsunaga, Inventor 2-3-1 Otemachi, Chiyoda-ku, Tokyo Nippon Telegraph and Telephone Corporation (72) Inventor Go Go Kawabata 2-3-3, Otemachi, Chiyoda-ku, Tokyo No. 1 Nippon Telegraph and Telephone Corporation F-term (reference) 5D015 HH23
Claims (10)
タを格納した認識タスク用テキストデータベースと、上
記認識対象タスクと直接関係しない一般的なテキストデ
ータを格納した複数の一般用テキストデータベースとを
用い、 上記認識タスク用テキストデータベースに対する上記各
一般用テキストデータベースの関連を示す重みを求め、 上記認識タスク用テキストデータベースと上記複数の一
般的なテキストデータベースを用いて、注目する記号
(単語)についてそれが属するデータベースの重みを与
えて、記号連鎖確率(言語モデル)を生成することを特
徴とする言語モデル生成方法。1. A recognition task text database storing text data relating to a recognition target task, and a plurality of general text databases storing general text data not directly related to the recognition target task. A weight indicating the relation between each of the general text databases with respect to the task text database is determined. Using the recognition task text database and the plurality of general text databases, a symbol (word) of interest belongs to a database to which it belongs. A language model generation method characterized by generating a symbol chain probability (language model) by giving a weight.
を用いて記号連鎖確率を求め、その記号連鎖確率を用い
て各一般用テキストデータベースについて、パープレキ
シティ(エントロピー)に基づいて、上記重みを計算す
ることを特徴とする請求項1記載の言語モデル生成方
法。2. A symbol chain probability is determined using the recognition task text database, and the weight is calculated for each general text database based on perplexity (entropy) using the symbol chain probability. The language model generation method according to claim 1, wherein:
いて、そのデータベース中の記号(単語)のうち、上記
認識タスク用テキストデータ中に含まれないものの比率
(未知語率)に基づいて、上記重みを計算することを特
徴とする請求項1記載の言語モデル生成方法。3. The weight of each of the general text databases is calculated based on the ratio (unknown word rate) of symbols (words) in the database that are not included in the recognition task text data. 2. The language model generating method according to claim 1, wherein
を用いて記号連鎖確率を求め、その記号連鎖確率を用い
て、各一般用テキストデータベースについてパープレキ
シティ(エントロピー)を求め、 上記各一般用テキストデータベースについて、そのデー
タベース中の記号(単語)のうち、上記認識タスク用テ
キストデータ中に含まれないものの比率(未知語率)を
求め、 上記各一般用テキストデータベースについて、上記パー
プレキシティと未知語率とから上記重みを求めることを
特徴とする請求項1記載の言語モデル生成方法。4. A symbol chain probability is determined using the recognition task text database, and a perplexity (entropy) is determined for each general text database using the symbol chain probability. Of the symbols (words) in the database that are not included in the recognition task text data (unknown word rate), and for each of the general text databases, the perplexity and unknown word rate are calculated. 2. The language model generation method according to claim 1, wherein the weight is obtained from the following.
のテキストデータ量と、上記複数の一般用テキストデー
タベースのテキストデータ量の比に基づいて上記認識タ
スク用テキストデータベースの重みを求めることを特徴
とする請求項1乃至4の何れかに記載の言語モデル生成
方法。5. The weight of the recognition task text database based on a ratio of the text data amount of the recognition task text database to the text data amount of the plurality of general text databases. The language model generation method according to any one of 1 to 4.
タを格納した認識タスク用テキストデータベースと、上
記認識対象タスクと直接関係しない一般的なテキストデ
ータを格納した複数の一般用テキストデータベースとを
用い、 上記認識タスク用テキストデータベースに、上記複数の
一般用テキストデータベースよりも大きな重みを与え、 上記認識タスク用テキストデータベースと上記複数の一
般的なテキストデータベースの全てを用いて、注目する
記号(単語)について認識タスク用テキストデータベー
スのものにはその重みを与えて記号連鎖確率(言語モデ
ル)を生成することを特徴とする言語モデル生成方法。6. A recognition task text database storing text data relating to a recognition target task and a plurality of general text databases storing general text data not directly related to the recognition target task. The task text database is given a greater weight than the plurality of general text databases, and the recognition task is performed for the symbol (word) of interest using all of the recognition task text database and the plurality of general text databases. A language model generation method characterized by generating a symbol chain probability (language model) by giving a weight to a text database.
は、注目記号について、各データベース中の出現回数に
そのデータベースの重みを与え、その合計値を全体のデ
ータベース中の出現回数として記号連鎖確率を生成する
ことを特徴とする請求項1乃至6の何れかに記載の言語
モデル生成方法。7. The method of generating a symbol chain probability by assigning a weight to a target symbol includes assigning a weight of the database to the number of appearances in each database, and using the total value as the number of occurrences in the entire database. The method according to claim 1, wherein a probability is generated.
は、注目記号について、各データベース中の出現頻度又
は記号連鎖確率にそのデータベースの重みを与え、その
全積算値を全体のデータベース中の出現頻度又は記号連
鎖確率として、記号連鎖確率を求めることを特徴とする
請求項1乃至7の何れかに記載の言語モデル生成方法。8. The method of generating a symbol chain probability by assigning a weight to an occurrence frequency or a symbol chain probability in each database for a symbol of interest is given a weight of the database, and the total integrated value of the symbol is calculated in the entire database. 8. The language model generation method according to claim 1, wherein a symbol chain probability is obtained as the appearance frequency or the symbol chain probability.
(言語モデル)とを用いて認識し、記号(単語)列とし
て出力する音声認識方法において、 上記記号連鎖確率として請求項1乃至8の何れかに記載
の方法により生成した言語モデルを用いることを特徴と
する音声認識方法。9. A speech recognition method for recognizing an input speech by using an acoustic model and a symbol chain probability (language model) and outputting the symbol as a sequence of symbols (words). A speech recognition method characterized by using a language model generated by the method according to any one of the first to third aspects.
をコンピュータに実行させるプログラムを記録した記録
媒体。10. A recording medium on which a program for causing a computer to execute the method according to claim 1 is recorded.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000268900A JP3628245B2 (en) | 2000-09-05 | 2000-09-05 | Language model generation method, speech recognition method, and program recording medium thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000268900A JP3628245B2 (en) | 2000-09-05 | 2000-09-05 | Language model generation method, speech recognition method, and program recording medium thereof |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002082690A true JP2002082690A (en) | 2002-03-22 |
| JP3628245B2 JP3628245B2 (en) | 2005-03-09 |
Family
ID=18755601
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000268900A Expired - Fee Related JP3628245B2 (en) | 2000-09-05 | 2000-09-05 | Language model generation method, speech recognition method, and program recording medium thereof |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3628245B2 (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2005122143A1 (en) * | 2004-06-08 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device and speech recognition method |
| JP2008165675A (en) * | 2007-01-04 | 2008-07-17 | Fuji Xerox Co Ltd | Language analysis system, language analysis method and computer program |
| WO2010021368A1 (en) * | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | Language model creation device, language model creation method, voice recognition device, voice recognition method, program, and storage medium |
| CN101847405A (en) * | 2009-03-23 | 2010-09-29 | 索尼公司 | Speech recognition device and method, language model generation device and method, and program |
| JP2015079035A (en) * | 2013-10-15 | 2015-04-23 | 三菱電機株式会社 | Speech recognition device and speech recognition method |
| US10748528B2 (en) | 2015-10-09 | 2020-08-18 | Mitsubishi Electric Corporation | Language model generating device, language model generating method, and recording medium |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9251135B2 (en) | 2013-08-13 | 2016-02-02 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
-
2000
- 2000-09-05 JP JP2000268900A patent/JP3628245B2/en not_active Expired - Fee Related
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2005122143A1 (en) * | 2004-06-08 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device and speech recognition method |
| US7310601B2 (en) | 2004-06-08 | 2007-12-18 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus and speech recognition method |
| JP2008165675A (en) * | 2007-01-04 | 2008-07-17 | Fuji Xerox Co Ltd | Language analysis system, language analysis method and computer program |
| WO2010021368A1 (en) * | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | Language model creation device, language model creation method, voice recognition device, voice recognition method, program, and storage medium |
| JP5459214B2 (en) * | 2008-08-20 | 2014-04-02 | 日本電気株式会社 | Language model creation device, language model creation method, speech recognition device, speech recognition method, program, and recording medium |
| CN101847405A (en) * | 2009-03-23 | 2010-09-29 | 索尼公司 | Speech recognition device and method, language model generation device and method, and program |
| JP2015079035A (en) * | 2013-10-15 | 2015-04-23 | 三菱電機株式会社 | Speech recognition device and speech recognition method |
| US10748528B2 (en) | 2015-10-09 | 2020-08-18 | Mitsubishi Electric Corporation | Language model generating device, language model generating method, and recording medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3628245B2 (en) | 2005-03-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1366490B1 (en) | Hierarchichal language models | |
| US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
| US6836760B1 (en) | Use of semantic inference and context-free grammar with speech recognition system | |
| US8200491B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
| US7143035B2 (en) | Methods and apparatus for generating dialog state conditioned language models | |
| JPH0320800A (en) | Method and device for recognizing voice | |
| CN111798840A (en) | Speech keyword recognition method and device | |
| JP2011065120A (en) | Voice recognition of all languages, and single letter input method utilizing voice recognition | |
| CN101334998A (en) | Chinese Speech Recognition System Based on Discriminative Fusion of Heterogeneous Models | |
| US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
| JP2002342323A (en) | Language model learning device, speech recognition device using the same, language model learning method, speech recognition method using the same, and storage medium storing those methods | |
| JP3628245B2 (en) | Language model generation method, speech recognition method, and program recording medium thereof | |
| JP2938866B1 (en) | Statistical language model generation device and speech recognition device | |
| JP2886121B2 (en) | Statistical language model generation device and speech recognition device | |
| JP4528540B2 (en) | Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program | |
| JP3913626B2 (en) | Language model generation method, apparatus thereof, and program thereof | |
| JP2938865B1 (en) | Voice recognition device | |
| JP3088364B2 (en) | Spoken language understanding device and spoken language understanding system | |
| Rai et al. | Keyword spotting--Detecting commands in speech using deep learning | |
| KR101095864B1 (en) | Apparatus and Method for Generating Multiple Recognition Candidates based on Confusion Matrix and Reliability in Speech Recognition of Continuous Numbers | |
| JP4362054B2 (en) | Speech recognition apparatus and speech recognition program | |
| JP5170449B2 (en) | Detection device, voice recognition device, detection method, and program | |
| JP5104732B2 (en) | Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof | |
| JP4674609B2 (en) | Information processing apparatus and method, program, and recording medium | |
| Patil et al. | Linear collaborative discriminant regression and Cepstra features for Hindi speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040305 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040525 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040723 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041116 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041207 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071217 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081217 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091217 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 9 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |