JP5585111B2 - Utterance content estimation device, language model creation device, method and program used therefor - Google Patents
Utterance content estimation device, language model creation device, method and program used therefor Download PDFInfo
- Publication number
- JP5585111B2 JP5585111B2 JP2010031255A JP2010031255A JP5585111B2 JP 5585111 B2 JP5585111 B2 JP 5585111B2 JP 2010031255 A JP2010031255 A JP 2010031255A JP 2010031255 A JP2010031255 A JP 2010031255A JP 5585111 B2 JP5585111 B2 JP 5585111B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- processing unit
- specific
- utterance
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 60
- 230000014509 gene expression Effects 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 38
- 238000010586 diagram Methods 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Description
本発明は、発話内容を推定する発話内容推定装置、言語モデルを作成する言語モデル作成装置、発話内容推定方法、言語モデル作成方法、発話内容推定プログラム、言語モデル作成プログラムに関する。 The present invention relates to an utterance content estimation device that estimates utterance content, a language model creation device that creates a language model, an utterance content estimation method, a language model creation method, an utterance content estimation program, and a language model creation program.
ユーザの発した音声(発話)から、その音声に対応する単語列を認識する音声認識装置が知られている。この種の音声認識装置の一つとして、あらかじめ記憶されている複数の内容別言語モデルに基づいて、音声認識処理を行う音声認識装置が広く知られている。 2. Description of the Related Art A voice recognition device that recognizes a word string corresponding to a voice from a voice (utterance) uttered by a user is known. As one of this type of speech recognition device, a speech recognition device that performs speech recognition processing based on a plurality of content-specific language models stored in advance is widely known.
内容別言語モデルは、特定の内容(話題など)を表す単語列において特定の単語が出現する確率を表すモデルである。例えば、テレビ番組を内容とする単語列においては、番組名や出演者名などの単語が出現する確率が大きくなり、スポーツを内容とする単語列においては、チーム名や運動用具名、選手名などの単語が出現する確率が大きくなる。 The content-specific language model is a model that represents the probability that a specific word appears in a word string that represents specific content (such as a topic). For example, in a word string that contains TV programs, the probability that a word such as a program name or performer name will appear increases, and in a word string that contains sports, a team name, exercise equipment name, player name, etc. The probability that this word will appear increases.
ところで、ユーザの一連の発話において、ひとかたまりの発話内であってもその内容が変化する場合がある。この場合、音声認識装置が1つの内容別言語モデルにのみ基づいて音声認識処理を行った場合、単語列を認識する精度が低下するおそれがある。一般的な音声認識装置は、ユーザの一連の発話を、1つの発話ごとに逐次的に音声認識処理する構成をとる。このことにより、音声認識結果を即時に出力することができる。ここで、1つの発話とは、話者の息継ぎや会話の間などによって時間的に分けられる音声のひとかたまりであり、言語的には文や節に相当することが多い。この際、音声認識する発話ごとに内容別言語モデルを選択することにより、一連の発話における内容の変化に適応することができる。しかし、1つの発話の内部で内容が変化する場合は、このような方法では対処できないおそれがある。 By the way, in a series of user's utterances, the contents may change even within a group of utterances. In this case, when the speech recognition apparatus performs speech recognition processing based only on one content-specific language model, the accuracy of recognizing a word string may be reduced. A general voice recognition apparatus has a configuration in which a series of user's utterances are sequentially subjected to voice recognition processing for each utterance. As a result, the voice recognition result can be output immediately. Here, one utterance is a group of sounds that are divided in time according to the breathing of the speaker, between conversations, and the like, and is often equivalent to sentences and clauses in terms of language. At this time, it is possible to adapt to changes in content in a series of utterances by selecting a content-specific language model for each utterance for speech recognition. However, if the content changes within one utterance, it may not be possible to cope with such a method.
そこで、非特許文献1に記載されている音声認識装置は、音声認識対象の発話内において、複数の内容別言語モデルを発話内の位置によって異なる重みで混合して用いるように構成されている。
Therefore, the speech recognition apparatus described in Non-Patent
しかし、非特許文献1に記載されている音声認識装置では、音声認識対象の発話内の位置によって異なる重みが適切に与えられない場合には、特定の内容の語句を認識する精度が低下するという問題がある。
However, in the speech recognition apparatus described in
そこで、本発明は、1つの発話の内部で内容が変化する場合であっても、発話に含まれる特定の内容の語句を高い精度で認識することができる発話内容推定装置、言語モデル作成装置、発話内容推定方法、言語モデル作成方法、発話内容推定プログラム、言語モデル作成プログラムを提供することを目的とする。 Accordingly, the present invention provides an utterance content estimation device, a language model creation device, which can recognize a specific phrase contained in an utterance with high accuracy even when the content changes within one utterance, It is an object to provide an utterance content estimation method, a language model creation method, an utterance content estimation program, and a language model creation program.
本発明による発話内容推定装置は、処理対象の発話を音声認識仮説に含まれる所定の要素に対応した複数の時間区間に分割した処理単位である第1処理単位のそれぞれに対して、当該第1処理単位の内容が予め定められた第1の特定の内容のそれぞれである確率を示す第1のスコアを、当該第1処理単位について抽出される、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内に第1の特定の内容と同時に現れる言語情報の組に基づく特徴である共起特徴とを用いて算出する第1の内容推定手段と、処理対象の発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、第1の内容推定手段によって算出された各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出する第2の内容推定手段と、第1の内容推定手段によって算出された各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第2の内容推定手段によって算出された各第2処理単位における第2の特定の内容それぞれについての第2のスコアとを併せて、発話内容の推定結果を示す情報として出力する推定結果出力手段とを備えたことを特徴とする。 The utterance content estimation apparatus according to the present invention provides a first processing unit for each first processing unit, which is a processing unit obtained by dividing a processing target utterance into a plurality of time intervals corresponding to predetermined elements included in a speech recognition hypothesis . Features based on information obtained in the process of speech recognition processing, wherein a first score indicating the probability that the content of the processing unit is each of predetermined first specific content is extracted for the first processing unit A first content estimation means for calculating using a recognition feature, a co-occurrence feature that is a feature based on a set of linguistic information that appears simultaneously with the first specific content in the utterance, and a plurality of utterances to be processed For each of the second processing units, which are processing units divided into the time intervals, the second specific content predetermined as the content in which the content of the second processing unit co-occurs with the first specific content the probability that each The to second score, the first score for a first respective specified contents of the first of each first processing unit, which is calculated by the contents estimation means, the respective relative occurrence of the first particular content 2 A second content estimation unit that is calculated based on the likelihood of appearance of the second specific content in the processing unit; and a first specific content in each first processing unit that is calculated by the first content estimation unit. together a first score for each, and a second score for a second respective specific contents of each of the second processing unit, which is calculated by the second content estimating means, shows the estimation results of the speech content An estimation result output means for outputting as information is provided.
また、本発明による言語モデル作成装置は、処理対象の発話を音声認識仮説に含まれる所定の要素に対応した複数の時間区間に分割した処理単位である第1処理単位のそれぞれに対して、当該第1処理単位の内容が予め定められた第1の特定の内容のそれぞれである確率を示す第1のスコアを、当該第1処理単位について抽出される、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内に第1の特定の内容と同時に現れる言語情報の組に基づく特徴である共起特徴とを用いて算出する第1の内容推定手段と、処理対象の発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、第1の内容推定手段によって算出された各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出する第2の内容推定手段と、第1の特定の内容に応じた第1の内容別言語モデルを記憶する第1の内容別言語モデル記憶手段と、第2の特定の内容に応じた第2の内容別言語モデルを記憶する第2の内容別言語モデル記憶手段と、第1の内容推定手段によって推定された各第1処理単位における第1の特定の内容それぞれについての確率を示す第1のスコアと、第2の内容推定手段によって推定された各第2処理単位における第2の特定の内容それぞれについての確率を示す第2のスコアと、第1の内容別言語モデル記憶手段に記憶されている第1の内容別言語モデルと、第2の内容別言語モデル記憶手段に記憶されている第2の内容別言語モデルとを用いて、処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成する言語モデル作成手段とを備えたことを特徴とする。 In addition, the language model creation device according to the present invention relates to each of the first processing units, which are processing units obtained by dividing the utterance to be processed into a plurality of time intervals corresponding to predetermined elements included in the speech recognition hypothesis. The first score indicating the probability that the content of the first processing unit is each predetermined first specific content is used as information obtained in the course of the speech recognition processing extracted for the first processing unit. A first content estimation unit that calculates using a recognition feature that is a feature based on a feature and a co-occurrence feature that is a feature based on a set of linguistic information that appears simultaneously with the first specific content in the utterance; against each of the second processing unit is a processing unit that is divided into a plurality of time intervals, said second specific contents of the second processing unit is predetermined as the content that co-occur with the first particular content each der of contents A second score indicating a probability, a first score for a first respective specified contents of the first of each first processing unit, which is calculated by the content estimating means, each for the emergence of the first particular content Second content estimation means for calculating based on the likelihood of appearance of the second specific content in the second processing unit, and a first content-specific language model corresponding to the first specific content are stored. 1 content-specific language model storage means, second content-specific language model storage means for storing a second content-specific language model corresponding to the second specific content, and first content estimation means A first score indicating the probability for each first specific content in each first processing unit, and a probability for each second specific content in each second processing unit estimated by the second content estimation means the second shows the 2 Using the score, the first content-specific language model stored in the first content-specific language model storage means, and the second content-specific language model stored in the second content-specific language model storage means And a language model creating means for creating a language model for each processing unit obtained by dividing an utterance to be processed into time sections.
また、本発明による発話内容推定方法は、処理対象の発話を音声認識仮説に含まれる所定の要素に対応した複数の時間区間に分割した処理単位である第1処理単位のそれぞれに対して、当該第1処理単位の内容が予め定められた第1の特定の内容のそれぞれである確率を示す第1のスコアを、当該第1処理単位について抽出される、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内に第1の特定の内容と同時に現れる言語情報の組に基づく特徴である共起特徴とを用いて算出し、処理対象の発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出し、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、各第2処理単位における第2の特定の内容それぞれについての第2のスコアとを併せて、発話内容の推定結果を示す情報として出力することを特徴とする。 In addition, the utterance content estimation method according to the present invention provides, for each of the first processing units, which are processing units obtained by dividing the utterance to be processed into a plurality of time intervals corresponding to predetermined elements included in the speech recognition hypothesis. The first score indicating the probability that the content of the first processing unit is each predetermined first specific content is used as information obtained in the course of the speech recognition processing extracted for the first processing unit. Calculating using the recognition feature that is based on the feature and the co-occurrence feature that is based on the set of linguistic information that appears simultaneously with the first specific content in the utterance, and divides the utterance to be processed into multiple time intervals For each second processing unit that is the processing unit, the probability that the content of the second processing unit is each second specific content that is predetermined as content that co-occurs with the first specific content. Second score to show , A first score for a first respective specified contents of the first processing unit, to the appearance of the ease of the second specific contents of the first particular each second processing units to the appearance of the contents Calculated based on the first score for each of the first specific contents in each first processing unit and the second score for each of the second specific contents in each second processing unit, The information is output as information indicating the estimation result of the utterance content.
また、本発明による言語モデル作成方法は、処理対象の発話を音声認識仮説に含まれる所定の要素に対応した複数の時間区間に分割した処理単位である第1処理単位のそれぞれに対して、当該第1処理単位の内容が予め定められた第1の特定の内容のそれぞれである確率を示す第1のスコアを、当該第1処理単位について抽出される、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内に第1の特定の内容と同時に現れる言語情報の組に基づく特徴である共起特徴とを用いて算出し、処理対象の発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出し、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、各第2処理単位における第2の特定の内容それぞれについての第2のスコアと、予め記憶されている第1の特定の内容に応じた第1の内容別言語モデルと、予め記憶されている第2の特定の内容に応じた第2の内容別言語モデルとを用いて、処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成することを特徴とする。 In addition, the language model creation method according to the present invention provides, for each first processing unit, which is a processing unit divided into a plurality of time intervals corresponding to a predetermined element included in the speech recognition hypothesis. The first score indicating the probability that the content of the first processing unit is each predetermined first specific content is used as information obtained in the course of the speech recognition processing extracted for the first processing unit. Calculating using the recognition feature that is based on the feature and the co-occurrence feature that is based on the set of linguistic information that appears simultaneously with the first specific content in the utterance, and divides the utterance to be processed into multiple time intervals For each second processing unit that is the processing unit, the probability that the content of the second processing unit is each second specific content that is predetermined as content that co-occurs with the first specific content. Second scoop showing And a first score for a first respective specified contents of the first processing unit, and the ease of occurrence of the second specific contents of the first particular each second processing units to the appearance of the contents The first score for each of the first specific contents in each first processing unit, the second score for each of the second specific contents in each second processing unit, and pre-stored The first specific language model corresponding to the first specific content and the second specific language model corresponding to the second specific content stored in advance are used for processing. A language model is created for each processing unit obtained by dividing an utterance into time intervals.
また、本発明による発話内容推定プログラムは、コンピュータに、処理対象の発話を音声認識仮説に含まれる所定の要素に対応した複数の時間区間に分割した処理単位である第1処理単位のそれぞれに対して、当該第1処理単位の内容が予め定められた第1の特定の内容のそれぞれである確率を示す第1のスコアを、当該第1処理単位について抽出される、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内に第1の特定の内容と同時に現れる言語情報の組に基づく特徴である共起特徴とを用いて算出する処理、処理対象の発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出する処理、および各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、各第2処理単位における第2の特定の内容それぞれについての第2のスコアとを併せて、発話内容の推定結果を示す情報として出力する処理を実行させることを特徴とする。 Further, the utterance content estimation program according to the present invention allows a computer to process each first processing unit, which is a processing unit divided into a plurality of time intervals corresponding to predetermined elements included in a speech recognition hypothesis. The first score indicating the probability that the content of the first processing unit is each of the first specific content determined in advance is obtained in the course of the speech recognition processing extracted for the first processing unit. Processing using a recognition feature, which is a feature based on the information to be obtained, and a co-occurrence feature, which is a feature based on a set of language information that appears simultaneously with the first specific content in the utterance, For each second processing unit that is a processing unit divided into time intervals, each second specific content that is predetermined as content that co-occurs with the first specific content. A second score indicating a certain probability, the first score for a first respective specified contents of the first processing unit, the second specific in each of the second processing units to the appearance of the first particular content Processing based on the easiness of appearance of the contents, and the first score for each of the first specific contents in each first processing unit and the second specific contents in each second processing unit In addition to the second score, a process of outputting the information indicating the estimation result of the utterance content is executed.
また、本発明による言語モデル作成プログラムは、コンピュータに、処理対象の発話を音声認識仮説に含まれる所定の要素に対応した複数の時間区間に分割した処理単位である第1処理単位のそれぞれに対して、当該第1処理単位の内容が予め定められた第1の特定の内容のそれぞれである確率を示す第1のスコアを、当該第1処理単位について抽出される、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内に第1の特定の内容と同時に現れる言語情報の組に基づく特徴である共起特徴とを用いて算出する処理、処理対象の発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出する処理、および各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、各第2処理単位における第2の特定の内容それぞれについての第2のスコアと、予め記憶されている第1の特定の内容に応じた第1の内容別言語モデルと、予め記憶されている第2の特定の内容に応じた第2の内容別言語モデルとを用いて、処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成する処理を実行させることを特徴とする。 In addition, the language model creation program according to the present invention allows a computer to process each first processing unit, which is a processing unit divided into a plurality of time intervals corresponding to predetermined elements included in a speech recognition hypothesis. The first score indicating the probability that the content of the first processing unit is each of the first specific content determined in advance is obtained in the course of the speech recognition processing extracted for the first processing unit. Processing using a recognition feature, which is a feature based on the information to be obtained, and a co-occurrence feature, which is a feature based on a set of language information that appears simultaneously with the first specific content in the utterance, For each second processing unit that is a processing unit divided into time intervals, the second specific content that is predetermined as the content that co-occurs with the first specific content. The In a second score that indicates a probability, the first score for a first respective specified contents of the first processing unit, the second in the first particular each second processing units to the appearance of the contents Processing calculated based on the easiness of appearance of specific content, the first score for each of the first specific content in each first processing unit, and the second specific content in each second processing unit The second score for each, the first content-specific language model corresponding to the first specific content stored in advance, and the second content corresponding to the second specific content stored in advance Using another language model, a process for creating a language model is executed for each processing unit obtained by dividing a speech to be processed into time intervals.
本発明によれば、1つの発話の内部で内容が変化する場合であっても、発話に含まれる特定の内容の語句を高い精度で認識することができる。 According to the present invention, even when the content changes within one utterance, it is possible to recognize a phrase having a specific content included in the utterance with high accuracy.
以下、本発明を実施するための形態について図面を参照して説明する。図1は、本発明の第1の実施形態の音声認識装置の構成例を示すブロック図である。図1に示す音声認識装置100は、音声認識部11と、第1の内容推定部21と、第1の内容モデル記憶部22と、第2の内容推定部31と、第2の内容モデル記憶部32と、言語モデル作成部41と、第1の内容別言語モデル記憶部42と、第2の内容別言語モデル記憶部43とを備える。
Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration example of the speech recognition apparatus according to the first embodiment of this invention. A
音声認識装置100は、例えば、中央処理装置(CPU;CentralProcessing Unit)、記憶装置(メモリおよびハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置および出力装置を備えたコンピュータによって実現される。
The
出力装置は、例えば、ディスプレイ装置である。出力装置は、CPUにより出力された画像情報に基づいて、文字および図形からなる画像を表示させる。また、出力装置は、データ記憶媒体やネットワークとのインタフェース機器であってもよい。そのような場合には、データ記憶媒体やネットワークを介して、音声認識結果の情報を出力する。 The output device is, for example, a display device. The output device displays an image made up of characters and figures based on the image information output by the CPU. The output device may be an interface device with a data storage medium or a network. In such a case, information on the speech recognition result is output via a data storage medium or a network.
入力装置は、例えば、マイクロホンである。入力装置は、例えば、マイクロホンの周囲(すなわち音声認識装置100の外部)の音声信号を入力する。また、入力装置は、データ記憶媒体やネットワークとのインタフェース機器であってもよい。そのような場合には、データ記憶媒体やネットワークを介して、音声信号を入力する。 The input device is, for example, a microphone. The input device inputs, for example, a voice signal around the microphone (that is, outside the voice recognition device 100). The input device may be an interface device with a data storage medium or a network. In such a case, an audio signal is input via a data storage medium or a network.
なお、本実施形態では、音声認識装置100は、外部から入力装置を介して音声信号を入力し、その入力された音声信号に対応する音声認識結果を出力するように構成されているものとする。
In this embodiment, the
本実施形態において、音声認識部11、第1の内容推定部21、第2の内容推定部31、言語モデル作成部41は、例えば、音声認識装置100が備えるCPUが、記憶装置に記憶されているプログラムに従い動作することにより実現される。または、論理回路等のハードウェアにより実現されていてもよい。また、第1の内容モデル記憶部22、第2の内容モデル記憶部32、第1の内容別言語モデル記憶部42、第2の内容別言語モデル記憶部43は、例えば、音声認識装置100が備える記憶装置によって実現される。
In the present embodiment, the
音声認識部11は、入力される音声信号に対して音声認識処理を行い、その音声信号に対応する音声認識仮説を出力する。本実施形態では、音声認識部11は、第1の内容推定部21と出力装置(図示せず)とに音声認識仮説を出力する。
The
音声認識部11は、音声認識処理において、入力された音声信号に対して、例えば、音声認識を行うためのモデル(例えば、音響モデルや言語モデル、単語辞書等を含む)の与えるスコアに従って、音声信号に適合する単語列を探索するといった一般的な処理を行えばよい。音声認識部11は、例えば、音響モデルとして隠れマルコフモデルを用い、言語モデルとして単語トライグラムなどを用いるようにしてもよい。なお、音声認識装置100は、これらのモデルをあらかじめ記憶装置に記憶している。
In the speech recognition processing, the
また、音声認識部11は、音声認識仮説として、例えば、音声信号に対応する語句の候補を1つの単語列として表現した結果情報(音声認識結果情報)を出力してもよい。また、例えば音声認識仮説として、複数の単語列を含む単語グラフやNベスト単語列の形式で表現した結果情報を出力するようにしてもよい。このとき、音声認識部11は、音声認識仮説として出力する単語列に含まれる各単語が、入力された音声信号のどの区間に対応するかを表す時間情報を含む結果情報を出力する。
In addition, the
第1の内容推定部21は、音声認識部11から出力された音声認識仮説を入力し、内容推定処理で用いるための処理単位列を生成し、生成した処理単位のそれぞれに対して、その内容を推定する。より具体的には、各処理単位の内容が特定の内容である確率(尤もらしさを示すスコア)を計算する。この値は、その内容が特定の内容である確率が高くなるほど大きくなる値であればよく、例えば、特定の内容の出現確率であってもよいし、特定の内容に対する尤度や重みと呼ばれる値であってもよい。
The first
第1の内容推定部21は、第1の内容モデル記憶部22に記憶されている内容モデルに基づいて、処理単位それぞれに対して、特定の内容に対するこのスコアを求める。以下、第1の内容推定部21が求めるスコアのことを第1のスコアと呼ぶ。第1の内容推定部21は、求めた第1のスコアを第2の内容推定部31と言語モデル作成部41とに出力する。
Based on the content model stored in the first content
第1の内容推定部21は、内容推定用の処理単位として、音声認識対象の発話の始端から終端までを複数の区間に分割したものを用いる。処理単位である各区間は、発話内におけるその区間の始端時刻と終端時刻によって定めてもよい。
The 1st
本実施形態では、第1の内容推定部21は、内容推定の処理単位として、音声認識仮説の単語列に含まれる各単語に対応する区間を用いる。なお、処理単位として、音声認識仮説に含まれる文字や音素に対応する区間を用いるようにしてもよい。このようにすることで、第1の内容推定部21は、入力された音声を、もれなく複数の区間に分割することができる。
In this embodiment, the 1st
また、本実施形態では、第1の内容推定部21が推定する特定の内容として、情報検索のための検索条件を用いる場合を例に説明する。情報検索のための発話では、検索条件が異なると、発話中に特定の単語が出現(存在)する確率が異なる。例えば、テレビ番組を検索するための発話の場合の検索条件に用いられる単語には、人名(タレント名やグループ名等を含む)や、番組名、番組ジャンル名(バラエティ、スポーツ等)、放送局名、時間表現(夕方、8時等)等が用いられる。本例の場合には、「人名」、「番組名」、「番組ジャンル名」、「放送局名」、「時間表現」といった検索条件に用いられる単語の括り名称(検索ワードの項目名、種別、属性とも呼ばれる)を内容推定のための特定の内容としてもよい。以下、第1の内容推定部21が内容推定に用いる特定の内容のことを第1の内容と呼ぶ。
In the present embodiment, a case where a search condition for information search is used as the specific content estimated by the first
このように、第1の内容推定部21は、発話内容を推定するために、発話中の区間(処理単位)ごとにその区間に対応する発話内容が第1の内容である確率を表す第1のスコアを算出する。従って、発話の途中で内容が変化する場合でも、それぞれの区間ごとに発話内容を推定することができる。
Thus, in order to estimate the utterance content, the first
第1の内容モデル記憶部22は、内容推定の処理単位と、その処理単位に対応する発話内容が複数の第1の内容のそれぞれである確率との関係を表す内容モデルの情報を記憶する。
The first content
例えば、内容モデルとして、条件付確率場(CRF:Conditional Random Fields)の理論に基づく確率モデルを用いてもよい。この内容モデルは、以下の式(1)により表される。 For example, a probability model based on the theory of conditional random fields (CRF) may be used as the content model. This content model is represented by the following equation (1).
P(C|W)=exp(Λ・Φ(W,C))/Z ・・・式(1) P (C | W) = exp (Λ · Φ (W, C)) / Z (1)
ここで、Wは内容推定の処理単位列である。また、Cは各処理単位に対応する内容のラベル列(第1の内容のラベル列)である。すなわち、式(1)の左辺P(C|W)は、処理単位列Wが表す内容のラベル列がCである確率を表す。また、Φ(W,C)は、処理単位列Wから抽出する特徴である。また、Λはその特徴のそれぞれの要素に対応する重み係数を表す情報である。また、Zは正規化項である。なお、exp()は、自然対数eを底とする数値のべき乗を求める関数を示している。 Here, W is a processing unit sequence for content estimation. C is a label string of contents corresponding to each processing unit (a label string of the first contents). That is, the left side P (C | W) of the equation (1) represents the probability that the label column of the content represented by the processing unit column W is C. Further, Φ (W, C) is a feature extracted from the processing unit sequence W. Λ is information representing a weighting coefficient corresponding to each element of the feature. Z is a normalization term. Note that exp () represents a function for obtaining the power of a numerical value with the natural logarithm e as the base.
第1の内容モデル記憶部22は、上記内容モデルを示す情報として、例えば、特徴Φの定義(抽出方法)と、それぞれの特徴に対応する重みΛとを記憶してもよい。なお、重みΛは、第1の内容によって異なる値としてもよい。第1の内容ごとに異なる値を与えることで、処理単位におけるそれぞれの内容の出現確率に差をつけることができる。また、本実施形態では、各処理単位について抽出する特徴として、認識特徴と共起特徴とを用いる。
The first content
認識特徴は、音声認識処理の過程で得られる情報に基づく特徴である。例えば、当該区間の音声認識の信頼度を用いてもよい。音声認識の信頼度は、その音声認識結果の正しさ(正確らしさ)と相関を持つ値である。例えば、音声認識処理後に計算される単語事後確率に基づく信頼度などを用いてもよい。このような特徴を用いることにより、第1の内容推定部21で、音声認識仮説に含まれる誤認識を検出しやすくなる。特に、情報検索のための検索条件に用いられる単語は誤認識されることが多いため、このような特徴を用いることはより好ましい。
The recognition feature is a feature based on information obtained in the process of speech recognition processing. For example, the reliability of speech recognition in the section may be used. The reliability of speech recognition is a value having a correlation with the correctness (accuracy) of the speech recognition result. For example, reliability based on word posterior probabilities calculated after voice recognition processing may be used. By using such a feature, the first
共起特徴は、発話内で同時に現れる言語情報(例えば、単語や品詞)の組に基づく特徴である。例えば、各処理単位が、ある第1の内容である場合において「先行区間に”単語X”がある」というように表現される特徴である。 A co-occurrence feature is a feature based on a set of linguistic information (for example, words and parts of speech) that appear simultaneously in an utterance. For example, when each processing unit has a certain first content, it is a feature expressed as “There is“ word X ”in the preceding section”.
図2は、第1の内容モデル記憶部22が記憶する特徴の情報の一例を示す説明図である。図2に示す例では、特徴の識別子であるIDと、その特徴の定義とが対応づけられて保持されている。例えば、図2では、ID=1として「当該区間の音声認識の信頼度」という特徴が定義づけられている。なお、この特徴は認識特徴の例である。また、例えば、ID=2として「先行する区間に「出」がある」という特徴が定義づけられている。この特徴は共起特徴の例である。この他にもID=3として「後続する区間に「出」がある」という特徴や、ID=4として「先行する区間に「浅野」がある」という特徴、ID=5として「後続する区間に「浅野」がある」という特徴の例が示されている。なお、共起特徴に用いられる単語(本例でいう「出」や「浅野」等)には、単語辞書に含まれるあらゆる単語を用いてもよい。また、これらの単語を選別する必要がある場合には、第1の内容と共起する単語を選別することがより好ましい。
FIG. 2 is an explanatory diagram illustrating an example of feature information stored in the first content
なお、共起特徴は、図2に示したように、ある単語について特徴抽出対象の処理区間に先行するか後続するかによって異なる特徴として扱うようにしてもよいし、前後のいずれかの区間に出現するかというように先行するか後続するかを問わず1つの特徴として扱ってもよい。また、共起特徴を、特徴抽出対象の処理区間の距離により区別して異なる特徴として扱うようにしてもよい。例えば、「隣接する」、「間に1つ挟む」、「間に2つ以上挟む」といった区別により、異なる特徴として扱うようにしてもよい。なお、この距離は、処理区間の数(すなわち、単語の数)であってもよいし、処理区間の発話内における始端時間と終端時間に基づく時間情報の形式(例えば、「30フレーム離れている」)で表される時間長であってもよい。 As shown in FIG. 2, the co-occurrence feature may be treated as a different feature depending on whether a certain word precedes or follows the processing interval of the feature extraction target. Regardless of whether it appears or not, it may be treated as one feature. In addition, the co-occurrence features may be treated as different features by distinguishing them according to the distance of the processing section to be extracted. For example, different features may be handled by distinction such as “adjacent”, “one sandwiched between”, and “two or more sandwiched between”. This distance may be the number of processing sections (that is, the number of words), or the format of time information based on the start time and end time in the utterance of the processing section (for example, “30 frames apart” )) May be used.
第1の内容推定部21は、例えば、入力された音声認識仮説において、ある処理単位の先行区間に「出」が出現している場合に、その処理単位の内容がある特定の第1の内容である場合における「先行区間に「出」が出現している」という特徴に対して、共起有りを示す特徴量=1を与えてもよい。なお、先行区間に「出」が出現しない場合には、これらは共起していないとして、共起無しを示す特徴量=0を与えればよい。図3は、第1の内容推定部21が抽出した特徴量の例を示す説明図である。図3では、例えば、第1の内容推定部21が、ある処理単位について、ID=1として定義されている特徴(「当該区間の音声認識の信頼度」)について0.3という値(特徴量)を抽出したことを示している。また、例えば、ID=2として定義されている特徴について1という値(特徴量)を抽出したことを示している。これは、その処理単位の先行する区間に「出」という単語が出現したことによる。また、例えば、ID=5として定義されている特徴について0という値(特徴量)を抽出したことを示している。これは、その処理単位の後続する区間に「浅野」という単語が出現しないことによる。なお、図3では、後述する図5に示す処理単位列における処理単位3について抽出した特徴量の例を示している。
For example, when “out” appears in a preceding section of a processing unit in the input speech recognition hypothesis, the first
また、図4は、第1の内容モデル記憶部22が記憶する重みの情報の一例を示す説明図である。図4に示す例では、特徴を識別するIDと、その特徴に対する第1の内容別の重みΛとが対応づけられて保持されている。なお、図4は、第1の内容が「人名」「ジャンル名」「その他」の3種類である場合の例である。例えば、図4では、ID=1の特徴について、「人名」に対しては重みΛ=0.4を、「ジャンル名」に対しては重みΛ=0.3を、「その他」に対しては重みΛ=−0.2を定めている。
FIG. 4 is an explanatory diagram showing an example of weight information stored in the first content
第1の内容推定部21は、各特徴に対して抽出した値(特徴量)と、別途第1の内容に応じて定められている重み係数(Λ)との積に基づいて、第1のスコアを計算する。なお、図4に示すように、第1の内容推定部21で推定する第1の内容に応じて、各特徴に対する重み係数が異なっているものが含まれていることが好ましい。換言すると、第1の内容別に重み係数が異なるような特徴が多く定義されていることが好ましい。これにより、第1の内容に応じて異なるスコアが得られ、処理単位におけるそれぞれの内容の出現確率に差をつけることができる。
Based on the product of the value (feature amount) extracted for each feature and the weighting factor (Λ) separately determined according to the first content, the first
ここで、第1の内容推定部21が発話中の区間ごとに第1のスコアを算出する方法について具体例を用いて説明する。以下では、内容推定の処理単位が音声認識仮説の各単語に対応する区間であり、かつ第1の内容モデルとしてCRFを用いる場合を例示する。図5は、処理対象の発話に対して入力された音声認識仮説から生成される処理単位列の例を示す説明図である。なお、図5(a)は、処理対象の発話の例を示す説明図である。また、図5(b)は、入力される音声認識仮説の単語列の例を示す説明図である。また、図5(c)は、生成した処理単位列の例を示す説明図である。図5(a)に示すように、例えば、処理対象の発話が「明日のでエグザイルとかが出ている音楽番組」であった場合に、図5(b)で示すような音声認識仮説が得られたとする。なお、図5(b)では、音声認識仮説として示された単語列が、「浅野/出/不在/る/とか/が/出/て/いる/音楽番組」であることが示されている。ここで”/”は単語の区切りを示している。また、各単語の発話内位置が、単語1:「浅野」=0〜30、単語2:「出」=30〜40、単語3:「不在」=40〜60、単語4:「る」=60〜75、単語5:「とか」=75〜95、単語6:「が」=95〜105、単語7:「出」=105〜115、単語8:「て」=115〜125、単語9:「いる」=125〜140、単語10:「音楽番組」=140〜200であることが示されている。このような場合に、第1の内容推定部21は、例えば、入力される音声認識仮説の単語列に含まれる各単語に対応する区間ごとに、処理単位を生成する。すなわち、単語1に対応する区間に対して処理単位1を生成し、単語2に対応する区間に対して処理単位2を生成し、以下繰り返しで、最後に単語10に対応する区間に対して処理単位10を生成することによって処理単位1〜10からなる処理単位列を生成する。
Here, a method of calculating the first score for each section in which the first
次に、第1の内容推定部21は、生成した処理単位それぞれに対して、第1の内容モデル記憶部22に記憶されている内容モデルを参照して、各処理単位の内容が、与えられる第1の内容それぞれである確率を計算する。本例では、第1の内容推定部21は、処理単位列W(処理単位の単語)が取りうる全ての内容Cの組み合わせを表現するラティス(グラフ構造)において、各ノードの事後確率を計算する。
Next, the first
例えば、内容Cの候補(すなわち、与えられる第1の内容)が「人名」「ジャンル名」「その他」の3種類である場合、第1の内容推定部21は、図6に示すようなラティスを生成する。図6は、第1の内容推定部21が生成するラティスの例を示す説明図である。図6に示す例では、各処理単位の単語が、それぞれ内容a:「人名」、内容b:「ジャンル名」、内容c:「その他」であった場合の組み合わせを表現している。
For example, when the content C candidates (that is, the given first content) are three types of “person name”, “genre name”, and “others”, the first
図6において、例えば、ノード「1a」は、処理単位1に対応する単語1(図5(b)の例では「浅野」)が「人名」である状態を示している。また、例えばノード「1b」は、処理単位1に対応する単語1が「ジャンル名」である状態を示している。また、例えばノード「1c」は、処理単位1に対応する単語1が「その他」である状態を示している。同様に、例えば、ノード「3a」は、処理単位3に対応する単語3(図5(b)の例では「不在」)が「人名」である状態を示している。
In FIG. 6, for example, the node “1a” indicates a state in which the
第1の内容推定部21は、各ノードについて、例えば、図2に例示する特徴の定義に基づき特徴量となる値を抽出し、抽出したこれらの値(図3参照。)と、図4に例示する各特徴に対応する重み係数(ここでは、当該ノードに対応づけらえた内容に与えられた重み係数を用いる)の積に基づいて第1のスコアを計算する。
The first
以下に、前述の式(1)に基づいて、各ノードにおける事後確率を求める方法の一例を示す。事後的な出現確率(事後確率)p(Ci=j|W)は、前向きアルゴリズムと後向きアルゴリズムを用いた再帰的な計算により算出する。ここで、Ci=jは、i番目の処理単位の内容が内容jであることを示す。第1の内容推定部21は、この事後確率pを、当該区間における各内容の出現確率として求める。図7は、第1の内容推定部21が算出した各処理区間の各内容の出現確率(第1のスコア)の例を示す説明図である。図7に示すように、第1の内容推定部21は、処理単位の区間ごとにそれぞれの内容(第1の内容)の出現確率を第1のスコアとして出力する。図7に示す例では、例えば、処理単位1における「その他」の出現確率と「人名」の出現確率とが0.4〜0.5あたりの値であり、「ジャンル名」の出現確率がゼロに近い値であることが示されている。
Below, an example of the method of calculating | requiring the posterior probability in each node based on above-mentioned Formula (1) is shown. The a posteriori appearance probability (a posteriori probability) p (Ci = j | W) is calculated by a recursive calculation using a forward algorithm and a backward algorithm. Here, Ci = j indicates that the content of the i-th processing unit is content j. The first
なお、第1の内容モデルであるCRFのモデルパラメタは、予め対応付けられたモデルの入力(W:処理単位列)と、モデルの出力(C:内容のラベル列)との組み合わせの組を学習データとして、前述の式(1)の対数尤度を最大化する基準に従って反復計算法等により最適化することによって学習されてもよい。CRFを用いた識別、識別結果の事後確率の計算、モデルパラメタの学習の具体的方法は、例えば、文献「J.Laffery, A.McCallum, F.Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", Proceedings of 18th International Conference of MachineLearning, 2001, p.282-289 」(非特許文献2)に記載されている方法を用いてもよい。 Note that the model parameter of the CRF that is the first content model is a combination of a model input (W: processing unit sequence) and a model output (C: content label sequence) associated in advance. The data may be learned by optimizing by an iterative calculation method or the like according to the criterion for maximizing the log likelihood of the above-described equation (1). Specific methods of identification using CRF, calculation of posterior probabilities of identification results, and learning of model parameters are described in, for example, the literature “J. Laffery, A. McCallum, F. Pereira,“ Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data ", Proceedings of 18th International Conference of Machine Learning, 2001, p.282-289" (Non-Patent Document 2) may be used.
第2の内容推定部31は、第1の内容推定部21が出力する各処理単位についての各内容(第1の内容)に対する第1のスコアと、第2の内容モデル記憶部32に記憶されている第2の内容モデルとに基づいて、各処理単位それぞれに対して、その区間の内容が特定の内容である確率(尤もらしさを示すスコア)を求める。以下、第2の内容推定部31が求めるスコアを第2のスコアと呼ぶ。第2の内容推定部31は、求めた第2のスコアを言語モデル作成部41に出力する。
The second
第2の内容推定部31は、処理単位として、第1の内容推定部21と同様に、音声認識対象の発話を複数の区間に分割したものを用いる。本実施形態では、第1の内容推定部21が生成した処理単位を用いるものとする。なお、第2の内容推定部31は、第1の内容推定部21が生成したものとは異なる時間区間を、スコア算出の処理単位として用いてもよい。
Similar to the first
本実施形態では、第2の内容推定部31は、推定する特定の内容として、第1の内容推定部21で用いた特定の内容(第1の内容)と共起する内容(すなわち、前後表現)を用いる。以下、第2の内容推定部31が内容推定に用いる特定の内容のことを第2の内容と呼ぶ。情報検索のための発話では、検索条件を表す単語の前後に、検索条件によって異なる特定の表現(言い回し)が頻出する。例えば、テレビ番組を検索するための発話の場合、「人名」の検索条件を表す単語には、「出演している」などの言い回し表現がよく現れる。本例では、第1の内容に対して、対応する言い回し表現を第2の内容として定める。
In the present embodiment, the second
例えば、第1の内容推定部21で「人名」という表現の括りを第1の内容として用いる場合、第2の内容推定部31では、「人名の言い回し表現」を第2の内容として用いる。また、例えば、第1の内容推定部21で、「人名」「ジャンル名」「その他」を第1の内容として用いる場合、第2の内容推定部31は、「人名の言い回し表現」「ジャンル名の言い回し表現」を第2の内容として用いてもよい。なお、本例では「その他」については特に頻出する言い回し表現はないものとして「その他の言い回し表現」は第2の内容として用いない。
For example, when the first
第2の内容モデル記憶部32は、各処理単位における第2の内容の出現しやすさを表す情報を含む第2の内容モデルの情報を記憶する。図8は、第2の内容モデルを示す情報として記憶されるパラメタの例を示す説明図である。図8に示す例では、第2の内容モデル記憶部32は、第2の内容ごとに、その出現しやすさに対して与えるスコア(隣接処理単位への付与スコア)を保持する。なお、第1の内容推定で用いる共起特徴として、処理単位と共起する位置関係(前後や距離)によって区別して定義する場合は、その位置関係ごとに異なる値を保持するようにしてもよい。
The second content
第2の内容推定部31は、第2のスコアの算出方法として、各処理単位で最も第1のスコアが大きい第1の内容に基づき、その処理単位に隣接する処理単位における当該第1の内容に対応した第2の内容(言い回し表現)についての第2のスコアが大きくなるように、スコアを与える。例えば、各処理単位で最も第1のスコアが大きい第1の内容に対応する第2の内容に応じて定められているスコア(出現しやうさに対して付与される値)を、その隣接する処理単位に付与する処理を行うことによって、各処理単位について第2の内容である確率を示す第2のスコアを求めてもよい。
As the second score calculation method, the second
ここで、図5(c)に示した処理単位3を例に用いて、第2の内容推定部31での第2のスコアの算出方法について説明する。第2の内容推定部31は、図7に示す例では、この処理単位3における最も大きい第1のスコアが「人名」のスコア(第1の確率)であるため、図8に示した第2の内容モデルに従い、この処理単位3に隣接する処理単位に0.4というスコアを与える。図9は、第2の内容推定部31が算出した第2のスコアの例を示す説明図である。図9では、図8に示した第2の内容モデルに従って、隣接する4つの処理単位までスコアを与えている。なお、図9に示す例では、同じく「人名」のスコアが最も高い処理単位を除いてスコアを与える例を示しているが、処理単位ごとに単純に隣接する処理単位にスコアを付与してもよい。そのような場合に、例えば、処理単位ごとの隣接処理単位への付与処理によって重複してスコアが与えられる処理単位については、与えるスコア値を調整した上で付与するようにしてもよい。なお、既に説明したように、単純に2倍されるように付与してもよいし、重複してはスコアを与えないようにしてもよい。
Here, the calculation method of the 2nd score in the 2nd
また、第2の内容推定部31は、隣接する処理単位にスコアを与える際に、第1のスコアの大きさによって、第2の内容モデルの値に重みづけてスコアを与えてもよい。例えば、ある処理単位に対して算出された第1のスコアが所定の値よりも小さい場合は、それに基づいて付与するスコアをその分小さくするなどの処理を行うようにしてもよい。また、第1の内容推定で用いる共起特徴として、処理単位と共起する位置関係(前後や距離)により区別された特徴が用いられている場合には、その位置関係ごとに第2の内容のスコアを変えて与えてもよい。例えば、先行する処理単位と後続する処理単位に異なる値を与えたり、1つ隣の処理単位と2つ以上離れた処理単位に異なる値を与えたりするようにしてもよい。
The second
また、既に説明したように、第2の内容推定部31は、第1の内容推定部21とは異なる時間単位をスコア算出の処理単位としてもよい。そのような場合には、第2の内容推定部31は、第1の内容推定部21の各処理単位で最も第1のスコアが大きい第1の内容に基づき、その処理単位(第1の内容推定部21での処理単位)に隣接する処理単位(ここでは、第2の内容推定部31での処理単位)に対して、当該第1の内容に対応した第2の内容(言い回し表現)についての第2のスコアが大きくなるように、スコアを与えればよい。例えば、第1の内容推定部21の処理単位を「単語」単位とし、第2の内容推定部31の処理単位を「フレーム」単位とする場合には、その単語の前後数フレームに対して、スコアを与えるといった処理を行うことも可能である。
Further, as already described, the second
また、第2の内容推定部31が、第1のスコアと第2のスコアの両方を出力するようにし、その際、第1の内容推定部21で求めた第1の内容に対する各スコア(第1のスコア)と、第2の内容推定部31で求めた第2の内容に対する各スコア(第2のスコア)を処理単位ごとに正規化して出力するようにしてもよい。正規化して出力することで、入力された処理対象の発話について、第1の内容である確率と第2の内容である確率とを総合して評価した発話内容推定結果を出力することができる。なお、第1の内容推定部21と第2の内容推定部31で異なる処理単位を用いる場合は小さい方の処理単位に合わせればよい。
In addition, the second
なお、本発明を発話内容推定装置として実現する場合には、第1の内容推定部21によって算出された第1のスコアと、第2の内容推定部31によって算出された第2のスコアとを併せて、処理対象の発話内容の推定結果を示す情報として出力してもよい。例えば、推定結果出力部(図示せず。)を設けて、第1のスコアと第2のスコアとを入力し、それらに基づいて処理対象の発話内容の推定結果を示す情報を出力させてもよい。なお、推定結果出力部は、第1のスコアと第2のスコアを含む情報をそのまま処理対象の発話内容の推定結果を示す情報として出力してもよいし、上記で説明したように第1のスコアと第2のスコアを処理単位ごとに正規化したものを処理対象の発話内容の推定結果を示す情報として出力してもよい。なお、各内容推定部がこの推定結果出力部の機能を兼用し、それぞれが求めたスコアを出力してもよいし、第2の内容推定部31がまとめて出力することで推定結果出力部を兼用してもよい。
When the present invention is implemented as an utterance content estimation device, the first score calculated by the first
図10および図11は、第2の内容推定部31が算出する第2のスコアの他の例を示す説明図である。なお、図10は、処理単位と共起する位置の関係として距離に応じて共起特徴を分類した場合の第2のスコアの付与例を示す説明図である。また、図11は、処理単位と共起する位置の前後関係に応じて共起特徴を分類した場合の第2のスコアの付与例を示す説明図である。なお、図10および図11とも、「人名の言い回し表現」についての第2のスコアの付与例を示している。
10 and 11 are explanatory diagrams illustrating other examples of the second score calculated by the second
言語モデル作成部41は、算出された第1のスコアと、算出された第2のスコアと、第1の内容別言語モデル記憶部42に記憶されている第1の内容別言語モデルと、第2の内容別言語モデル記憶部43に記憶されている第2の内容別言語モデルとに基づいて、音声認識対象の発話のうち、処理単位ごとに特定の単語が出現する確率を表す言語モデルを作成する。また、言語モデル作成部41は、作成した言語モデルを音声認識部11に出力する。
The language
第1の内容別言語モデル、第2の内容別言語モデル、言語モデル作成部41の作成する言語モデルは、例えば、ある単語が出現する確率がその直前のN−1個の単語に依存すると定義したNグラム言語モデルであってもよい。
The language model created by the first content-specific language model, the second content-specific language model, and the language
Nグラム言語モデルにおいて、i番目の単語wiの出現確率はP(wi|Wi−N+1 i−1)により表される。ここで、条件部のWi−N+1 i−1は、(i−N+1)〜(i−1)番目の単語列を表す。なお、N=2のモデルをバイグラム(bigram)モデル、N=3のモデルをトライグラム(trigram)モデルと呼ぶ。また、直前の単語に影響されないとの仮定に基づいて構築されたモデルをユニグラム(unigram)モデルと呼ぶ。 In the N-gram language model, the appearance probability of the i-th word w i is represented by P (w i | W i−N + 1 i−1 ). Here, W i−N + 1 i−1 in the condition part represents the (i−N + 1) to (i−1) th word string. The model with N = 2 is called a bigram model, and the model with N = 3 is called a trigram model. A model constructed based on the assumption that it is not affected by the immediately preceding word is called a unigram model.
Nグラム言語モデルによれば、単語列Wi n=(w1,w2,・・・,wn)が出現する確率P(Wi n)は以下の式(2)により表される。 According to the N-gram language model, the probability P (W i n ) that the word string W i n = (w 1 , w 2 ,..., W n ) appears is expressed by the following equation (2).
P(Wi n)=ΠiP(wi|Wi−N+1 i−1) ・・・式(2) P (W i n ) = Π i P (w i | W i−N + 1 i−1 ) (2)
また、このようなNグラム言語モデルに用いられる種々の単語の種々の条件付き確率からなるパラメタは、学習用テキストデータに対する最尤推定等により求められる。 In addition, a parameter composed of various conditional probabilities of various words used in such an N-gram language model is obtained by maximum likelihood estimation or the like for learning text data.
言語モデル作成部41は、例えば、第1のスコアおよび第2のスコアによって示される、音声認識対象の発話の各区間における各内容(第1の内容および第2の内容)の確率と、第1の内容別言語モデル記憶部42および第2の内容別言語モデル記憶部43に記憶されている複数の内容別言語モデルとを用い、次の式(3)に従って、言語モデルを作成してもよい。
The language
Pt(wi)=Σjαj(t)Pj(wi) ・・・式(3) P t (w i ) = Σ j α j (t) P j (w i ) (3)
式(3)において、Pt(wi)は単語wiが区間tにおいて出現する確率である。また、αj(t)は、区間tにおける内容が内容jである確率(スコア)である。またPj(wi)は内容jに対する内容別言語モデルにおける単語wiが出現する確率である。本例では、言語モデル作成部41は、第1の内容推定部21および第2の内容推定部31により計算されたスコア(発話内の各区間における内容の出現確率)を、式(3)のαj(t)として用いる。ここで、第1の確率と第2の確率とで異なる係数をかけたものを式(3)のαj(t)として用いるようにしてもよい。
In Expression (3), P t (w i ) is a probability that the word w i appears in the section t. Α j (t) is a probability (score) that the content in the section t is the content j. P j (w i ) is a probability that the word w i appears in the content-specific language model for the content j. In this example, the language
ここで、式(3)のtは、音声認識処理において用いられる時間フレームに対応する区間であってもよく、発話内の時点を表す時刻等であってもよい。 Here, t in Expression (3) may be a section corresponding to a time frame used in the speech recognition processing, or may be a time representing a time point in the utterance.
第1の内容別言語モデル記憶部42に記憶されている第1の内容別言語モデルは、第1の内容それぞれを表現する単語を含む単語列を学習データとして用いる。例えば、検索条件を表現する単語リストを用意しておき、それらを含む単語列を学習データとして用いてもよい。
The first content-specific language model stored in the first content-specific language
また、第2の内容別言語モデル記憶部43に記憶されている第2の内容別言語モデルは、第2の内容それぞれを表現する単語を含む単語列を学習データとして用いる。なお、検索条件ごとに、後述するような特定の表現として選別された言い回し表現のリストを用意しておき、それらを含む単語列を学習データとして用いてもよい。
The second content-specific language model stored in the second content-specific language
図12は、単語リストの例を示す説明図である。なお、図12(a)は、第1の内容の単語リストの一例を示す説明図であって、図12(b)は、第2の内容の単語リストの一例を示す説明図である。例えば、図12(a)では、第1の内容「人名」については、「エグザイル」などの単語が含まれている。 FIG. 12 is an explanatory diagram illustrating an example of a word list. FIG. 12A is an explanatory diagram illustrating an example of a word list having a first content, and FIG. 12B is an explanatory diagram illustrating an example of a word list having a second content. For example, in FIG. 12A, the first content “person name” includes a word such as “Exile”.
なお、第2の内容の単語リストに関して、本例では、第2の内容に含まれる特定の表現(言い回し表現)を第1の内容モデルに従って定める。ここで、第2の内容に含まれる特定の表現とは、第2の内容である「人名の言い回し表現」という表現の括りに対して「出演している」というような具体的な表現のことである。具体的には、第1の内容モデルとして学習したCRFのパラメタのうち、第1の内容ごとに、その内容の推定に寄与の大きい単語を選別する。例えば、図4に示したパラメタ(重み)の例の場合、第1の内容「人名」に対して重み係数の大きい特徴(ID=2)に用いられている単語「出」を特定の表現とし、その他は特定の表現としない、というように選別する。なお、特定の表現は1つに限らず、いくつ定めてもよい。 Regarding the second content word list, in this example, a specific expression (phrase expression) included in the second content is determined according to the first content model. Here, the specific expression included in the second content is a specific expression such as “appearing” in relation to the expression of the expression “personal expression” in the second content. It is. Specifically, among the CRF parameters learned as the first content model, for each first content, a word that greatly contributes to the estimation of the content is selected. For example, in the case of the parameter (weight) example shown in FIG. 4, the word “out” used for the feature (ID = 2) having a large weighting coefficient with respect to the first content “person name” is a specific expression. , And others are not selected as specific expressions. Note that the number of specific expressions is not limited to one, and any number may be determined.
このような場合に、言語モデル作成部41は、第2の内容の単語リストのうち、第1の内容モデルに従って選別された特定の表現に対してのみαj(t)に第2のスコアを反映させるようにしてもよい。例えば、図12(b)に示す例では、第2の内容「人名の言い回し表現」については、「出演する」「出ている」「司会の」といった例が示されているが、特定の表現として「出」という単語のみが選別された場合には「出」が用いられている「出ている」といった単語に対してのみ、αj(t)に第2のスコアを反映させる。これにより、共起関係の小さい言い回し表現に対して第2のスコアが過剰に反映されることを防ぐことができる。なお、特定の表現か否かの判定は、このように単語単位で行う方法に限らず、例えば単語の一部が一致するものも含むように判定を行うことも可能である。そのような場合には、「出演する」といった単語も選別されるようになる。また、第2の内容についての特定の表現の選別は、第1の内容モデルの学習と同じタイミングで行えばよい。すなわち、本実施形態の一連の処理より前に予め行っておけばよい。なお、何を「第1の内容」および「第2の内容」とするか、すなわち「第1の内容」および「第2の内容」の選定についても、処理対象の発話の種類や内容推定の目的等に応じて予め行われているものとし、本実施形態では一連の処理を開始する際には設定値として与えられているものとする。
In such a case, the language
このように、内容別言語モデルを学習することにより、特定の内容を表現する単語について、異なる内容別言語モデルでは異なる出現確率が与えられるようになる。 In this way, by learning the content-specific language model, different appearance probabilities are given to words expressing specific content in different content-specific language models.
なお、内容別言語モデル記憶部42,43は、特に認識したい単語のリストとして、上述した単語リストを記憶させていてもよい。この場合、言語モデル作成部41は、発話内の各区間において、例えば、最もスコアが大きい内容に対する単語リストに含まれる単語が出現する確率を所定の値だけ増加させるように構成されていてもよい。
The content-specific language
なお、言語モデル作成部41は、作成した言語モデルを出力する際に、言語モデルに含まれる情報をすべて出力してもよいし、外部から指定された情報のみを出力してもよい。
Note that the language
このように、言語モデル作成部41は、音声認識対象の発話の区間ごとに、その区間における各内容の出現確率の推定結果を重み係数として、各内容別言語モデルの重み付け言語モデルを作成する。
As described above, the language
後段で、音声認識部11が言語モデル作成部41によって作成された言語モデルを用いることにより、区間ごとに精度のよい言語モデルを用いて音声認識処理を行うことができるため、より正確な音声認識結果を出力することができる。
In the subsequent stage, since the
次に、図13に示すフローチャートを参照して、本実施形態の動作について説明する。図13は、本実施形態の音声認識装置100の動作の一例を示すフローチャートである。図13に示すように、音声認識装置100は、起動されると、記憶デバイス等から必要なデータを読み出し、音声認識部11、第1の内容推定部21、第2の内容推定部31および言語モデル作成部41から参照できるように、第1の内容モデル記憶部22、第2の内容モデル記憶部32、第1の内容別言語モデル記憶部42および第2の内容別言語モデル記憶部43にデータを展開する等の初期化処理を行う(ステップS11)。
Next, the operation of this embodiment will be described with reference to the flowchart shown in FIG. FIG. 13 is a flowchart showing an example of the operation of the
一方、音声認識部11は、入力装置からの通知に応じて音声信号を受け付け、音声認識処理を行う(ステップS12)。また、音声認識部11は、音声認識処理によって得た音声認識仮説を第1の内容推定部21に出力する。
On the other hand, the
次に、第1の内容推定部21は、第1の内容モデル記憶部22に記憶されている第1の内容モデルに基づいて、すでに述べた方法などにより、音声認識仮説から生成した処理単位列に含まれる各処理単位に対応する内容が、特定の内容(第1の内容)である確率である第1のスコアを算出する(ステップS13)。
Next, the first
次に、第2の内容推定部31は、第1の内容推定部21により推定された各処理単位の各内容(第1の内容)の出現確率(第1のスコア)と、第2の内容モデル記憶部32に記憶されている第2の内容モデルとに基づいて、すでに述べた方法などにより、各処理単位に対応する内容が、特定の内容(第2の内容)である確率である第2のスコアを算出する(ステップS14)。
Next, the second
次に、言語モデル作成部41は、第1の内容推定部21および第2の内容推定部31により推定された各処理単位の各内容(第1の内容および第2の内容)の出現確率(第1のスコアと第2のスコア)と、第1の内容別言語モデル42および第2の内容別言語モデル43に記憶されている内容別言語モデルとに基づいて、音声認識対象の発話内の位置ごとに、特定の単語が出現する確率を表す言語モデルを作成する(ステップS15)。また、言語モデル作成部41は、作成した言語モデルを音声認識部11に出力する。
Next, the language
次に、音声認識部11は、言語モデル作成部41により作成された言語モデルを用いて、音声認識対象の発話を音声認識処理し、音声認識仮説を結果情報として出力装置に出力する(ステップS16)。
Next, the
このような一連の処理により、より正確な音声認識仮説を得ることができる。なお、音声認識部11は、この時点の音声認識仮説を再び第1の内容推定部21に出力してもよい(ステップS13に戻る)。
Through such a series of processes, a more accurate speech recognition hypothesis can be obtained. Note that the
すなわち、本実施形態によれば、音声認識対象の発話の内容を推定する際に、第1の内容(例えば、どの検索条件であるか)を推定するだけでなく、その推定結果に基づいて、第1の内容の共起する単語の表現である第2の内容(例えば、どの検索条件の言い回し表現であるか)も推定する。これにより、音声認識対象の発話内で変化する内容を誤って推定することを回避することができる。 That is, according to the present embodiment, when estimating the content of the speech of the speech recognition target, not only the first content (for example, which search condition is), but also based on the estimation result, The second content (for example, which search condition is a wording expression) that is an expression of a word that co-occurs with the first content is also estimated. Thereby, it can avoid estimating the content which changes within the speech of speech recognition object erroneously.
これは、第2の内容推定部31が、第1の内容推定部21で用いた特定の内容の前後表現を第2の内容として内容推定を行うことによって、発話に対する内容の出現確率が正確になるからである。例えば、第1の内容推定部21の出力が図7で示した出現確率の場合、処理単位1では、「その他」である確率と「人名」である確率とが同等程度となっている。これは、処理単位2に「出」があることなどの影響によって「人名」である確率が高くなることによる。仮にこの出現確率を用いて、後段で、後述する言語モデル作成部41で作成した言語モデルを用いて音声認識部11で音声認識を行うと、この区間では「人名」の内容別言語モデルの重みを大きくして認識するため、この区間の認識結果は「人名」の内容の単語(例えば、「浅野」)となり、認識誤り(検索条件の挿入誤り)が発生する可能性が大きくなる。
This is because the second
しかし、第2の内容推定部31が、処理単位1に対して「人名の言い回し表現」の内容の出現確率を多く与えることにより、相対的に「人名」である確率を小さくすることができる。これにより、発話に対する内容の出現確率が正確になる。すると、後段の音声認識部11で、正確な音声認識仮説(本例では、「明日の」)が得られるようになる。
However, when the second
情報検索のための発話では、検索条件の単語では認識誤りが多く、言い回し表現の単語は認識誤りが少ない傾向にある。また、表現のバリエーションについては前者の方が大きい傾向にある。第1の内容推定部21では、このような発話の傾向を利用して、比較的認識しやすく、バリエーションの少ない言い回し表現を手がかりにして、検索条件の区分を推定している。このため、第1の内容推定部21で「言い回し表現」の内容も同時に推定するのは比較的難しい。一方で、第1の内容推定部21で「検索条件」の内容は、比較的推定しやすいため、第2の内容推定部31では、検索条件の存在を手がかりにして、その前後に存在する言い回し表現の区間を推定することができる。
In utterances for information retrieval, there are many recognition errors in words of search conditions, and words in phrase expressions tend to have few recognition errors. In addition, the former tends to be larger for variations of expression. Using the utterance tendency, the first
このように、第2の内容推定部31は、第1の内容(検索条件)だけでなく、第2の内容(言い回し表現)についても発話内の区間ごとに出現確率を推定することにより、音声認識対象の発話に対して適切にその内容を推定することができる。
As described above, the second
従って、音声認識装置100では、発話内の特定の内容をより正確に推定することができる。この結果、音声認識装置100は、その発話に含まれる特定の内容の語句をより正確に認識することができる。
Therefore, the
次に、本発明の概要について説明する。図14および図15は、本発明の概要を示すブロック図である。図14は、本発明を発話内容推定装置に適用した場合の構成例を示すブロック図である。図14に示す発話内容推定装置は、第1の内容推定手段101と、第2の内容推定手段102と、推定結果出力手段103とを備える。 Next, the outline of the present invention will be described. 14 and 15 are block diagrams showing an outline of the present invention. FIG. 14 is a block diagram showing a configuration example when the present invention is applied to an utterance content estimation apparatus. The utterance content estimation apparatus shown in FIG. 14 includes first content estimation means 101, second content estimation means 102, and estimation result output means 103.
第1の内容推定手段101は、処理対象の発話を時間区間に分割した処理単位の内容が、第1の特定の内容である確率を推定する。なお、第1の内容推定手段101は、上記実施形態における第1の内容推定部21によって実現される。
The first
第2の内容推定手段102は、処理対象の発話を時間区間に分割した処理単位の内容が、第1の特定の内容の単語と共起する単語の内容として定めた第2の特定の内容である確率を推定する。なお、第2の内容推定手段102は、上記実施形態における第2の内容推定部31によって実現される。
The second content estimation means 102 is the second specific content that is defined as the content of the word that co-occurs with the word of the first specific content, in which the content of the processing unit obtained by dividing the utterance to be processed into time intervals. Estimate a certain probability. The second
推定結果出力手段103は、第1の内容推定手段101によって推定された各処理単位における第1の特定の内容についての確率と、第2の内容推定手段102によって推定された各処理単位における第2の特定の内容についての確率とを併せて、発話内容の推定結果を示す情報として出力する。なお、推定結果出力手段103は、上記実施形態における第1の内容推定部21および第2の内容推定部31、または第1のスコアと第2のスコアとを併せて出力するまたは正規化して出力する第2の内容推定部31によって実現される。
The estimation
なお、このような発話内容推定装置において、第2の内容推定手段は、第2の特定の内容について、共起する第1の特定の内容との位置の前後に応じて、異なる確率を推定してもよい。 In such an utterance content estimation apparatus, the second content estimation means estimates different probabilities for the second specific content depending on the position before and after the first specific content that co-occurs. May be.
また、第2の内容推定手段は、第2の特定の内容について、共起する第1の特定の内容との位置の距離に応じて、異なる確率を推定してもよい。 Further, the second content estimation means may estimate different probabilities for the second specific content according to the distance of the position from the co-occurring first specific content.
また、第1の内容推定手段は、条件付確率場モデルを用いて各処理単位における第1の特定の内容についての確率を示す第1のスコアを算出する際に、各処理単位について抽出する特徴として、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内で同時に現れる言語情報の組に基づく特徴である共起特徴とを用い、かつ各特徴に対する重み係数の少なくとも1つに、第1の特定の内容によって異なる値をもつ重み係数を用い、第2の内容推定手段は、第1の内容推定手段によって算出された各処理単位における第1の特定の内容についての第1のスコアを利用して、各処理単位における第2の特定の内容についての確率を示す第2のスコアを算出してもよい。 In addition, the first content estimation means extracts the processing unit when calculating the first score indicating the probability of the first specific content in each processing unit using the conditional random field model. Using a recognition feature, which is a feature based on information obtained in the course of speech recognition processing, and a co-occurrence feature, which is a feature based on a set of linguistic information that simultaneously appears in the utterance, and at least one weighting factor for each feature In addition, the second content estimation unit uses a weighting factor having a different value depending on the first specific content, and the second content estimation unit calculates the first specific content in each processing unit calculated by the first content estimation unit. A score of 1 may be used to calculate a second score indicating the probability of the second specific content in each processing unit.
また、発話内容推定装置は、第1の特定の内容に応じた第1の内容別言語モデルを記憶する第1の内容別言語モデル記憶手段と、第2の特定の内容に応じた第2の内容別言語モデルを記憶する第2の内容別言語モデル記憶手段と、処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成する言語モデル作成手段とを備え、言語モデル作成手段は、推定結果出力手段から出力される、第1の内容推定手段によって推定された各処理単位における第1の特定の内容についての確率である第1のスコアと、第2の内容推定手段によって推定された各処理単位における第2の特定の内容についての確率である第2のスコアと、第1の内容別言語モデル記憶手段に記憶されている第1の内容別言語モデルと、第2の内容別言語モデル記憶手段に記憶されている第2の内容別言語モデルとを用いて、処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成してもよい。 The utterance content estimation device includes a first content-specific language model storage unit that stores a first content-specific language model corresponding to the first specific content, and a second specific content-specific language model storage unit. A second language model storage unit that stores a language model by content, and a language model creation unit that creates a language model for each processing unit obtained by dividing the utterance to be processed into time intervals. The first score, which is the probability of the first specific content in each processing unit estimated by the first content estimation means, output from the estimation result output means, and estimated by the second content estimation means A second score which is the probability of the second specific content in each processing unit, a first content-specific language model stored in the first content-specific language model storage means, and a second content-specific Language model memory By using the second content by language model stored in the stage, may create the language model for each unit of processing an utterance to be processed is divided time intervals.
また、図15は、本発明を言語モデル作成装置に適用した場合の構成例を示すブロック図である。図15に示す言語作成モデルは、第1の内容推定手段101と、第2の内容推定手段102と、第1の内容別言語モデル記憶手段104と、第2の内容別言語モデル記憶手段105と、言語モデル作成手段106とを備える。
FIG. 15 is a block diagram showing a configuration example when the present invention is applied to a language model creation apparatus. The language creation model shown in FIG. 15 includes a first
第1の内容推定手段101は、処理対象の発話を時間区間に分割した処理単位の内容が、第1の特定の内容である確率を推定する。なお、第1の内容推定手段101は、図14に示した第1の内容推定手段101と同様の手段でよい。
The first
第2の内容推定手段102は、処理対象の発話を時間区間に分割した処理単位の内容が、第1の特定の内容の単語と共起する単語の内容として定めた第2の特定の内容である確率を推定する。なお、第2の内容推定手段102は、図14に示した第2の内容推定手段102と同様の手段でよい。
The second content estimation means 102 is the second specific content that is defined as the content of the word that co-occurs with the word of the first specific content, in which the content of the processing unit obtained by dividing the utterance to be processed into time intervals. Estimate a certain probability. The second
第1の内容別言語モデル記憶手段104は、第1の特定の内容に応じた第1の内容別言語モデルを記憶する。なお、第1の内容別言語モデル記憶手段104は、上記実施形態における第1の内容別記憶部42によって実現される。
The first content-specific language
第2の内容別言語モデル記憶手段105は、第2の特定の内容に応じた第2の内容別言語モデルを記憶する。なお、第2の内容別言語モデル記憶手段105は、上記実施形態における第2の内容別記憶部43によって実現される。
The second content-specific language
言語モデル作成手段106は、第1の内容推定手段によって推定された各処理単位における第1の特定の内容についての確率である第1のスコアと、第2の内容推定手段によって推定された各処理単位における第2の特定の内容についての確率である第2のスコアと、第1の内容別言語モデル記憶手段に記憶されている第1の内容別言語モデルと、第2の内容別言語モデル記憶手段に記憶されている第2の内容別言語モデルとを用いて、処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成する。
The language
(付記1)また、本発明による発話内容推定方法で、第2の特定の内容について、共起する第1の特定の内容との位置の前後に応じて、異なる確率を推定してもよい。 (Supplementary Note 1) Further, in the utterance content estimation method according to the present invention, different probabilities may be estimated for the second specific content depending on the position before and after the co-occurring first specific content.
(付記2)また、本発明による発話内容推定方法で、第2の特定の内容について、共起する第1の特定の内容との位置の距離に応じて、異なる確率を推定してもよい。 (Additional remark 2) Moreover, with the speech content estimation method by this invention, you may estimate a different probability about 2nd specific content according to the distance of the position with the 1st specific content to co-occur.
(付記3)また、本発明による発話内容推定方法で、条件付確率場モデルを用いて各処理単位における第1の特定の内容についての確率を示す第1のスコアを算出する際に、各処理単位について抽出する特徴として、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内で同時に現れる言語情報の組に基づく特徴である共起特徴とを用い、かつ各特徴に対する重み係数の少なくとも1つに、第1の特定の内容によって異なる値をもつ重み係数を用い、また、第2のスコアを算出する際に、第1の特定の内容によって異なる値をもつ重み係数を用い、第2の内容推定手段は、処理単位として第1の内容推定手段が用いる処理単位を用い、第1の内容推定手段によって算出された各処理単位における第1の特定の内容についての第1のスコアを利用して、各処理単位における第2の特定の内容についての確率を示す第2のスコアを算出してもよい。 (Additional remark 3) Moreover, when calculating the 1st score which shows the probability about the 1st specific content in each processing unit using the conditional random field model by the speech content estimation method by this invention, each process As the features to be extracted for each unit, a recognition feature that is a feature based on information obtained in the process of speech recognition processing and a co-occurrence feature that is a feature based on a set of linguistic information that simultaneously appear in the speech are used, A weighting factor having a different value depending on the first specific content is used as at least one of the weighting factors, and a weighting factor having a different value depending on the first specific content is used when calculating the second score. The second content estimation means uses the processing unit used by the first content estimation means as the processing unit, and the first specific content in each processing unit calculated by the first content estimation means. Using the first score may be calculated second score indicating the probability for the second specific contents of each processing unit.
(付記4)また、本発明による発話内容推定方法は、各処理単位における第1の特定の内容についての確率である第1のスコアと、第2の内容推定手段によって推定された各処理単位における第2の特定の内容についての確率である第2のスコアと、第1の特定の内容に応じた第1の内容別言語モデルと、第2の特定の内容に応じた第2の内容別言語モデルとを用いて、処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成するステップを含んでいてもよい。 (Additional remark 4) Moreover, the speech content estimation method by this invention is the 1st score which is the probability about the 1st specific content in each processing unit, and each processing unit estimated by the 2nd content estimation means. A second score that is a probability of the second specific content, a first language model according to the first specific content, and a second content language according to the second specific content A step of creating a language model for each processing unit obtained by dividing the utterance to be processed into time intervals using the model may be included.
(付記5)また、本発明による言語モデル作成方法に、上記付記1〜3に示した事項を適用させてもよい。 (Additional remark 5) Moreover, you may make the matter shown to the said additional remarks 1-3 apply to the language model creation method by this invention.
(付記6)また、本発明による発話内容推定プログラムは、コンピュータに、第2のスコアを算出する処理で、第2の特定の内容について、共起する第1の特定の内容との位置の前後に応じて、異なる確率を推定させてもよい。 (Additional remark 6) Moreover, the speech content estimation program by this invention is a process which calculates a 2nd score to a computer, About the 2nd specific content, before and after the position with the 1st specific content to co-occur Depending on, different probabilities may be estimated.
(付記7)また、本発明による発話内容推定プログラムは、コンピュータに、第2のスコアを算出する処理で、第2の特定の内容について、共起する第1の特定の内容との位置の距離に応じて、異なる確率を推定させてもよい。 (Additional remark 7) Moreover, the utterance content estimation program by this invention is the process of calculating a 2nd score to a computer, About the 2nd specific content, The distance of the position with the 1st specific content to co-occur Depending on, different probabilities may be estimated.
(付記8)また、本発明による発話内容推定プログラムは、コンピュータに、第1のスコアを算出する処理で、条件付確率場モデルを用い、各処理単位について抽出する特徴として、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内で同時に現れる言語情報の組に基づく特徴である共起特徴とを用い、かつ各特徴に対する重み係数の少なくとも1つに、第1の特定の内容によって異なる値をもつ重み係数を用いさせ、第2のスコアを算出する処理で、処理単位として第1の内容推定手段が用いる処理単位を用い、第1の内容推定手段によって算出された各処理単位における第1の特定の内容についての第1のスコアを利用して、各処理単位における第2の特定の内容についての確率を示す第2のスコアを算出させてもよい。
(Additional remark 8) Moreover, the speech content estimation program by this invention is a process of calculating | requiring a 1st score in a computer, using a conditional random field model, and the process of speech recognition processing as a characteristic extracted about each processing unit. Using a recognition feature, which is a feature based on information obtained in
(付記9)また、本発明による発話内容推定プログラムは、コンピュータに、各処理単位における第1の特定の内容についての確率である第1のスコアと、第2の内容推定手段によって推定された各処理単位における第2の特定の内容についての確率である第2のスコアと、第1の特定の内容に応じた第1の内容別言語モデルと、第2の特定の内容に応じた第2の内容別言語モデルとを用いて、処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成する処理を実行させてもよい。 (Additional remark 9) Moreover, the utterance content estimation program by this invention makes the computer estimate each 1st score which is the probability about the 1st specific content in each processing unit, and the 2nd content estimation means. A second score that is the probability of the second specific content in the processing unit, a first language model according to the first content according to the first specific content, and a second according to the second specific content A process for creating a language model may be executed for each processing unit obtained by dividing the utterance to be processed into time intervals using the language model for each content.
(付記10)また、本発明による言語モデル作成プログラムに、上記付記6〜8に示した事項を適用させてもよい。 (Additional remark 10) Moreover, you may make the matter shown to the said additional remarks 6-8 apply to the language model creation program by this invention.
本発明は、直接に発話内容を推定する用途や言語モデルを作成する用途に限らず、発話内容の推定結果や言語モデルを利用するもの(装置、システム、方法、プログラムを問わない。)であれば好適に適用可能である。例えば、発話に含まれる特定の語句を認識する音声認識処理の用途にも好適に適用可能である。 The present invention is not limited to the use of directly estimating the utterance content or the use of creating a language model, but may use the utterance content estimation result or the language model (regardless of device, system, method, or program). Can be suitably applied. For example, the present invention can be suitably applied to the use of speech recognition processing for recognizing a specific phrase included in an utterance.
100 音声認識装置
101 第1の内容推定手段
102 第2の内容推定手段
103 推定結果出力手段
104 第1の内容別言語モデル記憶手段
105 第2の内容別言語モデル記憶手段
106 言語モデル作成手段
11 音声認識部
21 第1の内容推定部
22 第1の内容モデル記憶部
31 第2の内容推定部
32 第2の内容モデル記憶部
41 言語モデル作成部
42 第1の内容別言語モデル記憶部
43 第2の内容別言語モデル記憶部
DESCRIPTION OF
Claims (10)
処理対象の前記発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が前記第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、前記第1の内容推定手段によって算出された各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出する第2の内容推定手段と、
前記第1の内容推定手段によって算出された各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、前記第2の内容推定手段によって算出された各第2処理単位における第2の特定の内容それぞれについての第2のスコアとを併せて、発話内容の推定結果を示す情報として出力する推定結果出力手段とを備えた
ことを特徴とする発話内容推定装置。 The content of the first processing unit is determined in advance for each of the first processing units that are processing units obtained by dividing the utterance to be processed into a plurality of time intervals corresponding to predetermined elements included in the speech recognition hypothesis . The first score indicating the probability of each of the first specific contents is extracted for the first processing unit, and the recognition feature that is a feature based on the information obtained in the course of the speech recognition processing and the utterance First content estimation means for calculating using a co-occurrence feature that is a feature based on a set of linguistic information that appears simultaneously with the first specific content ;
For each second processing unit that is a processing unit obtained by dividing the utterance to be processed into a plurality of time intervals, the content of the second processing unit is predetermined as content that co-occurs with the first specific content. was the second score indicating the probability of the second respective specific content, the first score for a first respective specified contents of the first of each of the first processing unit, which is calculated by the content estimating means And second content estimation means for calculating based on the likelihood of appearance of the second specific content in each second processing unit for the appearance of the first specific content ;
A first score for each of the first specific contents in each first processing unit calculated by the first content estimating means and a second score in each second processing unit calculated by the second content estimating means. An utterance content estimation apparatus comprising: an estimation result output unit that outputs a second score for each of two specific contents together with information indicating an estimation result of the utterance content.
第2処理単位は、前記第1処理単位と同じ処理単位、または処理対象の発話をフレームに対応した時間区間に分割した処理単位である
請求項1に記載の発話内容推定装置。 The first processing unit is a processing unit obtained by dividing an utterance to be processed into a plurality of time intervals corresponding to words included in the speech recognition hypothesis,
2. The utterance content estimation apparatus according to claim 1 , wherein the second processing unit is the same processing unit as the first processing unit or a processing unit obtained by dividing an utterance to be processed into time intervals corresponding to frames .
第2の特定の内容が、前記第1の特定の内容に対応する言い回し表現である
請求項1または請求項2に記載の発話内容推定装置。 The first specific content is specific content for content estimation,
The utterance content estimation apparatus according to claim 1, wherein the second specific content is a wording expression corresponding to the first specific content .
請求項1から請求項3のうちのいずれか1項に記載の発話内容推定装置。 When calculating the first score indicating the probability of the first specific content in each first processing unit using the conditional random field model, the first content estimation means includes at least a weighting factor for each feature. one, utterance estimating device according to claim 1, Ru using a weighting factor to any one of claims 3 with different values by a first particular content.
前記第2の特定の内容に応じた第2の内容別言語モデルを記憶する第2の内容別言語モデル記憶手段と、
処理対象の発話を時間区間に分割した処理単位ごとに言語モデルを作成する言語モデル作成手段とを備え、
前記言語モデル作成手段は、推定結果出力手段から出力される、第1の内容推定手段によって推定された各第1処理単位における第1の特定の内容それぞれについての確率を示す第1のスコアと、前記第2の内容推定手段によって推定された各第2処理単位における第2の特定の内容それぞれについての確率を示す第2のスコアと、前記第1の内容別言語モデル記憶手段に記憶されている第1の内容別言語モデルと、前記第2の内容別言語モデル記憶手段に記憶されている第2の内容別言語モデルとを用いて、処理対象の前記発話を時間区間に分割した処理単位ごとに言語モデルを作成する
請求項1から請求項4のうちのいずれか1項に記載の発話内容推定装置。 First content-specific language model storage means for storing a first content-specific language model corresponding to the first specific content;
A second content-specific language model storage unit that stores a second content-specific language model according to the second specific content;
A language model creating means for creating a language model for each processing unit obtained by dividing an utterance to be processed into time intervals;
The language model creation means outputs a first score indicating a probability for each of the first specific contents in each first processing unit estimated by the first content estimation means, which is output from the estimation result output means; A second score indicating the probability for each second specific content in each second processing unit estimated by the second content estimation means and the first content-specific language model storage means are stored. For each processing unit obtained by dividing the utterance to be processed into time intervals using the first content-specific language model and the second content-specific language model stored in the second content-specific language model storage unit The utterance content estimation apparatus according to any one of claims 1 to 4, wherein a language model is created.
処理対象の前記発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が前記第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、前記第1の内容推定手段によって算出された各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出する第2の内容推定手段と、
前記第1の特定の内容に応じた第1の内容別言語モデルを記憶する第1の内容別言語モデル記憶手段と、
前記第2の特定の内容に応じた第2の内容別言語モデルを記憶する第2の内容別言語モデル記憶手段と、
前記第1の内容推定手段によって推定された各第1処理単位における第1の特定の内容それぞれについての確率を示す第1のスコアと、前記第2の内容推定手段によって推定された各第2処理単位における第2の特定の内容それぞれについての確率を示す第2のスコアと、前記第1の内容別言語モデル記憶手段に記憶されている第1の内容別言語モデルと、前記第2の内容別言語モデル記憶手段に記憶されている第2の内容別言語モデルとを用いて、処理対象の前記発話を時間区間に分割した処理単位ごとに言語モデルを作成する言語モデル作成手段とを備えた
ことを特徴とする言語モデル作成装置。 The content of the first processing unit is determined in advance for each of the first processing units that are processing units obtained by dividing the utterance to be processed into a plurality of time intervals corresponding to predetermined elements included in the speech recognition hypothesis . The first score indicating the probability of each of the first specific contents is extracted for the first processing unit, and the recognition feature that is a feature based on the information obtained in the course of the speech recognition processing and the utterance First content estimation means for calculating using a co-occurrence feature that is a feature based on a set of linguistic information that appears simultaneously with the first specific content ;
For each second processing unit that is a processing unit obtained by dividing the utterance to be processed into a plurality of time intervals, the content of the second processing unit is predetermined as content that co-occurs with the first specific content. was the second score indicating the probability of the second respective specific content, the first score for a first respective specified contents of the first of each of the first processing unit, which is calculated by the content estimating means And second content estimation means for calculating based on the likelihood of appearance of the second specific content in each second processing unit for the appearance of the first specific content ,
First content-specific language model storage means for storing a first content-specific language model corresponding to the first specific content;
A second content-specific language model storage unit that stores a second content-specific language model according to the second specific content;
A first score indicating a probability for each of the first specific contents in each first processing unit estimated by the first content estimation means, and each second process estimated by the second content estimation means A second score indicating the probability of each second specific content in the unit , a first language model stored in the first content-specific language model storage means, and a second content-specific Language model creation means for creating a language model for each processing unit obtained by dividing the utterance to be processed into time intervals using the second content-specific language model stored in the language model storage means. Language model creation device characterized by
処理対象の前記発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が前記第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出し、
各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、各第2処理単位における第2の特定の内容それぞれについての第2のスコアとを併せて、発話内容の推定結果を示す情報として出力する
ことを特徴とする発話内容推定方法。 The content of the first processing unit is determined in advance for each of the first processing units that are processing units obtained by dividing the utterance to be processed into a plurality of time intervals corresponding to predetermined elements included in the speech recognition hypothesis. The first score indicating the probability of each of the first specific contents is extracted for the first processing unit, and the recognition feature that is a feature based on the information obtained in the course of the speech recognition processing and the utterance Using a co-occurrence feature that is a feature based on a set of linguistic information that appears simultaneously with the first specific content,
For each second processing unit that is a processing unit obtained by dividing the utterance to be processed into a plurality of time intervals, the content of the second processing unit is predetermined as content that co-occurs with the first specific content. A second score indicating the probability of being each of the second specific contents, the first score for each of the first specific contents in each first processing unit, and the appearance of the first specific contents Calculate based on the likelihood of appearance of the second specific content in each second processing unit,
The estimation result of the utterance content by combining the first score for each of the first specific contents in each first processing unit and the second score for each of the second specific contents in each second processing unit An utterance content estimation method characterized in that the information is output as information indicating the utterance.
処理対象の前記発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が前記第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出し、
各第1処理単位における前記第1の特定の内容それぞれについての第1のスコアと、各第2処理単位における前記第2の特定の内容それぞれについての第2のスコアと、予め記憶されている前記第1の特定の内容に応じた第1の内容別言語モデルと、予め記憶されている前記第2の特定の内容に応じた第2の内容別言語モデルとを用いて、処理対象の前記発話を時間区間に分割した処理単位ごとに言語モデルを作成する
ことを特徴とする言語モデル作成方法。 The content of the first processing unit is determined in advance for each of the first processing units that are processing units obtained by dividing the utterance to be processed into a plurality of time intervals corresponding to predetermined elements included in the speech recognition hypothesis. The first score indicating the probability of each of the first specific contents is extracted for the first processing unit, and the recognition feature that is a feature based on the information obtained in the course of the speech recognition processing and the utterance Using a co-occurrence feature that is a feature based on a set of linguistic information that appears simultaneously with the first specific content,
For each second processing unit that is a processing unit obtained by dividing the utterance to be processed into a plurality of time intervals, the content of the second processing unit is predetermined as content that co-occurs with the first specific content. A second score indicating the probability of being each of the second specific contents, the first score for each of the first specific contents in each first processing unit, and the appearance of the first specific contents Calculate based on the likelihood of appearance of the second specific content in each second processing unit,
The first score for each of the first specific contents in each first processing unit, the second score for each of the second specific contents in each second processing unit, and the previously stored The utterance to be processed using a first content-specific language model corresponding to the first specific content and a second content-specific language model corresponding to the second specific content stored in advance A language model creation method characterized by creating a language model for each processing unit divided into time intervals.
処理対象の発話を音声認識仮説に含まれる所定の要素に対応した複数の時間区間に分割した処理単位である第1処理単位のそれぞれに対して、当該第1処理単位の内容が予め定められた第1の特定の内容のそれぞれである確率を示す第1のスコアを、当該第1処理単位について抽出される、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内に第1の特定の内容と同時に現れる言語情報の組に基づく特徴である共起特徴とを用いて算出する処理、
処理対象の前記発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が前記第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出する処理、および
各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、各第2処理単位における第2の特定の内容それぞれについての第2のスコアとを併せて、処理対象の前記発話の時間区間ごとの発話内容の推定結果を示す情報として出力する処理
を実行させる発話内容推定プログラム。 On the computer,
The content of the first processing unit is determined in advance for each of the first processing units that are processing units obtained by dividing the utterance to be processed into a plurality of time intervals corresponding to predetermined elements included in the speech recognition hypothesis. The first score indicating the probability of each of the first specific contents is extracted for the first processing unit, and the recognition feature that is a feature based on the information obtained in the course of the speech recognition processing and the utterance Processing using a co-occurrence feature that is a feature based on a set of linguistic information that appears simultaneously with the first specific content;
For each second processing unit that is a processing unit obtained by dividing the utterance to be processed into a plurality of time intervals, the content of the second processing unit is predetermined as content that co-occurs with the first specific content. A second score indicating the probability of being each of the second specific contents, the first score for each of the first specific contents in each first processing unit, and the appearance of the first specific contents Processing based on the likelihood of appearance of the second specific content in each second processing unit, a first score for each of the first specific content in each first processing unit, and each second Utterance content for executing processing that is output together with the second score for each second specific content in the processing unit, as information indicating the estimation result of the utterance content for each time interval of the utterance to be processed Constant program.
処理対象の発話を音声認識仮説に含まれる所定の要素に対応した複数の時間区間に分割した処理単位である第1処理単位のそれぞれに対して、当該第1処理単位の内容が予め定められた第1の特定の内容のそれぞれである確率を示す第1のスコアを、当該第1処理単位について抽出される、音声認識処理の過程で得られる情報に基づく特徴である認識特徴と、発話内に第1の特定の内容と同時に現れる言語情報の組に基づく特徴である共起特徴とを用いて算出する処理、
処理対象の前記発話を複数の時間区間に分割した処理単位である第2処理単位のそれぞれに対して、当該第2処理単位の内容が前記第1の特定の内容と共起する内容として予め定められた第2の特定の内容それぞれである確率を示す第2のスコアを、各第1処理単位における第1の特定の内容それぞれについての第1のスコアと、第1の特定の内容の出現に対する各第2処理単位における第2の特定の内容の出現のしやすさとに基づいて算出する処理、および
各第1処理単位における前記第1の特定の内容それぞれについての第1のスコアと、各第2処理単位における前記第2の特定の内容それぞれについての第2のスコアと、予め記憶されている前記第1の特定の内容に応じた第1の内容別言語モデルと、予め記憶されている前記第2の特定の内容に応じた第2の内容別言語モデルとを用いて、処理対象の前記発話を時間区間に分割した処理単位ごとに言語モデルを作成する処理
を実行させる言語モデル作成プログラム。 On the computer,
The content of the first processing unit is determined in advance for each of the first processing units that are processing units obtained by dividing the utterance to be processed into a plurality of time intervals corresponding to predetermined elements included in the speech recognition hypothesis. The first score indicating the probability of each of the first specific contents is extracted for the first processing unit, and the recognition feature that is a feature based on the information obtained in the course of the speech recognition processing and the utterance Processing using a co-occurrence feature that is a feature based on a set of linguistic information that appears simultaneously with the first specific content;
For each second processing unit that is a processing unit obtained by dividing the utterance to be processed into a plurality of time intervals, the content of the second processing unit is predetermined as content that co-occurs with the first specific content. A second score indicating the probability of being each of the second specific contents, the first score for each of the first specific contents in each first processing unit, and the appearance of the first specific contents A process that is calculated based on the easiness of appearance of the second specific content in each second processing unit, a first score for each of the first specific contents in each first processing unit, and each A second score for each of the second specific contents in two processing units, a first language model according to the first specific contents stored in advance, and the previously stored language model Second special A language model creation program for executing a process of creating a language model for each processing unit obtained by dividing the utterance to be processed into time intervals using a second content-specific language model corresponding to a predetermined content.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010031255A JP5585111B2 (en) | 2010-02-16 | 2010-02-16 | Utterance content estimation device, language model creation device, method and program used therefor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010031255A JP5585111B2 (en) | 2010-02-16 | 2010-02-16 | Utterance content estimation device, language model creation device, method and program used therefor |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011169960A JP2011169960A (en) | 2011-09-01 |
| JP5585111B2 true JP5585111B2 (en) | 2014-09-10 |
Family
ID=44684185
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010031255A Active JP5585111B2 (en) | 2010-02-16 | 2010-02-16 | Utterance content estimation device, language model creation device, method and program used therefor |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5585111B2 (en) |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08202388A (en) * | 1995-01-24 | 1996-08-09 | Omron Corp | Speech recognition device and speech recognition method |
| JP3304665B2 (en) * | 1995-02-17 | 2002-07-22 | 松下電器産業株式会社 | Voice recognition device |
| JPH1055196A (en) * | 1996-08-09 | 1998-02-24 | Ricoh Co Ltd | Speech recognition device and method, information storage medium |
| JP3660512B2 (en) * | 1998-12-07 | 2005-06-15 | 日本電信電話株式会社 | Voice recognition method, apparatus and program recording medium |
| JP4340024B2 (en) * | 2001-06-07 | 2009-10-07 | 日本放送協会 | Statistical language model generation apparatus and statistical language model generation program |
| JP4410265B2 (en) * | 2007-02-19 | 2010-02-03 | 株式会社東芝 | Speech recognition apparatus and method |
-
2010
- 2010-02-16 JP JP2010031255A patent/JP5585111B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011169960A (en) | 2011-09-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5598331B2 (en) | Language model creation device | |
| JP5440177B2 (en) | Word category estimation device, word category estimation method, speech recognition device, speech recognition method, program, and recording medium | |
| US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
| US10037758B2 (en) | Device and method for understanding user intent | |
| US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
| JP3782943B2 (en) | Speech recognition apparatus, computer system, speech recognition method, program, and recording medium | |
| JP5459214B2 (en) | Language model creation device, language model creation method, speech recognition device, speech recognition method, program, and recording medium | |
| CN106782560B (en) | Method and device for determining target recognition text | |
| US8849668B2 (en) | Speech recognition apparatus and method | |
| US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
| Alon et al. | Contextual speech recognition with difficult negative training examples | |
| WO2005122144A1 (en) | Speech recognition device, speech recognition method, and program | |
| JP5326169B2 (en) | Speech data retrieval system and speech data retrieval method | |
| JP6183988B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
| US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
| JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
| JP2010078877A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
| JP6366166B2 (en) | Speech recognition apparatus and program | |
| JP3660512B2 (en) | Voice recognition method, apparatus and program recording medium | |
| JP5184467B2 (en) | Adaptive acoustic model generation apparatus and program | |
| JP5196114B2 (en) | Speech recognition apparatus and program | |
| JP5124012B2 (en) | Speech recognition apparatus and speech recognition program | |
| JP5585111B2 (en) | Utterance content estimation device, language model creation device, method and program used therefor | |
| JP4986301B2 (en) | Content search apparatus, program, and method using voice recognition processing function | |
| JP5170449B2 (en) | Detection device, voice recognition device, detection method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130110 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131021 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131105 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131126 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131226 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140520 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140604 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140624 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140707 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5585111 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |