[go: up one dir, main page]

JP5762365B2 - Speech recognition apparatus, speech recognition method, and program - Google Patents

Speech recognition apparatus, speech recognition method, and program Download PDF

Info

Publication number
JP5762365B2
JP5762365B2 JP2012163527A JP2012163527A JP5762365B2 JP 5762365 B2 JP5762365 B2 JP 5762365B2 JP 2012163527 A JP2012163527 A JP 2012163527A JP 2012163527 A JP2012163527 A JP 2012163527A JP 5762365 B2 JP5762365 B2 JP 5762365B2
Authority
JP
Japan
Prior art keywords
speaker
recognition
language model
speech
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012163527A
Other languages
Japanese (ja)
Other versions
JP2014025955A (en
Inventor
済央 野本
済央 野本
浩和 政瀧
浩和 政瀧
高橋 敏
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012163527A priority Critical patent/JP5762365B2/en
Publication of JP2014025955A publication Critical patent/JP2014025955A/en
Application granted granted Critical
Publication of JP5762365B2 publication Critical patent/JP5762365B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、入力音声中の発話内容をテキストに変換する音声認識技術に関する。   The present invention relates to a speech recognition technique for converting utterance content in input speech into text.

音声認識とは、音声をテキストに変換するメディア処理技術である。音声認識は入力音声に対して音素列の特徴を規定する音響モデルと、単語列としての語順の確からしさを規定する言語モデルの両方を用いて処理を行う。   Speech recognition is a media processing technology that converts speech to text. Speech recognition is processed using both an acoustic model that defines the characteristics of a phoneme sequence for an input speech and a language model that defines the likelihood of the word order as a word sequence.

2人の話者による対話音声に対して音声認識を行う場合、話者毎に別々に分離した音声に対してそれぞれ独立に音声認識を行うことで、話者毎の音声認識結果であるテキストを得ることができる。従来の対話音声の音声認識を行う技術は、例えば、特許文献1に開示されている。特許文献1に記載の音声認識装置は、一方の話者Aの発話内容を含む音声信号から得られる特徴量と音響モデルと適応前の言語モデルを用いて音声認識を行い、その認識結果A’と適応前の言語モデルを用いて適応後の言語モデルを求め、他方の話者Bの発話内容を含む音声信号から得られる特徴量と音響モデルと適応後の言語モデルを用いて音声認識を行い、認識結果B’を求める。   When speech recognition is performed on dialogue speech by two speakers, the speech recognition results for each speaker can be obtained by performing speech recognition independently on speech separated separately for each speaker. Can be obtained. A conventional technology for performing speech recognition of dialogue speech is disclosed in Patent Document 1, for example. The speech recognition apparatus described in Patent Document 1 performs speech recognition using a feature value obtained from a speech signal including the utterance content of one speaker A, an acoustic model, and a language model before adaptation, and the recognition result A ′. The language model after adaptation is obtained using the language model before adaptation and speech recognition is performed using the feature amount and acoustic model obtained from the speech signal including the speech content of the other speaker B and the language model after adaptation. The recognition result B ′ is obtained.

従来の対話音声に対する音声認識技術では、特定の場面における対話音声を認識する場合に、一方の話者の認識精度が高く、他方の話者の認識精度が低い場合があった。例えば、コールセンタなどでオペレータと顧客との対話音声を認識する際、オペレータは話し方が丁寧で音声の収録状況も良いため認識率が高いが、顧客は話し方がラフであり音声の収録状況も悪いため認識率が低い傾向がある。   In the conventional voice recognition technology for dialogue voice, when the dialogue voice in a specific scene is recognized, the recognition accuracy of one speaker may be high and the recognition accuracy of the other speaker may be low. For example, when recognizing dialogue voices between an operator and a customer at a call center, etc., the operator is polite and the voice recording status is good, so the recognition rate is high, but the customer is rough and the voice recording status is bad. The recognition rate tends to be low.

この問題に対する解決方法として非特許文献1に記載の技術が考えられている。非特許文献1には、音声認識精度を改善することを目的として、教師なしの言語モデル適応により言語モデルの性能を向上させる手法が記載されている。非特許文献1に記載の教師なし言語モデル適応手法は以下のように処理を行う。まず、話題非依存のベースラインコーパスから作成したベースライン言語モデルを使用して入力音声の認識を行う。次に、その認識結果に出現した単語からキーワードを抽出し、そのキーワードから検索クエリを構成する。その検索クエリで検索エンジンを用いてインターネットからWWWページを取得し、取得したWWWページからテキストのフィルタリングと整形を行って、WWWコーパスを作成する。そして、ベースラインコーパスとWWWコーパスから新たに適応言語モデルを作成し、その適応言語モデルを用いて入力音声の認識を行う。   A technique described in Non-Patent Document 1 is considered as a solution to this problem. Non-Patent Document 1 describes a method of improving the performance of a language model by unsupervised language model adaptation for the purpose of improving speech recognition accuracy. The unsupervised language model adaptation method described in Non-Patent Document 1 performs processing as follows. First, speech recognition is performed using a baseline language model created from a topic-independent baseline corpus. Next, a keyword is extracted from the word that appears in the recognition result, and a search query is constructed from the keyword. The search query is used to acquire a WWW page from the Internet using a search engine, and a WWW corpus is created by filtering and shaping text from the acquired WWW page. Then, an adaptive language model is newly created from the baseline corpus and the WWW corpus, and input speech is recognized using the adaptive language model.

特開2011−107314号公報JP 2011-107314 A

増村亮,伊藤仁,伊藤彰則,牧野正三, “WWWを利用した有効な検索クエリ構成による言語モデル教師なし適応効果”, 日本音響学会2009年秋季研究発表会講演論文集, 2-1-1, 2009.Ryo Masumura, Hitoshi Ito, Akinori Ito, Shozo Makino, “Language Model Unsupervised Adaptation Effect Using Valid Search Queries Using WWW”, Proceedings of the 2009 Autumn Meeting of the Acoustical Society of Japan, 2-1-1, 2009.

非特許文献1に記載の手法では、ベースライン言語モデルによる認識精度が低いと言語モデルの適応に用いるキーワードの抽出精度も併せて低下するため適応効果が得られない場合がある。ベースライン言語モデルによる認識結果に誤認識が多く含まれた場合には、適応言語モデルによる認識精度が低下することもある。   In the method described in Non-Patent Document 1, if the recognition accuracy based on the baseline language model is low, the extraction accuracy of keywords used for adaptation of the language model also decreases, and thus the adaptation effect may not be obtained. When many recognition errors are included in the recognition result by the baseline language model, the recognition accuracy by the adaptive language model may be lowered.

また、同じトピックについて話していても話者間で出現する単語の傾向が異なる場合がある。例えば、上述のコールセンタの例では、オペレータが「住所変更」と話していた場合に、顧客は「引越し」とだけ語っている場合もある。これによりオペレータの認識結果は認識精度が高く、これを用いて言語モデル適応を行なったとしても、顧客音声の認識では十分な精度が得られない場合がある。   In addition, even when talking about the same topic, the tendency of words appearing between speakers may be different. For example, in the call center example described above, when the operator is talking about “address change”, the customer may only say “moving”. As a result, the recognition result of the operator has high recognition accuracy, and even when language model adaptation is performed using the recognition result, sufficient accuracy may not be obtained by customer speech recognition.

この発明はこのような点に鑑みてなされたものであり、対話音声の音声認識において一方の話者の認識率が高く他方の話者の認識率が低い場合に、認識率が低い話者の認識率を向上することができる音声認識技術を提供することを目的とする。   The present invention has been made in view of the above points, and in the case of dialogue speech recognition, when the recognition rate of one speaker is high and the recognition rate of the other speaker is low, An object of the present invention is to provide a speech recognition technique capable of improving the recognition rate.

上記の課題を解決するために、この発明の音声認識装置は、複数の話者を事前にグループ分けし、一方のグループに属する第一話者と他方のグループに属する第二話者との会話音声を認識する。音声認識装置は対話コーパス記憶部と言語モデル記憶部と音響モデル記憶部と第1認識処理部と翻訳トピックモデル生成部と単語生起確率算出部と言語モデル適応部と第2認識処理部とを備える。対話コーパス記憶部は、一方のグループに属する話者と他方のグループに属する話者との会話音声を書き起こした対話コーパスを記憶する。言語モデル記憶部は、言語モデルを記憶する。音響モデル記憶部は、音響モデルを記憶する。第1認識処理部は、音響モデルと言語モデルとを用いて、第一話者の音声を認識して第一話者認識結果を求める。翻訳トピックモデル生成部は、対話コーパスから第一話者の発話内容を第二話者の発話内容に変換する翻訳トピックモデルを求める。単語生起確率算出部は、第一話者認識結果と翻訳トピックモデルとを用いて、第二話者の単語生起確率を算出する。言語モデル適応部は、単語生起確率を用いて、言語モデルから適応言語モデルを求める。第2認識処理部は、音響モデルと適応言語モデルとを用いて、第二話者の音声を認識して第二話者認識結果を求める。   In order to solve the above problems, the speech recognition apparatus of the present invention groups a plurality of speakers in advance, and a conversation between a first speaker belonging to one group and a second speaker belonging to the other group. Recognize speech. The speech recognition apparatus includes a dialogue corpus storage unit, a language model storage unit, an acoustic model storage unit, a first recognition processing unit, a translation topic model generation unit, a word occurrence probability calculation unit, a language model adaptation unit, and a second recognition processing unit. . The dialogue corpus storage unit stores a dialogue corpus in which conversation speech between a speaker belonging to one group and a speaker belonging to the other group is transcribed. The language model storage unit stores a language model. The acoustic model storage unit stores an acoustic model. The first recognition processing unit recognizes the voice of the first speaker using the acoustic model and the language model and obtains a first speaker recognition result. The translation topic model generation unit obtains a translation topic model for converting the utterance content of the first speaker into the utterance content of the second speaker from the dialogue corpus. The word occurrence probability calculation unit calculates the word occurrence probability of the second speaker using the first speaker recognition result and the translation topic model. The language model adaptation unit obtains an adaptive language model from the language model using the word occurrence probability. The second recognition processing unit recognizes the voice of the second speaker using the acoustic model and the adaptive language model, and obtains a second speaker recognition result.

対話の特性を活かした言語制約を与えることで、言語モデルの性能が上がり、音声認識精度が向上する。特に、一方の話者の認識率が高いが他方の話者の認識率が低い場合に、認識率が高い話者の発話内容を踏まえた言語制約を与えることで、認識率が低い話者の認識率が向上する。   By giving language constraints that take advantage of the characteristics of dialogue, the performance of the language model is improved and the speech recognition accuracy is improved. In particular, when the recognition rate of one speaker is high but the recognition rate of the other speaker is low, by providing language restrictions based on the utterance content of the speaker with a high recognition rate, Recognition rate is improved.

第1実施形態に係る音声認識装置の機能構成を例示する図。The figure which illustrates the function structure of the speech recognition apparatus which concerns on 1st Embodiment. 第1実施形態に係る音声認識装置の処理フローを例示する図。The figure which illustrates the processing flow of the speech recognition apparatus which concerns on 1st Embodiment. 第2実施形態に係る音声認識装置の機能構成を例示する図。The figure which illustrates the function structure of the speech recognition apparatus which concerns on 2nd Embodiment. 第2実施形態に係る音声認識装置の処理フローを例示する図。The figure which illustrates the processing flow of the speech recognition apparatus which concerns on 2nd Embodiment. 第3実施形態に係る音声認識装置の機能構成を例示する図。The figure which illustrates the functional structure of the speech recognition apparatus which concerns on 3rd Embodiment. 第3実施形態に係る音声認識装置の処理フローを例示する図。The figure which illustrates the processing flow of the speech recognition apparatus which concerns on 3rd Embodiment. 変形例に係る音声認識装置の機能構成を例示する図。The figure which illustrates the function structure of the speech recognition apparatus which concerns on a modification. 変形例に係る音声認識装置の処理フローを例示する図。The figure which illustrates the processing flow of the speech recognition apparatus which concerns on a modification. 第4実施形態に係る音声認識装置の機能構成を例示する図。The figure which illustrates the function structure of the speech recognition apparatus which concerns on 4th Embodiment. 第4実施形態に係る音声認識装置の処理フローを例示する図。The figure which illustrates the processing flow of the speech recognition apparatus which concerns on 4th Embodiment.

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.

[発明のポイント]
実施形態の説明に先立ち、この発明のポイントについて説明する。
[Points of Invention]
Prior to the description of the embodiments, the points of the present invention will be described.

従来の音声認識技術では、N-gramによって表現された言語モデルを用いて言語制約を与えることは一般的に行われていたが、対話の特性を考慮した言語制約を与えることは行われていなかった。   In conventional speech recognition technology, language restrictions are generally given using a language model expressed in N-gram, but language restrictions that take into consideration the characteristics of dialogue are not given. It was.

対話においては互いの発話内容に強い関係性があり、ある話者が発話した内容を受けて、もう一方の話者の発話内容は制限されると考えられる。この点を考慮してこの発明では、対話音声を認識する際に一方の話者の発話内容を用いて他方の話者の発話内容に対する言語制約を与える。   In the dialogue, there is a strong relationship between the utterance contents of each other, and it is considered that the utterance contents of the other speaker are limited by receiving the utterance contents of one speaker. In consideration of this point, in the present invention, when recognizing the dialog voice, the speech content of one speaker is used to give a language restriction on the speech content of the other speaker.

その際に、一方の話者の認識結果に出現したN-gram確率を直接言語モデルに適応するのではなく、一方の話者の認識結果に表れるN-gram確率から翻訳手法を利用して他方の話者のN-gram確率に変換して、言語モデルに適応する。これにより、認識精度の高い話者の認識結果から認識精度の低い話者の言語モデルの生成を行うことが可能となり、認識精度の低い話者における認識精度の改善効果が得られる。   In that case, the N-gram probability that appears in the recognition result of one speaker is not directly applied to the language model, but the translation method is used to convert the N-gram probability that appears in the recognition result of one speaker to the other. It is converted to the N-gram probability of the speaker and adapted to the language model. Thereby, it becomes possible to generate a language model of a speaker with low recognition accuracy from the recognition result of the speaker with high recognition accuracy, and an effect of improving the recognition accuracy for a speaker with low recognition accuracy can be obtained.

[第1実施形態]
<概要>
この発明の第1実施形態に係る音声認識装置10は、認識率が高い第一話者Aと認識率が低い第二話者Bとの対話音声を認識し、第一話者認識結果A’と第二話者認識結果B’を出力する。上述のコールセンタで利用される例に当てはめると、第一話者Aがオペレータに該当し、第二話者Bが顧客に該当する。
[First Embodiment]
<Overview>
The speech recognition apparatus 10 according to the first embodiment of the present invention recognizes dialogue speech between the first speaker A having a high recognition rate and the second speaker B having a low recognition rate, and the first speaker recognition result A ′. And the second speaker recognition result B ′ is output. When applied to the example used in the call center described above, the first speaker A corresponds to the operator and the second speaker B corresponds to the customer.

<構成>
図1を参照して、この実施形態に係る音声認識装置10の構成例を説明する。音声認識装置10は、入力端子101A,101Bと音声信号取得部110A,110Bと特徴量分析部120A,120Bと第1認識処理部130Aと第2認識処理部130Bと翻訳トピックモデル生成部140と単語生起確率算出部150と言語モデル適応部160と対話コーパス記憶部210と翻訳トピックモデル記憶部220と言語モデル記憶部230と音響モデル記憶部240と適応言語モデル記憶部250とを備える。
<Configuration>
With reference to FIG. 1, the structural example of the speech recognition apparatus 10 which concerns on this embodiment is demonstrated. The speech recognition apparatus 10 includes input terminals 101A and 101B, speech signal acquisition units 110A and 110B, feature amount analysis units 120A and 120B, a first recognition processing unit 130A, a second recognition processing unit 130B, a translation topic model generation unit 140, and words. An occurrence probability calculation unit 150, a language model adaptation unit 160, a dialogue corpus storage unit 210, a translation topic model storage unit 220, a language model storage unit 230, an acoustic model storage unit 240, and an adaptive language model storage unit 250 are provided.

対話コーパス記憶部210と翻訳トピックモデル記憶部220と言語モデル記憶部230と音響モデル記憶部240と適応言語モデル記憶部250は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)などの半導体メモリ素子により構成される補助記憶装置などにより構成することができる。   The dialogue corpus storage unit 210, the translation topic model storage unit 220, the language model storage unit 230, the acoustic model storage unit 240, and the adaptive language model storage unit 250 are, for example, a main storage device such as a RAM (Random Access Memory), a hard disk, or an optical disk. Alternatively, it can be constituted by an auxiliary storage device constituted by a semiconductor memory element such as a flash memory.

<音声認識処理>
図2を参照して、音声認識装置10の動作例を、実際に行われる手続きの順に従って説明する。
<Voice recognition processing>
With reference to FIG. 2, an operation example of the speech recognition apparatus 10 will be described in the order of procedures actually performed.

対話コーパス記憶部210には、あらかじめ対話コーパスが記憶されている。対話コーパスは、事前に対話における役割に応じてグループ分けされた話者に対し(コールセンタの例ではオペレータグループと顧客グループ)、一方のグループに属する話者と他方のグループに属する話者との会話音声の書き起こし対(コールセンタの例ではオペレータと顧客の会話の書き起こし対)からなるパラレルコーパスである。パラレルコーパスとは、翻訳の分野では対訳コーパスと呼ばれ、それぞれ異なる言語で記述された2つの文が対訳の形でまとめられたコーパスである。   The dialogue corpus storage unit 210 stores a dialogue corpus in advance. The conversation corpus is a conversation between speakers who belong to one group and speakers who belong to the other group for the speakers grouped according to their roles in the conversation in advance (in the call center example, operator group and customer group). It is a parallel corpus consisting of voice transcription pairs (in the call center example, a transcription pair of an operator-customer conversation). A parallel corpus is called a bilingual corpus in the field of translation, and is a corpus in which two sentences written in different languages are combined in the form of a bilingual translation.

言語モデル記憶部230には、あらかじめ言語モデルが記憶されている。言語モデルは汎用言語モデルであってもよいし、例えばコールセンタ用などの利用場面に特化して構築された言語モデルであってもよい。利用場面に特化した言語モデルを用いれば第一話者Aの音声の認識結果は認識率がより高くなる。第一話者Aの音声の認識結果の認識率が高ければ、これを利用した言語モデルの適応効果は高くなり、適応言語モデルを用いた第二話者Bの音声の認識率も高くなると考えられる。   The language model storage unit 230 stores language models in advance. The language model may be a general-purpose language model, or may be a language model specially constructed for use situations such as for a call center. If a language model specialized for the use scene is used, the recognition result of the speech of the first speaker A will be higher. If the recognition rate of the speech recognition result of the first speaker A is high, the adaptation effect of the language model using this will increase, and the speech recognition rate of the second speaker B using the adaptive language model will also increase. It is done.

音響モデル記憶部240には、あらかじめ音響モデルが記憶されている。音響モデルは様々なモデル化手法が提案されている。後述する音声認識処理方法に依存するため、利用する音声認識処理方法に対応して利用する音響モデルを決定すればよい。   The acoustic model storage unit 240 stores an acoustic model in advance. Various modeling methods have been proposed for acoustic models. Since it depends on a voice recognition processing method to be described later, an acoustic model to be used may be determined corresponding to the voice recognition processing method to be used.

入力端子101Aを介して第一話者Aのアナログ音声信号が音声信号取得部110Aに入力される。第一話者Aは、複数の話者を事前に対話における役割に応じてグループ分けした一方のグループに属する話者である。上述のコールセンタにおける利用場面に当てはめると、第一話者Aはオペレータに該当する。音声信号取得部110Aは、入力された第一話者Aのアナログ音声信号をディジタル音声信号に変換する(S110A)。   The analog voice signal of the first speaker A is input to the voice signal acquisition unit 110A via the input terminal 101A. The first speaker A is a speaker belonging to one group in which a plurality of speakers are grouped in advance according to their roles in dialogue. When applied to the usage scene in the call center described above, the first speaker A corresponds to the operator. The voice signal acquisition unit 110A converts the input analog voice signal of the first speaker A into a digital voice signal (S110A).

第一話者Aのディジタル音声信号は特徴量分析部120Aに入力される。特徴量分析部120Aは、入力された第一話者Aのディジタル音声信号から音響特徴量を抽出する(S120A)。抽出する特徴量としては、例えば、MFCC(Mel-Frequent Cepstrum Coefficient)の1〜12次元と、その変化量であるΔMFCCなどの動的パラメータや、パワーやΔパワーなどを用いる。また、CMN(ケプストラム平均正規化)処理を行なってもよい。特徴量は、MFCCやパワーに限定したものではなく、音声認識に用いられるパラメータを用いてもよい。特徴量を抽出する方法についての詳細は、例えば「古井貞煕、“音響・音声工学”、近代科学社、1992年9月(参考文献1)」を参照されたい。   The digital voice signal of the first speaker A is input to the feature amount analysis unit 120A. The feature amount analysis unit 120A extracts an acoustic feature amount from the input digital voice signal of the first speaker A (S120A). As the feature quantity to be extracted, for example, 1 to 12 dimensions of MFCC (Mel-Frequent Cepstrum Coefficient) and dynamic parameters such as ΔMFCC which is the change amount, power, Δ power, and the like are used. Also, CMN (cepstrum average normalization) processing may be performed. The feature amount is not limited to MFCC or power, and a parameter used for speech recognition may be used. For details on the method for extracting the feature quantity, refer to, for example, “Sadaaki Furui,“ Acoustic / Voice Engineering ”, Modern Science, September 1992 (reference 1)”.

第一話者Aの音声の特徴量は第1認識処理部130Aに入力される。第1認識処理部130Aは、言語モデル記憶部230に記憶されている言語モデルと、音響モデル記憶部240に記憶されている音響モデルとを用いて、第一話者Aの音声の特徴量を音声認識し、第一話者認識結果A’を生成する(S130A)。具体的な認識処理方法は、例えば、参考文献1に記載の方法を適用することができる。   The feature amount of the voice of the first speaker A is input to the first recognition processing unit 130A. 130 A of 1st recognition process parts use the language model memorize | stored in the language model memory | storage part 230, and the acoustic model memorize | stored in the acoustic model memory | storage part 240, and the feature-value of the voice of the 1st speaker A is obtained. Speech recognition is performed, and a first speaker recognition result A ′ is generated (S130A). As a specific recognition processing method, for example, the method described in Reference 1 can be applied.

翻訳トピックモデル生成部140は、対話コーパス記憶部210に記憶されている対話コーパスから、第一話者Aの発話内容を第二話者Bの発話内容に変換する翻訳トピックモデルを求める(S140)。翻訳トピックモデルは、具体的には以下の3つの確率値から構成される。
1.第一話者Aにおけるトピックzi下での単語wnの生起確率P(wa,n|zi)
2.第二話者Bにおけるトピックzi下での単語wnの生起確率P(wb,n|zi)
3.トピックziの生起確率P(zi)
The translation topic model generation unit 140 obtains a translation topic model for converting the utterance content of the first speaker A into the utterance content of the second speaker B from the dialogue corpus stored in the dialogue corpus storage unit 210 (S140). . Specifically, the translation topic model is composed of the following three probability values.
1. Occurrence probability P (w a, n | z i ) of word w n under topic z i in first speaker A
2. Occurrence probability P (w b, n | z i ) of word w n under topic z i in second speaker B
3. Occurrence probability P (z i ) of topic z i

翻訳トピックモデルを生成する方法は多く提案されているが、例えば、Polylingual Topic Model(PLTM)などを適用することができる。   Many methods for generating a translation topic model have been proposed. For example, a Polylingual Topic Model (PLTM) can be applied.

生成された翻訳トピックモデルは翻訳トピックモデル記憶部220に記憶される。ただし、必ずしも翻訳トピックモデルを翻訳トピックモデル記憶部220に記憶しなくともよく、翻訳トピックモデル生成部140が生成した翻訳トピックモデルを単語生起確率算出部150へ直接入力するように構成してもよい。   The generated translation topic model is stored in the translation topic model storage unit 220. However, the translation topic model may not necessarily be stored in the translation topic model storage unit 220, and the translation topic model generated by the translation topic model generation unit 140 may be directly input to the word occurrence probability calculation unit 150. .

第1認識処理部130Aが生成する第一話者認識結果A’は、単語生起確率算出部150へ入力される。単語生起確率算出部150は、第一話者認識結果A’と翻訳トピックモデル記憶部220に記憶された(もしくは翻訳トピックモデル生成部140から入力される)翻訳トピックモデルとを用いて、第二話者Bの単語生起確率を算出する(S150)。第二話者Bの単語生起確率P(wb,n|da)は、以下の式により算出することができる。 The first speaker recognition result A ′ generated by the first recognition processing unit 130A is input to the word occurrence probability calculating unit 150. The word occurrence probability calculation unit 150 uses the first speaker recognition result A ′ and the translation topic model stored in the translation topic model storage unit 220 (or input from the translation topic model generation unit 140) to The word occurrence probability of the speaker B is calculated (S150). The word occurrence probability P (w b, n | d a ) of the second speaker B can be calculated by the following equation.

Figure 0005762365
Figure 0005762365

ただし、P(zi|da)は文書内トピック確率であり、第一話者認識結果da下でのトピックziの生起確率である。文書内トピック確率の計算方法は多く提案されており、例えば、Probabilistic Latent Semantic Analysis(PLSA)やLatent Dirichlet Allocation(LDA)などを適用することができる。 Here, P (z i | d a ) is the topic probability in the document, and the occurrence probability of topic z i under the first speaker recognition result d a . Many methods for calculating the topic probability in a document have been proposed. For example, Probabilistic Latent Semantic Analysis (PLSA) or Latent Dirichlet Allocation (LDA) can be applied.

第二話者Bの単語生起確率P(zi,da)は言語モデル適応部160へ入力される。言語モデル適応部160は、単語生起確率P(zi,da)を用いて、言語モデル記憶部230に記憶されている言語モデルから適応言語モデルを生成する(S160)。言語モデルの適応方法は多く提案されているが、例えば、Unigram Rescalingなどを適用することができる。Unigram RescalingはunigramモデルをN-gramモデルに適応する方法である。Unigram Rescalingにより単語生起確率P(zi,da)からN-gram確率を推定することができる。 The word occurrence probability P (z i , d a ) of the second speaker B is input to the language model adaptation unit 160. The language model adaptation unit 160 generates an adaptation language model from the language model stored in the language model storage unit 230 using the word occurrence probability P (z i , d a ) (S160). Many methods for adapting language models have been proposed. For example, Unigram Rescaling can be applied. Unigram Rescaling is a method of adapting the unigram model to the N-gram model. Unigram Rescaling makes it possible to estimate the N-gram probability from the word occurrence probability P (z i , d a ).

Unigram Rescalingについてより詳細に説明する。この言語モデル適応手法の原理は、適応前のベースとなる言語モデルと適応後の言語モデルのN-gram確率の比はunigram確率の比に近似できるという考えに基づいて、適応後のunigram確率から適応後のN-gram確率を算出するものである。Unigram Rescalingはunigram確率から汎用的にN-gram確率を推定することができるが、音声認識の分野では主にtrigram確率の言語モデルが用いられるため、ここではtrigram確率の推定方法を説明する。ベース言語モデルのtrigram確率をP(wn|wn-2,wn-1)とし、ベース言語モデルのunigram確率をP(wn)とし、適応言語モデルのtrigram確率をP_da(wn|wn-2,wn-1)とし、適応言語モデルのunigram確率をP(wn|da)とし、Unigram Rescaling係数をαとする。適応言語モデルのtrigram確率P_da(wn|wn-2,wn-1)は以下の式により計算することができる。 Unigram Rescaling is explained in more detail. The principle of this language model adaptation method is based on the idea that the ratio of the N-gram probability between the base language model before adaptation and the language model after adaptation can be approximated to the ratio of unigram probabilities. The N-gram probability after adaptation is calculated. Unigram Rescaling can generally estimate N-gram probabilities from unigram probabilities, but in the field of speech recognition, a language model of trigram probabilities is mainly used, so here a method for estimating trigram probabilities will be described. The trigram probability of the base language model is P (w n | w n-2 , w n-1 ), the unigram probability of the base language model is P (w n ), and the trigram probability of the adaptive language model is P_d a (w n | w n-2 , w n-1 ), the unigram probability of the adaptive language model is P (w n | d a ), and the Unigram Rescaling coefficient is α. The trigram probability P_d a (w n | w n−2 , w n−1 ) of the adaptive language model can be calculated by the following equation.

Figure 0005762365
Figure 0005762365

生成された適応言語モデルは適応言語モデル記憶部250に記憶される。ただし、必ずしも適応言語モデルを適応言語モデル記憶部250に記憶する必要はなく、言語モデル適応部160が生成した適応言語モデルを第2認識処理部130Bへ直接入力するように構成してもよい。   The generated adaptive language model is stored in the adaptive language model storage unit 250. However, it is not always necessary to store the adaptive language model in the adaptive language model storage unit 250, and the adaptive language model generated by the language model adaptation unit 160 may be directly input to the second recognition processing unit 130B.

入力端子101Bを介して第二話者Bのアナログ音声信号が音声信号取得部110Bに入力される。第二話者Bは、第一話者Aの属するグループとは異なるグループに属する話者である。上述のコールセンタにおける利用場面に当てはめると、第二話者Bは顧客に該当する。音声信号取得部110Bは、入力された第二話者Bのアナログ音声信号をディジタル音声信号に変換する(S110B)。   The analog voice signal of the second speaker B is input to the voice signal acquisition unit 110B via the input terminal 101B. The second speaker B is a speaker belonging to a group different from the group to which the first speaker A belongs. When applied to the use scene in the call center described above, the second speaker B corresponds to the customer. The audio signal acquisition unit 110B converts the input analog audio signal of the second speaker B into a digital audio signal (S110B).

第二話者Bのディジタル音声信号は特徴量分析部120Bに入力される。特徴量分析部120Bは、入力された第二話者Bのディジタル音声信号から音響特徴量を抽出する(S120B)。抽出する特徴量は特徴量分析部120Aの抽出する特徴量と同様であるので、ここでは説明を省略する。   The digital voice signal of the second speaker B is input to the feature amount analysis unit 120B. The feature amount analysis unit 120B extracts an acoustic feature amount from the input digital voice signal of the second speaker B (S120B). Since the feature amount to be extracted is the same as the feature amount extracted by the feature amount analysis unit 120A, description thereof is omitted here.

第二話者Bの音声の特徴量は第2認識処理部130Bに入力される。第2認識処理部130Bは、適応言語モデル記憶部250に記憶された(もしくは言語モデル適応部160から入力される)適応言語モデルと、音響モデル記憶部240に記憶されている音響モデルとを用いて、第二話者Bの音声の特徴量を音声認識し、第二話者認識結果B’を生成する(S130B)。具体的な認識処理方法は、第1認識処理部130Aと同様に、例えば、参考文献1に記載の方法を適用することができる。   The feature amount of the voice of the second speaker B is input to the second recognition processing unit 130B. The second recognition processing unit 130B uses the adaptive language model stored in the adaptive language model storage unit 250 (or input from the language model adaptation unit 160) and the acoustic model stored in the acoustic model storage unit 240. Then, the feature amount of the voice of the second speaker B is voice-recognized, and the second speaker recognition result B ′ is generated (S130B). As a specific recognition processing method, for example, the method described in Reference 1 can be applied in the same manner as the first recognition processing unit 130A.

<効果>
このように第1実施形態に係る音声認識装置10は、第一話者Aの音声を認識した第一話者認識結果A’を用いてトピックを推定し、対話コーパスから生成した翻訳トピックモデルを用いて、そのトピック下における第二話者Bの単語生起確率を算出する。算出した単語生起確率に基づいて言語モデルの適応を行い、その適応言語モデルを用いて第二話者Bの音声を認識する。つまり認識率の低い第二話者Bの音声を認識する際に、対話のトピックを言語制約として与えることで、第二話者Bの音声の認識率が向上する。
<Effect>
As described above, the speech recognition apparatus 10 according to the first embodiment estimates a topic using the first speaker recognition result A ′ obtained by recognizing the voice of the first speaker A, and generates a translation topic model generated from the dialogue corpus. Using, the word occurrence probability of the second speaker B under the topic is calculated. The language model is adapted based on the calculated word occurrence probability, and the voice of the second speaker B is recognized using the adapted language model. That is, when the speech of the second speaker B having a low recognition rate is recognized, the speech recognition rate of the second speaker B is improved by giving the conversation topic as a language constraint.

特に、コールセンタにおけるオペレータと顧客の対話音声を認識する場合には、顧客音声の収録環境が悪く音響モデルの効果に期待できない。このような場合には従来の音声認識技術では認識率は低くなるが、この発明によれば認識率の向上が期待できる。   In particular, when recognizing the conversation voice between the operator and the customer in the call center, the recording environment of the customer voice is bad and the effect of the acoustic model cannot be expected. In such a case, the recognition rate is low with the conventional speech recognition technology, but according to the present invention, an improvement in the recognition rate can be expected.

<その他>
なお、音声認識装置10は、入力端子101A,101Bから、アナログ音声信号ではなくディジタル音声信号を受け取ってもよい。また、外部記憶媒体や通信装置からディジタル音声信号を受け取ることもできる。この場合には、音声認識装置10に音声入力端子101A、101Bや音声信号取得部110A、110Bを設けなくともよい。
<Others>
Note that the voice recognition device 10 may receive a digital voice signal instead of an analog voice signal from the input terminals 101A and 101B. In addition, a digital audio signal can be received from an external storage medium or a communication device. In this case, the voice recognition device 10 may not include the voice input terminals 101A and 101B and the voice signal acquisition units 110A and 110B.

この実施形態では、コールセンタにおけるオペレータと顧客の対話音声を認識する場合について説明したが、それ以外の対話音声であってもよいし、さらに会話音声であってもよい。話者が3人以上の場合には、適応前の言語モデルによる認識率が最も高くなることが期待される話者(例えば、収音環境等が整っている話者や、話す速度や単語、文法等が適切である話者など)のグループを第一話者Aとし、適応前の言語モデルによる認識率が低くなると予想される話者(例えば、雑音等が多い収音環境にいる話者、話す速度が速い話者、用いる単語や文法に誤りがある話者など)のグループを第二話者Bとして、会話の特性を考慮し、この実施形態と同様に言語モデルを会話内容に合うように適応させることができる。   In this embodiment, the case of recognizing the conversation voice between the operator and the customer in the call center has been described. However, other conversation voices or conversation voices may be used. If there are more than two speakers, the speaker with the highest recognition rate based on the language model before adaptation (for example, a speaker with a sound collection environment, speaking speed, words, The first speaker A is a group of speakers with appropriate grammar, etc., and the speaker is expected to have a low recognition rate based on the language model before adaptation (for example, a speaker in a sound collecting environment with a lot of noise, etc.) , A group of a speaker who speaks fast, a speaker whose word or grammar is used, etc.) is set as the second speaker B, and the language model is adapted to the conversation content in the same manner as this embodiment in consideration of the characteristics of the conversation. Can be adapted.

なお、音声認識装置10は、必ずしも第一話者認識結果A’を出力しなくともよい。例えば、コールセンタにおいて、顧客の発話内容のみをテキストデータとして記録したい場合などには、第二話者認識結果B’のみを出力、保存する構成としてもよい。   Note that the speech recognition apparatus 10 does not necessarily output the first speaker recognition result A ′. For example, when it is desired to record only the utterance content of the customer as text data in the call center, only the second speaker recognition result B 'may be output and stored.

[第2実施形態]
<概要>
一般的に音声認識結果には、トピックに関係する単語以外にも口調や話者性などを表す単語などが含まれている。第1実施形態ではこれらの口調や話者性などを表す単語などを含めた音声認識結果全体を用いて言語モデル適応を行なっていたが、このように構成すると第一話者Aと第二話者Bとで口調や話者性が異なる場合に誤った適応効果を得てしまう場合がある。そこで第2実施形態では言語モデル適応を行う際に事前に定めたキーワードに対してのみ適応を行う。このように構成することで誤った適応を実施することを防止することができ、事前に定めたキーワードのみの認識精度が向上することができる。
[Second Embodiment]
<Overview>
In general, speech recognition results include words representing tone, speaker characteristics, and the like in addition to words related to a topic. In the first embodiment, the language model adaptation is performed using the entire speech recognition result including the words representing the tone and speaker characteristics. With this configuration, the first speaker A and the second story are configured. When the tone and speaker characteristics are different between the person B and the person B, an incorrect adaptation effect may be obtained. Therefore, in the second embodiment, adaptation is performed only for keywords determined in advance when language model adaptation is performed. By configuring in this way, it is possible to prevent erroneous adaptation, and it is possible to improve the recognition accuracy of only predetermined keywords.

<構成>
図3を参照して、この実施形態に係る音声認識装置20の構成例を説明する。音声認識装置20は、第1実施形態に係る音声認識装置10と同様に、入力端子101A,101Bと音声信号取得部110A,110Bと特徴量分析部120A,120Bと第1認識処理部130Aと第2認識処理部130Bと翻訳トピックモデル生成部140と単語生起確率算出部150と言語モデル適応部160と対話コーパス記憶部210と翻訳トピックモデル記憶部220と言語モデル記憶部230と音響モデル記憶部240と適応言語モデル記憶部250とを備える。音声認識装置20はさらに、キーワード抽出部170A,170Bとキーワード記憶部260を備える。
<Configuration>
A configuration example of the speech recognition apparatus 20 according to this embodiment will be described with reference to FIG. Similar to the speech recognition device 10 according to the first embodiment, the speech recognition device 20 includes input terminals 101A and 101B, speech signal acquisition units 110A and 110B, feature amount analysis units 120A and 120B, a first recognition processing unit 130A, and a first recognition processing unit 130A. 2 recognition processing unit 130B, translation topic model generation unit 140, word occurrence probability calculation unit 150, language model adaptation unit 160, dialogue corpus storage unit 210, translation topic model storage unit 220, language model storage unit 230, and acoustic model storage unit 240 And an adaptive language model storage unit 250. The speech recognition apparatus 20 further includes keyword extraction units 170A and 170B and a keyword storage unit 260.

キーワード記憶部260は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)などの半導体メモリ素子により構成される補助記憶装置などにより構成することができる。   The keyword storage unit 260 can be configured by, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory.

<音声認識処理>
図4を参照して、音声認識装置20の動作例を、実際に行われる手続きの順に従って説明する。
<Voice recognition processing>
With reference to FIG. 4, the operation example of the speech recognition apparatus 20 will be described in the order of procedures actually performed.

キーワード記憶部260には、事前に定められたキーワードが記憶されている。キーワードはトピックに関連する単語であることが望ましい。例えば、品詞情報を用いて「名詞・動詞・形容詞」をキーワードとし、助詞や助動詞などトピックに関係ない可能性の高い単語はキーワードから除外することが考えられる。   The keyword storage unit 260 stores a predetermined keyword. The keyword is preferably a word related to the topic. For example, “noun / verb / adjective” is a keyword using the part-of-speech information, and words that are highly likely to be unrelated to the topic, such as particles and auxiliary verbs, may be excluded from the keyword.

また、キーワードの選定にtf-idfなどの手法を用いてもよい。すなわち、第一話者認識結果A’に含まれる単語について、第一話者認識結果におけるその単語の出現数をtfi,jとし、対話コーパスに含まれる対話テキストをドキュメントとしてその単語が含まれるドキュメント数をdfiとし、ドキュメントの総数をNとして、以下の式によりtf-idf値を算出する。 A keyword such as tf-idf may be used for keyword selection. That is, for a word included in the first speaker recognition result A ′, the number of occurrences of the word in the first speaker recognition result is tf i, j and the word is included using the dialog text included in the dialog corpus as a document. The tf-idf value is calculated by the following formula, where df i is the number of documents and N is the total number of documents.

Figure 0005762365
Figure 0005762365

算出したtf-idf値の高い単語をキーワードとして選定する。キーワードの選定基準は、tf-idf値の降順に所定の単語数を選定してもよいし、所定のtf-idf値以上である単語をすべてキーワードとして選定してもよい。多くの対話テキストに出現する単語は一般的な単語であると考えられるので、トピックとの関連においては重要ではない可能性が高い。tf-idf値によるキーワード選定を行うことで、よりトピックに関連のある単語のみをキーワードとして得られる効果がある。   A word with a high calculated tf-idf value is selected as a keyword. As a keyword selection criterion, a predetermined number of words may be selected in descending order of tf-idf values, or all words having a predetermined tf-idf value or more may be selected as keywords. Words that appear in many dialogue texts are considered common words and are therefore likely not important in relation to topics. By selecting a keyword based on the tf-idf value, there is an effect that only words related to the topic can be obtained as keywords.

キーワード抽出部170Aは、対話コーパス記憶部210に記憶されている対話コーパスから、キーワード記憶部260に記憶されている事前に定められたキーワードを抽出し、キーワード列を出力する(S170A)。抽出したキーワード列は翻訳トピックモデル生成部140へ出力される。翻訳トピックモデル生成部140は、対話コーパスの替わりにキーワード抽出部170Aが出力するキーワード列を用いて、翻訳トピックモデルを求める(S140)。   The keyword extraction unit 170A extracts a predetermined keyword stored in the keyword storage unit 260 from the dialogue corpus stored in the dialogue corpus storage unit 210, and outputs a keyword string (S170A). The extracted keyword string is output to the translation topic model generation unit 140. The translation topic model generation unit 140 obtains a translation topic model using the keyword string output by the keyword extraction unit 170A instead of the dialogue corpus (S140).

キーワード抽出部170Bは、第1認識処理部130Aが出力する第一話者認識結果A’から、キーワード記憶部260に記憶されている事前に定められたキーワードを抽出し、キーワード列を出力する(S170B)。抽出したキーワード列は単語生起確率算出部150へ出力される。単語生起確率算出部150は、第一話者認識結果A’の替わりにキーワード抽出部170Bが出力するキーワード列を用いて、第二話者Bの単語生起確率を算出する(S150)。   The keyword extraction unit 170B extracts a predetermined keyword stored in the keyword storage unit 260 from the first speaker recognition result A ′ output from the first recognition processing unit 130A, and outputs a keyword string ( S170B). The extracted keyword string is output to the word occurrence probability calculation unit 150. The word occurrence probability calculation unit 150 calculates the word occurrence probability of the second speaker B using the keyword string output by the keyword extraction unit 170B instead of the first speaker recognition result A ′ (S150).

<効果>
このように第2実施形態に係る音声認識装置20は、第一話者Aの音声を認識した第一話者認識結果A’の中から事前に定めたキーワードを抽出し、抽出されたキーワードのみについて単語生起確率を算出する。このように構成することで、第一話者認識結果A’に含まれているトピックと関係しない口調や話者性などを表す単語により、誤った適応が実施されることを防止することができる。結果として、事前に定めたキーワードのみの認識精度が向上することができる。
<Effect>
As described above, the speech recognition apparatus 20 according to the second embodiment extracts a predetermined keyword from the first speaker recognition result A ′ obtained by recognizing the voice of the first speaker A, and extracts only the extracted keyword. The word occurrence probability is calculated for. By configuring in this way, it is possible to prevent erroneous adaptation from being performed by a word representing a tone or speaker characteristics not related to the topic included in the first speaker recognition result A ′. . As a result, it is possible to improve the recognition accuracy of only predetermined keywords.

[第3実施形態]
<概要>
音声認識結果には必ず認識誤りが含まれる。第1実施形態では第一話者認識結果全体を用いて言語モデル適応を行うため、認識誤りによる単語が言語モデル適応に悪い影響を与えることが考えられる。そこで第3実施形態では音声認識を行う際に認識結果と併せて、その認識結果の確からしさを表す認識信頼度を出力し、その認識信頼度が高い単語のみを適応対象の単語とする。このように構成することで認識誤りが言語モデル適応に与える影響を抑え、より認識精度が向上することができる。
[Third Embodiment]
<Overview>
A speech recognition result always includes a recognition error. In the first embodiment, language model adaptation is performed using the entire first speaker recognition result, so it is conceivable that words due to recognition errors will adversely affect language model adaptation. Therefore, in the third embodiment, when performing speech recognition, together with the recognition result, a recognition reliability indicating the certainty of the recognition result is output, and only a word having a high recognition reliability is set as a word to be applied. With this configuration, the influence of recognition errors on language model adaptation can be suppressed, and the recognition accuracy can be further improved.

<構成>
図5を参照して、この実施形態に係る音声認識装置30の構成例を説明する。音声認識装置30は、第1実施形態に係る音声認識装置10と同様に、入力端子101A,101Bと音声信号取得部110A,110Bと特徴量分析部120A,120Bと第2認識処理部130Bと翻訳トピックモデル生成部140と単語生起確率算出部150と言語モデル適応部160と対話コーパス記憶部210と翻訳トピックモデル記憶部220と言語モデル記憶部230と音響モデル記憶部240と適応言語モデル記憶部250とを備える。音声認識装置30はさらに、高信頼度単語抽出部180を備える。また、第1認識処理部130Aの替わりに第1認識処理部131Aを備える。
<Configuration>
With reference to FIG. 5, a configuration example of the speech recognition apparatus 30 according to this embodiment will be described. Similar to the speech recognition device 10 according to the first embodiment, the speech recognition device 30 includes input terminals 101A and 101B, speech signal acquisition units 110A and 110B, feature amount analysis units 120A and 120B, and a second recognition processing unit 130B. Topic model generation unit 140, word occurrence probability calculation unit 150, language model adaptation unit 160, dialogue corpus storage unit 210, translation topic model storage unit 220, language model storage unit 230, acoustic model storage unit 240, and adaptive language model storage unit 250 With. The voice recognition device 30 further includes a high reliability word extraction unit 180. Further, a first recognition processing unit 131A is provided instead of the first recognition processing unit 130A.

<音声認識処理>
図6を参照して、音声認識装置30の動作例を、実際に行われる手続きの順に従って説明する。
<Voice recognition processing>
With reference to FIG. 6, the operation example of the speech recognition apparatus 30 will be described in the order of procedures actually performed.

第1認識処理部131Aは、言語モデル記憶部230に記憶されている言語モデルと、音響モデル記憶部240に記憶されている音響モデルとを用いて、特徴量分析部120Aが出力する第一話者Aの音声の特徴量を音声認識し、第一話者認識結果A’および対応する認識信頼度を生成する(S131A)。認識信頼度は音声認識処理により出力される認識結果をどれだけ信頼してよいかを表す尺度であり、一般的に事後確率に基づき算出される。値は0.0〜1.0の範囲をとる。値が1.0に近いほど、最終的な認識結果との他の競合候補がほとんど無かったことを示し、値が0.0に近いほど、同程度のスコアをもつ他の候補が多く出現していたことを示す。   The first recognition processing unit 131A uses the language model stored in the language model storage unit 230 and the acoustic model stored in the acoustic model storage unit 240 to output the first episode from the feature amount analysis unit 120A. The feature amount of the voice of the person A is recognized as a voice, and the first speaker recognition result A ′ and the corresponding recognition reliability are generated (S131A). The recognition reliability is a measure representing how much the recognition result output by the speech recognition process can be trusted, and is generally calculated based on the posterior probability. The value ranges from 0.0 to 1.0. A value closer to 1.0 indicates that there were almost no other competitive candidates for the final recognition result, and a value closer to 0.0 indicated that many other candidates with similar scores appeared. Show.

認識信頼度は高信頼度単語抽出部180へ入力される。高信頼度単語抽出部180は、第一話者認識結果A’からあらかじめ定めた閾値よりも認識信頼度が高い単語のみを抽出する(S180)。ここで利用する閾値は評価セットを用いて第二話者の音声の認識率が最も高くなる値に設定する。上述の通り認識信頼度は0.0〜1.0の範囲をとるため、この値域にある複数の互いに異なる値それぞれについて、評価セットに含まれる第二話者音声の認識を試行し、認識精度が最もよい結果となる値を閾値として採用すればよい。評価セットは、第一話者が属するグループの話者と第二話者が属するグループの話者との対話音声と、その対話音声を書き起こした正解文から構成される。評価セットと対話コーパスとの相違点は、評価セットは対話音声と正解文の組からなるが、対話コーパスは正解文のみからなる点と、対話コーパスは多くの件数を必要とするが評価セットは対話コーパスほどの件数を必要としない点である。したがって、大量の対話音声を収集し、その対話音声を書き起こした正解文のみを対話コーパスとし、対話音声と対応する正解文とを組としてそのサブセットを評価セットとすればよい。抽出された高信頼度単語は単語生起確率算出部150へ入力される。単語生起確率算出部150は、第一話者認識結果A’の替わりに高信頼度単語抽出部180が出力する高信頼度単語を用いて、第二話者Bの単語生起確率を算出する(S150)。   The recognition reliability is input to the high reliability word extraction unit 180. The high reliability word extraction unit 180 extracts only words having a higher recognition reliability than a predetermined threshold from the first speaker recognition result A ′ (S180). The threshold used here is set to a value at which the recognition rate of the second speaker's voice is highest using the evaluation set. As described above, since the recognition reliability is in the range of 0.0 to 1.0, the recognition accuracy of the second speaker included in the evaluation set is tried for each of a plurality of different values in this range, and the recognition accuracy is the best. May be adopted as a threshold value. The evaluation set is composed of dialogue voices between the speakers of the group to which the first speaker belongs and the speakers of the group to which the second speaker belongs, and a correct sentence that transcribes the dialogue voice. The difference between the evaluation set and the dialogue corpus is that the evaluation set consists of a dialogue voice and a correct sentence, but the dialogue corpus consists only of the correct sentence, and the dialogue corpus requires a large number of cases, but the evaluation set It is a point that does not need as many cases as the dialogue corpus. Therefore, it is only necessary to collect a large amount of dialogue speech, use only the correct sentence that transcribes the dialogue speech as a dialogue corpus, and set the subset of the dialogue speech and the corresponding correct sentence as an evaluation set. The extracted high reliability word is input to the word occurrence probability calculation unit 150. The word occurrence probability calculation unit 150 calculates the word occurrence probability of the second speaker B using the high reliability word output from the high reliability word extraction unit 180 instead of the first speaker recognition result A ′ ( S150).

<効果>
このように第3実施形態に係る音声認識装置30は、第一話者Aの音声を認識した第一話者認識結果A’の中から認識信頼度が高い単語を抽出し、抽出した単語のみについて単語生起確率を算出する。このように構成することで、第一話者認識結果A’に含まれている認識誤りが言語モデル適応に与える影響を抑えることができる。結果として、第1実施形態に係る音声認識装置10よりもさらに認識精度が向上することが期待できる。
<Effect>
As described above, the speech recognition apparatus 30 according to the third embodiment extracts words with high recognition reliability from the first speaker recognition result A ′ that recognizes the voice of the first speaker A, and extracts only the extracted words. The word occurrence probability is calculated for. By comprising in this way, the influence which the recognition error contained in 1st speaker recognition result A 'has on language model adaptation can be suppressed. As a result, it can be expected that the recognition accuracy is further improved as compared with the speech recognition apparatus 10 according to the first embodiment.

[変形例]
<概要>
第2実施形態の音声認識装置20に対して第3実施形態の考え方を適用することも可能である。すなわち認識信頼度が高い単語のうち事前に定めたキーワードのみについて言語モデル適応を行う。このように構成することで、認識信頼度は高いがトピックと関係しない口調や話者性などを表す単語による影響や、認識誤りにより事前に定めたキーワードに偶然合致したような単語による影響などを排除することができる。
[Modification]
<Overview>
It is also possible to apply the idea of the third embodiment to the voice recognition device 20 of the second embodiment. That is, the language model is applied only to a predetermined keyword among words having high recognition reliability. By configuring in this way, the effects of words that represent a tone or speaker characteristics that have high recognition reliability but are not related to the topic, and the effects of words that coincide with a predetermined keyword due to recognition errors, etc. Can be eliminated.

<構成>
図7を参照して、この変形例に係る音声認識装置30’の構成例を説明する。音声認識装置30’は、第2実施形態に係る音声認識装置20と同様に、入力端子101A,101Bと音声信号取得部110A,110Bと特徴量分析部120A,120Bと第2認識処理部130Bと翻訳トピックモデル生成部140と単語生起確率算出部150と言語モデル適応部160とキーワード抽出部170A,170Bと対話コーパス記憶部210と翻訳トピックモデル記憶部220と言語モデル記憶部230と音響モデル記憶部240と適応言語モデル記憶部250とキーワード記憶部260とを備える。音声認識装置30’はさらに、高信頼度単語抽出部180を備える。また、第1認識処理部130Aの替わりに第1認識処理部131Aを備える。
<Configuration>
With reference to FIG. 7, the structural example of speech recognition apparatus 30 'which concerns on this modification is demonstrated. Similar to the speech recognition device 20 according to the second embodiment, the speech recognition device 30 ′ includes input terminals 101A and 101B, speech signal acquisition units 110A and 110B, feature amount analysis units 120A and 120B, and a second recognition processing unit 130B. Translation topic model generation unit 140, word occurrence probability calculation unit 150, language model adaptation unit 160, keyword extraction units 170A and 170B, dialogue corpus storage unit 210, translation topic model storage unit 220, language model storage unit 230, and acoustic model storage unit 240, an adaptive language model storage unit 250, and a keyword storage unit 260. The speech recognition device 30 ′ further includes a high reliability word extraction unit 180. Further, a first recognition processing unit 131A is provided instead of the first recognition processing unit 130A.

<音声認識処理>
図8を参照して、音声認識装置30’の動作例を、実際に行われる手続きの順に従って説明する。
<Voice recognition processing>
With reference to FIG. 8, an operation example of the speech recognition apparatus 30 ′ will be described in the order of procedures actually performed.

第1認識処理部131Aは、言語モデルと音響モデルとを用いて、第一話者Aの音声の特徴量を音声認識し、第一話者認識結果A’および対応する認識信頼度を生成する(S131A)。認識信頼度は高信頼度単語抽出部180へ入力される。高信頼度単語抽出部180は、第一話者認識結果A’からあらかじめ定めた閾値よりも認識信頼度が高い単語のみを抽出する(S180)。抽出した高信頼度単語はキーワード抽出部170Bへ入力される。キーワード抽出部170Bは、高信頼度単語から、キーワード記憶部260に記憶されているあらかじめ定められたキーワードを抽出し、キーワード列を出力する(S170B)。抽出したキーワード列は単語生起確率算出部150へ出力される。単語生起確率算出部150は、高信頼度単語から抽出されたキーワード列と翻訳トピックモデルとを用いて、第二話者の単語生起確率を算出する(S150)。   The first recognition processing unit 131A uses the language model and the acoustic model to recognize the feature amount of the voice of the first speaker A, and generates the first speaker recognition result A ′ and the corresponding recognition reliability. (S131A). The recognition reliability is input to the high reliability word extraction unit 180. The high reliability word extraction unit 180 extracts only words having a higher recognition reliability than a predetermined threshold from the first speaker recognition result A ′ (S180). The extracted high reliability word is input to the keyword extraction unit 170B. The keyword extraction unit 170B extracts a predetermined keyword stored in the keyword storage unit 260 from the high reliability word, and outputs a keyword string (S170B). The extracted keyword string is output to the word occurrence probability calculation unit 150. The word occurrence probability calculation unit 150 calculates the word occurrence probability of the second speaker using the keyword string extracted from the high reliability word and the translation topic model (S150).

<効果>
このように変形例に係る音声認識装置30’は、第一話者Aの音声を認識した第一話者認識結果A’のうち認識信頼度が高い単語のみから事前に定めたキーワードを抽出し、抽出したキーワードのみについて単語生起確率を算出する。このように構成することで、認識信頼度は高いがトピックと関係しない口調や話者性などを表す単語による影響や、認識誤りにより事前に定めたキーワードに偶然合致したような単語などによる影響を排除することができる。結果として、第2実施形態に係る音声認識装置20よりもさらに認識精度が向上することができる。
<Effect>
As described above, the speech recognition device 30 ′ according to the modification extracts a predetermined keyword from only words having high recognition reliability from the first speaker recognition result A ′ that recognizes the voice of the first speaker A. The word occurrence probability is calculated only for the extracted keywords. By configuring in this way, the influence of words that express tone and speaker characteristics that are high in recognition reliability but are not related to the topic, or the influence of words that accidentally match a predetermined keyword due to recognition errors, etc. Can be eliminated. As a result, the recognition accuracy can be further improved as compared with the speech recognition apparatus 20 according to the second embodiment.

[第4実施形態]
<概要>
対話音声に含まれる二者の音声のうち、事前にどちらの音声の認識精度が高いかわからない場合も考えられる。また、いずれの音声も認識率が十分に高く言語モデル適応が必要とされない場合や、いずれの音声も同程度に認識率が低く言語モデル適応が必要とされない場合も考えられる。そこで第4実施形態では事前に両者の音声を認識した暫定認識結果からそれぞれの認識精度を推定し、言語モデル適応が必要か否か、もしくはいずれの音声を第一話者Aの音声とし、いずれの音声を第二話者Bの音声とするかの判定を行う。
[Fourth Embodiment]
<Overview>
There may be a case where it is not known in advance which voice of the two parties included in the conversation voice has high recognition accuracy. Also, there are cases where the recognition rate of any speech is sufficiently high and language model adaptation is not required, or the recognition rate of any speech is comparable and the language model adaptation is not required. Therefore, in the fourth embodiment, each recognition accuracy is estimated from a provisional recognition result obtained by recognizing both voices in advance, whether or not language model adaptation is necessary, or which voice is the voice of the first speaker A, Is determined to be the voice of the second speaker B.

<構成>
図9を参照して、この実施形態に係る音声認識装置40の構成例を説明する。音声認識装置40は、第1〜3実施形態および変形例に示した音声認識装置10,20,30,30’の構成に加えて、暫定認識処理部135A,135Bと信頼度推定部190A,190Bと適応処理判定部195とを備える。
<Configuration>
With reference to FIG. 9, the structural example of the speech recognition apparatus 40 which concerns on this embodiment is demonstrated. The voice recognition device 40 includes provisional recognition processing units 135A and 135B and reliability estimation units 190A and 190B in addition to the configurations of the voice recognition devices 10, 20, 30, and 30 ′ shown in the first to third embodiments and the modified examples. And an adaptive processing determination unit 195.

<音声認識処理>
図10を参照して、音声認識装置40の動作例を、実際に行われる手続きの順に従って説明する。
<Voice recognition processing>
With reference to FIG. 10, the operation example of the speech recognition apparatus 40 will be described in the order of procedures actually performed.

入力端子101Aを介して話者Xのアナログ音声信号が音声信号取得部110Aに入力される。話者Xは複数の話者を事前に対話の役割に応じてグループ分けしたいずれかのグループに属する話者である。音声信号取得部110Aは、入力された話者Xのアナログ音声信号をディジタル音声信号に変換する(S110A)。   An analog voice signal of the speaker X is input to the voice signal acquisition unit 110A via the input terminal 101A. The speaker X is a speaker belonging to any group in which a plurality of speakers are grouped in advance according to the role of dialogue. The voice signal acquisition unit 110A converts the input analog voice signal of the speaker X into a digital voice signal (S110A).

入力端子101Bを介して話者Yのアナログ音声信号が音声信号取得部110Bに入力される。話者Yは話者Xの属するグループとは異なるグループに属する話者である。音声信号取得部110Bは、入力された話者Yのアナログ音声信号をディジタル音声信号に変換する(S110B)。   An analog voice signal of the speaker Y is input to the voice signal acquisition unit 110B via the input terminal 101B. The speaker Y is a speaker belonging to a group different from the group to which the speaker X belongs. The voice signal acquisition unit 110B converts the input analog voice signal of the speaker Y into a digital voice signal (S110B).

話者Xのディジタル音声信号は特徴量分析部120Aに入力される。特徴量分析部120Aは、入力された話者Xのディジタル音声信号から音響特徴量を抽出する(S120A)。抽出する特徴量は上述の他の実施形態と同様であるので、ここでは説明を省略する。   The digital audio signal of the speaker X is input to the feature amount analysis unit 120A. The feature amount analysis unit 120A extracts an acoustic feature amount from the input digital audio signal of the speaker X (S120A). Since the feature quantity to be extracted is the same as in the other embodiments described above, description thereof is omitted here.

話者Yのディジタル音声信号は特徴量分析部120Bに入力される。特徴量分析部120Bは、入力された話者Yのディジタル音声信号から音響特徴量を抽出する(S120B)。抽出する特徴量は上述の他の実施形態と同様であるので、ここでは説明を省略する。   The digital voice signal of the speaker Y is input to the feature amount analysis unit 120B. The feature amount analysis unit 120B extracts an acoustic feature amount from the input digital voice signal of the speaker Y (S120B). Since the feature quantity to be extracted is the same as in the other embodiments described above, description thereof is omitted here.

話者Xの音声の特徴量は暫定認識処理部135Aに入力される。暫定認識処理部135Aは、言語モデル記憶部230に記憶されている言語モデルと、音響モデル記憶部240に記憶されている音響モデルとを用いて、話者Xの音声の特徴量を音声認識し、暫定認識結果および対応する認識信頼度を生成する(S135A)。具体的な認識処理方法および認識信頼度の推定方法は、上述の実施形態における第1認識処理部131Aと同様であるので、ここでは説明を省略する。   The feature amount of the voice of the speaker X is input to the provisional recognition processing unit 135A. The provisional recognition processing unit 135 </ b> A recognizes the feature amount of the speaker X using the language model stored in the language model storage unit 230 and the acoustic model stored in the acoustic model storage unit 240. The provisional recognition result and the corresponding recognition reliability are generated (S135A). Since the specific recognition processing method and the recognition reliability estimation method are the same as those of the first recognition processing unit 131A in the above-described embodiment, description thereof is omitted here.

話者Yの音声の特徴量は暫定認識処理部135Bに入力される。暫定認識処理部135Bは、言語モデル記憶部230に記憶されている言語モデルと、音響モデル記憶部240に記憶されている音響モデルとを用いて、話者Yの音声の特徴量を音声認識し、暫定認識結果および対応する認識信頼度を生成する(S135B)。具体的な認識処理方法および認識信頼度の推定方法は、暫定認識処理部135Aと同様であるので、ここでは説明を省略する。   The feature amount of the voice of the speaker Y is input to the provisional recognition processing unit 135B. The provisional recognition processing unit 135 </ b> B recognizes the feature amount of the voice of the speaker Y using the language model stored in the language model storage unit 230 and the acoustic model stored in the acoustic model storage unit 240. The provisional recognition result and the corresponding recognition reliability are generated (S135B). Since the specific recognition processing method and the recognition reliability estimation method are the same as those of the provisional recognition processing unit 135A, description thereof is omitted here.

話者Xの認識信頼度は信頼度推定部190Aへ入力される。信頼度推定部190Aは、話者Xの認識信頼度を用いて、話者Xの暫定認識結果の文書信頼度を推定する(S190A)。文書信頼度とは、文書単位の認識信頼度であり、対話音声の音声認識においては文書とは一つの対話である。単語単位の認識信頼度から文書単位の認識信頼度を推定する方法は、例えば、「浅見太一,小橋川哲,山口義和,政瀧浩和,高橋敏, “単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定”, 信学技報, vol. 110, no. 143, SP2010-42, pp. 43-48, 2010年7月.」に記載されている。   The recognition reliability of the speaker X is input to the reliability estimation unit 190A. The reliability estimation unit 190A estimates the document reliability of the provisional recognition result of the speaker X using the recognition reliability of the speaker X (S190A). The document reliability is the recognition reliability in units of documents. In the speech recognition of dialogue voice, the document is one dialogue. For example, Taichi Asami, Satoshi Kobashikawa, Yoshikazu Yamaguchi, Hirokazu Masatoshi, Satoshi Takahashi, “Using word context consistency and acoustic likelihood” "Establishment of speech document recognition reliability", IEICE Technical Report, vol. 110, no. 143, SP2010-42, pp. 43-48, July 2010.

話者Yの認識信頼度は信頼度推定部190Bへ入力される。信頼度推定部190Bは、話者Yの認識信頼度を用いて、話者Yの暫定認識結果の文書信頼度を推定する(S190B)。文書信頼度の推定方法は、信頼度推定部190Aと同様であるので、ここでは説明を省略する。   The recognition reliability of the speaker Y is input to the reliability estimation unit 190B. The reliability estimation unit 190B estimates the document reliability of the provisional recognition result of the speaker Y using the recognition reliability of the speaker Y (S190B). Since the document reliability estimation method is the same as that of the reliability estimation unit 190A, description thereof is omitted here.

話者Xの文書信頼度と話者Yの文書信頼度は、適応処理判定部195へ入力される。適応処理判定部195は、話者Xの文書信頼度と話者Yの文書信頼度を用いて、話者Xの音声と話者Yの音声とから、いずれを第一話者Aの音声とし、いずれを第二話者Bの音声とするかを決定する(S195)。この際、言語モデル適応処理を行う必要がないと判定した場合には、暫定認識結果を第一話者認識結果A’もしくは第二話者認識結果B’として出力する。   The document reliability of the speaker X and the document reliability of the speaker Y are input to the adaptive processing determination unit 195. The adaptive processing determination unit 195 uses the document reliability of the speaker X and the document reliability of the speaker Y as a voice of the first speaker A from the voice of the speaker X and the voice of the speaker Y. , Which of the voices of the second speaker B is determined is determined (S195). At this time, if it is determined that it is not necessary to perform the language model adaptation process, the temporary recognition result is output as the first speaker recognition result A ′ or the second speaker recognition result B ′.

適応処理判定部195の行う判定方法の規則を例示する。まず、話者Xの文書信頼度と話者Yの文書信頼度がいずれもあらかじめ定めた閾値より大きい場合、言語モデル適応処理を行わない。これは、いずれも既に認識率が高く言語モデルの適応効果が期待できず、処理コストが無駄になると考えられるためである。次に、話者Xの文書信頼度と話者Yの文書信頼度がいずれも閾値より小さい場合、言語モデル適応処理を行わない。これは、いずれも認識率が低いと誤った認識結果に基づいて言語モデル適応が行われるため適応効果が期待できず、むしろ認識精度が劣化する可能性すらあるためである。また、話者Xの文書信頼度は閾値より大きく、話者Yの文書信頼度は閾値より小さい場合、話者Xを第一話者Aとし、話者Yを第二話者Bとして、言語モデル適応処理を行う。そして、話者Xの文書信頼度は閾値より小さく、話者Yの文書信頼度は閾値より大きい場合、話者Yを第一話者Aとし、話者Xを第二話者Bとして、言語モデル適応処理を行う。   The rule of the determination method which the adaptive process determination part 195 performs is illustrated. First, when both the document reliability of speaker X and the document reliability of speaker Y are larger than a predetermined threshold, the language model adaptation process is not performed. This is because the recognition rate is already high and the adaptation effect of the language model cannot be expected, and the processing cost is considered to be wasted. Next, if both the document reliability of speaker X and the document reliability of speaker Y are smaller than the threshold, the language model adaptation process is not performed. This is because if the recognition rate is low, language model adaptation is performed based on an erroneous recognition result, so that the adaptation effect cannot be expected, and the recognition accuracy may even deteriorate. Further, when the document reliability of the speaker X is higher than the threshold and the document reliability of the speaker Y is lower than the threshold, the speaker X is the first speaker A and the speaker Y is the second speaker B. Perform model adaptation processing. If the document reliability of speaker X is smaller than the threshold and the document reliability of speaker Y is greater than the threshold, speaker Y is first speaker A and speaker X is second speaker B. Perform model adaptation processing.

判定に利用する閾値は評価セットを用いて話者Xの音声と話者Yの音声の認識率が最も高くなる値に設定する。文書信頼度は文書単位での認識信頼度であり、上述の通り認識信頼度は0.0〜1.0の範囲をとるため、この値域にある複数の互いに異なる値それぞれについて、評価セットに含まれる話者Xの音声と話者Yの音声の認識を試行し、認識精度が最もよい結果となる値を閾値として採用すればよい。評価セットは、第3実施形態で高信頼度単語抽出部180の閾値を決定する際に用いた評価セットと同じものを利用すればよい。高信頼度単語抽出部180の閾値を決定する際に用いた評価セットとは異なる評価セットを別途用意してもよい。   The threshold used for the determination is set to a value at which the recognition rate of the voice of the speaker X and the voice of the speaker Y is highest using the evaluation set. Since the document reliability is a recognition reliability in document units, and the recognition reliability is in the range of 0.0 to 1.0 as described above, the speaker X included in the evaluation set for each of a plurality of different values in this range. May be used as the threshold value, and a value that gives the best recognition accuracy may be used. The same evaluation set as that used when determining the threshold value of the highly reliable word extraction unit 180 in the third embodiment may be used as the evaluation set. An evaluation set different from the evaluation set used when determining the threshold value of the high reliability word extraction unit 180 may be separately prepared.

適応処理判定部195において言語モデル適応処理を行う必要があると判定され、第一話者Aの音声と第二話者Bの音声が決定された場合、上述の実施形態に示す処理が行われる。この際、第一話者認識結果A’として暫定認識結果を再利用するように構成することで処理コストを低減することができる。   When it is determined that the language model adaptation process needs to be performed in the adaptation process determination unit 195 and the voice of the first speaker A and the voice of the second speaker B are determined, the process described in the above embodiment is performed. . In this case, the processing cost can be reduced by configuring the temporary recognition result to be reused as the first speaker recognition result A ′.

<効果>
このように第4実施形態に係る音声認識装置40は、対話音声に含まれる二者の音声のうち、事前にどちらの音声の認識精度が高いかわからない場合であっても、それぞれを認識した暫定認識結果から、言語モデル適応が必要か、必要な場合にはいずれの音声を第一話者Aとし、いずれの音声を第二話者Bとするかを判定する。このように構成することで、必要のない言語モデル適応を省略し処理コストを低減することができる。また、誤って認識率の低い話者を第一話者Aとし認識率の高い話者を第二話者Bとして言語モデル適応を行うことにより認識精度が劣化する事態を防止することができる。
<Effect>
As described above, the voice recognition device 40 according to the fourth embodiment recognizes each of the two voices included in the dialogue voice even if the voice recognition accuracy is not known in advance. From the recognition result, it is determined whether language model adaptation is necessary, and if necessary, which voice is designated as the first speaker A and which voice is designated as the second speaker B. By configuring in this way, unnecessary language model adaptation can be omitted and the processing cost can be reduced. In addition, it is possible to prevent the recognition accuracy from deteriorating by applying the language model adaptation by mistakenly setting the speaker with a low recognition rate as the first speaker A and the speaker with a high recognition rate as the second speaker B.

[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[Program, recording medium]
The present invention is not limited to the above-described embodiment, and it goes without saying that modifications can be made as appropriate without departing from the spirit of the present invention. The various processes described in the above-described embodiments are not only executed in time series according to the order described, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes.

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。   When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

10,20,30,30’,40 音声認識装置
101A,101B 入力端子
110A,110B 音声信号取得部
120A,120B 特徴量抽出部
130A 第1認識処理部
130B 第2認識処理部
135A,135B 暫定認識処理部
140 翻訳トピックモデル生成部
150 単語生起確率算出部
160 言語モデル適応部
170A,170B キーワード抽出部
180 高信頼度単語抽出部
190A,190B 信頼度推定部
195 適応処理判定部
210 対話コーパス記憶部
220 翻訳トピックモデル記憶部
230 言語モデル記憶部
240 音響モデル記憶部
250 適応言語モデル記憶部
260 キーワード記憶部
10, 20, 30, 30 ', 40 Voice recognition devices 101A, 101B Input terminals 110A, 110B Audio signal acquisition units 120A, 120B Feature amount extraction unit 130A First recognition processing unit 130B Second recognition processing unit 135A, 135B Provisional recognition processing Unit 140 translation topic model generation unit 150 word occurrence probability calculation unit 160 language model adaptation unit 170A, 170B keyword extraction unit 180 high reliability word extraction unit 190A, 190B reliability estimation unit 195 adaptation processing determination unit 210 dialogue corpus storage unit 220 translation Topic model storage unit 230 Language model storage unit 240 Acoustic model storage unit 250 Adaptive language model storage unit 260 Keyword storage unit

Claims (8)

複数の話者を事前にグループ分けし、一方のグループに属する第一話者と他方のグループに属する第二話者との会話音声を認識する音声認識装置であって、
前記一方のグループに属する話者と前記他方のグループに属する話者との会話音声を書き起こした対話コーパスを記憶する対話コーパス記憶部と、
言語モデルを記憶する言語モデル記憶部と、
音響モデルを記憶する音響モデル記憶部と、
前記音響モデルと前記言語モデルとを用いて、前記第一話者の音声を認識して第一話者認識結果を求める第1認識処理部と、
前記対話コーパスから前記第一話者の発話内容を前記第二話者の発話内容に変換する翻訳トピックモデルを求める翻訳トピックモデル生成部と、
前記第一話者認識結果と前記翻訳トピックモデルとを用いて、前記第二話者の単語生起確率を算出する単語生起確率算出部と、
前記単語生起確率を用いて、前記言語モデルから適応言語モデルを求める言語モデル適応部と、
前記音響モデルと前記適応言語モデルとを用いて、前記第二話者の音声を認識して第二話者認識結果を求める第2認識処理部と、
を備えることを特徴とする音声認識装置。
A speech recognition device for grouping a plurality of speakers in advance and recognizing conversational speech between a first speaker belonging to one group and a second speaker belonging to the other group,
A dialogue corpus storage unit for storing a dialogue corpus that transcribes a conversation voice between a speaker belonging to the one group and a speaker belonging to the other group;
A language model storage unit for storing a language model;
An acoustic model storage unit for storing an acoustic model;
A first recognition processing unit that recognizes the voice of the first speaker and obtains a first speaker recognition result using the acoustic model and the language model;
A translation topic model generating unit for obtaining a translation topic model for converting the utterance content of the first speaker from the dialogue corpus into the utterance content of the second speaker;
Using the first speaker recognition result and the translation topic model, a word occurrence probability calculating unit that calculates a word occurrence probability of the second speaker;
A language model adaptation unit for obtaining an adaptive language model from the language model using the word occurrence probability;
A second recognition processing unit for recognizing the second speaker's voice and obtaining a second speaker recognition result using the acoustic model and the adaptive language model;
A speech recognition apparatus comprising:
請求項1に記載の音声認識装置であって、
P(zi)はトピックziの生起確率であり、P(wa,n|zi)は前記第一話者におけるトピックzi下での単語wnの生起確率であり、P(wb,n|zi)は前記第二話者におけるトピックzi下での単語wnの生起確率であり、P(zi |da)は前記第一話者認識結果da下でのトピックziの生起確率であり、
前記翻訳トピックモデルは、前記生起確率P(zi)と前記生起確率P(wa,n|zi)と前記生起確率P(wb,n|zi)とを含み、
前記単語生起確率算出部は、以下の式により前記単語生起確率P(wb,n|da)を算出する
Figure 0005762365

ことを特徴とする音声認識装置。
The speech recognition device according to claim 1,
P (z i ) is the probability of occurrence of topic z i , P (w a, n | z i ) is the probability of occurrence of word w n under topic z i in the first speaker, and P (w b, n | z i ) is the occurrence probability of the word w n under the topic z i in the second speaker, and P (z i | d a ) is the first speaker recognition result under the d a The probability of occurrence of topic z i
The translation topic model includes the occurrence probability P (z i ), the occurrence probability P (w a, n | z i ), and the occurrence probability P (w b, n | z i ),
The word occurrence probability calculating unit calculates the word occurrence probability P (w b, n | d a ) according to the following equation:
Figure 0005762365

A speech recognition apparatus characterized by that.
請求項1または2に記載の音声認識装置であって、
あらかじめ定められたキーワードを記憶するキーワード記憶部と、
前記第一話者認識結果もしくは前記対話コーパスを入力とし、入力されたテキストに含まれる前記キーワードを抽出したキーワード列を出力するキーワード抽出部と、
を備えることを特徴とする音声認識装置。
The speech recognition device according to claim 1 or 2,
A keyword storage unit for storing predetermined keywords;
A keyword extraction unit that receives the first speaker recognition result or the dialogue corpus as input and outputs a keyword string obtained by extracting the keyword included in the input text;
A speech recognition apparatus comprising:
請求項3に記載の音声認識装置であって、
前記キーワードは、前記第一話者認識結果におけるtf-idf値の高い単語を選択したものである
ことを特徴とする音声認識装置。
The speech recognition device according to claim 3,
The speech recognition apparatus, wherein the keyword is a word selected with a high tf-idf value in the first speaker recognition result.
請求項1から4のいずれかに記載の音声認識装置であって、
前記第一話者認識結果からあらかじめ定めた閾値よりも認識信頼度が高い単語のみを抽出する高信頼度単語抽出部
を備え、
前記第1認識処理部は、前記第一話者認識結果に対応する前記認識信頼度を出力する
ことを特徴とする音声認識装置。
The speech recognition device according to claim 1,
A high-reliability word extraction unit that extracts only words having higher recognition reliability than a predetermined threshold from the first speaker recognition result,
The speech recognition apparatus, wherein the first recognition processing unit outputs the recognition reliability corresponding to the first speaker recognition result.
請求項1から5のいずれかに記載の音声認識装置であって、
複数の音声を入力とし、前記言語モデルと前記音響モデルを用いて、複数の入力音声それぞれを認識して暫定認識結果と暫定認識信頼度を出力する暫定認識処理部と、
前記暫定認識信頼度を用いて、前記入力音声ごとの文書信頼度を推定する信頼度推定部と、
前記文書信頼度を用いて、前記入力音声から前記第一話者の音声と前記第二話者の音声を決定する適応処理判定部と、
を備えることを特徴とする音声認識装置。
The speech recognition device according to any one of claims 1 to 5,
Using a plurality of voices as input, using the language model and the acoustic model, a provisional recognition processing unit that recognizes each of the plurality of input voices and outputs a provisional recognition result and provisional recognition reliability;
A reliability estimation unit that estimates the document reliability for each input speech using the provisional recognition reliability;
An adaptive processing determination unit that determines the voice of the first speaker and the voice of the second speaker from the input voice using the document reliability;
A speech recognition apparatus comprising:
複数の話者を事前にグループ分けし、一方のグループに属する第一話者と他方のグループに属する第二話者との会話音声を認識する音声認識方法であって、
音響モデルと言語モデルとを用いて、前記第一話者の音声を認識して第一話者認識結果を求める第1認識処理ステップと、
前記一方のグループに属する話者と前記他方のグループに属する話者との会話音声を書き起こした対話コーパスから前記第一話者の発話内容を前記第二話者の発話内容に変換する翻訳トピックモデルを求める翻訳トピックモデル生成ステップと、
前記第一話者認識結果と前記翻訳トピックモデルとを用いて、前記第二話者の単語生起確率を算出する単語生起確率算出ステップと、
前記単語生起確率を用いて、前記言語モデルから適応言語モデルを求める言語モデル適応ステップと、
前記音響モデルと前記適応言語モデルとを用いて、前記第二話者の音声を認識して第二話者認識結果を求める第2認識処理ステップと、
を含むことを特徴とする音声認識方法。
A speech recognition method for grouping a plurality of speakers in advance and recognizing conversation speech between a first speaker belonging to one group and a second speaker belonging to the other group,
A first recognition processing step of recognizing the voice of the first speaker and obtaining a first speaker recognition result using an acoustic model and a language model;
A translation topic for converting the utterance content of the first speaker into the utterance content of the second speaker from a dialogue corpus in which conversation speech between the speaker belonging to the one group and the speaker belonging to the other group is transcribed A translation topic model generation step for obtaining a model;
Using the first speaker recognition result and the translation topic model, a word occurrence probability calculating step for calculating a word occurrence probability of the second speaker;
A language model adaptation step for obtaining an adaptive language model from the language model using the word occurrence probability;
A second recognition processing step of recognizing the voice of the second speaker and obtaining a second speaker recognition result using the acoustic model and the adaptive language model;
A speech recognition method comprising:
請求項1から6のいずれかに記載の音声認識装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the speech recognition apparatus according to claim 1.
JP2012163527A 2012-07-24 2012-07-24 Speech recognition apparatus, speech recognition method, and program Expired - Fee Related JP5762365B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012163527A JP5762365B2 (en) 2012-07-24 2012-07-24 Speech recognition apparatus, speech recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012163527A JP5762365B2 (en) 2012-07-24 2012-07-24 Speech recognition apparatus, speech recognition method, and program

Publications (2)

Publication Number Publication Date
JP2014025955A JP2014025955A (en) 2014-02-06
JP5762365B2 true JP5762365B2 (en) 2015-08-12

Family

ID=50199683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012163527A Expired - Fee Related JP5762365B2 (en) 2012-07-24 2012-07-24 Speech recognition apparatus, speech recognition method, and program

Country Status (1)

Country Link
JP (1) JP5762365B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679314B (en) * 2015-12-28 2020-05-22 百度在线网络技术(北京)有限公司 Speech recognition method and device
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
CN115374247A (en) * 2022-08-19 2022-11-22 中国银行股份有限公司 A dialog template matching method and device based on improved LDA model

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4270943B2 (en) * 2003-05-29 2009-06-03 三菱電機株式会社 Voice recognition device
JP4764203B2 (en) * 2006-02-27 2011-08-31 日本放送協会 Speech recognition apparatus and speech recognition program
US20090271195A1 (en) * 2006-07-07 2009-10-29 Nec Corporation Speech recognition apparatus, speech recognition method, and speech recognition program
JP5235187B2 (en) * 2009-11-16 2013-07-10 日本電信電話株式会社 Speech recognition apparatus, speech recognition method, and speech recognition program

Also Published As

Publication number Publication date
JP2014025955A (en) 2014-02-06

Similar Documents

Publication Publication Date Title
JP5066483B2 (en) Language understanding device
US8972260B2 (en) Speech recognition using multiple language models
JP4974510B2 (en) System and method for identifying semantic intent from acoustic information
CN100371926C (en) Interactive dialog device and method for outputting answer sentences by responding to input sentences
JP5932869B2 (en) N-gram language model unsupervised learning method, learning apparatus, and learning program
JP2003036093A (en) Voice input search system
US8285542B2 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
US12243517B1 (en) Utterance endpointing in task-oriented conversational systems
WO2018192186A1 (en) Speech recognition method and apparatus
JP6552999B2 (en) Text correction device, text correction method, and program
KR20130126570A (en) Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof
JP5235187B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
Catania et al. Automatic Speech Recognition: Do Emotions Matter?
JP5762365B2 (en) Speech recognition apparatus, speech recognition method, and program
Ziedan et al. A unified approach for arabic language dialect detection
Qiu et al. Context-aware neural confidence estimation for rare word speech recognition
JP2886121B2 (en) Statistical language model generation device and speech recognition device
JP2013171222A (en) Word adding device, word adding method, and program
KR20200102309A (en) System and method for voice recognition using word similarity
JP4362054B2 (en) Speech recognition apparatus and speech recognition program
Chu et al. Recent advances in the IBM GALE mandarin transcription system
JP5673239B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
Liao et al. Towards the Development of Automatic Speech Recognition for Bikol and Kapampangan
Abidin et al. Acoustic model with multiple lexicon types for Indonesian speech recognition
JP2001109491A (en) Continuous speech recognition apparatus and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150609

R150 Certificate of patent or registration of utility model

Ref document number: 5762365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees