JP2710045B2 - Voice recognition method - Google Patents
Voice recognition methodInfo
- Publication number
- JP2710045B2 JP2710045B2 JP61269116A JP26911686A JP2710045B2 JP 2710045 B2 JP2710045 B2 JP 2710045B2 JP 61269116 A JP61269116 A JP 61269116A JP 26911686 A JP26911686 A JP 26911686A JP 2710045 B2 JP2710045 B2 JP 2710045B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition
- section
- similarity
- pitch frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 4
- 239000011295 pitch Substances 0.000 description 28
- 230000004044 response Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000008602 contraction Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Description
【発明の詳細な説明】
産業上の利用分野
本発明は人間の声を機械に認識させる音声認識方法に
関するものである。
従来の技術
単語音声認識装置は近年、能力も大きくなり、小型低
価格化も進んでいるため、しだいに普及するようになっ
てきた。しかし、使用できる語彙数の制限、使用環境の
制限や、余計な言葉を言ってはならないなど、いろいろ
な使用上の制限があるため、決して使い易い装置ではな
い。特に、不特定話者用の装置では、これらの使用上の
制限を知らない人も装置を使うことになる。このため、
不特定話者用の単語音声認識装置を音声応答装置と組合
わせて用い、質問応答形式のシステム構成にするのが一
般的である。すなわち、ユーザの発声内容を音声応答装
置から発するガイド音声によって誘導することにより、
装置の使用上の制限を意識しなくても使えるように配慮
する。
たとえば、十数字と「ハイ」、「イイエ」の12単語を
認識対象とする装置を用いて列車の切符を予約する場合
は次のようになる。
第4図は現在用いられている不特定話者用の認識応答
システムの機能ブロック図(従来例)である。ホスト計
算機51のタスクが起動されると、音声合成部52からガイ
ド音声が出力される。ガイド音声の指示に従って、ユー
ザが発声すると、それが音声認識部50で認識され、認識
結果をホスト計算機51へ送出する。ホスト計算機51で
は、ユーザの意図を介して応答文を作成し、音声合成部
52から応答音声を出力する。ユーザはそれによって次の
発声を行なう………というような手順で、タスクを遂行
してゆく。
音声認識部50では次のようにして認識処理が行なわれ
る。先ず音響分析部53でフィルタ分析、LPC分析やパワ
ー計算などが行なわれ、パラメータが抽出される。音声
区間検出部54では、音響分析結果を用いて、入力音声の
音声区間が検出される。類似度計算部55では、音声区間
内に含まれるパラメータと、標準パターン部56に格納さ
れている各音声の標準パターンとの類似度の計算を行な
い、最も類似度が高い標準パターンに対応する言葉を認
識結果とする。
発明が解決しようとする問題点
上記のように質問応答形式で用いれば、音声認識装置
にある程度理解がある人ならば使用できる。しかし、音
声認識装置の制限を全く知らない人は、必ずしも予期し
た表現で返答するとは限らない。たとえば上記例1の場
合、ユーザは下線のように返答するかも知れない。
例2:
装置:切符が何枚必要でしょうか。数字でお答え下さ
い。
ユーザ:ええと、4まいです。
装置:新幹線の切符4まいですね。
ユーザ:はい、そうです。
例2のユーザの返答、は、会話では自然に用いら
れる表現であるが、単語音声を対象とする音声認識で
は、このような文音声の認識はできないのでリジェクト
されるか、認識誤まりを生じる場合が多い。すなわち、
従来の単語音声認識装置では、例1のように決められた
表現で返答する必要があり、ほんの少しの表現の変形も
許されない。これは使用上、非常に大きな制約であり、
音声認識装置の使用分野を狭める大きな原因となってい
る。
本発明は、かかる従来例の問題点を解決し、単語音声
認識装置の使用上の制限を緩和しようとするものであ
る。すなわち、入力音声の表現の中に認識対象とする表
現以外の多少の余分な部分があった場合においても、正
しく認識できる手段を提供することによって、装置の使
用上の制限を緩和することを目的とする。
問題点を解決するための手段
本発明は上記目的を達成するものであり、その技術的
手段は、騒音や不要な音声を含む入力信号を分析して入
力パラメータ時系列に変換し、入力パラメータ時系列の
部分区間と、あらかじめ作成してある認識対象単語の標
準パターンとの類似度計算を、部分区間を入力パラメー
タ時系列の最初から最後まで単位区間ずつシフトしなが
ら連続的に行ない、類似度が大きくなる認識単語候補区
間を1つまたは複数切り出して、その区間に対応する単
語名を認識単語候補とし、一方、別に入力信号からピッ
チ周波数とその時間的変化パターンを連続的に求めてお
き、前記認識単語候補区間またはその近傍におけるピッ
チ周波数の大きさやその変化パターンを用いて、前記認
識単語候補のうちから認識単語を決定することを特徴と
する音声認識方法にある。
作用
本発明は音声区間全体を1つの単語と見做さず、認識
対象単語を含む十分に広い区間(認識対象単語の他にそ
の前後の余分な言葉や音声の前後のノイズを含む)か
ら、パターンマッチングによる類似度の値とピッチ周波
数の大きさ、動きを用いて、認識対象単語のみを切出し
て認識する。すなわち、前記の認識対象単語を含む十分
広い区間の一部に対して、認識対象単語の標準パターン
の各々との類似度を計算し、次に単位区間ずつずらせて
同様に類似度を計算する……というように区間の全域に
対して各々の標準パターンとの類似度の動きを求める。
そして、類似度が大きい区間(複数でもよい)を求め
る。次に類似度が大きい区間のピッチ周波数を参照し、
ピッチ周波数がその区間の周囲よりも安定して高い値を
示している場合のみ、その区間を認識対象単語の区間と
して認識する。ピッチ周波数が周囲よりも安定して高く
ない場合は、その区間は棄却する。このようにして、認
識対象単語の部分のみをスポッティングして認識する方
法を用いることによって、余計な言葉や騒音を含む入力
に対しても、正しいし認識結果を得ることができ、単語
音声認識装置を使用する上での制約を緩和し、使い易い
音声認識応答システムを実現できるようになる。またそ
れによって、装置に不慣れな人でも使うことができるよ
うになり音声認識装置の用途の拡大を図ることができ
る。
実施例
以下、本発明の実施例について説明する。
本発明はパターンマッチングによって発声された音声
中からキーワードを切出し(ワードスポッティング)、
それをピッチ周波数の変化パターンを用いて検証するこ
とによって認識する方法である。ワードスポッティング
は、各々の単語標準パターンを入力音声の全域にわたっ
て走査させながら類似度計算を行ない、類似度の大きく
なる区間とその時の単語名を抽出する方法である。しか
し、類似度最大として抽出された単語が必ずしも正解と
は限らないので、ある基準を設け、基準を満たす複数の
候補を抽出しておく。そして、それらの候補の中から、
ピッチ周波数の変化パターンと類似度値を用いて、1つ
の単語に絞ってゆく。
ピッチ周波数を用いるのは、人間は重要な言葉の部分
では、その他の部分よりは高い周波数でしかもはっきり
と発声するという事実を利用するためである。特に会話
では、音声分析の経験上、その傾向が強い。例2のよう
な質問応答文では、重要な単語(キーワード)が認識対
象単語であるから、ピッチ周波数を用いれば、認識対象
単語の存在する位置を決めることが可能である。
第1図は、このような考え方に基づく本発明の一実施
例における音声認識方法を利用し認識応答システムの機
能ブロック図である。図中、ホスト計算機51および音声
合成部52の機能は従来例と全く同じであるので、音声認
識部6の内容のみについて説明する。
入力音声は音響分析部1によって分析区間(フレー
ム)に区分され、フレームごとにLPC分析されて、LPCケ
プストラム係数が抽出される。サンプリング周波数は8K
Hz、フレーム周期は10msec、分析の窓長は20nsecのハミ
ング窓を用いている。LPC分析の次数は10次、LPCケプス
トラムは5次(C1〜C5)の係数とパワー項C0を用いてい
る。ピッチ抽出部4では、フレームごとにピッチ周波数
を求め、その値を一定期間蓄積する。ピッチ抽出の方法
はいろいろあるが、最も簡単な波形相関法を用いてい
る。入力信号をXiとすると相関関数μτは
μτが最大となる場合のτを
とすると、ピッチ周波数は
で求められる。
類似度計算部2は入力パラメータ(LPCケプストラム
係数)と単語標準パターン部3の各単語の標準パターン
を逐次比較してゆき、類似度が大きい部分を単語として
切りだして蓄積しておく。類似度計算は音声が存在する
ところは勿論のこと、前後のノイズ区間を含む十分広い
区間で行ない、音声区間の検出を不要としている。
次に類似度計算によってノイズや音声の中から単語を
スポッティングする方法を説明する。
まず、パターンマッチングに用いている距離尺度(統
計的距離尺度)について説明する。
入力単語音声長を一定長Jフレームに線形信号し、1
フレームあたりのパラメータベクトルをとすると、入力ベクトル
は次のようになる。ただしtは転置を表す。
ここで、各
はp次元のベクトルである。
単語ωn(n=1,2,…,N)の標準パターンとして、平
均値ベクトルを
共分散行列を
する単語を認識結果とすればよい。
ベイズの定理より
右辺第1項のP(ωn)は定数と見なせる。正規分布を
仮定すると、第2項は
分母項
は入力パラメータが同一ならば定数と見做せるが、異な
る入力に対して相互比較するときは、定数にならない。
ここでは、
が平均値
共分散行列
の正規分布に従うものと仮定する。
(3)式の対数をとり、定数項を省略して、これをMnと
置くと、
すなわち、
として(6)式を展開すると、
ただし、(8)式は計算量が少ない1次判別式である。ここで、
(8)式を次のように変形する。
すなわち、Mnはフレームごとの部分類似度
のJ回の加算と1回の減算で求められる。
次に、上記の距離尺度を用いて、音声をスポッティン
グして認識する方法と、計算量の削減法について説明す
る。
ワードスポッティングは認識すべき音声を確実に含む
十分長い区間を対象として、この中に基準点iを設定
し、iを基準として種々の部分区間を考え、各部分区間
に対して各単語との類似度を(11)式によって求め、全
ての部分区間を通して類似度が大きくなる単語を基準点
iに対する認識結果とすればよい。そして、iを1〜I
の範囲で単位区間ずつ進めて同様の操作を行なってゆけ
ばよい。本実施例では、類似度が3位以内に入る単語
と、その区間を求めている。
この類似度計算をそのまま実行すると計算量が膨大と
なるが、単語の持続時間を考慮して部分区間長を制限
し、また計算の途中で部分類似度djを共通に利用するこ
とによって、大幅に計算量を削減できる。第2図はその
方法の説明図である。入力と単語nの照合を行う場合、
部分区間長l(l1<l<l2)を標準パータン長Jに線形
伸縮し、フレームごとに終端固定で類似度を計算してい
く様子を示している。類似度はQR上の点Tから出発して
Pで終るルートに沿って(11)式で計算される。したが
って、1フレームあたりの類似度計算は全てΔPQR内で
行われる。ところで(11)式の
区間長lを伸縮した後の第jフレーム成分なので、対応
する入力フレームi′が存在する。そこで入力ベクトル
を用いて、djを次のように表現できる。
ここで、rk(j)は単語長kとJの線形伸縮を関係づけ
る関数である。したがって、入力の各フレームと
との部分類似度が予め求められていれば、(11)式は
i′の関係を有する部分類似度を選択して加算すること
によって簡単に計算できる。ところで、ΔPQRは1フレ
ームごとに右へ移動するので、PS上で
の部分類似度を計算して、それをΔPQSに相当する分だ
けメモリに蓄積し、フレームごとにシフトするように構
成しておけば、必要な類似度は全てメモリ内にあるの
で、部分類似度を求める演算が大幅に省略でき、計算量
が非常に少なくなる。
判断部5では、類似度計算部2で切り出された区間
(本実施例では3つ)に対して、ピッチ抽出部4で抽出
したピッチ周波数の変化パターン(時間的にスムージン
グしてある)を適用して、認識単語を1つに絞る。すな
わち、前記切り出された区間において、
(1) ピッチ周波数が全区間を通じて最も高い部分が
含まれていれば、その区間に対応する単語を認識結果と
する。
(2) (1)に該当する区間がない場合、ピッチ周波
数の動きが区間内で凸状になっている区間があり、ピッ
チ周波数が十分高い(凸状の山のピークが2番目)なら
ば、その区間に対応する単を認識結果とする。
(3) (1)または(2)に該当する区間が複数存在
するときは、類似度が高い方を優先する。また該当する
区間がない場合は、リジェクトとして扱う。
次に第3図を用いて、以上の説明を具体例で示す。第
3図において、(a)は発声内容を時間に対応して示し
たものであり、例2の「ええと、4枚です」を用い
る。(b),(c)はそれぞれパワーおよびピッチ周波
数の時間的な動きを示している。太線31の部分で、ピッ
チ周波数が山を形成し、また山の部分で全域を通じて最
大値になっている。(d)は各標準パターンに対する類
似度の時間的な動きであり、太線32〜34の部分が類似度
計算部2で切り出された区間である(第2図で説明した
方法によれば、区間の最後尾に類似度が大きい部分が位
置するので、第3図でもそのように表現してある)。
これら3つの区間のそれぞに対して、前記の2つの条
件(1),(2)をあてはめる。先ず、34はピッチ周波
数が最大でもなく、また動きが凸状ではないので、却下
する。32,33はピッチがどちらも凸状であるが、33の区
間でピッチ周波数が最大なので、33に対応する単語「ヨ
ン」を認識結果とする。このようにして、余分な言葉や
周囲ノイズの中から、正しい認識結果を得ることができ
る。
このように、本実施例の方法を用いれば、ノイズ中や
簡単な文音声の中から、正しく目的の単語をスポッテイ
ングできる。そして、あらかじめ音声区間を検出する必
要がないので、処理が単純である。しかも、類似度計算
に要する計算量が少ないので、ハード化が実に容易であ
る。
発明の効果
以上説明するに本発明は、連続線形伸縮照合法により
入力音声中から認識単語候補とそれらの区間を切り出
し、一方ピッチ周波数とその変化パターンを求めてお
き、認識単語候補区間内でピッチ周波数が十分高く、ま
たその変化パターンが凸状であるとき、認識単語を特定
するもので、従来の装置が非常に静かな環境で用いなけ
ればならず、使用者は必要な言葉以外を喋ってはならな
いという、使用上の制限を緩和し、単語音声認識装置の
使途の拡大と普及に貢献できる利点を有する。Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition method for making a machine recognize a human voice. 2. Description of the Related Art In recent years, word-speech recognition devices have become more and more popular because their capabilities have become larger and their size and price have been reduced. However, it is not an easy-to-use device because there are various restrictions on use, such as restrictions on the number of vocabularies that can be used, restrictions on the use environment, and words that must not be used. In particular, in a device for an unspecified speaker, even those who do not know these restrictions on use use the device. For this reason,
It is common to use a word-speech recognition device for an unspecified speaker in combination with a voice response device to form a system of a question answering type. That is, by guiding the content of the user's utterance by the guide voice emitted from the voice response device,
Consider using the device without being aware of any restrictions on its use. For example, when a train ticket is reserved using a device that recognizes the ten digits and the twelve words of “high” and “no”, the following is the case. FIG. 4 is a functional block diagram (conventional example) of a currently used recognition and response system for unspecified speakers. When the task of the host computer 51 is started, the voice synthesis unit 52 outputs a guide voice. When the user utters the voice according to the instruction of the guide voice, the voice is recognized by the voice recognition unit 50, and the recognition result is transmitted to the host computer 51. In the host computer 51, a response sentence is created based on the intention of the user, and the speech
52 outputs a response voice. The user performs the task according to a procedure such as the next utterance. The speech recognition unit 50 performs a recognition process as follows. First, the acoustic analysis unit 53 performs filter analysis, LPC analysis, power calculation, and the like, and extracts parameters. The voice section detection unit 54 detects a voice section of the input voice using the result of the acoustic analysis. The similarity calculation unit 55 calculates the similarity between the parameter included in the voice section and the standard pattern of each voice stored in the standard pattern unit 56, and calculates a word corresponding to the standard pattern having the highest similarity. Is the recognition result. Problems to be Solved by the Invention As described above, if the speech recognition device is used in a question answering format, it can be used by anyone who has some understanding of the speech recognition device. However, those who are completely unaware of the limitations of speech recognition devices do not always respond in the expected way. For example, in the case of Example 1 above, the user may reply as underlined. Example 2: Equipment: How many tickets do I need? Please answer in numbers. User: Well, four. Equipment: Shinkansen ticket 4 User: Yes. The response of the user in Example 2 is an expression that is used naturally in conversation, but in speech recognition for word speech, such sentence speech cannot be recognized, so it is rejected or a recognition error occurs. Often. That is,
In the conventional word-speech recognition device, it is necessary to reply with a predetermined expression as in Example 1, and even a slight modification of the expression is not allowed. This is a very restrictive use,
This is a major cause of narrowing the field of use of the speech recognition device. An object of the present invention is to solve the problems of the conventional example and relax restrictions on the use of the word speech recognition device. In other words, the purpose of the present invention is to provide a means for correctly recognizing even if there are some extra parts other than the expression to be recognized in the expression of the input speech, thereby alleviating the restriction on the use of the device. And Means for Solving the Problems The present invention achieves the above object, and its technical means is to analyze an input signal including noise and unnecessary sound and convert it to an input parameter time series, and The similarity between the partial section of the sequence and the standard pattern of the recognition target word created in advance is continuously calculated while shifting the partial section by the unit section from the beginning to the end of the input parameter time series. One or more recognized word candidate sections that become larger are cut out, and the word name corresponding to the section is set as a recognized word candidate. On the other hand, the pitch frequency and its temporal change pattern are continuously obtained separately from the input signal, Determining a recognition word from the recognition word candidates by using the magnitude of the pitch frequency in or near the recognition word candidate section and its change pattern. The speech recognition method is characterized by the following. Action The present invention does not consider the entire speech section as one word, but rather from a sufficiently wide section including the recognition target word (including an extra word before and after the recognition target word and noise before and after the speech). Only the recognition target word is cut out and recognized using the value of the similarity by pattern matching, the magnitude of the pitch frequency, and the movement. That is, for a part of a sufficiently wide section including the recognition target word, the similarity to each of the standard patterns of the recognition target word is calculated, and then the similarity is calculated by shifting the unit section by unit. .., The movement of the similarity with each standard pattern is obtained for the entire area of the section.
Then, a section (or a plurality of sections) having a large similarity is obtained. Next, refer to the pitch frequency of the section with the highest similarity,
Only when the pitch frequency shows a value that is stably higher than around the section, the section is recognized as a section of the recognition target word. If the pitch frequency is not steadily higher than the surroundings, the section is rejected. In this way, by using the method of spotting and recognizing only the part of the word to be recognized, it is possible to obtain a correct and correct recognition result even for an input including extra words and noises, and a word speech recognition apparatus. Can be eased, and an easy-to-use voice recognition response system can be realized. In addition, this makes it possible for even a person unfamiliar with the device to use the device, thereby expanding the applications of the voice recognition device. Examples Hereinafter, examples of the present invention will be described. The present invention cuts out keywords from words uttered by pattern matching (word spotting),
This is a method of recognizing this by verifying it using a pitch frequency change pattern. The word spotting is a method of calculating the similarity while scanning each word standard pattern over the entire area of the input voice, and extracting a section having a high similarity and a word name at that time. However, since the word extracted as the maximum similarity is not always the correct answer, a certain criterion is set, and a plurality of candidates satisfying the criterion are extracted. And from among those candidates,
Using the pitch frequency change pattern and the similarity value, narrow down to one word. The pitch frequency is used to take advantage of the fact that humans speak higher frequencies and more clearly in important words than in others. Especially in conversation, the tendency is strong due to the experience of voice analysis. In a question answering sentence as in Example 2, since an important word (keyword) is a recognition target word, it is possible to determine the position where the recognition target word exists by using the pitch frequency. FIG. 1 is a functional block diagram of a recognition response system using a speech recognition method in one embodiment of the present invention based on such a concept. In the figure, since the functions of the host computer 51 and the speech synthesizer 52 are exactly the same as those of the conventional example, only the contents of the speech recognizer 6 will be described. The input speech is divided into analysis sections (frames) by the acoustic analysis unit 1, and is subjected to LPC analysis for each frame to extract LPC cepstrum coefficients. 8K sampling frequency
A Hamming window of Hz, a frame period of 10 msec, and an analysis window length of 20 nsec is used. The order of the LPC analysis is a 10th order, and the LPC cepstrum uses a fifth order (C 1 to C 5 ) coefficient and a power term C 0 . The pitch extracting unit 4 calculates a pitch frequency for each frame and accumulates the value for a certain period. There are various pitch extraction methods, but the simplest waveform correlation method is used. When the input signal is X i , the correlation function μ τ is τ when μ τ is the maximum Then the pitch frequency is Is required. The similarity calculation unit 2 sequentially compares the input parameter (LPC cepstrum coefficient) with the standard pattern of each word in the word standard pattern unit 3, and cuts out a portion having a high similarity as a word and stores it. The similarity calculation is performed not only in a place where a voice exists but also in a sufficiently wide section including a preceding and following noise section, and it is unnecessary to detect a voice section. Next, a method of spotting a word from noise or voice by similarity calculation will be described. First, a distance scale (statistical distance scale) used for pattern matching will be described. The input word speech length is linearly signaled into J frames of a fixed length,
Parameter vector per frame Then the input vector Is as follows. Here, t represents transposition. Where each Is a p-dimensional vector. As a standard pattern of the word ωn (n = 1, 2,..., N), the average vector is Covariance matrix What is necessary is just to make the word to be the recognition result. From Bayes' theorem P (ωn) of the first term on the right side can be regarded as a constant. Assuming a normal distribution, the second term is Denominator term Can be regarded as a constant if the input parameters are the same, but will not be a constant when compared with different inputs.
here, Is the average Covariance matrix Is assumed to follow a normal distribution of (3) By taking the logarithm of the equation, omitting the constant term, and setting this as Mn, That is, Expanding equation (6) as However, Equation (8) is a primary discriminant with a small amount of calculation. here,
Equation (8) is modified as follows. That is, Mn is the partial similarity for each frame Is obtained by adding J times and subtracting once. Next, a description will be given of a method of spotting and recognizing a voice using the above distance scale and a method of reducing the amount of calculation. In word spotting, a reference point i is set in a sufficiently long section that certainly includes a voice to be recognized, and various subsections are considered based on i. The degree may be obtained by equation (11), and a word having a high degree of similarity throughout all the partial sections may be set as the recognition result for the reference point i. And i is 1 to I
The same operation may be performed by advancing unit intervals in the range of. In the present embodiment, words whose similarity falls within the third place and the section thereof are obtained. If this similarity calculation is executed as it is, the amount of calculation will be enormous.However, by limiting the subsection length in consideration of the duration of the word and using the partial similarity dj commonly during the calculation, Calculation amount can be reduced. FIG. 2 is an explanatory view of the method. When matching the input with word n,
This shows how the similarity is calculated by linearly expanding and contracting the partial section length l (l 1 <l <l 2 ) to the standard pattern length J, and fixing the end at each frame. The similarity is calculated by equation (11) along a route starting at point T on QR and ending at P. Therefore, all the similarity calculations per frame are performed within ΔPQR. By the way, in equation (11) Since the component is the j-th frame component after the expansion and contraction of the section length l, there is a corresponding input frame i '. Therefore, using the input vector, dj can be expressed as follows. Here, rk (j) is a function for relating the word length k and the linear expansion / contraction of J. Therefore, each frame of the input (11) can be easily calculated by selecting and adding the partial similarity having the relationship of i ', if the partial similarity with is previously obtained. By the way, since ΔPQR moves to the right every frame, Is calculated in the memory corresponding to ΔPQS and is shifted for each frame. If all the necessary similarities are in the memory, the partial similarity Can be largely omitted, and the amount of calculation becomes very small. The judgment unit 5 applies the pitch frequency change pattern (temporally smoothed) extracted by the pitch extraction unit 4 to the sections (three in this embodiment) cut out by the similarity calculation unit 2. Then, the number of recognized words is reduced to one. That is, in the cut-out section, (1) if the highest part of the pitch frequency is included in all the sections, the word corresponding to the section is regarded as the recognition result. (2) If there is no section corresponding to (1), there is a section in which the movement of the pitch frequency is convex in the section, and if the pitch frequency is sufficiently high (the peak of the convex mountain is the second). , And the unit corresponding to the section is set as the recognition result. (3) When there are a plurality of sections corresponding to (1) or (2), the one having the higher similarity is given priority. If there is no corresponding section, it is treated as a reject. Next, the above description will be described in a concrete example with reference to FIG. In FIG. 3, (a) shows the contents of the utterance corresponding to the time, and uses "Uh, four cards" in Example 2. (B) and (c) show the temporal movement of the power and the pitch frequency, respectively. The pitch frequency forms a peak at the portion indicated by the thick line 31, and the pitch frequency has a maximum value over the entire region at the peak portion. (D) is a temporal movement of the similarity with respect to each standard pattern, and the thick line 32 to 34 is a section cut out by the similarity calculation unit 2 (according to the method described with reference to FIG. Since a portion having a large similarity is located at the end of the above, this is also expressed in FIG. 3). The above two conditions (1) and (2) are applied to each of these three sections. First, 34 is rejected because the pitch frequency is not the maximum and the movement is not convex. Although the pitches of 32 and 33 are both convex, since the pitch frequency is the maximum in the section of 33, the word “Yon” corresponding to 33 is set as the recognition result. In this way, a correct recognition result can be obtained from extra words and ambient noise. As described above, by using the method of this embodiment, a target word can be correctly spotted from noise or simple sentence speech. Since there is no need to detect a voice section in advance, the processing is simple. Moreover, since the amount of calculation required for the similarity calculation is small, hardware implementation is very easy. Advantageous Effects of the Invention As described above, the present invention cuts out the recognition word candidates and their sections from the input speech by the continuous linear expansion / contraction matching method, obtains the pitch frequency and its change pattern, and determines the pitch frequency within the recognition word candidate section. When the frequency is high enough and the change pattern is convex, it identifies the recognition word, and the conventional device must be used in a very quiet environment, and the user can speak other words than necessary. This has the advantage that the restrictions on use can be relaxed and the use of the word speech recognition device can be expanded and spread.
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識方法を具現
化する認識応答システムの機能ブロック図、第2図は本
実施例において、入力音声と単語標準パターンの類似度
計算の方法を説明する概念図、第3図(a)〜(d)は
本実施例の認識方法を具体的な例で説明する概念図、第
4図は従来の音声認識方法を用いた認識応答システムの
ブロック図である。
1……音響分析部、2……類似度計算部、3……単語標
準パターン部、4……ピッチ抽出部、5……判断部。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a functional block diagram of a recognition response system which embodies a speech recognition method according to an embodiment of the present invention, and FIG. FIGS. 3 (a) to 3 (d) are conceptual diagrams illustrating a specific example of the recognition method according to the present embodiment, and FIG. 4 is a diagram illustrating a conventional speech recognition method. It is a block diagram of a recognition response system. 1 ... Acoustic analysis unit, 2 ... Similarity calculation unit, 3 ... Word standard pattern unit, 4 ... Pitch extraction unit, 5 ... Judgment unit.
Claims (1)
ラメータ時系列に変換し、入力パラメータ時系列の部分
区間と、あらかじめ作成してある認識対象単語の標準パ
ターンとの類似度計算を、部分区間を入力パラメータ時
系列の最初から最後まで単位区間ずつシフトしながら連
続的に行ない、類似度が大きくなる認識単語候補区間を
1つまたは複数切り出して、その区間に対応する単語名
を認識単語候補とし、一方、別に入力信号からピッチ周
波数とその時間的変化パターンを連続的に求めておき、
前記認識単語候補区間またはその近傍におけるピッチ周
波数の大きさやその変化パターンを用いて、前記認識単
語候補のうちから認識単語を決定することを特徴とする
音声認識方法。 2.入力パラメータ時系列と標準パターンの類似度計算
法として、入力パラメータの時間長を標準パターンの時
間長に線形に伸縮して、事後確率化した統計的距離尺度
を用いて計算することを特徴とする特許請求の範囲第1
項記載の音声認識方法。 3.認識単語候補のうちから認識単語を決定する方法と
して、認識単語候補区間において、ピッチ周波数が入力
信号区間全体の中で、安定して最大またはそれに準ずる
値を取る場合、または、認識単語候補区間において、ピ
ッチ周波数の変化パターンが凸状になる場合に対して、
その認識単語候補区間に対応する単語を認識単語とする
ことを特徴とする特許請求の範囲第1項記載の音声認識
方法。(57) [Claims] The input signal including noise and unnecessary sound is analyzed and converted into an input parameter time series, and the similarity calculation between the partial section of the input parameter time series and the standard pattern of the recognition target word created in advance is performed. Is continuously performed while shifting the unit section from the beginning to the end of the input parameter time series, and one or more recognized word candidate sections having a high similarity are cut out, and a word name corresponding to the section is set as a recognized word candidate. On the other hand, separately, the pitch frequency and its temporal change pattern are continuously obtained from the input signal,
A speech recognition method, wherein a recognition word is determined from the recognition word candidates by using a magnitude of a pitch frequency in or near the recognition word candidate section or a change pattern thereof. 2. As a method of calculating the similarity between the input parameter time series and the standard pattern, the method is characterized in that the time length of the input parameter is linearly expanded and contracted to the time length of the standard pattern, and is calculated using a statistical distance scale that is posterior-probable. Claims 1
The speech recognition method described in the section. 3. As a method of determining a recognition word from among the recognition word candidates, in the recognition word candidate section, when the pitch frequency takes a maximum or equivalent value stably in the entire input signal section, or in the recognition word candidate section, , When the pitch frequency change pattern becomes convex,
2. The speech recognition method according to claim 1, wherein a word corresponding to the recognition word candidate section is set as a recognition word.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61269116A JP2710045B2 (en) | 1986-11-12 | 1986-11-12 | Voice recognition method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61269116A JP2710045B2 (en) | 1986-11-12 | 1986-11-12 | Voice recognition method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS63123100A JPS63123100A (en) | 1988-05-26 |
| JP2710045B2 true JP2710045B2 (en) | 1998-02-10 |
Family
ID=17467897
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61269116A Expired - Fee Related JP2710045B2 (en) | 1986-11-12 | 1986-11-12 | Voice recognition method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2710045B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3180655B2 (en) | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | Word speech recognition method by pattern matching and apparatus for implementing the method |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003280678A (en) * | 2002-03-20 | 2003-10-02 | Asahi Kasei Corp | Voice recognition device |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59143200A (en) * | 1983-02-04 | 1984-08-16 | 株式会社日立製作所 | Continuous speech recognition device |
| JPS6073595A (en) * | 1983-09-29 | 1985-04-25 | 富士通株式会社 | Voice input unit |
| JPS60217395A (en) * | 1984-04-13 | 1985-10-30 | 株式会社東芝 | Critical state detector by voice |
-
1986
- 1986-11-12 JP JP61269116A patent/JP2710045B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
| Title |
|---|
| 日本音響学会講演論文集(昭和57年3月)1−4−16,P.31〜32 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3180655B2 (en) | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | Word speech recognition method by pattern matching and apparatus for implementing the method |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS63123100A (en) | 1988-05-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
| US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
| US6553342B1 (en) | Tone based speech recognition | |
| JPH0352640B2 (en) | ||
| JPH0968994A (en) | Method of recognizing words by pattern matching and apparatus for implementing the method | |
| JP2003316386A (en) | Speech recognition method, speech recognition apparatus, and speech recognition program | |
| JPH0612089A (en) | Speech recognition method | |
| Karthikeyan et al. | Hybrid machine learning classification scheme for speaker identification | |
| EP1734509A1 (en) | Method and system for speech recognition | |
| JP2710045B2 (en) | Voice recognition method | |
| JP2006235243A (en) | Audio signal analysis device and audio signal analysis program for | |
| JP2853418B2 (en) | Voice recognition method | |
| JPS63165900A (en) | Conversation voice recognition system | |
| JP2010072446A (en) | Coarticulation feature extraction device, coarticulation feature extraction method and coarticulation feature extraction program | |
| US20120116764A1 (en) | Speech recognition method on sentences in all languages | |
| JP4236502B2 (en) | Voice recognition device | |
| JP2001083978A (en) | Voice recognition device | |
| JP3110025B2 (en) | Utterance deformation detection device | |
| JPH1097269A (en) | Voice detection device and method | |
| KR100304788B1 (en) | Method for telephone number information using continuous speech recognition | |
| JP2019095526A (en) | Speech processing program, speech processing device and speech processing method | |
| JP2002341891A (en) | Speech recognition device and speech recognition method | |
| JPH054678B2 (en) | ||
| CN120108382A (en) | A method and device for automatic segmentation of Chinese dialect speech | |
| JP2746803B2 (en) | Voice recognition method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |