JPH02203397A - Voice/voiceless part detection system - Google Patents
Voice/voiceless part detection systemInfo
- Publication number
- JPH02203397A JPH02203397A JP1022512A JP2251289A JPH02203397A JP H02203397 A JPH02203397 A JP H02203397A JP 1022512 A JP1022512 A JP 1022512A JP 2251289 A JP2251289 A JP 2251289A JP H02203397 A JPH02203397 A JP H02203397A
- Authority
- JP
- Japan
- Prior art keywords
- category
- feature parameter
- principal component
- sound
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【発明の詳細な説明】
〔発明の目的〕
(産業上の利用分野)
この発明は、音声の有音部分のみをセル化し伝送する^
T M (Asynchronous Tranous
Mode )通信や有音部分のみを録音する録音畏槍
や音声認識の基本技術である音声信号の有音・無音検出
方式(従来の技術)
音声の有音部分のみをセル化し伝送するATM通信や、
f声認識、有音部分のみを録音する録音民−において、
音声の有音区間又は、音声の始端終端を検出する有音/
無音検出は最も基本的でかつ重要な処理である。有音/
無音検出が正確に0行われないと音声が途切れたり、音
声認識の誤りが増加したりする。特番こATM通信昏こ
おいては回線を有効利用するためのキーとなると思われ
る。[Detailed Description of the Invention] [Objective of the Invention] (Field of Industrial Application) This invention converts and transmits only the sound portion of audio into cells.
T M (Asynchronous Tranous
(Mode) Recording system that records only the voiced part of communication and sound/silence detection method of voice signal, which is the basic technology of voice recognition (conventional technology) ATM communication that records only the voiced part of voice and transmits it ,
f Voice recognition, recording people who record only the sound part,
A voice/voice section that detects the voice interval or the start and end of the voice.
Silence detection is the most basic and important process. Sound/
If silence detection is not performed accurately, audio may be interrupted or speech recognition errors may increase. Special numbers are considered to be the key to effective use of lines in the current ATM communications era.
信号の入力東件による入力信号レベルのf勅に依存せず
1周囲雑音レベルの大きい場合でも、レベルの小さい語
頭子音の脱落を減少させることができる有音/無音検出
法の従来例として特開昭60−200300号公報「音
声の始端、終端検出装置」が知られている。JP-A-2006-101010 is a conventional example of a voice/silence detection method that can reduce the dropout of initial consonants with a low level even when the ambient noise level is high, without depending on the input signal level according to the signal input condition. 1986-200300 ``Voice start and end detection device'' is known.
以下(こ、この従来法の説明を行う。This conventional method will be explained below.
第6図は、上記公報に記載された始端、終端検出装置の
ブロック図である。第6図において、600(まエネル
ギー抽出部で、整流平滑回路で構成され信号のパワーを
フレーム毎1こ抽出する。610はスペクトル形状抽出
部で、低域(250〜600Hz)。FIG. 6 is a block diagram of the start and end detection device described in the above publication. In FIG. 6, 600 is an energy extractor, which is composed of a rectifying and smoothing circuit, and extracts the signal power once per frame. 610 is a spectral shape extractor, which is a low frequency (250 to 600 Hz).
中域(600〜1500Hz)、高域(1500〜40
00Hz) の3111jAの帯域通過フィルタ詳と
整流平滑回路で溝底され、′?!r帯域に8いてフレー
ム毎のパワーがスペクトル情報として用いられている。Mid range (600-1500Hz), high range (1500-40
00Hz) 3111JA band pass filter details and rectification smoothing circuit. ! The power of each frame in the r band is used as spectrum information.
エネルギー抽出部600とスペクトル形状抽出部610
とで特微量抽出部620を構成する。630はマルチプ
レクサで、600からの信号パワーと610からの帯域
フィルタパワーを時分割で有音・無音判定部640へ入
力するためのものである。Energy extractor 600 and spectral shape extractor 610
This constitutes a feature amount extraction section 620. 630 is a multiplexer for inputting the signal power from 600 and the band filter power from 610 to the sound/non-sound determining section 640 in a time-division manner.
640は有音・無音判定部で無音、無声音、有声音の判
別を行りためのものである。650.660は閾値メモ
リと標準パターンメモリであり有音・無音判定部640
で用いられる定数値が格納されている。[[メモリ65
0fこはパワーの2つの閾値& 、 Etが格納されて
いる。また、a*準パターンメモリ660には、無音・
無声音を判定するための線形判別関数と無音・有声晋e
判別するための線形判別関数の係数が格納されている。Reference numeral 640 denotes a voice/non-voice determination unit for determining whether there is a silence, an unvoiced sound, or a voiced sound. 650 and 660 are a threshold memory and a standard pattern memory, and are a sound/non-sound determination unit 640
Constant values used in are stored. [[Memory 65
Two power thresholds & and Et are stored in 0f. Additionally, the a* quasi-pattern memory 660 contains silent and
Linear discriminant function for determining voiceless sounds and silent/voiced sounds
Coefficients of a linear discriminant function for discrimination are stored.
これら2つの閾値E、、E、と2の線形判別関数の係数
は、予め使用する環境下で発声された音声データの統計
処理により求められ、格納されている。670は始端・
終端候補演出部であり、有音・無音判定部より送られて
くるフレーム毎の有音・無音刊定債果の持続時間により
、音声の始端・終端候補を検出する。680は始端・終
端決定部で、最終的な始端・終端を決定する。These two threshold values E, , E, and the coefficients of the linear discriminant function of 2 are obtained in advance by statistical processing of voice data uttered under the environment to be used, and are stored. 670 is the starting point.
This is an end candidate production section, which detects start and end candidates of audio based on the duration of the sound/no sound output for each frame sent from the sound/no sound determination section. 680 is a start/end determining unit that determines the final start/end.
以上のように構成された音声の始端・終端検出民lの実
際の1助作fこついてはmetこ説明すると、まず、マ
イク等をこより入力される音声を言む信号は、フレーム
毎lこ対数パワーLPWと対数帯域パワーI、P i
(t =1〜3)(こ変換される。有音・無音判定部6
40は、これらの4つのパラメータと閾値メモリ650
と標準パターンメモリ660fこ格納されている。閾1
111Et * Etと2つの線形判別関数の係数2用
いて入力されたフレームが有iであるかitξあるかを
判定する。To explain the actual process of detecting the start and end of audio configured as described above, first, the signal representing the audio input from a microphone etc. is logarithmically calculated every frame. Power LPW and logarithmic band power I, P i
(t = 1 to 3) (This is converted. Sound/silence determining unit 6
40 is a memory 650 for these four parameters and a threshold value.
and standard pattern memory 660f are stored. threshold 1
111Et*Et and the coefficient 2 of the two linear discriminant functions are used to determine whether there are i or itξ input frames.
この有音・無音判定は、まず最初に2つのエネルギー閾
値E、、E!と対数パワーLPWとの比較1こより次の
ように行われる。This sound/non-sound judgment starts with two energy thresholds E,,E! A comparison of 1 and the logarithmic power LPW is performed as follows.
LP W ) E r ならば有音LPW<Et
ならば無音
E、 くLPW<;:E、ならば不定
不定の’a e +こは、さら擾こ対数帯域パワーLP
i(1=1〜3)と660に格納されている2つの線形
判別関数の係数を用いて1式(1)の判別関数値FXを
計算し、FXこより有音・無音を判定する。If LP W ) E r then there is sound LPW<Et
Then, silence E, LPW<;:E, then indefinite indefinite 'a e + ko, furthermore, logarithmic band power LP
Using i (1=1 to 3) and the coefficients of the two linear discriminant functions stored in 660, the discriminant function value FX of Equation 1 (1) is calculated, and voice presence/absence is determined from the FX.
但し、Atは660fこ格納されている判別関数の係数
であり、LPi は、660に格納されている標準パタ
ーンである。However, At is a coefficient of the discriminant function stored in 660f, and LPi is a standard pattern stored in 660.
式(1)のA18よびLPlは予め、使用環境下で発声
された音声データの無音・無声音・有声音を統計処理し
て求められる。FXQ値は入力が無音のとき負で、入力
が無声音あるいは有声音のとき正の値をとるようfこ設
定されている。スペクトル形状による有音・無音判定は
無音/有声音と無音/有声音の2つの線形判別関数を計
算しいずれか一方でも正の値をとるならば有音、2つ兵
員の値ならば無音と判定するというものである。このよ
うな方法は無音・無声袴・有声音のスペクトル形状の相
異を利用しているため、エネルギーの小さな無声子音や
有声子音の脱落を少なくできるという特徴をもつ。A18 and LPl in Equation (1) are obtained in advance by statistically processing silent, unvoiced, and voiced sounds of audio data uttered under the usage environment. The FXQ value is set so that it takes a negative value when the input is silent, and a positive value when the input is voiceless or voiced. To determine whether there is sound or no sound based on the spectral shape, calculate two linear discriminant functions: silent/voiced and silent/voiced, and if either one has a positive value, it is determined that there is a sound, and if both values are for soldiers, then it is determined that there is no sound. It is about making a judgment. This method utilizes the differences in the spectral shapes of silence, voiceless hakama, and voiced consonants, so it has the characteristic of reducing the omission of voiceless consonants and voiced consonants with low energy.
しかして、この方法では、スペクトル形状を表わすパラ
メータが少なく、また、パラメータの選び方に理論的根
拠がないため、有音・無音判定を誤ってしまい音声の脱
落や雑音の付7JOが避けられない場合がある。この方
法薔こよるパラメータは、低減(250〜600Hz)
、中域([)0〜1500Hz)。However, with this method, there are few parameters that represent the spectral shape, and there is no theoretical basis for selecting parameters, so there are cases where voice/no-voice determination is incorrect and audio dropout or noise is unavoidable. There is. The parameters of this method are reduced (250-600Hz)
, midrange ([)0-1500Hz).
高域(1500〜4000Hz)の3つの帯域フィルタ
出力の対数パワーとなりているが、例えば%第6−6こ
示すように無声音のスペクトルが(a)で、雑音のスペ
クトルが(b)であるような場合5両者のスペクトルは
大きく異なっているにも関らず1式(1)で計算される
線形判別関数の値は同一になりてしまい、有音・無音1
!41定を誤ってしまう(但し、At=1)。その結果
、音声の脱落や雑音の付加が避けられない場合がある。It is the logarithmic power of the output of three band filters in the high frequency range (1500 to 4000 Hz). For example, as shown in %6-6, the spectrum of unvoiced sound is (a) and the spectrum of noise is (b). In case 5, the value of the linear discriminant function calculated by equation (1) will be the same even though the spectra of the two are greatly different, and
! 41 constant (however, At=1). As a result, dropout of audio or addition of noise may be unavoidable.
このような問題はパラメータ数が少ない上に帯域フィル
タの選択が適切ではないためをこ生くるものである。又
、さら蚤こ、パラメータの選択法に理論的根拠がないた
め、パラメータの選択すなわち帯域フィルタの帯域の設
定は試行錯誤fこ頓らざるを傳ず設定のため多大な労力
を資すと共にパラメターが必ずしも適切ではないという
問題がある。帯域フィルタの数を噌しパラメータ数を増
加させれば、有音・無音判定の誤りは改善させることが
できるが、有音/無音判定のための判別関数の計′x曖
は噌太し、また、パラメータ設定のための労力も膨大な
ものになる。上記公報による技術では1式(1)の線形
判別関数の代りにマハラノビス距離を用いることができ
ることが記述されているが、マハラノビス距雛を用いる
と演算量が一1増大する。This problem is caused by the small number of parameters and inappropriate selection of bandpass filters. In addition, since there is no theoretical basis for the parameter selection method, the selection of parameters, that is, the setting of the band of the bandpass filter, requires a lot of effort and effort to set the parameters by trial and error. The problem is that it is not necessarily appropriate. If the number of bandpass filters is increased and the number of parameters is increased, errors in speech/non-speech determination can be improved, but the total ambiguity of the discriminant function for speech/non-speech determination will increase. Furthermore, the effort required to set the parameters becomes enormous. Although the technique disclosed in the above-mentioned publication describes that the Mahalanobis metric can be used instead of the linear discriminant function of Equation 1 (1), using the Mahalanobis metric increases the amount of calculation by 11.
(発明が酵央しようとする課題・) 上述したよりに、従来O有I/無音検出去(ま。(The problem that the invention is trying to solve) As mentioned above, conventional O presence/silence detection is removed.
演$瞼を少なくするため【こパラメータ数3少なくした
* &、有仔/無音判定P誤ってしまい矛声の脱落や雑
音の付加が避けられない場合があるという問題点がある
。また、従来の方法では、パラメータの選択番こ当りて
i論的な選択基醜がないため、多くの労力を要するとい
う問題点もある。In order to reduce the number of calculations, [the number of parameters was reduced by 3* &, there is a problem that the presence/absence determination P may be incorrect and the omission of vocalizations or the addition of noise may be unavoidable. In addition, the conventional method has the problem that it requires a lot of effort because there is no idiomatic selection basis for determining the parameter selection order.
そこで本発明は、このような問題点を解決するため−こ
なされたものでその目的は有音/無音検出精度が高く音
声の脱落・雑音の付カロが少ない有音・無音検出方式を
提供することにある。Therefore, the present invention has been made to solve these problems, and its purpose is to provide a voice/silence detection method that has high voice/silence detection accuracy and is less likely to drop out voices or add noise. There is a particular thing.
(課題を解決するための手段)
本発明では、上記の問題点を解決するため音声信号等の
音響信号の特徴を表す信号パワーやLPC係a等の特徴
パラメータを求める手段と、1話や認a装置等の通信湊
喧や処理畏ltを便用するとき想定される雑tf−E含
む音声信号の特徴パラメータを求め、それらの特徴パラ
メータの自己相関行うすを複数のカテゴリーに分類した
後各カテゴリーの主成分分析により得られる各カテゴリ
ーの主成分ベクトル7i!、間上にフレームごとの特敵
パラメータを形影する手段と、各カテゴリーごと蚤こ主
成分ベクトル空間上の特徴パラメータの射影点の立直と
主成分ベクトル2間上で予め定められた特定の領域を用
いて特徴パラメータが該カテゴリーに属するかどうかを
判定する手段と、各カテゴリーごとの該判定結果を痣合
して有音/無音判定を行り手段を有する。(Means for Solving the Problems) In order to solve the above-mentioned problems, the present invention provides means for determining characteristic parameters such as signal power and LPC factor a representing the characteristics of acoustic signals such as audio signals, and After finding the characteristic parameters of the audio signal including the miscellaneous TF-E that is assumed when using the communication port and processing technology of a device, etc., and classifying the autocorrelation of these characteristic parameters into multiple categories, each Principal component vector 7i of each category obtained by principal component analysis of category! , a means for shaping the special enemy parameters for each frame on the space, a means for projecting the projection point of the feature parameter on the flea principal component vector space for each category, and a specific area predetermined on the principal component vector 2 space. means for determining whether a feature parameter belongs to the category, and means for combining the determination results for each category to determine whether or not there is a sound.
(作用)
まず、音声信号等の音響信号の特徴パラメータを求める
。次のそのパラメータを別のパラメータにf +Aした
後パラメータ数2元の特徴パラメータより少なくするこ
とを考える。第4図にこの概念を示す。第4図(こ2い
て、5個の元の特徴パラメータr、xl(i=1.2s
−+L)t!:、し、xl要児とするベクトルをXとす
る。′に喚は直交変換とし、変換行列をAとする。変換
後の特徴パラメータi y 1(i=1.2.・・・e
L ) −y tを要素とするベクトルをY、N個の
パラメータyj(j=1,2.・・・、N)を残してf
iFl)(L−N)個を零とした特徴パラメータベクト
ルをYとする。(Operation) First, characteristic parameters of an acoustic signal such as a voice signal are determined. Next, consider reducing the number of parameters to less than the binary feature parameter after converting that parameter to another parameter by f +A. Figure 4 shows this concept. Figure 4 (here, the five original feature parameters r, xl (i=1.2s
-+L)t! :, and xl. Let X be the vector to be used as the vector. ′ is an orthogonal transformation, and the transformation matrix is A. Feature parameter after conversion i y 1 (i=1.2...e
L ) -y The vector whose elements are Y, leaving N parameters yj (j = 1, 2..., N), f
Let Y be a feature parameter vector with iFl)(L-N) zeros.
但し、NILとする。However, it is NIL.
このとき、パラメータ数削減lこよりて生じる誤差ベク
トルeは、元の・待1敗パラメータベクトルXとYの逆
変換との差として次式のように記述される。At this time, the error vector e caused by the reduction in the number of parameters l is described as the difference between the original 1-lose parameter vector X and the inverse transformation of Y as shown in the following equation.
6=X−A−IY
=A−’(Y −Y ) L2)こ
の誤差の2乗平均値fr” ==E (ete )を最
小にする変換を行えば、特徴パラメータ数を少なくする
ことによる誤差が最小になる。但し、tは行列の転置、
Eは期待値である rlを最小化する変換は、xlの自
己相関行列の固有ベクトルを行うベクトルとする行列A
tこよる変換、すなわちKL変変換あることが知られて
いる。また固有ベクトルは、xlの主成分分析(こよっ
て得られる主成分ベクトルと同じであり、固有償の大き
い順1こ対応した固有ベクトルが第1.$2.第3.・
・・主成分ベクトルに対応する。6=X-A-IY =A-'(Y-Y) L2) By performing a transformation that minimizes the root mean square value of this error fr'' ==E (ete), it is possible to reduce the number of feature parameters. The error is minimized, where t is the transpose of the matrix,
E is the expected value. The transformation to minimize rl is the matrix A, which is the eigenvector of the autocorrelation matrix of xl.
It is known that there is a transformation that depends on t, that is, a KL transformation. In addition, the eigenvectors are the same as the principal component vectors obtained by principal component analysis of xl (the eigenvectors corresponding to the one with the largest eigencompensation are 1st, 2nd, 3rd, etc.)
...corresponds to the principal component vector.
L個の特徴パラメータXをKLf喫した後、パラメータ
数を削減する操作は、第1−第N主成分ベクトルを座標
軸とするN次元主成分ベクトル空司上ζこ、XE射影す
ることに対応する。従りて。The operation of reducing the number of parameters after KLf of L feature parameters . Therefore.
特徴パラメータを主成分ベクトル9間とに射影すること
をこより1元の特熾パラメータをより少ないパラメータ
次元で表現する喘合の誤差、言い換えれは元の特徴パラ
メータのもつ情報のロスを最小暑こしながら特徴パラメ
ータ数を少なくできる。By projecting the feature parameters onto the principal component vectors, we can express the feature parameters of one element with fewer parameter dimensions, while minimizing the loss of information contained in the original feature parameters. The number of feature parameters can be reduced.
有音部と無音部の特徴パラメータは、特性の違い例えば
、スペクトル形状の違いによりて、主成分ベクトル空間
上の特定の領域に分布する。The characteristic parameters of the sound part and the silent part are distributed in a specific region on the principal component vector space due to differences in characteristics, for example, differences in spectral shapes.
有音/無音判定は基本的iこほこの性質を利用し主成分
ベクトル空間上の特徴/寸うメータの射影点と主成分ベ
クトル空間上で予め定められた有音と無音の領域の比較
により高精度で行うことができる。Speech/silence determination is performed by comparing the projected point of the feature/sound meter on the principal component vector space and the predetermined voice and silence regions on the principal component vector space, using the basic property of i-cohoko. It can be done with high precision.
有音/無音判定をより高精度に行うため1本発明では、
有音部の特徴パラメータを複数のカテゴリーを複数のカ
テゴリー(こ分類し、各カテゴリーで有音/無音判定を
行い、そり結果を総合して最終的な有音/無音判定を行
う。これは、−ぎで有音と言りても、その特徴パラメー
タは1例えば。In order to more accurately determine the presence/absence of sound, the present invention includes the following steps:
The feature parameters of the voiced part are classified into multiple categories, the voiced/silenced judgment is made for each category, and the results are integrated to make the final voiced/silenced judgment. Even if it is said that there is a sound at -, the characteristic parameter is 1, for example.
母音と子音、男声と女声、子音でも各音頭によりて異な
るためである。従りて%音声をなるべく多くのカテゴリ
ーに分類し、各カテゴリーの内で有音/無奮刊定を行え
ば有音/無音検出の精度はより高べなる。しかし、カテ
ゴリー数を認識のようCζ余り多くすると装置の規模が
大きくなるという問題があるので、カテゴリー数を適切
な儂に絞る必侵がある。This is because vowels and consonants, male and female voices, and even consonants differ depending on the beginning of each sound. Therefore, if the percent speech is classified into as many categories as possible and the presence/absence of speech is determined within each category, the accuracy of speech/non-speech detection will be higher. However, if the number of categories is increased by more than Cζ for recognition, there is a problem that the scale of the apparatus becomes large, so it is necessary to narrow down the number of categories to an appropriate number.
ここで、カテゴリーの分lJi去及びカテゴリー数の絞
り方fこついて説明するJ#微パラメータベクトル%
xl (1=1 、2 、・・・、M)とおくと、各x
1に対して1式(2)の誤差の2乗平均11[E d小
lこする変換は次式で計算される自己相関行うすの主成
分分析によって得られる一肩ベクトルで咋戎される。Here, we will explain how to narrow down the number of categories and how to narrow down the number of categories.
xl (1=1, 2,...,M), each x
The root mean square error of Equation (2) for 1 is 11 [E d small]. The transformation is calculated by the following equation. .
ベクトルXtの要素である。It is an element of vector Xt.
式(3)から、自己相関行列Rは1次式で表される各特
徴パラメータベクトルとの自己相関行列R1をI、を次
元の空間で平均したもの、すなわち重心であることが分
かる。From equation (3), it can be seen that the autocorrelation matrix R is the average of the autocorrelation matrix R1 with each feature parameter vector expressed by a linear equation, I, in a dimensional space, that is, the center of gravity.
M個の%−徴パラメータベクトルの自己相関行列Rt(
t−4,2,・・・・・・、M)を、1コの自己相関列
行タリRで代表させると考えた時1式(3)で求められ
る自己相関行列Rは1次式で定義されるRiとR■2乗
平均誤差Eを最小にするものである。The autocorrelation matrix Rt(
When considering that t-4, 2, ......, M) is represented by one autocorrelation column and row Tary R, the autocorrelation matrix R obtained by equation 1 (3) is a linear equation. The defined Ri and R2 minimize the root mean square error E.
但し、 xil 、xil 、曲回・、xiLは特徴パ
ラメータなぜなら、上式をR(k、j)で偏微分し、O
とお(ことにより
を得ることができ、これが式(3)のIRIcなるから
である。温し、π(k、j)及び11(lc、j)はそ
れぞれ自己相1列行91J RとR1の(k、j)要素
である。However, xil , xil , turn times ·, xiL are characteristic parameters. Therefore, by partially differentiating the above equation with respect to R(k, j), O
This is because π(k, j) and 11(lc, j) are respectively self-phase 1 column row 91J R and R1. (k, j) elements.
このような考え方に基づいて、有を部の!l?微/くラ
メータを予め富め定めた数のカテゴIJ−1こ分類する
と共【こ各カテゴリーの代表自己相関行列を求める。具
体的には、LBGアルゴリズムとして知られている手f
f、を用いる。Based on this way of thinking, we have created a division of existence! l? The micro/parameters are classified into a predetermined number of categories IJ-1, and a representative autocorrelation matrix for each category is determined. Specifically, the hand f known as the LBG algorithm
Use f.
まず、予め電話等の便用環境下で収集されたら声の有音
部の特徴パラメータベクトルX1(1=1゜2、・・・
・・・、M)を多数求め、xtco自己相関行flJ
R1を式(4)に従い計算する。次に行列R10行ベク
トル’<exとするベクトルをトレーニングベクトルt
1としてLBGアルゴリズムを適用することにより、予
め定められた数の代表ベクトル^j(j−1,2,・・
・・・・、N)と分割P(Aj)を求める。求められた
分割P(Aj)に属する自己相関行列R1を作成した特
徴パラメータベクトルXlをj番目のカテゴリーのメン
バーとすると共蛋こ1代表ベグトル^jの′g!素から
咋られる行列Rjをj番目のカテゴリーの代表自己相関
行列とする。LBGアルゴリズムについては、Y 、
Linde、^、Buzo and R、M 。First, if the characteristic parameter vector of the vocal part of the voice is collected in advance in a convenient environment such as a telephone, X1 (1=1°2, . . .
..., M), xtco autocorrelation line flJ
Calculate R1 according to equation (4). Next, the training vector t
By applying the LBG algorithm as 1, a predetermined number of representative vectors ^j(j-1, 2,...
..., N) and the division P(Aj). If the feature parameter vector Xl that created the autocorrelation matrix R1 belonging to the obtained division P(Aj) is a member of the j-th category, then 'g! Let matrix Rj derived from the elements be a representative autocorrelation matrix of the j-th category. For the LBG algorithm, Y,
Linde, ^, Buzo and R, M.
Gray : ”An algorithm for
Vector quantizerdesign フ
IEEE Troms 、 C0M−28、
No、l pp。Gray: “An algorithm for
Vector quantizer design IEEE Troms, C0M-28,
No, lpp.
84−95 (January、1980 )に詳述さ
れている。84-95 (January, 1980).
(文#2)
以上の方法により、特徴パラメータベクトルが予め定め
られた複数のカテゴリー蕃こ分境されると共憂こ、各カ
テゴリーの代表自己相関性yIjが求められる。この方
法では、LBGアルゴリズムを用いているので1M個の
自己相関行列R1(i=1.2゜・・・・・・・・・、
M)を8個(くM)Q代表自己相関行シ11より〔(j
工1.2.・・・・・・、N)で代茂させる又は近似し
た時の誤差の2乗平均値が最小になる。(Sentence #2) By the above method, when the feature parameter vector is divided into a plurality of predetermined categories, the representative autocorrelation yIj of each category is found. Since this method uses the LBG algorithm, 1M autocorrelation matrices R1 (i=1.2°...
M) from 8 (kuM)Q representative autocorrelation rows 11 [(j
Engineering 1.2. ..., N), the root mean square value of the error when approximated or approximated is minimized.
次1こ、それぞれのカテゴリーの代表自己相関行列IR
jを主成分分析することによりそれぞれのカテゴリーの
主成分ベクトルを求める。また、それぞれのカテゴリー
について、主成分ベクトルを座標軸とする主成分ベクト
ル空間上lこそのカテゴリーに属する特徴パラメータベ
クトルを射影することにより、カテゴリー#C属するか
否かをを判定するための領域を主成分ベクトル空間上に
予め定める。Next, representative autocorrelation matrix IR for each category
Principal component vectors for each category are determined by principal component analysis of j. In addition, for each category, by projecting the feature parameter vector that belongs to the category on the principal component vector space with the principal component vector as the coordinate axis, we can create a region for determining whether it belongs to category #C or not. predetermined on the component vector space.
有音/無音判定は、フレームごとに求められる特徴パラ
メータベクトルをそれぞれのカテゴリーの主成分ベクト
ル臣間上に射影し、そのカテゴリー1こ属すか否かを射
影点と予め定めた領域の比較により全てのカテゴリーに
ついて行りた後、各カテゴリーの判定結果をa倉して行
う。Speech/silence determination is performed by projecting the feature parameter vector obtained for each frame onto the principal component vector of each category, and comparing the projected point with a predetermined area to determine whether it belongs to category 1 or not. After examining each category, the results of each category are summarized.
(実施例) 以下本発明に係る一実施例を図面を参照して説明する。(Example) An embodiment of the present invention will be described below with reference to the drawings.
まず1本発明を用いるATM通信に用いる音声セル化罠
11fこついて第8図を用いて説明する。この装置は回
線を有効利用し、しかも高速fこ伝送するためのもので
ありて、入力される音声信号を一方は音声符号化器70
2(こおいて符号化し。First, the voice cell conversion trap 11f used in ATM communication using the present invention will be explained with reference to FIG. This device utilizes lines effectively and transmits at high speed.One side of the input audio signal is sent to the audio encoder
2 (encoded here.
他方は雑音信号を雑音符号化器703において符号化す
る。そしてCれらの符号化された信号はセル化悦[17
05でセル化され伝送される。音声の符号化に際しては
、有音部を無音部を有皆無音演出器701において検出
し、有音のみをセル化するようスイVチア06’3切り
替えIj御する。又、雑音についても有音雑音検出器7
04にぢいて有音な雑音のみを検出し、符号化させる。The other encodes the noise signal in a noise encoder 703. And these encoded signals are converted into cells [17
05, it is converted into cells and transmitted. When encoding audio, the presence/absence production device 701 detects a sound part and a non-speech part, and controls the switch Ij to convert only the sound part into cells. Also, regarding noise, the voiced noise detector 7
At step 04, only voiced noise is detected and encoded.
雑音は音声に自然さを与えるために設けられて、有音声
以外つまり無音が検出させた時、スイッチ704を雑音
符号化器703側fこ切り替えられ伝送される4このブ
ロック図における伝送の方法(システム)の例は、■有
音部を無音部(雑音を含む)とで異なる符号化を施し伝
送する方法、あるいは異なるビvトレー)(24に、8
Kbps)で伝送する方法等が考えらる。Noise is provided to give naturalness to the voice, and when a voice other than voice, that is, silence is detected, the switch 704 is switched to the noise encoder 703 side and the transmission is performed.4Transmission method in this block diagram ( An example of a method for transmitting a sound part and a silent part (including noise) by applying different encoding, or a different video tray) (24, 8
A possible method is to transmit the data at a high speed (Kbps).
又このブロック図では示されないかの雑音のみ(無音フ
レーム)を初期の段階(例えば接続時点)で受信側に伝
送しておき、この雑音を受信側で常に再生雑音−こ所定
の変化が検出された時に初めてこの雑音を伝送し直す方
法や、■音声だけを伝送し、無音は全く送らない方法等
も考えられる。■の場合は受信側でもりている白色雑音
等により雑音を再生するようにすればよい。Also, only noise (silent frame), which is not shown in this block diagram, is transmitted to the receiving side at an early stage (for example, at the time of connection), and this noise is always reproduced on the receiving side when a predetermined change is detected. Possible methods include a method in which this noise is retransmitted only when the noise is detected, and a method in which only voice is transmitted and no silence is transmitted at all. In the case of (2), the noise may be reproduced using white noise or the like that is present on the receiving side.
以上のシステムに用いられた有音・無音演出ζこついて
詳しく述べる。We will discuss in detail the sound and silent effects used in the above system.
第1図は、本発明の一実施例に係る有音/無音検出器の
ブロック図である。第1図において5110はLPCケ
プストラム抽出回路であり入力端子100から入力した
信号のLPCケプストラムC1(t=i、z、・・・・
・・’、 P ) f公知の方法Eこよりフレームごと
(10ms)fこ計算する。但し、Pは分析次数であり
例えばP=16とする。LPCケプストラムの計算法に
ついては例えば古井貞煕:「ディジタル音声処理」(東
海大学出版会、1985)tこ記述されている。120
は特徴パラメータ射影回路41:1であり、110で求
められたLPCケプストラムベクトルC=(C1,C1
・・・・・Cp)tを予め求められたカテゴIJ −4
: 1の主成分ベクトル空間上lこ射影する。同様をこ
130はLPCケプストラムベクトルCを予め定められ
たカテゴリー4!″2の主成分ベクトル空間上に射影す
る特徴パラメータ射影回路4I−2である。本実施例で
はカテゴリー数を10としており、各カテゴリー擾こ対
しそれぞれ特徴パラメータ射影回路である。FIG. 1 is a block diagram of a speech/silence detector according to an embodiment of the present invention. In FIG. 1, 5110 is an LPC cepstrum extraction circuit, which extracts the LPC cepstrum C1 (t=i, z, . . . ) of the signal input from the input terminal 100.
...', P) f is calculated for each frame (10 ms) using a known method. However, P is the analysis order, and is assumed to be P=16, for example. The calculation method of the LPC cepstrum is described, for example, in Sadahiro Furui's ``Digital Speech Processing'' (Tokai University Press, 1985). 120
is the feature parameter projection circuit 41:1, and the LPC cepstrum vector C=(C1, C1
...Cp) Category IJ-4 for which t is determined in advance
: Project onto the principal component vector space of 1. Similarly, this 130 converts the LPC cepstrum vector C into a predetermined category 4! This is a feature parameter projection circuit 4I-2 that projects onto the principal component vector space of "2".In this embodiment, the number of categories is 10, and a feature parameter projection circuit is provided for each category.
第2図は、第1図記載の特徴パラメータ射影回路≠11
20の一構成例を示すブロック図であり内積演算回路2
10とカテゴリー≠1主成分ベクトルメモリ200から
構成される。特徴パラメータ射影回路ヰ2〜−jIP1
(Hこついても同様である。Figure 2 shows the feature parameter projection circuit shown in Figure 1≠11
20 is a block diagram showing a configuration example of the inner product calculation circuit 2.
10 and a category≠1 principal component vector memory 200. Feature parameter projection circuit ヰ2~-jIP1
(The same applies to H getting stuck.
カテゴリー主成分ベクトルメモリーこは予め求められた
カテゴリー≠1の第1〜第3の3つの主成分ベクトルV
、、V、、v、が格納されている。カテゴリーの分類法
及び主成分ベクトルの求め方については後述する。Category principal component vector memory This is the first to third three principal component vectors V of category≠1 determined in advance.
,,V,,v, are stored. The method of classifying categories and how to obtain principal component vectors will be described later.
内積演算回路210は、110の出力であるLPCケプ
ストラムベクトルCと主成分ベクトル■、〜V、との内
積演算を次式に従りて行い、■。The inner product calculation circuit 210 performs the inner product calculation of the LPC cepstrum vector C, which is the output of the circuit 110, and the principal component vectors 2, ˜V, according to the following equation.
Vs * Vs f座標軸とする3次元の主成分ベクト
ル9間上へCを射影し、射影点Qの座標Qt、Qm−Q
iを求める。Vs * Vs Project C onto the three-dimensional principal component vector 9 with the f coordinate axis, and calculate the coordinates of the projection point Q, Qt, Qm-Q
Find i.
但し、Vijは主成分v1の妥素である。各々の特徴パ
ラメータ射影回路により求められた射影点の座標Ql(
i=1.2.3)はカテゴリー判定回路150,160
.170へ入力され、そこで、入力信号から抽出された
LPCケプストラムがそのカテゴリー1こ属するか否か
が各カテゴリーごとに判定される。第3図は、第1図記
載のカテゴリー$1判定回路の一傳成例を示すブロック
図であり、カテゴIJ −+ 1領域規定ノRラメ−ダ
メモリ220と判定回路230から、構成される。カテ
ゴリー学2〜ヰ101!IJ定回路についても同様であ
る。カテゴIJ −+ 1〜:lI:l O?fJ域規
定パラメータメモリーこは各カテゴリーの主成分ベクト
ル空間上で各カテゴリーの領域を規定するパラメータが
格納されている。各カテゴリーの領域を第4図に示すよ
うな長方体とした場合領域を規定するパラメータはV、
11/Ih、 Vt j、Vt h、 Vs 1.
’ush (!: f! 6゜これらのパラメータは、
予め定めておくが、その方法−こついては後述する。第
3図曇こ8ける判定回路230は、前記射影点Qが@4
図の領域に存在するか否かによりて入力の特徴パラメー
タがカテゴリー=l:llこ属するか否かの判定を行う
。すなわち。However, Vij is a reasonable value of principal component v1. The coordinates Ql(
i=1.2.3) are category judgment circuits 150, 160
.. 170, where it is determined for each category whether the LPC cepstrum extracted from the input signal belongs to that category. FIG. 3 is a block diagram showing an example of the construction of the category $1 judgment circuit shown in FIG. Category Studies 2-101! The same applies to the IJ constant circuit. Category IJ −+ 1~:lI:l O? The fJ area defining parameter memory stores parameters that define the area of each category on the principal component vector space of each category. If the area of each category is a rectangular parallelepiped as shown in Figure 4, the parameters that define the area are V,
11/Ih, Vt j, Vt h, Vs 1.
'ush (!: f! 6゜These parameters are
The method is determined in advance, and the details will be explained later. The determination circuit 230 in FIG. 3 determines that the projection point Q is @4
It is determined whether the input feature parameter belongs to the category =l:ll depending on whether it exists in the area of the diagram. Namely.
1/”’i l <Q t <:Vt hかツIJ*
l <Q t 二===゛1.)t hか”’)Vs
l <Q s<1)s h■ときカテゴリー≠1に属す
ると判定し@1”を、それ以外で10″を出力する。1/”'i l <Q t <:Vt h katsu IJ*
l <Q t 2===゛1. )t h?”')Vs
When l<Q s<1)s h■, it is determined that it belongs to the category≠1, and @1" is output; otherwise, 10" is output.
第1図に戻りて、有音/無音判定回路180は、カテゴ
IJ −=$ 1判定回路〜カテゴリー≠10q定回路
の出力を総合して、有音/無音判定を行う。Returning to FIG. 1, the utterance/silence determining circuit 180 performs utterance/silence determination by integrating the outputs of the category IJ -=$1 determining circuit to the category≠10q constant circuit.
具体的には、カテゴリー≠1判定回路〜カテゴリー41
:l O判定回路の出力のOR演算を行い、その結果が
”1”ならば有音、“O″ならば無音と判定する。Specifically, category≠1 judgment circuit ~ category 41
:l The output of the O determination circuit is ORed, and if the result is "1", it is determined that there is a sound, and if the result is "O", it is determined that there is no sound.
以上が本発明の一実施例に係る有f/無音検出器の動作
の説明である。以下に、特徴パラメータを複数のカテゴ
リーに分類すると共に各カテゴリーの主成分ベクトル及
び主成分ベクトル空間上の各カテゴリーの存在領域を求
める方法について述べる。The above is an explanation of the operation of the f/silence detector according to one embodiment of the present invention. Below, a method for classifying feature parameters into a plurality of categories and determining the principal component vector of each category and the region in which each category exists on the principal component vector space will be described.
まず、予め電話の使用環境下で収集された牙声の有音部
のLPCケプストラムベクトルC1(1=1.2.・・
・・・・、M)を多数(M個)求め、C1の自己相関行
列R1を式(9)Iこ従い計算する0次fc1行列Ri
O行ベクトル分要素とするP!次元のベクトルをトレー
ニングベクトルtlとする。First, the LPC cepstrum vector C1 (1=1.2...
..., M), and calculate the autocorrelation matrix R1 of C1 according to formula (9) I.0-order fc1 matrix Ri
P with O row vector elements! Let the dimensional vector be the training vector tl.
(ソJ
t 1=(Ci、t c i、 Cil・・・・・・・
・・C1,C1pCil CtlCi♂・・・・・・・
・・ctlcip・・・・・・・・・・・・・・・C1
pりt但しci、、C11・・・・・・・・、 Cip
はり、PCケプストラムベクトルC1の要素である。(So J t 1 = (Ci, t c i, Cil...
・・C1, C1pCil CtlCi♂・・・・・・・
・・・ctlcip・・・・・・・・・・・・・・・C1
However, ci,, C11..., Cip
The beam is an element of the PC cepstrum vector C1.
また、tは行列の転置を示す、トレーニングベクトルt
1はLBGアルゴリズムを適用し次のようにしてN個の
代表、ベクトルyj(j =1.2.・・・・・・・・
・、N)と分割P(Aj)を求める。Also, t indicates the transpose of the matrix, the training vector t
1 applies the LBG algorithm and calculates N representatives, vector yj (j = 1.2...
, N) and the division P(Aj).
第0ステップ:初期設定
代表ベクトルの数N%歪の閾値81代表ベクトルの初期
値Ao、l−レーニングベクトルti(i=1 、2
、 ・・−、M)を与え、m=o、l)、= と設定
する。0th step: Initial setting Number of representative vectors
, ...-, M) and set m=o, l), = .
第1ステVブ:与えられた代表ベクトルの果合Am=(
yj、j=1.・・・・・・1、N)で最小平均歪とな
るような分割P (Am)=lSi ) 、i=1.2
.−、Nをトレーニングベクトルtiによりて求める。First step: Result of the given representative vector Am=(
yj, j=1. ...1, N), such that the minimum average distortion is achieved by dividing P (Am) = lSi), i = 1.2
.. -, N are determined using the training vector ti.
すなわち。Namely.
分割領域Sifこ属するすべてのtitこついて、d(
ti 、yl)<lti、yj)、j=1.2.・・・
・・・・・・、NとなるようEこする。但し、d(ti
、yl)はtiとylの間■歪であり1次のように2乗
誤差として定義できる。All tits belonging to the divided area Sif are added, d(
ti, yl)<lti, yj), j=1.2. ...
・・・・・・Rub E so that it becomes N. However, d(ti
, yl) is the distortion between ti and yl, and can be defined as a squared error like a first order.
t 1(R)、 y l(′EQl′it i 、 y
iO安素である。t 1(R), y l('EQl'it i, y
iO is ammonium.
ここで分割P(Am)lこよる最小平均歪を次式により
計算する。Here, the minimum average distortion due to the division P(Am)l is calculated using the following equation.
Dm=Dm[(Am、P(Am)))
Slに属するトーニングベクトルtjを作成しているL
PCケプストラムベクトルCjが1番目のカテゴリーの
メンバーということになる。また。Dm=Dm[(Am, P(Am))) L creating the toning vector tj belonging to Sl
It follows that the PC cepstrum vector Cj is a member of the first category. Also.
代表ベクトル71(1=1.2.・・・・・・、N)の
要素の詑び変え番こよって得られる行列R1が1番目の
カテゴリーの代賢自己相関行列となる。The matrix R1 obtained by changing the number of elements of the representative vector 71 (1=1.2...,N) becomes the Daiken autocorrelation matrix of the first category.
第2ステップ;収束のチ史ツク
(Dm−+ −Dm)/Dm(grlらば処理を停止し
、Amを最終の代表ベクトルの集会とする。Second step: If convergence check (Dm-+-Dm)/Dm(grl) is reached, the process is stopped and Am is set as the final collection of representative vectors.
第3ステップ:繰り返し
今の分割によりて得られている代表ベクトル集会A m
十+ f A rnとし、m=m+署として第1ステツ
プへ戻る。Third step: Repeat the representative vector assembly A m obtained by the current division.
10 + f A rn and return to the first step with m = m + sign.
なお、本実施例では初期設定に2いて、N=10、ε=
0.Ol、m=10000とする。In this embodiment, the initial setting is 2, N=10, and ε=
0. Let Ol, m=10000.
以上の処理によりて得られる10個の分割51(1=1
.2.・・・・・・、N)が10個のカテゴリーになり
各カテゴリーの主成分ベクトルは、R1の主成分分析1
こより予め得ることができる。また、主成分ペグトル2
間上で各カテゴリーの領域を規定するパラメータは、!
カテゴリーごとにそのカテゴリー憂こ属するLPcケブ
トラムベクトルヲ谷カテゴリーの主成分ベクトル空間上
lこ射影すること醗こより予め定めることができる。The 10 divisions 51 (1=1
.. 2. ......, N) becomes 10 categories, and the principal component vector of each category is calculated by principal component analysis 1 of R1.
It can be obtained in advance from this. In addition, the main component Pegtor 2
The parameters that define the area of each category on the !
It can be predetermined for each category by projecting the LPc vector to which the category belongs onto the principal component vector space of the category.
以上の実施例では、有音/無牙判定に用いているパラメ
ータは各カテゴリーにつ#Qt−Qs(D3つであるが
、その数は任意に設定することができる。パラメータ数
がいくつでありても1元の特徴パラメータ数分少なくし
たことによる誤差は最小である。また、この実施例では
カテゴリー数210としているが、その数も自由に設定
することができ、いずれの場合も特徴パラメータを有限
のカテゴリー数に分類することによる誤差は最小である
。In the above embodiment, the parameters used for the sound/tuskless determination are #Qt-Qs (D3) for each category, but the number can be set arbitrarily. Even if the number of categories is reduced by the number of feature parameters in one element, the error is minimal.Also, in this example, the number of categories is 210, but the number can be set freely. The error due to classification into a finite number of categories is minimal.
更に、本実施例では、入力の特徴パラメータが各カテゴ
17−1こ属するか否かの判定を主成分ベクトル空間上
の射影点が各カテゴリーごとζこ定めた特定の領域に入
るか否かということで行りているが、これと領域の重心
と射影点との距離で行うこともできる。例えば、領域の
重心をV = (”LF”+−″vtVs)とSき、距
fiDを次式で定義し、Dと予め定めた閾値Thとの比
較fこよりD < T h rlらばカテゴリーに属し
、D>Thならば属さないと判定することもできる。Furthermore, in this embodiment, it is determined whether the input feature parameter belongs to each category 17-1 by determining whether the projection point on the principal component vector space falls within a specific area determined for each category. This is done using the distance between the center of gravity of the area and the projection point. For example, when the center of gravity of the region is V = ("LF" + - "vtVs), the distance fiD is defined by the following formula, and D is compared with a predetermined threshold Th. From this, if D < T h rl, the category , and if D>Th, it can also be determined that it does not belong.
1=1 但し、alは重み係数である。1=1 However, al is a weighting coefficient.
従来の有音/無音検出法では、距嶋による判定が用いら
れ、領域による判定は従来になかりたものである。領域
Cζよる判定は、有音叉は無音が主成分ベクトル空間上
で特別な領域に分布する場合でも、有音・無音判定がで
きるので、有音/無音検出の精度が向上するという効果
がある。例えば式(14) lこおいてal=1(1=
1.2.3)と2いた場合、D<:Thとなる領域は球
の内部となるように、距1lf16cよる判定では、有
音の領域の形が距離の定義によりて決まり、任意の形を
設定することができないのに対し、領域による判定では
、任意の形を設定することができる。In the conventional voice/silence detection method, a determination based on Takashima is used, and determination based on an area has not been used in the past. The determination based on the area Cζ allows the presence or absence of voice to be determined even when voice or silence is distributed in a special area on the principal component vector space, so it has the effect of improving the accuracy of voice/silence detection. For example, equation (14) where l = 1 (1 =
In the case of 1.2.3) and 2, the region where D<:Th is inside the sphere.In the judgment based on the distance 1lf16c, the shape of the voiced region is determined by the definition of the distance, and any shape can be formed. cannot be set, whereas in region-based determination, any shape can be set.
入力信号の特徴パラメーターこついてもLPCケプスト
ラムの他に、信号パワー 零交差a、LPC係数、自己
相関係数、DFT係数およびそれらの組合せを用いるこ
とができる。As for the characteristic parameters of the input signal, in addition to the LPC cepstrum, signal power zero crossing a, LPC coefficients, autocorrelation coefficients, DFT coefficients, and combinations thereof can be used.
以上述べたようfこ1本発明は、特徴パラメータを主成
分ベクトル空間上に射影した上で有音/無音判定を行り
ので、有音/無音判定に用いるパラメータ数2少なくし
た場合でも5元の特徴パラメータのもつ情報の損失が最
も小さく有f/無tm出精度が高く、有音/無音検出の
倶りによる音声の脱落や雑音の付加を少なくすることが
できるという効果がある。また、有音、/無音判定に用
いるパラメータの選択に当りて、まず多くの特徴パラメ
ータを求め、そのパラメータと固有値最大の第1主成分
ベクトルから順に第2.第3・・・・・・主成分ベクト
ルへと内積演算を行って得られるパラメータを用いれば
元の特徴パラメータのもつ情報の損失が最小となるとい
う理愉的な規準があるので。As described above, the present invention performs voice/silence determination after projecting the feature parameters onto the principal component vector space, so even if the number of parameters used for voice/silence determination is reduced by 2, the The loss of information of the characteristic parameters is the smallest, the presence/absence of tm detection accuracy is high, and the dropout of voice and the addition of noise due to failure of speech/non-speech detection can be reduced. In selecting parameters to be used for voice/silence determination, first, many feature parameters are determined, and the parameters and the second principal component vector are selected in order from the first principal component vector with the largest eigenvalue. Third...There is a reasonable criterion that the loss of information in the original feature parameters will be minimized if the parameters obtained by performing inner product calculation on the principal component vectors are used.
有斤/無it’ll定lこ用いるパラメータの設定が容
易であるという効果がある。This has the effect of making it easy to set the parameters used.
さらに1本発明では、特徴パラメータの自己相関行列を
複数のカテゴリーに分類したffl、各カテゴリーの主
成分分析番こよりて得られる各カテゴリーの主成分ベク
トル空間上にフレームごとの特徴パラメータを射影した
上でカテゴリーごとtこ有音/無音判定を行いその結果
を総合して有音/無音検出を行りているので、有音/無
音検出精度が向上するという効果がある。しかも、カテ
ゴリーの分aおよびカテゴリーごとの主成分ベクトルを
求める際にLBGアルゴリズムを用いているので、M個
の特徴パラメータの自己相関行列9Mより少ない個数の
カテゴリーに分類することによりて生じる誤差を最小こ
することができ、有音/無音倹゛出精度を高くすること
ができるという効果がある。Furthermore, in the present invention, the feature parameters for each frame are projected onto the principal component vector space of each category obtained by ffl, which classifies the autocorrelation matrix of the feature parameters into a plurality of categories, and the principal component analysis number of each category. Since the presence/absence determination is made for each category and the results are combined to detect the presence/absence of speech, there is an effect that the accuracy of detecting the presence/absence of speech is improved. Moreover, since the LBG algorithm is used to calculate the category a and the principal component vector for each category, the error caused by classification into fewer categories than the autocorrelation matrix 9M of M feature parameters can be minimized. This has the effect that it is possible to improve the accuracy of sound/non-sound detection.
以上本発明によれば演算量は少ない−こもかかわらず、
有音O無音の判定を精度よく行い得、システムへの信頼
性も向上するという効果を奏する。As described above, according to the present invention, the amount of calculation is small - in spite of this,
This has the effect that it is possible to accurately determine whether there is a sound or no sound, and the reliability of the system is also improved.
第1図は本発明の一実施例jlこ係る有音/無音検出器
のブロック図、iII、2図は第1図記載の特徴パラメ
ータ射影回@≠1の一構成例を示すブロック図、第3図
は第1図記載のカテゴIJ −4: 1判定回路の一構
成例を示すブロック図、第4図は本発明の一実施例に係
り主成分ベクトル空間上でカテゴリー゛に属するか否か
を判定するための領域を示す図、第5図は本発明の詳細
な説明の際に用いた特徴パラメータ数削減の概念を示す
図、第6図は従来の有f/無音検出tt[lのブロック
図、第7図は従来の有f/#f検出装置で同一のスペク
トル形状と判定されるスペクトルの例を示す図、第8図
は本発明の音声セル化f−1のブロック図である。
100・・・入力端子、110・・・LPCケプストラ
ム抽出回路、120,130,140・・・特徴パラメ
ータ射影回if!、150.160,170・・・カテ
ゴリー判定回路、180・・・有音/無f判定回路、2
00・・・カテゴリ主成分ベクトルメモリ、210・・
・内積演算回路% 220・・・カテゴリー領域規定パ
ラメータメモリ、230・・・判定回路、600・・・
エネルギー抽出部% 610・・・スペクトル形状抽出
部、620・・・特微量抽出部、630・・・マルチプ
レクサ、640・・・有音・無音判定部、650・・・
閾値メモIJ、660・・・標準パターンメモIJ、6
70・・・始端−終鴫候補検出部、680・・・始端−
終端決定部。FIG. 1 is a block diagram of a speech/silence detector according to an embodiment of the present invention, and FIG. FIG. 3 is a block diagram showing an example of the configuration of the category IJ-4:1 determination circuit shown in FIG. FIG. 5 is a diagram showing the concept of reducing the number of feature parameters used in the detailed explanation of the present invention. FIG. 6 is a diagram showing the conventional f/silence detection tt[l Block diagram: FIG. 7 is a diagram showing an example of spectra determined to have the same spectral shape by a conventional f/#f detection device; FIG. 8 is a block diagram of the voice cell f-1 according to the present invention. . 100... Input terminal, 110... LPC cepstrum extraction circuit, 120, 130, 140... Feature parameter projection time if! , 150.160, 170...Category judgment circuit, 180...Sound/absence f judgment circuit, 2
00... Category principal component vector memory, 210...
- Inner product calculation circuit% 220...Category area defining parameter memory, 230...Judgment circuit, 600...
Energy extraction section % 610... Spectrum shape extraction section, 620... Feature amount extraction section, 630... Multiplexer, 640... Sound/non-sound determination section, 650...
Threshold value memo IJ, 660...Standard pattern memo IJ, 6
70...Starting end-terminus candidate detection unit, 680...Starting end-
Termination determining section.
Claims (3)
タを求める手段と、この手段により求められた特徴パラ
メータを、予め設定された雑音を含む音声信号の特徴パ
ラメータの自己相関行列を複数のカテゴリーに分類した
この各カテゴリーの主成分ベクトル空間上に射影する手
段と、 この手段により射影された各カテゴリーごとの主成分ベ
クトル空間上の特徴パラメータの射影点の位置と主ベク
トル空間上で予め定められた特定の領域を用いて、前記
特徴パラメータがこのカテゴリーに属するか否かを判定
する手段と、 この手段により判定された各カテゴリーごとの判定結果
を用いて有音・無音判定を行う手段とを有することを特
徴とする有音・無音検出方式。(1) A means for obtaining a feature parameter representing the feature of an acoustic signal of an audio signal, and an autocorrelation matrix of the feature parameter of the audio signal including preset noise, for dividing the feature parameter obtained by this means into multiple categories. A means for projecting onto the principal component vector space of each of the classified categories, a projection point position of the feature parameter on the principal component vector space for each category projected by this means, and A means for determining whether the feature parameter belongs to this category using a specific area, and a means for determining whether there is a sound or no sound using the determination result for each category determined by this means. This is a sound/silence detection method that is characterized by:
を表わす信号パワーやLPC係数等を用いて特徴パラメ
ータを求めることを特徴とする請求項1記載の有音・無
音検出方式。(2) The voice/silence detection method according to claim 1, wherein the means for determining the feature parameters determines the feature parameters using signal power, LPC coefficients, etc. representing the characteristics of the acoustic signal.
タの主成分ベクトル空間は、使用される装置の特徴パラ
メータの主成分分析により求められることを特徴とする
請求項1記載の有音・無音検出方式。(3) The principal component vector space of the feature parameters of the voiced part or the silent part set in advance is obtained by principal component analysis of the feature parameters of the device used. Silence detection method.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1022512A JPH02203397A (en) | 1989-02-02 | 1989-02-02 | Voice/voiceless part detection system |
| EP19900301081 EP0381507A3 (en) | 1989-02-02 | 1990-02-01 | Silence/non-silence discrimination apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1022512A JPH02203397A (en) | 1989-02-02 | 1989-02-02 | Voice/voiceless part detection system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02203397A true JPH02203397A (en) | 1990-08-13 |
Family
ID=12084816
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1022512A Pending JPH02203397A (en) | 1989-02-02 | 1989-02-02 | Voice/voiceless part detection system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02203397A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021157180A (en) * | 2016-05-20 | 2021-10-07 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Similarity information determination device, similarity information determination method, auto-correlation information determination device, cross-correlation information determination device and computer program |
-
1989
- 1989-02-02 JP JP1022512A patent/JPH02203397A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021157180A (en) * | 2016-05-20 | 2021-10-07 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Similarity information determination device, similarity information determination method, auto-correlation information determination device, cross-correlation information determination device and computer program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4516527B2 (en) | Voice recognition device | |
| CA2005117C (en) | Noise reduction system | |
| CA2104933C (en) | Keyword/non-keyword classification in isolated word speech recognition | |
| US20020116197A1 (en) | Audio visual speech processing | |
| KR20000004972A (en) | Speech procrssing | |
| JPS61262799A (en) | Hydon type markov model voice recognition equipment | |
| JP3189598B2 (en) | Signal combining method and signal combining apparatus | |
| Scanlon et al. | Feature analysis for automatic speechreading | |
| JPH04505670A (en) | How to perform spectral estimation to improve noise robustness during speech recognition | |
| US5794198A (en) | Pattern recognition method | |
| CN114360491A (en) | Speech synthesis method, speech synthesis device, electronic equipment and computer-readable storage medium | |
| EP1005019A2 (en) | Segment-based similarity measurement method for speech recognition | |
| Kaynak et al. | Audio-visual modeling for bimodal speech recognition | |
| JPH03201079A (en) | pattern matching device | |
| US5375173A (en) | Speaker adapted speech recognition system | |
| US5159637A (en) | Speech word recognizing apparatus using information indicative of the relative significance of speech features | |
| Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
| Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
| JPH02203397A (en) | Voice/voiceless part detection system | |
| JPH10254473A (en) | Voice conversion method and voice conversion device | |
| KR19990015122A (en) | Speech recognition method | |
| JPH0335297A (en) | Vocal sound/silent sound detection system | |
| Chadha et al. | A comparison of Multi-Layer Perceptron and Radial Basis Function neural network in the voice conversion framework | |
| Monte et al. | Text independent speaker identification on noisy environments by means of self organizing maps | |
| EP0381507A2 (en) | Silence/non-silence discrimination apparatus |