TWI395200B

TWI395200B - 一種不用樣本能辨認所有語言的辨認方法

Info

Publication number: TWI395200B
Application number: TW98126015A
Authority: TW
Inventors: Tze Fen Li; Tai Jan Lee Li; Shih Tzung Li; Shih Hon Li; Li Chuan Liao
Original assignee: Tze Fen Li; Tai Jan Lee Li; Shih Tzung Li; Shih Hon Li; Li Chuan Liao
Priority date: 2009-08-03
Filing date: 2009-08-03
Publication date: 2013-05-01
Also published as: TW201106340A

Description

一種不用樣本能辨認所有語言的辨認方法

一連續音包含一或多個音節(單音)。本發明可以不用連續音的樣本能辨認所有語言。

本發明用12彈性框(窗)，等長，無濾波器，不重疊，將長短不一的連續音的音波轉換成12×12的線性預估編碼倒頻譜(LPCC)的矩陣，一未知的連續音用12×12的線性預估編碼倒頻譜的矩陣表示。一12×12矩陣認為是一144度空間的一向量。很多未知連續音的向量散佈在144度空間。當說話人發一已知連續音，該已知連續音的特徵由周圍的未知連續音的特徵(LPCC)模擬及計算。

本發明包含12個彈性框正常化一連續音的音波，貝氏比對法在資料庫中為發音者的未知連續音找一已知連續音，將一說話者的一未知的句子分成D個未知連續音，及一視窗篩選法，篩選一已知句子為說話者的未知句子。

發一連續音時，它的發音是用音波表示。音波是一種隨時間作非線性變化的系統，一連續音音波內含有一種動態特性，也隨時間作非線性連續變化。相同連續音發音時，有一連串相同動態特性，隨時間作非線性伸展及收縮，但相同動態特性依時間排列秩序一樣，但時間不同。相同連續音發音時，將相同的動態特性排列在同一時間位置上非常困難。更因相似連續音特多，造成辨認更難。

一電腦化語言辨認系統，首先要抽取聲波有關語言資訊，也即動態特性，過濾和語言無關的雜音，如人的音色、音調，說話時心理、生理及情緒和語音辨認無關先刪去。然後再將相同連續音的相同特徵排列在相同的時間位置上。此一連串的特徵用一等長系列特徵向量表示，稱為一連續音的特徵模型。目前語音辨認系統要產生大小一致的特徵模型太複雜，且費時，因為相同連續音的相同特徵很難排列在同一時間位置上，尤其是英語，導致比對辨認困難。

一般句子或名稱辨認方法有下列一連串五個主要工作：未知句子或名稱切割成D個未知連續音、抽取特徵、特徵正常化(特徵模型大小一致，且相同連續音的相同特徵排列在同一時間位置)、未知連續音辨認、及在句子或名稱資料庫找適合句子或名稱。一連續音聲波特徵常用有下列幾種：能量(energy)，零橫過點數(zero crossings)，極值數目(extreme count)，顛峰(formants)，線性預估編碼倒頻譜(LPCC)及梅爾頻率倒頻譜(MFCC)，其中以線性預估編碼倒頻譜(LPCC)及梅爾頻率倒頻譜(MFCC)是最有效，並普遍使用。線性預估編碼倒頻譜(LPCC)是代表一連續音最可靠，穩定又準確的語言特徵。它用線性迴歸模式代表連續音音波，以最小平方估計法計算迴歸係數，其估計值再轉換成倒頻譜，就成為線性預估編碼倒頻譜(LPCC)。而梅爾頻率倒頻譜(MFCC)是將音波用傅氏轉換法轉換成頻率。再根據梅爾頻率比例去估計聽覺系統。根據學者S.B.Davis and P.Mermelstein於1980年出版在IEEE Transactions on Acoustics,Speech Signal Processing,Vol.28,No.4發表的論文Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences中用動態時間扭曲法(DTW)，梅爾頻率倒頻譜(MFCC)特徵比線性預估編碼倒頻譜(LPCC)特徵辨認率要高。但經過多次語音辨認實驗(包含本人前發明)，用貝氏分類法，線性預估編碼倒頻譜(LPCC)特徵辨認率比梅爾頻率倒頻譜(MFCC)特徵要高，且省時。

至於語言辨認，已有很多方法採用。有動態時間扭曲法(dynamic time-warping)，向量量化法(vector quantization)及隱藏式馬可夫模式法(HMM)。如果相同的發音在時間上的變化有差異，一面比對，一面將相同特徵拉到同一時間位置。辨認率會很好，但將相同特徵拉到同一位置很困難並扭曲時間太長，不能應用。向量量化法如辨認大量連續音，不但不準確，且費時。最近隱藏式馬可夫模式法(HMM)辨認方法不錯，但方法繁雜，太多未知參數需估計，計算估計值及辨認費時。最近T.F.Li(黎自奮)於2003年出版在Pattern Recognition, vol.36發表的論文Speech recognition of mandarin monosyllables中用貝氏分類法，以相同資料庫，將各種長短一系列LPCC向量壓縮成相同大小的分類模型，辨認結果比Y.K.Chen,C.Y.Liu,G.H.Chiang,M.T.Lin於1990年出版在Proceedings of Telecommunication Symposium,Taiwan發表的論文The recognition of mandarin monosyl lables based on the discrete hidden Markov model中用隱藏式馬可夫模式法HMM方法要好。但壓縮過程複雜費時，且相同連續音很難將相同特徵壓縮到相同時間位置，對於相似連續音，很難辨認。

本發明語音辨認方法針對上述缺點，從學理方面，根據音波有一種語音特徵，隨時間作非線性變化，自然導出一套抽取語音特徵方法。將一連續音音波先正常化再轉換成一足以代表該連續音的大小相等特徵模型，並且相同連續音在它們特徵模型內相同時間位置有相同特徵。不需要人為或實驗調節本發明內的未知參數及門檻。用簡易貝氏分類法，即可將未知連續音分類模型和連續音特徵資料庫內已知連續音標準模型比對，不需要再壓縮，扭曲或尋找相同的特徵來比對。所以本發明語音辨認方法，能快速完成特徵抽取，特徵正常化及辨認。

(1)本發明最重要的目的是用多個未知連續音的特徵來模擬及計算任何一種語言的任何一已知連續音的特徵，因此本發明可以不用樣本，就可以建立任何一種語言的任何一連續音的特徵，即本發明不用樣本也能正確辨認各種語言。詳細地說，本發明對任何一種語言的任何一已知連續音，用貝氏距離在144度空間找N個未知連續音矩陣來模擬及計算該已知連續音，以達到不用已知連續音的樣本，仍能夠建立任何已知連續音的特徵。因此可以辨認任何語言。

(2)本發明提供一種語言辨認方法。它能將不具語言音波刪除。

(3)本發明提供一種連續音音波正常化及抽取特徵方法。它使用E個相等彈性框，不重疊，沒有濾波器，能依一連續音波長短自由調節含蓋全部波長，能將連續音音波內一系列隨時間作非線性變化的動態特性轉換成一大小相等的特徵模型，並且相同連續音音波的特徵模型在相同時間位置上有相同特徵。可以及時辨認，達到電腦即時辨認效果。

(4)本發明提供一種簡易有效貝氏辨認未知連續音方法，認錯機率達到最小，計算少、辨認快及辨識率高。

(5)本發明提供一種抽取連續音特徵方法，連續音音波有一種隨時間作非線性變化的動態特性。本發明用隨時間作線性變化的迴歸模型估計隨時間作非線性變化的音波，產生的迴歸未知係數的最小平方估計值(LPC向量)。

(6)本發明使用所有具有語音音波(音波信號點)。用較少數E=12個相等彈性框，沒有濾波器，不重疊含蓋所有信號點特徵。不因為一連續音音波太短，刪去該連續音，也不因為太長，刪去或壓縮部分信號點。只要人類聽覺能辨別此連續音，本發明即可將該連續音抽取特徵。所以本發明語音辨認方法應用每一具有語音的信號點，可以盡量抽取語音特徵。因E=12個彈性框不重疊，框數少，大大減少特徵抽取及計算線性預估編碼倒頻譜(LPCC)時間。

(7)本發明辨認方法可以辨認講話太快或講話太慢的連續音。講話太快時，一連續音音波很短，本發明的彈性框長度可以縮小，仍然用相同數E個等長的彈性框含蓋短音波。產生E個線性預估編碼倒頻譜(LPCC)向量。只要該短音人類可辨別，那麼該E個線性預估編碼倒頻譜(LPCC)向量可以有效代表該短音的特徵模型。講太慢所發出連續音音波較長。彈性框會伸長。所產生E個線性預估編碼倒頻譜(LPCC)向量也能有效代表該長音。

(8)本發明提供一穩定及調節資料庫內所有已知連續音的特徵方法，使所有連續音的特徵在144度空間內相互佔有自己的位置及空間，以便辨認正確。

(9)辨認一句子或名稱時，先將未知句子或名稱切割成D個未知連續音，本發明將每個未知連續音用貝氏法在連續音特徵資料庫，選擇最相似F個已知連續音。一句子用D ×F個已知連續音表示，因切割困難可能切成比較多或比較少未知連續音個數，本發明以每個未知連續音前後三列F個相似已知連續音比對句子或名稱中一已知連續音，也即在句子及名稱資料庫中，對每一句子或名稱用3×F視窗的已知相似連續音篩選一已知連續音，再從句子及名稱資料庫找一最可能句子或名稱，方法簡單，成功率很高(辨認70英語句子及名稱和407國語句子及名稱)。

(10)本發明提供二種技術修正連續音的特徵使未知連續音及未知句子或名稱辨認成功。

(11)本發明將一語單音當作一只有一音節連續音，中文及外文的特徵都由同樣本大小矩陣表示。

因此本發明可以同時辨認各種語言。

用第一圖及第二圖說明發明執行程序。第一圖是表示已知連續音永久資料庫，已知連續音特徵資料庫和句子及名稱資料庫三個資料庫建立流程。連續音特徵資料庫包含所有已知連續音的標準模型，表示已知連續音的特徵。輸入一已知連續音或一句子或名稱(句子或名稱將會切成多個連續音)1，以一連續音波10形式進入接收器20。數位轉換器30將連續音波轉為一序列音波數位的信號點。先前處理器45有兩種刪去方法：(1)計算一小時段內信號點的變異數及一般雜音變異數。如前者小於後者，則該小時段不具語音，應刪去。(2)計算一小時段內連續兩信號點距離總和及一般雜音的總和，如前者小於後者，則該小時段不具語音，應刪去。經過先前處理器45之後，得到一序列具有該已知連續音信號點。先將音波正常化再抽取特徵，將已知連續音的全部信號點分成E等時段，每時段組成一個框。一連續音一共有E個等長框50，沒有濾波器，不重疊，根據連續音全部信號點的長度，E個框長度自由調整含蓋全部信號點。所以該框稱為彈性框，長度自由伸縮，但E個彈性框長度一樣。不像漢明(Hamming)窗，有濾波器、半重疊、固定長度、不能隨波長自由調整。因一連續音音波隨時間作非線性變化，音波含有一語音動態特徵，也隨時間作非線性變化。因為不重疊，所以本發明使用較少(E=12)個彈性框，涵蓋全部連續音音波，因信號點可由前面信號點估計，用隨時間作線性變化的迴歸模式來密切估計非線性變化的音波，用最小平方法估計迴歸未知係數。每框內產生一組未知係數最小平方估計值，叫做線性預估編碼(LPC向量)。再將線性預估編碼(LPC)向量轉換為較穩定線性預估編碼倒頻譜(LPCC)。一連續音音波內含有一序列隨時間作非線性變化的語音動態特徵，在本發明內轉換成大小相等E個線性預估編碼倒頻譜(LPCC)向量60。為了抽取一已知連續音的特徵，先準備一永久已知連續音資料庫。每個已知連續音由一標準，清晰者發音一次。如果辨認一口音重或不標準的說話，那麼由此人發音，將所有已知連續音轉換成E×P個LPCC矩陣放在永久已知連續音資料庫內。在永久已知連續音資料庫內，為一已知連續音抽取特徵，先準備一未知連續音的資料庫，未知連續音資料庫有二種：一種是未知連續音有樣本，另一種是沒有標準。有樣本的資料庫，先求每一未知連續音的平均值及變異數。在有樣本的未知連續音資料庫中用貝氏距離對該已知連續音周圍找N個最近的未知連續音。再求N個未知音的N個平均值及該已知連續音的線性預估編碼倒頻譜(LPCC)的N+1個加權平均值作為已知連續音的平均值，並以N個連續音的N個變異數的加權平均值作為該已知連續音的變異數，此E×P平均值及變異數矩陣是該已知連續音的初步特徵值79放在連續音特徵資料庫中。如果未知資料庫沒有樣本，在未知連續音資料庫中，用最小絕對值距離為該已知連續音周圍找N個未知連續音。該已知連續音及N個未知連續音的線性預估編碼倒頻譜(LPCC)看作(N+1)個數字。求(N+1)個數字的加權平均值作為該已知連續音的平均值，及求(N+1)個數字的變異數作為該已知連續音的變異數，此E×P平均值及變異數的矩陣代表該已知音的初步特徵，放已知連續音特徵資料庫內79。在已知連續音特徵資料庫內，如果一已知連續音的平均值和在永久已知連續音資料庫內同樣一已知連續音的LPCC的貝氏距離，在特徵資料庫內不是最小，那麼在特徵資料庫內用貝氏距離找N個已知連續音，它們的貝氏距陣對該已知連續音的LPCC是N個最小。求N個已知連續音N個平均值及該已知單音的LPCC加權平均值作為該已知連續音新平均值，並用N個已知連續音的N個變異數的加權平均值作為該已知連續音的新的變異數。用此方法重複多次計算特徵資料庫內每一已知連續音的新平均值及變異數，最後E×P新的平均值及變異數矩陣叫做標準模型代表該已知連續音，放在特徵資料庫中80，再用已知特徵資料庫的已知連續音建立句子及名稱資料庫85。

第二圖表示一未知句子或名稱辨認方法流程。當輸入一未知句子或名稱2到本發明語音辨認方法後，以一組未知連續音波11進入接收器20，由數位轉換器30轉為一系列音波信號點。將一未知句子或名稱的音波切成D個未知連續音的音波40，再以第一圖先前處理器45刪去不具語音的音波。再將每個未知連續音音波正常化，抽取特徵，將句子或名稱每個未知連續音全部具有語音的信號點分成E等時段，每時段形成一彈性框50。每個連續音一共有E個彈性框，沒有濾波器，不重疊，自由伸縮含蓋全部信號點。在每框內，因信號點可由前面信號估計，用最小平方法求迴歸未知係數的估計值。每框內所產生的一組最小平方估計值叫做線性預估編碼(LPC)向量，線性預估編碼(LPC)向量有正常分配，再將線性預估編碼(LPC)向量轉換較穩定線性預估編碼倒頻譜(LPCC)向量60。一未知連續音以E個線性預估編碼倒頻譜(LPCC)向量代表特徵模型，稱為分類模型90，和已知連續音標準模型大小一樣。一句子一共有D個分類模型代表D個未知連續音90，如果一已知連續音是此未知連續音，它的標準模型的平均值最靠近未知連續音分類模型的線性預估編碼倒頻譜(LPCC)。所以本發明的簡易貝氏辨認法，以未知連續音的分類模型和連續音資料庫80每一已知連續音的標準模型比較100。如果一已知連續音是該未知連續音，為了計算省時，假定未知連續音的分類模型內所有線性預估編碼倒頻譜(LPCC)有獨立正常分配，它們的平均數及變異數以已知連續音標準模型內平均值及變異數估計。簡易貝氏法是計算未知連續音的線性預估編碼倒頻譜(LPCC)與已知連續音的平均數的距離，再以已知連續音變異數調整，所得的值代表該未知連續音與一已知連續音相似度。選擇與未知連續音F個相似度最高已知連續音代表為未知連續音，因此一未知句子或名稱用D×F個已知連續音來表示110。一未知句子或名稱切割成D個未知連續音後，很難剛好切成一未知句子或名稱所包含的連續音及個數，有時一連續音切成兩個，有時兩個連續音念的很近，電腦切成一個，因此，D個未知連續音並不一定是講話者真正連續音的個數，所以某一列F個已知相似連續音並不一定包含講話者的連續音。在辨認一未知句子或名稱時，在句子和名稱資料庫85，測試每一已知句子及名稱，在測試一句子或名稱是否是講話者的句子或名稱，將該句子或名稱從頭一已知連續音比對D×F矩陣相似連續音的前後三列相似連續音(當然第一個比對只能比對中後兩列相似連續音)，再移動3×F視窗(前後三列已知相似連續音)120找句子第二個已知連續音，直到測試句子全部已知連續音。在句子及名稱資料庫中，以最高機率的句子或名稱為講話者的句子或名稱(測試句子或名稱中已知連續音在3×F視窗數目除以測試句子或名稱中連續音數)130。當然可在句子及名稱資料庫中選擇和未知句子或名稱(D個未知連續音)長度大約相等的句子或名稱比對，節省時間。如果句子或名稱不能辨認，用貝氏分類法在特徵資料庫中找N個最相似連續音(79)改進句中的連續音特徵。本發明詳述於後：

(1)一連續音輸入語音辨認方法後，將此連續音連續音波轉換一系列數化音波信號點(signal sampled points)。再刪去不具語音音波信號點。本發明提供二種方法：一是計算一小時段內信號點的變異數。二是計算該時段內相鄰二信號點距離的總和。理論上，第一種方法比較好，因信號點的變異數大於雜音變異數，表示有語音存在。但在本發明辨認連續音時，兩種方法辨認率一樣，但第二種省時。

(2)不具語音信號點刪去後，剩下信號點代表一連續音全部信號點。先將音波正常化再抽取特徵，將全部信號點分成E等時段，每時段形成一個框。一連續音共有E個等長的彈性框，沒有濾波器、不重疊、自由伸縮，涵蓋全部信號點。彈性框內信號點隨時間作非線性變化，很難用數學模型表示。因為J.Markhoul於1975年出版在Proceedings of IEEE,Vol.63,No.4發表論文Linear Prediction：A tutorial review中說明信號點與前面信號點有線性關係，可用隨時間作線性變化的迴歸的模型估計此非線性變化的信號點。信號點S(n)可由前面信號點估計，其估計值S'(n)由下列迴歸模式表示：在(1)式中，a _k,k=1,...,P,是迴歸未知係數估計值，P是前面信號點數目。用L.Rabiner及B.H.Juang於1993年著作書Fundamentals of Speech Recognition,Prentice Hall PTR,Englewood Cliffs,New Jersey中Durbin的循環公式求最小平方估計值，此組估計值叫做線性預估編碼(LPC)向量。求框內信號點的線性預估編碼(LPC)向量方法詳述如下：以E ₁表示信號點S(n)及其估計值S'(n)之間平方差總和：求迴歸係數使平方總和E ₁達最小。對每個未知迴歸係數a _i,i=1,...,P,求(2)式的偏微分，並使偏微分為0，得到P組正常方程式：展開(2)式後，以(3)式代入，得最小總平方差E _P (3)式及(4)式轉換為

在(5)及(6)式中，用N表示框內信號點數，用Durbin的循環快速計算線性預估編碼(LPC)向量如下：E ₀=R(0) (8)

(8-12)公式循環計算，得到迴歸係數最小平方估計值a _j，j=1,...,P,(線性預估編碼(LPC)向量)如下：再用下列公式將LPC向量轉換較穩定線性預估編碼倒頻譜(LPCC)向量a'_j，j=1,...,P,

一彈性框產生一線性預估編碼倒頻譜(LPCC)向量(a'₁,...,a'_P)。根據本發明語音辨認方法，用P=12，因最後的線性預估編碼倒頻譜(LPCC)幾乎為0。一連續音以E個線性預估編碼倒頻譜(LPCC)向量表示特徵，也即一含E×P個線性預估編碼倒頻譜(LPCC)的矩陣表示一連續音，一連續音包含一至多個音節。

(3)同樣方法以(8-15)式計算出一未知連續音音波的E個線性預估編碼倒頻譜(LPCC)向量，有同樣大小E×P個LPCC的矩陣，叫做未知連續音的分類模型。

(4)在第二圖中，語音辨認器100，收到一未知連續音的分類模型，一E×P LPCC的矩陣。用X={X _jl}，j=1,...,E，l=1,...,P，表示未知連續音分類模型。在與一已知連續音c _i，i=1,...,m(m表示所有連續音總數)，比對時，為了快速計算比對值，假定{X _jl}有E×P個獨立正常分配，它的平均數及變異數(μ _ijl,)，以已知連續音標準模型內的平均值及變異數估計。以f(x|c _i)表示X的條件密度函數。以T.F.Li(黎自奮)於2003年出版在Pattern Recognition,Vol.36發表論文Speech recognition of mandarin monosyllables中的決策理論說明貝氏分類法如下：假設特徵資料庫一共有m個已知連續音的標準模型。以θ _i,i=1,...,m,表示連續音c _i,i=1,...,m,出現的機率，也即先前機率，則。以d表示一決策方法。定義一簡單損失函數(loss function)，也即d的判錯機率(misclassification Probability)：如決策方法d判錯一未知連續音d(x)≠c _i，則損失函數L(c _i,d(x))=1。如果d判對一未知連續音d(x)=c _i，則無損失L(c _i,d(x))=0。辨認方法如下：以Γ_i,i=1,...,m，表示X=x矩陣值屬於已知連續音c _i的範圍。也即X在Γ_i，d判未知連續音屬於已知連續音c _i。d判錯平均機率為在(16)中，τ=(θ ₁,...,θ _m),是Γ_i以外範圍。以D表示所有語音辨認方法，也即劃分m個已知連續音的範圍所有方法。在D中找一辨認方法d _τ使它的平均認錯機率(16)達到最小，以R(τ,d _τ)表示滿足(17)式的辨認方法d _τ叫做與先前機率τ有關的貝氏分類法。可用下列表示：d _τ(x)=c _i if θ _i f(x|c _i)>θ _j f(x|c _j) (18)在(18)式中，j=1,...,m,j≠i，也即屬於已知連續音c _i的範圍是對所有j≠i,Γ_i={x|θ _i f(x|c _i)>θ _j f(x|c _j)}。如所有已知連續音出現機率一樣，則貝氏分類法和最大機率法一樣。

貝氏分類法(18)辨認一未知連續音時，先計算所有X的條件密度函數f(x|c _i),i=1,...,m, 在(19)中，i=1,...,m,(已知連續音總數)。為了計算方便，將(19)式取對數，並刪去常數，得貝氏距離貝氏分類法(18)變成對每個已知連續音c _i，計算l(c _i)值(20)，l(c _i)也稱為未知連續音和已知連續音c _i的相似度，或貝氏距離(Baysian distance)。在(20)式中，x={x _jl},j=1,...,E,l=1,...,P,是未知連續音分類模型內線性預估編碼倒頻譜(LPCC)值，{μ _ijl,}用已知連續音的標準模型內的平均數及變異數估計。本發明最重要的貢獻是不用樣本在已知連續音特徵資料庫為每一已知連續音c _i找到互相穩定的中心點c _i={μ _ijl}及明確不重疊的範圍 Γ_i={x|θ _i f(x|c _i)>θ _j f(x|c _i)},j≠i. (21)這裡x={x _ijl}是表示已知連續音c _i的E×P LPCC矩陣範圍。

(5)抽取一已知連續音的特徵，先準備一未知連續音的資料庫，未知連續音資料庫有二種：一種是未知連續音有樣本，另一種是沒有樣本。有樣本的資料庫，先求每一未知連續音的平均值及變異數。在有樣本的未知連續音資料庫中用貝氏距離對該已知連續音周圍找N個最近的未知連續音。再求N個未知音的N個平均值及該已知連續音的線性預估編碼倒頻譜(LPCC)的N+1個加權平均值作為已知連續音的平均值，並以N個連續音的N個變異數的加權平均值作為該已知連續音的變異數，此E×P平均值及變異數矩陣是該已知連續音的初步特徵值79放在連續音特徵資料庫中。如果未知連續音資料庫沒有樣本，在未知連續音資料庫中，用最小絕對值距離為該已知連續音周圍找N個未知連續音。該已知連續音及N個未知連續音的線性預估編碼倒頻譜(LPCC)看作(N+1)個數字。求(N+1)個數字的加權平均值作為該已知連續音的平均值，及求(N+1)個數字的變異數作為該已知連續音的變異數，此E×P平均值及變異數的矩陣代表該已知連續音的初步特徵，放已知連續音特徵資料庫內79。在已知連續音特徵資料庫內，如果一已知連續音的平均值和在永久已知連續音資料庫內同樣一已知連續音的LPCC的貝氏距離，在特徵資料庫內不是最小，那麼在特徵資料庫內用貝氏距離找N個已知連續音，它們的貝氏距陣對該已知連續音的LPCC是N個最小。求N個已知連續音N個平均值及該已知連續音的LPCC加權平均值作為該已知連續音新平均值，並用N個已知連續音的N個變異數的加權平均值作為該已知連續音的新的變異數。用此方法重複多次計算特徵資料庫內每一已知連續音的新平均值及變異數，最後E×P新的平均值及變異數矩陣叫做標準模型代表該已知連續音，放在特徵資料庫中80再用已知特徵資料庫的已知連續音建立句子及名稱資料庫85。

(6)如果辨認一未知連續音c辨認錯誤，本發明提供二種技術修正舊特徵，使該連續音辨認正確；

(a)用貝氏分類法(20)在特徵資料庫內找N個和連續音c最相似的連續音{μ _ijl,},i=1,2,...,N，再求平均值(或加權平均值) 用{μ _jl,},j=1,...,E,l=1,...,P，代表該未知連續音的新標準模型，存在連續音特徵資料庫中，再測試該音一定成功。

(b)在(a)項中N個最相似已知連續音平均值及該未知連續音的線性預估編碼倒頻譜(LPCC)求加權平均值作為該未知連續音的新平均值，以N個最相似連續音的變異數加權平均值作為未知連續音的新變異數，用{μ _jl,},j=1,...,E,l=1,...,P，代表該未知連續音新的標準模型。

(7)為了證實本發明能同時辨認任何語言，本發明執行2人語音辨認實驗。

(a)首先建立一未知連續音資料庫。本單音資料庫是從台灣的中央研究院購買。資料庫一共有388個國語單音(第三圖)，全是女性發音，樣本從6個到99個不等，很多單音的發音幾乎一樣。

(b)從(2)節中方法將所有樣本轉成E×P LPCC矩陣，一共有12400個矩陣。

(c)在388國語單音中，用樣本求平均值及變異數。

(d)盲目混合388國語單音，使388有樣本平均值及變異數的單音變成388未知連續音資料庫(一國語單音也是只有一音節的連續音)。

(e)再找一男一女對654國語單音，154音語，1個德語，1個日語及3個台語發音一次建立兩個813個永久已知連續音資料庫，每個連續音以線性預估編碼倒頻譜(LPCC)E×P矩陣表示。

(f)在永久已知連續音資料庫813個已知連續音中，對每一已知連續音，用貝氏距離(20)在388未知連續音中找N=15個未知連續音，該已知連續音的線性預估編碼倒頻譜(LPCC)及N個未知連續音的樣本平均值求N+1個加權平均值為該已知連續音平均值，並求N個未知連續音的樣本變異數的加權平均值為該已知連續音的變異數。此平均值及變異數12×12矩陣叫做該已知連續音的初步特徵79，存在已知連續音特徵資料庫。也即特徵資料庫包含813個12×12平均值及變異數矩陣80。

(g)在特徵資料庫中，如果一已知連續音的平均值和在永久連續音資料庫中同樣該已知連續音的LPCC的貝氏距離不是最小。在813連續音特徵資料用貝氏距離找N=15已知連續音。用N個連續音的N個平均值及該已知連續音的LPCC求加權平均值為該已知連續音新平均值。對N個已知連續音的變異數求加權平均值為該已知連續音的新變異數。重覆計算新平均值及變異數多次。最後的12×12平均值及變異數矩陣叫做標準模型，表示該已知連續音特徵，存在已知連續音特徵資料庫中80。

本發明執行下列連續音辨認，辨認率依人而定，因相似太多，入圍前三名就算對：

①辨認384國語單音，1個德語，1個日語，2個台語(第三圖)(辨認率非常好)

②辨認154英語，1個德語(第四圖)(辨認率非常好)

③同時辨認154英語及388國語，1德語，1日語，2台語(辨認率非常好)

④辨認654國語單音，1德語，1日語，3台語(第三圖及第五圖)(辨認率好，沒有前三者好)

(8)對一講話者的句子或名稱辨認，我們先建立一英語及國語句子及名稱資料庫，每個句子或名稱內的連續音全部由連續音特徵資料庫內(384+154)已知英語及國語任意組成，由154英語單字組成70英語句子及名稱，384國語單字組成407個國語句子及名稱，(第六圖)。辨認方法如下：

(a)切割一未知句子或名稱成為D個未知連續音，每單位時段計算相鄰二信號點落差距離總和，如太小，該時段為雜音或靜音，沒有語音訊號的相鄰單位時段累積太多(比連續音兩音節時間還多)，表示全是雜音或靜音，應該是兩連續音分界線就應切割，一共切成D個未知連續音，再用第二圖45,50,60及90流程轉成E×P LPCC矩陣。對每一未知連續音，用貝氏分類法(20)在英語及國語特徵資料庫中選擇最相似F個已知連續音(可能同時包含英語及國語(圖))，一未知句子或名稱以D×F最相似已知連續音表示。

(b)在句子及名稱資料庫尋找講話者的句子或名稱，在477英語及國語句子和名稱中，挑選長度有(D±1)個已知連續音句子和名稱。

(c)如果資料庫的選擇比對的句子或名稱和講話者的句子或名稱等長(D個未知連續音時，那麼將D個每列F個相似已知連續音和比對句子或名稱的D個已知連續音依順序比對，看看F個相似連續音有沒有比對句子或名稱內的已知連續音。如每列相似連續音內都含一比對句子或名稱內的已知連續音，辨認正確連續音是D個，則該比對的句子或名稱就是講話者的句子或名稱。

(d)如果資料庫比對句子和名稱內已知連續音數是D-1或D+1或(c)的辨認正確連續音不是D個，本發明則用3×F視窗篩選。在比對句子或名稱(資料庫內)中，第i個已知連續音，用D×F矩陣中前後三列相似已知連續音(即第i-1,i,i+1列)比對第i個已知連續音，計算D×F矩陣有多少比對句子或名稱內的已知連續音，再除以總數D得到該比對句子或名稱的機率，在資料庫選擇一機率最大句子或名稱為講話者的發音。

(e)假如某句子或名稱辨認錯誤，一定是在D個未知連續音中，有一或多個不在它們的F個相似已知連續音中，用貝氏分類法(20)在(155+384)已知連續音中尋找前N=15順位已知連續音，求N個相似連續音及該未知連續音的LPCC加權平均值改進該未知連續音，務使D個未知連續音在它們F個相似已知連續音內，再測試一定成功。

本發明執行下列英語及國語句子及名稱辨認，辨認幾乎全部正確，依人而異：

①辨認70英語句子及名稱(非常好)。

②辨認407國語句子及名稱(非常好)

③辨認70英語句子及名稱與407國語句子及名稱(非常好)。

*附二張Visual Basic辨認圖(第七圖、第八圖)表示同時辨認英語及國語句子、名稱。

(1)‧‧‧建立一已知連續音永久資料庫，發音一連續音或一句子，句子再分成多個已知連續音

(10)‧‧‧連續音連續音波

(20)接收器

(30)‧‧‧音波數位轉換器

(45)‧‧‧除去雜音

(50)‧‧‧E個彈性框正常化音波

(60)‧‧‧最小平方法計算線性預估編碼倒頻譜向量

(70)‧‧‧用貝氏距離(絕對值距離)，對每一已知連續音(永久資料庫)，在未知連續音資料庫找N個最近未知連續音。

(79)‧‧‧對每一已知連續音(永久資料庫)，用周圍N個未知連續音及該已知連續音的線性預估編碼倒頻譜求加權平均值，為該已知連續音初步特徵，放在特徵資料庫。再在特徵資料庫用貝氏距離找N個已知連續音和該已知連續音LPCC求加權平均值，計算多次。最後加權平均值(E×P平均值及變異數)代表該已知連續音的標準模型

(80)‧‧‧已知連續音特徵資料庫包含所有平均值及變異數的標準模型

(85)‧‧‧用已知連續音特徵資料庫的連續音建立要辨認的句子及名稱的句子及名稱資料庫

(2)‧‧‧輸入一未知句子或名稱

(11)‧‧‧一組未知連續音波

(40)‧‧‧將一句子或名稱切成D個未知連續音

(90)‧‧‧D個未知連續音的線性預估編碼倒頻譜矩陣代表D個未知連續音分類模型

(100)‧‧‧用貝氏分類法比較每一已知連續音標準模型及未知連續音分類模型

(110)‧‧‧一句子或名稱中為每一未知連續音找最相近的F個已知連續音，一句子或名稱一共有D×F個已知最相似連續音表示

(120)‧‧‧在句子和名稱資料庫中，用3×F視窗的相似已知連續音篩選所有句子及名稱中的每個已知連續音

(130)‧‧‧在句子及名稱資料庫中找一最可能的句子或名稱

第一圖及第二圖說明發明執行程序。第一圖是表示已知連續音永久資料庫，已知連續音特徵資料庫和句子及名稱三個資料庫建立流程，第二圖表示一未知句子或名稱辨認方法流程。

第三圖是表示辨認384國語單音，1個德語，1個日語，2個台語。

第四圖是表示辨認154英語，1個德語。

第五圖是表示辨認269國語單音，3台語。

第六圖是表示句子及名稱資料庫有70英語句子及407中文句子及名稱。

第七圖及第八圖說明Visual Basic辨認圖表示同時辨認英語及國語句子、名稱方法。

(2)‧‧‧輸入一未知句子或名稱

(11)‧‧‧一組未知連續音波

(20)‧‧‧接收器

(30)‧‧‧音波數位轉換器

(40)‧‧‧將一句子或名稱切成D個未知連續音

(45)‧‧‧除去雜音

(50)‧‧‧E個彈性框正常化音波

(60)‧‧‧最小平方法計算線性預估編碼倒頻譜(LPCC)向量

(90)‧‧‧D個未知連續音的線性預估編碼倒頻譜(LPCC)矩陣代表D個未知連續音分類模型

(80)‧‧‧連續音特徵資料庫包含所有平均值及變異數的標準模型

(100)‧‧‧用貝氏分類法比較已知連續音標準模型與未知連續音分類模型

(85)‧‧‧用連續音特徵資料庫的已知連續音建立要辨認的句子及名稱(任意一組連續音)的句子及名稱資料庫

(120)‧‧‧在句子和名稱資料庫中，用3×F視窗篩選所有句子及名稱中的每個已知連續音

(130)‧‧‧在句子和名稱資料庫中找一最可能的句子或名稱

Claims

一種不用樣本能辨認所有語言的辨認方法，其步驟包含：(1)有一無樣本之資料庫，該資料庫包含未知連續音的音波；(2)有一已知連續音永久資料庫，該資料庫包含使用者對已知連續音發音一次的音波及有一句子及名稱資料庫包含已知連續音；(3)使用處理器刪去不具語音音波信號點(sampled points)或雜音；(4)在該無樣本資料庫不同未知連續音及永久資料庫已知連續音，正常化每一連續音音波並抽取該每一連續音音波的特徵：用E個彈性框將該音波正常化並轉換成大小相等的線性預估編碼倒頻譜(LPCC)ExP特徵矩陣；(5)正常化使用者之未知連續音音波及抽取該音波特徵：將該音波正常化並轉換成ExP線性預估編碼倒頻譜(LPCC)矩陣，表示為未知連續音分類模型；(6)在無樣本未知連續音資料庫中，找N個未知連續音的N個ExP特徵矩陣和已知連續音的ExP線性預估編碼倒頻譜(LPCC)矩陣距離最小的N個未知連續音的線性預估編碼倒頻譜(LPCC)矩陣及該已知連續音的線性預估編碼倒頻譜(LPCC)矩陣作為(N+1)數，計算(N+1)數加權平均值及變異數，此E×P平均值及變異數矩陣叫做該已知連續音標準模型，存在已知連續音特徵資料庫中；(7)使用一貝氏(Bayesian)分類演算法：比較使用者之該未知連續音分類模型與已知連續音標準模型，找一已知連續音與使用者之未知連續音之貝式距離為最小者，辨認為該使用者未知連續音；(8)將使用者發音的未知句子或名稱切成D個未知連續音；(9)使用一貝式分類法在D個未知連續音中，為每一未知連續音在已知連續音特徵資料庫中，選F個貝式距離最短的已知連續音，表示F個最相似已知連續音，一未知句子或名稱用D×F矩陣的已知連續音表示；(10)用未知句子或名稱的D×F矩陣的已知連續音，比對句子及名稱資料庫全部句子及名稱，計算機率以比對句子或名稱的已知連續音落在3×F視窗內多少除以D，找尋一比對已知句子或名稱為使用者的未知句子或名稱；(11)有一修正一連續音特徵。
根據申請專利範圍第1項所述之一種不用樣本能辨認所有語言的辨認方法，其中步驟(3)刪去不具語音的音波或雜音，更包含：(a)在一小時段內信號點，計算信號點的變異數及沒有音波信號點的變異數，當信號點的變異數小於沒有音波信號點變異數，則刪去該時段；(b)在一小時段內信號點，計算相鄰兩信號點距離總和和沒有音波信號點相鄰兩信號點距離總和，當前者小於後者則刪去該時段。
根據申請專利範圍第1項所述之一種不用樣本能辨認所有語言的辨認方法，其中步驟(4)更包含一連續音音波正常化及抽取大小一致的特徵矩陣，步驟如下：(a)均等分一連續音音波信號點：為了用線性變化的迴歸模式密切估計非線性變化的音波，將音波全長分成E等時段，每時段形成一彈性框，一連續音共有E個等長彈性框，沒有濾波器(Filter)，不重疊，使其可以自由伸縮含蓋全長音波；(b)每框內，用一隨時間作線性變化的迴歸模式估計隨時間作非線性變化的音波；(c)信號點S(n)可由前面信號點估計，其估計值S'(n)由下列迴歸模式表示：在(1)式中，a _k,k=1,...,P,是迴歸未知係數估計值，P是前面信號點數目，以E ₁表示信號點S(n)及其估計值S'(n)之間平方差總和：求迴歸係數使平方總和E ₁達最小，對每個未知迴歸係數a _i,i=1,...,P,求(2)式的偏微分，並使偏微分為0，得到P組正常方程式：展開(2)式後，以(3)式代入，得最小總平方差E _P (3)式及(4)式轉換為在(5)及(6)式中，用N表示框內信號點數，用Durbin的循環快速計算線性預估編碼(LPC)向量如下：E ₀=R(0) (8) (8-12)公式循環計算，得到迴歸係數最小平方估計值a _j， j=1,...,P,叫線性預估編碼(LPC)向量如下：再用下列公式將LPC向量轉換較穩定線性預估編碼倒頻譜(LPCC)向量a'_j，j=1,...,P, 一彈性框產生一線性預估編碼倒頻譜(LPCC)向量(a'₁,...,a'_P)；(d)一連續音以E個線性預估編碼倒頻譜(LPCC)向量表示特徵，用該E個線性預估編碼倒頻譜(LPCC)向量表示一連續音。
根據申請專利範圍第1項所述之一種不用樣本能辨認所有語言的辨認方法，其中步驟(5)更包含去計算未知連續音的分類模型，其步驟如下：(a)將未知連續音音波分成E等時段，每時段組成一彈性框，一未知連續音有E個等長彈性框，沒有濾波器，不重疊，自由伸縮含蓋全部音波信號點；(b)每個彈性框內，用一隨時間作線性變化的迴歸模式估計隨時間作非線性變化的音波；(c)用Durbin’s循環方式 E ₀=R(0) 計算迴歸係數最小平方估計值a _j,1 j P,叫線性預估編碼向量(LPC向量)；(d)再將LPC向量用公式轉換成穩定線性預估編碼倒頻譜(LPCC)向量a'_i,1 i P；(e)用E個線性預估編碼倒頻譜(LPCC)向量，E×P LPCC矩陣，作為該未知連續音的分類模型。
根據申請專利範圍第1項所述一種不用樣本能辨認所有語言的辨認方法，其步驟(7)更包含一貝氏演算法(Bayesian)辨認未知連續音，其步驟如下：(a)一未知連續音的特徵之分類模型，用一E×P LPCC矩陣X={X _jl}，j=1,...,E，l=1,...,P,表示：E×P個LPCC{X _jl}是E×P個獨立隨機變數，且有正常分配，當未知連續音和一已知連續音c _i，i=1,...,m,(m是所有已知連續音總數)比對時，則{X _jl}的平均數及變異數(μ _ijl,)用該已知連續音標準模型平均值及本變異數估計，那麼X的條件密度函數是 X={X _jl}是未知連續音的分類模型的線性預估編碼倒頻譜(LPCC)，但(μ _ijl,)可用已知連續音c _i標準模型內的平均數及變異數估計；(b)用貝氏分類法針對已知連續音特徵資料庫中找一已知連續音c _i最像此未知連續音X，一已知連續音c _i對未知連續音X相似度以下式中f(x|c _i)表示 (c)用對數化簡(b)中條件密度函數f(x|c _i)，並刪去不必計算的常數，得貝式距離，該距離計算如下 (d)對每一已知連續音c _i，i=1,...,m,計算(c)式中貝式距離l(c _i)值；(e)在特徵資料庫中，選擇一已知連續音c'_i，當該已知連續音c'_i它的貝式距離l()值是最小，判為該未知連續音。
根據申請專利範圍第1項所述之一種不用樣本能辨認所有語言的辨認方法，其步驟(8)更包含一未知句子或名稱切成D個未知連續音：(a)每單位時段計算相鄰二個信號點落差距離總和，和沒有音波信號點相鄰兩信號點距離總和，當前者小於後者則刪去該時段，該時段則是靜音或雜音，沒有語音訊號；(b)當靜音或雜音相鄰單位時段累積到比連續音內兩個音節之間長時，將該時段判斷為兩連續音分界線，切割該未知句子或名稱為D個未知連續音；(c)再將每個連續音除去靜音及雜音，使彈性框正常化，最小平方計算E×P線性預估編碼倒頻譜(LPCC)矩陣，代表一未知連續音，該句子或名稱使用D個線性預估編碼倒頻譜(LPCC)E×P矩陣表示。
根據申請專利範圍第1項所述之一種不用樣本能辨認所有語言的辨認方法，其步驟(9)更包含下列：(a)將使用者之未知句子或名稱切割成D個未知連續音後，每一未知連續音{X _jl}用貝式分類法，在特徵資料庫中，計算每個已知連續音c _i={μ _ijl,}和該未知連續音{X _jl}貝式距離l(c _i), 找最近的F個已知連續音，該F個已知連續音可同時包含多種語言，並用該F個已知相似連續音表示一未知連續音；(b)使D列F個已知相似連續音表示該未知句子或名稱。
根據申請專利範圍第1項所述之一種不用樣本能辨認所有語言的辨認方法，其步驟(10)更包含下列一句子及名稱辨認： (a)在句子及名稱資料庫中，挑選出D-1,D,D+1個已知連續音的比對句子和名稱；(b)當在該句子及名稱資料庫中，對挑選出的句子或名稱，當它的長度剛好和講話者的句子或名稱都有D個已知連續音時，那麼將D個每列F個相似已知連續音和被挑選的比對句子或名稱的D個已知連續音依順序比對，判斷F個相似已知連續音中是否存在被比對句子或名稱內的已知連續音，當每列F個相似已知連續音依次都包含比對句子或名稱內一已知連續音時，則表示比對句子或名稱全部有D個未知連續音，該比對句子或名稱辨認講話者的句子或名稱；(c)當句子及名稱資料庫中的比對句子或名稱有D個已知連續音時，當講話者的D個連續音沒有完全辨認時，或比對句子或名稱是D-1或D+1個已知連續音時，則使用3×F視窗篩選，該篩選包含用D×F矩陣相似已知連續音中前後三列相似已知連續音，比對句子及名稱資料庫中有D個或D±1個已知連續音的比對句子或名稱中每一已知連續音，在資料庫中選擇一機率最大的比對句子或名稱為講話者的句子或名稱，該機率值是以比對句子或名稱的已知連續音落在3×F視窗內的數目除以D。
根據申請專利範圍第1項所述之一種不用樣本能辨認所有語言的辨認方法，其步驟(11)更包含一修正連續音特徵： (a)當某句子或名稱辨認錯誤，在D個未知連續音中，有一或多個不在它們的F個相似已知連續音中，用c表示其中一未知連續音不在它的F個相似已知連續音中，用N個最相似的已知連續音，求N個連續音特徵{μ _ijl,},i=1,...,N,j=1,...,E,l=1,...,P，的平均值或依順序加權，,，使平均值{μ _jl,}代表該未知連續音c的新特徵；(b)在(a)項中，以測試者發音的線性預估編碼倒頻譜(LPCC)和N個最相似已知連續音的N個平均值求N+1個加權平均值為該未知連續音的新平均值，求N個最相似已知連續音的N個變異數的加權平均值為該未知連續音的新變異數，此新平均值及變異數E×P矩陣代表該未知連續音新的標準模型；(c)再測試該未知句子或名稱。