TWI258731B

TWI258731B - Chinese speech synthesis unit selection module and method

Info

Publication number: TWI258731B
Application number: TW093133634A
Authority: TW
Inventors: Tsung-Hsien Wu; Jiun-Fu Chen; Chi-Jiun Shia; Jhing-Fa Wang
Original assignee: Univ Nat Cheng Kung
Priority date: 2004-11-04
Filing date: 2004-11-04
Publication date: 2006-07-21
Also published as: TW200615904A; US20060095264A1; US7574360B2

Description

1258731 九、發明說明：【發明所屬之技術領域】本發明係有關於一種中文語音合成系統，更明確地說 ‘ 明，本發明是一種中文語音合成系統之單元挑選模組與單元 ^ 挑選方法。【先前技術】隨著電腦科技的蓬勃發展與資訊相關產業應用的急速增長，電腦科技的發展已從原本的運算能力導向轉變為以溝 · 通與訊息交換為主要研究目標；在這個過程當中，早期的研究大部分致力於如何提供最有用，最有價值的資訊，資訊檢索系統、網路搜尋引擎、資料探勘技術應運而生，然而資訊最終的目的是要提供給使用者，並且讓使用者可以透過最自然直接的方式，與電腦系統進行資訊交換，才能帶給使用者最大的效益，人類接受訊息的最自然方式即為語音，故此語音合成技術一直是人機溝通上重要的一環。 _ 先前技術依產生聲音波形的方式不同，字轉音系統 (Text-to-Speech，TTS System )可區分為 VOCODER ( voice coder-decoder )與語料串接式合成系統（Concatenative Synthesizer)兩大類型：前者使用發音模型將語音參數重新計算成語音波形，對於語音參數的調整範圍較廣，但合成的聲音品質較差；後者利用真人錄製的語音片段（合成單元）串接出目標語句波形，雖然對於聲音的調整性較差，但是有 5 1258731 較佳的合成音質。 VOCODER的起源較早，二十世紀中葉，H K Dunn，

George與Nodko等人分別提出以人類發音器官為模型的合成方法（Articulatory Synthesis ); Walter Laurence 與 Gunnar 長:出根據共振峰為參數的合成器（Formant Synthesizer); 到了 1968年，Itakura與Saito則是運用線性預測編碼技術，其出了 LPC合成器。但是此類方法所合成的語音音質通常較差，一九七零年代末期，開始有學者直接將固定語者的聲 _ 音片段（合成單元）串接，藉此生成音質更好的電腦合成語音，Fallside與Young在1978年提出限量詞彙的詞單元合成架構，同年Fujimura與Lovisn則是提出了以音節為單元的合成為、，除此之外以phone, di-ph〇ne，tri-phone等長度為合成單元的方法大量被發表；到了二十一世紀，學者們開始採用可變長度的單元挑選機制，其中Satoshi Takano提出的

Multiform Unit 與 Yi 所提出的 Variable-Length Unit 是較為修著名的代表。目前在此一方面的研究上，大都以中文音節為合成單元，再搭配各種的音韻訊息模組技術，於音段串接後，調整合成語音的韻律。然而’單以音節作為合成單元，明顯的無法保留住詞彙階層以上的音韻訊息，就算音韻模組的技術再如何成熟’乱號處理的技術右無法突破，此類方法的效果便 6 1258731 有限。發明内容】有鑒於先前技術住詞囊階心上的音作為合成單元無法有效保留汛心，本發明遂根據語言學及尹立風 :分析’採用機率式句法結構模擬人類構句的方式二二單元修正式可變長度單元挑選機制’以除去不合發音構句模式的本發明的主要目的係提供狂立 ^ τ 乂σσ曰分成系統之單疋挑選模組與單元挑選方、早代、方法，以避免不恰當的單元產生。本發明的另一目的係提供一上丨_ 但r又卩口 s合成系統之單疋挑選模組與單元挑撰古 &方法，在候選單元距離的計算上，開發出一隱含式語意索弓丨模铗、、且以估异母個候選單元的文構距離，進而整合前端二 " 文子則處理模組與後端語音生成模組。、本發明提供一種中文注立入… 曰δ成糸統之單元挑選模組，包含··一機率式句法結構剖析哭、一 σσ 一含式語意索引模組及一修正式可變長度單元挑選機、拽制，該機率式句法結構剖析器分析一輸入的任意中文文句，取仔该中文文句之可能的多個句法結構，並取其機率最莴去取可者做為該中文文句之最佳句法結構；而該隱含式語意索引模έ 俱、、且计异一語料庫中候選合成單元與目標單元之結構距離；谁而’透過修正式可變長度單元挑 1258731 選機制並搭配減程式規_算法，搜尋該中文文句之最佳的合成單元串接序列。本發明提供-種中文語音合成系統之單元挑選方法，包含以下步驟：剖析一中文文句之句法結構；建立該中文文句之句法結構的目標單元結構樹；從-聲音語料資料庫中，建立複數個候選單元結構樹; j於隱含式語意索引估算該目標單元結構樹與複數個候選單元結構樹之間的結構距離；以及利用動態程式規劃，搜尋出該中文文句之最佳的合成單疋串接序列。【實施方式】雖然本發明將參閱含有本發明較佳實施例之所附圖式予以充份描述，但在此描述之前應瞭解熟悉本行之人士可修改在本文中所描述之發明’同時獲致本發明之功效。因此，須瞭解以下之描述對熟悉本行技藝之人士而言為-廣泛之揭示，且其内容不在於限制本發明。 —二語料串接式的文字轉語音系統主要包含三個模組··文子刖處理杈組、單元挑選模組及語音生成模組，而本發明係關於單元挑選触與單元挑選方法。 $ 本發明首先根據人類構句與連音方式，利用機率式句法結構建構出文字相對應的語意結構樹，並根據結構上的 1258731 階層，設計一修正式可變長度單元挑選機制，再依據語意結構上的不同，利用一隱含式語意索引方法計算出最佳的合成單元的序列。修正式可變長度單元挑選機制好的語料串接式語音合成系統，除了要有較高的合成音質之外，也要能合成具有抑揚頓挫的句子，這兩項結果主要決定於合成單元挑選。從一個大量的語料庫中挑選出合適的合成單元已經被證明確實有助於提升合成系統的品質，而合成單元的型態包括音素（Phoneme )、雙音（Diphone )、半音節（Demi-Syllable)、音節（Syllable)、不定長度的單元 (Non-Uniform Unit)等。就中文而言，如果能找到較長詞來當合成單元，絕對會是一個比較好的選擇，因為這樣的合成單元内，已經包含了本身的音韻，因此在串接的自然度上有一定的效果提升。過去，可變長度單元的挑選機制主要是以詞為基礎。對於每一個可能出現的詞或是音節，去搜尋所有可能的組合方式，找出一組最佳的詞序列。例如：中國人是一種聰明的民族，就這個句子而言，所可能衍生出來的可能組合性有很多：中國人是聰明的民族中國人是聰明的民族中國人是聰明的民族中國人是聰明的民族 1258731 中國人的民族 Ν. α夕的、、且3疋不符合中文音韻的組合，例如「的爲赛」「占嫌游 ’、」’而且若要搜尋所有可能的組合，所要耗費的時間跟空間複雜度太龐大。本毛明早7L挑選模組包含一新的可變長度單元挑選機 i b 丫>正式可變長度單元挑選之流程圖如第一圖所示。本七明修正式可變長度單元挑選機制主要考慮到模擬人類 _句的方4根據巾文發音的音韻與斷句，可輯到合適的 α成早7L ’由於人類構句的方式，是先將單音節（训aMe) 組合成詞（w。⑷，再將多個詞組合成長詞或專有名詞，進一步組合成片語、句子，根據這樣的想法，將不適合的組合性去除，並以不同階層上，詞的組合方式，進行階層式的單元挑選。本發明單元挑選模組利用一機率式句法結構剖析器 (Syntactic Parser) ’將輸人的t文文句轉換成—個階層式树狀语意結構，該樹上的每_個終端節點，代表一個詞，而每一個非終端節闕表示了-種可能的㈣組合。這樣的做法有幾種優點：可移除不適當的長詞組合；利用樹狀結構，挑選出適合的合成單元；可根據語意結構，量測單元間的語意失真度。第一圖卜員示中文句法結構樹範例的示意圖。該第二圖 1258731 t上半σ[5為中文句「觀光旅遊是墾丁地區的主要收入」所對應的階層式樹狀語意結構，下半部則表示所有可能的合成單元序列。中文文法機率掇刑本發明利用機率式句法結構（Pr〇babiHstic c〇mext⑽ G職贿，PCFG)來對中文文句進行剖析。所謂的機率式句法結構是由句法結構（CFG，c〇ntext Free Gra_r)衍生而來’機率式句法結構是-種隨機語言模型（⑽，細咖心 Language Models )，係以機率的觀點來看語言模型，而8讀的主要目的之-，是根據過去的統計資料提供足夠的機率資訊，應用在文㈣析上能提供正確性較高㈣法結果。藉由賦予句法結構CFG的規則機率，使得機率式句法結構能夠更正確的模擬口述語言，使語意混淆度降低。給定-個文法G，從起始符號乂㈣，產生一串詞序列的機率值為：

p{s^>Wxj\G y J (式 i) 其中，箭號二表示衍生的意思、，而箭號上方的星號*則表示所有衍生的路徑。這項機率值是由所有合法的衍也規則組合而成，每條規則的機率則是預先由訓練語料令估算求得。假没有一條規則是j — α，則此規則的機率求法為· 11 1258731 丨(式 2) /=ι 其中’ c()代表的是每條規則出現的次數，m表示α,的所 a 有可能性’或說所有由j衍生出來的規則個數。在本發明的一種實施例中，本發明系統採用中研院詞庫小組所定義的Tree-Bank文法規則以及相對應的機率為 pCFG模組的原始模型，擷取一部分内容如第三圖所示，左邊攔位是文法規則，右邊攔位是詞庫小組根據所收集的語料 _ 训練出來的機率值，例如文法規則Naa—Naa+Caa+Naa表示由非終端項（non-terminal term) Naa分成三個非終端項的組合 Naa+Caa+Naa 的機率為 0.17543860。在此導入Chomsky Normal Form，目的是簡化說明pcFG 模組以及本發明提出的文法結構距離估算。假設每個非終端項只能分為兩個非終端項的組合γ —ία或是一個終端項 (terminal term) ，且其所有可能性的機率和為i : _ Σ中〆Λ丨句+ Σ丨+1 …、 μ / 3) 因此根據這套文法規則G，從起始符號#。開始，推衍產生一串詞序列^^。〜'…，的機率值為： f * \

尸 …wr | G

V - J =Σ卜!^ ‘uu A (式 4)

i. \ \ / V 12 1258731 /心圖所顿率式句法結構之4_彳做說明，式 :的弟-項指的是第四圖中黑色的部分，也就是一個非 :广'推出一個詞序列〜"的機率值。第二項指的二广號"。推出詞他=且 ^㈣以“的機率值。因&’_個句子（詞序列）〇^唬Μ何生而來的機率可表示成這兩項的乘積’再將所有的《加完。 I·内部機率（InsidePr〇babiiity)

P 稱之為内部機率（Inside

Probability ) ^ ^ λα a y 又、疋一個非終端項％被推成詞序列 111"的機率值，將此機率值表示為Α(叫十以第五圖所示内部機率示意圖來說明此式的計算方法，根據chomsky N_alFGnn的表示式，—個非終端項只能被分為兩個非終端項的組合，以遞迴的寫法表示成： p卜々(叫G) (式5) = ^NjNk^G)^J^d^G)^k{d + \,n\G) 在本發明中，取分數最高的一棵樹作為該句的語意結構’因此將式5改寫’在所有可以建出一棵樹狀結構的可能中，挑選出分數最高的當作輸出的機率值，如下表示： 13 1258731

4 (m，…G)=尸G 丨 Nk\G) 、 max m<a<n ( max Λ f max Λ ,, xP^N^W^ I GjP^Nk^>Wd+ln I Gj (式 6) =(p (w # AI 句久(/m k?) A β+u I g)) II·外部機率（Outside Probability) 式4中的/>^)^^_1%^〇|，稱為外部機率（〇11以心 Probability )，代表的是由起始符號％推出詞序列 I-, =H"-,與r"+lr = 〜.·，，且兩詞序列中夹著％的機率值，表示為'(WVJ|G)，以第六圖所示外部機率示意圖來做說明。由於非終端項％可能位於上一層非終端項乂推導出的規則中的左項或右項。因此根據圖示，可以將式子寫為所有可能的規則與詞斷點的機率和。

P =Σ N〇 ^ Wx^NJWn^J I G j = aj {mM G) 户(A^A^VJG) xp{Ν^υηΑΝ^τ Ig)p(Nk^>Wn. v / v p、K—NkNj\G、 d=n+\ xP\ 孟(令，一％乂丨 Gh ΜI G)) m-y (式7) 14 1258731 具有最高機率的樹狀結構則由式8估算： P(^t -> I 〇)ά( {m,d\ G) A (« + 1^1 G)\ -> NkN; \G)pk(d,m-\\ G) ά; (d, n \ G)) :max J\k

max n+\^dST (式8) HI·單元内部機率（Unit Joint Inside Probability ) 由於本發明採用不固定長度的單元挑選機制，系統選用的候選合成單元不是音節而是詞序列，所以對於内部機率的剖析’須考慮所要的合成單元，此單元在剖析的過程中，不忐再ί色Jlf〗。因此，需要求出一個由非終端項γ推導出詞序列且包含詞序列（合成單元）☆的共同機率值，因此必須求得，以第七圖所示單元内部機率示意圖來說明：

P Σ Lk

NiI=>Wm,n^\G ^7i{m^w\G) ， /^{N^NjN^G) Yj{m,d,w \ G)^(J + l,n| G)S^m,d,、^fij(m,d\G)rk(d^ln,w\G)S(d^ln,w) 1, ifw is a substring of ^ otherwise ri—i<Σ d-m (式9) (式 10) 之：同樣的，最高分樹的樹狀結構以下式估算 15 1258731 ’/ (Ά vD | (J) = 3 ϋ max j,k m<：d<n P(Nt^ NjN, \G)Yj{m^^\G)Pk{d^n\G)S{m, d, w), P(^Ni NjNk I (m^d\ G)yk {d + \,n,w\G)S {^d + (式 11) 在合成單元失真度的定義上，包括兩大部分··音節失真度（substitution cost)與音節間失真度（concatenati〇n c〇st)。 ❿ 本發明設計了一估算文法結構距離的方法，如第八圖所示，根據機率式文法結構所產生出的語法樹，藉由隱含式語意索引’計算單元在不同語意結構上的差距。 I·文法結構樹向量化將所有的文字語料轉換成規則向量，儲存在一個維度為及β的文法結構資訊矩陣其十及代表整個PCFG模型^ 中文法規則的個數，2代表語料庫_句子的個

矩陣中每個元素（代表著第r條規則在第一句子以所估的重要性。因此’本發明中^義（的估計法如下·/ 心+神期r， , \A 13) 構㈣重’Γ右側第二項代表的衫條規則佔該句語法結構的比重，该項可以寫為： 16 1258731 P、Ruler:N3NNk,w'Tjv\G、= ^ lC[Na—NbNc，WlT^)(式 14) 第項是用來度置该條規則在語料中的鐘別性是否足夠，當作矩陣令該元素的權重’利用量度文字亂度 (Entropy)的方法’量度某條規則在該語料令是否具有鑑別性：八 ^ l°sQ^ 其中 tic(N^N^wS) (式 15) 表示語料庫中第《個句子，&表示該

的長度’而ch ivA，啤)則表示文法規則¥出現在第 9個句子的次數。 H·中文文法結構距離士由於語意樹結構矩陣十分的魔大，在計算上也非常耗時’本發明導入資訊檢索上的隱含式語意索引技術⑽，

Latent Semarmc lndexing )，不僅可以找出規則間的隱含關係，更可達至大幅降低向量維度的目標，隱含式語意索引是由奇異值分解後，由藉此決定所需的維度到教低維度且較有鍍則與語意樹的關係，奇異值矩陣上決定要保留的變異比例，，再將所有的向量透過轉換矩陣，投射別能力的空間上，且可以有效保留住規以第九圖所示奇異值分解示意圖：數值運算如下戶斤示本發明保留98%的變異量： 17 1258731 Φ

RxO Φ

RxQ <^1,1 Φ\,2 ΦΐΑ Φια ^2,0 ：^Rxn^nxn (®〇x« ) (式 16) Σλ :(D〇x^ ) whe^ d < η, d = min > 98% (式 17) /=1 經過可兴值分解後，以TRxi/矩陣，將兩個句子的文法結構向量投射到較低維度的向量空間做比對，假設要合成的目標語句是X，而包含的所需的合成單元Λ的候選語句為y，則利用上述方法，定義文法結構距離··

SyntacticCost{x^, y ^ )= log (式 18) 器的處在本發明的-種實施例中一種中文電腦語音合成系統包含本發明所提的單元挑選模組與單元挑選方法，如第十圖所不之系統架構圖。該中文電腦語音合成系統包含:文字前處理模組i、單元挑選模組2、語音輸出模組3以及一聲I 語料資料庫4與語料前處理模組，其中單元挑選模組2 = =含—機率式句法結構剖析器、—隱含式語意”模組、一 ,式可交長度早7L挑選機制及一語料串接式中文狂立生成模誕’輸人的巾文文句經由機率式句法結構剖析°。曰 18 1258731 理，建立所對應的句法結構，再運用本發明所提之隱含式語意索引機制，配合一組大量的聲音語料資料庫4及一套語音自動單元切割模組5，實現一修正式可變長度單元挑選及基於隱含式語意結構距離估算之中文電腦語音合成系統。為評估本發明系統之效能，本發明的發展平台乃建置於 Pentium-Ill 2GHz 値尺電腦、512MB RAM、Windows 2000 作業系統之環境，系統開發工具為M/cro川/i C+ + (5.0。本發明採用之語音資料庫為一組具所有中文音節，且涵蓋大量常用詞彙之4212句中文句及相對應之聲音音檔或語音對應之平行語料，約為7.21個小時，包含的總詞彙量為68392個中文詞，平均每個音節出現51.79次（中文共有 1342個包含四聲調的音節），係由一位女性錄音員所錄製，取樣頻率為22.05kHz，解析度16bits。該語音資料庫須先經過自動切音模組，自動標記出每個音節的段點位置，本發明採用之自動切音模組是以隱藏式馬可夫模型為基礎。 (1) 合成語音之自然度評估實驗本發明採用平均鑑定分數（Mean Opinion Scores，MOS ) 作為評估之標準，此評估方式將合成語音輸出的自然度分為優良（Excellent )，良好（Good )，尚可（Fair)，差（Poor ) 與極差（Unsatisfactory)五個等級，分別給予5至1不等的分數。測試人員在聽過合成的語音後，以所感覺到的自然度 19 1258731 表現度評分。測a式疋由合成系統根據基本合成單元長度與語意失真度的使用與否’合成同樣的中文句，做對照實驗。合成十個句子，由10位測試人員（8位男性，2位女性），跨聽並根據自己所感受的語音自然度打分數，以所有人的平均分數作為評估表準。此實驗中，比較三套系統（A)、（B)、（c)，在合成語音自然度上的差異。 (A) 系統是利用單一音節為合成單元之合成系統 (B) 系統以修正式可變長度單元為基礎，但沒有加入語意失真度估算 (C )系統為本發明系統。由第十一圖所示結果可瞭解，利用本發明所提出的方法進行單元的挑選，在自然度的表現上，相較於利用單音節的方式，所合成的語音，有相當大改進，在挑選過失真度上，若加入語意失真度，會使的挑選出的語句，在中文音韻上，更符合目標句所要表達的。 (2)合成邊音之可理解度評估實驗本實驗的目的，是利用實驗中提出的方法所合成的語音，在可理解度上，是否達到實用的階段，並做相關比較。實驗人員部分，選擇十位大學及研究生（8為男性，2位女 1258731 性），要求党測者，將所聽到的_文結果，以聽出來，計算與原始文字的異同 $工·，’、用上述所提到的(A)、（b)h 確率。同樣的’ …（B)及本發明系統（c Γ實Γ對於每㈣統，各產生十個句子，讓0者聽寫’ 貝馱範例句如第十二圖所示。 * 由第十三圖所示可以看出，雖然三套系統，平均都有不錯的理解度：（A彳Μ 0/ … ()83%’ (B)89.5%’ (C)96.5%，但疋本系統之方法，仍較—般可變單元長度之方法高。這社果顯示’本發明在可理解度以及實用性上是足夠的。根據本發明單元挑選模組與方法所實施的令文語音人成系統，在合成單元挑選的問題上，係根射文構句與ϋ 特性，提出—基於機率式句法結構之可變長度單元挑選機制，不僅大幅減少^的搜尋時間，更避開了所有不合於中文構句原則的單L·在句法結構的建立上，採用機率式句法結構’《多料能結構當η料估算时心挑選出最符合h文㈣結構樹；在㈣單元距離料算問題中，進一步提出應用隱含式語意“模組以估算文法結構距離。综觀上述，本發明所提之模組與方法相當適用於語料串接式語音合成系統的應用，可變長度單S的挑選，保留了詞彙階層以上的音韻訊息，此點乃現階段以音節為合成單元的系統所嚴重不足的；另外隱含式語意結構距離，以文法規則 21 I25873i =為向量基底，用以估算兩句法結構間的文法差異。整合本發明所提之模組與方法’除可具體實驗—套中文語音合成系統’亦可整合㈣人機對話“，以提供人與電腦更便利有效的溝通環境在詳細說明本發明的較佳實施例之後，熟悉該項技術人士可清楚_解’在㈣離下述中請專利脑與精神下可進行各種變化與改變’亦不受限於說明書之實施例的實施方

22 1258731 【圖式簡單說明】第-圖為本發明修正式可變長度單元挑選之流程圖。第一圖為+文句法結構樹範例的示意圖。第三圖為中研院詞庫小組所定義的Tree-Bank文法規則以及相對應的機率的一部分内容。第四圖為本發明機率式句法結構之示意圖。第五圖為本發明内部機率示意圖。第六圖為本發明外部機率示意圖。第七圖為本發明單元内部機率示意圖。第八圖為本發明基於隱含是語意索引之文法結構距離估算流程圖。第九圖為本發明奇異值分解示意圖。第十圖為本發明中文電腦語音合成系統之系統架構圖。第十一圖為本發明系統與其他系統之自然度實驗結果直方圖。弟十二圖為合成語音之可理解度評估實驗之聽寫範例句〇第十二圖為本發明系統與其他系統之可理解度實驗妗果直方圖。【主要元件符號說明】 6 文字前處理模組 7 單元挑選模組 23 1258731 8 語音輸出模組 9 聲音語料資料庫 10 語音自動單元切割模組

24

Claims

1258731 丨^ 十、申請專利^涵Γ 1.一種中文語音合成系統，包含：—文字前處理㈣、一單凡挑選模組、一語音生成模組及一語料資料庫，其特徵在於· π前述單元挑選模、組，包含：一機率式句法結構剖析 n 悬含式語意索W模組及一修正式可變長度 =文該㈣式句法結構騎器分析—中文文句，以取得模組估ί==標單元;而該隱含式語意索引結構距離；前^正^^選合成單元與目標單元之式規劃，搜尋出”元挑選機制搭配動態程 2如申W 文句之最佳的合成單元串接序列。專利範㈣1項所述之中文語音合成純，其中前 :文子前處理模組包含:文字輸入處理與文字格式前處相範㈣1項所述之巾文語音合《統，其中前量詞彙中文句及相對應之聲音音播: 述語中文語音合成系統，其中前平行語料。 β菜_文句及中文句語音對應之 5·如包申含請=圍第，述之中文語音合成系統，進一步庫之中文動早4割模组，自動標記出該語料資料庫之中文句中母個音節的段點位置。 t 專=圍第1項所述之中文語音合成系統，其中前單元之結構樹與目標單元之結:广4庫之候-合成述4文語音合成系統，其中前 ^ 。丨杈組將候選合成單元之結構樹與目標 25 1258731 單元之結構樹向量化，以估算兩者間結構距離。 8.如申請專利範圍第1項所述之中文語音合成系統，其中前述語音生成模組產生該最佳的合成單元串接序列的語音。

26