TWI258731B - Chinese speech synthesis unit selection module and method - Google Patents
Chinese speech synthesis unit selection module and method Download PDFInfo
- Publication number
- TWI258731B TWI258731B TW093133634A TW93133634A TWI258731B TW I258731 B TWI258731 B TW I258731B TW 093133634 A TW093133634 A TW 093133634A TW 93133634 A TW93133634 A TW 93133634A TW I258731 B TWI258731 B TW I258731B
- Authority
- TW
- Taiwan
- Prior art keywords
- chinese
- unit
- module
- speech
- sentence
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 44
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims description 27
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 10
- 230000002194 synthesizing effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000010187 selection method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
1258731 九、發明說明: 【發明所屬之技術領域】 本發明係有關於一種中文語音合成系統,更明確地說 ‘ 明,本發明是一種中文語音合成系統之單元挑選模組與單元 ^ 挑選方法。 【先前技術】 隨著電腦科技的蓬勃發展與資訊相關產業應用的急速 增長,電腦科技的發展已從原本的運算能力導向轉變為以溝 · 通與訊息交換為主要研究目標;在這個過程當中,早期的研 究大部分致力於如何提供最有用,最有價值的資訊,資訊檢 索系統、網路搜尋引擎、資料探勘技術應運而生,然而資訊 最終的目的是要提供給使用者,並且讓使用者可以透過最自 然直接的方式,與電腦系統進行資訊交換,才能帶給使用者 最大的效益,人類接受訊息的最自然方式即為語音,故此語 音合成技術一直是人機溝通上重要的一環。 _ 先前技術依產生聲音波形的方式不同,字轉音系統 (Text-to-Speech,TTS System )可區分為 VOCODER ( voice coder-decoder )與語料串接式合成系統(Concatenative Synthesizer)兩大類型:前者使用發音模型將語音參數重新 計算成語音波形,對於語音參數的調整範圍較廣,但合成的 聲音品質較差;後者利用真人錄製的語音片段(合成單元) 串接出目標語句波形,雖然對於聲音的調整性較差,但是有 5 1258731 較佳的合成音質。 VOCODER的起源較早,二十世紀中葉,H K Dunn,
George與Nodko等人分別提出以人類發音器官為模型的合 成方法(Articulatory Synthesis ); Walter Laurence 與 Gunnar 長:出根據共振峰為參數的合成器(Formant Synthesizer); 到了 1968年,Itakura與Saito則是運用線性預測編碼技術, 其出了 LPC合成器。但是此類方法所合成的語音音質通常 較差,一九七零年代末期,開始有學者直接將固定語者的聲 _ 音片段(合成單元)串接,藉此生成音質更好的電腦合成語 音,Fallside與Young在1978年提出限量詞彙的詞單元合成 架構,同年Fujimura與Lovisn則是提出了以音節為單元的 合成為、,除此之外以phone, di-ph〇ne,tri-phone等長度為合 成單元的方法大量被發表;到了二十一世紀,學者們開始採 用可變長度的單元挑選機制,其中Satoshi Takano提出的
Multiform Unit 與 Yi 所提出的 Variable-Length Unit 是較為 修 著名的代表。 目前在此一方面的研究上,大都以中文音節為合成單 元,再搭配各種的音韻訊息模組技術,於音段串接後,調整 合成語音的韻律。然而’單以音節作為合成單元,明顯的無 法保留住詞彙階層以上的音韻訊息,就算音韻模組的技術再 如何成熟’乱號處理的技術右無法突破,此類方法的效果便 6 1258731 有限。 發明内容】 有鑒於先前技術 住詞囊階心上的音作為合成單元無法有效保留 汛心,本發明遂根據語言學及尹立風 :分析’採用機率式句法結構模擬人類構句的方式二二 單元 修正式可變長度單元挑選機制’以除去不合發音構句模式的 本發明的主要目的係提供狂立 ^ τ 乂σσ曰分成系統之單 疋挑選模組與單元挑選方 、 早 代、方法,以避免不恰當的單元產生。 本發明的另一目的係提供 一上丨_ 但r又卩口 s合成系統之單 疋挑選模組與單元挑撰古 &方法,在候選單元距離的計算上,開 發出一隱含式語意索弓丨模 铗、、且以估异母個候選單元的文 構距離,進而整合前端二 " 文子則處理模組與後端語音生成模 組。 、 本發明提供一種中文注立入… 曰δ成糸統之單元挑選模組,包 含··一機率式句法結構剖析哭、一 σσ 一含式語意索引模組及一 修正式可變長度單元挑選機 、拽制,該機率式句法結構剖析器分 析一輸入的任意中文文句, 取仔该中文文句之可能的多個 句法結構,並取其機率最莴去 取可者做為該中文文句之最佳句法結 構;而該隱含式語意索引模έ 俱、、且计异一語料庫中候選合成單元 與目標單元之結構距離;谁 而’透過修正式可變長度單元挑 1258731 選機制並搭配減程式規_算法,搜尋該中文文句之最佳 的合成單元串接序列。 本發明提供-種中文語音合成系統之單元挑選方法,包 含以下步驟: 剖析一中文文句之句法結構; 建立該中文文句之句法結構的目標單元結構樹; 從-聲音語料資料庫中,建立複數個候選單元結構樹; j於隱含式語意索引估算該目標單元結構樹與複數個 候選單元結構樹之間的結構距離;以及 利用動態程式規劃,搜尋出該中文文句之最佳的合成單 疋串接序列。 【實施方式】 雖然本發明將參閱含有本發明較佳實施例之所附圖式 予以充份描述,但在此描述之前應瞭解熟悉本行之人士可修 改在本文中所描述之發明’同時獲致本發明之功效。因此, 須瞭解以下之描述對熟悉本行技藝之人士而言為-廣泛之 揭示,且其内容不在於限制本發明。 —二語料串接式的文字轉語音系統主要包含三個模組··文 子刖處理杈組、單元挑選模組及語音生成模組,而本發明 係關於單元挑選触與單元挑選方法。 $ 本發明首先根據人類構句與連音方式,利用機率式句 法結構建構出文字相對應的語意結構樹,並根據結構上的 1258731 階層,設計一修正式可變長度單元挑選機制,再依據語意 結構上的不同,利用一隱含式語意索引方法計算出最佳的 合成單元的序列。 修正式可變長度單元挑選機制 好的語料串接式語音合成系統,除了要有較高的合成音 質之外,也要能合成具有抑揚頓挫的句子,這兩項結果主要 決定於合成單元挑選。從一個大量的語料庫中挑選出合適的 合成單元已經被證明確實有助於提升合成系統的品質,而合 成單元的型態包括音素(Phoneme )、雙音(Diphone )、半 音節(Demi-Syllable)、音節(Syllable)、不定長度的單元 (Non-Uniform Unit)等。就中文而言,如果能找到較長詞來 當合成單元,絕對會是一個比較好的選擇,因為這樣的合成 單元内,已經包含了本身的音韻,因此在串接的自然度上有 一定的效果提升。過去,可變長度單元的挑選機制主要是以 詞為基礎。對於每一個可能出現的詞或是音節,去搜尋所有 可能的組合方式,找出一組最佳的詞序列。例如:中國人是 一種聰明的民族,就這個句子而言,所可能衍生出來的可能 組合性有很多: 中國人是 聰明的民族 中國人是 聰明的民族 中國人是聰明的民族 中國人是聰明的 民族 1258731 中國人的民族 Ν. α夕的、、且3疋不符合中文音韻的組合,例 如「的爲赛」「占嫌游 ’、」’而且若要搜尋所有可能的組合, 所要耗費的時間跟空間複雜度太龐大。 本毛明早7L挑選模組包含一新的可變長度單元挑選機 i b 丫>正式可變長度單元挑選之流程圖如第一圖所示。 本七明修正式可變長度單元挑選機制主要考慮到模擬人類 _句的方4根據巾文發音的音韻與斷句,可輯到合適的 α成早7L ’由於人類構句的方式,是先將單音節(训aMe) 組合成詞(w。⑷,再將多個詞組合成長詞或專有名詞,進 一步組合成片語、句子,根據這樣的想法,將不適合的組合 性去除,並以不同階層上,詞的組合方式,進行階層式的單 元挑選。 本發明單元挑選模組利用一機率式句法結構剖析器 (Syntactic Parser) ’將輸人的t文文句轉換成—個階層式 树狀语意結構,該樹上的每_個終端節點,代表一個詞,而 每一個非終端節闕表示了-種可能的㈣組合。這樣的做 法有幾種優點:可移除不適當的長詞組合;利用樹狀結構, 挑選出適合的合成單元;可根據語意結構,量測單元間的語 意失真度。 第一圖卜員示中文句法結構樹範例的示意圖。該第二圖 1258731 t上半σ[5為中文句「觀光旅遊是墾丁地區的主要收入」所 對應的階層式樹狀語意結構,下半部則表示所有可能的合成 單元序列。 中文文法機率掇刑 本發明利用機率式句法結構(Pr〇babiHstic c〇mext⑽ G職贿,PCFG)來對中文文句進行剖析。所謂的機率式句 法結構是由句法結構(CFG,c〇ntext Free Gra_r)衍生而 來’機率式句法結構是-種隨機語言模型(⑽,細咖心 Language Models ),係以機率的觀點來看語言模型,而8讀 的主要目的之-,是根據過去的統計資料提供足夠的機率資 訊,應用在文㈣析上能提供正確性較高㈣法結果。藉由 賦予句法結構CFG的規則機率,使得機率式句法結構能夠 更正確的模擬口述語言,使語意混淆度降低。 給定-個文法G,從起始符號乂㈣,產生一串詞序列 的機率值為:
p{s^>Wxj\G y J (式 i) 其中,箭號二表示衍生的意思、,而箭號上方的星號*則 表示所有衍生的路徑。這項機率值是由所有合法的衍也規則 組合而成,每條規則的機率則是預先由訓練語料令估算求 得。假没有一條規則是j — α,則此規則的機率求法為· 11 1258731 丨(式 2) /=ι 其中’ c()代表的是每條規則出現的次數,m表示α,的所 a 有可能性’或說所有由j衍生出來的規則個數。 在本發明的一種實施例中,本發明系統採用中研院詞庫 小組所定義的Tree-Bank文法規則以及相對應的機率為 pCFG模組的原始模型,擷取一部分内容如第三圖所示,左 邊攔位是文法規則,右邊攔位是詞庫小組根據所收集的語料 _ 训練出來的機率值,例如文法規則Naa—Naa+Caa+Naa表示 由非終端項(non-terminal term) Naa分成三個非終端項的 組合 Naa+Caa+Naa 的機率為 0.17543860。 在此導入Chomsky Normal Form,目的是簡化說明pcFG 模組以及本發明提出的文法結構距離估算。假設每個非終端 項只能分為兩個非終端項的組合γ —ία或是一個終端項 (terminal term) ,且其所有可能性的機率和為i : _ Σ中〆Λ丨句+ Σ丨+1 …、 μ / 3) 因此根據這套文法規則G,從起始符號#。開始,推衍產 生一串詞序列^^。〜'…,的機率值為: f * \
尸 …wr | G
V - J =Σ卜!^ ‘uu A (式 4)
i. \ \ / V 12 1258731 /心圖所顿率式句法結構之4_彳做說明,式 :的弟-項指的是第四圖中黑色的部分,也就是一個非 :广'推出一個詞序列〜"的機率值。第二項指的 二广號"。推出詞他=且 ^㈣以“的機率值。因&’_個句子(詞序列) 〇^唬Μ何生而來的機率可表示成這兩 項的乘積’再將所有的《加完。 I·内部機率(InsidePr〇babiiity)
P 稱之為内部機率(Inside
Probability ) ^ ^ λα a y 又、疋一個非終端項%被推成詞序列 111"的機率值,將此機率值表示為Α(叫十以第五圖 所示内部機率示意圖來說明此式的計算方法,根據chomsky N_alFGnn的表示式,—個非終端項只能被分為兩個非終 端項的組合,以遞迴的寫法表示成: p卜々(叫G) (式5) = ^NjNk^G)^J^d^G)^k{d + \,n\G) 在本發明中,取分數最高的一棵樹作為該句的語意結 構’因此將式5改寫’在所有可以建出一棵樹狀結構的可 能中,挑選出分數最高的當作輸出的機率值,如下表示: 13 1258731
4 (m,…G)=尸G 丨 Nk\G) 、 max m<a<n ( max Λ f max Λ ,, xP^N^W^ I GjP^Nk^>Wd+ln I Gj (式 6) =(p (w # AI 句久(/m k?) A β+u I g)) II·外部機率(Outside Probability) 式4中的/>^)^^_1%^〇|,稱為外部機率(〇11以心 Probability ),代表的是由起始符號%推出詞序列 I-, =H"-,與r"+lr = 〜.·,,且兩詞序列中夹著%的機率 值,表示為'(WVJ|G),以第六圖所示外部機率示意圖來做說 明。由於非終端項%可能位於上一層非終端項乂推導出的規 則中的左項或右項。因此根據圖示,可以將式子寫為所有可 能的規則與詞斷點的機率和。
P =Σ N〇 ^ Wx^NJWn^J I G j = aj {mM G) 户(A^A^VJG) xp{Ν^υηΑΝ^τ Ig)p(Nk^>Wn. v / v p、K—NkNj\G、 d=n+\ xP\ 孟(令,一 %乂丨 Gh ΜI G)) m-y (式7) 14 1258731 具有最高機率的樹狀結構則由式8估算: P(^t -> I 〇)ά( {m,d\ G) A (« + 1^1 G)\ -> NkN; \G)pk(d,m-\\ G) ά; (d, n \ G)) :max J\k
max n+\^dST (式8) HI·單元内部機率(Unit Joint Inside Probability ) 由於本發明採用不固定長度的單元挑選機制,系統選用 的候選合成單元不是音節而是詞序列,所以對於内部機率的 剖析’須考慮所要的合成單元,此單元在剖析的過程中,不 忐再ί色Jlf〗。因此,需要求出一個由非終端項γ推導出詞序 列且包含詞序列(合成單元)☆的共同機率值, 因此必須求得,以第七圖所示單元内部機率示 意圖來說明:
P Σ Lk
NiI=>Wm,n^\G ^7i{m^w\G) , /^{N^NjN^G) Yj{m,d,w \ G)^(J + l,n| G)S^m,d,、^fij(m,d\G)rk(d^ln,w\G)S(d^ln,w) 1, ifw is a substring of ^ otherwise ri—i<Σ d-m (式9) (式 10) 之: 同樣的,最高分樹的樹狀結構以下式估算 15 1258731 ’/ (Ά vD | (J) = 3 ϋ max j,k m<:d<n P(Nt^ NjN, \G)Yj{m^^\G)Pk{d^n\G)S{m, d, w), P(^Ni NjNk I (m^d\ G)yk {d + \,n,w\G)S {^d + (式 11) 在合成單元失真度的定義上,包括兩大部分··音節失真 度(substitution cost)與音節間失真度(concatenati〇n c〇st)。 ❿ 本發明設計了 一估算文法結構距離的方法,如第八圖所示, 根據機率式文法結構所產生出的語法樹,藉由隱含式語意索 引’計算單元在不同語意結構上的差距。 I·文法結構樹向量化 將所有的文字語料轉換成規則向量,儲存在一個維度為 及β的文法結構資訊矩陣其十及代表整個PCFG模型^ 中文法規則的個數,2代表語料庫_句子的個
矩陣中每個元素(代表著第r條規則在第一句子以 所估的重要性。因此’本發明中^義(的估計法如下·/ 心+神期r, , \A 13) 構㈣重’Γ右側第二項代表的衫條規則佔該句語法結 構的比重,该項可以寫為: 16 1258731 P、Ruler:N3NNk,w'Tjv\G、= ^ lC[Na—NbNc,WlT^)(式 14) 第項是用來度置该條規則在語料中的鐘別性是否 足夠,當作矩陣令該元素的權重’利用量度文字亂度 (Entropy)的方法’量度某條規則在該語料令是否具有鑑 別性: 八 ^ l°sQ^ 其中 tic(N^N^wS) (式 15) 表示語料庫中第《個句子,&表示該
的長度’而ch ivA,啤)則表示文法規則¥出現在第 9個句子的次數。 H·中文文法結構距離 士由於語意樹結構矩陣十分的魔大,在計算上也非常耗 時’本發明導入資訊檢索上的隱含式語意索引技術⑽,
Latent Semarmc lndexing ),不僅可以找出規則間的隱含關 係,更可達至大幅降低向量維度的目標,隱含式語意索引是 由奇異值分解後,由 藉此決定所需的維度 到教低維度且較有鍍 則與語意樹的關係, 奇異值矩陣上決定要保留的變異比例, ,再將所有的向量透過轉換矩陣,投射 別能力的空間上,且可以有效保留住規 以第九圖所示奇異值分解示意圖: 數值運算如下戶斤示 本發明保留98%的變異量: 17 1258731 Φ
RxO Φ
RxQ <^1,1 Φ\,2 ΦΐΑ Φια ^2,0 :^Rxn^nxn (®〇x« ) (式 16) Σλ :(D〇x^ ) whe^ d < η, d = min > 98% (式 17) /=1 經過可兴值分解後,以TRxi/矩陣,將兩個句子的文法結 構向量投射到較低維度的向量空間做比對,假設要合成的目 標語句是X,而包含的所需的合成單元Λ的候選語句為y,則 利用上述方法,定義文法結構距離··
SyntacticCost{x^, y ^ )= log (式 18) 器的處 在本發明的-種實施例中一種中文電腦語音合成系統 包含本發明所提的單元挑選模組與單元挑選方法,如第十圖 所不之系統架構圖。該中文電腦語音合成系統包含:文字前 處理模組i、單元挑選模組2、語音輸出模組3以及一聲I 語料資料庫4與語料前處理模組,其中單元挑選模組2 = =含—機率式句法結構剖析器、—隱含式語意”模組、一 ,式可交長度早7L挑選機制及一語料串接式中文狂立生 成模誕’輸人的巾文文句經由機率式句法結構剖析°。曰 18 1258731 理,建立所對應的句法結構,再運用本發明所提之隱含式語 意索引機制,配合一組大量的聲音語料資料庫4及一套語音 自動單元切割模組5,實現一修正式可變長度單元挑選及基 於隱含式語意結構距離估算之中文電腦語音合成系統。 為評估本發明系統之效能,本發明的發展平台乃建置於 Pentium-Ill 2GHz 値尺電腦、512MB RAM、Windows 2000 作業系統之環境,系統開發工具為M/cro川/i C+ + (5.0。本發明採用之語音資料庫為一組具所有中文音節,且 涵蓋大量常用詞彙之4212句中文句及相對應之聲音音檔或 語音對應之平行語料,約為7.21個小時,包含的總詞彙量 為68392個中文詞,平均每個音節出現51.79次(中文共有 1342個包含四聲調的音節),係由一位女性錄音員所錄製, 取樣頻率為22.05kHz,解析度16bits。該語音資料庫須先經 過自動切音模組,自動標記出每個音節的段點位置,本發明 採用之自動切音模組是以隱藏式馬可夫模型為基礎。 (1) 合成語音之自然度評估實驗 本發明採用平均鑑定分數(Mean Opinion Scores,MOS ) 作為評估之標準,此評估方式將合成語音輸出的自然度分為 優良(Excellent ),良好(Good ),尚可(Fair),差(Poor ) 與極差(Unsatisfactory)五個等級,分別給予5至1不等的 分數。測試人員在聽過合成的語音後,以所感覺到的自然度 19 1258731 表現度評分。 測a式疋由合成系統根據基本合成單元長度與語意失真 度的使用與否’合成同樣的中文句,做對照實驗。合成十個 句子,由10位測試人員(8位男性,2位女性),跨聽並根 據自己所感受的語音自然度打分數,以所有人的平均分數作 為評估表準。 此實驗中,比較三套系統(A)、(B)、(c),在合 成語音自然度上的差異。 (A) 系統是利用單一音節為合成單元之合成系統 (B) 系統以修正式可變長度單元為基礎,但沒有加入 語意失真度估算 (C )系統為本發明系統。 由第十一圖所示結果可瞭解,利用本發明所提出的方法 進行單元的挑選,在自然度的表現上,相較於利用單音節的 方式,所合成的語音,有相當大改進,在挑選過失真度上, 若加入語意失真度,會使的挑選出的語句,在中文音韻上, 更符合目標句所要表達的。 (2)合成邊音之可理解度評估實驗 本實驗的目的,是利用實驗中提出的方法所合成的語 音,在可理解度上,是否達到實用的階段,並做相關比較。 實驗人員部分,選擇十位大學及研究生(8為男性,2位女 1258731 性),要求党測者,將所聽到的_文結果,以聽 出來,計算與原始文字的異同 $工·,’、 用上述所提到的(A)、(b)h 確率。同樣的’ …(B)及本發明系統(c Γ實Γ對於每㈣統,各產生十個句子,讓0者聽寫’ 貝馱範例句如第十二圖所示。 * 由第十三圖所示可以看出,雖然三套系統,平均都有不 錯的理解度:(A彳Μ 0/ … ()83%’ (B)89.5%’ (C)96.5%,但 疋本系統之方法,仍較—般可變單元長度之方法高。這社果 顯示’本發明在可理解度以及實用性上是足夠的。 根據本發明單元挑選模組與方法所實施的令文語音人 成系統,在合成單元挑選的問題上,係根射文構句與ϋ 特性,提出—基於機率式句法結構之可變長度單元挑選機 制,不僅大幅減少^的搜尋時間,更避開了所有不合於中 文構句原則的單L·在句法結構的建立上,採用機率式句法 結構’《多料能結構當η料估算时心挑選出 最符合h文㈣結構樹;在㈣單元距離料算問題中, 進一步提出應用隱含式語意“模組以估算文法結構距 離。综觀上述,本發明所提之模組與方法相當適用於語料串 接式語音合成系統的應用,可變長度單S的挑選,保留了詞 彙階層以上的音韻訊息,此點乃現階段以音節為合成單元的 系統所嚴重不足的;另外隱含式語意結構距離,以文法規則 21 I25873i =為向量基底,用以估算兩句法結構間的文法差異。整合本 發明所提之模組與方法’除可具體實驗—套中文語音合成系 統’亦可整合㈣人機對話“,以提供人與電腦更便利有 效的溝通環境 在詳細說明本發明的較佳實施例之後,熟悉該項技術人 士可清楚_解’在㈣離下述中請專利脑與精神下可進 行各種變化與改變’亦不受限於說明書之實施例的實施方
22 1258731 【圖式簡單說明】 第-圖為本發明修正式可變長度單元挑選之流程圖。 第一圖為+文句法結構樹範例的示意圖。 第三圖為中研院詞庫小組所定義的Tree-Bank文法規則 以及相對應的機率的一部分内容。 第四圖為本發明機率式句法結構之示意圖。 第五圖為本發明内部機率示意圖。 第六圖為本發明外部機率示意圖。 第七圖為本發明單元内部機率示意圖。 第八圖為本發明基於隱含是語意索引之文法結構距離 估算流程圖。 第九圖為本發明奇異值分解示意圖。 第十圖為本發明中文電腦語音合成系統之系統架構圖。 第十一圖為本發明系統與其他系統之自然度實驗結果 直方圖。 弟十二圖為合成語音之可理解度評估實驗之聽寫範例 句 〇 第十二圖為本發明系統與其他系統之可理解度實驗妗 果直方圖。 【主要元件符號說明】 6 文字前處理模組 7 單元挑選模組 23 1258731 8 語音輸出模組 9 聲音語料資料庫 10 語音自動單元切割模組
24
Claims (1)
1258731 丨^ 十、申請專利^涵Γ 1.一種中文語音合成系統,包含:—文字前處理㈣、一單 凡挑選模組、一語音生成模組及一語料資料庫,其特徵在 於· π前述單元挑選模、組,包含:一機率式句法結構剖析 n 悬含式語意索W模組及一修正式可變長度 =文該㈣式句法結構騎器分析—中文文句,以取得 模組估ί==標單元;而該隱含式語意索引 結構距離;前^正^^選合成單元與目標單元之 式規劃,搜尋出”元挑選機制搭配動態程 2如申W 文句之最佳的合成單元串接序列。 專利範㈣1項所述之中文語音合成純,其中前 :文子前處理模組包含:文字輸入處理與文字格式前處 相範㈣1項所述之巾文語音合《統,其中前 量詞彙中文句及相對應之聲音音播: 述語中文語音合成系統,其中前 平行語料。 β菜_文句及中文句語音對應之 5·如包申含請=圍第,述之中文語音合成系統,進一步 庫之中文動早4割模组,自動標記出該語料資料 庫之中文句中母個音節的段點位置。 t 專=圍第1項所述之中文語音合成系統,其中前 單元之結構樹與目標單元之結:广4庫之候-合成 述4文語音合成系統,其中前 ^ 。丨杈組將候選合成單元之結構樹與目標 25 1258731 單元之結構樹向量化,以估算兩者間結構距離。 8.如申請專利範圍第1項所述之中文語音合成系統,其中前 述語音生成模組產生該最佳的合成單元串接序列的語音。
26
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW093133634A TWI258731B (en) | 2004-11-04 | 2004-11-04 | Chinese speech synthesis unit selection module and method |
| US11/186,876 US7574360B2 (en) | 2004-11-04 | 2005-07-22 | Unit selection module and method of chinese text-to-speech synthesis |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW093133634A TWI258731B (en) | 2004-11-04 | 2004-11-04 | Chinese speech synthesis unit selection module and method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW200615904A TW200615904A (en) | 2006-05-16 |
| TWI258731B true TWI258731B (en) | 2006-07-21 |
Family
ID=36263178
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW093133634A TWI258731B (en) | 2004-11-04 | 2004-11-04 | Chinese speech synthesis unit selection module and method |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US7574360B2 (zh) |
| TW (1) | TWI258731B (zh) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
| US7849097B2 (en) * | 2006-12-15 | 2010-12-07 | Microsoft Corporation | Mining latent associations of objects using a typed mixture model |
| US8457946B2 (en) * | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
| US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
| KR100932538B1 (ko) * | 2007-12-12 | 2009-12-17 | 한국전자통신연구원 | 음성 합성 방법 및 장치 |
| US8838453B2 (en) * | 2010-08-31 | 2014-09-16 | Red Hat, Inc. | Interactive input method |
| US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
| US8949111B2 (en) * | 2011-12-14 | 2015-02-03 | Brainspace Corporation | System and method for identifying phrases in text |
| JP2013246294A (ja) * | 2012-05-25 | 2013-12-09 | Internatl Business Mach Corp <Ibm> | オートマトンが文脈自由文法を満たすか否かを判定するシステム |
| TW201403354A (zh) * | 2012-07-03 | 2014-01-16 | Univ Nat Taiwan Normal | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 |
| US9484014B1 (en) * | 2013-02-20 | 2016-11-01 | Amazon Technologies, Inc. | Hybrid unit selection / parametric TTS system |
| US9824681B2 (en) * | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
| US9953029B2 (en) * | 2015-11-05 | 2018-04-24 | International Business Machines Corporation | Prediction and optimized prevention of bullying and other counterproductive interactions in live and virtual meeting contexts |
| CN115269884A (zh) * | 2021-04-29 | 2022-11-01 | 华为云计算技术有限公司 | 生成视频语料的方法、装置及相关设备 |
| CN118588056B (zh) * | 2024-08-05 | 2025-03-14 | 南京硅基智能科技有限公司 | 基于句法图构建的文本到语音生成方法、装置及电子设备 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6266637B1 (en) * | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
| US6952666B1 (en) * | 2000-07-20 | 2005-10-04 | Microsoft Corporation | Ranking parser for a natural language processing system |
| GB0215123D0 (en) * | 2002-06-28 | 2002-08-07 | Ibm | Method and apparatus for preparing a document to be read by a text-to-speech-r eader |
-
2004
- 2004-11-04 TW TW093133634A patent/TWI258731B/zh not_active IP Right Cessation
-
2005
- 2005-07-22 US US11/186,876 patent/US7574360B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| TW200615904A (en) | 2006-05-16 |
| US20060095264A1 (en) | 2006-05-04 |
| US7574360B2 (en) | 2009-08-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
| Yamagishi et al. | Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on various ASR corpora | |
| TWI258731B (en) | Chinese speech synthesis unit selection module and method | |
| CN104217713A (zh) | 汉藏双语语音合成方法及装置 | |
| CN106128450A (zh) | 一种汉藏双语跨语言语音转换的方法及其系统 | |
| TW201738878A (zh) | 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 | |
| CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
| CN109961777A (zh) | 一种基于智能机器人的语音交互方法 | |
| Avram et al. | Towards a romanian end-to-end automatic speech recognition based on deepspeech2 | |
| Baljekar | Speech synthesis from found data | |
| Wang et al. | RNN-based prosodic modeling for mandarin speech and its application to speech-to-text conversion | |
| CN115130457B (zh) | 融合安多藏文音素向量的韵律建模方法及建模系统 | |
| Tan et al. | A Malay dialect translation and synthesis system: Proposal and preliminary system | |
| Fukuda et al. | A new corpus of elderly Japanese speech for acoustic modeling, and a preliminary investigation of dialect-dependent speech recognition | |
| Zhou et al. | The codec language model-based zero-shot spontaneous style tts system for covoc challenge 2024 | |
| Liu et al. | A maximum entropy based hierarchical model for automatic prosodic boundary labeling in mandarin | |
| Chung | Duration models and the perceptual evaluation of spoken Korean | |
| CN1811912B (zh) | 小音库语音合成方法 | |
| TWI402824B (zh) | 中文自發性語音合成中發音變異產生之方法 | |
| Chen et al. | A Mandarin Text-to-Speech System | |
| Maia et al. | An HMM-based Brazilian Portuguese speech synthesizer and its characteristics | |
| CN116469368A (zh) | 一种融合语义信息的语音合成方法、系统 | |
| TWI703556B (zh) | 語音合成方法及其系統 | |
| Das et al. | Aging speech recognition with speaker adaptation techniques: Study on medium vocabulary continuous Bengali speech | |
| Kuo et al. | A high-performance Min-Nan/Taiwanese TTS system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |