[go: up one dir, main page]

TW201738878A - 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 - Google Patents

可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 Download PDF

Info

Publication number
TW201738878A
TW201738878A TW105112513A TW105112513A TW201738878A TW 201738878 A TW201738878 A TW 201738878A TW 105112513 A TW105112513 A TW 105112513A TW 105112513 A TW105112513 A TW 105112513A TW 201738878 A TW201738878 A TW 201738878A
Authority
TW
Taiwan
Prior art keywords
language
prosody
parameter
speech rate
model
Prior art date
Application number
TW105112513A
Other languages
English (en)
Other versions
TWI595478B (zh
Inventor
江振宇
Original Assignee
國立臺北大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立臺北大學 filed Critical 國立臺北大學
Priority to TW105112513A priority Critical patent/TWI595478B/zh
Priority to US15/337,058 priority patent/US10192542B2/en
Application granted granted Critical
Publication of TWI595478B publication Critical patent/TWI595478B/zh
Publication of TW201738878A publication Critical patent/TW201738878A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本案係提供一種語速相依韻律模型建立器,包括:一第一輸入端,用以接收源自一第一語者所講一第一語言的一第一訊息;一第二輸入端,用以接收源自一第二語者所講一第二語言的一第二訊息;以及一函式資料單元具一函式,其中該函式包含與該第一語言及該第二語言同時相關之第一複數參數或單獨與該第二語言相關之第二複數參數中任一參數的複數子參數;以及該函式資料單元在一最大後驗(MAP)條件下,基於該第一訊息、該第二訊息、及該第一複數參數或該複數子參數來產生與語速相依之一參考訊息,俾根據該參考訊息建構該第二語言之一語速相依韻律模型。

Description

可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生 方法
本發明係關於一種使用於一語音合成裝置中之裝置及方法,尤指一種可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法。
目前已有多個文獻記載關於用以建立漢語之文字轉語音系統之韻律模型的方法,而習知技術中使用漢語之文字轉語音系統的韻律模型之相關方法可分成以下五類:第(一)類方法為以現成之韻律模型或圖像辨識工具直接建立、第(二)類方法為語音轉換方法、第(三)類方法為聲調及基礎音節型態對應方法、第(四)類方法為以隱藏式馬可夫模型(HMM)為基礎之文字轉語音系統(HTS)的平均語音(Average Voice)語者轉置方法、以及、第(五)類方法為可控制語速的韻律訊息產生裝置 及語速相依之階層式韻律模組方法。
第(一)類方法即將所蒐集到之語音資料庫與已知漢語之韻律模型對應來建立韻律模型,而習知技術中已成熟且被用作建立漢語之韻律模型的方法包含Fujisaki模型、類神經網路方法(artificial neural network)、遞迴式類神經網路(Recurrent Neural Network)、採用多維度空間分佈(Multi-Space Distribution,MSD)描述音高軌跡(logF0軌跡)之方法、採用決策樹對一狀態分群之HMM的方法、以及採用高斯分佈並以決策樹分群之HMM狀態長度模型的方法。
然而,上述方法都會由於原因(i)~(iii)而缺乏足夠之訓練資料,使得所蒐集到之語料庫無法有效涵蓋用以建立韻律模型所需要的語言參數、韻律聲學參數、以及語速之變化,進而造成所建立之韻律模型在韻律訊息之產生上的表現不佳,其中原因(i)為漢語中並沒有標準之書寫系統來紀錄漢語之語音所對應之文本,導致文字斷詞及語法分析的不易、原因(ii)為北京官話(亦即漢語之一種語言)以外的其他語言具有較複雜之變調規則,且通常有較複雜且多種的基礎音節,因此更需要語言學專業人士來標註這些語言語料所對應之正確聲調與發音以及原因(iii)為建立韻律模型所需要的韻律標記通常需要語言學專業人士來進行人工標記,此過程耗時、昂貴且人工標記之行為易產生標記不一致的問題。因此,可得知此類方法並未具有以系統化之架構或模型來建立漢語中之不同語言、模仿不同語者說話方式以及控制語速之能力。
而第(二)類方法和第(三)類方法雖可部份地解決在第(一)類方法中所遇到之缺乏訓練資料的問題。但在第(二)類方法中,漢語中 之一語言的韻律訊息是先由漢語中之另一來源語言的一韻律模型產生一韻律訊息後,再進行函數轉換,使得經轉換後的韻律訊息接近所欲產生該語言之韻律訊息。一般來講,該另一來源語言之韻律模型是由大型之語料庫所建立而成的,因此,具有較好的韻律訊息產生能力。而最常用作來源語言的選擇為漢語中之北京官話(亦即第一語言),其中前人曾使用三次曲線配適(Cubic Curve Fitting)來將北京官話之音高軌跡轉換成遼城(Liaocheng)語言;亦有前人使用一混合叢聚演算法(Mixed Clustering Algorithm)來將北京官話之韻音高軌跡轉換成瀋陽(Shenyang)語言;另有前人錄製北京官話和蘭州語言之間的平行語料庫,進而建立在音高輪廓、音節時長、以及靜音時長的北京官話至蘭州語言以及西安語言的轉換方法;以及更有前人使用傳統用於語者頻譜轉換的高斯混合模型(GMM)建立北京官話和蘭州語言之間的音高輪廓轉換函式。
然而,以上習知語音轉換方法應用的範圍僅限於北京官話轉換至北京官話之次語言,即遼城語言、瀋陽語言、蘭州語言以及西安語言。而這些次語言之間的最大差別是在於聲調的類別以及不同聲調在基頻軌跡之變化,但其基礎音節之定義皆幾乎相同,所以此類方法僅適用於語言與其次語言之間的轉換,並不適合用於漢語中之七大語言之間的轉換。
另外,漢語中之七大語言包含第一語言(或北京官話)、吳語、粵語、閩南語、湘語、客家語、以及贛語。而由於這七大漢語語言皆有不同之基礎音節的類別結構,進而皆會產生不同的音節時長,導致第(二)類方法中的語音轉換方法不容易應用於跨七大漢語語言之間的音節時長轉換。再者,此類方法通常需要使用一來源語言和一目標語言的平行語料庫, 而要找到能同時流利地錄製該來源語言和該目標語言之語者是相當困難的,因此也會造成此類方法在其應用上之限制。
第(三)類方法是類似第(二)類方法,但並非是在建立轉換函式,而是利用兩種語言之間可能有共通之聲調及基礎音節的特性,使得可能可共用此兩種語言之間的韻律模型來產生韻律訊息。對於此類方法,由於所產生之韻律訊息是使用一來源語言的一韻律模型,所以在該韻律模型中所輸入之語言參數仍是使用該來源語言的語言參數。因而,為能夠根據該來源語言之該韻律模型來產生一目標語言之一韻律訊息,此類方法要先建立該目標語言和該來源語言之間的聲調及基礎音節之型態的對應關係,並將建立好之對應關係轉換成該來源語言的聲調和基礎音節之型態,如此,當對該來源語言的該韻律模型輸入該目標語言之語言參數,便可產生該目標語言的該韻律訊息。
此外,語言之間之聲調和基礎音節型態的對應關係,是藉由語言學知識及人工觀察來找到不同語言間之聲調在音高軌跡上及音節組成成分形態上來做比較後所找到之最相似的對應關係。一般來說,該來源語言之聲調的音高軌跡的變化以及基礎音節型態的類別被期望為能儘量涵蓋其他不同目標語言之聲調以及基礎音節型態。而在習知技術中即有使用北京官話之韻律模型來產生客家話之韻律訊息的技術,基於此技術更有利用閩南語之韻律模型來產生北京官話以及客家話之韻律訊息的研究,其中因為相較於北京官話和客家話之聲調和基礎音節,閩南語具有較豐富的聲調變化以及基礎音節型態,因此該研究選用閩南語之韻律模型作為一來源語言,藉由該來源語言所產生之韻律模型來產生相似於北京官話以及客家話 之韻律訊息。
而上述研究係藉由語言專家所具有的語音學知識採用規則法來對語言之間不同定義之聲調做一對應,且以音節之結構對應不同語言間的基礎音節類型,但此研究僅使用閩南語之資料庫建立閩南語之韻律模型,並未根據採用蒐集到之北京官話或客家話之語料再以數學方法精緻地進行跨語言以及跨語者之韻律模型的調適,故此類方法之韻律預估能力仍是受限的。
第(四)類方法則是以HMM為基礎之HTS之平均語音之語者轉置方法,此平均語音之建立方法可分為兩種,第一種方法為不同語言建立各自語言的平均語音,第二種方法為使用多個不同語言來建立共用之平均語音。
在第一種方法中,各自語言之平均語音必須使用說同一語言之多個語者的語音資料庫來訓練得到以HMM狀態為單位的音高模型、狀態時長(Duration)模型以及頻譜模型,該各自語言之HMM狀態是基於其語言參數和韻律標記參數並利用一決策樹方法建立迴歸樹(regression tree)分群而得到的,接著再利用Kullback-Leibler(KL)距離計算兩種語言之間HMM狀態的距離,進而找出該兩種語言之迴歸類別(Regression Class)或HMM狀態的最相近對應之KL距離,此過程稱之為狀態映射(State Mapping)。當得到狀態映射後便表示已建立跨語言之間語音模型的對應關係,便可接著執行跨語言與語者的調適。舉例來說,若有語者A之少量語言甲的語料,在以語言甲之平均語音為基礎,並學習迴歸類別對於語者A之轉換矩陣(Transform Matrices)後,即可將該轉換矩陣應用於任何已建立之 另一語言之平均語音,來調適或外插出該另一語言之一韻律模型。
在第二種方法中,不同語言間若具有共用之聲母或韻母,便採用一樣的標示方法表示之,而若有不同之聲母或韻母便採用各自語言的標示方法表示之。此外,對於不同語者且不同語言之語料則採用一語者調適訓練方法(Speaker Adaptive Training,SAT),來將不同語言以及不同語者之韻律及頻譜特性進行正規化,亦即將不同語者及不同語言之韻律及頻譜特性的統計特性調整為同一平均值以及變異量,以得到一語言共用之平均語音。因此,若有語者A之少量語言甲的語料,在以語言甲之平均語音為基礎,並學習迴歸類別對於語者A之轉換矩陣(Transform Matrices)後,即可將該轉換矩陣應用於任何已建立之另一語言之平均語音,來調適或外插出該另一語言之一韻律模型。
因此,雖此類方法可以使用少量語音資料來調適出具某語者之某語言特性的韻律模型,但此類方法不僅需要先使用多位語者以及多種語言之語音資料來建立平均語音,還需要先將所使用之語音資料庫進行韻律標記(代表某語者語言說話方式的重要代表資訊)才能完成,且亦未如本發明般具有語速控制韻律參數之機制,是以,此類方法並不可能達成如本發明般學習不同語言以及模仿不同語者說話方式之可控制語速韻律訊息產生方法。
第(五)類方法為藉由接收語速以及語言參數,並使用一語速相依之韻律生成模組,來生成語速相依之韻律參數的裝置的技術。在此技術中,在該模組之訓練過程中可學習一語言語料及一語者的說話方式,且可自動對該語言語料標示韻律標記且學習該語者之韻律標記與語言參數 之關係,但該語速相依之韻律生成模組並沒有辦法以少量之語言語料來建立,且還需要大量且涵蓋不同語速之語料方可被執行。故此習知技術僅能作單一語言及語者的學習,且不能在接收用作訓練語言之少量的語言參數、韻律參數以及語速的情況下,訓練出學習另一語言及模擬另一語者之說話方式的能力。
爰是之故,申請人有鑑於習知技術之缺失,乃經悉心試驗與研究,並一本鍥而不捨的精神,終發明出本案「可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生」,以改善上述習知技術之缺失。
本案之一面向係提供一種韻律訊息產生裝置,包括:一第一韻律訊息產生單元,基於源自一第一語者所講一第一語言的一第一訊息,來產生該第一語言的一第一統計資料、一第一韻律參數語速正規化模型、一第二統計資料和一第一語速相依韻律模型;一第二韻律訊息產生單元,提供一第一函式資料單元和一第二函式資料單元,並基於該第一統計資料、該第一韻律參數語速正規化模型、該第二統計資料、該第一語速相依韻律模型及源自一第二語者所講一第二語言的一第二訊息,來產生該第二語言之一第二韻律參數語速正規化模型以及一第二語速相依韻律模型,其中:一第一函式資料單元,其中該第一函式資料單元具一第一函式且該第一函式包括一相似度函式、基於該第二訊息、該第一統計資料和該第一韻 律參數語速正規化模型,來產生能參與該第二語言之音高輪廓、音節時長及/或靜音時長之語速正規化的一第一複數參數、並根據該第一複數參數建構該第二語言的該第二韻律參數語速正規化模型,其中該第一函式採用一最大後驗線性迴歸(MAPLR)演算法估計該第一複數參數,且該相似度函式用以關聯該第一語言與該第二語言之間之音高輪廓、音節時長及/或靜音時長;及一第二函式資料單元,其中該第二函式資料單元具該第二函式且該第二函式包含與該第一語言及該第二語言同時相關之第二複數參數或單獨與該第二語言相關之第三複數參數中任一參數的複數子參數;以及該第一函式資料單元在一最大後驗(MAP)條件下,基於該第一訊息、該第二訊息、及該第二複數參數或該複數子參數來產生與語速相依之一參考訊息,俾根據該參考訊息建構該第二語言之該第二語速相依韻律模型;以及一韻律訊息產生器,基於該第二韻律參數語速正規化模型、該第二語速相依韻律模型、合成一第二語言語音之一所欲語速、和所欲合成之一第二語言內容,來產生該第二語言內容之一第一韻律參數。
本案之另一面向係提供一種韻律訊息產生方法,其步驟包含:提供源自一第一語者所講一第一語言的一第一訊息及源自一第二語者所講一第二語言的一第二訊息;基於該第一訊息來產生一第一統計資料、一第一韻律參數語速正規化模型、一第二統計資料和一第一語速相依韻律模型;提供一第一函式資料單元,其中該第一函式資料單元具一第一函式且該第一函式包括一相似度函式、基於該第二訊息、該第一統計資料和該第一韻律參數語速正規化模型,來產生能參與該第二語言之音高輪廓、音節時長及/或靜音時長之語速正規化的一第一複數參數、並根據該第一複數參 數建構該第二語言的一第二韻律參數語速正規化模型,其中該第一函式採用一最大後驗線性迴歸(MAPLR)演算法估計該第一複數參數,且該相似度函式用以關聯該第一語言與該第二語言之間之音高輪廓、音節時長及/或靜音時長;提供具一第二函式之一第二函式資料單元,其中該第二函式包含與該第一語言及該第二語言同時相關之第一複數參數或單獨與該第二語言相關之第二複數參數中任一參數的複數子參數;以及該第一函式資料單元在一最大後驗(MAP)條件下,基於該第一訊息、該第二訊息、及該第一複數參數或該複數子參數來產生與語速相依之一參考訊息,俾根據該參考訊息建構該第二語言之一第二語速相依韻律模型;以及基於該第二韻律參數語速正規化模型、該第二語速相依韻律模型、合成一第二語言語音之一所欲語速、和所欲合成之一第二語言內容,來產生該第二語言內容之一韻律參數。
本案之又一面向係提供一種韻律參數語速正規化器,包括一第一輸入端,用以接收源自一第一語者所講一第一語言的一第一訊息;一第二輸入端,用以接收源自一第二語者所講一第二語言的一第二訊息;以及一函式資料單元具一函式、基於該第一訊息和該第二訊息,來產生能參與該第二訊息之音高輪廓、音節時長及/或靜音時長之語速正規化的一第一複數參數、並根據該第一複數參數建構該第二語言的一韻律參數語速正規化模型,其中該函式包括一相似度函式並採用一最大後驗線性迴歸(MAPLR)演算法、且該相似度函式用以關聯該第一語言與該第二語言之間之音高輪廓、音節時長及/或靜音時長。
本案之再一面向係提供一種語速相依韻律模型建立器,包括: 一第一輸入端,用以接收源自一第一語者所講一第一語言的一第一訊息;一第二輸入端,用以接收源自一第二語者所講一第二語言的一第二訊息;以及一函式資料單元具一函式,其中:該函式包含與該第一語言及該第二語言同時相關之第一複數參數或單獨與該第二語言相關之第二複數參數中任一參數的複數子參數;以及該函式資料單元在一最大後驗(MAP)條件下,基於該第一訊息、該第二訊息、及該第一複數參數或該複數子參數來產生與語速相依之一參考訊息,俾根據該參考訊息建構該第二語言之一語速相依韻律模型。
從上述面向,可得知本發明之主要目的在於利用源自於一第一語者之大量語言A之語音資料庫所訓練而成之可控制語速之韻律訊息產生單元為基礎、並以適應式技術結合語言A及另一語言B之間類似或共有的語言及韻律特性,來達成僅在蒐集到一第二語者之少量語言B之語音資料下,即可建立出可產生該第二語者之語言特性以及說話方式的可控制語速之韻律訊息產生裝置及方法。
100‧‧‧韻律訊息產生裝置
101‧‧‧第一韻律參數語速正規化器
102‧‧‧第一韻律參數語速正規化模型
103‧‧‧第一語速相依韻律模型建立器
104‧‧‧第一語速相依韻律模型
105‧‧‧第二韻律參數語速正規化器
106‧‧‧第二韻律參數語速正規化模型
107‧‧‧第二語速相依韻律模型建立器
108‧‧‧第二語速相依韻律模型
109‧‧‧韻律訊息產生器
DE1、DE2‧‧‧韻律訊息產生單元
S1‧‧‧第一語者之語速
L1‧‧‧第一語者之第一語言的語言參數
P1、P2‧‧‧第一語者之第一語言的韻律參數
D1、D2‧‧‧統計資料
S2‧‧‧第二語者之語速
L2、L3‧‧‧第二語者之第二語言的語言參數
P3、P4‧‧‧第二語者之第二語言的韻律參數
A1、A2‧‧‧韻律標記
S3、SR‧‧‧語速
P5‧‧‧韻律參數
第一圖:本案一較佳實施例之韻律訊息產生裝置100之示意圖。
第二圖:本案一較佳實施例之漢語語音階層式韻律結構示意圖。
第三圖:本案一較佳實施例之可控制語速之韻律訊息產生裝置100所產生的韻律斷點以及其對應的音節間靜音時長。
本發明將可由以下的實施例說明而得到充分瞭解,使得熟習本技藝之人士可以據以完成之,然本案之實施並非可由下列實施案例而被限制其實施型態。
為達上述發明目的,一種可控制語速之韻律訊息產生裝置及其方法被提供,如第一圖所示。該韻律訊息產生裝置100包含一第一韻律韻律訊息產生單元DE1、一第二韻律韻律訊息產生單元DE2以及一韻律韻律訊息產生器109,其中該第一韻律訊息產生單元DE1包含一第一韻律參數語速正規化器101、一第一韻律參數語速正規化模型102、一第一語速相依韻律模型建立器103、一第一語速相依韻律模型104;該第二韻律韻律訊息產生單元DE2包含一第二韻律參數語速正規化器105、一第二韻律參數語速正規化模型106、一第二語速相依韻律模型建立器107及一第二語速相依韻律模型108;且該第二韻律參數語速正規化器105與該第二語速相依韻律模型建立器107分別包含一第一函式資料單元與一第二函式資料單元,其中該第一函式資料單元與該與第二函式資料單元分別具有一第一函式與一第二函式。
而當該韻律訊息產生器109基於該第二韻律參數語速正規化模型106、該第二語速相依韻律模型108、合成該第二語言語音之一所欲語速S3、和所欲合成之一第二語言內容時,將產生該第二語言內容之該第一韻律參數P5,且該第一韻律參數P5包含音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長、並具有模擬該第二語者之該第二語言、說話方式以及不同語速之韻律特性。因此,當該韻律訊息產生裝置100根據該第一韻律 參數P5,可使用任一語音合成器來合成出具有不同語言間之轉換能力、任一指定語速、及不同語者之說話方式的合成語音訊號。
詳言之,當源自一第一語者所講一第一語言的一第一語速S1、一第一語言參數L1及該第二韻律參數P1輸入至該第一韻律參數語速正規化器101時,將建立在該第一語者之該第一語言之語言參數條件下之該第一語速S1對於該第二韻律參數P1的一函數關係,並利用該函數關來將該第一語速S1對於該第二韻律參數P1的影響移除,達成語速正規化之程序、得到該語者之語速正規化的一第四韻律參數P2、一第一統計資料D1、及同時將該函數關係輸出為該第一韻律參數語速正規化模型102,其中該第四韻律參數P2包含該第一語言之受語速正規化的音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長;該第一語言參數L1包括該第一語言的詞類、標點符號、詞長、聲調、基本音節類別以及韻母類別。
該韻律參數語速正規化模型102係用以描述一語句之一語速和一韻律參數的一階統計量(亦即平均值)以及/或二階統計量(標準差)之間的一關係,該關係可以被用來由該語句之該語速來估計該語句之該韻律參數之一階或二階統計量,得到上述統計量後便可對某個語速下的韻律參數進行高斯正規化(或稱z-score normalization),因而達成移除語速對於韻律參數的影響。另一方面,該模型102在隨後係被用以學習一第二語者之一第二語速S2對於該第二語者之一第二語言之一第三韻律參數P3之影響的參考模型,也就是做為估計該第二語言之該第二韻律參數語速正規化模型106的一初始模型,使得該第二語言之第二韻律參數語速正規化器105能夠更精準地估計出該第二韻律參數語速正規化模型106
此外,該第二韻律參數P1包含一音節音高輪廓、一音節時長、以及一音節間靜音時長,其中該音節音高輪廓的語速正規化為考慮對於不同聲調情況下一階及二階統計量的語速正規化、該音節時長為考慮二階統計量的語速正規化、以及該音節間靜音時長考慮一階及二階統計量的語速正規化。
而通過該第四韻律參數P2、該第一語速S1及該第一語言參數L1接著被輸入至該第一語速相依韻律模型建立器103中,來將該第四韻律參數P2解析為以一第一韻律標記A1所表示之一韻律結構,並同時產生一第二統計資料D2以及該第一語速相依韻律模型104。其中該第一語速相依韻律模型104是用以描述該第一語言之語音的韻律階層結構,並可以用以產生用於語音合成裝置中的韻律參數。該第一語速相依韻律模型104包含複數子模型,該複數子模型為韻律停頓模型、韻律預估使用之韻律停頓模型、韻律狀態模型、韻律狀態語法模型、音節韻律模型及音節間韻律模型。該第一韻律標記A1包含該第一語者之該第一語言的韻律斷點標記序列、音節音高韻律狀態序列、音節時長韻律狀態序列以及音節能量韻律狀態序列。
而該第一語速相依韻律模型104最主要的用途是為估計該第二語言之該第二語速相依韻律模型108時的另一初始模型,其原理則是利用不同語者及語言之間類似或共有的語言及韻律特性,讓該第二語速相依韻律模型建立器107能更精準地估計出該第二語速相依韻律模型108之參數,進而達成在僅蒐集到少量某該第二語者之該第二語言之語音資料下,建立可產生該第二語者之語言特性以及說話方式之該第二語速相依韻律模型108。
隨後,當該第二韻律參數語速正規化器105接收源自該第二語 者所講該第二語言的一第二語速S2、一第二語言參數L2、該第三韻律參數P3該第一統計資料D1及該韻律參數語速正規化模型102時,基於所接收之上述資訊及具有一相似度函式之該第一函式的該第一函式資料單元,來移除該第二語速S2對該第二語言之該第三韻律參數P3之一階以及二階統計特性之影響而產生一第五韻律參數P4,同時在利用該第一語言及該第二語言之間類似或共有的語言及韻律特性以及接收以上所述之少量訊息樣本的情況下,利用一最大後驗估計(Maximum A Posteriori Estimation)方法,來產生該第二韻律參數語速正規化模型106。其中該第二語言參數L2包括該第二語言的詞類、標點符號、詞長、聲調、基本音節類別以及韻母類別;該第三韻律參數P3包含該第二語言的音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長;該第五韻律參數P4包含該第二語言之受語速正規化的音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長。
而該第二韻律參數語速正規化模型106係用以在該韻律訊息產生器109中提供所欲合成之該第二語言之一語音的一第三語速S3對於該語音之語速相依的該第一韻律參數P5之間的函數關係,讓該第一韻律參數P5符合在該第三語速S3情況下的一階以及二階之韻律參數的統計特性。
又當該第二語速相依韻律模型建立器107接收該第五韻律參數P4、該第二語言參數L2、該第二語速S2以及該第一語速相依韻律模型104時,基於所接收之上述資訊及包含該第二函式之該第二函式資料單元,利用該第一語言及該第二語言之間類似或共有的語言及韻律特性以及接收以上所述之少量訊息樣本的情況下,採用最大後驗估計方法以及一特殊設計的疊代演算法,來產生該第二語速相依韻律模型108以及該第二韻律標記 A2。其中該第二韻律標記資料A2包含該第二語者之該第二語言的韻律斷點標記序列、音節音高韻律狀態序列、音節時長韻律狀態序列以及音節能量韻律狀態序列。
而該第二語速相依韻律模型108提供該韻律訊息產生器109複數子模型,該等複數子模型包括韻律停頓模型、韻律預估使用之韻律停頓模型、韻律狀態模型、韻律狀態語法模型、音節韻律模型及音節間韻律模型等多種韻律模型,使得該韻律訊息產生器109能產生模擬該第二語者之語言特性、說話方式以及不同語速之韻律參數。
此外,該所欲合成之該第二語言內容為該第二語言語音之一第二語言的一第三語言參數L3。而該第二語言的該第三語言參數L3包括該第二語言的詞類、標點符號、詞長、聲調、基本音節類別以及韻母類別。該第一語言和該第二語言皆屬於漢語,且分別選自國語、吳語、粵語、閩南語、湘語、客家語、以及贛語的其中之一。
在另一實施例中,該第一語言和該第二語言可屬於漢藏語系、阿勒泰語系、南亞語系、南島語系、印-歐語系或非-亞語系的語言。
為了更清楚地了解本發明,以下將以數學式之方式來描述該韻律訊息產生裝置100及其中之各個元件。首先說明使用於該第一韻律參數語速正規化器101之相關數學式,這些數學式主要是將所輸入之該第二韻律參數P1的音節音高輪廓、音節時長、以及音節間靜音時長受語速影響的一階及二階統計特性移除,並將不同語速下的該第二韻律參數P1調整至同一個位準以及動態範圍,也就是所謂的韻律參數語速正規化的過程,以下分別說明該第二韻律參數P1的音節音高輪廓、音節時長、以及音節間靜音時 長的語速正規化方法:
(a)對於音節音高輪廓,語速正規化的數學式係用以下之式(1)來表示:
其中,代表經過語速正規化之音節音高輪廓;sp n (i)代表該第一語者之音節音高輪廓;n代表音節索引;以及sp n (i)皆是以三階離散雷建德多項式表示之;i代表第i階的雷建德多項式參數;x代表語速,其單位為音節/秒;t n 代表第n個音節之第一語言的聲調;代表聲調為t n 的音節在其第i階音高輪廓參數且在其語速為x情況下的平均值;代表聲調為t n 的音節在其第i階音高輪廓參數且在語速為x情況下的標準差;以及都是語速x的一次多項式:
其中,以及分別代表對於第一語言之聲調t、第i個雷建德多項式係數之平均值以及標準差的一次多項式之第k個參數,這些參數可由該第一語者以語句為單位來估計之某個聲調t、第i個雷建德多項式係數以及在一語句之語速為x情況下音高輪廓之平均值和標準差為樣本,以最小平方配適(Least Square Fitting)的方法得到。以及分別代表在該第一語者之該第一語言的整個語音資料庫中,以一語句為單位之某個聲調t、第i個雷建德多項式係數之平均值及標準差。也是以一個x的一次多項式表示,其多項式係數係由該第一語者以一語句為單位來估計之某個聲調t、第i個雷建德多項式係數以及語句語速x情況下音高輪廓之標 準差為樣本,以最小平方配適方法得到。另外,為了提供該第二語言之該第二韻律參數語速正規化器105產生該第二語者之該第二語言的該第二韻律參數語速正規化模型106所需要之參數的先驗機率(Prior Probability),也就是要先得到參數以及參數之平均值以及變異量(相當於第一圖之該第一統計資料D1),使用以下兩數學式表示:
也就是假設以及分別為一個高斯分佈的隨機變數:
而為了方便求取式(6)中之平均值,以及直接設成為式(2)中以最小平方配適方法所得到之以及的值。而式(6)中關於變異量之求取方法,則是將原本求取式(2)以及式(3)的樣本分成N組隨機選取的樣本(也就是N-fold方法),藉由每一組樣本皆可利用求取式(2)以及式(3)中以及之值的最小平方配適方法,來求取平均值以及變異量,分別當作求取式(5)的變異量使用的樣本。
(b)對於音節時長,語速正規化數學式如下:
其中,代表經過語速正規化之音節時長;sd n 代表該第一語者音節時長;及代表在語速為x(音節/秒)情況下之音節時長的標準差,即以一個x的二次多項式表示:
其中,b 2b 1以及b 0為多項式參數,這些參數可由該第一語者以語句為單位來估計之音節時長之標準差為樣本,再以最小平方配適方法得到。以及代表該第一語者之該第一語言的整個語音資料庫以語句為單位,統計得到的語料庫整體標準差以及整體平均值。另外,如同處理音高輪廓之語速正規化的數學式,為了提供該第二語言之該第二韻律參數語速正規化器105建立該第二語者之該第二語言的該第二韻律參數語速正規化模型106所需要的先驗機率,假設b k 為高斯分佈,因此,要得到參數b k 的平均值以及變異量(相當於第一圖之該第一統計資料D1):
求取式(9)以及式(10)的方法如同求取音高輪廓語之速正規化之方法。而變異量部份,即是將原本求取式(8)的樣本分成N組隨機選取的樣本(N-fold方法),每一組樣本皆取一組b k 值,做為求取式(10)之變異量使用的樣本。
(c)對於音節間靜音時長,語速正規化數學式如下:
其中,代表經過語速正規化之音節間靜音時長;pd n 代表該第一語者之音節間靜音時長;G以及G -1分別代表伽瑪分佈(伽瑪distribution)的累積分配函數(CDF)以及其反函數(Inverse Function);以及代表在語速為x(音節/秒)的情況下,音節間靜音時長之伽瑪分佈的參數,為了數學方便處理,這兩個參數可轉換成平均值以及標準差來表示:
其中,以及皆使用x的二次多項式表示:
而這些二次多項式之參數:以及,可由該第一語者以語句為單位來估計之音節間靜音停頓時長的平均值和標準差為樣本,再以最小平方配適方法得到。以及代表在該第一語者之該第一語言的整個語音資料庫以語句為單位下,由音節間靜音停頓時長的平均值和標準差為樣本而得到的伽瑪分佈參數,即代表了該第一語者在不同語速下之整體平均的伽瑪分佈。另外,為了提供該第二語言之該第二韻律參數語速正規化器105建立該第二語者之該第二語言的該第二韻律參數語速正規化模型106所需要的先驗機率,也是假設以及皆為高斯分佈,因此要得到參數以及平均值以及變異量(相當於第一圖之該第一統計資料D1):
式(16)以及式(17)之求取方式是將原本求取式(14)以及式(15)的樣本分成N組隨機選取的樣本,而每一組樣本求得一組以及的值,則做為求取式(16)以及式(17)之變異量所使用的樣本。
因此,該第一語者之第一語言的該韻律參數語速正規化模型102包含:
(a)音高輪廓語速正規化函式:以式(1)來表示,其中參數 包含以及,亦包含它們的先驗機率參數{,}以及{,},其中k=0~1、t=1~5、及i=0~3。
(b)音節時長語速正規化函式:以式(11)來表示,其中參數包含b k ,亦包含它們的先驗機率參數{,},其中k=0~2。
(c)音節間靜音時長語速正規化函式:以式(7)來表示,其中參數包含以及,亦包含它們的先驗機率參數{,}以及{,},其中k=0~2。
而該第一語言之該第一語速相依韻律模型建立器103接收該第一語者之語速正規化第一語言韻律參數P2、該第一語言參數L1、以及該第一語速S1,產生該第一語者之該第一語言的該第一語速相依韻律模型104以及該第一語者之該第一語言的該第一韻律標記A1,其工作原理對應之數學式如下:
其中,λ代表該第一語者之該第一語言的第一語速相依韻律模型104之參數;代表韻律標記序列(相當於第一圖中之該第一語者之該第一語言的該第一韻律標記A1),其中m代表語句索引、n代表音節索引、M代表語句數目、N m 代表第m個語句的總音節數、以及T m,n 代表第m個語句之第n個音節對應的韻律標記;代表該第一語者之該第一語言之語速正規化的韻律參數P2以及由該韻律參數P2進一步得到的其他韻律參數;代表該第一語者之第一語言 的語言參數L1;x={x m }| m=1~M 代表該第一語者之該第一語速S1,其中x m 代表的第m個語句之語速(以秒數/音節為單位);P(A | T,L,λ)代表一韻律參數模型,用來描述經語速正規化後之第一語言之韻律參數(A)受韻律標記(T)以及語言參數(L)的影響;P(T | L,x,λ)代表一韻律標記模型,用來描述韻律標記如何受到語言參數(L)和語速(x)的影響。而式(18)的目的就是根據輸入的韻律參數(A)、語言參數(L)以及語速(x),採用最大相似度法則(Maximum Likelihood Criterion)並使用特殊設計之疊代演算法,產生以上輸入參數對應之韻律標記(T),並同時建立語速相依韻律模型(λ)。為了說明方便,以下數學式中的語句索引m皆會被省略。
T代表該第一語者之該第一韻律標記A1,係用以描述韻律參數(A)以及語言參數(L)對應的語言韻律結構以及韻律結構中上層韻律成分(或是稱為長期趨勢long-term trend),如第二圖所示,該圖為本發明之一較佳實施例之漢語語音階層式韻律結構示意圖,其顯示此語言韻律結構包含四種韻律成分:音節、韻律詞、韻律片語及呼吸群組或韻律片語群組。T={B,P}在式(18)中的數學意義為代表一韻律標記序列,其中為韻律斷點序列;B n {B0,B1,B2-1,B2-2,B2-3,B3,B4,Be}為韻律斷點,是用來描述音節n和音節n+1之間的韻律停頓狀態,並用來界定韻律成分之邊界;B0代表韻律詞內強連音韻律斷點;B1代表韻律詞內正常韻律斷點;B2-1代表第一類韻律詞韻律斷點,表示音高重置;B2-2代表第二類韻律詞韻律斷點,表示短靜音停頓;B2-3代表第三類韻律詞韻律斷點,表示音節拉長停頓;B3代表韻律片語邊界韻律斷點;B4代表呼吸群組或韻律片語群組邊界韻律斷點;Be代表 語句結束斷點;為韻律狀態序列,用來表示上層韻律成分,也就是韻律詞;韻律片語及呼吸群組或韻律片語群組這三層綜合的音節韻律參數;表示音節音高韻律狀態序列;表示音節時長韻律狀態序列;表示音節能量韻律狀態序列;以及分別代表上層韻律成分在音高輪廓、音節時長、以及音節能量位階的貢獻之韻律參數成份。
式(18)中的A代表該第一語者之該第一語言經語速正規化後的該第四韻律參數P2以及由該第四韻律參數P2進一步得到的其他韻律參數,這些韻律參數有:
(a):經過該第一語者之該第一語言的該第一韻律參數語速正規化器101語速正規化後的音高輪廓。
(b):經過該第一語者之該第一語言的該第一韻律參數語速正規化器101語速正規化後的音節時長。
(c):經過該第一語者之該第一語言的該第一韻律參數語速正規化器101語速正規化後的音節能量位階。
(d):經過該第一語者之該第一語言的該第一韻律參數語速正規化器101語速正規化後的音節間靜音停頓時長,其中代表第n個音節和第n+1個音節之間的音節邊界(之後以第n個接合點表示,juncture n)的靜音停頓時長。
(e)ed={ed n }| n=1~N :其中ed n 代表第n個接合點的能量低點。
(f)pj={pj n }| n=1~N pj n 為跨越第n個接合點的正規化音高差,其定義如下:
其中,sp n (1)為sp n 的第一維度(即音節音高平均值)以及χ t 為聲調t平均音高位階。
(g)dl={dl n }| n=1~N :其中dl n 代表跨越第n個接合點的第一音節拉長因子,定義為:
其中,t n 代表第n個音節的聲調;s n 代表第n個音節的基本音節型態;以及π t 以及π s 分別代表聲調t以及基礎音節類型s影響的平均時長。
(g)df={df n }| n=1~N :其中df n 代表跨越第n個接合點的第二音節拉長因子,定義為:
綜合以上八種參數,式(18)中的A包含sp 'sd 'se 'pd 'edpjdl以及df,也就是A={sp ',sd ',se ',pd ',ed,pj,dl,df},其中sp 'sd '以及se '三種參數是用來描述音節的韻律參數,而其他五種參數pd 'edpjdl以及df是用來描述跨越音節接合點的韻律參數。為了方便分類描述特性,原本參數集合重新建立子集合為A={X,Y},其中X={sp ',sd ',se '}代表音節韻律參數,而Y={pd ',ed,pj,dl,df}代表跨越音節接合點韻律參數。
式(18)中的L代表該第一語者之該第一語言的語言參數序列,也就是,其中{POS,PM,WL}為高階語言參數序列;POSPMWL分別為詞類序列、標點符號序列及詞長序列;而{t,s,f}為低階語言參數序列;tsf分別為聲調、基本音節類別及韻母類別序列。
韻律參數模型P(A|T,L,λ)根據音節韻律參數(X)以及跨越音節接合點韻律參數(Y)之分類,進而展開成:
其中,P(X | T,L,λ X )代表音節韻律聲學模型,而P(Y | T,L,λ Y )代表跨越音節接合點韻律聲學模型,λ X 以及λ Y 分別代表以上兩種模型的參數。
(a)音節韻律聲學模型P(X | T,L,λ X ):
如下式所示再以以下三個子模型來近似:
其中,子模型以及分別代表第n個音節的音高輪廓模型、音節時長模型、音節能量位階模型,λ β λ γ λ ω 分別為三個子模型之參數,所以在本實施例中λ X ={λ β ,λ γ ,λ ω },是假設音高輪廓模、音節時長以及能量位階是由聲調、基礎音節型態、韻母型態、以及韻律狀態等因子以加成方式去結合,其中韻律狀態因子所提供的數值代表語音韻律中的長期趨勢,而聲調、基礎音節型態、韻母型態所提供的數值則代表語音韻律中地域變化,以音節音高輪廓為例:
為模擬之殘餘值;分別為聲調和韻律狀態的影響參數;為在不同韻律斷點情況下向前及向後的連音影響參數;為了方便表示,本實施例以tp n-1表示,也就是;及μ (sp)為音高的全域平均值。基於假設為零平均值(zero mean)和常態分佈,因此可得:
所以音高輪廓模型的參數為。音節時長及能量位階亦是以此方式去實現:
其中,γ x ω x 分別代表音節時長以及音節能量位階受影響因素x的影響參數;音節時長模型參數為λ γ ={γ t ,γ s ,γ q ,μ (sd),R (sd)};而音節能量位階模型的參數為λ ω ={ω t ,ω f ,ω r ,μ (se),R (se)}。因此,參數以及代表的是語音韻律中地域(local)變化,而以及代表的是長期趨勢,也就是代表上層韻律成分:韻律詞、韻律片語及呼吸群組或韻律片語群組這三層綜合的音節韻律聲學特徵。
(b)跨越音節接合點韻律聲學模型P(Y | T,L,λ Y ):
跨越音節接合點韻律聲學模型則以五個子模型近似之,如下式所示:
其中,除了以伽瑪分佈模擬外,其他四種模型皆以常態分佈模擬;因為L n 的空間仍是太大,所以使用決策樹演算法來將L n 分成幾群,而在決策樹的每個樹節點的機率分佈,是將 伽瑪及其他四種常態分佈相乘起來表示。對於每一種韻律斷點型態,都使用上述決策樹演算法來建立決策樹,本實施例中定義了7種韻律斷點,因此共有7顆決策樹。故當統整式(28)時,跨越音節接合點韻律聲學模型參數為
韻律標記模型P(T | L,x,λ)根據韻律標記之類別用以下數學式進行拆解:
其中P(P | B,x,λ P )代表一韻律狀態模型,P(B | L,x,λ B )代表一韻律停頓模型,λ P 以及λ B 分別代表兩模型之參數。
(a)韻律狀態模型P(P | B,x,λ P ):
韻律狀態模型P(P | B,x,λ P )以三個子模型近似之,如下式所示:
其中P(u n |u n-1,B n-1,x,λ u )| u=p,q,r 為一個一階馬可夫模型,且假設機率值為語速x的二次多項式,故使用以下數學式模擬之:
其中,u {p,q,r}代表u可以是音高韻律狀態p、音節時長韻律狀態q、或是音節能量韻律狀態r代表在第n個接合點的為第m種韻律斷點的情況下,第n個音節為第j個韻律狀態轉移至第n+1個音節為第i個韻律狀態的二次多項式之第k個係數。當統整式(31)時, 韻律狀態模型參數為λ P ={λ p ,λ q ,λ r },其中以及
(b)韻律停頓模型P(B | L,x,λ B ):
在韻律停頓模型中,為了讓數學模型處理方便,所以假設每一個音節間接合點對應的韻律斷點是獨立的,如下式:
此機率可用任何方法預估,本實施例中使用決策樹演算法去預估此機率,且每一個決策樹的節點之機率值是用語速x的線性方程式模擬:
其中,c i,m,j 代表第j種語言參數組合(或是第j個樹節點)對於第m種韻律斷點型態線性方程式中第i階係數。當統整式(33)時,韻律停頓模型參數為λ B ={c i,m,j }。
而為了得到該第一語者之該第一語言的該第一語速相依韻律模型104之參數,亦即λ={λ X ,λ Y ,λ P ,λ B },就必須依據式(18)來進行模型參數訓練,其中該進行方法是在適當的韻律斷點和韻律狀態初始化後,以依次序最佳化演算法(sequential optimal algorithm)及最大似然性原則(maximum likelihood criterion)來訓練韻律模型,以獲得最佳之韻律標記(T *={B *,P *}),即為該第一語者之該第一語言的該第一韻律標記A1、以及獲得部分最佳的該第一語者之該第一語言的該語速相依韻律模型(,,,)。
為了加強韻律模型在僅使用語言參數(L)預估韻律斷點(B)以及韻律狀態(P)的能力,在完成依次序最佳化演算法之後,對給定最佳之標記好的韻律斷點B *、語言參數L及語速x,重新使用決策樹演算法讓韻律停頓模型之樹狀結構長的更深,亦即使得決策樹以較多的參數量來描述語言參數、語速以及韻律斷點之間的關係,進而得到一韻律預估使用之韻律停頓模型。此過程使得此韻律停頓模型在韻律產生的過程中,能有更佳地由語言參數以及語速資訊來預估較準確的韻律斷點型態。
另外,為了要讓僅使用語言參數(L)還能更精確地預估韻律狀態P={p,q,r},必須另外訓練一個韻律狀態語法模型:
而上述模型P(P n |L n ,λ PL )又可以由不同類型的韻律狀態分成三個子模型:
這三個子模型{P(u n |L n ,λ u L )| u=p,q,r }皆是使用決策樹演算法得到其參數,為了表示方便,三個子模型可以表示成:P(u n =i|L n =j,λ u L )=g u (i|j),u=p,q,r 式(36)
其中,g u (i|j)代表在決策樹節點j(亦即第j種語言參數組合)情況下,韻律狀態u {p,q,r}為第i個狀態的機率值。當歸納式(36)後,其韻律狀態語法模型的參數為λ PL ={g u (i|j)| u=p,q,r }。因此,最終,完全最佳的語速相依韻律模型之參數集合為,其中以及代表經過決策樹模型訓練後得到之最佳模型參數。
而由與語速相依之該第一韻律標記A1及該第一語速相依韻律 模型建立器103所產生的該第一語者之該第一語言的該第一語速相依韻律模型104,除了包含參數集合為外,還必須包含與語速相依之該第二韻律標記A2及該第二語速相依韻律模型建立器107所需要之參數的先驗機率,亦即參數集合中之各個參數的機率分佈,而這些機率分佈的求取方法如下:
(a)音節韻律聲學模型的參數為λ X ={λ β ,λ γ ,λ ω },其中λ γ ={γ t ,γ s ,γ q ,μ (sd),R (sd)}以及λ ω ={ω t ,ω f ,ω r ,μ (se),R (se)}。在本實施例中,為了運算方便,以下參數:β t β p γ t γ s γ q ω t ω f 以及ω r 皆假設為高斯分佈,其他於λ X 的參數皆為常數。這些假設為高斯分佈的參數,它們對應的高斯分佈參數中的平均值,直接設定成使用式(18)進行模型訓練後得到最佳參數,也就是集合中的參數值。舉例來說:β t ~以及,其中代表經過式(18)進行模型訓練後得到的最佳參數。而高斯分佈參數之變異量的部分,則有兩種求法,一是將原本式(18)進行模型訓練的樣本分成N組隨機選取的樣本(亦即N-fold方法),每一組樣本皆可利用式(18)進行模型訓練後來得出最好之參數,所以可得N組樣本的N組參數來進一步估計其變異量。以的求取為例,當得到N個樣本後,即可估計。採用此方法估計先驗機率之變異量的參數有β t β p γ t γ q ω t 以及ω r
另一種求取高斯分佈參數之變異量的方法則適用於參數量比較多的參數,如:γ s 以及ω f 。以以及為例,B的種類有7類,而對於該第一語言來說,tp的種類則具有25類(5x5),因此以 及各有175個參數(7x5x5);γ s s代表基礎音節型態,而該第一語言的基礎音節型態有411種;另ω f 之中f代表韻母類型,共有40類。對於這些參數γ s 以及ω f 之先驗機率的變異量的求法,在本實施例中是先使用決策樹方法依據這些參數對應的語言參數來產生問題集,再以最大相似概率法來進行決策樹分群,其中γ s 以及ω f 各產生一顆決策樹,以及的決策樹問題集是採用韻律斷點及聲調之資訊所建立的,而γ s 以及ω f 的決策樹問題集則是以一個音節的音素組合成分之發音方法、發音位置以及音素數組合而成。當上述之決策樹建立好後,每個節點皆為一高斯密度函數,γ s 以及ω f 的每一個參數皆會屬於某一個葉節點的資料,這些參數對應之先驗機率的變異量參數便是使用參數所隸屬之葉節點之高斯密度函數的變異量。
(b)跨越音節接合點韻律聲學模型的參數為λ Y ={κ B,L ,θ B,L ,。在本實施例中,為了運算方便,λ Y 中的參數皆假設為高斯分佈,它們對應的高斯分佈參數中的平均值,直接設定成使用式(18)進行模型訓練後得到的參數。舉例來說:κ B,L ~以及,其件代表經過式(18)進行模型訓練後得到的最佳參數。而這些參數的變異量,可用決策樹的方法計算得到,其方法敘述如下,λ Y 中依據不同的韻律斷點型態總共有7顆決策樹,這些決策樹在式(18)訓練完成後便得到最佳的樹狀結構與對應參數值,每個節點上參數的變異量可由該節點所有之子節點之最佳參數做為樣本進行統計。以為例,計算的樣本可由位於節點L子節點之參數κ B,l 得到,也就是,其中l代表節點L所有的子節點集合。其他參數之高 斯分佈變異量也採用相同方法得到。
(c)韻律狀態模型參數為λ P ={λ p ,λ q ,λ r },其中以及。在本實施例中,為了運算方便,λ P 中的參數皆假設為高斯分佈,它們對應的高斯分佈參數中的平均值,直接設定成使用式(18)進行模型訓練後得到的參數,它們對應的高斯分佈參數中的變異量的求取方法,是將原本式(18)進行模型訓練的樣本分成N組隨機選取的樣本(N-fold方法),每一組樣本皆可利用式(18)進行模型訓練得到一最好之參數,所以可得N個樣本進而估計變異量。
(d)韻律停頓模型參數為λ B ={c i,m,j },因為韻律停頓模型參數如同跨越音節接合點韻律聲學模型的參數是以決策樹結構表示。故亦假設所有參數皆是高斯分佈,如c i,m,j ~以及,其中代表經過式(18)進行模型訓練後得到的最佳參數。而這些參數的變異量,可用決策樹的方法計算得到。以的求取為例,計算的樣本可由位於節點j的子節點之參數c i,m,k 得到,也就是,其中k代表節點j所有的子節點集合。另外,韻律預估使用之韻律停頓模型參數與韻律停頓模型參數λ B ={c i,m,j }亦有類似的結構與型式,因此參數的先驗平均值(prior mean)以及先驗變異量(prior variance)之求取方法與λ B 之求取方法相同。
(e)韻律狀態語法模型的參數為λ PL ={g u (i|j)| u=p,q,r }。故亦假設所有參數皆是高斯分佈,如g u (i|j)~以及,其中代表經過式(18)進行模型訓練後得到的最佳參數。因為這些參數亦是以決策樹結構表示,使得變異量之求法如同韻律停頓模型參數為 λ B ={c i,m,j },也就是,其中k代表節點j所有的子節點集合。
此外,上述(a)~(e)中所獲得之平均值及變異量相當於本發明之第一圖中的該第二統計量D2。
該第二語言之該第二韻律參數語速正規化器105之目的在於利用不同語者及不同語言之間類似或共有的語言及韻律特性,讓該第二韻律參數語速正規化器105即使在僅接收到少量該第二語者之該第二語言的語料資料量樣本的情況下,亦可正確地估計出該第二語言之該第二韻律參數語速正規化模型106之模型參數,並利用該第二韻律參數語速正規化模型106將該第二語者之該第二語言的音節音高輪廓、音節時長、以及音節間靜音時長受語速影響的一階及二階統計特性移除,並將不同語速下的韻律參數調整至相同於該第一語者之韻律參數的同一個位準以及動態範圍,以方便利用該第一語者之韻律模型進行學習該第二語言之韻律模型的動作。該第二語者之該第二語言的音節音高輪廓、音節時長、以及音節間靜音時長所使用的正規化函數相同於該第一語者之第一語言的該第一韻律參數語速正規化模型102之對應函數,但對應之參數將採用最大後驗線性迴歸(Maximum A Posteriori Linear Regression,MAPLR)方法訓練求得,用以解決所接收之該第二語者之資料量少且語速涵蓋低的狀況,以下對於以上三類函數(相當於本發明之第一圖中的該第一函式)進行數學式說明:
(a)該第二語者之語言音節音高輪廓正規化是使用式(1)進行z-score正規化,而式(1)中的平均值以及標準差則分別使用式(2)以及式(3)之語速x的線性方程式表示。因為式(2)與式(3)的數學型式相同,以及的求取方法相同。以下是僅描述使用MAPLR方法求 得式(2)中參數之方法:
其中,t {第二語言聲調集合};雷建德係數索引i=0~3;代表相似度函式(likelihood function);w(x)代表該第二語者之該第二語言的該韻律參數相對於該第一語者之該第一語言的語速涵蓋比率,定義為:
std(x(k))以及分別代表該第一語者以及該第二語者之整個語音資料庫之語句語速的標準差;x(k)以及分別代表該第二語者以及該第一語者之第k句語句之語速;μ sp (k,t,i)~代表第k句之該第二語言的語句、第t種語言聲調的第i個音高輪廓之雷建德係數的平均值;+代表受語速x影響之平滑化的第t種語言聲調、且第i個音高輪廓之雷建德係數的預估平均值;v (μ,t,i)為第t種語言聲調的第i個音高輪廓雷建德係數的變異量;for j={0,1}代表先驗機率且~for j={0,1};以及分別代表的先驗平均值(prior mean)以及先驗變異量(prior variance);代表整個該第二語者之該第二語言語料之聲調t的第i個雷建德係數的平均值;代表整個該第二語者之該第二語言語料的語速平均值。因此式(37)中的,代表由式(37)估計出之受語速x影響的平滑化 的第t種語言聲調、且第i個音高輪廓雷建德係數的預估平均值,在該第二語者之平均語速必須通過該第二語者之該第二語言語料之聲調t的第i個雷建德係數的平均值。
然而,在實際情況下,在進行式(37)之MAPLR參數估計動作時,並沒有該第二語言之第t個聲調相關的先驗機率的參數,即表示以及為未知。為了解決此間題,本實施例利用定義該第一語言之聲調和該第二語言之聲調的相似度,再利用此相似度作為一權重係數來由該第一語言之聲調相關之語速正規化參數來合成該第二語言相關之語速正規化參數,數學式如下:
其中,S(t,u)代表該第二語言之第t個聲調和第u個第一語言聲調之間的音高輪廓的相似度;以及分別代表該第一語言之第u個聲調係數的先驗平均值(prior mean)以及先驗變異量(prior variance)。S(t,u)的定義為下式:
其中,AL(t,u)代表第t個語言聲調對於第u個之第一語言聲調中以語者和語言之音高輪廓來計算之平均相似度:
其中,代表該第二語者之第k個語句、第n個音節以雷建德係數表示的該第二語言之音高輪廓,這個音高輪廓的統計特性已正規化 至該第一語者的音高輪廓的平均值以及變異量,其中β u 以及分別代表該第一語者之第u個的第一語言聲調的平均值以及變異量。
(b)該第二語者之該第二語言之音節時長的z-score正規化是以式(7)進行,其中式(7)中的標準差是以b 2b 1以及b 0為係數的式(8)之二次多項式表示,以下是描述使用MAPLR方法求得式(8)中b 2b 1以及b 0之方法:
其中,P(σ sd |b 0,b 1,b 2)是描述以語句為單位觀測到的該第二語者之音節時長的標準差σ sd ={σ sd (k)} k=1~K σ sd (k)代表第k句之該第二語者之該第二語言語句所統計出來的音節時長的標準差;{P(b i )} i=0~2代表以式(9)以及式(10)所估計的先驗機率;代表該第二語者之所有以語句為單位估計之平均音節時長的標準差;以及相似度函式P(σ sd |b 0,b 1,b 2)可以下式展開:
其中,v sd 代表以語句為單位觀測到的σ sd (k)之變異量。在本實施例中,v sd 是設定為由該第一語者以語句為單位觀測到的σ sd (k)以語速的二次方程式進行最小平方配適後估計結果的均方誤差(Mean Squared Error,MSE)。
(c)該第二語者之該第二語言的靜音時長語速正規化參數,即 為式(14)以及式(15)的型式是與該第二語者之音節時長的z-score正規化之型式相同,因此以及的估計方法與式(43)相同。
由式(37)以及式(43)型式得到的語速正規化參數後,便可以使用式(1)、式(7)以及式(11)來對該第二語者之該第二語言的音高輪廓、音節時長、以及音節間靜音時長進行語速正規化,得到該第二語者之該第二語言之語速正規化的該第五韻律參數P4,使得該第三韻律參數P3受語速影響的一階及二階統計特性移除。
當完成該第二語言之該第二韻律參數語速正規化器105的動作後,便得到使用於該第二語言之可控制語速之該韻律訊息產生器109所必須使用的該第二語言之該第二韻律參數語速正規化模型106。在本實施例中,該第二韻律參數語速正規化模型106的參數包含式(37)得到之參數{,}*,其中這些參數用於該第二語言之音高輪廓對於該韻律訊息產生器109中語速影響之反正規化;以及以式(43)型式得到之參數{,,}以及參數{,},其中這些參數係分別用於該第二語言之音節時長以及音節間靜音時長對於該韻律訊息產生器109中語速影響之反正規化。以上反正規化之目的則為將正規化後的韻律參數受語速影響之一階以及二階統計特性回復,以展現具不同語速之韻律參數的特性。
該第二語言之該第二語速相依韻律模型建立器107的目的為接收該第二語者之該第二語言之經語速正規化後的該第五韻律參數P4、該第二語者之該第二語速S2之參數、以及該第二語者之該第二語言的該第二語言參數L2後,用以下將說明的韻律模型建立演算法,同時建立該第二語者之該第二語言的該第二語速相依韻律模型108,以及對於該第二語者之語料 庫標記出代表該第二語者語句韻律結構之該第二韻律標記A2。
韻律模型建立演算法
首先,用以下數學式(相當於本發明之第一圖中的該第二函式)利用受語速正規化後的第二語言之韻律參數(A)、語言參數(L)以及語速(x)(分別相當於第一圖中之該第五韻律參數P4、該第二語言參數L2及該第二語速S2),除了進行韻律標記對該第二語言語句以韻律標記(T)標記其韻律結構外,也同時建立部分具有該第二語者之說話方式以及該第二語言特性的該第二語言之該第二語速相依韻律模型108,亦即λ *={λ X ,λ YZ ,λ PS ,λ B }*λ *,T *=arg max λ,T P(λ,T | A,L,x)=arg max λ,T P(λ,T,A,L,x)=arg max λ,T P(T,A | L,x,λ)P(L,x|λ)P(λ)=arg max λ,T P(T,A | L,x,λ)P(λ) 式(45)
其中,P(T,A | L,x,λ)的數學型式與式(18)及其後推導型式相同。在本實施例中,假設λ X ,λ Y ,λ P ,λ B 這些參數的先驗機率為彼此獨立,亦即P(λ)=P(λ X )P(λ Y )P(λ PS )P(λ B )。為了實現式(45),以下描述其方法及步驟:
步驟一 :將所有模型參數先設定為這些參數對應之先驗平均值做為初始值。
步驟二 :由式(46)以跨越音節接合點韻律聲學模型以及韻律停頓模型找尋最佳的韻律斷點序列:B *=arg max B P(Y,Z|B,L,λ YZ )P(B|L,x,λ B ) 式(46)
步驟三 :以式(47)利用音節韻律模型以及韻律狀態模型, 使用維特比搜索(Viterbi Search)找尋最佳之韻律狀態序列:P *=arg max P P(X|B *,P,L,λ X )P(P|B *,x,λ P ) 式(47)
步驟四 :以式(48)、式(49)、式(50)以及式(51)以MAP條件分別估計λ X λ Y λ B 以及λ P
步驟五 :以式(52)利用維特比搜索重新標記韻律斷點:
步驟六 :若韻律斷點以及韻律狀態不再更新,或重新估計之參數已在很小的範圍內改變,則跳至步驟七,否則設定λ X =λ X *以及λ P =λ P *且跳回步驟三。
步驟七 :在給定最佳之韻律標記,也就是B *以及P *下,使用以下數學式以MAP條件估計韻律預估使用之韻律停頓模型以及韻律狀態語法模型λ PL ={λ u L }|u=p,q,r
步驟八 :得到該第二語言之可控制語速的該韻律訊息產生器109所需要的該第二語者之該第二語言的該第二語速相依韻律模型108,其中該模型參數包含:λ X *λ Y *λ P *以及
此外,λ X λ Y λ P 以及λ PL 之該等先驗機率可分為與該第一語言以及該第二語言同時相關之模型參數的先驗機率以及與該第二語 言相關的先驗機率兩類。
<第一語言以及第二語言同時相關之模型參數的先驗機率>
該第一語言以及該第二語言同時相關之複數模型參數的先驗機率包含以下參數集合的先驗機率:λ Y λ B λ P λ PL 以及部分的λ X 參數之先驗機率,其中已下四類參數λ Y λ B λ P 以及λ PL 因描述漢語中之各語言共有的韻律結構特性,如在參數λ Y 中之音節間靜音時長、第n個接合點的能量低點ed n 、跨越第n個接合點的正規化音高差pj n 、跨越第n個接合點的第一音節拉長因子dl n 、以及跨越第n個接合點的第二音節拉長因子df n 。因而,這四類參數是假設在不同漢語語言之間是有相同特性;λ B 以及中的參數因為漢語語言之間有相似之語法結構,所以韻律斷點語法模型參數是各漢語語言之間是共用的;參數集合λ P 以及λ PL 因為是描述韻律狀態受韻律斷點或語法影響的變化,而韻律狀態是表示韻律詞、韻律片語、以及呼吸群組/韻律片語群組總和之高階韻律參數變化,此高階韻律參數變化是各漢語語言之間擁有一致特性;而部分λ X 集合中與韻律狀態有關的子參數,也就是β p γ q 、以及ω r ,它們代表韻律詞、韻律片語、以及呼吸群組/韻律片語群組總和之高階韻律參數變化,所以這些子參數是各漢語語言之間一致之特性。此外,上述參數所對應之先驗機率可由本文段落【0095】至【0101】之內容得之。
<第二語言相關的先驗機率>
與該第二語言相關之複數模型參數之複數子參數的先驗機率包含模型參數λ X 中的複數子參數β t γ t ω t γ s 以及ω f ,該複數子參數都是某個漢語語言的獨特特性並代表地域(local)的韻律變化。 舉例來說,複數子參數β t γ t 、以及ω t 是與語言聲調有關;而複數子參數γ s ω f 與語言之音節結構有關。因此,由於漢語中各語言之聲調與音節結構定義不同,在尚未進行韻律模型建立演算法以獲得與語速相依之該第二韻律標記A2前,是無法得知該複數子參數的先驗機率。為了解決此問題,本實施例中係利用該第一語言和該第二語言之間聲調的相似度以及漢語音節結構相通的特性來由該第一語言的先驗機率合成之,或是由該第一語言的先驗機率之中挑選語言特性最相近的作為語言參數之先驗機率。對於該複數子參數β t γ t ω t 以及,本實施例採用由該第一語言聲調的先驗機率參數合成之方法建立漢語語言β t 的先驗平均值(prior mean)以及先驗變異量(prior variance),如式(55)以及式(56)所表示:
其中,代表第u個第一語言聲調的參數,代表第一語言聲調參數的變異量,γ t ω t 建立它們對應的先驗平均值(prior mean)以及先驗變異量(prior variance)方法如同式(55)及式(56),而求取其對應之先驗平均值(prior mean)方法為式(57):
其中,y {f,b},而之先驗變異量(prior variance)的求法,是將以及各產生一顆決策樹,以及的決策樹問題集是採用韻律斷點以及聲調之資訊所建立的,當決策樹建立好之後, 每個節點皆為一高斯密度函數,以及的每一個參數皆會屬於某一個葉節點的資料,這些參數對應之先驗機率之變異量參數便是使用參數隸屬的葉節點之高斯密度函數的變異量。而γ s 以及ω f 的先驗機率的部分,是以每一個語言之音節和韻母的音節結構以音素之發音方法、發音位置、以及音素數目來表示它們,因為在本文段落【0095】至【0101】之內容已說明第一語言音節和韻母也是用音素之發音方法、發音位置、以及音速數目使用決策樹進行分群,所以每一個語言的基礎音節型態以及韻母型態,皆可由使用第一語言建立好的音節及韻母決策樹中找到發音性質最相近的子節點,而此子節點的平均值以及變異量,就是此語言音節型態或韻母型態的先驗平均值(prior mean)以及先驗變異量(prior variance)。
該韻律訊息產生器109的工作流程可使用以下數學式來說明。首先,利用韻律斷點語法模型,由欲合成之該第二語言語音的語言參數L n (相當於該第三語言參數L3)以及欲合成之該第二語言語音的語速x(相當於該語速S3)輸入,產生以韻律斷點表示的韻律結構,如式(58)表示:
當得到韻律斷點後,可使用韻律狀態語法模型以及韻律狀態模型λ P *以式(59)產生韻律狀態序列:
接著,以音節韻律模型λ X *、以及音節接合點韻律模型λ Y *,使用式(60)產生音高輪廓、音節時長、音節能量位階以及音節間靜音時 長:
其中,以及分別代表語速正規化下所產生的音節音高輪廓、音節時長、音節能量位階、以及音節間停頓時長,最後,採用式(61)的進行韻律參數語速反正規化,也就是將語速對於韻律參數的一階以及二階統計特行之還原動作:
其中,以及為欲合成之該第二語言語音之語速相依的韻律參數,分別代表音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長。
<第一實施例及第二實施例的實驗條件>
以台灣地區使用人口最多的兩個語言(閩南語及客家話)做為測試本發明之該韻律訊息產生裝置100之能力的語言資料,其中閩南語語料為一位男性語者發音,包含229,句(21,143音節)作為調適語料、26句(2488音節)做為測試語料、以及語速範圍為4.5個音節/秒到6.8個音節/秒;以及客家話語料為另一名男性語者發音,包含159句(15,009音節)為調適語料、39句(3711音節)為測試語料、以及語速範圍為4.0個音節/秒到5.38個音節/秒。這兩名漢語語者分別當作本發明中第一實施例與第二實施例的該第二語 者,而第一實施例與第二實施例中該第一語者之該第一語言語料係為國語,該第一語言語料包含1,478個語句,總共183,795個音節且語速範圍為3.4個音節/秒到6.8個音節/秒。根據上述,可清楚了解該第二語言之語料(閩南語語料和客家話語料)內容相對於該第一語言之語料(國語語料)是較少量且語速範圍較窄。
<第一實施例>
根據本發明使用由不同大小之該第二語者之該第二語言的調適語料(亦即閩南語語料)訓練所得之該第二語者之該第二語言的該第二韻律參數語速正規化模型106以及該第二語速相依韻律模型108,並利用該等第二模型106、108在該韻律訊息產生器109中來產生韻律參數之方均根誤差(root mean squared error,RMSE),其中該韻律參數包括音節音高輪廓(sp)、音節時長(sd)、音節能量位階(se)以及音節間靜音時長(sp)。而表一為該韻律訊息產生器109所產生韻律參數及實際測試語料中真實語音韻律參數之間的方均根誤差。
由表一可發現當該第二語言的調適語料的資料量越多的時候,大部分的韻律參數的方均根誤差皆會逐漸變小。雖在音節間靜音時長的部分,在最少量資料的時候就可以達到最小的方均根誤差,這可能是因為僅具有1131個音節的調適資料已涵蓋足以表示測試資料的音節間靜音時長分佈特性。雖然此韻律參數(音節間靜音時長)有與其他韻律參數所展現趨勢不一致的特殊現象,但資料量越多讓方均根誤差逐漸下降的趨勢是合理的,此結果佐證了本發明所提出之該韻律訊息產生裝置100及方法是有效的。
第三圖為本發明之第一實施例的該韻律訊息產生裝置100所產生的韻律斷點以及其對應的音節間靜音時長的示意圖。如第三圖所示,可發現在調適語料沒有涵蓋的慢語速(亦即語速為3.3個音節/秒以及3.6個音節/秒)情況下,相較於較快語速(亦即語速為6.7個音節/秒到4.8個音節/秒之間)情況下,系統會產生較多的短靜音韻律斷點B2-2。且在音節間靜音停頓相關的韻律斷點處,如B2-2、B3以及B4,可以觀察到當語速越慢時,對應的靜音時長越長,此結果是十分符合語速對於音節停頓時長的影響結果。
另外,在本實施例中,還使用平均意見分數(Mean Opinion Score,MOS)以及偏好測驗(preference test)來進行人耳聽覺測試,亦即將傳統習知技術HTS所產生的韻律參數和根據本發明之該韻律訊息產生裝置100所產生的韻律參數,分別以相同的語音合成裝置合成出合成語音,來比較兩者之間的韻律自然度。調適或訓練兩者產生方法的語音資料庫皆為21,143個音節,其中HTS可採用調整它的彈性因子(elastic factor)來產生不 同語速的合成韻律。而此人耳聽覺測試中共有21位受測者聆聽以上兩種韻律產生方法的合成語音,且此兩種方法各產生8種不同語速之合成語音,每種語速各有5篇14到184音節之短句或短文。因此,每個測試者會測試2(種合成方法)*8(種語速)*5(篇文字)=80句合成語句,每位受測者在聽合成語音前,都會先聽真正語者的原音語句,接著兩種韻律產生方法所產生之合成語音會以不同的順序撥放,當聽完這三段語音後,受測者在對於語句給予MOS以及選擇哪種韻律產生方法產生的韻律較為自然或是都一樣自然,其中MOS是由1分到5分來評等的,1分代表合成語音極為不自然,5代表合成語音和真實語音一樣自然。
因此,如表二所示,可輕易得知本發明產生的韻律皆比傳統HTS產生之韻律自然,尤其是在調適語料沒有涵蓋到的語速範圍4.3個音節/秒至3.3個音節/秒的慢語速區間,本發明裝置所產生的韻律仍較HTS方法自然。
<第二實施例>
根據本發明使用由不同大小之該第二語者之該第二語言的調 適語料(亦即客家話語料)訓練所得之該第二語者之該第二語言的該第二韻律參數語速正規化模型106以及該第二語速相依韻律模型108,並利用該等第二模型106、108於該韻律訊息產生器109來產生韻律參數之方均根誤差(RMSE),其中該韻律參數包括音節音高輪廓(sp)、音節時長(sd)、音節能量位階(se)以及音節間靜音時長(sp)。而表三為該韻律訊息產生器109所產生韻律參數及基礎系統所產生之韻律參數的RMSE的比較結果,其中基礎系統係指習知技術「可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組」中使用之最大相似度(Maximum Likelihood,ML)方法來建立模型的系統。
如表三所示,可得知使用本發明之方法及習知技術之基礎系統的方法,在調適資料音節數增加的情況下,RMSE皆會下降。但本發明之方法可讓合成語音之RMSE比習知技術之基礎系統的方法的RMSE還要低,此表示本發明之技術在客觀量化之評量表現是比習知技術優良。
另外,在本實施例中,亦使用MOS以及偏好測驗(preference test)來進行人耳聽覺測試,亦即將上述基礎系統所產生的韻律參數和根據本發明之該韻律訊息產生裝置100所產生的韻律參數,分別以相同的語音合成裝置合成出合成語音,來比較兩者之間的韻律自然度。其中,調適或訓練兩者產生方法的語音資料庫皆為15,009個音節,共有4位受測者聆聽以上兩種韻律產生方法合成語音,兩種方法各產生8種不同語速之合成語音,每種語速各有4篇48到139音節之短句或短文。因此,每個測試者會測試2(種合成方法)*8(種語速)*4(篇文字)=64句合成語句,每位受測者的MOS及偏好測驗的受測方法與之前所述之閩南語語料測試方法同。
由表四可看出本發明產生的韻律均大致能比基礎系統產生之韻律自然,僅有在語速0.23秒/音節之情況下,基礎系統之MOS以及偏好測驗較本發明之方法優良,其可能原因為客家語之調適語料之語速集中在0.23秒/音節,故基礎系統以ML條件訓練出的模型,可較符合測試語料之韻律特性。儘管如此,本發明仍可在客語調適語料沒有涵蓋之語速範圍,合成出較基礎系統更自然之韻律參數。
雖然本發明已以較佳實施例揭露如上,然其並非用以限定本發明之範圍,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧韻律訊息產生裝置
101‧‧‧第一韻律參數語速正規化器
102‧‧‧第一韻律參數語速正規化模型
103‧‧‧第一語速相依韻律模型建立器
104‧‧‧第一語速相依韻律模型
105‧‧‧第二韻律參數語速正規化器
106‧‧‧第二韻律參數語速正規化模型
107‧‧‧第二語速相依韻律模型建立器
108‧‧‧第二語速相依韻律模型
109‧‧‧韻律訊息產生器
DE1、DE2‧‧‧韻律訊息產生單元
S1‧‧‧第一語者之語速
L1‧‧‧第一語者之第一語言的語言參數
P1、P2‧‧‧第一語者之第一語言的韻律參數
D1、D2‧‧‧統計資料
S2‧‧‧第二語者之語速
L2、L3‧‧‧第二語者之第二語言的語言參數
P3、P4‧‧‧第二語者之第二語言的韻律參數
A1、A2‧‧‧韻律標記
S3‧‧‧語速
P5‧‧‧韻律參數

Claims (10)

  1. 一種韻律訊息產生裝置,包括:一第一韻律訊息產生單元,基於源自一第一語者所講一第一語言的一第一訊息,來產生該第一語言的一第一統計資料、一第一韻律參數語速正規化模型、一第二統計資料和一第一語速相依韻律模型;一第二韻律訊息產生單元,提供一第一函式資料單元和一第二函式資料單元,並基於該第一統計資料、該第一韻律參數語速正規化模型、該第二統計資料、該第一語速相依韻律模型及源自一第二語者所講一第二語言的一第二訊息,來產生該第二語言之一第二韻律參數語速正規化模型以及一第二語速相依韻律模型,其中:一第一函式資料單元,其中該第一函式資料單元具一第一函式且該第一函式包括一相似度函式、基於該第二訊息、該第一統計資料和該第一韻律參數語速正規化模型,來產生能參與該第二語言之音高輪廓、音節時長及/或靜音時長之語速正規化的一第一複數參數、並根據該第一複數參數建構該第二語言的該第二韻律參數語速正規化模型,其中該第一函式採用一最大後驗線性迴歸(MAPLR)演算法估計該第一複數參數,且該相似度函式用以關聯該第一語言與該第二語言之間之音高輪廓、音節時長及/或靜音時長;及一第二函式資料單元,其中該第二函式資料單元具該第二函式且該第二函式包含與該第一語言及該第二語言同時相關之第二複數參數或單獨與該第二語言相關之第三複數參數中任一參數的複數子參數;以及該第一函式資料單元在一最大後驗(MAP)條件下,基於該第一訊息、該第二訊息、及該第二複數參數或該複數子參數來產生與語速相依之一參考訊息,俾根據該參考訊息建構該第二語言之該第二語速相依韻律模型;以及一韻律訊息產生器,基於該第二韻律參數語速正規化模型、該第二語速相依韻律模型、合成一第二語言語音之一所欲語速、和所欲合成之一第二語言內容,來產生該第二語言內容之一第一韻律參數。
  2. 如申請專利範圍第2項所述之韻律訊息產生裝置,其中: 該第一語言和該第二語言皆屬於漢語,且分別選自國語、吳語、粵語、閩南語、湘語、客家語、以及贛語的其中之一;該韻律訊息產生裝置基於該第一函式和該第二函式,來達成從該第一語言中學習該第二語言、並從該第一語者之說話方式中模仿出該第二語者之說話方式、以及控制該所欲語速;該韻律訊息產生裝置根據該第一韻律參數,可使用任一語音合成器來合成出具有不同語言間之轉換能力、任一指定語速、及不同語者之說話方式的合成語音訊號。該第一訊息包含該第一語言之一第一語速、一第一語言參數及該第二韻律參數;該第二訊息包含該第二語言之一第二語速、一第二語言參數及一第三韻律參數;該所欲合成之該第二語言內容為該第二語言語音之一所欲語言參數;該第一韻律訊息產生單元基於該第一訊息,來執行相關於訓練樣本估計的N-fold採樣演算法或決策樹演算法,以產生該第一統計資料和該第二統計資料;該第一統計資料包含一第一統計量和一第二統計量,該第一和該第二統計量分別代表該第一語言之聲調的一第一平均值以及一第一變異量;該第二統計資料包含一第三統計量和一第四統計量,該第三和該第四統計量分別代表該第一語言的與語速相依之聲調的一第二平均值以及一第二變異量;以及該第二複數參數及第三複數參數包含λX、λY、λP、λB、或λPL, 且該複數子參數包括β t γ t ω t γ s 以及ω f ,其中該複數子參數的複數變異量係由執行相關於訓練樣本估計的N-fold採樣演算法或決策樹演算法所獲得。
  3. 如申請專利範圍第2項所述之韻律訊息產生裝置,其中:該第一韻律訊息產生單元還包括: 一第一韻律參數語速正規化器,基於該第一語速、該第一語言參數以及該第二韻律參數來產生一第四韻律參數、該第一統計資料和該第一韻律參數語速正規化模型;及一第一語速相依韻律模型建立器,基於該第一語速、該第一語言參數以及該第四韻律參數,來產生一第一韻律標記、該第二統計資料和該第一語速相依韻律模型;該第二韻律訊息產生單元還包括一第二韻律參數語速正規化器及一第二語速相依韻律模型建立器,其中該第二韻律參數語速正規化器包含該第一函式資料單元和該第二語速相依韻律模型建立器包含該第二函式資料單元;當一第一特定條件被符合時,該第一函式採用該最大後驗線性迴歸(MAPLR)演算法,來產生能參與該第二語言之音高輪廓、音節時長及/或靜音時長之語速正規化的該第一複數參數外,並能將該第三韻律參數受該第二語速影響之一階以及二階統計特性移除,以產生一第五韻律參數;該第二韻律參數語速正規化模型包含源自該第二語者所講之該第二語言的一音節音高輪廓正規化模型、一音節時長正規化模型、以及一靜音時長語速正規化模型,其中該等模型係分別將該第二語言之音高輪廓、音節時長以及音節間靜音時長中受該第二語速影響之統計特性移除;當該第一特定條件被符合時,該第二函式採用一最大後驗(MAP)條件,基於該第一訊息、該第二訊息、及該第二複數參數或該複數子參數來產生與語速相依之一參考訊息,並根據該參考訊息來建構該第二語速相依韻律模型及產生一第二韻律標記;該第一語速相依韻律模型和該第二語速相依韻律模型分別包含該第一語言和該第二語言之一音節韻律聲模型、一跨越音節接合點韻律聲學模型、一韻律狀態模型、一韻律停頓模型、一韻律預估使用之韻律停頓模型以及一韻律狀態語法模型,其中該韻律狀態模型、該韻律停頓模型、以及該韻律預估使用之韻律停頓模型,俾與一語速相關;以及 該第一特定條件包括:該第一語言的該第一語速之範圍係大於該第二語言的該第二語速之範圍;以及該第一語言參數的參數數量與該第二韻律參數的參數數量係分別大於該第二語言參數的參數數量及該第三韻律參數的參數數量。
  4. 如申請專利範圍第3項所述之韻律訊息產生裝置,其中:該第二語速相依韻律模型不僅可產生在該第二語者之該第二語速之範圍內,也可外插出不在該第二語者之該第二語速之範圍內而受語速影響之一語言韻律斷點、一韻律狀態以及一語速正規化之韻律參數的一階以及二階統計特性,以用於該韻律訊息產生裝置,來產生具有該第二語言語音之語速特性之該第一韻律參數;該語言韻律斷點具有表示該第二語者在某一語速之情況下之說話方式所對應的一韻律結構;該語言韻律狀態序列代表該第二語者在所產生的該韻律結構下、以及某一語速之情況下之說話方式所對應上層韻律成分的音節韻律聲學特徵;以及該語速正規化之韻律參數代表該第二語者在一指定語速下具有該第二語者之說話方式特徵之韻律參數。
  5. 如申請專利範圍第4項所述之韻律訊息產生裝置,其中:該第一語言參數包括該第一語言的詞類、標點符號、詞長、聲調、基本音節類別以及韻母類別;該第二語言參數包括該第二語言的詞類、標點符號、詞長、聲調、基本音節類別以及韻母類別;該第三語言參數包括該第二語言的詞類、標點符號、詞長、聲調、基本音節類別以及韻母類別;該第一韻律參數包含該第二語言的音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長;該第二韻律參數包含該第一語言的音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長; 該第三韻律參數包含該第二語言的音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長;該第四韻律參數包含該第一語言之受語速正規化的音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長;該第五韻律參數包含該第二語言之受語速正規化的音節音高輪廓、音節時長、音節能量位階、以及音節間靜音時長;該第一韻律標記資料包含該第一語者之該第一語言的韻律斷點標記序列、音節音高韻律狀態序列、音節時長韻律狀態序列以及音節能量韻律狀態序列;以及該第二韻律標記資料包含該第二語者之該第二語言的韻律斷點標記序列、音節音高韻律狀態序列、音節時長韻律狀態序列以及音節能量韻律狀態序列。
  6. 一種韻律訊息產生方法,其步驟包含:提供源自一第一語者所講一第一語言的一第一訊息及源自一第二語者所講一第二語言的一第二訊息;基於該第一訊息來產生一第一統計資料、一第一韻律參數語速正規化模型、一第二統計資料和一第一語速相依韻律模型;提供一第一函式資料單元,其中該第一函式資料單元具一第一函式且該第一函式包括一相似度函式、基於該第二訊息、該第一統計資料和該第一韻律參數語速正規化模型,來產生能參與該第二語言之音高輪廓、音節時長及/或靜音時長之語速正規化的一第一複數參數、並根據該第一複數參數建構該第二語言的一第二韻律參數語速正規化模型,其中該第一函式採用一最大後驗線性迴歸(MAPLR)演算法估計該第一複數參數,且該相似度函式用以關聯該第一語言與該第二語言之間之音高輪廓、音節時長及/或靜音時長;提供具一第二函式之一第二函式資料單元,其中該第二函式包含與該第一語言及該第二語言同時相關之第一複數參數或單獨與該第二語言相關之第二複數參數中任一參數的複數子參數;以及該第一函式資料單元在一最大後驗(MAP)條件下,基於該第一訊息、該第二訊息、及 該第一複數參數或該複數子參數來產生與語速相依之一參考訊息,俾根據該參考訊息建構該第二語言之一第二語速相依韻律模型;以及基於該第二韻律參數語速正規化模型、該第二語速相依韻律模型、合成一第二語言語音之一所欲語速、和所欲合成之一第二語言內容,來產生該第二語言內容之一韻律參數。
  7. 一種韻律參數語速正規化器,包括:一第一輸入端,用以接收源自一第一語者所講一第一語言的一第一訊息;一第二輸入端,用以接收源自一第二語者所講一第二語言的一第二訊息;以及一函式資料單元具一函式、基於該第一訊息和該第二訊息,來產生能參與該第二訊息之音高輪廓、音節時長及/或靜音時長之語速正規化的一第一複數參數、並根據該第一複數參數建構該第二語言的一韻律參數語速正規化模型,其中該函式包括一相似度函式並採用一最大後驗線性迴歸(MAPLR)演算法、且該相似度函式用以關聯該第一語言與該第二語言之間之音高輪廓、音節時長及/或靜音時長。
  8. 如申請專利範圍第7項所述之韻律參數語速正規化器,其中:該第一語言和該第二語言皆屬於漢語,且分別選自國語、吳語、粵語、閩南語、湘語、客家語、以及贛語的其中之一;該第一訊息包括基於該第一語言之一第一語速、一第一語言參數以及一第一韻律參數所產生之一第一統計資料和一韻律參數語速正規化模型;以及該第二訊息代表該第二語者所講之該第二語言的一第二語速、一第二語言參數以及一第二韻律參數。
  9. 一種語速相依韻律模型建立器,包括:一第一輸入端,用以接收源自一第一語者所講一第一語言的一第一訊息;一第二輸入端,用以接收源自一第二語者所講一第二語言的一第二訊息;以及 一函式資料單元具一函式,其中:該函式包含與該第一語言及該第二語言同時相關之第一複數參數或單獨與該第二語言相關之第二複數參數中任一參數的複數子參數;以及該函式資料單元在一最大後驗(MAP)條件下,基於該第一訊息、該第二訊息、及該第一複數參數或該複數子參數來產生與語速相依之一參考訊息,俾根據該參考訊息建構該第二語言之一語速相依韻律模型。
  10. 如申請專利範圍第9項所述之語速相依韻律模型建立器,其中:該第一語言和該第二語言皆屬於漢語,且分別選自國語、吳語、粵語、閩南語、湘語、客家語、以及贛語的其中之一;該第一訊息包括基於該第一語言之一第一語速、一第一語言參數以及一第一韻律參數所產生之一第一統計資料和一語速相依韻律模型;以及該第二訊息代表該第二語者所講之該第二語言的一第二語速、一第二語言參數以及基於一第二韻律參數所產生之一第三韻律參數。
TW105112513A 2016-04-21 2016-04-21 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 TWI595478B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW105112513A TWI595478B (zh) 2016-04-21 2016-04-21 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法
US15/337,058 US10192542B2 (en) 2016-04-21 2016-10-28 Speaking-rate normalized prosodic parameter builder, speaking-rate dependent prosodic model builder, speaking-rate controlled prosodic-information generation device and prosodic-information generation method able to learn different languages and mimic various speakers' speaking styles

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105112513A TWI595478B (zh) 2016-04-21 2016-04-21 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法

Publications (2)

Publication Number Publication Date
TWI595478B TWI595478B (zh) 2017-08-11
TW201738878A true TW201738878A (zh) 2017-11-01

Family

ID=60089122

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105112513A TWI595478B (zh) 2016-04-21 2016-04-21 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法

Country Status (2)

Country Link
US (1) US10192542B2 (zh)
TW (1) TWI595478B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI833065B (zh) * 2021-02-17 2024-02-21 緯創資通股份有限公司 網路優化器及其網路優化方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3446311A1 (en) * 2016-04-22 2019-02-27 Sony Mobile Communications Inc. Speech to text enhanced media editing
JP6646001B2 (ja) 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
IL255954A (en) 2017-11-27 2018-02-01 Moses Elisha Extracting content from speech prosody
US10418025B2 (en) * 2017-12-06 2019-09-17 International Business Machines Corporation System and method for generating expressive prosody for speech synthesis
WO2019203794A1 (en) 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
EP3723082B1 (en) * 2018-04-16 2023-09-06 Google LLC Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
KR102464338B1 (ko) * 2018-05-11 2022-11-07 구글 엘엘씨 클록워크 계층적 변이 인코더
TWI705338B (zh) * 2018-06-14 2020-09-21 大陸商北京嘀嘀無限科技發展有限公司 使用條件隨機域模型確定文本屬性的系統及方法
CN110288975B (zh) * 2019-05-17 2022-04-22 北京达佳互联信息技术有限公司 语音风格迁移方法、装置、电子设备及存储介质
TWI721516B (zh) * 2019-07-31 2021-03-11 國立交通大學 用以產生局部倒語速之估計値之方法與據以產生局部倒語速之預測値之裝置與方法
CN110782875B (zh) * 2019-10-16 2021-12-10 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
CN112652309A (zh) * 2020-12-21 2021-04-13 科大讯飞股份有限公司 一种方言语音转换方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US7321852B2 (en) * 2003-10-28 2008-01-22 International Business Machines Corporation System and method for transcribing audio files of various languages
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
US9508338B1 (en) * 2013-11-15 2016-11-29 Amazon Technologies, Inc. Inserting breath sounds into text-to-speech output
US10127927B2 (en) * 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
US9570065B2 (en) * 2014-09-29 2017-02-14 Nuance Communications, Inc. Systems and methods for multi-style speech synthesis

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI833065B (zh) * 2021-02-17 2024-02-21 緯創資通股份有限公司 網路優化器及其網路優化方法

Also Published As

Publication number Publication date
TWI595478B (zh) 2017-08-11
US10192542B2 (en) 2019-01-29
US20170309271A1 (en) 2017-10-26

Similar Documents

Publication Publication Date Title
TWI595478B (zh) 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法
Shobaki et al. The OGI kids’ speech corpus and recognizers
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
Jemine Real-time voice cloning
CN101751922B (zh) 基于隐马尔可夫模型状态映射的文本无关语音转换系统
CN107103900A (zh) 一种跨语言情感语音合成方法及系统
Fan et al. Speaker and language factorization in DNN-based TTS synthesis
Přibil et al. GMM-based speaker gender and age classification after voice conversion
CN103680491B (zh) 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
TWI721516B (zh) 用以產生局部倒語速之估計値之方法與據以產生局部倒語速之預測値之裝置與方法
Peabody et al. Towards automatic tone correction in non-native mandarin
TWI467566B (zh) 多語言語音合成方法
Gao et al. Articulatory copy synthesis using long-short term memory networks
Chen et al. An investigation of implementation and performance analysis of DNN based speech synthesis system
Phan et al. Improvement of naturalness for an HMM-based Vietnamese speech synthesis using the prosodic information
Yamashita et al. Automatic scoring for prosodic proficiency of English sentences spoken by Japanese based on utterance comparison
Nakagawa et al. A statistical method of evaluating pronunciation proficiency for English words spoken by Japanese
El Ouahabi et al. Amazigh speech recognition using triphone modeling and clustering tree decision
Chen et al. Research on Dungan speech synthesis based on Deep Neural Network
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
Li et al. English sentence pronunciation evaluation using rhythm and intonation
Reddy et al. DNN-based bilingual (Telugu-Hindi) polyglot speech synthesis
Bhushan et al. HMM and Concatenative Synthesis based Text-to-Speech Synthesis
Govender et al. Objective measures to improve the selection of training speakers in HMM-based child speech synthesis
Niu et al. Prosody-Enhanced Mandarin Text-to-Speech System