201108203 六、發明說明: 【發明所屬之技術領域】 本發明係關於一種用於產生一合成語音之語者調適技 術,且更特定§之,係關於一種基於基頻之語者調適技 術。 【先前技術】 以往,作為一種用於產生一合成語音之方法已知一種 用於該合成語音之語者調適的技術。在此技術中,執行語 曰合成以使得一合成語音可聽起來如同目標語者語音之語 曰(其不同於系統之參考語音)(例如,專利文獻丨及2)。作 為另一種用於產生一合成語音之方法,已知一種用於說話 風格調適(speaking-style adaptati〇n)之技術。在此技術 中’ S —所輸入之文子變換成一語音信號時,產生一具有 才s疋說话風格之合成§吾音(例如,專利文獻3及4)。 在此5吾者調適及活語風格調適之過程中’重現一語音之 音高(即,重現一基頻(F0))對於重現該語音之效果係重要 的。以下方法以往已知為用於重現基頻之方法。具體言 之,該等方法包括:線性地變換一基頻之簡單方法(參見 (例如)非專利文獻1 ),此簡單方法之變型(參見(例如)非專 利文獻2);及藉由咼斯(Gaussian)混合模型(GMM)來模型 化頻譜及頻率之連結特徵向量的方法(參見(例如)非專利文 獻3)。 [引用清單] [專利文獻] 148216.doc 201108203 [專利文獻1]曰本專利申請公開案第1 1-52987號 [專利文獻2]日本專利申請公開案第2003-337592號 [專利文獻3]曰本專利申請公開案第7-92986號 [專利文獻4]曰本專利申請公開案第10-1 1083號 [非專利文獻] [非專利文獻 1]Z. Shuang、R. Bakis、S. Shechtman、D. Chazan ' Y. Qin之「Frequency warping based on mapping format parameters」,Proc· ICSLP,2006年9月,Pittsburg PA,USA。 [非專利文獻 2]B. Gillet、S. King 之「Transforming 基頻 Contours」,Proc· EUROSPEECH 2003。 [專矛1J 文獻 3]Yosuke Uto 、 Yoshihiko Nankaku ' Akinobu Lee、Keiichi Tokuda之「Simultaneous Modeling of Spectrum and 基頻 for Voice Conversion」,IEICE Technical Report, NLC 2007-50,SP 2007-117(2007-12)。 【發明内容】 [技術問題] 然而,非專利文獻1之技術僅偏移一基頻型樣之一曲 線,而不改變該基頻型樣之形式,該基頻型樣表示一基頻 之一時間改變。由於一語者之特徵出現於該基頻型樣之形 式的若干波中,因此不可使用此技術來重現該語者之此等 特徵。另一方面,非專利文獻3之技術具有比非專利文獻1 及2之技術之準確度高的準確度。 然而,由於需要結合頻譜得知基頻之一模型,非專利文 148216.doc 201108203 獻3之技術具有需要大量得知資料的問題。非專利文獻3之 技術進一步具有不能夠考慮諸如重音類型及音拍位置 (mora position)之重要情境資訊(c〇ntext inf〇rmati〇n)的問 題及不能夠重現在時間軸方向上之偏移(諸如,重音核 (accent nucleus)之早期出現或延遲上升)的問題。 該等專利文獻1至4各自揭示一種藉由使用表示一目標語 者或一指定說話風格之特徵之一頻率型樣的差別資料來校 正一參考語音之-頻率型樣的技術。然而,該等文獻中= 任一者並不描述計算將藉以校正該參考語音之頻率型樣的 該差別資料之特定方法。 已形成本發明來解決上述問題,且本發明具有一提供 種技術之目標’可使用該技術基於僅少量之得知資料來準 確地重現-目標語者語音之—基頻的特徵。另彳,本發明 之另-目標為提供—種在重現該目標語者語音之該基頻之 該等特徵的難中可考慮諸如重音類型及音拍位置之重要 情境資訊的技術。此外,本發明之又—目標為提供一種可 重現一目標語者語音-基頻之特徵(包括在時間軸方向上 之偏移,諸如,"核之早期出現或延遲上升)的技術。 [問題之解決方案] 一為解決上述問題,本發明之第一態樣提供一種用於得; 一參考語音之—基頻型樣與-目標語者語音之一基姻 之間的偏移量的得知裝置’該基頻型樣表示—基頻之一日 間改:,該得知裝置包括:關聯構件,其用於藉由將一名 知文子之該參考語音之—基頻型樣的波峰及波谷與該得矣 1482I6.doc 201108203 文字之該目標語者語音之—基頻型樣的相應波峰及波谷相 關聯而將該參考語音之該基頻型樣與該目標語者語音之 該基頻型樣相關聯.;偏移量計算構件,其用於參考該關聯 =-結果而計算該目標語者語音之該基頻型樣上的點中^ 每-者相對於該參考語音之該基頻型樣上的—相應點的偏 移量,該等偏移量包括在時間軸方向上之—偏移量及在頻 率軸方向上之1移量;及得知構件,其用於藉由使用藉 由=析該得知文字而獲得之語言資訊作為—輸入特徵向^ 且藉由使用因此計算出之該等偏移量作為—輸出特徵向量 來得知一決策樹。 此處,該參考語音之該I頻型樣可為一合成語音之—基 頻型樣,其係使用一充當一參考之特定語者(下文中稱作 源語者)的一統計模型而獲得。另外,由該偏移量計算構 件計算出之在該頻率軸方向上的該偏移量可為一頻率之對 數的偏移量。 較佳地,該關聯構件包括··仿射變換(郝削刪如咖丨⑽) 集合計算構件,其用於計算用於將該參考語音之該基頻型 樣變換成具有㈣於$目標語者語音之該㈣型樣的一最 小差別的一型樣的仿射變換集合;及仿射變換構件,其用 於在將該基頻型樣之-時間軸方向及—頻率軸方向分別視 作一X軸及一γ軸的情況下,將該參考語音之該基頻型樣 上的該等點中之每一者與該目標語者語音之該基頻型樣上 的該等點中之—者相關聯’該等點中之該-者之X座標值 相同於藉由使用該等仿射變換中之一相應者變換該參考語 148216.doc 201108203 音之該基頻型樣上的該點而獲得的一點。 更佳地,該仿射變換集合計算構件將一語調片語 (intonation phrase)設定為用於獲得該等仿射變換之一處理 單元的一初始值,且遞歸地等分該處理單元直至該仿射變 換集合汁鼻構件獲得將該參考語音之該基頻型樣變換成具 有相對於該目標語者語音之該基頻型樣的一最小差別的二 型樣的該等仿射變換為止。 較佳地,由該關聯構件進行之該關聯及由該偏移量計算構 件進行之該偏移量計㈣基於餘或音素(ph_me)來執行。 較佳地’該得知裝置進—步包括改變量計算構件,其用 於計算該等計算出之偏移量中之每一者 ^ ^ 有之母兩個相鄰點之 間的-改變量。該得知構件藉由使㈣等偏移量及該等各 別偏移量之料改變量作為該輪出特徵向量來得知該決策 樹,該等偏移量為靜態特徵向量、 说寻汉變量為動態特徵 ^ 可巴枯•一主 動態特徵向量,其表示該偏移量之—傾度;及— 特徵向量,其表示該偏移量之—曲度。 該改變量計算構件進一步計算該目標語者語音之該美 型樣上之每兩個相鄰點之間的在該時間轴方向上及在^ 率軸方向上的改變量,得知構件藉 : 語=之該基頻型樣上之每-點的在該時間轴Si 藉由額=Γ方向上之一值作為該等靜態特徵向量 額卜地使用在該時間轴方向上之該改變量及在該頻 148216.doc 201108203 =方:上之該改變量作為該等動態特徵向量來得知該決策 2對該所得知之決策樹之葉節財的每—者,該得知 募牛獲付指派給該葉節點之該等輸出特徵向量中之每一者 的—分佈,及該等輸出特徵向量之組合中之每—者的一分 佈。注意,在該頻率轴方向上之一點之值及在該頻率袖方 向上之該改變量可分別為一頻率之對數及一頻率之對數的 一改變量。 更佳地’針對該決策樹之葉節點中的每—者,該得知構 件藉由使用一多維單一或高斯混合模型職)來產生指派 給該葉節點之該等輸出特徵向4中之每一纟之一分佈的一 模型。 刀、 更佳地,該目標語者語音之該基頻型樣上的該等點中之 每一者之該等偏移量係基於訊框或音素來計算出。 該語言資訊包括關於一重音類型、一詞性化⑽〇f speech)、一音素及一音拍(m〇ra)位置中之至少一者的資訊。 為解決上述問題,本發明之第二態樣提供一種基於一參 考語音之一基頻型樣來產生一目標語者語音之一基頻型樣 的基頻型樣產生裝置,該基頻型樣表示一基頻之一時間改 變,該基頻型樣產生裝置包括:關聯構件,其用於藉由將 一得知文字之該參考語音之一基頻型樣的波峰及波谷與該 得知文字之該目標語者語音之一基頻型樣的相應波峰及波 谷相關聯,而將該參考語音之該基頻型樣與該目標語者語 音之該基頻型樣相關聯;偏移量計算構件,其用於參考节 關聯之一結果而計算構成該目標語者語音之該基頻型樣的 148216.doc 201108203 時間數列點t之每-者相料構成該參考語音之該基頻型 樣的時間數列點中之—相應者的偏移量,該等偏移量包括 在時間軸方向上之一偏移量及在頻率軸方向上之一偏移 量丄改變量計算構件,❹於計算該等計算出之偏移量中 之每一者之每兩個相鄰時間數列點之間的一改變量;得知 冓牛’、用於藉由使用輸入特徵向量且藉由使用輸出特徵 向量來得知-決策樹,且用於獲得指派給該所得知之決策 樹之葉節點中之每一者的該等輸出特徵向量的分佈,該等 輸入特徵向量為藉由剖析該得知文字而獲得之語言資訊, 該等輸出特徵向量包括該等偏移量作為靜態特徵向量且包 括該等各別偏移量之該等改變量作為動態特徵向量;分佈 序列預測構件,其用於將藉由剖析—合成文字而獲得之語 言資訊輸入至該決策樹中,且預測該等各別時間數列點處 之該等輸出特徵向量的分佈;最佳化處理構件,其用於藉 由獲得該等偏移量之一序列來最佳化該等偏移量,該序列 最大化自該等輸出特徵向量之該等所預測之分佈之一序列 计算出的一似然度;及目標語者基頻型樣產生構件其用 於藉由將該等偏移量之該序列與該合成文字之該參考語音 的該基頻型樣相加來產生該合成文字之該目標語者語音的 一基頻型樣。注意,由該偏移量計算構件計算出之在該頻 率軸方向上的該偏移量可為一頻率之對數的偏移量。 為解決上述問題,本發明之第三態樣提供一種基於一參 考语音之一基頻型樣來產生一目標語者語音的一基頻型樣 的基頻型樣產生裝置,該基頻型樣表示一基頻之一時間改 148216.doc •10- 201108203 變,該基頻型樣產生裝置包括:關聯構件,其用於藉由將 一得知文字之該參考語音之一基頻型樣的波峰及波谷與該 得知文字之該目標語者語音之一基頻型樣的相應波峰及波 谷相關聯,而將該參考語音之該基頻型樣與該目標語者語 音之該基頻型樣相關聯;偏移量計算構件,其用於參考該 關聯之一結果而計算構成該目標語者語音之該基頻型樣的 時間數列點中之每-者相對於構成該參考語音之該基頻型 樣的時間數列點中之一相應者的偏移量,該等偏移量包括 在時間轴方向上之一偏移量及在頻率軸方向上之一偏移 量;改變量計算構件,其用於計算該等偏移量中之每一者 之每兩個相鄰時間數列點之間的一改變量,且計算該目標 語者語音之該基頻型樣上之每兩個相鄰時間數列點之間的 -改變量;得知構件,其用於藉由使用輸人特徵向量且藉 由使用輸出特徵向量來得知一決策樹,且用於針對該料 知之決策樹之葉節點中的每一者,獲得指派給該葉節里占之 該等輸出特徵向量中之每一者的一分佈,及該等輸出特徵 向量之組合中之每一者的一分佈,該等輸入特徵向量為藉 由剖析該得知文字而獲得之語言資訊,該等輸出特徵向量 包括該等偏移量及該目標語者語音之該基頻型樣上的該等 各別時間數列點之值作為靜態特徵向量,纟包括該等各別 偏移量之該等改變量及該目標語者語音之該基頻型樣上的 该等各別時間數列點之該等改變量作為動態特徵向量·分 佈序列預測構件,其用於將藉由剖析_合成文字而獲得之 語言資訊輸入至該決策樹中,且針對該等時間數列點中之 I48216.doc 201108203 每一者’預測該等輸出特徵向量中之每一者的一分佈及該 等輸出特徵向量之該等組合中之每一者的一分佈;最佳化 處理構件,其用於藉由計算來執行最佳化處理,在該計算 中獲付该目標語者語音之該基頻型樣上的該等時間數列點 中之每一者之在該時間軸方向上及在該頻率軸方向上的 值,以便最大化自該等各別輸出特徵向量之該等所預測之 分佈及該等輸出特徵向量之該等組合中之每一纟的該等所 預測之分佈的-序列計算出的__似然度;&目標語者基頻 型樣產生構件’其用於藉由按時間排序在該時間軸方向上 之該值與在該頻率軸方向上之該相應值的組合來產生該目 4下二者„口曰的基頻型樣,該等組合係由該最佳化處理構 件獲得。注意’由該偏移量計算構件計算出之在該頻率軸 方向上的該偏移量可為一頻率之對數的偏移量。類似地, 在^頻率軸方向上之—狀值及在該頻率財向上之該改 變量可分別為一頻率之對數及一頻率之對數的一改變量。 上文已將本發明描述為:該得知裝置,其得知—目標語 者語音之-基頻型樣相對於一參考語音之一基頻型樣的偏 移量’或得知該等偏移量與該目標語者語音之該基頻型樣 的一組合;及該用於藉由使用來自該得知裝置之一得知社 果來產生該目標語者語音之一基頻型樣 可將本發明理解U用於得知—目㈣者語=一: 頻型樣的偏移量或用於得知該等偏移量與該目標語者語音 ,該基頻型樣的—組合的方法;—種用於產生—目標^ 邊曰之一基頻型樣的方法;及一種用於得知一目標語者語 148216.doc •12- 201108203 音之-基頻型樣的偏移量或 語者語音之該基頻型樣的1、仔知該等偏移量與該目標 式由一電腦執行。 D的程式,該等方法及該程 [本發明之有利效應] 在本申請案之發明中,為 率型樣而獲得_目標語 =^參考語音之一頻 扭者&立+ 的頻率型樣,得知該目標 叩者5。日之-基頻型樣_於該參考 偏移量,或得知該等偏移量與 基紅樣的 接λα ^ Α 、邊目彳示6吾者語音之該基頻型 樣的一組合。為進行此得知, 藉由將该參考語音之該基頻 么樣的波峰及波谷與該目標 + β 、 佧0者°°9之该基頻型樣的相應 波峰及波谷相關聯而獲得該箄 于系寺偏移Ϊ。此舉允許重現出現 於該形式之若干波中之玆★五去+ i T之这„。者之特徵。因此,可以高準確 度重現使用該等所得知之偏移量而產生的該目標語者語音 之-基頻型樣的特徵。將自下文實施方式理解本發明之其 他有利效應。 【實施方式】 為更完整地理解本發明及其優點,現結合隨附圖式參考 下文描述。 將在下文中藉由隨附圖式詳細地描述用於執行本發明之 最佳模式。然而’以下實施例並不限制根據申請專利範圍 之範疇之本發明。該等實施例中所描述之特徵組合並非全 部為本發明之解決方案所必需。注意,相同組件遍及該等 實施例之描述具有相同編號。 圖1展示根據該等實施例之得知裝置50及基頻型樣產生 148216.doc -13· 201108203 裝置100之功能組態。在本文中,一基頻型樣表示一基頻 之時間改k,且稱作一基頻型樣。根據該等實施例之得知 裝置50為一種得知自一參考語音之基頻型樣至一目標語者 a之基頻型樣的偏移量或是該目標語者語音之基頻型樣 一其偏移量之一組合的得知裝置。在本文中,一目標語者 浯音之基頻型樣稱作一目標基頻型樣。另外,根據該等實 她例之基頻型樣產生裝置1〇〇為一種包括該得知裝置5〇且 基於參考語音之基頻型樣而使用來自該得知裝置5〇之一得 知結果來產生一目標基頻型樣的基頻型樣產生裝置。在該 等實施例中,一源語者之一語音的基頻型樣用作一參考語 音之基頻型樣,且稱作一源基頻型樣。使用一已知技術, 基於源語者之大量語音資料,預先針對源基頻型樣獲得該 源基頻型樣之一統計模型。 如圖1所展示’根據該等實施例之得知裝置5〇包括一文 子剖析器105、一語言資訊儲存單元丨丨〇、一基頻型樣分析 器115、一源語者模型資訊儲存單元12〇、一基頻型樣預測 器122、一關聯器130、一偏移量計算器14〇、一改變量計 算器145、一偏移量/改變量得知器丨5〇,及一決策樹資訊 儲存單元155。根據該等實施例之關聯器13〇包括一仿射變 換集合計算器134及一仿射變換器136。 此外,如圖1所展示,根據該等實施例之基頻型樣產生 裝置10 0包括得知裝置5 0,以及一分佈序列預測器16 〇、一 最佳化器165及一目標基頻型樣產生器170。下文將描述第 一至第三實施例。具體言之,第一實施例中所描述之内容 148216.doc .14- 201108203 為知知—目標基頻型樣之偏移量的得知裝置50»接著,第 一實施例中所描述之内容為使用來自根據第一實施例之得 知裝置50之一得知結果的基頻型樣產生裝置100。在根據 第二實施例之基頻型樣產生裝置100中,藉由產生「偏移 直」之一模型來執行得知處理,且藉由首先預測「偏移 3」且接著將該等「偏移量」與—「源基頻型樣」相加來 執行用於產生一「目標基頻型樣」之處理。 最後,第三實施例中所描述之内容為:得知裝置50,其 得知一目標語者語音之基頻型樣與其偏移量之一組合;及 基頻型樣產生裝置100,其使用來自該得知裝置50之一得 知結果。在根據第三實施例之基頻型樣產生裝置1⑼中, 藉由產生該「目標基頻型樣」與該等「偏移量」之組合的 一模型來執行得知處理,且藉由直接參考—「源基頻型 樣」經由最佳化來執行用於產生—「目標基頻型樣」之處 理。 (第一實施例) 文字剖析器105接收一文字輸入,且接著對所輸入之文 字執行構詞分析、語法分析及其類似者以產生語言資訊。 該語言資訊包括情境資訊,諸如重音類型、詞性、音素及 音拍位置。注意,在第一實施例中’輸入至文字剖析器 105之文字為用於得知自一源基頻型樣至一目標基頻型樣 之偏移量的一得知文字。 7 語言資訊儲存單元110儲存由文字剖析器1〇5產生之語言 .資訊。如已描述,該語言資訊包括情境資訊,包括重音類 148216.doc •15· 201108203 型、Ssj性、音素及音拍位置中之至少一者。 基頻型樣分析器115接收關於一讀取該得知文字之目標 语者之一語音的資訊的輸入,且分析該語音資訊以獲得該 目標語者語音之基頻型樣。由於可使用一已知技術來完成 此基頻型樣分析,因此省略其詳細描述。舉例而言,可使 用諸如praat、基於小波之技術或其類似者之使用自相關的 工具。基頻型樣分析器115接著將藉由該分析獲得之目標 基頻型樣傳遞至關聯器13〇(稍後將描述)。 源語者模型資訊儲存單元12〇儲存一源基頻型樣之一統 计模型,已藉由得知該源語者之大量語音資料而獲得該統 十模型。可使用一決桌樹、林氏(Hayashi)第一量化法或其 類似者來獲得該基頻型樣統計模型。一已知技術用於得知 該基頻型樣統計模型,且假定在本文中預先準備了該模 型。舉例而言,可使用諸如C4.5及Weka之工具。 基頻型樣預測器122藉由使用儲存於該源語者模型資訊 儲存單元120中之源基頻型樣的統計模型來預測得知文字 之源基頻型樣。具體言之,該基頻型樣預測器122自語言 資訊儲存單元110讀取關於該得知文字之語言資訊,且將 s玄語言資訊輸入至該源基頻型樣之統計模型中。接著,該 基頻型樣預測器12 2獲取自該源基頻型樣之統計模型輸出 的該得知文字之源基頻型樣。該基頻型樣預測器122將所 預測之源基頻型樣傳遞至關聯器13〇(稍後將描述)。 關聯器13 0藉由將得知文字之源基頻型樣及對應於同一 得知文字之目標基頻型樣之相應波峰及相應波谷相關聯, 1482I6.doc -16- 201108203 而將該源基頻型樣與該目標基頻型樣相關聯。一稱為動態 時間扭曲之方法已知為一種用於將兩個不同基頻型樣相關 聯之方法。在此方法中,一語音之每一訊框與另一語音之 相應訊框基於其倒頻譜(cepstrum)及基頻相似性而相關 聯。界定該等相似性允許基頻型樣基於其波峰_波谷形狀 或著重於其倒頻譜或絕對值而相關聯。由於為達成較準破 之關聯而進行的努力研究’本申請案之發明者已提出一種 新方法’其使用除上述方法外之方法。該新方法使用仿射 變換,在該仿射變換中,將一源基頻型樣變換成一近似於 一目標基頻型樣之型樣。由於動態時間扭曲為一已知方 法’因此該等實施例採用使用仿射變換之關聯。下文描述 使用仿射變換之關聯。 使用仿射變換之根據該等實施例之關聯器13〇包括仿射 變換集合計算器134及仿射變換器136。 仿射變換集合計算器13 4計算用於將一源基頻型樣變換 成具有相對於目標基頻型樣的最小差別之一型樣的仿射變 換集合。具體言之,該仿射變換集合計算器134將一語調 片語(吸入段)設定為用以獲得一仿射變換之處理一基頻型 樣之一單元(處理單元)的一初始值。接著,該仿射變換集 合計算器134遞歸地等分該處理單元,直至該仿射變換集 合計算器13 4獲得H基頻型樣變換成具有相對於目 標基頻型樣的最小差別之—型樣的仿射變換且獲得針對新 的處理單元中之每-者的仿輕換為止n仿射變換 集合計算HU4獲得針對每—語調片語之—或多個仿真變 148216.doc 17 201108203 換。將因此獲得之該等仿射變換中之每一者連同一在獲得 仿射變換時使用之處理單元且連同關於由該處理單元界定 之處理範圍之起始點上(在源基頻型樣上)的資訊臨時地儲 存於一儲存區域中。稍後將描述一種用於計算仿射變換集 合之詳細程序^ 參看圖6a至圖7b,描述由仿射變換集合計算器134計算 出之一仿射變換集合。首先,圖63中之圖表展示對應於同 一得知文字之源基頻型樣(參見符號句及目標基頻型樣(參 見符號B)的一實例。在圖6a中之圖表中,水平軸表示時 間,且垂直軸表示頻率。水平軸之單位為音素,且垂直軸 之單位為赫茲(Hz)。如圖6a所展示,水平軸可使用音素數 目或音節數目而非秒。圖6b展示一種用於將由符號A表示 之源基頻型樣變換成近似於由符號B表示之目標基頻型樣 的一形式的仿射變換集合。如圖6b所展示,各別仿射變換 之處理單元彼此不同,且語調片語為該等處理單元中之每 一者的最大值。 圖7a展示藉由使用圖讣中所展示之仿射變換集合來實際 上變換源基頻型樣而獲得之變換後源基頻型樣(由符號 示)。如自圖7a清楚地看到,該變換後源基頻型樣之形式 近似於目標基頻型樣(參見符號B)之形式。 仿射變換器136將源基頻型樣上之每一點與目標基頻型 樣上之相應點相關聯。具體言之,在將基頻型樣之時間軸 及頻率軸分別視作X軸及γ軸的情況下,仿射變換器136將 源基頻型樣上之每一點與目標基頻型樣上之一點相關聯, 148216.doc -18- 201108203 目標基頻型樣上之該點之χ座㈣相同於一藉由使用相應 仿射變換來變換源基頻型樣上之該點而獲得的點。更具體 言之,針對源基頻型樣上之該等點(Xs,Ys)中的每—者, 仿射變換器136藉由使用一針對相應範圍獲得之仿射變換 來變換X座標xs,且因此獲得Xt。接著,仿射變換器獲 侍一點(Xt,Yt),該點在目標基頻型樣上且使&作為其父座 標。仿射變換器136接著將目標基頻型樣上之點(Xt,γι)與 源基頻型樣上之點(Xs,Ys)相關聯。藉由該關聯而獲得之 結果臨時地儲存於一儲存區域中。注意,可基於訊框或基 於音素執行該關聯。 針對目標基頻型樣上之該等點(Xt,Yt)中之每一者,偏移 量計算器14〇參考由關聯器130進行之關聯的結果,且因此 計算相對於源基頻型樣上之相應點(Xs,Ys)的偏移量(、 yd)。此處,偏移量(Xd,yd)=(Xt,Yt)_(Xs,Ys),且為在時間 軸方向上之一偏移量及在頻率軸方向上之一偏移量。在頻 率軸方向上之偏移量可為藉由將源基頻型樣上之一點之頻 率的對數自目標基頻型樣上之一相應點之頻率的對數減去 而獲得的值。注意,偏移量計算器i40將基於訊框或音素 計算出之偏移量傳遞至改變量計算器145且傳遞至偏移量/ 改變量得知器150(稍後將描述)。 圖7b中之箭頭(參見符號〇)各自展示自源基頻型樣(參見 符號A)上之一點至目標基頻型樣(參見符號B)上之一相應 點的偏移量,已藉由參考由關聯器13〇進行之關聯的結果 而獲得該等偏移量。注意,圖7b中所展示之關聯之結果係 148216.doc •19· 201108203 藉由使用圖6b及圖7a中所展示之仿射變換集合而獲得。 針對由偏移量計算器140計算出之在時間軸方向上及在 頻率軸方向上之偏移量中的每一者,改變量計算器145計 算該等偏移量與一相鄰點之偏移量之間的一改變量。在下 文中此改變量稱為偏移量之改變量。注意,如上文所描 述’可藉由使用頻率之對數來獲得在頻率軸方向上之偏移 量之改變量。在該等實施例中,偏移量之改變量包括一主 要動態特徵向量及一次要動態特徵向量◊主要動態特徵向 量指示偏移量之一傾度,而次要動態特徵向量指示偏移量 之一曲度。在完成三個訊框之近似且第i個訊框或音素之 值為V[i]的情況下,可大體上如下表達一給定值乂之主要 動態特徵向量及次要動態特徵向量: △ V[i]= 〇.5*(ν[ί + 1]-ν[Μ]) Δ2 V[i]= 〇.5*(-V[i+l] + 2V[i]-V[i_i]) 〇 改變量計算器145將計算出之主要及次要動態特徵向量傳 遞至偏移量/改變量得知器15〇(下文將描述)。 偏移量/改變量得知器i 50使用以下資訊項(inf〇_: Piece)作為-輸人特徵向量及—輸出特徵向量來得知一 策樹。具體言之,輸入特徵向量為關於得知文字之㈠ 訊,已自語言資訊儲存單元11〇讀取該語言資訊。輸: 徵向量為計算出之在時間軸方向上及在頻率轴方向上之 移量。注意,在得知-決策樹之過程中,輸出特徵向量 較佳地不僅包括偏移量(其為靜態特徵向量),且亦包括 移量Μ變量(其為動態特徵向量此舉 1482] 6.doc •20· 201108203 使用此處所獲得之結果在稍後之產生目標基頻型樣的步驟 中預測整個片語之最佳偏移量序列。 另外,針對該決策樹之每一葉節點,偏移量/改變量得 知器150藉由使用一多維單一或高斯混合模型(gmm)來產 生指派給該葉節點之輸出特徵向量中之每一者之分佈的模 型。由於該模型化,可獲得每一輸出特徵向量之平均值、 方差及協方差。由於如先前所描述存在一種用於得知一決 策樹的已知技術,因此省略其詳細描述。舉例而言,諸如 C4.5及Weka之工具可用於該得知。 決策樹資訊儲存單元155儲存關於該決策樹之資訊,及 關於該決策樹之每一葉節點的輸出特徵向量中之每一者之 刀佈(平均值、方差及協方差)的資訊,該等資訊由偏移量/ 改變量得知器15G得知並獲得。注意,如先前所描述該 等實施例中之輸出特徵向量包括在時間軸方向上之偏移量 及在頻率軸方向上之偏移量,以及各別偏移量之改變量 (主要及次要動態特徵向量)。 接著參看圖2,描述根據第一實施例之用於藉由得知 裝置50來仔知一目標基頻型樣之偏移量的處理之流程。注 =,下文描述中所描述之「在頻率軸方向上之偏移量」及 在頻率軸方向上之偏移量之改變量」分別包括基於一頻 率之對數的-偏移量,及基於一頻率之對數的偏移量之一 文良s ¢2為展示用於得知自源基頻型樣至目標基頻型 樣:偏:量的處理之整體流程之一實例的流程圖,該處理 由充田传知裝置50之電腦執行。該處理開始於步驟 148216.doc -21- 201108203 200 ’且得知裝置5〇讀取由一使用者提供之一得知文字。 該使用者可經由(例如)一輸入器件(諸如,鍵盤、記錄媒體 讀取器件或通信介s )而將該得知文字提供至得知裝置 50 ° 得知裝置50剖析因此讀取之該得知文字,以獲得包括情 境資訊(諸如,重音類型、音素、詞性及音拍位置)之語言 資訊(步驟205)。接著,得知裝置5G自源語者模型資訊儲存 單元120讀取關於一源基頻型樣之統計模型的資訊,將所 獲付之語言資訊輸入至此統計模型中,且獲取該得知文字 之源基頻型樣作為來自該統計模型之輸出(步驟2 1 。 得知裝置50亦獲取關於讀取同一得知文字之一目標語者 之一語音的資訊(步驟215)。該使用者可經由(例如)一輸入 器件(諸如,麥克風、記錄媒體讀取器件或通信介面)而將 關於該目標語者語音之資訊提供至得知裝置5〇。該得知裝 置5〇接著分析關於所獲得之目標語者語音之資訊,且藉此 獲付该目標語者之基頻型樣(即,目榡基頻型樣κ步驟 220)。 接著,得知裝置50藉由將該得知文字之源基頻型樣及同 一得知文字之目標基頻型樣之相應波峰及相應波谷相關 聯,而將該源基頻型樣與該目標基頻型樣相關聯,且將對 應關係儲存於一儲存區域中(步驟225)。稍後將參看圖3及 圖4描述一種用於該關聯之處理程序的詳細描述。隨後, 針對構成目標基頻型樣之時間數列點中之每一者,得知裝 置50參考所儲存之對應關係,且藉此獲得該目標基頻型樣 148216.doc -22- 201108203 之在時間軸方向上及在頻率軸方向上的偏移量,且將所獲 得之偏移1儲存於一儲存區域中(步驟23〇)。具體言之,每 一偏移量為自構成源基頻型樣之時間數列點中的一者至構 成目標基頻型樣之時間數列點中的一相應者的偏移量,且 因此,其為相應時間數列點之間的在時間軸方向上或在頻 率軸方向上的—差別。 此外,針對該等時間數列點中之每一者,該得知裝置50 自該儲存區域讀取所獲得之在時間軸方向上及在頻率軸方 向上的偏移量,計算各別偏移量之在時間轴方向上及在頻 率軸方向上的改變量,且儲存計算出之改變量(步驟Μ 5)。 偏移量之每一改變量包括一主要動態特徵向量及一次要動 態特徵向量。 最後’得知裝置50使用以下資訊項作為一輸入特徵向量 及-輸出特徵向量來得知一決策樹(步驟24〇)。具體言之, 乂等輸人特後向量為藉由剖析得知文字而獲得之語言資 訊,且該等輸出特徵向量為包括在時間轴方向上及在頻率 軸方向上之偏移量的靜態特徵向量,及對應於該等靜態特 徵向量之主要及次要動態特徵向量。接著,針對因此得知 之決策樹之葉節點φ & 中的每—者,得知裝置5〇獲得指派給此 葉郎點之輸出特徵向| \ “ 内里的刀佈,且將關於所得知之決策樹 的貧讯及關於該等葉節 · 決策樹資訊儲存翠元155二者之刀佈的育訊儲存於 仔早兀155中(步驟245)。接著,該處理結 采0 現在, 描述本中請案之發明者最近提出的—種方法,其 1482l6.doc -23- 201108203 用於遞歸地獲得用於將—源基頻型樣變換成近似於一目標 基頻型樣之一形式的一仿射變換集合。 在此方法中,以語調片語來劃分對應於同—得知文字的 -源基頻型樣及一目標基頻型樣中之每一者,且針對藉由 該劃分而獲得之處理範圍中之每_者,獲得最佳之一^多 個仿射變換。此處’在該等基頻型樣兩者中,針對每一處 理範圍獨立地獲得-仿射變換。—最佳仿射變換為一在一 處理範圍中將—源基頻型樣變換成具有相對於目標基頻型 樣的最小誤差之一型樣的仿射變換。針對每一處理單元獲 得一仿射變換。 具體言之,(例如)在等分-處理單元以產生兩個較小處 理单兀之後,針對兩個新處理單元中之每一者重新獲得一 最佳仿射變換。$判定哪一仿射變換為最佳仿射變換,在 等分該處理單元之前與之後之間作出一比較。具體言之, 比較-㈣變換後源基頻型樣與—目標基頻型樣之二的誤 差平方和。(藉由將藉由該等分獲得之前部分的誤差平^ 和與藉由該等分獲得之後部分的誤差平方和相加來獲得在 等分該處理單元之後的誤差平方和。)注意’在分 源基頻型樣之點與一可等分目標基頻型樣之點的所有組合 中,僅對可使一誤差平方和最小之兩個點之組合作出比 較,以便避免低效率。 若在等分之後的誤差平方和未被判定為足夠小則在等 分之前針對該處理單元而獲得之仿射變換為一最佳仿射變 換。因此’遞歸地執行上述處理序列,直至判定在等分之 148216.doc •24· 201108203 後的誤差平方和不^夠小或在等分之後的處理單元不足夠 大為止。 接著,參看圖3至圖5,詳細描述用於將一源基頻型樣與 一目標基頻型樣相關聯之處理,該等基頻型樣對應於同一 :知文字。圖3為展示用於計算一仿射變換集合的處理之 流程之一實例的流程圖,該處理係由仿射變換集合計算器 執行/主思,針對基於語調片語劃分之兩個基頻型樣 之每-處理單元來執行圖3中所展示之用料算一仿射變 換集合之處理。圖4為展示用於最佳化一仿射變換的處理 之流程之一實例的流程圖,該處理係由仿射變換集合計算 器134執行。圖4展示在圖3中所展示之流程圖中之步U5 及345中執行的處理的細節。 圖5為展示用於進行仿射變換及關聯的處理之流程之一 實例的流程圖,該處理係由仿射變換器136執行。圖5中所 展示之處理係在對所有處理範圍執行圖3中所展示之處理 之後加以執行。注意,圖3至圖5展示圖2中所展示之流程 圖之步驟225中所執行的處理之細節。 在圖3中,該處理開始於步驟期。在步驟3〇〇中,仿射 變換集合計算器134將一語調片组兮宗盔… 门乃°又疋為—針對源基頻型 樣之處理單元(Us(0))的初始值,且設定為—針對目 型樣之處理單元(Ut(0))的初始值。 :土 ^ 恢考仿射變換集合計 算器134獲得-針對處s單元Us(〇)及處理單元叫〇))之一 組合的最佳仿射變換(步驟3〇5)。務後將炎 、 明傻财參看圖4描述用於 進行仿射變換最佳化之處理 P 在獲得仿射變換之 I48216.doc •25- 201108203 後,仿射變換集合計算器134藉由使用因此計算出之仿射 變換來變換源基頻型樣,且獲得變換後源基頻型樣與目標 基頻型樣之間的誤差平方和(此處,誤差平方和表'示: e(〇))(步驟 310)。 接著,仿射變換集合計算器134判定當前處理單元是否 足夠大(步驟315)。當判定當前處理單元並不足夠大(步驟 315 :否)時,該處理結束。另一方面,當判定當前處理單 凡足夠大(步驟315 :是)時,仿射變換集合計算器134獲取 us(o)中之源基頻型樣上之可用以等分Us(〇)的所有點及 ut(o)中之目標基頻型樣上之可用以等分Ut(〇)的所有點作 為臨時點,且以Ps(j)儲存源基頻型樣之所獲取之點中的每 一者,且以Pt(k)儲存目標基頻型樣之所獲取之點中的每一 者(步驟320)。此處,變數j取整數1至1<[,且變數1^取整數工 至]VI。 接著,仿射變換集合計算器134將變數j及變數k中之每 者的初始值设疋為1 (步驟325,步驟330)。接著,藉由仿 射變換集合計算器134,分別將在一點'ο)等分仏(〇)中之 目標基頻型樣之前及之後的處理範圍設定為仏⑴及 Ut(2)(步驟335)。類似地,仿射變換集合計算器134分別將 在一點Ps(l)等分Us(〇)中之源基頻型樣之前及之後的處理 範圍設定為Us(l)及Us(2)(步驟340)。接著,仿射變換集合 计算器134獲得一針對4(1)與1^(1)之一組合及 之一組合中之母一者的最佳仿射變換(步驟345) ^稍後將參 看圖4描述用於進行仿射變換最佳化之處理之細節。 148216.doc -26- 201108203 ★在獲得針對各別組合之仿射變換之後,仿射變換集合計 算益134藉由使用0此計#出之仿射變換來變換該等組合 之源基頻型樣,且獲得各別組合中之變換後源基頻型樣與 目‘基頻型樣之間的誤差平方和e(”及e(2)(步驟。此 處e(i)為針對藉由等分獲得之第一組合而獲得的誤差平 方和,且e(2)為針對藉由等分獲得之第二組合而獲得的誤 差平方和。仿射變換集合計算器工3 4以e( 1, 1)來儲存計算 出之誤差平方和e(1)與e(2)之總和。重複上文所描述之處 理序列(即,自步驟325至355之處理),直至變數j之最終值 為N且變數k之最終值為M為止’變數之初始值及增量 各為1。注意,變數】及k彼此獨立地增加。 在滿足結束該迴圈之條件之後,該處理繼續進行至步驟 360 ’在步驟360處仿射變換集合計算器134識別一組合(1, :)為-具有最小E(j,k)之組合(j,k)。接著,仿射變換:合 4算器134判定E(l,m)是否足夠+於在等分處理單元之前 獲得之誤差平方和e⑼(步驟365)。當Ε(ι,⑷並不足夠小(步 驟365:否)時,該處理結束。另一方面當即,叫足夠小 於誤差平方和e(0)(步驟365 :是)時’該處理繼續進行至兩 個不同步驟,即,步驟370及3 75。 在步驟370中,仿射變換集合計算器134將在點Ps⑴等分 Us(〇)中之源基頻型樣之前的處理範圍設定為—針對源基頻 型樣之處理範圍的新初始值Us(0),且將在點Pt(m)等分 认(〇)中之目標基頻型樣之前的處理範圍設定為—針對源基 頻型樣之處理範圍的新初始值仏⑺)。類似地,在步驟3二 148216.doc -27- 201108203 中,仿射變換集合計算器134將在點匕⑴等分Us(〇)中之源 基頻型樣之後的處理範圍妓為—針㈣基頻型樣之處理 範圍的新初始值us(0),且將在點pt(m)等分Ut(〇)中之目標 基頻型樣之後的處理範圍設^為—針對目標基頻型樣之處 理範圍的新初始值1;价該處理自步驟37()及375獨立地返 回至步驟305,以.遞歸地執行以上描述之處理序列。 接著,參看圆4描述用於最佳化一仿射變換之處理。在 圖4中,該處理開始於步驟4〇〇,且仿射變換集合計算器 134重新取樣基頻型樣中之一者,以使得針對一處理單元 該等基頻型樣可具有相隨目之樣本。接著,仿射變換集 合計算器134計算一變換該源基頻型樣以使得源基頻型樣 與目標基頻型樣之間的誤差可最小之仿射變換(步驟4〇5)。 下文描述如何計算此仿射變換。 假定X軸表示時間且γ軸表示頻率,且在時間軸上之 刻度標記對應於一訊框或音素。此處,(Uxi,Uyi)表示在 成為關聯之目標之範圍中構成源基頻型樣之時間數列點< (X,Y)座標,且(vxi,vyi)表示在此目標範圍中構成目標^ 頻型樣之時間數列點的(X,γ)座標。注意,變數i取整數 至N。由於已完成重新取樣,因此源基頻型樣及目標基g 型樣具有相同數目之時間數列點。此外,該等時間數列專 在X轴方向上相等地間隔。此處將達成的是,使用下文乡 疋之表達式1來獲得用於將(Uxi,Uyi)變換成近似於(Vxi, Ό之(Wxi,wyi)的變換參數(a,b,c,d)。 [表達式1] 148216.doc •28· 201108203 Μ 'a 0' ίαλ \ yj) u V y>1 ) + 首先,論述一X分量。由於X座標Vxi(其為前導點)需要 與X座標Wxl —致,因此自動地得到參數c。具體言之, c Vxl。類似地,由於最後之點之χ座標亦需要相互一致, 因此如下得到參數a。 [表達式2] Q ^ 匕,” — UXin^Ux,\ 接著,論述一γ分量。按照以下表達式定義藉由變換而 獲得之Y座標wyi與目標基頻型樣上之〆點的γ座標Vyi之間 的誤差平方和。 [表達式3] E = =ΣΚ^^)-ν„.}2 ,=| /=1 藉由解答偏微分方程式,分別藉由以下表達式獲得使誤 差平方和最小之參數b及d。 [表達式4]
\2 ;=ι
[表達式5] 1482l6_d0l •29· 201108203 Σ〜- d = —--<=ι η + \ 以上文所k述之方式獲得針對—處理單元之最佳仿射變 換。 返回參看圖4,該處理自步驟4〇5繼續進行至步驟41〇, 且仿射變換集合計算器134判定當前執行之用於獲得最佳 仿射文換之處理疋否針對處理單元及仏⑼。若當前 處理並非針對處理單元_)及Ut⑼(步驟410:否),則該 處理結束。另—方面,若當前處理係針對處理單元us(o)及 ut(0)(步驟410:是)’則仿射變換集合計算器134將在步驟 405中什算出之仿射變換與該當前處理單元相關聯且與源 基頻型樣上之當前處理位置相關聯,且將結果臨時地儲存 於儲存區域中(步驟415)。接著,該處理結束。 參看圖5,接著描述該用於進行仿射變換及關聯之處 理,該處理係由仿射變換器i 3 6執行。在圖5,該處理開始 於步驟500,且仿射變換器136讀取由仿射變換集合計算器 134計算並儲存之仿射變換集合。當針對相應處理位置存 在一個以上之仿射變換時,僅保存一具有最小處理單元之 仿射變換’且刪除其餘仿射變換(步驟5)。 之後,針對構成源基頻型樣之點(Xs,Ys)中之每一者, 仿射變換器136藉由使用針對此處理範圍而獲得之仿射變 換來變換X座標Xs,藉此獲得一值xt(步驟51〇) ^注意,χ 軸及Υ軸分別表示時間及頻率。接著,針對因此計算出之 148216.doc •30· 201108203 每—xt,仿射變換器136獲得γ座標Yt,該γ座標Yt在目標 基頻型樣上且對應於X座標Xt(步驟515)。最後,仿射變換 器136將因此計算出之每一點(Xt,γ〇與—點(Xs,已自 其獲得點(Xt,Yt))相關聯,且將結果儲存於儲存區域中(步 驟520)。接著,該處理結束。 (第二實施例) 接著,返回參看圖i,描述使用來自根據第一實施例之 得知裝置50之一得知結果的基頻型樣產生裝置ι〇〇的功能 組態。包括於基頻型樣產生裝置1〇〇中之得知裝置5〇之構 成部分與第—實施例中所描述者相同,且因此此處不進行 描述。然而,文字剖析器1〇5(其為包括於基頻型樣產生裝 置100中之得知裝置5〇之構成部分中的一者)進一步接收一 合成文字作為輸入文字’將針對該合成文字產生目標語者 之基頻型樣。因此’語言資訊儲存單元UG儲存關於得知 文子之§吾δ資訊及關於該合成文字之語言資訊。 此外在合成模式中操作之基頻型樣預測器丨22使用儲 存於源語者模型資訊儲存單元12〇中之源基頻型樣的統計 模型來預測對應於該合成文字之源基頻型樣。具體言之, 該基頻型樣預測器122自語言資訊儲存單元u〇讀取關於該 合成文字之語言資訊,且將該語言資訊輸入至該源基頻型 樣之統計模型中。接著,基頻型樣預測器122獲取一對應 於該合成文字<源基頻型樣作$來自肖源基頻型樣之統計 模型的一輸出。基頻型樣預測器122接著將所預測之源基 頻型樣傳遞至目標基頻型樣產生器17〇(稍後將描述)。 148216.doc -31- 201108203 分佈序列預測器160將關於該合成文字之語言資訊輸入 至所得知之決策樹中,且藉此預測每一時間數列點之輸出 特徵向量的分佈。具體言之,分佈序列預測器i 6〇自決策 樹資訊错存單元155讀取關於該決策樹之資訊,及關於該 決策樹之每一葉節點之輸出特徵向量的分佈(平均值、方 差及協方差)的資訊。另外,分佈序列預測器〗6〇自語言資 訊儲存單元11 〇讀取關於該合成文字之語言資訊。接著, 分佈序列預測器160將關於該合成文字之語言資訊輸入至 所讀取之決策樹中,且獲取每一時間數列點之輸出特徵向 量的分佈(平均值、方差及協方差)作為來自該決策樹之輸 出。 注意,在該等實施例中,該等輸出特徵向量包括靜態特 徵向量及其動態特徵向量’如先前所描述。該靜態特徵向 量包括在時間軸方向上之一偏移量及在頻率軸方向上之一 偏移里此外,對應於該靜態特徵向量之該動態特徵向量 包括-主要動態特徵向量及一次要動態特徵向量。分佈序 列預測器160將輸出特徵向量之所預測之分佈(平均值、方 差及協方差)的-序列(即,每—輸出特徵向量之一平均值 向量及方差-協方差矩陣)傳遞至最佳化器M5(下文將描 述)。 最佳化器165藉由獲得一偏移量序列來最佳化偏移量, 該偏移量序列最大化自該等輸出特徵向量之分佈之序列計 算出的一似然度。在下女φ ρ .+, 卜文中也述一種用於進行該最佳化處 理之程序。單獨地針對在昧 了隹矸間軸方向上之一偏移量及在頻 148216.doc -32- 201108203 率轴方向上之一偏移量來執行下文描述之用於進行最佳化 處理的程序。 首先’將一輸出特徵值之變數表示為匕,其中丨表示一時 間索引。因此,在針對時間軸方向之最佳化處理的狀況 下,Q為在時間軸方向上之第1個訊框或第丨個音素之偏移 量。類似地,在針對頻率軸方向之最佳化處理的狀況下, Q為第i個訊框或第丨個音素之頻率之對數的偏移量。另 卜對應於Ci之主要動態特徵值及次要動態特徵值分別由 △Ci及yCi表示。如下定義一具有此等靜態及動態特徵值 之觀測向量〇。 [表達式6] ci-\> A2cM]r Δ c.+1 j 如第一實施例中所描述,A及以和之簡單線性 和。因此,可藉由使用具有所有時間點之。之特徵向. 來按照。=We表達觀測向量。。此處,矩陣W滿足以下表 式〇 [表達式7] ,48216.doc -33 - 201108203 w 〜3+U-P Wn+lJ+v 9i3+2,j~\> Wi3+2,j> ^/3+2,7+1 ; ^13+3,7-1 ^ ^13+3,^ > ^3+3,7+1, 〇, 1, 0, -1/2, 0, 1/2, 一 1, 2, — 1, 注意,i3=3(i-l)。 假定已由分佈序列預測器16〇 44 ^ 頂叫蜆測向量〇之分佈之序 歹U。。接者,由於在該等實施 古魟八A m «_ 硯/則向夏〇之分量符合 间斯分佈,因此可按照以下表余彳 表達式表達觀測向量〇相對於 觀測向量〇之所預測之分佈序列λ。的似然度。 [表達式8] A = i〇g^(〇|A0) = \〇%Pr{Wc\X0) = i〇gPr(^c; Μ//05ς0)) = _(^uj τ;χ(ψ〇-ηλ 飞 — + const., 在上述表達式中,μ。及Σ。分別為平均值向量及方差·協方 差矩陣’且為由分佈序列預測器⑽計算出之分佈序列λ。 的内容。此外,用於最大化[,之輸出特徵向量c滿足以下 表達式。 148216.doc 34- 201108203 [表達式9] dc 2--U==0 °藉由使用諸如丘列斯基似士如)分解或最陡下降法 之重複計算來解答此方程式以獲得該特徵向量P因此, °十·#在㈣轴方向上之—偏移量及在頻率軸方向上之— 偏移里中的母—者得到—最佳解。如所描述,最佳化器 165自輸出特徵向量之分佈之序列獲得在時間軸方向上及 在頻率軸方向上之偏移量的一最有可能之序列。最佳化器 :6:接著將在時間軸方向上及在頻率軸方向上之偏移量的 汁异出之序列傳遞至目標基頻型樣產生器i,下文加以 述)。 ^ 曰目禚基頻型樣產生器17〇藉由將在時間軸方向上之偏移 量=序列及在頻率軸方向上之偏移量的序列與對應於合成 文字之源基頻型樣相加而產生一對應於合成文字之目標基 頻型樣。 不土 參看圖8,接著描述用於產生一目標基頻型樣之處理之 流程,該處理係由根據本發明之第二實施例的基頻型樣產 生裝置100執行。圖8為展示用於產生一對應於—源基頻型 樣之目標基頻型樣的處理之整體流程之一實例的流程圖, 該處理係由一充當基頻型樣產生裝置1〇〇之電腦執行。該 處理開始於步驟8〇〇,且基頻型樣產生裝置1〇〇讀取由一使 用者提供之一合成文字。該使用者可經由(例如)一輸入器 148216.doc -35- 201108203 件(諸如,鍵盤、記錄媒體讀取器件或通信介面)而將該合 成文字提供至基頻型樣產生裝置i 00。 基頻型樣產生裝置100剖析因此讀取之該合成文字,以 獲得包括情境資訊(諸如,重音類型、音素、詞性及音拍 位置)之語言資訊(步驟805)。接著,基頻型樣產生裝置1〇〇 自源語者模型資訊儲存單元120讀取關於源基頻型樣之統 計模型的資訊,將所獲得之語言資訊輸入至此統計模型 中,且獲取一對應於該合成文字之源基頻型樣作為來自該 統計模型之輸出(步驟8 10)。 隨後,基頻型樣產生裝置100自決策樹資訊儲存單元155 讀取關於一決策樹之資訊,將關於該合成文字之語言資訊 輸入至此決策樹中,且獲取在時間軸方向上及在頻率軸方 向上之偏移量及該等偏移量之改變量(包括主要及次要動 態特徵向量)的一分佈序列作為來自該決策樹之輸出(步驟 815)。接著,基頻型樣產生裝置1〇〇獲得一最大化自因此 獲得之該等偏移量及偏移量之改變量的分佈序列計算出之 似然度的偏移量序列,且藉此獲取一最佳化之偏移量序列 (步驟820)。 最後,基頻型樣產生裝置1〇〇將在時間軸方向上及在頻 率軸方向上之最佳化之偏移量與對應於合成文字之源基頻 型樣相加,且藉此產生一對應於同一合成文字的目標基頻 型樣(步驟82 5)。接著,該處理結束。 圖9A及圖9B各自展示一藉由使用如第二實施例所描述 之本發明而獲得之目標基頻型樣。注意,圖9 A中所使用之 148216.doc -36- 201108203 合成文字為—在得知文字中之句子,而圖9B中所使用之合 成文字為—併不在得知文字中之句子。在圖9A及圖9B中 2任者令,由符號八表示之實線型樣表示用作參考的源 ^ 曰之基頻型樣,由符號B表示之點劃線型樣表示 藉由實際地分析-目標語者之語音而獲得的基頻型樣,且 由符號C表示之點線型樣表示藉由使用本發明而產生的目 標語者之基頻型樣。 首先,論述圖9A中之基頻型樣。對由符號B表示之基頻 型樣與由符號A表示之基頻型樣的比較使得可看到該目標 者具有以下趨勢:在一片語之結束處具有高頻率的趨勢 (>見符號Ρ1),及頻率波谷向前移動之趨勢(參見符號 Ρ2)。如在由符號C表示之基頻型樣中可見,此等趨勢必然 重現於藉由使用本發明而產生之目標語者之基頻型樣中 (參見符號Ρ1及Ρ2)。 接著,論述圖9Β中之基頻型樣。且,對由符號Β表示之 基頻型樣與由符號Α表示之基頻型樣的比較使得可看到目 標語者具有一在片語之結束處具有高頻率的趨勢(參見符 號P3)。如在由符號(:表示之基頻型樣中可見,此趨勢恰當 地重現於藉由使用本發明而產生之目標語者之基頻型樣中 (參見符號P3)。圖9B中所展示之由B表示之基頻型樣的特 性在於:在第三個語調片語中,第二個重音片語(第二個 頻率波峰)具有一比第一個重音片語(第一個頻率波峰)之波 峰咼的波峰(參見符號P4及P4’)。如在藉由使用本發明而產 生之由符號C表示之基頻型樣中可見,在目標語者之基頻 148216.doc -37· 201108203 型樣中’言式圖減小第一個重音片語且增大第二個重音片語 (參見符號P4及P4’)。藉由將強調位置(在此狀況丁為第二 個重音片語)包括於語言資訊,可能可更明顯地重現此部 分中之特性。 (第三實施例) 返回參看圖1 ’ }田述·得知裝置5 〇,其得知—目標語者 -。曰之基頻型樣與其偏移量之一組合;及基頻型樣產生裝 置100,其使用該得知裝置5〇之一得知結果。根據第三實 施例之得知裝置50之構成部分與第一及第二實施例中所描 述者基本上相同。因此,將僅描述具有不同功能之構成部 刀’即’改變量計算器145、偏移量/改變量得知器150及 決策樹資訊儲存單元155。 第三實施例之改變量計算器145除了具有根據第一實 例:改變量計算器145的功能之外,亦具有以下功能: 體5之’第二貫施例之改變量計算器145針對目標基頻 樣上之每一點計算該點與—相鄰點之間的在時間轴方向 之-改變量及在頻率軸方向上之一改變量。注意,此處 改變量亦包括主要及次要動態特徵向量。頻率轴方向上」 ▲文^里可A頻率之對數的改變量。改變量計算器⑷々 :算出之主要及次要動態特徵向量傳遞至偏移量/改變」 得知器1 50(下文將描述)。 第三實施狀偏移量/改變量得知器⑼使心下資訊巧 :為-輸入特徵向量及一輪出特徵向量來得知一決策樹。 八體言之,輸入特徵向量為自語言資訊儲存草元ιι〇讀承 I482l6.doc -38- 201108203 之藉由剖析得知文字而獲得古次 句括值孩曰28 ’ °σ。貝έ ,且輸出特徵向量 包括偏移罝及目標基頻型 里 旦、、,π > 上之點之值(其為靜態特徵向 里卜以及該等偏移量之㈣量及目標& $ Γ的改變量(其為動態特徵向量)。接著,針對所得^= 束樹之每一葉節點,該偏移量/改變量得知器150獲得指派 給该葉節點之該等輸出特徵向量中之每—者的分佈,及兮 等輸出特徵向量之—組合的分佈。此分佈計算將適用於藉 :使用此處獲得之得知結果來產生—目標基頻型樣的稍後 '驟s為可在絕對值比偏移量具特性之位置處產生該 絕對值之模型。注意’在頻率軸方向上的目標基頻型樣上 之一點之值可為一頻率之對數。 亦在第三實施例中,針對該決策樹之每_葉節點,偏移 量/改變量得知器由❹—多維單—或高斯混合模型 (GMM)來產生指派給該葉節點之輸出特徵向量之分佈的模 型。由於該模型化,可獲得每—輸出特徵向量及該等輸出 特徵向量之組合之平均值、方差及協方差。由於如先前所 描述存在一種用於得知一決策樹的已知技術 因此省略其 詳細描述。舉例而言,諸如C4 5& Weka之工具可用於該決 泉樹得知。 第二實施例之決策樹資訊儲存單元155儲存關於由偏移 量/改變量得知器150得知之決策樹的資訊,以及針對該決 策樹之每一葉節點的關於該等輸出特徵向量中之每一者之 分佈(平均值、方差及協方差)及關於該等輸出特徵向量之 組合之分佈的資訊。具體言之,因此儲存之分佈資訊包括 H8216.doc -39- 201108203 關於以下各者之分佈:在時間軸方向上及在頻率軸方向上 =量;在時間轴方向上及在頻率轴方向上之目標基頻 i樣上之母一點的值;此等偏移量與值之組合,即,在時 間軸方向上之偏移量與在時間軸方向上之目標基頻型樣上 之一相應點的值的組合,及在頻率軸方向上之偏移量斑在 頻率軸方向上之目標基頻型樣上之該相應點的值的組合。 另外,決策樹資訊儲存單元155儲存關於每—偏移量之改 變量及目標基頻型樣上之每一點之改變量的分佈(主要及 次要動態特徵向量)的資訊。 用於藉由根«三實施例之得知裝置5G來得知偏移量的 處理之流程與心藉由根據第—實施狀得知裝置%來得 知偏移量的處理之流程基本上相同。然而,根據第三實施 例之得知裝置5〇進-步執行圖2中所展示之流㈣之步驟 235中的以下處理。具體言之,得知裝置5〇計算在時間軸 方向上及在頻率軸方向上的目標基頻型樣上之每一值的主 要動態特徵向量及次要動態特徵向量,且將計算出之量儲 存於儲存區域中。 在之後的㈣24G中’根據第三實施例之得知褒置叫吏 用以下資訊項作為-輸入特徵向量及一輸出特徵向量來得 知-決策樹。具體言之’輸入特徵向量為藉由剖析得知文 字而獲得之語言資訊,且輸出特徵向量為:靜態特徵向 量’其包括在時間轴方向上之一偏移量、在頻率軸方向上 之-偏移量,及在時間轴方向上之目標基頻型樣上之點的 值及在頻率轴方向上之目標基頻型樣上之點的值;及對庳 148216.doc -40· 201108203 於每一靜態特徵向量之主要動態特徵向量及次要動態特徵 向量。在最後之步驟245中,針對所得知之決策樹之每— 葉節點,根據第三實施例之得知裝置5〇獲得指派給該葉節 點之該等輸出特徵向量中之每一者的分佈,及該等輸出特 徵向里之一組合的分佈。接著,該得知裝置50將關於所得 知之決策樹的資訊及關於針對每一葉節點之該等分佈的資 訊儲存於決策樹資訊儲存單元155中,且該處理結束。 接著,描述使用來自根據第三實施例之得知裝置5〇之— 得知結果的基頻型樣產生裝置i⑽。此處,描述該基頻型 樣產生裝置1〇〇之構成部分中的除得知裝置5〇之外的構成 部分。第三實施例之分佈序列預測器160將關於一合成文 子之6吾a資Sfl輸入至所得知之決策樹中,且針對每一時間 數列點預測輸出特徵向量及該等輸出特徵向量之一組合。 具體言之,分佈序列預測器160自決策樹資訊儲存單元 155讀取關於該決策樹之資訊及針對該決策樹之每一葉節 點的關於該等輸出特徵向量中之每_者及該等輸出特徵向 量之組合的分佈(平均值、方差及協方差)的資訊。另外, 刀佈序列預測器160自語言資訊儲存單元11〇讀取關於該合 成文字之5吾s育訊。接著’分佈序列預測器16〇將關於該 «成文字之語言資訊輸入至因此讀取之決策樹中,且獲取 每一時間數列點之輸出特徵向量及該等輸出特徵向量之一 組合的分佈(平均值、方差及協方差)作 為來自該決策樹之 輸出。 如上文所描述’在該等實施例中,該等輸出特徵向量包 148216.doc •41 · 201108203 括-靜態特徵向量及一對應於該靜態特徵向量之動態特徵 向量。該靜態特徵向量包括在時間軸方向上及在頻率轴方 向上之偏移量,以及在時間軸方向上及在頻率軸方向上之 目標基頻型樣上之點的值。另外,對應於該靜態特徵向量 之該動態特徵向量進一步包括一主要動態特徵向量及一次 要動態特徵向量。分佈序列預測器160將輸出特徵向量及 該等輸出特徵向量之組合的所預測之分佈之序列(亦即, 該等輸出特徵向量中之每一者及該等輸出特徵向量之一組 〇的平均值向量及方差_協方差矩陣)傳遞至最佳化器 165(下文將描述)。 旦最佳化器16 5藉由獲得—偏移量序列來最佳化該等偏移 量,該偏移量序列最大化自該等輸出特徵向量之組合之分 佈序列4算出的-似然度在下文中描述該最佳化處理之 程序。注意’單獨地針對在時間財向上之偏移量盘在時 間軸方向上之目標基頻型樣上之一點的值的組合及在頻率 軸方向上之偏移量與在頻率軸方向上之目標基頻型樣上之 一點的值的組合來執行下文描述之用於進行最佳化處理之 程序。 首先’假定目標基㈣樣上之—點之值為_,且其偏 移量之值s5y⑴。注意’ _與训具有-關係Mi]= yt[j]-ys[i],其中ys[i]為在源基頻型樣上且對應於灿之點 之值。此處,j表示—時間索引。即,當針對時間轴方向 執行該最佳化處料,yt[j]為第j個訊 個訊框蝴個音素處之位置)之在時間轴方向上的素= 148216.doc -42· 201108203 似地,當針對頻率轴方向執行該最佳化 第j個訊框或第j個音辛卢 ' yt[J]為在 a2 . 素處之頻率之對數。另外,ΔνΓη;? 分別表示對庫+ π 1 應於yt[j]之主要動態特徵值 特徵值。類似地,μ… 文值及-人要動態 要動態特徵值及次要動態特徵] 之觀測向量〇。 卜疋義具有此等量 [表達式10] = %[jUytVU2yi[j-]f SsM^y\}U2sy\if 可如下表達如上文所定義之觀測向量〇。 [表達式11] rWyt ^ kJ W5 \ y) W(yt-ys)) = Uyt-Vys 王思…〇rWhv=(〇TwT)T,其中〇表示— 陣,且矩陣w滿足表達式7. " 假定已藉由分佈序列預測器! 6 G預測觀測向量。之分 歹:、。接著’可按照以下表達式表達觀測向量。相: 測向量〇之所預測之分佈序列λ。的似然度。 、 [表達式12] 148216.doc •43- 201108203 L = -^ip-\^〇)T Σό'(〇-μ〇) =-去(冰- μ。’)Γ ς:1 (¢/兄—μ。,) 另外’如先前所描述,ys為在 向上之源基頻型樣上之一點的 此處注意,g〇'=Vys+R。。 時間軸方向上或頻率轴方 值。 在上述表運式中,^及^八。,、 0刀別為一平均值向量及一方差- 協方差矩陣,且為由分佑皮 刀师序列預測器160計算出之分佈序 列λ0的内容。具體言之, 如下表達μ。及Σ。。 [表達式13]
b處庄思μΖ)ί為zy之平均值向量,且叫為#之平均值 向量’其中zy=Wys且dy=wv此處,矩陣㈣滿足表達式 7 〇 [表達式14] 此處注意,Zzyt為針對目標基頻型樣(在時間軸方向上或 頻率軸方向上)之協方差矩陣,且〜為針對—偏移量(在 時間軸方向上或在頻率軸方向上)之協方差矩陣,^吻為 1482l6.doc •44- 201108203 針對該目標基頻型樣及該偏移量(其在時間軸方向上或在 頻率軸方向上的一組合)之協方差矩陣。 另外,可藉由以下表達式獲得用於最大化匕之^之最佳 .解。 t [表達式15] 此處注意,R=UTEJU,且r=ijT£。-、。,。需要獲得2。之反 矩陣以得到R。若協方差矩陣5:zyt、Szytdy& Σ(^為對角矩 陣,則可容易地獲得Σ。之反矩陣。舉例而言,若對角分量 依次為a[i]、叩]及叩],則可藉由c[i]/(a[i] c[i]-b[i]2)獲得 Σ。之反矩陣的對角分量。 如上文所描述,在第三實施例中,可經由最佳化而非藉 由使用偏移量來直接獲得一目標基頻型樣。應注意,需要 參考ys(即,源基頻型樣上之一點之值)以便獲得yt之最佳 解。最佳化器165將在時間軸方向上之點之值的序列及在 頻率軸方向上之點之值的序列傳遞至目標基頻型樣產生器 • 17〇(下文將描述)。 - 目標基頻型樣產生器170藉由按時間排序在時間軸方向 上之一點之值與在頻率軸方向上之一相應點之值的組合 (其係由最佳化器165獲得)來產生一對應於合成文字之目標 基頻型樣。 用於藉由根據第三實施例之基頻型樣產生裝置1〇〇來產 148216.doc •45· 201108203 生目標基頻型樣的處理之流程與用於藉由根據第二實施例 之基頻型樣產生裝置100來產生目標基頻型樣的處理之流 程基本上相同。然而,在圖8中所展示之流程圖之步㈣5 中’根據第三實施例之基頻型樣產生裝置1〇〇自決策樹資 訊儲存單元155讀取關於—決策樹之資訊,將關於一合成 文字之語言資訊輸人至此決策樹中’且獲取輸出特徵向量 及該等輸出特徵向量之一組合之分佈(平均值、方差及協 方差)的序列作為來自該決策樹之輸出。 在之後的步驟820中,基頻型樣產生裝41_由自輸出 特徵向量之組合的分佈序列當中獲得具有最高之似然度的 在時間軸方向上之目標基頻型樣上之點之值的序列及在頻 率軸方向上之目標基頻型樣上之點之值的序列來執行最佳 化處理。 最後,在步驟825中,基頻型樣產生裝置100藉由按時間 排序在時間軸方向上之 '點之值與在頻率軸方向上之一相 應點之值的組合(宜将士县彳土 ^ 係由最佳化器165獲得)來產生一對應於 該合成文字之目標基頻型樣。 圖10為展示根據太路BB + & & 像丰發明之實施例之實施得知裝置50及基 頻型樣產生裝置1 〇〇的雷^ 的電細之較佳硬體組態之一實例的圖 式。該電腦包括:一中參卢 甲兴處理單兀(CPU) 1 ;及一主記憶體 4 ’其連接至一匯法Μ 9。ο* μ 徘2 此外,硬碟器件13及30以及諸如 CD-ROM 器件 26 及 軟性磁碟器件20、MO器件28以及 DVD器件3 1之可知岭4妙— %式储存器(允許改變記錄媒體之外部 儲存系’先)’&由軟性磁碟控制器Μ、控制器25、、⑶控 148216.doc -46 * 201108203 制器27及其類似者而連接至匯流排2。 一諸如軟性磁碟' MO ' CO-ROM及DVD-ROM之儲存媒 體插入至相應可卸除式儲存器中。可將用於執行本發明之 電月b私式之私式碼記錄於此等儲存媒體、硬碟器件13及3 〇 或ROM 14上。該電腦程式之程式碼將指令給予與作業系 、先協作之cpu及其類似者。更具體言之,根據本發明之用 於付知偏移量及該等偏移量與一目標基頻型樣之組合的程 弋用於產生一基頻型樣之一程式,及與上文所描述之關 於源》吾者模型及其類似者之資訊相關的資料可儲存於充當 得知裝置50或基頻型樣產生裝置1〇〇之電腦的上文所描述 之各種儲存器件中。接著,#由將此多個電腦程式載入於 主記憶體4上來執行該等電腦程式。該等電腦程式可以壓 縮形式儲存,或可劃分為兩個或兩個以上之部分而儲存於 各別多個媒體中。 該電腦經由一鍵盤/滑鼠控制器5而接收來自諸如鍵盤6 及滑鼠7之輸入器件的輸入。該電腦經由一音訊控制器 而接收來自一麥克風24之輸入,且自一揚聲器23輸出一語 音。該電腦經由一圖形控制器8&DAC/LCDC 1〇而連接至 一顯示器件11以用於向使用者呈現視覺資料。該電腦可藉 由”’二由網路配接器18(乙太網路(R)卡或符記環卡)或其類 似者連接至一網路而與另一電腦或其類似者通信。 自上述描述應易於理解:可藉由諸如個人電腦、工作站 或電腦主機之規則資訊處理器件或藉由此等器件之組合來 實施較被青睞於實施本發明之實施例之得知裝置5〇及基頻 148216.doc -47· 201108203 型樣產生裴置100的電腦 罨恥注意,上文所描述之構成部分 ”'、貫例’且並非所有該等構成部分均為本發明所必需。 上文已使用該等實施例描述了本發明。然而,本發明之 技術範,不限於上文給定之該等實施例。對於熟習此項技 術者顯而易見的是,可對該等實施例作出各種修改及改 良舉例而5,在該等實施例中,基頻型樣產生裝置100 匕括付★纟置50 〇 ^而,該基頻型樣產生裝置⑽可僅包 ,得知裝置50之部分(即,文字剖析器1〇5、語言資訊儲存 單兀110源…者模型資訊儲存單元12〇、基頻型樣預測器 122及決策樹資訊儲存單幻55)'藉由作出修改及改良而 獲得之此等形式自然包括於本發明之技術範疇中。 【圖式簡單說明】 圖1展不根據實施例之得知裝置50及基頻型樣產生裝置 100之功能組態。 圖2為展示根據本發明之實施例之用於藉由得知裝置 來得知偏移量的處理之流程之一實例的流程圖。 圖3為展示用於計算一仿射變換集合的處理之流程之一 實例的流程圖,該處理係在圖2中所展示之流程圖之步驟 225中的基頻型樣之關聯的前半部分中加以執行。 圖4為展示在圖3中所展示之流程圖之步驟3〇5及345中執 行的仿射變換最佳化之處理之細節的流程圖。 圖5為展示用於藉由使用該仿射變換集合來關聯基頻型 樣的處理之流程之一實例的流程圖,該處理係在圖2中所 展示之流程圖之步驟225中的基頻型樣之關聯的後半部分 I482I6.doc 4S- 201108203 中加以執行。 ^ a為展不_得知文字之參考語音《基頻型樣的一實例 同知知文字之目標語者語音之基頻型樣的一實例的圖 式。圖⑪為展示針對各別處理單元之仿射變換之-實例的 圖式。 圖為展示藉由使用圖6b中所展示之仿射變換集合來變 、圖中所展示之參考語音之基頻型樣而獲得的基頻型樣 的圖式® 7b為展不自圖6狂中所展示之參考語音的基頻型 樣至圖6a中所展不之目標語者語音的基頻型樣的偏移量的 圖式。 圖8為展示根據本發明之實施例之用於產生一基頻型樣 的處理之流程之一實例的流程圖,該處理係由基頻型樣產 生裝置100執行。 圖9A展示使用本發明而獲得之目標語者之基頻㈣。圖 9B展示使用本發明而獲得之目標語者之另—基頻型樣。 圖10為展示根據本發明之實施例之用於實施得知裝置% 及基頻型樣產生裝置i 〇 〇的資訊處理器件之較佳硬體組態 之一實例的圖式。 〜 【主要元件符號說明】 中央處理單元(CPU) 2 4 5 6 148216.doc 匯流排 主記憶體 鍵盤/滑鼠控制器 鍵盤 -49- 201108203 7 滑鼠 10 圖形控制器 11 顯示器件 13 硬碟器件 14 ROM 18 網路配接器 19 軟性磁碟控制器 20 軟性磁碟器件 21 音訊控制器 23 揚聲器 24 麥克風 25 IDE控制器 26 CD-ROM器件 27 SCSI控制器 28 MO器件 29 CD-ROM器件 30 硬碟器件 31 DVD器件 50 得知裝置 100 基頻型樣產生裝置 105 文字剖析器 110 語言資訊儲存單元 115 基頻型樣分析器 120 源語者模型資訊儲存單元 148216.doc -50- 201108203 122 基頻型樣預測器 130 關聯器 134 仿射變換集合計算器 136 仿射變換器 140 偏移量計算器 145 改變量計算器 150 偏移量/改變量得知器 155 決策樹資訊儲存單元 160 分佈序列預測器 165 最佳化器 170 目標基頻型樣產生器 148216.doc • 51 -