TWI305345B

TWI305345B - System and method of the user interface for text-to-phone conversion

Info

Publication number: TWI305345B
Application number: TW095113247A
Authority: TW
Inventors: Liang Sheng Huang; Tien Ming Hsu; Chien Chou Hung; Keng Hung Yeh; min hong Wang; Jia Lin Shen
Original assignee: Delta Electronics Inc
Priority date: 2006-04-13
Filing date: 2006-04-13
Publication date: 2009-01-11
Also published as: TW200739516A; US20070288240A1

Description

1305345 九、發明說明：【發明所屬之技術領域】本發明係指一種字轉音之使用者介面系統及修改方法，特別疋應用於§吾音辨識技術的一種字轉音之使用者介面系統及修改方法。 __—<_一【先前技術】在非特定語者(speaker-independent)語音辨識領域 (例如 Hmm-based speech recognition)之中，辨識詞囊 (recognition vocabulary)常常是透過文字（text)轉換成音標(phonetic symbol)的形式所構成；而且，每個音標都有其相對應的聲學模型（acoustic model)。對於每_ 個辨識語(word)來說，其組成音標的相應聲學模型係串連成一個辨識語模組(word model)，然後供辨識引擎進行比對之用。但由於一字（word)多音、或是辭典裏的發音不正確、或是新詞（new words)的出現，此時便需要靠發音規則來產生其音標，但有時該發音規則又不足以囊括或適用於這些新詞時，便常常造成此一字轉音 (text-t〇-ph〇ne)的過程中極易出現誤差。舉例來說，中文詞的”單身，，其正確發音應為<d a n sh ax n> ’但有可能被誤轉為<sh a n sh ax n>;另外，英文字“record，，作為名詞時發音為<? eh krd>，作為動詞時發音則變為 <r lh ‘k 〇Γ d>，這種情形下便有可能選錯；再者，專有名詞（商標）“BenQ”在辭典裡面雖然找不到’但根據發 1305345 音規則它應該唸成<behnk> ,可0 + & ^behnky離，諸如此類的伊D豕卻都將該詞讀舉。此頰的錯玦林林總總而不勝枚現行=2:誤會:加語音辨識上的錯誤率，因此辨識系统對於字轉音錯誤的處 :發音辭典和發音規則是很難滿足人類生活中所销出鼓變化萬千的詞彙。因此

:使：的系統上常常會提供—個圖形化使用介： (Gmph1Cal User Interface, _)，讓使這些音標或詞彙，曰灯木1>?文然而’過去的GIH設計由於是音同時列出，並未再提供任何得以判_^之^ 性之根據’導致㈣者在進行修改作業時必須把所有的個-個地從頭縣檢查—次，才能驗證完它們的么音；但當詞彙量較大(數百個以上）時，這種地毯式的搜f就顯得耗時、不夠人性化以及欠缺實用性了。職是之故，申請人鑑於習知技術中所產生之缺失’乃經悉心試驗與研究，並—本㈣不捨之精神，終構思出本案「字轉音之使用者介面統及修改方法」，以下為本案之簡要說明。【發明内容】本案之構想為提出—種字轉音之使用者介面系統 &修’係提供—離線(offline)式的修改介面及方法以利後續語音辨識的進行。 1305345 介面第一構想，提出-種字轉音之使用者少包二=方=字轉音之使用者介面系統至 # 毛曰攔、—類型攔以及一信心分 :攔二：語彙攔係用以呈現以字音攔係用以呈現對應於每-該語囊之至少一二 k、、且’母—該母發音模組包括複數個發音音標^ =攔係用以呈現對應於每—該母發音模組之—'二, 1心t數搁係用以呈數（C〇nfldence _e)，藉由該信心分數提供後續語音辨識音模組的依據，以便〜ίΐ本案一第二構想’提出一種字轉音之使用者的料方法，財轉音之❹者介面系統如囊之二ϊΓ方法包括:利用一輸入介面選定該語一刀子母，呈現對應於所選定之該等字母的至少立曰模組’其中每一該子發音模組包括複數個發 =It且每—好發音模組決定部㈣母發音模組；乂及利用該輸入介面於該等子發音模短之中選定一子改部份該母發音模組’以便於其後進心曰辨識時、提供該等語彙—正確的聲學模型。根據本案一第三構想，提出一統的修改方法，該字轉音之使用者;= 選=收該修改=法包括：利用一輸入介面例如滑鼠改之s吾菜(word)，再對該使用者介面系統輸一對應於該語彙之語音；然後系賴動—語音辨識 1305345 :呈序二以尋找對應於該語彙之至 :二然後呈現該等母發音模組，使用者便自有限個該發音模組中選取後績語音辨識的進行。心、俊較佳者，其中該等語彙為語彙其中之—。茱及央文較佳者’其中該來源包括—常用詞庫、—發典以及一發音規則。一俨=者田其中該字轉音之使用者介面系統更包括欄’肋標示並提供是否選_母發音模組。特者’其巾每—該信*分數、以及對應於每— = 數的該語彙、該母發音模組和該來源皆具有相同的一顯示顏色。較佳者，其中該字轉音之使用者介面系統更包括 :顯不顏色狀介面’用以修改對應於每—該信心分數的該顯示顏色。較佳者，其中該字轉音之使用者介面系統更包括二發音音標選單呈輯應於每-該語彙之部份字母的至少-子發音模組，其巾每—該子發音模組包括複數個發音音標，且每—該子發音模組母發音模組。車乂佳者，其中該字轉音之使用者介面系統係藉由

一輸入介面決定及修改對應於該等部份字母的該子音模組。 X 幸父佳者，其中該輸入介面包括鍵盤滑鼠 10 1305345 一觸控板、一觸控筆以及一語音輸入裝置。本案得藉由下列圖式及詳細說明，俾得更深入之了解：【實施方式】請參閱第一圖，其為本案所提字轉音 (text_to-phone)之使用者介面系統一較佳實施例的介面示意圖，該字轉音之使用者介面系統係應用於語音 _ 辨識，該字轉音之使用者介面系統的介面1至少包括一語彙欄10、一發音攔11、一類型攔12以及一信心分數欄13。 ' 在第一圖中，該語彙欄10係用以呈現以字母構成 • 之至少一語彙，該發音欄11係用以呈現對應於每一該語彙之至少一母發音模組，且每一該母發音模組包括複數個發音音標，該類型攔12係用以呈現對應於每一該母發音模組之一來源，而該信心分數欄13係用以呈 ❿ 現對應於每一該母發音模組之一信心分數(confidence score)，以提供使用者修改該語彙所對應的該母發音模組之依據。需要特別注意的是，本案所述以字母構成之該等語彙可以是中文語彙、英文語彙或是其他種文字的語彙，只要是可以藉由字母構成其讀音的文字，盡皆適用於本案之修改方法。然而，為了方便敘述，以下的實施例係以英文語彙（如”resume”、”benQ”）來做說明，但其並無法限制本案對於中文語彙（如”好吃”……< h a 〇 11 1305345 chih>)...等其他種文字的適用性。以第一圖中的實際語彙作為例子來幫助理解。在第一圖中，第八列的語彙’’resume”係為以英文字母構成的一語彙，其相對應之發音攔11之内具有兩個母發音模組<r iy z uw m>及<r eh z ax m ey>以供選擇，類型欄12顯示這兩個母發音模組<r iy z uw 111>及<r eh z ax 11167>的來源皆為辭典，而其所對應的兩個信心分數欄 13中的信心分數60及40分別代表母發音模組<r iy z _ uw m>及 <r eh z ax m ey>的常用度。 '在第一圖中，每個語彙相應的發音也許是從常用詞庫中取得、也許從發音辭典中取得......等等。 ' 本案的第一個技術特徵在於為傳統的字轉音之使 - 用者介面系統提供一信心分數攔以減少逐一判定及修改字轉音錯誤的窘況。以語彙‘computer’為例，其發音可以在發音詞典裏被找到，而且該語彙僅有此一發音，故信心分數是100分；又例如圖中第十四列的語 • 彙“WWW”是在我們預先蒐集的常用詞庫裏找到，發現它有 <tr ih p ax 1 d ah b ax 1 y uw>和 <d ah b ax 1 y uw d ah b ax 1 y uw d ah b ax 1 y uw>兩種不同的發音（母發音模組），但是根據判斷大約60%的人採取前者而發音的較多，僅40%的人採取後者而發音，故訂定兩者的信心分數分別為60分及40分。由於字轉音之使用者介面系統多了此一功能，便能夠藉由該信心分數提供使用者修改該語彙所對應的該母發音模組之依據，更可以大幅減少前面所提傳統的GUI設計並未提供判斷 12 1305345 之根據所ϋ成在進行錢作業時f把所有的語囊一個一個地從頭到尾檢查一次以驗證其發音的時間浪費，再者，亦可以輕鬆處理當詞彙量較大時的情況。 /在第一圖的介δ 1，更可以包括一標示攔14，其係用以標示藉由該信心分數所決定之該語彙所對應的該母發音模組；舉例㈣，由於母發音模組々iy ζ _ 的信心分數60大於母發音模組<r此z狀m ^>的 L〜为數40，因此勾選母發音模組<r ^ z uw瓜>所對 f的標示攔14’代表此時將語彙”，，的字轉音發音訂為 <r iy z uw m>。此外，介Φ 1中較大信心分數列與較小信心分數列的先後順序是可以自由調整的，使用者可以依照使用^的習制較大信〇㈣設定在較小信心分數列之前或之後，以便於觀察或修改。，得一提的是，在第一圖中，根據不同的信心分數’還可以將每一該信心分數、以及對應於每一該信心分數的該語彙、該母發音模師該來源狀成為; 具有相同的一顯示顏色；也就是說，在第一圖中，不同信心分數的列具有不同的顯示顏色，此舉更加使得在進行修改作業時的順利度。以實際的例子來看，母發音模組<r eh z ax m ey>所屬列的所有顯示文字的顏色與母發音模組々iy z uw m>所屬列的所有顯示文字的顏色並不相同’以增添鏗別度。 ^此外’介面1中的設定按鈕15關聯到顯示顏色設疋介面2，如第二圖所示，由圖中可看出，藉由信心 13 1305345 刀數的適當定義可以修改對應於每—該信心分數的該顯示顏色。 ^案另一附加功能是，整個介面丨亦可以依據使用者吾好而根據該語彙攔1〇、該發音欄11、該類型攔 12或是該信心分數攔13來進行排序，使得整個字轉音修改介面更為人性化。系的弟 —叫议w付傲牡;，提供

使用者介面系統的修改方法，更特定而言之，係提供可應用於前述轉音之使ffl者介面“的-種修改介面:清參閱第三圖’其為本案所提字轉音之使用者介面，統的修改方法一較佳實施例的介面示意圖，其係以第一圖之單一列為製作根據。八’、

在第三圖之單-列3中，當使用如鍵盤、滑鼠、觸控板或是觸控筆...等之類的輸入介面選定一注彙之部份英文字母時，即會隨著此-選定而出現1發立 =標選單％ ’該發音音標選單36包括了對應於該二 36X3VT/敎之料数柯㈣數個子發音模組 X，其一中母一該子發音模組皆包括複數個發音立 =而每-該子發音模組㈣部份該母發音模組/ :者，藉由該等輸入介面選定其中一種 36x，便可以順利地改變該母發音模袓31，、汲後進行語音辨識時、提供該等語彙於其學模型果们咕正確的聲將第三時，便以實際的例子來看，當使用該等輸入介面圖中的語彙’’benQ”中的”ben”部份選定成為反白 14 1305345 會出現與，w，相對應的多個時若再利用該等輸入介：，361〜364 ’此 363 > - m rh 、疋/、中的子發音模組 1更J以將弟二圖中原來變為。 v亨發目杈組邙eh於改使用者介面1 統在:特;:’轉音之 :應:於前述字轉音之使用者介面:統二法不太相同的是，以下所述2動方式進行的修改方刹m Α 述的另—種修改方法主要係利用语音以自動方式進行修改。同樣以前述的語彙” benQ”為例進行說明。操作流程如下，首先，先以諸 =用者便利用語音方式對著麥克風說出,，benQ,，“ 此時，系統便會對該語音進行—額外的語音辨識，由於已_定了欲修改之語彙（此實施例為，，benQ，，）’ 因此其可能的發音就可以被限縮，逐字母來看. (1) ”b”的發音可以是”b”； ”ae”、，，iy”、，，ih” ’ng”；以及 ’kyuw， ay， (2) ”e”的發音可以是”eh” 或不發音； (3) ”n”的發音可以是”n”、 (4) ”Q”的發音可以是，’k” „ 是故，’’benQ”這個字的發音便被限縮到下述窄的辨識範圍： 15 1305345 1. 2. 3. 4. 5. 6. 7. 8.

9. 10. 11. 12. 13. 14. 15. 16.

17. 18. 19. 20. 21. 22. 23. 24. 系統係從上述24個母發音模組所構成的一較窄 16 1305345

範圍中選取其中之一作為辨識出的音標結果，再將並顯示於發音攔中，接著便將類型攔的内容更改為，，語I 校正”即可。 °曰此種利用語音自動辨識方式進行修改之技術特徵的優點在於，，利用有限數目的（如本實施例中的^ =發音模;组進行-咖^ 二f:C〇n)、或是利用語言模型(―之果 =:_(_rain)語音辨識時所產生辨識的結 t為僅屬於上列的多種發音之™，故能得到較正確的 ^^:習用技術中毫無限制的辨識選項來說，點為可使得語音辨識的結果更為精準， 0平白…、故地冒出太離譜的結果。此一技術特徵的另一優點在於如此便不需要盤直接輸入音標符號以進行修改，這 ’’ 何編輯音標的人來說是極為方便的創舉，、特ς = 螢幕^手持裝置上的利用更能顯現其獨特之處^ 第四圖為對應第三圖之操控的

==:「同，惟第四圖之多了將該等輸C 標獅的第二步驟(第二攔)，但此侧;所能輕易完成之’故於此處不^:本取後，若是針對第四圖之字轉音之使人統的修改方法進行改善，還可以 ”面糸盤、滑鼠、觸控板或是觸控筆...等之類如二入方式提升為使用語音輸入判別的方== 17 1305345 述’’benQ”的例子說明，使面的語音”ben”自動加以辨.…隸血：對所心出；望、联& 辨熾且根據辭典或發音規則… if取一種子發!:模級如歧義出母發音模組31。更進地心了^修改方進步之處在於，沾士 y 者花時間選取子發音模组36χ 的¥間，對於效率的提料極大助益。 ’

綜上所^，本發明所提出字轉音之使用者介面系、泰，係於讓字轉音過程可能產生的錯誤（或信心分數）透過不同的顏色的_化使用介面（GUI)呈現出來，使得潛在的錯誤能—目瞭然，並提供以字轉音的作心分數(confidence score)為標的排序之功能，使信心分數較

差的語彙能集中顯示於最前端，讓使用者不必頻頻捲動捲軸（Scroll Bar)就能—覽無遺這些可能需要修改的語彙或音標，而能夠更為方便地將心力集中在修改這些詞彙或標音上，使得後續進行語音辨識時能夠獲得更為精準的辨識結果；而本發明所提出字轉音之使用者介面的修改方法’則係允許使用者藉由各二輸入介面呈現有限數目的可能的發音模組供選取；或是狂立，式’以此有限數目的可能的發音模組縮限辨二茱（lexlcon)、因而產生較具正確性的語彙發音，便於後續語音辨識的進行。是故，本案不但可大幅提升了字轉音過財呈現介面與修改介㈣操控^與使用便利性’實為一不可多得之發明創見。本案得由熟悉本技藝之人士任施匠思而為諸般修飾，然皆不脫如附申請專利範圍所欲保護者。 18 1305345 【圖式簡單說明】第一圖：本案所提字轉音之使用者介面系統一佳實施例的介面示意圖；第二圖：本案所提字轉音之使用者介面系示顏色設定介面的示意圖；扁第三圖：本案所提字轉音之使用者介面系統的修方法較佳貫施例的介面示意圖；以及第四圖：本案所㈣轉音之使用者介面系統的修方法一較佳實施例的流程圖。【主要元件符號說明】 1字轉音之使用者介面系統的介面 2顯示顏色設定介面 3字轉音之使用者介面的單一列語彙攔 U發音攔 12類型攔 13信心分數攔 14標示攔 15設定按鈕 30語彙 32類型 36發音音標選單 31母發音模組 33信心分數 361〜364子發音模組 19

Claims

1305345 十、申請專利範園： 1. 一種字轉音（text-t”h〇ne)之使用者介面系統，係應用於語音辨識，該字轉音之使用者介面系統包括：一語彙攔，用以呈現以字母構成之至少一語彙；一發音攔，用以呈現對應於每一該語彙之至少一母發音模组，每-該母發音模組包括複數個發音音標; 一類型欄，用以呈現對應於每一該母發音模組之一來源；以及一信心分數攔，用以呈現對應於每一該母發音模组之一信心分數（confidence score)，藉由該信心分數提供使用者修改該語彙所對應之該母發音模組的依據，以便後續語音辨識的進行。 2. 如申請專利範圍第丨項之字轉音之使用者介面系統，其中該等語彙為係選自中文語彙及英文語彙其中 3. 如申請專利範圍第丨項之字轉音之使用者介面系統，其中該來源包括一常用詞庫、一發音辭典、語音校正、以及一發音規則。 4·如申請專利範圍第〗項之字轉音之使用者介面系統，更包括一標示攔，用以標示並提供是否選用該母發音模組。 5·如申請專利範圍第丨項之字轉音之使用者介面系統，其中每一該信心分數、以及對應於每一該信心分數的該語彙、該母發音模組和該來源皆具有相同的— 顯示顏色。 20 1305345 ^如申請專利範圍第5項之字轉音之使用者介面系包括—顯示顏色設定介面，用以修改對應於每心分數的該顯示顏色。 :广！請專利範圍第1項之字轉音之使用者介面系在臺包括一發音音標選單’用以呈現對應於每-該扣彙之部份字母的至少—子發音模組，其中每一該子包括複數個發音音標’且每一該子發音模組决疋部份該母發音模組。利範圍第7項之字轉音之使用者介面系猎由-輸人介面決定及修改對應於母的該子發音模組。 I仍子 9.如申請專利範圍第8項之孛艟立統，其中該輸入介面包括二鍵=滑之系 -觸控筆以及-語音輸人褒置。^ —觸控板、 ^之一使之使用者介面“的修时法，該字轉曰^使用者介面系統至少包括-語彙攔、-發音襴: 數搁’該語囊搁係用以呈現以字母構成之至二發=攔係”呈現對應於每-_之蘇立立掷X曰、、且且母一 5亥母發音模組包括複數個而該信心分數攔係用以呈現對應於每-3 分數’該修改方法包括步驟如；· 利用-輸人介面選定該語彙之部份字母.下. 6 ^ 見對應於所選定之該等字母的至少—子發 :且_^、中每一該子發音模組包括複數個發音音^且母一該子發音餘決定部份該鄉音料以^ 21 1305345 利用該輸入介面於該等子發音模組之中選定一發音模組，⑽料音频㈣行語音辨識時、提供該等語彙—正確的聲學模ΐ 專利範_ 1G項之字轉音之使用者介面系、充机改方法，其中該等語彙為係選文語彙其中之一。 τ入„果汉央 12.如申凊專利範㈣⑺項之字轉音之使用者介面系 =的修改方法’其中該字轉音之使用者介面系統更包 f一類型欄’用以呈現對應於每—該母發音模組之- Ϊ3.如申請專利範圍第12項之字轉音之使用者介面系統的修改方法，其中該來源包括辭典、語音校正、収—發音_。 ^ 14. 如申請專利範圍第12項之字轉音之使用者介面系，的似方法，其中該字轉音之使用者介面系統中每忒仏。刀數、以及對應於每一該信心分數的該語、該母發音模組和該來源皆具有相同的一顯示顏色。 15. 如申請專利範圍第14項之字轉音之使用者介面系統的修改方法，其中該字轉音之使用者介面系統更包括-顯不顏色設定攔，利用該輸人介面可於該顯示顏色設定攔内修改對應於每—該信心分數的該顯示顏色。 16.如申請專利範圍帛1G項之字轉音之使用者介面系統的修改方法’其中該字轉音之使用者介面系統更包括-標示攔’利用該輸人介面可於該標示攔内標示並 22 1305345 提供是否選用該母發音模組。 π.如申請專利範圍第1〇項之統的修改方法，其中該輸人介㈣用系一觸控板以及一觸控筆。鍵I、一滑鼠、 18.-種子轉音之使用者介面系統的修使用者介面系統至少包括-語囊攔、:發;:: 上:數；=吾彙攔係用以呈現以字母構成之至峰心分數攔係用以呈現對應於每一該料曰㈣分數，娜改方利用一輸入介面選定該語彙； /知々下. 立對《玄使用者介面系統輸入—對應於該語囊之一語音；啟動一語音辨識程序，以上述所選定語彙相應之有限個可此發音為辨識詞彙(lexic〇n)進行語音辨認以尋找對應於該語彙之至少—母發音触，並呈現母發音模組；以及利用該輸入介面自有限個該母發音模組中選取其中之一，便於後續語音辨識的進行。一 19·如申請專利範㈣18項之字轉音之使用者介面系統的修改方法，其中該辨識詞彙（lexicon)係透過選定該語彙所組成之英文字母之可能發音組合而成。 20.如申請專利範圍第18項之字轉音之使用者介面系統的修改方法，其中該辨識詞彙（lexic〇n)係透過選定 23 1305345 該語彙所組成之中文字之可能的破音字組合而成。料鄉㈣18狀特音之❹者介面系統的修改方法，其中該字轉音之使用者介㈣ 1 =類型攔’用以呈現對應於每—該母發音模組來源。 2如申μ專利範圍第21項之字轉音之使用者介面系統的修改方法，其中該來源包m詞庫、—發I 辭典以及一發音規則。曰 23·如申請專·㈣21項之字轉音之使用者介面系統的修改方法，其中該字轉音之使用者介面系统中每 =該信心分數、以及對應於每一該信心分數的該語菜、该母發音模組和該來源皆具有相同的—顯示顏色。 24.如申請專利範_ 23項之字轉音之❹者介面系統的修改方法，其中該字轉音之使用者介面系统更包括-顯示顏色設定攔，利用—輸人介面可於該顯示顏色設定攔内修改對應於每—該信心分數的該顯示顏 25.如申請專利範圍帛18項之字轉音之使用者介面系統的修改方法，其中該字轉音之使用者介面系統更包括-標示攔’利用一輸入介面可於該標示攔内標示並 k供疋否選用該母發音模組。 24