TWI305345B - System and method of the user interface for text-to-phone conversion - Google Patents
System and method of the user interface for text-to-phone conversion Download PDFInfo
- Publication number
- TWI305345B TWI305345B TW095113247A TW95113247A TWI305345B TW I305345 B TWI305345 B TW I305345B TW 095113247 A TW095113247 A TW 095113247A TW 95113247 A TW95113247 A TW 95113247A TW I305345 B TWI305345 B TW I305345B
- Authority
- TW
- Taiwan
- Prior art keywords
- pronunciation
- user interface
- word
- vocabulary
- interface system
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000006243 chemical reaction Methods 0.000 title description 3
- 238000002715 modification method Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 8
- 239000002775 capsule Substances 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000004888 barrier function Effects 0.000 claims 1
- 230000009897 systematic effect Effects 0.000 claims 1
- 230000004048 modification Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000219112 Cucumis Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Description
1305345 九、發明說明: 【發明所屬之技術領域】 本發明係指一種字轉音之使用者介面系統及修改 方法,特別疋應用於§吾音辨識技術的一種字轉音之使 用者介面系統及修改方法。 __—<_一 【先前技術】 在非特定語者(speaker-independent)語音辨識領域 (例如 Hmm-based speech recognition)之中,辨識詞囊 (recognition vocabulary)常常是透過文字(text)轉換成 音標(phonetic symbol)的形式所構成;而且,每個音標 都有其相對應的聲學模型(acoustic model)。對於每_ 個辨識語(word)來說,其組成音標的相應聲學模型係 串連成一個辨識語模組(word model),然後供辨識引擎 進行比對之用。 但由於一字(word)多音、或是辭典裏的發音不正 確、或是新詞(new words)的出現,此時便需要靠發音 規則來產生其音標,但有時該發音規則又不足以囊括 或適用於這些新詞時,便常常造成此一字轉音 (text-t〇-ph〇ne)的過程中極易出現誤差。舉例來說,中 文詞的”單身,,其正確發音應為<d a n sh ax n> ’但有可 能被誤轉為<sh a n sh ax n>;另外,英文字“record,,作 為名詞時發音為<? eh krd>,作為動詞時發音則變為 <r lh ‘k 〇Γ d>,這種情形下便有可能選錯;再者,專有 名詞(商標)“BenQ”在辭典裡面雖然找不到’但根據發 1305345 音規則它應該唸成<behnk> ,可0 + & ^behnky離,諸如此類的伊D豕卻都將該詞讀 舉。 此頰的錯玦林林總總而不勝枚 現行=2:誤會:加語音辨識上的錯誤率,因此 辨識系统對於字轉音錯誤的處 :發音辭典和發音規則是很難滿足人 類生活中所销出鼓變化萬千的詞彙。因此
:使:的系統上常常會提供—個圖形化使用介: (Gmph1Cal User Interface, _),讓使 這些音標或詞彙, 曰灯木1>?文 然而’過去的GIH設計由於是 音同時列出,並未再提供任何得以判_^之^ 性之根據’導致㈣者在進行修改作業時必須把所有 的個-個地從頭縣檢查—次,才能驗證完它 們的么音;但當詞彙量較大(數百個以上)時,這種地毯 式的搜f就顯得耗時、不夠人性化以及欠缺實用性了。 職是之故,申請人鑑於習知技術中所產生之缺 失’乃經悉心試驗與研究,並—本㈣不捨之精神, 終構思出本案「字轉音之使用者介面統及修改方 法」,以下為本案之簡要說明。 【發明内容】 本案之構想為提出—種字轉音之使用者介面系統 &修’係提供—離線(offline)式的修改介面及 方法以利後續語音辨識的進行。 1305345 介面第一構想,提出-種字轉音之使用者 少包二=方=字轉音之使用者介面系統至 # 毛曰攔、—類型攔以及一信心分 :攔二:語彙攔係用以呈現以字 音攔係用以呈現對應於每-該語囊之至少一二 k、、且’母—該母發音模組包括複數個發音音標^ =攔係用以呈現對應於每—該母發音模組之—'二, 1心t數搁係用以呈 數(C〇nfldence _e),藉由該信心分數提供 後續語音辨識音模組的依據,以便 〜ίΐ本案一第二構想’提出一種字轉音之使用者 的料方法,財轉音之❹者介面系統如 囊之二ϊΓ方法包括:利用一輸入介面選定該語 一 刀子母,呈現對應於所選定之該等字母的至少 立曰模組’其中每一該子發音模組包括複數個發 =It且每—好發音模組決定部㈣母發音模組; 乂及利用該輸入介面於該等子發音模短之中選定一子 改部份該母發音模組’以便於其後進 心曰辨識時、提供該等語彙—正確的聲學模型。 根據本案一第三構想,提出一 統的修改方法,該字轉音之使用者;= 選=收該修改=法包括:利用一輸入介面例如滑鼠 改之s吾菜(word),再對該使用者介面系統輸 一對應於該語彙之語音;然後系賴動—語音辨識 1305345 :呈序二以尋找對應於該語彙之至 :二然後呈現該等母發音模組,使用者便 自有限個該發音模組中選取 後 績語音辨識的進行。 心、俊 較佳者,其中該等語彙為 語彙其中之—。 茱及央文 較佳者’其中該來源包括—常用詞庫、—發 典以及一發音規則。 一俨=者田其中該字轉音之使用者介面系統更包括 欄’肋標示並提供是否選_母發音模組。 特者’其巾每—該信*分數、以及對應於每— = 數的該語彙、該母發音模組和該來源皆具有 相同的一顯示顏色。 較佳者,其中該字轉音之使用者介面系統更包括 :顯不顏色狀介面’用以修改對應於每—該信心分 數的該顯示顏色。 較佳者,其中該字轉音之使用者介面系統更包括 二發音音標選單呈輯應於每-該語彙之部份 字母的至少-子發音模組,其巾每—該子發音模組包 括複數個發音音標,且每—該子發音模組 母發音模組。 車乂佳者,其中該字轉音之使用者介面系統係藉由
一輸入介面決定及修改對應於該等部份字母的該子 音模組。 X 幸父佳者,其中該輸入介面包括 鍵盤 滑鼠 10 1305345 一觸控板、一觸控筆以及一語音輸入裝置。 本案得藉由下列圖式及詳細說明,俾得更深入之 了解: 【實施方式】 請參閱第一圖,其為本案所提字轉音 (text_to-phone)之使用者介面系統一較佳實施例的介 面示意圖,該字轉音之使用者介面系統係應用於語音 _ 辨識,該字轉音之使用者介面系統的介面1至少包括 一語彙欄10、一發音攔11、一類型攔12以及一信心 分數欄13。 ' 在第一圖中,該語彙欄10係用以呈現以字母構成 • 之至少一語彙,該發音欄11係用以呈現對應於每一該 語彙之至少一母發音模組,且每一該母發音模組包括 複數個發音音標,該類型攔12係用以呈現對應於每一 該母發音模組之一來源,而該信心分數欄13係用以呈 ❿ 現對應於每一該母發音模組之一信心分數(confidence score),以提供使用者修改該語彙所對應的該母發音模 組之依據。 需要特別注意的是,本案所述以字母構成之該等 語彙可以是中文語彙、英文語彙或是其他種文字的語 彙,只要是可以藉由字母構成其讀音的文字,盡皆適 用於本案之修改方法。然而,為了方便敘述,以下的 實施例係以英文語彙(如”resume”、”benQ”)來做說明, 但其並無法限制本案對於中文語彙(如”好吃”……< h a 〇 11 1305345 chih>)...等其他種文字的適用性。 以第一圖中的實際語彙作為例子來幫助理解。在 第一圖中,第八列的語彙’’resume”係為以英文字母構 成的一語彙,其相對應之發音攔11之内具有兩個母發 音模組<r iy z uw m>及<r eh z ax m ey>以供選擇,類型 欄12顯示這兩個母發音模組<r iy z uw 111>及<r eh z ax 11167>的來源皆為辭典,而其所對應的兩個信心分數欄 13中的信心分數60及40分別代表母發音模組<r iy z _ uw m>及 <r eh z ax m ey>的常用度。 '在第一圖中,每個語彙相應的發音也許是從常用 詞庫中取得、也許從發音辭典中取得......等等。 ' 本案的第一個技術特徵在於為傳統的字轉音之使 - 用者介面系統提供一信心分數攔以減少逐一判定及修 改字轉音錯誤的窘況。以語彙‘computer’為例,其發音 可以在發音詞典裏被找到,而且該語彙僅有此一發 音,故信心分數是100分;又例如圖中第十四列的語 • 彙“WWW”是在我們預先蒐集的常用詞庫裏找到,發現 它有 <tr ih p ax 1 d ah b ax 1 y uw>和 <d ah b ax 1 y uw d ah b ax 1 y uw d ah b ax 1 y uw>兩種不同的發音(母發 音模組),但是根據判斷大約60%的人採取前者而發音 的較多,僅40%的人採取後者而發音,故訂定兩者的 信心分數分別為60分及40分。由於字轉音之使用者 介面系統多了此一功能,便能夠藉由該信心分數提供 使用者修改該語彙所對應的該母發音模組之依據,更 可以大幅減少前面所提傳統的GUI設計並未提供判斷 12 1305345 之根據所ϋ成在進行錢作業時f把所有的語囊一個 一個地從頭到尾檢查一次以驗證其發音的時間浪費, 再者,亦可以輕鬆處理當詞彙量較大時的情況。 /在第一圖的介δ 1,更可以包括一標示攔14,其 係用以標示藉由該信心分數所決定之該語彙所對應的 該母發音模組;舉例㈣,由於母發音模組々iy ζ _ 的信心分數60大於母發音模組<r此z狀m ^>的 L〜为數40,因此勾選母發音模組<r ^ z uw瓜>所對 f的標示攔14’代表此時將語彙”,,的字轉音發 音訂為 <r iy z uw m>。 此外,介Φ 1中較大信心分數列與較小信心分數 列的先後順序是可以自由調整的,使用者可以依照使 用^的習制較大信〇㈣設定在較小信心分數列 之前或之後,以便於觀察或修改。 ,得一提的是,在第一圖中,根據不同的信心分 數’還可以將每一該信心分數、以及對應於每一該信 心分數的該語彙、該母發音模師該來源狀成為; 具有相同的一顯示顏色;也就是說,在第一圖中,不 同信心分數的列具有不同的顯示顏色,此舉更加使得 在進行修改作業時的順利度。以實際的例子來看,母 發音模組<r eh z ax m ey>所屬列的所有顯示文字的顏 色與母發音模組々iy z uw m>所屬列的所有顯示文字 的顏色並不相同’以增添鏗別度。 ^此外’介面1中的設定按鈕15關聯到顯示顏色設 疋介面2,如第二圖所示,由圖中可看出,藉由信心 13 1305345 刀數的適當定義可以修改對應於每—該信心分數的該 顯示顏色。 ^案另一附加功能是,整個介面丨亦可以依據使 用者吾好而根據該語彙攔1〇、該發音欄11、該類型攔 12或是該信心分數攔13來進行排序,使得整個字轉 音修改介面更為人性化。 系的弟 —叫议w付傲牡;,提供
使用者介面系統的修改方法,更特定而言之,係提供 可應用於前述轉音之使ffl者介面“的-種修改介 面:清參閱第三圖’其為本案所提字轉音之使用者介 面,統的修改方法一較佳實施例的介面示意圖,其係 以第一圖之單一列為製作根據。 八’、
在第三圖之單-列3中,當使用如鍵盤、滑鼠、 觸控板或是觸控筆...等之類的輸入介面選定一注彙 之部份英文字母時,即會隨著此-選定而出現1發立 =標選單% ’該發音音標選單36包括了對應於該二 36X3VT/敎之料数柯㈣數個子發音模組 X,其一中母一該子發音模組皆包括複數個發音立 =而每-該子發音模組㈣部份該母發音模組/ :者,藉由該等輸入介面選定其中一種 36x,便可以順利地改變該母發音模袓31, 、汲 後進行語音辨識時、提供該等語彙於其 學模型果们咕正確的聲 將第三 時,便 以實際的例子來看,當使用該等輸入介面 圖中的語彙’’benQ”中的”ben”部份選定成為反白 14 1305345 會出現與,w,相對應的多個 時若再利用該等輸入介:,361〜364 ’此 363 > - m rh 、疋/、中的子發音模組 1更J以將弟二圖中原來 變為<b ay n>。 v亨發目杈組邙eh於改 使用者介面1 統在:特;:’轉音之 :應:於前述字轉音之使用者介面:統二 法不太相同的是,以下所述2動方式進行的修改方 刹m Α 述的另—種修改方法主要係 利用语音以自動方式進行修改。 同樣以前述的語彙” benQ”為例進行說明。 操作流程如下,首先,先以諸 =用者便利用語音方式對著麥克風說出,,benQ,,“ 此時,系統便會對該語音進行—額外的語音辨識, 由於已_定了欲修改之語彙(此實施例為,,benQ,,)’ 因此其可能的發音就可以被限縮,逐字母來看. (1) ”b”的發音可以是”b”; ”ae”、,,iy”、,,ih” ’ng”;以及 ’kyuw, ay, (2) ”e”的發音可以是”eh” 或不發音; (3) ”n”的發音可以是”n”、 (4) ”Q”的發音可以是,’k” „ 是故,’’benQ”這個字的發音便被限縮到下述 窄的辨識範圍: 15 1305345 1. <b eh n k> 2. <b ae n k> 3. <b iy n k> 4. <b ih n k> 5. <b ay n k> 6. <b n k> 7. <b eh ng k> 8. <b ae ng k>
9. <b iy ng k> 10. <b ih ng k> 11. <b ay ng k> 12. <b ng k> 13. <b eh n k y uw> 14. <b ae n k y uw> 15. <b iy n k y uw> 16. <b ih n k y uw>
17. <b ay n k y uw> 18. <b n k y uw> 19. <b eh ng k y uw> 20. <b ae ng k y uw> 21. <b iy ng k y uw> 22. <b ih ng k y uw> 23. <b ay ng k y uw> 24. <b ng k y uw> 系統係從上述24個母發音模組所構成的一較窄 16 1305345
範圍中選取其中之一作為辨識出的音標結果,再將並 顯示於發音攔中,接著便將類型攔的内容更改為,,語I 校正”即可。 °曰 此種利用語音自動辨識方式進行修改之技術特徵 的優點在於,,利用有限數目的(如本實施例中的^ =發音模;组進行-咖^ 二f:C〇n)、或是利用語言模型(―之 果 =:_(_rain)語音辨識時所產生辨識的結 t為僅屬於上列的多種發音之™,故能得到較正確的 ^^:習用技術中毫無限制的辨識選項來說, 點為可使得語音辨識的結果更為精準, 0平白…、故地冒出太離譜的結果。 此一技術特徵的另一優點在於如此便不需要 盤直接輸入音標符號以進行修改,這 ’’ 何編輯音標的人來說是極為方便的創舉,、特ς = 螢幕^手持裝置上的利用更能顯現其獨特之處^ 第四圖為對應第三圖之操控的
==:「同,惟第四圖之多了將該等輸C 標獅的第二步驟(第二攔),但此 侧;所能輕易完成之’故於此處不^:本 取後,若是針對第四圖之字轉音之使人 統的修改方法進行改善,還可以 ”面糸 盤、滑鼠、觸控板或是觸控筆...等之類如二 入方式提升為使用語音輸入判別的方== 17 1305345 述’’benQ”的例子說明,使 面 的語音”ben”自動加以辨.…隸血:對所心出; 望、联& 辨熾且根據辭典或發音規則… if取一種子發!:模級如歧義出母發音模組31。 更進地心了^修改方進步之處在於, 沾士 y 者花時間選取子發音模组36χ 的¥間,對於效率的提料極大助益。 ’
綜上所^,本發明所提出字轉音之使用者介面系 、泰,係於讓字轉音過程可能產生的錯誤(或信心分數) 透過不同的顏色的_化使用介面(GUI)呈現出來,使 得潛在的錯誤能—目瞭然,並提供以字轉音的作心分 數(confidence score)為標的排序之功能,使信心分數較
差的語彙能集中顯示於最前端,讓使用者不必頻頻捲 動捲軸(Scroll Bar)就能—覽無遺這些可能需要修改的 語彙或音標,而能夠更為方便地將心力集中在修改這 些詞彙或標音上,使得後續進行語音辨識時能夠獲得 更為精準的辨識結果;而本發明所提出字轉音之使用 者介面的修改方法’則係允許使用者藉由各二輸入介 面呈現有限數目的可能的發音模組供選取;或是狂立 ,式’以此有限數目的可能的發音模組縮限辨二 茱(lexlcon)、因而產生較具正確性的語彙發音,便於 後續語音辨識的進行。是故,本案不但可大幅提升了 字轉音過財呈現介面與修改介㈣操控^與使用 便利性’實為一不可多得之發明創見。 本案得由熟悉本技藝之人士任施匠思而為諸般修 飾,然皆不脫如附申請專利範圍所欲保護者。 18 1305345 【圖式簡單說明】 第一圖:本案所提字轉音之使用者介面系統一 佳實施例的介面示意圖; 第二圖:本案所提字轉音之使用者介面系 示顏色設定介面的示意圖; 扁 第三圖:本案所提字轉音之使用者介面系統的修 方法較佳貫施例的介面示意圖;以及 第四圖:本案所㈣轉音之使用者介面系統的修 方法一較佳實施例的流程圖。 【主要元件符號說明】 1字轉音之使用者介面系統的介面 2顯示顏色設定介面 3字轉音之使用者介面的單一列 語彙攔 U發音攔 12類型攔 13信心分數攔 14標示攔 15設定按鈕 30語彙 32類型 36發音音標選單 31母發音模組 33信心分數 361〜364子發音模組 19
Claims (1)
1305345 十、申請專利範園: 1. 一種字轉音(text-t”h〇ne)之使用者介面系統,係應 用於語音辨識,該字轉音之使用者介面系統包括: 一語彙攔,用以呈現以字母構成之至少一語彙; 一發音攔,用以呈現對應於每一該語彙之至少一 母發音模组,每-該母發音模組包括複數個發音音標; 一類型欄,用以呈現對應於每一該母發音模組之 一來源;以及 一信心分數攔,用以呈現對應於每一該母發音模 组之一信心分數(confidence score),藉由該信心分數提 供使用者修改該語彙所對應之該母發音模組的依據, 以便後續語音辨識的進行。 2. 如申請專利範圍第丨項之字轉音之使用者介面系 統,其中該等語彙為係選自中文語彙及英文語彙其中 3. 如申請專利範圍第丨項之字轉音之使用者介面系 統,其中該來源包括一常用詞庫、一發音辭典、語音 校正、以及一發音規則。 4·如申請專利範圍第〗項之字轉音之使用者介面系 統,更包括一標示攔,用以標示並提供是否選用該母 發音模組。 5·如申請專利範圍第丨項之字轉音之使用者介面系 統,其中每一該信心分數、以及對應於每一該信心分 數的該語彙、該母發音模組和該來源皆具有相同的— 顯示顏色。 20 1305345 ^如申請專利範圍第5項之字轉音之使用者介面系 包括—顯示顏色設定介面,用以修改對應於每 心分數的該顯示顏色。 :广!請專利範圍第1項之字轉音之使用者介面系 在臺包括一發音音標選單’用以呈現對應於每-該 扣彙之部份字母的至少—子發音模組,其中每一該子 包括複數個發音音標’且每一該子發音模組 决疋部份該母發音模組。 利範圍第7項之字轉音之使用者介面系 猎由-輸人介面決定及修改對應於 母的該子發音模組。 I仍子 9.如申請專利範圍第8項之孛艟立 統,其中該輸入介面包括二鍵=滑之 系 -觸控筆以及-語音輸人褒置。^ —觸控板、 ^之一使之使用者介面“的修时法,該字轉 曰^使用者介面系統至少包括-語彙攔、-發音襴: 數搁’該語囊搁係用以呈現以字母構成之至 二發=攔係”呈現對應於每-_之 蘇立立掷X曰、、且且母一 5亥母發音模組包括複數個 而該信心分數攔係用以呈現對應於每-3 分數’該修改方法包括步驟如;· 利用-輸人介面選定該語彙之部份字母.下. 6 ^ 見對應於所選定之該等字母的至少—子發 :且_^、中每一該子發音模組包括複數個發音音^且 母一該子發音餘決定部份該鄉音料以^ 21 1305345 利用該輸入介面於該等子發音模組之中選定一 發音模組,⑽料音频㈣ 行語音辨識時、提供該等語彙—正確的聲學模ΐ 專利範_ 1G項之字轉音之使用者介面系 、充机改方法,其中該等語彙為係選 文語彙其中之一。 τ入„果汉央 12.如申凊專利範㈣⑺項之字轉音之使用者介面系 =的修改方法’其中該字轉音之使用者介面系統更包 f一類型欄’用以呈現對應於每—該母發音模組之- Ϊ3.如申請專利範圍第12項之字轉音之使用者介面系 統的修改方法,其中該來源包括 辭典、語音校正、収—發音_。 ^ 14. 如申請專利範圍第12項之字轉音之使用者介面系 ,的似方法,其中該字轉音之使用者介面系統中每 忒仏。刀數、以及對應於每一該信心分數的該語 、該母發音模組和該來源皆具有相同的一顯示顏色。 15. 如申請專利範圍第14項之字轉音之使用者介面系 統的修改方法,其中該字轉音之使用者介面系統更包 括-顯不顏色設定攔,利用該輸人介面可於該顯示顏 色設定攔内修改對應於每—該信心分數的該顯示顏 色。 16.如申請專利範圍帛1G項之字轉音之使用者介面系 統的修改方法’其中該字轉音之使用者介面系統更包 括-標示攔’利用該輸人介面可於該標示攔内標示並 22 1305345 提供是否選用該母發音模組。 π.如申請專利範圍第1〇項之 統的修改方法,其中該輸人介㈣用系 一觸控板以及一觸控筆。 鍵I、一滑鼠、 18.-種子轉音之使用者介面系統的修 使用者介面系統至少包括-語囊攔、:發;:: 上:數;=吾彙攔係用以呈現以字母構成之至 峰心分數攔係用以呈現對應於每一該 料曰㈣分數,娜改方 利用一輸入介面選定該語彙; /知々下. 立對《玄使用者介面系統輸入—對應於該語囊之一語 音; 啟動一語音辨識程序,以上述所選定語彙相應之 有限個可此發音為辨識詞彙(lexic〇n)進行語音辨認以 尋找對應於該語彙之至少—母發音触,並呈現 母發音模組;以及 利用該輸入介面自有限個該母發音模組中選取其 中之一,便於後續語音辨識的進行。 一 19·如申請專利範㈣18項之字轉音之使用者介面系 統的修改方法,其中該辨識詞彙(lexicon)係透過選定 該語彙所組成之英文字母之可能發音組合而成。 20.如申請專利範圍第18項之字轉音之使用者介面系 統的修改方法,其中該辨識詞彙(lexic〇n)係透過選定 23 1305345 該語彙所組成之中文字之可能的破音字組合而成。 料鄉㈣18狀特音之❹者介面系 統的修改方法,其中該字轉音之使用者介㈣ 1 =類型攔’用以呈現對應於每—該母發音模組 來源。 2如申μ專利範圍第21項之字轉音之使用者介面系 統的修改方法,其中該來源包m詞庫、—發I 辭典以及一發音規則。 曰 23·如申請專·㈣21項之字轉音之使用者介面系 統的修改方法,其中該字轉音之使用者介面系统中每 =該信心分數、以及對應於每一該信心分數的該語 菜、该母發音模組和該來源皆具有相同的—顯示顏色。 24.如申請專利範_ 23項之字轉音之❹者介面系 統的修改方法,其中該字轉音之使用者介面系统更包 括-顯示顏色設定攔,利用—輸人介面可於該顯示顏 色設定攔内修改對應於每—該信心分數的該顯示顏 25.如申請專利範圍帛18項之字轉音之使用者介面系 統的修改方法,其中該字轉音之使用者介面系統更包 括-標示攔’利用一輸入介面可於該標示攔内標示並 k供疋否選用該母發音模組。 24
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW095113247A TWI305345B (en) | 2006-04-13 | 2006-04-13 | System and method of the user interface for text-to-phone conversion |
| US11/689,155 US20070288240A1 (en) | 2006-04-13 | 2007-03-21 | User interface for text-to-phone conversion and method for correcting the same |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW095113247A TWI305345B (en) | 2006-04-13 | 2006-04-13 | System and method of the user interface for text-to-phone conversion |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW200739516A TW200739516A (en) | 2007-10-16 |
| TWI305345B true TWI305345B (en) | 2009-01-11 |
Family
ID=38822975
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW095113247A TWI305345B (en) | 2006-04-13 | 2006-04-13 | System and method of the user interface for text-to-phone conversion |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20070288240A1 (zh) |
| TW (1) | TWI305345B (zh) |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20090172546A1 (en) * | 2007-12-31 | 2009-07-02 | Motorola, Inc. | Search-based dynamic voice activation |
| US9733724B2 (en) * | 2008-01-13 | 2017-08-15 | Aberra Molla | Phonetic keyboards |
| US20110313762A1 (en) * | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
| US9275633B2 (en) * | 2012-01-09 | 2016-03-01 | Microsoft Technology Licensing, Llc | Crowd-sourcing pronunciation corrections in text-to-speech engines |
| TWI466101B (zh) * | 2012-05-18 | 2014-12-21 | Asustek Comp Inc | 語音識別方法及系統 |
| CN103714048B (zh) * | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
| KR20140146785A (ko) * | 2013-06-18 | 2014-12-29 | 삼성전자주식회사 | 오디오 및 텍스트 간의 변환을 위한 방법 및 전자 장치 |
| US10048842B2 (en) * | 2015-06-15 | 2018-08-14 | Google Llc | Selection biasing |
| US10923105B2 (en) * | 2018-10-14 | 2021-02-16 | Microsoft Technology Licensing, Llc | Conversion of text-to-speech pronunciation outputs to hyperarticulated vowels |
| US11410642B2 (en) * | 2019-08-16 | 2022-08-09 | Soundhound, Inc. | Method and system using phoneme embedding |
| JP7287412B2 (ja) * | 2021-03-24 | 2023-06-06 | カシオ計算機株式会社 | 情報処理装置、情報処理方法及びプログラム |
| US12260027B2 (en) | 2021-12-29 | 2025-03-25 | Aberra Molla | Ethiopic single to three keystrokes typing |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5787230A (en) * | 1994-12-09 | 1998-07-28 | Lee; Lin-Shan | System and method of intelligent Mandarin speech input for Chinese computers |
| US7080005B1 (en) * | 1999-07-19 | 2006-07-18 | Texas Instruments Incorporated | Compact text-to-phone pronunciation dictionary |
| CN1207664C (zh) * | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
| US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
-
2006
- 2006-04-13 TW TW095113247A patent/TWI305345B/zh not_active IP Right Cessation
-
2007
- 2007-03-21 US US11/689,155 patent/US20070288240A1/en not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| TW200739516A (en) | 2007-10-16 |
| US20070288240A1 (en) | 2007-12-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7292980B1 (en) | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems | |
| US6446041B1 (en) | Method and system for providing audio playback of a multi-source document | |
| US8290775B2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
| KR101445904B1 (ko) | 현장 음성 번역 유지 시스템 및 방법 | |
| US7149970B1 (en) | Method and system for filtering and selecting from a candidate list generated by a stochastic input method | |
| US20080133245A1 (en) | Methods for speech-to-speech translation | |
| TWI305345B (en) | System and method of the user interface for text-to-phone conversion | |
| CN1197525A (zh) | 交互式语言训练设备 | |
| TW201517017A (zh) | 語言模型的建立方法、語音辨識方法及電子裝置 | |
| US20020007275A1 (en) | Speech complementing apparatus, method and recording medium | |
| WO2003025904A1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
| CN101415259A (zh) | 嵌入式设备上基于双语语音查询的信息检索系统及方法 | |
| CN110740275B (zh) | 一种非线性编辑系统 | |
| JP3476007B2 (ja) | 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 | |
| CN101441527A (zh) | 拼音输入中提示正确读音的方法及装置 | |
| US7630898B1 (en) | System and method for preparing a pronunciation dictionary for a text-to-speech voice | |
| Wang et al. | MAT-2000-design, collection, and validation of a Mandarin 2000-speaker telephone speech database. | |
| Lin et al. | Hierarchical prosody modeling for Mandarin spontaneous speech | |
| TWI313425B (en) | Method, system, and computer readable storage medium for processing user entry of an ideographic language phrase | |
| Pallett | Session 2: DARPA resource management and ATIS benchmark test poster session | |
| JP7165439B2 (ja) | ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 | |
| Begel | Spoken language support for software development | |
| JP6340839B2 (ja) | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム | |
| TWI731493B (zh) | 多語語音辨識及主題語意分析方法與裝置 | |
| CN101064105A (zh) | 字转音的使用者界面系统及修改方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |