[go: up one dir, main page]

TWI305345B - System and method of the user interface for text-to-phone conversion - Google Patents

System and method of the user interface for text-to-phone conversion Download PDF

Info

Publication number
TWI305345B
TWI305345B TW095113247A TW95113247A TWI305345B TW I305345 B TWI305345 B TW I305345B TW 095113247 A TW095113247 A TW 095113247A TW 95113247 A TW95113247 A TW 95113247A TW I305345 B TWI305345 B TW I305345B
Authority
TW
Taiwan
Prior art keywords
pronunciation
user interface
word
vocabulary
interface system
Prior art date
Application number
TW095113247A
Other languages
English (en)
Other versions
TW200739516A (en
Inventor
Liang Sheng Huang
Tien Ming Hsu
Chien Chou Hung
Keng Hung Yeh
min hong Wang
Jia Lin Shen
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Priority to TW095113247A priority Critical patent/TWI305345B/zh
Priority to US11/689,155 priority patent/US20070288240A1/en
Publication of TW200739516A publication Critical patent/TW200739516A/zh
Application granted granted Critical
Publication of TWI305345B publication Critical patent/TWI305345B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

1305345 九、發明說明: 【發明所屬之技術領域】 本發明係指一種字轉音之使用者介面系統及修改 方法,特別疋應用於§吾音辨識技術的一種字轉音之使 用者介面系統及修改方法。 __—<_一 【先前技術】 在非特定語者(speaker-independent)語音辨識領域 (例如 Hmm-based speech recognition)之中,辨識詞囊 (recognition vocabulary)常常是透過文字(text)轉換成 音標(phonetic symbol)的形式所構成;而且,每個音標 都有其相對應的聲學模型(acoustic model)。對於每_ 個辨識語(word)來說,其組成音標的相應聲學模型係 串連成一個辨識語模組(word model),然後供辨識引擎 進行比對之用。 但由於一字(word)多音、或是辭典裏的發音不正 確、或是新詞(new words)的出現,此時便需要靠發音 規則來產生其音標,但有時該發音規則又不足以囊括 或適用於這些新詞時,便常常造成此一字轉音 (text-t〇-ph〇ne)的過程中極易出現誤差。舉例來說,中 文詞的”單身,,其正確發音應為<d a n sh ax n> ’但有可 能被誤轉為<sh a n sh ax n>;另外,英文字“record,,作 為名詞時發音為<? eh krd>,作為動詞時發音則變為 <r lh ‘k 〇Γ d>,這種情形下便有可能選錯;再者,專有 名詞(商標)“BenQ”在辭典裡面雖然找不到’但根據發 1305345 音規則它應該唸成<behnk> ,可0 + & ^behnky離,諸如此類的伊D豕卻都將該詞讀 舉。 此頰的錯玦林林總總而不勝枚 現行=2:誤會:加語音辨識上的錯誤率,因此 辨識系统對於字轉音錯誤的處 :發音辭典和發音規則是很難滿足人 類生活中所销出鼓變化萬千的詞彙。因此
:使:的系統上常常會提供—個圖形化使用介: (Gmph1Cal User Interface, _),讓使 這些音標或詞彙, 曰灯木1>?文 然而’過去的GIH設計由於是 音同時列出,並未再提供任何得以判_^之^ 性之根據’導致㈣者在進行修改作業時必須把所有 的個-個地從頭縣檢查—次,才能驗證完它 們的么音;但當詞彙量較大(數百個以上)時,這種地毯 式的搜f就顯得耗時、不夠人性化以及欠缺實用性了。 職是之故,申請人鑑於習知技術中所產生之缺 失’乃經悉心試驗與研究,並—本㈣不捨之精神, 終構思出本案「字轉音之使用者介面統及修改方 法」,以下為本案之簡要說明。 【發明内容】 本案之構想為提出—種字轉音之使用者介面系統 &修’係提供—離線(offline)式的修改介面及 方法以利後續語音辨識的進行。 1305345 介面第一構想,提出-種字轉音之使用者 少包二=方=字轉音之使用者介面系統至 # 毛曰攔、—類型攔以及一信心分 :攔二:語彙攔係用以呈現以字 音攔係用以呈現對應於每-該語囊之至少一二 k、、且’母—該母發音模組包括複數個發音音標^ =攔係用以呈現對應於每—該母發音模組之—'二, 1心t數搁係用以呈 數(C〇nfldence _e),藉由該信心分數提供 後續語音辨識音模組的依據,以便 〜ίΐ本案一第二構想’提出一種字轉音之使用者 的料方法,財轉音之❹者介面系統如 囊之二ϊΓ方法包括:利用一輸入介面選定該語 一 刀子母,呈現對應於所選定之該等字母的至少 立曰模組’其中每一該子發音模組包括複數個發 =It且每—好發音模組決定部㈣母發音模組; 乂及利用該輸入介面於該等子發音模短之中選定一子 改部份該母發音模組’以便於其後進 心曰辨識時、提供該等語彙—正確的聲學模型。 根據本案一第三構想,提出一 統的修改方法,該字轉音之使用者;= 選=收該修改=法包括:利用一輸入介面例如滑鼠 改之s吾菜(word),再對該使用者介面系統輸 一對應於該語彙之語音;然後系賴動—語音辨識 1305345 :呈序二以尋找對應於該語彙之至 :二然後呈現該等母發音模組,使用者便 自有限個該發音模組中選取 後 績語音辨識的進行。 心、俊 較佳者,其中該等語彙為 語彙其中之—。 茱及央文 較佳者’其中該來源包括—常用詞庫、—發 典以及一發音規則。 一俨=者田其中該字轉音之使用者介面系統更包括 欄’肋標示並提供是否選_母發音模組。 特者’其巾每—該信*分數、以及對應於每— = 數的該語彙、該母發音模組和該來源皆具有 相同的一顯示顏色。 較佳者,其中該字轉音之使用者介面系統更包括 :顯不顏色狀介面’用以修改對應於每—該信心分 數的該顯示顏色。 較佳者,其中該字轉音之使用者介面系統更包括 二發音音標選單呈輯應於每-該語彙之部份 字母的至少-子發音模組,其巾每—該子發音模組包 括複數個發音音標,且每—該子發音模組 母發音模組。 車乂佳者,其中該字轉音之使用者介面系統係藉由
一輸入介面決定及修改對應於該等部份字母的該子 音模組。 X 幸父佳者,其中該輸入介面包括 鍵盤 滑鼠 10 1305345 一觸控板、一觸控筆以及一語音輸入裝置。 本案得藉由下列圖式及詳細說明,俾得更深入之 了解: 【實施方式】 請參閱第一圖,其為本案所提字轉音 (text_to-phone)之使用者介面系統一較佳實施例的介 面示意圖,該字轉音之使用者介面系統係應用於語音 _ 辨識,該字轉音之使用者介面系統的介面1至少包括 一語彙欄10、一發音攔11、一類型攔12以及一信心 分數欄13。 ' 在第一圖中,該語彙欄10係用以呈現以字母構成 • 之至少一語彙,該發音欄11係用以呈現對應於每一該 語彙之至少一母發音模組,且每一該母發音模組包括 複數個發音音標,該類型攔12係用以呈現對應於每一 該母發音模組之一來源,而該信心分數欄13係用以呈 ❿ 現對應於每一該母發音模組之一信心分數(confidence score),以提供使用者修改該語彙所對應的該母發音模 組之依據。 需要特別注意的是,本案所述以字母構成之該等 語彙可以是中文語彙、英文語彙或是其他種文字的語 彙,只要是可以藉由字母構成其讀音的文字,盡皆適 用於本案之修改方法。然而,為了方便敘述,以下的 實施例係以英文語彙(如”resume”、”benQ”)來做說明, 但其並無法限制本案對於中文語彙(如”好吃”……< h a 〇 11 1305345 chih>)...等其他種文字的適用性。 以第一圖中的實際語彙作為例子來幫助理解。在 第一圖中,第八列的語彙’’resume”係為以英文字母構 成的一語彙,其相對應之發音攔11之内具有兩個母發 音模組<r iy z uw m>及<r eh z ax m ey>以供選擇,類型 欄12顯示這兩個母發音模組<r iy z uw 111>及<r eh z ax 11167>的來源皆為辭典,而其所對應的兩個信心分數欄 13中的信心分數60及40分別代表母發音模組<r iy z _ uw m>及 <r eh z ax m ey>的常用度。 '在第一圖中,每個語彙相應的發音也許是從常用 詞庫中取得、也許從發音辭典中取得......等等。 ' 本案的第一個技術特徵在於為傳統的字轉音之使 - 用者介面系統提供一信心分數攔以減少逐一判定及修 改字轉音錯誤的窘況。以語彙‘computer’為例,其發音 可以在發音詞典裏被找到,而且該語彙僅有此一發 音,故信心分數是100分;又例如圖中第十四列的語 • 彙“WWW”是在我們預先蒐集的常用詞庫裏找到,發現 它有 <tr ih p ax 1 d ah b ax 1 y uw>和 <d ah b ax 1 y uw d ah b ax 1 y uw d ah b ax 1 y uw>兩種不同的發音(母發 音模組),但是根據判斷大約60%的人採取前者而發音 的較多,僅40%的人採取後者而發音,故訂定兩者的 信心分數分別為60分及40分。由於字轉音之使用者 介面系統多了此一功能,便能夠藉由該信心分數提供 使用者修改該語彙所對應的該母發音模組之依據,更 可以大幅減少前面所提傳統的GUI設計並未提供判斷 12 1305345 之根據所ϋ成在進行錢作業時f把所有的語囊一個 一個地從頭到尾檢查一次以驗證其發音的時間浪費, 再者,亦可以輕鬆處理當詞彙量較大時的情況。 /在第一圖的介δ 1,更可以包括一標示攔14,其 係用以標示藉由該信心分數所決定之該語彙所對應的 該母發音模組;舉例㈣,由於母發音模組々iy ζ _ 的信心分數60大於母發音模組<r此z狀m ^>的 L〜为數40,因此勾選母發音模組<r ^ z uw瓜>所對 f的標示攔14’代表此時將語彙”,,的字轉音發 音訂為 <r iy z uw m>。 此外,介Φ 1中較大信心分數列與較小信心分數 列的先後順序是可以自由調整的,使用者可以依照使 用^的習制較大信〇㈣設定在較小信心分數列 之前或之後,以便於觀察或修改。 ,得一提的是,在第一圖中,根據不同的信心分 數’還可以將每一該信心分數、以及對應於每一該信 心分數的該語彙、該母發音模師該來源狀成為; 具有相同的一顯示顏色;也就是說,在第一圖中,不 同信心分數的列具有不同的顯示顏色,此舉更加使得 在進行修改作業時的順利度。以實際的例子來看,母 發音模組<r eh z ax m ey>所屬列的所有顯示文字的顏 色與母發音模組々iy z uw m>所屬列的所有顯示文字 的顏色並不相同’以增添鏗別度。 ^此外’介面1中的設定按鈕15關聯到顯示顏色設 疋介面2,如第二圖所示,由圖中可看出,藉由信心 13 1305345 刀數的適當定義可以修改對應於每—該信心分數的該 顯示顏色。 ^案另一附加功能是,整個介面丨亦可以依據使 用者吾好而根據該語彙攔1〇、該發音欄11、該類型攔 12或是該信心分數攔13來進行排序,使得整個字轉 音修改介面更為人性化。 系的弟 —叫议w付傲牡;,提供
使用者介面系統的修改方法,更特定而言之,係提供 可應用於前述轉音之使ffl者介面“的-種修改介 面:清參閱第三圖’其為本案所提字轉音之使用者介 面,統的修改方法一較佳實施例的介面示意圖,其係 以第一圖之單一列為製作根據。 八’、
在第三圖之單-列3中,當使用如鍵盤、滑鼠、 觸控板或是觸控筆...等之類的輸入介面選定一注彙 之部份英文字母時,即會隨著此-選定而出現1發立 =標選單% ’該發音音標選單36包括了對應於該二 36X3VT/敎之料数柯㈣數個子發音模組 X,其一中母一該子發音模組皆包括複數個發音立 =而每-該子發音模組㈣部份該母發音模組/ :者,藉由該等輸入介面選定其中一種 36x,便可以順利地改變該母發音模袓31, 、汲 後進行語音辨識時、提供該等語彙於其 學模型果们咕正確的聲 將第三 時,便 以實際的例子來看,當使用該等輸入介面 圖中的語彙’’benQ”中的”ben”部份選定成為反白 14 1305345 會出現與,w,相對應的多個 時若再利用該等輸入介:,361〜364 ’此 363 > - m rh 、疋/、中的子發音模組 1更J以將弟二圖中原來 變為<b ay n>。 v亨發目杈組邙eh於改 使用者介面1 統在:特;:’轉音之 :應:於前述字轉音之使用者介面:統二 法不太相同的是,以下所述2動方式進行的修改方 刹m Α 述的另—種修改方法主要係 利用语音以自動方式進行修改。 同樣以前述的語彙” benQ”為例進行說明。 操作流程如下,首先,先以諸 =用者便利用語音方式對著麥克風說出,,benQ,,“ 此時,系統便會對該語音進行—額外的語音辨識, 由於已_定了欲修改之語彙(此實施例為,,benQ,,)’ 因此其可能的發音就可以被限縮,逐字母來看. (1) ”b”的發音可以是”b”; ”ae”、,,iy”、,,ih” ’ng”;以及 ’kyuw, ay, (2) ”e”的發音可以是”eh” 或不發音; (3) ”n”的發音可以是”n”、 (4) ”Q”的發音可以是,’k” „ 是故,’’benQ”這個字的發音便被限縮到下述 窄的辨識範圍: 15 1305345 1. <b eh n k> 2. <b ae n k> 3. <b iy n k> 4. <b ih n k> 5. <b ay n k> 6. <b n k> 7. <b eh ng k> 8. <b ae ng k>
9. <b iy ng k> 10. <b ih ng k> 11. <b ay ng k> 12. <b ng k> 13. <b eh n k y uw> 14. <b ae n k y uw> 15. <b iy n k y uw> 16. <b ih n k y uw>
17. <b ay n k y uw> 18. <b n k y uw> 19. <b eh ng k y uw> 20. <b ae ng k y uw> 21. <b iy ng k y uw> 22. <b ih ng k y uw> 23. <b ay ng k y uw> 24. <b ng k y uw> 系統係從上述24個母發音模組所構成的一較窄 16 1305345
範圍中選取其中之一作為辨識出的音標結果,再將並 顯示於發音攔中,接著便將類型攔的内容更改為,,語I 校正”即可。 °曰 此種利用語音自動辨識方式進行修改之技術特徵 的優點在於,,利用有限數目的(如本實施例中的^ =發音模;组進行-咖^ 二f:C〇n)、或是利用語言模型(―之 果 =:_(_rain)語音辨識時所產生辨識的結 t為僅屬於上列的多種發音之™,故能得到較正確的 ^^:習用技術中毫無限制的辨識選項來說, 點為可使得語音辨識的結果更為精準, 0平白…、故地冒出太離譜的結果。 此一技術特徵的另一優點在於如此便不需要 盤直接輸入音標符號以進行修改,這 ’’ 何編輯音標的人來說是極為方便的創舉,、特ς = 螢幕^手持裝置上的利用更能顯現其獨特之處^ 第四圖為對應第三圖之操控的
==:「同,惟第四圖之多了將該等輸C 標獅的第二步驟(第二攔),但此 侧;所能輕易完成之’故於此處不^:本 取後,若是針對第四圖之字轉音之使人 統的修改方法進行改善,還可以 ”面糸 盤、滑鼠、觸控板或是觸控筆...等之類如二 入方式提升為使用語音輸入判別的方== 17 1305345 述’’benQ”的例子說明,使 面 的語音”ben”自動加以辨.…隸血:對所心出; 望、联& 辨熾且根據辭典或發音規則… if取一種子發!:模級如歧義出母發音模組31。 更進地心了^修改方進步之處在於, 沾士 y 者花時間選取子發音模组36χ 的¥間,對於效率的提料極大助益。 ’
綜上所^,本發明所提出字轉音之使用者介面系 、泰,係於讓字轉音過程可能產生的錯誤(或信心分數) 透過不同的顏色的_化使用介面(GUI)呈現出來,使 得潛在的錯誤能—目瞭然,並提供以字轉音的作心分 數(confidence score)為標的排序之功能,使信心分數較
差的語彙能集中顯示於最前端,讓使用者不必頻頻捲 動捲軸(Scroll Bar)就能—覽無遺這些可能需要修改的 語彙或音標,而能夠更為方便地將心力集中在修改這 些詞彙或標音上,使得後續進行語音辨識時能夠獲得 更為精準的辨識結果;而本發明所提出字轉音之使用 者介面的修改方法’則係允許使用者藉由各二輸入介 面呈現有限數目的可能的發音模組供選取;或是狂立 ,式’以此有限數目的可能的發音模組縮限辨二 茱(lexlcon)、因而產生較具正確性的語彙發音,便於 後續語音辨識的進行。是故,本案不但可大幅提升了 字轉音過財呈現介面與修改介㈣操控^與使用 便利性’實為一不可多得之發明創見。 本案得由熟悉本技藝之人士任施匠思而為諸般修 飾,然皆不脫如附申請專利範圍所欲保護者。 18 1305345 【圖式簡單說明】 第一圖:本案所提字轉音之使用者介面系統一 佳實施例的介面示意圖; 第二圖:本案所提字轉音之使用者介面系 示顏色設定介面的示意圖; 扁 第三圖:本案所提字轉音之使用者介面系統的修 方法較佳貫施例的介面示意圖;以及 第四圖:本案所㈣轉音之使用者介面系統的修 方法一較佳實施例的流程圖。 【主要元件符號說明】 1字轉音之使用者介面系統的介面 2顯示顏色設定介面 3字轉音之使用者介面的單一列 語彙攔 U發音攔 12類型攔 13信心分數攔 14標示攔 15設定按鈕 30語彙 32類型 36發音音標選單 31母發音模組 33信心分數 361〜364子發音模組 19

Claims (1)

1305345 十、申請專利範園: 1. 一種字轉音(text-t”h〇ne)之使用者介面系統,係應 用於語音辨識,該字轉音之使用者介面系統包括: 一語彙攔,用以呈現以字母構成之至少一語彙; 一發音攔,用以呈現對應於每一該語彙之至少一 母發音模组,每-該母發音模組包括複數個發音音標; 一類型欄,用以呈現對應於每一該母發音模組之 一來源;以及 一信心分數攔,用以呈現對應於每一該母發音模 组之一信心分數(confidence score),藉由該信心分數提 供使用者修改該語彙所對應之該母發音模組的依據, 以便後續語音辨識的進行。 2. 如申請專利範圍第丨項之字轉音之使用者介面系 統,其中該等語彙為係選自中文語彙及英文語彙其中 3. 如申請專利範圍第丨項之字轉音之使用者介面系 統,其中該來源包括一常用詞庫、一發音辭典、語音 校正、以及一發音規則。 4·如申請專利範圍第〗項之字轉音之使用者介面系 統,更包括一標示攔,用以標示並提供是否選用該母 發音模組。 5·如申請專利範圍第丨項之字轉音之使用者介面系 統,其中每一該信心分數、以及對應於每一該信心分 數的該語彙、該母發音模組和該來源皆具有相同的— 顯示顏色。 20 1305345 ^如申請專利範圍第5項之字轉音之使用者介面系 包括—顯示顏色設定介面,用以修改對應於每 心分數的該顯示顏色。 :广!請專利範圍第1項之字轉音之使用者介面系 在臺包括一發音音標選單’用以呈現對應於每-該 扣彙之部份字母的至少—子發音模組,其中每一該子 包括複數個發音音標’且每一該子發音模組 决疋部份該母發音模組。 利範圍第7項之字轉音之使用者介面系 猎由-輸人介面決定及修改對應於 母的該子發音模組。 I仍子 9.如申請專利範圍第8項之孛艟立 統,其中該輸入介面包括二鍵=滑之 系 -觸控筆以及-語音輸人褒置。^ —觸控板、 ^之一使之使用者介面“的修时法,該字轉 曰^使用者介面系統至少包括-語彙攔、-發音襴: 數搁’該語囊搁係用以呈現以字母構成之至 二發=攔係”呈現對應於每-_之 蘇立立掷X曰、、且且母一 5亥母發音模組包括複數個 而該信心分數攔係用以呈現對應於每-3 分數’該修改方法包括步驟如;· 利用-輸人介面選定該語彙之部份字母.下. 6 ^ 見對應於所選定之該等字母的至少—子發 :且_^、中每一該子發音模組包括複數個發音音^且 母一該子發音餘決定部份該鄉音料以^ 21 1305345 利用該輸入介面於該等子發音模組之中選定一 發音模組,⑽料音频㈣ 行語音辨識時、提供該等語彙—正確的聲學模ΐ 專利範_ 1G項之字轉音之使用者介面系 、充机改方法,其中該等語彙為係選 文語彙其中之一。 τ入„果汉央 12.如申凊專利範㈣⑺項之字轉音之使用者介面系 =的修改方法’其中該字轉音之使用者介面系統更包 f一類型欄’用以呈現對應於每—該母發音模組之- Ϊ3.如申請專利範圍第12項之字轉音之使用者介面系 統的修改方法,其中該來源包括 辭典、語音校正、収—發音_。 ^ 14. 如申請專利範圍第12項之字轉音之使用者介面系 ,的似方法,其中該字轉音之使用者介面系統中每 忒仏。刀數、以及對應於每一該信心分數的該語 、該母發音模組和該來源皆具有相同的一顯示顏色。 15. 如申請專利範圍第14項之字轉音之使用者介面系 統的修改方法,其中該字轉音之使用者介面系統更包 括-顯不顏色設定攔,利用該輸人介面可於該顯示顏 色設定攔内修改對應於每—該信心分數的該顯示顏 色。 16.如申請專利範圍帛1G項之字轉音之使用者介面系 統的修改方法’其中該字轉音之使用者介面系統更包 括-標示攔’利用該輸人介面可於該標示攔内標示並 22 1305345 提供是否選用該母發音模組。 π.如申請專利範圍第1〇項之 統的修改方法,其中該輸人介㈣用系 一觸控板以及一觸控筆。 鍵I、一滑鼠、 18.-種子轉音之使用者介面系統的修 使用者介面系統至少包括-語囊攔、:發;:: 上:數;=吾彙攔係用以呈現以字母構成之至 峰心分數攔係用以呈現對應於每一該 料曰㈣分數,娜改方 利用一輸入介面選定該語彙; /知々下. 立對《玄使用者介面系統輸入—對應於該語囊之一語 音; 啟動一語音辨識程序,以上述所選定語彙相應之 有限個可此發音為辨識詞彙(lexic〇n)進行語音辨認以 尋找對應於該語彙之至少—母發音触,並呈現 母發音模組;以及 利用該輸入介面自有限個該母發音模組中選取其 中之一,便於後續語音辨識的進行。 一 19·如申請專利範㈣18項之字轉音之使用者介面系 統的修改方法,其中該辨識詞彙(lexicon)係透過選定 該語彙所組成之英文字母之可能發音組合而成。 20.如申請專利範圍第18項之字轉音之使用者介面系 統的修改方法,其中該辨識詞彙(lexic〇n)係透過選定 23 1305345 該語彙所組成之中文字之可能的破音字組合而成。 料鄉㈣18狀特音之❹者介面系 統的修改方法,其中該字轉音之使用者介㈣ 1 =類型攔’用以呈現對應於每—該母發音模組 來源。 2如申μ專利範圍第21項之字轉音之使用者介面系 統的修改方法,其中該來源包m詞庫、—發I 辭典以及一發音規則。 曰 23·如申請專·㈣21項之字轉音之使用者介面系 統的修改方法,其中該字轉音之使用者介面系统中每 =該信心分數、以及對應於每一該信心分數的該語 菜、该母發音模組和該來源皆具有相同的—顯示顏色。 24.如申請專利範_ 23項之字轉音之❹者介面系 統的修改方法,其中該字轉音之使用者介面系统更包 括-顯示顏色設定攔,利用—輸人介面可於該顯示顏 色設定攔内修改對應於每—該信心分數的該顯示顏 25.如申請專利範圍帛18項之字轉音之使用者介面系 統的修改方法,其中該字轉音之使用者介面系統更包 括-標示攔’利用一輸入介面可於該標示攔内標示並 k供疋否選用該母發音模組。 24
TW095113247A 2006-04-13 2006-04-13 System and method of the user interface for text-to-phone conversion TWI305345B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW095113247A TWI305345B (en) 2006-04-13 2006-04-13 System and method of the user interface for text-to-phone conversion
US11/689,155 US20070288240A1 (en) 2006-04-13 2007-03-21 User interface for text-to-phone conversion and method for correcting the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW095113247A TWI305345B (en) 2006-04-13 2006-04-13 System and method of the user interface for text-to-phone conversion

Publications (2)

Publication Number Publication Date
TW200739516A TW200739516A (en) 2007-10-16
TWI305345B true TWI305345B (en) 2009-01-11

Family

ID=38822975

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095113247A TWI305345B (en) 2006-04-13 2006-04-13 System and method of the user interface for text-to-phone conversion

Country Status (2)

Country Link
US (1) US20070288240A1 (zh)
TW (1) TWI305345B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090172546A1 (en) * 2007-12-31 2009-07-02 Motorola, Inc. Search-based dynamic voice activation
US9733724B2 (en) * 2008-01-13 2017-08-15 Aberra Molla Phonetic keyboards
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US9275633B2 (en) * 2012-01-09 2016-03-01 Microsoft Technology Licensing, Llc Crowd-sourcing pronunciation corrections in text-to-speech engines
TWI466101B (zh) * 2012-05-18 2014-12-21 Asustek Comp Inc 語音識別方法及系統
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
KR20140146785A (ko) * 2013-06-18 2014-12-29 삼성전자주식회사 오디오 및 텍스트 간의 변환을 위한 방법 및 전자 장치
US10048842B2 (en) * 2015-06-15 2018-08-14 Google Llc Selection biasing
US10923105B2 (en) * 2018-10-14 2021-02-16 Microsoft Technology Licensing, Llc Conversion of text-to-speech pronunciation outputs to hyperarticulated vowels
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
JP7287412B2 (ja) * 2021-03-24 2023-06-06 カシオ計算機株式会社 情報処理装置、情報処理方法及びプログラム
US12260027B2 (en) 2021-12-29 2025-03-25 Aberra Molla Ethiopic single to three keystrokes typing

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US7080005B1 (en) * 1999-07-19 2006-07-18 Texas Instruments Incorporated Compact text-to-phone pronunciation dictionary
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon

Also Published As

Publication number Publication date
TW200739516A (en) 2007-10-16
US20070288240A1 (en) 2007-12-13

Similar Documents

Publication Publication Date Title
US7292980B1 (en) Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6446041B1 (en) Method and system for providing audio playback of a multi-source document
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
KR101445904B1 (ko) 현장 음성 번역 유지 시스템 및 방법
US7149970B1 (en) Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US20080133245A1 (en) Methods for speech-to-speech translation
TWI305345B (en) System and method of the user interface for text-to-phone conversion
CN1197525A (zh) 交互式语言训练设备
TW201517017A (zh) 語言模型的建立方法、語音辨識方法及電子裝置
US20020007275A1 (en) Speech complementing apparatus, method and recording medium
WO2003025904A1 (en) Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN110740275B (zh) 一种非线性编辑系统
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
CN101441527A (zh) 拼音输入中提示正确读音的方法及装置
US7630898B1 (en) System and method for preparing a pronunciation dictionary for a text-to-speech voice
Wang et al. MAT-2000-design, collection, and validation of a Mandarin 2000-speaker telephone speech database.
Lin et al. Hierarchical prosody modeling for Mandarin spontaneous speech
TWI313425B (en) Method, system, and computer readable storage medium for processing user entry of an ideographic language phrase
Pallett Session 2: DARPA resource management and ATIS benchmark test poster session
JP7165439B2 (ja) ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
Begel Spoken language support for software development
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
TWI731493B (zh) 多語語音辨識及主題語意分析方法與裝置
CN101064105A (zh) 字转音的使用者界面系统及修改方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees