[go: up one dir, main page]

TWI358223B - Verifying a user using speaker verification and a - Google Patents

Verifying a user using speaker verification and a Download PDF

Info

Publication number
TWI358223B
TWI358223B TW095104025A TW95104025A TWI358223B TW I358223 B TWI358223 B TW I358223B TW 095104025 A TW095104025 A TW 095104025A TW 95104025 A TW95104025 A TW 95104025A TW I358223 B TWI358223 B TW I358223B
Authority
TW
Taiwan
Prior art keywords
user
sound
type
markup language
text
Prior art date
Application number
TW095104025A
Other languages
English (en)
Other versions
TW200637331A (en
Inventor
David Jaramillo
Gerald Matthew Mccobb
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of TW200637331A publication Critical patent/TW200637331A/zh
Application granted granted Critical
Publication of TWI358223B publication Critical patent/TWI358223B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • H04M3/385Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords using speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

九、發明說明: 【發明所屬之技術領域】 本發明係關於使用多型態、基於網路之介面以辨 識一使用者。 【先前技術】 一種多型態介面可讓一使用者透過一應用程式或 藉由影像或聲音手段(means)之其他系統達成通訊。例 如’一使用者可透過圖像使用者介面((31;1),藉由發出 或更多的s兒話調(spoken utterances),或藉由提供 一 GUI輸入與聲音輸入之組合,以達成通訊。多型態 互動可提供使用者更直接的手段,與一系統通訊。 關於可攜式電腦裝置,例如智慧型電話、個人數 位助理、及其他具有短小特徵的裝置,多型態介面可 供使用者依據環境選擇一互動的手段。在有些情形, 利用GUI比較有利,而其他時候可能聲音資料輸入可 能較有優勢或較方便。舉例而言,在正常的環境下, 一使用者可能會選擇聲音互動,因其為較直接且快速 的方式。聲音資料輸入更可讓使用者免去使用一微型 鍵盤或小型的GUI,無論是使用二者任一都很累贅或 麻煩® 然而,在吵雜的環境下就可能無法實行聲音資料 4IBM/06004TW : BOC9-2005-0009TWt(JL) °魏著數層的噪音可能會賴掉錢者聲音輸 二产至無法精準的辨識使用者的語音的程度。在有些 下,例如要辨認-使用者身分時,使用者可能 也還疋要選擇用鍵盤鍵入或非聲音的互動。典型地, 5用5的確認係利用一使用者名稱與-密碼。由於將 1種貝訊以語音輸人-多型態介面’可使得其他人偷 保密的資訊,因此使用者經常利用GUI或鍵盤鍵 入這類貝訊。然而’值得注意的是’在可攜式電腦裝 置中使用此方法輸入這類資訊很累贅且麻煩。 使用密碼還有一些其他的缺點。典型地,密碼很 難έ己憶,而且不很安全。使用者要記住其擁有之多組 帳號的费碼尤其困難,每一者都需要一個使用者名稱 與密碼。為了避免必須要記住每個密碼,使用者傾向 於使用一個通用的密碼於多個帳號,將密碼寫在一存 取卡的背面,例如提款卡的背面,或者將密碼設定與 使用者名稱相同。上述的任一種行為都會使得使用者 的帳戶不安全。 儘管如此,像是銀行、航空訂位、產品購買及其 他類似的功能都開始設有多型態、基於網路之介面, 使用者的辨認變得愈來愈重要。若交易是安全的,而 且若是這些系統可確保使用者確為其人,這些系統才 會成功。因此,透過一多型態介面提供一辨認使用者 4IBM/06004TW ; BOC9-2005-0009TW1(JL) -6- 1358223 的技術即可獲得利益’克服上述的缺點。 【發明内容】 本發明提供一種解決方案,透過一通訊網絡 (communication network)供辨認一使用者身份。本發明 之一實施例包括一種使用多型態、基於網路之介面以 辨認一使用者身分之方法。該方法可包含傳送一多聖
態介面標記語言文件至一遠端電腦裝置,當遠端電腦 裝置呈現時,請求辨認一使用者之身分,並使該使用 者之聲音傳送到一多型態、基於網路的應用程式。該 使用者之身分辨認及聲音(recording)幾乎是同時地從 客戶端裝置被接收。將該聲音與一使用者之身分辨認 相關聯之聲紋相比較。因此,依據上述之比較所獲得 之一結果,可選擇性地允許在遠端電腦裝置之使用者 存取系統。
本發明之另-實施例包含一種供辨認一使用者身份 =系統。該系統可包含-辨認系統,其具有—聲紋資料 關脾係包括複數聲紋,每個聲紋都與—使用者身分辨認相 葬。該錢還可包含-乡鶴應雌式 記語言文件至-客戶職置^執^日^ -ΐ用己浯'文件可指定一隨機文字稿並產生 機Γ與聲音’係包含—語者大聲地朗讀該隨 =數位代表’·傳送_多㈣應用程式。 41BM/〇6〇〇4Tw ; BOC9-2005-0009TWl(JL) 該多型態應用程式可提供文字稿、聲音、以及該使用者之 身分辨5忍給該辨遠系統,猎由比較聲音與選自與使用者之 身分辨認相關聯的複數聲紋之一,以辨認該語者之身分。 本發明之另一個實施例係可包括一種機器可讀取之 館存器,其係可被程式化使得一機器執行本發明所述之各 種步驟。 【實施方式】 本發明提供一解決方案,透過使用一多型態、基 於網路之介面,供辨認一使用者身份。依據本發明, 一使用者的身分可透過使用者之聲音辨識技術得以被 確W。接收自一多形態、基於網路之應用程式 (application)之多型態文件可顯示出一使用者。多形態 文件,如一網頁形式的介面,可請求使用者提供一使 用別符或使用者名稱(以下簡稱「使用者id」)以 二—,音樣本。使用者10及聲音樣本兩者皆可再被提 ^至多形態、基於網路之應用程式。依據聲音樣本並 姓照使用者ID,聲音賴得以執行。依據聲音辨識的 :果即可准許使用者進入一線上系統或拒絕使用者 進人。 圖1係依據揭露之發明的安排之一概要圖,闡述 使用-基於網路多型態介面執行使用者辨認之一^ 4IBM/06004TW : BOC9-2005-0009TWl(jn ~ 8 - 100。如圖所示,系統100可包括一客戶端裝置1〇5、 一包含多型態應用程式120之伺服器11〇,以及一具 有一聲紋資料庫(v〇ice print database) 13 0之辨認系統 125。 在實例中,客戶端裝置105可為各式各樣的電腦 裝置,例如一桌上型電腦、一伺服器、或類似者。在另一 實施例中’客戶端襄置105可為一可攜式及/或移動式電腦 裝置,例如一筆記型電腦、組態供有線或無線網際網路通 訊之一個人數位助理、一行動電話、或其他類似者。在任 何情形,所有客戶端裝置105都可包含適當的軟體用供傳 送明求到祠服器110,並可從飼服器接收訊息。舉例 而言,客戶端裝置105可包含一適當的瀏覽器,以呈現標 記語言文件’其包括有多型態標記語言(MML)文件。 MML文件可指明影像與聲音元件(visuai and v〇ice components),供使用者互動。因此,MML文件可包含任 何依據文件或檔案的標記語言,當成呈現這*MML文件 時,允許一使用者透過一圖像使用者介面(GUI)的視覺 手奴提供輸入,以及透過說話或提供雙調多頻率處理(dual tone mult卜frequency processing)之聲音手段提供輸入。這類 標纪語言其中的一個例子就是χ+ν標記語言。χ+ν是將 被用來發展多型態網頁的標記語言,其結合可延伸超文字 標§己浯言(XHTML)與語音可延伸標記語言(v〇iceXML)的 4IBM/06004TW : BOC9*2005-0009TW1(JL) 一般說來,XHTML係HTML 4.0的一個版本,其已 經被調整成與可延伸標記語言XML的規則相符。
VoiceXML為一種以xml為基礎的語言,其係透過全球 資訊網國際協會(WWW Consortium,W3C)發展。
VoiceXML提供一種標準格式,供建立以語音為基礎的應 用程式。XHTML及VoiceXML (X+V)的結合,使得網頁 開發者可以增加聲音的輸入與輸出至傳統以圖像為基礎 的網頁。 另一個MML的例子是基於新增聲音應用語言標籤 (SALT)至一主要標記語言,如XHTML、超文字標記語言 (HTML)、或可調向量圖像(SVG)。SALT係一種將被用^ 發展多型態網頁的標記語言,其可支援視覺及聲音模式的 使用者互動。SALT係一種以XML為基礎的語言,其係透 過 SALT Forum 發展。 MML伺服器u〇,例如網路伺服器,可為各種形 式的資訊處理系統,其可將請求分區(fielding),並^ 透過一通訊網絡來處理資訊。如圖所示,伺服器11〇 與客戶端裝置105可透過一通訊網絡115,如網際網 路、區域網路(LAN)、廣域網路(WAN)、移動網路^蜂 巢網路、及其他各種通訊網絡、或結合上述的各種網 -10- 4圖_04TW ; B〇C9_2齡〇〇〇9 路,而達成通訊。 多型態應用程式120可在伺服器110内執行。因 此,多型態應用程式120可接收來自客戶端裝置1〇5 之請求與資訊,且回饋提供如標記語言文件之資訊, 無論其是否為多型態。雖然圖中未顯示,多型態應用 程式120可包含或存取聲音處理服務,如文字語音 (text-to-speech ; TTS)、聲音辨識、及/或雙音多頻率處 理。這些服務可位在伺服器110之内,或者可位在可 與多型態應用程式120通訊相連之不同的電腦系統。 辨認系統125可藉由比較使用者記錄的聲音與儲 存在聲紋資料庫130中的聲紋,辨認使用者身分。聲 紋資料庫130可包含來自使用者的不同的複數聲紋, 這些聲紋被登錄在辨認系統125中。每個聲紋可對應 到,或相關聯至一個使用者ID。當接收到一個聲音記 錄時’辨認系統125可將該聲音記錄與聲紋資料庫13〇 中的聲紋作比較,以判斷是否符合。 運作時,客戶端裝置105可傳送一請求135至多 型態應用程式120請求一 MML文件。多型態應用程 式120可藉由傳送MML文件140’如一多型態網頁, 作為回應。依據所呈現的MML文件140’客戶端裝置 105在MML文件的指導之下,可請求一使用者ID與 41BM/06004了W ; B〇C9-2005-0009TW1(JL) -11 - 使用者的聲音樣本。在一實施例中,當提供聲音樣本 時,該文g件可提供一文字稿給使用者朗讀。應注意地, 任何的提示都可以是聲音的提示,無論所記錄的是聲 音或TTS,或者可為文字的提示,以顯示在客戶端裝 置105的—顯示螢幕上。 、 客戶端裝置105可製作使用者聲音的一數位記 錄,例如請使用者大聲地朗讀文字稿。一旦客戶端裝 置105獲得使用者m及一使用者的聲音記錄,客戶^ 裝置105在MML文件140的導引下,可將這兩者傳 送至多型態應用程式120。記錄145與使用者ID 15〇 可幾乎在同一時間被傳送。一旦接收使用者ID 15〇與 記錄145,多型態應用程式12〇可提供兩者至辨認系 統125供處理。辨認系統125利用所提供的使用者瓜 150可找出聲紋資料庫13〇中的一聲紋。然後,辨認 糸統125可將§己錄145與聲紋相比較,以判斷是否記 錄145符合聲紋。如果符合,使用者即可獲准存取一 線上系統,例如供銀行、訂位、或其他類似之一網站。 如果不符合’則拒絕使用者存取。 在另一實施例中,聲音並不需要被記錄在客戶端 裝置105,而是需要來自客戶端裝置1〇5的串流 (streamed),透過資料連接串流到多型態應用程式 120。行動裝置如透過資料通道支援聲音的手機,已知 4IBM/06004TW : BOC9-2005-0009TWl(JL) -12- =猜,可支援聲音的串P在有些情況 疋來自客戶端裝置105的串流,這種聲 ^ 應用程式120記錄。 ^態 口I佩词路及發明的安排之一流程圖 記錄-使用者之方法供辨認使用者之一方法2〇〇。夂 照如圖1所述的系統或其他適當的系統,可執行ς 200。方法200可開始於步驟2〇5,其中一個線上= 上的-個新使用者,可存取—多型態、基於網路的應 用程式。該使用者可透過—客戶端裝置存取多型熊了 基於網路的應用程式。 〜'、 在步驟2Κ) t,多型態、基於網路的應用程式可 提供一安全的MML文件給客戶端裝置的使用者。應 注意,MML文件可以具體指出一基於網路的多型離; 面或網頁。如此,其可具體指出供接收使用者id=其 他可能需要的個人資訊之攔位,如電話號碼、地址了 電子郵件地址、及其他類似者eMML文件更可具體指 出登錄文字稿。該登錄文字稿可包括文字、數字、符 號、字母、及其他類似者。 在步驟215中,在呈現肘]^1文件之後,客戶端裝置 可提示使用者大聲細讀登錄文字稿。該提示可為基於文 字的提示,如網頁中寫入指令,或亦可為一聲音提示不 -13 - 4IBM/06004TW : B〇C9-2〇〇5-〇〇〇9TWI(JL) TTS或預先鱗音。該登錄文字稿可以 戶端裝置的顯示螢幕上0在步驟22G中,使可不 中聲’如語音登錄文字稿。在步驟225 發:實ΐΓ=使用者所提供的個人資訊,據本 端二!= 种的一記錄指令可指示客戶 作朗者語音的-數位錄音。例如, 件中寫入X+V,即可使用記錄標籤(record tag)。 步驟B0中,當使用者結束朗讀登錄文字 的聲音轉顧在健H執行的多型
所錄製的聲音之外,任何其他輸入繼L ί件^+㈣訊’尤其是使財HW阿被傳送到多型 :^用程式。應被了解,從mml文件攔位 ^ 職的聲音可叫同―時間被傳
Li Ϊ 時地被傳送。於執行時,缝文件 特地讓客戶端裝置轉送這_資訊。 ,的疋’在另—實施财,登錄及 置串流到多型態、基於網路的應用 钎劁客立/〗’多型態、基於網路的應用程式可以 耕中的一串流指令可指 的應用程式。^置串流到多型態、基於網路 4IBM/06004TW : BOC9-2005-0009TW)(JL) 14 1358223 在步驟235中’多型癌、基於網路的應用程式可接收 在客戶端裝置輸入到MML文件中的聲音或任何其他資
應用程式將使用者ID、聲音、登錄文字稿傳送到辨認系 統。在步驟245中,辨認系統可從聲音與登錄的文字稿,' 以建立一個使用者之獨一無二的聲紋。藉此所產生的聲紋 T關於使用者ID,並被儲存在聲紋資料庫之内。使用者成 1地登錄之後’在步驟250中,多型態、基於網路的應用 程式可傳送一個安全的歡迎網頁給使用者,並允許使用者 在伺服器或另一個伺服器内安全地存取網頁。
訊,例如使用者ID。在步驟240中,多型態、基於網路的 圖3係依據揭露之發明的安排之一流程圖,閣述執行 辨認使用者之-方法300。方法3〇〇可參考圖i所述的系 統’或其他相容的系統而被執行。在步驟3〇5 +,一個已 註冊的使用者可透過-客戶魏置存取多型態、基於網路 的應用程式’以請求一網頁或請求登入系統。在步驟310 二用程式可傳送—觀文件,在這種情形係 ⑽登_頁,討齡客戶端裝置在 步驟315中呈規.。 a錄網頁可以有—或多侧位供接收使用 t t t使用者仍。安全的登錄網頁更可指定-文 子f μ子稿可為一串隨機的字母、數字、及/或文字。 4IBM/06004TW : B〇C9-2005-0009TWl(JL) ⑤ -15- Ί態、基賴路的細程式可隨機地產生文字稿,例如 ,這類的文句之—集合巾隨機地選出文字、字母、及/或數 f在-實把例中’文字稿可包括從登錄文字稿中隨機選 出的任何文字、字母、或數字。 隨機產生的文字稿可防止冒充者企圖骗過辨認系 如果-冒充者想要使用預先錄製的—已註冊者之語 音’預先錄製的語音與使用於聲紋中之預期的使用者語音 之比對將不符合。触錄製的使用者語音將包含有不同於 隨機產生的指定文字稿。因此,胃充者的使用者辨認將會 失敗。所魏據轉明之—實關,聲音_之外可附加 上語音辨識,峨止w充者預絲製錢者的語音來 欺編辨認备欲。 在步驟320中’使用者可將其使用者仍輸入至顯示 於客戶端裝置之難L文件巾適當賴位。朗者可利用 語音、鍵麟人、輸人筆或其他_者輸人其使用者仍。 無論使用者制哪鋪殊的方式輸人其制者id都並 用來限制本發明。在任何的情況之下,使用者都可 時地被儲存在客戶端裝置。 在步驟325中,可導引使用者大聲地朗讀顯示在客戶 端裝置的文字稿。可藉由—TTS提示、—聲音提示 所呈現的MML文件齡敎字鮮,提*制者。在步 -16- 4IBM/06004TW ; B〇C9.20〇5-〇〇〇9Twl(jL) 1358223
驟330中’客戶端裝置可將使用者大聲朗讀文字稿的内容 製作成一數位錄音。在一實施例中,該數位錄音可被儲存 成PCM資料。然而應了解的是,特定的數位語音槽案格 式並非係用以限制本發明,任何各式各樣的數位語音^ 式,如ADPCM、MP3、AAC或被壓縮的DSR 使用,其係以聲音串流,透過一資料連結至多型態、美 網路的應用程式》 〜、土、 ,在步驟335中,當使用者結束說話,客戶端震置可傳 送文字稿及使用者ID至多㈣、基於網路的應用程式。 無論是-輸人錄音或聲音的串流’客戶端裝置幾乎是同時 地提供使財Π)與聲音,即辨認聲音,且錢態、基於 網路的應用程式幾乎是同時地接收使用者仍與聲音。在 步驟34G巾m基於網路的應職式可接收聲音及 使用者ID。在步驟345中’多型態、基於網路的應用程式 可轉送聲音、文字稿及使用者ID至辨認系統。 在>»驟350中,辨認系統依據使用者id,從聲紋資料 庫中找出或掘取出使用者的聲紋。在步驟3SS ★,辨認系 fy將聲音與符合使用者的聲紋相比對,以判斷該聲 曰疋否符合聲紋。如果符合,則來到步驟36〇,多型態、 ^於網路的制程式提供—個安全的歡迎網頁給在客戶 端裝置的使用者,該安全的歡迎網頁可為傳統的視覺網頁 或是多型態網頁。經確_的使用者即被允許存取該網站 4IBM/06004TW : BOC9-2005-0009TW|(JL) ⑤ -17· 或/、他女全的網頁。如果所錄製的聲音與聲紋不相符,在 步驟365中,由多型態、基於網路的應用程式拒絕該使用 者進行存取。 本發明提供一解決方案,供使用基於多型態、基於網 路之介面以辨認一使用者身份。依據本發明,語者辨認系 統依據實際講話者的聲音雜’⑽職齡者。透過多 型態的介面’制者可為已經註冊者,亦或可為利用辨認 ^統事後確認者。辭登敎字稿予使用者作為視覺文 字’因此使用者無需記住一長串的通關文字,將促進登 之便利性。 、 語者辨認的部份需要使用者糾衫賴應用程式 所提供之隨敵字稿。隨敝字稿可防止f充者利用預先 錄製之另-使用者的語音來欺麟認祕。縣錄製的語 音’將無法符合輯隨機產生的文字稿指定之麵之使用 ^語音。时魏—使用者身份的文字稿,_於登錄文 字,’亦可視覺地被呈現。利用多型態界面的辨認她 於單-雖界面係更安全的,因其同啦要密碼及語音辨 認兩者。 本發明可為頻、倾或硬雜倾之結合。本發明 還可為—針式的方式存在於-電腦緒巾,或-分散式 的方式’其中不同元件可分散於數個彼此互連的電腦^ -18- 4IBM/06004TW : B〇C9-2005-0009Tw丨(儿) •1358223 只要疋可以實現本發明於此描述之方法,何形式的電 ,系統或其他$備都是合適的。典型的硬體與軟體之結合 可為-般用賴-電腦純,係被安裝並執行—電腦程 式’控制該電職統以實縣發縣此所述之方法。 本發明亦可内建於—電腦程式產品,其包括實施本發 明於此所述之方法的所有特徵,且當其被絲於電腦系統 時’可實現本發明之方法^本文巾,電酿式、軟體應用 ,式、及/或其他各種名詞,以任何的語言、程式碣、或標 »己(notation) ’表一組指示之任何表示(哪比以⑽),以產生 一系統,係具有一處理資訊能力,以直接或間接地執行下 列特定的功能之-或兩者:a)轉換成另—種語言、程式碼、 或標記;或b)再製成為不同材料的形式。 在不脫離本發明之精神和必要特徵内,本發明可以其 他形式被實施。ϋ此’當參照伽之帽專利範圍界定本 發明之範圍,而非前述之說明書部份。 【圖式簡單說明】 本發明之圖式所顯示較佳實施例,然而應被了解的 是,本發明並非以所示的確切圖式安排及結構所限制。 圖1係依據揭露之發明的安排之一概要圖,闡述 使用一基於網路多型態介面執行使用者辨認之一系 統。 ’ -19- 41BM/06004TW ; BOC9-2005-0009TW|(JL) .1358223 圖2係依據揭露之發明的安排之一流程圖,闡述 記錄一使用者之方法供辨認使用者之一方法。 圖3係依據揭露之發明的安排之一流程圖,闡述 執行辨認使用者之一方法。
客戶端裝置105 辨認系統125 請求135 記錄145 方法 200、300 【主要元件符號說明】 系統100 伺服器110 多型態應用程式120 聲紋資料130 MML文件140 使用者ID 150
4IBM/06004TW : BOC9-2005-0009TW1(JL.) ⑤ -20-

Claims (1)

1358223 案號:95丨04025 100年9月6日修正·替換頁 十、申請專利範圍: 1. 一種使用多型態(multimodal)、基於網路之介面 以辨認一使用者身分之方法,包含: 從一遠端電腦裝置接收用於使用者證明的一 多型態介面標記語言文件(markup language document)之一請求, 傳送該多型態介面標記語言文件至該遠端 電腦裝置,當該遠端電腦裝置呈現(rendered) 時,請求一使用者身分辨認(identifier)以及該使 用者之聲音,其中該多型態介面標記語言文件指定 一文字稿以供該使用者大聲地朗讀; 接收幾乎是同時來自該遠端電腦裝置之該使 用者身分辨認及聲音於一多型態、基於網路的.應用 程式(multimodal Web-based application); 比較該聲音與一和該使用者身分辨認相關聯 之聲紋(voice print):以及 依據上述比較步驟中所獲得之一結果,選擇性 地允許該使用者在該遠端電腦裝置存取一線上系 統。 2.如請求項1所述之方法,其中該多型態介面標記語 5文件包括一指令使該聲音產生串流,該方法進一 步包含:回應呈現該多型態介面標記語言文件及轉 譯該指令,從該遠端電腦裝置使該聲音的串流,流 -21 - 案號:95104025 100年9月6日修正-替換頁 到該多51‘態、基於.網路的應用程式。 ^請求項1所述之方法,其中該多型態介面標記語 言文件包括一指令,係用以錚製該聲音,該方法進 -步包含.回應呈現該多型態介面標記語言文件及 轉譯該指令,使該遠端電腦裝置製作該使用考聲音 之一數位錄音。 如請求項1所述之方法,其中該文字稿包括至少一 部份隨機產生的文字。 如請求項1所述之方法,其中該聲音係為該使用者 大聲地朗讀該文字稿之一數位代表 (representation) ° 如請求項5所述之方法,該比較步驟進一步包含: 該多型態、基於網路的應用程式首先傳送該聲音、 該文字稿及該使用者身分辨認至一辨認系統。 如請求項1所述之方法,進一步包含: 首先傳送一多型態介面標記語言文件至該遠 端電腦裝置,係用以指定一登錄(enrollment)文字 稿; 接收該使用者之身分辨認及聲音’係包含該使 1358223 案號:95104025 。 100年9月6日修正-替換頁 用者朗讀該登錄文字稿之一數位代表;以及 藉由判斷一聲紋與該使用者朗讀該登錄文字 稿之聲音’及相關聯該聲紋係與該使用者身分辨 遇’以登錄該使用者至一線上系統。 8· —種辨認一使用者身分(identity)之系統,包含: 一辨認系統,其具有一聲紋資料庫,係包括複 數聲紋,每一聲紋都與一使用者身分辨認相關聯; 一多型態應用程式’被組態以接收來自一客戶 端裝置用於使用者證明的一多型態介面標記語言 文件的一請求以及傳送一多型態介面標記語言文 件至該客戶端裝置,該多型態介面標記語言文件指 定一文字稿以供該使用者大聲地朗讀以及當該客 戶端裝置呈現(rendered)時,使該使用者身分辨 認及聲音被傳送回至該多型態應用程式’其中該聲 音以及該使用者身份辨認幾乎是同時從該客戶端 裝置提供至該多型態應用程式並且係基於該多型 態介面標記語言文件的控制;以及 其中該多型態應用程式能夠提供該聲音、以及 該使用者身分辨認給該辨認系統,比較該聲音與一 聲紋以辨認該說話者之身分’而該聲紋係與該使用 者身分辨認相關聯。 9. 如請求項8所述之系統’其中該聲音與該使用者身 -23- 1358223 ' ' . 索號:95104025 100年9月6曰修正_替換頁 分辨認幾乎同時地從該客戶端裝置被提供給該多 型態應用程式。
10. 如請求項8所述之系統,其中該多型態介面標記語 言文件包括一指令使該聲音產生串流,該方法進一 步包含:回應呈現該多型態介面標記語言文件及轉 譯該指令,㈣遠端電腦裝置韻聲音的串流,流 到該多型態、基於網路的應用程式。 11. =请,8所述之系統,其中該多型態介面標記語 :文件包括—指令,係用以錄製該聲音’藉以達 回應呈現該彡型態介㈣記語言文件及轉譯該 該遠端電腦裝置錄製該使用者大聲地朗讀 成又子稿。 ,請求項8所述之系統, 部份隨機產生的文字。/文子“匕括至乂 US8所述之系統,其中該多型態介面標記語 一步勺^括心令’係用以串流該聲音,該方法進 轉釋It回應呈現該多型態介面標記語言文件及 該聲該遠端電腦裝置、串流 -24-' 1358223 案號:95104025 100年9月6日修正-替換頁 Η. —種機器可讀取之儲存器,其儲存一具有由一機器 執行之複數私式碼段(code section)之電腦程 式,供該機器執行以下之步驟: 傳送一多型態介面標記語言文件至一遠端電 腦裝置,當該遠端電腦裝置呈現時,請求一使用者 身分辨認指定一文字稿以供該使用者大聲地朗 讀,並使該使用者之聲音傳送到一多型態、基於網 路的應用程式; 接收幾乎是同時來自該客戶端裝置之該使用 者身分辨認及聲音; 比較該聲音與一和該使用者身分辨認相關聯 之聲紋;以及 依據上述比較步驟中所獲得之一結果,選擇性 地允許該使用者在該遠端電腦裝置存取一線上系 統。 15.如請求項14所述之機器可讀取之儲存器,其中該多 型態介面標記語言文件包括一指令使該聲音產生 串流,該方法進一步包含:回應呈現該多型態介面 標記語言文件及轉譯該指令,從該遠端電腦裝置使 該聲音的串流’流到該多型態、基於網路的應用程 式。 丨6.如請求項丨4所述之機器可讀取之儲存器,其中該多 -25- 案號:95104025 100年9月6日修正-替換頁 型態介面標記語言文件包括一指令,係用以錄製該 聲音’該方法進一步包含:回應呈現該多型態介面 標記語言文件及轉譯該指令,使該遠端電腦裝置製 作該使用者聲音之一數位錄音。 17. 如請求項14所述之機器可讀取之儲存器,其中多型 態介面標記語言文件包括指定一文字稿以供該使 用者大聲地朗讀。 18. 如請求項15所述之機器可讀取之儲存器,其中該文 字稿包括至少一部份隨機產生的文字。 19. 如請求項17所述之機器可讀取之儲存器,其中該聲 音包含該使用者大聲地朗讀該文字稿之一數位代 表0 20. 如請求項19所述之機器可讀取之儲存器,該比較步 驟進一步包含:該多型態、基於網路的應用程式首 先傳送該聲音、該文字稿及該使用者身分辨認主一 辨認系統。 21. 如請求項14所述之機器可讀取之儲存器,進〆步包 含: 首先傳送一多型態介面標記語言文件玄該遠 1358.223 案號:95104025 100年9月6日修正-替換頁 端電腦裝置,係用以指定一登錄文字稿; 接收該使用者之身分辨認及聲音,係包含該使 用者朗讀該登錄文字稿之一數位代表;以及 藉由判斷一聲紋與該使用者朗讀該登錄文字 稿之聲音,及相關聯該聲紋係與該使用者身分辨 認,以登錄該使用者至一線上系統。
-27-
TW095104025A 2005-02-22 2006-02-07 Verifying a user using speaker verification and a TWI358223B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/062,731 US8725514B2 (en) 2005-02-22 2005-02-22 Verifying a user using speaker verification and a multimodal web-based interface

Publications (2)

Publication Number Publication Date
TW200637331A TW200637331A (en) 2006-10-16
TWI358223B true TWI358223B (en) 2012-02-11

Family

ID=36097126

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095104025A TWI358223B (en) 2005-02-22 2006-02-07 Verifying a user using speaker verification and a

Country Status (6)

Country Link
US (2) US8725514B2 (zh)
EP (3) EP1854039A1 (zh)
JP (1) JP4871885B2 (zh)
CN (2) CN102222190A (zh)
TW (1) TWI358223B (zh)
WO (1) WO2006089822A1 (zh)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011887A (ja) * 2004-06-28 2006-01-12 Digital Electronics Corp プログラマブル・ロジック・コントローラ、グラフィック・ロジック・コントローラ、制御プログラム作成装置、プログラム、および、記録媒体
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US8725514B2 (en) * 2005-02-22 2014-05-13 Nuance Communications, Inc. Verifying a user using speaker verification and a multimodal web-based interface
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US20060287863A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Speaker identification and voice verification for voice applications
US8032825B2 (en) * 2005-06-16 2011-10-04 International Business Machines Corporation Dynamically creating multimodal markup documents
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US9106616B2 (en) * 2005-07-27 2015-08-11 International Business Machines Corporation Systems and method for secure delivery of files to authorized recipients
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8719034B2 (en) 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8145493B2 (en) * 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US8073697B2 (en) * 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) * 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
JP5042194B2 (ja) 2008-10-27 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者テンプレートを更新する装置及び方法
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US9318114B2 (en) 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9646613B2 (en) 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
WO2016058540A1 (zh) * 2014-10-15 2016-04-21 腾讯科技(深圳)有限公司 身份验证方法、装置和存储介质
CN104967622B (zh) * 2015-06-30 2017-04-05 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和系统
US10269372B1 (en) * 2015-09-24 2019-04-23 United Services Automobile Association (Usaa) System for sound analysis and recognition
KR102401170B1 (ko) 2015-10-21 2022-05-24 삼성전자주식회사 복합 인증 장치 및 방법
US10542010B2 (en) * 2016-05-27 2020-01-21 Microsoft Technology Licensing, Llc Account verification in deferred provisioning systems
CN106850539A (zh) * 2016-12-07 2017-06-13 广东小天才科技有限公司 一种验证信息获取方法和装置
US10592649B2 (en) * 2017-08-09 2020-03-17 Nice Ltd. Authentication via a dynamic passphrase
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN110491389B (zh) * 2019-08-19 2021-12-14 效生软件科技(上海)有限公司 一种话务系统的声纹识别方法
CN111312257A (zh) * 2019-12-16 2020-06-19 五八有限公司 一种多账号的识别方法、装置、电子设备及存储介质
BR112022025286A2 (pt) * 2020-06-11 2023-02-28 Vonage Business Inc Sistemas e métodos para verificar identidade usando dados biométricos

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US6266640B1 (en) * 1996-08-06 2001-07-24 Dialogic Corporation Data network with voice verification means
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6107935A (en) 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
EP1072035A1 (en) 1998-04-20 2001-01-31 Koninklijke KPN N.V. Theshold setting and training of a speaker verification system
US6219639B1 (en) 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
US7280970B2 (en) * 1999-10-04 2007-10-09 Beepcard Ltd. Sonic/ultrasonic authentication device
AU2001253795A1 (en) 2000-04-26 2001-11-07 Global Transaction Company Multi-tiered identity verification authority for e-commerce
US6754628B1 (en) 2000-06-13 2004-06-22 International Business Machines Corporation Speaker recognition using cohort-specific feature transforms
US7406657B1 (en) * 2000-09-22 2008-07-29 International Business Machines Corporation Audible presentation and verbal interaction of HTML-like form constructs
US20040177097A1 (en) * 2000-12-01 2004-09-09 Philips Electronics North America Corporation Web-based, biometric authentication system and method
US7805310B2 (en) * 2001-02-26 2010-09-28 Rohwer Elizabeth A Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US20030163739A1 (en) * 2002-02-28 2003-08-28 Armington John Phillip Robust multi-factor authentication for secure application environments
JP2004013274A (ja) * 2002-06-04 2004-01-15 Ntt Comware Corp ユーザ認証システム、ユーザ認証方法、ユーザ認証プログラムおよび記録媒体
JP3668892B2 (ja) * 2002-08-21 2005-07-06 株式会社大和速記情報センター デジタル速記システム
JP2004139221A (ja) * 2002-10-16 2004-05-13 Ntt Docomo Tokai Inc 認証システム
US20040186724A1 (en) 2003-03-19 2004-09-23 Philippe Morin Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience
US8396973B2 (en) * 2004-10-22 2013-03-12 Microsoft Corporation Distributed speech service
US8725514B2 (en) * 2005-02-22 2014-05-13 Nuance Communications, Inc. Verifying a user using speaker verification and a multimodal web-based interface

Also Published As

Publication number Publication date
EP1854039A1 (en) 2007-11-14
US20060190264A1 (en) 2006-08-24
CN101120350B (zh) 2011-07-20
EP2273414A1 (en) 2011-01-12
CN102222190A (zh) 2011-10-19
TW200637331A (en) 2006-10-16
CN101120350A (zh) 2008-02-06
JP4871885B2 (ja) 2012-02-08
EP2273414B1 (en) 2017-03-15
US20140249819A1 (en) 2014-09-04
US8725514B2 (en) 2014-05-13
US10818299B2 (en) 2020-10-27
EP2273412B1 (en) 2017-03-15
EP2273412A1 (en) 2011-01-12
WO2006089822A1 (en) 2006-08-31
JP2008532116A (ja) 2008-08-14

Similar Documents

Publication Publication Date Title
TWI358223B (en) Verifying a user using speaker verification and a
JP6561219B1 (ja) 話者照合
TWI353585B (en) Computer-implemented method,apparatus, and compute
KR101908711B1 (ko) 인공 지능을 기반으로 하는 성문 로그인 방법 및 장치
CN102158488B (zh) 动态口令生成方法及装置、认证方法及系统
BRPI0807415A2 (pt) Controlar o acesso a sistemas de computador e anotar arquivos de mídia.
CN108347441A (zh) 支付处理方法、装置、计算机设备和存储介质
JP2014191823A (ja) 生体認証および自己学習アルゴリズムを用いた個人用アカウント識別子の有効化方法およびシステム。
US20050010422A1 (en) Speech processing apparatus and method
US20200111548A1 (en) Methods and apparatuses to verify home health care
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
Jakobsson Rethinking passwords to adapt to constrained keyboards
JP2004094158A (ja) 母音検索を利用した声紋認証装置
US12450938B2 (en) Document processing method, and information processing device
CN109600353B (zh) 服务器装置、服务器客户端系统及非暂时性记录介质
JP4515186B2 (ja) 音声辞書作成装置、音声辞書作成方法、及びプログラム
JP4808763B2 (ja) 音声情報収集装置、その方法およびそのプログラム
JP2004295586A (ja) 音声認証装置、音声認証方法及び音声認証プログラム
Prakash et al. Voice based E-Mail with attachment for blind
CN109818737A (zh) 个性化口令生成方法及系统
KR100309219B1 (ko) 네트워크 기반의 화자 학습 및 화자 확인 방법 및 장치
WO2014122501A1 (en) Document authentication
US20250342237A1 (en) Determining Phrases For Use In A Multi-Step Authentication Process
US8442991B2 (en) Information access device and network
CN116246638A (zh) 生成语音身份确认信息的方法、身份验证方法、身份识别方法、存储介质和电子设备

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees