[go: up one dir, main page]

TW200916812A - Voice direction recognizer using fuzzy-inference structure - Google Patents

Voice direction recognizer using fuzzy-inference structure Download PDF

Info

Publication number
TW200916812A
TW200916812A TW96137689A TW96137689A TW200916812A TW 200916812 A TW200916812 A TW 200916812A TW 96137689 A TW96137689 A TW 96137689A TW 96137689 A TW96137689 A TW 96137689A TW 200916812 A TW200916812 A TW 200916812A
Authority
TW
Taiwan
Prior art keywords
angle
orientation
recognizer
voltage
energy
Prior art date
Application number
TW96137689A
Other languages
English (en)
Inventor
Ming-Yuan Shieh
Chi-Jen Huang
Original Assignee
Univ Southern Taiwan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Southern Taiwan filed Critical Univ Southern Taiwan
Priority to TW96137689A priority Critical patent/TW200916812A/zh
Publication of TW200916812A publication Critical patent/TW200916812A/zh

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

200916812 九、發明說明: 【發明所屬之技術領域】 本發明係k供一種語音方位辨識器,尤係指—種利用模糊 推淪架構之語音方位辨識器’可應用於各式機器人或是電腦設 備上,且可有效判定使用者(語者)的方位,並降低系統複雜 性。 【先前技術】 按’視覺系統是多感知系統中開發成熟的部份,而聽覺系 統則是另—補續發展的研究方向。有狄機ϋ人之視覺系統 屬於被動性感測’因此當受服務對象未在視覺系統可視範圍内 時,機器人將無法提供服務。 關於音源方位判定系統,常見的方法有許多,諸如運用延 遲總和細餘拉(Delay姻_Sum Beamf_r)與時域互 才關f生(Time Domain Cross Correlation),其目的是為了求 得聲音與麥克風間的夹角_、,這是多數研究巾所使用的方 法’但是此方法複雜而且不易獅。而錢外學者提出利用類 ^經網路之聽脉贿構,目的在於舰覺緒具備學習的功 能’以提高純定位效能,但此方法珊段的誤差量還是相當 而且與上述的方法同樣受限於環境的條件與測試語料的設 定,只能在已知的環境下針對已知的聲音做判定。 —另外’習知相關之專利前案,諸如許天明所發明之「結合 疋位技術之麥克風陣列收音方法及其系統」發明第⑵㈣3 200916812 號、蘇文禮所發明之「自動調整擷取裝置之信號擷取角度的系 統以及方法」發明第1274519號、飛利浦電泡廠所申請之「用 於調整轉移特性至一空間内的二個收聽位置之方法及裝置」發 明第117239號及胡竹生等人所發明之「語音定位系統」發明 第1262433號。該些專利前案揭示有相關之音源方位判定,在 此併入本文,以供參考。 【發明内容】 本發明之目的係提供一種利用模糊推論架構之語音方位 辨識器,提出一模糊語者定位系統(Fuzzy Speech
Localization Recognition, FSLR ),當使用者(語者)發出 聲音,透過麥克風陣列接收到訊號後,進入FSLR系統可有效 判別語者方位,進而控制機器人轉向及移動,使面向靠近交談 之使用者。 本發明之另一目的係提供一種利用模糊推論架構之語音 方位辨識器’其具有主動性感測,不僅可以補足視覺系統被動 性的問題,更可提高機器人與使用者間的互動感。 為達致上述目的,本發明之語音方位辨識器,包括:複數 個區域’每-區域包含有複數組麥克風_,顏接收一語者 之曰讯迠量,而輸出至少兩組較大能量的麥克風陣列的平均電 壓’其中’能量最大-組的平均錢為一第一電壓,其方位角 度為-第-角度;次大之—組之平均電壓為—第二電壓,其方 位角度為m將該第—龍及第二電壓之能量作為一 200916812 模糊系統的兩個輸入訊號,經過重心解模糊化後,對應到其歸 屬函數,並依據一預定之規則庫得到訊號與前述第一角度及第 二角度方位的關係,計算出一補償角度;當第一角度小於第二 角度時,第一角度加上補償角度即為語音方位辨識器與語者間 的角度;當第一角度大於第二角度時,第一角度減掉補償角度 即為語音方位辨識器與語者間的角度。根據此資訊,即可用以 實現驅動馬銳齡人轉向至語者面前,而可搭配其他感知系 統與使用者進行更多變化的互動。 為了讓本發明之上述目的、特徵、優點能更明顯,下文特 舉本發明較佳實施例,並配合所附圖示,作詳細說明如下。 【實施方式】 5月參閱第一圖,其係本發明實施例麥克風陣列配置之示意 圖,包括有: 〜 複數個區域(例如A、B、C、D等區域),每一區域用以分 J接收其所對應之平面方位的音訊能量,包括有: —第—區域10 (即A區域)’包含有複數組(例如:四組) /八12 (Al' A2、A3、A4),每一麥克風以等距離間隔設置, 成平面麥克風卩車列,用以接收〇。平面方位的音訊能量。 第一區域14 (即B區域),包含有複數組(例如:四組) ,、几16 (B1、B2、助、B3),每一麥克風以等距離間隔設置, 形成平面麥克風陣列’用以接收9〇。平面方位的音訊能量。 第二區域18 (即C區域),包含有複數組(例如:四組) 200916812 ” (C1以’乂幻’每一麥克風以等距離間隔設置, 形辭面麥克風陣列,用以接收⑽。平面方位的音訊能量。 一第四區域22 (即D區域),包含有複數組(例如 :四組) 4(D1乃2、1)3、03)’每一麥克風以等距離間隔設置, 形成=面麥麵相,_触270。平面綠的音訊能量。 、則述第—至第四區域所區隔之空間内有-機器人26,用 、 者之9讯’由於每一區域等距離間隔設置有複數個麥 克風’使每-__音訊可以平均的接收而不受到角度 響。在語音未開始之前雖會取到一段背景嚼音的訊號,在 束之後也會取到—段背景噪音,基本上該些雜訊都會低 於设定的f職,目此,她侧_門触來過遽。 、接下來將相針對音_衫射_點铜、語者方位 初步判定與語者定位做詳細說明。 (一)端點_ :基於㈣處理之目的,本發明為了減少 運算的複雜與運算量,在實施上採用每G5sec擷取音段一 次,這個音段即為-個音框大小,直接去對此音段去做分析, 不再切割音框。每筆請都會進行能量敏,如 開始有高於Η檻值_量•,代表語相 b 機器人’嫌綱後,嫩_人,储=二 話’此為最終的語者發話位置。 因此,本發明爲了減少環境反射對語者定位的影響,又在 200916812 不增加計算上的困難的考量下,本發明將每個音框取到的第一 筆超過門檻值的有效能量加以分析。經過初步的測試之後,發 現在-般室内空財,語者分別在_公尺的距離上,本發 明得到的有聲段的振幅大小大約為q.瞻以上,經過⑽倍 之訊號放大後,因此,本糾在實狀設計上以& Μ為門檀 值來區分有聲段與無聲段。 (二)語者方位初步判定:經過端點铜區分出有聲段的 部份之後,纖咖振.何崎辨出訊舰量的強弱。 由於-組麥克風陣列包含四個音訊頻道(cha_),將同組同 -時間點取得之音訊能量平均,可制各組之平均能量。由於 音波傳遞時鮮會隨雜增純衰減,目此輯音_近之麥 克風陣列所取得的訊舰量較大,_相對之音波振幅較大。 因此’本發㈣將這四組平均能量振幅做—比較,取較大兩 組’即可視此兩組角度為可能音源所在方位,其中將能量較大 的(即為四組平触量最大者)視為參考綠,喊所在角度視 為基礎參考角度0basie。 (三)語者定位技術:爲了能夠精確的判斷出語者方位, 本發明建立了模糊語者定位辨識系統(Fuzzy Speaker Local咖on Rec〇gniti〇n,亂反system)來進一步提高辨識效 果。其中,系統以得到較大能量的兩組平面麥克風陣列的平均 電壓當作其輸入,假設能量最大-組的平均電壓為一第一電壓 200916812
Vi ’其所在的基礎參考方位角度為一第一角度;次大之一 組之平均電壓為―第二雜v2,其所麵基礎參考方位角度 為一第二角度Θ2,其巾,在義輸人巾能倾A的分組,本 發明係以能量最大的分組之方位角度0 i作為一基礎角度Θ basic。之後將此兩大能量(Vl、VO作為一模糊系統的兩個輸 入訊號,經過重心解模糊化後,對應到其歸屬函數,並依據一 預定之規則庫得到訊號與此兩大方位的關係,計算出一補償角 度Θ exact,假設機器人與語者間的角度為0 t。⑷。因此語者的方 位可能存在於0 _ = 6> basic 土 Θ exact。之後將該<9 total角度傳給 一可程式化邏輯閘陣列(Field Pr〇grammable Gate Array, FPGA);或一複雜可程式邏輯裝置(c〇mplex pr〇grammabie Logic Device, CPLD)或其他之處理裝置,即可用以實現驅動 馬達使機器人轉向至語者面前’此時可以搭配其他感知系統與 使用者進行更多變化的互動,達到服務型機器人的目的。 簡言之,根據前述之資訊,即可以用來判定語者距離那個 分組較靠近或是較遠,得到一個補償角度Θ⑽(為FSLR之輸 出)。當hch時’前述之基礎角度0 basic加上補償角度$ exact 即為語音方位辨識II (例如··可安裝在-機狀上)與語者間 的角度;反之’當<9!〉θ2時’基礎角度〜asic減掉補償 角度β exact即為語音辨識器與語者間的角度0。 本發明說明音源方位判定系統的設計概念,將經過簡單運 200916812 算的訊號’依據四部麥克風陣 設計〜 早夕爾4大傾係本發明 撼古f⑽奴絲㈣讀域的转角度,依 =位角度_係,了解聲音與純間的空_係 角度固雜塊的問題,假如將本發明運用於服務 上’可以大缺高機ϋ人與使时_城與穩定 性0 “ 本發明之_語者定㈣統师碑有下狀優點: ® 適用於任何環境。 (U)測試者事先不需要經過訓練即可使用 Μ系統運算速度快且解,使用領域廣泛。 (IV)搭配發明人設計之矩形麥克風陣列系統可以提高辨 識率。 (ν)模糊系統之參數易於修改,環境與場合相容性高。 (vi)適用於各類聲音,不受限於任意發聲元件。 故本發明之提出,應符合專繼#上_性、新顆性、以 及進步性之所規定。雖然前述的描述及圖式已揭示本發明之較 佳實施例,惟此乃僅係實施例之呈現,舉凡各種增添、修改和 g雜佳實施例’仍應屬落人本發明之申請 專利範15所界定之範g内。目此,本文於此所揭示的實施例所 有觀點,應被視為用以說明本發明,而非用以限制本發明。本 200916812 發明之範圍應由後附之申請專利範圍所界定,並涵蓋其合法均 等物,並不限於先前之描述。 11 200916812 【圖式簡單說明】 第一圖係本發明實施例麥克風陣列配置之示意圖。 【主要元件符號說明】 10 第一區域 12 麥克風 14 第二區域 16 麥克風 18 第三區域 20 麥克風 22 第四區域 24 麥克風 26 機器人 12

Claims (1)

  1. 200916812 十、申請專利範圍: 1.-種利賴_論架構之語音細,包括有: 複數個區域’每—區域包含有複數組麥克辦列,用以 接收⑽者之音訊能量,而輸出至少兩組較大能量的麥克風 陣列的平均電壓’其中,能量最大—組的平均電壓為一第一 電壓,其方位角度為-第-角度;次大之一組之平均電壓為 -第二電壓,其方位角度為—第二角度; 將該第—麵及第二電壓之能量作為—模齡統的兩個 #u 重心解模糊化後’對應到其歸屬函數,並依 據-預定之酬轉到訊號與前述第—角度及第二角度方位 的關係,§十算出—補償角度; 田第肖度小於第—角度時,第—肖度加上補償角度即 為語音方位辨識器與語者間的角度;當第一角度大於第二角 度時,第-角度減掉補償角度即為語音方位辨識器與語者間 的角度。 2·如申料纖圍第1撕叙__推論雜之語音 位辨識器,其中,該複數個區域包含有一第—區域,用以接 〇°平面方位的音訊能量;—第二_,用以接收90。平面於 ,音訊能H三區域,用以接收⑽。平面方位的音和 I ’及-第四II域’用以接收27G。平面方位的音訊能量。 3.如申請專·圍第i撕述之__推論雜之語音〉 位辨識H,射,勝錢_解财式排列。 13 200916812 4如申請專利範_丨項所狀棚模糊推論架構之語音方 位辨識器,其中’每一組麥克風陣列包含有四、組麥克風,且每 一麥克風以等距離間隔設置。 5.如申請專利範目第丨項所獻^帛模糊推論架構之語音方 位辨識器,其中,該語音方位辨識器可安裝在一機器人上,並 根據該語音綠顺H與語者間的駿,傳給-可程式化邏輯 閘陣列(FPGA),用以驅動該機器人轉向至語者面前。
TW96137689A 2007-10-08 2007-10-08 Voice direction recognizer using fuzzy-inference structure TW200916812A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW96137689A TW200916812A (en) 2007-10-08 2007-10-08 Voice direction recognizer using fuzzy-inference structure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW96137689A TW200916812A (en) 2007-10-08 2007-10-08 Voice direction recognizer using fuzzy-inference structure

Publications (1)

Publication Number Publication Date
TW200916812A true TW200916812A (en) 2009-04-16

Family

ID=44726165

Family Applications (1)

Application Number Title Priority Date Filing Date
TW96137689A TW200916812A (en) 2007-10-08 2007-10-08 Voice direction recognizer using fuzzy-inference structure

Country Status (1)

Country Link
TW (1) TW200916812A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI402531B (zh) * 2009-06-29 2013-07-21 Univ Nat Cheng Kung 音源辨位方法與應用此音源辨位方法之音源辨位系統和電腦程式產品
TWI406266B (zh) * 2011-06-03 2013-08-21 Univ Nat Chiao Tung 語音辨識裝置及其辨識方法
TWI417563B (zh) * 2009-11-20 2013-12-01 Univ Nat Cheng Kung 遠距離音源定位晶片裝置及其方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI402531B (zh) * 2009-06-29 2013-07-21 Univ Nat Cheng Kung 音源辨位方法與應用此音源辨位方法之音源辨位系統和電腦程式產品
TWI417563B (zh) * 2009-11-20 2013-12-01 Univ Nat Cheng Kung 遠距離音源定位晶片裝置及其方法
TWI406266B (zh) * 2011-06-03 2013-08-21 Univ Nat Chiao Tung 語音辨識裝置及其辨識方法

Similar Documents

Publication Publication Date Title
Vecchiotti et al. End-to-end binaural sound localisation from the raw waveform
Omologo et al. Use of the crosspower-spectrum phase in acoustic event location
EP1349419B1 (en) Orthogonal circular microphone array system and method for detecting three-dimensional direction of sound source using the same
Pang et al. Multitask learning of time-frequency CNN for sound source localization
Brutti et al. Oriented global coherence field for the estimation of the head orientation in smart rooms equipped with distributed microphone arrays.
CN109830245A (zh) 一种基于波束成形的多说话者语音分离方法及系统
CA2394429A1 (en) Robust talker localization in reverberant environment
CN106782591A (zh) 一种在背景噪音下提高语音识别率的装置及其方法
Nakadai et al. Sound source tracking with directivity pattern estimation using a 64 ch microphone array
CN108449687B (zh) 一种多麦克风阵列降噪的会议系统
CN101447189A (zh) 一种语音干扰方法
Cantu et al. Spectro-Temporal Post-Filtering Via Short-Time Target Cancellation for Directional Speech Enhancement in a Dual-Microphone Hearing AID
TW200916812A (en) Voice direction recognizer using fuzzy-inference structure
Tokgoz et al. Robust three-microphone speech source localization using randomized singular value decomposition
Mishra et al. Spatial audio processing with large language model on wearable devices
Kothig et al. A bayesian system for noise-robust binaural sound localisation for humanoid robots
CA2477024A1 (en) Voice matching system for audio transducers
Cabrera et al. Voice support from acoustically retroreflective surfaces
JP2005227511A (ja) 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
Shujau et al. Speech enhancement via separation of sources from co-located microphone recordings
Zhao et al. A robust real-time sound source localization system for olivia robot
Murray et al. A neural network classifier for notch filter classification of sound-source elevation in a mobile robot
Youssef et al. From monaural to binaural speaker recognition for humanoid robots
Michaud et al. SmartBelt: A wearable microphone array for sound source localization with haptic feedback
Zhang et al. Sound Event Localization and Classification using Wireless Acoustic Sensor Networks in Outdoor Environments