[go: up one dir, main page]

TWI312981B - Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically - Google Patents

Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically Download PDF

Info

Publication number
TWI312981B
TWI312981B TW095144391A TW95144391A TWI312981B TW I312981 B TWI312981 B TW I312981B TW 095144391 A TW095144391 A TW 095144391A TW 95144391 A TW95144391 A TW 95144391A TW I312981 B TWI312981 B TW I312981B
Authority
TW
Taiwan
Prior art keywords
sound
window
module
value
similar
Prior art date
Application number
TW095144391A
Other languages
English (en)
Other versions
TW200823865A (en
Inventor
Ing-Jr Ding
Original Assignee
Inst Information Industr
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Information Industr filed Critical Inst Information Industr
Priority to TW095144391A priority Critical patent/TWI312981B/zh
Priority to US11/679,781 priority patent/US20080133234A1/en
Publication of TW200823865A publication Critical patent/TW200823865A/zh
Application granted granted Critical
Publication of TWI312981B publication Critical patent/TWI312981B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

1312981 九、發明說明: 【發明所屬之技術領域】 發明係關於一種聲音偵測裝置、方法、電腦程式產品及其電 腦可讀取記錄媒體;特別是關於一種可動態決定視窗大小之g音 偵測裝置、方法、電腦程式產品及其電腦可讀取記錄媒體。 * 【先前技術】 近年來隨著聲音偵測技術的成熟,各種聲音偵測之應用也隨 之產生在一般的聲音偵測中會將所偵測到的聲音分為兩大類: 零正常的聲音(Normal)與異常的聲音(Abnormal),所謂正常的聲 曰疋才曰在環境中比較不會引起注意的聲音,例如街上的汽車聲、 人類的說話聲及廣播之音樂聲等等,而異常的聲音就是會引起注 意的聲音,例如尖叫聲、哭聲及求救聲等等。特別是在有關保全 監控^方面,聲音偵測可以利於保全相關人員做進一步的處理。 高斯混合模型(Gaussian Mixture Model,簡稱GMM)近年來 帛被用於聲音辨識或語者辨識,面斯混合模型是單一高斯分佈模 型(Mon〇GaussianModel,MGM)的延伸:單一高斯分佈模型將一堆 樣本在向量空間的中心位置用一個平均值向量做記錄,而將這些 •樣本在向量空間中所分佈的形狀用共變異矩陣來做近似。而高^ 混合模型除了具有單一高斯分佈模型的特性外,此模型亦結合了 向量量化(Vector Quantizati〇n,VQ)的特性,亦即能記錄樣本 類別在向量空間中的幾個重要位置。 第1圖係為習知聲音偵測裝置卜其包含一接收模組1〇〇、一 分割模組10卜一特徵擷取模組102、一比較模組1〇3、一累加 組及一判斷模組105。聲音偵測裝置i聯接至一資料庫1〇6,、 ^中資料庫1〇6儲存多個聲音模型,這些聲音模型皆為高斯混合 杈型,且可分為兩大類:正常的聲音模型與異常的聲音模型。 收模組1〇〇肖以接收-筆聲音訊號1〇7,而分割模组1〇1便將聲音 1312981 晋號成為多個音框(V〇iceFrame),這些音框兩兩部份重 豐,”便由特徵擷取模組102針對每一個音框去擷取出 特徵參數。比較模組103將由資料庫1〇6取出先的 聲音模型與異常膽音_,分舰翻音㈣= 各自產生多個第一相似值與多個第二她值ϊ ί 組104根據-視窗大小分別累加這些第一相似值與這些第 值’該視窗大小所指的為-翻定的咖。如f 訊號浙將被分割成多個區域2卜22、23、24及25轉,2 區域大小即為視窗大小,而每一個區域包含多個音框。假 大小為^)mS ’音框大小為1()ms,音框與音框間的重彳部| 0ms ’則母個區域即包含4〇個音框,而累加模組 ΓΓΛ音框ί所有•一相似賺^ 一=二〜和與一第二總和,之後判斷模組1〇5便會根據第一總和 與第二總和判斷該訊號是屬於正常聲音還是屬於異常聲音。& *然而’由於習知聲音彻懷置i之視窗大小是峡的,當習 知聲音偵測裝置1處於環境聲音變動量大時,其偵測之錯 (False Rate)將會大幅上升’而遇疑似異f聲音時亦無法立即反 應,造成整體魏降低。g此,如何動態娜 繼—,㈣需要努力 【發明内容】 的在於提供—種聲音_裝置,該聲音_裝 置包含:接收拉、組、-分割模組、一相似值產生模組、一決定模 組、一累加模組及一判斷模組。接收模組用以 分割模該聲音職糾賴數個音框:她^生^組 用以將母-個音框與-第—聲音模型及H音模型做比較, ίΐΐΐ數個第—相似值與複數個第二相似值;決定模組用以根 據該些第-相似值與該些第二相似值,決定—視窗Α小;累加模 1312981 組用以根據該視窗大小’分別累加該視窗大小内之第一相似值與 第二相似值,以產生一第一總和及一第二總和;以及判斷模組用 以根據該第一總和及該第二總和,判斷該聲音訊號是否反常。 本發明之再一目的在於提供一種聲音偵測方法,包含下列步 驟:接收一聲音訊號;將該聲音訊號分割成複數個音框;將每一 個音框與一第一聲音模型及一第二聲音模型做比較,以產生複數 'f第一相似值與複數個第二相似值;根據該些第一相似值與該些 =二相似值,決定一視窗大小;根據該視窗大小,分別累加該視 窗大小内之第一相似值與第二相似值,以產生一第一總和及一第 %二總和;以及根據談第一總和及該第二總和,判斷該聲音訊號是 否反常。 .本發明之另一目的在於提供一種聲音偵測方法,包含下列步 驟二令一接收模組接收一聲音訊號;令一分割模組將該聲音訊號 分割成複數個音框;令一相似值產生模組將每一個音框盥一第一 ,音模^及-第二聲音模型做比較,以產生複數個第^似值與 複數個第二相似值;令一決定模組根據該些第一相似值與該些第 -相似值,決定-視窗大小;令一累加模組根據該視窗大小,分 別累加該視窗大小内之第一相似值與第二相似值,以產生一第一 φ ,和及-第二總和;以及令—判斷模組根據該第—總和及 總和’判斷該聲音訊號是否反常。 本發明之又一目的在則^供一種内儲於一聲音偵測裝置 產品’使該聲音偵測裝置執行一聲音偵測方法,該聲音偵 =法包含下列步驟:令-接收模組接收—聲音訊號, 訊號分割成複數個音框;令—相似值產生模 框與-第一聲音模型及—第二聲音模型做比較, 數固苐-相似值與複數個第二相她;令—決定模組 ^ 據該視窗大小,分㈣加錄之第 與 Ϊ312981 ^,以產生ϋ和及-第二總和;以及令—判斷模組根據該 第一總和及該第二總和,判斷該聲音訊號是否反常。 本發明之次一目的在於提供一種電腦可讀取記錄媒體,用以 ,存一電腦程式產品,該電腦程式產品使一聲音偵測裝置執行一 聲音,測方法,該聲音偵測方法包含下列步驟:令一接收模組接 收-聲音減;令-分賴組賴聲音訊號分贼複數個音框; 7 —相似值產生模組將每一個音框與一第一聲音模型及一第二聲 ,模型做比較,以產生複數個第一相似值與複數個第二相似值; 二一決定模組根據該些第一相似值與該些第二相似值,決定一視 窗大小;令一累加模組根據該視窗大小,分別累加該視窗大小内 之第-相似值與第二相似值,以產生—第—總和及—第二總和; ,及令-判斷模組根據該第一總和及該第二總和,判斷該聲音訊 號是否反常。 ° 心,使 本發明處於魏聲音變動量大之環境時,可雜的調整決定 之大小’使得細!J之錯誤率下降,並可達到若遇疑似異 立即反應及動誠測目前聲音變化之功能,尤其可利用在 ,王^統方面,當歧異常聲音時可以即時反應至保全中心 ’、全中心可以有即時之處置,進而提升保全相關產業之價值 f參閱圖式及隨後描述之實施方式後,該技術領域具有 ^樣便可瞭解本發明之其他目的’以及本發明之技術手段及實 實施方式】 本發明之第—實施例如第3騎示 -資做加模組观及—判斷模組307。該裝置3連 :么-,枓庫 貧料庫304儲存多個聲音模型,這些聲音模型 白為尚航合_,且可分為兩场:正f的聲音模型與/常的 1312981 聲音模型。 接收模組300用以接收一筆聲音訊號3〇1,而分割模組3〇2 係利用習知技術將聲音訊號3〇1分割成為多個音框3〇9,而這些音 框309中的每-個與前後音框部份重疊,並被傳送至相似值產生 Ϊ組3〇3,用以產生多個第一相似值310與多個第二相似值31卜 二目似值產生模組3〇3之示意圖,相似值產生模組303包 =-特徵擷取模,組400與-比較模組4〇1,特徵擷取模組4〇〇 ^-個音框去擷取出各自的特徵參數術,特徵參數搬可為該聲 曰,观之梅,頻譜係數(齡_ Freq職y 〇二icien,以簡稱mpcq、線性預估倒頻譜係數 ^=:=tra^efflcient ’以下簡稱Lpcc)w及頻譜(咖㈣) …ί自。而比較模組401將由資料庫304取出預先儲 常的ίΐϊ型308分別跟各個音框的特徵= i t 產生多個第一相似值310與多個第二相似 f 11,,來說,-個完整的高斯混合密度(―如版 也巧)函數主要由M個基本密絲域,且每個基本密 卞個茶數來表示:平均值向量(mean veetw)、共夂‘ (covariancematnx)和混合權重(mi =矩 常聲音(環境《聲音跑料音都: ,為所有錄的集合,如下之方程式所^ ’則
Λ = (Ά,Σ = 1...M 的β 的疋混合加權值表示的是平均值向量,Σ表干 異矩陣’而均彳是高斯分佈的個數。高航 個基本密度(W )的加權總和(weighted sum),Jp之 Μ 不· Ρ(Χ I = wi^i (^) 其中維的隨機向量(random vector;),亦^
$特徵值向量’且其特徵值向量的維度為D,而U代表-個音 疋基本密度(議P。咖densities),W 9 1312981 神且崎所有湘混繼和^的限制, 每個基本密度 如下之方程式所示: z = 1”·.,ΛΓ,是一個
D 維的高斯密度函數, bi(x)
Mi 其是平均值向量’ Σ+是共變異矩陣。 異常=二示=!=:景聲, GMM模型盘 4進行相似度的計算後(idir音框,Ϊ每個音框與认 多個相似度值(Likelihood)】盥多徊相二,/J丨々—§崎切〉即會產生 度值!與多個相似度值2取對數$』f =,此多個相似 值如1與_數可==數相似度 310與多個第二相似值31卜发中;^_2此^多個第一相似值
,型與各個音框的特徵參數4〇2做相似度二正::J 框的特徵參數-做相 小。㈣ 5m ’第-汁异模組500根據一預先設定好之最小視 這些弟一相似值310與這些第二相似值311,以 似值差值502。更詳細來說,如第6圖所示,由於聲^^ = 為連續的訊號,假設長度為1〇秒,而音框大小與最小視窗_的 大小分別為5毫秒與100毫秒,第一計算模組5〇〇由聲音訊號3〇1 二開始輸人到滿100毫秒時’分聰在這段時_的出現的2〇個 第一相似气310與20個第二相似值311分別加總,並將第一相似 值310與第一相似值311之加總結果相減,得到最小視窗相似值 差值502。 1312981 第7圖係描繪第二計算模组5〇l h何計#視窗大小之規 貝其中橫軸#代表最小視窗相似值差值,縱軸代表權重參數值。 橫軸定義有一第一最小視窗相似值差值常數坫及一第二^小視窗 相似值差值常數呢,於本實施例中,Μ及外分別為^與600, 皆儲存於第二計算模組501中。此兩個最小視窗相似值差值常數 可視實際情況調整為其他常數,其值並非用來限制本發明之範 圍。第7圖更描緣-第-權重線性關係Μι及一第二權重線性關係 ,各權重線性關係如下所示: Ν2~Ν Ν2-Νχ ο Μ2(Ν) Ν-Ν' n<n' n,<n<n2 n>n2 Ν<Νλ Ν^<Ν<Ν2 ν>ν2 假設第二計异模組500計算出來之最小視窗相似值差值#二 _ 480’第二計算杈組401利用上述之第一權重線性關係^从^及 二權重線性關係处,可求得為Ml(A/)為〇 4與场(7^為〇 6。 另外,音框數#亦代入以下線性關係式以計算參數 f2W' 綱二 a',N + b' f2(N) = a2-N + b2 其中〜、&、61及62分別各為一預設常數,而〜、处、61 办2等常數的設定在於使//W值為一較大的值,力州值為一較小的 11 1312981 值’亦即力為一較大的視窗值 -呌笪埴細社从从认 值而力网為一較小的視窗值,第 一十异模組501接耆依據下列關係式計算視窗大小312 =〇.4/ι(Λ〇+〇.6/2 ⑼ 視窗大小^ M}(N)+M2(N) 利,此,,式計算視窗大小,則#最小視窗相似值 =、值時^計算出的視窗大小值為相 & 值、,大值時,計算出的視窗大小 值。而,之視窗大小312即為第6圖之決定視窗6〇1之大=。! 产於在獲得視窗大小312之後,累加模組3〇6便將 力 1st第=%多=框之第—相似值與第二相似值作累 產生第〜和313與一第二總和314。而判斷掇相 第一ίί 313與第二總和314之大小判斷聲音訊號301是否 反节’ f弟一總和313較大’且第一總和313屬於正常聲音,那 就認定聲音訊號301為正常;如第二總和314較大,且乂 3H屬於反常聲音,那就認定聲音訊號3〇1為反常。一〜 、本發明之第一實施例如第8圖所示,其係為一種聲音彳貞測 在步驟800中’接收一筆聲音訊號,之後執行步驟8〇1,、將聲 曰&fl號分割成為多個音框,而這些音框中的每一個與前後音框部 伤重金,之後執行步驟802,將該些音框與預先儲存的正常的聲音 ,型與異常的聲音模型做相似度比較,以產生多個第一相似值^ 多個第二相似值。詳而言之,如第9圖所示,步驟8〇2更包含步 驟900與步驟90卜其中步驟900中,針對每一個音框去擷取 自的特徵參數,特徵參數可為聲音訊號之梅爾倒頻譜係數、線性 預估倒頻譜係數以及頻譜其中之一或其組合。步驟9〇1取出預先 儲存的正常的聲音模型與異常的聲音模型分別跟各個音框的特徵 參數做相似度比較,各自產生多個第一相似值與多個第二相似 值’詳細來說,一個完整的高斯混合密度(Gaussian mixture density ;) 函數主要由Μ個基本密度來組成’且每個基本密度可用三個來數 12 1312981 來表示··平均值向量(mean vecte)、 =atnx)和混合權重(mi版 家矩陣(covariance 與異常聲音都有該對應的(環境 數的集合,如下之方程式所示: 、尘Λ則乂即為所有參 Λ ...Μ {ά,Σ J,Z· — ,··.7ΚΥ 的e it的是混合加權值,凡表示的是平均值μ主 ^異轉,而_是高斯分佈的個數。里,Σ,.表示 個基本^ (即,加權總和(_) 2中Χ是D維的隨機向量㈦丄她。,亦即心/ : 值向量,且其特徵值向量的維度為二::代表-個曰
’基本禮度(c〇mp〇nent densities),冰 i = i ^ M (mixture weights),且e’入’.··,从疋轧合權重 即=1。)且而滿足所有職混合權重和為!的限制’ 母個基本密度h(JC),/ 如下之方程式所示: Μ ’是一個D維的高斯密度函數, exp \~1(χ^ΜιγΣ;^χ^ b (χ) = -__ Μ (2哉丨X - L 2 其中A/是平均值向量,Σ;是共變異矩陣 U別麵正f聲音(魏f景聲音)的gmm 模型,x,表示—序列的音框,則每個音框盘认 =】與夕個相似度值2取對數運算後,即可得到多個對數相= 值(Log^kelihoodh與多個對數相似度值2,此即多個第一相似^ 」〇與多個第二相似值311。其中多個第一相似值為正常的聲音模 各個音框的特徵參數做相似度比較之結果,多個第. 為異常的聲音麵與各個音框的特徵參數做相似度味之結果。 13 1312981 接I來執行步驟803,將決定一視窗大小。詳細來說,如第 ^所示’步驟803包含步驟1000與步驟1001,在步驟1000中, —預先設定好之最小視窗分別去累加這些第一相似值與這些 2似值。如第6圖所示,由於聲音訊號為連續的訊號,假設 10, ’而音框大小與最小視窗6〇〇的大小分別為5毫秒與 1秒’第一計算模組500由聲音訊號一開始輸入到滿100毫秒 時,分別將在這段時間内的出現的20個第一相似值與20個第二 ^似/值刀別加總,並將第一相似值與第二相似值之加總結果相 減’得到一最小視窗相似值差值。 ,7圖係描繪步驟1001如何計算視窗大小之規則,如前所 述,,7圖中之第一權重線性關係Μι及第二權重線性關係地如 下所示:
奴,〇v) = n2-nX-N' 0 Ν<Νλ Νχ <Ν<Ν2 ν>ν2 Ν<Ν' Νλ<Ν<Ν2 ν>ν2. ο ν2-ν, 假設在步驟1000中計算出來之最小視窗相似值差值= 480 ’在步驟lool中’利用上述之第一權重線性關係从及第二權 重線性關係M2,可求得為私(7\〇為0.4與M2(A〇為〇,6。 另外’音框數7V亦代入以下線性關係式以計算參數及 f2W : = -N + b} 14 1312981 常數的設Ϊ在3吏)二^:⑦常數’而”、〜及62等 亦即/雜-較大值為-較小的值, 接著依據下_係式計算視紅^、M —較小的視窗值。步驟1001 =〇.4/ΐ(Λ〇+〇.6/2 ⑼ 視窗大小= μΛν)+μ^(ν) 車,、值時,計算二ίΐΐίί為窗ί:值 值而此處之視固大小即為第6圖之決定視窗601之大小。 聲:i卢9否ίϊ和如ί步驟805根據第一總和與第二總和判斷 常聲音,那就認定聲音訊號為反常且第一總和屬於反 偷除述之步驟外’第二實施例亦可執行第-實施例之所有 15 1312981 ’其中相似值產生模組303包含一特«取模組400與 401。詳而言之,,步驟臟包含如第12圖所示之步 步驟聰巾,令·娜觀4_情每—個音框去 參數4〇2,特徵參數402可為該聲音訊號301 j爾倒頻搞、數、線性預估倒頻譜絲以及頻譜其中之一 S二1201中’令比較模組401將由資料庫304取出預 402 疮吊”異常的聲音模型3〇8分別跟各個音框的特徵參數 值311目irt’各1產生多個第一相似值310與多個第二相似 d .h、坪兄’—個完整的高斯混合密度(Gaussian mixture 三來域,且f錄本密度可用 matrix)和混合權重(麵 = 常聲^魏㈣聲音)與財聲切有賴_ t ^ 柳為所有參數的集合,如下之方程式所示: 換型A則 ...Μ 2 = {',》,,Σ , }" 其中νν,表不的是混合加權值,^,表示的是 矩陣,㈣則是高斯分佈的個數-二 個基本密度(W )的加權總和(wdghted麵),如疋示Μ 其中,是D維的隨機向量(_;m ve ,=徵值向量’且其特徵值向量的維度為D ^而= 代表一個音 疋基本密度(component densities ;), · = ί ,(),ζ = 1,·.·,Μ
Jit:-),且需滿足所⑽二,重重 (=^1 維的高斯密度函數, 每個基本密度6,.⑷,/ = 1,· ” M,是一個D 如下之方程式所示: biM= (2,Ατ,ι^GXP{~ 16 1312981 其中凡是平均值向量,Σ,'是共變異矩陣。 異常ί二不:df<境背景聲音〇繼模型與 a進行相似度的計算後(亦即二=的音框’貝)每個音框與a及 i此即多個第一相似值 !ϊ=個 =〇與多個第二相似值311。其 立模型與各個音框的特徵轉伽H :似值31G為正常的聲 •相似值311為異常的聲11相上度比較之結果’多個第 似度比較之結果。 9 與各個音框的特徵參數402.做相 近一53執;,令決定模組305決定一視窗大小,更 算模組5m,如、ί ^且圖戶^一包含牛一驟第一計 1300中,令第一十笞桓二:?驟1103包含下列步驟。在步驟 去累加這些第-相彳根|;=先設定好之最小視窗分別 ^為由於聲音訊號3gi為連續的訊號,假設長 Ϊ秒,牛驟與最小視窗_的大小分別為5毫秒與100 fG由聲音訊號3Gi —開始輸人到滿觸毫秒時,分 似值3lTj間内的出現的20個第一相似值310與20個第二相 邮果相=加總’並將第一相似值310與第二相似值311之加 總絲相減’得到—最小視窗相似值差值502。 所、f第^係描緣步驟1301如何計算視窗大小312之規則,如前 如^所示.圖中之第—權重線性關係从及第二權重線性關係Λ/2 ^2~n ~K^' ν<ν' ν1<ν<ν2 Ν>μ 17 1312981 M2{N). ο n~n、 N2-Nx n<n' Νλ <N^N2 n>n2 中所計算出來之最小視窗相似值差值^= 權重缘性二’彻上述之第—權重雜關係M1及第二 ΐί ί 求付為M(7V)為〇.4與他(場0.6。 _ θ框諸亦代入以下線性關係式以計算參數_及 綱: Λ(Α〇: N+b, N + b2 匕及〜分別各為—預設常數’ * αι、α2、卜及等 二二ί在於使卿值為—較大的值,/满值為一較小的值, 值’而綱為—較小的視窗值。步驟顧 祛者依據下列關係式計算視窗大小312 : 視窗大小=避=〇_+〇_ 利用此關係式計算視窗大」、,日^/,、B & L , 較小值時,古十算出&滿11 ®取小視囪相似值差值TV為 窗相似值λ姆較錄;狀,當最小視 值。而此處之损窗ν\ ’、叶异出的視窗大小值為相對較小 囪大小312即為第6圖之決定視窗6〇1之大小。 回到第11圖,在獲得視窗大小312德,接I 令累加模組306將虛減^ 後接考執仃步驟1104, 寻处於視自大小312内之多個音框之第一相似值 18 1312981 f :相似值作累加,以產生一第一總和313與一第二總和314。 仍中,令判斷模組根據第一總和313與第二總和 # 301是否反常’如第一總和313較大,且第一總 / 2 ί於正1音’那就認定聲音訊號301為正常;如第二總 3^1為反^。’且第二總和314屬於反常聲音,那就認定聲音訊號 除了别述之步驟外,第三實施例亦可執行第—實施例之所有 睁領f具有通常知識者可藉由第一實施例的說明,明 瞭第二實補之相對應步驟縣作,故不再費述。 .產口用—種電腦可讀取媒體,其儲存^腦程式 _易田ίi: i t可由網路存取之#料庫或熟悉此技術者可 孕二易心及具有相同功能之儲存媒體。 本發明可動態決定一視窗大小,其在 羊達到雜性之偵測觸的效果。且t 有—定的辨認正確率,並^常=具 之技術原理及精神。人士均可在不違背本發明 此本―梅護變化。因 【圖式簡單說明】 第1圖係為習知聲音_裝置之示意圖; 第2圖係為習知決定視窗之示意圖; 第3圖係為本發明之第一實施例之示意圖; 19 1312981 第圖係為本I明之第一實施例之相健產生模組之示意圖; 第5圖係為本發明之第—實施例之決定模組之示意圖; 第6圖係為本發明之決定視窗之示意圖; 弟7圖係為本發明如何計算視窗大小之座標圖; =8圖係為本發明之第二實施例之流程圖; 第9圖係為本發明之第二實施例之步驟8〇2之流程圖; 第10圖係為本發明之第二實施例之步驟⑽3之流程圖; 第/1圖係為本發明之第三實施例之流程圖:. 及第2圖係為本發明之第三實施例之步驟聰之流程圖;以 第13圖係為本發明之第三實施例之步驟聰之絲圖。 【主要元件符號說明】 100 :接收模組 102 :特徵擷取模組 104 :累加模組 106 :資料庫 21 :決定視窗 23 :決定視窗 25 :決定視窗 300 :接收模組 302 :分割模組 304 :資料庫 1 .習知聲音偵測裝置 101:分割模組 103 :比較模組 105 :判斷模組 107 :聲音訊號 22 :決定視窗 24 :決定視窗 3:聲音偵測裝置 301 :聲音訊號 303 :相似值產生模組 20 1312981 305 :決定模組 307 :判斷模組 309 :音框 311 :第二相似值 313 :第一總和 400 :特徵擷取模組 402 :特徵參數 p 501 :第二計算模組 600 :最小視窗 306 :累加模組 308 :正常與異常的聲音模型 310 :第一相似值 312 :視窗大小 314 :第二總和 401 :比較模組 500 :第一計算模組 502 :最小視窗相似值差值 601 :決定視窗
21

Claims (1)

1312981 十、申請專利範圍: L ~~種聲音偵測裝置,包含: 一接收模組,用以接收一聲音訊號; 一分割模組’用以將該聲音訊號分割成複數個音框; 一相似值產生模組,用以將每一個音框與一第一聲音模型 及一第一聲音模型做比較,以產生複數個第一相似值與複數個 第二相似值; 一決定模組’用以根據該些第一相似值與該些第二相似 值,決定一視窗大小; 一素加模組’用以根據該視窗大小,分別累加該視窗大小 内之第一相似值與第二相似值’以產生一第一總和及一第二總 和;以及 ^ 一判斷模組’用以根據該第一總和及該第二總和,判斷該 聲音訊號是否反常。 2. 如睛求項1所述之聲音偵測裝置,其中該相似值產生模組更包 含: 一特徵擷取模組,用以由每一音框中擷取之相對應之一特 徵;以及 一比較模組,將該特徵與該第一聲音模型及該一第二聲音 模型做相似度比較’以產生該些第一相似值與該些第二相似 值。 3. 如請求項1所述之聲音偵測裝置,其中該決定模組更包含: 一第一計算模組’累加一預設最小視窗内之第一相似值與 第二相似值’將第一相似值之累加結果與第二相似值之累加結 果相減’以產生一最小視窗相似值差值;以及 一第二計算模組’根據該最小視窗相似值差值,透過一第 一權重關係式計算得一第一權重參數,透過一第二權重關係式 22 1312981 計算得-第二權重參數’透過-第一線性關係式計算得一第一 參數以及透過一第二線性關係式得一第二參數,根據下列關係 式計算該視窗大小: 該視窗大小=^.}:Mn}±m2(n).mn). 其中,#代表該最小視窗相似值差值,Μι(^代表該第一 權重參數’/ι(Α〇代表該第一參數,从2(州代表該第二權重參數, 以及/2(Λ〇代表該第二參數。 4.如請求項3崎之聲音侧裝置,其巾該第—權重參數卿^ 係為· Μ、(Ν) = ν2-ν Ν2~Κ Ν<Ν、 Νλ<Ν<Ν2 ν>ν2 ^中,f為預設之一第一最小視窗相似值差值常數,Μ 為預设之一第二最小視窗相似值差值常數。 如請求項3所述之聲音偵測裝置,其中該第二權重參數处(μ 係為· 0 ν~ν' ---L ^2 Μ2(Ν)·· Ν<Ν' Νχ<Ν<Ν2 ν>ν2 、 其中’ Μ為預設之一第一最小視窗相似值差值常數,Μ 為預設之一第二最小視窗相似值差值常數。 2 6,如請求項1所述之聲音偵測裝置,其中該些音框兩兩部分重疊。 23 1312981 7. —種聲音偵測方法,包含下列步驟: 接收一聲音訊號; 將該聲音訊號分割成複數個音框; 將每一個音框與一第一聲音模型及一第二聲音模型做比 較,以產生複數個第一相似值與複數個第二相似值; 根據該些第一相似值與該些第二相似值,決定一視窗大 小; 根據該視窗大小’分別累加該視窗大小内之第一相似值與 第二相似值,以產生一第一總和及一第二總和;以及 根據該第一總和及該第二總和,判斷該聲音訊號是否反 常。 8. 如請求項7所述之聲音偵測方法,其中該相似值產生步驟包含 下列步驟: 由每一音框中擷取之相對應之一特徵;以及 將該特徵與該第一聲音模型及該一第二聲音模型做相似 度比較,以產生該些第一相似值與該些第二相似值。 9. 如請求項7所述之聲音偵測方法,其中該決定步驟更包含下列 步驟: 累加一預設最小視窗内之第一相似值與第二相似值,將第 一相似值之累加結果與第二相似值之累加結果相減’以產生一 最小視窗相似值差值;以及 根據該最小視窗相似值差值,透過一第一權重關係式計算 得一第一權重參數,透過一第二權重關係式計算得一第二權重 參數,透過一第一線性關係式計算得一第一參數以及透過一第 二線性關係式得一第二參數,根據下列關係式計算該視窗大 小: 該視窗大小=^>MN)±_M2{N).f2(N). 24 1312981 w代表該最小視窗相似值差值,私(⑺代表該第一 1()=_ 9_之聲音偵測方法,其中該第—權重參數从1(Λ/)
Μ'(Ν) NfN' N^N} n,<n<n2 n>n2 其中,M為預設之一第一最小視窗相似值差值常數,# 為預設之H小決定視窗差值常數。 2 11.如請求項 係為: 9所述之聲音偵測方法,其中該第二權重參數处⑼ Μ2 (A^)= Ο .JizIiL~N, N<N、 Nx<N^N2 n>n2 其中,π為預設之一第一最小視窗相似值差值常數,从 為預設之一第二最小決定視窗差值常數。 12. 如請求項7所述之聲音偵測方法,其中該些音框兩兩部分重疊。 13. —種聲音偵測方法,包含下列步驟: 令一接收模組接收一聲音訊號; 25 1312981 令一分割模組將該聲音訊號分割成複數個音框; 令-相似值產生模組將每-個音框與一第一聲音模型及 -第二聲音麵做比較,以產生複咖第—她倾複數個第 二相似值, 令-決定模組根據該些第一相似值與該些第二相似值,決 定一視窗大小; 令一累加模組根據該視窗大小,分別累加該視窗大小内之 第-相似值與第二相似值,以產生—第—總和及 以及
令一判斷模組根據該第一總和及該第二總和,判斷該聲音 訊號是否反常。 14.如請求項13所述之聲音侧方法,其中該相似值產生步驟更 包含: 令一特徵擷取模組由每一音框中擷取之相對應 徵;以及 & 々比較模組將該特徵與該第一聲音模型及該一第二聲 音模型做相似度比較,以產生該些第一相似值與該些第二&似 值。 15.如請求項斤13戶斤述聲音偵測方法’其中該決定步驟更包含:φ ^令一第一計算模組累加一預設最小視窗内之第一相似值 與第二相似值,將第一相似值之累加結果與第二相似值之累加 結果相減a,以產生一最小視窗相似值差值;以及 令一第二計ΐ模組根據該最小視窗相似值差值,透過一第 一,重關,式=异得一第一權重參數,透過一第二權重關係式 計异得-第二權重參數,透過一第一線性關係式計算得一第一 參數以及透過-第二線性關係式得一第二參數 式計算該視窗大小: 26 1312981 該視囪大小='/ΛΝ)+Μ,(Ν)· f7(Ν). ^,(^) + Μ2(Λ〇 ’ 掘番ίΐ 代表該最小視窗相似值差值,从1(州代表該第一 以及綱&1&表二該/數—。參數,雕°代表該第二權重參數’ Μ ^Ϊ ^項Μ所述之聲音備測方法’其中該第一權重參數从⑼ Μ Ο ν<ν{ ν,<ν<ν2 ν>ν2' 炎猫二Γ ί為預設之一第一最小視窗相似值差值常數’ ^ 為預β-第二最小決定視窗差值常數。 17 ί I求項15所述之聲音制方法’其巾該第二權重參數处⑼ 係马. Ν-Ν, ~Ν. Μ2 {Ν') ~ · Ν<ΝΧ Νχ<Ν<Ν2 ν>ν2 中,Μ為預設之一第—最小視窗相似值差值常數,外 為預汉之一第二最小決定視窗差值常數。 18·^求項13所述之聲音偵測方法,其中該些音框兩兩部分重 豐。 19’ if,内儲f—聲音偵測裝置之電腦程式產品,使該聲音侧裝 行聲音偵測方法,該聲音偵測方法包含下列步驟: 令一接收模組接收一聲音訊號; 27 I312981 令一分割模組將該聲音訊號分割成複數個音框; 令一相似值產生模組將每一個音框與一第一聲音模型及 -第二聲音模型做比較’以產生複數彳目第__相似储複數個 二相似值; 令一決定模組根據該些第一相似值與該些第二相似值,決 定一視窗大小; 令一累加模組根據該視窗大小,分別累加該視窗大小内之 第-相似值與第二相似值’以產生—第—總和及—第二總和; 以及 令一判斷模組根據該第一總和及該第二總和,判 訊號是否反常。 20.如請求項19所述之電腦程式產品,其中該相似值產生步驟 包含: 令一特徵擷取模組由每一音框中擷取之相 徵;以及 τ 令一比較模組將該特徵與該第一聲音模型及該一第一 =莫型做她姐較,料倾麟—她值與第 值0 21’如述^電難式產品,其巾該蚊步驟更包含: μ t Γ第一計算模組累加一預設最小視窗内之第一相似值 二ifί似值,將第—相似值之累加結果與第二相似值之累加 、、’。果=減:以產士一最小視窗相似值差值;以及 第二計算模組根據該最小視窗相似值差值,透過-第 _^式言t算得一第一權重參數’透過一第二權重關係式 ί—權ί參數’透過—第—線性關係式計算得一第一 士 Heί 一第二線性關係式得一第二參數,根據下列關係 异該視窗大小: 28 1312981 該視窗大小=Άη-Α(Ν) + ΜΛΝ)·/ΛΝ) 其中,iV 你 Mr(N)+M2(N) ; 城#·夂數,/ΥλΡ表該最小視窗相似值差值,Μΐ(Λ/)代表該第一 參數,靡代賴㈣重參數, 22.^Ϊ求項Μ所述之電腦程式產品,其中該第一權重參數^⑼ ΜΧ{Ν)· Ν 0 ν<ν' ^1<Ν<Ν2 Ν>ν 為預2二,設,-第-最小視窗相似值差值常數, 馮預°又;弟一取小決定視窗差值常數。 23·如請求項21戶斤述之電腦程式產品,其中該第二權重參數从 係為. 〇 Μ2{Ν) Ν-Νλ
Ν<Ν' Nt<N<N2 Ν>Ν2 其中,Μ為預設之一第一最小視窗相似值差值常數, 為預設之一第二最小決定視窗差值常數。 2 24· ^請求項19所述之電腦程式產品,其中該些音框兩兩部分重 25· —種電腦可讀取記錄媒體,用以儲存—電腦程式產品,診 程式產品使一聲音偵測裝置執行—聲音偵測方法,該聲^占腦 方法包含下列步驟: 9彳貞剛 29 1312981 令一接收模組接收一聲音訊號; 令一分割模組將該聲音訊號分割成複數個音框; 令一相似值產生模組將每一個音框與一第一聲音模型及 一第二聲音模型做比較,以產生複數個第一相似值與複數個第 二相似值; 令一決定模組根據該些第一相似值與該些第二相似值,決 定一視窗大小; 令一累加模組根據該視窗大小,分別累加該視窗大小内之 第一相似值與第二相似值,以產生一第一總和及一第二總和; .以.及 令一判斷模組根據該第一總和及該第二總和,判斷該聲音 訊號是否反常。 26.如請求項25所述之電腦可讀取記錄媒體,其中該相似值產生 步驟更包含: 令一特徵擷取模組由每一音框中擷取之相對應之一特 徵;以及 令一比較模組將該特徵與該第一聲音模型及該一第二聲 音模型做相似度比較,以產生該些第一相似值與該些第二相似 值。 27·如請求項25所述之電腦可讀取記錄媒體,其中該決定步驟更 包含: —令一第一計算模組累加一預設最小視窗内之第一相似值 與第二相似值,將第一相似值之累加結果與第二相似值之累加 結果相減^以產生一最小視窗相似值差值;以及 令一第二計,模組根據該最小視窗相似值差值,透過一第 -,重關係式計算得-第—權重參數,透過一第二權重關係式 計异得一第二權重參數,透過一第一線性關係式計算得一第一 參數以及透過一第二線性關係式得一第二參數,根據下列關係 30 1312981 式計算該視窗大小: 5玄視囪大小=·ΜΝ) + Μ,(Ν) /?(Ν) Μ,(Ν)+Μ2(Ν) 掘舌Si 代表該最小視窗相似值差值,恥⑼代表該第一 電腦可讀取記錄媒體,其中該第一權重參
hzH n2~n' ο Μ\(Ν)= ν<ν' <^<a^2 ν>ν2 其中’Μ為預設之一第一最小視窗相似值差值常數,TV2 為預設之-第二最小決定視窗差值常數。 29·如請求項27所述之電腦可讀取記錄媒體,其中該第二權重參 數似2(·^)係為:
Μ2(Ν、= \ΙίζΙίι N2-N' Ν孓N、 Ν, ^Ν<Ν2 ν>ν2 其中’ Λ^ι為預設之一第一最小視窗相似值差值常數,私 為預設之一第二最小決定視窗差值常數。 30.如請求項25所述之電腦可讀取記錄媒體,其中該些音框兩兩 部分重疊。 31
TW095144391A 2006-11-30 2006-11-30 Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically TWI312981B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW095144391A TWI312981B (en) 2006-11-30 2006-11-30 Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically
US11/679,781 US20080133234A1 (en) 2006-11-30 2007-02-27 Voice detection apparatus, method, and computer readable medium for adjusting a window size dynamically

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW095144391A TWI312981B (en) 2006-11-30 2006-11-30 Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically

Publications (2)

Publication Number Publication Date
TW200823865A TW200823865A (en) 2008-06-01
TWI312981B true TWI312981B (en) 2009-08-01

Family

ID=39476894

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095144391A TWI312981B (en) 2006-11-30 2006-11-30 Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically

Country Status (2)

Country Link
US (1) US20080133234A1 (zh)
TW (1) TWI312981B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655655B2 (en) 2010-12-03 2014-02-18 Industrial Technology Research Institute Sound event detecting module for a sound event recognition system and method thereof

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
US9406313B2 (en) * 2014-03-21 2016-08-02 Intel Corporation Adaptive microphone sampling rate techniques
CN111415680B (zh) * 2020-03-26 2023-05-23 心图熵动科技(苏州)有限责任公司 一种基于语音的焦虑预测模型的生成方法和焦虑预测系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5529803A (en) * 1978-07-18 1980-03-03 Nippon Electric Co Continuous voice discriminating device
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5615299A (en) * 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features
EP1393301B1 (en) * 2001-05-11 2007-01-10 Koninklijke Philips Electronics N.V. Estimating signal power in compressed audio
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655655B2 (en) 2010-12-03 2014-02-18 Industrial Technology Research Institute Sound event detecting module for a sound event recognition system and method thereof

Also Published As

Publication number Publication date
US20080133234A1 (en) 2008-06-05
TW200823865A (en) 2008-06-01

Similar Documents

Publication Publication Date Title
US8867891B2 (en) Video concept classification using audio-visual grouplets
Amiriparian et al. Bag-of-deep-features: Noise-robust deep feature representations for audio analysis
US20130089304A1 (en) Video concept classification using video similarity scores
Meng et al. Improving music genre classification by short time feature integration
US20120035927A1 (en) Information Processing Apparatus, Information Processing Method, and Program
WO2011001002A1 (en) A method, devices and a service for searching
US10013982B2 (en) Conversation processing apparatus and conversation processing method
US9557957B2 (en) System and method for developing a model indicative of a subject's emotional state when listening to musical pieces
Jia et al. SoundLoc: Accurate room-level indoor localization using acoustic signatures
Abbaszadeh et al. An intelligent procedure for watermelon ripeness detection based on vibration signals
CN108520758B (zh) 一种视听觉跨模态物体材质检索方法及系统
McAdams et al. The psychomechanics of simulated sound sources: Material properties of impacted thin plates
CN115114473B (zh) 一种音乐推送方法、装置、电子设备及可读存储介质
CN105718566A (zh) 一种智能音乐推荐系统
JP2018206341A (ja) 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム
Rogers et al. Using statistical image models for objective evaluation of spot detection in two‐dimensional gels
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN113408908A (zh) 一种基于履约能力和行为的多维信用评价模型构建方法
TWI312981B (en) Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically
AU2008362901B2 (en) Method and apparatus for default rating estimation
Lee A two-stage approach using Gaussian mixture models and higher-order statistics for a classification of normal and pathological voices
KR101743169B1 (ko) 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체
Chaudhari et al. Information fusion and decision cascading for audio-visual speaker recognition based on time-varying stream reliability prediction
JP2018206292A (ja) 要約映像生成装置及びプログラム
CN115588151A (zh) 直播场景的商品检测方法和装置、介质和计算机设备

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees