TWI312981B - Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically - Google Patents
Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically Download PDFInfo
- Publication number
- TWI312981B TWI312981B TW095144391A TW95144391A TWI312981B TW I312981 B TWI312981 B TW I312981B TW 095144391 A TW095144391 A TW 095144391A TW 95144391 A TW95144391 A TW 95144391A TW I312981 B TWI312981 B TW I312981B
- Authority
- TW
- Taiwan
- Prior art keywords
- sound
- window
- module
- value
- similar
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000001514 detection method Methods 0.000 title claims description 16
- 238000004590 computer program Methods 0.000 title claims description 11
- 230000005236 sound signal Effects 0.000 claims description 42
- 230000002159 abnormal effect Effects 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 241000255925 Diptera Species 0.000 claims 1
- 206010061218 Inflammation Diseases 0.000 claims 1
- 230000004054 inflammatory process Effects 0.000 claims 1
- 238000002360 preparation method Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 241001494479 Pecora Species 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 241000238876 Acari Species 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 235000013616 tea Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Description
1312981 九、發明說明: 【發明所屬之技術領域】 發明係關於一種聲音偵測裝置、方法、電腦程式產品及其電 腦可讀取記錄媒體;特別是關於一種可動態決定視窗大小之g音 偵測裝置、方法、電腦程式產品及其電腦可讀取記錄媒體。 * 【先前技術】 近年來隨著聲音偵測技術的成熟,各種聲音偵測之應用也隨 之產生在一般的聲音偵測中會將所偵測到的聲音分為兩大類: 零正常的聲音(Normal)與異常的聲音(Abnormal),所謂正常的聲 曰疋才曰在環境中比較不會引起注意的聲音,例如街上的汽車聲、 人類的說話聲及廣播之音樂聲等等,而異常的聲音就是會引起注 意的聲音,例如尖叫聲、哭聲及求救聲等等。特別是在有關保全 監控^方面,聲音偵測可以利於保全相關人員做進一步的處理。 高斯混合模型(Gaussian Mixture Model,簡稱GMM)近年來 帛被用於聲音辨識或語者辨識,面斯混合模型是單一高斯分佈模 型(Mon〇GaussianModel,MGM)的延伸:單一高斯分佈模型將一堆 樣本在向量空間的中心位置用一個平均值向量做記錄,而將這些 •樣本在向量空間中所分佈的形狀用共變異矩陣來做近似。而高^ 混合模型除了具有單一高斯分佈模型的特性外,此模型亦結合了 向量量化(Vector Quantizati〇n,VQ)的特性,亦即能記錄樣本 類別在向量空間中的幾個重要位置。 第1圖係為習知聲音偵測裝置卜其包含一接收模組1〇〇、一 分割模組10卜一特徵擷取模組102、一比較模組1〇3、一累加 組及一判斷模組105。聲音偵測裝置i聯接至一資料庫1〇6,、 ^中資料庫1〇6儲存多個聲音模型,這些聲音模型皆為高斯混合 杈型,且可分為兩大類:正常的聲音模型與異常的聲音模型。 收模組1〇〇肖以接收-筆聲音訊號1〇7,而分割模组1〇1便將聲音 1312981 晋號成為多個音框(V〇iceFrame),這些音框兩兩部份重 豐,”便由特徵擷取模組102針對每一個音框去擷取出 特徵參數。比較模組103將由資料庫1〇6取出先的 聲音模型與異常膽音_,分舰翻音㈣= 各自產生多個第一相似值與多個第二她值ϊ ί 組104根據-視窗大小分別累加這些第一相似值與這些第 值’該視窗大小所指的為-翻定的咖。如f 訊號浙將被分割成多個區域2卜22、23、24及25轉,2 區域大小即為視窗大小,而每一個區域包含多個音框。假 大小為^)mS ’音框大小為1()ms,音框與音框間的重彳部| 0ms ’則母個區域即包含4〇個音框,而累加模組 ΓΓΛ音框ί所有•一相似賺^ 一=二〜和與一第二總和,之後判斷模組1〇5便會根據第一總和 與第二總和判斷該訊號是屬於正常聲音還是屬於異常聲音。& *然而’由於習知聲音彻懷置i之視窗大小是峡的,當習 知聲音偵測裝置1處於環境聲音變動量大時,其偵測之錯 (False Rate)將會大幅上升’而遇疑似異f聲音時亦無法立即反 應,造成整體魏降低。g此,如何動態娜 繼—,㈣需要努力 【發明内容】 的在於提供—種聲音_裝置,該聲音_裝 置包含:接收拉、組、-分割模組、一相似值產生模組、一決定模 組、一累加模組及一判斷模組。接收模組用以 分割模該聲音職糾賴數個音框:她^生^組 用以將母-個音框與-第—聲音模型及H音模型做比較, ίΐΐΐ數個第—相似值與複數個第二相似值;決定模組用以根 據該些第-相似值與該些第二相似值,決定—視窗Α小;累加模 1312981 組用以根據該視窗大小’分別累加該視窗大小内之第一相似值與 第二相似值,以產生一第一總和及一第二總和;以及判斷模組用 以根據該第一總和及該第二總和,判斷該聲音訊號是否反常。 本發明之再一目的在於提供一種聲音偵測方法,包含下列步 驟:接收一聲音訊號;將該聲音訊號分割成複數個音框;將每一 個音框與一第一聲音模型及一第二聲音模型做比較,以產生複數 'f第一相似值與複數個第二相似值;根據該些第一相似值與該些 =二相似值,決定一視窗大小;根據該視窗大小,分別累加該視 窗大小内之第一相似值與第二相似值,以產生一第一總和及一第 %二總和;以及根據談第一總和及該第二總和,判斷該聲音訊號是 否反常。 .本發明之另一目的在於提供一種聲音偵測方法,包含下列步 驟二令一接收模組接收一聲音訊號;令一分割模組將該聲音訊號 分割成複數個音框;令一相似值產生模組將每一個音框盥一第一 ,音模^及-第二聲音模型做比較,以產生複數個第^似值與 複數個第二相似值;令一決定模組根據該些第一相似值與該些第 -相似值,決定-視窗大小;令一累加模組根據該視窗大小,分 別累加該視窗大小内之第一相似值與第二相似值,以產生一第一 φ ,和及-第二總和;以及令—判斷模組根據該第—總和及 總和’判斷該聲音訊號是否反常。 本發明之又一目的在則^供一種内儲於一聲音偵測裝置 產品’使該聲音偵測裝置執行一聲音偵測方法,該聲音偵 =法包含下列步驟:令-接收模組接收—聲音訊號, 訊號分割成複數個音框;令—相似值產生模 框與-第一聲音模型及—第二聲音模型做比較, 數固苐-相似值與複數個第二相她;令—決定模組 ^ 據該視窗大小,分㈣加錄之第 與 Ϊ312981 ^,以產生ϋ和及-第二總和;以及令—判斷模組根據該 第一總和及該第二總和,判斷該聲音訊號是否反常。 本發明之次一目的在於提供一種電腦可讀取記錄媒體,用以 ,存一電腦程式產品,該電腦程式產品使一聲音偵測裝置執行一 聲音,測方法,該聲音偵測方法包含下列步驟:令一接收模組接 收-聲音減;令-分賴組賴聲音訊號分贼複數個音框; 7 —相似值產生模組將每一個音框與一第一聲音模型及一第二聲 ,模型做比較,以產生複數個第一相似值與複數個第二相似值; 二一決定模組根據該些第一相似值與該些第二相似值,決定一視 窗大小;令一累加模組根據該視窗大小,分別累加該視窗大小内 之第-相似值與第二相似值,以產生—第—總和及—第二總和; ,及令-判斷模組根據該第一總和及該第二總和,判斷該聲音訊 號是否反常。 ° 心,使 本發明處於魏聲音變動量大之環境時,可雜的調整決定 之大小’使得細!J之錯誤率下降,並可達到若遇疑似異 立即反應及動誠測目前聲音變化之功能,尤其可利用在 ,王^統方面,當歧異常聲音時可以即時反應至保全中心 ’、全中心可以有即時之處置,進而提升保全相關產業之價值 f參閱圖式及隨後描述之實施方式後,該技術領域具有 ^樣便可瞭解本發明之其他目的’以及本發明之技術手段及實 實施方式】 本發明之第—實施例如第3騎示 -資做加模組观及—判斷模組307。該裝置3連 :么-,枓庫 貧料庫304儲存多個聲音模型,這些聲音模型 白為尚航合_,且可分為兩场:正f的聲音模型與/常的 1312981 聲音模型。 接收模組300用以接收一筆聲音訊號3〇1,而分割模組3〇2 係利用習知技術將聲音訊號3〇1分割成為多個音框3〇9,而這些音 框309中的每-個與前後音框部份重疊,並被傳送至相似值產生 Ϊ組3〇3,用以產生多個第一相似值310與多個第二相似值31卜 二目似值產生模組3〇3之示意圖,相似值產生模組303包 =-特徵擷取模,組400與-比較模組4〇1,特徵擷取模組4〇〇 ^-個音框去擷取出各自的特徵參數術,特徵參數搬可為該聲 曰,观之梅,頻譜係數(齡_ Freq職y 〇二icien,以簡稱mpcq、線性預估倒頻譜係數 ^=:=tra^efflcient ’以下簡稱Lpcc)w及頻譜(咖㈣) …ί自。而比較模組401將由資料庫304取出預先儲 常的ίΐϊ型308分別跟各個音框的特徵= i t 產生多個第一相似值310與多個第二相似 f 11,,來說,-個完整的高斯混合密度(―如版 也巧)函數主要由M個基本密絲域,且每個基本密 卞個茶數來表示:平均值向量(mean veetw)、共夂‘ (covariancematnx)和混合權重(mi =矩 常聲音(環境《聲音跑料音都: ,為所有錄的集合,如下之方程式所^ ’則
Λ = (Ά,Σ = 1...M 的β 的疋混合加權值表示的是平均值向量,Σ表干 異矩陣’而均彳是高斯分佈的個數。高航 個基本密度(W )的加權總和(weighted sum),Jp之 Μ 不· Ρ(Χ I = wi^i (^) 其中維的隨機向量(random vector;),亦^
$特徵值向量’且其特徵值向量的維度為D,而U代表-個音 疋基本密度(議P。咖densities),W 9 1312981 神且崎所有湘混繼和^的限制, 每個基本密度 如下之方程式所示: z = 1”·.,ΛΓ,是一個
D 維的高斯密度函數, bi(x)
Mi 其是平均值向量’ Σ+是共變異矩陣。 異常=二示=!=:景聲, GMM模型盘 4進行相似度的計算後(idir音框,Ϊ每個音框與认 多個相似度值(Likelihood)】盥多徊相二,/J丨々—§崎切〉即會產生 度值!與多個相似度值2取對數$』f =,此多個相似 值如1與_數可==數相似度 310與多個第二相似值31卜发中;^_2此^多個第一相似值
,型與各個音框的特徵參數4〇2做相似度二正::J 框的特徵參數-做相 小。㈣ 5m ’第-汁异模組500根據一預先設定好之最小視 這些弟一相似值310與這些第二相似值311,以 似值差值502。更詳細來說,如第6圖所示,由於聲^^ = 為連續的訊號,假設長度為1〇秒,而音框大小與最小視窗_的 大小分別為5毫秒與100毫秒,第一計算模組5〇〇由聲音訊號3〇1 二開始輸人到滿100毫秒時’分聰在這段時_的出現的2〇個 第一相似气310與20個第二相似值311分別加總,並將第一相似 值310與第一相似值311之加總結果相減,得到最小視窗相似值 差值502。 1312981 第7圖係描繪第二計算模组5〇l h何計#視窗大小之規 貝其中橫軸#代表最小視窗相似值差值,縱軸代表權重參數值。 橫軸定義有一第一最小視窗相似值差值常數坫及一第二^小視窗 相似值差值常數呢,於本實施例中,Μ及外分別為^與600, 皆儲存於第二計算模組501中。此兩個最小視窗相似值差值常數 可視實際情況調整為其他常數,其值並非用來限制本發明之範 圍。第7圖更描緣-第-權重線性關係Μι及一第二權重線性關係 ,各權重線性關係如下所示: Ν2~Ν Ν2-Νχ ο Μ2(Ν) Ν-Ν' n<n' n,<n<n2 n>n2 Ν<Νλ Ν^<Ν<Ν2 ν>ν2 假設第二計异模組500計算出來之最小視窗相似值差值#二 _ 480’第二計算杈組401利用上述之第一權重線性關係^从^及 二權重線性關係处,可求得為Ml(A/)為〇 4與场(7^為〇 6。 另外,音框數#亦代入以下線性關係式以計算參數 f2W' 綱二 a',N + b' f2(N) = a2-N + b2 其中〜、&、61及62分別各為一預設常數,而〜、处、61 办2等常數的設定在於使//W值為一較大的值,力州值為一較小的 11 1312981 值’亦即力為一較大的視窗值 -呌笪埴細社从从认 值而力网為一較小的視窗值,第 一十异模組501接耆依據下列關係式計算視窗大小312 =〇.4/ι(Λ〇+〇.6/2 ⑼ 視窗大小^ M}(N)+M2(N) 利,此,,式計算視窗大小,則#最小視窗相似值 =、值時^計算出的視窗大小值為相 & 值、,大值時,計算出的視窗大小 值。而,之視窗大小312即為第6圖之決定視窗6〇1之大=。! 产於在獲得視窗大小312之後,累加模組3〇6便將 力 1st第=%多=框之第—相似值與第二相似值作累 產生第〜和313與一第二總和314。而判斷掇相 第一ίί 313與第二總和314之大小判斷聲音訊號301是否 反节’ f弟一總和313較大’且第一總和313屬於正常聲音,那 就認定聲音訊號301為正常;如第二總和314較大,且乂 3H屬於反常聲音,那就認定聲音訊號3〇1為反常。一〜 、本發明之第一實施例如第8圖所示,其係為一種聲音彳貞測 在步驟800中’接收一筆聲音訊號,之後執行步驟8〇1,、將聲 曰&fl號分割成為多個音框,而這些音框中的每一個與前後音框部 伤重金,之後執行步驟802,將該些音框與預先儲存的正常的聲音 ,型與異常的聲音模型做相似度比較,以產生多個第一相似值^ 多個第二相似值。詳而言之,如第9圖所示,步驟8〇2更包含步 驟900與步驟90卜其中步驟900中,針對每一個音框去擷取 自的特徵參數,特徵參數可為聲音訊號之梅爾倒頻譜係數、線性 預估倒頻譜係數以及頻譜其中之一或其組合。步驟9〇1取出預先 儲存的正常的聲音模型與異常的聲音模型分別跟各個音框的特徵 參數做相似度比較,各自產生多個第一相似值與多個第二相似 值’詳細來說,一個完整的高斯混合密度(Gaussian mixture density ;) 函數主要由Μ個基本密度來組成’且每個基本密度可用三個來數 12 1312981 來表示··平均值向量(mean vecte)、 =atnx)和混合權重(mi版 家矩陣(covariance 與異常聲音都有該對應的(環境 數的集合,如下之方程式所示: 、尘Λ則乂即為所有參 Λ ...Μ {ά,Σ J,Z· — ,··.7ΚΥ 的e it的是混合加權值,凡表示的是平均值μ主 ^異轉,而_是高斯分佈的個數。里,Σ,.表示 個基本^ (即,加權總和(_) 2中Χ是D維的隨機向量㈦丄她。,亦即心/ : 值向量,且其特徵值向量的維度為二::代表-個曰
’基本禮度(c〇mp〇nent densities),冰 i = i ^ M (mixture weights),且e’入’.··,从疋轧合權重 即=1。)且而滿足所有職混合權重和為!的限制’ 母個基本密度h(JC),/ 如下之方程式所示: Μ ’是一個D維的高斯密度函數, exp \~1(χ^ΜιγΣ;^χ^ b (χ) = -__ Μ (2哉丨X - L 2 其中A/是平均值向量,Σ;是共變異矩陣 U別麵正f聲音(魏f景聲音)的gmm 模型,x,表示—序列的音框,則每個音框盘认 =】與夕個相似度值2取對數運算後,即可得到多個對數相= 值(Log^kelihoodh與多個對數相似度值2,此即多個第一相似^ 」〇與多個第二相似值311。其中多個第一相似值為正常的聲音模 各個音框的特徵參數做相似度比較之結果,多個第. 為異常的聲音麵與各個音框的特徵參數做相似度味之結果。 13 1312981 接I來執行步驟803,將決定一視窗大小。詳細來說,如第 ^所示’步驟803包含步驟1000與步驟1001,在步驟1000中, —預先設定好之最小視窗分別去累加這些第一相似值與這些 2似值。如第6圖所示,由於聲音訊號為連續的訊號,假設 10, ’而音框大小與最小視窗6〇〇的大小分別為5毫秒與 1秒’第一計算模組500由聲音訊號一開始輸入到滿100毫秒 時,分別將在這段時間内的出現的20個第一相似值與20個第二 ^似/值刀別加總,並將第一相似值與第二相似值之加總結果相 減’得到一最小視窗相似值差值。 ,7圖係描繪步驟1001如何計算視窗大小之規則,如前所 述,,7圖中之第一權重線性關係Μι及第二權重線性關係地如 下所示:
奴,〇v) = n2-nX-N' 0 Ν<Νλ Νχ <Ν<Ν2 ν>ν2 Ν<Ν' Νλ<Ν<Ν2 ν>ν2. ο ν2-ν, 假設在步驟1000中計算出來之最小視窗相似值差值= 480 ’在步驟lool中’利用上述之第一權重線性關係从及第二權 重線性關係M2,可求得為私(7\〇為0.4與M2(A〇為〇,6。 另外’音框數7V亦代入以下線性關係式以計算參數及 f2W : = -N + b} 14 1312981 常數的設Ϊ在3吏)二^:⑦常數’而”、〜及62等 亦即/雜-較大值為-較小的值, 接著依據下_係式計算視紅^、M —較小的視窗值。步驟1001 =〇.4/ΐ(Λ〇+〇.6/2 ⑼ 視窗大小= μΛν)+μ^(ν) 車,、值時,計算二ίΐΐίί為窗ί:值 值而此處之視固大小即為第6圖之決定視窗601之大小。 聲:i卢9否ίϊ和如ί步驟805根據第一總和與第二總和判斷 常聲音,那就認定聲音訊號為反常且第一總和屬於反 偷除述之步驟外’第二實施例亦可執行第-實施例之所有 15 1312981 ’其中相似值產生模組303包含一特«取模組400與 401。詳而言之,,步驟臟包含如第12圖所示之步 步驟聰巾,令·娜觀4_情每—個音框去 參數4〇2,特徵參數402可為該聲音訊號301 j爾倒頻搞、數、線性預估倒頻譜絲以及頻譜其中之一 S二1201中’令比較模組401將由資料庫304取出預 402 疮吊”異常的聲音模型3〇8分別跟各個音框的特徵參數 值311目irt’各1產生多個第一相似值310與多個第二相似 d .h、坪兄’—個完整的高斯混合密度(Gaussian mixture 三來域,且f錄本密度可用 matrix)和混合權重(麵 = 常聲^魏㈣聲音)與財聲切有賴_ t ^ 柳為所有參數的集合,如下之方程式所示: 換型A則 ...Μ 2 = {',》,,Σ , }" 其中νν,表不的是混合加權值,^,表示的是 矩陣,㈣則是高斯分佈的個數-二 個基本密度(W )的加權總和(wdghted麵),如疋示Μ 其中,是D維的隨機向量(_;m ve ,=徵值向量’且其特徵值向量的維度為D ^而= 代表一個音 疋基本密度(component densities ;), · = ί ,(),ζ = 1,·.·,Μ
Jit:-),且需滿足所⑽二,重重 (=^1 維的高斯密度函數, 每個基本密度6,.⑷,/ = 1,· ” M,是一個D 如下之方程式所示: biM= (2,Ατ,ι^GXP{~ 16 1312981 其中凡是平均值向量,Σ,'是共變異矩陣。 異常ί二不:df<境背景聲音〇繼模型與 a進行相似度的計算後(亦即二=的音框’貝)每個音框與a及 i此即多個第一相似值 !ϊ=個 =〇與多個第二相似值311。其 立模型與各個音框的特徵轉伽H :似值31G為正常的聲 •相似值311為異常的聲11相上度比較之結果’多個第 似度比較之結果。 9 與各個音框的特徵參數402.做相 近一53執;,令決定模組305決定一視窗大小,更 算模組5m,如、ί ^且圖戶^一包含牛一驟第一計 1300中,令第一十笞桓二:?驟1103包含下列步驟。在步驟 去累加這些第-相彳根|;=先設定好之最小視窗分別 ^為由於聲音訊號3gi為連續的訊號,假設長 Ϊ秒,牛驟與最小視窗_的大小分別為5毫秒與100 fG由聲音訊號3Gi —開始輸人到滿觸毫秒時,分 似值3lTj間内的出現的20個第一相似值310與20個第二相 邮果相=加總’並將第一相似值310與第二相似值311之加 總絲相減’得到—最小視窗相似值差值502。 所、f第^係描緣步驟1301如何計算視窗大小312之規則,如前 如^所示.圖中之第—權重線性關係从及第二權重線性關係Λ/2 ^2~n ~K^' ν<ν' ν1<ν<ν2 Ν>μ 17 1312981 M2{N). ο n~n、 N2-Nx n<n' Νλ <N^N2 n>n2 中所計算出來之最小視窗相似值差值^= 權重缘性二’彻上述之第—權重雜關係M1及第二 ΐί ί 求付為M(7V)為〇.4與他(場0.6。 _ θ框諸亦代入以下線性關係式以計算參數_及 綱: Λ(Α〇: N+b, N + b2 匕及〜分別各為—預設常數’ * αι、α2、卜及等 二二ί在於使卿值為—較大的值,/满值為一較小的值, 值’而綱為—較小的視窗值。步驟顧 祛者依據下列關係式計算視窗大小312 : 視窗大小=避=〇_+〇_ 利用此關係式計算視窗大」、,日^/,、B & L , 較小值時,古十算出&滿11 ®取小視囪相似值差值TV為 窗相似值λ姆較錄;狀,當最小視 值。而此處之损窗ν\ ’、叶异出的視窗大小值為相對較小 囪大小312即為第6圖之決定視窗6〇1之大小。 回到第11圖,在獲得視窗大小312德,接I 令累加模組306將虛減^ 後接考執仃步驟1104, 寻处於視自大小312内之多個音框之第一相似值 18 1312981 f :相似值作累加,以產生一第一總和313與一第二總和314。 仍中,令判斷模組根據第一總和313與第二總和 # 301是否反常’如第一總和313較大,且第一總 / 2 ί於正1音’那就認定聲音訊號301為正常;如第二總 3^1為反^。’且第二總和314屬於反常聲音,那就認定聲音訊號 除了别述之步驟外,第三實施例亦可執行第—實施例之所有 睁領f具有通常知識者可藉由第一實施例的說明,明 瞭第二實補之相對應步驟縣作,故不再費述。 .產口用—種電腦可讀取媒體,其儲存^腦程式 _易田ίi: i t可由網路存取之#料庫或熟悉此技術者可 孕二易心及具有相同功能之儲存媒體。 本發明可動態決定一視窗大小,其在 羊達到雜性之偵測觸的效果。且t 有—定的辨認正確率,並^常=具 之技術原理及精神。人士均可在不違背本發明 此本―梅護變化。因 【圖式簡單說明】 第1圖係為習知聲音_裝置之示意圖; 第2圖係為習知決定視窗之示意圖; 第3圖係為本發明之第一實施例之示意圖; 19 1312981 第圖係為本I明之第一實施例之相健產生模組之示意圖; 第5圖係為本發明之第—實施例之決定模組之示意圖; 第6圖係為本發明之決定視窗之示意圖; 弟7圖係為本發明如何計算視窗大小之座標圖; =8圖係為本發明之第二實施例之流程圖; 第9圖係為本發明之第二實施例之步驟8〇2之流程圖; 第10圖係為本發明之第二實施例之步驟⑽3之流程圖; 第/1圖係為本發明之第三實施例之流程圖:. 及第2圖係為本發明之第三實施例之步驟聰之流程圖;以 第13圖係為本發明之第三實施例之步驟聰之絲圖。 【主要元件符號說明】 100 :接收模組 102 :特徵擷取模組 104 :累加模組 106 :資料庫 21 :決定視窗 23 :決定視窗 25 :決定視窗 300 :接收模組 302 :分割模組 304 :資料庫 1 .習知聲音偵測裝置 101:分割模組 103 :比較模組 105 :判斷模組 107 :聲音訊號 22 :決定視窗 24 :決定視窗 3:聲音偵測裝置 301 :聲音訊號 303 :相似值產生模組 20 1312981 305 :決定模組 307 :判斷模組 309 :音框 311 :第二相似值 313 :第一總和 400 :特徵擷取模組 402 :特徵參數 p 501 :第二計算模組 600 :最小視窗 306 :累加模組 308 :正常與異常的聲音模型 310 :第一相似值 312 :視窗大小 314 :第二總和 401 :比較模組 500 :第一計算模組 502 :最小視窗相似值差值 601 :決定視窗
21
Claims (1)
1312981 十、申請專利範圍: L ~~種聲音偵測裝置,包含: 一接收模組,用以接收一聲音訊號; 一分割模組’用以將該聲音訊號分割成複數個音框; 一相似值產生模組,用以將每一個音框與一第一聲音模型 及一第一聲音模型做比較,以產生複數個第一相似值與複數個 第二相似值; 一決定模組’用以根據該些第一相似值與該些第二相似 值,決定一視窗大小; 一素加模組’用以根據該視窗大小,分別累加該視窗大小 内之第一相似值與第二相似值’以產生一第一總和及一第二總 和;以及 ^ 一判斷模組’用以根據該第一總和及該第二總和,判斷該 聲音訊號是否反常。 2. 如睛求項1所述之聲音偵測裝置,其中該相似值產生模組更包 含: 一特徵擷取模組,用以由每一音框中擷取之相對應之一特 徵;以及 一比較模組,將該特徵與該第一聲音模型及該一第二聲音 模型做相似度比較’以產生該些第一相似值與該些第二相似 值。 3. 如請求項1所述之聲音偵測裝置,其中該決定模組更包含: 一第一計算模組’累加一預設最小視窗内之第一相似值與 第二相似值’將第一相似值之累加結果與第二相似值之累加結 果相減’以產生一最小視窗相似值差值;以及 一第二計算模組’根據該最小視窗相似值差值,透過一第 一權重關係式計算得一第一權重參數,透過一第二權重關係式 22 1312981 計算得-第二權重參數’透過-第一線性關係式計算得一第一 參數以及透過一第二線性關係式得一第二參數,根據下列關係 式計算該視窗大小: 該視窗大小=^.}:Mn}±m2(n).mn). 其中,#代表該最小視窗相似值差值,Μι(^代表該第一 權重參數’/ι(Α〇代表該第一參數,从2(州代表該第二權重參數, 以及/2(Λ〇代表該第二參數。 4.如請求項3崎之聲音侧裝置,其巾該第—權重參數卿^ 係為· Μ、(Ν) = ν2-ν Ν2~Κ Ν<Ν、 Νλ<Ν<Ν2 ν>ν2 ^中,f為預設之一第一最小視窗相似值差值常數,Μ 為預设之一第二最小視窗相似值差值常數。 如請求項3所述之聲音偵測裝置,其中該第二權重參數处(μ 係為· 0 ν~ν' ---L ^2 Μ2(Ν)·· Ν<Ν' Νχ<Ν<Ν2 ν>ν2 、 其中’ Μ為預設之一第一最小視窗相似值差值常數,Μ 為預設之一第二最小視窗相似值差值常數。 2 6,如請求項1所述之聲音偵測裝置,其中該些音框兩兩部分重疊。 23 1312981 7. —種聲音偵測方法,包含下列步驟: 接收一聲音訊號; 將該聲音訊號分割成複數個音框; 將每一個音框與一第一聲音模型及一第二聲音模型做比 較,以產生複數個第一相似值與複數個第二相似值; 根據該些第一相似值與該些第二相似值,決定一視窗大 小; 根據該視窗大小’分別累加該視窗大小内之第一相似值與 第二相似值,以產生一第一總和及一第二總和;以及 根據該第一總和及該第二總和,判斷該聲音訊號是否反 常。 8. 如請求項7所述之聲音偵測方法,其中該相似值產生步驟包含 下列步驟: 由每一音框中擷取之相對應之一特徵;以及 將該特徵與該第一聲音模型及該一第二聲音模型做相似 度比較,以產生該些第一相似值與該些第二相似值。 9. 如請求項7所述之聲音偵測方法,其中該決定步驟更包含下列 步驟: 累加一預設最小視窗内之第一相似值與第二相似值,將第 一相似值之累加結果與第二相似值之累加結果相減’以產生一 最小視窗相似值差值;以及 根據該最小視窗相似值差值,透過一第一權重關係式計算 得一第一權重參數,透過一第二權重關係式計算得一第二權重 參數,透過一第一線性關係式計算得一第一參數以及透過一第 二線性關係式得一第二參數,根據下列關係式計算該視窗大 小: 該視窗大小=^>MN)±_M2{N).f2(N). 24 1312981 w代表該最小視窗相似值差值,私(⑺代表該第一 1()=_ 9_之聲音偵測方法,其中該第—權重參數从1(Λ/)
Μ'(Ν) NfN' N^N} n,<n<n2 n>n2 其中,M為預設之一第一最小視窗相似值差值常數,# 為預設之H小決定視窗差值常數。 2 11.如請求項 係為: 9所述之聲音偵測方法,其中該第二權重參數处⑼ Μ2 (A^)= Ο .JizIiL~N, N<N、 Nx<N^N2 n>n2 其中,π為預設之一第一最小視窗相似值差值常數,从 為預設之一第二最小決定視窗差值常數。 12. 如請求項7所述之聲音偵測方法,其中該些音框兩兩部分重疊。 13. —種聲音偵測方法,包含下列步驟: 令一接收模組接收一聲音訊號; 25 1312981 令一分割模組將該聲音訊號分割成複數個音框; 令-相似值產生模組將每-個音框與一第一聲音模型及 -第二聲音麵做比較,以產生複咖第—她倾複數個第 二相似值, 令-決定模組根據該些第一相似值與該些第二相似值,決 定一視窗大小; 令一累加模組根據該視窗大小,分別累加該視窗大小内之 第-相似值與第二相似值,以產生—第—總和及 以及
令一判斷模組根據該第一總和及該第二總和,判斷該聲音 訊號是否反常。 14.如請求項13所述之聲音侧方法,其中該相似值產生步驟更 包含: 令一特徵擷取模組由每一音框中擷取之相對應 徵;以及 & 々比較模組將該特徵與該第一聲音模型及該一第二聲 音模型做相似度比較,以產生該些第一相似值與該些第二&似 值。 15.如請求項斤13戶斤述聲音偵測方法’其中該決定步驟更包含:φ ^令一第一計算模組累加一預設最小視窗内之第一相似值 與第二相似值,將第一相似值之累加結果與第二相似值之累加 結果相減a,以產生一最小視窗相似值差值;以及 令一第二計ΐ模組根據該最小視窗相似值差值,透過一第 一,重關,式=异得一第一權重參數,透過一第二權重關係式 計异得-第二權重參數,透過一第一線性關係式計算得一第一 參數以及透過-第二線性關係式得一第二參數 式計算該視窗大小: 26 1312981 該視囪大小='/ΛΝ)+Μ,(Ν)· f7(Ν). ^,(^) + Μ2(Λ〇 ’ 掘番ίΐ 代表該最小視窗相似值差值,从1(州代表該第一 以及綱&1&表二該/數—。參數,雕°代表該第二權重參數’ Μ ^Ϊ ^項Μ所述之聲音備測方法’其中該第一權重參數从⑼ Μ Ο ν<ν{ ν,<ν<ν2 ν>ν2' 炎猫二Γ ί為預設之一第一最小視窗相似值差值常數’ ^ 為預β-第二最小決定視窗差值常數。 17 ί I求項15所述之聲音制方法’其巾該第二權重參數处⑼ 係马. Ν-Ν, ~Ν. Μ2 {Ν') ~ · Ν<ΝΧ Νχ<Ν<Ν2 ν>ν2 中,Μ為預設之一第—最小視窗相似值差值常數,外 為預汉之一第二最小決定視窗差值常數。 18·^求項13所述之聲音偵測方法,其中該些音框兩兩部分重 豐。 19’ if,内儲f—聲音偵測裝置之電腦程式產品,使該聲音侧裝 行聲音偵測方法,該聲音偵測方法包含下列步驟: 令一接收模組接收一聲音訊號; 27 I312981 令一分割模組將該聲音訊號分割成複數個音框; 令一相似值產生模組將每一個音框與一第一聲音模型及 -第二聲音模型做比較’以產生複數彳目第__相似储複數個 二相似值; 令一決定模組根據該些第一相似值與該些第二相似值,決 定一視窗大小; 令一累加模組根據該視窗大小,分別累加該視窗大小内之 第-相似值與第二相似值’以產生—第—總和及—第二總和; 以及 令一判斷模組根據該第一總和及該第二總和,判 訊號是否反常。 20.如請求項19所述之電腦程式產品,其中該相似值產生步驟 包含: 令一特徵擷取模組由每一音框中擷取之相 徵;以及 τ 令一比較模組將該特徵與該第一聲音模型及該一第一 =莫型做她姐較,料倾麟—她值與第 值0 21’如述^電難式產品,其巾該蚊步驟更包含: μ t Γ第一計算模組累加一預設最小視窗内之第一相似值 二ifί似值,將第—相似值之累加結果與第二相似值之累加 、、’。果=減:以產士一最小視窗相似值差值;以及 第二計算模組根據該最小視窗相似值差值,透過-第 _^式言t算得一第一權重參數’透過一第二權重關係式 ί—權ί參數’透過—第—線性關係式計算得一第一 士 Heί 一第二線性關係式得一第二參數,根據下列關係 异該視窗大小: 28 1312981 該視窗大小=Άη-Α(Ν) + ΜΛΝ)·/ΛΝ) 其中,iV 你 Mr(N)+M2(N) ; 城#·夂數,/ΥλΡ表該最小視窗相似值差值,Μΐ(Λ/)代表該第一 參數,靡代賴㈣重參數, 22.^Ϊ求項Μ所述之電腦程式產品,其中該第一權重參數^⑼ ΜΧ{Ν)· Ν 0 ν<ν' ^1<Ν<Ν2 Ν>ν 為預2二,設,-第-最小視窗相似值差值常數, 馮預°又;弟一取小決定視窗差值常數。 23·如請求項21戶斤述之電腦程式產品,其中該第二權重參數从 係為. 〇 Μ2{Ν) Ν-Νλ
Ν<Ν' Nt<N<N2 Ν>Ν2 其中,Μ為預設之一第一最小視窗相似值差值常數, 為預設之一第二最小決定視窗差值常數。 2 24· ^請求項19所述之電腦程式產品,其中該些音框兩兩部分重 25· —種電腦可讀取記錄媒體,用以儲存—電腦程式產品,診 程式產品使一聲音偵測裝置執行—聲音偵測方法,該聲^占腦 方法包含下列步驟: 9彳貞剛 29 1312981 令一接收模組接收一聲音訊號; 令一分割模組將該聲音訊號分割成複數個音框; 令一相似值產生模組將每一個音框與一第一聲音模型及 一第二聲音模型做比較,以產生複數個第一相似值與複數個第 二相似值; 令一決定模組根據該些第一相似值與該些第二相似值,決 定一視窗大小; 令一累加模組根據該視窗大小,分別累加該視窗大小内之 第一相似值與第二相似值,以產生一第一總和及一第二總和; .以.及 令一判斷模組根據該第一總和及該第二總和,判斷該聲音 訊號是否反常。 26.如請求項25所述之電腦可讀取記錄媒體,其中該相似值產生 步驟更包含: 令一特徵擷取模組由每一音框中擷取之相對應之一特 徵;以及 令一比較模組將該特徵與該第一聲音模型及該一第二聲 音模型做相似度比較,以產生該些第一相似值與該些第二相似 值。 27·如請求項25所述之電腦可讀取記錄媒體,其中該決定步驟更 包含: —令一第一計算模組累加一預設最小視窗内之第一相似值 與第二相似值,將第一相似值之累加結果與第二相似值之累加 結果相減^以產生一最小視窗相似值差值;以及 令一第二計,模組根據該最小視窗相似值差值,透過一第 -,重關係式計算得-第—權重參數,透過一第二權重關係式 計异得一第二權重參數,透過一第一線性關係式計算得一第一 參數以及透過一第二線性關係式得一第二參數,根據下列關係 30 1312981 式計算該視窗大小: 5玄視囪大小=·ΜΝ) + Μ,(Ν) /?(Ν) Μ,(Ν)+Μ2(Ν) 掘舌Si 代表該最小視窗相似值差值,恥⑼代表該第一 電腦可讀取記錄媒體,其中該第一權重參
hzH n2~n' ο Μ\(Ν)= ν<ν' <^<a^2 ν>ν2 其中’Μ為預設之一第一最小視窗相似值差值常數,TV2 為預設之-第二最小決定視窗差值常數。 29·如請求項27所述之電腦可讀取記錄媒體,其中該第二權重參 數似2(·^)係為:
Μ2(Ν、= \ΙίζΙίι N2-N' Ν孓N、 Ν, ^Ν<Ν2 ν>ν2 其中’ Λ^ι為預設之一第一最小視窗相似值差值常數,私 為預設之一第二最小決定視窗差值常數。 30.如請求項25所述之電腦可讀取記錄媒體,其中該些音框兩兩 部分重疊。 31
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW095144391A TWI312981B (en) | 2006-11-30 | 2006-11-30 | Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically |
| US11/679,781 US20080133234A1 (en) | 2006-11-30 | 2007-02-27 | Voice detection apparatus, method, and computer readable medium for adjusting a window size dynamically |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW095144391A TWI312981B (en) | 2006-11-30 | 2006-11-30 | Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW200823865A TW200823865A (en) | 2008-06-01 |
| TWI312981B true TWI312981B (en) | 2009-08-01 |
Family
ID=39476894
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW095144391A TWI312981B (en) | 2006-11-30 | 2006-11-30 | Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20080133234A1 (zh) |
| TW (1) | TWI312981B (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8655655B2 (en) | 2010-12-03 | 2014-02-18 | Industrial Technology Research Institute | Sound event detecting module for a sound event recognition system and method thereof |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8160866B2 (en) * | 2008-04-18 | 2012-04-17 | Tze Fen Li | Speech recognition method for both english and chinese |
| US9406313B2 (en) * | 2014-03-21 | 2016-08-02 | Intel Corporation | Adaptive microphone sampling rate techniques |
| CN111415680B (zh) * | 2020-03-26 | 2023-05-23 | 心图熵动科技(苏州)有限责任公司 | 一种基于语音的焦虑预测模型的生成方法和焦虑预测系统 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5529803A (en) * | 1978-07-18 | 1980-03-03 | Nippon Electric Co | Continuous voice discriminating device |
| US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
| US5615299A (en) * | 1994-06-20 | 1997-03-25 | International Business Machines Corporation | Speech recognition using dynamic features |
| EP1393301B1 (en) * | 2001-05-11 | 2007-01-10 | Koninklijke Philips Electronics N.V. | Estimating signal power in compressed audio |
| US8229744B2 (en) * | 2003-08-26 | 2012-07-24 | Nuance Communications, Inc. | Class detection scheme and time mediated averaging of class dependent models |
| US7546240B2 (en) * | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
| US7599840B2 (en) * | 2005-07-15 | 2009-10-06 | Microsoft Corporation | Selectively using multiple entropy models in adaptive coding and decoding |
-
2006
- 2006-11-30 TW TW095144391A patent/TWI312981B/zh not_active IP Right Cessation
-
2007
- 2007-02-27 US US11/679,781 patent/US20080133234A1/en not_active Abandoned
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8655655B2 (en) | 2010-12-03 | 2014-02-18 | Industrial Technology Research Institute | Sound event detecting module for a sound event recognition system and method thereof |
Also Published As
| Publication number | Publication date |
|---|---|
| US20080133234A1 (en) | 2008-06-05 |
| TW200823865A (en) | 2008-06-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8867891B2 (en) | Video concept classification using audio-visual grouplets | |
| Amiriparian et al. | Bag-of-deep-features: Noise-robust deep feature representations for audio analysis | |
| US20130089304A1 (en) | Video concept classification using video similarity scores | |
| Meng et al. | Improving music genre classification by short time feature integration | |
| US20120035927A1 (en) | Information Processing Apparatus, Information Processing Method, and Program | |
| WO2011001002A1 (en) | A method, devices and a service for searching | |
| US10013982B2 (en) | Conversation processing apparatus and conversation processing method | |
| US9557957B2 (en) | System and method for developing a model indicative of a subject's emotional state when listening to musical pieces | |
| Jia et al. | SoundLoc: Accurate room-level indoor localization using acoustic signatures | |
| Abbaszadeh et al. | An intelligent procedure for watermelon ripeness detection based on vibration signals | |
| CN108520758B (zh) | 一种视听觉跨模态物体材质检索方法及系统 | |
| McAdams et al. | The psychomechanics of simulated sound sources: Material properties of impacted thin plates | |
| CN115114473B (zh) | 一种音乐推送方法、装置、电子设备及可读存储介质 | |
| CN105718566A (zh) | 一种智能音乐推荐系统 | |
| JP2018206341A (ja) | 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム | |
| Rogers et al. | Using statistical image models for objective evaluation of spot detection in two‐dimensional gels | |
| CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
| CN113408908A (zh) | 一种基于履约能力和行为的多维信用评价模型构建方法 | |
| TWI312981B (en) | Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically | |
| AU2008362901B2 (en) | Method and apparatus for default rating estimation | |
| Lee | A two-stage approach using Gaussian mixture models and higher-order statistics for a classification of normal and pathological voices | |
| KR101743169B1 (ko) | 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체 | |
| Chaudhari et al. | Information fusion and decision cascading for audio-visual speaker recognition based on time-varying stream reliability prediction | |
| JP2018206292A (ja) | 要約映像生成装置及びプログラム | |
| CN115588151A (zh) | 直播场景的商品检测方法和装置、介质和计算机设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |