TWI412019B - 聲音事件偵測模組及其方法 - Google Patents
聲音事件偵測模組及其方法 Download PDFInfo
- Publication number
- TWI412019B TWI412019B TW099142202A TW99142202A TWI412019B TW I412019 B TWI412019 B TW I412019B TW 099142202 A TW099142202 A TW 099142202A TW 99142202 A TW99142202 A TW 99142202A TW I412019 B TWI412019 B TW I412019B
- Authority
- TW
- Taiwan
- Prior art keywords
- sound
- event
- characteristic
- segments
- repeating
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
本發明是有關於一種偵測模組及其方法,且特別是有關於一種聲音事件偵測模組及其方法。
目前的聲音偵測技術多應用於語音辨識上,於使用時,通常必須使用到某些訓練語料,才能完成聲音的辨識。然而,於實際應用時,由於不可能將所有可能的使用者的聲音均納入訓練語料中,因此,若使用者的聲音並未被納入訓練語料的話,則辨識的成功率將會顯著地降低。
於傳統的語音辨識系統中,其辨識步驟如下。首先,需收集訓練語料,並建立參數模型。然後,再針對所要辨識之聲音段,與參數模型進行比對,以得到一比對分數。之後,再根據比對分數產生辨識結果。在上述步驟中,可發現語音辨識率受訓練語料的影響相當大,不同語者所訓練出來之參數模型差異可能極大,而影響到辨識率。因此,如何讓聲音偵測技術受到訓練語料的影響減少,以適用於某些應用領域,乃業界所致力的課題之一。
本發明係有關於一種聲音事件偵測模組及其方法,可偵測出是否有具重複特性之聲音產生。
根據本發明之一方面,提出一種聲音事件偵測模組,用以偵測是否有具重複特性之一聲音事件產生,包括一聲音端點偵測單元、一儲存單元、一相似度比對單元及一關聯性仲裁單元。聲音端點偵測單元用以根據一聲音訊號,進行聲音端點偵測,以產生對應之多個聲音段及此些聲音段之多組特徵參數。儲存單元用以記錄此些組特徵參數中之至少M組特徵參數,M為正整數。相似度比對單元用以比對至少M組特徵參數,並產生對應之一相似度分數矩陣,相似度分數矩陣係記錄該複數個聲音段中之兩兩個聲音段之相似度分數。而關聯性仲裁單元則是用以根據相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數,當個數大於一門檻值時,則指示有具有重複特性之聲音事件產生。
根據本發明之另一方面,提出聲音事件偵測方法,用以偵測是否有具重複特性之聲音產生,此方法包括下列步驟。根據一聲音訊號,進行聲音端點偵測,以產生對應之多個聲音段及此些聲音段之多組特徵參數。記錄此些組特徵參數中之至少M組特徵參數,M為正整數。比對此至少M組特徵參數,並產生對應之一相似度分數矩陣,此相似度分數矩陣係記錄該複數個聲音段中之兩兩個聲音段之相似度分數。根據此相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數,當此個數大於一門檻值時,則指示有具有重複特性之一聲音事件產生。
為讓本發明之上述內容能更明顯易懂,下文特舉一較佳實施例,並配合所附圖式,作詳細說明如下:
請參照第1圖,其繪示本發明一第一實施例之聲音事件偵測模組之示意圖。聲音事件偵測模組100用以偵測是否有具重複特性之聲音事件產生。聲音事件偵測模組100包括一聲音端點偵測單元102、一儲存單元104、一相似度比對單元106、及一關聯性仲裁單元108。聲音端點偵測單元102用以根據一聲音訊號I1,進行聲音端點偵測,以產生對應之多個聲音段及此些聲音段之多組特徵參數。儲存單元104用以記錄此些組特徵參數中之至少M組特徵參數,M為正整數。相似度比對單元106用以比對此至少M組特徵參數,並產生對應之一相似度分數矩陣。相似度分數矩陣係記錄此至少M個聲音段中之兩兩個聲音段之相似度分數。而關聯性仲裁單元108則是用以根據相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數。當上述之個數大於一門檻值時,則指示有具有重複特性之一聲音事件E1產生。
上述之多個聲音段例如為連續之聲音段。上述之至少M組特徵參數例如係為最近發生之至少M個聲音段之特徵參數。而儲存單元104則例如由一環暫存器(Ring Buffer)、一先進先出暫存器(FIFO Queue buffer)或一乒乓暫存器(PingPong Buffer)等來實現。
聲音端點偵測單元102所產生之多組特徵參數例如包括梅爾倒頻譜參數(Mel-scale Frequency Cepstral Coefficients,MFCC)。然本實施係不限於此,本實施例亦可使用其他類型之特徵參數,且每組特徵參數除了具有MFCC之外,亦可更包含有其他類型的特徵參數。
相似度比對單元106可使用聲音事件樣板、聲音事件統計模型、聲音事件機率模型、隱藏式馬可夫模型(Hidden Markov Model)、類神經網路(Neutral Network)等之至少其中之一來進行比對。上述之聲音事件樣板比對法例如為動態時域比對法(Dynamic Time Warping,DTW)。DTW可於比對時,同時考慮到聲音事件產生時之有快與慢的差異,而做適當的補償。聲音事件統計模型或聲音事件機率模型則例如為高斯混合模型(Guassion Mixture Model)。然本實施例並不限於此,其更可使用其他類型的比對法來進行比對。
請參照第2圖,其繪示乃第1圖之關聯性仲裁單元108所執行之關聯性仲裁操作之流程圖之一例。首先,如步驟202所示,讀取相似度矩陣。接著,如步驟204所示,將相似度矩陣轉換成關聯度矩陣。之後,如步驟206所示,計算高關聯性聲音段的個數N。然後,如步驟208所示,判斷N值是否大於所設定之門檻值。若是,則進入步驟210,關聯性仲裁單元108指示有具有重複特性之聲音事件E1產生。關聯性仲裁單元108例如是以輸出一指示訊號的方式來指示有具有重複特性之聲音事件E1產生,或者關聯性仲裁單元108直接以輸出此具有重複特性之聲音事件E1的方式來指示有具有重複特性之聲音事件E1產生。
請參照第3圖,其繪示第1圖之聲音事件偵測模組100操作時之一例之部份示意圖。假設聲音端點偵測單元102對聲音訊號I1進行聲音端點偵測,並產生對應之5個聲音段302(1)~302(5)。假設聲音段302(1)、302(2)、302(4)為重複音訊或為類似音訊。聲音端點偵測單元102並產生對應至聲音段302(1)~302(5)之5組特徵參數304(1)~304(5),並儲存於以環暫存器、先進先出暫存器,或乒乓暫存器等來實現之儲存單元104的五個儲存器306(1)~306(5)中。
請參照第4圖,其繪示乃第1圖之相似度比對單元106所產生之相似度分數矩陣之一例,以及關聯性仲裁單元108所產生之多個矩陣之一例。假設相似度比對單元106係使用DTW,根據特徵參數304(1)~304(5)產生了多個DTW距離。於相似度分數矩陣402中,第1列之數字1~~5係分別代表聲音段302(1)~302(5),第1行之數字1~5亦分別代表聲音段302(1)~302(5)。相似度分數矩陣402之第i+1列與第j+1行之欄位Mx[i,j]的內容代表聲音段302(i)與聲音段302(j)之DTW距離。DTW距離越小者,代表越相似。關聯性仲裁單元108將相似度矩陣402轉換後例如得到關聯度矩陣404。DTW距離小於門檻值TH1(假設為80)者,關聯度矩陣404中對應的內容值將設為1,否則設為0。亦即,當Mx[i,j]≦TH1時,則設定關聯度矩陣404對應之欄位S[i,j]為1,否則設為0。之後,關聯性仲裁單元108將關聯度矩陣404鏡射之後,與關聯度矩陣404相加以產生調整後的關聯度矩陣406。於調整後的關聯度矩陣406中,S[i,j]與S[j,i]相等。而當i=j時,則為相同聲音段而不予比較。
關聯性仲裁單元108接著計算調整後的關聯度矩陣406中,各列之總和(亦即等於每一列中為1的個數),以產生矩陣408。於本例之矩陣408中,聲音段302(5)所對應的內容值為最大(等於3),其代表著與聲音段302(5)具有高關連性的聲音段共有3個。因此,將此內容值加1之後,即可得到所有聲音段中高關連性的聲音段之個數N,亦即N等於4。
之後,關聯性仲裁單元108判斷N值是否大於所設定之門檻值,假設門檻值為TH2(等於2)。由於N值大於門檻值TH2,因此,關聯性仲裁單元108將會判斷出有具有重複特性之聲音事件E1產生。
請參照第5圖,其繪示乃第1圖之相似度比對單元106所產生之相似度分數矩陣之另一例,以及關聯性仲裁單元108所產生之多個矩陣之另一例。於此例中,相似度分數矩陣502、關聯度矩陣504、與調整後之關聯度矩陣506的產生方式係分別與第4圖之相似度分數矩陣402、關聯度矩陣404、與調整後之關聯度矩陣406產生之方式相同,於此不予贅述。關聯性仲裁單元108將產生再次調整後之關聯度矩陣508,將兩個間接關連之聲音段i與j(亦即滿足S[i,k]=1且S[k,j]=1之i與j),其再次調整後之關聯度矩陣508之欄位S’[i,j]亦設為1。例如S’[1,2]係設為1。接著計算高關聯性聲音段個數。其計算方式為,先加總再次調整後之關聯度矩陣508所有欄位之內容值,並將此總和Sum除以聲音段個數M減1(亦即為Sum/(M-1)),最後取其值加1,則為高關聯性聲音段之個數。於此例中,關聯度矩陣508所有欄位之內容值的總和為12,M-1=5-1=4,12除以4加1得到4。亦可得到所有聲音段中高關連性的聲音段之個數N等於4。
本實施例更提出一種聲音事件偵測方法,用以偵測是否有具重複特性之聲音產生。請參照第6圖,其繪示乃第一實施例之聲音事件偵測方法之流程圖。首先,執行步驟602,根據一聲音訊號,進行聲音端點偵測,以產生對應之多個聲音段及此些聲音段之多組特徵參數。接著,執行步驟604,記錄此些組特徵參數中之至少M組特徵參數,M為正整數。之後,執行步驟606,比對此至少M組特徵參數,並產生對應之一相似度分數矩陣,相似度分數矩陣係記錄此至少M個聲音段中之兩兩個聲音段之相似度分數。然後,執行步驟608,根據相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數。當此個數大於門檻值時,則指示有具有重複特性之聲音事件產生。
本實施透過連續多個聲音段可能由相同語者發聲,聲音特徵相似之特性,來偵測是否有具重複特性之聲音產生。當連續多個聲音段,有一定比例之聲音段相似度很高時,可判定出有具重複特性之聲音事件產生。本實施例原則上可以在沒有統計模型或訓練語料的情況下,完成聲音之偵測,以減少傳統作法中訓練語料所造成之辨識率降低的影響。本實施例透過相同的使用者本身之聲音具有相同特性之特點,來進行聲音事件偵測,可以有效地提升辨識率。本實施例除了具有高辨識率之優點之外,更由於不需複雜之設計即可達成,故更具有低成本與低複雜度之優點。
本實施例適用於重複之類似聲音事件會發生的場合。舉例來說,本實施例可應用於居家輔助照護。當居家受照護者有發出咳嗽聲、氣喘聲與求救聲等可能會重複發出的聲音時,本實施例即可偵測到有應注意之重複聲音產生,而通知照護中心的照護人員。如此,照護人員即可迅速得知受照護者的狀況,而可迅速進行相關處理。如此,照護人員可以不需長時間的陪伴在受照護者的身邊,可以減低照護人員的負擔並降低照護成本。
當本實施例應用於居家輔助照護時,上述之具有重複特性之聲音事件可為求救聲、哀嚎聲、呻吟聲、咳嗽聲、或氣喘聲。然本實施例並不限於此,只要具有重複特性之聲音事件,而可作為居家照護之輔助者,皆可作為本實施例所要偵測之具有重複特性之聲音事件。
此外,本實施例亦不限於應用在居家輔助照護,只要具有重複特性之聲音事件對於此應用有助益者,本實施例亦可使用於此應用中。
請參照第7圖,其繪示本發明一第二實施例之聲音事件偵測模組之示意圖。聲音事件偵測模組700包括一聲音端點偵測單元702、一儲存單元704、一相似度比對單元706、一關聯性仲裁單元708及一非目標音過濾單元710。聲音端點偵測單元702用以根據一聲音訊號I2,進行聲音端點偵測,以產生對應之多個聲音段及此些聲音段之多組特徵參數。儲存單元704用以記錄此些組特徵參數中之至少M組特徵參數。相似度比對單元706用以比對此至少M組特徵參數,並產生對應之一相似度分數矩陣。相似度分數矩陣係記錄此至少M個聲音段中之兩兩個聲音段之相似度分數。而關聯性仲裁單元708則是用以根據相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數。當上述之個數大於一門檻值,則指示有具有重複特性之一聲音事件E2產生。
非目標音過濾單元710係根據此些組特徵參數,來判斷是否要忽略具有重複特性之聲音事件E2。若非目標音過濾單元710判斷出不需要忽略此具有重複特性之聲音事件E2,則非目標音過濾單元710輸出此具有重複特性之聲音事件E2,否則,非目標音過濾單元710不輸出此具有重複特性之聲音事件E2。
若將本實施例應用於居家輔助照護時,居家環境中有可能會有一些具有重複特性之非所要偵測的非目標音事件,例如電話鈴聲、背景聲音、或環境噪音等。本實施例將藉由使用非目標音過濾單元710,來判斷關聯性仲裁單元708所產生之具有重複特性之聲音事件E2是否為非所要偵測的非目標音事件(如電話鈴聲、背景聲音、或環境噪音等),以更進一步地提高聲音事件偵測模組700之辨識率。
茲舉一例說明如下。請參照第8圖,其繪示多種聲音事件及其各種聲音特徵之實測統計數據之一例。於第8圖之表格中,係以哀嚎聲、呻吟聲、求救聲、電話鈴聲為例,並列出其對應之持續之時間長度(Duration)、高低頻能量比、與高能帶個數(High Energy Band Count)。於實際應用中,可以針對所要濾除之不同的非目標音事件,參考第8圖之表格之內容,來區分非目標音事件與目標聲音事件,以設計對應之濾除判斷條件。
舉例來說,就持續時間長度而言,根據實驗結果可得以知哀號聲、呻吟聲、求救聲之大約的持續時間長度的範圍。因此可以判別出,凡在此範圍之外之聲音,皆為非目標音事件。此方法適用於濾除短促或持續時間較長之背景重複聲音事件。
就高低頻能量比(例如是頻率小於1000赫玆(Hz)之能量與大於1000赫玆之能量比)而言,根據實驗結果可以得知哀號聲、呻吟聲、求救聲之高低頻能量比的範圍。因此可以判別出,凡在此範圍外之聲音,皆為非目標音。此方法適用於濾除能量特別集中於低頻或高頻之背景重複聲音事件。
就高能帶個數(例如是將聲音訊號之頻率域的頻帶依能量大小排序,相加之和超過總能量70%之頻帶個數)而言,根據實驗結果可以得知哀號聲、呻吟聲、求救聲之高能帶個數的範圍,亦即可以得知其能量集中的程度。因此可以判斷出,凡在此範圍之外之聲音,皆為非目標音。此方法適用於能量特別集中於某些能帶的背景重複聲音事件,例如電話鈴聲。
為達上述之濾除非目標音之功能,聲音端點偵測單元702所產生之多組特徵參數更可包含其他參數,例如是聲音段長度、過零率、特定頻率範圍之能量、及主要能量之頻率範圍。舉例來說,聲音端點偵測單元702所產生之多組特徵參數除了包括上述之MFCC,還可包括聲音段長度、過零率、特定頻率範圍之能量、及主要能量之頻率範圍這些參數,以利非目標音過濾單元710取得上述之聲音事件之持續之時間長度、高低頻能量比、與高能帶個數等。然本實施例亦不限於此,所須之特徵參數可依照實際應用之情況來決定。
請參照第9圖,其繪示本發明一第三實施例之聲音事件偵測模組之示意圖。聲音事件偵測模組900包括一聲音端點偵測單元902、一儲存單元904、一相似度比對單元906、一關聯性仲裁單元908及一事件分類單元910。聲音端點偵測單元902用以根據一聲音訊號I3,進行聲音端點偵測,以產生對應之多個聲音段及此些聲音段之多組特徵參數。儲存單元904用以記錄此些組特徵參數中之至少M組特徵參數。相似度比對單元906用以比對此至少M組特徵參數,並產生對應之一相似度分數矩陣。相似度分數矩陣係記錄此至少M個聲音段中之兩兩個聲音段之相似度分數。而關聯性仲裁單元908則是用以根據相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數。當上述之個數大於一門檻值,則指示有具有重複特性之一聲音事件E3產生。事件分類單元910係根據具有重複特性之聲音事件E3所對應之此些組特徵參數,以將具有重複特性之聲音事件E3進行分類。
舉例來說,若將本實施例應用於居家輔助照護時,當偵測出有具有重複特性之聲音事件E3產生時,事件分類單元910將具有重複特性之聲音事件E3分類之後,將可輸出指示聲音事件E3之類別的類別指示訊號C3。例如,類別指示訊號C3將指示出聲音事件E3係為求救聲、哀嚎聲、呻吟聲、咳嗽聲、或氣喘聲。
為達上述之分類的功能,上述之各此些組特徵參數可包括梅爾倒頻譜係數、倒頻譜、線性預估係數、線性頻譜對、特定頻率範圍之能量、主要能量之頻率範圍、高低頻能量比、聲音段長度、過零率、及聲音能量等之至少其中之一,以讓事件分類單元910根據具有重複特性之聲音事件E3之特性來進行分類。
茲舉一例說明如下。請參照第10圖,其繪示二種聲音事件及其聲音特徵之實驗數據之一例。根據此實驗數據。由第10圖可以看出,哀嚎聲與呻吟聲於不同頻率範圍內的能量強度係為不同,因此可以根據此特性來進行分類,以判斷出聲音事件E3係屬於哪一種類別的聲音事件,以進行分類。
請參照第11圖,其繪示本發明一第四實施例之聲音事件偵測模組之示意圖。聲音事件偵測模組1100包括一聲音端點偵測單元1102、一儲存單元1104、一相似度比對單元1106、一關聯性仲裁單元1108及一事件通報單元1110。聲音端點偵測單元1102用以根據一聲音訊號I4,進行聲音端點偵測,以產生對應之多個聲音段及此些聲音段之多組特徵參數。儲存單元1104用以記錄此些組特徵參數中之至少M組特徵參數。相似度比對單元1106用以比對此至少M組特徵參數,並產生對應之一相似度分數矩陣。相似度分數矩陣係記錄此至少M個聲音段中之兩兩個聲音段之相似度分數。而關聯性仲裁單元1108則是用以根據相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數。當上述之個數大於一門檻值,則指示有具有重複特性之一聲音事件E4產生。而當有具有重複特性之聲音事件E4產生時,事件通報單元1110執行通報功能、警示功能、及提醒功能等之至少其中之一。事件通報單元1110例如輸出通報訊號C4,以告知有重複特性之聲音事件E4產生。
當本實施例應用於居家輔助照護時,事件通報單元1110可以於偵測到有應注意之重複聲音產生時,通知照護中心的照護人員,而讓照護人員得以迅速地得知受照護者的狀況,而可迅速進行相關處理。
以上之揭露亦可應用於其他可能有重複聲音產生之環境,例如機械固障聲音之偵測等。
綜上所述,雖然本發明已以一較佳實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100、700、900、1100...聲音事件偵測模組
102、702、902、1102...聲音端點偵測單元
104、704、904、1104...儲存單元
106、706、906、1106...相似度比對單元
108、708、908、1108...關聯性仲裁單元
202~210、602~608...流程步驟
302(1)~302(5)...聲音段
304(1)~304(5)...特徵參數
306(1)~306(5)...儲存器
402、502...相似度分數矩陣
404、504...關聯度矩陣
406、506...調整後的關聯度矩陣
408...矩陣
508...再次調整後之關聯度矩陣
710...非目標音過濾單元
910...事件分類單元
1110...事件通報單元
第1圖繪示本發明一第一實施例之聲音事件偵測模組之示意圖。
第2圖繪示乃第1圖之關聯性仲裁單元所執行之關聯性仲裁操作之流程圖之一例。
第3圖繪示第1圖之聲音事件偵測模組操作時之一例之部份示意圖。
第4圖繪示乃第1圖之相似度比對單元所產生之相似度分數矩陣之一例,以及關聯性仲裁單元所產生之多個矩陣之一例。
第5圖繪示乃第1圖之相似度比對單元所產生之相似度分數矩陣之另一例,以及關聯性仲裁單元所產生之多個矩陣之另一例。
第6圖繪示乃第一實施例之聲音事件偵測方法之流程圖。
第7圖繪示本發明一第二實施例之聲音事件偵測模組之示意圖。
第8圖繪示多種聲音事件及其各種聲音特徵之實測統計數據之一例。
第9圖繪示本發明一第三實施例之聲音事件偵測模組之示意圖。
第10圖繪示二種聲音事件及其聲音特徵之實驗數據之一例。
第11圖繪示本發明一第四實施例之聲音事件偵測模組之示意圖。
100...聲音事件偵測模組
102...聲音端點偵測單元
104...儲存單元
106...相似度比對單元
108...關聯性仲裁單元
Claims (16)
- 一種聲音事件偵測模組,用以偵測是否有具重複特性之一聲音事件產生,包括:一聲音端點偵測單元,用以根據一聲音訊號,進行聲音端點偵測,以產生對應之複數個聲音段及該些聲音段之複數組特徵參數;一儲存單元,用以記錄該些組特徵參數中之至少M組特徵參數,M為正整數;一相似度比對單元,用以比對該至少M組特徵參數,並產生對應之一相似度分數矩陣,該相似度分數矩陣係記錄該複數個聲音段中之兩兩個聲音段之相似度分數;以及一關聯性仲裁單元,用以根據該相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數,當該個數大於一門檻值時,則指示有具有重複特性之該聲音事件產生。
- 如申請專利範圍第1項所述之聲音事件偵測模組,其中該具有重複特性之該聲音事件包括求救聲、哀嚎聲、呻吟聲、咳嗽聲及氣喘聲之至少其中之一。
- 如申請專利範圍第1項所述之聲音事件偵測模組,其中該相似度比對單元係使用聲音事件樣板、聲音事件統計模型、聲音事件機率模型、隱藏式馬可夫模型(Hidden Markov Model)、類神經網路(Neutral Network)之至少其中之一來進行比對。
- 如申請專利範圍第1項所述之聲音事件偵測模組,更包括一非目標音過濾單元,該非目標音過濾單元係根據該些組特徵參數,來判斷是否要忽略具有重複特性之該聲音事件,各該些組特徵參數係包括聲音段長度、過零率、特定頻率範圍之能量、及主要能量之頻率範圍之至少其中之一。
- 如申請專利範圍第1項所述之聲音事件偵測模組,更包括一事件分類單元,該事件分類單元係根據該具有重複特性之該聲音事件所對應之該些組特徵參數,以將該具有重複特性之該聲音事件進行分類,各該些組特徵參數係包括梅爾倒頻譜係數、倒頻譜、線性預估係數、線性頻譜對、特定頻率範圍之能量、主要能量之頻率範圍、高低頻能量比、聲音段長度、過零率、及聲音能量之至少其中之一。
- 如申請專利範圍第1項所述之聲音事件偵測模組,更包括一事件通報單元,當有具有重複特性之該聲音事件產生時,該事件通報單元執行通報功能、警示功能、及提醒功能之至少其中之一。
- 如申請專利範圍第1項所述之聲音事件偵測模組,其中該些聲音段係為連續之聲音段,該至少M組特徵參數係為最近發生之至少M個聲音段之特徵參數,該關聯性仲裁單元更用以輸出具有重複特性之該聲音事件。
- 如申請專利範圍第1項所述之聲音事件偵測模組,其中該儲存單元係由一環暫存器、一先進先出暫存器或一乒乓暫存器來實現。
- 一種聲音事件偵測方法,用以偵測是否有具重複特性之聲音產生,包括:根據一聲音訊號,進行聲音端點偵測,以產生對應之複數個聲音段及該些聲音段之複數組特徵參數;記錄該些組特徵參數中之至少M組特徵參數,M為正整數;比對該至少M組特徵參數,並產生對應之一相似度分數矩陣,該相似度分數矩陣係記錄該複數個聲音段中之兩兩個聲音段之相似度分數;以及根據該相似度分數矩陣進行仲裁,以判斷具有高關連性之聲音段的個數,當該個數大於一門檻值時,則指示有具有重複特性之一聲音事件產生。
- 如申請專利範圍第9項所述之方法,其中該具有重複特性之該聲音事件包括求救聲、哀嚎聲、呻吟聲、咳嗽聲及氣喘聲之至少其中之一。
- 如申請專利範圍第9項所述之方法,其中該相似度比對單元係使用聲音事件樣板、聲音事件統計模型、聲音事件機率模型、隱藏式馬可夫模型(Hidden Markov Model)、類神經網路(Neutral Network)之至少其中之一來進行比對。
- 如申請專利範圍第9項所述之方法,更包括:根據該些組特徵參數,判斷是否要忽略具有重複特性之該聲音事件,各該些組特徵參數係包括聲音段長度、過零率、特定頻率範圍之能量、及主要能量之頻率範圍之至少其中之一。
- 如申請專利範圍第9項所述之方法,更包括:根據該具有重複特性之該聲音事件所對應之該些組特徵參數,以將該具有重複特性之該聲音事件進行分類,各該些組特徵參數係包括梅爾倒頻譜係數、倒頻譜、線性預估係數、線性頻譜對、特定頻率範圍之能量、主要能量之頻率範圍、高低頻能量比、聲音段長度、過零率、及聲音能量之至少其中之一。
- 如申請專利範圍第9項所述之方法,更包括:當有具有重複特性之該聲音事件產生時,執行通報功能、警示功能、及提醒功能之至少其中之一。
- 如申請專利範圍第9項所述之方法,其中該些聲音段係為連續之聲音段,該至少M組特徵參數係為最近發生之至少M個聲音段之特徵參數,該方法更包括:輸出具有重複特性之該聲音事件。
- 如申請專利範圍第9項所述之方法,其中該至少M組特徵參數係記錄於一環暫存器、一先進先出暫存器或一乒乓暫存器中。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW099142202A TWI412019B (zh) | 2010-12-03 | 2010-12-03 | 聲音事件偵測模組及其方法 |
| US12/981,660 US8655655B2 (en) | 2010-12-03 | 2010-12-30 | Sound event detecting module for a sound event recognition system and method thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW099142202A TWI412019B (zh) | 2010-12-03 | 2010-12-03 | 聲音事件偵測模組及其方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201225065A TW201225065A (en) | 2012-06-16 |
| TWI412019B true TWI412019B (zh) | 2013-10-11 |
Family
ID=46163073
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW099142202A TWI412019B (zh) | 2010-12-03 | 2010-12-03 | 聲音事件偵測模組及其方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US8655655B2 (zh) |
| TW (1) | TWI412019B (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9691389B2 (en) | 2014-03-18 | 2017-06-27 | Industrial Technology Research Institute | Spoken word generation method and system for speech recognition and computer readable medium thereof |
Families Citing this family (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103278810B (zh) * | 2013-05-10 | 2015-03-25 | 南京航空航天大学 | 基于空间相似度的水下目标尺度特性提取方法 |
| US10198697B2 (en) | 2014-02-06 | 2019-02-05 | Otosense Inc. | Employing user input to facilitate inferential sound recognition based on patterns of sound primitives |
| US9466316B2 (en) | 2014-02-06 | 2016-10-11 | Otosense Inc. | Device, method and system for instant real time neuro-compatible imaging of a signal |
| US9749762B2 (en) | 2014-02-06 | 2017-08-29 | OtoSense, Inc. | Facilitating inferential sound recognition based on patterns of sound primitives |
| CN104916288B (zh) * | 2014-03-14 | 2019-01-18 | 深圳Tcl新技术有限公司 | 一种音频中人声突出处理的方法及装置 |
| US9384758B2 (en) * | 2014-06-29 | 2016-07-05 | Google Inc. | Derivation of probabilistic score for audio sequence alignment |
| CN104202352B (zh) * | 2014-07-08 | 2017-04-26 | 四川大学 | 基于隐马尔可夫的远程医疗平台上带宽的高可靠实时调度 |
| TWI617135B (zh) * | 2014-12-18 | 2018-03-01 | 緯創資通股份有限公司 | 聲音輸出裝置及其控制方法 |
| TWI559300B (zh) * | 2015-01-21 | 2016-11-21 | 宇智網通股份有限公司 | 基於時域運算之聲音事件偵測方法及相關裝置 |
| US9965685B2 (en) * | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
| US10068445B2 (en) | 2015-06-24 | 2018-09-04 | Google Llc | Systems and methods of home-specific sound event detection |
| CN105679310A (zh) * | 2015-11-17 | 2016-06-15 | 乐视致新电子科技(天津)有限公司 | 一种用于语音识别方法及系统 |
| US9899034B2 (en) | 2015-12-22 | 2018-02-20 | Intel IP Corporation | Technologies for robust crying detection using temporal characteristics of acoustic features |
| CN108172213B (zh) * | 2017-12-26 | 2022-09-30 | 北京百度网讯科技有限公司 | 娇喘音频识别方法、装置、设备及计算机可读介质 |
| JP7013093B2 (ja) * | 2018-05-01 | 2022-01-31 | アルパイン株式会社 | 故障検出装置、移動体搭載装置、故障検出方法 |
| US10643637B2 (en) * | 2018-07-06 | 2020-05-05 | Harman International Industries, Inc. | Retroactive sound identification system |
| CN110751942B (zh) * | 2018-07-20 | 2024-10-18 | 京东科技控股股份有限公司 | 一种识别特征声音的方法和装置 |
| GB2577570A (en) | 2018-09-28 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Sound event detection |
| US10629226B1 (en) * | 2018-10-29 | 2020-04-21 | Bestechnic (Shanghai) Co., Ltd. | Acoustic signal processing with voice activity detector having processor in an idle state |
| US11055575B2 (en) | 2018-11-13 | 2021-07-06 | CurieAI, Inc. | Intelligent health monitoring |
| US11087738B2 (en) * | 2019-06-11 | 2021-08-10 | Lucasfilm Entertainment Company Ltd. LLC | System and method for music and effects sound mix creation in audio soundtrack versioning |
| TWI728632B (zh) * | 2019-12-31 | 2021-05-21 | 財團法人工業技術研究院 | 特定音源的定位方法 |
| CN111624586B (zh) * | 2020-05-27 | 2022-09-23 | 苏州大学 | 基于特征提取和神经网络的水声目标测距方法 |
| CN111816170B (zh) * | 2020-07-29 | 2024-01-19 | 杭州网易智企科技有限公司 | 一种音频分类模型的训练和垃圾音频识别方法和装置 |
| CN114742378B (zh) * | 2022-03-25 | 2025-02-11 | 中国环境科学研究院 | 一种基于鸟类完整性评价湿地生态状况的方法 |
| CN115641856B (zh) * | 2022-12-14 | 2023-03-28 | 北京远鉴信息技术有限公司 | 一种语音的重复音频检测方法、装置及存储介质 |
| CN117409816B (zh) * | 2023-12-14 | 2024-03-26 | 湖南华夏特变股份有限公司 | 一种基于声音信号的设备故障检测方法及系统 |
| CN118968968A (zh) * | 2024-08-21 | 2024-11-15 | 广州汽车集团股份有限公司 | 一种声音识别方法、装置及计算机程序产品 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5774847A (en) * | 1995-04-28 | 1998-06-30 | Northern Telecom Limited | Methods and apparatus for distinguishing stationary signals from non-stationary signals |
| US6314392B1 (en) * | 1996-09-20 | 2001-11-06 | Digital Equipment Corporation | Method and apparatus for clustering-based signal segmentation |
| US20030018479A1 (en) * | 2001-07-19 | 2003-01-23 | Samsung Electronics Co., Ltd. | Electronic appliance capable of preventing malfunction in speech recognition and improving the speech recognition rate |
| US6631349B1 (en) * | 1997-11-27 | 2003-10-07 | Hitachi, Ltd. | Speech recognition method and system |
| US20040130449A1 (en) * | 2003-01-03 | 2004-07-08 | Hung Hung Wen | Electronic baby-soothing device with wireless remote monitor |
| WO2007059498A2 (en) * | 2005-11-14 | 2007-05-24 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified broadcast audio or video signals |
Family Cites Families (46)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4166980A (en) | 1977-08-25 | 1979-09-04 | Sanders Associates, Inc. | Method and apparatus for signal recognition |
| US4450436A (en) | 1979-09-07 | 1984-05-22 | The Stoneleigh Trust | Acoustic alarm repeater system |
| JP2989211B2 (ja) | 1990-03-26 | 1999-12-13 | 株式会社リコー | 音声認識装置における辞書制御方式 |
| TW323364B (zh) | 1993-11-24 | 1997-12-21 | At & T Corp | |
| JP3627299B2 (ja) | 1995-07-19 | 2005-03-09 | ソニー株式会社 | 音声認識方法及び装置 |
| US6144658A (en) | 1996-12-20 | 2000-11-07 | Cisco Technology, Inc. | Repetitive pattern removal in a voice channel of a communication network |
| JP3578587B2 (ja) | 1997-03-28 | 2004-10-20 | 株式会社リコー | 音声認識装置および音声認識方法 |
| US6826350B1 (en) * | 1998-06-01 | 2004-11-30 | Nippon Telegraph And Telephone Corporation | High-speed signal search method device and recording medium for the same |
| DE19859174C1 (de) | 1998-12-21 | 2000-05-04 | Max Planck Gesellschaft | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale |
| JP2000267690A (ja) | 1999-03-19 | 2000-09-29 | Toshiba Corp | 音声検知装置及び音声制御システム |
| US6490558B1 (en) | 1999-07-28 | 2002-12-03 | Custom Speech Usa, Inc. | System and method for improving the accuracy of a speech recognition program through repetitive training |
| US6704709B1 (en) | 1999-07-28 | 2004-03-09 | Custom Speech Usa, Inc. | System and method for improving the accuracy of a speech recognition program |
| US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
| US6829582B1 (en) * | 2000-10-10 | 2004-12-07 | International Business Machines Corporation | Controlled access to audio signals based on objectionable audio content detected via sound recognition |
| DE60120771T2 (de) * | 2001-01-16 | 2007-05-31 | Koninklijke Philips Electronics N.V. | Verknüpfen von signalkomponenten bei der parametrischen codierung |
| JP2002215187A (ja) | 2001-01-23 | 2002-07-31 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置 |
| TW517221B (en) | 2001-08-24 | 2003-01-11 | Ind Tech Res Inst | Voice recognition system |
| US6941265B2 (en) | 2001-12-14 | 2005-09-06 | Qualcomm Inc | Voice recognition system method and apparatus |
| US6957183B2 (en) | 2002-03-20 | 2005-10-18 | Qualcomm Inc. | Method for robust voice recognition by analyzing redundant features of source signal |
| US6943898B2 (en) | 2002-05-07 | 2005-09-13 | Applied Materials Israel, Ltd. | Apparatus and method for dual spot inspection of repetitive patterns |
| US7284004B2 (en) * | 2002-10-15 | 2007-10-16 | Fuji Xerox Co., Ltd. | Summarization of digital files |
| TWI245259B (en) | 2002-12-20 | 2005-12-11 | Ibm | Sensor based speech recognizer selection, adaptation and combination |
| TWI225638B (en) | 2003-09-26 | 2004-12-21 | Delta Electronics Inc | Speech recognition method |
| US8078465B2 (en) | 2007-01-23 | 2011-12-13 | Lena Foundation | System and method for detection and analysis of speech |
| DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
| US7783106B2 (en) * | 2004-11-12 | 2010-08-24 | Fuji Xerox Co., Ltd. | Video segmentation combining similarity analysis and classification |
| US7640218B2 (en) * | 2005-01-18 | 2009-12-29 | Fuji Xerox Co., Ltd. | Efficient methods for temporal event clustering of digital photographs |
| TWI314271B (en) | 2005-01-27 | 2009-09-01 | Delta Electronics Inc | Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus |
| US20060173692A1 (en) * | 2005-02-03 | 2006-08-03 | Rao Vishweshwara M | Audio compression using repetitive structures |
| TWI319152B (en) | 2005-10-04 | 2010-01-01 | Ind Tech Res Inst | Pre-stage detecting system and method for speech recognition |
| US7689559B2 (en) * | 2006-02-08 | 2010-03-30 | Telenor Asa | Document similarity scoring and ranking method, device and computer program product |
| TW200737122A (en) | 2006-03-24 | 2007-10-01 | Mitac Int Corp | Device, system and method for identifying voice |
| JP4527679B2 (ja) | 2006-03-24 | 2010-08-18 | 学校法人早稲田大学 | 音声の類似度の評価を行う方法および装置 |
| TWI312982B (en) | 2006-05-22 | 2009-08-01 | Nat Cheng Kung Universit | Audio signal segmentation algorithm |
| TWI310543B (en) | 2006-05-29 | 2009-06-01 | Tze Fen Li | A method for classifying similar mandarin syllables using two consecutive bayesian decision rules |
| TWI299855B (en) | 2006-08-24 | 2008-08-11 | Inventec Besta Co Ltd | Detection method for voice activity endpoint |
| TWI299854B (en) | 2006-10-12 | 2008-08-11 | Inventec Besta Co Ltd | Lexicon database implementation method for audio recognition system and search/match method thereof |
| US7921120B2 (en) * | 2006-11-30 | 2011-04-05 | D&S Consultants | Method and system for image recognition using a similarity inverse matrix |
| TWI312981B (en) | 2006-11-30 | 2009-08-01 | Inst Information Industr | Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically |
| TWI319563B (en) | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
| US20090132252A1 (en) * | 2007-11-20 | 2009-05-21 | Massachusetts Institute Of Technology | Unsupervised Topic Segmentation of Acoustic Speech Signal |
| US7483934B1 (en) * | 2007-12-18 | 2009-01-27 | International Busniess Machines Corporation | Methods involving computing correlation anomaly scores |
| KR101496876B1 (ko) * | 2008-02-19 | 2015-02-27 | 삼성전자주식회사 | 휴대 단말기의 소리 인식 방법 및 장치 |
| TWI440017B (zh) | 2008-10-01 | 2014-06-01 | Htc Corp | 語音辨識功能啟動系統及方法,及其機器可讀取媒體與電腦程式產品 |
| TWI384423B (zh) * | 2008-11-26 | 2013-02-01 | Ind Tech Res Inst | 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法 |
| TWI403304B (zh) * | 2010-08-27 | 2013-08-01 | Ind Tech Res Inst | 隨身語能偵知方法及其裝置 |
-
2010
- 2010-12-03 TW TW099142202A patent/TWI412019B/zh not_active IP Right Cessation
- 2010-12-30 US US12/981,660 patent/US8655655B2/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5774847A (en) * | 1995-04-28 | 1998-06-30 | Northern Telecom Limited | Methods and apparatus for distinguishing stationary signals from non-stationary signals |
| US6314392B1 (en) * | 1996-09-20 | 2001-11-06 | Digital Equipment Corporation | Method and apparatus for clustering-based signal segmentation |
| US6631349B1 (en) * | 1997-11-27 | 2003-10-07 | Hitachi, Ltd. | Speech recognition method and system |
| US20030018479A1 (en) * | 2001-07-19 | 2003-01-23 | Samsung Electronics Co., Ltd. | Electronic appliance capable of preventing malfunction in speech recognition and improving the speech recognition rate |
| US20040130449A1 (en) * | 2003-01-03 | 2004-07-08 | Hung Hung Wen | Electronic baby-soothing device with wireless remote monitor |
| WO2007059498A2 (en) * | 2005-11-14 | 2007-05-24 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified broadcast audio or video signals |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9691389B2 (en) | 2014-03-18 | 2017-06-27 | Industrial Technology Research Institute | Spoken word generation method and system for speech recognition and computer readable medium thereof |
Also Published As
| Publication number | Publication date |
|---|---|
| US20120143610A1 (en) | 2012-06-07 |
| TW201225065A (en) | 2012-06-16 |
| US8655655B2 (en) | 2014-02-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI412019B (zh) | 聲音事件偵測模組及其方法 | |
| Han et al. | Review on speech emotion recognition | |
| Zhang et al. | The impact of silence on speech anti-spoofing | |
| CN109872720B (zh) | 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法 | |
| Kilinc et al. | Audio deepfake detection by using machine and deep learning | |
| CN114678038B (zh) | 音频噪声检测方法、计算机设备和计算机程序产品 | |
| CN114550751A (zh) | 基于韵律特征和随机森林分类器的语音倍速攻击检测方法 | |
| Jeyalakshmi et al. | HMM and K-NN based automatic musical instrument recognition | |
| Nandwana et al. | A new front-end for classification of non-speech sounds: a study on human whistle | |
| CN111554273B (zh) | 一种语音关键词识别中扩增语料的选取方法 | |
| JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
| Bai | Research on voice control technology for smart home system | |
| Chang et al. | Application of abnormal sound recognition system for indoor environment | |
| CN118197363A (zh) | 一种基于语音处理的教育质量监管方法 | |
| JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
| US11636844B2 (en) | Method and apparatus for audio signal processing evaluation | |
| Zhang et al. | Advancements in whisper-island detection using the linear predictive residual | |
| Sahoo | Voice activity detection for low-resource settings | |
| Kim et al. | Angry emotion detection from real-life conversational speech by leveraging content structure | |
| Zeng et al. | Adaptive context recognition based on audio signal | |
| Chen et al. | Detecting Speech Deepfakes through Improved Speech Features and Cost Functions | |
| Li et al. | Detecting laughter in spontaneous speech by constructing laughter bouts | |
| Stolar et al. | Optimized multi-channel deep neural network with 2D graphical representation of acoustic speech features for emotion recognition | |
| Faisal et al. | ESLCE: A Dataset of Emotional Sounds from Large Crowd Events | |
| Zaw et al. | Overlapped speech detection in multi-party meetings |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |