TWI299855B - Detection method for voice activity endpoint - Google Patents
Detection method for voice activity endpoint Download PDFInfo
- Publication number
- TWI299855B TWI299855B TW95131216A TW95131216A TWI299855B TW I299855 B TWI299855 B TW I299855B TW 95131216 A TW95131216 A TW 95131216A TW 95131216 A TW95131216 A TW 95131216A TW I299855 B TWI299855 B TW I299855B
- Authority
- TW
- Taiwan
- Prior art keywords
- zero
- voice
- energy
- threshold
- speech
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims description 15
- 230000000694 effects Effects 0.000 title claims description 15
- 238000012417 linear regression Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Description
1299855 input parameters of the linear regression method; obtained at least a voice activity starting point and at least a voice activity endpoint from the active voices and the inactive voices based on the energy threshold and the zero crossing rate threshold. •七、指定代表圖: (一)、本案指定代表圖為:第(3)圖 (、二〉二、案代表圖之元件符號簡單說明 步驟(a)〜步驟(e) 八、本案若有化學式時, 請揭示最能顯示發明特徵的化學式: 九、發明說明: 【發明所屬之技術領域】 本發明是有關於一 一種語音辨識 是有關在一種用於提高辨識活奢 確率之活動語音端點偵剛方法。 辨識偵測方法,且特別 動語音(active voice)正 1299855 【先前技術】 原始語音類比訊號經過數位化後,雖可直接作為 辨識之用,但由於資料量過大,處理時間過長,且效 率不好,不可能將原始語音全部儲存下來當做標準語 音參考樣本,因此必須針對數位化語音訊號的特性, 進行特徵擷取,以求取適當的特徵參數來做比對辨 認。而且對語音訊號取得代表之特徵參數,可減少資 料量,增加效率。一般現有的非特定語者的中文語音 辨識之流程如第一圖所示,包含下列步驟: 步驟(1):語音訊號輸入處理,在語音訊號輸入 後,將各個需作分析的語音訊號,以數位訊號處理技 術將語音段的訊號切割出來,形成多個音框,便於進 行下一步驟。 步驟(2):語音訊號的前置處理,該前置處理之主 要功能為端點偵測,用以判斷一段語音訊號的起迄 點。 步驟(3):進行特徵參數擷取,通常採用梅爾(mel 為音調頻率的度量單位,mel的定義:a mel is a unit of measure of perceived pitch or frequency of the tone)倒頻譜參數,將時域訊號轉換成頻譜後,就利 用濾波器等工具將梅爾刻度(mel scale)的特定頻譜 值濾出來,取其對數後即為所求。 1299855 步驟(4):利用隱藏式馬可夫模型(moo方法做語 . 音辨識。所輸入之語音訊號經端點偵測、取音框後, . 再取其聲音檔之特徵向量,利用此些特徵向量與經過 訓練的隱藏式馬可夫模型做比對,計算它是由某一串 隱藏式馬可夫模型所產生的機率有多大,來完成語音 辨識。 • 以目前使用的判斷方式對目前的輸入訊號音框 是否為活動語音(active voice,意指交談中對話的 • 聲音)段落或非活動語音(inactive voice,意指交談 - 中停頓的靜音或背景雜訊)在判斷上仍有誤判的情況 發生。若是發生誤判,則在進行特徵參數之擷取時, 因為目標語音包含活動語音及非活動語音,將導致語 音辨識之正確率降低。因此,如何準確切割出活動語 音的範圍為語音辨識技術中一重要關鍵。 【發明内容】 因此本發明的目的就是在提供一種適用於語音 辨識時的活動語音端點偵測方法,根據所输入語音之 音框之能量與越零率來更新能量門限值及越零率門 限值,再加上使用多重線性回歸(Multiple 1 inear regression)演繹法及其他評斷流程,以提高活動語 音起點及活動語音終點之判斷準確率。 1299855 、根據本發明之上述目的,此活動語音端點偵測 方去包含·(a)接收至少一連續語音,並自此連續語音 擷取複數段音框;(b)計算此些音框之能量,並根據 此些能量取得一能量門限值;(c)分別計算此些音框 越零率,並根據此些越零率取得一越零率門限值; ^)使用線性迴歸演繹法,並以此些能量及此些越 $率=為線性迴歸演繹法之輸入參數,用以判斷每一 疋否為一活動語音或一非活動語音;以及(㊀)根 據能量門限值及越零率門限值,自此些活音 些非活動語音中取得至少—活動語音起點及至少一 活動語音終點。 【實施方式】 以下詳細地討論目前較佳的實施例。然而應被理 解的是’本發明提供許多可適㈣發⑽念,而這些 f念能被體現於很寬廣多樣的特定具體背景中。所討 特疋具體的實施例僅是說明使用本發明的特定 方式,而且不會限制本發明的範圍。 十語音活動仙是用來判定是否有真人語音,近年 2廣泛用於通訊上達到節省能量耗損的目的。若用 乂識方面疋屬於語音辨識的前處理,對辨識結 、办s很大,精確的語音活動偵測可降低噪音影響 1299855 並提高辨識率。傳則語音活動偵大 立 量或越零率等資訊來判 明係針以、::: 活動横測法則特増添-多重線性:歸=:;ΐ 數及其他評斷流程,對需要辨埤往立 子,八繹《 以順利完成語音辨識之 而導Ϊ:二習知技術因擷取語音的參數不足, 致:識”上正確率降低,本發明係 音:_的活動語音端點偵測方法,以例 之各實驗數值及本實_之絲圖式說明。 此活動語音端點偵測方法包含: 二驟(a) ·接收至少一連續語音,並自該連續語音 擷取複數段音框;語音是個時變(Time-varying)的訊 號’但在觀祭貫際語音訊號時可發現,語音訊號在短 時間内的變化是彳艮緩慢的。因此,在語音信號處理上 我們通系採用短時間穩定time stationary) 的假設,以固定的取樣點數(Samples)為一個音框 (Frame),將語音訊號切割成複數段音框,觀察並利 用每個音框的特徵。 步驟(b):計算此些音框之能量,並根據此些能量 取得一能量門限值。 如上所述,首先,先行計算該音框能量,如第2 圖所示’該圖繪示一語音分割及端點偵測示意圖。由 語音缓衝區(亦指該連續語音的複數段音框)的開始 1299855 處取一小視窗,然後計算此視窗於時距中所累積能 量,其中,所謂時距係指擷取的一音框至相臨另一音 框所相隔時間。計算所有音框之能量後,從所有能量 中取得一相對能量門限值,並將相對能量門限值與與 一預估能量最小值相比較,以兩者之中較大值作為一 能量門限值。 其中,前述預估能量最小值係為於一安靜無聲下 測得一段靜音,以做使用預估的最小值。而相對能量 門限值係為所有音框能量之最大能量之1/32。 因此,執行完步驟(b)後,執行步驟(c):分別計 算此些音框之越零率,並根據此些越零率取得一越零 率門限值。 在本實施例中,取得越零率門限值方法係為比 對一預設值與對應此些越零率之相對越零率,以兩者 之中較小值作為該越零率門限值。其中,此預設值係 依照文獻[Shanughnessy’ 87, ρ· 125]而設定一門限 值,有聲無聲的邊界越零率值為3000 cross/s。前述 相對越零率係為能量低於前述能量門限值之音框之 越零率之平均值。 步驟(d):使用一線性迴歸演繹法,並以前述複 數個音框之能量及越零率作為該線性迴歸演繹法之 輸入參數,用以判斷每一音框是否為一活動語音或一 非活動語音。 1299855 在本實施例中,此線性迴歸演繹法亦是一種多 重線性迴歸(Multipie-regressive)的應用,其係由 迴歸分析的應用領域所衍生出的,該迴歸分析^用來 找出兩個或兩個以上變數間的關係,進而從一群變數 中預測資料的趨勢,於本實施例中,該些能量及該些 越零率係作為談線性迴歸演繹法所輸入兩個變數。 ^ 步驟(e):根據前述之能量門限值及前述之越零 率門限值自該些活動語音及該些非活動語音中取得 至>、活動語音起點及至少一活動語音終點。 、同時使用能量門限值及越零率門限值來判斷,是 因為語音:的鼻音、氣音的能量都較小,容易被誤判 為非活動語音(inactive v〇ice)而被刪除,這樣對於 語音辨識在做判斷將會導致錯誤。加上越零率門限值 的f斷可以分辨出子音與非活動語音的不同。在非活 動語音時,只有背景雜訊,此時靜音的越零率較低, 而子音信號的越零率有一定的數值,當有一預定之 限值便能辨別出非活動語音與子音。 推至步驟(e)時,當一所選音框為一活動語音, 且該所選音框及後-段音框之能量皆大於該能量門 限值,再判斷該所選音框之前兩段音框之越零率是否 若有大於該越零率門限值則活 動”。曰起點由該所選音框往前移動—或二音框 大於該越零率門限值則該所選音框係為一活動語音、 1299855 起點。 當所選音框為一非活動語音,且已取得該活動 語音起點,且該所選音框及後五段音框之能量皆小於 該能量門限值,再判斷該所選音框之後兩段音框之越 零率是否大於該越零率門限值,若有大於該越零率門 限值則活動語音終點由該所選音框往後移動一或二 音框,若無大於該越零率門限值則該所選音框係為一 活動語音終點。 而選取連繪五個音框其原因為,某些時候該些音 框之能量會低於門限值係為:人在連續發音中因短暫 休息所以擷取的連續音框會斷開,而非真正的靜音, 所以設定當該些音框之能量由門限值以上變化到門 限值以下,必須經過連續五個音框才能真正視為活動 語音結束。 以下為針對上述偵測流程於一活動語音端點之 偵測後的實驗數值。 實驗語料是取自2003年二月份底與三月份的 『大家說英語』教材,總共有25個語音檔,每個檔 案的格式都是8 kHz取樣頻率,每個取樣點以16位 元量化,單聲道,平均長度約為1分半左右,每一個 音框長度為22.5 ms。此語料大多是人與人之間的對 話,所以很適合作為語音活動檢測的資料庫,其中前 20個檔案作為訓練用,總長度約為28分半,後5個 11 Ί299855 檔案作為測試用,總長度約為7分半。 實驗會根據輸入參數所求得的語音活動狀態,與 正確的語音活動狀態作分析,總共會計算三種錯誤 率,分別是總錯誤率、非活動判斷為活動之錯誤率以 及活動判斷為非活動之錯誤率η,並且與G. 729的VAD 做比較,如表一。 VAD型式 E total En 一 a Ea_n 多重線性迴歸(訓 練) 11.54 6.6563 4. 8837 G· 729(訓練) 22.243 21.619 0. 62432 多重線性迴歸(訓 練) 16.808 13.903 2. 9049 G· 729(測試) 27.945 25.052 2.8938 表一 由表一可以看到在整體的錯誤率及非活動語音 判斷為活動語音的情況,多重線性迴歸不論是訓練語 料或是測試語料都優於G. 729,但是在活動語音判斷 為非活動語音時,多重線性迴歸在訓練語料所表現的 結果是較差的,而這部份的錯誤對於辨識時也有較大 的影響,因為將活動語音判斷為非活動語音會常常使 得某些子音被忽略,導致辨識錯誤,因此,希望在總 錯誤率增加不多的情形下降低。 12 1299855 及在調整多重線性迴歸輸入變數的權重下,即可 影響錯誤率的表現。若將能量的權重向下修正,可以 降低活動音框判斷為非活動音框的錯誤率,同時也會 使更多的非活動音框判斷為活動音框,將越零率向上 修正也會有類似的效果,這裡選擇改變能量之權重, 越零率維持不變,而訓練語料中的刻意選擇接近1%, 最後所ti丨練出的迴歸係數為 2.3089, 047486 ,如=0·50885 。 VAD型式 Etotal En_a Ea 一 η 多重線性迴歸(訓 練) 12.826 11.835 0.99187 G· 729(訓練) 22.243 21.619 0.62432 多重線性迴歸(訓 練) 20.011 19.511 0. 4999 G· 729(測試) 27.945 25. 052 2.8938 表二 重新測試實驗結果如下表二所示,在各種情形 下,多重線性迴歸(Weighted)方法皆優於G. 729之 VAD,並且在活動語音判斷為非活動語音的錯誤也能 保持一定的水準(1%)。 13 1299855 雖然本發明已以較佳實施例揭露如上,然其並非 用以限定本發明,任何熟習此技藝者,在不脫離本發 明之精神和範圍内,當可作各種之更動與潤飾,因此 本發明之㈣範圍當視錢之申請專观圍所界定 者為準。 【圖式簡單說明】
為讓本發明之上述和其他目的、特徵、優點與實 施例此更明顯易懂’所附圖式之詳細說明如下·、 第1圖緣示非特定語者的中文語音辨識之流程 點偵測 第2圖繪示語音分割及端點偵測示意圖。 第3圖繪示用於語音辨識時的活動語音端 方法之流程圖。 【主要元件符號說明】 步驟(1)〜步驟(4) 步驟(a)〜步驟(e) 14
Claims (1)
1299855 十、申請專利範園: 1 ·種活動語音端點之销測方法,包含下列步驟: (a) 接收至少一連續語音,並自該連續語音擷取複 數段音框; (b) 计异該些音框之能量,並根據該些能量取得一 能量門限值;
…(c)分別計算該些音框之越零率,並根據該些越零 率取得一越零率門限值; 及 (d)使用一線性迴歸演繹法,並以該些能量及該些 ,零率作為該線性迴歸演繹法之輸人參數,用以判& 母-該些音框是否為-活動語音或—非活動語音;以 、(〇根據該能量門限值及該越零率門限值,自該些
,語音及該些非活動語音中取得至少—活動語; 起點及至少一活動語音終點。 2. Λ申Γ專利範圍第1項之活動語音端點偵測方 更包核對—難能錄小值及一 對應該些月b 1之相對能量門限值,以兩者之中 值作為該能量門限值。 …中該預估能量最小值係為-於安靜無聲之環 15 1299855 、 9.如申請專利範圍第1項之活動語音端點偵測方 • 法,其中該步驟(e)更包含當所選音框為一非活動語 音,且已取得該活動語音起點,且該所選音框及後 複數段音框之能量皆小於該能量門限值,並判斷該 所選音框及後複數段音框之越零率是否大於該越零 率門限值,若有大於則活動語音終點由該所選音框 往後移動複數段音框,若無大於則該所選音框係為 # 一活動語音終點。 17
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW95131216A TWI299855B (en) | 2006-08-24 | 2006-08-24 | Detection method for voice activity endpoint |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW95131216A TWI299855B (en) | 2006-08-24 | 2006-08-24 | Detection method for voice activity endpoint |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW200811833A TW200811833A (en) | 2008-03-01 |
| TWI299855B true TWI299855B (en) | 2008-08-11 |
Family
ID=44767866
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW95131216A TWI299855B (en) | 2006-08-24 | 2006-08-24 | Detection method for voice activity endpoint |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI299855B (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8655655B2 (en) | 2010-12-03 | 2014-02-18 | Industrial Technology Research Institute | Sound event detecting module for a sound event recognition system and method thereof |
| US9330676B2 (en) | 2012-11-15 | 2016-05-03 | Wistron Corporation | Determining whether speech interference occurs based on time interval between speech instructions and status of the speech instructions |
| TWI659409B (zh) * | 2017-02-13 | 2019-05-11 | 大陸商芋頭科技(杭州)有限公司 | 一種語音端點檢測方法及語音辨識方法 |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106847270B (zh) * | 2016-12-09 | 2020-08-18 | 华南理工大学 | 一种双门限地名语音端点检测方法 |
| US10460749B1 (en) * | 2018-06-28 | 2019-10-29 | Nuvoton Technology Corporation | Voice activity detection using vocal tract area information |
-
2006
- 2006-08-24 TW TW95131216A patent/TWI299855B/zh not_active IP Right Cessation
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8655655B2 (en) | 2010-12-03 | 2014-02-18 | Industrial Technology Research Institute | Sound event detecting module for a sound event recognition system and method thereof |
| US9330676B2 (en) | 2012-11-15 | 2016-05-03 | Wistron Corporation | Determining whether speech interference occurs based on time interval between speech instructions and status of the speech instructions |
| TWI659409B (zh) * | 2017-02-13 | 2019-05-11 | 大陸商芋頭科技(杭州)有限公司 | 一種語音端點檢測方法及語音辨識方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW200811833A (en) | 2008-03-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN104835498B (zh) | 基于多类型组合特征参数的声纹识别方法 | |
| Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
| JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
| CN112133277B (zh) | 样本生成方法及装置 | |
| CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
| CN106023986B (zh) | 一种基于声效模式检测的语音识别方法 | |
| CN108682432B (zh) | 语音情感识别装置 | |
| JP5050698B2 (ja) | 音声処理装置およびプログラム | |
| KR20100036893A (ko) | 음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법 | |
| CN102222498A (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
| CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
| CN105895079B (zh) | 语音数据的处理方法和装置 | |
| TWI299855B (en) | Detection method for voice activity endpoint | |
| Khan et al. | Hindi speaking person identification using zero crossing rate | |
| CN108986844B (zh) | 一种基于说话人语音特征的语音端点检测方法 | |
| Badenhorst et al. | Quality measurements for mobile data collection in the developing world. | |
| Nandwana et al. | A new front-end for classification of non-speech sounds: a study on human whistle | |
| US7650281B1 (en) | Method of comparing voice signals that reduces false alarms | |
| Abushariah et al. | Voice based automatic person identification system using vector quantization | |
| JP2002189487A (ja) | 音声認識装置および音声認識方法 | |
| CN112786071A (zh) | 面向语音交互场景语音片段的数据标注方法 | |
| Speights et al. | Computer-assisted syllable analysis of continuous speech as a measure of child speech disorder | |
| JP2006154212A (ja) | 音声評価方法および評価装置 | |
| JP2004317822A (ja) | 感情分析・表示装置 | |
| CN107039046B (zh) | 一种基于特征融合的语音声效模式检测方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |