TWI740374B

TWI740374B - 消除特定對象語音之方法及應用其之耳戴式音訊裝置

Info

Publication number: TWI740374B
Application number: TW109104420A
Authority: TW
Inventors: 杜博仁; 張嘉仁; 曾凱盟; 戴魁廷; 林致達
Original assignee: 宏碁股份有限公司
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2021-09-21
Also published as: US11158301B2; US20210248992A1; TW202131307A

Abstract

一種消除特定對象語音之方法及應用其之耳戴式音訊裝置。耳戴式音訊裝置包括數個收音單元、一語音方向追蹤單元、一方向加強單元、一視窗切割單元、一聲紋辨識單元、一語音消除單元及二揚聲器。此些收音單元陣列式排列，以取得一聲音訊號。語音方向追蹤單元用以追蹤數個聲源，以獲得數個聲源方向。聲紋辨識單元確認聲音訊號在各個聲源方向是否含有一特定對象語音。若聲音訊號在此些聲源方向之其中之一含有特定對象語音，則語音消除單元以一波束成型技術調整一場型，以消除特定對象語音。

Description

消除特定對象語音之方法及應用其之耳戴式音訊裝置

本發明是有關於一種語音處理方法及應用其之音訊裝置，且特別是有關於一種消除特定對象語音之方法及應用其之耳戴式音訊裝置。

在生活中，有些對象在自己周圍說話時，會讓人覺得是一種干擾，有時想要耳根清靜，卻又不想錯失其他重要聲音資訊。因此需要一種針對特定對象語音消除機制，讓我們達到心理平靜的目的。

然而，一般的降噪技術只能使環境的雜訊降低，放大語音訊號，而無法消除特定對象語音，來達到心理平靜的目的。

本發明係有關於一種消除特定對象語音之方法及應用其之耳戴式音訊裝置，其利用語音方向追蹤技術(voice tracking)與波束成型技術(beamforming)，消除特定對象語音，來達到心理平靜的目的。

根據本發明之第一方面，提出一種具特定對象語音消除機制之耳戴式音訊裝置。耳戴式音訊裝置包括數個收音單元、一語音方向追蹤單元、一方向加強單元、一視窗切割單元、一聲紋辨識單元、一語音消除單元及二揚聲器。此些收音單元陣列式排列，以取得一聲音訊號。語音方向追蹤單元用以追蹤數個聲源，以獲得數個聲源方向。方向加強單元用以調整此些收音單元，以對此些聲源方向進行加強。視窗切割單元用以對聲音訊號切割出數個視窗。聲紋辨識單元用以於各個視窗進行聲紋辨識，以確認聲音訊號在各個聲源方向是否含有一特定對象語音。若聲音訊號在此些聲源方向之其中之一含有特定對象語音，則語音消除單元以一波束成型技術(beamforming)調整一場型，以消除特定對象語音。揚聲器用以對一左耳及一右耳輸出已消除特定對象語音之聲音訊號。

根據本發明之第二方面，提出一種消除特定對象語音之方法。消除特定對象語音之方法包括以下步驟。以數個收音單元取得一聲音訊號。此些收音單元陣列式排列。追蹤數個聲源，以獲得數個聲源方向。調整此些收音單元，以對此些聲源方向進行加強。對聲音訊號切割出數個視窗。於各個視窗進行聲紋辨識，以確認聲音訊號在各個聲源方向是否含有一特定對象語音。若聲音訊號在此些聲源方向之其中之一含有特定對象語音，則以一波束成型技術(beamforming)調整一場型，以消除特定對象語音。對一左耳及一右耳輸出已消除特定對象語音之聲音訊號。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

100:耳戴式音訊裝置

110:收音單元

120:語音方向追蹤單元

130:方向加強單元

140:視窗切割單元

150:聲紋辨識單元

160:語音消除單元

170:揚聲器

A,B,C:特定對象語音

D1,D2:聲源方向

F0,F1:場型

FA,FB:加強場型

MD:辨識模型

S1,S1’:聲音訊號

S110,S120,S130,S140,S150,S151,S152,S153,S154,S160,S161,S170:步驟

T1,T2:時間點

WD:視窗

第1圖繪示二特定對象語音之示意圖。

第2圖繪示根據一實施例之具特定對象語音消除機制之耳戴式音訊裝置的示意圖。

第3圖繪示根據一實施例具特定對象語音消除機制之耳戴式音訊裝置的方塊圖。

第4圖繪示根據一實施例之消除特定對象語音之方法的流程圖。

第5圖繪示根據一實施例之聲源方向之示意圖。

第6A圖繪示特定對象語音之加強場型。

第6B圖繪示另一特定對象語音之加強場型。

第7圖繪示根據一實施例之多個視窗的示意圖。

第8A圖繪示原有之場型。

第8B圖繪示調整後場型。

第9圖繪示根據一實施例之調整係數之示意圖。

第10圖繪示三個特定對象語音之示意圖。

第11圖繪示根據另一實施例之消除特定對象語音之方法的流程圖。

請參照第1圖，其繪示特定對象語音A與特定對象語音B之示意圖。在生活中，使用者可能會覺得特定對象語音B是一種干擾。使用者可能不想聽見特定對象語音B，但直接去關閉耳戴式音訊裝置100，卻又會錯失重要的特定對象語音A。

請參照第2圖及第3圖，第2圖繪示根據一實施例之具特定對象語音消除機制之耳戴式音訊裝置100的示意圖，第3圖繪示根據一實施例具特定對象語音消除機制之耳戴式音訊裝置100的方塊圖。耳戴式音訊裝置100例如是一耳機或一助聽器。耳戴式音訊裝置100包括數個收音單元110、一語音方向追蹤單元120、一方向加強單元130、一視窗切割單元140、一聲紋辨識單元150、一語音消除單元160、及二揚聲器170。收音單元110例如是一麥克風。揚聲器170例如是一喇叭。語音方向追蹤單元120、方向加強單元130、視窗切割單元140、聲紋辨識單元150、及語音消除單元160例如是一電路、一晶片、一電路板、數組程式碼、或儲存程式碼之記錄裝置。耳戴式音訊裝置100可以在接收到外界之聲音訊號S1後，將特定對象語音B消除，再輸出調整後之聲音訊號S1’，來達到心理平靜的目的。以下更搭配一流程圖詳細說明上述各項元件之運作。

請參照第4圖，其繪示根據一實施例之消除特定對象語音之方法的流程圖。在步驟S110中，以此些收音單元110取得聲音訊號S1。如第2圖所示，此些收音單元110係以陣列式排列，且朝向不同方向。如此一來，某一收音單元110主要是接收到特定對象語音A；某一收音單元110主要是接收到特定對象語音B。

接著，在步驟S120中，語音方向追蹤單元120追蹤數個聲源，以獲得數個聲源方向D1、D2。請參照第5圖，其繪示根據一實施例之聲源方向D1、D2之示意圖。語音方向追蹤單元120追蹤特定對象語音A及特定對象語音B，分別獲得聲源方向D1及聲源方向D2。在此步驟中，語音方向追蹤單元120以一雙耳時間差資訊(interaural time difference,ITD)與一互相關函數(Cross Correlation Function,CCF)追蹤此些聲源，以獲得聲源方向D1、D2。

然後，在步驟S130中，方向加強單元130調整此些收音單元110，以對聲源方向D1、D2進行加強。請參照第6A~6B圖，第6A圖繪示特定對象語音A之加強場型FA，第6B圖繪示特定對象語音B之加強場型FB。在此步驟中，方向加強單元130透過一波束成型技術(beamforming)調整收音單元110，以對聲源方向D1、D2進行加強。如第6A圖之加強場型FA所示，朝向特定對象語音A之波束能量較高，可以獲得加強特定對象語音A。如第6B圖之加強場型FB所示，朝向特定對象語音B之波束能量較高，可以獲得加強特定對象語音B。

接著，在步驟S140中，視窗切割單元140對聲音訊號S1切割出數個視窗WD。請參照第7圖，其繪示根據一實施例之多個視窗WD的示意圖。在此步驟中，視窗WD大於或等於32毫秒(ms)，有助於聲紋辨識的確認。並且，此些視窗WD之間隔小於或等於5毫秒，以避免使用者感到延遲。

然後，在步驟S150中，聲紋辨識單元150於各個視窗WD進行聲紋辨識，以確認聲音訊號S1在各個聲源方向D1、D2是否含有特定對象語音B。在此步驟中，聲紋辨識單元150取得針對特定對象語音B之辨識模型MD。辨識模型MD係預先訓練且儲存於聲紋辨識單元150中。

接著，在步驟S151中，聲紋辨識單元150判斷聲音訊號S1在聲源方向D1、D2是否含有特定對象語音B。聲音訊號S1在聲源方向D1不含有特定對象語音B，故進入步驟S161；聲音訊號S1在聲源方向D2含有特定對象語音B，故進入步驟S160。

在步驟S161中，語音消除單元160維持原有之場型，以保持特定對象語音A。請參照第8A圖，其繪示原有之場型F0。在原有之場型F0之下，特定對象語音A得以保持。

在步驟S160中，語音消除單元160以一波束成型技術(beamforming)調整場型，以消除欲消除之特定對象語音B。請參照第8B圖，其繪示調整後場型F1。在調整後場型F1之下，特定對象語音B被減弱。在此步驟中，語音消除單元160隨時間漸進式調整場型F1。舉例來說，請參照第9圖，其繪示根據一實施例之調整係數之示意圖。在時間點T1，辨識出特定對象語音B，語音消除單元160隨時間漸進式降低調整係數，以隨時間漸進式調整調整場型F1。在時間點T2，特定對象語音B消失了，語音消除單元160隨時間漸進式增加調整係數，以隨時間漸進式復原為原有之場型F0。

接著，在步驟S170中，揚聲器170對一左耳及一右耳輸出已消除特定對象語音B之聲音訊號S1’。

在一種情況中，同一方向可能存在兩種特定對象語音，而需要額外的處理步驟。請參照第10圖，其繪示特定對象語音A、B、C之示意圖。特定對象語音A位於聲源方向D1，特定對象語音B、C位於聲源方向D2。請參照第11圖，其繪示根據另一實施例之消除特定對象語音之方法的流程圖。在步驟S150中，聲紋辨識單元150於各個視窗WD進行聲紋辨識，以確認聲音訊號S1在各個聲源方向D1、D2是否含有特定對象語音B。在此步驟中，聲紋辨識單元150取得針對特定對象語音B之辨識模型MD。

接著，在步驟S151中，聲紋辨識單元150判斷聲音訊號S1在聲源方向D1、D2是否含有特定對象語音B。聲音訊號S1在聲源方向D1不含有特定對象語音B，故進入步驟S161；聲音訊號S1在聲源方向D2含有特定對象語音B，故進入步驟S152。

在步驟S152中，聲紋辨識單元150判斷是否含有兩個以上特定對象語音。如第10圖所示，在聲源方向D2含有特定對象語音B及特定對象語音C，故流程進入步驟S153。

在步驟S153中，語音消除單元160對各個視窗WD消除欲消除之特定對象語音B。在此步驟中，語音消除單元160例如是採用可可適性訊號處理技術消除特定對象語音B。

在步驟S154中，語音消除單元160進行視窗WD合成。合成後，聲源方向D2僅留下特定對象語音C，而不含有特定對象語音B。

透過上述實施例，特定對象語音B可以順利消除，並保留下重要的特定對象語音A。在處理過程中，使用者感知不到的延遲時間(真實聲音與播放聲音的時間差小於或等於5毫秒)。上述實施例不採用視窗合成之方式，而是採用波束成型技術，使得調整後之聲音訊號S1’能夠保持真實性，而不會有失真的情況。

此外，即使在吵雜環境下，視窗WD的辨識結果可能不穩定時，漸進式的調整場型能夠讓聲音的變化較為平滑，使用者感受較為舒適。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。