TWI779571B

TWI779571B - 聲音處理選擇裝置及聲音處理選擇方法

Info

Publication number: TWI779571B
Application number: TW110114321A
Authority: TW
Inventors: 杜博仁; 張嘉仁; 曾凱盟; 方明峻
Original assignee: 宏碁股份有限公司
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2022-10-01
Also published as: CN115223586A; US20220343889A1; TW202242858A; US11810543B2

Abstract

本發明提供一種聲音處理選擇裝置及方法。對合成聲音訊號分別進行數個聲音訊號處理以產生數個經處理聲音訊號，依據經處理聲音訊號及主要訊號之間的比較結果評估聲音訊號處理，並依據對應於那些聲音訊號處理的評估結果選擇指定應用程式及指定聲音輸出模式對應的聲音訊號處理。合成聲音訊號是對主要訊號加入次要訊號所產生，且聲音訊號處理相關於對合成聲音訊號濾除次要訊號。經處理聲音訊號皆是在相同的指定聲音輸出模式下藉由相同的指定應用程式使用，且比較結果相關於訊號相似性。而評估結果相關於那些比較結果中的訊號相似性最高者。

Description

聲音處理選擇裝置及聲音處理選擇方法

本發明是有關於一種訊號分析技術，且特別是有關於一種聲音處理選擇裝置及聲音處理選擇方法。

現今已知的聲音訊號處理包括許多的抑制雜訊技術。值得注意的是，在不同的條件下，應用程式(例如，Skype或Teams)使用不同的聲音傳輸模式(例如，內建喇叭、耳機或外接喇叭)將造成很大效果差異。圖1是習知聲音傳輸的架構圖。請參照圖1，分為兩個路徑，其中聲音接收端連接揚聲器，且聲音發送端連接收音器。應用程式和輸出模式在頂層10，雜訊抑制的訊號處理技術在中間層30，靠近硬體的編/解碼器在底層150。在實際使用上，雖然使用者可能會改變應用程式或聲音輸出模式，但現有技術並沒有針對應用程式及/或聲音輸出模式提供對應合適的雜訊抑制處理技術。

有鑑於此，本發明實施例提供一種聲音處理選擇裝置及聲音處理選擇方法，可對特定應用程式及聲音輸出模式提供合適的聲音訊號處理。

本發明實施例的聲音處理選擇方法包括(但不僅限於)下列步驟：對合成聲音訊號分別進行數個聲音訊號處理以產生數個經處理聲音訊號，依據那些經處理聲音訊號及主要訊號之間的數個比較結果評估那些聲音訊號處理，並依據對應於那些聲音訊號處理的評估結果選擇指定應用程式及指定聲音輸出模式對應的聲音訊號處理。合成聲音訊號是對主要訊號加入次要訊號所產生，且那些聲音訊號處理相關於對合成聲音訊號濾除次要訊號。那些經處理聲音訊號皆是在相同的指定聲音輸出模式下藉由相同的指定應用程式使用，且那些比較結果相關於訊號相似性。而評估結果相關於那些比較結果中的訊號相似性最高者。

本發明實施例的聲音訊號處理選擇裝置包括(但不僅限於)儲存器及處理器。儲存器用以儲存數個軟體模組。處理器耦接儲存器，並用以載入且執行那些軟體模組。那些軟體模組包括聲音訊號處理模組、應用控制模組及評估模組。聲音訊號處理模組對合成聲音訊號分別進行數個聲音訊號處理以產生數個經處理聲音訊號。合成聲音訊號是對主要訊號加入次要訊號所產生，且那些聲音訊號處理相關於對合成聲音訊號濾除次要訊號。應用控制模組將那些經處理聲音訊號皆在相同的指定聲音輸出模式下藉由相同的指定應用程式使用。評估模組依據那些經處理聲音訊號及主要訊號之間的數個比較結果分別評估那些聲音訊號處理，並依據對應於那些聲音訊號處理的評估結果選擇指定應用程式及指定聲音輸出模式對應的聲音訊號處理。那些比較結果相關於訊號相似性，且評估結果相關於那些比較結果中訊號相似性最高者。

基於上述，依據本發明實施例的聲音處理選擇裝置及聲音處理選擇方法，針對特定應用程式及特定聲音輸出模式找尋能輸出與主要訊號最相似的聲音訊號的聲音訊號處理。藉此，當應用程式和聲音輸出模式轉變時，可自行切換到適合的聲音訊號處理技術。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖2A是依據本發明一實施例的聲音處理選擇裝置100的元件方塊圖，且圖2B是依據本發明一實施例的聲音處理選擇裝置100的元件方塊圖。請參照圖2A及圖2B，聲音處理選擇裝置100包括(但不僅限於)儲存器110及處理器150。聲音處理選擇裝置100可以是桌上型電腦、筆記型電腦、AIO電腦、智慧型手機、平板電腦、或伺服器等裝置。

儲存器110可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件。在一實施例中，儲存器110用以記錄程式碼、軟體模組(例如，合成模組111、應用控制模組113、聲音訊號處理模組115、評估模組117及選擇模組119)、組態配置、資料或檔案(例如，聲音訊號、比較結果及評估結果)，並待後續實施例詳述。

處理器150耦接儲存器110，處理器150並可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)、神經網路加速器或其他類似元件或上述元件的組合。在一實施例中，處理器150用以執行聲音處理選擇裝置100的所有或部份作業，且可載入並執行儲存器110所儲存的各軟體模組、檔案及資料。

下文中，將搭配聲音處理選擇裝置100中的各項元件、模組及訊號說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖3是依據本發明一實施例的聲音處理選擇方法的流程圖。請參照圖3，聲音訊號處理模組115對合成聲音訊號S ^S分別進行數個聲音訊號處理以產生數筆經處理聲音訊號S ₁ ^ns~S _N ^ns(N為正整數，並代表聲音訊號處理的數量)(步驟S310)。具體而言，合成聲音訊號S ^S是合成模組111對主要訊號S ^M加入次要訊號S ^N所產生的。即，對主要訊號S ^M及次要訊號S ^N合成可產生合成聲音訊號S ^S。主要訊號S ^M可以是單純語音訊號(例如，沒雜訊的人聲訊號)、透過收音器錄製的語音訊號或空白的靜音訊號(即，無聲訊號)。而次要訊號S ^N可以是生物(例如，狗、鳥、或嬰兒)所發出聲音、機器(例如，壓縮機或馬達)運作聲、合成聲、環境聲(例如，風聲、竹林敲打聲等)、物件互動作用的聲音(例如，手指點擊滑鼠的聲音、球碰撞牆等)或其組合。只要是主要訊號S ^M以外的其他聲音都可視為次要訊號S ^N。

在一實施例中，合成模組111例如可對兩訊號S ^M, S ^N在頻譜上疊加或採用其他合成技術。在另一實施例中，聲音處理選擇裝置100可透過內建、外置或外部喇叭同時播放主要訊號S ^M及次要訊號S ^N，並進一步錄製，以取得合成聲音訊號S ^S。

另一方面，在一實施例中，聲音訊號處理模型115對合成聲音訊號S ^S所進行的聲音訊號處理是相關於對合成聲音訊號S ^S濾除次要訊號S ^N。例如，聲音訊號處理的目的之一在於還原主要訊號S ^M、或雜訊消除。雜訊/降噪抑制(或聲源分離)技術例如是產生與雜訊音波相位相反的訊號、或利用獨立成分分析(Independent Components Analysis，ICA)等方式自合成聲音訊號S ^S中消除雜訊(即，次要訊號S ^N)，且本發明實施例不加以限制技術類型。

值得注意的是，基於不同技術的聲音訊號處理對相同輸入訊號所輸出的訊號在頻率、波形或振幅上可能有差異。若欲評估多種聲音訊號處理技術，聲音訊號處理模組115可整合這些聲音訊號處理技術，並分別採用不同聲音訊號處理技術來處理合成聲音訊號S ^S。此外，若欲了解特定聲音訊號處理對不同次要訊號S ^N的濾除能力，合成模組111也可分別加入不同類型的次要訊號S ^N，以用於後續的評估訓練。

另一方面，應用控制模組113可將那些經處理聲音訊號S ₁ ^ns~S _N ^ns皆在相同的指定聲音輸出模式下藉由相同的指定應用程式使用。指定聲音輸出模式是數種聲音輸出模式中的一者。聲音輸出模式例如是內建喇叭、耳機、或外接喇叭。須說明的是，不同類型或廠牌的喇叭或耳機也可視為不同聲音輸出模式。此外，指定應用程式是數種應用程式中的一者。這些應用程式會使用聲音訊號。應用程式例如是視訊軟體、通話軟體、音樂軟體、影片播放軟體。本發明實施例對這些經處理聲音訊號S ₁ ^ns~S _N ^ns評估選擇相同的應用條件(即，相同的指定聲音輸出模式及相同的指定應用程式)。在實際操作下，應用控制模組113可啟動指定應用程式並設定在指定輸出模式下，且將輸入的聲音訊號作為錄製或欲播放的聲音訊號並輸入到指定應用程式。

在一實施例中，請參照圖2A，針對聲音接收端，應用控制模組113可對合成聲音訊號S ^S經指定應用程式處理並透過指定聲音輸出模式輸出以產生模擬輸出聲音訊號S ^C。這模擬輸出聲音訊號S ^C不需要透過喇叭實際發出聲音。在一實施例中，聲音訊號處理模組115可透過虛擬音訊纜線(Virtual Audio Cable，VAC)技術(即，程序或程式之間轉送音訊串流)取得指定應用程式所輸出的那模擬輸出聲音訊號S ^C。此外，聲音訊號處理模組115可對模擬輸出聲音訊號S ^C(作為欲播放的聲音訊號)分別進行那些接收端的聲音訊號處理以產生那些經處理聲音訊號S ₁ ^ns~S _N ^ns。也就是說，若欲評估接收端的聲音訊號處理，則需要先模擬使用指定應用程式及指定聲音輸出模式所輸出的聲音訊號，再對這些聲音訊號分別經過不同聲音訊號處理。

在另一實施例中，請參照圖2B，針對聲音傳送端，聲音訊號處理模組115可對模擬輸出聲音訊號分別進行那些傳送端的聲音訊號處理以產生那些經處理聲音訊號S ₁ ^ns~S _N ^ns。接著，應用控制模組113可將那些經處理聲音訊號S ₁ ^ns~S _N ^ns(作為錄製的聲音訊號)經指定應用程式處理並透過指定聲音輸出模式輸出以產生數個模擬輸出聲音訊號S ₁ ^C~S _N ^C。也就是說，若欲評估傳送端的聲音訊號處理，則需要先模擬對這些聲音訊號分別經過不同聲音訊號處理，再使用指定應用程式及指定聲音輸出模式輸出聲音訊號。

評估模組117可依據那些經處理聲音訊號S ₁ ^ns~S _N ^ns(也可能是模擬輸出聲音訊號S ₁ ^C~S _N ^C)及主要訊號S ^M之間的數個比較結果分別評估那些聲音訊號處理(步驟S330)。具體而言，評估模組117將使用不同聲音訊號處理所輸出的經處理聲音訊號S ₁ ^ns~S _N ^ns與主要訊號S ^M比較，以產生數個比較結果。而這些比較結果相關於訊號相似性。訊號相似性例如聲紋特性的相似性、語意辨識度(例如，經語音轉文字後的文字內容的正確程度)、或次要訊號S ^N的殘量(例如，在特定頻帶上的訊號強度)。須說明的是，比較訊號相似性的方法有很多。例如，若主要訊號S ^M是乾淨沒雜訊的人聲訊號，則評估模組117可採用結合聲紋特性及語意辨識度的比較。又例如，若主要訊號S ^M是空白的靜音訊號，則相似度越高代表訊號越小。換句而言，若欲比較聲音訊號處理的抑制雜訊能力，則經處理聲音訊號S ₁ ^ns~S _N ^ns越小越好。

評估模組117可依據對應於那些聲音訊號處理的評估結果選擇指定應用程式及指定聲音輸出模式對應的一個或更多個聲音訊號處理(步驟S350)。具體而言，評估結果相關於那些比較結果中訊號相似性最高者。換句而言，訊號相似性越高，代表對應聲音訊號處理較適合此指定應用程式及指定聲音輸出模式。另一方面，訊號相似性越低，代表對應聲音訊號處理較不適合此指定應用程式及指定聲音輸出模式。評估模組117可自那些聲音訊號處理選擇一個或更多個相似性最高者、次高者或其他順位者，並將此指定應用程式及指定聲音輸出模式與選擇的聲音訊號處理相關聯。

須說明的是，若欲評估數個應用程式及聲音輸出模式，則應用控制模組113可選擇其他應用程式及聲音輸出模式作為指定應用程式及指定聲音輸出模式，並經由評估模組117來判斷其他應用程式及聲音輸出模式所合適的聲音訊號處理。

在一實施例中，合適的聲音訊號處理已決定。若選擇指定聲音輸出模式及指定應用程式(即，應用控制模組115判斷當前選擇的聲音輸出模式為指定聲音輸出模式，並判斷當前選擇的應用程式為指定應用程式)，則選擇模組119可使用基於評估結果所選擇的聲音訊號處理來處理指定應用程式的聲音訊號。即，針對指定應用程式及指定聲音輸出模式，基於評估結果選擇最合適的聲音訊號處理。例如，使用者開啟視訊軟體並設定喇叭輸出，則選擇模組119可選擇對應於視訊軟體及喇叭輸出的聲音訊號處理。

另一方面，若未選擇指定聲音輸出模式及指定應用程式(即，應用控制模組115判斷當前選擇的聲音輸出模式不為指定聲音輸出模式，並判斷當前選擇的聲音輸出模式不為指定聲音輸出模式)，則選擇模組119可切換至其他聲音訊號處理。換句而言，若當前選擇的聲音輸出模式轉變為第二指定聲音輸出模式，且當前選擇的應用程式轉變為第二指定應用程式，則選擇模組119可切換至針對第二指定應用程式及第二指定聲音輸出模式對應聲音訊號處理。例如，使用者視訊結束後開啟語音通話軟體並設定耳機輸出，則選擇模組119可切換至對應於語音通話軟體及耳機輸出的聲音訊號處理。

綜上所述，在本發明實施例的聲音處理選擇裝置及聲音處理選擇方法中，訓練出特定應用程式及聲音輸出模式所合適的聲音訊號處理。當應用程式及聲音輸出模式轉變時，本發明實施例可自行切換到合適的聲音訊號處理。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10:頂層

30:中間層

50:底層

100:聲音處理選擇裝置

110:儲存器

111:合成模組

113:應用控制模組

115:聲音訊號處理模組

117:評估模組

119:選擇模組

150:處理器

S ^M:主要訊號

S ^N:次要訊號

S ^S:合成聲音訊號

S ^C、S ₁ ^C~S _N ^C:模擬輸出聲音訊號

S ₁ ^ns~S _N ^ns:經處理聲音訊號

S310~S350:步驟

圖1是習知聲音傳輸的架構圖。圖2A是依據本發明一實施例的聲音處理選擇裝置的元件方塊圖。圖2B是依據本發明一實施例的聲音處理選擇裝置的元件方塊圖。圖3是依據本發明一實施例的聲音處理選擇方法的流程圖。

S310~S350:步驟

Claims

一種聲音處理選擇方法，包括：對一主要訊號加入一次要訊號以產生一合成聲音訊號；反應於該合成聲音訊號之產生，對該合成聲音訊號分別進行多個聲音訊號處理以產生多個經處理聲音訊號，其中該些聲音訊號處理皆是用於對該合成聲音訊號濾除該次要訊號；分別比較該些經處理聲音訊號及該主要訊號，以產生多個比較結果，其中每一該比較結果是該些經處理聲音訊號中的一者與該主要聲音訊號之間的一訊號相似性；依據該些經處理聲音訊號及該主要訊號之間的該些比較結果決定該些聲音訊號處理的一評估結果，其中該些經處理聲音訊號皆是在相同的一指定聲音輸出模式下藉由相同的一指定應用程式使用；以及依據對應於該些聲音訊號處理的該評估結果選擇該指定應用程式及該指定聲音輸出模式對應的一該聲音訊號處理，其中該評估結果相關於該些比較結果中該訊號相似性最高者。
如請求項1所述的聲音處理選擇方法，更包括：判斷當前選擇的一聲音輸出模式為該指定聲音輸出模式；判斷當前選擇的一應用程式為該指定應用程式；反應於選擇該指定聲音輸出模式及該指定應用程式，使用基於該評估結果所選擇的該聲音訊號處理來處理該指定應用程式的聲音訊號；以及反應於未選擇該指定聲音輸出模式及該指定應用程式，切換至其他聲音訊號處理。
如請求項1所述的聲音處理選擇方法，其中產生該些經處理聲音訊號的步驟包括：對該合成聲音訊號經該指定應用程式處理並透過該指定聲音輸出模式輸出，以產生一模擬輸出聲音訊號；以及對該模擬輸出聲音訊號分別進行該些聲音訊號處理以產生該些經處理聲音訊號。
如請求項1所述的聲音處理選擇方法，其中產生該些經處理聲音訊號的步驟包括：將該些經處理聲音訊號經該指定應用程式處理並透過該指定聲音輸出模式輸出，以產生多個模擬輸出聲音訊號，其中該些模擬輸出聲音訊號用於評估該些聲音訊號處理。
如請求項3或請求項4所述的聲音處理選擇方法，其中產生該些經處理聲音訊號的步驟包括：透過一虛擬音訊纜線(Virtual Audio Cable，VAC)技術取得該指定應用程式所輸出的聲音訊號。
一種聲音處理選擇裝置，包括：一儲存器，儲存多個軟體模組；以及一處理器，耦接該儲存器，載入且執行該些軟體模組，其中該些軟體模組包括：一聲音訊號處理模組，對一主要訊號加入一次要訊號以產生一合成聲音訊號，對該合成聲音訊號分別進行多個聲音訊號處理以產生多個經處理聲音訊號，其中該些聲音訊號處理皆是用於對該合成聲音訊號濾除該次要訊號；一應用控制模組，將該些經處理聲音訊號皆在相同的一指定聲音輸出模式下藉由相同的一指定應用程式使用；以及一評估模組，分別比較該些經處理聲音訊號及該主要訊號，以產生多個比較結果，依據該些經處理聲音訊號及該主要訊號之間的該些比較結果決定該些聲音訊號處理的一評估結果，並依據對應於該些聲音訊號處理的該評估結果選擇該指定應用程式及該指定聲音輸出模式對應的一該聲音訊號處理，其中每一該比較結果是該些經處理聲音訊號中的一者與該主要聲音訊號之間的一訊號相似性，且該評估結果相關於該些比較結果中該訊號相似性最高者。
如請求項6所述的聲音處理選擇裝置，其中該應用選擇模組判斷當前選擇的一聲音輸出模式為該指定聲音輸出模式，並判斷當前選擇的一應用程式為該指定應用程式，且該些軟體模組更包括：一選擇模組，其中反應於選擇該指定聲音輸出模式及該指定應用程式，該選擇模組使用基於該評估結果所選擇的該聲音訊號處理來處理該指定應用程式的聲音訊號；以及反應於未選擇該指定聲音輸出模式及該指定應用程式，該選擇模組切換至其他聲音訊號處理。
如請求項6所述的聲音處理選擇裝置，其中該應用控制模組對該合成聲音訊號經該指定應用程式處理並透過該指定聲音輸出模式輸出以產生一模擬輸出聲音訊號，且該聲音訊號處理模組對該模擬輸出聲音訊號分別進行該些聲音訊號處理以產生該些經處理聲音訊號。
如請求項6所述的聲音處理選擇裝置，其中該應用控制模組將該些經處理聲音訊號經該指定應用程式處理並透過該指定聲音輸出模式輸出以產生多個模擬輸出聲音訊號，其中該些模擬輸出聲音訊號用於評估該些聲音訊號處理。
如請求項8或請求項9所述的聲音處理選擇裝置，其中該聲音訊號處理模組透過一虛擬音訊纜線技術取得該指定應用程式所輸出的聲音訊號。