TWI703557B

TWI703557B - 聲音播放裝置、方法及非暫態儲存媒體

Info

Publication number: TWI703557B
Application number: TW107136593A
Authority: TW
Inventors: 廖俊旻; 郭彥閔
Original assignee: 宏達國際電子股份有限公司
Priority date: 2017-10-18
Filing date: 2018-10-17
Publication date: 2020-09-01
Also published as: TW201917723A; US20190122681A1; CN109688497A; US11004457B2; CN109688497B

Abstract

一種聲音播放方法，應用於聲音播放裝置中，且包含：接收與聆聽者資料以及聲源資料相關的輸入聲音訊號；進行編碼程序，以將輸入聲音訊號與編碼函式矩陣相乘，進而產生編碼結果，其中編碼函式矩陣的複數個元素與基底函式相關；擷取解碼函式矩陣並代入至少一方向參數，其中解碼函式矩陣配置以補償輸入聲音訊號的理想逼近結果以及模擬逼近結果間的誤差；進行解碼程序，以將編碼結果乘以代入方向參數的解碼函式矩陣，進而產生輸出聲音訊號；以及重製輸出聲音訊號。

Description

聲音播放裝置、方法及非暫態儲存媒體

本發明是有關於聲音播放技術，且特別是有關於一種聲音播放裝置、方法及非暫態儲存媒體。

近年來，虛擬實境技術廣泛地應用於例如遊戲、工程或是軍事的用途中。為了體驗虛擬實境的環境，使用者需要透過設置於例如，但不限於頭戴裝置(head-mounteddevice；HMD)上的顯示裝置，來觀看用以顯示虛擬環境的畫面。其中，頭戴裝置是穿戴於於使用者身上。進一步地，使用者可使用同樣設置於頭戴裝置上的聲音播放裝置來聆聽基於虛擬環境產生的聲音。

由聲音播放裝置所重製(reproduce)的聲音訊號，可以利用數學方法來模擬。然而，由於運算資源有限，部分原始聲音訊號的特徵例如，但不限於不同方向的方向性成分，將可能在數學模型建構的過程中遺失，而使得重製後的聲音與原始聲音訊號不同。

因此，如何設計一個新的聲音播放裝置、方法及非暫態儲存媒體，以解決上述的缺失，乃為此一業界亟待解決的問題。

本發明之目的在於提供一種聲音播放方法，應用於聲音播放裝置中，且包含：接收與聆聽者資料以及聲源資料相關的輸入聲音訊號；進行編碼程序，以將輸入聲音訊號與編碼函式矩陣相乘，進而產生編碼結果，其中編碼函式矩陣的複數個元素與基底函式相關；擷取解碼函式矩陣並代入至少一方向參數，其中解碼函式矩陣配置以補償輸入聲音訊號的理想逼近結果以及模擬逼近結果間的誤差；進行解碼程序，以將編碼結果乘以代入方向參數的解碼函式矩陣，進而產生輸出聲音訊號；以及播放輸出聲音訊號。

本發明之另一目的在於提供一種聲音播放裝置，包含：儲存元件、聲音播放電路以及處理器。儲存元件配置以儲存複數個電腦可執行指令。處理器電性耦接於儲存元件以及聲音播放電路，並配置以擷取並執行電腦可執行指令，以在電腦可執行指令被執行時執行聲音播放方法。聲音播放方法包含：接收與聆聽者資料以及聲源資料相關的輸入聲音訊號；進行編碼程序，以將輸入聲音訊號與編碼函式矩陣相乘，進而產生編碼結果，其中編碼函式矩陣的複數個元素與基底函式相關；擷取解碼函式矩陣並代入至少一方向參數，其中解碼函式矩陣配置以補償輸入聲音訊號的理想逼近結果以及模擬逼近結果間的誤差；進行解碼程序，以將編碼結果乘以代入方向參數的解碼函式矩陣，進而產生輸出聲音訊號；以及使聲音播放電路播放輸出聲音訊號。

本發明之又一目的在於提供一種非暫態(non-transitory)電腦可讀取儲存媒體，配置以儲存包含複數電腦可執行指令的電腦程式，用以執行應用在聲音播放裝置的聲音播放方法，聲音播放裝置至少包含儲存元件、聲音播放電路以及電性耦接於儲存元件及聲音播放電路並配置以擷取並執行電腦可執行指令，以在電腦可執行指令被執行時執行聲音播放方法的處理器。聲音播放方法包含：接收與聆聽者資料以及聲源資料相關的輸入聲音訊號；進行編碼程序，以將輸入聲音訊號與編碼函式矩陣相乘，進而產生編碼結果，其中編碼函式矩陣的複數個元素與基底函式相關；擷取解碼函式矩陣並代入至少一方向參數，其中解碼函式矩陣配置以補償輸入聲音訊號的理想逼近結果以及模擬逼近結果間的誤差；進行解碼程序，以將編碼結果乘以代入方向參數的解碼函式矩陣，進而產生輸出聲音訊號；以及使聲音播放電路播放輸出聲音訊號。

應用本發明之優點在於本發明的聲音播放裝置以及聲音播放方法可根據聆聽者以及聲源的位置的關係來加強，而不會耗費過多的運算資源。藉由加強聲音訊號的波峰與波谷，聆聽者可對聲音訊號有較強的方向感。

1‧‧‧聲音播放裝置

10‧‧‧儲存元件

100‧‧‧電腦可執行指令

102‧‧‧聆聽者資料

104‧‧‧聲源資料

106‧‧‧解碼函式矩陣

11‧‧‧聲音訊號

12‧‧‧聲音播放電路

13‧‧‧輸出聲音訊號

14‧‧‧處理器

200‧‧‧聲音播放方法

201-205‧‧‧步驟

3‧‧‧系統

300‧‧‧聲源

301‧‧‧編碼結果

302‧‧‧編碼單元

304‧‧‧解碼單元

306‧‧‧頭部相關轉換函式轉換器

308‧‧‧補償單元

310‧‧‧混合單元

4‧‧‧虛擬環境

40‧‧‧聆聽者

42‧‧‧聲源

44‧‧‧聲音

第1圖為本發明一實施例中，一種聲音播放裝置的方塊圖；第2圖為本發明一實施例中，一種聲音播放方法的流程圖；第3圖為本發明一實施例中，一個系統的範例性示意圖；以及第4圖為本發明一實施例中，位於虛擬環境的聆聽者以及聲源的示意圖。

請參照本揭示內容的實施例，其中以下的範例將搭配圖式進行說明。在圖式及說明中所使用相同的元件符號，將指稱相同或類似的元件。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，當元件被描述為「連接」或「耦接」至另一元件時，其可為直接連接或耦接至另一元件，或是可能存在有中間的元件。相對的，當元件被描述為「直接連接」或「直接耦接」至另一元件時，將不會有中間的元件存在。更進一步地，「電性連接」或「連接」可更用以指稱兩個或多個元件間的交互操作以及互動。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，雖然「第一」、「第二」等用語可用以描述不同的元件，這些元件可不被這些用語所限制。這些用語僅用以區分不同的元件。舉例來說，第一元件亦可被改稱為第二元件，且類似地，第二元件亦可被改稱第一元件，而不會悖離實施例的範圍。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，「包含」、「包括」、「具有」、「含有」及類似的用語是被理解為開放性的，例如表示「包含，但不限於」。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，「及/或」的語句包含所列舉的一個或多個相關事物中的任何以及全部的組合。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，在以下的實施例的敘述中用以指稱方向的詞彙，例如「上」、「下」、「左」、「右」、「前」及「後」，是與圖式中的方向相關。因此，這樣指稱方向的詞彙是用以敘述，而非限制本揭示內容。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，除非另行定義，所有的用語(包含技術性或是科學性用語)具有任何本揭示內容所屬技術領域的通常知識者所普遍理解的相同意義。須更進一步了解的是，此些用語，例如定義於常用的字典者，除非特別定義，否則需解讀為具有與在相關的技術領域所使用的相同意義，而不能被廣泛地解讀。

請參照第1圖。第1圖為本發明一實施例中，一種聲音播放裝置1的方塊圖。於一實施例中，聲音播放裝置1可應用於頭戴裝置中。更詳細地說，聲音播放裝置1的元件可分布設置在頭戴裝置的不同位置上。

聲音播放裝置1包含儲存元件10、聲音播放電路12以及處理器14。

於一實施例中，儲存元件10可為例如，但不限於光碟、隨機存取記憶體、唯讀記憶體、軟碟、硬碟或光學磁片。儲存元件10配置以儲存複數電腦可執行指令100。

聲音播放電路12配置以播放由處理器14產生的輸出聲音訊號13。於一實施例中，聲音播放電路12可包含第一播放單元以及第二播放單元(未繪示)，配置以播放第一聲道聲音和第二聲道聲音。其中，使用者可穿戴頭戴裝置，並將第一播放單元和第二播放單元置入或是靠近使用者的雙耳，以聆聽播放結果。

處理器14電性耦接於儲存元件10以及聲音播放電路12。於一實施例中，處理器14配置以擷取並執行電腦可執行指令100，並據以執行聲音播放裝置1的功能。

請參照第2圖及第3圖。聲音播放裝置1的功能將在以下的段落搭配第1圖、第2圖及第3圖進行詳細的說明。

第2圖為本發明一實施例中，一種聲音播放方法200的流程圖。聲音播放方法200可應用於第1圖的聲音播放裝置1中。

第3圖為本發明一實施例中，一個系統3的範例性示意圖。

於一實施例中，當電腦可執行指令100由處理器14執行時，可執行聲音播放方法200，並使聲音播放裝置1運作為系統3。系統3包含聲源300、編碼單元302、解碼單元 304、複數個頭部相關轉換函式(head-related transfer function；HRTF)轉換器306以及複數個補償單元308。

聲音播放方法200包含下列步驟(應瞭解到，在本實施方式中所提及的步驟，除特別敘明其順序者外，均可依實際需要調整其前後順序，甚至可同時或部分同時執行)。

於步驟201，接收與聆聽者資料102以及聲源資料104相關的輸入聲音訊號11。

請同時參照第4圖。第4圖為本發明一實施例中，位於虛擬環境4的聆聽者40以及聲源42的示意圖。

於一實施例中，聆聽者資料102包含聆聽者40，例如頭戴裝置的使用者，在虛擬環境4的位置的資訊。聆聽者資料102可儲存於儲存元件10中，並可根據例如，但不限於遊戲或是軍事訓練的模擬情境的過程即時地產生。處理器14可自儲存元件10中擷取聆聽者資料102。

於一實施例中，聲源資料104包含用以在虛擬環境4中產生可由使用者感知的聲音44的聲源42的位置的資訊。於一實施例中，聲源42相當於第3圖中的聲源300。

聲源資料104可由處理器14透過例如，但不限於聲音播放裝置1的網路模組(未繪示)所擷取，並可在模擬情境的過程中產生。

根據聆聽者資料102以及聲源資料104，處理器14可取得聆聽者40以及聲源42的位置。

在聲源42以及聆聽者40間，可形成聲音44的傳輸路徑，此傳輸路徑具有一傳輸方向。聲音44可在模擬情境的過程根據輸入聲音訊號11產生，其中輸入聲音訊號11可由處理器14透過例如，但不限於聲音播放裝置1的網路模組(未繪示)所擷取。更詳細地說，當輸入聲音訊號11被聲音播放裝置1處理並重製後，頭戴裝置的使用者將可感知到聲音44。

於步驟202，進行編碼程序，以將輸入聲音訊號與編碼函式矩陣相乘，進而產生編碼結果，其中編碼函式矩陣的複數個元素與基底函式相關。

於一實施例中，編碼程序是由第3圖所繪示的編碼單元302執行。詳細的編碼程序將於下列段落中描述。

於一實施例中，基底函式為球面諧波(spherical harmonics)函式，且這樣的基底函式可由下式描述：

這樣的基底函式，是與輸入聲音訊號11的傳輸方向相關的球面角度座標(spherical angular coordinates)θ及φ的函式，且具有由m及n所定義的階數。

於步驟203，由儲存元件10擷取解碼函式矩陣106並代入至少一方向參數，其中解碼函式矩陣106配置以補償輸入聲音訊號11的理想逼近結果以及模擬逼近結果間的誤差。

於一實施例中，一個測試聲音訊號S _t可由對測試聲音訊號S _t以第一編碼函式矩陣Y _mn(θ,φ)以及第一解碼函式矩陣D(θ,φ)進行編碼再解碼，來產生理想逼近結果P(θ _i ,φ _i)。其中，第一編碼函式矩陣Y _mn(θ,φ)以及第一解碼函式矩陣D(θ,φ)對應於具有無限的複數項次(即由m及n定義的階數為無限)的基底函式。其中上述的項次對應於測試聲音訊號S _t的不同的方向成分。於一實施例中，第一解碼函式矩陣D(θ,φ)是第一編碼函式矩陣Y _mn(θ,φ)的反矩陣。

因此，第一解碼函式矩陣D(θ,φ)可表示為D(θ,φ)=Y _mn(θ,φ)^-1。而理想逼近結果P(θ _i ,φ _i)可表示為： P(θ _i ,φ _i)=[D(θ,φ)][Y _mn(θ,φ)]S _t

更進一步地，測試聲音訊號S _t可由對測試聲音訊號S _t以第二編碼函式矩陣Y _mn’(θ,φ)以及第二解碼函式矩陣D’(θ,φ)進行編碼再解碼，來產生模擬逼近結果P’(θ _i ,φ _i)。其中，第二編碼函式矩陣Y _mn’(θ,φ)以及第二解碼函式矩陣D’(θ,φ)對應於相同但卻具有有限的複數項次(即由m及n定義的階數為有限)的基底函式。其中上述的項次對應於測試聲音訊號S _t的不同的方向成分。於一實施例中，第二解碼函式矩陣D’(θ,φ)是第二編碼函式矩陣Y _mn’(θ,φ)的反矩陣。

因此，第二解碼函式矩陣D’(θ,φ)可表示為D’(θ,φ)=Y _mn’(θ,φ)^-1。而模擬逼近結果P’(θ _i ,φ _i)可表示為：P’(θ _i ,φ _i)=[D’(θ,φ)][Y _mn’(θ,φ)]S _t

理想逼近結果P(θ _i ,φ _i)以及模擬逼近結果P’(θ _i ,φ _i)間的關係可表示為：P(θ _i ,φ _i)=P’(θ _i ,φ _i)[P(θ _i ,φ _i)/P’(θ _i ,φ _i)]=P’(θ _i ,φ _i)f _i(θ _i ,φ _i)

其中，項次f _i(θ _i ,φ _i)表示理想逼近結果P(θ _i ,φ _i)以及模擬逼近結果P’(θ _i ,φ _i)間的誤差。於一實施例中，項次f _i(θ _i ,φ _i)可被計算，並可被用以做為一個補償矩陣，來對第二解碼函式矩陣D’(θ,φ)進行調整。

因此，藉由將第二解碼函式矩陣D’(θ,φ)乘以補償矩陣f _i(θ _i ,φ _i)，可產生解碼函式矩陣106，且解碼函式矩陣106將可補償上述的誤差。於一實施例中，解碼函式矩陣106是儲存於儲存元件10中，並可在解碼程序進行時擷取。更進一步地，輸入聲音訊號11的方向參數，例如θ及φ，可用以代入解碼函式矩陣106。其中方向參數為用以描述輸入聲音訊號11的傳輸方向的參數。

須注意的是，上述的實施例中，以球面諧波函式做為基底函式的方式僅為一範例。然而，於其他實施例中，其他形式的函式亦可被使用來做為基底函式。

於步驟204，進行解碼程序，以將編碼結果301乘以代入方向參數的解碼函式矩陣106，進而產生輸出聲音訊號13。

於一實施例中，解碼單元304以及補償單元308共同執行上述的解碼程序，其中解碼單元304根據第二解碼函式矩陣D’(θ,φ)進行運算，而補償單元308根據補償矩陣f _i(θ _i ,φ _i)進行運算。當補償單元308的數目為N時，補償單元308將分別根據對應不同方向成分的補償矩陣f ₁(θ _i ,φ _i)、f ₂(θ _i ,φ _i)、...、及f _N(θ _i ,φ _i)進行運算。

於一實施例中，頭部相關轉換函式轉換器306可選擇性地設置於補償單元308前，其中頭部相關轉換函式轉換器306配置以根據頭部相關轉換函式進行轉換。於其他實施例中，補償單元308可設置於頭部相關轉換函式轉換器306前。

於一實施例中，由於使用了輸入聲音訊號11的方向參數以及補償矩陣f _i(θ _i ,φ _i)，解碼函式矩陣106根據誤差，加強對應於輸入聲音訊號11的傳輸方向的方向成分(亦即第4圖的聲音44的傳輸路徑的方向)。

於步驟205，使聲音播放電路12播放輸出聲音訊號13。

於一實施例中，第3圖所繪示的混合單元310可被設置以進一步產生兩軌輸出的輸出聲音訊號13，以使輸出聲音訊號13可被例如，但不限於耳機所播放。於其他實施例中，當聲音播放電路12具有更多通道時，混合單元310亦可產生多聲道形式的輸出聲音訊號13。

更進一步地，於一實施例中，可在儲存元件10中儲存對應於用以播放輸出聲音訊號13的聲音播放電路12的頻率響應特性的反向響應。因此，此反向響應可被擷取並先對輸出聲音訊號13進行反向響應計算，再進一步播放輸出聲音訊號13。

因此，輸出聲音訊號13的方向特性將不會被聲音播放電路12的種類，不管是耳機、擴大系統或是其他類型的聲音播放裝置所影響。

本發明的聲音播放裝置1以及聲音播放方法200可對輸入聲音訊號11進行強化，以在編碼程序和解碼程序後，使輸出聲音訊號13保持輸入聲音訊號11的方向性，而不會因為編碼過程而失真。

須注意的是，在部分實施例中，聲音播放方法200可由電腦應用程式實作。當電腦應用程式由電腦、電子裝置或是第1圖繪示的處理器14執行時，此執行裝置將執行聲音播放方法200。電腦應用程式可儲存於非暫態的電腦可讀取儲存媒體例如唯讀記憶體、快閃記憶體、軟碟、硬碟、光學碟片、快閃碟片、快閃硬碟、磁帶、可由網路存取的資料庫或任何在屬於本揭露書的範圍中，可由本領域熟知此技藝者所使用具有類似功能的儲存媒體中。

以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的原則之內所作的任何修改，等同替換和改進等均應包含本發明的保護範圍之內。

200‧‧‧聲音播放方法

201-205‧‧‧步驟

Claims

一種聲音播放方法，應用於一聲音播放裝置中，且包含：接收與一聆聽者資料以及一聲源資料相關的一輸入聲音訊號，該聆聽者資料和該聲源資料是在模擬情境的過程即時地產生；進行一編碼程序，以將該輸入聲音訊號與一編碼函式矩陣相乘，進而產生一編碼結果，其中該編碼函式矩陣的複數個元素(entry)與一基底函式相關；擷取一解碼函式矩陣並代入至少一方向參數，其中該解碼函式矩陣配置以補償該輸入聲音訊號的一理想逼近結果以及一模擬逼近結果間的一誤差，且該方向參數為用以描述該輸入聲音訊號的傳輸方向的參數；進行一解碼程序，以將該編碼結果乘以代入該方向參數的該解碼函式矩陣，進而產生一輸出聲音訊號；以及播放該輸出聲音訊號。
如請求項1所述的聲音播放方法，其中該基底函式為球面諧波(spherical harmonics)函式。
如請求項1所述的聲音播放方法，其中該理想逼近結果是對一測試聲音訊號以一第一編碼函式矩陣以及一第一解碼函式矩陣進行編碼再解碼所產生，且該第一編碼函式矩陣以及該第一解碼函式矩陣對應於具有無限的複數項次(indeterminate)的該基底函式；該模擬逼近結果是對該測試聲音訊號以一第二編碼函式矩陣以及一第二解碼函式矩陣進行編碼再解碼所產生，且該第二編碼函式矩陣以及該第二解碼函式矩陣對應於具有有限的該等項次的該基底函式；以及該解碼函式矩陣是以該第二解碼函式矩陣與一補償矩陣相乘所產生，其中該補償矩陣是由該誤差所產生。
如請求項3所述的聲音播放方法，其中該第一解碼函式矩陣是該第一編碼函式矩陣的反矩陣，該第二解碼函式矩陣是該第二編碼函式矩陣的反矩陣。
如請求項3所述的聲音播放方法，其中該等項次對應於該測試聲音訊號的不同的複數個方向成分。
如請求項5所述的聲音播放方法，其中該解碼函式矩陣根據代入之該方向參數和根據該誤差所產生之該補償矩陣，加強對應於該輸入聲音訊號的一傳輸方向的該等方向成分。
如請求項1所述的聲音播放方法，更包含：在一聲音播放電路播放該輸出聲音訊號前，以對應該聲音播放電路之頻率響應特性之反向響應，對該輸出聲音訊號進行一反向響應計算。
一種聲音播放裝置，包含：一儲存元件，配置以儲存複數個電腦可執行指令；一聲音播放電路；以及一處理器，電性耦接於該儲存元件以及該聲音播放電路，並配置以擷取並執行該等電腦可執行指令，以在該等電腦可執行指令被執行時執行一聲音播放方法，該聲音播放方法包含：接收與一聆聽者資料以及一聲源資料相關的一輸入聲音訊號，該聆聽者資料和該聲源資料是在模擬情境的過程即時地產生；進行一編碼程序，以將該輸入聲音訊號與一編碼函式矩陣相乘，進而產生一編碼結果，其中該編碼函式矩陣的複數個元素與一基底函式相關；擷取一解碼函式矩陣並代入至少一方向參數，其中該解碼函式矩陣配置以補償該輸入聲音訊號的一理想逼近結果以及一模擬逼近結果間的一誤差，且該方向參數為用以描述該輸入聲音訊號的傳輸方向的參數；進行一解碼程序，以將該編碼結果乘以代入該方向參數的該解碼函式矩陣，進而產生一輸出聲音訊號；以及使該聲音播放電路播放該輸出聲音訊號。
如請求項8所述的聲音播放裝置，其中該理想逼近結果是對一測試聲音訊號以一第一編碼函式矩陣以及一第一解碼函式矩陣進行編碼再解碼所產生，且該第一編碼函式矩陣以及該第一解碼函式矩陣對應於具有無限的複數項次的該基底函式；該模擬逼近結果是對該測試聲音訊號以一第二編碼函式矩陣以及一第二解碼函式矩陣進行編碼再解碼所產生，且該第二編碼函式矩陣以及該第二解碼函式矩陣對應於具有有限的該等項次的該基底函式；以及該解碼函式矩陣是以該第二解碼函式矩陣與一補償矩陣相乘所產生，其中該補償矩陣是由該誤差所產生。
一種非暫態(non-transitory)電腦可讀取儲存媒體，配置以儲存包含複數電腦可執行指令的一電腦程式，用以執行應用在一聲音播放裝置的一聲音播放方法，該聲音播放裝置至少包含一儲存元件、一聲音播放電路以及電性耦接於該儲存元件及該聲音播放電路並配置以擷取並執行該等電腦可執行指令，以在該等電腦可執行指令被執行時執行一聲音播放方法的一處理器，該聲音播放方法包含：接收與一聆聽者資料以及一聲源資料相關的一輸入聲音訊號，該聆聽者資料和該聲源資料是在模擬情境的過程即時地產生；進行一編碼程序，以將該輸入聲音訊號與一編碼函式矩陣相乘，進而產生一編碼結果，其中該編碼函式矩陣的複數個元素與一基底函式相關；擷取一解碼函式矩陣並代入至少一方向參數，其中該解碼函式矩陣配置以補償該輸入聲音訊號的一理想逼近結果以及一模擬逼近結果間的一誤差，且該方向參數為用以描述該輸入聲音訊號的傳輸方向的參數；進行一解碼程序，以將該編碼結果乘以代入該方向參數的該解碼函式矩陣，進而產生一輸出聲音訊號；以及使該聲音播放電路播放該輸出聲音訊號。