TWI566235B

TWI566235B - 針對音源聲道及音源物件之音源編碼及解碼之編碼器、解碼器及方法

Info

Publication number: TWI566235B
Application number: TW103125004A
Authority: TW
Inventors: 亞利克森德亞達米; 克利斯丁安鮑爾斯; 薩斯洽迪克; 克利斯丁安厄塔爾; 席夢尼傅吉; 朱爾哲希瑞; 強尼斯希爾佩特; 安卓斯荷勒哲; 米歇爾卡拉茲奇門; 法比恩庫奇; 亞琴昆慈; 安迪恩姆塔薩; 詹恩保羅葛斯帝斯; 安迪斯希爾茲爾; 漢尼史丹勒
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2013-07-22
Filing date: 2014-07-21
Publication date: 2017-01-11
Also published as: PL4033485T3; TW201528252A; CN105612577B; CN110942778B; ES2995102T3; AU2014295269B2; EP4462820A3; US20160133267A1; PT3025329T; EP4033485A1; SG11201600476RA; JP2016525715A; MX2016000910A; US11227616B2; US20190180764A1; EP2830045A1; KR20160033769A; CN110942778A; MX359159B; AR097003A1

Description

針對音源聲道及音源物件之音源編碼及解碼之編碼器、解碼器及方法

本發明係有關於音源編碼/解碼，特別是有關於空間音源編碼以及空間音源物件編碼。

空間音源編碼工具係此技術領域中所熟知，例如，在環繞MPEG標準中已有標準化規範。空間音源編碼從原始輸入聲道開始，例如在再現方案中依照其位置而識別的五個或是七個聲道，即左聲道、中間聲道、右聲道、左環繞聲道、右環繞聲道以及低頻增強聲道。空間音源編碼器通常從原始聲道衍生出至少一降混聲道，以及另外衍生出關於空間線索的參數數據，例如在聲道相干數值中的聲道間等級差異、聲道間相位差異、聲道間時間差異等等。至少一降混聲道係與指示空間線索的參數化輔助資訊一起傳送到空間音源解碼器。空間音源解碼器係解碼降混聲道以及相關聯的參數數據，最後取得與原始輸入聲道近似版本的輸出聲道。聲道在輸出方案之設置通常為固定，例如，5.1聲道格式或7.1聲道格式等等。

此外，空間音源物件編碼工具係此技術領域中所熟知且在MPEG SAOC標準中已成標準。相比於空間音源編碼從原始聲道開始，空間音源物件編碼係從非自動專為特定轉譯再現方案的音源物件開始。另外，音源物件在再現場景中的位置為可變化，且可由使用者藉由將特定的轉譯資訊輸入至空間音源物件編碼解碼器來決定。另外，轉譯資訊，即在再現方案中特定音源物件待放置的位置資訊，係以額外的輔助資訊或是元數據來傳送。為了獲得特定的數據壓縮，係由一SAOC編碼器來編碼音源物件之數量，SAOC編碼器係根據特定的降混合資訊來降混合物件以從輸入物件計算至少一運輸聲道。此外，SAOC編碼器係計算參數化側資訊，其代表物件間線索，例如物件位準差異(OLD)、物件相干數值等等。當在空間音源編碼(SAC)中，物件間參數數據係針對個別時間平鋪(time tiles)/頻率平鋪(frequency tiles)來計算，即，針對音源訊號之特定訊框(例如，1024或是2048個取樣值)，係考慮複數個頻帶(例如24、32或是64個頻帶等等)使得對於每一訊框以及每一頻帶皆存在參數數據。作為一舉例，當一音源片具有20個訊框且當每一訊框係細分成32個頻帶，則時間/頻率平鋪之數量係為640。

到目前為止並不存在一彈性化的技術以一方面結合聲道編碼以及在另一方面結合物件編碼，使得在低位元速率可以獲得可接受的音源品質。

本發明之目的在於提供對於音源編碼及音源解碼之一改善概念。

此目的可以透過如申請專利範圍第1項之一種音源編碼器、第8項之一種音源解碼器、第22項之一種音源編碼之方法、第23項之一種音源解碼之方法或是第24項之一種電腦程式來達到。

本發明是基於以下發現，在一最佳系統上的特性為一方面可靈活運作且另一方面可提供在一良好音源品質上的良好壓縮效率，可以由結合空間音源編碼與空間音源物件編碼，其中空間音源編碼即如基於聲道之音源編碼，空間音源物件編碼即如基於物件之編碼。特別是，提供一混合器用以混合在編碼器端上混合物件及聲道，以提供一良好之靈活度，尤其是針對低位元速率之應用，因為任何物件傳輸之後可以為非必要或是所需傳輸的物件數目可以被減少。另一方面來說，靈活度可使得音源編碼器可控制在兩個不同模式下，例如，其中在一模式裡，此物件在被核心編碼前即與聲道進行混合，而當在另一模式裡，其中一方面的物件資料以及另一方面的聲道資料係直接進行核心編碼而不將其進行混合。

此將確保使用者能夠在編碼器端上分開所處理的物件以及聲道，使得在解碼器端上可以獲得一完整的靈活度，但是這必須付出一加強位元速率的代價。另一方面，當位元速率需求變成較嚴格時，本發明允許在此編碼器端上執行一混合/預轉譯，例如，混合部份或全部的音源物件與聲道，使得核心編碼器只能編碼聲道資料以及編碼需要用於傳送音源物件資料的任何位元，其中此音源物件資料可為一降混合形式或是不需要之物件資料間參數之形式。

在解碼器端，因為相同的音源解碼器允許在兩個不同模式下操作，使用者係再次具有高度靈活度，舉例來說，在第一模式裡，個別或分開的聲道及物件編碼係發生且解碼器具有完整的靈活度以轉譯物件及混合聲道資料。另一方面，當在編碼器端上已發生一混合/預轉譯時，解碼器係用以執行不含任何中間物件處理的一後置處理，另一方面，此後置處理也能應用在其他模式裡的資料，例如，發生在解碼器端上的物件轉譯/混合。因此，本發明允許一處理框架，來允許大量資源在編碼器端及在解碼器端上的重覆使用。此後置處理可以參考降混合以及立體化或是其他處理，以獲得一最終聲道腳本，例如一個欲再現佈局。

此外，在一非常低位元速率需求之情形下，本發明提供使用者足夠的靈活度來反應此低位元速率需求，例如，藉由在編碼器端上的預轉譯，而付出一些靈活度的代價，然而在解碼器端上可以獲得非常良好的音源訊號，由於不再從編碼器提供任何物件資料至解碼器，故位元可以被節省而且能夠妥善的用於編碼聲道資料，例如當有足夠的位元可使用時，透過良好量化此聲道資料或是藉由其他方式以改善音源品質或是用以減少編碼損失。

在本發明的一較佳實施方式中，此編碼器額外包含一SAOC編碼器，不僅允許編碼物件輸入至編碼器，也允許編碼SAOC編碼聲道資料，以在一較低需求位元速率中取得一良好的音源品質。此外，本發明此實施方式中也包含一後置處理功能，其包含一立體轉譯器及/或一格式轉換器。此外，較佳的是，針對在揚聲器之一較大數目，如在一22或32聲道之揚聲器方案，在解碼器端上的全部處理係已全部發生。然而，舉例來說，此格式轉換器決定只在一5.1聲道輸出，如針對一再現佈局的一輸出，且此再現佈局之聲道數目係少於聲道之最大數目，然後較佳的情況是，此格式轉換器控制USAC解碼器或是SAOC解碼器或者是以上兩者，來限制核心解碼操作以及SAOC解碼操作。到最後，使得任何降混合至一格式轉換器之聲道不會在解碼時被產生。一般來說，升混合聲道之產生需要解相關處理，且每一解相關處理係產生一些位準加工品。因此，通過控制核心解碼器及/或SAOC解碼器由最後所需的輸出格式，大量附加的解相關處理係被儲存來與一情況相比，此情況係為當不存在一相互作用而導致一音源改善以及導致減少解碼器之一複雜度，到最後，降低的功率效耗對於容納本發明編碼器或是解碼器之移動裝置特別有用。然而，本發明之編碼器/解碼器不僅能在移動裝置裡採用，如行動電話、智慧型手機、筆記型電腦或是衛星導航裝置，亦能直接地被使用在桌上型電腦或是其他非移動家電中。

上述的實施方式，例如，為了不產生一些聲道，因為一些訊息可能會遺失，故可能不是最佳化(例如在聲道間之位準差將會被降混合)，如果此降混合應用不同的降混合增益到升混合聲道裡，此位準差資訊可能不是重要的，但是其可能導致不同的降混合輸出訊號。一種改善的解決方式係僅在升混合裡關閉解相關，但是仍然會產生具有正確位準差之所有升混合聲道(以作為訊號的參數SAC)。第二解決方式會導致一較佳音源品質，但是第一解決方式會導致較大複雜度之降低。

90‧‧‧輸入聲道

91‧‧‧編碼QCE元件

100‧‧‧輸入介面、介面

101‧‧‧音源輸入資料

200‧‧‧混合器、預轉譯器/混合器、預轉譯器/混合器選項

300‧‧‧核心編碼器、USAC編碼器

310‧‧‧QCE編碼器

400‧‧‧元數據壓縮器、OAM編碼器、區塊

402‧‧‧箭號

420‧‧‧OAM解碼器

500‧‧‧輸出介面、USAC編碼器

501‧‧‧音源輸出資料、資料

600‧‧‧模式控制器

800‧‧‧SAOC編碼器、SAOC編碼器選項、空間音源物件編碼器

900‧‧‧連接

1100‧‧‧輸入介面

1200‧‧‧物件處理器

1205‧‧‧輸出聲道、高聲道格式、資料、混合器輸出訊號

1210‧‧‧物件轉譯器、區塊、物件轉譯

1220‧‧‧混合器、區塊

1300‧‧‧核心編碼器、USAC解碼器、CPE、SCE、QCE、用以在全速下轉換解碼SCE，CPE，QCE之核心解碼器以及應用SBR以及參數化立體聲、解碼器

1310‧‧‧QCE解碼器

1400‧‧‧元數據解壓縮器、OAM解碼器

1600‧‧‧模式控制器

1700‧‧‧後置處理器

1710‧‧‧立體轉譯器、輸出區塊

1712‧‧‧降混合器

1714‧‧‧立體轉換器、立體轉譯器(以10個取代44個HRTF(BRIRs))

1720‧‧‧格式轉換器、輸出區塊、格式轉換區塊

1722‧‧‧降混合區塊、降混合器(在QMF領域裡操作)

1724‧‧‧控制器、用以設定降混合器之控制器

1727‧‧‧捷徑、控制線、線

1730‧‧‧輸出、輸出介面

1800‧‧‧SAOC解碼器、方框、空間音源物件編碼解碼器

1810‧‧‧向量基礎幅度平移(VBAP)階段、向量基礎幅度平移、VBAP

第1圖係顯示一編碼器之一第一實施例。

第2圖係顯示一解碼器之一第一實施例。

第3圖係顯示一編碼器之一第二實施例。

第4圖係顯示一解碼器之一第二實施例。

第5圖係顯示一編碼器之一第三實施例。

第6圖係顯示一解碼器之一第三實施例。

第7圖係顯示一示意圖，指出編碼器/解碼器根據本發明之實施例以操作於個別模式中。

第8圖係顯示一格式轉換器之一特定實現方式。

第9圖係顯示一立體轉換器之一特定實現方式。

第10圖係顯示一核心解碼器之一特定實現方式。

第11圖係顯示針對處理一四聲道元件(QCE)以及相對於QCE解碼器之一編碼器之一特定實現方式。

第1圖係根據本發明之一實施例之一編碼器。編碼器係用以編碼一音源輸入資料101以獲得一音源輸出資料501，此編碼器包含一輸入介面以接收由CH所指出之複數個音源聲道，以及接收由OBJ所指出之複數個音源物件，此外，如第1圖所顯示，輸入介面100係另外接收有關於至少一複數個音源物件OBJ之元數據，另外，此編碼器包含一混合器200，係用以混合複數個物件以及複數個聲道以獲得複數個預混合聲道，其中每一預混合聲道係包含一聲道之一音源資料以及至少一物件之一音源資料。

此外，此編碼器包含一核心編碼器300，用以核心編碼一核心編碼器輸入資料，以及一元數據壓縮器400，係用以壓縮有關於至少一複數個音源物件之元數據，此外，此編碼器包含一模式控制器600，用以在幾個操作模式的其中之一裡控制混合器、核心編碼器及/或一輸出介面，其中在第一模式裡，核心編碼器係用以編碼複數個音源聲道及複數個音源物件，此複數個音源聲道及複數個音源物件係由輸入介面100所接收且沒有與混合器有任何的交互作用，例如，未經由混合器200進行任何的混合。然而，在一第二模式裡，其中此混合器200是活躍的，核心編碼器編碼複數個混合聲道，例如，經由區塊200產生之輸出。在之後的案例中，較佳的情況是不在編碼任何物件資料。取代的是，元數據指出已被混合器200使用之音源物件之位置，以轉譯此物件至聲道上，以作為元數據所指出之訊息。換句話說，混合器200使用關於複數個音源物件之元數據以預轉譯此音源物件，然後混合此預轉譯音源物件及聲道以取得在混合器之輸出上的混合聲道。在此實施方式中，任何物件可以為非必須地被傳送，且這也適用於壓縮的元數據，如透過區塊400之輸出。然而，如果不是所有的物件被輸入到介面100進行混合，而是只有一部份被混合，則只有剩下未混合的物件以及相關的元數據會分別被傳送到核心編碼器300或是元數據壓縮器400。

第3圖係顯示一編碼器之更進一步之實施例，此編碼器係額外包含一SAOC編碼器800。此SAOC編碼器800係用以從一空間音源物件編碼器輸入資料產生至少一傳輸聲道以及一參數化資料。如第3圖所示，此空間音源物件編碼器輸入資料係為不被預轉譯器/混合器處理之物件，另外，當在第一模式裡且其中一個別聲道/物件編碼係為激發的，假設此預轉譯器/混合器被繞過，則所有輸入到輸入介面100的物件將會被SAOC編碼器800進行編碼。

此外，如第3圖所顯示，較佳地，核心編碼器300可以一USAC編碼器來實現，例如，如在MPEG-USAC(Unified Speech and Audio Coding)標準裡定義及標準他之一編碼器。如在第3圖所顯示全部編碼器之輸出係為一MPEG4資料串流，此資料串流係針對個別的資料型態而具有類容器結構。此外，如在第1圖裡，元數據被指示為"OAM"資料以及元數據壓縮器400對應於OAM編碼器，以取得輸入至USAC編碼器300裡的壓縮OAM資料，如第3圖所示，額外包含了輸出介面以獲得MP4輸出資料串流，此MP4輸出資料串流不僅具有編碼聲道/物件資料，亦具有壓縮OAM資料。

第5圖係顯示一編碼器之另一實施例，其中相對於第3圖，在此模式中，此SAOC編碼器可使用SAOC編碼演算法，來對未被激發預轉譯/混合器200所提供的聲道進行編碼，也可以SAOC編碼此預轉譯聲道及物件。因此，在第5圖，此SAOC編碼器可以在三個不同類型輸入資料上操作，例如，沒有任何預轉譯物件之聲道，聲道及預轉譯物件，或是單獨的物件。此外，例如，在第5圖裡另外提供了一OAM解碼器420，使得SAOC編碼器800使用相同資料以作為在解碼器端通過有損害之壓縮，而不是原始的OAM資料所獲得的資料.

第5圖之編碼器可以操作在好幾個個別的模式裡。

除了如第1圖上下文裡所討論的第一及第二模式，第5圖之編碼器能夠在一第三模式下操作，當預轉譯器/混合器200是不被激發時，核心編碼器係從個別的物件產生至少一運輸聲道。另外，在第三模式下，SAOC編碼器800能從原始聲道產生至少一替換物或者是附加的運輸聲道，例如，再一次地，當相對於第1圖之混合器之預轉譯器/混合器200是不被激發的。

最後，當編碼器在第四模式下時，此SAOC編碼器800能夠編碼由預轉譯器/混合器產生之聲道以及預轉譯物件。因此，在第四模式裡，由於聲道及物件完整地被傳送到個別的SAOC運輸聲道及相關的輔助資訊，如第3圖和第5圖所指示的"SAOC-SI"，最低位元速率應用將提供良好的品質，另外，任何壓縮的元數據在第四模式裡將不會被傳送。

第2圖係顯示根據本發明之一實施例之一解碼器。此解碼器接收編碼音源資料以作為一輸入，例如第1圖裡的資料501。

解碼器包含一元數據解壓縮器1400、一核心解碼器1300、一物件處理器1200、一模式控制器1600以及一後置處理器1700。

特別是，音源解碼器係用以解碼編碼音源資料，輸入介面係用以接收編碼音源資料，編碼音源資料包含複數個編碼聲道、複數個編碼物件和在一特定模式裡有關於複數個物件之壓縮元數據。

此外，核心解碼器1300係用以解碼複數個編碼聲道以及複數個編碼物件，以及此元數據解壓縮器係用以解壓縮此壓縮元數據。

此外，物件處理器1200係使用解壓縮元數據以處理由核心解碼器1300所產生的複數個解碼物件，以獲得預定數目之輸出聲道，此輸出聲道包含物件資料以及解碼聲道。如指示在1205上的這些輸出聲道然後被輸入到一後置處理器1700裡，此後置處理器1700係用以轉換輸出聲道1205之數目到一個特定的輸出格式，此輸出格式能夠是一立體輸出格式或者是一揚聲器輸出格式，例如5.1聲道、7.1聲道等等的輸出格式。

較佳地，解碼器包含一模式控制器1600，係用以分析編碼資料以偵測一模式指示，因此，模式控制器1600係連接到第2圖中的輸入介面1100。然而，另外此模式控制器不需要位在那個地方。可取代的是，此彈性化解碼器能由其他種類的控制資料進行預設定，例如一使用者輸入或是任何其他的控制。在第2圖裡的音源解碼器係受到模式控制器1600所控制，此音源解碼器係用以繞過物件處理器且饋入複數個解碼聲道到後置處理器1700裡。在第2模式裡的操作，例如，只能接收到預轉譯聲道，例如，當第2模式應用於在第1圖的編碼器。另外，當第1模式在編碼器裡被應用時，例如，當編碼器執行個別的聲道/物件編碼，然後此物件處理器1200是無法被繞過的，但是該複數個解碼聲道及該複數個解碼物件係與解壓縮元數據一起饋入到物件處理器1200，其中此解壓縮元數據係由元數據解壓縮器1400所產生。

較佳地，第1模式或是第2模式是否被應用之指示是包含在編碼音源資料裡，然後模式控制器1600係分析編碼資料以偵測一模式指示。當模式指示指出編碼音源資料包含編碼聲道及編碼物件時，第1模式係被採用，而當此模式指示指出編碼音源資料不包含任何音源物件時，第2模式係被採用，例如，在第1圖編碼器裡，由第2模式所包含之預轉譯聲道。

相較於第2圖，第4圖顯示一較佳實施例，且第4圖之實施例係相對於第3圖之編碼器。除了第2圖之解碼器實施方式，第4圖裡之解碼器包含一SAOC解碼器1800。此外，當物件轉譯器1210之取決於模式之功能性也能被SAOC解碼器1800實現時，第2圖之物件處理器係被實現以作為一分開的物件轉譯器1210以及混合器1220，此外，後置處理器1700能被實現以作為一立體轉譯器1710或者是一格式轉換器1720。另外，第2圖之資料1205之一直接輸出也能如圖示1730一樣被實現。因此，若是一較小格式為必須時，較佳的方式是在最高數目聲道上之解碼器裡執行此處理以具有靈活度以及後置處理，最高數目聲道可例如為22.2聲道或32聲道，然而，當它從一開始即需要小格式，例如5.1聲道格式，而變得清楚時，較佳的方式是，如第2圖及第6圖所示之捷徑1727，在SAOC解碼器及/或USAC解碼器上的一定控制能被應用以避免不必要的升混合操作以及隨後的降混合操作。

在本發明之一較佳實施方式中，物件處理器1200包含SAOC解碼器1800，SAOC解碼器係用以解碼由核心解碼器輸出之至少一運輸聲道以及相關之參數化資料，且SAOC解碼器使用解壓縮元數據以獲得複數個轉譯音源物件。到最後，OAM輸出係連接至方框1800。

此外，物件處理器1200係用以轉譯由核心解碼器輸出之解碼物件，此核心解碼器在SAOC運輸聲道裡不進行編碼，但是在單一聲道元件裡係被個別地編碼，例如由物件轉譯器1210所指示。此外，解碼器包含一輸出介面以對應至輸出1730，用以輸出混合器之一輸出至揚聲器裡。

在一進一步的實施方式中，物件處理器1200包含一空間音源物件編碼解碼器1800，係用以解碼至少一傳輸聲道以及表示編碼音源物件或編碼音源聲道之相關參數化輔助資訊，其中空間音源物件編碼解碼器為了直接地轉譯輸出格式，係轉碼相關之參數化資訊以及解壓縮元數據成可用之轉碼參數化輔助資訊，例如SAOC中一較早版本所定義之範例。後置處理器1700係使用解碼傳輸聲道以及轉碼參數化輔助資訊以計算輸出格式之音源聲道。透過後置處理器所執行之處理能夠相似於MPEG環繞處理或者是任何其他處理，例如BCC處理等。

在一較佳實施例中，物件處理器1200包含一空間音源物件編碼解碼器1800，為了使用解碼(透過核心解碼器)運輸聲道以及該參數化輔助資訊之輸出格式，空間音源物件編碼解碼器1800係直接地升混合且轉譯聲道訊號。

此外，重要的是，當預轉譯物件與聲道混合存在時，如第1圖之混合器200被激發時，在第2圖中之物件處理器1200係另外包含混合器1220，且此混合器1220係接收由USAC解碼器1300輸出之資料以直接作為一輸入，此外，混合器1220從沒有SAOC解碼而執行物件轉譯的物件轉譯器上接收資料，此外，混合器接收SAOC解碼器輸出資料，例如SAOC轉譯物件。

混合器1220被連接至輸出介面1730、立體轉譯器1710以及格式轉換器1720。立體轉譯器係使用總相關轉移函式或是立體空間脈衝響應(BRIR)以轉譯輸出聲道至兩個立體聲道，格式轉換器1720，係用以轉換輸出聲道至一輸出格式，此輸出格式具有比混合器輸出聲道1205之一較少聲道數目，且格式轉換器1720需要再現佈局上之資訊，例如5.1聲道揚聲器左右。

第6圖解碼器不同於第4圖解碼器的地方在於SAOC解碼器不但能產生轉譯物件，也能夠轉譯聲道，如當第5圖編碼器被使用且在聲道/預轉譯物件與SAOC編碼器800輸入介面之連接900為被激發的。

此外，一向量基礎幅度平移(VBAP)階段1810係用以接收再現佈局上來自於SAOC解碼器之資訊，且輸出一轉譯矩陣至SAOC解碼器，使得SAOC解碼器能夠在最後提供轉譯聲道，其中此轉譯聲道不含在高聲道格式1205裡，如32聲道揚聲器，的混合器之任何進一步操作。

較佳地，此VBAP區塊接收解碼OAM資料以導出轉譯矩陣，更一般化地，其不僅需要再現佈局之幾何資訊，也需要位置之幾何資訊，其中此位置係為輸入訊號應該被轉譯在再現佈局上之位置。此幾何輸入資料能夠是針對物件的OAM資料或者是針對聲道之聲道位置資訊，其中此OAM資料及聲道位置資訊係使用SAOC以進行傳輸。

然而，如果只有一特定輸出介面是需要的，然後此VBAP陳述1810能夠為例如，5.1聲道輸出，而提供所需要的轉譯矩陣，此SAOC解碼器1800然後從SAOC運輸聲道、相關參數化資料及解壓縮元數據執行一直接轉譯，一直接轉譯至需要的輸出格式不須混合器1220之任何相互作用。然而，當在模式間的一特定混合被應用時，如其中部份聲道係為SAOC編碼但並非全部都是SAOC編碼，或者是其中部份物件係為SAOC編碼但並非全部都是SAOC編碼，或者是當只有特定數目的預轉譯物件與聲道為SAOC編碼且剩餘的聲道不被SAOC處理，然後混合器將會從個別輸入部份的資料置放在一起，例如直接從核心解碼器1300、從物件轉譯器1210以及從SAOC解碼器1800。

隨後，第7圖係針對藉由本發明之高彈性和高品質之音源編碼器/解碼器的概念指示特定編碼器/解碼器模式以進行討論。

根據第一編碼模式，在第1圖編碼器裡的混合器200係被繞過，且因此，在第2圖解碼器裡的物件處理器係不被繞過。

在第2模式裡，第1圖裡的混合器200係被激發且第2圖裡的物件處理器係被繞過，然後，在第3編碼模式裡，第3圖之SAOC編碼器被激發，但只有SAOC編碼此物件，而不是聲道來作為通過混合器而輸出。因此，如第4圖裡所顯示的解碼器端上，第3模式需要針對物件以及產生的轉譯物件進行激發的SAOC解碼器。

如第5圖裡顯示的第四編碼模式，SAOC編碼器係用以SAOC編碼預轉譯聲道，例如當在第2模式裡，混合器係被激發。在解碼器端上，SAOC解碼為了預轉譯物件而被執行，使得物件處理器在第二編碼模式裡被繞過。

此外，一種第五編碼模式可存在於從第一模式到第四模式之任何混合裡。特別是，當在第6圖裡的混合器1220存在一混合編碼模式以直接地從USAC解碼器接收聲道，另外，亦直接地從USAC解碼器接收聲道與預轉譯物件。此外，在此混合編碼模式裡，較佳地，物件係使用USAC解碼器之一單一聲道元件來進行編碼，在此上下文中，物件轉譯器1210然後轉譯這些解碼物件以及轉送他們到混合器1220。此外，幾個物件係由一SAOC編碼器額外地進行編碼，當被SAOC技術編碼的幾個聲道存在時，將使得SAOC解碼器將會輸出轉譯物件至混合器及/或轉譯聲道。

混合器之每一個輸入部分能夠擁有一最小的潛在性，用以接收聲道數目，例如在1205所指示之32聲道，因此，基本上，混合器能夠從USAC解碼器接收32聲道，並且從USAC解碼器接收32預轉譯/混合聲道，並且從物件轉譯器接收32"聲道"，另外，從SAOC解碼器接收32"聲道"，其中一方面，每一"聲道"係在區塊1210及1218之間，另一方面區塊1220具有相對於在一對應揚聲器聲道裡物件之一貢獻，然後混合器1220混合，例如，增加了對每個揚聲器聲道的個別貢獻。

在本發明之一較佳實施方式中，編碼/解碼系統是基於在用於編碼聲道及物件訊號的MPEG-D USAC編解碼器上，為了增加編碼大量物件的效率，MPEG SAOC技術係已經被改編。轉譯器的三種型態執行轉譯物件至聲道、轉譯聲道至耳機或者是轉譯聲道至一不同的揚聲器方案。當物件訊號明確地使用SAOC傳送或是參數化時，對應之物件元數據資訊係被壓縮且多工至編碼輸出資料裡。

在一實施例中，在編碼前，預轉譯器/混合器200係用於轉換一聲道及物件輸入場景至一聲道場景。功能上，如第4圖或第6圖所示，其等同於在解碼器上物件轉譯器/混合器之結合，且如在第2圖之物件處理器1200所指示。物件之預轉譯確保在編碼器輸入上一決定性的訊號熵，其基本上係獨立於激發物件訊號之數目，有了物件的預轉譯，便可以不需傳輸物件元數據。離散物件訊號被轉譯至供編碼器使用的聲道佈局，針對每一聲道，從相關的物件元數據OAM可取得物件權重，如箭號402所指示。

作為一核心/編碼器/解碼器以用於揚聲器聲道訊號、離散物件訊號、物件降混合訊號以及預轉譯訊號，一USAC技術是一較佳的選擇。它藉由建立聲道以及物件映射資訊(輸入聲道以及物件分配之幾何與語義資訊)處理了多數訊號之編碼。如第10圖所示，此映射資訊描述輸入聲道和物件如何映射到USAC聲道元件，例如，聲道配對元件(CPEs)、單一聲道元件(SCEs)、聲道四元件(QCEs)以及從核心編碼器傳送到核心解碼器之相關資訊。所有附加的負載，如SAOC資料或是物件元數據，已透過延長元件而被傳遞並且係在編碼器的速率控制裡被考慮過。

根據對於轉譯器之速率/變形需求以及相互作用需求，物件之編碼可能存在不同的方式，以下的物件編碼變化均有可能：

*轉譯物件：物件訊號在進行編碼前，其被預轉譯及混合到22.2聲道訊號，隨後編碼鏈係看見22.2聲道訊號。

*離散物件波形：物件被視為單聲道波形以供應至編碼器，除了聲道訊號，編碼器使用單一聲道元件SCEs以傳輸物件，解碼物件係在接收器端被轉譯和混合的，壓縮物件元數據資訊係一起被傳送到接收器/轉譯器。

*參數化物件波形：物件特性以及他們對於其他物件的關係可藉由SAOC參數來描述，物件訊號之降混合是利用USAC來進行編碼，參數化資訊係一起被傳輸，降混合聲道之數目的選擇係取決於物件數目以及全部的資料速率，壓縮物件元數據資訊係被傳送至SAOC轉譯器。

針對物件訊號，SAOC編碼器以及解碼器係以MPEG SAOC技術為基礎，根據小數目之傳輸聲道以及附加的參數化資料(OLDs，IOCs(物件間之相關性)，DMGs(降混合增益))，此系統能夠重建、更改以及轉譯大量的音源物件，此附加的參數化資料顯著地展示了比傳輸所有個別物件較低的一資料速率，以形成一高效率之編碼。

SAOC編碼器將輸入物件/聲道訊號作為單聲道波形，並輸出參數化資訊(充滿在三維音源字元串流裡)以及SAOC運輸聲道(使用單一聲道元件進行編碼以及傳輸)。

SAOC解碼從解碼SAOC運輸聲道參數化資訊重建物件/聲道訊號，並基於再現佈局、解壓縮物件元數據資訊以及可選擇地使用者相互作用資訊以產生輸出音源場景。

對於每一物件，相關元數據定義了幾何位置，且在三維空間裡物件之容量係透過在時間和空間裡物件特性之量化而被有效率的進行編碼。壓縮物件元數據cOAM係被傳送至接收器以作為輔助資訊。物件之容量可以包含在一空間範圍上之資訊及/或音源物件之音源訊號之訊號位準資訊。

物件轉譯器根據所給予的再現格式，使用壓縮物件元數據以產生物件波形，每一物件根據其元數據被轉譯至特定的輸出聲道，區塊的輸出係從部分結果的總和而來。

若是以內容為基礎的兩個聲道以及離散/參數化物件被解碼，在輸出結果波形前，以波形為基礎之聲道以及轉譯物件波形係被混合(或者是在饋入它們到類似一立體轉譯器或是一揚聲器轉譯器模組之一後置處理器模組前)。

立體轉譯器模組產生多聲道音源材料之立體降混合，使得每一輸入聲道可透過一虛擬聲音來源而表示。此處理是在QMF(正交鏡像濾波器)領域裡以逐訊框來進行。

此立體是基於所測量之立體空間脈衝響應。

第8圖係顯示一格式轉換器1720之一較佳實現方式。揚聲器轉譯器或者是格式轉換器在傳送者聲道組態以及期望之再現格式間進行轉換。此格式轉換器執行轉換以降低輸出聲道之數目，例如建立降混合。到最後，在QMF領域裡操作之降混合器1722係接收混合器輸出訊號1205 以及輸出揚聲器訊號。較佳地，控制器1724用以設定降混合器1722，並接收一混合器輸出佈局以作為一控制輸入，如針對被決定之資料1205的佈局以及一期望的再現佈局係被輸入至如第6圖裡所顯示的格式轉換區塊1720。基於此資訊，針對所給予之輸入和輸出格式之混合，控制器1724可自動地產生最佳降混合矩陣，且在降混合過程中在降混合區塊1722裡應用這些矩陣。格式轉換器允許標準揚聲器的組態以及非標準揚聲器位置之任意組態。

如第6圖上下文所繪示，SAOC解碼器係設計利用隨後的格式轉換以轉譯預定義的聲道佈局，如22.2聲道，至目標再現佈局。此外，然而，SAOC解碼器係被實現於支援"低能量"模式，其中SAOC解碼器係不進行格式轉換而直接解碼至再現佈局。在此實施方式中，SAOC解碼器1800直接輸出如5.1揚聲器訊號之揚聲器訊號，且SAOC解碼器1800需要再現佈局資訊以及轉譯矩陣，使得向量基礎幅度平移或是用於產生降混合資訊的其他任何種類之處理器可以進行操作。

第9圖顯示如第6圖之立體轉譯器1710之一實施例，特別是對於行動裝置，立體轉譯對於附加在行動裝置的耳機或是附加於小型行動裝置之揚聲器是必須的。針對這樣的行動裝置，限制可能存在限制此解碼器以及轉譯複雜度。除了在這樣的處理情景裡省略解相關，其較佳的方式是首先使用降混合器1712降混合至一中間降混合，例如，到一較低之輸出聲道數目並針對立體轉換器1714而導致一較低之輸入聲道數目。最佳地，22.2聲道材料由降混合器1712降混合至一5.1聲道中間降混合，或者是，此中間降混合被如第6圖之SAOC解碼器1800以一"捷徑"模式來直接計算，然後，如果22.2輸入聲道已直接被轉譯，相較於針對BRIR函式申請44個HRTF(標頭相關傳輸函式)，對於在不同位置上轉譯五個個別聲道，此立體轉譯只須申請十個HRTFs或者是BRIR函式，特別是，必要的立體轉譯在此回旋操作上需要大量的處理能量，因此，當取得可接受之音源品質以及減少處理能量對於行動裝置是極為有用的。

較佳地，如控制線1727所繪示的"捷徑"，其包含控制解碼器1300以解碼至一較低數目聲道，例如，在解碼器裡略過全部的OTT處理區塊，或是一格式轉換至一較低數目聲道，以及如第9圖所繪示，為了此降低之聲道數目，此立體轉譯係被執行。相同的處理不僅能應用於立體處理，也能夠應用於格式轉換，如第6圖裡所繪示的線1727。

在一進一步的實施例中，在處理區塊間需要一高效率之介面，尤其是在第6圖，在不同處理區塊間的音源訊號路徑係被描繪的。在一QMF或是混合QMF領域裡的所有操作，立體轉譯器1710、格式轉換器1720、SAOC解碼器1800以及USAC解碼器1300，在SBR(頻譜頻帶複製)的案例中係被應用的。根據一實施例，所有這些處理區塊提供一QMF或是一混合QMF介面以允許在QMF領域裡的介面間以一高效率的方式通過音源訊號。另外，其也傾向於實現混合器模組以及物件轉譯器模組以工作於QMF或是混合QMF領域裡因此，個別的QMF或混合QMF分析以及綜合階段能夠被防止，並導致節省可觀的複雜度，然後最後只有需要QMF綜合階段以用於產生如1730所指示的揚聲器，或是產生在輸出區塊1710上之立體資料，或是產生在輸出區塊1720上之再現佈局。

之後，為了解釋四聲道元件(QCE)，請參考第11圖。對比於如定義於USAC-MPEG標準之一聲道配對元件，四聲道元件需要四個輸入聲道90以及輸出一編碼QCE元件91。在一實施例裡，在2-1-2模式裡的兩個MPEG環繞框之一階層或是兩個TTO框(TTO等於二對一)以及附加定義在MPEG USAC裡的聯合立體聲編碼工具，例如MS-立體聲，或是MPEG環繞係被提供的，且QCE元件不僅包含兩個共同的立體聲編碼降混合聲道以及兩個共同的立體聲編碼殘餘聲道，以及例如從兩個TTO框衍生的參數化資料。在解碼器端上，一結構係被應用於在兩個降混合聲道以及被應用之兩個殘餘聲道之聯合立體聲解碼裡，且在一具有兩個OTT框的第二階段裡，降混合以及殘餘聲道係被升混合至四個輸出聲道。然而，針對一QCE編碼器之另外處理操作能夠被應用於代替此階層操作。如此一來，除了一組兩聲道的聯合聲道編碼，核心編碼器/解碼器另外使用一組四聲道的一聯合聲道編碼。

此外，其傾向於執行一加強的雜訊填充程序，能全頻帶(18kHz)能不被妥協的在1200kbps處編碼。

編碼器已操作在一"具有位元池之常數速率"方式裡，針對動態資料，每一聲道使用6144位元之最大值以作為速率緩衝器，所有附加的負載，如SAOC資料或是物件元數據，已透過延長元件而被傳遞並且係在編碼器的速率控制裡被考慮過。

針對三維音源內容，為了得到SAOC功能性之好處，以下MPEG SAOC之延伸已被實現：

*降混合SAOC運輸聲道至任意數目。

*加強轉譯至具有高數目揚聲器之輸出設置(最高到22.2)

立體轉譯器模組產生多聲道音源材料之一立體降混合，使得每一輸入聲道(除了LFE聲道)可藉由一虛擬聲音來源而表示。此處理是在QMF領域裡以逐訊框來進行。

此立體是基於所測量之立體空間脈衝響應。直接聲音以及提早反射係經由快速傅利葉轉換之一回旋方式印到音源材料上，此回施方式係使用在最上層QMF領域之一快速回旋。雖然此裝置在上下文裡已進行了一些方面的描述，很清楚的可以得裀，這些方面也表示了對應方法的一描述，其中一區塊或裝置對應至一方法步驟，或是一方法步驟裡的一特徵。類似地，在方法步驟的上下文中也表現了一對應區塊或項目或是一對應裝置之特徵的一描述。部份方法步驟或是全部方法步驟可以藉由一硬體裝置來被執行，舉例來說，一個微處理器，一個可程式化之電腦或是一個電子電路。在部份實施方式中，一些或更多的最重要方法步驟可以透過這樣的一裝置來被執行。

根據特定實施方式的需求，本發明之實施例能在實現在硬體或是在軟體上。此實現方法可使用一非臨時性儲存媒介，如一數位儲存媒介，來執行，舉例來說，一軟體磁碟機，一DVD，一Blu-Ray，一CD，一ROM，一PROM，一EPROM，一EEPROM或是一個快閃記憶體，非臨時性儲存媒介具有儲存其上的可讀控制訊號，其可以與一可程式化電腦系統合作(或能與其合作)，使得個別的方法可以被執行。因此，此數位儲存媒介是可以被計算機讀取的。

根據本發明包含一資料載體，其係具有電子可讀取控制訊號，部份實施方法係能夠與一可程式化電腦合作，使得在這裡描述的其中一個方法可以被執行。

一般來說，本發明之實施方式能夠以具有一程式碼之一計算機程式產品來被實現，當此計算機程式產品執行在一電腦上時，此程式碼可操作用以執行其中一方法。例如，此程式碼可以被儲存在一機器可讀載體。

其他實施方法包含電腦程式以執行在此描述的其中一方法，其中此方法係儲存於一機器可讀載體上。

換句話說，本發明之一實施方式是具有一程式碼的一電腦，當在一電腦上執行此程式碼時，執行在此描述裡的其中一方法。

在此發明中之更進一步的實施方式為，一資料載體(或一數位儲存媒介，或是一計算機可讀媒介)包含儲存的電腦程式，用以執行在此描述的其中一方法。此資料載體、數位儲存媒介或是儲存媒介一般來說是實體的及/或非臨時性的。

在此發明中之更進一步的實施方式為，表示電腦程式的一資料串流或一訊號序列，係用以執行在此描述的其中一方法。例如，資料串流或是訊號序列可透過一資料通訊連接，如網際網路，以進行傳送。

進一步的實施方法包含處理手段，例如，一電腦或是一可程式化邏輯裝置用以執行或改編在此描述的其中一方法。

更進一步的實施方式係包含具有安裝電腦程式之電腦，用以執行在此描述的其中一方法。

根據本發明，一個更進一步的實施方式，例如包含一裝置或一系統以電子或光學傳輸一電腦程式至一接收端，此電腦程式係用以執行在此描述的其中一方法。舉例來說，此接收端可以為一電腦、一行動裝置、一記憶體裝置或是其他類似裝置。舉例來說，此裝置或系統可以包含一檔案伺服器，用以傳送電腦程式至接收端。

在一些實施方式中，舉例來說，一個可程式化邏輯裝置可為一場景邏輯閘陣列，其可用以執行在此處所描述的部份或是全部功能。在一些實施方式中，一個場景邏輯閘陣列可以與微處理器合作，以執行在此處所描述的其中一方法。一般來說，此方法較佳地可以被任何硬體裝置所執行。

上述實施例僅用於說明本發明的原理，應當理解，本文中所描述的修改和有關安排的變化和細節將顯而易見的其他領域的技術人員。因此，其意圖是由即將發生的專利權利要求範圍來限制，而不是由本文描述的實施例和解釋的方式呈現的特定細節來限制。