[go: up one dir, main page]

TWI744341B - 使用近場/遠場渲染之距離聲相偏移 - Google Patents

使用近場/遠場渲染之距離聲相偏移 Download PDF

Info

Publication number
TWI744341B
TWI744341B TW106120265A TW106120265A TWI744341B TW I744341 B TWI744341 B TW I744341B TW 106120265 A TW106120265 A TW 106120265A TW 106120265 A TW106120265 A TW 106120265A TW I744341 B TWI744341 B TW I744341B
Authority
TW
Taiwan
Prior art keywords
audio
hrtf
field
audio signal
radius
Prior art date
Application number
TW106120265A
Other languages
English (en)
Other versions
TW201810249A (zh
Inventor
愛德華 史坦
馬丁 華許
施廣濟
大衛 柯賽羅
Original Assignee
美商Dts股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商Dts股份有限公司 filed Critical 美商Dts股份有限公司
Publication of TW201810249A publication Critical patent/TW201810249A/zh
Application granted granted Critical
Publication of TWI744341B publication Critical patent/TWI744341B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本文中描述之方法及裝置將完整3D音訊混音(例如,方位角、仰角及深度)最佳地表示為其中解碼程序促成頭部追蹤之「聲音場景」。可針對收聽者之定向(例如,側傾、縱傾、左右轉動)及3D位置(例如,x、y、z)來修改聲音場景渲染。此提供將聲音場景源位置視為3D位置而非限於相對於收聽者之位置的能力。本文中論述之系統及方法可在任何數目個音訊聲道中完全表示此等場景,以提供與透過現有音訊編碼解碼器(諸如DTS HD)之傳輸的相容性,但比一7.1聲道混音攜載實質上更多的資訊(例如,深度、高度)。

Description

使用近場/遠場渲染之距離聲相偏移
本專利文獻中描述之技術係關於與在一聲音重現系統中合成空間音訊相關之方法及裝置。
空間音訊重現已使音訊工程師及消費電子產業感興趣達數十年。空間聲音重現需要必須根據應用之背景內容(例如,音樂會演出、電影院、家用高保真音響設備、電腦顯示器、個人頭戴式顯示器)經組態之一雙聲道或多聲道電聲系統(例如,揚聲器、耳機),其進一步描述於Jot、Jean-Marc之「Real-time Spatial Processing of Sounds for Music, Multimedia and Interactive Human-Computer Interfaces」,IRCAM,1 Place Igor­Stravinsky 1997年,(下文「Jot,1997年」)中,該案以引用的方式併入本文中。 針對動畫及家庭視訊娛樂產業開發音訊錄製及重現技術已導致各種多聲道「環場音效」錄製格式(最顯著為5.1及7.1格式)之標準化。已開發用於在一錄製中編碼三維音訊提示之各種音訊錄製格式。此等三維音訊格式包含高保真度立體聲響複製(Ambisonics)及包括高架揚聲器聲道之離散多聲道音訊格式(諸如NHK 22.2格式)。 一降混包含於各種多聲道數位音訊格式(諸如來自加利福尼亞州卡拉巴薩斯市之DTS公司之DTS-ES及DTS-HD)之音軌資料串流中。此降混係回溯相容的,且可由舊型解碼器解碼且在現有重播設備上重現。此降混包含攜載由舊型解碼器忽略但可由非舊型解碼器使用之額外音訊聲道之一資料串流擴展。舉例而言,一DTS-HD解碼器可恢復此等額外聲道,減去其等在回溯相容降混中之貢獻,且以不同於回溯相容格式之一目標空間音訊格式渲染此等額外聲道,其可包含升高揚聲器位置。在DTS-HD中,藉由一混音係數集(例如,各揚聲器聲道一個混音係數)描述額外聲道在回溯相容混音中及目標空間音訊格式中之貢獻。在編碼階段指定預期音軌之目標空間音訊格式。 此方法容許以與舊型環場音效解碼器相容之一資料串流之形式及亦在編碼/生產階段選擇之一或多個替代目標空間音訊格式來編碼一多聲道音訊音軌。此等替代目標格式可包含適用於三維音訊提示之經改良重現之格式。然而,此方案之一個限制係針對另一目標空間音訊格式編碼相同音軌需要返回至生產設施以便錄製且編碼針對新格式混音之音軌之一新版本。 基於物件之音訊場景編碼提供用於音軌編碼的一般解決方案,其獨立於目標空間音訊格式。基於物件之音訊場景編碼系統之一實例係MPEG-4進階音訊二進制場景格式(AABIFS)。在此方法中,個別傳輸各源信號,連同一渲染提示資料串流。此資料串流攜載一空間音訊場景渲染系統之參數之時變值。可以一與格式無關的音訊場景描述之形式提供此參數集,使得可藉由根據此格式設計渲染系統而以任何目標空間音訊格式渲染音軌。各源信號與其相關聯渲染提示組合定義一「音訊物件」。此方法使渲染器能夠實施可用於以在重現端選擇之任何目標空間音訊格式渲染各音訊物件之最準確之空間音訊合成技術。基於物件之音訊場景編碼系統亦容許在解碼階段處對經渲染音訊場景進行互動式修改,包含重新混音、音樂重新解譯(例如,卡拉OK)或場景中之虛擬導航(例如,視訊遊戲)。 對於多聲道音訊信號之低位元率傳輸或儲存之需要已促進包含雙耳提示編碼(BCC)及MPEG-Surround之新頻域空間音訊編碼(SAC)技術之發展。在一例示性SAC技術中,一M聲道音訊信號係以隨附有描述存在於時域-頻域中之原始M聲道信號(聲道間相關性及位準差異)中之聲道間關係之一空間提示資料串流之一降混音訊信號的形式被編碼。由於降混信號包括少於M個音訊聲道,且相較於音訊信號資料率,空間提示資料率係小的,故此編碼方法顯著減少資料率。另外,降混格式可經選擇以促成與舊型設備之回溯相容性。 在如描述於美國專利申請案第2007/0269063中之稱為空間音訊場景編碼(SASC)之此方法之一變體中,傳輸至解碼器之時間-頻率空間提示資料係與格式無關的。此實現以任何目標空間音訊格式之空間重現,同時保持在經編碼音軌資料串流中攜載一回溯相容之降混信號之能力。然而,在此方法中,經編碼音軌資料不定義可分離音訊物件。在大多數錄製中,定位於聲音場景中之不同位置處之多個聲源在時域-頻域中係並行的。在此情況中,空間音訊解碼器無法分離其等在降混音訊信號中之貢獻。因此,音訊重現之空間保真度將受到空間定位誤差而有損。 MPEG空間音訊物件編碼(SAOC)類似於MPEG-Surround在於,經編碼音軌資料串流包含一回溯相容之音訊信號連同一時間-頻率提示資料串流。SAOC係經設計以在一單聲道或雙聲道降混音訊信號中傳輸M個音訊物件之一多物件編碼技術。連同SAOC降混信號傳輸之SAOC提示資料串流包含時間-頻率物件混音提示,該等時間-頻率物件混音提示描述在各頻率副頻帶中應用至單聲道或雙聲道降混信號之各聲道中之各物件輸入信號之混音係數。另外,SAOC提示資料串流包含容許音訊物件在解碼器側被個別後處理之頻域物件分離提示。提供於SAOC解碼器中之物件後處理功能模擬一基於物件之空間音訊場景渲染系統之能力且支援多個目標空間音訊格式。 SAOC提供一種用於多音訊物件信號之低位元率傳輸及計算高效率之空間音訊渲染連同一基於物件且與格式無關的三維音訊場景描述。然而,一SAOC編碼串流之舊型相容性限於SAOC音訊降混信號之雙聲道立體重現,且因此不適用於擴展現有多聲道環場音效編碼格式。此外,應注意,若應用於SAOC解碼器中之對於音訊物件信號之渲染操作包含某些類型之後處理效應(諸如人工混響),則SAOC降混信號不感知上表示經渲染音訊場景(此係因為此等效應在渲染場景中將係可聽見的,但未同時併入含有未處理物件信號之降混信號中)。 另外,SAOC經受與SAC及SASC技術相同之限制:SAOC解碼器無法在降混信號中完全分離在時域-頻域中並行之音訊物件信號。舉例而言,SAOC解碼器對一物件之廣泛放大或衰減通常產出不可接受降低的經渲染場景之音訊品質。 一空間編碼音軌可由兩個互補方法產生:(a)使用一一致或緊密間隔麥克風系統(基本上放置於收聽者在場景內之虛擬位置處或附近)錄製一現有聲音場景或(b)合成一虛擬聲音場景。 使用傳統3D雙耳音訊錄製之第一方法可以透過使用「擬真人頭」麥克風而產生儘可能接近「臨場感」的體驗。在此情況中,通常使用具有放置於耳朵處之麥克風之一聲學人體模型實況擷取一聲音場景。接著使用其中經由耳機在耳朵處重播經錄製音訊之雙耳重現來重新產生原始空間感知。傳統擬真人頭錄製之一個限制係其等僅可擷取實況事件且僅來自擬真人體之視角及頭部定向。 使用第二方法,已開發數位信號處理(DSP)技術來藉由在一擬真人頭(或具有插入至耳道中之探針麥克風之一人頭)周圍取樣頭部相關傳遞函數(HRTF)之一選擇且內插該等量測以近似表示將針對其間之任何位置量測之一HRTF而擬真雙耳聆聽。最常見技術係將全部經量測同側及對側HRTF轉換為最小相位且在其間執行一線性內插以導出一HRTF對。與一適當耳間時間延遲(ITD)組合之HRTF對表示所要合成位置之HRTF。此內插通常在時域中執行,其通常包含時域濾波器之一線性組合。內插亦可包含頻域分析(例如,對一或多個頻率副頻帶執行之分析),接著為在頻域分析輸出之間或當中之一線性內插。時域分析可提供更計算上高效率之結果,而頻域分析可提供更準確之結果。在一些實施例中,內插可包含時域分析及頻域分析之一組合,諸如時間-頻率分析。可藉由減少源相對於擬真距離之增益而模擬距離提示。 此方法已用於擬真遠場中之聲源,其中耳間HRTF差異隨著距離之改變可忽略。然而,隨著源愈來愈接近頭部(例如,「近場」),頭部之大小相對於聲源之距離變得顯著。此轉變之位置隨著頻率而變動,但慣例說明源超過約1公尺(例如,「遠場」)。隨著聲源進一步進入收聽者之近場中,耳間HRTF改變變得顯著(尤其在較低頻率處)。 一些基於HRTF之渲染引擎使用遠場HRTF量測之一資料庫,其包含在距收聽者之一恆定徑向距離處之全部量測。因此,難以針對比遠場HRTF資料庫內之原始量測近得多的一聲源準確地擬真改變之頻率相依HRTF提示。 許多現代3D音訊空間化產品選擇忽略近場,此係因為模型化近場HRTF之複雜性傳統上太昂貴且近場聲學事件在典型互動式音訊模擬中並不傳統上非常常見。然而,虛擬實境(VR)及擴增實境(AR)應用之出現已導致其中虛擬物件將通常更接近使用者之頭部出現之若干應用。此等物件及事件之更準確音訊模擬已變為一必要。 先前已知之基於HRTF之3D音訊合成模型使用在一收聽者之周圍之一固定距離處量測之一單一HRTF對(即,同側及對側)集。此等量測通常發生於遠場,其中HRTF不隨著距離增加而顯著改變。因此,可藉由透過一對適當遠場HRTF濾波器對源濾波且根據使用距離擬真能量損耗(例如,平方反比定律)之頻率相依增益按比例調整所得信號而擬真進一步遠離之聲源。 然而,隨著聲音愈來愈接近頭部,按相同入射角,HRTF頻率回應可相對於各耳朵顯著改變且無法使用遠場量測進行高效率擬真。其中更仔細檢查及與物件及化身之互動將變得更普遍之較新應用(諸如虛擬實境)對於隨著物件更接近頭部而擬真物件之聲音之此案例尤其感興趣。 已使用完整3D物件(例如,音訊及後設資料位置)之傳輸來實現具有6自由度之頭部追蹤及互動,但此一方法需要按每源之多個音訊緩衝器且使用更多源極大增加複雜性。此方法亦可需要動態源管理。此等方法無法容易地整合至現有音訊格式中。多聲道混音亦具有針對固定數目個聲道之一固定附加項,但通常需要高聲道計數來建立足夠的空間解析度。諸如矩陣編碼或高保真度立體聲響複製之現有場景編碼具有較低聲道計數,但不包含用以指示來自收聽者之音訊信號之所要深度或距離之一機制。
相關申請案及優先權 主張 本申請案係關於且主張2016年6月17日申請且標題為「Systems and Methods for Distance Panning using Near And Far Field Rendering」之美國臨時申請案第62/351,585號的優先權,該申請案之全文係以引用的方式併入本文中。 本文中描述之方法及裝置將完整3D音訊混音(例如,方位角、仰角及深度)最佳表示為其中解碼程序促進頭部追蹤之「聲音場景」。可針對收聽者之定向(例如,側傾、縱傾、左右轉動)及3D位置(例如,x、y、z)修改聲音場景渲染。此提供將聲音場景源位置視為3D位置而非限於相對於收聽者之位置之能力。本文中論述之系統及方法可在任何數目個音訊聲道中完全表示此等場景以提供與透過現有音訊編碼解碼器(諸如DTS HD)之傳輸之相容性,但比一7.1聲道混音攜載實質上更多資訊(例如,深度、高度)。該等方法可容易地解碼至任何聲道佈局或透過DTS Headphone:X解碼,其中頭部追蹤特徵將尤其有益於VR應用。亦可即時採用該等方法用於具有VR監測之內容生產工具,諸如由DTS Headphone:X實現之VR監測。解碼器之完整3D頭部追蹤在接收舊型2D混音(例如,僅方位角及仰角)時亦回溯相容。 一般定義 下文結合隨附圖示闡述之詳細描述旨在作為本發明之目前較佳實施例之一描述,且不旨在表示其中可建構或使用本發明之唯一形式。描述結合所繪示實施例闡述用於開發且操作本發明之步驟之功能及序列。應理解,相同或等效功能及序列可由亦旨在涵蓋於本發明之精神及範疇內之不同實施例完成。應進一步理解,關係術語(例如,第一、第二)之使用僅僅係用於區分一個實體與另一實體,而未必需要或暗示此等實體之間之任何實際此關係或順序。 本發明係關於處理音訊信號(即,表示實體聲音之信號)。此等音訊信號由數位電子信號表示。在下文論述中,可展示或論述類比波形以繪示概念。然而,應理解,本發明之典型實施例將在數位位元組或字組之一時間序列之背景內容中操作,其中此等位元組或字組形成一類比信號或最終一實體聲音之一離散近似表示。離散數位信號對應於一週期性取樣之音訊波形之一數位表示。針對均勻取樣,波形係以等於或大於足以滿足所關注頻率之奈奎斯(Nyquist)取樣定理之一速率被取樣。在一典型實施例中,可使用近似每秒44,100個樣品(例如,44.1 kHz)之一均勻取樣速率,然而,可替代地使用更高取樣速率(例如,96 kHz、128 kHz)。應根據標準數位信號處理技術選擇量化方案及位元解析度以滿足一特定應用之要求。本發明之技術及裝置通常將相互依賴地應用於數個聲道中。舉例而言,其可用於一「環場」音訊系統(例如,其具有兩個以上聲道)之背景內容中。 如本文中使用,一「數位音訊信號」或「音訊信號」不描述僅僅一數學抽象,而代替性地表示體現於能夠由一機器或裝置偵測之一實體媒體中或由該實體媒體攜載之資訊。此等術語包含經錄製或經傳輸信號,且應理解為包含藉由任何形式之編碼(包含脈衝碼調變(PCM)或其他編碼)之傳送。可藉由包含MPEG、ATRAC、AC3之各種已知方法或如在美國專利第5,974,380、5,978,762及6,487,535號中描述之DTS公司之專屬方法之任一者編碼或壓縮輸出、輸入或中間音訊信號。如熟習此項技術者將明白,可需要計算之某一修改以適應一特定壓縮或編碼方法。 在軟體中,一音訊「編碼解碼器」包含根據一給定音訊檔案格式或串流音訊格式格式化數位音訊資料之一電腦程式。大多數編碼解碼器被實施為與一或多個多媒體播放器(諸如QuickTime Player、XMMS、Winamp、Windows Media Player、Pro Logic)或其他編碼解碼器介接之庫(library)。在硬體中,音訊編碼解碼器係指將類比音訊編碼為數位信號且將數位解碼回為類比之一單一或多個器件。換言之,其含有運行一共同時脈之一類比轉數位轉換器(ADC)及一數位轉類比轉換器(DAC)兩者。 一音訊編碼解碼器可實施於一消費者電子器件中,諸如一DVD播放器、藍光播放器、TV調諧器、CD播放器、手持式播放器、網際網路音訊/視訊器件、遊戲機、行動電話或另一電子器件。一消費者電子器件包含一中央處理單元(CPU),其可表示一或多種習知類型之此等處理器,諸如一IBM PowerPC、Intel Pentium (x86)處理器或其他處理器。一隨機存取記憶體(RAM)暫時地儲存由CPU執行之資料處理操作之結果,且通常經由一專屬記憶體通道而與CPU互連。消費者電子器件亦可包含經由一輸入/輸出(I/O)匯流排亦與CPU通信之永久儲存器件,諸如一硬碟機。亦可連接其他類型之儲存器件,諸如磁帶機、光碟機或其他儲存器件。一圖形卡亦可經由一視訊匯流排連接至CPU,其中圖形卡將表示顯示資料之信號傳輸至顯示監測器。外部周邊資料輸入器件(諸如一鍵盤或一滑鼠)可經由一USB埠連接至音訊重現系統。一USB控制器轉譯往返於CPU之針對連接至USB埠之外部周邊設備之資料及指令。額外器件(諸如印表機、麥克風、揚聲器或其他器件)可連接至消費者電子器件。 消費者電子器件可使用具有一圖形使用者介面(GUI)之一作業系統,諸如來自華盛頓州Redmond之Microsoft公司之WINDOWS、加利福尼亞州庫比蒂諾市Apple公司之MAC OS、經設計用於諸如Android或其他作業系統之行動作業系統之各種版本之行動GUI。消費者電子器件可執行一或多個電腦程式。一般言之,作業系統及電腦程式有形地體現於一電腦可讀媒體中,其中電腦可讀媒體包含固定或可抽換式資料儲存器件之一或多者,包含硬碟機。可將作業系統及電腦程式兩者自前述資料儲存器件載入至RAM中以供CPU執行。電腦程式可包括當由CPU讀取且執行時,引起CPU執行用以執行本發明之步驟或特徵之步驟之指令。 音訊編碼解碼器可包含各種組態或架構。可在不脫離本發明之範疇之情況下容易地取代任何此組態或架構。一般技術者將認知,上述序列最普遍用於電腦可讀媒體中,但存在可在不脫離本發明之範疇之情況下被取代之其他現有序列。 音訊編碼解碼器之一項實施例之元件可由硬體、韌體、軟體或其等之任何組合實施。當實施為硬體時,音訊編碼解碼器可採用於一單一音訊信號處理器上音訊編碼解碼器,或音訊編碼解碼器分佈於各種處理組件當中。當實施於軟體中時,本發明之一實施例之元件可包含用以執行必要任務之程式碼片段。軟體較佳包含用以執行描述於本發明之一項實施例中之操作之實際程式碼,或包含擬真或模擬操作之程式碼。程式或程式碼片段可儲存於一處理器或機器可存取媒體中或由體現於一載波中之一電腦資料信號(例如,由一載波調變之一信號)經由一傳輸媒體傳輸。「處理器可讀或可存取媒體」或「機器可讀或可存取媒體」可包含可儲存、傳輸或傳遞資訊之任何媒體。 處理器可讀媒體之實例包含一電子電路、一半導體記憶體器件、一唯獨記憶體(ROM)、一快閃記憶體、一可擦除可程式化ROM (EPROM)、一軟碟、一光碟(CD) ROM、一光碟、一硬碟、一光纖媒體、一射頻(RF)鏈路或其他媒體。電腦資料信號可包含可經由諸如電子網路通道、光纖、空氣、電磁、RF鏈路或其他傳輸媒體之一傳輸媒體傳播之任何信號。可經由諸如網際網路、內部網路或另一網路之電腦網路下載程式碼片段。機器可存取媒體可體現於一製品中。機器可存取媒體可包含當由一機器存取時,引起機器執行下文中描述之操作之資料。此處之術語「資料」係指為了機器可讀目的編碼之任何類型之資訊,其可包含程式、程式碼、資料、檔案或其他資訊。 本發明之一實施例之全部或部分可由軟體實施。軟體可包含彼此耦合之若干模組。一軟體模組耦合至另一模組以產生、傳輸、接收或處理變數、參數、引數、指標、結果、經更新變數、指標或其他輸入或輸出。一軟體模組亦可係用以與執行於平台上之作業系統互動之一軟體驅動程式或介面。一軟體模組亦可係用以組態、設定、初始化一硬體裝置、或將資料發送至一硬體裝置或自一硬體裝置接收資料之一硬體驅動程式。 本發明之一項實施例可描述為一程序,該程序通常被描繪為一流程圖(flowchart/flow diagram)、一結構圖或一方塊圖。雖然一方塊圖可將操作描述為一循序程序,但許多操作可並行或並行執行。另外,可重新排列操作之順序。一程序可在其操作完成時終止。一程序可對應於一方法、一程式、一程序或其他步驟群組。 此描述包含用於尤其在耳機(例如,頭戴耳機)應用中合成音訊信號之一方法及裝置。雖然在包含頭戴耳機之例示性系統之背景內容中呈現本發明之態樣,但應理解,所描述方法及裝置不限於此等系統且本文中之教示可應用至包含合成音訊信號之其他方法及裝置。如以下描述中使用,音訊物件包含3D位置資料。因此,應理解,一音訊物件包含一音訊源與3D位置資料之一特定組合表示,其之位置通常係動態的。相比之下,一「聲源」係用於在一最終混音或渲染中重播或重現之一音訊信號且其具有一預期靜態或動態渲染方法或目的。舉例而言,一源可係信號「左前」或一源可被播放至低頻效果(「LFE」)聲道或向右聲相偏移90度。 本文中描述之實施例係關於音訊信號之處理。一項實施例包含一種方法,其中使用至少一個近場量測集來產生近場聽覺事件之一印象,其中一近場模型與一遠場模型並行運行。欲在由指定近場及遠場模型模擬之區域之間之一空間區域中模擬之聽覺事件係藉由兩個模型之間之交叉淡入淡出而產生。 本文中描述之方法及裝置使用已在距一參考頭之各種距離處(自近場跨越至遠場之邊界)合成或量測之多個頭部相關傳遞函數(HRTF)集。可使用額外合成或量測傳遞函數來擴展至頭之內部(即,針對比近場更接近之距離)。另外,可將各HRTF集之相對距離相關增益正規化為遠場HRTF增益。 圖1A至圖1C係針對一例示性音訊源位置之近場及遠場渲染之示意圖。圖1A係將一音訊物件定位於相對於一收聽者之一聲音空間(包含近場及遠場區域)中之一基本實例。圖1A使用兩個半徑呈現一實例,然而,可使用兩個以上半徑表示聲音空間,如圖1C中展示。特定言之,圖1C使用任何數目個重要半徑展示圖1A之一擴展之一實例。圖1B使用一球形表示21展示圖1A之一例示性球形擴展。特定言之,圖1B展示物件22可具有一相關聯高度23、及至一地平面上之相關聯投影25、一相關聯仰角27及一相關聯方位角29。在此一情況中,可在具有半徑Rn之一完整3D球面上取樣任何適當數目個HRTF。各共同半徑HRTF集中之取樣不必相同。 如圖1A至圖1B中展示,圓圈R1表示距收聽者之一遠場距離且圓圈R2表示距收聽者之一近場距離。如圖1C中展示,物件可定位於一遠場位置、一近場位置、其間某處、近場之內部或超過遠場。複數個HRTF (Hxy )被展示為與以一原點為中心之環R1及R2上之位置相關,其中x表示環號碼且y表示環上之位置。此等集將稱為「共同半徑HRTF集」。使用慣例Wxy 來展示圖之遠場集中之四個位置權重及近場集中之兩個位置權重,其中x表示環號碼且y表示環上之一位置。WR1及WR2表示將物件分解為共同半徑HRTF集之一加權組合之徑向權重。 在圖1A及圖1B中展示之實例中,當音訊物件通過收聽者之近場時,量測距頭部之中心之徑向距離。識別界限此徑向距離之兩個經量測HRTF資料集。針對各集,基於聲源位置之所要方位角及仰角而導出適當HRTF對(同側及對側)。接著藉由內插各新HRTF對之頻率回應而產生一最終組合HRTF對。此內插將可能係基於待渲染之聲源與各HRTF集之實際量測距離之相對距離。接著,待渲染聲源由經導出HRTF對濾波且基於距收聽者之頭部之距離而增加或減少所得信號之增益。可限制此增益以避免當聲源非常接近收聽者之耳朵之一者時之飽和。 各HRTF集可跨越僅在水平面中製作之一量測或合成HRTF集或可表示收聽者周圍之HRTF量測之一完整球面。另外,各HRTF集可基於徑向量測距離而具有更小或更大數目個樣品。 圖2A至圖2C係用於產生具有距離提示之雙耳音訊之演算法流程圖。圖2A表示根據本發明之態樣之一樣品流程。在線12上輸入一音訊物件之音訊及位置後設資料10。在方塊13中展示使用此後設資料來判定徑向權重WR1及WR2。另外,在方塊14中,評估後設資料以判定物件是否係定位於一遠場邊界內部或外部。若物件在遠場區域內(由線16表示),則下一步驟17為判定遠場HRTF權重,諸如圖1A中展示之W11及W12。若物件未定位於遠場內(如由線18表示),則評估後設資料以判定物件是否定位於近場邊界內,如由方塊20展示。若物件定位於近場邊界與遠場邊界之間(如由線22表示),則下一步驟為判定遠場HRTF權重(方塊17)及近場HRTF權重(諸如圖1A中展示之W21及W22)(方塊23)兩者。若物件定位於近場邊界內(如由線24表示),則下一步驟為在方塊23處判定近場HRTF權重。一旦已計算適當徑向權重、近場HRTF權重及遠場HRTF權重,便在26、28處將其等組合。最後,接著使用組合權重對音訊物件濾波(方塊30)以產生具有距離提示之雙耳音訊32。以此方式,使用徑向權重來進一步自各共同半徑HRTF集按比例調整HRTF權重且產生距離增益/衰減以重新產生一物件定位於所要位置處之意義。此相同方法可擴展至任何半徑,其中超過遠場之值導致由徑向權重施加之距離衰減。可藉由僅HRTF之近場集之某一組合重新產生稱為「內部」之小於近場邊界R2之任何直徑。可使用一單一HRTF來表示被感知為定位於收聽者之耳朵之間之一單聲道「中間聲道」之一位置。 圖3A展示估計HRTF提示之一方法。HL (θ, ϕ)及HR (θ, ϕ)表示在一單位球面(遠場)上按(方位角= θ,仰角= ϕ)針對一源在左耳及右耳處量測之最小相位頭部相關脈衝回應(HRIR)。τL 及τR 表示飛行至各耳朵之時間(通常移除過量共同延遲)。 圖3B展示HRIR內插之一方法。在此情況中,存在預量測之最小相位左耳及右耳HRIR之一資料庫。藉由加總經儲存遠場HRIR之一加權組合而導出在一給定方向上之HRIR。由依據角度位置而判定之一增益陣列來判定加權。舉例而言,距所要位置最接近之四個經取樣HRIR之增益可具有與距源之角度距離成正比之正增益,其中全部其他增益設定為零。替代地,若HRIR資料庫係在方位角及仰角方向兩者上被取樣,則可使用VBAP/VBIP或類似3D聲相偏移器來將增益應用至三個最接近經量測HRIR。 圖3C係HRIR內插之一方法。圖3C係圖3B之一簡化版本。粗線暗示一個以上聲道(等於儲存於吾人之資料庫中之HRIR之數目)之一匯流排。G(θ, ϕ)表示HRIR加權增益陣列且可假定其針對左耳及右耳係相同的。HL (f)、HR (f)表示左耳HRIR及右耳HRIR之固定資料庫。 又此外,導出一目標HRTF對之一方法係基於已知技術(時域或頻域)內插來自最接近量測環之各者之兩個最接近HRTF且接著基於距源之徑向距離進一步內插於該兩個量測之間。此等技術由針對定位於O1處之一物件之方程式(1)及針對定位於O2處之一物件之方程式(2)描述。應注意,Hxy 表示在量測環y中之位置索引x處量測之一HRTF對。Hxy 係一頻率相依函數。α、β及δ全部係內插加權函數,其等亦可係一頻率函數。 O1 = δ1111 H11 + α12 H12 ) + δ1211 H21 + β12 H22 ) (1) O2 = δ2121 H21 + α22 H22 ) + δ2221 H31 + β22 H32 ) (2) 在此實例中,在收聽者周圍(方位角、固定半徑)之環中量測經量測HRTF集。在其他實施例中,可能已在一球面周圍(方位角及仰角、固定半徑)量測HRTF。在此情況中,HRTF將內插於兩個或兩個以上量測之間,如在本文獻中描述。徑向內插將保持相同。 HRTF模型化之另一元素係關於隨著一聲源更接近頭部,音訊之響度指數地增加。一般言之,聲音之響度將隨著距頭部之距離之每一減半而加倍。因此,舉例而言,在0.25 m處之聲源將比該相同聲音在1 m處量測時響四倍。類似地,在0.25 m處量測之一HRTF之增益將係在1 m處量測之相同HRTF之增益之四倍。在此實施例中,正規化全部HRTF資料集之增益使得經感知增益不隨著距離而改變。此意謂可以最大位元解析度儲存HRTF資料集。接著,亦可在渲染時間將距離相關之增益應用至經導出之近場HRTF近似表示。此容許實施者使用其等想要之任何距離模型。舉例而言,HRTF增益隨著其更接近頭部可限於某一最大值,其可減少或防止信號增益變得太失真或主導限制器。 圖2B表示包含距收聽者之兩個以上徑向距離之一擴展演算法。視情況在此組態中,可針對各所關注半徑計算HRTF權重,但針對不與音訊物件之位置相關之距離之一些權重可為零。在一些情況中,此等計算將導致零權重且可如圖2A中展示般有條件地省略。 圖2C展示包含計算耳間時間延遲(ITD)之一又進一步實例。在遠場中,通常藉由內插於經量測HRTF之間而導出在最初未量測之位置中的近似HRTF對。此通常係藉由將經量測之無回聲HRTF對轉換為其等最小相位等效物且使用一分數時間延遲近似表示ITD而完成。此對於遠場之效果良好,此係因為僅存在一個HRTF集且該HRTF集係在某一固定距離處被量測。在一項實施例中,判定聲源之徑向距離且識別兩個最接近HRTF量測集。若源超過最遠集,則實施方案與僅存在一個遠場量測集可用之情況相同。在近場內,自距待模型化之聲源之兩個最接近HRTF資料庫之各者導出兩個HRTF對,且進一步內插此等HRTF對以基於目標與參考量測距離之相對距離導出一目標HRTF對。接著自ITD之一查找表或自諸如由伍德沃斯(Woodworth)定義之公式導出目標方位角及仰角所需之ITD。應注意,ITD值未針對近場內或外之類似方向顯著不同。 圖4係針對兩個同時聲源之一第一示意圖。使用此方案,注意如何虛線內之區段依據角度距離而變化,而HRIR保持固定。以此組態將相同左耳及右耳HRIR資料庫實施兩次。再次,粗箭頭表示等於資料庫中之HRIR之數目之信號之一匯流排。 圖5係針對兩個同時聲源之一第二示意圖。圖5展示不必針對各新3D源內插HRIR。由於吾人具有一線性非時變系統,故輸出可在固定濾波器方塊之前被混音。新增如同此之更多源意謂吾人僅招致固定濾波器附加項一次而無關於3D源之數目。 圖6係依據方位角、仰角及半徑(θ、ϕ、r)而變化的一3D聲源之一示意圖。在此情況中,輸入係根據距源之徑向距離按比例調整且通常係基於一標準距離衰減(roll-off)曲線。此方法之一個問題係雖然此類型之與頻率無關的距離按比例調整在遠場中有效果,但其在近場(r < l)中效果非如此良好,此係因為針對一固定(θ, ϕ),隨著一源更接近頭部,HRIR之頻率回應開始變動。 圖7係用於將近場及遠場渲染應用至一3D聲源之一第一示意圖。在圖7中,假定存在表示為依據方位角、仰角及半徑而變化之一單一3D源。一標準技術實施一單一距離。根據本發明之各項態樣,取樣兩個單獨遠場及近場HRIR資料庫。接著在此兩個資料庫之間依據徑向距離(r < 1)應用交叉淡入淡出。近場HRIRs經增益正規化為遠場HRIRs,以便減少在量測中所見之任何與頻率無關的距離增益。當r < 1時,基於由g(r)定義之距離衰減函數在輸入處重新插入此等增益。應注意,當 r > 1時,gFF (r) = 1且gNF (r) = 0。應注意,當r < 1時,gFF (r)、gNF (r)係距離之函數,例如,gFF (r) = a、gNF (r) = 1 - a。 圖8係用於將近場及遠場渲染應用至一3D聲源之一第二示意圖。圖8類似於圖7,但具有在距頭部之不同距離處量測之兩個近場HRIR集。此將給出隨著徑向距離之近場HRIR改變之更佳取樣涵蓋範圍。 圖9展示HRIR內插之一第一時間延遲濾波器方法。圖9係圖3B之一替代例。與圖3B相比,圖9提供HRIR時間延遲被儲存為固定濾波器結構之部分。現基於經導出增益搭配HRIR內插ITD。未基於3D源角度更新ITD。應注意,此實例不必要應用相同增益網路兩次。 圖10展示HRIR內插之一第二時間延遲濾波器方法。圖10藉由針對兩個耳朵應用一個增益集G(θ, ϕ)及一單一較大固定濾波器結構H(f)而克服圖9中之增益之雙重應用。此組態之一個優點係其使用一半數目個增益及對應數目個聲道,但此係以HRIR內插準確度為代價。 圖11展示HRIR內插之一簡化第二時間延遲濾波器方法。圖11係類似於如關於圖5描述之具有兩個不同3D源之圖10之一簡化描述。如圖11中展示,自圖10簡化實施方案。 圖12展示一簡化近場渲染結構。圖12使用一更簡化結構(針對一個源)實施近場渲染。此組態類似於圖7,但具有一更簡單實施方案。 圖13展示一簡化兩個源近場渲染結構。圖13類似於圖12,但其包含兩個近場HRIR資料集。 先前實施例假定使用各源位置更新且針對各3D聲源計算一不同近場HRTF對。因而,處理需求將隨著待渲染之3D源之數目線性地按比例調整。此通常係一非所要特徵,此係因為用於實施3D音訊渲染解決方案之處理器可相當快速地且以一非確定性方式(可能取決於在任何給定時間待渲染之內容)超過其分配資源。舉例而言,許多遊戲引擎之音訊處理預算可係一最大值3%之CPU。 圖21係一音訊渲染裝置之一部分之一功能方塊圖。與一可變濾波附加項相比,將可期望具有具備一小得多的每一源附加項之一固定及可預測濾波附加項。此將容許針對一給定資源預算且以一更確定性方式渲染更大數目個聲源。在圖21中描述此一系統。在「A Comparative Study of 3-D Audio Encoding and Rendering Techniques」中描述此拓樸後的理論。 圖21繪示使用一固定濾波器網路60、一混音器62及按每物件增益及延遲之一額外網路64之一HRTF實施方案。在此實施例中,按每物件延遲之網路包含分別具有輸入72、74及76之三個增益/延遲模組66、68及70。 圖22係一音訊渲染裝置之一部分之一示意性方塊圖。特定言之,圖22使用在圖21中概述之基本拓樸繪示一實施例,其包含一固定音訊濾波器網路80、一混音器82及一按每物件之增益延遲網路84。在此實例中,一按每源ITD模型容許按每物件之更準確延遲控制,如在圖2C之流程圖中描述。將一聲源應用至按每物件之增益延遲網路84之輸入86,按每物件之增益延遲網路84係藉由應用一對能量節省增益或權重88、90而在近場HRTF與遠場HRTF之間分割,該對能量節省增益或權重88、90係基於聲音相對於各量測集之徑向距離之距離被導出。應用耳間時間延遲(ITD) 92、94以相對於右信號延遲左信號。在方塊96、98、100及102中進一步調整信號位準。 此實施例使用一單一3D音訊物件、表示大於約1 m遠之四個位置之一遠場HRTF集及表示近於約1公尺之四個位置之一近場HRTF集。假定已將任何基於距離之增益或濾波應用至此系統之輸入上游之音訊物件。在此實施例中,針對定位於遠場中之全部源,GNEAR = 0。 左耳信號及右耳信號相對於彼此延遲以針對近場及遠場信號貢獻兩者模仿ITD。針對左耳及右耳之各信號貢獻及近場及遠場由四個增益之一矩陣加權,該四個增益之值係由音訊物件相對於經取樣HRTF位置之定位予以判定。在移除耳間延遲之情況下將HRTF 104、106、108及110儲存於一最小相位濾波器網路中。各濾波器組之貢獻被加總至左輸出112或右輸出114且發送至耳機用於雙耳聆聽。 針對由記憶體或聲道頻寬約束之實施方案,可實施提供類似聆聽結果但不需要在一按每源基礎上實施ITD之一系統。 圖23係近場及遠場音訊源位置之一示意圖。特定言之,圖23繪示使用一固定濾波器網路120、一混音器122及按每物件增益之一額外網路124之一HRTF實施方案。在此情況中未應用按每源ITD。在被提供至混音器122之前,按每物件之處理應用按每共同半徑HRTF集136及138之HRTF權重以及徑向權重130、132。 在圖23中展示之情況中,固定濾波器網路實施一HRTF集126、128,其中保持原始HRTF對之ITD。因此,實施方案僅需要針對近場及遠場信號路徑之一單一增益集136、138。將一聲源應用至按每物件之增益延遲網路124之輸入134,按每物件之增益延遲網路124係藉由應用一對能量或振幅保存增益130、132而在近場HRTF與遠場HRTF之間分割,該對能量或振幅保存增益130、132係基於聲音相對於各量測集之徑向距離之距離被導出。在方塊136及138中進一步調整信號位準。各濾波器組之貢獻被加總至左輸出140或右輸出142且發送至耳機用於雙耳聆聽。 此實施方案之缺點在於,由於各具有不同時間延遲之兩個或兩個以上對側HRTF之間之內插,故經渲染物件之空間解析度將較不聚焦。可使用一足夠取樣之HRTF網路來最小化相關聯假訊之可聽度。針對稀疏取樣之HRTF集,與對側濾波器加總相關聯之梳狀濾波可係可聽見的(尤其在經取樣HRTF位置之間)。 所描述之實施例包含至少一個遠場HRTF集,其係以足夠空間解析度取樣以便提供一有效互動式3D音訊體驗及接近左耳及右耳取樣之一對近場HRTF。雖然在此情況中近場HRTF資料空間被稀疏取樣,但效果仍可係非常有說服力的。在一進一步簡化中,可使用一單一近場或「中間」HRTF。在此等最小情況中,方向性僅在遠場集作用中時可行。 圖24係一音訊渲染裝置之一部分之一功能方塊圖。圖24係一音訊渲染裝置之一部分之一功能方塊圖。圖24表示上文論述之圖之一簡化實施方案。實際實施方案將可能具有亦在一三維聆聽空間周圍取樣之一更大經取樣遠場HRTF位置集。再者,在各項實施例中,輸出可經受額外處理步驟(諸如串擾消除)以產生適用於揚聲器重現之一聽覺傳輸信號。類似地,應注意,可使用跨共同半徑集之距離聲相偏移來產生子混音(例如,圖23中之混音方塊122)使得其適用於其他適合組態之網路上之儲存/儲存/轉碼或其他延遲渲染。 上文描述描述用於一音訊物件在一聲音空間中之近場渲染之方法及裝置。將一音訊物件在近場及遠場兩者中渲染之能力實現使不僅物件、而且使用主動轉向/聲相偏移(諸如高保真度立體聲響複製、矩陣編碼等)解碼之任何空間音訊混音之深度完全渲染之能力,藉此實現超過水平面中之簡單旋轉之完全平移頭部追蹤(例如,使用者移動)。現將描述用於將深度資訊附加至(例如)藉由擷取或藉由高保真度立體聲響複製聲相偏移產生之高保真度立體聲響複製混音之方法及裝置。本文中描述之技術將使用第一階高保真度立體聲響複製作為一實例,但其等亦可應用至第三或更高階高保真度立體聲響複製。 高保真度立體聲響複製基礎 高保真度立體聲響複製係一種擷取/編碼表示在聲場中來自一單一點之全部聲音之方向之一固定信號集之一方式,其中一多聲道混音將擷取聲音作為來自多個進入信號之一貢獻。換言之,相同高保真度立體聲響複製信號可用於在任何數目個揚聲器上重新渲染聲場。在多聲道情況中,吾人限於重現源自聲道之組合之源。若不存在高度,則不傳輸高度資訊。另一方面,高保真度立體聲響複製始終傳輸完整方向圖像且僅限於重現之點處。 考量第一階(B格式(B-Format))聲相偏移方程式集,其可主要被視為所關注點處之虛擬麥克風: W = S * 1/√2,其中W =全向分量; X = S * cos(θ) * cos(ϕ),其中X =數字8指向前側; Y = S * sin(θ) * cos(ϕ),其中Y =數字8指向右側; Z = S * sin(ϕ),其中Z =數字8指向上方; 且S係被聲相偏移之信號。 自此四個信號,可產生指向任何方向之一虛擬麥克風。因而,解碼器主要負責重新產生指向被用於渲染之揚聲器之各者之一虛擬麥克風。雖然此技術在很大程度上有效果,但其幾乎僅使用實際麥克風來擷取回應。因此,雖然經解碼信號將具有針對各輸出聲道之所要信號,但各聲道將亦包含特定量之洩漏或「逸出」,因此存在用以設計最佳表示一解碼器佈局(尤其若其具有一非均勻間隔)之解碼器之某一技術。此係許多高保真度立體聲響複製重現系統使用對稱佈局(四邊形、六邊形等)之原因。 頭部追蹤自然由此等類型之解決方案支援,此係因為解碼由WXYZ方向轉向信號之一組合權重達成。為了旋轉一B格式,可在解碼之前在WXYZ信號上應用一旋轉矩陣且結果將解碼至經適當調整之方向。然而,此一解決方案無法實施一平移(例如,收聽者位置之使用者移動或改變)。 主動解碼擴展 可期望與洩漏作戰且改良不均勻佈局之效能。主動解碼解決方案(諸如Harpex或DirAC)不形成用於解碼之虛擬麥克風。代替性地,其等檢測聲場之方向、重新產生一信號且具體地在其等已針對各時間-頻率識別之方向上渲染信號。雖然此極大改良解碼之方向性,但其限制方向性,此係因為各時間-頻率方塊需要一硬決策。在DirAC之情況中,其按每時間-頻率做出一單一方向假定。在Harpex之情況中,可偵測兩個方向波前。在任一系統中,解碼器可提供對於方向性決策應如何軟或如何硬之一控制。此一控制在本文中稱為「焦點」之一參數,其可係用以容許軟焦點、內部聲相偏移之一有用的後設資料參數或軟化方向性之確立之其他方法。 甚至在主動解碼器情況中,距離仍係一關鍵缺失函數。雖然方向直接編碼於高保真度立體聲響複製聲相偏移方程式中,但沒有關於源距離之資訊可被直接編碼而超過基於源距離之對位準或混響率之改變。在高保真度立體聲響複製擷取/解碼案例中,可且應存在對於麥克風「接近性」或「麥克風鄰近性」之光譜補償,但此不容許主動解碼(例如)在2公尺處之一個源及在4公尺處之另一源。此係因為信號限於僅攜載方向資訊。事實上,被動解碼器效能依賴於若一收聽者完美地位於甜蜜點(sweetspot)中且全部聲道等距則洩漏將不算一問題之事實。此等條件最大化預期聲場之重新產生。 再者,B格式WXYZ信號中之旋轉之頭部追蹤解決方案將不容許具有平移之變換矩陣。雖然座標可容許一投影向量(例如,齊次座標),但難以或不可能在操作之後重新編碼(此將導致修改丟失),且難以或不可能渲染其。可期望克服此等限制。 具有平移之頭部追蹤 圖14係具有頭部追蹤之一主動解碼器之一功能方塊圖。如上文論述,不存在直接編碼於B格式信號中之深度考量。在解碼時,渲染器將假定此聲場表示係在揚聲器之距離處渲染之聲場之部分的源的方向。然而,藉由使用主動轉向,將一經形成信號渲染至一特定方向的能力僅受限於聲相偏移器的選擇。功能上,此係由圖14表示,圖14展示具有頭部追蹤之一主動解碼器。 若選定聲相偏移器係使用上文描述之近場聲相偏移技術之一「距離聲相偏移器」,則隨著一收聽者移動,源位置(在此情況中,按每頻格群組之空間分析的結果)可係由包含所需旋轉及平移之一齊次座標變換矩陣修改,以使用絕對座標在完整3D空間中完全渲染各信號。舉例而言,圖14中展示之主動解碼器接收一輸入信號28,且使用一FFT 30將信號轉換為時域。空間分析32使用時域信號來判定一或多個信號的相對位置。舉例而言,空間分析32可判定一第一聲源係定位於一使用者之前側(例如,0°方位角),且一第二聲源係定位於使用者之右側(例如,90°方位角)。信號形成34使用時域信號來產生此等源,其等被輸出為具有相關聯後設資料之聲音物件。主動轉向38可自空間分析32或信號形成34接收輸入,且旋轉(例如,聲相偏移)信號。特定言之,主動轉向38可自信號形成34接收源輸出,且可基於空間分析32之輸出來聲相偏移源。主動轉向38亦可自一頭部追蹤器36接收一旋轉或平移輸入。基於旋轉或平移輸入,主動轉向旋轉或平移聲源。舉例而言,若頭部追蹤器36指示一90°之逆時針方向之選擇,則第一聲源將自使用者之前側旋轉至左側,且第二聲源將自使用者之右側旋轉至前側。一旦任何旋轉或平移輸入被施加於主動轉向38中,輸出便被提供至一逆FFT 40且用於產生一或多個遠場聲道42或一或多個近場聲道44。源位置之修改亦可包含類似於如3D圖形領域中使用之源位置之修改的技術。 主動轉向之方法可使用一方向(自空間分析計算)及一聲相偏移演算法,諸如VBAP。藉由使用一方向及聲相偏移演算法,用以支援平移的計算增加主要係以改變為一4x4變換矩陣(相對於與僅旋轉所需之3x3)、距離聲相偏移(大致為原始聲相偏移方法之兩倍)及針對近場聲道之額外逆快速傅立葉變換(IFFT)為代價。應注意,在此情況中,4x4旋轉及聲相偏移操作係在資料座標而非信號上,意謂使用增加之頻格分組,其變得計算上更便宜。圖14之輸出矩陣可充當具有如上文論述且在圖21中展示之近場支援之一類似組態之固定HRTF濾波器網路的輸入,因此圖14可功能上充當一高保真度立體聲響複製物件之增益/延遲網路。 深度編碼 一旦一解碼器支援具有平移之頭部追蹤且具有一合理準確之渲染(歸因於主動解碼),將可期望將深度直接編碼至一源。換言之,將可期望修改傳輸格式及聲相偏移方程式以支援在內容生產期間新增深度指示符。不同於應用深度提示(諸如混音中之響度及混響改變)之典型方法,此方法將實現恢復矩陣中之一源的距離,使得其可針對最終重播能力而非生產側上之能力被渲染。本文中論述具有不同取捨之三種方法,其中可取決於可容許計算成本、複雜性及諸如回溯相容性之要求來進行取捨。 基於深度之子混音(N個混音) 圖15係具有深度及頭部追蹤之一主動解碼器之一功能方塊圖。最直接的方法係支援「N」個獨立B格式混音(其等各具有一相關聯後設資料(或假定)深度)之平行解碼。舉例而言,圖15展示具有深度及頭部追蹤之一主動解碼器。在此實例中,近場及遠場B格式被渲染為獨立混音連同一選用「中間」聲道。近場Z聲道亦係選用的,此係因為大多數實施方案可能不使近場高度聲道渲染。當被丟棄時,高度資訊被投射於遠/中間中或使用下文針對近場編碼論述之仿鄰近性(「Froximity」)方法。結果係高保真度立體聲響複製等效於上文描述之「距離聲相偏移器」/「近場渲染器」在於各種深度混音(近、遠、中間等)維持分離。然而,在此情況中,存在針對任何解碼組態之僅總共八個或九個聲道之一傳輸,且存在完全取決於各深度之一靈活解碼佈局。恰如同距離聲相偏移器,此被一般化為「N」個混音,但在大多數情況下可使用兩個(一個遠場及一個近場),藉此比遠場更遠之源在具有距離衰減之遠場中被混音且在近場內部之源被放置於具有或不具有「Froximity」風格之修改或投影之近場混音中,使得在半徑0處之一源在無方向之情況下被渲染。 為了一般化此程序,將可期望使某一後設資料與各混音相關聯。理想地,各混音將被標記有:(1)混音之距離;及(2)混音之焦點(或應解碼混音之清晰程度,因此不使用太多主動轉向來解碼頭部內部之混音)。若存在具有更多或更少回聲(或一可調諧回聲引擎)之HRIR之一選擇,則其他實施例可使用一乾/濕(Wet/Dry)混音參數來指示使用哪一空間模型。較佳地,將做出關於佈局之適當假定,因此不需要額外後設資料來作為一8聲道混音發送其,因此使其與現有串流及工具相容。 「D」聲道(如在WXYZD中) 圖16係具有深度及頭部追蹤之具有一單一轉向聲道「D」之一替代主動解碼器之一功能方塊圖。圖16係其中使用一或多個深度(或距離)聲道「D」來取代可能冗餘信號集(WXYZnear)之一替代方法。使用深度聲道來編碼關於高保真度立體聲響複製混音之有效深度之時間-頻率資訊,其可由解碼器使用以用於按各頻率渲染聲源距離。「D」聲道將編碼為一正規化距離,作為一個實例,其可被恢復為值0 (在原點處之頭部中),恰在近場中之0.25及針對在遠場中完全渲染之一源高達1。此編碼可藉由使用一絕對值參考(諸如OdBFS)或藉由相對量值及/或相位對一或多個其他聲道(諸如「W」聲道)而達成。起因於超過遠場之任何實際距離衰減如在舊型解決方案中般由混音之B格式部分處置。 藉由以此方式處理距離m,藉由丟棄(若干) D聲道,導致假定1之一距離或「遠場」而使B格式聲道功能上與標準解碼器回溯相容。然而,吾人之解碼器將能夠使用此(等)信號來轉向至近場中及外。由於不需要外部後設資料,故信號可與舊型5.1音訊編碼解碼器相容。如同「N個混音」解決方案,(若干)額外聲道係信號速率且針對全部時間-頻率定義。此意謂額外聲道亦與任何頻格分組(bin-grouping)或頻域頻塊(frequency domain tiling)相容,只要其保持與B格式聲道同步。此兩個相容性因素使此為一尤其可按比例調整的解決方案。編碼D聲道之一種方法係按各頻率使用W聲道之相對量值。若按一特定頻率之D聲道之量測與按該頻率之W聲道之量值完全相同,則按該頻率之有效距離係1或「遠場」。若按一特定頻率之D聲道之量值係0,則按該頻率之有效距離係0,其對應於收聽者之頭部之中間。在另一實例中,若按一特定頻率之D聲道之量值係按該頻率之W聲道之量值之0.25,則有效距離係0.25或「近場」。相同理念可用於使用W聲道之相對功率按各頻率編碼D聲道。 編碼D聲道之另一方法係執行方向分析(空間分析),其與由解碼器使用來提取與各頻率相關聯之(若干)聲源方向之方向分析完全相同。若僅存在按一特定頻率偵測之一個聲源,則編碼與聲源相關聯之距離。若存在按一特定頻率偵測之一個以上聲源,則編碼與聲源相關聯之距離之一加權平均值。 替代地,可藉由各個別聲源在一特地時間框處之頻率分析而編碼距離聲道。按各頻率之距離可編碼為與按該頻率之最主導聲源相關聯之距離或為與按該頻率之主動聲源相關聯之距離之加權平均值。上述技術可擴展至額外D聲道,諸如擴展至總共N個聲道。在解碼器可支援按各頻率之多個聲源方向之情況中,可包含額外D聲道以支援在此多個方向上擴展距離。需要注意確保聲音方向及源距離保持由正確編碼/解碼順序相關聯。 仿鄰近性或「Froximity」編碼係一替代編碼系統,「D」聲道之新增係修改「W」聲道使得W中之信號對XYZ中之信號之比率展示所要距離。然而,此系統不回溯相容於標準B格式,此係因為典型解碼器需要聲道之固定比率來確保解碼之後之能量節省。此系統將需要「信號形成」區段中之主動解碼邏輯來補償此等位準波動,且編碼器將需要方向分析來預補償XYZ信號。此外,當將多個相關源轉向至相對側時,系統具有限制。舉例而言,兩個源左側/右側、前側/後側或頂側/底側將在XYZ編碼上減少至0。因而,解碼器將被迫針對該頻帶做出一「零方向」假定且將兩個源渲染至中間。在此情況中,單獨D聲道將已容許源兩者被轉向至具有一距離「D」。 為了最大化鄰近性渲染來指示鄰近性,較佳編碼將係隨著源更接近而增加W聲道能量。此可由XYZ聲道之一互補減少而平衡。鄰近性之此風格藉由降低「方向性」同時增加整體正規化能量而同時編碼「鄰近性」,從而導致一更「當前」源。此可由主動解碼方法或動態深度增強進一步增強。 圖17係具有深度及頭部追蹤之僅具有後設資料深度之一主動解碼器之一功能方塊圖。替代地,使用完整後設資料係一選項。在此替代例中,僅使用可與其並排發送之任何後設資料來擴增B格式信號。此展示於圖17中。最低限度,後設資料定義整體高保真度立體聲響複製信號之一深度(諸如將一混音標記為近或遠),但其將理想地在多個頻帶處被取樣以防止一個源修改整個混音之距離。 在一實例中,所需後設資料包含深度(或半徑)及「焦點」來渲染混音,其等係與上文之N個混音解決方案相同之參數。較佳地,此後設資料係動態的且可與內容一起改變,且係按每頻率的或至少在經分組值之一臨界頻帶中。 在一實例中,選用參數可包含一乾/濕混音,或具有更多或更少早期回聲或「房間聲音」。此可接著作為對於早期回聲/混響混音位準之一控制被給定至渲染器。應注意,此可使用近場或遠場雙耳房間脈衝回應(BRIR)完成,其中BRIR亦近似乾的。 空間信號之最佳傳輸 在上文之方法中,吾人描述擴展高保真度立體聲響複製B格式之一特定情況。針對本文獻之剩餘部分,吾人將關注於擴展至一更廣背景內容中之空間場景編碼,但此有助於強調本發明之關鍵元件。 圖18展示針對虛擬實境應用之一例示性最佳傳輸案例。可期望識別最佳化一進階空間渲染器之效能之複雜聲音場景之高效率表示同時使傳輸之頻寬保持為相對較低的。在一理想解決方案中,可使用保持與標準僅音訊編碼解碼器相容之最小數目個音訊聲道完全表示一複雜聲音場景(多個源、床混音(bed mix)或具有包含高度及深度資訊之完整3D定位之聲場)。換言之,不產生一新編碼解碼器或依賴於一後設資料側聲道,而係經由通常僅係音訊的現有傳輸路徑攜載一最佳串流將係理想的。顯而易見的係取決於進階特徵(諸如高度及深度渲染)之應用優先級,「最佳」傳輸變得某種程度上主觀的。為了此描述之目的,吾人將關注於需要完整3D及頭部或位置追蹤之一系統,諸如虛擬實境。在圖18中提供一一般化案例,其係針對虛擬實境之一例示性最佳傳輸案例。 可期望保持輸出格式不可知且支援任何佈局或渲染方法之解碼。一應用可能正在嘗試編碼任何數目個音訊物件(具有位置之單聲道桿)、基底/床混音或其他聲場表示(諸如高保真度立體聲響複製)。使用選用頭部/位置追蹤容許源之恢復用於在渲染期間重新分佈或平滑旋轉/平移。再者,由於存在潛在視訊,故必須以相對高空間解析度產生音訊使得其不與聲源之視覺表示卸離。應注意,本文中描述之實施例不需要視訊(若不包含,則不需要A/V多工及解多工)。此外,多聲道音訊編碼解碼器可與無損耗PCM波資料同樣簡單或與低位元率感知編碼器同樣進階,只要其以一容器格式封裝音訊用於運輸。 基於物件、聲道及場景之表示 最完整音訊表示係藉由維持獨立物件(各由一或多個音訊緩衝器及所需後設資料組成以使用正確方法及位置渲染音訊表示以達成所要結果)而達成。此需要最大量之音訊信號且可係更有問題的,此係因為其可需要動態源管理。 基於聲道之解決方案可被視為將被渲染之事物之一空間取樣。最終,聲道表示必須匹配最終渲染揚聲器佈局或HRTF取樣解析度。雖然一般化升混/降混技術可容許調適至不同格式,但自一個格式至另一格式之各轉變、針對頭部/位置追蹤之調適或其他轉變將導致「重新聲相偏移」源。此可增加最終輸出聲道之間之相關性且在HRTF之情況中可導致減少之外化(externalization)。另一方面,聲道解決方案與現有混音架構非常相容且對於加成性源係穩健的,其中在任何時間將額外源新增至一床混音不影響已經在混音中之源之經傳輸位置。 基於場景之表示藉由使用音訊聲道來編碼位置音訊之描述而更進一步。此可包含聲道相容選項,諸如矩陣編碼,其中最終格式可被播放為一立體對或「解碼」為更接近原始聲音場景之一更空間混音。替代地,如同高保真度立體聲響複製(B格式、UHJ、HOA等)之解決方案可用於「擷取」一聲場描述來直接作為一信號集,該信號集可能直接播放或可能非直接播放,但可在任何輸出格式上空間解碼且渲染。此等基於場景之方法可顯著減少聲道計數同時針對有限數目個源提供類似空間解析度;然而,場景層級之多個源之互動將格式基本上減少為具有個別源丟失之一感知方向編碼。因此,源洩漏或模糊可在降低有效解析度(其可以聲道為代價使用較高階高保真度立體聲響複製,或使用頻域技術改良)之解碼程序期間出現。 可使用各種編碼技術達成經改良之基於場景之表示。舉例而言,主動解碼藉由執行對經編碼信號之一空間分析或經編碼信號之一部分/被動解碼且接著經由離散聲相偏移將信號之該部分直接渲染至經偵測位置而減少基於場景之編碼之洩漏。舉例而言,DTS Neural Surround (DTS 神經環場)中之矩陣解碼程序或DirAC中之B格式處理。在一些情況中,如高角度解析度平面波擴展(Harpex)之情況,可偵測且渲染多個方向。 另一技術可包含頻率編碼/解碼。大多數系統將顯著獲益於頻率相依處理。以時間-頻率分析及合成為附加項代價,可在頻域中執行空間分析,從而容許將非重疊源獨立地轉向至其等之各自方向。 一額外方法係使用解碼之結果來通知編碼,例如當一基於多聲道之系統被減少至一立體矩陣編碼時。相對於原始多聲道渲染,矩陣編碼係在一第一遍次中進行、經解碼且分析。基於經偵測誤差,使用將使最終解碼輸出與原始多聲道內容更加對準之校正進行一第二遍次編碼。此類型之回饋系統最適用於已具有上文描述之頻率相依主動解碼之方法。 深度渲染及源平移 本文中先前描述之距離渲染技術達成雙耳渲染中之深度/鄰近性之感覺。技術使用距離聲相偏移來在兩個或兩個以上參考距離內分佈一聲源。舉例而言,使遠場及近場HRTF之一加權平衡渲染以達成目標深度。使用此一距離聲相偏移器來在各種深度處產生子混音亦可用於深度資料之編碼/傳輸。根本上,子混音全部表示場景編碼之相同方向性,但子混音之組合透過其等相對能量分佈而揭露深度資訊。此等分佈可係:(1)深度之一直接量化(針對諸如「近」及「遠」之相關性均勻分佈或分組);或(2)比某一參考距離更接近或更遠之一相對轉向,例如,某一信號被理解為比遠場混音之剩餘部分更近。 甚至當不傳輸距離資訊時,解碼器仍可利用深度聲相偏移來實施包含源之平移之3D頭部追蹤。在混音中表示之源假定為源自方向及參考距離。隨著收聽者在空間中移動,可使用距離聲相偏移器重新聲相偏移源以引入自收聽者至源之絕對距離之改變之意義。若不使用一全3D雙耳渲染器,則可藉由擴展使用用以修改深度之感知之其他方法,(例如)如在共同擁有之美國專利第9,332,373中描述,該專利之內容以引用的方式併入本文中。重要地,音訊源之平移需要如將在本文中描述之經修改深度渲染。 傳輸技術 圖19展示針對主動3D音訊解碼及渲染之一一般化架構。取決於編碼器之可接受複雜性或其他要求,以下技術係可用的。假定下文論述之全部解決方案獲益於如上文描述之頻率相依主動解碼。亦可見,以下技術主要關注於編碼深度資訊之新方式,其中使用此階層之動機係除了音訊物件之外,深度未依任何經典音訊格式予以直接編碼。在一實例中,深度係需要重新引入之缺失尺寸。圖19係用於如下文論述之解決方案使用之主動3D音訊解碼及渲染之一一般化架構之一方塊圖。為了清楚起見,使用單一箭頭展示信號路徑,但應理解,信號路徑表示任何數目個聲道或雙耳/聽覺傳輸信號對。 如圖19中可見,在判定所要方向及深度以渲染各時間-頻率頻格之一空間分析中使用經由音訊聲道或後設資料發送之音訊信號及(視情)況資料。經由信號形成重建音訊源,其中信號形成可視為音訊聲道、被動矩陣或高保真度立體聲響複製解碼之一加權總和。接著以包含經由頭部或位置追蹤之對於收聽者移動之任何調整之最終音訊格式將「音訊源」主動渲染至所要位置。 雖然在時間頻率分析/合成方塊內第一次展示此程序,但應理解,頻率處理不需要基於FFT,其可係任何時間頻率表示。另外,可在時域中(無頻率相依處理)執行關鍵方塊之全部或部分。舉例而言,此系統可用於產生一新基於聲道之音訊格式,其將隨後在時域及/或頻域處理之一進一步混音中由一組HRTF/BRIR渲染。 所展示之頭部追蹤被理解為係應針對其調整3D音訊之旋轉及/或平移之任何指示。通常言之,調整將係側傾/縱傾/左右轉動、四元數或旋轉矩陣,及用於調整相對放置之收聽者之一位置。執行調整使得音訊維持與預期聲音場景或視覺分量之一絕對對準。應理解,雖然主動轉向係最有可能的應用位置,但此資訊亦可用於告知諸如源信號形成之其他程序中之決策。提供旋轉及/或平移之一指示之頭部追蹤器可包含一頭戴式虛擬實境或擴增實境頭戴耳機、具有慣性或位置感測器之一攜帶型電子器件或來自另一旋轉及/或平移追蹤電子器件之一輸入。亦可提供頭部追蹤器旋轉及/或平移作為一使用者輸入,諸如來自一電子控制器之一使用者輸入。 下文詳細提供且論述三個層級之解決方案。各層級必須具有至少一主要音訊信號。此信號可係任何空間格式或場景編碼且將通常係多聲道音訊混音、矩陣/相位編碼立體對或高保真度立體聲響複製混音之某一組合。由於各係基於一傳統表示,故預期各子混音表示一特定距離或距離組合之左/右、前/後及理想地頂/底(高度)。 可提供不表示音訊樣品串流之額外選用音訊資料信號作為後設資料或編碼為音訊信號。額外選用音訊資料信號可用於告知空間分析或轉向;然而,由於資料被假定輔助完全表示音訊信號之主要音訊混音,故通常不需要其等資料來形成用於最終渲染之音訊信號。預期若後設資料可用,則解決方案將亦不使用「音訊資料」,但混合資料解決方案係可行的。類似地,假定最簡單且最回溯相容之系統將單獨依賴於真實音訊信號。 深度聲道編碼 深度聲道編碼或「D」聲道之概念係其中一給定子混音之各時間-頻率頻格之主要深度/距離藉由各頻格之量值及/或相位而編碼為一音訊信號。舉例而言,藉由相對於OdBFS之量值按每接腳來編碼相對於一最大/參考距離之源距離,使得-inf dB係不具有距離之一源且全尺度係在參考/最大距離處之一源。假定超過參考距離或最大距離,將源視為僅由位準之減少或已經在舊型混音格式中可行之距離之其他混音位準指示改變。換言之,最大/參考距離係在其處通常在無深度編碼之情況下使源渲染之傳統距離,上文稱為遠場。 替代地,「D」聲道可係一轉向信號使得將深度編碼為「D」聲道中之量值及/或相位對其他主要聲道之一或多者之一比率。舉例而言,可將深度編碼為「D」對高保真度立體聲響複製中之單聲道「W」聲道之一比率。藉由使其相對於其他信號而非OdBFS或某一其他絕對位準,編碼可對於音訊編碼解碼器之編碼或諸如位準調整之其他音訊程序更穩健。 若解碼器瞭解針對此音訊資料聲道之編碼假定,則即使使用與編碼程序中不同之解碼器時間-頻率分析或感知分組,其仍將能夠恢復所需資訊。此等系統之主要困難係必須針對一給定子混音編碼一單一深度值。意謂若必須呈現多個重疊源,則其等必須在單獨混音中發送或必須選擇一主導距離。雖然可搭配多聲道床混音一起使用此系統,但更可能將使用此一聲道來擴增其中已經在解碼器中分析時間-頻率轉向且將聲道技術保持為一最小值之高保真度立體聲響複製或矩陣編碼場景。 基於高保真度立體聲響複製之編碼 針對所提出之高保真度立體聲響複製解決方案之一更詳細描述,見上文之「具有深度編碼之高保真度立體聲響複製」段落。此等方法將導致用於傳輸B格式+深度之最小5聲道混音W、X、Y、Z及D。亦論述一仿鄰近性或「Froximity」方法,其中深度編碼必須藉由W (全像聲道)對X、Y、Z方向聲道之能量比率而併入至現有B格式中。雖然此容許僅四個聲道之傳輸,但其具有可能由其他4聲道編碼方案最佳解決之其他缺點。 基於矩陣之編碼 一矩陣系統可採用一D聲道來將深度資訊新增至已經傳輸之物項。在一個實例中,一單一立體對經增益-相位編碼以表示在各副頻帶處頭部對源之方位角及仰角兩者。因此,3個聲道(矩陣L、矩陣R、D)將足以傳輸完整3D資訊,且矩陣L、矩陣R提供一回溯相容之立體降混。 替代地,可作為針對高度聲道(矩陣L、矩陣R、高度矩陣L、高度矩陣R、D)之一單獨矩陣編碼傳輸高度資訊。然而,在該情況中,編碼類似於「D」聲道之「高度」可係有利的。此將提供(矩陣L、矩陣R、H、D),其中矩陣L及矩陣R表示一回溯相容立體降混且H及D係僅用於位置轉向之選用音訊資訊聲道。 在一特殊情況中,「H」聲道可在本質上類似於一B格式混音之「Z」或高度聲道。使用用於向上轉向之正信號及用於向下轉向之負信號,「H」與矩陣聲道之間之能量比率之關係將指示向上或向下轉向多遠。非常類似於一B格式混音中之「Z」比「W」聲道之能量比率。 基於深度之子混音 基於深度之子混音涉及在不同關鍵深度(諸如遠(通常渲染距離)及近(鄰近性))處產生兩個或兩個以上混音。雖然可由一深度零或「中間」聲道及一遠(最大距離聲道)達成一完整描述,但傳輸之深度愈多,最終渲染器可愈準確/靈活。換言之,子混音之數目充當各個別源之深度之一量化。以最高準確度直接編碼恰落在一量化深度處之源,因此子混音對應於渲染器之相關深度將係有利的。舉例而言,在一雙耳系統中,近場混音深度應對應於近場HRTF之深度且遠場應對應於吾人之遠場HRTF。關於深度編碼之此方法之主要優點為混音係加成性且不需要其他源之進階或先前知識。在某種意義上,係一「完整」3D混音之傳輸。 圖20展示針對三個深度之基於深度之子混音之一實例。如圖20中展示,三個深度可包含中間(意謂頭部之中心)、近場(意謂在收聽者頭部之周邊上)及遠場(意謂吾人之典型遠場混音距離)。可使用任何數目個深度,但圖20 (如同圖1A)對應於一雙耳系統,其中在非常接近頭部(近場)及大於1 m且通常2至3公尺之一典型遠場距離之情況下對HRTF取樣。當源「S」恰係遠場之深度時,其將僅包含於遠場混音中。隨著源擴展超過遠場,源之位準將減少且視情況源將變得更混響或更不「直接」發聲。換言之,遠場混音恰係其將在標準3D舊型應用中被處理之方式。隨著源朝向近場轉變,源在遠場及近場混音兩者之相同方向上被編碼直至其中源恰在近場處將不再自源貢獻於遠場混音之點。在混音之間之此交叉淡入淡出期間,整體源增益可增加且渲染變得更直接/乾以產生「鄰近性」之一意義。若容許源繼續至頭部之中間(「M」)中,則源將最終被渲染於多個近場HRTF或一個代表性中間HRTF上使得收聽者不感知方向,而如同其係來自頭部之內部。雖然可在編碼側上進行此內部聲相偏移,但傳輸中間信號容許最終渲染器在頭部追蹤操作中更佳操縱源以及基於最終渲染器之能力選擇用於「中間聲相偏移」源之最終渲染方法。 由於此方法依賴於兩個或兩個以上獨立混音之間之交叉淡入淡出,故存在源沿著深度方向之更多分離。舉例而言,具有類似時間-頻率內容之源S1及S2可具有相同或不同方向、不同深度且保持完全獨立。在解碼器側上,將遠場視為全部具有具備某一參考距離D1之距離之源之一混音且將近場視為全部具有某一參考距離D2之源之一混音。然而,必須存在對於最終渲染假定之補償。採取(例如) Dl = 1 (在其處源位準係0 dB之一參考最大距離)及D2 = 0.25 (其中假定源位準係+12dB之針對鄰近性之一參考距離)。由於渲染器使用將針對其在D2處渲染之源應用12 dB增益且針對其在D1處渲染之源應用0 dB之一距離聲相偏移器,故經傳輸混音應補償目標距離增益。 在一實例中,若混音器將源S1放置於D1與D2之間之中途(50%在近場中且50%在遠場中)之距離D處,則源將理想地具有6 dB之源增益,源將被編碼為遠場中之「S1遠」6 dB及近場中之在-6 dB (6 dB至12 dB)處之「S1近」。當被解碼且重新渲染時,系統將播放S1近在+6 dB (或6 dB - 12 dB + 12 dB)處及S1遠在+6 dB (6 dB + 0 dB + 0 dB)處。 類似地,若混音器將源S1放置於相同方向上之距離D=D1處,則源將僅在遠場中以0 dB之一源增益編碼。接著若在渲染期間,收聽者在S1之方向上移動使得D再次等於D1與D2之間之中途,則渲染側上之距離聲相偏移器將再次應用一6 dB源增益且在近HRTF與遠HRTF之間重新分佈S1。此導致如上文之相同最終渲染。應理解,此僅係闡釋性地且可以傳輸格式適應包含其中不使用距離增益之情況之其他值。 基於高保真度立體聲響複製之編碼 在高保真度立體聲響複製場景之情況中,一最小3D表示由一4聲道B格式(W、X、Y、Z)+一中間聲道組成。將通常以各四個聲道之額外B格式混音表示額外深度。一完整遠-近-中間編碼將需要九個聲道。然而,由於通常係在無高度之情況下使近場渲染,故可將近場簡化為僅係水平的。接著可在八個聲道(W、X、Y、Z遠場、W、X、Y近場、中間)中達成一相對有效之組態。在此情況中,經聲相偏移至近場中之源使其等高度投射至遠場及/或中間聲道之一組合中。此可使用一正弦/餘弦漸變(或類似簡單方法)完成,此係因為源仰角在一給定距離處增加。 若音訊編碼解碼器需要七個或更少聲道,則其可仍較佳地發送(W、X、Y、Z遠場、W、X、Y近場),而非(W、X、Y、Z、中間)之最小3D表示。取捨在於針對多個源之深度準確度對對於頭部之完整控制。若源位置限於大於或等於近場係可接受的,則額外方向聲道將改良最終渲染之空間分析期間之源分離。 基於矩陣之編碼 藉由類似擴展,可使用多個矩陣或增益/相位編碼立體對。舉例而言,矩陣遠L、矩陣遠R、矩陣近L、矩陣近R、中間、LFE之一5.1傳輸可提供一完整3D聲場所需之全部資訊。若矩陣對無法完全編碼高度(例如若吾人想要其等與DTS Neural回溯相容),則可使用一額外矩陣遠高度對。可類似於在D聲道編碼中論述般新增使用一高度轉向聲道之一混合系統。然而,預期針對一7聲道混音,上文之高保真度立體聲響複製方法係較佳的。 另一方面,若可自矩陣對解碼一完整方位角及仰角方向,則此方法之最小組態係3個聲道(矩陣L、矩陣R、中間),其已經係所需傳輸頻寬之一顯著節約(即時在任何低位元率編碼之前)。 後設資料/編碼解碼器 可藉由後設資料輔助上文描述之方法(諸如「D」聲道編碼),作為更容易確保在音訊編碼解碼器之另一側上準確恢復資料之一方式。然而,此等方法不再與舊型音訊編碼解碼器相容。 混合解決方案 雖然上文分開論述,但應理解,取決於應用要求,各深度或子混音之最佳編碼可係不同的。如上文提及,可使用矩陣編碼與高保真度立體聲響複製轉向之一混合來將高度資訊新增至矩陣編碼信號。類似地,可針對基於深度之子混音系統中之一個、任何或全部子混音使用D聲道編碼或後設資料。 亦可將一基於深度之子混音用作一中間暫存格式,接著一旦完成混音,便可使用「D」聲道編碼來進一步減少聲道計數。基本上將多個深度混音編碼為一單一混音+深度。 事實上,此處之主要提議係吾人根本上使用全部三者。首先使用距離聲相偏移器將混音分解為基於深度之子混音,藉此各子混音之深度恆定,從而容許未傳輸之一隱含深度聲道。在此一系統中,深度編碼用於增加吾人之深度控制而子混音用於維持比透過一單一方向混音將達成之更佳之源方向分離。接著可基於諸如音訊編碼解碼器、最大可容許頻寬及渲染要求之應用細節而選擇最終權衡。亦應理解,此等選擇對於呈一傳輸格式之各子混音可係不同的,且最終解碼佈局仍可係不同的且僅取決於使特定聲道渲染之渲染器能力。 本發明已詳細描述且參考其例示性實施例描述,熟習此項技術者將明白,可對其做出各種改變及修改而不脫離實施例之精神及範疇。因此,旨在本發明涵蓋本發明之修改及變動,只要其等在隨附發明申請專利範圍及其等等效物之範疇內。 為了更加繪示本文中揭示之方法及裝置,本文中提供一非限制性實施例清單。 實例1係一種近場雙耳渲染方法,其包括:接收一音訊物件,該音訊物件包含一聲源及一音訊物件位置;基於該音訊物件位置及位置後設資料而判定一徑向權重集,該位置後設資料指示一收聽者位置及一收聽者定向;基於該音訊物件位置、該收聽者位置及該收聽者定向而判定一源方向;基於至少一個頭部相關傳遞函數(HRTF)徑向邊界之該源方向而判定一HRTF權重集,該至少一個HRTF徑向邊界包含一近場HRTF音訊邊界半徑及一遠場HRTF音訊邊界半徑之至少一者;基於該徑向權重集及該HRTF權重集而產生一3D雙耳音訊物件輸出,該3D雙耳音訊物件輸出包含一音訊物件方向及一音訊物件距離;及基於該3D雙耳音訊物件輸出而轉訊一雙耳音訊輸出信號。 在實例2中,實例1之標的物視情況包含:自一頭部追蹤器及一使用者輸入之至少一者接收該位置後設資料。 在實例3中,實例1至2之任何一或多者之標的物視情況包含其中:判定該HRTF權重集包含判定該音訊物件位置超過該遠場HRTF音訊邊界半徑;且判定該HRTF權重集係進一步基於一位準衰減及一直接混響比之至少一者。 在實例4中,實例1至3之任何一或多者之標的物視情況包含其中:該HRTF徑向邊界包含一重要HRTF音訊邊界半徑,該重要HRTF音訊邊界半徑定義該近場HRTF音訊邊界半徑與該遠場HRTF音訊邊界半徑之間之一填隙半徑。 在實例5中,實例4之標的物視情況包含:比較該音訊物件半徑與該近場HRTF音訊邊界半徑及比較該音訊物件半徑與該遠場HRTF音訊邊界半徑,其中判定該HRTF權重集包含基於該音訊物件半徑比較而判定近場HRTF權重及遠場HRTF權重之一組合。 在實例6中,實例1至5之任何一或多者之標的物視情況包含:D雙耳音訊物件輸出係進一步基於經判定ITD且在該至少一個HRTF徑向邊界上。 在實例7中,實例6之標的物視情況包含:判定該音訊物件位置超過該近場HRTF音訊邊界半徑,其中判定該ITD包含基於該經判定源方向而判定一分數時間延遲。 在實例8中,實例6至7之任何一或多者之標的物視情況包含:判定該音訊物件位置在該近場HRTF音訊邊界半徑上或內,其中判定該ITD包含基於該經判定源方向而判定一近場時間耳間延遲。 在實例9中,實例1至8之任何一或多者之標的物視情況包含:D雙耳音訊物件輸出係基於一時間-頻率分析。 實例10係一種六自由度聲源追蹤方法,其包括:接收一空間音訊信號,該空間音訊信號表示至少一個聲源,該空間音訊信號包含一參考定向;接收一3-D運動輸入,該3-D運動輸入表示一收聽者相對於該至少一個空間音訊信號參考定向之一實體移動;基於該空間音訊信號而產生一空間分析輸出;基於該空間音訊信號及該空間分析輸出而產生一信號形成輸出;基於該信號形成輸出、該空間分析輸出及一3-D運動輸入而產生一主動轉向輸出,該主動轉向輸出表示由該收聽者相對於該空間音訊信號參考定向之該實體移動引起之該至少一個聲源之一經更新視方向及距離(apparent direction and distance);及基於該主動轉向輸出而轉訊一音訊輸出信號。 在實例11中,實例10之標的物視情況包含其中:一收聽者之該實體移動包含一旋轉及一平移之至少一者。 在實例12中,實例11之標的物視情況包含:來自一頭部追蹤器件及一使用者輸入器件之至少一者之-D運動輸入。 在實例13中,實例10至12之任何一或多者之標的物視情況包含:基於該主動轉向輸出而產生複數個量化聲道,該複數個量化聲道之各者對應於一預定量化深度。 在實例14中,實例13之標的物視情況包含:自該複數個量化聲道產生適用於耳機重現之一雙耳音訊信號。 在實例15中,實例14之標的物視情況包含:藉由應用串擾消除而產生適用於揚聲器重現之一聽覺傳輸音訊信號。 在實例16中,實例10至15之任何一或多者之標的物視情況包含:自該經形成音訊信號及該經更新視方向產生適用於耳機重現之一雙耳音訊信號。 在實例17中,實例16之標的物視情況包含:藉由應用串擾消除而產生適用於揚聲器重現之一聽覺傳輸音訊信號。 在實例18中,實例10至17之任何一或多者之標的物視情況包含其中:該運動輸入包含在三個正交運動軸之至少一者中之一移動。 在實例19中,實例18之標的物視情況包含其中:該運動輸入包含繞三個正交運動軸之至少一者之一旋轉。 在實例20中,實例10至19之任何一或多者之標的物視情況包含其中:該運動輸入包含一頭部追蹤器運動。 在實例21中,實例10至20之任何一或多者之標的物視情況包含其中:該空間音訊信號包含至少一個高保真度立體聲響複製聲場。 在實例22中,實例21之標的物視情況包含其中:該至少一個高保真度立體聲響複製聲場包含一第一階聲場、一較高階聲場及一混合聲場之至少一者。 在實例23中,實例21至22之任何一或多者之標的物視情況包含其中:應用空間聲場解碼包含基於一時間-頻率聲場分析而分析該至少一個高保真度立體聲響複製聲場;且其中該至少一個聲源之該經更新視方向係基於該時間-頻率聲場分析。 在實例24中,實例10至23之任何一或多者之標的物視情況包含其中:該空間音訊信號包含一矩陣編碼信號。 在實例25中,實例24之標的物視情況包含其中:應用該空間矩陣解碼係基於一時間-頻率矩陣分析;且其中該至少一個聲源之該經更新視方向係基於該時間-頻率矩陣分析。 在實例26中,實例25之標的物視情況包含其中:應用該空間矩陣解碼保存高度資訊。 實例27係一種深度解碼方法,其包括:接收一空間音訊信號,該空間音訊信號表示在一聲源深度處之至少一個聲源;基於該空間音訊信號及該聲源深度而產生一空間分析輸出;基於該空間音訊信號及該空間分析輸出而產生一信號形成輸出;基於該信號形成輸出及該空間分析輸出而產生一主動轉向輸出,該主動轉向輸出表示該至少一個聲源之一經更新視方向;及基於該主動轉向輸出而轉訊一音訊輸出信號。 在實例28中,實例27之標的物視情況包含其中:該至少一個聲源之該經更新視方向係基於收聽者相對於該至少一個聲源之一實體移動。 在實例29中,實例27至28之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例30中,實例29之標的物視情況包含其中:該高保真度立體聲響複製聲場編碼音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例31中,實例27至30之任何一或多者之標的物視情況包含其中:該空間音訊信號包含複數個空間音訊信號子集。 在實例32中,實例31之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯子集深度,且其中產生該空間分析輸出包含:在各相關聯子集深度處解碼該複數個空間音訊信號子集之各者以產生複數個經解碼子集深度輸出;及組合該複數個經解碼子集深度輸出以產生該空間音訊信號中之該至少一個聲源之一凈深度感知。 在實例33中,實例32之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一固定位置聲道。 在實例34中,實例32至33之任何一或多者之標的物視情況包含其中:該固定位置聲道包含一左耳聲道、一右耳聲道及一中間聲道之至少一者,該中間聲道提供定位於該左耳聲道與該右耳聲道之間之一聲道之一感知。 在實例35中,實例32至34之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例36中,實例35之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例37中,實例32至36之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例38中,實例37之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例39中,實例31至38之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一相關聯可變深度音訊信號。 在實例40中,實例39之標的物視情況包含其中:各相關聯可變深度音訊信號包含一相關聯參考音訊深度及一相關聯可變音訊深度。 在實例41中,實例39至40之任何一或多者之標的物視情況包含其中:各相關聯可變深度音訊信號包含關於該複數個空間音訊信號子集之各者之一有效深度之時間-頻率資訊。 在實例42中,實例40至41之任何一或多者之標的物視情況包含:在該相關聯參考音訊深度處解碼該經形成音訊信號,該解碼包含:使用該相關聯可變音訊深度進行解碼;及使用該相關聯參考音訊深度解碼該複數個空間音訊信號子集之各者。 在實例43中,實例39至42之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例44中,實例43之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例45中,實例39至44之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例46中,實例45之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例47中,實例31至46之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯深度後設資料信號,該深度後設資料信號包含聲源實體位置資訊。 在實例48中,實例47之標的物視情況包含其中:該聲源實體位置資訊包含關於一參考位置及一參考定向之位置資訊;且該聲源實體位置資訊包含一實體位置深度及一實體位置方向之至少一者。 在實例49中,實例47至48之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例50中,實例49之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例51中,實例47至50之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例52中,實例51之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例53中,實例27至52之任何一或多者之標的物視情況包含:使用頻帶分割及時間-頻率表示之至少一者按一或多個頻率獨立地執行該音訊輸出。 實例54係一種深度解碼方法,其包括:接收一空間音訊信號,該空間音訊信號表示在一聲源深度處之至少一個聲源;基於該空間音訊信號產生一音訊,該音訊輸出表示該至少一個聲源之一視凈深度及方向(apparent net depth and direction);及基於該主動轉向輸出而轉訊一音訊輸出信號。 在實例55中,實例54之標的物視情況包含其中:該至少一個聲源之該視方向係基於收聽者相對於該至少一個聲源之一實體移動。 在實例56中,實例54至55之任何一或多者之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例57中,實例54至56之任何一或多者之標的物視情況包含其中:該空間音訊信號包含複數個空間音訊信號子集。 在實例58中,實例57之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯子集深度,且其中產生該信號形成輸出包含:在各相關聯子集深度處解碼該複數個空間音訊信號子集之各者以產生複數個經解碼子集深度輸出;及組合該複數個經解碼子集深度輸出以產生該空間音訊信號中之該至少一個聲源之一凈深度感知。 在實例59中,實例58之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一固定位置聲道。 在實例60中,實例58至59之任何一或多者之標的物視情況包含其中:該固定位置聲道包含一左耳聲道、一右耳聲道及一中間聲道之至少一者,該中間聲道提供定位於該左耳聲道與該右耳聲道之間之一聲道之一感知。 在實例61中,實例58至60之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例62中,實例61之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例63中,實例58至62之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例64中,實例63之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例65中,實例57至64任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一相關聯可變深度音訊信號。 在實例66中,實例65之標的物視情況包含其中:各相關聯可變深度音訊信號包含一相關聯參考音訊深度及一相關聯可變音訊深度。 在實例67中,實例65至66之任何一或多者之標的物視情況包含其中:各相關聯可變深度音訊信號包含關於該複數個空間音訊信號子集之各者之一有效深度之時間-頻率資訊。 在實例68中,實例66至67之任何一或多者之標的物視情況包含:在該相關聯參考音訊深度處解碼該經形成音訊信號,該解碼包含:使用該相關聯可變音訊深度進行解碼;及使用該相關聯參考音訊深度解碼該複數個空間音訊信號子集之各者。 在實例69中,實例65至68之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例70中,實例69之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例71中,實例65至70之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例72中,實例71之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例73中,實例57至72中之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯深度後設資料信號,該深度後設資料信號包含聲源實體位置資訊。 在實例74中,實例73之標的物視情況包含其中:該聲源實體位置資訊包含關於一參考位置及一參考定向之位置資訊;且該聲源實體位置資訊包含一實體位置深度及一實體位置方向中之至少一者。 在實例75中,實例73至74中之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例76中,實例75之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號,及一混合高保真度立體聲響複製音訊信號中之至少一者。 在實例77中,實例73至76中之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集中之至少一者包含一矩陣編碼音訊信號。 在實例78中,實例77之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例79中,實例54至78中之任何一或多者之標的物視情況包含其中:產生該信號形成輸出係進一步基於一時間-頻率轉向分析。 實例80係一種近場雙耳渲染系統,其包括:一處理器,其經組態以:接收一音訊物件,該音訊物件包含一聲源及一音訊物件位置;基於該音訊物件位置及位置後設資料來判定一徑向權重集,該位置後設資料指示一收聽者位置及一收聽者定向;基於該音訊物件位置、該收聽者位置及該收聽者定向來判定一源方向;基於至少一個頭部相關傳遞函數(HRTF)徑向邊界之該源方向來判定一HRTF權重集,該至少一個HRTF徑向邊界包含一近場HRTF音訊邊界半徑及一遠場HRTF音訊邊界半徑中之至少一者;且基於該徑向權重集及該HRTF權重集來產生一3D雙耳音訊物件輸出,該3D雙耳音訊物件輸出包含一音訊物件方向及一音訊物件距離;及一轉訊器,其基於該3D雙耳音訊物件輸出來將雙耳音訊輸出信號轉訊為一可聽雙耳輸出。 在實例81中,實例80之標的物視情況包含:該處理器進一步經組態以自一頭部追蹤器及一使用者輸入中之至少一者接收該位置後設資料。 在實例82中,實例80至81中之任何一或多者之標的物視情況包含其中:判定該HRTF權重集包含判定該音訊物件位置超過該遠場HRTF音訊邊界半徑;且判定該HRTF權重集係進一步基於一位準衰減及一直接混響比中之至少一者。 在實例83中,實例80至82之任何一或多者之標的物視情況包含其中:該HRTF徑向邊界包含一重要HRTF音訊邊界半徑,該重要HRTF音訊邊界半徑定義該近場HRTF音訊邊界半徑與該遠場HRTF音訊邊界半徑之間之一填隙半徑。 在實例84中,實例83之標的物視情況包含:該處理器進一步經組態以比較該音訊物件半徑與該近場HRTF音訊邊界半徑,及比較該音訊物件半徑與該遠場HRTF音訊邊界半徑,其中判定該HRTF權重集包含基於該音訊物件半徑比較來判定近場HRTF權重及遠場HRTF權重之一組合。 在實例85中,實例80至84中之任何一或多者之標的物視情況包含:D雙耳音訊物件輸出係進一步基於經判定ITD且在該至少一個HRTF徑向邊界上。 在實例86中,實例85之標的物視情況包含:該處理器進一步經組態以判定該音訊物件位置超過該近場HRTF音訊邊界半徑,其中判定該ITD包含基於該經判定源方向而判定一分數時間延遲。 在實例87中,實例85至86之任何一或多者之標的物視情況包含:該處理器進一步經組態以判定該音訊物件位置在該近場HRTF音訊邊界半徑上或內,其中判定該ITD包含基於該經判定源方向而判定一近場時間耳間延遲。 在實例88中,實例80至87之任何一或多者之標的物視情況包含:D雙耳音訊物件輸出係基於一時間-頻率分析。 實例89係一種六自由度聲源追蹤系統,其包括:一處理器,其經組態以:接收一空間音訊信號,該空間音訊信號表示至少一個聲源,該空間音訊信號包含一參考定向;自一運動輸入器件接收一3-D運動輸入,該3-D運動輸入表示一收聽者相對於該至少一個空間音訊信號參考定向之一實體移動;基於該空間音訊信號而產生一空間分析輸出;基於該空間音訊信號及該空間分析輸出而產生一信號形成輸出;且基於該信號形成輸出、該空間分析輸出及一3-D運動輸入而產生一主動轉向輸出,該主動轉向輸出表示由該收聽者相對於該空間音訊信號參考定向之該實體移動引起之該至少一個聲源之一經更新視方向及距離;及一轉訊器,其基於該主動轉向輸出而將音訊輸出信號轉訊為一可聽雙耳輸出。 在實例90中,實例89之標的物視情況包含其中:一收聽者之該實體移動包含一旋轉及一平移之至少一者。 在實例91中,實例89至90之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例92中,實例91之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例93中,實例91至92之標的物視情況包含其中:該運動輸入器件包含一頭部追蹤器件及一使用者輸入器件之至少一者。 在實例94中,實例89至93之任何一或多者之標的物視情況包含:該處理器進一步經組態以基於該主動轉向輸出而產生複數個量化聲道,該複數個量化聲道之各者對應於一預定量化深度。 在實例95中,實例94之標的物視情況包含其中:該轉訊器包含一耳機,其中該處理器進一步經組態以自該複數個量化聲道產生適用於耳機重現之一雙耳音訊信號。 在實例96中,實例95之標的物視情況包含其中:該轉訊器包含一揚聲器,其中該處理器進一步經組態以藉由應用串擾消除而產生適用於揚聲器重現之一聽覺傳輸音訊信號。 在實例97中,實例89至96之標的物視情況包含其中:該轉訊器包含一耳機,其中該處理器進一步經組態以自該經形成音訊信號及該經更新視方向產生適用於耳機重現之一雙耳音訊信號。 在實例98中,實例97之標的物視情況包含其中:該轉訊器包含一揚聲器,其中該處理器進一步經組態以藉由應用串擾消除而產生適用於揚聲器重現之一聽覺傳輸音訊信號。 在實例99中,實例89至98之任何一或多者之標的物視情況包含其中:該運動輸入包含在三個正交運動軸之至少一者中之一移動。 在實例100中,實例99之標的物視情況包含其中:該運動輸入包含繞三個正交運動軸之至少一者之一旋轉。 在實例101中,實例89至100之任何一或多者之標的物視情況包含其中:該運動輸入包含一頭部追蹤器運動。 在實例102中,實例89至101之任何一或多者之標的物視情況包含其中:該空間音訊信號包含至少一個高保真度立體聲響複製聲場。 在實例103中,實例102之標的物視情況包含其中:該至少一個高保真度立體聲響複製聲場包含一第一階聲場、一較高階聲場及一混合聲場之至少一者。 在實例104中,實例102至103之任何一或多者之標的物視情況包含其中:應用空間聲場解碼包含基於一時間-頻率聲場分析而分析該至少一個高保真度立體聲響複製聲場;且其中該至少一個聲源之該經更新視方向係基於該時間-頻率聲場分析。 在實例105中,實例89至104之任何一或多者之標的物視情況包含其中:該空間音訊信號包含一矩陣編碼信號。 在實例106中,實例105之標的物視情況包含其中:應用該空間矩陣解碼係基於一時間-頻率矩陣分析;且其中該至少一個聲源之該經更新視方向係基於該時間-頻率矩陣分析。 在實例107中,實例106之標的物視情況包含其中:應用該空間矩陣解碼保存高度資訊。 實例108係一種深度解碼系統,其包括:一處理器,其經組態以:接收一空間音訊信號,該空間音訊信號表示在一聲源深度處之至少一個聲源;基於該空間音訊信號及該聲源深度而產生一空間分析輸出;基於該空間音訊信號及該空間分析輸出而產生一信號形成輸出;且基於該信號形成輸出及該空間分析輸出而產生一主動轉向輸出,該主動轉向輸出表示該至少一個聲源之一經更新視方向;及一轉訊器,其基於該主動轉向輸出而將音訊輸出信號轉訊為一可聽雙耳輸出。 在實例109中,實例108之標的物視情況包含其中:該至少一個聲源之該經更新視方向係基於收聽者相對於該至少一個聲源之一實體移動。 在實例110中,實例108至109之任何一或多者之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例111中,實例108至110之任何一或多者之標的物視情況包含其中:該空間音訊信號包含複數個空間音訊信號子集。 在實例112中,實例111之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯子集深度,且其中產生該空間分析輸出包含:在各相關聯子集深度處解碼該複數個空間音訊信號子集之各者以產生複數個經解碼子集深度輸出;及組合該複數個經解碼子集深度輸出以產生該空間音訊信號中之該至少一個聲源之一凈深度感知。 在實例113中,實例112之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一固定位置聲道。 在實例114中,實例112至113之任何一或多者之標的物視情況包含其中:該固定位置聲道包含一左耳聲道、一右耳聲道及一中間聲道之至少一者,該中間聲道提供定位於該左耳聲道與該右耳聲道之間之一聲道之一感知。 在實例115中,實例112至114之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例116中,實例115之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例117中,實例112至116之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例118中,實例117之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例119中,實例111至118之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一相關聯可變深度音訊信號。 在實例120中,實例119之標的物視情況包含其中:各相關聯可變深度音訊信號包含一相關聯參考音訊深度及一相關聯可變音訊深度。 在實例121中,實例119至120之任何一或多者之標的物視情況包含其中:各相關聯可變深度音訊信號包含關於該複數個空間音訊信號子集之各者之一有效深度之時間-頻率資訊。 在實例122中,實例120至121之任何一或多者之標的物視情況包含:該處理器進一步經組態以在該相關聯參考音訊深度處解碼該經形成音訊信號,該解碼包含:使用該相關聯可變音訊深度進行解碼;及使用該相關聯參考音訊深度解碼該複數個空間音訊信號子集之各者。 在實例123中,實例119至122之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例124中,實例123之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例125中,實例119至124之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例126中,實例125之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例127中,實例111至126之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯深度後設資料信號,該深度後設資料信號包含聲源實體位置資訊。 在實例128中,實例127之標的物視情況包含其中:該聲源實體位置資訊包含關於一參考位置及一參考定向之位置資訊;且該聲源實體位置資訊包含一實體位置深度及一實體位置方向之至少一者。 在實例129中,實例127至128之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例130中,實例129之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例131中,實例127至130之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例132中,實例131之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例133中,實例108至132之任何一或多者之標的物視情況包含:使用頻帶分割及時間-頻率表示之至少一者按一或多個頻率獨立地執行該音訊輸出。 實例134係一種深度解碼系統,其包括:一處理器,其經組態以:接收一空間音訊信號,該空間音訊信號表示在一聲源深度處之至少一個聲源;且基於該空間音訊信號產生一音訊,該音訊輸出表示該至少一個聲源之一視凈深度及方向;及一轉訊器,其基於該主動轉向輸出而將音訊輸出信號轉訊為一可聽雙耳輸出。 在實例135中,實例134之標的物視情況包含其中:該至少一個聲源之該視方向係基於收聽者相對於該至少一個聲源之一實體移動。 在實例136中,實例134至135之任何一或多者之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例137中,實例134至136之任何一或多者之標的物視情況包含其中:該空間音訊信號包含複數個空間音訊信號子集。 在實例138中,實例137之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯子集深度,且其中產生該信號形成輸出包含:在各相關聯子集深度處解碼該複數個空間音訊信號子集之各者以產生複數個經解碼子集深度輸出;及組合該複數個經解碼子集深度輸出以產生該空間音訊信號中之該至少一個聲源之一凈深度感知。 在實例139中,實例138之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一固定位置聲道。 在實例140中,實例138至139之任何一或多者之標的物視情況包含其中:該固定位置聲道包含一左耳聲道、一右耳聲道及一中間聲道之至少一者,該中間聲道提供定位於該左耳聲道與該右耳聲道之間之一聲道之一感知。 在實例141中,實例138至140之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例142中,實例141之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例143中,實例138至142之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例144中,實例143之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例145中,實例137至144之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一相關聯可變深度音訊信號。 在實例146中,實例145之標的物視情況包含其中:各相關聯可變深度音訊信號包含一相關聯參考音訊深度及一相關聯可變音訊深度。 在實例147中,實例145至146之任何一或多者之標的物視情況包含其中:各相關聯可變深度音訊信號包含關於該複數個空間音訊信號子集之各者之一有效深度之時間-頻率資訊。 在實例148中,實例146至147之任何一或多者之標的物視情況包含:該處理器進一步經組態以在該相關聯參考音訊深度處解碼該經形成音訊信號,該解碼包含:使用該相關聯可變音訊深度進行解碼;及使用該相關聯參考音訊深度解碼該複數個空間音訊信號子集之各者。 在實例149中,實例145至148之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例150中,實例149之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例151中,實例145至150之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例152中,實例151之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例153中,實例137至152之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯深度後設資料信號,該深度後設資料信號包含聲源實體位置資訊。 在實例154中,實例153之標的物視情況包含其中:該聲源實體位置資訊包含關於一參考位置及一參考定向之位置資訊;且該聲源實體位置資訊包含一實體位置深度及一實體位置方向之至少一者。 在實例155中,實例153至154之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例156中,實例155之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例157中,實例153至156之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例158中,實例157之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例159中,實例134至158之任何一或多者之標的物視情況包含其中:產生該信號形成輸出係進一步基於一時間-頻率轉向分析。 實例160係至少一個機器可讀儲存媒體,其包括複數個指令,該複數個指令回應於使用一電腦控制之近場雙耳渲染器件之處理器電路執行而引起該器件:接收一音訊物件,該音訊物件包含一聲源及一音訊物件位置;基於該音訊物件位置及位置後設資料而判定一徑向權重集,該位置後設資料指示一收聽者位置及一收聽者定向;基於該音訊物件位置、該收聽者位置及該收聽者定向而判定一源方向;基於至少一個頭部相關傳遞函數(HRTF)徑向邊界之該源方向而判定一HRTF權重集,該至少一個HRTF徑向邊界包含一近場HRTF音訊邊界半徑及一遠場HRTF音訊邊界半徑之至少一者;基於該徑向權重集及該HRTF權重集而產生一3D雙耳音訊物件輸出,該3D雙耳音訊物件輸出包含一音訊物件方向及一音訊物件距離;及基於該3D雙耳音訊物件輸出而轉訊一雙耳音訊輸出信號。 在實例161中,實例160之標的物視情況包含:進一步引起該器件自一頭部追蹤器及一使用者輸入之至少一者接收該位置後設資料之該等指令。 在實例162中,實例160至161之任何一或多者之標的物視情況包含其中:判定該HRTF權重集包含判定該音訊物件位置超過該遠場HRTF音訊邊界半徑;且判定該HRTF權重集係進一步基於一位準衰減及一直接混響比之至少一者。 在實例163中,實例160至162之任何一或多者之標的物視情況包含其中:該HRTF徑向邊界包含一重要HRTF音訊邊界半徑,該重要HRTF音訊邊界半徑定義該近場HRTF音訊邊界半徑與該遠場HRTF音訊邊界半徑之間之一填隙半徑。 在實例164中,實例163之標的物視情況包含:進一步引起該器件比較該音訊物件半徑與該近場HRTF音訊邊界半徑及比較該音訊物件半徑與該遠場HRTF音訊邊界半徑之該等指令,其中判定該HRTF權重集包含基於該音訊物件半徑比較而判定近場HRTF權重及遠場HRTF權重之一組合。 在實例165中,實例160至164之任何一或多者之標的物視情況包含:D雙耳音訊物件輸出係進一步基於經判定ITD且在該至少一個HRTF徑向邊界上。 在實例166中,實例165之標的物視情況包含:進一步引起該器件判定該音訊物件位置超過該近場HRTF音訊邊界半徑之該等指令,其中判定該ITD包含基於該經判定源方向而判定一分數時間延遲。 在實例167中,實例165至166之任何一或多者之標的物視情況包含:進一步引起該器件判定該音訊物件位置在該近場HRTF音訊邊界半徑上或內之該等指令,其中判定該ITD包含基於該經判定源方向而判定一近場時間耳間延遲。 在實例168中,實例160至167之任何一或多者之標的物視情況包含:D雙耳音訊物件輸出係基於一時間-頻率分析。 實例169係至少一個機器可讀儲存媒體,其包括複數個指令,該複數個指令回應於使用一電腦控制之六自由度聲源追蹤器件之處理器電路執行而引起該器件:接收一空間音訊信號,該空間音訊信號表示至少一個聲源,該空間音訊信號包含一參考定向;接收一3-D運動輸入,該3-D運動輸入表示一收聽者相對於該至少一個空間音訊信號參考定向之一實體移動;基於該空間音訊信號而產生一空間分析輸出;基於該空間音訊信號及該空間分析輸出而產生一信號形成輸出;基於該信號形成輸出、該空間分析輸出及一3-D運動輸入而產生一主動轉向輸出,該主動轉向輸出表示由該收聽者相對於該空間音訊信號參考定向之該實體移動引起之該至少一個聲源之一經更新視方向及距離;及基於該主動轉向輸出而轉訊一音訊輸出信號。 在實例170中,實例169之標的物視情況包含其中:一收聽者之該實體移動包含一旋轉及一平移之至少一者。 在實例171中,實例169至170之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例172中,實例171之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例173中,實例171至172之任何一或多者之標的物視情況包含:來自一頭部追蹤器件及一使用者輸入器件之至少一者之-D運動輸入。 在實例174中,實例169至173之任何一或多者之標的物視情況包含:進一步引起該器件基於該主動轉向輸出而產生複數個量化聲道之該等指令,該複數個量化聲道之各者對應於一預定量化深度。 在實例175中,實例174之標的物視情況包含:進一步引起該器件自該複數個量化聲道產生適用於耳機重現之一雙耳音訊信號之該等指令。 在實例176中,實例175之標的物視情況包含:進一步引起該器件藉由應用串擾消除而產生適用於揚聲器重現之一聽覺傳輸音訊信號之該等指令。 在實例177中,實例169至176之任何一或多者之標的物視情況包含:進一步引起該器件自該經形成音訊信號及該經更新視方向產生適用於耳機重現之一雙耳音訊信號之該等指令。 在實例178中,實例177之標的物視情況包含:進一步引起該器件藉由應用串擾消除而產生適用於揚聲器重現之一聽覺傳輸音訊信號之該等指令。 在實例179中,實例169至178之任何一或多者之標的物視情況包含其中:該運動輸入包含在三個正交運動軸之至少一者中之一移動。 在實例180中,實例179之標的物視情況包含其中:該運動輸入包含繞三個正交運動軸之至少一者之一旋轉。 在實例181中,實例169至180之任何一或多者之標的物視情況包含其中:該運動輸入包含一頭部追蹤器運動。 在實例182中,實例169至181之任何一或多者之標的物視情況包含其中:該空間音訊信號包含至少一個高保真度立體聲響複製聲場。 在實例183中,實例182之標的物視情況包含其中:該至少一個高保真度立體聲響複製聲場包含一第一階聲場、一較高階聲場及一混合聲場之至少一者。 在實例184中,實例182至183之任何一或多者之標的物視情況包含其中:應用空間聲場解碼包含基於一時間-頻率聲場分析而分析該至少一個高保真度立體聲響複製聲場;且其中該至少一個聲源之該經更新視方向係基於該時間-頻率聲場分析。 在實例185中,實例169至184之任何一或多者之標的物視情況包含其中:該空間音訊信號包含一矩陣編碼信號。 在實例186中,實例185之標的物視情況包含其中:應用該空間矩陣解碼係基於一時間-頻率矩陣分析;且其中該至少一個聲源之該經更新視方向係基於該時間-頻率矩陣分析。 在實例187中,實例186之標的物視情況包含其中:應用該空間矩陣解碼保存高度資訊。 實例188係至少一個機器可讀儲存媒體,其包括複數個指令,該複數個指令回應於使用一電腦控制之深度解碼器件之處理器電路執行而引起該器件:接收一空間音訊信號,該空間音訊信號表示在一聲源深度處之至少一個聲源;基於該空間音訊信號及該聲源深度而產生一空間分析輸出;基於該空間音訊信號及該空間分析輸出而產生一信號形成輸出;基於該信號形成輸出及該空間分析輸出而產生一主動轉向輸出,該主動轉向輸出表示該至少一個聲源之一經更新視方向;及基於該主動轉向輸出而轉訊一音訊輸出信號。 在實例189中,實例188之標的物視情況包含其中:該至少一個聲源之該經更新視方向係基於收聽者相對於該至少一個聲源之一實體移動。 在實例190中,實例188至189之任何一或多者之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例191中,實例188至190之任何一或多者之標的物視情況包含其中:該空間音訊信號包含複數個空間音訊信號子集。 在實例192中,實例191之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯子集深度,且其中引起該器件產生該空間分析輸出之該等指令包含用以引起該器件完成以下項之指令:在各相關聯子集深度處解碼該複數個空間音訊信號子集之各者以產生複數個經解碼子集深度輸出;及組合該複數個經解碼子集深度輸出以產生該空間音訊信號中之該至少一個聲源之一凈深度感知。 在實例193中,實例192之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一固定位置聲道。 在實例194中,實例192至193之任何一或多者之標的物視情況包含其中:該固定位置聲道包含一左耳聲道、一右耳聲道及一中間聲道之至少一者,該中間聲道提供定位於該左耳聲道與該右耳聲道之間之一聲道之一感知。 在實例195中,實例192至194之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例196中,實例195之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例197中,實例192至196之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例198中,實例197之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例199中,實例191至198之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一相關聯可變深度音訊信號。 在實例200中,實例199之標的物視情況包含其中:各相關聯可變深度音訊信號包含一相關聯參考音訊深度及一相關聯可變音訊深度。 在實例201中,實例199至200之任何一或多者之標的物視情況包含其中:各相關聯可變深度音訊信號包含關於該複數個空間音訊信號子集之各者之一有效深度之時間-頻率資訊。 在實例202中,實例200至201之任何一或多者之標的物視情況包含:進一步引起該器件在該相關聯參考音訊深度處解碼該經形成音訊信號之該等指令,引起該器件解碼該經形成音訊信號之該等指令包含用以引起該器件完成以下項之指令:使用該相關聯可變音訊深度摒棄;及使用該相關聯參考音訊深度解碼該複數個空間音訊信號子集之各者。 在實例203中,實例199至202之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例204中,實例203之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例205中,實例199至204之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例206中,實例205之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例207中,實例191至206之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯深度後設資料信號,該深度後設資料信號包含聲源實體位置資訊。 在實例208中,實例207之標的物視情況包含其中:該聲源實體位置資訊包含關於一參考位置及一參考定向之位置資訊;且該聲源實體位置資訊包含一實體位置深度及一實體位置方向之至少一者。 在實例209中,實例207至208之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例210中,實例209之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例211中,實例207至210之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例212中,實例211之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例213中,實例188至212之任何一或多者之標的物視情況包含:使用頻帶分割及時間-頻率表示之至少一者按一或多個頻率獨立地執行該音訊輸出。 實例214係至少一個機器可讀儲存媒體,其包括複數個指令,該複數個指令回應於使用一電腦控制之深度解碼器件之處理器電路執行而引起該器件:接收一空間音訊信號,該空間音訊信號表示在一聲源深度處之至少一個聲源;基於該空間音訊信號產生一音訊,該音訊輸出表示該至少一個聲源之一視凈深度及方向;及基於該主動轉向輸出而轉訊一音訊輸出信號。 在實例215中,實例214之標的物視情況包含其中:該至少一個聲源之該視方向係基於收聽者相對於該至少一個聲源之一實體移動。 在實例216中,實例214至215之任何一或多者之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例217中,實例214至216之任何一或多者之標的物視情況包含其中:該空間音訊信號包含複數個空間音訊信號子集。 在實例218中,實例217之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯子集深度,且其中引起該器件產生信號形成輸出之該等指令包含引起該器件完成以下項之指令:在各相關聯子集深度處解碼該複數個空間音訊信號子集之各者以產生複數個經解碼子集深度輸出;及組合該複數個經解碼子集深度輸出以產生該空間音訊信號中之該至少一個聲源之一凈深度感知。 在實例219中,實例218之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一固定位置聲道。 在實例220中,實例218至219之任何一或多者之標的物視情況包含其中:該固定位置聲道包含一左耳聲道、一右耳聲道及一中間聲道之至少一者,該中間聲道提供定位於該左耳聲道與該右耳聲道之間之一聲道之一感知。 在實例221中,實例218至220之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例222中,實例221之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例223中,實例218至222之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例224中,實例223之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例225中,實例217至224之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一相關聯可變深度音訊信號。 在實例226中,實例225之標的物視情況包含其中:各相關聯可變深度音訊信號包含一相關聯參考音訊深度及一相關聯可變音訊深度。 在實例227中,實例225至226之任何一或多者之標的物視情況包含其中:各相關聯可變深度音訊信號包含關於該複數個空間音訊信號子集之各者之一有效深度之時間-頻率資訊。 在實例228中,實例226至227之任何一或多者之標的物視情況包含:進一步引起該器件在該相關聯參考音訊深度處解碼該經形成音訊信號之該等指令,引起該器件解碼該經形成音訊信號之該等指令包含用以引起該器件完成以下項之指令:使用該相關聯可變音訊深度摒棄;及使用該相關聯參考音訊深度解碼該複數個空間音訊信號子集之各者。 在實例229中,實例225至228之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例230中,實例229之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例231中,實例225至230之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例232中,實例231之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例233中,實例217至232之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之各者包含一相關聯深度後設資料信號,該深度後設資料信號包含聲源實體位置資訊。 在實例234中,實例233之標的物視情況包含其中:該聲源實體位置資訊包含關於一參考位置及一參考定向之位置資訊;且該聲源實體位置資訊包含一實體位置深度及一實體位置方向之至少一者。 在實例235中,實例233至234之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一高保真度立體聲響複製聲場編碼音訊信號。 在實例236中,實例235之標的物視情況包含其中:該空間音訊信號包含一第一階高保真度立體聲響複製音訊信號、一較高階高保真度立體聲響複製音訊信號及一混合高保真度立體聲響複製音訊信號之至少一者。 在實例237中,實例233至236之任何一或多者之標的物視情況包含其中:該複數個空間音訊信號子集之至少一者包含一矩陣編碼音訊信號。 在實例238中,實例237之標的物視情況包含其中:該矩陣編碼音訊信號包含經保存高度資訊。 在實例239中,實例214至238之任何一或多者之標的物視情況包含其中:產生該信號形成輸出係進一步基於一時間-頻率轉向分析。 上文之詳細描述包含對於形成詳細描述之一部分之隨附圖示之參考。圖示藉由圖解而展示特定實施例。此等實施例在本文中亦稱為「實例」。此等實例亦可包含除了所展示或描述之元件之外之元件。再者,標的物可包含所展示或描述之該等元件(或其等之一或多個態樣)相對於一特定實例(或其等之一或多個態樣)或相對於本文中展示或描述之其他實例(或其等之一或多個態樣)之任何組合或排列。 如專利文獻中常見般,在本文獻中使用術語「一(a/an)」來取決於「至少一個」或「一或多個」之任何其他例項或使用而包含一個或一個以上。在本文獻中,術語「或」用於指一非排他性或,諸如「A或B」包含「A但非B」、「B但非A」及「A及B」,除非另外指示。在本文獻中,術語「包含」及「其中」被用作各自術語「包括」及「其中」之簡明英語等效物。又,在以下發明申請專利範圍中,術語「包含」及「包括」係開放式的,即,亦包含除了在一請求項中在此一術語之後列舉之元件之外之元件之一系統、器件、物品、組合物、配方或程序仍被視為落於該請求項之範疇內。再者,在以下申請專利範圍中,術語「第一」、「第二」及「第三」等僅僅用作標記且不旨在對其等物件強加數值要求。 上文之描述旨在係闡釋性的且非限制性。舉例而言,上文描述之實例(或其等一或多個態樣)可彼此組合使用。其他實施例可諸如由一般技術者在審閱上文之描述之後使用。提供摘要以容許讀者快速確定技術揭示內容之本質。根據理解提出,其將不用於解譯或限制發明申請專利範圍之範疇或意義。在上文之實施方式中,可將各種特徵分組在一起以簡化本發明。此不應解譯為旨在一不主張揭示特徵對於任何請求項係至關重要的。實情係,標的物可在於少於一特定揭示實施例之全部特徵。因此,以下發明申請專利範圍藉此併入實施方式中,其中各請求項獨立作為一單獨實施例,且預期此等實施例可以各種組合或排列彼此組合。應參考隨附發明申請專利範圍連同此等申請發明專利範圍所授權之等效物之全範疇而判定範疇。
10‧‧‧音訊及位置後設資料12‧‧‧線13‧‧‧方塊14‧‧‧方塊16‧‧‧線17‧‧‧方塊18‧‧‧線20‧‧‧方塊21‧‧‧球形表示22‧‧‧線23‧‧‧相關聯高度/方塊24‧‧‧線25‧‧‧相關聯投影27‧‧‧相關聯仰角28‧‧‧輸入信號29‧‧‧相關聯方位角30‧‧‧方塊/FFT32‧‧‧具有距離提示之雙耳音訊/空間分析34‧‧‧信號形成36‧‧‧頭部追蹤器38‧‧‧主動轉向40‧‧‧逆快速傅立葉變換(IFFT)42‧‧‧遠場聲道44‧‧‧近場聲道60‧‧‧固定濾波器網路62‧‧‧混音器64‧‧‧額外網路66‧‧‧增益/延遲模組68‧‧‧增益/延遲模組70‧‧‧增益/延遲模組72‧‧‧輸入74‧‧‧輸入76‧‧‧輸入80‧‧‧固定音訊濾波器網路82‧‧‧混音器84‧‧‧按每物件之增益延遲網路86‧‧‧輸入88‧‧‧能量節省增益或權重90‧‧‧能量節省增益或權重92‧‧‧耳間時間延遲94‧‧‧耳間時間延遲96‧‧‧方塊98‧‧‧方塊100‧‧‧方塊102‧‧‧方塊104‧‧‧頭部相關傳遞函數(HRTF)106‧‧‧頭部相關傳遞函數(HRTF)108‧‧‧頭部相關傳遞函數(HRTF)110‧‧‧頭部相關傳遞函數(HRTF)112‧‧‧左輸出114‧‧‧右輸出120‧‧‧固定濾波器網路122‧‧‧混音器124‧‧‧額外網路/按每物件之增益延遲網路126‧‧‧頭部相關傳遞函數(HRTF)集128‧‧‧頭部相關傳遞函數(HRTF)集130‧‧‧徑向權重/能量或振幅保存增益132‧‧‧徑向權重/能量或振幅保存增益134‧‧‧輸入136‧‧‧共同半徑頭部相關傳遞函數(HRTF)集/增益集/方塊138‧‧‧共同半徑頭部相關傳遞函數(HRTF)集/增益集/方塊140‧‧‧左輸出142‧‧‧右輸出Rn‧‧‧半徑R1‧‧‧圓圈、環R2‧‧‧圓圈、環、近場邊界WR1‧‧‧徑向權重WR2‧‧‧徑向權重W11‧‧‧遠場頭部相關傳遞函數(HRTF)權重W12‧‧‧遠場頭部相關傳遞函數(HRTF)權重W21‧‧‧近場頭部相關傳遞函數(HRTF)權重W22‧‧‧近場頭部相關傳遞函數(HRTF)權重
圖1A至圖1C係針對一例示性音訊源位置之近場及遠場渲染之示意圖。 圖2A至圖2C係用於產生具有距離提示之雙耳音訊之演算法流程圖。 圖3A展示估計HRTF提示之一方法。 圖3B展示頭部相關脈衝回應(HRIR)內插之一方法。 圖3C係HRIR內插之一方法。 圖4係兩個同時聲源之一第一示意圖。 圖5係兩個同時聲源之一第二示意圖。 圖6係依據方位角、仰角及半徑(θ、ϕ、r)而變化的一3D聲源之一示意圖。 圖7係用於將近場及遠場渲染應用至一3D聲源之一第一示意圖。 圖8係用於將近場及遠場渲染應用至一3D聲源之一第二示意圖。 圖9展示HRIR內插之一第一時間延遲濾波器方法。 圖10展示HRIR內插之一第二時間延遲濾波器方法。 圖11展示HRIR內插之一簡化第二時間延遲濾波器方法。 圖12展示一簡化近場渲染結構。 圖13展示一簡化兩個源近場渲染結構。 圖14係具有頭部追蹤之一主動解碼器之一功能方塊圖。 圖15係具有深度及頭部追蹤之一主動解碼器之一功能方塊圖。 圖16係具有深度及頭部追蹤之具有一單一轉向聲道「D」之一替代主動解碼器之一功能方塊圖。 圖17係具有深度及頭部追蹤之僅具有後設資料深度之一主動解碼器之一功能方塊圖。 圖18展示針對虛擬實境應用之一例示性最佳傳輸案例。 圖19展示針對主動3D音訊解碼及渲染之一一般化架構。 圖20展示針對三個深度之基於深度之子混音之一實例。 圖21係一音訊渲染裝置之一部分之一功能方塊圖。 圖22係一音訊渲染裝置之一部分之一示意性方塊圖。 圖23係近場及遠場音訊源位置之一示意圖。 圖24係一音訊渲染裝置之一部分之一功能方塊圖。
10‧‧‧音訊及位置後設資料
12‧‧‧線
14‧‧‧方塊
16‧‧‧線
18‧‧‧線
20‧‧‧方塊
22‧‧‧線
24‧‧‧線
28‧‧‧輸入信號
R1‧‧‧圓圈、環
R2‧‧‧圓圈、環、近場邊界
WR1‧‧‧徑向權重
WR2‧‧‧徑向權重
W11‧‧‧遠場頭部相關傳遞函數(HRTF)權重
W12‧‧‧遠場頭部相關傳遞函數(HRTF)權重
W21‧‧‧近場頭部相關傳遞函數(HRTF)權重
W22‧‧‧近場頭部相關傳遞函數(HRTF)權重

Claims (7)

  1. 一種近場雙耳渲染方法,其包括:接收一音訊物件,該音訊物件包含一聲源及一音訊物件位置;基於該音訊物件位置及位置後設資料來判定一徑向權重集,該位置後設資料指示一收聽者位置及一收聽者定向;基於該音訊物件位置、該收聽者位置及該收聽者定向來判定一源方向;基於至少一個頭部相關傳遞函數(HRTF)徑向邊界之該源方向來判定一HRTF權重集,該至少一個HRTF徑向邊界包含一近場HRTF音訊邊界半徑及一遠場HRTF音訊邊界半徑中之至少一者;基於該徑向權重集及該HRTF權重集來產生一3D雙耳音訊物件輸出,該3D雙耳音訊物件輸出包含一音訊物件方向及一音訊物件距離;及基於該3D雙耳音訊物件輸出來轉訊一雙耳音訊輸出信號;及比較該音訊物件半徑與該近場HRTF音訊邊界半徑,及比較該音訊物件半徑與該遠場HRTF音訊邊界半徑;其中;該HRTF徑向邊界包含一重要HRTF音訊邊界半徑,該重要HRTF音訊邊界半徑定義該近場HRTF音訊邊界半徑與該遠場HRTF音訊邊界半徑之間之一填隙半徑;及判定該HRTF權重集包含基於該音訊物件半徑比較來判定近場HRTF權重及遠場HRTF權重之一組合。
  2. 如請求項1之方法,其中:判定該HRTF權重集包含判定該音訊物件位置超過該遠場HRTF音訊邊界半徑;且判定該HRTF權重集係進一步基於一位準衰減及一直接混響比中之至少一者。
  3. 如請求項1之方法,進一步包含判定一耳間時間延遲(ITD),其中產生一3D雙耳音訊物件輸出係進一步基於該經判定ITD且基於該至少一個HRTF徑向邊界。
  4. 一種近場雙耳渲染系統,其包括:一處理器,其經組態以:接收一音訊物件,該音訊物件包含一聲源及一音訊物件位置;基於該音訊物件位置及位置後設資料來判定一徑向權重集,該位置後設資料指示一收聽者位置及一收聽者定向;基於該音訊物件位置、該收聽者位置及該收聽者定向來判定一源方向;基於至少一個頭部相關傳遞函數(HRTF)徑向邊界之該源方向來判定一HRTF權重集,該至少一個HRTF徑向邊界包含一近場HRTF音訊邊界半徑及一遠場HRTF音訊邊界半徑中之至少一者;且基於該徑向權重集及該HRTF權重集來產生一3D雙耳音訊物件輸出,該3D雙耳音訊物件輸出包含一音訊物件方向及一音訊物件距離;及 一轉訊器,其基於該3D雙耳音訊物件輸出而將雙耳音訊輸出信號轉訊為一可聽雙耳輸出;該處理器進一步經組態以比較該音訊物件半徑與該近場HRTF音訊邊界半徑,及比較該音訊物件半徑與該遠場HRTF音訊邊界半徑;其中;該HRTF徑向邊界包含一重要HRTF音訊邊界半徑,該重要HRTF音訊邊界半徑定義該近場HRTF音訊邊界半徑與該遠場HRTF音訊邊界半徑之間之一填隙半徑;及判定該HRTF權重集包含基於該音訊物件半徑比較來判定近場HRTF權重及遠場HRTF權重之一組合。
  5. 如請求項4之系統,其中:判定該HRTF權重集包含判定該音訊物件位置超過該遠場HRTF音訊邊界半徑;且判定該HRTF權重集係進一步基於一位準衰減及一直接混響比中之至少一者。
  6. 如請求項4之系統,該處理器進一步經組態以判定一耳間時間延遲(ITD),其中產生一3D雙耳音訊物件輸出係進一步基於該經判定ITD且基於該至少一個HRTF徑向邊界。
  7. 一種機器可讀儲存媒體,其包括複數個指令,該複數個指令回應於使用一電腦控制之近場雙耳渲染器件之處理器電路來執行而引起該器件: 接收一音訊物件,該音訊物件包含一聲源及一音訊物件位置;基於該音訊物件位置及位置後設資料來判定一徑向權重集,該位置後設資料指示一收聽者位置及一收聽者定向;基於該音訊物件位置、該收聽者位置及該收聽者定向來判定一源方向;基於至少一個頭部相關傳遞函數(HRTF)徑向邊界之該源方向來判定一HRTF權重集,該至少一個HRTF徑向邊界包含一近場HRTF音訊邊界半徑及一遠場HRTF音訊邊界半徑中之至少一者;基於該徑向權重集及該HRTF權重集來產生一3D雙耳音訊物件輸出,該3D雙耳音訊物件輸出包含一音訊物件方向及一音訊物件距離;及基於該3D雙耳音訊物件輸出來轉訊一雙耳音訊輸出信號;該等指令進一步引起該器件比較該音訊物件半徑與該近場HRTF音訊邊界半徑,及比較該音訊物件半徑與該遠場HRTF音訊邊界半徑;其中;該HRTF徑向邊界包含一重要HRTF音訊邊界半徑,該重要HRTF音訊邊界半徑定義該近場HRTF音訊邊界半徑與該遠場HRTF音訊邊界半徑之間之一填隙半徑;及判定該HRTF權重集包含基於該音訊物件半徑比較來判定近場HRTF權重及遠場HRTF權重之一組合。
TW106120265A 2016-06-17 2017-06-16 使用近場/遠場渲染之距離聲相偏移 TWI744341B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662351585P 2016-06-17 2016-06-17
US62/351,585 2016-06-17

Publications (2)

Publication Number Publication Date
TW201810249A TW201810249A (zh) 2018-03-16
TWI744341B true TWI744341B (zh) 2021-11-01

Family

ID=60660549

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106120265A TWI744341B (zh) 2016-06-17 2017-06-16 使用近場/遠場渲染之距離聲相偏移

Country Status (7)

Country Link
US (4) US9973874B2 (zh)
EP (1) EP3472832A4 (zh)
JP (1) JP7039494B2 (zh)
KR (1) KR102483042B1 (zh)
CN (1) CN109891502B (zh)
TW (1) TWI744341B (zh)
WO (1) WO2017218973A1 (zh)

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
TWI744341B (zh) 2016-06-17 2021-11-01 美商Dts股份有限公司 使用近場/遠場渲染之距離聲相偏移
GB2554447A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Gain control in spatial audio systems
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10104491B2 (en) 2016-11-13 2018-10-16 EmbodyVR, Inc. Audio based characterization of a human auditory system for personalized audio reproduction
US10701506B2 (en) 2016-11-13 2020-06-30 EmbodyVR, Inc. Personalized head related transfer function (HRTF) based on video capture
JP2018101452A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造
US11096004B2 (en) * 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10861467B2 (en) * 2017-03-01 2020-12-08 Dolby Laboratories Licensing Corporation Audio processing in adaptive intermediate spatial format
US10531219B2 (en) * 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US10219095B2 (en) * 2017-05-24 2019-02-26 Glen A. Norris User experience localizing binaural sound during a telephone call
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US11089425B2 (en) * 2017-06-27 2021-08-10 Lg Electronics Inc. Audio playback method and audio playback apparatus in six degrees of freedom environment
US11122384B2 (en) * 2017-09-12 2021-09-14 The Regents Of The University Of California Devices and methods for binaural spatial processing and projection of audio signals
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US10531222B2 (en) * 2017-10-18 2020-01-07 Dolby Laboratories Licensing Corporation Active acoustics control for near- and far-field sounds
CN109688497B (zh) * 2017-10-18 2021-10-01 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储介质
CN111434126B (zh) * 2017-12-12 2022-04-26 索尼公司 信号处理装置和方法以及程序
CN111615835B (zh) 2017-12-18 2021-11-30 杜比国际公司 用于在虚拟现实环境中呈现音频信号的方法和系统
GB201800920D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
US10523171B2 (en) 2018-02-06 2019-12-31 Sony Interactive Entertainment Inc. Method for dynamic sound equalization
US10652686B2 (en) 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
KR102527336B1 (ko) * 2018-03-16 2023-05-03 한국전자통신연구원 가상 공간에서 사용자의 이동에 따른 오디오 신호 재생 방법 및 장치
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
CN112262585B (zh) * 2018-04-08 2022-05-13 Dts公司 环境立体声深度提取
GB2572761A (en) * 2018-04-09 2019-10-16 Nokia Technologies Oy Quantization of spatial audio parameters
US10848894B2 (en) * 2018-04-09 2020-11-24 Nokia Technologies Oy Controlling audio in multi-viewpoint omnidirectional content
CN113993061A (zh) 2018-04-09 2022-01-28 杜比国际公司 用于mpeg-h 3d音频的三自由度(3dof+)扩展的方法、设备和系统
US11375332B2 (en) 2018-04-09 2022-06-28 Dolby International Ab Methods, apparatus and systems for three degrees of freedom (3DoF+) extension of MPEG-H 3D audio
US11540075B2 (en) 2018-04-10 2022-12-27 Gaudio Lab, Inc. Method and device for processing audio signal, using metadata
BR112020015835A2 (pt) * 2018-04-11 2020-12-15 Dolby International Ab Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof
WO2019197349A1 (en) 2018-04-11 2019-10-17 Dolby International Ab Methods, apparatus and systems for a pre-rendered signal for audio rendering
US12081962B2 (en) 2018-04-12 2024-09-03 Sony Corporation Information processing apparatus and method, and program
GB201808897D0 (en) * 2018-05-31 2018-07-18 Nokia Technologies Oy Spatial audio parameters
EP3595336A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of operation therefor
US10887717B2 (en) 2018-07-12 2021-01-05 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of sound a source
GB2575509A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio capture, transmission and reproduction
US11205435B2 (en) 2018-08-17 2021-12-21 Dts, Inc. Spatial audio signal encoder
US10796704B2 (en) 2018-08-17 2020-10-06 Dts, Inc. Spatial audio signal decoder
CN113115175B (zh) * 2018-09-25 2022-05-10 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
US11798569B2 (en) * 2018-10-02 2023-10-24 Qualcomm Incorporated Flexible rendering of audio data
US10739726B2 (en) * 2018-10-03 2020-08-11 International Business Machines Corporation Audio management for holographic objects
WO2020073024A1 (en) * 2018-10-05 2020-04-09 Magic Leap, Inc. Emphasis for audio spatialization
US10966041B2 (en) * 2018-10-12 2021-03-30 Gilberto Torres Ayala Audio triangular system based on the structure of the stereophonic panning
US11425521B2 (en) 2018-10-18 2022-08-23 Dts, Inc. Compensating for binaural loudspeaker directivity
EP3870991A4 (en) 2018-10-24 2022-08-17 Otto Engineering Inc. DIRECTIONAL SENSITIVITY AUDIO COMMUNICATION SYSTEM
CN112840678B (zh) * 2018-11-27 2022-06-14 深圳市欢太科技有限公司 立体声播放方法、装置、存储介质及电子设备
US11304021B2 (en) * 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
CN117809663A (zh) * 2018-12-07 2024-04-02 弗劳恩霍夫应用研究促进协会 从包括至少两个声道的信号产生声场描述的装置、方法
WO2020127329A1 (en) * 2018-12-19 2020-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
CN114531640A (zh) 2018-12-29 2022-05-24 华为技术有限公司 一种音频信号处理方法及装置
EP3895453A1 (en) * 2019-01-14 2021-10-20 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Method, system and computer program product for recording and interpolation of ambisonic sound fields
EP3915278B1 (en) 2019-01-21 2025-07-30 Outer Echo Inc. Method and system for virtual acoustic rendering by time-varying recursive filter structures
GB2581785B (en) * 2019-02-22 2023-08-02 Sony Interactive Entertainment Inc Transfer function dataset generation system and method
US10462598B1 (en) * 2019-02-22 2019-10-29 Sony Interactive Entertainment Inc. Transfer function generation system and method
US20200304933A1 (en) * 2019-03-19 2020-09-24 Htc Corporation Sound processing system of ambisonic format and sound processing method of ambisonic format
US10924875B2 (en) 2019-05-24 2021-02-16 Zack Settel Augmented reality platform for navigable, immersive audio experience
CN113950845B (zh) * 2019-05-31 2023-08-04 Dts公司 凹式音频渲染
EP3977447B1 (en) * 2019-05-31 2025-04-09 DTS, Inc. Omni-directional encoding and decoding for ambisonics
US11399253B2 (en) 2019-06-06 2022-07-26 Insoundz Ltd. System and methods for vocal interaction preservation upon teleportation
EP3989605B1 (en) * 2019-06-21 2024-12-04 Sony Group Corporation Signal processing device and method
CN116959461A (zh) 2019-07-02 2023-10-27 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和系统
US11140503B2 (en) * 2019-07-03 2021-10-05 Qualcomm Incorporated Timer-based access for audio streaming and rendering
JP7362320B2 (ja) * 2019-07-04 2023-10-17 フォルシアクラリオン・エレクトロニクス株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
KR102656969B1 (ko) 2019-07-08 2024-04-11 디티에스, 인코포레이티드 불일치 오디오 비주얼 캡쳐 시스템
US11622219B2 (en) 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
WO2021018378A1 (en) * 2019-07-29 2021-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
US10812928B1 (en) * 2019-08-12 2020-10-20 Facebook Technologies, Llc Audio service design for operating systems
US11140509B2 (en) * 2019-08-27 2021-10-05 Daniel P. Anagnos Head-tracking methodology for headphones and headsets
JP7785664B2 (ja) * 2019-09-23 2025-12-15 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッド式近距離/遠距離場スピーカー仮想化
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
EP4042417A1 (en) 2019-10-10 2022-08-17 DTS, Inc. Spatial audio capture with depth
GB2589603A (en) * 2019-12-04 2021-06-09 Nokia Technologies Oy Audio scene change signaling
GB201918010D0 (en) * 2019-12-09 2020-01-22 Univ York Acoustic measurements
MX2022011151A (es) * 2020-03-13 2022-11-14 Fraunhofer Ges Forschung Aparato y metodo para renderizar una escena de sonido usando rutas de difraccion intermedias validas.
KR102500157B1 (ko) * 2020-07-09 2023-02-15 한국전자통신연구원 오디오 신호의 바이노럴 렌더링 방법 및 장치
CN114067810B (zh) * 2020-07-31 2025-12-12 华为技术有限公司 音频信号渲染方法和装置
EP3985482A1 (en) 2020-10-13 2022-04-20 Koninklijke Philips N.V. Audiovisual rendering apparatus and method of operation therefor
CN112601170B (zh) * 2020-12-08 2021-09-07 广州博冠信息科技有限公司 声音信息处理方法及装置、计算机存储介质、电子设备
FR3118266A1 (fr) * 2020-12-22 2022-06-24 Orange Codage optimisé de matrices de rotations pour le codage d’un signal audio multicanal
US11778408B2 (en) 2021-01-26 2023-10-03 EmbodyVR, Inc. System and method to virtually mix and audition audio content for vehicles
EP4054212A1 (en) 2021-03-04 2022-09-07 Nokia Technologies Oy Spatial audio modification
CN113903325B (zh) * 2021-05-31 2022-10-18 北京荣耀终端有限公司 文本转3d音频的方法及装置
WO2022262750A1 (zh) * 2021-06-15 2022-12-22 北京字跳网络技术有限公司 音频渲染系统、方法和电子设备
US11741093B1 (en) 2021-07-21 2023-08-29 T-Mobile Usa, Inc. Intermediate communication layer to translate a request between a user of a database and the database
US11924711B1 (en) 2021-08-20 2024-03-05 T-Mobile Usa, Inc. Self-mapping listeners for location tracking in wireless personal area networks
WO2023039096A1 (en) * 2021-09-09 2023-03-16 Dolby Laboratories Licensing Corporation Systems and methods for headphone rendering mode-preserving spatial coding
KR102601194B1 (ko) * 2021-09-29 2023-11-13 한국전자통신연구원 오디오 신호의 저복잡도 피치 시프팅 장치 및 그 방법
US11765537B2 (en) * 2021-12-01 2023-09-19 Htc Corporation Method and host for adjusting audio of speakers, and computer readable medium
KR20230162523A (ko) * 2022-05-05 2023-11-28 한국전자통신연구원 객체 오디오 렌더링 방법 및 상기 방법을 수행하는 전자 장치
US12363492B1 (en) * 2022-05-18 2025-07-15 Apple Inc. Spatial audio using near-field and far-field rendering
WO2024008410A1 (en) * 2022-07-06 2024-01-11 Telefonaktiebolaget Lm Ericsson (Publ) Handling of medium absorption in audio rendering
GB2621403A (en) * 2022-08-12 2024-02-14 Sony Group Corp Data processing apparatuses and methods
KR102837322B1 (ko) * 2023-04-19 2025-07-23 한국전자통신연구원 공간음향 렌더링을 위한 비트스트림 재구성 방법 및 장치
US20250104719A1 (en) * 2023-09-27 2025-03-27 Apple Inc. Method and System for Producing an Augmented Ambisonic Format
EP4535829A1 (en) * 2023-10-03 2025-04-09 Koninklijke Philips N.V. Generating of an audio data signal
GB2636708A (en) * 2023-12-19 2025-07-02 Nokia Technologies Oy Spatial audio communication
WO2025159083A1 (ja) * 2024-01-22 2025-07-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 仮想マイクを用いたバイノーラル化方法及び装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009046223A2 (en) * 2007-10-03 2009-04-09 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
CN102572676A (zh) * 2012-01-16 2012-07-11 华南理工大学 一种虚拟听觉环境实时绘制方法
US20140355795A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
US20150350804A1 (en) * 2012-08-31 2015-12-03 Dolby Laboratories Licensing Corporation Reflected Sound Rendering for Object-Based Audio
US20160134988A1 (en) * 2014-11-11 2016-05-12 Google Inc. 3d immersive spatial audio systems and methods
KR101627652B1 (ko) * 2015-01-30 2016-06-07 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
AUPO316096A0 (en) * 1996-10-23 1996-11-14 Lake Dsp Pty Limited Head tracking with limited angle output
US20030227476A1 (en) 2001-01-29 2003-12-11 Lawrence Wilcock Distinguishing real-world sounds from audio user interface sounds
US7492915B2 (en) * 2004-02-13 2009-02-17 Texas Instruments Incorporated Dynamic sound source and listener position based audio rendering
JP2006005868A (ja) * 2004-06-21 2006-01-05 Denso Corp 車両用報知音出力装置及びプログラム
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
CN103716748A (zh) 2007-03-01 2014-04-09 杰里·马哈布比 音频空间化及环境模拟
US8964013B2 (en) * 2009-12-31 2015-02-24 Broadcom Corporation Display with elastic light manipulator
JP2013529004A (ja) 2010-04-26 2013-07-11 ケンブリッジ メカトロニクス リミテッド 位置追跡を備えるスピーカ
US9354310B2 (en) 2011-03-03 2016-05-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound
US9118991B2 (en) * 2011-06-09 2015-08-25 Sony Corporation Reducing head-related transfer function data volume
KR102406776B1 (ko) 2011-07-01 2022-06-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
US9183844B2 (en) 2012-05-22 2015-11-10 Harris Corporation Near-field noise cancellation
US9332373B2 (en) 2012-05-31 2016-05-03 Dts, Inc. Audio depth dynamic range enhancement
DE102013105375A1 (de) 2013-05-24 2014-11-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Tonsignalerzeuger, Verfahren und Computerprogramm zum Bereitstellen eines Tonsignals
WO2014189550A1 (en) 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
EP2842529A1 (en) 2013-08-30 2015-03-04 GN Store Nord A/S Audio rendering system categorising geospatial objects
ES2936834T3 (es) * 2014-12-04 2023-03-22 Gaudi Audio Lab Inc Aparato de procesamiento de señales de audio y método para la reproducción biaural
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
US10979843B2 (en) 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
US9584653B1 (en) * 2016-04-10 2017-02-28 Philip Scott Lyren Smartphone with user interface to externally localize telephone calls
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
TWI744341B (zh) 2016-06-17 2021-11-01 美商Dts股份有限公司 使用近場/遠場渲染之距離聲相偏移
CN112262585B (zh) 2018-04-08 2022-05-13 Dts公司 环境立体声深度提取

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009046223A2 (en) * 2007-10-03 2009-04-09 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
CN102572676A (zh) * 2012-01-16 2012-07-11 华南理工大学 一种虚拟听觉环境实时绘制方法
US20150350804A1 (en) * 2012-08-31 2015-12-03 Dolby Laboratories Licensing Corporation Reflected Sound Rendering for Object-Based Audio
US20140355795A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
US20160134988A1 (en) * 2014-11-11 2016-05-12 Google Inc. 3d immersive spatial audio systems and methods
KR101627652B1 (ko) * 2015-01-30 2016-06-07 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법

Also Published As

Publication number Publication date
US10231073B2 (en) 2019-03-12
CN109891502B (zh) 2023-07-25
US10200806B2 (en) 2019-02-05
US10820134B2 (en) 2020-10-27
JP2019523913A (ja) 2019-08-29
TW201810249A (zh) 2018-03-16
EP3472832A1 (en) 2019-04-24
JP7039494B2 (ja) 2022-03-22
EP3472832A4 (en) 2020-03-11
US20170366914A1 (en) 2017-12-21
US9973874B2 (en) 2018-05-15
US20170366913A1 (en) 2017-12-21
WO2017218973A1 (en) 2017-12-21
KR20190028706A (ko) 2019-03-19
US20190215638A1 (en) 2019-07-11
KR102483042B1 (ko) 2022-12-29
US20170366912A1 (en) 2017-12-21
CN109891502A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
US10609503B2 (en) Ambisonic depth extraction
US9299353B2 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
KR102294767B1 (ko) 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
KR102516625B1 (ko) 몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법
EP2805326B1 (en) Spatial audio rendering and encoding
JP6983484B2 (ja) マルチレイヤ記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
HK40034452A (zh) 环境立体声深度提取
HK40034452B (zh) 环境立体声深度提取