TW201212006A - Full-band scalable audio codec - Google Patents
Full-band scalable audio codec Download PDFInfo
- Publication number
- TW201212006A TW201212006A TW100123209A TW100123209A TW201212006A TW 201212006 A TW201212006 A TW 201212006A TW 100123209 A TW100123209 A TW 100123209A TW 100123209 A TW100123209 A TW 100123209A TW 201212006 A TW201212006 A TW 201212006A
- Authority
- TW
- Taiwan
- Prior art keywords
- bit
- audio
- frame
- frequency
- frequency band
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 62
- 230000003595 spectral effect Effects 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000008901 benefit Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims 4
- 238000006243 chemical reaction Methods 0.000 claims 3
- 238000004806 packaging method and process Methods 0.000 claims 1
- 230000011664 signaling Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 12
- 238000010606 normalization Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000001174 ascending effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 108700004914 Ac-Nal(1)-Cpa(2)-Pal(3,6)-Arg(5)-Ala(10)- LHRH Proteins 0.000 description 1
- 240000007154 Coffea arabica Species 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000016213 coffee Nutrition 0.000 description 1
- 235000013353 coffee beverage Nutrition 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009377 nuclear transmutation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Description
201212006 六、發明說明: 【先前技術】 諸多種類型之系統使用音訊信號處理來形成音訊信號或 根據此等信號再現聲音。通常,信號處理將音訊信號轉換 為數位資料且編碼彼資料供在一網路上傳輸。然後,另外 信號處理解碼該所傳輸之資料且將其轉換回至類比信號供 再現為聲波。 存在各種用於編碼或解碼音訊信號之技術。(編碼或解 碼一信號之一處理器或一處理模組通常稱作一編解碼 器)。將音訊編解碼器用於會議中以減少必須自一近端傳 輸至一遠端以表現音訊之資料量。舉例而言,用於音訊與 視訊會議之音訊編解碼器壓縮高保真度音訊輸入,以便一 形成之傳輸信號保留最佳品質但需要最少數目之位元。以 此方式’具有音訊編解碼器之會議設備需要較少之儲存容 量’且該設備傳輸音訊信號所用之通信頻道需要較少之頻 寬。 音訊編解碼器可使用各種技術來編碼及解碼音訊供在一 會議中自一個端點傳輸至另一端點。某些常用音訊編解碼 器使用變換編碼技術來編碼及解碼在一網路上傳輸之音訊 資料。一種類型之音訊編解碼器係p〇lyCorn’s siren編解碼 器。Polycom’s Siren編解碼器之一個版本係ιτυ-Τ(國際電 信聯盟電信標準化組)推薦G.722.1 (Polycom Siren 7)。 Siren 7係將信號最高編碼至7 kHz之一寬頻編解碼器。另 一版本係 ITU-T G.722.1.C (Polycom Siren 14)。Siren 14 係 157237.doc -4 - 201212006 將信號最高編碼至14 kHz之一特級寬頻編解碼器β
Siren編解碼器係基於調變重疊變換(MLT)之音訊編解碼 器。同樣,Siren編解碼器將一音訊信號自時域變換至一調 變重疊變換(MLT)域。如所知曉,調變重疊變換(MLT)係 用於變換編碼各種類型之信號之一餘弦調變濾波器組之一 形式。一般而言,一重疊變換取得長度:之一音訊區塊, 且將彼區塊變換成Μ個係數,條件係L>M。對於此工作, 在連續1^至Μ個樣本區塊之間必定存在一重疊,以使得可 使用連續之經變換係數區塊獲得一合成信號。 圖1Α至圖1Β簡要地展示一變換編碼編解碼器(諸如一 Siren編解碼器)之特徵。一特定音訊編解碼器之實際細節 取決於實施方案及所用編解碼器之類型。舉例而言,可在 ITU-T推薦G.722.1 Annex C中找到Siren 14之已知細節,且 可在ITU-T推薦G.722.1中找到Siren 7之已知細節,以引用 方式將 ITU-T推薦 G.722.1 Annex C及 ITU-T推薦 G.722.1 併 入本文中。亦可在序號為11/55〇 629及11/55〇 682之美國專 利申請案中找到關於音訊信號之變換編碼之額外細節,以 引用方式將序號為1 1/550,629及1 1/550,682之美國專利申請 案併入本文中。 在圖1A中圖解說明變換編瑪編解碼器(例如8卜^編解碼 益)之一編碼器10。編碼器1〇接收已自一類比音訊信號轉 換之一數位k號12。已以某一頻率取樣該類比音訊信號之 振幅,且已將該振幅轉換為表現該振幅之一數字。典型取 樣頻率係約8 kHz(亦即,每秒取樣8〇〇〇次)、16 ]^^至196 157237.doc 201212006 kHz或兩者之間的某一值。在一項實例中,可以48 kHz或 以約20個區塊或訊框每毫秒之其他速率取樣此數位信號 12 ° 一變換20(其可係一離散餘弦變換(][)(:1〇)將數位信號12 自時域轉換成具有變換係數之一頻域。舉例而言,變換2〇 可針對每一音訊區塊或訊框產生96〇個變換係數之一頻 譜。編碼器10在一正規化處理程序22中得出該等係數之平 均能量位準(標準)^然後,編碼器1〇藉助一快速網格向量 量化(FLVQ)演算法24或類似物量化該等係數以編碼一輸出 信號14供分包及傳輸。 在圖1B中圖解說明變換編碼編解碼器(例如,siren編角 碼器)之一解碼器50。解碼器5〇取得自一網路接收之輸^ 信號52之傳入位元串流且根據其重新形成原始信號之一邊 佳估計。為進行此操作,解碼器5〇對輸入信號52執行一對 格解碼(反FLVQ)60且使用一解量化處理程序62解量化該與 解碼之變換係數。此外,然後可在各種頻率頻帶中校正璧 換係數之能量位準。最後,一逆變換64作為-反DCT操刊 且將信號自頻域轉換心時域供作為—輸 雖然此等音訊編解碼器有效,但音訊會議應用之傳二 加之需^及複雜性要求更多功能及增強之音訊編碼技術。 舉例而§ ’音訊編解碼器必須在網路上操作,且各種條件 (頻寬、接收器之不同連接速度)可動態地變化。—益绩 路係其中一頻道之位元速率隨時間而變化之—/ . ’貫例。因 ’ Ί網路中之—端點必須以不同位元速率發送出一 157237.doc
S -6 - 201212006 位元串流以適應網路條件。 一 MCU(多路控制單元)諸如Polycom’s RMX系列及MGC 系列產品之使用係其中可使用更多功能且增強之音訊編碼 技術之另一實例。舉例而言,在一會議中,一 MCU首先自 一第一端點A接收一位元争流且然後需要以不同長度將位 元串流發送至若干其他端點B、c、D、E、F…欲發送之不 同位元串流將視該等端點中之每一者具有多少網路頻寬而 定。舉例而言,一個端點B可以Μ kbps(位元每秒)之音訊 連接至該網路,而另—端點c可僅以8 kbps連接。 因此’ MCU以64 kbps將位元串流發送至一個端點B,以 8 =PS將位元争流發送至另一端點c,且對於該等端點中 之母-者亦如此。當前,Mcu解碼來自第—端點A之位元 串流,亦即將其轉換回至時域。然後,紙叫對每一單個 端點B、C、D、E、F...進行編碼,以使得可將該等位元串 "發送至忒等端點。顯然’此方法需要諸多計算資源、引 入信號延時’且由於所執行之轉碼使信號品質降級。 瑞=丟失之封包係其中可使用更多功能及增強之音訊編 而/之另n在視訊會議或VQip電話聯絡中,舉例 立讯資卞#包具有2〇毫秒音訊之封包發送經編碼 ;=收:包在傳輸期間可能丟失,且吾失之音訊封包 等级所接收音訊中之問 古、n欠 、。對抗封包在網路中丢失之一種 方法係多次傳輸封包(亦即 〒去失之種 等封包中之胼女 位兀串流)’例如4次。丟失此 矛玎匕甲之所有四個封 隙之機率。 匕之機率甚低’因而減少了具有間 157237.doc 201212006 然而多次傳輸封包需要將網路頻寬增加到四倍。為使成 本最小化,通常將同一 20毫秒時域信號以較高位元速率 (在一標準模式中,例如48 kbps)編碼並以一較低位元速率 (例如,8 kbps)編碼。該較低(8 kbps)位元串流係傳輸多次 之位兀串流。如此,總需要頻寬係48+8*3=72 kbps,而非 將原始位元串流發送多次情形下之48M=192 kbps。由於 遮蔽效應,當網路具有丟失封包時,在通話品質方面, 48 + 8*3方案幾乎與48*4方案一樣地執行。然而,以不同位 7G速率獨立地編碼同一 2〇毫秒時域資料之此傳統方案需要 計算資源。 最後,某些端點可不具有足夠的進行一全解碼之計算資 源舉例而5,一端點可具有一較慢信號處理器或該信號 處理器可忙著做其他任務。若此係該情形,則解碼該端點 所接收的位it串流之僅—部分可不產生有用音訊。如所習 知’音訊品質取決於解碼器接收並料了多少個位元。 出於此等原因,存在對用於音訊及視訊會議中之可擴縮 之一音訊編解碼器之需要。 【發明内容】 如在背景中所提及,音訊會 複雜性要求更多功能及增強之 存在對用於音訊及視訊會議中 之需要。 議應用之不斷增加之需求及 音訊編碼技術。具體而言, 之可擴縮之一音訊編解碼器 根據本發明’用於一處理扭堪 ^ 展置之一可擴縮音訊編解碼 判定每一輸入音訊訊框之第—_ 乐位兀分配及第二位元分配 157237.doc 201212006 一位兀分配給一第一頻率頻帶,且將第二位元分配給 -第-頻率頻帶。該等分配係基於該兩個頻帶之間的能量 比率在—逐個赌基礎上進行。針對每—簡,該編解碼 將兩個頻率頻帶變換成兩個變換係數集,基於該等位元 分配將該兩個變換係數集量化且然後封包化。然後利用該 處理裝置傳輸該等封包。另外,可按依功率位準及感知模 '所判疋之重要性次序配置該等變換係數之頻率區。若 {元幻除,假设已在該等頻帶之間分配位元且已按重 要性排序該等變換係數之區,則在—接收裝置處之解碼器 可產生適合品質之音訊。 該可擴縮音訊編解碼器對輸入音訊在一逐個訊框基礎上 執仃一動態位元分配。在一低頻率頻帶與一高頻率頻帶之 間分配該訊框之總可用位元。在一個配置中,低頻率頻帶 匕括0至14 kHz ’而高頻率頻帶包括14 kHz至22 kHz。給 定訊框中之兩個頻帶之間的能量位準比率確定針對每一頻 帶刀配多;個可用位元。一般而言,意欲給低頻率頻帶分 配較夕可用位元。此在一逐個訊框基礎上之動態位元分配 允許音訊編解碼器針對言言吾聲調《-致性感#來編碼及解 碼所傳輸之音訊。換言之,即使在處理期間可發生之極低 位凡速率下’仍可將音訊視作全頻帶言語。此係由於始終 獲得至少14 kHz之一頻寬。 該可擴縮音訊編解碼器將頻率頻寬擴展為至多全頻帶, 亦即’ 22 kHz。整體地,該音訊編解碼器可自約10 kbps擴 大為至多64 kbps。值1〇 kpbs可不同且係針對一給定實施 157237.doc 201212006 方案之可接受編碼品質進行選擇。無論如何,所揭示之音 §fl編解碼器之編碼品質可與稱作Siren 14之音訊編解碼器 之22 kHz版本之固定速率約相同。在28 kbps及以上之情形 下,所揭示之音訊編解碼器與一22 kHz編解碼器相當。另 外’在低於28 kpbs下’所揭示之音訊編解碼器與_丨4让出 編解碼器相當,乃因其在任一速率下皆具有至少14 頻寬。所揭示之音訊編解碼器可與眾不同地通過使用係真 實語音信號之掃描音、白色雜訊之測試。然而,所揭示之 音訊編解碼器需要僅係現有Siren 14音訊編解碼器當前所 需要之約1.5x之計算資源及記憶體要求。 除位元分配之外,可擴縮音訊編解碼器基於該等頻率頻 帶中之每一者中之每一區之重要性執行位元重新排序。舉 例而言,一訊框之低頻率頻帶具有配置於複數個區中之變 換係數。該音訊編解碼器判定此等區中之每一者之重要性 且然後按重要性之次序將該等區與分配給該頻帶之位元封 包化。判定該等區之重要性之-種方式係基於區之功率位 準,從而按重要性次序以最高功率位準至最低功率位準配 置彼等區。可基於使用周圍區之一加權來判定重要性之一 感知模型擴張此判定。 藉助可擴縮音訊編解碼器來解碼封包利用了位元分配及 根據重要性之經重新排序之頻率區。若心某種原因,一 所接收封包之位元串流之一部分被剝除’則音訊編解瑪器 :首先解碼該位元串流中之至少該較低頻率頻帶,其中較 南頻率頻帶在一定程度上潛在地受到位元剝除。而且,由 157237.doc 201212006 於該頻帶之區針對重要性之排序,首先解碼具有較高功率 位準之較重要位元,且料㈣要位元較不可能被剝除。 如上文所論述,本發明之可擴縮音訊編解碼器允許自編 碼态所產生之一位元串流剝除位元,而解碼器仍可產生時 域中,可理解音訊。出於此原因,可擴縮音訊編解碼器可 用於若干應用中,下文將論述其等中之某些。 在一項實例中,可擴縮音訊編解碼器可用於其中一端點 必須以不同位兀速率發送出—位元串流以適應網路條件之 一無線網路中。當使用—MCU時,該可擴縮音訊編解瑪器 可藉由剝除位元形成以不同減速率發送至各個端點之位 几串流’而不藉由習用做法。因此,該MCU可使用該可擴 縮音訊編解碼器藉由自來自—第—端點之—64咖位元舉 流剝除位元來獲得用於一第二端點之一8 _位元举流, 而仍維持有用音訊。 j擴縮音訊編解碼 節約計算資源。如前文所提及,處理去失封包之習用解決 方案係以高位it速率及低位元速率(例如,48咖及8 kbps)獨立地編碼同—2()毫秒時域資料,以便可多次發送 低品質(8 kbps)位元串流。然而,者 ^ 辑使用可擴縮音訊編解 馬窃時,編解碼器僅需要編碼—次,乃因藉由自第_(高 。。質)位4流剝除下位元來獲得第二(低品質)位元串流, 而仍維持有用音訊。 中一端點可無足夠計算 。舉例而言,該端點可 最後,可擴縮音訊編解碼器在其 資源進行一全解碼之情形中有幫助 I57237.doc 201212006 具有一較低信號處理器,或該信號處理器可正忙於其他任 務。在此情形中’使用可擴縮音訊編解碼器解碼該端點所 接收之位元串流之一部分仍可產生有用音%。 前述發明内容並不意欲概述本發明<每一潛在實施例或 每一態樣。 【實施方式】 根據本發明之-音訊編解碼器係可擴縮的且在頻率頻帶 之間分配可用位元。另外,該音訊編解碼器基於重要性來 排序此等頻帶中之每-者之頻率區。若發生位元剝除,則 首先將具有較重要性之彼等頻率區封包化於一位元串流 中。以此方式,即使在發生位元剝除之情形下,亦將維持 較有用之音訊》本文中揭示音訊編解碼器之此等及其他細 節。 本發明之各種實施例可在諸如音訊會議、視訊會議及串 流媒體(包括串流音樂或言語)之領域中找到有用應用。因 此,本發明之—音訊處縣置可包括:-音訊會議端點、 一視訊會議端點、一音訊播放裝置、一個人音樂播放器、 -電腦、-飼服器、一電信裝置、一蜂巢式電話、一個人 數位助理、VoIP電話通信設備、呼叫令心設備、語音記錄 設備、語音訊息接發設備等。舉例而言,特殊用途之音訊 或視訊會議端點可受益於所揭示之技術。同樣,電腦或其 他裝置可用於桌上會議或用於傳輸及接收數位音訊,且此 等裝置亦可受益於所揭示之技術。 A·會議端點 157237.doc
S 201212006 如上文所提及,本發明之一音訊處理裝置可包括一會議 端點或終端機。圖2A示意性地展示一端點或終端機1〇〇之 一貫例。如所展示,會議終端機1〇〇可係在一網路125上之 一傳輸器及一接收器兩者。亦如所展示,會議終端機1〇〇 可具有視訊會議能力以及音訊能力。一般而言,終端機 1〇〇具有一麥克風102及一揚聲器1〇8且可具有各種其他輸 入/輸出裝置’諸如一音訊相機1〇3、顯示器1〇9、鍵盤、 滑鼠等。另外,終端機1〇〇具有一處理器16〇、記憶體 162、轉換器電子器件丨64、及適合特定網路丨25之網路介 面122/124。音訊編解碼器11〇根據適合於各個經網路化之 終端機之一協定提供基於標準之會議。此等標準可完全以 儲存於記憶體162且執行於處理器16〇上之軟體、在專用硬 體上之軟體來執行,或使用其一組合來執行。 在一傳輸路徑中,轉換器電子器件164將麥克風1〇2所拾 取之類比輸入信號轉換成數位信號,且在終端機之處理器 160上操作之音訊編解碼器n〇具有一編碼器2〇〇,編碼器 200編碼該等數位音訊信號供經由—傳輸器介面122在網路 125(諸如網際網路)上傳輸。若存在,具有一視訊編碼器 170之一視訊編解碼器可針對視訊信號執行類似功能。 在一接收路徑中,終端機1〇〇具有耦合至音訊編解碼器 11 〇之㈤路接收器介面124。-解碼H 25G解碼所接收之 音訊信號’且轉換器電子器件164將數位信號轉換為類比 L號供輸出至揚聲器若存在,具有—視訊解碼器⑺ 之-視訊編解碼器可針對視訊信號執行類似功能。 157237.doc •13· 201212006 Β·音訊處理配置 圖2Β展示一會議配置,其中一第一音訊處理裝置ιοοΑ (充當一傳輸器)將經壓縮之音訊信號發送至一第二音訊處 理裝置100B(在此背景中充當一接收器)◦傳輸器ιοοΑ及接 收器100B兩者皆具有一可擴縮音訊編解碼器11 〇,其類似
於在 ITU G_ 722.1 (Polycom Siren 7)或 ITU G.722.1.C (Polycom Siren 14)中所用地執行變換編碼。對於本論述, 傳輸器及接收器100Α至100Β可係一音訊會議或視訊會議 中之端點或終端機,雖然其等可係其他類型之裝置。 在操作期間’在傳輸器100Α處之一麥克風1〇2捕獲原音 訊’且電子器件將彼音訊之區塊或訊框取樣。通常,音訊 區塊或訊框橫跨20毫秒之輸入音訊。此時,音訊編解碼器 11 〇之一正向變換將每一音訊訊框轉換為一頻域變換係數 組。使用該技術t所已知的技術,然後藉助一量化器u 5 將此等變換係數量化並編碼。 一旦經編碼,傳輸器100A就使用其網路介面12〇以封包 形式經由一網路125將該等經編碼之變換係數發送至接收 Is 00B "T使用任一適合網路’包括但不限於一 IP(網際 網路協疋)網路、PSTN(公共交換電.話網路)、iSDN(整合式 服務數位網路)或類似網路。對於此部分,所傳輸之封包 "T使用任何適合協定或標準。舉例而言’封包中之音訊資 料可遵循一目錄,且組成一音訊訊框之所有八位元組皆可 作為一單元附加至酬載。在汀1;-1'推薦G.722.1及G.722.1C 中月確說明瞭音訊訊框及封包之額外細節,已將ITU-T推 157237.doc 201212006 薦G.722.1及G.722.1C併入本文中。 在接收器100B處,一網路介面12〇接收該等封包。在如 下一反過程中’接收器100B使用編解碼器u〇之一解量化 器115及一逆變換來解量化並解碼該等經編碼之變換係 數。該逆變換將該等係數轉換回成時域以產生用於接收器 之揚聲器108之輸出音訊。對於音訊及視訊會議,接收器 100B及傳輸器100A可在一會議期間具有往復作用。 C·音訊編解碼器操作 在理解了上文所提供之音訊編解碼器11〇及音訊處理裝 置100之情形下,論述現在轉向音訊編解碼器11〇如何根據 本發明編碼及解碼音訊。如在圖3中所展示,傳輸器i ι〇Α 處之音訊編解碼器110接收時域中之音訊資料(方塊310)且 取得一音訊區塊或音訊資料訊框(方塊3丨2)。 使用正向變換,音訊編解碼器11〇將音訊訊框轉換成頻 域中之變換係數(方塊314)。如上文所論述,音訊編解碼器 110可使用Polycom Siren技術來執行此變換。然而,音訊 編解碼器可係任一變換編解碼器,包括但不限於ΜΗ、 MPEG AAC 等。 當變換該音訊訊框時,音訊編解碼器11〇亦針對該訊框 量化並編碼頻譜包絡(方塊316)。此包絡闞 訊之振幅,雖然其不提供任何相細節。編碼包絡=; 要大量位元,因而其可係容易實現的。然而,如下文將可 見,若自傳輸剝除位元,則猶後在音訊解碼期間可使用頻 譜包絡。 157237.doc 15- 201212006 當在一網路(諸如網際網路)上通信時,頻寬可改變,封 包可丟失,且連接速率可不同。為慮及此等挑戰,本發明 之音訊編解碼器110係可擴縮的。以此方式,在猶後予以 更詳細闡述之一過程中音訊編解碼器110在至少兩個頻率 頻帶之間分配可用位元(方塊318)。編解碼器之編碼器200 量化並編碼所分配之頻率頻帶中之每一者中之變換係數 (方塊320)且然後基於區之重要性重新排序每一頻率區之位 元(方塊322)。從頭到尾,整個編碼過程可僅引入約2〇毫秒 之一延遲。 下文所更詳細闡述之判定一位元重要性改良了在位元出 於若干原因被剝除之情形下可在遠端再現之音訊品質。在 重新排序該等位元之後,將位元分包供發送至遠端。最 後,將該等封包傳輸至遠端,以便可處理下一訊框(方塊 324)。 在遠端,接收器100B接收該等封包,根據已知技術處置 該等封包。編解碼器之解碼器25〇然後解碼並解量化頻譜 包絡(方塊352)且判定在頻率頻帶之間所分配之位元(方塊 354)。稍後將提供解碼器25〇如何判定在頻率頻帶之間的 位元刀配之細節。在知曉位元分配之情形下,解碼器 然後解碼並解量化該等變換係數(方塊356)且對每一頻帶中 之係數執行一逆變換(方塊358)。最終,解碼器25〇將音訊 轉換回成時域以產生用於接·收器之揚聲器之輸出音訊(方 塊360)。 D.編碼技術 157237.doc 201212006 如上文所提及,所揭示之音訊編解碼器11〇係可擴縮的 且使用變㈣碼來將音訊編碼於分配給至少兩個頻率頻帶 之位元中。在圖4整個流程圖中展示可擴縮音訊編解碼器 110所執行之編碼技術之細節。最初,音訊編解碼器11〇獲 得一輸入音訊訊框(方塊402)且使用此項技術中所習知之— 調變重疊變換技術來將該訊框轉換成變換係數(方塊4〇4)。 如所已知,此等變換係數中之每一者皆具有一量值且可係 正或負。音訊編解碼器110亦如前文所提及量化並編碼該 頻譜包絡[0 Hz至22 kHz](方塊406)。 此時,音訊編解碼器110在至少兩個頻率頻帶之間分配 該訊框之位元(方塊408)。此位元分配係當音訊編解碼器 110編碼所接收之音訊資料時動態地在一逐個訊框基礎上 來判定。在該兩個頻帶之間選擇一劃分頻率,以便將第一 數目個可用位元分配給低於該劃分頻率之一低頻率區且 將剩餘位元分配給高於該劃分頻率之一較高頻率區。 在針對頻帶判定位元分配之後’音訊編解碼器u〇以該 等經正規化之係數之各別分配位元將該等經正規化之係數 編碼於低頻率頻帶及高頻率頻帶兩者中(方塊41〇)。然後, 音訊編解碼器1 10判定此兩個頻率頻帶中之每一頻率區之 重要性(方塊412)且基於所判定之重要性排序該等頻率區 (方塊414) » 如前文所提及,音訊編解碼器110可類似於Siren編解碼 器且可將音訊信號自時域變換成具有MLT係數之頻域。 (簡明起見,本發明針對此一MLT變換來提及變換係數, 157237.doc -17· 201212006 雖然可使用其他類型之變換,諸如FFT(快速傅立葉變換)) 及DCT(離散餘弦變換)等)。 在該取樣速率下,MLT變換產生約960個MLT係數(亦 即,每25 Hz—個係數)。此等係數根據具有〇、i、2…之 索引之遞增順序配置於頻率區中。舉例而言,一第一區〇 涵蓋頻率範圍[0至500 Hz],下一區i涵蓋[500至1000 Hz] ’且以此類推》可擴縮音訊編解碼器u〇並不簡單地如 習用方式所做按遞增順序發送該等頻率區,而是在整個音 訊之背景中判定該等區之重要性,且然後基於較高重要性 至較低重要性來重新排序該等區。在該兩個頻率頻帶中進 行基於重要性之此重新配置。 可以諸多方式進行對每一頻率區之重要性之判定。在一 項貫施方案中’編碼器200基於經量化信號功率頻譜來判 定區之重要性。在此情形中,具有較高功率之區具有較高 重要性。在另一實施方案中,可使用一感知模型來判定該 等區之重要性。該感知模型遮蔽人們感知不到之外來音 訊、雜訊及類似物。稍後更詳細地論述此等技術中之每一 者。 在基於重要性之排序之後,首先封包化最重要之區,後 跟一重要性較小一點之區,後跟較不重要區,以此類推 (方塊416)。最後,可在網路上將經排序及經封包化之區發 送至遠端(方塊420)。在發送該等封包中,無需發送關於排 序變換係數之區之編索引資訊。而是,可在解碼器中基於 自位元串流解碼出之頻譜包絡來計算編索引資訊。 •18· 157237.doc
S 201212006 若發生位元剝除,則朝向該終端之彼等經封包化之位元 可被剝除。由於該等區已經排序,因而在最重要區中之係 數已被首先封包化。因此,最後經封包化之較不重要區在 發生位元剝除之情形下較可能被剝除。 在遠端,解碼器250解碼並變換所接收之資料,該所接 收之資料已反映最初由傳輸器10〇A給出之經排序之重要 性。以此方式,當接收器1〇ΟΒ解碼該等封包且產生時域中 之音訊時,該接收器之音訊編解碼器11〇實際上將接收到 並處理該輸入音訊中之較重要係數區之機會增加。如所預 期,在會議期間,頻寬、計算能力及其他資源之改變可改 變’從而使得音訊丟失、未被編碼等。 在已將音訊分配於頻率頻帶之間的位元中且針對重要性 排序之後,音訊編解碼器110可增加在遠端將處理較有用 音訊之機會。鑒於所有此原因,當出於某種原因而存在降 低之音訊品質時,即使自位元串流剝除位元(亦即,部分 位元串流)’音訊編解碼器110仍可產生一有用音訊信號。 1·位元分配 如前文所提及,本發明之可擴縮音訊編解碼器110在兩 個頻率頻帶之間分配可用位元。如在圖4B中所展示該音 訊編解碼器(1 10)在一特定頻率(例如48 kHz)下將一音訊信 號430取樣及數位化於每一者約為2〇毫秒之連續訊框F1、 F2、F3等中。(實際上,該等訊框可重疊)。因此,每一訊 框 FI、F2、F3 等具有約 960 個樣本(48 kHZx〇.〇2 s=960)。 音訊編解碼器(110)然後將每一訊框FI、F2、F3等自時域 157237.doc •19· 201212006 變換為頻域。對於一給定訊框,舉例而言,該變換如在圖 4C中所展示產生一 MLT係數組。針對該訊框存在約96〇個 MLT係數(亦即’每25 Hz—個MLT係數由於22 kHz之編 碼頻寬’因而可忽略表現在約22 kHz以上之頻率之^1£7變 換係數。 自0至22 kHz之頻域中之變換係數組必須經編碼,以便 可將該經編碼資訊封包化且在一網路上傳輸β在一個配置 中,音訊編解碼器(110)經組態以便以一最大速率(其可係 64 kbps)編碼該全頻帶音訊信號。然而,如本文中所闡 述,該音訊編解碼器(110)分配可用位元用於在兩個頻率頻 帶之間編碼訊框。 為分配該等位元,音訊編解碼器1 1〇可在一第一頻帶[〇 至12 kHz]與一第二頻帶[12 kHz至22 kHz](間劃分總可用 位兀。兩個頻帶之間的12 kHz之劃分頻率可主要基於言語 聲調改變及主觀測s式來選擇。對於一給定實施方案可使用 其他劃分頻率。 基於兩個頻帶之間的能量比率來分割該等總可用位元。 在一項實例中,可存在用於在兩個頻帶之間分割之四個可 能方式。舉例而言,可如下劃分64 kbps之該等總可用位 元: •20- 157237.doc
S 201212006 表1 四模式位元分配實例 模式 <12 kHz之信號 之分配 >12 kHz之信號 之分配 總可用頻寬(kbps) 0 48 16 64 1 44 20 64 2 40 24 64 3 36 28 64 在傳輸至遠端之資訊中表現此四個可能性需要編碼器 (200)在傳輸之位元串流中使用2個位元。遠端解碼器(250) 可使用來自此等所傳輸位元之資訊在接收到給定訊框時判 定該給定訊框之位元分配。在知曉位元分配之情形下’解 碼器(25 0)然後可基於此所判定之位元分配來解碼該信號。 在圖4C中所展示之另一配置中,該音訊編解碼器(11〇) 經組態以藉由在一第一頻帶(LoBand)440[0至14 kHz]與一 第二頻帶(HiBand)450[14 kHz至22 kHz]之間劃分總可用位 元來分配該等位元。雖然可端視實施方案而使用其他值, 但由言語/音樂、嘈雜/乾淨、男聲/女聲等看來,基於主觀 收聽品質,14 kHz之劃分頻率可係較佳的。在14 kHz處將 信號分割成HiBand與LoBand亦使可擴縮音訊編解碼器110 與現有Siren 14音訊編解碼器相當。 在此配置中,可以八(8)個可能分割模式在一逐個訊框 基礎上分割該等訊框。該八個模式(bit_split_mode)係基於 兩個頻帶440/450之間的能量比率。此處,將低頻率頻帶 (LoBand)之能量或功率值標示為LoBandsPower,而將高頻 157237.doc •21· 201212006 率頻帶(HiBand)之能量或功率值標示為HiBandsPower。如 下判定一給定訊框之特定模式(bit_split_mode): 若(HiBandsPower>(LoBandsPower*4.0)), 則 bit_split_mode= 7 ; 否貝1j,若(HiBandsPower>(LoBandsPower*3.0)), 則 bit_split_mode= 6 ; 否貝J,若(HiBandsPower>(LoBandsPower*2.0)), 貝丨J bit_split_mode= 5 ; 否貝1j,若(HiBandsPower>(LoBandsPower*1.0)), 則 bit_split_mode= 4 ; 否貝1j,若(HiBandsPower>(LoBandsPower*0.5)), 貝丨j bit_split_mode= 3 ; 否貝1J,若(HiBandsPower>(LoBandsPower*0.01)) 則 bit_split_mode= 2 ; 否貝1J,若(HiBandsPower>(LoBandsPower*0.001)) 貝丨J bit一split_mode= 1 ; 否則 bit—split_mode= 0 ; 此處,低頻率頻帶之功率值(LoBandsPower)係按照 ^quantized 來計算,其中區索引i=〇、1、2、… i 25。(由於每一區之頻寬係500-Hz,因而對應頻率範圍係0 Hz至12,500 Hz)。可使用如可用於現有Siren編解碼器之一 預界定表來量化每一區之功率以獲得quantized_region_ powe[i]之值。對於此部分,類似地計算高頻率頻帶之功率 值(HiBandsPower),但使用自13 kHz至22 kHz之頻率範 -22- 157237.doc
S 201212006 圍。因此,在此位元分配技術中該劃分頻率實際上係13 kHz,雖然信號頻譜係在14 kHz處分割。進行此操作以通 過一掃描正弦波測試。 然後如上文所提及,基於根據頻帶之功率值之能量比率 ’ 所判定之bit_split_mode來計算兩個頻率頻帶440/450之位 元分配。特定而言,HiBand頻率頻帶獲得總可用64 kbps 之(16 + 4*bit_split_mode)kbps,而 LoBand頻率頻帶獲得總 64 kbps之剩餘位元。此分解為以下針對8個模式之分配: 表2 八模式位元分配實例 , 模式 <14 kHz之信號 之分配 >14 kHz之信號 之分配 總可用頻寬(kbps) 0 48 16 64 1 44 20 64 2 40 24 64 3 36 28 64 4 32 32 64 5 28 36 64 6 24 40 64 7 20 44 64 在傳輸至遠端之資訊中表現此八個可能性需要傳輸編解 碼器(110)在位元串流中使用3個位元。遠端解碼器(250)可 使用來自此3個位元之所指示之位元分配,且可基於此位 元分配解碼該給定訊框。 圖4D用圖表表示該八個可能模式(0-7)之位元分配460。 由於該等訊框具有20毫秒之音訊,因而64 kbps之最大位元 157237.doc -23- 201212006 速率對應於每一訊框之總1280個可用位元(亦即,64〇〇〇 bps 0.02 s)。同樣,所用模式取決於兩個頻率頻帶之功率 值474與475之能量比率。各個比率值47〇亦以圖表形式繪 示於圖4D中。 因此,若HiBand之功率值475大於LoBand之功率值474 之四倍,則所判定之bit_split_m〇de將係「7」。此對應於 針對LoBand之20 kbps(或400個位元)之一第一位元分配464 且對應於針對可用64 kbps(或1280個位元)之HiBand之44 kbps(或880個位元)之一第二位元分配々Μ。作為另一實 例,右HiBand之功率值464大於LoBand之功率值465之一 半但小於LoBand之功率值464之一倍,則所判定之 bit_Split_m〇de將係「3」。此對應於針對L〇Band之刊 kbps(或720個位元)之第一位元分配464且對應於針對可用 64 kbps(或1280個位元)之HiBand之28 kbps(或560個位元) 之第二位元分配465。 如自此兩個可能位元分配形式可見,判定如何在兩個頻 率頻帶之間分配位元可取決於一給定實施方案之細節之數 目,且此等位元分配方案意欲係實例性。甚至可以想像在 位元分配中可涉及多於兩個頻率頻帶以進一步細化一給定 音訊信號之位元分配。因此,在給出本發明之教示之情形 下本發明之整個位元分配及音訊編碼/解碼可經擴張而 涵蓋多於兩個頻率頻帶及更多或更少之分割模式。 2·重新排序 如上文所提及,除位元分配之外,所揭示音訊編解碼器 •24- 157237.doc
S 201212006 (110)重新排序在較重要區中之係數以便首先將其封包 化。以此方式,當由於通信問題位元自位元串流剝除時較 少可能移除該等較重要區。舉例而言,圖5 A展示進入—位 元串流500中之區之一習用封包化次序。如前文所提及, 每一區具有針對一對應頻率範.圍之變換係數。如所展示, 在此習用配置中’針對頻率範圍[〇至5〇〇 Hz]之第一區 「〇」首先被封包化。其次封包化涵蓋[500至1000112]之下 一區「1」,且重複此過程,直至將最後一個區封包化為 止°結果係具有按頻率區〇、1、2.....N之遞增順序配置 之區之習用位元串流500 » 藉由判定區之重要性且然後首先將最重要區封包化於位 元串流中,本發明之音訊編解碼器11〇產生如圖58中所展 示的一位元串流510。此處,首先封包化最重要區(與其頻 率範圍無關),後跟第二最重要區。重複此過程,直至將 最不重要區封包化為止。 如在圖5C中所展示,出於某些原因,位元可自位元串流 51〇剝除。舉例而言,位元可在傳輸位元串流或接收位元 串流時被漏掉。然而,仍可對剩餘位元串流進行解碼直至 已保留之彼等位元。由於已基於重要性排序該等位元,因 而針對最不重要區之位元520在發生位元剝除時係最可能 被剝除之位元。最後,如在圖5(:中所證明,即使在所重新 排序之位元串流510上發生位元剝除,仍可保留整體音訊 品質。 3.用於判定重要性之功率頻譜技術 157237.doc -25- 201212006 如前文所提及,一種用於判定經編碼音訊中之區之重要 性之技術使用該等區之功率信號來排序該等區。如在圖6八 中所展示’所揭示音訊編解碼器(110)使用的一功率頻譜模 型600計算每一區(亦即’區〇[〇至500 Hz]、區1[5〇〇至1〇〇〇 Hz]等)之信號功率(方塊602)。進行此操作之一種方法係, 對於音訊編解碼器(110),計算給定區中之變換係數中之每 一者之平方之和,且使用此值代表給定區之信號功率。 在將給定頻率頻帶之音訊轉換成變換係數(舉例而言, 如在圖4之方塊410處所進行)之後,音訊編解碼器(11〇)計 算每一區中之係數之平方。對於當前變換,每一區涵蓋 500 Hz且具有各自涵蓋25 Hz之2〇個變捧係數。在給定區 中之此20個變換係數中之每一者之平方之和產生此區之功 率頻譜。此係針對所討論頻帶中之每一區來進行,以計算 該所δ才論頻帶中之區中之每一者之一功率頻譜值。 一旦計算出該等區之信號功率(方塊6〇2),就將其量化 (方塊603)。然後,模型6〇〇以功率遞減順序將該等區排 序,在每一頻帶中以最高功率區開始且以最低功率區結束 (方塊6〇4)。最後’音訊編解碼器〇1〇)藉由以所判定之次 序將該等係數之位元封包化來完成模型6〇〇(方塊6〇6)。 最後,音訊編解碼器(11〇)已基於與其他區相比之一區 之信號功率判定該區之重要纟。在此情%中纟有較高功 率之區具有較间重要性。若在傳輸過程中出於某種原因最 後經封包化之區被刻除,則具有較大功率信號之彼等區已 被首先封包化且較可能含有將不被剝除之有用音訊。 157237.doc
S -26- 201212006 4.用於判定重要性之感知技術 如前文所提及,用於判定在經編碼信號中之一區之重要 性之另一技術使用一感知模型650 —在圖6B中展示其一實 例。首先’感知模型650計算兩個頻帶中之每一者中之每 一區之信號功率,其可以與上文所闡述之方式極其相同之 方式來進行(方塊652) ’且然後模型650量化該信號功率(方 塊653卜 模型650然後界定每一區之一經修改區功率值(亦即 modified_region_power)(方塊654)。經修改區功率值係基 於一經加權和,其中當考量一給定區之重要性時慮及周圍 區之效應。因此,感知模型650利用一個區中之信號功率 可遮蔽另一區中之量化雜訊且當該等區在頻譜上接近時此 遮蔽效應較大之事實。因此,可按如下界定一給定區之經 修改區功率值(亦即,m〇dified_region_power(region index)): SUM(權[region—index,r] * quantized_regi〇n_p〇wer(r)); 其中 r=[0...43], 其中quantized—region_power(r)係該區之經計算信號功 率;及 其中權[region—index,r ]係隨著頻譜距離|regi〇n」ndex_r| 增加而下降之一固定函數。 因此,若如下界定加權函數,則感知模型65〇還原至圖 6 A之模型: 當 r=region_index時,權(regi.on_index,r)=l 當 r !-region_index時,權(regi〇n_index,r)=0 157237.doc •27- 201212006 在如上文所略述地計算經修改 <遇功率值之後,感知模型 650基於該等經修改區功率值以、* 戏順序將該等區排序(方 塊656)。如上文所提及,由於已 礎行加權,因而一個區中 之信號功率可遮蔽另一區中之| 思化雜訊,尤其當該等區在 頻譜上彼此接近時。音訊編解碼ββ ‘ 55 (110)然後藉由按所判定 之次序封包化該等區之位元來穿 Α成楔型650(方塊658)。 5.封包化 如上文所論述,所揭示之 訊編解碼器(110)編碼該等 位元且將其封包化 ^ ,, ,# 用於低頻率頻帶及高頻率 頻帶之特定位元分配細節發送至、告 還端解碼器(250) «>此外, 將頻譜包絡連同所分配的用於該 、兩個經封包化之頻率頻帶 中之變換係數之位元一起封包^匕^ ,^ „ 。下表展示如何將位元封 包化(自第一位元至最後位元)於 、饮自近端傳輸至遠端之一 給定訊框之一位元串流中。 以 使得可將 表3 封包化貧例 分割模式 LoBand 頻率 ^ 用於 split一mode 之 3個位元(總共 8個模式) 以上升之區 次序用於包 絡之位元 所分配 所重新排序的 正規化係數之 位元 HiBand頻率 以上升之區 次序用於包 絡之位元 所分配的用於 所重新排序的 正規化係數之 位元 如可見,首先針對該訊框封包化指示(該八個可能模式 之)特定位元分配之三(3)個位元。然後,藉由首先將用於 低頻率頻帶(LoBand)之頻譜包絡之位元封包化來封包化此 •頻帶。通常,包絡無需編碼諸多位元,乃因其包括振幅資 157237.doc
S -28. 201212006 訊而非相》在將包絡之位元封包化之後,將用於低頻率頻 帶(LoBand)之i規化係數之所分配之特定數目個位元封包 化。用於頻譜包絡之位元簡單地基於其典型遞增順序封包 化。然而,所分配之用於低頻率頻帶(L〇Band)係數之位元 如其已經重新排序地根據重要性封包化,如前文所略述。 最後,可見,藉由首先封包化用於高頻率頻帶(HiBand) 之頻譜包絡之位元且然後以同樣方式封包化所分配的用於
HiBand頻率頻帶之正規化係數之特定數目個位元來封包化 此頻帶。 E·解碼技術 如前文在圖2A中所提及,所揭示音訊編解碼器11〇之解 碼器250在帛收到封包時解碼位&,則更音訊編解碼器ιι〇 可將該等係數變換回至時域以產生輸出音訊。在圖7中更 詳細地展示此過程。 最初,接收器(例如,圖2B之100B)接收該位元串流中之 封包且使用已知技術處置該等封包(方塊7〇2)。當發送該等 封包時’舉例而言’傳輸器⑽轉成序號,該等序號包括 於所發送之封包t。如所已知,冑包可在網路125上經由 不同路線自傳輸器100A傳遞至接收器1〇〇B,且該等封包 可在不同時間到達接收器1〇〇B。因此,封包到達之次序^ 係隨機的。為處置此不同到達時間(稱作「抖動」),接收 器麵具有輕合至該接收器之介面12()之—抖動緩衝器(未 展示)。通常,抖動緩衝器一次容納四個或四個以上封 包。因此’接收器麵基於封包之序號在抖動緩衝器中重 157237.doc •29- 201212006 新排序封包》 使用位元串流中之前三個位元(例如,圖5B之520),解 碼器250解碼用於正被處置之給定訊框之位元分配之封包 (方塊704)。如前文所提及,端視組態,在一項實施方案中 可存在8個可能位元分配。在知曉所用分割(如前三個位元 所指示)之情形下,解碼器250然後針對分配給每一頻帶之 位元之數目解碼。 以低頻開始’解碼器250解碼並解量化該訊框之低頻率 頻帶(LoBand)之頻譜包絡(方塊706)。然後,解碼器250解 碼並解量化低頻率頻帶之係數,只要位元已被接收且未被 剝除。因此,解碼器250經歷一反覆過程且判定是否還有 位το剩下(決定710)。只要存在位元,解碼器25〇就解碼低 頻率頻帶中之區之正規化係數(方塊712)並計算當前係數值 (方塊714)。對於該計算,解碼器25〇按照如下計算變換係 數:係數=包絡*normalized _c〇eff ,其中將頻譜包絡之值 乘以正規化係數之值(方塊714)。此操作繼續,直至針對低 頻率頻帶將所有位元解碼且將其乘以頻譜包絡值為止。 由於已根據頻率區之重要性排序該等位元,因而解碼器 250可能首先解碼位元串流中之最重要區,而無論該位元 串流疋否有位元剝除。解碼器25〇然後解碼第二最重要 區’且以此類推。解碼器25〇繼續,直至所有位元用完為 止(決定710)。 δ對所有位元操作完時(由於位元剝除,其實際上可並 非所有彼等經原始編碼之位元),用雜訊填充可能已剝除 157237.doc 201212006 之彼等最不重要區以完成此低頻率頻帶中之信號之剩餘部 分。 若該位元串流已被剝除位元,則所剝除之位元之係數資 訊已丟失《然而,解碼器250已接收到並解碼低頻率頻帶 之頻譜包絡。因此,解碼器250至少知曉該信號之振幅, 但不知曉其相。為填充雜訊,解碼器250在所剝除之位元 中針對已知振幅填充相資訊。 為填充雜訊,解碼器250計算缺乏位元之任何剩餘區之 係數(方塊716)。按照頻譜包絡之值乘以一雜訊填充值來計 算剩餘區之此等係數。此雜訊填充值可係用於填充由於位 疋剝除導致丟失之缺失區之係數之一隨機值。藉由用雜訊 填充,解碼器250最終可將該位元串流視作全頻帶,即使 在一極低之位元速率下,諸如1〇kbps。 在處置低頻率頻帶之後,解碼器25〇對高頻率頻帶 (HiBand)重複整個過程(方塊72〇)。因此,解碼器25〇解碼 並解量化HiBand之頻譜包絡,解碼位元之正規化係數,計 异位元之曰刚係數值,且計算缺乏位元之剩餘區之雜訊填 充係數(若被剝除)。 既然解碼器250已判定在L〇Band及HiBand兩者中之所有 區之變換係數,且知曉根據頻譜包絡得出之區之次序,解 碼益250對變換係數執行—逆變換以將訊框轉換為時域(方 塊722)。最後’音訊編解碼器可在時域中產生音訊(方塊 724)。 F·音訊丢失封包恢復 157237.doc •31- 201212006 如本文中所揭示’可擴縮音訊編解碼器m可用於當已 發生位元剝除時處置立句 -恩置…另外,可擴縮音 110亦可用於幫助孚生44七 刀益 、 ㈣丟失封包之恢復。為對抗封包丟失,一 普通方法係藉由簡單地重旗u山 之音訊來填充由丢失…= 已經處理供輸出 ,匕所致之間隙。雖然此方法減少 由缺失之音訊間隙所致的失真,但其並不避免失真。舉例 而言,對於超過百分夕; 、過百刀之五之封包丟失率,由重複先前所發 送之音訊所導致之人為產物變得顯著。 2明之可擴縮音訊編解碼器1财藉由使-音訊訊框 同質版本與低时質版本在連續封包中交錯來對抗封包 丟失。由於其係可擴縮的,因而音訊編解蜗器HO可減少 4,成本二75因無需在不同品f下將音訊訊框編碼兩次。 簡單地藉由自已由可擴縮音訊編解碼器所產生 之高品質版本剝除位元來獲得低品質版本。 圖8展示在傳輸器100A處之所揭示之音訊編解碼器110如 何可使音訊訊框之高品質版本與低品質版本交錯而不必將 該音訊編碼兩次。在以下論述中,參考-「訊框」,該訊 框可意指本文中所閣述之約2〇毫秒之一音訊區塊。然而, 該交錯過程可適用於傳輸封包、變換係數區、位元之集合 或類似物。另外,雖'然該論述係參考32k bps之-最小但定 位元速率及8kbps之—較低品f速率,但音訊編解碼器HO 所用之交錯技術可適用於其他位元速率。 通常,所揭示之音訊編解喝器11〇可使用32咖之一最 小值疋位元速率來達成不降級之音訊品f。由於封包各自 157237.doc
S -32- 201212006 具有20毫秒之音訊’因而此最小位元速率對應於每一封包 640個位元。然而,該位元速率可偶爾降低至8 kbps(或160 個位兀每一封包)而具有可忽略之主觀失真。由於用64〇個 位兀編碼之封包看似遮蔽了由僅用16〇個位元編碼之彼等 偶然封包所致的編碼失真,此係可能的。 在此過程中’傳輸器100A處之音訊編解碼器110在32 kbps之一最小位元速率之情形下,使用每一 2〇毫秒封包 640個位元來編碼一當前2〇毫秒之音訊訊框。為處理封包 之潛在丟失,音訊編解碼器11〇針對每一未來訊框使用較 低品質160個位元編碼\個數目之未來音訊訊框。然而音訊 編解馬器110不必將訊框編碼兩次,而是藉由自較高品質 版本剝除位元來形成較低品質之未來訊框。由於可引入某 種傳輸音訊延遲,因而可編碼之可能低品質訊框之數目可 受到限制,舉例而言,限制為N=4,而無需向傳輸器100A 添加額外之音訊延遲。 在此階段,傳輸器100A然後將高品質位元及低品質位元 組合進一單個封包中,且將該封包發送至接收器i〇〇b。如 在圖8中所展示,舉例而言,以32 kbps之最小恆定位元速 率編碼一第一音訊訊框81〇a。亦以32 kbps之最小恆定位元 速率編碼一第二音訊訊框81〇b,但亦在16〇個位元之低品 質下編碼一第一音訊訊框8 i 〇b。如本文中所提及,此較低 vm質版本814b實際上係藉由自已經編碼之較高品質版本 812上剝除位元來達成。考慮到所揭示之音訊編解碼器 將區之重要性進行排序,將較高品質版本81孔位元剝除為 157237.doc •33· 201212006 較低品質版本814b實際上可保留音訊之某一有用品質,即 使係在此較低品質版本814b之情形下。 ^產生一第一經編碼封包82〇a,將第一音訊訊框8心之 π»时質版本812a與第:音訊訊框81(^之較低品質版本8⑽ 組合。此經編碼封包82〇&可併入上文所揭示的用於低頻率 頻帶分割及高頻率頻帶分割之位元分配及重新排序技術, 且此等技術可適用於較高及低品質版本8i2a/mb中之一 者或兩者。因此’舉例而言’經編碼封包820a可包括一位 疋分割分配之-指示、針對該訊框之高品f版本Η。之一 低頻率頻帶之-第—頻譜包絡、按低頻率頻帶之經排序區 重要性之第-變換係數、針對該訊框之高品質版本812丑之 同頻率頻帶之一第二頻譜包絡及按高頻率頻帶之經排序 區重要性之第二變換係數。然後,此可簡單地後跟下一訊 框之低βο質版本8丨4b,而不慮及位元分配及類似物。另一 選擇係,下一訊框之低品質版本81仆可包括頻譜包絡及兩 個頻帶頻率係數。 貫穿該編碼過程重複:較高品質編碼、位元剝除為一較 低品質及與毗鄰音訊訊框組合。因此,舉例而言,產生一 第二經編碼封包82〇b ,其包括與第三音訊訊框81〇c之較低 音訊版本8 14c(亦即,經位元剝除版本)組合之第二音訊訊 框810b之高品質版本81〇b。 在接收端,接收器100B接收所傳輸之封包82〇。若一封 包係好的(亦即,被接收到)’則接收器之音訊編解碼器11 〇 解碼表現當前20毫秒音訊之640個位元且將其提供出接收 157237.doc ·34_
S 201212006 器之揚聲器》舉例而言’在接收器11 〇B處所接收到之第一 經編碼封包820a可係好的,因而接收器HOB解碼封包82〇& 中之第一訊框810a之較高品質版本812a以產生一第一經解 碼音訊訊框830a »所接收到之第二經編碼封包82〇b可亦係 好的。因此,接收器110B解碼在此封包820b中之第二訊框 810b之較高品質版本812b以產生一第二經解碼音訊訊框 830b ° 若一封包係壞的或遺失的,則接收器之音訊編解碼器 110使用所接收之上一個好封包中所含有之當前訊框之較 低品質版本(160個位元之經編碼資料)來恢復該遺失音訊。 如所展示,舉例而言,第三經編碼封包820c在傳輸期間被 丟失。並不如習用方武所做用另一訊框之音訊填充該間 隙,在接收器100B處之音訊編解碼器11〇使用自先前經編 碼封包820b(其係好的)獲得之遺失訊框81〇c之較低品質音 訊版本814c。然後可使用此較低品質音訊來重新建構遺失 之第二經編碼音訊訊框830c。以此方式,針對遺失封包 82〇C之訊框,可使用實際遺失之音訊,雖然係以一較低2 質。然而,預期此較低品質由於遮蔽而不會造成大量可察 覺之失真。 已闡述將本發明之可擴縮音訊編解碼器與一會議端點或 終端機-起使用 '然而’所揭示之可擴縮音訊編解碼器可 用於各種會議組件中,諸如端點、終端機、路由器、會議 橋及其他。在此等組件中之每一者中,所揭示之可擴縮立 訊編解碼器可節約頻寬、計算及記憶體資源。同樣,所^ 157237.doc •35- 201212006 不之音訊編解碼n可在較低延時及較少人為產物方面改良 音訊品質。 本發明之技術可實施於數位電子t路巾或電腦硬體、款 體、軟體t或此等之組合中。用於實踐所揭示技術之設備 可實施於有形地體現於一機器可讀健存裝置中供一可程式 化處理器執行之一雷腦栽 订I ¥腦程式產品中,可藉由一可程式化處 理器來執行所揭示技術之方法步驟,該可程式化處理器藉 由操作輸人資料並產生輸出來執行—程式指令以執行所揭 不技術之功能。合適之處理器包括(舉例而言)通用及專用 :處理器兩者。一般而言’一處理器將自一唯讀記憶體及/ 或-隨機存取記憶體接收指令及資料。一般而言 將包括用於儲存資料槽案之一或多個大量儲存裝置 裝置包括:磁碟(例如’内部硬磁碟及可抽換式磁碟_ 磁光碟;及光碟。適合於有形地體現電腦程式指令及資料 之儲存裝置包含所有形式之非揮發性記憶體,其包括. (舉例而言)半導體記憶體裝置(例如,EpR⑽ 快閃記憶體裝置);磁碟(例如 職及 ^ - u Γτλ Ρ硬磁碟及可抽換式磁 碟),磁先碟,及CD_R0M磁碟。前述者中之任 ASIC(專用積體電路)進行補充或倂入於ASICt 由 4==他實施例之說明並”'欲限制或限” 明者所構,'的本發明之概念之範^適用性 文中所含有之發明性概念之交換,申請者期望隨附申 利範圍所提供之所有專利權利。因此,希望隨 ^專
範圍最大程度地包括歸屬於以下申請專利範圍之範;J 157237.doc -36 - 201212006 等效内容内之所有修改及變化形式。 【圖式簡單說明】 圖1Α展示一變換編碼編解碼器之一編碼器。 圖1Β展示一變換編碼編解碼器之一解碼器。 圖2 Α圖解說明用於使用根據本發明之編蜗及解碼技術之 一音訊處理裝置’諸如一會議終端機。 圖2B圖解說明具有用於使用根據本發明之編碼及解碼技 術之一傳輸器及一接收器之一會議配置β 圖3係根據本發明之一音訊編碼技術之一流程圖。 圖4Α係更詳細地展示編碼技術之一流程圖。 圖4Β展不經取樣為若干訊框之一類比音訊信號。 圖4C展示經自時域中之-經取樣訊框變換之頻域中之— 變換係數組。 圖4 D展示用於將變換係數編碼於兩個頻率頻帶中之八個 分配可用位元模式。 圖5Α至圖5C展示基於重要性排序經編碼音訊中之區之 實例。 圖6Α係展示用於判定經編竭音对之區之重要性之一功 率頻譜技術之一流程圖。 圖6 Β係展*用於判H㈣音訊巾之區之重要性之一感 知技術之一流程圖。 圖7係更詳細地展示解碼技術之一流程圖。 圖8展示用於使用所揭示之可擴縮音訊編解碼器處理音 讯封包丢失之一技術。 157237.doc •37· 201212006 【主要元件符號說明】 10 編碼器 12 數位信號 14 輸出信號 20 變換 22 正規化處理程序 24 演算法 50 解碼器 52 輸入信號 54 輸出信號 60 網格解碼 62 解量化處理程序 64 逆變換 100 端點或終端機 100A 第一音訊處理裝置 100B 第二音訊處理裝置 102 麥克風 103 音訊相機 108 揚聲器 109 顯示器 110 音訊編解碼器 115 量化器 120 量化器 122 網路介面 157237.doc -38-
S 201212006 124 網路介面 125 網路 160 處理器 162 記憶體 164 轉換器電子器件 170 編碼 172 解碼器 200 編碼器 250 解碼器 157237.doc - 39 -
Claims (1)
- 201212006 七、申請專利範圍: 1. 一種用於一處理裝置之可擴縮音訊處理方法,其包含. 判定-輸入音訊訊框之第一位元分配及第二3元分 配,該第-位元分配經分配給一第—頻率頻帶,該第二 位元分配經分配給一第二頻率頻帶; 一 將該訊框之該第一頻率頻帶自一時域變換編碼成 域中之第一變換係數; 项 將該訊框之該第二頻率頻帶自該時域變換編碼成 域中之第二變換係數; X, 將該等第-變換係數及該等第二變換係數與對應第一 位几分配及對應第二位元分配封包化至一封包中;及 利用該處理裝置傳輸該封包。 2_ 之方法’其令針對該輸入音訊逐訊框地進行 3如”項!之方法,其中判定該第—位元分配及 位7G分配包含: 能=訊Γ該第一頻率頻帶與該第二頻率頻帶之- 及哕第該所计算之比率來分配該訊框之該第-位元分配 Μ罘一位元分配。 4.如請求項】+ 士、丄 1換值 其中將該等第一變換係數及該等第 ::換係數中之每—者配 該等第〜鐵她且其中封包化 含··冑換係、數及該等第二變換係、數中之每一者包 疋6亥第—位元分配及該第二位元分配 該第二 157237.doc 201212006 判疋該等頻率區之重要性; 基於該所判^之重要性排序該等頻率區及 按照排序封包化該等頻率區。 5. 如请求項4之方法 包含: 其中判定重要性及排序該等頻率區 判定該等頻率區中之每一者之一功率位準;及 自最大功率位準至最小功率位準排序該等區。 6.如請求項5之方法,其中判定該功率 使用基於該箄婼皇阳>ea 7包含· 權的頻譜距離之—固定函數來加 權該#頻率區之該等功率位準。 奢长項1之方法,其中封包化包含·封 元5配及該第二位元分配之一指示。 4位 8. =二項1之方法,其中封包化包含:封包化該第-頻 '及該第二頻率頻帶兩者之頻譜包絡。 9. 項1之方法,其中封包化包含:針對該等訊框中 一者在封包化該第一頻率頻帶及該第二頻率頻帶中 之; 一較高頻率頻帶之前封包化一較低頻率頻帶。 W如=項1之方法,其中變換編碼及封包化包含: 、第位元速率變換編碼該訊框而產生該訊框 之一第—版本; 。 藉由將該第一版本剝除為低於該第-位元速率之一第 二位元速率而產生該訊框之一第二版本;及 冬該訊框之該第一版本連同前一訊框之第二版本—起 封包化至該封包中。 157237.doc 201212006 11 12 13 14 15. 16. 約0 kHz至約 kHz至約22 如明求項丨之方法,其中該第一頻率頻帶係 12 kHz,且其中該第二頻率頻帶係約 kHz。 約0 Hz至約 kHz至約22 •如請求項1之方法’其中該第一頻率頻帶係 12,500 Hz ’且其中該第二頻率頻帶係約13 kHz。 Si項1之方法’其中該第一位元分配及該第二位元 刀配t共為約64 kbps之可用位元。 如請求項1之方法,其令該等變 變換之若干係數。 變換係數包含-調變重疊 -種可程式化儲存裝置,其上 -^ 有程式私令用於致使 了程式化控㈣置執行根據請求们之 處理方法。 』擴縮曰讯 一種處理裝置,其包含: —網路介面; 处理益’其以通信方式耦合至該網路介面且 入音訊’該處理H經組態以: 獲#輪 敎該輸^訊職之[位元分配 配’該等第-位元分配經分配給—第位兀刀 铉-从-、 步頭手頻帶’該黧 位兀刀配經分配給一第二頻率頻帶; 將該等訊框中之每一去— 帶變換編碣成_頻域中笛時域中之該第-頻率頻 頻域中之第一變換係數; 將該等訊框中之每—者 帶變換編馬成該頻域::時域中之該第二頻率頻 取亥頻域令之第二變換係數; 157237.doc 201212006 將該等訊框中之每一者之該等 第一位元分配中之對應者封包化至若干封勺、^數與該等 將該等訊框中之每一者之該 第二位元分配之該對應者封包二係數與該等 藉助該網路介面傳輸該等封包。 及 17. 如:求項16之裝置,其中該處理裝置係選自由—立 議端點、—視訊會議端點、一音訊播放裝置、〜音訊會 樂播放器、一電腦、—飼服器、_電信裝I、個人音 電話及一個人數位助理組成之群組。 蜂巢式 18. -種用於_處理裝置之音訊處理方法,其包含. 接收輸入音訊訊框之封包,該等封包中之每 在該等訊框中之一者之一第一頻率頻帶之:者具有 -變換係數及在該訊框之一第二頻率 :之第 第二變換係數; 忒頻域中之 位元分 者分配 二位元 一頻率 判定該等封包中之每一者中之該等訊框之第一 配及第二位元分配,該等第一位元分配中之每一 給該封包中之該訊框之該第一頻率頻*,該等第 分配中之每-者分配給該封包中之該訊框之該笫 頻帶; Λ 將該等封包令之該等訊框中之每一者之該等第 係數及該等第二變換係數逆㈣編瑪成輸出音訊丨、 依據該等封包中之該等訊框中之每一者之該等第一 元分配及該等第二位元分配判定是否有位元遺失;及位 將音訊填充至經判定為遺失的該等位元中之 ^ 一者 157237.doc 201212006 中。 19.如請求項18之方法,其中接收該等封包包含接收該等訊 d亥第一頻率頻帶及該第二頻率頻帶中之每一者之一 頻譜包絡,且其中填充音訊包含利用該頻譜包括按比例 調整一音訊信號。 2〇· -種用於一處理裝置之音訊處理彳法其包含: 藉由以-第一位元速率變換編碼連續輸入音訊訊框中 之每—者來產生該等連續訊框之第一版本; _藉由將該等第-版本中之每—者剝除為低於該第一位 70速率之速率生該等連續訊框中之每-者之第二版本; :該等連續訊框之該等第-版本中之每—者連同該等 ,續訊框中之前—訊框之該第二版本封包化至好封包 中, 21. 利用該處理裝置傳輸該等封包。 種用於-處理裝置之音訊處理方法,其包含: 接收連續輸人音訊訊框之封包,該等封包中之每 =有該等連續純中之—者之—[版本且具有 ί框中之前—訊框之—第二 每一去4 & 版本中之 兮等第 一第一位元速率變換編碼之該-個訊框, 速率之2本中之每—者包括經剝除為低於該第-位元 弟一位兀速率之該前一訊框之該第一版 解碼該等封包中之每一者; , 债測所接收之該等封包中之一者之—封包錯誤; 157237.doc 201212006 藉由使用該一個封包之一遺失訊框之該第二版本而自 所接收之該等封包之前一封包重現該一個封包之該遺失 訊框;及 利用該等訊框之該第一版本及該經重現之遺失訊框而 產生輸出音訊。 157237.doc S
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US12/829,233 US8386266B2 (en) | 2010-07-01 | 2010-07-01 | Full-band scalable audio codec |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201212006A true TW201212006A (en) | 2012-03-16 |
| TWI446338B TWI446338B (zh) | 2014-07-21 |
Family
ID=44650556
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW100123209A TWI446338B (zh) | 2010-07-01 | 2011-06-30 | 可擴縮音訊處理方法及裝置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US8386266B2 (zh) |
| EP (1) | EP2402939B1 (zh) |
| JP (1) | JP5647571B2 (zh) |
| CN (1) | CN102332267B (zh) |
| TW (1) | TWI446338B (zh) |
Families Citing this family (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101235830B1 (ko) * | 2007-12-06 | 2013-02-21 | 한국전자통신연구원 | 음성코덱의 품질향상장치 및 그 방법 |
| US9204519B2 (en) | 2012-02-25 | 2015-12-01 | Pqj Corp | Control system with user interface for lighting fixtures |
| WO2014005327A1 (zh) * | 2012-07-06 | 2014-01-09 | 深圳广晟信源技术有限公司 | 对多声道数字音频编码的方法 |
| CN106941004B (zh) | 2012-07-13 | 2021-05-18 | 华为技术有限公司 | 音频信号的比特分配的方法和装置 |
| US20140028788A1 (en) | 2012-07-30 | 2014-01-30 | Polycom, Inc. | Method and system for conducting video conferences of diverse participating devices |
| PL2933799T3 (pl) | 2012-12-13 | 2017-12-29 | Panasonic Intellectual Property Corporation Of America | Urządzenie kodujące głos, urządzenie dekodujące głos, sposób kodowania głosu i sposób dekodowania głosu |
| CN103915097B (zh) * | 2013-01-04 | 2017-03-22 | 中国移动通信集团公司 | 一种语音信号处理方法、装置和系统 |
| SG11201609834TA (en) * | 2014-03-24 | 2016-12-29 | Samsung Electronics Co Ltd | High-band encoding method and device, and high-band decoding method and device |
| US9934180B2 (en) | 2014-03-26 | 2018-04-03 | Pqj Corp | System and method for communicating with and for controlling of programmable apparatuses |
| JP6318904B2 (ja) * | 2014-06-23 | 2018-05-09 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
| WO2016028462A1 (en) * | 2014-08-22 | 2016-02-25 | Adc Telecommunications, Inc. | Distributed antenna system with adaptive allocation between digitized rf data and ip formatted data |
| US9854654B2 (en) | 2016-02-03 | 2017-12-26 | Pqj Corp | System and method of control of a programmable lighting fixture with embedded memory |
| US10699721B2 (en) | 2017-04-25 | 2020-06-30 | Dts, Inc. | Encoding and decoding of digital audio signals using difference data |
| EP3751567B1 (en) | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
| CN110767243A (zh) * | 2019-11-04 | 2020-02-07 | 重庆百瑞互联电子技术有限公司 | 一种音频编码方法、装置及设备 |
| US11538464B2 (en) * | 2020-09-09 | 2022-12-27 | International Business Machines Corporation . | Speech recognition using data analysis and dilation of speech content from separated audio input |
| US11495216B2 (en) * | 2020-09-09 | 2022-11-08 | International Business Machines Corporation | Speech recognition using data analysis and dilation of interlaced audio input |
| US11811686B2 (en) * | 2020-12-08 | 2023-11-07 | Mediatek Inc. | Packet reordering method of sound bar |
| EP4243014A4 (en) | 2021-01-25 | 2024-07-17 | Samsung Electronics Co., Ltd. | DEVICE AND METHOD FOR PROCESSING A MULTI-CHANNEL AUDIO SIGNAL |
| US20260019507A1 (en) * | 2024-07-15 | 2026-01-15 | Zoom Video Communications, Inc. | Generating audio streams from modified audio streams and information about the modifications to the audio streams |
| CN119274563B (zh) * | 2024-12-06 | 2025-03-28 | 深圳市云希谷科技有限公司 | 嵌入式固件音频数据修改方法、装置、介质及计算机设备 |
Family Cites Families (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| ZA921988B (en) | 1991-03-29 | 1993-02-24 | Sony Corp | High efficiency digital data encoding and decoding apparatus |
| US5689641A (en) | 1993-10-01 | 1997-11-18 | Vicor, Inc. | Multimedia collaboration system arrangement for routing compressed AV signal through a participant site without decompressing the AV signal |
| US5654952A (en) | 1994-10-28 | 1997-08-05 | Sony Corporation | Digital signal encoding method and apparatus and recording medium |
| US5924064A (en) * | 1996-10-07 | 1999-07-13 | Picturetel Corporation | Variable length coding using a plurality of region bit allocation patterns |
| AU3372199A (en) | 1998-03-30 | 1999-10-18 | Voxware, Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
| US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
| US6934756B2 (en) | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
| JP2002196792A (ja) * | 2000-12-25 | 2002-07-12 | Matsushita Electric Ind Co Ltd | 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム |
| US6952669B2 (en) | 2001-01-12 | 2005-10-04 | Telecompression Technologies, Inc. | Variable rate speech data compression |
| JP3960932B2 (ja) * | 2002-03-08 | 2007-08-15 | 日本電信電話株式会社 | ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム |
| JP4296752B2 (ja) | 2002-05-07 | 2009-07-15 | ソニー株式会社 | 符号化方法及び装置、復号方法及び装置、並びにプログラム |
| US20050254440A1 (en) | 2004-05-05 | 2005-11-17 | Sorrell John D | Private multimedia network |
| KR100695125B1 (ko) * | 2004-05-28 | 2007-03-14 | 삼성전자주식회사 | 디지털 신호 부호화/복호화 방법 및 장치 |
| CN101390399B (zh) | 2006-01-11 | 2010-12-01 | 诺基亚公司 | 可伸缩视频编码中的图片的后向兼容聚合 |
| US7835904B2 (en) | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
| JP4396683B2 (ja) * | 2006-10-02 | 2010-01-13 | カシオ計算機株式会社 | 音声符号化装置、音声符号化方法、及び、プログラム |
| US7966175B2 (en) | 2006-10-18 | 2011-06-21 | Polycom, Inc. | Fast lattice vector quantization |
| US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
| JP5403949B2 (ja) * | 2007-03-02 | 2014-01-29 | パナソニック株式会社 | 符号化装置および符号化方法 |
| EP3629328A1 (en) | 2007-03-05 | 2020-04-01 | Telefonaktiebolaget LM Ericsson (publ) | Method and arrangement for smoothing of stationary background noise |
| EP2019522B1 (en) | 2007-07-23 | 2018-08-15 | Polycom, Inc. | Apparatus and method for lost packet recovery with congestion avoidance |
| US8386271B2 (en) | 2008-03-25 | 2013-02-26 | Microsoft Corporation | Lossless and near lossless scalable audio codec |
| US8447591B2 (en) * | 2008-05-30 | 2013-05-21 | Microsoft Corporation | Factorization of overlapping tranforms into two block transforms |
| HUE044178T4 (hu) | 2011-02-02 | 2019-10-28 | Excaliard Pharmaceuticals Inc | Kötõszöveti növekedési faktort (CTGF) célzó antiszensz vegyületek keloidok vagy hipertrófiás hegek kezelési eljárásban történõ alkalmazásra |
-
2010
- 2010-07-01 US US12/829,233 patent/US8386266B2/en not_active Expired - Fee Related
-
2011
- 2011-06-29 JP JP2011144349A patent/JP5647571B2/ja not_active Expired - Fee Related
- 2011-06-30 TW TW100123209A patent/TWI446338B/zh not_active IP Right Cessation
- 2011-06-30 EP EP11005379.0A patent/EP2402939B1/en active Active
- 2011-07-01 CN CN201110259741.8A patent/CN102332267B/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| TWI446338B (zh) | 2014-07-21 |
| US8386266B2 (en) | 2013-02-26 |
| CN102332267A (zh) | 2012-01-25 |
| EP2402939A1 (en) | 2012-01-04 |
| CN102332267B (zh) | 2014-07-30 |
| JP5647571B2 (ja) | 2015-01-07 |
| EP2402939B1 (en) | 2023-04-26 |
| JP2012032803A (ja) | 2012-02-16 |
| US20120004918A1 (en) | 2012-01-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TW201212006A (en) | Full-band scalable audio codec | |
| KR101468458B1 (ko) | 멀티 포인트 환경에서의 스케일러블 오디오 | |
| TWI420513B (zh) | 藉由變換內插之音訊封包損失隱蔽 | |
| CN101165778B (zh) | 音频信号的双变换编码方法和装置 | |
| KR100998450B1 (ko) | 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술 | |
| CN101165777B (zh) | 快速点阵向量量化的方法 | |
| US8457319B2 (en) | Stereo encoding device, stereo decoding device, and stereo encoding method | |
| CN103915098B (zh) | 音频信号编码器 | |
| EP3776548A1 (en) | Truncateable predictive coding | |
| CN110770824A (zh) | 多流音频译码 | |
| HK1159841A (zh) | 全频段可扩展音频编解码器 | |
| HK1228095A1 (zh) | 通过变换插值进行音频分组丢失隐藏 | |
| Smyth | A lossless/near-lossless audio codec for low latency streaming applications on embedded devices | |
| HK1249651B (zh) | 语音声响编码装置和解码装置、语音声响编码和解码方法 | |
| Hardy et al. | The rise of digitization | |
| HK1155271A (zh) | 通过转换插值的音频数据包丢失隐藏 | |
| KR20090037806A (ko) | 가변 서브밴드 분석을 이용한 부호화와 복호화 방법 및 그 장치 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |