[go: up one dir, main page]

TWI898622B - 解碼器、編碼器及相關方法與儲存單元 - Google Patents

解碼器、編碼器及相關方法與儲存單元

Info

Publication number
TWI898622B
TWI898622B TW113119706A TW113119706A TWI898622B TW I898622 B TWI898622 B TW I898622B TW 113119706 A TW113119706 A TW 113119706A TW 113119706 A TW113119706 A TW 113119706A TW I898622 B TWI898622 B TW I898622B
Authority
TW
Taiwan
Prior art keywords
audio signal
learnable
representation
latent
indices
Prior art date
Application number
TW113119706A
Other languages
English (en)
Other versions
TW202501468A (zh
Inventor
安德利亞 布倫德爾
尼可拉 皮亞
古拉米 福契斯
基尚 古普塔
馬庫斯 穆爾特斯
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW202501468A publication Critical patent/TW202501468A/zh
Application granted granted Critical
Publication of TWI898622B publication Critical patent/TWI898622B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本案描述用於編碼及解碼音訊信號之技術。一種經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號的解碼器(10)可包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(355),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16)。

Description

解碼器、編碼器及相關方法與儲存單元
此處揭露編碼器及解碼器。舉例而言,揭露聲碼器及其相關方法。
學習可用於通訊應用中之高效信號傳輸的音訊信號之(中間)離散表示為任何神經音訊寫碼器(NAC)之核心。本申請案提出一種用於此類離散表示之高效模型,亦被稱為純量量化器(SQ),及允許權衡品質與所需傳輸資料速率之相關聯訓練技術。量化方法將由NAC編碼器輸出之特徵映射至一組表示值,從而產生輸入信號之離散表示。該模型可包括(例如,卷積)編碼器-解碼器對,其學習NAC輸出之低維表示,該低維表示經逐通道量化且可經變換以供隨後由NAC解碼器解碼。藉由用恆等式及相關聯MSE損失來近似不可微分量化器或藉由添加均勻分佈之雜訊來模擬量化程序,SQ可與NAC一起端對端地訓練。藉由使用先前訓練之NAC的轉移學習來調整寫碼層級及潛在維度,此允許速率可擴縮性而無需(昂貴地)重新訓練NAC且儲存各目標資料速率之所得權重。
所提出的方法展示關於離散表示之可解譯性、計算效率及資料速率之可擴縮性的優點,而不展示相對於競爭性的習知方法之嚴重缺陷。
發明背景
由於可在低所需資料速率下達成之經重建構音訊信號的極好品質,NAC吸 引了來自業界[1,2](Soundstream、Encodec)及學術界[4]二界的大量研究興趣。此等NAC之一個組成部分為輸入信號之經學習、資料高效且離散的表示,其形成所傳輸信號之基礎。大多數NAC由卷積編碼器組成,該卷積編碼器將亦被稱為潛在信號之緊密信號表示提供至量化器模組。自此信號表示形成傳輸信號,該傳輸信號接著在接收器側由NAC解碼器重建構。
大多數習知NAC利用向量量化器(VQ)[5至7]之變體來學習所提及的離散中間表示。此處,適當地學習或選擇範本向量之集合使得其儘可能精確地表示潛在信號。對於各傳入信號訊框,選擇最準確的碼簿向量作為逐訊框潛在向量之替代,且傳輸對應的碼簿向量索引。在接收器側,NAC解碼器基於由選定碼簿向量提供之表示來重建構輸入信號。
藉由反向傳播訓練此類VQ之缺點為其不可微分性。因此,已提出許多方法來解決此問題,該等方法包括
●在反向路徑中跳過量化器及藉由額外損失在潛在信號中強制實行碼簿結構(VQ-VAE)[6]。
●藉由平滑替代(Softmax)來近似量化器[7]。
●自離散分佈(Gumbel Softmax)之連續鬆弛進行取樣[8]。
●軟至硬排程,其在訓練期間使平滑替代朝向硬量化變形[7]。
雖然純量量化方法在神經音訊寫碼(例如,[3])中僅被微弱地認識到,但在神經影像及視訊寫碼[8]中相當風行。在本申請案中,吾人提出一種用於基於純量量化來學習離散音訊表示之方法。
習知方法之缺陷
存在與所提及的習知方法相關聯之缺陷:
1.為了學習潛在信號之有用離散表示,VQ之碼簿向量必須選擇為維度大的。此實質上增加參數之所需數目以及所得NAC之計算複雜度。
2.由VQ學習之離散表示通常不易解譯且由於計算大維度向量之間的距離而展示不直觀的行為。
3.難以在不重新訓練NAC及針對各經訓練模型儲存不同權重的情況下權衡資料速率與品質。
4.在反向傳播(VQ-VAE)中跳過量化器常常導致不直觀的結果。對碼簿之訓練需要額外機制(例如,藉由遞回平均化來訓練),其需要額外參數化,若選擇錯誤,則此可導致訓練不穩定。
5.必須一起訓練若干VQ模組,亦即,殘餘VQ,以獲得令人信服的結果。
6.使用VQ獲得之NAC的品質無法良好地隨所使用的資料速率而擴縮。
7.訓練VQ碼簿並非強制的,但對於NAC之訓練的可接受收斂速率為至關重要的。
8.為量化器之softmax近似選擇平滑度為困難的,此係因為高平滑度會提供表現良好的梯度,但會提供硬量化之不良近似,且反之亦然。選擇平滑度之排程使此情況更加複雜。
9.關於最佳擬合碼簿向量之決策需要計算高維潛在向量與所有碼簿向量之距離,此可為計算上昂貴的。
參考文獻
[1] Zeghidour, Neil, Alejandro Luebs, Ahmed Omran, Jan Skoglund, und Marco Tagliasacchi. ,,SoundStream: An End-to-End Neural Audio Codec“. arXiv, 7. Juli 2021. http://arxiv.org/abs/2107.03312.
[2] Défossez, Alexandre, Jade Copet, Gabriel Synnaeve, und Yossi Adi. ,,High Fidelity Neural Audio Compression“. arXiv, 24. Oktober 2022. http://arxiv.org/abs/2210.13438.
[3] Zhen, Kai, Jongmo Sung, Mi Suk Lee, Seungkwon Beack, und Minje Kim. ,,Scalable and Efficient Neural Speech Coding: A Hybrid Design“. IEEE/ACM Transactions on Audio, Speech, and Language Processing 30 (2022): 12-25.
[4] Jiang, Xue, Xiulian Peng, Huaying Xue, Yuan Zhang, und Yan Lu. ,,Cross-Scale Vector Quantization for Scalable Neural Speech Coding“. arXiv, 6. Juli 2022. http://arxiv.org/abs/2207.03067.
[5] Pia, Nicola, Kishan Gupta, Srikanth Korse, Markus Multrus, und Guillaume Fuchs. ,,NESC: Robust Neural End-2-End Speech Coding with GANs“. arXiv, 7. Juli 2022. http://arxiv.org/abs/2207.03282.
[6] Oord, Aaron van den, Oriol Vinyals, und Koray Kavukcuoglu. ,,Neural Discrete Representation Learning“. arXiv, 30. Mai 2018. http://arxiv.org/abs/1711.00937.
[7] Agustsson, Eirikur, Fabian Mentzer, Michael Tschannen, Lukas Cavigelli, Radu Timofte, Luca Benini, und Luc Van Gool. ,,Soft-to-Hard Vector Quantization for End-to-End Learning Compressible Representations“. arXiv, 8. Juni 2017. http://arxiv.org/abs/1704.00648.
[8] Jang, Eric, Shixiang Gu, und Ben Poole. ,,Categorical Reparameterization with Gumbel-Softmax“. arXiv, 5. August 2017. http://arxiv.org/abs/1611.01144.
[9] Balle, Johannes, Philip A. Chou, David Minnen, Saurabh Singh, Nick Johnston, Eirikur Agustsson, Sung Jin Hwang, und George Toderici. ,,Nonlinear Transform Coding“. IEEE Journal of Selected Topics in Signal Processing 15, Nr. 2 (Februar 2021): 339-53.
[10] Agustsson, Eirikur, Fabian Mentzer, Michael Tschannen, Lukas Cavigelli, Radu Timofte, Luca Benini, und Luc Van Gool. ,,Soft-to-Hard Vector Quantization for End-to-End Learning Compressible Representations“. arXiv, 8. Juni 2017. http://arxiv.org/abs/1704.00648.
[12] Oord, Aaron van den, Oriol Vinyals, und Koray Kavukcuoglu. ,,Neural Discrete Representation Learning“. arXiv, 30. Mai 2018. http://arxiv.org/abs/1711.00937.
[13] Zhen, Kai, Jongmo Sung, Mi Suk Lee, Seungkwon Beack, und Minje Kim. ,,Scalable and Efficient Neural Speech Coding: A Hybrid Design“. IEEE/ACM Transactions on Audio, Speech, and Language Processing 30 (2022): 12-25. https://doi.org/10.1109/TASLP.2021.3129353.
[14] Zeghidour, Neil, Alejandro Luebs, Ahmed Omran, Jan Skoglund, und Marco Tagliasacchi. ,,SoundStream: An End-to-End Neural Audio Codec“. arXiv, 7. Juli 2021. http://arxiv.org/abs/2107.03312.
[15] M. H. Vali and T. Bäckström, "NSVQ: Noise Substitution in Vector Quantization for Machine Learning," in IEEE Access, vol. 10, pp. 13598-13610, 2022, doi: 10.1109/ACCESS.2022.3147670.
[16] J. Ballé, V. Laparra, and E. P. Simoncelli, “End-to-end optimized image compression,” in Proc. 5th Int. Conf. Learn. Represent., 2017, pp. 1-27
[17] Défossez, Alexandre, Jade Copet, Gabriel Synnaeve, und Yossi Adi. ,,High Fidelity Neural Audio Compression“. arXiv, 24. Oktober 2022. http://arxiv.org/abs/2210.13438.
發明概要
根據一態樣,提供一種解碼器,其經組配以自表示音訊信號之經寫碼信號產生音訊信號,該解碼器包括:經寫碼信號讀取器,其經組配以讀取經寫碼信號,藉此提供多個索引;純量解量化模組,其包括:多個量化索引轉換器,各量化索引轉換器經組配以將多個索引中之一索引轉換為一對應的潛在純量值,使得多個潛在純量值形成音訊信號之第一潛在音訊信號表示;以及第一可學習區段,其用以自第一潛在音訊信號表示提供第二潛在表示;第二可學習區段,其包括至少一個可學習層且經組配以自第二潛在音訊信號表示產生音訊信號。
根據一態樣,提供一種用於產生經寫碼信號之編碼器,輸入音訊信號經編碼於該經寫碼信號,該編碼器包含:第一可學習區段,其包括至少一個可學習層以提供輸入音訊信號之第一潛在表示,純量量化模組,其用以量化第一潛在表示,該純量量化模組包含:第二可學習區段,其用以自第一潛在表示提供待量化之多個潛在純量值;以及多個量化器,其用以提供多個索引,各量化器經組配以量化待量化之一個單一潛在純量值且自一個單一潛在純量值提供多個索引中之一索引;以及經寫碼信號寫入器,其經組配以將多個索引寫入在經寫碼信號中。
根據一態樣,提供一種解碼方法,其用以自表示音訊信號之經寫碼信號產生音訊信號,該方法包括:讀取經寫碼信號,藉此獲得多個索引; 執行純量解量化,包括:透過多個量化索引轉換器執行轉換,各量化索引轉換器將多個索引中之一索引轉換為一對應的潛在純量值,使得多個潛在純量值形成音訊信號之第一潛在音訊信號表示;以及透過第一可學習區段,自第一潛在音訊信號表示提供第二潛在音訊信號表示;以及透過包括至少一個可學習層之第二可學習區段,自第二潛在音訊信號表示產生音訊信號。
根據一態樣,提供一種用於產生經寫碼信號之方法,輸入音訊信號經編碼於該經寫碼信號中,該方法包含:透過包括至少一個可學習層之第一可學習區段,提供輸入音訊信號之第一潛在表示,透過純量量化模組,藉由以下操作來量化第一潛在表示:透過第二可學習區段,自第一潛在表示提供待量化之多個潛在純量值;以及透過多個量化器,獲得多個索引,多個量化器中之各量化器量化一個單一潛在純量值且自一個單一潛在純量值提供多個索引中之一索引;以及將多個索引寫入在經寫碼信號中。
根據一態樣,提供一種非暫時性儲存單元,其儲存指令,該等指令在由電腦執行時使電腦執行及/或控制以執行以上方法。
1:輸入音訊信號,輸入音訊信號原始版本,原始輸入音訊信號
1':第一經重新解碼版本
1":第二經重新解碼版本
10:音訊解碼器(產生器),解碼器(音訊產生器),方法
10a,10b,10c:解碼器
10a':第一分支
10b':第二分支,逐樣本分支
10d:音訊解碼器(產生器)
110:PQMF合成
112:碼
12:目標資料
12':經增加取樣版本,頻譜圖
14:輸入資料,輸入信號,輸入向量
15:第一資料,中間信號
16:輸出音訊信號,語音
2,2b,2c:卷積編碼器
20:第一可學習區段,編碼器側第一可學習層,NAC編碼器,NAC,第一編碼側可學習層,第一編碼器側可學習層
200:可學習區塊
210:格式界定器
220:經處理版本,多維版本,第一多維音訊信號表示,潛在表示
230:殘餘可學習層,第一卷積可學習層,編碼器層
240:第二可學習層,循環可學習層,殘餘可學習層,編碼器層
248,265c,448,465:點
250:第二卷積可學習層,殘餘可學習層,編碼器層
259a:殘餘部分,殘餘版本
259a':主要部分,主要版本
265b':經處理殘餘版本,第四多維音訊信號表示,輸出
269:經處理版本,潛在信號,音訊信號表示,潛在表示
290:第二可學習區塊,卷積可學習區塊
3:經寫碼信號
3':第一經寫碼信號,第一經寫碼信號版本
3":第二寫碼信號,第二經寫碼信號,第二經寫碼信號版本
30:通道映射,增加取樣區塊
300:純量量化(SQ)模組,可學習量化模組,SQ編碼器
330:第一潛在表示,音訊信號表示,輸入
340:編碼器側第二可學習區段
341:第一低量化器數目編碼模式,第一低索引數目編碼模式
341',341N,341C:第一編碼模式
341",342',342N,342C:第二編碼模式
341e',341e":區塊
342:第二高量化器數目編碼模式,第二高索引數目編碼模式
350:解碼器側第二潛在表示,輸出,中間(第二)表示,低維表示
351:潛在純量值,實值表示,潛在通道
351R1:第一殘餘潛在純量值
351R2:第二殘餘值
351S:逐潛在通道純量值
351S':第一純量值
351S":第二純量值
353:量化器數目導向選擇
353a,353b,353c:選擇命令
353e:區塊,選擇
353e':開關
353R1:第一比較區塊
353R2:第二比較區塊
355:純量量化器
355',355":純量量化器,獨立索引
355a,355b,355c:量化器
355R:殘餘量化器
355R1:基本子量化器(第一子量化器)
355R2:殘餘子量化器(第二子量化器)
355S:向量量化器
356:逐潛在通道索引,離散值表示
356R1:第一基本索引
356R2:第二殘餘索引
356S,356',356",556,556',556":索引
357:基本碼簿
357a:量化器特定碼簿
357b,557b:共用碼簿
357C1:第一碼簿,可選擇碼簿
357C2:第二碼簿,可選擇碼簿
358:量化控制器
359:通道狀態量測器
359a:信號,狀態,選擇
359b:信號,狀態,量測
360:經寫碼信號寫入器,信號分類器,分類
360c:分類結果
40:第一處理區塊,第一調節區塊
42:TADE殘餘區塊,先前區塊,後續層
420:經卷積版本,音訊信號表示
429:卷積可學習層,區塊
430:第一可學習層
44:卷積層,區塊
44':音訊信號,輸出
440:第二可學習層
45:第二處理區塊
450:第三可學習層
459a:殘餘部分
459a':主要部分
46:TanH,區塊
460:第四可學習層
465b':經處理殘餘版本,殘餘多維音訊信號表示,輸出
469:第一潛在表示,輸出,音訊信號表示
47:通道
49:樣本
50:第一處理區塊,殘餘區塊,先前區塊
500:純量解量化模組,SQ模組,SQ解碼器,純量解量化
50a,50b,50c,50d,50e,50f,50g,50h:第一處理區塊,殘餘區塊,後續層
513:參考,解量化模組
520:NAC解碼器,第二可學習區段
530:解碼器側第二潛在表示,第二潛在音訊信號表示,碼,版本
535:選擇
540:第一可學習區段,純量解量化可學習區段
541:第一低量化索引轉換器數目解碼模式
542:第二高量化索引轉換器數目解碼模式
550:解碼器側第一潛在表示,經解量化之第一潛在表示,版本,第一(解碼器側)潛在表示,第一潛在音訊信號表示
551:潛在通道,潛在純量值,經解量化之潛在純量值
551R1:經反量化版本
551R1':第一分量
551R2':第二分量
553:碼簿選擇
553d:命令信號
553R:額外區塊
555:量化索引轉換器(反量化器),量化器
555a,555b,555c,555R:量化索引轉換器
555R1:反量化器(量化索引轉換器),反子量化器
555R1',555R2':解量化器執行個體,反子量化器
555R2:反子量化器
556R1:第一索引(基本索引),解碼器側版本
556R2:第二索引(殘餘版本),解碼器側版本
557:碼簿
557a:量化索引轉換器特定碼簿
558:解量化控制器
559a:應用程式選擇
560:經寫碼信號讀取器
59:經正規化之第一資料,激活信號
59a:中間信號,輸入信號,第一資料,殘餘分量,殘餘版本,激活信號
59a':線,主要分量
59b:經反正規化版本,輸入信號,第一資料
59c:閘控版本
60a:第一反正規化區塊,TADE區塊
60b:第二反正規化區塊,第二反正規化,TADE區塊
61b:區塊,第一卷積
62b:區塊,第二卷積
63b,64b:激活函數,區塊
65b:乘法器,區塊
65b':殘餘部分,殘餘信號
65c:加法器
69:第一輸出資料,區塊,中間信號
70:增加取樣區塊
702:第一資料佈建器,區塊
71,72,73:調節可學習層,卷積,區塊,第一卷積層
71':中間值,第一經卷積資料
710:預調節可學習層
74:條件,調節特徵參數,樣式化條件,矩陣,γ
75:條件,調節特徵參數,樣式化條件,矩陣,β
76:正規化區塊,輸入信號
76':經正規化版本c,激活信號,輸入信號,經正規化之第一資料
77:反正規化(或樣式化元件)區塊,樣式元件
770:產生器網路層
900:第一閘控激活,區塊
902:第二閘控激活,區塊
圖1a、圖1b及圖1c展示根據實例之編碼器的實例。
圖2a、圖2b、圖2c、圖2d及圖2e展示編碼器處之操作及模式選擇的實例。
圖3a、圖3b及圖3c展示根據實例之解碼器的實例。
圖4展示解碼器處之操作及模式選擇的實例。
圖5a、圖5b及圖5c展示用於控制編碼器處之模式選擇的技術。
圖6a及圖6b展示用於控制解碼器處之模式選擇的技術。
圖7a展示編碼器處之殘餘量化器。
圖7b展示解碼器處之殘餘量化器。
圖8展示根據先前技術之實例。
圖9展示根據本發明技術之實例。
圖10及圖11展示編碼器及解碼器之實例(例如,圖2a至圖3c之編碼器及解碼器的任擇特徵之更詳細版本)。
圖12至圖15展示圖2a至圖3c之解碼器的任擇特徵之實例詳細版本。
較佳實施例之詳細說明
圖1a展示編碼器2(其執行個體2b、2c中之一些展示於圖1b、圖1c中)之實例。編碼器2(2b,2c)可產生經寫碼信號3(例如,位元串流或其部分)以將輸入音訊信號1編碼於經寫碼信號3中。輸入音訊信號1可在頻域中或在時域中(可在編碼器2之輸入端處或在編碼器2內提供時間/頻率轉換器)。輸入音訊信號1可例如細分成一連串訊框,例如彼此不同或重疊。由編碼器2產生之經寫碼信號3可為位元串流(或其部分)。輸入音訊信號1可為單聲道信號。在編碼空間多聲道信號(例如,立體聲信號)之狀況下,可在一些實例中使用此處所描述之處理並行地且獨立地編碼多個輸入音訊信號1,藉此產生多個經寫碼信號3,例如寫入在同一位元串流中。替代地,在輸送至編碼器2之多個例項之前,可將多個空間通道線性地組合,比如在立體聲狀況下的中間空間通道及旁側空間 通道。經寫碼信號3可例如透過諸如有線或無線通訊設備之傳輸設備(例如,在通訊網路中)傳輸至解碼器(例如,透過用戶端/伺服器連接或點對點連接)及/或儲存於儲存單元中,例如以供隨後由解碼器(例如,解碼器10,參見下文)讀取。
編碼器2可包括第一可學習區段20。第一可學習區段20可包括至少一個可學習層(例如,神經網路,具有例如卷積層及/或循環單元及/或完全連接層),以提供輸入音訊信號1之第一潛在表示330(在一些實例中,亦指示為469)。在一些實例中,第一潛在表示330(469)可表示為矩陣(例如,M×N矩陣),其中M>1且N1(在向量之狀況下,M可理解為潛在通道之數目,亦即,M×1矩陣)。在一些實例中,第一潛在表示330(469)可表示為向量(具有M個條目,其各自為潛在純量值或潛在通道,例如其中M>1)。然而,矩陣中之列數M可小於各訊框內之原始樣本數目。然而,相對於樣本減少的列數可藉由大於1之行數N來補償。舉例而言,M可為潛在通道之數目,且N可為訊框之長度。應注意,各訊框可細分成多個向量且各向量細分成多個潛在通道(在一些實例中,潛在通道維度可對應於行維度),各潛在通道具有待編碼之一個單一潛在純量值。在一些實例中,第一可學習區段20可產生第一潛在表示330,該產生獨立於位元速率(例如,對於經寫碼信號3之任何位元速率,第一潛在表示可保持相同,其中對於各訊框,解析度相同且潛在通道之數目M相同),及/或獨立於待給予經寫碼信號3之解析度,及/或獨立於可執行之其他選擇,及/或獨立於輸入音訊信號自身。
編碼器2可包括接收第一潛在表示330(469)之純量量化(SQ)模組300。純量量化模組300可具有例如逐潛在通道地(逐潛在純量值地)量化第一潛在表示330之任務。
純量量化模組300可包含第二可學習區段340。第二可學習區段 340可自第一潛在表示330提供第二潛在表示350。第二潛在表示350可包括多個潛在純量值351(例如,各潛在通道之各純量值,亦即,潛在表示330之各純量值)。第二可學習區段340可包括至少一個可學習層。第二可學習區段340之輸出可為多個潛在純量值351。在一些實例中,各訊框之潛在通道(潛在純量值)的數目可變化(例如,減少)或更一般地變化(例如,可選擇地減少),例如根據由控制器358(參見下文)施加之選擇。
(應注意,在一些實例中,可針對所有位元速率設定第一可學習區段20,而第二可學習區段340可與純量量化器之給定集合/碼簿緊密地相關聯。換言之,第一潛在表示330可為輸入音訊信號1之通用表示,而第二潛在表示350可為用於純量量化器355之給定集合的特定潛在表示,例如針對特定位元速率。)
純量量化模組300包括多個量化器355。多個量化器中之各量化器355可針對各別潛在純量值351(例如,針對各別通道)提供一個單一索引356(在多級實例中,例如在圖7a中,將展示可存在來自一個單一純量值351之更多索引356R1及356R2)。因此,多個量化器355可複雜地針對輸入音訊信號1之各訊框(及針對潛在表示330及350)提供多個索引。各索引356可具有為數個位元之長度,位元數目可例如在3與8之間,或更特定而言,在3與6之間,或甚至更特定而言,在2與5之間。
(各量化器355可實現自(例如,大致)實值表示351至自多個有限值之集合獲取之離散值表示356的映射。映射係逐潛在通道地應用且可每潛在通道不同:例如,對於不同量化器355,不同數目個碼簿/量化層級可不同。「量化層級」之數目及位置為各純量量化器355之參數,且量化器及量化層級為不同目標(後者為第一者之建置區塊)。)
量化器355有多個,此係因為潛在通道(潛在純量值)351有多個 (例如,對於各訊框,存在多個通道,亦即,表示330或350之多個純量值351),且各量化器355將一個單一特定純量值(在特定潛在通道中)轉換為一個單一特定索引。
在待使用之特定量化器355與音訊信號1之潛在表示的向量中之特定位置之間可存在固定關係。因此,可根據表示音訊信號1之潛在表示(330或350)中的特定位置將各特定量化器355應用於特定潛在通道(潛在純量值)。
由於索引356係自第二潛在表示350之潛在純量值351獲得,因此由各通道之潛在純量值351形成的索引之集合表示音訊信號1之經量化潛在版本(例如,對於一個訊框)。
參看圖2a及圖4,可分別在編碼器及解碼器處分別執行選擇353及553,以便分別在至少一個第一編碼模式341及一個第二編碼模式342當中選擇一個編碼模式且在至少一個第一解碼模式541及一個第二解碼模式542當中選擇一個解碼模式。在編碼器中,可能為如下情形:可將選擇施加至第二可學習區段340但不施加至第一可學習區段20(第一可學習區段20可因此不隨選擇而變化)。類似地,在解碼器中,可能為如下情形:可將選擇施加至第一可學習區段540但不施加至第二可學習區段520(第二可學習區段520可因此不隨選擇而變化)。
在一些實例中,第二可學習區段340可使其輸入330與其輸出350之間的潛在通道(潛在純量值)之數目變化:第二可學習區段340可針對各訊框改變(例如,減小)潛在通道(潛在純量值)之數目,使得相對於潛在通道(潛在純量值)第一潛在表示330之數目,第二潛在表示350可具有不同數目個潛在通道(潛在純量值)。藉助於潛在表示中之通道(潛在純量值)的數目改變(自330至350),量化器355之數目亦改變且索引356之數目亦相應地改變。在一些實例中,此可為模式之選擇(亦參見下文)。一般而言,第二可學習區段340可將第一潛在表 示330(469)之第一數目N1個潛在通道(潛在純量值)轉換為第二潛在表示330之第二數目N2(其中通常N2<N1)個潛在通道(潛在純量值)351(例如,對於各訊框)。實例可為N1=16且N2=8(或N1=64且N2=16或N2=32;其他值係可能的)。
在一些實例中,各訊框之潛在通道(潛在純量值)的數目可變化(例如,可選擇地),例如基於選擇(例如,使用者之選擇或藉由自動構件控制之選擇),例如適應性地(例如,以適應特定音訊信號1,特定而言,適應音訊信號1之特定訊框或訊框序列的方式)。
編碼器2可包括將多個索引356寫入(例如,藉由封裝)至經寫碼信號3中之經寫碼信號寫入器360。即使在圖中,經寫碼信號寫入器360表示為純量量化模組300之部分,經寫碼信號寫入器360亦可在純量量化模組300外部。然而,為簡單起見,經寫碼信號寫入器360在圖中表示為在純量量化模組300內部,但在以下實例中之任一者中,其可在外部。
經寫碼信號寫入器360亦可包括額外寫碼工具,比如熵寫碼器,其旨在藉由取決於不同量化索引之所估計及/或預先計算的出現機率而使用可變長度碼來進一步無損地壓縮量化索引。舉例而言,熵寫碼可使用霍夫曼(Huffman)碼、算術寫碼範圍寫碼及哥倫布-萊斯(Golomb-rice)碼當中的至少一者。
參看圖3a,此處呈現解碼器(音訊產生器)10(例如,能夠解碼由編碼器2,例如2b、2c產生之經寫碼信號3)。解碼器10(其可例如藉由圖3b之解碼器10b或圖3c之解碼器10c執行個體化)可產生輸出音訊信號16,該輸出音訊信號意欲為輸入音訊信號1之可能可信的複本或高保真近似。舉例而言,輸出音訊信號16可例如透過解碼器10下游或包括於解碼器中之擴音器顯現。另外或替代地,解碼器10(例如,10b、10c)可將所產生之音訊信號16編碼為另 一經編碼信號表示,且可因此作為轉碼器操作。
解碼器10(例如,10b、10c)可包括可讀取經寫碼信號3之經寫碼信號讀取器560。經寫碼信號讀取器560可輸出多個索引556,該等多個索引可與由編碼器2之量化器355輸出的索引356相同。
經寫碼信號讀取器560亦可包括額外反寫碼工具,比如熵解碼器,其旨在解碼經熵寫碼之量化索引。舉例而言,熵解碼可支援霍夫曼碼、算術寫碼範圍寫碼及/或哥倫布-萊斯碼等當中的至少一者。
解碼器10(例如,10b、10c)可包括純量解量化模組500,該純量解量化模組可提供待產生之音訊信號16的第二潛在表示530(亦用碼112指代)。即使在圖中,經寫碼信號讀取器560表示為純量解量化模組500之部分,經寫碼信號讀取器560亦可在純量解量化模組500外部。此處,提供參考513用於指示無經寫碼信號讀取器560的純量解量化模組500。
解量化模組500(513)可包括多個量化索引轉換器(反量化器)555,其中之各者經組配以將一個單一索引556(或在殘餘技術中,例如在圖7b中,多於一個索引556R1、556R2)轉換為一個單一潛在純量值551。因此,可能為如下情形:在一些實例中,輸入音訊信號1(及待產生之輸出音訊信號16)之各訊框可藉由多個潛在純量值551映射。潛在純量值551可形成待產生之音訊信號16的第一潛在表示550。潛在純量值551可被視為對應於編碼器2處之潛在純量值351,且待產生之音訊信號16的第一潛在表示550可被視為對應於編碼器2處之輸入音訊信號1的第二潛在表示350。在一些實例中,量化索引轉換器(反量化器、反解量化層級)555之數目及/或組配取決於由編碼器2(例如,2b、2c)寫入之索引356的數目N2:例如,若編碼器已用16個索引(因此使用16個量化器355)編碼訊框,則解碼器10(例如,10b、10c)將因此使用16個量化索引轉換器555,而若編碼器已用8個索引(因此使用8個量化器355)編碼訊框, 則解碼器10(例如,10b、10c)將因此使用8個量化索引轉換器555,等等。因此,在一些實例中,用於各訊框之量化索引轉換器555之數目可改變,例如根據針對各訊框而寫入在經寫碼信號3中之索引556的數目(例如,可選擇地,例如透過選擇,且特定而言,適應性地,例如基於編碼於經寫碼信號3中之特定音訊信號,例如根據作為旁側資訊寫入在經寫碼信號3中之信號化)。
量化索引轉換器555有多個,此係因為待產生之潛在純量值551有多個(例如,對於各訊框,存在多個純量值551),且各量化索引轉換器555將各索引556轉換為矩陣(例如,向量)之一個特定純量值。更一般而言,在待使用之特定量化索引轉換器555與待產生之音訊信號16(以及輸入音訊信號1)的潛在表示之向量中的特定位置之間可存在固定關係。關於關係之資訊可在經寫碼信號3中發信或可以其他方式自經寫碼信號3獲得(例如,其可自經寫碼信號3中之索引的特定位置假定)。
解量化模組500(513)可包括第一可學習區段(純量解量化可學習區段)540,該第一可學習區段可接收第一潛在表示550之潛在純量值551且產生第二潛在表示530(例如,呈碼112之形式,例如呈二維)。第一可學習區段(純量解量化可學習區段)540可被視為對應於編碼器2之第二可學習區段340,且第二潛在表示530可被視為對應於編碼器2處之第一潛在表示330(469)。然而,應注意,甚至在編碼器側第二可學習區段340已(例如,可選擇地,例如適應性地)將純量值之數目自編碼器側第一潛在表示330中之潛在通道(潛在純量值)的第一數目N1改變(例如,減少)至解碼器側第二潛在表示350中之潛在通道(潛在純量值)351的第二數目N2,解碼器側第一潛在表示550中之潛在通道551的數目亦可保持為N2,但解碼器側第二潛在表示530中之潛在通道的數目N3通常可獨立於N1(N3>N1,N3<N1或N3=N1可能無差別)(N3>N2可為有利的,以使輸出音訊信號16具有良好的解析度,而經寫碼信號3較佳具有少量索引)。 因此,解碼器側第二潛在表示530可將潛在通道(潛在純量值)之數目自獲自經寫碼信號3之索引556的數目N2轉換為第二可學習區段520所需的且通常獨立於經寫碼信號3及/或位元速率及/或其他選擇的數目N3。因此,第二可學習區段340可將潛在通道(潛在純量值)之數目自第一潛在表示330之數目N1(其為應用側的,且可通常獨立於位元速率及/或選擇)轉換為數目N2(通常可為N2N1),且可適應諸如目標位元速率、選擇等之條件。
解碼器10(例如,10b、10c)可包括第二可學習區段(例如,神經音訊寫碼NAC解碼器)520。第二可學習區段520可輸出音訊信號16。第二可學習區段520可被視為對應於編碼器2之第一可學習區段20。然而,應注意,解碼器側第二可學習區段520不必與編碼器側第一可學習區段20成鏡像。基本上,不嚴格要求解碼器鏡像複製編碼器之操作。
一般而言,解碼器10(例如,10a、10b)之第二可學習區段520的操作可被視為獨立於經寫碼信號3之位元速率及/或獨立於經寫碼信號3之特徵中之至少一者及/或選擇。(應注意,在一些實例中,可針對所有位元速率設定第二可學習區段520,而第一可學習區段540可與純量量化器之給定集合/碼簿緊密地相關聯。換言之,第二潛在表示530可為輸入音訊信號1之通用表示,而第一潛在表示550可為用於反量化轉換器555之給定集合的特定潛在表示,例如根據特定位元速率進行調節。)
編碼器2之量化器355及解碼器10之量化索引轉換器(反量化器)555二者可利用未展示於圖1a及圖3a中之至少一個碼簿。在編碼器2及/或解碼器10處,至少一個碼簿可為可學習的或確定性的。此處描述一些實例。
至少一個(或各)碼簿可執行純量值與索引之間的關聯,例如藉由在編碼器處將各個純量值351映射至特定索引356上且反之亦然,藉由在解碼器處將索引556映射至一個特定純量值551上。在一些狀況下,至少一個碼簿 可具有固定長度(亦即,碼簿具有可變長度位元串流表示),意義在於所有索引356、556具有相同長度(例如,所有索引具有4個位元)。在其他狀況下,碼簿可具有可變位元長度(亦即,碼簿具有固定長度位元串流表示),使得不同索引356、556可具有不同長度(例如,較頻繁的純量值可映射至較緊密,例如具有較小延展長度的索引上,而較不頻繁的索引或純量值可映射至較不緊密,例如具有較大延展長度的索引上;此可為有效的,例如對於至少二個索引,或對於多個索引,或對於大多數索引,或對於所有索引)。至少一個(或各)碼簿可具有可變精確度,意義在於一些索引比一些其他索引更好地(例如,不確定性更小)近似純量值:例如,具有較頻繁的純量值之範圍可映射至數個索引,索引數目大於具有較不頻繁的純量值之範圍被映射至的索引之數目,例如關於範圍之延展:因此,對於高度頻繁範圍中之純量值,近似不確定性減小,藉此提高精確度,而純量值之低頻繁範圍存在較少索引,其各自具有較大的不確定性。總之,碼簿或量化可為非均勻的,其中待量化的值範圍被劃分成不等區間,使得較頻繁的區間小於較不頻繁的區間。此細分在不同碼簿之間可為不同的,且可在訓練期間界定。
在編碼器2之量化器355處,至少一個碼簿可准許將一個單一潛在純量值351轉換為一個單一索引356。在解碼器10之量化索引轉換器555中之各者處,至少一個碼簿可准許將一個單一索引556轉換為一個單一潛在純量值551。
在一些狀況下,至少一個量化器355(例如,所有量化器)或至少一個量化索引轉換器555(例如,所有量化索引轉換器)可具有多個層級,如圖7a及圖7b中所展示。在一些實例中,各層級可與一特定碼簿相關聯,或所有層級可共用同一碼簿。
圖1b展示編碼器2b(其可為編碼器2之執行個體)之實例,其中 一個單一碼簿357由編碼器2b中之多個量化器355共用。因此,在圖2b之實例中,由不同量化器355量化之等同的潛在純量值351將藉助於使用同一碼簿357之不同量化器而由同一索引356映射。如圖3b之解碼器10b(其可為解碼器10之執行個體)中所展示,相對地,一個單一碼簿557可由多個量化索引轉換器555共用:等同的索引556一旦由不同量化索引轉換器555轉換便將由相同的潛在純量值551映射。將一個單一碼簿(例如,357、557)用於所有量化器355(分別為量化索引轉換器555)可具有一些優點,此係因為儲存單個碼簿需要較少的儲存空間且在訓練期間需要較少的計算工作量。
圖1c展示編碼器2c(其可為編碼器2之執行個體)之實例,其中至少一個量化器355a(例如,所有量化器)使用一個量化器特定碼簿357a(量化器特定碼簿特定於特定量化器,使得其他量化器使用不同的量化器特定碼簿)。儘管圖1c亦展示由編碼器2c中之多個量化器355(例如,由多個量化器之真子集)(在圖之實例中,由量化器355b及355c執行個體化)共用的一個共用碼簿357b,但此並非必需的:量化器中之各者可具有一量化器特定碼簿。由於各潛在純量值(由各別量化器量化以提供各別索引)可與潛在表示(例如,矩陣,諸如向量)中之特定位置具有特定關係,因此各量化器特定碼簿亦可與潛在表示之特定位置具有特定關係。舉例而言,對於不同位置,可存在不同碼簿。
圖3c展示解碼器10c(其可為解碼器10之執行個體)之實例,其相對地可應用至少一個量化器特定碼簿:至少一個量化索引轉換器555a(例如,所有量化索引轉換器)可使用一個量化索引轉換器特定碼簿557a(量化索引轉換器特定碼簿特定於特定量化索引轉換器,使得其他量化索引轉換器使用不同的量化索引轉換器特定碼簿),而(在一些實例中)其餘的量化索引轉換器(若存在)555b、555c可使用至少一個共用碼簿557b。由於各潛在純量值(待由各別量化索引轉換器自各別索引產生)可與潛在表示(例如,矩陣,諸如向量)中之特定 位置具有特定關係,因此各量化索引轉換器特定碼簿亦可與潛在表示之特定位置具有特定關係。舉例而言,對於不同位置,可存在不同碼簿。使用多個量化器特定碼簿(例如,357a)(分別為多個量化索引轉換器特定碼簿)可具有一些優點,此係因為可達到提高的精確度:在機率上,純量值之一些區間在潛在表示之第一位置中可能較頻繁,而純量值之其他區間在潛在表示之第二位置中可能較頻繁。出於此原因,各量化器特定碼簿(分別為各量化索引轉換器特定碼簿)可界定與潛在表示中之不同位置的不同關聯。舉例而言,在潛在表示之各位置中,高度頻繁的純量值之第一區間將由第一大量索引映射(藉此具有低近似誤差),而在相同的第一位置中,非頻繁的純量值之第二區間將由較少量索引映射(藉此具有高近似誤差)。因此,在訓練期間,潛在表示之各位置皆會被授予表示純量值之各區間的機率之索引分佈。換言之,各索引近似高度頻繁的區間中之一小段純量值及低頻繁區間中之一長段純量值。一般而言,待量化的全域值範圍可劃分成不等區間。
如圖2a及圖4中所展示,編碼器2(2b,2c)(或至少第二可學習區段340,但在一些實例中,並非第一可學習區段20)及/或解碼器10(10b,10c)(或至少第一可學習區段540,但在一些實例中,並非第二可學習區段520)可根據不同模式操作,但至少以二種模式操作:- 第一模式(編碼器處之第一編碼模式341;解碼器處之第一解碼模式541);以及- 第二模式(編碼器處之第二編碼模式342;解碼器處之第二解碼模式542);- 任擇地,可界定其他模式(例如,至少一個其他編碼模式及/或至少一個其他解碼模式)。
通常,不同模式可提供不同品質。舉例而言,第一模式341、 541可相對於第二模式342、542提供降低的品質(例如,降低的解析度),但亦可意味著相比第二模式342、352降低的位元速率及/或需要降低的計算能力。可執行選擇(編碼器處之353;解碼器處之553)以在模式之間進行選擇。
然而,在一些實例中,不同模式可能僅行為不同。舉例而言,不同模式可用於不同情形,例如用於音訊信號1之不同分類結果且因此被稱為分類模式。舉例而言,在訊框被分類為有聲訊框之情況下,則可選擇有聲導向分類模式,而在訊框被分類為無聲訊框之狀況下,則可選擇無聲導向分類模式。在一些實例中,不同行為僅在編碼器之第二可學習區段320(而第一可學習區段20無不同的行為)處或僅在解碼器之第一可學習區段540處(而第二可學習區段520無不同的行為)。
在一些實例中,該等模式唯一地在量化模組300(對於編碼器)以及解碼器之解量化模組500(513)內部,且被編碼器之第一可學習區段20完全忽略(其因此可關於為第二可學習區段340選擇之模式不可知地操作)及/或被解碼器之第二可學習區段520完全忽略(其因此可關於為第一可學習區段540選擇之模式不可知地操作)。
可使用不同訓練會話獲得不同模式(其可獨立於例如用於第一可學習區段20及第二可學習區段520之訓練會話)。不同模式可意味著量化模組300或解量化模組500(513)之不同執行個體。
圖5a至圖5c提供第一編碼模式341與第二模式342(在一些實例中,其僅對編碼器之第二可學習區段320感興趣)之間的選擇的實例:- 如圖5a中所展示,選擇553(例如,透過例如來自量化控制器358之選擇命令353a)可至少部分地基於指示手動選擇或應用程式選擇之信號359a;- 如圖5b中所展示,選擇353(例如,透過例如來自量化控制器358之選擇命令353b通知)可至少部分地基於指示通訊鏈路(例如,通訊網路)之例如由通 道狀態量測器359量測之狀態359a的信號359b,以便適應通訊鏈路之狀態;以及- 如圖5c中所展示,選擇353(例如,透過例如來自量化控制器358之選擇命令353c通知)可至少部分地基於指示對輸入音訊信號1(例如,針對特定訊框)執行(例如,藉由信號分類器360執行)之分類的分類結果360c,以便適應特定輸入音訊信號1(分類結果360c可例如區分有聲訊框與無聲訊框)。
值得注意地,圖5a至圖5c之實例可彼此組合:選擇535可根據特定準則基於分類結果360c、狀態359a及選擇359a中之任一者(或當中的任何組合)。
圖6a至圖6b展示解碼器10(10b,10c)處之實例。一般而言,在至少一些實例中,可如上執行(例如,藉由解量化控制器558)選擇553(在實例中,選擇可僅調節第一可學習區段540,而第二可學習區段520可關於選擇不可知地操作)。圖6a(與圖5a相對)展示選擇553係基於使用者之選擇559a及/或應用程式選擇559a的實例。未展示但可實施與圖5b及圖5c之實例相對的實例。圖6b展示實例,其中根據經寫碼信號3中之旁側資訊執行選擇553(例如,透過命令信號553d通知)(例如,在選擇353由編碼器進行且作為旁側資訊在經寫碼信號3中信號化之後)。
圖2b展示作為量化器數目導向選擇353的選擇之實例。此處,選擇353係在第一編碼模式341(此處用341N指示)與第二編碼模式342(此處用342N指示)之間進行(在實例中,選擇可僅調節第二可學習區段20,而第一可學習區段340可關於選擇不可知地操作)。此處,選擇353可在至少以下者之間進行:- 第一低量化器數目編碼模式341,其中第一潛在表示350之潛在通道(潛在純量值)351的數目N2'(例如,N2'=8)為低的(量化器355之數目亦為低的); 以及- 第二高量化器數目編碼模式342,其中第一潛在表示350之潛在通道(潛在純量值)351的數目N2"(例如,N2"=16)(以及量化器355之數目)高於第一編碼模式中之數目N2'。
類似地,即使未明確地展示,在解碼器處,在第一解碼模式541與第二解碼模式542之間亦可存在選擇553(例如,經寫碼信號3之旁側資訊所需的,如關於圖6b)(在實例中,選擇可僅調節第一可學習區段,而第二可學習區段可關於選擇不可知地操作)。此處,選擇553可在至少以下者之間進行:- 第一低量化索引轉換器數目解碼模式541,其中索引556以及第一潛在表示550之潛在通道(潛在純量值)551的數目N2'(例如,N2'=8)為低的(且量化索引轉換器555之數目N2'亦為低的);以及- 第二高量化索引轉換器數目解碼模式542,其中索引556以及第一潛在表示350之潛在通道(潛在純量值)556的數目N2"(例如,N2"=16)(以及量化索引轉換器555之數目)高於第一編碼模式中之數目N2'。
值得注意地,在此狀況下,第一模式與第二模式之間的選擇(在編碼器處及/或在解碼器處)可獨立於編碼器側第一可學習區段20及/或解碼器側第二可學習區段520執行。一般而言,第一低量化器數目編碼模式341及第一低量化索引轉換器數目解碼模式541提供比第二高量化器數目編碼模式342及第二低量化索引轉換器數目解碼模式542更低的品質(例如,更差的解析度)。然而,第一低量化器數目編碼模式341及第一低量化索引轉換器數目解碼模式541通常需要比第二高量化器數目編碼模式342及第二低量化索引轉換器數目解碼模式542更低的位元速率,且因此例如在繁忙通訊鏈路之狀況下更適用。有利地,編碼器處之選擇353可例如基於通訊鏈路(例如,通訊網路)之狀態359a的量測359b,如在圖5b中。舉例而言,在具有低效能(例如,高繁忙狀態及/或高 錯誤率)之狀況下,可選擇第一模式(在編碼器及解碼器二者處),藉此提供經寫碼信號3之低位元速率版本,而在良好網路之良好效能(例如,低繁忙狀態及/或低錯誤率)之狀況下,可選擇第二模式(在編碼器及解碼器二者處),藉此提供令人滿意之音訊品質。
亦有可能具有數目多於二個模式,各模式例如與各別位元速率及/或各別解析度相關聯,以便執行量化器導向選擇,以在所請求品質與可用位元速率之間提供良好的權衡。
因此,在一些實例中,在量化器導向選擇中,可概述為,經寫碼信號3之傳輸的可用位元速率愈高,則可選擇的量化器數目愈高(且相干地,編碼器側第二潛在表示350之維度及解碼器側第一潛在表示550之維度亦愈高)。
應注意,在圖2b之量化器導向選擇的狀況下,第一低量化器數目模式341及第一低量化索引轉換器數目模式541亦可被視為第一低索引數目模式之實例,此係因為索引之低數目N2'伴隨著量化器355及555之低數目。類似地,第二高量化器數目模式341及第二高量化索引轉換器數目模式541亦可被視為第二低索引數目模式之實例,此係因為索引之較高數目N2"伴隨著量化器355及555之較高數目N2"。
圖2c展示作為碼簿選擇353C之選擇353的實例。此處,選擇353C係在第一編碼模式341(此處用341C指示)與第二編碼模式342(此處用342C指示)之間進行。此處,選擇353可在至少以下者之間進行:- 第一編碼模式341(341C),其中使用第一碼簿357C1;以及- 第二編碼模式342(342C),其中使用第二碼簿357C2。
類似地,在解碼器處,可在第一解碼模式341與第二解碼模式342之間執行碼簿選擇553。此處,選擇553可在至少以下者之間進行:- 第一解碼模式,其中使用第一碼簿;以及 - 第二解碼模式,其中使用第二碼簿。
舉例而言,用於第二編碼/解碼模式之第二碼簿可具有比用於第一編碼/解碼模式之第一碼簿更多的索引(或至少其大多數)及/或具有更高位元長度的索引。因此,第二編碼/解碼模式原則上可達到更好的解析度(以及更高的位元長度)。在實例中,位元速率愈高,則解析度愈高且較佳選擇第一模式。
即使圖2c展示可選擇碼簿為共用碼簿,但(比如在圖1c中)量化器特定碼簿可為可選擇的(亦即,選擇在量化器特定碼簿及量化索引轉換器特定碼簿之第一集合與量化器特定碼簿及量化索引轉換器特定碼簿之第二集合之間進行)。
亦應注意,在一些實例中,第一模式可意味著量化器數目導向選擇及碼簿選擇二者。舉例而言:- 第一低解析度編碼/解碼模式可使用第一低位元長度碼簿(或第一低位元長度碼簿之集合)及少量量化器(分別為量化索引轉換器),例如用於藉由保持低位元長度來達到低解析度及高位元速率(例如,在通訊鏈路之不良狀態的狀況下);以及- 第二高解析度編碼/解碼模式可使用第二高位元長度碼簿(或第二高位元長度碼簿之集合)及大量量化器(分別為量化索引轉換器),例如用於以低位元速率達到高解析度(例如,在通訊鏈路之執行狀態的狀況下),位元長度比第一低解析度編碼/解碼模式中更高。
然而,應注意,選擇353及553未必在高解析度模式與低解析度模式之間進行。在一些實例中,不同的可選擇碼簿357C1及357C2可針對不同應用程式及/或不同音訊信號1。舉例而言,如由分類360之結果360c判定(圖5c),可為有聲訊框選擇第一編碼/解碼模式且為無聲訊框選擇第二編碼/解碼模式。在此狀況下,可能不存在不同解析度/品質對比不同位元速率,而僅碼簿不 同,一者比另一者更合適。
圖2e展示編碼器2(2b,2c)之另一操作方式。此處,將第一潛在表示330(469)提供至量化模組300(此處用300e指示)。在此狀況下,可並行地執行第一編碼模式341'及第二編碼模式342'二者。第一編碼模式341'可輸出第一經寫碼信號3'且第二編碼模式342'可輸出第二寫碼信號3"。隨後,可在區塊341e'處重新解碼第一經寫碼信號3'以獲得輸入音訊信號1之第一經重新解碼版本1',而可在區塊341e"處重新解碼第二經寫碼信號3"以獲得輸入音訊信號1之第二經重新解碼版本1"。區塊353e處之選擇可基於比較,例如藉由比較輸入音訊信號之原始版本1與第一經重新解碼版本1'及第二經重新解碼版本1",其方式為判定指示第一經重新解碼版本1'與原始音訊信號1之失真的第一失真度量及指示第二經重新解碼版本1"與原始音訊信號1之失真的第二失真度量,且藉由進一步比較第一失真度量與第二失真度量。選擇最小化失真的模式,如由開關353e'所展示:實際上待提供至位元串流中之經寫碼信號3將因此為經寫碼信號3'及3"當中最小化與原始音訊信號1之失真的信號。替代經寫碼版本3,可對由經寫碼信號寫入器360上游之索引(用556'及556"指示)形成的版本執行相同操作。有利地,無需在解碼器處執行並行地執行二種模式341'及342"(或在其他實例中,並行地執行多於二種模式)的技術。
替代比較輸入音訊信號1之第一經重新解碼版本1'及第二經重新解碼版本1"與輸入音訊信號1,圖2e之實例可經組配以並行地執行用以提供第一經寫碼信號版本(3')之第一編碼模式(341')及用以提供第二經寫碼信號版本(3")之第二編碼模式(341")二者,但藉由在第一經寫碼信號版本及第二經寫碼信號版本(3',3")當中選擇最大化處理效率(例如,最小化計算消耗)的經寫碼信號版本(3',3")以寫入在經寫碼信號3中而在第一編碼模式與第二編碼模式之間選擇。
在圖2d中,展示可在第一編碼模式341與第二編碼模式342之間進行選擇的編碼器(在一些實例中,其可為2、2b或2c中之一者)之實例。由此,第一編碼模式341表示將單個逐潛在通道純量值(351S)映射至逐潛在通道索引(356)之至少一個純量量化器(355)與將所有逐潛在通道純量值(351S)之子集映射至單個索引(356S)的至少一個向量量化器(355S)之組合。即使圖中未展示,相對地,亦可存在可在第一解碼模式(例如,對應於第一編碼模式341)與第二解碼模式(例如,對應於第二編碼模式342)之間進行選擇的解碼器(在一些實例中,其可為解碼器10)。不同模式可例如由位元速率控制,例如以適應連接狀態(例如,繁忙的連接狀態意味著低位元速率,此又需要使用第一編碼模式,而較不繁忙的連接狀態可意味著較高位元速率,此又需要使用第二編碼模式)。
在圖2d之實例中,在第一低量化器數目編碼模式341中,存在(例如,對於各訊框或對於各潛在表示)比第二編碼模式342更少的量化器。舉例而言,在第一編碼模式341中,存在至少一個向量量化器355S,該至少一個向量量化器將由至少二個純量值(例如,第一純量值351S'及第二純量值351S")形成之向量量化至一個單一索引356S上,而在第二編碼模式342中,第一純量值351S'及第二純量值351S"中之各者分別獨立於純量量化器355'及355"而量化,以分別提供二個獨立索引355'及355"。相對地,在解碼器處,在第一低量化索引轉換器數目解碼模式中,存在(例如,對於各訊框或對於各潛在表示)比在第二高量化索引轉換器數目解碼模式中更少的量化索引轉換器。舉例而言,在第一解碼模式中,存在將至少一個單一索引556轉換為至少二個純量值之至少一個量化索引轉換器,而在第二解碼模式中,存在映射至至少二個純量值上之二個索引。
在若干實例中,可假定索引356、356S之長度(例如,時間長度)為固定的(例如,所有索引356、356S需要相同數目個位元或寫入在經寫碼信號 3中之其他符號),或索引之長度為可變的(例如,相比其他索引,一些索引就其位元串流表示而言具有更低的長度)。舉例而言,相比在第二編碼模式342中將需要的二個索引356'、356",索引356S(在第一編碼模式341中產生)在位元串流(經寫碼信號)3中可具有更短的表示。出於此原因,在第一編碼模式341中,經寫碼信號3之長度減小且此例如在請求低位元速率之狀況下(例如,當傳輸通道有雜訊時)為有利的,而第二編碼模式342准許具有更好的解析度(此係因為碼簿提供更多索引),但酬載增加且計算能力消耗增加。因此,在圖2d之實例中,編碼器及解碼器二者可更好地適應通訊鏈路之特性。
在圖2d之實例中,選擇可理解為第一向量(或至少部分向量)模式(具有至少一個向量量化器355S)與所有純量量化器355針對同一訊框的第二純量模式之間的選擇。
應注意,並行地,編碼器及/或解碼器可至少在第二高索引數目編碼模式與第一低索引數目編碼模式之間進行選擇。相比在第一低索引數目編碼模式中,可在第二高索引數目編碼模式中使用具有更高數目個索引、具有更高解析度及/或具有更高位元長度(至少平均而言,例如至少對於大多數索引或至少對於最頻繁的索引)之至少一個碼簿。實例可由圖2d提供:第二高索引數目編碼模式由第二模式342表示,而第一低索引數目編碼模式由第一模式341表示(且實際上,在第二模式342存在比第一模式341中更少的經編碼索引,此係因為在第一模式341中,僅自多個純量值351S'及351S"產生一個索引365S,而在第二模式342中,存在更大數目個量化器355,各量化器皆恰好提供一個索引,因此提供比第一模式341中更多的索引)。然而,在另一實例中,甚至在無任何向量量化器之情況下,第一低索引數目編碼模式亦可藉由使第二可學習區段在第一模式中產生比在第二模式中更少的純量值351來體現。相對地,在解碼器10處,甚至在無處理多個純量值之任何向量量化器的情況下,第一低索 引數目解碼模式亦可藉由在第一模式中向第一可學習區段510提供比在第二模式中更少的純量值551來體現。應注意,一般而言,藉由減少索引之數目,解析度亦降低。然而,第一低索引數目編碼(或解碼)模式准許減少經寫碼信號3之長度,藉此適應效能較差的通訊鏈路,而第二高索引數目編碼(或解碼)模式准許提高品質,例如在通訊鏈路令人滿意之狀況下。
圖7a及圖7b分別展示多級(殘餘)量化及多級(殘餘)反量化之實例。
圖7a展示可應用於編碼器2(例如,2b、2c)之多級(殘餘)量化的實例。特定而言,展示一個殘餘量化器355R(其可為上文所論述之量化器355中之任一者的執行個體),但在一個實例中,其他殘餘量化器(例如,數目為N2)與殘餘量化器355R相同。特定而言,殘餘量化器355R可包括具有至少二個子量化器之系列,例如基本子量化器(第一子量化器)355R1及殘餘子量化器(第二子量化器)355R2,但在一些實例中,存在多於二個子量化器。此處,可將由第二可學習區段350輸出之潛在純量值(潛在通道)351輸入至基本子量化器(第一子量化器)355R1中。因此獲得第一索引(基本索引)356R1,且可因此封裝至經寫碼信號3中(或在圖2e之實例中,封裝至版本3'或3"中)。接著,可將第一索引(基本索引)356R1輸入至反量化器(量化索引轉換器)555R1(其實質上模擬解碼器處之量化索引轉換器)中。接著,藉由反量化器(量化索引轉換器)555R1產生第一索引356R1之經反量化版本551R1。第一索引356R1之經反量化版本551R1因此表示解碼器將如何解量化潛在純量值351之模擬。接著,在比較區塊353R1處將潛在純量值351與第一索引356R1之經反量化版本551R1進行比較,藉此提供第一殘餘潛在純量值351R1,其表示損害第一索引356R1之經反量化版本551R1的量化誤差。接著,可將第一殘餘潛在純量值351R1輸入至第二子量化器355R2中以獲得第二索引(殘餘索引)356R2,該第二索引亦可封裝 至經寫碼信號3中(或在圖2e之實例中,封裝於版本3'或3"中)。在僅待提供第一索引355R1及第二索引355R2之狀況下,可避免反子量化器555R2及第二比較區塊353R2;否則,可使用反子量化器555R2及第二比較區塊353R2(類似於反子量化器555R1及第一比較區塊353R1)以自第二殘餘值351R2獲得第三索引。
圖7b展示解碼器10(例如,10b、10c)處之多級(殘餘)解量化(反量化)的實例,特定而言,其展示二個量化索引轉換器555R(其可為圖3a至圖3c之量化索引轉換器555的實例)。此處,經寫碼信號讀取器560提供第一索引(基本索引)556R1(對應於圖7a之第一索引356R1)及第二索引(殘餘索引)556R2(對應於圖7a之第二殘餘索引356R2)二者。接著,在二個各別解量化器執行個體555R1'及555R2'處反量化索引556R1及556R2二者,以便獲得待獲得之經解量化之潛在純量值551的第一分量(基本分量)551'R1及第二分量(殘餘分量)551'R2。接著,在額外區塊553R中,將第一分量(基本分量)551'R1及第二分量(殘餘分量)551'R2彼此相加以獲得經解量化之潛在純量值551,其為待輸入第一可學習區段540中之經解量化之第一潛在表示550的部分。
即使圖7a及圖7b中未展示,子量化器355R1、355R2以及反子量化器555R1、555R2、555R1'及555R2'中之各者亦意欲利用碼簿。碼簿對於各量化步驟(或分別對於各反量化步驟)可為相同的,或可使用不同碼簿(例如,基本碼簿可用於第一子量化器355R1,且不同的殘餘碼簿可用於第二殘餘子量化器355R2)。此同樣可適用於反子量化器。
亦有可能根據至少第一模式及第二模式(在實例中,其他可選擇模式係可能的)來選擇(353,553)圖7a及圖7b之編碼器及解碼器的操作。舉例而言:- 在第一非殘餘模式中,編碼器僅針對各潛在純量值351產生一個單一索 引356,且解碼器僅使用單個索引356(呈其解碼器側版本556)以產生一個單一經解量化之潛在純量值556;- 在第二殘餘模式中,編碼器(比如在圖7a中)針對各潛在純量值351產生第一基本索引356R1及至少一個第二殘餘索引356R2,且解碼器(比如在圖7b中)使用第一基本索引356R1(呈解碼器側版本556R1)以產生第一分量551R1'且使用至少一個第二殘餘索引356R2(呈解碼器側版本556R2)以產生第二分量551R2'。
一般而言,第一非殘餘模式可達到較低品質(例如,較低解析度),但具有低位元速率,而第二殘餘模式可達到較高品質,但需要高位元速率。可在編碼器處藉由圖5a至圖5c中所繪示之技術中之一者在第一非殘餘模式與第二殘餘模式之間進行選擇353,而在解碼器處,可基於經寫碼信號3中之發信來執行選擇,比如在圖7a中。在實例中,選擇(353,553)可在具有較低層級之殘餘量化步驟的至少第一殘餘模式與具有較高層級之殘餘量化的至少第二殘餘模式之間進行。
總之,選擇可在至少二個(但在一些實例中,亦多於二個)編碼/解碼模式之間進行。以下陳述中之至少一者(例如,一些、全部)可適用:
1)第一模式為第一低量化器數目模式(341,342)且第二編碼模式為第二高量化器數目模式(341,342),例如此係因為潛在純量值(潛在通道)之數目(N2',N2")在第一模式與第二模式之間變化(比如圖2b中),或因為第一模式為至少部分向量模式(比如圖2d中)且第二模式為純量模式(比如圖2d中);
2)第一模式使用至少一個第一碼簿,且第二模式使用至少一個第二碼簿,具有不同解析度、位元長度及/或索引數目(參見圖2c);
3)第一模式為低索引數目模式(341,342)且第二模式為高索引數目模式,比如圖2c及圖2d中;
4)第一模式為第一減少潛在模式,而第二模式為第二增加潛在模式;
5)第一模式為基本模式(單級模式)且第二模式為殘餘模式(多級模式,比如圖7a及圖7b中),或第一模式為多級但具有第一數目個級,該第一數目小於第二模式中之第二級數
6)僅在編碼器處,可並行地執行第一編碼模式及第二編碼模式二者,以接著藉由選擇將最小化失真之經寫碼信號版本寫入在經寫碼信號3中而在第一編碼模式與第二編碼模式之間進行選擇
7)第一模式可提供比第二模式更高的解析度
8)一個模式可為針對特定類別,例如針對有聲類別之分類模式,而另一模式可為例如針對無聲類別之分類模式。
以上陳述可以不同組合彼此進行組合。
該等模式可透過可涉及選擇(比如圖5a中)、通道狀態量測(比如圖5b中)及信號分類(比如圖5c中)中之至少一者的準則來選擇。
如上文所解釋,潛在表示(例如,330、350、530、550等)可用矩陣(例如,M×N矩陣)來表述,其中M可為潛在通道之數目且N可為一個訊框之長度。一般而言,當解釋了選擇不同的編碼/解碼模式時,實例係基於訊框:例如,低索引數目模式及高索引數目模式針對各訊框具有不同數目個索引;第一低量化器數目模式及第二高量化器數目模式針對各訊框具有不同數目個量化器,等等。
論述
模型:本發明模型可包括(未必對稱的)一對卷積編碼器(例如,2,諸如2b或2c)及解碼器(例如,10,諸如10b或10c)以及量化模組(例如,300、313)。編碼器可將第一潛在表示330變換為輸入至多個量化器355之(通常)較低維表示350。各量化器355獨立地近似潛在向量之各元素(潛在純量值、 潛在通道)351,例如藉由來自一組候選值(例如,儲存於碼簿中)之最接近匹配。此組候選值可被學習或可被選擇為固定的。將每潛在維度之候選值的索引356儲存或傳輸至接收器(例如,解碼器10,諸如10b或10c),該解碼器自其重建構對應的量化器輸入向量。該(例如,卷積)解碼器可重建構潛在表示(例如,呈其版本550及530),其接著用於藉由NAC解碼器520重建構輸入信號16。
訓練:SQ 300(313)可藉由以下操作來訓練:藉由在反向路徑中用恆等式來近似各量化器355,及藉由額外損失來強制實行量化器結構,或藉由每潛在維度(經擴縮以匹配目標量化解析度)添加均勻雜訊來模擬量化器之效應。在二種狀況下,SQ模組之中間(第二)表示350可在推斷期間逐元素地量化。
可擴縮性:資料速率可與信號品質進行權衡,例如藉由在推斷期間降低經預訓練NAC之量化器解析度或藉由為經預訓練NAC訓練新的SQ。此處,對應的經預訓練之SQ模組300(313)可藉由較弱SQ來近似,該較弱SQ僅藉由最小化量測學生與教師之輸出之間的差異的簡單(例如,基於MSE或MAE之)損失而以學生-教師方法重新訓練SQ來提供以較低資料速率工作之NAC。
來自所提出技術(推斷)之益處
1.SQ模組300(313)允許潛在表示350,其數量級小於提供可比較品質之傳統VQ的潛在表示。藉此,NAC編碼器(第一可學習區段)20之總體設計可用較少參數及較高計算效率來完成。
2.由SQ 300(313)學習之離散表示易於解譯為潛在表示之近似,此係因為潛在表示與SQ近似之間的距離係在純量之間計算。
3.量化可藉由整數鑄型或其他高效方法來極高效地實現。
4.SQ模組300(313)亦與固定碼簿一起工作。
5.在推斷期間,可使用不同SQ模組(例如,執行個體化不同的編 碼/解碼模式),其寫碼層級及/或編碼器/解碼器對之數目及分佈不同,從而允許潛在表示中不同數目個維度。此產生權衡資料速率與品質之容易且高效之方式。亦不需要儲存對應於不同資料速率之若干完整的NAC,而僅需要單個NAC及若干(微小的)SQ模型。
6.單個SQ模組300(313)係足夠的,而大多數VQ方法必須依賴於殘餘量化。
來自所提出技術(訓練)之益處
1.已針對SQ提出了實現可擴縮性之策略(參見上文)。此等技術避免了對整個NAC進行昂貴的重新訓練(在大型GPU上大約數周)且僅需要重新訓練SQ模組300及/或500(在小型GPU上大約幾個小時)或僅需要調整量化器層級。
2.不需要用於訓練碼簿之額外機制。
3.穩健的訓練方法,亦即,直通式訓練及基於雜訊之訓練。
4.所提出之量化技術的收斂速度比競爭性的VQ方法更快。
本發明之應用及益處
●計算高效之語音寫碼
●可擴縮語音寫碼
●儲存高效之語音寫碼
●在較大資料速率下可能具有較好的品質(待驗證)
對於推斷極其重要的態樣(為了可讀性,不採用「專利樣式」)
1.藉由整數鑄型之高效量化
2.關於量化器解析度之可擴縮性
3.藉由切換經重新訓練之SQ的關於維度之可擴縮性
對於訓練極其重要之態樣:
1.藉由適當擴縮均勻分佈之白色雜訊來近似量化器,從而訓練SQ
2.藉由直通式近似,亦即,藉由恆等式及額外損失近似量化器來訓練SQ
3.藉由平滑替代(Softmax)近似量化器來訓練SQ
4.藉由移動平均來訓練碼簿
5.藉由反向傳播來訓練碼簿
6.訓練殘餘碼簿
7.訓練碼簿之辭典
8.重新訓練經預訓練NAC之SQ
藉由在純量量化器(SQ)模組之間切換來選擇資料速率
訓練:對於所有以下資料速率調整選項,NAC編碼器/解碼器(20,520)及SQ編碼器/解碼器(300,500)係利用碼簿層級(CL)(使用者界定的且固定或可學習的)之某一分佈與SQ一起訓練。
推斷:對於所有以下選項,包含NAC編碼器/解碼器(20,520)及SQ編碼器/解碼器(300,500)之經訓練SQ模組300(313)或其一部分由使用者界定或重新訓練之替代來替換,該替代使得NAC 20及/或520之傳輸資料速率能夠為不同的。
1)在應用期間調整經訓練之神經音訊寫碼器(NAC)的使用者界定之CL(參數化量化器355)
a)SQ模組300(313)之參數化量化器355的某一數目個CL係藉由使用者以某一分佈(例如,均勻的或對於較小值具有較高解析度)來選擇。
b)訓練SQ模組300(313)之參數化量化器355的某一數目個CL,同時保持NAC編碼器/解碼器(20,520)及SQ編碼器/解碼器(300,500)固定。在應用期間,應用程式/使用者可在此等經訓練碼簿之間切換。
c)選項a)及b)可全域地應用(所有潛在通道使用一個碼簿)或逐潛 在通道地應用(每潛在通道使用一不同碼簿)。解析度對於所有潛在通道可等同或可不同(向較重要通道提供較好解析度,且反之亦然)。
2)在包含SQ編碼器/解碼器及SQ的經重新訓練之SQ模組之間切換
a)訓練新的SQ編碼器/解碼器對(340,540),例如其中瓶頸維度可能不同於與包含使用者界定數目個CL之SQ(確定性或經訓練)一起的NAC訓練中之維度。在應用期間組合NAC編碼器/解碼器(20,520)與不同的經重新訓練之SQ模組300(313)。
b)執行2a)且接著應用方法1a)至1c),亦即,自2a)保持NAC編碼器/解碼器(20,520)及SQ編碼器/解碼器(300,500)固定且僅重新調整SQ之CL。
下文例示以上實例之特定部分的非限制性實例。
一些特徵之實例
圖10展示聲碼器(或更一般而言,用於處理音訊信號之系統)系統之實例。聲碼器系統可包括例如編碼器2(例如,2b、2c)及/或解碼器10(例如,10b、10c)。如上文所解釋,編碼器2可包括第一編碼器側可學習層(NAC編碼器)20,亦被稱為音訊信號表示產生器,以產生輸入音訊信號1之第一潛在表示(音訊信號表示)330(469)。輸入音訊信號1可由第一編碼側可學習層20處理。輸入音訊信號1之第一潛在表示330可被儲存(且例如,用於比如處理音訊信號之目的),或可經量化(例如,透過量化器300)以便獲得位元串流3。解碼器10(音訊產生器)可讀取位元串流3且產生輸出音訊信號16。
第一編碼側可學習層20、編碼器2及/或解碼器10中之各者可為可學習系統且可包括至少一個可學習層及/或可學習區塊。
輸入音訊信號1(其可例如自麥克風獲得或可自諸如儲存單元及/ 或合成器之其他源獲得)可屬於具有音訊信號訊框序列之類型。舉例而言,不同的輸入音訊信號訊框可表示固定時間長度(例如,10ms或毫秒,但在其他實例中,可界定不同長度,例如5ms及/或20ms)中之聲音。各輸入音訊信號訊框可包括樣本序列(例如,在16kHz或千赫茲下,且各訊框中將存在160個樣本)。在此狀況下,輸入音訊信號在時域中,但在其他狀況下,其可在頻域中。可將輸入音訊信號1提供至可學習區塊200,該可學習區塊可為第一可學習區段之部分。可學習區塊200可屬於具有雙路徑(例如,應對至少一個殘餘)之類型。可學習區塊200可將輸入音訊信號1之經處理版本269提供至第二可學習區塊290(在一些狀況下,可避免此區塊)上。隨後,可學習區塊200或可學習區塊290可將其輸出的輸入音訊信號1之經處理版本提供至量化模組300。量化模組300可提供經寫碼信號(位元串流)3。將看到,量化模組300可為可學習量化模組。
可學習區塊200可在已將輸入音訊信號1(或其經處理版本)轉換為多維表示之後處理輸入音訊信號1(呈其經處理版本中之一者)。可因此使用格式界定器210。格式界定器210可為確定性區塊(例如,非可學習區塊)。在格式界定器210下游,由格式界定器210輸出之經處理版本220(亦被稱為輸入音訊信號1之第一音訊信號表示)可透過至少一個可學習層(例如,230、240、250、290)處理。至少在可學習區塊200內部之可學習層(例如,層230、240、250)為處理輸入音訊信號1之多維版本(例如,二維版本)的第一音訊信號表示220之可學習層。如將展示,此可例如透過滾動窗來獲得,該滾動窗沿著輸入音訊信號1之單個維度(時域)移動且產生輸入音訊信號1之多維版本220。如可見,輸入音訊信號1之第一音訊信號表示220可具有第一維度(框間維度),使得多個相互連續的訊框(例如,相對於彼此緊接在一個訊框之後)係根據(沿著)第一維度進行排序。亦應注意,第二維度(框內維度)使得各訊框之樣本係根據(沿著)第二維度進行排序。如圖10或圖11中可見,在一些實例中,可接著沿著第二 方向(框間方向)用二個樣本0'及0'來組織訊框t。如可見,可沿著第一維度遵循訊框t、t+1、t+2、t+3等之此序列,而在第二維度上,亦針對各訊框遵循樣本序列。格式界定器210可經組配以沿著輸入音訊信號之第一多維音訊信號表示的第二維度[例如,框內維度]插入各給定訊框之輸入音訊信號樣本。另外或替代地,格式界定器210可經組配以沿著輸入音訊信號1之第一多維音訊信號表示220的第二維度[例如,框內維度]插入緊接在給定訊框之後的一或多個額外訊框的額外輸入音訊信號樣本[例如,以預界定數目,例如應用程式特定的,例如由使用者或應用程式界定]。格式界定器210經組配以沿著輸入音訊信號1之第一多維音訊信號表示220的第二維度插入緊接在給定訊框之前的一或多個額外訊框的額外輸入音訊信號樣本[例如,以預界定數目,例如應用程式特定的,例如由使用者或應用程式界定]。然而,在一些實例中,此並非必需的,可避免插入來自其他訊框之樣本。
在格式界定器210下游,至少一個可學習層(230,240,250)可輸入有輸入音訊信號1之音訊信號表示220。值得注意地,在此狀況下,至少一個可學習層230、240及250可遵循殘餘技術。舉例而言,在點248處,可自音訊信號表示220產生殘餘值。特定而言,音訊信號表示220可細分成輸入音訊信號之音訊信號表示220的主要部分259a'及殘餘部分259a。因此,音訊信號表示220之主要部分259a'可不經受任何處理,直至點265c,在該點處,將音訊信號表示220之主要部分259a'與由例如彼此級聯之至少一個可學習層230、240及250輸出的經處理殘餘版本265b'相加(加總)。因此,可獲得輸入音訊信號1之經處理版本269。
至少一個殘餘可學習層230、240、250可包括以下中之至少一者:- 任擇的第一可學習層(230),例如第一卷積可學習層,其為經組配以藉 由沿著輸入音訊信號(1)之第一多維音訊信號表示(220)的第二方向[例如,框內方向]滑動來產生輸入音訊信號(1)之第二多維音訊信號表示的卷積可學習層;]- 第二可學習層(240),其可為經組配以藉由沿著輸入音訊信號(1)之第二多維音訊信號表示(220)的第一方向[例如,框間方向]操作來產生輸入音訊信號(1)之第三多維音訊信號表示的循環可學習層(例如,閘控循環可學習層)[例如,使用1×1內核,例如1×1可學習內核,或另一內核,例如另一可學習內核];- 第三可學習層(250)[其可為例如第二卷積可學習層],其為經組配以藉由沿著輸入音訊信號之第一多維音訊信號表示的第二方向[例如,框內方向]滑動來產生輸入音訊信號之第四多維音訊信號表示(265b')的卷積可學習層[例如,使用1×1內核,例如,1×1可學習內核]。
值得注意地,第一可學習層230可為第一卷積可學習層。其可具有1×1內核。1×1內核可藉由沿著第二維度(亦即,對於各訊框)滑動該內核來應用。循環可學習層240(例如,閘控循環單元GRU)可輸入有來自第一卷積可學習層230之輸出。循環可學習層(例如,GRU)可在第一維度上應用(亦即,藉由自訊框t滑動至訊框t+1、至訊框t+2,等等)。如稍後將解釋,在循環可學習層240中,針對各訊框之輸出的各值亦可基於先前訊框(例如,緊接在前的訊框,或另外緊接在特定訊框之前的數目n個訊框;例如,在n=2之狀況下,循環可學習層240針對訊框t+3之輸出,則輸出將考慮訊框t+1及訊框t+2之樣本的值,但將不考慮訊框t之樣本的值)。可將由循環可學習層240輸出之輸入音訊信號1的經處理版本提供至第二卷積可學習層(第三可學習層)250。第二卷積可學習層250可具有沿著各訊框之第二維度(沿著第二框內維度)滑動的內核(例如,1×1內核)。第二卷積可學習層250之輸出265b'可接著例如在點265c處與輸入音訊信號1之音訊信號表示220的主要部分259a'相加,該主要部分已繞過可學習層230、240及250。
接著,可將輸入音訊信號1之經處理版本269提供(作為潛在信號269)至至少一個可學習區塊290。至少一個卷積可學習區塊290可提供例如256個樣本之版本(但可使用不同數目,諸如128、516等)。
如圖11(其可被視為圖11之執行個體)中所展示,至少一個卷積可學習區塊290可包括卷積可學習層429以對信號(潛在信號)269(例如,由可學習區塊200輸出)執行卷積(例如,使用1×1內核)。卷積可學習層429可為非殘餘可學習層。卷積可學習層429可輸出信號269之經卷積版本420,且亦可為輸入音訊信號1之經處理版本。
至少一個卷積可學習區塊290可包括至少一個殘餘可學習層。至少一個卷積可學習區塊290可包括至少一個可學習層(例如,440、460)。可學習層440、460(或其中之至少一者或一些)可遵循殘餘技術。舉例而言,在點448處,可自音訊信號表示或潛在表示269(或其經卷積版本420)產生殘餘值。特定而言,音訊信號表示420可細分成輸入音訊信號1之音訊信號表示420的主要部分459a'及殘餘部分459a。因此,輸入音訊信號1之音訊信號表示420的主要部分459a'可不經受任何處理,直至點465,在該點處,將輸入音訊信號1之音訊信號表示420的主要部分459a'與由彼此級聯之至少一個可學習層440及460輸出的經處理殘餘版本465b'相加(加總)。因此,可獲得輸入音訊信號1之潛在表示469(330)且可表示第一可學習區段20(音訊表示產生器)之輸出。
至少一個卷積可學習區塊290中之至少一個殘餘可學習層可包括以下中之至少一者:- 第一層(430),其經組配以自音訊信號表示420產生輸入音訊信號(1)之殘餘多維音訊信號表示(第一1層430可為激活函數,例如Leaky ReLu,參見下文);- 第二可學習層(440),其為經組配以藉由卷積[例如,可使用內核3]自藉 由第一可學習層(430)輸出之音訊信號表示產生輸入音訊信號1之殘餘多維音訊信號表示的卷積可學習層;- 第三層(450),其用以自藉由第二可學習層(440)輸出之音訊信號表示產生輸入音訊信號1之殘餘多維音訊信號表示(可學習層450可為激活函數,例如Leaky ReLu,參見下文);- 第四可學習層(460),其為經組配以藉由卷積[例如,可使用內核1×1]自藉由第三可學習層(450)輸出之輸入音訊信號1的殘餘多維音訊信號表示產生輸入音訊信號1之殘餘多維音訊信號表示456b'的卷積可學習層;第二卷積可學習層460(第四可學習層)之輸出465b'可接著在點465處與輸入音訊信號1之音訊信號表示420(或269)的主要部分459a'相加(加總),該主要部分已繞過層430、440、450、460。
應注意,輸出469(330)可被視為由第一編碼側可學習層20(例如,在圖1a至圖1c中)輸出之第一潛在表示。
隨後,可在需要寫入經寫碼信號3之狀況下提供量化模組300。量化模組300可為可學習量化模組[例如,使用至少一個可學習碼簿之量化模組],其在上文詳細地論述。量化模組(例如,可學習量化模組)300可使至少一個碼簿之索引與輸入音訊信號(1)之潛在表示(例如,220或469)的各訊框或第一多維音訊信號表示之經處理版本相關聯,以便產生經寫碼信號3[至少一個碼簿可為例如可學習碼簿]。
值得注意地,由可學習層230、240、250形成之級聯及/或由層430、440、450、460形成之級聯可包括更多或更少層,且可進行不同選擇。然而,值得注意地,該等層為殘餘可學習層,且其被音訊信號表示220之主要部分259'繞過。
圖12展示圖3a至圖3c之解碼器(音訊產生器)10(例如,10b、 10c)可如何之實例(但可使用不同實例),且因此用10d指示。經寫碼信號3可包含訊框(例如,編碼為索引,例如由編碼器2編碼,例如在由量化模組300量化之後)。可獲得輸出音訊信號16。解碼器10(10d)可包括第一資料佈建器702。第一資料佈建器702可輸入有輸入信號(輸入資料)14(例如,來自內部源,例如雜訊產生器或儲存單元,或來自外部源,例如外部雜訊產生器或外部儲存器單元,或甚至自經寫碼信號3獲得之資料)。輸入信號14可為雜訊,例如白色雜訊,或確定性值(例如,常數)。輸入信號14可具有多個通道(例如,128個通道,但其他數目個通道係可能的,例如大於64之數目)。第一資料佈建器702可輸出第一資料15。第一資料15可為雜訊或自雜訊獲取。第一資料15可輸入於至少一個第一處理區塊50(40)中。第一資料15可(例如,當自雜訊獲取時,其因此對應於輸入信號14)與輸出音訊信號16無關,但在一些狀況下,其可自經寫碼信號3獲得,例如LPC參數,或自經寫碼信號3獲取之其他參數;值得注意地,本發明實例之優點為第一資料15無需為明確的聲學特徵,且第一資料15可更容易為雜訊。至少一個第一處理區塊50(40)可調節第一資料15以獲得第一輸出資料69,例如使用藉由處理經寫碼信號3而獲得的調節。可將第一輸出資料69提供至第二處理區塊45。自第二處理區塊,可獲得(例如,透過PQMF合成)音訊信號16。第一輸出資料69可在多個通道中。可將第一輸出資料69提供至第二處理區塊45,該第二處理區塊可組合第一輸出資料69之多個通道,以在一個信號通道中提供輸出音訊信號16(例如,在PQMF合成之後,該PQMF合成例如在圖14及圖10中用110指示,但在圖12中未展示)。
如上文所解釋,輸出音訊信號16(以及原始音訊信號1及其經編碼版本、經寫碼信號3或其表示20,或任何其他的其經處理版本,諸如269,或殘餘版本259a及265b',或主要版本259a',及由層230、240、250輸出之任何中間版本,或由層429、430、440、450、460中之任一者輸出的中間版本中 之任一者)通常被理解為根據訊框序列進行細分(在一些實例中,訊框彼此不重疊,而在一些其他實例中,其可重疊)。各訊框可包括樣本序列。舉例而言,各訊框可細分成16個樣本(但其他解析度係可能的)。亦應注意,多個訊框可分組於經寫碼信號3之一個單一封包中,例如以供傳輸或儲存。雖然一個訊框之時間長度通常被視為固定的,但每訊框之樣本數目可變化,且可執行增加取樣操作。
解碼器10(10d)可利用:- 第一分支(例如,逐訊框分支)10a',其可針對各訊框進行更新,例如使用自經寫碼信號3獲得之訊框(例如,訊框可呈由量化模組300量化之索引的形式及/或呈例如自解量化模組500(513)轉換之碼(諸如純量、向量)112(530)的形式,該解量化模組亦為該逆量化模組或反量化模組);及/或- 第二分支(例如,逐樣本分支)10b'。
第二分支10b'可含有區塊702、77及69中之至少一者。
如圖12所展示,可自解量化模組500(513)獲得索引556以獲得第一(解碼器側)潛在表示550。第一潛在表示550可為多維的(例如,二維、三維等)。解量化模組500(513)可包括(例如,為)可學習碼簿
逐樣本分支10b'可針對各樣本例如以輸出取樣速率及/或針對各樣本以比最終輸出取樣速率更低的取樣速率進行更新,例如使用雜訊14或自外部或內部源獲取之另一輸入。
第一處理區塊40可如同條件神經網路進行操作,為該第一處理區塊提供來自經寫碼信號3之資料(例如,碼112、530)以用於產生修改輸入資料14(輸入信號)之條件。輸入資料(輸入信號)14(呈其任何演變中之任一者)將經受若干處理以得到輸出音訊信號16,該輸出音訊信號意欲為原始輸入音訊信號1之版本。條件、輸入資料(輸入信號)14及其後續經處理版本均可表示為例 如藉由卷積經受可學習層之激活圖(activation map)。值得注意地,在其朝向語音16演變期間,信號1可經受增加取樣(例如,在圖14中,自一個樣本49至多個樣本,例如數千樣本),但其通道47之數目可減少(例如,在圖14中,自64或128個通道至單1個通道)。
可例如自輸入(諸如雜訊或來自外部信號之信號)或自其他內部或外部源獲得第一資料15(例如,逐樣本分支10b')。第一資料15可被視為第一處理區塊40之輸入且可為輸入信號14之演變(或可為輸入信號14)。基本上,根據由第一處理區塊40設定之條件來修改第一資料15以獲得第一輸出資料69。第一資料15可在多個通道中,例如在一個單一樣本中。又,提供至第一處理區塊40之第一資料15可具有單樣本解析度,但在多個通道中。多個通道可形成一組參數,其可與編碼於經寫碼信號3中之經寫碼參數相關聯。然而,一般而言,在處理期間,在第一處理區塊40中,每訊框之樣本數目自第一數目增加至第二較高數目(亦即,取樣速率,在此處亦被稱為位元速率,自第一取樣速率增加至第二較高取樣速率)。另一方面,通道之數目可自第一通道數目減少至第二較低通道數目。用於第一處理區塊中之條件(其在下文詳細論述)可用74及75指示且藉由目標資料12產生,該目標資料又自獲自經寫碼信號3之目標資料12產生(例如,透過解量化模組500、513)。將展示,條件(調節特徵參數)74及75及/或目標資料12亦可經受增加取樣,以符合(例如,適應)目標資料12之版本的維度。提供第一資料15(來自內部源、外部源、經寫碼信號3等)之單元在此處被稱為第一資料佈建器702。
如自圖12可見,第一處理區塊40可包括預調節可學習層710,該預調節可學習層可為或包含循環可學習層,例如循環可學習神經網路,例如GRU,但此並非必需的。預調節可學習層710可針對各訊框產生目標資料12。目標資料12可為至少2維的(例如,多維的):各訊框在第二維度上可存在多個 樣本且各訊框在第一維度上可存在多個通道。目標資料12可呈頻譜圖之形式,其可為梅爾頻譜圖(但此並非嚴格必需的),例如在頻率標度非均勻及/或由認知原理促動之狀況下。在待被饋入之對應於調節可學習層的取樣速率不同於訊框速率之狀況下,目標資料12對於同一訊框之所有樣本可為相同的,例如在層取樣速率下。亦可應用另一增加取樣策略。可將目標資料12提供至至少一個調節可學習層,該至少一個調節可學習層在此處指示為具有層71、72、73(亦參見圖15以及下文)。調節可學習層71、72、73可產生條件(其中之一些可指示為貝他β及伽瑪γ,或編號74及75),該等條件亦被稱為待應用於第一資料12及自第一資料導出之任何經增加取樣資料的調節特徵參數。調節可學習層71、72、73可呈針對各訊框具有多個通道及多個樣本之矩陣的形式。第一處理區塊40可包括反正規化(或樣式化元件)區塊77。舉例而言,樣式化元件77可將調節特徵參數74及75應用於第一資料15。實例可為第一資料之值與條件β(其可作為偏差操作)之逐元素乘法及與條件γ(其可作為乘數操作)之加法。樣式化元件77可逐樣本地產生第一輸出資料69。
解碼器10(10d)可包括第二處理區塊45。第二處理區塊45可組合第一輸出資料69之多個通道以獲得輸出音訊信號16(或其前驅信號一音訊信號44',如圖14中所展示)。
現主要參看圖13。經寫碼信號3細分成多個訊框,然而,該等訊框以索引356、556(例如,自編碼器2之量化模組300獲得)之形式編碼。透過量化模組500(513)自經寫碼信號3之索引356、556獲得第一潛在表示550以獲得待分組於碼中的純量值551。第一及第二維度展示於圖13之碼112(530)中(可存在其他維度)。各訊框在橫座標方向(第一框間維度)上細分成多個樣本。第一潛在表示550可由預調節可學習層710(例如,循環可學習層)使用以產生目標資料12,該目標資料亦可為至少二維的(例如,多維的),諸如呈頻譜圖(例如,梅 爾頻譜圖,但此並非嚴格必需的)之形式。各目標資料12可表示一個單一訊框且訊框序列可沿著第一框間維度在橫座標方向(自左向右)上隨時間演變。對於各訊框,若干通道可在縱座標方向(第二框內維度)上。舉例而言,不同係數將出現在與係數相關聯之各行的不同條目中,該等係數與頻帶相關聯。調節可學習層71、72、73產生特徵參數74、75(β及γ)。β及γ的橫座標(第二框內維度)與同一訊框之不同樣本相關聯,而縱座標(第一框間維度)與不同通道相關聯。並行地,第一資料佈建器702可提供第一資料15。第一資料15可針對各樣本而產生且可具有許多通道。在樣式化元件77處(且更一般而言,在第一調節區塊40處),可將調節特徵參數β及γ(74,75)應用於第一資料15。舉例而言,可在一行樣式化條件74、75(調節特徵參數)與第一資料15或其演變之間執行逐元素乘法。將展示,此程序可重複許多次。
如自上文清楚可見,由第一處理區塊40產生之第一輸出資料69可作為2維矩陣獲得,其中橫座標(第一框間維度)為樣本且縱座標(第二框內維度)為通道。透過第二處理區塊45,可產生具有一個單一通道及多個樣本之音訊信號16(例如,以類似於輸入音訊信號1之形狀),尤其在時域中。更一般而言,在第二處理區塊45處,第一輸出資料69之每訊框之樣本數目(位元速率,亦被稱為取樣速率)可自每訊框之第二樣本數目(第二位元速率或第二取樣速率)演變至高於每訊框之第二樣本數目(第二位元速率或第二取樣速率)的每訊框之第三樣本數目(第三位元速率或第三取樣速率)。另一方面,第一輸出資料69之通道數目可自第二通道數目演變至小於第二通道數目之第三通道數目。換言之,輸出音訊信號16之位元速率或取樣速率(第三位元速率或第三取樣速率)可高於第一資料15之位元速率(或取樣速率)(第一位元速率或第一取樣速率)及第一輸出資料69之位元速率或取樣速率(第二位元速率或第二取樣速率),而輸出音訊信號16之通道數目可低於第一資料15之通道數目(第一通道數目)及第一輸 出資料69之通道數目(第二通道數目)。
卷積之實例在下文論述且可理解,其可在預條件可學習層710(例如,循環可學習層)、至少一個條件可學習層71、72、73中之任一者處且更一般而言,在第一處理區塊40(50)中使用。一般而言,得到的一組條件參數(例如,對於一個訊框)可儲存於佇列(未展示)中以供隨後在第一或第二處理區塊分別處理先前訊框時由第一或第二處理區塊處理。
現提供關於主要在預調節可學習層710(例如,循環可學習層)下游之區塊中執行的操作之論述。吾人考慮已自預調節可學習層710獲得且應用於調節可學習層71至73(調節可學習層71至73又應用於樣式元件77)之目標資料12。區塊71至73及77可由產生器網路層770體現。產生器網路層770可包括多個可學習層(例如,多個區塊50a至50h,參見下文)。
圖12(及其在圖14中之實施例)展示音訊解碼器(產生器)10(10d),例如10b、10c之實例,該音訊解碼器可例如根據本發明技術(亦被稱為StyleMelGAN)自經寫碼信號3解碼(例如,產生、合成)音訊信號(輸出信號)16。輸出音訊信號16可基於輸入信號14(其可為雜訊,例如白色雜訊(「第一選項」),或其可自另一源獲得)而產生。如上文所解釋,目標資料12可包含(例如,為)頻譜圖(例如,梅爾頻譜圖),該頻譜圖(例如,梅爾頻譜圖)提供例如時間樣本序列至梅爾標度(例如,自預調節可學習層710獲得)上之映射。目標資料12及/或第一資料15通常待處理,以便獲得可由人類收聽者辨識為自然的語音聲。在解碼器10d中,自輸入獲得之第一資料15經樣式化(例如,在區塊77處)以具有向量,該向量具有藉由目標資料12調節的聲學特徵。最後,輸出音訊信號16將由人類收聽者辨識為語音。比如在圖14中,輸入向量14及/或第一資料15(例如,雜訊,例如自內部或外部源獲得)可為128×1向量(一個單一樣本,例如時域樣本或頻域樣本,及128個通道)(圖14展示待被提供至通道映射30之輸 入信號14,第一資料佈建器702未被展示或被視為與通道映射30相同)。在其他實例中,可使用不同長度之輸入向量14。可在第一處理區塊40中處理(例如,在透過預調節層710對自經寫碼信號3獲得之目標資料12的調節下)輸入向量14。第一處理區塊40可包括至少一個,例如多個處理區塊50(例如,50a...50h)。在圖14中,展示八個區塊50a...50h(其中之各者亦識別為「TADE殘餘區塊(TADEResBlock)」),但在其他實例中,可選擇不同數目。在許多實例中,處理區塊50a、50b等提供自輸入信號14演變至最終音訊信號16之信號的逐漸增加取樣(例如,至少一些處理區塊,例如50a、50b、50c、50d、50e增加取樣速率,使得其中之各者相對於其輸入中之取樣速率在輸出中增加取樣速率(亦被稱為位元速率),而一些其他處理區塊(例如,50f至50h)(例如,相對於增加取樣速率之區塊(例如,50a、50b、50c、50d、50e)的下游)不增加取樣速率(或位元速率)。區塊50a至50h可理解為形成一個單一區塊40(例如,圖12中所展示之區塊)。在第一處理區塊40中,可學習層之調節集合(例如,71、72、73,但不同數目係可能的)可用以處理目標資料12及輸入信號14(例如,第一資料15)。因此,可在訓練期間例如藉由卷積來獲得調節特徵參數74、75(亦被稱作伽瑪γ及貝他β)。因此,可學習層71至73可為學習網路之權重層之部分。如上文所解釋,第一處理區塊40、50可包括至少一個樣式化元件77(正規化區塊77)。至少一個樣式化元件77可輸出第一輸出資料69(當存在多個處理區塊50時,多個樣式化元件77可產生多個分量,該等分量可彼此相加以獲得第一輸出資料69之最終版本)。至少一個樣式化元件77可將調節特徵參數74、75應用於輸入信號14(潛在信號)或自輸入信號14獲得之第一資料15。
第一輸出資料69可具有多個通道。所產生之音訊信號16可具有一個單一通道。
解碼器10(10d)可包括第二處理區塊45(在圖14中,展示為包括 區塊42、44、46)。第二處理區塊45可經組配以組合第一輸出資料69(作為第二輸入資料或第二資料來輸入)之多個通道(在圖14中用47指示),以在一個單一通道中但在樣本序列中(在圖14中,用49指示樣本)獲得輸出音訊信號16。
「通道」不應在立體聲之背景下理解,而是在神經網路(例如,卷積神經網路)之背景下或更一般而言,在可學習單元之背景下理解。舉例而言,輸入信號(例如,潛在雜訊)14可在128個通道中(在時域中之表示中),此係因為提供了通道序列。舉例而言,當信號具有40個樣本及64個通道時,其可被理解為40行及64列之矩陣,而當信號具有20個樣本及64個通道時,其可被理解為20行及64列之矩陣(其他圖示化係可能的)。因此,所產生之音訊信號16可被理解為單聲道信號。在待產生立體聲信號之狀況下,則簡單地針對各立體聲通道重複所揭露技術,以便獲得隨後混合的多個音訊信號16。
至少原始輸入音訊信號1及/或所產生語音16可為時域值序列。相反地,區塊30及50a至50h、42、44中之各者(或至少一者)的輸出通常可具有不同維度。在區塊30及50a至50e、42、44中之至少一些中,可對自輸入14(例如,雜訊或LPC參數,或自經寫碼信號獲取之其他參數)朝向變為語音16演變的信號(14,15,59,69)進行增加取樣。舉例而言,在區塊50a至50h當中的第一區塊50a處,可執行2倍增加取樣。增加取樣之實例可包括例如以下序列:1)重複相同值;2)插入零;3)另一重複或插入零+線性濾波;等等。
所產生之音訊信號16通常可為單通道信號。在需要多個音訊通道(例如,對於立體聲播放)之狀況下,則所主張程序原則上可反覆多次。
類似地,目標資料12亦可具有由預調節可學習層710產生之多個通道(例如,在諸如梅爾頻譜圖之頻譜圖中)。在一些實例中,可對目標資料12進行增加取樣(例如,根據因子2、2的冪、2的倍數或大於2的值,例如根據不同因子,諸如2.5或其倍數)以適應沿著後續層(50a至50h、42)演變之信號 (59a,15,69)的維度,例如以獲得維度適應信號維度之調節特徵參數74、75。
若第一處理區塊40以多個區塊(例如,50a至50h)執行個體化,則通道之數目可例如在多個區塊中之至少一些中保持(例如,自50e至50h且在區塊42中,通道之數目不變)。第一資料15可具有第一維度或低於音訊信號16之維度的至少一個維度。第一資料15可具有在低於音訊信號16之所有維度上的樣本總數。第一資料15可具有低於音訊信號16的一個維度但具有大於音訊信號16的通道數目。
如由措辭「可學習層之調節集合」所解釋,可根據條件神經網路之範例,例如基於條件資訊來獲得音訊解碼器10(10d)。舉例而言,條件資訊可由目標資料(或其經增加取樣版本)12構成,自該目標資料訓練層71至73(權重層)之調節集合且獲得調節特徵參數74、75。因此,樣式化元件77由可學習層71至73來調節。此同樣可適用於預條件層710。
編碼器2處(或第一編碼側可學習層20處)及/或解碼器10(10d)處之實例可基於卷積神經網路。舉例而言,可為3×3矩陣(或4×4矩陣,或1×1,或小於10×10等)之小矩陣(例如,濾波器或內核)係沿著較大矩陣(例如,通道×樣本潛在或輸入信號及/或頻譜圖及/或頻譜圖或經增加取樣頻譜圖,或更一般而言,目標資料12)迴旋(卷積),例如意味著濾波器(內核)之元素與較大矩陣(激活圖或激活信號)之元素之間的組合(例如,乘法及乘積總和;點積等)。在訓練期間,獲得(例如,學習)濾波器(內核)之元素,其為最小化損失之元素。在推斷期間,使用已在訓練期間獲得之濾波器(內核)的元素。可在區塊71至73、61b、62b(參見下文)、230、250、290、429、440、460中之至少一者處使用卷積之實例。值得注意地,可替代地使用矩陣。在卷積有條件的情況下,則卷積不必應用於自輸入信號14透過中間信號59a(15)、69等朝向音訊信號16演變之信號,而是可應用於目標信號14(例如,用於產生調節特徵參數74及75,該等 參數隨後待應用於第一資料15或潛在信號或先前信號,或自輸入信號朝向語音16演變之信號)。在其他狀況下(例如,在區塊61b、62b處,參見下文),卷積可為無條件的,且可例如直接應用於自輸入信號14朝向音訊信號16演變之信號59a(15)、69等。可執行有條件卷積及無條件卷積二者。
在一些實例中(在解碼器處或在編碼器處),在卷積下游可具有可根據預期效應而不同的激活函數(ReLu、TanH、softmax等)。ReLu可映射0與在卷積時獲得之值之間的最大值(實務上,若其為正,則維持相同值,且在負值之狀況下,輸出0)。若x>0,則Leaky ReLu可輸出x且若x0,則輸出0.1*x,x為藉由卷積獲得的值(替代0.1,在一些實例中,可使用另一值,諸如0.1±0.05內的預定值)。TanH(其可例如在區塊63a及/或63b處實施)可提供在卷積時獲得的值之雙曲正切,例如TanH(x)=(ex-e-x)/(ex+e-x),其中x為在卷積時獲得的值(例如,在區塊61b處,參見下文)。Softmax(例如,應用於例如區塊64b處)可將指數應用於卷積結果之元素中的各元素,且藉由除以指數之總和來正規化該元素。Softmax可提供由卷積(例如,在62b處提供)產生之矩陣中的條目之機率分佈。在應用激活函數之後,可在一些實例中執行池化步驟(未展示於圖中),但在其他實例中,可避免該步驟。亦有可能具有softmax閘控TanH函數,例如藉由將TanH函數(例如,在63b處獲得,參見下文)之結果與softmax函數(例如,在64b處獲得)之結果相乘(例如,在65b處,參見下文)。在一些實例中,多個卷積層(例如,可學習層之調節集合或至少一個調節可學習層)可為一者在另一者下游及/或彼此並行,以便提高效率。若提供激活函數及/或池化之應用,則其亦可在不同層中重複(或可能例如為可將不同激活函數應用於不同層)(此亦可應用於編碼器)。
在解碼器10(10d)處,在不同步驟處處理輸入信號14以變成所產生之音訊信號16(例如,在由可學習層之調節集合或可學習層71至73設定的 條件下,且基於由可學習層之調節集合或可學習層71至73學習的參數74、75)。因此,輸入信號14(或其演變版本,亦即,第一資料15)可理解為在處理方向(在圖4及圖7中自14至16)上朝向變為所產生之音訊信號16(例如,語音)演變。條件將實質上基於目標信號12及/或基於經寫碼信號3中之預條件且基於訓練而產生(以便得到參數74、75之最佳集合)。
亦應注意,輸入信號14(或其演變中之任一者)之多個通道可被視為具有可學習層之集合及與其相關聯的樣式化元件77。舉例而言,矩陣74及75之各列可與輸入信號(或其演變中之一者)之特定通道相關聯,該特定通道例如係自與特定通道相關聯之特定可學習層獲得。類似地,樣式化元件77可被視為由多個樣式化元件(各樣式化元件用於輸入信號x、c、12、76、76'、59、59a、59b等之各列)形成。
圖14展示音訊解碼器10(10d)之實例。圖14現展示預調節可學習層710(展示於圖12中),但目標資料12係透過預調節層710(參見上文)自經寫碼信號3獲得。目標資料12可為自預調節可學習層710獲得之梅爾頻譜圖;輸入信號14可為自內部或外部源獲得之信號,且輸出16可為語音。輸入信號14可僅具有一個樣本及多個通道(指示為「x」,此係因為其可變,例如,通道之數目可為80或其他)。輸入向量14可在具有128個通道(但其他數目係可能的)之向量中獲得。在輸入信號14為雜訊(「第一選項」)之狀況下,其可具有零均值常態分佈,且遵循公式z~N(0,I128);其可為具有均值0之128維的隨機雜訊,且其中自相關矩陣(平方128×128)等於恆等式I(可作出不同選擇)。因此,在雜訊用作輸入信號14之實例中,其可在通道之間完全去相關且具有方差1(能量)。N(0,I128)可在每22528個所產生的樣本處實現(或對於不同實例,可選擇其他數目);因此,維度在時間軸上可為1且在通道軸上為128。在實例中,輸入信號14可為常數值。
輸入向量14可經逐步驟處理(例如,在區塊702、50a至50h、42、44、46等處),以便演變至語音16(演變信號將例如用不同信號15、59a、x、c、76'、79、79a、59b、79b、69等指示)。
在區塊30處,可執行通道映射。其可由簡單的卷積層組成或包含簡單的卷積層以改變通道數目,例如在此狀況下,自128改變至64。因此,區塊30可為可學習的(在一些實例中,其可為確定性的)。如可見,處理區塊50a、50b、50c、50d、50e、50f、50g、50h(一起體現圖6之第一處理區塊50)中之至少一些可藉由例如對各訊框執行增加取樣(例如,最多2倍增加取樣)來增加樣本之數目。通道之數目可沿著區塊50a、50b、50c、50d、50e、50f、50g、50h保持相同(例如,64)。樣本可為例如每秒(或其他時間單位)之樣本數目:吾人可在區塊50h之輸出處獲得16kHz或更大(例如,22Khz)之聲音。如上文所解釋,多個樣本之序列可構成一個訊框。區塊50a至50h(50)中之各者亦可為TADE殘餘區塊(在時間適應性反正規化TADE之背景下的殘餘區塊)。值得注意地,各區塊50a至50h(50)可藉由目標資料(例如,碼)12及/或藉由經寫碼信號3來調節。在第二處理區塊45(圖1及圖6)處,僅可獲得一個單一通道且在一個單一維度上獲得多個樣本(亦參見圖13)。如可見,可使用另一TADE殘餘區塊42(進一步至區塊50a至50h)(其將維度減小至四個單一通道)。接著,可執行卷積層44及激活函數(其可為例如TanH 46)。亦可應用(偽正交鏡相濾波器)組110,以便獲得最終信號16(且可儲存、顯現等)。
區塊50a至50h中之至少一者(或在特定實例中,其中之各者)及42以及編碼器層230、240及250(及430、440、450、460)可為例如殘餘區塊。殘餘可學習區塊(層)可對自輸入信號14(例如,雜訊)演變至輸出音訊信號16之信號的殘餘分量進行預測。殘餘信號僅為自輸入信號14朝向輸出信號16演變之主信號之一部分(殘餘分量)。舉例而言,多個殘餘信號可彼此相加以獲得最 終輸出音訊信號16。但可使用其他架構。
圖15展示區塊50a至50h(50)中之一者的實例。區塊50a至50h(50)可彼此複製,但當經訓練時,其可能為如此。如可見,各區塊50(50a至50h)輸入有第一資料59a,該第一資料為第一資料15(或其經增加取樣版本,諸如由增加取樣區塊30輸出之版本)或來自先前區塊之輸出。舉例而言,區塊50b可輸入有區塊50a之輸出;區塊50c可輸入有區塊50b之輸出,等等。在實例中,不同區塊可彼此並行地操作,且結果被加在一起。自圖15可見,提供至區塊50(50a至50h)或42之第一資料59a經處理且其輸出為輸出資料69(其將作為輸入被提供至後續區塊)。如由線59a'所指示,第一資料59a之主要分量實際上繞過第一處理區塊50a至50h(50)之大多處處理。舉例而言,主要分量59a'繞過區塊60a、900、60b及902以及65b。第一資料59(15)之殘餘分量59a可經處理以獲得待在加法器65c(其在圖15中指示,但未展示)處與主要分量59a'相加的殘餘部分65b'。主要分量59a'之繞過及加法器65c處之相加可理解為執行個體化如下事實:各區塊50(50a至50h)處理對殘餘信號之操作,該等殘餘信號接著與信號之主要部分相加。因此,區塊50a至50h中之各者可被視為殘餘區塊。加法器65c處之相加未必需要在殘餘區塊50(50a至50h)內執行。可執行多個殘餘信號65b'(其各自藉由殘餘區塊50a至50h中之各者輸出)之單次相加(例如,在例如第二處理區塊45中之一個單一加法器區塊處)。因此,不同殘餘區塊50a至50h可彼此並行地操作。在圖15之實例中,各區塊50(50a至50h)可重複其卷積層二次。第一反正規化區塊60a及第二反正規化區塊60b可級聯地使用。第一反正規化區塊60a可包括樣式元件77之例項以將調節特徵參數74及75應用於第一資料59(15)(或其殘餘版本59a)。第一反正規化區塊60a可包括正規化區塊76。正規化區塊76可沿著第一資料59(15)(例如,其殘餘版本59a)之通道執行正規化。因此,可獲得第一資料59(15)(或其殘餘版本59a)之經正規化版 本c(76')因此,樣式元件77可應用於經正規化版本c(76')以獲得第一資料59(15)(或其殘餘版本59a)之經反正規化(經調節)版本。元件77處之反正規化可例如透過矩陣γ(其體現條件74)之元素與信號76'(或輸入信號與語音之間的另一信號版本)的逐元素乘法及/或透過矩陣β(其體現條件75)之元素與信號76'(或輸入信號與語音之間的另一信號版本)的逐元素加法來獲得。因此,可獲得第一資料59(15)(或其殘餘版本59a)之經反正規化版本59b(藉由調節特徵參數74及75來調節)。
接著,可對第一資料59(例如,其殘餘版本59a)之經反正規化版本59b執行閘控激活900。特定而言,可執行二個卷積61b及62b(例如,各自具有3×3內核且具有擴張因子1)。不同的激活函數63b及64b可分別應用於卷積61b及62b之結果。激活63b可為TanH。激活64b可為softmax。二個激活63b及64b之輸出可彼此相乘以獲得第一資料59(或其殘餘版本59a)之經反正規化版本59b的閘控版本59c。隨後,可對第一資料59(或其殘餘版本59a)之經反正規化版本59b的閘控版本59c執行第二反正規化60b。第二反正規化60b可類似於第一反正規化且因此在此處未描述。隨後,可執行第二激活902。此處,內核可為3×3,但擴張因子可為2。在任何狀況下,第二閘控激活902之擴張因子可大於第一閘控激活900之擴張因子。可學習層71至73(例如,自預調節可學習層獲得)之調節集合及樣式化元件77可應用於信號59a(例如,對於各區塊50a、50b...,應用二次)。可在增加取樣區塊70處執行目標資料12之增加取樣以獲得目標資料12之經增加取樣版本12'。增加取樣可透過非線性內插獲得,且可使用例如因子2、2的冪、2的倍數或大於2之另一值。因此,在一些實例中,可使頻譜圖(例如,梅爾頻譜圖)12'具有與待由頻譜圖調節之信號(76、76'、c、59、59a、59b等)相同(例如,符合)的維度。在實例中,可在內核(例如9,例如3×3)中之相同數目個元素處執行分別在TADE區塊60a或60b下游之 61b及62b處的第一及第二卷積。然而,區塊902中之第二卷積可具有擴張因子2。在實例中,用於卷積之最大擴張因子可為2(二)。
如上文所解釋,目標資料12可經增加取樣,例如以便符合輸入信號(或自其演變之信號,諸如59、59a、76',亦被稱為潛在信號或激活信號)。此處,可執行卷積71、72、73(目標資料12之中間值用71'指示)以獲得參數γ(伽瑪74)及β(貝他75)。71、72、73中之任一者處的卷積亦可需要整流線性單元ReLu或洩漏整流線性單元leaky ReLu。參數γ及β可具有與激活信號(該信號經處理以自輸入信號14演變至所產生之音訊信號16,當呈經正規化形式時,該信號在此處表示為x、59、59a或76')相同的維度。因此,當激活信號(x、59、59a、76')具有二個維度時,γ及β(74及75)亦具有二個維度,且其中之各者可疊加至激活信號(γ及β之長度及寬度可與激活信號之長度及寬度相同)。在樣式元件77處,將調節特徵參數74及75應用於激活信號(其可為第一資料59a或由乘法器65a輸出之59b)。然而,應注意,激活信號76'可為第一資料59、59a、59b(15)之經正規化版本(在例項正規化區塊76處),正規化係在通道維度上進行。亦應注意,樣式元件77中所展示之公式(γ*c+β,在圖15中亦用γ⊙c+β指示)可為逐元素乘積,且在一些實例中,並非卷積乘積或點積。卷積72及73在其下游未必具有激活函數。參數γ(74)可理解為具有方差值且β(75)可理解為具有偏差值。應注意,對於各區塊50a至50h、42,可學習層71至73(例如,連同樣式化元件77)可理解為體現權重層。又,圖14之區塊42可執行個體化為圖15之區塊50。接著,例如,卷積層44將減少通道之數目至1且此後,執行TanH 46以獲得語音16。區塊44及46之輸出44'可具有減少數目個通道(例如,4個通道而非64個),及/或可具有與先前區塊50或42相同數目個通道(例如,40個)。
可對信號44'執行偽正交鏡相濾波器PQMF合成(亦參見下文) 110,以便例如在一個通道中獲得音訊信號16(可使用其他技術)。
在實例中,經寫碼信號3可被傳輸(例如,透過通訊媒體,例如有線連接及/或無線連接)及/或可被儲存(例如,在儲存單元中)。因此,編碼器3及/或第一編碼側可學習層20可包含及/或經連接及/或經組配以控制傳輸單元(例如,數據機、收發器等)及/或儲存單元(例如,大容量記憶體等)。為了准許儲存及/或傳輸,量化模組300與解量化模組500(513)之間可存在出於儲存及/或傳輸及讀取及/或接收之目的而處理經寫碼信號的其他裝置。
在傳統神經音訊寫碼之背景下對純量量化的偏見:
●參考文獻[10],一篇關於離散表示學習之開創性論文,主張VQ達成比SQ更強的壓縮,但狀況並非如此。
●VQ-VAE[12]:主張軟至硬技術不可實現
●Minje Kim的論文[13]:亦使用軟至硬,但利用純量量化,然而,在吾人的實驗中,軟至硬訓練從未良好地起作用。
○訓練技術需要可訓練碼簿,此對於吾人的純量量化技術並非強制性的。
○目標位元率遠高於吾人的目標:12、20、32kbps。
●傳統競爭者Soundstream[14]:作者主張VQ為用於神經音訊編碼解碼器之常用技術,此亦為吾人的認知。
●類似地,最近的一篇期刊論文明確地考慮了用於神經音訊寫碼之量化技術[15],其僅在綜述中提及VQ相關方法,而忽略了SQ。因此,此論文隱含地主張VQ更適合於神經音訊寫碼。
●純量量化已成功地用於使用高位元速率的神經影像寫碼(例如,[16]),但尚未成功地用於低位元速率(低於4kbps)下的神經音訊寫碼
●競爭者Encodec[17]:將VQ與簡單的SQ版本進行比較且主張 在初步試驗中VQ優於SQ。作者未對SQ進行跟進且甚至未提供其結果。
其他實例
通常,實例可實施為具有程式指令之電腦程式產品,當電腦程式產品在電腦上運行時,程式指令操作性地用於執行該等方法中之一者。程式指令可例如儲存於機器可讀媒體上。其他實例包含用於執行本文中所描述之方法中之一者、儲存於機器可讀載體上的電腦程式。換言之,方法之實例因此為電腦程式,其具有用於在電腦程式於電腦上運行時執行本文中所描述之方法中之一者的程式指令。該方法之另一實例因此為資料載體媒體(或數位儲存媒體,或電腦可讀媒體),其包含、上面記錄有用於執行本文中所描述之方法中之一者的電腦程式。資料載體媒體、數位儲存媒體或記錄媒體為有形及/或非暫時性的,而非無形及暫時性的信號。因此,該方法之另一實例為表示用於執行本文中所描述之方法中之一者的電腦程式之資料串流或信號序列。該資料串流或信號序列可例如經由資料通訊連接,例如經由網際網路來傳送。另一實例包含處理構件,例如電腦或可規劃邏輯裝置,其執行本文中所描述之方法中之一者。另一實例包含電腦,該電腦具有安裝於其上的用於執行本文中所描述之方法中之一者的電腦程式。另一實例包含將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如,以電子方式或以光學方式)至接收器之設備或系統。舉例而言,接收器可為電腦、行動裝置、記憶體裝置或其類似者。該設備或系統可例如包含用於將電腦程式傳送至接收器之檔案伺服器。在一些實例中,可規劃邏輯裝置(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中之一者。通常,該等方法可由任何適當的硬體設備執行。上述實例僅說明上文所論述之原理。應理解,本文中所描述之配置及細節的修改及變化將為顯而易見的。因此,其意欲由申請專利範圍之範圍限制,而非由 藉助於本文中實例之描述及解釋所呈現的特定細節限制。即使具有等同或等效功能性之等同或等效的一或多個元件出現於不同圖中,以下描述中仍藉由等同或等效元件符號來表示該一或多個元件。
3:經寫碼信號10:音訊解碼器(產生器),解碼器(音訊產生器),方法16:輸出音訊信號,語音112:碼500:純量解量化模組,SQ模組,SQ解碼器,純量解量化513:參考,解量化模組520:NAC解碼器,第二可學習區段530:解碼器側第二潛在表示,第二潛在音訊信號表示,碼,版本540:第一可學習區段,純量解量化可學習區段550:解碼器側第一潛在表示,經解量化之第一潛在表示,版本,第一(解碼器側)潛在表示,第一潛在音訊信號表示551:潛在通道,潛在純量值,經解量化之潛在純量值555:量化索引轉換器(反量化器),量化器556:索引560:經寫碼信號讀取器

Claims (61)

  1. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),其中各量化索引轉換器經組配以使用至少一個碼簿提供一個單一潛在純量值,該至少一個碼簿為一量化索引轉換器特定碼簿,其中至少一個量化索引轉換器為一殘餘或多級量化索引轉換器。
  2. 如請求項1之解碼器,其中所有該等量化索引轉換器或至少為其一子集之多個量化索引轉換器經組配以使用至少一個碼簿提供各別多個該等純量值,該至少一個碼簿為一共同碼簿。
  3. 如請求項1之解碼器,其中至少一個碼簿為可學習的。
  4. 如請求項1之解碼器,其中至少一個碼簿為確定性的。
  5. 如請求項1之解碼器,其中至少一個碼簿在位元串流中具有一固定長度表示。
  6. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),其中各量化索引轉換器經組配以使用至少一個碼簿提供一個單一潛在純量值,該至少一個碼簿為一量化索引轉換器特定碼簿,其中至少一個碼簿在該位元串流中具有一可變長度表示,其中該解碼器經組配以使得至少對於該等潛在純量值中之二者或對於所有該等潛在純量值,較頻繁的潛在純量值係自具有在該經寫碼信號中比映射至較不頻繁的純量值上之索引更緊密之一表示的索引轉換。
  7. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),其中該經寫碼信號讀取器(560)經組配以熵解碼該經寫碼信號(3)中之索引。
  8. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),其中各量化索引轉換器經組配以使用至少一個碼簿提供一個單一潛在純量值,該至少一個碼簿為一量化索引轉換器特定碼簿,其中至少一個碼簿或量化為非均勻的,其中待量化的值範圍被劃分成不相等的區間,使得較頻繁的區間小於較不頻繁的區間。
  9. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),該解碼器經組配以在至少一個第一解碼模式與一個第二解碼模式之間進行選擇,其中該第一解碼模式為一第一低量化索引轉換器數目解碼模式且該第二解碼模式為一第二高量化索引轉換器數目解碼模式,其中在該第一解碼模式中,該解碼器經組配以在該第一解碼模式中接收比在該第二解碼模式中更少的潛在純量值,該解碼器藉此在該第一解碼模式中使用比在該第二解碼模式中更少的量化索引轉換器。
  10. 如請求項9之解碼器,其經組配以在該第一低量化索引轉換器數目解碼模式中使用至少一個單一量化索引轉換器自一個單一索引轉換該第一潛在表示之多個純量值。
  11. 如請求項10之解碼器,其中該至少一個單一量化索引轉換器在該第一低量化索引轉換器數目解碼模式中經組配以使用一碼簿轉換為該等多個純量值,該碼簿相對於由各別量化索引轉換器在該第二高量化索引轉換器數目解碼模式中使用之解析度具有一降低之解析度、位元長度及/或索引數目。
  12. 如請求項9之解碼器,其經組配以在至少一個第一解碼模式與一個第二解碼模式之間進行選擇,其中該第一解碼模式為一第一低索引數目解碼模式且該第二解碼模式為一第二高索引數目解碼模式,且經組配以在該第二高索引數目解碼模式中使用至少一個碼簿,該至少一個碼簿具有比在該第一低索引數目解碼模式中更高的一索引數目、更高的解析度及/或更高的位元長度。
  13. 如請求項9之解碼器,其經組配以基於一手動選擇而在該至少一個第一與第二解碼模式之間進行選擇。
  14. 如請求項9之解碼器,其經組配以基於來自一應用程式之一請求而在該至少一個第一與第二解碼模式之間進行選擇。
  15. 如請求項9之解碼器,其經組配以基於寫入在該經寫碼信號(3)中之一信號化而在該至少一個第一與第二解碼模式之間進行選擇。
  16. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),該解碼器經組配以在至少一個第一解碼模式與一個第二解碼模式之間進行選擇,使得:在該第二解碼模式中,使用該等多個量化索引轉換器以提供該等多個純量值,各量化索引轉換器經組配以自該等多個索引中之一個各別索引提供一個單一純量值或其一分量;且在該第一解碼模式中,使用一個向量量化索引轉換器以自該等多個索引中之一個單一索引提供多個純量值。
  17. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),該解碼器經組配以在至少一個第一解碼模式與一個第二解碼模式之間進行選擇,使得:在該第一解碼模式中,使用該等多個並行的量化索引轉換器以自該等多個索引提供不同純量值,各量化索引轉換器經組配以根據一基本碼簿自該等多個索引中之一個各別單一索引提供一個單一純量值;且在第二解碼模式中,使用至少一個量化索引轉換器以自如下的至少二個索引提供至少一個純量值:使用一基本碼簿近似至少一個純量值之一第一索引;以及使用至少一個殘餘碼簿近似至少一個殘餘純量值之至少一個第二索引。
  18. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),該解碼器經組配以在至少一個第一解碼模式與一個第二解碼模式之間進行選擇,其中該第二解碼模式為具有一第二數目個級之多級且該第一解碼模式為單級或具有一第一數目個級之多級,該第一數目小於級之該第二數目,使得:在該第一解碼模式中,使用該等多個量化索引轉換器以提供該等多個索引,各量化索引轉換器經組配以將一個單一索引轉換為一個單一純量值或將該第一數目之多個索引轉換為一個純量值;且在第二解碼模式中,使用至少一個量化索引轉換器以轉換該第二數目之索引,以提供至少一個純量值。
  19. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),該解碼器經組配以基於輸入音訊信號(1)之一分類(360)而在至少一個第一基於分類之解碼模式與一個第二基於分類之解碼模式之間進行選擇,其中該第一基於分類之解碼模式係針對該分類之一第一類別進行訓練且該第二基於分類之解碼模式係針對該分類之一第二類別進行訓練。
  20. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),其中該第二可學習區段(540)經組配以將該潛在表示之維度自該第一潛在表示(530)改變至該第二潛在表示(550)。
  21. 如請求項20之解碼器,其進一步包含至少一個預調節可學習層(710),該至少一個預調節可學習層經組配以接收該第二潛在表示且輸出表示該音訊信號之目標資料(12)。
  22. 如請求項21之解碼器,其中該至少一個預調節可學習層(710)經組配以將該目標資料(12)提供為一頻譜圖或一經解碼頻譜圖。
  23. 如請求項20之解碼器,其中一第一卷積層(71至73)經組配以使用一第一激活函數對該目標資料(12)或經增加取樣之目標資料進行卷積,以獲得第一經卷積資料(71')。
  24. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),該解碼器進一步包含:一第一資料佈建器(702),其經組配以提供自一解碼器之輸入信號(14)導出的第一資料(15);一第一處理區塊(40,50,50a至50h),其經組配以接收該第一資料(15)且在給定訊框中輸出第一輸出資料(69),該解碼器進一步包含:至少一個調節可學習層(71,72,73),其經組配以處理來自該第二潛在表示之目標資料(12)以輸出調節特徵參數(74,75);以及一樣式化元件(77),其經組配以將該等調節特徵參數(74,75)應用於該第一資料(15,59a)或經正規化之第一資料(59,76')。
  25. 如請求項24之解碼器,其經組配以自雜訊(14)獲得該解碼器之輸入信號。
  26. 如請求項24之解碼器,其進一步包含一正規化元件(76),該正規化元件經組配以正規化該第一資料(59a,15)。
  27. 如請求項24之解碼器,其中該目標資料(12)包括一頻譜圖。
  28. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),該解碼器經組配以顯現該所產生之音訊信號(16)。
  29. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),該解碼器進一步經組配以將該所產生之音訊信號(16)編碼至一第二經編碼表示上。
  30. 一種解碼器(10),其經組配以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該解碼器(10)包括:一經寫碼信號讀取器(560),其經組配以讀取該經寫碼信號(3),藉此提供多個索引(556);一純量解量化模組(500),其包括:多個量化索引轉換器(555),各量化索引轉換器(555)經組配以將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及一第一可學習區段(540),其用以自該第一潛在音訊信號表示(550)提供一第二潛在表示(530);以及一第二可學習區段(520),其包括至少一個可學習層且經組配以自該第二潛在音訊信號表示(530)產生該音訊信號(16),其中該第二可學習區段相對於該第一可學習區段進行預訓練,或不會針對不同的位元速率或選擇而變化。
  31. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,其中至少一個量化器為一殘餘或多級量化器。
  32. 如請求項31之編碼器,其中各量化器(355a)或至少一個量化器經組配以使用至少一個碼簿(357a)量化各別潛在純量值(351),該至少一個碼簿為一量化器特定碼簿。
  33. 如請求項31之編碼器,其中所有該等多個量化器(355,355b,355c)或至少為其一子集之多個量化器經組配以使用至少一個碼簿(357)量化各別潛在純量值,該至少一個碼簿為一共同碼簿。
  34. 如請求項31之編碼器,其中至少一個碼簿(357,357a,357b)為可學習的。
  35. 如請求項31之編碼器,其中至少一個碼簿(357,357a,357b)為確定性的。
  36. 如請求項31之編碼器,其中至少一個碼簿(357,357a,357b)具有一固定長度位元串流表示。
  37. 如請求項31之編碼器,其中至少一個碼簿(357,357a,357b)具有一可變長度位元串流表示。
  38. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以使得至少對於該等潛在純量值中之二者或對於多個該等潛在純量值或對於所有該等潛在純量值,較頻繁的潛在純量值係映射至在經寫碼信號表示中比由較不頻繁的純量值映射之該等索引更緊密的索引上。
  39. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,其中該經寫碼信號寫入器(360)經組配以熵寫碼由該碼簿(357,357a,357b)提供之該至少一個索引。
  40. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,其中至少一個碼簿或量化為非均勻的,其中待量化的值範圍被劃分成不相等的區間,使得較頻繁的區間小於較不頻繁的區間。
  41. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以在至少一第一編碼模式與一第二編碼模式之間進行選擇,其中該第一編碼模式為一第一低量化器數目編碼模式(341)且該第二編碼模式為一第二高量化器數目編碼模式(342),該編碼器經組配以在該第一低量化器數目編碼模式(341)中將該等多個索引提供為具有比在該第二高量化器數目編碼模式(342)中更少的索引,該編碼器(2)藉此在該第一低量化器數目編碼模式(341)中使用比在該第二高量化器數目編碼模式(342)中更少的量化器(355,355s)。
  42. 如請求項41之編碼器,其中該純量量化模組(300)經組配以在該第一低量化器數目編碼模式(341)中使用至少一個向量量化器(355S,VQ)以將由該第二潛在表示(350)之多個純量值(351S',351S")形成的一向量量化至一個單一索引(356S)上,且在該第二高量化器數目編碼模式(342)中透過該等多個量化器中之二個量化器(355)將該第二潛在表示(350)之該等多個純量值(351S',351S")量化至二個不同索引(356S',356S")上。
  43. 如請求項42之編碼器,其中量化該等多個純量值(351S',351S")之該至少一個向量量化器(355S,VQ)在該第一低量化器數目編碼模式(341)中經組配以使用一碼簿量化該等多個純量值(351S),該碼簿相對於由各別量化器在該第二高量化器數目編碼模式(342)中使用之解析度具有一降低之解析度、位元長度及/或索引數目。
  44. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以在至少一個第一編碼模式與一個第二編碼模式之間進行選擇,其中該第二編碼模式為一第二高索引數目編碼模式(342)且該第一編碼模式為一第一低索引數目編碼模式(341),其中該編碼器經組配以在該第二高索引數目編碼模式(341)中使用至少一個碼簿,該至少一個碼簿具有比在該第一低索引數目編碼模式(341)中更高的一索引數目、更高的解析度及/或更高的碼長及/或更多的量化層級及/或更高的索引位元長度。
  45. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以在至少一個第一編碼模式與一個第二編碼模式之間進行選擇,其中該第二編碼模式為一第二擴展潛在編碼模式且該第一編碼模式為一第一減少潛在編碼模式,其中該第二可學習區段(340)經組配以在該第二編碼模式中提供比在該第一編碼模式(341)中更多的潛在純量值。
  46. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以在至少一第一編碼模式(341)與一第二編碼模式(342)之間進行選擇,使得:在該第二編碼模式(342)中,使用該等多個量化器(355)以提供該等多個索引(356),各量化器(355)經組配以量化一個單一潛在純量值(351),以提供該等多個索引中之該一個索引(356);且在該第一編碼模式(351)中,使用至少一個量化器(355S)以將多個潛在純量值(351S)量化至一個單一索引(356S)上。
  47. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以在至少一個第一編碼模式與一個第二編碼模式之間進行選擇,其中該第二編碼模式為具有一第二數目個級之多級且該第一編碼模式為單級或具有一第一數目個級之多級,該第一數目小於級之該第二數目,使得:在該第一編碼模式中,使用該等多個量化器以提供該等多個索引,各量化器(355)經組配以根據一基本碼簿(357)量化一個單一純量值,以提供該等多個索引中之該一個索引(356),其為一個單一索引;且在第二編碼模式中,使用至少一個量化器以量化至少一個純量值,以提供如下的至少二個索引:使用一基本碼簿指示至少一個潛在純量值之一第一索引;以及使用至少一個殘餘碼簿指示至少一個殘餘潛在純量值之至少一個第二索引。
  48. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以並行地執行用以提供一第一經寫碼信號版本(3')之一第一編碼模式(341')及用以提供一第二經寫碼信號版本(3")之一第二編碼模式(341")二者,且藉由在該第一經寫碼信號版本及該第二經寫碼信號版本(3',3")當中選擇最小化關於該輸入音訊信號(1)之失真的該經寫碼信號版本(3',3")以寫入在該經寫碼信號(3)中而在該第一編碼模式與該第二編碼模式之間進行選擇。
  49. 如請求項48之編碼器,其經組配以判定透過該第一編碼模式(341')獲得之該輸入音訊信號(1)的一第一經重新解碼版本(1')之一第一失真度量及透過該第二編碼模式(341")獲得之該輸入音訊信號(1)的一第二經重新解碼版本(1")之一第二失真度量,以便藉由在該第一經寫碼信號版本及該第二經寫碼信號版本(3',3")當中選擇失真度量在該第一失真度量與該第二失真度量之間最低的該經寫碼信號版本(3',3")以寫入在該經寫碼信號(3)中來執行該選擇(353e)。
  50. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以並行地執行用以提供一第一經寫碼信號版本(3')之一第一編碼模式(341')及用以提供一第二經寫碼信號版本(3")之一第二編碼模式(341")二者,且藉由在該第一經寫碼信號版本及該第二經寫碼信號版本(3',3")當中選擇最大化處理效率的該經寫碼信號版本(3',3")以寫入在該經寫碼信號(3)中而在該第一編碼模式與該第二編碼模式之間進行選擇。
  51. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以基於一手動選擇而在該第一編碼模式與該第二編碼模式之間進行選擇。
  52. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以基於來自一應用程式之一請求而在該第一編碼模式與該第二編碼模式之間進行選擇。
  53. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以基於傳輸該經寫碼信號(3)所透過的一通訊鏈路之一狀態(359a,359b)而在該第一編碼模式與該第二編碼模式之間進行選擇,以便在該第一編碼模式及該第二編碼模式當中選擇:在該通訊鏈路之效能相對較高的狀況下提供一較高解析度但較高位元長度的編碼模式;以及在該通訊鏈路之效能相對較差的狀況下提供一較低解析度但較低位元長度的編碼模式。
  54. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,該編碼器經組配以基於該輸入音訊信號(1)或其一經處理版本之一分類(360)而在至少一個第一基於分類之編碼模式與一個第二基於分類之編碼模式之間進行選擇,其中該第一基於分類之編碼模式係針對該分類之一第一類別進行訓練且該第二基於分類之編碼模式係針對該分類之一第二類別進行訓練。
  55. 如請求項54之編碼器,其中該第一類別為一無聲類別且該第二類別為一有聲類別,其中該第一分類編碼模式為一無聲導向模式且該第二分類編碼模式為一有聲導向模式。
  56. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,其中該第一可學習區段(340)經組配以將維度自該第一潛在表示(330)減少至該第二潛在表示(350)。
  57. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,其中該第一可學習區段包含一格式界定器(210),該格式界定器經組配以界定該輸入音訊信號之一多維音訊信號表示(220),該輸入音訊信號之該多維音訊信號表示至少包括:一第一維度,使得多個相互連續的訊框係根據該第一維度進行排序;以及一第二維度,使得至少一個訊框之多個樣本係根據該第二維度進行排序以界定多個通道,其中該多維音訊信號表示被輸入至該第一可學習區段之該至少一個可學習層。
  58. 一種用於產生一經寫碼信號(3)之編碼器(2),一輸入音訊信號(1)經編碼於該經寫碼信號中,該編碼器(2)包含:一第一可學習區段(20),其包括至少一個可學習層以提供該輸入音訊信號(1)之一第一潛在表示(330),一純量量化模組(300),其用以量化該第一潛在表示(330),該純量量化模組包含:一第二可學習區段(340),其用以自該第一潛在表示(330)提供待量化之多個潛在純量值(351);以及多個量化器(355),其用以提供多個索引(356),各量化器(355)經組配以量化待量化之一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及一經寫碼信號寫入器(360),其經組配以將該等多個索引(356)寫入該經寫碼信號(3)中,其中該第一可學習區段相對於該第二可學習區段進行預訓練,或不會針對不同的位元速率或選擇而變化。
  59. 一種解碼方法,其用以自表示一音訊信號(16)之一經寫碼信號(3)產生該音訊信號,該方法(10)包括:讀取一經寫碼信號,藉此獲得多個索引(556);執行一純量解量化(500),包括:透過多個量化索引轉換器(555)執行一轉換,各量化索引轉換器(555)將該等多個索引中之一索引(556)轉換為一對應的潛在純量值(551),使得多個潛在純量值(551)形成該音訊信號之一第一潛在音訊信號表示(550);以及透過一第一可學習區段(540),自該第一潛在音訊信號表示(550)提供一第二潛在音訊信號表示(530);以及透過包括至少一個可學習層之一第二可學習區段(520),自該第二潛在音訊信號表示(530)產生該音訊信號(16),該方法包含在至少一個第一解碼模式與一個第二解碼模式之間進行選擇,其中該第一解碼模式為一第一低量化索引轉換器數目解碼模式且該第二解碼模式為一第二高量化索引轉換器數目解碼模式,其中該方法包括,在該第一解碼模式中,在該第一解碼模式中接收比在該第二解碼模式中更少的潛在純量值,該方法藉此在該第一解碼模式中使用比在該第二解碼模式中更少的量化索引轉換器。
  60. 一種用於產生一經寫碼信號(3)之方法,一輸入音訊信號(1)經編碼於該經寫碼信號中,該方法包含:透過包括至少一個可學習層之一第一可學習區段(20),提供該輸入音訊信號(1)之一第一潛在表示(330),透過一純量量化模組(300),藉由以下操作來量化該第一潛在表示(330):透過一第二可學習區段(340),自該第一潛在表示(330)獲得待量化之多個潛在純量值(351);以及透過多個量化器(355),獲得多個索引(356),該等多個量化器(355)中之各量化器(355)量化一個單一潛在純量值(351)且自該一個單一潛在純量值(351)提供該等多個索引中之一索引(356);以及將該等多個索引(356)寫入該經寫碼信號(3)中,該方法包含在至少一第一編碼模式與一第二編碼模式之間進行選擇,其中該第一編碼模式為一第一低量化器數目編碼模式(341)且該第二編碼模式為一第二高量化器數目編碼模式(342),該方法包括,在該第一低量化器數目編碼模式(341)中將該等多個索引提供為具有比在該第二高量化器數目編碼模式(342)中更少的索引,該方法藉此在該第一低量化器數目編碼模式(341)中使用比在該第二高量化器數目編碼模式(342)中更少的量化器(355,355s)。
  61. 一種非暫時性儲存單元,其儲存指令,該等指令在由一電腦執行時使該電腦執行及/或控制如請求項59或60之方法。
TW113119706A 2023-05-31 2024-05-28 解碼器、編碼器及相關方法與儲存單元 TWI898622B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/EP2023/064613 WO2024245551A1 (en) 2023-05-31 2023-05-31 Scalar quantization for audio coding
WOPCT/EP2023/064613 2023-05-31

Publications (2)

Publication Number Publication Date
TW202501468A TW202501468A (zh) 2025-01-01
TWI898622B true TWI898622B (zh) 2025-09-21

Family

ID=86851739

Family Applications (1)

Application Number Title Priority Date Filing Date
TW113119706A TWI898622B (zh) 2023-05-31 2024-05-28 解碼器、編碼器及相關方法與儲存單元

Country Status (5)

Country Link
AR (1) AR132845A1 (zh)
AU (1) AU2023450188A1 (zh)
MX (1) MX2025014225A (zh)
TW (1) TWI898622B (zh)
WO (1) WO2024245551A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120299465B (zh) * 2025-06-12 2025-09-09 北京生数科技有限公司 音频数据处理方法、装置、设备、存储介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201638930A (zh) * 2015-04-24 2016-11-01 逢甲大學 主動抗噪晶片
US20200005758A1 (en) * 2017-06-26 2020-01-02 Invictus Medical, Inc. Active Noise Control Microphone Array
TWI752281B (zh) * 2017-11-17 2022-01-11 弗勞恩霍夫爾協會 用以使用量化及熵寫碼來編碼或解碼方向性音訊寫碼參數之設備及方法
TWI802055B (zh) * 2021-10-22 2023-05-11 達發科技股份有限公司 可堆疊多重抗噪訊號的主動式降噪積體電路、方法及使用其之主動降噪耳機

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201638930A (zh) * 2015-04-24 2016-11-01 逢甲大學 主動抗噪晶片
US20200005758A1 (en) * 2017-06-26 2020-01-02 Invictus Medical, Inc. Active Noise Control Microphone Array
TWI752281B (zh) * 2017-11-17 2022-01-11 弗勞恩霍夫爾協會 用以使用量化及熵寫碼來編碼或解碼方向性音訊寫碼參數之設備及方法
TWI802055B (zh) * 2021-10-22 2023-05-11 達發科技股份有限公司 可堆疊多重抗噪訊號的主動式降噪積體電路、方法及使用其之主動降噪耳機

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
期刊 SHIN SEUNGMIN, Deep Neural Network (DNN) Audio Coder Using A Perceptually Improved Training Method, ICASSP 2022-2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, XP034158305, Speech And Signal Processing(ICASSP), 2022-05-23, pages 871-875, *

Also Published As

Publication number Publication date
TW202501468A (zh) 2025-01-01
MX2025014225A (es) 2026-01-07
AR132845A1 (es) 2025-08-06
AU2023450188A1 (en) 2025-12-18
WO2024245551A1 (en) 2024-12-05

Similar Documents

Publication Publication Date Title
US11600282B2 (en) Compressing audio waveforms using neural networks and vector quantizers
Zhen et al. Cascaded cross-module residual learning towards lightweight end-to-end speech coding
JP7419388B2 (ja) 回転の補間と量子化による空間化オーディオコーディング
EP4494136B1 (en) Vocoder techniques
JP2009524108A (ja) 拡張帯域周波数コーディングによる複素変換チャネルコーディング
JP2014016625A (ja) オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JPWO2023278889A5 (zh)
CN117546237A (zh) 解码器
JPH08335100A (ja) ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム
CN103918028B (zh) 基于自回归系数的有效表示的音频编码/解码
CN119152863A (zh) 基于神经网络的音频编解码方法、装置、设备及存储介质
TWI898622B (zh) 解碼器、編碼器及相關方法與儲存單元
CN114400012B (zh) 一种极低速率高质量语音编解码方法及装置
CN117616498A (zh) 使用神经网络和向量量化器压缩音频波形
CN116631418B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
JPH0854898A (ja) 音声符号化装置
KR20260015936A (ko) 오디오 코딩을 위한 스칼라 양자화
Stahl et al. A bitrate-scalable variational recurrent mel-spectrogram coder for real-time resynthesis-based speech coding
TW202427458A (zh) 用於音訊編碼/解碼的錯誤恢復工具
Wang et al. SwitchCodec: A High-Fidelity Nerual Audio Codec With Sparse Quantization
Srikotr The improved speech spectral envelope compression based on VQ-VAE with adversarial technique
Jiang Vector-quantized speech separation
WO2025240222A1 (en) Audio decoding with added noise
WO2026024689A1 (en) Bundle encoding codec
CN120564733A (zh) 极低速率语音通信方法及相关设备