[go: up one dir, main page]

HK1218018B - Low-frequency emphasis for lpc-based coding in frequency domain - Google Patents

Low-frequency emphasis for lpc-based coding in frequency domain Download PDF

Info

Publication number
HK1218018B
HK1218018B HK16105887.7A HK16105887A HK1218018B HK 1218018 B HK1218018 B HK 1218018B HK 16105887 A HK16105887 A HK 16105887A HK 1218018 B HK1218018 B HK 1218018B
Authority
HK
Hong Kong
Prior art keywords
spectrum
frequency
predictive coding
linear predictive
spectral
Prior art date
Application number
HK16105887.7A
Other languages
English (en)
French (fr)
Chinese (zh)
Other versions
HK1218018A1 (en
Inventor
Stefan DÖHLA
Bernhard Grill
Christian Helmrich
Nikolaus Rettelbach
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority claimed from PCT/EP2014/051585 external-priority patent/WO2014118152A1/en
Publication of HK1218018A1 publication Critical patent/HK1218018A1/en
Publication of HK1218018B publication Critical patent/HK1218018B/en

Links

Claims (27)

  1. Audiocodierer zum Codieren eines Nicht-Sprach-Audiosignals (AS), um aus demselben einen Bitstrom (BS) zu erzeugen, wobei der Audiocodierer (1) folgende Merkmale aufweist:
    eine Kombination (2, 3) eines Lineare-Prädiktionscodierung-Filters (2), das eine Mehrzahl von Lineare-Prädiktionscodierung-Koeffizienten (LC) aufweist, und eines Zeit-Frequenz-Umwandlers (3), wobei die Kombination (2, 3) konfiguriert ist, einen Rahmen (FI) des Audiosignals (AS) zu filtern und in einen Frequenzbereich umzuwandeln, um auf der Basis des Rahmens (FI) und der Lineare-Prädiktionscodierung-Koeffizienten (LC) ein Spektrum (SP) auszugeben;
    eine Niederfrequenz-Entzerrungseinrichtung (4), die konfiguriert ist, ein verarbeitetes Spektrum (PS) auf der Basis des Spektrums (SP) zu berechnen, wobei Spektrallinien (SL) des verarbeiteten Spektrums (PS), die eine niedrigere Frequenz als eine Referenzspektrallinie (RSL) darstellen, entzerrt werden;
    eine Steuervorrichtung (5), die konfiguriert ist, die Berechnung des verarbeiteten Spektrums (PS) durch die Niederfrequenz-Entzerrungseinrichtung (4) abhängig von den Lineare-Prädiktionscodierung-Koeffizienten (LC) des Lineare-Prädiktionscodierung-Filters (2) zu steuern;
    eine Quantisierungsvorrichtung (6), die konfiguriert ist, ein quantisiertes Spektrum (QS) auf der Basis des verarbeiteten Spektrums (PS) zu erzeugen;
    und einen Bitstromerzeuger (7), der konfiguriert ist, das quantisierte Spektrum (QS) und die Lineare-Prädiktionscodierung-Koeffizienten (LC) in den Bitstrom (BS) einzubetten.
  2. Audiocodierer gemäß dem vorhergehenden Anspruch, bei dem der Rahmen (FI) des Audiosignals (AS) in das Lineare-Prädiktionscodierung-Filter (2) eingegeben wird, bei dem ein gefilterter Rahmen (FF) durch das Lineare-Prädiktionscodierung-Filter (2) ausgegeben wird und bei dem der Zeit-Frequenz-Umwandler (3) konfiguriert ist, das Spektrum (SP) auf der Basis des gefilterten Rahmens (FF) zu schätzen.
  3. Audiocodierer gemäß Anspruch 1, bei dem der Rahmen (FI) des Audiosignals (AS) in den Zeit-Frequenz-Umwandler (3) eingegeben wird, bei dem ein umgewandelter Rahmen (FC) durch den Zeit-Frequenz-Umwandler (3) ausgegeben wird und bei dem das Lineare-Prädiktionscodierung-Filter (2) konfiguriert ist, das Spektrum (SP) auf der Basis des umgewandelten Rahmens (FC) zu schätzen.
  4. Audiocodierer gemäß einem der vorhergehenden Ansprüche, bei dem die Steuervorrichtung (5) einen Spektralanalysator (8), der konfiguriert ist, eine Spektraldarstellung (SR) der Lineare-Prädiktionscodierung-Koeffizienten (LC) zu schätzen, einen Minimum-Maximum-Analysator (9), der konfiguriert ist, ein Minimum (MI) der Spektraldarstellung (SR) und ein Maximum (MA) der Spektraldarstellung (SR) unterhalb einer weiteren Referenzspektrallinie zu schätzen, und eine Entzerrungsfaktor-Berechnungseinrichtung (10, 11) aufweist, die konfiguriert ist, Spektrallinie-Entzerrungsfaktoren (SEF) zu berechnen, zum Berechnen der Spektrallinien (SL) des verarbeiteten Spektrums (PS), die eine niedrigere Frequenz als die Referenzspektrallinie (RSL) darstellen, auf der Basis des Minimums (MI) und des Maximums (MA), wobei die Spektrallinien (SL) des verarbeiteten Spektrums (PS) durch Anwenden der Spektrallinie-Entzerrungsfaktoren (SEF) auf Spektrallinien des Spektrums des gefilterten Rahmens entzerrt werden.
  5. Audiocodierer gemäß Anspruch 4, bei dem die Entzerrungsfaktor-Berechnungseinrichtung (10, 11) derart konfiguriert ist, dass die Spektrallinie-Entzerrungsfaktoren (SEF) in einer Richtung von der Referenzspektrallinie (RSL) zu der Spektrallinie (SL), die die niedrigste Frequenz des Spektrums (SP) darstellt, zunehmen.
  6. Audiocodierer gemäß Anspruch 4 oder 5, bei dem die Entzerrungsfaktor-Berechnungseinrichtung (10, 11) eine erste Stufe (10) aufweist, die konfiguriert ist, einen Basisentzerrungsfaktor (BEF) gemäß einer ersten Formel γ = (α · min / max)β zu berechnen, wobei α ein erster vorgegebener Wert mit α > 1 ist, β ein zweiter vorgegebener Wert mit 0 < β ≤ 1 ist, min das Minimum (MI) der Spektraldarstellung (SR) ist, max das Maximum (MA) der Spektraldarstellung (SR) ist und y der Basisentzerrungsfaktor (BDF) ist, und bei dem die EntzerrungsfaktorBerechnungseinrichtung (10, 11) eine zweite Stufe (11) aufweist, die konfiguriert ist, Spektrallinie-Entzerrungsfaktoren (SEF) gemäß einer zweiten Formel εi= γi'-i zu berechnen, wobei i' eine Anzahl der zu entzerrenden Spektrallinien (SL) ist, i ein Index der jeweiligen Spektrallinie (SL) ist, der Index mit den Frequenzen der Spektrallinien mit zunimmt, wobei i = 0 bis i'-1 ist, γ der Basisentzerrungsfaktor (BEF) ist und εi der Spektrallinie-Entzerrungsfaktor (SEF) mit dem Index i ist.
  7. Audiocodierer gemäß Anspruch 6, bei dem der erste vorgegebene Wert kleiner als 42 und größer als 22 ist, insbesondere kleiner als 38 und größer als 26, noch spezieller kleiner als 34 und größer als 30.
  8. Audiocodierer gemäß Anspruch 6 oder 7, bei dem der zweite vorgegebene Wert gemäß der Formel β = 1 / (θ · i') bestimmt wird, wobei i' die Anzahl der Spektrallinien ist, die entzerrt werden, θ ein Faktor zwischen 3 und 5 ist, insbesondere zwischen 3,4 und 4,6, noch spezieller zwischen 3,8 und 4,2.
  9. Audiocodierer gemäß einem der vorhergehenden Ansprüche, bei dem die Referenzspektrallinie (RSL) eine Frequenz zwischen 600 Hz und 1000 Hz darstellt, insbesondere zwischen 700 Hz und 900 Hz, noch spezieller zwischen 750 Hz und 850 Hz.
  10. Audiocodierer gemäß einem der Ansprüche 4 bis 9, bei dem die weitere Referenzspektrallinie dieselbe oder eine höhere Frequenz als die Referenzspektrallinie (RSL) darstellt.
  11. Audiocodierer gemäß einem der vorhergehenden Ansprüche, bei dem die Steuervorrichtung (5) derart konfiguriert ist, dass die Spektrallinien (SL) des verarbeiteten Spektrums (PS), die eine niedrigere Frequenz als die Referenzspektrallinie (RSL) darstellen, nur entzerrt werden, falls das Maximum (MA) kleiner als das Minimum, (MI) multipliziert mit dem ersten vorgegebenen Wert, ist.
  12. Audiodecodierer zum Decodieren eines Bitstroms (BS) auf der Basis eines Nicht-Sprach-Audiosignals (AS), um aus dem Bitstrom (BS) ein Nicht-Sprach-Audioausgangssignal (OS) zu erzeugen, insbesondere zum Decodieren eines Bitstroms (BS), der durch einen Audiocodierer (1) gemäß den Ansprüchen 1 bis 11 erzeugt wird, wobei der Bitstrom (BS) quantisierte Spektren (QS) und eine Mehrzahl von Lineare-Prädiktionscodierung-Koeffizienten (LC) enthält, wobei der Audiodecodierer (12) folgende Merkmale aufweist:
    einen Bitstromempfänger (13), der konfiguriert ist, das quantisierte Spektrum (QS) und die Lineare-Prädiktionscodierung-Koeffizienten (LC) aus dem Bitstrom (BS) zu extrahieren;
    eine Dequantisierungsvorrichtung (14), die konfiguriert ist, ein dequantisiertes Spektrum (DQ) auf der Basis des quantisierten Spektrums (QS) zu erzeugen;
    eine Niederfrequenz-Rückentzerrungseinrichtung (15), die konfiguriert ist, ein rückwärts verarbeitetes Spektrum (RS) auf der Basis des dequantisierten Spektrums (DQ) zu berechnen, wobei Spektrallinien (SLD) des rückwärts verarbeiteten Spektrums (RS), die eine niedrigere Frequenz als eine Referenzspektrallinie (RSLD) darstellen, rückentzerrt werden; und
    eine Steuervorrichtung (16), die konfiguriert ist, die Berechnung des rückwärts verarbeiteten Spektrums (RS) durch die Niederfrequenz-Rückentzerrungseinrichtung (15) abhängig von den in dem Bitstrom (BS) enthaltenen Lineare-Prädiktionscodierung-Koeffizienten (LC) zu steuern.
  13. Audiodecodierer gemäß dem vorhergehenden Anspruch, wobei der Audiodecodierer (12) eine Kombination (17, 18) eines Frequenz-Zeit-Umwandlers (17) und eines inversen Lineare-Prädiktionscodierung-Filters (18), das die Mehrzahl von in dem Bitstrom (BS) enthaltenen Lineare-Prädiktionscodierung-Koeffizienten (LC) empfängt, aufweist, wobei die Kombination (17, 18) konfiguriert ist, das rückwärts verarbeitete Spektrum (RS) invers zu filtern und in einen Zeitbereich umzuwandeln, um das Ausgangssignal (OS) auf der Basis des rückwärts verarbeiteten Spektrums (RS) und der Lineare-Prädiktionscodierung-Koeffizienten (LC) auszugeben.
  14. Audiodecodierer gemäß dem vorhergehenden Anspruch, bei dem der Frequenz-Zeit-Umwandler (17) konfiguriert ist, ein Zeitsignal (TS) auf der Basis des rückwärts verarbeiteten Spektrums (RS) zu schätzen, und bei dem das inverse Lineare-Prädiktionscodierung-Filter (18) konfiguriert ist, das Ausgangssignal (OS) auf der Basis des Zeitsignals (TS) auszugeben.
  15. Audiodecodierer gemäß Anspruch 13, bei dem das inverse Lineare-Prädiktionscodierung-Filter (18) konfiguriert ist, ein invers gefiltertes Signal (IFS) auf der Basis des rückwärts verarbeiteten Spektrums (RS) zu schätzen, und bei dem der Frequenz-Zeit-Umwandler (17) konfiguriert ist, das Ausgangssignal (OS) auf der Basis des invers gefilterten Signals (IFS) auszugeben.
  16. Audiodecodierer gemäß einem der Ansprüche 12 bis 15, bei dem die Steuervorrichtung (16) einen Spektralanalysator (19), der konfiguriert ist, eine Spektraldarstellung (SR) der Lineare-Prädiktionscodierung-Koeffizienten (LC) zu schätzen, einen Minimum-Maximum-Analysator (20), der konfiguriert ist, ein Minimum (MI) der Spektraldarstellung (SR) und ein Maximum (MA) der Spektraldarstellung (SR) unterhalb einer weiteren Referenzspektrallinie zu schätzen, und eine Rückentzerrungsfaktor-Berechnungseinrichtung (21, 22) aufweist, die konfiguriert ist, Spektrallinie-Rückentzerrungsfaktoren (SDF) zu berechnen, zum Berechnen der Spektrallinien (SLD) des rückwärts verarbeiteten Spektrums (RS), die eine niedrigere Frequenz als die Referenzspektrallinie (RSLD) darstellen, auf der Basis des Minimums (MI) und des Maximums (MA), wobei die Spektrallinien (SLD) des rückwärts verarbeiteten Spektrums (RS) durch Anwenden der Spektrallinie-Rückentzerrungsfaktoren (SDF) auf Spektrallinien des Spektrums des dequantisierten Spektrums (DQ) rückentzerrt werden.
  17. Audiodecodierer gemäß dem vorhergehenden Anspruch, bei dem die Rückentzerrungsfaktor-Berechnungseinrichtung (21, 22) derart konfiguriert ist, dass die Spektrallinie-Rückentzerrungsfaktoren (SDF) in einer Richtung von der Referenzspektrallinie (RSDL) zu der Spektrallinie (SL), die die niedrigste Frequenz des Rückwärtsverarbeitungsspektrums (RS) darstellt, abnehmen.
  18. Audiodecodierer gemäß Anspruch 16 oder 17, bei dem die Rückentzerrungsfaktor-Berechnungseinrichtung (21, 22) eine erste Stufe (21) aufweist, die konfiguriert ist, einen Basisrückentzerrungsfaktor (BDF) gemäß einer ersten Formel δ = (α · min / max) zu berechnen, wobei α ein erster vorgegebener Wert mit α > 1 ist, β ein zweiter vorgegebener Wert mit 0 < β ≤ 1 ist, min das Minimum (MI) der Spektraldarstellung (SR) ist, max das Maximum (MA) der Spektraldarstellung (SR) ist und 5 der Basisrückentzerrungsfaktor (BDF) ist, und bei dem die Rückentzerrungsfaktor-Berechnungseinrichtung (21, 22) eine zweite Stufe (22) aufweist, die konfiguriert ist, Spektrallinie-Rückentzerrungsfaktoren (SDF) gemäß einer zweiten Formel ζi = δi'-i zu berechnen, wobei i' eine Anzahl der rückzuentzerrenden Spektrallinien (SLD) ist, i ein Index der jeweiligen Spektrallinie (SLD) ist, der Index mit den Frequenzen der Spektrallinien zunimmt, wobei i = 0 bis i'-1 ist, δ der Basisrückentzerrungsfaktor (BDF) ist und ζi der Spektrallinie-Rückentzerrungsfaktor (SDF) mit dem Index i ist.
  19. Audiodecodierer gemäß dem vorhergehenden Anspruch, bei dem der erste vorgegebene Wert kleiner als 42 und größer als 22 ist, insbesondere kleiner als 38 und größer als 26, noch spezieller kleiner als 34 und größer als 30.
  20. Audiodecodierer gemäß Anspruch 18 oder 19, bei dem der zweite vorgegebene Wert gemäß der Formel β = 1 / (θ · i') bestimmt wird, wobei i' die Anzahl der Spektrallinien (SLD) ist, die rückentzerrt werden, θ ein Faktor zwischen 3 und 5 ist, insbesondere zwischen 3,4 und 4,6, noch spezieller zwischen 3,8 und 4,2.
  21. Audiodecodierer gemäß einem der Ansprüche 12 bis 20, bei dem die Referenzspektrallinie (RSLD) eine Frequenz zwischen 600 Hz und 1000 Hz darstellt, insbesondere zwischen 700 Hz und 900 Hz, noch spezieller zwischen 750 Hz und 850 Hz.
  22. Audiodecodierer gemäß einem der Ansprüche 16 bis 21, bei dem die weitere Referenzspektrallinie dieselbe oder eine höhere Frequenz als die Referenzspektrallinie (RSLD) darstellt.
  23. Audiodecodierer gemäß einem der Ansprüche 12 bis 22, bei dem die Steuervorrichtung (16) derart konfiguriert ist, dass die Spektrallinien (SLD) des rückwärts verarbeiteten Spektrums (RS), die eine niedrigere Frequenz als die Referenzspektrallinie (RSLD) darstellen, nur rückentzerrt werden, falls das Maximum (MA) kleiner als das Minimum (MI), multipliziert mit dem ersten vorgegebenen Wert, ist.
  24. Ein System, das einen Decodierer (1) und einen Codierer (12) aufweist, wobei der Codierer (1) gemäß einem der Ansprüche 1 bis 11 entworfen ist und/oder der Decodierer gemäß einem der Ansprüche 12 bis 23 entworfen ist.
  25. Verfahren zum Codieren eines Nicht-Sprach-Audiosignals (AS), um aus demselben einen Bitstrom (BS) zu erzeugen, wobei das Verfahren folgende Schritte aufweist:
    Filtern mit einem Lineare-Prädiktionscodierung-Filter (2), das eine Mehrzahl von Lineare-Prädiktionscodierung-Koeffizienten (LC) aufweist, und Umwandeln eines Rahmens (FI) des Audiosignals (AS) in einen Frequenzbereich, um auf der Basis des Rahmens (FI) und der Lineare-Prädiktionscodierung-Koeffizienten (LC) ein Spektrum (SP) auszugeben;
    Berechnen eines verarbeiteten Spektrums (PS) auf der Basis des Spektrums (SP), wobei Spektrallinien (SL) des verarbeiteten Spektrums (PS), die eine niedrigere Frequenz als eine Referenzspektrallinie (RSL) darstellen, entzerrt werden;
    Steuern der Berechnung des verarbeiteten Spektrums (PS) abhängig von den Lineare-Prädiktionscodierung-Koeffizienten (LC) des Lineare-Prädiktionscodierung-Filters (2);
    Erzeugen eines quantisierten Spektrums (QS) auf der Basis des verarbeiteten Spektrums (PS); und
    Einbetten des quantisierten Spektrums (QS) und der Lineare-Prädiktionscodierung-Koeffizienten (LC) in den Bitstrom (BS).
  26. Verfahren zum Decodieren eines Bitstroms (BS) auf der Basis eines Nicht-Sprach-Audiosignals (AS), um aus dem Bitstrom (BS) ein Nicht-Sprach-Audioausgangssignal (OS) zu erzeugen, insbesondere zum Decodieren eines Bitstroms (BS), der durch das Verfahren gemäß dem vorhergehenden Anspruch erzeugt wird, wobei der Bitstrom (BS) quantisierte Spektren (QS) und eine Mehrzahl von Lineare-Prädiktionscodierung-Koeffizienten (LC) enthält, wobei das Verfahren folgende Schritte aufweist:
    Extrahieren des quantisierten Spektrums (QS) und der Lineare-Prädiktionscodierung-Koeffizienten (LC) aus dem Bitstrom (BS);
    Erzeugen eines dequantisierten Spektrums (DQ) auf der Basis des quantisierten Spektrums (QS);
    Berechnen eines rückwärts verarbeiteten Spektrums (RS) auf der Basis des dequantisierten Spektrums (DQ), wobei Spektrallinien (SLD) des rückwärts verarbeiteten Spektrums (RS), die eine niedrigere Frequenz als eine Referenzspektrallinie (RSLD) darstellen, rückentzerrt werden; und
    Steuern der Berechnung des rückwärts verarbeiteten Spektrums (RS) abhängig von den in dem Bitstrom (BS) enthaltenen Lineare-Prädiktionscodierung-Koeffizienten (LC).
  27. Computerprogramm zum Durchführen des Verfahrens von Anspruch 25 oder 26, wenn das Computerprogramm auf einem Computer oder einem Prozessor läuft.
HK16105887.7A 2013-01-29 2014-01-28 Low-frequency emphasis for lpc-based coding in frequency domain HK1218018B (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758103P 2013-01-29 2013-01-29
US61/758,103 2013-01-29
PCT/EP2014/051585 WO2014118152A1 (en) 2013-01-29 2014-01-28 Low-frequency emphasis for lpc-based coding in frequency domain

Publications (2)

Publication Number Publication Date
HK1218018A1 HK1218018A1 (en) 2017-01-27
HK1218018B true HK1218018B (en) 2018-04-20

Family

ID=

Similar Documents

Publication Publication Date Title
US11854561B2 (en) Low-frequency emphasis for LPC-based coding in frequency domain
CN111357050B (zh) 对音频信号进行编码及解码的装置及方法
US11094332B2 (en) Low-complexity tonality-adaptive audio signal quantization
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
CA3081781C (en) Temporal noise shaping
HK1218018B (en) Low-frequency emphasis for lpc-based coding in frequency domain
HK40031511B (en) Audio coding with temporal noise shaping
HK40031511A (en) Audio coding with temporal noise shaping
HK1232662B (en) Apparatus and method for generating an enhanced signal using independent noise-filling
HK1232662A1 (en) Apparatus and method for generating an enhanced signal using independent noise-filling
HK1216263B (en) Low-complexity tonality-adaptive audio signal quantization