[go: up one dir, main page]

DE60318102T2 - Audiodekodierung - Google Patents

Audiodekodierung Download PDF

Info

Publication number
DE60318102T2
DE60318102T2 DE60318102T DE60318102T DE60318102T2 DE 60318102 T2 DE60318102 T2 DE 60318102T2 DE 60318102 T DE60318102 T DE 60318102T DE 60318102 T DE60318102 T DE 60318102T DE 60318102 T2 DE60318102 T2 DE 60318102T2
Authority
DE
Germany
Prior art keywords
phase
sinusoidal
frequency
audio
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60318102T
Other languages
English (en)
Other versions
DE60318102D1 (de
Inventor
Albertus C. Den Brinker
Andreas J. Gerrits
Robert J. Sluijter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60318102D1 publication Critical patent/DE60318102D1/de
Application granted granted Critical
Publication of DE60318102T2 publication Critical patent/DE60318102T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cereal-Derived Products (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Amplifiers (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

  • BEREICH DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf die Codierung und Decodierung von Audiosignalen.
  • HINTERGRUND DER ERFINDUNG
  • Anhand der 1 wird ein parametrisches Codierungsschema, insbesondere ein sinusoidaler Codierer in der PCT Patentanmeldung Nr. WO01/69593 beschrieben. In diesem Codierer wird ein Eingangsaudiosignal x(t) in verschiedene (überlappende) Segmente oder Frames, typischerweise mit einer Länge von 20 ms, aufgeteilt. Jedes Segment wird in Übergangs-, Sinus- und Rauschanteile zerlegt. (Es ist auch möglich, andere Anteile des Eingangs-Audiosignals herzuleiten, wie harmonische Komplexen, obschon diese für die vorliegende Erfindung nicht relevant sind).
  • In dem Sinusanalysator 130 wird das Signal x2 für jedes Segment unter Verwendung einer Anzahl Sinuskurven, dargestellt durch Amplituden-, Frequenz- und Phasenparameter modelliert. Diese Information wird meistens für ein Anlysenintervall dadurch extrahiert, dass eine Fourier-Transformation (FT) durchgeführt wird, die eine spektrale Darstellung des Intervalls mit Frequenzen; Amplituden für jede Frequenz; und Phasen für jede Frequenz schafft, wobei jede Phase in dem Bereich {–π, π} liegt. Wenn die sinusoidale Information für ein Segment geschätzt wird, wird ein Folgealgorithmus ausgelöst. Dieser Algorithmus benutzt eine Kostenfunktion um Sinuskurven miteinander zu koppeln, und zwar auf Segment-zu-Segmentbasis zum Erhalten sog. "Tracks". Der Folgealgorithmus für auf diese Weise zu sinusoidalen Codes CS mit sinusoidalen Spuren, die zu einem bestimmten Zeitpunkt starten, sich während einer bestimmten Zeitspanne über eine Anzahl Zeitsegmente entwickeln und dann stoppen.
  • Bei einer derartigen sinusoidalen Codierung wird Frequenzinformation meistens für die in dem Codierer gebildeten Spuren übertragen. Dies kann preisgünstig erfolgen, da Spuren als eine langsam variierende Frequenz aufweisend definiert werden und deswegen kann die Frequenz auf effiziente Weise durch Zeitdifferenzcodierung übertragen werden. (Im Allgemeinen kann die Amplitude auch zeitdifferentiell codiert werden).
  • Im Gegensatz zu der Frequenzübertragung, wird die Phasenübertragung als aufwendig betrachtet. Im Grunde soll, wenn die Frequenz (nahezu) konstant ist, die Phase als eine Funktion des Spursegmentindexes einem (nahezu) linearen Verhalten anhängen. Wenn sie aber übertragen wird, wird die Phase auf den Bereich {–π, π} begrenzt, wie dieser durch die Fourier-Transformation geschaffen wird. Wegen dieser Modulo 2π Darstellung der Phase geht die strukturelle Interframe-Beziehung der Phase verloren und scheint auf den ersten Blick eine weiße stochastische Variable zu sein.
  • Da die Phase aber die Integrale der Frequenz ist, braucht die Phase im Grunde nicht übertragen zu werden. Dies wird als Phasenfortsetzung bezeichnet und reduziert die Bitrate wesentlich.
  • In der Phasenfortsetzung wird nur die Frequenz übertragen und die Phase wird bei dem Decoder aus den Frequenzdaten durch Ausbeutung der integralen Beziehung zwischen Phase und Frequenz wiederhergestellt. Es ist aber bekannt, dass die Phase unter Anwendung der Phasenfortsetzung nur annähernd wiederhergestellt werden kann. Wenn Frequenzfehler auftreten, und zwar wegen Messfehler in der Frequenz oder wegen Quantisierungsrauschen, wird die Phase, die unter Anwendung der integralen Beziehung rekonstruiert wird, typischerweise einen Fehler zeigen, der den Charakter einer Trift hat. Dies ist weil Frequenzfehler einen nahezu den Charakter von weißem Rauschen haben. Integration verstärkt NF-Fehler und folglich wird die wiederhergestellte Phase dazu neigen, von der wirklich gemessenen Phase weg triften. Dies führt zu hörbaren Artefakten.
  • Dies ist in 2(a) dargestellt, wobei ψ und Ω die wirkliche Frequenz und Phase für eine Spur sind. In dem Codierer sowie in dem Decoder haben die Frequenz und die Phase eine integrale Beziehung, dargestellt durch I. Der Quantisierungsprozess in dem Codierer wird als additives weißes Rauaschen n modelliert. In dem Decoder umfasst die wiederhergestellte Phase ψ auf diese Weise zwei Komponenten: die wirkliche Phase ψ und einen Rauschanteil ε2, wobei das Spektrum der wiederhergestellten Phase und die leistungsspektrale Dichtenfunktion des Rauschens ε2 einen ausgesprochenen NF-Charakter haben.
  • Auf diese Weise ist ersichtlich, dass bei Phasenfortsetzung, da die wiederhergestellte Phase die Integrale eines NF-Signals ist, die wiederhergestellte Phase selber ein NF-Signal ist. Das in den rekonstruierten Prozess eingeführte Rauschen ist auch in diesem NF-Bereich dominant. Deswegen ist es schwer, im Hinblick auf die Filterung des während der Codierung eingeführten Rauschens, diese Quellen zu trennen.
  • BESCHREIBUNG DER ERFINDUNG
  • Nach der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1, und ein Audiospieler nach Anspruch 2 geschaffen.
  • Nach der vorliegenden Erfindung kann in dem Decoder unter Verwendung endlicher Unterschiede, wie einer Annäherung zur Differentiation, die Frequenz aus der quantisierten Phaseninformation nahezu wiederhergestellt werden. Der Rauschanteil der wiederhergestellten Frequenz hat ein ausgesprochenes HF-Verhalten unter der Voraussetzung, dass das durch die Phasenquantisierung eingeführte Rauschen nahezu spektral flach ist. Dies ist in 2(b) dargestellt, wobei in dem Codierer und in dem Decoder die Frequenz als das Differential (D) der Phase dargestellt ist. Auch hier wird das Rauschen n in den Codierer sowie in den Decoder eingeführt, die wiederhergestellte Frequenz Ω umfasst zwei Komponenten: die wirkliche Frequenz Ω und einen Rauschanteil ε4, wobei die Frequenz nahezu ein DC-Signal ist und das Rauschen vorwiegend in dem HF-Bereich liegt. Da aber die unterliegende Frequenz ein NF-Verhalten hat und das hinzugefügte Rauschen ein HF-Verhalten aufweist, kann der Rauschanteil ε4 der wiederhergestellten Frequenz durch Tiefpassfilterung reduziert werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 einen Audiocodierer,
  • 2(a) und 2(b) die Beziehung zwischen Phase und Frequenz bei bekannten Systemen bzw. bei Audiosystemen nach der vorliegenden Erfindung,
  • 3(a) und 3(b) einen sinusoidalen Codiereranteil des Audiocodierers nach 1,
  • 4 einen Audiospieler, wobei eine Ausführungsform der vorliegenden Erfindung implementiert ist, und
  • 5(a) und 5(b) eine bevorzugte Ausführungsform eines sinusoidalen Synthesizeranteils eines Audiospielers nach 4, und
  • 6 ein System mit einem Audiocodierer und einem Audiospieler nach der vorliegenden Erfindung.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • Bevorzugte Ausführungsformen der vorliegenden Erfindung werden nachstehend anhand der beiliegenden Zeichnung beschrieben, wobei ähnliche Elemente mit entsprechenden Bezugszeichen angegeben sind und, wenn nicht anders erwähnt, eine ähnliche Funktion erfüllen. Der Codierer 1 ist ein sinusoidaler Codierer von dem in der PCT Patentanmeldung Nr. WO 01/69593 , 1 beschriebenen Typ. Die Wirkungsweise dieses bekannten Codierers und des entsprechenden Decoders ist durchaus beschrieben worden und an dieser Stelle wird eine Beschreibung nur dort gegeben, wo dies für die vorliegende Erfindung relevant ist.
  • Der Audiocodierer 1 tastet ein Eingangsaudiosignal mit einer bestimmten Abtastfrequenz ab, was zu einer digitalen Darstellung x(t) des Audiosignals führt. Der Codierer 1 teilt danach das abgetastete Eingangssignal in drei Anteile auf: Übergangssignalanteile, angehaltene deterministische Anteile und angehaltene stochastische Anteile. Der Audiocodierer 1 umfasst einen Übergangscodierer 11, einen sinusoidalen Codierer 13 und einen Rauschcodierer 14.
  • Der Übergangscodierer 11 umfasst einen Übergangsdetektor (TD) 110, einen Übergangsanalysator (TA) 111 und einen Übergangssynthesizer (TS) 112. Zunächst tritt das Signal x(t) in den Übergangsdetektor 110 ein. Dieser Detektor 110 schätzt, ob es einen Übergangssignalanteil gibt sowie dessen Lage. Diese Information wird dem Übergangsanalysator 111 zugeführt. Wenn die Position eines Übergangssignalanteils ermittelt wird, versucht der Übergangsanalysator 111 den Übergangssignalanteil (oder den Hauptteil desselben) zu extrahieren. Er bringt eine Formfunktion in Übereinstimmung mit einem Signalsegment, vorzugsweise ausgehend von einer geschätzten Startposition, und ermittelt Inhalt unterhalb der Formfunktion, beispielsweise durch Benutzung einer (geringen) Anzahl sinusoidaler Anteile. Diese Information befindet sich in dem Übergangscode CT und mehr detaillierte Information über die Erzeugung des Übergangscodes CT wird in der PCT Patentanmeldung Nr. WO 01/69593 gegeben.
  • Der Übergangscode CT wird dem Übergangssynthesizer 112 zugeführt. Der synthetisierte Übergangssignalanteil wird in dem Subtrahierer 16 von dem Eingangssignal x(t) subtrahiert, was zu einem Signal x1 führt. Zum Erzeugen von x2 aus x1 wird ein Verstärkungssteuermechanismus GC (12) verwendet.
  • Das Signal x2 wird dem sinusoidalen Codierer 13 zugeführt, wo es in einem sinusoidalen Analysator (SA) 130 analysiert wird, der die (deterministischen) sinusoidalen Anteile ermittelt. Es dürfte deswegen einleuchten, dass während das Vorhandensein des Übergangsanalysators erwünscht ist, dies nicht notwendig ist und die vorliegende Erfindung kann auch ohne einen derartigen Analysator implementiert werden. Auf alternative Weise, wie oben erwähnt, kann die vorliegende Erfindung auch mit beispielsweise einem harmonischen komplexen Analysator implementiert werden.
  • Kurz gesagt, der sinusoidale Codierer codiert das Eingangssignal x2 als Spuren sinusoidaler Anteile, die von dem einen Framesegment zu dem anderen gekoppelt werden. In 3(a) wird auf dieselbe Art und Weise jedes Segment des Eingangssignals x2 in einer Fourier Transformationseinheit (FT) 40 in die Frequenzdomäne transformiert. Für jedes Segment schafft die FT-Einheit gemessene Amplituden A, Phasen Φ und Frequenzen ω. Wie oben erwähnt, wird der Bereich der durch die Fourier Transformation gelieferten Phasen auf –π ≤ Φ < π beschränkt. Eine Tracking-Algorithmuseinheit (TA) 42 nimmt die Information für jedes Segment und koppelt durch Anwendung einer geeigneten Kostenfunktion Sinuskurven von dem einen Segment zu dem nächsten, wodurch auf diese Weise eine Folge gemessener Phasen Φ(k) und Frequenzen ω(k) für jede Spur erzeugt wird.
  • Im Gegensatz zu dem Stand der Technik umfassen nach der vorliegenden Erfindung die sinusoidalen Codes CS, die schlussendlich von dem Analysator 130 gebildet sind, Phaseninformation und die Frequenz wird aus dieser Information in dem Decoder rekonstruiert.
  • Wie oben aber erwähnt, wird die gemessene Phase auf eine modulo 2π Darstellung beschränkt. Dazu umfasst der Analysator in dem Codierer 1 einen Phasenauswickler (PU) 44, wo die modulo 2π Phasendarstellung ausgewickelt wird, um das strukturelle Interframeverhalten für eine Spur ψ zu zeigen. Da die Frequenz in sinusoidalen Spuren nahezu konstant ist, dürfte es einleuchten, dass die ausgewickelte Phase ψ typischerweise eine lineare Zunahmenfunktion (oder Abnahmenfunktion) ist und dies mach eine preisgünstige Übertragung der Phase möglich. Die ausgewickelte Phase ψ wird als Eingangssignal einem Phasencodierer (PE) 46 zugeführt, der als Ausgang Darstellungspegel r liefert, geeignet. um übertragen zu werden.
  • In Bezug auf die Wirkungsweise des Phasenauswicklers 44, wie oben erwähnt, gibt es zwischen der wirklichen Phase ψ und der wirklichen Frequenz Ω für eine Spur die nachfolgende Beziehung:
    Figure 00060001
    wobei T0 ein Bezugszeitpunkt ist.
  • Eine sinusoidale Spur in Frames k = K, K + 1, ... K + L – 1 hat gemessene Frequenzen ω(k) (ausgedrückt in Bogenmaßen/Sekunde) und gemessene Phasen Φ(k) (ausgedrückt in Bogenmaßen). Der Abstand zwischen der Mitte der Frames wird gegeben durch U (Aktualisierungsrate, ausgedrückt in Sekunden). Die gemessenen Frequenzen sollen als Abtastwerte der vorausgesetzten unterliegenden kontinuierlichen Zeitfrequenzspur Ω betrachtet werden, mit ω(k) = Ω(kU) und auf gleiche Weise sind die gemessenen Phasen Abtastwerte der assoziierten kontinuierlichen Zeitphasenspur ψ mit Φ(k) = ψ(kU)mod(2π). Zur sinusoidalen Codierung wird vorausgesetzt, dass Ω eine nahezu konstante Funktion ist.
  • Wenn vorausgesetzt wird, dass die Frequenzen innerhalb eines Segmentes nahezu konstant sind, kann die Gleichung 1 wie folgt angenähert werden:
    Figure 00060002
  • Deswegen ist es ersichtlich, dass es, wenn die Phase und die Frequenz für ein bestimmtes Segment und die Frequenz des nächsten Segmentes bekannt sind, möglich ist, einen ausgewickelten Phasenwert für das nächste Segment zu schätzen, usw. für jedes Segment in einer Spur.
  • In der bevorzugten Ausführungsform bestimmt der Phasenauswickler einen Auswickelfaktor m(k) zu dem Zeitpunkt k: ψ(kU) = ϕ(k) + m(k)2π Gleichung 3
  • Der Auswickelfaktor m(k) teilt dem Phasenauswickler 44 die Anzahl Zyklen mit, die hinzugefügt werden sollen um die ausgewickelte Phase zu erhalten.
  • Durch eine Kombination der Gleichungen 2 und 3 bestimmt der Auswickler einen inkrementalen Auswickelfaktor e wie folgt: 2πe(k) = 2π{m(k) – m(k – 1)} = {ω(k) + ω(k – 1)}U/2 – {ϕ(k) – ϕ(k – 1)}wobei e eine ganze Zahl sein soll. Wegen der Messung und wegen Modellfehler aber wird der inkrementale Auswickelfaktor nicht genau eine ganze Zahl sein, so dass: e(k) = round([{ω(k) + ω(k – 1)}U/2 – {ϕ(k) – ϕ(k – 1)}]/(2π))vorausgesetzt wird, dass die Modell- und Messfehler klein sind.
  • Wenn man den inkrementalen Auswickelfaktor e hat, wird der m(k) aus der Gleichung (3) als die kumulative Summe berechnet, wobei, ohne Verlust der Allgemeinheit, der Phasenauswickler in dem ersten Frame K mit m(K) = 0 startet und von m(k) und Φ(k) wird die (ausgewickelte) Phase ψ(kU) ermittelt.
  • In der Praxis werden die abgetasteten Daten ψ(kU) und Ω(kU) durch Messungsfehler verzerrt: ϕ(k) = ψ(kU) + ε1(k), ω(k) = Ω(kU) + ε2(k),wobei ε1 und ε2 die Phasen- bzw. Frequenzfehler sind. Um zu vermeiden, dass die Bestimmung des Auswickelfaktors zweideutig wird, sollen die Messungsdaten mit ausreichender Genauigkeit ermittelt werden. Auf diese Weise wird in dem Codierer 1 das Tracking derart beschränkt, dass: δ(k) = e(k) – {{ω(k) + ω(k – 1)}U/2 – {ϕ(k) – ϕ(k – 1)}]/(2π) < δ0,wobei δ der Fehler in dem Rundungsvorgang ist. Der Fehler δ wird vorwiegend durch die Fehler in ω bestimmt, und zwar durch die Multiplikation mit U. Es wird nun vorausgesetzt, dass ω aus den Maximalwerten des Absolutwertes der Fourier Transformation aus einer abgetasteten Version des Eingangssignals mit der Abtastfrequenz Fs bestimmt wird und dass die Auflösung der Fourier Transformation 2π/La ist, wobei La die Analysengröße ist. Um innerhalb der betrachteten Grenze zu bleiben haben wir:
    Figure 00070001
  • Das bedeutet, dass die Analysengröße einige male größer sein soll als die Aktualisierungsgröße, damit die Auswicklung genau ist, wenn beispielsweise vorausgesetzt wird: δ0 = 1/4, soll die Analysengröße viermal größer sein als die Aktualisierungsgröße (wobei die Fehler ε1 in der Phasenmessung vernachlässigt werden).
  • Die zweite Maßnahme, die getroffen werden kann, um Entscheidungsfehler bei dem Rundungsvorgang zu vermeiden, ist das auf passende Art und Weise Definieren von Spuren. In der Tracking-Einheit 42 werden sinusoidale Spuren typischerweise durch Betrachtung der Amplituden- und Frequenzdifferenzen definiert. Außerdem ist es auch möglich, Phaseninformation in dem Koppelkriterium zu berücksichtigen. So können wir beispielsweise den Phasenprädiktionsfehler ε als eine Differenz zwischen dem gemessenen Wert und dem vorhergesagten Wert Φ ~ definieren, und zwar entsprechend: ε = {ϕ(k) – ϕ ~(k)} mod 2πwobei der vorhergesagte Wert wie folgt genommen werden kann: ϕ ~(k) = ϕ(k – 1) + {ω(k) – ω(k – 1)}U/2
  • Auf diese Weise verbietet die Tracking-Einheit 42 Spuren, wobei ε größer ist als ein bestimmter Wert (beispielsweise ε > π/2), was zu einer eindeutigen Definition von e(k) führt.
  • Außerdem kann der Codierer die Phasen und die Frequenzen berechnen, wie diese in dem Decoder verfügbar sein werden. Wenn die Phasen oder die Frequenzen, die in dem Decoder verfügbar werden, von den Phasen und/oder Frequenzen, wie diese in dem Codierer vorhanden sind, zuviel abweichen, kann entschieden werden, eine Spur zu unterbrechen, d. h. das Ende einer Spur zu signalisieren und eine neue Spur zu starten, und zwar unter Verwendung der aktuellen Frequenz und Phase und deren gekoppelter sinusoidaler Daten.
  • Die abgetastete ausgewickelte Phase ψ(kU), erzeugt von dem Phasenauswickler (PU) 4, wird als Eingang dem Phasencodierer (PE) 46 zugeführt um den Satz mit Darstellungspegeln r zu produzieren. Techniken zur effizienten Übertragung einer im Allgemeinen monoton sich ändernden Charakteristik, wie die ausgewickelte Phase, sind bekannt. In 3(b) wird ADPCM ("Adaptive Differential Pulse Code Modulation") angewandt. Hier wird ein Prädiktor (PF) 48 verwendet um die Phase des nächsten Spursegmentes zu schätzen und die Differenz nur in dem Quantisierer (Q) 50 zu codieren. Da erwartet wird, dass ψ nahezu eine lineare Funktion ist und aus Gründen der Einfachheit wird der Prädiktor 48 als ein Filter zweiter Ordnung mit der nachfolgenden Form gewählt: y(k + 1) = 2x(k) – x(k – 1),wobei x der Eingang und y der Ausgang ist. Es dürfte aber einleuchten, dass es auch möglich ist, andere funktionelle Beziehungen zu nehmen (einschließlich Beziehungen höherer Ordnung) und adaptive (vorwärts und rückwärts) Annahmen der Filterkoeffizienten einzuschließen. In dem Phasencodierer 46 wird der Einfachheit halten ein rückwärts adaptiver Steuermechanismus (QS) 52 verwendet um den Quantisierer 50 zu steuern. Vorwärts adaptive Steuerung ist auch möglich, würde aber zusätzliche Bitrate erfordern.
  • Es dürfte einleuchten, dass Auslösung des Codierers (und des Decoders) für eine Spur damit startet, dass die Startphase Φ(0) und die Frequenz ω(0) bekannt sind. Diese werden quantisiert und durch einen einzelnen Mechanismus übertragen. Außerdem wird der Anfangsquantisierungsschritt, der in dem Quantisierungscontroller 52 des Codierers und des entsprechenden Controllers 62 in dem Decoder verwendet wird, 5(b) wird entweder übertragen oder in dem Codierer sowie Decoder auf einen bestimmten Wert gesetzt. Zum Schluss kann das Ende der Spur entweder in einem einzelnen Seitenstrom oder als ein einzigartiges Symbol in dem Bitstrom der Phasen signalisiert werden.
  • Aus dem sinusoidalen Code CS, der mit dem sinusoidalen Codierer erzeugt wird, wird der sinusoidale Signalanteil durch einen sinusoidalen Synthesizer (SS) 131 auf dieselbe Art und Weise rekonstruiert, wie für den sinusoidalen Synthesizer (SS) 32 des Decoders beschrieben worden ist. Dieses Signal wird in dem Subtrahierer 17 von dem Eingangssignal x2 zu dem sinusoidalen Codierer 13 subtrahiert, was zu einem Restsignal x3 führt. Das Restsignal x3, das von dem sinusoidalen Codierer 13 erzeugt wird, wird dem Rauschanalysator 14 des Codierers 1 zugeführt, der einen Rauschcode CN erzeugt, der für dieses Rauschen repräsentativ ist, wie in beispielsweise PCT Patentanmeldung Nr. PCT/EP00/04599 beschrieben worden ist.
  • Zum Schluss wird in einem Multiplexer 15 ein Audiostrom AS gebildet, der die Codes CT, CS und CN umfasst. Der Audiostrom AS wird beispielsweise einem Datenbus, einem Antennensystem, einem Speichermedium usw. Zugeführt.
  • 4 zeigt einen Audiospieler 3, geeignet zum Decodieren eines Audiostroms AS', beispielsweise erzeugt von einem Codierer 1 aus 1, erhalten von einem Datenbus, einem Antennensystem, einem Speichermedium usw. Der Audiostrom AS' wird in einem Demultiplexer 30 zum Erhalten der Codes CT, CS und CN gedemultiplext. Diese Codes werden einem Übergangssynthesizer 31, einem sinusoidalen Synthesizer 32 bzw. einem Rauschsynthesizer 33 zugeführt. Aus dem Übergangscode TT werden die Übergangssignalanteile in dem Übergangssynthesizer 31 berechnet. In dem Fall, dass der Übergangscode eine Formfunktion angibt, wird die Form auf Basis der empfangenen Parameter berechnet. Weiterhin wird der Forminhalt auf Basis der Frequenzen und Amplituden der sinusoidalen Anteile berechnet. Wenn der Übergangscode CT einen Schritt angibt, wird kein Übergang berechnet. Das gesamte Übergangssignal yT ist eine Summe aller Übergänge.
  • Der sinusoidale Code CS, der die Information enthält, die von dem Analysator 130 codiert wurde, wird von dem sinusoidalen Synthesizer 32 zum Erzeugen des Signals yS verwendet. In den 5(a) und 5(b) umfasst der sinusoidale Synthesizer 32 einen Phasendecoder (PD) 56, der mit dem Phasencodierer 46 kompatibel ist. Hier erzeugt ein Dequantisierer (DQ) 60 im Zusammenhang mit einem Prädiktionsfilter zweiter Ordnung (PF) 64 eine ausgewickelte Phase ψ ^ (oder eine Schätzung davon), und zwar aus: den Darstellungspegeln r; der Anfangsinformation Φ ^(0), ω ^(0), die dem Prädiktionsfilter (PF) 64 zugeführt wird, und dem Anfangsquantisierungsschritt für den Quantisierungscontroller (QC) 62.
  • Wie in 2(b) dargestellt, kann die Frequenz aus der ausgewickelten Phase ψ ^ durch Differenzierung wiederhergestellt werden. Wenn vorausgesetzt wird, dass der Phasenfehler bei dem Decoder nahezu weiß ist und da Differentiation die hohen Frequenzen verstärkt, kann die Differentiation mit einem Tiefpassfilter kombiniert werden um das Rauschen zu reduzieren und folglich zum Erhalten einer genauen Schätzung der Frequenz bei dem Decoder.
  • In der bevorzugten Ausführungsform nähert eine Filtereinheit (FR) 58 der Differentiation, die notwendig ist zum Erhalten der Frequenz ω ^ aus der ausgewickelten Phase durch Prozeduren wie vorwärts, rückwärts oder zentrale Differenzen, an. Dies ermöglicht es, dass der Decoder als Ausgang die Phasen ψ ^ und Frequenzen ω ^ erzeugt, die auf eine herkömmliche Art und Weise zum Synthetisieren des sinusoidalen Anteils des codierten Signals verwendet werden können.
  • Gleichzeitig wird, da die sinusoidalen Anteile des Signals synthetisiert werden, der Rauschcode CN einem Rauschsynthesizer NS 33 zugeführt, der vorwiegend ein Filter ist, das eine Frequenzkurve nahezu dem Spektrum des Rauschen entsprechend, aufweist. Das NS 33 erzeugt rekonstruiertes Rauschen yN durch Filterung eines weißen Rauschsignals mit dem Rauschcode CN. Das gesamte Signal y(t) umfasst die Summe des Übergangssignals yT und das Produkt aus einer Amplitudendekompression (g) und der Summe des sinusoidalen Signals yS und dem Rauschsignal yN. Der Audiospieler umfasst zwei Addierer 36 und 37 zum Summieren der betreffenden Signale. Das Gesamtsignal wird einer Ausgangseinheit 35 zugeführt, die beispielsweise ein Lautsprecher ist.
  • 6 zeigt ein Audiosystem nach der vorliegenden Erfindung mit einem Audiocodierer 1, wie in 1 dargestellt, und einem Audiospieler 3, wie in 4 dargestellt. Ein derartiges System bietet Abspiel- und Aufzeichnungselemente. Der Audiostrom AS wird von dem Audiocodierer aus dem Audiospieler über einen Kommunikationskanal 2, der eine drahtlose Verbindung sein kann, einem Datenbus oder einem Speichermedium zugeführt, wobei das Speichermedium in dem System fest sein kann oder auch eine entfernbare Disk, ein Memory Stick usw. sein kann. Der Kommunikationskanal 2 kann ein Teil des Audiosystems sein, wird aber oft außerhalb des Audiosystems liegen.

Claims (3)

  1. Verfahren zum Decodieren eines Audiostroms, wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Auslesen eines codierten Audiostroms (AS') mit sinusoidalen Codes (r), die eine Phase (ψ) für jede Spur gekoppelter sinusoidaler Anteile darstellen, – das für jede Spur Erzeugen (56) eines im Allgemeinen monoton sich ändernden Wertes (ψ ^) aus den genannten Codes (r), der die genannte Phase darstellt, – das Filtern (58) des genannten erzeugten Wertes zum Schaffen einer Schätzung der Frequenz (ω ^) für eine Spur; und – das Benutzen (32) der genannten erzeugten Werte und der genannten Frequenzschätzungen zum Synthetisieren der genannten sinusoidalen Anteile des genannten Audiosignals.
  2. Audiospieler (3), der die nachfolgenden Elemente umfasst: – Mittel zum Auslesen eines codierten Audiostroms (AS') mit sinusoidalen Codes (r), die eine Phase (ψ) für jede Spur der gekoppelten sinusoidalen Anteile darstellen, – einen Phasenauswickler (56) um für jede Spur einen im Allgemeinen sich ändernden Wert (ψ ^) aus den genannten Codes (r) zu erzeugen, der die genannte Phase darstellt; – ein Filter (58) zum Filtern des genannten erzeugten Wertes zum Schaffen einer Schätzung der Frequenz (ω ^) für eine Spur; und – einen Synthesizer (32), vorgesehen zum benutzen der genannten erzeugten Werte und der genannten Frequenzschätzungen zum Synthetisieren der genannten sinusoidalen Anteile des genannten Audiosignals.
  3. Audiosystem mit einem Audiocodierer (1) und einem Audiospieler (3) nach Anspruch 2.
DE60318102T 2002-11-29 2003-11-06 Audiodekodierung Expired - Lifetime DE60318102T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02080002 2002-11-29
EP02080002 2002-11-29
PCT/IB2003/005019 WO2004051627A1 (en) 2002-11-29 2003-11-06 Audio coding

Publications (2)

Publication Number Publication Date
DE60318102D1 DE60318102D1 (de) 2008-01-24
DE60318102T2 true DE60318102T2 (de) 2008-11-27

Family

ID=32405734

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60318102T Expired - Lifetime DE60318102T2 (de) 2002-11-29 2003-11-06 Audiodekodierung

Country Status (14)

Country Link
US (1) US7664633B2 (de)
EP (1) EP1568012B1 (de)
JP (1) JP4606171B2 (de)
KR (1) KR101016995B1 (de)
CN (1) CN100559467C (de)
AT (1) ATE381092T1 (de)
AU (1) AU2003274617A1 (de)
BR (1) BR0316663A (de)
DE (1) DE60318102T2 (de)
ES (1) ES2298568T3 (de)
MX (1) MXPA05005601A (de)
PL (1) PL376861A1 (de)
RU (1) RU2353980C2 (de)
WO (1) WO2004051627A1 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
ES2337903T3 (es) 2003-10-13 2010-04-30 Koninklijke Philips Electronics N.V. Codificacion de audio.
JP2009500669A (ja) * 2005-07-06 2009-01-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリック・マルチチャンネル復号化
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR101080421B1 (ko) * 2007-03-16 2011-11-04 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
KR101410229B1 (ko) * 2007-08-20 2014-06-23 삼성전자주식회사 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치
KR101425354B1 (ko) * 2007-08-28 2014-08-06 삼성전자주식회사 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
SG10202107800UA (en) 2010-07-19 2021-09-29 Dolby Int Ab Processing of audio signals during high frequency reconstruction
JP5752324B2 (ja) * 2011-07-07 2015-07-22 ニュアンス コミュニケーションズ, インコーポレイテッド 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
PL232466B1 (pl) 2015-01-19 2019-06-28 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
US10847172B2 (en) 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4151471A (en) * 1977-11-04 1979-04-24 Burns Richard C System for reducing noise transients
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
CA1332982C (en) * 1987-04-02 1994-11-08 Robert J. Mcauley Coding of acoustic waveforms
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5119397A (en) * 1990-04-26 1992-06-02 Telefonaktiebolaget L M Ericsson Combined analog and digital cellular telephone system having a secondary set of control channels
RU2131169C1 (ru) * 1993-06-30 1999-05-27 Сони Корпорейшн Устройство кодирования сигнала, устройство декодирования сигнала, носитель записи и способ кодирования и декодирования
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5893057A (en) * 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US5796842A (en) * 1996-06-07 1998-08-18 That Corporation BTSC encoder
DE69702261T2 (de) * 1996-07-30 2001-01-25 British Telecommunications P.L.C., London Sprachkodierung
US6269338B1 (en) * 1996-10-10 2001-07-31 U.S. Philips Corporation Data compression and expansion of an audio signal
US7295752B1 (en) * 1997-08-14 2007-11-13 Virage, Inc. Video cataloger system with audio track extraction
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
KR100780561B1 (ko) 2000-03-15 2007-11-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 라게르 함수를 이용한 오디오 코딩 장치 및 방법
JP5485488B2 (ja) * 2000-06-20 2014-05-07 コーニンクレッカ フィリップス エヌ ヴェ 正弦波符号化
KR20020084199A (ko) * 2001-01-16 2002-11-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 엔코딩에서 신호 성분들의 링킹
JP2004518163A (ja) * 2001-01-16 2004-06-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ又は音声信号のパラメトリック符号化
DE60142800D1 (de) * 2001-03-28 2010-09-23 Mitsubishi Electric Corp Rauschunterdrücker
US7184951B2 (en) * 2002-02-15 2007-02-27 Radiodetection Limted Methods and systems for generating phase-derivative sound
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
TWI253625B (en) * 2004-04-06 2006-04-21 I-Shun Huang Signal-processing system and method thereof

Also Published As

Publication number Publication date
DE60318102D1 (de) 2008-01-24
MXPA05005601A (es) 2005-07-26
EP1568012B1 (de) 2007-12-12
PL376861A1 (pl) 2006-01-09
US20060036431A1 (en) 2006-02-16
AU2003274617A1 (en) 2004-06-23
JP4606171B2 (ja) 2011-01-05
RU2005120380A (ru) 2006-01-20
AU2003274617A8 (en) 2004-06-23
EP1568012A1 (de) 2005-08-31
ATE381092T1 (de) 2007-12-15
ES2298568T3 (es) 2008-05-16
BR0316663A (pt) 2005-10-11
JP2006508394A (ja) 2006-03-09
US7664633B2 (en) 2010-02-16
KR101016995B1 (ko) 2011-02-28
KR20050086871A (ko) 2005-08-30
WO2004051627A1 (en) 2004-06-17
CN100559467C (zh) 2009-11-11
RU2353980C2 (ru) 2009-04-27
CN1717719A (zh) 2006-01-04

Similar Documents

Publication Publication Date Title
DE60318102T2 (de) Audiodekodierung
DE602005005083T2 (de) Interpolation und signalisierung von parametern zur räumlichen rekonstruktion für mehrkanalige kodierung und dekodierung von audioquellen
DE602004003610T2 (de) Halbrätiger Vocoder
DE69429499T2 (de) Verfahren und vorrichtung zum kodieren oder dekodieren von signalen und aufzeichnungsmedium
DE60012198T2 (de) Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung
DE69624383T2 (de) Verfahren zum kodieren und dekodieren von audiosignalen
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE602005002256T2 (de) Auf mehrfachparametrisierung basierende mehrkanalrekonstruktion
DE69737489T2 (de) Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60316396T2 (de) Interoperable Sprachkodierung
DE602004002390T2 (de) Audiocodierung
EP3693963B1 (de) Simultanes rauschenformen in zeit- und frequenzbereich für tdac-trasnformationen
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
DE69810361T2 (de) Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
DE4320990A1 (de) Verfahren zur Redundanzreduktion
WO2000068934A1 (de) Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals
WO1999004506A1 (de) Verfahren zum codieren eines audiosignals
EP1514263B1 (de) Audiocodierungssystem, das eigenschaften eines decodierten signals zur anpassung synthetisierter spektralkomponenten verwendet
DE602004007550T2 (de) Verbesserte frequenzbereichs-fehlerverbergung
DE60206269T2 (de) Editieren von audiosignalen
DE102006051673A1 (de) Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition