[go: up one dir, main page]

DE60311334T2 - Verfahren und Vorrichtung zur Kodierung und Dekodierung eines digitalen Informationssignals - Google Patents

Verfahren und Vorrichtung zur Kodierung und Dekodierung eines digitalen Informationssignals Download PDF

Info

Publication number
DE60311334T2
DE60311334T2 DE60311334T DE60311334T DE60311334T2 DE 60311334 T2 DE60311334 T2 DE 60311334T2 DE 60311334 T DE60311334 T DE 60311334T DE 60311334 T DE60311334 T DE 60311334T DE 60311334 T2 DE60311334 T2 DE 60311334T2
Authority
DE
Germany
Prior art keywords
information signal
digital information
samples
total length
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60311334T
Other languages
English (en)
Other versions
DE60311334D1 (de
Inventor
Ernst F. Schröder
Johannes Böhm
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Application granted granted Critical
Publication of DE60311334D1 publication Critical patent/DE60311334D1/de
Publication of DE60311334T2 publication Critical patent/DE60311334T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Bit-Raten-Verminderung beim Kodieren und Dekodieren von Informationen, insbesondere von digitalen Audiosignalen.
  • Hintergrund
  • Die digitale Darstellung von analogen Audiosignalen hat eine Zeitstruktur, die ihren Ursprung im Abtastprozess hat. Im PCM-Format dargestellte digitale Audiosignale bestehen aus einer Sequenz von Werten, bei denen die Abstände zwischen den Werten der Abtastfrequenz entsprechen. Dieser Abstand ist das kürzeste Element des Signals, durch das das Signal im Zeitbereich definiert werden kann. Digitale Signale können eine Länge haben, die ein ganzzahliges Vielfaches nur dieses Zeitelements ist.
  • WO-A-02/17302 offenbart die Übertragung von auf Blöcken beruhenden kodierten Audiodaten in Datenrahmen, die eine feste Größe haben. In jedem Datenrahmen zeigt eine Nutzdaten-Längeninformation an, welcher Teil des Abschnitts mit den Dateninformationen fester Größe mit kodierten Audioinformationen besetzt ist, wobei der Rest des Dateninformations-Abschnitts mit Füllinformationen gefüllt wird.
  • Erfindung
  • Kodierer und Dekodierer, die die Bit-Rate eines digitalen Audiosignals vermindern (wie MPEG1/2/4-Audio, Dolby Digital AC-3, mp3, ATRAC, Windows Media Audio WMA oder Real Audio) arbeiten üblicherweise mit Kurzzeit-Frequenzbereichs-Darstellungen des Signals. Um das Signal in diesem Bereich umzuwandeln, wird eine typische Zahl – z.B. 128, 256, 512, 1024 und 1152 – von Signalelementen zusammengruppiert – als Rahmen oder Blöcke bezeichnet – und danach in den Frequenzbereich transformiert. Bei Kodieren eines Signals mit beliebiger Länge verwirft ein üblicher Audiokodierer entweder einen gewissen Teil des Audiosignals an seinem Ende oder füllt das Audiosignal mit einer Anzahl von nullwertigen Abtastungen (Füll-Bits) auf. Im Ergebnis kann die Länge – d.h. die Quantität von Abtastungen oder Koeffizienten – irgendeines kodierten oder dekodierten Audiosignals ein Vielfaches nur eines weiteren Vielfachen des oben erwähnten Anfangs-Zeitelements sein, d.h. ein Vielfaches der Rahmen- oder Blocklänge, das von dem Kodierungs- oder Dekodierungsprozess benötigt wird. Daher haben kodierte/dekodierte digitale Audiosignale kaum dieselbe Länge wie das ursprüngliche Audiosignal. Dieser Längenunterschied kann sehr störend sein, wenn Audiosignale bearbeitet oder mit genauem Timing kombiniert werden sollen.
  • Eine von der Erfindung zu lösende Aufgabe besteht darin, ein auf Blöcken beruhendes kodiertes/dekodiertes Audiosignal vorzusehen, das die ursprüngliche beliebige Länge oder Menge von Abtastwerten hat, um ein genaues Schneiden und Kleben (cutting and splicing) zu ermöglichen. Diese Aufgabe wird durch die in den Ansprüchen 1 und 4 offenbarten Verfahren gelöst. Vorrichtungen, die diese Verfahren verwenden, sind in den Ansprüchen 8 und 9 offenbart. Ein entsprechendes Speichermedium ist im Anspruch 11 offenbart.
  • Gemäß der Erfindung werden Informationen über die genaue Länge des ursprünglichen Signals zusammen mit der kodierten Audioinformation beim Senden oder beim Aufzeichnen auf ein oder Wiedergeben von einem Speichermedium übertragen. Diese Längenwert-Information ist während des Kodierungsprozesses verfügbar und wird in den kodierten Audio-Bitstrom eingefügt. Die Einfügung erfolgt unter Verwendung von zum Bei spiel des zusätzlichen Datenfeldes, das in der MPEG Audio Norm ISO/IEC 11172-3 definiert ist. Diese Längeninformation kann verschiedene Formen haben:
    • – absolute Zahl von Audio-Abtastungen des Programms oder der Spur oder der Kodiereinheit;
    • – Zahl von Audiorahmen des Programms oder der Spur oder der Kodiereinheit, und Zahl von Abtastungen in dem letzten Rahmen;
    • – Zahl der beim Beginn und/oder am Ende des Programms oder der Spur oder der Kodiereinheit abzuschneidenden Abtastungen.
  • Außerdem kann ein Informationswert übertragen werden, der die gesamte Kodierer- und/oder Dekodierer-Verzögerung darstellt.
  • Der Dekodierer kann diese Informationselemente herausziehen und die Länge und den Anfang des dekodierten Signals durch Abschneiden von Abtastungen am Anfang und/oder Ende des Programms oder der Spur oder des Ausgangs der Dekodiereinheit einstellen.
  • Die Erfindung erlaubt die Dekodierung eines Audio- oder eines anderen Informationssignals mit einer Länge, die genau an die ursprüngliche Länge des Audio- oder Informationssignals angepasst ist, wodurch eine exakte Bearbeitung (cutting and splicing) des Audio- oder Informationssignals möglich ist.
  • Im Prinzip wird das erfindungsgemäße Kodierverfahren bei einem digitalen Informationssignal – z.B. einem Audiosignal – angewendet, das eine beliebige Zahl von ursprünglichen Abtastwerten für ein spezifisches Programm oder eine spezifische Spur und somit eine beliebige Länge hat, wobei die Kodieroperation auf auf die Abtastwerte bezogenen Wertblöcken beruht, die jeweils mehrere Werte enthalten, wobei das kodierte digitale Informationssignal als Kode ausgegeben wird, der bei entsprechender Dekodierung ein dekodiertes digitales Informationssignal darstellt, das eine Gesamtlänge von mehreren Einheiten hat, die der Länge oder den Längen der Wertblöcke entspricht, und wobei Daten, die die Zahl von ursprünglichen Abtastwerten mit beliebiger Länge darstellen, wenigstens einen Rahmen des kodierten digitalen Informationssignal-Ausgangs-Kodes, z.B. den letzten oder vorletzten Rahmen des kodierten digitalen Informationssignals ergänzen oder wiederholt in dem kodierten digitalen Ausgangssignal angeordnet werden.
  • Im Prinzip wird das erfindungsgemäße Dekodierverfahren bei einem kodierten digitalen Informationssignal – z.B. einem Audiosignal – angewendet, das eine beliebige Zahl von ursprünglichen Abtastwerten für ein spezifisches Programm oder eine spezifische Spur und damit eine beliebige ursprüngliche Länge hat, wobei die Dekodier-Operation auf auf die Abtastwerte bezogenen Wertblöcken beruht, die jeweils mehrere Werte enthalten, wobei das kodierte digitale Informationssignal als ein Kode eingegeben wird, der nach der Dekodierung ein dekodiertes digitales Informationssignal darstellt, das eine Länge von mehreren Einheiten hat, die der Länge oder den Längen der Wertblöcke entspricht, und wobei Daten, die die ursprüngliche Zahl von Abtastwerten mit beliebiger Länge darstellen und Rahmen des kodierten digitalen Informationssignal-Eingangs-Kodes, z.B. der letzte oder vorletzte Rahmen des kodierten digitalen Informationssignals ergänzen oder die wiederholt in dem kodierten digitalen Informationssignal angeordnet sind, verwendet werden, um die auf der Blockeinheit beruhende Gesamtlänge des dekodierten digitalen Informationssignals auf die beliebige ursprüngliche Länge zu begrenzen.
  • Im Prinzip enthält die erfindungsgemäße Vorrichtung zur Kodierung eines digitalen Informationssignals – zum Beispiel eines Audiosignals – das eine beliebige Zahl von ursprünglichen Abtastwerten für ein spezifisches Programm oder eine spezifische Spur und damit eine beliebige Länge hat, wobei die Wertblöcke jeweils mehrere Werte enthalten:
    • – Mittel zum Kodieren des digitalen Informationssignals, wobei die Kodieroperation auf auf die Abtastwerte bezogenen Wertblöcken beruht, und die das kodierte digitale Ausgangssignal als einen Kode ausgeben, der bei entsprechender Dekodierung ein dekodiertes digitales Informationssignal darstellt, das eine gesamte Länge von mehreren Einheiten hat, die der Länge oder den Längen der Wertblöcke entspricht;
    • – Mittel zur Lieferung von Daten, die die Zahl der ursprünglichen Abtastwerte mit beliebiger Länge darstellen;
    • – Mittel zum Ergänzen wenigstens eines Rahmens des kodierten digitalen Informationssignal-Ausgangs-Kodes mit den Daten, die die Zahl der ursprünglichen Abtastwerte mit beliebiger Länge darstellen, z.B. den letzten oder vorletzten Rahmen des kodierten digitalen Informationssignals;
    • – oder Mittel, um in dem kodierten digitalen Informationssignal die Daten wiederholt anzuordnen, die die Zahl der ursprünglichen Abtastwerte mit beliebiger Länge darstellen.
  • Im Prinzip enthält die erfindungsgemäße Vorrichtung zur Dekodierung eines kodierten digitalen Informationssignals – z.B. eines Audiosignals – das eine beliebige Zahl von ur sprünglichen Abtastwerten für ein spezifisches Programm oder eine spezifische Spur und somit eine beliebige ursprüngliche Länge hat:
    • – Mittel zum Dekodieren des kodierten digitalen Informationssignals auf der Basis von auf die Abtastwerte bezogenen Wertblöcken, die jeweils mehrere Werte enthalten, wobei das kodierte digitale Informationssignal als Kode eingegeben wird, der nach Dekodierung ein dekodiertes digitales Informationssignal darstellt, das eine Länge von mehreren Einheiten hat, die der Länge oder den Längen der Wertblöcke entspricht;
    • – Mittel, um aus Rahmen des kodierten digitalen Informationssignal-Kodes, z.B. aus dem letzten oder vorletzten Rahmen des kodierten digitalen Informationssignals Daten herauszuziehen, die die ursprüngliche Zahl von Abtastwerten mit beliebiger Länge darstellen;
    • – Mittel zum Versehen der Mittel zum Dekodieren mit Informationen, die von der Zahl der Daten mit beliebiger Länge abgeleitet sind, um die auf der Blockeinheit beruhende Gesamtlänge des dekodierten digitalen Informationssignals auf die beliebige ursprüngliche Länge zu begrenzen.
  • Vorteilhafte weitere Ausführungsformen der Erfindung sind in den entsprechenden Unteransprüchen offenbart.
  • Zeichnungen
  • Ausführungsbeispiele der Erfindung werden nachfolgend unter Bezugnahme auf die beigefügten Zeichnungen beschrieben. In den Zeichnungen stellen dar:
  • 1 ein ursprüngliches Audiosignal mit einer Länge von n Abtastwerden;
  • 2 das Audiosignal am Ausgang des Dekodierers einschließlich der n Abtastwerte, der Kodierer/Dekodierer-Verzögerung und der Füllinformationen;
  • 3 einen erfindungsgemäßen Kodierer und Dekodierer.
  • Ausführungsbeispiele
  • Bei der Studio-Ton- oder Audio-Verarbeitung werden die verfügbaren analogen Audiosignale (z.B. am Ausgang von Mikrophonverstärkern) in digitale Signale umgewandelt, wobei die Prinzipien von Abtastung und Quantisierung angewendet werden. „Abtastung" bedeutet, dass Signalamplituden-Werte in regelmäßigen Intervallen genommen werden. Der reziproke Wert der zeitlichen Intervalle ist die Abtastrate. Gemäß dem Nyquist- oder Abtast-Theorem kann der ursprüngliche Inhalt der abgetasteten Signale fehlerfrei wiedergewonnen werden, wenn sie maximale Frequenzen bis hinauf zu nur der halben Abtastrate enthalten. Übliche Abtastraren, die bei der Audioverarbeitung verwendet werden, sind zum Beispiel 44,1 kHz oder 48 kHz, die Abtastintervallen oder Takten von 22,67 μs bzw. 20,83 μs entsprechen. „Quantisierung" bedeutet, dass eine verminderte Quantität von Amplitudenwerten den grundsätzlichen fein aufgelösten Signalabtast-Wert gemäß einer Quantisierungs-Charakteristik zugeordnet werden. Dabei wird die Auflösung der Amplitudenwerte begrenzt, und der irreversible Verlust von Informations-Einzelheiten in den entsprechend inversen quantisierten Werten kann nicht vermieden werden. Zum Beispiel erstreckt sich ein 16-Bit-Amplituden-Wertbereich von –32768 bis +32767 und wird auch als 16-Bit-Quantisierung oder 16-Bit-PCM (Impuls-Kode-Modulation) bezeichnet. Ein Zweikanal-Audiosignal, das mit einer Abtastfrequenz von 44,1 kHz abgetastet und mit 16 Bits quantisiert wurde, führt dazu, dass 1411200 Bits pro Sekunde verarbeitet werden müssen. 16 Bits entsprechen 2 Bytes, ein Wert, der leicht in üblichen Computern oder Mikroprozessoren gehandhabt werden kann. Wegen der auf Bytes beruhenden Verarbeitung und der relativ hohen Abtastfrequenz und somit hoher zeitlicher Auflösung, kann Schneide- und Einfügungs-Verarbeitung bei der Bearbeitung solcher digitalen Audiosignale ohne Probleme durchgeführt werden.
  • Der Nachteil der zu verarbeitenden hohen Datenmengen ist ersichtlich, wenn solche Signale übertragen und gespeichert werden. Daher werden die oben erwähnten datenvermindernden Verfahren angewendet, die eine Unterdrückung von redundanten als auch von irrelevanten Signalkomponenten auf der Basis von psycho-akustischen Gesetzen ausführen. Es können Datenverminderungs-Faktoren von 10 oder mehr erreicht werden.
  • Der Datenverminderungseffekt wird wirksamer erreicht, wenn die Signale in dem Frequenzbereich dargestellt und verarbeitet werden, in den entweder durch Kurzzeit-Frequenz-Transformation (z.B. schnelle Kurzzeit-Fourier-Transformation FFT) oder durch Mehrfrequenzband-Filterung, Unterband-Filterung genannt, eingetreten wird. Das Ergebnis beider Arten von Operationen ist eine Darstellung des Audiosignals als zeitliche Sequenz kurzer Zeitspektren. In dem Dekodierer wird eine entsprechende inverse Transformation bzw. inverse Unterband-Filterung ausgeführt, um in den Zeitbereich zurückzukehren. Die Transformation wird wegen rechnerischer Vereinfachung üblicherweise bei Eingangs-Abtastblöcken ausgeführt, die Längen haben, die voll oder teilweise einer integralen Potenz von '2' entsprechen, z.B. den oben erwähnten Werten 128, 256, 512, 1024 oder 1152. Die meisten Datenverminderungs-Kodierer- und Dekodierertypen arbeiten ferner mit Blöcken, die sich im zeitlichen Bereich überlappen. Bei Verwendung von sich überlappenden Blöcken sind die gesamt möglichen Längenwerte ein integrales Vielfaches eines Abschnitts der Blocklänge, z.B. ein integrales Vielfaches einer halben Blocklänge.
  • Bei Sub-Band-Kodierern wird eine Aufspaltung in zum Beispiel 32 Frequenzbänder ausgeführt, und es werden ebenso Blöcke von Abtastwerten gebildet. Z.B. verwenden MPWG-Audio-Layer3-(mp3)-Kodecs eine Blocklänge von 1152 Abtastwerten, was einer Zeitdauer von 24 ms bei einer Abtastrate von 48 kHz entspricht.
  • Die resultierenden kodierten Signaldarstellungen werden in entsprechenden Rahmen gemäß den genormten Regeln angeordnet, wobei die Rahmen stark signalabhängige binäre Signale enthalten. Diese Rahmen enthalten üblicherweise Abschnitte mit wichtiger Steuerinformation (z.B. Datenpaket-Header-Informationen mit Seiteninformationen) und Abschnitte mit weniger wichtigen, jedoch stark signaladaptiven Frequenzkoeffizienten-Informationen, die als 'Hauptinformationen' bezeichnet werden. Da die Menge der zu übertragenden Informationen sich stark in Abhängigkeit von der Audiosignal-Charakteristik ändert und praktisch niemals die Kapazität der Rahmen voll ausfüllt, können die Rahmen auch Teile enthalten, die keine standardisierten nützlichen Informationen darstellen. Diese Teile werden zum Beispiel als 'Zusatzdaten' bezeichnet und können frei für verschiedene Zwecke verwendet werden. Eine Aufgabe des Kodierers besteht daher in der Steuerung der Kodierung, so dass die Menge der kodierten Daten gerade in die Rahmen passt, d.h. die gegebene maximale Datenrate nicht überschreitet, aber von ihr vollen Gebrauch macht. Dies wird hauptsächlich durch Einstellung der Kodierqualität erreicht, z.B. der Grobheit der Quantisierung. Der Kodierer kann so gesteuert werden, dass eine gewünschte Menge der gesamten Datenrate für Zusatzdaten gehalten wird. Bei der Dekodierung (nach Speicherung oder Übertragung) findet die entsprechende inverse Verarbeitung der Rahmen/Blöcke statt.
  • Bei Anwendung der obigen Kodierungs/Dekodierungsprinzipien ergeben sich zwei Probleme, die stark insbesondere die Verwendung des dekodierten Tonsignals für die Bearbeitung begrenzen:
    • a) aufgrund der auf Blöcken beruhenden kurzen Zeittransformations-Verarbeitung oder des Gebrauchs von Filtern zur Aufspaltung des Signals in Frequenzbänder wird eine Verzögerung des dekodierten Audiosignals eingeführt. Bei einem Audiosignal, das aus einem einzigen Abtastwert so zum zeitlichen Augenblick to besteht, erscheint nach dem Kodieren und Dekodieren am Dekodiererausgang ein Signal, das ebenfalls aus einem individuellen Abtastwert so besteht, jedoch befindet sich dieser Abtastwert nicht mehr beim zeitlichen Augenblick to, sondern um einige hundert Abtasttakte verschoben. Solche Kodierverzögerung ist einerseits abhängig von dem Typ der verwendeten Sub-Band-Filter- oder Transformationslänge und hängt andererseits von dem Aufbau der Kodiererschaltung oder Software ab. Zum Beispiel erfordern Kodierer eine bestimmte Vorverarbeitungszeit, bevor sie in der Lage sind, adaptive Prozesse wie die Quantisierungs-Schrittgröße genau einzustellen.
    • b) Neben der Kodierer- und/oder Dekodierer-Verzögerung führt die auf Blöcken beruhende Verarbeitung zu Gesamtlängen-Werten der dekodierten Audiosignale, die ein integrales Vielfaches der verwendeten Blocklänge sind und somit nicht der ursprünglichen Gesamtlänge entsprechen.
  • Wenn die oben beschriebenen Kodierverfahren in kontinuierlich arbeitenden Übertragungsschaltungen verwendet werden, z.B. beim Senden oder in Mikrowellenverbindungen zwischen Sendestudios führen die Basisverzögerung und die Blockstruktur zu keinem ernsthaften Problem. Wenn jedoch die Audiosignale in kodierter Form auf Datenträgern mit bestimmten Datenlängen (als 'Dateien') gespeichert werden, sind beide Probleme beim Schneiden und Bearbeiten der Audiosignale besonders ungünstig. Im Gegensatz zu den bei PCM-Audiosignalen verfügbaren kurzen Schneide/Bearbeitungs-Zeiteinheiten von etwa 20 μs sind hier nur Zeiteinheiten vorhanden, die etwa 500 oder 1000 mal länger sind. Dadurch können die üblichen Schneide- und Bearbeitungsprozesse nur in begrenzter Weise ausgeführt werden.
  • Zur Lösung dieser Probleme sollte Folgendes bekannt sein:
    • – die konstruktionsbedingte Basisverzögerung der Kombination von Kodierer und Dekodierer;
    • – die Gesamtlänge des Audioprogramms oder der Spur beim Eingang des Kosierers, z.B. die Zahl von Abtastungen in einer PCM-Datei, die das Audiosignal darstellt.
  • Gemäß der erfindungsgemäßen Lösung werden der Basisverzögerungswert und der Gesamtlängenwert dem Dekodierer signalisiert. Diese Signalisierung kann durch beliebige Mittel ausgeführt werden, z.B. in einer getrennten Datei oder einem getrennten Kanal, vorzugsweise jedoch zusammen mit den kodierten Daten in demselben Datenstrom oder derselben Datendatei, z.B. als 'Zusatzdaten' oder zusätzliche Header- Daten. Der Dekodierer ist so ausgelegt, dass er am Anfang der Dekodierung eine bestimmte Zahl (die dem obigen Basisverzögerungswert entspricht) von Abtastungen in der üblichen Weise berechnet, aber diese Abtastungen nicht ausgibt. Ferner ist der Dekodierer so ausgelegt, dass er zunächst das Audiosignal am Ende des Programms oder der Spur in der üblichen Weise berechnet, aber danach das Ausgangs-Audiosignal in seiner Gesamtlänge entsprechend der übertragenen Information auf den Gesamtlängenwert begrenzt wird.
  • Vorteilhafterweise erfolgt die Übertragung der zusätzlichen Informationen, d.h. des Basisverzögerungs-Wertes und des Gesamtlängen-Wertes innerhalb des zusätzlichen Datenbereichs. Gegebenenfalls muss der Kodierer so gesteuert werden, dass er für die zusätzliche Information genug Datenkapazität reserviert.
  • Vorteilhafterweise wird die Information über die Basisverzögerung in dem ersten Rahmen oder in einem der ersten Rahmen übertragen. Ratsam ist ihre Übertragung als eine Menge von Abtastungen, die am Anfang entfernt werden müssen. Die wiederholte Übertragung dieser Information kann ebenfalls von Vorteil sein.
  • Die Information über den Gesamtlängen-Wert kann in verschiedener Weise und an verschiedenen Orten innerhalb des Datenstroms oder der Datei gesendet werden, z.B. als eine Menge von Abtastungen, die aus dem anfänglich berechneten Ende entfernt werden sollen, oder als eine Menge von relevanten Abtastungen innerhalb des letzten Datenrahmens, oder als eine absolute Menge von Abtastungen für die Gesamtlänge. Diese Information kann in dem ersten Rahmen oder in einem der ersten Rahmen oder innerhalb eines späteren Rahmens übertragen werden, z.B. dem letzten oder zweitletzten Rah men. Die wiederholte Übertragung dieser Information kann ebenfalls von Vorteil sein.
  • Vorteilhafterweise geht dem Basisverzögerungs-Wert und/oder dem Gesamtlängen-Wert ein Identifikations-Datenschema voraus, oder wird dadurch ausgelöst, und es erfolgt ein Schutz durch Fehlerschutzdaten, z.B. ein CRC-Check.
  • In 1 ist ein Audiosignal dargestellt, das eine Länge von N Abtastungen hat, wobei N eine ganze Zahl ist.
  • In 2 hat der Audiosignal-Ausgang des Dekodierers eine Länge von (ENCDECD + N + STI) Abtastungen, wobei ENCDECD die Basis-Kodierer plus Dekodierer-Verzögerung, STI die Füllinformation (z.B. eine Zahl von Null-Amplituden-Abtastungen), und (N + STI) gleich (m·Blocklänge) ist, wobei m eine ganze Zahl ist, d.h. ein Vielfaches der Block- oder Rahmenlänge, auf der die Verarbeitung in dem Audiokodierer oder -dekodierer beruht. Die End-Start- und End-Zeit-Augenblicke des dekodierten Audiosignals werden von dem Basis-Kodierer- und -Dekodierer-Verarbeitungs-Verzögerungswert und von dem Gesamtlängen-Wert abgeleitet, wobei die Füllabtastungen oder Bits (entsprechend STI) am Ende des Datenstroms oder der Spur und die Abtastungen, die der Verarbeitungs-Verzögerung ENCDECD entsprechen, am Beginn des Datenstroms oder der Spur verworfen werden.
  • Der linke Teil von 3 zeigt einen erfindungsgemäßen Kodierer, der ein ursprüngliches Audiosignal empfängt, das in einer entsprechenden Kodierer-Fenstertechnik-Stufe EW im Zeitbereich gefenstert (windowed) oder Sub-Band-gefiltert wird und anschließend unter Verwendung von Datenverminderung in einer Kodiererstufe ENC kodiert wird. Von der Stufe ENC oder alternativ von der Stufe EW oder im Bitstrom- Formatierer BSF wird eine Gesamtlängen-Information einem Längen-Informations-Kodierer LIC zugeführt, dessen Ausgangssignal mit dem Frequenzbereichs-Ausgangssignal der Stufe ENC im Bitstrom-Formatierer BSF kombiniert wird. Außerdem kann ein Basiskodierer-Verzögerungswert dem Bitstrom in dem Bitstrom-Formatierer BSF hinzugefügt werden. Der rechte Teil von 3 zeigt einen erfindungsgemäßen Dekodierer, der ein kodiertes Audiosignal empfängt, das einen Gesamtlängen-Informationswert oder zusätzlich einen Basis-Kodierer-Verzögerungswert enthält. Wenn die Basis-Kodierer-Verzögerung fest und bekannt ist, kann sie zur Abschätzung in den Dekodierer selbst eingegeben werden. Der Bitstrom Deformatierer BSD extrahiert und liefert den empfangenen Gesamtlängen-Informationswert an einen Längen-Informations-Abschätzer LIE, der die erforderliche Gesamtlängen-Information – wahlweise zusammen mit der Basis-Kodierer-Verzögerungsinformation oder zusätzlich zu der Basis-Dekodierer-Verzägerungsinformation – an eine Dekodierer-Fenstertechnik-Stufe DW und/oder an eine Dekodierer-Stufe DEC liefert. Alternativ kann die Basis-Kodierer-Verzögerungsinformation oder die Basis-Dekodierer-Verzögerungsinformation von jeder anderen Quelle DW und/oder DEC zugeführt werden. Die Stufe DEC führt die Haupt-Dekodieroperationen für den von der Stufe BSD empfangenen Audiosignal-Kode aus. Das Zeitbereichs-Ausgangssignal der Stufe DEC wird danach entsprechend zu der Kodierer-Fenstertechnik der Stufe EW gefenstert. Im Falle einer Sub-Band-Kodierung/Dekodierung verwandelt das Synthesefilter DW das Audiosignal aus dem Frequenzbereich zurück in den Zeitbereich. Zwischen den Stufen BSF und BSD wird eine Aufzeichnungseinheit oder ein Sende- oder Kabel-Übertragungskanal durchlaufen.
  • Anstatt eines digitalen Audiosignals kann jedes andere Informationssignal verarbeitet werden, z.B. ein digitales Videosignal.

Claims (11)

  1. Verfahren zum Kodieren (EW, ENC, BSF) eines digitalen Informationssignals (ODIS), das eine beliebige Gesamtzahl von ursprünglichen Abtastwerten für ein spezifisches Programm oder eine spezifische Spur hat, wobei die beliebige Zahl von ursprünglichen Abtastwerten einer beliebigen Gesamtlänge (N) des Signals entspricht, wobei die Kodieroperation (EW, ENC) auf auf die Abtastwerte bezogenen Wertblöcken beruht, die jeweils mehrere Werte enthalten und eine Blocklänge darstellen, wobei das kodierte digitale Informationssignal (EDIS) als ein Kode ausgegeben wird, der bei entsprechender Dekodierung ein dekodiertes digitales Informationssignal (DDIS) mit einer Gedamtlänge (N, STI) darstellt, die mehreren Einheiten der Blocklänge entspricht, wobei Datenelemente (LIC), die die beliebige Gesamtlängenzahl (N) der ursprünglichen Abtastwerte darstellen, wenigstens einen Rahmen des kodierten digitalen Informationssignal-Ausgangs-Kodes ergänzen oder wiederholt in dem kodierten digitalen Informationssignal angeordnet werden, und wobei die Datenelemente (LIC), die die beliebige Gesamtlängenzahl darstellen, zum Verwerfen von Füll-Abtastwerten (STI) am Ende des dekodierten digitalen Informationssignals (DDIS) dienen, so dass der dekodierte digitale Informationssignal-Ausgang die beliebige Gesamtlänge hat.
  2. Verfahren nach Anspruch 1, bei dem zusätzlich Daten, die eine von der Kodieroperation verursachte Basisverzögerung (ENCDECD) darstellen, Rahmen des kodierten digitalen Informationssignal-Ausgangs-Kodes ergänzen.
  3. Verfahren nach Anspruch 1, bei dem die Datenelemente (LIC), die die beliebige Gesamtlängenzahl darstellen, oder Verfahren nach Anspruch 2, bei dem die Daten, die eine von der Kodieroperation verursachte Basisverzögerung (ENCDECD) darstellen, in zusätzlichen Teilen der Rahmen angeordnet werden.
  4. Verfahren zum Dekodieren (BSD, DEC, DW) eines kodierten digitalen Informationssignals (EDIS), das eine beliebige Gesamtzahl von ursprünglichen Abtastwerten für ein spezifisches Programm oder eine spezifische Spur hatte, wobei die beliebige Zahl von ursprünglichen Abtastwerten einer beliebigen Gesamtlänge (N) des Signals entspricht, wobei die Dekodierungsoperation (DEC, DW) auf auf die Abtastwerte bezogenen Wertblöcken beruht, die jeweils mehrere Werte enthalten und eine Blocklänge darstellen, wobei das kodierte digitale Informationssignal (EDIS) als ein Kode eingegeben wird, der nach dem Dekodieren ein dekodiertes digitales Informationssignal (DDIS) darstellt, das eine Gesamtlänge (N, STI) hat, die den mehreren Einheiten der Blocklänge entspricht, und wobei Datenelemente (LIE), die die beliebige Gesamtlängenzahl (N) der ursprünglichen Abtastwerte darstellen und wenigstens einen Rahmen des kodierten digitalen Informationssignal-Eingangs-Kode ergänzen, oder wiederholt in dem kodierten digitalen Informationssignal angeordnet werden, zum Verwerfen von Füll-Abtastwerten (STI) am Ende des dekodierten digitalen Informationssignals (DDIS) verwendet werden, so dass der dekodierte digitale Informationssignal-Ausgang die beliebige Gesamtlänge hat.
  5. Verfahren nach Anspruch 4, bei dem zusätzlich eine Basis-Kodiererverzögerung (ENCDECD) darstellende Daten, die Rahmen des kodierten digitalen Informationssignal-Eingangs-Kodes ergänzen, zur Entfernung einer entsprechenden Zahl von Ausgangs-Abtastwerten aus dem Beginn des dekodierten digitalen Informationssignals verwendet werden.
  6. Verfahren nach Anspruch 4, bei dem die Datenelemente (LIC), die die beliebige Gesamtlängenzahl (N) darstellen, oder Verfahren nach Anspruch 5, bei dem die Daten, die die von der Kodieroperation verursachte Basisverzögerung (ENCDECD) darstellen, aus zusätzlichen Teilen der Rahmen, insbesondere in einer fehlergeschützten Weise herausgezogen werden.
  7. Verfahren nach Anspruch 5, bei dem ein Basis-Dekodierer-Verzögerungswert zusammen mit den die Basis-Kodierer-Verzögerung darstellenden Daten zur Beseitigung einer entsprechenden Zahl von Ausgangs-Abtastwerten aus dem Beginn des dekodierten digitalen Informationssignals verwendet werden.
  8. Vorrichtung zur Kodierung eines digitalen Informationssignals (ODIS), das eine beliebige Gesamtzahl von ursprünglichen Abtastwerten für ein spezifisches Programm oder eine spezifische Spur hat, wobei die beliebige Zahl von ursprünglichen Abtastwerten einer beliebigen Gesamtlänge (N) des Signals entspricht, wobei die Vorrichtung enthält: – Mittel (EW, ENC) zum Kodieren des digitalen Informationssignals, wobei die Kodieroperation auf auf die Abtastwerte bezogenen Wertblöcken beruht, die je weils mehrere Werte enthalten und eine Blocklänge darstellen, und wobei die Mittel das kodierte digitale Informationssignal (EDIS) als Kode ausgeben, der bei entsprechender Dekodierung ein dekodiertes digitales Informationssignal (EDIS) mit einer Gesamtlänge (N, STI) darstellt, die den mehreren Einheiten der Basislänge entspricht; – Mittel (LIC) zur Lieferung von Datenelementen, die die beliebige Gesamtlängenzahl (N) der ursprünglichen Abtastwerte darstellen; – Mittel (BSF) zur Ergänzung wenigstens eines Rahmens des kodierten digitalen Informationssignal-Ausgangs-Kodes mit den die beliebige Gesamtlängenzahl darstellenden Datenelemente, oder zur Anordnung der die beliebigen Gesamtlängenzahl darstellenden Datenelemente wiederholt in dem kodierten digitalen Informationssignal, wobei die die beliebige Gesamtlängenzahl darstellenden Datenelemente (LIC) dazu dienen, Füll-Abtastwerte (STI) am Ende des dekodierten digitalen Informationssignals zu verwerfen, so dass der dekodierte digitale Informationssignal-Ausgang die beliebige Gesamtlänge hat.
  9. Vorrichtung zum Dekodieren eines kodierten digitalen Informationssignals (EDIS), das eine beliebige Gesamtzahl von ursprünglichen Abtastwerten für ein spezielles Programm oder eine spezielle Spur hatte, wobei die beliebige Zahl von ursprünglichen Abtastwerten einer beliebigen Gesamtlänge (N) des Signals entspricht, wobei die Vorrichtung enthält: – Mittel (DEC, DW) zum Dekodieren des kodierten digitalen Informationssignals auf der Basis von auf die Abtastwerte bezogenen Wertblöcken, die jeweils meh rere Werte enthalten und eine Blocklänge darstellen, wobei das kodierte digitale Informationssignal (EDIS) als ein Kode eingegeben wird, der nach der Dekodierung ein dekodiertes digitales Informationssignal (DDIS) mit einer Gesamtlänge (N, STI) darstellt, die den mehreren Einheiten der Blocklänge entspricht; – Mittel (BSD) zum Herausziehen von Daten aus wenigstens einem Rahmen des kodierten digitalen Informationssignal-Kodes oder wiederholt in dem kodierten digitalen Informationssignal enthalten sind, die die beliebige Gesamtlängenzahl (N) der ursprünglichen Abtastwerte darstellen; – Mittel (LIE) zum Versehen der Mittel (DW, DEC) zum Dekodieren mit Informationen, die von der beliebigen Gesamtlängenzahl (N) abgeleitet sind, um Füll-Abtastwerte (STI) am Ende des dekodierten digitalen Informationssignals (DDIS) zu verwerfen, so dass der dekodierte digitale Informationssignal-Ausgang die beliebige Gesamtlänge hat.
  10. Vorrichtung nach Anspruch 9, bei der die die beliebige Gesamtlängenzahl (N) darstellenden Daten und Daten, die eine von der Kodieroperation verursachte Basisverzögerung darstellen, von Zusatzteilen der Rahmen herausgezogen werden.
  11. Speichermedium, insbesondere eine optische Platte oder eine Festplatte, die eine Sequenz von digitalen Informationssignal-Daten, die gemäß dem Verfahren von Anspruch 1 kodiert sind, enthält oder auf der eine solche Sequenz aufgezeichnet ist.
DE60311334T 2002-03-01 2003-02-17 Verfahren und Vorrichtung zur Kodierung und Dekodierung eines digitalen Informationssignals Expired - Lifetime DE60311334T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02090083A EP1341160A1 (de) 2002-03-01 2002-03-01 Verfahren und Vorrichtung zur Kodierung und Dekodierung eines digitalen Informationssignals
EP02090083 2002-03-01

Publications (2)

Publication Number Publication Date
DE60311334D1 DE60311334D1 (de) 2007-03-15
DE60311334T2 true DE60311334T2 (de) 2007-08-30

Family

ID=27675734

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60311334T Expired - Lifetime DE60311334T2 (de) 2002-03-01 2003-02-17 Verfahren und Vorrichtung zur Kodierung und Dekodierung eines digitalen Informationssignals

Country Status (7)

Country Link
US (1) US6903664B2 (de)
EP (1) EP1341160A1 (de)
JP (1) JP4588297B2 (de)
KR (1) KR100955014B1 (de)
CN (1) CN100594680C (de)
DE (1) DE60311334T2 (de)
TW (1) TW594675B (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4988717B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
WO2006126843A2 (en) 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
WO2007004831A1 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
WO2007032646A1 (en) 2005-09-14 2007-03-22 Lg Electronics Inc. Method and apparatus for decoding an audio signal
KR100953645B1 (ko) 2006-01-19 2010-04-20 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
EP1974343A4 (de) 2006-01-19 2011-05-04 Lg Electronics Inc Verfahren und anordnung zum dekodieren eines signals
JP2009526264A (ja) 2006-02-07 2009-07-16 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
ES2391117T3 (es) 2006-02-23 2012-11-21 Lg Electronics Inc. Método y aparato para procesar una señal de audio
US8626515B2 (en) 2006-03-30 2014-01-07 Lg Electronics Inc. Apparatus for processing media signal and method thereof
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
US8190441B2 (en) * 2006-09-11 2012-05-29 Apple Inc. Playback of compressed media files without quantization gaps
CN102768836B (zh) 2006-09-29 2014-11-05 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
KR101218801B1 (ko) * 2009-12-21 2013-01-18 주식회사 인코렙 미디어 편집 장치, 미디어 편집 서비스 제공 방법, 및 이에 사용되는 웹서버
US8676570B2 (en) 2010-04-26 2014-03-18 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to perform audio watermark decoding
US9300694B2 (en) 2011-01-11 2016-03-29 INHA—Industry Partnership Institute Audio signal quality measurement in mobile device
US9164724B2 (en) 2011-08-26 2015-10-20 Dts Llc Audio adjustment system
CN105637584B (zh) * 2013-09-12 2020-03-03 杜比国际公司 基于qmf的处理数据的时间对齐
CN115514685B (zh) * 2022-09-14 2024-02-09 上海兰鹤航空科技有限公司 Arinc664终端基于传输表模式的延迟分析方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8402445A (nl) * 1984-01-20 1985-08-16 Philips Nv Werkwijze voor het coderen van n-bits informatiewoorden naar m-bits codewoorden, inrichting voor het uitvoeren van die werkwijze, werkwijze voor het decoderen van m-bits codewoorden naar n-bits informatiewoorden en inrichting voor het uitvoeren van die werkwijze.
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
JP3591011B2 (ja) * 1994-11-04 2004-11-17 ソニー株式会社 ディジタル信号処理装置
US5905768A (en) * 1994-12-13 1999-05-18 Lsi Logic Corporation MPEG audio synchronization system using subframe skip and repeat
US5844600A (en) * 1995-09-15 1998-12-01 General Datacomm, Inc. Methods, apparatus, and systems for transporting multimedia conference data streams through a transport network
US5790057A (en) * 1996-08-12 1998-08-04 Lanart Corporation Method of and system for the efficient encoding of data
JPH1174868A (ja) * 1996-09-02 1999-03-16 Toshiba Corp 情報伝送方法およびその方法が適用される情報伝送システムにおける符号化装置/復号化装置、並びに符号化・多重化装置/復号化・逆多重化装置
JP3954762B2 (ja) * 1999-09-09 2007-08-08 松下電器産業株式会社 音楽データ情報伝送方法及び音楽データ情報伝送装置
JP2002149196A (ja) * 2000-08-25 2002-05-24 Matsushita Electric Ind Co Ltd 信号送信装置および信号送信方法
US6931371B2 (en) * 2000-08-25 2005-08-16 Matsushita Electric Industrial Co., Ltd. Digital interface device

Also Published As

Publication number Publication date
EP1341160A1 (de) 2003-09-03
TW594675B (en) 2004-06-21
CN100594680C (zh) 2010-03-17
TW200304117A (en) 2003-09-16
KR100955014B1 (ko) 2010-04-27
CN1442956A (zh) 2003-09-17
US20030167165A1 (en) 2003-09-04
US6903664B2 (en) 2005-06-07
KR20030071622A (ko) 2003-09-06
JP4588297B2 (ja) 2010-11-24
DE60311334D1 (de) 2007-03-15
JP2003308098A (ja) 2003-10-31

Similar Documents

Publication Publication Date Title
DE60311334T2 (de) Verfahren und Vorrichtung zur Kodierung und Dekodierung eines digitalen Informationssignals
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE60000412T2 (de) Datenrahmen strukturierung für adaptive blocklängenkodierung
DE60117471T2 (de) Breitband-signalübertragungssystem
DE69432012T2 (de) Wahrnehmungsgebundene Kodierung von Audiosignalen
DE19921122C1 (de) Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
DE19730129C2 (de) Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
DE69014422T2 (de) Digitales Übertragungssystem, Sender und Empfänger zur Verwendung im Übertragungssystem und Aufzeichnungsträger, der aus dem Sender in Form einer Aufzeichnungseinrichtung erhalten wird.
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE102004009954B4 (de) Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
DE69927505T2 (de) Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom
DE19736669C1 (de) Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
EP2240929B1 (de) Vorrichtung und verfahren zum synchronisieren von mehrkanalerweiterungsdaten mit einem audiosignal und zum verarbeiten des audiosignals
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
DE69835990T2 (de) Audio-Codierer/-decodierer hoher Qualität
EP2240928A1 (de) Vorrichtung und verfahren zum berechnen eines fingerabdrucks eines audiosignals, vorrichtung und verfahren zum synchronisieren und vorrichtung und verfahren zum charakterisieren eines testaudiosignals
DE60300500T2 (de) Signalisierung von Fensterschaltungen in einem MPEG Layer 3 Audio Datenstrom
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
DE602004009926T2 (de) Vorrichtung und verfahren zum einbetten eines wasserzeichens unter verwendung von subbandfilterung
WO2006114368A1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
DE69220885T2 (de) Verfahren zur Dekodierung eines Audiosignals in welchem eine andere Information unter Verwendung des Verdeckungseffektes eingefügt wurde
EP1277346A1 (de) Device and method for the analysis of a decoded time signal
DE69803457T2 (de) Audiokodierer
DE4209382C1 (de)

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition