DE69225100T2

DE69225100T2 - Reduzierung der Zusaztinformation bei Teilbandkodierungsverfahren

Info

Publication number: DE69225100T2
Application number: DE69225100T
Authority: DE
Inventors: Kenzo Akagiri
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1991-03-29
Filing date: 1992-02-28
Publication date: 1998-08-06
Anticipated expiration: 2012-02-29
Also published as: CS92692A3; EP0531538A4; KR100312664B1; HUT63278A; WO1992017942A1; NO924552D0; RU2090973C1; FI925400A7; DE69225100D1; ATE165198T1; EP0531538B1; AU654533B2; AU1338392A; NO924552L; BR9204799A; DK0531538T3; US5311561A; CN1065565A; HU213592B; CA2083709A1

Description

Die Erfindung betriftt ein effizientes Codierverfahren oder -vorrichtung für ein Digitalaudiosignal ausgebildet zur Ausführung einer Codierung eines Eingangsdigitalsignals.
Bei einer effizienten Codierung von Audiosignalen oder Tonsignalen, usw. ist eine Codiertechnologie basierend auf einer Bitzuordnung zur Aufteilung des Audio- oder Tonsignais in Signalkomponenten mehrerer Kanäle auf Zeitbasis oder Frequenzbasis und zur adaptiven Zuordnung der Anzahl der Bits eines jeweiligen Kanals bekannt. Als Codiertechnologie basierend auf der erwähnten Bitzuordnung beispielsweise eines Audiosignals usw. sind Codiertechnologien wie eine Bandaufieilungscodierung (Subbandcodierung: SBC) zur Aufteilung eines Audiosignal usw. auf Zeitbasis in Signalkomponenten mehrerer Frequenzbänder zur Ausführung von deren Codierung, eine adaptive Transformationscodierung (ATC) zur Transformierung (Orthogonaltransformierung) eines Signals auf Zeitbasis in ein Signal auf Frequenzbasis zur Aufteilung desselben in Signalkomponenten mehrerer Frequenzbänder zur adaptiven Ausffihrung einer Codierung des jeweiligen Frequenzbandes, eine sogenannte adaptive Bitzuordnung (APC-AB)-Codierung, bei der die SBC und die sogenannte adaptive Voraussagecodierung (APC) kombiniert werden, um ein Signal auf Zeitbasis in Signalkomponenten in Frequenzbändern aufzuteilen, um die Signalkomponenten in den jeweiligen Bändern anschließend in solche in Basisbänder (Niedngfrequenzbänder) umzuwandeln, um eine lineare Vorhersageanalyse mehrerer Ordnungen auszuführen, um eine Vorhersagecodierung und dergleichen auszuführen, bekannt.
Bei der oben erwähnten effizienten Codierung wird ein Ansatz verwendet, um ein Audiosignal usw. auf Zeitbasis in dasjenige auf der Basis (Frequenzbasis) orthogonal zu der Zeitbasis durch Orthogonaltransformation, z.B. Fast-Fourier-Transformation (FFT) oder DCT usw. fur jede festgelegte Zeiteinheit zu transformieren und anschließend das Signal auf Frequenzbasis in Signalkomponenten mehrerer Bänder aufzuteilen, um die Koeffizientendaten in den jeweiligen aufgeteilten Bändern durch adaptive Bitzuordnung zu codieren. Diese codierten Daten werden übertragen.
Währenddessen wird bei der Codierung von Koeffizientendaten jedes entsprechenden Bandes durch die oben erwähnte adaptive Bitzuordnung ein Ansatz häufig benutzt, Koeffizientendaten auf Frequenzbasis beispielsweise blockweise aufzuteilen, um die sogenannte Block-Floating-Verarbeitung jedes Blocks zu implementieren, um eine weitere Bitkomprimierung durchzufuhren. Aus diesem Grund wird als Konfiguration für die anschließende Decodierung eine Systemkonfiguration eingesetzt, so daß die der Bandaufteilung und Block-Floating-Verarbeitung jedes Blockes unterworfenen Koeffizientendaten und die Subinformation bestehend aus den Floating-Koeffizienten jedes jeweiligen Blockes und den Floating-Koeffizienten zugehörige Wortlängeninformation und die Anzahl der jedes der jeweiligen Blöcke zugeordneten Bits übertragen wird.
Jedoch ist es bei der oben erwähnten effizienten Codierung wünschenswert, die Komprimierungseffizienz weiter zu erhöhen.
Unter Berücksichtigung der oben beschriebenen tatsächlichen Umstände wurde diese Erfindung vorgeschlagen, deren Aufgabe es ist, ein Codierverfahren für ein Digitalsignal vorzuschlagen, das in der Lage ist, eine höhergradige Bitkomprimierung auszuführen.
Ein erfindungsgemäßes Codierverfahren für ein Digitalsignal wurde vorgeschlagen, um die oben beschriebene Aufgabe zu lösen und sie ist gerichtet auf ein Codierverfahren für ein Digitalsignal, ausgebildet zur orthogonalen Transformierung eines Eingangsdigitalsignals zur Aufteilung des orthogonal transformierten Signals in Signalkomponenten in kritschen Frequenzbändern, um die Signalkomponenten in den jeweiligen kritischen Frequenzbändern durch die Anzahl der Bits entsprechender Pegel zu codieren, die die Differenzen zwischen zulässigen Rauschpegeln jedes kritischen Bandes, die auf Basis der Energien jedes kritischen Bandes und der Energien jedes entsprechenden kritischen Bandes gewählt sind, angeben, und um die orthongonal transformierten Signalkomponenten in diejenigen jedes Blockes aufzuteilen, um eine Block-Floating-Verarbeitung jedes Blocks auszuführen, um die Floating-Koeffizienten jedes Blocks zu übertragen.
So wird im Falle der Ausführung der Block-Floating-Verarbeitung jedes kleinen Blocks, dessen Bandbreite schmaler ist als diejenige des kritischen Bandes, Information betreffend den zulässigen Rauschpegeln anstelle der Floating-Koeffizienten jedes kritischen Bandes übertragen, und die Information der Wortlängen entsprechend der Anzahl der jedem der kleinen Blöcke zugeordneter Bits wird übertragen.
Ferner wird in dem Fall, wenn die Block-Floating-Verarbeitung für jeden großen Block ausgeflihrt wird, dessen Bandbreite breiter ist als diejenige des kritischen Bandes, Information betreffend die Floating-Koeffizienten jedes großen Blockes übertragen und Information der Wortlängen entsprechend der Anzahl der jedem kritischen Band zugewiesener Bits wird übertragen.
Ferner wird in dem Fall, wenn die Block-Floating-Verarbeitung jedes kleinen Blockes ausgeführt wird, dessen Bandbreite kleiner ist als diejenige des kritischen Bandes, Wortlängeninformation entsprechend der Anzahl eines kleinen Blockes der kleinen Blöcke in den jeweiligen kritischen Bändern zugeordneten Bits übertragen. Andererseits kann im Falle der Ausführung der Block-Floating-Verarbeitung jedes großen Blockes, dessen Bandbreite breiter ist als diejenige des kritischen Bandes, Wortlängeninformation in einem kritischen Band der kritischen Bänder in dem großen Block und Information bezüglich der zulässigen Rauschpegel in den entsprechenden kritischen Bändern übertragen werden.
Weiterhin kann anstelle der Übertragung von Information betreffend die Floating- Koeffizienten jedes kritischen Bandes Information betreffend die zulässigen Rauschpegel übertragen werden, von denen jeder von einem Signalpegelbereich in dem kritischen Band um einen festgelegten Pegel in Richtung eines niedrigeren Pegels verschoben ist.
Hier ist es bei der Bestimmung der Anzahl der zugeordneten Bits wünschenswert, einen Ansatz zu verwenden, die sogenannte Maskierungsgröße von Energien jedes entsprechenden kritischen Bandes unter Berücksichtigung der Hörempfindungscharakteristik des Menschen zu bestimmen, um die Anzahl der zugeordneten Bits jedes jeweiligen kritischen Bandes unter Verwendung der erlaubten Pegel basierend auf der Maskierungsgröße zu bestimmen.
Erfindungsgemäß wird im Falle der Ausführung der Floating-Verarbeitung jedes kleinen Blockes, dessen Bandbreite schmaler ist als diejenige des kritischen Bandes ein Ansatz verwendet, anstelle der Floating-Koeffizienten jedes zugehörigen kritischen Bandes Information bezüglich der zulässigen Rauschpegel jedes kritischen Bandes und Wortlängeninformation der jeweiligen kleinen Blöcke zu übertragen und es dadurch zu ermöglichen, die Anzahl der Bits für die Floating-Koeffizienten zu verringern. Ferner wird im Falle der Ausführung der Block-Floating-Verarbeitung jedes großen Blockes, dessen Bandbreite breiter als diejenige des kritischen Bandes ist, ein Ansatz verwendet, Information bezüglich der Floating-Koeffizienten jedes großen Blockes zu übertragen und es so zu ermöglichen, die Anzahl der übertragenen Bits zu verringern.
Ferner wird im Falle der Ausführung der Floating-Verarbeitung jedes kleinen Blockes, dessen Bandbreite schmaler ist als diejenige des kritischen Bandes, ein Ansatz eingesetzt, Wortlängeninformation eines kleinen Blockes der kleinen Blöcke in den jeweiligen kritischen Bändern zu übertragen und es so zu ermöglichen, die Anzahl der Wortlängeninformation zu verringern. Entsprechend kann eine Bitkomprimierung höheren Grades ausgeführt werden.
Zusätzlich wird im Falle der Ausführung der Floating-Verarbeitung jedes kleinen Blockes, dessen Bandbreite schmaler ist als diejenige des kritischen Bandes, ein Ansatz verwendet, Information der Wortlängen entsprechend der Anzahl der jedem kleinen Block zugewiesener Bits zu übertragen und anstelle der Floating-Koeffizienten jedes kritischen Bandes Information betreffend die zulässigen Rauschpegel zu übertragen, deren Bestimmungsbereich von einem Signalpegelbereich in den kritischen Bändern um einen festgelegten Pegel in Richtung geringerer Pegel verschoben ist, wodurch es ermöglicht wird, die Anzahl der Bits zur Übertragung der Information betreffend die zulässigen Rauschpegel zu verringern. Entsprechend kann eine Bitkomprimierung höheren Grades ausgeführt werden.
In den Zeichnungen ist
Fig. 1A eine Ansicht zur Erläuterung des Falles, wenn eine erfindungsgemäße Floating- Verarbeitung für jeden Block ausgeflihrt wird, dessen Bandbreite kleiner ist als diejenige des kritischen Bandes;
Fig. 1B eine Ansicht zur Erläuterung des Falles, wenn eine erfindungsgemäße Floating- Verarbeitung jedes Blockes ausgeführt wird, dessen Bandbreite breiter ist als diejenige des kritischen Bandes;
Fig. 2 ein Flußdiagramm eines erfindungsgemäßen Auslührungsbeispiels;
Fig. 3 ein Schaltungsdiagramm, das in Blockform eine tatsächliche Konfiguration zur Wahl zulässigen Rauschens zeigt;
Fig. 4 eine Ansicht, die ein Bark-Spektrum zeigt;
Fig. 5 eine Ansicht, die ein Maskierungspektrum zeigt;
Fig. 6 eine Ansicht, bei der eine minimal höhrbare Kurve und ein Maskenspektrum synthetisiert werden;
Fig. 7 eine Ansicht zur Erläuterung von zulässigen Rauschpegeln, die von jeweiligen erfindungsgemäßen Blöcken übertragen werden.
Ein bevorzugtes Ausführungsbeispiel, auf welches die Erfindung angewandt wird, wird im folgenden anhand der beiliegenden Zeichnungen beschrieben.
Ein erfindungsgemäßes Codierverfahren für ein Digitalsignal betrifft ein Codierverfahren für ein Digitalsignal wie in den Fig. 1A und B gezeigt, das ausgebildet ist, ein Eingangsdigitalsignal orthogonal durch Verwendung beispielsweise einer Fast-Fourier- Transformation (FFT) oder DCT zu transformieren, das orthogonal transformierte Signal in Signalkomponenten in einem kritischen Frequenzband B (B1 bis B4) aufzuteilen, so daß, wenn sich die Frequenz zu einer Seite höherer Frequenz verschiebt, die Bandbreite unter Berücksichtigung des Hörempfindens des Menschen breiter wird, um die Signalkomponenten in den jeweiligen kritischen Bändern durch die Anzahl der Bits entsprechend Pegeln, die die Differenzen zwischen einem zulässigen Rauschpegel NL jedes kritischen Bandes angeben, der auf Basis der Energien jedes kritischen Bandes und der Energien jedes entsprechenden kritischen Bandes gewählt wird, zu codieren und die orthogonal transformierten Signalkomponenten in solche in Blöcken aufzuteilen, um die Block- Floating-Verarbeitung jeder Blöcke b zu implementieren, um Floating-Koeffizienten Fc für jeden Block b zu übertragen.
In anderen Worten wird in diesem Ausführungsbeispiel eine Verarbeitung wie in dem Flußdiagramm von Fig. 2 gezeigt ausgeführt. Zuerst werden in einem Schritt S1 die orthogonal transformierten Signalkomponenten in solche in Blöcken aufgeteilt, um eine Block-Floating-Verarbeitung aller Blöcke auszuführen, um so die Floating-Koeffizienten (Floating-Pegel) aller Blöcke zu bestimmen. Im Schritt S2 werden zulässige Rauschpegel jedes entsprechenden kritischen Bandes bestimmt, die wie später beschrieben auf Basis der Energien jedes kritischen Bandes bestimmt werden. Im Schritt S3 wird Information der Wortlängen entsprechend der Anzahl zugewiesener Bits bestimmt, die auf Basis der Pegel gewählt sind, die die Unterschiede zwischen dem zulässigen Rauschpegel jedes kritischen Bandes und Energien jedes entsprechenden kritischen Bandes angeben.
Hier in diesem Ausführungsbeispiel wird beispielsweise, wie in Fig. 1A gezeigt ist, in dem Fall der Ausführung der Block-Floating-Verarbeitung aller kleinen Blöcke (der kleinen Blöcke b1 bis b4) mit einer Bandbreite kleiner als diejenige des kritischen Bandes B, ein Ansatz verwendet, anstelle der Floating-Koeffizienten jedes kritischen Bandes B Information bezüglich eines zulässigen Rauschpegels NL und Information der Wortlängen W1 bis W4 entsprechend der Anzahl der jedem der kleinen Blöcke b1 bis b4 zugewiesener Bits zu übertragen.
Ferner wird beispielsweise, wie in Fig. 1B gezeigt ist, in dem Fall der Ausführung der Block-Floating-Verarbeitung jedes großen Blockes (großer Block b) mit einer Bandbreite breiter als diejenige der kritischen Bänder B1 bis B4, ein Ansatz verwendet, Information bezüglich der Floating-Koeffizienten jedes großen Blocks b und Information der Wortlängen W1 bis W4 entsprechend der Anzahl der jedem kritischen Band B1 bis B4 zugewiesener Bits übertragen.
Es sei erwähnt, daß in dem Beispiel von Fig. 1A ein kritisches Band B auf der Hochfrequenzbandseite einer breiten Bandbreite des kritischen Bandes extrahiert und illustriert ist. Das Beispiel von Fig. 1B zeigt die jeweiligen Bänder auf der Niederfrequenzseite einer schmalen Bandbreite. Zusätzlich sind in Fig. 1A, B, da die Pegeldifferenz zur Bestimmung der zugewiesenen Bitanzahl und der Wortlängen W1 bis W4 einander entsprechen, nur die Wortlängen W1 bis W4 der Einfachheit halber illustriert.
Ferner wird in diesem Ausführungsbeispiel wie vorher beschrieben eine Codierverarbeitung für FFT-Koeffizientendaten durch die adaptive Bitzuweisung ausgeführt. Insbesondere bestimmt die Codierverarbeitung durch adaptive Bitzuweisung in diesem Ausführungsbeispiel eine sogenannte Maskierungsgröße unter Berücksichtigung der Empfindungscharakteristik des Menschen, wie später beschrieben wird, auf der Basis der Energien jedes zugewiesenen kritischen Bandes, um die Anzahl der zugeordneten Bits entsprechend einem Pegel zu bestimmen, der eine Differenz zwischen einem zulässigen Rauschpegel, der auf Basis der Maskierungsgröße (d.h. im wesentlichen einem festen zulässigen Rauschen jedes entsprechenden kritischen Bandes) und Energien in den entsprechenden kritischen Bändern gewählt wird, um so eine Codierung in Abhängigkeit von der Anzahl der jedem entsprechenden kritischen Band zugewiesenen Bits auszuführen.
Ferner bestehen mehrere der Koeffizientendaten in den entsprechenden kritischen Bändern aus Blöcken jeweils einer festen Anzahl von Koefflzientendaten, um die sogenannte Block- Floating-Verarbeitung jedes entsprechenden Blockes zur Ausführung der Bitkomprimierung zu implementieren. Entsprechend existieren wie im Beispiel von Fig. 1A mehrere Blöcke (beispielsweise vier kleine Blöcke b1 bis b4) in einem kritischen Band B auf einer höherfrequenten Seite, d.h. der breiten Bandbreite des kritischen Bandes. Ferner existieren wie im Falle, wenn die Bandbreite schmal ist (niederfrequentes Band des kritischen Bandes) mehrere kritische Bänder (d.h. vier kritische Bänder B1 bis B4) in einem großen Block b.
Wenn währenddessen die Block-Floating-Verarbeitung auf diese Weise gewöhnlich ausgeführt wird, sind die Floating-Koeffizienten für die Floating-Verarbeitung und Information über die Wortlängen entsprechend der Anzahl der zugeordneten Bitanzahl in einer später ausgeführten Decodierverarbeitung notwendig. Insbesondere ist es wie bei der Konfiguration für die anschließende Decodierung erforderlich, eine Systemkonfiguration zu verwenden, um Information der Floating-Koeffizienten jedes Blockes und Information über die Wortlängen entsprechend der Zuweisung von Bitanzahlen basierend auf den Pegeldifferenzen zwischen Pegeln der Floating-Koeffizienten und zulässigen Rauschpegeln der kritischen Bänder zu übertragen. In anderen Worten wird bei der anschließenden Decodierung ein höchstwertiges Bit (MSB) in der Block-Floating-Verarbeitung aus der Information der Floating-Koeffizienten bestimmt. Entsprechend wird ein niedrigstwertiges Bit (LSB) aus der Information der Wortlänge bestimmt. So werden die zulässigen Rauschpegel bestimmt. Zusätzlich wird die Größe eines Signals aus den Koeffizientendaten (Hauptdaten) der jeweiligen Blöcke bestimmt.
Hier wird die Information der Floating-Koefflzienten gewöhnlich durch 6 Bit repräsentiert und die Information über die Wortlängen wird durch 4 Bit repräsentiert. Es sei erwähnt, daß in dem Fall, wenn die Orthogonaltransformation eine DFT (Diskret-Fourier- Transformation) ist, die oben erwähnte Wortinformation so ist, daß die Größe (Amplitude) und die Phase, oder der reelle Teil und der imaginare Teil durch 4 Bit repräsentiert sind. Aus diesem Grunde ist beispielsweise in dem Fall, wenn ein kritisches Band in eine Anzahl von Floating-Blöcken aufgeteilt wird, die Anzahl der übertragenen Bits des gesamten kritischen Bandes entsprechend der Anzahl der Blöcke (d.h. der Anzahl der Aufteilungen des Bandes) der Block-Floating-Verarbeitung wie in Tabelle 1 gezeigt. TABELLE 1
In dieser Tabelle 1 werden in dem Fall, wenn das kritische Band durch einen einzelnen Block repräsentiert ist (eine Aufteilung: die Anzahl von Aufteilungen ist 1), 10 Bit insgesamt übertragen, wovon 6 Bit für den Floating-Koeffizienten und 4 Bit für die Wortlänge sind. Ferner werden in dem Fall, wenn das kritische Band durch zwei Blöcke (zwei Aufteilungen) repräsentiert ist, insgesamt 20 Bit übertragen, 6 × 2 (= 12) Bit für den Floating-Koeffizienten und 4 × 2 (= 8) Bit für die Wortlänge. Ahnlich werden im Fall von drei Aufteilungen insgesamt 30 Bit, 6 × 3 (= 18) Bit für den Floating-Koeffizienten und 4 × 3 (= 12) Bit für die Wortlänge übertragen. Ferner werden im Fall von vier Aufteilungen (Beispiel von Fig. 1A) insgesamt 40 Bit, 6 × 4 (=24) Bit für den Floating-Koeffizienten und 4 × 4 (= 16) Bit für die Wortlänge übertragen. Wie oben beschrieben nimmt, wenn die Anzahl der Blöcke in einem einzigen kritischen Band zunimmt, die Anzahl der übertragenen Bits ebenfalls zu.
Im Gegensatz dazu wird im Beispiel von Fig. 1A des erfindungsgemäßen Ausführungsbeispiels ein Ansatz gewählt, Information des zulässigen Rauschpegels NL, der nur einmal bezüglich des kritischen Bandes B und Information der Wortlängen W1 bis W4 entsprechend der zugewiesenen Bitanzahl ohne Übertragung von Information der Floating- Koeffizienten Fc1 bis Fc4 der jeweiligen kleinen Blöcke in dem kritischen Band B zu übertragen. Wenn daher bei der folgenden Decodierverarbeitung die Information des zulässigen Rauschpegels NL des kritischen Bandes B übertragen wird, kann Information über die Floating-Koeffizienten Fc1 bis Fc4 für jeden der kleinen Blöcke b1 bis b4 auf Basis der Information über den zulässigen Rauschpegel NL und Information über die Wortlängen W1 bis W4 der jeweiligen kleinen Blöcke b1 bis b4 bestimmt werden. Aus diesem Grund wird in diesem Fall ein Schema verwendet, so daß keine Information über die Floating-Koeffizienten Fc1 bis Fc4 übertragen wird. So kann die Anzahl von Bits zur Übertragung von vier notwendigen Floating-Koeffizienten Fc1 bis Fc4 bezüglich des kritischen Bandes B verringert werden.
Hier wird der zulässige Rauschpegel NL für jedes kritische Band unter Berücksichtigung der Hörempfindungscharakteristik des Menschen bestimmt. In dem kritischen Band kann angenommen werden, daß der zulässige Rauschpegel NL im wesentlichen konstant innerhalb eines kritischen Bandes ist. Entsprechend wird ähnlich angenommen, daß der zulässige Rauschpegel NL der gleiche Pegel in den jeweiligen Blöcken b1 bis b4 innerhalb des kritischen Bandes B von Fig. 1A ist. Es sei erwähnt, daß, wenn der gesamte dynamische Bereich beispielsweise 120 dB ist und der Floating-Koeffizient durch 6 Bit repräsentiert ist, der Floating-Koeffizient eine Genauigkeit von ungefährt 2 dB hat und wenn die Wortlängeninformation durch 4 Bit repräsentiert ist, die Wortlängeninformation eine Genauigkeit von ungefähr 6 dB hat. Aus diesem Grund hat in den jeweiligen kleinen Blöcken b1 bis b4 von Fig. 1A bei der anschließenden Decodierung der zulässige Rauschpegel, der durch Information von den Floating-Koeffizienten Fc1 bis Fc4 und den Wortlängen W1 bis W4 bestimmt ist, eine Abweichung oder Verschiebung von ungefähr 2 dB, wie in Fig. 7 gezeigt ist. Jedoch fällt der zulässige Rauschpegel NL gewöhnlich innerhalb eines Bereiches von im wesentlichen +3 dB. Angesichts dessen wird bei diesem Ausführungsbeispiel ein Schema verwendet, um den zulässigen Rauschpegel NL durch eine Zwei-Stufen-Quantisierung einer Grobquantisierung gemeinsam in den kritischen Bändern und einer Feinquantisierung, die die jeweiligen kleinen Blöcke der Floating- Verarbeitung in den kritischen Blöcken haben, zu repräsentieren, um den zulässigen Rauschpegel NL als einen gemeinsamen Wert mit hoher Genauigkeit zu wählen. Insbesondere, da bei diesem Ausführungsbeispiel der zulässige Rauschpegel NL ein logischer 4-Bit-Pegel ist, wird der zulässige Rauschpegel NL, der nicht durch den 4-Bit- Logikwert definiert werden kann, durch einen 2-Bit-Logikwert repräsentiert. Entsprechend werden in diesem Ausführungsbeispiel 6 dB durch 4 geteilt, wodurch eine Genauigkeit des Rauschpegels von 1,5 dB ermöglicht wird. Wie oben erwähnt wird die Tatsache betont, daß die jeweiligen zulässigen Rauschpegel NL über mehrere kleine Blöcke im wesentlichen gleich sind, um einen Parameter hoher Genauigkeit aus den Floating-Koeffizienten und dem zulässigen Pegel auszuwählen, wodurch es möglich wird, die Anzahl der Bits zu verringern. Die Art und Weise der Verringerung der Anzahl der Bits im Beispiel von Fig. 1A ist in Tabelle 2 im Vergleich mit Tabelle 1 gezeigt. TABELLE 2
In Tabelle 2 werden in dem Fall, wenn das kritische Band B durch einen einzigen Block (eine Aufteilung) repräsentiert wird, 4 Bit für den zulässigen Rauschpegel NL und 4 Bit für die Wortlänge W übertragen. Es sei ebenfalls erwähnt, daß zu dem zulässigen Rauschpegel NL wie oben beschrieben 2 Bit zur Kompensierung einer Abweichung von 2 Bit addiert werden (4 + 2 Bit). Aus diesem Grund werden im Falle einer Aufteilung insgesamt 10 Bit übertragen. Entsprechend werden in dem Fall, wenn das kritische Band B durch zwei kleine Blöcke (zwei Aufleilungen) repräsentiert ist, insgesamt 16 Bit, 4 + 2 × 2 = 8 Bit für den zulässigen Rauschpegel und 4 × 2 = 8 Bit für die Wortlänge übertragen. Ännlich werden im Fall von drei Aufteilungen insgesamt 22 Bit, 4 + 2 × 3 = 10 Bit für den zulässigen Rauschpegel NL und 4 × 3 = 12 Bit für die Wortlänge W übertragen. Zusätzlich werden im Fall von vier Aufleilungen (im Beispiel von Fig. 1A) insgesamt 28 Bit, 4 + 2 × 4 = 12 Bit für den zulässigen Rauschpegel NL und 4 × 4 = 16 Bit für die Wortlänge übertragen. Wenn die Anzahl der in dem Beispiel von Tabelle 1 übertragenen Bits als 100 % angenommen wird und ein Vergleich mit dem Beispiel von Tabelle 2 gemacht wird, ist daher im Falle des Beispiels von Tabelle 2 die Bitanzahl gleich 100 %, was die gleiche ist, im Falle einer Aufteilung, während, wenn die Anzahl der Aufteilungen (die Anzahl der Blöcke) zunimmt, die Bitverringerungsrate so verbessert wird, daß die Anzahl von übertragenen Bits 80 % im Falle von zwei Aufleilungen, 73 % im Falle von drei Aufteilungen, und 70 % im Falle von vier Aufleilungen ist. Entsprechend wird sichtbar, daß das Verfahren gemäß diesem Ausführungsbeispiel sehr effizient ist.
Es sei auch erwähnt, daß die Quantisierung von Information der Wortlängen W1 bis W4 der Natur nach nicht adaptiv sondern gleichmäßig ist.
Ferner sind verglichen mit dem Fall, wenn die Floating-Verarbeitung für jeden kleinen Block einer Bandbreite kleiner als diejenige des kritischen Bandes wie in Fig. 1A gezeigt ausgeführt wird, in dem Fall, wenn die Block-Floating-Verarbeitung für jeden großen Block ausgeführt wird, dessen Bandbreite breiter als diejenige des kritischen Bandes ist, auch bei der anschließenden Decodierung Information über die Block-Floating- Koeffizienten für die jeweiligen kritischen Bänder und die Wortlängen, die für jedes entsprechende kritische Band bestimmt werden, gewöhnlich erforderlich. Im Gegensatz dazu wird in diesem Ausführungsbeispiel im Falle der Ausführung der Block-Floating- Verarbeitung für jeden großen Block b, dessen Bandbreite breiter ist als diejenige des kritischen Bandes, wie in Fig. 1B gezeigt, Information des Floating-Koeffizienten Fc eines großen Blockes und Information über die Wortlängen W1 bis W4, die für jedes der kritischen Bänder B1 bis B4 bestimmt wird, als Information bezüglich des Floating- Koeffizienten übertragen. Es sei erwähnt, daß Information bezüglich der zulässigen Rauschpegel NL1 bis NL4 der jeweiligen kritischen Bänder B1 bis B4 nicht übertragen wird. Insbesondere, da die Floating-Koeffizienten Fc in den jeweiligen kritischen Bändern B1 bis B4 zueinander gleich sind, ist es möglich, die zulässigen Rauschpegel NL1 bis Nt4 aus der Information eines Floating-Koeffizienten Fc und Information über die Wortlängen W1 bis W4 jedes kritischen Bandes zu bestimmen. Entsprechend ist es durch Übertragung lediglich der Information über den Floating-Koeffizienten Fc als Unterinformation und Information der jeweiligen Wortlängen W1 bis W4 möglich, die Anzahl der Bits für Subinformation im Vergleich zum herkömmlichen Fall zu verringern.
Ferner kann in dem Beispiel von Fig. 1A ein Schema verwendet werden, so daß nur Information über die Wortlänge W1 der jeweiligen Wortlängen W1 bis W4 in einem kritischen Band B übertragen wird und Information über die anderen Wortlängen W2 bis W4 nicht übertragen wird. Insbesondere wird lediglich Information über die jeweiligen Floating-Koeffizienten Fc1 bis Fc4 im kritischen Band B und Information über die Wortlänge W1 übertragen. Wenn in anderen Worten bei der folgenden Decodierverarbeitung Information über eine Wortlänge übertragen wird, ist es möglich, die Information über die verbleibenden Wortlängen W2 bis W4 auf Basis der Information über die jeweiligen Floating-Koeffizienten Fc1 bis Fc4 zu bestimmen. Wenn also der zulässige Rauschpegel NL durch den Floating-Koeffizienten Fc1 und die Wortlänge W1 bestimmt werden kann, wird es möglich, die verbleibenden Wortlängen W2 bis W4 aufgrund des zulässigen Rauschpegels NL und der Floating-Koefflzienten Fc2 bis Fc4 zu kennen. Aus diesem Grund kann ein effizientes vereinfachtes Schema verwendet werden, so daß die Information über die verbleibenden Wortlängen W2 bis W4 nicht übertragen wird. Entsprechend ist es möglich, die Anzahl der Bits zur Übertragung der Information der drei Wortlängen W2 bis W4 bezüglich des kritischen Bandes B wegzulassen.
Die Art der Verringerung der Anzahl der Bits im Beispiel von Fig. iB ist in Tabelle 3 im Vergleich mit Tabelle 1 gezeigt. TABELLE 3
Die Tabelle 3 wird erläutert unter Verwendung der Anzahl der zusammengefügten oder vereinigten kritischen Bänder in einem Block b. In dem Fall, wenn die Anzahl der zusammengefügten Bänder in einem Block b 1 ist (ein Band), werden insgesamt 10 Bit, 6 Bit Information bezüglich des Pegels des Floating-Koeffizienten Fc und 4 Bit für die Wortlänge übertragen. Entsprechend werden in dem Fall, wenn die Anzahl kritischer Bänder 2 ist (zwei Bänder), insgesamt 14 Bit, 6 Bit für den Floating-Koeffizienten Fc und 4 × 2 = 8 Bit für die Wortlänge W übertragen. Ähnlich werden im Falle von drei Bändern insgesamt 18 Bit, 6 Bit für den Floating-Koeffizienten Fc und 4 × 3 = 12 Bit für die Wortlänge W übertragen. Zusätzlich werden im Falle von vier Bändern (Beispiel von Fig. 1B) insgesamt 22 Bit, 6 Bit für den Floating-Koefflzienten Fc und 4 × 4 = 16 Bit für die Wortlänge übertragen. Wenn die Anzahl der in dem Beispiel von Tabelle 1 übertragenen Anzahl von Bits als 100 % angenommen und der Vergleich mit Tabelle 3 gemacht wird, ist im Falle des Beispiels von Tabelle 3 die Anzahl von übertragenen Bits 100 % für ein Band, was das gleiche wie im Falle des Beispiels von Tabelle list, während die Bitreduktionsrate bei einer Zunahme der Anzahl der Bänder so verbessert wird, daß die Bitanzahl 70 % für zwei Bänder, 60 % für drei Bänder und 55 % für vier Bänder beträgt. Entsprechend wird deutlich, daß das Verfahren dieses Ausführungsbeispiels sehr effizient ist.
Hier wird in dem erfindungsgemäßen Ausführungsbeispiel in dem Fall, wenn die Block- Floating-Verarbeitung für jeden kleinen Block einer kleineren Bandbreite als diejenige des kritischen Bandes ausgeführt wird, im Schritt S4 Information über die Wortlängen entsprechend der Anzahl der jedem kleinen Block zugeordneten Bits bestimmt und übertragen und in den Schritten S4 und S5 wird Information bezüglich des zulässigen Rauschpegels, dessen Bestimmungsbereich in Richtung eines niedrigeren Pegels um einen festgelegten Pegel (Pegel basierend auf einer Maskierungsgröße, die später beschrieben werden wird) von dem Signalpegelbereich in dem kritischen Bereich verschoben ist, bestimmt, und anstelle der Floating-Koeffizienten jedes kritischen Bandes übertragen. Um es praktischer auszudrücken, wird eine Quantisierungstabelle verwendet, bei der solche Werte, die den Bestimmungsbereich in Richtung eines niedrigeren Pegels um den oben erwähnten festgelegten Pegel von dem Signalpegelbereich im kritischen Band zu verschieben, gespeichert sind, um einen Wert entsprechend dem in Schritt S2 bestimmten zulässigen Rauschpegel auszugeben und zu übertragen.
Wie oben beschrieben ist der Grund, warum der Bestimmungsbereich für den zulässigen Rauschpegel verschoben ist, der folgende. Erstens ist es im Falle der Übertragung von Information bezüglich des zulässigen Rauschpegels, der im Schritt S2 wie er ist bestimmt wird, ineffizient oder sinnlos, für den zulässigen Rauschpegel den gleichen Index wie denjenigen für den dynamischen Bereich zu verwenden, den ein tatsächliches Signal annehmen kann. Insbesondere, da der zulässige Rauschpegel auf Basis einer Maskierungsgröße bestimmt wird, in der die Hörempfindungscharakteristik des Menschen berücksichtigt ist, wie später beschrieben wird, wird er gleich einem Wert um einen festgelegten Pegel niedriger als der Maximalwert des oben erwähnten tatsächlichen Signalpegels sein. Beispielsweise wird der zulässige Rauschpegel so gewählt, daß er um ungefähr 26 dB geringer ist als der Signalpegel. Wie oben erwähnt ist es extrem ineffizient oder sinnlos, den dynamischen Bereich, den der Signalpegel annehmen kann, wie er ist, für den zulässigen Rauschpegel zu nehmen, so daß er notwendigerweise um einen festen Pegel geringer als der Signalpegel ist. Ferner ist dies im Hinblick auf die Verringerung der Anzahl von Bits nicht vorteilhaft. Aus diesem Grund wird in diesem Ausführungsbeispiel eine Quantisierungstabelle verwendet, so daß der Bestimmungsbereich von dem Signalpegelbereich im kritischen Bereich um einen festgelegten Pegel in Richtung eines geringeren Pegels verschoben wird. So kann der zulässige Rauschpegel durch eine noch geringere Anzahl von Bits repräsentiert werden. In anderen Worten kann auch durch eine geringere Anzahl von Bits der zulässige Rauschpegel mit der gleichen Auflösung (Genauigkeit) repräsentiert werden wie in dem Fall, wenn keine Verschiebung aufgeführt wird. Entsprechend ist es möglich, die Anzahl von Bits zur Übertragung des zulässigen Rauschpegels zu verringern.
Währenddessen wird für die folgende Decodierverarbeitung eine Differenz zwischen einem Übertragungsrauschpegel des kleinen Blockes b1 mit der Wortlänge W1 und einem Pegel nächst dem zulässigen Rauschpegel NL zusammen übertragen. Insbesondere, wenn die Information eine Differenz zwischen dem zulässigen Rauschpegel NL und einem nächstliegenden Pegel angibt, kann Information, die angibt, wo die Übertragungsrauschpegel der jeweiligen kleinen Blöcke innerhalb des Bereichs von im wesentlichen +3 dB fallen, unter Verwendung von Entscheidungs-Bitinformation von beispielsweise 2 Bit übertragen werden. Beispielsweise wird angegeben, daß, wenn die Entscheidungs-Bitinformation von 2 Bit "00" ist, der Übertragungsrauschpegel zur +-(Plus)-Seite (+1) verschoben wird; wenn die Information "01" ist, daß der Rauschpegel keine Verschiebung (0) hat und wenn die Information "10" ist, daß der Rauschpegel zur -(Minus)-Seite (-1) verschoben wird. Es sei erwähnt, daß "11" nicht verwendet wird oder angibt, daß der Übertragungsrauschpegel nicht geändert wird.
So wird ein Ubertragungsrauschpegel des kleinen Blockes b1 aus der Information über den Floating-Koeffizienten Fc1 und der Wortlänge W1 bestimmt. Ferner wird eine Differenz zwischen dem zulässigen Rauschpegel NL und einem zu diesen nächsten Pegel (Pegeldifferenz angegeben durch das Entscheidungsbit) zu dem zulässigen Rauschpegel NL addiert, wobei es möglich wird, einen Pegel nächst dem zulässigen Rauschpegel zu liefern. Da gleichzeitig die übertragenen Rauschpegel der jeweiligen kleinen Blöcke b 1 bis b4 nicht jenseits eines Pegels nahe dem Pegel nächst dem zulässigen Rauschpegel NL verschoben werden, ist es möglich, die jeweiligen Wortlängen W2 bis W4 aus den jeweiligen Floating- Koeffizienten Fc2 bis Fc4 zu bestimmen.
Die Art der Verringerung der Anzahl der Bits im Beispiel von Fig. 1 ist in Tabelle 4 durch Vergleich mit Tabelle 1 gezeigt. TABELLE 4
In dieser Tabelle 4 werden im Falle, wenn das kritische Band B durch einen einzigen kleinen Block (Aufteilungen) repräsentiert ist, 6 Bit für den Floating-Koeffizienten und 4 Bit für die Wortlänge W übertragen. Es sei erwähnt, daß das oben erwähnte Entscheidungsbit (2 Bit) in diesem Fall nicht verwendet wird. Aus diesem Grund werden in dem Fall einer Aufteilung insgesamt 10 Bit übertragen. Entsprechend werden in dem Fall, wenn das kritische Band B durch zwei kleine Blöcke b (zwei Aufteilungen) repräsentiert ist, insgesamt 18 Bit, 6 × 2 = 12 Bit für den Floating-Koeffizienten, 4 Bit für die Wortlänge W und 2 Bit für die Entscheidungs-Bitinformation übertragen. Ahnlich werden im Fall von drei Aufteilungen insgesamt 24 Bit, 6 × 3 = 18 Bit für den Floating-Koeffizienten, 4 Bit für die Wortlänge W und 2 Bit für die Entscheidungs-Bitinformation übertragen. Zusätzlich werden in dem Fall von vier Aufleilungen (Beispiel von Fig. 1) insgesamt 30 Bit, 6 × 4=24 Bit für den Floating-Koeffizienten, 4 Bit für die Wortlänge W und 2 Bit für die Entscheidungs-Bitinformation übertragen. Wenn die übertragene Bitanzahl des Beispiels von Tabelle 1 100 % ist und ein Vergleich mit dem Beispiel von Tabelle 4 gemacht wird, ist aus diesem Grunde im Falle des Beispiels von Tabelle 4, wenn die Anzahl von Aufteilungen list, die übertragene Bitanzahl 100 %, das die gleiche ist wie im Falle von Tabelle 1, während, wenn die Anzahl von Aufleilungen (die Anzahl von kleinen Blöcken) zunimmt, die Bitverringerungsrate so verbessert ist, daß die übertragene Bitanzahl 90 % beträgt, wenn die Anzahl der Aufteilungen 2 ist, 80 %, wenn die Anzahl 3 ist, 75 %, wenn die Anzahl 4 ist. Entsprechend wird deutlich, daß das Verfahren dieses Ausführungsbeispiels extrem effizient ist.
Es sei erwähnt, daß bei den oben beschriebenen Ausführungsbeispielen der Pegel, der als zulässiger Rauschpegel NL angenommen werden kann, kleiner ist als der Dynamikbereich. Insbesondere, da der Mindestwert von S/N ungefähr 30 dB ist, besteht keine Möglichkeit, daß der zulässige Rauschpegel den Bereich von ungefähr 13 dB vom Scheiteiwert (0 dB) des dynamischen Bereiches erreicht. So kann solch eine Auswahl im Codierer gemacht werden.
Ein Beispiel der Konfiguration, auf welches das Codierverfahren dieses Ausführungsbeispiels angewandt ist, welches abgebildet ist, die oben beschriebenen Rauschpegel zu bestimmen, um Signale weiter durch die zugeordnete Bitanzahl basierend auf den zulässigen Rauschpegeln zu codieren, ist in Fig. 3 gezeigt.
Insbesondere werden in Fig. 3 die einem Eingangsanschluß 1 auf Zeitbasis zugeführten Digitalaudiodaten einer Orthogonaltransformationsschaltung 11 zugeführt. In dieser Orthogonaltransformationsschaltung 11 werden die Audiodaten auf Zeitbasis für jede Zeiteinheit (Einheitsblock) in Daten auf Frequenzbasis umgewandelt. So werden Koeffizientendaten bestehend aus einem Realkomponentenwert Re und einem Imaginärkomponentenwert Im zur Verfügung gestellt. Diese Koeffizientendaten werden zu einem Amplituden-Phasen/Informationsgenerator 12 übertragen. Im Amplituden-Phasen/Informationsgenerator 12 wird Amplitudeninformation Am und Phaseninformation Ph aus dem Realkomponentenwert Re und dem Imaginärkomponentenwert Im erzeugt. Lediglich die Amplitudeninformation Am wird von diesem ausgegeben. Insbesondere, da die Hörempfindung des Menschen allgemein sensitiv für die Amplitude (Leistung) des Frequenzbereichs, aber merklich unempfindlich für die Phase ist, wird nur die Amplituden information Am in diesem Ausführungsbeispiel verwendet, um die Information über die zugewiesene Bitanzahl zu liefern.
Die Amplitudeninformation Am wird zu einer Bandaufteilungsschaltung 13 übertragen. Diese Bandauffeilungsschaltung 13 teilt das durch die Amplitudeninformation Am repräsentierte Eingangs-Digitalsignal in sogenannte kritische Bänder auf. Das kritische Band wird bestimmt durch Berücksichtigung der Hörempfindungscharakteristik (Frequenzanalysefähigkeit) des Menschen. Beispielsweise wird ein Signal im Frequenzband von 0 bis 22 kHz in 25 Bänder aufgeteilt, um eine Einstellung so zu machen, daß die Bandbreite breiter wird, wenn sich die Frequenz zur höheren Frequenzseite verschiebt. Das Hörempfinden des Menschen hat nämlich die Charakteristik wie eine Art Bandpaßfilter und Bänder, die durch die jeweiligen Filter aufgeteilt sind, werden kritisches Band genannt.
Die Amplitudeninformation Am jedes Bandes, die durch die Bandaufreilungseinnchtung 13 in kritische Bänder aufgeteilt ist, wird zu einem Gesamtsummendetektor 14 übertragen. In diesem Gesamtsummendetektor 14 werden die Energien jedes der Bänder (Spektrumintensität in den jeweiligen Bändern) bestimmt durch Bildung der Gesamtsumme der jeweiligen Amplitudeninformation Am (Gesamtsumme der Scheitel, Mittel oder Energien der Amplitudeninformation Am) in den jeweiligen Bändern. Ein Ausgangssignal, d.h. ein Spektrum der Gesamtsumme der jeweiligen von dem Gesamtsummendetektor 14 wird allgemein ein "Bark"-Spektrum genannt. Das "Bark"-Spektrum SB in den jeweiligen Bändern ist beispielsweise in Fig. 4 gezeigt. Es sei erwähnt, daß zur Vereinfachung der Illustration in Fig. 4 die Anzahl der Bänder der kritischen Bänder durch zwölf Bänder (B1 bis B12) repräsentiert ist.
Hier wird, um den Einfluß bei der sogenannten Maskierung des Bark-Spektrums SB zu ermöglichen, eine festgelegte Gewichtungsfünktion auf das Bark-Spektrum SB gefaltet (Faltung). Um dies zu realisieren, wird ein Ausgangssignal von dem Gesamtsummendetektor 14, d.h. jeweilige Werte des Bark-Spektrums SB einer Filterschaltung 15 zugeführt. Die Filterschaltung 15 weist beispielsweise mehrere Verzögerungselemente zur aufeinanderfolgenden Verzögerung von Eingangsdaten, mehrere Multiplizierer (beispielsweise 25 Multiplizierer entsprechend den jeweiligen Bändern) zur Multiplikation der Ausgangssignale von diesen Verzögerungselementen mit Filterkoeffizienten (Gewichtsfünktionen) und einen Gesamtsummenaddierer zur Bildung einer Gesamtsumme der jeweiligen Multiplizierer-Ausgangssignale auf. In den jeweiligen Multiplizierern der Filterschaltung 15 wird der Multipliziervorgang wie folgt ausgeführt. Beispielsweise wird im Multiplizierer M entsprechend einem beliebigen Band der Filterkoeffizient mit den Ausgängen der jeweiligen Verzögerungselemente multipliziert; im Multiplizierer M-1 wird der Filterkoefflzient 0,15 mit diesen Ausgangssignalen multipliziert; im Multiplizierer M-2 wird der Filterkoeffizient 0,0019 mit diesen Ausgangssignalen multipliziert; im Multiplizierer M-3 wird der Filterkoefflzient 0,000086 mit diesen Ausgangssignalen multipliziert; im Multiplizierer M+1 wird der Filterkoeffizient 0,4 mit diesen Ausgangssignalen multipliziert; im Multiplizierer M+2 wird der Filterkoeffizient 0,06 mit diesen Ausgangssignalen multipliziert und im Multiplizierer M+3 wird der Filterkoeffizient 0,007 mit diesen Ausgangssignalen multipliziert. So wird die Faltungsverarbeitung des Bark- Spektrum SB ausgeführt. Es sei erwähnt, daß M eine beliebige ganze Zahl von 1 bis 25 ist. Durch diese Faltungsverarbeitung wird die Gesamtsumme des durch gestrichelte Linien angegebenen Abschnitts gebildet. Es sei erwähnt, daß die oben genannte Maskierung sich auf ein Phänomen bezieht, daß ein Signal durch ein anderes maskiert und nicht gehört wird. Als Maskierungseffekt gibt es den Maskierungseffekt für ein Audiosignal auf der Zeitbasis und den Maskierungseffekt für ein Audiosignal auf der Frequenzbasis. Durch diesen Maskierungseffekt wird, auch wenn ein Rauschen an dem der Maskierung unterworfenen Abschnitt vorhanden ist, ein derartiges Rauschen nicht gehört. Aus diesem Grund wird in einem tatsächlichen Audiosignal Rauschen in einem der Maskierung unterworfenen Abschnitt als zulässiges Rauschen angesehen.
Anschließend wird ein Ausgangssignal von der Filterschaltung einem Subtrahierer 16 zugeführt. Der Subtrahierer 16 dient dazu, einen Pegel entsprechend einem zulässigen Rauschpegel, der später beschrieben werden wird, in dem gefalteten Bereich zu bestimmen. Es sei erwähnt, daß der Pegel entsprechend dem zulässigen Rauschpegel (zulässiger Rauschpegel) solch ein Pegel ist, der dem zulässigen Rauschpegel jedes Bandes des kritischen Bandes durch Ausführung der später beschriebenen Entfaltungsverarbeitung entspricht. Hier wird eine zulässige Funktion (Funktion, die den Maskierungspegel repräsentiert) zur Bestimmung des Pegels α dem Subtrahierer 16 zugeführt. Durch Anheben oder Absenken dieser zulässigen Funktion wird die Steuerung des Pegels α ausgeführt. Die zulässige Funktion wird von einem Funktionsgenerator 29 zur Verfügung gestellt, der später beschrieben wird.
Insbesondere, wenn die Nummer in der Reihenfolge von einem Niedrigfrequenzband eines Bandes der kritischen Bandbreite als i angenommen wird, wird der Pegel entsprechend dem zulässigen Rauschpegel durch die folgende Gleichung bestimmt:
α = S -(n-ai)
wobei n und a jeweils Konstanten und 5 die Intensität eines faltungsverarbeiteten Bark- Spektrums sind. In der obigen Gleichung repräsentiert (n-ai) eine zulässige Funktion. In diesem Ausführungsbeispiel ist n zu 38 und a zu 1 gewählt. Es resultiert keine Verschlechterung der Tonqualität zu dieser Zeit. Eine zufriedenstellende Codierung wird so ausgeführt.
Auf diese Weise wird der Pegel α bestimmt. Diese Daten werden einem Dividierer 17 zugeführt. Dieser Dividierer 17 dient dazu, die Entfaltung auf den Pegel α im gefalteten Bereich anzuwenden. Entsprechend wird durch Ausführung dieser Entfaltung ein Maskenspektrum vom Pegel α zur Verfügung gestellt. Insbesondere wird dieses Maskenspektrum ein zulässiges Rauschspektrum. Es sei erwähnt, daß, während die oben erwähnte Entfaltungsverarbeitung einen komplizierten Vorgang benötigt, ein vereinfachter Dividierer 17 in diesem Ausführungsbeispiel verwendet wird, um die Entfaltung auszuführen.
Dann wird das oben erwähnte Maskierungsspektrum einem Subtrahierer 19 über eine Synthetisierschaltung 18 zugeführt. Hier wird ein Ausgangssignal von dem Gesamtsummendetektor 14, d.h. dem vorher erwähnten Bark-Spektrum SB dem Subtrahierer 19 über eine Verzögerungsschaltung 21 zugeführt. In dieser Subtrahierschaltung 19 wird eine Subtraktionsoperation zwischen dem Maskierungsspektrum und dem Bark-Spektrum SB ausgeführt. So wird, wie in Fig. 5 gezeigt ist, der Abschnitt des Bark-Spektrums SB, dessen Pegel niedriger ist als der durch den Pegel des Maskierungsspektrums MS angegebene Pegel der Maskierung unterworfen.
Ein Ausgangssignal von der Subtraktionsschaltung 19 wird über einen zulässiger- Rauschpegel-Korrektor 20 einer ROM 30 zugeführt. In der ROM 30 wird eine Vielzahl von Information über die zugewiesene Bitanzahl, die zur Quantisierung der Amplitudeninformation Am verwendet wird, gespeichert. Die ROM 30 dient dazu, die Information über die zugewiesene Bitanzahl an eine Ausgabe des Subtrahierers 19 auszugeben (Differenzpegel zwischen der Energie in den jeweiligen Bändern und einem Ausgang der Rauschpegel-Einstelleinrichtung). Entsprechend wird in einem Quantisierer 24 eine Quantisierungsverarbeitung der Amplitudeninformation Am auf Basis der Information über die zugeordnete Bitanzahl ausgeführt. Ein Ausgangssignal von dem Quantisierer 24 wird von dem Ausgangsanschluß 2 ausgegeben. Es sei erwähnt, daß die Verzögerungsschaltung 21 vorgesehen ist, um ein Bark-Spektrum SB von dem Gesamtsummendetektor 14 unter Berücksichtigung von Verzögerungsgrößen an den jeweiligen der Synthetisierungsschaltung 18 vorangehenden Schaltungen zu verzögern. Ferner ist die Verzögerungsschaltung 23 vorgesehen, um die Amplitudeninformation Am unter Berücksichtigung von Verzögerungsgrößen an den der ROM 30 vorangehenden jeweiligen Schaltungen zu verzögern.
Ferner ist es bei der Synthese in der oben beschriebenen Synthetisierungsschaltung 18 möglich, Daten, die die sogenannte minimal hörbare Kurve RC angeben, welche die Hörempfindungscharakteristik des Menschen wie in Fig. 6 gezeigt angibt, die von einem minimal-hörbare-Kurve-Generator 22 geliefert werden, und das Maskierungsspektrum 115 synthetisieren. Wenn bei dieser minimal hörbaren Kurve der Absolutrauschpegel unter der minimal hörbaren Kurve ist, kann dieses Rauschen nicht gehört werden. Wenn ferner die Codierung die gleiche ist, würde die minimal hörbare Kurve in Abhängigkeit von einer Variation der Wiedergabelautstärke zur Zeit der Wiedergabe variieren. Es sei erwähnt, daß, da keine so große Variation in der Art, wie die Musik eingeht, besteht, d.h. 16-Bit- Dynamikbereich in tatsächlichen Digitalsystem, wenn angenommen wird, daß das Quantisierungsrauschen beispielsweise des durch das Ohr am leichtesten gehörte Frequenzband in der Nähe von 4 kHz ist, angenommen werden kann, daß ein Quantisierungsrauschen geringer als der Pegel der minimal hörbaren Kurve in anderen Frequenzbändern nicht gehört wird. Wenn entsprechend ein Weg zur Verwendung angenommen wird, bei dem ein Rauschen beispielsweise in der Nähe von 4 kHz einer Wortlänge des Systems nicht gehört wird und ein zulässiger Rauschpegel durch Synthetisierung der minimal hörbaren Kurve RC und des Maskierungsspektrums MS zur Verfügung gestellt wird, wird es dem zulässigen Rauschpegel in diesem Falle erlaubt, der Pegel bis zu dem Abschnitt zu sein, der durch die schrägen Linien in der Figur angegeben ist. Es sei erwähnt, daß in diesem Ausführungsbeispiel der Pegel von 4 kHz der minimal hörbaren Kurve in Übereinstimmung mit dem Minimalpegel entsprechend beispielsweise 20 Bit hervorgerufen wird. In Fig. 6 ist das Signalspektrum SS zusammen gezeigt.
Im Korrektor 20 für den zulässigen Rauschpegel wird der zulässige Rauschpegel von dem Subtrahierer 19 auf Basis der Information der sogenannten "Equi-Loudness"-Kurve (Gleichlautstärkekurve) korrigiert, die von einer Korrekturwert-Bestimmungsschaltung 28 zur Verfügung gestellt wird. Insbesondere wird von der Korrekturwert- Bestimmungsschaltung 28 Korrekturwertinformation zur Korrektur des zulässigen Rauschpegels von dem Subtrahierer 19 auf Basis von Daten der sogenannten Gleichlautstärkekurve ausgegeben. Die Korrekturwertdaten werden zu der Rauschpegel Korrekturschaltung 20 übertragen. So wird eine Korrektur ausgeführt, bei der die Gleichlautstärkekurve des zulässigen Rauschpegels von dem Subtrahierer 19 berücksichtigt wird. Es sei erwähnt, daß die Gleichlautstärkekurve mit der Hörempfindung des Menschen zusammenhängt. Die Kurve wird erhalten durch Bestimmung des Schalldruckes von Schall bei jeweiligen Frequenzen, die als die gleiche Intensität gehört werden wie ein reiner Schall von beispielsweise 1 kHz, um diese zu verbinden. Die Kurve wird auch eine Gleichsensitivitätskurve der Lautheit genannt. Ferner ist die Gleichlautstärkekurve im wesentlichen die gleiche wie die minimal hörbare Kurve RC, die in Fig. 6 gezeigt ist. In dieser Equi-Loudness-Kurve wird beispielsweise in der Nähe von 4 kHz, auch wenn der Schalldruck um 8 bis 10 dB verringert ist als derjenige bei 1 kHz, der Schall mit der gleichen Intensität wie Schall bei 1 kHz gehört. Im Gegensatz dazu wird in der Nähe von 50 kHz, wenn der Schalldruck um ungefähr 15 dB höher ist als derjenige in der Nähe von 1 kHz, nicht mit dem gleichen Schalldruck gehört. Aus diesem Grunde ist sichtbar, daß es wünschenswert ist, Rauschen oberhalb des Pegels der minimal hörbaren Kurve (zulässiger Rauschpegel) zu erlauben, um eine durch eine Kurve entsprechend der Gleichlautstärke kurve gegebene Frequenzcharakteristik zu haben. Aus diesem Grund wird gesehen, daß diese an die Hörempfindungscharakteristik des Menschen angepaßt ist, um den zulässigen Rauschpegel unter Berücksichtigung der Gleichlautstärkekurve zu korrigieren.
Es sei erwähnt, daß in diesem Ausführungsbeispiel eine Konfiguration verwendet werden kann, so daß die oben beschriebene Synthetisierungsverarbeitung der minimal hörbaren Kurve nicht ausgeführt wird. Insbesondere werden in diesem Fall der minimal-hörbare- Kurve-Generator 22 und die Synthetisierungsschaltung 18 unnötig. Ein Ausgangssignal von dem Subtrahierer 16 wird einer Entfaltung an dem Dividierer unterworfen und dann direkt dem Subtrahierer 19 zugeführt.
Bei einem Codierverfahren für ein Digitalsignal wird ein Ansatz verfolgt, ein Eingangsdigitalsignal orthogonal zu transformieren, das orthogonal transformierte Signal in Signalkomponenten in kritischen Bändern aufzuteilen, die Signalkomponenten in den jeweiligen kritischen Bändern durch adaptiv zugewiesene Bitanzahlen basierend auf zulässigen Rauschpegeln jedes kritischen Bandes zu codieren und die durch Anwendung einer Block- Floating-Verarbeitung der orthogonal transformierten Signalkomponenten erhaltenen Floating-Koeffizienten zu übertragen. So wird im Falle der Ausführung der Floating- Verarbeitung für jeden kleinen Block, dessen Bandbreite kleiner ist als diejenige des kritischen Bandes ein Ansatz verwendet, anstelle der Floating-Koeffizienten jedes kritischen Bandes Information bezüglich der zulässigen Rauschpegel jedes kritischen Bandes und Wortlängeninformation der jeweiligen kleinen Blöcke zu übertragen, wordurch es möglich gemacht wird, die Anzahl der Bits für die Floating-Koeffizienten zu verringern. Ferner wird im Falle der Ausführung der Block-Floating-Verarbeitung jedes großen Blockes, dessen Bandbreite breiter ist als diejenige des kritischen Bandes ein Ansatz gewählt, Information bezüglich der Floating-Koeffizienten für jeden der großen Blöcke zu übertragen, wodurch es möglich gemacht wird, die Anzahl der übertragenen Bits zu verringern.
Ferner wird im Falle der Ausführung der Floating-Verarbeitung jedes kleinen Blockes, dessen Bandbreite kleiner ist als diejenige des kritischen Bandes ein Ansatz gewählt, Wortlängeninformation eines kleinen Blockes der kleinen Blöcke in den jeweiligen kritischen Bändern zu übertragen, wodurch es möglich wird, die Anzahl der Wortlängeninformation zu verringern. Entsprechend kann eine Bitkomprimierung höheren Grades ausgeführt werden.
Weiterhin wird im Falle der Ausführung der Floating-Verarbeitung jedes kleinen Blockes, dessen Bandbreite kleiner ist als diejenige des kritischen Bandes, ein Ansatz gewählt, Information über Wortlängen entsprechend den Anzahlen der jedem kleinen Block zugeordneten Bits zu übertragen und anstelle der Floating-Koeffizienten jedes kritischen Bandes Information bezüglich zulässigen Rauschpegeln zu übertragen, dessen Bestimmungsbereich von einem Signalpegelbereich im kritischen Band um einen festgelegten Pegel in Richtung eines niedrigeren Pegeis verschoben ist, wodurch es möglich wird, die Anzahl der Bits zur Übertragung von Information bezüglich der zulässigen Rauschpegel zu verringern. Entsprechend kann eine Bitkomprimierung höheren Grades ausgeführt werden.

Claims

1. Verfahren zur Codierung eines Digitalsignais, bei dem das Digital signal in einen orthogonalen Satz transformierter (12) Frequenzkomponenten (Am) transformiert wird, welche kritische Frequenzbänder (B) besetzen, wobei die Breiten der kritischen Bänder (B) mit der Frequenz zunehmen, und wobei die Komponenten in den Bändern quantisiert werden in Übereinstimmung mit Differenzen zwischen der Größe der Komponenten in den Bändern und den zulässigen Rauschpegeln der Bänder der Komponenten, die auch Frequenzblöcke (b) der Komponenten der Blöcke besetzen, die einer Block-Floating- Verarbeitung unterworfen sind, um Floating-Koeffizienten zu erzeugen,

dadurch gekennzeichnet, daß ein kritisches Band (B) in mehrere Blöcke (b&sub1;-b&sub4;) aufgeteilt wird, deren Bandbreiten kleiner sind als die Bandbreite des Bandes, wobei die Komponenten des Bandes (B) durch ein erstes Codierformat repräsentiert werden, welches Bits, die die zulässigen Rauschpegel der Blöcke (b&sub1;-b&sub4;) des Bandes (B), und Bits, die die Wortlängen der Komponenten in den Blöcken (b&sub1;-b&sub4;) des Bandes (B) repräsentieren, aufweist, und

daß mehrere der kritischen Bänder (B1-B4) in einen Block (b) zusammengefügt werden, in dem die Bänder (B1-B4) Bandbreiten haben, die kleiner sind als die Bandbreite des Blockes, wobei die Komponenten des Blockes durch ein zweites Codierformat unterschiedlich zu dem ersten Codierformat repräsentiert werden, aufweisend Bits, die einen Floating-Koeffizienten des Blockes repräsentieren, und Bits, die die Wortlängen von Komponenten in jedem der Bänder (B1-B4) repräsentieren.

2. Verfahren gemäß Anspruch 1, wobei in dem ersten Codierformat ein Satz der Bits einen dem gesamten Band (B) zugeordneten zulässigen Rauschpegel repräsentiert.

3. Verfahren gemäß Anspruch 2, wobei ein weiterer Satz von jedem Block (b&sub1;-b&sub4;) des Bandes (B) zugeordneter Bits die Differenz zwischen dem Rauschpegel des Blockes und dem Rauschpegel des Bandes repräsentiert.

4. Verfahren gemäß Anspruch 1, 2 oder 3, wobei im zweiten Codierformat die Komponenten des Blockes (b) durch einen Satz von Bits, die einen Floating-Koefflzienten des Blockes (b) repräsentieren, und durch mehrere Sätze von Bits, die die Wortlängen der Komponenten der jeweiligen Bänder (B1-B4) repräsentieren, repräsentiert werden.

5. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die Transformation DCT ist.

6. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei das transformierte Signal 25 Bänder in einem Frequenzbereich von 0 bis 22 kHz belegt.

7. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die Größen der Komponenten in dem Band die jeweiligen Summen der Amplituden der Frequenzkomponenten der Bänder sind.

8. Verfahren gemäß Anspruch 7, wobei das Maskenspektrum von diesen Summen abgeleitet (15-18) ist und der zulässige Rauschpegel abhängig von dem Maskenspektrum ist.

9. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei das kritische Band (B), das in mehrere Blöcke aufgeteilt wird, eine vergleichsweise hohe Frequenz hat und die mehreren kritischen Bänder (B1-B4) eine vergleichsweise niedrige Frequenz haben.