HK1111801B

HK1111801B - Dual-transform coding of audio signals

Info

Publication number: HK1111801B
Application number: HK08106189.0A
Authority: HK
Inventors: Minjie Xie; Peter Chu
Original assignee: Hewlett-Packard Development Company, L.P.
Priority date: 2006-10-18
Filing date: 2008-06-03
Publication date: 2013-03-22

Claims

Verfahren zum Codieren eines Audiosignals (102), wobei das Verfahren umfasst:
Transformieren eines Rahmens von Zeitbereich-Abtastwerten des Audiosignals (102) in den Frequenzbereich, Bilden eines langen Rahmens (104) von Transformationskoeffizienten,

Transformieren von n Teilen des Rahmens von Zeitbereich-Abtastwerten des Audiosignals (102) in den Frequenzbereich, Bilden von n kurzen Rahmen (106, 107, 108, 109) von Transformationskoeffizienten,

wobei der Rahmen (104) der Zeitbereich-Abtastwerte eine erste Länge (L) aufweist,

wobei jeder Teil des Rahmens der Zeitbereich-Abtastwerte eine zweite Länge (S) aufweist,

wobei L = n x S, und

wobei n eine ganze Zahl ist;

Gruppieren einer Menge von Transformationskoeffizienten (212, 232) des langen Rahmens (104) von Transformationskoeffizienten und einer Menge von Transformationskoeffizienten (222-228, 242-248) der n kurzen Rahmen (106, 107, 108, 109) von Transformationskoeffizienten, um eine kombinierte Menge von Transformationskoeffizienten zu bilden,

Quantisieren der kombinierten Menge von Transformationskoeffizienten, um eine Menge von Quantisierungsindizes der kombinierten Menge von Transformationskoeffizienten zu bilden, und

Codieren der Quantisierungsindizes der quantisierten kombinierten Menge von Transformationskoeffizienten.
Verfahren nach Anspruch 1, wobei das Transformieren die Anwendung einer Modulated Lapped Transform (MLT) umfasst.
Verfahren nach Anspruch 1 oder 2, wobei das Audiosignal (102) mit 48 kHz abgetastet wird.
Verfahren nach einem der Ansprüche 1-3, wobei die kombinierte Menge von Transformationskoeffizienten aufweist: Transformationskoeffizienten des langen Rahmens (104) bei einer ersten Frequenzbandbreite und Transformationskoeffizienten der n kurzen Rahmen (106, 107, 108, 109) bei einer zweiten Frequenzbandbreite.
Verfahren nach Anspruch 4, wobei die erste Frequenzbandbreite und die zweite Frequenzbandbreite überlappen.
Verfahren nach Anspruch 4 oder 5, wobei die erste Frequenzbreite eine obere Grenze im Bereich von 800 Hz bis 7 kHz aufweist.
Verfahren nach einem der Ansprüche 4-6, wobei die erste Frequenzbandbreite Audiofrequenzen bis zu 7 kHz umfasst und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 6,8 kHz bis 22 kHz umfasst.
Verfahren nach einem der Ansprüche 1-7, ferner aufweisend:
Ermitteln, ob ein Audiosignal (102) ein stoßartiges Signal umfasst.
Verfahren nach Anspruch 8, wobei das Ermitteln umfasst:
Bestimmen, ob eine durchschnittliche Gradientensteigung der langen Transformationskoeffizienten über einer Frequenzbandbreite von bis zu 10 kHz einen vorbestimmten Steigungsschwellwert überschreitet,

Bestimmen, ob ein erster Transformationskoeffizient des langen Rahmens von Transformationskoeffizienten ein Maximum des langen Rahmens von Transformationskoeffizienten ist, und

Bestimmen, ob eine Nulldurchgangsrate der Transformationskoeffizienten des langen Rahmens von Transformationskoeffizienten kleiner als ein vorbestimmter Ratenschwellwert ist.
Verfahren nach Anspruch 8 oder 9, wobei die kombinierte Menge von Transformationskoeffizienten Transformationskoeffizienten des langen Rahmens (104) bei einer ersten Frequenzbandbreite und Transformationskoeffizienten der n kurzen Rahmen (106, 107, 108, 109) bei einer zweiten Frequenzbandbreite umfasst, wobei, falls das stoßartiges Signal ermittelt wird, die erste Frequenzbandbreite Audiofrequenzen bis zu 800 Hz umfasst, und wobei, falls das stoßartige Signal ermittelt wird, die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 600 Hz bis 22 kHz umfasst.
Verfahren nach einem der Ansprüche 1-10, wobei das Codieren Huffman-Codierung umfasst.
Verfahren nach einem der Ansprüche 1-11, ferner umfassend:
Gruppieren der kombinierten Menge von Koeffizienten in eine Vielzahl von Gruppen, wobei jede Gruppe eine Vielzahl von Unterrahmen umfasst und wobei jeder Unterrahmen eine bestimmte Anzahl von Koeffizienten umfasst,

Bestimmen einer Norm für jeden Unterrahmen basierend auf dem rms des Unterrahmens,

Quantisieren des rms für jeden Unterrahmen,

Normalisieren der Koeffizienten jedes Unterrahmens durch Teilen jedes Koeffizienten innerhalb des Unterrahmens durch das quantisierte rms des Unterrahmens,

Quantisieren der Koeffizienten von jedem Unterrahmen,

Behalten eines Huffman-Codierungs-Flag für jede Gruppe von Unterrahmen,

Behalten einer festgelegten Bitanzahl zur Codierung jeder Gruppe,

Berechnen einer benötigten Bitanzahl zur Verwendung der Huffman-Codierung für jede Gruppe,

Setzen des Huffman-Flag und Verwenden der Huffman-Codierung, falls die benötigte Bitanzahl zur Verwendung der Huffman-Codierung kleiner als die festgelegte Bitanzahl für diese Gruppe ist, und

Löschen des Huffman-Codierung-Flag und Verwendung einer festgelegten Anzahl von Bitcodierung, falls die benötigte Bitanzahl zur Verwendung der Huffman-Codierung nicht kleiner als die festgelegte Bitanzahl für die Untergruppe ist.
Verfahren nach einem der Ansprüche 1-11, ferner umfassend:
Gruppieren der kombinierten Menge von Koeffizienten in eine Vielzahl von Gruppen, wobei jede Gruppe eine Vielzahl von Unterrahmen umfasst und wobei jeder Unterrahmen eine bestimmte Anzahl von Koeffizienten umfasst,

Bestimmen einer Norm für jeden Unterrahmen basierend auf dem rms des Unterrahmens,

Quantisieren des rms für jeden Unterrahmen, um einen Quantisierungsindex für jede Norm zu bilden, und

Huffman-Codieren des Quantisierungsindex für jede Norm, falls eine für die Huffman-Codierung verwendete Gesamtbitanzahl kleiner als die der Normquantisierung zugewiesene Gesamtbitanzahl ist.
Verfahren nach einem der Ansprüche 1-11, ferner umfassend:
Gruppieren der kombinierten Menge von Koeffizienten in eine Vielzahl von Gruppen, wobei jede Gruppe eine Vielzahl von Unterrahmen umfasst und wobei jeder Unterrahmen eine bestimmte Anzahl von Koeffizienten umfasst,

Bestimmen einer Norm für jeden der Unterrahmen basierend auf dem rms des Unterrahmens,

Quantisieren der rms für jeden Unterrahmen, und

dynamisches Zuweisen vorhandener Bits zu jedem Unterrahmen basierend auf der quantisierten rms des Unterrahmens.
Computerlesbares Medium, das darauf ein Programm enthält, wobei das Programm mit einer Maschine ausführbar ist, um das Verfahren nach einem der Ansprüche 1 bis 14 durchzuführen.
Verfahren zum Decodieren eines codierten Bitstream, der ein Audiosignal (102) wiedergibt, wobei das Verfahren umfasst:
Decodieren (520) eines Teils des codierten Bitstream, um Quantisierungsindizes für eine Vielzahl von Gruppen von Transformationskoeffizienten zu bilden,

Dequantisieren (530) der Quantisierungsindizes für die Vielzahl von Gruppen von Transformationskoeffizienten,

Separieren der Transformationskoeffizienten in ein Menge von langen Rahmenkoeffizienten (212, 232) und n Mengen von kurzen Rahmenkoeffizienten (222-228, 242-248),

Umwandeln der Menge von Koeffizienten (212, 232) des langen Rahmens vom Frequenzbereich in den Zeitbereich, um ein Signal mit langem Zeitbereich zu bilden,

Umwandeln der n Mengen von Koeffizieten (222-228, 242-248) von kurzen Rahmen vom Frequenzbereich in den Zeitbereich, um eine Reihe von Signalen mit n kurzen Zeitbereichen zu bilden,

wobei das Signal mit langem Zeitbereich eine erste Länge (L) aufweist,

wobei jedes Signal mit kurzem Zeitbereich eine zweite Länge (S) aufweist,

wobei L = n x S, und

wobei n eine ganze Zahl ist, und

Kombinieren (580) des Signals mit langem Zeitbereich und der Reihe von Signalen mit n kurzen Zeitbereichen, um das Audiosignal (102) zu bilden.
Verfahren nach Anspruch 16, wobei die Koeffizienten (212, 232) des langen Rahmens innerhalb einer ersten Frequenzbandbreite sind und wobei die Koeffizienten (222-228, 242-248) des kurzen Rahmens innerhalb einer zweiten Frequenzbandbreite sind.
Verfahren nach Anspruch 17, wobei die erste Frequenzbandbreite eine obere Grenze im Bereich von 800 Hz bis 7 kHz aufweist.
Verfahren nach Anspruch 17, wobei die erste Frequenzbandbreite Audiofrequenzen bis 7 kHz umfasst und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 6,8 kHz bis 22 kHz umfasst.
Verfahren nach Anspruch 17, wobei die erste Frequenzbandbreite Audiofrequenzen bis zu 800 Hz umfasst und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 600 Hz bis 22 kHz umfasst.
Verfahren nach einem der Ansprüche 16-20, ferner umfassend:
Decodieren eines zweiten Teils des codierten Bitstream, um einen Quantisierungsindex für eine Norm jedes Unterrahmens zu bilden, und

Dequantisieren (550) des Quantisierungsindex für jeden Unterrahmen.
Verfahren nach einem der Ansprüche 16-21, ferner umfassend:
dynamisches Zuweisen (540) vorhandener Bits zu jedem Unterrahmen entsprechend der Quantisierungsnorm des Unterrahmens.
Verfahren nach Anspruch 21, ferner umfassend:
Bestimmen einer Bitanzahl zum Zuordnen zu den Normen, falls der codierte Bitstream einen Indikator umfasst, dass eine Huffman-Codierung verwendet wurde, um die Normen zu codieren, und

Huffman- Decodieren (520) der Normen.
Verfahren nach einem der Ansprüche 16-23, ferner umfassend:
Bestimmen einer Bitanzahl, um sie einer bestimmten Gruppe von Unterrahmen zuzuweisen, falls der codierte Bitstream einen Indikator umfasst, dass eine Huffman-Codierung verwendet wurde, um die bestimmten Gruppe von Unterrahmen zu codieren, und

Huffman-Decodieren der bestimmten Gruppe von Unterrahmen von Koeffizienten.
Computerlesbares Medium, das darauf ein Programm enthält, wobei das Programm mit einer Maschine ausführbar ist, um das Verfahren nach einem der Ansprüche 16 bis 24 durchzuführen.
22 kHz Audiocodec, aufweisend:
einen Codierer mit

einem ersten Transformationsmodul (610), betreibbar zum Transformieren eines Rahmens von Abtastwerten eines Audiosignals (102) vom Zeitbereich in den Frequenzbereich, Bilden eines langen Rahmens (104) von Transformationskoeffizienten,

einem zweiten Transformationsmodul (620), betreibbar zum Transformieren von n Teilen des Rahmens von Abtastwerten des Audiosignals (102) vom Zeitbereich in den Frequenzbereich, Bilden von n kurzen Rahmen (106, 107, 108, 109) von Transformationskoeffizienten,

wobei der Rahmen von Zeitbereich-Abtastwerten eine erste Länge (L) aufweist,

wobei jeder Teil des Rahmens von Zeitbereich-Abtastwerten eine zweite Länge (S) aufweist,

wobei L = n x S, und

wobei n eine ganze Zahl ist,

einem Kombinationsmodul (640), betreibbar zum Kombinieren einer Menge von Transformationskoeffizienten des langen Rahmens (104) von Transformationskoeffizienten und einer Menge von Transformationskoeffizienten der n kurzen Rahmen (106, 107, 108, 109) von Transformationskoeffizienten, Bilden einer kombinierte Menge von Transformationskoeffizienten,

einem Quantisierungsmodul (650), betreibbar zum Quantisieren der kombinierten Menge von Transformationskoeffizienten, Bilden einer Menge von Quantisierungsindizes der quantisierten kombinierten Menge von Transformationskoeffizienten, und

einem Codierungsmodul (670), betreibbar zum Codieren der Quantisierungsindizes der quantisierten kombinierten Menge von Transformationskoeffizienten, und einen Decodierer mit

einem Decodierungsmodul (735), betreibbar zum Decodieren eines Teils des codierten Bitstream, Bilden von Quantisierungsindizes für eine Vielzahl von Gruppen von Transformationskoeffizienten,

einem Dequantisierungsmodul (740), betreibbar zum Dequantisieren der Quantisierungsindizes für die Vielzahl von Gruppen von Transformationskoeffizienten,

einem Separationsmodul (750), betreibbar zum Separieren der Transformationskoeffizienten in eine Menge von langen Rahmenkoeffizienten (212, 232) und n Mengen von kurzen Rahmenkoeffizienten (222-228, 242-248),

einem ersten Rücktransformations-Modul (760), betreibbar zum Umwandeln der Menge von Koeffizienten (212, 232) des langen Rahmens vom Frequenzbereich in den Zeitbereich, Bilden eines Signals mit langem Zeitbereich,

einem zweiten Rücktransformations- Modul (770), betreibbar zum Umwandeln der n Mengen von Koeffizienten (222-228, 242-248) des kurzen Rahmens vom Frequenzbereich in den Zeitbereich, Bilden einer Reihe von n Signalen mit kurzem Zeitbereich, und

einem Summationsmodul zum Kombinieren des Signals mit langem Zeitbereich und der Reihe von n Signalen mit kurzem Zeitbereich.
Codec nach Anspruch 26, wobei die kombinierte Menge von Transformationskoeffizienten umfasst: Transformationskoeffizienten des langen Rahmens (104) bei einer ersten Frequenzbandbreite und Transformationskoeffizienten der n kurzen Rahmen (106, 107, 108, 109) bei einer zweite Frequenzbandbreite.
Codec nach Anspruch 27, wobei die erste Frequenzbandbreite eine obere Grenze im Bereich von 800 Hz bis 7 kHz aufweist.
Codec nach Anspruch 27, wobei die erste Frequenzbandbreite Audiofrequenzen bis zu 7 kHz umfasst, und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 6,8 kHz bis 22 kHz umfasst.
Codec nach Anspruch 27, wobei die erste Frequenzbandbreite Audiofrequenzen bis zu 800 Hz umfasst, und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 600 Hz bis 22 kHz umfasst.
Codec nach einem der Ansprüche 26-30 des Weiteren umfassend:
ein Modul (630), betreibbar zum Ermitteln, ob das Audiosignal ein stoßartiges Signal umfasst, basierend auf einer oder mehreren Charakteristiken des langen Rahmens (104) von Transformationskoeffizienten.
Codec nach einem der Ansprüche 26-31, wobei das erste Transformationsmodul (610) ein erstes Modulated Lapped Transform (MLT)-Modul umfasst und wobei das zweite Transformationsmodul (620) ein zweites MLT-Modul umfasst.
Codec nach einem der Ansprüche 26-32, wobei der Codierer ferner umfasst:
ein Normquantisierungsmodul, betreibbar zum Quantisieren einer Amplitudeneinhüllenden jedes Unterrahmens,

ein Normcodierungsmodul, betreibbar zum Codieren der Quantisierungsindizes der Amplitudeneinhüllenden der Unterrahmen, und

ein Modul (675) für adaptive Bit-Zuweisung, betreibbar zum Zuweisen vorhandener Bits zu Unterrahmen der Transformationskoeffizienten.
Codec nach einem der Ansprüche 26-33, wobei der Decoder ferner umfasst:
ein Normdecodierungsmodul (720), betreibbar zum Decodieren eines zweiten Teils des codierten Bitstream, um einen Quantisierungsindex für jede Amplitudeneinhüllende jedes Unterrahmens zu bilden,

ein Dequantisierungsmodul (725), betreibbar zum Dequantisieren der Quantisierungsindizes für die Amplitudeneinhüllenden der Unterrahmen, und

ein Modul (730) für adaptive Bit-Zuweisung, betreibbar zum Zuweisen vorhandener Bits zu den Unterrahmen der Transformationskoeffizienten.
Endpunkt umfassend:
ein Audio-Eingang/Ausgang-Interface (814),

wenigsten ein Mikrophon (816), das kommunikativ mit dem Audio-Eingang/Ausgang-Interface (814) gekoppelt ist

wenigstens einen Lautsprecher (818), der kommunikativ mit dem Audio-Eingang/Ausgang-Interface (814) gekoppelt ist, und

einen 22 kHz Audiocodec (812) gemäß einem der Ansprüche 26 bis 34, wobei der 22 kHz Audiocodec (812) mit dem Audio-Eingabe/Ausgabe-Interface (814) kommunikativ gekoppelt ist.
Endpunkt nach Anspruch 35, ferner umfassend:
einen Bus (830), der kommunikative mit dem Audio-Eingabe/Ausgabe-Interface (814) gekoppelt ist;

ein Video-Eingabe/Ausgabe-Interface (822), das kommunikativ mit dem Bus (830) gekoppelt ist;

wenigstens eine Kamera (826), die kommunikativ mit dem Video-Eingabe/Ausgabe-Interface (822) gekoppelt ist; und

wenigstens ein Anzeigegerät (828), das kommunikativ mit dem Video-Eingabe/Ausgabe-Interface (822) gekoppelt ist.