[go: up one dir, main page]

HK1111801B - Dual-transform coding of audio signals - Google Patents

Dual-transform coding of audio signals Download PDF

Info

Publication number
HK1111801B
HK1111801B HK08106189.0A HK08106189A HK1111801B HK 1111801 B HK1111801 B HK 1111801B HK 08106189 A HK08106189 A HK 08106189A HK 1111801 B HK1111801 B HK 1111801B
Authority
HK
Hong Kong
Prior art keywords
frame
coefficients
sub
transform coefficients
transform
Prior art date
Application number
HK08106189.0A
Other languages
English (en)
French (fr)
Chinese (zh)
Other versions
HK1111801A1 (en
Inventor
Minjie Xie
Peter Chu
Original Assignee
Hewlett-Packard Development Company, L.P.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/550,629 external-priority patent/US7953595B2/en
Application filed by Hewlett-Packard Development Company, L.P. filed Critical Hewlett-Packard Development Company, L.P.
Publication of HK1111801A1 publication Critical patent/HK1111801A1/en
Publication of HK1111801B publication Critical patent/HK1111801B/en

Links

Claims (36)

  1. Verfahren zum Codieren eines Audiosignals (102), wobei das Verfahren umfasst:
    Transformieren eines Rahmens von Zeitbereich-Abtastwerten des Audiosignals (102) in den Frequenzbereich, Bilden eines langen Rahmens (104) von Transformationskoeffizienten,
    Transformieren von n Teilen des Rahmens von Zeitbereich-Abtastwerten des Audiosignals (102) in den Frequenzbereich, Bilden von n kurzen Rahmen (106, 107, 108, 109) von Transformationskoeffizienten,
    wobei der Rahmen (104) der Zeitbereich-Abtastwerte eine erste Länge (L) aufweist,
    wobei jeder Teil des Rahmens der Zeitbereich-Abtastwerte eine zweite Länge (S) aufweist,
    wobei L = n x S, und
    wobei n eine ganze Zahl ist;
    Gruppieren einer Menge von Transformationskoeffizienten (212, 232) des langen Rahmens (104) von Transformationskoeffizienten und einer Menge von Transformationskoeffizienten (222-228, 242-248) der n kurzen Rahmen (106, 107, 108, 109) von Transformationskoeffizienten, um eine kombinierte Menge von Transformationskoeffizienten zu bilden,
    Quantisieren der kombinierten Menge von Transformationskoeffizienten, um eine Menge von Quantisierungsindizes der kombinierten Menge von Transformationskoeffizienten zu bilden, und
    Codieren der Quantisierungsindizes der quantisierten kombinierten Menge von Transformationskoeffizienten.
  2. Verfahren nach Anspruch 1, wobei das Transformieren die Anwendung einer Modulated Lapped Transform (MLT) umfasst.
  3. Verfahren nach Anspruch 1 oder 2, wobei das Audiosignal (102) mit 48 kHz abgetastet wird.
  4. Verfahren nach einem der Ansprüche 1-3, wobei die kombinierte Menge von Transformationskoeffizienten aufweist: Transformationskoeffizienten des langen Rahmens (104) bei einer ersten Frequenzbandbreite und Transformationskoeffizienten der n kurzen Rahmen (106, 107, 108, 109) bei einer zweiten Frequenzbandbreite.
  5. Verfahren nach Anspruch 4, wobei die erste Frequenzbandbreite und die zweite Frequenzbandbreite überlappen.
  6. Verfahren nach Anspruch 4 oder 5, wobei die erste Frequenzbreite eine obere Grenze im Bereich von 800 Hz bis 7 kHz aufweist.
  7. Verfahren nach einem der Ansprüche 4-6, wobei die erste Frequenzbandbreite Audiofrequenzen bis zu 7 kHz umfasst und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 6,8 kHz bis 22 kHz umfasst.
  8. Verfahren nach einem der Ansprüche 1-7, ferner aufweisend:
    Ermitteln, ob ein Audiosignal (102) ein stoßartiges Signal umfasst.
  9. Verfahren nach Anspruch 8, wobei das Ermitteln umfasst:
    Bestimmen, ob eine durchschnittliche Gradientensteigung der langen Transformationskoeffizienten über einer Frequenzbandbreite von bis zu 10 kHz einen vorbestimmten Steigungsschwellwert überschreitet,
    Bestimmen, ob ein erster Transformationskoeffizient des langen Rahmens von Transformationskoeffizienten ein Maximum des langen Rahmens von Transformationskoeffizienten ist, und
    Bestimmen, ob eine Nulldurchgangsrate der Transformationskoeffizienten des langen Rahmens von Transformationskoeffizienten kleiner als ein vorbestimmter Ratenschwellwert ist.
  10. Verfahren nach Anspruch 8 oder 9, wobei die kombinierte Menge von Transformationskoeffizienten Transformationskoeffizienten des langen Rahmens (104) bei einer ersten Frequenzbandbreite und Transformationskoeffizienten der n kurzen Rahmen (106, 107, 108, 109) bei einer zweiten Frequenzbandbreite umfasst, wobei, falls das stoßartiges Signal ermittelt wird, die erste Frequenzbandbreite Audiofrequenzen bis zu 800 Hz umfasst, und wobei, falls das stoßartige Signal ermittelt wird, die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 600 Hz bis 22 kHz umfasst.
  11. Verfahren nach einem der Ansprüche 1-10, wobei das Codieren Huffman-Codierung umfasst.
  12. Verfahren nach einem der Ansprüche 1-11, ferner umfassend:
    Gruppieren der kombinierten Menge von Koeffizienten in eine Vielzahl von Gruppen, wobei jede Gruppe eine Vielzahl von Unterrahmen umfasst und wobei jeder Unterrahmen eine bestimmte Anzahl von Koeffizienten umfasst,
    Bestimmen einer Norm für jeden Unterrahmen basierend auf dem rms des Unterrahmens,
    Quantisieren des rms für jeden Unterrahmen,
    Normalisieren der Koeffizienten jedes Unterrahmens durch Teilen jedes Koeffizienten innerhalb des Unterrahmens durch das quantisierte rms des Unterrahmens,
    Quantisieren der Koeffizienten von jedem Unterrahmen,
    Behalten eines Huffman-Codierungs-Flag für jede Gruppe von Unterrahmen,
    Behalten einer festgelegten Bitanzahl zur Codierung jeder Gruppe,
    Berechnen einer benötigten Bitanzahl zur Verwendung der Huffman-Codierung für jede Gruppe,
    Setzen des Huffman-Flag und Verwenden der Huffman-Codierung, falls die benötigte Bitanzahl zur Verwendung der Huffman-Codierung kleiner als die festgelegte Bitanzahl für diese Gruppe ist, und
    Löschen des Huffman-Codierung-Flag und Verwendung einer festgelegten Anzahl von Bitcodierung, falls die benötigte Bitanzahl zur Verwendung der Huffman-Codierung nicht kleiner als die festgelegte Bitanzahl für die Untergruppe ist.
  13. Verfahren nach einem der Ansprüche 1-11, ferner umfassend:
    Gruppieren der kombinierten Menge von Koeffizienten in eine Vielzahl von Gruppen, wobei jede Gruppe eine Vielzahl von Unterrahmen umfasst und wobei jeder Unterrahmen eine bestimmte Anzahl von Koeffizienten umfasst,
    Bestimmen einer Norm für jeden Unterrahmen basierend auf dem rms des Unterrahmens,
    Quantisieren des rms für jeden Unterrahmen, um einen Quantisierungsindex für jede Norm zu bilden, und
    Huffman-Codieren des Quantisierungsindex für jede Norm, falls eine für die Huffman-Codierung verwendete Gesamtbitanzahl kleiner als die der Normquantisierung zugewiesene Gesamtbitanzahl ist.
  14. Verfahren nach einem der Ansprüche 1-11, ferner umfassend:
    Gruppieren der kombinierten Menge von Koeffizienten in eine Vielzahl von Gruppen, wobei jede Gruppe eine Vielzahl von Unterrahmen umfasst und wobei jeder Unterrahmen eine bestimmte Anzahl von Koeffizienten umfasst,
    Bestimmen einer Norm für jeden der Unterrahmen basierend auf dem rms des Unterrahmens,
    Quantisieren der rms für jeden Unterrahmen, und
    dynamisches Zuweisen vorhandener Bits zu jedem Unterrahmen basierend auf der quantisierten rms des Unterrahmens.
  15. Computerlesbares Medium, das darauf ein Programm enthält, wobei das Programm mit einer Maschine ausführbar ist, um das Verfahren nach einem der Ansprüche 1 bis 14 durchzuführen.
  16. Verfahren zum Decodieren eines codierten Bitstream, der ein Audiosignal (102) wiedergibt, wobei das Verfahren umfasst:
    Decodieren (520) eines Teils des codierten Bitstream, um Quantisierungsindizes für eine Vielzahl von Gruppen von Transformationskoeffizienten zu bilden,
    Dequantisieren (530) der Quantisierungsindizes für die Vielzahl von Gruppen von Transformationskoeffizienten,
    Separieren der Transformationskoeffizienten in ein Menge von langen Rahmenkoeffizienten (212, 232) und n Mengen von kurzen Rahmenkoeffizienten (222-228, 242-248),
    Umwandeln der Menge von Koeffizienten (212, 232) des langen Rahmens vom Frequenzbereich in den Zeitbereich, um ein Signal mit langem Zeitbereich zu bilden,
    Umwandeln der n Mengen von Koeffizieten (222-228, 242-248) von kurzen Rahmen vom Frequenzbereich in den Zeitbereich, um eine Reihe von Signalen mit n kurzen Zeitbereichen zu bilden,
    wobei das Signal mit langem Zeitbereich eine erste Länge (L) aufweist,
    wobei jedes Signal mit kurzem Zeitbereich eine zweite Länge (S) aufweist,
    wobei L = n x S, und
    wobei n eine ganze Zahl ist, und
    Kombinieren (580) des Signals mit langem Zeitbereich und der Reihe von Signalen mit n kurzen Zeitbereichen, um das Audiosignal (102) zu bilden.
  17. Verfahren nach Anspruch 16, wobei die Koeffizienten (212, 232) des langen Rahmens innerhalb einer ersten Frequenzbandbreite sind und wobei die Koeffizienten (222-228, 242-248) des kurzen Rahmens innerhalb einer zweiten Frequenzbandbreite sind.
  18. Verfahren nach Anspruch 17, wobei die erste Frequenzbandbreite eine obere Grenze im Bereich von 800 Hz bis 7 kHz aufweist.
  19. Verfahren nach Anspruch 17, wobei die erste Frequenzbandbreite Audiofrequenzen bis 7 kHz umfasst und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 6,8 kHz bis 22 kHz umfasst.
  20. Verfahren nach Anspruch 17, wobei die erste Frequenzbandbreite Audiofrequenzen bis zu 800 Hz umfasst und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 600 Hz bis 22 kHz umfasst.
  21. Verfahren nach einem der Ansprüche 16-20, ferner umfassend:
    Decodieren eines zweiten Teils des codierten Bitstream, um einen Quantisierungsindex für eine Norm jedes Unterrahmens zu bilden, und
    Dequantisieren (550) des Quantisierungsindex für jeden Unterrahmen.
  22. Verfahren nach einem der Ansprüche 16-21, ferner umfassend:
    dynamisches Zuweisen (540) vorhandener Bits zu jedem Unterrahmen entsprechend der Quantisierungsnorm des Unterrahmens.
  23. Verfahren nach Anspruch 21, ferner umfassend:
    Bestimmen einer Bitanzahl zum Zuordnen zu den Normen, falls der codierte Bitstream einen Indikator umfasst, dass eine Huffman-Codierung verwendet wurde, um die Normen zu codieren, und
    Huffman- Decodieren (520) der Normen.
  24. Verfahren nach einem der Ansprüche 16-23, ferner umfassend:
    Bestimmen einer Bitanzahl, um sie einer bestimmten Gruppe von Unterrahmen zuzuweisen, falls der codierte Bitstream einen Indikator umfasst, dass eine Huffman-Codierung verwendet wurde, um die bestimmten Gruppe von Unterrahmen zu codieren, und
    Huffman-Decodieren der bestimmten Gruppe von Unterrahmen von Koeffizienten.
  25. Computerlesbares Medium, das darauf ein Programm enthält, wobei das Programm mit einer Maschine ausführbar ist, um das Verfahren nach einem der Ansprüche 16 bis 24 durchzuführen.
  26. 22 kHz Audiocodec, aufweisend:
    einen Codierer mit
    einem ersten Transformationsmodul (610), betreibbar zum Transformieren eines Rahmens von Abtastwerten eines Audiosignals (102) vom Zeitbereich in den Frequenzbereich, Bilden eines langen Rahmens (104) von Transformationskoeffizienten,
    einem zweiten Transformationsmodul (620), betreibbar zum Transformieren von n Teilen des Rahmens von Abtastwerten des Audiosignals (102) vom Zeitbereich in den Frequenzbereich, Bilden von n kurzen Rahmen (106, 107, 108, 109) von Transformationskoeffizienten,
    wobei der Rahmen von Zeitbereich-Abtastwerten eine erste Länge (L) aufweist,
    wobei jeder Teil des Rahmens von Zeitbereich-Abtastwerten eine zweite Länge (S) aufweist,
    wobei L = n x S, und
    wobei n eine ganze Zahl ist,
    einem Kombinationsmodul (640), betreibbar zum Kombinieren einer Menge von Transformationskoeffizienten des langen Rahmens (104) von Transformationskoeffizienten und einer Menge von Transformationskoeffizienten der n kurzen Rahmen (106, 107, 108, 109) von Transformationskoeffizienten, Bilden einer kombinierte Menge von Transformationskoeffizienten,
    einem Quantisierungsmodul (650), betreibbar zum Quantisieren der kombinierten Menge von Transformationskoeffizienten, Bilden einer Menge von Quantisierungsindizes der quantisierten kombinierten Menge von Transformationskoeffizienten, und
    einem Codierungsmodul (670), betreibbar zum Codieren der Quantisierungsindizes der quantisierten kombinierten Menge von Transformationskoeffizienten, und einen Decodierer mit
    einem Decodierungsmodul (735), betreibbar zum Decodieren eines Teils des codierten Bitstream, Bilden von Quantisierungsindizes für eine Vielzahl von Gruppen von Transformationskoeffizienten,
    einem Dequantisierungsmodul (740), betreibbar zum Dequantisieren der Quantisierungsindizes für die Vielzahl von Gruppen von Transformationskoeffizienten,
    einem Separationsmodul (750), betreibbar zum Separieren der Transformationskoeffizienten in eine Menge von langen Rahmenkoeffizienten (212, 232) und n Mengen von kurzen Rahmenkoeffizienten (222-228, 242-248),
    einem ersten Rücktransformations-Modul (760), betreibbar zum Umwandeln der Menge von Koeffizienten (212, 232) des langen Rahmens vom Frequenzbereich in den Zeitbereich, Bilden eines Signals mit langem Zeitbereich,
    einem zweiten Rücktransformations- Modul (770), betreibbar zum Umwandeln der n Mengen von Koeffizienten (222-228, 242-248) des kurzen Rahmens vom Frequenzbereich in den Zeitbereich, Bilden einer Reihe von n Signalen mit kurzem Zeitbereich, und
    einem Summationsmodul zum Kombinieren des Signals mit langem Zeitbereich und der Reihe von n Signalen mit kurzem Zeitbereich.
  27. Codec nach Anspruch 26, wobei die kombinierte Menge von Transformationskoeffizienten umfasst: Transformationskoeffizienten des langen Rahmens (104) bei einer ersten Frequenzbandbreite und Transformationskoeffizienten der n kurzen Rahmen (106, 107, 108, 109) bei einer zweite Frequenzbandbreite.
  28. Codec nach Anspruch 27, wobei die erste Frequenzbandbreite eine obere Grenze im Bereich von 800 Hz bis 7 kHz aufweist.
  29. Codec nach Anspruch 27, wobei die erste Frequenzbandbreite Audiofrequenzen bis zu 7 kHz umfasst, und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 6,8 kHz bis 22 kHz umfasst.
  30. Codec nach Anspruch 27, wobei die erste Frequenzbandbreite Audiofrequenzen bis zu 800 Hz umfasst, und wobei die zweite Frequenzbandbreite Audiofrequenzen im Bereich von 600 Hz bis 22 kHz umfasst.
  31. Codec nach einem der Ansprüche 26-30 des Weiteren umfassend:
    ein Modul (630), betreibbar zum Ermitteln, ob das Audiosignal ein stoßartiges Signal umfasst, basierend auf einer oder mehreren Charakteristiken des langen Rahmens (104) von Transformationskoeffizienten.
  32. Codec nach einem der Ansprüche 26-31, wobei das erste Transformationsmodul (610) ein erstes Modulated Lapped Transform (MLT)-Modul umfasst und wobei das zweite Transformationsmodul (620) ein zweites MLT-Modul umfasst.
  33. Codec nach einem der Ansprüche 26-32, wobei der Codierer ferner umfasst:
    ein Normquantisierungsmodul, betreibbar zum Quantisieren einer Amplitudeneinhüllenden jedes Unterrahmens,
    ein Normcodierungsmodul, betreibbar zum Codieren der Quantisierungsindizes der Amplitudeneinhüllenden der Unterrahmen, und
    ein Modul (675) für adaptive Bit-Zuweisung, betreibbar zum Zuweisen vorhandener Bits zu Unterrahmen der Transformationskoeffizienten.
  34. Codec nach einem der Ansprüche 26-33, wobei der Decoder ferner umfasst:
    ein Normdecodierungsmodul (720), betreibbar zum Decodieren eines zweiten Teils des codierten Bitstream, um einen Quantisierungsindex für jede Amplitudeneinhüllende jedes Unterrahmens zu bilden,
    ein Dequantisierungsmodul (725), betreibbar zum Dequantisieren der Quantisierungsindizes für die Amplitudeneinhüllenden der Unterrahmen, und
    ein Modul (730) für adaptive Bit-Zuweisung, betreibbar zum Zuweisen vorhandener Bits zu den Unterrahmen der Transformationskoeffizienten.
  35. Endpunkt umfassend:
    ein Audio-Eingang/Ausgang-Interface (814),
    wenigsten ein Mikrophon (816), das kommunikativ mit dem Audio-Eingang/Ausgang-Interface (814) gekoppelt ist
    wenigstens einen Lautsprecher (818), der kommunikativ mit dem Audio-Eingang/Ausgang-Interface (814) gekoppelt ist, und
    einen 22 kHz Audiocodec (812) gemäß einem der Ansprüche 26 bis 34, wobei der 22 kHz Audiocodec (812) mit dem Audio-Eingabe/Ausgabe-Interface (814) kommunikativ gekoppelt ist.
  36. Endpunkt nach Anspruch 35, ferner umfassend:
    einen Bus (830), der kommunikative mit dem Audio-Eingabe/Ausgabe-Interface (814) gekoppelt ist;
    ein Video-Eingabe/Ausgabe-Interface (822), das kommunikativ mit dem Bus (830) gekoppelt ist;
    wenigstens eine Kamera (826), die kommunikativ mit dem Video-Eingabe/Ausgabe-Interface (822) gekoppelt ist; und
    wenigstens ein Anzeigegerät (828), das kommunikativ mit dem Video-Eingabe/Ausgabe-Interface (822) gekoppelt ist.
HK08106189.0A 2006-10-18 2008-06-03 Dual-transform coding of audio signals HK1111801B (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/550,629 US7953595B2 (en) 2006-10-18 2006-10-18 Dual-transform coding of audio signals
US550629 2006-10-18

Publications (2)

Publication Number Publication Date
HK1111801A1 HK1111801A1 (en) 2008-08-15
HK1111801B true HK1111801B (en) 2013-03-22

Family

ID=

Similar Documents

Publication Publication Date Title
EP1914724B1 (de) Dual-Transformationskodierung von Audiosignalen
EP1914725B1 (de) Schnelle Gitter-Vektorquantisierung
US6240380B1 (en) System and method for partially whitening and quantizing weighting functions of audio signals
US6253165B1 (en) System and method for modeling probability distribution functions of transform coefficients of encoded signal
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
US5983172A (en) Method for coding/decoding, coding/decoding device, and videoconferencing apparatus using such device
EP1701452B1 (de) Verfahren und vorrichtung zur maskierung des quantisierungsrauschens von audiosignalen
EP2402939B1 (de) Vollbandskalierbarer Audio-Codec
JP3513292B2 (ja) 雑音荷重フィルタリング方法
EP0884850A2 (de) Komprimierende Audio-Kodier- und Dekodier-Methode und dafür geeignetes Gerät
EP0910067A1 (de) Audiosignalkodier- und dekodierverfahren und audiosignalkodierer und -dekodierer
CN104392726B (zh) 编码设备和解码设备
EP1228506A1 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
JP3353868B2 (ja) 音響信号変換符号化方法および復号化方法
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
US6792402B1 (en) Method and device for defining table of bit allocation in processing audio signals
JP2004246038A (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
HK1111801B (en) Dual-transform coding of audio signals
HK1111800B (en) Fast lattice vector quantization
KR100195708B1 (ko) 디지탈 오디오 부호기