HK1178669B

HK1178669B - System and method for non-destructively normalizing loudness of audio signals within portable devices

Info

Publication number: HK1178669B
Application number: HK13105360.6A
Authority: HK
Inventors: Jeffrey C. Riedmiller; Harald H. Mundt; Michael Schug; Martin Wolters
Original assignee: Dolby Laboratories Licensing Corporation; Dolby International Ab
Priority date: 2010-02-11
Filing date: 2011-02-03
Publication date: 2019-08-30

Claims

Verfahren zum Decodieren eines codierten Eingangssignals, um ein Audioausgangssignal zu erzeugen, wobei das Verfahren Folgendes umfasst:
Empfangen des codierten Eingangssignals, das codierte Audioinformationen und assoziierte Metadaten einschließlich eines oder mehrerer Decodierungssteuerungsparameter und eines oder mehrerer erster Parameter, die eine Dynamikbereich-Komprimierung gemäß einem ersten Dynamikbereich-Komprimierungsprofil spezifizieren, und optional einschließlich eines oder mehrerer zweiter Parameter, die eine Dynamikbereich-Komprimierung gemäß einem zweiten Dynamikbereich-Komprimierungsprofil spezifizieren, beinhaltet, wobei der eine oder die mehreren ersten Parameter Werte aufweisen, die gemäß einem Codierungsprozess festgelegt wurden, der die codierten Audioinformationen erzeugte, um aurale Anregungen mit Amplituden, die einen Abschneidepegel nicht überschreiten, für ein Playback mit einem ersten Referenzwiedergabepegel zu repräsentieren, und

wobei der eine oder die mehreren zweiten Parameter Werte aufweisen, die gemäß dem Codierungsprozess festgelegt wurden, der die codierten Audioinformationen erzeugte, um die auralen Anregungen mit Amplituden, die den Abschneidepegel nicht überschreiten, für ein Playback mit einem zweiten Referenzwiedergabepegel, der höher ist als der erste Referenzwiedergabepegel, zu repräsentieren;

Anwenden eines Decodierungsprozesses an den codierten Audioinformationen, um Teilbandsignale zu erhalten, die einen spektralen Inhalt der auralen Anregungen repräsentieren, wobei der Decodierungsprozess als Reaktion auf den einen oder die mehreren Decodierungssteuerungsparameter angepasst wird;

Modifizieren der Teilbandsignale, um modifizierte Teilbandsignale mit geänderten Dynamikbereich-Charakteristiken zu erhalten, wobei das Modifizieren als Reaktion auf den einen oder die mehreren zweiten Parameter angepasst wird, falls die Metadaten den einen oder die mehreren zweiten Parameter beinhalten, oder als Reaktion auf den einen oder die mehreren ersten Parameter angepasst wird, falls die Metadaten den einen oder die mehreren zweiten Parameter nicht beinhalten;

Anwenden einer Synthesefilterbank an den modifizierten Teilbandsignalen, um ein Zeitbereich-Audiosignal zu erhalten; und

falls die Metadaten den einen oder die mehreren zweiten Parameter nicht beinhalten, Anwenden einer Verstärkung und eines Begrenzers an dem Zeitbereich-Audiosignal als Reaktion auf die Metadaten, wobei die Anwendung der Verstärkung das Zeitbereich-Audiosignal modifiziert, um das Audioausgangssignal mit Amplituden für ein Playback mit dem zweiten Referenzwiedergabepegel zu erhalten, und wobei die Anwendung des Begrenzers verhindert, dass die Amplituden des Audioausgangssignals den Abschneidepegel überschreiten.
Verfahren nach Anspruch 1, wobei der eine oder die mehreren zweiten Parameter Differenzen zwischen entsprechenden Parametern für das erste Dynamikbereich-Komprimierungsprofil und das zweite Dynamikbereich-Komprimierungsprofil repräsentieren.
Verfahren nach Anspruch 1 oder 2, wobei das codierte Eingangssignal dem ATSC-Standard, dem MPEG-2-AAC-Standard oder dem MPEG-4-Audiostandard entspricht, der erste Referenzwiedergabepegel einer Amplitude von 20 dB unter dem Abschneidepegel entspricht und der zweite Referenzwiedergabepegel einer Amplitude von 11 dB unter dem Abschneidepegel entspricht.
Verfahren zum Codieren eines Audioeingangssignals, das aurale Anregungen repräsentiert, wobei das Verfahren Folgendes umfasst:
Empfangen des Audioeingangssignals;

Anwenden einer ersten Analysefilterbank an dem Audioeingangssignal, um Teilbandsignale zu erzeugen, die einen spektralen Inhalt des Audioeingangssignals repräsentieren;

Analysieren eines oder mehrerer Signale, die aus dem Audioeingangssignal abgeleitet werden, um Metadaten einschließlich eines oder mehrerer erster Parameter, die eine Dynamikbereich-Komprimierung gemäß einem ersten Dynamikbereich-Komprimierungsprofil spezifizieren, und eines oder mehrerer zweiter Parameter, die eine Dynamikbereich-Komprimierung gemäß einem zweiten Dynamikbereich-Komprimierungsprofil spezifizieren, zu berechnen, wobei der eine oder die mehreren ersten Parameter Werte aufweisen, die festgelegt werden, um die auralen Anregungen mit Amplituden, die einen Abschneidepegel nicht überschreiten, für ein Playback mit einem ersten Referenzwiedergabepegel zu repräsentieren, und

wobei der eine oder die mehreren zweiten Parameter Werte aufweisen, die festgelegt werden, um die auralen Anregungen mit Amplituden, die den Abschneidepegel nicht überschreiten, für ein Playback mit einem zweiten Referenzwiedergabepegel zu repräsentieren;

Anwenden eines Codierungsprozesses an den Teilbandsignalen, um codierte Audioinformationen zu erhalten; und

Zusammenstellen der codierten Audioinformationen und der Metadaten in ein codiertes Ausgangssignal mit einem Format, das sich zur Übertragung oder Speicherung eignet, wobei der eine oder die mehreren zweiten Parameter Differenzen zwischen entsprechenden Parametern für das erste Dynamikbereich-Komprimierungsprofil und das zweite Dynamikbereich-Komprimierungsprofil repräsentieren.
Verfahren nach Anspruch 4, wobei das codierte Ausgangssignal dem ATSC-Standard, dem MPEG-2-AAC-Standard oder dem MPEG-4-Audiostandard entspricht, der erste Referenzwiedergabepegel einer Amplitude von 20 dB unter dem Abschneidepegel entspricht und der zweite Referenzwiedergabepegel einer Amplitude von 11 dB unter dem Abschneidepegel entspricht.
Verfahren zum Transcodieren eines codierten Eingangssignals, um ein codiertes Ausgangssignal zu erzeugen, wobei das Verfahren Folgendes umfasst:
Empfangen des codierten Eingangssignals, das erste codierte Audioinformationen und assoziierte Metadaten einschließlich eines oder mehrerer Decodierungssteuerungsparameter und eines oder mehrerer erster Parameter, die eine Dynamikbereich-Komprimierung gemäß einem ersten Dynamikbereich-Komprimierungsprofil spezifizieren, beinhaltet, wobei der eine oder die mehreren ersten Parameter Werte aufweisen, die gemäß einem ersten Codierungsprozess festgelegt wurden, der die ersten codierten Audioinformationen erzeugte, um aurale Anregungen mit Amplituden, die einen Abschneidepegel nicht überschreiten, für ein Playback mit einem ersten Referenzwiedergabepegel zu repräsentieren;

Anwenden eines Decodierungsprozesses an den ersten codierten Audioinformationen, um Teilbandsignale zu erhalten, die einen spektralen Inhalt der auralen Anregungen repräsentieren, wobei der Decodierungsprozess als Reaktion auf den einen oder die mehreren Decodierungssteuerungsparameter angepasst wird;

Analysieren eines oder mehrerer Signale, die aus den Teilbandsignalen erhalten werden, um einen oder mehrere zweite Parameter zu berechnen, die eine Dynamikbereich-Komprimierung gemäß einem zweiten Dynamikbereich-Komprimierungsprofil spezifizieren, wobei der eine oder die mehreren zweiten Parameter Werte aufweisen, die festgelegt werden, um die auralen Anregungen mit Amplituden, die den Abschneidepegel nicht überschreiten, für ein Playback mit einem zweiten Referenzwiedergabepegel zu repräsentieren; und

Zusammenstellen von zweiten codierten Audioinformationen, des einen oder der mehreren ersten Parameter und des einen oder der mehreren zweiten Parameter in ein codiertes Ausgangssignal mit einem Format, das sich zur Übertragung oder Speicherung eignet, wobei die zweiten codierten Audioinformationen eine codierte Repräsentation der Teilbandsignale sind.
Verfahren nach Anspruch 6, wobei der eine oder die mehreren zweiten Parameter Differenzen zwischen entsprechenden Parametern für das erste Dynamikbereich-Komprimierungsprofil und das zweite Dynamikbereich-Komprimierungsprofil repräsentieren.
Verfahren nach Anspruch 6 oder 7, das Anwenden einer Synthesefilterbank an den Teilbandsignalen umfasst, um das eine oder die mehreren Signale zu erhalten, die zum Berechnen des einen oder der mehreren zweiten Parameter, die eine Dynamikbereich-Komprimierung spezifizieren, analysiert werden.
Verfahren nach einem der Ansprüche 6 bis 8, das Anwenden eines zweiten Codierungsprozesses an den Teilbandsignalen umfasst, um die zweiten codierten Audioinformationen zu erzeugen.
Verfahren nach einem der Ansprüche 6 bis 8, wobei die zweiten codierten Audioinformationen die ersten codierten Audioinformationen sind.
Verfahren nach einem der Ansprüche 6 bis 10, wobei das codierte Eingangssignal dem ATSC-Standard, dem MPEG-2-AAC-Standard oder dem MPEG-4-Audiostandard entspricht und der erste Referenzwiedergabepegel einer Amplitude von 20 dB unter dem Abschneidepegel entspricht.
Verfahren nach einem der Ansprüche 6 bis 10, wobei das codierte Ausgangssignal dem ATSC-Standard, dem MPEG-2-AAC-Standard oder dem MPEG-4-Audiostandard entspricht und der zweite Referenzwiedergabepegel einer Amplitude von 11 dB unter dem Abschneidepegel entspricht.
Vorrichtung, die Mittel zum Durchführen der Schritte des Verfahrens nach einem der Ansprüche 1 bis 12 umfasst.
Speichermedium, das ein Programm von Anweisungen aufzeichnet, das durch eine Einrichtung zum Durchführen der Schritte des Verfahrens nach einem der Ansprüche 1 bis 12 ausgeführt werden kann.