EP0957471B1

EP0957471B1 - Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen

Info

Publication number: EP0957471B1
Application number: EP99106223A
Authority: EP
Inventors: Thilo Thiede
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 1998-05-13
Filing date: 1999-04-12
Publication date: 2006-02-01
Anticipated expiration: 2019-04-12
Also published as: EP0957471A2; US7194093B1; CA2271445C; ATE317151T1; DE19821273B4; DE19821273A1; DK0957471T3; EP0957471A3; DE59913088D1; CA2271445A1

Description

Die Erfindung betrifft ein Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen nach dem Oberbegriff des Patentanspruchs 1.
Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen sind grundsätzlich bekannt. Die grundsätzliche Struktur eines solchen Messverfahrens besteht in der Abbildung der Eingangssignale auf eine gehörgerechte Zeit-Frequenz-Repräsentation, einem Vergleich dieser Darstellung und der Berechnung von Einzelzahlwerten zur Abschätzung der wahrnehmbaren Störungen. Hierzu wird auf folgende Veröffentlichungen verwiesen:

Schroeder, M.R.; Atal, B. S.; Hall, J.L: Optimizing digital speech coders by exploiting masking properties of the human ear. J. Acoust. Soc. Am., Vol. 66 (1979), No. 6, December, Seiten 1647 - 1652.
Beerends, J.G.; Stemerdink, J.A.: A Perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation. J. AES, Voi. 40 (1992), No. 12, December, Seiten 963 - 978.
Brandenburg, K.H.; Sporer, Th.: NMR* and Masking Flag: Evaluation of Quality Using Perceptual Criteria. Proceedings of the AES 11th International Conference, Portland, Oregon, USA, 1992, Seiten 169-179.

Wie aus diesen Veröffentlichungen hervorgeht, benutzen die für die Beurteilung von codierten Audiosignalen verwendeten Modelle jedoch FFT Algorithmen und erfordern daher eine Umrechnung von der durch die FFT vorgegebenen linearen Frequenzeinteilung auf eine gehörgerechte Frequenzeinteilung. Dadurch ist die zeitliche Auflösung suboptimal. Außerdem erfolgt die Faltung mit Verschmierungsfunktion nach der Gleichrichtung bzw. Betragsbildung.
Aus der Fachveröffentlichung Hansen et. Al. "Using a qualitative Psychoacoustical Signal representation for Objective Speech Quality Measurements" ICASSP' 97, S. 1387 - 1390, ist ein Meßverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen mit Hilfe von Filtern bzw. einer Filterbank bekannt. Das Signal wird in 19 Frequenzbänder von 350 Hz - 3500 Hz aufgeteilt.
Der Erfindung liegt die Aufgabe zugrunde, ein objektives Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen mittels neuer schneller Algorithmen zur Berechnung linearphasiger Filter zu schaffen, wobei die Laufzeit der hörbaren Störungen unter Berücksichtigung der zeitlichen Änderung der Hüllkurven an den einzelnen Filterausgängen berechnet und eine gehörangepasste Filterbank verwendet werden soll, wodurch eine optimale zeitliche Auflösung erreicht werden soll und zwar bei signifikanter Einsparung von Rechenzeit gegenüber anderen Filterbänken. Die erfindungsgemäße Lösung der Aufgabe ist im Kennzeichen des Patentanspruchs 1 charakterisiert.
Weitere Lösungen bzw. Ausgestaltungen der Erfindung sind in den Patentansprüchen 2 bis 23 charakterisiert.
Ein wesentlicher Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass ein genaueres Gehörmodell erzielt wird, da hörbare Störungen unter Berücksichtigung der zeitlichen Änderung der Hüllkurven an den einzelnen Filterausgängen berechnet werden.
Außerdem wird eine gehörangepasste Filterbank verwendet, wodurch eine optimale zeitliche Auflösung erreicht wird, und das zeitliche Verhalten der Filter (Impulsantwort u.s.w.) direkt mit der Pegelabhängigkeit der Übertragungsfunktionen korrespondiert. Die Phaseninformation in den Filterkanälen bleibt erhalten. Wie bereits ausgeführt, erfolgt bei den bisher bekannten Lösungen die Faltung mit Verschmierfunktion erst nach der Gleichrichtung bzw. Betragsbildung. Eine Signalabhängigkeit der Filtercharakteristiken wird dadurch erreicht, dass die Filterausgänge vor der Gleichrichtung/Betragsbildung mit einer pegelabhängigen Verschmierfunktion im Frequenzbereich gefaltet werden.
Dadurch, dass ein neuer schneller Algorithmus zur rekursiven Berechnung linearphasiger Filter verwendet wird, ergibt sich eine wesentliche Einsparung an Rechenzeit, ein einfacher Entwurf und Filter, die leichter variierbar als die bisher angewandten konventionellen rekursiven Filter sind.
Im Originalsignal vorhandene und lediglich in ihrer spektralen Verteilung veränderten Signalanteile werden von additiven bzw. von durch Nichtlinearitäten erzeugten Störungen getrennt, wobei die Trennung durch Auswertung der Orthogonalitätsbeziehung zwischen den zeitlichen Verläufen der Hüllkurven an einander entsprechenden Filterausgängen des zu bewertenden Signals und des Originalsignals erfolgt. Die Trennung dieser Störanteile entspricht besser dem tatsächlichen Höreindruck.
Der Filterbankalgorithmus wird in folgender Weise realisiert:

Aus jedem einlaufendem Impuls wird durch rekursive komplexe Multiplikation eine ungedämpfte Sinusschwingung mit der gewünschten Filtermittenfrequenz erzeugt.
Die zu einem Eingangsimpuls gehörende Sinusschwingung wird durch Subtraktion des um dem Kehrwert der gewünschten Filterbandbreite entsprechende Zeit verzögerten und mit dem der Verzögerung entsprechenden Phasenwinkel multiplizierten Eingangsimpuls wieder abgebrochen.
- Durch Faltung im Frequenzbereich wird durch gewichtete Summation von je n Filterausgängen gleicher Bandbreite und um jeweils eine Periode versetzter Mittenfrequenz aus dem nach Schritt 2 resultierendem sin(x)/x-förmigen Dämpfungsverlauf ein der Fouriertransformierten eines cos^(n-1) förmigen Zeitfensters entsprechender Dämpfungsverlauf erzeugt. Hierdurch kann der Dämpfungsverlauf in der Umgebung der Filtermittenfrequenzen geformt und eine ausreichend hohe Sperrdämpfung ermöglicht werden.
- Der Dämpfungsverlauf in größerer Entfernung von der Filtermittenfrequenz kann durch eine weitere Faltung im Frequenzbereich bestimmt werden (Übergang zwischen Durchlaßbereich und Sperrbereich).

Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung in Verbindung mit den in der Zeichnung dargestellten Ausführungsbeispielen.
Die Erfindung wird im folgenden anhand von in den Zeichnungen dargestellten Ausführungsbeispielen näher beschrieben. In der Beschreibung, in den Patentansprüchen, der Zusammenfassung und in der Zeichnung werden die in der hinten angeführten Liste der Bezugszeichen verwendeten Begriffe und zugeordneten Bezugszeichen verwendet.
In den Zeichnungen bedeuten:

Fig. 1: eine Struktur des Meßverfahrens und
Fig. 2: eine Filterstruktur.

Das vorliegende Meßverfahren bewertet die Störungen eines Audiosignals durch Vergleich mit einem ungestörten Referenzsignal. Nach einer Filterung mit den Übertragungsfunktionen von Außen- und Mittelohr werden die Eingangssignale durch eine gehörangepaßte Filterbank in eine Zeit-Tonheits-Darstellung umgerechnet. Es werden die - Betragsquadrate der Filterausgangssignale berechnet (Gleichrichtung) und es wird eine Faltung der Filterausgänge mit einer Verschmierfunktion durchgeführt. Die Faltung kann im Gegensatz zu den bisher bekannten Verfahren vor der Gleichrichtung erfolgen oder auch danach. Pegelunterschiede zwischen Test- und Referenzsignal sowie lineare Verzerrungen im Testsignal werden kompensiert und getrennt ausgewertet. Anschließend wird ein frequenzabhängiger Offset addiert, um das Eigenrauschen des Gehörs zu modellieren und es wird eine zeitliche Verschmierung der Ausgangssignale vorgenommen. Ein Teil dieser zeitlichen Verschmierung kann bereits direkt nach der Gleichrichtung erfolgen, um Rechenzeit zu sparen. Nach der zeitlichen Verschmierung (Tiefpaßfilterung) ist dann eine Unterabtastung der Signale zulässig. Durch einen Vergleich zwischen dem sich ergebenden gehörgerechten Zeit-Frequenzmustern von Test- und Referenzsignal können eine Reihe von Ausgangsgrößen berechnet werden, die eine Abschätzung der wahrnehmbaren Störungen liefern.
Zunächst soll die in Fig. 1 als Ausführungsbeispiel dargestellte Struktur bzw. der Aufbau des Meßverfahrens erklärt werden. Die Testsignale 1a, 1b, für den linken bzw. rechten Kanal und die Referenzsignale 1c, 1d, für den linken bzw. rechten Kanal werden zur Vorfilterung jeweils auf Vorfilter 2 gegeben. Nach der Vorfilterung erfolgt die eigentliche Filterung in der Filterbank 3. Danach erfolgt die spektrale Verschmierung 4 und die Berechnung der Betragsquadrate 5. Die mit 6 bezeichneten Kästchen in der Figur stellen symbolisch die zeitliche Verschmierung dar. Danach erfolgt der Pegel- und Frequenzgangangleich 7, wobei auch Ausgangsparameter 11 geliefert werden. Nach dem Pegel-und Frequenzangleich 7 erfolgt die Addition von Eigenrauschen 8 und danach die zeitliche Verschmierung 9.
Die Berechnung von Ausgangsparametern 11 erfolgt in der dargestellten Struktur bei dem symbolisch dargestellten Block 10. Der Pegel- und Frequenzgangangleich 7 kann auch zwischen Schritt bzw. Operation 9 und 10 erfolgen.
Zunächst wird die Berechnung der Erregungsmuster mittels der gehörangepaßten Filterbank 3 beschrieben.
Die Filterbank 3 besteht aus einer beliebig wählbaren Anzahl von Filterpaaren für Test- und Referenzsignal 1a,b bzw. 1d,c (sinnvoll sind Werte zwischen 30 und 200) Die Filter können auf weitgehend beliebigen Tonhöhenskalen gleichmäßig verteilt werden. Eine geeignete Tonhöhenskala ist z. B. folgende von Schroeder vorgeschlagen Näherung: $z / Bark = 7 \cdot arsinh (\frac{ƒ / Hz}{650})$
Die Filter sind lineärphasig und werden durch Impulsantworten folgender Form definiert: $h_{re} (t) = \cos^{n} (π \cdot bw \cdot t) \cdot \cos (2 π \cdot ƒ_{c} \cdot t) |_{| t | < \frac{1}{2 \cdot bw}}$
und $h_{im} (t) = \cos^{n} (π \cdot bw \cdot t) \cdot \sin (2 π \cdot ƒ_{c} \cdot t) |_{| t | < \frac{1}{2 \cdot bw \cdot}}$
Der Wert n bestimmt die Sperrdämpfung der Filter und sollte >= 2 sein.
Die Ausgangswerte der Filterbank 3 werden zur Berücksichtigung der Simultanverdeckung mit 31 dB/Bark an der unteren Flanke und zwischen -24 und -6 dB/Bark an der oberen Flanke spektral verschmiert, das heißt, es wird ein Übersprechen zwischen den Filterausgängen erzeugt. Die obere Flanke wird pegelabhängig berechnet: $s = \min (- 6 \frac{dB}{Bark}, - 24 \frac{dB}{Bark} + 0.2 {Bark}^{- 1} \cdot L / dB)$
Der Pegel L wird unabhängig für jeden Filterausgang aus dem mit einer Zeitkonstante von 10ms tiefpaßgefilterten Betragsquadrat 5 des entsprechenden Ausgangswertes berechnet. Diese Verschmierung wird unabhängig für die Filter, die den Realteil des Signals representieren (G1. 2) und die Filter, die den Imaginärteil (G1. 3) des Signals representieren durchgeführt. Als Alternative kann der Pegel auch ohne Tiefpaßfilter berechnet werden und stattdessen der das Übersprechen bestimmende Faktor, der sich durch Delogarithmierung der Flankensteilheit (G1. 4) ergibt, tiefpaßgefiltert werden. Da diese Faltungsoperation quasi linear ist und daher die Relation zwischen dem resultierenden Frequenzgang und der resultierenden Impulsantwort bewahrt, kann sie als Teil der Filterbank 3 aufgefaßt werden.
Da die Filterbank 3 Paare von Ausgangssignalen mit um 90° verschobenen Phasen liefert, kann die Gleichrichtung durch Bildung der Betragsquadrate 5 der Filterausgänge erfolgen: $E (ƒ_{c}, t) = {A_{re}}^{2} (ƒ_{c}, t) + {A_{im}}^{2} (ƒ_{c}, t)$
Die zeitliche Verschmierung der Filterausgangssignale erfolgt in zwei Stufen. In der ersten Stufe werden die Signale über ein cos²-förmiges Zeitfenster gemittelt, wodurch in erster Linie die Vorverdeckung modelliert wird. In der zweiten Stufe wird dann die Nachverdeckung modelliert ,die später genauer beschrieben wird. Das cos²-förmige Zeitfenster hat eine Länge von 400 Abtastwerten bei einer Abtatstrate von 48 kHz. Der Abstand zwischen dem Maximum des Zeitfensters und seinem 3 dB Punkt beträgt damit etwa 100 Abtastwerte oder 2 ms, was etwa einer oft für die Vorverdeckung angenommenen Zeitspanne enspricht.
Pegeldifferenzen und lineare Verzerrungen (Frequenzgänge des Testobjekts) zwischen Test- und Referenzsignal 1a,b bzw. 1c,d können kompensiert und damit von der Bewertung anderer Störungsarten getrennt werden.
Für den Pegelangleich werden die momentanen Betragsquadrate an den Filterausgängen durch Tiefpässe erster Ordnung zeitlich geglättet. Die verwendeten Zeitkonstanten werden in Abhängigkeit von der Mittenfrequenz des jeweiligen Filters gewählt: $τ = τ_{0} + \frac{100 Hz}{ƒ_{c}} \cdot (τ_{100} - τ_{0}) | \begin{array}{l} τ_{100} = 0, 004 - l s \\ τ_{0} = 0, 004 - l s, wobei \end{array}$
τ₁₀₀ ≥ τ₀.
Aus den so geglätteten Filterausgangswerten P _test and P _ref wird ein Korrekturfaktor corr _total berechnet: ${corr}_{total} = {(\frac{Σ \sqrt{P_{Test} \cdot P_{Ref}}}{{Σ P}_{Test}})}^{2}$
Ist dieser Korrekturfaktor größer eins, wird das Referenzsignal 1a; b durch den Korrekturfaktor geteilt, ansonsten wird das Testsignal 1c; d mit dem Korrekturfaktor multipliziert.
Für jeden Filterkanal werden Korrekturfaktoren aus der Orthogonalitätsbeziehung zwischen den zeitlichen Hüllkurven der Filterausgänge von Test- und Referenzsignal 1a,b; 1c,d berechnet: ${ratio}_{ƒ, t} = \frac{\int_{- \infty}^{0} e^{\frac{t}{τ}} \cdot X_{Test} \cdot X_{Ref} dt}{\int_{- \infty}^{0} e^{\frac{t}{τ}} \cdot X_{Ref} \cdot X_{Ref} dt}$
Die Zeitkonstanten werden nach Gl. 6 bestimmt. Wenn ratio _f,t größer eins ist, wird der Korrekturfaktor für das Testsignal zu ratio _f,t ^-1 gesetzt und der Korrekturfaktor für das Referenzsignal auf eins gesetzt. Im umgekehrten Fall wird der Korrekturfaktor für das Referenzsignal zu ratio _f,t gesetzt und der Korrekturfaktor für das Test signal auf eins gesetzt.
Die Korrekturfaktoren werden über mehrere benachbarte Filterkanäle, und mit denselben Zeitkonstanten zeitlich geglättet, wie oben angegeben.
Ein frequenzabhängiger Offset zur Modellierung des Eigenrauschens des Gehörs wird zu den Betragsquadraten an allen Filterausgängen addiert. Ein weiterer Offset zur Berücksichtung von Hintergrundgeräuschen kann ebenfalls addiert werden (wird aber im Normalfall auf 0 gesetzt). $E (ƒ_{c}, t) = E (ƒ, t) + 10^{0.364 {(\frac{ƒ_{c}}{kHz})}^{- 0.8}}$
Zur Modellierung der Nachverdeckung werden die momentanen Betragsquadrate in jedem Filterkanal durch einen Tiefpaß erster Ordnung mit einer Zeitkonsante von ca. 10 ms zeitlich verschmiert. Die Zeitkonstante kann wahlweise auch in Abhängigkeit von der Mittenfrequenz des jeweiligen Filters berechnet werden. In diesem Fall liegt sie bei 50 ms für niedrige Frequenzen und bei 8 ms bei hohen Frequenzen (wie G1. 6) .
Vor der soeben beschriebenen zweiten Stufe der zeitlichen Verschmierung, wird eine einfache Näherung für die Lautheit berechnet, indem die Betragsquadrate an den Filterausgängen hoch 0.3 genommen werden. Dieser Wert $\overline{E}$
und der Betrag seiner zeitlichen Ableitung $d \overline{E} / dt$
werden mit denselben Zeitkonstanten geglättet wie bereits beschrieben. Aus dem Ergebnis der zeitlichen Glättung ${\overline{E}}_{der}$
wird ein Maß für die Hüllkurvenmodulation in jedem Kanal bestimmt: $\mod (ƒ_{c}, t) = \frac{{\overline{E}}_{der} (ƒ_{c}, t)}{1 + \overline{E} (ƒ_{c}, t)}$
Der wichtigste und am höchsten mit subjektiven Hörtestdaten korrelierte Ausgangsparameter des Verfahrens ist die Lautheit der Störung bei Drosselung durch das Nutzsignal. Die Eingangswerte hierzu sind die Betragsquadrate in jedem Filterkanal E_ref und E_test ("Erregung"), die Hüllkurvenmodulation, das Eigenrauschen des Gehörs ("Grunderregung") E_HS und die Konstanten E_o und α. Die gedrosselte Störlautheit wird nach $NL (ƒ_{c}, t) = {(\frac{1}{s_{test}} \cdot \frac{E_{HS}}{E_{0}})}^{0.23} \cdot [{(1 + \frac{\max (s_{test} \cdot E_{test} - s_{ref} \cdot E_{ref}, 0)}{E_{HS} + s_{ref} \cdot E_{ref} \cdot β})}^{0.23} - 1]$
berechnet, wobei gilt:

$E_{HS} = 10^{0.364 - {(\frac{ƒ_{c}}{kHz})}^{- 0.8}}$
E ₀ = 10⁴
α = 1.0
s = 0.04·mod(f _c ,t) / Hz + 1

G1. 11 ist hier so entworfen worden, daß sie die spezifische Lautheit der Störung liefert, wenn kein Maskierer vorhanden ist und in etwa das Verhältnis zwischen Störung und Maskierer liefert, wenn die Störung im Verhältnis zum Maskierer sehr klein ist. Der die Drosselung bestimmende Faktor β wird nach folgender Gleichung berechnet: $β = \exp (- α \cdot \frac{E_{test} - E_{ref}}{E_{ref}})$
Die "Gedrosselte Störlautheit" entspricht dem Mittelwert dieser Größe über Zeit und Filterkanäle. Um lineare Verzerrungen zu bestimmen, wird dieselbe Berechnung nochmals ohne Frequenzgangangleich durchgeführt, wobei in den oben angegebenen Gleichungen Test- und Referenzsignal vertauscht werden. Der sich ergebende Ausgangsparameter wird als "Lautheit fehlender Signalanteile" bezeichnet. Mit Hilfe dieser beiden Ausgangsgrößen ist eine gute Vorhersage der subjektiv empfundenen Signalqualität eines codierten Audiosignals möglich. Alternativ können lineare Verzerrungen auch bestimmt werden, indem das Referenzsignal vor dem Signalangleich als Testsignal verwendet wird. Eine weitere Ausgangsgröße ist die Modulationsdifferenz, die sich durch Normierung des Betrages der Differenz der Modulation von Test- und Referenzsignal auf die Modulation des Referenzsignals ergibt. Dabei wird bei der Normierung auf das Referenzsignal ein Offset addiert, um die berechneten Werte bei sehr kleiner Modulation des Referenzsignals zu begrenzen: $Modulationsdifferenz = \frac{modtest - modref}{Offset - modref}$
Die Modulationsdifferenz wird über Zeit und Filterbänder gemittelt.
Die eingangsseitig verwendete Modulation ergibt sich durch Normierung der zeitlichen Ableitung der Momentanwerte auf ihren zeitlich geglätteten Wert.
In Fig. 2 ist eine Filterstruktur zur rekursiven Berechnung eines einfachen Bandpass mit endlicher Impulsantwort (FIR) dargestellt.
Das Signal wird getrennt nach Realteil (oberer Pfad) und Imaginärteil (unterer Pfad) verarbeitet. Da das Eingangssignal X ursprünglich rein reell ist, fehlt der untere Pfad zunächst. Das Eingangssignal X wird um N Abtastwerte verzögert (21) und nach einer Multiplikation mit einem komplexwertigen Faktor cos(N._ϕ)+j.sin(N._ϕ)vom ursprünglichen Eingangssignal subtrahiert (22). Das resultierende Signal V wird zu dem um einen Abtastwert verzögerten Ausgangssignal addiert (23). Das Resultat multipliziert mit einem weiteren komplexwertigen Faktor cos(_ϕ)+j.sin(_ϕ) ergibt das neue Ausgangssignal Y (24). Die überstrichenen Bezeichner für V und Y markieren jeweils den Imaginärteil.
Die zweite komplexe Multiplikation setzt das Eingangssignal periodisch fort. Die Addition des verzögerten und durch die erste komplexe Multiplikation gewichteten Eingangssignals bricht die Fortsetzung des Eingangssignals nach N Abtastwerten wieder ab.
Das gesamte Filter, bestehend aus Real- und Imaginärteilausgang, hat den Amplitudenfrequenzgang $A (ƒ) = N \cdot \frac{si (\frac{N}{2} (φ - \frac{2 \cdot π \cdot ƒ}{ƒ_{A}}))}{si (\frac{1}{2} (φ - \frac{2 \cdot π \cdot ƒ}{ƒ_{A}}))}$

Wobei f_A die Abtastfrequenz bezeichnet.
Die zunächst geringe Sperrdämpfung dieser Bandpässe läßt sich erhöhen, indem man K+1 solcher Bandpässe mit gleicher Impulsantwortlänge N, aber verschiedenen Werten von ϕ parallel berechnet, ihre Phasengänge durch eine weitere komplexe Multiplikation einander anpaßt und ihre Ausgangssignale gewichtet aufaddiert: $A (ƒ) = \sum_{k = 0}^{K} w_{k} \cdot A_{k} (ƒ)$
mit $φ_{k} = \frac{2 \cdot π \cdot ƒ_{M}}{\int_{A}} + (k - \frac{K}{2}) \cdot \frac{2 π}{N}$

(f_M: Mittenfrequenz des Bandpasses) und $w_{k} = \frac{2 π}{N} \cdot 2^{- K} \cdot (\begin{matrix} K \\ k \end{matrix})$
Die Sperrdämpfung der resultierenden Filter nimmt mit der (K+1) ten Potenz des Abstandes der Signalfrequenz zur Mittenfrequenz des Filters ab: Die Impulsantwort des gesamten Filters hat die Form $a_{K} (n) = \sin^{K} (\frac{π}{N} n) \cdot \cos (\frac{2 \cdot π \cdot ƒ_{M}}{ƒ_{A}} \cdot n) | 0 \leq n < N$

für den Realteil und $a_{K} (n) = \sin^{K} (\frac{π}{N} n) \cdot \sin (\frac{2 \cdot π \cdot ƒ_{M}}{ƒ_{A}} \cdot n) | 0 \leq n < N$

für den Imaginärteil. Dies entspricht den in Gl. 2 und 3 beschriebenen Charakteristiken.

Liste der Bezugszeichen

1a: Testsignal, linker Kanal
1b: Testsignal, rechter Kanal
1c: Referenzsignal, linker Kanal
1d: Referenzsignal, rechter Kanal
2: Vorfilterung
3: Filterbank
4: spektrale Verschmierung
5: Berechnung der Betragsquadrate
6: zeitliche Verschmierung
7: Pegel- und Frequenzgangangleich
8: Addition von Eigenrauschen
9: zeitliche Verschmierung
10: Berechnung von Ausgangsparametern
11: Ausgangsparameter

Claims

Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen mit Hilfe von Filtern, zeitlicher Verschmierung, Pegel- und Frequenzgangleich, dadurch gekennzeichnet, dass das zu bewertende Audiosignal als Testsignal (1a, 1b) mit einem als Referenzsignal (1c, 1d) gelieferten Originalsignal verglichen wird, dass das Testsignal (1a,1b) und das Referenzsignal (1c,1d) zunächst einer Vorfilterung (2) unterworfen werden, danach in eine Filterbank (3) geleitet werden, so dass danach eine spektrale Verschmierung (4) erfolgt, dass dann die Berechnung von Betragsquadraten (5) erfolgt, worauf eine zeitliche Verschmierung durchgeführt wird, dass die so erzielten Ausgangsgrößen einem Pegel- und Frequenzgangangleich (7) unterworfen werden und dass danach eine Addition von Eigenrauschen des Gehörs (8) erfolgt, worauf wiederum eine zeitliche Verschmierung (9) und eine Berechnung (10) von Ausgangsparametern (11) erfolgt oder der Regel- und Frequenzangleich zwischen der zeitlichen Verschmierung und der Berechnung von Ausgangsparametern durchgeführt wird.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Filterbank (3) gehörangepasst ist und aus jedem einlaufenden Signal durch rekursive komplexe Multiplikation eine ungedämpfte Sinusschwingung mit der gewünschten Filtermittenfrequenz erzeugt, dass die zu einem Testsignal (1a,1b) gehörende Sinusschwingung durch Subtraktion des um den Kehrwert der gewünschten Filterbandbreite um eine entsprechende Zeit verzögerten und mit dem der Verzögerung entsprechenden Phasenwinkel multiplizierten Eingangstestsignal (1a,1b) wieder abgebrochen wird.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass durch Faltung im Frequenzbereich aus je n Filterausgängen gleicher Bandbreite und um jeweils den Kehrwert der Fensterlänge versetzter Mittenfrequenz ein der Fouriertransformierten eines cosⁿ (n-1) förmigen Zeitfensters ein entsprechender Dämpfungsverlauf erzeugt wird.
Verfahren nach einem der Patentansprüche 2 oder 3, dadurch gekennzeichnet, dass der Dämpfungsverlauf in größerer Entfernung von der Filtermittenfrequenz im Übergang zwischen Durchlassbereich und Sperrbereich durch eine weitere Faltung im Frequenzbereich bestimmt wird.
Verfahren nach einem der vorhergehenden Patentansprüche, dadurch gekennzeichnet, dass aus jedem einlaufenden Testsignal (1a,1b) durch rekursive komplexe Multiplikation eine ungedämpfte Sinusschwingung mit der gewünschten Filtermittenfrequenz erzeugt wird, dass die zu einem Eingangstestsignal (1a, 1b) gehörende Sinusschwingung durch Subtraktion des um den Kehrwert der gewünschten Filterbandbreite entsprechende Zeit verzögerten und mit dem der Verzögerung entsprechenden Phasenwinkel multiplizierten Eingangstestsignal (1a,1b) wieder abgebrochen wird, dass durch Faltung im Frequenzbereich aus je n Filterausgängen gleicher Bandbreite und jeweils den Kehrwert der Fensterlänge versetzter Mittenfrequenzen ein der Fouriertransformierten eines cosⁿ (n-1) förmigen Zeitfensters entsprechender Dämpfungsverlauf erzeugt wird und dass der Dämpfungsverlauf in größerer Entfernung von der Filtermittenfrequenz durch eine weitere Faltung im Frequenzbereich bestimmt wird.
Verfahren nach einem der Patentansprüche 1 bis 5, dadurch gekennzeichnet, dass die Eingangstestsignale (1a,1b) und die Referenzsignale (1c,1d) jeweils für einen linken und einen rechten Kanal, das heißt paarweise als Eingangsgröße eingeführt werden.
Verfahren nach einem der vorhergehenden Patentansprüche, dadurch gekennzeichnet, dass beide Signale bzw. Signalpaare (1a,1b; 1c,1d) nach einer Vorfilterung (2) durch eine Filterbank (3) in den Frequenzbereich zerlegt werden, dass durch die Charakteristik der Filterbank (3) und eine anschließende zeitliche Verschmierung (9) der Filterausgangssignale eine gehörgerechte Darstellung der als Testsignal (1a,1b) zu bewertenden Audiosignale erzeugt wird und dass durch Vergleich der gehörgerechten Darstellungen von Testsignal (1a,1b) und Referenzsignal (1c,1d) nach nichtlinearen Umformungen eine Abschätzung des zu erwartenden Höreindrucks geliefert wird.
Verfahren nach einem der Patentansprüche 1 bis 7, dadurch gekennzeichnet, dass nach der Filterung mit Übertragungsfunktionen von Außen- und Mittelohr Eingangssignale durch eine gehörangepasste Filterbank (3) eine Umrechnung in eine Zeit-Tonheits-Darstellung durchgeführt wird, dass danach Betragsquadrate (5) der Filterausgangssignale berechnet werden und eine Faltung der Filteräusgangssignale mit einer Verschmierungsfunktion (6) durchgeführt wird.
Verfahren nach Patentanspruch 8, dadurch gekennzeichnet, dass die Faltung vor oder nach der Gleichrichtung erfolgt.
Verfahren nach einem der Patentansprüche 1 bis 9, dadurch gekennzeichnet, dass Pegelunterschiede zwischen Test- und Referenzsignal (1a,1b bzw. 1c,1d) sowie lineare Verzerrungen des Referenzsignales (1c,1d) kompensiert und getrennt ausgewertet werden.
Verfahren nach einem der Patentansprüche 1 bis 9, dadurch gekennzeichnet, dass ein Teil der zeitlichen Verschmierung direkt nach der Gleichrichtung erfolgt.
Verfahren nach einem der Patentansprüche 1 oder 5, dadurch gekennzeichnet, dass eine gehörangepasste Filterbank (3) verwendet wird, die eine Signalabhängigkeit der Filtercharakteristiken dadurch erreicht, dass die Filterausgänge vor der Gleichrichtung/Betragsbildung mit einer pegelabhängigen Verschmierungsfunktion im Frequenzbereich gefaltet werden
Verfahren nach einem der Patentansprüche 1 bis 12, dadurch gekennzeichnet, dass im Referenzsignal (1c,1d) vorhandene und lediglich in ihrer spektralen Verteilung veränderten Signalanteile von additiven bzw. von durch nicht Linearitäten erzeugten Störungen getrennt werden und dass die Trennung dieser Störanteile durch Auswertung der Orthogonalitätsbeziehung zwischen den zeitlichen Verläufen der Hüllkurven an einander entsprechenden Filterausgängen des zu bewertenden Testsignals (1a,1b) und des Referenzsignals (1c,1d) erfolgt.
Verfahren nach einem der Patentansprüche 1 bis 13, dadurch gekennzeichnet, dass die Filterbank (3) aus einer beliebigen wählbaren Anzahl von Filterpaaren für Test- und Referenzsignal (1a,1b) bzw. 1c,1d) besteht und dass die Filter auf weitgehend beliebigen Tonhöhenskalen gleichmäßig verteilt werden.
Verfahren nach einem der Patentansprüche 1 bis 14, dadurch gekennzeichnet, dass die Ausgangswerte der Filterbank (3) zur Berücksichtigung der Simultanverdeckung an der oberen Flanke spektral verschmiert werden, dass der Pegel (L) abhängig für jeden Filterausgang aus dem mit einer Zeitkonstante tiefpassgefilterten Betragsquadrat (5) des entsprechenden Ausgangswertes berechnet wird oder ohne Tiefpassfilter bestimmt und stattdessen der Verschmierungsfaktor tiefpassgefiltert wird und dass die Verschmierung unabhängig für die Filter, die den Realteil des Signals repräsentieren und die Filter, die den Imaginärteil des Signals repräsentieren, durchgeführt wird.
Verfahren nach einem der Patentansprüche 1 bis 15, dadurch gekennzeichnet, dass die zeitliche Verschmierung der Filterausgangssignale in zwei Stufen erfolgt, wobei in der ersten Stufe die Signale über ein Cosinus²-förmiges Zeitfenster ermittelt werden und in der zweiten Stufe eine Nachverdeckung moduliert wird.
Verfahren nach Patentanspruch 16, dadurch gekennzeichnet, dass die Cosinus²-förmigen Zeitfenster eine Länge zwischen 1 bis 16 ms haben.
Verfahren nach einem der Patentansprüche 1 bis 17, dadurch gekennzeichnet, dass zum Pegelangleich die momentanen Betragsquadrate (5) an den Filterausgängen durch Tiefpässe erster Ordnung zeitlich geglättet werden, dass die verwendeten Zeitkonstanten in Abhängigkeit von der Mittenfrequenz des jeweiligen Filters gewählt werden und dass ein Korrekturfaktor aus der Orthogonalitätsbeziehung zwischen spektraler Hüllkurven der zeitlich geglätteten Filterausgänge von Test- und Referenzsignal (1a, 1b; 1c, 1d) berechnet wird.
Verfahren nach Patentanspruch 18, dadurch gekennzeichnet, dass das Testsignal mit dem Korrekturfaktor multipliziert wird, wenn der Korrekturfaktor < 1 ist und das Referenzsignal durch den Korrekturfaktor geteilt wird, wenn der Korrekturfaktor > 1 ist.
Verfahren nach einem der Patentansprüche 1 bis 19, dadurch gekennzeichnet, dass für jeden Filterkanal Korrekturfaktoren aus der Orthogonalitätsbeziehung zwischen den zeitlichen Hüllkurven der Filterausgänge von Test- und Referenzsignal (1a,1b; 1c,1d) berechnet werden.
Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass aus der auf die Modulation des Referenzsignals normierten (absolute) Differenz der Hüllkurven von Test- und Referenzsignal für jeden Filterkanal und jedes Filterband eine Modulationsdifferenz bestimmt wird, die nach zeitlicher und spektraler Mittelung zur Abschätzung bestimmter hörbarer Störungen geeignet ist.
Verfahren nach einem der Patentansprüche 1 bis 21, dadurch gekennzeichnet, dass aus Eingangswerten in Form der Betragsquadrate (5) in jedem Filterkanal, die Hüllkurvenmodulation, das Eigenrauschen des Gehörs und Konstanten eine gedrosselte Störlautheit ermittelt und über Zeit und Filterkanäle gemittelt wird.
Verfahren nach einem der Patentansprüche 1 bis 22, dadurch gekennzeichnet, dass das Eingangssignal (X) um N Abtastwerte verzögert und nach einer Multiplikation mit einem komplexwertigen Faktor vom ursprünglichen Eingangssignal subtrahiert wird, dass das resultierende Signal (V) zu dem um einen Abtastwert verzögerten Ausgangssignal addiert wird und dass das Resultat multipliziert mit einem weiteren komplexwertigen Faktor das neue Ausgangssignal ergibt.