[go: up one dir, main page]

DE19710953A1 - Verfahren und Vorrichtung zur Erkennung von Schallsignalen - Google Patents

Verfahren und Vorrichtung zur Erkennung von Schallsignalen

Info

Publication number
DE19710953A1
DE19710953A1 DE1997110953 DE19710953A DE19710953A1 DE 19710953 A1 DE19710953 A1 DE 19710953A1 DE 1997110953 DE1997110953 DE 1997110953 DE 19710953 A DE19710953 A DE 19710953A DE 19710953 A1 DE19710953 A1 DE 19710953A1
Authority
DE
Germany
Prior art keywords
spectra
transformation
loudness
iii
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1997110953
Other languages
English (en)
Inventor
Frank Dr Rer Nat Kowalewski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE1997110953 priority Critical patent/DE19710953A1/de
Publication of DE19710953A1 publication Critical patent/DE19710953A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erkennung von Schallsignalen, insbesondere von Sprachsignalen.
In heute üblichen Spracherkennern werden die zu erkennenden Schallsignale zu­ nächst in eine Frequenz-Zeit-Darstellung (Spektrogramm) überführt. Diese Spek­ trogramme werden mit vorgegebenen Spektrogrammen verglichen (Einzelworterkennung), bzw. Teile der zu erkennenden Spektrogramme werden mit vorgegebenen Teilspektrogrammen verglichen (Erkennung kontinuierlicher Sprache). Das dem zu erkennenden Spektrogramm ähnlichste Spektrogramm bzw. die den zu erkennenden Teilspektrogrammen ähnlichsten Teilspektrogram­ me werden bestimmt, und es werden Erkennungssignale daraus abgeleitet.
Die Spektrogramme werden durch Kurzzeit-FFT, Filter-Bank, LPC- oder Cep­ strum-Analyse bestimmt. LPC- und Cepstrum-Analyse entsprechen dem Erre­ gungs/Stimmkanal-Modell der menschlichen Stimmgebung. Sie versuchen die erregungs- und die stimmkanalabhängigen Eigenschaften des Schallsignals zu trennen. Die Bildung von Leistungsspektren mit Hilfe von Kurzzeit-FFT oder Filter-Bank kann als grobes Modell der menschlichen Hörwahrnehmung aufgefaßt wer­ den. Durch Nachbearbeitung der Spektrogramme wird teilweise versucht, einfa­ che psychoakustische Effekte zu berücksichtigen. Neben der relativ weit verbreiteten Frequenztransformation auf die Bark-Skala [US 4 956 865; Bridle, 1974; Mermelstein, 1976; Cohen, 1989; Gramß, 1989; Hermansky, 1990; Ruske, 1992], werden seltener die statische Lautheitsempfindung [Hanson, 1984; Schotola, 1984; Cohen, 1989; Gramß, 1989; Hermansky, 1990; Ruske, 1992], die Hörempfindlichkeit [Cohen, 1989; Hermansky, 1990] oder zeitliche Verdeckungs­ phänomene [Cohen, 1989; Gramß, 1989; Paping, 1991; Gramß, 1992; Aikawa, 1993; Pavel, 1994] des Menschen modelliert. Zum Teil wird die aus psychoaku­ stischen Untersuchungen hervorgegangene, als geeignetes Modell aber umstrit­ tene, 3 Bark-Integration eingesetzt [Hermansky, 1990; Kowalewski, 1991].
Die Spektrogramme werden außerdem nach nicht psychoakustischen Gesichts­ punkten nach bearbeitet, vor allem um eine gegenüber Störungen robustere Er­ kennung zu erreichen [US 4 905 286; US 4 914 692; US 5 220 610; US 5 590 242; Porter, 1984]. Häufig werden dynamische Spektrogrammerkmale bestimmt, um die Erkennung unabhängig von langsamen Spektrumsänderungen zu machen [US 4 956 865; Elenius, 1982; Furui, 1986; Hanson, 1990; Hermansky, 1994]. Sprecherunabhängigkeit der Erkennung erreicht man entweder durch einen aus­ reichend großen Satz an Vergleichsspektrogrammen, der Sprachversionen vieler verschiedener Sprecher enthält, oder durch Sprecheradaptation [Lee, 1991; Ahadi, 1995; Kamm, 1995].
Da die heute in der Spracherkennung verwendeten Methoden der Spektrogramm­ berechnung entweder der Sprachkodierung entstammen oder das menschliche Gehör nur grob modellieren, enthalten die berechneten Spektrogramme im allge­ meinen Informationen, die vom Menschen nicht wahrgenommen werden. Ent­ sprechend weichen die damit erreichten Erkennungsleistungen stark von denen des Menschen ab. Die zusätzlichen nicht wahrnehmbaren Informationen führen zu größerer Versionsabhängigkeit, Sprecherabhängigkeit und Störungsanfällig­ keit (z. B. gegenüber Hintergrundgeräuschen oder Übertragungsverlusten) der maschinellen Erkenner.
Die Kompensation der Versions- und Sprecherabhängigkeit durch viele Ver­ gleichsspektrogramme verschiedener Sprachversionen bzw. Sprecher hat den Nachteil des höheren Aufwandes bei der Bestimmung der ähnlichsten Vergleichs­ spektrogramme. Sprecheradaptation erfordert vor der eigentlichen Erkennung eine Adaptationsphase, die zusätzlichen Zeitaufwand bedeutet und für kurze Erkennungsaufgaben nicht vertretbar ist.
Nicht psychoakustisch orientierte Methoden zur Eliminierung von Störungen des Sprachsignals haben den Nachteil, im allgemeinen andere Informationen als das menschliche Gehör zu entfernen. Die Robustheit der Erkennung gegenüber Stö­ rungen weicht von der des Menschen ab.
Aufgabe der Erfindung ist es, die Erkennungsraten heutiger Erkenner für Schall­ signale zu verbessern. Die Erkennung soll robuster gegenüber Störungen ge­ macht werden. Die Schallsignale sollen möglichst ähnlich dem Menschen erkannt werden. Sprachsignale sollen versionsunabhängiger und sprecherunabhängiger erkannt werden.
Diese Aufgabe wird durch das Verfahren mit den Merkmalen des Anspruchs 1 ge­ löst.
Das Verfahren ahmt die auditive Wahrnehmung des Menschen nach. Dadurch macht es die Erkennung von Schallsignalen, gegenüber heute gebräuchlichen Verfahren, der menschlichen Erkennung ähnlicher. Das Verfahren berücksichtigt die subjektive Tonhöhenwahrnehmung des Menschen, die Frequenzabhängigkeit der Hörempfindlichkeit, die statische Lautstärkewahrnehmung und Simultan- und Nachverdeckungsphänomene. Neben diesen auszugsweise auch durch andere Verfahren berücksichtigten psychoakustischen Effekten, werden Effekte nachge­ ahmt, die andere Verfahren nicht nachahmen, und zwar die Hörschwelle des Menschen, das Intensitätsunterscheidungsvermögen und die Abhängigkeit der Nachverdeckung von der Testtonlänge. Statische Lautheit und Simultanver­ deckung werden korrekter berücksichtigt.
Es werden Signalanteile eliminiert, die vom Menschen nicht wahrgenommen wer­ den. Aus Sprachsignalen werden Anteile entfernt, die keine sprachliche Informa­ tion enthalten. Dadurch wird die Erkennung von Sprache versions- und sprecherunabhängiger. In Einzelworterkennungsexperimenten fanden wir im Ver­ gleich zu einem den Stand der heutigen Technik verwendenden Verfahren eine Erhöhung der sprecherabhängigen Erkennungsraten von 92,7% auf 98,8%. Die sprecherunabhängigen Raten stiegen von durchschnittlich 70,9% auf 87,4% (Tabelle 1).
Diese Erkennungsraten wurden mit dem unten beschriebenen Ausführungsbei­ spiel des Verfahrens erzielt. Der verwendete A/D-Wandler hatte eine Abtastrate von Ts = 1/16 kHz. Es wurden N = 64-komponentige Spektren berechnet. Die Vergleichsraten wurden mit einer Anordnung bestimmt, die anstelle des gesam­ ten unten beschriebenen nicht-linearen Filters nur die dem Stand der Technik ent­ sprechenden Teile verwendet, und zwar die Gewichtung (11) der Spektrumskomponenten entsprechend der menschlichen Hörkurve und die Be­ rechnung der statischen Lautheit (12) durch das Monom W1/4. Beide Spracher­ kenner wurden sowohl in den sprecherabhängigen als auch in den sprecherunabhängigen Experimenten mit einer Version eines männlichen Spre­ chers der 62 zu erkennenden Wörter trainiert. In der Testphase waren andere Versionen desselben oder anderer Sprecher zu erkennen.
Durch die verbesserte Versions- und Sprecherunabhängigkeit des Verfahrens können mit weniger Vergleichsspektrogrammen ähnliche oder bessere Erken­ nungsraten erzielt werden als mit herkömmlichen Verfahren. Der besonders zeitkritische Spektrogrammerkennungsprozeß kann hierdurch beschleunigt wer­ den.
Durch Verwendung des Verfahrens wird die Erkennung gegenüber Störungen ro­ buster. Die sprecherabhängigen Erkennungsraten für verrauschte und höhenan­ gehobene Sprache wurde durch Einsatz des Verfahrens von durchschnittlich 58,3% auf 97,2% erhöht (Tabelle 1). Die Experimente wurden mit denselben un­ gestörten Lerndaten wie oben durchgeführt.
Tabelle 1
Erkennungsraten
Die Erkennungsraten lassen sich weiter steigern, indem das Filter an Art und Stär­ ke vorhandener Störungen angepaßt wird. Durch Erhöhung des im unten gege­ benen Ausführungsbeispiel beschriebenen Parameters W₀ bei additiven Störungen, nimmt die Erkennungsrate für verrauschte Sprache noch einmal von 96,0% auf 99,2% zu (Tabelle 1).
Da das nicht-lineare Filter auf zeitlich grob abgetasteten Spektrogrammen arbei­ tet, erfordert es nur geringen rechnerischen Mehraufwand gegenüber Verfahren, die psychoakustische Effekte nicht berücksichtigen.
Ein Ausführungsbeispiel der Erfindung ist in Abb. 1 und Abb. 2 darge­ stellt. Es handelt sich um ein Verfahren zur Einzelworterkennung. Abb. 1 zeigt es in der Übersicht.
Das zu erkennende Schallsignal wird zunächst einer Kurzzeitfrequenzanalyse (1) unterzogen, die entsprechend der Bark-Skala unterteilte Leistungsspektren lie­ fert. Die Leistungsspektren bilden das Spektrogramm des Schallsignals. Dieses Spektrogramm wird durch ein zweidimensionales nicht-lineares Filter (2) in eine der menschlichen auditiven Erkennung besser entsprechende Form transfor­ miert. Die transformierten Spektrogramme werden durch einen Vergleicher (3) mit vorgegebenen Spektrogrammen verglichen. Das dem zu erkennenden Spektro­ gramm ähnlichste Vergleichsspektrogramm wird bestimmt.
Wesentliches und neues Element des Erkennungsverfahrens ist das zweidimen­ sionale Filter (2). Es ist für die erhöhten Erkennungsraten verantwortlich. Abb. 2 zeigt seinen Aufbau.
Die Komponenten der Einzelspektren werden zuerst mit frequenzabhängigen Empfindlichkeitsfaktoren gewichtet (11). Aus den gewichteten Spektren werden verdeckende und zu verdeckende Spektren berechnet. Durch komponentenwei­ se Subtraktion (20) der verdeckenden von den zu verdeckenden Spektren, wer­ den aus den zu verdeckenden Spektren Informationen entfernt, die der Mensch nicht wahrnimmt.
Die zu verdeckenden Spektren errechnen sich aus den gewichteten durch kom­ ponentenweise Transformation (12) auf die statische Lautheit, Tiefpaßfilterung (13) und nachfolgende Transformation (14) auf eine Lautheitsunterscheidungs­ skala. Die verdeckenden Spektren erhält man aus den gewichteten durch Tief­ paßfilterung (15), zeitliche Verzögerung (16), Anwendung der statischen Lautheitstransformation (17), lineare, bzgl. der Frequenz verschmierende Trans­ formation (18) und Transformation (19) auf die Lautheitsunterscheidungsskala.
Im folgenden werden die einzelnen Schritte des Ausführungsbeispiels näher be­ schrieben.
Das durch A/D-Wandlung gewonnene und zu den diskreten Zeitpunkten tν = ν·Ts, ν ε IN, T 1/16 kHz vorliegende Schallsignal Sν = S(tν) wird ge­ mäß der Rechenvorschrift
diskret Fourier-t-transformiert [Terhardt, 1985], mit den Bark-Skalen angepaßten Analyseparametern
wobei
nach [Traunmüller, 1987] als Approximation der Bark-Skala genommen wird. Die Komponenten Sn, ν der Fourier-t-Spektren entsprechen dem mit verschiede­ nen Bandpässen gefilterten Schallsignal. Die quadrierten Übertragungsfunktio­ nen der Bandpässe sind für Ts = 1/16 kHz und N = 64 in Abb. 3 dargestellt.
Die Leistungssignale Pn, ν = |Sn, ν|² werden gemäß
P′n,0 = 0
P′n, ν = α·P′n, ν -1 + (1-α)·Pn, ν
Q′n,µ = P′n,c·µ
≈ 10 ms  T = ganzzahliges Vielfaches von Ts
zeitlich geglättet und im zeitlichen Abstand T abgetastet. Abb. 4 zeigt oben ein so gewonnenes Spektrogramm des Wortes "Senken". Die Leistungsspektren werden nun dem zweidimensionalen Filter (2) zugeführt. Entsprechend
Wn,µ = wn·Qn,µ
werden die Spektrumskomponenten zunächst mit Empfindlichkeitsfaktoren wn gewichtet (11). Die Faktoren ergeben sich aus der menschlichen Hörschwelle L(ω) zu
L(ω) kann durch lineare Interpolation der in Tabelle 2 gezeigten Werte angenä­ hert werden.
Tabelle 2
Menschliche Hörschwelle
Die für die anschließende Berechnung der verdeckenden und der zu verdecken­ den Spektren nötigen statischen Lautheitstransformationen (12) und (17) können sinnvoll durch
approximiert werden. W und W′ bezeichnen hier wie im folgenden das Eingangs­ bzw. Ausgangssignal des Verarbeitungsschrittes. Für eine möglichst menschen­ ähnliche Erkennung ist W₀ auf den Eingangswert W zu setzen, den ein 1 kHz-Ton mit einem Schallpegel von 36 dB an der für 1 kHz empfindlichsten Stelle des zuge­ hörigen gewichteten Spektrums erzeugt.
Die Tiefpaßfilter (13) und (15) bestimmen die zeitlichen Verdeckungseigenschaf­ ten des zweidimensionalen Filters. Sie können identisch und als Leaky-Integrato­ ren ausgeführt werden:
W′n,µ = β·W′n,µ-1 + (1-β)·Wn,µ
Diese Filter haben den Vorteil sehr einfach berechnet werden zu können. Für β erweist sich ein Wert von 0,6 als günstig.
Die Verzögerung (16) in der Berechnung der verdeckenden Spektren kann für Verzögerungszeiten, die nicht ganzzahlige Vielfache von T sind, nur angenähert werden, etwa durch die lineare Interpolation
Für γ erweist sich ein Wert von 1,0 als sinnvoll.
Die zur Verschmierung der verdeckenden Spektren nötige lineare Transforma­ tion (18)
soll Simultanverdeckungseffekte der menschlichen Hörwahrnehmung modellie­ ren. Die Zeilen der Tranformationsmatrix sollten daher dem Kehrwert psychoaku­ stischer Tuningkurven entsprechen. Das wird durch die Wahl
erreicht. δ kann sinnvoll auf 0,05 gesetzt werden. Abb. 5 zeigt die resultie­ rende Matrix für N = Z(fNyq) = 21 in bildlicher Form.
Bei der oben gegebenen Wahl der statischen Lautheitstransformationen (12) und (17), ist es sinnvoll die Lautheitsunterscheidungstransformationen (14) und (19) gemäß
vorzunehmen.
Abb. 4 zeigt unten das darüber dargestellte Wort "Senken" nach Bearbei­ tung durch das beschriebene zweidimensionale Filter (2).
Zum Vergleich der gefilterten Spektrogramme mit vorgegebenen Spektrogram­ men wird ein DTW-Verfahren (3) eingesetzt. Die vorgegebenen Spektrogramme werden aus Wortversionen berechnet, deren Wortklassen bekannt sind. Die Spektrogramme werden mit demselben Verfahren wie die zu erkennenden Spek­ trogramme berechnet. Es wird das Vergleichsspektrogramm bestimmt, dessen DTW-Abstand zum zu erkennenden Spektrogramm am kleinsten ist. Seine Wort­ klasse wird ausgegeben.
Mit Vorteil kann ein modifiziertes DTW-Verfahren eingesetzt werden, das beliebi­ ge Zeitverzerrungen zuläßt und Schritte ohne Zeitverzerrung mit einem Faktor CDiag ε [0, 1], vorzugsweise CDiag = 0, 7, gewichtet. Der Abstand D(W(1), W(2)) zweier Spektrogramme W(1) n,µ, W(2) n, ν (µ = 1, . . ., M₁; v = 1, . . ., M₂) berechnet sich dann nach:
Referenzen
Ahadi, S.M. und P.C. Woodland: "Rapid speaker adaptation using model predic­ tion", Proc. IEEE Internat. Conf. Acoust. Speech 1995, Detroit, MI, 684-687.
Aikawa, K., H. Singer, H. Kawahara und Y. Tohkura: "A dynamic cepstrum incor­ porating time-frequency masking and its application to continuous speech re­ cognition", Proc. IEEE Internat. Conf. Acoust. Speech Signal Process. 1993, Minneapolis, MN, II-668-671.
Bridle, J.S. und M.D. Brown: "An experimental automatic word recognition sy­ stem", JSRU Report Nr. 1003, Ruislip, England: Joint Speech Research Unit, 1974.
Cohen J.R.: "Application of an auditory model to speech recognition", J. Acoust. Soc. Amer., Bd. 85 (1989), Nr. 6, 2623-2629.
Elenius, K. und M. Blomberg: "Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system", Proc. IEEE Internat. Conf. Acoust. Speech Signal Process. 1982, Paris, France, 535-537.
Furui, S.: "Speaker-independent isolated word recognition using dynamic features of speech spectrum", IEEE Tans. Acoust. Speech Signal Process., Bd. 34 (1986), 52-59.
Gramß, T. und H.W. Strube: "Entwicklung mehrschichtiger neuronaler Netzwerke zur Worterkennung und -reproduktion", Informationstechnik, Bd. 5 (1989), 324-333.
Gramß, T.: "Worterkennung mit einem künstlichen neuronalen Netz", Dissertati­ on, Georg-August-Universität Göttingen, 1992.
Hanson, B. und D. Wong: "The harmonic magnitude suppression (HMS) tech­ nique for intelligibility enhancement in the presence of interfering speech", Proc. IEEE Internat. Conf. Acoust. Speech Signal Process. 1984, 18.A.5.1.-18.A.5.4.
Hanson, B.A. und T.H. Applebaum: "Robust speaker-independent word recogni­ tion using static, dynamic and acceleration features: experiments with Iombard and noisy speech", Proc. IEEE Internat. Conf. Acoust. Speech Signal Process. 1990, 857-860.
Hermansky H.: "Perceptual linear predictive (PLP) analysis of speech", J. Acoust. Soc. Amer., Bd. 87 (1990), Nr. 4, 1738-1752.
Hermansky H. und N. Morgan: "RASTA processing of speech", IEEE Trans. Speech Audio Process., Bd. 2 (1994), Nr. 4, 578-589.
Kamm T., A.G. Andreou und J. Cohen: "Vocal tract normalization in speech re­ cognition: Compensation for systematic speaker variability", Proc. 1 5th Annual Speech Research Symposium 1995, Johns Hopkins University, Baltimore, MI, 175-179.
Kowalewski, F.: "Rückgekoppelte und wachsende neuronale Netze zur dynami­ schen Erkennung von Sprache", Dissertation, Georg-August-Universität Göt­ tingen, 1991.
Lee C-H., C-H. Lin und B-H. Juang: "A study on speaker adaptation of the para­ meters of continuous density hidden Markov models", IEEE Trans. Signal Pro­ cess., Bd. 39 (1991), Nr. 4, 806-814.
Mermelstein, P.: "Distance measures for speech recognition, psychological and instrumental", in Pattern Recognition and Artificial Intelligenoe, Hrsg. R.C.H. Chen, Academic Press, New York, 1976, 374-388.
Paping, M. und H.W. Strube: "Psychoakustische Vorverarbeitung zur Spracher­ kennung", Fortschritte der Akustik - DAGA′91,1 991, 997-1000.
Pavel M. und H. Hermansky: "Temporal masking in automatic speech recogniti­ on", J. Acoust. Soc. Amer., Bd. 95(1994), Nr. 5, 2876ff.
Porter J.E. und S.F. Boll: "Optimal estimators for spectral restoration of noisy speech", Proc. IEEE Internat. Conf. Acoust. Speech Signal Process. 1984, San Diego, CA, 18.A.2.1.-18.A.2.4.
Ruske, G. und M. Beham: "Gehörbezogene automatische Spracherkennung", in Sprachliche Mensch-Maschine-Kommunikation, H. Mangold (Hrsg.), Olden­ bourg, München usw., 1992, 33-47.
Schotola, T.: "On the use of demisyllables in automatic word recognition", Speech Comm., Bd. 3 (1984), 63-87.
Terhardt, E.: "Fourier transformation of time tignals: conceptual revision", Acustica, Bd. 57 (1985), 242-256.
Traunmüller, H. und F. Lacerda: "Perceptual relativity in identification of two-for­ mant vowels", Speech Comm., Bd. 6 (1987), 143-157.
U.S. Patent, Nr. 4.905.286
U.S. Patent, Nr. 4.914.692
U.S. Patent, Nr. 4.956.865
U.S. Patent, Nr. 5.220.610
U.S. Patent, Nr. 5.590.242

Claims (26)

1. Ein Verfahren zur Erkennung von Schallsignalen, das einen Verarbeitungs­ schritt zur Gewinnung von Bark-Skalen-angepaßten Kurzzeitleistungsspek­ tren und eine Spektrogrammerkennungsstufe aufweist, gekennzeichnet durch:
  • i) die Gewichtung (11) der Komponenten der Bark-Leistungsspektren des zu erkennenden Schallsignals entsprechend der menschlichen Hörkurve.
  • ii) die Berechnung zu verdeckender Spektren aus den in Verfahrensschritt i) gewonnenen Spektren durch Transformation (12) auf die statische Laut­ heit, Tiefpaßfilterung (13) und anschließende Transformation (14) auf eine Lautheitsunterscheidungsskala.
  • iii) die Berechnung verdeckender Spektren aus den in Verfahrensschritt i) gewonnenen Spektren durch Tiefpaßfilterung (15), Verzögerung (16), An­ wendung einer mit der statischen Lautheitstransformation (12) aus Schritt ii) identischen Lautheitstransformation (17), verschmierende linea­ re Transformation (18) und Transformation (19) auf die Lautheitsunter­ scheidungsskala aus Schritt ii) (14).
  • iv) komponentenweise Subtraktion (20) der verdeckenden Spektren aus Schritt iii) von den zu verdeckenden Spektren aus Schritt ii) und Weiter­ leitung der resultierenden Spektren an die Spektrogrammerkennungsstu­ fe.
2. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Kurzzeit­ leistungsspektren durch schnelle Fouriertransformation berechnet werden, wobei benachbarte Komponenten der Fourier-Leistungsspektren zu Bark­ breiten Komponenten zusammengefaßt werden.
3. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Kurzzeit­ leistungsspektren durch Fourier-t-Transformation berechnet werden, wobei die Analyseparameter entsprechend der Bark-Skala gewählt werden.
4. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Kurzzeit­ leistungsspektren durch eine Filterbank berechnet werden, wobei die Filter entsprechend der Bark-Skala gewählt werden.
5. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die statischen Lautheitstransformationen (12) und (17) der Verfahrensschritte ii) und iii) des Anspruchs 1 gegeben sind durch
6. Ein Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Konstante W₀ der Lautheitstransformation aus Anspruch 5 auf den Eingangswert W ge­ setzt wird, den ein 1 kHz-Ton mit einem Schallpegel von 36 dB an der für 1 kHz empfindlichsten Stelle des zugehörigen gewichteten Spektrums erzeugt.
7. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Tiefpaßfil­ ter (13) und (15) der Verfahrensschritte ii) und iii) des Anspruchs 1 identische Leaky-Integratoren sind.
8. Ein Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Leaky-In­ tegratoren aus Anspruch 7 durch W′n,µ = β·W′n,µ1 + (1-β)·Wn,µ
β = 0, 6
Wn,µ = n-te Komponente des µ-ten Eingangsspektrums
W′n,µ = n-te Komponente des µ-ten Ausgangsspektrumsgegeben sind.
9. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die ver­ schmierende lineare Transformation (18) aus Schritt iii) des Anspruchs 1 ge­ geben ist durch: fNyq = 1(2Ts)
N = Anzahl der Spektrumskomponenten
Ts = Abtastperiode
Wm,µ = m-te Komponente des µ-ten Eingangsspektrums
W′n,µ = n-te Komponente des µ-ten Ausgangsspektrums
10. Ein Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß der Parameter δ zur Berechnung der Verschmierungsmatrix Mn,m aus Anspruch 9 den Wert 0,05 hat.
11. Ein Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Lautheits­ unterscheidungstransformationen (14) und (19) aus Schritt ii) und iii) des An­ spruchs 1 gegeben sind durch:
12. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Parameter der in Anspruch 1 beschriebenen Verarbeitungsschritte für verschiedene Stö­ rungen des zu erkennenden Schallsignals verschieden und evtl. zeitlich lang­ sam veränderlich gewählt werden und sowohl das zu erkennende Spektrogramm als auch die Vergleichsspektrogramme mit diesen Parame­ tern bearbeitet werden.
13. Ein Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß aus den un­ gefilterten Leistungsspektrogrammen der zu erkennenden Schallsignale Art und Stärke vorhandener Störungen geschätzt werden und aus dieser Schät­ zung die für das Verfahren nach Anspruch 12 benötigten Parameter abgelei­ tet werden.
14. Eine Vorrichtung zur Erkennung von Schallsignalen, die eine Einrichtung zur Gewinnung von Bark-Skalen-angepaßten Kurzzeitleistungsspektren und eine Einrichtung zur Erkennung von Spektrogrammen aufweist, gekenn­ zeichnet durch:
  • i) eine Einrichtung zur Gewichtung (11) der Komponenten der durch die Kurzzeitfrequenzanalyseeinrichtung gelieferten Bark-Leistungsspektren des zu erkennenden Schallsignals entsprechend der menschlichen Hör­ kurve.
  • ii) eine Einrichtung zur Berechnung zu verdeckender Spektren aus den durch Einrichtung i) gewonnenen Spektren durch Transformation (12) auf die statische Lautheit, Tiefpaßfilterung (13) und anschließende Transfor­ mation (14) auf eine Lautheitsunterscheidungsskala.
  • iii) eine Einrichtung zur Berechnung verdeckender Spektren aus den durch Einrichtung i) gewonnenen Spektren durch Tiefpaßfilterung (15), Verzö­ gerung (16), Anwendung einer mit der statischen Lautheitstransformation (12) der Einrichtung ii) identischen Lautheitstransformation (17), ver­ schmierende lineare Transformation (18) und Transformation (19) auf die Lautheitsunterscheidungsskala der Einrichtung ii) (14).
  • iv) eine Einrichtung zur komponentenweisen Subtraktion (20) der durch Ein­ richtung iii) gelieferten verdeckenden Spektren von den durch Einrichtung ii) gelieferten zu verdeckenden Spektren und Weiterleitung der resultierenden Spektren an die Spektrogrammerkennungseinrich­ tung.
15. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Kurz­ zeitleistungsspektren durch schnelle Fouriertransformation berechnet wer­ den, wobei benachbarte Komponenten der Fourier-Leistungsspektren zu Bark-breiten Komponenten zusammengefaßt werden.
16. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Kurz­ zeitleistungsspektren durch Fourier-t-Transformation berechnet werden, wo­ bei die Analyseparameter entsprechend der Bark-Skala gewählt werden.
17. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Kurz­ zeitleistungsspektren durch eine Filterbank berechnet werden, wobei die Fil­ ter entsprechend der Bark-Skala gewählt werden.
18. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die stati­ schen Lautheitstransformationen (12) und (17) der Einrichtungen ii) und iii) des Anspruchs 14 gegeben sind durch
19. Eine Vorrichtung nach Anspruch 18, dadurch gekennzeichnet, daß die Kon­ stante W₀ der Lautheitstransformation aus Anspruch 18 auf den Eingangs­ wert W gesetzt wird, den ein 1 kHz-Ton mit einem Schallpegel von 36 dB an der für 1 kHz empfindlichsten Stelle des zugehörigen gewichteten Spektrums erzeugt.
20. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Tief­ paßfilter (13) und (15) der Einrichtungen ii) und iii) des Anspruchs 14 identi­ sche Leaky-Integratoren sind.
21. Eine Vorrichtung nach Anspruch 20, dadurch gekennzeichnet, daß die Lea­ ky-Integratoren aus Anspruch 20 durch W′n,µ = β·W′n,µ-1 + (1-β)·Wn,µ
β = 0, 6
Wn,µ = n-te Komponente des µ-ten Eingangsspektrums
W′n,µ = n-te Komponente des µ-ten Ausgangsspektrumsgegeben sind.
22. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die ver­ schmierende lineare Transformation (18) der Einrichtung iii) des Anspruchs 14 gegeben ist durch: fNyq = 1/(2Ts)
N = Anzahl der Spektrumskomponenten
Ts = Abtastperiode
Wm,µ = m-te Komponente des µ-ten Eingangsspektrums
W′n,µ = n-te Komponente des µ-ten Ausgangsspektrums
23. Eine Vorrichtung nach Anspruch 22, dadurch gekennzeichnet, daß der Para­ meter δ zur Berechnung der Verschmierungsmatrix Mn,m aus Anspruch 22 den Wert 0,05 hat.
24. Eine Vorrichtung nach Anspruch 18, dadurch gekennzeichnet, daß die Lautheitsunterscheidungstransformationen (14) und (19) der Einrichtungen ii) und iii) des Anspruchs 14 gegeben sind durch:
25. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Para­ meter der in Anspruch 14 beschriebenen Einrichtungen für verschiedene Stö­ rungen des zu erkennenden Schallsignals verschieden und evtl. zeitlich langsam veränderlich gewählt werden und sowohl das zu erkennende Spek­ trogramm als auch die Vergleichsspektrogramme mit diesen Parametern be­ arbeitet werden.
26. Eine Vorrichtung nach Anspruch 25, dadurch gekennzeichnet, daß aus den ungefilterten Leistungsspektrogrammen der zu erkennenden Schallsignale Art und Stärke vorhandener Störungen geschätzt werden und aus dieser Schätzung die für die Vorrichtung nach Anspruch 25 benötigten Parameter abgeleitet werden.
DE1997110953 1997-03-17 1997-03-17 Verfahren und Vorrichtung zur Erkennung von Schallsignalen Withdrawn DE19710953A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1997110953 DE19710953A1 (de) 1997-03-17 1997-03-17 Verfahren und Vorrichtung zur Erkennung von Schallsignalen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1997110953 DE19710953A1 (de) 1997-03-17 1997-03-17 Verfahren und Vorrichtung zur Erkennung von Schallsignalen

Publications (1)

Publication Number Publication Date
DE19710953A1 true DE19710953A1 (de) 1997-07-24

Family

ID=7823600

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1997110953 Withdrawn DE19710953A1 (de) 1997-03-17 1997-03-17 Verfahren und Vorrichtung zur Erkennung von Schallsignalen

Country Status (1)

Country Link
DE (1) DE19710953A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19925046A1 (de) * 1999-06-01 2001-05-03 Alcatel Sa Verfahren und Vorrichtung zur Unterdrückung von Rauschen und Echos
WO2002082033A1 (en) * 2000-10-31 2002-10-17 Qualcomm Incorporated System and method for improving voice recognition in noisy environments and frequency mismatch conditions
DE102004049457B3 (de) * 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
EP0673013A1 (de) * 1994-03-18 1995-09-20 Mitsubishi Denki Kabushiki Kaisha System zum Kodieren und Dekodieren von Signalen

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5535300A (en) * 1988-12-30 1996-07-09 At&T Corp. Perceptual coding of audio signals using entropy coding and/or multiple power spectra
EP0673013A1 (de) * 1994-03-18 1995-09-20 Mitsubishi Denki Kabushiki Kaisha System zum Kodieren und Dekodieren von Signalen

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19925046A1 (de) * 1999-06-01 2001-05-03 Alcatel Sa Verfahren und Vorrichtung zur Unterdrückung von Rauschen und Echos
WO2002082033A1 (en) * 2000-10-31 2002-10-17 Qualcomm Incorporated System and method for improving voice recognition in noisy environments and frequency mismatch conditions
US6694294B1 (en) 2000-10-31 2004-02-17 Qualcomm Incorporated System and method of mu-law or A-law compression of bark amplitudes for speech recognition
DE102004049457B3 (de) * 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie

Similar Documents

Publication Publication Date Title
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE112009000805B4 (de) Rauschreduktion
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE60023517T2 (de) Klassifizierung von schallquellen
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE69836785T2 (de) Audiosignalkompression, Sprachsignalkompression und Spracherkennung
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
Abdulla Auditory based feature vectors for speech recognition systems
Hansen et al. Robust estimation of speech in noisy backgrounds based on aspects of the auditory process

Legal Events

Date Code Title Description
OAV Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1
OR8 Request for search as to paragraph 43 lit. 1 sentence 1 patent law
8122 Nonbinding interest in granting licenses declared
8105 Search report available
8141 Disposal/no request for examination