[go: up one dir, main page]

DE1572520A1 - Verfahren zur Erkennung von Sprachlauten - Google Patents

Verfahren zur Erkennung von Sprachlauten

Info

Publication number
DE1572520A1
DE1572520A1 DE19671572520 DE1572520A DE1572520A1 DE 1572520 A1 DE1572520 A1 DE 1572520A1 DE 19671572520 DE19671572520 DE 19671572520 DE 1572520 A DE1572520 A DE 1572520A DE 1572520 A1 DE1572520 A1 DE 1572520A1
Authority
DE
Germany
Prior art keywords
frequency
control variables
standard spectrum
speech sounds
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19671572520
Other languages
English (en)
Inventor
Helmut Mangold
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefunken Patentverwertungs GmbH
Original Assignee
Telefunken Patentverwertungs GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefunken Patentverwertungs GmbH filed Critical Telefunken Patentverwertungs GmbH
Publication of DE1572520A1 publication Critical patent/DE1572520A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

  • "Verfahren zur Erkennung von Sprachlauten" Die Erfindung bezieht sich auf ein Verfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit--Prequenz-Intensitätsmustern.
  • Bei üblichen Verfahren zur Spracherkennung werden die einzelnen zu untersuchenden Sprachlaute hinsichtlich ihres Frequenzspektrums untersucht. Dieses Frequenzspektrum weist für jeden Sprachlaut charakteristische Maxima (Formanten) und Minima (Antiformanten) auf. Der Sprachlaut kann durch Vergleich dieses Spektrums mit einem gespeicherten Muster S identifiziert werden. Dieses Muster muss als Kriterien die auftretenden Frequenzen und ihre Amplituden enthalten, Zur Erkennung ganzer Worte ist noch die zeitliche Aufeinanderfolge der unterschiedlichen Muster signif4kant.
  • Eine Schwierigkeit bei der Spracherkennung liegt darin, dale der spracherzeugende Apparat beim Menschen kurszeitig stoohastischen Schwankungen hinsichtlich der Formamen und Antitormanten sowie der Stimmbandfrequenz unterliegt. Neben diesen kurzzeitigen Schwankungen sind noch individuelle Unterschiede zwischen den sprechenden Personen bedeutsam. Der anatomische Aufbau von Stimmbändern, Rachenhöhle und Mund- Nasenraum beeinflusst ebenfalls die Formanten und Antiformanten, was sich in der sogenannten "Klangfarbe" der Stimme aus- prägt. Diese "Klangfarbe", d. h. langzeitig wirksame Beson- derheiten im Frequenzspektrum, erschweren die Spracherkennung ebenfalls, weil dadurch f'bexschneidungen von Varianten der einen Lautklasse mit Varianten einer anderen Lautklasse ver-. ursacht werden können.
  • Durch die erwähnten Muster ist eine Norm festgelegt, die entweder auf Durchschnittswerten einer grösseren Sprecher- gruppe beruhen kamt oder auch auf einen einzelnen Sprecher zugeschnitten ist. Kleine Fehlerraten ergebzn sich auch bei kleineren Abweichungen von dieser Norm.
  • Der Erttndung liegt die Autgabe zugrunde, eine Spracherkennung such bei grösseren Abweichungen von der Norm mit klei# ner lretZerrate zu ermöglsohen.
  • Die Erfindung besteht darin, dann bei einem Verfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit-Frequenz-Intensitätemustern eine mitt-, lere Frequenzvvrteilung den Sprachfrequerizepektrums über einen, verglichen mit einzelnen Sprachlauten langen Zeitraum, vorzugsweise mindeste= i Minute lang, ermittelt und mit einem vorgegebenen, für den Erkennungsvorgang charakteristischen Normspektrum verglichen wird, und dass aus dem Ver- gleich 8teuergrönaen, vorzugsweise Steuerspannungen, zur Erkennung und/oder Korrektur der Abweichungen abgeleitet werden. Im folgenden wird die $rflndung anhand der Abbildungen näher erläutert.
  • Figur 1 zeigt ein typisches, die Klangfarbe den Sprechers charakterisierendes Langzeitspektrum. Dieses Langzeitspektrum, das gemäss der Erfindung in -orteilhafter Weise minde- stens 1 Minute langermittelt wird, enthält Langzeittormanten 1 und Iangzeitantiformanten 2. Die lange Dauer, die der Ermittlung des Spektrums zugrunde gelegt ist, ermöglicht eine Unabhängigkeit dieses sprecherspezifischen Spektrums von zufälligen Schwankungen der Stimme sowie auch von den Kurzzeitfrequenzverteilungen der einzelnen Sprachlaute. Strichpunktiert eingezeichnet ist in Figur 1 eine mittlere Kurve 3, die dem der Spracherkennung zugrunde liegenden Normspektrum entspricht. Aus dem Vergleich des spreoherspezif fischen Langzeitspektrums mit diesem Normspektrum lassen
    sich
    sich Steuergrössen ableiten, «d?%gemäss der Erfindung bei-
    spielsweise zur Anzeige oder Angleichung von Abweichungen an die Norm ausni_,t?en lassen.
  • . Figur 2 zeigt das Blockschaltbild einer Einrichtung zur Ableitung dieser Steuergrössen und zu ihrer Ausnutzung im Sinne einer Angleichung.
  • Die zu erkennende Sprache wird über ein Mikrophon 4 in elektrische Signale umgewandelt und auf eine Anordnung von Filtern 5 verteilt. Diese Filter sind auf verschiedene Frequenzen abgestimmt und so abgestuft, dass sie den ganzen Interessierenden Frequenzbereich erfassen. Die Ausgangssignale dieser Filter 5 werden einem Korrelator 6 zugeführt und dort mit dem Normspektrum verglichen, Dieser Vergleich erfolgt über längere Zeit integrierend, die Vergleiohszeit kann mit einem Zeitgeber 7 vorgegeben werde. per Korrßlator 6 erzeugb FehlerspanuUngolZ Q, U = U - Un, die den Abweichungen zwischen Langzeitspektrum und Normspektrum proportional stand. (U sei die Amplitude des zu Untersuohendert Spektrums bei einer bestimmten Frequenz, U, sei die Atnpll,tude der Normkurve bei der gleioben Frequenz). Aus diesen Spannungen A IU werden Naehsteuerspannungen proporyional zu erzeugt undeiner Anordnung von Regelverstärkern 7 zugeführt. Diese Nachsteuerspannungen bewirken, daao an den Ausgängen der Regelverstärker das an den Ausgängen der Filteranordnung 5 erzeugte Yrequenzspektrum, das ebenf$lls'der Anordnung von Regelyerstärkerri 7 zugeführt wird, an das Normspektrum angeglichen ist.
  • Im allgemeinen Falle wird das zu untersuchende Spektrum in unterschiedlich ausgedehnten Frequenzbereichen von dem Norm-9 spektrum nach oben oder unten abweichen (s. Fig. i). Es ist lediglich eine Frage des Aufwandes an Filtern, Korrelatoxgliedexn und Regelverstärkern, bis zu welchem Grade diese*abweiohenden Frequenzbereiche nach Zahl, Ausdehnung und Verlauf erfasst werden können. Die Erfindung lässt sich mit Vorteil verwenden, um beispielsweise eine Spraohschulung vorzunehmen; dann wird ein Normspektrum zum Vergleich herangezogen, das gewünaehten Spracheigenheiten entspricht, und abweichende Spracheigenheiten werden angezeigt.
  • Zur Untersuchung spezieller Eigenheiten eines Sprechers kann in vorteilhafter Weise eine Ansteuerung der'Regelverstärker mit einer Spannung@gemägs oder Uk erfolgen. Mit dieser Massnahme wird der charakteristische Verlauf des Langzeitspektrums betont.
  • Der Frequenzgang der Fehlerspannung A U kann zur Identifizierung von Sprechern ausgenu"-zt werden.

Claims (2)

  1. P a t e n t a n s p r ü c h e 1. erfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit-Frequenz-Intensitätsmustern, dadurch gekennzeichnet, dass eine mittlere Frequenzvertellung des Sprachfrequenzepektrums über einen, verglichen mit einzelnen Sprachlauten, langen Zeitraum, vorzugsweise mindestens 1 Minute lang, ermittelt und mit einem vorgegebenen, für den Erkennungsvorgang charakteristischen Normspektrum verglichen wird, und dass aus dem Vergleich Steuergröseen, vorzugsweise Steuerspannungen, zir Erkennung und/oder Korrektur der Abweichungen abgeleitet werden.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Steuergrössen erzeugt werden, die den Abweichungen der mittleren Frequenzverteilung gegenüber dem Normspektrum proportional sind. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Steuergrössen erzeugt werden, die von den Abweichungen der mittleren Frequenzverteilung gegenüber dem Normspektrum nichtlinear abhängig sind. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge-kennzeichnet, dass die Zahl der erzeugten Steuergrössen von der Zahl und Breite der Bereiche abhängig gewählt wird, in denen das Spraehfrequenzapektrum vom Normspektrum abweicht. 5. Verfahren nach Anspruch 4, dadurch gekennzebhnet, dass die Steuergrössen nach den Frequenzbereichen, von deren Abweichungen gegenüber dem Normspektrum ^'.e abhängig sind, getrennt werden. 6, Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die nach Frequenzbereichen getrennten Steuergrössen die zu erkennenden Sprachlaute im.S inne einer Annäherung an das Normspektrum b-ieinflussen. ?. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dasß die Verteilung der Steuergrössen nach Frequenz und Amplitude zur Identifizierung des Sprechers, vorzugsweise durch Vergleich im Frequenz-Inten sitäts-Mustern, verwendet wird. B. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daso die Steuergrössen zur Verstärkung der abweichenden Eigenschaften der zu erkennenden Sprachlaute gegenüber dem Normspektrum ausgenutzt werden.
DE19671572520 1967-06-08 1967-06-08 Verfahren zur Erkennung von Sprachlauten Pending DE1572520A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DET0034054 1967-06-08

Publications (1)

Publication Number Publication Date
DE1572520A1 true DE1572520A1 (de) 1970-02-19

Family

ID=7558228

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19671572520 Pending DE1572520A1 (de) 1967-06-08 1967-06-08 Verfahren zur Erkennung von Sprachlauten

Country Status (1)

Country Link
DE (1) DE1572520A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2233872A1 (de) * 1971-07-09 1973-01-18 Western Electric Co Signalanalysator
FR2337393A1 (fr) * 1975-12-29 1977-07-29 Dialog Syst Procede et appareil d'analyse et de reconnaissance de parole

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2233872A1 (de) * 1971-07-09 1973-01-18 Western Electric Co Signalanalysator
FR2337393A1 (fr) * 1975-12-29 1977-07-29 Dialog Syst Procede et appareil d'analyse et de reconnaissance de parole

Similar Documents

Publication Publication Date Title
DE69131095T2 (de) Verständlichkeitsverbesserungsanordnung für eine Beschallungsanlage
DE3645118C2 (de)
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE102014107028B4 (de) Verbesserte biometrische Passwortsicherheit
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE4031638C2 (de)
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2021126C3 (de) Spracherkennungs anordnung
DE19840548C2 (de) Verfahren zur instrumentellen Sprachqualitätsbestimmung
DE3733983A1 (de) Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen
DE1572520A1 (de) Verfahren zur Erkennung von Sprachlauten
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
DE2109436A1 (de) Amphtudenregler für elektrische Signale
DE3129353A1 (de) Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen
DE2431458A1 (de) Verfahren zur automatischen sprechererkennung
DE1189745B (de) Verfahren zum Identifizieren von Schallereignissen
DE4012337A1 (de) Verfahren zur erkennung von sprache
DE2304070C3 (de) Sprachübungsgerät für Taube oder Schwerhörige
DE4015381A1 (de) Spracherkennungsgeraet und verfahren zur spracherkennung
DE2825327B1 (de) Vorrichtung zur Erzeugung einer der Folge von Pulsschlaegen entsprechenden Impulsfolge
DE3630518C2 (de) Einrichtung zum lautweisen Identifizieren eines Sprechmusters
DE1079118B (de) Verfahren zur elektrischen Nachrichtenuebertragung unter Frequenzbandpressung