DE1572520A1

DE1572520A1 - Verfahren zur Erkennung von Sprachlauten

Info

Publication number: DE1572520A1
Application number: DE19671572520
Authority: DE
Inventors: Helmut Mangold
Original assignee: Telefunken Patentverwertungs GmbH
Current assignee: Telefunken Patentverwertungs GmbH
Priority date: 1967-06-08
Filing date: 1967-06-08
Publication date: 1970-02-19

Description

"Verfahren zur Erkennung von Sprachlauten" Die Erfindung bezieht sich auf ein Verfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit--Prequenz-Intensitätsmustern.
Bei üblichen Verfahren zur Spracherkennung werden die einzelnen zu untersuchenden Sprachlaute hinsichtlich ihres Frequenzspektrums untersucht. Dieses Frequenzspektrum weist für jeden Sprachlaut charakteristische Maxima (Formanten) und Minima (Antiformanten) auf. Der Sprachlaut kann durch Vergleich dieses Spektrums mit einem gespeicherten Muster S identifiziert werden. Dieses Muster muss als Kriterien die auftretenden Frequenzen und ihre Amplituden enthalten, Zur Erkennung ganzer Worte ist noch die zeitliche Aufeinanderfolge der unterschiedlichen Muster signif4kant.
Eine Schwierigkeit bei der Spracherkennung liegt darin, dale der spracherzeugende Apparat beim Menschen kurszeitig stoohastischen Schwankungen hinsichtlich der Formamen und Antitormanten sowie der Stimmbandfrequenz unterliegt. Neben diesen kurzzeitigen Schwankungen sind noch individuelle Unterschiede zwischen den sprechenden Personen bedeutsam. Der anatomische Aufbau von Stimmbändern, Rachenhöhle und Mund- Nasenraum beeinflusst ebenfalls die Formanten und Antiformanten, was sich in der sogenannten "Klangfarbe" der Stimme aus- prägt. Diese "Klangfarbe", d. h. langzeitig wirksame Beson- derheiten im Frequenzspektrum, erschweren die Spracherkennung ebenfalls, weil dadurch f'bexschneidungen von Varianten der einen Lautklasse mit Varianten einer anderen Lautklasse ver-. ursacht werden können.
Durch die erwähnten Muster ist eine Norm festgelegt, die entweder auf Durchschnittswerten einer grösseren Sprecher- gruppe beruhen kamt oder auch auf einen einzelnen Sprecher zugeschnitten ist. Kleine Fehlerraten ergebzn sich auch bei kleineren Abweichungen von dieser Norm.
Der Erttndung liegt die Autgabe zugrunde, eine Spracherkennung such bei grösseren Abweichungen von der Norm mit klei# ner lretZerrate zu ermöglsohen.
Die Erfindung besteht darin, dann bei einem Verfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit-Frequenz-Intensitätemustern eine mitt-, lere Frequenzvvrteilung den Sprachfrequerizepektrums über einen, verglichen mit einzelnen Sprachlauten langen Zeitraum, vorzugsweise mindeste= i Minute lang, ermittelt und mit einem vorgegebenen, für den Erkennungsvorgang charakteristischen Normspektrum verglichen wird, und dass aus dem Ver- gleich 8teuergrönaen, vorzugsweise Steuerspannungen, zur Erkennung und/oder Korrektur der Abweichungen abgeleitet werden. Im folgenden wird die $rflndung anhand der Abbildungen näher erläutert.
Figur 1 zeigt ein typisches, die Klangfarbe den Sprechers charakterisierendes Langzeitspektrum. Dieses Langzeitspektrum, das gemäss der Erfindung in -orteilhafter Weise minde- stens 1 Minute langermittelt wird, enthält Langzeittormanten 1 und Iangzeitantiformanten 2. Die lange Dauer, die der Ermittlung des Spektrums zugrunde gelegt ist, ermöglicht eine Unabhängigkeit dieses sprecherspezifischen Spektrums von zufälligen Schwankungen der Stimme sowie auch von den Kurzzeitfrequenzverteilungen der einzelnen Sprachlaute. Strichpunktiert eingezeichnet ist in Figur 1 eine mittlere Kurve 3, die dem der Spracherkennung zugrunde liegenden Normspektrum entspricht. Aus dem Vergleich des spreoherspezif fischen Langzeitspektrums mit diesem Normspektrum lassen

sich

sich Steuergrössen ableiten, «d?%gemäss der Erfindung bei-

spielsweise zur Anzeige oder Angleichung von Abweichungen an die Norm ausni_,t?en lassen.
. Figur 2 zeigt das Blockschaltbild einer Einrichtung zur Ableitung dieser Steuergrössen und zu ihrer Ausnutzung im Sinne einer Angleichung.
Die zu erkennende Sprache wird über ein Mikrophon 4 in elektrische Signale umgewandelt und auf eine Anordnung von Filtern 5 verteilt. Diese Filter sind auf verschiedene Frequenzen abgestimmt und so abgestuft, dass sie den ganzen Interessierenden Frequenzbereich erfassen. Die Ausgangssignale dieser Filter 5 werden einem Korrelator 6 zugeführt und dort mit dem Normspektrum verglichen, Dieser Vergleich erfolgt über längere Zeit integrierend, die Vergleiohszeit kann mit einem Zeitgeber 7 vorgegeben werde. per Korrßlator 6 erzeugb FehlerspanuUngolZ Q, U = U - Un, die den Abweichungen zwischen Langzeitspektrum und Normspektrum proportional stand. (U sei die Amplitude des zu Untersuohendert Spektrums bei einer bestimmten Frequenz, U, sei die Atnpll,tude der Normkurve bei der gleioben Frequenz). Aus diesen Spannungen A IU werden Naehsteuerspannungen proporyional zu erzeugt undeiner Anordnung von Regelverstärkern 7 zugeführt. Diese Nachsteuerspannungen bewirken, daao an den Ausgängen der Regelverstärker das an den Ausgängen der Filteranordnung 5 erzeugte Yrequenzspektrum, das ebenf$lls'der Anordnung von Regelyerstärkerri 7 zugeführt wird, an das Normspektrum angeglichen ist.
Im allgemeinen Falle wird das zu untersuchende Spektrum in unterschiedlich ausgedehnten Frequenzbereichen von dem Norm-9 spektrum nach oben oder unten abweichen (s. Fig. i). Es ist lediglich eine Frage des Aufwandes an Filtern, Korrelatoxgliedexn und Regelverstärkern, bis zu welchem Grade diese*abweiohenden Frequenzbereiche nach Zahl, Ausdehnung und Verlauf erfasst werden können. Die Erfindung lässt sich mit Vorteil verwenden, um beispielsweise eine Spraohschulung vorzunehmen; dann wird ein Normspektrum zum Vergleich herangezogen, das gewünaehten Spracheigenheiten entspricht, und abweichende Spracheigenheiten werden angezeigt.
Zur Untersuchung spezieller Eigenheiten eines Sprechers kann in vorteilhafter Weise eine Ansteuerung der'Regelverstärker mit einer Spannung@gemägs oder Uk erfolgen. Mit dieser Massnahme wird der charakteristische Verlauf des Langzeitspektrums betont.
Der Frequenzgang der Fehlerspannung A U kann zur Identifizierung von Sprechern ausgenu"-zt werden.

Claims

P a t e n t a n s p r ü c h e 1. erfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit-Frequenz-Intensitätsmustern, dadurch gekennzeichnet, dass eine mittlere Frequenzvertellung des Sprachfrequenzepektrums über einen, verglichen mit einzelnen Sprachlauten, langen Zeitraum, vorzugsweise mindestens 1 Minute lang, ermittelt und mit einem vorgegebenen, für den Erkennungsvorgang charakteristischen Normspektrum verglichen wird, und dass aus dem Vergleich Steuergröseen, vorzugsweise Steuerspannungen, zir Erkennung und/oder Korrektur der Abweichungen abgeleitet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Steuergrössen erzeugt werden, die den Abweichungen der mittleren Frequenzverteilung gegenüber dem Normspektrum proportional sind. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Steuergrössen erzeugt werden, die von den Abweichungen der mittleren Frequenzverteilung gegenüber dem Normspektrum nichtlinear abhängig sind. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge-kennzeichnet, dass die Zahl der erzeugten Steuergrössen von der Zahl und Breite der Bereiche abhängig gewählt wird, in denen das Spraehfrequenzapektrum vom Normspektrum abweicht. 5. Verfahren nach Anspruch 4, dadurch gekennzebhnet, dass die Steuergrössen nach den Frequenzbereichen, von deren Abweichungen gegenüber dem Normspektrum ^'.e abhängig sind, getrennt werden. 6, Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die nach Frequenzbereichen getrennten Steuergrössen die zu erkennenden Sprachlaute im.S inne einer Annäherung an das Normspektrum b-ieinflussen. ?. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dasß die Verteilung der Steuergrössen nach Frequenz und Amplitude zur Identifizierung des Sprechers, vorzugsweise durch Vergleich im Frequenz-Inten sitäts-Mustern, verwendet wird. B. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daso die Steuergrössen zur Verstärkung der abweichenden Eigenschaften der zu erkennenden Sprachlaute gegenüber dem Normspektrum ausgenutzt werden.