DE1572520A1 - Verfahren zur Erkennung von Sprachlauten - Google Patents
Verfahren zur Erkennung von SprachlautenInfo
- Publication number
- DE1572520A1 DE1572520A1 DE19671572520 DE1572520A DE1572520A1 DE 1572520 A1 DE1572520 A1 DE 1572520A1 DE 19671572520 DE19671572520 DE 19671572520 DE 1572520 A DE1572520 A DE 1572520A DE 1572520 A1 DE1572520 A1 DE 1572520A1
- Authority
- DE
- Germany
- Prior art keywords
- frequency
- control variables
- standard spectrum
- speech sounds
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000001228 spectrum Methods 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 2
- 230000007774 longterm Effects 0.000 description 6
- 210000001260 vocal cord Anatomy 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
- "Verfahren zur Erkennung von Sprachlauten" Die Erfindung bezieht sich auf ein Verfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit--Prequenz-Intensitätsmustern.
- Bei üblichen Verfahren zur Spracherkennung werden die einzelnen zu untersuchenden Sprachlaute hinsichtlich ihres Frequenzspektrums untersucht. Dieses Frequenzspektrum weist für jeden Sprachlaut charakteristische Maxima (Formanten) und Minima (Antiformanten) auf. Der Sprachlaut kann durch Vergleich dieses Spektrums mit einem gespeicherten Muster S identifiziert werden. Dieses Muster muss als Kriterien die auftretenden Frequenzen und ihre Amplituden enthalten, Zur Erkennung ganzer Worte ist noch die zeitliche Aufeinanderfolge der unterschiedlichen Muster signif4kant.
- Eine Schwierigkeit bei der Spracherkennung liegt darin, dale der spracherzeugende Apparat beim Menschen kurszeitig stoohastischen Schwankungen hinsichtlich der Formamen und Antitormanten sowie der Stimmbandfrequenz unterliegt. Neben diesen kurzzeitigen Schwankungen sind noch individuelle Unterschiede zwischen den sprechenden Personen bedeutsam. Der anatomische Aufbau von Stimmbändern, Rachenhöhle und Mund- Nasenraum beeinflusst ebenfalls die Formanten und Antiformanten, was sich in der sogenannten "Klangfarbe" der Stimme aus- prägt. Diese "Klangfarbe", d. h. langzeitig wirksame Beson- derheiten im Frequenzspektrum, erschweren die Spracherkennung ebenfalls, weil dadurch f'bexschneidungen von Varianten der einen Lautklasse mit Varianten einer anderen Lautklasse ver-. ursacht werden können.
- Durch die erwähnten Muster ist eine Norm festgelegt, die entweder auf Durchschnittswerten einer grösseren Sprecher- gruppe beruhen kamt oder auch auf einen einzelnen Sprecher zugeschnitten ist. Kleine Fehlerraten ergebzn sich auch bei kleineren Abweichungen von dieser Norm.
- Der Erttndung liegt die Autgabe zugrunde, eine Spracherkennung such bei grösseren Abweichungen von der Norm mit klei# ner lretZerrate zu ermöglsohen.
- Die Erfindung besteht darin, dann bei einem Verfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit-Frequenz-Intensitätemustern eine mitt-, lere Frequenzvvrteilung den Sprachfrequerizepektrums über einen, verglichen mit einzelnen Sprachlauten langen Zeitraum, vorzugsweise mindeste= i Minute lang, ermittelt und mit einem vorgegebenen, für den Erkennungsvorgang charakteristischen Normspektrum verglichen wird, und dass aus dem Ver- gleich 8teuergrönaen, vorzugsweise Steuerspannungen, zur Erkennung und/oder Korrektur der Abweichungen abgeleitet werden. Im folgenden wird die $rflndung anhand der Abbildungen näher erläutert.
- Figur 1 zeigt ein typisches, die Klangfarbe den Sprechers charakterisierendes Langzeitspektrum. Dieses Langzeitspektrum, das gemäss der Erfindung in -orteilhafter Weise minde- stens 1 Minute langermittelt wird, enthält Langzeittormanten 1 und Iangzeitantiformanten 2. Die lange Dauer, die der Ermittlung des Spektrums zugrunde gelegt ist, ermöglicht eine Unabhängigkeit dieses sprecherspezifischen Spektrums von zufälligen Schwankungen der Stimme sowie auch von den Kurzzeitfrequenzverteilungen der einzelnen Sprachlaute. Strichpunktiert eingezeichnet ist in Figur 1 eine mittlere Kurve 3, die dem der Spracherkennung zugrunde liegenden Normspektrum entspricht. Aus dem Vergleich des spreoherspezif fischen Langzeitspektrums mit diesem Normspektrum lassen
spielsweise zur Anzeige oder Angleichung von Abweichungen an die Norm ausni_,t?en lassen.sich sich Steuergrössen ableiten, «d?%gemäss der Erfindung bei- - . Figur 2 zeigt das Blockschaltbild einer Einrichtung zur Ableitung dieser Steuergrössen und zu ihrer Ausnutzung im Sinne einer Angleichung.
- Die zu erkennende Sprache wird über ein Mikrophon 4 in elektrische Signale umgewandelt und auf eine Anordnung von Filtern 5 verteilt. Diese Filter sind auf verschiedene Frequenzen abgestimmt und so abgestuft, dass sie den ganzen Interessierenden Frequenzbereich erfassen. Die Ausgangssignale dieser Filter 5 werden einem Korrelator 6 zugeführt und dort mit dem Normspektrum verglichen, Dieser Vergleich erfolgt über längere Zeit integrierend, die Vergleiohszeit kann mit einem Zeitgeber 7 vorgegeben werde. per Korrßlator 6 erzeugb FehlerspanuUngolZ Q, U = U - Un, die den Abweichungen zwischen Langzeitspektrum und Normspektrum proportional stand. (U sei die Amplitude des zu Untersuohendert Spektrums bei einer bestimmten Frequenz, U, sei die Atnpll,tude der Normkurve bei der gleioben Frequenz). Aus diesen Spannungen A IU werden Naehsteuerspannungen proporyional zu erzeugt undeiner Anordnung von Regelverstärkern 7 zugeführt. Diese Nachsteuerspannungen bewirken, daao an den Ausgängen der Regelverstärker das an den Ausgängen der Filteranordnung 5 erzeugte Yrequenzspektrum, das ebenf$lls'der Anordnung von Regelyerstärkerri 7 zugeführt wird, an das Normspektrum angeglichen ist.
- Im allgemeinen Falle wird das zu untersuchende Spektrum in unterschiedlich ausgedehnten Frequenzbereichen von dem Norm-9 spektrum nach oben oder unten abweichen (s. Fig. i). Es ist lediglich eine Frage des Aufwandes an Filtern, Korrelatoxgliedexn und Regelverstärkern, bis zu welchem Grade diese*abweiohenden Frequenzbereiche nach Zahl, Ausdehnung und Verlauf erfasst werden können. Die Erfindung lässt sich mit Vorteil verwenden, um beispielsweise eine Spraohschulung vorzunehmen; dann wird ein Normspektrum zum Vergleich herangezogen, das gewünaehten Spracheigenheiten entspricht, und abweichende Spracheigenheiten werden angezeigt.
- Zur Untersuchung spezieller Eigenheiten eines Sprechers kann in vorteilhafter Weise eine Ansteuerung der'Regelverstärker mit einer Spannung@gemägs oder Uk erfolgen. Mit dieser Massnahme wird der charakteristische Verlauf des Langzeitspektrums betont.
- Der Frequenzgang der Fehlerspannung A U kann zur Identifizierung von Sprechern ausgenu"-zt werden.
Claims (2)
- P a t e n t a n s p r ü c h e 1. erfahren zur Erkennung von Sprachlauten durch Vergleich der zu erkennenden Sprachlaute mit Zeit-Frequenz-Intensitätsmustern, dadurch gekennzeichnet, dass eine mittlere Frequenzvertellung des Sprachfrequenzepektrums über einen, verglichen mit einzelnen Sprachlauten, langen Zeitraum, vorzugsweise mindestens 1 Minute lang, ermittelt und mit einem vorgegebenen, für den Erkennungsvorgang charakteristischen Normspektrum verglichen wird, und dass aus dem Vergleich Steuergröseen, vorzugsweise Steuerspannungen, zir Erkennung und/oder Korrektur der Abweichungen abgeleitet werden.
- 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Steuergrössen erzeugt werden, die den Abweichungen der mittleren Frequenzverteilung gegenüber dem Normspektrum proportional sind. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Steuergrössen erzeugt werden, die von den Abweichungen der mittleren Frequenzverteilung gegenüber dem Normspektrum nichtlinear abhängig sind. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge-kennzeichnet, dass die Zahl der erzeugten Steuergrössen von der Zahl und Breite der Bereiche abhängig gewählt wird, in denen das Spraehfrequenzapektrum vom Normspektrum abweicht. 5. Verfahren nach Anspruch 4, dadurch gekennzebhnet, dass die Steuergrössen nach den Frequenzbereichen, von deren Abweichungen gegenüber dem Normspektrum ^'.e abhängig sind, getrennt werden. 6, Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die nach Frequenzbereichen getrennten Steuergrössen die zu erkennenden Sprachlaute im.S inne einer Annäherung an das Normspektrum b-ieinflussen. ?. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dasß die Verteilung der Steuergrössen nach Frequenz und Amplitude zur Identifizierung des Sprechers, vorzugsweise durch Vergleich im Frequenz-Inten sitäts-Mustern, verwendet wird. B. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daso die Steuergrössen zur Verstärkung der abweichenden Eigenschaften der zu erkennenden Sprachlaute gegenüber dem Normspektrum ausgenutzt werden.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DET0034054 | 1967-06-08 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE1572520A1 true DE1572520A1 (de) | 1970-02-19 |
Family
ID=7558228
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19671572520 Pending DE1572520A1 (de) | 1967-06-08 | 1967-06-08 | Verfahren zur Erkennung von Sprachlauten |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE1572520A1 (de) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE2233872A1 (de) * | 1971-07-09 | 1973-01-18 | Western Electric Co | Signalanalysator |
| FR2337393A1 (fr) * | 1975-12-29 | 1977-07-29 | Dialog Syst | Procede et appareil d'analyse et de reconnaissance de parole |
-
1967
- 1967-06-08 DE DE19671572520 patent/DE1572520A1/de active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE2233872A1 (de) * | 1971-07-09 | 1973-01-18 | Western Electric Co | Signalanalysator |
| FR2337393A1 (fr) * | 1975-12-29 | 1977-07-29 | Dialog Syst | Procede et appareil d'analyse et de reconnaissance de parole |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69131095T2 (de) | Verständlichkeitsverbesserungsanordnung für eine Beschallungsanlage | |
| DE3645118C2 (de) | ||
| DE69421911T2 (de) | Spracherkennung mit pausedetektion | |
| DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
| DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
| DE60302478T2 (de) | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale | |
| DE102014107028B4 (de) | Verbesserte biometrische Passwortsicherheit | |
| DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
| DE4031638C2 (de) | ||
| DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
| DE2021126C3 (de) | Spracherkennungs anordnung | |
| DE19840548C2 (de) | Verfahren zur instrumentellen Sprachqualitätsbestimmung | |
| DE3733983A1 (de) | Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen | |
| DE1572520A1 (de) | Verfahren zur Erkennung von Sprachlauten | |
| DE69025932T2 (de) | Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen | |
| DE2109436A1 (de) | Amphtudenregler für elektrische Signale | |
| DE3129353A1 (de) | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen | |
| DE2431458A1 (de) | Verfahren zur automatischen sprechererkennung | |
| DE1189745B (de) | Verfahren zum Identifizieren von Schallereignissen | |
| DE4012337A1 (de) | Verfahren zur erkennung von sprache | |
| DE2304070C3 (de) | Sprachübungsgerät für Taube oder Schwerhörige | |
| DE4015381A1 (de) | Spracherkennungsgeraet und verfahren zur spracherkennung | |
| DE2825327B1 (de) | Vorrichtung zur Erzeugung einer der Folge von Pulsschlaegen entsprechenden Impulsfolge | |
| DE3630518C2 (de) | Einrichtung zum lautweisen Identifizieren eines Sprechmusters | |
| DE1079118B (de) | Verfahren zur elektrischen Nachrichtenuebertragung unter Frequenzbandpressung |