[go: up one dir, main page]

DE1472011B2 - Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen - Google Patents

Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen

Info

Publication number
DE1472011B2
DE1472011B2 DE1959K0056183 DEK0056183A DE1472011B2 DE 1472011 B2 DE1472011 B2 DE 1472011B2 DE 1959K0056183 DE1959K0056183 DE 1959K0056183 DE K0056183 A DEK0056183 A DE K0056183A DE 1472011 B2 DE1472011 B2 DE 1472011B2
Authority
DE
Germany
Prior art keywords
maxima
vibrations
speech
information contained
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE1959K0056183
Other languages
English (en)
Other versions
DE1472011A1 (de
DE1472011C3 (de
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to DE1959K0056183 priority Critical patent/DE1472011B2/de
Publication of DE1472011A1 publication Critical patent/DE1472011A1/de
Publication of DE1472011B2 publication Critical patent/DE1472011B2/de
Application granted granted Critical
Publication of DE1472011C3 publication Critical patent/DE1472011C3/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Anspruches 1.
Die^bisher bekannten Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenen /Informationen beruhen auf der Methode der Fre-/ quenzanalyse im Sinne der Bildung und Auswertung von Frequenzen.
Es ist bekannt, die Schwingungsstruktur für einen Beobachter, z. B. mittels eines Oszillografen, sichtbar zu machen. Es ist auch bekannt, während des Zeitverlaufes von Sprachschwingungen in diesen gewisse (nämlich durch den »Pitch« gegebene) Sprungstellen festzustellen, aber ebenfalls wieder nur für den Zweck einer sichtbaren Darstellung in modifizierter Form. Demgegenüber besteht die gemäß vorliegender Erfindung zu lösende Aufgabe darin, Eigenarten bzw. die Struktur der natürlichen Sprachschwingungen selbst als kennzeichnende Kriterien (insbesondere zur Erkennung der Laute usw.) verwendbar zu machen und dementsprechend ein einfaches, frequenzunabhängiges, charakteristisches, Struktureinzelheiten beschreibendes, von Männern, Frauen und Kindern unabhängiges und doch sicheres, auf Sprechvorschriften nicht angewiesenes Verfahren zur automatischen Spracherkennung zu schaffen.
Gemäß der Erfindung wird die gestellte Aufgabe dadurch gelöst, daß als charakterisierende Struktureinzelheiten erste Maxima und zweite Maxima des Sprachsignals bestimmt und gemeinsam ausgewertet werden.
Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den übrigen Ansprüchen.
Mit Hilfe dieser natürlichen Kriterien, die man in Impulse umwandeln kann, hat man schon alle notwendigen Unterscheidungsmerkmale zur Erkennung der
65 Laute, der Vokale usw.
Weder der Stand der Technik gemäß der deutschen Auslegeschrift 11 89 744, der britischen Patentschrift 9 78 303, noch der ältere Vorschlag gemäß der deutschen Patentschrift 11 97 638 geben die Lehre, als charakterisierende Struktureinzelheiten bei der automatischen Erkennung von Sprachschwingungen erste und zweite Maxima (F i g. 2, F i g. 1) zu verwenden, da es nicht erkannt wurde, mit diesen speziellen Merkmalen die Sprachlaute zu identifizieren. Insbesondere Anspruch 6 der deutschen Patentschrift 11 97 638 beinhaltet zwar die Feststellung der Häufigkeit von »Vorgängen« (z. B. Nulldurchgängen), doch fehlt die Aussage, daß darunter auch die Bestimmung erster und zweiter Maxima fällt.
Um das vorliegende Verfahren technisch ausführen zu können, gibt es verschiedene Möglichkeiten:
Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung der gesprochenen Vokale (s. Fig. 1), d. h. ihrer Schallschwingungen, genügt es schon, wenn man z. B. die Anzahl der ersten Maxima (s. Fi g. 2 gleich der gestrichelten Kurve in Fig. 1) feststellt und zählt. Als weiteres Kriterium braucht man nur noch festzustellen, ob die natürlichen Sprachschwingungen viele zweite Maximas bzw. Amplituden haben (s. F i g. 1). Zur Abtrennung der Perioden der gesprochenen Vokale bzw. Laute genügt es schon, die stärkste Amplitude, d. h. das Maximum der Schwingungsmaxima (s. F i g. 3), welches der Grundfrequenz zugeordnet ist, festzustellen.
Mit Hilfe dieser Vokale (dabei ist »o« nicht erforderlich) und nur zweier weiterer Laute kann man z. B. die gesprochenen zehn Ziffern (automatische Ziffernerkennung) eindeutig erkennen, unterscheiden, bestimmen und feststellen.
In Fig.4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verwirklichung des genannten Verfahrens dargestellt.
Die Schallschwingungen der gesprochenen Laute werden, wie das Blockschaltbild zeigt, in ein Mikrophon M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung A, die einen »Buchstabenabtrennimpuls« erzeugt. Dies kann durc
Verzerren der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch möglich, die stärkste Anfangsamplitude (F i g. 3) zu benutzen. Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in F i g. 5 gezeigt, auf die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker Vaus zu einer Schaltung B, die es ermöglicht, die ersten Maxima (F i g. 2) festzustellen und in Impulse umzuwandeln. Dies kann man einfach durch einen Tiefpaß erreichen. Weiterhin gehen vom Verstärker V die Schwingungen durch eine gewöhnliche Begrenzerstufe C oder ähnliches, die es ermöglicht, die zweiten Maxima (Fig. 1) mit kleinen und nahe beieinanderliegenden Amplituden festzustellen und in Impulse umzuwandeln. Über eine Codiermatrix D werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. Wählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schreiben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungssy-
stemen, Sprachverständigung mit Gehörlosen, Frequenzbandkompression in Übertragungssystemen, Übersetzen in Fremdsprachen und Sprachforschung.
Wie bereits erwähnt, gibt es verschiedene Möglichkeiten, die »Buchstabenabtrennimpulse« aus der Schwingungsstruktur zu gewinnen. Gemäß einem bereits vorliegenden Vorschlag (deutsche Patentschrift 11 97 638) werden die Einteilungsimpulse dadurch erhalten, daß aufeinanderfolgende Schwingungszüge der Sprachwelle fortgesetzt miteinander verglichen werden, wobei sich aus den so erhaltenen Differenzwerten Umschlagstellen ergeben, an denen die Amplituden oder Frequenzen der Sprachschwingungen, nachdem sie vorher ab- bzw. zunahmen, plötzlich wieder größer bzw. kleiner werden.
Eine relativ einfach Schaltung zur Gewinnung derartiger Abtrennimpulse IP aus der Schwingungsstruktur besteht gemäß Fig.5 aus einem Hochpaß 8 und einem Tiefpaß 9, die jeweils an einem Eingang eines Flipflops 10 angeschlossen sind. Es ergeben sich Wiederholungen des Vorganges, daß bei E eingehende niedrige Frequenzen durch das Filter 9 und hohe Frequenzen durch das Filter 8 gelangen, und diese Wiederholungen ermöglichen die genannten Abtrennungen durch Ausgangsimpulse IP des Flipflops 10. In Kombination damit kann man, wie in F i g. 5 dargestellt, eine Reihe von Filtern 11 vorsehen, durch die die Frequenzen ebenfalls laufen, wobei bei jedem Buchstaben einige bestimmte Filter ansprechen. Dies wird durch Flipflops 12 jeweils festgestellt. Deren Ausgangsimpulse werden in Speichereinrichtungen 13 registriert, und über Tore 14 können in Abhängigkeit von den Abtrennimpulsen IP die Inhalte der Speicher 13 ausgegeben und miteinander verknüpft werden.
Hierzu 2 Blatt Zeichnungen

Claims (6)

Patentansprüche:
1. Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenden Informationen unter Verwendung von die Sprachschwingungen charakterisierenden Struktureinzelheiten, dadurch gekennzeichnet, daß als charakterisierende Struktureinzelheiten erste Maxima (F i g. 2) und zweite Maxima (Fig. 1) des Sprachsignals bestimmt und gemeinsam ausgewertet werden.
2. Verfahren nach Anspruch I1 dadurch gekennzeichnet, daß die Anzahl der ersten Maxima und die Anzahl der zweiten Maxima festgestellt und verglichen werden.
3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die ersten und die zweiten Maxima in Impulse umgewandelt werden.
4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß solche erste und zweite Maxima des Sprachsignals gemeinsam ausgewertet werden, die innerhalb von durch Abtrennimpulsen markierten Schwingungsgruppen liegen.
5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima mit Hilfe von Filtern bestimmt werden.
6. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima des Sprachsignals durch Vergleichen und Amplituden mit Schwingungsdauern oder durch Vergleichen von Schwingungsdauern ermittelt werden.
DE1959K0056183 1959-01-16 1959-01-16 Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen Granted DE1472011B2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1959K0056183 DE1472011B2 (de) 1959-01-16 1959-01-16 Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1959K0056183 DE1472011B2 (de) 1959-01-16 1959-01-16 Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen

Publications (3)

Publication Number Publication Date
DE1472011A1 DE1472011A1 (de) 1969-11-13
DE1472011B2 true DE1472011B2 (de) 1978-01-12
DE1472011C3 DE1472011C3 (de) 1978-10-19

Family

ID=7227746

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1959K0056183 Granted DE1472011B2 (de) 1959-01-16 1959-01-16 Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen

Country Status (1)

Country Link
DE (1) DE1472011B2 (de)

Also Published As

Publication number Publication date
DE1472011A1 (de) 1969-11-13
DE1472011C3 (de) 1978-10-19

Similar Documents

Publication Publication Date Title
DE2918533C2 (de)
DE2953262C2 (de)
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE2613258A1 (de) System zur automatischen spracherkennung
DE4031638C2 (de)
DE1192257B (de) Verfahren zum zerstoerungsfreien Lesen von elektrischen Zuordnern mit Lerncharakter
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2703200A1 (de) Verfahren und vorrichtung zur kontrolle des schwingungszustandes eines schwingungssystems in einem signalgeber
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE69128582T2 (de) Methode zur Phonemunterscheidung
DE3853702T2 (de) Spracherkennung.
DE1937464B2 (de) Sprachanalysiergeraet
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
DE19851287A1 (de) Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte
DE1472011C3 (de)
DE1797469A1 (de) Einrichtung zur Extrahierung kennzeichnender Kriterien von Schwingungen,insbesondere Sprachschwingungen
DE1487540C3 (de) Verfahren für Analyse und Synthese von elektrischen Akustiksignalen
EP0284734A2 (de) Schaltungsanordnung zum Erkennen von Doppelton-Mehrfrequenzsignalen in Fernsprechanlagen
DE19646634A1 (de) Verfahren zur Befehlseingabe mit Sprache
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE10010232B4 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2624173A1 (de) Signal-erkennungsschaltung
DE586456C (de) Elektroakustischer Apparat
DE2363590A1 (de) Spracherkennungssystem mit merkmalsfolgekodierung

Legal Events

Date Code Title Description
BF Willingness to grant licences
C3 Grant after two publication steps (3rd publication)