Einrichtung zur Extrahierung kennzeichnender Kriterien
von
Schwingungen, insbesondere Sprachschwingungen
Die bisher bekannten
Einrichtungen zur selbsttätigen Ermittlung
der Informationsinhalte von Schwingungen,
insbesonder Sprachschwingungen, beruhen auf der Methode der Ft-Equenzanalyse im
Sin-ne der Bildung und Auswertung von Frequenzen,
Demgegenüber besteht
der Haupterfindungsgedanke darin, daß die
Eigenarten der natürlichen
Schallschwingungen selbst als kennzeich-
nende Kriterien (insbeondere
zur Erkennung der Laute usw.) verwen-
det werden, d. h. aus der Struktur
selbst der natürlichen Schall-
schwingungen werden ihre kennzeichnenden Kriterien
abgeleitet. Es
ist bekannt, die Schwingungsstruktur für einen Beobachter
z. B,
mittels eines Oszillografen sichtbar zu machen. Es ist auch
be-
kannt, während des Zeitverlaufes von Sprachschwingungen in diesen
gewisse
(nämlich durch den "Pitch" gegebene) Sprungstellen festzu-
stellen,
aber ebenfalls wieder nur für den Zweck einer sichtbaren
Darstellung
in modifizierter Form.
Gemäß der Erfindung ist eine Erkennungseinrichtung
zur automati-
sehen Ermittlung der in Schwingungen, besonders Sprachschwingun-
gen
enthaltenen Information dadurch gekennzeichnet, daß sie eine
Mehrzahl
von Merkmalen ermittelt und gemeinsam auswertet, welche
Einzelheiten der natürlichen
Struktur der über der Zeitachse ver-
laufenden Jellenform
der Schwingungen kennzeichnen, wie insbesondere große Maxima, Minima, Nulldurchgänge,
:lendepunkte, Einsätze von Schwingungsgruppen, sowie weitere -Maxima, Minima, Nulldurchgänge,
dendepunkte usw., die in Überlagerter Form vorhanden sind. Mit Hilfe dieser natürlichen
Kriterien, die :nan in linpulse umwandeln kann, hat man schon alle notwendigen Unterscheidungsmerkmale
zur Erkennung der Laute, z. I3. der Vokale usw. Means for extracting distinctive criteria of vibrations, particularly voice vibrations The previously known devices for automatically determining the information content of vibrations insbesonder voice vibrations, based on the method of Ft Equenzanalyse in sintering ne of the formation and evaluation of frequencies contrast, the main idea of the invention is that the peculiarities of the natural sound vibrations themselves are used as characteristic criteria (in particular for recognizing the sounds etc.) , ie their characteristic criteria are derived from the structure itself of the natural sound vibrations. It is known that the vibration structure for an observer z. B, to be made visible by means of an oscilloscope. It is also known to detect certain jump points (namely given by the "pitch" ) during the course of time of speech oscillations in these, but again only for the purpose of a visible representation in a modified form. According to the invention is a recognition device for automatic determination of the see characterized in vibrations, especially Sprachschwingun- gen information contained that it determines a plurality of features in common and evaluates which details of the structure of the natural over the time axis which run Jellenform of the vibrations identify, in particular, large maxima, minima, zero crossings, end points, use of vibration groups, as well as other maxima, minima, zero crossings, end points, etc., which are present in superimposed form. With the help of these natural criteria, which: nan can convert into linpulse, you already have all the necessary distinguishing features for recognizing the sounds, e.g. I3. the vowels etc.
Um dies technisch ausführen zu können, gibt es verschiedene praktische
Ausführungsmöglichkeiten. So kann man die Breiten der Amplituden verwenden und miteinander
vergleichen, oder die Höhe der Am-plituden mit ihrer Breite oder auch die Anzahl
der rlaxitna, Minima,
Wendepunkte usw. feststellen, vergleichen, zählen
usw.In order to be able to carry out this technically, there are various practical options. So one can use the widths of the amplitudes and compare them with one another, or determine, compare, count, etc. the height of the amplitudes with their width or also the number of rlaxitna, minima, turning points etc.
Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung
der gesprochenen Vokale (s. Abb. i) d. h. ihrer Schallschwin-gungen, genügt es
schon, wenn man z. B. die Anzahl der großen Maxi-
ma (s. Abb. 2) feststellt und
zählt. Als weiteres Kriterium braucht man nur noch festzustellen, ob die natürlichen
Schallschwingungen viele kleine Maximas bzw. Amplituden hat (s. Abb.
1). Zur Abtren-
nung der Perioden der gesprochenen Vokale (s. Abb.
3) genügt es schon, die stärkste Amplitude oder die Grundfrequenz festzustellen.
Mit Hilfe dieser Vokale (dabei ist "o" nicht erforderlich) und nur
weiterer
zweier
Laute kann man z. B. die gesprochenen Zehn Ziffern (auto-
matische
Ziffernerkennung) eindeutig erkennen, unterscheiden, bestimmen und feststellen.
In
Fig. 4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes
zur Verari i'- _1 icliung des Vorstehenden dargestellt. Die.Schallschwingungen
der gesprochenen Laute werden, wie das Block-Schaltbild zeigt:, in ein Mikrophon
M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung
A, die einen "Buchstabenabtrennimpuls" erzeugt. Dies kann durch Verzenen
der Grundfrequenz und Differenzieren der daraus entstandenen Impulse
geschehen. Es ist auch möglich, die stärkste Anfangsamplitude
zu benutzen*
Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in Fig.
5 gezeigt, aur die weiter unten nochmals Bezug
genommen wird. Außerdem
gehen die Schwingungen vom Verstärker V auszu einer Schaltung B, die es ermöglicht,
die breiten Amplitu-
den festzustellen und in Impulse umzuwandeln. Dies
kann man ein-fach durch einen Tiefpaß erreichen. Eine andere Möglichkeit
wäre,
die Anzahl der Einsätze von Schwingungsruppen festzustellen.
Wei-
terhin gehen vom Verstärker V die Schwingungen durch eine gewöhn-
liche
Begrenzerstufe C oder ähnliches, die es ermöglicht, die klei-
nen
engen Amplituden der normalen Kurve festzustellen und in Im-
pulse umzuwandeln.
Über eine Codiermatrix L werden die gewonnenen
Impulse in weiteren
Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. dählsysteme
für Fernsprechvermittlungen in
Frage, weitere Anwendungsmöglichkeiten
sind die folgenden: Schrei-
ben der gesprochenen Worte mit Hilfe des Geräts
auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der
gesprochenen zehn verschiedenen Ziffern und danach automatische
Vornahme von
Einstellfunktionen an Automaten, z. B. Vermittlungs-systemen, Sprachverständigung
mit Gehörlosen, Frequenzbandkompression in Übertragungssystemen, Übersetzen
in Fremdsprachen, Sprachforschung usw.
Wie bereits
erwähnt, gibt es verschiedene Möglichkeiten, die "Buchstabenabtrennimpulse"
aus der Schwingungsstruktur zu gewinnen. Ge-
mäß einem bereits vorliegenden
Vorschlag (Patentanmeldung K 35 882
IXa/42g) werden die Einteilungsimpulse
dadurch erhalten, daß auf-
einanderfolgende Schwingungszüge der Sprachwelle
fortgesetzt mit-
" einander verglichen werden, wobei sich aus den so erhaltenen
Differenzwerten
Umschlagsstellen ergeben, an denen die Amplituden
oder Frequenzen der Sprachschwingungen,
nachdem sie vorher ab-bzw. zunahmen, plötzlich wieder größer bzw. kleiner
werden.
Eine relativ einfache Schaltung zur Gewinnung derartiger
Abtrennimpulse IP aus der Schwingungsstruktur besteht gemäß Fig.
5 aus
einem Hochpaß 8 und einem Tiefpaß 9, die jeweils
an einem Ein-
gang eines rlipflops 10 angeschlossen sind. Es ergeben
sich Wie-
derholungen des Vorganges, daß bei E eingehende niedrige
Frequen-
zen durch das Filter 9 und hohe Frequenzen durch das Filter 8 ge-
langen,
und diese Wiederholungen ermöglichen die genannten Abtrennungen durch Ausgangsimpulse
IP des Flipflops 10. In Kombination
damit kann man wie in Fig. 5 dargest< eine Reihe von
Filtern 11
die "
vorsehen, durch dievFrequenzen ebenfalls laufen, wobei bei
jedem
Buchstaben einige bestimmte Filter ansprechen. Dies wird durch
Flipflops
12 jeweils festgestellt. Deren Ausgangsimpulse werden in
Speichereinrichtungen
13 registriert, und über Tore 14 können in'
Abhängigkeit von den Abtrennimpulsen
IP die Inhalte der Speicher
13 ausgegeben und miteinander verknüpft werden. An exemplary embodiment is intended to explain this in more detail. In order to distinguish the spoken vowels (see Fig. I), ie their sound oscillations, it is sufficient if one z. B. the number of large maxima (see Fig. 2) determines and counts. As a further criterion one only needs to determine whether the natural sound vibrations have many small maximums or amplitudes (see Fig. 1). To separate the periods of the spoken vowels (see Fig. 3) it is sufficient to determine the strongest amplitude or the fundamental frequency. With the help of these vowels ("o" is not required) and only two other sounds you can e.g. B. clearly recognize, distinguish, determine and determine the spoken ten digits ( automatic digit recognition). FIG. 4 shows a block diagram for a possible embodiment of a simple device for processing the above. The sound vibrations of the spoken sounds are spoken into a microphone M, as the block diagram shows. These are passed on via an amplifier V to a circuit A which generates a "letter separation pulse" . This can be done by verifying the basic frequency and differentiating the resulting impulses . It is also possible to use the strongest initial amplitude * A circuit for generating such cut-off pulses is also shown in FIG. 5, but reference is again made below. In addition, the oscillations from amplifier V go out of a circuit B, which makes it possible to determine the broad amplitudes and convert them into pulses. This can be achieved simply by using a low pass . Another possibility would be to determine the number of times that vibration groups have been used . WEI terhin go from the amplifier V, the vibrations by a Ordinary C limiter or the like which makes it possible to determine the small NEN narrow amplitudes of the normal curve and pulse in import convert. The pulses obtained are effective in further processing devices F via a coding matrix L. As such come z. B. counting systems for telephone exchanges in question, further possible applications are the following: writing the spoken words with the help of the device on a typewriter, automatic dictation machine, automatic recognition of the spoken ten different digits and then automatic setting functions on machines, e.g. B. switching systems, speech communication with deaf people, frequency band compression in transmission systems, translation into foreign languages, linguistic research , etc. As already mentioned, there are various ways of extracting the "letter separation impulses" from the vibration structure. ACCORDING an already present proposal (Patent Application K 35 882 IXa / 42g) the division pulses are obtained by con- secutive oscillation trains of the speech wave continued with- "are compared with each other, said result from the thus-obtained difference values envelope points at which the Amplitudes or frequencies of the speech vibrations, after they had previously decreased or increased, suddenly become larger or smaller again.A relatively simple circuit for obtaining such separation pulses IP from the oscillation structure consists of a high- pass filter 8 and a low-pass filter 9 according to FIG are each connected to an input of a flip-flop 10. Repetitions of the process result that low frequencies incoming at E pass through filter 9 and high frequencies pass through filter 8 , and these repetitions make the above-mentioned possible Separations by output pulses IP of the flip-flop 10. In combination a series of filters 11 can thus be used, as shown in FIG
the "
provide to run through the frequencies as well, with each
Letters address some specific filters. This is determined by flip-flops 12 in each case. Their output pulses are registered in storage devices 13, and via gates 14 the contents of the memories 13 can be output and linked to one another as a function of the cut-off pulses IP.