DE1472011C3

DE1472011C3 -

Info

Publication number: DE1472011C3
Application number: DE1959K0056183
Authority: DE
Inventors: Heinz Dipl.-Phys. 7801 Umkirch Kusch
Original assignee: Individual
Current assignee: Individual
Priority date: 1959-01-16
Filing date: 1959-01-16
Publication date: 1978-10-19
Also published as: DE1472011A1; DE1472011B2

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Anspruches 1.The invention relates to a method according to the preamble of claim 1.

Die bisher bekannten Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenen Informationen beruhen auf der Methode der Frequenzanalyse im Sinne der Bildung und Auswertung von Frequenzen.The previously known methods for the automatic detection of those contained in speech vibrations Information is based on the method of frequency analysis in the sense of the formation and evaluation of Frequencies.

Es ist bekannt, die Schwingungsstruktur für einen Beobachter, z. B. mittels eines Oszillografen, sichtbar zu machen. Es ist auch bekannt, während des Zeitverlaufes von Sprachschwingungen in diesen gewisse (nämlich durch den »Pitch« gegebene) Sprungstellen festzustellen, aber ebenfalls wieder nur für den Zweck einer sichtbaren Darstellung in modifizierter Form. Demgegenüber besteht die gemäß vorliegender Erfindung zu lösende Aufgabe darin, Eigenarten bzw. die Struktur der natürlichen Sprachschwingungen selbst als kennzeichnende Kriterien (insbesondere zur Erkennung der Laute usw.) verwendbar zu machen und dementsprechend ein einfaches, frequenzunabhängiges, charakteristisches, Struktureinzelheiten beschreibendes, von Männern, Frauen und Kindern unabhängiges und doch sicheres, auf Sprechvorschriften nicht angewiesenes Verfahren zur automatischen Spracherkennung zu schaffen.It is known that the vibration structure for an observer, e.g. B. by means of an oscilloscope, visible to do. It is also known, during the course of time, of speech oscillations in these certain (viz to determine the jump points given by the "pitch", but again only for the purpose of one visible representation in modified form. In contrast, according to the present invention, there is too solving task therein, characteristics or the structure of the natural language vibrations themselves as characteristic To make criteria (especially for recognizing the sounds, etc.) usable and accordingly one simple, frequency-independent, characteristic, describing structural details, of men, Women and children independent, yet safe, procedure that does not depend on speaking rules to create automatic speech recognition.

Gemäß der Erfindung wird die gestellte Aufgabe dadurch gelöst, daß als charakterisierende Strukturein- eo zelheiten erste Maxima und zweite Maxima des Sprachsignals bestimmt und gemeinsam ausgewertet werden.According to the invention, the set object is achieved in that the characterizing structure in eo Details of the first maxima and second maxima of the speech signal are determined and jointly evaluated will.

Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den übrigen Ansprüchen. &■>Advantageous further developments of the invention emerge from the remaining claims. & ■>

Mit Hilfe dieser natürlichen Kriterien, die man in Impulse umwandeln kann, hat man schon alle notwendigen Unterscheidungsmerkmale zur Erkennung der Laute, der Vokale usw.With the help of these natural criteria, which can be converted into impulses, you already have all the necessary criteria Distinguishing features for recognizing sounds, vowels, etc.

Weder der Stand der Technik gemäß der deutschen Auslegeschrift 11 89 744, der britischen Patentschrift 9 78 303, noch der ältere Vorschlag gemäß der deutschen Patentschrift 11 97 638 geben die Lehre, als charakterisierende Struktureinzelheiten bei der automatischen Erkennung von Sprachschwingungen erste und zweite Maxima (F i g. 2, F i g. 1) zu verwenden, da es nicht erkannt wurde, mit diesen speziellen Merkmalen die Sprachlaute zu identifizieren. Insbesondere Anspruch 6 der deutschen Patentschrift 11 97 638 beinhaltet zwar die Feststellung der Häufigkeit von »Vorgängen« (z. B. Nulldurchgängen), doch fehlt die Aussage, daß darunter auch die Bestimmung erster und zweiter Maxima fällt ^:;Neither the prior art according to the German Auslegeschrift 11 89 744, the British patent specification 9 78 303, nor the older proposal according to the German patent specification 11 97 638 give the teaching that first and second maxima (F i g. 2, fig. 1), since it was not recognized to identify the speech sounds with these special features. In particular claim 6 German Patent 11 97 638 involves determining the frequency of "operations" (eg zero crossings.), But the statement is missing, that including the provision of first and second maxima ^falls:;

Um das vorliegende Verfahren technisch ausführen zu können, gibt es verschiedene Möglichkeiten:In order to be able to carry out the present process technically, there are various options:

Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung der gesprochenen Vokale (s. Fig. 1), d. h. ihrer Schallschwingungen, genügt es schon, wenn man z. B. die Anzahl der ersten Maxima (s. F i g. 2 gleich der gestrichelten Kurve in Fig. 1) feststellt und zählt Als weiteres Kriterium braucht man nur noch ^, festzustellen, ob die natürlichen Sprachschwingungen f, viele zweite Maximas bzw. Amplituden haben (s. F i g. 1). Zur Abtrennung der Perioden der gesprochenen Vokale bzw. Laute genügt es schon, die stärkste Amplitude; d. h. das Maximum der Schwingungsmaxima (s. F i g. 3), welches der Grundfrequenz zugeordnet ist, festzustellen.An exemplary embodiment is intended to explain this in more detail. To distinguish the spoken vowels (see Fig. 1), d. H. their sound vibrations, it is enough if you z. B. the number of the first maxima (see Fig. 2 equals the dashed curve in Fig. 1) detects and counts As a further criterion one only needs ^ to determine whether the natural language vibrations f, have many second maxima or amplitudes (see Fig. 1). To separate the periods of the spoken Vowels or sounds are enough, the strongest amplitude; d. H. the maximum of the oscillation maxima (see Fig. 3), which is assigned to the basic frequency to determine.

Mit Hilfe dieser Vokale (dabei ist »o« nicht erforderlich) und nur zweier weiterer Laute kann man z. B. die gesprochenen zehn Ziffern (automatische Ziffernerkennung) eindeutig erkennen, unterscheiden, bestimmen und feststellen.With the help of these vowels ("o" is not required) and only two other sounds you can z. B. clearly recognize and distinguish the spoken ten digits (automatic digit recognition), determine and determine.

In Fig.4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verwirklichung des genannten Verfahrens dargestelltIn Fig.4 is a block diagram for a possible Execution of a simple device for implementing the method mentioned

Die Schallschwingungen der gesprochenen Laute werden, wie das Blockschaltbild zeigt, in ein Mikrophon M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung A, die einen »Buchstabenabtrennimpuls« erzeugt Dies kann durch Verzerren der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch { ;■; möglich, die stärkste Anfangsamplitude (Fig.3) zu U.'' benutzen. Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in F i g. 5 gezeigt, auf die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker K aus zu einer Schaltung B, die es ermöglicht, die ersten Maxima (F i g. 2) festzustellen und in Impulse umzuwandeln. Dies kann man einfach durch einen Tiefpaß erreichen. Weiterhin gehen vom Verstärker V die Schwingungen durch eine gewöhnliche Begrenzerstufe C oder ähnliches, die es ermöglicht, die zweiten Maxima (Fig. 1) mit kleinen und nahe beieinanderliegenden Amplituden festzustellen und in Impulse umzuwandeln. Über eine Codiermatrix D werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. Wählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schreiben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen-Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungssy-The sound vibrations of the spoken sounds are spoken into a microphone M, as the block diagram shows. These are passed on via an amplifier V to a circuit A, which generates a "letter separating pulse". This can be done by distorting the fundamental frequency and differentiating the resulting pulses. It is also {; ■; possible to use the strongest initial amplitude (Fig. 3) for U. ''. A circuit for generating such cut-off pulses is also shown in FIG. 5, to which reference is made again below. In addition, the oscillations go from the amplifier K to a circuit B, which makes it possible to determine the first maxima (FIG. 2) and to convert them into pulses. This can be achieved simply by using a low pass. Furthermore, the vibrations go from the amplifier V through an ordinary limiter stage C or the like, which makes it possible to determine the second maxima (FIG. 1) with small and closely spaced amplitudes and to convert them into pulses. The pulses obtained are effective in further processing devices F via a coding matrix D. As such come z. B. dialing systems for telephone exchanges in question, other possible applications are the following: Writing the spoken words with the help of the device on a typewriter, automatic dictation machine, automatic recognition of the spoken ten different digits and then automatic adjustment of settings on machines, e.g. B. Switching system

stemen, Sprachverständigung mit Gehörlosen, Frequenzbandkompression in Übertragungssystemen, Übersetzen in Fremdsprachen und Sprachforschung.stemen, speech communication with the deaf, frequency band compression in transmission systems, translation into foreign languages and linguistic research.

Wie bereits erwähnt, gibt es verschiedene Möglichkeiten, die »Buchstabenabtrennimpulse« aus der Schwingungsstruktur zu gewinnen. Gemäß einem bereits vorliegenden Vorschlag (deutsche Patentschrift 11 97 638) werden die Einteilungsimpulse dadurch erhalten, daß aufeinanderfolgende Schwingungszüge der Sprachwelle fortgesetzt miteinander verglichen werden, wobei sich aus den so erhaltenen Differenzwerten Umschlagstellen ergeben, an denen die Amplituden oder Frequenzen der Sprachschwingungen, nachdem sie vorher ab- bzw. zunahmen, plötzlich wieder größer bzw. kleiner werden.As already mentioned, there are various ways of extracting the "letter separation impulses" from the To gain vibration structure. According to an already existing proposal (German patent specification 11 97 638) the graduation impulses are obtained by making successive oscillations of the speech wave are continuously compared with one another, the difference values thus obtained Transition points arise at which the amplitudes or frequencies of the speech oscillations after them decrease or increase beforehand, suddenly become larger or smaller again.

Eine relativ einfach Schaltung zur Gewinnung derartiger Abtrennimpulse IP aus der Schwingungs-A relatively simple circuit for obtaining such cut-off pulses IP from the vibration

struktur besteht gemäß F i g. 5 aus einem Hochpaß 8 und einem Tiefpaß 9, die jeweils an einem Eingang eines Flipflops 10 angeschlossen sind. Es ergeben sich Wiederholungen des Vorganges, daß bei E eingehende niedrige Frequenzen durch das Filter 9 und hohe Frequenzen durch das Filter 8 gelangen, und diese Wiederholungen ermöglichen die genannten Abtrennungen durch Ausgangsimpulse IP des Flipflops 10. In Kombination damit kann man, wie in F i g. 5 dargestellt, eine Reihe von Filtern 11 vorsehen, durch die die Frequenzen ebenfalls laufen, wobei bei jedem Buchstaben einige bestimmte Filter ansprechen. Dies wird durch Flipflops 12 jeweils festgestellt Deren Ausgangsimpulse werden in Speichereinrichtungen 13 registriert, und über Tore 14 können in Abhängigkeit von den Abtrennimpulsen IP die Inhalte der Speicher 13 ausgegeben und miteinander verknüpft werden.structure according to FIG. 5 from a high-pass filter 8 and a low-pass filter 9, which are each connected to an input of a flip-flop 10. There are repetitions of the process that at E incoming low frequencies pass through the filter 9 and high frequencies pass through the filter 8, and these repetitions enable the above-mentioned separations by output pulses IP of the flip-flop 10. In combination with this, as in F i G. 5, provide a series of filters 11 through which the frequencies also pass, some specific filters responding to each letter. This is determined by flip-flops 12, whose output pulses are registered in memory devices 13, and the contents of memory 13 can be output and linked to one another via gates 14 as a function of the cut-off pulses IP.

Hierzu 2 Blatt ZeichnungenFor this purpose 2 sheets of drawings

Claims

Patent claims:

1. Method for the automatic recognition of the information contained in speech vibrations using structural details characterizing the speech vibrations, d a by characterized in that first maxima (Fig. 2) as characterizing structural details and second maxima (FIG. 1) of the speech signal are determined and jointly evaluated. ι ο

2. The method according to claim 1, characterized in that that the number of the first maxima and the number of the second maxima are determined and be compared. .

3. The method according to claim 1 and 2, characterized in that "is that the first and second: Maxima are converted into pulses.

4. The method according to claim 1 to 3, characterized in that such first and second Maxima of the speech signal are evaluated together, which are within by cut-off pulses marked vibration groups.

5. The method according to claim 1 to 4, characterized in that the first and second maxima can be determined with the help of filters.

6. The method according to claim 1 to 4, characterized in that the first and second maxima of the speech signal by comparing amplitudes can be determined with oscillation periods or by comparing oscillation periods.