[go: up one dir, main page]

DE1472011A1 - Device for extracting characteristic criteria of vibrations, in particular speech vibrations - Google Patents

Device for extracting characteristic criteria of vibrations, in particular speech vibrations

Info

Publication number
DE1472011A1
DE1472011A1 DE1959K0056183 DEK0056183A DE1472011A1 DE 1472011 A1 DE1472011 A1 DE 1472011A1 DE 1959K0056183 DE1959K0056183 DE 1959K0056183 DE K0056183 A DEK0056183 A DE K0056183A DE 1472011 A1 DE1472011 A1 DE 1472011A1
Authority
DE
Germany
Prior art keywords
vibrations
maxima
features
following
minima
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE1959K0056183
Other languages
German (de)
Other versions
DE1472011C3 (en
DE1472011B2 (en
Inventor
Heinz Kusch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE1959K0056183 priority Critical patent/DE1472011B2/en
Publication of DE1472011A1 publication Critical patent/DE1472011A1/en
Publication of DE1472011B2 publication Critical patent/DE1472011B2/en
Application granted granted Critical
Publication of DE1472011C3 publication Critical patent/DE1472011C3/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Einrichtung zur Extrahierung kennzeichnender Kriterien von Schwingungen, insbesondere Sprachschwingungen Die bisher bekannten Einrichtungen zur selbsttätigen Ermittlung der Informationsinhalte von Schwingungen, insbesonder Sprachschwingungen, beruhen auf der Methode der Ft-Equenzanalyse im Sin-ne der Bildung und Auswertung von Frequenzen, Demgegenüber besteht der Haupterfindungsgedanke darin, daß die Eigenarten der natürlichen Schallschwingungen selbst als kennzeich- nende Kriterien (insbeondere zur Erkennung der Laute usw.) verwen- det werden, d. h. aus der Struktur selbst der natürlichen Schall- schwingungen werden ihre kennzeichnenden Kriterien abgeleitet. Es ist bekannt, die Schwingungsstruktur für einen Beobachter z. B, mittels eines Oszillografen sichtbar zu machen. Es ist auch be- kannt, während des Zeitverlaufes von Sprachschwingungen in diesen gewisse (nämlich durch den "Pitch" gegebene) Sprungstellen festzu- stellen, aber ebenfalls wieder nur für den Zweck einer sichtbaren Darstellung in modifizierter Form. Gemäß der Erfindung ist eine Erkennungseinrichtung zur automati- sehen Ermittlung der in Schwingungen, besonders Sprachschwingun- gen enthaltenen Information dadurch gekennzeichnet, daß sie eine Mehrzahl von Merkmalen ermittelt und gemeinsam auswertet, welche Einzelheiten der natürlichen Struktur der über der Zeitachse ver- laufenden Jellenform der Schwingungen kennzeichnen, wie insbesondere große Maxima, Minima, Nulldurchgänge, :lendepunkte, Einsätze von Schwingungsgruppen, sowie weitere -Maxima, Minima, Nulldurchgänge, dendepunkte usw., die in Überlagerter Form vorhanden sind. Mit Hilfe dieser natürlichen Kriterien, die :nan in linpulse umwandeln kann, hat man schon alle notwendigen Unterscheidungsmerkmale zur Erkennung der Laute, z. I3. der Vokale usw. Means for extracting distinctive criteria of vibrations, particularly voice vibrations The previously known devices for automatically determining the information content of vibrations insbesonder voice vibrations, based on the method of Ft Equenzanalyse in sintering ne of the formation and evaluation of frequencies contrast, the main idea of the invention is that the peculiarities of the natural sound vibrations themselves are used as characteristic criteria (in particular for recognizing the sounds etc.) , ie their characteristic criteria are derived from the structure itself of the natural sound vibrations. It is known that the vibration structure for an observer z. B, to be made visible by means of an oscilloscope. It is also known to detect certain jump points (namely given by the "pitch" ) during the course of time of speech oscillations in these, but again only for the purpose of a visible representation in a modified form. According to the invention is a recognition device for automatic determination of the see characterized in vibrations, especially Sprachschwingun- gen information contained that it determines a plurality of features in common and evaluates which details of the structure of the natural over the time axis which run Jellenform of the vibrations identify, in particular, large maxima, minima, zero crossings, end points, use of vibration groups, as well as other maxima, minima, zero crossings, end points, etc., which are present in superimposed form. With the help of these natural criteria, which: nan can convert into linpulse, you already have all the necessary distinguishing features for recognizing the sounds, e.g. I3. the vowels etc.

Um dies technisch ausführen zu können, gibt es verschiedene praktische Ausführungsmöglichkeiten. So kann man die Breiten der Amplituden verwenden und miteinander vergleichen, oder die Höhe der Am-plituden mit ihrer Breite oder auch die Anzahl der rlaxitna, Minima, Wendepunkte usw. feststellen, vergleichen, zählen usw.In order to be able to carry out this technically, there are various practical options. So one can use the widths of the amplitudes and compare them with one another, or determine, compare, count, etc. the height of the amplitudes with their width or also the number of rlaxitna, minima, turning points etc.

Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung der gesprochenen Vokale (s. Abb. i) d. h. ihrer Schallschwin-gungen, genügt es schon, wenn man z. B. die Anzahl der großen Maxi- ma (s. Abb. 2) feststellt und zählt. Als weiteres Kriterium braucht man nur noch festzustellen, ob die natürlichen Schallschwingungen viele kleine Maximas bzw. Amplituden hat (s. Abb. 1). Zur Abtren- nung der Perioden der gesprochenen Vokale (s. Abb. 3) genügt es schon, die stärkste Amplitude oder die Grundfrequenz festzustellen. Mit Hilfe dieser Vokale (dabei ist "o" nicht erforderlich) und nur weiterer zweier Laute kann man z. B. die gesprochenen Zehn Ziffern (auto- matische Ziffernerkennung) eindeutig erkennen, unterscheiden, bestimmen und feststellen. In Fig. 4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verari i'- _1 icliung des Vorstehenden dargestellt. Die.Schallschwingungen der gesprochenen Laute werden, wie das Block-Schaltbild zeigt:, in ein Mikrophon M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung A, die einen "Buchstabenabtrennimpuls" erzeugt. Dies kann durch Verzenen der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch möglich, die stärkste Anfangsamplitude zu benutzen* Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in Fig. 5 gezeigt, aur die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker V auszu einer Schaltung B, die es ermöglicht, die breiten Amplitu- den festzustellen und in Impulse umzuwandeln. Dies kann man ein-fach durch einen Tiefpaß erreichen. Eine andere Möglichkeit wäre, die Anzahl der Einsätze von Schwingungsruppen festzustellen. Wei- terhin gehen vom Verstärker V die Schwingungen durch eine gewöhn- liche Begrenzerstufe C oder ähnliches, die es ermöglicht, die klei- nen engen Amplituden der normalen Kurve festzustellen und in Im- pulse umzuwandeln. Über eine Codiermatrix L werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. dählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schrei- ben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungs-systemen, Sprachverständigung mit Gehörlosen, Frequenzbandkompression in Übertragungssystemen, Übersetzen in Fremdsprachen, Sprachforschung usw. Wie bereits erwähnt, gibt es verschiedene Möglichkeiten, die "Buchstabenabtrennimpulse" aus der Schwingungsstruktur zu gewinnen. Ge- mäß einem bereits vorliegenden Vorschlag (Patentanmeldung K 35 882 IXa/42g) werden die Einteilungsimpulse dadurch erhalten, daß auf- einanderfolgende Schwingungszüge der Sprachwelle fortgesetzt mit- " einander verglichen werden, wobei sich aus den so erhaltenen Differenzwerten Umschlagsstellen ergeben, an denen die Amplituden oder Frequenzen der Sprachschwingungen, nachdem sie vorher ab-bzw. zunahmen, plötzlich wieder größer bzw. kleiner werden. Eine relativ einfache Schaltung zur Gewinnung derartiger Abtrennimpulse IP aus der Schwingungsstruktur besteht gemäß Fig. 5 aus einem Hochpaß 8 und einem Tiefpaß 9, die jeweils an einem Ein- gang eines rlipflops 10 angeschlossen sind. Es ergeben sich Wie- derholungen des Vorganges, daß bei E eingehende niedrige Frequen- zen durch das Filter 9 und hohe Frequenzen durch das Filter 8 ge- langen, und diese Wiederholungen ermöglichen die genannten Abtrennungen durch Ausgangsimpulse IP des Flipflops 10. In Kombination damit kann man wie in Fig. 5 dargest&lt eine Reihe von Filtern 11 die " vorsehen, durch dievFrequenzen ebenfalls laufen, wobei bei jedem Buchstaben einige bestimmte Filter ansprechen. Dies wird durch Flipflops 12 jeweils festgestellt. Deren Ausgangsimpulse werden in Speichereinrichtungen 13 registriert, und über Tore 14 können in' Abhängigkeit von den Abtrennimpulsen IP die Inhalte der Speicher 13 ausgegeben und miteinander verknüpft werden. An exemplary embodiment is intended to explain this in more detail. In order to distinguish the spoken vowels (see Fig. I), ie their sound oscillations, it is sufficient if one z. B. the number of large maxima (see Fig. 2) determines and counts. As a further criterion one only needs to determine whether the natural sound vibrations have many small maximums or amplitudes (see Fig. 1). To separate the periods of the spoken vowels (see Fig. 3) it is sufficient to determine the strongest amplitude or the fundamental frequency. With the help of these vowels ("o" is not required) and only two other sounds you can e.g. B. clearly recognize, distinguish, determine and determine the spoken ten digits ( automatic digit recognition). FIG. 4 shows a block diagram for a possible embodiment of a simple device for processing the above. The sound vibrations of the spoken sounds are spoken into a microphone M, as the block diagram shows. These are passed on via an amplifier V to a circuit A which generates a "letter separation pulse" . This can be done by verifying the basic frequency and differentiating the resulting impulses . It is also possible to use the strongest initial amplitude * A circuit for generating such cut-off pulses is also shown in FIG. 5, but reference is again made below. In addition, the oscillations from amplifier V go out of a circuit B, which makes it possible to determine the broad amplitudes and convert them into pulses. This can be achieved simply by using a low pass . Another possibility would be to determine the number of times that vibration groups have been used . WEI terhin go from the amplifier V, the vibrations by a Ordinary C limiter or the like which makes it possible to determine the small NEN narrow amplitudes of the normal curve and pulse in import convert. The pulses obtained are effective in further processing devices F via a coding matrix L. As such come z. B. counting systems for telephone exchanges in question, further possible applications are the following: writing the spoken words with the help of the device on a typewriter, automatic dictation machine, automatic recognition of the spoken ten different digits and then automatic setting functions on machines, e.g. B. switching systems, speech communication with deaf people, frequency band compression in transmission systems, translation into foreign languages, linguistic research , etc. As already mentioned, there are various ways of extracting the "letter separation impulses" from the vibration structure. ACCORDING an already present proposal (Patent Application K 35 882 IXa / 42g) the division pulses are obtained by con- secutive oscillation trains of the speech wave continued with- "are compared with each other, said result from the thus-obtained difference values envelope points at which the Amplitudes or frequencies of the speech vibrations, after they had previously decreased or increased, suddenly become larger or smaller again.A relatively simple circuit for obtaining such separation pulses IP from the oscillation structure consists of a high- pass filter 8 and a low-pass filter 9 according to FIG are each connected to an input of a flip-flop 10. Repetitions of the process result that low frequencies incoming at E pass through filter 9 and high frequencies pass through filter 8 , and these repetitions make the above-mentioned possible Separations by output pulses IP of the flip-flop 10. In combination a series of filters 11 can thus be used, as shown in FIG the " provide to run through the frequencies as well, with each Letters address some specific filters. This is determined by flip-flops 12 in each case. Their output pulses are registered in storage devices 13, and via gates 14 the contents of the memories 13 can be output and linked to one another as a function of the cut-off pulses IP.

Claims (1)

Patentansprüche 1. Einrichtung zur Extrahierung kennzeichnender Kriterien von Schwingungen, insbesondere Sprachschwingungen, zwecks automa- tischer Erkennung der in ihnen enthaltenen Information, dadurch ,gekennzeichnet, daß sie eine Mehrzahl von Merkmalen ermittelt und gemeinsam auswertet, welche Einzelheiten der natürlichen Struktur der über der Zeitachse verlaufenden Wellenform der Schwingungen kennzeichnen, wie insbesondere große Maxima, Minima, Nulldurchgänge, Wendepunkte, Einsätze von Schwingungs- gruppen, sowie weitere Maxima, Minima, Nulldurchgänge, Wende- punkte usw., die in überlagerter Form vorhanden sind. 2. Einrichtung-nach Anspruch 1, dadurch gekennzeichnet, daß sie Schwingungsdauern miteinander, oder die Höhe der Amplituden mit der Schwingungsdauer (Schwingungsbreite)vergleicht. 3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Anzahl von Merkmalen wie Maxima, Minima, Wendepunkte, Einsätzen von Schwingungsgruppen usw. festgestellt wird. 4. Eiieichtung nach Anspruch 3, dadurch gekennzeichnet, daß An- zahlen der Merkmale miteinander verglichen werden. 5. Einrichtung nach Anspruch,1 oder den folgenden, dadurch gekenn- zeichnet, daß sie feststellt, ob viele kleine Maxima bzw. Amplituden vorhanden sind. 6. Einrichtung nach Anspruch 1 oder den folgenden, dadurch gekenn- zeichnet, daß sie Merkmals-Erkennungssignale in Form von Impulsen erzeugt. 7. Einrichtung nach Anspruch 1 oder den folgenden, dadurch gekenn- zeichnet, daß die Merkmals-Erkennungssignale in einer Kodiermatrix weiterverarbeitet werden. B. Einrichtung nach Anspruch 1 oder den folgenden, dadurch gekenn- zeichnet, daß sie Merkmale gemeinsam auswertet, die innerhalb von durch Abtrennungsimpulse markierten Schwingungsgruppen liegen. 9. Einrichtung nach Anspruch 8, dadurch gekennzeichnet, daß in Kombination mit der Abgrenzung von Schwingungsgruppen eine Reihe von Frequenzfiltern wirksam gemacht wird. 1@Q. Einrichtung nach Anspruch 9, dadurch gekennzeichnet, daß die Filter jeweils eine Kippschaltung betätigen, die Signale der Kippschaltungen auf Speicher gegeben werden, und die Speicher- inhalte über Tore ausgegeben und miteinander verknüpft werden. 1. A device for the extraction of characteristic criteria of vibrations, in particular voice vibrations, for the purpose of auto- matic detection of the information contained in them, characterized, in that it determines a plurality of features in common evaluates showing details extending the natural structure of over the time axis Wave form of the vibrations characterize, like in particular large maxima, minima, zero crossings, turning points, the use of vibration groups, as well as further maxima, minima, zero crossings, turning points etc. which are present in superimposed form. 2. Device-according to claim 1, characterized in that it compares oscillation periods with one another, or the level of the amplitudes with the oscillation period (oscillation width). 3. Device according to claim 1, characterized in that the number of features such as maxima, minima, turning points, use of vibration groups , etc. is determined. 4. Eiieichtung according to claim 3, characterized in that arrival pay the features are compared with each other. 5. Device according to claim 1 or the following, characterized in that it determines whether there are many small maxima or amplitudes. 6. Device according to claim 1 or the following, characterized in that it generates feature recognition signals in the form of pulses. 7. Device according to claim 1 or the following, characterized in that the feature recognition signals are further processed in a coding matrix. B. device according to claim 1 or the following, characterized thereby marked, that it evaluates features in common, which are within marked by separating pulses vibration groups. 9. Device according to claim 8, characterized in that a series of frequency filters is made effective in combination with the delimitation of vibration groups. 1 @ Q. Device according to Claim 9, characterized in that the filters each actuate a flip-flop circuit, the signals from the flip-flop circuits are sent to memories, and the memory contents are output via gates and linked to one another.
DE1959K0056183 1959-01-16 1959-01-16 PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS Granted DE1472011B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1959K0056183 DE1472011B2 (en) 1959-01-16 1959-01-16 PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1959K0056183 DE1472011B2 (en) 1959-01-16 1959-01-16 PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS

Publications (3)

Publication Number Publication Date
DE1472011A1 true DE1472011A1 (en) 1969-11-13
DE1472011B2 DE1472011B2 (en) 1978-01-12
DE1472011C3 DE1472011C3 (en) 1978-10-19

Family

ID=7227746

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1959K0056183 Granted DE1472011B2 (en) 1959-01-16 1959-01-16 PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS

Country Status (1)

Country Link
DE (1) DE1472011B2 (en)

Also Published As

Publication number Publication date
DE1472011C3 (en) 1978-10-19
DE1472011B2 (en) 1978-01-12

Similar Documents

Publication Publication Date Title
DE1547032A1 (en) Means for identifying a person
DE2613258A1 (en) AUTOMATIC SPEECH RECOGNITION SYSTEM
DE19942178C1 (en) Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association
DE2357067C3 (en) Electrical circuit arrangement in connection with a speech recognition device
DE4031638C2 (en)
DE1192257B (en) Method for the non-destructive reading of electrical allocators with learning character
DE2020753A1 (en) Device for recognizing given speech sounds
DE3878895T2 (en) METHOD AND DEVICE FOR VOICE RECOGNITION.
DE1524375A1 (en) Method and device for character recognition
DE1937464C3 (en) Speech analyzer
DE2825651A1 (en) COIN SORTING DEVICE
DE1797469A1 (en) Device for extracting characteristic criteria of vibrations, in particular speech vibrations
DE1472011A1 (en) Device for extracting characteristic criteria of vibrations, in particular speech vibrations
EP0019821A2 (en) Method and device for transmitting a binary sequence
DE2111072A1 (en) Method and apparatus for distinguishing between speech and noise
DE1202517B (en) Device for the automatic recognition of spoken syllables or words
DE1547027A1 (en) Method and arrangement for the analysis of speech signals
DE1487540C3 (en) Process for the analysis and synthesis of electrical acoustic signals
DE2116635A1 (en) Method and circuit arrangements for the digital decoding of frequency-coded signals
DE3884212T2 (en) FILTERING TECHNIQUES.
EP0834859A2 (en) Method for determining an acoustic model for a word
DE1197638B (en) Process for the automatic conversion of sound vibrations into sound recognition signals
DE2145886C2 (en) Voice-protected, frequency-selective signal receiver for telecommunications, in particular telephone systems
DE1424713A1 (en) Matrix of comparator elements, in particular magnet cores that can be connected
EP0022558A1 (en) Circuit arrangement for amplitude control in an automatic adaptive time domain equalization of the side lobes of an at least three level base band signal

Legal Events

Date Code Title Description
BF Willingness to grant licences
C3 Grant after two publication steps (3rd publication)