[go: up one dir, main page]

DE1472011C3 - - Google Patents

Info

Publication number
DE1472011C3
DE1472011C3 DE1959K0056183 DEK0056183A DE1472011C3 DE 1472011 C3 DE1472011 C3 DE 1472011C3 DE 1959K0056183 DE1959K0056183 DE 1959K0056183 DE K0056183 A DEK0056183 A DE K0056183A DE 1472011 C3 DE1472011 C3 DE 1472011C3
Authority
DE
Germany
Prior art keywords
maxima
speech
pulses
determined
vibrations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE1959K0056183
Other languages
German (de)
Other versions
DE1472011A1 (en
DE1472011B2 (en
Inventor
Heinz Dipl.-Phys. 7801 Umkirch Kusch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE1959K0056183 priority Critical patent/DE1472011B2/en
Publication of DE1472011A1 publication Critical patent/DE1472011A1/en
Publication of DE1472011B2 publication Critical patent/DE1472011B2/en
Application granted granted Critical
Publication of DE1472011C3 publication Critical patent/DE1472011C3/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Anspruches 1.The invention relates to a method according to the preamble of claim 1.

Die bisher bekannten Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenen Informationen beruhen auf der Methode der Frequenzanalyse im Sinne der Bildung und Auswertung von Frequenzen.The previously known methods for the automatic detection of those contained in speech vibrations Information is based on the method of frequency analysis in the sense of the formation and evaluation of Frequencies.

Es ist bekannt, die Schwingungsstruktur für einen Beobachter, z. B. mittels eines Oszillografen, sichtbar zu machen. Es ist auch bekannt, während des Zeitverlaufes von Sprachschwingungen in diesen gewisse (nämlich durch den »Pitch« gegebene) Sprungstellen festzustellen, aber ebenfalls wieder nur für den Zweck einer sichtbaren Darstellung in modifizierter Form. Demgegenüber besteht die gemäß vorliegender Erfindung zu lösende Aufgabe darin, Eigenarten bzw. die Struktur der natürlichen Sprachschwingungen selbst als kennzeichnende Kriterien (insbesondere zur Erkennung der Laute usw.) verwendbar zu machen und dementsprechend ein einfaches, frequenzunabhängiges, charakteristisches, Struktureinzelheiten beschreibendes, von Männern, Frauen und Kindern unabhängiges und doch sicheres, auf Sprechvorschriften nicht angewiesenes Verfahren zur automatischen Spracherkennung zu schaffen.It is known that the vibration structure for an observer, e.g. B. by means of an oscilloscope, visible to do. It is also known, during the course of time, of speech oscillations in these certain (viz to determine the jump points given by the "pitch", but again only for the purpose of one visible representation in modified form. In contrast, according to the present invention, there is too solving task therein, characteristics or the structure of the natural language vibrations themselves as characteristic To make criteria (especially for recognizing the sounds, etc.) usable and accordingly one simple, frequency-independent, characteristic, describing structural details, of men, Women and children independent, yet safe, procedure that does not depend on speaking rules to create automatic speech recognition.

Gemäß der Erfindung wird die gestellte Aufgabe dadurch gelöst, daß als charakterisierende Strukturein- eo zelheiten erste Maxima und zweite Maxima des Sprachsignals bestimmt und gemeinsam ausgewertet werden.According to the invention, the set object is achieved in that the characterizing structure in eo Details of the first maxima and second maxima of the speech signal are determined and jointly evaluated will.

Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den übrigen Ansprüchen. &■>Advantageous further developments of the invention emerge from the remaining claims. & ■>

Mit Hilfe dieser natürlichen Kriterien, die man in Impulse umwandeln kann, hat man schon alle notwendigen Unterscheidungsmerkmale zur Erkennung der Laute, der Vokale usw.With the help of these natural criteria, which can be converted into impulses, you already have all the necessary criteria Distinguishing features for recognizing sounds, vowels, etc.

Weder der Stand der Technik gemäß der deutschen Auslegeschrift 11 89 744, der britischen Patentschrift 9 78 303, noch der ältere Vorschlag gemäß der deutschen Patentschrift 11 97 638 geben die Lehre, als charakterisierende Struktureinzelheiten bei der automatischen Erkennung von Sprachschwingungen erste und zweite Maxima (F i g. 2, F i g. 1) zu verwenden, da es nicht erkannt wurde, mit diesen speziellen Merkmalen die Sprachlaute zu identifizieren. Insbesondere Anspruch 6 der deutschen Patentschrift 11 97 638 beinhaltet zwar die Feststellung der Häufigkeit von »Vorgängen« (z. B. Nulldurchgängen), doch fehlt die Aussage, daß darunter auch die Bestimmung erster und zweiter Maxima fällt :;Neither the prior art according to the German Auslegeschrift 11 89 744, the British patent specification 9 78 303, nor the older proposal according to the German patent specification 11 97 638 give the teaching that first and second maxima (F i g. 2, fig. 1), since it was not recognized to identify the speech sounds with these special features. In particular claim 6 German Patent 11 97 638 involves determining the frequency of "operations" (eg zero crossings.), But the statement is missing, that including the provision of first and second maxima falls:;

Um das vorliegende Verfahren technisch ausführen zu können, gibt es verschiedene Möglichkeiten:In order to be able to carry out the present process technically, there are various options:

Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung der gesprochenen Vokale (s. Fig. 1), d. h. ihrer Schallschwingungen, genügt es schon, wenn man z. B. die Anzahl der ersten Maxima (s. F i g. 2 gleich der gestrichelten Kurve in Fig. 1) feststellt und zählt Als weiteres Kriterium braucht man nur noch ^, festzustellen, ob die natürlichen Sprachschwingungen f, viele zweite Maximas bzw. Amplituden haben (s. F i g. 1). Zur Abtrennung der Perioden der gesprochenen Vokale bzw. Laute genügt es schon, die stärkste Amplitude; d. h. das Maximum der Schwingungsmaxima (s. F i g. 3), welches der Grundfrequenz zugeordnet ist, festzustellen.An exemplary embodiment is intended to explain this in more detail. To distinguish the spoken vowels (see Fig. 1), d. H. their sound vibrations, it is enough if you z. B. the number of the first maxima (see Fig. 2 equals the dashed curve in Fig. 1) detects and counts As a further criterion one only needs ^ to determine whether the natural language vibrations f, have many second maxima or amplitudes (see Fig. 1). To separate the periods of the spoken Vowels or sounds are enough, the strongest amplitude; d. H. the maximum of the oscillation maxima (see Fig. 3), which is assigned to the basic frequency to determine.

Mit Hilfe dieser Vokale (dabei ist »o« nicht erforderlich) und nur zweier weiterer Laute kann man z. B. die gesprochenen zehn Ziffern (automatische Ziffernerkennung) eindeutig erkennen, unterscheiden, bestimmen und feststellen.With the help of these vowels ("o" is not required) and only two other sounds you can z. B. clearly recognize and distinguish the spoken ten digits (automatic digit recognition), determine and determine.

In Fig.4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verwirklichung des genannten Verfahrens dargestelltIn Fig.4 is a block diagram for a possible Execution of a simple device for implementing the method mentioned

Die Schallschwingungen der gesprochenen Laute werden, wie das Blockschaltbild zeigt, in ein Mikrophon M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung A, die einen »Buchstabenabtrennimpuls« erzeugt Dies kann durch Verzerren der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch { ;■; möglich, die stärkste Anfangsamplitude (Fig.3) zu U.'' benutzen. Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in F i g. 5 gezeigt, auf die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker K aus zu einer Schaltung B, die es ermöglicht, die ersten Maxima (F i g. 2) festzustellen und in Impulse umzuwandeln. Dies kann man einfach durch einen Tiefpaß erreichen. Weiterhin gehen vom Verstärker V die Schwingungen durch eine gewöhnliche Begrenzerstufe C oder ähnliches, die es ermöglicht, die zweiten Maxima (Fig. 1) mit kleinen und nahe beieinanderliegenden Amplituden festzustellen und in Impulse umzuwandeln. Über eine Codiermatrix D werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. Wählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schreiben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen-Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungssy-The sound vibrations of the spoken sounds are spoken into a microphone M, as the block diagram shows. These are passed on via an amplifier V to a circuit A, which generates a "letter separating pulse". This can be done by distorting the fundamental frequency and differentiating the resulting pulses. It is also {; ■; possible to use the strongest initial amplitude (Fig. 3) for U. ''. A circuit for generating such cut-off pulses is also shown in FIG. 5, to which reference is made again below. In addition, the oscillations go from the amplifier K to a circuit B, which makes it possible to determine the first maxima (FIG. 2) and to convert them into pulses. This can be achieved simply by using a low pass. Furthermore, the vibrations go from the amplifier V through an ordinary limiter stage C or the like, which makes it possible to determine the second maxima (FIG. 1) with small and closely spaced amplitudes and to convert them into pulses. The pulses obtained are effective in further processing devices F via a coding matrix D. As such come z. B. dialing systems for telephone exchanges in question, other possible applications are the following: Writing the spoken words with the help of the device on a typewriter, automatic dictation machine, automatic recognition of the spoken ten different digits and then automatic adjustment of settings on machines, e.g. B. Switching system

stemen, Sprachverständigung mit Gehörlosen, Frequenzbandkompression in Übertragungssystemen, Übersetzen in Fremdsprachen und Sprachforschung.stemen, speech communication with the deaf, frequency band compression in transmission systems, translation into foreign languages and linguistic research.

Wie bereits erwähnt, gibt es verschiedene Möglichkeiten, die »Buchstabenabtrennimpulse« aus der Schwingungsstruktur zu gewinnen. Gemäß einem bereits vorliegenden Vorschlag (deutsche Patentschrift 11 97 638) werden die Einteilungsimpulse dadurch erhalten, daß aufeinanderfolgende Schwingungszüge der Sprachwelle fortgesetzt miteinander verglichen werden, wobei sich aus den so erhaltenen Differenzwerten Umschlagstellen ergeben, an denen die Amplituden oder Frequenzen der Sprachschwingungen, nachdem sie vorher ab- bzw. zunahmen, plötzlich wieder größer bzw. kleiner werden.As already mentioned, there are various ways of extracting the "letter separation impulses" from the To gain vibration structure. According to an already existing proposal (German patent specification 11 97 638) the graduation impulses are obtained by making successive oscillations of the speech wave are continuously compared with one another, the difference values thus obtained Transition points arise at which the amplitudes or frequencies of the speech oscillations after them decrease or increase beforehand, suddenly become larger or smaller again.

Eine relativ einfach Schaltung zur Gewinnung derartiger Abtrennimpulse IP aus der Schwingungs-A relatively simple circuit for obtaining such cut-off pulses IP from the vibration

struktur besteht gemäß F i g. 5 aus einem Hochpaß 8 und einem Tiefpaß 9, die jeweils an einem Eingang eines Flipflops 10 angeschlossen sind. Es ergeben sich Wiederholungen des Vorganges, daß bei E eingehende niedrige Frequenzen durch das Filter 9 und hohe Frequenzen durch das Filter 8 gelangen, und diese Wiederholungen ermöglichen die genannten Abtrennungen durch Ausgangsimpulse IP des Flipflops 10. In Kombination damit kann man, wie in F i g. 5 dargestellt, eine Reihe von Filtern 11 vorsehen, durch die die Frequenzen ebenfalls laufen, wobei bei jedem Buchstaben einige bestimmte Filter ansprechen. Dies wird durch Flipflops 12 jeweils festgestellt Deren Ausgangsimpulse werden in Speichereinrichtungen 13 registriert, und über Tore 14 können in Abhängigkeit von den Abtrennimpulsen IP die Inhalte der Speicher 13 ausgegeben und miteinander verknüpft werden.structure according to FIG. 5 from a high-pass filter 8 and a low-pass filter 9, which are each connected to an input of a flip-flop 10. There are repetitions of the process that at E incoming low frequencies pass through the filter 9 and high frequencies pass through the filter 8, and these repetitions enable the above-mentioned separations by output pulses IP of the flip-flop 10. In combination with this, as in F i G. 5, provide a series of filters 11 through which the frequencies also pass, some specific filters responding to each letter. This is determined by flip-flops 12, whose output pulses are registered in memory devices 13, and the contents of memory 13 can be output and linked to one another via gates 14 as a function of the cut-off pulses IP.

Hierzu 2 Blatt ZeichnungenFor this purpose 2 sheets of drawings

Claims (6)

Patentansprüche:Patent claims: 1. Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenden Informationen unter Verwendung von die Sprachschwingungen charakterisierenden Struktureinzelheiten, d a durch gekennzeichnet, daß als charakterisierende Struktureinzelheiten erste Maxima (F i g. 2) und zweite Maxima (Fig. 1) des Sprachsignals bestimmt und gemeinsam ausgewertet werden. ι ο1. Method for the automatic recognition of the information contained in speech vibrations using structural details characterizing the speech vibrations, d a by characterized in that first maxima (Fig. 2) as characterizing structural details and second maxima (FIG. 1) of the speech signal are determined and jointly evaluated. ι ο 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Anzahl der ersten Maxima und die Anzahl der zweiten Maxima festgestellt und verglichen werden. .2. The method according to claim 1, characterized in that that the number of the first maxima and the number of the second maxima are determined and be compared. . 3. Verfahren nach Anspruch 1 und 2, dadurch "is gekennzeichnet, daß die ersten und die zweiten : Maxima in Impulse umgewandelt werden.3. The method according to claim 1 and 2, characterized in that "is that the first and second: Maxima are converted into pulses. 4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß solche erste und zweite Maxima des Sprachsignals gemeinsam ausgewertet werden, die innerhalb von durch Abtrennimpulsen markierten Schwingungsgruppen liegen.4. The method according to claim 1 to 3, characterized in that such first and second Maxima of the speech signal are evaluated together, which are within by cut-off pulses marked vibration groups. 5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima mit Hilfe von Filtern bestimmt werden.5. The method according to claim 1 to 4, characterized in that the first and second maxima can be determined with the help of filters. 6. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima des Sprachsignals durch Vergleichen von Amplituden mit Schwingungsdauern oder durch Vergleichen von Schwingungsdauern ermittelt werden.6. The method according to claim 1 to 4, characterized in that the first and second maxima of the speech signal by comparing amplitudes can be determined with oscillation periods or by comparing oscillation periods.
DE1959K0056183 1959-01-16 1959-01-16 PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS Granted DE1472011B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1959K0056183 DE1472011B2 (en) 1959-01-16 1959-01-16 PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1959K0056183 DE1472011B2 (en) 1959-01-16 1959-01-16 PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS

Publications (3)

Publication Number Publication Date
DE1472011A1 DE1472011A1 (en) 1969-11-13
DE1472011B2 DE1472011B2 (en) 1978-01-12
DE1472011C3 true DE1472011C3 (en) 1978-10-19

Family

ID=7227746

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1959K0056183 Granted DE1472011B2 (en) 1959-01-16 1959-01-16 PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS

Country Status (1)

Country Link
DE (1) DE1472011B2 (en)

Also Published As

Publication number Publication date
DE1472011A1 (en) 1969-11-13
DE1472011B2 (en) 1978-01-12

Similar Documents

Publication Publication Date Title
DE19942178C1 (en) Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association
DE2613258A1 (en) AUTOMATIC SPEECH RECOGNITION SYSTEM
DE1248225B (en) Method and device for the precise determination of the heartbeat frequency
DE4031638C2 (en)
DE1192257B (en) Method for the non-destructive reading of electrical allocators with learning character
DE3802903A1 (en) LANGUAGE TRANSFER DEVICE
DE2020753A1 (en) Device for recognizing given speech sounds
DE2703200A1 (en) METHOD AND DEVICE FOR THE CONTROL OF THE VIBRATION STATE OF A VIBRATION SYSTEM IN A SIGNAL GENERATOR
DE3878895T2 (en) METHOD AND DEVICE FOR VOICE RECOGNITION.
DE3043516C2 (en) Method and device for speech recognition
DE1937464C3 (en) Speech analyzer
DE2825651A1 (en) COIN SORTING DEVICE
DE1472011C3 (en)
DE1797469A1 (en) Device for extracting characteristic criteria of vibrations, in particular speech vibrations
DE3133107A1 (en) Personal sound protection
DE1487540C3 (en) Process for the analysis and synthesis of electrical acoustic signals
EP0284734A2 (en) Circuit for the recognition of dual tone multifrequency signals in telephone exchanges
DE2624173A1 (en) SIGNAL DETECTION CIRCUIT
DE3884212T2 (en) FILTERING TECHNIQUES.
DE1122274B (en) Method and arrangement for the automatic recognition of speech
DE1547027B2 (en) PROCEDURE AND ARRANGEMENT FOR DETERMINING CONSONANTS IN VOICE SIGNALS
DE586456C (en) Electroacoustic apparatus
DE1197638B (en) Process for the automatic conversion of sound vibrations into sound recognition signals
DE2163247B2 (en) Noise suppressor for radio or wire signals - forms correction signal for adding to input before differential processing
DE3645119C2 (en) Speech or sound recognition device - has speech-sound models superimposed to reduce background hiss effects

Legal Events

Date Code Title Description
BF Willingness to grant licences
C3 Grant after two publication steps (3rd publication)