DE1472011C3 - - Google Patents
Info
- Publication number
- DE1472011C3 DE1472011C3 DE1959K0056183 DEK0056183A DE1472011C3 DE 1472011 C3 DE1472011 C3 DE 1472011C3 DE 1959K0056183 DE1959K0056183 DE 1959K0056183 DE K0056183 A DEK0056183 A DE K0056183A DE 1472011 C3 DE1472011 C3 DE 1472011C3
- Authority
- DE
- Germany
- Prior art keywords
- maxima
- speech
- pulses
- determined
- vibrations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 13
- 230000010355 oscillation Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Anspruches 1.The invention relates to a method according to the preamble of claim 1.
Die bisher bekannten Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenen Informationen beruhen auf der Methode der Frequenzanalyse im Sinne der Bildung und Auswertung von Frequenzen.The previously known methods for the automatic detection of those contained in speech vibrations Information is based on the method of frequency analysis in the sense of the formation and evaluation of Frequencies.
Es ist bekannt, die Schwingungsstruktur für einen Beobachter, z. B. mittels eines Oszillografen, sichtbar zu machen. Es ist auch bekannt, während des Zeitverlaufes von Sprachschwingungen in diesen gewisse (nämlich durch den »Pitch« gegebene) Sprungstellen festzustellen, aber ebenfalls wieder nur für den Zweck einer sichtbaren Darstellung in modifizierter Form. Demgegenüber besteht die gemäß vorliegender Erfindung zu lösende Aufgabe darin, Eigenarten bzw. die Struktur der natürlichen Sprachschwingungen selbst als kennzeichnende Kriterien (insbesondere zur Erkennung der Laute usw.) verwendbar zu machen und dementsprechend ein einfaches, frequenzunabhängiges, charakteristisches, Struktureinzelheiten beschreibendes, von Männern, Frauen und Kindern unabhängiges und doch sicheres, auf Sprechvorschriften nicht angewiesenes Verfahren zur automatischen Spracherkennung zu schaffen.It is known that the vibration structure for an observer, e.g. B. by means of an oscilloscope, visible to do. It is also known, during the course of time, of speech oscillations in these certain (viz to determine the jump points given by the "pitch", but again only for the purpose of one visible representation in modified form. In contrast, according to the present invention, there is too solving task therein, characteristics or the structure of the natural language vibrations themselves as characteristic To make criteria (especially for recognizing the sounds, etc.) usable and accordingly one simple, frequency-independent, characteristic, describing structural details, of men, Women and children independent, yet safe, procedure that does not depend on speaking rules to create automatic speech recognition.
Gemäß der Erfindung wird die gestellte Aufgabe dadurch gelöst, daß als charakterisierende Strukturein- eo zelheiten erste Maxima und zweite Maxima des Sprachsignals bestimmt und gemeinsam ausgewertet werden.According to the invention, the set object is achieved in that the characterizing structure in eo Details of the first maxima and second maxima of the speech signal are determined and jointly evaluated will.
Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den übrigen Ansprüchen. &■>Advantageous further developments of the invention emerge from the remaining claims. & ■>
Mit Hilfe dieser natürlichen Kriterien, die man in Impulse umwandeln kann, hat man schon alle notwendigen Unterscheidungsmerkmale zur Erkennung der Laute, der Vokale usw.With the help of these natural criteria, which can be converted into impulses, you already have all the necessary criteria Distinguishing features for recognizing sounds, vowels, etc.
Weder der Stand der Technik gemäß der deutschen Auslegeschrift 11 89 744, der britischen Patentschrift 9 78 303, noch der ältere Vorschlag gemäß der deutschen Patentschrift 11 97 638 geben die Lehre, als charakterisierende Struktureinzelheiten bei der automatischen Erkennung von Sprachschwingungen erste und zweite Maxima (F i g. 2, F i g. 1) zu verwenden, da es nicht erkannt wurde, mit diesen speziellen Merkmalen die Sprachlaute zu identifizieren. Insbesondere Anspruch 6 der deutschen Patentschrift 11 97 638 beinhaltet zwar die Feststellung der Häufigkeit von »Vorgängen« (z. B. Nulldurchgängen), doch fehlt die Aussage, daß darunter auch die Bestimmung erster und zweiter Maxima fällt :;Neither the prior art according to the German Auslegeschrift 11 89 744, the British patent specification 9 78 303, nor the older proposal according to the German patent specification 11 97 638 give the teaching that first and second maxima (F i g. 2, fig. 1), since it was not recognized to identify the speech sounds with these special features. In particular claim 6 German Patent 11 97 638 involves determining the frequency of "operations" (eg zero crossings.), But the statement is missing, that including the provision of first and second maxima falls:;
Um das vorliegende Verfahren technisch ausführen zu können, gibt es verschiedene Möglichkeiten:In order to be able to carry out the present process technically, there are various options:
Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung der gesprochenen Vokale (s. Fig. 1), d. h. ihrer Schallschwingungen, genügt es schon, wenn man z. B. die Anzahl der ersten Maxima (s. F i g. 2 gleich der gestrichelten Kurve in Fig. 1) feststellt und zählt Als weiteres Kriterium braucht man nur noch ^, festzustellen, ob die natürlichen Sprachschwingungen f, viele zweite Maximas bzw. Amplituden haben (s. F i g. 1). Zur Abtrennung der Perioden der gesprochenen Vokale bzw. Laute genügt es schon, die stärkste Amplitude; d. h. das Maximum der Schwingungsmaxima (s. F i g. 3), welches der Grundfrequenz zugeordnet ist, festzustellen.An exemplary embodiment is intended to explain this in more detail. To distinguish the spoken vowels (see Fig. 1), d. H. their sound vibrations, it is enough if you z. B. the number of the first maxima (see Fig. 2 equals the dashed curve in Fig. 1) detects and counts As a further criterion one only needs ^ to determine whether the natural language vibrations f, have many second maxima or amplitudes (see Fig. 1). To separate the periods of the spoken Vowels or sounds are enough, the strongest amplitude; d. H. the maximum of the oscillation maxima (see Fig. 3), which is assigned to the basic frequency to determine.
Mit Hilfe dieser Vokale (dabei ist »o« nicht erforderlich) und nur zweier weiterer Laute kann man z. B. die gesprochenen zehn Ziffern (automatische Ziffernerkennung) eindeutig erkennen, unterscheiden, bestimmen und feststellen.With the help of these vowels ("o" is not required) and only two other sounds you can z. B. clearly recognize and distinguish the spoken ten digits (automatic digit recognition), determine and determine.
In Fig.4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verwirklichung des genannten Verfahrens dargestelltIn Fig.4 is a block diagram for a possible Execution of a simple device for implementing the method mentioned
Die Schallschwingungen der gesprochenen Laute werden, wie das Blockschaltbild zeigt, in ein Mikrophon M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung A, die einen »Buchstabenabtrennimpuls« erzeugt Dies kann durch Verzerren der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch { ;■; möglich, die stärkste Anfangsamplitude (Fig.3) zu U.'' benutzen. Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in F i g. 5 gezeigt, auf die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker K aus zu einer Schaltung B, die es ermöglicht, die ersten Maxima (F i g. 2) festzustellen und in Impulse umzuwandeln. Dies kann man einfach durch einen Tiefpaß erreichen. Weiterhin gehen vom Verstärker V die Schwingungen durch eine gewöhnliche Begrenzerstufe C oder ähnliches, die es ermöglicht, die zweiten Maxima (Fig. 1) mit kleinen und nahe beieinanderliegenden Amplituden festzustellen und in Impulse umzuwandeln. Über eine Codiermatrix D werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. Wählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schreiben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen-Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungssy-The sound vibrations of the spoken sounds are spoken into a microphone M, as the block diagram shows. These are passed on via an amplifier V to a circuit A, which generates a "letter separating pulse". This can be done by distorting the fundamental frequency and differentiating the resulting pulses. It is also {; ■; possible to use the strongest initial amplitude (Fig. 3) for U. ''. A circuit for generating such cut-off pulses is also shown in FIG. 5, to which reference is made again below. In addition, the oscillations go from the amplifier K to a circuit B, which makes it possible to determine the first maxima (FIG. 2) and to convert them into pulses. This can be achieved simply by using a low pass. Furthermore, the vibrations go from the amplifier V through an ordinary limiter stage C or the like, which makes it possible to determine the second maxima (FIG. 1) with small and closely spaced amplitudes and to convert them into pulses. The pulses obtained are effective in further processing devices F via a coding matrix D. As such come z. B. dialing systems for telephone exchanges in question, other possible applications are the following: Writing the spoken words with the help of the device on a typewriter, automatic dictation machine, automatic recognition of the spoken ten different digits and then automatic adjustment of settings on machines, e.g. B. Switching system
stemen, Sprachverständigung mit Gehörlosen, Frequenzbandkompression in Übertragungssystemen, Übersetzen in Fremdsprachen und Sprachforschung.stemen, speech communication with the deaf, frequency band compression in transmission systems, translation into foreign languages and linguistic research.
Wie bereits erwähnt, gibt es verschiedene Möglichkeiten, die »Buchstabenabtrennimpulse« aus der Schwingungsstruktur zu gewinnen. Gemäß einem bereits vorliegenden Vorschlag (deutsche Patentschrift 11 97 638) werden die Einteilungsimpulse dadurch erhalten, daß aufeinanderfolgende Schwingungszüge der Sprachwelle fortgesetzt miteinander verglichen werden, wobei sich aus den so erhaltenen Differenzwerten Umschlagstellen ergeben, an denen die Amplituden oder Frequenzen der Sprachschwingungen, nachdem sie vorher ab- bzw. zunahmen, plötzlich wieder größer bzw. kleiner werden.As already mentioned, there are various ways of extracting the "letter separation impulses" from the To gain vibration structure. According to an already existing proposal (German patent specification 11 97 638) the graduation impulses are obtained by making successive oscillations of the speech wave are continuously compared with one another, the difference values thus obtained Transition points arise at which the amplitudes or frequencies of the speech oscillations after them decrease or increase beforehand, suddenly become larger or smaller again.
Eine relativ einfach Schaltung zur Gewinnung derartiger Abtrennimpulse IP aus der Schwingungs-A relatively simple circuit for obtaining such cut-off pulses IP from the vibration
struktur besteht gemäß F i g. 5 aus einem Hochpaß 8 und einem Tiefpaß 9, die jeweils an einem Eingang eines Flipflops 10 angeschlossen sind. Es ergeben sich Wiederholungen des Vorganges, daß bei E eingehende niedrige Frequenzen durch das Filter 9 und hohe Frequenzen durch das Filter 8 gelangen, und diese Wiederholungen ermöglichen die genannten Abtrennungen durch Ausgangsimpulse IP des Flipflops 10. In Kombination damit kann man, wie in F i g. 5 dargestellt, eine Reihe von Filtern 11 vorsehen, durch die die Frequenzen ebenfalls laufen, wobei bei jedem Buchstaben einige bestimmte Filter ansprechen. Dies wird durch Flipflops 12 jeweils festgestellt Deren Ausgangsimpulse werden in Speichereinrichtungen 13 registriert, und über Tore 14 können in Abhängigkeit von den Abtrennimpulsen IP die Inhalte der Speicher 13 ausgegeben und miteinander verknüpft werden.structure according to FIG. 5 from a high-pass filter 8 and a low-pass filter 9, which are each connected to an input of a flip-flop 10. There are repetitions of the process that at E incoming low frequencies pass through the filter 9 and high frequencies pass through the filter 8, and these repetitions enable the above-mentioned separations by output pulses IP of the flip-flop 10. In combination with this, as in F i G. 5, provide a series of filters 11 through which the frequencies also pass, some specific filters responding to each letter. This is determined by flip-flops 12, whose output pulses are registered in memory devices 13, and the contents of memory 13 can be output and linked to one another via gates 14 as a function of the cut-off pulses IP.
Hierzu 2 Blatt ZeichnungenFor this purpose 2 sheets of drawings
Claims (6)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1959K0056183 DE1472011B2 (en) | 1959-01-16 | 1959-01-16 | PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1959K0056183 DE1472011B2 (en) | 1959-01-16 | 1959-01-16 | PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| DE1472011A1 DE1472011A1 (en) | 1969-11-13 |
| DE1472011B2 DE1472011B2 (en) | 1978-01-12 |
| DE1472011C3 true DE1472011C3 (en) | 1978-10-19 |
Family
ID=7227746
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE1959K0056183 Granted DE1472011B2 (en) | 1959-01-16 | 1959-01-16 | PROCEDURE FOR AUTOMATIC DETECTION OF THE INFORMATION CONTAINED IN VOICE VIBRATIONS |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE1472011B2 (en) |
-
1959
- 1959-01-16 DE DE1959K0056183 patent/DE1472011B2/en active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| DE1472011A1 (en) | 1969-11-13 |
| DE1472011B2 (en) | 1978-01-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE19942178C1 (en) | Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association | |
| DE2613258A1 (en) | AUTOMATIC SPEECH RECOGNITION SYSTEM | |
| DE1248225B (en) | Method and device for the precise determination of the heartbeat frequency | |
| DE4031638C2 (en) | ||
| DE1192257B (en) | Method for the non-destructive reading of electrical allocators with learning character | |
| DE3802903A1 (en) | LANGUAGE TRANSFER DEVICE | |
| DE2020753A1 (en) | Device for recognizing given speech sounds | |
| DE2703200A1 (en) | METHOD AND DEVICE FOR THE CONTROL OF THE VIBRATION STATE OF A VIBRATION SYSTEM IN A SIGNAL GENERATOR | |
| DE3878895T2 (en) | METHOD AND DEVICE FOR VOICE RECOGNITION. | |
| DE3043516C2 (en) | Method and device for speech recognition | |
| DE1937464C3 (en) | Speech analyzer | |
| DE2825651A1 (en) | COIN SORTING DEVICE | |
| DE1472011C3 (en) | ||
| DE1797469A1 (en) | Device for extracting characteristic criteria of vibrations, in particular speech vibrations | |
| DE3133107A1 (en) | Personal sound protection | |
| DE1487540C3 (en) | Process for the analysis and synthesis of electrical acoustic signals | |
| EP0284734A2 (en) | Circuit for the recognition of dual tone multifrequency signals in telephone exchanges | |
| DE2624173A1 (en) | SIGNAL DETECTION CIRCUIT | |
| DE3884212T2 (en) | FILTERING TECHNIQUES. | |
| DE1122274B (en) | Method and arrangement for the automatic recognition of speech | |
| DE1547027B2 (en) | PROCEDURE AND ARRANGEMENT FOR DETERMINING CONSONANTS IN VOICE SIGNALS | |
| DE586456C (en) | Electroacoustic apparatus | |
| DE1197638B (en) | Process for the automatic conversion of sound vibrations into sound recognition signals | |
| DE2163247B2 (en) | Noise suppressor for radio or wire signals - forms correction signal for adding to input before differential processing | |
| DE3645119C2 (en) | Speech or sound recognition device - has speech-sound models superimposed to reduce background hiss effects |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| BF | Willingness to grant licences | ||
| C3 | Grant after two publication steps (3rd publication) |