DE1472011B2 - Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen - Google Patents
Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationenInfo
- Publication number
- DE1472011B2 DE1472011B2 DE1959K0056183 DEK0056183A DE1472011B2 DE 1472011 B2 DE1472011 B2 DE 1472011B2 DE 1959K0056183 DE1959K0056183 DE 1959K0056183 DE K0056183 A DEK0056183 A DE K0056183A DE 1472011 B2 DE1472011 B2 DE 1472011B2
- Authority
- DE
- Germany
- Prior art keywords
- maxima
- vibrations
- speech
- information contained
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 15
- 238000001514 detection method Methods 0.000 title description 2
- 230000010355 oscillation Effects 0.000 claims description 6
- 238000000926 separation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Anspruches 1.
Die^bisher bekannten Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenen
/Informationen beruhen auf der Methode der Fre-/ quenzanalyse im Sinne der Bildung und Auswertung von
Frequenzen.
Es ist bekannt, die Schwingungsstruktur für einen Beobachter, z. B. mittels eines Oszillografen, sichtbar zu
machen. Es ist auch bekannt, während des Zeitverlaufes von Sprachschwingungen in diesen gewisse (nämlich
durch den »Pitch« gegebene) Sprungstellen festzustellen, aber ebenfalls wieder nur für den Zweck einer
sichtbaren Darstellung in modifizierter Form. Demgegenüber besteht die gemäß vorliegender Erfindung zu
lösende Aufgabe darin, Eigenarten bzw. die Struktur der natürlichen Sprachschwingungen selbst als kennzeichnende
Kriterien (insbesondere zur Erkennung der Laute usw.) verwendbar zu machen und dementsprechend ein
einfaches, frequenzunabhängiges, charakteristisches, Struktureinzelheiten beschreibendes, von Männern,
Frauen und Kindern unabhängiges und doch sicheres, auf Sprechvorschriften nicht angewiesenes Verfahren
zur automatischen Spracherkennung zu schaffen.
Gemäß der Erfindung wird die gestellte Aufgabe dadurch gelöst, daß als charakterisierende Struktureinzelheiten
erste Maxima und zweite Maxima des Sprachsignals bestimmt und gemeinsam ausgewertet
werden.
Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den übrigen Ansprüchen.
Mit Hilfe dieser natürlichen Kriterien, die man in Impulse umwandeln kann, hat man schon alle notwendigen
Unterscheidungsmerkmale zur Erkennung der
65 Laute, der Vokale usw.
Weder der Stand der Technik gemäß der deutschen Auslegeschrift 11 89 744, der britischen Patentschrift
9 78 303, noch der ältere Vorschlag gemäß der deutschen Patentschrift 11 97 638 geben die Lehre, als
charakterisierende Struktureinzelheiten bei der automatischen Erkennung von Sprachschwingungen erste
und zweite Maxima (F i g. 2, F i g. 1) zu verwenden, da es nicht erkannt wurde, mit diesen speziellen Merkmalen
die Sprachlaute zu identifizieren. Insbesondere Anspruch 6 der deutschen Patentschrift 11 97 638 beinhaltet
zwar die Feststellung der Häufigkeit von »Vorgängen« (z. B. Nulldurchgängen), doch fehlt die Aussage,
daß darunter auch die Bestimmung erster und zweiter Maxima fällt.
Um das vorliegende Verfahren technisch ausführen zu können, gibt es verschiedene Möglichkeiten:
Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung der gesprochenen Vokale (s. Fig. 1),
d. h. ihrer Schallschwingungen, genügt es schon, wenn man z. B. die Anzahl der ersten Maxima (s. Fi g. 2 gleich
der gestrichelten Kurve in Fig. 1) feststellt und zählt. Als weiteres Kriterium braucht man nur noch
festzustellen, ob die natürlichen Sprachschwingungen viele zweite Maximas bzw. Amplituden haben
(s. F i g. 1). Zur Abtrennung der Perioden der gesprochenen Vokale bzw. Laute genügt es schon, die stärkste
Amplitude, d. h. das Maximum der Schwingungsmaxima (s. F i g. 3), welches der Grundfrequenz zugeordnet ist,
festzustellen.
Mit Hilfe dieser Vokale (dabei ist »o« nicht erforderlich) und nur zweier weiterer Laute kann man
z. B. die gesprochenen zehn Ziffern (automatische Ziffernerkennung) eindeutig erkennen, unterscheiden,
bestimmen und feststellen.
In Fig.4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verwirklichung
des genannten Verfahrens dargestellt.
Die Schallschwingungen der gesprochenen Laute werden, wie das Blockschaltbild zeigt, in ein Mikrophon
M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung A, die einen
»Buchstabenabtrennimpuls« erzeugt. Dies kann durc
Verzerren der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch möglich, die stärkste Anfangsamplitude (F i g. 3) zu benutzen. Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in F i g. 5 gezeigt, auf die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker Vaus zu einer Schaltung B, die es ermöglicht, die ersten Maxima (F i g. 2) festzustellen und in Impulse umzuwandeln. Dies kann man einfach durch einen Tiefpaß erreichen. Weiterhin gehen vom Verstärker V die Schwingungen durch eine gewöhnliche Begrenzerstufe C oder ähnliches, die es ermöglicht, die zweiten Maxima (Fig. 1) mit kleinen und nahe beieinanderliegenden Amplituden festzustellen und in Impulse umzuwandeln. Über eine Codiermatrix D werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. Wählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schreiben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungssy-
Verzerren der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch möglich, die stärkste Anfangsamplitude (F i g. 3) zu benutzen. Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in F i g. 5 gezeigt, auf die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker Vaus zu einer Schaltung B, die es ermöglicht, die ersten Maxima (F i g. 2) festzustellen und in Impulse umzuwandeln. Dies kann man einfach durch einen Tiefpaß erreichen. Weiterhin gehen vom Verstärker V die Schwingungen durch eine gewöhnliche Begrenzerstufe C oder ähnliches, die es ermöglicht, die zweiten Maxima (Fig. 1) mit kleinen und nahe beieinanderliegenden Amplituden festzustellen und in Impulse umzuwandeln. Über eine Codiermatrix D werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. Wählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schreiben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungssy-
stemen, Sprachverständigung mit Gehörlosen, Frequenzbandkompression
in Übertragungssystemen, Übersetzen in Fremdsprachen und Sprachforschung.
Wie bereits erwähnt, gibt es verschiedene Möglichkeiten, die »Buchstabenabtrennimpulse« aus der
Schwingungsstruktur zu gewinnen. Gemäß einem bereits vorliegenden Vorschlag (deutsche Patentschrift
11 97 638) werden die Einteilungsimpulse dadurch
erhalten, daß aufeinanderfolgende Schwingungszüge der Sprachwelle fortgesetzt miteinander verglichen
werden, wobei sich aus den so erhaltenen Differenzwerten Umschlagstellen ergeben, an denen die Amplituden
oder Frequenzen der Sprachschwingungen, nachdem sie vorher ab- bzw. zunahmen, plötzlich wieder größer bzw.
kleiner werden.
Eine relativ einfach Schaltung zur Gewinnung derartiger Abtrennimpulse IP aus der Schwingungsstruktur besteht gemäß Fig.5 aus einem Hochpaß 8
und einem Tiefpaß 9, die jeweils an einem Eingang eines Flipflops 10 angeschlossen sind. Es ergeben sich
Wiederholungen des Vorganges, daß bei E eingehende niedrige Frequenzen durch das Filter 9 und hohe
Frequenzen durch das Filter 8 gelangen, und diese Wiederholungen ermöglichen die genannten Abtrennungen
durch Ausgangsimpulse IP des Flipflops 10. In Kombination damit kann man, wie in F i g. 5 dargestellt,
eine Reihe von Filtern 11 vorsehen, durch die die Frequenzen ebenfalls laufen, wobei bei jedem Buchstaben
einige bestimmte Filter ansprechen. Dies wird durch Flipflops 12 jeweils festgestellt. Deren Ausgangsimpulse
werden in Speichereinrichtungen 13 registriert, und über Tore 14 können in Abhängigkeit von den
Abtrennimpulsen IP die Inhalte der Speicher 13 ausgegeben und miteinander verknüpft werden.
Hierzu 2 Blatt Zeichnungen
Claims (6)
1. Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenden Informationen
unter Verwendung von die Sprachschwingungen charakterisierenden Struktureinzelheiten, dadurch gekennzeichnet, daß als charakterisierende
Struktureinzelheiten erste Maxima (F i g. 2) und zweite Maxima (Fig. 1) des Sprachsignals
bestimmt und gemeinsam ausgewertet werden.
2. Verfahren nach Anspruch I1 dadurch gekennzeichnet,
daß die Anzahl der ersten Maxima und die Anzahl der zweiten Maxima festgestellt und
verglichen werden.
3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die ersten und die zweiten
Maxima in Impulse umgewandelt werden.
4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß solche erste und zweite
Maxima des Sprachsignals gemeinsam ausgewertet werden, die innerhalb von durch Abtrennimpulsen
markierten Schwingungsgruppen liegen.
5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima
mit Hilfe von Filtern bestimmt werden.
6. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima
des Sprachsignals durch Vergleichen und Amplituden mit Schwingungsdauern oder durch Vergleichen
von Schwingungsdauern ermittelt werden.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1959K0056183 DE1472011B2 (de) | 1959-01-16 | 1959-01-16 | Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1959K0056183 DE1472011B2 (de) | 1959-01-16 | 1959-01-16 | Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| DE1472011A1 DE1472011A1 (de) | 1969-11-13 |
| DE1472011B2 true DE1472011B2 (de) | 1978-01-12 |
| DE1472011C3 DE1472011C3 (de) | 1978-10-19 |
Family
ID=7227746
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE1959K0056183 Granted DE1472011B2 (de) | 1959-01-16 | 1959-01-16 | Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE1472011B2 (de) |
-
1959
- 1959-01-16 DE DE1959K0056183 patent/DE1472011B2/de active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| DE1472011A1 (de) | 1969-11-13 |
| DE1472011C3 (de) | 1978-10-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE2918533C2 (de) | ||
| DE2953262C2 (de) | ||
| DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
| DE2613258A1 (de) | System zur automatischen spracherkennung | |
| DE4031638C2 (de) | ||
| DE1192257B (de) | Verfahren zum zerstoerungsfreien Lesen von elektrischen Zuordnern mit Lerncharakter | |
| DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
| DE2703200A1 (de) | Verfahren und vorrichtung zur kontrolle des schwingungszustandes eines schwingungssystems in einem signalgeber | |
| DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
| EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung | |
| DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
| DE3853702T2 (de) | Spracherkennung. | |
| DE1937464B2 (de) | Sprachanalysiergeraet | |
| WO1993002448A1 (de) | Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache | |
| DE19851287A1 (de) | Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte | |
| DE1472011C3 (de) | ||
| DE1797469A1 (de) | Einrichtung zur Extrahierung kennzeichnender Kriterien von Schwingungen,insbesondere Sprachschwingungen | |
| DE1487540C3 (de) | Verfahren für Analyse und Synthese von elektrischen Akustiksignalen | |
| EP0284734A2 (de) | Schaltungsanordnung zum Erkennen von Doppelton-Mehrfrequenzsignalen in Fernsprechanlagen | |
| DE19646634A1 (de) | Verfahren zur Befehlseingabe mit Sprache | |
| EP0834859B1 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
| DE10010232B4 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
| DE2624173A1 (de) | Signal-erkennungsschaltung | |
| DE586456C (de) | Elektroakustischer Apparat | |
| DE2363590A1 (de) | Spracherkennungssystem mit merkmalsfolgekodierung |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| BF | Willingness to grant licences | ||
| C3 | Grant after two publication steps (3rd publication) |