DE4328752A1 - Spracherkennungssystem - Google Patents
SpracherkennungssystemInfo
- Publication number
- DE4328752A1 DE4328752A1 DE4328752A DE4328752A DE4328752A1 DE 4328752 A1 DE4328752 A1 DE 4328752A1 DE 4328752 A DE4328752 A DE 4328752A DE 4328752 A DE4328752 A DE 4328752A DE 4328752 A1 DE4328752 A1 DE 4328752A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- frequency band
- neural network
- speech recognition
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Selective Calling Equipment (AREA)
Description
Die Erfindung bezieht sich auf ein Spracherkennungssystem und
insbesondere auf ein Spracherkennungssystem zur Erkennung von
mündlichen Befehlen für die Fernbedienung von Haushalts
elektrogeräten.
Zur Erkennung der von einem Menschen spontan ausgesprochenen
Sprache ist in üblichen Spracherkennungssystemen ein enormer
Rechenaufwand nötig, um eine Anpassung an eine Vielzahl von
Sprachmerkmalen zu ermöglichen. Daher sind übliche Sprach
erkennungssysteme hinsichtlich ihrer Ausführbarkeit und
Eignung eingeschränkt, und eine Echtzeitspracherkennung wird
erschwert. Zur Lösung der mit der Mustererkennung wie z. B.
der Spracherkennung verbundenen Probleme wurde daher ein
neuronales Netzwerkmodell vorgeschlagen.
Im Bereich der Sprachmustererkennung wurden verschiedene
Modelle neuronaler Netzwerke vorgeschlagen. In diesen
Modellen wird häufig ein Mehrschichtperzeptron verwendet. Das
Mehrschichtperzeptron weist jedoch die Nachteile auf, daß es
sich zur Bestimmung des zu einer wahren Lösung gehörenden
Fehlerwertes in ein lokales Minimum des Lernvorgangs bewegt,
bei dem sich der Fehlerwert nach und nach verringert und
danach wieder ansteigt, und daß die Lernzeit zu lange ist.
Zudem ist die Realisation der Hardwarekonstruktion aufwendig,
so daß ein Einsatz für weitere Anwendungen nicht möglich ist.
Es ist daher Aufgabe der Erfindung, ein Spracherken
nungssystem zur Erkennung von Fernbedienungsbefehlen für
Haushaltselektrogeräte bereitzustellen, in dem ein mehr
schichtiges neuronales Netzwerk eingesetzt wird, das Fehler
minimieren kann.
Diese Aufgabe wird gelöst durch ein Spracherkennungssystem
zur Erkennung von Fernbedienungsbefehlen von Haushaltselektro
geräten mit einem Mikrofon zum Empfang der von einem
Bediener ausgesprochenen Sprache, einer Sprachanalysier
einrichtung zum Analysieren der anhand des Mikrofons
eingegebenen Sprache, einer Erfassungseinrichtung zum
Erfassen eines Sprachausschnitts der von der Sprachanalysier
einrichtung ausgegebenen Sprache und zur Durchführung einer
zeitachsenbezogenen Normalisierung und einer Binärwandlung
des Sprachausschnitts, und einem mehrschichtigen neuronalen
Netzwerk zum Empfangen der binären Daten der Erfassungs
einrichtung und zum anschließenden Durchführen eines
Lernprozesses bezüglich der Daten, um dadurch das Sprach
erkennungsergebnis auszugeben.
Durch das erfindungsgemäße mehrschichtige neuronale Netzwerk
werden die oben beschriebenen Nachteile vermieden, wobei
seine Anwendung speziell für den Bereich der Mustererkennung
wie z. B. der Symbol- oder Spracherkennung vorgesehen ist.
Die Erfindung wird nachstehend anhand von Ausführungs
beispielen unter Bezugnahme auf die Zeichnung näher
beschrieben. Es zeigen:
Fig. 1 ein Blockschaltbild eines erfindungsgemäßen
Fernbedienungsbefehls-Erkennungssystems eines Haushaltselek
trogeräts, in dem ein mehrschichtiges neuronales Netzwerk
eingesetzt wird,
Fig. 2 Original-Erkennungszielworte, die in einem erfindungs
gemäßen Erkennungsexperiment verwendet wurden,
Fig. 3 Daten, die nach Erfassung des Sprachausschnitts des
Erkennungszielworts "power" erhalten wurden,
Fig. 4a-4c Diagramme, die erfindungsgemäße Binärwandlungs
verfahren darstellen,
Fig. 5a eine Tabelle, die ein Ergebnis der Binärwandlung der
in Fig. 3 gezeigten Daten nach dem in Fig. 4a gezeigten
Verfahren darstellt,
Fig. 5b eine Tabelle, die ein Ergebnis der Binärwandlung der
in Fig. 3 gezeigten Daten nach dem in Fig. 4c gezeigten
Verfahren darstellt,
Fig. 6 ein Blockschaltbild, das die erfindungsgemäße
Verarbeitungssequenz der erfaßten zeitachsennormalisierten
Sprachausschnittsdaten darstellt,
Fig. 7 ein Lernverfahren eines mehrschichtigen neuronalen
Netzwerks zur Erhöhung der Erkennungsrate des erfindungs
gemäßen Spracherkennungssystems, und
Fig. 8 ein Ergebnis, das mittels einer Programmsimulation der
Spracherkennung anhand von Fernseh- und Videorekorderbefehlen
erhalten wurde.
Bevor das erfindungsgemäße Spracherkennungssystem unter
Bezugnahme auf die Zeichnung beschrieben wird, wird zunächst
der erfindungsgemäße Lernalgorythmus des mehrschichtigen
neuronalen Netzwerks beschrieben. Der Algorythmus verfährt
wie folgt:
- a) Initialisiere die Gewichtungsfaktoren für alle Knoten.
- b) Stelle die Werte des Eingangs und seines entsprechenden Ausgangs zur Verfügung.
- c) Summiere die Produkte der Eingangswerte mit den Gewichtungsfaktoren eines jeden Knotens und erzeuge dadurch die Ausgangsdaten unter Verwendung einer hart begrenzenden, nicht linearen Funktion: wobei fh eine hart begrenzende Funktion, Xi das i-te Eingangssignal, Wji den Gewichtungsfaktor zwischen dem i-ten und dem j-ten Knoten, und OUTj den Ausgangswert am j-ten Knoten kennzeichnet.
- d) Vergleiche den Ausgangswert am Ausgangsknoten mit dem gewünschten Ausgangswert, um dadurch den Fehler zwischen beiden zu bestimmen, und speichere dann die den Fehlerwerten entsprechenden Änderungen der Gewichtungsfaktoren: ΔWji = (Dj-Oj) (3)wobei Wji die Änderung des Gewichtungsfaktors, Dj den gewünschten Ausgangswert des j-ten Knoten, und Oj den Ausgangswert des j-ten Knoten kennzeichnet.
- e) Führe die Schritte b) bis d) für alle Eingangswerte durch und beende den Lernprozeß, wenn alle Ausgangswerte identisch mit den gewünschten Werten sind. Andernfalls addiere die Summe der Gewichtungsfaktoränderungen zum Gewichtungsfaktor hinzu: wobei W(T-1)ji den Gewichtungsfaktor vor der Änderung und Wji den Gewichtungsfaktor nach der Änderung kennzeichnet.
- f) Führe eine vorbestimmte Anzahl von Wiederholungen der Schritte b) bis e) durch und vergrößere die Anzahl der Schichten, bis das gewünschte Resultat erhalten wird. Wiederhole danach die Schritte b) bis e), wobei der Ausgangswert der erweiterten Schicht und der ursprüngliche Eingangswert als neuer Eingangswert verwendet werden.
Beim Lernalgorythmus des mehrschichtigen neuronalen Netzwerks
sollten die Gewichtungsfaktoren der Synapsen zur
Erleichterung der Hardware-Konstruktion ganzzahlig sein.
Ferner wird die hart begrenzende Funktion als
Übertragungsfunktion der Neuronen verwendet, für deren
Eingangs- und Ausgangswerte binäre Zahlen verwendet werden.
Als Regel gilt, daß, solange der Lernprozeß der
vorangegangenen Schicht nicht erfolgreich war, die Anzahl der
Schichten vergrößert wird und daß der Lernprozeß solange
durchgeführt wird, bis der Ausgangswert identisch mit dem
gewünschten Ausgangswert ist.
Fig. 1 zeigt ein Blockschaltbild eines Fernbedienungsbefehls-
Erkennungssystems für Haushaltselektrogeräte, in dem ein
mehrschichtiges neuronales Netzwerk eingesetzt wird. Unter
Bezugnahme auf Fig. 1 enthält das System ein Mikrofon 200 zum
Empfangen der Sprache, einen Sprachanalysator 210 zur
Extrahierung der Charakteristiken der vom Mikrofon 200
übertragenen Sprache, eine Erfassungseinrichtung 220 zur
Erfassung des Sprachausschnitts der durch den
Sprachanalysator 210 verarbeiteten Sprache und zur
Durchführung einer Zeitachsennormalisierung und einer
Binärwandlung des Sprachausschnitts, und ein mehrschichtiges
neuronales Netzwerk 230 zum Empfangen der binärgewandelten
Daten der Erfassungseinrichtung 220 zum Durchführen des
Lernprozesses und zum anschließenden Ausgeben des
Spracherkennungsergebnisses.
Eine erfindungsgemäße Fernbedienung ist wie in Fig. 1 gezeigt
aufgebaut. Die Fernbedienung sendet ein der erkannten Sprache
entsprechendes Fernsteuerungssignal aus, um dadurch das
elektronische Haushaltsgerät zum Ausführen der gewünschten
Funktion zu veranlassen. Das erkannte Sprachsignal wird auch
auf dem Bildschirm angezeigt.
Fig. 2 zeigt eine Liste von Erkennungszielworten, wie sie in
einem Experiment verwendet wurden. Gemäß Fig. 2 bestehen die
Erkennungszielworte aus 23 Fernseh- und Videorekorderbefehlen
und den koreanischen Zahlen "young" bis "koo", die den
deutschen Zahlen 1 bis 9 entsprechen.
Fig. 3 zeigt eine Tabelle, die die Daten nach der Erfassung
des Sprachausschnitts in dem Erkennungszielwort "power"
darstellt.
Erfindungsgemäß werden die Ausgangssignale einer 16-kanaligen
Filterbank verwendet, so daß der Sprachausschnitt in 16
Frequenzbänder F1-F16 unterteilt wird. Die Analyseperiode der
Sprachdaten wird auf 16 ms festgesetzt. Von den analysierten
Daten werden die Rahmen erfaßt, deren Energieniveau höher als
ein vorbestimmter Schwellwert ist, so daß diese
kontinuierlichen Rahmen als Sprachausschnitt zusammengefaßt
werden.
Da das gleiche Wort etwas länger oder kürzer ausgesprochen
werden kann, werden die erfaßten Sprachausschnittsdaten nach
jeweils 30 Rahmen zeitachsennormalisiert, was der
durchschnittlichen Dauer eines zwei- oder dreisilbigen Wortes
entspricht. Die Normalisierung wird dadurch erreicht, daß
Teile der Rahmen proportional entfernt werden, wenn das Wort
länger als ein Referenzrahmen ist und daß Teile des Rahmens
proportional kopiert werden, wenn das Wort kürzer als der
Referenzrahmen ist.
Die Fig. 4a-4c zeigen erfindungsgemäße Binärwandlungs
verfahren. Gemäß Fig. 4a wird angenommen, daß zwei
benachbarte Frequenzbänder ein erstes bzw. ein zweites
Frequenzband sind und daß, wenn das Energieniveau des ersten
Frequenzbandes höher als das des benachbarten zweiten
Frequenzbandes ist, dem ersten Frequenzband der Wert "1" oder
dem zweiten Frequenzband der Wert "0" zugewiesen wird. Gemäß
Fig. 4b wird einem Frequenzband der Wert "1" zugewiesen, wenn
das Energieniveau des Frequenzbandes höher ist als das der
beiden Nachbarfrequenzbänder, zwischen denen sich das
Frequenzband befindet, oder andernfalls wird dem Frequenzband
der Wert "0" zugewiesen. Gemäß Fig. 4c werden die in einen
Sprachausschnitt eingeteilten Daten in einer festen
Proportion normalisiert und der Wert "1" wird einem
Frequenzband zugewiesen, dessen Energieniveau höher als ein
vorgestimmter Schwellwert ist, oder andernfalls wird dem
Frequenzband der Wert "0" zugewiesen.
Fig. 5a zeigt eine Tabelle des Ergebnisses der Binärwandlung
der in Fig. 3 gezeigten Daten nach dem in Fig. 4a gezeigten
Verfahren.
Fig. 5b zeigt eine Tabelle des Ergebnisses der Binärwandlung
der in Fig. 3 gezeigten Daten nach dem in Fig. 4c gezeigten
Verfahren.
Die Binärwandlungsergebnisse der Fig. 5a und 5b werden als
Eingangswerte für ein mehrschichtiges neuronales Netzwerk
verwendet. Das mehrschichtige neuronale Netzwerk führt den
oben beschriebenen Algorythmus bei Erhalt der
binärgewandelten Ergebnisse durch.
Fig. 6 zeigt ein Blockschaltbild der Verarbeitungssequenz,
nach der die erfaßten zeitachsennormalisierten Sprachaus
schnittsdaten verarbeitet werden. Gemäß Fig. 6 werden die
erfaßten zeitachsennormalisierten Sprachausschnittsdaten mit
tels drei Arten von Binärwandlungsschaltungen 300 binär
gewandelt. Danach werden die binärgewandelten Daten anhand
eines Lernprozesses von drei mehrschichtigen neuronalen
Netzwerken 310 verarbeitet. Die durch den Lernprozeß
erhaltenen Daten werden einer Maximalwert-Ausgabeschaltung
320 eingegeben, wodurch die Maximalwerte erzeugt werden.
Danach werden die Ergebnisse der Maximalwert-
Ausgabeschaltungen 320 mittels einer Endwerterkennungs
schaltung 330 vereinigt, wobei die Endwerterkennungsschaltung
330 den endgültigen Erkennungswert erzeugt.
Durch die gleichzeitige Verwendung von drei verschiedenen
Binärwandlungsverfahren können die Sprachcharakteristiken
differenzierter ausgedrückt werden, um dadurch eine bessere
Erkennungsrate zu sichern. Weiterhin wird durch die
vorliegende Erfindung ein zusätzliches Verfahren zum Erzielen
eines verbesserten Lernergebnisses bereitgestellt.
Fig. 7 zeigt ein erfindungsgemäßes Lernverfahren, das ein
verbessertes Ergebnis zur Folge hat. Gemäß Fig. 7 enthält ein
mehrschichtiges neuronales Netzwerk eine vorbestimmte Anzahl
von subneuronalen Netzwerken und jedes der subneuronalen
Netzwerke enthält weiterhin seine eigenen subneuronalen
Netzwerke, die dadurch die Erkennungsrate erhöhen. Das
erfindungsgemäße Spracherkennungssystem enthält eine Vielzahl
von neuronalen Netzwerken 400 zur Durchführung des
Lernprozesses bei Empfang der binärgewandelten Signale und
eine Vielzahl von subneuronalen Netzwerken 410, die mit den
neuronalen Netzwerken 400 verbunden sind. Ebenso können die
subneuronalen Netzwerke ihre eigenen subneuronalen Netzwerke
enthalten.
Somit können die Ausgangsdaten, die nicht durch das neuronale
Netzwerk ermittelt werden können, von den subneuronalen
Netzwerken 400 gelernt werden, wodurch das endgültige
Ergebnis erhalten wird. Die Ausgangsdaten, die nicht durch
die subneuronalen Netzwerke 410 ermittelt werden, können von
ihren eigenen subneuronalen Netzwerken gelernt werden. Wird
z. B. der Lernprozeß anhand der koreanischen Zahlen "il" und
"chil", "sahm" und "pahl", und "yuk" und "koo" durchgeführt,
die paarweise ähnlich erscheinen und daher schwer zu
unterscheiden sind, so können diese Zahlenpaare ein weiteres
Mal gelernt werden. Dieses Verfahren wird erfindungsgemäß zur
Erhöhung der Erkennungsrate des Lernprozesses eingeführt.
Fig. 8 zeigt eine Programmsimulation von Fernseh- und
Videorekorderbefehlen, die auf dem Monitor eines
Computersystems angezeigt wird. Zum jetzigen Zeitpunkt
umfassen die Studierdaten des mehrschichtigen neuronalen
Netzwerks mehr als 300 Daten für jedes von einem Sprecher
ausgesprochene Modul, bei insgesamt 10 Modulen. Für die
Erkennung wird eine Zeitdauer von ungefähr 0.2 Sekunden
benötigt, was den Aufbau eines Echtzeitsystems ermöglicht.
Nach dem Lernprozeß zeigten die Studierdaten eine
Erkennungsrate von 100% und die Testdaten eine Erkennungsrate
von 90%, was als hohe Rate angesehen werden kann.
Dementsprechend kann durch das erfindungsgemäße Spracher
kennungssystem und das erfindungsgemäße Spracherkennungsver
fahren die Spracherkennungsrate verbessert werden.
Spracherkennungssystem zur Erkennung von mündlichen Befehlen
für die Fernbedienung eines Fernsehgeräts oder Videorekorders
mit einem Mikrofon zum Empfangen der von einem Bediener
ausgesprochenen Sprache, einer Sprachanalysiereinrichtung zum
Analysieren der über das Mikrofon eingegebenen Sprache, einer
Erfassungseinrichtung zur Erfassung eines Sprachausschnitts
der Sprache von der Sprachanalysiereinrichtung und zum
Durchführen einer Zeitachsennormalisierung und einer
Binärwandlung des erfaßten Sprachausschnitts, und einem
mehrschichtigen, neuronalen Netzwerk zum Empfangen der
binärgewandelten Daten der Erfassungseinrichtung und zum
anschließenden Durchführen eines Lernprozesses, um dadurch
ein Spracherkennungsergebnis auszugeben. Durch die vor
liegende Erfindung kann die Erkennungsrate von Sprachsignalen
erhöht werden.
Claims (5)
1. Spracherkennungssystem zur Erkennung von Fernbedienungs
befehlen von Haushaltselektrogeräten, mit:
- a) einem Mikrofon (200) zum Empfangen der durch einen Bediener ausgesprochenen Sprache,
- b) einer Sprachanalysiereinrichtung (210) zum Analysieren der durch das Mikrofon (200) eingegebenen Sprache,
- c) einer Erfassungseinrichtung (220) zum Erfassen eines Sprachausschnitts der Sprache von der Sprachanalysier einrichtung (200) und zur Durchführung einer Zeitachsen normalisierung und einer Binärwandlung des Sprachausschnitts, und
- d) einem mehrschichtigen neuronalen Netzwerk (230) zum Empfangen der binärgewandelten Daten der Erfassungs einrichtung (220) und zum anschließenden Durchführen eines Lernprozesses, um dadurch ein Spracherkennungsergebnis (240) auszugeben.
2. Spracherkennungssystem nach Anspruch 1, wobei die
Erfassungseinrichtung (220) eine erste Einrichtung aufweist,
die einem ersten Frequenzband einen ersten Zustandswert
zuweist, wenn das Ausgangssignal des ersten Frequenzbandes
der erfaßten zeitachsennormalisierten Sprachausschnittsdaten
größer als das eines benachbarten zweiten Frequenzbandes ist,
oder andernfalls einen zweiten Zustandswert dem ersten
Frequenzband zuweist,
eine zweite Einrichtung aufweist, die dem ersten Frequenzband einen ersten Zustandswert zuweist, wenn das Ausgangssignal des ersten Frequenzbandes der erfaßten zeitachsen normalisierten Sprachausschnittsdaten größer ist als die seiner benachbarten Frequenzbänder, zwischen denen sich das erste Frequenzband befindet, oder andernfalls dem ersten Frequenzband einen zweiten Zustandswert zuweist, und
eine dritte Einrichtung zur Normalisierung der erfaßten zeitachsennormalisierten Sprachausschnittsdaten in einer vorbestimmten Proportion und zur Zuweisung eines ersten Zustandswerts zu einem Frequenzband, wenn der Ausgangswert in dem Frequenzband größer als ein Schwellwert ist, oder andernfalls zur Zuweisung eines zweiten Zustandswerts zu dem Frequenzband.
eine zweite Einrichtung aufweist, die dem ersten Frequenzband einen ersten Zustandswert zuweist, wenn das Ausgangssignal des ersten Frequenzbandes der erfaßten zeitachsen normalisierten Sprachausschnittsdaten größer ist als die seiner benachbarten Frequenzbänder, zwischen denen sich das erste Frequenzband befindet, oder andernfalls dem ersten Frequenzband einen zweiten Zustandswert zuweist, und
eine dritte Einrichtung zur Normalisierung der erfaßten zeitachsennormalisierten Sprachausschnittsdaten in einer vorbestimmten Proportion und zur Zuweisung eines ersten Zustandswerts zu einem Frequenzband, wenn der Ausgangswert in dem Frequenzband größer als ein Schwellwert ist, oder andernfalls zur Zuweisung eines zweiten Zustandswerts zu dem Frequenzband.
3. Spracherkennungssystem nach Anspruch 2, wobei das
mehrschichtige neuronale Netzwerk (230) erste, zweite und
dritte mehrschichtige neuronale Netzwerke umfaßt, die
entsprechend mit der ersten, zweiten bzw. dritten Einrichtung
verbunden sind, um dadurch die Ergebnisse des mehrschichtigen
neuronalen Netzwerks zu vereinen und auszugeben.
4. Spracherkennungssystem nach Anspruch 3, wobei jedes der
ersten, zweiten und dritten mehrschichtigen neuronalen
Netzwerke eine vorbestimmte Anzahl von subneuronalen
Netzwerken mit einer vorbestimmten Anzahl von Stufen enthält,
um dadurch die Ausgangssignale der subneuronalen Netzwerke zu
vereinen und auszugeben.
5. Spracherkennungssystem nach Anspruch 3, wobei in dem
mehrschichtige neuronalen Netzwerk ein Lernverfahren zur
Erkennung von Fernbedienungsbefehlen für Haushaltselektro
geräte durchgeführt wird, das die Schritte umfaßt:
- a) Initialisieren der Gewichtungsfaktoren für alle Knoten,
- b) Bereitstellen der Eingangswerte und der entsprechenden Ausgangswerte,
- c) Aufsummieren der Produkte der Eingangswerte mit den Gewichtungsfaktoren an jedem Knoten, um dadurch ein Ausgangssignal unter Verwendung einer hart begrenzenden, nicht linearen Funktion zu erzeugen,
- d) Vergleichen des Ausgangssignals am Ausgangsknoten mit einem gewünschten Ausgangswert, um dadurch den Fehler zwischen den beiden zu berechnen, und danach Speichern der Änderung des Gewichtungsfaktors entsprechend den Fehlerwerten,
- e) Durchführen der Schritte b) bis d) für alle Eingangssignale und Abbrechen des Lernvorgangs, wenn alle Ausgangswerte identisch mit den gewünschten Werten sind, andernfalls Hinzuaddieren der Summe der Änderungen der Gewichtungsfaktoren zu jedem entsprechenden Gewichtungs faktor, und
- f) Durchführen einer vorbestimmten Anzahl von Wiederholungen der Schritte b) bis e) und Erhöhen der Anzahl von Schichten, wenn das gewünschte Ergebnis nicht erhalten wird, danach Wiederholen der Schritte b) bis e), wobei das Ausgangssignal der erweiterten Schicht und das ursprüngliche Eingangssignal als neues Eingangssignal eingegeben wird.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1019920015484A KR100202425B1 (ko) | 1992-08-27 | 1992-08-27 | 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템 |
| KR92-15484 | 1992-08-27 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE4328752A1 true DE4328752A1 (de) | 1994-03-03 |
| DE4328752B4 DE4328752B4 (de) | 2004-08-05 |
Family
ID=19338592
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE4328752A Expired - Fee Related DE4328752B4 (de) | 1992-08-27 | 1993-08-26 | Spracherkennungssystem |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5471557A (de) |
| JP (1) | JPH06161496A (de) |
| KR (1) | KR100202425B1 (de) |
| DE (1) | DE4328752B4 (de) |
| FR (1) | FR2695246B1 (de) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19705471A1 (de) * | 1997-02-13 | 1997-07-24 | Sibet Gmbh Sican Forschungs Un | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
| DE19754382A1 (de) * | 1997-12-08 | 1999-06-10 | Siemens Nixdorf Inf Syst | Gerätekombination aus Fernseh- und Rechnerteil mit Zugriff zu einem Kommunikationsnetz sowie Fernbedienung dafür |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5904697A (en) * | 1995-02-24 | 1999-05-18 | Heartport, Inc. | Devices and methods for performing a vascular anastomosis |
| WO1999001957A1 (fr) | 1997-07-03 | 1999-01-14 | Kabushiki Kaisha Toshiba | Systeme de radiodiffusion par satellite |
| US7266498B1 (en) * | 1998-12-18 | 2007-09-04 | Intel Corporation | Method and apparatus for reducing conflicts between speech-enabled applications sharing speech menu |
| JP3979556B2 (ja) * | 1998-12-22 | 2007-09-19 | パイオニア株式会社 | 番組選択装置及び番組選択方法 |
| US6397186B1 (en) | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
| ES2273870T3 (es) * | 2000-07-28 | 2007-05-16 | Koninklijke Philips Electronics N.V. | Sistema para controlar una aparato con instrucciones de voz. |
| US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
| US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
| US6845357B2 (en) * | 2001-07-24 | 2005-01-18 | Honeywell International Inc. | Pattern recognition using an observable operator model |
| WO2003017252A1 (de) * | 2001-08-13 | 2003-02-27 | Knittel, Jochen | Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge |
| KR20030034443A (ko) * | 2001-10-23 | 2003-05-09 | 삼성전자주식회사 | 음성 인식 사용자 인터페이스 제어 장치 및 방법 |
| KR20030047153A (ko) * | 2001-12-08 | 2003-06-18 | 임소영 | 음성인식을 적용한 전자 기기의 신방식 유저 인터페이스시스템 및 방법 |
| US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
| CN103679185B (zh) * | 2012-08-31 | 2017-06-16 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
| KR102392087B1 (ko) | 2017-07-10 | 2022-04-29 | 삼성전자주식회사 | 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2558682B2 (ja) * | 1987-03-13 | 1996-11-27 | 株式会社東芝 | 知的ワ−クステ−シヨン |
| DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
| US5136653A (en) * | 1988-01-11 | 1992-08-04 | Ezel, Inc. | Acoustic recognition system using accumulate power series |
| US5214745A (en) * | 1988-08-25 | 1993-05-25 | Sutherland John G | Artificial neural device utilizing phase orientation in the complex number domain to encode and decode stimulus response patterns |
| GB8908205D0 (en) * | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
| GB8911461D0 (en) * | 1989-05-18 | 1989-07-05 | Smiths Industries Plc | Temperature adaptors |
| US5086479A (en) * | 1989-06-30 | 1992-02-04 | Hitachi, Ltd. | Information processing system using neural network learning function |
| DE4031421C2 (de) * | 1989-10-05 | 1995-08-24 | Ricoh Kk | Musteranpassungssystem für eine Spracherkennungseinrichtung |
| JPH03123399A (ja) * | 1989-10-06 | 1991-05-27 | Ricoh Co Ltd | 音声認識装置 |
-
1992
- 1992-08-27 KR KR1019920015484A patent/KR100202425B1/ko not_active Expired - Fee Related
-
1993
- 1993-08-24 JP JP5209702A patent/JPH06161496A/ja active Pending
- 1993-08-26 DE DE4328752A patent/DE4328752B4/de not_active Expired - Fee Related
- 1993-08-26 US US08/112,037 patent/US5471557A/en not_active Expired - Fee Related
- 1993-08-26 FR FR9310270A patent/FR2695246B1/fr not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19705471A1 (de) * | 1997-02-13 | 1997-07-24 | Sibet Gmbh Sican Forschungs Un | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
| DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
| DE19754382A1 (de) * | 1997-12-08 | 1999-06-10 | Siemens Nixdorf Inf Syst | Gerätekombination aus Fernseh- und Rechnerteil mit Zugriff zu einem Kommunikationsnetz sowie Fernbedienung dafür |
Also Published As
| Publication number | Publication date |
|---|---|
| FR2695246B1 (fr) | 1996-06-21 |
| FR2695246A1 (fr) | 1994-03-04 |
| JPH06161496A (ja) | 1994-06-07 |
| DE4328752B4 (de) | 2004-08-05 |
| US5471557A (en) | 1995-11-28 |
| KR100202425B1 (ko) | 1999-06-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE4328752B4 (de) | Spracherkennungssystem | |
| DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
| DE68929102T2 (de) | Lernverarbeitungssystem | |
| DE69619284T3 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
| DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
| DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
| DE69226594T2 (de) | Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. | |
| DE3819178C2 (de) | ||
| DE69010722T2 (de) | Spracherkennungssystem. | |
| DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
| DE3855035T2 (de) | Mehrschichtiges Neuronalnetzwerk mit dynamischer Programmierung | |
| DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
| DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
| DE4309985A1 (de) | Geräuschreduktion zur Spracherkennung | |
| DE10030105A1 (de) | Spracherkennungseinrichtung | |
| DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
| DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
| DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
| CN119807833A (zh) | 基于时、频特征融合分类网络的复合电能质量扰动识别方法 | |
| DE112018000723T5 (de) | Aktualisierungsverwaltung für eine RPU-Anordnung | |
| DE19842405A1 (de) | Spracherkennungsverfahren mit Konfidenzmaßbewertung | |
| DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
| DE69615293T2 (de) | Lesekanal mit künstlichem neuronalen Netzwerk | |
| DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
| DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8141 | Disposal/no request for examination | ||
| 8110 | Request for examination paragraph 44 | ||
| 8125 | Change of the main classification |
Ipc: G10L 15/22 |
|
| 8170 | Reinstatement of the former position | ||
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |