DE69416670T2 - Sprachverarbeitung - Google Patents
SprachverarbeitungInfo
- Publication number
- DE69416670T2 DE69416670T2 DE69416670T DE69416670T DE69416670T2 DE 69416670 T2 DE69416670 T2 DE 69416670T2 DE 69416670 T DE69416670 T DE 69416670T DE 69416670 T DE69416670 T DE 69416670T DE 69416670 T2 DE69416670 T2 DE 69416670T2
- Authority
- DE
- Germany
- Prior art keywords
- path
- node
- vocabulary
- nodes
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Exchange Systems With Centralized Control (AREA)
- Electrophonic Musical Instruments (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf die Sprachverarbeitung und insbesondere auf ein System zur Verarbeitung alternativer Analysen von zusammenhängender Sprache.
- Die Sprachverarbeitung umfaßt die Sprechererkennung, bei der die Identität eines Sprechers erfaßt oder überprüft wird, die Spracherkennung, bei der ein System von irgendjemandem verwendet werden kann, ohne daß ein Erkennungstraining erforderlich ist, und die sogenannte sprecherabhängige Erkennung, bei der die Benutzer, die ein System bedienen können, beschränkt sind und eine Trainingsphase erforderlich ist, um von jedem zulässigen Benutzer Informationen abzuleiten. In der Sprachverarbeitung ist es üblich, Sprachdaten, typischerweise in digitaler Form, in einen sogenannten Vorfeldprozessor einzugeben, der aus dem Strom von Eingangssprachdaten einen kompakteren, wahrnehmbar signifikanten Satz von Daten ableitet, der als Vorfeldmerkmalssatz oder -vektor bezeichnet wird. Zum Beispiel wird Sprache typischerweise über ein Mikrofon eingegeben, abgetastet, digitalisiert, in Rahmen mit einer Länge von 10 bis 20 ms (z. B. mit 8 kHz abgetastet) segmentiert und für jeden Rahmen ein Satz von Koeffizienten berechnet. Bei der Spracherkennung wird normalerweise angenommen, daß der Sprecher ein Element aus einem bekannten Satz von Wörtern oder Phrasen spricht. Eine gespeicherte Darstellung des Worts oder der Phrase, als Muster oder Modell bekannt, umfaßt eine Referenzmerkmalsmatrix dieses Wortes, die im Fall der sprecherunabhängigen Erkennung im voraus von vielen Sprechern abgeleitet worden ist. Der Eingangsmerkmalsvektor wird mit dem Modell verglichen und es wird ein Maß der Ähnlichkeit zwischen den beiden erzeugt.
- Die Spracherkennung (egal ob von Mensch oder Maschine) unterliegt Fehlern und kann zur Falscherkennung von Wörtern führen. Wenn ein Wort oder eine Phrase falsch erkannt wird, kann die Spracherkennungsvorrichtung anschließend einen weiteren Erkennungsversuch anbieten, der richtig sein kann oder auch nicht.
- Es wurden verschiedene Wege zur Verarbeitung von Sprache vorgeschlagen, um die besten oder alternative Übereinstimmungen zwischen der eingegebenen Sprache und den gespeicherten Sprachmustern oder -modellen auszuwählen. In isolierten Worterkennungssystemen ist die Erzeugung alternativer Übereinstimmungen relativ einfach: jedes Wort ist ein separater "Weg" in einem Übergangsnetz, das die zu erkennenden Wörter darstellt, wobei sich die unabhängigen Wortwege nur an den Endpunkten im Netz treffen. Das Ordnen aller Wege, die das Netz bilden, hinsichtlich ihrer Ähnlichkeit bezüglich der gespeicherten Muster oder dergleichen ergibt die besten und alternative Übereinstimmungen.
- In den meisten verbundenen Erkennungssystemen und einigen isolierten Worterkennungssystemen auf der Grundlage verbundener Erkennungstechniken ist es jedoch nicht immer möglich, alle Wege am Endpunkt des Netzes zu rekombinieren, so daß weder die besten noch alternative Übereinstimmungen direkt aus den Informationen erhalten werden können, die am Ausgangspunkt des Netzes zur Verfügung stehen. Eine Lösung des Problems der Erzeugung einer besten Übereinstimmung ist beschrieben in "Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems", von S. J. Young, N. H. Russel und J. H. S. Thornton, 1989, der sich auf das Weiterleiten von Paketen an Informationen, bekannt als Tokens, durch ein Übergangsnetz bezieht. Ein Token enthält Informationen, die sich auf den durchwanderten Partialweg beziehen, sowie eine akkumulierte Punktzahl, die den Grad der Ähnlichkeit zwischen der Eingabe und dem Abschnitt des bisher verarbeiteten Netzes anzeigt.
- Wie von Young u. a. beschrieben, werden bei jeder Eingabe eines Rahmens von Sprache in ein Übergangsnetz irgendwelche Tokens, die am Eingang eines Knotens vorhanden sind, in den Knoten weitergeleitet, wobei der aktuelle Rahmen von Sprache innerhalb der diesen Knoten zugeordneten Wortmodelle verglichen wird. Am Ausgang des Knotens erscheinen dann neue Tokens (die das dem Knoten zugeordnete Modell "durchwandert" haben). Nur das Token mit der besten Punktzahl wird anschließend zu den Eingängen der folgenden Knoten weitergeleitet. Wenn das Ende der Sprache signalisiert worden ist (mittels einer externen Vorrichtung wie z. B. eines Pausendetektors), ist am Endknoten ein einzelnes Token vorhanden. Von diesem Token kann der gesamte Weg durch das Netz extrahiert werden, indem der Weg mittels der vorangehenden Weginformationen, die innerhalb des Tokens enthalten sind, zurückverfolgt wird, um die beste Übereinstimmung zur Eingangssprache zu erzeugen.
- Der Artikel "A unified direction mechanism for automatic speech recognition using Hidden Markov Models", von S. C. Austin und F. Fallside, ICASSP 1989, Bd. 1, S. 667-670, bezieht sich auf eine Spracherkennungsvorrichtung für verbundene Wörter, die in einer ähnlichen Weise arbeitet, wie von Young u. a. beschrieben worden ist. Beim Erstellen des Wortmodells wird eine Historie aktualisiert, die sich auf den Fortschritt der Erkennung durch das Übergangsnetz bezieht. Am Ende der Erkennung wird das Ergebnis von der am Ausgang präsentierten Historie abgeleitet, die die beste Punktzahl besitzt. Es ist wiederum nur eine Historie für jeden Weg möglich, der am Endknoten endet.
- Solche bekannten Anordnungen erlauben für einen gegebenen Endknoten nicht, daß einfach eine alternative Wahl am Ausgang des Netzes zur Verfügung steht.
- Gemäß der Erfindung umfaßt eine Spracherkennungsvorrichtung eine Einrichtung zum Ableiten eines Erkennungsmerkmalsvektors aus einem Eingangssprachsignal für jeden vorgegebenen Zeitrahmen; eine Einrichtung zum Modellieren der erwarteten Eingangssprache, die mehrere Vokabularknoten, von denen jeder ein zugehöriges Wortdarstellungsmodell besitzt, sowie Verknüpfungen zwischen den Vokabularknoten umfaßt; eine Verarbeitungseinrichtung zum Vergleichen der Erkennungsmerkmalsvektoren mit der modellierten Eingangssprache und zum Erkennen einer Wegverbindung für jeden Knoten und Zeitrahmen, wobei die Wegverbindungen die wahrscheinlichste vorherige Sequenz von Vokabularknoten für jeden Vokabularknoten und Zeitrahmen angeben, wobei die Wegverbindung ein Feld umfaßt zum Speichern einer akkumulierten Erkennungspunktzahl und ein Feld zum Speichern einer Referenz zur wahrscheinlichsten vorangehenden Wegverbindung in der Sequenz; und eine Einrichtung zum Anzeigen der Erkennung des Eingangssprachsignals in Abhängigkeit vom Vergleich; dadurch gekennzeichnet, daß die Verarbeitungseinrichtung (351) in einem einzigen Zeitrahmen mehr als eine Wegverbindung für wenigstens einen Vokabularknoten, der nicht der Endknoten ist, verarbeiten kann.
- Eine solche Anordnung bedeutet, daß mehr als eine ankommende Wegverbindung von einem Knoten in einem einzigen Zeitrahmen verarbeitet werden kann, und somit, daß mehr als ein Erkennungsergebnis erhalten werden kann.
- Die Modellierungseinrichtung umfaßt vorzugsweise ein Übergangsnetz, das mehrere Rauschknoten und Vokabularkno ten enthält, die den Wortdarstellungsmodellen zugeordnet sind. Die Verarbeitungseinrichtung kann Wegverbindungen für jeden Knoten erzeugen, die Felder zum Speichern eines Zeigers auf die vorangehende Wegverbindung, eine akkumulierte Punktzahl für einen Weg, einen Zeiger auf einen vorangehenden Knoten und einen Zeitindex für Segmentierungsinformationen enthält. Die Vokabularknoten, die mehr als eine in einem einzigen Zeitrahmen verarbeitete Wegverbindung besitzen können, besitzen mehr als ein identisches zugehöriges Wortdarstellungsmodell.
- Die Vorgabe, daß wenigstens einer der Vokabularknoten, der nicht der Endknoten des Netzes ist, mehr als ein zugehöriges Wortdarstellungsmodell aufweist, erlaubt dem Prozessor, mehrere Wege für den gleichen Zeitrahmen zu verarbeiten, und erlaubt somit, daß mehr als eine Wegverbindung sich an jedem Eingangsrahmen durch jede Zwischenknotenverbindung fortpflanzt. Somit erzeugt die Erfindung mehrere Schichten eines Übergangsnetzes, entlang denen sich mehrere alternative Wege fortpflanzen können. Der Weg mit der besten Punktzahl kann vom ersten Modell eines Knotens verwendet werden, während der nächstbeste vom zweiten Modell verwendet werden kann, und so weiter, bis entweder die parallelen Modelle oder die ankommenden Wege ausgehen.
- Allgemein ausgedrückt enthält ein "Netz" gerichtete azyklische Graphen (GAGs) und Bäume. Ein GAG ist ein Netz ohne Zyklen, während ein Baum ein Netz ist, bei dem das alleinige Aufeinandertreffen von Wegen konzeptionell rechts am Ende des Netzes auftritt.
- Der Ausdruck "Wort" bezeichnet hier eine Grunderkennungseinheit, die ein Wort sein kann, jedoch ebensogut ein Diphon, ein Phonem, ein Allophon und dergleichen sein kann. Die Erkennung ist der Prozeß des Vergleichens einer unbekannten Äußerung mit einem vordefinierten Übergangsnetz, wobei das Netz so ausgelegt ist, daß es zu dem kompatibel ist, was ein Benutzer wahrscheinlich sagt.
- Um die Phrase zu identifizieren, die erkannt worden ist, kann die Vorrichtung eine Einrichtung enthalten zum Zurückverfolgen der Wegverbindung durch das Netz.
- Alternativ kann die Vorrichtung ferner eine Einrichtung enthalten zum Zuweisen einer Signatur zu wenigstens einigen der Knoten, denen Wortdarstellungsmodelle zugeordnet sind, sowie eine Einrichtung zum Vergleichen der Signatur jedes Weges, um den Weg mit der besten Übereinstimmung zur Eingangssprache und denjenigen mit der zweitbesten alternativen Übereinstimmung zu ermitteln.
- Diese Anordnung erlaubt eine Alternative, die sich notwendigerweise in der Eigenschaft von der besten Übereinstimmung unterscheidet und sich nicht lediglich in der Segmentierung oder in den Rauschübereinstimmungen unterscheidet.
- Die Wortdarstellungsmodelle können Hidden-Markov-Modelle (HMMs) sein, wie in "Hidden Markov Models for automatic speech recognition: theory and application", Cox, British Telecom Technology Journal, April 1988, Bd. 6, Nr. 2, S. 105, allgemein beschrieben ist, Muster, dynamische Zeitsprungmodelle, oder irgendwelche anderen geeigneten Wortdarstellungsmodelle. Die Verarbeitung, die innerhalb eines Modells stattfindet, ist bezüglich dieser Erfindung irrelevant.
- Es ist nicht erforderlich, daß alle Knoten, die zugehörige Wortmodelle besitzen, eine ihnen zugewiesene Signatur aufweisen. In Abhängigkeit von der Struktur des Übergangsnetzes kann es ausreichen, nur denjenigen Knoten Signaturen zuzuweisen, die vor einem Entscheidungspunkt innerhalb eines Netzes erscheinen. Ein Entscheidungspunkt, wie er hier verwendet wird, bezieht sich auf einen Punkt im Netz, der mehr als einen ankommenden Weg aufweist.
- Partielle Wege können an bestimmten Entscheidungspunkten im Netz untersucht werden, wobei gewisse Einschränkungen an diesen Entscheidungspunkten auferlegt werden, so daß nur Wege verfolgt werden, die den Einschränkungen entsprechen, wie beschrieben ist in der internationalen Patentanmeldung des Anmelders, eingereicht am 31. März 1994, mit dem Titel "Connected Speech Recognition", Nr. WO/23425, veröffentlicht am 13. Oktober 1994. Jedem Entscheidungspunkt ist ein Satz von gültigen Signaturen zugeordnet, wobei alle Wegverbindungen mit Signaturen, die nicht in dem Satz enthalten sind, verworfen werden.
- Die akkumulierte Signatur kann verwendet werden, um den kompletten Weg zu identifizieren, was zu einer zusätzlichen Effizienz der Operation führt, da die Wegverbindungen nicht durchlaufen werden müssen, um die Wegidentität zu ermitteln, wobei die Partialweginformationen des Tokens letztlich nicht erzeugt werden müssen. In diesem Fall muß das Signaturfeld groß genug sein, um alle Wege eindeutig zu identifizieren.
- Für eine effiziente Operation der Vorrichtung gemäß der Erfindung wird die Signalverarbeitung der Wegsignaturen vorzugsweise in einer einzigen Operation durchgeführt, um die Verarbeitungsgeschwindigkeit zu erhöhen.
- Weitere Aspekte und bevorzugte Ausführungsformen der Erfindung sind so beschaffen, wie hier offenbart und beansprucht wird, wobei sie Vorteile aufweisen, die im folgenden deutlich werden.
- Die Erfindung wird im folgenden lediglich beispielhaft mit Bezug auf die beigefügten Zeichnungen genauer beschrieben, in welchen:
- Fig. 1 schematisch die Verwendung eines Erkennungsprozessors gemäß der Erfindung in einer Telekommunikationsumgebung zeigt;
- Fig. 2 ein Blockschaltbild zeigt, das die Funktionselemente eines Erkennungsprozessors gemäß der Erfindung schematisch zeigt;
- Fig. 3 ein Blockschaltbild ist, das die Komponenten eines Klassifiziererbildungsabschnitts der Fig. 2 schematisch zeigt;
- Fig. 4 ein Blockschaltbild ist, das die Struktur eines Sequenz-Parser-Bildungsabschnitts der Ausführungsform der Fig. 2 schematisch zeigt;
- Fig. 5 den Inhalt eines Feldes innerhalb eines Speicherbildungsabschnitts der Fig. 4 schematisch zeigt;
- Fig. 6 eine schematische Darstellung einer Ausführungsform eines Übergangsnetzes ist, das mit dem Prozessor des Sequenz-Parsers der Fig. 4 angewendet werden kann;
- Fig. 7a einen Knoten eines Netzes zeigt und Fig. 7b eine Wegverbindung zeigt, die gemäß der Erfindung verwendet wird;
- Fig. 8 bis 10 den Fortschritt der Wegverbindungen durch das Netz der Fig. 6 zeigen;
- Fig. 11 eine schematische Darstellung einer zweiten Ausführungsform eines Übergangsnetzes einer Vorrichtung gemäß der Erfindung ist;
- Fig. 12 eine schematische Darstellung einer dritten Ausführungsform eines Übergangsnetzes einer Vorrichtung gemäß der Erfindung ist.
- Wie in Fig. 1 gezeigt, umfaßt ein Telekommunikationssystem, das eine Spracherkennung enthält, ein Mikrofon 1, das typischerweise einen Teil eines Telephonhandgerätes bildet, ein Telekommunikationsnetz (typischerweise ein öffentliches vermitteltes Telekommunikationsnetz (PSTN)) 2, einen Erkennungsprozessor 3, der angeschlossen ist, um vom Netz 2 ein Sprachsignal zu empfangen, und eine Nutzungsvorrichtung 4, die mit dem Erkennungsprozessor 3 verbunden ist und dazu dient, von diesem ein Spracherkennungssignal zu empfangen, das die Erkennung anzeigt, oder andernfalls ein bestimmtes Wort oder eine Phrase anzeigt, um als Antwort hierauf eine Maßnahme zu ergreifen. Die Nutzungsvorrichtung 4 kann z. B. ein ferngesteuertes Bank-Terminal zum Durchführen von Banktransaktionen sein.
- In vielen Fällen erzeugt die Nutzungsvorrichtung 4 eine hörbare Antwort für den Sprecher, die über das Netz 2 zu einem Lautsprecher 5 übertragen wird, der typischerweise einen Teil des Teilnehmerhandgeräts bildet.
- Im Betrieb spricht der Sprecher in das Mikrofon 1, wobei ein analoges Sprachsignal vom Mikrofon 1 in das Netz 2 zum Erkennungsprozessor 3 übertragen wird, wo das Sprachsignal analysiert wird und ein Signal, das die Identifikation oder andernfalls ein bestimmtes Wort oder eine Phrase angibt, erzeugt und zur Nutzungsvorrichtung 4 übertragen wird, die anschließend eine geeignete Maßnahme im Fall der Erkennung der Sprache ergreift.
- Der Erkennungsprozessor muß typischerweise Daten annehmen, die die Sprache betreffen, mit denen er das Sprachsignal vergleicht, wobei diese Datenannahme vom Erkennungsprozessor in einer zweiten Betriebsart durchgeführt werden kann, in der der Erkennungsprozessor 3 nicht mit der Nutzungsvorrichtung 4 verbunden ist, jedoch ein Sprachsignal vom Mikrofon 1 empfängt, um die Erkennungsdaten für dieses Wort oder diese Phrase zu bilden. Es sind jedoch auch andere Verfahren zum Annehmen der Spracherkennungsdaten möglich.
- Der Erkennungsprozessor 3 ignoriert typischerweise die vom Signal vom Mikrofon 1 zum und durch das Netz 2 genommene Route; irgendeine einer großen Vielfalt von Typen und Qualitäten von Empfänger-Handgerät. In ähnlicher Weise kann innerhalb des Netzes irgendeiner einer großen Vielzahl von Übertragungswegen genommen werden, einschließlich Funkverbindungen, analoger und digitaler Wege und dergleichen. Somit entspricht das den Erkennungsprozessor 3 erreichende Sprachsignal Y dem Sprachsignal S. das am Mikrofon 1 empfangen worden ist, gefaltet mit den Übertragungseigenschaften des Mikrofons 1, der Verbindung zum Netz 2, dem Kanal durch das Netz 2 und der Verbindung zum Erkennungsprozessor 3, was zusammengefaßt und mit einer einzigen Übertragungseigenschaft H bezeichnet werden kann.
- Wie in Fig. 2 gezeigt, umfaßt der Erkennungsprozessor 3 einen Eingang 31 zum Empfangen von Sprache in digitaler Form (entweder von einem digitalen Netz oder von einem Analog/Digital-Umsetzer), einen Rahmenprozessor. 32 zum Unterteilen aufeinanderfolgender digitaler Abtastwerte in eine Folge von Rahmen zusammenhängender Abtastwerte; einen Merkmalsextrahierer 33 zum Erzeugen eines entsprechenden Merkmalsvektors aus einem Rahmen von Abtastwer ten; einen Klassifizierer 34 zum Empfangen der Folge von Merkmalsvektoren und zum Verarbeiten derselben mit mehreren Modellzuständen, um Erkennungsergebnisse zu erzeugen; einen Sequenzer 35, der so beschaffen ist, daß er die Klassifizierungsergebnisse vom Klassifizierer 34 empfängt und die vorgegebene Äußerung ermittelt, zu der die Sequenz des Klassifiziererausgangs die größte Ähnlichkeit aufweist; und einen Ausgangsanschluß 38, an dem ein Erkennungssignal ausgegeben wird, das die Sprachäußerung angibt, die erkannt worden ist.
- Der Rahmengenerator 32 ist so beschaffen, daß er Sprachabtastwerte mit einer Rate von z. B. 8000 Abtastwerten pro Sekunde empfängt und Rahmen bildet, die 256 zusammenhängende Abtastwerte umfassen, mit einer Rahmenrate von einem Rahmen in jeweils 16 ms. Jeder Rahmen ist vorzugsweise gefenstert (d. h. die Abtastwerte in Richtung zum Rand des Rahmens werden mit vorgegebenen Gewichtungskonstanten multipliziert), z. B. unter Verwendung eines Hamming-Fensters, um störende Artefakte zu reduzieren, die durch die Rahmenränder erzeugt werden. In einer bevorzugten Ausführungsform überlappen sich die Rahmen (z. B. um 50%), um die Effekte der Fensterung zu verbessern.
- Der Merkmalsextrahierer 33 empfängt die Rahmen vom Rahmengenerator 33 und erzeugt in jedem Fall einen Satz oder einen Vektor von Merkmalen. Die Merkmale können z. B. Cepstralkoeffizienten (z. B. LPC-Cepstralkoeffizienten oder mel-Frequenz-Cepstralkoeffizienten, wie beschrieben ist in "On the Evaluation of Speech Recognizers and Dadabases using a Reference System", Chollet & Gagnoulet, 1982, Proc. IEEE, S. 2026) oder Differentialwerte solcher Koeffizienten, die für jeden Koeffizienten die Differenzen zwischen dem Koeffizienten und dem entsprechenden Koeffizientenwert im vorangehenden Vektor umfassen, wie beschrieben ist in "On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition", Soong & Rosenberg, 1988, IEEE Trans. on Acoustics, Speech and Signal Processing, Bd. 36, Nr. 6, S. 871. Gleichermaßen kann eine Mischung mehrerer Typen von Merkmalskoeffizienten verwendet werden.
- Der Merkmalsextrahierer 33 gibt eine Rahmennummer aus, die für jeden aufeinanderfolgenden Rahmen inkrementiert wird. Der Ausgang des Merkmalsextrahierers 33 wird ferner zu einem Ende-Zeiger 36 weitergeleitet, dessen Ausgang mit dem Klassifizierer 34 verbunden ist. Der Ende-Zeiger 36 erfaßt das Ende der Sprache, wobei verschieden Typen auf diesem Gebiet bekannt sind.
- Der Rahmengenerator 32 und der Merkmalsextrahierer 33 werden in dieser Ausführungsform von einer einzelnen, geeignet programmierten Digitalsignalprozessor-(DSP)- Vorrichtung gebildet (wie z. B. dem Motorola DSP 56000 oder dem Texas Instruments TMS C 320) oder einer ähnlichen Vorrichtung.
- Wie in Fig. 3 gezeigt, umfaßt der Klassifizierer 34 in dieser Ausführungsform einen Klassifizierungsprozessor 341 und einen Zustandsspeicher 342.
- Der Zustandsspeicher 342 umfaßt ein Statusfeld 3421, 3422, für jeden der mehreren Sprachzustände. Zum Beispiel umfaßt jedes vom Erkennungsprozessor zu erkennende Allophon drei Zustände, wobei dementsprechend drei Zustandsfelder im Zustandsspeicher 342 für jedes Allophon vorgesehen sind.
- Der Klassifizierungsprozessor 34 ist so beschaffen, daß er jedes Statusfeld innerhalb des Speichers 342 der Reihe nach liest und für jedes unter Verwendung des aktuellen Eingangsmerkmalskoeffizientensatzes die Wahrscheinlichkeit berechnet, daß der Eingangsmerkmalssatz oder Vektor dem entsprechenden Zustand entspricht.
- Dementsprechend umfaßt die Ausgabe des Klassifizierungsprozessors mehrere Zustandswahrscheinlichkeiten P, eine für jeden Zustand im Zustandsspeicher 342, die die Wahrscheinlichkeit angeben, das der Eingangsmerkmalsvektor dem jeweiligen Zustand entspricht.
- Der Klassifizierungsprozessor 341 kann eine geeignet programmierte Digitalsignalverarbeitungs-(DSP)-Vorrichtung sein, und kann insbesondere die gleiche Digitalsignalverarbeitungsvorrichtung sein wie der Merkmalsextrahierer 33.
- Wie in Fig. 4 gezeigt, umfaßt der Sequenzer 35 in dieser Ausführungsform einen Zustandssequenzspeicher 352, einen Parser-Prozessor 351 und einen Sequenzerausgangspuffer 354.
- Ferner ist ein Zustandswahrscheinlichkeitsspeicher 353 vorgesehen, der für jeden verarbeiteten Rahmen die vom Klassifizierungsprozessor 341 ausgegebenen Zustandswahrscheinlichkeiten speichert. Der Zustandssequenzspeicher 352 umfaßt mehrere Zustandssequenzfelder 3521, 3522, ...., die jeweils einem Wort oder einer zu erkennenden Phrasensequenz entspricht, die aus einer Kette von Allophonen besteht.
- Jede Zustandssequenz im Zustandssequenzspeicher 352 umfaßt, wie in Fig. 5 gezeigt, mehrere Zustände P&sub1;, P&sub2;, ... PN (wobei N ein Vielfaches von 3 ist) und für jeden Zustand zwei Wahrscheinlichkeiten; eine Wiederholungswahrscheinlichkeit (Pi1) und eine Übergangswahrscheinlichkeit zum folgenden Zustand (Pi2). Die Zustände der Sequenz sind mehrere Gruppen von drei Zuständen, die sich jeweils auf ein einzelnes Allophon beziehen. Die beobachtete Sequenz von Zuständen, die einer Serie von Rahmen zugeordnet ist, kann somit mehrere Wiederholungen für jeden Zustand Pi in jedem Zustandssequenzmodell 3521 usw. umfassen, zum Beispiel:
- Der Parserprozessor 351 ist so beschaffen, daß er bei jedem Rahmen die vom Klassifizierungsprozessor 341 ausgegebenen Zustandswahrscheinlichkeiten und die vorher gespeicherten Zustandswahrscheinlichkeiten im Zustandswahrscheinlichkeitsspeicher 353 liest und den wahrscheinlichsten Weg von Zuständen bis heute über die Zeit berechnet und diesen mit jedem der im Zustandssequenzspeicher 352 gespeicherten Zustandssequenzen vergleicht.
- Die Berechnung verwendet dazu wohlbekannte HMMs, wie im obengenannten Cox-Papier beschrieben worden ist. Die vom Parserprozessor 351 durchgeführte HMM-Verarbeitung verwendet günstigerweise den wohlbekannten Viterbi-Algorithmus. Der Parserprozessor 351 kann z. B. ein Mikroprozessor sein, wie z. B. der Mikroprozessor Intel(TM) i-486(TM) oder der Mikroprozessor Motorola(TM) 68000, oder kann alternativ eine DSP-Vorrichtung sein (z. B. die gleiche DSP-Vorrichtung, die für irgendeinen der vorangehenden Prozessoren verwendet wird).
- Dementsprechend wird für jede Zustandssequenz (die einem Wort, einer Phrase oder einer anderen zu erkennenden Sprachsequenz entspricht) eine Wahrscheinlichkeitspunktezahl vom Parserprozessor 351 bei jedem Rahmen der Eingangssprache ausgegeben. Zum Beispiel können die Zustandssequenzen die Namen in einem Telephonverzeichnis enthalten. Wenn das Ende der Äußerung erfaßt wird, wird ein Etikettensignal, das die wahrscheinlichste Zustandssequenz angibt, vom Parserprozessor 351 zum Ausgangsanschluß 38 ausgegeben, um anzuzeigen, daß der entsprechende Name, das Wort oder die Phrase erkannt worden ist.
- Der Parserprozessor 351 umfaßt ein Netz, das speziell konfiguriert ist, um bestimmte Phrasen oder Wörter wie z. B. eine Kette von Ziffern zu erkennen.
- Die Fig. 6 zeigt ein einfaches Netz zum Erkennen einer Kette von Wörtern, in diesem Fall entweder eine Kette von vier Wörtern oder eine Kette von drei Wörtern. Jedem Knoten 12 des Netzes ist ein Wortdarstellungsmodell 13, z. B. ein HMM, zugeordnet, das in einer Modelliste gespeichert ist. Jedem Modell können mehrere Knoten zugeordnet sein, wobei jeder Knoten einen Zeiger auf dessen zugehöriges Modell besitzt (wie in den Fig. 6 und 7a gezeigt). Um eine beste Übereinstimmung und eine einzelne alternative Phrase zu erzeugen, sind dem letzten Knoten 14 zwei Modelle zugeordnet, so daß dieser Knoten zwei Wege verarbeiten kann. Wenn n Analysen benötigt werden, werden dem letzten Knoten 14 des Netzes n identische Wortmodelle zugeordnet.
- Wie in Fig. 7b gezeigt, enthält eine Wegverbindung 15 Informationen über einen Zeiger auf die vorangehende Wegverbindung, einen akkumulierten Punktewert, einen Zeiger auf den vorher erzeugten Knoten und einen Zeitindex. Am Beginn einer Äußerung wird eine leere Wegverbindung 15' in den ersten Knoten 16 eingesetzt, wie in Fig. 8 gezeigt ist. Der erste Knoten enthält nun eine Wegverbindung und ist somit aktiv, während die restlichen Knoten inaktiv sind. Bei jedem Taktwechsel (d. h. bei jedem ankommenden Rahmen der Sprache) akkumulieren irgendwelche aktiven Knoten einen Punktewert in ihrer Wegverbindung.
- Wenn das erste Modell mit z. B. einem Minimum von sieben Rahmen an Sprache übereinstimmt, wird beim siebten Taktimpuls eine Wegverbindung 15" aus dem ersten Knoten mit dem Punktewert für die Übereinstimmung der sieben Rahmen mit dem Modell und Zeigern auf die Eingangswegverbindung und den gerade verglichenen Knoten ausgegeben. Die Wegverbindung wird allen folgenden Knoten 15 eingegeben, wie in Fig. 9 gezeigt ist. Nun sind die ersten drei Knoten aktiv. Der Eingangsrahmen der Sprache wird anschließend in den Modellen verglichen, die den aktiven Knoten zugeordnet sind, und es werden neue Wegverbindungen ausgegeben.
- Diese Verarbeitung wird fortgesetzt, wobei der erste Knoten 16 weitere Wegverbindungen erzeugt, wenn sein Modell mit zunehmend längeren Abschnitten der Äußerung übereinstimmt, wobei die nachfolgenden Knoten ähnliche Berechnungen durchführen.
- Wenn die Eingangssprache bis zum letzten Knoten 18 des Netzes verarbeitet worden ist, können die Wegverbindungen von jedem "Zweig" des Netzes zu diesem Knoten 18 dargestellt werden. Wenn zu irgendeinem gegebenen Zeitrahmen eine einzelne Wegverbindung besteht (d. h. nur einer der parallelen Wege ist vollständig), wird diese Wegverbindung als die beste (und einzige) Übereinstimmung genommen und vom letzten Knoten 18 verarbeitet. Wenn jedoch zwei Wegverbindungen am letzten Knoten 18 vorhanden sind, werden von diesem Knoten beide verarbeitet, da der letzte Knoten 18 mehr als einen Weg verarbeiten kann. Die ausgegebenen Wegverbindungen werden kontinuierlich bei jedem Rahmen der Sprache aktualisiert. Wenn die Äußerung abgeschlossen ist, gibt es zwei Wegverbindungen 15''' am Ausgang des Netzes, wie in Fig. 10 gezeigt ist (von denen die Zeiger auf vorangehende Wegverbindungen und Knoten der Klarheit halber weggelassen sind).
- Der vollständige Weg kann gefunden werden durch verfolgen der Zeiger zu den vorangehenden Wegverbindungen, wobei die Knoten auf dem erkannten Weg (und somit die anscheinend erkannte Eingangssprache) identifiziert werden können durch Betrachten der Zeiger auf die erregten Knoten.
- Die Fig. 11 zeigt eine zweite Ausführungsform eines Netzes, das für die Erkennung von Ketten von drei Ziffern konfiguriert ist. Die grauen Knoten 22 sind Null-Knoten im Netz; die weißen Knoten sind aktive Knoten, die in Vokabularknoten 24 mit zugehörigen (nicht gezeigten) Wortdarstellungsmodellen zum Vergleichen ankommender Sprache und Rauschknoten 25, die willkürliches Rauschen darstellen, unterteilt werden können.
- Wenn alle aktiven Knoten 24, 25 nach und einschließlich des dritten Nullknotens 22' jeweils drei Wege für jeden Zeitrahmen besitzen können (d. h. jedem Vokabularknoten 24 sind drei Wortdarstellungsmodelle zugeordnet), umfaßt der Ausgang des Netzes Wegverbindungen, die sich auf die drei obersten Punktwertwege des Systems beziehen. Wie mit Bezug auf die Fig. 8 bis 10 beschrieben worden ist, können die drei Wege gefunden werden durch Verfolgen der Zeiger zur vorangehenden Wegverbindung für jeden Weg. Die Knoten auf den Wegen (und somit die anscheinend erkannte Eingangssprache) können identifiziert werden durch Betrachten der Zeiger zu den erregten Knoten.
- In einer Weiterentwicklung der Erfindung können die Wegverbindungen mit Signaturen versehen sein, die die signifikanten Knoten des Netzes darstellen. Diese signifikanten Knoten können z. B. alle Vokabularknoten 24 umfassen. In der Ausführungsform der Fig. 11 ist jedem Vokabularknoten 24 eine Signatur zugewiesen, z. B. ist den Knoten, die die Ziffer 1 darstellen, eine Signatur "1" zugewiesen, während den Knoten 24", die die Ziffer 2 darstellen, eine Signatur "2" zugewiesen ist, und so weiter.
- Am Beginn der Prüfung wird eine einzelne leere Wegverbindung in einen Netzeingangsknoten 26 eingegeben. Da dies ein Null-Knoten ist, wird die Wegverbindung zum nächsten. Knoten, einem Rauschknoten 25, weitergeleitet. Der Eingangsrahmen wird im (nicht gezeigten) Rauschmodell dieses Knotens verglichen, wobei am Ausgang eine aktualisierte Wegverbindung erzeugt wird. Diese Wegverbindung wird anschließend zu den nächsten aktiven Knoten weitergeleitet, d. h. zu den ersten Vokabularknoten 24 mit einem zugehörigen Modell (nicht gezeigt). Jeder Vokabularknoten 24 verarbeitet den Rahmen der Sprache in seinem zugehörigem Wortmodell und erzeugt eine aktualisierte Wegverbindung. Das Signaturfeld der Wegverbindung wird ebenfalls aktualisiert. Am Ende jedes Zeitrahmens werden die aktualisierten Wegverbindungen sortiert, um die drei (n) obersten Punktwertwege zu erhalten, die unterschiedliche Signaturfelder besitzen. Eine anhand des Punktwerts geordnete Liste wird erhalten, mit der zusätzlichen Einschränkung, daß akkumulierte Signaturen eindeutig sind: wenn eine zweite Wegverbindung mit der gleichen Signatur eintritt, wird die bessere der beiden gehalten. Die Liste enthält nur die oberen "n" unterschiedlichen Wege, wobei der Rest ignoriert wird.
- Die n Wegverbindungen pflanzen sich durch den nächsten Nullknoten 22' zum folgenden Rauschknoten 25 und den Vokabularknoten 24" fort, von denen jedem drei identische Wortdarstellungsmodelle zugeordnet sind. Anschließend findet die Modellverarbeitung statt, was zur Aktualisierung der Listen von Wegverbindungen und zum Erweitern der Wege in die weiteren Knoten 24''', 25 führt. Es ist klär, daß die Signaturfelder der Wegverbindungen nach der Verarbeitung durch die Null-Knoten 22 oder die Rauschknoten 25 nicht aktualisiert werden, da diese Knoten keine zugewiesenen Signaturen besitzen.
- Die Wegverbindungen pflanzen sich entlang der Wege fort, die durch die restlichen aktiven Knoten führen, um an einem Ausgangsknoten 28 bis zu drei Wegverbindungen zu erzeugen, die die relativen Punktewerte und Signaturen, z. B. 1 2 1, der durch das Netz genommenen Wege anzeigen. Die Wegverbindungen werden kontinuierlich aktualisiert, bis das Ende der Sprache erfaßt wird (z. B. mittels einer externen Vorrichtung wie z. B. eines Pausendetektors, oder bis eine Zeitüberschreitung erreicht wird). An diesem Punkt werden die Zeiger oder die akkumulierten Signaturen der Wegverbindungen am Ausgangsknoten 28 untersucht, um die Erkennungsergebnisse zu ermitteln.
- Unter der Annahme, daß die folgenden drei Wegverbindungen am Ausgangsknoten 28 zu einem bestimmten Zeitpunkt vorliegen:
- PUNKTEWERT SIGNATUR
- A 10 1 2 2
- B 9 1 2 2
- C 7 1 3 2
- ist z. B. der Weg A, der Weg mit der höchsten Punktzahl, die beste Übereinstimmung. Obwohl der Weg B die zweitbeste Punktezahl aufweist, wird er jedoch als eine alternative Analyse verworfen, da seine Signatur und somit die anscheinend erkannte Sprache die gleiche ist wie im Weg A. Der Weg C würde somit als die zweitbeste Analyse gehalten.
- Wenn die zu erkennenden Ketten mehr Struktur als oben beschrieben besitzen, z. B. buchstabierte Namen, müssen nur den Knoten unmittelbar vor Entscheidungspunkten Signaturen zugewiesen sein, statt jedem Vokabularknoten. Die Fig. 12 zeigt ein Netz zum Erkennen der Buchstabierung der Namen "Phil", "Paul" und "Peter". Der Einfachheit halber ist kein Rauschen gezeigt. Die quadratischen Knoten 44 zeigen, wo die Signatur angeordnet werden sollte.
- Das System kann zwischen den Wegen "PHI" und "PAU" am Knoten "L" unterscheiden, da die Signaturen der Wegverbindungen, die an den vorangehenden Knoten erzeugt worden sind, unterschiedlich sind. Der folgende Knoten 47 ist fähig, zwischen allen drei unabhängigen Wegen zu unterscheiden, da sich die Signaturen der quadratischen Knoten 44 unterscheiden. Nur dem Knoten "L" und dem letzten Rauschknoten 48 müssen mehr als ein identisches Wortmodell zugewiesen werden, so daß diese Modelle mehr als einen Weg für einen einzelnen Zeitrahmen besitzen können.
- In allen Fällen erfordert jedes Netz, das die zu erkennende Sprache darstellt, eine Analyse, um zu ermitteln, welchen Knoten Signaturen zugewiesen werden müssen. Außerdem ist das Netz so konfiguriert, daß es zu dem kompatibel ist, was ein Benutzer wahrscheinlich sagt.
- Einsparungen in der Speichergröße und der Verarbeitungsgeschwindigkeit können erreicht werden durch Beschränken der Signaturen, die ein Knoten weitergibt. Zum Beispiel sei die einzige gültige Eingangssprache für eine Erkennungsvorrichtung mit dem Netz der Fig. 6 die Gruppe aus vier aufeinanderfolgenden Zahlen von: 111, 112, 121, 211. Bestimmten Knoten innerhalb des Netzes ist ein Satz von gültigen Signaturen zugewiesen, wobei sich ein Weg durch einen "beschränkten" Knoten nur fortpflanzt, wenn eine Wegverbindung mit einer dieser Signaturen vorhanden ist. Um dies zu erreichen, werden die Signaturfelder der Wegverbindungen, die in einen beschränkten Knoten eintreten, z. B. den dritten Null-Knoten 22', untersucht. Wenn das Signaturfeld eine andere Signatur als 1 oder 2 enthält, wird die Wegverbindung verworfen und der Weg pflanzt sich nicht weiter fort. Wenn eine zulässige Wegverbindung dargestellt wird, wird sie zum nächsten Knoten weitergereicht. Der nächste beschränkte Knoten ist der Null-Knoten 22" nach den nächsten Vokabularknoten. Dieser Null-Knoten ist beschränkt auf nur die Ausbreitung von Wegverbindungen mit einer Signatur 11, 12 oder 21. Der Null-Knoten 22''' nach den nächsten Vokabularknoten ist beschränkt auf nur die Ausbreitung der Wegverbindungen mit der Signatur 111, 112, 121 oder 211. Eine solche Anordnung reduziert die erforderliche Verarbeitung erheblich und erlaubt eine Einsparung der Speicherkapazität der Vorrichtung. Nur einige der Knoten an den Entscheidungspunkten im Netz müssen so beschränkt sein. In der Praxis hat sich eine 32-Bit-Signatur als für Sequenzen von bis zu neun Ziffern geeignet erwiesen. Eine 64-Bit- Signatur erscheint geeignet für eine alphanumerische 12- Zeichen-Kette.
- Das Ende der Spracherfassung und verschiedene andere Aspekte der Spracherkennung, die für die vorliegende Erfindung relevant sind, sind vollständiger ausgeführt in der internationalen Patentanmeldung des Anmelders, eingereicht am 25. März 1994, mit dem Titel "Speech Recognition", Nr. WO 94/22131, veröffentlicht am 29. September 1994.
- In den obenbeschriebenen Ausführungsformen wurde eine Erkennungsverarbeitungsvorrichtung beschrieben, die mit einer Telekommunikationsvermittlung verbunden werden kann. In einer weiteren Ausführungsform kann die Erfindung jedoch auf einer einfachen Vorrichtung ausgeführt werden, die mit einer herkömmlichen Teilnehmerstation (mobil oder fest) verbunden ist, welche mit dem Telephonnetz verbunden ist; in diesem Fall kann eine Analog/Digital-Umsetzungseinrichtung vorgesehen sein, um das ankommende analoge Telephonsignal zu digitalisieren.
Claims (19)
1. Spracherkennungssystem, mit:
einer Einrichtung zum Ableiten eines
Erkennungsmerkmalsvektors aus einem eingegebenen Sprachsignal für
jeden vorgegebenen Zeitrahmen;
einer Einrichtung zum Modellieren einer
erwarteten eingegebenen Sprache, die mehrere Vokabularknoten
enthält, wovon jeder ein zugeordnetes
Wortdarstellungsmodell besitzt, das seinerseits Verbindungen zwischen den
Vokabularknoten aufweist;
einer Verarbeitungseinrichtung zum Vergleichen
der Erkennungsmerkmalsvektoren mit der modellierten
eingegebenen Sprache und zum Erzeugen einer Wegverbindung
für jeden Knoten und jeden Zeitrahmen, wobei die
Wegverbindungen die wahrscheinlichste vorhergehende Sequenz von
Vokabularknoten für jeden Vokabularknoten und jeden
Zeitrahmen angeben, wobei jede Wegverbindung ein Feld zum
Speichern einer akkumulierten Erkennungstrefferliste und
ein Feld zum Speichern einer Bezugnahme auf die
wahrscheinlichste vorhergehende Wegverbindung in der Sequenz
enthält; und
einer Einrichtung, die die Erkennung des
eingegebenen Sprachsignals in Abhängigkeit vom Vergleich angibt;
dadurch gekennzeichnet, daß die
Verarbeitungseinrichtung (351) in einem einzigen Zeitrahmen mehr als eine
Wegverbindung für wenigstens einen vom Endknoten
verschiedenen Vokabularknoten verarbeiten kann.
2. Spracherkennungsvorrichtung nach Anspruch 1,
dadurch gekennzeichnet, daß der wenigstens eine der
Vokabularknoten mehr als einem identischen
Wortdarstellungsmodell zugeordnet ist.
3. Spracherkennungsvorrichtung nach Anspruch 2,
dadurch gekennzeichnet, daß die Wortdarstellungsmodelle
Hidden-Markow-Modelle sind.
4. Spracherkennungsvorrichtung nach irgendeinem der
Ansprüche 1, 2 oder 3, dadurch gekennzeichnet, daß
sämtliche Vokabularknoten ihnen zugewiesene Signaturen
besitzen.
5. Spracherkennungsvorrichtung nach irgendeinem der
Ansprüche 1, 2 oder 3, dadurch gekennzeichnet, daß nur
diejenigen Vokabularknoten, die vor einem
Entscheidungspunkt auftreten, ihnen zugewiesene Signaturen besitzen.
6. Spracherkennungsvorrichtung nach Anspruch 4 oder
Anspruch 5, dadurch gekennzeichnet, daß die
Wegverbindungen eine akkumulierte Signatur enthalten.
7. Spracherkennungsvorrichtung nach irgendeinem der
Ansprüche 4, 5, oder 6, dadurch gekennzeichnet, daß
wenigstens einige der Knoten in der Weise beschränkt
sind, daß von ihnen nur Wegverbindungen mit bestimmten
vorgegebenen Signaturen ausgehen.
8. Spracherkennungsvorrichtung nach irgendeinem der
Ansprüche 4 bis 7, dadurch gekennzeichnet, daß die
Erkennungsangabeeinrichtung eine Einrichtung zum Vergleichen
der Trefferliste und der Signatur der Wegverbindungen
enthält, um den Weg mit der besten Übereinstimmung mit
der eingangsseitigen Sprache und jene Wege mit den
nächstbesten alternativen Übereinstimmungen zu bestimmen.
9. Verfahren zur Spracherkennung, enthaltend:
Ableiten eines Erkennungsmerkmalsvektors aus
einem eingegebenen Sprachsignal für jeden vorgegebenen
Zeitrahmen;
Modellieren einer erwarteten Eingangssprache;
Vergleichen der Merkmalsdaten mit der
modellierten Eingangssprache durch Erzeugen eines Netzes, das
mehrere Vokabularknoten enthält, denen
Wortdarstellungsmodelle zugeordnet sind, und durch Erzeugen einer
Wegverbindung für jeden Knoten und jeden Zeitrahmen, wobei die
Wegverbindung die wahrscheinlichste vorhergehende Sequenz
aus Vokabularknoten für jeden Vokabularknoten und jeden
Zeitrahmen angibt, wobei jede Wegverbindung ein Feld zum
Speichern einer akkumulierten Erkennungstrefferliste und
ein Feld zum Speichern einer Bezugnahme auf die
wahrscheinlichste vorhergehende Wegverbindung in der Sequenz
enthält;
Angeben einer Erkennung der Sprache in
Abhängigkeit vom Vergleich,
dadurch gekennzeichnet, daß in einem einzigen
Zeitrahmen mehr als eine Wegverbindung für wenigstens
einen von dem Endknoten verschiedenen Vokabularknoten
verarbeitet werden.
10. Verfahren nach Anspruch 9, dadurch
gekennzeichnet, daß dem wenigstens einen Vokabularknoten mehr als
ein identisches Wortdarstellungsmodell zugeordnet ist.
11. Verfahren nach Anspruch 10, dadurch
gekennzeichnet, daß dem wenigstens einem Vokabularknoten eine Anzahl
identischer Wortdarstellungsmodelle zugeordnet ist, die
gleich der Anzahl der gewünschten Erkennungsergebnisse
ist.
12. Verfahren nach irgendeinem der Ansprüche 10 oder
11, dadurch gekennzeichnet, daß die Trefferlisten der
Wegverbindungen mit jedem Entscheidungspunkt des Netzes
verglichen werden, wobei nur die Wegverbindungen mit
bester Trefferliste zu dem/den nächsten Knoten
fortgeführt werden.
13. Verfahren nach irgendeinem der Ansprüche 10, 11
oder 12, gekennzeichnet durch die Zuweisung von
Signaturen an sämtliche Vokabularknoten.
14. Verfahren nach irgendeinem der Ansprüche 10, 11
oder 12, dadurch gekennzeichnet, daß lediglich denjenigen
Vokabularknoten, die vor einem Entscheidungspunkt im Netz
auftreten, Signaturen zugewiesen werden.
15. Verfahren nach irgendeinem der Ansprüche 13 oder
14 in Verbindung mit Anspruch 12, dadurch gekennzeichnet,
daß die Signaturen der Wegverbindungen ebenfalls
verglichen werden, wobei nur Wegverbindungen mit
unterschiedlichen Signaturen zu dem/den nächsten Knoten fortgeführt
werden.
16. Verfahren nach irgendeinem der Ansprüche 13, 14
oder 15, gekennzeichnet durch die Beschränkung wenigstens
einiger Knoten in der Weise, daß sie nur Wegverbindungen
mit bestimmten vorgegebenen Signaturen in ihren
Signaturfeldern weiterleiten.
17. Verfahren nach irgendeinem der Ansprüche 9 bis
16, dadurch gekennzeichnet, daß das eingegebene
Sprachsignal, das erkannt werden soll, durch Zurückverfolgen der
Wegverbindungen durch das Netz bestimmt wird.
18. Verfahren nach irgendeinem der Ansprüche 13 bis
16, dadurch gekennzeichnet, daß das eingegebene
Sprachsignal, das erkannt werden soll, durch die akkumulierte
Signatur jeder Wegverbindung bestimmt wird.
19. Verfahren nach irgendeinem der Ansprüche 10 bis
18, dadurch gekennzeichnet, daß die Wegverbindung mit
bester Trefferliste durch das erste
Wortdarstellungsmodell eines Vokabularknotens verarbeitet wird, die
nächstbeste durch das zweite u. s. w., bis entweder parallele
Modelle oder ankommende Wegverbindung ausgehen.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP93302538 | 1993-03-31 | ||
| EP93304993 | 1993-06-25 | ||
| PCT/GB1994/000704 WO1994023424A1 (en) | 1993-03-31 | 1994-03-31 | Speech processing |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69416670D1 DE69416670D1 (de) | 1999-04-01 |
| DE69416670T2 true DE69416670T2 (de) | 1999-06-24 |
Family
ID=26134252
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69416670T Expired - Lifetime DE69416670T2 (de) | 1993-03-31 | 1994-03-31 | Sprachverarbeitung |
Country Status (11)
| Country | Link |
|---|---|
| JP (1) | JPH08508350A (de) |
| KR (1) | KR100309205B1 (de) |
| CN (1) | CN1196104C (de) |
| AU (1) | AU682177B2 (de) |
| CA (1) | CA2158064C (de) |
| DE (1) | DE69416670T2 (de) |
| FI (1) | FI954572A7 (de) |
| NO (1) | NO308756B1 (de) |
| NZ (1) | NZ263223A (de) |
| SG (1) | SG47716A1 (de) |
| WO (1) | WO1994023424A1 (de) |
Families Citing this family (29)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| ATE179543T1 (de) * | 1995-03-07 | 1999-05-15 | Siemens Ag | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird |
| US7117149B1 (en) | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
| US7725315B2 (en) | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
| US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
| US7885420B2 (en) | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
| US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
| US7895036B2 (en) | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
| US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
| US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
| US7610196B2 (en) | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
| US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
| US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
| US7716046B2 (en) | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
| US8543390B2 (en) | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
| US8306821B2 (en) | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
| US8170879B2 (en) | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
| US8284947B2 (en) | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
| US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
| US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
| US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
| US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
| US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
| US8335685B2 (en) | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
| US8904400B2 (en) | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
| US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
| US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
| US8209514B2 (en) | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
| CN103035243B (zh) * | 2012-12-18 | 2014-12-24 | 中国科学院自动化研究所 | 长语音连续识别及识别结果实时反馈方法和系统 |
| CN105913848A (zh) * | 2016-04-13 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种基于最小堆的路径存储方法、系统和语音识别器 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
| DE3750199T2 (de) * | 1986-06-02 | 1995-01-19 | Motorola Inc | System zur Erkennung kontinuierlicher Sprache. |
| US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
-
1994
- 1994-03-31 FI FI954572A patent/FI954572A7/fi unknown
- 1994-03-31 NZ NZ263223A patent/NZ263223A/en unknown
- 1994-03-31 SG SG1996004023A patent/SG47716A1/en unknown
- 1994-03-31 WO PCT/GB1994/000704 patent/WO1994023424A1/en not_active Ceased
- 1994-03-31 CN CNB941916529A patent/CN1196104C/zh not_active Expired - Lifetime
- 1994-03-31 DE DE69416670T patent/DE69416670T2/de not_active Expired - Lifetime
- 1994-03-31 JP JP6521853A patent/JPH08508350A/ja not_active Ceased
- 1994-03-31 CA CA002158064A patent/CA2158064C/en not_active Expired - Lifetime
- 1994-03-31 KR KR1019950704196A patent/KR100309205B1/ko not_active Expired - Lifetime
- 1994-03-31 AU AU63829/94A patent/AU682177B2/en not_active Expired
-
1995
- 1995-09-29 NO NO953895A patent/NO308756B1/no not_active IP Right Cessation
Also Published As
| Publication number | Publication date |
|---|---|
| CN1120372A (zh) | 1996-04-10 |
| FI954572L (fi) | 1995-09-27 |
| JPH08508350A (ja) | 1996-09-03 |
| NZ263223A (en) | 1997-11-24 |
| CA2158064A1 (en) | 1994-10-13 |
| FI954572A0 (fi) | 1995-09-27 |
| WO1994023424A1 (en) | 1994-10-13 |
| AU6382994A (en) | 1994-10-24 |
| AU682177B2 (en) | 1997-09-25 |
| SG47716A1 (en) | 1998-04-17 |
| NO953895D0 (no) | 1995-09-29 |
| NO308756B1 (no) | 2000-10-23 |
| KR100309205B1 (ko) | 2001-12-17 |
| CA2158064C (en) | 2000-10-17 |
| FI954572A7 (fi) | 1995-09-27 |
| HK1014390A1 (en) | 1999-09-24 |
| CN1196104C (zh) | 2005-04-06 |
| NO953895L (no) | 1995-11-28 |
| DE69416670D1 (de) | 1999-04-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69416670T2 (de) | Sprachverarbeitung | |
| DE69421077T2 (de) | Wortkettenerkennung | |
| DE69705830T2 (de) | Sprachverarbeitung | |
| DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
| DE69514382T2 (de) | Spracherkennung | |
| DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
| DE3876379T2 (de) | Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem. | |
| DE69518723T2 (de) | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen | |
| DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
| DE3878541T2 (de) | Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen. | |
| DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
| DE69422097T2 (de) | Training von kombinierten Kettenmodellen mit minimaler Fehlerrate | |
| DE69620324T2 (de) | Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern | |
| DE102007015497B4 (de) | Spracherkennungsvorrichtung und Spracherkennungsprogramm | |
| DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
| DE69225173T2 (de) | Spracherkennungsgerät | |
| DE102008017993B4 (de) | Sprachsuchvorrichtung | |
| DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
| DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
| DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
| DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
| DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
| DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
| EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
| DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8327 | Change in the person/name/address of the patent owner |
Owner name: CISCO TECHNOLOGY, INC., SAN JOSE, CALIF., US |
|
| 8328 | Change in the person/name/address of the agent |
Representative=s name: BOSCH, GRAF VON STOSCH, JEHLE PATENTANWALTSGESELLS |
|
| 8328 | Change in the person/name/address of the agent |
Representative=s name: BOSCH JEHLE PATENTANWALTSGESELLSCHAFT MBH, 80639 M |