DE69416670T2

DE69416670T2 - Sprachverarbeitung

Info

Publication number: DE69416670T2
Application number: DE69416670T
Authority: DE
Inventors: Samuel Gavin Felixstowe Suffolk Ip11 8Ua Smyth
Original assignee: British Telecommunications PLC
Current assignee: Cisco Technology Inc
Priority date: 1993-03-31
Filing date: 1994-03-31
Publication date: 1999-06-24
Anticipated expiration: 2014-04-01
Also published as: CN1120372A; FI954572L; JPH08508350A; NZ263223A; CA2158064A1; FI954572A0; WO1994023424A1; AU6382994A; AU682177B2; SG47716A1; NO953895D0; NO308756B1; KR100309205B1; CA2158064C; FI954572A7; HK1014390A1; CN1196104C; NO953895L; DE69416670D1

Description

Die vorliegende Erfindung bezieht sich auf die Sprachverarbeitung und insbesondere auf ein System zur Verarbeitung alternativer Analysen von zusammenhängender Sprache.
Die Sprachverarbeitung umfaßt die Sprechererkennung, bei der die Identität eines Sprechers erfaßt oder überprüft wird, die Spracherkennung, bei der ein System von irgendjemandem verwendet werden kann, ohne daß ein Erkennungstraining erforderlich ist, und die sogenannte sprecherabhängige Erkennung, bei der die Benutzer, die ein System bedienen können, beschränkt sind und eine Trainingsphase erforderlich ist, um von jedem zulässigen Benutzer Informationen abzuleiten. In der Sprachverarbeitung ist es üblich, Sprachdaten, typischerweise in digitaler Form, in einen sogenannten Vorfeldprozessor einzugeben, der aus dem Strom von Eingangssprachdaten einen kompakteren, wahrnehmbar signifikanten Satz von Daten ableitet, der als Vorfeldmerkmalssatz oder -vektor bezeichnet wird. Zum Beispiel wird Sprache typischerweise über ein Mikrofon eingegeben, abgetastet, digitalisiert, in Rahmen mit einer Länge von 10 bis 20 ms (z. B. mit 8 kHz abgetastet) segmentiert und für jeden Rahmen ein Satz von Koeffizienten berechnet. Bei der Spracherkennung wird normalerweise angenommen, daß der Sprecher ein Element aus einem bekannten Satz von Wörtern oder Phrasen spricht. Eine gespeicherte Darstellung des Worts oder der Phrase, als Muster oder Modell bekannt, umfaßt eine Referenzmerkmalsmatrix dieses Wortes, die im Fall der sprecherunabhängigen Erkennung im voraus von vielen Sprechern abgeleitet worden ist. Der Eingangsmerkmalsvektor wird mit dem Modell verglichen und es wird ein Maß der Ähnlichkeit zwischen den beiden erzeugt.
Die Spracherkennung (egal ob von Mensch oder Maschine) unterliegt Fehlern und kann zur Falscherkennung von Wörtern führen. Wenn ein Wort oder eine Phrase falsch erkannt wird, kann die Spracherkennungsvorrichtung anschließend einen weiteren Erkennungsversuch anbieten, der richtig sein kann oder auch nicht.
Es wurden verschiedene Wege zur Verarbeitung von Sprache vorgeschlagen, um die besten oder alternative Übereinstimmungen zwischen der eingegebenen Sprache und den gespeicherten Sprachmustern oder -modellen auszuwählen. In isolierten Worterkennungssystemen ist die Erzeugung alternativer Übereinstimmungen relativ einfach: jedes Wort ist ein separater "Weg" in einem Übergangsnetz, das die zu erkennenden Wörter darstellt, wobei sich die unabhängigen Wortwege nur an den Endpunkten im Netz treffen. Das Ordnen aller Wege, die das Netz bilden, hinsichtlich ihrer Ähnlichkeit bezüglich der gespeicherten Muster oder dergleichen ergibt die besten und alternative Übereinstimmungen.
In den meisten verbundenen Erkennungssystemen und einigen isolierten Worterkennungssystemen auf der Grundlage verbundener Erkennungstechniken ist es jedoch nicht immer möglich, alle Wege am Endpunkt des Netzes zu rekombinieren, so daß weder die besten noch alternative Übereinstimmungen direkt aus den Informationen erhalten werden können, die am Ausgangspunkt des Netzes zur Verfügung stehen. Eine Lösung des Problems der Erzeugung einer besten Übereinstimmung ist beschrieben in "Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems", von S. J. Young, N. H. Russel und J. H. S. Thornton, 1989, der sich auf das Weiterleiten von Paketen an Informationen, bekannt als Tokens, durch ein Übergangsnetz bezieht. Ein Token enthält Informationen, die sich auf den durchwanderten Partialweg beziehen, sowie eine akkumulierte Punktzahl, die den Grad der Ähnlichkeit zwischen der Eingabe und dem Abschnitt des bisher verarbeiteten Netzes anzeigt.
Wie von Young u. a. beschrieben, werden bei jeder Eingabe eines Rahmens von Sprache in ein Übergangsnetz irgendwelche Tokens, die am Eingang eines Knotens vorhanden sind, in den Knoten weitergeleitet, wobei der aktuelle Rahmen von Sprache innerhalb der diesen Knoten zugeordneten Wortmodelle verglichen wird. Am Ausgang des Knotens erscheinen dann neue Tokens (die das dem Knoten zugeordnete Modell "durchwandert" haben). Nur das Token mit der besten Punktzahl wird anschließend zu den Eingängen der folgenden Knoten weitergeleitet. Wenn das Ende der Sprache signalisiert worden ist (mittels einer externen Vorrichtung wie z. B. eines Pausendetektors), ist am Endknoten ein einzelnes Token vorhanden. Von diesem Token kann der gesamte Weg durch das Netz extrahiert werden, indem der Weg mittels der vorangehenden Weginformationen, die innerhalb des Tokens enthalten sind, zurückverfolgt wird, um die beste Übereinstimmung zur Eingangssprache zu erzeugen.
Der Artikel "A unified direction mechanism for automatic speech recognition using Hidden Markov Models", von S. C. Austin und F. Fallside, ICASSP 1989, Bd. 1, S. 667-670, bezieht sich auf eine Spracherkennungsvorrichtung für verbundene Wörter, die in einer ähnlichen Weise arbeitet, wie von Young u. a. beschrieben worden ist. Beim Erstellen des Wortmodells wird eine Historie aktualisiert, die sich auf den Fortschritt der Erkennung durch das Übergangsnetz bezieht. Am Ende der Erkennung wird das Ergebnis von der am Ausgang präsentierten Historie abgeleitet, die die beste Punktzahl besitzt. Es ist wiederum nur eine Historie für jeden Weg möglich, der am Endknoten endet.
Solche bekannten Anordnungen erlauben für einen gegebenen Endknoten nicht, daß einfach eine alternative Wahl am Ausgang des Netzes zur Verfügung steht.
Gemäß der Erfindung umfaßt eine Spracherkennungsvorrichtung eine Einrichtung zum Ableiten eines Erkennungsmerkmalsvektors aus einem Eingangssprachsignal für jeden vorgegebenen Zeitrahmen; eine Einrichtung zum Modellieren der erwarteten Eingangssprache, die mehrere Vokabularknoten, von denen jeder ein zugehöriges Wortdarstellungsmodell besitzt, sowie Verknüpfungen zwischen den Vokabularknoten umfaßt; eine Verarbeitungseinrichtung zum Vergleichen der Erkennungsmerkmalsvektoren mit der modellierten Eingangssprache und zum Erkennen einer Wegverbindung für jeden Knoten und Zeitrahmen, wobei die Wegverbindungen die wahrscheinlichste vorherige Sequenz von Vokabularknoten für jeden Vokabularknoten und Zeitrahmen angeben, wobei die Wegverbindung ein Feld umfaßt zum Speichern einer akkumulierten Erkennungspunktzahl und ein Feld zum Speichern einer Referenz zur wahrscheinlichsten vorangehenden Wegverbindung in der Sequenz; und eine Einrichtung zum Anzeigen der Erkennung des Eingangssprachsignals in Abhängigkeit vom Vergleich; dadurch gekennzeichnet, daß die Verarbeitungseinrichtung (351) in einem einzigen Zeitrahmen mehr als eine Wegverbindung für wenigstens einen Vokabularknoten, der nicht der Endknoten ist, verarbeiten kann.
Eine solche Anordnung bedeutet, daß mehr als eine ankommende Wegverbindung von einem Knoten in einem einzigen Zeitrahmen verarbeitet werden kann, und somit, daß mehr als ein Erkennungsergebnis erhalten werden kann.
Die Modellierungseinrichtung umfaßt vorzugsweise ein Übergangsnetz, das mehrere Rauschknoten und Vokabularkno ten enthält, die den Wortdarstellungsmodellen zugeordnet sind. Die Verarbeitungseinrichtung kann Wegverbindungen für jeden Knoten erzeugen, die Felder zum Speichern eines Zeigers auf die vorangehende Wegverbindung, eine akkumulierte Punktzahl für einen Weg, einen Zeiger auf einen vorangehenden Knoten und einen Zeitindex für Segmentierungsinformationen enthält. Die Vokabularknoten, die mehr als eine in einem einzigen Zeitrahmen verarbeitete Wegverbindung besitzen können, besitzen mehr als ein identisches zugehöriges Wortdarstellungsmodell.
Die Vorgabe, daß wenigstens einer der Vokabularknoten, der nicht der Endknoten des Netzes ist, mehr als ein zugehöriges Wortdarstellungsmodell aufweist, erlaubt dem Prozessor, mehrere Wege für den gleichen Zeitrahmen zu verarbeiten, und erlaubt somit, daß mehr als eine Wegverbindung sich an jedem Eingangsrahmen durch jede Zwischenknotenverbindung fortpflanzt. Somit erzeugt die Erfindung mehrere Schichten eines Übergangsnetzes, entlang denen sich mehrere alternative Wege fortpflanzen können. Der Weg mit der besten Punktzahl kann vom ersten Modell eines Knotens verwendet werden, während der nächstbeste vom zweiten Modell verwendet werden kann, und so weiter, bis entweder die parallelen Modelle oder die ankommenden Wege ausgehen.
Allgemein ausgedrückt enthält ein "Netz" gerichtete azyklische Graphen (GAGs) und Bäume. Ein GAG ist ein Netz ohne Zyklen, während ein Baum ein Netz ist, bei dem das alleinige Aufeinandertreffen von Wegen konzeptionell rechts am Ende des Netzes auftritt.
Der Ausdruck "Wort" bezeichnet hier eine Grunderkennungseinheit, die ein Wort sein kann, jedoch ebensogut ein Diphon, ein Phonem, ein Allophon und dergleichen sein kann. Die Erkennung ist der Prozeß des Vergleichens einer unbekannten Äußerung mit einem vordefinierten Übergangsnetz, wobei das Netz so ausgelegt ist, daß es zu dem kompatibel ist, was ein Benutzer wahrscheinlich sagt.
Um die Phrase zu identifizieren, die erkannt worden ist, kann die Vorrichtung eine Einrichtung enthalten zum Zurückverfolgen der Wegverbindung durch das Netz.
Alternativ kann die Vorrichtung ferner eine Einrichtung enthalten zum Zuweisen einer Signatur zu wenigstens einigen der Knoten, denen Wortdarstellungsmodelle zugeordnet sind, sowie eine Einrichtung zum Vergleichen der Signatur jedes Weges, um den Weg mit der besten Übereinstimmung zur Eingangssprache und denjenigen mit der zweitbesten alternativen Übereinstimmung zu ermitteln.
Diese Anordnung erlaubt eine Alternative, die sich notwendigerweise in der Eigenschaft von der besten Übereinstimmung unterscheidet und sich nicht lediglich in der Segmentierung oder in den Rauschübereinstimmungen unterscheidet.
Die Wortdarstellungsmodelle können Hidden-Markov-Modelle (HMMs) sein, wie in "Hidden Markov Models for automatic speech recognition: theory and application", Cox, British Telecom Technology Journal, April 1988, Bd. 6, Nr. 2, S. 105, allgemein beschrieben ist, Muster, dynamische Zeitsprungmodelle, oder irgendwelche anderen geeigneten Wortdarstellungsmodelle. Die Verarbeitung, die innerhalb eines Modells stattfindet, ist bezüglich dieser Erfindung irrelevant.
Es ist nicht erforderlich, daß alle Knoten, die zugehörige Wortmodelle besitzen, eine ihnen zugewiesene Signatur aufweisen. In Abhängigkeit von der Struktur des Übergangsnetzes kann es ausreichen, nur denjenigen Knoten Signaturen zuzuweisen, die vor einem Entscheidungspunkt innerhalb eines Netzes erscheinen. Ein Entscheidungspunkt, wie er hier verwendet wird, bezieht sich auf einen Punkt im Netz, der mehr als einen ankommenden Weg aufweist.
Partielle Wege können an bestimmten Entscheidungspunkten im Netz untersucht werden, wobei gewisse Einschränkungen an diesen Entscheidungspunkten auferlegt werden, so daß nur Wege verfolgt werden, die den Einschränkungen entsprechen, wie beschrieben ist in der internationalen Patentanmeldung des Anmelders, eingereicht am 31. März 1994, mit dem Titel "Connected Speech Recognition", Nr. WO/23425, veröffentlicht am 13. Oktober 1994. Jedem Entscheidungspunkt ist ein Satz von gültigen Signaturen zugeordnet, wobei alle Wegverbindungen mit Signaturen, die nicht in dem Satz enthalten sind, verworfen werden.
Die akkumulierte Signatur kann verwendet werden, um den kompletten Weg zu identifizieren, was zu einer zusätzlichen Effizienz der Operation führt, da die Wegverbindungen nicht durchlaufen werden müssen, um die Wegidentität zu ermitteln, wobei die Partialweginformationen des Tokens letztlich nicht erzeugt werden müssen. In diesem Fall muß das Signaturfeld groß genug sein, um alle Wege eindeutig zu identifizieren.
Für eine effiziente Operation der Vorrichtung gemäß der Erfindung wird die Signalverarbeitung der Wegsignaturen vorzugsweise in einer einzigen Operation durchgeführt, um die Verarbeitungsgeschwindigkeit zu erhöhen.
Weitere Aspekte und bevorzugte Ausführungsformen der Erfindung sind so beschaffen, wie hier offenbart und beansprucht wird, wobei sie Vorteile aufweisen, die im folgenden deutlich werden.
Die Erfindung wird im folgenden lediglich beispielhaft mit Bezug auf die beigefügten Zeichnungen genauer beschrieben, in welchen:
Fig. 1 schematisch die Verwendung eines Erkennungsprozessors gemäß der Erfindung in einer Telekommunikationsumgebung zeigt;
Fig. 2 ein Blockschaltbild zeigt, das die Funktionselemente eines Erkennungsprozessors gemäß der Erfindung schematisch zeigt;
Fig. 3 ein Blockschaltbild ist, das die Komponenten eines Klassifiziererbildungsabschnitts der Fig. 2 schematisch zeigt;
Fig. 4 ein Blockschaltbild ist, das die Struktur eines Sequenz-Parser-Bildungsabschnitts der Ausführungsform der Fig. 2 schematisch zeigt;
Fig. 5 den Inhalt eines Feldes innerhalb eines Speicherbildungsabschnitts der Fig. 4 schematisch zeigt;
Fig. 6 eine schematische Darstellung einer Ausführungsform eines Übergangsnetzes ist, das mit dem Prozessor des Sequenz-Parsers der Fig. 4 angewendet werden kann;
Fig. 7a einen Knoten eines Netzes zeigt und Fig. 7b eine Wegverbindung zeigt, die gemäß der Erfindung verwendet wird;
Fig. 8 bis 10 den Fortschritt der Wegverbindungen durch das Netz der Fig. 6 zeigen;
Fig. 11 eine schematische Darstellung einer zweiten Ausführungsform eines Übergangsnetzes einer Vorrichtung gemäß der Erfindung ist;
Fig. 12 eine schematische Darstellung einer dritten Ausführungsform eines Übergangsnetzes einer Vorrichtung gemäß der Erfindung ist.
Wie in Fig. 1 gezeigt, umfaßt ein Telekommunikationssystem, das eine Spracherkennung enthält, ein Mikrofon 1, das typischerweise einen Teil eines Telephonhandgerätes bildet, ein Telekommunikationsnetz (typischerweise ein öffentliches vermitteltes Telekommunikationsnetz (PSTN)) 2, einen Erkennungsprozessor 3, der angeschlossen ist, um vom Netz 2 ein Sprachsignal zu empfangen, und eine Nutzungsvorrichtung 4, die mit dem Erkennungsprozessor 3 verbunden ist und dazu dient, von diesem ein Spracherkennungssignal zu empfangen, das die Erkennung anzeigt, oder andernfalls ein bestimmtes Wort oder eine Phrase anzeigt, um als Antwort hierauf eine Maßnahme zu ergreifen. Die Nutzungsvorrichtung 4 kann z. B. ein ferngesteuertes Bank-Terminal zum Durchführen von Banktransaktionen sein.
In vielen Fällen erzeugt die Nutzungsvorrichtung 4 eine hörbare Antwort für den Sprecher, die über das Netz 2 zu einem Lautsprecher 5 übertragen wird, der typischerweise einen Teil des Teilnehmerhandgeräts bildet.
Im Betrieb spricht der Sprecher in das Mikrofon 1, wobei ein analoges Sprachsignal vom Mikrofon 1 in das Netz 2 zum Erkennungsprozessor 3 übertragen wird, wo das Sprachsignal analysiert wird und ein Signal, das die Identifikation oder andernfalls ein bestimmtes Wort oder eine Phrase angibt, erzeugt und zur Nutzungsvorrichtung 4 übertragen wird, die anschließend eine geeignete Maßnahme im Fall der Erkennung der Sprache ergreift.
Der Erkennungsprozessor muß typischerweise Daten annehmen, die die Sprache betreffen, mit denen er das Sprachsignal vergleicht, wobei diese Datenannahme vom Erkennungsprozessor in einer zweiten Betriebsart durchgeführt werden kann, in der der Erkennungsprozessor 3 nicht mit der Nutzungsvorrichtung 4 verbunden ist, jedoch ein Sprachsignal vom Mikrofon 1 empfängt, um die Erkennungsdaten für dieses Wort oder diese Phrase zu bilden. Es sind jedoch auch andere Verfahren zum Annehmen der Spracherkennungsdaten möglich.
Der Erkennungsprozessor 3 ignoriert typischerweise die vom Signal vom Mikrofon 1 zum und durch das Netz 2 genommene Route; irgendeine einer großen Vielfalt von Typen und Qualitäten von Empfänger-Handgerät. In ähnlicher Weise kann innerhalb des Netzes irgendeiner einer großen Vielzahl von Übertragungswegen genommen werden, einschließlich Funkverbindungen, analoger und digitaler Wege und dergleichen. Somit entspricht das den Erkennungsprozessor 3 erreichende Sprachsignal Y dem Sprachsignal S. das am Mikrofon 1 empfangen worden ist, gefaltet mit den Übertragungseigenschaften des Mikrofons 1, der Verbindung zum Netz 2, dem Kanal durch das Netz 2 und der Verbindung zum Erkennungsprozessor 3, was zusammengefaßt und mit einer einzigen Übertragungseigenschaft H bezeichnet werden kann.
Wie in Fig. 2 gezeigt, umfaßt der Erkennungsprozessor 3 einen Eingang 31 zum Empfangen von Sprache in digitaler Form (entweder von einem digitalen Netz oder von einem Analog/Digital-Umsetzer), einen Rahmenprozessor. 32 zum Unterteilen aufeinanderfolgender digitaler Abtastwerte in eine Folge von Rahmen zusammenhängender Abtastwerte; einen Merkmalsextrahierer 33 zum Erzeugen eines entsprechenden Merkmalsvektors aus einem Rahmen von Abtastwer ten; einen Klassifizierer 34 zum Empfangen der Folge von Merkmalsvektoren und zum Verarbeiten derselben mit mehreren Modellzuständen, um Erkennungsergebnisse zu erzeugen; einen Sequenzer 35, der so beschaffen ist, daß er die Klassifizierungsergebnisse vom Klassifizierer 34 empfängt und die vorgegebene Äußerung ermittelt, zu der die Sequenz des Klassifiziererausgangs die größte Ähnlichkeit aufweist; und einen Ausgangsanschluß 38, an dem ein Erkennungssignal ausgegeben wird, das die Sprachäußerung angibt, die erkannt worden ist.

Rahmengenerator 32

Der Rahmengenerator 32 ist so beschaffen, daß er Sprachabtastwerte mit einer Rate von z. B. 8000 Abtastwerten pro Sekunde empfängt und Rahmen bildet, die 256 zusammenhängende Abtastwerte umfassen, mit einer Rahmenrate von einem Rahmen in jeweils 16 ms. Jeder Rahmen ist vorzugsweise gefenstert (d. h. die Abtastwerte in Richtung zum Rand des Rahmens werden mit vorgegebenen Gewichtungskonstanten multipliziert), z. B. unter Verwendung eines Hamming-Fensters, um störende Artefakte zu reduzieren, die durch die Rahmenränder erzeugt werden. In einer bevorzugten Ausführungsform überlappen sich die Rahmen (z. B. um 50%), um die Effekte der Fensterung zu verbessern.

Merkmalsextrahierer 33

Der Merkmalsextrahierer 33 empfängt die Rahmen vom Rahmengenerator 33 und erzeugt in jedem Fall einen Satz oder einen Vektor von Merkmalen. Die Merkmale können z. B. Cepstralkoeffizienten (z. B. LPC-Cepstralkoeffizienten oder mel-Frequenz-Cepstralkoeffizienten, wie beschrieben ist in "On the Evaluation of Speech Recognizers and Dadabases using a Reference System", Chollet & Gagnoulet, 1982, Proc. IEEE, S. 2026) oder Differentialwerte solcher Koeffizienten, die für jeden Koeffizienten die Differenzen zwischen dem Koeffizienten und dem entsprechenden Koeffizientenwert im vorangehenden Vektor umfassen, wie beschrieben ist in "On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition", Soong & Rosenberg, 1988, IEEE Trans. on Acoustics, Speech and Signal Processing, Bd. 36, Nr. 6, S. 871. Gleichermaßen kann eine Mischung mehrerer Typen von Merkmalskoeffizienten verwendet werden.
Der Merkmalsextrahierer 33 gibt eine Rahmennummer aus, die für jeden aufeinanderfolgenden Rahmen inkrementiert wird. Der Ausgang des Merkmalsextrahierers 33 wird ferner zu einem Ende-Zeiger 36 weitergeleitet, dessen Ausgang mit dem Klassifizierer 34 verbunden ist. Der Ende-Zeiger 36 erfaßt das Ende der Sprache, wobei verschieden Typen auf diesem Gebiet bekannt sind.
Der Rahmengenerator 32 und der Merkmalsextrahierer 33 werden in dieser Ausführungsform von einer einzelnen, geeignet programmierten Digitalsignalprozessor-(DSP)- Vorrichtung gebildet (wie z. B. dem Motorola DSP 56000 oder dem Texas Instruments TMS C 320) oder einer ähnlichen Vorrichtung.

Klassifizierer 34

Wie in Fig. 3 gezeigt, umfaßt der Klassifizierer 34 in dieser Ausführungsform einen Klassifizierungsprozessor 341 und einen Zustandsspeicher 342.
Der Zustandsspeicher 342 umfaßt ein Statusfeld 3421, 3422, für jeden der mehreren Sprachzustände. Zum Beispiel umfaßt jedes vom Erkennungsprozessor zu erkennende Allophon drei Zustände, wobei dementsprechend drei Zustandsfelder im Zustandsspeicher 342 für jedes Allophon vorgesehen sind.
Der Klassifizierungsprozessor 34 ist so beschaffen, daß er jedes Statusfeld innerhalb des Speichers 342 der Reihe nach liest und für jedes unter Verwendung des aktuellen Eingangsmerkmalskoeffizientensatzes die Wahrscheinlichkeit berechnet, daß der Eingangsmerkmalssatz oder Vektor dem entsprechenden Zustand entspricht.
Dementsprechend umfaßt die Ausgabe des Klassifizierungsprozessors mehrere Zustandswahrscheinlichkeiten P, eine für jeden Zustand im Zustandsspeicher 342, die die Wahrscheinlichkeit angeben, das der Eingangsmerkmalsvektor dem jeweiligen Zustand entspricht.
Der Klassifizierungsprozessor 341 kann eine geeignet programmierte Digitalsignalverarbeitungs-(DSP)-Vorrichtung sein, und kann insbesondere die gleiche Digitalsignalverarbeitungsvorrichtung sein wie der Merkmalsextrahierer 33.

Sequenzer 35

Wie in Fig. 4 gezeigt, umfaßt der Sequenzer 35 in dieser Ausführungsform einen Zustandssequenzspeicher 352, einen Parser-Prozessor 351 und einen Sequenzerausgangspuffer 354.
Ferner ist ein Zustandswahrscheinlichkeitsspeicher 353 vorgesehen, der für jeden verarbeiteten Rahmen die vom Klassifizierungsprozessor 341 ausgegebenen Zustandswahrscheinlichkeiten speichert. Der Zustandssequenzspeicher 352 umfaßt mehrere Zustandssequenzfelder 3521, 3522, ...., die jeweils einem Wort oder einer zu erkennenden Phrasensequenz entspricht, die aus einer Kette von Allophonen besteht.
Jede Zustandssequenz im Zustandssequenzspeicher 352 umfaßt, wie in Fig. 5 gezeigt, mehrere Zustände P&sub1;, P&sub2;, ... PN (wobei N ein Vielfaches von 3 ist) und für jeden Zustand zwei Wahrscheinlichkeiten; eine Wiederholungswahrscheinlichkeit (Pi1) und eine Übergangswahrscheinlichkeit zum folgenden Zustand (Pi2). Die Zustände der Sequenz sind mehrere Gruppen von drei Zuständen, die sich jeweils auf ein einzelnes Allophon beziehen. Die beobachtete Sequenz von Zuständen, die einer Serie von Rahmen zugeordnet ist, kann somit mehrere Wiederholungen für jeden Zustand Pi in jedem Zustandssequenzmodell 3521 usw. umfassen, zum Beispiel:
Der Parserprozessor 351 ist so beschaffen, daß er bei jedem Rahmen die vom Klassifizierungsprozessor 341 ausgegebenen Zustandswahrscheinlichkeiten und die vorher gespeicherten Zustandswahrscheinlichkeiten im Zustandswahrscheinlichkeitsspeicher 353 liest und den wahrscheinlichsten Weg von Zuständen bis heute über die Zeit berechnet und diesen mit jedem der im Zustandssequenzspeicher 352 gespeicherten Zustandssequenzen vergleicht.
Die Berechnung verwendet dazu wohlbekannte HMMs, wie im obengenannten Cox-Papier beschrieben worden ist. Die vom Parserprozessor 351 durchgeführte HMM-Verarbeitung verwendet günstigerweise den wohlbekannten Viterbi-Algorithmus. Der Parserprozessor 351 kann z. B. ein Mikroprozessor sein, wie z. B. der Mikroprozessor Intel(TM) i-486(TM) oder der Mikroprozessor Motorola(TM) 68000, oder kann alternativ eine DSP-Vorrichtung sein (z. B. die gleiche DSP-Vorrichtung, die für irgendeinen der vorangehenden Prozessoren verwendet wird).
Dementsprechend wird für jede Zustandssequenz (die einem Wort, einer Phrase oder einer anderen zu erkennenden Sprachsequenz entspricht) eine Wahrscheinlichkeitspunktezahl vom Parserprozessor 351 bei jedem Rahmen der Eingangssprache ausgegeben. Zum Beispiel können die Zustandssequenzen die Namen in einem Telephonverzeichnis enthalten. Wenn das Ende der Äußerung erfaßt wird, wird ein Etikettensignal, das die wahrscheinlichste Zustandssequenz angibt, vom Parserprozessor 351 zum Ausgangsanschluß 38 ausgegeben, um anzuzeigen, daß der entsprechende Name, das Wort oder die Phrase erkannt worden ist.
Der Parserprozessor 351 umfaßt ein Netz, das speziell konfiguriert ist, um bestimmte Phrasen oder Wörter wie z. B. eine Kette von Ziffern zu erkennen.
Die Fig. 6 zeigt ein einfaches Netz zum Erkennen einer Kette von Wörtern, in diesem Fall entweder eine Kette von vier Wörtern oder eine Kette von drei Wörtern. Jedem Knoten 12 des Netzes ist ein Wortdarstellungsmodell 13, z. B. ein HMM, zugeordnet, das in einer Modelliste gespeichert ist. Jedem Modell können mehrere Knoten zugeordnet sein, wobei jeder Knoten einen Zeiger auf dessen zugehöriges Modell besitzt (wie in den Fig. 6 und 7a gezeigt). Um eine beste Übereinstimmung und eine einzelne alternative Phrase zu erzeugen, sind dem letzten Knoten 14 zwei Modelle zugeordnet, so daß dieser Knoten zwei Wege verarbeiten kann. Wenn n Analysen benötigt werden, werden dem letzten Knoten 14 des Netzes n identische Wortmodelle zugeordnet.
Wie in Fig. 7b gezeigt, enthält eine Wegverbindung 15 Informationen über einen Zeiger auf die vorangehende Wegverbindung, einen akkumulierten Punktewert, einen Zeiger auf den vorher erzeugten Knoten und einen Zeitindex. Am Beginn einer Äußerung wird eine leere Wegverbindung 15' in den ersten Knoten 16 eingesetzt, wie in Fig. 8 gezeigt ist. Der erste Knoten enthält nun eine Wegverbindung und ist somit aktiv, während die restlichen Knoten inaktiv sind. Bei jedem Taktwechsel (d. h. bei jedem ankommenden Rahmen der Sprache) akkumulieren irgendwelche aktiven Knoten einen Punktewert in ihrer Wegverbindung.
Wenn das erste Modell mit z. B. einem Minimum von sieben Rahmen an Sprache übereinstimmt, wird beim siebten Taktimpuls eine Wegverbindung 15" aus dem ersten Knoten mit dem Punktewert für die Übereinstimmung der sieben Rahmen mit dem Modell und Zeigern auf die Eingangswegverbindung und den gerade verglichenen Knoten ausgegeben. Die Wegverbindung wird allen folgenden Knoten 15 eingegeben, wie in Fig. 9 gezeigt ist. Nun sind die ersten drei Knoten aktiv. Der Eingangsrahmen der Sprache wird anschließend in den Modellen verglichen, die den aktiven Knoten zugeordnet sind, und es werden neue Wegverbindungen ausgegeben.
Diese Verarbeitung wird fortgesetzt, wobei der erste Knoten 16 weitere Wegverbindungen erzeugt, wenn sein Modell mit zunehmend längeren Abschnitten der Äußerung übereinstimmt, wobei die nachfolgenden Knoten ähnliche Berechnungen durchführen.
Wenn die Eingangssprache bis zum letzten Knoten 18 des Netzes verarbeitet worden ist, können die Wegverbindungen von jedem "Zweig" des Netzes zu diesem Knoten 18 dargestellt werden. Wenn zu irgendeinem gegebenen Zeitrahmen eine einzelne Wegverbindung besteht (d. h. nur einer der parallelen Wege ist vollständig), wird diese Wegverbindung als die beste (und einzige) Übereinstimmung genommen und vom letzten Knoten 18 verarbeitet. Wenn jedoch zwei Wegverbindungen am letzten Knoten 18 vorhanden sind, werden von diesem Knoten beide verarbeitet, da der letzte Knoten 18 mehr als einen Weg verarbeiten kann. Die ausgegebenen Wegverbindungen werden kontinuierlich bei jedem Rahmen der Sprache aktualisiert. Wenn die Äußerung abgeschlossen ist, gibt es zwei Wegverbindungen 15''' am Ausgang des Netzes, wie in Fig. 10 gezeigt ist (von denen die Zeiger auf vorangehende Wegverbindungen und Knoten der Klarheit halber weggelassen sind).
Der vollständige Weg kann gefunden werden durch verfolgen der Zeiger zu den vorangehenden Wegverbindungen, wobei die Knoten auf dem erkannten Weg (und somit die anscheinend erkannte Eingangssprache) identifiziert werden können durch Betrachten der Zeiger auf die erregten Knoten.
Die Fig. 11 zeigt eine zweite Ausführungsform eines Netzes, das für die Erkennung von Ketten von drei Ziffern konfiguriert ist. Die grauen Knoten 22 sind Null-Knoten im Netz; die weißen Knoten sind aktive Knoten, die in Vokabularknoten 24 mit zugehörigen (nicht gezeigten) Wortdarstellungsmodellen zum Vergleichen ankommender Sprache und Rauschknoten 25, die willkürliches Rauschen darstellen, unterteilt werden können.
Wenn alle aktiven Knoten 24, 25 nach und einschließlich des dritten Nullknotens 22' jeweils drei Wege für jeden Zeitrahmen besitzen können (d. h. jedem Vokabularknoten 24 sind drei Wortdarstellungsmodelle zugeordnet), umfaßt der Ausgang des Netzes Wegverbindungen, die sich auf die drei obersten Punktwertwege des Systems beziehen. Wie mit Bezug auf die Fig. 8 bis 10 beschrieben worden ist, können die drei Wege gefunden werden durch Verfolgen der Zeiger zur vorangehenden Wegverbindung für jeden Weg. Die Knoten auf den Wegen (und somit die anscheinend erkannte Eingangssprache) können identifiziert werden durch Betrachten der Zeiger zu den erregten Knoten.
In einer Weiterentwicklung der Erfindung können die Wegverbindungen mit Signaturen versehen sein, die die signifikanten Knoten des Netzes darstellen. Diese signifikanten Knoten können z. B. alle Vokabularknoten 24 umfassen. In der Ausführungsform der Fig. 11 ist jedem Vokabularknoten 24 eine Signatur zugewiesen, z. B. ist den Knoten, die die Ziffer 1 darstellen, eine Signatur "1" zugewiesen, während den Knoten 24", die die Ziffer 2 darstellen, eine Signatur "2" zugewiesen ist, und so weiter.
Am Beginn der Prüfung wird eine einzelne leere Wegverbindung in einen Netzeingangsknoten 26 eingegeben. Da dies ein Null-Knoten ist, wird die Wegverbindung zum nächsten. Knoten, einem Rauschknoten 25, weitergeleitet. Der Eingangsrahmen wird im (nicht gezeigten) Rauschmodell dieses Knotens verglichen, wobei am Ausgang eine aktualisierte Wegverbindung erzeugt wird. Diese Wegverbindung wird anschließend zu den nächsten aktiven Knoten weitergeleitet, d. h. zu den ersten Vokabularknoten 24 mit einem zugehörigen Modell (nicht gezeigt). Jeder Vokabularknoten 24 verarbeitet den Rahmen der Sprache in seinem zugehörigem Wortmodell und erzeugt eine aktualisierte Wegverbindung. Das Signaturfeld der Wegverbindung wird ebenfalls aktualisiert. Am Ende jedes Zeitrahmens werden die aktualisierten Wegverbindungen sortiert, um die drei (n) obersten Punktwertwege zu erhalten, die unterschiedliche Signaturfelder besitzen. Eine anhand des Punktwerts geordnete Liste wird erhalten, mit der zusätzlichen Einschränkung, daß akkumulierte Signaturen eindeutig sind: wenn eine zweite Wegverbindung mit der gleichen Signatur eintritt, wird die bessere der beiden gehalten. Die Liste enthält nur die oberen "n" unterschiedlichen Wege, wobei der Rest ignoriert wird.
Die n Wegverbindungen pflanzen sich durch den nächsten Nullknoten 22' zum folgenden Rauschknoten 25 und den Vokabularknoten 24" fort, von denen jedem drei identische Wortdarstellungsmodelle zugeordnet sind. Anschließend findet die Modellverarbeitung statt, was zur Aktualisierung der Listen von Wegverbindungen und zum Erweitern der Wege in die weiteren Knoten 24''', 25 führt. Es ist klär, daß die Signaturfelder der Wegverbindungen nach der Verarbeitung durch die Null-Knoten 22 oder die Rauschknoten 25 nicht aktualisiert werden, da diese Knoten keine zugewiesenen Signaturen besitzen.
Die Wegverbindungen pflanzen sich entlang der Wege fort, die durch die restlichen aktiven Knoten führen, um an einem Ausgangsknoten 28 bis zu drei Wegverbindungen zu erzeugen, die die relativen Punktewerte und Signaturen, z. B. 1 2 1, der durch das Netz genommenen Wege anzeigen. Die Wegverbindungen werden kontinuierlich aktualisiert, bis das Ende der Sprache erfaßt wird (z. B. mittels einer externen Vorrichtung wie z. B. eines Pausendetektors, oder bis eine Zeitüberschreitung erreicht wird). An diesem Punkt werden die Zeiger oder die akkumulierten Signaturen der Wegverbindungen am Ausgangsknoten 28 untersucht, um die Erkennungsergebnisse zu ermitteln.
Unter der Annahme, daß die folgenden drei Wegverbindungen am Ausgangsknoten 28 zu einem bestimmten Zeitpunkt vorliegen:
PUNKTEWERT SIGNATUR
A 10 1 2 2
B 9 1 2 2
C 7 1 3 2
ist z. B. der Weg A, der Weg mit der höchsten Punktzahl, die beste Übereinstimmung. Obwohl der Weg B die zweitbeste Punktezahl aufweist, wird er jedoch als eine alternative Analyse verworfen, da seine Signatur und somit die anscheinend erkannte Sprache die gleiche ist wie im Weg A. Der Weg C würde somit als die zweitbeste Analyse gehalten.
Wenn die zu erkennenden Ketten mehr Struktur als oben beschrieben besitzen, z. B. buchstabierte Namen, müssen nur den Knoten unmittelbar vor Entscheidungspunkten Signaturen zugewiesen sein, statt jedem Vokabularknoten. Die Fig. 12 zeigt ein Netz zum Erkennen der Buchstabierung der Namen "Phil", "Paul" und "Peter". Der Einfachheit halber ist kein Rauschen gezeigt. Die quadratischen Knoten 44 zeigen, wo die Signatur angeordnet werden sollte.
Das System kann zwischen den Wegen "PHI" und "PAU" am Knoten "L" unterscheiden, da die Signaturen der Wegverbindungen, die an den vorangehenden Knoten erzeugt worden sind, unterschiedlich sind. Der folgende Knoten 47 ist fähig, zwischen allen drei unabhängigen Wegen zu unterscheiden, da sich die Signaturen der quadratischen Knoten 44 unterscheiden. Nur dem Knoten "L" und dem letzten Rauschknoten 48 müssen mehr als ein identisches Wortmodell zugewiesen werden, so daß diese Modelle mehr als einen Weg für einen einzelnen Zeitrahmen besitzen können.
In allen Fällen erfordert jedes Netz, das die zu erkennende Sprache darstellt, eine Analyse, um zu ermitteln, welchen Knoten Signaturen zugewiesen werden müssen. Außerdem ist das Netz so konfiguriert, daß es zu dem kompatibel ist, was ein Benutzer wahrscheinlich sagt.
Einsparungen in der Speichergröße und der Verarbeitungsgeschwindigkeit können erreicht werden durch Beschränken der Signaturen, die ein Knoten weitergibt. Zum Beispiel sei die einzige gültige Eingangssprache für eine Erkennungsvorrichtung mit dem Netz der Fig. 6 die Gruppe aus vier aufeinanderfolgenden Zahlen von: 111, 112, 121, 211. Bestimmten Knoten innerhalb des Netzes ist ein Satz von gültigen Signaturen zugewiesen, wobei sich ein Weg durch einen "beschränkten" Knoten nur fortpflanzt, wenn eine Wegverbindung mit einer dieser Signaturen vorhanden ist. Um dies zu erreichen, werden die Signaturfelder der Wegverbindungen, die in einen beschränkten Knoten eintreten, z. B. den dritten Null-Knoten 22', untersucht. Wenn das Signaturfeld eine andere Signatur als 1 oder 2 enthält, wird die Wegverbindung verworfen und der Weg pflanzt sich nicht weiter fort. Wenn eine zulässige Wegverbindung dargestellt wird, wird sie zum nächsten Knoten weitergereicht. Der nächste beschränkte Knoten ist der Null-Knoten 22" nach den nächsten Vokabularknoten. Dieser Null-Knoten ist beschränkt auf nur die Ausbreitung von Wegverbindungen mit einer Signatur 11, 12 oder 21. Der Null-Knoten 22''' nach den nächsten Vokabularknoten ist beschränkt auf nur die Ausbreitung der Wegverbindungen mit der Signatur 111, 112, 121 oder 211. Eine solche Anordnung reduziert die erforderliche Verarbeitung erheblich und erlaubt eine Einsparung der Speicherkapazität der Vorrichtung. Nur einige der Knoten an den Entscheidungspunkten im Netz müssen so beschränkt sein. In der Praxis hat sich eine 32-Bit-Signatur als für Sequenzen von bis zu neun Ziffern geeignet erwiesen. Eine 64-Bit- Signatur erscheint geeignet für eine alphanumerische 12- Zeichen-Kette.
Das Ende der Spracherfassung und verschiedene andere Aspekte der Spracherkennung, die für die vorliegende Erfindung relevant sind, sind vollständiger ausgeführt in der internationalen Patentanmeldung des Anmelders, eingereicht am 25. März 1994, mit dem Titel "Speech Recognition", Nr. WO 94/22131, veröffentlicht am 29. September 1994.
In den obenbeschriebenen Ausführungsformen wurde eine Erkennungsverarbeitungsvorrichtung beschrieben, die mit einer Telekommunikationsvermittlung verbunden werden kann. In einer weiteren Ausführungsform kann die Erfindung jedoch auf einer einfachen Vorrichtung ausgeführt werden, die mit einer herkömmlichen Teilnehmerstation (mobil oder fest) verbunden ist, welche mit dem Telephonnetz verbunden ist; in diesem Fall kann eine Analog/Digital-Umsetzungseinrichtung vorgesehen sein, um das ankommende analoge Telephonsignal zu digitalisieren.

Claims

1. Spracherkennungssystem, mit:

einer Einrichtung zum Ableiten eines Erkennungsmerkmalsvektors aus einem eingegebenen Sprachsignal für jeden vorgegebenen Zeitrahmen;

einer Einrichtung zum Modellieren einer erwarteten eingegebenen Sprache, die mehrere Vokabularknoten enthält, wovon jeder ein zugeordnetes Wortdarstellungsmodell besitzt, das seinerseits Verbindungen zwischen den Vokabularknoten aufweist;

einer Verarbeitungseinrichtung zum Vergleichen der Erkennungsmerkmalsvektoren mit der modellierten eingegebenen Sprache und zum Erzeugen einer Wegverbindung für jeden Knoten und jeden Zeitrahmen, wobei die Wegverbindungen die wahrscheinlichste vorhergehende Sequenz von Vokabularknoten für jeden Vokabularknoten und jeden Zeitrahmen angeben, wobei jede Wegverbindung ein Feld zum Speichern einer akkumulierten Erkennungstrefferliste und ein Feld zum Speichern einer Bezugnahme auf die wahrscheinlichste vorhergehende Wegverbindung in der Sequenz enthält; und

einer Einrichtung, die die Erkennung des eingegebenen Sprachsignals in Abhängigkeit vom Vergleich angibt;

dadurch gekennzeichnet, daß die Verarbeitungseinrichtung (351) in einem einzigen Zeitrahmen mehr als eine Wegverbindung für wenigstens einen vom Endknoten verschiedenen Vokabularknoten verarbeiten kann.

2. Spracherkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der wenigstens eine der Vokabularknoten mehr als einem identischen Wortdarstellungsmodell zugeordnet ist.

3. Spracherkennungsvorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Wortdarstellungsmodelle Hidden-Markow-Modelle sind.

4. Spracherkennungsvorrichtung nach irgendeinem der Ansprüche 1, 2 oder 3, dadurch gekennzeichnet, daß sämtliche Vokabularknoten ihnen zugewiesene Signaturen besitzen.

5. Spracherkennungsvorrichtung nach irgendeinem der Ansprüche 1, 2 oder 3, dadurch gekennzeichnet, daß nur diejenigen Vokabularknoten, die vor einem Entscheidungspunkt auftreten, ihnen zugewiesene Signaturen besitzen.

6. Spracherkennungsvorrichtung nach Anspruch 4 oder Anspruch 5, dadurch gekennzeichnet, daß die Wegverbindungen eine akkumulierte Signatur enthalten.

7. Spracherkennungsvorrichtung nach irgendeinem der Ansprüche 4, 5, oder 6, dadurch gekennzeichnet, daß wenigstens einige der Knoten in der Weise beschränkt sind, daß von ihnen nur Wegverbindungen mit bestimmten vorgegebenen Signaturen ausgehen.

8. Spracherkennungsvorrichtung nach irgendeinem der Ansprüche 4 bis 7, dadurch gekennzeichnet, daß die Erkennungsangabeeinrichtung eine Einrichtung zum Vergleichen der Trefferliste und der Signatur der Wegverbindungen enthält, um den Weg mit der besten Übereinstimmung mit der eingangsseitigen Sprache und jene Wege mit den nächstbesten alternativen Übereinstimmungen zu bestimmen.

9. Verfahren zur Spracherkennung, enthaltend:

Ableiten eines Erkennungsmerkmalsvektors aus einem eingegebenen Sprachsignal für jeden vorgegebenen Zeitrahmen;

Modellieren einer erwarteten Eingangssprache;

Vergleichen der Merkmalsdaten mit der modellierten Eingangssprache durch Erzeugen eines Netzes, das mehrere Vokabularknoten enthält, denen Wortdarstellungsmodelle zugeordnet sind, und durch Erzeugen einer Wegverbindung für jeden Knoten und jeden Zeitrahmen, wobei die Wegverbindung die wahrscheinlichste vorhergehende Sequenz aus Vokabularknoten für jeden Vokabularknoten und jeden Zeitrahmen angibt, wobei jede Wegverbindung ein Feld zum Speichern einer akkumulierten Erkennungstrefferliste und ein Feld zum Speichern einer Bezugnahme auf die wahrscheinlichste vorhergehende Wegverbindung in der Sequenz enthält;

Angeben einer Erkennung der Sprache in Abhängigkeit vom Vergleich,

dadurch gekennzeichnet, daß in einem einzigen Zeitrahmen mehr als eine Wegverbindung für wenigstens einen von dem Endknoten verschiedenen Vokabularknoten verarbeitet werden.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß dem wenigstens einen Vokabularknoten mehr als ein identisches Wortdarstellungsmodell zugeordnet ist.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß dem wenigstens einem Vokabularknoten eine Anzahl identischer Wortdarstellungsmodelle zugeordnet ist, die gleich der Anzahl der gewünschten Erkennungsergebnisse ist.

12. Verfahren nach irgendeinem der Ansprüche 10 oder 11, dadurch gekennzeichnet, daß die Trefferlisten der Wegverbindungen mit jedem Entscheidungspunkt des Netzes verglichen werden, wobei nur die Wegverbindungen mit bester Trefferliste zu dem/den nächsten Knoten fortgeführt werden.

13. Verfahren nach irgendeinem der Ansprüche 10, 11 oder 12, gekennzeichnet durch die Zuweisung von Signaturen an sämtliche Vokabularknoten.

14. Verfahren nach irgendeinem der Ansprüche 10, 11 oder 12, dadurch gekennzeichnet, daß lediglich denjenigen Vokabularknoten, die vor einem Entscheidungspunkt im Netz auftreten, Signaturen zugewiesen werden.

15. Verfahren nach irgendeinem der Ansprüche 13 oder 14 in Verbindung mit Anspruch 12, dadurch gekennzeichnet, daß die Signaturen der Wegverbindungen ebenfalls verglichen werden, wobei nur Wegverbindungen mit unterschiedlichen Signaturen zu dem/den nächsten Knoten fortgeführt werden.

16. Verfahren nach irgendeinem der Ansprüche 13, 14 oder 15, gekennzeichnet durch die Beschränkung wenigstens einiger Knoten in der Weise, daß sie nur Wegverbindungen mit bestimmten vorgegebenen Signaturen in ihren Signaturfeldern weiterleiten.

17. Verfahren nach irgendeinem der Ansprüche 9 bis 16, dadurch gekennzeichnet, daß das eingegebene Sprachsignal, das erkannt werden soll, durch Zurückverfolgen der Wegverbindungen durch das Netz bestimmt wird.

18. Verfahren nach irgendeinem der Ansprüche 13 bis 16, dadurch gekennzeichnet, daß das eingegebene Sprachsignal, das erkannt werden soll, durch die akkumulierte Signatur jeder Wegverbindung bestimmt wird.

19. Verfahren nach irgendeinem der Ansprüche 10 bis 18, dadurch gekennzeichnet, daß die Wegverbindung mit bester Trefferliste durch das erste Wortdarstellungsmodell eines Vokabularknotens verarbeitet wird, die nächstbeste durch das zweite u. s. w., bis entweder parallele Modelle oder ankommende Wegverbindung ausgehen.