DE112009004313T5

DE112009004313T5 - Stimmerkennungseinrichtung

Info

Publication number: DE112009004313T5
Application number: DE112009004313T
Authority: DE
Inventors: Tadashi Suzuki; Yuzo Maruta; Yasushi Ishikawa
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-01-28
Filing date: 2009-10-20
Publication date: 2012-05-24
Anticipated expiration: 2029-10-21
Also published as: JP4703787B2; CN102239517A; DE112009004313B4; CN102239517B; US20110166859A1; JPWO2010086928A1; US8099290B2; WO2010086928A1

Abstract

Eine Stimmerkennungseinrichtung ist konstruiert in einer Weise, um einen Stimmkennzeichen-String für eine eingegebene Stimme, die durch einen Benutzerzeugen basierend auf einer Merkmalsvektorzeitserie der eingegebenen Stimme, die durch den Benutzer geäußert wird, und Daten über ein Geräusch-Standardmodell, und Registrieren des Stimmkennzeichen-Strings in einem Stimmkennzeichenspeicher 2 während eines automatischen Umschaltens zwischen Sprachen für einen Geräusch-Standardmodellspeicher 1, verwendet zum Erzeugen des Stimmkennzeichen-Strings, und automatischen Umschalten zwischen den Sprachen für den Stimmkennzeichenspeicher 2 zum Halten des erzeugten Stimmkennzeichen-Strings zur Verwendung einer ersten Sprachumschalteinheit SW1 und einer zweiten Sprachumschalteinheit SW2. Die Stimmerkennungseinheit kann daher einen Stimmkennzeichen-String entsprechend jeder registrierten Stimme, die durch den Benutzer geäußert wird, für jede Sprache, erzeugen, und den Stimmkennzeichen-String als ein Benutzerwörterbuch halten. Als ein Ergebnis kann, sogar wenn die Sprache, welche für die Stimmerkennung verwendet wird, geändert wird, die Stimmerkennungseinheit Stimmerkennung unter Verwendung der registrierten Stimmen, die durch den Benutzer geäußert wurden, ausführen.

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Stimmerkennungseinrichtung. Im Speziellen betrifft sie eine Stimmerkennungseinrichtung bzw. eine Spracherkennungseinrichtung, welche Stimmerkennung bzw. Spracherkennung durchführen kann, und zwar unter Verwendung von registrierten Stimmen bzw. registierter Sprache (engl. voice), welche der Benutzer geäußert hat, sogar wenn zu einer Sprache umgeschaltet wird, die die Stimmerkennungseinrichtung für die Stimmerkennung verwendet.
Hintergrund der Erfindung
Die meisten der kürzlich entwickelten Stimmerkennungseinrichtungen und Stimmerkennungssysteme sind für unspezifizierte Sprecher gedacht und es ist daher für einen Benutzer nicht notwendig, seine oder ihre Stimme in dem Equipment zuvor zu registrierten, von welcher der Benutzer wünscht, dass eine Stimmerkennungseinrichtung oder ein Stimmerkennungssystem sie erkennt. Genauer kann der Benutzer, anstelle eine Stimme zu äußern, seine oder ihre Stimme, von welcher der Benutzer wünscht, dass die Stimmerkennungseinrichtung oder -System sie erkennt, in das Equipment durch einfache Eingabe von Kana-Zeichen über ein Keyboard oder Ähnliches, in dem Fall von Japanisch, registrieren. Ferner kann die herkömmliche Stimmerkennungseinrichtung oder -System ein phonetisches Symbol des Worts automatisch, auch in dem Fall von Fremdsprachen, erzeugen, wodurch es einem Benutzer erlaubt wird, ein Wort, von welchem der Benutzer möchte, dass die Stimmerkennungseinrichtung oder -System sie erkennt, in das Equipment einzugeben, und das Wort als ein Erkennungsobjektwort zu registieren.
Jedoch existiert ein Fall, in welchem der Benutzer seine oder ihre geäußerte Stimme in die Stimmerkennungseinrichtung oder -System hinein registriert, um das Wort als ein Erkennungsobjektwort zu verwenden, und zwar abhängig von einer Anwendung, auf welcher die Stimmerkennung angewendet wird (dieser Fall wird im Folgenden als Erzeugen eines Benutzer-Wörterbuchs bezeichnet). Zum Beispiel existiert ein Fall, in welchem der Benutzer einen Radiostationsnamen entsprechend einer Frequenz einer Radiostation durch Stimme registriert, und ein Fall, in welchem der Benutzer den Namen einer Person oder einen Ortsnamen entsprechend einer Telefonnummer durch Stimme registriert.
Ferner benötigt eine Stimmerkennung, die in ein Equipment, wie z. B. einer Fahrzeugnavigation oder einem Mobilendgerät befestigt ist, welches in einer Vielzahl von Ländern verwendet wird, eine Funktion des Schaltens zwischen Sprachen. im Allgemeinen werden bei Stimmerkennung Stimmdaten für jede Sprache gesammelt und eine durch einen Benutzer geäußerte Stimme wird unter Verwendung eines Erkennungs-Algorithmus und eines Geräusch-Standardmodells bzw. Sound-Standardmodells (engl.: sound standard model) erkannt, welche unter Verwendung der Daten konstruiert werden. Umschalten unter Sprachen benötigt ein Schalten zwischen Stimmerkennungseinheiten und ein Schalten zwischen Geräusch-Standardmodellen.
In einer Anwendung, wie oben beschrieben, welche eine Stimme, die durch einen Benutzer gewählt wird, registriert und diese Stimme als ein Erkennungsobjekt verwendet, muss der Benutzer, da jedes erzeugte Benutzerwörterbuch abhängig ist von einem Stimmerkennungs-Algorithmus und einem Geräusch-Standardmodell, wenn ein Schalten zwischen Stimmerkennungseinheiten und ein Schalten zwischen Geräusch-Standardmodellen durchgeführt wird, um zwischen Sprachen zu schalten, der Benutzer eine Operation des Registrierens seiner oder ihrer Stimme erneut durchführen, da einige bereits erzeugte Benutzerwörterbücher nicht verwendet werden können.
Um dieses Problem zu lösen, wurden herkömmlicher Weise einige Maßnahmen bereitgestellt. Zum Beispiel offenbart Patentreferenz 1 ein elektronisches Wörterbuch-Equipment zum und ein elektronisches Wörterbuch-Equipment verwendend Sprachumschaltungsverfahren, des Bestimmens einer Sprache, welche ein Benutzer verwenden will durch Vergleichen einer Stimme, die durch den Benutzer geäußert wird, mit Worten, die in dem System gespeichert sind, wenn umgeschaltet wird zwischen Verwenden von Sprachen für ein elektronisches Wörterbuch, und ein Speichermedium, welches für das elektronische Wörterbuch-Equipment verwendet wird. Ferner offenbart Patentreferenz 2 eine Mobilendgerät-Einrichtung zum und ein Computerprogramm zum Bestimmen einer Sprache, welche ein Benutzer verwenden will, durch Vergleichen einer Stimme, die durch den Benutzer geäußert wird, mit Worten, die in dem System gespeichert sind, wenn zwischen Verwenden von Sprachen für ein elektronisches Wörterbuch geschaltet wird.
Verwandter Stand der Technik-Dokumente
Patentreferenzen

Patentreferenz 1: JP 2001-282788 A
Patentreferenz 2: JP 2002-247646 A

Zusammenfassung der Erfindung
In dem elektronischen Wörterbuch-Equipment, dem elektronischen Wörterbuch-Equipment, das Sprachumschaltverfahren verwendet, und dem Speichermedium, welche in der oben genannten Patentreferenz 1 offenbart sind, wird eine Stimme, welche der Benutzer verwenden will, bestimmt durch Vergleichen einer durch den Benutzer geäußerten Stimme mit Worten, die in dem System gespeichert sind, wenn zwischen den verwendeten Sprachen für das elektronische Wörterbuch umgeschaltet wird. Ein Problem besteht daher, dass der Benutzer kein Wörterbuch entsprechend jeder Sprache von seiner oder ihrer geäußerten Stimmen erzeugen kann.
Ferner zielen die Mobilendgeräteinrichtung und das Computerprogramm, welches durch Patentreferenz 2 offenbart ist, auf das Herunterladen geeigneter Wörterbuchdaten, zu der Zeit, wenn der Benutzer einen anderen linguistischen Bereich betritt. Ein Problem besteht daher, dass der Benutzer kein Benutzerwörterbuch entsprechend jeder Sprache von seiner oder ihrer geäußerten Stimmen erzeugen kann.
Die vorliegende Erfindung wird daher gemacht, um das oben genannte Problem zu lösen, und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Stimmerkennungseinrichtung bereitzustellen, welche Stimmkennzeichen-Strings (Engl.: voice label strings) entsprechend registrierter Stimmen, die durch einen Benutzer geäußert werden, für jede Sprache zu registrieren und die Stimmkennzeichen-Strings als ein Benutzerwörterbuch zu speichern, und welche, sogar wenn zwischen Sprachen umgeschaltet wird, um eine von denen zur Stimmerkennung bzw. Stimmerkennung zu verwenden, Spracherkennung unter Verwendung der registrierten Benutzergeäußerten Stimmen durchführen kann.
In Übereinstimmung mit der vorliegenden Erfindung wird eine Stimmerkennungseinrichtung bereitgestellt, beinhaltend: einen Geräusch-Standardmodellspeicher zum Speichern einer Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen, welches Erkennungsobjekte sind; ein Stimmkennzeichenspeicher zum Speichern einer Vielzahl von Benutzerwörterbüchern entsprechend jeweils einer Vielzahl von Sprachen; eine ersten Sprachumschaltungseinheit zum Umschalten zwischen einer Vielzahl von Sprachen für den Geräusch-Standardmodellspeicher, um eine von der Vielzahl von Sprachen auszuwählen; eine zweite Sprachumschalteinheit zum Umschalten zwischen der Vielzahl von Sprachen für den Stimmkennzeichenspeicher, um eine von der Vielzahl von Sprachen auszuwählen; eine Steuereinheit zum Hervorrufen, dass die erste Sprachumschalteinheit und die zweite Sprachumschalteinheit in Synchronisation miteinander umschalten; eine akustische Analyseeinheit bzw. Akustikanalyseeinheit zum Durchführen eines akustischen Analyseprozesses auf einer eingegebenen Stimme, die durch einen Benutzer geäußert wird, um eine Merkmalsvektorzeitserie der durch den Benutzer geäußerten Stimme auszugeben; eine Stimmerkennungseinheit zum Erzeugen eines Stimmkennzeichen-Strings für die eingegebene Stimme, die durch den Benutzer geäußert wird, auf der Basis von sowohl der Merkmalsvektorzeitserie von der akustischen Analyseeinheit als auch Daten über ein Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welcher durch die erste Sprachumschalteinheit ausgewählt wird während verursacht wird, dass die erste Sprachumschalteinheit schaltet, und Registrieren des Stimmkennzeichen-Strings mit der Sprache für den Stimmkennzeichenspeicher, welcher durch die zweite Sprachumschalteinheit in Synchronisation mit der ersten Sprachumschalteinheit ausgewählt wird.
Die Stimmerkennungseinrichtung bzw. Stimmerkennungseinrichtung in Übereinstimmung mit der vorliegenden Erfindung ist in einer Weise konstruiert, um einen Stimmkennzeichen-String bzw. Sprachkennzeichen-String für eine eingegebene, durch einen Benutzer geäußerte, Stimme für jede Sprache basierend auf der Merkmalsvektorzeitserie der eingegebenen, durch einen Benutzer geäußerten, Stimme und den Daten über das Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welcher durch die erste Sprachumschalteinheit ausgewählt wird, zu erzeugen, und den Stimmkennzeichen-String mit der Sprache für den Stimmkennzeichenspeicher, welcher durch die zweite Sprachumschalteinheit ausgewählt ist, zu registrieren, während eines automatischen Umschaltens zwischen den Sprachen für den Geräusch-Standardmodellspeicher, welcher die Geräusch-Standardmodelle spepichert entsprechend jeweils den Sprachen, welche Erkennungsobjekte sind, und automatisches Umschalten zwischen den Sprachen für den Stimmkennzeichenspeicher, der die Benutzerwörterbücher speichert, entsprechend jeweils der Sprache, unter Verwendung der ersten Sprachumschalteinheit und der zweiten Sprachumschalteinheit, welche in Synchronisation miteinander arbeiten. Die Stimmerkennungseinheit kann daher einen Stimmkennzeichen-String entsprechend jeder durch den Benutzer geäußerten Stimme für jede Sprache erzeugen und den Stimmkennzeichen-String als ein Benutzerwörterbuch halten. Als ein Ergebnis kann, sogar wenn die Sprache, welche für die Stimmerkennung verwendet wird, geändert wird, die Stimmerkennungseinheit Stimmerkennung ausführen unter Verwendung von Stimmen, die durch den Benutzer geäußert wurden, unter Verwendung des Benutzerwörterbuchs.
Kurze Beschreibung der Figuren
1 ist ein Blockdiagramm, welches den Aufbau der Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 1 zeigt;
2 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf eine Operation zu der Zeit der Stimmerkennung in Übereinstimmung mit Ausführungsform 1 erklärt;
3 ist ein Flussdiagramm, welches eine Operation des Ausführens von Stimmerkennung mit Bezug auf einen Prozess zu der Zeit der Stimmerkennung in Übereinstimmung mit Ausführungsform 1 erklärt;
4 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 2 zeigt;
5 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf eine Operation zu der Zeit der Stimmregistrierung in Übereinstimmung mit Ausführungsform 2 zeigt;
6 ist ein Flussdiagramm, welches eine Operation des Ausführens von Stimmerkennung mit Bezug auf einen Prozess zu der Zeit der Stimmerkennung in Übereinstimmung mit Ausführungsform 1 erklärt;
7 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 3 zeigt;
8 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf einen Betrieb in dem Fall des Ausführens der erstmaligen Benutzerwörterbucherzeugung für eine Stimme n in Übereinstimmung mit Ausführungsform 3 erklärt;
9 ist ein Flussdiagramm, welches einen Betrieb erklärt des Durchführens von Stimmerkennung in einem Zustand, in welchem ein Benutzerwörterbuch entsprechend der Sprache n registriert ist in einem Stimmkennzeichenspeicher, in Übereinstimmung mit Ausführungsform 3;
10 ist ein Blockdiagramm, welches den Aufbau eines Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 4 zeigt;
11 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs entsprechend einer Sprache n unter Verwendung der Stimme des Benutzers zum Registrieren in Übereinstimmung mit Ausführungsform 4 erklärt; und
12 ist ein Flussdiagramm, welches einen Betrieb des Ausführens von Stimmerkennung erklärt in einem Zustand, in welchem ein Benutzerwörterbuch entsprechend der Sprache n in einem Stimmkennzeichenspeicher registriert ist, in Übereinstimmung mit Ausführungsform 4.
Ausführungsformen der Erfindung
Hiernach werden die bevorzugten Ausführungsformen der vorliegenden Erfindung im Detail mit Bezug auf die Zeichnungen beschrieben.
Ausführungsform 1
1 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 1 zeigt. Die Stimmerkennungseinrichtung ist mit einem Geräusch-Standardmodellspeicher 1, einem Stimmkennzeichenspeicher 2, einer akustischen Analyseeinheit bzw. Akustik-Analyseeinheit 4, die zu einem Stimmsignaleingabeende 3 verbunden ist, einer Stimmerkennungseinheit 5, einer Steuereinheit 6, Sprachumschalteinheiten SW1 bis SW3, und einer Erkennungs/Registrierungs-Umschalteinheit SW4 versehen.
Der Geräusch-Standardmodellspeicher 1 speichert eine Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen (von einer Sprache 1 bis einer Sprache N), welches Erkennungsobjekte sind.
Der Stimmkennzeichenspeicher 2 speichert eine Vielzahl von Benutzerwörterbüchern entsprechend jeweils der Vielzahl von Sprachen (der Sprache 1 bis zu der Sprache N). Die Benutzerwörterbücher sind in dem Stimmkennzeichenspeicher gehalten, wobei diese jeweils mit der Vielzahl von Stimmen (von der Stimme 1 bis zu der Stimme N) assoziiert sind.
Die akustische Analyseeinheit 4 führt einen akustischen Analyseprozess für eine Stimme durch, die durch einen Benutzer geäußert wird, und dahinein über das Stimmsignal-Eingabeende 3 eingegeben wird, und gibt entweder ein Leistungsspektrum der eingegebenen Stimme, die durch den Benutzer geäußert wird, oder eine Zeitserie einer Merkmalsmenge (Engl.: a time series of feature quantity), welche ähnlich zu dem Leistungsspektrum ist, als eine Merkmalsvektorzeitserie (Engl.: a vector feature time series), aus.
Wenn ein Benutzerwörterbuch erzeugt wird, empfängt die Stimmerkennungseinheit 5, als eine Eingabe, die Merkmalsvektorzeitserie, die von der akustischen Analyseeinheit 4 ausgegeben wird, verwendet die Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, welcher durch die Sprachumschalteinheit SW1 ausgewählt wird, um einen Stimmkennzeichen-String entsprechend der Merkmalsvektorzeitserie zu bestimmen, und speichert, als das Benutzerwörterbuch, den Stimmkennzeichen-String in einer von Benutzerwörterbuch-Speicherdestinationen entsprechend jeweils den Sprachen 1 bis N, welches durch die Sprachumschalteinheit SW2 ausgewählt wird.
Ferner empfängt, wenn ein Stimmerkennungsprozess ausgeführt wird, die Stimmerkennungseinheit 5, als eine Eingabe, die Merkmalsvektorzeitserie, die von der akustischen Analyseeinheit 4 ausgegeben wird, wenn die Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, welcher durch die Sprachumschalteinheit SW1 ausgewählt wird, und das Benutzerwörterbuch entsprechend der Sprache, welches durch die Sprachumschalteinheit SW3 ausgewählt wird, um den Stimmerkennungsprozess auf der oben genannten Merkmalsvektorzeitserie durchzuführen, und gibt die Erkennungsergebnisse mittels der Erkennungs/Registrierungs-Umschalteinheit SW4 aus.
Die Steuereinheit 6 führt eine Umschaltsteueroperation des Umschaltens der Erkennungs/Registrierungs-Umschalteinheit SW4 zu Erkennung aus, entsprechend einem Erkennungsänderungsbefehl, der von außerhalb der Stimmerkennungseinrichtung eingegeben wird, und, wenn die Registrierung, d. h. Benutzerwörterbucherzeugung, ausgeführt wird, schaltet die Sprachumschalteinheit SW2 in Antwort auf einen Umschaltanfragebefehl, welchen die Stimmerkennungseinheit 5 erzeugt, um, zu der Zeit, wenn die Merkmalsvektorzeitserie von der akustischen Analyseeinheit 4 eine Pause hat. Zu dieser Zeit schaltet die Sprachumschalteinheit SW1, welche in Synchronisation mit der Sprachumschalteinheit SW2 arbeitet, um.
Im Gegensatz hierzu, wenn der Stimmerkennungsprozess ausgeführt wird, führt die Steuereinheit einen Umschaltsteuerprozess des Umschaltens der Erkennungs/Registrierungs-Umschalteinheit SW4 zur Registrierung aus, entsprechend eines Registrierungsänderungsbefehls, der von außerhalb der Stimmerkennungseinrichtung eingegeben wird, und schaltet ebenfalls die Sprachumschalteinheit SW2 in einer Weise, dass diese Sprachumschalteinheit SW2 eine Sprache auswählt, die von außerhalb der Stimmerkennungseinrichtung spezifiziert ist. Zu dieser Zeit wird die Sprachumschalteinheit SW1, welche in Synchronisation mit der Sprachumschalteinheit SW2 arbeitet, umgeschaltet.
Die Sprachumschalteinheit SW1 gibt selektiv die Daten über eine der Vielzahl von Geräusch-Standardmodellen aus, welche einer Sprache entsprechen, wobei die Vielzahl von Daten über die Vielzahl von Geräusch-Standardmodellen entsprechend jeweils der Vielzahl von Sprachen (von der Sprache 1 bis zu der Sprache N) in dem Geräusch-Standardmodellspeicher 1 gespeichert sind.
Wenn ein Benutzerwörterbuch erzeugt wird, schaltet die Sprachumschalteinheit SW2 unter den Sprachen 1 bis N um, um eine der Senutzerwörterbuchspeicher-Destinationen in dem Stimmkennzeichenspeicher auszuwählen, in Synchronisation mit der Sprachumschalteinheit SW1.
Wenn Stimmerkennung ausgeführt wird, schaltet die Sprachumschalteinheit SW3 unter den Sprachen 1 bis N um, um eine der Benutzerwörterbuchlesequellen in dem Stimmerkennzeichenspeicher auszuwählen, in Synchronisation mit der Sprachumschalteinheit SW1.
Wenn ein Benutzerwörterbuch-Erzeugungsbefehl von außerhalb der Erkennungs/Registrierungs-Umschalteinheit SW4 empfangen wird, schaltet die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Verbindung mit der Sprachumschalteinheit SW2 um, während, wenn ein Stimmerkennungsbefehl von außerhalb der Erkennungs/Registrierungs-Umschalteinheit SW4 empfangen wird, die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Verbindung mit einem Ausgabeendgerät umschaltet.
Als Nächstes wird der Betrieb der Stimmerkennungseinrichtung beschrieben. 2 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf eine Operation zu der Zeit der Spracheregistrierung in Übereinstimmung mit Ausführungsform 1 erklärt. Wenn eine Benutzerwörterbuch erzeugt wird, schaltet die Steuereinheit 6 die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Registrierung um, um die Erkennungs/Registrierungs-Umschalteinheit SW4 mit der Sprachumschalteinheit SW2 zu verbinden, entsprechend einem Benutzerwörterbuch-Erzeugungsbefehl, der von außerhalb der Stimmerkennungseinrichtung eingegeben wird (Schritt ST1). Als ein Ergebnis wird die Ausgabedestination bzw. das Ausgabeziel eines Stimmkennzeichen-Strings, welchen die Stimmerkennungseinheit 5 ausgibt, zu dem Stimmkennzeichenspeicher 2 gesetzt.
Als Nächstes wird eine Stimme zur Registrierung, welche durch einen Benutzer geäußert wird, zu der Erkennungseinrichtung über das Stimmsignal-Eingabeende 3 eingegeben (Schritt ST2). Die akustische Analyseeinheit 4 führt eine akustische Analyse auf dem eingegebenen Stimmsignal bzw. Sprachsignal aus, und gibt eine Merkmalsvektorzeitserie aus (Schritt ST3). Nachfolgend substituiert die Stimmerkennungseinrichtung einen Initialwert von 1 in eine Variable n (Schritt ST4). Die Stimmerkennungseinrichtung verursacht dann, dass die Sprachumschalteinheit SW1 und die Sprachumschalteinheit SW2 entsprechend der Variable n umschalten. Als ein Ergebnis wird das Geräusch-Standardmodell in dem Geräusch-Standardmodellspeicher 1 entsprechend der Sprache, die durch die Variable n gezeigt wird, ausgewählt, und die Benutzerwörterbuchspeicherdestination in dem Stimmkennzeichenspeicher 2 entsprechend der Sprache, gezeigt durch die Variablen, wird simultan ausgewählt (Schritt ST5).
Die Stimmerkennungseinrichtung 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie von der akustischen Analyseeinheit 4, und erzeugt einen Stimmkennzeichen-String unter Verwendung der Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, entsprechend der Sprache, die durch die Variable n angezeigt wird, in dem Geräusch-Standardmodellspeicher 1 (Schritt ST6). Dann wird der oben genannte Stimmkennzeichen-String, welcher durch die Stimmerkennungseinheit 5 erzeugt wird, über die Erkennungs/Registrierungs-Umschalteinheit SW4 und die Sprachumschalteinheit SW2, in der Benutzerwörterbuch-Speicherdestination entsprechend der Sprache, die durch die Variable n angezeigt wird, in dem Stimmkennzeichenspeicher 2 (Schritt ST7), registriert.
Die Stimmerkennungseinrichtung bestimmt, ob die Variable n der Zahl von Sprachen N entspricht (Schritt ST8) und, wenn die Variable n nicht der Zahl von Sprachen N entspricht, ersetzt bzw. substituiert sie n + 1 in n und kehrt zurück zu Schritt ST5 (Schritt ST9). Im Gegensatz hierzu, wenn die Variable n der Zahl von Sprachen N entspricht, verschiebt die Stimmerkennungseinrichtung den Prozess zu Schritt ST10. Die Stimmerkennungseinrichtung bestimmt, in Schritt ST10, ob die nächste Stimmeingabe zur Registrierung auftritt, und wenn der Benutzer die nächste Stimme zur Registrierung äußert, kehr zu Schritt ST2 zurück. Im Gegensatz hierzu, wenn der Benutzer nicht die nächste Stimme zur Registrierung äußert, beendet die Stimmerkennungseinrichtung den Prozess des Erzeugens eines Benutzerwörterbuchs.
Durch Ausführen des oben genannten Prozesses registriert die Stimmerkennungseinrichtung automatisch eine Stimme zur Registrierung, welche der Benutzer äußert, um die Stimme in der Stimmerkennungseinrichtung zu registrieren, in dem Stimmkennzeichenspeicher 2 als Benutzerwörterbücher entsprechend jeweils den Sprachen 1 bis N unter Verwendung der Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, ähnlich entsprechend der Sprachen 1 bis N.
3 ist ein Flussdiagramm, welches einen Betrieb des Ausführens von Stimmerkennung mit Bezug auf einen Prozess des Ausführens von Stimmerkennung in Übereinstimmung mit Ausführungsform 1 erklärt. Zuerst verursacht die Steuereinheit 6, dass die Sprachumschalteinheit SW1 und die Sprachumschalteinheit SW3 in Synchronisation miteinander umschalten in einer Weise, dass die Stimmerkennungseinrichtung eine vorbestimmte Sprache erkennen kann, entsprechend einem Stimmerkennungsbefehl, welcher hierzu von außerhalb der Stimmerkennungseinrichtung eingegeben wurde (Schritt ST11). In dem oben genannten Beispiel wählt die Steuereinheit eine der Sprachen 1 bis N aus. Die Steuereinheit schaltet dann die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Verbindung mit der Ausgabe um, in einer Weise, dass die Stimmerkennungseinrichtung die Erkennungsergebnisse ausgeben kann (Schritt ST12).
Eine Stimme, die durch den Benutzer geäußert wird, wird dann zu der Stimmerkennungseinrichtung über das Stimmsignal-Eingabeende 3 als eine unbekannte eingegebene Stimme eingegeben (Schritt ST13). Die akustische Analyseeinheit 4 führt akustische Analyse der unbekannten eingegebenen Stimme, die hierzu eingegeben wurde, aus und gibt eine Merkmalsvektorzeitserie aus (Schritt ST14). Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie, die in Schritt ST14 erlangt wurde, führt einen Erkennungsprozess unter Verwendung sowohl der Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, entsprechend zu der Sprache, die in Schritt ST11 ausgewählt wurde, entsprechend dieser Merkmalsvektorzeitserie, als auch dem Benutzerwörterbuch, das in dem Stimmkennzeichenspeicher 2 registriert wurde (Schritt ST15), aus, gibt die Erkennungsergebnisse über die Erkennungs/Registrierungs-Umschalteinheit SW4 aus, und beendet dann den Stimmerkennungsprozess.
Sogar in einem Zustand, in welchem eine beliebige der Sprachen 1 bis N als die zu erkennende Zielsprache ausgewählt wird, kann die Stimmerkennungseinrichtung Stimmerkennung unter Verwendung eines Benutzerwörterbuchs, welches aus Stimmen zur Registrierung besteht, welche der Benutzer geäußert hat, durch Durchführen der oben genannten Operation ausführen.
Wie zuvor erwähnt, erzeugt die Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 1 einen Stimmkennzeichen-String entsprechend einer zu registrierenden Stimme, welche durch den Benutzer geäußert wird, für jede Sprache und hält den Stimmkennzeichen-String als ein Benutzerwörterbuch durch Ausführen des Prozesses des Erzeugens und Haltens des Stimmkennzeichen-Strings für die eingegebene Stimme, während eines automatischen Umschaltens zwischen den Sprachen für den Geräusch-Standardmodellspeicher, welcher verwendet wird, um Stimmkennzeichen-Strings zu erzeugen, während automatischem Umschalten unter den Sprachen für den Stimmkennzeichenspeicher zum Halten der erzeugten Stimmkennzeichen-String unter Verwendung der ersten Sprachumschalteinheit und der zweiten Sprachumschalteinheit. Als ein Ergebnis kann, sogar wenn die für die Stimmerkennung verwendete Sprache geändert wird, die Stimmerkennungseinheit Stimmerkennung unter Verwendung der registrierten Stimmen, welche der Benutzer geäußert hat, ausführen.
Ausführungsform 2
4 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 2 zeigt. Die Stimmerkennungseinrichtung in Übereinstimmung mit dieser Ausführungsform beinhaltet eine Sprachauswahleinheit 7 zusätzlich zu der Struktur in Übereinstimmung mit Ausführungsform 1, die in 1 gezeigt ist, und die anderen strukturellen Komponenten der Stimmerkennungseinrichtung sind die gleichen wie die von Ausführungsform 1, die in 1 gezeigt wird, und daher wird eine wiederholte Erklärung dieser Komponenten weggelassen.
Die Sprachänderungseinheit 7 wählt eine Sprache entsprechend Sprachspezifikationsdaten, die durch einen Benutzer eingegeben werden, aus und meldet die Sprache zu einer Steuereinheit 6. Die Steuereinheit 6 steuert entweder eine Sprachumschalteinheit SW1 und eine Sprachumschalteinheit SW2 oder die Sprachumschalteinheit SW1 und eine Sprachumschalteinheit SW3 entsprechend der Sprache, die mitgeteilt wurde, in einer Weise, dass diese in Synchronisation miteinander umschalten.
Als Nächstes wird die Operation bzw. der Betrieb der Stimmerkennungseinrichtung beschrieben. 5 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs in Übereinstimmung mit Ausführungsform 2 erklärt. Da die Operationen in den Schritten ST21 bis ST24 die gleichen sind wie die in den Schritten ST1 bis ST4 in Übereinstimmung mit Ausführungsform 1, wird eine wiederholte Erklärung der Operationen hiernach weggelassen.
Dann bestimmt, bei Verwendung der Sprachspezifikationsdaten ..., FIg(m) (die Sprachspezifikationsdaten sind definiert für m = 1, N und haben einen Wert von 0 oder 1), die Sprachauswahleinheit 7, ob FIg(n) = 1 ist (Schritt ST25) und führt einen Übergang zu einer Operation von Schritt ST26 aus, wenn FIG(n) = 1 ist, oder führt einen Übergang zu einer Operation von Schritt ST29 aus, wenn FIg(n) = 0 ist. Hiernach wird, da die Operationen in den Schritten ST26 bis ST31 die gleichen sind wie die in den Schritten ST5 bis ST10 in Übereinstimmung mit Ausführungsform 1, eine wiederholte Erläuterung der Operationen hiernach weggelassen.
Mit der oben genannten Struktur und durch Durchführen der oben genannten Operationen registriert die Stimmerkennungseinrichtung automatisch eine Stimme zur Registrierung, welche der Benutzer äußert, um die Stimme in der Stimmerkennungseinrichtung zu registrieren, in einen Stimmkennzeichenspeicher 2 für die Sprache n, welche die Bedingung FIg(n) = 1 in den Sprachspezifikationsdaten (m) (m = 1, ..., N) erfüllt unter Verwendung eines Geräusch-Standardmodellspeichers 1 entsprechend der Sprache n, als ein Benutzerwörterbuch ähnlich entsprechend zu dieser Sprache n. Als ein Ergebnis kann die Stimmerkennungseinrichtung vermeiden, Benutzerwörterbücher für alle der N Stimmen zu erzeugen durch einfaches Setzen von FIg(n) = 1 nur für die Stimme n, welche der Benutzer verwendet, wodurch die Zeit, die für die Benutzerwörterbucherzeugung benötigt wird, verkürzt wird. Ferner kann die Kapazität für den Stimmkennzeichenspeicher 2 zum Speichern der Benutzerwörterbücher gespart werden.
6 ist ein Flussdiagramm, welches einen Betrieb bzw. eine Operation des Ausführens von Stimmerkennung unter Verwendung der Benutzerwörterbücher erklärt, die wie oben beschrieben wurden. Die Sprachauswahleinheit 7 befehligt die Steuereinheit 6, um in der Lage zu sein, eine Stimme in der Sprache n, welche die Bedingung FIg(n) = 1 erfüllt, in den Sprachspezifikationsdaten zu erkennen. Die Steuereinheit 6 setzt die Sprachumschalteinheit SW1 und die Sprachumschalteinheit SW3 entsprechend dem Befehl in einer Weise, dass diese zu der vorbestimmten Sprache in Synchronisation miteinander umschaltet (Schritt ST41). Die Steuereinheit schaltet ebenfalls die Erkennungs/Registrierungs-Umschalteinheit SW4 zur Registrierung um (Schritt ST42). Hiernach wird, da die Operationen in den Schritten ST43 bis ST45 die gleichen sind wie die in den Schritten ST13 bis ST15 in Übereinstimmung mit Ausführungsform 1, eine wiederholte Erklärung der Operationen weggelassen.
Sogar in einem Fall, in welchem die Sprache n, welche durch die Sprachspezifikationsdaten spezifiziert werden kann, d. h. deren Hinweissymbol (Engl.: flag) FIg(n) auf 1 gesetzt ist, als die zu erkennende Zielsprache gesetzt ist, kann die Stimmerkennungseinrichtung Stimmerkennung unter Verwendung des Benutzerwörterbuchs, welches aus Stimmen zur Registrierung besteht, welche der Benutzer geäußert hat durch Durchführen der oben genannten Operation ausführen.
Daher kann, da die Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 2 in einer Weise konstruiert ist um zu verursachen, dass die Sprachumschalteinheit SW1 und die Sprachumschalteinheit SW2, welche in Synchronisation miteinander arbeiten, Umschalten entsprechend den Sprachspezifikationsdaten, die hierzu von außerhalb der Stimmerkennungseinrichtung bereitgestellt werden, die Stimmerkennungseinrichtung selektiv ein Benutzerwörterbuch nur für die Sprache entsprechend den Sprachspezifikationsdaten, bereitgestellt durch den Benutzer des Systems, erzeugen. Daher kann die Stimmerkennungseinrichtung die Zeit, die für die Wörterbucherzeugung benötigt wird, verkürzen. Ferner kann die Menge der Verwendung des Stimmkennzeichenspeichers 2 reduziert werden.
Ausführungsform 3
7 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 3 der vorliegenden Erfindung zeigt. Ein Stimmkennzeichenspeicher 2a speichert ein Benutzerwörterbuch entsprechend einer bestimmten Sprache n (n = 1 bis N) für nur die eine Sprache. Ein Stimmdatenspeicher 8 nimmt auf und speichert eine Stimme, welche hierzu über ein Stimmsignal-Eingabeende 3 eingegeben wird. Da andere Komponenten, beinhaltend einen Geräusch-Standardmodellspeicher 1, das Stimmsignal-Eingabeende 3, eine akustische Analyseeinheit 4, eine Stimmerkennungseinheit 5, eine Steuereinheit 6, eine Sprachumschalteinheit SW1, eine Erkennungs/Registrierungs-Umschalteinheit SW4, die gleichen sind wie die in der Struktur in Übereinstimmung mit Ausführungsform 1, gezeigt in 1, wird eine wiederholte Erklärung der Komponenten hiernach weggelassen.
Als Nächstes wird die Operation bzw. der Betrieb der Stimmerkennungseinrichtung beschrieben. 8 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf eine Operation des erstmaligen Ausführens einer Benutzerwörterbucherzeugung für die Sprache n in Übereinstimmung mit Ausführungsform 3 erklärt.
Zuerst schaltet die Steuereinheit 6 die Sprachumschalteinheit SW1 zu einer Position, an welcher die Sprachumschalteinheit eine Sprache n auswählt entsprechend der Auswahl der Sprache n, welche hierzu von außerhalb der Stimmerkennungseinrichtung mitgeteilt wird, in einer Weise, dass die Steuereinheit 1 ein Benutzerwörterbuch für die Sprache n erzeugt (Schritt ST51). Als Nächstes schaltet die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Registrierung (Schritt ST52). Als ein Ergebnis wird die Ausgabe bzw. das Ausgabeziel eines Stimmkennzeichen-Strings, welchen die Stimmerkennungseinheit 5 ausgibt, zu dem Stimmkennzeichenspeicher 2a gesetzt.
Dann wird eine Stimme zur Registrierung, welche durch einen Benutzer geäußert wird, zu der Stimmerkennungseinrichtung über das Stimmsignal-Eingabeende 3 eingegeben (Schritt ST53). Die eingegebene Stimme zur Registrierung wird in dem Stimmdatenspeicher 8 gespeichert (Schritt ST54). Ferner führt die akustische Analyseeinheit 4 akustische Analyse auf dem eingegebenen Stimmsignal zur Registrierung aus, und gibt eine Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST55).
Die Stimmerkennungseinheit 5 gibt die oben genannte Merkmalsvektorzeitserie ein und bestimmt einen Stimmkennzeichen-String unter Verwendung der Daten über ein Geräuschstandardmodel entsprechend der Sprache, die durch die Variable n angezeigt wird, in dem Geräuschstandardmodelspeicher 1 (Schritt ST56). Der oben genannten Stimmkennzeichen-String, den die Stimmkennzeicheneinheit 5 erzeugt hat, wird, als ein Benutzerwörterbuch, in dem Stimmkennzeichenspeicher 2a über die Erkennungs/Registrierungs-Umschalteinheit SW4 registriert (Schritt ST57). Die Steuereinheit bestimmt dann, ob die nächste Stimme zur Registrierung auftritt, oder ob nicht, (Schritt ST58), und, wenn der Benutzer die nächste Stimme zur Registrierung geäußert hat, kehrt zu Schritt ST53 zurück und wiederholt die oben genannten Operationen in den Schritten ST53 bis ST57. Wenn der Benutzer keine weitern Stimmen zur Registrierung geäußert hat, beendet die Steuereinheit den Benutzerwörterbuch-Erzeugungsprozess.
Der oben genannte Prozess ist derjenige, der für die erstmalige Registrierung für die Sprache n ausgeführt wird. Durch die Serie von Operationen, während die Stimmdaten über die Stimmen zur Registrierung, die durch den Benutzer geäußert wurden, in dem Stimmdatenspeicher 8 gespeichert sind, wird das Benutzerwörterbuch entsprechend der Sprache n in dem Stimmkennzeichenspeicher 2a registriert.
9 ist ein Flussdiagramm, welches eine Operation erklärt des Durchführens von Stimmerkennung auf einer Stimme zur Registrierung, die durch einen Benutzer geäußert wurde, in einem Zustand, in welchem die Stimmdaten über die Stimmen zur Registrierung, die durch den Benutzer geäußert wurden, in dem Stimmdatenspeicher 8 gespeichert sind, und das Benutzerwörterbuch entsprechend der Sprache n in dem Stimmkennzeichenspeicher 2a, wie oben erwähnt, registriert wird.
Zuerst bestimmt die Steuereinheit 6, ob die Sprachumschalteinheit SW1 umzuschalten ist oder ob nicht, um die zu erkennende Sprache umzuschalten entsprechend einem Stimmerkennungsbefehl, welcher hierzu von außerhalb der Stimmerkennungseinrichtung eingegeben wird (Schritt ST61). Wenn die Stimmerkennungseinheit die zu erkennende Sprache nicht ändern muss, d. h. die Sprachumschalteinheit SW1 die Auswahl der Sprache n beibehält, bewegt die Steuereinheit sich zu einer Operation von Schritt ST62. In Schritt ST62 schaltet die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit SW4 zu Erkennung. Eine Stimme, die durch einen Benutzer geäußert wird, wird dann zu der Stimmerkennungseinheit über das Stimmsignal-Eingabeende 3 als eine unbekannte eingegebene Stimme eingegeben (Schritt ST63). Die akustische Analyseeinheit 4 führt akustische Analyse auf der unbekannten eingegebenen Stimme, die hierzu eingegeben wird, aus und gibt eine Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST64). Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie, die in Schritt ST64 erlangt wird, führt einen Erkennungsprozess unter Verwendung sowohl der Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, entsprechend der Sprache n, als auch dem Benutzerwörterbuch, registriert in dem Stimmkennzeichenspeicher 2a, aus (Schritt ST65), gibt die Erkennungsergebnisse über die Erkennungs/Registrierungs-Umschalteinheit SW4 aus, und beendet dann den Stimmerkennungsprozess.
Ein Betrieb in dem Fall, in Schritt ST61, des Umschaltens der Sprachumschalteinheit SW1 zu einer anderen Sprache als die Sprache n wird hiernach beschrieben. In diesem Fall bewegt die Steuereinheit den Prozess zu einer Operation von Schritt ST66 und schaltet die Sprachumschalteinheit SW1 zu einer Sprache n', anders als die Sprache n. Die Steuereinheit schaltet die Erkennungs/Registrierungs-Umschalteinheit SW4 dann zu Registrierung (Schritt ST67). Die akustische Analyseeinheit 4 liest Stimmdaten, die in dem Stimmkennzeichenspeicher 2a gespeichert sind (Schritt ST68). Die akustische Analyseeinheit 4 bestimmt dann eine Merkmalsvektorzeitserie entsprechend den gelesenen Stimmdaten und gibt die Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST69). Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie, die in Schritt ST69 erlangt wurde, und erzeugt einen Stimmkennzeichen-String unter Verwendung der Daten über das Geräusch-Standardmodell in dem Geräusch-Standardmodellspeicher 1 entsprechend der Sprache n', die in Schritt ST66 ausgewählt wurde (Schritt ST70).
Die Stimmerkennungseinheit registriert dann den erzeugten Stimmkennzeichen-String, als ein Benutzerwörterbuch, in dem Stimmkennzeichenspeicher 2a (Schritt ST71). Die Steuereinheit überprüft dann, ob in Schritten ST69 bis ST71 Stimmdaten zu verarbeiten bleiben (Schritt ST72), und, wenn Stimmdaten zu bearbeiten bleiben, kehrt zu Schritt ST68 zurück und führt wiederholt die Operationen der Schritte ST69 bis ST71 auf den übrigen Stimmdaten durch. Wenn keine Stimmdaten mehr zu bearbeiten bleiben, verschiebt die Steuereinheit den Prozess der Operation zu Schritt ST62. Da die Operationen in Schritt ST62 und den nachfolgenden Schritten die gleichen sind wie die oben beschriebenen Operationen, die in dem Fall durchgeführt werden, in welchem die Sprachumschalteinheit SW1 bei der Sprache n gehalten wird, ohne geschaltet zu werden, wird eine wiederholte Erklärung der Operationen unterlassen.
Wenn zu der Sprache n' umgeschaltet wird, erzeugt die Stimmerkennungseinrichtung unverzüglich ein Benutzerwörterbuch entsprechend der Sprache n' unter Verwendung der Stimmdaten, die in dem Stimmdatenspeicher 8 aufgezeichnet sind, und speichert das Benutzerwörterbuch in dem Stimmkennzeichenspeicher 2a durch die oben genannten Operationen. Daher kann, auch wenn die Sprache n' in der Stimmerkennungseinrichtung ausgewählt wird, die Stimmerkennungseinrichtung Stimmerkennung unter Verwendung des Benutzerwörterbuchs ausführen. Ferner, in Übereinstimmung mit Ausführungsform 3, wie oben beschrieben, da der Stimmerkennzeichenspeicher 2a nur einen Speicherbereich äquivalent zu einer Sprache sichert, kann die Kapazität des Speichers reduziert werden.
Wie zuvor beschrieben, kann, da die Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 3 den Stimmdatenspeicher 8 zum Halten der registrierten Stimmen, die durch einen Benutzer geäußert werden, hält, um es der akustischen Analyseeinheit 4 zu ermöglichen, eine akustische Analyse unter Verwendung der oben genannten registrierten Stimmen auszuführen, die Stimmerkennungseinrichtung die Notwendigkeit elimieren einen Speicherbereich jeder Stimme in dem Stimmkennzeichenspeicher 2a zu sichern, und, sogar wenn die Sprache, welche das Stimmerkennungssystem verwendet, geändert wird, kann die registrierten Stimmen, die durch einen Benutzer geäußert wurden, verwenden, welche in dem Stimmdatenspeicher 8 aufgezeichnet sind, um ein Benutzerwörterbuch entsprechend der ausgewählten Sprache zu erzeugen und Stimmerkennung unter Verwendung des Benutzerwörterbuchs ausführen.
Ausführungsform 4
10 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 4 der vorliegenden Erfindung zeigt. Die Stimmerkennungseinrichtung hat einen Geräuschdatenspeicher 9 zum Aufnehmen und Speichern einer Merkmalsvektorzeitserie, welche eine akustische Analyseeinheit 4 ausgibt, für eine Stimme zum Registrieren, die durch einen Benutzer geäußert wird, anstatt des Stimmdatenspeichers 8 in Übereinstimmung mit Ausführungsform 3. Da die anderen strukturellen Komponenten der Stimmerkennungseinrichtung die gleichen sind wie die in der Struktur bzw. des Aufbaus in Übereinstimmung mit Ausführungsform 3, wird eine doppelte Erklärung der anderen strukturellen Komponenten hiernach weggelassen.
Als Nächstes wird ein Betrieb des Ausführens von Stimmerkennung in einem Zustand, in welchem eine Merkmalsvektorzeitserie entsprechend einer Stimme zur Registrierung, die durch einen Benutzer geäußert wird, in dem Geräuschdatenspeicher 9 gespeichert ist, und ein Benutzerwörterbuch entsprechend einer Sprache n in einem Stimmerkennzeichenspeicher 2a registriert ist, erklärt.
11 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs entsprechend zu der Sprache n erklärt unter Verwendung von Stimmen zur Registrierung, die durch einen Benutzer geäußert wurden, bezogen auf (einen Fall des Ausführens einer erstmaligen Benutzerwörterbuch-Erzeugung für die Sprache n) in Übereinstimmung mit Ausführungsform 4. Zuerst schaltet die Stimmerkennungseinrichtung eine Sprachumschalteinheit SW1 zu der Sprache n, für welche die Stimmerkennungseinrichtung eine Erzeugung eines Benutzerwörterbuchs ausführt (Schritt ST81).
Die Stimmerkennungseinrichtung schaltet dann eine Erkennungs/Registrierungs-Umschalteinheit SW4 zu Registrierung (Schritt ST82). Als ein Ergebnis wird die Ausgabedestination eines Stimmkennzeichen-Strings, welcher eine Stimmerkennungseinrichtung 5 ausgibt, zu dem Stimmkennzeichenspeicher 2a gesetzt. Dann wird eine Stimme zur Erkennung, welche durch einen Benutzer geäußert wird, zu der Stimmerkennungseinrichtung über ein Stimmsignal-Eingabeende 3 eingegeben (Schritt ST83). Die akustische Analyseeinheit 4 führt akustische Analyse auf dem eingegebenen Stimmsignal zur Registrierung aus und gibt eine Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST84).
Die Merkmalsvektorzeitserie, die in Schritt ST84 erlangt wird, wird aufgezeichnet und in dem Geräuschdatenspeicher 9 gespeichert (Schritt ST85). Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die oben genannte Merkmalsvektorzeitserie und erzeugt einen Stimmkennzeichen-String unter Verwendung der Daten über ein Geräusch-Standardmodell entsprechend der Sprache, die durch die Variable n angezeigt wird, in einem Geräusch-Standardmodellspeicher 1 (Schritt ST86).
Der oben genannte Stimmkennzeichen-String, welchen die Stimmerkennungseinheit 5 erzeugt hat, wird als ein Benutzerwörterbuch in dem Stimmerkennzeichenspeicher 2a über die Erkennungs/Registrierungs-Umschalteinheit SW4 registriert (Schritt ST87). Die Steuereinheit bestimmt dann, ob die nächste Stimme zur Erkennung auftritt oder ob nicht, und, wenn der Benutzer die nächste Stimme zur Erkennung geäußert hat, kehrt zu Schritt ST83 zurück und wiederholt die Operationen in Schritten ST83 bis ST88. Wenn der Benutzer keine weiteren Stimmen zur Registrierung geäußert hat, beendet die Steuereinheit den Benutzerwörterbuch-Erzeugungsprozess (Schritt ST88).
Der oben genannte Prozess ist derjenige, der für die erstmalige Stimmregistrierung für die Sprache n ausgeführt wird. Durch die Serie von Operationen, während die Merkmalsvektorzeitserien von Stimmen zur Registrierung, die durch einen Benutzer geäußert wurden, in dem Geräuschdatenspeicher 9 gespeichert werden, wird das Benutzerwörterbuch entsprechend der Sprache n in dem Stimmkennzeichenspeicher 2a registriert.
12 ist ein Flussdiagramm, welches eine Operation des Durchführens von Stimmerkennung auf einer Stimme zur Registrieren, die durch einen Benutzer geäußert wird, in einem Zustand, in welchem die Merkmalsvektorzeitserie der Stimme in dem Geräuschdatenspeicher 9 gespeichert ist, und das Benutzerwörterbuch entsprechend der Sprache n dem Stimmkennzeichenspeicher 2a registriert ist, wie oben beschrieben, erklärt.
Zuerst bestimmt die Steuereinheit 6, ob die Sprachumschalteinheit SW1 umgeschaltet werden soll, um die zu erkennende Sprache zu ändern, entsprechend eines Stimmerkennungsbefehls, welcher hierzu von außerhalb der Stimmerkennungseinrichtung eingegeben wird (Schritt ST91).
Wenn Sprachumschalteinheit SW1 die Auswahl der Sprache n beibehält, geht die Steuereinheit zur Operation ST92. Die Steuereinheit schaltet, in Schritt ST92, die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Erkennung. Eine Stimme, die durch einen Benutzer geäußert wird, wird dann, in Schritt ST93, zu der Stimmerkennungseinrichtung über das Stimmsignal-Eingabeende 3 als eine unbekannte eingegebene Stimme eingegeben. Die akustische Analyseeinheit 4 führt akustische Analyse auf der unbekannten eingegebenen Stimme, die dazu eingegeben wird, aus und gibt eine Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST94).
Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie, die in Schritt ST94 erlangt wurde, führt einen Erkennungsprozess unter Verwendung der Daten, die in dem Geräusch-Standardmodellspeicher 1 entsprechend der Sprache n gespeichert sind und dem Benutzerwörterbuch, das in dem Stimmerkennzeichenspeicher 2 gespeichert ist, aus (Schritt ST95), und gibt die Erkennungsergebnisse über die Erkennungs/Registrierungs-Umschalteinheit SW4 aus.
Als Nächstes, wenn, in Schritt ST91, die Auswahl der Sprachumschalteinheit SW4 zu einer Sprache anders als die Sprache n umgeschaltet wird, verschiebt die Steuereinheit zu Schritt ST96 und schaltet die Sprachumschalteinheit SW1 zu einer Sprache n', die anders ist als die Sprache n, und schaltet ebenfalls die Erkennungs/Registrierungs-Umschalteinheit SW4 zu Registrierung (Schritt ST97). Die Stimmerkennungseinheit 5 liest die Merkmalsvektorzeitserie entsprechend einer Stimme zur Registrierung, die in dem Geräuschdatenspeicher 9 gespeichert ist (Schritt ST98).
Die Stimmerkennungseinheit 5 empfängt dann, als eine Eingabe, die Merkmalsvektorzeitserie und erzeugt einen Stimmkennzeichen-String unter Verwendung der Daten über das Geräusch-Standardmodell entsprechend der Sprache n', die in Schritt ST96 ausgewählt wurde (Schritt ST99). Die Stimmerkennungseinheit registriert dann den erlangten Stimmkennzeichen-String, als ein Benutzerwörterbuch, in dem Stimmerkennzeichenspeicher 2a über die Erkennungs/Registrierungs-Umschalteinheit SW4 (Schritt ST100).
Die Steuereinheit prüft dann, ob eine Merkmalsvektorzeitserie in den Schritten ST99 bis ST100 in dem Geräuschdatenspeicher 9 zu verarbeiten bleibt (Schritt ST101), und, wenn eine Merkmalsvektorzeitserie zu verarbeiten bleibt, kehrt zu Schritt ST98 zurück und führt wiederholt die Operation der Schritte ST99 bis ST101 auf den bleibenden Stimmdaten aus. Wenn keine Merkmalsvektorzeitserien zu verarbeiten bleiben, verschiebt die Steuereinheit den Prozess zu einer Operation in Schritt ST92. Weil die Operationen in Schritt ST92 und in nachfolgenden Schritten dieselben sind wie die oben genannten Operation, die in dem Fall in welchem die Sprachumschalteinheit SW1 bei der Sprache n ohne Umschalten durchgeführt werden, wird eine doppelte Erklärung der Operationen hiernach vernachlässigt.
Wenn zu einer Sprache n' umgeschaltet wird, erzeugt die Stimmerkennungseinrichtung unverzüglich ein Benutzerwörterbuch entsprechend der Sprache n' unter Verwendung der Merkmalsvektorzeitserie, die in dem Geräuschdatenspeicher 9 aufgezeichnet ist, und speichert das Benutzerwörterbuch in dem Stimmerkennzeichenspeicher 2a durch die oben genannten Operationen. Daher kann, auch wenn die Sprache n' in der Stimmerkennungseinrichtung ausgewählt wird, die Stimmerkennungseinrichtung Stimmerkennung unter Verwendung des Benutzerwörterbuchs ausführen. Ferner kann, in Übereinstimmung mit Ausführungsform 4, da der Stimmerkennzeichenspeicher 2a nur einen Speicherbereich äquivalent zu einer Sprache sichert, die Kapazität des Stimmerkennzeichenspeichers reduziert werden. Zusätzlich kann, da die Stimmerkennungseinrichtung den Geräuschdatenspeicher 9 beinhaltet zum Speichern der Merkmalsvektorzeitserie, auf welchem die akustische Analyse durchgeführt wurde, die Stimmerkennungseinrichtung die Menge von arithmetischen Operationen im Vergleich zu dem Fall von Ausführungsform 3 reduzieren und kann den Erzeugungsprozess des Benutzerwörterbuchs beschleunigen.
Folglich hält die Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 4 die Merkmalsvektorzeitserie, welche die akustische Analyseeinheit 4 erlangt hat, durch Ausführen akustischer Analyse, in dem Geräuschdatenspeicher 9, und erzeugt einen Geräuschkennzeichen-String unter Verwendung oben genannter Merkmalsvektorzeitserie, die in diesem Geräuschdatenspeicher 9 erhalten wird, mittels der Stimmerkennungseinheit 5. Als ein Ergebnis kann, sogar wenn die Sprache, die das Stimmerkennungssystem verwendet, geändert wird, die Stimmerkennungseinrichtung ein Benutzerwörterbuch entsprechend einer ausgewählten Sprache erzeugen unter Verwendung der Merkmalsvektorzeitserie von Stimmen, die durch einen Benutzer geäußert wurden, welche in dem Geräuschdatenspeicher 9 gehalten werden ohne einen Speicherbereich für jede Sprache in dem Stimmerkennzeichenspeicher 2a zu sichern, und kann Stimmerkennung unter Verwendung dieses Benutzerwörterbuchs ausführen.
Industrielle Anwendbarkeit
Da die Stimmerkennungseinrichtung in Übereinstimmung mit der vorliegenden Erfindung ein Benutzerwörterbuch für jede Sprache für Stimmen, die durch einen Benutzer geäußert wurden, erzeugen kann, ist die Stimmerkennungseinrichtung in Übereinstimmung mit der vorliegenden Erfindung geeignet zur Verwendung als eine Stimmerkennungseinrichtung oder Ähnliches, welche verwendet wird, wenn der Benutzer gewünschte Worte in ein Äquivalent einer Fremdsprache umwandeln will und diese speichern will.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2001-282788 A [0007]
JP 2002-247646 A [0007]

Claims

Stimmerkennungseinrichtung, umfassend: einen Geräusch-Standardmodellspeicher zum Speichern einer Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen, welche Erkennungsobjekte sind; einen Stimmkennzeichenspeicher zum Speichern einer Vielzahl von Benutzerwörterbüchern entsprechend jeweils einer Vielzahl von Sprachen; eine erste Sprachumschalteinheit zum Umschalten zwischen einer Vielzahl von Sprachen für den Geräusch-Standardmodellspeicher, um eine der Vielzahl von Sprachen auszuwählen; eine zweite Sprachumschalteinheit zum Umschalten zwischen der Vielzahl von Sprachen für den Stimmkennzeichenspeicher, um eine der Vielzahl von Sprachen auszuwählen; eine Steuereinheit zum Verursachen, dass die erste Sprachumschalteinheit und die zweite Sprachumschalteinheit in Synchronisation miteinander schalten; eine akustische Analyseeinheit zum Durchführen eines akustischen Analyseprozesses auf einer eingegebenen Stimme, die durch einen Benutzer geäußert wird, um eine Merkmalsvektorzeitserie der Stimme, die durch den Benutzer geäußert wird, auszugeben; und eine Stimmerkennungseinheit zum Erzeugen eines Stimmkennzeichen-Strings für die eingegebene Stimme, die durch einen Benutzer geäußert wird, auf der Basis sowohl der Merkmalsvektorzeitserie von der akustischen Analyseeinheit, als auch Daten über ein Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welche durch die erste Sprachumschalteinheit ausgewählt wird, während verursacht wird, dass die erste Sprachumschalteinheit umschaltet, und Registrieren des Stimmkennzeichen-Strings mit der Sprache für den Stimmkennzeichenspeicher, welcher durch die zweite Sprachumschalteinheit in Synchronisation mit der ersten Sprachumschalteinheit (1) ausgewählt wird.
Stimmerkennungseinrichtung nach Anspruch 1, wobei die Stimmerkennungseinrichtung beinhaltet eine dritte Sprachumschalteinheit zum Umschalten zwischen der Vielzahl von Sprachen für den Stimmkennzeichenspeicher, um eine der Vielzahl von Sprachen auszuwählen, und eine Erkennungs/Registrierungs-Umschalteinheit zum Auswählen, ob Erkennungsergebnisse der Erkennungseinheit zu außerhalb der Stimmerkennungseinrichtung ausgegeben werden sollen oder die Erkennungsergebnisse in dem Stimmkennzeichenspeicher registriert werden sollen, und wobei die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit zu Erkennung umschaltet in Übereinstimmung mit einem Ausgabebefehl, und ebenfalls verursacht, dass die erste Sprachumschalteinheit und die dritte Sprachumschalteinheit in Synchronisation miteinander umschalten, und die Stimmerkennungseinheit ein Stimmkennzeichen für die eingegebene Stimme, die durch den Benutzer geäußert wird, von dem Stimmkennzeichenspeicher liest basierend auf sowohl der Merkmalsvektorzeitserie der eingegebenen Stimme, die durch den Benutzer geäußert wird, al auch den Daten über das Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welche durch die erste Sprachumschalteinheit (1) ausgewählt wird, während verursacht wird, dass die erste Sprachumschalteinheit (1) umschaltet, und das Stimmkennzeichen über die Erkennungs/Registrierungs-Umschalteinheit ausgibt.
Stimmerkennungseinrichtung nach Anspruch 1, wobei die Stimmerkennungseinrichtung beinhaltet eine Sprachumschalteinheit zum Auswählen einer Sprache in Übereinstimmung mit Sprachspezifikationsdaten, die dafür von außerhalb der Stimmerkennungseinrichtung bereitgestellt werden, und die Steuereinheit verursacht, dass die erste Sprachumschalteinheit und die zweite Sprachumschalteinheit in Synchronisation miteinander umschalten in einer Weise, dass die erste und zweite Sprachumschalteinheit eine Sprache auswählen entsprechend der Sprache, die durch die Sprachauswahleinheit in Übereinstimmung mit der Sprache ausgewählt wurde.
Eine Stimmerkennungseinrichtung, umfassend: einen Geräusch-Standardmodellspeicher zum Speichern einer Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen, welches Erkennungsobjekte sind; einen Stimmkennzeichenspeicher zum Speichern eines Benutzerwörterbuchs; eine erste Sprachumschalteinheit zum Umschalten zwischen einer Vielzahl von Sprachen für den Geräusch-Standardmodellspeicher, um eine der Vielzahl von Sprachen auszuwählen; eine Steuereinheit zum Steuern der ersten Sprachumschalteinheit zu einer spezifizierten Sprachumschaltposition in Übereinstimmung mit einer spezifizierten Sprache; einen Stimmdatenspeicher zum Halten einer Stimme, die durch einen Benutzer geäußert wird; eine akustische Analyseeinheit zum Durchführen eines akustischen Analyseprozesses auf einer eingegebenen Stimme, die durch einen Benutzer geäußert wird, oder der Stimme, die durch einen Benutzer geäußert wird, welche von dem Stimmdatenspeicher ausgelesen wird, um eine Merkmalsvektorzeitserie von der Stimme, die durch den Benutzer geäußert wird, auszugeben; und eine Stimmerkennungseinheit zum Erzeugen eines Stimmkennzeichens für die Stimme, die durch den Benutzer geäußert wird, in Übereinstimmung mit sowohl Daten über ein Geräusch-Standardmodell entsprechend der Sprache, die durch eine erste Sprachumschalteinheit ausgewählt wird, als auch der Merkmalsvektorzeitserie und Registrieren des Stimmkennzeichens in dem Stimmkennzeichenspeicher.
Stimmerkennungseinrichtung, umfassend: einen Geräusch-Standardmodellspeicher zum Speichern einer Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen, welches Erkennungsobjekte sind; einen Stimmkennzeichenspeicher zum Speichern eines Benutzerwörterbuchs; eine erste Sprachumschalteinheit zum Umschalten zwischen einer Vielzahl von Sprachen für den Geräusch-Standardmodellspeicher, um eine der Vielzahl von Sprachen auszuwählen; eine Steuereinheit zum Umschalten der ersten Sprachumschalteinheit zu einer spezifizierten Sprachauswahlposition in Übereinstimmung mit einer spezifizierten Sprache; eine akustische Analyseeinheit zum Durchführen eines akustischen Analyseprozesses auf einer eingegebenen Stimme, die durch einen Benutzer geäußert wird, um eine Merkmalsvektorzeitserie der Stimme, die durch den Benutzer geäußert wird, auszugeben; ein Geräuschdatenspeicher zum Halten der Merkmalsvektorzeitserie, welche die akustische Analyseeinheit erlangt hat durch Durchführen der akustischen Analyse auf der eingegebenen Stimme, die durch den Benutzer geäußert wird; und eine Stimmerkennungseinheit zum Erzeugen eines Stimmkennzeichens für die Stimme, die durch den Benutzer geäußert wird, in Übereinstimmung mit sowohl Daten über einen Geräusch-Standardmodell entsprechend der Sprache, die durch die erste Sprachumschalteinheit (1) ausgewählt wird, als auch der Merkmalsvektorzeitserie, die aus dem Geräuschdatenspeicher ausgelesen wird, und Registrieren des Stimmkennzeichens in dem Stimmkennzeichenspeicher.
Stimmerkennungseinrichtung nach Anspruch 4, wobei die Stimmerkennungseinrichtung beinhaltet eine Erkennungs/Registrierungs-Umschalteinheit zum Auswählen, ob Erkennungsergebnisse der Stimmerkennungseinheit in dem Stimmkennzeichenspeicher registriert werden sollen oder ob die Erkennungsergebnisse zu außerhalb der Stimmerkennungseinrichtung ausgegeben werden sollen, und wobei die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit umschaltet auf Erkennung in Übereinstimmung mit einem Erkennungsbefehl, und ebenfalls die erste Sprachumschalteinheit umschaltet, und die Stimmerkennungseinheit ein Stimmkennzeichen für die eingegebene Stimme, die durch den Benutzer geäußert wird, aus dem Stimmkennzeichenspeicher liest basierend auf sowohl der Merkmalsvektorzeitserie der eingegebenen Stimme, die durch den Benutzer geäußert wird, als auch den Daten über das Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welche durch die erste Sprachumschalteinheit ausgewählt wird, während verursacht wird, dass die erste Sprachumschalteinheit umschaltet, und Ausgeben des Stimmkennzeichens über die Erkennungs/Registrierungs-Umschalteinheit.
Stimmerkennungseinrichtung nach Anspruch 5, wobei die Stimmerkennungseinrichtung beinhaltet eine Erkennungs/Registrierungs-Umschalteinheit zum Auswählen, ob Erkennungsergebnisse der Stimmerkennungseinheit in dem Stimmkennzeichenspeicher registriert werden sollen oder die Erkennungsergebnisse zu außerhalb der Stimmerkennungseinrichtung ausgegeben werden sollen, und wobei die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit umschaltet zu Erkennung in Übereinstimmung mit einem Erkennungsbefehl umschaltet, und ebenfalls die erste Sprachumschalteinheit umschaltet, und die Stimmerkennungseinheit ein Stimmkennzeichen für die eingegebene Stimme, die durch den Benutzer geäußert wird, von dem Stimmkennzeichenspeicher liest basierend auf sowohl der Merkmalsvektorzeitserie der eingegebenen Stimme, die durch den Benutzer geäußert wird, als auch der Daten über das Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welche durch die erste Sprachumschalteinheit ausgewählt wird, während verursacht wird, dass die erste Sprachumschalteinheit umschaltet, und Ausgeben das Stimmkennzeichens über die Erkennungs/Registrierungs-Umschalteinheit.