[go: up one dir, main page]

DE112009004313T5 - Stimmerkennungseinrichtung - Google Patents

Stimmerkennungseinrichtung Download PDF

Info

Publication number
DE112009004313T5
DE112009004313T5 DE112009004313T DE112009004313T DE112009004313T5 DE 112009004313 T5 DE112009004313 T5 DE 112009004313T5 DE 112009004313 T DE112009004313 T DE 112009004313T DE 112009004313 T DE112009004313 T DE 112009004313T DE 112009004313 T5 DE112009004313 T5 DE 112009004313T5
Authority
DE
Germany
Prior art keywords
voice
recognition
switching unit
user
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112009004313T
Other languages
English (en)
Other versions
DE112009004313B4 (de
Inventor
Tadashi Suzuki
Yuzo Maruta
Yasushi Ishikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112009004313T5 publication Critical patent/DE112009004313T5/de
Application granted granted Critical
Publication of DE112009004313B4 publication Critical patent/DE112009004313B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Eine Stimmerkennungseinrichtung ist konstruiert in einer Weise, um einen Stimmkennzeichen-String für eine eingegebene Stimme, die durch einen Benutzerzeugen basierend auf einer Merkmalsvektorzeitserie der eingegebenen Stimme, die durch den Benutzer geäußert wird, und Daten über ein Geräusch-Standardmodell, und Registrieren des Stimmkennzeichen-Strings in einem Stimmkennzeichenspeicher 2 während eines automatischen Umschaltens zwischen Sprachen für einen Geräusch-Standardmodellspeicher 1, verwendet zum Erzeugen des Stimmkennzeichen-Strings, und automatischen Umschalten zwischen den Sprachen für den Stimmkennzeichenspeicher 2 zum Halten des erzeugten Stimmkennzeichen-Strings zur Verwendung einer ersten Sprachumschalteinheit SW1 und einer zweiten Sprachumschalteinheit SW2. Die Stimmerkennungseinheit kann daher einen Stimmkennzeichen-String entsprechend jeder registrierten Stimme, die durch den Benutzer geäußert wird, für jede Sprache, erzeugen, und den Stimmkennzeichen-String als ein Benutzerwörterbuch halten. Als ein Ergebnis kann, sogar wenn die Sprache, welche für die Stimmerkennung verwendet wird, geändert wird, die Stimmerkennungseinheit Stimmerkennung unter Verwendung der registrierten Stimmen, die durch den Benutzer geäußert wurden, ausführen.

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine Stimmerkennungseinrichtung. Im Speziellen betrifft sie eine Stimmerkennungseinrichtung bzw. eine Spracherkennungseinrichtung, welche Stimmerkennung bzw. Spracherkennung durchführen kann, und zwar unter Verwendung von registrierten Stimmen bzw. registierter Sprache (engl. voice), welche der Benutzer geäußert hat, sogar wenn zu einer Sprache umgeschaltet wird, die die Stimmerkennungseinrichtung für die Stimmerkennung verwendet.
  • Hintergrund der Erfindung
  • Die meisten der kürzlich entwickelten Stimmerkennungseinrichtungen und Stimmerkennungssysteme sind für unspezifizierte Sprecher gedacht und es ist daher für einen Benutzer nicht notwendig, seine oder ihre Stimme in dem Equipment zuvor zu registrierten, von welcher der Benutzer wünscht, dass eine Stimmerkennungseinrichtung oder ein Stimmerkennungssystem sie erkennt. Genauer kann der Benutzer, anstelle eine Stimme zu äußern, seine oder ihre Stimme, von welcher der Benutzer wünscht, dass die Stimmerkennungseinrichtung oder -System sie erkennt, in das Equipment durch einfache Eingabe von Kana-Zeichen über ein Keyboard oder Ähnliches, in dem Fall von Japanisch, registrieren. Ferner kann die herkömmliche Stimmerkennungseinrichtung oder -System ein phonetisches Symbol des Worts automatisch, auch in dem Fall von Fremdsprachen, erzeugen, wodurch es einem Benutzer erlaubt wird, ein Wort, von welchem der Benutzer möchte, dass die Stimmerkennungseinrichtung oder -System sie erkennt, in das Equipment einzugeben, und das Wort als ein Erkennungsobjektwort zu registieren.
  • Jedoch existiert ein Fall, in welchem der Benutzer seine oder ihre geäußerte Stimme in die Stimmerkennungseinrichtung oder -System hinein registriert, um das Wort als ein Erkennungsobjektwort zu verwenden, und zwar abhängig von einer Anwendung, auf welcher die Stimmerkennung angewendet wird (dieser Fall wird im Folgenden als Erzeugen eines Benutzer-Wörterbuchs bezeichnet). Zum Beispiel existiert ein Fall, in welchem der Benutzer einen Radiostationsnamen entsprechend einer Frequenz einer Radiostation durch Stimme registriert, und ein Fall, in welchem der Benutzer den Namen einer Person oder einen Ortsnamen entsprechend einer Telefonnummer durch Stimme registriert.
  • Ferner benötigt eine Stimmerkennung, die in ein Equipment, wie z. B. einer Fahrzeugnavigation oder einem Mobilendgerät befestigt ist, welches in einer Vielzahl von Ländern verwendet wird, eine Funktion des Schaltens zwischen Sprachen. im Allgemeinen werden bei Stimmerkennung Stimmdaten für jede Sprache gesammelt und eine durch einen Benutzer geäußerte Stimme wird unter Verwendung eines Erkennungs-Algorithmus und eines Geräusch-Standardmodells bzw. Sound-Standardmodells (engl.: sound standard model) erkannt, welche unter Verwendung der Daten konstruiert werden. Umschalten unter Sprachen benötigt ein Schalten zwischen Stimmerkennungseinheiten und ein Schalten zwischen Geräusch-Standardmodellen.
  • In einer Anwendung, wie oben beschrieben, welche eine Stimme, die durch einen Benutzer gewählt wird, registriert und diese Stimme als ein Erkennungsobjekt verwendet, muss der Benutzer, da jedes erzeugte Benutzerwörterbuch abhängig ist von einem Stimmerkennungs-Algorithmus und einem Geräusch-Standardmodell, wenn ein Schalten zwischen Stimmerkennungseinheiten und ein Schalten zwischen Geräusch-Standardmodellen durchgeführt wird, um zwischen Sprachen zu schalten, der Benutzer eine Operation des Registrierens seiner oder ihrer Stimme erneut durchführen, da einige bereits erzeugte Benutzerwörterbücher nicht verwendet werden können.
  • Um dieses Problem zu lösen, wurden herkömmlicher Weise einige Maßnahmen bereitgestellt. Zum Beispiel offenbart Patentreferenz 1 ein elektronisches Wörterbuch-Equipment zum und ein elektronisches Wörterbuch-Equipment verwendend Sprachumschaltungsverfahren, des Bestimmens einer Sprache, welche ein Benutzer verwenden will durch Vergleichen einer Stimme, die durch den Benutzer geäußert wird, mit Worten, die in dem System gespeichert sind, wenn umgeschaltet wird zwischen Verwenden von Sprachen für ein elektronisches Wörterbuch, und ein Speichermedium, welches für das elektronische Wörterbuch-Equipment verwendet wird. Ferner offenbart Patentreferenz 2 eine Mobilendgerät-Einrichtung zum und ein Computerprogramm zum Bestimmen einer Sprache, welche ein Benutzer verwenden will, durch Vergleichen einer Stimme, die durch den Benutzer geäußert wird, mit Worten, die in dem System gespeichert sind, wenn zwischen Verwenden von Sprachen für ein elektronisches Wörterbuch geschaltet wird.
  • Verwandter Stand der Technik-Dokumente
  • Patentreferenzen
    • Patentreferenz 1: JP 2001-282788 A
    • Patentreferenz 2: JP 2002-247646 A
  • Zusammenfassung der Erfindung
  • In dem elektronischen Wörterbuch-Equipment, dem elektronischen Wörterbuch-Equipment, das Sprachumschaltverfahren verwendet, und dem Speichermedium, welche in der oben genannten Patentreferenz 1 offenbart sind, wird eine Stimme, welche der Benutzer verwenden will, bestimmt durch Vergleichen einer durch den Benutzer geäußerten Stimme mit Worten, die in dem System gespeichert sind, wenn zwischen den verwendeten Sprachen für das elektronische Wörterbuch umgeschaltet wird. Ein Problem besteht daher, dass der Benutzer kein Wörterbuch entsprechend jeder Sprache von seiner oder ihrer geäußerten Stimmen erzeugen kann.
  • Ferner zielen die Mobilendgeräteinrichtung und das Computerprogramm, welches durch Patentreferenz 2 offenbart ist, auf das Herunterladen geeigneter Wörterbuchdaten, zu der Zeit, wenn der Benutzer einen anderen linguistischen Bereich betritt. Ein Problem besteht daher, dass der Benutzer kein Benutzerwörterbuch entsprechend jeder Sprache von seiner oder ihrer geäußerten Stimmen erzeugen kann.
  • Die vorliegende Erfindung wird daher gemacht, um das oben genannte Problem zu lösen, und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Stimmerkennungseinrichtung bereitzustellen, welche Stimmkennzeichen-Strings (Engl.: voice label strings) entsprechend registrierter Stimmen, die durch einen Benutzer geäußert werden, für jede Sprache zu registrieren und die Stimmkennzeichen-Strings als ein Benutzerwörterbuch zu speichern, und welche, sogar wenn zwischen Sprachen umgeschaltet wird, um eine von denen zur Stimmerkennung bzw. Stimmerkennung zu verwenden, Spracherkennung unter Verwendung der registrierten Benutzergeäußerten Stimmen durchführen kann.
  • In Übereinstimmung mit der vorliegenden Erfindung wird eine Stimmerkennungseinrichtung bereitgestellt, beinhaltend: einen Geräusch-Standardmodellspeicher zum Speichern einer Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen, welches Erkennungsobjekte sind; ein Stimmkennzeichenspeicher zum Speichern einer Vielzahl von Benutzerwörterbüchern entsprechend jeweils einer Vielzahl von Sprachen; eine ersten Sprachumschaltungseinheit zum Umschalten zwischen einer Vielzahl von Sprachen für den Geräusch-Standardmodellspeicher, um eine von der Vielzahl von Sprachen auszuwählen; eine zweite Sprachumschalteinheit zum Umschalten zwischen der Vielzahl von Sprachen für den Stimmkennzeichenspeicher, um eine von der Vielzahl von Sprachen auszuwählen; eine Steuereinheit zum Hervorrufen, dass die erste Sprachumschalteinheit und die zweite Sprachumschalteinheit in Synchronisation miteinander umschalten; eine akustische Analyseeinheit bzw. Akustikanalyseeinheit zum Durchführen eines akustischen Analyseprozesses auf einer eingegebenen Stimme, die durch einen Benutzer geäußert wird, um eine Merkmalsvektorzeitserie der durch den Benutzer geäußerten Stimme auszugeben; eine Stimmerkennungseinheit zum Erzeugen eines Stimmkennzeichen-Strings für die eingegebene Stimme, die durch den Benutzer geäußert wird, auf der Basis von sowohl der Merkmalsvektorzeitserie von der akustischen Analyseeinheit als auch Daten über ein Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welcher durch die erste Sprachumschalteinheit ausgewählt wird während verursacht wird, dass die erste Sprachumschalteinheit schaltet, und Registrieren des Stimmkennzeichen-Strings mit der Sprache für den Stimmkennzeichenspeicher, welcher durch die zweite Sprachumschalteinheit in Synchronisation mit der ersten Sprachumschalteinheit ausgewählt wird.
  • Die Stimmerkennungseinrichtung bzw. Stimmerkennungseinrichtung in Übereinstimmung mit der vorliegenden Erfindung ist in einer Weise konstruiert, um einen Stimmkennzeichen-String bzw. Sprachkennzeichen-String für eine eingegebene, durch einen Benutzer geäußerte, Stimme für jede Sprache basierend auf der Merkmalsvektorzeitserie der eingegebenen, durch einen Benutzer geäußerten, Stimme und den Daten über das Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welcher durch die erste Sprachumschalteinheit ausgewählt wird, zu erzeugen, und den Stimmkennzeichen-String mit der Sprache für den Stimmkennzeichenspeicher, welcher durch die zweite Sprachumschalteinheit ausgewählt ist, zu registrieren, während eines automatischen Umschaltens zwischen den Sprachen für den Geräusch-Standardmodellspeicher, welcher die Geräusch-Standardmodelle spepichert entsprechend jeweils den Sprachen, welche Erkennungsobjekte sind, und automatisches Umschalten zwischen den Sprachen für den Stimmkennzeichenspeicher, der die Benutzerwörterbücher speichert, entsprechend jeweils der Sprache, unter Verwendung der ersten Sprachumschalteinheit und der zweiten Sprachumschalteinheit, welche in Synchronisation miteinander arbeiten. Die Stimmerkennungseinheit kann daher einen Stimmkennzeichen-String entsprechend jeder durch den Benutzer geäußerten Stimme für jede Sprache erzeugen und den Stimmkennzeichen-String als ein Benutzerwörterbuch halten. Als ein Ergebnis kann, sogar wenn die Sprache, welche für die Stimmerkennung verwendet wird, geändert wird, die Stimmerkennungseinheit Stimmerkennung ausführen unter Verwendung von Stimmen, die durch den Benutzer geäußert wurden, unter Verwendung des Benutzerwörterbuchs.
  • Kurze Beschreibung der Figuren
  • 1 ist ein Blockdiagramm, welches den Aufbau der Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 1 zeigt;
  • 2 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf eine Operation zu der Zeit der Stimmerkennung in Übereinstimmung mit Ausführungsform 1 erklärt;
  • 3 ist ein Flussdiagramm, welches eine Operation des Ausführens von Stimmerkennung mit Bezug auf einen Prozess zu der Zeit der Stimmerkennung in Übereinstimmung mit Ausführungsform 1 erklärt;
  • 4 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 2 zeigt;
  • 5 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf eine Operation zu der Zeit der Stimmregistrierung in Übereinstimmung mit Ausführungsform 2 zeigt;
  • 6 ist ein Flussdiagramm, welches eine Operation des Ausführens von Stimmerkennung mit Bezug auf einen Prozess zu der Zeit der Stimmerkennung in Übereinstimmung mit Ausführungsform 1 erklärt;
  • 7 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 3 zeigt;
  • 8 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf einen Betrieb in dem Fall des Ausführens der erstmaligen Benutzerwörterbucherzeugung für eine Stimme n in Übereinstimmung mit Ausführungsform 3 erklärt;
  • 9 ist ein Flussdiagramm, welches einen Betrieb erklärt des Durchführens von Stimmerkennung in einem Zustand, in welchem ein Benutzerwörterbuch entsprechend der Sprache n registriert ist in einem Stimmkennzeichenspeicher, in Übereinstimmung mit Ausführungsform 3;
  • 10 ist ein Blockdiagramm, welches den Aufbau eines Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 4 zeigt;
  • 11 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs entsprechend einer Sprache n unter Verwendung der Stimme des Benutzers zum Registrieren in Übereinstimmung mit Ausführungsform 4 erklärt; und
  • 12 ist ein Flussdiagramm, welches einen Betrieb des Ausführens von Stimmerkennung erklärt in einem Zustand, in welchem ein Benutzerwörterbuch entsprechend der Sprache n in einem Stimmkennzeichenspeicher registriert ist, in Übereinstimmung mit Ausführungsform 4.
  • Ausführungsformen der Erfindung
  • Hiernach werden die bevorzugten Ausführungsformen der vorliegenden Erfindung im Detail mit Bezug auf die Zeichnungen beschrieben.
  • Ausführungsform 1
  • 1 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 1 zeigt. Die Stimmerkennungseinrichtung ist mit einem Geräusch-Standardmodellspeicher 1, einem Stimmkennzeichenspeicher 2, einer akustischen Analyseeinheit bzw. Akustik-Analyseeinheit 4, die zu einem Stimmsignaleingabeende 3 verbunden ist, einer Stimmerkennungseinheit 5, einer Steuereinheit 6, Sprachumschalteinheiten SW1 bis SW3, und einer Erkennungs/Registrierungs-Umschalteinheit SW4 versehen.
  • Der Geräusch-Standardmodellspeicher 1 speichert eine Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen (von einer Sprache 1 bis einer Sprache N), welches Erkennungsobjekte sind.
  • Der Stimmkennzeichenspeicher 2 speichert eine Vielzahl von Benutzerwörterbüchern entsprechend jeweils der Vielzahl von Sprachen (der Sprache 1 bis zu der Sprache N). Die Benutzerwörterbücher sind in dem Stimmkennzeichenspeicher gehalten, wobei diese jeweils mit der Vielzahl von Stimmen (von der Stimme 1 bis zu der Stimme N) assoziiert sind.
  • Die akustische Analyseeinheit 4 führt einen akustischen Analyseprozess für eine Stimme durch, die durch einen Benutzer geäußert wird, und dahinein über das Stimmsignal-Eingabeende 3 eingegeben wird, und gibt entweder ein Leistungsspektrum der eingegebenen Stimme, die durch den Benutzer geäußert wird, oder eine Zeitserie einer Merkmalsmenge (Engl.: a time series of feature quantity), welche ähnlich zu dem Leistungsspektrum ist, als eine Merkmalsvektorzeitserie (Engl.: a vector feature time series), aus.
  • Wenn ein Benutzerwörterbuch erzeugt wird, empfängt die Stimmerkennungseinheit 5, als eine Eingabe, die Merkmalsvektorzeitserie, die von der akustischen Analyseeinheit 4 ausgegeben wird, verwendet die Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, welcher durch die Sprachumschalteinheit SW1 ausgewählt wird, um einen Stimmkennzeichen-String entsprechend der Merkmalsvektorzeitserie zu bestimmen, und speichert, als das Benutzerwörterbuch, den Stimmkennzeichen-String in einer von Benutzerwörterbuch-Speicherdestinationen entsprechend jeweils den Sprachen 1 bis N, welches durch die Sprachumschalteinheit SW2 ausgewählt wird.
  • Ferner empfängt, wenn ein Stimmerkennungsprozess ausgeführt wird, die Stimmerkennungseinheit 5, als eine Eingabe, die Merkmalsvektorzeitserie, die von der akustischen Analyseeinheit 4 ausgegeben wird, wenn die Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, welcher durch die Sprachumschalteinheit SW1 ausgewählt wird, und das Benutzerwörterbuch entsprechend der Sprache, welches durch die Sprachumschalteinheit SW3 ausgewählt wird, um den Stimmerkennungsprozess auf der oben genannten Merkmalsvektorzeitserie durchzuführen, und gibt die Erkennungsergebnisse mittels der Erkennungs/Registrierungs-Umschalteinheit SW4 aus.
  • Die Steuereinheit 6 führt eine Umschaltsteueroperation des Umschaltens der Erkennungs/Registrierungs-Umschalteinheit SW4 zu Erkennung aus, entsprechend einem Erkennungsänderungsbefehl, der von außerhalb der Stimmerkennungseinrichtung eingegeben wird, und, wenn die Registrierung, d. h. Benutzerwörterbucherzeugung, ausgeführt wird, schaltet die Sprachumschalteinheit SW2 in Antwort auf einen Umschaltanfragebefehl, welchen die Stimmerkennungseinheit 5 erzeugt, um, zu der Zeit, wenn die Merkmalsvektorzeitserie von der akustischen Analyseeinheit 4 eine Pause hat. Zu dieser Zeit schaltet die Sprachumschalteinheit SW1, welche in Synchronisation mit der Sprachumschalteinheit SW2 arbeitet, um.
  • Im Gegensatz hierzu, wenn der Stimmerkennungsprozess ausgeführt wird, führt die Steuereinheit einen Umschaltsteuerprozess des Umschaltens der Erkennungs/Registrierungs-Umschalteinheit SW4 zur Registrierung aus, entsprechend eines Registrierungsänderungsbefehls, der von außerhalb der Stimmerkennungseinrichtung eingegeben wird, und schaltet ebenfalls die Sprachumschalteinheit SW2 in einer Weise, dass diese Sprachumschalteinheit SW2 eine Sprache auswählt, die von außerhalb der Stimmerkennungseinrichtung spezifiziert ist. Zu dieser Zeit wird die Sprachumschalteinheit SW1, welche in Synchronisation mit der Sprachumschalteinheit SW2 arbeitet, umgeschaltet.
  • Die Sprachumschalteinheit SW1 gibt selektiv die Daten über eine der Vielzahl von Geräusch-Standardmodellen aus, welche einer Sprache entsprechen, wobei die Vielzahl von Daten über die Vielzahl von Geräusch-Standardmodellen entsprechend jeweils der Vielzahl von Sprachen (von der Sprache 1 bis zu der Sprache N) in dem Geräusch-Standardmodellspeicher 1 gespeichert sind.
  • Wenn ein Benutzerwörterbuch erzeugt wird, schaltet die Sprachumschalteinheit SW2 unter den Sprachen 1 bis N um, um eine der Senutzerwörterbuchspeicher-Destinationen in dem Stimmkennzeichenspeicher auszuwählen, in Synchronisation mit der Sprachumschalteinheit SW1.
  • Wenn Stimmerkennung ausgeführt wird, schaltet die Sprachumschalteinheit SW3 unter den Sprachen 1 bis N um, um eine der Benutzerwörterbuchlesequellen in dem Stimmerkennzeichenspeicher auszuwählen, in Synchronisation mit der Sprachumschalteinheit SW1.
  • Wenn ein Benutzerwörterbuch-Erzeugungsbefehl von außerhalb der Erkennungs/Registrierungs-Umschalteinheit SW4 empfangen wird, schaltet die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Verbindung mit der Sprachumschalteinheit SW2 um, während, wenn ein Stimmerkennungsbefehl von außerhalb der Erkennungs/Registrierungs-Umschalteinheit SW4 empfangen wird, die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Verbindung mit einem Ausgabeendgerät umschaltet.
  • Als Nächstes wird der Betrieb der Stimmerkennungseinrichtung beschrieben. 2 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf eine Operation zu der Zeit der Spracheregistrierung in Übereinstimmung mit Ausführungsform 1 erklärt. Wenn eine Benutzerwörterbuch erzeugt wird, schaltet die Steuereinheit 6 die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Registrierung um, um die Erkennungs/Registrierungs-Umschalteinheit SW4 mit der Sprachumschalteinheit SW2 zu verbinden, entsprechend einem Benutzerwörterbuch-Erzeugungsbefehl, der von außerhalb der Stimmerkennungseinrichtung eingegeben wird (Schritt ST1). Als ein Ergebnis wird die Ausgabedestination bzw. das Ausgabeziel eines Stimmkennzeichen-Strings, welchen die Stimmerkennungseinheit 5 ausgibt, zu dem Stimmkennzeichenspeicher 2 gesetzt.
  • Als Nächstes wird eine Stimme zur Registrierung, welche durch einen Benutzer geäußert wird, zu der Erkennungseinrichtung über das Stimmsignal-Eingabeende 3 eingegeben (Schritt ST2). Die akustische Analyseeinheit 4 führt eine akustische Analyse auf dem eingegebenen Stimmsignal bzw. Sprachsignal aus, und gibt eine Merkmalsvektorzeitserie aus (Schritt ST3). Nachfolgend substituiert die Stimmerkennungseinrichtung einen Initialwert von 1 in eine Variable n (Schritt ST4). Die Stimmerkennungseinrichtung verursacht dann, dass die Sprachumschalteinheit SW1 und die Sprachumschalteinheit SW2 entsprechend der Variable n umschalten. Als ein Ergebnis wird das Geräusch-Standardmodell in dem Geräusch-Standardmodellspeicher 1 entsprechend der Sprache, die durch die Variable n gezeigt wird, ausgewählt, und die Benutzerwörterbuchspeicherdestination in dem Stimmkennzeichenspeicher 2 entsprechend der Sprache, gezeigt durch die Variablen, wird simultan ausgewählt (Schritt ST5).
  • Die Stimmerkennungseinrichtung 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie von der akustischen Analyseeinheit 4, und erzeugt einen Stimmkennzeichen-String unter Verwendung der Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, entsprechend der Sprache, die durch die Variable n angezeigt wird, in dem Geräusch-Standardmodellspeicher 1 (Schritt ST6). Dann wird der oben genannte Stimmkennzeichen-String, welcher durch die Stimmerkennungseinheit 5 erzeugt wird, über die Erkennungs/Registrierungs-Umschalteinheit SW4 und die Sprachumschalteinheit SW2, in der Benutzerwörterbuch-Speicherdestination entsprechend der Sprache, die durch die Variable n angezeigt wird, in dem Stimmkennzeichenspeicher 2 (Schritt ST7), registriert.
  • Die Stimmerkennungseinrichtung bestimmt, ob die Variable n der Zahl von Sprachen N entspricht (Schritt ST8) und, wenn die Variable n nicht der Zahl von Sprachen N entspricht, ersetzt bzw. substituiert sie n + 1 in n und kehrt zurück zu Schritt ST5 (Schritt ST9). Im Gegensatz hierzu, wenn die Variable n der Zahl von Sprachen N entspricht, verschiebt die Stimmerkennungseinrichtung den Prozess zu Schritt ST10. Die Stimmerkennungseinrichtung bestimmt, in Schritt ST10, ob die nächste Stimmeingabe zur Registrierung auftritt, und wenn der Benutzer die nächste Stimme zur Registrierung äußert, kehr zu Schritt ST2 zurück. Im Gegensatz hierzu, wenn der Benutzer nicht die nächste Stimme zur Registrierung äußert, beendet die Stimmerkennungseinrichtung den Prozess des Erzeugens eines Benutzerwörterbuchs.
  • Durch Ausführen des oben genannten Prozesses registriert die Stimmerkennungseinrichtung automatisch eine Stimme zur Registrierung, welche der Benutzer äußert, um die Stimme in der Stimmerkennungseinrichtung zu registrieren, in dem Stimmkennzeichenspeicher 2 als Benutzerwörterbücher entsprechend jeweils den Sprachen 1 bis N unter Verwendung der Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, ähnlich entsprechend der Sprachen 1 bis N.
  • 3 ist ein Flussdiagramm, welches einen Betrieb des Ausführens von Stimmerkennung mit Bezug auf einen Prozess des Ausführens von Stimmerkennung in Übereinstimmung mit Ausführungsform 1 erklärt. Zuerst verursacht die Steuereinheit 6, dass die Sprachumschalteinheit SW1 und die Sprachumschalteinheit SW3 in Synchronisation miteinander umschalten in einer Weise, dass die Stimmerkennungseinrichtung eine vorbestimmte Sprache erkennen kann, entsprechend einem Stimmerkennungsbefehl, welcher hierzu von außerhalb der Stimmerkennungseinrichtung eingegeben wurde (Schritt ST11). In dem oben genannten Beispiel wählt die Steuereinheit eine der Sprachen 1 bis N aus. Die Steuereinheit schaltet dann die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Verbindung mit der Ausgabe um, in einer Weise, dass die Stimmerkennungseinrichtung die Erkennungsergebnisse ausgeben kann (Schritt ST12).
  • Eine Stimme, die durch den Benutzer geäußert wird, wird dann zu der Stimmerkennungseinrichtung über das Stimmsignal-Eingabeende 3 als eine unbekannte eingegebene Stimme eingegeben (Schritt ST13). Die akustische Analyseeinheit 4 führt akustische Analyse der unbekannten eingegebenen Stimme, die hierzu eingegeben wurde, aus und gibt eine Merkmalsvektorzeitserie aus (Schritt ST14). Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie, die in Schritt ST14 erlangt wurde, führt einen Erkennungsprozess unter Verwendung sowohl der Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, entsprechend zu der Sprache, die in Schritt ST11 ausgewählt wurde, entsprechend dieser Merkmalsvektorzeitserie, als auch dem Benutzerwörterbuch, das in dem Stimmkennzeichenspeicher 2 registriert wurde (Schritt ST15), aus, gibt die Erkennungsergebnisse über die Erkennungs/Registrierungs-Umschalteinheit SW4 aus, und beendet dann den Stimmerkennungsprozess.
  • Sogar in einem Zustand, in welchem eine beliebige der Sprachen 1 bis N als die zu erkennende Zielsprache ausgewählt wird, kann die Stimmerkennungseinrichtung Stimmerkennung unter Verwendung eines Benutzerwörterbuchs, welches aus Stimmen zur Registrierung besteht, welche der Benutzer geäußert hat, durch Durchführen der oben genannten Operation ausführen.
  • Wie zuvor erwähnt, erzeugt die Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 1 einen Stimmkennzeichen-String entsprechend einer zu registrierenden Stimme, welche durch den Benutzer geäußert wird, für jede Sprache und hält den Stimmkennzeichen-String als ein Benutzerwörterbuch durch Ausführen des Prozesses des Erzeugens und Haltens des Stimmkennzeichen-Strings für die eingegebene Stimme, während eines automatischen Umschaltens zwischen den Sprachen für den Geräusch-Standardmodellspeicher, welcher verwendet wird, um Stimmkennzeichen-Strings zu erzeugen, während automatischem Umschalten unter den Sprachen für den Stimmkennzeichenspeicher zum Halten der erzeugten Stimmkennzeichen-String unter Verwendung der ersten Sprachumschalteinheit und der zweiten Sprachumschalteinheit. Als ein Ergebnis kann, sogar wenn die für die Stimmerkennung verwendete Sprache geändert wird, die Stimmerkennungseinheit Stimmerkennung unter Verwendung der registrierten Stimmen, welche der Benutzer geäußert hat, ausführen.
  • Ausführungsform 2
  • 4 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 2 zeigt. Die Stimmerkennungseinrichtung in Übereinstimmung mit dieser Ausführungsform beinhaltet eine Sprachauswahleinheit 7 zusätzlich zu der Struktur in Übereinstimmung mit Ausführungsform 1, die in 1 gezeigt ist, und die anderen strukturellen Komponenten der Stimmerkennungseinrichtung sind die gleichen wie die von Ausführungsform 1, die in 1 gezeigt wird, und daher wird eine wiederholte Erklärung dieser Komponenten weggelassen.
  • Die Sprachänderungseinheit 7 wählt eine Sprache entsprechend Sprachspezifikationsdaten, die durch einen Benutzer eingegeben werden, aus und meldet die Sprache zu einer Steuereinheit 6. Die Steuereinheit 6 steuert entweder eine Sprachumschalteinheit SW1 und eine Sprachumschalteinheit SW2 oder die Sprachumschalteinheit SW1 und eine Sprachumschalteinheit SW3 entsprechend der Sprache, die mitgeteilt wurde, in einer Weise, dass diese in Synchronisation miteinander umschalten.
  • Als Nächstes wird die Operation bzw. der Betrieb der Stimmerkennungseinrichtung beschrieben. 5 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs in Übereinstimmung mit Ausführungsform 2 erklärt. Da die Operationen in den Schritten ST21 bis ST24 die gleichen sind wie die in den Schritten ST1 bis ST4 in Übereinstimmung mit Ausführungsform 1, wird eine wiederholte Erklärung der Operationen hiernach weggelassen.
  • Dann bestimmt, bei Verwendung der Sprachspezifikationsdaten ..., FIg(m) (die Sprachspezifikationsdaten sind definiert für m = 1, N und haben einen Wert von 0 oder 1), die Sprachauswahleinheit 7, ob FIg(n) = 1 ist (Schritt ST25) und führt einen Übergang zu einer Operation von Schritt ST26 aus, wenn FIG(n) = 1 ist, oder führt einen Übergang zu einer Operation von Schritt ST29 aus, wenn FIg(n) = 0 ist. Hiernach wird, da die Operationen in den Schritten ST26 bis ST31 die gleichen sind wie die in den Schritten ST5 bis ST10 in Übereinstimmung mit Ausführungsform 1, eine wiederholte Erläuterung der Operationen hiernach weggelassen.
  • Mit der oben genannten Struktur und durch Durchführen der oben genannten Operationen registriert die Stimmerkennungseinrichtung automatisch eine Stimme zur Registrierung, welche der Benutzer äußert, um die Stimme in der Stimmerkennungseinrichtung zu registrieren, in einen Stimmkennzeichenspeicher 2 für die Sprache n, welche die Bedingung FIg(n) = 1 in den Sprachspezifikationsdaten (m) (m = 1, ..., N) erfüllt unter Verwendung eines Geräusch-Standardmodellspeichers 1 entsprechend der Sprache n, als ein Benutzerwörterbuch ähnlich entsprechend zu dieser Sprache n. Als ein Ergebnis kann die Stimmerkennungseinrichtung vermeiden, Benutzerwörterbücher für alle der N Stimmen zu erzeugen durch einfaches Setzen von FIg(n) = 1 nur für die Stimme n, welche der Benutzer verwendet, wodurch die Zeit, die für die Benutzerwörterbucherzeugung benötigt wird, verkürzt wird. Ferner kann die Kapazität für den Stimmkennzeichenspeicher 2 zum Speichern der Benutzerwörterbücher gespart werden.
  • 6 ist ein Flussdiagramm, welches einen Betrieb bzw. eine Operation des Ausführens von Stimmerkennung unter Verwendung der Benutzerwörterbücher erklärt, die wie oben beschrieben wurden. Die Sprachauswahleinheit 7 befehligt die Steuereinheit 6, um in der Lage zu sein, eine Stimme in der Sprache n, welche die Bedingung FIg(n) = 1 erfüllt, in den Sprachspezifikationsdaten zu erkennen. Die Steuereinheit 6 setzt die Sprachumschalteinheit SW1 und die Sprachumschalteinheit SW3 entsprechend dem Befehl in einer Weise, dass diese zu der vorbestimmten Sprache in Synchronisation miteinander umschaltet (Schritt ST41). Die Steuereinheit schaltet ebenfalls die Erkennungs/Registrierungs-Umschalteinheit SW4 zur Registrierung um (Schritt ST42). Hiernach wird, da die Operationen in den Schritten ST43 bis ST45 die gleichen sind wie die in den Schritten ST13 bis ST15 in Übereinstimmung mit Ausführungsform 1, eine wiederholte Erklärung der Operationen weggelassen.
  • Sogar in einem Fall, in welchem die Sprache n, welche durch die Sprachspezifikationsdaten spezifiziert werden kann, d. h. deren Hinweissymbol (Engl.: flag) FIg(n) auf 1 gesetzt ist, als die zu erkennende Zielsprache gesetzt ist, kann die Stimmerkennungseinrichtung Stimmerkennung unter Verwendung des Benutzerwörterbuchs, welches aus Stimmen zur Registrierung besteht, welche der Benutzer geäußert hat durch Durchführen der oben genannten Operation ausführen.
  • Daher kann, da die Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 2 in einer Weise konstruiert ist um zu verursachen, dass die Sprachumschalteinheit SW1 und die Sprachumschalteinheit SW2, welche in Synchronisation miteinander arbeiten, Umschalten entsprechend den Sprachspezifikationsdaten, die hierzu von außerhalb der Stimmerkennungseinrichtung bereitgestellt werden, die Stimmerkennungseinrichtung selektiv ein Benutzerwörterbuch nur für die Sprache entsprechend den Sprachspezifikationsdaten, bereitgestellt durch den Benutzer des Systems, erzeugen. Daher kann die Stimmerkennungseinrichtung die Zeit, die für die Wörterbucherzeugung benötigt wird, verkürzen. Ferner kann die Menge der Verwendung des Stimmkennzeichenspeichers 2 reduziert werden.
  • Ausführungsform 3
  • 7 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 3 der vorliegenden Erfindung zeigt. Ein Stimmkennzeichenspeicher 2a speichert ein Benutzerwörterbuch entsprechend einer bestimmten Sprache n (n = 1 bis N) für nur die eine Sprache. Ein Stimmdatenspeicher 8 nimmt auf und speichert eine Stimme, welche hierzu über ein Stimmsignal-Eingabeende 3 eingegeben wird. Da andere Komponenten, beinhaltend einen Geräusch-Standardmodellspeicher 1, das Stimmsignal-Eingabeende 3, eine akustische Analyseeinheit 4, eine Stimmerkennungseinheit 5, eine Steuereinheit 6, eine Sprachumschalteinheit SW1, eine Erkennungs/Registrierungs-Umschalteinheit SW4, die gleichen sind wie die in der Struktur in Übereinstimmung mit Ausführungsform 1, gezeigt in 1, wird eine wiederholte Erklärung der Komponenten hiernach weggelassen.
  • Als Nächstes wird die Operation bzw. der Betrieb der Stimmerkennungseinrichtung beschrieben. 8 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs mit Bezug auf eine Operation des erstmaligen Ausführens einer Benutzerwörterbucherzeugung für die Sprache n in Übereinstimmung mit Ausführungsform 3 erklärt.
  • Zuerst schaltet die Steuereinheit 6 die Sprachumschalteinheit SW1 zu einer Position, an welcher die Sprachumschalteinheit eine Sprache n auswählt entsprechend der Auswahl der Sprache n, welche hierzu von außerhalb der Stimmerkennungseinrichtung mitgeteilt wird, in einer Weise, dass die Steuereinheit 1 ein Benutzerwörterbuch für die Sprache n erzeugt (Schritt ST51). Als Nächstes schaltet die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Registrierung (Schritt ST52). Als ein Ergebnis wird die Ausgabe bzw. das Ausgabeziel eines Stimmkennzeichen-Strings, welchen die Stimmerkennungseinheit 5 ausgibt, zu dem Stimmkennzeichenspeicher 2a gesetzt.
  • Dann wird eine Stimme zur Registrierung, welche durch einen Benutzer geäußert wird, zu der Stimmerkennungseinrichtung über das Stimmsignal-Eingabeende 3 eingegeben (Schritt ST53). Die eingegebene Stimme zur Registrierung wird in dem Stimmdatenspeicher 8 gespeichert (Schritt ST54). Ferner führt die akustische Analyseeinheit 4 akustische Analyse auf dem eingegebenen Stimmsignal zur Registrierung aus, und gibt eine Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST55).
  • Die Stimmerkennungseinheit 5 gibt die oben genannte Merkmalsvektorzeitserie ein und bestimmt einen Stimmkennzeichen-String unter Verwendung der Daten über ein Geräuschstandardmodel entsprechend der Sprache, die durch die Variable n angezeigt wird, in dem Geräuschstandardmodelspeicher 1 (Schritt ST56). Der oben genannten Stimmkennzeichen-String, den die Stimmkennzeicheneinheit 5 erzeugt hat, wird, als ein Benutzerwörterbuch, in dem Stimmkennzeichenspeicher 2a über die Erkennungs/Registrierungs-Umschalteinheit SW4 registriert (Schritt ST57). Die Steuereinheit bestimmt dann, ob die nächste Stimme zur Registrierung auftritt, oder ob nicht, (Schritt ST58), und, wenn der Benutzer die nächste Stimme zur Registrierung geäußert hat, kehrt zu Schritt ST53 zurück und wiederholt die oben genannten Operationen in den Schritten ST53 bis ST57. Wenn der Benutzer keine weitern Stimmen zur Registrierung geäußert hat, beendet die Steuereinheit den Benutzerwörterbuch-Erzeugungsprozess.
  • Der oben genannte Prozess ist derjenige, der für die erstmalige Registrierung für die Sprache n ausgeführt wird. Durch die Serie von Operationen, während die Stimmdaten über die Stimmen zur Registrierung, die durch den Benutzer geäußert wurden, in dem Stimmdatenspeicher 8 gespeichert sind, wird das Benutzerwörterbuch entsprechend der Sprache n in dem Stimmkennzeichenspeicher 2a registriert.
  • 9 ist ein Flussdiagramm, welches eine Operation erklärt des Durchführens von Stimmerkennung auf einer Stimme zur Registrierung, die durch einen Benutzer geäußert wurde, in einem Zustand, in welchem die Stimmdaten über die Stimmen zur Registrierung, die durch den Benutzer geäußert wurden, in dem Stimmdatenspeicher 8 gespeichert sind, und das Benutzerwörterbuch entsprechend der Sprache n in dem Stimmkennzeichenspeicher 2a, wie oben erwähnt, registriert wird.
  • Zuerst bestimmt die Steuereinheit 6, ob die Sprachumschalteinheit SW1 umzuschalten ist oder ob nicht, um die zu erkennende Sprache umzuschalten entsprechend einem Stimmerkennungsbefehl, welcher hierzu von außerhalb der Stimmerkennungseinrichtung eingegeben wird (Schritt ST61). Wenn die Stimmerkennungseinheit die zu erkennende Sprache nicht ändern muss, d. h. die Sprachumschalteinheit SW1 die Auswahl der Sprache n beibehält, bewegt die Steuereinheit sich zu einer Operation von Schritt ST62. In Schritt ST62 schaltet die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit SW4 zu Erkennung. Eine Stimme, die durch einen Benutzer geäußert wird, wird dann zu der Stimmerkennungseinheit über das Stimmsignal-Eingabeende 3 als eine unbekannte eingegebene Stimme eingegeben (Schritt ST63). Die akustische Analyseeinheit 4 führt akustische Analyse auf der unbekannten eingegebenen Stimme, die hierzu eingegeben wird, aus und gibt eine Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST64). Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie, die in Schritt ST64 erlangt wird, führt einen Erkennungsprozess unter Verwendung sowohl der Daten, die in dem Geräusch-Standardmodellspeicher 1 gespeichert sind, entsprechend der Sprache n, als auch dem Benutzerwörterbuch, registriert in dem Stimmkennzeichenspeicher 2a, aus (Schritt ST65), gibt die Erkennungsergebnisse über die Erkennungs/Registrierungs-Umschalteinheit SW4 aus, und beendet dann den Stimmerkennungsprozess.
  • Ein Betrieb in dem Fall, in Schritt ST61, des Umschaltens der Sprachumschalteinheit SW1 zu einer anderen Sprache als die Sprache n wird hiernach beschrieben. In diesem Fall bewegt die Steuereinheit den Prozess zu einer Operation von Schritt ST66 und schaltet die Sprachumschalteinheit SW1 zu einer Sprache n', anders als die Sprache n. Die Steuereinheit schaltet die Erkennungs/Registrierungs-Umschalteinheit SW4 dann zu Registrierung (Schritt ST67). Die akustische Analyseeinheit 4 liest Stimmdaten, die in dem Stimmkennzeichenspeicher 2a gespeichert sind (Schritt ST68). Die akustische Analyseeinheit 4 bestimmt dann eine Merkmalsvektorzeitserie entsprechend den gelesenen Stimmdaten und gibt die Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST69). Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie, die in Schritt ST69 erlangt wurde, und erzeugt einen Stimmkennzeichen-String unter Verwendung der Daten über das Geräusch-Standardmodell in dem Geräusch-Standardmodellspeicher 1 entsprechend der Sprache n', die in Schritt ST66 ausgewählt wurde (Schritt ST70).
  • Die Stimmerkennungseinheit registriert dann den erzeugten Stimmkennzeichen-String, als ein Benutzerwörterbuch, in dem Stimmkennzeichenspeicher 2a (Schritt ST71). Die Steuereinheit überprüft dann, ob in Schritten ST69 bis ST71 Stimmdaten zu verarbeiten bleiben (Schritt ST72), und, wenn Stimmdaten zu bearbeiten bleiben, kehrt zu Schritt ST68 zurück und führt wiederholt die Operationen der Schritte ST69 bis ST71 auf den übrigen Stimmdaten durch. Wenn keine Stimmdaten mehr zu bearbeiten bleiben, verschiebt die Steuereinheit den Prozess der Operation zu Schritt ST62. Da die Operationen in Schritt ST62 und den nachfolgenden Schritten die gleichen sind wie die oben beschriebenen Operationen, die in dem Fall durchgeführt werden, in welchem die Sprachumschalteinheit SW1 bei der Sprache n gehalten wird, ohne geschaltet zu werden, wird eine wiederholte Erklärung der Operationen unterlassen.
  • Wenn zu der Sprache n' umgeschaltet wird, erzeugt die Stimmerkennungseinrichtung unverzüglich ein Benutzerwörterbuch entsprechend der Sprache n' unter Verwendung der Stimmdaten, die in dem Stimmdatenspeicher 8 aufgezeichnet sind, und speichert das Benutzerwörterbuch in dem Stimmkennzeichenspeicher 2a durch die oben genannten Operationen. Daher kann, auch wenn die Sprache n' in der Stimmerkennungseinrichtung ausgewählt wird, die Stimmerkennungseinrichtung Stimmerkennung unter Verwendung des Benutzerwörterbuchs ausführen. Ferner, in Übereinstimmung mit Ausführungsform 3, wie oben beschrieben, da der Stimmerkennzeichenspeicher 2a nur einen Speicherbereich äquivalent zu einer Sprache sichert, kann die Kapazität des Speichers reduziert werden.
  • Wie zuvor beschrieben, kann, da die Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 3 den Stimmdatenspeicher 8 zum Halten der registrierten Stimmen, die durch einen Benutzer geäußert werden, hält, um es der akustischen Analyseeinheit 4 zu ermöglichen, eine akustische Analyse unter Verwendung der oben genannten registrierten Stimmen auszuführen, die Stimmerkennungseinrichtung die Notwendigkeit elimieren einen Speicherbereich jeder Stimme in dem Stimmkennzeichenspeicher 2a zu sichern, und, sogar wenn die Sprache, welche das Stimmerkennungssystem verwendet, geändert wird, kann die registrierten Stimmen, die durch einen Benutzer geäußert wurden, verwenden, welche in dem Stimmdatenspeicher 8 aufgezeichnet sind, um ein Benutzerwörterbuch entsprechend der ausgewählten Sprache zu erzeugen und Stimmerkennung unter Verwendung des Benutzerwörterbuchs ausführen.
  • Ausführungsform 4
  • 10 ist ein Blockdiagramm, welches den Aufbau einer Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 4 der vorliegenden Erfindung zeigt. Die Stimmerkennungseinrichtung hat einen Geräuschdatenspeicher 9 zum Aufnehmen und Speichern einer Merkmalsvektorzeitserie, welche eine akustische Analyseeinheit 4 ausgibt, für eine Stimme zum Registrieren, die durch einen Benutzer geäußert wird, anstatt des Stimmdatenspeichers 8 in Übereinstimmung mit Ausführungsform 3. Da die anderen strukturellen Komponenten der Stimmerkennungseinrichtung die gleichen sind wie die in der Struktur bzw. des Aufbaus in Übereinstimmung mit Ausführungsform 3, wird eine doppelte Erklärung der anderen strukturellen Komponenten hiernach weggelassen.
  • Als Nächstes wird ein Betrieb des Ausführens von Stimmerkennung in einem Zustand, in welchem eine Merkmalsvektorzeitserie entsprechend einer Stimme zur Registrierung, die durch einen Benutzer geäußert wird, in dem Geräuschdatenspeicher 9 gespeichert ist, und ein Benutzerwörterbuch entsprechend einer Sprache n in einem Stimmerkennzeichenspeicher 2a registriert ist, erklärt.
  • 11 ist ein Flussdiagramm, welches einen Prozess des Erzeugens eines Benutzerwörterbuchs entsprechend zu der Sprache n erklärt unter Verwendung von Stimmen zur Registrierung, die durch einen Benutzer geäußert wurden, bezogen auf (einen Fall des Ausführens einer erstmaligen Benutzerwörterbuch-Erzeugung für die Sprache n) in Übereinstimmung mit Ausführungsform 4. Zuerst schaltet die Stimmerkennungseinrichtung eine Sprachumschalteinheit SW1 zu der Sprache n, für welche die Stimmerkennungseinrichtung eine Erzeugung eines Benutzerwörterbuchs ausführt (Schritt ST81).
  • Die Stimmerkennungseinrichtung schaltet dann eine Erkennungs/Registrierungs-Umschalteinheit SW4 zu Registrierung (Schritt ST82). Als ein Ergebnis wird die Ausgabedestination eines Stimmkennzeichen-Strings, welcher eine Stimmerkennungseinrichtung 5 ausgibt, zu dem Stimmkennzeichenspeicher 2a gesetzt. Dann wird eine Stimme zur Erkennung, welche durch einen Benutzer geäußert wird, zu der Stimmerkennungseinrichtung über ein Stimmsignal-Eingabeende 3 eingegeben (Schritt ST83). Die akustische Analyseeinheit 4 führt akustische Analyse auf dem eingegebenen Stimmsignal zur Registrierung aus und gibt eine Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST84).
  • Die Merkmalsvektorzeitserie, die in Schritt ST84 erlangt wird, wird aufgezeichnet und in dem Geräuschdatenspeicher 9 gespeichert (Schritt ST85). Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die oben genannte Merkmalsvektorzeitserie und erzeugt einen Stimmkennzeichen-String unter Verwendung der Daten über ein Geräusch-Standardmodell entsprechend der Sprache, die durch die Variable n angezeigt wird, in einem Geräusch-Standardmodellspeicher 1 (Schritt ST86).
  • Der oben genannte Stimmkennzeichen-String, welchen die Stimmerkennungseinheit 5 erzeugt hat, wird als ein Benutzerwörterbuch in dem Stimmerkennzeichenspeicher 2a über die Erkennungs/Registrierungs-Umschalteinheit SW4 registriert (Schritt ST87). Die Steuereinheit bestimmt dann, ob die nächste Stimme zur Erkennung auftritt oder ob nicht, und, wenn der Benutzer die nächste Stimme zur Erkennung geäußert hat, kehrt zu Schritt ST83 zurück und wiederholt die Operationen in Schritten ST83 bis ST88. Wenn der Benutzer keine weiteren Stimmen zur Registrierung geäußert hat, beendet die Steuereinheit den Benutzerwörterbuch-Erzeugungsprozess (Schritt ST88).
  • Der oben genannte Prozess ist derjenige, der für die erstmalige Stimmregistrierung für die Sprache n ausgeführt wird. Durch die Serie von Operationen, während die Merkmalsvektorzeitserien von Stimmen zur Registrierung, die durch einen Benutzer geäußert wurden, in dem Geräuschdatenspeicher 9 gespeichert werden, wird das Benutzerwörterbuch entsprechend der Sprache n in dem Stimmkennzeichenspeicher 2a registriert.
  • 12 ist ein Flussdiagramm, welches eine Operation des Durchführens von Stimmerkennung auf einer Stimme zur Registrieren, die durch einen Benutzer geäußert wird, in einem Zustand, in welchem die Merkmalsvektorzeitserie der Stimme in dem Geräuschdatenspeicher 9 gespeichert ist, und das Benutzerwörterbuch entsprechend der Sprache n dem Stimmkennzeichenspeicher 2a registriert ist, wie oben beschrieben, erklärt.
  • Zuerst bestimmt die Steuereinheit 6, ob die Sprachumschalteinheit SW1 umgeschaltet werden soll, um die zu erkennende Sprache zu ändern, entsprechend eines Stimmerkennungsbefehls, welcher hierzu von außerhalb der Stimmerkennungseinrichtung eingegeben wird (Schritt ST91).
  • Wenn Sprachumschalteinheit SW1 die Auswahl der Sprache n beibehält, geht die Steuereinheit zur Operation ST92. Die Steuereinheit schaltet, in Schritt ST92, die Erkennungs/Registrierungs-Umschalteinheit SW4 zu der Erkennung. Eine Stimme, die durch einen Benutzer geäußert wird, wird dann, in Schritt ST93, zu der Stimmerkennungseinrichtung über das Stimmsignal-Eingabeende 3 als eine unbekannte eingegebene Stimme eingegeben. Die akustische Analyseeinheit 4 führt akustische Analyse auf der unbekannten eingegebenen Stimme, die dazu eingegeben wird, aus und gibt eine Merkmalsvektorzeitserie zu der Stimmerkennungseinheit 5 aus (Schritt ST94).
  • Die Stimmerkennungseinheit 5 empfängt, als eine Eingabe, die Merkmalsvektorzeitserie, die in Schritt ST94 erlangt wurde, führt einen Erkennungsprozess unter Verwendung der Daten, die in dem Geräusch-Standardmodellspeicher 1 entsprechend der Sprache n gespeichert sind und dem Benutzerwörterbuch, das in dem Stimmerkennzeichenspeicher 2 gespeichert ist, aus (Schritt ST95), und gibt die Erkennungsergebnisse über die Erkennungs/Registrierungs-Umschalteinheit SW4 aus.
  • Als Nächstes, wenn, in Schritt ST91, die Auswahl der Sprachumschalteinheit SW4 zu einer Sprache anders als die Sprache n umgeschaltet wird, verschiebt die Steuereinheit zu Schritt ST96 und schaltet die Sprachumschalteinheit SW1 zu einer Sprache n', die anders ist als die Sprache n, und schaltet ebenfalls die Erkennungs/Registrierungs-Umschalteinheit SW4 zu Registrierung (Schritt ST97). Die Stimmerkennungseinheit 5 liest die Merkmalsvektorzeitserie entsprechend einer Stimme zur Registrierung, die in dem Geräuschdatenspeicher 9 gespeichert ist (Schritt ST98).
  • Die Stimmerkennungseinheit 5 empfängt dann, als eine Eingabe, die Merkmalsvektorzeitserie und erzeugt einen Stimmkennzeichen-String unter Verwendung der Daten über das Geräusch-Standardmodell entsprechend der Sprache n', die in Schritt ST96 ausgewählt wurde (Schritt ST99). Die Stimmerkennungseinheit registriert dann den erlangten Stimmkennzeichen-String, als ein Benutzerwörterbuch, in dem Stimmerkennzeichenspeicher 2a über die Erkennungs/Registrierungs-Umschalteinheit SW4 (Schritt ST100).
  • Die Steuereinheit prüft dann, ob eine Merkmalsvektorzeitserie in den Schritten ST99 bis ST100 in dem Geräuschdatenspeicher 9 zu verarbeiten bleibt (Schritt ST101), und, wenn eine Merkmalsvektorzeitserie zu verarbeiten bleibt, kehrt zu Schritt ST98 zurück und führt wiederholt die Operation der Schritte ST99 bis ST101 auf den bleibenden Stimmdaten aus. Wenn keine Merkmalsvektorzeitserien zu verarbeiten bleiben, verschiebt die Steuereinheit den Prozess zu einer Operation in Schritt ST92. Weil die Operationen in Schritt ST92 und in nachfolgenden Schritten dieselben sind wie die oben genannten Operation, die in dem Fall in welchem die Sprachumschalteinheit SW1 bei der Sprache n ohne Umschalten durchgeführt werden, wird eine doppelte Erklärung der Operationen hiernach vernachlässigt.
  • Wenn zu einer Sprache n' umgeschaltet wird, erzeugt die Stimmerkennungseinrichtung unverzüglich ein Benutzerwörterbuch entsprechend der Sprache n' unter Verwendung der Merkmalsvektorzeitserie, die in dem Geräuschdatenspeicher 9 aufgezeichnet ist, und speichert das Benutzerwörterbuch in dem Stimmerkennzeichenspeicher 2a durch die oben genannten Operationen. Daher kann, auch wenn die Sprache n' in der Stimmerkennungseinrichtung ausgewählt wird, die Stimmerkennungseinrichtung Stimmerkennung unter Verwendung des Benutzerwörterbuchs ausführen. Ferner kann, in Übereinstimmung mit Ausführungsform 4, da der Stimmerkennzeichenspeicher 2a nur einen Speicherbereich äquivalent zu einer Sprache sichert, die Kapazität des Stimmerkennzeichenspeichers reduziert werden. Zusätzlich kann, da die Stimmerkennungseinrichtung den Geräuschdatenspeicher 9 beinhaltet zum Speichern der Merkmalsvektorzeitserie, auf welchem die akustische Analyse durchgeführt wurde, die Stimmerkennungseinrichtung die Menge von arithmetischen Operationen im Vergleich zu dem Fall von Ausführungsform 3 reduzieren und kann den Erzeugungsprozess des Benutzerwörterbuchs beschleunigen.
  • Folglich hält die Stimmerkennungseinrichtung in Übereinstimmung mit Ausführungsform 4 die Merkmalsvektorzeitserie, welche die akustische Analyseeinheit 4 erlangt hat, durch Ausführen akustischer Analyse, in dem Geräuschdatenspeicher 9, und erzeugt einen Geräuschkennzeichen-String unter Verwendung oben genannter Merkmalsvektorzeitserie, die in diesem Geräuschdatenspeicher 9 erhalten wird, mittels der Stimmerkennungseinheit 5. Als ein Ergebnis kann, sogar wenn die Sprache, die das Stimmerkennungssystem verwendet, geändert wird, die Stimmerkennungseinrichtung ein Benutzerwörterbuch entsprechend einer ausgewählten Sprache erzeugen unter Verwendung der Merkmalsvektorzeitserie von Stimmen, die durch einen Benutzer geäußert wurden, welche in dem Geräuschdatenspeicher 9 gehalten werden ohne einen Speicherbereich für jede Sprache in dem Stimmerkennzeichenspeicher 2a zu sichern, und kann Stimmerkennung unter Verwendung dieses Benutzerwörterbuchs ausführen.
  • Industrielle Anwendbarkeit
  • Da die Stimmerkennungseinrichtung in Übereinstimmung mit der vorliegenden Erfindung ein Benutzerwörterbuch für jede Sprache für Stimmen, die durch einen Benutzer geäußert wurden, erzeugen kann, ist die Stimmerkennungseinrichtung in Übereinstimmung mit der vorliegenden Erfindung geeignet zur Verwendung als eine Stimmerkennungseinrichtung oder Ähnliches, welche verwendet wird, wenn der Benutzer gewünschte Worte in ein Äquivalent einer Fremdsprache umwandeln will und diese speichern will.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2001-282788 A [0007]
    • JP 2002-247646 A [0007]

Claims (7)

  1. Stimmerkennungseinrichtung, umfassend: einen Geräusch-Standardmodellspeicher zum Speichern einer Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen, welche Erkennungsobjekte sind; einen Stimmkennzeichenspeicher zum Speichern einer Vielzahl von Benutzerwörterbüchern entsprechend jeweils einer Vielzahl von Sprachen; eine erste Sprachumschalteinheit zum Umschalten zwischen einer Vielzahl von Sprachen für den Geräusch-Standardmodellspeicher, um eine der Vielzahl von Sprachen auszuwählen; eine zweite Sprachumschalteinheit zum Umschalten zwischen der Vielzahl von Sprachen für den Stimmkennzeichenspeicher, um eine der Vielzahl von Sprachen auszuwählen; eine Steuereinheit zum Verursachen, dass die erste Sprachumschalteinheit und die zweite Sprachumschalteinheit in Synchronisation miteinander schalten; eine akustische Analyseeinheit zum Durchführen eines akustischen Analyseprozesses auf einer eingegebenen Stimme, die durch einen Benutzer geäußert wird, um eine Merkmalsvektorzeitserie der Stimme, die durch den Benutzer geäußert wird, auszugeben; und eine Stimmerkennungseinheit zum Erzeugen eines Stimmkennzeichen-Strings für die eingegebene Stimme, die durch einen Benutzer geäußert wird, auf der Basis sowohl der Merkmalsvektorzeitserie von der akustischen Analyseeinheit, als auch Daten über ein Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welche durch die erste Sprachumschalteinheit ausgewählt wird, während verursacht wird, dass die erste Sprachumschalteinheit umschaltet, und Registrieren des Stimmkennzeichen-Strings mit der Sprache für den Stimmkennzeichenspeicher, welcher durch die zweite Sprachumschalteinheit in Synchronisation mit der ersten Sprachumschalteinheit (1) ausgewählt wird.
  2. Stimmerkennungseinrichtung nach Anspruch 1, wobei die Stimmerkennungseinrichtung beinhaltet eine dritte Sprachumschalteinheit zum Umschalten zwischen der Vielzahl von Sprachen für den Stimmkennzeichenspeicher, um eine der Vielzahl von Sprachen auszuwählen, und eine Erkennungs/Registrierungs-Umschalteinheit zum Auswählen, ob Erkennungsergebnisse der Erkennungseinheit zu außerhalb der Stimmerkennungseinrichtung ausgegeben werden sollen oder die Erkennungsergebnisse in dem Stimmkennzeichenspeicher registriert werden sollen, und wobei die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit zu Erkennung umschaltet in Übereinstimmung mit einem Ausgabebefehl, und ebenfalls verursacht, dass die erste Sprachumschalteinheit und die dritte Sprachumschalteinheit in Synchronisation miteinander umschalten, und die Stimmerkennungseinheit ein Stimmkennzeichen für die eingegebene Stimme, die durch den Benutzer geäußert wird, von dem Stimmkennzeichenspeicher liest basierend auf sowohl der Merkmalsvektorzeitserie der eingegebenen Stimme, die durch den Benutzer geäußert wird, al auch den Daten über das Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welche durch die erste Sprachumschalteinheit (1) ausgewählt wird, während verursacht wird, dass die erste Sprachumschalteinheit (1) umschaltet, und das Stimmkennzeichen über die Erkennungs/Registrierungs-Umschalteinheit ausgibt.
  3. Stimmerkennungseinrichtung nach Anspruch 1, wobei die Stimmerkennungseinrichtung beinhaltet eine Sprachumschalteinheit zum Auswählen einer Sprache in Übereinstimmung mit Sprachspezifikationsdaten, die dafür von außerhalb der Stimmerkennungseinrichtung bereitgestellt werden, und die Steuereinheit verursacht, dass die erste Sprachumschalteinheit und die zweite Sprachumschalteinheit in Synchronisation miteinander umschalten in einer Weise, dass die erste und zweite Sprachumschalteinheit eine Sprache auswählen entsprechend der Sprache, die durch die Sprachauswahleinheit in Übereinstimmung mit der Sprache ausgewählt wurde.
  4. Eine Stimmerkennungseinrichtung, umfassend: einen Geräusch-Standardmodellspeicher zum Speichern einer Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen, welches Erkennungsobjekte sind; einen Stimmkennzeichenspeicher zum Speichern eines Benutzerwörterbuchs; eine erste Sprachumschalteinheit zum Umschalten zwischen einer Vielzahl von Sprachen für den Geräusch-Standardmodellspeicher, um eine der Vielzahl von Sprachen auszuwählen; eine Steuereinheit zum Steuern der ersten Sprachumschalteinheit zu einer spezifizierten Sprachumschaltposition in Übereinstimmung mit einer spezifizierten Sprache; einen Stimmdatenspeicher zum Halten einer Stimme, die durch einen Benutzer geäußert wird; eine akustische Analyseeinheit zum Durchführen eines akustischen Analyseprozesses auf einer eingegebenen Stimme, die durch einen Benutzer geäußert wird, oder der Stimme, die durch einen Benutzer geäußert wird, welche von dem Stimmdatenspeicher ausgelesen wird, um eine Merkmalsvektorzeitserie von der Stimme, die durch den Benutzer geäußert wird, auszugeben; und eine Stimmerkennungseinheit zum Erzeugen eines Stimmkennzeichens für die Stimme, die durch den Benutzer geäußert wird, in Übereinstimmung mit sowohl Daten über ein Geräusch-Standardmodell entsprechend der Sprache, die durch eine erste Sprachumschalteinheit ausgewählt wird, als auch der Merkmalsvektorzeitserie und Registrieren des Stimmkennzeichens in dem Stimmkennzeichenspeicher.
  5. Stimmerkennungseinrichtung, umfassend: einen Geräusch-Standardmodellspeicher zum Speichern einer Vielzahl von Geräusch-Standardmodellen entsprechend jeweils einer Vielzahl von Sprachen, welches Erkennungsobjekte sind; einen Stimmkennzeichenspeicher zum Speichern eines Benutzerwörterbuchs; eine erste Sprachumschalteinheit zum Umschalten zwischen einer Vielzahl von Sprachen für den Geräusch-Standardmodellspeicher, um eine der Vielzahl von Sprachen auszuwählen; eine Steuereinheit zum Umschalten der ersten Sprachumschalteinheit zu einer spezifizierten Sprachauswahlposition in Übereinstimmung mit einer spezifizierten Sprache; eine akustische Analyseeinheit zum Durchführen eines akustischen Analyseprozesses auf einer eingegebenen Stimme, die durch einen Benutzer geäußert wird, um eine Merkmalsvektorzeitserie der Stimme, die durch den Benutzer geäußert wird, auszugeben; ein Geräuschdatenspeicher zum Halten der Merkmalsvektorzeitserie, welche die akustische Analyseeinheit erlangt hat durch Durchführen der akustischen Analyse auf der eingegebenen Stimme, die durch den Benutzer geäußert wird; und eine Stimmerkennungseinheit zum Erzeugen eines Stimmkennzeichens für die Stimme, die durch den Benutzer geäußert wird, in Übereinstimmung mit sowohl Daten über einen Geräusch-Standardmodell entsprechend der Sprache, die durch die erste Sprachumschalteinheit (1) ausgewählt wird, als auch der Merkmalsvektorzeitserie, die aus dem Geräuschdatenspeicher ausgelesen wird, und Registrieren des Stimmkennzeichens in dem Stimmkennzeichenspeicher.
  6. Stimmerkennungseinrichtung nach Anspruch 4, wobei die Stimmerkennungseinrichtung beinhaltet eine Erkennungs/Registrierungs-Umschalteinheit zum Auswählen, ob Erkennungsergebnisse der Stimmerkennungseinheit in dem Stimmkennzeichenspeicher registriert werden sollen oder ob die Erkennungsergebnisse zu außerhalb der Stimmerkennungseinrichtung ausgegeben werden sollen, und wobei die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit umschaltet auf Erkennung in Übereinstimmung mit einem Erkennungsbefehl, und ebenfalls die erste Sprachumschalteinheit umschaltet, und die Stimmerkennungseinheit ein Stimmkennzeichen für die eingegebene Stimme, die durch den Benutzer geäußert wird, aus dem Stimmkennzeichenspeicher liest basierend auf sowohl der Merkmalsvektorzeitserie der eingegebenen Stimme, die durch den Benutzer geäußert wird, als auch den Daten über das Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welche durch die erste Sprachumschalteinheit ausgewählt wird, während verursacht wird, dass die erste Sprachumschalteinheit umschaltet, und Ausgeben des Stimmkennzeichens über die Erkennungs/Registrierungs-Umschalteinheit.
  7. Stimmerkennungseinrichtung nach Anspruch 5, wobei die Stimmerkennungseinrichtung beinhaltet eine Erkennungs/Registrierungs-Umschalteinheit zum Auswählen, ob Erkennungsergebnisse der Stimmerkennungseinheit in dem Stimmkennzeichenspeicher registriert werden sollen oder die Erkennungsergebnisse zu außerhalb der Stimmerkennungseinrichtung ausgegeben werden sollen, und wobei die Steuereinheit die Erkennungs/Registrierungs-Umschalteinheit umschaltet zu Erkennung in Übereinstimmung mit einem Erkennungsbefehl umschaltet, und ebenfalls die erste Sprachumschalteinheit umschaltet, und die Stimmerkennungseinheit ein Stimmkennzeichen für die eingegebene Stimme, die durch den Benutzer geäußert wird, von dem Stimmkennzeichenspeicher liest basierend auf sowohl der Merkmalsvektorzeitserie der eingegebenen Stimme, die durch den Benutzer geäußert wird, als auch der Daten über das Geräusch-Standardmodell entsprechend der Sprache für den Geräusch-Standardmodellspeicher, welche durch die erste Sprachumschalteinheit ausgewählt wird, während verursacht wird, dass die erste Sprachumschalteinheit umschaltet, und Ausgeben das Stimmkennzeichens über die Erkennungs/Registrierungs-Umschalteinheit.
DE112009004313.5T 2009-01-28 2009-10-20 Stimmerkennungseinrichtung Expired - Fee Related DE112009004313B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009016783 2009-01-28
JP2009-016783 2009-01-28
PCT/JP2009/005488 WO2010086928A1 (ja) 2009-01-28 2009-10-20 音声認識装置

Publications (2)

Publication Number Publication Date
DE112009004313T5 true DE112009004313T5 (de) 2012-05-24
DE112009004313B4 DE112009004313B4 (de) 2016-09-22

Family

ID=42395198

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112009004313.5T Expired - Fee Related DE112009004313B4 (de) 2009-01-28 2009-10-20 Stimmerkennungseinrichtung

Country Status (5)

Country Link
US (1) US8099290B2 (de)
JP (1) JP4703787B2 (de)
CN (1) CN102239517B (de)
DE (1) DE112009004313B4 (de)
WO (1) WO2010086928A1 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392189B2 (en) * 2009-09-28 2013-03-05 Broadcom Corporation Speech recognition using speech characteristic probabilities
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US20140067366A1 (en) * 2012-08-30 2014-03-06 Google Inc. Techniques for selecting languages for automatic speech recognition
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
CN105793920B (zh) * 2013-11-20 2017-08-08 三菱电机株式会社 声音识别装置及声音识别方法
CN104978015B (zh) * 2014-04-14 2018-09-18 博世汽车部件(苏州)有限公司 具有语种自适用功能的导航系统及其控制方法
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
CN106710586B (zh) * 2016-12-27 2020-06-30 北京儒博科技有限公司 一种语音识别引擎自动切换方法和装置
US11361752B2 (en) * 2017-09-11 2022-06-14 Mitsubishi Electric Corporation Voice recognition dictionary data construction apparatus and voice recognition apparatus
JP7117970B2 (ja) * 2018-10-17 2022-08-15 株式会社日立ビルシステム 案内ロボットシステム及び案内方法
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
KR20220120934A (ko) 2021-02-24 2022-08-31 삼성전자주식회사 음성 명령 처리 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282788A (ja) 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
JP2002247646A (ja) 2001-02-19 2002-08-30 Sony Corp 携帯端末装置およびコンピュータプログラム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6219641B1 (en) * 1997-12-09 2001-04-17 Michael V. Socaciu System and method of transmitting speech at low line rates
DE19847419A1 (de) * 1998-10-14 2000-04-20 Philips Corp Intellectual Pty Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7035805B1 (en) * 2000-07-14 2006-04-25 Miller Stephen S Switching the modes of operation for voice-recognition applications
EP1233406A1 (de) 2001-02-14 2002-08-21 Sony International (Europe) GmbH Angepasste Spracherkennung für ausländische Sprecher
EP1239459A1 (de) 2001-03-07 2002-09-11 Sony International (Europe) GmbH Anpassung eines Spracherkenners an die Aussprache eines ausländischen Sprechers
JP3837061B2 (ja) * 2001-11-28 2006-10-25 富士通株式会社 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7143033B2 (en) * 2002-04-03 2006-11-28 The United States Of America As Represented By The Secretary Of The Navy Automatic multi-language phonetic transcribing system
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
JP3776391B2 (ja) * 2002-09-06 2006-05-17 日本電信電話株式会社 多言語音声認識方法、装置、プログラム
DE10305369B4 (de) * 2003-02-10 2005-05-19 Siemens Ag Benutzeradaptives Verfahren zur Geräuschmodellierung
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
US20050197837A1 (en) * 2004-03-08 2005-09-08 Janne Suontausta Enhanced multilingual speech recognition system
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
KR100640893B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
US7340390B2 (en) * 2004-10-27 2008-03-04 Nokia Corporation Mobile communication terminal and method therefore
DE602005007939D1 (de) * 2005-02-17 2008-08-14 Loquendo Societa Per Azioni Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb ekennungssystems liegen
ATE385024T1 (de) * 2005-02-21 2008-02-15 Harman Becker Automotive Sys Multilinguale spracherkennung
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
DE102005018174A1 (de) * 2005-04-19 2006-11-02 Daimlerchrysler Ag Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
CN101008942A (zh) * 2006-01-25 2007-08-01 北京金远见电脑技术有限公司 机器翻译装置和机器翻译方法
KR100707970B1 (ko) * 2006-03-10 2007-04-16 (주)인피니티 텔레콤 이동통신단말기를 이용한 통역 서비스 방법
JP2007249653A (ja) * 2006-03-16 2007-09-27 Fujitsu Ltd マークアップ言語情報の処理装置、情報処理方法、およびプログラム
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282788A (ja) 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
JP2002247646A (ja) 2001-02-19 2002-08-30 Sony Corp 携帯端末装置およびコンピュータプログラム

Also Published As

Publication number Publication date
JP4703787B2 (ja) 2011-06-15
CN102239517A (zh) 2011-11-09
DE112009004313B4 (de) 2016-09-22
CN102239517B (zh) 2013-05-08
US20110166859A1 (en) 2011-07-07
JPWO2010086928A1 (ja) 2012-07-26
US8099290B2 (en) 2012-01-17
WO2010086928A1 (ja) 2010-08-05

Similar Documents

Publication Publication Date Title
DE112009004313B4 (de) Stimmerkennungseinrichtung
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE112007002665B4 (de) Spracherkennungssystem
DE69914368T2 (de) Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE102007015497B4 (de) Spracherkennungsvorrichtung und Spracherkennungsprogramm
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69910928T2 (de) Spracherkennungsverfahren mit mehreren anwendungsprogrammen
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69725091T2 (de) Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung
WO1998010413A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
EP1159733B1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE69333762T2 (de) Spracherkennungssystem
DE69028021T2 (de) Einrichtung zur Erkennung von kontinuierlicher Sprache
DE69717377T2 (de) Sprachgeschwindigkeitsumwandler
DE60025687T2 (de) Vorrichtung zum Spracherkennung mit Durchführung einer syntaktischen Permutationsregel

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R083 Amendment of/additions to inventor(s)
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee