[go: up one dir, main page]

DE112009004357T5 - Spracherkennungssystem - Google Patents

Spracherkennungssystem Download PDF

Info

Publication number
DE112009004357T5
DE112009004357T5 DE112009004357T DE112009004357T DE112009004357T5 DE 112009004357 T5 DE112009004357 T5 DE 112009004357T5 DE 112009004357 T DE112009004357 T DE 112009004357T DE 112009004357 T DE112009004357 T DE 112009004357T DE 112009004357 T5 DE112009004357 T5 DE 112009004357T5
Authority
DE
Germany
Prior art keywords
registration
voice
unit
utterance
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112009004357T
Other languages
English (en)
Other versions
DE112009004357B4 (de
Inventor
Michihiro Yamazaki
Jun Ishii
Hiroki Sakashita
Kazuyuki Nogi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Mobility Corp Jp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112009004357T5 publication Critical patent/DE112009004357T5/de
Application granted granted Critical
Publication of DE112009004357B4 publication Critical patent/DE112009004357B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Ein Spracherkennungssystem beinhaltet: eine Spracheingabeeinheit (11) zur Eingabe einer mehrmals geäußerten Stimme; eine Registrierungssprachdaten-Speichereinheit (12) zum Speichern von mehrmals geäußerten und in die Spracheingabeeinheit (11) eingegebenen Sprachdaten; eine Äußerungsstabilitäts-Verifizierungseinheit (13) zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten Sprachdaten, die aus der Registrierungssprachdaten-Speichereinheit (12) eingelesen werden, und zum Bestimmen, dass die Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein Schwellenwert (T1) ist; und eine Standardmuster-Erzeugungseinheit (14) zum Erzeugen eines Standardmusters unter Verwendung der Sprachdaten, wenn die Äußerungsstabilitäts-Verifizierungseinheit (13) feststellt, dass die Registrierung akzeptabel ist.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem vom Sprachregistrierungstyp.
  • HINTERGRUND
  • Bei einem konventionellen Spracherkennungssystem vom Sprachregistrierungstyp wird eine zu registrierende Äußerung einmal geäußert, die Äußerung wird mit einem vorregistrierten Standardmuster verglichen und wenn festgestellt wird, dass die Äußerung sich von dem Standardmuster (dem vorregistriertem Vokabular) unterscheidet, (wahrscheinlich nicht verwechselt wird), wird Registrierungsverarbeitung durchgeführt (siehe beispielsweise Patentdokument 1).
  • DOKUMENTE DES STANDS DER TECHNIK
    • Patentdokument 1: Japanische Patentoffenlegungsschrift Nr. 2002-297181
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Bei diesem konventionellen Spracherkennungssystem vom Sprachregistrierungstyp wird nur eine Äußerung der zu registrierenden Äußerung empfangen und es wird die Bestimmung vorgenommen, ob eine Registrierung durchzuführen ist oder nicht, basierend auf dem Ergebnis des Vergleiches zwischen der Äußerung und dem vorab registrierten Standardmuster. Daher kann eine Stabilität der zu registrierenden Äußerung nicht überprüft werden. Wenn beispielsweise ein Sprachabschnitt in einer lauten Umgebung teils verloren ist oder ein nicht gleichmäßiges Geräusch fehlerhaft als ein Sprachabschnitt detektiert wird, kann festgestellt werden, dass eine Registrierung akzeptabel ist, solange der Inhalt der Äußerung sich vom vorregistrierten Standardmuster unterscheidet; als Ergebnis kann ein Stimme fehlerhaft zum Standardmuster registriert werden. Somit wird in einem Fall, bei dem auf diese Weise eine falsche Eingabe als Standardmuster registriert wird, die Registrierung durch eine andere Stimme als dem tatsächlich durch einen Sprecher geäußerten Inhalt, der sich registrieren möchte, durchgeführt, und daher kann ein Registrierungsfehler auftreten, wenn eine zu erfassende Äußerung durch den Sprecher geäußert wird.
  • Die vorliegende Erfindung ist entworfen worden, um Probleme wie die oben beschriebenen zu lösen und eine Aufgabe derselben ist es, ein Spracherkennungssystem bereitzustellen, so dass durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektierung eines Sprachabschnittes usw. reduziert werden können, womit eine Spracherkennungs-Leistungsfähigkeit verbessert wird, und dass eine Verbesserung bei der Bequemlichkeit und eine Reduzierung hinsichtlich unnötigen Speicherverbrauchs erzielt werden kann.
  • Ein Spracherkennungssystem gemäß der vorliegenden Erfindung beinhaltet: eine Spracheingabeeinheit zum Eingeben oder Empfangen einer mehrmals geäußerten Stimme; eine Speichereinheit zum Speichern von den mehrmals geäußerten und in die Spracheingabeeinheit eingegebenen Sprachdaten; eine Stabilitäts-Verifizierungseinheit zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten und aus der Speichereinheit eingelesen Sprachdaten, und Bestimmen, dass eine Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein erster Schwellenwert ist; und eine Standardmuster-Erzeugungseinheit zum Erzeugen eines Standardmusters durch Verwenden der Sprachdaten, wenn die Stabilitäts-Verifizierungseinheit feststellt, dass die Registrierung akzeptabel ist.
  • Gemäß der vorliegenden Erfindung wird die Ähnlichkeit zwischen den mehrmals geäußerten Sprachdaten festgestellt; wenn die Ähnlichkeit größer als der erste Schwellenwert ist, wird festgestellt, dass eine Registrierung der Sprachdaten akzeptabel ist und es wird ein Standardmuster unter Verwendung der Sprachdaten, von denen festgestellt wurde, dass die Registrierung akzeptabel ist, erzeugt. Daher können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektierung eines Sprachabschnittes und so weiter reduziert werden, wodurch die Spracherkennungs-Leistungsfähigkeit verbessert wird und weiterhin einer Verbesserung bei Bequemlichkeit und eine Reduktion bei unnötigem Speicherverbrauch durch Vermeiden unnötigen Ansteigens bei der Anzahl von Äußerungen erzielt werden kann.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm, das die Konstitution eines Spracherkennungssystems vom Sprachregistrierungstyp gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 2 ist ein Flussdiagramm, das den Fluss eines Betriebs zeigt, der durch eine Registrierungsverarbeitungseinheit in 1 durchgeführt wird;
  • 3 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystems vom Sprachregistrierungstyp gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt;
  • 4 ist ein Flussdiagramm, das den durch eine Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebsfluss zeigt;
  • 5 ist ein Flussdiagramm, das ein anderes Beispiel des durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt; und
  • 6 ist ein Flussdiagramm, das noch ein anderes Beispiel des durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt.
  • BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
  • Ausführungsformen der vorliegenden Erfindung werden untenstehend unter Bezugnahme auf die anhängenden Zeichnungen erläutert, um die vorliegende Erfindung detaillierter zu illustrieren.
  • Erste Ausführungsform
  • 1 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystems vom Sprachregistrierungstyp gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt. In 1 beinhaltet das Spracherkennungssystem gemäß der ersten Ausführungsform eine Registrierungsverarbeitungseinheit 1, eine Standardmuster-Speichereinheit 2 und eine Erkennungsverarbeitungseinheit 3. Die Registrierungsverarbeitungseinheit 1 ist ein Mittel zur Eingabe einer Äußerung, von der beabsichtigt ist, dass sie registriert wird (nachfolgend als Registrierungsäußerung bezeichnet), die durch einen Sprecher geäußert wird (nachfolgend als Registrierungssprecher bezeichnet), der die Äußerung als ein Standardmuster registrieren möchte, und Erzeugung eines Standardmusters, und beinhaltet eine Spracheingabeeinheit 11, eine Registrierungssprachdaten-Speichereinheit 12, eine Äußerungsstabilitäts-Verifizierungseinheit (Stabilitätsverifizierungseinheit) 13 und eine Standardmuster-Erzeugungseinheit 14.
  • Die Spracheingabeeinheit 11 ist ein Mittel zum mehrmaligen Empfangen der Registrierungsäußerung und Erzeugen einer Mehrzahl von Stücken von Registrierungssprachdaten entsprechend diesen mehrmaligen Registrierungsäußerungen. Die Registrierungssprachdaten-Speichereinheit 12 ist eine Speichereinheit zum Speichern der durch die Spracheingabeeinheit 11 erzeugten Registrierungssprachdaten. Die Äußerungsstabilitäts-Verifizierungseinheit 13 ist ein Mittel zum Berechnen einer Ähnlichkeit mit der Mehrzahl von Stücken von Registrierungssprachdaten, die in der Registrierungssprachdaten-Speichereinheit 12 gespeichert sind; und Bestimmen, dass die Registrierung der Mehrzahl von Stücken von Registrierungssprachdaten akzeptabel ist, wenn die Ähnlichkeit gleich oder größer einem vorbestimmten Schwellenwert ist, während bestimmt wird, dass die Registrierung der Mehrzahl von Stücken von Registrierungssprachdaten nicht akzeptabel ist, wenn die Ähnlichkeit niedriger als der Schwellenwert ist. Die Standardmuster-Erzeugungseinheit 14 ist ein Mittel zum Erzeugen eines Standardmusters unter Verwendung der registrierten Äußerungs-(Sprach-)Daten, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13 feststellt, dass eine Registrierung akzeptabel ist.
  • Die Standardmuster-Speichereinheit 2 ist eine Speichereinheit zum Speichern des durch die Registrierungsverarbeitungseinheit 1 erzeugten Standardmusters. Die Erkennungsverarbeitungseinheit 3 ist ein Mittel zum Ausführen von Spracherkennung einer Äußerung, von der beabsichtigt ist, dass sie erkannt wird (nachfolgend als zu erkennende Äußerung bezeichnet), die vom Sprecher geäußert wird, unter Verwendung des in der Standardmuster-Speichereinheit 2 gespeicherten Standardmusters.
  • Man beachte, dass die Spracheingabeeinheit 11, die Äußerungsstabilitäts-Verifizierungseinheit 13, die Standardmuster-Erzeugungseinheit 14 und die Erkennungsverarbeitungseinheit 3 auf einem Computer als ein durch eine Kooperation zwischen Software und Hardware durch Einlesen eines Sprachregistrierungs-/Erkennungsprogramms entsprechend dem Zweck der vorliegenden Erfindung auf den Computer und Ausführen des Programms auf einer CPU desselben erzeugtes spezifisches Mittel realisiert werden kann. Weiterhin können die Registrierungssprachdaten-Speichereinheit 12 und die Standardmuster-Speichereinheit 2 in einem Speicherbereich einer Speichervorrichtung (beispielsweise einer Festplattenvorrichtung, einem externen Speichermedium usw.), die auf einem Computer vorgesehen sind, aufgebaut werden.
  • Als Nächstes wird ein Betrieb derselben erläutert.
  • 2 ist ein Flussdiagramm, das den Fluss eines durch die Registrierungsverarbeitungseinheit in 1 durchgeführten Prozesses zeigt. Unter Bezugnahme auf diese Zeichnung wird der Betrieb der Bestandteilseinheiten der Registrierungsverarbeitungseinheit 1 detailliert beschrieben. Wenn durch eine Bedienung von außerhalb des Systems oder dergleichen die Registrierungsverarbeitung gestartet wird, initialisiert die Spracheingabeeinheit 11 die in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten (löscht die Registrierungssprachdaten) (Schritt ST1) und stellt einen Zählwert eines Zählers (in 1 nicht gezeigt) zum Zählen der Anzahl von Äußerungen N auf Null ein (Schritt ST2).
  • Unter dieser Bedingung äußert der Registrierungssprecher eine Äußerung (Registrierungsäußerung) gegenüber der Registrierungsverarbeitungseinheit 1. Die Spracheingabeeinheit 11 erhöht dann den Zählwert des Zählers zum Zählen der Anzahl von Äußerungen N um Eins (Schritt ST3), woraufhin die durch den Registrierungssprecher geäußerte Registrierungsäußerung sequentiell eingegeben wird (Schritt ST4). Als Nächstes speichert die Spracheingabeeinheit 11 die eingegebene Registrierungsäußerung in der Registrierungssprachdaten-Speichereinheit 12 als Registrierungssprachdaten (Schritt ST5).
  • Jedes Mal, wenn die Registrierungsäußerung eingegeben wird, vergleicht die Spracheingabeeinheit 11 die Anzahl von Äußerungen N, die durch den Zähler gezählt ist, mit einem vorbestimmten Schwellenwert M, um festzustellen, ob die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist oder nicht (Schritt ST6). Der Schwellenwert M ist die Anzahl von Malen, die ein identischer Inhalt als geäußert angenommen wird, und der definiert ist durch einen Ganzzahlwert von Zwei oder größer. Wenn die Anzahl von Äußerungen N kleiner als der Schwellenwert M ist (Schritt ST6: NEIN), kehrt die Spracheingabeeinheit 11 zur Verarbeitung des Schritts ST3 zurück und wiederholt die Verarbeitung vom Schritt ST3 bis zum Schritt ST5, bis die Anzahl von Äußerungen N den Schwellenwert M erreicht oder übersteigt.
  • Wenn andererseits die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist (Schritt ST6: JA), berechnet die Äußerungsstabilitäts-Verifizierungseinheit 13 eine Ähnlichkeit mit den in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten (Schritt ST7). Die Ähnlichkeit der Mehrzahl von Stücken von Registrierungssprachdaten wird beispielsweise unter Verwendung der nachfolgenden Verfahren berechnet.
  • (1) Berechnungsverfahren 1
  • Wenn Registrierungssprachdaten, welche den identischen Inhalt der Anzahl von Äußerungen M anzeigen, in der Registrierungssprachdaten-Speichereinheit 12 gespeichert sind, bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13 alle Kombinationen von zwei Äußerungen in den Registrierungssprachdaten der Anzahl von Äußerungen M. Als Nächstes extrahiert die Äußerungsstabilitäts-Verifizierungseinheit 13 ein Merkmal der Registrierungssprachdaten für jede der zwei Äußerungen und berechnet eine Ähnlichkeit mit den Registrierungssprachdaten zwischen den zwei Äußerungen durch das Merkmal verwendende dynamische Programmierung. Diese Ähnlichkeit wird bei allen Kombinationen von zwei Äußerungen festgestellt, woraufhin ein Durchschnittswert der erhaltenen Ähnlichkeiten als die Ähnlichkeit mit den Registrierungssprachdaten der Anzahl von Äußerungen M eingestellt wird.
  • (2) Berechnungsverfahren 2
  • Im Berechnungsverfahren 2 wird eine minimale Ähnlichkeit (Ähnlichkeit zwischen den unwahrscheinlichsten Äußerungen) aus den Ähnlichkeiten aller Kombinationen von zwei Äußerungen als die Ähnlichkeit mit den Registrierungssprachdaten der Anzahl von Äußerungen M anstelle des Durchschnittswertes der Ähnlichkeiten eingestellt.
  • (3) Berechnungsverfahren 3
  • Wenn die Ähnlichkeiten zwischen den Registrierungssprachdaten in den Kombinationen von zwei Äußerungen berechnet wird, kooperieren die Äußerungsstabilitäts-Verifizierungseinheit 13, die Standardmuster-Erzeugungseinheit 14 und die Erkennungsverarbeitungseinheit 3, um eine Äußerung der obigen Kombinationen als ein zeitweiliges Standardmuster zu registrieren, führen Spracherkennung unter Verwendung der anderen Äußerung als eine Eingabe durch und verwenden eine Bewertung (Wahrscheinlichkeit), die als ein Erkennungsergebnis erhalten wird, als die Ähnlichkeit der Registrierungssprachdaten zwischen den zwei Äußerungen. Dann wird die Ähnlichkeit von allen Kombinationen von zwei Äußerungen bestimmt, woraufhin der Durchschnittswert oder die minimale Ähnlichkeit der erhaltenen Ähnlichkeiten als die Ähnlichkeit mit den Registrierungssprachdaten der Anzahl von Äußerungen M eingestellt wird.
  • Als Nächstes bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13, ob die im Schritt ST7 berechnete Ähnlichkeit mit den Registrierungssprachdaten der Anzahl von Äußerungen M oder größer, gleich oder größer einem vorbestimmten Schwellenwert T1 (einem ersten Schwellenwert) ist (Schritt ST8). Wenn die Ähnlichkeit kleiner als der Schwellenwert T1 ist (Schritt ST8: NEIN), bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13, dass den eingegebenen Äußerungen Stabilität fehlt und beendet die Registrierungsbestimmung als ein sogenanntes Registrierungsversagen, d. h. Nichterzeugen eines Standardmusters für die in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten.
  • Wenn die Ähnlichkeit gleich oder größer dem Schwellenwert T1 ist (Schritt ST8: JA), notifiziert die Äußerungsstabilitäts-Verifizierungseinheit 13 die Standardmuster-Erzeugungseinheit 14 über die Zustimmung. Bei Empfang dieser Notifikation erzeugt die Standardmuster-Erzeugungseinheit 14 ein Standardmuster aus dem in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten und registriert das erzeugte Standardmuster in der Standardmuster-Speichereinheit 2 (Schritt ST9, Registrierungsverarbeitung).
  • Als ein Beispiel des Standardmusters können beispielsweise, wenn ein Sprachmerkmal für jede Einheitszeit in Bezug auf die Registrierungssprachdaten extrahiert wird (Eingabeäußerungsstimme), Zeitreihendaten (Merkmalsvektorzeitreihen) dieser Sprachmerkmale spezifiziert werden. Alternativ kann, wenn ein die Charakteristika jedes Sprachstücks repräsentierendes Modell, das für jedes Sprachstück erzeugt wird (Silben, Phoneme usw.) in einer Stimme vorab erzeugt wird, eine Zeitreihe (Beschriftungsreihe) der Modelle des Sprachstücks als das Standardmuster registriert werden.
  • In einem Schritt ST9 erzeugt die Standardmuster-Erzeugungseinheit 14 entsprechende Standardmuster, basierend auf den Registrierungssprachdaten von K (wobei K eine Ganzzahl zwischen 1 und M ist) Stücken der Registrierungssprachdaten, die in der Registrierungssprachdaten-Speichereinheit 12 gespeichert worden sind, und registriert diese K Standardmuster in der Standardmuster-Speichereinheit 2. Beispiele von Verfahren zum Auswählen der K Stücke von Registrierungssprachdaten beinhalten: ein Verfahren des Auswählens der K Stücke von Daten in der Reihenfolge der Nähe der Ähnlichkeiten, die durch die Äußerungsstabilitäts-Verifizierungseinheit 13 für die jeweiligen Kombinationen berechnet worden sind; und ein Verfahren zum Bestimmen eines Schwerpunkts als das Merkmal der Registrierungssprachdaten und Auswählen von K Stücken der Daten in der Reihenfolge der Nähe zum Schwerpunkt.
  • Man beachte, dass anstelle des Erzeugens der K Standardmuster jeweils Sprachmerkmale in Relation auf die K Stücke von Registrierungssprachdaten extrahiert werden können, woraufhin Sprachdaten zur Registrierung mit einem Durchschnittsmerkmal der Merkmale erzeugt und als das Standardmuster registriert werden.
  • Wie oben beschrieben, beinhaltet die erste Ausführungsform die Spracheingabeeinheit 11 zum Eingeben einer mehrmals geäußerten Stimme, die Registrierungssprachdaten-Speichereinheit 12 zum Speichern von Sprachdaten, die mehrmals geäußert worden und an der Spracheingabeeinheit 11 eingegeben sind, die Äußerungsstabilitäts-Verifizierungseinheit 13 zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten und aus der Registrierungssprachdaten-Speichereinheit 12 eingelesenen Sprachdaten, und Bestimmen, dass die Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als der Schwellenwert T1 ist, und die Standardmuster-Erzeugungseinheit 14 zum Erzeugen eines Standardmusters unter Verwendung der Sprachdaten, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13 feststellt, dass die Registrierung akzeptabel ist. Mit diesem Aufbau wird die Registrierungsäußerung mehrmals eingegeben und eine Registrierungsverarbeitung wird nur durchgeführt, wenn die Ähnlichkeit zwischen den Äußerungen einen vorgegebenen Schwellenwert oder größer beträgt und eine weitere Registrierung wird nur durchgeführt, wenn die Mehrzahl von Eingabeäußerungen nahe beieinander sind (ähnlich sind). Daher, da die Registrierung nur abgeschlossen wird, wenn eine Mehrzahl von Äußerungen mit identischem Inhalt nahe aneinander liegen, das heißt, nur wenn die Eingabeäußerung stabil ist, können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektion eines Sprachabschnitts usw. reduziert werden, wodurch eine Spracherkennungs-Leistungsfähigkeit (Erkennungsrate) verbessert werden kann.
  • Weiterhin kann gemäß der ersten Ausführungsform, da ein Standardmuster aus der Mehrzahl von Äußerungen während der Registrierung erzeugt wird, ein Standardmuster entsprechend von den Variationen bei der Äußerung erzeugt werden, wodurch die Leistungsfähigkeit des Spracherkennungsbetriebs, der das Standardmuster verwendet, verbessert wird.
  • Zweite Ausführungsform
  • 3 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystem vom Sprachregistrierungstyps gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt. In 3 beinhaltet das Spracherkennungssystem gemäß der zweiten Ausführungsform eine Registrierungsverarbeitungseinheit 1A, die Standardmuster-Speichereinheit 2 und die Erkennungsverarbeitungseinheit 3. Die Registrierungsverarbeitungseinheit 1A beinhaltet die Spracheingabeeinheit 11, die Registrierungssprachdaten-Speichereinheit 12, eine Äußerungsstabilitäts-Verifizierungseinheit 13A, die Standardmuster-Erzeugungseinheit 14 und eine Wiederäußerungsanforderungseinheit 15.
  • Die Äußerungsstabilitäts-Verifizierungseinheit 13a ist ein Mittel zur Berechnung von Ähnlichkeiten zwischen entsprechenden Kombinationen von Registrierungssprachdaten, die geäußert worden sind, identischen Inhalt aufzuweisen, von einer Anzahl vorbestimmter Male (M Äußerungen), aus der Mehrzahl von Stücken von Registrierungssprachdaten, die in der Registrierungssprachdaten-Speichereinheit 12 gespeichert sind, Bestimmen der Kombination von M Äußerungen mit einer maximalen Ähnlichkeit und der Ähnlichkeit derselben; und Bestimmen, dass eine Registrierung akzeptabel ist, wenn die Ähnlichkeit gleich oder größer einem vorbestimmten Schwellenwert ist, während bestimmt wird, dass die Registrierung nicht akzeptabel ist, wenn die Ähnlichkeit kleiner dem Schwellenwert ist. Die Wiederäußerungsanforderungseinheit 15 ist ein Mittel, um eine Wiederäußerungsanforderung an den Registrierungssprecher vorzunehmen, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13a feststellt, dass die Registrierung nicht akzeptabel ist. Man beachte, dass andere Bestandteilselemente als die Äußerungsstabilitäts-Verifizierungseinheit 13a und die Wiederäußerungsanforderungseinheit 15 identisch mit jenen der ersten Ausführungsform sind und daher deren Beschreibungen weggelassen wird.
  • Als Nächstes wird ein Betrieb derselben beschrieben.
  • 4 ist ein Flussdiagramm, das den Fluss eines durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt. Bezug nehmend auf diese Zeichnung wird der Betrieb der Bestandteilseinheiten der Registrierungsverarbeitungseinheit 1A detailliert beschrieben. In 4 sind die Verarbeitungen von Schritt ST1 bis Schritt ST6 im Inhalt ähnlich jenen der in 2 gezeigten ersten Ausführungsform und daher wird deren Beschreibung weggelassen.
  • Wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist (Schritt ST6: JA), berechnet die Äußerungsstabilitäts-Verifizierungseinheit 13a Ähnlichkeiten in Bezug auf Kombinationen der Registrierungssprachdaten von M Äußerungen, die geäußert worden sind, identischen Inhalt aufzuweisen, aus den in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten und bestimmt dann die Kombination von M Äußerungen mit der maximalen Ähnlichkeit und die Ähnlichkeit derselben (Schritt ST7a). Man beachte, dass die Ähnlichkeiten zwischen den entsprechenden Kombinationen der Registrierungssprachdaten entsprechend der Mehrzahl von Äußerungen (M Äußerungen) in einer ähnlichen Weise wie bei der ersten Ausführungsform berechnet werden.
  • Nach Bestimmen der Kombination von M Äußerungen mit maximaler Ähnlichkeit und deren Ähnlichkeit bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13a, ob die festgestellte maximale Ähnlichkeit gleich oder größer dem vorbestimmten Schwellenwert T1 ist (Schritt ST8). Wenn die maximale Ähnlichkeit gleich oder größer dem Schwellenwert T1 ist (Schritt STB: JA), notifiziert die Äußerungsstabilitäts-Verifizierungseinheit 13a die Standardmuster-Erzeugungseinheit 14 über die Zustimmung. Beim Empfang dieser Notifikation erzeugt die Standardmuster-Erzeugungseinheit 14 ein Standardmuster aus den Registrierungssprachdaten der M Äußerungen und registriert das erzeugte Standardmuster in der Standardmuster-Speichereinheit 2 (Schritt ST9, Registrierungsverarbeitung).
  • Wenn andererseits die maximale Ähnlichkeit kleiner als der Schwellenwert ist (Schritt ST8: NEIN), notifiziert die Äußerungsstabilitäts-Verifizierungseinheit 13a die Wiederäußerungsanforderungseinheit 15 über die Negierung. Beim Empfang dieser Notifikation fordert die Wiederäußerungsanforderungseinheit 15 einer Wiederäußerung einer einzelnen Äußerung beim Registrierungssprecher durch Dokumentenanzeige oder Sprachausgabe unter Verwendung einer Anzeigevorrichtung, eines Lautsprechers oder dergleichen an, die in den Zeichnungen nicht gezeigt sind (Schritt ST8-1).
  • Wenn der Registrierungssprecher die einzelne Äußerung unter dieser Bedingung tätigt, erhöht die Spracheingabeeinheit 11 den Zählwert des Zählers zum Zählen der Anzahl von Äußerungen N um Eins (Schritt ST3), woraufhin die Verarbeitung von Schritt ST4 bis Schritt ST8 wiederholt wird, bis die maximale Ähnlichkeit den Schwellenwert T1 erreicht oder übersteigt (Schritt ST8: JA).
  • In diesem Fall, da die Ähnlichkeiten der Kombinationen von Registrierungssprachdaten von M Äußerungen nicht einschließlich der wieder geäußerten einzelnen Äußerungen bereits berechnet worden sind, sollte eine Ähnlichkeit für eine Kombination der Registrierungssprachdaten der M Äußerungen einschließlich der einzelnen, durch die Wieder-Äußerung hinzugefügten Äußerung neu berechnet werden. Beispielsweise wird eine Ähnlichkeit zwischen Stücken von Sprachdaten von M Äußerungen, welche die Sprachdaten der neu hinzugefügten einzelnen Äußerung mit den Sprachdaten von (M – 1) Mal bereits in der Registrierungssprachdaten-Speichereinheit 12 registrierten kombinieren, festgestellt. Die Kombination der Äußerungen mit der maximalen Ähnlichkeit wird dann spezifiziert und wenn die maximale Ähnlichkeit gleich oder größer dem Schwellenwert ist, werden die Sprachdaten der entsprechenden Kombination registriert.
  • Wie oben beschrieben, beinhaltet die zweite Ausführungsform die Wiederäußerungsanforderungseinheit 15 zum Ausführen von Wiederäußerungsanforderungen einer einzelnen Äußerung; die Spracheingabeeinheit 11 gibt eine, eine vorbestimmte Anzahl von Malen geäußerte Stimme ein und wenn Sprachdaten, die registriert werden können, in den Sprachdaten der vorbestimmten Anzahl von Malen, die aus der Registrierungssprachdaten-Speichereinheit 12 ausgelesen werden, nicht beinhaltet sind, veranlasst die Äußerungsstabilitäts-Verifizierungseinheit 13a die Wiederäußerungsanforderungseinheit 15, eine Wiederäußerungsanforderung auszuführen, bestimmt Ähnlichkeiten bei Sprachdaten zwischen den Sprachdaten einer einzelnen Äußerung entsprechend der Wiederäußerungsanforderung und der Sprachdaten der Mehrzahl von Malen, die bereits in der Registrierungssprachdaten-Speichereinheit 12 gespeichert sind, und wenn ein Maximalwert der Ähnlichkeiten bei den Sprachdaten größer als der Schwellenwert T1 ist, bestimmt sie, dass eine Registrierung der Sprachdaten, die die entsprechende maximale Ähnlichkeit bereitstellen, akzeptabel ist. Bei diesem Aufbau werden ähnliche Effekte wie jene der ersten Ausführungsform erhalten und es kann auch die Anzahl von Äußerungen, die zur Registrierung erforderlich sind, im Vergleich mit einem Fall verringert werden, bei dem die Registrierungsäußerung M Mal wieder geäußert wird, nachfolgend einem Registrierungsversagen, wodurch eine dem Registrierungssprecher auferlegte Last reduziert wird.
  • Weiterhin kann in der obigen zweiten Ausführungsform, wie in 5 gezeigt, der folgende Schritt ST10 hinzugefügt werden: die Spracheingabeeinheit 11 vergleicht die Anzahl von Äußerungen N (wobei N gleich oder größer M ist), die durch den Zähler gezählt ist, mit einem vorbestimmten Schwellenwert Tn, der eine Obergrenze der Anzahl von Äußerungen anzeigt, wenn die maximale Ähnlichkeit kleiner als der Schwellenwert T1 ist, um festzustellen, ob die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist.
  • Wenn hier die Anzahl von Äußerungen N kleiner als der Schwellenwert Tn ist (Schritt ST10: NEIN), notifiziert die Spracheingabeeinheit 11 die Äußerungsstabilitäts-Verifizierungseinheit 13 über das Negierung über die Äußerungsstabilitäts-Verifizierungseinheit 13a. Beim Empfang dieser Notifizierung macht die Wiederäußerungsanforderungseinheit 15 eine Anforderung nach Wiederäußerung einer einzelnen Äußerung an den Registrierungssprecher (Schritt ST10-1).
  • Weiterhin, wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist (Schritt ST10: JA), bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13a ein Registrierungsversagen. Daher, wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist, wird die Registrierungsbestimmung als ein Registrierungsversagen abgeschlossen, ohne die Registrierungsäußerung wieder einzugeben.
  • Weiterhin kann in der zweiten Ausführungsform, wie in 6 gezeigt, der folgende Schritt ST11 hinzugefügt werden: die Äußerungsstabilitäts-Verifizierungseinheit 13a selektiert Registrierungssprachdaten der neuesten L (wobei L ein Ganzzahlwert von M oder mehr ist) Äußerungen aus den in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten und löscht die verbleibenden Registrierungssprachdaten, wenn die Anzahl von Äußerungen N kleiner als der Schwellenwert Tn ist (Schritt ST10: NEIN). Wenn die Verarbeitung des Schrittes ST11 abgeschlossen ist, macht die Wiederäußerungsanforderungseinheit 15 eine Anforderung bezüglich Wiederäußerung einer einzelnen Äußerung an den Registrierungssprecher (Schritt ST11-1). Somit werden Ähnlichkeitsbestätigung und Registrierungsverarbeitung unter Verwendung von Sprachdaten entsprechend K + 1 (= L) Äußerungen durchgeführt, welche die Sprachdaten der neu erhaltenen einzelnen Äußerungen mit den Registrierungssprachdaten für die K (wobei K gleich oder größer als M – 1 ist) bereits in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Äußerungen kombinieren.
  • Weiterhin kann die Registrierungssprachdaten-Kombination, aus der die maximale Ähnlichkeit erhalten wird, als ein Standard zum Bewahren der Registrierungssprachdaten der L Äußerungen beibehalten werden. Das Verfahren zum Berechnen der maximalen Ähnlichkeit ist ähnlich dem Schritt ST7a, bei dem Ähnlichkeiten von Registrierungssprachdaten-Kombinationen von M Äußerungen berechnet werden.
  • Man beachte, dass, wenn L = M die Kombination der Registrierungssprachdaten der L Äußerungen die eine der Registrierungssprachdaten von M Äußerungen mit der maximalen Ähnlichkeit, die in Schritt ST7a bestimmt wird, ist.
  • Wie oben beschrieben, kann durch Eingeben der Registrierungsäußerung als eine Äußerung nach der anderen ohne Bestimmen eines Registrierungsversagens in einem Fall, wenn die Registrierungsäußerung einer Registrierungsbedingung nicht genügt, die Anzahl von eingegebenen Äußerungen im Vergleich mit einem Fall reduziert werden, wenn jedes Mal, wenn die Registrierung versagt, die Äußerung M Mal wieder geäußert wird; als ein Ergebnis kann ein Spracherkennungssystem vom Sprachregistrierungstyp erhalten werden, das für den Registrierungssprecher sehr bequem ist.
  • Weiterhin kann durch Einstellen einer Obergrenze (Schwellenwert Tn) zur Anzahl von Malen, mit der die Äußerung zum Zeitpunkt eines Registrierungsversagens wieder geäußert wird, eine Situation, bei der eine Registrierung nicht durchgeführt werden kann, obwohl die Registrierungsäußerung kontinuierlich geäußert wird, ausgeschlossen werden. Bei einer solchen Situation ist es sehr wahrscheinlich, dass die Ursache des Registrierungsversagens eine schwache Registrierungs-(Äußerungs-)Umgebung ist. Daher kann durch Beenden der Registrierungsverarbeitung als ein Scheitern, wenn die Anzahl von Äußerungen den Schwellenwert Tn erreicht oder übersteigt, eine Belehrung wie etwa eine Empfehlung, die Äußerungsumgebung des Registrierungsbetriebs zu verändern, erlassen werden und somit kann ein Anwender-freundliches System bereitgestellt werden.
  • Darüber hinaus kann durch Einstellen einer Obergrenze (L Äußerungen) zur Anzahl von Stücken von aufgezeichneten Registrierungssprachdaten ein Aufzeichnungsbereich der Registrierungssprachdaten-Speichereinheit 12 ökonomisch verwendet werden und kann ein zum Berechnen der maximalen Ähnlichkeit erforderlicher Berechnungsbetrag reduziert werden.
  • INDUSTRIELLE ANWENDBARKEIT
  • Mit dem Spracherkennungssystem gemäß der vorliegenden Erfindung können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektion eines Sprachabschnittes und so weiter reduziert werden, wodurch eine Spracherkennungsleistungsfähigkeit verbessert wird und auch eine Verbesserung in Bequemlichkeit und eine Reduzierung beim unnötigen Speicherverbrauch erzielt werden, indem ein unnötiges Anwachsen bei der Anzahl von Äußerungen vermieden wird. Entsprechend ist die vorliegende Erfindung zur Verwendung als ein Spracherkennungssystem vom Sprachregistrierungstyp oder dergleichen geeignet.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2002-297181 [0003]

Claims (5)

  1. Spracherkennungssystem zur Durchführung einer Spracherkennung einer zu erkennenden Äußerung unter Verwendung eines Standardmusters, umfassend: eine Spracheingabeeinheit zum Eingeben einer mehrmals geäußerten Stimme; eine Speichereinheit zum Speichern von den mehrmals geäußerten und in die Spracheingabeeinheit eingegebenen Sprachdaten; eine Stabilitäts-Verifizierungseinheit zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten und aus der Speichereinheit eingelesen Sprachdaten, und Bestimmen, dass eine Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein erster Schwellenwert ist; und eine Standardmuster-Erzeugungseinheit zum Erzeugen eines Standardmusters durch Verwenden der Sprachdaten, wenn die Stabilitäts-Verifizierungseinheit feststellt, dass die Registrierung akzeptabel ist.
  2. Spracherkennungssystem gemäß Anspruch 1, weiter umfassend eine Wiederäußerungsanforderungseinheit zum Ausführen einer Wiederäußerungsanforderung einer einzelnen Äußerung, wobei die Spracheingabeeinheit eine, eine vorbestimmte Mehrzahl von Malen geäußerte Stimme eingibt, und wenn Sprachdaten, die registriert werden können, in den Sprachdaten der vorbestimmten Anzahl von Malen, die aus der Speichereinheit eingelesen werden, nicht beinhaltet sind, die Stabilitätsverifizierungseinheit die Wiederäußerungsanforderungseinheit veranlasst, die Wiederäußerungsanforderung auszuführen, Sprachdaten-Ähnlichkeiten zwischen Sprachdaten einer einzelnen Äußerung entsprechend der Wiederäußerungsanforderung und den Sprachdaten der vorbestimmten Anzahl von Malen, die bereits in der Speichereinheit gespeichert sind, bestimmt, und wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als ein zweiter Schwellenwert ist, bestimmt, dass eine Registrierung von Sprachdaten mit der maximalen Ähnlichkeit akzeptabel ist.
  3. Spracherkennungssystem gemäß Anspruch 2, wobei, wenn Sprachdaten, die registriert werden können, nicht in den Sprachdaten für die vorbestimmte Mehrzahl von Äußerungen beinhaltet ist, die aus der Speichereinheit eingelesen werden, und auch die Anzahl von Äußerungen, die in der Spracheingabeeinheit eingegeben ist, einen dritten Schwellenwert erreicht, die Stabilitäts-Verifizierungseinheit eine Registrierungsbestimmung als ein Versagen, die Stimme zu registrieren, beendet, statt die Wiederäußerungsanforderungseinheit zu veranlassen, die Wiederäußerungsanforderung auszuführen.
  4. Spracherkennungssystem gemäß Anspruch 2, wobei, wenn Sprachdaten, die registriert werden können, nicht in den Sprachdaten der Mehrzahl von Malen, die aus der Speichereinheit eingelesen werden, enthalten sind, die Stabilitäts-Verifizierungseinheit die Sprachdaten aus der Speichereinheit löscht, während eine vorbestimmte Anzahl von Stücken von Sprachdaten zurückbleibt, Sprachdaten-Ähnlichkeiten zwischen den Sprachdaten für die einzelne Äußerung entsprechend der Wiederäußerungsanforderung und der vorbestimmten Anzahl von Stücken von Sprachdaten, die in der Speichereinheit zurückgeblieben sind, bestimmt, und wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als der zweite Schwellenwert ist, feststellt, dass eine Registrierung von Sprachdaten mit der maximalen Ähnlichkeit akzeptabel ist.
  5. Spracherkennungssystem gemäß Anspruch 4, wobei die Stabilitäts-Verifizierungseinheit die vorbestimmte Anzahl von Stücken von Sprachdaten aus der Kombination von Sprachdaten mit der maximalen Ähnlichkeit zwischen den Sprachdaten aus den Sprachdaten der Mehrzahl von Malen, die bereits in der Speichereinheit gespeichert sind, und den Sprachdaten der neu eingegebenen einzelnen Äußerung identifiziert und die identifizierten Sprachdaten in der Speichereinheit belässt.
DE112009004357.7T 2009-01-30 2009-10-08 Spracherkennungssystem Active DE112009004357B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009019692 2009-01-30
JP2009-019692 2009-01-30
PCT/JP2009/005244 WO2010086925A1 (ja) 2009-01-30 2009-10-08 音声認識装置

Publications (2)

Publication Number Publication Date
DE112009004357T5 true DE112009004357T5 (de) 2012-07-12
DE112009004357B4 DE112009004357B4 (de) 2019-06-13

Family

ID=42395195

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112009004357.7T Active DE112009004357B4 (de) 2009-01-30 2009-10-08 Spracherkennungssystem

Country Status (5)

Country Link
US (1) US8977547B2 (de)
JP (1) JP5172973B2 (de)
CN (1) CN102301419B (de)
DE (1) DE112009004357B4 (de)
WO (1) WO2010086925A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630971B2 (en) * 2009-11-20 2014-01-14 Indian Institute Of Science System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns
TWI475558B (zh) * 2012-11-08 2015-03-01 Ind Tech Res Inst 詞語驗證的方法及裝置
JP6348903B2 (ja) * 2013-06-10 2018-06-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別方法、話者識別装置及び情報管理方法
US9443508B2 (en) 2013-09-11 2016-09-13 Texas Instruments Incorporated User programmable voice command recognition based on sparse features
WO2016015687A1 (zh) * 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
KR102245747B1 (ko) 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
CN105185379B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
US10044710B2 (en) 2016-02-22 2018-08-07 Bpip Limited Liability Company Device and method for validating a user using an intelligent voice print
WO2017191696A1 (ja) * 2016-05-06 2017-11-09 ソニー株式会社 情報処理システム、および情報処理方法
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US9984688B2 (en) 2016-09-28 2018-05-29 Visteon Global Technologies, Inc. Dynamically adjusting a voice recognition system
EP4475017A3 (de) 2018-11-30 2024-12-25 Samsung Electronics Co., Ltd. Verfahren und vorrichtung zur benutzerauthentifizierung
US11295741B2 (en) * 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
US12462809B2 (en) * 2020-07-27 2025-11-04 Nec Corporation Voice registration device, control method, program, and storage medium
CN116246638A (zh) * 2022-09-09 2023-06-09 北京得意音通技术有限责任公司 生成语音身份确认信息的方法、身份验证方法、身份识别方法、存储介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4297528A (en) 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer
JPS59192A (ja) * 1982-06-25 1984-01-05 株式会社東芝 個人照合装置
US4751737A (en) 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
JP2838848B2 (ja) * 1989-02-10 1998-12-16 株式会社リコー 標準パターン登録方式
GB2237135A (en) 1989-10-16 1991-04-24 Logica Uk Ltd Speaker recognition
JPH075890A (ja) 1993-06-16 1995-01-10 Nippon Telegr & Teleph Corp <Ntt> 音声対話装置
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6012027A (en) 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
KR100241901B1 (ko) * 1997-08-28 2000-02-01 윤종용 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법
JP3699608B2 (ja) * 1999-04-01 2005-09-28 富士通株式会社 話者照合装置及び方法
KR100297833B1 (ko) * 1999-07-07 2001-11-01 윤종용 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
WO2005013263A1 (ja) * 2003-07-31 2005-02-10 Fujitsu Limited 音声認証システム
JP4672003B2 (ja) * 2005-02-18 2011-04-20 富士通株式会社 音声認証システム
EP2006836A4 (de) 2006-03-24 2010-05-05 Pioneer Corp Sprechermodell-registrationseinrichtung und verfahren in einem sprechererkennungssystem und computerprogrramm
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
DE102008024257A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE102008040002A1 (de) * 2008-08-27 2010-03-04 Siemens Aktiengesellschaft Verfahren zur szenariounabhängigen Sprechererkennung
US8347247B2 (en) * 2008-10-17 2013-01-01 International Business Machines Corporation Visualization interface of continuous waveform multi-speaker identification
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置

Also Published As

Publication number Publication date
DE112009004357B4 (de) 2019-06-13
CN102301419B (zh) 2013-06-12
CN102301419A (zh) 2011-12-28
US8977547B2 (en) 2015-03-10
JP5172973B2 (ja) 2013-03-27
WO2010086925A1 (ja) 2010-08-05
JPWO2010086925A1 (ja) 2012-07-26
US20110276331A1 (en) 2011-11-10

Similar Documents

Publication Publication Date Title
DE112009004357T5 (de) Spracherkennungssystem
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69705830T2 (de) Sprachverarbeitung
DE69225173T2 (de) Spracherkennungsgerät
DE69615667T2 (de) Spracherkennung
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE60213195T2 (de) Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69822179T2 (de) Verfahren zum lernen von mustern für die sprach- oder die sprechererkennung
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69416670T2 (de) Sprachverarbeitung
DE60004331T2 (de) Sprecher-erkennung
DE69517571T2 (de) Verfahren zur Erkennung von Mustern
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE112015007163B4 (de) Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69937854T2 (de) Verfahren und Vorrichtung zur Spracherkennung unter Verwendung von phonetischen Transkriptionen
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015060000

Ipc: G10L0017040000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015060000

Ipc: G10L0017040000

Effective date: 20121121

R016 Response to examination communication
R084 Declaration of willingness to licence
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0017040000

Ipc: G10L0015060000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R081 Change of applicant/patentee

Owner name: MITSUBISHI ELECTRIC MOBILITY CORPORATION, JP

Free format text: FORMER OWNER: MITSUBISHI ELECTRIC CORP., TOKYO, JP