DE112009004357T5

DE112009004357T5 - Spracherkennungssystem

Info

Publication number: DE112009004357T5
Application number: DE112009004357T
Authority: DE
Inventors: Michihiro Yamazaki; Jun Ishii; Hiroki Sakashita; Kazuyuki Nogi
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Mobility Corp Jp
Priority date: 2009-01-30
Filing date: 2009-10-08
Publication date: 2012-07-12
Anticipated expiration: 2029-10-09
Also published as: DE112009004357B4; CN102301419B; CN102301419A; US8977547B2; JP5172973B2; WO2010086925A1; JPWO2010086925A1; US20110276331A1

Abstract

Ein Spracherkennungssystem beinhaltet: eine Spracheingabeeinheit (11) zur Eingabe einer mehrmals geäußerten Stimme; eine Registrierungssprachdaten-Speichereinheit (12) zum Speichern von mehrmals geäußerten und in die Spracheingabeeinheit (11) eingegebenen Sprachdaten; eine Äußerungsstabilitäts-Verifizierungseinheit (13) zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten Sprachdaten, die aus der Registrierungssprachdaten-Speichereinheit (12) eingelesen werden, und zum Bestimmen, dass die Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein Schwellenwert (T1) ist; und eine Standardmuster-Erzeugungseinheit (14) zum Erzeugen eines Standardmusters unter Verwendung der Sprachdaten, wenn die Äußerungsstabilitäts-Verifizierungseinheit (13) feststellt, dass die Registrierung akzeptabel ist.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem vom Sprachregistrierungstyp.
HINTERGRUND
Bei einem konventionellen Spracherkennungssystem vom Sprachregistrierungstyp wird eine zu registrierende Äußerung einmal geäußert, die Äußerung wird mit einem vorregistrierten Standardmuster verglichen und wenn festgestellt wird, dass die Äußerung sich von dem Standardmuster (dem vorregistriertem Vokabular) unterscheidet, (wahrscheinlich nicht verwechselt wird), wird Registrierungsverarbeitung durchgeführt (siehe beispielsweise Patentdokument 1).
DOKUMENTE DES STANDS DER TECHNIK

Patentdokument 1: Japanische Patentoffenlegungsschrift Nr. 2002-297181

ZUSAMMENFASSUNG DER ERFINDUNG
Bei diesem konventionellen Spracherkennungssystem vom Sprachregistrierungstyp wird nur eine Äußerung der zu registrierenden Äußerung empfangen und es wird die Bestimmung vorgenommen, ob eine Registrierung durchzuführen ist oder nicht, basierend auf dem Ergebnis des Vergleiches zwischen der Äußerung und dem vorab registrierten Standardmuster. Daher kann eine Stabilität der zu registrierenden Äußerung nicht überprüft werden. Wenn beispielsweise ein Sprachabschnitt in einer lauten Umgebung teils verloren ist oder ein nicht gleichmäßiges Geräusch fehlerhaft als ein Sprachabschnitt detektiert wird, kann festgestellt werden, dass eine Registrierung akzeptabel ist, solange der Inhalt der Äußerung sich vom vorregistrierten Standardmuster unterscheidet; als Ergebnis kann ein Stimme fehlerhaft zum Standardmuster registriert werden. Somit wird in einem Fall, bei dem auf diese Weise eine falsche Eingabe als Standardmuster registriert wird, die Registrierung durch eine andere Stimme als dem tatsächlich durch einen Sprecher geäußerten Inhalt, der sich registrieren möchte, durchgeführt, und daher kann ein Registrierungsfehler auftreten, wenn eine zu erfassende Äußerung durch den Sprecher geäußert wird.
Die vorliegende Erfindung ist entworfen worden, um Probleme wie die oben beschriebenen zu lösen und eine Aufgabe derselben ist es, ein Spracherkennungssystem bereitzustellen, so dass durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektierung eines Sprachabschnittes usw. reduziert werden können, womit eine Spracherkennungs-Leistungsfähigkeit verbessert wird, und dass eine Verbesserung bei der Bequemlichkeit und eine Reduzierung hinsichtlich unnötigen Speicherverbrauchs erzielt werden kann.
Ein Spracherkennungssystem gemäß der vorliegenden Erfindung beinhaltet: eine Spracheingabeeinheit zum Eingeben oder Empfangen einer mehrmals geäußerten Stimme; eine Speichereinheit zum Speichern von den mehrmals geäußerten und in die Spracheingabeeinheit eingegebenen Sprachdaten; eine Stabilitäts-Verifizierungseinheit zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten und aus der Speichereinheit eingelesen Sprachdaten, und Bestimmen, dass eine Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein erster Schwellenwert ist; und eine Standardmuster-Erzeugungseinheit zum Erzeugen eines Standardmusters durch Verwenden der Sprachdaten, wenn die Stabilitäts-Verifizierungseinheit feststellt, dass die Registrierung akzeptabel ist.
Gemäß der vorliegenden Erfindung wird die Ähnlichkeit zwischen den mehrmals geäußerten Sprachdaten festgestellt; wenn die Ähnlichkeit größer als der erste Schwellenwert ist, wird festgestellt, dass eine Registrierung der Sprachdaten akzeptabel ist und es wird ein Standardmuster unter Verwendung der Sprachdaten, von denen festgestellt wurde, dass die Registrierung akzeptabel ist, erzeugt. Daher können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektierung eines Sprachabschnittes und so weiter reduziert werden, wodurch die Spracherkennungs-Leistungsfähigkeit verbessert wird und weiterhin einer Verbesserung bei Bequemlichkeit und eine Reduktion bei unnötigem Speicherverbrauch durch Vermeiden unnötigen Ansteigens bei der Anzahl von Äußerungen erzielt werden kann.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, das die Konstitution eines Spracherkennungssystems vom Sprachregistrierungstyp gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
2 ist ein Flussdiagramm, das den Fluss eines Betriebs zeigt, der durch eine Registrierungsverarbeitungseinheit in 1 durchgeführt wird;
3 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystems vom Sprachregistrierungstyp gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt;
4 ist ein Flussdiagramm, das den durch eine Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebsfluss zeigt;
5 ist ein Flussdiagramm, das ein anderes Beispiel des durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt; und
6 ist ein Flussdiagramm, das noch ein anderes Beispiel des durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt.
BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Ausführungsformen der vorliegenden Erfindung werden untenstehend unter Bezugnahme auf die anhängenden Zeichnungen erläutert, um die vorliegende Erfindung detaillierter zu illustrieren.
Erste Ausführungsform
1 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystems vom Sprachregistrierungstyp gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt. In 1 beinhaltet das Spracherkennungssystem gemäß der ersten Ausführungsform eine Registrierungsverarbeitungseinheit 1, eine Standardmuster-Speichereinheit 2 und eine Erkennungsverarbeitungseinheit 3. Die Registrierungsverarbeitungseinheit 1 ist ein Mittel zur Eingabe einer Äußerung, von der beabsichtigt ist, dass sie registriert wird (nachfolgend als Registrierungsäußerung bezeichnet), die durch einen Sprecher geäußert wird (nachfolgend als Registrierungssprecher bezeichnet), der die Äußerung als ein Standardmuster registrieren möchte, und Erzeugung eines Standardmusters, und beinhaltet eine Spracheingabeeinheit 11, eine Registrierungssprachdaten-Speichereinheit 12, eine Äußerungsstabilitäts-Verifizierungseinheit (Stabilitätsverifizierungseinheit) 13 und eine Standardmuster-Erzeugungseinheit 14.
Die Spracheingabeeinheit 11 ist ein Mittel zum mehrmaligen Empfangen der Registrierungsäußerung und Erzeugen einer Mehrzahl von Stücken von Registrierungssprachdaten entsprechend diesen mehrmaligen Registrierungsäußerungen. Die Registrierungssprachdaten-Speichereinheit 12 ist eine Speichereinheit zum Speichern der durch die Spracheingabeeinheit 11 erzeugten Registrierungssprachdaten. Die Äußerungsstabilitäts-Verifizierungseinheit 13 ist ein Mittel zum Berechnen einer Ähnlichkeit mit der Mehrzahl von Stücken von Registrierungssprachdaten, die in der Registrierungssprachdaten-Speichereinheit 12 gespeichert sind; und Bestimmen, dass die Registrierung der Mehrzahl von Stücken von Registrierungssprachdaten akzeptabel ist, wenn die Ähnlichkeit gleich oder größer einem vorbestimmten Schwellenwert ist, während bestimmt wird, dass die Registrierung der Mehrzahl von Stücken von Registrierungssprachdaten nicht akzeptabel ist, wenn die Ähnlichkeit niedriger als der Schwellenwert ist. Die Standardmuster-Erzeugungseinheit 14 ist ein Mittel zum Erzeugen eines Standardmusters unter Verwendung der registrierten Äußerungs-(Sprach-)Daten, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13 feststellt, dass eine Registrierung akzeptabel ist.
Die Standardmuster-Speichereinheit 2 ist eine Speichereinheit zum Speichern des durch die Registrierungsverarbeitungseinheit 1 erzeugten Standardmusters. Die Erkennungsverarbeitungseinheit 3 ist ein Mittel zum Ausführen von Spracherkennung einer Äußerung, von der beabsichtigt ist, dass sie erkannt wird (nachfolgend als zu erkennende Äußerung bezeichnet), die vom Sprecher geäußert wird, unter Verwendung des in der Standardmuster-Speichereinheit 2 gespeicherten Standardmusters.
Man beachte, dass die Spracheingabeeinheit 11, die Äußerungsstabilitäts-Verifizierungseinheit 13, die Standardmuster-Erzeugungseinheit 14 und die Erkennungsverarbeitungseinheit 3 auf einem Computer als ein durch eine Kooperation zwischen Software und Hardware durch Einlesen eines Sprachregistrierungs-/Erkennungsprogramms entsprechend dem Zweck der vorliegenden Erfindung auf den Computer und Ausführen des Programms auf einer CPU desselben erzeugtes spezifisches Mittel realisiert werden kann. Weiterhin können die Registrierungssprachdaten-Speichereinheit 12 und die Standardmuster-Speichereinheit 2 in einem Speicherbereich einer Speichervorrichtung (beispielsweise einer Festplattenvorrichtung, einem externen Speichermedium usw.), die auf einem Computer vorgesehen sind, aufgebaut werden.
Als Nächstes wird ein Betrieb derselben erläutert.
2 ist ein Flussdiagramm, das den Fluss eines durch die Registrierungsverarbeitungseinheit in 1 durchgeführten Prozesses zeigt. Unter Bezugnahme auf diese Zeichnung wird der Betrieb der Bestandteilseinheiten der Registrierungsverarbeitungseinheit 1 detailliert beschrieben. Wenn durch eine Bedienung von außerhalb des Systems oder dergleichen die Registrierungsverarbeitung gestartet wird, initialisiert die Spracheingabeeinheit 11 die in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten (löscht die Registrierungssprachdaten) (Schritt ST1) und stellt einen Zählwert eines Zählers (in 1 nicht gezeigt) zum Zählen der Anzahl von Äußerungen N auf Null ein (Schritt ST2).
Unter dieser Bedingung äußert der Registrierungssprecher eine Äußerung (Registrierungsäußerung) gegenüber der Registrierungsverarbeitungseinheit 1. Die Spracheingabeeinheit 11 erhöht dann den Zählwert des Zählers zum Zählen der Anzahl von Äußerungen N um Eins (Schritt ST3), woraufhin die durch den Registrierungssprecher geäußerte Registrierungsäußerung sequentiell eingegeben wird (Schritt ST4). Als Nächstes speichert die Spracheingabeeinheit 11 die eingegebene Registrierungsäußerung in der Registrierungssprachdaten-Speichereinheit 12 als Registrierungssprachdaten (Schritt ST5).
Jedes Mal, wenn die Registrierungsäußerung eingegeben wird, vergleicht die Spracheingabeeinheit 11 die Anzahl von Äußerungen N, die durch den Zähler gezählt ist, mit einem vorbestimmten Schwellenwert M, um festzustellen, ob die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist oder nicht (Schritt ST6). Der Schwellenwert M ist die Anzahl von Malen, die ein identischer Inhalt als geäußert angenommen wird, und der definiert ist durch einen Ganzzahlwert von Zwei oder größer. Wenn die Anzahl von Äußerungen N kleiner als der Schwellenwert M ist (Schritt ST6: NEIN), kehrt die Spracheingabeeinheit 11 zur Verarbeitung des Schritts ST3 zurück und wiederholt die Verarbeitung vom Schritt ST3 bis zum Schritt ST5, bis die Anzahl von Äußerungen N den Schwellenwert M erreicht oder übersteigt.
Wenn andererseits die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist (Schritt ST6: JA), berechnet die Äußerungsstabilitäts-Verifizierungseinheit 13 eine Ähnlichkeit mit den in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten (Schritt ST7). Die Ähnlichkeit der Mehrzahl von Stücken von Registrierungssprachdaten wird beispielsweise unter Verwendung der nachfolgenden Verfahren berechnet.
(1) Berechnungsverfahren 1
Wenn Registrierungssprachdaten, welche den identischen Inhalt der Anzahl von Äußerungen M anzeigen, in der Registrierungssprachdaten-Speichereinheit 12 gespeichert sind, bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13 alle Kombinationen von zwei Äußerungen in den Registrierungssprachdaten der Anzahl von Äußerungen M. Als Nächstes extrahiert die Äußerungsstabilitäts-Verifizierungseinheit 13 ein Merkmal der Registrierungssprachdaten für jede der zwei Äußerungen und berechnet eine Ähnlichkeit mit den Registrierungssprachdaten zwischen den zwei Äußerungen durch das Merkmal verwendende dynamische Programmierung. Diese Ähnlichkeit wird bei allen Kombinationen von zwei Äußerungen festgestellt, woraufhin ein Durchschnittswert der erhaltenen Ähnlichkeiten als die Ähnlichkeit mit den Registrierungssprachdaten der Anzahl von Äußerungen M eingestellt wird.
(2) Berechnungsverfahren 2
Im Berechnungsverfahren 2 wird eine minimale Ähnlichkeit (Ähnlichkeit zwischen den unwahrscheinlichsten Äußerungen) aus den Ähnlichkeiten aller Kombinationen von zwei Äußerungen als die Ähnlichkeit mit den Registrierungssprachdaten der Anzahl von Äußerungen M anstelle des Durchschnittswertes der Ähnlichkeiten eingestellt.
(3) Berechnungsverfahren 3
Wenn die Ähnlichkeiten zwischen den Registrierungssprachdaten in den Kombinationen von zwei Äußerungen berechnet wird, kooperieren die Äußerungsstabilitäts-Verifizierungseinheit 13, die Standardmuster-Erzeugungseinheit 14 und die Erkennungsverarbeitungseinheit 3, um eine Äußerung der obigen Kombinationen als ein zeitweiliges Standardmuster zu registrieren, führen Spracherkennung unter Verwendung der anderen Äußerung als eine Eingabe durch und verwenden eine Bewertung (Wahrscheinlichkeit), die als ein Erkennungsergebnis erhalten wird, als die Ähnlichkeit der Registrierungssprachdaten zwischen den zwei Äußerungen. Dann wird die Ähnlichkeit von allen Kombinationen von zwei Äußerungen bestimmt, woraufhin der Durchschnittswert oder die minimale Ähnlichkeit der erhaltenen Ähnlichkeiten als die Ähnlichkeit mit den Registrierungssprachdaten der Anzahl von Äußerungen M eingestellt wird.
Als Nächstes bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13, ob die im Schritt ST7 berechnete Ähnlichkeit mit den Registrierungssprachdaten der Anzahl von Äußerungen M oder größer, gleich oder größer einem vorbestimmten Schwellenwert T1 (einem ersten Schwellenwert) ist (Schritt ST8). Wenn die Ähnlichkeit kleiner als der Schwellenwert T1 ist (Schritt ST8: NEIN), bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13, dass den eingegebenen Äußerungen Stabilität fehlt und beendet die Registrierungsbestimmung als ein sogenanntes Registrierungsversagen, d. h. Nichterzeugen eines Standardmusters für die in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten.
Wenn die Ähnlichkeit gleich oder größer dem Schwellenwert T1 ist (Schritt ST8: JA), notifiziert die Äußerungsstabilitäts-Verifizierungseinheit 13 die Standardmuster-Erzeugungseinheit 14 über die Zustimmung. Bei Empfang dieser Notifikation erzeugt die Standardmuster-Erzeugungseinheit 14 ein Standardmuster aus dem in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten und registriert das erzeugte Standardmuster in der Standardmuster-Speichereinheit 2 (Schritt ST9, Registrierungsverarbeitung).
Als ein Beispiel des Standardmusters können beispielsweise, wenn ein Sprachmerkmal für jede Einheitszeit in Bezug auf die Registrierungssprachdaten extrahiert wird (Eingabeäußerungsstimme), Zeitreihendaten (Merkmalsvektorzeitreihen) dieser Sprachmerkmale spezifiziert werden. Alternativ kann, wenn ein die Charakteristika jedes Sprachstücks repräsentierendes Modell, das für jedes Sprachstück erzeugt wird (Silben, Phoneme usw.) in einer Stimme vorab erzeugt wird, eine Zeitreihe (Beschriftungsreihe) der Modelle des Sprachstücks als das Standardmuster registriert werden.
In einem Schritt ST9 erzeugt die Standardmuster-Erzeugungseinheit 14 entsprechende Standardmuster, basierend auf den Registrierungssprachdaten von K (wobei K eine Ganzzahl zwischen 1 und M ist) Stücken der Registrierungssprachdaten, die in der Registrierungssprachdaten-Speichereinheit 12 gespeichert worden sind, und registriert diese K Standardmuster in der Standardmuster-Speichereinheit 2. Beispiele von Verfahren zum Auswählen der K Stücke von Registrierungssprachdaten beinhalten: ein Verfahren des Auswählens der K Stücke von Daten in der Reihenfolge der Nähe der Ähnlichkeiten, die durch die Äußerungsstabilitäts-Verifizierungseinheit 13 für die jeweiligen Kombinationen berechnet worden sind; und ein Verfahren zum Bestimmen eines Schwerpunkts als das Merkmal der Registrierungssprachdaten und Auswählen von K Stücken der Daten in der Reihenfolge der Nähe zum Schwerpunkt.
Man beachte, dass anstelle des Erzeugens der K Standardmuster jeweils Sprachmerkmale in Relation auf die K Stücke von Registrierungssprachdaten extrahiert werden können, woraufhin Sprachdaten zur Registrierung mit einem Durchschnittsmerkmal der Merkmale erzeugt und als das Standardmuster registriert werden.
Wie oben beschrieben, beinhaltet die erste Ausführungsform die Spracheingabeeinheit 11 zum Eingeben einer mehrmals geäußerten Stimme, die Registrierungssprachdaten-Speichereinheit 12 zum Speichern von Sprachdaten, die mehrmals geäußert worden und an der Spracheingabeeinheit 11 eingegeben sind, die Äußerungsstabilitäts-Verifizierungseinheit 13 zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten und aus der Registrierungssprachdaten-Speichereinheit 12 eingelesenen Sprachdaten, und Bestimmen, dass die Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als der Schwellenwert T1 ist, und die Standardmuster-Erzeugungseinheit 14 zum Erzeugen eines Standardmusters unter Verwendung der Sprachdaten, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13 feststellt, dass die Registrierung akzeptabel ist. Mit diesem Aufbau wird die Registrierungsäußerung mehrmals eingegeben und eine Registrierungsverarbeitung wird nur durchgeführt, wenn die Ähnlichkeit zwischen den Äußerungen einen vorgegebenen Schwellenwert oder größer beträgt und eine weitere Registrierung wird nur durchgeführt, wenn die Mehrzahl von Eingabeäußerungen nahe beieinander sind (ähnlich sind). Daher, da die Registrierung nur abgeschlossen wird, wenn eine Mehrzahl von Äußerungen mit identischem Inhalt nahe aneinander liegen, das heißt, nur wenn die Eingabeäußerung stabil ist, können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektion eines Sprachabschnitts usw. reduziert werden, wodurch eine Spracherkennungs-Leistungsfähigkeit (Erkennungsrate) verbessert werden kann.
Weiterhin kann gemäß der ersten Ausführungsform, da ein Standardmuster aus der Mehrzahl von Äußerungen während der Registrierung erzeugt wird, ein Standardmuster entsprechend von den Variationen bei der Äußerung erzeugt werden, wodurch die Leistungsfähigkeit des Spracherkennungsbetriebs, der das Standardmuster verwendet, verbessert wird.
Zweite Ausführungsform
3 ist ein Blockdiagramm, das den Aufbau eines Spracherkennungssystem vom Sprachregistrierungstyps gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt. In 3 beinhaltet das Spracherkennungssystem gemäß der zweiten Ausführungsform eine Registrierungsverarbeitungseinheit 1A, die Standardmuster-Speichereinheit 2 und die Erkennungsverarbeitungseinheit 3. Die Registrierungsverarbeitungseinheit 1A beinhaltet die Spracheingabeeinheit 11, die Registrierungssprachdaten-Speichereinheit 12, eine Äußerungsstabilitäts-Verifizierungseinheit 13A, die Standardmuster-Erzeugungseinheit 14 und eine Wiederäußerungsanforderungseinheit 15.
Die Äußerungsstabilitäts-Verifizierungseinheit 13a ist ein Mittel zur Berechnung von Ähnlichkeiten zwischen entsprechenden Kombinationen von Registrierungssprachdaten, die geäußert worden sind, identischen Inhalt aufzuweisen, von einer Anzahl vorbestimmter Male (M Äußerungen), aus der Mehrzahl von Stücken von Registrierungssprachdaten, die in der Registrierungssprachdaten-Speichereinheit 12 gespeichert sind, Bestimmen der Kombination von M Äußerungen mit einer maximalen Ähnlichkeit und der Ähnlichkeit derselben; und Bestimmen, dass eine Registrierung akzeptabel ist, wenn die Ähnlichkeit gleich oder größer einem vorbestimmten Schwellenwert ist, während bestimmt wird, dass die Registrierung nicht akzeptabel ist, wenn die Ähnlichkeit kleiner dem Schwellenwert ist. Die Wiederäußerungsanforderungseinheit 15 ist ein Mittel, um eine Wiederäußerungsanforderung an den Registrierungssprecher vorzunehmen, wenn die Äußerungsstabilitäts-Verifizierungseinheit 13a feststellt, dass die Registrierung nicht akzeptabel ist. Man beachte, dass andere Bestandteilselemente als die Äußerungsstabilitäts-Verifizierungseinheit 13a und die Wiederäußerungsanforderungseinheit 15 identisch mit jenen der ersten Ausführungsform sind und daher deren Beschreibungen weggelassen wird.
Als Nächstes wird ein Betrieb derselben beschrieben.
4 ist ein Flussdiagramm, das den Fluss eines durch die Registrierungsverarbeitungseinheit in 3 durchgeführten Betriebs zeigt. Bezug nehmend auf diese Zeichnung wird der Betrieb der Bestandteilseinheiten der Registrierungsverarbeitungseinheit 1A detailliert beschrieben. In 4 sind die Verarbeitungen von Schritt ST1 bis Schritt ST6 im Inhalt ähnlich jenen der in 2 gezeigten ersten Ausführungsform und daher wird deren Beschreibung weggelassen.
Wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert M ist (Schritt ST6: JA), berechnet die Äußerungsstabilitäts-Verifizierungseinheit 13a Ähnlichkeiten in Bezug auf Kombinationen der Registrierungssprachdaten von M Äußerungen, die geäußert worden sind, identischen Inhalt aufzuweisen, aus den in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten und bestimmt dann die Kombination von M Äußerungen mit der maximalen Ähnlichkeit und die Ähnlichkeit derselben (Schritt ST7a). Man beachte, dass die Ähnlichkeiten zwischen den entsprechenden Kombinationen der Registrierungssprachdaten entsprechend der Mehrzahl von Äußerungen (M Äußerungen) in einer ähnlichen Weise wie bei der ersten Ausführungsform berechnet werden.
Nach Bestimmen der Kombination von M Äußerungen mit maximaler Ähnlichkeit und deren Ähnlichkeit bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13a, ob die festgestellte maximale Ähnlichkeit gleich oder größer dem vorbestimmten Schwellenwert T1 ist (Schritt ST8). Wenn die maximale Ähnlichkeit gleich oder größer dem Schwellenwert T1 ist (Schritt STB: JA), notifiziert die Äußerungsstabilitäts-Verifizierungseinheit 13a die Standardmuster-Erzeugungseinheit 14 über die Zustimmung. Beim Empfang dieser Notifikation erzeugt die Standardmuster-Erzeugungseinheit 14 ein Standardmuster aus den Registrierungssprachdaten der M Äußerungen und registriert das erzeugte Standardmuster in der Standardmuster-Speichereinheit 2 (Schritt ST9, Registrierungsverarbeitung).
Wenn andererseits die maximale Ähnlichkeit kleiner als der Schwellenwert ist (Schritt ST8: NEIN), notifiziert die Äußerungsstabilitäts-Verifizierungseinheit 13a die Wiederäußerungsanforderungseinheit 15 über die Negierung. Beim Empfang dieser Notifikation fordert die Wiederäußerungsanforderungseinheit 15 einer Wiederäußerung einer einzelnen Äußerung beim Registrierungssprecher durch Dokumentenanzeige oder Sprachausgabe unter Verwendung einer Anzeigevorrichtung, eines Lautsprechers oder dergleichen an, die in den Zeichnungen nicht gezeigt sind (Schritt ST8-1).
Wenn der Registrierungssprecher die einzelne Äußerung unter dieser Bedingung tätigt, erhöht die Spracheingabeeinheit 11 den Zählwert des Zählers zum Zählen der Anzahl von Äußerungen N um Eins (Schritt ST3), woraufhin die Verarbeitung von Schritt ST4 bis Schritt ST8 wiederholt wird, bis die maximale Ähnlichkeit den Schwellenwert T1 erreicht oder übersteigt (Schritt ST8: JA).
In diesem Fall, da die Ähnlichkeiten der Kombinationen von Registrierungssprachdaten von M Äußerungen nicht einschließlich der wieder geäußerten einzelnen Äußerungen bereits berechnet worden sind, sollte eine Ähnlichkeit für eine Kombination der Registrierungssprachdaten der M Äußerungen einschließlich der einzelnen, durch die Wieder-Äußerung hinzugefügten Äußerung neu berechnet werden. Beispielsweise wird eine Ähnlichkeit zwischen Stücken von Sprachdaten von M Äußerungen, welche die Sprachdaten der neu hinzugefügten einzelnen Äußerung mit den Sprachdaten von (M – 1) Mal bereits in der Registrierungssprachdaten-Speichereinheit 12 registrierten kombinieren, festgestellt. Die Kombination der Äußerungen mit der maximalen Ähnlichkeit wird dann spezifiziert und wenn die maximale Ähnlichkeit gleich oder größer dem Schwellenwert ist, werden die Sprachdaten der entsprechenden Kombination registriert.
Wie oben beschrieben, beinhaltet die zweite Ausführungsform die Wiederäußerungsanforderungseinheit 15 zum Ausführen von Wiederäußerungsanforderungen einer einzelnen Äußerung; die Spracheingabeeinheit 11 gibt eine, eine vorbestimmte Anzahl von Malen geäußerte Stimme ein und wenn Sprachdaten, die registriert werden können, in den Sprachdaten der vorbestimmten Anzahl von Malen, die aus der Registrierungssprachdaten-Speichereinheit 12 ausgelesen werden, nicht beinhaltet sind, veranlasst die Äußerungsstabilitäts-Verifizierungseinheit 13a die Wiederäußerungsanforderungseinheit 15, eine Wiederäußerungsanforderung auszuführen, bestimmt Ähnlichkeiten bei Sprachdaten zwischen den Sprachdaten einer einzelnen Äußerung entsprechend der Wiederäußerungsanforderung und der Sprachdaten der Mehrzahl von Malen, die bereits in der Registrierungssprachdaten-Speichereinheit 12 gespeichert sind, und wenn ein Maximalwert der Ähnlichkeiten bei den Sprachdaten größer als der Schwellenwert T1 ist, bestimmt sie, dass eine Registrierung der Sprachdaten, die die entsprechende maximale Ähnlichkeit bereitstellen, akzeptabel ist. Bei diesem Aufbau werden ähnliche Effekte wie jene der ersten Ausführungsform erhalten und es kann auch die Anzahl von Äußerungen, die zur Registrierung erforderlich sind, im Vergleich mit einem Fall verringert werden, bei dem die Registrierungsäußerung M Mal wieder geäußert wird, nachfolgend einem Registrierungsversagen, wodurch eine dem Registrierungssprecher auferlegte Last reduziert wird.
Weiterhin kann in der obigen zweiten Ausführungsform, wie in 5 gezeigt, der folgende Schritt ST10 hinzugefügt werden: die Spracheingabeeinheit 11 vergleicht die Anzahl von Äußerungen N (wobei N gleich oder größer M ist), die durch den Zähler gezählt ist, mit einem vorbestimmten Schwellenwert Tn, der eine Obergrenze der Anzahl von Äußerungen anzeigt, wenn die maximale Ähnlichkeit kleiner als der Schwellenwert T1 ist, um festzustellen, ob die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist.
Wenn hier die Anzahl von Äußerungen N kleiner als der Schwellenwert Tn ist (Schritt ST10: NEIN), notifiziert die Spracheingabeeinheit 11 die Äußerungsstabilitäts-Verifizierungseinheit 13 über das Negierung über die Äußerungsstabilitäts-Verifizierungseinheit 13a. Beim Empfang dieser Notifizierung macht die Wiederäußerungsanforderungseinheit 15 eine Anforderung nach Wiederäußerung einer einzelnen Äußerung an den Registrierungssprecher (Schritt ST10-1).
Weiterhin, wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist (Schritt ST10: JA), bestimmt die Äußerungsstabilitäts-Verifizierungseinheit 13a ein Registrierungsversagen. Daher, wenn die Anzahl von Äußerungen N gleich oder größer dem Schwellenwert Tn ist, wird die Registrierungsbestimmung als ein Registrierungsversagen abgeschlossen, ohne die Registrierungsäußerung wieder einzugeben.
Weiterhin kann in der zweiten Ausführungsform, wie in 6 gezeigt, der folgende Schritt ST11 hinzugefügt werden: die Äußerungsstabilitäts-Verifizierungseinheit 13a selektiert Registrierungssprachdaten der neuesten L (wobei L ein Ganzzahlwert von M oder mehr ist) Äußerungen aus den in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Registrierungssprachdaten und löscht die verbleibenden Registrierungssprachdaten, wenn die Anzahl von Äußerungen N kleiner als der Schwellenwert Tn ist (Schritt ST10: NEIN). Wenn die Verarbeitung des Schrittes ST11 abgeschlossen ist, macht die Wiederäußerungsanforderungseinheit 15 eine Anforderung bezüglich Wiederäußerung einer einzelnen Äußerung an den Registrierungssprecher (Schritt ST11-1). Somit werden Ähnlichkeitsbestätigung und Registrierungsverarbeitung unter Verwendung von Sprachdaten entsprechend K + 1 (= L) Äußerungen durchgeführt, welche die Sprachdaten der neu erhaltenen einzelnen Äußerungen mit den Registrierungssprachdaten für die K (wobei K gleich oder größer als M – 1 ist) bereits in der Registrierungssprachdaten-Speichereinheit 12 gespeicherten Äußerungen kombinieren.
Weiterhin kann die Registrierungssprachdaten-Kombination, aus der die maximale Ähnlichkeit erhalten wird, als ein Standard zum Bewahren der Registrierungssprachdaten der L Äußerungen beibehalten werden. Das Verfahren zum Berechnen der maximalen Ähnlichkeit ist ähnlich dem Schritt ST7a, bei dem Ähnlichkeiten von Registrierungssprachdaten-Kombinationen von M Äußerungen berechnet werden.
Man beachte, dass, wenn L = M die Kombination der Registrierungssprachdaten der L Äußerungen die eine der Registrierungssprachdaten von M Äußerungen mit der maximalen Ähnlichkeit, die in Schritt ST7a bestimmt wird, ist.
Wie oben beschrieben, kann durch Eingeben der Registrierungsäußerung als eine Äußerung nach der anderen ohne Bestimmen eines Registrierungsversagens in einem Fall, wenn die Registrierungsäußerung einer Registrierungsbedingung nicht genügt, die Anzahl von eingegebenen Äußerungen im Vergleich mit einem Fall reduziert werden, wenn jedes Mal, wenn die Registrierung versagt, die Äußerung M Mal wieder geäußert wird; als ein Ergebnis kann ein Spracherkennungssystem vom Sprachregistrierungstyp erhalten werden, das für den Registrierungssprecher sehr bequem ist.
Weiterhin kann durch Einstellen einer Obergrenze (Schwellenwert Tn) zur Anzahl von Malen, mit der die Äußerung zum Zeitpunkt eines Registrierungsversagens wieder geäußert wird, eine Situation, bei der eine Registrierung nicht durchgeführt werden kann, obwohl die Registrierungsäußerung kontinuierlich geäußert wird, ausgeschlossen werden. Bei einer solchen Situation ist es sehr wahrscheinlich, dass die Ursache des Registrierungsversagens eine schwache Registrierungs-(Äußerungs-)Umgebung ist. Daher kann durch Beenden der Registrierungsverarbeitung als ein Scheitern, wenn die Anzahl von Äußerungen den Schwellenwert Tn erreicht oder übersteigt, eine Belehrung wie etwa eine Empfehlung, die Äußerungsumgebung des Registrierungsbetriebs zu verändern, erlassen werden und somit kann ein Anwender-freundliches System bereitgestellt werden.
Darüber hinaus kann durch Einstellen einer Obergrenze (L Äußerungen) zur Anzahl von Stücken von aufgezeichneten Registrierungssprachdaten ein Aufzeichnungsbereich der Registrierungssprachdaten-Speichereinheit 12 ökonomisch verwendet werden und kann ein zum Berechnen der maximalen Ähnlichkeit erforderlicher Berechnungsbetrag reduziert werden.
INDUSTRIELLE ANWENDBARKEIT
Mit dem Spracherkennungssystem gemäß der vorliegenden Erfindung können durch nicht kontinuierliches Rauschen verursachte Registrierungsfehler, fehlerhafte Detektion eines Sprachabschnittes und so weiter reduziert werden, wodurch eine Spracherkennungsleistungsfähigkeit verbessert wird und auch eine Verbesserung in Bequemlichkeit und eine Reduzierung beim unnötigen Speicherverbrauch erzielt werden, indem ein unnötiges Anwachsen bei der Anzahl von Äußerungen vermieden wird. Entsprechend ist die vorliegende Erfindung zur Verwendung als ein Spracherkennungssystem vom Sprachregistrierungstyp oder dergleichen geeignet.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2002-297181 [0003]

Claims

Spracherkennungssystem zur Durchführung einer Spracherkennung einer zu erkennenden Äußerung unter Verwendung eines Standardmusters, umfassend: eine Spracheingabeeinheit zum Eingeben einer mehrmals geäußerten Stimme; eine Speichereinheit zum Speichern von den mehrmals geäußerten und in die Spracheingabeeinheit eingegebenen Sprachdaten; eine Stabilitäts-Verifizierungseinheit zum Bestimmen einer Ähnlichkeit zwischen den mehrmals geäußerten und aus der Speichereinheit eingelesen Sprachdaten, und Bestimmen, dass eine Registrierung der Sprachdaten akzeptabel ist, wenn die Ähnlichkeit größer als ein erster Schwellenwert ist; und eine Standardmuster-Erzeugungseinheit zum Erzeugen eines Standardmusters durch Verwenden der Sprachdaten, wenn die Stabilitäts-Verifizierungseinheit feststellt, dass die Registrierung akzeptabel ist.
Spracherkennungssystem gemäß Anspruch 1, weiter umfassend eine Wiederäußerungsanforderungseinheit zum Ausführen einer Wiederäußerungsanforderung einer einzelnen Äußerung, wobei die Spracheingabeeinheit eine, eine vorbestimmte Mehrzahl von Malen geäußerte Stimme eingibt, und wenn Sprachdaten, die registriert werden können, in den Sprachdaten der vorbestimmten Anzahl von Malen, die aus der Speichereinheit eingelesen werden, nicht beinhaltet sind, die Stabilitätsverifizierungseinheit die Wiederäußerungsanforderungseinheit veranlasst, die Wiederäußerungsanforderung auszuführen, Sprachdaten-Ähnlichkeiten zwischen Sprachdaten einer einzelnen Äußerung entsprechend der Wiederäußerungsanforderung und den Sprachdaten der vorbestimmten Anzahl von Malen, die bereits in der Speichereinheit gespeichert sind, bestimmt, und wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als ein zweiter Schwellenwert ist, bestimmt, dass eine Registrierung von Sprachdaten mit der maximalen Ähnlichkeit akzeptabel ist.
Spracherkennungssystem gemäß Anspruch 2, wobei, wenn Sprachdaten, die registriert werden können, nicht in den Sprachdaten für die vorbestimmte Mehrzahl von Äußerungen beinhaltet ist, die aus der Speichereinheit eingelesen werden, und auch die Anzahl von Äußerungen, die in der Spracheingabeeinheit eingegeben ist, einen dritten Schwellenwert erreicht, die Stabilitäts-Verifizierungseinheit eine Registrierungsbestimmung als ein Versagen, die Stimme zu registrieren, beendet, statt die Wiederäußerungsanforderungseinheit zu veranlassen, die Wiederäußerungsanforderung auszuführen.
Spracherkennungssystem gemäß Anspruch 2, wobei, wenn Sprachdaten, die registriert werden können, nicht in den Sprachdaten der Mehrzahl von Malen, die aus der Speichereinheit eingelesen werden, enthalten sind, die Stabilitäts-Verifizierungseinheit die Sprachdaten aus der Speichereinheit löscht, während eine vorbestimmte Anzahl von Stücken von Sprachdaten zurückbleibt, Sprachdaten-Ähnlichkeiten zwischen den Sprachdaten für die einzelne Äußerung entsprechend der Wiederäußerungsanforderung und der vorbestimmten Anzahl von Stücken von Sprachdaten, die in der Speichereinheit zurückgeblieben sind, bestimmt, und wenn ein Maximalwert der Sprachdaten-Ähnlichkeiten größer als der zweite Schwellenwert ist, feststellt, dass eine Registrierung von Sprachdaten mit der maximalen Ähnlichkeit akzeptabel ist.
Spracherkennungssystem gemäß Anspruch 4, wobei die Stabilitäts-Verifizierungseinheit die vorbestimmte Anzahl von Stücken von Sprachdaten aus der Kombination von Sprachdaten mit der maximalen Ähnlichkeit zwischen den Sprachdaten aus den Sprachdaten der Mehrzahl von Malen, die bereits in der Speichereinheit gespeichert sind, und den Sprachdaten der neu eingegebenen einzelnen Äußerung identifiziert und die identifizierten Sprachdaten in der Speichereinheit belässt.