[go: up one dir, main page]

DE69130090T2 - Lernprozess durch assoziation mit taktserien - Google Patents

Lernprozess durch assoziation mit taktserien

Info

Publication number
DE69130090T2
DE69130090T2 DE69130090T DE69130090T DE69130090T2 DE 69130090 T2 DE69130090 T2 DE 69130090T2 DE 69130090 T DE69130090 T DE 69130090T DE 69130090 T DE69130090 T DE 69130090T DE 69130090 T2 DE69130090 T2 DE 69130090T2
Authority
DE
Germany
Prior art keywords
articulatory
acoustic
mentioned
input
digital signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69130090T
Other languages
English (en)
Other versions
DE69130090D1 (de
Inventor
George Jack Santa Fe Nm 87501 Papcun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
US Department of Energy
Original Assignee
US Department of Energy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by US Department of Energy filed Critical US Department of Energy
Application granted granted Critical
Publication of DE69130090D1 publication Critical patent/DE69130090D1/de
Publication of DE69130090T2 publication Critical patent/DE69130090T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

    Hintergrund der Erfindung
  • Die Erfindung bezieht sich allgemein auf die auf Maschinen basierende Erkennung von Sprache und Sprecher, und insbesondere auf die auf Maschinen basierende Spracherkennung unter Verwendung einer gelernten Beziehung zwischen akustischen und artikulatorischen Parametern.
  • Bei der konventionellen Spracherkennung werden eingegebene akustische Wellenformen erhalten und zum Vergleich mit gespeicherten akustischen Wellenformen mit korrelativen Diktionär- oder Wörterbuchdaten verglichen. Diese Arbeitsweise erfordert einen beträchtlichen Computerspeicher und macht es notwendig, daß die Sprachmuster des Sprechers hinreichend ähnlich sind zu den gespeicherten Mustern, so daß eine Musterübereinstimmung erhalten werden kann. Es ist jedoch zu berücksichtigen, daß die Sprachakustik beeinflußt ist durch die Sprechrate, die linguistische Beanspruchung, die Betonung, die Intensität 1 und Emotionen. Ferner modifizieren bei einem flüssigen Sprechen die Sprecher normalerweise die Sprachtöne durch Hinzufügen oder durch Weglassen von Tönen und durch Assimilieren von benachbarten Tönen.
  • Im U. S. Patent 4 769 845 "Method of Recognizing Speech Using a Lip Image", ausgegeben am 6. September 1988 an Nakamura, wird die Spracherkennung gelehrt unter Verwendung eines Computers mit einer relativ kleinen Speicherkapazität, wobei ein Erkennungstemplat oder Muster gebildet ist, um mindestens Lippenmusterdaten zu umfassen. Lippenmusterdaten werden anfänglich durch ein externes Sensorgerät erhalten und mit den gespeicherten Worttemplaten oder Wortmuster kollationiert. Die Spracherkennung macht es jedoch sodann erforderlich, daß eine externe Vorrichtung, wie beispielsweise eine TV-Kamera auch die Lippenmusterdaten eines Sprechers aufnimmt, dessen Sprache zu erkennen ist.
  • In I. L. Elman et al. "Learning the Hidden Structure of Speech", 83 J. Acoust. Soc. Am., 4, Seiten 1615-1626 vom April 1988 wird hypothetisch erwägt, daß nicht geeignete Merkmale ausgewählt wurden als Einheiten zur Erkennung und zur Darstellung der Sprache. Eine Rückfortpflanzungsneuralnetzwerklernprozedur wird angewandt zur Entwicklung einer Beziehung zwischen Eingangs/Ausgang-Musterpaaren unter Verwendung nur einer einzigen Eingangszeitserie. Das Netzwerk entwickelte reiche internere Präsentationen, die versteckte Einheiten umfaßten, die traditionellen Unterschieden als Vokalen und Konsonanten entsprachen. Es wurden jedoch nur abstrakte Beziehungen entwickelt, da nur akustische Muster eingegeben wurden.
  • Es wäre zweckmäßig, eine Repräsentation eines Sprachsignals vorzusehen, die relativ invariant ist bei Veränderungen der Sprechgeschwindigkeit, Beanspruchung und der phonetischen Umgebung. Es ist auch erwünscht, ein System zu trainieren, beispielsweise ein künstliches Neuralnetzwerk, um Sprache unabhängig vom Sprecher zu erkennen. Diese und weitere Aspekte der Spracherkennung werden durch die Erfindung behandelt, wo eine Beziehung zwischen einem akustischen Signal und artikulatorischen Mechanismen, die dies erzeugen, gelernt wird. Die artikulatorische Repräsentation wird dann dazu verwendet, um die Sprache durch andere zu erkennen, und zwar basierend allein auf akustischen Eingangsgrößen.
  • Es ist somit ein Ziel der vorliegenden Erfindung, Spracherkennung vorzusehen, und zwar bei Veränderungen in der Sprachrate, der Beanspruchung und der phonetischen Umgebung.
  • Ein weiteres Ziel der Erfindung ist es, eine gelernte Beziehung zwischen der Sprachakustik und artikulatorischen Mechanismen herzustellen.
  • Ein weiteres Ziel der Erfindung besteht darin, eine Spracherkennung zu erhalten, und zwar aus gelernten artikulatorischen Gesten ohne daß ein Gesteneingang vorliegen müßte.
  • Weitere Ziele, Vorteile und neue Merkmale der Erfindung · werden in der Beschreibung erläutert und ergeben sich für den Fachmann durch das Studium derselben. Die Ziele und Vorteile der Erfindung können durch die Vorrichtungen und insbesondere erwähnten Kombinationen der abhängigen Ansprüche verwirklicht und diesen entnommen werden.
  • Zusammenfassung der Erfindung
  • Zur Erlangung der obigen und weitere Ziele gemäß den Zwecken der Erfindung, die hier beschrieben ist, sieht die vorliegende Erfindung ein Verfahren vor zur Erkennung von akustischen Eingangsgrößen gemäß Anspruch 1 bzw. Anspruch 5. Es wird eine Beziehung gelernt zwischen einer akustischen Trainingseingangsgröße und einer korrelierenden artikulatorischen Parametereingangsgröße. Der Lernvorgang wird vorzugsweise in einem Neuralnetzwerk vorgenommen. Ein Satz von relationalen oder Beziehungstemplaten wird gebildet, und zwar entsprechend der korrelativen artikulatorischen Parametereingangsgröße. Ein Digitalsignal funktionsmäßig in Beziehung stehend mit der akustischen Eingangsgröße wird nunmehr in die gelernte Beziehung eingegeben, um eingeschlossene artikulatorische Parametersätze auszugeben. Jeder eingeschlossene oder inferierte artikulatorische Parametersatz wird mit den relationalen Templaten verglichen, um eines der relationalen Template auszuwählen, welches mit dem eingeschlossenen artikulatorischen Parametersatz innerhalb vorgewählter Grenzen kongruent ist. Sobald der Vergleich erhalten ist, wird ein Signal abgegeben, welches funktionell mit dem ausgewählten Templat der relationalen Template in Beziehung steht.
  • Kurze Beschreibung der Zeichnung
  • Die Zeichnungen, die einen Teil der Beschreibung bilden, veranschaulichen die folgende Erfindung und zusammen mit der Beschreibung dient sie zur Erläuterung der Prinzipien der Erfindung; in der Zeichnung zeigt:
  • Fig. 1 ein Flußdiagramm eines Computerprogramms, wobei die Beziehung gezeigt ist zwischen Eingabeprogrammen während der Lernphase.
  • Fig. 2 ein Flußdiagramm eines Computerprogramms, wobei ein neuronaler Netzlernprozeß dargestellt ist.
  • Fig. 3 ein Flußdiagramm eines Computerprogramms, wobei die Beziehung dargestellt ist zwischen den Verarbeitungsroutinen während einer Anwendungsphase der vorliegenden Erfindung;
  • Fig. 4 ein Ergebnis erhalten durch Trainieren des Systems mit gemessener und inferierter Zungenspitzenvertikalbewegung von einem das Wort "ONE" wiederholendem Sprecher.
  • Fig. 5 die Fähigkeit des vorliegenden Systems, wobei gemessene und inferierte Zungenspitzenkoordinaten für einen Sprecher, der das Wort "ONE" sagt, aufgetragen sind;
  • Fig. 6 Eingangsdaten zur Bildung von relationalen Templaten, d. h. Mustern oder Vorlagen;
  • Fig. 7 eine graphische Darstellung der Spracherkennung erhalten für die Zahlen "ONE" bis "TEN".
  • Detaillierte Beschreibung der Zeichnung
  • Die Trainingsphase des Spracherkennungsprozesses der Erfindung ist in Fig. 1 dargestellt. Sprachtöne werden getastet (d. h. es werden Proben oder Samples entnommen), spektralanalysiert, in eine psychoakustische geeignete Frequenzauflösung quantisiert und bezüglich der Gesamtlautheit und der spektralen Neigung (slope) normalisiert. Artikulatorische Bewegungen werden ebenfalls erhalten und temporär mit den akustischen Daten korreliert, um einen Satz von artikulatorischen Parametern zu erzeugen. Die akustischen und artikulatorischen Daten werden sodann in ein Lernnetzwerk eingegeben, um eine gelernte Beziehung zwischen zwei korrelierten Zeitserien zu entwickeln.
  • Die Anwendungsphase des Verfahrens ist in Fig. 3 gezeigt. Akustische Sprachtöne werden in das trainierte Netzwerk eingegeben und die gelernte Beziehung inferiert oder leitet ab die artikulatorischen Bewegungen, die verwendet wurden, um die eingegebenen akustischen Töne zu erzeugen. Anstelle der Suche nach einer Gesamtübereinstimmung für einen gegebenen Vorschlag, analysiert das Netzwerk die Akustik, um Information über die artikulatorischen Bewegungen, die den Tönen zugrunde liegen, zu bestimmen. Auf diese Weise beschäftigt sich das Netzwerk nur mit denje nigen Aspekten des Signals, die für die Bestimmung der Bewegungen relevant sind.
  • Wiederum unter Bezugnahme auf Fig. 1 sei bemerkt, daß dort ein Verarbeitungsflußdiagramm gezeigt ist, um eine Beziehung zwischen Sprachakustik und den damit Hand in Hand gehenden artikulatorischen Bewegungen zu erzeugen, Bewegungen, die die Sprachakustik erzeugen. In einem bevorzugten Ausführungsbeispiel, wie es hier diskutiert wird, lernt ein neurales Netzwerk eine Beziehung zwischen der Sprachakustik und den artikulatorischen Bewegungen. Auf diese Weise werden akustische Signale der Sprache bei 10 aufgezeichnet, und zwar zusammen mit den gleichzeitig damit auftretenden artikulatorischen Bewegungen 30. Die Akustik der Sprache kann entweder digital oder mit einem üblichen Bandaufzeichnungsgerät aufgezeichnet werden. Eine Röntgenstrahlmikrostrahlvorrichtung kann dazu verwendet werden, um die artikulatorischen Daten zu sammeln, es können aber auch andere Verfahren verwendet werden, wie beispielsweise die übliche Röntgenstrahl- oder Ultraschallreflexion. Die akustischen Daten werden sodann bei 12 digitalisiert, und zwar für die weitere Verarbeitung, beispielsweise wurden 12 Bytesamplitudenauflösung bei 10 K Proben oder Tastungen pro Sekunde vorgesehen. Wie in Tabelle A gezeigt, werden die artikulatorischen Bewegungen ebenfalls mit einer vorbestimmten Tast- oder Samplingrate digitalisiert. TABELLE A
  • Die obigen Artikulatoren wurden anfänglich für die Verwendung ausgewählt, aber es können auch andere Artikulatoren statt dessen verwendet werden oder zusätzlich zu diesen Artikulatoren.
  • Die akustischen Zeitserien werden sodann analysiert. Die akustischen Zeitserien sind bei 14 normalisiert, und zwar auf ein Nullmittel, um jede Gleichstromvorspannung zu entfernen, die durch die Aufzeichnungsvorrichtung oder das darauf folgende Verarbeiten eingeführt wurde. Die normalisierten Zeitserien 14 werden bei 16 mit überlappenden "Welch"-Fenstern analysiert, sozusagen "gefenstert", wobei jedes Fenster 6,4 ms Dauer besitzt und eine 50 Prozent Überlappung mit benachbarten Fenstern. Eine spektrale Transformation und Leistungsabschätzung erfolgt bei 18, und zwar mittels einer schnellen Fourier- Transformation und mit Leistungsspektralabschätzungsalgorithmen.
  • Sobald das Leistungsspektrum bei 18 abgeschätzt ist, wird eine sogenannte "Bark"-("Bell")-Analyse 20 erhalten. Die "Bark"-Analyse 20 unterteilt die Leistungsspektralabschätzung in Teile oder Gruppen (bins), die die Frequenzauflösung des menschlichen Hörens annähern. Dieser Verarbeitungsschritt wird dazu verwendet, um die Datenmenge zu reduzieren, die verarbeitet werden muß, ohne aber dabei Information zu verlieren, die für das Verste hen der Sprache erforderlich ist. Die relative Dezibel- Leistung pro Rahmen (frame) des Sprachsignals wird für jeden Fensterrahmen (window frame) berechnet, und zwar durch Zuweisen eines Wertes von eins, dem höchsten Energierahmen, und eines Wertes von null, dem niedrigsten Rahmen, wobei jeder andere Rahmen einen Wert proportional zu der Beziehung dazwischen aufweist. Die relative Dezibel-Leistung pro Rahmenberechnung 22 wird für den darauffolgenden Gebrauch gespeichert. Die Energie in der höchsten Frequenz Bark-Bin wird auch linear bei 24 normalisiert, und zwar auf einen Bereich zwischen null und eins, um weiterhin den akustischen Ton zu charakterisieren. Schließlich werden die Bark-Binwerte bei 26 normalisiert, so daß die Summe der Energie in all den Frequenzbins innerhalb des Zeitfensters gleich der relativen Leistung ist bezüglich der anderen Zeitfenster, so daß jede Bark- Bin einen Wert besitzt proportional zu seinem Prozentsatz der Energie in diesen Zeitfenstern. Unter Bezugnahme auf die Analyse der artikulatorischen Bewegung müssen die digitalisierten artikulatorischen Daten 32 temporär mit den akustischen Daten ausgerichtet werden oder in Übereinstimmung gebracht werden. Die artikulatorischen Daten 32 werden als erstes mit einem kubischen "Spline"- Algorithmus 34 angenähert, um eine relativ kontinuierliche Funktion zu bilden. Die artikulatorischen Daten von der kontinuierlichen Funktion 34 werden nunmehr bei 38 mit den Mittelpunkten der akustischen Zeitserienfenster 16 ausgerichtet. Die ausgerichteten artikulatorischen Daten 38 werden bei 36 geglättet, um Artefakte zu entfernen, die darauf zurückzuführen sind, wie die Daten getastet oder gesampelt wurden, oder aber von anderen Rauschquellen stammen, und die Normalisierung erfolgt bei 42, um mit dem Lernsystem kompatibel zu sein. Dies wird dadurch getan, daß man den kleinsten Wert für eine gegebene artikulatorische Bewegung auf einen Wert von 0,1 einstellt, und den größten Wert auf 0,9, wobei die dazwischenliegenden Werte derart eingestellt werden, daß sie Werten entsprechend proportional zu ihren Positionen im Bereich zwischen 0,1 und 0,9, wobei die Beziehung zwischen den x- und y-Werten für einen gegebenen Artikulator beibehalten wird. Gemäß der Erfindung werden die normalisierten artikulatorischen Bewegungen sodann verwendet, um zwei artikulatorisch abgeleitete Variable zu berechnen, d. h. die Lippenöffnung und die Zungengeschwindigkeit. Die Lippenöffnung wird als der euklidische Abstand von der oberen Zunge zur unteren Spitze berechnet. Die Zungengeschwindigkeit ist eine konventionelle Abstand/Zeitrepräsentation der Zungenspitze.
  • Die normalisierten artikulatorischen Bewegungen 42 und die abgeleiteten artikulatorischen Variablen 44 werden dazu verwendet, um elektronische Template oder Muster zu 1 erzeugen, und zwar für jede der Aussagen des Systems, die erkannt werden sollen, und insbesondere unter Bezugnahme auf Fig. 6 diskutiert werden. Die Template werden konstruiert basierend auf artikulatorischen Parametern 42, 44 mit der Hinzufügung der relativen Leistungsinformation 22 und der Hochfrequenzinformation 24. Die akustische Eingangsgröße 10 wird analysiert, um das Segment zu bestimmen, welches am besten den ausgewählten Sprachdrucken repräsentiert. Die entsprechenden akustischen Parameter 22, 24 und artikulatorischen Parameter 42, 44 werden sodann zur Bildung von Template 46 ausgewählt. Diese Auswahl kann manuell oder elektronisch erfolgen. Wie im folgenden diskutiert werden wird, können gewisse Aspekte der Template derart gewichtet werden, um so Parameter zu be tonen, die zur Unterscheidung der Sprachteile (utterances) beitragen. Wenn die Vorrichtung beabsichtigt ist zur Verwendung bei der Sprechererkennung können die Gewichtungen dazu dienen, um die Sprecher besser zu unterscheiden und die Template werden sodann aus Sprachteilen, die durch den gewählten Sprecher gesprochen wurden, abgeleitet.
  • Ein Lernnetzwerk, beispielsweise ein Neuralnetzwerk, wird nunmehr bei 28 trainiert, um die Beziehung zwischen den akustischen Daten und den zugehörigen artikulatorischen Daten zu lernen. Die normalisierten akustischen Daten 26 und die normalisierte artikulatorische Bewegung 42 und die abgeleiteten variablen Daten 44 werden in das Lernnetzwerk eingegeben, welches die Beziehung zwischen den akustischen Daten und den Artikulationsdaten lernt. In einem Ausführungsbeispiel der Erfindung ist das Lernnetzwerk ein vier Schichten aufweisendes von Vorne gespeistes Rückfortpflanzungsneuralnetzwerk (feed-forward backpropagation neural network). Das hierin verwendete Programm bringt ein 288 ms Eingangsfenster durch die akustischen Daten auf und stellt sie in Beziehung oder trägt sie auf gegenüber den artikulatorischen Daten am Mittelpunkt des Fensters. Eine Vielzahl von Trainings der Sprecher kann verwendet werden, um eine allgemeinere gelernte Beziehung zwischen den Eingangszeitserien vorzusehen.
  • Der Neuralnetzlernprozeß 28 ist insbesondere in der Fig. 2 dargestellt und implementiert den Prozeß, wie er in der folgenden Literaturstelle beschrieben ist: D. E. Rumelhart et al., 1 Parallel Distributed Processing, Kapitel 6, "Learning Internal Representations by Error Propagation", The MIT Press, Cambridge, Massachusetts, 1986. Diese Literaturstelle wird durch Bezugnahme hier aufgenommen. Die neuralen Netzparameter werden bei 52 vorgesehen, um eine optimale gelernte Beziehung zwischen den eingegebenen akustischen und artikulatorischen Zeitserien vorzusehen. Die normalisierten akustischen Daten 26 und die aufgezeigten und berechneten artikulatorischen Daten 42, 44 (Fig. 1) werden bei 54 eingegeben und zur Verarbeitung bei 56 skaliert. Die Programmvariablen und die relationalen Gewichtungen werden zufallsmäßig initialisiert bei 58, und zwar vor dem Eingabevorwärtsrückfortpflanzungslernen.
  • Eine anfängliche Lernrate wird bei 62 vorgesehen oder eingestellt, und der Lernbefehl für die Beziehungen wird zufällig bei 64 gemischt oder verteilt. Die akustischen Daten laufen dann nach vorne 66 durch das Netzwerk unter Verwendung der anfänglichen Zufallsgewichtungen, um ein ersten Satz von abgeleiteten oder inferierten artikulatorischen Parametern abzuleiten. Die inferierten artikulatorischen Parameter werden dazu verwendet, um die Fehler bezüglich der tatsächlichen artikulatorischen Parameter, die in das Netzwerk eingegeben wurden, festzustellen. Der detektierte Fehler wird sodann nach rückwärts bei 68 durch das Netzwerk geleitet, wo die partielle Ableitung jedes Gewicht bezüglich des Gesamtfehlers bei 72 berechnet wird. Partielle Ableitungen 72 werden dazu verwendet, um die Richtungsänderung zu bestimmen, die erforderlich ist für jedes Gewicht, um die Gewichtswerte bei 74 auf den neusten Stand zu bringen, um den Gesamtfehler bei der Erzeugung einer korrigierten Ausgangsgröße zu reduzieren.
  • Das Programm bestimmt, ob die Fehlerkorrekturiterationen fertig sind, und zwar geschieht es bei 76, und zwar ba sierend darauf, daß entweder die Fehler innerhalb akzeptabler Grenzen liegen, oder daß eine ausgewählte Anzahl von Iterationen versucht wird. Die Neuralnetzgewichtungen werden bei 78 gespeichert, und wenn akzeptable Fehler mit den gespeicherten Gewichtungen erhalten werden, wird das Lernprogramm bei 82 beendet. Wenn akzeptable Fehler nicht erhalten wurden, so dekrementiert das Programm bei 62 den Lernratenparameter und die Lerniterationen werden fortgesetzt, startend mit den gespeicherten Gewichtungen. Sobald die Lerniterationen bei 82 beendet sind, werden die gelernten Beziehungs- oder Relationsgewichtungen gespeichert, und zwar zur Verwendung in einer Anwendung des vorliegenden Systems.
  • Wenn die akustisch-artikulatorischen Beziehungen bei 28 gelernt sind und die artikulatorischen Template bei 46 konstruiert sind, so ist das System für die Spracherkennungsanwendung fertig. Unter Bezugnahme auf Fig. 3 sei erwähnt, daß eine akustische Eingangsgröße 90, wie in Fig. 1 gezeigt (Verfahrensschritte 10, 12, 14, 16 und 18), gebildet wird, um ein relatives Leistungs/Rahmensignal 22 und Barkbins, die bei 26 normalisiert sind, auszugeben. Die primäre akustische Eingangsgröße wird sodann durch die gelernte akustische artikulatorische Beziehung 92 in einem Neuralnetzwerk geleitet, um artikulatorische Parameter 94 aus den akustischen Daten abzuleiten. Die inferierten oder abgeleiteten artikulatorischen Parameter 94 zusammen mit der normalisierten, die höchste Frequenz besitzenden Bininformation 24 und die relative Leistungs/Rahmeninformation 22 werden eingegeben, und zwar für einen Vergleich 98 mit den gebildeten artikulatorischen Templaten 46. Geeignete Gewichtungsfak toren 96 können an die artikulatorischen Template 46 angelegt werden.
  • Eine Anzahl von Verfahren kann dazu verwendet werden, um die abgeleitete Artikulation mit den Templaten, beispielsweise dem euklidschen Abstand, der Kreuzkorrelation und der Covarianz zu vergleichen. Das derzeit in dem Prozeß verwendete Verfahren basiert auf dem euklidschen Abstand. Der Vergleich wird gemacht durch Gleiten der Template von jedem Trainingssprachteil über die inferierten artikulatorischen und gemessenen arkustischen Parameter der Eingangssprache, und zwar sequentiell bei jedem Zeitschritt. Um einen einzigen Punkt der Übereinstimmung oder des Zusammenpassens zuzuweisen, wird ein Extremfindungsalgorithmus über die Funktion geleitet, um die Temporalposition mit dem Anpassungsausmaß in Beziehung zu setzen. Eine Erkennungsentscheidung 99 wird vorgenommen, und zwar basierend auf der beabsichtigten Anwendung. Wie dies hier verwendet wird, wird die Entscheidungsschwelle, also ein Abstand, definiert mehr als zwei Standartabweichungen aus dem Mittel der Abstandsmessung vorgenommen an jedem Schritt der Sprachprobe. Das verwendete Maß ist ein örtliches Extremum, das die spezifizierte Entscheidungsschwelle passiert.
  • Unter Bezugnahme auf Fig. 4 ist ein Vergleich gezeigt, und zwar einer tatsächlichen Zungenspitzenlagemessung zusammen mit der Zungenspitzenbewegung abgeleitet oder inferiert durch ein Neuralnetzwerk trainiert mit der gesprochenen Zahl "ONE". Das Wort "ONE" wurde sodann zweimal zwischen den Zeitstufen 200 und 800 gesprochen, und die Zungenspitzenposition wurde abgeleitet oder infer riert. Die tatsächliche Zungenspitzenbewegung wurde aus Vergleichsgründen gemessen. Eine enge Ubereinstimmung zwischen dem tatsächlichen Abstand und dem inferierten Abstand erkennt man sogleich. Die Fig. 5 zeigt ferner die Fähigkeit des trainierten Neuralnetzwerkes artikulatorische Parameter aus einer akustischen Eingangsgröße abzuleiten oder zu inferrieren. Normalisierte x- und y- Koordinaten der Zungenspitzenbewegung sind aufgetragen, wobei die gemessenen Daten durch die gestrichelte Linie dargestellt sind, und die inferrierten Daten durch die ausgezogene Linie dargestellt sind. Die spezielle Parametereinstellung erfolgte für das Wort "ONE".
  • Gemäß der Erfindung wurde ein Neuralnetzwerk mit den gesprochenen Zahlen "ONE" bis "TEN" trainiert, und die entsprechenden artikulatorischen Template wurden konstruiert. Es sei nunmehr auf die Fig. 6 Bezug genommen, wo ein Satz von akustischen Parametern (relative Leistung 22 und Hochfrequenzleistung 24) und artikulatorische Parameter (normalisierte gemessene artikulatorische Bewegung 42 und abgeleitete artikulatorische Variable 44), wie in Fig. 1 gezeigt, für die Templatkonstruktion dargestellt sind. Die Worte "ONE" bis "TEN" entsprechend den Eingangsgrößen sind oben in Fig. 6 gezeigt. Die zur Bildung eines Templats für jedes Wort ausgewählte Parameterregionen sind in Fig. 6 schattiert. Man erkennt, daß jeder Templatparametersatz Merkmale aufweist, die von dem Wort unterschiedlich sind, und gebildet ist über einen Satz von Fensterrahmen, die ein Parametersatz definieren, der unterscheidbar ist von anderen Templaten. Um die Spracherkennung zu verbessern, können die verschiedenen Templatparameter gewichtet werden, wie dies in der Tabelle B für die Spracherkennung gemäß Fig. 7 gezeigt ist. TABELLE B Gewichtungen Kanal
  • Die Spaltenüberschriften lauten:
  • rlp = relative Gesamtleistung (relative overall power)
  • tbx = Zungenblatthorizontalposition (tongue blade horizontal position)
  • tby = Zungenblattvertikalposition (tongue blade vertical position)
  • tdx = Zungendorsumhorizontalposition (tongue dorsum horizontal position)
  • tdy = Zungendorsumvertikalposition (tongue dorsum vertical position)
  • la = Lippenöffnung (lip aperture)
  • ttx = Zungenspitzenhorizontalposition (tongue tip horizontal position)
  • tty = Zungenspitzenvertikalposition (tongue tip vertical position)
  • ttydn = Zungenspitzenvertikalpositionsdifferenz (differenced tongue tip vertical position)
  • h19 = normalisierte Hochfrequenzleistung (normalized high frequency power)
  • Darauf folgend sprach ein anderer Sprecher die Zahlen "ONE" bis "TEN" und das System erkannte jedes der gesprochenen Worte. Die Tabelle C zeigt für jedes Templat das z-Ziel am Extrem der besten Übereinstimmung mit der Sprachprobe gemäß Fig. 7, die Position, an der die Übereinstimmung auftrat, und das Wort, das tatsächlich an diesem Punkt gesprochen wurde. Tabelle D zeigt die zweitdichtesten Übereinstimmungen oder Zusammenpassungen mit der Sprachprobe der Fig. 7 und die Positionen, bei der zweitdichtesten Übereinstimmungen auftraten. Keine dieser Übereinstimmungen überstieg die Schwelle des z-Ziels von -2,0. TABELLE C BESTE ÜBEREINSTIMMUNG TABELLE D ZWEITBESTE ÜBEREINSTIMMUNG
  • Die gelernte akustische/artikulatorische Beziehung kann in verschiedenen mit Akustik in Beziehung stehenden Aufgaben verwendet werden. Beispielsweise kann die Sprechererkennung erhalten werden, wo das System trainiert ist, um eine bestimmte akustische/artikulatorische Beziehung zu erkennen. Ferner erfordert die artikulatorische Repräsentation nur eine geringe Bandbreite zur Übertragung sämtlicher Information in der Repräsentation oder Darstellung. Somit kann die eine niedrige Bandbreite aufweisende artikulatorische Darstellung direkt zur Spracherkennung an dem Empfangsende übertragen werden. Das eine niedrige Bandbreite besitzende Signal kann sicher "entkryptet" werden.
  • Man erkennt, daß der oben beschriebene Prozeß bei irgendeiner zeitlichen Serie von Signalen verwendet werden kann, d. h. mechanischen Zeitserien, akustischen Zeitserien, elektromagnetischen Zeitserien, usw.. Sodann kann eine sekundäre Charakteristik aus einer primären charakteristischen Eingangsgröße inferriert werden, und die inferrierte Charakteristik kann dann verarbeitet werden, und die Primärcharakteristik kann wieder konstruiert werden. Derartige potentielle Anwendungen ergeben sich, wenn die sekundäre Charakteristik leichter gehandhabt werden kann als die primäre Charakteristik.
  • Aus der bevorstehenden Beschreibung bevorzugter Ausführungsbeispiel der Erfindung erkennt man die Zwecke derselben. Es ist nicht beabsichtigt, daß diese allumfassend ist oder die Erfindung beschränkt. Es ist offensichtlich, daß viele Modifikationen und Variationen im Lichte der obigen Lehre möglich sind. Die Ausführungsbeispiele wurden gewählt und beschrieben, um die Prinzipien der Erfindung am besten zu erklären und um die Verwendung der Erfindung in verschiedenen Ausführungsbeispielen aufzuzeigen, wobei verschiedene Modifikationen für besondere Verwendungszwecke möglich sind. Die Beschreibung soll die Ansprüche nicht beschränken.

Claims (5)

1. Verfahren zum Erkennen einer akustischen Eingangsgröße, wobei eine Lernphase und eine darauffolgende Anwendephase vorgesehen ist, wobei die Lernphase folgende Schritte aufweist:
Eingabe einer akustischen Trainingseingangsgröße einschließlich der zu erkennenden akustischen Eingangsgröße und einer korrelativen artikulatorischen Parametersatzeingangsgröße in ein neuronales Netz;
Trainieren des neuronalen Netzes zur Bildung einer gelernten Beziehung zwischen der erwähnten akustischen Trainingseingangsgröße und dem erwähnten korrelativen artikulatorischen Parametersatz;
Bilden eines Satzes von Relations-Templaten zwischen ausgewählten Charakteristika oder Eigenschaften der erwähnten akustischen Trainingseingangsgröße und dem erwähnten korrelativen artikulatorischen Parametersatz; und wobei die Anwendephase die folgenden Schritte aufweist:
Bilden (90) eines Digitalsignals funktionsmäßig in Beziehung stehend mit der zu erkennenden akustischen Eingangsgröße;
Eingabe des Digitalsignals in das neuronale Netz zur Ausgabe von aus der gelernten Beziehung hergeleiteten oder erschlossenen artikulatorischen Parametersätzen (94);
Vergleichen (98) jedes der hergeleiteten artikulatorischen Parametersatzes mit den erwähnten Relations- Templaten um eines der erwähnten Relations-Template kongruent mit dem erwähnten hergeleiteten artikulatorischen Parametersatz innerhalb der vorgewählten Grenzen auszuwählen; und
Ausgabe (99) eines Signals welches funktionell in Beziehung steht mit den ausgewählten Charakteristika der erwähnten akustischen Trainingseingangsgröße identifiziert durch das erwähnte eine Templat der erwähnten Beziehungs- oder Relations-Template.
2. Verfahren nach Anspruch 1, wobei das Bilden oder Formen der gelernten Beziehung die folgenden Schritte aufweist:
Eingabe einer Reihe von akustischen Wellenformen die funktionsmäßig in Beziehung steht mit einem begleitenden Satz von hervorgebrachten Zeichen menschlicher Sprachtöne;
Fensterbildung jeder akustischen Wellenform zur Bildung einer zeitlich gerahmten oder eingefaßten ersten Digitalsignalserie;
Bilden oder Formen einer ausgewählten Charakterisierung der zeitgerahmten ersten Digitalsignalserie; und
Formung oder Bildung einer zweiten Digitalsignalserie funktionsmäßig in Beziehung stehend mit der korrelativen artikulatorischen Parametereingangsgröße, wobei die ersten und zweiten Digitalsignalserien die erwähnte gelernte Beziehung etablieren oder vorsehen.
3. Verfahren nach Anspruch 2, wobei das Formen der zweiten Digitalsignalserie die folgenden Schritte aufweist:
Aufzeichnen vorgewählter artikulatorischer Bewegungen eines Sprechers während des Hervorbringens der erwähnten Zeichentöne;
Bildung von Sätzen aus den erwähnten artikulatorischen Bewegungen in Ausrichtung mit der erwähnten zeitgerahmten Digitalsignalserie; und
Ableitung ausgewählter artikulatorischer Parameter aus jeder der erwähnten artikulatorischen Bewegungen des Satzes, wobei die artikulatorischen Bewegungen und die erwähnten artikulatorischen Parameter die erwähnte zweite Digitalsignalserie bilden funktionell in Beziehung stehend mit der korrelativen artikulatorischen Parametereingangsgröße.
4. Verfahren nach Anspruch 2 oder 3, wobei das Bilden des erwähnten Satzes der Relations-Template die folgenden Schritte aufweist:
Ableiten ausgewählter akustischer Merkmale aus jedem erwähnten zeitgerahmten Signal; und
Bilden eines Templat-Parametersatzes aus ausgewählten akustischen Merkmalen in der erwähnten zeitgerahmten ersten Digitalsignalserie und dem zweiten Digitalsignal um in einzigartiger Weise eine der artikulatorischen Paramtereingangsgrößen mit einer der erwähnten akustischen Trainingseingangsgrößen zu assoziieren:
5. Verfahren zum Erkennen einer akustischen Eingangsgröße, wobei ein Verfahren zur Erzeugung eines Ausgangssignals in hergeleiteter Weise in Beziehung steht mit der erwähnten akustischen Eingangsgröße und eine Lernphase und eine darauffolgende Anwendungsphase aufweist, wobei die erwähnte Lernphase die folgenden Schritte aufweist:
Eingabe einer akustischen Trainingseingangsgröße einschließlich der zu erkennenden akustischen Eingangsgröße und einer korrelativen artikulatorischen Parametersatzeingangsgröße in ein neuronales Netz;
Trainieren des neuronalen Netzes zur Bildung einer gelernten Beziehung zwischen der akustischen Trainungs eingangsgröße und dem erwähnten korrelativen artikulatorischen Parametersatz;
Bilden eines Satzes von Relations- oder Beziehungs- Templaten zwischen ausgewählten Charakteristika der akustischen Trainingseingangsgröße und dem korrelativen artikulatorischen Parametersatz; und wobei die Anwendungsphase die folgenden Schritte aufweist:
Bilden (90) eines funktionsmäßig mit der zu erkennenden akustischen Eingangsgröße funktionsmäßig in Beziehung stehenden Digitalsignals;
Eingeben des erwähnten Digitalsignals zu der erlernten Beziehung in dem neuronalen Netz; und
Einwirken auf das erwähnte Digitalsignal in dem neuronalen Netz mit der erwähnten gelernten Beziehung um abgeleitete artikulatorische Parametersätze auszugeben (94).
DE69130090T 1990-01-31 1991-01-31 Lernprozess durch assoziation mit taktserien Expired - Fee Related DE69130090T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/473,090 US5440661A (en) 1990-01-31 1990-01-31 Time series association learning
PCT/US1991/000529 WO1991011802A1 (en) 1990-01-31 1991-01-31 Time series association learning

Publications (2)

Publication Number Publication Date
DE69130090D1 DE69130090D1 (de) 1998-10-08
DE69130090T2 true DE69130090T2 (de) 1999-05-20

Family

ID=23878168

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69130090T Expired - Fee Related DE69130090T2 (de) 1990-01-31 1991-01-31 Lernprozess durch assoziation mit taktserien

Country Status (6)

Country Link
US (1) US5440661A (de)
EP (1) EP0465639B1 (de)
JP (1) JPH04504767A (de)
CA (1) CA2045612A1 (de)
DE (1) DE69130090T2 (de)
WO (1) WO1991011802A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
FR2704348B1 (fr) * 1993-04-23 1995-07-07 Matra Communication Procede de reconnaissance de parole a apprentissage.
GB2278984A (en) * 1993-06-11 1994-12-14 Redifon Technology Limited Speech presence detector
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6226348B1 (en) 1998-12-15 2001-05-01 Philips Electronics North America Corporation X-ray diffractometer method for determining thickness of multiple non-metallic crystalline layers and fourier transform method
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
US7454336B2 (en) * 2003-06-20 2008-11-18 Microsoft Corporation Variational inference and learning for segmental switching state space models of hidden speech dynamics
JP5120826B2 (ja) * 2005-09-29 2013-01-16 独立行政法人産業技術総合研究所 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
US10635984B2 (en) * 2018-07-23 2020-04-28 Falkonry Inc. System and method for the assessment of condition in complex operational systems based on multi-level pattern recognition

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) * 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3610831A (en) * 1969-05-26 1971-10-05 Listening Inc Speech recognition apparatus
US4087632A (en) * 1976-11-26 1978-05-02 Bell Telephone Laboratories, Incorporated Speech recognition system
JPS5672499A (en) * 1979-11-19 1981-06-16 Hitachi Ltd Pretreatment for voice identifier
US4757541A (en) * 1985-11-05 1988-07-12 Research Triangle Institute Audio visual speech recognition
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
US4945494A (en) * 1989-03-02 1990-07-31 Texas Instruments Incorporated Neural network and system

Also Published As

Publication number Publication date
WO1991011802A1 (en) 1991-08-08
CA2045612A1 (en) 1991-08-01
US5440661A (en) 1995-08-08
EP0465639B1 (de) 1998-09-02
JPH04504767A (ja) 1992-08-20
DE69130090D1 (de) 1998-10-08
EP0465639A4 (en) 1993-01-27
EP0465639A1 (de) 1992-01-15

Similar Documents

Publication Publication Date Title
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69010722T2 (de) Spracherkennungssystem.
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE60000403T2 (de) Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE69130090T2 (de) Lernprozess durch assoziation mit taktserien
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
EP4097719B1 (de) Verfahren zur steuerung eines teleprompters und teleprompter zur dynamischen anzeige eines vordefinierten textes
DE3882805T2 (de) Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung.
DE4010028A1 (de) Spracherkennungsverfahren
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
DE69030548T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE602004011292T2 (de) Vorrichtung zur Sprachdetektion

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee