DE69130090T2 - Lernprozess durch assoziation mit taktserien - Google Patents
Lernprozess durch assoziation mit taktserienInfo
- Publication number
- DE69130090T2 DE69130090T2 DE69130090T DE69130090T DE69130090T2 DE 69130090 T2 DE69130090 T2 DE 69130090T2 DE 69130090 T DE69130090 T DE 69130090T DE 69130090 T DE69130090 T DE 69130090T DE 69130090 T2 DE69130090 T2 DE 69130090T2
- Authority
- DE
- Germany
- Prior art keywords
- articulatory
- acoustic
- mentioned
- input
- digital signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 21
- 230000008569 process Effects 0.000 title description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000007493 shaping process Methods 0.000 claims 2
- 238000012512 characterization method Methods 0.000 claims 1
- 230000000763 evoking effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 7
- 210000001142 back Anatomy 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
- Die Erfindung bezieht sich allgemein auf die auf Maschinen basierende Erkennung von Sprache und Sprecher, und insbesondere auf die auf Maschinen basierende Spracherkennung unter Verwendung einer gelernten Beziehung zwischen akustischen und artikulatorischen Parametern.
- Bei der konventionellen Spracherkennung werden eingegebene akustische Wellenformen erhalten und zum Vergleich mit gespeicherten akustischen Wellenformen mit korrelativen Diktionär- oder Wörterbuchdaten verglichen. Diese Arbeitsweise erfordert einen beträchtlichen Computerspeicher und macht es notwendig, daß die Sprachmuster des Sprechers hinreichend ähnlich sind zu den gespeicherten Mustern, so daß eine Musterübereinstimmung erhalten werden kann. Es ist jedoch zu berücksichtigen, daß die Sprachakustik beeinflußt ist durch die Sprechrate, die linguistische Beanspruchung, die Betonung, die Intensität 1 und Emotionen. Ferner modifizieren bei einem flüssigen Sprechen die Sprecher normalerweise die Sprachtöne durch Hinzufügen oder durch Weglassen von Tönen und durch Assimilieren von benachbarten Tönen.
- Im U. S. Patent 4 769 845 "Method of Recognizing Speech Using a Lip Image", ausgegeben am 6. September 1988 an Nakamura, wird die Spracherkennung gelehrt unter Verwendung eines Computers mit einer relativ kleinen Speicherkapazität, wobei ein Erkennungstemplat oder Muster gebildet ist, um mindestens Lippenmusterdaten zu umfassen. Lippenmusterdaten werden anfänglich durch ein externes Sensorgerät erhalten und mit den gespeicherten Worttemplaten oder Wortmuster kollationiert. Die Spracherkennung macht es jedoch sodann erforderlich, daß eine externe Vorrichtung, wie beispielsweise eine TV-Kamera auch die Lippenmusterdaten eines Sprechers aufnimmt, dessen Sprache zu erkennen ist.
- In I. L. Elman et al. "Learning the Hidden Structure of Speech", 83 J. Acoust. Soc. Am., 4, Seiten 1615-1626 vom April 1988 wird hypothetisch erwägt, daß nicht geeignete Merkmale ausgewählt wurden als Einheiten zur Erkennung und zur Darstellung der Sprache. Eine Rückfortpflanzungsneuralnetzwerklernprozedur wird angewandt zur Entwicklung einer Beziehung zwischen Eingangs/Ausgang-Musterpaaren unter Verwendung nur einer einzigen Eingangszeitserie. Das Netzwerk entwickelte reiche internere Präsentationen, die versteckte Einheiten umfaßten, die traditionellen Unterschieden als Vokalen und Konsonanten entsprachen. Es wurden jedoch nur abstrakte Beziehungen entwickelt, da nur akustische Muster eingegeben wurden.
- Es wäre zweckmäßig, eine Repräsentation eines Sprachsignals vorzusehen, die relativ invariant ist bei Veränderungen der Sprechgeschwindigkeit, Beanspruchung und der phonetischen Umgebung. Es ist auch erwünscht, ein System zu trainieren, beispielsweise ein künstliches Neuralnetzwerk, um Sprache unabhängig vom Sprecher zu erkennen. Diese und weitere Aspekte der Spracherkennung werden durch die Erfindung behandelt, wo eine Beziehung zwischen einem akustischen Signal und artikulatorischen Mechanismen, die dies erzeugen, gelernt wird. Die artikulatorische Repräsentation wird dann dazu verwendet, um die Sprache durch andere zu erkennen, und zwar basierend allein auf akustischen Eingangsgrößen.
- Es ist somit ein Ziel der vorliegenden Erfindung, Spracherkennung vorzusehen, und zwar bei Veränderungen in der Sprachrate, der Beanspruchung und der phonetischen Umgebung.
- Ein weiteres Ziel der Erfindung ist es, eine gelernte Beziehung zwischen der Sprachakustik und artikulatorischen Mechanismen herzustellen.
- Ein weiteres Ziel der Erfindung besteht darin, eine Spracherkennung zu erhalten, und zwar aus gelernten artikulatorischen Gesten ohne daß ein Gesteneingang vorliegen müßte.
- Weitere Ziele, Vorteile und neue Merkmale der Erfindung · werden in der Beschreibung erläutert und ergeben sich für den Fachmann durch das Studium derselben. Die Ziele und Vorteile der Erfindung können durch die Vorrichtungen und insbesondere erwähnten Kombinationen der abhängigen Ansprüche verwirklicht und diesen entnommen werden.
- Zur Erlangung der obigen und weitere Ziele gemäß den Zwecken der Erfindung, die hier beschrieben ist, sieht die vorliegende Erfindung ein Verfahren vor zur Erkennung von akustischen Eingangsgrößen gemäß Anspruch 1 bzw. Anspruch 5. Es wird eine Beziehung gelernt zwischen einer akustischen Trainingseingangsgröße und einer korrelierenden artikulatorischen Parametereingangsgröße. Der Lernvorgang wird vorzugsweise in einem Neuralnetzwerk vorgenommen. Ein Satz von relationalen oder Beziehungstemplaten wird gebildet, und zwar entsprechend der korrelativen artikulatorischen Parametereingangsgröße. Ein Digitalsignal funktionsmäßig in Beziehung stehend mit der akustischen Eingangsgröße wird nunmehr in die gelernte Beziehung eingegeben, um eingeschlossene artikulatorische Parametersätze auszugeben. Jeder eingeschlossene oder inferierte artikulatorische Parametersatz wird mit den relationalen Templaten verglichen, um eines der relationalen Template auszuwählen, welches mit dem eingeschlossenen artikulatorischen Parametersatz innerhalb vorgewählter Grenzen kongruent ist. Sobald der Vergleich erhalten ist, wird ein Signal abgegeben, welches funktionell mit dem ausgewählten Templat der relationalen Template in Beziehung steht.
- Die Zeichnungen, die einen Teil der Beschreibung bilden, veranschaulichen die folgende Erfindung und zusammen mit der Beschreibung dient sie zur Erläuterung der Prinzipien der Erfindung; in der Zeichnung zeigt:
- Fig. 1 ein Flußdiagramm eines Computerprogramms, wobei die Beziehung gezeigt ist zwischen Eingabeprogrammen während der Lernphase.
- Fig. 2 ein Flußdiagramm eines Computerprogramms, wobei ein neuronaler Netzlernprozeß dargestellt ist.
- Fig. 3 ein Flußdiagramm eines Computerprogramms, wobei die Beziehung dargestellt ist zwischen den Verarbeitungsroutinen während einer Anwendungsphase der vorliegenden Erfindung;
- Fig. 4 ein Ergebnis erhalten durch Trainieren des Systems mit gemessener und inferierter Zungenspitzenvertikalbewegung von einem das Wort "ONE" wiederholendem Sprecher.
- Fig. 5 die Fähigkeit des vorliegenden Systems, wobei gemessene und inferierte Zungenspitzenkoordinaten für einen Sprecher, der das Wort "ONE" sagt, aufgetragen sind;
- Fig. 6 Eingangsdaten zur Bildung von relationalen Templaten, d. h. Mustern oder Vorlagen;
- Fig. 7 eine graphische Darstellung der Spracherkennung erhalten für die Zahlen "ONE" bis "TEN".
- Die Trainingsphase des Spracherkennungsprozesses der Erfindung ist in Fig. 1 dargestellt. Sprachtöne werden getastet (d. h. es werden Proben oder Samples entnommen), spektralanalysiert, in eine psychoakustische geeignete Frequenzauflösung quantisiert und bezüglich der Gesamtlautheit und der spektralen Neigung (slope) normalisiert. Artikulatorische Bewegungen werden ebenfalls erhalten und temporär mit den akustischen Daten korreliert, um einen Satz von artikulatorischen Parametern zu erzeugen. Die akustischen und artikulatorischen Daten werden sodann in ein Lernnetzwerk eingegeben, um eine gelernte Beziehung zwischen zwei korrelierten Zeitserien zu entwickeln.
- Die Anwendungsphase des Verfahrens ist in Fig. 3 gezeigt. Akustische Sprachtöne werden in das trainierte Netzwerk eingegeben und die gelernte Beziehung inferiert oder leitet ab die artikulatorischen Bewegungen, die verwendet wurden, um die eingegebenen akustischen Töne zu erzeugen. Anstelle der Suche nach einer Gesamtübereinstimmung für einen gegebenen Vorschlag, analysiert das Netzwerk die Akustik, um Information über die artikulatorischen Bewegungen, die den Tönen zugrunde liegen, zu bestimmen. Auf diese Weise beschäftigt sich das Netzwerk nur mit denje nigen Aspekten des Signals, die für die Bestimmung der Bewegungen relevant sind.
- Wiederum unter Bezugnahme auf Fig. 1 sei bemerkt, daß dort ein Verarbeitungsflußdiagramm gezeigt ist, um eine Beziehung zwischen Sprachakustik und den damit Hand in Hand gehenden artikulatorischen Bewegungen zu erzeugen, Bewegungen, die die Sprachakustik erzeugen. In einem bevorzugten Ausführungsbeispiel, wie es hier diskutiert wird, lernt ein neurales Netzwerk eine Beziehung zwischen der Sprachakustik und den artikulatorischen Bewegungen. Auf diese Weise werden akustische Signale der Sprache bei 10 aufgezeichnet, und zwar zusammen mit den gleichzeitig damit auftretenden artikulatorischen Bewegungen 30. Die Akustik der Sprache kann entweder digital oder mit einem üblichen Bandaufzeichnungsgerät aufgezeichnet werden. Eine Röntgenstrahlmikrostrahlvorrichtung kann dazu verwendet werden, um die artikulatorischen Daten zu sammeln, es können aber auch andere Verfahren verwendet werden, wie beispielsweise die übliche Röntgenstrahl- oder Ultraschallreflexion. Die akustischen Daten werden sodann bei 12 digitalisiert, und zwar für die weitere Verarbeitung, beispielsweise wurden 12 Bytesamplitudenauflösung bei 10 K Proben oder Tastungen pro Sekunde vorgesehen. Wie in Tabelle A gezeigt, werden die artikulatorischen Bewegungen ebenfalls mit einer vorbestimmten Tast- oder Samplingrate digitalisiert. TABELLE A
- Die obigen Artikulatoren wurden anfänglich für die Verwendung ausgewählt, aber es können auch andere Artikulatoren statt dessen verwendet werden oder zusätzlich zu diesen Artikulatoren.
- Die akustischen Zeitserien werden sodann analysiert. Die akustischen Zeitserien sind bei 14 normalisiert, und zwar auf ein Nullmittel, um jede Gleichstromvorspannung zu entfernen, die durch die Aufzeichnungsvorrichtung oder das darauf folgende Verarbeiten eingeführt wurde. Die normalisierten Zeitserien 14 werden bei 16 mit überlappenden "Welch"-Fenstern analysiert, sozusagen "gefenstert", wobei jedes Fenster 6,4 ms Dauer besitzt und eine 50 Prozent Überlappung mit benachbarten Fenstern. Eine spektrale Transformation und Leistungsabschätzung erfolgt bei 18, und zwar mittels einer schnellen Fourier- Transformation und mit Leistungsspektralabschätzungsalgorithmen.
- Sobald das Leistungsspektrum bei 18 abgeschätzt ist, wird eine sogenannte "Bark"-("Bell")-Analyse 20 erhalten. Die "Bark"-Analyse 20 unterteilt die Leistungsspektralabschätzung in Teile oder Gruppen (bins), die die Frequenzauflösung des menschlichen Hörens annähern. Dieser Verarbeitungsschritt wird dazu verwendet, um die Datenmenge zu reduzieren, die verarbeitet werden muß, ohne aber dabei Information zu verlieren, die für das Verste hen der Sprache erforderlich ist. Die relative Dezibel- Leistung pro Rahmen (frame) des Sprachsignals wird für jeden Fensterrahmen (window frame) berechnet, und zwar durch Zuweisen eines Wertes von eins, dem höchsten Energierahmen, und eines Wertes von null, dem niedrigsten Rahmen, wobei jeder andere Rahmen einen Wert proportional zu der Beziehung dazwischen aufweist. Die relative Dezibel-Leistung pro Rahmenberechnung 22 wird für den darauffolgenden Gebrauch gespeichert. Die Energie in der höchsten Frequenz Bark-Bin wird auch linear bei 24 normalisiert, und zwar auf einen Bereich zwischen null und eins, um weiterhin den akustischen Ton zu charakterisieren. Schließlich werden die Bark-Binwerte bei 26 normalisiert, so daß die Summe der Energie in all den Frequenzbins innerhalb des Zeitfensters gleich der relativen Leistung ist bezüglich der anderen Zeitfenster, so daß jede Bark- Bin einen Wert besitzt proportional zu seinem Prozentsatz der Energie in diesen Zeitfenstern. Unter Bezugnahme auf die Analyse der artikulatorischen Bewegung müssen die digitalisierten artikulatorischen Daten 32 temporär mit den akustischen Daten ausgerichtet werden oder in Übereinstimmung gebracht werden. Die artikulatorischen Daten 32 werden als erstes mit einem kubischen "Spline"- Algorithmus 34 angenähert, um eine relativ kontinuierliche Funktion zu bilden. Die artikulatorischen Daten von der kontinuierlichen Funktion 34 werden nunmehr bei 38 mit den Mittelpunkten der akustischen Zeitserienfenster 16 ausgerichtet. Die ausgerichteten artikulatorischen Daten 38 werden bei 36 geglättet, um Artefakte zu entfernen, die darauf zurückzuführen sind, wie die Daten getastet oder gesampelt wurden, oder aber von anderen Rauschquellen stammen, und die Normalisierung erfolgt bei 42, um mit dem Lernsystem kompatibel zu sein. Dies wird dadurch getan, daß man den kleinsten Wert für eine gegebene artikulatorische Bewegung auf einen Wert von 0,1 einstellt, und den größten Wert auf 0,9, wobei die dazwischenliegenden Werte derart eingestellt werden, daß sie Werten entsprechend proportional zu ihren Positionen im Bereich zwischen 0,1 und 0,9, wobei die Beziehung zwischen den x- und y-Werten für einen gegebenen Artikulator beibehalten wird. Gemäß der Erfindung werden die normalisierten artikulatorischen Bewegungen sodann verwendet, um zwei artikulatorisch abgeleitete Variable zu berechnen, d. h. die Lippenöffnung und die Zungengeschwindigkeit. Die Lippenöffnung wird als der euklidische Abstand von der oberen Zunge zur unteren Spitze berechnet. Die Zungengeschwindigkeit ist eine konventionelle Abstand/Zeitrepräsentation der Zungenspitze.
- Die normalisierten artikulatorischen Bewegungen 42 und die abgeleiteten artikulatorischen Variablen 44 werden dazu verwendet, um elektronische Template oder Muster zu 1 erzeugen, und zwar für jede der Aussagen des Systems, die erkannt werden sollen, und insbesondere unter Bezugnahme auf Fig. 6 diskutiert werden. Die Template werden konstruiert basierend auf artikulatorischen Parametern 42, 44 mit der Hinzufügung der relativen Leistungsinformation 22 und der Hochfrequenzinformation 24. Die akustische Eingangsgröße 10 wird analysiert, um das Segment zu bestimmen, welches am besten den ausgewählten Sprachdrucken repräsentiert. Die entsprechenden akustischen Parameter 22, 24 und artikulatorischen Parameter 42, 44 werden sodann zur Bildung von Template 46 ausgewählt. Diese Auswahl kann manuell oder elektronisch erfolgen. Wie im folgenden diskutiert werden wird, können gewisse Aspekte der Template derart gewichtet werden, um so Parameter zu be tonen, die zur Unterscheidung der Sprachteile (utterances) beitragen. Wenn die Vorrichtung beabsichtigt ist zur Verwendung bei der Sprechererkennung können die Gewichtungen dazu dienen, um die Sprecher besser zu unterscheiden und die Template werden sodann aus Sprachteilen, die durch den gewählten Sprecher gesprochen wurden, abgeleitet.
- Ein Lernnetzwerk, beispielsweise ein Neuralnetzwerk, wird nunmehr bei 28 trainiert, um die Beziehung zwischen den akustischen Daten und den zugehörigen artikulatorischen Daten zu lernen. Die normalisierten akustischen Daten 26 und die normalisierte artikulatorische Bewegung 42 und die abgeleiteten variablen Daten 44 werden in das Lernnetzwerk eingegeben, welches die Beziehung zwischen den akustischen Daten und den Artikulationsdaten lernt. In einem Ausführungsbeispiel der Erfindung ist das Lernnetzwerk ein vier Schichten aufweisendes von Vorne gespeistes Rückfortpflanzungsneuralnetzwerk (feed-forward backpropagation neural network). Das hierin verwendete Programm bringt ein 288 ms Eingangsfenster durch die akustischen Daten auf und stellt sie in Beziehung oder trägt sie auf gegenüber den artikulatorischen Daten am Mittelpunkt des Fensters. Eine Vielzahl von Trainings der Sprecher kann verwendet werden, um eine allgemeinere gelernte Beziehung zwischen den Eingangszeitserien vorzusehen.
- Der Neuralnetzlernprozeß 28 ist insbesondere in der Fig. 2 dargestellt und implementiert den Prozeß, wie er in der folgenden Literaturstelle beschrieben ist: D. E. Rumelhart et al., 1 Parallel Distributed Processing, Kapitel 6, "Learning Internal Representations by Error Propagation", The MIT Press, Cambridge, Massachusetts, 1986. Diese Literaturstelle wird durch Bezugnahme hier aufgenommen. Die neuralen Netzparameter werden bei 52 vorgesehen, um eine optimale gelernte Beziehung zwischen den eingegebenen akustischen und artikulatorischen Zeitserien vorzusehen. Die normalisierten akustischen Daten 26 und die aufgezeigten und berechneten artikulatorischen Daten 42, 44 (Fig. 1) werden bei 54 eingegeben und zur Verarbeitung bei 56 skaliert. Die Programmvariablen und die relationalen Gewichtungen werden zufallsmäßig initialisiert bei 58, und zwar vor dem Eingabevorwärtsrückfortpflanzungslernen.
- Eine anfängliche Lernrate wird bei 62 vorgesehen oder eingestellt, und der Lernbefehl für die Beziehungen wird zufällig bei 64 gemischt oder verteilt. Die akustischen Daten laufen dann nach vorne 66 durch das Netzwerk unter Verwendung der anfänglichen Zufallsgewichtungen, um ein ersten Satz von abgeleiteten oder inferierten artikulatorischen Parametern abzuleiten. Die inferierten artikulatorischen Parameter werden dazu verwendet, um die Fehler bezüglich der tatsächlichen artikulatorischen Parameter, die in das Netzwerk eingegeben wurden, festzustellen. Der detektierte Fehler wird sodann nach rückwärts bei 68 durch das Netzwerk geleitet, wo die partielle Ableitung jedes Gewicht bezüglich des Gesamtfehlers bei 72 berechnet wird. Partielle Ableitungen 72 werden dazu verwendet, um die Richtungsänderung zu bestimmen, die erforderlich ist für jedes Gewicht, um die Gewichtswerte bei 74 auf den neusten Stand zu bringen, um den Gesamtfehler bei der Erzeugung einer korrigierten Ausgangsgröße zu reduzieren.
- Das Programm bestimmt, ob die Fehlerkorrekturiterationen fertig sind, und zwar geschieht es bei 76, und zwar ba sierend darauf, daß entweder die Fehler innerhalb akzeptabler Grenzen liegen, oder daß eine ausgewählte Anzahl von Iterationen versucht wird. Die Neuralnetzgewichtungen werden bei 78 gespeichert, und wenn akzeptable Fehler mit den gespeicherten Gewichtungen erhalten werden, wird das Lernprogramm bei 82 beendet. Wenn akzeptable Fehler nicht erhalten wurden, so dekrementiert das Programm bei 62 den Lernratenparameter und die Lerniterationen werden fortgesetzt, startend mit den gespeicherten Gewichtungen. Sobald die Lerniterationen bei 82 beendet sind, werden die gelernten Beziehungs- oder Relationsgewichtungen gespeichert, und zwar zur Verwendung in einer Anwendung des vorliegenden Systems.
- Wenn die akustisch-artikulatorischen Beziehungen bei 28 gelernt sind und die artikulatorischen Template bei 46 konstruiert sind, so ist das System für die Spracherkennungsanwendung fertig. Unter Bezugnahme auf Fig. 3 sei erwähnt, daß eine akustische Eingangsgröße 90, wie in Fig. 1 gezeigt (Verfahrensschritte 10, 12, 14, 16 und 18), gebildet wird, um ein relatives Leistungs/Rahmensignal 22 und Barkbins, die bei 26 normalisiert sind, auszugeben. Die primäre akustische Eingangsgröße wird sodann durch die gelernte akustische artikulatorische Beziehung 92 in einem Neuralnetzwerk geleitet, um artikulatorische Parameter 94 aus den akustischen Daten abzuleiten. Die inferierten oder abgeleiteten artikulatorischen Parameter 94 zusammen mit der normalisierten, die höchste Frequenz besitzenden Bininformation 24 und die relative Leistungs/Rahmeninformation 22 werden eingegeben, und zwar für einen Vergleich 98 mit den gebildeten artikulatorischen Templaten 46. Geeignete Gewichtungsfak toren 96 können an die artikulatorischen Template 46 angelegt werden.
- Eine Anzahl von Verfahren kann dazu verwendet werden, um die abgeleitete Artikulation mit den Templaten, beispielsweise dem euklidschen Abstand, der Kreuzkorrelation und der Covarianz zu vergleichen. Das derzeit in dem Prozeß verwendete Verfahren basiert auf dem euklidschen Abstand. Der Vergleich wird gemacht durch Gleiten der Template von jedem Trainingssprachteil über die inferierten artikulatorischen und gemessenen arkustischen Parameter der Eingangssprache, und zwar sequentiell bei jedem Zeitschritt. Um einen einzigen Punkt der Übereinstimmung oder des Zusammenpassens zuzuweisen, wird ein Extremfindungsalgorithmus über die Funktion geleitet, um die Temporalposition mit dem Anpassungsausmaß in Beziehung zu setzen. Eine Erkennungsentscheidung 99 wird vorgenommen, und zwar basierend auf der beabsichtigten Anwendung. Wie dies hier verwendet wird, wird die Entscheidungsschwelle, also ein Abstand, definiert mehr als zwei Standartabweichungen aus dem Mittel der Abstandsmessung vorgenommen an jedem Schritt der Sprachprobe. Das verwendete Maß ist ein örtliches Extremum, das die spezifizierte Entscheidungsschwelle passiert.
- Unter Bezugnahme auf Fig. 4 ist ein Vergleich gezeigt, und zwar einer tatsächlichen Zungenspitzenlagemessung zusammen mit der Zungenspitzenbewegung abgeleitet oder inferiert durch ein Neuralnetzwerk trainiert mit der gesprochenen Zahl "ONE". Das Wort "ONE" wurde sodann zweimal zwischen den Zeitstufen 200 und 800 gesprochen, und die Zungenspitzenposition wurde abgeleitet oder infer riert. Die tatsächliche Zungenspitzenbewegung wurde aus Vergleichsgründen gemessen. Eine enge Ubereinstimmung zwischen dem tatsächlichen Abstand und dem inferierten Abstand erkennt man sogleich. Die Fig. 5 zeigt ferner die Fähigkeit des trainierten Neuralnetzwerkes artikulatorische Parameter aus einer akustischen Eingangsgröße abzuleiten oder zu inferrieren. Normalisierte x- und y- Koordinaten der Zungenspitzenbewegung sind aufgetragen, wobei die gemessenen Daten durch die gestrichelte Linie dargestellt sind, und die inferrierten Daten durch die ausgezogene Linie dargestellt sind. Die spezielle Parametereinstellung erfolgte für das Wort "ONE".
- Gemäß der Erfindung wurde ein Neuralnetzwerk mit den gesprochenen Zahlen "ONE" bis "TEN" trainiert, und die entsprechenden artikulatorischen Template wurden konstruiert. Es sei nunmehr auf die Fig. 6 Bezug genommen, wo ein Satz von akustischen Parametern (relative Leistung 22 und Hochfrequenzleistung 24) und artikulatorische Parameter (normalisierte gemessene artikulatorische Bewegung 42 und abgeleitete artikulatorische Variable 44), wie in Fig. 1 gezeigt, für die Templatkonstruktion dargestellt sind. Die Worte "ONE" bis "TEN" entsprechend den Eingangsgrößen sind oben in Fig. 6 gezeigt. Die zur Bildung eines Templats für jedes Wort ausgewählte Parameterregionen sind in Fig. 6 schattiert. Man erkennt, daß jeder Templatparametersatz Merkmale aufweist, die von dem Wort unterschiedlich sind, und gebildet ist über einen Satz von Fensterrahmen, die ein Parametersatz definieren, der unterscheidbar ist von anderen Templaten. Um die Spracherkennung zu verbessern, können die verschiedenen Templatparameter gewichtet werden, wie dies in der Tabelle B für die Spracherkennung gemäß Fig. 7 gezeigt ist. TABELLE B Gewichtungen Kanal
- Die Spaltenüberschriften lauten:
- rlp = relative Gesamtleistung (relative overall power)
- tbx = Zungenblatthorizontalposition (tongue blade horizontal position)
- tby = Zungenblattvertikalposition (tongue blade vertical position)
- tdx = Zungendorsumhorizontalposition (tongue dorsum horizontal position)
- tdy = Zungendorsumvertikalposition (tongue dorsum vertical position)
- la = Lippenöffnung (lip aperture)
- ttx = Zungenspitzenhorizontalposition (tongue tip horizontal position)
- tty = Zungenspitzenvertikalposition (tongue tip vertical position)
- ttydn = Zungenspitzenvertikalpositionsdifferenz (differenced tongue tip vertical position)
- h19 = normalisierte Hochfrequenzleistung (normalized high frequency power)
- Darauf folgend sprach ein anderer Sprecher die Zahlen "ONE" bis "TEN" und das System erkannte jedes der gesprochenen Worte. Die Tabelle C zeigt für jedes Templat das z-Ziel am Extrem der besten Übereinstimmung mit der Sprachprobe gemäß Fig. 7, die Position, an der die Übereinstimmung auftrat, und das Wort, das tatsächlich an diesem Punkt gesprochen wurde. Tabelle D zeigt die zweitdichtesten Übereinstimmungen oder Zusammenpassungen mit der Sprachprobe der Fig. 7 und die Positionen, bei der zweitdichtesten Übereinstimmungen auftraten. Keine dieser Übereinstimmungen überstieg die Schwelle des z-Ziels von -2,0. TABELLE C BESTE ÜBEREINSTIMMUNG TABELLE D ZWEITBESTE ÜBEREINSTIMMUNG
- Die gelernte akustische/artikulatorische Beziehung kann in verschiedenen mit Akustik in Beziehung stehenden Aufgaben verwendet werden. Beispielsweise kann die Sprechererkennung erhalten werden, wo das System trainiert ist, um eine bestimmte akustische/artikulatorische Beziehung zu erkennen. Ferner erfordert die artikulatorische Repräsentation nur eine geringe Bandbreite zur Übertragung sämtlicher Information in der Repräsentation oder Darstellung. Somit kann die eine niedrige Bandbreite aufweisende artikulatorische Darstellung direkt zur Spracherkennung an dem Empfangsende übertragen werden. Das eine niedrige Bandbreite besitzende Signal kann sicher "entkryptet" werden.
- Man erkennt, daß der oben beschriebene Prozeß bei irgendeiner zeitlichen Serie von Signalen verwendet werden kann, d. h. mechanischen Zeitserien, akustischen Zeitserien, elektromagnetischen Zeitserien, usw.. Sodann kann eine sekundäre Charakteristik aus einer primären charakteristischen Eingangsgröße inferriert werden, und die inferrierte Charakteristik kann dann verarbeitet werden, und die Primärcharakteristik kann wieder konstruiert werden. Derartige potentielle Anwendungen ergeben sich, wenn die sekundäre Charakteristik leichter gehandhabt werden kann als die primäre Charakteristik.
- Aus der bevorstehenden Beschreibung bevorzugter Ausführungsbeispiel der Erfindung erkennt man die Zwecke derselben. Es ist nicht beabsichtigt, daß diese allumfassend ist oder die Erfindung beschränkt. Es ist offensichtlich, daß viele Modifikationen und Variationen im Lichte der obigen Lehre möglich sind. Die Ausführungsbeispiele wurden gewählt und beschrieben, um die Prinzipien der Erfindung am besten zu erklären und um die Verwendung der Erfindung in verschiedenen Ausführungsbeispielen aufzuzeigen, wobei verschiedene Modifikationen für besondere Verwendungszwecke möglich sind. Die Beschreibung soll die Ansprüche nicht beschränken.
Claims (5)
1. Verfahren zum Erkennen einer akustischen
Eingangsgröße, wobei eine Lernphase und eine darauffolgende
Anwendephase vorgesehen ist, wobei die Lernphase folgende
Schritte aufweist:
Eingabe einer akustischen Trainingseingangsgröße
einschließlich der zu erkennenden akustischen
Eingangsgröße und einer korrelativen artikulatorischen
Parametersatzeingangsgröße in ein neuronales Netz;
Trainieren des neuronalen Netzes zur Bildung einer
gelernten Beziehung zwischen der erwähnten akustischen
Trainingseingangsgröße und dem erwähnten korrelativen
artikulatorischen Parametersatz;
Bilden eines Satzes von Relations-Templaten zwischen
ausgewählten Charakteristika oder Eigenschaften der
erwähnten akustischen Trainingseingangsgröße und dem
erwähnten korrelativen artikulatorischen Parametersatz; und
wobei die Anwendephase die folgenden Schritte aufweist:
Bilden (90) eines Digitalsignals funktionsmäßig in
Beziehung stehend mit der zu erkennenden akustischen
Eingangsgröße;
Eingabe des Digitalsignals in das neuronale Netz zur
Ausgabe von aus der gelernten Beziehung hergeleiteten
oder erschlossenen artikulatorischen Parametersätzen
(94);
Vergleichen (98) jedes der hergeleiteten
artikulatorischen Parametersatzes mit den erwähnten Relations-
Templaten um eines der erwähnten Relations-Template
kongruent mit dem erwähnten hergeleiteten artikulatorischen
Parametersatz innerhalb der vorgewählten Grenzen
auszuwählen; und
Ausgabe (99) eines Signals welches funktionell in
Beziehung steht mit den ausgewählten Charakteristika der
erwähnten akustischen Trainingseingangsgröße
identifiziert durch das erwähnte eine Templat der erwähnten
Beziehungs- oder Relations-Template.
2. Verfahren nach Anspruch 1, wobei das Bilden oder
Formen der gelernten Beziehung die folgenden Schritte
aufweist:
Eingabe einer Reihe von akustischen Wellenformen die
funktionsmäßig in Beziehung steht mit einem begleitenden
Satz von hervorgebrachten Zeichen menschlicher
Sprachtöne;
Fensterbildung jeder akustischen Wellenform zur
Bildung einer zeitlich gerahmten oder eingefaßten ersten
Digitalsignalserie;
Bilden oder Formen einer ausgewählten
Charakterisierung der zeitgerahmten ersten Digitalsignalserie; und
Formung oder Bildung einer zweiten
Digitalsignalserie funktionsmäßig in Beziehung stehend mit der
korrelativen artikulatorischen Parametereingangsgröße, wobei die
ersten und zweiten Digitalsignalserien die erwähnte
gelernte Beziehung etablieren oder vorsehen.
3. Verfahren nach Anspruch 2, wobei das Formen der
zweiten Digitalsignalserie die folgenden Schritte
aufweist:
Aufzeichnen vorgewählter artikulatorischer
Bewegungen eines Sprechers während des Hervorbringens der
erwähnten Zeichentöne;
Bildung von Sätzen aus den erwähnten
artikulatorischen Bewegungen in Ausrichtung mit der erwähnten
zeitgerahmten Digitalsignalserie; und
Ableitung ausgewählter artikulatorischer Parameter
aus jeder der erwähnten artikulatorischen Bewegungen des
Satzes, wobei die artikulatorischen Bewegungen und die
erwähnten artikulatorischen Parameter die erwähnte zweite
Digitalsignalserie bilden funktionell in Beziehung
stehend mit der korrelativen artikulatorischen
Parametereingangsgröße.
4. Verfahren nach Anspruch 2 oder 3, wobei das Bilden
des erwähnten Satzes der Relations-Template die folgenden
Schritte aufweist:
Ableiten ausgewählter akustischer Merkmale aus jedem
erwähnten zeitgerahmten Signal; und
Bilden eines Templat-Parametersatzes aus
ausgewählten akustischen Merkmalen in der erwähnten zeitgerahmten
ersten Digitalsignalserie und dem zweiten Digitalsignal
um in einzigartiger Weise eine der artikulatorischen
Paramtereingangsgrößen mit einer der erwähnten akustischen
Trainingseingangsgrößen zu assoziieren:
5. Verfahren zum Erkennen einer akustischen
Eingangsgröße, wobei ein Verfahren zur Erzeugung eines
Ausgangssignals in hergeleiteter Weise in Beziehung steht mit der
erwähnten akustischen Eingangsgröße und eine Lernphase
und eine darauffolgende Anwendungsphase aufweist, wobei
die erwähnte Lernphase die folgenden Schritte aufweist:
Eingabe einer akustischen Trainingseingangsgröße
einschließlich der zu erkennenden akustischen
Eingangsgröße und einer korrelativen artikulatorischen
Parametersatzeingangsgröße in ein neuronales Netz;
Trainieren des neuronalen Netzes zur Bildung einer
gelernten Beziehung zwischen der akustischen
Trainungs
eingangsgröße und dem erwähnten korrelativen
artikulatorischen Parametersatz;
Bilden eines Satzes von Relations- oder Beziehungs-
Templaten zwischen ausgewählten Charakteristika der
akustischen Trainingseingangsgröße und dem korrelativen
artikulatorischen Parametersatz; und wobei die
Anwendungsphase die folgenden Schritte aufweist:
Bilden (90) eines funktionsmäßig mit der zu
erkennenden akustischen Eingangsgröße funktionsmäßig in
Beziehung stehenden Digitalsignals;
Eingeben des erwähnten Digitalsignals zu der
erlernten Beziehung in dem neuronalen Netz; und
Einwirken auf das erwähnte Digitalsignal in dem
neuronalen Netz mit der erwähnten gelernten Beziehung um
abgeleitete artikulatorische Parametersätze auszugeben
(94).
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US07/473,090 US5440661A (en) | 1990-01-31 | 1990-01-31 | Time series association learning |
| PCT/US1991/000529 WO1991011802A1 (en) | 1990-01-31 | 1991-01-31 | Time series association learning |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69130090D1 DE69130090D1 (de) | 1998-10-08 |
| DE69130090T2 true DE69130090T2 (de) | 1999-05-20 |
Family
ID=23878168
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69130090T Expired - Fee Related DE69130090T2 (de) | 1990-01-31 | 1991-01-31 | Lernprozess durch assoziation mit taktserien |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US5440661A (de) |
| EP (1) | EP0465639B1 (de) |
| JP (1) | JPH04504767A (de) |
| CA (1) | CA2045612A1 (de) |
| DE (1) | DE69130090T2 (de) |
| WO (1) | WO1991011802A1 (de) |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5621858A (en) * | 1992-05-26 | 1997-04-15 | Ricoh Corporation | Neural network acoustic and visual speech recognition system training method and apparatus |
| FR2704348B1 (fr) * | 1993-04-23 | 1995-07-07 | Matra Communication | Procede de reconnaissance de parole a apprentissage. |
| GB2278984A (en) * | 1993-06-11 | 1994-12-14 | Redifon Technology Limited | Speech presence detector |
| US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
| US6226348B1 (en) | 1998-12-15 | 2001-05-01 | Philips Electronics North America Corporation | X-ray diffractometer method for determining thickness of multiple non-metallic crystalline layers and fourier transform method |
| WO2002029784A1 (en) * | 2000-10-02 | 2002-04-11 | Clarity, Llc | Audio visual speech processing |
| US7454336B2 (en) * | 2003-06-20 | 2008-11-18 | Microsoft Corporation | Variational inference and learning for segmental switching state space models of hidden speech dynamics |
| JP5120826B2 (ja) * | 2005-09-29 | 2013-01-16 | 独立行政法人産業技術総合研究所 | 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム |
| US10635984B2 (en) * | 2018-07-23 | 2020-04-28 | Falkonry Inc. | System and method for the assessment of condition in complex operational systems based on multi-level pattern recognition |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3383466A (en) * | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
| US3610831A (en) * | 1969-05-26 | 1971-10-05 | Listening Inc | Speech recognition apparatus |
| US4087632A (en) * | 1976-11-26 | 1978-05-02 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
| JPS5672499A (en) * | 1979-11-19 | 1981-06-16 | Hitachi Ltd | Pretreatment for voice identifier |
| US4757541A (en) * | 1985-11-05 | 1988-07-12 | Research Triangle Institute | Audio visual speech recognition |
| GB8528143D0 (en) * | 1985-11-14 | 1985-12-18 | British Telecomm | Image encoding & synthesis |
| JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
| US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
| US4945494A (en) * | 1989-03-02 | 1990-07-31 | Texas Instruments Incorporated | Neural network and system |
-
1990
- 1990-01-31 US US07/473,090 patent/US5440661A/en not_active Expired - Fee Related
-
1991
- 1991-01-31 JP JP3504857A patent/JPH04504767A/ja active Pending
- 1991-01-31 WO PCT/US1991/000529 patent/WO1991011802A1/en not_active Ceased
- 1991-01-31 CA CA002045612A patent/CA2045612A1/en not_active Abandoned
- 1991-01-31 EP EP91904478A patent/EP0465639B1/de not_active Expired - Lifetime
- 1991-01-31 DE DE69130090T patent/DE69130090T2/de not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| WO1991011802A1 (en) | 1991-08-08 |
| CA2045612A1 (en) | 1991-08-01 |
| US5440661A (en) | 1995-08-08 |
| EP0465639B1 (de) | 1998-09-02 |
| JPH04504767A (ja) | 1992-08-20 |
| DE69130090D1 (de) | 1998-10-08 |
| EP0465639A4 (en) | 1993-01-27 |
| EP0465639A1 (de) | 1992-01-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE4436692C2 (de) | Trainingssystem für ein Spracherkennungssystem | |
| DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
| DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
| DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
| DE69010722T2 (de) | Spracherkennungssystem. | |
| DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
| DE69433254T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
| DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
| DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
| DE60000403T2 (de) | Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung | |
| DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
| DE60302478T2 (de) | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale | |
| DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
| DE2659096A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
| DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
| DE69130090T2 (de) | Lernprozess durch assoziation mit taktserien | |
| DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
| DE69512961T2 (de) | Spracherkennung auf Grundlage von "HMMs" | |
| EP4097719B1 (de) | Verfahren zur steuerung eines teleprompters und teleprompter zur dynamischen anzeige eines vordefinierten textes | |
| DE3882805T2 (de) | Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung. | |
| DE4010028A1 (de) | Spracherkennungsverfahren | |
| DE69025932T2 (de) | Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen | |
| DE69030548T2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
| DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
| DE602004011292T2 (de) | Vorrichtung zur Sprachdetektion |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |