[go: up one dir, main page]

DE2919085A1 - Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung - Google Patents

Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung

Info

Publication number
DE2919085A1
DE2919085A1 DE19792919085 DE2919085A DE2919085A1 DE 2919085 A1 DE2919085 A1 DE 2919085A1 DE 19792919085 DE19792919085 DE 19792919085 DE 2919085 A DE2919085 A DE 2919085A DE 2919085 A1 DE2919085 A1 DE 2919085A1
Authority
DE
Germany
Prior art keywords
speech
inverse
speech signal
signal
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19792919085
Other languages
English (en)
Other versions
DE2919085C2 (de
Inventor
Akira Ichikawa
Akira Nakajima
Kazuo Nakata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE2919085A1 publication Critical patent/DE2919085A1/de
Application granted granted Critical
Publication of DE2919085C2 publication Critical patent/DE2919085C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

2919081
- 5 BESCHREIBUNG
Die Erfindung bezieht sich auf ein Vorverarbeitungsverfahren und eine Vorverarbeitungsvorrichtung für eine Spracherkennungsvorrichtung* Sie richtet sich im einzelnen auf ein solches Verfahren und eine solche Vorrichtung für eine Spracherkennungsvorrichtung zur Erkennung von Sprache, die über ein Übertragungssystem wie beispielsweise ein Telefonnetz empfangen wird. Bei einem Informationsdienst-System, welches ein ein Computersystern enthaltendes Informationszentrum mit einem Telefonnetz verbindet, wird die Sprache einer Tonantworteinheit (audio response unit, ARU) als das Ausgangssignal des Informationsζentrums verwendet, während ein Tastschaltersignal oder direkt eine Stimme eines Sprechers als Eingabe auf das Telefonnetz verwendet wird. Die durch den Spreeher eingegebene Sprache wird über das Telefonnetz an das Informationszentrum übertragen. Im Informationsζentrum wird eine Spracherkennung durchgeführt, indem die Ähnlichkeiten zwischen der eingegebenen Sprache und einem Standard-Sprachsignal untersucht werden.
Die eingegebene Sprache, die auf diese Weise das Netz durchlaufen hat, ist unter dem Einfluß der Übertragungscharakteristik des Übertragungssystems verzerrt. Darüber hinaus ist die Verzerrungscharakteristik nicht gleichförmig, sondern hängt gewöhnlich vom Leitweg ab. Dementsprechend werden in der Spracherkennungsvorrichtung Sprachen verglichen, die über Schaltkreise mit unterschiedlicher Verzerrungscharakteristik ankommen. Es ist daher notwendig, den Einfluß der Verzerrung zu beseitigen oder durch Normierung etc. zu vermindern.
809146*0931
291908S
Ein Verfahren zur Korrektur der schaltungsabhängigen Verzerrung des Spektrums der eingegebenen Sprache ist in der US-Patentanmeldung Serial No. 880 951 beschrieben.
Dieses Verfahren besteht darin, daß ein bestimmter Ausschnitt der eingegebenen Sprache analysiert wird, um eine Spektralinformation in diesem Abschnitt herauszuziehen, daß ein Inversfilter, welches eine zum Spektrum umgekehrte Charakteristik hat, aufgebaut wird, und daß die eingegebene Sprache durch das Inversfilter geführt wird, um den Einfluß der übertragungscharakteristik auf die eingegebene Sprache zu beseitigen. Bei diesem früheren Verfahren wird jedoch das Inversfilter sehr astabil und folgt in nur geringem Maße der Charakteristik innerhalb eines Sprachübertragungsbandes. Ein weiterer Nachteil besteht darin, daß es auf Störungen außerhalb des Sprachübertragungsbandes anfällig ist.
Aufgabe der Erfindung ist es, ein Vorbearbeitungsverfahren und eine Vorbearbeitungsvorrichtung für eine Spracherkennungsvorrichtung zu schaffen, bei welcher die Stabilität eines Inversfilters verbessert, ein Qualitätsverlust der Sprachinformation innerhalb eines Übertragungsbandes verhindert und der Einfluß von Störsignalen außerhalb des Übertragungsbandes beseitigt ist.
Zur Lösung dieser Aufgabe wird Sprache, welche über ein übertragungssystem empfangen, abgetastet und dann digitalisiert worden ist, zur Gewinnung eines Frequenzspektrums Fourier-transformiert; im Spektrum werden nur eine Komponente innerhalb eines Bandes des Übertragungssystems und eine gefaltete Komponente, zurückgehend auf die Abtastung, als kontinuierliches Frequenzband, beginnend bei 0 kHz, herausgegriffen; unter Verwendung dieses Frequenzbandes als neues Spektrum wird eine inverse Fourier-Transformation durchgeführt; das Transformationsresultat wird als Charakteristik eines Inversfilters verwendet.
f093*
Eine Ausführungsform der Erfindung wird im folgenden in Verbindung mit der beigefügten Zeichnung beschrieben. Auf dieser ist bzw. sind
Fig. 1 ein Blockschaltbild einer bekannten Spracherkennungsvorrichtung,
Fign. 2(a)Kurven, die Spektren und Charakteristiken ver-
iS tg) schiedener Teile aus Fig. 1 zeigen, 10
Fig. 3 ein Blockschaltbild einer Ausführungsform einer Spracherkennungsvorrichtung, welche ein Vorverarbeitungsverfahren gemäß der Erfindung verwirklicht,
15
Fign. 4(a)Kurven, die Spektren und Charakteristiken von
bis 4(c)
v ' Teilen aus Fig. 3 zeigen,
Fig. 5 ein Blockschaltbild, welches ein Beispiel eines konkreten Aufbaus des Teils in Fig. 3 zeigt,
der die Vorverarbeitungsvorrichtung darstellt,
Fig. 6 ein Blockschaltbild, welches ein Beispiel für den konkreten Aufbau eines Teils in Fig. 5 zeigt, und 25
Fign. 7 Blockschaltbilder, von denen jedes ein Beispiel un für den konkreten Aufbau einer Erkennungseinheit in Fig. 3 darstellt.
Fig. 1 zeigt den Aufbau einer Spracherkennungsvorrichtung zur Realisierung eines bekannten Vorverarbeitungsverfahrens, während die Fign. 2 (a) bis 2 (g) spektrale und tibertragungscharakteristiken von verschiedenen Teilen aus
2919081
Fig. 1 zeigen.
Gemäß Fig. 1 durchläuft Sprache SP eine Telefonleitung 1 mit einer bestimmten übertragungscharakteristik, danach ein Tiefpaßfilter 2 zur Verhinderung von auf ein Abtasten zurückgehenden gefalteten StörSignalen. Sie wird mit einer bestimmten Frequenz abgetastet und durch einen Analog-Digitalwandler (im folgenden als "AD-Wandler" abgekürzt) 3 in digitales Signal umgewandelt. Ein Charakteristikparameter innerhalb bestimmter Grenzen bzw. eines bestimmten Abschnitts wird aus der digitalisierten Sprache in einer Analysiereinheit 4 gewonnen und auf ein Inversfilter 5 gegeben. Indem man die eingegebene Sprache durch das Inversfilter 5 schickt, wird Sprache mit darin beseitigten durch die Charakteristik der Telefonleitung 1 5 bedingten Unstimmigkeiten auf die Erkennungseinheit 6 gegeben.
Erkennungseinheit 6 geschieht die Spracherkennung durch Vergleich der so gewonnenen Sprache mit einer Standardsprache und Auswertung der Ähnlichkeiten zwischen diesen. Fig. 2(a) zeigt schematisch das mittlere Spektrum der Sprache, bevor sie durch die Telefonleitung 1 geschickt wird, während Fig. 2(b) die übertragungscharakteristik der Telefonleitung 1 wiedergibt. Wie aus Fig. 2(b) ersichtlich, hat die übertragungscharakteristik der Telefonleitung 1 eine Bandbreite von 0,3 kHz bis 3,4 kHz. Daher zeigt das mittlere Spektrum der Sprache nach dem Durchlaufen der Telefonleitung 1 eine Bandbegrenzung mit abruptem Verlauf, wie in Fig. 2(c) dargestellt, wobei Störsignale außerhalb des Bandes enthalten sind.
Wenn für das Tiefpaßfilter 2 zur Verhinderung gefalteter Störsignale infolge des Abtastens eine sehr abrupte Abschneidcharakteristik gewählt wird, kommt es zu einer Beeinträchtigung nachfolgender Verarbeitungsschritte. Aus diesem Grund wird üblicherweise ein Filter verwendet, wel-
909*46*0931
ches/ wie in Fig. 2(d) gezeigt, bei einer Frequenz zu dämpfen beginnt, die etwas unter den 3,4 kHz liegt, die die Obergrenze des TeIefönÜbertragungsbandes darstellen, und die Abschneidfrequenz fc bei 4 bis 5 kHz (beispielsweise 4,2 kHz) hat. Durch ein solches Tiefpaßfilter 2 werden Störkomponenten bei und oberhalb der Abschneidfrequenz fc weitgehend entfernt. Es geht jedoch auch Information im Sprachband, welche nicht höher als 3,4 kHz ist, in gewissem Maße verloren, was zu dem Problem führt, daß ein Qualitätsverlust der Information auftritt.
Im AD-Wandler 3 geschieht das Abtasten üblicherweise bei einer Abtastfrequenz von 8 bis 10 kHz. Daher hat, wie in Fig. 2(e) gezeigt, das mittlere Leistungsspektrum des mit dem AD-Wandler 3 gewonnenen digitalen Signals Liniensymmetrie mit der Mitte bei einer Frequenz f s, die gleich der halben' Abtastfrequenz ist, und erstreckt sich bis zur Abtastfrequenz. Diese Ausgabe des AD-Wandlers 3 wird in der Analysiereinheit 4 einer Spektralanalyse unterworfen und die zum analysierten Spektrum inverse Charakteristik im Inversfilter 5 eingestellt. Damit nimmt die Durchlaßcharakteristik des Inversfilters 5 die in Fig. 2(f) gezeigte Form an.
In einem Fall, wo auf diese Weise Sprache mit dem in Fig. 2(e) gezeigten Spektrums durch die Analysiereinheit 4 analysiert und die Charakteristik des Inversfilters 5 entsprechend dem Ergebnis eingestellt wird, fällt das in Fig. 2(e) gezeigte Spektrum an der Ober- und üntergrenze des Bandes der Telefonleitung abrupt ab, und diese abrupten Verläufe sind in dem durch die Analysiereinheit 4 zu analysierenden Band enthalten, d.h., innerhalb Frequenzen 0 - fs. Infolgedessen besteht bei dem Inversfilter, in welchem die zum Spektrum des Analysierergebnisses inverse Charakteristik eingestellt ist, die Gefahr, daß es an Abschnitten, welche den abrupten Ver-
laufen des Obergrenz- und Untergrenzabschnitts des Telefonübertragungsbands folgen, astabil wird. Ein weiteres Problem ist, daß auch die Verfolgung der Charakteristik innerhalb des Telefonübertragungsbandes schlechter wird. Obwohl, wie in Fig. 2(g) dargestellt, bei dem mittleren Sprachspektrum, das das Inversfilter durchlaufen hat, der Einfluß der Telefonleitung normiert ist und das Spektrum innerhalb des Bands flach wird, enthält es auf große Werte verstärkte Störkomponenten außerhalb des Bands. Dies liegt daran, daß ein kleiner Teil des Spektrums der eingegebenen Sprache im Inversfilter umgekehrt betont wird.
Nun zu einer Ausführungsform der Erfindung.
Der Ausdruck "Spracherkennung" ist hier der allgemeine Ausdruck für die Erkennung, Messung etc. von Sprachwellenform-Information, wie Worterkennung, Sprechererkennung und SprecherIdentifikation.
Fig. 3 zeigt eine Ausführungsform einer Spracherkennung svorrichtung zur Verwirklichung eines Vorverarbeitungsverfahrens gemäß der Erfindung, während die Fign. 4(a) bis 4{c) Spektren und Charakteristika zur Erläuterung von Wirkungsweisen von Teilen in Fig. 3 sind.
In Fig. 3 bezeichnet 7 einen schnellen Fourier-Transformierer, 8 eine Bandbereichsauswahlschaltung, und 9 einen schnellen inversen Fourier-Transformierer.
Wie in Fig. 4(a) dargestellt, ist die Abschneidfrequenz fc des Tiefpaßfilters 2 ausreichend hoch dafür eingestellt, daß Sprache, die nicht höher als die Obergrenze von 3,4 kHz des Telefonübertragungsbands ist, nicht beeinträchtigt wird, und so, daß sie niedriger als die Frequenz fs ist, die gleich der Hälfte der Abtastfrequenz ist. Dementsprechend muß die Frequenz fs höher als die die Obergrenze des Telefonübertragungsbandes bildenden 3,4 kHz sein.
908S46J0931
291908S
Bei einem solchen Aufbau durchläuft, über die Telefonleitung 1, die die in Fig. 2(b) gezeigte Charakteristik aufweist, die Sprache SP das Tiefpaßfilter 2, das die in Fig. 4(a) gezeigte Dämpfungscharakteristik aufweist, bei welcher der Abfall bei einer über der Obergrenze des Telefonübertragungsbands liegenden Frequenz beginnt und die Abschneidfrequenz fc ausreichend hoch ist, wonach sie auf den AD-Wandler 3 gegeben wird. Dann wird sie mit der in obiger Weise festgesetzten Abtastfrequenz abgetastet und in ein Digitalsignal bestimmter Bits umgewandelt.
Was die umgewandelte Ausgabe anbelangt, so wird die gesamte zu analysierende Sprache durch den schnellen Fourier-Trans formier er 7 kollektiv Fourier-transformiert, wobei sich eine Spektralcharakteristik ergibt, wie sie in Fig. 4(b) gezeigt ist. In der Bandbereichsauswahlschaltung 8 wird/werden nur ein Band, in welchem die Sprache vorliegt, d.h., das Telefonübertragungsband von 0,3 bis 3,4 kHz, und das Band der auf das Abtasten zurückgehenden gefalteten Komponente aus dem in Fig. 4(b) gezeigten Spektrum herausgegriffen.
Man erhält also ein Spektrum, in welchem die Bänder von 0 Hz an neu angeordnet sind, wie dies in Fig. 4(c) gezeigt ist.
Es ist dabei hinsichtlich des schnellen Fourier-Transformierers 7 zweckmäßig, daß er Sprachdaten von Potenzen von "2" transformiert. Wenn daher die einzugebenden Sprachdaten nicht Potenzen von "2" sind, ist es günstig,""0" hinter den Daten einzusetzen und die gesamten Daten in Potenzen von "2" zu bringen. Es ist ferner zweckmäßig, daß die Zahl von Daten des inversen Fourier-Transformierers 9 eine von Potenzen von "2" ist. Beispielsweise wird, wie aus Fig. 4(c) ersichtlich, die äquivalente Abtastfrequenz des ausgewählten Spektrums bzw. 2 χ fs' 6,2 kHz, was das Doppelte der Telefonübertragungsbandbreite von
909846 ^0931
291908S
3,1 kHz (= 3,4 kHz - 0,3 kHz, ist. Wenn daher 12,4 kHz, was doppelt so hoch ist, zur Abtastfrequenz 2-fs des AD-Wandlers 3 gemacht wird, wird die Frequenz fs, die gleich der Hälfte davon ist, 6,2 kHz. Dies erfüllt auch die Bedingung, daß die Frequenz fs höher als die Obergrenze von 3,4 kHz des Telefonübertragungsbands ist. Wenn die Zahl von Daten des Spektrums, die bis hinauf zur Frequenz 2-fs' repräsentieren, ein Wert einer Potenz von "2" ist, wird dementsprechend auch die Zahl von Daten des Spektrums, die bis hinauf zur Frequenz 2*fs repräsentieren, nach der Beziehung 2 fs = 2 (2fs eine Potenz von "2" und dies ist günstig.
Üblicherweise ist der Abtastwert der Sprachwellenform mehrere 100 oder mehr. Indem man den Wert so auswählt, daß er eine Potenz von "2" ist, werden daher 2 fs' und 2 fs automatisch Potenzen von "2".
In obigem Beispiel wurde 2 fs auf das Doppelte von 2 fs" eingestellt, sie kann jedoch allgemein auf 2n-mal (n ^ 2) von 2 fs" eingestellt werden. In diesem Fall wird jedoch die Abtastfrequenz hoch und die notwendige Kapazität des Datenspeichers nimmt in diesem Maße zu. Wenn man auch berücksichtigt, daß die Verarbeitungsmenge für den schnellen Fourier-Transformierer zunimmt, so ist das Einstellen auf den doppelten Wert, der das erforderliche Minimum darstellt, wünschenswert. Das heißt, wenn das Telefonübertragungsband von einer Frequenz f-] zu einer Frequenz f2 reicht, ist es günstig, η (η = 1, 2 ...) so auszuwählen, daß die Beziehung (f2 - f-])-2n+1 > f2-2 erfüllt ist, und das Abtasten bei (f2 - fi)-2n+1 durchzuführen.
Wie aus einem Vergleich der Fign. 4(c) und 4(b) einsichtig, enthält das Frequenzspektrum (Fig. 4 (c)) , welches auf den inversen Fourier-Transformierer 9 gegeben wird, überhaupt keine Komponente außerhalb des Sprachbandes. Daher sind die abrupten Charakteristiken des Bandabschneidens und
909946*0931
291908S
die Störungskomponenten außerhalb des Bandes in dem durch die Analysiereinheit 4 zu analysierenden Band, d.h., in 0 - fs', nicht vorhanden. Infolgedessen sind die abrupten Charakteristiken, welche Faktoren der Instabilität darstellen, für das Inversfilter 5 nicht erforderlich, so daß sich ein Inversfilter realisieren läßt, welches stabil ist und der übertragungscharakteristik innerhalb des Bandes gut folgt. Gleichzeitig damit ist auch die Sprachinformation innerhalb des Bandes qualitativ nicht verschlechtert und Störgeräusche 0 außerhalb des Bandes können vollkommen entfernt werden.
Wie oben angegeben, kann die halbe Frequenz fs der Abtastfrequenz auf einen hohen Wert, beispielsweise 6,2 kHz, eingestellt werden. Daher kann die Dämpfungscharakteristik des Tiefpaßfilters 2 so eingestellt werden, daß sie bei einem über der Obergrenze von 3,4 kHz des Telefonübertragungsbandes liegenden Wert ansteigt, so daß die Sprachinformation innerhalb des Bandes in diesem Teil nicht qualitätsverschlechtert wird.
Ferner wird die äquivalente Abtastfrequenz 2-fs' der auf das Inversfilter zu gebenden umgewandelten Wellenform 6,2 kHz, was ein sehr niedriger Wert verglichen mit der Abtastfrequenz von 8 bis 10 kHz des Standes der Technik ist. Daher sind die in der Analysiereinheit 4, dem Inversfilter und der Erkennungseinheit 6 zu verarbeitenden Mengen vermindert, wodurch die Verarbeitungsgeschwindigkeiten in diesem Maße erhöht sind. Selbst wenn man in Rechnung stellt, daß die Verarbeitungsvorgänge im schnellen Fourier-Transformierer 7, der Bandbereichsauswahlschaltung 8 und dem inversen Fourier- Transformierer 9 zunehmen, ergibt die Erfindung gegenüber dem Stand der Technik insgesamt eine Verbesserung.
Fig. 5 zeigt den Aufbau einer Ausführungsform des Vorverarbeitungsteils der Vorrichtung der Fig. 3. Dieser Teil entspricht dem schnellen Fourier-Transformierer 7, der Band-
909846/09 31
auswahlschaltung 8/ dem inversen Fourier-Transformierer 9, der Analysiereinheit 4 und dem Inversfilter 5 in Fig. 3.
In Fig. 5 bezeichnen 11 bis 15 Register, 16 einen Fourier-Transformierer, 17 einen inversen Fourier-Transformierer/ 18 eine Inversfilterkoeffizienten-Berechnungsschaltung, 19 ein Inversfilter und 20 ein Steuerglied.
Bei einem solchen Aufbau wird die digitale Sprachwellenform aus dem AD-Wandler 3 der Fig. 3 im Register 11 gespeichert. Die im Register 11 befindliche Sprachwellenform wird an den Fourier-Transformierer 16 gesandt, dort werden Daten der Minimalzahl von Potenzen von "2", die nicht kleiner als die Zahl von Daten der Eingangs-Sprachwellenform ist, Fourier-transformiert, und das Ergebnis an das Register 12 gesandt. Dementsprechend wird die spektrale Information, wie sie in Fig. 4 (b) gezeigt ist, im Register 12 gespeichert. Durch ein Steuersignal des Steuerglieds 20 wird das Spektrum des Telefonübertragungsbands von 0,3 bis 3,4 kHz und das Band der gefalteten Komponente innerhalb des Registers 12 herausgeholt und das Spektrum in dem Zustand, in welchem die Bänder in der in Fig. 4
(c) gezeigten Weise zusammengedrängt sind, im Register 13 gespeichert. Nachfolgend werden im inversen Fourier-Transformierer 17 inverse Fourier-Transformationen in einer Anzahl, die gleich der halben Anzahl von im Fourier-Transformierer 16 durchgeführten Fourier-Transformationen ist, ausgeführt und die Ergebnisse an das Register 14 gesandt. Auf ein Steuersignal der Steuereinheit 20 hin, werden durch Schieben um feste Intervalle bestimmte Längen von Sprachdaten sequentiell aus dem Register 14 herausgeholt und zur Bestimmung eines bestimmten Parameters, beispielsweise des partiellen Autokorrelationskoeffizienten, einer Spektralanalyse unterworfen. Der Koeffizient wird an das Invers-
■291908.S
filter 19 gesandt, um dessen Charakteristik einzustellen. Ferner werden auf ein entsprechendes Steuersignal des Steuerglieds 20 hin die im Register 14 befindlichen Sprachdaten sequentiell durch das Inversfilter 19 geschickt und einer inversen Filterung unterworfen, deren Ergebnis im Register 15 gespeichert wird.
Fig. 6 zeigt ein Beispiel des konkreten Aufbaus eines Teils der Schaltung der Fig. 5, d.h. der Berechnungsschaltung 18 für den Inversfilterkoeffizienten und des Inversfilters19. In dem Beispiel wird der partielle Autokorrelationskoeffizient unter Ausnutzung der PARCOR-Analysiertechnik, die bekannt ist (beschrieben beispielsweise in der japanischen Patentanmeldung mit Publikationsnummer 18007/74), berechnet und die Charakteristik des Inversfilters mit dem Koeffizienten eingestellt.
In Fig. 6 bezeichnen 100 und 200 Eingangsanschlüsse, 101 bis 103 und 201 bis 203 Verzögerungsschaltungen, 111 und 112 Korrelatoren, 121, 122, 131, 132, 221, 231, und 232, Multiplizierer, 141 bis 149, 151 bis 159, 241 bis 249 und 251 bis 259 Addierer, 160 ein Schieberegister und 170 eine Mittelwertberechnungsschaltung.
Die Schaltung der Fig. 6 erhält die zu analysierende Sprache am Anschluß 100. Das ankommende Signal wird in zwei Teile aufgespalten, von denen der eine auf die Verzögerungsschaltung 101 gegeben wird. Der andere Signalteil wird nochmals in drei Teile aufgespalten, die an den Korrelator 111, den Multiplizierer 131 und den Addierer 151 gehen. Das durch die Verzögerungsschaltung 101 verzögerte Signal wird in drei Teile aufgespalten, die an den Korrelator 111, den Multiplizierer 121 und den Addierer 141 gehen. Bei dem Korrelator 111 handelt es sich um eine bekannte Vorrichtung, welche die Funktion hat, die Korrelation zwischen den beiden Eingangssignalen zu berechnen. Das Ausgangs-
984 6/0931
signal dieser Vorrichtung wird als partieller Autokorrelationskoeffizient erster Ordnung 181 (PARCO-Koeffizient) vorgesehen und außerdem als das eine Eingangssignal sowohl für den Multiplizierer 121 als auch für den Multiplizierer 131 verwendet.
Der partielle Autokorrelationskoeffizient 181 wird im Schieberegister 160 gespeichert. Die Ausgangssignale der Multiplizierer 121 und 131 sind Vorwärts- und Rückwärts-Voraus sage werte erster Ordnung. Diese werden auf den Addierer bzw. 141 gegeben, um ihre Differenzen bezüglich des Eingangssignals am Eingangsanschluß 100 und des Ausgangssignals der Verzögerungsschaltung 101 zu gewinnen. Als Ergebnis erhält man Vorwärts- und Rückwärtsvoraussagesignaldifferenzen erster Ordnung, die Eingangssignale des !Correlators 112 und der Verzögerungsschaltung 102 werden. Danach werden in der gleichen Weise partielle Autokorrelationskoeffizienten 182 bis 189 der zweiten bis neunten Ordnung und ein Vorwärtsvoraussagefehler neunter Ordnung analysiert und herausgezogen. Da die Sprachdaten in Abtastintervallen aufeinanderfolgend auf den Anschluß 100 gelangen, werden die partiellen Autokorrelationskoeffizienten 181 bis 189 zu jedem Zeitpunkt berechnet und im Schieberegister 160 gespeichert. Wenn die Zeitdauer des RegisterSchiebens des Schieberegisters 160 vorweg gleich dem Abtastintervall gemacht wird, sind die partiellen Autokorrelationskoeffizienten der gesamten Sprache im Schieberegister 160 an den entsprechenden Ordnungen im Zeitpunkt der Beendigung der gesamten Sprache gespeichert. Die Mittelwertberechnungsschaltung 170 bildet die Mittel der partiellen Autokorrelationskoeffizienten der entsprechenden Ordnungen nach Beendigung der Analyse der gesamten Sprache. Die Mittelwerte werden im Inversfilter als die partiellen Autokorrelationskoeffizienten der einzelnen Ordnungen
909846/0931 ORIGINAL INSPECTS*
eingestellt und beibehalten, während der Inversfilterungsyorgang durchgeführt wird.
Das Inversfilter hat den gleichen Aufbau wie dasjenige eines Spektrumanalysierteils, d.h., des PARCQR-Analysierfilters in der Inversfilterkoeffizienten-Berechnungsschaltung,und unterscheidet sich nur darin, daß die im Spektrumanalysicrtc.il berechneten partiellen Autokorrclationskoeffizienten vorweg eingestellt werden. Es wird zu einem Filter, welches die inverse Charakteristik zum gesamten Mittelungsspektrum der analysierten Sprache hat. Im Register 14 vorhandene Sprachdaten, wie sie über den Eingangsanschluß 200 erhalten werden, werden durch obiges Inversfilter gefiltert.
Fig. 7 zeigt ein Beispiel für den konkreten Aufbau der Erkennungseinheit 6 der Fig. 3. 15 bezeichnet ein Register, das demjenigen mit dem gleichen Bezugszeichen in Fig. 5 entspricht, 21 ein Pufferregister, 22 eine Parameterextrahierschaltung, 23 ein Parameterregister, 24 einen Standardparameterspeicher, 25 eine Abstandsberechnungsschaltung, 26 ein Abstandsregister, 27 eine Minimalwertberechnungsschal tung, und 28 eins Steuereinheit.
Bei einem solchen Aufbau werden die Sprachdaten nach Durchlaufen des Inversfilters im Register 15 gespeichert. Auf ein Steuersignal der Steuereinheit 28 hin werden feste Längen von Sprachdaten sequentiell in festen Abständen herausgeholt und über das Pufferregister 21 auf die Parameterextrahierschaltung 22 gegeben. Diese Parameterextrahierschaltung 22 zieht einen für die Erkennung notwendigen Parameter heraus. Beispielsweise kann eine Analysiereinheit, wie sie in der vorgenannten japanischen Patentanmeldung, Publikationsnummer 18007/74 beschrieben wurde, verwendet werden, wobei der partielle Autokorrelationskoeffizient als Parameter herausgezogen wird. Er wird
909846/0931
2919081
auf das Parameterregister 2Γ gegeben.
Andererseits werden vorher berechnete und registrierte • Parametersätze (im Falle der Worterkennung Parameterzeitfolgen entsprechender Wörter und im Falle der Sprechererkennung Parameterzeitfolgen entsprechender Sprecher) im Standardparameterspeicher 24 gespeichert. Auf ein Steuersignal der Steuereinheit 28 hin werden die gespeicherten Inhalte aufeinanderfolgend herausgeholt und auf die Abstandsberechnungsschaltung 25 gegeben. In der Abstandsberechnungsschaltung 25 werden die vom Parameterregister 23 gelieferten Charakteristikparameter und die vom Standardparameterspeicher 24 gelieferten Standardparameter miteinander verglichen und die Ähnlichkeit zwischen ihnen, d.h. der Abstand, berechnet. Das Resultat wird an das Abstandsregister 26 gesandt. Als Abstandsberechnungsschaltung 25 kann beispielsweise eine in der japanischen Patentanmeldung, Publikationsnummer 30242/72, beschriebene Technik verwendet werden. Wenn die Abstände von allen Standardparametern berechnet sind, werden alle im Ab-Standsregister 26 vorhandenen Abstände auf ein Signal der Steuereinheit 28 hin zur Gewinnung des Minimalwerts der Abstände an die Minimalwertberechnungsschaltung 27 gesandt. Eine für den Standardparameter repräsentative Kategorie bzw. Gruppe, die den Minimalwert angibt, wird als Ausgangssignal geliefert. Die Steuereinheiten 20 und 28 in den Fign. 5 und 7 können unter Verwendung bekannter Zuordner etc. aufgebaut sein.
Fig. 8 zeigt ein weiteres Beispiel eines konkreten Aufbaus für die Erkennungseinheit 6 der Fig. 3. In diesem Beispiel wird ein Mikrocomputer verwendet.
In Fig. 8 bezeichnet 30 einen Random-Access-Speicher, in welchem die von der VorverarboitungsVorrichtung kommenden Sprachdaten gespeichert werden, 31 einen Datenbus,
808846/0931
32 eine Recheneinheit, 33 eine Steuereinheit, welche aus einem Zuordner, einem Mikrobefehlsspeicher oder dergleichen besteht, 34 einen Multiplizierer, 35 eine Resultatanzeigeschaltung und 36 einen Parameterspeicher für Standardsprachen.
Im folgenden wird ein Erkennungsverarbeitungsverfahren, welches mit dem Mikrocomputer eines solchen Äufbaus durchgeführt wird, beschrieben.
Es ist bekannt, daß bei Analysierung von Sprachen mit der vorgenannten PARCOR-Technik und Einschätzung der Ähnlichkeit zwischen den Sprachen verschiedene Arten von Parametern aus den Autokorrelationskoeffizienten von Wellenformen gewonnen werden. Dementsprechend kann der vorgenannte partielle Autokorrelationsloeffizient k und ein linearer Voraussagekoeffizient o< aus dem Autokorrelationskoeffizienten <? berechnet werden.
Es ist ebenfalls bekannt, daß die Einschätzung der Ähnlichkeit von Spektren von Wellenformen, die durch den linearen Voraussagekoeffizienten °< oder den partiellen Autokorrelationskoeffizienten k ausgedrückt sind, aus dem Autokorrelationskoeffizienten P und dem linearen Voraussagekoeffizienten oi gewonnen wird.
Bei einer solchen Prozedur kann die Verarbeitung durch das Inversfilter auch in der folgenden Weise verwirklicht werden.
Für den Autokorrelationskoeffizienten Jz? über die gesamte Sprache N einer Sprachwellenform x^, die im Random-Access-Speicher 30 gespeichert ist, gilt nun die folgende Gleichung (1):
Ii-IP
f -
rf-IP (1)
0:8846/093-1
wobei IP die Ordnung des Inversfilters und tr die Ordnung des Autokorrelationskoeffizienten bezeichnet.
Aus dieser Gleichung berechnet sich der lineare Voraussagekoeffizient ex., der für das ganze Spektrum repräsentativ ist, aus der nach der in bekannter Weise erfolgenden gleichzeitigen Lösung linearer Gleichungen, die durch den folgenden Zusammenhang (2) gegeben sind:
10 15
S.
IP-1
0--- JIP+2
•f
h
I ·
I
j ι
I
I
Of
«2
(2)
20
Der inverse Spektralparameter Aj ist nach folgender Gleichung (3) definiert:
(3)
909846/0931
INSPECTS)
291908S
Andererseits wird, was den Fall anbelangt, wo immer M Äbtastproben (samples) (1 Satz) herausgeholt werden, während die Sprachwellenformen alle T Sekunden in den Speicher 30 geschoben werden, der Autokorrelationskoeffi~ zient dieses Teils betrachtet.
Sei K ρ ^. der Autokorrelationskoeffizient von M Abtastwellenformwerten, die im K-ten Zyklus (im folgenden "K-ter Satz") herausgeholt werden, dann wird dieser durch die folgende Gleichung (4) ähnlich dem Fall der vorstehenden Gesamtsprache wiedergegeben:
H- L?
IL xi:fr+i" 2KT+I* χ '' (4)
Kc i=1 ■
"".".T-r 1
■ ■ : i=1
In der aus den Gleichungen (4) und (3) gewonnenen folgenden Gleichung (5) ist Ky_ der Autokorrelationskoeffizient der Sprache des K-ten Satzes, der das Inversfilter mit der zum Spektrum der Gesamtsprache inversen Charakteristik durchlaufen hat:
Tp
ν v v ir
•>L - Λο ^ j1 J l~i ^J
09846/09.31
2919035
Ky dieser Gleichung (5) ist der Autokorrelationskoeffizient der Sprachwellenform, die das Inversfilter durchlaufen hat. Wenn das Spektrum des Inversfilters und das Spektrum der eingegebenen Sprachwellenform in vollkommener Weise in zueinander entgegengesetzten Polaritäten sind, wird das Spektrum der Ausgangswellenform des Inversfilters weiß (sprachfreier Schall) und der Autokorrelationskoeffizient K v zum Minimum. Das heißt, durch Anwendung ο
dieser Methode kann das Ausmaß von Koinzidenz zwischen 0 den Spektren zweier Sprachvvellenformen abgeschätzt bzw. berechnet werden. Die Methode der Berechnung wird nun konkreter erläutert.
Der Autokorrelationskoeffizient der ersten Sprache der beiden Sprachen wird mit K/(-|) und der Autokorrelationskoeffizient der zweiten Sprache mit K'yfo} bezeichnet (K der ersten Sprache und K der zweiten Sprache stimmen überein, wenn man sie in linearer Beziehung mit der Zeit berechnet, sie stimmen aber nicht überein bei der dynamischen Programmierungsanpassung (dynamic programming (DP) matching) etc., bei welcher eine nicht lineare Zeitbasis herangezogen wird. Ebenso werden die Koeffizienten des inversen Spektrums, die man daraus erhält mit K^(1) und K'a(2) bezeichnet. Dann wird die Ähnlichkeit d zwischen dem K-ten und dem K'-ten Satz der beiden Sprachen durch die folgende Gleichung (6) ausge-
drückt. IP . \
,K, (1) Κ·,» (2) y K (1) K' r (2)
j=i ■ ;
d = — ' — +
f j=1
I?
,>:», (2) κ j4 (D . ρ ^ -:
,κ. (D f (D ^9 r κ, (D Kj (1). 9 0 9 8 4 S / Ö913 1
2919035
Je kleiner der Wert von d ist, desto ähnlicher sind die Spektren der beiden Sprachen. Wenn die Spektren der beiden Sprachwellenformen vollkommen übereinstimmen, werden die betreffenden Nenner und Zähler des ersten und des zweiten Ausdrucks der Gleichung (6) einander gleich und d = 2. Im allgemeinen stimmen die beiden nicht überein, und in einem solchen Fall der Nichtübereinstimmung wird der Zähler größer als der Nenner und der Wert von d groß. Es versteht sich, daß im Falle der Anwendung der oben beschriebenen Prozedur das Inversfilter ohne weiteres in der Form des Autokorrelationskoeffizienten erhalten werden kann, ohne es in dem Wellenformbereich durchzuführen. In diesem Fall erhält man im Zuge der Verarbeitung einen linearen Voraussagekoeffizienten (auch "Regressionskoeffizient" ("regression coefficient") genannt) K- , welcher eine Art von linearem Voraussageparameter ist. Es ist selbstverständlich, daß der Wert des Koeffizienten Kcx. ausreichend stabil sein muß. Insbesondere gewinnt man das Resulatat, das man durch indirektes Durchlaufenlassen der Sprachwellenform durch das Inversfilter erhält, in Form des Autokorrelationskoeffizienten Ky , so daß der Einfluß der Stabilität des Koeffizienten groß ist.
K ν ist der Autokorrelationskoeffizient 0» Ordnung und stellt das Leistüngsspektrum der Ausgangswellenform des Inversfilters dar. Wenn daher der gewonnene lineare Voraussagekoeffizient K0, instabil ist, nimmt er einen negativen Wert an, was physikalisch unmöglich ist. Selbst in einem solchen Fall erhält man einen sehr stabilen Koeffizienten K0^ durch Durchführung obiger Verarbeitung, mit dem Ergebnis, daß man eine hervorragende Erkennung erzielt. Mit obiger Methode der Berechnung, welche die Voraussagefehlerkorrelation der Ausgangswellenform (Voraussagefehler-
909846/0931
2919035
welle), die dem Inversspektrumparameter unterworfen worden ist/ ausnützt, wird das Ausmaß der Koinzidenz des gesamten Spektrums abgeschätzt. Dies ist stabiler als die Abschätzung/ die auf der Synthese der Ausmaße von überein-Stimmung der partiellen Autokorrelationskoeffizienten, wie im Beispiel der Fig. 7, basiert. Der Grund dafür liegt darin, daß der Einfluß der Arbeitsgenauigkeit hinsichtlich der Auswertung der partiellen Autokorrelationskoeffizienten etc. in den einzelnen Koeffizienten erscheint, so daß, obwohl der Fehler insgesamt klein ist, in den einzelnen Koeffizienten in manchen Fällen große Fehler entstehen.
Bei Verwirklichung der vorstehenden Aufbereitung bzw. Verarbeitung mit der Vorrichtung der Fig. 8 werden die im Random-Access-Speicher 30 gespeicherten Sprachwellenformen für jeden Satz sequentiell herausgeholt und über den Datenbus 31 auf die Recheneinheit 32 gegeben. Auf einen Befehl der Steuereinheit 33 hin führt die Recheneinheit zusammen mit dem Multiplizierer 34 die folgenden Operationen durch. Zunächst wird entsprechend Gleichung (4) der Autokorrelationskoeffizient Ko berechnet. Unter Verwendung dieses Koeffizienten wird der lineare Voraussagekoeffizient K0^ gemäß Gleichung (2) berechnet. Nachfolgend wird unter Verwendung des linearen Voraussagekoeffizienten K(v der Inversspektrumparameter KA nach Gleichung (3) berechnet. Aus dem berechneten Parameter wird der Autokorrelationskoeffizient Kv- der Sprachwellenform, die das Inversfilter durchlaufen hat, nach Gleichung (5) berechnet. Ferner werden die im Standardparameterspeicher 36 gespeicherten Standardparameter K'^ und KV sequentiell ausgelesen. Unter Verwendung derselben und der in obiger Weise berechneten Werte K^ und Ky wird die Ähnlichkeit d nach Gleichung (6) ermittelt. Abhängig von der Größe der Ähnlichkeit wird die Spracherkennungsverarbeitung durchgeführt.
909846/0931
2919083
Die Wirkungen der oben beschriebenen Ausführungsform der Erfindung werden nun am Beispiel der Sprecheridentifikation, gerichtet auf Telefonsprache, ausgeführt.
In diesem Beispiel wurde die Abschätzung unter Verwendung von Sprachen durchgeführt, die über Ferngesprächsleitungen von zwei verschiedenen Fernämtern übertragen und an einem dritten Platz aufgezeichnet wurden. Wenn Sprechererkennung mit den Charakteristikparametern in Form der partiellen Autokorrelationskoeffizienten unter Verwendung der in Fig.
gezeigten Erkennungseinheit durchgeführt wurde, betrug der Sprecheridentifikationsprozentsatz (der Prozentsatz korrekter Antworten im Zeitpunkt, wenn die Entscheidung auf der Basis eines Entscheidungsschwellenwerts durchgeführt wird, der so eingestellt ist, daß der Anteil,.
zu dem die Sprache einer bestimmten Person als die einer anderen betrachtet und irrtümlich zurückgewiesen wird, gleich dem Anteil wird, zu dem die Sprache eines anderen irrtümlich als diejenige der bestimmten Person betrachtet und akzeptiert wird) ungefähr 65 Prozent nach dem bekannten Erkennungsverfahren gemäß Fig. 1, während sie auf 78 Prozent nach der erfindungsgemäßen Erkennung entsprechend Fig. 3 stieg.
Wenn die Voraussagefehlerkorrelation für die Identifikation unter Heranziehung der Erkennungseinheit der Fig.
verwendet wurde, betrug der Sprecheridentifikationsprozentsatz ungefähr 75 Prozent mit der bekannten Erkennung der Fig. 1, während ein Identifikationsprozentsatz von ungefähr 90 Prozent mit der Erkennung gemäß der Erfindung nach Fig. 3 erreicht wurde. In Anbetracht der Tatsache, daß der Identifikationsprozentsatz bei der Sprecheridentifikation wesentlich und grundlegend verschieden von demjenigen der phonetischen Erkennung ist, daß der Wert von
9098A6/0931
100 Prozent niemals garantiert ist und daß der Prozentsatz ungefähr 95 Prozent selbst unter idealen Bedingungen ohne Störungen und Schaltkreisverzerrungen ist, kann der oben genannte Identifikationsprozentsatz von 90 Prozent als epocheitiachend bezeichnet werden.
Die Erkennungseinheiten für die vorverarbeiteten Sprachwellenformen sind nicht auf die vorstehenden Beispiele beschränkt, es können natürlich die verschiedensten Erkennungseinrichtungen verwendet werden.
Es ist ebenfalls erlaubt, einen Mikrocomputer oder dergleichen anstelle des Fourier-Transformierers, der Bandauswahlschaltung und des inversen Fourier-Transformierers in Fig. 3 zu verwenden und die Operationen der Vorrichtungen mit einem Programm durchzuführen.
Ferner sind die Abtastfrequenz, das Telefonübertragungsband etc. nicht auf die oben angeführten Werte beschränkt, sondern können irgendwelche beliebige Werte annehmen.
Wie oben ausgeführt,kann gemäß der Erfindung die Stabilität des Inversfilters verbessert, die Qualitätsverschlechterung von Sprachinformation innerhalb des Übertragungsbands verhindert und der Einfluß von Störsignalen außerhalb des Übertragungsbands beseitigt werden, so daß die Spracherkennung mit ausreichend hoher Exaktheit durchgeführt werden kann.
Ki/fg
909846/0931
ee

Claims (6)

  1. P Λ T E N ΤΛ N W>' L.T E
    SCHIFF V. FÜNER STREHL SCHÜBEL-HOPF EBBINSHAUS FINCK
    MARIAHILFPLATZ 2 & 3, MÜNCHEN 9O POSTADRESSE: POSTFACH 95 O1 6O, D-8OOO MÖNCHEN 95
    HITACHI,LTD. 11. Mai 1979
    DEA-5901
    Vorverarbeitungsverfahren und -vorrichtung für
    eine Spracherkennungsvorrichtung
    PATENTANSPRÜCHE
    ζ 1y Vorverarbeitungsverfahren für eine Spracherkennungsvorrichtung mit einer Eingangseinrichtung zur Aufgabe eines Sprachsignals über ein übertragungssystem, welches ein bestimmtes Übertragungsband hat, einer Analysiereinrichtung für die Analyse des Eingangssprachsignals zur Lieferung eines spezifizierten Charakteristikparameters, einem Inversfilter, in welchem eine zu dem Charakteristikparameter inverse Charakteristik eingestellt wird und welches das Eingangssprachsignal
    S 008 4 θ/0931
    2919Q8S
    durchläßt, und einer Erkennungseinrichtung zur Erkennung des Sprachsignals, welches das Inversfilter durchlaufen hat, dadurch gekennzeichnet , daß das von der Eingangseinrichtung kommende Sprachsignal Fouriertransformiert wird, daß nur ein Frequenzspektrum innerhalb des Übertragungsbands aus dem dabei gewonnenen Frequenzspektrum herausgezogen wird, und daß das herausgezogene Frequenzspektrum einer inversen Fourier-Transformation unterworfen und das Ergebnis auf die Analysiereinrichtung gegeben wird.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß das von der Eingangseinrichtung erhaltene Sprachsignal in ein digitales Signal unter Ver-
    wendung von im wesentlichen 2n+1-mal (mit η einer positiven ganzen Zahl) der. Breite des Übertragungsbands des Übertragungssystems als Abtastfrequenz umgewandelt wird.
  3. 3. Verfahren nach Anspruch 1, dadurch g e k e η η zeichnet, daß ein partieller Autokorrelationskoeffizient als Charakteristikparameter verwendet wird.
  4. 4. Vorverarbeitungsvorrichtung für eine Spracherkennungsvorrichtung, gekennzeichnet durch eine Eingangseinrichtung zur Aufgabe eines Sprachsignals
    808846*0931
    ORIGINAL INSPECTED
    über ein übertragungssystem, welches ein bestimmtes Übertragungsband hat, eine erste Umwandlungseinrichtung, in welcher das von der Eingangseinrichtung gewonnene Sprachsignal einer Fourier-Transformation zur Gewinnung eines Frequenzspektrums unterworfen wird, eine Herauszieheinrichtung zur Auswahl und Herausziehung allein eines Frequenzspektrums innerhalb des Übertragungsbands aus dem durch die erste Umwandlungseinrichtung erhaltenen Frequenzspektrum, eine zweite Umwandlungseinrichtung, in welcher das durch die Herauszieheinrichtung herausgezogene Frequenzspektrum einer inversen Fourier-Transformation unterworfen wird, eine Analysiereinrichtung für die Analyse eines Ausgangssignals der zweiten Umwandlungseinrichtung zur Gewinnung eines spezifizierten Charakteri— stikparameters, und ein Inversfilter (5), in welchem eine zu dem durch die Analysiereinrichtung gewonnenen Charakteristikparameter inverse Charakteristik eingestellt ist und welches das Sprachsignal von der Eingangseinrichtung durchläßt, um so die Erkennung für das Sprachsignal nach Durchlaufen des Inversfilters durchzuführen.
  5. 5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet , daß die Eingangseinrichtung eine Filtereinrichtung (2) für eine Tiefpaßfilterung des Sprachsignals aus dem übertragungssystem und einen Analog-Digitalwandler (3), welcher das Ausgangssignal der Filtereinrichtung abtastet und in ein digitales Signal umwandelt, aufweist.
    291908S
  6. 6. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß die Analysiereinrichtung eine Einrichtung für die Analyse des Ausgangssignals der zweiten Umwandlungseinrichtung zur Berechnung eines partiellen Auto-5 korrelationskoeffizienten umfaßt.
DE2919085A 1978-05-12 1979-05-11 Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung Expired DE2919085C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP53055556A JPS5850360B2 (ja) 1978-05-12 1978-05-12 音声認識装置における前処理方法

Publications (2)

Publication Number Publication Date
DE2919085A1 true DE2919085A1 (de) 1979-11-15
DE2919085C2 DE2919085C2 (de) 1983-08-04

Family

ID=13001966

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2919085A Expired DE2919085C2 (de) 1978-05-12 1979-05-11 Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung

Country Status (4)

Country Link
US (1) US4283601A (de)
JP (1) JPS5850360B2 (de)
DE (1) DE2919085C2 (de)
GB (1) GB2022896B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4397006A (en) * 1980-12-31 1983-08-02 Mobil Oil Corporation Cross trace coherent noise filtering for seismograms
CA1171945A (en) * 1981-04-16 1984-07-31 Mitel Corporation Voice recognizing telephone call denial system
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
US4451700A (en) * 1982-08-27 1984-05-29 M. A. Kempner, Inc. Automatic audience survey system
US4991217A (en) * 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
US4790016A (en) * 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
JPS6458874A (en) * 1987-08-28 1989-03-06 Kitz Corp Ball valve
JPH01118900A (ja) * 1987-11-01 1989-05-11 Ricoh Co Ltd 雑音抑圧装置
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
IN184794B (de) * 1993-09-14 2000-09-30 British Telecomm
FR2722631B1 (fr) * 1994-07-13 1996-09-20 France Telecom Etablissement P Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
WO1998022936A1 (en) * 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
JP4279357B2 (ja) * 1997-04-16 2009-06-17 エマ ミックスト シグナル シー・ブイ 特に補聴器における雑音を低減する装置および方法
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
EP0945852A1 (de) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Sprachsynthese
US6912496B1 (en) * 1999-10-26 2005-06-28 Silicon Automation Systems Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
GB0023498D0 (en) * 2000-09-26 2000-11-08 Domain Dynamics Ltd Spectral reconfiguration permutation and mapping
DE10116358A1 (de) * 2001-04-02 2002-11-07 Micronas Gmbh Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen
US6751564B2 (en) 2002-05-28 2004-06-15 David I. Dunthorn Waveform analysis
WO2005034395A2 (en) * 2003-09-17 2005-04-14 Nielsen Media Research, Inc. Methods and apparatus to operate an audience metering device with voice commands
CN101371472B (zh) * 2005-12-12 2017-04-19 尼尔逊媒介研究股份有限公司 对声音/视觉装置进行无线计量的系统和方法
US9015740B2 (en) 2005-12-12 2015-04-21 The Nielsen Company (Us), Llc Systems and methods to wirelessly meter audio/visual devices
US9124769B2 (en) 2008-10-31 2015-09-01 The Nielsen Company (Us), Llc Methods and apparatus to verify presentation of media content

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
JPS5272504A (en) * 1975-12-15 1977-06-17 Fuji Xerox Co Ltd Device for recognizing word audio

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NICHTS-ERMITTELT *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem

Also Published As

Publication number Publication date
JPS5850360B2 (ja) 1983-11-10
DE2919085C2 (de) 1983-08-04
JPS54147708A (en) 1979-11-19
GB2022896B (en) 1982-09-08
US4283601A (en) 1981-08-11
GB2022896A (en) 1979-12-19

Similar Documents

Publication Publication Date Title
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE69520067T2 (de) Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales
DE68913139T2 (de) Störunterdrückung.
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69417445T2 (de) Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
DE3510660C2 (de)
DE69600728T2 (de) Vorrichtung und verfahren zur signalqualitätserfassung
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE69425808T2 (de) Vorrichtung zur Kompression und Expansion der Bandbreite eines Sprachsignals, Verfahren zur Übertragung eines komprimierten Sprachsignals sowie Verfahren zu dessen Wiedergabe
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE10030105A1 (de) Spracherkennungseinrichtung
EP0193143A2 (de) Verfahren zur Übertragung eines Audiosignals
DE4330243A1 (de) Sprachverarbeitungseinrichtung
DE2622423C3 (de) Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DD292791A5 (de) Verfahren zur uebertragung eines signals
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60014031T2 (de) Sprachererkennung durch korrelierung von spektrogrammen
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
EP0957471B1 (de) Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen
DE19961817B4 (de) Frequenzabweichung detektierendes Gerät und Frequenzabweichungs-Detektionsverfahren
EP0916206B1 (de) Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals
DE69904453T2 (de) Signalverarbeitungsverfahren zur analyse von sprachsignal-transienten

Legal Events

Date Code Title Description
OAP Request for examination filed
OD Request for examination
8128 New person/name/address of the agent

Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE

8181 Inventor (new situation)

Free format text: NAKAJIMA, AKIRA, HACHIOJI, TOKYO, JP ICHIKAWA, AKIRA, KOKUBUNJI, TOKYO, JP NAKATA, KAZUO, KODAIRA, TOKYO, JP

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee