DE2919085A1 - Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung - Google Patents
Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtungInfo
- Publication number
- DE2919085A1 DE2919085A1 DE19792919085 DE2919085A DE2919085A1 DE 2919085 A1 DE2919085 A1 DE 2919085A1 DE 19792919085 DE19792919085 DE 19792919085 DE 2919085 A DE2919085 A DE 2919085A DE 2919085 A1 DE2919085 A1 DE 2919085A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- inverse
- speech signal
- signal
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 22
- 238000007781 pre-processing Methods 0.000 title claims description 14
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims description 49
- 230000005540 biological transmission Effects 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 3
- 238000012545 processing Methods 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000220317 Rosa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
2919081
- 5 BESCHREIBUNG
Die Erfindung bezieht sich auf ein Vorverarbeitungsverfahren und eine Vorverarbeitungsvorrichtung für eine
Spracherkennungsvorrichtung* Sie richtet sich im einzelnen auf ein solches Verfahren und eine solche Vorrichtung für
eine Spracherkennungsvorrichtung zur Erkennung von Sprache, die über ein Übertragungssystem wie beispielsweise ein
Telefonnetz empfangen wird. Bei einem Informationsdienst-System, welches ein ein Computersystern enthaltendes
Informationszentrum mit einem Telefonnetz verbindet, wird die Sprache einer Tonantworteinheit (audio response
unit, ARU) als das Ausgangssignal des Informationsζentrums
verwendet, während ein Tastschaltersignal oder direkt eine Stimme eines Sprechers als Eingabe auf das
Telefonnetz verwendet wird. Die durch den Spreeher eingegebene
Sprache wird über das Telefonnetz an das Informationszentrum übertragen. Im Informationsζentrum wird
eine Spracherkennung durchgeführt, indem die Ähnlichkeiten
zwischen der eingegebenen Sprache und einem Standard-Sprachsignal untersucht werden.
Die eingegebene Sprache, die auf diese Weise das Netz durchlaufen hat, ist unter dem Einfluß der Übertragungscharakteristik
des Übertragungssystems verzerrt. Darüber
hinaus ist die Verzerrungscharakteristik nicht gleichförmig, sondern hängt gewöhnlich vom Leitweg ab. Dementsprechend
werden in der Spracherkennungsvorrichtung Sprachen verglichen, die über Schaltkreise mit unterschiedlicher Verzerrungscharakteristik
ankommen. Es ist daher notwendig, den Einfluß der Verzerrung zu beseitigen oder durch Normierung etc. zu
vermindern.
809146*0931
291908S
Ein Verfahren zur Korrektur der schaltungsabhängigen Verzerrung des Spektrums der eingegebenen Sprache ist in
der US-Patentanmeldung Serial No. 880 951 beschrieben.
Dieses Verfahren besteht darin, daß ein bestimmter Ausschnitt der eingegebenen Sprache analysiert wird, um
eine Spektralinformation in diesem Abschnitt herauszuziehen, daß ein Inversfilter, welches eine zum Spektrum
umgekehrte Charakteristik hat, aufgebaut wird, und daß die eingegebene Sprache durch das Inversfilter geführt
wird, um den Einfluß der übertragungscharakteristik auf die eingegebene Sprache zu beseitigen. Bei diesem früheren
Verfahren wird jedoch das Inversfilter sehr astabil und folgt in nur geringem Maße der Charakteristik innerhalb eines
Sprachübertragungsbandes. Ein weiterer Nachteil besteht darin, daß es auf Störungen außerhalb des Sprachübertragungsbandes
anfällig ist.
Aufgabe der Erfindung ist es, ein Vorbearbeitungsverfahren und eine Vorbearbeitungsvorrichtung für eine Spracherkennungsvorrichtung
zu schaffen, bei welcher die Stabilität eines Inversfilters verbessert, ein Qualitätsverlust
der Sprachinformation innerhalb eines Übertragungsbandes verhindert und der Einfluß von Störsignalen außerhalb des
Übertragungsbandes beseitigt ist.
Zur Lösung dieser Aufgabe wird Sprache, welche über ein übertragungssystem empfangen, abgetastet und dann digitalisiert
worden ist, zur Gewinnung eines Frequenzspektrums Fourier-transformiert; im Spektrum werden nur eine Komponente
innerhalb eines Bandes des Übertragungssystems und eine gefaltete Komponente, zurückgehend auf die Abtastung, als kontinuierliches Frequenzband,
beginnend bei 0 kHz, herausgegriffen; unter Verwendung
dieses Frequenzbandes als neues Spektrum wird eine inverse Fourier-Transformation durchgeführt; das Transformationsresultat
wird als Charakteristik eines Inversfilters verwendet.
f093*
Eine Ausführungsform der Erfindung wird im folgenden
in Verbindung mit der beigefügten Zeichnung beschrieben. Auf dieser ist bzw. sind
Fig. 1 ein Blockschaltbild einer bekannten Spracherkennungsvorrichtung,
Fign. 2(a)Kurven, die Spektren und Charakteristiken ver-
iS tg) schiedener Teile aus Fig. 1 zeigen,
10
Fig. 3 ein Blockschaltbild einer Ausführungsform einer
Spracherkennungsvorrichtung, welche ein Vorverarbeitungsverfahren gemäß der Erfindung verwirklicht,
15
15
Fign. 4(a)Kurven, die Spektren und Charakteristiken von
bis 4(c)
v ' Teilen aus Fig. 3 zeigen,
Fig. 5 ein Blockschaltbild, welches ein Beispiel eines konkreten Aufbaus des Teils in Fig. 3 zeigt,
der die Vorverarbeitungsvorrichtung darstellt,
Fig. 6 ein Blockschaltbild, welches ein Beispiel für den konkreten Aufbau eines Teils in Fig. 5 zeigt, und
25
Fign. 7 Blockschaltbilder, von denen jedes ein Beispiel un für den konkreten Aufbau einer Erkennungseinheit
in Fig. 3 darstellt.
Fig. 1 zeigt den Aufbau einer Spracherkennungsvorrichtung zur Realisierung eines bekannten Vorverarbeitungsverfahrens,
während die Fign. 2 (a) bis 2 (g) spektrale und tibertragungscharakteristiken von verschiedenen Teilen aus
2919081
Fig. 1 zeigen.
Gemäß Fig. 1 durchläuft Sprache SP eine Telefonleitung 1 mit einer bestimmten übertragungscharakteristik,
danach ein Tiefpaßfilter 2 zur Verhinderung von auf ein Abtasten zurückgehenden gefalteten StörSignalen. Sie wird
mit einer bestimmten Frequenz abgetastet und durch einen Analog-Digitalwandler (im folgenden als "AD-Wandler" abgekürzt)
3 in digitales Signal umgewandelt. Ein Charakteristikparameter innerhalb bestimmter Grenzen bzw. eines
bestimmten Abschnitts wird aus der digitalisierten Sprache in einer Analysiereinheit 4 gewonnen und auf ein Inversfilter
5 gegeben. Indem man die eingegebene Sprache durch das Inversfilter 5 schickt, wird Sprache mit darin
beseitigten durch die Charakteristik der Telefonleitung 1 5 bedingten Unstimmigkeiten auf die Erkennungseinheit 6 gegeben.
Erkennungseinheit 6 geschieht die Spracherkennung durch Vergleich der so gewonnenen Sprache mit einer Standardsprache
und Auswertung der Ähnlichkeiten zwischen diesen. Fig. 2(a) zeigt schematisch das mittlere Spektrum der
Sprache, bevor sie durch die Telefonleitung 1 geschickt wird, während Fig. 2(b) die übertragungscharakteristik
der Telefonleitung 1 wiedergibt. Wie aus Fig. 2(b) ersichtlich, hat die übertragungscharakteristik der Telefonleitung
1 eine Bandbreite von 0,3 kHz bis 3,4 kHz. Daher zeigt das mittlere Spektrum der Sprache nach dem Durchlaufen
der Telefonleitung 1 eine Bandbegrenzung mit abruptem Verlauf, wie in Fig. 2(c) dargestellt, wobei Störsignale
außerhalb des Bandes enthalten sind.
Wenn für das Tiefpaßfilter 2 zur Verhinderung gefalteter
Störsignale infolge des Abtastens eine sehr abrupte Abschneidcharakteristik gewählt wird, kommt es zu einer
Beeinträchtigung nachfolgender Verarbeitungsschritte. Aus diesem Grund wird üblicherweise ein Filter verwendet, wel-
909*46*0931
ches/ wie in Fig. 2(d) gezeigt, bei einer Frequenz zu
dämpfen beginnt, die etwas unter den 3,4 kHz liegt, die die Obergrenze des TeIefönÜbertragungsbandes darstellen,
und die Abschneidfrequenz fc bei 4 bis 5 kHz (beispielsweise
4,2 kHz) hat. Durch ein solches Tiefpaßfilter 2 werden Störkomponenten bei und oberhalb der Abschneidfrequenz
fc weitgehend entfernt. Es geht jedoch auch Information
im Sprachband, welche nicht höher als 3,4 kHz ist, in gewissem Maße verloren, was zu dem Problem führt,
daß ein Qualitätsverlust der Information auftritt.
Im AD-Wandler 3 geschieht das Abtasten üblicherweise
bei einer Abtastfrequenz von 8 bis 10 kHz. Daher hat, wie
in Fig. 2(e) gezeigt, das mittlere Leistungsspektrum des mit dem AD-Wandler 3 gewonnenen digitalen Signals Liniensymmetrie
mit der Mitte bei einer Frequenz f s, die gleich der halben' Abtastfrequenz ist, und erstreckt sich bis zur
Abtastfrequenz. Diese Ausgabe des AD-Wandlers 3 wird in
der Analysiereinheit 4 einer Spektralanalyse unterworfen und die zum analysierten Spektrum inverse Charakteristik
im Inversfilter 5 eingestellt. Damit nimmt die Durchlaßcharakteristik des Inversfilters 5 die in Fig. 2(f) gezeigte
Form an.
In einem Fall, wo auf diese Weise Sprache mit dem in Fig. 2(e) gezeigten
Spektrums durch die Analysiereinheit 4 analysiert und die Charakteristik des Inversfilters 5 entsprechend dem
Ergebnis eingestellt wird, fällt das in Fig. 2(e) gezeigte
Spektrum an der Ober- und üntergrenze des Bandes der Telefonleitung
abrupt ab, und diese abrupten Verläufe sind in dem durch die Analysiereinheit 4 zu analysierenden Band enthalten,
d.h., innerhalb Frequenzen 0 - fs. Infolgedessen besteht
bei dem Inversfilter, in welchem die zum Spektrum des
Analysierergebnisses inverse Charakteristik eingestellt ist, die Gefahr, daß es an Abschnitten, welche den abrupten Ver-
laufen des Obergrenz- und Untergrenzabschnitts des Telefonübertragungsbands
folgen, astabil wird. Ein weiteres Problem ist, daß auch die Verfolgung der Charakteristik innerhalb
des Telefonübertragungsbandes schlechter wird. Obwohl, wie in Fig. 2(g) dargestellt, bei dem mittleren
Sprachspektrum, das das Inversfilter durchlaufen hat, der Einfluß der Telefonleitung normiert ist und das
Spektrum innerhalb des Bands flach wird, enthält es auf große Werte verstärkte Störkomponenten außerhalb des
Bands. Dies liegt daran, daß ein kleiner Teil des Spektrums der eingegebenen Sprache im Inversfilter umgekehrt betont
wird.
Nun zu einer Ausführungsform der Erfindung.
Der Ausdruck "Spracherkennung" ist hier der allgemeine Ausdruck für die Erkennung, Messung etc. von Sprachwellenform-Information,
wie Worterkennung, Sprechererkennung und SprecherIdentifikation.
Fig. 3 zeigt eine Ausführungsform einer Spracherkennung svorrichtung zur Verwirklichung eines Vorverarbeitungsverfahrens
gemäß der Erfindung, während die Fign. 4(a) bis 4{c) Spektren und Charakteristika zur Erläuterung von
Wirkungsweisen von Teilen in Fig. 3 sind.
In Fig. 3 bezeichnet 7 einen schnellen Fourier-Transformierer, 8 eine Bandbereichsauswahlschaltung, und 9 einen
schnellen inversen Fourier-Transformierer.
Wie in Fig. 4(a) dargestellt, ist die Abschneidfrequenz
fc des Tiefpaßfilters 2 ausreichend hoch dafür eingestellt,
daß Sprache, die nicht höher als die Obergrenze von 3,4 kHz des Telefonübertragungsbands ist, nicht beeinträchtigt wird, und
so, daß sie niedriger als die Frequenz fs ist, die gleich
der Hälfte der Abtastfrequenz ist. Dementsprechend muß die Frequenz fs höher als die die Obergrenze des Telefonübertragungsbandes
bildenden 3,4 kHz sein.
908S46J0931
291908S
Bei einem solchen Aufbau durchläuft, über die Telefonleitung 1, die die in Fig. 2(b) gezeigte Charakteristik aufweist,
die Sprache SP das Tiefpaßfilter 2, das die in Fig. 4(a) gezeigte Dämpfungscharakteristik aufweist, bei welcher
der Abfall bei einer über der Obergrenze des Telefonübertragungsbands
liegenden Frequenz beginnt und die Abschneidfrequenz fc ausreichend hoch ist, wonach sie auf den AD-Wandler
3 gegeben wird. Dann wird sie mit der in obiger Weise festgesetzten Abtastfrequenz abgetastet und in ein Digitalsignal
bestimmter Bits umgewandelt.
Was die umgewandelte Ausgabe anbelangt, so wird die gesamte zu analysierende Sprache durch den schnellen Fourier-Trans
formier er 7 kollektiv Fourier-transformiert, wobei sich
eine Spektralcharakteristik ergibt, wie sie in Fig. 4(b) gezeigt ist. In der Bandbereichsauswahlschaltung 8 wird/werden
nur ein Band, in welchem die Sprache vorliegt, d.h., das Telefonübertragungsband von 0,3 bis 3,4 kHz, und das Band
der auf das Abtasten zurückgehenden gefalteten Komponente aus dem in Fig. 4(b) gezeigten Spektrum herausgegriffen.
Man erhält also ein Spektrum, in welchem die Bänder von
0 Hz an neu angeordnet sind, wie dies in Fig. 4(c) gezeigt ist.
Es ist dabei hinsichtlich des schnellen Fourier-Transformierers 7 zweckmäßig, daß er Sprachdaten von Potenzen
von "2" transformiert. Wenn daher die einzugebenden Sprachdaten nicht Potenzen von "2" sind, ist es günstig,""0"
hinter den Daten einzusetzen und die gesamten Daten in Potenzen
von "2" zu bringen. Es ist ferner zweckmäßig, daß die Zahl von Daten des inversen Fourier-Transformierers 9
eine von Potenzen von "2" ist. Beispielsweise wird, wie aus Fig. 4(c) ersichtlich, die äquivalente Abtastfrequenz
des ausgewählten Spektrums bzw. 2 χ fs' 6,2 kHz, was
das Doppelte der Telefonübertragungsbandbreite von
909846 ^0931
291908S
3,1 kHz (= 3,4 kHz - 0,3 kHz, ist. Wenn daher 12,4 kHz, was doppelt so hoch ist, zur Abtastfrequenz 2-fs des AD-Wandlers
3 gemacht wird, wird die Frequenz fs, die gleich der Hälfte
davon ist, 6,2 kHz. Dies erfüllt auch die Bedingung, daß die Frequenz fs höher als die Obergrenze von 3,4 kHz des
Telefonübertragungsbands ist. Wenn die Zahl von Daten des Spektrums, die bis hinauf zur Frequenz 2-fs' repräsentieren,
ein Wert einer Potenz von "2" ist, wird dementsprechend auch die Zahl von Daten des Spektrums, die bis hinauf zur
Frequenz 2*fs repräsentieren, nach der Beziehung 2 fs = 2 (2fs
eine Potenz von "2" und dies ist günstig.
Üblicherweise ist der Abtastwert der Sprachwellenform
mehrere 100 oder mehr. Indem man den Wert so auswählt, daß er eine Potenz von "2" ist, werden daher 2 fs' und 2 fs
automatisch Potenzen von "2".
In obigem Beispiel wurde 2 fs auf das Doppelte von 2 fs"
eingestellt, sie kann jedoch allgemein auf 2n-mal (n ^ 2) von
2 fs" eingestellt werden. In diesem Fall wird jedoch die Abtastfrequenz
hoch und die notwendige Kapazität des Datenspeichers nimmt in diesem Maße zu. Wenn man auch berücksichtigt,
daß die Verarbeitungsmenge für den schnellen Fourier-Transformierer zunimmt, so ist das Einstellen auf den doppelten
Wert, der das erforderliche Minimum darstellt, wünschenswert. Das heißt, wenn das Telefonübertragungsband von einer Frequenz
f-] zu einer Frequenz f2 reicht, ist es günstig, η
(η = 1, 2 ...) so auszuwählen, daß die Beziehung (f2 - f-])-2n+1
> f2-2 erfüllt ist, und das Abtasten bei
(f2 - fi)-2n+1 durchzuführen.
Wie aus einem Vergleich der Fign. 4(c) und 4(b) einsichtig,
enthält das Frequenzspektrum (Fig. 4 (c)) , welches
auf den inversen Fourier-Transformierer 9 gegeben wird, überhaupt
keine Komponente außerhalb des Sprachbandes. Daher sind die abrupten Charakteristiken des Bandabschneidens und
909946*0931
291908S
die Störungskomponenten außerhalb des Bandes in dem durch die Analysiereinheit 4 zu analysierenden Band, d.h., in
0 - fs', nicht vorhanden. Infolgedessen sind die abrupten
Charakteristiken, welche Faktoren der Instabilität darstellen, für das Inversfilter 5 nicht erforderlich, so daß sich ein
Inversfilter realisieren läßt, welches stabil ist und der
übertragungscharakteristik innerhalb des Bandes gut folgt.
Gleichzeitig damit ist auch die Sprachinformation innerhalb des Bandes qualitativ nicht verschlechtert und Störgeräusche
0 außerhalb des Bandes können vollkommen entfernt werden.
Wie oben angegeben, kann die halbe Frequenz fs der Abtastfrequenz
auf einen hohen Wert, beispielsweise 6,2 kHz, eingestellt werden. Daher kann die Dämpfungscharakteristik
des Tiefpaßfilters 2 so eingestellt werden, daß sie bei
einem über der Obergrenze von 3,4 kHz des Telefonübertragungsbandes
liegenden Wert ansteigt, so daß die Sprachinformation innerhalb des Bandes in diesem Teil nicht qualitätsverschlechtert
wird.
Ferner wird die äquivalente Abtastfrequenz 2-fs' der
auf das Inversfilter zu gebenden umgewandelten Wellenform 6,2 kHz, was ein sehr niedriger Wert verglichen mit der Abtastfrequenz
von 8 bis 10 kHz des Standes der Technik ist.
Daher sind die in der Analysiereinheit 4, dem Inversfilter
und der Erkennungseinheit 6 zu verarbeitenden Mengen vermindert, wodurch die Verarbeitungsgeschwindigkeiten in diesem
Maße erhöht sind. Selbst wenn man in Rechnung stellt, daß die Verarbeitungsvorgänge im schnellen Fourier-Transformierer
7, der Bandbereichsauswahlschaltung 8 und dem inversen
Fourier- Transformierer 9 zunehmen, ergibt die Erfindung gegenüber
dem Stand der Technik insgesamt eine Verbesserung.
Fig. 5 zeigt den Aufbau einer Ausführungsform des Vorverarbeitungsteils
der Vorrichtung der Fig. 3. Dieser Teil entspricht dem schnellen Fourier-Transformierer 7, der Band-
909846/09 31
auswahlschaltung 8/ dem inversen Fourier-Transformierer 9,
der Analysiereinheit 4 und dem Inversfilter 5 in Fig. 3.
In Fig. 5 bezeichnen 11 bis 15 Register, 16 einen
Fourier-Transformierer, 17 einen inversen Fourier-Transformierer/
18 eine Inversfilterkoeffizienten-Berechnungsschaltung,
19 ein Inversfilter und 20 ein Steuerglied.
Bei einem solchen Aufbau wird die digitale Sprachwellenform aus dem AD-Wandler 3 der Fig. 3 im Register 11
gespeichert. Die im Register 11 befindliche Sprachwellenform wird an den Fourier-Transformierer 16 gesandt, dort werden
Daten der Minimalzahl von Potenzen von "2", die nicht kleiner als die Zahl von Daten der Eingangs-Sprachwellenform
ist, Fourier-transformiert, und das Ergebnis an das
Register 12 gesandt. Dementsprechend wird die spektrale Information, wie sie in Fig. 4 (b) gezeigt ist, im Register
12 gespeichert. Durch ein Steuersignal des Steuerglieds
20 wird das Spektrum des Telefonübertragungsbands von 0,3 bis 3,4 kHz und das Band der gefalteten Komponente
innerhalb des Registers 12 herausgeholt und das Spektrum in dem Zustand, in welchem die Bänder in der in Fig. 4
(c) gezeigten Weise zusammengedrängt sind, im Register 13 gespeichert. Nachfolgend werden im inversen Fourier-Transformierer
17 inverse Fourier-Transformationen in einer Anzahl,
die gleich der halben Anzahl von im Fourier-Transformierer 16 durchgeführten Fourier-Transformationen ist,
ausgeführt und die Ergebnisse an das Register 14 gesandt. Auf ein Steuersignal der Steuereinheit 20 hin, werden durch
Schieben um feste Intervalle bestimmte Längen von Sprachdaten sequentiell aus dem Register 14 herausgeholt und zur
Bestimmung eines bestimmten Parameters, beispielsweise des partiellen Autokorrelationskoeffizienten, einer Spektralanalyse
unterworfen. Der Koeffizient wird an das Invers-
■291908.S
filter 19 gesandt, um dessen Charakteristik einzustellen.
Ferner werden auf ein entsprechendes Steuersignal des Steuerglieds 20 hin die im Register 14 befindlichen Sprachdaten
sequentiell durch das Inversfilter 19 geschickt und einer inversen Filterung unterworfen, deren Ergebnis im
Register 15 gespeichert wird.
Fig. 6 zeigt ein Beispiel des konkreten Aufbaus eines Teils der Schaltung der Fig. 5, d.h. der Berechnungsschaltung 18 für den Inversfilterkoeffizienten und des
Inversfilters19. In dem Beispiel wird der partielle Autokorrelationskoeffizient
unter Ausnutzung der PARCOR-Analysiertechnik, die bekannt ist (beschrieben beispielsweise
in der japanischen Patentanmeldung mit Publikationsnummer 18007/74), berechnet und die Charakteristik des Inversfilters
mit dem Koeffizienten eingestellt.
In Fig. 6 bezeichnen 100 und 200 Eingangsanschlüsse,
101 bis 103 und 201 bis 203 Verzögerungsschaltungen, 111
und 112 Korrelatoren, 121, 122, 131, 132, 221, 231, und 232, Multiplizierer, 141 bis 149, 151 bis 159, 241 bis 249 und
251 bis 259 Addierer, 160 ein Schieberegister und 170 eine Mittelwertberechnungsschaltung.
Die Schaltung der Fig. 6 erhält die zu analysierende Sprache am Anschluß 100. Das ankommende Signal wird in zwei
Teile aufgespalten, von denen der eine auf die Verzögerungsschaltung 101 gegeben wird. Der andere Signalteil wird
nochmals in drei Teile aufgespalten, die an den Korrelator
111, den Multiplizierer 131 und den Addierer 151 gehen. Das durch die Verzögerungsschaltung 101 verzögerte Signal
wird in drei Teile aufgespalten, die an den Korrelator 111,
den Multiplizierer 121 und den Addierer 141 gehen. Bei dem Korrelator 111 handelt es sich um eine bekannte Vorrichtung,
welche die Funktion hat, die Korrelation zwischen den beiden Eingangssignalen zu berechnen. Das Ausgangs-
984 6/0931
signal dieser Vorrichtung wird als partieller Autokorrelationskoeffizient
erster Ordnung 181 (PARCO-Koeffizient) vorgesehen und außerdem als das eine Eingangssignal sowohl
für den Multiplizierer 121 als auch für den Multiplizierer 131 verwendet.
Der partielle Autokorrelationskoeffizient 181 wird im Schieberegister 160 gespeichert. Die Ausgangssignale
der Multiplizierer 121 und 131 sind Vorwärts- und Rückwärts-Voraus sage werte erster Ordnung. Diese werden auf den Addierer
bzw. 141 gegeben, um ihre Differenzen bezüglich des Eingangssignals am Eingangsanschluß 100 und des Ausgangssignals
der Verzögerungsschaltung 101 zu gewinnen. Als Ergebnis erhält man Vorwärts- und Rückwärtsvoraussagesignaldifferenzen
erster Ordnung, die Eingangssignale des !Correlators 112 und der Verzögerungsschaltung 102 werden. Danach werden
in der gleichen Weise partielle Autokorrelationskoeffizienten
182 bis 189 der zweiten bis neunten Ordnung und ein Vorwärtsvoraussagefehler neunter Ordnung analysiert
und herausgezogen. Da die Sprachdaten in Abtastintervallen aufeinanderfolgend auf den Anschluß 100 gelangen, werden
die partiellen Autokorrelationskoeffizienten 181 bis 189 zu jedem Zeitpunkt berechnet und im Schieberegister 160
gespeichert. Wenn die Zeitdauer des RegisterSchiebens des
Schieberegisters 160 vorweg gleich dem Abtastintervall gemacht wird, sind die partiellen Autokorrelationskoeffizienten
der gesamten Sprache im Schieberegister 160 an den entsprechenden Ordnungen im Zeitpunkt der Beendigung
der gesamten Sprache gespeichert. Die Mittelwertberechnungsschaltung 170 bildet die Mittel der partiellen Autokorrelationskoeffizienten
der entsprechenden Ordnungen nach Beendigung der Analyse der gesamten Sprache. Die
Mittelwerte werden im Inversfilter als die partiellen Autokorrelationskoeffizienten der einzelnen Ordnungen
909846/0931 ORIGINAL INSPECTS*
eingestellt und beibehalten, während der Inversfilterungsyorgang
durchgeführt wird.
Das Inversfilter hat den gleichen Aufbau wie dasjenige
eines Spektrumanalysierteils, d.h., des PARCQR-Analysierfilters
in der Inversfilterkoeffizienten-Berechnungsschaltung,und
unterscheidet sich nur darin, daß die im Spektrumanalysicrtc.il
berechneten partiellen Autokorrclationskoeffizienten
vorweg eingestellt werden. Es wird zu einem Filter, welches die inverse Charakteristik zum gesamten
Mittelungsspektrum der analysierten Sprache hat. Im Register
14 vorhandene Sprachdaten, wie sie über den Eingangsanschluß 200 erhalten werden, werden durch obiges
Inversfilter gefiltert.
Fig. 7 zeigt ein Beispiel für den konkreten Aufbau
der Erkennungseinheit 6 der Fig. 3. 15 bezeichnet ein Register, das demjenigen mit dem gleichen Bezugszeichen in
Fig. 5 entspricht, 21 ein Pufferregister, 22 eine Parameterextrahierschaltung, 23 ein Parameterregister, 24 einen
Standardparameterspeicher, 25 eine Abstandsberechnungsschaltung,
26 ein Abstandsregister, 27 eine Minimalwertberechnungsschal tung, und 28 eins Steuereinheit.
Bei einem solchen Aufbau werden die Sprachdaten nach
Durchlaufen des Inversfilters im Register 15 gespeichert. Auf ein Steuersignal der Steuereinheit 28 hin werden feste
Längen von Sprachdaten sequentiell in festen Abständen herausgeholt und über das Pufferregister 21 auf die
Parameterextrahierschaltung 22 gegeben. Diese Parameterextrahierschaltung
22 zieht einen für die Erkennung notwendigen Parameter heraus. Beispielsweise kann eine Analysiereinheit,
wie sie in der vorgenannten japanischen Patentanmeldung, Publikationsnummer 18007/74 beschrieben
wurde, verwendet werden, wobei der partielle Autokorrelationskoeffizient
als Parameter herausgezogen wird. Er wird
909846/0931
2919081
auf das Parameterregister 2Γ gegeben.
Andererseits werden vorher berechnete und registrierte • Parametersätze (im Falle der Worterkennung Parameterzeitfolgen
entsprechender Wörter und im Falle der Sprechererkennung Parameterzeitfolgen entsprechender Sprecher) im
Standardparameterspeicher 24 gespeichert. Auf ein Steuersignal der Steuereinheit 28 hin werden die gespeicherten
Inhalte aufeinanderfolgend herausgeholt und auf die Abstandsberechnungsschaltung
25 gegeben. In der Abstandsberechnungsschaltung 25 werden die vom Parameterregister 23
gelieferten Charakteristikparameter und die vom Standardparameterspeicher 24 gelieferten Standardparameter miteinander
verglichen und die Ähnlichkeit zwischen ihnen, d.h. der Abstand, berechnet. Das Resultat wird an das
Abstandsregister 26 gesandt. Als Abstandsberechnungsschaltung 25 kann beispielsweise eine in der japanischen Patentanmeldung,
Publikationsnummer 30242/72, beschriebene Technik verwendet werden. Wenn die Abstände von allen
Standardparametern berechnet sind, werden alle im Ab-Standsregister 26 vorhandenen Abstände auf ein Signal
der Steuereinheit 28 hin zur Gewinnung des Minimalwerts der Abstände an die Minimalwertberechnungsschaltung 27 gesandt.
Eine für den Standardparameter repräsentative Kategorie bzw. Gruppe, die den Minimalwert angibt, wird als Ausgangssignal
geliefert. Die Steuereinheiten 20 und 28 in den Fign. 5 und 7 können unter Verwendung bekannter
Zuordner etc. aufgebaut sein.
Fig. 8 zeigt ein weiteres Beispiel eines konkreten Aufbaus für die Erkennungseinheit 6 der Fig. 3. In diesem
Beispiel wird ein Mikrocomputer verwendet.
In Fig. 8 bezeichnet 30 einen Random-Access-Speicher, in welchem die von der VorverarboitungsVorrichtung kommenden
Sprachdaten gespeichert werden, 31 einen Datenbus,
808846/0931
32 eine Recheneinheit, 33 eine Steuereinheit, welche aus einem Zuordner, einem Mikrobefehlsspeicher oder dergleichen
besteht, 34 einen Multiplizierer, 35 eine Resultatanzeigeschaltung
und 36 einen Parameterspeicher für Standardsprachen.
Im folgenden wird ein Erkennungsverarbeitungsverfahren,
welches mit dem Mikrocomputer eines solchen Äufbaus durchgeführt
wird, beschrieben.
Es ist bekannt, daß bei Analysierung von Sprachen mit der vorgenannten PARCOR-Technik und Einschätzung der
Ähnlichkeit zwischen den Sprachen verschiedene Arten von Parametern aus den Autokorrelationskoeffizienten von Wellenformen
gewonnen werden. Dementsprechend kann der vorgenannte partielle Autokorrelationsloeffizient k und ein linearer
Voraussagekoeffizient o< aus dem Autokorrelationskoeffizienten
<? berechnet werden.
Es ist ebenfalls bekannt, daß die Einschätzung der Ähnlichkeit von Spektren von Wellenformen, die durch den linearen
Voraussagekoeffizienten °<
oder den partiellen Autokorrelationskoeffizienten
k ausgedrückt sind, aus dem Autokorrelationskoeffizienten
P und dem linearen Voraussagekoeffizienten oi gewonnen wird.
Bei einer solchen Prozedur kann die Verarbeitung durch das Inversfilter auch in der folgenden Weise verwirklicht
werden.
Für den Autokorrelationskoeffizienten Jz? über die gesamte
Sprache N einer Sprachwellenform x^, die im Random-Access-Speicher
30 gespeichert ist, gilt nun die folgende Gleichung (1):
Ii-IP
f -
rf-IP (1)
0:8846/093-1
wobei IP die Ordnung des Inversfilters und tr die Ordnung
des Autokorrelationskoeffizienten bezeichnet.
Aus dieser Gleichung berechnet sich der lineare Voraussagekoeffizient ex., der für das ganze Spektrum
repräsentativ ist, aus der nach der in bekannter Weise erfolgenden gleichzeitigen Lösung linearer Gleichungen,
die durch den folgenden Zusammenhang (2) gegeben sind:
10 15
S.
IP-1
0--- JIP+2
•f
|
h
I · I |
j ι | |
| I | ||
| I | ||
| Of | ||
| «2 | ||
(2)
20
Der inverse Spektralparameter Aj ist nach folgender Gleichung (3) definiert:
(3)
909846/0931
INSPECTS)
291908S
Andererseits wird, was den Fall anbelangt, wo immer M Äbtastproben (samples) (1 Satz) herausgeholt werden,
während die Sprachwellenformen alle T Sekunden in den Speicher 30 geschoben werden, der Autokorrelationskoeffi~
zient dieses Teils betrachtet.
Sei K ρ ^. der Autokorrelationskoeffizient von M Abtastwellenformwerten,
die im K-ten Zyklus (im folgenden "K-ter Satz") herausgeholt werden, dann wird dieser durch
die folgende Gleichung (4) ähnlich dem Fall der vorstehenden Gesamtsprache wiedergegeben:
H- L?
IL xi:fr+i" 2KT+I* χ '' (4)
Kc i=1 ■
"".".T-r 1
■ ■ : i=1
In der aus den Gleichungen (4) und (3) gewonnenen folgenden Gleichung (5) ist Ky_ der Autokorrelationskoeffizient
der Sprache des K-ten Satzes, der das Inversfilter mit der zum Spektrum der Gesamtsprache inversen
Charakteristik durchlaufen hat:
Tp
ν
v
v
ir
•>L - Λο ^ j1 J l~i
^J
09846/09.31
2919035
Ky dieser Gleichung (5) ist der Autokorrelationskoeffizient der Sprachwellenform, die das Inversfilter
durchlaufen hat. Wenn das Spektrum des Inversfilters und das Spektrum der eingegebenen Sprachwellenform in vollkommener
Weise in zueinander entgegengesetzten Polaritäten sind, wird das Spektrum der Ausgangswellenform des Inversfilters
weiß (sprachfreier Schall) und der Autokorrelationskoeffizient K v zum Minimum. Das heißt, durch Anwendung
ο
dieser Methode kann das Ausmaß von Koinzidenz zwischen 0 den Spektren zweier Sprachvvellenformen abgeschätzt bzw. berechnet
werden. Die Methode der Berechnung wird nun konkreter erläutert.
Der Autokorrelationskoeffizient der ersten Sprache der beiden Sprachen wird mit K/(-|) und der Autokorrelationskoeffizient
der zweiten Sprache mit K'yfo} bezeichnet
(K der ersten Sprache und K der zweiten Sprache stimmen überein, wenn man sie in linearer Beziehung mit
der Zeit berechnet, sie stimmen aber nicht überein bei der dynamischen Programmierungsanpassung (dynamic programming
(DP) matching) etc., bei welcher eine nicht lineare Zeitbasis herangezogen wird. Ebenso werden die
Koeffizienten des inversen Spektrums, die man daraus
erhält mit K^(1) und K'a(2) bezeichnet. Dann wird die
Ähnlichkeit d zwischen dem K-ten und dem K'-ten Satz der
beiden Sprachen durch die folgende Gleichung (6) ausge-
drückt. IP . \
,K, (1) Κ·,» (2) y K (1) K' r (2)
j=i ■ ;
d = — ' — +
f
j=1
I?
,>:», (2) κ j4 (D . ρ ^ -:'λ
,κ. (D f (D ^9 r κ, (D Kj (1).
9 0 9 8 4 S / Ö913 1
2919035
Je kleiner der Wert von d ist, desto ähnlicher sind die Spektren der beiden Sprachen. Wenn die Spektren der
beiden Sprachwellenformen vollkommen übereinstimmen, werden die betreffenden Nenner und Zähler des ersten und des
zweiten Ausdrucks der Gleichung (6) einander gleich und d = 2. Im allgemeinen stimmen die beiden nicht überein,
und in einem solchen Fall der Nichtübereinstimmung wird der Zähler größer als der Nenner und der Wert von d groß.
Es versteht sich, daß im Falle der Anwendung der oben beschriebenen Prozedur das Inversfilter ohne weiteres
in der Form des Autokorrelationskoeffizienten erhalten
werden kann, ohne es in dem Wellenformbereich durchzuführen.
In diesem Fall erhält man im Zuge der Verarbeitung einen linearen Voraussagekoeffizienten (auch "Regressionskoeffizient"
("regression coefficient") genannt) K- , welcher eine Art von linearem Voraussageparameter
ist. Es ist selbstverständlich, daß der Wert des Koeffizienten Kcx. ausreichend stabil sein muß. Insbesondere
gewinnt man das Resulatat, das man durch indirektes Durchlaufenlassen der Sprachwellenform durch das Inversfilter
erhält, in Form des Autokorrelationskoeffizienten Ky , so daß der Einfluß der Stabilität des Koeffizienten
groß ist.
K ν ist der Autokorrelationskoeffizient 0» Ordnung
und stellt das Leistüngsspektrum der Ausgangswellenform des Inversfilters dar. Wenn daher der gewonnene lineare
Voraussagekoeffizient K0, instabil ist, nimmt er einen
negativen Wert an, was physikalisch unmöglich ist. Selbst
in einem solchen Fall erhält man einen sehr stabilen Koeffizienten
K0^ durch Durchführung obiger Verarbeitung, mit dem
Ergebnis, daß man eine hervorragende Erkennung erzielt. Mit obiger Methode der Berechnung, welche die Voraussagefehlerkorrelation
der Ausgangswellenform (Voraussagefehler-
909846/0931
2919035
welle), die dem Inversspektrumparameter unterworfen worden
ist/ ausnützt, wird das Ausmaß der Koinzidenz des gesamten Spektrums abgeschätzt. Dies ist stabiler als die Abschätzung/
die auf der Synthese der Ausmaße von überein-Stimmung der partiellen Autokorrelationskoeffizienten, wie
im Beispiel der Fig. 7, basiert. Der Grund dafür liegt darin, daß der Einfluß der Arbeitsgenauigkeit hinsichtlich
der Auswertung der partiellen Autokorrelationskoeffizienten etc. in den einzelnen Koeffizienten erscheint, so daß, obwohl
der Fehler insgesamt klein ist, in den einzelnen Koeffizienten in manchen Fällen große Fehler entstehen.
Bei Verwirklichung der vorstehenden Aufbereitung bzw. Verarbeitung mit der Vorrichtung der Fig. 8 werden die
im Random-Access-Speicher 30 gespeicherten Sprachwellenformen für jeden Satz sequentiell herausgeholt und über
den Datenbus 31 auf die Recheneinheit 32 gegeben. Auf einen Befehl der Steuereinheit 33 hin führt die Recheneinheit
zusammen mit dem Multiplizierer 34 die folgenden Operationen durch. Zunächst wird entsprechend Gleichung (4)
der Autokorrelationskoeffizient Ko berechnet. Unter Verwendung
dieses Koeffizienten wird der lineare Voraussagekoeffizient K0^ gemäß Gleichung (2) berechnet. Nachfolgend
wird unter Verwendung des linearen Voraussagekoeffizienten K(v der Inversspektrumparameter KA nach Gleichung (3) berechnet.
Aus dem berechneten Parameter wird der Autokorrelationskoeffizient
Kv- der Sprachwellenform, die das Inversfilter
durchlaufen hat, nach Gleichung (5) berechnet. Ferner werden die im Standardparameterspeicher 36 gespeicherten
Standardparameter K'^ und KV sequentiell ausgelesen.
Unter Verwendung derselben und der in obiger Weise berechneten Werte K^ und Ky wird die Ähnlichkeit d nach
Gleichung (6) ermittelt. Abhängig von der Größe der Ähnlichkeit wird die Spracherkennungsverarbeitung durchgeführt.
909846/0931
2919083
Die Wirkungen der oben beschriebenen Ausführungsform
der Erfindung werden nun am Beispiel der Sprecheridentifikation, gerichtet auf Telefonsprache, ausgeführt.
In diesem Beispiel wurde die Abschätzung unter Verwendung von Sprachen durchgeführt, die über Ferngesprächsleitungen
von zwei verschiedenen Fernämtern übertragen und an einem dritten Platz aufgezeichnet wurden. Wenn Sprechererkennung
mit den Charakteristikparametern in Form der partiellen Autokorrelationskoeffizienten
unter Verwendung der in Fig.
gezeigten Erkennungseinheit durchgeführt wurde, betrug
der Sprecheridentifikationsprozentsatz (der Prozentsatz
korrekter Antworten im Zeitpunkt, wenn die Entscheidung auf der Basis eines Entscheidungsschwellenwerts durchgeführt
wird, der so eingestellt ist, daß der Anteil,.
zu dem die Sprache einer bestimmten Person als die einer anderen betrachtet und irrtümlich zurückgewiesen wird,
gleich dem Anteil wird, zu dem die Sprache eines anderen irrtümlich als diejenige der bestimmten Person betrachtet
und akzeptiert wird) ungefähr 65 Prozent nach dem bekannten Erkennungsverfahren gemäß Fig. 1, während sie auf
78 Prozent nach der erfindungsgemäßen Erkennung entsprechend Fig. 3 stieg.
Wenn die Voraussagefehlerkorrelation für die Identifikation unter Heranziehung der Erkennungseinheit der Fig.
verwendet wurde, betrug der Sprecheridentifikationsprozentsatz
ungefähr 75 Prozent mit der bekannten Erkennung der Fig. 1, während ein Identifikationsprozentsatz von
ungefähr 90 Prozent mit der Erkennung gemäß der Erfindung nach Fig. 3 erreicht wurde. In Anbetracht der Tatsache,
daß der Identifikationsprozentsatz bei der Sprecheridentifikation wesentlich und grundlegend verschieden von demjenigen
der phonetischen Erkennung ist, daß der Wert von
9098A6/0931
100 Prozent niemals garantiert ist und daß der Prozentsatz ungefähr 95 Prozent selbst unter idealen Bedingungen ohne
Störungen und Schaltkreisverzerrungen ist, kann der oben genannte Identifikationsprozentsatz von 90 Prozent als epocheitiachend
bezeichnet werden.
Die Erkennungseinheiten für die vorverarbeiteten Sprachwellenformen
sind nicht auf die vorstehenden Beispiele beschränkt, es können natürlich die verschiedensten Erkennungseinrichtungen
verwendet werden.
Es ist ebenfalls erlaubt, einen Mikrocomputer oder dergleichen anstelle des Fourier-Transformierers, der Bandauswahlschaltung
und des inversen Fourier-Transformierers in Fig. 3 zu verwenden und die Operationen der Vorrichtungen
mit einem Programm durchzuführen.
Ferner sind die Abtastfrequenz, das Telefonübertragungsband
etc. nicht auf die oben angeführten Werte beschränkt, sondern können irgendwelche beliebige Werte annehmen.
Wie oben ausgeführt,kann gemäß der Erfindung die Stabilität
des Inversfilters verbessert, die Qualitätsverschlechterung von Sprachinformation innerhalb des Übertragungsbands
verhindert und der Einfluß von Störsignalen außerhalb des Übertragungsbands beseitigt werden, so daß die Spracherkennung
mit ausreichend hoher Exaktheit durchgeführt werden kann.
Ki/fg
909846/0931
ee
Claims (6)
- P Λ T E N ΤΛ N W>' L.T ESCHIFF V. FÜNER STREHL SCHÜBEL-HOPF EBBINSHAUS FINCKMARIAHILFPLATZ 2 & 3, MÜNCHEN 9O POSTADRESSE: POSTFACH 95 O1 6O, D-8OOO MÖNCHEN 95HITACHI,LTD. 11. Mai 1979DEA-5901Vorverarbeitungsverfahren und -vorrichtung für
eine SpracherkennungsvorrichtungPATENTANSPRÜCHEζ 1y Vorverarbeitungsverfahren für eine Spracherkennungsvorrichtung mit einer Eingangseinrichtung zur Aufgabe eines Sprachsignals über ein übertragungssystem, welches ein bestimmtes Übertragungsband hat, einer Analysiereinrichtung für die Analyse des Eingangssprachsignals zur Lieferung eines spezifizierten Charakteristikparameters, einem Inversfilter, in welchem eine zu dem Charakteristikparameter inverse Charakteristik eingestellt wird und welches das EingangssprachsignalS 008 4 θ/09312919Q8Sdurchläßt, und einer Erkennungseinrichtung zur Erkennung des Sprachsignals, welches das Inversfilter durchlaufen hat, dadurch gekennzeichnet , daß das von der Eingangseinrichtung kommende Sprachsignal Fouriertransformiert wird, daß nur ein Frequenzspektrum innerhalb des Übertragungsbands aus dem dabei gewonnenen Frequenzspektrum herausgezogen wird, und daß das herausgezogene Frequenzspektrum einer inversen Fourier-Transformation unterworfen und das Ergebnis auf die Analysiereinrichtung gegeben wird. - 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß das von der Eingangseinrichtung erhaltene Sprachsignal in ein digitales Signal unter Ver-wendung von im wesentlichen 2n+1-mal (mit η einer positiven ganzen Zahl) der. Breite des Übertragungsbands des Übertragungssystems als Abtastfrequenz umgewandelt wird.
- 3. Verfahren nach Anspruch 1, dadurch g e k e η η zeichnet, daß ein partieller Autokorrelationskoeffizient als Charakteristikparameter verwendet wird.
- 4. Vorverarbeitungsvorrichtung für eine Spracherkennungsvorrichtung, gekennzeichnet durch eine Eingangseinrichtung zur Aufgabe eines Sprachsignals808846*0931ORIGINAL INSPECTEDüber ein übertragungssystem, welches ein bestimmtes Übertragungsband hat, eine erste Umwandlungseinrichtung, in welcher das von der Eingangseinrichtung gewonnene Sprachsignal einer Fourier-Transformation zur Gewinnung eines Frequenzspektrums unterworfen wird, eine Herauszieheinrichtung zur Auswahl und Herausziehung allein eines Frequenzspektrums innerhalb des Übertragungsbands aus dem durch die erste Umwandlungseinrichtung erhaltenen Frequenzspektrum, eine zweite Umwandlungseinrichtung, in welcher das durch die Herauszieheinrichtung herausgezogene Frequenzspektrum einer inversen Fourier-Transformation unterworfen wird, eine Analysiereinrichtung für die Analyse eines Ausgangssignals der zweiten Umwandlungseinrichtung zur Gewinnung eines spezifizierten Charakteri— stikparameters, und ein Inversfilter (5), in welchem eine zu dem durch die Analysiereinrichtung gewonnenen Charakteristikparameter inverse Charakteristik eingestellt ist und welches das Sprachsignal von der Eingangseinrichtung durchläßt, um so die Erkennung für das Sprachsignal nach Durchlaufen des Inversfilters durchzuführen.
- 5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet , daß die Eingangseinrichtung eine Filtereinrichtung (2) für eine Tiefpaßfilterung des Sprachsignals aus dem übertragungssystem und einen Analog-Digitalwandler (3), welcher das Ausgangssignal der Filtereinrichtung abtastet und in ein digitales Signal umwandelt, aufweist.291908S
- 6. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß die Analysiereinrichtung eine Einrichtung für die Analyse des Ausgangssignals der zweiten Umwandlungseinrichtung zur Berechnung eines partiellen Auto-5 korrelationskoeffizienten umfaßt.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP53055556A JPS5850360B2 (ja) | 1978-05-12 | 1978-05-12 | 音声認識装置における前処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE2919085A1 true DE2919085A1 (de) | 1979-11-15 |
| DE2919085C2 DE2919085C2 (de) | 1983-08-04 |
Family
ID=13001966
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE2919085A Expired DE2919085C2 (de) | 1978-05-12 | 1979-05-11 | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US4283601A (de) |
| JP (1) | JPS5850360B2 (de) |
| DE (1) | DE2919085C2 (de) |
| GB (1) | GB2022896B (de) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
Families Citing this family (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4397006A (en) * | 1980-12-31 | 1983-08-02 | Mobil Oil Corporation | Cross trace coherent noise filtering for seismograms |
| CA1171945A (en) * | 1981-04-16 | 1984-07-31 | Mitel Corporation | Voice recognizing telephone call denial system |
| JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
| US4451700A (en) * | 1982-08-27 | 1984-05-29 | M. A. Kempner, Inc. | Automatic audience survey system |
| US4991217A (en) * | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
| US4790016A (en) * | 1985-11-14 | 1988-12-06 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
| US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
| US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
| JPS6458874A (en) * | 1987-08-28 | 1989-03-06 | Kitz Corp | Ball valve |
| JPH01118900A (ja) * | 1987-11-01 | 1989-05-11 | Ricoh Co Ltd | 雑音抑圧装置 |
| IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
| US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
| IN184794B (de) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
| FR2722631B1 (fr) * | 1994-07-13 | 1996-09-20 | France Telecom Etablissement P | Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications |
| JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
| WO1998022936A1 (en) * | 1996-11-22 | 1998-05-28 | T-Netix, Inc. | Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation |
| JP4279357B2 (ja) * | 1997-04-16 | 2009-06-17 | エマ ミックスト シグナル シー・ブイ | 特に補聴器における雑音を低減する装置および方法 |
| US6003000A (en) * | 1997-04-29 | 1999-12-14 | Meta-C Corporation | Method and system for speech processing with greatly reduced harmonic and intermodulation distortion |
| EP0945852A1 (de) * | 1998-03-25 | 1999-09-29 | BRITISH TELECOMMUNICATIONS public limited company | Sprachsynthese |
| US6912496B1 (en) * | 1999-10-26 | 2005-06-28 | Silicon Automation Systems | Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics |
| GB2355834A (en) * | 1999-10-29 | 2001-05-02 | Nokia Mobile Phones Ltd | Speech recognition |
| GB0023498D0 (en) * | 2000-09-26 | 2000-11-08 | Domain Dynamics Ltd | Spectral reconfiguration permutation and mapping |
| DE10116358A1 (de) * | 2001-04-02 | 2002-11-07 | Micronas Gmbh | Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen |
| US6751564B2 (en) | 2002-05-28 | 2004-06-15 | David I. Dunthorn | Waveform analysis |
| WO2005034395A2 (en) * | 2003-09-17 | 2005-04-14 | Nielsen Media Research, Inc. | Methods and apparatus to operate an audience metering device with voice commands |
| CN101371472B (zh) * | 2005-12-12 | 2017-04-19 | 尼尔逊媒介研究股份有限公司 | 对声音/视觉装置进行无线计量的系统和方法 |
| US9015740B2 (en) | 2005-12-12 | 2015-04-21 | The Nielsen Company (Us), Llc | Systems and methods to wirelessly meter audio/visual devices |
| US9124769B2 (en) | 2008-10-31 | 2015-09-01 | The Nielsen Company (Us), Llc | Methods and apparatus to verify presentation of media content |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
| JPS5272504A (en) * | 1975-12-15 | 1977-06-17 | Fuji Xerox Co Ltd | Device for recognizing word audio |
-
1978
- 1978-05-12 JP JP53055556A patent/JPS5850360B2/ja not_active Expired
-
1979
- 1979-05-08 US US06/037,026 patent/US4283601A/en not_active Expired - Lifetime
- 1979-05-11 DE DE2919085A patent/DE2919085C2/de not_active Expired
- 1979-05-11 GB GB7916488A patent/GB2022896B/en not_active Expired
Non-Patent Citations (1)
| Title |
|---|
| NICHTS-ERMITTELT * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5850360B2 (ja) | 1983-11-10 |
| DE2919085C2 (de) | 1983-08-04 |
| JPS54147708A (en) | 1979-11-19 |
| GB2022896B (en) | 1982-09-08 |
| US4283601A (en) | 1981-08-11 |
| GB2022896A (en) | 1979-12-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
| DE69520067T2 (de) | Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales | |
| DE68913139T2 (de) | Störunterdrückung. | |
| DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
| DE69901606T2 (de) | Breitbandsprachsynthese von schmalbandigen sprachsignalen | |
| DE69417445T2 (de) | Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen | |
| DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
| DE3510660C2 (de) | ||
| DE69600728T2 (de) | Vorrichtung und verfahren zur signalqualitätserfassung | |
| DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
| DE69425808T2 (de) | Vorrichtung zur Kompression und Expansion der Bandbreite eines Sprachsignals, Verfahren zur Übertragung eines komprimierten Sprachsignals sowie Verfahren zu dessen Wiedergabe | |
| DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
| DE10030105A1 (de) | Spracherkennungseinrichtung | |
| EP0193143A2 (de) | Verfahren zur Übertragung eines Audiosignals | |
| DE4330243A1 (de) | Sprachverarbeitungseinrichtung | |
| DE2622423C3 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
| DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
| DD292791A5 (de) | Verfahren zur uebertragung eines signals | |
| DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
| DE60014031T2 (de) | Sprachererkennung durch korrelierung von spektrogrammen | |
| DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
| EP0957471B1 (de) | Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen | |
| DE19961817B4 (de) | Frequenzabweichung detektierendes Gerät und Frequenzabweichungs-Detektionsverfahren | |
| EP0916206B1 (de) | Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals | |
| DE69904453T2 (de) | Signalverarbeitungsverfahren zur analyse von sprachsignal-transienten |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OAP | Request for examination filed | ||
| OD | Request for examination | ||
| 8128 | New person/name/address of the agent |
Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE |
|
| 8181 | Inventor (new situation) |
Free format text: NAKAJIMA, AKIRA, HACHIOJI, TOKYO, JP ICHIKAWA, AKIRA, KOKUBUNJI, TOKYO, JP NAKATA, KAZUO, KODAIRA, TOKYO, JP |
|
| D2 | Grant after examination | ||
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |