-
Verfahren zur automatischen Verarbeitung von gestörter
-
Telefonsprache Die Erfindung betrifft ein Verfahren zur Verarbeitung
von gestörter Telefonsprache mit dem Ziel ihrerautomatischen Erkennung. Dabei wird
das Spektrum der Telefonsprache nach einer bestimmten Prozedur laufend ausgewertet
und die für die nachfolgende Erkennung wichtigen Parameter ermittelt.
-
Mit derartigen Verfahren läßt sich Telefonsprache, die bekanntlich
bezüglich des übertragenen Frequenzbandes beschränkt ist (300 - 3.400 Hz), und bei
der es nicht auszuschließen ist, daß sie durch akustische Einwirkungen am Ort des
Telefonhandapparates, wie Geräusche oder Fremdstimmen und im Zuge der Ubertragung
durch Rauschen und periodische Signale überlagert wird, zumindest was die stimmhaften
Laute in der Telefonsprache (Nutzsprache) angeht, automatisch detektieren, die Sprachgrundfrequenz
feststellen, und die charakteristischen Energieverteilungen im Spektrum der Nutzsprache
ermitteln.
-
Die Verfahren zur Verarbeitung von Telefonsprache stellen damit ein
wichtiges Bindeglied zwischen den Techniken der Übertragung von Sprache (realisiert
z.B. im Telefonnetz der Deutschen Bundespost) und den zahlreichen, bekannten Verfahren
zur automatischen Spracherkennung dar. Da viele Anwendungen der automatischen Spracherkennung
ohne eine Benutzung des Telefonnetzes gar nicht denkbar sind, ermöglichen gerade
die Verfahren zur Verarbeitung von Telefonsprache erst die wirtschaSlich interessanten
Großanwendungen (vollautomatische Auskunftssysteme mit sprachlichem Dialog für Bundespost,
Bundesbahn, Militär, Banken, Großlager usw,).
-
Es ist bekannt, zur Durchführung der Verarbeitung von Telefonsprache
die Cepstrum-Methode anzuwenden (Nachrichtentechn.
-
Z. 26 (1973), Heft 7, Seiten 312-316). Dabei werden zuerst die logarithmierten
Spektren der Telefonsprache erzeugt. Sie zeigten bei stimmhaften Lauten eine charakteristische
Linienstruktur, die aus einer Abfolge von äquidistanten Linien besteht. Diese charakteristische
Linienstruktur wird bei der Ce U trum-Methode dadurch detektiert, daß man die logarithmierten
Spektren einer weiteren Frequenzanalyse unterwirft.
-
Die Periodizität der Linienstruktur in den logarithmierten Sprachspektren
verursacht im Analyseergebnis der zweiten Frequenzanalyse ein charakteristisches
Maximum, dessen Anwesenheit/Abwesenheit zur stimmhaft/stimmlos- bzw. zur stimmhaft/Pause-Unterscheidung
ausgenutzt wird. Die Position dieses charakteristischen Maximums ist ein direktes
Maß für die Höhe der Sprachgrundfrequenz.
-
Die pstrum-Methode hat den entscheidenden Nachteil, daß zu ihrer Durchführung
zwei Frequenzanalysen hintereinander ausgeführt werden müssen. Daraus ergibt sich,
daß die Arbeit so geschwindigkeit des Verfahrens relativ niedrig- ist (die Analysierzeiten
der Frequenzanalysatoren addieren sich), daß
die Ergebnisse relativ
ungenau sind (die Analysierfehler der Frequenzanalysatoren addieren sich) und daß
der Aufwand zur Realisierung des Verfahrens hoch ist (es werden gleichzeitig zwei
teure Frequenzanalysatoren benötigt)0 Ein weiterer entscheidender Nachteil des Cepstrum-Veflahrens
wird darin gesehen, daß es zwar in der Lage ist, eine Aussage darüber zu machen,
ob sich eine Linienstruktur in den Sprachspektren befindet, nicht Jedoch, wo sich
diese Linienstruktur in den Sprachspektren befindet. Die globale Aussage, die das
Cepstrum Verfahren liefert, ist damit nicht dazu geeignet, die einzelnen charakteristischen
Energiekonzentrationen (Formaten) in den Spektren stimmhafter Laute zu detektieren,
geschweige denn sie von eventuell vorhandenen Störungen zu unterscheiden.
-
Der Erfindung liegt die Aufgabe zugrunde, eine Verarbeitung von Telefonsprache
mit nur einer Frequenzanalyse durchzuführen. Dabei soll die Leistungsfähigkeit der
Cepstrum-Methode übertroffen werden, indem nicht nur - wie bei dieser -eine t'stimmhaft"
- Detektion und eine Ermittlung der Sprachgrundfquenz durchgeführt wird, sonderzdaruber
hinaus auch noch eine Lokalisierung der Formanten, eine Unterscheidung zwischen
Formanten und Störungen, und ein wirksamer Schutz gegen Verfälschungen der Erkennungsergebnisse
durch den Einfluß von Fremdetimmen gewährleistet wird.
-
Die oben dargestellte Aufgabe der Erfindung wird durch das in den
Patentansprüchen angegebene Verfahren gelöst.
-
Das Verfahren nach der Erfindung liefert auch dann richtige Ergebnisse,
wenn die übertragene Sprache telefonbandbegrenzt ist. In diesem Falle können zwar
Spektrallinien ^ zschen
300 Hz und 3.400 Hz detektiert und zur Entscheidung
herangezogen werden, das Telefonband reicht jedoch bei weitem zur Durchführung des
Verfahren aus. Das Verfahren wird erst bei tJbertragungsbändern 41.500 Hz undurchführbar,
welche Bandbreiten jedoch für die Übertragung verständlicher Sprache ohnehin keine
technische Bedeutung haben können.
-
Im folgenden wird das Verfahren nach der Erfindung anhand von Fig.
1 bis 6 naher erläutert. Es zeigen: Fig. 1 das Spektrum eines reinen vokalischen
Sprechlautes, Fig. 2 das Spektrum von Rauschen bzw. eines frikativen Sprechlautes,
Fig. 3 das Spektrum eines sinusförmigen Signals, Fig. 4 das Spektrum eines vokalischen
Sprechlautes, überlagert durch Raus den, Fig. 5 das Spektrums eines vokalischen
Sprechlautes, überlagert durch ein sinusförmiges Signal, Fig. 6 das Spektrum eines
vokalischen Sprechlautes, überlagert durch einen anderen vokalischen Sprechlaut,
herstammend von einer Fremdstimme.
-
In Fig. 1 ist die Spektrallinienstruktur des Spektrums (der Spektralfunktion)
des rein vokalischen Sprechlautes deutlich zu erkennen. Die erste Spektrallinie
S1 befindet sich bei der Frequenz y0, der menschlichen Sprachgrundfrequenz. Die
n-te Spektrallinie Sn 5n befindet sich bei der Frequenz n- o Die Spektrallinien
liegen äquidistant. Der Abstand benachbarter Spektrallinien beträgt Y0.
-
Nach dem Verfahren der Erfindung werden die Spektrallinien bzw. spektrallinien-verdächtige
Maxima einzeln detektiert, indem die Spektralfunktion drei Kriterien erfüllen muß:
a) die Amplitude der Spektralfunktion muß am Ort einer Spektrallinie einen bestimmten
vorgegebenen festen oder variablen Schwellwert T überschreiten (elektronisch realisiert
durch Vergleich der Spektralfunktion mit einem Schwellwert eines Schwellwertschalters),
b) die Spektralfunktion muß am Ort der Spektrallinie ein relatives Maximum aufweisen
(elektronisch realisiert durch Erzeugung der 1. Ableitung der Spektralfunktion und
Prüfung derselben auf Nulldurchgänge in Richtung negativer Werte), c) die Spektralfunktion
muß vor dem relativen Maximum eine bestimmte vorgegebene positive Steigung überschreiten
und nach dem relativen Maximum eine bestimmte vorgegebene negative Steigung - Kberschreiten
(elektronisch realisiert durch Erzeugung der 1. Ableitung der Spektralfunktion und
Vergleich derselben mit einem Schwellwertschalter mit Hysteresis mit vorgegebenen
positiven und negativen Schwellwerten).
-
Damit sind die Positionen der spektrallinien-verdächtigen Maxima bestimmt.
Eine sichere Aussage darüber, ob es sich bei ihnen tatsächlich um Spektrallinien
handelt, kann erst nach Auswertung ihrer relativen Lage zueinander gewagt werden.
Dazu werden jeweils die Abstände benachbarter spektrallinien-verdächtiger Maxima
ausgemessen (elektronisch realisiert durch Subtrahierung der Abszissenwerte ihrer
Positionen auf der Frequenzachse und Zwischenspeicherung der Differenzwerte) und
aufeinanderfolgende Abstände miteinander verglichen (realisiert durch Komparatoren).
Stimmen mehr als
zwei aufeinanderfolgende Differenzwerte größenmäßig
überein (das entspricht mindestens 4 aufeinanderfolgenden äquidistanten Spektrallinien)
und ist dieser gemeinsame Wert nicht kleiner als 75 Hz und nicht großer als ca 350
Hz (Komgpatibilität mit den möglichen Werten der menschlichen Sprachgrundfrequenz),
können die spektrallinienverdäehtigen Maxima zu Recht als Spektrallinien angesehen
werden, und der zugrundeliegende Sprechlaut wird erfindungsgemäß als "stimmhaftet
Laut klassifiziert. Der DeilSpereich des Spektrums, in dem alle diese Bedingungen
erfüllt sind, wird erfindungsgemäß als Formantbenich klassifiziert.
-
Liegt ein Rauschspektrum nach Fig. 2 vor, werden zwar ebenfalls spektrallinienverdächtige
Maxima detektiert (soweit sie die Kriterien a), b) und c) erfüllen), jedoch ist
der Fall praktisch ausgeschlossen, daß sich in einem solchen statistischen Funktionsverlauf
zufällig drei aufeinanderfolgende Abstände gleicher Größe finden lassen. Damit ist
auch eine Klassifizierung des zugrundeliegenden Rauschsignales als stimmhaft bzw.
die Lokalisierung von Formantbereichen ausgeschlossen.
-
Liegt das Spektrum eines sinusförmigen Signals nach Fig. 3 vor, so
wird zwar die einzige vorhandene Spektrallinie die Kriterien a), b) und c) erfüll
en, und als solche detektiert werden, jedoch finden sich im Spektrum keine weiteren
Spektrallinien. Damit ist eine Klassifizierung des sinusförmigen Signals als "stimmhaft"
mit Sicherheit ausgeschlossen.
-
Liegt wie in Fig. 4 das Spektrum eines vokalischen Lautes vor, der
durch Rauschen überlagert ist, so wird der Rauschanteil der Spektralfunktion zum
Teil unter der durch das
Kriterium a) vorgegebenen Schwelle T liegen,
sofern das Signal/Rausch-Verhältnis nicht zu ungünstige Werte annimmt.
-
Spektrallinien-verdächtige Maxima des Rauschanteils,die auch das scharfe
Flankenkriterium der Bedingung c) erfüllen, werden nur in seltenen Fällen die Äquidistanz
der Spektrallinienstruktur stören. Damit wird im wesentlichen nur die ausgeprägte
Spektrallinienstruktur des vokalischen Sprechlautes detektiert und damit das Gesamt
spektrum als "stimmhaft" klassifiziert.
-
Liegt wie in Fig. 5 das Spektrum eines vokalischen Lautes vor, der
durch ein sinusförmiges Signal überlagert ist, so äußert sich das sinusförmige Störsignal
durch eine Spektrallinie, die sich irgendwo zwischen den äquidistanten Spektrallinien
des vokalischen Sprechlautes befindet. An diser Stelle tritt zwar eine lokale Störung
der Kontinuität der Äquidistanz auf, die jedoch an der Elassifizierung des Gesamtspektrums
als "stimmhaft" nchts ändern kann, sondern höchstens die sichere Lokalisierung eines
Formantbereichs behindert.
-
Liegt wie in Fig. 6 das Spektrum eines vokalischen Lautes vor, der
durch einen anderen vokalischen Sprechlaut einer Fremdstimme überlagert wird, so
werden die Spektrallinien der Fremdstimme das Spektrum der Nutzsprache dann nachhaltig
stören, wenn der Signalpegel der Fremdstimme in der gleichen Größenordnung liegt
wie der Nutzsprachenpegel. In diesem Falle werden die meisten Spektrallinien der
Fremdstimme die Kriterien a), b) und c) erfüllen und damit die Äquidistanz des Gesamtspektrums
nicht nur lokal, sondern allgemein zerstören. In diesem Falle ist eine Klassifizierung
des Gesamtspektrums als "stimmhaft" wegen der unregelmäßigen Abstände benachbarter
Spektrallinien unmöglich, was einer
Ignorierung bzw. Zurückweisung
des Sprachgemisches durch die Prozedur gieichkommt, obwohl stimmhafte Sprechlaute
vorliegen.
-
Da die Verteilung der Formanten der Nutzsprache durch die Überlagerung
der Fremdstimme erheblich verfälscht wird, ist in diesem Falle ein Zusammenbruch
der Prozedur nicht unerwünscht, da so ein Aufsuchen verfälschter Formantbereiche
vereitelt wird. Damit wird die Ausgabe eines falschen Laut-Erkennungsergebnisses
verhindert.
-
Dieses spezielle Verhalten des.Verfahrens stellt somit einen gewissen
Schutz des Erkennungsergebnisses gegen Verfälschungen durch Fremdstimmen dar.
-
Zusammenfassend läßt sich sagen, daß das Verfahren nach der Erfindung
in der Lage ist, in Telefonsprache stimmhafte Laute zu detektieren und die Formantbereiche
zu lokalisieren auch dann, wenn die Telefonsprache von Störungen überlagert ist.
-
Überlagerungen durch Rauschen und sinusförmige Störsignale bleiben
weggehend wirkungslos, wenn allerdings die Störsignale große Ähnlichkeit mit menschlichen
Sprachsignalen haben (Linienspektren),schaltet das Verfahren zur Vermeidung von
Fehlerkennungen prophylaktisch ab.
-
Die mit der Erfindung erzielten Vorteile bestehen darin, daß zur automatischen
Verarbeitung der Telefonsprache nur ein Frequenzanalysator benötigt wird, daß trotz
Überlagerung der Telefonsprache mit Rauschen und sinusförmigen Signalen eine Lokalisierung
der Formantbereiche möglich ist, daß eine sichere Unterscheidung zwischen Formanten
und Störungen möglich ist und daß die Erfindung einen wirksamen Schutz der Erkennungsergebnisse
gegen Verfälschungen durch Fremdstimmen bietet.
-
(2) Patentansprüche
Leerseite