DE19860133A1

DE19860133A1 - Verfahren und Vorrichtung zur Sprachkompression

Info

Publication number: DE19860133A1
Application number: DE1998160133
Authority: DE
Inventors: Dietmar Ruwisch; Ilse Schebesch; Detlef Schweng
Original assignee: CORTOLOGIC AG
Current assignee: RUWISCH, DIETMAR, DR., 12557 BERLIN, DE
Priority date: 1998-12-17
Filing date: 1998-12-17
Publication date: 2001-07-12
Anticipated expiration: 2018-12-18
Also published as: DE19860133C2

Abstract

Verfahren zur Kompression eines digitalisierten Sprachsignals s(t) mittels Benutzung von Referenzindizes (i) variabler Einträge von sender- und empfängerseitig vorhandenen Referenzspeichern, bei dem in einem Kompressionsmodul (10) auf der Seite des Senders mit Hilfe der Autokorrelationsfunktion phi¶ss¶(t, Ð) des Sprachsignals s(t) Elementarsignale s¶E¶(t) und/oder Elementarspektren S¶E¶(f) erzeugt werden. Die Elementarsignale werden mit mindestens einem im Referenzspeicher (16) unter dem Index i abgelegten Referenzsignal s¶i¶(t) bzw. Referenzspektrum S¶i¶(f) verglichen, wobei im Falle überschwelliger Ähnlichkeit zwischen dem Elementarsignal S¶E¶(t) und einem Referenzsignal s¶i¶(t) bzw. zwischen dem Elementarspektrum S¶E¶(f) und einem Referenzspektrum S¶i¶(f) anstelle des Elementarsignals s¶E¶(t) bzw. Elementarspektrums S¶E¶(f) der Index i der ähnlichsten Referenz zu einem Synthesemodul (22) auf der Seite des Empfängers übertragen wird. Das Elementarsignal s¶E¶(t) bzw. Elementarspektrum S¶E¶(f) wird zum Synthesemodul (22) übertragen sowie im Kompressionsmodul (10) und im Synthesemodul (22) unter demselben Index i im Referenzspeicher (16) als Referenzsignal s¶i¶(t) bzw. Referenzspektrum S¶i¶(f) gespeichert.

Description

Die Erfindung betrifft ein Verfahren zur Kompression eines digitalisierten Sprachsignals mittels Benutzung von Referenzindizes variabler Einträge eines sender- und empfängerseitig vorhandenen Referenzspeichers so wie eine Vorrichtung zur Realisierung des Verfahrens.

Für eine effiziente Sprachübertragung über einen Nachrichtenkanal ist eine Kompression des Sprachsi gnals unerläßlich. Dies gilt insbesondere dann, wenn die Bandbreite des Nachrichtenkanals durch physikali sche Randbedingungen begrenzt ist, wie z. B. im Mobil telefon-Bereich.

Es lassen sich Standard-Kompressionsverfahren, mit denen ein beliebiges Zeitsignal komprimiert werden kann, von solchen Verfahren unterscheiden, die aus schließlich für die komprimierte Übertragung von Sprache geeignet sind. Mit solchen speziellen Verfahren läßt sich eine wesentlich höhere Kompressionsrate erzielen.

Sogenannte Codebuch-Verfahren zur komprimierten Über tragung von Sprache, wie sie beispielsweise aus der DE 35 13 243, der DE 40 33 350 oder der DE 35 21 413 bekannt sind, lassen sich in drei verschiedene Phasen unterteilen, nämlich eine senderseitige Erkennung festgelegter, verfahrensspezifischer Sprachlemente, eine Übertragung der Folge der Indizes jener Sprachlemente, entsprechend dem gesprochenen Signal und eine empfängerseitige Synthese der Sprache aus den Sprachelementen, entsprechend den übertragenen Indizes.

Die verfahrensspezifischen Sprachelemente können sich auf verschiedenen Ebenen der Sprache befinden. So wird gemäß der DE 35 21 413 das Sprachsignal aus gan zen Wörtern zusammen gesetzt. Dies hat allerdings den Nachteil, daß nur ein begrenzter, zuvor vereinbarter Wortschatz übertragen werden kann. Sprachsynthese auf der Ebene der Phoneme, d. h. der vom menschlichen Sprechapparat erzeugbaren Grundlaute, wird in der DE 30 06 339 und der DE 31 05 518 vorgeschlagen. Andere, abstraktere Sprachelemente lassen sich z. B. mit Hilfe des Mel-Cepstrum-Verfahrens definieren, wie es nach der DE 40 33 350 verwendet werden soll.

Noch andere Verfahren benutzen als Elementarsignale keine Sprachbausteine im eigentlichen Sinne, sondern künstliche Signale, die so zusammengesetzt werden, daß ein akustisches Sprachsignal entsteht. Aus der DE 30 28 000 und der DE 32 18 755 ist es bekannt, zwi schen stimmhaften und stimmlosen Lauten zu unterscheiden. In letztgenannten Verfahren werden zur Sprachsynthese Ton- und Rauschgeneratorsignale ver wendet, die durch steuerbare Filter moduliert werden.

Allen genannten Verfahren ist gemeinsam, daß die zur Synthese verwendeten verfahrensgemäßen Sprachelemente fest vorgegeben sind und nicht an den jeweiligen sen derseitigen Sprecher angepaßt werden können. Dadurch ist es im allgemeinen unmöglich, den Klang der Stimme eines Sprecher naturgetreu zu reproduzieren, was für eine Telefonverbindung jedoch erstrebenswert ist.

Der vorliegenden Erfindung liegt die Aufgabe zugrun de, zur empfängerseitigen Sprachsynthese solche Spra chelemente zu verwenden, die zuvor senderseitig ex trahiert worden sind.

Gelöst wird diese Aufgabe dadurch, daß in einem Kom pressionsmodul auf der Seite des Senders mit Hilfe der Autokorrelationsfunktion ϕ_ss(t, τ) des Sprachsi gnals s(t) Elementarsignale s_E(t) und/oder Elementar spektren S_E(f) erzeugt werden, welche mit mindestens einem im Referenzspeicher unter dem Index abgelegten Referenzsignal s_i(t) bzw. Referenzspektrum S_i(f) ver glichen werden, wobei im Falle überschwelliger Ähn lichkeit zwischen dem Elementarsignal s_E(t) und einem Referenzsignal s_i(t) bzw. zwischen dem Elementarspek trum S_E(f) und einem Referenzspektrum S_i(f) anstelle des Elementarsignals s_E(t) bzw. Elementarspektrums S_E(f) der Index der ähnlichsten Referenz zu einem, Synthesemodul auf der Seite des Empfängers übertragen wird und das Elementarsignal s_E(t) bzw. Elementar spektrum S_E(f) zum Synthesemodul zu übertragen sowie im Kompressionsmodul und im Synthesemodul unter demselben Index im Referenzspeicher als Referenzsignal s_i(t) bzw. Referenzspektrum S_i(f) gespeichert wird.

Durch diese Maßnahmen wird es möglich, im empfänger seitig synthetisierten Sprachsignal die typische Stimmcharakteristik eines Sprechers zu reproduzieren. Die Sprachelemente bestehen dabei aus den kleinsten sinnvoll definierbaren Einheiten des Sprachsignals. Bei stimmhaften Lauten entspricht ein Elementarsignal s_E(t) z. B. einer Periode der Grundschwingung; bei stimmlosen Lauten wird ein Elementarspektrum S_E(f) benutzt, daß durch Fourieranalyse auf einem vorgege benen Zeitintervall gewonnen wird. Diese Sprachele mente werden sender- und empfängerseitig als Refe renzsignale s_i(t) bzw. Referenzspektren S_i(f) gespei chert, so daß sie im Fall ihres wiederholten Auftre tens nicht erneut übertragen werden müssen, woraus die Kompression resultiert.

Weitere vorteilhafte Maßnahmen sind in den Unteran sprüchen beschrieben. Die Erfindung ist in der bei liegenden Zeichnung dargestellt und wird nachfolgend näher beschrieben; es zeigt:

Fig. 1 ein Kompressionsmodul, das ein digita lisiertes Sprachsignal s(t) zu einem komprimierten Code verarbeitet, der aus Datenblöcken variabler Länge besteht;

Fig. 2 ein Synthesemodul, das aus den kompri mierten Daten ein Sprachsignal s(t) ge neriert, in dem ein empfangener Daten block zu verarbeiten ist, seine Kennung festlegt, ein Referenzsignal si(t) bzw. ein Referenzspektrum Si(f) adressiert und liest, ein Signalgenerator dieses dem Referenzspeicher hinzufügt, im Fal le eines Spektrums nach vorheriger in verser Fouriertransformation, dem zu synthetisierenden Sprachsignal s(t) ab legt, wobei die im Datenblock enthalte nen Lautstärken- und ggf. Frequenz- Informationen E(t) verarbeitet werden;

Fig. 3 ein Mittelungsglied zur Bestimmung der momentanen Signallautstärke E(t), deren Betrag des Sprachsignals s(t) einem Zeitintervall Δt aufintegriert wird;

Fig. 4 einen Autokorrelator zur Berechnung der Autokorrelationsfunktion;

Fig. 5 einen Kreuzkorrelator zur Berechnung des Korrelationskoeffizienten ϕ_iE zum Vergleich eines Elementarsignals s_E(t) mit den Referenzsignalen s_i(t), die im Referenzspeicher gespeichert sind;

Fig. 6 eine Spektralanalyse zur Berechnung ei nes Elementarvektors W_E aus einem Ele mentarsignalspektrum S_E(f).

Die in den Fig. 1 bis 6 dargestellte Erfindung wird im folgenden anhand eines Ausführungsbeispiels näher erläutert. Dabei werden das Kompressionsmodul 10 und das Synthesemodul 22 separat betrachtet. Zu Beginn der Signalverarbeitung im Kompressionsmodul 10 wird die mo mentane Lautstärke E(t) des digitalisierten Sprachsignal s(t) mit einem Mittelungsglied 11, wie er in der Fig. 3 dargestellt ist, bestimmt.

Dazu bestimmt ein Mittelungsglied 11, wie es in der Fig. 3 dargestellt ist, die aktuelle Lautstärke E(t). Ein Autokorrelator 12, wie er in der Fig. 4 darge stellt ist, berechnet die Autokorrelationsfunktion ϕ_ss(t, τ) des Sprachsignals. Ein nachgeschalteter Maxi mumdetektor 13 ermittelt das Maximum ϕ_ss(t₀, τ)

Die Verzögerungszeit τ_max entspricht der Periodenlänge eines Elementarsignals s_E(t). Ein Normierglied 14 bringt das Elementarsignal auf eine vorgegebene Peri odenlänge und Energie. Zugleich berechnet ein Fourier transformator 15 das aktuelle Spektrum S(t,f) des Sprachsignals.

Mittels Spektralanalyse 18, wie ihn die Fig. 6 zeigt, erhält man aus einem Elementarspektrum S_E(f) einen Ele mentarvektor W_E, der in einer Vergleichseinheit 19 mit den Referenzvektoren W_i des Referenzspeichers 16 ver glichen wird. Ist der Abstand zum ähnlichsten Referenz vektor kleiner als eine Schwelle ϑ, wird statt des ge samten Elementarsignals s_E(t) der entsprechende Refe renzindex i_min sowie Lautstärken information E(t) und Frequenzinformation (τ_max) in einem Datenblock 21 ausge geben. Alternativ wird das Elementarsignal mit den Re ferenzsignalen s_i(t) durch einem Kreuzkorrelator 17, wie ihn die Fig. 5 zeigt, verglichen. Ist keine pas sende Referenz vorhanden, werden das Elementarsignal s_E(t) und ggf. das Spektrum S_E(f) sowie der Elementar vektor W_E im Referenzspeicher abgelegt. In diesen Fall wird das gesamte Elementarsignal s_E(t) bzw. das Elemen tarspektrum S_E(t) dem Datenblock (21) hinzugefügt.

Unter Zuhilfenahme von E(t) berechnet ein Autokorrela tor 12, wie er in der Fig. 4 dargestellt ist, die nor mierte Autokorrelationsfunktion ϕ_ss(t, τ) des Sprachsi gnals s(t), ϕ_ss(t, τ) wird auf einem definierten Zeitin tervall Δt berechnet und ändert sich mit fortschreiten der Zeit t.

Im folgenden wird ein fester Zeitpunkt t = t₀ betrachtet. Ein Maximumdetektor 13 bestimmt das Maximum der Auto korrelationsfunktion ϕ_ss(t₀, τ), das sich an der Stelle τ_max < 0 befindet. Besonders vorteilhaft ist es, wenn die Länge des Zeitintervalls Δt, auf dem ϕ_ss(t₀, τ) be rechnet wird, dem Wert von τmax entspricht. Mit Hilfe des Werts von ϕ_ss(t₀, τ_max) entscheidet das Kompressions modul 10 wie folgt, ob das Sprachsignal s(t) zum Zeit punkt t₀ stimmhaft oder stimmlos ist. Überschreitet ϕ_ss(t₀, τ_max) eine vorzugebende Schwelle, handelt es sich um einen stimmhaften Laut.

Ein stimmloser Laut besteht im wesentlichen aus Rau schen, daher weist seine Autokorrelationsfunktion kein ausgeprägtes Maximum für τ_max < 0 auf. Liegt ein stimm hafter Laut vor, wird das Sprachsignal durch ein Nor mierglied 14 zu einem Elementarsignal s_E(t) verarbei tet, das eine vorgegebene Länge, Energie und Phasenlage aufweist. Dieses normierte Elementarsignal s_E(t) be steht aus einer einzigen Periode des Sprachsignals s(t). Die Länge dieser Periode entspricht dem Wert von τ_max. Das Elementarsignal S_E(t) wird mit den im Refe renzspeicher gespeicherten Referenzsignalen s_i(t) verglichen. Dies kann bei stimmhaften Lauten auf zweierlei Weise geschehen.

In dem im folgenden beschriebenen Ausführungsbeispiel werden stimmhafte wie stimmlose Laute mittels Spektral analyse 18 im Frequenzraum verglichen. Dazu berechnet ein Fouriertransformator 15 das zeitlich veränderliche Spektrum S(t, f) des Sprachsignals s(t). Das normierte Betragsspektrum zu einem Zeitpunkt t = t₀ wird im folgen den Elementarspektrum S_E(f) genannt. S_E(f) kann auch durch Fouriertransformation der Autokorrelation ϕ(t₀, τ) gewonnen werden. Mittels Spektralanalyse 18 wird aus einem Elementarspektrum S_E(f) durch Anwendung von Filterfunktionen F_k(f) ein Elementarvektor W_E berechnet wie dies die Fig. 6 zeigt.

Mit Hilfe dieses Elementarvektors W_E erfolgt der Ver gleich mit den Einträgen des Referenzspeichers 16 auf folgende Weise. Zu jedem gespeicherten Referenzsignal s_i(t). bzw. Referenzspektrum S_i(f) korrespondiert ein Referenzvektor W_i, der dem soeben erläuterten Elemen tarvektor W_E des jeweiligen Referenzsignals entspricht. Der Vergleich des Elementarvektors W_E mit den Referenz vektoren W_i erfolgt in einer Vergleichseinheit 19.

Bei i_min der Index des Referenzvektors W_i mit dem klein sten Abstand aller W_i zum Elementarvektor W_E. Das In verse dieses Abstands ist ein Maß für die Ähnlichkeit der Signale bzw. Spektren. Ist der minimale Abstand kleiner als ein vorzugebender Schwellwert, läßt sich das Elementarsignal s_E(t) bzw. das Elementarspektrum S_E(f) durch die entsprechende Referenz ersetzen. In diesem Fall tragt die Vergleichseinheit 19 nur den In dex i_min zusammen mit der korrekten Lautstarke E(t) in den zu sendenden Datenblock 21 ein. Bei entsprechend gewähltem Schwellwert kann auf diese Weise jeder belie bige Laut durch eine Referenz ersetzt werden.

Im Falle eines stimmhaften Lauts enthält der Datenblock 21 zusätzlich den Wert von τ_max, der zur Synthese des Sprachsignals mit der korrekten Grundfrequenz benötigt wird. Ein jeder Datenblock 21 beginnt mit einer Kennung 24, in der codiert ist, welcher Art die übertragene In formation ist.

In einer anderen Ausführung der Erfindung werden für stimmhafte und stimmlose Laute separate Referenzspei cher verwendet. In noch einer anderen Ausführung der Erfindung sind Vergleichseinheit 19 und Referenzspei cher 16 in einem selbstorganisierenden neuronalen Netz werk zusammengefaßt, das sich durch eine besonders ge schickte Behandlung der Referenzvektoren W_i auszeich net.

In wieder einem anderen Ausführungsbeispiel erfolgt der Vergleich stimmhafter Laute im Zeitbereich. Statt des Vergleichs eines Elementarvektors W_E mit den Referenz vektoren W_i wird das Elementarsignal s_E(t), wie in der Fig. 5 dargestellt, per Kreuzkorrelation mit den Refe renzsignalen s_i(t) verglichen. Dazu berechnet ein Kreuzkorrelator 17 die Korrelationskoeffizienten ϕ _iE.

Ist der minimale Korrelationskoeffizienten ϕ _iE kleiner als eine vorzugebende Schwelle ϑ, wird das Elementarsi gnal als bekannt betrachtet und - wie zuvor erläutert - behandelt. Die Verarbeitung stimmloser Laute erfolgt weiterhin wie im zuerst beschriebenen Ausführungsbei spiel.

Allen genannten Ausführungsbeispielen ist gemeinsam, daß ein komplettes Elementarsignal s_E(t), bzw. im Falle stimmloser Laute ein Elementarspektrum S_E(f) in dem zu sendenden Datenblock 21 übertragen wird, wenn keine passende Referenz gefunden wird. Dies ist insbesondere dann der Fall, wenn der Referenzspeicher leer ist, z. B. am Beginn einer Übertragung, bei der nicht auf Referen zen einer früheren Übertragung oder vorgegebene Star treferenzen zurückgegriffen wird. Jedes in einen zu sendenden Datenblock 21 eingetragene Elementarsignal s_E(t) oder Elementarspektrum S_E(f) wird zugleich im Re ferenzspeicher 16 zusammen mit dem zugehörigen Refe renzvektor W_i abgelegt.

Bei einer begrenzten Größe des Referenzspeichers ist es notwendig, alte Einträge zu überschreiben. Dazu wählt man günstigsten Falls solche Einträge aus, die relativ alt sind und dennoch nur selten als passende Referenzen zur Übertragung ausgewählt wurden. Der Index i der Re ferenzspeicherposition des neuen Elements wird eben falls in den zu sendenden Datenblock 21 eingetragen, um ihn im Referenzspeicher des Empfängers an der selben Indexposition i als Referenzsignal s_i(t), bzw. Refe renzspektrum S_i(f) abzuspeichern.

Empfängerseitig werden die gesendeten Datenblöcke von einem Synthesemodul 22, wie er in der Fig. 2 darge stellt ist, ausgewertet. Ein Signalgenerator 23 setzt aus den empfangenen Elementarsignalen s_E(t) und Elemen tarspektren S_E(f) sowie aus indizierten Referenzsigna len s_i(t) und Referenzspektren S_i(f) das synthetisierte Sprachsignal zusammen. Dazu gibt die Kennung 24 eines Datenblocks an, wie die empfangenen Daten zu behandeln sind. Spektren S_E(f) und S_i(f) müssen zuvor durch inverse Fouriertransformation in Zeitsignale umgewandelt werden.

Zur Nachbildung der korrekten Signallautstärke dient die im Datenblock 21 enthaltene Lautstärke E(t). Werden stimmhafte Laute aus Elementarsignalen s_E(t) oder Refe renzsignalen s_i(t) zusammengesetzt, dient der ebenfalls im Datenblock 21 enthaltene Wert der Verzögerung τ_max zur Wiederherstellung der korrekten Frequenz der Grund schwingung des Sprachsignals. Wesentlich für die Funk tionsweise des Synthesemoduls ist die Speicherung von empfangenen Elementarsignalen S_E(t) und Elementarspek tren S_E(f) an der vorgegebenen Indexposition i eines Referenzspeichers 16.

Der entsprechende Referenzindex i ist in jedem Daten block 21 angegeben. Dadurch wird gewährleistet, daß die Referenzspeicher 16 des Kompressionsmoduls 10 auf der Seite des Senders und des Synthesemoduls 22 auf der Seite des Empfängers stets dieselben Einträge aufwei sen.

Das beschriebene Verfahren erlaubt die Übertragung ge sprochener Sprache mit einer Übertragungsrate von unter 1 kBit/s bei sehr guter Sprachqualität. Selbst mit ei nem Referenzspeicher 16, der nur Platz für eine Refe renz bietet uns somit lediglich eine Wiederholung des zuletzt übertragenen Elementarsignals s_E(t) bzw. Ele mentarspektrums S_E(f) ermöglicht, läßt sich bereits ei ne erhebliche Kompression des Sprachsignals erreichen.

Bezugszeichen

10

Kompressionsmodul, das ein Sprachsignal s(t) zu Datenblöcken (

21

) verarbeitet;

11

Mittelungsglied, das die momentane Lautstärke E(t) des Sprachsignals s(t) ermittelt;

12

Autokorrelator, bestimmt die Autokorrelations funktion ϕ _ss

(τ) des Sprachsignals s(t);

13

Maximumdetektor, der das Maximum der Autokorrela tionsfunktion ϕ _ss

(i) bestimmt, das sich an der Stelle τ_max

= 0 befindet;

14

Normierglied, das eine Periode des Sprachsignals s(t) zu einem normierten Elementarsignal s_E

(t) definierter Länge und Energie verarbeitet;

15

Fouriertransformator, berechnet das Spektrum S(f) des Sprachsignals s(t);

16

Referenzspeicher, in dem Referenzsignale s_i

(t) und Referenzspektren S_i

(f) sowie die zugehörigen Referenzvektoren W_i

gespeichert werden:

17

Kreuzkorrelator zur Berechnung des Kreuzkorrela tionskoeffizients ϕ _iE

18

Spektralanalyse, die aus einem Spektrum S_E

(f) ei nen Elementarvektor W_E

erzeugt;

19

Vergleichseinheit, die entscheidet, ob im Refe renzspeicher (

16

) eine passendes Referenz vorhan den ist, um das Elementarsignal s_E

(t) zu erset zen;

20

Übertragungskanal, über den die Datenblöcke (

21

) gesendet werden;

21

Datenblock, der die Angaben zur empfängerseitigen Sprachsynthese enthält;

22

Synthesemodul, das die Datenblöcken (

21

) empfängt und einen Referenzspeicher (

16

) sowie einen Sig nalgenerator zur Sprachsynthese beinhaltet;

23

Signalgenerator, der aus empfangenen Elementarsi gnalen s_E

(t) und gespeicherten Referenzsignalen s_i

(t) Sprachsignal s(t) erzeugt;

24

Kennung eines Datenblocks (

21

), die dessen Daten charakterisiert;
E(t) momentane Lautstärke des Sprachsignals s(t);
f Frequenz
k Komponentenindizierung von Elementarvektor W_E

und der Filterfunktionen F_k

(f);
F_k

(f) Filterfunktionen, mit denen per Spektralanalyse (

18

) aus einem Spektrum S_E

(f) ein Elementarvektor W_E

berechnet wird;
i Index, mit dem Referenzen im Referenzspeicher adressiert werden;
i_min

Index des Referenzvektors mit dem minimalen Ab stand zum Elementarvektor W_E

;
s(t) digitalisiertes Sprachsignal;
S(t, f) normiertes Betragsspektrum des Sprachsignals in einem vorgegeben Zeitintervall;
s_E

(t) normiertes Elementarsignal, entspricht einer Peri ode der Grundschwingung von s(t) zu einem Zeit punkt t = t₀

, auf konstante Länge und Energie ska liert;
S_E

(f) normiertes Elementarspektrum, entspricht dem Spek trum S(t, f) zum Zeitpunkt t = t₀

;
s_i

(t) Referenzsignal, im Referenzspeicher (

16

) abgeleg tes Elementarsignal s_E

(t);
S_i

(f) Referenzspektrum, im Referenzspeicher (

16

) abge legtes Elementarspektrum S_E

(f);
t₀

willkürlich herausgegriffener Zeitpunkt
W_E

Elementarvektor, durch Spektralanalyse (

18

) aus Elementarspektrum S_E

(f) erzeugt;
W_Ek

Komponenten des Elementarvektors W_E

;
W_i

Referenzvektor, ein im Referenzspeicher (

16

) abge legter Elementarvektor W_E

;
Δt Zeitintervall, auf dem die Lautstärke E(t) und die Autokorrelationsfunktion ϕ _ss

(t, τ) bzw. der Kreuz korrelationskoeffizient ϕ _iE

berechnet werden;
ϕ _ss

(t₀

, τ) Autokorrelationsfunktion des Sprachsignals s(t) zum Zeitpunkt t₀

;
ϕ _iE

Kreuzkorrelationskoeffizient von Elementarsignal s_E

(t) und Referenzsignal s_i

(t);
ϑ Schwellwert beim Vergleich von Elementarsignal s_E

(t) und Referenzsignalen s_i

(t);
τ Verzögerungszeit als Argument der Autokorrelati onsfunktion ϕ _ss

(t, τ)
τ_max

Verzögerungszeit, bei der das Maximum der Autokor relationsfunktion ϕ _ss

(t₀

, τ) für τ < 0 auftritt, was der Periodenlänge des Sprachsignals s(t) ent spricht.

Claims

1. Verfahren zur Kompression eines digitalisierten Sprachsignals s(t) mittels Benutzung von Referen zindizes (i) variabler Einträge von sender- und empfängerseitig vorhandenen Referenzspeichern, da durch gekennzeichnet, daß in einem Kompressionsmo dul (10) auf der Seite des Senders mit Hilfe der Autokorrelationsfunktion ϕ_ss(t, τ) des Sprachsignals s(t) Elementarsignale s_E(t) und/oder Elementarspek tren S_E(f) erzeugt werden, welche mit mindestens einem im Referenzspeicher (16) unter, dem Index 1 abgelegten Referenzsignal s_i(t) bzw. Referenzspek trum S_i(f) verglichen werden, wobei im Falle über schwelliger Ähnlichkeit zwischen dem Elementarsi gnal s_E(t) und einem Referenzsignal s_i(t) bzw. zwi schen dem Elementarspektrum S_E(f) und einem Refe renzspektrum S_i(f) anstelle des Elementarsignals s_E(t) bzw. Elementarspektrums S_E(f) der Index i der ähnlichsten Referenz zu einem Synthesemodul (22) auf der Seite des Empfängers übertragen wird, und das Elementarsignal s_E(t) bzw. Elementarspektrum S_E(f) zum Synthesemodul (22) übertragen sowie im Kompressionsmodul (10) und im Synthesemodul (22) unter demselben Index i im Referenzspeicher (16) als Referenzsignal s_i(t) bzw. Referenzspektrum S_i(f) gespeichert wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim Speichern neuer Referenzsignale s_i(t) bzw. Referenzspektren S_i(f) im Referenzspeicher (16), sofern dort kein freier Speicher mehr vorhanden ist, alte Einträge überschrieben werden, die selten Ähnlichkeit mit Elementarsignalen S_E(t) bzw. Ele mentarspektren S_E(f) zeigten.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekenn zeichnet, daß die Periodenlänge eines Elementarsi gnals zum Zeitpunkt t₀ der Verzögerungszeit τmax entspricht, bei der ein Maximum der Autokorrelati onsfunktion ϕ_ss(t₀, τ) für τ < 0 auftritt.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß aus dem Sprachsignal s(t) zu jedem Zeitpunkt t₀ ein Elementarvektor W_E durch An wendung von Filterfunktionen F_k(f) auf das Spektrum S(t₀, f) berechnet wird, zu jedem Referenzsignal s_i(t) und jedem Referenzspektrum S_i(f) des Refe renzspeichers (16) ein entsprechend definierter Re ferenzvektor W_i gespeichert ist, wobei in der Ver gleichseinheit (19) des Kompressionsmoduls (10) die Ähnlichkeit zwischen Elementarsignal S_E(t) und Re ferenzsignal s_i(t) sowie zwischen Elementarspektrum S_E(f) und Referenzspektrum S_i(f) als inverser Ab stand W_E-W_i ^-1 zwischen dem Elementarvektor W_E und dem entsprechenden Referenzvektor W_i definiert ist.

5. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß für stimmhafte und stimmlose Laute separate Referenzspeicher (16) verwendet werden.

6. Verfahren nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß Referenzspeicher (16) und Vergleichseinheit (19) in einem selbstor ganisierenden neuronalen Netzwerk zusammengefaßt sind.

7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß alle Referenzsi gnale s_i(t) des Referenzspeichers auf die gleiche Energie und Länge skaliert sind und mit Hilfe des Kreuzkorrelationskoeffizients ϕ_iE mit einem Elemen tarsignal s_E(t) verglichen werden, während Refe renzspektren S_i(f) und Elementarspektren S_E(f) wie in Anspruch 4 verglichen werden.

8. Verfahren nach einem oder mehreren der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß Datenblöcke (21), die die komprimierte Sprachinformation bein halten, vom Kompressionsmodul (10) zum Synthesemo dul (22) übertragen werden, wobei jeder Datenblock (21) eine Kennung (24) zur Charakterisierung der enthaltenen Information sowie einen Referenzindex i zur Angabe einer Referenzspeicherposition aufweist.

9. Verfahren nach einem oder mehreren der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß ein Datenblock (21) zusätzlich Information über die korrekte Si gnallautstärke E(t) und die korrekte Grundfrequenz τ_max des Sprachsignals enthält.

10. Verfahren nach einem oder mehreren der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß ein Datenblock (21) zusätzlich ein Elementarsignal s_E(t) oder ein Elementarspektrum S_E(f) beinhaltet.

11. Vorrichtung nach einem oder mehreren der Ansprüche 1 bis 10, gekennzeichnet durch eine Kompressions einheit (10) auf der Seite des Senders, die Daten blöcke (21) variabler Länge über einen Übertra gungskanal (20) zu einem Synthesemodul (22) auf der Seite des Empfängers sendet.

12. Vorrichtung nach Anspruch 11, dadurch gekennzeich net, daß das Kompressionsmodul (10) ein Mittelungs glied (11) zur Bestimmung der Signallautstärke E(t), einen Autokorrelator (12) zur Bestimmung der Autokorrelationsfunktion ϕ_ss(t, τ) des Sprachsignals s(t), einen Maximumdetektor (13) zur Bestimmung des Maximums der Autokorrelationsfunktion ϕ_ss(t₀, τ_max) zum Zeitpunkt t₀ bei der Verzögerung τ_max < 0, ein Normierglied (14) zur Erzeugung eines normierten Elementarsignals s_E(t) mit Periodenlänge τmax, einen Fouriertransformator zur Berechnung eines Elemen tarspektrums S_E(f) und eine Spektralanalyse (18) zur Berechnung von Elementarvektoren W_E aufweist.

13. Vorrichtung nach Anspruch 11 oder 12, dadurch ge kennzeichnet, daß das Kompressionsmodul (10) zu sätzlich einen Referenzspeicher (16) zur Speiche rung von Referenzsignalen s_i(t), Referenzspektren S_i(f) und Referenzvektoren W_i, sowie eine Ver gleichseinheit zur Ermittlung des Referenzsignals s_i(t) bzw. Referenzspektrums S_i(f), das einem Ele mentarsignal s_E(t) bzw. Elementarspektrum S_E(f) am ähnlichsten ist.

14. Vorrichtung nach Anspruch 11 oder 12, dadurch ge kennzeichnet, daß das Kompressionsmodul (10) zu sätzlich ein selbstorganisierendes neuronales Netzwerk aufweist, das Referenzsignale s_i(t), Referenz spektren S_i(f) und Referenzvektoren W_i speichert, sowie ein Referenzsignal s_i(t) bzw. Referenzspek trum S_i(f) bestimmt, das einem Elementarsignal s_E(t) bzw. Elementarspektrum S_E(f) am ähnlichsten ist.

15. Vorrichtung nach einem der Ansprüche 11 bis 14, da durch gekennzeichnet, daß das Kompressionsmodul zu sätzlich einen Kreuzkorrelator (17) zur Berechnung eines Kreuzkorrelationskoeffizients aufweist, mit dessen Hilfe ein Elementarsignal s_E(t) mit einen Referenzsignal s_i(t) verglichen wird.

16. Vorrichtung nach Anspruch 11, dadurch gekenn zeichnet, daß das Synthesemodul (22) einen Si gnalgenerator (23) zur Synthese eines Sprachsi gnals s(t) sowie einen Referenzspeicher (16) zur Speicherung von mindestens einem Referenzsignal s_i(t) oder Referenzspektrum S_i(f) aufweist.