DE19860133A1 - Verfahren und Vorrichtung zur Sprachkompression - Google Patents
Verfahren und Vorrichtung zur SprachkompressionInfo
- Publication number
- DE19860133A1 DE19860133A1 DE1998160133 DE19860133A DE19860133A1 DE 19860133 A1 DE19860133 A1 DE 19860133A1 DE 1998160133 DE1998160133 DE 1998160133 DE 19860133 A DE19860133 A DE 19860133A DE 19860133 A1 DE19860133 A1 DE 19860133A1
- Authority
- DE
- Germany
- Prior art keywords
- elementary
- signal
- spectrum
- spectra
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 67
- 230000006835 compression Effects 0.000 title claims abstract description 27
- 238000007906 compression Methods 0.000 title claims abstract description 27
- 230000015654 memory Effects 0.000 claims abstract description 38
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000005311 autocorrelation function Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 34
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000010183 spectrum analysis Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Verfahren zur Kompression eines digitalisierten Sprachsignals s(t) mittels Benutzung von Referenzindizes (i) variabler Einträge von sender- und empfängerseitig vorhandenen Referenzspeichern, bei dem in einem Kompressionsmodul (10) auf der Seite des Senders mit Hilfe der Autokorrelationsfunktion phi¶ss¶(t, Ð) des Sprachsignals s(t) Elementarsignale s¶E¶(t) und/oder Elementarspektren S¶E¶(f) erzeugt werden. Die Elementarsignale werden mit mindestens einem im Referenzspeicher (16) unter dem Index i abgelegten Referenzsignal s¶i¶(t) bzw. Referenzspektrum S¶i¶(f) verglichen, wobei im Falle überschwelliger Ähnlichkeit zwischen dem Elementarsignal S¶E¶(t) und einem Referenzsignal s¶i¶(t) bzw. zwischen dem Elementarspektrum S¶E¶(f) und einem Referenzspektrum S¶i¶(f) anstelle des Elementarsignals s¶E¶(t) bzw. Elementarspektrums S¶E¶(f) der Index i der ähnlichsten Referenz zu einem Synthesemodul (22) auf der Seite des Empfängers übertragen wird. Das Elementarsignal s¶E¶(t) bzw. Elementarspektrum S¶E¶(f) wird zum Synthesemodul (22) übertragen sowie im Kompressionsmodul (10) und im Synthesemodul (22) unter demselben Index i im Referenzspeicher (16) als Referenzsignal s¶i¶(t) bzw. Referenzspektrum S¶i¶(f) gespeichert.
Description
Die Erfindung betrifft ein Verfahren zur Kompression
eines digitalisierten Sprachsignals mittels Benutzung
von Referenzindizes variabler Einträge eines sender-
und empfängerseitig vorhandenen Referenzspeichers so
wie eine Vorrichtung zur Realisierung des Verfahrens.
Für eine effiziente Sprachübertragung über einen
Nachrichtenkanal ist eine Kompression des Sprachsi
gnals unerläßlich. Dies gilt insbesondere dann, wenn
die Bandbreite des Nachrichtenkanals durch physikali
sche Randbedingungen begrenzt ist, wie z. B. im Mobil
telefon-Bereich.
Es lassen sich Standard-Kompressionsverfahren, mit
denen ein beliebiges Zeitsignal komprimiert werden
kann, von solchen Verfahren unterscheiden, die aus
schließlich für die komprimierte Übertragung von
Sprache geeignet sind. Mit solchen speziellen Verfahren
läßt sich eine wesentlich höhere Kompressionsrate
erzielen.
Sogenannte Codebuch-Verfahren zur komprimierten Über
tragung von Sprache, wie sie beispielsweise aus der
DE 35 13 243, der DE 40 33 350 oder der DE 35 21 413
bekannt sind, lassen sich in drei verschiedene Phasen
unterteilen, nämlich eine senderseitige Erkennung
festgelegter, verfahrensspezifischer Sprachlemente,
eine Übertragung der Folge der Indizes jener
Sprachlemente, entsprechend dem gesprochenen Signal
und eine empfängerseitige Synthese der Sprache aus
den Sprachelementen, entsprechend den übertragenen
Indizes.
Die verfahrensspezifischen Sprachelemente können sich
auf verschiedenen Ebenen der Sprache befinden. So
wird gemäß der DE 35 21 413 das Sprachsignal aus gan
zen Wörtern zusammen gesetzt. Dies hat allerdings den
Nachteil, daß nur ein begrenzter, zuvor vereinbarter
Wortschatz übertragen werden kann. Sprachsynthese auf
der Ebene der Phoneme, d. h. der vom menschlichen
Sprechapparat erzeugbaren Grundlaute, wird in der DE 30 06 339
und der DE 31 05 518 vorgeschlagen. Andere,
abstraktere Sprachelemente lassen sich z. B. mit Hilfe
des Mel-Cepstrum-Verfahrens definieren, wie es nach
der DE 40 33 350 verwendet werden soll.
Noch andere Verfahren benutzen als Elementarsignale
keine Sprachbausteine im eigentlichen Sinne, sondern
künstliche Signale, die so zusammengesetzt werden,
daß ein akustisches Sprachsignal entsteht. Aus der DE 30 28 000
und der DE 32 18 755 ist es bekannt, zwi
schen stimmhaften und stimmlosen Lauten zu unterscheiden.
In letztgenannten Verfahren werden zur
Sprachsynthese Ton- und Rauschgeneratorsignale ver
wendet, die durch steuerbare Filter moduliert werden.
Allen genannten Verfahren ist gemeinsam, daß die zur
Synthese verwendeten verfahrensgemäßen Sprachelemente
fest vorgegeben sind und nicht an den jeweiligen sen
derseitigen Sprecher angepaßt werden können. Dadurch
ist es im allgemeinen unmöglich, den Klang der Stimme
eines Sprecher naturgetreu zu reproduzieren, was für
eine Telefonverbindung jedoch erstrebenswert ist.
Der vorliegenden Erfindung liegt die Aufgabe zugrun
de, zur empfängerseitigen Sprachsynthese solche Spra
chelemente zu verwenden, die zuvor senderseitig ex
trahiert worden sind.
Gelöst wird diese Aufgabe dadurch, daß in einem Kom
pressionsmodul auf der Seite des Senders mit Hilfe
der Autokorrelationsfunktion ϕss(t, τ) des Sprachsi
gnals s(t) Elementarsignale sE(t) und/oder Elementar
spektren SE(f) erzeugt werden, welche mit mindestens
einem im Referenzspeicher unter dem Index abgelegten
Referenzsignal si(t) bzw. Referenzspektrum Si(f) ver
glichen werden, wobei im Falle überschwelliger Ähn
lichkeit zwischen dem Elementarsignal sE(t) und einem
Referenzsignal si(t) bzw. zwischen dem Elementarspek
trum SE(f) und einem Referenzspektrum Si(f) anstelle
des Elementarsignals sE(t) bzw. Elementarspektrums
SE(f) der Index der ähnlichsten Referenz zu einem,
Synthesemodul auf der Seite des Empfängers übertragen
wird und das Elementarsignal sE(t) bzw. Elementar
spektrum SE(f) zum Synthesemodul zu übertragen sowie
im Kompressionsmodul und im Synthesemodul unter demselben
Index im Referenzspeicher als Referenzsignal
si(t) bzw. Referenzspektrum Si(f) gespeichert wird.
Durch diese Maßnahmen wird es möglich, im empfänger
seitig synthetisierten Sprachsignal die typische
Stimmcharakteristik eines Sprechers zu reproduzieren.
Die Sprachelemente bestehen dabei aus den kleinsten
sinnvoll definierbaren Einheiten des Sprachsignals.
Bei stimmhaften Lauten entspricht ein Elementarsignal
sE(t) z. B. einer Periode der Grundschwingung; bei
stimmlosen Lauten wird ein Elementarspektrum SE(f)
benutzt, daß durch Fourieranalyse auf einem vorgege
benen Zeitintervall gewonnen wird. Diese Sprachele
mente werden sender- und empfängerseitig als Refe
renzsignale si(t) bzw. Referenzspektren Si(f) gespei
chert, so daß sie im Fall ihres wiederholten Auftre
tens nicht erneut übertragen werden müssen, woraus
die Kompression resultiert.
Weitere vorteilhafte Maßnahmen sind in den Unteran
sprüchen beschrieben. Die Erfindung ist in der bei
liegenden Zeichnung dargestellt und wird nachfolgend
näher beschrieben; es zeigt:
Fig. 1 ein Kompressionsmodul, das ein digita
lisiertes Sprachsignal s(t) zu einem
komprimierten Code verarbeitet, der aus
Datenblöcken variabler Länge besteht;
Fig. 2 ein Synthesemodul, das aus den kompri
mierten Daten ein Sprachsignal s(t) ge
neriert, in dem ein empfangener Daten
block zu verarbeiten ist, seine Kennung
festlegt, ein Referenzsignal si(t) bzw.
ein Referenzspektrum Si(f) adressiert
und liest, ein Signalgenerator dieses
dem Referenzspeicher hinzufügt, im Fal
le eines Spektrums nach vorheriger in
verser Fouriertransformation, dem zu
synthetisierenden Sprachsignal s(t) ab
legt, wobei die im Datenblock enthalte
nen Lautstärken- und ggf. Frequenz-
Informationen E(t) verarbeitet werden;
Fig. 3 ein Mittelungsglied zur Bestimmung der
momentanen Signallautstärke E(t), deren
Betrag des Sprachsignals s(t) einem
Zeitintervall Δt aufintegriert wird;
Fig. 4 einen Autokorrelator zur Berechnung der
Autokorrelationsfunktion;
Fig. 5 einen Kreuzkorrelator zur Berechnung
des Korrelationskoeffizienten ϕiE zum
Vergleich eines Elementarsignals sE(t)
mit den Referenzsignalen si(t), die im
Referenzspeicher gespeichert sind;
Fig. 6 eine Spektralanalyse zur Berechnung ei
nes Elementarvektors WE aus einem Ele
mentarsignalspektrum SE(f).
Die in den Fig. 1 bis 6 dargestellte Erfindung wird
im folgenden anhand eines Ausführungsbeispiels näher
erläutert. Dabei werden das Kompressionsmodul 10 und
das Synthesemodul 22 separat betrachtet. Zu Beginn der
Signalverarbeitung im Kompressionsmodul 10 wird die mo
mentane Lautstärke E(t) des digitalisierten Sprachsignal
s(t) mit einem Mittelungsglied 11, wie er in der
Fig. 3 dargestellt ist, bestimmt.
Dazu bestimmt ein Mittelungsglied 11, wie es in der
Fig. 3 dargestellt ist, die aktuelle Lautstärke E(t).
Ein Autokorrelator 12, wie er in der Fig. 4 darge
stellt ist, berechnet die Autokorrelationsfunktion
ϕss(t, τ) des Sprachsignals. Ein nachgeschalteter Maxi
mumdetektor 13 ermittelt das Maximum ϕss(t0, τ)
Die Verzögerungszeit τmax entspricht der Periodenlänge
eines Elementarsignals sE(t). Ein Normierglied 14
bringt das Elementarsignal auf eine vorgegebene Peri
odenlänge und Energie. Zugleich berechnet ein Fourier
transformator 15 das aktuelle Spektrum S(t,f) des
Sprachsignals.
Mittels Spektralanalyse 18, wie ihn die Fig. 6 zeigt,
erhält man aus einem Elementarspektrum SE(f) einen Ele
mentarvektor WE, der in einer Vergleichseinheit 19 mit
den Referenzvektoren Wi des Referenzspeichers 16 ver
glichen wird. Ist der Abstand zum ähnlichsten Referenz
vektor kleiner als eine Schwelle ϑ, wird statt des ge
samten Elementarsignals sE(t) der entsprechende Refe
renzindex imin sowie Lautstärken information E(t) und
Frequenzinformation (τmax) in einem Datenblock 21 ausge
geben. Alternativ wird das Elementarsignal mit den Re
ferenzsignalen si(t) durch einem Kreuzkorrelator 17,
wie ihn die Fig. 5 zeigt, verglichen. Ist keine pas
sende Referenz vorhanden, werden das Elementarsignal
sE(t) und ggf. das Spektrum SE(f) sowie der Elementar
vektor WE im Referenzspeicher abgelegt. In diesen Fall
wird das gesamte Elementarsignal sE(t) bzw. das Elemen
tarspektrum SE(t) dem Datenblock (21) hinzugefügt.
Unter Zuhilfenahme von E(t) berechnet ein Autokorrela
tor 12, wie er in der Fig. 4 dargestellt ist, die nor
mierte Autokorrelationsfunktion ϕss(t, τ) des Sprachsi
gnals s(t), ϕss(t, τ) wird auf einem definierten Zeitin
tervall Δt berechnet und ändert sich mit fortschreiten
der Zeit t.
Im folgenden wird ein fester Zeitpunkt t = t0 betrachtet.
Ein Maximumdetektor 13 bestimmt das Maximum der Auto
korrelationsfunktion ϕss(t0, τ), das sich an der Stelle
τmax < 0 befindet. Besonders vorteilhaft ist es, wenn
die Länge des Zeitintervalls Δt, auf dem ϕss(t0, τ) be
rechnet wird, dem Wert von τmax entspricht. Mit Hilfe
des Werts von ϕss(t0, τmax) entscheidet das Kompressions
modul 10 wie folgt, ob das Sprachsignal s(t) zum Zeit
punkt t0 stimmhaft oder stimmlos ist. Überschreitet
ϕss(t0, τmax) eine vorzugebende Schwelle, handelt es sich
um einen stimmhaften Laut.
Ein stimmloser Laut besteht im wesentlichen aus Rau
schen, daher weist seine Autokorrelationsfunktion kein
ausgeprägtes Maximum für τmax < 0 auf. Liegt ein stimm
hafter Laut vor, wird das Sprachsignal durch ein Nor
mierglied 14 zu einem Elementarsignal sE(t) verarbei
tet, das eine vorgegebene Länge, Energie und Phasenlage
aufweist. Dieses normierte Elementarsignal sE(t) be
steht aus einer einzigen Periode des Sprachsignals
s(t). Die Länge dieser Periode entspricht dem Wert von
τmax. Das Elementarsignal SE(t) wird mit den im Refe
renzspeicher gespeicherten Referenzsignalen si(t) verglichen.
Dies kann bei stimmhaften Lauten auf zweierlei
Weise geschehen.
In dem im folgenden beschriebenen Ausführungsbeispiel
werden stimmhafte wie stimmlose Laute mittels Spektral
analyse 18 im Frequenzraum verglichen. Dazu berechnet
ein Fouriertransformator 15 das zeitlich veränderliche
Spektrum S(t, f) des Sprachsignals s(t). Das normierte
Betragsspektrum zu einem Zeitpunkt t = t0 wird im folgen
den Elementarspektrum SE(f) genannt. SE(f) kann auch
durch Fouriertransformation der Autokorrelation ϕ(t0, τ)
gewonnen werden. Mittels Spektralanalyse 18 wird aus
einem Elementarspektrum SE(f) durch Anwendung von
Filterfunktionen Fk(f) ein Elementarvektor WE berechnet
wie dies die Fig. 6 zeigt.
Mit Hilfe dieses Elementarvektors WE erfolgt der Ver
gleich mit den Einträgen des Referenzspeichers 16 auf
folgende Weise. Zu jedem gespeicherten Referenzsignal
si(t). bzw. Referenzspektrum Si(f) korrespondiert ein
Referenzvektor Wi, der dem soeben erläuterten Elemen
tarvektor WE des jeweiligen Referenzsignals entspricht.
Der Vergleich des Elementarvektors WE mit den Referenz
vektoren Wi erfolgt in einer Vergleichseinheit 19.
Bei imin der Index des Referenzvektors Wi mit dem klein
sten Abstand aller Wi zum Elementarvektor WE. Das In
verse dieses Abstands ist ein Maß für die Ähnlichkeit
der Signale bzw. Spektren. Ist der minimale Abstand
kleiner als ein vorzugebender Schwellwert, läßt sich
das Elementarsignal sE(t) bzw. das Elementarspektrum
SE(f) durch die entsprechende Referenz ersetzen. In
diesem Fall tragt die Vergleichseinheit 19 nur den In
dex imin zusammen mit der korrekten Lautstarke E(t) in
den zu sendenden Datenblock 21 ein. Bei entsprechend
gewähltem Schwellwert kann auf diese Weise jeder belie
bige Laut durch eine Referenz ersetzt werden.
Im Falle eines stimmhaften Lauts enthält der Datenblock
21 zusätzlich den Wert von τmax, der zur Synthese des
Sprachsignals mit der korrekten Grundfrequenz benötigt
wird. Ein jeder Datenblock 21 beginnt mit einer Kennung
24, in der codiert ist, welcher Art die übertragene In
formation ist.
In einer anderen Ausführung der Erfindung werden für
stimmhafte und stimmlose Laute separate Referenzspei
cher verwendet. In noch einer anderen Ausführung der
Erfindung sind Vergleichseinheit 19 und Referenzspei
cher 16 in einem selbstorganisierenden neuronalen Netz
werk zusammengefaßt, das sich durch eine besonders ge
schickte Behandlung der Referenzvektoren Wi auszeich
net.
In wieder einem anderen Ausführungsbeispiel erfolgt der
Vergleich stimmhafter Laute im Zeitbereich. Statt des
Vergleichs eines Elementarvektors WE mit den Referenz
vektoren Wi wird das Elementarsignal sE(t), wie in der
Fig. 5 dargestellt, per Kreuzkorrelation mit den Refe
renzsignalen si(t) verglichen. Dazu berechnet ein
Kreuzkorrelator 17 die Korrelationskoeffizienten ϕ iE.
Ist der minimale Korrelationskoeffizienten ϕ iE kleiner
als eine vorzugebende Schwelle ϑ, wird das Elementarsi
gnal als bekannt betrachtet und - wie zuvor erläutert -
behandelt. Die Verarbeitung stimmloser Laute erfolgt
weiterhin wie im zuerst beschriebenen Ausführungsbei
spiel.
Allen genannten Ausführungsbeispielen ist gemeinsam,
daß ein komplettes Elementarsignal sE(t), bzw. im Falle
stimmloser Laute ein Elementarspektrum SE(f) in dem zu
sendenden Datenblock 21 übertragen wird, wenn keine
passende Referenz gefunden wird. Dies ist insbesondere
dann der Fall, wenn der Referenzspeicher leer ist, z. B.
am Beginn einer Übertragung, bei der nicht auf Referen
zen einer früheren Übertragung oder vorgegebene Star
treferenzen zurückgegriffen wird. Jedes in einen zu
sendenden Datenblock 21 eingetragene Elementarsignal
sE(t) oder Elementarspektrum SE(f) wird zugleich im Re
ferenzspeicher 16 zusammen mit dem zugehörigen Refe
renzvektor Wi abgelegt.
Bei einer begrenzten Größe des Referenzspeichers ist es
notwendig, alte Einträge zu überschreiben. Dazu wählt
man günstigsten Falls solche Einträge aus, die relativ
alt sind und dennoch nur selten als passende Referenzen
zur Übertragung ausgewählt wurden. Der Index i der Re
ferenzspeicherposition des neuen Elements wird eben
falls in den zu sendenden Datenblock 21 eingetragen, um
ihn im Referenzspeicher des Empfängers an der selben
Indexposition i als Referenzsignal si(t), bzw. Refe
renzspektrum Si(f) abzuspeichern.
Empfängerseitig werden die gesendeten Datenblöcke von
einem Synthesemodul 22, wie er in der Fig. 2 darge
stellt ist, ausgewertet. Ein Signalgenerator 23 setzt
aus den empfangenen Elementarsignalen sE(t) und Elemen
tarspektren SE(f) sowie aus indizierten Referenzsigna
len si(t) und Referenzspektren Si(f) das synthetisierte
Sprachsignal zusammen. Dazu gibt die Kennung 24 eines
Datenblocks an, wie die empfangenen Daten zu behandeln
sind. Spektren SE(f) und Si(f) müssen zuvor durch inverse
Fouriertransformation in Zeitsignale umgewandelt
werden.
Zur Nachbildung der korrekten Signallautstärke dient
die im Datenblock 21 enthaltene Lautstärke E(t). Werden
stimmhafte Laute aus Elementarsignalen sE(t) oder Refe
renzsignalen si(t) zusammengesetzt, dient der ebenfalls
im Datenblock 21 enthaltene Wert der Verzögerung τmax
zur Wiederherstellung der korrekten Frequenz der Grund
schwingung des Sprachsignals. Wesentlich für die Funk
tionsweise des Synthesemoduls ist die Speicherung von
empfangenen Elementarsignalen SE(t) und Elementarspek
tren SE(f) an der vorgegebenen Indexposition i eines
Referenzspeichers 16.
Der entsprechende Referenzindex i ist in jedem Daten
block 21 angegeben. Dadurch wird gewährleistet, daß die
Referenzspeicher 16 des Kompressionsmoduls 10 auf der
Seite des Senders und des Synthesemoduls 22 auf der
Seite des Empfängers stets dieselben Einträge aufwei
sen.
Das beschriebene Verfahren erlaubt die Übertragung ge
sprochener Sprache mit einer Übertragungsrate von unter
1 kBit/s bei sehr guter Sprachqualität. Selbst mit ei
nem Referenzspeicher 16, der nur Platz für eine Refe
renz bietet uns somit lediglich eine Wiederholung des
zuletzt übertragenen Elementarsignals sE(t) bzw. Ele
mentarspektrums SE(f) ermöglicht, läßt sich bereits ei
ne erhebliche Kompression des Sprachsignals erreichen.
10
Kompressionsmodul, das ein Sprachsignal s(t) zu
Datenblöcken (
21
) verarbeitet;
11
Mittelungsglied, das die momentane Lautstärke
E(t) des Sprachsignals s(t) ermittelt;
12
Autokorrelator, bestimmt die Autokorrelations
funktion ϕ ss
(τ) des Sprachsignals s(t);
13
Maximumdetektor, der das Maximum der Autokorrela
tionsfunktion ϕ ss
(i) bestimmt, das sich an der
Stelle τmax
= 0 befindet;
14
Normierglied, das eine Periode des Sprachsignals
s(t) zu einem normierten Elementarsignal sE
(t)
definierter Länge und Energie verarbeitet;
15
Fouriertransformator, berechnet das Spektrum S(f)
des Sprachsignals s(t);
16
Referenzspeicher, in dem Referenzsignale si
(t)
und Referenzspektren Si
(f) sowie die zugehörigen
Referenzvektoren Wi
gespeichert werden:
17
Kreuzkorrelator zur Berechnung des Kreuzkorrela
tionskoeffizients ϕ iE
18
Spektralanalyse, die aus einem Spektrum SE
(f) ei
nen Elementarvektor WE
erzeugt;
19
Vergleichseinheit, die entscheidet, ob im Refe
renzspeicher (
16
) eine passendes Referenz vorhan
den ist, um das Elementarsignal sE
(t) zu erset
zen;
20
Übertragungskanal, über den die Datenblöcke (
21
)
gesendet werden;
21
Datenblock, der die Angaben zur empfängerseitigen
Sprachsynthese enthält;
22
Synthesemodul, das die Datenblöcken (
21
) empfängt
und einen Referenzspeicher (
16
) sowie einen Sig
nalgenerator zur Sprachsynthese beinhaltet;
23
Signalgenerator, der aus empfangenen Elementarsi
gnalen sE
(t) und gespeicherten Referenzsignalen
si
(t) Sprachsignal s(t) erzeugt;
24
Kennung eines Datenblocks (
21
), die dessen Daten
charakterisiert;
E(t) momentane Lautstärke des Sprachsignals s(t);
f Frequenz
k Komponentenindizierung von Elementarvektor WE
E(t) momentane Lautstärke des Sprachsignals s(t);
f Frequenz
k Komponentenindizierung von Elementarvektor WE
und
der Filterfunktionen Fk
(f);
Fk
Fk
(f) Filterfunktionen, mit denen per Spektralanalyse
(
18
) aus einem Spektrum SE
(f) ein Elementarvektor
WE
berechnet wird;
i Index, mit dem Referenzen im Referenzspeicher adressiert werden;
imin
i Index, mit dem Referenzen im Referenzspeicher adressiert werden;
imin
Index des Referenzvektors mit dem minimalen Ab
stand zum Elementarvektor WE
;
s(t) digitalisiertes Sprachsignal;
S(t, f) normiertes Betragsspektrum des Sprachsignals in einem vorgegeben Zeitintervall;
sE
s(t) digitalisiertes Sprachsignal;
S(t, f) normiertes Betragsspektrum des Sprachsignals in einem vorgegeben Zeitintervall;
sE
(t) normiertes Elementarsignal, entspricht einer Peri
ode der Grundschwingung von s(t) zu einem Zeit
punkt t = t0
, auf konstante Länge und Energie ska
liert;
SE
SE
(f) normiertes Elementarspektrum, entspricht dem Spek
trum S(t, f) zum Zeitpunkt t = t0
;
si
si
(t) Referenzsignal, im Referenzspeicher (
16
) abgeleg
tes Elementarsignal sE
(t);
Si
Si
(f) Referenzspektrum, im Referenzspeicher (
16
) abge
legtes Elementarspektrum SE
(f);
t0
t0
willkürlich herausgegriffener Zeitpunkt
WE
WE
Elementarvektor, durch Spektralanalyse (
18
) aus
Elementarspektrum SE
(f) erzeugt;
WEk
WEk
Komponenten des Elementarvektors WE
;
Wi
Wi
Referenzvektor, ein im Referenzspeicher (
16
) abge
legter Elementarvektor WE
;
Δt Zeitintervall, auf dem die Lautstärke E(t) und die Autokorrelationsfunktion ϕ ss
Δt Zeitintervall, auf dem die Lautstärke E(t) und die Autokorrelationsfunktion ϕ ss
(t, τ) bzw. der Kreuz
korrelationskoeffizient ϕ iE
berechnet werden;
ϕ ss
ϕ ss
(t0
, τ) Autokorrelationsfunktion des Sprachsignals
s(t) zum Zeitpunkt t0
;
ϕ iE
ϕ iE
Kreuzkorrelationskoeffizient von Elementarsignal
sE
(t) und Referenzsignal si
(t);
ϑ Schwellwert beim Vergleich von Elementarsignal sE
ϑ Schwellwert beim Vergleich von Elementarsignal sE
(t) und Referenzsignalen si
(t);
τ Verzögerungszeit als Argument der Autokorrelati onsfunktion ϕ ss
τ Verzögerungszeit als Argument der Autokorrelati onsfunktion ϕ ss
(t, τ)
τmax
τmax
Verzögerungszeit, bei der das Maximum der Autokor
relationsfunktion ϕ ss
(t0
, τ) für τ < 0 auftritt,
was der Periodenlänge des Sprachsignals s(t) ent
spricht.
Claims (16)
1. Verfahren zur Kompression eines digitalisierten
Sprachsignals s(t) mittels Benutzung von Referen
zindizes (i) variabler Einträge von sender- und
empfängerseitig vorhandenen Referenzspeichern, da
durch gekennzeichnet, daß in einem Kompressionsmo
dul (10) auf der Seite des Senders mit Hilfe der
Autokorrelationsfunktion ϕss(t, τ) des Sprachsignals
s(t) Elementarsignale sE(t) und/oder Elementarspek
tren SE(f) erzeugt werden, welche mit mindestens
einem im Referenzspeicher (16) unter, dem Index 1
abgelegten Referenzsignal si(t) bzw. Referenzspek
trum Si(f) verglichen werden, wobei im Falle über
schwelliger Ähnlichkeit zwischen dem Elementarsi
gnal sE(t) und einem Referenzsignal si(t) bzw. zwi
schen dem Elementarspektrum SE(f) und einem Refe
renzspektrum Si(f) anstelle des Elementarsignals
sE(t) bzw. Elementarspektrums SE(f) der Index i der
ähnlichsten Referenz zu einem Synthesemodul (22)
auf der Seite des Empfängers übertragen wird, und
das Elementarsignal sE(t) bzw. Elementarspektrum
SE(f) zum Synthesemodul (22) übertragen sowie im
Kompressionsmodul (10) und im Synthesemodul (22)
unter demselben Index i im Referenzspeicher (16)
als Referenzsignal si(t) bzw. Referenzspektrum
Si(f) gespeichert wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß beim Speichern neuer Referenzsignale si(t) bzw.
Referenzspektren Si(f) im Referenzspeicher (16),
sofern dort kein freier Speicher mehr vorhanden
ist, alte Einträge überschrieben werden, die selten
Ähnlichkeit mit Elementarsignalen SE(t) bzw. Ele
mentarspektren SE(f) zeigten.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekenn
zeichnet, daß die Periodenlänge eines Elementarsi
gnals zum Zeitpunkt t0 der Verzögerungszeit τmax
entspricht, bei der ein Maximum der Autokorrelati
onsfunktion ϕss(t0, τ) für τ < 0 auftritt.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch
gekennzeichnet, daß aus dem Sprachsignal s(t) zu
jedem Zeitpunkt t0 ein Elementarvektor WE durch An
wendung von Filterfunktionen Fk(f) auf das Spektrum
S(t0, f) berechnet wird, zu jedem Referenzsignal
si(t) und jedem Referenzspektrum Si(f) des Refe
renzspeichers (16) ein entsprechend definierter Re
ferenzvektor Wi gespeichert ist, wobei in der Ver
gleichseinheit (19) des Kompressionsmoduls (10) die
Ähnlichkeit zwischen Elementarsignal SE(t) und Re
ferenzsignal si(t) sowie zwischen Elementarspektrum
SE(f) und Referenzspektrum Si(f) als inverser Ab
stand WE-Wi -1 zwischen dem Elementarvektor WE und
dem entsprechenden Referenzvektor Wi definiert ist.
5. Verfahren nach einem oder mehreren der Ansprüche 1
bis 4, dadurch gekennzeichnet, daß für stimmhafte
und stimmlose Laute separate Referenzspeicher (16)
verwendet werden.
6. Verfahren nach einem oder mehreren der Ansprüche 1
bis 5, dadurch gekennzeichnet, daß Referenzspeicher
(16) und Vergleichseinheit (19) in einem selbstor
ganisierenden neuronalen Netzwerk zusammengefaßt
sind.
7. Verfahren nach einem oder mehreren der Ansprüche 1
bis 4, dadurch gekennzeichnet, daß alle Referenzsi
gnale si(t) des Referenzspeichers auf die gleiche
Energie und Länge skaliert sind und mit Hilfe des
Kreuzkorrelationskoeffizients ϕiE mit einem Elemen
tarsignal sE(t) verglichen werden, während Refe
renzspektren Si(f) und Elementarspektren SE(f) wie
in Anspruch 4 verglichen werden.
8. Verfahren nach einem oder mehreren der Ansprüche 1
bis 7, dadurch gekennzeichnet, daß Datenblöcke
(21), die die komprimierte Sprachinformation bein
halten, vom Kompressionsmodul (10) zum Synthesemo
dul (22) übertragen werden, wobei jeder Datenblock
(21) eine Kennung (24) zur Charakterisierung der
enthaltenen Information sowie einen Referenzindex i
zur Angabe einer Referenzspeicherposition aufweist.
9. Verfahren nach einem oder mehreren der Ansprüche 1
bis 8, dadurch gekennzeichnet, daß ein Datenblock
(21) zusätzlich Information über die korrekte Si
gnallautstärke E(t) und die korrekte Grundfrequenz
τmax des Sprachsignals enthält.
10. Verfahren nach einem oder mehreren der Ansprüche 1
bis 9, dadurch gekennzeichnet, daß ein Datenblock
(21) zusätzlich ein Elementarsignal sE(t) oder ein
Elementarspektrum SE(f) beinhaltet.
11. Vorrichtung nach einem oder mehreren der Ansprüche
1 bis 10, gekennzeichnet durch eine Kompressions
einheit (10) auf der Seite des Senders, die Daten
blöcke (21) variabler Länge über einen Übertra
gungskanal (20) zu einem Synthesemodul (22) auf der
Seite des Empfängers sendet.
12. Vorrichtung nach Anspruch 11, dadurch gekennzeich
net, daß das Kompressionsmodul (10) ein Mittelungs
glied (11) zur Bestimmung der Signallautstärke
E(t), einen Autokorrelator (12) zur Bestimmung der
Autokorrelationsfunktion ϕss(t, τ) des Sprachsignals
s(t), einen Maximumdetektor (13) zur Bestimmung des
Maximums der Autokorrelationsfunktion ϕss(t0, τmax)
zum Zeitpunkt t0 bei der Verzögerung τmax < 0, ein
Normierglied (14) zur Erzeugung eines normierten
Elementarsignals sE(t) mit Periodenlänge τmax, einen
Fouriertransformator zur Berechnung eines Elemen
tarspektrums SE(f) und eine Spektralanalyse (18)
zur Berechnung von Elementarvektoren WE aufweist.
13. Vorrichtung nach Anspruch 11 oder 12, dadurch ge
kennzeichnet, daß das Kompressionsmodul (10) zu
sätzlich einen Referenzspeicher (16) zur Speiche
rung von Referenzsignalen si(t), Referenzspektren
Si(f) und Referenzvektoren Wi, sowie eine Ver
gleichseinheit zur Ermittlung des Referenzsignals
si(t) bzw. Referenzspektrums Si(f), das einem Ele
mentarsignal sE(t) bzw. Elementarspektrum SE(f) am
ähnlichsten ist.
14. Vorrichtung nach Anspruch 11 oder 12, dadurch ge
kennzeichnet, daß das Kompressionsmodul (10) zu
sätzlich ein selbstorganisierendes neuronales Netzwerk
aufweist, das Referenzsignale si(t), Referenz
spektren Si(f) und Referenzvektoren Wi speichert,
sowie ein Referenzsignal si(t) bzw. Referenzspek
trum Si(f) bestimmt, das einem Elementarsignal
sE(t) bzw. Elementarspektrum SE(f) am ähnlichsten
ist.
15. Vorrichtung nach einem der Ansprüche 11 bis 14, da
durch gekennzeichnet, daß das Kompressionsmodul zu
sätzlich einen Kreuzkorrelator (17) zur Berechnung
eines Kreuzkorrelationskoeffizients aufweist, mit
dessen Hilfe ein Elementarsignal sE(t) mit einen
Referenzsignal si(t) verglichen wird.
16. Vorrichtung nach Anspruch 11, dadurch gekenn
zeichnet, daß das Synthesemodul (22) einen Si
gnalgenerator (23) zur Synthese eines Sprachsi
gnals s(t) sowie einen Referenzspeicher (16) zur
Speicherung von mindestens einem Referenzsignal
si(t) oder Referenzspektrum Si(f) aufweist.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1998160133 DE19860133C2 (de) | 1998-12-17 | 1998-12-17 | Verfahren und Vorrichtung zur Sprachkompression |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1998160133 DE19860133C2 (de) | 1998-12-17 | 1998-12-17 | Verfahren und Vorrichtung zur Sprachkompression |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE19860133A1 true DE19860133A1 (de) | 2001-07-12 |
| DE19860133C2 DE19860133C2 (de) | 2001-11-22 |
Family
ID=7892709
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE1998160133 Expired - Fee Related DE19860133C2 (de) | 1998-12-17 | 1998-12-17 | Verfahren und Vorrichtung zur Sprachkompression |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE19860133C2 (de) |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE3006339A1 (de) * | 1979-02-20 | 1980-08-21 | Sharp Kk | Verfahren und einrichtung zur sprachsynthese |
| DE3028000A1 (de) * | 1980-07-24 | 1982-02-25 | Vdo Adolf Schindling Ag, 6000 Frankfurt | Verfahren zur sprachsynthese |
| DE3105518A1 (de) * | 1981-02-11 | 1982-08-19 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens |
| DE3218755A1 (de) * | 1982-05-18 | 1983-11-24 | Siemens AG, 1000 Berlin und 8000 München | Schaltungsanordnung zur elektronischen sprachsynthese |
| DE3513243A1 (de) * | 1985-04-13 | 1986-10-16 | Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt | Verfahren zur sprachuebertragung und sprachspeicherung |
| DE3521413A1 (de) * | 1985-06-14 | 1986-12-18 | Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt | Sprechfunkanordnung |
| DE4033350A1 (de) * | 1989-10-20 | 1991-04-25 | Canon Kk | Verfahren und vorrichtung fuer die sprachverarbeitung |
| US5557705A (en) * | 1991-12-03 | 1996-09-17 | Nec Corporation | Low bit rate speech signal transmitting system using an analyzer and synthesizer |
-
1998
- 1998-12-17 DE DE1998160133 patent/DE19860133C2/de not_active Expired - Fee Related
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE3006339A1 (de) * | 1979-02-20 | 1980-08-21 | Sharp Kk | Verfahren und einrichtung zur sprachsynthese |
| DE3028000A1 (de) * | 1980-07-24 | 1982-02-25 | Vdo Adolf Schindling Ag, 6000 Frankfurt | Verfahren zur sprachsynthese |
| DE3105518A1 (de) * | 1981-02-11 | 1982-08-19 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens |
| DE3218755A1 (de) * | 1982-05-18 | 1983-11-24 | Siemens AG, 1000 Berlin und 8000 München | Schaltungsanordnung zur elektronischen sprachsynthese |
| DE3513243A1 (de) * | 1985-04-13 | 1986-10-16 | Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt | Verfahren zur sprachuebertragung und sprachspeicherung |
| DE3521413A1 (de) * | 1985-06-14 | 1986-12-18 | Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt | Sprechfunkanordnung |
| DE4033350A1 (de) * | 1989-10-20 | 1991-04-25 | Canon Kk | Verfahren und vorrichtung fuer die sprachverarbeitung |
| US5557705A (en) * | 1991-12-03 | 1996-09-17 | Nec Corporation | Low bit rate speech signal transmitting system using an analyzer and synthesizer |
Also Published As
| Publication number | Publication date |
|---|---|
| DE19860133C2 (de) | 2001-11-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69910058T2 (de) | Verbesserung der periodizität eines breitbandsignals | |
| DE60101148T2 (de) | Vorrichtung und verfahren zur sprachsignalmodifizierung | |
| DE60207061T2 (de) | Audiokompression | |
| DE69814517T2 (de) | Sprachkodierung | |
| DE69534285T3 (de) | Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate | |
| DE69509555T2 (de) | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation | |
| DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
| DE69122648T2 (de) | Digitale Teilbandkodierungsvorrichtung | |
| DE60214358T2 (de) | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp | |
| DE69917181T2 (de) | Verfahren zur Bestimmung und zur Anpassung der Blockgrösse für Audiotransformationskodierung | |
| DE3883799T2 (de) | Codierungseinrichtung zur Sprachübertragung. | |
| DE69730779T2 (de) | Verbesserungen bei oder in Bezug auf Sprachkodierung | |
| DE112014000945B4 (de) | Sprachbetonungsgerät | |
| DE69635141T2 (de) | Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung | |
| DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
| DE19715126C2 (de) | Sprachsignal-Codiervorrichtung | |
| EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
| DE60124079T2 (de) | Sprachverarbeitung | |
| DE60307965T2 (de) | Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen | |
| DE69525396T2 (de) | Verfahren zur blinden Entzerrung, und dessen Anwendung zur Spracherkennung | |
| DE60033039T2 (de) | Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen | |
| US4411003A (en) | Multiple-loop adaptive delta modulator | |
| DE4001747A1 (de) | Anpassbares hochpassfilter mit steuerbarer abschneidefrequenz in abhaengigkeit vom eingangssignal und betriebsverfahren hierfuer | |
| EP2380171A2 (de) | Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen | |
| DE19860133C2 (de) | Verfahren und Vorrichtung zur Sprachkompression |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| D2 | Grant after examination | ||
| 8364 | No opposition during term of opposition | ||
| 8327 | Change in the person/name/address of the patent owner |
Owner name: RUWISCH, DIETMAR, DR., 12557 BERLIN, DE |
|
| R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20110701 |