[go: up one dir, main page]

DE19860133A1 - Verfahren und Vorrichtung zur Sprachkompression - Google Patents

Verfahren und Vorrichtung zur Sprachkompression

Info

Publication number
DE19860133A1
DE19860133A1 DE1998160133 DE19860133A DE19860133A1 DE 19860133 A1 DE19860133 A1 DE 19860133A1 DE 1998160133 DE1998160133 DE 1998160133 DE 19860133 A DE19860133 A DE 19860133A DE 19860133 A1 DE19860133 A1 DE 19860133A1
Authority
DE
Germany
Prior art keywords
elementary
signal
spectrum
spectra
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE1998160133
Other languages
English (en)
Other versions
DE19860133C2 (de
Inventor
Dietmar Ruwisch
Ilse Schebesch
Detlef Schweng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RUWISCH, DIETMAR, DR., 12557 BERLIN, DE
Original Assignee
CORTOLOGIC AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CORTOLOGIC AG filed Critical CORTOLOGIC AG
Priority to DE1998160133 priority Critical patent/DE19860133C2/de
Publication of DE19860133A1 publication Critical patent/DE19860133A1/de
Application granted granted Critical
Publication of DE19860133C2 publication Critical patent/DE19860133C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Verfahren zur Kompression eines digitalisierten Sprachsignals s(t) mittels Benutzung von Referenzindizes (i) variabler Einträge von sender- und empfängerseitig vorhandenen Referenzspeichern, bei dem in einem Kompressionsmodul (10) auf der Seite des Senders mit Hilfe der Autokorrelationsfunktion phi¶ss¶(t, Ð) des Sprachsignals s(t) Elementarsignale s¶E¶(t) und/oder Elementarspektren S¶E¶(f) erzeugt werden. Die Elementarsignale werden mit mindestens einem im Referenzspeicher (16) unter dem Index i abgelegten Referenzsignal s¶i¶(t) bzw. Referenzspektrum S¶i¶(f) verglichen, wobei im Falle überschwelliger Ähnlichkeit zwischen dem Elementarsignal S¶E¶(t) und einem Referenzsignal s¶i¶(t) bzw. zwischen dem Elementarspektrum S¶E¶(f) und einem Referenzspektrum S¶i¶(f) anstelle des Elementarsignals s¶E¶(t) bzw. Elementarspektrums S¶E¶(f) der Index i der ähnlichsten Referenz zu einem Synthesemodul (22) auf der Seite des Empfängers übertragen wird. Das Elementarsignal s¶E¶(t) bzw. Elementarspektrum S¶E¶(f) wird zum Synthesemodul (22) übertragen sowie im Kompressionsmodul (10) und im Synthesemodul (22) unter demselben Index i im Referenzspeicher (16) als Referenzsignal s¶i¶(t) bzw. Referenzspektrum S¶i¶(f) gespeichert.

Description

Die Erfindung betrifft ein Verfahren zur Kompression eines digitalisierten Sprachsignals mittels Benutzung von Referenzindizes variabler Einträge eines sender- und empfängerseitig vorhandenen Referenzspeichers so­ wie eine Vorrichtung zur Realisierung des Verfahrens.
Für eine effiziente Sprachübertragung über einen Nachrichtenkanal ist eine Kompression des Sprachsi­ gnals unerläßlich. Dies gilt insbesondere dann, wenn die Bandbreite des Nachrichtenkanals durch physikali­ sche Randbedingungen begrenzt ist, wie z. B. im Mobil­ telefon-Bereich.
Es lassen sich Standard-Kompressionsverfahren, mit denen ein beliebiges Zeitsignal komprimiert werden kann, von solchen Verfahren unterscheiden, die aus­ schließlich für die komprimierte Übertragung von Sprache geeignet sind. Mit solchen speziellen Verfahren läßt sich eine wesentlich höhere Kompressionsrate erzielen.
Sogenannte Codebuch-Verfahren zur komprimierten Über­ tragung von Sprache, wie sie beispielsweise aus der DE 35 13 243, der DE 40 33 350 oder der DE 35 21 413 bekannt sind, lassen sich in drei verschiedene Phasen unterteilen, nämlich eine senderseitige Erkennung festgelegter, verfahrensspezifischer Sprachlemente, eine Übertragung der Folge der Indizes jener Sprachlemente, entsprechend dem gesprochenen Signal und eine empfängerseitige Synthese der Sprache aus den Sprachelementen, entsprechend den übertragenen Indizes.
Die verfahrensspezifischen Sprachelemente können sich auf verschiedenen Ebenen der Sprache befinden. So wird gemäß der DE 35 21 413 das Sprachsignal aus gan­ zen Wörtern zusammen gesetzt. Dies hat allerdings den Nachteil, daß nur ein begrenzter, zuvor vereinbarter Wortschatz übertragen werden kann. Sprachsynthese auf der Ebene der Phoneme, d. h. der vom menschlichen Sprechapparat erzeugbaren Grundlaute, wird in der DE 30 06 339 und der DE 31 05 518 vorgeschlagen. Andere, abstraktere Sprachelemente lassen sich z. B. mit Hilfe des Mel-Cepstrum-Verfahrens definieren, wie es nach der DE 40 33 350 verwendet werden soll.
Noch andere Verfahren benutzen als Elementarsignale keine Sprachbausteine im eigentlichen Sinne, sondern künstliche Signale, die so zusammengesetzt werden, daß ein akustisches Sprachsignal entsteht. Aus der DE 30 28 000 und der DE 32 18 755 ist es bekannt, zwi­ schen stimmhaften und stimmlosen Lauten zu unterscheiden. In letztgenannten Verfahren werden zur Sprachsynthese Ton- und Rauschgeneratorsignale ver­ wendet, die durch steuerbare Filter moduliert werden.
Allen genannten Verfahren ist gemeinsam, daß die zur Synthese verwendeten verfahrensgemäßen Sprachelemente fest vorgegeben sind und nicht an den jeweiligen sen­ derseitigen Sprecher angepaßt werden können. Dadurch ist es im allgemeinen unmöglich, den Klang der Stimme eines Sprecher naturgetreu zu reproduzieren, was für eine Telefonverbindung jedoch erstrebenswert ist.
Der vorliegenden Erfindung liegt die Aufgabe zugrun­ de, zur empfängerseitigen Sprachsynthese solche Spra­ chelemente zu verwenden, die zuvor senderseitig ex­ trahiert worden sind.
Gelöst wird diese Aufgabe dadurch, daß in einem Kom­ pressionsmodul auf der Seite des Senders mit Hilfe der Autokorrelationsfunktion ϕss(t, τ) des Sprachsi­ gnals s(t) Elementarsignale sE(t) und/oder Elementar­ spektren SE(f) erzeugt werden, welche mit mindestens einem im Referenzspeicher unter dem Index abgelegten Referenzsignal si(t) bzw. Referenzspektrum Si(f) ver­ glichen werden, wobei im Falle überschwelliger Ähn­ lichkeit zwischen dem Elementarsignal sE(t) und einem Referenzsignal si(t) bzw. zwischen dem Elementarspek­ trum SE(f) und einem Referenzspektrum Si(f) anstelle des Elementarsignals sE(t) bzw. Elementarspektrums SE(f) der Index der ähnlichsten Referenz zu einem, Synthesemodul auf der Seite des Empfängers übertragen wird und das Elementarsignal sE(t) bzw. Elementar­ spektrum SE(f) zum Synthesemodul zu übertragen sowie im Kompressionsmodul und im Synthesemodul unter demselben Index im Referenzspeicher als Referenzsignal si(t) bzw. Referenzspektrum Si(f) gespeichert wird.
Durch diese Maßnahmen wird es möglich, im empfänger­ seitig synthetisierten Sprachsignal die typische Stimmcharakteristik eines Sprechers zu reproduzieren. Die Sprachelemente bestehen dabei aus den kleinsten sinnvoll definierbaren Einheiten des Sprachsignals. Bei stimmhaften Lauten entspricht ein Elementarsignal sE(t) z. B. einer Periode der Grundschwingung; bei stimmlosen Lauten wird ein Elementarspektrum SE(f) benutzt, daß durch Fourieranalyse auf einem vorgege­ benen Zeitintervall gewonnen wird. Diese Sprachele­ mente werden sender- und empfängerseitig als Refe­ renzsignale si(t) bzw. Referenzspektren Si(f) gespei­ chert, so daß sie im Fall ihres wiederholten Auftre­ tens nicht erneut übertragen werden müssen, woraus die Kompression resultiert.
Weitere vorteilhafte Maßnahmen sind in den Unteran­ sprüchen beschrieben. Die Erfindung ist in der bei­ liegenden Zeichnung dargestellt und wird nachfolgend näher beschrieben; es zeigt:
Fig. 1 ein Kompressionsmodul, das ein digita­ lisiertes Sprachsignal s(t) zu einem komprimierten Code verarbeitet, der aus Datenblöcken variabler Länge besteht;
Fig. 2 ein Synthesemodul, das aus den kompri­ mierten Daten ein Sprachsignal s(t) ge­ neriert, in dem ein empfangener Daten­ block zu verarbeiten ist, seine Kennung festlegt, ein Referenzsignal si(t) bzw. ein Referenzspektrum Si(f) adressiert und liest, ein Signalgenerator dieses dem Referenzspeicher hinzufügt, im Fal­ le eines Spektrums nach vorheriger in­ verser Fouriertransformation, dem zu synthetisierenden Sprachsignal s(t) ab­ legt, wobei die im Datenblock enthalte­ nen Lautstärken- und ggf. Frequenz- Informationen E(t) verarbeitet werden;
Fig. 3 ein Mittelungsglied zur Bestimmung der momentanen Signallautstärke E(t), deren Betrag des Sprachsignals s(t) einem Zeitintervall Δt aufintegriert wird;
Fig. 4 einen Autokorrelator zur Berechnung der Autokorrelationsfunktion;
Fig. 5 einen Kreuzkorrelator zur Berechnung des Korrelationskoeffizienten ϕiE zum Vergleich eines Elementarsignals sE(t) mit den Referenzsignalen si(t), die im Referenzspeicher gespeichert sind;
Fig. 6 eine Spektralanalyse zur Berechnung ei­ nes Elementarvektors WE aus einem Ele­ mentarsignalspektrum SE(f).
Die in den Fig. 1 bis 6 dargestellte Erfindung wird im folgenden anhand eines Ausführungsbeispiels näher erläutert. Dabei werden das Kompressionsmodul 10 und das Synthesemodul 22 separat betrachtet. Zu Beginn der Signalverarbeitung im Kompressionsmodul 10 wird die mo­ mentane Lautstärke E(t) des digitalisierten Sprachsignal s(t) mit einem Mittelungsglied 11, wie er in der Fig. 3 dargestellt ist, bestimmt.
Dazu bestimmt ein Mittelungsglied 11, wie es in der Fig. 3 dargestellt ist, die aktuelle Lautstärke E(t). Ein Autokorrelator 12, wie er in der Fig. 4 darge­ stellt ist, berechnet die Autokorrelationsfunktion ϕss(t, τ) des Sprachsignals. Ein nachgeschalteter Maxi­ mumdetektor 13 ermittelt das Maximum ϕss(t0, τ)
Die Verzögerungszeit τmax entspricht der Periodenlänge eines Elementarsignals sE(t). Ein Normierglied 14 bringt das Elementarsignal auf eine vorgegebene Peri­ odenlänge und Energie. Zugleich berechnet ein Fourier­ transformator 15 das aktuelle Spektrum S(t,f) des Sprachsignals.
Mittels Spektralanalyse 18, wie ihn die Fig. 6 zeigt, erhält man aus einem Elementarspektrum SE(f) einen Ele­ mentarvektor WE, der in einer Vergleichseinheit 19 mit den Referenzvektoren Wi des Referenzspeichers 16 ver­ glichen wird. Ist der Abstand zum ähnlichsten Referenz­ vektor kleiner als eine Schwelle ϑ, wird statt des ge­ samten Elementarsignals sE(t) der entsprechende Refe­ renzindex imin sowie Lautstärken information E(t) und Frequenzinformation (τmax) in einem Datenblock 21 ausge­ geben. Alternativ wird das Elementarsignal mit den Re­ ferenzsignalen si(t) durch einem Kreuzkorrelator 17, wie ihn die Fig. 5 zeigt, verglichen. Ist keine pas­ sende Referenz vorhanden, werden das Elementarsignal sE(t) und ggf. das Spektrum SE(f) sowie der Elementar­ vektor WE im Referenzspeicher abgelegt. In diesen Fall wird das gesamte Elementarsignal sE(t) bzw. das Elemen­ tarspektrum SE(t) dem Datenblock (21) hinzugefügt.
Unter Zuhilfenahme von E(t) berechnet ein Autokorrela­ tor 12, wie er in der Fig. 4 dargestellt ist, die nor­ mierte Autokorrelationsfunktion ϕss(t, τ) des Sprachsi­ gnals s(t), ϕss(t, τ) wird auf einem definierten Zeitin­ tervall Δt berechnet und ändert sich mit fortschreiten­ der Zeit t.
Im folgenden wird ein fester Zeitpunkt t = t0 betrachtet. Ein Maximumdetektor 13 bestimmt das Maximum der Auto­ korrelationsfunktion ϕss(t0, τ), das sich an der Stelle τmax < 0 befindet. Besonders vorteilhaft ist es, wenn die Länge des Zeitintervalls Δt, auf dem ϕss(t0, τ) be­ rechnet wird, dem Wert von τmax entspricht. Mit Hilfe des Werts von ϕss(t0, τmax) entscheidet das Kompressions­ modul 10 wie folgt, ob das Sprachsignal s(t) zum Zeit­ punkt t0 stimmhaft oder stimmlos ist. Überschreitet ϕss(t0, τmax) eine vorzugebende Schwelle, handelt es sich um einen stimmhaften Laut.
Ein stimmloser Laut besteht im wesentlichen aus Rau­ schen, daher weist seine Autokorrelationsfunktion kein ausgeprägtes Maximum für τmax < 0 auf. Liegt ein stimm­ hafter Laut vor, wird das Sprachsignal durch ein Nor­ mierglied 14 zu einem Elementarsignal sE(t) verarbei­ tet, das eine vorgegebene Länge, Energie und Phasenlage aufweist. Dieses normierte Elementarsignal sE(t) be­ steht aus einer einzigen Periode des Sprachsignals s(t). Die Länge dieser Periode entspricht dem Wert von τmax. Das Elementarsignal SE(t) wird mit den im Refe­ renzspeicher gespeicherten Referenzsignalen si(t) verglichen. Dies kann bei stimmhaften Lauten auf zweierlei Weise geschehen.
In dem im folgenden beschriebenen Ausführungsbeispiel werden stimmhafte wie stimmlose Laute mittels Spektral­ analyse 18 im Frequenzraum verglichen. Dazu berechnet ein Fouriertransformator 15 das zeitlich veränderliche Spektrum S(t, f) des Sprachsignals s(t). Das normierte Betragsspektrum zu einem Zeitpunkt t = t0 wird im folgen­ den Elementarspektrum SE(f) genannt. SE(f) kann auch durch Fouriertransformation der Autokorrelation ϕ(t0, τ) gewonnen werden. Mittels Spektralanalyse 18 wird aus einem Elementarspektrum SE(f) durch Anwendung von Filterfunktionen Fk(f) ein Elementarvektor WE berechnet wie dies die Fig. 6 zeigt.
Mit Hilfe dieses Elementarvektors WE erfolgt der Ver­ gleich mit den Einträgen des Referenzspeichers 16 auf folgende Weise. Zu jedem gespeicherten Referenzsignal si(t). bzw. Referenzspektrum Si(f) korrespondiert ein Referenzvektor Wi, der dem soeben erläuterten Elemen­ tarvektor WE des jeweiligen Referenzsignals entspricht. Der Vergleich des Elementarvektors WE mit den Referenz­ vektoren Wi erfolgt in einer Vergleichseinheit 19.
Bei imin der Index des Referenzvektors Wi mit dem klein­ sten Abstand aller Wi zum Elementarvektor WE. Das In­ verse dieses Abstands ist ein Maß für die Ähnlichkeit der Signale bzw. Spektren. Ist der minimale Abstand kleiner als ein vorzugebender Schwellwert, läßt sich das Elementarsignal sE(t) bzw. das Elementarspektrum SE(f) durch die entsprechende Referenz ersetzen. In diesem Fall tragt die Vergleichseinheit 19 nur den In­ dex imin zusammen mit der korrekten Lautstarke E(t) in den zu sendenden Datenblock 21 ein. Bei entsprechend gewähltem Schwellwert kann auf diese Weise jeder belie­ bige Laut durch eine Referenz ersetzt werden.
Im Falle eines stimmhaften Lauts enthält der Datenblock 21 zusätzlich den Wert von τmax, der zur Synthese des Sprachsignals mit der korrekten Grundfrequenz benötigt wird. Ein jeder Datenblock 21 beginnt mit einer Kennung 24, in der codiert ist, welcher Art die übertragene In­ formation ist.
In einer anderen Ausführung der Erfindung werden für stimmhafte und stimmlose Laute separate Referenzspei­ cher verwendet. In noch einer anderen Ausführung der Erfindung sind Vergleichseinheit 19 und Referenzspei­ cher 16 in einem selbstorganisierenden neuronalen Netz­ werk zusammengefaßt, das sich durch eine besonders ge­ schickte Behandlung der Referenzvektoren Wi auszeich­ net.
In wieder einem anderen Ausführungsbeispiel erfolgt der Vergleich stimmhafter Laute im Zeitbereich. Statt des Vergleichs eines Elementarvektors WE mit den Referenz­ vektoren Wi wird das Elementarsignal sE(t), wie in der Fig. 5 dargestellt, per Kreuzkorrelation mit den Refe­ renzsignalen si(t) verglichen. Dazu berechnet ein Kreuzkorrelator 17 die Korrelationskoeffizienten ϕ iE.
Ist der minimale Korrelationskoeffizienten ϕ iE kleiner als eine vorzugebende Schwelle ϑ, wird das Elementarsi­ gnal als bekannt betrachtet und - wie zuvor erläutert - behandelt. Die Verarbeitung stimmloser Laute erfolgt weiterhin wie im zuerst beschriebenen Ausführungsbei­ spiel.
Allen genannten Ausführungsbeispielen ist gemeinsam, daß ein komplettes Elementarsignal sE(t), bzw. im Falle stimmloser Laute ein Elementarspektrum SE(f) in dem zu sendenden Datenblock 21 übertragen wird, wenn keine passende Referenz gefunden wird. Dies ist insbesondere dann der Fall, wenn der Referenzspeicher leer ist, z. B. am Beginn einer Übertragung, bei der nicht auf Referen­ zen einer früheren Übertragung oder vorgegebene Star­ treferenzen zurückgegriffen wird. Jedes in einen zu sendenden Datenblock 21 eingetragene Elementarsignal sE(t) oder Elementarspektrum SE(f) wird zugleich im Re­ ferenzspeicher 16 zusammen mit dem zugehörigen Refe­ renzvektor Wi abgelegt.
Bei einer begrenzten Größe des Referenzspeichers ist es notwendig, alte Einträge zu überschreiben. Dazu wählt man günstigsten Falls solche Einträge aus, die relativ alt sind und dennoch nur selten als passende Referenzen zur Übertragung ausgewählt wurden. Der Index i der Re­ ferenzspeicherposition des neuen Elements wird eben­ falls in den zu sendenden Datenblock 21 eingetragen, um ihn im Referenzspeicher des Empfängers an der selben Indexposition i als Referenzsignal si(t), bzw. Refe­ renzspektrum Si(f) abzuspeichern.
Empfängerseitig werden die gesendeten Datenblöcke von einem Synthesemodul 22, wie er in der Fig. 2 darge­ stellt ist, ausgewertet. Ein Signalgenerator 23 setzt aus den empfangenen Elementarsignalen sE(t) und Elemen­ tarspektren SE(f) sowie aus indizierten Referenzsigna­ len si(t) und Referenzspektren Si(f) das synthetisierte Sprachsignal zusammen. Dazu gibt die Kennung 24 eines Datenblocks an, wie die empfangenen Daten zu behandeln sind. Spektren SE(f) und Si(f) müssen zuvor durch inverse Fouriertransformation in Zeitsignale umgewandelt werden.
Zur Nachbildung der korrekten Signallautstärke dient die im Datenblock 21 enthaltene Lautstärke E(t). Werden stimmhafte Laute aus Elementarsignalen sE(t) oder Refe­ renzsignalen si(t) zusammengesetzt, dient der ebenfalls im Datenblock 21 enthaltene Wert der Verzögerung τmax zur Wiederherstellung der korrekten Frequenz der Grund­ schwingung des Sprachsignals. Wesentlich für die Funk­ tionsweise des Synthesemoduls ist die Speicherung von empfangenen Elementarsignalen SE(t) und Elementarspek­ tren SE(f) an der vorgegebenen Indexposition i eines Referenzspeichers 16.
Der entsprechende Referenzindex i ist in jedem Daten­ block 21 angegeben. Dadurch wird gewährleistet, daß die Referenzspeicher 16 des Kompressionsmoduls 10 auf der Seite des Senders und des Synthesemoduls 22 auf der Seite des Empfängers stets dieselben Einträge aufwei­ sen.
Das beschriebene Verfahren erlaubt die Übertragung ge­ sprochener Sprache mit einer Übertragungsrate von unter 1 kBit/s bei sehr guter Sprachqualität. Selbst mit ei­ nem Referenzspeicher 16, der nur Platz für eine Refe­ renz bietet uns somit lediglich eine Wiederholung des zuletzt übertragenen Elementarsignals sE(t) bzw. Ele­ mentarspektrums SE(f) ermöglicht, läßt sich bereits ei­ ne erhebliche Kompression des Sprachsignals erreichen.
Bezugszeichen
10
Kompressionsmodul, das ein Sprachsignal s(t) zu Datenblöcken (
21
) verarbeitet;
11
Mittelungsglied, das die momentane Lautstärke E(t) des Sprachsignals s(t) ermittelt;
12
Autokorrelator, bestimmt die Autokorrelations­ funktion ϕ ss
(τ) des Sprachsignals s(t);
13
Maximumdetektor, der das Maximum der Autokorrela­ tionsfunktion ϕ ss
(i) bestimmt, das sich an der Stelle τmax
= 0 befindet;
14
Normierglied, das eine Periode des Sprachsignals s(t) zu einem normierten Elementarsignal sE
(t) definierter Länge und Energie verarbeitet;
15
Fouriertransformator, berechnet das Spektrum S(f) des Sprachsignals s(t);
16
Referenzspeicher, in dem Referenzsignale si
(t) und Referenzspektren Si
(f) sowie die zugehörigen Referenzvektoren Wi
gespeichert werden:
17
Kreuzkorrelator zur Berechnung des Kreuzkorrela­ tionskoeffizients ϕ iE
18
Spektralanalyse, die aus einem Spektrum SE
(f) ei­ nen Elementarvektor WE
erzeugt;
19
Vergleichseinheit, die entscheidet, ob im Refe­ renzspeicher (
16
) eine passendes Referenz vorhan­ den ist, um das Elementarsignal sE
(t) zu erset­ zen;
20
Übertragungskanal, über den die Datenblöcke (
21
) gesendet werden;
21
Datenblock, der die Angaben zur empfängerseitigen Sprachsynthese enthält;
22
Synthesemodul, das die Datenblöcken (
21
) empfängt und einen Referenzspeicher (
16
) sowie einen Sig­ nalgenerator zur Sprachsynthese beinhaltet;
23
Signalgenerator, der aus empfangenen Elementarsi­ gnalen sE
(t) und gespeicherten Referenzsignalen si
(t) Sprachsignal s(t) erzeugt;
24
Kennung eines Datenblocks (
21
), die dessen Daten charakterisiert;
E(t) momentane Lautstärke des Sprachsignals s(t);
f Frequenz
k Komponentenindizierung von Elementarvektor WE
und der Filterfunktionen Fk
(f);
Fk
(f) Filterfunktionen, mit denen per Spektralanalyse (
18
) aus einem Spektrum SE
(f) ein Elementarvektor WE
berechnet wird;
i Index, mit dem Referenzen im Referenzspeicher adressiert werden;
imin
Index des Referenzvektors mit dem minimalen Ab­ stand zum Elementarvektor WE
;
s(t) digitalisiertes Sprachsignal;
S(t, f) normiertes Betragsspektrum des Sprachsignals in einem vorgegeben Zeitintervall;
sE
(t) normiertes Elementarsignal, entspricht einer Peri­ ode der Grundschwingung von s(t) zu einem Zeit­ punkt t = t0
, auf konstante Länge und Energie ska­ liert;
SE
(f) normiertes Elementarspektrum, entspricht dem Spek­ trum S(t, f) zum Zeitpunkt t = t0
;
si
(t) Referenzsignal, im Referenzspeicher (
16
) abgeleg­ tes Elementarsignal sE
(t);
Si
(f) Referenzspektrum, im Referenzspeicher (
16
) abge­ legtes Elementarspektrum SE
(f);
t0
willkürlich herausgegriffener Zeitpunkt
WE
Elementarvektor, durch Spektralanalyse (
18
) aus Elementarspektrum SE
(f) erzeugt;
WEk
Komponenten des Elementarvektors WE
;
Wi
Referenzvektor, ein im Referenzspeicher (
16
) abge­ legter Elementarvektor WE
;
Δt Zeitintervall, auf dem die Lautstärke E(t) und die Autokorrelationsfunktion ϕ ss
(t, τ) bzw. der Kreuz­ korrelationskoeffizient ϕ iE
berechnet werden;
ϕ ss
(t0
, τ) Autokorrelationsfunktion des Sprachsignals s(t) zum Zeitpunkt t0
;
ϕ iE
Kreuzkorrelationskoeffizient von Elementarsignal sE
(t) und Referenzsignal si
(t);
ϑ Schwellwert beim Vergleich von Elementarsignal sE
(t) und Referenzsignalen si
(t);
τ Verzögerungszeit als Argument der Autokorrelati­ onsfunktion ϕ ss
(t, τ)
τmax
Verzögerungszeit, bei der das Maximum der Autokor­ relationsfunktion ϕ ss
(t0
, τ) für τ < 0 auftritt, was der Periodenlänge des Sprachsignals s(t) ent­ spricht.

Claims (16)

1. Verfahren zur Kompression eines digitalisierten Sprachsignals s(t) mittels Benutzung von Referen­ zindizes (i) variabler Einträge von sender- und empfängerseitig vorhandenen Referenzspeichern, da­ durch gekennzeichnet, daß in einem Kompressionsmo­ dul (10) auf der Seite des Senders mit Hilfe der Autokorrelationsfunktion ϕss(t, τ) des Sprachsignals s(t) Elementarsignale sE(t) und/oder Elementarspek­ tren SE(f) erzeugt werden, welche mit mindestens einem im Referenzspeicher (16) unter, dem Index 1 abgelegten Referenzsignal si(t) bzw. Referenzspek­ trum Si(f) verglichen werden, wobei im Falle über­ schwelliger Ähnlichkeit zwischen dem Elementarsi­ gnal sE(t) und einem Referenzsignal si(t) bzw. zwi­ schen dem Elementarspektrum SE(f) und einem Refe­ renzspektrum Si(f) anstelle des Elementarsignals sE(t) bzw. Elementarspektrums SE(f) der Index i der ähnlichsten Referenz zu einem Synthesemodul (22) auf der Seite des Empfängers übertragen wird, und das Elementarsignal sE(t) bzw. Elementarspektrum SE(f) zum Synthesemodul (22) übertragen sowie im Kompressionsmodul (10) und im Synthesemodul (22) unter demselben Index i im Referenzspeicher (16) als Referenzsignal si(t) bzw. Referenzspektrum Si(f) gespeichert wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim Speichern neuer Referenzsignale si(t) bzw. Referenzspektren Si(f) im Referenzspeicher (16), sofern dort kein freier Speicher mehr vorhanden ist, alte Einträge überschrieben werden, die selten Ähnlichkeit mit Elementarsignalen SE(t) bzw. Ele­ mentarspektren SE(f) zeigten.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekenn­ zeichnet, daß die Periodenlänge eines Elementarsi­ gnals zum Zeitpunkt t0 der Verzögerungszeit τmax entspricht, bei der ein Maximum der Autokorrelati­ onsfunktion ϕss(t0, τ) für τ < 0 auftritt.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß aus dem Sprachsignal s(t) zu jedem Zeitpunkt t0 ein Elementarvektor WE durch An­ wendung von Filterfunktionen Fk(f) auf das Spektrum S(t0, f) berechnet wird, zu jedem Referenzsignal si(t) und jedem Referenzspektrum Si(f) des Refe­ renzspeichers (16) ein entsprechend definierter Re­ ferenzvektor Wi gespeichert ist, wobei in der Ver­ gleichseinheit (19) des Kompressionsmoduls (10) die Ähnlichkeit zwischen Elementarsignal SE(t) und Re­ ferenzsignal si(t) sowie zwischen Elementarspektrum SE(f) und Referenzspektrum Si(f) als inverser Ab­ stand WE-Wi -1 zwischen dem Elementarvektor WE und dem entsprechenden Referenzvektor Wi definiert ist.
5. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß für stimmhafte und stimmlose Laute separate Referenzspeicher (16) verwendet werden.
6. Verfahren nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß Referenzspeicher (16) und Vergleichseinheit (19) in einem selbstor­ ganisierenden neuronalen Netzwerk zusammengefaßt sind.
7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß alle Referenzsi­ gnale si(t) des Referenzspeichers auf die gleiche Energie und Länge skaliert sind und mit Hilfe des Kreuzkorrelationskoeffizients ϕiE mit einem Elemen­ tarsignal sE(t) verglichen werden, während Refe­ renzspektren Si(f) und Elementarspektren SE(f) wie in Anspruch 4 verglichen werden.
8. Verfahren nach einem oder mehreren der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß Datenblöcke (21), die die komprimierte Sprachinformation bein­ halten, vom Kompressionsmodul (10) zum Synthesemo­ dul (22) übertragen werden, wobei jeder Datenblock (21) eine Kennung (24) zur Charakterisierung der enthaltenen Information sowie einen Referenzindex i zur Angabe einer Referenzspeicherposition aufweist.
9. Verfahren nach einem oder mehreren der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß ein Datenblock (21) zusätzlich Information über die korrekte Si­ gnallautstärke E(t) und die korrekte Grundfrequenz τmax des Sprachsignals enthält.
10. Verfahren nach einem oder mehreren der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß ein Datenblock (21) zusätzlich ein Elementarsignal sE(t) oder ein Elementarspektrum SE(f) beinhaltet.
11. Vorrichtung nach einem oder mehreren der Ansprüche 1 bis 10, gekennzeichnet durch eine Kompressions­ einheit (10) auf der Seite des Senders, die Daten­ blöcke (21) variabler Länge über einen Übertra­ gungskanal (20) zu einem Synthesemodul (22) auf der Seite des Empfängers sendet.
12. Vorrichtung nach Anspruch 11, dadurch gekennzeich­ net, daß das Kompressionsmodul (10) ein Mittelungs­ glied (11) zur Bestimmung der Signallautstärke E(t), einen Autokorrelator (12) zur Bestimmung der Autokorrelationsfunktion ϕss(t, τ) des Sprachsignals s(t), einen Maximumdetektor (13) zur Bestimmung des Maximums der Autokorrelationsfunktion ϕss(t0, τmax) zum Zeitpunkt t0 bei der Verzögerung τmax < 0, ein Normierglied (14) zur Erzeugung eines normierten Elementarsignals sE(t) mit Periodenlänge τmax, einen Fouriertransformator zur Berechnung eines Elemen­ tarspektrums SE(f) und eine Spektralanalyse (18) zur Berechnung von Elementarvektoren WE aufweist.
13. Vorrichtung nach Anspruch 11 oder 12, dadurch ge­ kennzeichnet, daß das Kompressionsmodul (10) zu­ sätzlich einen Referenzspeicher (16) zur Speiche­ rung von Referenzsignalen si(t), Referenzspektren Si(f) und Referenzvektoren Wi, sowie eine Ver­ gleichseinheit zur Ermittlung des Referenzsignals si(t) bzw. Referenzspektrums Si(f), das einem Ele­ mentarsignal sE(t) bzw. Elementarspektrum SE(f) am ähnlichsten ist.
14. Vorrichtung nach Anspruch 11 oder 12, dadurch ge­ kennzeichnet, daß das Kompressionsmodul (10) zu­ sätzlich ein selbstorganisierendes neuronales Netzwerk aufweist, das Referenzsignale si(t), Referenz­ spektren Si(f) und Referenzvektoren Wi speichert, sowie ein Referenzsignal si(t) bzw. Referenzspek­ trum Si(f) bestimmt, das einem Elementarsignal sE(t) bzw. Elementarspektrum SE(f) am ähnlichsten ist.
15. Vorrichtung nach einem der Ansprüche 11 bis 14, da­ durch gekennzeichnet, daß das Kompressionsmodul zu­ sätzlich einen Kreuzkorrelator (17) zur Berechnung eines Kreuzkorrelationskoeffizients aufweist, mit dessen Hilfe ein Elementarsignal sE(t) mit einen Referenzsignal si(t) verglichen wird.
16. Vorrichtung nach Anspruch 11, dadurch gekenn­ zeichnet, daß das Synthesemodul (22) einen Si­ gnalgenerator (23) zur Synthese eines Sprachsi­ gnals s(t) sowie einen Referenzspeicher (16) zur Speicherung von mindestens einem Referenzsignal si(t) oder Referenzspektrum Si(f) aufweist.
DE1998160133 1998-12-17 1998-12-17 Verfahren und Vorrichtung zur Sprachkompression Expired - Fee Related DE19860133C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1998160133 DE19860133C2 (de) 1998-12-17 1998-12-17 Verfahren und Vorrichtung zur Sprachkompression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1998160133 DE19860133C2 (de) 1998-12-17 1998-12-17 Verfahren und Vorrichtung zur Sprachkompression

Publications (2)

Publication Number Publication Date
DE19860133A1 true DE19860133A1 (de) 2001-07-12
DE19860133C2 DE19860133C2 (de) 2001-11-22

Family

ID=7892709

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1998160133 Expired - Fee Related DE19860133C2 (de) 1998-12-17 1998-12-17 Verfahren und Vorrichtung zur Sprachkompression

Country Status (1)

Country Link
DE (1) DE19860133C2 (de)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3006339A1 (de) * 1979-02-20 1980-08-21 Sharp Kk Verfahren und einrichtung zur sprachsynthese
DE3028000A1 (de) * 1980-07-24 1982-02-25 Vdo Adolf Schindling Ag, 6000 Frankfurt Verfahren zur sprachsynthese
DE3105518A1 (de) * 1981-02-11 1982-08-19 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens
DE3218755A1 (de) * 1982-05-18 1983-11-24 Siemens AG, 1000 Berlin und 8000 München Schaltungsanordnung zur elektronischen sprachsynthese
DE3513243A1 (de) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Verfahren zur sprachuebertragung und sprachspeicherung
DE3521413A1 (de) * 1985-06-14 1986-12-18 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Sprechfunkanordnung
DE4033350A1 (de) * 1989-10-20 1991-04-25 Canon Kk Verfahren und vorrichtung fuer die sprachverarbeitung
US5557705A (en) * 1991-12-03 1996-09-17 Nec Corporation Low bit rate speech signal transmitting system using an analyzer and synthesizer

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3006339A1 (de) * 1979-02-20 1980-08-21 Sharp Kk Verfahren und einrichtung zur sprachsynthese
DE3028000A1 (de) * 1980-07-24 1982-02-25 Vdo Adolf Schindling Ag, 6000 Frankfurt Verfahren zur sprachsynthese
DE3105518A1 (de) * 1981-02-11 1982-08-19 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens
DE3218755A1 (de) * 1982-05-18 1983-11-24 Siemens AG, 1000 Berlin und 8000 München Schaltungsanordnung zur elektronischen sprachsynthese
DE3513243A1 (de) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Verfahren zur sprachuebertragung und sprachspeicherung
DE3521413A1 (de) * 1985-06-14 1986-12-18 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Sprechfunkanordnung
DE4033350A1 (de) * 1989-10-20 1991-04-25 Canon Kk Verfahren und vorrichtung fuer die sprachverarbeitung
US5557705A (en) * 1991-12-03 1996-09-17 Nec Corporation Low bit rate speech signal transmitting system using an analyzer and synthesizer

Also Published As

Publication number Publication date
DE19860133C2 (de) 2001-11-22

Similar Documents

Publication Publication Date Title
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE60207061T2 (de) Audiokompression
DE69814517T2 (de) Sprachkodierung
DE69534285T3 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE69509555T2 (de) Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69122648T2 (de) Digitale Teilbandkodierungsvorrichtung
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69917181T2 (de) Verfahren zur Bestimmung und zur Anpassung der Blockgrösse für Audiotransformationskodierung
DE3883799T2 (de) Codierungseinrichtung zur Sprachübertragung.
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE112014000945B4 (de) Sprachbetonungsgerät
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
DE19715126C2 (de) Sprachsignal-Codiervorrichtung
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE60124079T2 (de) Sprachverarbeitung
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE69525396T2 (de) Verfahren zur blinden Entzerrung, und dessen Anwendung zur Spracherkennung
DE60033039T2 (de) Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen
US4411003A (en) Multiple-loop adaptive delta modulator
DE4001747A1 (de) Anpassbares hochpassfilter mit steuerbarer abschneidefrequenz in abhaengigkeit vom eingangssignal und betriebsverfahren hierfuer
EP2380171A2 (de) Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen
DE19860133C2 (de) Verfahren und Vorrichtung zur Sprachkompression

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: RUWISCH, DIETMAR, DR., 12557 BERLIN, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110701