DE10116984A1 - Verfahren und Vorrichtung zur Übertragung und Speicherung von Sprach- und Audiosignalen - Google Patents
Verfahren und Vorrichtung zur Übertragung und Speicherung von Sprach- und AudiosignalenInfo
- Publication number
- DE10116984A1 DE10116984A1 DE10116984A DE10116984A DE10116984A1 DE 10116984 A1 DE10116984 A1 DE 10116984A1 DE 10116984 A DE10116984 A DE 10116984A DE 10116984 A DE10116984 A DE 10116984A DE 10116984 A1 DE10116984 A1 DE 10116984A1
- Authority
- DE
- Germany
- Prior art keywords
- parameters
- indicates
- transmission
- coding
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 28
- 230000005236 sound signal Effects 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims description 2
- 239000002131 composite material Substances 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims 1
- 238000010295 mobile communication Methods 0.000 claims 1
- 108090000623 proteins and genes Proteins 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000000844 transformation Methods 0.000 claims 1
- 238000003860 storage Methods 0.000 abstract description 7
- 239000013598 vector Substances 0.000 description 17
- 238000012545 processing Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 101150087426 Gnal gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/64—Hybrid switching systems
- H04L12/6418—Hybrid transport
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00007—Time or data compression or expansion
- G11B2020/00014—Time or data compression or expansion the compressed signal being an audio signal
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00007—Time or data compression or expansion
- G11B2020/00014—Time or data compression or expansion the compressed signal being an audio signal
- G11B2020/00057—MPEG-1 or MPEG-2 audio layer III [MP3]
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/64—Hybrid switching systems
- H04L12/6418—Hybrid transport
- H04L2012/6467—Information loss recovery, e.g. error correction, prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/64—Hybrid switching systems
- H04L12/6418—Hybrid transport
- H04L2012/6481—Speech, voice
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Die Erfindung beschreibt ein Verfahren und eine Vorrichtung zur Übertragung und Speicherung von Sprach- oder Audiosignalen unter Verwendung eines redundanzreduzierenden Codierverfahrens. Dieses Verfahren ist dadurch gekennzeichnet, daß es die quantisierten Parameter des Codes aufeinanderfolgender Rahmen in unterschiedliche Pakete verteilt und bei gestörter Übertragung oder Paketverlusten die gestörten oder fehlenden Parameter mit Hilfe von statistischen Mischmodellen rekonstruiert. Bei der Speicherung können ausgewählte, vom Codierverfahren gelieferte Parameter unberücksichtigt bleiben und bei der Rekonstruktion des Signals geschätzt werden. In beiden Anwendungen können im Sinne des mittleren quadratischen Fehlers oder der maximalen a posteriori Wahrscheinlichkeiten optimale Schätzer eingesetzt werden.
Description
Die Erfindung betrifft ein Verfahren zur Übertragung oder Speicherung von
Sprach- oder Audiosignalen. Die Erfindung kann zum Beispiel in Mobilfunk
netzen oder in paketvermittelten Netzen oder im Zusammenhang mit dem
Internet Protokoll ("Voice over IP") eingesetzt werden. In diesen Netzen
kann die Qualität des empfangenen Signals durch Übertragungsfehler be
einträchtigt werden. Die Erfindung beschreibt ein Verfahren zur Reduktion
solcher Übertragungsfehler. Die Erfindung betrifft desweiteren eine Vorrich
tung zur Ausführung dieses Verfahrens.
Sprach- oder Audiosignale werden in modernen Kommunikationsnetzen (Mo
bilfunk, Fernverkehrnetze, Voice over IP) vor der Übertragung mittels eines
Sprach- oder Audiocodierverfahrens codiert und im Empfänger decodiert.
Die Codierung verringert die Redundanz der zu übertragenden Daten und
damit auch die für die Übertragung erforderliche Bitrate (siehe z. B. P. Vary,
U. Heute, W. Hess, Digitale Sprachsignalverarbeitung, Teubner Verlag, Stutt
gart, 1998). Der Sender modifiziert das codierte Signal, so daß ein im Sinne
hoher Signalqualität optimaler Empfang möglich ist. Eine derartige Übert
ragungskette mit den Elementen Codierer, Sender, Kanal und Empfänger ist
in Fig. 1 dargestellt.
Der Codierung liegt in der Regel ein Modell zugrunde, z. B. im Fall eines
Sprachcoders wird ein Modell der Spracherzeugung bestehend aus einem li
nearen Prädiktionsfilter und einem Anregungsmodell verwendet (siehe z. B. P.
Vary, U. Heute, W. Hess, Digitale Sprachsignalverarbeitung, Teubner Verlag,
Stuttgart, 1998). In der Audiocodierung (z. B. MPEG "MP3") ist der Ein
satz von Gehörmodellen üblich. Der Codiervorgang berechnet aus dem zu
codierenden Signalabschnitt die Parameter des Modells und quantisiert diese
Parameter indem sie auf eine endlich Anzahl von Bitmustern abgebildet wer
den. Die zu einem Signalabschnitt gehörigen quantisierten Parameter werden
in Form von Bits oder Bitgruppen in Rahmen gepackt und zum Empfänger
übermittelt. Der Empfänger generiert aus den quantisierten Parametern und
dem zugrundeliegenden Modell schließlich wieder ein Sprach- oder Audiosi
gnal.
Beispiele für derartige Codierverfahren liegen in den ETSI/3GPP-Standards
vor. Z. B. wird beim sogenannten Adaptive Multirate Sprachcodec (EN 301
703, V7.0.2: Digital cellular telecommunications system (Phase 2+); Ad
aptive Multi-Rate (AMR) speech processing functions; General Descripti
on, 1999) das zu codierende Sprachsignal in Abschnitte von 20 Millisekun
den (ms) unterteilt. Aus diesen Signalabschnitten ("Rahmen") und einem
"look-ahead"-Abschnitt von 5 ms werden dann die Parameter für ein li
neares Prädiktionsfilter, 2 Anregungscodebücher und 2 Gewichtungsfakto
ren berechnet und quantisiert. Je nach ausgewählter Bitrate ergeben sich
so Bitraten zwischen 95 und 244 Bit pro Sprachrahmen. Trotz der redun
danzvermindernden Codierung weisen die Parameter untereinander und über
die Rahmengrenzen hinweg noch Korrelation auf. Diese Korrelation kann im
Empfänger zur Verbesserung der Qualität des empfangenen Signals genutzt
werden. Dafür geeignete Verfahren sind z. B. in C. G. Gerlach, "A Probabi
listic Framework for Optimum Speech Extrapolation in Digital Mobile Ra
dio", Proc. Intl. Conf. Acoustics, Speech, Signal Processing (ICASSP), p.
419-422, IEEE, 1993, oder in T. Fingscheidt, P. Vary, "Speech Decoding
with Error Concealment Using Residual Source Redundancy", Proc. IEEE
Speech Coding Workshop, S. 91-92, IEEE, 1997 beschrieben. Diese Verfahren
beruhen auf der Anwendung von a priori Information über die Verteilungs
dichtefunktion der zu verbessernden Parameter und Optimalschätzung. Die a
priori Information wird bei den bisher bekannten Verfahren in der Form von
Histogrammen abgelegt. Da der Speicheraufwand für derartige Histogramm
exponentiell mit der vom Codierverfahren erzeugten Bitzahl anwächst, sind
die Verfahren daher nur für Parameter, die mit relativ wenigen Bits quanti
siert werden, praktisch einsetzbar.
Zum anderen kann die Qualität des empfangenen Signals auch durch sendesei
tige redundanzerhöhende Maßnahmen verbessert werden. An erster Stelle
sind hier die sogenannte Kanalcodierung (siehe z. B. M. Bossert, Kanalco
dierung, Teubner, 1992), das Interleaving, oder die wiederholte Übertragung
von Information oder Rahmen zu nennen. Für die Audioübertragung über
das Internet ist das in V. Hardman, M. A. Sasse, M. Handley und A. Watson,
"Reliable Audio for Use over the Internet", Proc. INET-95, International
Networking Conference, Hawaii, 1995, prinzipiell geeignet. Bei diesem Ver
fahren wird jedem Paket noch eine mit niedriger Bitrate codierte Version
eines vorangegangenen Signalrahmens angehängt. Bei Verlust eines Pakets
können die Parameter des Rahmen aus der Zusatzinformation mit entspre
chend schlechterer Qualität zurückgewonnen werden. Eine erneute Anfor
derung eines verlorenen Rahmens ("Automatic Repeat Request", ARQ) ist
wegen der dabei auftretenden Verzögerungszeit bei Sprach- oder Audioüber
tragung nicht möglich.
Der Nachteil der bisher bekannten sendeseitigen Maßnahmen zur Vermin
derung der durch Übertragungsfehler verursachten Störungen besteht darin,
daß sie zumeist mit einer Erhöhung der Bitrate einhergehen. Dies ist für
die Übertragung im Internet, die u. a. auch niederratige Modemverbindungen
mit einschließt, wenig vorteilhaft. Die empfangsseitig arbeitenden Verfahren
mit Optimalschätzung sind auf relativ einfache Anwendungen mit wenigen
Bits beschränkt und keinesfalls geeignet, die Korrelation der Parameter über
einen ganzen Rahmen hinweg zu nutzen.
Die Aufgabe der Erfindung besteht deshalb darin, ein Verfahren und eine
Vorrichtung anzugeben, das eine wirkungsvolle Verminderung der mit Über
tragungsfehlern einhergehenden Qualitätsverluste bewirkt und dabei weder
das Hinzufügen zusätzlicher Redundanz erfordert noch einen mit der Bitzahl
exponentiell steigenden Speicher- oder Rechenaufwand benötigt.
Diese Aufgabe wird durch ein Verfahren gelöst, dass die Merkmale des An
spruchs 1 aufweist.
Das Verfahren beruht darauf, die Parameter eines Rahmens so auf zwei oder
mehrere Pakete zu verteilen, dass bei Störung oder Verlust eines Paketes die
gestörten oder fehlenden Parameter aus den vorhandenen empfangenen Pa
rametern geschätzt werden können. Das dafür erforderliche a priori Wissen
wird nicht in Form von Histogrammen sondern als sogenannte statistische
Mischmodelle ("Mixture Models") dargestellt. Damit ergeben sich neuartige
Parameterschätzer, die mit geringem Speicher- und Rechenaufwand realisiert
werden können. Mit Hilfe der Mischmodelle werden optimale Schätzer ange
geben, die die beeinträchtigten oder fehlenden Parameter korrigieren bzw.
ergänzen. Der Vorteil des Verfahrens liegt darin, daß bei fehlerloser Übertra
gung die volle Qualität des Signals erreicht wird, ohne daß zusätzliche Bitrate
für zum Beispiel eine Kanalcodierung bereitgestellt werden muß. Im Fall von
verlorenen Paketen ergibt sich, da die Optimalschätzung mit Fehlern behaftet
ist, eine verminderte Qualität. Wie Messungen zeigen, kann der Qualitätsver
lust jedoch klein gehalten werden und noch weiter vermindert werden, wenn
für die Qualität wichtige Parameter doppelt übertragen werden.
Das Verfahren ist in Fig. 2 an einem Beispiel erläutert. Dabei sei angenom
men, daß die vom Codierverfahren erzeugten Rahmen aus N = 6 Parametern
bestehen und diese Parameter zu einem Vektor U k zusammengefaßt werden,
wobei k einen über die Zeit zu inkrementierenden Rahmenindex angibt. Die
quantisierten Parameter U 1|k-U 6|k, d. h. die Komponenten des Parametervek
tors U k, aufeinanderfolgender Rahmen Rk-1, Rk, Rk+1 werden in unterschied
liche, aufeinanderfolgende Pakete Pk-1, Pk, Pk+1 aufgeteilt. Bei Verlust eines
Paketes werden die fehlenden Parameter unter Verwendung der Korrelation
der Parameter und von a priori Informationen geschätzt, wobei die a prio
ri Informationen in Form von Mischmodellen gespeichert sind. Wenn keine
Übertragungsfehler auftreten, werden im Empfänger die in einem Paket ent
haltenen Parameter wieder den Rahmen zugeordnet. Der Parameterschätzer,
in der Regel ein Optimalschätzer, berechnet die fehlenden Parameter indem
er z. B. den mittleren quadratischen Schätzfehler minimiert (MMSE-Schätzer)
oder z. B. die a posteriori Wahrscheinlichkeiten maximiert (MAP-Schätzer)
und dabei die Korrelation der Parameter untereinander und über der Zeit
nutzt.
Eine zweite typische Anordnung ist in Fig. 3 gezeigt. Bei diesem Übertra
gungsverfahren werden die Parameter U 1|k-U 6|k eines Rahmens auf zwei (oder
mehr) Pakete Pk und P '|k aufgeteilt. Diese Pakete werden unabhängig ("par
allel") voneinander übertragen. Wird wegen der Übertragungsfehler auf dem
Kanal nur eines der beiden Pakete empfangen, werden die fehlenden Parame
ter aus den empfangenen geschätzt. Bei dieser Realisation wird zur Vermin
derung von Verzögerungszeiten nur die Parameter des akutellen Rahmens
zur Schätzung der fehlenden Parameter herangezogen.
Wird die zeitliche Folge der quantisierten Parametervektoren U k zu Vek
toren zusammengefaßt und kann die zeitliche Folge der vektorwertigen,
quantisierten Parameter κ verschiedene Werte (l), l = 1 . . . κ, annehmen,
dann ist der optimal Schätzwert im Sinne des mittleren quadratischen Fehlers
durch
gegeben, wobei P() die Verbundauftrittswahrscheinlichkeit der zeitlichen
Folge der quantisierten Parametervektoren und z die Folge der empfangenen
Parametervektoren bezeichnet. P() repräsentiert das a priori Wissen über
die Verteilung der quantisierten Parameter. Die Verteilungsdichte p( | (l))
gibt die Übergangswahrscheinlichkeit der gesendeten Parameter zu den emp
fangenen Parametern an und repräsentiert somit die Eigenschaften des Über
tragungskanals.
Statt den mittleren quadratischen Fehler zu minimieren, kann der Opti
malschätzer auch denjenigen quantisierten Wert auswählen, der die a po
steriori Wahrscheinlichkeit
maximiert. Man erhält dann den sogenannten Maximum A Posteriori (MAP)
Schätzwert. Wenn jede Komponente des Parametervektors U k z. B. mit 3 Bit
quantisiert wird und jeder Parametervektor N = 6 Komponenten enthält und
2 aufeinanderfolgende Vektoren U k in die Verbundwahrscheinlichkeit P()
aller quantisierten Werte eingehen, dann muß die Summe in Gleichung 1 über
(23.23.23.23.23.23)2 ≈ 6.9.1010 Summanden ausgeführt werden, was zu
einem inakzeptablen Speicher- und Rechenaufwand führt.
Die Erfindung unterscheidet sich nun vom Stand der Technik dadurch, daß
die a priori Wahrscheinlichkeit P() nicht in Form von speicheraufwendigen
Histogrammen, sondern durch Mischmodelle ("Mixture Models") dargestellt
wird. Mischmodelle werden z. B. in der Spracherkennung im Zusammenhang
mit Hidden Markov Modellen verwendet, sind aber in der Sprachübertragung
bisher nicht eingesetzt worden. Die a priori Verbundwahrscheinlichkeit kann
also durch eine gewichtete Summe von Funktionen Vi dargestellt werden
Die Verwendung von Mischmodellen erlaubt die Darstellung der a priori
Wahrscheinlichkeit P() mit einer relativ geringen Zahl an zu speichernden
Parametern. Von besonderem Interesse ist Verwendung multivariater Gauß
verteilungen. Z. B. kann die Verbundverteilung eines Parametervektors U k
mittels
dargestellt werden, wobei jede N-dimensionale Einzelverteilung durch
gegeben ist und αi die a priori Wahrscheinlichkeit der Mischkomponenten
i = (U k, µ i, Ci) bezeichnet, d. h. P(i) = αi.
Die Mischwahrscheinlichkeiten αi, die Vektoren der Mittelwerte µ i. (Zentro
iden), und die Kovarianzmatrizen Ci werden durch numerische Trainingsver
fahren bestimmt. Um die Zahl der zu speichernden Parameter zu reduzieren,
können auch Kovarianzmatrizen verwendet werden, die nur in der Hauptdia
gonalen von Null verschiedene Werte aufweisen.
Als ein Ausführungsbeispiel der in Fig. 2 und 3 angeführten Parameterschätzer
sei die Übertragung über einen Kanal mit Paketverlusten betrachtet. Wie in
Fig. 3 ausgeführt, sei angenommen, daß ein Teil der Parameter ungestört
empfangen wird und ein anderer Teil fehlt. Der Parametervektor U k wird
daher in einen empfangenen Teil U (p)|k und einen fehlenden Teil U (m)|k unter
teilt,
U k = (U (m)|k, U (p)|k)T (7)
Bei Verwendung Gaußscher Mischmodelle werden analog zu Gleichung (7)
auch die Zentroiden µ i und die Kovarianzmatrizen Ci aller Mischkomponen
ten in empfangene und fehlende Komponenten unterteilt
Die bedingte Wahrscheinlichkeit der fehlenden Komponenten, gegeben die
empfangenen Komponenten, können jetzt unter Verwendung eines Gauß
schen Mischmodells mit
angegeben werden. Da die bedingte Verteilungsdichte und jede Randvertei
lung Gaußscher Zufallsvariablen wiederum (multivariate) Gaußsche Vertei
lungen ergeben, kann die Verbundverteilungsdichte (U k, µ i, Ci) in eine be
dingte Verteilung und eine Randverteilung aufgespalten werden (siehe z. B. S.
Kotz, N. Balakrishnan, N. L. Johnson, Continuous Multivariate Distributions,
Wiley, 2000)
Man definiert die a posteriori Wahrscheinlichkeiten
und erhält
Unter Verwendung der Gleichungen 12 und 15, ist der im Sinne des kleinsten
quadratischen Fehlers optimal Schätzwert für die fehlenden Parameter durch
den bedingten Erwartungswert
gegeben.
Falls diagonale Kovarianzmatrizen eingesetzt werden sind die Nebenmatrizen
C (m,p)|i und C (p,m)|i Null und der Schätzwert ist durch
gegeben, wobei die a posteriori Wahrscheinlichkeiten jetzt leicht durch ein
Produkt von univariaten Normalverteilungen ausgerechnet werden können
U (p)|k,j bezeichnet dabei die j-te Komponente des k-ten Vektors U (p)|k der emp
fangenen Komponenten und µ (p)|i,j und (σ (p,p)|i,j)2 den Mittelwert und die Varianz
der j-ten Vektorkomponente der i-ten Mischkomponente. Σj = und
Πj = bezeichnen Summen bzw. Produkte der empfangenen Kompo
nenten wobei Np die Zahl der empfangenen Komponenten angibt.
Der Speicherbedarf dieser neuartigen Lösung ist unmittelbar proportional
zur Ordnung des Parametervektors N und zur Zahl der Mischkomponen
ten M, d. h. für einen Parametervektor mit 6 Komponenten und Gaußschen
Mischmodellen mit diagonalen Kovarianzmatrizen müssen (6 + 6 + 1).M
Werte gespeichert werden. Da M sich in der Größenordnung von 100 bewegt
ist der Speicheraufwand der dargestellten Erfindung bedeutend kleiner als
der Speicheraufwand eines Histogramm-basierten Verfahrens, das bei ausrei
chend feiner Quantisierung des Parametervektors in der Größenordnung von
300000 Speicherplätze erfordert.
Das in der Erfindung beschriebene Schätzverfahren kann auch bei der Spei
cherung von Sprach- oder Audiosignalen nutzbringend eingesetzt werden. Z. B.
können bestimmte, vom Codierverfahren erzeugte Parameter bei der Spei
cherung weggelassen werden, wenn sie später beim Abrufen der gespeicherten
Signale mit geringem Fehler rekonstruiert werden können. Damit wird eine
Reduktion des für die Speicherung eines codierten Sprach- oder Audiosignals
erforderlichen Speicherplatzes erreicht.
Claims (27)
1. Ein Verfahren zur rahmenweisen Übertragung codierter Sprach- oder Au
diosignale über Kommunikationsnetze unter Verwendung eines Sprach- oder
Audiocodierverfahrens,
dadurch gekennzeichnet, dass
die von dem Codierverfahren für einen Signalrahmen ermittelten Parame
ter auf mehrere Pakete aufgeteilt werden, so daß ein zu sendendes Paket
ausser den Parametern des aktuellen auch Parameter der vorangegangenen
oder nachfolgenden Signalrahmen enthalten kann, und im Fall von Übertra
gungsstörungen oder Paketverlusten die gestörten oder fehlenden Parameter
unter Verwendung von a priori Wissen rekonstruiert werden, wobei das a
priori Wissen eines oder mehrerer der vom Codierverfahren erzeugten Pa
rameter in der Form von Mischmodellen gespeichert wird und unter einem
Mischmodell eine gewichtete Summe von Funktionen entsprechend Gleichung
(3) verstanden wird.
2. Ein Verfahren zur Speicherung codierter Sprach- oder Audiosignale unter
Verwendung eines Sprach- oder Audiocodierverfahrens,
dadurch gekennzeichnet, dass
ausgewählte, von dem Codierverfahren für einen Signalrahmen ermittelte Pa
rameter nicht gespeichert werden und bei Wiederherstellung der gespeicher
ten Signale die fehlenden Parameter unter Verwendung von a priori Wissen
rekonstruiert werden, wobei das a priori Wissen eines oder mehrerer der
vom Codierverfahren erzeugten Parameter in der Form von Mischmodellen
gespeichert wird und unter einem Mischmodell eine gewichtete Summe von
Funktionen entsprechend Gleichung (3) verstanden wird.
3. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass die Mischmodelle die Verbundverteilungsdichtefunkti
on oder Randverteilungsdichtefunktionen der unquantisierten oder der quan
tisierten Parameter approximieren;
4. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass die Mischmodelle aus (multivariaten) Gaußverteilun
gen gebildet werden;
5. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass die Mischmodelle aus (multivariaten) Gamma- oder
Laplaceverteilungen gebildet werden;
6. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass die Mischmodelle a priori Wissen für einen einzigen
Parameter des Codierverfahrens repräsentieren oder approximieren;
7. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass die Mischmodelle a priori Wissen für mehrere Parame
ter eines Rahmens des Codierverfahrens repräsentieren oder approximieren;
8. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass die Mischmodelle a priori Wissen für ein oder meh
rere Parameter zeitlich aufeinanderfolgender Rahmen des Codierverfahrens
repräsentieren oder approximieren;
9. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass die Rekonstruktion der gestörten oder fehlenden Para
meter mittels eines Optimalschätzers erfolgt;
10. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass der Optimalschätzer den mittleren quadratischen
Schätzfehler minimiert;
11. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass der Optimalschätzer die a posteriori Wahrscheinlichkeit
der gestörten oder fehlenden Parameter maximiert;
12. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass ein Schätzer nach Gleichungen (4)-(16) verwendet
wird;
13. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass ein Schätzer nach Gleichungen (17)-(19) verwendet
wird;
14. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass das Mischmodell vollbesetzte Kovarianzmatrizen auf
weist;
15. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet,
dass das Mischmodell diagonal besetzte Kovarianzmatrizen
aufweist;
16. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass das Mischmodell dünn besetzte Kovarianzmatrizen
aufweist;
17. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass die Übertragung über ein Mobilfunknetz erfolgt;
18. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass die Übertragung über ein paketvermitteltes Netz
erfolgt;
19. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass die Übertragung mittels Internet-Protokoll (IP, UDP,
TCP, RTP, RCTP) erfolgt;
20. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass es sich bei den Parametern des Codierverfahrens
um die Koeffizienten eines linearen Prädiktionsfilters oder Transformationen
dieser Koeffizienten (z. B. "Line Spectral Frequencies") handelt;
21. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass die quantisierten Parameter vor der Übertragung
durch Hinzufügen von Redundanz vor Übertragungsfehlern geschützt werden;
22. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass die quantisierten Parameter durch Hinzufügen von
Redundanz vor der Übertragung die Detektion von Übertragungsfehlern im
Empfänger erlauben;
23. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass ein und derselbe Parameter des Codierverfahrens
auch mehreren Paketen zugeteilt werden kann;
24. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch ge
kennzeichnet, dass der ETSI/3GPP Adaptive Multirate (AMR) Sprach
codec für die Übertragung eingesetzt wird;
25. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass ein Audiocodierverfahren nach MPEG (Moving Pictures
Expert Group), z. B. "MP3" eingesetzt wird;
26. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass ein Codierverfahren des Global System for Mobile
Communications (GSM) eingesetzt wird;
27. Ein Verfahren nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet, dass die Parameter des Codierverfahrens quantisierte Si
gnalabtastwerte oder Bits dieser Abtastwerte sind.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10116984A DE10116984A1 (de) | 2001-04-05 | 2001-04-05 | Verfahren und Vorrichtung zur Übertragung und Speicherung von Sprach- und Audiosignalen |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10116984A DE10116984A1 (de) | 2001-04-05 | 2001-04-05 | Verfahren und Vorrichtung zur Übertragung und Speicherung von Sprach- und Audiosignalen |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE10116984A1 true DE10116984A1 (de) | 2002-10-10 |
Family
ID=7680497
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE10116984A Withdrawn DE10116984A1 (de) | 2001-04-05 | 2001-04-05 | Verfahren und Vorrichtung zur Übertragung und Speicherung von Sprach- und Audiosignalen |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE10116984A1 (de) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5872777A (en) * | 1997-09-30 | 1999-02-16 | Motorola, Inc. | Method and apparatus for conveying data packets in a packet data communication system |
| DE19820761C1 (de) * | 1998-05-08 | 1999-06-24 | Siemens Ag | Verfahren und Einrichtung zur Kanalschätzung |
| DE19814633A1 (de) * | 1998-03-26 | 1999-09-30 | Deutsche Telekom Ag | Verfahren zur Verschleierung von Sprachsegmentverlusten bei paketorientierter Übertragung |
| DE19934845A1 (de) * | 1998-07-25 | 2000-03-16 | Jan Christopher Stiller | Verfahren zum Schätzen von Hidden-Markov-Modellen mit geringem Speicherbedarf und zum on-line-Schätzen von Hidden-Markov-Modellen |
-
2001
- 2001-04-05 DE DE10116984A patent/DE10116984A1/de not_active Withdrawn
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5872777A (en) * | 1997-09-30 | 1999-02-16 | Motorola, Inc. | Method and apparatus for conveying data packets in a packet data communication system |
| DE19814633A1 (de) * | 1998-03-26 | 1999-09-30 | Deutsche Telekom Ag | Verfahren zur Verschleierung von Sprachsegmentverlusten bei paketorientierter Übertragung |
| DE19820761C1 (de) * | 1998-05-08 | 1999-06-24 | Siemens Ag | Verfahren und Einrichtung zur Kanalschätzung |
| DE19934845A1 (de) * | 1998-07-25 | 2000-03-16 | Jan Christopher Stiller | Verfahren zum Schätzen von Hidden-Markov-Modellen mit geringem Speicherbedarf und zum on-line-Schätzen von Hidden-Markov-Modellen |
Non-Patent Citations (3)
| Title |
|---|
| GERLACH,Christian G.: A Probalistic Framework for Optimum Speech Extrapolation in Digital Mo- bile Radio. In: ICASSP-93,IEEE, S.II-413 bis II-422 * |
| HARDMAN,Vicky,u.a.: Reliable Audio for Use over the Internet.Background, Voice, INET'95, IEEE 1995 * |
| SIVAPRAKASAM,Srinivas,SHANMUGAN,Sam K.: An Equivalent Markov Model for Burst Errors in Digital Channels. In: IEEE Tansactions on Com- munnications,Vol.43,No.2/3/4,Feb.,March,April, 1995,S.1347-1355 * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE60125219T2 (de) | Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder | |
| DE19730129C2 (de) | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals | |
| DE19604273C2 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
| DE60217522T2 (de) | Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung | |
| DE69029120T2 (de) | Stimmenkodierer | |
| DE69133058T2 (de) | Verfahren zur Kodierung von Sprachsignalen | |
| EP0978172B1 (de) | Verfahren zum verschleiern von fehlern in einem audiodatenstrom | |
| DE19860531C1 (de) | Verfahren zur Übertragung codierter digitaler Signale | |
| DE60118631T2 (de) | Verfahren zum ersetzen verfälschter audiodaten | |
| DE60319590T2 (de) | Verfahren zur codierung und decodierung von audio mit variabler rate | |
| DE60000087T2 (de) | Zuverlässigkeitswertung von dekodierten Signalblöcken zur Spracherkennung auf drahtlosen Ubertragungkanälen | |
| DE19811039A1 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
| EP2385521A1 (de) | Steganographie in digitalen Signal-Codierern | |
| DE602004007550T2 (de) | Verbesserte frequenzbereichs-fehlerverbergung | |
| DE68913691T2 (de) | System zur Sprachcodierung und -decodierung. | |
| DE69206300T2 (de) | Verfahren und Einrichtung zur Bearbeitung von Vorechos eines mittels einer Frequenztransformation kodierten digitalen Audiosignals. | |
| DE60311754T2 (de) | Verfahren und Vorrichtung zur Schätzung der Gesamtgüte eines Sprachsignals | |
| WO1999063520A1 (de) | Verfahren und anordnung zur fehlerverdeckung | |
| EP1841072B1 (de) | Verfahren und Einrichtung zum Dekodieren von schichtkodierten Daten | |
| DE60211854T2 (de) | Vorrichtung zur datenverarbeitung | |
| EP1046254B1 (de) | Verfahren und vorrichtung zur codierung und übertragung von informationen, unter verwendung von quellengesteuerter kanaldecodierung | |
| DE10116984A1 (de) | Verfahren und Vorrichtung zur Übertragung und Speicherung von Sprach- und Audiosignalen | |
| DE10124421C1 (de) | Verfahren zur Schätzung eines Codecparameters | |
| DE19735675C2 (de) | Verfahren zum Verschleiern von Fehlern in einem Audiodatenstrom | |
| DE19804584A1 (de) | Verfahren und Vorrichtung zum Codieren und Decodieren von Audiosignalen |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
| 8127 | New person/name/address of the applicant |
Owner name: MARTIN, RAINER, DR.-ING., 38106 BRAUNSCHWEIG, DE |
|
| 8139 | Disposal/non-payment of the annual fee |