-
GEBIET DER TECHNOLOGIE
-
Die
vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Multimedia-Kommunikation und
insbesondere ein Verfahren für
das Vorlöschen des
Rauschens eines Bildes auf der Übertragungsseite.
-
HINTERGRUND DER ERFINDUNG
-
Im
Allgemeinen umfasst ein Videobild massige Mengen an Daten. Es ist
unmöglich,
ein Videobild direkt zu übertragen
und zu speichern. Beispiele für das Übertragen
von Videobildern sind Videokonferenzen, Videotelefone und Fernunterricht,
usw. Beispiele für
das Speichern von Videobildern sind Multimedia-Datenbanken, VCD
und DVD, usw. Bei einem Video-Service-System sind, ausgenommen die
Videodaten, ebenfalls Audiodaten, T.120-Daten und eine Steuerinformation,
usw. vorhanden. Gleichzeitig ist es in starkem Maß erforderlich,
dass ein Video-Service-System Echtzeit, interaktiv ist und eine
gute Bildqualität
zeigt. Daher sollten die Videobilddaten mit einer hohen Komprimierungsrate
komprimiert werden. Gegenwärtig
gibt es internationale Standards für die Videobildkomprimierung.
H.261 und H.263 werden nach ITU-T standardisiert und MPEG1, MPEG2
und MPEG4 werden nach ISO standardisiert. In diesen Standards sind
einige gegenwärtige
wichtige Komprimierungsverfahren eingeschlossen, und sie weisen viele
gemeinsame Probleme auf wie beispielsweise, dass sie alle das Common
Intermediate Format (CIF) verwenden, alle den Hybrid-Modus der Bewegungskompensierten
Voraussage und Diskreten Cosinus-Transformation (DCT) verwenden,
usw.
-
Bei
einem Videosystem, das mit den vorangehend angeführten Standards ausgeführt wurde,
ist es unvermeidbar, dass ein erfasstes Videobild ein gewisses Rauschen
einschließt.
Beispielsweise sind ein Hochfrequenzimpulsrauschen, das durch die
großen
Veränderungen
bei den Luminanzkomponenten und Chrominanzkomponenten in einem kleinen
Bereich eines Bildes hervorgerufen wird, und ein Zufallsrauschen
vorhanden, das durch die Analog/Digital-Wandlung und die Quantisierung
während
des abgetasteten Signals erzeugt wird. Ohne Unterdrücken des
Rauschens vor der Komprimierung wird der Wirkungsgrad der Komprimierung
in starkem Maß verringert.
Um einen besseren Wirkungsgrad der Komprimierung und eine gute Bildqualität zu erhalten,
ist es daher erforderlich, eine Vor- und Nachbearbeitung zu haben,
um das Rauschen in einem Bild zu verringern oder zu eliminieren.
-
Es
gibt viele vorhandene Verfahren zur Unterdrückung des Rauschens. Im Allgemeinen
wendet ein jedes von ihnen ein angemessenes Filterverfahren in der
räumlichen
Domäne
oder Frequenzdomäne
an. Die Filterverfahren können
eingeteilt werden in: lineare Filterung, wie beispielsweise die
eindimensionale Finite Impulse Response(1-D FIR)-Filterung, die
zweidimensionale Finite Impulse Response(2-D FIR)-Filterung, usw.;
und die nichtlineare Filterung, wie beispielsweise die Mittelwertfilterung,
Schwellwertfilterung, usw.
-
Wir
beziehen uns auf das
U.S.Patent
Nr. 5787203 unter dem Titel „Verfahren und System für das Filter
von komprimierten Videobildern",
das ein Verfahren zur Filterung in der räumlichen Domäne offenbart.
Ein nichtlineares Filterverfahren wird für die Differenzen der Bilder
nach der bewegungskompensierten Voraussage und vor der DCT zur Anwendung gebracht.
Es gibt zwei Zeitpunkte für
die Filterung: zuerst ein Schwellwertfilter, der das Zufallsrauschen verringert
oder eliminiert; danach ein kreuzförmiger Mittelwertfilter, der
das Hochfrequenzimpulsrauschen verringert oder eliminiert. Sie verringern
die gesamte Komprimierungsübertragungsgeschwindigkeit
um 10% bis 20%.
-
Wir
beziehen uns auf das
U.S.Patent
Nr. 5325125 unter dem Titel „Intra-Frame-Filter für Videokomprimierungssysteme", das ein Verfahren
mit linearer Filterung direkt vor der Komprimierung offenbart. Das
Verfahren wendet einen zweidimensionalen (2-D) Filter an, um Hochfrequenzkomponenten und
das Hochfrequenzimpulsrauschen in der Diagonalrichtung des Bildes
herauszufiltern.
-
Ein
weiterer Hinweis unter dem Titel „Geschwindigkeitsverzerrende
optimale schnelle Schwellwertoperation mit vollständiger JPEG/MPEG-Dekoderkompatibilität" (IEE Trans. On Image
Proc., September 1994, Nr. 5, Seite 700-704), der von Ramchandran
und Mitarbeitern verfasst wurde, zeigt einen optimalen Geschwindigkeitsverzerrungsweg,
um die DCT-Koeffizienten der JPEG- und MPEG-Komprimierungsstandards auf einen Schwellwert
zu bringen oder abzusenken.
-
Um
das Rauschen wirksam bei den vorliegenden Verfahren zur Unterdrückung des
Rauschens zu verringern oder zu eliminieren, wird der ursprünglichen
Verarbeitungsweise ein eindimensionaler oder zweidimensionaler Filtervorgang
hinzugefügt.
Dennoch erfordert im Allgemeinen eine Filterungsberechnung Zeit
und ist eine schwere Belastung für
ein System. So ist es für
das Videokonferenzsystem, das in starkem Maß eine Echtzeit erfordert und
interaktiv ist, erforderlich, ein Verfahren zum Unterdrücken des
Rauschens zur Verfügung
zu haben, das nicht Zeit in Anspruch nimmt und das Originalbild so
sehr wie möglich
beibehält.
Bei der gegenwärtigen Filtertechnologie
ist das Schwellwertfiltern ein Verfahren mit einem geringeren Berechnungsumfang. Das
grundlegende Prinzip dieses Verfahrens ist: auf einer Übertragungsseite
befindet sich das Quantisieren der DCT-Koeffizienten eines CIF-Bildblockes
in einer vorgegebenen Reihenfolge; wenn ein DCT-Koeffizient gleich
oder kleiner als ein vorgegebener Schwellwert ist, wird der DCT-Koeffizient
auf Null eingestellt; und wenn ein DCT-Koeffizient größer ist als der vorgegebene
Schwellwert, wird der DCT-Koeffizient nicht verändert. Im Wesentlichen ist
das Verfahren zum Vorlöschen
des Rauschens ein konstantes Schwellwertfilterverfahren. Der Nachteil
dieser Verfahren zum Vorlöschen
des Rauschens ist, dass die Auswahl eines Schwellwertes im Widerspruch
steht. Wenn ein kleinerer Schwellwert ausgewählt wird, kann eine höhere Bildqualität erhalten
werden; aber bei einer zu kleinen Zahl des DCT-Koeffizienten-Nullwertes
wird dem Wirkungsgrad der Komprimierung nicht entsprochen. Wenn
ein größerer Schwellwert ausgewählt wird,
wird dem Wirkungsgrad der Komprimierung entsprochen; aber bei einer
zu kleinen Zahl des DCT-Koeffizient-Nullwertes wird der Bildqualität nicht
entsprochen.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Der
Zweck der Erfindung ist die Bereitstellung eines Verfahrens mit
einem anpassungsfähigen Schwellwertfiltern,
um das Rauschen in einem Bild vorzulöschen. Vergleicht man mit dem
konstanten Schwellwertfilterverfahren kann das Verfahren den Wirkungsgrad
der Bildkomprimierung weiter erhöhen,
ohne dass die Bildqualität
verringert wird.
-
Das
Ziel der Erfindung wird wie folgt realisiert. Ein Verfahren zum
Vorlöschen
des Rauschens bei einem Bild weist die folgenden Schritte auf. Auf der Übertragungsseite
werden die DCT-Koeffizienten eines CIF-Bildblockes in Reihenfolge
quantisiert. Wenn der gegenwärtig
verarbeitete DCT-Koeffizientwert gleich oder kleiner als ein entsprechender Schwellwert
ist, der für
diese Zeit verwendet wird, wird der DCT-Koeffizient auf Null eingestellt.
Gleichzeitig wird der Schwellwert für diese Zeit erhöht und als
ein Schwellwert für
die nächste
Zeit für
die Verarbeitung des DCT-Koeffizienten verwendet. Wenn der erhöhte Schwellwert
größer ist
als eine vorgegebene obere Grenze eines Schwellwertes, dann wird
der erhöhte Schwellwert
durch eine vorgegebene obere Grenze eines Schwellwertes substituiert.
Wenn der gegenwärtig
verarbeitete DCT-Koeffizientwert größer ist als der entsprechende
Schwellwert, der für
die Verarbeitung für
diese Zeit verwendet wird, wird der Schwellwert auf einen vorgegebenen
anfänglichen Schwellwert
zurückgebracht,
der als der Schwellwert für
die nächste
Zeit für
die nächste
Verarbeitung des DCT-Koeffizienten
verwendet wird.
-
Ein
Verfahren zum Vorlöschen
des Rauschens eines Bildes kann außerdem Folgendes umfassen.
Auf der Übertragungsseite
verwendet die Transformation eines Videobildes vom CCIR 601 Format
zum CIF einen Tiefpass-FIR-Filter, bei dem die Grenzfrequenz kleiner
als 0,5 π sein
kann. Darin steht CCIR für
Consultative Committee an International Radio, und CCIR 601 ist
der Standard 601, der vom CCIR vorgeschlagen wurde, der einen Digitalvideostandard
für das Übertragen
definiert, der dem 525 Zeilen- bis 625 Zeilen-Fernsehsystem entspricht. Die
Luminanzkomponente und Chrominanzkomponente können mittels des Tiefpass-FIR-Filters
jeweils in der vertikalen und horizontalen Richtung gefiltert werden.
-
Bei
einigen Ausführungen
ist der Tiefpass-FIR-Filter ein eindimensionaler FIR-Filter.
-
Bei
einigen Ausführungen
liegt die Grenzfrequenz des Tiefpass-FIR-Filters zwischen 0,25 π und 0,4 π.
-
Nachdem
die Luminanzkomponente und die Chrominanzkomponente mittels eines
Tiefpass-FIR-Filters
mit weniger als der Grenzfrequenz mit 0,5 π verarbeitet wurden, kann das
Bild mittels eines zweidimensionalen Mittelwertfilters weiter gefiltert
werden.
-
Wenn
der gegenwärtig
verarbeitete DCT-Koeffizientwert gleich oder kleiner ist als ein
entsprechender Schwellwert, der für diese Zeit verwendet wird,
kann der DCT-Koeffizient auf Null eingestellt werden. Gleichzeitig
kann der Schwellwert für
diese Zeit um eins erhöht
werden, und er kann als ein Schwellwert für die nächste Zeit für die Verarbeitung des
DCT-Koeffizienten verwendet werden.
-
Bei
einigen Ausführungen
werden die DCT-Koeffizienten in einer derartigen Reihenfolge verarbeitet,
dass von der oberen linken Ecke einer DCT-Koeffiziententabelle begonnen
und in einem Zickzackmuster in Reihenfolge fortgefahren wird.
-
Bei
einigen Ausführungen
werden der anfängliche
Schwellwert und eine obere Grenze des Schwellwertes darin vorgegeben,
dass der anfängliche
Schwellwert gleich kQ entspricht, und dass die obere Grenze des
Schwellwertes gleich 1,5 kQ entspricht. Darin ist Q der quantisierte
Level und k eine Konstante zwischen 0 und 1, die durch die Kanalbandbreite
bestimmt wird.
-
Das
Verfahren zum Vorlöschen
des Rauschens in einem Bild kann als ein Filterverfahren mit einem
anpassungsfähigen
Schwellwert verstanden werden. Vergleicht man mit dem Verfahren
des konstanten Schwellwertfilterns, kann das Rauschen wirksamer
unterdrückt
werden, ohne dass die Bildqualität
verringert wird, und der Wirkungsgrad der Bildkomprimierung wird
weiter erhöht.
Wenn ein Bild mit einem nichtlinearen Schwellwert gefiltert wird,
zusammen mit dem zu verringernden oder zu eliminierenden Rauschen,
wird natürlich
ein Teil der Randinformation des Bildes verlorengehen. Trotzdem
ist das menschliche Auge bei der Niederfrequenzkomponente in einem
Bild sehr empfindlich, wohingegen die Empfindlichkeit bei der Hochfrequenzkomponente
in starkem Maß verringert
wird. Daher kann in einem zulässigen
Bereich der menschlichen Bildwahrnehmung das Verfahren verwendet
werden, um eine bessere Bildqualität zu erhalten. Ein weiterer
Vorteil des anpassungsfähigen
Schwellwertfilterns ist der geringe Berechnungsumfang, was für ein Video-Service-System
mit einer hohen Anforderung an Echtzeit und Interaktivität geeignet
ist.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
Es
zeigen:
-
1 eine
DCT-Koeffizientenverteilung von 8 × 8 Bildblöcken mit H.26X (d.h., H261,
H263, usw.) Format;
-
2 ein
System einer Ausführung
des Verfahrens zum Vorlöschen
des Rauschens für
ein Bild entsprechend der vorliegenden Erfindung;
-
3 ein
Verarbeitungs-Ablaufdiagramm des anpassungsfähigen Schwellwertfilterns in
der Ausführung
in 2;
-
4 ein
System einer weiteren Ausführung des
Verfahrens zum Vorlöschen
des Rauschens für ein
Bild entsprechend der vorliegenden Erfindung.
-
AUSFÜHRUNGEN DER ERFINDUNG
-
Die
Erfindung wird hierin nachfolgend detailliert mit Bezugnahme auf
die Zeichnungen beschrieben. Es sollte bemerkt werden, dass das
eine Beschreibung der Erfindung aber nicht eine Einschränkung der
Erfindung ist.
-
2 zeigt
ein System einer Ausführung
des Verfahrens zum Vorlöschen
des Rauschens für
ein Bild, d.h., eine Filterungsposition in einem H.26X-Videokomprimierungsvorgang.
Wie in 2 gezeigt wird, sind bei dieser Ausführung zwei
Filter vorhanden: ein eindimensionaler FIR-Filter und ein anpassungsfähiger Schwellwertfilter.
Der eindimensionale FIR-Filter ist ein linearer Hochfrequenzimpulsrauschfilter,
und der anpassungsfähige
Schwellwertfilter ist ein nichtlinearer Zufallsrauschfilter. Diese
zwei Filter funktionieren jeweils in der räumlichen Domäne und der
Frequenzdomäne.
Im Folgenden werden jeweils der eindimensionale Tiefpass-FIR-Filter
und der anpassungsfähige
Schwellwertfilter beschrieben.
-
Wie
in 2 gezeigt wird, während ein Videobild vom CCIR
601-Format zum CIF-Format transformiert wird, verarbeitet ein eindimensionaler FIR-Filter
die Luminanzkomponente und die Chrominanzkomponente jeweils in der
horizontalen und vertikalen Richtung; und das Hochfrequenzimpulsrauschen,
das in einem Bild eingeschlossen ist, wird unterdrückt. Natürlich wird
ebenfalls ein entsprechender Hochfrequenzteil des Bildes gefiltert.
Trotzdem ist das menschliche Auge bei der Niederfrequenzkomponente
in einem Bild sehr empfindlich, wohingegen die Empfindlichkeit bei
der Hochfrequenzkomponente in starkem Maß verringert wird. Durch Verwenden
eines Tiefpassfilters mit einer geeigneten Grenzfrequenz kann eine
bessere Bildqualität
innerhalb des zulässigen
Bereiches der menschlichen Bildwahrnehmung erhalten werden.
-
Für die Grenzfrequenzauswahl
eines eindimensionalen FIR-Tiefpassfilters bei dieser Ausführung wird
eine Spektralanalyse vorgenommen, indem ein Bild als eindimensionales
Signal genommen wird. Indem man die passenden Kurven eines Bildspektrums
vor der H.26X-Komprimierung und des Bildspektrums nach der Rekonstruktion
vergleicht, sind die Unterschiede zwischen diesen zwei passenden
Kurven größer. Nach
der Filterung mit einem kleineren Grenzfrequenzfilter (< 0,5 π) sind die
Unterschiede dieser zwei passenden Kurven kleiner. Bei dieser Unterschiedssituation
kann ein Grenzfrequenzbereich definiert werden. Er liegt im Allgemeinen
zwischen 0,25 π und
0,4 π. Nimmt
man einen Filter der siebenten Ordnung als Beispiel, kann bei dieser
Ausführung
ein Tiefpass-FIR-Filter ein Filter mit einer Grenzfrequenz von 0,4 π und h =
{-2/256, 12/256, 66/256, 104/256, 66/256, 12/256, -2/256) sein.
-
Nach
der Filterung mit dem eindimensionalen FIR-Filter und der H.26X-Komprimierung
kann die Übertragungsgeschwindigkeit
der Komprimierung eines Bildes um 10% bis 20% verringert werden. Bei
einem gleichen quantisierten Level ist die Bildqualität kein Unterschied.
Dennoch ist bei einem praktischen H.26X-System die allgemeine Steuerstrategie
die, dass, wenn der Puffer verringert wird, der quantisierte Level
verringert wird, um die Bildqualität anzuheben.
-
1 zeigt
die DCT-Koeffizientenverteilung von 8 × 8 Bildblöcken mit H.26X-Format. Wie
in 1 gezeigt wird, werden nach der DCT-Transformation
Niederfrequenzkomponenten des 8 × 8 Bildblockes im oberen linken
Teil verteilt, und die Hochfrequenzkomponenten werden im unteren
rechten Teil verteilt. Die Niederfrequenzkomponenten entsprechen
dem Bilddetail, und die Hochfrequenzkomponenten entsprechen der
Randabschnittsinformation des Bildes und dem Rauschen, wie beispielsweise dem
Zufallsrauschen und dem Hochfrequenzimpulsrauschen. Da der größte Teil
des Hochfrequenzimpulsrauschens nach der Filterung filtriert wurde,
ist hierbei das zu filternde Hauptrauschen das Zufallsrauschen.
-
Bei
dieser Ausführung
tastet der anpassungsfähige
Schwellwertfilter eine DCT-Koeffiziententabelle
in einem Zickzackmuster ab, und 64 DCT-Koeffizienten werden in Reihenfolge
verarbeitet. Das Verarbeitungs-Ablaufdiagramm wird detailliert in 3 gezeigt.
In 3 ist *DCT_Coeff eine Hinweisadresse der DCT-Koeffizienten.
Der Schwellwert eines DCT-Koeffizienten Thresh steht mit dem quantisierten
Level Q in Wechselbeziehung. Vergleicht man mit einem konstanten
Schwellwert, ist ein veränderter
Schwellwert für
eine Veränderung
des Bildinhaltes geeigneter und zeigt den Vorteil des Schutzes des
wichtigen Inhaltes des Bildes. Thresh_Max ist die obere Grenze des
Schwellwertes und nimmt 1,5 kQ an. Der anfängliche Schwellwert nimmt kQ
an, worin k im Bereich zwischen 0,0 und 1,0 liegt und in Abhängigkeit
von der Kanalbandbreite ausgewählt
wird. Wenn die Kanalbandbreite kleiner ist, wird ein größerer k-Wert
ausgewählt;
wenn die Kanalbandbreite beispielsweise kleiner als 384 kbps ist,
wird k 1,0 annehmen. Wenn die Kanalbandbreite größer ist, wird ein kleineres
k ausgewählt;
wenn beispielsweise die Kanalbandbreite 2 Mbps ist, wird k 0,4 annehmen.
Diese Behandlung zeigt den Vorteil, dass man so viele kontinuierliche
Null erhält
wie möglich.
Wenn ein DCT-Koeffizient gleich oder kleiner als der Schwellwert
Thresh ist, wird der DCT-Koeffizient einen Wert von Null annehmen,
und der Schwellwert Thresh wird mit eins addiert. Wenn der Schwellwert Thresh
größer ist
als die obere Grenze Thresh Max, wird der Schwellwert Thresh den
Thresh Max annehmen. Wenn ein DCT-Koeffizient größer ist als der Schwellwert
Thresh, dann wird der Schwellwert Thresh zum anfänglichen Schwellwert kQ zurückgebracht.
Diese Behandlung zeigt den Vorteil des Schützen der wichtigen Randinformation
eines Bildes.
-
Wenn
ein Bild mit einem nichtlinearen Schwellwert gefiltert wird, wird
das Rauschen natürlich
verringert oder eliminiert, aber gleichzeitig wird die Randabschnittsinformation
des Bildes verlorengehen. Trotzdem ist das menschliche Auge bei
der Niederfrequenzkomponente in einem Bild sehr empfindlich, wohingegen
die Empfindlichkeit bei der Hochfrequenzkomponente in starkem Maß verringert wird.
Daher kann in einem zulässigen
Bereich der menschlichen Bildwahrnehmung das Verfahren zur Anwendung
gebracht werden, um eine bessere Bildqualität zu erhalten.
-
Die
Ausführung
ist ein Filterverfahren mit hohem Wirkungsgrad, um das Rauschen
des Videobildes zu verringern oder zu eliminieren. Das Verfahren kombiniert
eine lineare Filterung und nichtlineare Filterung und kombiniert
die Filterung der räumlichen Domäne und die
Filterung der Frequenzdomäne
miteinander. Das Verfahren verwendet einen linearen Filter und einen
nichtlinearen Filter. Daher können
mit einem geringeren Berechnungsumfang das Hochfrequenzimpulsrauschen
und das Zufallsrauschen in einem Videobild verringert oder eliminiert
werden. Bei der ersten Filterung wird ein Filter mit niedrigerer Grenzfrequenz
eingesetzt, um das Format zu transformieren, ohne dass jeglicher
Berechnungsumfang vergrößert wird.
Bei der zweiten Filterung, wenn ein DCT-Koeffizient quantisiert
wird, wird ein anpassungsfähiger
Schwellwertfilter verwendet. Aus 3 kann gesehen
werden, dass dabei nur ein sehr kleiner Umfang der Berechnung vergrößert wird.
Durch Anwendung des Verfahrens der Ausführung zur Verringerung oder
Eliminierung des Rauschens wird die Übertragungsgeschwindigkeit
der Komprimierung um 10% bis 30% verringert, so dass der Wirkungsgrad
der Videokomprimierung und die Bildqualität angehoben werden.
-
4 zeigt
ein System einer weiteren Ausführung
der Erfindung, eine weitere Systemausführung eines Verfahrens zum
Vorlöschen
des Rauschens für
ein Bild. Diese Ausführung
basiert auf der vorhergehenden Ausführung und bringt einen 3 × 3 zweidimensionalen
Mittelwertfilter hinzu, der in der Position eingerichtet wird, bevor
das Bild zum CIF-Format transformiert wird. Da der Berechnungsumfang
größer ist,
wird der Mittelwertfilter besser durch die Hardware oder DSP-Software
realisiert. Der Mittelwertfilter zeigt eine Charakteristik, die
besser ist, um das Impulsrauschen zu verringern oder zu eliminieren,
und die ebenfalls besser ist, um die Bildrandinformation festzuhalten.
So kann durch Kombinieren mit der letzteren Verarbeitung durch anpassungsfähige Schwellwertfilterung
eine bessere Wirkung des Reduzierens oder Eliminieren des Rauschens
eines Bildes erhalten werden.
-
Es
wird erkannt werden, dass die vorliegende Erfindung in keiner Weise
auf die Ausführungen beschränkt wird,
die vorangehend erwähnt
werden. Die bevorzugten Ausführungen
werden nur für
eine Detailbeschreibung der Erfindung verwendet. Dementsprechend
beanspruchen wir als unsere Erfindung alle derartigen Ausführungen,
wie sie innerhalb des Bereiches der folgenden Patentansprüche und deren Äquivalente
zu finden sind.