[go: up one dir, main page]

WO1993002526A1 - Procede de compression de sequences d'images numeriques - Google Patents

Procede de compression de sequences d'images numeriques Download PDF

Info

Publication number
WO1993002526A1
WO1993002526A1 PCT/CH1992/000148 CH9200148W WO9302526A1 WO 1993002526 A1 WO1993002526 A1 WO 1993002526A1 CH 9200148 W CH9200148 W CH 9200148W WO 9302526 A1 WO9302526 A1 WO 9302526A1
Authority
WO
WIPO (PCT)
Prior art keywords
sub
bands
data
transformation
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CH1992/000148
Other languages
English (en)
Inventor
Murat Kunt
Frédéric DUFAUX
Iole Moccagatta
Touradj Ebrahimi
George Campbell
Alexander Geurtz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LABORATOIRE DE TRAITEMENT DES SIGNAUX
Original Assignee
LABORATOIRE DE TRAITEMENT DES SIGNAUX
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LABORATOIRE DE TRAITEMENT DES SIGNAUX filed Critical LABORATOIRE DE TRAITEMENT DES SIGNAUX
Publication of WO1993002526A1 publication Critical patent/WO1993002526A1/fr
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Definitions

  • image sequences are becoming increasingly important in modern imaging applications, such as high definition television (HDTV), teleconferencing, multi-media applications, medical imaging, robotics , satellite imagery, interactive video and entertainment.
  • HDTV high definition television
  • teleconferencing multi-media applications
  • medical imaging robotics
  • satellite imagery interactive video and entertainment.
  • the aim of the present invention is to provide a method of compressing digital images intended for video-digital transmissions or for digital storage on media such as compact disks or optical disks, so as to obtain average transmission rates. of the order of 1 to 10 Mb / s with higher quality compared to known systems, such as for example H261 CCITT or MPEG mentioned above, and with a relatively simple implementation.
  • the invention relates to a method for compressing sequences of digital images comprising a step of decom ⁇ position the images by transformation into sub-bands, as defined in claim 1. It also relates to a device for setting implementation of the method, as defined in claim 12, as well as a filter bank for implementing the method, as defined in claim 13, and a filter bank intended for rapid multiresolution transformation for compression digital images, as defined in claim 15.
  • the method of the invention makes it possible in particular to take into account the redundancy not only inside a sub-band, but also the dependence between the sub-bands, which leads to a higher efficiency than that of the methods. known.
  • the method of the invention has the advantage of being very simple for its implementation. It uses very little memory while being very efficient. Furthermore, the precision of the motion vectors is only limited by the arithmetic precision of the elementary operations of the space-time constraint.
  • the structure of the synthesis filters much less complex than that of the analysis filters makes it possible to simplify the decoding operation, which is vital to lower the cost of the decoder.
  • the proposed filters can be implemented effectively in terms of polyphase components thanks to the structures of the QMF (quadrature mirror filter) type contained in the synthesis analysis parts.
  • the structure of the filter bank allows a VLSI implementation with a clock frequency half as low as that proposed so far, the filters being obtained by optimization of a localization function both in image space and in the 'frequency space.
  • the multi-resolution organization of the data is taken into account by three different coding techniques, each giving rise to specific performances adapted to the properties of the respective data classes.
  • the average frequencies are coded by a vector quantization (VQ) with a pyramidal structure.
  • VQ vector quantization
  • a pyramidal structure eliminates linear and non-linear spatial correlation, as well as linear and non-linear correlation across sub-bands.
  • this pyramid structure consists of a low resolution image in one level of the pyramid and detail images in the other levels. The resulting pyramid transformation provides information at different levels of resolution.
  • a pseudo-random scanning of the high-frequency sub-bands minimizes the visual distortion due to the overflow of the buffer memory by distributing it over the entire surface of the image. Pseudo-random is understood here in a sense analogous to that of the randomize function of a computer.
  • the spatial sub-band of the continuous component is coded by a conventional technique of pulse code modulation.
  • This process can be used to encode among others the ISO / CCIR 601 and CCITT / CIF formats.
  • For the data to be processed which are in the CCIR 601 format one proceeds beforehand in the coder to a conversion from interlaced to progressive (figure 1), then in the decoder to a conversion from progressive to interlaced (figure 2), in order to restore the original format.
  • These conversions are based on an interpolation with motion compensation. They are not necessary for progressive scan formats.
  • the use of the Gabor decomposition was chosen on the one hand because the Gabor functions, which are Gaussian functions modulated by complex exponentials, have an optimal location in the joint spatial / spatial frequency domain.
  • the majority of the receptive field profiles of the mammalian visual system can be modeled by this type of function.
  • the partitioning of the spatial frequency domain into octave bands is motivated by natural image statistics and also by the sensitivity of the human visual system.
  • Gabor functions do not form an orthogonal basis. Consequently, there is not a priori a direct method to compute the transformation, as one can do it in an orthogonal case by simple scalar products.
  • a method has already been proposed for carrying out the Gabor pyramid transformation. This technique is based on the criterion of adjustment by the method of least squares.
  • the solution to the problem of the method of least squares shows that the coefficients of weighting can be extracted by simple multiplication between a matrix and a vector of data. If the set of Gabor functions is chosen independently of the image, the multiplicative matrix is constant. The reconstructed data are obtained by another multiplication between the matrix of Gabor functions and the vector of the weighting coefficients.
  • a parallel implementation of the transformation is therefore carried out to carry out the transformation in real time.
  • the chrominance is undersampled in the transform domain by eliminating the higher frequency components from the pyramid ( Figure 4). This process does not deteriorate the visual quality of color images.
  • the spatial continuous component (low resolution image, see Figure 3) is coded using modulation by coded pulses (PCM).
  • PCM coded pulses
  • the average levels of the pyramid are coded using a hierarchical vector quantization (VQ) with a tree structure, as represented in FIG. 4.
  • VQ vector quantization
  • the highest spatial frequencies are selected adaptively and scalarly quantized (SQ / RL).
  • the position information and the amplitude of the coefficients are coded separately.
  • the adaptive quantization step and a variable length entropy encoder are controlled using a feedback strategy based on the occupation of the buffer memory.
  • a differential inter-image technique is used. Using two previous images, the current image is predicted by a motion compensated extrapolation, and only the prediction error is coded and transmitted.
  • the motion vectors are estimated hierarchically (pairing of blocks or spatio-temporal constraint). These same vectors are also used when converting from progressive to interlaced.
  • an intra-image technique is applied in a fixed interval to completely update all the coefficients. This mechanism is also restarted after each scene change.
  • Figure 1 is a block diagram of a coding device operating according to the method of the invention.
  • Figure 2 is a block diagram of a decoding device operating according to the method of the invention.
  • Figure 3 illustrates the three different data regions according to the three coding strategies.
  • FIG. 4 illustrates the implementation of the vectors of vector quantization.
  • Figure 5 is a block diagram of motion compensation.
  • FIG. 6 shows an example of impulse response of a filter from the analysis filter bank.
  • FIG. 7 shows an example of impulse response of a filter from the synthesis filter bank.
  • FIG. 8 gives a representation in the frequency domain of the filters of the analysis filter bank.
  • FIG. 9 gives a representation in the frequency domain of the filters of the bank of synthesis filters.
  • the system can be used to encode the two formats ISO / CCIR 601 (interlaced) and CCITT / CIF (progressive).
  • the ISO / CCIR 601 format consists of 288 by 720 interlaced images at a frequency of 50 fields per second for 625-line systems.
  • the CCITT / CIF format consists of 288 by 360 progressive images at a frequency of 25 images per second.
  • a first block ( Figures 1) performs the conversion from interlaced to progressive. This first conversion is based on a spatial interpolation with motion compensation.
  • a final block on decoding ( Figure 2) allows you to find the initial format by converting from progressive to interlaced. This second conversion uses time interpolation with motion compensation.
  • the missing lines are obtained by using a space-time interpolation with compensation for movement between the two neighboring lines existing on either side of the missing line. This makes it possible to go from an image frequency of 25 images per second to an image frequency of 50 progressive images per second.
  • a time compensated motion interpolation is used.
  • the movement between two consecutive images is estimated by a hierarchical technique. These same motion vectors are also used for motion compensation prediction, and they are obviously only calculated once.
  • Subband decomposition and transform coding as a subset of subband decomposition are very popular for data compression, thanks to the good quality of the results obtained for a rate of compression given by comparison with other techniques.
  • the transformation used in the present system is a Gabor pyramid transformation with multi-resolution.
  • multiresolution techniques are very effective for image analysis and coding; as for example SG Mallat, "A Theory for Multirésolution Signal Décomposition: The avelet Representation", pami IEEE, volume 11, number 7, July, pages 674-693, 1989, and Rosenfeld, A., "Multirésolution Image Processing and Analysis” , Springer-Verlag, 1984, Berlin, Germany.
  • the choice of the Gabor functions for the basis of the transformation is motivated by the fact that these functions have an optimal localization in the joint spatial / spatial frequency domain.
  • the Gabor functions are the only ones to reach the lower limit of Heisenberg uncertainty in the space of signals. This principle states that the product of the extent of a signal in the spatial domain with its extent in the frequency domain is always greater than or equal to a constant. The minimum is reached precisely, when the signal is a Gabor function.
  • the majority of receptive field profiles of the mammalian visual system can be modeled by this type of function.
  • the power spectrum of natural images decreases exponentially as the spatial frequency increases.
  • the synthesis filters are designed to contain only coefficients which are a sum or a difference of two powers of two at most.
  • Several methods have been proposed to approximate a given filter, for example by a method based on min-max or least squares criteria by linear or quadratic programming (see the article by YC Lim and SR Parker, "FIR Filter Design over a discrete powers-of-two coefficient space ", IEEE transactions on ASSP Vol. 31 No. 3, 1983, Pages 583-591), and by a method based on simulated annealing (see the article by N. Benvenuto, M. Marchesi and A.
  • the coefficients of these filters are programmed in a special chip according to a poly-phase structure.
  • Demultiplexing is achieved by simple addressing of the memory.
  • the coefficients of the transformed image are coded according to three different methods depending on the spatial frequency to which they belong. These coding classes are shown in Figure 3.
  • PCM Pulse code modulation
  • the spatial sub-band of the continuous component is coded by a conventional technique of pulse code modulation. This technique is relatively robust in the presence of noise.
  • VQ vector quantization
  • SQ scalar quantization
  • a relevant parameter is the size of the vectors, in that the larger they are, the better the exploitation of the correlation between coefficients.
  • the chrominance coefficients are also included in the vectors, along with those of luminance ( Figure 4). Based on experimental results described in the recommendation "Encoding parameters for digital television for studios"
  • the highest level of the pyramid is scanned using a Peano-Hilbert scan in sub-blocks of the image in a pseudo-random order. This scan converts two-dimensional image subbands into a one-dimensional number chain. This chain is then quantified using standard scalar quantization (SQ). The result is a string of numbers with only a small number of bits. These numbers are then compared to a threshold and set to zero if they are below the threshold. The vast majority of the coefficients will be smaller than the threshold. This chain is then divided into two chains, one being a sequence of non-zero coefficients and the other being a binary chain where the value represents the position of a non-zero coefficient and a zero represents a zero coefficient.
  • SQL standard scalar quantization
  • the binary chain is coded using a range coding (RL) based on the Capon model (see in this regard the thesis of M. Kunt, "Comparison of coding techniques for the reduction of redundancy of facsimile images to two levels ", thesis Nr. 183, LTS-DE, EPFL, 1974).
  • the non-zero coefficients are coded using a Huffman code.
  • a feedback from the buffer is used to define the threshold. If the data rate exceeds the maximum, the data flow is truncated and the threshold is lowered for the next image. Due to the pseudo-random order of the scanned sub-blocks, the visual effect of truncation is minimized.
  • Multiplexing is carried out by simple addressing of the memory, then an inverse pyramidal transformation is carried out.
  • the method described here uses motion compensation prediction to reduce the time correlation between the images. Studies have shown that this method is very effective in reducing temporal redundancy (see on this subject the articles by A. Puri, HM Hang and DL Schilling, "An Efficient Block-Matching Algorithm for Motion-Compensated Coding", ICASSP, April 1987, pages 25.4.1-4, and by AN Netravali and JD Rob ' bins, "Motion Compensated Television Coding-Part I", journal Bell Systems Technical Journal, volume 58, number 3, 1979, pages 629-668.). The same displacement vectors obtained are also used for the conversion from progressive to interlaced and for slow motion with good rendering of the movement.
  • V (m, n) representing the field of motion
  • F (m, n) the predicted image
  • F (m, n) the interpolated image
  • m and n are the indices of the rows and columns of the image.
  • the movement estimation is carried out on the basis of the two previous images. Thus, as said above, no additional information is required.
  • the motion estimation is performed based on the current image and the previous image. In this case, a better estimate is obtained, but additional information on the motion vectors is to be sent through the channel.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Le procédé comporte une étape de décomposition des images par transformation pyramidale de Gabor à multirésolution. Les données de l'image transformée, organisée en sous-bandes sous forme pyramidale, sont ensuite sélectionnées en trois groupes selon l'importance de la fréquence spatiale des données des sous-bandes, les données des sous-bandes de chaque groupe étant respectivement codées à l'aide de trois opérations de codage différentes exécutées en parallèle, chacune de ces opérations ayant des performances spécifiques adaptées aux propriétés des données de chaque groupe. Une opération de transformation inverse est ensuite exécutée pour reconstituer les images. Le procédé utilise une prédiction par compensation de mouvement pour réduire la corrélation temporelle entre deux images, sans qu'il soit absolument nécessaire de transmettre les vecteurs de mouvements au récepteur. Il utilise des filtres pour effectuer la décomposition en sous-bandes ne comportant que des coefficients de valeurs étant des puissances de deux ou la somme ou la différence de deux puissances de deux. Une étape préalable permet la conversion des données à traiter d'entrelacé (format CCIR 601) à progressif, basée sur une interpolation avec compensation de mouvement. Une étape finale de conversion de progressif à entrelacé peut être prévue dans le décodeur.

Description

Procédé de compression de séquences d'images numériques
L'utilisation de séquences d'images devient de plus en plus importante dans les applications de l'imagerie moderne, telles que la télévision à haute définition (HDTV) , les téléconférences, les applications multi-médias, l'imagerie médicale, la robotique, l'imagerie satellite, la vidéo inter¬ active et les divertissements.
L'influence du domaine de l'imagerie, en technologie, en politique, dans la société, dans l'économie, de même que dans l'art et la culture, rend cette utilisation de séquences d'images encore plus importante. C'est pourquoi un grand nombre de sociétés et d'organisations, nationales et interna- tionales, se sont investies dans les différents aspects de la science de l'imagerie.
En ce qui concerne la télévision à haute définition, par exemple, d'importants efforts sont entrepris pour définir des nouveaux standards. Les efforts japonais dans ce domaine ne sont pas nouveaux. Dans les années 1970 déjà, la société NHK (Nippon Hoso Kyokai) a commencé ses recherches préparatoires avec onze fabricants de télévision japonais. Le résultat de ces efforts, MUSE (Multiple sub-nyquist sampling encoding) est un système haute-définition analogique. L'introduction de ce système a déjà commencé sur une petite échelle au Japon. L'Europe a suivi le Japon avec un autre système analogique, le HD-MAC (High Définition Multiplexed Analog Components) . La première mise en service de ce système est prévue pour 1995. D'autres systèmes intermédiaires tels que D-MAC ou D2- MAC sont déjà disponibles. De nombreuses sociétés et univer¬ sités américaines travaillent aussi pour introduire un système de télévision à haute définition analogique ou numé¬ rique. On peut citer entre autres le MIT-RC et le MIT-CC du Massachusetts Institute of Technology, le 3XNTSC de Zénith et le HDS-NA de North American Philips.
Parmi les autres applications du codage vidéo numérique on peut citer la recommandation H261 CCITT (Comité consultatif international télégraphique et téléphonique) de vidéo- téléphonie et de vidéo-conférence qui est un système de codage numérique, et aussi le système de codage pour vidéo intercative (ISO/IEC JTC1/SC2/ G11) proposé par le MPEG (Motion Picture Expert Group) .
Un procédé de compression d'images numériques comportant une étape de décomposition des images par transformation en sous- bandes est décrit dans "International Conférence on
Acoustics, Speech and Signal Processing, Albuquerque, 3-6 April, 1990, vol. 4, IEEE (New York, US), M. Antonini et al: Image coding using vectόr quantization in the wavelet transform domain, pp. 2299-2300". Il s'agit d'une application de la quantification vectorielle pour comprimer une structure de données multirésolution. Le procédé décrit ne permet de réduire les redondances qu'à l'intérieur de chaque sous- bande, mais ne tient pas compte de la dépendance entre les sous-bandes. Par ailleurs, le codage vectoriel est appliqué à toutes les sous-bandes, quelle que soit l'importance de la fréquence spatiale des données des sous-bandes. Or, les caractéristiques des sous-bandes étant différentes selon l'importance de la fréquence spatiale, le procédé proposé ne permet pas de tirer le meilleur parti de ces différences. D'autre part, ce procédé ne fait aucune différence entre les filtres d'analyse et les filtres de synthèse quant à leur complexité, ce qui implique que le coût d'un décodeur mettant en oeuvre ce procédé est aussi élevé que celui du codeur.
Le but de la présente invention est de proposer un procédé de compression d'images numériques destiné aux transmissions vidéo-numériques ou à la mémorisation numérique sur des supports tels que des disques compacts ou des disques optiques, de façon à obtenir des débits de transmission moyens de l'ordre de 1 à 10 Mb/s avec une qualité supérieure par rapport aux systèmes connus, tels que par exemple H261 CCITT ou MPEG mentionnés plus haut, et avec une mise en oeuvre relativement simple. A cet effet l'invention concerne un procédé de compression de séquences d'images numériques comportant une étape de décom¬ position des images par transformation en sous-bandes, tel que défini à la revendication 1. Elle concerne également un dispositif pour la mise en oeuvre du procédé, tel que défini à la revendication 12, ainsi qu'un banc de filtres pour la mise en oeuvre du procédé, tel que défini à la revendication 13, et un banc de filtres destiné à une transformation à multirésolution rapide pour la compression d'images numéri- ques, tel que défini à la revendication 15.
Le procédé de l'invention permet en particulier de tenir compte de la redondance non seulement à l'intérieur d'une sous-bande, mais également de la dépendance entre les sous- bandes, ce qui conduit à une efficacité supérieure à celle des procédés connus. Le procédé de l'invention a l'avantage d'être très simple pour sa mise en pratique. Il utilise très peu de mémoire tout en étant très efficace. Par ailleurs, la précision des vecteurs de mouvement est uniquement limitée par la précision arithmétique des opérations élémentaires de la contrainte spatio-temporelle.
D'autre part, la structure des filtres de synthèse beaucoup moins complexe que celle des filtres d'analyse permet de simplifier l'opération de décodage, ce qui est vital pour abaisser le coût du décodeur. Les filtres proposés peuvent être mis en oeuvre efficacement en termes de composantes polyphasés grâce aux structures du type QMF (quadrature mirror filter) contenues dans les parties d'analyse de syn- thèse. La structure du banc de filtres permet une réalisation VLSI avec une fréquence d'horloge deux fois plus faible que celle proposée jusqu'ici, les filtres étant obtenus par optimisation d'une fonction de localisation à la fois dans l'espace image et dans l'espace fréquentiel.
Comme représenté aux figures 1 et 3, l'organisation à multi¬ résolution des données est prise en compte par trois techni¬ ques de codage différentes, chacune donnant lieu à des performances spécifiques adaptées aux propriétés des classes de données respectives.
Les fréquences moyennes sont codées par une quantification vectorielle (VQ) à structure pyramidale. Cette dernière élimine la corrélation spatiale linéaire et non-linéaire, de même que la corrélation linéaire et non-linéaire à travers les sous-bandes. Comme représenté sur la figure 4, cette structure pyramidale consiste en une image à basse résolution dans un niveau de la pyramide et des images de détail dans les autres niveaux. La transformation pyramidale qui en résulte permet d'obtenir des informations à différents niveaux de résolution.
Un balayage pseudo-aléatoire des sous-bandes de haute fré¬ quence minimise la distorsion visuelle due au débordement de la mémoire-tampon en la répartissant sur toute la surface de l'image. Pseudo-aléatoire s'entend ici dans un sens analogue à celui de la fonction hasard (randomize) d'un ordinateur.
La sous-bande spatiale de composante continue est codée par une technique classique de modulation par impulsions codées.
La forme spéciale des filtres de synthèse et d'analyse conduit à une mise en oeuvre efficace, tout en conservant une localisation maximale aussi bien dans les domaines spatial que de fréquence spatiale.
Ce procédé peut être utilisé pour coder entre autres les formats ISO/CCIR 601 et CCITT/CIF. Pour les données à traiter qui sont dans le format CCIR 601, on procède préalablement dans le codeur à une conversion d'entrelacé à progressif (figure 1), puis dans le décodeur à une conversion de progressif à entrelacé (figure 2), afin de restaurer le format initial. Ces conversions sont basées sur une interpo¬ lation avec compensation de mouvement. Elles ne sont pas nécessaires pour les formats à balayage progressif. L'utilisation de la décomposition de Gabor a été choisie d'une part du fait que les fonctions de Gabor, qui sont des fonctions gaussiennes modulées par des exponentielles complexes, ont une localisation optimale dans le domaine conjoint spatial/fréquence spatiale. D'autre part, selon des expériences récentes, la majorité des profils des champs réceptifs du système visuel des mammifères peuvent être modélisés par ce type de fonctions. La partition du domaine de fréquence spatiale en bandes d'octaves est motivée par des statistiques d'images naturelles et aussi par la sensibilité du système visuel humain.
Le principal inconvénient des fonctions de Gabor réside en ce qu'elles ne forment pas une base orthogonale. Par conséquent, il n'y a pas à priori une méthode directe pour calculer la transformation, comme on peut le faire dans un cas orthogonal par simples produits scalaires. On a déjà proposé une méthode pour effectuer la transformation pyramidale de Gabor. Cette technique est basée sur le critère de l'ajustement par la méthode des moindres carrés. La solution au problème de la méthode des moindres carrés montre que les coefficients de pondération peuvent être extraits par simple multiplication entre une matrice et un vecteur de données. Si l'ensemble des fonctions de Gabor est choisi indépendamment de l'image, la matrice multiplicative est constante. Les données reconsti¬ tuées sont obtenues par une autre multiplication entre la matrice des fonctions de Gabor et le vecteur des coefficients de pondération. Une mise en oeuvre parallèle de la transfor¬ mation est par conséquent réalisée pour effectuer la trans- formation en temps réel.
La chrominance est sous-échantillonnée dans le domaine de la transformée en éliminant les composants de plus hautes fréquences de la pyramide (figure 4) . Ce procédé ne détériore pas la qualité visuelle des images couleurs.
La composante continue spatiale (image à basse résolution, voir figure 3) est codée en utilisant la modulation par impulsions codées (PCM) . Les niveaux moyens de la pyramide sont codés en utilisant une quantification vectorielle (VQ) hiérarchique à structure arborescente, telle que représentée à la figure 4. Les plus hautes fréquences spatiales sont sélectionnées de façon adaptative et quantifiées scalairement (SQ/RL) . L'information de la position et l'amplitude des coefficients sont codés séparément. Le pas adaptatif de la quantification et un codeur entropique à longueur variable sont contrôlés en utilisant une stratégie de contre-réaction basée sur l'occupation de la mémoire-tampon.
De façon à exploiter la corrélation temporelle (inter-images) entre les coefficients de chaque image, une technique d'inter-images différentielle est utilisée. A l'aide de deux images précédentes, l'image courante est prédite par une extrapolation compensée en mouvement, et seulement l'erreur de prédiction est codée et transmise. Les vecteurs de mouve¬ ment sont estimés de façon hiérarchique (appariement de blocs ou contrainte spatio-temporelle) . Ces mêmes vecteurs sont également utilisés lors de la conversion de progressif à entrelacé. De façon à éviter une accumulation d'erreurs de canal, une technique d'intra-image est appliquée dans un intervalle fixe pour mettre à jour complètement tous les coefficients. Ce mécanisme est aussi redémarré après chaque changement de scène.
Les particularités et avantages de l'invention ressortiront bien de la description qui suit, donnée à titre d'exemple, et qui se réfère aux dessins annexés.
La figure 1 est un schéma-bloc d'un dispositif de codage fonctionnant selon le procédé de l'invention.
La figure 2 est un schéma-bloc d'un dispositif de décodage fonctionnant selon le procédé de l'invention.
La figure 3 illustre les trois différentes régions de données selon les trois stratégies de codage. La figure 4 illustre la mise en oeuvre des vecteurs de la quantification vectorielle.
La figure 5 est un schéma-bloc de la compensation en mouvement.
La figure 6 montre un exemple de réponse impulsionnelle d'un filtre du banc de filtres d'analyse.
La figure 7 montre un exemple de réponse impulsionnelle d'un filtre du banc de filtres de synthèse.
La figure 8 donne une représentation dans le domaine fréquentiel des filtres du banc de filtres d'analyse.
La figure 9 donne une représentation dans le domaine fréquentiel des filtres du banc de filtres de synthèse.
Les conversions d'entrelacé à progressif et de progressif à entrelacé
Le système peut être utilisé pour coder les deux formats ISO/CCIR 601 (entrelacé) et CCITT/CIF (progressif) . Le format ISO/CCIR 601 est constitué de 288 par 720 images entrelacées à une fréquence de 50 champs par secondes pour les systèmes à 625 lignes. Le format CCITT/CIF est constitué de 288 par 360 images progressives à une fréquence de 25 images par seconde. Lorsque l'image d'entrée est dans un format entrelacé, un premier bloc (figures 1) exécute la conversion d'entrelacé à progressif. Cette première conversion est basée sur une interpolation spatiale avec compensation de mouvement. Un dernier bloc au décodage (figure 2) permet de retrouver le format initial en effectuant une conversion de progressif à entrelacé. Cette deuxième conversion utilise une interpola- tion temporelle avec compensation de mouvement.
De façon à pouvoir effectuer la conversion de 50 champs entrelacés par seconde en 25 images progressives par seconde et vice-versa, les étapes suivantes sont mises en oeuvre. Une image est générée pour chaque champ en utilisant une interpo¬ lation spatiale. Ceci conduit à 50 images par seconde. La séquence d'image est sous-échantillonnée dans le domaine temporel, de façon à conserver seulement 25 images par seconde. La transformation et le codage peuvent alors être effectués. Dans le décodeur, une interpolation temporelle est exécutée. Ceci conduit à 50 images par seconde. Finalement, on conserve seulement les lignes paires ou impaires des images, de façon à générer 50 champs par seconde.
La technique suivante est utilisée pour cette conversion. Les lignes manquantes sont obtenues en utilisant une interpola¬ tion spatio-temporelle avec compensation de mouvement entre les deux lignes voisines existant de part et d'autre de la ligne manquante. Ceci permet de passer d'une fréquence d'ima¬ ges de 25 images par seconde à une fréquence d'images de 50 images progressives par seconde. On utilise une inter¬ polation temporelle compensée en mouvement. Le mouvement entre deux images consécutives est estimé par une technique hiérarchique. Ces mêmes vecteurs de mouvement sont également utilisés pour la prédiction par compensation de mouvement, et ils ne sont bien évidemment calculés qu'une fois. Ces deux techniques ont déjà été largement étudiées par de nombreux auteurs, par exemple dans les articles de M. Bierling,
"Displacement estimation by hierarchical blockmatching", SPIE Visual Communications and Image Processing '88' vol. 1001, 1988, pp. 942-951 et de M. Bierling et R. Thoma "Motion co pénsating field interpolation using a hierarchically structured displacement estimator". Signal Processing 11 (1986) 387-404.
La transformation pyramidale de Gabor
La décomposition en sous-bandes et le codage par transformée en tant que sous-ensemble de la décomposition en sous-bandes sont très populaires pour la compression des données, grâce à la bonne qualité des résultats obtenus pour un taux de compression donné par comparaison avec d'autres techniques.
La transformation utilisée dans le présent système est une transformation pyramidale de Gabor à multi-résolution. Au cours de ces dernières années, de nombreux travaux ont démontré que les techniques de multirésolution sont très efficaces pour l'analyse et le codage d'images; comme par exemple S.G. Mallat, "A Theory for Multirésolution Signal Décomposition: The avelet Représentation", pami IEEE, volume 11, number 7, July, pages 674-693, 1989, et Rosenfeld, A., "Multirésolution Image Processing and Analysis", Springer- Verlag, 1984, Berlin, Germany.
Le choix des fonctions de Gabor pour la base de la transfor- mation (ou pour la réponse impulsionnelle des filtres de synthèse) est motivée par le fait que ces fonctions ont une localisation optimale dans le domaine conjoint spatial/ fréquence spatiale. En d'autres mots, les fonctions de Gabor sont les seules à atteindre la borne inférieure de l'incerti- tude de Heisenberg dans l'espace des signaux. Ce principe affirme que le produit de l'étendue d'un signal dans le domaine spatial avec son étendue dans le domaine fréquentiel est toujours supérieur ou égal à une constante. Le minimum est atteint précisément, quand le signal est une fonction de Gabor. D'autre part, comme l'ont montré des expériences récentes, la majorité des profils de champs réceptifs du système visuel des mammifères peuvent être modélisés par ce type de fonctions. En outre le spectre de puissance des images naturelles décroît de manière exponentielle lorsque la fréquence spatiale augmente. Ceci motive le choix d'une décomposition en bandes d'octave du domaine fréquentiel. De plus, des mesures faites sur les cellules du champ réceptif du cortex visuel des mammifères ont montré que chacune d'entre elles est sensible aux fréquences se trouvant dans une sous-bande dont la largeur de bande correspond à une octave.
La conception des filtres d'analyse et de synthèse (ou de manière équivalente les fonctions de base de la transfor¬ mation et des fonctions bi-orthogonales à celles-ci) s'effec¬ tue en utilisant la solution des moindres carrés. Cette solution montre que les coefficients de la transformation peuvent être extraits par un simple produit de matrice ATFA qui est équivalent à un filtrage et à un sous-échantillon¬ nage, où A est la matrice des filtres d'analyse et F la matrice de l'image. De manière similaire, la transformation inverse est obtenue à l'aide d'un autre produit de matrice GXGT qui met en oeuvre le suréchantillonnage et le filtrage inverse, où G est la matrice des filtres de synthèse et X la matrice des coefficients de la transformation, et où
Figure imgf000012_0001
lorsqu'il s'agit de matrices carrées, tel que décrit dans l'article de T. Ebrahimi, T. Reed, et M. Kunt, "Séquence coding by Gabor Décomposition", Signal
Processing V, Proceedings of Ensipco 90, Pages 769-772, 1990.
Pour des questions pratiques, telles que la possibilité d'implantation en vue d'une application en temps réel, une approximation des fonctions de Gabor est utilisée pour générer les fonctions de base de la transformation. Les filtres de synthèse sont conçus pour ne contenir que des coefficients qui sont une somme ou une différence de deux puissances de deux au plus. Plusieurs méthodes ont été proposées pour approximer un filtre donné, par exemple par une méthode basée sur les critères min-max ou moindres carrés par la programmation linéaire ou quadratique (voir l'article de Y.C. Lim et S.R. Parker, "FIR Filter Design over a discrète powers-of-two coefficient space", IEEE transactions on ASSP Vol. 31 No. 3, 1983, Pages 583-591), et par une méthode basée sur le recuit simulé (voir l'article de N. Benvenuto, M. Marchesi et A. Uncini, "Results on the application simulated annealing algorithm for the design of digital filters.with powers-of-two coefficients", IEEE proceedings 1990, Pages 1301-1304) . Il est également possible d'approximer un filtre donné par plusieurs filtres mis en cascade. Cette approximation permet d'effectuer la transfor¬ mation inverse très rapidement en utilisant seulement quelques opérations d'addition et de décalage. Toutes les opérations de filtrage sont effectuées sur une architecture hautement parallèle ASP (Associative String Processor) . (Voir: Lea R.M., ASP: parallel Computing technology, SPIE Visual communication and image processing 90, vol 1360,
Lausanne, Switzerland p. 78-91) . La complexité est cependant déplacée dans les filtres d'analyse. Toutefois, il est possible d'approximer également ces filtres par une somme ou une différence de puissances de deux. Après cette dernière opération, la propriété de reconstruction parfaite n'est plus vérifiée. Néanmoins, des résultats montrent une qualité quasi-parfaite des images reconstruites, avec un rapport signal sur erreur de reconstruction dépassant 46 dB. Un exemple de banc de filtres ayant des coefficients en puissan- ces de deux, approximant des filtres de Gabor, est donné aux figures 6 à 9. Sur les figures 7 et 9, les courbes en traitillé 1 représentent des filtres idéaux, les courbes en pointillé 2 étant celles des filtres obtenus, faciles à implémenter.
Les coefficients du filtre prototype (figure 6) du banc de filtres d'analyse sont les suivants:
f(l)=f(10)=2-« f(2)=f(9)=0
Figure imgf000013_0001
f(4)=f(7)=-2-7 f(5)=f(6)=2°
Les coefficients du filtre prototype (figure 7) du banc de filtres de synthèse sont les suivants:
g(D=g(6)=2-'
Figure imgf000013_0002
g(3)=g(4)=2°
Pour une mise en oeuvre pratique, les coefficients de ces filtres sont programmés dans un chip spécial selon une structure en poly-phase.
Le démultiplexage est réalisé par un simple adressage de la mémoire.
La quantification
Les coefficients de l'image transformée sont codés selon trois méthodes différentes dépendant de la fréquence spatiale à laquelle ils appartiennent. Ces classes de codage sont représentées à la figure 3.
a) La modulation par impulsions codées (PCM)
La sous-bande spatiale de composante continue est codée par une technique classique de modulation par impulsions codées. Cette technique est relativement robuste en présence de bruit.
b) La quantification vectorielle hiérarchique (VQ)
Il est bien connu comment la quantification vectorielle (VQ) peut améliorer les performances par rapport à la quantification scalaire (SQ) . (J.S. Lim, "Two-dimensional signal and image processing", pp. 589-611, Prentice-Hall éd., 1990, et R.M. Gray, "Vector Quantization", IEEE ASSP Mag., vol 1, pp. 4-29, April 1984). La caractéristique la plus importante de la quantification vectorielle est la façon d'exploiter la dépendance statistique parmi les scalaires dans le bloc de quantification. En utilisant la quantification vectorielle, il est possible de prendre en considération la dépendance linéaire et non linéaire entre les scalaires (éléments dans le bloc formant un vecteur de quantification) .
Différentes procédures de quantification peuvent être appliquées au codage des sous-bandes générées par la transformation de Gabor. De façon à prendre en considéra- tion la corrélation évidente qui existe entre les différentes bandes, un codage plus efficace peut être obtenu en remplaçant la quantification scalaire par la quantification vectorielle. (Voir à cet égard l'article de G. Galand, E. Lacson, G. Furland et J Menez, "Subband coding of images using adaptive VQ, and Entropy Coding", Image'com 90, pp. 106-110, Bordeaux, Nov. 1990). On utilise la quantification vectorielle dans la zone de fréquences moyennes, où la corrélation est supérieure et où la quantification vectorielle est la plus efficace. Dans le domaine de la transformée les éléments des vecteurs sont choisis conformément à la structure pyramidale décrite plus haut (figure 4) .
Un paramètre pertinent est constitué par la dimension des vecteurs, en ce que plus ils sont grands, meilleure est l'exploitation de la corrélation entre coefficients. En accroissant la dimension du dictionnaire, on entraîne un accroissement de la durée de la construction du diction- naire. Pour cette raison et pour de strictes conditions de réalisation (traitement en temps réel, quantité de mémoire), il est intéressant d'utiliser une dimension de vecteurs petite à moyenne, dépendant du nombre de niveaux dans la pyramide quantifiée utilisant la quantification vectorielle.
Les coefficients de chrominance sont aussi inclus dans les vecteurs, avec ceux de luminance (figure 4) . D'après des résultats expérimentaux décrits dans la recommandation "Encoding parameters for digital télévision for studios"
CCIR Recommendation 601-1 XVIth Plenary Assembly Dubrovnik 1986, Vol. XI, Part 1, pp. 319-328, il est possible de montrer que l'utilisation de coefficients de chrominance uniquement dans les fréquences basses à moyennes ne détériore pas notablement la qualité visuelle. Du point de vue de la réalisation, le contrôle de la mémoire-tampon est évité en adoptant une quantification vectorielle à recherche exhaustive/structure arborescente, en utilisant un code de longueur fixe assigné à chaque élément. On a ainsi défini un système donnant une qualité requise minimum. Le débit binaire correspondant à la qualité ci- dessus restera toujours en-dessous de la capacité du canal, alors que le débit binaire disponible restant peut être utilisé pour améliorer la qualité de l'information de la bande à haute fréquence. Enfin, le dictionnaire est défini à priori et connu à la fois de l'émetteur et du récepteur.
Quantification scalaire, code de longueur variable, contrôle de la mémoire-tampon (SQ/RL)
Le plus haut niveau de la pyramide est balayé en utilisant un balayage Peano-Hilbert en sous-blocs de l'image selon un ordre pseudo-aléatoire. Ce balayage convertit les sous- bandes d'images à deux dimensions en chaîne de nombre à une dimension. Cette chaîne est ensuite quantifiée en utilisant une quantification scalaire standard (SQ) . Il en résulte une chaîne de nombres avec seulement un petit nombre de bits. Ces nombres sont ensuite comparés à un seuil et mis à zéro s'ils sont inférieurs au seuil. La grande majorité des coefficients seront plus petits que le seuil. Cette chaîne est ensuite divisée en deux chaînes, l'une étant une séquence de coefficients non nuls et l'autre étant une chaîne binaire où la valeur un représen¬ te la position d'un coefficient non nul et un zéro représente un coefficient nul. La chaîne binaire est codée en utilisant un codage de plage (RL) basé sur le modèle de Capon (voir à cet égard la thèse de M. Kunt, "Comparaison de techniques d'encodage pour la réduction de redondance d'images facsimile à deux niveaux", thèse Nr. 183, LTS-DE, EPFL, 1974) . Les coefficients non nuls sont codés en utilisant un code de Huffman. De façon à produire une sortie qui soit toujours en-dessous du débit de données maximum autorisé, une contre-réaction depuis la mémoire- tampon est utilisée pour définir le seuil. Si le débit de données dépasse le maximum, le flux de données est tronqué et le seuil est abaissé pour l'image suivante. Du fait de l'ordre pseudo-aléatoire des sous-blocs balayés, l'effet visuel de la troncature est minimisé.
Le multiplexage est réalisé par un simple adressage de la mémoire, puis une transformation pyramidale inverse est effectuée.
La prédiction par compensation de mouvement
Le procédé décrit ici utilise une prédiction par compensation de mouvement pour réduire la corrélation temporelle entre les images. Des études ont montré que cette méthode est très efficace pour réduire la redondance temporelle (voir à ce sujet les articles de A. Puri, H.M. Hang et D.L. Schilling, "An Efficient Block-Matching Algorithm for Motion-Compensated Coding", ICASSP, April 1987, pages 25.4.1-4, et de A.N. Netravali et J.D. Rob'bins, "Motion Compensated Télévision Coding-Part I", journal Bell Systems Technical Journal, volume 58, number 3, 1979, pages 629-668.). Les mêmes vecteurs de déplacement obtenus sont aussi utilisés pour la conversion de progressif à entrelacé et pour le mouvement ralenti avec un bon rendu du mouvement. Dans ces deux cas, une interpolation temporelle avec compensation de mouvement est impliquée (figure 5). La structure de multirésolution de la transformée pyramidale est exploitée pour trouver le mouvement dans deux images consécutives. Sur la figure 5, Fι(m,n) et Fa(m,n) représentent les deux images utilisées pour l'estimation de mouvement, qui peuvent être soit les deux images précédentes, soit une image précédente et l'image
__ Λ courante, V(m,n) représentant le champ de mouvement, F(m,n) l'image prédite et F(m,n) l'image interpolée, et où m et n sont les indices des lignes et colonnes de l'image. On utilise en premier lieu un algorithme d'appariement de blocs, ou de contrainte spatio-temporelle, sur le plus haut niveau de la pyramide avec la résolution la plus basse. Les résul¬ tats sont ensuite projetés vers le bas comme condition initiale dans les niveaux inférieurs et affinés chaque fois. Les résultats finaux sont ensuite utilisés pour prédire l'image courante. L'ensemble du procédé d'estimation de mouvement est effectué sur des images quantifiées, de façon que le récepteur puisse reconstituer les images sans avoir reçu les vecteurs de mouvement. Ce procédé peut ainsi être utilisé lorsqu'aucune information de mouvement n'est néces¬ saire pour le décodage du vecteur de mouvement.
Comme mentionné ci-dessus, deux modes d'estimation de mouve- ment sont considérés ici. Dans le cas où il n'y a peu de mouvement dans la scène, l'estimation de mouvement est effec¬ tuée en se basant sur les deux images précédentes. Ainsi, comme dit plus haut, aucune information supplémentaire n'est nécessaire. Dans le cas où il y a beaucoup de mouvement dans la scène, l'estimation de mouvement est effectuée en se basant sur l'image courante et l'image précédente. Dans ce cas, une meilleure estimation est obtenue, mais une informa¬ tion supplémentaire sur les vecteurs de mouvement est à envoyer à travers le canal.

Claims

REVENDICATIONS
1. Procédé de compression de séquences d'images numéri¬ ques, comportant une étape de décomposition des images par transformation en sous-bandes, caractérisé en ce que l'opéra¬ tion de décomposition est effectuée selon le schéma d'une transformation pyramidale à multirésolution, en ce que les données de l'image transformée, organisée en sous-bandes sous forme pyramidale, sont ensuites sélectionnées en trois grou- pes selon l'importance de la fréquence spatiale des données des sous-bandes, les données des sous-bandes de chaque groupe étant respectivement codées à l'aide de trois opérations de codage différentes exécutées en parallèle, chacune de ces opérations ayant des performances spécifiques adaptées aux propriétés des données de chaque groupe, et en ce qu'une opération de transformation inverse est ensuite exécutée pour reconstituer les images.
2. Procédé selon la revendication 1, caractérisé en ce que l'opération de transformation inverse est de complexité inférieure à celle de la transformation directe.
3. Procédé selon l'une des revendications 1 ou 2, caractérisé en ce que l'on effectue l'opération de décomposi- tion à l'aide d'une transformation pyramidale de Gabor à multirésolution.
4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce qu'il comporte des filtres pour effectuer la décomposition en sous-bandes ne comportant que des coeffi¬ cients de valeurs étant des puissances de deux ou la somme ou la différence de deux puissances de deux.
5. Procédé selon l'une des revendications 1 à 4 , caractérisé en ce qu'il comporte une opération de codage de la sous-bande spatiale de composante continue en utilisant une technique de modulation par impulsions codées, une opération de codage des sous-bandes de fréquences moyennes en utilisant une quantification vectorielle hiérarchique à structure arborescente et une opération de sélection adaptatives des sous-bandes de plus hautes fréquences et de quantification scalaires des sous-bandes sélectionnées.
6. Procédé selon la revendication 5, caractérisé en ce que l'opération de quantification scalaire des sous-bandes de plus hautes fréquences comprend un balayage Peano-Hilbert en sous-blocs de l'image selon un ordre pseudo-aléatoire.
7. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il utilise une prédiction par compensation de mouvement pour réduire la corrélation temporelle entre deux images, sans qu'il soit absolument nécessaire de transmettre les vecteurs de mouvements au récepteur
8. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte une étape préalable de conversion des données à traiter qui sont dans le format CCIR 601, cette étape comportant une opération de conversion d'entrelacé à progressif, basée sur une interpolation avec compensation de mouvement.
9. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte une étape finale de conver¬ sion des données qui sont dans un format progressif au format CCIR 601, cette étape comportant une opération de conversion progressif à entrelacé, basée sur une interpolation avec compensation de mouvement.
10. Procédé selon l'une des revendications 5 à 9, caractérisé en ce que l'information de la position et l'amplitude des coefficients de la quantification sont codés séparément.
11. Procédé selon la revendication 10, caractérisé en ce que l'on contrôle le pas adaptatif de la quantification et un codeur entropique à longueur variable en utilisant une stratégie de contre-réaction basée sur l'occupation de la mémoire-tampon.
12. Dispositif pour la mise en oeuvre du procédé selon l'une des revendication 1 à 11, caractérisé en ce qu'il comporte des premiers moyens pour effectuer une décomposition des images en sous-bandes selon le schéma d'une transforma¬ tion pyramidale à multirésolution, des seconds moyens pour sélectionner les données de l'image transformée, organisée en sous-bandes sous forme pyramidale, en trois groupes selon l'importance de la fréquence spatiale des données des sous- bandes, des troisièmes, quatrièmes et cinquièmes moyens destinés au codage respectif en parallèle des données des sous-bandes de chaque groupe, chacun desdits troisièmes, quatrièmes et cinquièmes moyens étant agencés de façon à fournir des performances spécifiques adaptées aux propriétés des données de chaque groupe, et des sixièmes moyens pour effectuer une transformation inverse afin de reconstituer les images.
13. Banc de filtres pour la mise en oeuvre du procédé selon l'une des revendications 1 à 11, caractérisé en ce qu'il comporte un ensemble de filtres du type à reconstruc¬ tion quasi-parfaite, chaque filtre contenant un nombre de coefficients en puissances de deux inférieur à vingt et en structure à multirésolution.
14. Banc de filtres selon la revendication 13, caractérisé en ce que le nombre desdits filtres est compris entre six et dix.
15. Banc de filtres destiné à une transformation à multirésolution rapide pour la compression d'images numéri¬ ques, caractérisé en ce qu'il comporte un ensemble de filtres du type à reconstruction quasi-parfaite, chaque filtre contenant un nombre de coefficients en puissances de deux inférieur à vingt et en structure à multirésolution.
16. Banc de filtres selon la revendication 15, caractérisé en ce que le nombre desdits filtres est compris entre six et dix.
PCT/CH1992/000148 1991-07-19 1992-07-16 Procede de compression de sequences d'images numeriques Ceased WO1993002526A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CH2167/91-5 1991-07-19
CH216791 1991-07-19

Publications (1)

Publication Number Publication Date
WO1993002526A1 true WO1993002526A1 (fr) 1993-02-04

Family

ID=4227458

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CH1992/000148 Ceased WO1993002526A1 (fr) 1991-07-19 1992-07-16 Procede de compression de sequences d'images numeriques

Country Status (1)

Country Link
WO (1) WO1993002526A1 (fr)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997039586A1 (fr) * 1996-04-15 1997-10-23 Faroudja, Yves, C. Enregistrement et lecture universels de disques video faisant appel a des signaux de mouvement pour une lecture de haute qualite de sources autres que des films
EP0800684A4 (fr) * 1995-10-26 1998-03-25 Motorola Inc Procede et dispositif pour coder/decoder une difference de trame deplacee
WO2001047277A1 (fr) * 1999-12-20 2001-06-28 Sarnoff Corporation Codage vidéo échelonnable
CN104350746A (zh) * 2012-05-31 2015-02-11 汤姆逊许可公司 基于局部幅度和相位谱的图像质量测量

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4663660A (en) * 1986-06-20 1987-05-05 Rca Corporation Compressed quantized image-data transmission technique suitable for use in teleconferencing
JPS62264764A (ja) * 1986-05-12 1987-11-17 Nippon Telegr & Teleph Corp <Ntt> 画像情報圧縮方式
EP0253608A2 (fr) * 1986-07-14 1988-01-20 British Broadcasting Corporation Système de balayage vidéo
EP0396368A2 (fr) * 1989-05-04 1990-11-07 AT&T Corp. Système adaptable à perception de codage d'image

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62264764A (ja) * 1986-05-12 1987-11-17 Nippon Telegr & Teleph Corp <Ntt> 画像情報圧縮方式
US4663660A (en) * 1986-06-20 1987-05-05 Rca Corporation Compressed quantized image-data transmission technique suitable for use in teleconferencing
EP0253608A2 (fr) * 1986-07-14 1988-01-20 British Broadcasting Corporation Système de balayage vidéo
EP0396368A2 (fr) * 1989-05-04 1990-11-07 AT&T Corp. Système adaptable à perception de codage d'image

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
1990 IEEE International Symposium on Circuits and Systems, 1-3 mai 1990, New Orleans, LA, US, IEEE (New York, NY, US); B.R. Horng et al.: "The design of multiplierless two-channel linear-phase FIR filter banks with applications to image subband coding", pages 651-653, voir l'article en entier *
1990 IEEE International Symposium on Circuits and Systems, New Orleans, LA, 1-3 mai 1990, vol. 2, IEEE (New York, NY, US); F.-M. Wang et al.: "Time-recursive deinterlacing for IDTV and pyramid coding", pages 1306-1309, voir page 1308, paragraphe 4 - 1309, paragraphe 6 *
GLOBECOM '90, IEEE Global Telecommunications Conference & Exhibition, San Diego, CA, 2-5 décembre 1990, vol. 2, IEEE (New York, NY, US); H. Gharavi: "Subband based CCITT compatible coding for HDTV conferencing", pages 978-981, voir l'abrégé; figure 1 *
IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 38, no. 6, juin 1990 (New York, US); G. Karlsson et al.: "Theory of two-dimensional multirate filter banks", pages 925-937, voir figure 1; page 930, colonne de droite, lignes 25-49 *
International Conference on Acoustics, Speech, and Signal Processing, Albuquerque, 3-6 avril 1990, vol. 4, IEEE, (New York, US); M. Antonini et al.: "Image coding using vector quantization in the wavelet transform domain", pages 2297-2300, voir abrégé, pages 2299-2300, paragraphe II (cité dans la demande) *
International Conference on Acoustics, Speech, and Signal Processing, Tokyo, 7-11 avril 1986, vol. 1, IEEE (New York, NY, US); S.E. Elnahas et al.: "Hybrid interframe coding of video signals with backward-acting motion detection", pages 165-167, voir abrégé *
Patent Abstracts of Japan, vol. 12, no. 150 (E-606), 10 mai 1988, & JP,A, 62264764 (NIPPON TELEGR. & TELEPH. CORP.) 17 novembre 1987, voir abrégé; figure *
Signal Processing V, Eusipco, 90, 1990, Elsevier Science Publishers, B.V. (Amsterdam, NL); T. Ebrahimi et al.: "Sequence coding by Gabor decomposition", pages 769-772, voir l'abrégé (cité dans la demande) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0800684A4 (fr) * 1995-10-26 1998-03-25 Motorola Inc Procede et dispositif pour coder/decoder une difference de trame deplacee
WO1997039586A1 (fr) * 1996-04-15 1997-10-23 Faroudja, Yves, C. Enregistrement et lecture universels de disques video faisant appel a des signaux de mouvement pour une lecture de haute qualite de sources autres que des films
US5754248A (en) * 1996-04-15 1998-05-19 Faroudja; Yves C. Universal video disc record and playback employing motion signals for high quality playback of non-film sources
WO2001047277A1 (fr) * 1999-12-20 2001-06-28 Sarnoff Corporation Codage vidéo échelonnable
US6907073B2 (en) 1999-12-20 2005-06-14 Sarnoff Corporation Tweening-based codec for scaleable encoders and decoders with varying motion computation capability
CN104350746A (zh) * 2012-05-31 2015-02-11 汤姆逊许可公司 基于局部幅度和相位谱的图像质量测量

Similar Documents

Publication Publication Date Title
PodilChuk et al. Three-dimensional subband coding of video
EP0448491B1 (fr) Procédé de codage et de transmission à au moins deux niveaux de qualité d&#39;images numériques appartenant à une séquence d&#39;images, et dispositifs correspondants
KR100664928B1 (ko) 비디오 코딩 방법 및 장치
Westerink et al. Subband coding of images using vector quantization
EP0857392B1 (fr) Codeur d&#39;image a ondlettes a arborescence nulle et a blocs se chevauchant
EP0734164B1 (fr) Procédé et appareil pour le codage du signal vidéo avec un dispositif de classification
IE902321A1 (en) A method of processing video image data for use in the¹storage or transmission of moving digital images
de Queiroz et al. Nonexpansive pyramid for image coding using a nonlinear filterbank
FR2589020A1 (fr) Procede de codage hybride par transformation pour la transmission de signaux d&#39;image
FR2880743A1 (fr) Dispositif et procedes de codage et de decodage echelonnables de flux de donnees d&#39;images, signal, programme d&#39;ordinateur et module d&#39;adaptation de qualite d&#39;image correspondants
EP0937291B1 (fr) Procede et dispositif de prediction compensee en mouvement
EP0668004B1 (fr) Procede et dispositif de reduction de debit pour l&#39;enregistrement d&#39;images sur magnetoscope
FR2670348A1 (fr) Dispositif de codage d&#39;images appartenant a une sequence d&#39;images, a rearrangement des lignes avant transformation mathematique, systeme de transmission d&#39;images, recepteur et procede de codage correspondants.
US5629737A (en) Method and apparatus for subband coding video signals
KR100621582B1 (ko) 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치
KR20050075578A (ko) 폐루프 최적화를 지원하는 스케일러블 비디오 엔코딩 방법및 장치
US20050163217A1 (en) Method and apparatus for coding and decoding video bitstream
KR100621584B1 (ko) 스무딩 필터를 이용하는 비디오 디코딩 방법 또는 비디오디코더
KR100755689B1 (ko) 계층적 시간적 필터링 구조를 갖는 비디오 코딩 및 디코딩방법, 이를 위한 장치
WO1993002526A1 (fr) Procede de compression de sequences d&#39;images numeriques
Singhal et al. Source coding of speech and video signals
FR2597282A1 (fr) Procede de quantification dans un codage par transformation pour la transmission de signaux d&#39;image
FR2654285A1 (fr) Systeme de compression d&#39;images numeriques appartenant a une sequence d&#39;images, a quantification adaptative en fonction d&#39;une information psychovisuelle.
Scotton et al. A low complexity video subband coder for ATM
EP0724812B1 (fr) Procede et dispositif de codage inter-trame avec regulation de debit pour l&#39;enregistrement d&#39;images sur magnetoscope

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FR GB GR IT LU MC NL SE

ENP Entry into the national phase

Ref document number: 2091250

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: CA

ENP Entry into the national phase

Ref country code: CA

Ref document number: 2091250

Kind code of ref document: A

Format of ref document f/p: F