WO1993002526A1

WO1993002526A1 - Procede de compression de sequences d'images numeriques

Info

Publication number: WO1993002526A1
Application number: PCT/CH1992/000148
Authority: WO
Inventors: Murat Kunt; Frédéric DUFAUX; Iole Moccagatta; Touradj Ebrahimi; George Campbell; Alexander Geurtz
Original assignee: LABORATOIRE DE TRAITEMENT DES SIGNAUX
Current assignee: LABORATOIRE DE TRAITEMENT DES SIGNAUX
Priority date: 1991-07-19
Filing date: 1992-07-16
Publication date: 1993-02-04
Anticipated expiration: 1994-01-19

Abstract

Le procédé comporte une étape de décomposition des images par transformation pyramidale de Gabor à multirésolution. Les données de l'image transformée, organisée en sous-bandes sous forme pyramidale, sont ensuite sélectionnées en trois groupes selon l'importance de la fréquence spatiale des données des sous-bandes, les données des sous-bandes de chaque groupe étant respectivement codées à l'aide de trois opérations de codage différentes exécutées en parallèle, chacune de ces opérations ayant des performances spécifiques adaptées aux propriétés des données de chaque groupe. Une opération de transformation inverse est ensuite exécutée pour reconstituer les images. Le procédé utilise une prédiction par compensation de mouvement pour réduire la corrélation temporelle entre deux images, sans qu'il soit absolument nécessaire de transmettre les vecteurs de mouvements au récepteur. Il utilise des filtres pour effectuer la décomposition en sous-bandes ne comportant que des coefficients de valeurs étant des puissances de deux ou la somme ou la différence de deux puissances de deux. Une étape préalable permet la conversion des données à traiter d'entrelacé (format CCIR 601) à progressif, basée sur une interpolation avec compensation de mouvement. Une étape finale de conversion de progressif à entrelacé peut être prévue dans le décodeur.

Description

Procédé de compression de séquences d'images numériques

L'utilisation de séquences d'images devient de plus en plus importante dans les applications de l'imagerie moderne, telles que la télévision à haute définition (HDTV) , les téléconférences, les applications multi-médias, l'imagerie médicale, la robotique, l'imagerie satellite, la vidéo inter¬ active et les divertissements.

L'influence du domaine de l'imagerie, en technologie, en politique, dans la société, dans l'économie, de même que dans l'art et la culture, rend cette utilisation de séquences d'images encore plus importante. C'est pourquoi un grand nombre de sociétés et d'organisations, nationales et interna- tionales, se sont investies dans les différents aspects de la science de l'imagerie.

En ce qui concerne la télévision à haute définition, par exemple, d'importants efforts sont entrepris pour définir des nouveaux standards. Les efforts japonais dans ce domaine ne sont pas nouveaux. Dans les années 1970 déjà, la société NHK (Nippon Hoso Kyokai) a commencé ses recherches préparatoires avec onze fabricants de télévision japonais. Le résultat de ces efforts, MUSE (Multiple sub-nyquist sampling encoding) est un système haute-définition analogique. L'introduction de ce système a déjà commencé sur une petite échelle au Japon. L'Europe a suivi le Japon avec un autre système analogique, le HD-MAC (High Définition Multiplexed Analog Components) . La première mise en service de ce système est prévue pour 1995. D'autres systèmes intermédiaires tels que D-MAC ou D2- MAC sont déjà disponibles. De nombreuses sociétés et univer¬ sités américaines travaillent aussi pour introduire un système de télévision à haute définition analogique ou numé¬ rique. On peut citer entre autres le MIT-RC et le MIT-CC du Massachusetts Institute of Technology, le 3XNTSC de Zénith et le HDS-NA de North American Philips.

Parmi les autres applications du codage vidéo numérique on peut citer la recommandation H261 CCITT (Comité consultatif international télégraphique et téléphonique) de vidéo- téléphonie et de vidéo-conférence qui est un système de codage numérique, et aussi le système de codage pour vidéo intercative (ISO/IEC JTC1/SC2/ G11) proposé par le MPEG (Motion Picture Expert Group) .

Un procédé de compression d'images numériques comportant une étape de décomposition des images par transformation en sous- bandes est décrit dans "International Conférence on

Acoustics, Speech and Signal Processing, Albuquerque, 3-6 April, 1990, vol. 4, IEEE (New York, US), M. Antonini et al: Image coding using vectόr quantization in the wavelet transform domain, pp. 2299-2300". Il s'agit d'une application de la quantification vectorielle pour comprimer une structure de données multirésolution. Le procédé décrit ne permet de réduire les redondances qu'à l'intérieur de chaque sous- bande, mais ne tient pas compte de la dépendance entre les sous-bandes. Par ailleurs, le codage vectoriel est appliqué à toutes les sous-bandes, quelle que soit l'importance de la fréquence spatiale des données des sous-bandes. Or, les caractéristiques des sous-bandes étant différentes selon l'importance de la fréquence spatiale, le procédé proposé ne permet pas de tirer le meilleur parti de ces différences. D'autre part, ce procédé ne fait aucune différence entre les filtres d'analyse et les filtres de synthèse quant à leur complexité, ce qui implique que le coût d'un décodeur mettant en oeuvre ce procédé est aussi élevé que celui du codeur.

Le but de la présente invention est de proposer un procédé de compression d'images numériques destiné aux transmissions vidéo-numériques ou à la mémorisation numérique sur des supports tels que des disques compacts ou des disques optiques, de façon à obtenir des débits de transmission moyens de l'ordre de 1 à 10 Mb/s avec une qualité supérieure par rapport aux systèmes connus, tels que par exemple H261 CCITT ou MPEG mentionnés plus haut, et avec une mise en oeuvre relativement simple. A cet effet l'invention concerne un procédé de compression de séquences d'images numériques comportant une étape de décom¬ position des images par transformation en sous-bandes, tel que défini à la revendication 1. Elle concerne également un dispositif pour la mise en oeuvre du procédé, tel que défini à la revendication 12, ainsi qu'un banc de filtres pour la mise en oeuvre du procédé, tel que défini à la revendication 13, et un banc de filtres destiné à une transformation à multirésolution rapide pour la compression d'images numéri- ques, tel que défini à la revendication 15.

Le procédé de l'invention permet en particulier de tenir compte de la redondance non seulement à l'intérieur d'une sous-bande, mais également de la dépendance entre les sous- bandes, ce qui conduit à une efficacité supérieure à celle des procédés connus. Le procédé de l'invention a l'avantage d'être très simple pour sa mise en pratique. Il utilise très peu de mémoire tout en étant très efficace. Par ailleurs, la précision des vecteurs de mouvement est uniquement limitée par la précision arithmétique des opérations élémentaires de la contrainte spatio-temporelle.

D'autre part, la structure des filtres de synthèse beaucoup moins complexe que celle des filtres d'analyse permet de simplifier l'opération de décodage, ce qui est vital pour abaisser le coût du décodeur. Les filtres proposés peuvent être mis en oeuvre efficacement en termes de composantes polyphasés grâce aux structures du type QMF (quadrature mirror filter) contenues dans les parties d'analyse de syn- thèse. La structure du banc de filtres permet une réalisation VLSI avec une fréquence d'horloge deux fois plus faible que celle proposée jusqu'ici, les filtres étant obtenus par optimisation d'une fonction de localisation à la fois dans l'espace image et dans l'espace fréquentiel.

Comme représenté aux figures 1 et 3, l'organisation à multi¬ résolution des données est prise en compte par trois techni¬ ques de codage différentes, chacune donnant lieu à des performances spécifiques adaptées aux propriétés des classes de données respectives.

Les fréquences moyennes sont codées par une quantification vectorielle (VQ) à structure pyramidale. Cette dernière élimine la corrélation spatiale linéaire et non-linéaire, de même que la corrélation linéaire et non-linéaire à travers les sous-bandes. Comme représenté sur la figure 4, cette structure pyramidale consiste en une image à basse résolution dans un niveau de la pyramide et des images de détail dans les autres niveaux. La transformation pyramidale qui en résulte permet d'obtenir des informations à différents niveaux de résolution.

Un balayage pseudo-aléatoire des sous-bandes de haute fré¬ quence minimise la distorsion visuelle due au débordement de la mémoire-tampon en la répartissant sur toute la surface de l'image. Pseudo-aléatoire s'entend ici dans un sens analogue à celui de la fonction hasard (randomize) d'un ordinateur.

La sous-bande spatiale de composante continue est codée par une technique classique de modulation par impulsions codées.

La forme spéciale des filtres de synthèse et d'analyse conduit à une mise en oeuvre efficace, tout en conservant une localisation maximale aussi bien dans les domaines spatial que de fréquence spatiale.

Ce procédé peut être utilisé pour coder entre autres les formats ISO/CCIR 601 et CCITT/CIF. Pour les données à traiter qui sont dans le format CCIR 601, on procède préalablement dans le codeur à une conversion d'entrelacé à progressif (figure 1), puis dans le décodeur à une conversion de progressif à entrelacé (figure 2), afin de restaurer le format initial. Ces conversions sont basées sur une interpo¬ lation avec compensation de mouvement. Elles ne sont pas nécessaires pour les formats à balayage progressif. L'utilisation de la décomposition de Gabor a été choisie d'une part du fait que les fonctions de Gabor, qui sont des fonctions gaussiennes modulées par des exponentielles complexes, ont une localisation optimale dans le domaine conjoint spatial/fréquence spatiale. D'autre part, selon des expériences récentes, la majorité des profils des champs réceptifs du système visuel des mammifères peuvent être modélisés par ce type de fonctions. La partition du domaine de fréquence spatiale en bandes d'octaves est motivée par des statistiques d'images naturelles et aussi par la sensibilité du système visuel humain.

Le principal inconvénient des fonctions de Gabor réside en ce qu'elles ne forment pas une base orthogonale. Par conséquent, il n'y a pas à priori une méthode directe pour calculer la transformation, comme on peut le faire dans un cas orthogonal par simples produits scalaires. On a déjà proposé une méthode pour effectuer la transformation pyramidale de Gabor. Cette technique est basée sur le critère de l'ajustement par la méthode des moindres carrés. La solution au problème de la méthode des moindres carrés montre que les coefficients de pondération peuvent être extraits par simple multiplication entre une matrice et un vecteur de données. Si l'ensemble des fonctions de Gabor est choisi indépendamment de l'image, la matrice multiplicative est constante. Les données reconsti¬ tuées sont obtenues par une autre multiplication entre la matrice des fonctions de Gabor et le vecteur des coefficients de pondération. Une mise en oeuvre parallèle de la transfor¬ mation est par conséquent réalisée pour effectuer la trans- formation en temps réel.

La chrominance est sous-échantillonnée dans le domaine de la transformée en éliminant les composants de plus hautes fréquences de la pyramide (figure 4) . Ce procédé ne détériore pas la qualité visuelle des images couleurs.

La composante continue spatiale (image à basse résolution, voir figure 3) est codée en utilisant la modulation par impulsions codées (PCM) . Les niveaux moyens de la pyramide sont codés en utilisant une quantification vectorielle (VQ) hiérarchique à structure arborescente, telle que représentée à la figure 4. Les plus hautes fréquences spatiales sont sélectionnées de façon adaptative et quantifiées scalairement (SQ/RL) . L'information de la position et l'amplitude des coefficients sont codés séparément. Le pas adaptatif de la quantification et un codeur entropique à longueur variable sont contrôlés en utilisant une stratégie de contre-réaction basée sur l'occupation de la mémoire-tampon.

De façon à exploiter la corrélation temporelle (inter-images) entre les coefficients de chaque image, une technique d'inter-images différentielle est utilisée. A l'aide de deux images précédentes, l'image courante est prédite par une extrapolation compensée en mouvement, et seulement l'erreur de prédiction est codée et transmise. Les vecteurs de mouve¬ ment sont estimés de façon hiérarchique (appariement de blocs ou contrainte spatio-temporelle) . Ces mêmes vecteurs sont également utilisés lors de la conversion de progressif à entrelacé. De façon à éviter une accumulation d'erreurs de canal, une technique d'intra-image est appliquée dans un intervalle fixe pour mettre à jour complètement tous les coefficients. Ce mécanisme est aussi redémarré après chaque changement de scène.

Les particularités et avantages de l'invention ressortiront bien de la description qui suit, donnée à titre d'exemple, et qui se réfère aux dessins annexés.

La figure 1 est un schéma-bloc d'un dispositif de codage fonctionnant selon le procédé de l'invention.

La figure 2 est un schéma-bloc d'un dispositif de décodage fonctionnant selon le procédé de l'invention.

La figure 3 illustre les trois différentes régions de données selon les trois stratégies de codage. La figure 4 illustre la mise en oeuvre des vecteurs de la quantification vectorielle.

La figure 5 est un schéma-bloc de la compensation en mouvement.

La figure 6 montre un exemple de réponse impulsionnelle d'un filtre du banc de filtres d'analyse.

La figure 7 montre un exemple de réponse impulsionnelle d'un filtre du banc de filtres de synthèse.

La figure 8 donne une représentation dans le domaine fréquentiel des filtres du banc de filtres d'analyse.

La figure 9 donne une représentation dans le domaine fréquentiel des filtres du banc de filtres de synthèse.

Les conversions d'entrelacé à progressif et de progressif à entrelacé

Le système peut être utilisé pour coder les deux formats ISO/CCIR 601 (entrelacé) et CCITT/CIF (progressif) . Le format ISO/CCIR 601 est constitué de 288 par 720 images entrelacées à une fréquence de 50 champs par secondes pour les systèmes à 625 lignes. Le format CCITT/CIF est constitué de 288 par 360 images progressives à une fréquence de 25 images par seconde. Lorsque l'image d'entrée est dans un format entrelacé, un premier bloc (figures 1) exécute la conversion d'entrelacé à progressif. Cette première conversion est basée sur une interpolation spatiale avec compensation de mouvement. Un dernier bloc au décodage (figure 2) permet de retrouver le format initial en effectuant une conversion de progressif à entrelacé. Cette deuxième conversion utilise une interpola- tion temporelle avec compensation de mouvement.

De façon à pouvoir effectuer la conversion de 50 champs entrelacés par seconde en 25 images progressives par seconde et vice-versa, les étapes suivantes sont mises en oeuvre. Une image est générée pour chaque champ en utilisant une interpo¬ lation spatiale. Ceci conduit à 50 images par seconde. La séquence d'image est sous-échantillonnée dans le domaine temporel, de façon à conserver seulement 25 images par seconde. La transformation et le codage peuvent alors être effectués. Dans le décodeur, une interpolation temporelle est exécutée. Ceci conduit à 50 images par seconde. Finalement, on conserve seulement les lignes paires ou impaires des images, de façon à générer 50 champs par seconde.

La technique suivante est utilisée pour cette conversion. Les lignes manquantes sont obtenues en utilisant une interpola¬ tion spatio-temporelle avec compensation de mouvement entre les deux lignes voisines existant de part et d'autre de la ligne manquante. Ceci permet de passer d'une fréquence d'ima¬ ges de 25 images par seconde à une fréquence d'images de 50 images progressives par seconde. On utilise une inter¬ polation temporelle compensée en mouvement. Le mouvement entre deux images consécutives est estimé par une technique hiérarchique. Ces mêmes vecteurs de mouvement sont également utilisés pour la prédiction par compensation de mouvement, et ils ne sont bien évidemment calculés qu'une fois. Ces deux techniques ont déjà été largement étudiées par de nombreux auteurs, par exemple dans les articles de M. Bierling,

"Displacement estimation by hierarchical blockmatching", SPIE Visual Communications and Image Processing '88' vol. 1001, 1988, pp. 942-951 et de M. Bierling et R. Thoma "Motion co pénsating field interpolation using a hierarchically structured displacement estimator". Signal Processing 11 (1986) 387-404.

La transformation pyramidale de Gabor

La décomposition en sous-bandes et le codage par transformée en tant que sous-ensemble de la décomposition en sous-bandes sont très populaires pour la compression des données, grâce à la bonne qualité des résultats obtenus pour un taux de compression donné par comparaison avec d'autres techniques.

La transformation utilisée dans le présent système est une transformation pyramidale de Gabor à multi-résolution. Au cours de ces dernières années, de nombreux travaux ont démontré que les techniques de multirésolution sont très efficaces pour l'analyse et le codage d'images; comme par exemple S.G. Mallat, "A Theory for Multirésolution Signal Décomposition: The avelet Représentation", pami IEEE, volume 11, number 7, July, pages 674-693, 1989, et Rosenfeld, A., "Multirésolution Image Processing and Analysis", Springer- Verlag, 1984, Berlin, Germany.

Le choix des fonctions de Gabor pour la base de la transfor- mation (ou pour la réponse impulsionnelle des filtres de synthèse) est motivée par le fait que ces fonctions ont une localisation optimale dans le domaine conjoint spatial/ fréquence spatiale. En d'autres mots, les fonctions de Gabor sont les seules à atteindre la borne inférieure de l'incerti- tude de Heisenberg dans l'espace des signaux. Ce principe affirme que le produit de l'étendue d'un signal dans le domaine spatial avec son étendue dans le domaine fréquentiel est toujours supérieur ou égal à une constante. Le minimum est atteint précisément, quand le signal est une fonction de Gabor. D'autre part, comme l'ont montré des expériences récentes, la majorité des profils de champs réceptifs du système visuel des mammifères peuvent être modélisés par ce type de fonctions. En outre le spectre de puissance des images naturelles décroît de manière exponentielle lorsque la fréquence spatiale augmente. Ceci motive le choix d'une décomposition en bandes d'octave du domaine fréquentiel. De plus, des mesures faites sur les cellules du champ réceptif du cortex visuel des mammifères ont montré que chacune d'entre elles est sensible aux fréquences se trouvant dans une sous-bande dont la largeur de bande correspond à une octave.

La conception des filtres d'analyse et de synthèse (ou de manière équivalente les fonctions de base de la transfor¬ mation et des fonctions bi-orthogonales à celles-ci) s'effec¬ tue en utilisant la solution des moindres carrés. Cette solution montre que les coefficients de la transformation peuvent être extraits par un simple produit de matrice A^TFA qui est équivalent à un filtrage et à un sous-échantillon¬ nage, où A est la matrice des filtres d'analyse et F la matrice de l'image. De manière similaire, la transformation inverse est obtenue à l'aide d'un autre produit de matrice GXG^T qui met en oeuvre le suréchantillonnage et le filtrage inverse, où G est la matrice des filtres de synthèse et X la matrice des coefficients de la transformation, et où

lorsqu'il s'agit de matrices carrées, tel que décrit dans l'article de T. Ebrahimi, T. Reed, et M. Kunt, "Séquence coding by Gabor Décomposition", Signal

Processing V, Proceedings of Ensipco 90, Pages 769-772, 1990.

Pour des questions pratiques, telles que la possibilité d'implantation en vue d'une application en temps réel, une approximation des fonctions de Gabor est utilisée pour générer les fonctions de base de la transformation. Les filtres de synthèse sont conçus pour ne contenir que des coefficients qui sont une somme ou une différence de deux puissances de deux au plus. Plusieurs méthodes ont été proposées pour approximer un filtre donné, par exemple par une méthode basée sur les critères min-max ou moindres carrés par la programmation linéaire ou quadratique (voir l'article de Y.C. Lim et S.R. Parker, "FIR Filter Design over a discrète powers-of-two coefficient space", IEEE transactions on ASSP Vol. 31 No. 3, 1983, Pages 583-591), et par une méthode basée sur le recuit simulé (voir l'article de N. Benvenuto, M. Marchesi et A. Uncini, "Results on the application simulated annealing algorithm for the design of digital filters.with powers-of-two coefficients", IEEE proceedings 1990, Pages 1301-1304) . Il est également possible d'approximer un filtre donné par plusieurs filtres mis en cascade. Cette approximation permet d'effectuer la transfor¬ mation inverse très rapidement en utilisant seulement quelques opérations d'addition et de décalage. Toutes les opérations de filtrage sont effectuées sur une architecture hautement parallèle ASP (Associative String Processor) . (Voir: Lea R.M., ASP: parallel Computing technology, SPIE Visual communication and image processing 90, vol 1360,

Lausanne, Switzerland p. 78-91) . La complexité est cependant déplacée dans les filtres d'analyse. Toutefois, il est possible d'approximer également ces filtres par une somme ou une différence de puissances de deux. Après cette dernière opération, la propriété de reconstruction parfaite n'est plus vérifiée. Néanmoins, des résultats montrent une qualité quasi-parfaite des images reconstruites, avec un rapport signal sur erreur de reconstruction dépassant 46 dB. Un exemple de banc de filtres ayant des coefficients en puissan- ces de deux, approximant des filtres de Gabor, est donné aux figures 6 à 9. Sur les figures 7 et 9, les courbes en traitillé 1 représentent des filtres idéaux, les courbes en pointillé 2 étant celles des filtres obtenus, faciles à implémenter.

Les coefficients du filtre prototype (figure 6) du banc de filtres d'analyse sont les suivants:

f(l)=f(10)=2-^« f(2)=f(9)=0

f(4)=f(7)=-2-⁷ f(5)=f(6)=2°

Les coefficients du filtre prototype (figure 7) du banc de filtres de synthèse sont les suivants:

g(D=g(6)=2-'

g(3)=g(4)=2°

Pour une mise en oeuvre pratique, les coefficients de ces filtres sont programmés dans un chip spécial selon une structure en poly-phase.

Le démultiplexage est réalisé par un simple adressage de la mémoire.

La quantification

Les coefficients de l'image transformée sont codés selon trois méthodes différentes dépendant de la fréquence spatiale à laquelle ils appartiennent. Ces classes de codage sont représentées à la figure 3.

a) La modulation par impulsions codées (PCM)

La sous-bande spatiale de composante continue est codée par une technique classique de modulation par impulsions codées. Cette technique est relativement robuste en présence de bruit.

b) La quantification vectorielle hiérarchique (VQ)

Il est bien connu comment la quantification vectorielle (VQ) peut améliorer les performances par rapport à la quantification scalaire (SQ) . (J.S. Lim, "Two-dimensional signal and image processing", pp. 589-611, Prentice-Hall éd., 1990, et R.M. Gray, "Vector Quantization", IEEE ASSP Mag., vol 1, pp. 4-29, April 1984). La caractéristique la plus importante de la quantification vectorielle est la façon d'exploiter la dépendance statistique parmi les scalaires dans le bloc de quantification. En utilisant la quantification vectorielle, il est possible de prendre en considération la dépendance linéaire et non linéaire entre les scalaires (éléments dans le bloc formant un vecteur de quantification) .

Différentes procédures de quantification peuvent être appliquées au codage des sous-bandes générées par la transformation de Gabor. De façon à prendre en considéra- tion la corrélation évidente qui existe entre les différentes bandes, un codage plus efficace peut être obtenu en remplaçant la quantification scalaire par la quantification vectorielle. (Voir à cet égard l'article de G. Galand, E. Lacson, G. Furland et J Menez, "Subband coding of images using adaptive VQ, and Entropy Coding", Image'com 90, pp. 106-110, Bordeaux, Nov. 1990). On utilise la quantification vectorielle dans la zone de fréquences moyennes, où la corrélation est supérieure et où la quantification vectorielle est la plus efficace. Dans le domaine de la transformée les éléments des vecteurs sont choisis conformément à la structure pyramidale décrite plus haut (figure 4) .

Un paramètre pertinent est constitué par la dimension des vecteurs, en ce que plus ils sont grands, meilleure est l'exploitation de la corrélation entre coefficients. En accroissant la dimension du dictionnaire, on entraîne un accroissement de la durée de la construction du diction- naire. Pour cette raison et pour de strictes conditions de réalisation (traitement en temps réel, quantité de mémoire), il est intéressant d'utiliser une dimension de vecteurs petite à moyenne, dépendant du nombre de niveaux dans la pyramide quantifiée utilisant la quantification vectorielle.

Les coefficients de chrominance sont aussi inclus dans les vecteurs, avec ceux de luminance (figure 4) . D'après des résultats expérimentaux décrits dans la recommandation "Encoding parameters for digital télévision for studios"

CCIR Recommendation 601-1 XVIth Plenary Assembly Dubrovnik 1986, Vol. XI, Part 1, pp. 319-328, il est possible de montrer que l'utilisation de coefficients de chrominance uniquement dans les fréquences basses à moyennes ne détériore pas notablement la qualité visuelle. Du point de vue de la réalisation, le contrôle de la mémoire-tampon est évité en adoptant une quantification vectorielle à recherche exhaustive/structure arborescente, en utilisant un code de longueur fixe assigné à chaque élément. On a ainsi défini un système donnant une qualité requise minimum. Le débit binaire correspondant à la qualité ci- dessus restera toujours en-dessous de la capacité du canal, alors que le débit binaire disponible restant peut être utilisé pour améliorer la qualité de l'information de la bande à haute fréquence. Enfin, le dictionnaire est défini à priori et connu à la fois de l'émetteur et du récepteur.

Quantification scalaire, code de longueur variable, contrôle de la mémoire-tampon (SQ/RL)

Le plus haut niveau de la pyramide est balayé en utilisant un balayage Peano-Hilbert en sous-blocs de l'image selon un ordre pseudo-aléatoire. Ce balayage convertit les sous- bandes d'images à deux dimensions en chaîne de nombre à une dimension. Cette chaîne est ensuite quantifiée en utilisant une quantification scalaire standard (SQ) . Il en résulte une chaîne de nombres avec seulement un petit nombre de bits. Ces nombres sont ensuite comparés à un seuil et mis à zéro s'ils sont inférieurs au seuil. La grande majorité des coefficients seront plus petits que le seuil. Cette chaîne est ensuite divisée en deux chaînes, l'une étant une séquence de coefficients non nuls et l'autre étant une chaîne binaire où la valeur un représen¬ te la position d'un coefficient non nul et un zéro représente un coefficient nul. La chaîne binaire est codée en utilisant un codage de plage (RL) basé sur le modèle de Capon (voir à cet égard la thèse de M. Kunt, "Comparaison de techniques d'encodage pour la réduction de redondance d'images facsimile à deux niveaux", thèse Nr. 183, LTS-DE, EPFL, 1974) . Les coefficients non nuls sont codés en utilisant un code de Huffman. De façon à produire une sortie qui soit toujours en-dessous du débit de données maximum autorisé, une contre-réaction depuis la mémoire- tampon est utilisée pour définir le seuil. Si le débit de données dépasse le maximum, le flux de données est tronqué et le seuil est abaissé pour l'image suivante. Du fait de l'ordre pseudo-aléatoire des sous-blocs balayés, l'effet visuel de la troncature est minimisé.

Le multiplexage est réalisé par un simple adressage de la mémoire, puis une transformation pyramidale inverse est effectuée.

La prédiction par compensation de mouvement

Le procédé décrit ici utilise une prédiction par compensation de mouvement pour réduire la corrélation temporelle entre les images. Des études ont montré que cette méthode est très efficace pour réduire la redondance temporelle (voir à ce sujet les articles de A. Puri, H.M. Hang et D.L. Schilling, "An Efficient Block-Matching Algorithm for Motion-Compensated Coding", ICASSP, April 1987, pages 25.4.1-4, et de A.N. Netravali et J.D. Rob^'bins, "Motion Compensated Télévision Coding-Part I", journal Bell Systems Technical Journal, volume 58, number 3, 1979, pages 629-668.). Les mêmes vecteurs de déplacement obtenus sont aussi utilisés pour la conversion de progressif à entrelacé et pour le mouvement ralenti avec un bon rendu du mouvement. Dans ces deux cas, une interpolation temporelle avec compensation de mouvement est impliquée (figure 5). La structure de multirésolution de la transformée pyramidale est exploitée pour trouver le mouvement dans deux images consécutives. Sur la figure 5, Fι(m,n) et F_a(m,n) représentent les deux images utilisées pour l'estimation de mouvement, qui peuvent être soit les deux images précédentes, soit une image précédente et l'image

__ Λ courante, V(m,n) représentant le champ de mouvement, F(m,n) l'image prédite et F(m,n) l'image interpolée, et où m et n sont les indices des lignes et colonnes de l'image. On utilise en premier lieu un algorithme d'appariement de blocs, ou de contrainte spatio-temporelle, sur le plus haut niveau de la pyramide avec la résolution la plus basse. Les résul¬ tats sont ensuite projetés vers le bas comme condition initiale dans les niveaux inférieurs et affinés chaque fois. Les résultats finaux sont ensuite utilisés pour prédire l'image courante. L'ensemble du procédé d'estimation de mouvement est effectué sur des images quantifiées, de façon que le récepteur puisse reconstituer les images sans avoir reçu les vecteurs de mouvement. Ce procédé peut ainsi être utilisé lorsqu'aucune information de mouvement n'est néces¬ saire pour le décodage du vecteur de mouvement.

Comme mentionné ci-dessus, deux modes d'estimation de mouve- ment sont considérés ici. Dans le cas où il n'y a peu de mouvement dans la scène, l'estimation de mouvement est effec¬ tuée en se basant sur les deux images précédentes. Ainsi, comme dit plus haut, aucune information supplémentaire n'est nécessaire. Dans le cas où il y a beaucoup de mouvement dans la scène, l'estimation de mouvement est effectuée en se basant sur l'image courante et l'image précédente. Dans ce cas, une meilleure estimation est obtenue, mais une informa¬ tion supplémentaire sur les vecteurs de mouvement est à envoyer à travers le canal.

Claims

REVENDICATIONS

1. Procédé de compression de séquences d'images numéri¬ ques, comportant une étape de décomposition des images par transformation en sous-bandes, caractérisé en ce que l'opéra¬ tion de décomposition est effectuée selon le schéma d'une transformation pyramidale à multirésolution, en ce que les données de l'image transformée, organisée en sous-bandes sous forme pyramidale, sont ensuites sélectionnées en trois grou- pes selon l'importance de la fréquence spatiale des données des sous-bandes, les données des sous-bandes de chaque groupe étant respectivement codées à l'aide de trois opérations de codage différentes exécutées en parallèle, chacune de ces opérations ayant des performances spécifiques adaptées aux propriétés des données de chaque groupe, et en ce qu'une opération de transformation inverse est ensuite exécutée pour reconstituer les images.

2. Procédé selon la revendication 1, caractérisé en ce que l'opération de transformation inverse est de complexité inférieure à celle de la transformation directe.

3. Procédé selon l'une des revendications 1 ou 2, caractérisé en ce que l'on effectue l'opération de décomposi- tion à l'aide d'une transformation pyramidale de Gabor à multirésolution.

4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce qu'il comporte des filtres pour effectuer la décomposition en sous-bandes ne comportant que des coeffi¬ cients de valeurs étant des puissances de deux ou la somme ou la différence de deux puissances de deux.

5. Procédé selon l'une des revendications 1 à 4 , caractérisé en ce qu'il comporte une opération de codage de la sous-bande spatiale de composante continue en utilisant une technique de modulation par impulsions codées, une opération de codage des sous-bandes de fréquences moyennes en utilisant une quantification vectorielle hiérarchique à structure arborescente et une opération de sélection adaptatives des sous-bandes de plus hautes fréquences et de quantification scalaires des sous-bandes sélectionnées.

6. Procédé selon la revendication 5, caractérisé en ce que l'opération de quantification scalaire des sous-bandes de plus hautes fréquences comprend un balayage Peano-Hilbert en sous-blocs de l'image selon un ordre pseudo-aléatoire.

7. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il utilise une prédiction par compensation de mouvement pour réduire la corrélation temporelle entre deux images, sans qu'il soit absolument nécessaire de transmettre les vecteurs de mouvements au récepteur

8. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte une étape préalable de conversion des données à traiter qui sont dans le format CCIR 601, cette étape comportant une opération de conversion d'entrelacé à progressif, basée sur une interpolation avec compensation de mouvement.

9. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte une étape finale de conver¬ sion des données qui sont dans un format progressif au format CCIR 601, cette étape comportant une opération de conversion progressif à entrelacé, basée sur une interpolation avec compensation de mouvement.

10. Procédé selon l'une des revendications 5 à 9, caractérisé en ce que l'information de la position et l'amplitude des coefficients de la quantification sont codés séparément.

11. Procédé selon la revendication 10, caractérisé en ce que l'on contrôle le pas adaptatif de la quantification et un codeur entropique à longueur variable en utilisant une stratégie de contre-réaction basée sur l'occupation de la mémoire-tampon.

12. Dispositif pour la mise en oeuvre du procédé selon l'une des revendication 1 à 11, caractérisé en ce qu'il comporte des premiers moyens pour effectuer une décomposition des images en sous-bandes selon le schéma d'une transforma¬ tion pyramidale à multirésolution, des seconds moyens pour sélectionner les données de l'image transformée, organisée en sous-bandes sous forme pyramidale, en trois groupes selon l'importance de la fréquence spatiale des données des sous- bandes, des troisièmes, quatrièmes et cinquièmes moyens destinés au codage respectif en parallèle des données des sous-bandes de chaque groupe, chacun desdits troisièmes, quatrièmes et cinquièmes moyens étant agencés de façon à fournir des performances spécifiques adaptées aux propriétés des données de chaque groupe, et des sixièmes moyens pour effectuer une transformation inverse afin de reconstituer les images.

13. Banc de filtres pour la mise en oeuvre du procédé selon l'une des revendications 1 à 11, caractérisé en ce qu'il comporte un ensemble de filtres du type à reconstruc¬ tion quasi-parfaite, chaque filtre contenant un nombre de coefficients en puissances de deux inférieur à vingt et en structure à multirésolution.

14. Banc de filtres selon la revendication 13, caractérisé en ce que le nombre desdits filtres est compris entre six et dix.

15. Banc de filtres destiné à une transformation à multirésolution rapide pour la compression d'images numéri¬ ques, caractérisé en ce qu'il comporte un ensemble de filtres du type à reconstruction quasi-parfaite, chaque filtre contenant un nombre de coefficients en puissances de deux inférieur à vingt et en structure à multirésolution.

16. Banc de filtres selon la revendication 15, caractérisé en ce que le nombre desdits filtres est compris entre six et dix.