Procédé de reconstruction spectrale de signal audio à spectre incomplet et dispositif correspondant
La présente invention concerne un procédé et un dispositif de reconstruction spectrale d'un signal audio à spectre incomplet, notamment d'un signal audio issu d'un codage à limitation de spectre. La présente invention concerne également un dispositif de reconstruction correspondant et un système de codage/décodage audio le comprenant.
Dans l'état de la technique de la transmission de signaux audio, il est bien connu de procéder avant la transmission à une opération de codage d'un signal original, le signal reçu subissant une opération inverse de décodage. Ce codage peut être un codage à réduction de débit. Des codeurs à réduction de débit connus sont par exemple les codeurs de type par transformée, les codeurs de type CELP et même des codeurs de type paramétrique, comme un codeur de type MPEG4 paramétrique. La présente invention peut également concerner des signaux non codés, par exemple des signaux qui ont simplement subi un sous-échantillonnage. En codage audio à réduction de débit, le signal audio doit souvent subir une limitation de bande passante lorsque le débit binaire devient faible. Cette limitation de
bande passante est nécessaire pour éviter l'introduction de bruit de quantification audible dans le signal codé. Il est alors souhaitable de régénérer dans la mesure du possible le contenu haute fréquence du signal original.
Il est connu de l'état de la technique l'élargissement de bande par non linéarité comme, par exemple, la méthode d'élargissement spectral connue sous le nom de méthode HFR (High-Frequency Régénération). Le signal basse fréquence décodé, à bande limitée, est soumis à un dispositif non linéaire pour obtenir un signal enrichi en harmoniques qui, après blanchiment et mise en forme fondée sur une information décrivant l'enveloppe spectrale du signal pleine bande avant codage, permet la génération d'un signal haute fréquence correspondant au contenu haute fréquence du signal avant codage.
Les Fig. 1A, IB et IC représentent respectivement les spectres de trois signaux limités à une bande allant de 0 à 2 kHz, le premier spectre correspondant à un signal de bruit, le second spectre correspondant à un peigne de sinus de fréquence fondamentale égale à 400 Hz, le troisième spectre correspondant à deux peignes de sinus superposés, de fréquences fondamentales respectives égales à 400 Hz et 450 Hz. On désignera le premier signal par le terme de « bruit », le second signal par le terme « mono-harmonique » et le troisième signal par le terme « bi-harmonique ».
Les Figs. 2A, 2B et 2C représentent respectivement les spectres de trois signaux correspondant aux trois signaux des Figs. 1A, IB et IC auxquels ont été ajoutés des composantes haute fréquence par application d'une non-linéarité, ainsi qu'il a été décrit précédemment. Dans le cas du bruit, la non-linéarité recrée un bruit en haute fréquence d'énergie faible. Le spectre haute fréquence synthétisé est de nature équivalente au spectre basse fréquence. Dans le cas du signal mono-harmonique, la non linéarité recrée des harmoniques de la fréquence fondamentale, et on obtient ainsi un peigne étendu. La structure harmonique du signal est préservée. Le spectre haute fréquence synthétisé est là encore de nature équivalente au spectre basse fréquence. Dans le cas du signal bi-harmonique, la non-linéarité recrée des harmoniques multiples des deux fréquences fondamentales, mais également des harmoniques de la fréquence de battement entre ces deux fréquences. Le spectre haute fréquence synthétisé n'est pas de même nature que le spectre basse fréquence. Il en va bien entendu de même pour tous les signaux multi-harmoniques.
Dans le cas du bruit et du signal mono-harmonique, le spectre haute fréquence synthétisé étant de même nature que le spectre basse fréquence, l'on peut, après
blanchiment et mise en forme adéquate, obtenir un signal dont la perception par l'oreille humaine est proche de celle du signal d'origine. Cette technique est donc bien adaptée à la reconstruction spectrale de signaux audio de parole qui sont généralement constitués de signaux de bruit et de signaux mono-harmoniques. En revanche, pour des signaux musicaux, où prédominent généralement des signaux multi-harmoniques, cette technique n'est pas adaptée.
Le problème à la base de l'invention est l'amélioration d'un procédé de reconstruction spectrale du type qui vient d'être décrit pour permettre la reconstruction de toutes sortes de signaux audio, y compris de nature musicale, sans diminution de performance ou d'augmentation de complexité.
Le problème à la base de l'invention est résolu par un procédé de reconstruction d'un signal audio à spectre incomplet, ledit procédé comprenant:
- une étape de décomposition du signal à spectre incomplet, dit premier signal, en une pluralité de seconds signaux, l'un au moins desdits seconds signaux correspondant à une série harmonique dudit signal audio à spectre incomplet ;
- une étape de génération de troisièmes signaux à partir desdits seconds signaux, les troisièmes signaux présentant des spectres respectivement extrapolés des spectres desdits seconds signaux ; - une étape de combinaison desdits troisièmes signaux fournissant un quatrième signal de spectre distinct du spectre dudit premier signal ;
- une étape de combinaison dudit premier signal et dudit quatrième signal pour fournir un signal à spectre reconstruit.
Ladite étape de combinaison peut consister en une sommation dudit premier signal et dudit quatrième signal.
Avantageusement, l'ensemble desdits seconds signaux est constitué d'un signal de bruit et d'un ou plusieurs signaux correspondant à des séries harmoniques de fréquences fondamentales différentes. En outre, lesdits troisièmes signaux peuvent subir une opération de blanchiment spectral préalablement ou postérieurement à leur combinaison. L'opération de blanchiment spectral est effectuée à partir d'une évaluation des enveloppes spectrales desdits troisièmes signaux ou, s'ils ont été préalablement combinés, à partir de l'enveloppe spectrale du premier signal.
Selon une variante, lesdits seconds signaux subissent une opération de blanchiment spectral préalablement à l'étape de génération. Dans ce cas, l'opération
de blanchiment spectral est effectuée à partir d'une évaluation des enveloppes spectrales des seconds signaux ou d'une évaluation de l'enveloppe spectrale dudit premier signal.
Avantageusement ledit quatrième signal subit une opération de mise en forme spectrale préalablement à sa combinaison avec ledit premier signal. Si le signal audio à spectre incomplet a été obtenu par un codage à limitation de spectre d'un signal audio d'origine, ladite opération de mise en forme spectrale est effectuée à partir d'une information donnant l'enveloppe spectrale dudit signal audio d'origine.
Selon une première possibilité, l'étape de génération des troisièmes signaux applique une fonction non linéaire à au moins un desdits seconds signaux.
Selon une seconde possibilité, l'étape de génération effectue une opération de transposition spectrale sur au moins un desdits seconds signaux. Ladite opération de transposition spectrale peut être une translation accompagnée ou non d'un retournement. Selon une troisième possibilité, l'étape de génération desdits seconds signaux effectue une opération d'extrapolation basée sur le pitch d'au moins un desdits seconds signaux.
L'invention est également définie par un dispositif de reconstruction d'un signal audio à spectre incomplet, par exemple d'un signal audio ayant subi une opération de codage à limitation de spectre, ledit dispositif étant adapté à mettre en œuvre les étapes du procédé exposé ci-dessus.
L'invention est encore définie par système de codage/décodage d'un signal audio comprenant un codeur à limitation de spectre et un décodeur, ledit système comprenant en sortie du décodeur ledit dispositif de reconstruction d'un signal audio. Le système de codage/décodage peut comprendre des moyens associés au codeur pour estimer et transmettre au décodeur une information d'enveloppe spectrale pour au moins une bande spectrale non transmise par ledit codeur. Enfin, le codeur est avantageusement adapté à générer et à fournir une information caractéristique d'au moins une fonction non linéaire, au moins un des troisièmes signaux étant généré à partir de l'un desdits seconds signaux au moyen de ladite fonction non linéaire.
Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels:
les Fig.lA, IB et IC représentent les spectres de trois signaux à bande limitée, correspondant respectivement à un signal de bruit, à un signal mono-harmonique et à un signal bi-harmonique ; les Figs. 2A, 2B et 2C représentent les spectres de trois signaux correspondant respectivement aux signaux des Figs. 1A, IB et IC auxquels ont été ajoutés des composantes haute fréquence selon un procédé de l'état de la technique ; les Figs 3A à 3H représentent les spectres de signaux correspondant à diverses étapes d'un procédé de reconstruction spectrale d'un signal audio selon l'invention ; et la Fig. 4 représente schématiquement un dispositif de reconstruction spectrale de signal audio selon l'invention.
Un procédé de reconstruction spectrale de signal audio à spectre incomplet selon l'invention s'applique notamment à un signal issu du décodage d'un signal audio codé par un codeur à limitation de bande spectrale. Il peut s'agir de tous types de codeur à réduction de débit. Le codeur peut être de type par transformée (MPEG1, MPEG2 ou MPEG4-GA), de type CELP (ITU G72X), ou même de type paramétrique (MPEG4 paramétrique). L'invention peut également s'appliquer à un signal non codé qui a, par exemple, simplement subi un sous-échantillonnage ou une limitation spectrale.
Selon l'invention, un signal multi-harmonique, par exemple de type musical, est décomposé en signaux mono-harmoniques et en signaux de bruit, puis des signaux à spectres haute fréquence sont générés pour chacun de ces signaux, par exemple par application d'une fonction non linéaire. La somme des signaux obtenus, après blanchiment éventuel, est ensuite effectuée. Il est alors possible de réaliser la remise en forme spectrale, par exemple à partir d'une information décrivant l'enveloppe spectrale du signal pleine bande avant codage. La décomposition peut être réalisée de manière relativement grossière de sorte qu'elle n'est pas trop coûteuse en termes de calculs à effectuer. Les problèmes d'ajustement de phase et d'énergie sont atténués lors de la remise en forme spectrale.
Plus précisément, la Fig. 4 représente un dispositif de reconstruction spectrale appliquant un procédé de reconstruction spectrale selon l'invention. Un signal audio est codé par un codeur 100 et, après transmission du signal codé par un moyen quelconque, le signal codé est décodé par un décodeur 1 10.
Au niveau du codeur 100 intervient un module 105 d'estimation d'enveloppe spectrale. L'on sait que sous certaines hypothèses de stationnarité, un signal peut être modélisé comme le résultat du filtrage d'un signal d'excitation par un filtre
d'enveloppe spectrale. Le module 105 est adapté à fournir une information concernant l'enveloppe spectrale du signal audio avant codage. Il peut par exemple modéliser une enveloppe de ce signal par une analyse LPC, telle que décrite dans l'article de J. Makhoul, intitulé « Linear Prédiction : a tutorial review », Proceedings of the IEEE, Vol. 63, N°4, pp 561-580. Le module 105 peut fournir les coefficients LPC directement ou sous leur forme réduite et quantifiée. Avantageusement, le module 105 ne fournit une information d'enveloppe spectrale que pour le spectre haute fréquence non transmis. Le coût en tenue de transmission, c'est à dire l'augmentation de débit correspondante, de l'information d'enveloppe spectrale est très faible. Au niveau du décodeur, interviennent quatre modules 140, 160, 150, 170 et un sommateur 180 adaptés à exécuter une opération de reconstruction spectrale.
Le module 140 est un module de décomposition du signal issu du décodeur 110. Ce module est tout d'abord adapté à analyser un signal afin d'en extraire une pluralité d'harmoniques. Ensuite, ce module est adapté à décomposer ce signal en une pluralité de signaux correspondant respectivement à des séries harmoniques de fréquences fondamentales différentes et en un signal de bruit.
Le module 160 est un module de génération de signal à spectre haute fréquence. Ce module 160 est adapté à traiter indépendamment les différents signaux issus de la décomposition effectuée par le module 140 pour générer des signaux à spectres haute fréquence correspondants. Cette génération peut être effectuée par exemple avec la technique utilisée dans la méthode HFR (High-Frequency Régénération) déjà mentionnée. Selon une première variante, chacun des signaux est soumis à un filtre non linéaire pour obtenir un signal haute fréquence.
Par exemple, la fonction non linéaire sera définie par la formule suivante : y(t) = [ (l + γ) | χ(t) l + (l - γ)x(t) ] / 2 où γ désigne une constante comprise entre 0 et 1.
Avantageusement, la fonction non linéaire appartiendra à une famille polynomiale. Les coefficients du polynôme à appliquer pourront être fournis de manière dynamique par le codeur 100, sous la forme d'une information auxiliaire. La génération des composantes haute fréquence des signaux correspondant à des séries harmoniques peut également être effectuée par des techniques d'extrapolation basées sur la valeur du pitch. La génération des composantes haute fréquence des signaux de bruit peut être également effectuée par une opération de transposition spectrale, comme par exemple une simple translation ou une translation avec
retournement. La transposition spectrale permet d'obtenir un signal à spectre décalé, par exemple un spectre translaté vers les hautes fréquences. Le module 160 peut opérer dans le domaine fréquentiel ou dans le domaine temporel.
Le module 150 est un filtre blanchisseur. On sait que si l'on dispose d'une description de l'enveloppe spectrale du signal, il est possible de blanchir son spectre en le faisant passer dans un filtre blanchisseur de fonction de transfert (approximativement) inverse à la fonction d'enveloppe dans la bande à blanchir. On obtient ainsi une approximation du signal d'excitation initial, débarrassée de l'influence de la forme spectrale dans la bande considérée. Le module 115 est adapté à fournir une information concernant l'enveloppe spectrale de chacun des signaux issus du module 140. Comme le module 105, il peut par exemple modéliser une enveloppe de chacun de ces signaux par une analyse LPC. La fonction de transfert du filtre blanchisseur est alors l'inverse de la fonction d'enveloppe donnée par le module 115. Ce module 150 est donc adapté à blanchir les spectres des signaux issus du module 160. Le module 150 peut opérer dans le domaine fréquentiel ou dans le domaine temporel. Selon une variante, lorsque le module 105 transmet une information d'enveloppe spectrale pleine bande, l'information d'enveloppe concernant la bande à blanchir peut être utilisée directement par le module 150. Dans ce cas, le module 1 15 est inutile. Cette variante est symbolisée par la liaison en traits interrompus entre le module 105 et le module 150.
Il faut noter que l'opération de génération de signal à spectre haute fréquence en 160 et celle de blanchiment peuvent être interverties.
Selon une variante de réalisation, les signaux à spectres haute fréquence générés par le module 160 peuvent être sommés avant d'être blanchis, le blanchiment se faisant alors sur un seul signal qui est la somme des signaux générés par le module 160. Dans ce cas également, la fonction de transfert du filtre blanchisseur pourra être déterminée soit par une analyse du signal décodé dans le module 115 soit par une information d'enveloppe dans la bande basse fréquence, si le module 105 est adapté à transmettre une information d'enveloppe pleine bande. Le module 170 est un filtre de mise en forme spectrale. Sa fonction de transfert peut être déterminée à partir d'une fonction d'enveloppe spectrale transmise par le module 105 ou bien par extrapolation de la fonction d'enveloppe spectrale de la partie basse fréquence déterminée par le module 1 15. Cette seconde possibilité est symbolisée par la liaison en traits interrompus entre le module 1 15 et le module 170.
Dans tous les cas, le filtrage est effectué sur la somme de signaux issus du module 150 (ou de module 160 si les modules 150 et 160 ont été intervertis) correspondant à la décomposition effectuée par le module 140. Le spectre de la bande cible a la forme de l'enveloppe dans la bande considérée. Le signal d'enrichissement spectral fourni par le module 170 est ensuite sommé grâce au sommateur 180 au signal à spectre incomplet issu du décodeur 1 10.
A titre d'exemple, le signal à spectre limité peut être un signal à bande limitée entre 0 et 2 kHz comme représenté sur la Fig. 3A. Ce signal peut être analysé comme la superposition de bruit, d'harmoniques appartenant à une première série harmonique et d'harmoniques appartenant à une seconde série harmonique de fréquence fondamentale différente.
Le module 140 extrait les harmoniques et décompose le signal A en un premier signal de bruit Bl dont le spectre est représenté sur la Fig. 3B, en un second signal B2 correspondant à la première série harmonique dont le spectre est représenté sur la Fig. 3 C et en un troisième signal B3 correspondant à la seconde série harmonique dont le spectre est représenté sur la Fig. 3D.
Le module 160 génère un signal à spectre haute fréquence pour chacun de ces trois signaux. Le module 150 effectue le blanchiment des signaux à spectres haute fréquence ainsi générés. Les Figs. 3E à 3G représentent les spectres après blanchiment des signaux haute fréquence générés C1,C2,C3 pour les signaux B1,B2,B3 respectivement.
Bien que le dispositif selon l'invention ait été représenté sous la forme de modules fonctionnels, il va de soi que tout ou partie de ce dispositif peut être réalisé au moyen d'un processeur unique ou une pluralité de processeurs dédiés ou non.