EP1395981B1

EP1395981B1 - Dispositif et procede de traitement d'un signal audio.

Info

Publication number: EP1395981B1
Application number: EP02743323A
Authority: EP
Inventors: Franck Bietrix; Hubert Cadusseau
Original assignee: Wavecom SA
Current assignee: Sierra Wireless SA
Priority date: 2001-05-15
Filing date: 2002-05-15
Publication date: 2007-10-31
Anticipated expiration: 2022-05-15
Also published as: DE60223246D1; FR2824978B1; EP1395981A1; WO2002093558A1; JP2004527797A; FR2824978A1; CN1520589A; IL158797A; CN1223991C; ATE377244T1; IL158797A0; KR20040005965A; US7295968B2; US20040236572A1

Description

La présente invention se rapporte au domaine du traitement de signaux audio.
Plus précisément, l'invention concerne, notamment, la réduction ou l'annulation de bruit dans un signal audio traité par un dispositif de communication numérique, par exemple de type téléphone numérique et/ou radio téléphones mobiles de type main-libre.
Lorsque des dispositifs de communication numériques audio sont utilisés dans un environnement bruité (typiquement à l'intérieur d'une voiture), ce dernier peut perturber fortement un signal audio et en conséquence dégrader la qualité d'une communication.
Selon les techniques connues, on remédie à ce problème en insérant des atténuateurs ou annuleurs de bruit, agissant sur le signal capté par un microphone, avant un traitement spécifique du signal audio.
Selon une première technique connue, on insère un dispositif d'annulation et de réduction d'écho ou de bruit entre un microphone destiné à capter un signal audio et un dispositif de traitement du signal audio. Ce dispositif améliore le rapport signal utile sur bruit ou diminue l'écho afin que le signal puisse être traité par la suite dans des conditions optimisées. Néanmoins, cette technique de l'art antérieur nécessite un dispositif spécifique dédié, ce qui a pour inconvénient d'entraîner des surcoûts et une complexité d'utilisation accrue.
Selon une deuxième technique connue, la fonction de réduction de bruit, basée sur l'utilisation d'une transformée de Fourier rapide (ou FFT de l'anglais « Fast Fourier Transform ») appliquée à un flux continu d'échantillons vocaux est intégrée au dispositif de communication numérique. Dans un premier temps, le flux d'échantillons est découpé en fenêtres de 256 échantillons obtenus par l'application d'une fenêtre de mise en forme, les fenêtres se chevauchant par moitié (les 128 premiers échantillons d'une fenêtre correspondant aux 128 derniers échantillons de la fenêtre précédente). Une FFT est appliquée à chaque fenêtre puis le résultat de la FFT est traité par une fonction d'annulation ou de réduction de bruit ou d'écho.
Ensuite, le résultat de cette fonction est traité par une transformée de Fourier rapide inverse (ou IFFT) afin de reconstituer un flux d'échantillons vocaux qui pourra être traité par une fonction de traitement vocal.
Un inconvénient de cette technique de l'art antérieur comme illustrée dans le document WO98/06090 est qu'elle est relativement complexe à mettre en oeuvre.
L'invention selon ses différents aspects a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
Plus précisément, un objectif de l'invention est de fournir un procédé et un dispositif de traitement audio dans un dispositif qui permet une réduction de la complexité d'un traitement basé sur une transformation mathématique s'appliquant à des blocs de données tout en optimisant le traitement audio s'appliquant à des trames audio.
Un autre objectif de l'invention est d'optimiser l'intégration du traitement basé sur une transformation mathématique et du traitement audio.
Un objectif de l'invention est également d'optimiser les délais de ces traitements.
Un autre objectif de l'invention est de réduire la puissance de calcul nécessaire à ces traitements.
Dans ce but, l'invention telle que définie dans les revendications 1 et 11 propose un procédé de traitement d'un signal audio, comprenant :

une première étape de traitement d'un signal audio source, mettant en oeuvre au moins une transformation mathématique appliquée sur des premières séquences d'échantillons obtenues par l'application de premières fenêtres de segmentation sur le signal audio source ; et
une deuxième étape de traitement audio, appliquée sur des secondes séquences d'échantillons obtenues par l'application de secondes fenêtres de segmentation sur le signal délivré par la première étape, les secondes fenêtres de segmentation étant distinctes des premières fenêtres de segmentation ;

Ainsi, les étapes de traitement audio peuvent être mise en oeuvre de manière séquentielle ou dans un environnement multitâche. Par ailleurs, cette mise en oeuvre est facilitée par l'utilisation de mémoire avec un dimensionnement prédictible, précis et économique.
Selon une caractéristique particulière, le procédé est remarquable en ce que les secondes fenêtres de segmentation sont des trames successives.
Ainsi, selon l'invention, les délais de traitement du procédé sont optimisés.
Selon une caractéristique particulière, le procédé est remarquable en ce que le dernier échantillon d'une première séquence est également le dernier échantillon, après la première étape, de la seconde séquence correspondante.
Ainsi, préférentiellement la deuxième étape de traitement audio est effectuée sans attente inutile pour optimiser les délais globaux de traitement audio.
Selon une caractéristique particulière, le procédé est remarquable en ce que chaque première fenêtre de segmentation est une fenêtre à reconstruction parfaite obtenue par convolution :

d'une première fenêtre intermédiaire à reconstruction parfaite et possédant des propriétés spectrales adaptées à la ou aux transformations mathématiques ; et
d'une deuxième fenêtre intermédiaire rectangulaire.

Ainsi, les parties de premières fenêtres de segmentation qui se chevauchent sont à reconstruction parfaite, ce qui permet d'avoir une recombinaison des signaux lors du premier traitement relativement simple.
En outre, la première fenêtre intermédiaire étant adaptées à la ou aux transformations mathématiques (on a notamment une atténuation du deuxième lobe de la fenêtre relativement forte alors que le lobe principal reste plat), la qualité du traitement correspondant est optimisée.
De plus, la deuxième fenêtre intermédiaire étant rectangulaire, le traitement des échantillons correspondant est simple et efficace.
Selon une caractéristique particulière, le procédé est remarquable en ce que la première étape de traitement appliquée à chaque première séquence comprend, en outre :

une sous-étape de traitement prédéterminé appliquée à la première séquence;
une sous-étape de transformation mathématique inverse appliquée aux échantillons traités de la première séquence; et
une étape d'addition des échantillons vocaux issus de la sous étape de transformation mathématique inverse appliquée à la première séquence et des échantillons vocaux correspondants, issus de la sous étape de transformation mathématique inverse appliquée à la première séquence précédente.

Selon une caractéristique particulière, le procédé est remarquable en ce que la sous-étape de traitement prédéterminé comprend une réduction ou une annulation de bruit dans le signal audio.
Selon une caractéristique particulière, le procédé est remarquable en ce que la sous-étape de traitement prédéterminé comprend au moins un traitement faisant partie du groupe comprenant :

une réduction ou une annulation d'écho dans le signal audio ;
une reconnaissance vocale dans le signal audio.

Ainsi, le procédé combine avantageusement des traitements tels que la réduction et/ou annulation de bruit et/ou d'écho et/ou de reconnaissance vocale dans un dispositif (par exemple de type téléphone, ordinateur personnel ou télécommande) qui permet une réduction de la complexité tout en optimisant l'efficacité de ces traitements et/ou une intégration forte du dispositif (ce qui permet, en conséquence, une baisse des coûts et des consommations d'énergie ce qui est relativement important notamment pour des dispositifs de communications fonctionnant sur batterie).
Selon une caractéristique particulière, le procédé est remarquable en ce que ladite ou lesdites transformations mathématiques appartienent au groupe comprenant :

les transformations rapides de Fourrier (FFT) et leurs variantes ;
les transformations rapides de Hadamard (FHT) et leurs variantes ; et
les transformations en cosinus discrètes (DCT) et leurs variantes .

Ainsi, l'invention permet avantageusement d'utiliser une ou plusieurs transformations mathématiques adaptées au premier traitement audio, ces transformations s'appliquant sur des blocs de taille différente de la taille des deuxièmes fenêtres de segmentation.
Selon une caractéristique particulière, le procédé est remarquable en ce que le signal audio source est un signal vocal.
L'invention est ainsi bien adaptée au deuxième traitement audio lorsqu'il est spécifique à la parole tel que, par exemple, le codage vocal (« vocodage ») et/ou la compression vocale pour la mémorisation et/ou la transmission à distance.
L'invention concerne également un dispositif de traitement d'un signal audio, comprenant :

des premiers moyens de traitement d'un signal audio source, mettant en oeuvre au moins une transformation mathématique appliquée sur des premières séquences d'échantillons obtenues par l'application de premières fenêtres de segmentation sur le signal audio source ; et
des deuxièmes moyens de traitement audio, appliquées sur des secondes séquences d'échantillons obtenues par l'application de secondes fenêtres de segmentation sur le signal délivré par la première étape, les secondes fenêtres de segmentation étant distinctes des premières fenêtres de segmentation ;

L'invention concerne, en outre, un produit programme d'ordinateur comprenant des éléments de programme, enregistrés sur un support lisible par au moins un microprocesseur, remarquable en ce que les éléments de programme contrôlent le ou les microprocesseurs pour qu'ils effectuent :

De plus, l'invention concerne, un produit programme d'ordinateur, remarquable en ce que le programme comprend des séquences d'instructions adaptées à la mise en oeuvre d'un procédé de traitement audio tel que décrit précédemment lorsque le programme est exécuté sur un ordinateur.
Les avantages du dispositif de traitement d'un signal audio, et des produits programme d'ordinateur sont les mêmes que ceux du procédé de traitement d'un signal audio, ils ne sont pas détaillés plus amplement.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels :

la figure 1 présente un synoptique général d'un radiotéléphone, conforme à l'invention selon un mode particulier de réalisation ;
la figure 2 illustre les traitements successifs effectués par le radiotéléphone de la figure 1, sur un signal vocal ;
la figure 3 présente un algorithme d'annulation ou de réduction de bruit, selon la figure 2;
la figure 4 présente un traitement vocal appliquer à une trame, selon la figure 2;
la figure 5 décrit un fenêtrage du flux d'échantillons tel qu'effectué par les traitements des figures 3 et 4 ;
la figure 6 illustre une fenêtre de mise en forme connue en soi;
la figure 7 illustre une fenêtre de mise en forme, optimisée et utilisée dans les opérations de fenêtrage de la figure 3 selon un mode préférentiel de l'invention ; et
la figure 8 décrit plus précisément un traitement de type réduction de bruit présentée à la figure 3.

Le principe général de l'invention repose sur la synchronisation :

des traitements basés sur une FFT notamment des traitements d'annulation ou de réduction de bruit; et
de traitement vocal de type codage de la parole.

En effet, les FFT et IFFT traitent des fenêtres comprenant une puissance de 2 échantillons (typiquement 128 ou 256).
En revanche, le codage de la parole prend en compte des fenêtres qui n'ont pas la même taille (typiquement le traitement vocal dans le cadre du GSM considère des fenêtres de 160 échantillons).
Dans le cas, par exemple, d'un radiotéléphone répondant aux normes GSM publiées par l'ETSI (« European Telecommunication Standard Institute »), le signal vocal est échantillonné à une fréquence de 8kHz avant d'être transmis par trame de 20ms sous forme compressée vers un destinataire.
On note que, selon la norme GSM, le codage de la parole est effectué sur des trames de 160 échantillons, par un vocodeur. Ce codage qui est fonction du débit désiré est notamment spécifié dans les documents suivants :

« Full Rate (FR) speech transcoding » (GSM06.10) (ou « codage de parole à plein débit » en français) ;
« Half Rate (HR) speech transcoding » (GSM06.20) (ou « codage de parole à demi-débit » en français);
« Enhanced Full Rate (EFR) speech transcoding » (GSM06.60) (ou « codage de parole à plein débit amélioré » en français) ; et
« Adaptive Multi-Rate (AMR) speech transcoding » (GSM 06.90) (ou « codage de parole à débit multiple adaptatif » en français).

Selon l'état de l'art, en considérant une fenêtre de 160 échantillons traités vocalement, le dispositif de réduction ou d'annulation de bruit et/ou d'écho traite une fenêtre de longueur 256 qui peut recouper jusqu'à trois fenêtres de longueur 160. C'est, entre autres, l'asynchronisme inhérent à cette technique de l'état de l'art qui rend complexe ces traitements et nécessite un surdimensionnement des mémoires et de la puissance de calcul et/ou de l'horloge d'un DSP (Processeur de Traitement de Signal » de l'anglais « Digital Signal Processor » utilisé pour les calculs).
Selon l'invention, on synchronise les deux types de traitement en faisant coïncider systématiquement la fin d'une fenêtre d'annulation ou de réduction de bruit et/ou d'écho avec une trame de traitement vocal et préférentiellement avec la fin d'une trame de traitement vocal. Ainsi, si les fenêtres de réduction ou d'annulation de bruit ont une taille égale à 256 échantillons et si les trames de traitement vocal ont une taille égale à 160 échantillons, une fenêtre de réduction ou d'annulation d'écho va contenir l'intégralité d'une trame de traitement vocal et 96 échantillons (soit 256 moins 160) de la fenêtre précédente.
Ainsi, on conserve le synchronisme entre les fenêtres de réduction ou d'annulation de bruit et les trames de traitement vocal et on optimise les délais globaux de traitement.
Selon l'invention, une fenêtre de mise en forme (adaptée à des trames vocales associées de 160 échantillons et à des FFT à 256 points) est préférentiellement :

à reconstruction parfaite, c'est-à-dire que la somme des amplitudes de deux fenêtres se recouvrant est toujours égale à 1 (sur la partie qui se recouvre) ;
une fenêtre de longueur 256 avec un recouvrement de 96 de chaque coté.

Une telle fenêtre est, par exemple, obtenue par la convolution d'une fenêtre de Hanning de largeur 97 (notée Hanning(97)) avec une fenêtre rectangulaire de largeur 160 (notée Rect(160)).
Une FFT à 256 points est alors appliquée à chaque fenêtre de 256 échantillons synchronisée sur les trames de 160 échantillons. La mise en oeuvre de FFT est bien connue de l'homme du métier et est notamment détaillée dans le livre « Numerical Recipes in C, 2^nd edition» (ou en français « Recettes numériques en langage C, 2^ème édition ») écrit par Press W.H., Teukolsky S.A., Vetterling W.T. et Flannery B.P. et paru en 1992 aux éditions Cambridge University Press.
Puis, on applique un algorithme de réduction de bruit, de tout type connu en soi, avant d'effectuer une opération de transformée inverse (notée IFFT) sur le bloc de 256 échantillons considéré.
Des blocs de 256 échantillons sont ainsi traités successivement. Après l'opération de IFFT, les 96 premiers échantillons traités de la fenêtre courante sont ajoutés aux 96 derniers échantillons traités de la fenêtre précédente. Après addition, les 160 premiers échantillons de la fenêtre courante sont transmis au vocodeur pour être traités selon les méthodes de codage de la parole connues en soi, conformément, le cas échéant, à la norme s'appliquant.
On présente, en relation avec la figure 1, un radiotéléphone mettant en oeuvre l'invention.
La figure 1 illustre schématiquement un synoptique général d'un radiotéléphone, conforme à l'invention selon un mode préféré de réalisation.
Le radiotéléphone 100 comprend reliés entre eux par un bus d'adresses et de données 103 :

un microphone 107 ;
un convertisseur Analogique/Numérique 108 ;
un haut-parleur 109 ;
un convertisseur Numérique/Analogique 110 ;
un processeur de traitement du signal (DSP) 104 ;
une mémoire non volatile 105 ;
une mémoire vive 106 ;
une interface radio 111 ;
une unité 112 de gestion et de contrôle des échanges des trames de données et de protocoles ; et
une interface de relation homme/machine (typiquement un clavier et un écran) 113.

Chacun des éléments illustrés en figure 1 est bien connu de l'homme du métier. Ces éléments communs ne sont pas décrits ici.
On observe en outre que le mot « registre » utilisé dans toute la description désigne dans chacune des mémoires mentionnées, aussi bien une zone de mémoire de faible capacité (quelques données binaires) qu'une zone mémoire de grande capacité (permettant de stocker un programme entier ou l'intégralité d'une séquence de données de transactions).
La mémoire non volatile 105 (ou ROM) conserve dans des registres qui par commodité possèdent les mêmes noms que les données qu'ils conservent :

le programme de fonctionnement du DSP 104 dans un registre « prog » 308 ;
une valeur L (valant typiquement 256), représentant une première taille de fenêtre de segmentation correspondant à un nombre de points pris en compte par une FFT dans un registre 115 ;
une valeur L' (valant typiquement 160), représentant une deuxième taille de fenêtre correspondant à une taille de trame traitées par un vocodeur dans un registre 115 ; et
des valeurs α, β, γ, κ et β _f utilisées pour la réduction de bruit dans le signal.

La mémoire vive 106 conserve des données, des variables et des résultants intermédiaires de traitement et comprend notamment :

un registre 117 dans lequel sont conservées des valeurs d'échantillons bruités du signal reçu ;
un registre 118 dans lequel sont conservées des valeurs d'échantillons traités ; et
une séquence d'échantillons traités destinée à un vocodeur.

Le DSP est adapté notamment aux traitements de type transformation de Fourier et codage de la parole. On pourra utilisé, par exemple, un coeur de DSP fabriqué par la société « DSP GROUP » (marque déposée) sous la référence « OAK » (marque déposée).
La figure 2 illustre les traitements successifs effectués par le radiotéléphone de la figure 1, sur un signal vocal.
On note que le signal entrant dans le microphone 107 est la somme 203:

d'un signal vocal pouvant être affecté d'un écho (symbolisé par la somme du signal produit 200 et du signal produit retardé) ; et
d'un bruit 202

Le signal bruité capté par le microphone 107 est délivré au convertisseur Analogique/Numérique 204 où il converti en une suite d'échantillons numériques au cours d'une étape 204. Selon la norme GSM, on note que l'échantillonnage se fait typiquement à une fréquence égale à 8kHz.
Puis, au cours d'une étape 205, la suite d'échantillons numérique est traitée.
Ensuite, au cours d'une étape 206, des trames de L' (160) d'échantillons traités sont codées par un vocodeur selon une méthode connue en soi (typiquement telle que spécifiée dans la norme GSM).
Puis, au cours d'une étape 207, des trames « vocodées » sont mises en forme par l'unité 112 pour être émises par le module radio 111 selon des techniques connues en soi (par exemple, selon la norme GSM).
La figure 3 présente un algorithme d'annulation ou de réduction de bruit, mis en oeuvre dans l'étape de traitement 205 de la figure 2.
Au cours d'une étape d'initialisation 300, le DSP 104 initialise dans la RAM 106, un premier bloc de 96 échantillons à zéro correspondants aux derniers échantillons reçus ainsi que toutes les variables nécessaires au bon fonctionnement du traitement 205.
Puis au cours d'une étape 301, le DSP 104 mémorise dans la RAM 106 à la suite des échantillons précédemment reçus une séquence de 160 échantillons entrants issus du convertisseur 108.
Ensuite, au cours d'une étape 302, le DSP 104 applique une fenêtre de segmentation de longueur 256 à la séquence formée des derniers 256 échantillons reçus. (On note que cette fenêtre est illustrée plus loin en regard de la figure 7)
Une transformation mathématique de type FFT à 256 points est alors appliquée à la séquence obtenue par application de la fenêtre de segmentation.
Puis, au cours d'une étape 303, un traitement de type réduction de bruit (précisé plus loin en regard de la figure 8) est appliqué à la séquence issue de la transformation mathématique.
Ensuite, au cours d'une étape 304, une transformation inverse de celle de l'étape 302, de type IFFT est appliquée à la séquence traitée.
Puis, au cours d'une étape 305, le DSP 104 ajoute, le cas échéant (c'est-à-dire après une première itération), les 96 derniers échantillons de la séquence traitée précédente aux 96 premiers échantillons traités de la séquence courante.
Ensuite, au cours d'une étape 306, la séquence ou trame formée des 160 premiers échantillons traités courants est transmise au vocodeur.
Puis, au cours d'une étape 307, les 160 échantillons reçus correspondant aux 160 échantillons transmis lors de l'étape 305 sont effacés de la mémoire 106.
Ensuite, l'étape 301 est réitérée.
La figure 4 présente un codage de la parole, mis en oeuvre dans l'étape 206 de la figure 2.
Au cours d'une étape d'initialisation 400, le DSP 104 initialise dans la RAM 106, toutes les variables nécessaires au bon fonctionnement du codage 206.
Puis au cours d'une étape 401, le DSP 104 mémorise dans la RAM 106 une trame de 160 échantillons transmise lors de l'étape 307.
Puis, au cours d'une étape 402, le DSP 104 applique un traitement de codage de la parole à la trame de 160 échantillons selon une technique connue en soi.
Ensuite, au cours d'une étape 403, la trame codée est mise en forme et transmise à l'unité 102 pour être émise vers un destinataire.
Puis, au cours d'une étape 404, la trame de 160 échantillons est effacée de la mémoire RAM 106.
Ensuite, l'opération 401 est réitérée.
La figure 5 décrit un fenêtrage des séquences d'échantillons tel qu'effectué par les traitements des figures 3 et 4.
Sur un premier graphique, on a représenté la courbe 500 de l'intensité 503 du signal reçu directement du convertisseur 108 en fonction du temps t 502.
Sur un second graphique, on a représenté la courbe 500 de l'intensité 504 du signal traité lors de l'étape 205 en fonction du temps t 502.
On note, sur le premier graphique, que le temps est découpé en fenêtres successives 505 et 506 de longueur L égale à 256, se chevauchant sur une longueur L" égale à 96 et obtenues lors de l'étape 302.
On note également, sur le deuxième graphique, que le temps est découpé en trames successives 507 et 508 de longueur L' égale à 160, ne se chevauchant pas et obtenues lors de l'étape de transmission 306.
La segmentation du signal est telle que, les fenêtres 505 (respectivement 506), et 507 (respectivement 502) sont parfaitement synchrones.
Ainsi, selon le mode préféré de réalisation, les fenêtres 505 (respectivement 506), et 507 (respectivement 502) s'achèvent sur le même échantillon avant ou après traitement (selon les étapes 303, 304 et 305).
De cette manière, le chevauchement se fait sur une longueur égale à L".
La figure 6 illustre une fenêtre de mise en forme connue en soi.
On a représenté sur le graphique donnant l'amplitude 602 d'une fenêtre en fonction du rang d'un échantillons 601, des fenêtres 603 et 604 de Hanning de longueur 256 avec un recouvrement de 128.
On note que selon ce découpage connu en soi, le fenêtrage ne peut en aucune façon être synchrone avec une segmentation en trames de 160 échantillons.
La figure 7 illustre des fenêtres 700 et 701 de mise en forme, optimisées selon l'invention (correspondant aux fenêtres respectivement 505 et 506 de la figure 5 mais représentée de manière plus précise).
De même que précédemment, le graphique donne l'amplitude 602 d'une fenêtre en fonction du rang d'un échantillon 601.
On note que des fenêtres 700 et 701 sont des fenêtres de Hanning obtenue par convolution d'une fenêtre de Hanning intermédiaire de longueur 97 avec un fenêtre rectangulaire de longueur 160. On obtient ainsi, avec les décalages successifs des fenêtres, égaux à 160 échantillons des fenêtres à reconstruction parfaite.
La figure 8 précise l'étape 303 de traitement de type réduction de bruit telle qu'illustrée en regard de la figure 3.
Ce traitement de réduction de bruit est notamment décrit dans les documents suivants :

« Spectral substraction based on minimum statistics » (en français « soustraction spectrale basée sur des statistiques minimum ») écrit par R. Martin et publié dans le document « Signal Processing VII : Théories and applications, 1994, EURASIP » aux pages 1182 à 1185 ;
« Computationally efficient speech enhancement by spectral minima tracking in subbands » (en français « amélioration de la parole efficace pour le calcul par la recherche de minima spectraux dans des sous-bandes »), écrit par G. DOBLINGER et publié dans les comptes-rendus (pages 1513 à 1516) de la conférence « ESCA. EUROPSPEECH'95, 4th European Conference on speech communication and technology » ; et
« A combination of noise reduction and improved echo cancellation » (en français « une combinaison de réduction de bruit et d'annulation d'écho améliorée ») publié en Allemagne dans la collection « Fachgebiet Theorie der Signale » par l'université de technologie de Darmstadt.

Après avoir été traitée selon l'étape 302, une trame 801 comportant 256 composantes spectrales correspondant à un signal vocal bruité est traitée selon le traitement 303 décrit ci-après.
On note X _k(m) la k ^ième composante de la m ^ième trame de signal vocal bruité.
Au cours d'une opération 802, le DSP 104 convertit les composantes de la trame 801 de coordonnées rectangulaires vers des coordonnées polaires pour séparer la phase de l'amplitude spectrale.
Au cours des différents traitements, seule l'amplitude spectrale va être modifiée, la phase restant inchangée.
Au cours d'une étape 803, on estime d'abord la puissance P_xk(m) du signal à courts termes selon les relations suivantes :
P_xk (1) = (1- α)|X _k(1)|² (auquel on ajoute éventuellement une valeur de correction afin d'améliorer la vitesse de convergence de l'estimation) ; $P_{xk} (m) = {α P}_{xk} (m - 1) + (1 - α) | X_{k} (m) |^{2}$
pour m>1
avec une valeur pour le coefficient « d'oubli » α comprise entre 0,7 et 0,9 ce qui permet d'assurer une recherche adéquate du spectre de parole stationnaire à courts termes.
Ces relations présentent notamment deux avantages :

leur simplicité de calcul ; et
le fait qu'aucun délai de mesure n'est introduit.

Selon une variante de réalisation, on utilise un algorithme amélioré de réduction de bruit. Néanmoins, l'introduction d'un délai supplémentaire dans cet algorithme requérait une taille de mémoire plus importante pour le stockage des composantes spectrales à valeurs complexes.
Ensuite, on estime la puissance spectrale P_nk(m) du bruit selon l'estimateur non linéaire suivant (qui effectue en quelque sorte une recherche des minima temporels de P_xk(m)): $P_{nk} (1) = P_{xk} (1);$

et pour m strictement supérieur à 1 (m>1) :
si P_nk (m-1) < P_xk (m)
alors $P_{nk} (m) = {γP}_{nk} (m - 1) + \frac{1 - γ}{1 - β} (P_{nk} (m) - β P_{xk} (m - 1));$

sinon P_nk(m) = P_xk(m) ;
Ensuite, au cours d'une étape 806, le DSP 104 calcule un facteur de gain g_k(m) à valeurs réelles selon les relations suivantes : $g_{k} (m) = 1 - \sqrt{\frac{{κP}_{nk} (m)}{P_{xk} (m)}}$
si g_k(m) > β _f
et g_k(m) = β _f sinon
Le coefficient κ est un facteur de surestimation du bruit qui est introduit pour obtenir de meilleures performances de l'algorithme de réduction de bruit.
β _f correspond à une valeur spectrale plancher. β _f limite l'atténuation du filtre de réduction de bruit à une valeur positive pour laisser subsister un bruit minimal dans le signal.
Puis, au cours d'une étape 807, le DSP 104 multiplie l'amplitude |X _k(m)| par le facteur de gain g_k(m) correspondant pour obtenir l'amplitude de signal améliorée |Y_k (m)| selon la relation suivante :
|Y_k (m)| = g_k(m). |X _k(m)| pour les valeurs de k comprises entre 1 et 256.
Ensuite, au cours d'une étape 808 de conversion de coordonnée polaires vers rectangulaires, le DSP 104 construit le signal 809 avec bruit réduit à partir de l'amplitude |Y_k (m)| déterminée lors de l'étape 807 et de la phase du signal extraite lors de l'étape 802.
Le signal 809 est alors traité selon l'étape 304 de transformation inverse de Fourier.
Bien entendu, l'invention n'est pas limitée aux exemples de réalisation mentionnés ci-dessus.
En particulier, l'homme du métier pourra apporter toute variante dans l'application de l'invention qui ne se limite pas à la téléphonie mobile (notamment de type GSM, UMTS, IS95...) mais s'étend à tout type de dispositif comprenant un codage audio après ou avant une transformation mathématique sur un signal audio entrant.
De plus, l'invention s'applique non seulement au traitement de signaux sources vocaux mais s'étend à tout type de traitement audio.
Selon l'invention, la transformation mathématique appliquée est notamment de tout type s'appliquant sur des blocs d'échantillons d'une longueur particulière qui n'est pas égale à la taille des trames traitées selon un traitement audio ou qui n'est pas un multiple ou un diviseur voisin de cette taille de trame. Ainsi, l'invention s'étend au cas où la taille des trames audio est égale à 160 ou plus généralement n'est pas une puissance de 2 et où une transformation mathématique s'applique sur des tailles de blocs de longueur 256, 128, 512 ou plus généralement 2" (où n représente un entier) notamment une FFT , une FHT (de l'anglais « Fast Hadamard Transform » ou, en français « Transformée de Hadamard Rapide») ou une DCT (de l'anglais « Discrete Cosine Transform:» ou , en français, « transformée en cosinus discrète ») ou les variantes de ces transformations (obtenues, par exemple, par combinaison d'une ou plusieurs de ces transformations avec une ou plusieurs autres transformations)...
En outre, l'invention s'applique à tout type de traitement associée à la transformation mathématique et effectuée avant ou après une étape de codage de la parole, notamment au cas de la reconnaissance vocale ou de l'annulation et/ou de la réduction d'écho.
On notera que l'invention ne se limite pas à une implantation purement matérielle mais qu'elle peut aussi être mise en oeuvre sous la forme d'une séquence d'instructions d'un programme informatique ou toute forme mixant une partie matérielle et une partie logicielle. Dans le cas où l'invention est implantée partiellement ou totalement sous forme logicielle, la séquence d'instructions correspondante pourra être stockée dans un moyen de stockage amovible (tel que par exemple une disquette, un CD-ROM ou un DVD-ROM) ou non, ce moyen de stockage étant lisible partiellement ou totalement par un ordinateur ou un microprocesseur.

Claims

Procédé de traitement d'un signal audio, comprenant :
- une première étape (205) de traitement d'un signal audio source, mettant en oeuvre au moins une transformation mathématique appliquée sur des premières séquences d'échantillons obtenues par l'application de premières fenêtres de segmentation (505, 506, 700, 701) sur ledit signal audio source ; et

- une deuxième étape (206) de traitement audio, appliquée sur des secondes séquences d'échantillons obtenues par l'application de secondes fenêtres de segmentation (507, 508) sur le signal délivré par ladite première étape, la longueur desdites secondes fenêtres de segmentation étant distinctes de la longueur desdites premières fenêtres de segmentation ;
caractérisé en ce que deux premières fenêtres successives et/ou deux secondes fenêtres successives se chevauchent, les chevauchements étant tels que les segmentations soient synchrones et que les segmentations soient synchronisées sur la fin desdites première et seconde fenêtres.
Procédé selon la revendication 1 caractérisé en ce que lesdites secondes fenêtres de segmentation sont des trames successives.
Procédé selon l'une quelconque des revendications 1 et 2 caractérisé en ce que le dernier échantillon d'une première séquence est également le dernier échantillon, après ladite première étape, de la seconde séquence correspondante.
Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que chaque dite première fenêtre de segmentation (700, 701) est une fenêtre à reconstruction parfaite obtenue par convolution :
- d'une première fenêtre intermédiaire à reconstruction parfaite et possédant des propriétés spectrales adaptées à ladite ou auxdites transformations mathématiques ; et

- d'une deuxième fenêtre intermédiaire rectangulaire.
Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ladite première étape de traitement appliquée à chaque première séquence comprend, en outre :
- une sous-étape de traitement (303) prédéterminé appliquée à ladite première séquence;

- une sous-étape de transformation mathématique inverse (304) appliquée aux échantillons traités de ladite première séquence; et

- une étape d'addition (305) des échantillons vocaux issus de ladite sous étape de transformation mathématique inverse appliquée à ladite première séquence et des échantillons vocaux correspondants, issus de ladite sous étape de transformation mathématique inverse appliquée à la première séquence précédente.
Procédé selon la revendication 5, caractérisé en ce que ladite sous-étape de traitement prédéterminé comprend une réduction ou une annulation de bruit dans ledit signal audio.
Procédé selon l'une quelconque des revendications 5 et 6, caractérisé en ce que ladite sous-étape de traitement prédéterminé comprend au moins un traitement faisant partie du groupe comprenant :
- une réduction ou une annulation d'écho dans ledit signal audio ;

- une reconnaissance vocale dans ledit signal audio.
Procédé selon l'une quelconque des revendications 1 à 7, caractérisé en ce que ladite ou lesdites transformations mathématiques appartiennent au groupe comprenant :
- les transformations rapide de Fourrier (FFT) et leurs variantes ;

- les transformations rapide de Hadamard (FHT) et leurs variantes ; et

- les transformations en cosinus discrètes (DCT) et leurs variantes .
Procédé selon l'une quelconque des revendications 1 à 8, caractérisé en ce que ledit signal audio source est un signal vocal.
Dispositif de traitement d'un signal audio, comprenant :
- des premiers moyens de traitement d'un signal audio source, mettant en oeuvre au moins une transformation mathématique appliquée sur des premières séquences d'échantillons obtenues par l'application de premières fenêtres de segmentation sur ledit signal audio source ; et

- des deuxièmes moyens de traitement audio, appliquées sur des secondes séquences d'échantillons obtenues par l'application de secondes fenêtres de segmentation sur le signal délivré par ladite première étape, la longueur desdites secondes fenêtres de segmentation étant distinctes de la longueur desdites premières fenêtres de segmentation ;
caractérisé en ce que deux premières fenêtres successives et/ou deux secondes fenêtres successives se chevauchent, les chevauchements étant tels que les segmentations soient synchrones et que les segmentations soient synchronisées sur la fin desdites première et seconde fenêtres.
Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en oeuvre du procédé de traitement d'un signal audio selon l'une au moins des revendications 1 à 9.