WO2007003505A1

WO2007003505A1 - Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées.

Info

Publication number: WO2007003505A1
Application number: PCT/EP2006/063363
Authority: WO
Inventors: Patrice Collen; Pierrick Philippe; Olivier Leblouch
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-07-01
Filing date: 2006-06-20
Publication date: 2007-01-11
Anticipated expiration: 2008-01-01

Abstract

L'invention concerne un procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, permettant de segmenter le signal (140) d'entrée en segments (147) de données différenciées et catégorisées, à partir d'un corpus de données d'apprentissage.

Description

Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées

1. Domaine de l'invention

Le domaine de l'invention est celui de la reconnaissance de formes et de la classification de données.

Plus précisément, l'invention concerne une nouvelle technique de segmentation d'un signal donné composé de données de différents types et indifférenciées, en une pluralité de segments de données classifiés suivants des classes de données préalablement modélisées.

L'invention s'applique notamment, mais non exclusivement, à la segmentation d'un signal audio en segments de parole et de musique, et par extension, au traitement automatisé de documents audiovisuels, ou bien encore, à l'indexation de documents sonores, dans un objectif d'archivage par exemple.

Un exemple de mise en œuvre et d'application de l'invention sont donnés dans la suite de ce document, pour un système de segmentation parole musique dont le but est de segmenter un signal audionumérique en segments de taille variable et de labelliser chacun des segments détectés en fonction de leur contenu : parole ou musique.

2. État de la technique

Un exemple de segmentation d'un flux (10) audio suivant deux classes : une classe parole (15) et une classe musique (16), est donné à la figure 1 qui illustre un alignement dans le temps (17) des différentes classes parole et musique sur des portions ou segments (11, 12, 13, 14) du flux (10) audio.

Il s'agit en effet, à l'intérieur d'un signal de données d'entrée indifférenciées mixant parole et musique, sur une durée donnée, d'identifier et de distinguer sur l'ensemble du signal les segments concernant de la parole et ceux concernant de la musique. On connaît de l'art antérieur, des technique de segmentation suivant au moins deux classes distinctes, permettant de distinguer sur un signal d'entrée les segments de parole des segments de musique. Ces techniques de l'art antérieur mettent en œuvre pour la segmentation des algorithmes basés sur des modèles de mélanges de gaussiennes (ou MMG) et ou des modèles de Markov caché (ou MMC), dont nous rappelons ici respectivement les grands principes, de façon à faciliter le compréhension de la suite de ce document.

2.1 Les modèles de mélanges de gaussiennes (MMG) Les MMG permettent de modéliser une distribution de probabilité par une somme de gaussiennes et associent une somme pondérée (mixture) de fonctions à chaque classe préalablement déterminée. La plus communément utilisée est la somme pondérée de fonctions de densités de probabilité gaussiennes multidimensionnelles, une gaussienne étant définie comme la représentation de la loi normale (ou loi normale gaussienne, loi de Laplace-Gauss) dont la densité de probabilité s'écrit :

- m est la moyenne ;

- σ l'écart-type (la variance utilisée dans la suite de la description correspond à l'élévation au carré de l'écart-type, elle sera notée : σ ²). 2.2 Les modèles de Markov cachés (MMC)

Les modèles de Markov cachés (MMC ou HMM en Anglais, pour « Hidden Markov Models ») sont régulièrement utilisés dans des domaines tels que la reconnaissance de parole, l'analyse de séquences biologiques ou celui de la recherche d'information textuelle ou musicale, et plus généralement pur la segmentation de signaux.

Un MMC se définit comme un double processus stochastique, dont un premier processus stochastique sous-jacent n'est pas directement observable (le processus caché) et dont le deuxième processus stochastique produit une séquence d'observations. Un MMC est constitué d'un nombre fini d'états P. A chaque top d'horloge, un nouvel état est atteint suivant une distribution de probabilité de transition qui ne dépend que de l'état précédent (propriété markovienne). Notons qu'il peut y avoir des transitions d'un état vers lui- même, ce qui définit la notion de re-bouclage d'un état sur lui-même. Ainsi, suite au franchissement d'une transition d'un modèle de Markov caché, une observation est émise suivant une distribution de probabilité qui dépend de l'état courant situé en amont de la transition.

Un exemple de topologie d'un MMC à 3 états 20, 21, 22 est donné au travers la figure 2. Sur cette figure, chaque état 20, 21 et 22 contient un modèle de mélange de gaussienne (MMG) respectivement noté MMGl, MMG2 et MMG3.

L'évolution du MMC s'effectue par franchissement des transitions P₁₂ ou P₂₃, pour le passage d'un premier état vers un autre état du MMC, soit par re-bouclage sur l'état courant, par franchissement des transitions P₁₁, P₂₂ ou P₃₃, dans l'exemple donné. Pour plus de détail sur les MMC, le lecteur pourra se référer à la thèse de doctorat réalisée en 2004 par J. PESfQUIER à l'institut de recherche en informatique de Toulouse et intitulée « Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle ».

2.3 Présentation des techniques de l'art antérieur connues pour la segmentation d'un signal audio en segments de données parole et de données musique

La plupart des techniques connues de l'art antérieur pour la segmentation d'un signal audio en segments de données parole et de données musique s'appuie sur un apprentissage de modèles de mélanges de loi gaussiennes (MMG) et sur la création de chaînes de Markov cachées.

De façon répandue dans la littérature, les outils probabilistes que représentent les modèles de mélanges de gaussiennes sont couramment utilisés pour la segmentation d'un signal audio en deux classes de données distinctes, comme décrit dans l'article scientifique d'E. SCHEIRER & M. STANLEY, « Construction and évaluation of a robust multifeature speech/Music discriminator » - ICASSP 97, April 21-24, Munich, Germany, et dans la thèse de doctorat de J. PINQUIER, déjà citée au paragraphe 2.1. Le principe général du procédé d'estimation des paramètres des MMG de deux classes de données à modéliser (notées ici Classe 1 et classe 2, dans l'exemple illustratif), utilisé dans les techniques de l'art antérieur est expliqué au travers l'organigramme de la figure 3, ce procédé permettant d'obtenir en sortie deux chaînes de Markov (tel qu'illustré sur la figure 4) modélisant les classes 1 et

2 de données, selon un procédé proposé par J. RAZICK, D. FOHR, O. MELLA, dans un article intitulé « Segmentation parole/musique pour la transcription automatique », publié dans les actes des Journées d'études sur la parole - JEP 2004, en avril 2004, à Fès, Maroc. Les chaînes de Markov cachées (MMC) ainsi obtenues pour la modélisation des classes 1 et 2 sont exploitées par la dernière étape du procédé de segmentation et de reconnaissance, laquelle met en œuvre un algorithme de Viterbi à partir des MMC obtenues, comme illustré au travers de la figure 5.

Nous décrivons ci-dessous les différentes étapes des procédés d'estimation des paramètres des MMG (figures 3 et 4) et de segmentation (figure 5), relativement aux figures 3 à 5.

La première étape du procédé d'estimation des paramètres des MMG connu de l'art antérieur est une étape (31) d'extraction de descripteurs à partir du signal (30) audio d'entrée. Une grande collection de descripteurs est utilisée dans la littérature, parmi lesquelles, la modulation de l'énergie à 4Hz, le pourcentage de trames du signal de basse énergie, le « Spectral Rolloff Point » (terminologie anglaise communément admise par la communauté technique du domaine), le centroïde spectral, le flux spectral.

D'autres descripteurs plus communément utilisés dans le domaine de la reconnaissance de la parole sont également parfois utilisés, comme par exemple les coefficients MFCC (pour « mel frequency cepstral coefficients « en anglais, ou en français « coefficients cepstral de fréquence de mels »).

Une deuxième étape du procédé d'estimation des paramètres des MMG selon l'art antérieur est une étape (32) d'affectation des descripteurs extraits aux différentes classes à modéliser (classe Cl (32i) et classe C2 (32₂) dans l'exemple).

Cette deuxième étape (32) est facilitée par un étiquetage (33i) (33₂), le plus souvent manuel de chacune des classes Cl et C2 à modéliser, comme illustré sur la figure 3.

Une troisième étape du procédé d'estimation des paramètres des MMG selon l'art antérieur comprend notamment une étape (34) d'apprentissage des paramètres des modèles de mélanges de lois gaussiennes à partir des données d'apprentissage.

Cet étape (34_ls 34₂) d'apprentissage se déroule en deux sous-étapes : la première (35_ls 35₂) est une initialisation du modèle par quantification vectorielle, par exemple basée sur l'algorithme LBG décrit dans l'article Y. LINDE, A. BUZO, R.M. GRAY : "An algorithm for vector quantizer", IEEE Trans on Corn.,

January 1980, vol 28.

La seconde sous-étape (3 O₁, 362) est une optimisation des paramètres du mélange (moyennes et variances des gaussiennes) par l'algorithme classique EM

(pour « Expectation Maximisation » en anglais, ou « Maximisation escomptée » en français), dont une description détaillée est donnée dans la thèse de doctorat de

J. PINQUIER, déjà citée au paragraphe 2.1.

On obtient ainsi en sortie du procédé d'estimation un ensemble de modèles de mélange de gaussienne définissant respectivement dans une quatrième étape les états d'une chaîne (37) de Markov cachée modélisant la classe Cl et d'une chaîne (38) de Markov cachée modélisant la classe C2, comme illustré sur la figure 4.

Comme illustré sur la figure 4 et de façon plus précise, chacune des classes (37) (38) de segments recherchés (segments de parole ou de musique dans l'exemple cité) est modélisée par une chaîne de Markov cachée à plusieurs états (37_ls ... 37k₊i) et (38_l5 ... 38₁₊₁), respectivement, chaque état (37_ls ... 37k₊i) et (38_l5 ... 38₁₊₁) étant constitué du MMG appris à l'étape (34_ls 34₂) d'apprentissage, tel que décrit dans J. AJMERA, I. McCOWAN, H. BOURLARD, « Speech/Music segmentation using entropy and dynamism features in a HMM classification framework », Speech communication - Elsevier - 2003.

Comme illustré sur la figure 5, une dernière et cinquième étape consiste à segmenter et à reconnaître les classes Clet C2 modélisées sur le signal (50) audio d'entrée. Cette dernière étape s'effectue par application de l'algorithme (51) de

Viterbi sur les chaînes (37) (38) de Markov cachées, ce dernier permettant de déterminer l'alignement optimal de la forme acoustique du signal sur un des deux modèles (37) (38) de Markov, c'est-à-dire de déterminer le chemin dans l'une des chaînes de Markov cachées qui conduit à la plus forte probabilité d'émission de la forme de données considérée (parole (52) ou musique (53) , par exemple). Un inconvénient majeur de la technique antérieure réside cependant dans le comportement « dispersif » induit par l'étape d'apprentissage et ses sous-étapes d'initialisation du modèle par quantification vectorielle, et d'optimisation des paramètres du mélange (moyennes et variances des gaussiennes) par l'algorithme classique EM, notées VQ+EM dans la suite. Comme illustré sur le schéma sur la figure 8.2 qui présente la dispersion des points obtenus au moyen d'un apprentissage par l'algorithme VQ+EM selon l'art antérieur, chaque point de la figure 8.2 représentant la répartition des gaussiennes obtenues sur les segments du signal audio d'entrée par l'application de l'algorithme VQ+EM. En effet, force est de constater que l'intérêt principal de l'application d'un tel algorithme d'apprentissage VQ+EM est de modéliser au mieux chaque classe de données individuellement, alors qu'un des problèmes techniques posés par la présente invention est d'identifier précisément dans un flux de données indifférenciées, les plages du flux correspondant respectivement à des classes de données bien identifiées et séparées.

D'autres inconvénients du procédé précité selon l'art antérieur concerne le surcoût en termes de temps de calcul et la qualité souvent discutable des résultats de segmentation et de reconnaissance obtenu sur le signal de données d'entrée, ces inconvénients étant dus majoritairement à l'utilisation de modèle de mélange de chaînes de Markov, et à la discrétisation vectorielle du nuage global de points représentatifs des gaussiennes labellisées des deux classes de parole et musique, tel que représenté sur le figure 8 .1.

3. Objectifs de l'invention

L'invention a notamment pour objectif de pallier ces divers inconvénients de l'état de la technique.

Plus précisément, un objectif de l'invention est de fournir une technique qui soit plus fiable en termes de résultat et de qualité de segmentation d'un signal d'entrée se présentant sous la forme d'un ensemble de données indifférenciées et de reconnaissance de la classe de données à laquelle chaque segment du signal d'entrée appartient.

Un autre objectif de l'invention est de fournir une telle technique qui soit donc particulièrement performante en termes de discrimination entre segments de parole et segments de musique, à partir d'une signal d'entrée se présentant sous la forme d'un flux de données musique et parole indifférenciées.

Un objectif supplémentaire de l'invention consiste à proposer une nouvelle technique qui soit plus économe en termes de temps de calcul pour la segmentation et la reconnaissance, et donc mieux adaptée à des domaines d'application nécessitant le traitement de gros volumes de données.

Un dernier objectif de l'invention consiste à fournir une nouvelle technique de segmentation et de classification de données de différents types contenues dans un flux de données d'entrée indifférenciées, qui soit simple et peu coûteuse en termes de mise en œuvre.

4. Résumé de l'invention

Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints selon l'invention à l'aide d'un procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comportant :

- une première étape (141) de segmentation du signal (140) d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune des trames;

- une deuxième étape (142) d'affectation d'au moins deux données de description extraites d'un ensemble de P trames adjacentes sélectionnées pour le signal (140) d'entrée, à l'une au moins des classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus (146) de données d'apprentissage prédéterminé.

Un tel procédé selon l'invention comporte en outre avantageusement : - une troisième étape (143) d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune des classes de données, à partir d'au moins un corpus (146) de données d'apprentissage prédéterminé ; - une quatrième étape (144) de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première desdites au moins deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième desdites au moins deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans le signal d'entrée ;

- une cinquième étape (145) de segmentation et de labellisation du flux d'entrée suivant au moins les deux classes de données modélisées, à partir au moins des N et M automates à états - transitions ; de façon à segmenter le signal (140) d'entrée en segments (147) de données différenciées et catégorisées.

Préférentiellement, les paramètres N et M sont choisis tels que : N>1 et/ou M>1.

Préférentiellement, la troisième étape (143) d'apprentissage comporte au moins :

- une sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant au moins les deux classes (81), 82) de données à modéliser, dans un espace à au moins deux dimensions (83), (84) respectivement définies par au moins deux données (85), (86) calculées de description de chacune des trames extraites ; et

- une sous-étape (142₂) de sélection d'un premier sous-ensemble de points du nuage labellisés appartenant à la première des deux classes à modéliser et d'un deuxième sous-ensemble de points labellisés appartenant à la deuxième des deux classes à modéliser, le premier et deuxième sous- ensembles de points étant sélectionnés parmi les points du nuage (80) de points labellisés situés au voisinage de la frontière (87) séparant les deux classes (81), (82) à modéliser. De façon avantageuse, la sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant au moins les deux classes (81), (82) de données à modéliser est une sous-étape :

- de création d'un histogramme (90) obtenu par discrétisation de l'espace à au moins deux dimensions, au moyen d'un pas (91) de discrétisation préalablement déterminé suivant au moins un critère de précision et,

- de labellisation (9I₁) (92₂) (92₃) (92₄) (92₅) (92₆) de chaque case (93) de l'histogramme (90) par l'une au moins des deux classes (81) (82) possédant le plus grand nombre de points dans la case considérée. De façon préférentielle, la sous-étape (142₂) de sélection est une sous- étape d'élagage (101) des points (102) du nuage (80) n'étant pas situés au voisinage (87) de la frontière séparant au moins les deux classes (81) (82) à modéliser. L'étape d'élagage (101) consiste alors à ne conserver dans chacune des cases de l'histogramme, que les points (103) appartenant à l'une au moins des deux classes (81) 82) et comportant au moins un point dans son voisinage (104) immédiat appartenant à une autre desdites au moins deux classes, comme illustré sur la figure 10.

Ainsi, grâce au procédé d'apprentissage décrit dans cette invention, la dispersion des points est beaucoup moins importante, comme illustré sur la figure 8.3, puisqu'on se concentre ici sur la frontière entre les deux classes.

L'invention proposée ne se contente donc pas comme dans les technique connues de l'art antérieur de modéliser chaque classe de données séparément, mais conjointement, en se focalisant davantage sur les gaussiennes aux frontières des classes, sans plus avoir à modéliser l'intérieur de la classe mais uniquement son pourtour en fonction des classes adjacentes, ce qui permet d'économiser sensiblement en temps de calcul et en qualité de résultat.

Préférentiellement, la cinquième étape (145) de segmentation et de labellisation du flux d'entrée met en œuvre un algorithme (120) de Viterbi pour déterminer l'alignement optimal de la forme du flux (121) d'entrée sur les modèles formés par les automates à états - transitions.

Avantageusement, chacune des deux classes (81) (82) de données (au moins) est modélisée par une pluralité d'automates à états - transitions (110) (111) du type chaînes de Markov cachées, dont chaque état est constitué d'au moins une gaussienne (HO₁,..., HOi) (H l₁,..., 11 I_j) et dont chaque transition (112) définit un niveau de probabilité de franchissement d'un état courant vers un autre état ou vers le même état d'une des chaînes de Markov cachée. De façon également préférentielle, le signal (60) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées du type parole et musique, les deux classes modélisées sont respectivement du type classe parole et classe musique, les deux données de description au moins étant alors du type moyenne (61) et variance (62) calculées à partir d'une pluralité de flux (63) spectraux instantanés associés respectivement à chacune des trames de la pluralité de trames de longueur prédéterminée, les flux (63) spectraux étant issus de l'analyse de chacune des trames.

Avantageusement, une gaussienne au moins est formée d'un couple unique (moyenne, variance) (61, 62) calculé pour l'ensemble des P trames de longueur prédéterminée.

De façon également avantageuse, chacune des chaînes de Markov cachées contient au moins un état re-bouclant.

L'invention concerne également de façon avantageuse un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur.

Selon l'invention, un tel programme comprend avantageusement des instructions de code de programme pour l'exécution des étapes du procédé, tel que précité, de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées suivant au moins deux classes (81) (82) de données prédéfinies, lorsque ledit programme est exécuté sur un ordinateur.

L'invention concerne aussi de façon avantageuse un dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comprenant : - des moyens de segmentation du signal d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune des trames;

- des moyens d'affectation des deux données de description au moins, extraites d'un ensemble de P trames adjacentes sélectionnées pour le signal d'entrée, à l'une au moins des classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus de données d'apprentissage prédéterminé. Selon l'invention, un tel dispositif comprend en outre : - des moyens d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune des classes de données, à partir d'au moins un corpus de données d'apprentissage prédéterminé ;

- des moyens de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première au moins des deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième au moins des deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans le signal d'entrée; - des moyens de segmentation et de labellisation du flux d'entrée suivant au moins les deux classes de données modélisées, à partir des au moins N et M automates à états - transitions ; de façon à segmenter le signal d'entrée en segments de données différenciées et catégorisées. La figure 13 présente enfin la structure d'un dispositif de segmentation et de labellisation selon l'invention, qui comprend une mémoire M (130), et une unité de traitement (131) équipée d'un microprocesseur μP, qui est piloté par le programme d'ordinateur Pg 132. L'unité de traitement 131 reçoit (133) en entrée un flux (134) de données indifférenciées, à partir duquel le microprocesseur μP réalise, selon les instructions du programme Pg 132, une segmentation et une labellisation du flux (134) de données d'entrée à l'aide des chaînes de Markov cachée, de façon à obtenir un signal (134) d'entrée segmenté en segments (135) de données différenciées et catégorisées, par exemple selon les classes Cl et C2.

Un tel dispositif comprend en outre tous les moyens structurels de mise en œuvre du procédé de segmentation et de labellisation d'un signal d'entrée, tel que cité précédemment, lesquels ne sont pas détaillés ici.

5. Liste des figures

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel de l'invention, donné à titre d'exemple illustratif et non limitatif, faite en référence aux dessins annexés parmi lesquels :

- la figure 1, déjà décrite en description de l'art antérieur, donne un exemple de segmentation d'un flux audio en deux classes Parole/Musique ;

- la figure 2, également déjà décrite relativement à l'art antérieur donne un exemple de topologie d'un modèle de Markov caché à trois états ; - la figure 3, déjà décrite précédemment, présente un organigramme du procédé de génération des modèles de deux classes de données connu de l'art antérieur ;

- la figure 4, également déjà décrite, donne un exemple de chaînes de Markov cachées obtenues pour deux classes de données, en sortie du procédé de la figure 3 ;

- la figure 5, aussi déjà discutée ci-avant, illustre le principe général adopté pour la segmentation et la reconnaissance de données classifiées par application de l'algorithme de Viterbi sur des modèles de chaînes de Markov cachées, selon l'art antérieur ; - la figure 6 présente le principe d'extraction des descripteurs des trames du signal d'entrée par calcul de la moyenne et variance du flux spectral, selon l'invention ;

- la figure 7 donne un exemple de la répartition des moyennes et variances obtenues pour les classes « musique » et « parole » avec le procédé selon l'invention ;

- les figures 8.1 à 8.3 présentent respectivement un exemple de nuage de gaussiennes labellisées pour deux classes parole et musique, la répartition des gaussiennes résultants de l'application de l'algorithme VQ+EM selon l'art antérieur et, la répartition des gaussiennes obtenues pour ce même nuage de points, au moyen du procédé selon l'invention ;

- la figure 9 illustre le principe de création de l'histogramme de répartition des gaussiennes par discrétisation de l'espace 2, selon l'invention ;

- la figure 10 décrit le principe d'élagage des points du nuage de gaussiennes labellisées par détection des voisins immédiats ;

- la figure 11 donne un exemple de création des chaînes de Markov pour les modèles Parole et Musique, au moyen du procédé selon l'invention ; - la figure 12 rappelle le principe général de fonctionnement du procédé selon l'invention ;

- la figure 13, déjà décrite précédemment présente la structure d'un dispositif de segmentation et de reconnaissance selon l'invention.

6. Description d'un mode de réalisation préféré de l'invention La présente invention concerne donc un procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, dont les différentes étapes sont décrites ci-dessous pour un mode de réalisation préférée de l'invention. Dans la suite, nous expliciterons chaque partie en illustrant par un exemple d'utilisation dans le cadre d'un système de segmentation parole/musique basé sur le calcul du flux spectral dans un signal audio d'entrée.

Une première étape du procédé selon l'invention concerne la segmentation du signal audio en trames avec ou sans recouvrement et en l'extraction d'un ou de plusieurs descripteurs pour chacune des trames.

Préférentiellement, un calcul de la moyenne et de la variance du ou des descripteurs extraits sur un ensemble de P trames adjacentes est ensuite réalisé.

D'autres paramètres calculés sur les descripteurs peuvent bien évidemment être envisagés. Le flux audio est préférentiellement segmenté en segments de 32 millisecondes et on calcule pour chacun de ces segments le flux spectral qui correspond à la somme « bin » fréquentiel par « bin » fréquentiel de la valeur absolue de la différence entre deux spectres d'amplitude consécutifs.

A partir des valeurs instantanées du flux spectral, on en tire la moyenne et la variance sur des segments d'1 seconde (32 valeurs de flux spectral instantané). Les couples (moyenne, variance) ainsi obtenus sont représentés à titre illustratif au travers la figure 7.

Dans une deuxième étape du procédé selon l'invention, on réalise une affectation du ou des descripteurs calculés pour chacune des trames sélectionnées à deux classes de données à modéliser, par exemple du type classe parole et classe musique, lorsque l'on cherche à distinguer entre données parole et données musique d'un signal d'entrée audio.

Cette deuxième étape s'effectue au moyen d'un apprentissage supervisé, sur la base d'au moins un corpus audio d'apprentissage contenant des données réelles. Les données d'apprentissage utilisées sont des fichiers contenant les données numériques relatives au paramètre du flux spectral, calculées à partir des fichiers audio.

Une fois toutes les moyennes et variances du flux calculées, on affecte ces descripteurs aux 2 classes à modéliser. Le corpus d'apprentissage est ici composé de deux heures de musique et de deux heures de parole. Tous les descripteurs extraits des données de musique sont ainsi affectés à la classe « musique » et tous les descripteurs extraits des données de parole sont affectés à la classe « parole ».

Une troisième étape du procédé selon l'invention concerne l'apprentissage des différents paramètres des états des chaînes de Markov cachées à partir des données d'apprentissage. Cette phase d'apprentissage se déroule en deux sous étapes, à savoir :

- la création d'un histogramme par discrétisation de l'espace 2D

(moyenne et variance) par application d'un pas de discrétisation choisi arbitrairement ou bien selon au moins un critère de précision préalablement déterminé, puis la labellisation par vote majoritaire de chacune des cases de l'histogramme en comparant le nombre de couples (moyenne, variance) de chacune des classes appartenant à cette case. On obtient ainsi un nuage de points labellisés, tel qu'illustré sur la figure 9 ; puis

- la sélection de N couples pertinents (moyenne, variance) de la première classe et de M couples pertinents de la seconde classe du nuage de points labellisé précédent. Les (N+M) couples pertinents désignant ici les points proches de la frontière entre les deux classes.

Optionnellement, l'étape précitée de sélection des couples pertinents peut s'effectuer par la mise en œuvre d'un algorithme dit d' « élagage », dont le principe consiste à ne conserver que les points qui comportent au moins un point d'une autre classe dans son voisinage immédiat.

L'objectif de cette procédure d'élagage est de supprimer des gaussiennes jugées inutiles (c'est-à-dire éloignées de la frontière) dans l'espace à deux dimensions ici considéré. C'est également dans cette partie que le nombre de gaussiennes pour obtenir le nombre de couples souhaité peut être limité pour économiser en temps de calcul, lorsque nécessaire.

Dans cet exemple, on garde M=N=64 gaussiennes pour modéliser la classe « parole » et la classe « musique ». On obtient ainsi les couples résultants représentés en bas de la figure 8.3.

Une quatrième étape du procédé selon l'invention vise ensuite à créer N chaînes de Markov cachées à P états modélisant la classe Cl, les P états de chacune des chaînes de Markov cachées étant constitué d'une des N gaussiennes (couple moyenne, variance) déterminées lors de l'étape précédente et à créer M chaînes de Markov cachées à P états modélisant la classe C2, les P états de chacune des chaînes de Markov cachées étant constitué d'une des M gaussiennes (couple moyenne, variance) également déterminées lors de l'étape précédente.

Optionnellement, il est possible de ne construire que N' (l≤N'≤ N) chaînes de Markov cachées pour modéliser la classe 1 et M' (l≤M'≤ M) chaînes de Markov cachées pour modéliser la classe 2.

Tous les états des chaînes de Markov cachées de la classe 1 étant alors constitués de mélanges des N gaussiennes sélectionnées à l'étape de sélection et tous les états des chaînes de Markov cachées de la classe 2 étant constitués de mélanges des M gaussiennes sélectionnées à l'étape de sélection également.

Chacune des classes « parole » et « musique » est modélisée respectivement par 64 et 64 chaînes de Markov cachées à P=32 états, dans l'exemple présenté.

Les P états d'une même chaîne de Markov cachée étant constitué de chacune des gaussiennes déterminées lors de la troisième étape.

Pour chaque classe, à partir de chaque gaussienne G[i] (l≤i<64) conservée, on créé une chaîne de Markov cachée contenant autant d'états re-bouclants que d'éléments utilisés dans le calcul de moyennes et variances.

Tous les états de cette chaîne émettent leur probabilité suivant la loi de la gaussienne G[i]. Un exemple de création de 64 chaînes de Markov pour le modèle « parole » et de 64 chaînes de Markov pour le modèle « musique », comme illustré sur la figure 11. Enfin, une cinquième étape du procédé selon l'invention consiste à réaliser la segmentation et la labellisation du flux audio à l'aide des chaînes de Markov cachées créées à l'étape de création des chaînes de Markov cachées, par utilisation d'un algorithme permettant de déterminer l'alignement optimal d'une forme acoustique sur un modèle de Markov. L'algorithme le mieux adapté est l'algorithme de Viterbi.

Cette procédure est illustrée figure 12 ou Cl et C2 désignent les classes parole et musique.

Pour expérimenter et valider l'amélioration sensible des performances de ce nouveau procédé de segmentation et de labellisation suivant des classes de données préalablement modélisées, un corpus d'apprentissage composé de deux heures de musique instrumentale indexées manuellement en « musique » et de deux heures de parole indexées manuellement en « parole » a été utilisé.

Un autre corpus, de test, composé de deux heures de musiques génériques (instruments + voix chantée), de vingt minutes de musique instrumentale (différente de celle utilisée lors de l'apprentissage) et de vingt minutes de parole

(différente de celle utilisée lors de l'apprentissage) a également été utilisé. Les performances obtenues en termes d'exécution de procédé selon l'invention ont été calculées en mesurant, sur le corpus de tests, les segments temporels mal indexés par rapport au temps total des séquences, sur la base d'un taux d'erreur calculé comme suit :

_: t_errer (spββch) + t_error (mUSÎc)

Erreur = 100 * -

• total où t_error {speech) représente la durée totale des segments indexés « speech » sur des segments correspondant en fait à de la musique et où t_aror(music) représente la durée totale des segments indexés « music » sur des segments correspondant en fait à de la parole.

Le tableau suivant décrit les deux systèmes testés.

Grâce à ce nouveau procédé de segmentation en deux classes, on améliore ainsi les performances de manière sensible, relativement aux techniques connues de l'art antérieur.

Claims

REVENDICATIONS

1. Procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comportant :

- une première étape (141) de segmentation dudit signal (140) d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune desdites trames; - une deuxième étape (142) d'affectation desdites au moins deux données de description extraites d'un ensemble de P trames adjacentes sélectionnées pour ledit signal (140) d'entrée, à l'une au moins desdites classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus (146) de données d'apprentissage prédéterminé ; caractérisé en ce qu'il comporte en outre :

- une troisième étape (143) d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune desdites classes de données, à partir dudit au moins un corpus (146) de données d'apprentissage prédéterminé, ladite troisième étape (143) d'apprentissage comportant au moins :

- une sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant lesdites au moins deux classes (81), 82) de données à modéliser, dans un espace à au moins deux dimensions (83), (84) respectivement définies par au moins deux données (85), (86) calculées de description de chacune desdites trames extraites ;

- une sous-étape (142₂) de sélection d'un premier sous-ensemble de points dudit nuage labellisés appartenant à la première desdites au moins deux classes à modéliser et d'un deuxième sous-ensemble de points labellisés appartenant à la deuxième desdites au moins deux classes à modéliser, ledit premier et deuxième sous-ensembles de points étant sélectionnés parmi les points dudit nuage (80) de points labellisés situés au voisinage de la frontière (87) séparant lesdites au moins deux classes (81), (82) à modéliser ;

- une quatrième étape (144) de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première desdites au moins deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième desdites au moins deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans ledit signal d'entrée ;

- une cinquième étape (145) de segmentation et de labellisation dudit flux d'entrée suivant lesdites au moins deux classes de données modélisées, à partir desdits au moins N et M automates à états - transitions ; de façon à segmenter ledit signal (140) d'entrée en segments (147) de données différenciées et catégorisées.

2. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon la revendication 1, caractérisé en ce que ladite sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant lesdites au moins deux classes (81), (82) de données à modéliser est une sous-étape : - de création d'un histogramme (90) obtenu par discrétisation dudit espace à au moins deux dimensions, au moyen d'un pas (91) de discrétisation préalablement déterminé suivant au moins un critère de précision et,

- de labellisation (92χ) (92₂) (92₃) (92₄) (92₅) (92₆) de chaque case (93) dudit histogramme (90) par l'une desdites au moins deux classes (81) (82) possédant le plus grand nombre de points dans ladite case considérée.

3. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ladite sous-étape (142₂) de sélection est une sous-étape d'élagage (101) des points (102) dudit nuage (80) n'étant pas situés au voisinage (87) de la frontière séparant lesdites au moins deux classes (81) (82) à modéliser, ladite étape d'élagage(lθl) consistant à ne conserver dans chacune desdites cases dudit histogramme, que les points (103) appartenant à l'une desdites au moins deux classes (81) 82) et comportant au moins un point dans son voisinage (104) immédiat appartenant à une autre desdites au moins deux classes.

4. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 1 à 3, caractérisé en ce que ladite cinquième étape (145) de segmentation et de labellisation dudit flux d'entrée met en œuvre un algorithme (120) de Viterbi pour déterminer l'alignement optimal de la forme dudit flux (121) d'entrée sur les modèles formés par lesdits automates à états - transitions.

5. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 1 à 4, caractérisé en ce que chacune desdites au moins deux classes (81) (82) de données est modélisée par une pluralité d'automates à états - transitions (110) (111) du type chaînes de Markov cachées, dont chaque état est constitué d'au moins une gaussienne (HO₁,..., HOi) (H l₁,..., l l l_j) et dont chaque transition (112) définit un niveau de probabilité de franchissement d'un état courant vers un autre état ou vers le même état d'une desdites chaînes de Markov cachée.

6. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 1 à 5, caractérisé en ce que ledit signal (60) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées du type parole et musique, lesdites au moins deux classes modélisées sont respectivement du type classe parole et classe musique, et en ce que lesdites au moins deux données de description sont du type moyenne (61) et variance (62) calculées à partir d'une pluralité de flux (63) spectraux instantanés associés respectivement à chacune desdites trames de ladite pluralité de trames de longueur prédéterminée, lesdits flux (63) spectraux étant issus de ladite analyse de chacune desdites trames.

7. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon les revendications 5 et 6, caractérisé en ce que ladite au moins une gaussienne est formée d'un couple unique (moyenne, variance) (61, 62) calculé pour l'ensemble desdites P trames de longueur prédéterminée.

8. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 5 à 7, caractérisé en ce que chacune desdites chaînes de Markov cachées contient au moins un état rebouclant.

9. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution d'au moins une des étapes du procédé de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes (81) (82) de données prédéfinies, selon l'une quelconque des revendications 1 à 8, lorsque ledit programme est exécuté sur un ordinateur.

10. Dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comprenant : - des moyens de segmentation dudit signal d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune desdites trames;

- des moyens d'affectation desdites au moins deux données de description extraites d'un ensemble de P trames adjacentes sélectionnées pour ledit signal d'entrée, à l'une au moins desdites classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus de données d'apprentissage prédéterminé ; caractérisé en ce qu'il comporte en outre : - des moyens d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune desdites classes de données, à partir dudit au moins un corpus de données d'apprentissage prédéterminé, lesdits moyens d'apprentissage comprenant au moins : - des moyens de création d'un nuage de points labellisés et répartis suivant lesdites au moins deux classes de données à modéliser, dans un espace à au moins deux dimensions respectivement définies par au moins deux données calculées de description de chacune desdites trames extraites ;

- des moyens de sélection d'un premier sous-ensemble de points dudit nuage labellisés appartenant à la première desdites au moins deux classes à modéliser et d'un deuxième sous-ensemble de points labellisés appartenant à la deuxième desdites au moins deux classes à modéliser, ledit premier et deuxième sous-ensembles de points étant sélectionnés parmi les points dudit nuage de points labellisés situés au voisinage de la frontière séparant lesdites au moins deux classes à modéliser ;

- des moyens de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première desdites au moins deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième desdites au moins deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans ledit signal d'entrée;

- des moyens de segmentation et de labellisation dudit flux d'entrée suivant lesdites au moins deux classes de données modélisées, à partir desdits au moins N et M automates à états - transitions ; de façon à segmenter ledit signal d'entrée en segments de données différenciées et catégorisées.