WO2007003505A1

WO2007003505A1 - Method and device for segmenting and labelling the contents of an input signal in the form of a continuous flow of undifferentiated data

Info

Publication number: WO2007003505A1
Application number: PCT/EP2006/063363
Authority: WO
Inventors: Patrice Collen; Pierrick Philippe; Olivier Leblouch
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-07-01
Filing date: 2006-06-20
Publication date: 2007-01-11
Anticipated expiration: 2008-01-01

Abstract

The invention concerns a method for segmenting and labelling the contents of an input signal (141) in the form of a continuous flow of undifferentiated data, in accordance with at least two classes of predefined data enabling the input signal (140) to be segmented into differentiated and categorized predefined data (147), based on a corpus of learning data.

Description

Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées Method and apparatus for segmentation and labeling of the content of an input signal in the form of a continuous stream of undifferentiated input data

1. Domaine de l'invention1. Field of the invention

Le domaine de l'invention est celui de la reconnaissance de formes et de la classification de données.The field of the invention is that of pattern recognition and data classification.

Plus précisément, l'invention concerne une nouvelle technique de segmentation d'un signal donné composé de données de différents types et indifférenciées, en une pluralité de segments de données classifiés suivants des classes de données préalablement modélisées.More specifically, the invention relates to a novel technique of segmenting a given signal composed of data of different types and undifferentiated into a plurality of classified data segments following previously modeled data classes.

L'invention s'applique notamment, mais non exclusivement, à la segmentation d'un signal audio en segments de parole et de musique, et par extension, au traitement automatisé de documents audiovisuels, ou bien encore, à l'indexation de documents sonores, dans un objectif d'archivage par exemple.The invention applies in particular, but not exclusively, to the segmentation of an audio signal into speech and music segments, and by extension, to the automated processing of audiovisual documents, or even to the indexing of sound documents. , for archival purposes for example.

Un exemple de mise en œuvre et d'application de l'invention sont donnés dans la suite de ce document, pour un système de segmentation parole musique dont le but est de segmenter un signal audionumérique en segments de taille variable et de labelliser chacun des segments détectés en fonction de leur contenu : parole ou musique.An example of implementation and application of the invention are given later in this document, for a music speech segmentation system whose purpose is to segment a digital audio signal into segments of variable size and to label each of the segments. detected according to their content: speech or music.

2. État de la technique2. State of the art

Un exemple de segmentation d'un flux (10) audio suivant deux classes : une classe parole (15) et une classe musique (16), est donné à la figure 1 qui illustre un alignement dans le temps (17) des différentes classes parole et musique sur des portions ou segments (11, 12, 13, 14) du flux (10) audio.An example of a segmentation of an audio stream (10) according to two classes: a speech class (15) and a music class (16) is given in FIG. 1 which illustrates a time alignment (17) of the different speech classes and music on portions or segments (11, 12, 13, 14) of the audio stream (10).

Il s'agit en effet, à l'intérieur d'un signal de données d'entrée indifférenciées mixant parole et musique, sur une durée donnée, d'identifier et de distinguer sur l'ensemble du signal les segments concernant de la parole et ceux concernant de la musique. On connaît de l'art antérieur, des technique de segmentation suivant au moins deux classes distinctes, permettant de distinguer sur un signal d'entrée les segments de parole des segments de musique. Ces techniques de l'art antérieur mettent en œuvre pour la segmentation des algorithmes basés sur des modèles de mélanges de gaussiennes (ou MMG) et ou des modèles de Markov caché (ou MMC), dont nous rappelons ici respectivement les grands principes, de façon à faciliter le compréhension de la suite de ce document.It is indeed, within a signal of undifferentiated input data mixing speech and music, over a given duration, to identify and to distinguish on the whole of the signal the segments concerning speech and those concerning music. It is known from the prior art, segmentation techniques according to at least two distinct classes, for distinguishing on an input signal the speech segments of the music segments. These techniques of the prior art implement for the segmentation of algorithms based on models of Gaussian mixtures (or MMG) and or hidden Markov models (or MMC), which we recall here respectively the main principles, so to facilitate the understanding of the rest of this document.

2.1 Les modèles de mélanges de gaussiennes (MMG) Les MMG permettent de modéliser une distribution de probabilité par une somme de gaussiennes et associent une somme pondérée (mixture) de fonctions à chaque classe préalablement déterminée. La plus communément utilisée est la somme pondérée de fonctions de densités de probabilité gaussiennes multidimensionnelles, une gaussienne étant définie comme la représentation de la loi normale (ou loi normale gaussienne, loi de Laplace-Gauss) dont la densité de probabilité s'écrit :2.1 Gaussian Mixture Models (MMG) MMGs are used to model a probability distribution by a sum of Gaussians and associate a weighted sum (mixture) of functions with each previously determined class. The most commonly used is the weighted sum of multidimensional Gaussian probability density functions, a Gaussian being defined as the representation of the normal law (Gaussian normal law, Laplace-Gauss law) whose density of probability is written:

- m est la moyenne ;- m is the average;

- σ l'écart-type (la variance utilisée dans la suite de la description correspond à l'élévation au carré de l'écart-type, elle sera notée : σ ²). 2.2 Les modèles de Markov cachés (MMC)- σ the standard deviation (the variance used in the following description corresponds to the squaring of the standard deviation, it will be noted: σ ² ). 2.2 Hidden Markov Models (MMC)

Les modèles de Markov cachés (MMC ou HMM en Anglais, pour « Hidden Markov Models ») sont régulièrement utilisés dans des domaines tels que la reconnaissance de parole, l'analyse de séquences biologiques ou celui de la recherche d'information textuelle ou musicale, et plus généralement pur la segmentation de signaux.Hidden Markov models (MMC or HMM) are regularly used in areas such as speech recognition, biological sequence analysis, and textual or musical information retrieval. and more generally pure segmentation of signals.

Un MMC se définit comme un double processus stochastique, dont un premier processus stochastique sous-jacent n'est pas directement observable (le processus caché) et dont le deuxième processus stochastique produit une séquence d'observations. Un MMC est constitué d'un nombre fini d'états P. A chaque top d'horloge, un nouvel état est atteint suivant une distribution de probabilité de transition qui ne dépend que de l'état précédent (propriété markovienne). Notons qu'il peut y avoir des transitions d'un état vers lui- même, ce qui définit la notion de re-bouclage d'un état sur lui-même. Ainsi, suite au franchissement d'une transition d'un modèle de Markov caché, une observation est émise suivant une distribution de probabilité qui dépend de l'état courant situé en amont de la transition.An MMC is defined as a double stochastic process, whose first underlying stochastic process is not directly observable (the hidden process) and whose second stochastic process produces a sequence of observations. An MMC consists of a finite number of P states. At each clock tick, a new state is reached according to a transition probability distribution that depends only on the previous state (Markovian property). Note that there may be transitions from a state to itself, which defines the notion of re-looping a state on itself. Thus, following the crossing of a transition of a hidden Markov model, an observation is emitted according to a probability distribution which depends on the current state situated upstream of the transition.

Un exemple de topologie d'un MMC à 3 états 20, 21, 22 est donné au travers la figure 2. Sur cette figure, chaque état 20, 21 et 22 contient un modèle de mélange de gaussienne (MMG) respectivement noté MMGl, MMG2 et MMG3.An example of a topology of a 3-state MMC 20, 21, 22 is given in FIG. 2. In this figure, each state 20, 21 and 22 contains a Gaussian mixture model (MMG) respectively denoted MMG1, MMG2. and MMG3.

L'évolution du MMC s'effectue par franchissement des transitions P₁₂ ou P₂₃, pour le passage d'un premier état vers un autre état du MMC, soit par re-bouclage sur l'état courant, par franchissement des transitions P₁₁, P₂₂ ou P₃₃, dans l'exemple donné. Pour plus de détail sur les MMC, le lecteur pourra se référer à la thèse de doctorat réalisée en 2004 par J. PESfQUIER à l'institut de recherche en informatique de Toulouse et intitulée « Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle ».The evolution of the MMC is carried out by crossing the P ₁₂ or P ₂₃ transitions, for the passage of a first state to another state of the MMC, or by re-looping on the current state, by crossing the P ₁₁ transitions. , P ₂₂ or P ₃₃ , in the example given. For more details on the MMC, the reader can refer to the doctoral thesis realized in 2004 by J. PESfQUIER at the IT research institute of Toulouse entitled "Sound indexing: research of primary components for an audiovisual structuring" .

2.3 Présentation des techniques de l'art antérieur connues pour la segmentation d'un signal audio en segments de données parole et de données musique2.3 Overview of Known Prior Art Techniques for Segmenting an Audio Signal into Speech and Music Data Segments

La plupart des techniques connues de l'art antérieur pour la segmentation d'un signal audio en segments de données parole et de données musique s'appuie sur un apprentissage de modèles de mélanges de loi gaussiennes (MMG) et sur la création de chaînes de Markov cachées.Most of the prior art known techniques for segmenting an audio signal into speech data and music data segments rely on Gaussian law mix model (GAM) training and Markov hidden.

De façon répandue dans la littérature, les outils probabilistes que représentent les modèles de mélanges de gaussiennes sont couramment utilisés pour la segmentation d'un signal audio en deux classes de données distinctes, comme décrit dans l'article scientifique d'E. SCHEIRER & M. STANLEY, « Construction and évaluation of a robust multifeature speech/Music discriminator » - ICASSP 97, April 21-24, Munich, Germany, et dans la thèse de doctorat de J. PINQUIER, déjà citée au paragraphe 2.1. Le principe général du procédé d'estimation des paramètres des MMG de deux classes de données à modéliser (notées ici Classe 1 et classe 2, dans l'exemple illustratif), utilisé dans les techniques de l'art antérieur est expliqué au travers l'organigramme de la figure 3, ce procédé permettant d'obtenir en sortie deux chaînes de Markov (tel qu'illustré sur la figure 4) modélisant les classes 1 etIn the literature, the probabilistic tools represented by Gaussian mixing models are commonly used for the segmentation of an audio signal into two distinct data classes, as described in the scientific article of E. SCHEIRER & M. STANLEY, "Construction and Evaluation of a Robust Multifile Speech / Music Discriminator" - ICASSP 97, April 21-24, Munich, Germany, and J. PINQUIER's doctoral thesis, already cited in section 2.1. The general principle of the method for estimating the parameters of the MMGs of two classes of data to be modeled (noted here Class 1 and Class 2, in the illustrative example), used in the techniques of the prior art, is explained through FIG. FIG. 3 is a flowchart for outputting two Markov chains (as shown in FIG. 4) modeling classes 1 and 2;

2 de données, selon un procédé proposé par J. RAZICK, D. FOHR, O. MELLA, dans un article intitulé « Segmentation parole/musique pour la transcription automatique », publié dans les actes des Journées d'études sur la parole - JEP 2004, en avril 2004, à Fès, Maroc. Les chaînes de Markov cachées (MMC) ainsi obtenues pour la modélisation des classes 1 et 2 sont exploitées par la dernière étape du procédé de segmentation et de reconnaissance, laquelle met en œuvre un algorithme de Viterbi à partir des MMC obtenues, comme illustré au travers de la figure 5.2 of data, according to a method proposed by J. RAZICK, D. FOHR, O. MELLA, in an article entitled "Segmentation speech / music for automatic transcription", published in the proceedings of the Journées d'études sur la parole - JEP 2004, in April 2004, in Fez, Morocco. The hidden Markov chains (MMC) thus obtained for the modeling of classes 1 and 2 are exploited by the last step of the segmentation and recognition method, which implements a Viterbi algorithm from the MMCs obtained, as illustrated through of Figure 5.

Nous décrivons ci-dessous les différentes étapes des procédés d'estimation des paramètres des MMG (figures 3 et 4) et de segmentation (figure 5), relativement aux figures 3 à 5.We describe below the different steps of the estimation methods of the parameters of the MMG (FIGS. 3 and 4) and segmentation (FIG. 5), with respect to FIGS.

La première étape du procédé d'estimation des paramètres des MMG connu de l'art antérieur est une étape (31) d'extraction de descripteurs à partir du signal (30) audio d'entrée. Une grande collection de descripteurs est utilisée dans la littérature, parmi lesquelles, la modulation de l'énergie à 4Hz, le pourcentage de trames du signal de basse énergie, le « Spectral Rolloff Point » (terminologie anglaise communément admise par la communauté technique du domaine), le centroïde spectral, le flux spectral.The first step of the method for estimating the parameters of the MMGs known from the prior art is a step (31) of extracting descriptors from the input audio signal (30). A large collection of descriptors is used in the literature, among which, the modulation of energy at 4 Hz, the percentage of frames of the low energy signal, the "Spectral Rolloff Point" (English terminology commonly accepted by the technical community of the field ), the spectral centroid, the spectral flux.

D'autres descripteurs plus communément utilisés dans le domaine de la reconnaissance de la parole sont également parfois utilisés, comme par exemple les coefficients MFCC (pour « mel frequency cepstral coefficients « en anglais, ou en français « coefficients cepstral de fréquence de mels »).Other descriptors more commonly used in the field of speech recognition are also sometimes used, for example the MFCC coefficients (for "mel frequency cepstral coefficients" in English, or in French "cepstral coefficients of frequency of mels"). .

Une deuxième étape du procédé d'estimation des paramètres des MMG selon l'art antérieur est une étape (32) d'affectation des descripteurs extraits aux différentes classes à modéliser (classe Cl (32i) et classe C2 (32₂) dans l'exemple).A second step of the method for estimating MMG parameters according to the prior art is a step (32) of the allocation descriptors of extracts to the different classes to be modeled (Cl class (32i) and class C2 (32 ₂₎ in the example).

Cette deuxième étape (32) est facilitée par un étiquetage (33i) (33₂), le plus souvent manuel de chacune des classes Cl et C2 à modéliser, comme illustré sur la figure 3.This second step (32) is facilitated by labeling (33i) (33 ₂ ), the most often manual of each class C1 and C2 to model, as shown in Figure 3.

Une troisième étape du procédé d'estimation des paramètres des MMG selon l'art antérieur comprend notamment une étape (34) d'apprentissage des paramètres des modèles de mélanges de lois gaussiennes à partir des données d'apprentissage.A third step of the method for estimating the parameters of the MMGs according to the prior art comprises in particular a step (34) for learning the parameters of the Gaussian law mixture models from the training data.

Cet étape (34_ls 34₂) d'apprentissage se déroule en deux sous-étapes : la première (35_ls 35₂) est une initialisation du modèle par quantification vectorielle, par exemple basée sur l'algorithme LBG décrit dans l'article Y. LINDE, A. BUZO, R.M. GRAY : "An algorithm for vector quantizer", IEEE Trans on Corn.,This step (34 _ls 34 ₂ ) of learning takes place in two sub-steps: the first (35 _ls 35 ₂ ) is an initialization of the model by vector quantization, for example based on the algorithm LBG described in the article Y LINDE, A. BUZO, RM GRAY: "An algorithm for vector quantizer", IEEE Trans on Corn.,

January 1980, vol 28.January 1980, vol 28.

La seconde sous-étape (3 O₁, 362) est une optimisation des paramètres du mélange (moyennes et variances des gaussiennes) par l'algorithme classique EMThe second sub-step (3 O ₁ , 362) is an optimization of the mixing parameters (Gaussian averages and variances) by the classical EM algorithm

(pour « Expectation Maximisation » en anglais, ou « Maximisation escomptée » en français), dont une description détaillée est donnée dans la thèse de doctorat de(for "Expectation Maximization" in English, or "Expected Maximization" in French), a detailed description of which is given in the doctoral thesis of

J. PINQUIER, déjà citée au paragraphe 2.1.J. PINQUIER, already mentioned in paragraph 2.1.

On obtient ainsi en sortie du procédé d'estimation un ensemble de modèles de mélange de gaussienne définissant respectivement dans une quatrième étape les états d'une chaîne (37) de Markov cachée modélisant la classe Cl et d'une chaîne (38) de Markov cachée modélisant la classe C2, comme illustré sur la figure 4.Thus, at the output of the estimation method, a set of Gaussian mixing models defining respectively in a fourth step the states of a hidden Markov chain (37) modeling the Cl class and a Markov chain (38) respectively. hidden model C2, as shown in Figure 4.

Comme illustré sur la figure 4 et de façon plus précise, chacune des classes (37) (38) de segments recherchés (segments de parole ou de musique dans l'exemple cité) est modélisée par une chaîne de Markov cachée à plusieurs états (37_ls ... 37k₊i) et (38_l5 ... 38₁₊₁), respectivement, chaque état (37_ls ... 37k₊i) et (38_l5 ... 38₁₊₁) étant constitué du MMG appris à l'étape (34_ls 34₂) d'apprentissage, tel que décrit dans J. AJMERA, I. McCOWAN, H. BOURLARD, « Speech/Music segmentation using entropy and dynamism features in a HMM classification framework », Speech communication - Elsevier - 2003.As illustrated in FIG. 4 and more precisely, each of the classes (37) (38) of searched segments (segments of speech or of music in the example cited) is modeled by a hidden Markov chain with several states (37). _ls ... 37k ₊ i) and (38 ₁₅ ... 38 _{1 + 1} ), respectively, each state (37 _ls ... 37k ₊ i) and (38 _l5 ... 38 _{1 + 1} ) consisting of MMG learned at the stage (34 _ls 34 ₂ ) of learning, as described in J. AJMERA, I. McCOWAN, H. BOURLARD, "Speech / Music segmentation using entropy and dynamism features in a HMM classification framework", Speech communication - Elsevier - 2003.

Comme illustré sur la figure 5, une dernière et cinquième étape consiste à segmenter et à reconnaître les classes Clet C2 modélisées sur le signal (50) audio d'entrée. Cette dernière étape s'effectue par application de l'algorithme (51) deAs illustrated in FIG. 5, a last and fifth step consists in segmenting and recognizing C2 Clet classes modeled on the input audio signal (50). This last step is carried out by application of the algorithm (51) of

Viterbi sur les chaînes (37) (38) de Markov cachées, ce dernier permettant de déterminer l'alignement optimal de la forme acoustique du signal sur un des deux modèles (37) (38) de Markov, c'est-à-dire de déterminer le chemin dans l'une des chaînes de Markov cachées qui conduit à la plus forte probabilité d'émission de la forme de données considérée (parole (52) ou musique (53) , par exemple). Un inconvénient majeur de la technique antérieure réside cependant dans le comportement « dispersif » induit par l'étape d'apprentissage et ses sous-étapes d'initialisation du modèle par quantification vectorielle, et d'optimisation des paramètres du mélange (moyennes et variances des gaussiennes) par l'algorithme classique EM, notées VQ+EM dans la suite. Comme illustré sur le schéma sur la figure 8.2 qui présente la dispersion des points obtenus au moyen d'un apprentissage par l'algorithme VQ+EM selon l'art antérieur, chaque point de la figure 8.2 représentant la répartition des gaussiennes obtenues sur les segments du signal audio d'entrée par l'application de l'algorithme VQ+EM. En effet, force est de constater que l'intérêt principal de l'application d'un tel algorithme d'apprentissage VQ+EM est de modéliser au mieux chaque classe de données individuellement, alors qu'un des problèmes techniques posés par la présente invention est d'identifier précisément dans un flux de données indifférenciées, les plages du flux correspondant respectivement à des classes de données bien identifiées et séparées.Viterbi on hidden Markov chains (37) (38), the latter allowing determine the optimal alignment of the acoustic form of the signal on one of Markov's two models (37) (38), that is, to determine the path in one of the hidden Markov chains that leads to the most high probability of transmitting the data form considered (speech (52) or music (53), for example). A major disadvantage of the prior art, however, lies in the "dispersive" behavior induced by the learning step and its sub-stages of initialization of the model by vector quantization, and optimization of the parameters of the mixture (means and variances of the Gaussian) by the classical EM algorithm, noted VQ + EM in the following. As illustrated in the diagram in FIG. 8.2 which presents the dispersion of the points obtained by means of a training by the algorithm VQ + EM according to the prior art, each point of FIG. 8.2 representing the distribution of the Gaussian obtained on the segments of the input audio signal by the application of the VQ + EM algorithm. Indeed, it is clear that the main interest of the application of such a learning algorithm VQ + EM is to best model each class of data individually, while one of the technical problems posed by the present invention is to identify precisely in an undifferentiated data stream, the streams of the stream respectively corresponding to classes of data well identified and separated.

D'autres inconvénients du procédé précité selon l'art antérieur concerne le surcoût en termes de temps de calcul et la qualité souvent discutable des résultats de segmentation et de reconnaissance obtenu sur le signal de données d'entrée, ces inconvénients étant dus majoritairement à l'utilisation de modèle de mélange de chaînes de Markov, et à la discrétisation vectorielle du nuage global de points représentatifs des gaussiennes labellisées des deux classes de parole et musique, tel que représenté sur le figure 8 .1.Other disadvantages of the aforementioned method according to the prior art concern the extra cost in terms of calculation time and the often questionable quality of the segmentation and recognition results obtained on the input data signal, these drawbacks being due mainly to the use of the Markov chain mixing model, and the vector discretization of the global cloud of points representative of the Gaussian labels of the two classes of speech and music, as shown in Figure 8 .1.

3. Objectifs de l'invention3. Objectives of the invention

L'invention a notamment pour objectif de pallier ces divers inconvénients de l'état de la technique.The invention particularly aims to overcome these various disadvantages of the state of the art.

Plus précisément, un objectif de l'invention est de fournir une technique qui soit plus fiable en termes de résultat et de qualité de segmentation d'un signal d'entrée se présentant sous la forme d'un ensemble de données indifférenciées et de reconnaissance de la classe de données à laquelle chaque segment du signal d'entrée appartient.More specifically, an object of the invention is to provide a technique that is more reliable in terms of the result and quality of segmentation of a signal input in the form of a set of undifferentiated data and recognition of the class of data to which each segment of the input signal belongs.

Un autre objectif de l'invention est de fournir une telle technique qui soit donc particulièrement performante en termes de discrimination entre segments de parole et segments de musique, à partir d'une signal d'entrée se présentant sous la forme d'un flux de données musique et parole indifférenciées.Another object of the invention is to provide such a technique which is therefore particularly efficient in terms of discrimination between speech segments and music segments, from an input signal in the form of a stream of speech. undifferentiated music and speech data.

Un objectif supplémentaire de l'invention consiste à proposer une nouvelle technique qui soit plus économe en termes de temps de calcul pour la segmentation et la reconnaissance, et donc mieux adaptée à des domaines d'application nécessitant le traitement de gros volumes de données.A further object of the invention is to propose a new technique that is more economical in terms of computing time for segmentation and recognition, and therefore better suited to application areas requiring the processing of large volumes of data.

Un dernier objectif de l'invention consiste à fournir une nouvelle technique de segmentation et de classification de données de différents types contenues dans un flux de données d'entrée indifférenciées, qui soit simple et peu coûteuse en termes de mise en œuvre.A final objective of the invention is to provide a new technique of segmentation and classification of data of different types contained in an undifferentiated input data stream, which is simple and inexpensive in terms of implementation.

4. Résumé de l'invention4. Summary of the invention

Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints selon l'invention à l'aide d'un procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comportant :These objectives, as well as others which will appear later, are achieved according to the invention by means of a method of segmentation and labeling of the content of an input signal (141) in the form of a continuous stream of undifferentiated input data, according to at least two predefined data classes, comprising:

- une première étape (141) de segmentation du signal (140) d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune des trames;a first step (141) of segmenting the input signal (140) in the form of a plurality of frames of predetermined length, and extracting at least two description data from the analysis of each frames;

- une deuxième étape (142) d'affectation d'au moins deux données de description extraites d'un ensemble de P trames adjacentes sélectionnées pour le signal (140) d'entrée, à l'une au moins des classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus (146) de données d'apprentissage prédéterminé.a second step (142) for assigning at least two description data extracted from a set of P adjacent frames selected for the input signal (140) to at least one of the data classes to be modeled by supervised learning implementing at least one predetermined set of training data (146).

Un tel procédé selon l'invention comporte en outre avantageusement : - une troisième étape (143) d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune des classes de données, à partir d'au moins un corpus (146) de données d'apprentissage prédéterminé ; - une quatrième étape (144) de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première desdites au moins deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième desdites au moins deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans le signal d'entrée ;Such a method according to the invention also advantageously comprises: a third step (143) for learning a set of predetermined parameters for creating a plurality of state-machine transitions for modeling each of the data classes, starting from at least one corpus (146) predetermined learning data; a fourth step (144) for creating at least N state-transition state automata comprising P states for modeling the first of said at least two data classes, and at least M state-transitions including P states for modeling the second of said at least two data classes, so as to create at least two classes of modeled data representative of the data contained in the input signal;

- une cinquième étape (145) de segmentation et de labellisation du flux d'entrée suivant au moins les deux classes de données modélisées, à partir au moins des N et M automates à états - transitions ; de façon à segmenter le signal (140) d'entrée en segments (147) de données différenciées et catégorisées.a fifth step (145) for segmenting and labeling the input stream according to at least the two classes of modeled data, starting from at least N and M state - transition state - machine; to segment the input signal (140) into segments (147) of differentiated and categorized data.

Préférentiellement, les paramètres N et M sont choisis tels que : N>1 et/ou M>1.Preferentially, the parameters N and M are chosen such that: N> 1 and / or M> 1.

Préférentiellement, la troisième étape (143) d'apprentissage comporte au moins :Preferably, the third learning step (143) comprises at least:

- une sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant au moins les deux classes (81), 82) de données à modéliser, dans un espace à au moins deux dimensions (83), (84) respectivement définies par au moins deux données (85), (86) calculées de description de chacune des trames extraites ; eta substep (142i) for creating a cloud (80) of points labeled and distributed according to at least the two classes (81), 82) of data to be modeled, in a space of at least two dimensions (83) , (84) respectively defined by at least two data (85), (86) calculated of description of each of the extracted frames; and

- une sous-étape (142₂) de sélection d'un premier sous-ensemble de points du nuage labellisés appartenant à la première des deux classes à modéliser et d'un deuxième sous-ensemble de points labellisés appartenant à la deuxième des deux classes à modéliser, le premier et deuxième sous- ensembles de points étant sélectionnés parmi les points du nuage (80) de points labellisés situés au voisinage de la frontière (87) séparant les deux classes (81), (82) à modéliser. De façon avantageuse, la sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant au moins les deux classes (81), (82) de données à modéliser est une sous-étape :a substep (142 ₂ ) for selecting a first subset of labeled cloud points belonging to the first of the two classes to be modeled and a second subset of labeled points belonging to the second of the two classes; modeling, the first and second subsets of points being selected from the points of the cloud (80) of labeled points located in the vicinity of the boundary (87) separating the two classes (81), (82) to be modeled. Advantageously, the sub-step (142i) of creating a cloud (80) of points labeled and distributed according to at least the two classes (81), (82) of data to be modeled is a substep:

- de création d'un histogramme (90) obtenu par discrétisation de l'espace à au moins deux dimensions, au moyen d'un pas (91) de discrétisation préalablement déterminé suivant au moins un critère de précision et,- creating a histogram (90) obtained by discretizing the space to at least two dimensions, by means of a step (91) of discretization previously determined according to at least one criterion of accuracy and,

- de labellisation (9I₁) (92₂) (92₃) (92₄) (92₅) (92₆) de chaque case (93) de l'histogramme (90) par l'une au moins des deux classes (81) (82) possédant le plus grand nombre de points dans la case considérée. De façon préférentielle, la sous-étape (142₂) de sélection est une sous- étape d'élagage (101) des points (102) du nuage (80) n'étant pas situés au voisinage (87) de la frontière séparant au moins les deux classes (81) (82) à modéliser. L'étape d'élagage (101) consiste alors à ne conserver dans chacune des cases de l'histogramme, que les points (103) appartenant à l'une au moins des deux classes (81) 82) et comportant au moins un point dans son voisinage (104) immédiat appartenant à une autre desdites au moins deux classes, comme illustré sur la figure 10.- Labeling (9I ₁ ) (92 ₂ ) (92 ₃ ) (92 ₄ ) (92 ₅ ) (92 ₆ ) of each box (93) of the histogram (90) by at least one of the two classes ( 81) (82) with the highest number of points in the box. Preferably, the sub-step (142 ₂ ) of selection is a sub-step of pruning (101) points (102) of the cloud (80) not being located in the vicinity (87) of the boundary separating the least two classes (81) (82) to be modeled. The pruning step (101) then consists in keeping in each of the cells of the histogram only the points (103) belonging to at least one of the two classes (81) 82) and comprising at least one point in its immediate neighborhood (104) belonging to another of said at least two classes, as illustrated in Figure 10.

Ainsi, grâce au procédé d'apprentissage décrit dans cette invention, la dispersion des points est beaucoup moins importante, comme illustré sur la figure 8.3, puisqu'on se concentre ici sur la frontière entre les deux classes.Thus, thanks to the learning method described in this invention, the dispersion of the points is much less important, as illustrated in Figure 8.3, since we focus here on the boundary between the two classes.

L'invention proposée ne se contente donc pas comme dans les technique connues de l'art antérieur de modéliser chaque classe de données séparément, mais conjointement, en se focalisant davantage sur les gaussiennes aux frontières des classes, sans plus avoir à modéliser l'intérieur de la classe mais uniquement son pourtour en fonction des classes adjacentes, ce qui permet d'économiser sensiblement en temps de calcul et en qualité de résultat.The proposed invention is therefore not content, as in prior art techniques, with modeling each class of data separately, but jointly, by focusing more on the Gaussian class boundaries, without having to model the interior any more. of the class but only its periphery according to the adjacent classes, which saves significantly in computation time and quality of result.

Préférentiellement, la cinquième étape (145) de segmentation et de labellisation du flux d'entrée met en œuvre un algorithme (120) de Viterbi pour déterminer l'alignement optimal de la forme du flux (121) d'entrée sur les modèles formés par les automates à états - transitions.Preferably, the fifth step (145) of segmentation and labeling of the input stream implements a Viterbi algorithm (120) to determine the optimal alignment of the shape of the input stream (121) on the models formed by state-based automata - transitions.

Avantageusement, chacune des deux classes (81) (82) de données (au moins) est modélisée par une pluralité d'automates à états - transitions (110) (111) du type chaînes de Markov cachées, dont chaque état est constitué d'au moins une gaussienne (HO₁,..., HOi) (H l₁,..., 11 I_j) et dont chaque transition (112) définit un niveau de probabilité de franchissement d'un état courant vers un autre état ou vers le même état d'une des chaînes de Markov cachée. De façon également préférentielle, le signal (60) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées du type parole et musique, les deux classes modélisées sont respectivement du type classe parole et classe musique, les deux données de description au moins étant alors du type moyenne (61) et variance (62) calculées à partir d'une pluralité de flux (63) spectraux instantanés associés respectivement à chacune des trames de la pluralité de trames de longueur prédéterminée, les flux (63) spectraux étant issus de l'analyse de chacune des trames.Advantageously, each of the two classes (81) (82) of data (at least) is modeled by a plurality of state-transitions (110) (111) of the hidden Markov chains type, each state of which consists of at least one Gaussian (HO ₁ , ..., HOi) (H l ₁ , ..., 11 I _j ) and of which each transition (112) defines a level of probability of crossing a current state to another state or to the same state of a hidden Markov chains. Also preferentially, the input signal (60) being in the form of a continuous stream of undifferentiated input data of the speech and music type, the two modeled classes are respectively of the speech class and music class type, respectively. at least two description data then being of the average type (61) and variance (62) calculated from a plurality of instantaneous spectral streams (63) respectively associated with each of the frames of the plurality of frames of predetermined length, the streams (63) spectral being derived from the analysis of each of the frames.

Avantageusement, une gaussienne au moins est formée d'un couple unique (moyenne, variance) (61, 62) calculé pour l'ensemble des P trames de longueur prédéterminée.Advantageously, at least one Gaussian is formed of a single pair (average, variance) (61, 62) calculated for all the P frames of predetermined length.

De façon également avantageuse, chacune des chaînes de Markov cachées contient au moins un état re-bouclant.Also advantageously, each of the hidden Markov chains contains at least one re-looping state.

L'invention concerne également de façon avantageuse un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur.The invention also advantageously relates to a computer program product downloadable from a communication network and / or recorded on a computer readable medium and / or executable by a processor.

Selon l'invention, un tel programme comprend avantageusement des instructions de code de programme pour l'exécution des étapes du procédé, tel que précité, de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées suivant au moins deux classes (81) (82) de données prédéfinies, lorsque ledit programme est exécuté sur un ordinateur.According to the invention, such a program advantageously comprises program code instructions for the execution of the steps of the method, as mentioned above, of segmentation and labeling of the content of an input signal in the form of a continuous stream of undifferentiated input data according to at least two classes (81) (82) of predefined data, when said program is run on a computer.

L'invention concerne aussi de façon avantageuse un dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comprenant : - des moyens de segmentation du signal d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune des trames;The invention also advantageously relates to a device for segmenting and labeling the content of an input signal in the form of a continuous stream of undifferentiated input data, according to at least two predefined data classes, comprising: means for segmenting the input signal in the form of a plurality of frames of predetermined length, and for extracting at least two description data from the analysis of each of the frames;

- des moyens d'affectation des deux données de description au moins, extraites d'un ensemble de P trames adjacentes sélectionnées pour le signal d'entrée, à l'une au moins des classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus de données d'apprentissage prédéterminé. Selon l'invention, un tel dispositif comprend en outre : - des moyens d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune des classes de données, à partir d'au moins un corpus de données d'apprentissage prédéterminé ;means for assigning the at least two description data, extracted from a set of P adjacent frames selected for the input signal, to at least one of the data classes to be modeled, by means of a training supervised implementing at least a predetermined set of learning data. According to the invention, such a device further comprises: means for learning a set of predetermined parameters for creating a plurality of state-machine-modeling transitions of each of the data classes, starting from at least one predetermined training data corpus;

- des moyens de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première au moins des deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième au moins des deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans le signal d'entrée; - des moyens de segmentation et de labellisation du flux d'entrée suivant au moins les deux classes de données modélisées, à partir des au moins N et M automates à états - transitions ; de façon à segmenter le signal d'entrée en segments de données différenciées et catégorisées. La figure 13 présente enfin la structure d'un dispositif de segmentation et de labellisation selon l'invention, qui comprend une mémoire M (130), et une unité de traitement (131) équipée d'un microprocesseur μP, qui est piloté par le programme d'ordinateur Pg 132. L'unité de traitement 131 reçoit (133) en entrée un flux (134) de données indifférenciées, à partir duquel le microprocesseur μP réalise, selon les instructions du programme Pg 132, une segmentation et une labellisation du flux (134) de données d'entrée à l'aide des chaînes de Markov cachée, de façon à obtenir un signal (134) d'entrée segmenté en segments (135) de données différenciées et catégorisées, par exemple selon les classes Cl et C2.means for creating at least N state-transition automata comprising P states for modeling the first at least two data classes, and at least M state-transition automatons comprising P states for the modeling of the at least one of the two classes of data, so as to create at least two classes of modeled data representative of the data contained in the input signal; means of segmentation and labeling of the input stream according to at least the two classes of modeled data, starting from the at least N and M state-transition automata; to segment the input signal into differentiated and categorized data segments. Finally, FIG. 13 shows the structure of a segmentation and labeling device according to the invention, which comprises a memory M (130), and a processing unit (131) equipped with a microprocessor μP, which is controlled by the Computer program Pg 132. The processing unit 131 receives (133) as input a stream (134) of undifferentiated data, from which the microprocessor μP realizes, according to the instructions of the program Pg 132, a segmentation and a labeling of the flow (134) of input data using Markov strings concealed, so as to obtain an input signal (134) segmented into segments (135) of differentiated and categorized data, for example according to the classes C1 and C2.

Un tel dispositif comprend en outre tous les moyens structurels de mise en œuvre du procédé de segmentation et de labellisation d'un signal d'entrée, tel que cité précédemment, lesquels ne sont pas détaillés ici.Such a device further comprises all the structural means for implementing the method of segmentation and labeling of an input signal, as mentioned above, which are not detailed here.

5. Liste des figures5. List of figures

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel de l'invention, donné à titre d'exemple illustratif et non limitatif, faite en référence aux dessins annexés parmi lesquels :Other features and advantages of the invention will appear more clearly on reading the following description of a preferred embodiment of the invention, given by way of illustrative and nonlimiting example, with reference to the appended drawings. which :

- la figure 1, déjà décrite en description de l'art antérieur, donne un exemple de segmentation d'un flux audio en deux classes Parole/Musique ;FIG. 1, already described in the description of the prior art, gives an example of segmentation of an audio stream into two Word / Music classes;

- la figure 2, également déjà décrite relativement à l'art antérieur donne un exemple de topologie d'un modèle de Markov caché à trois états ; - la figure 3, déjà décrite précédemment, présente un organigramme du procédé de génération des modèles de deux classes de données connu de l'art antérieur ;FIG. 2, also already described in relation to the prior art, gives an example of a topology of a hidden Markov model with three states; FIG. 3, already described above, presents a flowchart of the method for generating models of two data classes known from the prior art;

- la figure 4, également déjà décrite, donne un exemple de chaînes de Markov cachées obtenues pour deux classes de données, en sortie du procédé de la figure 3 ;FIG. 4, also already described, gives an example of hidden Markov chains obtained for two classes of data, at the output of the method of FIG. 3;

- la figure 5, aussi déjà discutée ci-avant, illustre le principe général adopté pour la segmentation et la reconnaissance de données classifiées par application de l'algorithme de Viterbi sur des modèles de chaînes de Markov cachées, selon l'art antérieur ; - la figure 6 présente le principe d'extraction des descripteurs des trames du signal d'entrée par calcul de la moyenne et variance du flux spectral, selon l'invention ;FIG. 5, already already discussed above, illustrates the general principle adopted for the segmentation and recognition of classified data by application of the Viterbi algorithm on hidden Markov chain models, according to the prior art; FIG. 6 presents the principle of extracting the descriptors of the frames of the input signal by calculating the mean and variance of the spectral flux, according to the invention;

- la figure 7 donne un exemple de la répartition des moyennes et variances obtenues pour les classes « musique » et « parole » avec le procédé selon l'invention ;FIG. 7 gives an example of the distribution of the means and variances obtained for the "music" and "speech" classes with the method according to the invention;

- les figures 8.1 à 8.3 présentent respectivement un exemple de nuage de gaussiennes labellisées pour deux classes parole et musique, la répartition des gaussiennes résultants de l'application de l'algorithme VQ+EM selon l'art antérieur et, la répartition des gaussiennes obtenues pour ce même nuage de points, au moyen du procédé selon l'invention ;FIGS. 8.1 to 8.3 respectively show an example of a Gaussian cloud labeled for two speech and music classes, the distribution of Gaussian results resulting from the application of the VQ + EM algorithm according to the prior art and, the distribution of the Gaussians obtained for this same cloud of points, by means of the method according to the invention;

- la figure 9 illustre le principe de création de l'histogramme de répartition des gaussiennes par discrétisation de l'espace 2, selon l'invention ;FIG. 9 illustrates the principle of creating the Gaussian distribution histogram by discretization of the space 2, according to the invention;

- la figure 10 décrit le principe d'élagage des points du nuage de gaussiennes labellisées par détection des voisins immédiats ;FIG. 10 describes the principle of pruning the points of the Gaussian cloud labeled by detection of the immediate neighbors;

- la figure 11 donne un exemple de création des chaînes de Markov pour les modèles Parole et Musique, au moyen du procédé selon l'invention ; - la figure 12 rappelle le principe général de fonctionnement du procédé selon l'invention ;FIG. 11 gives an example of creation of the Markov chains for the Word and Music models, by means of the method according to the invention; - Figure 12 recalls the general principle of operation of the method according to the invention;

- la figure 13, déjà décrite précédemment présente la structure d'un dispositif de segmentation et de reconnaissance selon l'invention.FIG. 13, already described above, shows the structure of a segmentation and recognition device according to the invention.

6. Description d'un mode de réalisation préféré de l'invention La présente invention concerne donc un procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, dont les différentes étapes sont décrites ci-dessous pour un mode de réalisation préférée de l'invention. Dans la suite, nous expliciterons chaque partie en illustrant par un exemple d'utilisation dans le cadre d'un système de segmentation parole/musique basé sur le calcul du flux spectral dans un signal audio d'entrée.DESCRIPTION OF A PREFERRED EMBODIMENT OF THE INVENTION The present invention thus relates to a method for segmenting and labeling the content of an input signal (141) in the form of a continuous data stream. undifferentiated input, according to at least two predefined data classes, the different steps of which are described below for a preferred embodiment of the invention. In the following, we will explain each part by illustrating by an example of use in the context of a speech / music segmentation system based on the calculation of the spectral flow in an input audio signal.

Une première étape du procédé selon l'invention concerne la segmentation du signal audio en trames avec ou sans recouvrement et en l'extraction d'un ou de plusieurs descripteurs pour chacune des trames.A first step of the method according to the invention relates to the segmentation of the audio signal into frames with or without overlap and the extraction of one or more descriptors for each of the frames.

Préférentiellement, un calcul de la moyenne et de la variance du ou des descripteurs extraits sur un ensemble de P trames adjacentes est ensuite réalisé.Preferably, a calculation of the average and the variance of the descriptor (s) extracted on a set of P adjacent frames is then carried out.

D'autres paramètres calculés sur les descripteurs peuvent bien évidemment être envisagés. Le flux audio est préférentiellement segmenté en segments de 32 millisecondes et on calcule pour chacun de ces segments le flux spectral qui correspond à la somme « bin » fréquentiel par « bin » fréquentiel de la valeur absolue de la différence entre deux spectres d'amplitude consécutifs.Other parameters calculated on the descriptors can of course be considered. The audio stream is preferentially segmented into segments of 32 milliseconds and for each of these segments the spectral stream corresponds to the frequency "bin" sum by "bin" frequency of the absolute value of the difference between two consecutive amplitude spectra.

A partir des valeurs instantanées du flux spectral, on en tire la moyenne et la variance sur des segments d'1 seconde (32 valeurs de flux spectral instantané). Les couples (moyenne, variance) ainsi obtenus sont représentés à titre illustratif au travers la figure 7.From the instantaneous values of the spectral flux, we derive the mean and the variance on segments of 1 second (32 values of instantaneous spectral flux). The pairs (average, variance) thus obtained are represented by way of illustration through FIG.

Dans une deuxième étape du procédé selon l'invention, on réalise une affectation du ou des descripteurs calculés pour chacune des trames sélectionnées à deux classes de données à modéliser, par exemple du type classe parole et classe musique, lorsque l'on cherche à distinguer entre données parole et données musique d'un signal d'entrée audio.In a second step of the method according to the invention, an assignment of the calculated descriptor (s) for each of the selected frames to two classes of data to be modeled, for example of the speech class and music class type, is carried out, when one seeks to distinguish between speech data and music data of an audio input signal.

Cette deuxième étape s'effectue au moyen d'un apprentissage supervisé, sur la base d'au moins un corpus audio d'apprentissage contenant des données réelles. Les données d'apprentissage utilisées sont des fichiers contenant les données numériques relatives au paramètre du flux spectral, calculées à partir des fichiers audio.This second step is done through supervised learning, based on at least one audio learning corpus containing real data. The training data used are files containing the digital data relating to the parameter of the spectral stream, calculated from the audio files.

Une fois toutes les moyennes et variances du flux calculées, on affecte ces descripteurs aux 2 classes à modéliser. Le corpus d'apprentissage est ici composé de deux heures de musique et de deux heures de parole. Tous les descripteurs extraits des données de musique sont ainsi affectés à la classe « musique » et tous les descripteurs extraits des données de parole sont affectés à la classe « parole ».Once all the averages and variances of the flow computed, we assign these descriptors to the 2 classes to be modeled. The body of learning here consists of two hours of music and two hours of speech. All the descriptors extracted from the music data are thus assigned to the "music" class and all the descriptors extracted from the speech data are assigned to the "speech" class.

Une troisième étape du procédé selon l'invention concerne l'apprentissage des différents paramètres des états des chaînes de Markov cachées à partir des données d'apprentissage. Cette phase d'apprentissage se déroule en deux sous étapes, à savoir :A third step of the method according to the invention relates to the learning of the different parameters of the states of hidden Markov chains from the training data. This learning phase takes place in two sub-steps, namely:

- la création d'un histogramme par discrétisation de l'espace 2D- the creation of a histogram by discretization of the 2D space

(moyenne et variance) par application d'un pas de discrétisation choisi arbitrairement ou bien selon au moins un critère de précision préalablement déterminé, puis la labellisation par vote majoritaire de chacune des cases de l'histogramme en comparant le nombre de couples (moyenne, variance) de chacune des classes appartenant à cette case. On obtient ainsi un nuage de points labellisés, tel qu'illustré sur la figure 9 ; puis(average and variance) by applying a discretization step chosen arbitrarily or according to at least one precision criterion previously determined, then labeling by majority vote of each of the cells of the histogram by comparing the number of pairs (average, variance) of each of the classes belonging to this box. A cloud of labeled points is thus obtained, as illustrated in FIG. 9; then

- la sélection de N couples pertinents (moyenne, variance) de la première classe et de M couples pertinents de la seconde classe du nuage de points labellisé précédent. Les (N+M) couples pertinents désignant ici les points proches de la frontière entre les deux classes.the selection of N relevant pairs (mean, variance) of the first class and of M relevant pairs of the second class of the preceding labeled point cloud. The (N + M) relevant pairs here designate the points close to the boundary between the two classes.

Optionnellement, l'étape précitée de sélection des couples pertinents peut s'effectuer par la mise en œuvre d'un algorithme dit d' « élagage », dont le principe consiste à ne conserver que les points qui comportent au moins un point d'une autre classe dans son voisinage immédiat.Optionally, the aforementioned step of selecting the relevant pairs can be carried out by the implementation of an algorithm called "pruning", the principle of which consists in keeping only the points which comprise at least one point of a another class in its immediate vicinity.

L'objectif de cette procédure d'élagage est de supprimer des gaussiennes jugées inutiles (c'est-à-dire éloignées de la frontière) dans l'espace à deux dimensions ici considéré. C'est également dans cette partie que le nombre de gaussiennes pour obtenir le nombre de couples souhaité peut être limité pour économiser en temps de calcul, lorsque nécessaire.The purpose of this pruning procedure is to remove Gaussians that are considered unnecessary (that is, far from the border) in the two-dimensional space considered here. It is also in this part that the number of Gaussians to obtain the desired number of couples can be limited to save in computing time, when necessary.

Dans cet exemple, on garde M=N=64 gaussiennes pour modéliser la classe « parole » et la classe « musique ». On obtient ainsi les couples résultants représentés en bas de la figure 8.3.In this example, we keep M = N = 64 Gaussians to model the class "speech" and the class "music". The resultant pairs are shown at the bottom of Figure 8.3.

Une quatrième étape du procédé selon l'invention vise ensuite à créer N chaînes de Markov cachées à P états modélisant la classe Cl, les P états de chacune des chaînes de Markov cachées étant constitué d'une des N gaussiennes (couple moyenne, variance) déterminées lors de l'étape précédente et à créer M chaînes de Markov cachées à P états modélisant la classe C2, les P états de chacune des chaînes de Markov cachées étant constitué d'une des M gaussiennes (couple moyenne, variance) également déterminées lors de l'étape précédente.A fourth step of the method according to the invention is then aimed at creating N hidden Markov chains at P states that model the Cl class, the P states of each of the hidden Markov chains consisting of one of the Gaussian Ns (mean torque, variance). determined in the previous step and to create M hidden Markov chains at P states modeling the C2 class, the P states of each hidden Markov chains being made up of one of the Gaussian Ms (mean torque, variance) also determined during from the previous step.

Optionnellement, il est possible de ne construire que N' (l≤N'≤ N) chaînes de Markov cachées pour modéliser la classe 1 et M' (l≤M'≤ M) chaînes de Markov cachées pour modéliser la classe 2.Optionally, it is possible to construct only N '(l≤N'≤ N) hidden Markov chains to model class 1 and M' (l≤M'≤ M) hidden Markov chains to model class 2.

Tous les états des chaînes de Markov cachées de la classe 1 étant alors constitués de mélanges des N gaussiennes sélectionnées à l'étape de sélection et tous les états des chaînes de Markov cachées de la classe 2 étant constitués de mélanges des M gaussiennes sélectionnées à l'étape de sélection également.All states of the hidden Markov chains of class 1 then consist of mixtures of the Gaussian Ns selected at the selection stage and all the states of the hidden Markov chains of class 2 consisting of mixtures of the Gaussian M selected at the selection stage as well.

Chacune des classes « parole » et « musique » est modélisée respectivement par 64 et 64 chaînes de Markov cachées à P=32 états, dans l'exemple présenté.Each of the classes "speech" and "music" is modeled respectively by 64 and 64 Markov chains hidden at P = 32 states, in the example presented.

Les P états d'une même chaîne de Markov cachée étant constitué de chacune des gaussiennes déterminées lors de la troisième étape.The P states of the same hidden Markov chain consisting of each Gaussian determined in the third step.

Pour chaque classe, à partir de chaque gaussienne G[i] (l≤i<64) conservée, on créé une chaîne de Markov cachée contenant autant d'états re-bouclants que d'éléments utilisés dans le calcul de moyennes et variances.For each class, from each Gaussian G [i] (l≤i <64) conserved, we create a hidden Markov chain containing as many re-looping states as elements used in the calculation of means and variances.

Tous les états de cette chaîne émettent leur probabilité suivant la loi de la gaussienne G[i]. Un exemple de création de 64 chaînes de Markov pour le modèle « parole » et de 64 chaînes de Markov pour le modèle « musique », comme illustré sur la figure 11. Enfin, une cinquième étape du procédé selon l'invention consiste à réaliser la segmentation et la labellisation du flux audio à l'aide des chaînes de Markov cachées créées à l'étape de création des chaînes de Markov cachées, par utilisation d'un algorithme permettant de déterminer l'alignement optimal d'une forme acoustique sur un modèle de Markov. L'algorithme le mieux adapté est l'algorithme de Viterbi.All the states of this chain emit their probability according to the law of the Gaussian G [i]. An example of creating 64 Markov chains for the "speech" model and 64 Markov chains for the "music" model, as illustrated in FIG. 11. Finally, a fifth step of the method according to the invention consists in carrying out the Segmentation and labeling of the audio stream using the hidden Markov strings created in the step of creating hidden Markov chains, using an algorithm to determine the optimal alignment of an acoustic form on a model of Markov. The most suitable algorithm is the Viterbi algorithm.

Cette procédure est illustrée figure 12 ou Cl et C2 désignent les classes parole et musique.This procedure is illustrated in Figure 12 where C1 and C2 designate the speech and music classes.

Pour expérimenter et valider l'amélioration sensible des performances de ce nouveau procédé de segmentation et de labellisation suivant des classes de données préalablement modélisées, un corpus d'apprentissage composé de deux heures de musique instrumentale indexées manuellement en « musique » et de deux heures de parole indexées manuellement en « parole » a été utilisé.To test and validate the significant improvement in performance of this new segmentation and labeling process according to previously modeled data classes, a learning corpus composed of two hours of instrumental music indexed manually in "music" and two hours of manually indexed speech in "speech" was used.

Un autre corpus, de test, composé de deux heures de musiques génériques (instruments + voix chantée), de vingt minutes de musique instrumentale (différente de celle utilisée lors de l'apprentissage) et de vingt minutes de paroleAnother test corpus, consisting of two hours of generic music (instruments + sung voice), twenty minutes of instrumental music (different from that used during learning) and twenty minutes of speech

(différente de celle utilisée lors de l'apprentissage) a également été utilisé. Les performances obtenues en termes d'exécution de procédé selon l'invention ont été calculées en mesurant, sur le corpus de tests, les segments temporels mal indexés par rapport au temps total des séquences, sur la base d'un taux d'erreur calculé comme suit :(different from that used during learning) was also used. The performances obtained in terms of method execution according to the invention were calculated by measuring, on the body of tests, the poorly indexed temporal segments with respect to the total time of the sequences, on the basis of a calculated error rate. as following :

_: t_errer (spββch) + t_error (mUSÎc) _: _err (spββch) + t _error (mUSÎc)

Erreur = 100 * -Error = 100 * -

• total où t_error {speech) représente la durée totale des segments indexés « speech » sur des segments correspondant en fait à de la musique et où t_aror(music) représente la durée totale des segments indexés « music » sur des segments correspondant en fait à de la parole.• total where t _error {speech) represents the total duration of segments indexed "speech" on segments corresponding in fact to music and where t _aror (music) represents the total duration of segments indexed "music" on segments corresponding to made to speech.

Le tableau suivant décrit les deux systèmes testés.The following table describes the two systems tested.

Grâce à ce nouveau procédé de segmentation en deux classes, on améliore ainsi les performances de manière sensible, relativement aux techniques connues de l'art antérieur. Thanks to this new segmentation process in two classes, the performance is thus significantly improved, relative to the techniques known from the prior art.

Claims

A method of segmenting and labeling the contents of an input signal (141) in the form of a continuous stream of undifferentiated input data, according to at least two predefined data classes, comprising:

a first step (141) of segmenting said input signal (140) in the form of a plurality of frames of predetermined length, and extracting at least two description data from the analysis of each said frames; a second step (142) for assigning said at least two description data extracted from a set of P adjacent frames selected for said input signal (140) to at least one of said data classes to be modeled, by supervised learning implementing at least one predetermined set of training data (146); characterized in that it further comprises:

a third step (143) of learning a set of predetermined parameters for creating a plurality of state-transition state machine-transitions of each of said data classes, from said at least one corpus (146) of predetermined learning data, said third learning step (143) comprising at least:

a substep (142i) for creating a cloud (80) of points labeled and distributed according to the said at least two classes (81), 82) of data to be modeled, in a space of at least two dimensions (83) , (84) respectively defined by at least two calculated data (85), (86) of description of each of said extracted frames;

a substep (142 ₂ ) for selecting a first subset of points of said labeled cloud belonging to the first of said at least two classes to be modeled and a second subset of labeled points belonging to the second of said classes; at least two classes to be modeled, said first and second subsets of points being selected from the points of said cloud (80) of labeled points located in the vicinity of the boundary (87) separating said at least two classes (81), (82) to be modeled;

a fourth step (144) for creating at least N state-transition state automata comprising P states for modeling the first of said at least two data classes, and at least M state-transitions including P states for modeling the second of said at least two data classes, so as to create at least two classes of modeled data representative of the data contained in said input signal;

a fifth step (145) of segmentation and labeling of said input stream according to said at least two classes of modeled data, based on said at least N and M state-transitioned automata; to segment said input signal (140) into differentiated and categorized data segments (147).

2. A method of segmentation and labeling of the content of an input signal according to claim 1, characterized in that said substep (142i) for creating a cloud (80) labeled points and distributed according to said at at least two classes (81), (82) of data to be modeled is a substep of: - creating a histogram (90) obtained by discretizing said space to at least two dimensions, by means of a step (91) of discretization previously determined according to at least one criterion of accuracy and,

- labeling (92χ) (92 ₂ ) (92 ₃ ) (92 ₄ ) (92 ₅ ) (92 ₆ ) of each box (93) of said histogram (90) by one of said at least two classes (81) ( 82) having the greatest number of points in said box considered.

3. Segmentation and labeling process of the content of an input signal according to any one of claims 1 and 2, characterized in that said substep (142 ₂ ) selection is a substep of pruning (101) points (102) of said cloud (80) not being located in the vicinity (87) of the boundary separating said at least two classes (81) (82) to be modeled, said pruning step (lO1) consisting of in only one of said at least two classes (81) having at least one point in its immediate neighborhood (104) belonging to another of said at least two classes.

4. Segmentation and labeling process of the content of an input signal according to any one of claims 1 to 3, characterized in that said fifth step (145) of segmentation and labeling of said input stream A Viterbi algorithm (120) is used to determine the optimal alignment of the shape of said input stream (121) on models formed by said state - transition state machines.

5. Segmentation and labeling process of the content of an input signal according to any one of claims 1 to 4, characterized in that each of said at least two classes (81) (82) of data is modeled by a plurality of state - transitions (110) (111) of the hidden Markov chains type, each state of which consists of at least one Gaussian (HO ₁ , ..., HOi) (H l ₁ , ... , lll _j ) and each transition (112) defines a level of probability of crossing a current state to another state or to the same state of one of said hidden Markov chains.

6. A method of segmentation and labeling of the content of an input signal according to any one of claims 1 to 5, characterized in that said input signal (60) is in the form of a continuous stream. of undifferentiated input data of the speech and music type, said at least two modeled classes are respectively of the speech class and music class type, and in that said at least two description data are of the average type (61) and the variance (62). ) calculated from a plurality of instantaneous spectral streams (63) respectively associated with each of said frames of said plurality of frames of predetermined length, said spectral streams (63) being derived from said analysis of each of said frames.

7. A method of segmentation and labeling of the content of an input signal according to claims 5 and 6, characterized in that said at least one Gaussian is formed of a single pair (mean, variance) (61, 62) calculated for all of said P frames of predetermined length.

Process for segmentation and labeling of the content of an input signal according to any one of Claims 5 to 7, characterized in that each of said hidden Markov chains contains at least one loopback state.

9. Computer program product downloadable from a communication network and / or recorded on a computer readable medium and / or executable by a processor characterized in that it comprises program code instructions for the execution of at at least one of the steps of the process of segmenting and labeling the contents of an input signal in the form of a continuous stream of undifferentiated input data, following at least two classes (81) (82) of data predefined, according to any one of claims 1 to 8, when said program is executed on a computer.

Apparatus for segmentation and labeling of the content of an input signal in the form of a continuous stream of undifferentiated input data, according to at least two predefined data classes, comprising: segmentation means said input signal in the form of a plurality of frames of predetermined length, and extracting at least two description data from the analysis of each of said frames;

means for assigning said at least two description data extracted from a set of P adjacent frames selected for said input signal to at least one of said data classes to be modeled, by means of supervised learning implementing at least one predetermined set of learning data; characterized in that it further comprises: - means for learning a set of predetermined parameters for creating a plurality of state machines - model transitions of each of said data classes, from said at least one a predetermined set of training data, said learning means comprising at least: means for creating a cloud of points labeled and distributed according to said at least two data classes to be modeled, in a space with at least two dimensions respectively defined by at least two computed description data of each of said extracted frames;

means for selecting a first subset of points of said labeled cloud belonging to the first of said at least two classes to be modeled and of a second subset of labeled points belonging to the second of said at least two classes to be modeled said first and second subsets of points being selected from the points of said cloud of labeled points located in the vicinity of the boundary separating said at least two classes to be modeled;

means for creating at least N state-transition automata comprising P states for modeling the first of said at least two data classes, and at least M state-transition automata comprising P states for the modeling of the second of the at least two classes of data, so as to create at least two classes of modeled data representative of the data contained in said input signal;

means for segmenting and labeling said input stream according to said at least two classes of modeled data, based on said at least N and M state-transitioned automata; to segment said input signal into differentiated and categorized data segments.