WO2007003505A1 - Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées. - Google Patents
Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées. Download PDFInfo
- Publication number
- WO2007003505A1 WO2007003505A1 PCT/EP2006/063363 EP2006063363W WO2007003505A1 WO 2007003505 A1 WO2007003505 A1 WO 2007003505A1 EP 2006063363 W EP2006063363 W EP 2006063363W WO 2007003505 A1 WO2007003505 A1 WO 2007003505A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- classes
- input signal
- modeled
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Definitions
- the field of the invention is that of pattern recognition and data classification.
- the invention relates to a novel technique of segmenting a given signal composed of data of different types and undifferentiated into a plurality of classified data segments following previously modeled data classes.
- the invention applies in particular, but not exclusively, to the segmentation of an audio signal into speech and music segments, and by extension, to the automated processing of audiovisual documents, or even to the indexing of sound documents. , for archival purposes for example.
- FIG. 1 An example of a segmentation of an audio stream (10) according to two classes: a speech class (15) and a music class (16) is given in FIG. 1 which illustrates a time alignment (17) of the different speech classes and music on portions or segments (11, 12, 13, 14) of the audio stream (10).
- MMGs are used to model a probability distribution by a sum of Gaussians and associate a weighted sum (mixture) of functions with each previously determined class.
- the most commonly used is the weighted sum of multidimensional Gaussian probability density functions, a Gaussian being defined as the representation of the normal law (Gaussian normal law, Laplace-Gauss law) whose density of probability is written:
- MMC Hidden Markov models
- An MMC is defined as a double stochastic process, whose first underlying stochastic process is not directly observable (the hidden process) and whose second stochastic process produces a sequence of observations.
- An MMC consists of a finite number of P states. At each clock tick, a new state is reached according to a transition probability distribution that depends only on the previous state (Markovian property). Note that there may be transitions from a state to itself, which defines the notion of re-looping a state on itself. Thus, following the crossing of a transition of a hidden Markov model, an observation is emitted according to a probability distribution which depends on the current state situated upstream of the transition.
- each state 20, 21 and 22 contains a Gaussian mixture model (MMG) respectively denoted MMG1, MMG2. and MMG3.
- MMG Gaussian mixture model
- the evolution of the MMC is carried out by crossing the P 12 or P 23 transitions, for the passage of a first state to another state of the MMC, or by re-looping on the current state, by crossing the P 11 transitions. , P 22 or P 33 , in the example given.
- the reader can refer to the doctoral thesis realized in 2004 by J. PESfQUIER at the IT research institute of Jardin entitled “Sound indexing: research of primary components for an audiovisual structuring" .
- GAM Gaussian law mix model
- FIG. 3 is a flowchart for outputting two Markov chains (as shown in FIG. 4) modeling classes 1 and 2;
- the first step of the method for estimating the parameters of the MMGs known from the prior art is a step (31) of extracting descriptors from the input audio signal (30).
- a large collection of descriptors is used in the literature, among which, the modulation of energy at 4 Hz, the percentage of frames of the low energy signal, the "Spectral Rolloff Point" (English terminology commonly accepted by the technical community of the field ), the spectral centroid, the spectral flux.
- a second step of the method for estimating MMG parameters according to the prior art is a step (32) of the allocation descriptors of extracts to the different classes to be modeled (Cl class (32i) and class C2 (32 2) in the example).
- This second step (32) is facilitated by labeling (33i) (33 2 ), the most often manual of each class C1 and C2 to model, as shown in Figure 3.
- a third step of the method for estimating the parameters of the MMGs according to the prior art comprises in particular a step (34) for learning the parameters of the Gaussian law mixture models from the training data.
- This step (34 ls 34 2 ) of learning takes place in two sub-steps: the first (35 ls 35 2 ) is an initialization of the model by vector quantization, for example based on the algorithm LBG described in the article Y LINDE, A. BUZO, RM GRAY: "An algorithm for vector quantizer", IEEE Trans on Corn.,
- the second sub-step (3 O 1 , 362) is an optimization of the mixing parameters (Gaussian averages and variances) by the classical EM algorithm
- a set of Gaussian mixing models defining respectively in a fourth step the states of a hidden Markov chain (37) modeling the Cl class and a Markov chain (38) respectively. hidden model C2, as shown in Figure 4.
- each of the classes (37) (38) of searched segments is modeled by a hidden Markov chain with several states (37). ls ... 37k + i) and (38 15 ... 38 1 + 1 ), respectively, each state (37 ls ... 37k + i) and (38 l5 ... 38 1 + 1 ) consisting of MMG learned at the stage (34 ls 34 2 ) of learning, as described in J. AJMERA, I. McCOWAN, H. BOURLARD, "Speech / Music segmentation using entropy and dynamism features in a HMM classification framework", Speech communication - Elsevier - 2003.
- a last and fifth step consists in segmenting and recognizing C2 Clet classes modeled on the input audio signal (50). This last step is carried out by application of the algorithm (51) of
- Viterbi on hidden Markov chains (37) (38), the latter allowing determine the optimal alignment of the acoustic form of the signal on one of Markov's two models (37) (38), that is, to determine the path in one of the hidden Markov chains that leads to the most high probability of transmitting the data form considered (speech (52) or music (53), for example).
- a major disadvantage of the prior art lies in the "dispersive" behavior induced by the learning step and its sub-stages of initialization of the model by vector quantization, and optimization of the parameters of the mixture (means and variances of the Gaussian) by the classical EM algorithm, noted VQ + EM in the following. As illustrated in the diagram in FIG.
- each point of FIG. 8.2 representing the distribution of the Gaussian obtained on the segments of the input audio signal by the application of the VQ + EM algorithm.
- the invention particularly aims to overcome these various disadvantages of the state of the art.
- an object of the invention is to provide a technique that is more reliable in terms of the result and quality of segmentation of a signal input in the form of a set of undifferentiated data and recognition of the class of data to which each segment of the input signal belongs.
- Another object of the invention is to provide such a technique which is therefore particularly efficient in terms of discrimination between speech segments and music segments, from an input signal in the form of a stream of speech. undifferentiated music and speech data.
- a further object of the invention is to propose a new technique that is more economical in terms of computing time for segmentation and recognition, and therefore better suited to application areas requiring the processing of large volumes of data.
- a final objective of the invention is to provide a new technique of segmentation and classification of data of different types contained in an undifferentiated input data stream, which is simple and inexpensive in terms of implementation.
- Such a method according to the invention also advantageously comprises: a third step (143) for learning a set of predetermined parameters for creating a plurality of state-machine transitions for modeling each of the data classes, starting from at least one corpus (146) predetermined learning data; a fourth step (144) for creating at least N state-transition state automata comprising P states for modeling the first of said at least two data classes, and at least M state-transitions including P states for modeling the second of said at least two data classes, so as to create at least two classes of modeled data representative of the data contained in the input signal;
- the parameters N and M are chosen such that: N> 1 and / or M> 1.
- the third learning step (143) comprises at least:
- the sub-step (142i) of creating a cloud (80) of points labeled and distributed according to at least the two classes (81), (82) of data to be modeled is a substep:
- the sub-step (142 2 ) of selection is a sub-step of pruning (101) points (102) of the cloud (80) not being located in the vicinity (87) of the boundary separating the least two classes (81) (82) to be modeled.
- the pruning step (101) then consists in keeping in each of the cells of the histogram only the points (103) belonging to at least one of the two classes (81) 82) and comprising at least one point in its immediate neighborhood (104) belonging to another of said at least two classes, as illustrated in Figure 10.
- the proposed invention is therefore not content, as in prior art techniques, with modeling each class of data separately, but jointly, by focusing more on the Gaussian class boundaries, without having to model the interior any more. of the class but only its periphery according to the adjacent classes, which saves significantly in computation time and quality of result.
- the fifth step (145) of segmentation and labeling of the input stream implements a Viterbi algorithm (120) to determine the optimal alignment of the shape of the input stream (121) on the models formed by state-based automata - transitions.
- each of the two classes (81) (82) of data (at least) is modeled by a plurality of state-transitions (110) (111) of the hidden Markov chains type, each state of which consists of at least one Gaussian (HO 1 , ..., HOi) (H l 1 , ..., 11 I j ) and of which each transition (112) defines a level of probability of crossing a current state to another state or to the same state of a hidden Markov chains.
- the input signal (60) being in the form of a continuous stream of undifferentiated input data of the speech and music type
- the two modeled classes are respectively of the speech class and music class type, respectively.
- At least two description data then being of the average type (61) and variance (62) calculated from a plurality of instantaneous spectral streams (63) respectively associated with each of the frames of the plurality of frames of predetermined length, the streams (63) spectral being derived from the analysis of each of the frames.
- At least one Gaussian is formed of a single pair (average, variance) (61, 62) calculated for all the P frames of predetermined length.
- each of the hidden Markov chains contains at least one re-looping state.
- the invention also advantageously relates to a computer program product downloadable from a communication network and / or recorded on a computer readable medium and / or executable by a processor.
- such a program advantageously comprises program code instructions for the execution of the steps of the method, as mentioned above, of segmentation and labeling of the content of an input signal in the form of a continuous stream of undifferentiated input data according to at least two classes (81) (82) of predefined data, when said program is run on a computer.
- the invention also advantageously relates to a device for segmenting and labeling the content of an input signal in the form of a continuous stream of undifferentiated input data, according to at least two predefined data classes, comprising: means for segmenting the input signal in the form of a plurality of frames of predetermined length, and for extracting at least two description data from the analysis of each of the frames;
- such a device further comprises: means for learning a set of predetermined parameters for creating a plurality of state-machine-modeling transitions of each of the data classes, starting from at least one predetermined training data corpus;
- FIG. 13 shows the structure of a segmentation and labeling device according to the invention, which comprises a memory M (130), and a processing unit (131) equipped with a microprocessor ⁇ P, which is controlled by the Computer program Pg 132.
- the processing unit 131 receives (133) as input a stream (134) of undifferentiated data, from which the microprocessor ⁇ P realizes, according to the instructions of the program Pg 132, a segmentation and a labeling of the flow (134) of input data using Markov strings concealed, so as to obtain an input signal (134) segmented into segments (135) of differentiated and categorized data, for example according to the classes C1 and C2.
- Such a device further comprises all the structural means for implementing the method of segmentation and labeling of an input signal, as mentioned above, which are not detailed here.
- FIG. 1 already described in the description of the prior art, gives an example of segmentation of an audio stream into two Word / Music classes
- FIG. 2 also already described in relation to the prior art, gives an example of a topology of a hidden Markov model with three states
- FIG. 3 already described above, presents a flowchart of the method for generating models of two data classes known from the prior art;
- FIG. 4 also already described, gives an example of hidden Markov chains obtained for two classes of data, at the output of the method of FIG. 3;
- FIG. 5 already already discussed above, illustrates the general principle adopted for the segmentation and recognition of classified data by application of the Viterbi algorithm on hidden Markov chain models, according to the prior art
- FIG. 6 presents the principle of extracting the descriptors of the frames of the input signal by calculating the mean and variance of the spectral flux, according to the invention
- FIG. 7 gives an example of the distribution of the means and variances obtained for the "music" and "speech" classes with the method according to the invention
- FIGS. 8.1 to 8.3 respectively show an example of a Gaussian cloud labeled for two speech and music classes, the distribution of Gaussian results resulting from the application of the VQ + EM algorithm according to the prior art and, the distribution of the Gaussians obtained for this same cloud of points, by means of the method according to the invention;
- FIG. 9 illustrates the principle of creating the Gaussian distribution histogram by discretization of the space 2, according to the invention.
- FIG. 10 describes the principle of pruning the points of the Gaussian cloud labeled by detection of the immediate neighbors
- FIG. 11 gives an example of creation of the Markov chains for the Word and Music models, by means of the method according to the invention.
- Figure 12 recalls the general principle of operation of the method according to the invention;
- FIG. 13 already described above, shows the structure of a segmentation and recognition device according to the invention.
- the present invention thus relates to a method for segmenting and labeling the content of an input signal (141) in the form of a continuous data stream.
- undifferentiated input according to at least two predefined data classes, the different steps of which are described below for a preferred embodiment of the invention.
- we will explain each part by illustrating by an example of use in the context of a speech / music segmentation system based on the calculation of the spectral flow in an input audio signal.
- a first step of the method according to the invention relates to the segmentation of the audio signal into frames with or without overlap and the extraction of one or more descriptors for each of the frames.
- a calculation of the average and the variance of the descriptor (s) extracted on a set of P adjacent frames is then carried out.
- the audio stream is preferentially segmented into segments of 32 milliseconds and for each of these segments the spectral stream corresponds to the frequency "bin" sum by "bin” frequency of the absolute value of the difference between two consecutive amplitude spectra.
- an assignment of the calculated descriptor (s) for each of the selected frames to two classes of data to be modeled, for example of the speech class and music class type, is carried out, when one seeks to distinguish between speech data and music data of an audio input signal.
- This second step is done through supervised learning, based on at least one audio learning corpus containing real data.
- the training data used are files containing the digital data relating to the parameter of the spectral stream, calculated from the audio files.
- a third step of the method according to the invention relates to the learning of the different parameters of the states of hidden Markov chains from the training data. This learning phase takes place in two sub-steps, namely:
- N relevant pairs (mean, variance) of the first class and of M relevant pairs of the second class of the preceding labeled point cloud.
- the (N + M) relevant pairs designate the points close to the boundary between the two classes.
- the aforementioned step of selecting the relevant pairs can be carried out by the implementation of an algorithm called "pruning", the principle of which consists in keeping only the points which comprise at least one point of a another class in its immediate vicinity.
- This pruning procedure is to remove Gaussians that are considered unnecessary (that is, far from the border) in the two-dimensional space considered here. It is also in this part that the number of Gaussians to obtain the desired number of couples can be limited to save in computing time, when necessary.
- a fourth step of the method according to the invention is then aimed at creating N hidden Markov chains at P states that model the Cl class, the P states of each of the hidden Markov chains consisting of one of the Gaussian Ns (mean torque, variance). determined in the previous step and to create M hidden Markov chains at P states modeling the C2 class, the P states of each hidden Markov chains being made up of one of the Gaussian Ms (mean torque, variance) also determined during from the previous step.
- N '(l ⁇ N' ⁇ N) hidden Markov chains to model class 1
- M' (l ⁇ M' ⁇ M) hidden Markov chains to model class 2.
- All states of the hidden Markov chains of class 1 then consist of mixtures of the Gaussian Ns selected at the selection stage and all the states of the hidden Markov chains of class 2 consisting of mixtures of the Gaussian M selected at the selection stage as well.
- a fifth step of the method according to the invention consists in carrying out the Segmentation and labeling of the audio stream using the hidden Markov strings created in the step of creating hidden Markov chains, using an algorithm to determine the optimal alignment of an acoustic form on a model of Markov.
- the most suitable algorithm is the Viterbi algorithm.
- test corpus consisting of two hours of generic music (instruments + sung voice), twenty minutes of instrumental music (different from that used during learning) and twenty minutes of speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
L'invention concerne un procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, permettant de segmenter le signal (140) d'entrée en segments (147) de données différenciées et catégorisées, à partir d'un corpus de données d'apprentissage.
Description
Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées
1. Domaine de l'invention
Le domaine de l'invention est celui de la reconnaissance de formes et de la classification de données.
Plus précisément, l'invention concerne une nouvelle technique de segmentation d'un signal donné composé de données de différents types et indifférenciées, en une pluralité de segments de données classifiés suivants des classes de données préalablement modélisées.
L'invention s'applique notamment, mais non exclusivement, à la segmentation d'un signal audio en segments de parole et de musique, et par extension, au traitement automatisé de documents audiovisuels, ou bien encore, à l'indexation de documents sonores, dans un objectif d'archivage par exemple.
Un exemple de mise en œuvre et d'application de l'invention sont donnés dans la suite de ce document, pour un système de segmentation parole musique dont le but est de segmenter un signal audionumérique en segments de taille variable et de labelliser chacun des segments détectés en fonction de leur contenu : parole ou musique.
2. État de la technique
Un exemple de segmentation d'un flux (10) audio suivant deux classes : une classe parole (15) et une classe musique (16), est donné à la figure 1 qui illustre un alignement dans le temps (17) des différentes classes parole et musique sur des portions ou segments (11, 12, 13, 14) du flux (10) audio.
Il s'agit en effet, à l'intérieur d'un signal de données d'entrée indifférenciées mixant parole et musique, sur une durée donnée, d'identifier et de distinguer sur l'ensemble du signal les segments concernant de la parole et ceux concernant de la musique. On connaît de l'art antérieur, des technique de segmentation suivant au moins deux classes distinctes, permettant de distinguer sur un signal d'entrée les segments de parole des segments de musique.
Ces techniques de l'art antérieur mettent en œuvre pour la segmentation des algorithmes basés sur des modèles de mélanges de gaussiennes (ou MMG) et ou des modèles de Markov caché (ou MMC), dont nous rappelons ici respectivement les grands principes, de façon à faciliter le compréhension de la suite de ce document.
2.1 Les modèles de mélanges de gaussiennes (MMG) Les MMG permettent de modéliser une distribution de probabilité par une somme de gaussiennes et associent une somme pondérée (mixture) de fonctions à chaque classe préalablement déterminée. La plus communément utilisée est la somme pondérée de fonctions de densités de probabilité gaussiennes multidimensionnelles, une gaussienne étant définie comme la représentation de la loi normale (ou loi normale gaussienne, loi de Laplace-Gauss) dont la densité de probabilité s'écrit :
- m est la moyenne ;
- σ l'écart-type (la variance utilisée dans la suite de la description correspond à l'élévation au carré de l'écart-type, elle sera notée : σ 2). 2.2 Les modèles de Markov cachés (MMC)
Les modèles de Markov cachés (MMC ou HMM en Anglais, pour « Hidden Markov Models ») sont régulièrement utilisés dans des domaines tels que la reconnaissance de parole, l'analyse de séquences biologiques ou celui de la recherche d'information textuelle ou musicale, et plus généralement pur la segmentation de signaux.
Un MMC se définit comme un double processus stochastique, dont un premier processus stochastique sous-jacent n'est pas directement observable (le processus caché) et dont le deuxième processus stochastique produit une séquence d'observations. Un MMC est constitué d'un nombre fini d'états P.
A chaque top d'horloge, un nouvel état est atteint suivant une distribution de probabilité de transition qui ne dépend que de l'état précédent (propriété markovienne). Notons qu'il peut y avoir des transitions d'un état vers lui- même, ce qui définit la notion de re-bouclage d'un état sur lui-même. Ainsi, suite au franchissement d'une transition d'un modèle de Markov caché, une observation est émise suivant une distribution de probabilité qui dépend de l'état courant situé en amont de la transition.
Un exemple de topologie d'un MMC à 3 états 20, 21, 22 est donné au travers la figure 2. Sur cette figure, chaque état 20, 21 et 22 contient un modèle de mélange de gaussienne (MMG) respectivement noté MMGl, MMG2 et MMG3.
L'évolution du MMC s'effectue par franchissement des transitions P12 ou P23, pour le passage d'un premier état vers un autre état du MMC, soit par re-bouclage sur l'état courant, par franchissement des transitions P11, P22 ou P33, dans l'exemple donné. Pour plus de détail sur les MMC, le lecteur pourra se référer à la thèse de doctorat réalisée en 2004 par J. PESfQUIER à l'institut de recherche en informatique de Toulouse et intitulée « Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle ».
2.3 Présentation des techniques de l'art antérieur connues pour la segmentation d'un signal audio en segments de données parole et de données musique
La plupart des techniques connues de l'art antérieur pour la segmentation d'un signal audio en segments de données parole et de données musique s'appuie sur un apprentissage de modèles de mélanges de loi gaussiennes (MMG) et sur la création de chaînes de Markov cachées.
De façon répandue dans la littérature, les outils probabilistes que représentent les modèles de mélanges de gaussiennes sont couramment utilisés pour la segmentation d'un signal audio en deux classes de données distinctes, comme décrit dans l'article scientifique d'E. SCHEIRER & M. STANLEY, « Construction and évaluation of a robust multifeature speech/Music discriminator » - ICASSP 97, April 21-24, Munich, Germany, et dans la thèse de doctorat de J. PINQUIER, déjà citée au paragraphe 2.1.
Le principe général du procédé d'estimation des paramètres des MMG de deux classes de données à modéliser (notées ici Classe 1 et classe 2, dans l'exemple illustratif), utilisé dans les techniques de l'art antérieur est expliqué au travers l'organigramme de la figure 3, ce procédé permettant d'obtenir en sortie deux chaînes de Markov (tel qu'illustré sur la figure 4) modélisant les classes 1 et
2 de données, selon un procédé proposé par J. RAZICK, D. FOHR, O. MELLA, dans un article intitulé « Segmentation parole/musique pour la transcription automatique », publié dans les actes des Journées d'études sur la parole - JEP 2004, en avril 2004, à Fès, Maroc. Les chaînes de Markov cachées (MMC) ainsi obtenues pour la modélisation des classes 1 et 2 sont exploitées par la dernière étape du procédé de segmentation et de reconnaissance, laquelle met en œuvre un algorithme de Viterbi à partir des MMC obtenues, comme illustré au travers de la figure 5.
Nous décrivons ci-dessous les différentes étapes des procédés d'estimation des paramètres des MMG (figures 3 et 4) et de segmentation (figure 5), relativement aux figures 3 à 5.
La première étape du procédé d'estimation des paramètres des MMG connu de l'art antérieur est une étape (31) d'extraction de descripteurs à partir du signal (30) audio d'entrée. Une grande collection de descripteurs est utilisée dans la littérature, parmi lesquelles, la modulation de l'énergie à 4Hz, le pourcentage de trames du signal de basse énergie, le « Spectral Rolloff Point » (terminologie anglaise communément admise par la communauté technique du domaine), le centroïde spectral, le flux spectral.
D'autres descripteurs plus communément utilisés dans le domaine de la reconnaissance de la parole sont également parfois utilisés, comme par exemple les coefficients MFCC (pour « mel frequency cepstral coefficients « en anglais, ou en français « coefficients cepstral de fréquence de mels »).
Une deuxième étape du procédé d'estimation des paramètres des MMG selon l'art antérieur est une étape (32) d'affectation des descripteurs extraits aux différentes classes à modéliser (classe Cl (32i) et classe C2 (322) dans l'exemple).
Cette deuxième étape (32) est facilitée par un étiquetage (33i) (332), le plus
souvent manuel de chacune des classes Cl et C2 à modéliser, comme illustré sur la figure 3.
Une troisième étape du procédé d'estimation des paramètres des MMG selon l'art antérieur comprend notamment une étape (34) d'apprentissage des paramètres des modèles de mélanges de lois gaussiennes à partir des données d'apprentissage.
Cet étape (34ls 342) d'apprentissage se déroule en deux sous-étapes : la première (35ls 352) est une initialisation du modèle par quantification vectorielle, par exemple basée sur l'algorithme LBG décrit dans l'article Y. LINDE, A. BUZO, R.M. GRAY : "An algorithm for vector quantizer", IEEE Trans on Corn.,
January 1980, vol 28.
La seconde sous-étape (3 O1, 362) est une optimisation des paramètres du mélange (moyennes et variances des gaussiennes) par l'algorithme classique EM
(pour « Expectation Maximisation » en anglais, ou « Maximisation escomptée » en français), dont une description détaillée est donnée dans la thèse de doctorat de
J. PINQUIER, déjà citée au paragraphe 2.1.
On obtient ainsi en sortie du procédé d'estimation un ensemble de modèles de mélange de gaussienne définissant respectivement dans une quatrième étape les états d'une chaîne (37) de Markov cachée modélisant la classe Cl et d'une chaîne (38) de Markov cachée modélisant la classe C2, comme illustré sur la figure 4.
Comme illustré sur la figure 4 et de façon plus précise, chacune des classes (37) (38) de segments recherchés (segments de parole ou de musique dans l'exemple cité) est modélisée par une chaîne de Markov cachée à plusieurs états (37ls ... 37k+i) et (38l5 ... 381+1), respectivement, chaque état (37ls ... 37k+i) et (38l5 ... 381+1) étant constitué du MMG appris à l'étape (34ls 342) d'apprentissage, tel que décrit dans J. AJMERA, I. McCOWAN, H. BOURLARD, « Speech/Music segmentation using entropy and dynamism features in a HMM classification framework », Speech communication - Elsevier - 2003.
Comme illustré sur la figure 5, une dernière et cinquième étape consiste à segmenter et à reconnaître les classes Clet C2 modélisées sur le signal (50) audio d'entrée. Cette dernière étape s'effectue par application de l'algorithme (51) de
Viterbi sur les chaînes (37) (38) de Markov cachées, ce dernier permettant de
déterminer l'alignement optimal de la forme acoustique du signal sur un des deux modèles (37) (38) de Markov, c'est-à-dire de déterminer le chemin dans l'une des chaînes de Markov cachées qui conduit à la plus forte probabilité d'émission de la forme de données considérée (parole (52) ou musique (53) , par exemple). Un inconvénient majeur de la technique antérieure réside cependant dans le comportement « dispersif » induit par l'étape d'apprentissage et ses sous-étapes d'initialisation du modèle par quantification vectorielle, et d'optimisation des paramètres du mélange (moyennes et variances des gaussiennes) par l'algorithme classique EM, notées VQ+EM dans la suite. Comme illustré sur le schéma sur la figure 8.2 qui présente la dispersion des points obtenus au moyen d'un apprentissage par l'algorithme VQ+EM selon l'art antérieur, chaque point de la figure 8.2 représentant la répartition des gaussiennes obtenues sur les segments du signal audio d'entrée par l'application de l'algorithme VQ+EM. En effet, force est de constater que l'intérêt principal de l'application d'un tel algorithme d'apprentissage VQ+EM est de modéliser au mieux chaque classe de données individuellement, alors qu'un des problèmes techniques posés par la présente invention est d'identifier précisément dans un flux de données indifférenciées, les plages du flux correspondant respectivement à des classes de données bien identifiées et séparées.
D'autres inconvénients du procédé précité selon l'art antérieur concerne le surcoût en termes de temps de calcul et la qualité souvent discutable des résultats de segmentation et de reconnaissance obtenu sur le signal de données d'entrée, ces inconvénients étant dus majoritairement à l'utilisation de modèle de mélange de chaînes de Markov, et à la discrétisation vectorielle du nuage global de points représentatifs des gaussiennes labellisées des deux classes de parole et musique, tel que représenté sur le figure 8 .1.
3. Objectifs de l'invention
L'invention a notamment pour objectif de pallier ces divers inconvénients de l'état de la technique.
Plus précisément, un objectif de l'invention est de fournir une technique qui soit plus fiable en termes de résultat et de qualité de segmentation d'un signal
d'entrée se présentant sous la forme d'un ensemble de données indifférenciées et de reconnaissance de la classe de données à laquelle chaque segment du signal d'entrée appartient.
Un autre objectif de l'invention est de fournir une telle technique qui soit donc particulièrement performante en termes de discrimination entre segments de parole et segments de musique, à partir d'une signal d'entrée se présentant sous la forme d'un flux de données musique et parole indifférenciées.
Un objectif supplémentaire de l'invention consiste à proposer une nouvelle technique qui soit plus économe en termes de temps de calcul pour la segmentation et la reconnaissance, et donc mieux adaptée à des domaines d'application nécessitant le traitement de gros volumes de données.
Un dernier objectif de l'invention consiste à fournir une nouvelle technique de segmentation et de classification de données de différents types contenues dans un flux de données d'entrée indifférenciées, qui soit simple et peu coûteuse en termes de mise en œuvre.
4. Résumé de l'invention
Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints selon l'invention à l'aide d'un procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comportant :
- une première étape (141) de segmentation du signal (140) d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune des trames;
- une deuxième étape (142) d'affectation d'au moins deux données de description extraites d'un ensemble de P trames adjacentes sélectionnées pour le signal (140) d'entrée, à l'une au moins des classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus (146) de données d'apprentissage prédéterminé.
Un tel procédé selon l'invention comporte en outre avantageusement :
- une troisième étape (143) d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune des classes de données, à partir d'au moins un corpus (146) de données d'apprentissage prédéterminé ; - une quatrième étape (144) de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première desdites au moins deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième desdites au moins deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans le signal d'entrée ;
- une cinquième étape (145) de segmentation et de labellisation du flux d'entrée suivant au moins les deux classes de données modélisées, à partir au moins des N et M automates à états - transitions ; de façon à segmenter le signal (140) d'entrée en segments (147) de données différenciées et catégorisées.
Préférentiellement, les paramètres N et M sont choisis tels que : N>1 et/ou M>1.
Préférentiellement, la troisième étape (143) d'apprentissage comporte au moins :
- une sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant au moins les deux classes (81), 82) de données à modéliser, dans un espace à au moins deux dimensions (83), (84) respectivement définies par au moins deux données (85), (86) calculées de description de chacune des trames extraites ; et
- une sous-étape (1422) de sélection d'un premier sous-ensemble de points du nuage labellisés appartenant à la première des deux classes à modéliser et d'un deuxième sous-ensemble de points labellisés appartenant à la deuxième des deux classes à modéliser, le premier et deuxième sous- ensembles de points étant sélectionnés parmi les points du nuage (80) de points labellisés situés au voisinage de la frontière (87) séparant les deux classes (81), (82) à modéliser.
De façon avantageuse, la sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant au moins les deux classes (81), (82) de données à modéliser est une sous-étape :
- de création d'un histogramme (90) obtenu par discrétisation de l'espace à au moins deux dimensions, au moyen d'un pas (91) de discrétisation préalablement déterminé suivant au moins un critère de précision et,
- de labellisation (9I1) (922) (923) (924) (925) (926) de chaque case (93) de l'histogramme (90) par l'une au moins des deux classes (81) (82) possédant le plus grand nombre de points dans la case considérée. De façon préférentielle, la sous-étape (1422) de sélection est une sous- étape d'élagage (101) des points (102) du nuage (80) n'étant pas situés au voisinage (87) de la frontière séparant au moins les deux classes (81) (82) à modéliser. L'étape d'élagage (101) consiste alors à ne conserver dans chacune des cases de l'histogramme, que les points (103) appartenant à l'une au moins des deux classes (81) 82) et comportant au moins un point dans son voisinage (104) immédiat appartenant à une autre desdites au moins deux classes, comme illustré sur la figure 10.
Ainsi, grâce au procédé d'apprentissage décrit dans cette invention, la dispersion des points est beaucoup moins importante, comme illustré sur la figure 8.3, puisqu'on se concentre ici sur la frontière entre les deux classes.
L'invention proposée ne se contente donc pas comme dans les technique connues de l'art antérieur de modéliser chaque classe de données séparément, mais conjointement, en se focalisant davantage sur les gaussiennes aux frontières des classes, sans plus avoir à modéliser l'intérieur de la classe mais uniquement son pourtour en fonction des classes adjacentes, ce qui permet d'économiser sensiblement en temps de calcul et en qualité de résultat.
Préférentiellement, la cinquième étape (145) de segmentation et de labellisation du flux d'entrée met en œuvre un algorithme (120) de Viterbi pour déterminer l'alignement optimal de la forme du flux (121) d'entrée sur les modèles formés par les automates à états - transitions.
Avantageusement, chacune des deux classes (81) (82) de données (au moins) est modélisée par une pluralité d'automates à états - transitions (110) (111)
du type chaînes de Markov cachées, dont chaque état est constitué d'au moins une gaussienne (HO1,..., HOi) (H l1,..., 11 Ij) et dont chaque transition (112) définit un niveau de probabilité de franchissement d'un état courant vers un autre état ou vers le même état d'une des chaînes de Markov cachée. De façon également préférentielle, le signal (60) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées du type parole et musique, les deux classes modélisées sont respectivement du type classe parole et classe musique, les deux données de description au moins étant alors du type moyenne (61) et variance (62) calculées à partir d'une pluralité de flux (63) spectraux instantanés associés respectivement à chacune des trames de la pluralité de trames de longueur prédéterminée, les flux (63) spectraux étant issus de l'analyse de chacune des trames.
Avantageusement, une gaussienne au moins est formée d'un couple unique (moyenne, variance) (61, 62) calculé pour l'ensemble des P trames de longueur prédéterminée.
De façon également avantageuse, chacune des chaînes de Markov cachées contient au moins un état re-bouclant.
L'invention concerne également de façon avantageuse un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur.
Selon l'invention, un tel programme comprend avantageusement des instructions de code de programme pour l'exécution des étapes du procédé, tel que précité, de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées suivant au moins deux classes (81) (82) de données prédéfinies, lorsque ledit programme est exécuté sur un ordinateur.
L'invention concerne aussi de façon avantageuse un dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comprenant :
- des moyens de segmentation du signal d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune des trames;
- des moyens d'affectation des deux données de description au moins, extraites d'un ensemble de P trames adjacentes sélectionnées pour le signal d'entrée, à l'une au moins des classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus de données d'apprentissage prédéterminé. Selon l'invention, un tel dispositif comprend en outre : - des moyens d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune des classes de données, à partir d'au moins un corpus de données d'apprentissage prédéterminé ;
- des moyens de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première au moins des deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième au moins des deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans le signal d'entrée; - des moyens de segmentation et de labellisation du flux d'entrée suivant au moins les deux classes de données modélisées, à partir des au moins N et M automates à états - transitions ; de façon à segmenter le signal d'entrée en segments de données différenciées et catégorisées. La figure 13 présente enfin la structure d'un dispositif de segmentation et de labellisation selon l'invention, qui comprend une mémoire M (130), et une unité de traitement (131) équipée d'un microprocesseur μP, qui est piloté par le programme d'ordinateur Pg 132. L'unité de traitement 131 reçoit (133) en entrée un flux (134) de données indifférenciées, à partir duquel le microprocesseur μP réalise, selon les instructions du programme Pg 132, une segmentation et une labellisation du flux (134) de données d'entrée à l'aide des chaînes de Markov
cachée, de façon à obtenir un signal (134) d'entrée segmenté en segments (135) de données différenciées et catégorisées, par exemple selon les classes Cl et C2.
Un tel dispositif comprend en outre tous les moyens structurels de mise en œuvre du procédé de segmentation et de labellisation d'un signal d'entrée, tel que cité précédemment, lesquels ne sont pas détaillés ici.
5. Liste des figures
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel de l'invention, donné à titre d'exemple illustratif et non limitatif, faite en référence aux dessins annexés parmi lesquels :
- la figure 1, déjà décrite en description de l'art antérieur, donne un exemple de segmentation d'un flux audio en deux classes Parole/Musique ;
- la figure 2, également déjà décrite relativement à l'art antérieur donne un exemple de topologie d'un modèle de Markov caché à trois états ; - la figure 3, déjà décrite précédemment, présente un organigramme du procédé de génération des modèles de deux classes de données connu de l'art antérieur ;
- la figure 4, également déjà décrite, donne un exemple de chaînes de Markov cachées obtenues pour deux classes de données, en sortie du procédé de la figure 3 ;
- la figure 5, aussi déjà discutée ci-avant, illustre le principe général adopté pour la segmentation et la reconnaissance de données classifiées par application de l'algorithme de Viterbi sur des modèles de chaînes de Markov cachées, selon l'art antérieur ; - la figure 6 présente le principe d'extraction des descripteurs des trames du signal d'entrée par calcul de la moyenne et variance du flux spectral, selon l'invention ;
- la figure 7 donne un exemple de la répartition des moyennes et variances obtenues pour les classes « musique » et « parole » avec le procédé selon l'invention ;
- les figures 8.1 à 8.3 présentent respectivement un exemple de nuage de gaussiennes labellisées pour deux classes parole et musique, la répartition des
gaussiennes résultants de l'application de l'algorithme VQ+EM selon l'art antérieur et, la répartition des gaussiennes obtenues pour ce même nuage de points, au moyen du procédé selon l'invention ;
- la figure 9 illustre le principe de création de l'histogramme de répartition des gaussiennes par discrétisation de l'espace 2, selon l'invention ;
- la figure 10 décrit le principe d'élagage des points du nuage de gaussiennes labellisées par détection des voisins immédiats ;
- la figure 11 donne un exemple de création des chaînes de Markov pour les modèles Parole et Musique, au moyen du procédé selon l'invention ; - la figure 12 rappelle le principe général de fonctionnement du procédé selon l'invention ;
- la figure 13, déjà décrite précédemment présente la structure d'un dispositif de segmentation et de reconnaissance selon l'invention.
6. Description d'un mode de réalisation préféré de l'invention La présente invention concerne donc un procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, dont les différentes étapes sont décrites ci-dessous pour un mode de réalisation préférée de l'invention. Dans la suite, nous expliciterons chaque partie en illustrant par un exemple d'utilisation dans le cadre d'un système de segmentation parole/musique basé sur le calcul du flux spectral dans un signal audio d'entrée.
Une première étape du procédé selon l'invention concerne la segmentation du signal audio en trames avec ou sans recouvrement et en l'extraction d'un ou de plusieurs descripteurs pour chacune des trames.
Préférentiellement, un calcul de la moyenne et de la variance du ou des descripteurs extraits sur un ensemble de P trames adjacentes est ensuite réalisé.
D'autres paramètres calculés sur les descripteurs peuvent bien évidemment être envisagés. Le flux audio est préférentiellement segmenté en segments de 32 millisecondes et on calcule pour chacun de ces segments le flux spectral qui
correspond à la somme « bin » fréquentiel par « bin » fréquentiel de la valeur absolue de la différence entre deux spectres d'amplitude consécutifs.
A partir des valeurs instantanées du flux spectral, on en tire la moyenne et la variance sur des segments d'1 seconde (32 valeurs de flux spectral instantané). Les couples (moyenne, variance) ainsi obtenus sont représentés à titre illustratif au travers la figure 7.
Dans une deuxième étape du procédé selon l'invention, on réalise une affectation du ou des descripteurs calculés pour chacune des trames sélectionnées à deux classes de données à modéliser, par exemple du type classe parole et classe musique, lorsque l'on cherche à distinguer entre données parole et données musique d'un signal d'entrée audio.
Cette deuxième étape s'effectue au moyen d'un apprentissage supervisé, sur la base d'au moins un corpus audio d'apprentissage contenant des données réelles. Les données d'apprentissage utilisées sont des fichiers contenant les données numériques relatives au paramètre du flux spectral, calculées à partir des fichiers audio.
Une fois toutes les moyennes et variances du flux calculées, on affecte ces descripteurs aux 2 classes à modéliser. Le corpus d'apprentissage est ici composé de deux heures de musique et de deux heures de parole. Tous les descripteurs extraits des données de musique sont ainsi affectés à la classe « musique » et tous les descripteurs extraits des données de parole sont affectés à la classe « parole ».
Une troisième étape du procédé selon l'invention concerne l'apprentissage des différents paramètres des états des chaînes de Markov cachées à partir des données d'apprentissage. Cette phase d'apprentissage se déroule en deux sous étapes, à savoir :
- la création d'un histogramme par discrétisation de l'espace 2D
(moyenne et variance) par application d'un pas de discrétisation choisi arbitrairement ou bien selon au moins un critère de précision préalablement déterminé, puis la labellisation par vote majoritaire de chacune des cases de l'histogramme en comparant le nombre de couples (moyenne, variance) de chacune des classes appartenant à
cette case. On obtient ainsi un nuage de points labellisés, tel qu'illustré sur la figure 9 ; puis
- la sélection de N couples pertinents (moyenne, variance) de la première classe et de M couples pertinents de la seconde classe du nuage de points labellisé précédent. Les (N+M) couples pertinents désignant ici les points proches de la frontière entre les deux classes.
Optionnellement, l'étape précitée de sélection des couples pertinents peut s'effectuer par la mise en œuvre d'un algorithme dit d' « élagage », dont le principe consiste à ne conserver que les points qui comportent au moins un point d'une autre classe dans son voisinage immédiat.
L'objectif de cette procédure d'élagage est de supprimer des gaussiennes jugées inutiles (c'est-à-dire éloignées de la frontière) dans l'espace à deux dimensions ici considéré. C'est également dans cette partie que le nombre de gaussiennes pour obtenir le nombre de couples souhaité peut être limité pour économiser en temps de calcul, lorsque nécessaire.
Dans cet exemple, on garde M=N=64 gaussiennes pour modéliser la classe « parole » et la classe « musique ». On obtient ainsi les couples résultants représentés en bas de la figure 8.3.
Une quatrième étape du procédé selon l'invention vise ensuite à créer N chaînes de Markov cachées à P états modélisant la classe Cl, les P états de chacune des chaînes de Markov cachées étant constitué d'une des N gaussiennes (couple moyenne, variance) déterminées lors de l'étape précédente et à créer M chaînes de Markov cachées à P états modélisant la classe C2, les P états de chacune des chaînes de Markov cachées étant constitué d'une des M gaussiennes (couple moyenne, variance) également déterminées lors de l'étape précédente.
Optionnellement, il est possible de ne construire que N' (l≤N'≤ N) chaînes de Markov cachées pour modéliser la classe 1 et M' (l≤M'≤ M) chaînes de Markov cachées pour modéliser la classe 2.
Tous les états des chaînes de Markov cachées de la classe 1 étant alors constitués de mélanges des N gaussiennes sélectionnées à l'étape de sélection et
tous les états des chaînes de Markov cachées de la classe 2 étant constitués de mélanges des M gaussiennes sélectionnées à l'étape de sélection également.
Chacune des classes « parole » et « musique » est modélisée respectivement par 64 et 64 chaînes de Markov cachées à P=32 états, dans l'exemple présenté.
Les P états d'une même chaîne de Markov cachée étant constitué de chacune des gaussiennes déterminées lors de la troisième étape.
Pour chaque classe, à partir de chaque gaussienne G[i] (l≤i<64) conservée, on créé une chaîne de Markov cachée contenant autant d'états re-bouclants que d'éléments utilisés dans le calcul de moyennes et variances.
Tous les états de cette chaîne émettent leur probabilité suivant la loi de la gaussienne G[i]. Un exemple de création de 64 chaînes de Markov pour le modèle « parole » et de 64 chaînes de Markov pour le modèle « musique », comme illustré sur la figure 11. Enfin, une cinquième étape du procédé selon l'invention consiste à réaliser la segmentation et la labellisation du flux audio à l'aide des chaînes de Markov cachées créées à l'étape de création des chaînes de Markov cachées, par utilisation d'un algorithme permettant de déterminer l'alignement optimal d'une forme acoustique sur un modèle de Markov. L'algorithme le mieux adapté est l'algorithme de Viterbi.
Cette procédure est illustrée figure 12 ou Cl et C2 désignent les classes parole et musique.
Pour expérimenter et valider l'amélioration sensible des performances de ce nouveau procédé de segmentation et de labellisation suivant des classes de données préalablement modélisées, un corpus d'apprentissage composé de deux heures de musique instrumentale indexées manuellement en « musique » et de deux heures de parole indexées manuellement en « parole » a été utilisé.
Un autre corpus, de test, composé de deux heures de musiques génériques (instruments + voix chantée), de vingt minutes de musique instrumentale (différente de celle utilisée lors de l'apprentissage) et de vingt minutes de parole
(différente de celle utilisée lors de l'apprentissage) a également été utilisé.
Les performances obtenues en termes d'exécution de procédé selon l'invention ont été calculées en mesurant, sur le corpus de tests, les segments temporels mal indexés par rapport au temps total des séquences, sur la base d'un taux d'erreur calculé comme suit :
: terrer (spββch) + terror (mUSÎc)
Erreur = 100 * -
• total où terror {speech) représente la durée totale des segments indexés « speech » sur des segments correspondant en fait à de la musique et où taror(music) représente la durée totale des segments indexés « music » sur des segments correspondant en fait à de la parole.
Le tableau suivant décrit les deux systèmes testés.
Grâce à ce nouveau procédé de segmentation en deux classes, on améliore ainsi les performances de manière sensible, relativement aux techniques connues de l'art antérieur.
Claims
1. Procédé de segmentation et de labellisation du contenu d'un signal (141) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comportant :
- une première étape (141) de segmentation dudit signal (140) d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune desdites trames; - une deuxième étape (142) d'affectation desdites au moins deux données de description extraites d'un ensemble de P trames adjacentes sélectionnées pour ledit signal (140) d'entrée, à l'une au moins desdites classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus (146) de données d'apprentissage prédéterminé ; caractérisé en ce qu'il comporte en outre :
- une troisième étape (143) d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune desdites classes de données, à partir dudit au moins un corpus (146) de données d'apprentissage prédéterminé, ladite troisième étape (143) d'apprentissage comportant au moins :
- une sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant lesdites au moins deux classes (81), 82) de données à modéliser, dans un espace à au moins deux dimensions (83), (84) respectivement définies par au moins deux données (85), (86) calculées de description de chacune desdites trames extraites ;
- une sous-étape (1422) de sélection d'un premier sous-ensemble de points dudit nuage labellisés appartenant à la première desdites au moins deux classes à modéliser et d'un deuxième sous-ensemble de points labellisés appartenant à la deuxième desdites au moins deux classes à modéliser, ledit premier et deuxième sous-ensembles de points étant sélectionnés parmi les points dudit nuage (80) de points labellisés situés au voisinage de la frontière (87) séparant lesdites au moins deux classes (81), (82) à modéliser ;
- une quatrième étape (144) de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première desdites au moins deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième desdites au moins deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans ledit signal d'entrée ;
- une cinquième étape (145) de segmentation et de labellisation dudit flux d'entrée suivant lesdites au moins deux classes de données modélisées, à partir desdits au moins N et M automates à états - transitions ; de façon à segmenter ledit signal (140) d'entrée en segments (147) de données différenciées et catégorisées.
2. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon la revendication 1, caractérisé en ce que ladite sous-étape (142i) de création d'un nuage (80) de points labellisés et répartis suivant lesdites au moins deux classes (81), (82) de données à modéliser est une sous-étape : - de création d'un histogramme (90) obtenu par discrétisation dudit espace à au moins deux dimensions, au moyen d'un pas (91) de discrétisation préalablement déterminé suivant au moins un critère de précision et,
- de labellisation (92χ) (922) (923) (924) (925) (926) de chaque case (93) dudit histogramme (90) par l'une desdites au moins deux classes (81) (82) possédant le plus grand nombre de points dans ladite case considérée.
3. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ladite sous-étape (1422) de sélection est une sous-étape d'élagage (101) des points (102) dudit nuage (80) n'étant pas situés au voisinage (87) de la frontière séparant lesdites au moins deux classes (81) (82) à modéliser, ladite étape d'élagage(lθl) consistant à ne conserver dans chacune desdites cases dudit histogramme, que les points (103) appartenant à l'une desdites au moins deux classes (81) 82) et comportant au moins un point dans son voisinage (104) immédiat appartenant à une autre desdites au moins deux classes.
4. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 1 à 3, caractérisé en ce que ladite cinquième étape (145) de segmentation et de labellisation dudit flux d'entrée met en œuvre un algorithme (120) de Viterbi pour déterminer l'alignement optimal de la forme dudit flux (121) d'entrée sur les modèles formés par lesdits automates à états - transitions.
5. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 1 à 4, caractérisé en ce que chacune desdites au moins deux classes (81) (82) de données est modélisée par une pluralité d'automates à états - transitions (110) (111) du type chaînes de Markov cachées, dont chaque état est constitué d'au moins une gaussienne (HO1,..., HOi) (H l1,..., l l lj) et dont chaque transition (112) définit un niveau de probabilité de franchissement d'un état courant vers un autre état ou vers le même état d'une desdites chaînes de Markov cachée.
6. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 1 à 5, caractérisé en ce que ledit signal (60) d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées du type parole et musique, lesdites au moins deux classes modélisées sont respectivement du type classe parole et classe musique, et en ce que lesdites au moins deux données de description sont du type moyenne (61) et variance (62) calculées à partir d'une pluralité de flux (63) spectraux instantanés associés respectivement à chacune desdites trames de ladite pluralité de trames de longueur prédéterminée, lesdits flux (63) spectraux étant issus de ladite analyse de chacune desdites trames.
7. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon les revendications 5 et 6, caractérisé en ce que ladite au moins une gaussienne est formée d'un couple unique (moyenne, variance) (61, 62) calculé pour l'ensemble desdites P trames de longueur prédéterminée.
8. Procédé de segmentation et de labellisation du contenu d'un signal d'entrée selon l'une quelconque des revendications 5 à 7, caractérisé en ce que chacune desdites chaînes de Markov cachées contient au moins un état rebouclant.
9. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution d'au moins une des étapes du procédé de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes (81) (82) de données prédéfinies, selon l'une quelconque des revendications 1 à 8, lorsque ledit programme est exécuté sur un ordinateur.
10. Dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées, suivant au moins deux classes de données prédéfinies, comprenant : - des moyens de segmentation dudit signal d'entrée sous la forme d'une pluralité de trames de longueur prédéterminée, et d'extraction d'au moins deux données de description à partir de l'analyse de chacune desdites trames;
- des moyens d'affectation desdites au moins deux données de description extraites d'un ensemble de P trames adjacentes sélectionnées pour ledit signal d'entrée, à l'une au moins desdites classes de données à modéliser, au moyen d'un apprentissage supervisé mettant en œuvre au moins un corpus de données d'apprentissage prédéterminé ; caractérisé en ce qu'il comporte en outre : - des moyens d'apprentissage d'un ensemble de paramètres prédéterminés de création d'une pluralité d'automates à états - transitions de modélisation de chacune desdites classes de données, à partir dudit au moins un corpus de données d'apprentissage prédéterminé, lesdits moyens d'apprentissage comprenant au moins : - des moyens de création d'un nuage de points labellisés et répartis suivant lesdites au moins deux classes de données à modéliser, dans un espace à au moins deux dimensions respectivement définies par au moins deux données calculées de description de chacune desdites trames extraites ;
- des moyens de sélection d'un premier sous-ensemble de points dudit nuage labellisés appartenant à la première desdites au moins deux classes à modéliser et d'un deuxième sous-ensemble de points labellisés appartenant à la deuxième desdites au moins deux classes à modéliser, ledit premier et deuxième sous-ensembles de points étant sélectionnés parmi les points dudit nuage de points labellisés situés au voisinage de la frontière séparant lesdites au moins deux classes à modéliser ;
- des moyens de création d'au moins N automates à états - transitions comprenant P états pour la modélisation de la première desdites au moins deux classes de données, et d'au moins M automates à états - transitions comprenant P états pour la modélisation de la deuxième desdites au moins deux classes de données, de façon à créer au moins deux classes de données modélisées représentatives des données contenues dans ledit signal d'entrée;
- des moyens de segmentation et de labellisation dudit flux d'entrée suivant lesdites au moins deux classes de données modélisées, à partir desdits au moins N et M automates à états - transitions ; de façon à segmenter ledit signal d'entrée en segments de données différenciées et catégorisées.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0507108 | 2005-07-01 | ||
| FR0507108 | 2005-07-01 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2007003505A1 true WO2007003505A1 (fr) | 2007-01-11 |
Family
ID=36013282
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2006/063363 Ceased WO2007003505A1 (fr) | 2005-07-01 | 2006-06-20 | Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées. |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2007003505A1 (fr) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103345922A (zh) * | 2013-07-05 | 2013-10-09 | 张巍 | 一种长篇幅语音全自动切分方法 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1457967A2 (fr) * | 2003-03-13 | 2004-09-15 | Microsoft Corporation | Compression de modeles gaussiens |
| EP1542206A1 (fr) * | 2003-12-11 | 2005-06-15 | Sony International (Europe) GmbH | Dispositif et procédé pour la classification automatique de signaux audio |
-
2006
- 2006-06-20 WO PCT/EP2006/063363 patent/WO2007003505A1/fr not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1457967A2 (fr) * | 2003-03-13 | 2004-09-15 | Microsoft Corporation | Compression de modeles gaussiens |
| EP1542206A1 (fr) * | 2003-12-11 | 2005-06-15 | Sony International (Europe) GmbH | Dispositif et procédé pour la classification automatique de signaux audio |
Non-Patent Citations (5)
| Title |
|---|
| J. RAZIK AT AL.: "Segmentation Parole/Musique pour la transcription automatique", JOURNÉES D'ETUDE SUR LA PAROLE - JEP 2004, April 2004 (2004-04-01), Maroc, XP002373690 * |
| JULIEN PINQUIER: "Indexation sonore: recherche de composantes primaires pour une structuration audiovisuelle", THÈSE. ÉCOLE DOCTORALE INFORMATIQUE ET TÉLÉCOMMUNICATIONS. UNIVERSITÉ PAUL SABATIER TOULUSE III, 20 December 2004 (2004-12-20), Touluse, FR, XP002373691 * |
| OLIVIER LE BLOUCH, PATRICE COLLEN: "Méthode de segmentation parole/non-parole", RJC PAROLE (RENCONTRES JEUNES CHERCHEURS), 27 September 2005 (2005-09-27), Touluse, FR, XP002393822 * |
| SCHEIRER E ET AL: "CONSTRUCTION AND EVALUATION OF A ROBUST MULTIFEATURE SPEECH/MUSIC DISCRIMINATOR", 1997 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. MULTIDIMENSIONAL SIGNAL PROCESSING, NEURAL NETWORKS (ICASSP), vol. VOL. 4, 21 April 1997 (1997-04-21), MUNICH, pages 1331 - 1334, XP002061767, ISBN: 0-8186-7920-4 * |
| SHENG GAO ET AL: "A hidden Markov model based approach to music segmentation and identification", INFORMATION, COMMUNICATIONS AND SIGNAL PROCESSING, 2003 AND FOURTH PACIFIC RIM CONFERENCE ON MULTIMEDIA. PROCEEDINGS OF THE 2003 JOINT CONFERENCE OF THE FOURTH INTERNATIONAL CONFERENCE ON SINGAPORE 15-18 DEC. 2003, PISCATAWAY, NJ, USA,IEEE, vol. 3, 15 December 2003 (2003-12-15), pages 1576 - 1580, XP010702376, ISBN: 0-7803-8185-8 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103345922A (zh) * | 2013-07-05 | 2013-10-09 | 张巍 | 一种长篇幅语音全自动切分方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
| EP2696344B1 (fr) | Procede et systeme pour detecter des evenements sonores dans un environnement donne | |
| JP2003177778A (ja) | 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法 | |
| EP3155608B1 (fr) | Procedé de suivi d'une partition musicale et modélisation associée | |
| EP2422301A2 (fr) | Systeme et methode pour detecter des evenements audio anormaux | |
| JP5243888B2 (ja) | データ分類装置及びデータ分類プログラム | |
| EP3588301B1 (fr) | Determination automatique et auto-optimisee des parametres d'execution d'une application logicielle sur une plateforme de traitement de l'information | |
| CA2563420C (fr) | Procede de recherche de contenu, notamment d'extraits communs entre deux fichiers informatiques | |
| FR2801991A1 (fr) | Procede et dispositif de recherche d'images basee sur le contenu prenant en compte le contenu de regions d'interet | |
| CN119580738A (zh) | 基于多模态信息融合的视频处理方法、装置、设备及介质 | |
| CN113591853A (zh) | 关键词提取方法、装置及电子设备 | |
| WO2007003505A1 (fr) | Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées. | |
| KR101398059B1 (ko) | 표준편차 기반의 음원의 특징 축소 방법을 이용하는 음악 분위기 자동 판별 시스템 및 방법 | |
| Kaiser | Music structure segmentation | |
| EP2804129A1 (fr) | Procédé de reconnaissance vocale visuelle avec sélection de groupes de points d'intérêts les plus pertinents | |
| WO2023247128A1 (fr) | Methode de generation de donnees spectrales synthetiques | |
| CN118918599B (zh) | 基于麻雀搜索算法的五线谱识别方法及装置 | |
| Ranjan et al. | Incorporating Total Variation Regularization in the design of an intelligent Query by Humming system | |
| CN114663794B (zh) | 视频检测方法、装置、智能终端及计算机可读存储介质 | |
| WO2008149047A2 (fr) | Dispositif et methode de traitement d'images pour determiner une signature d'un film | |
| FR3164308A1 (fr) | Procédé de classification d’images de vidéos en phases chirurgicales | |
| EP1554687A2 (fr) | SystEme associatif flou de description d objets multimEdia | |
| Bibikov et al. | A Method for Extracting Classifying Tags from the Digital Multimedia Content using the Neural Network Technologies | |
| CN119557475A (zh) | 一种音乐监测分析方法、服务器及存储介质 | |
| WO2025210183A1 (fr) | Procédé de classification d'une donnée, réseau de neurones convolutif quantique, et dispositif électronique quantique associé |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| WWW | Wipo information: withdrawn in national office |
Country of ref document: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 06763806 Country of ref document: EP Kind code of ref document: A1 |