[go: up one dir, main page]

EP2198425A1 - Method, module and computer software with quantification based on gerzon vectors - Google Patents

Method, module and computer software with quantification based on gerzon vectors

Info

Publication number
EP2198425A1
EP2198425A1 EP08840014A EP08840014A EP2198425A1 EP 2198425 A1 EP2198425 A1 EP 2198425A1 EP 08840014 A EP08840014 A EP 08840014A EP 08840014 A EP08840014 A EP 08840014A EP 2198425 A1 EP2198425 A1 EP 2198425A1
Authority
EP
European Patent Office
Prior art keywords
components
function
quantization
module
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP08840014A
Other languages
German (de)
French (fr)
Inventor
Adil Mouhssine
Abdellatif Benjelloun Touimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP2198425A1 publication Critical patent/EP2198425A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to audio signal coding devices comprising quantization modules and intended in particular to take place in applications for transmission or storage of digitized and compressed audio signals.
  • a 3D sound scene also called spatialized sound, comprises a plurality of audio channels each corresponding to monophonic signals.
  • each monophonic signal is encoded independently of other signals based on perceptual criteria for reducing the bit rate by minimizing the perceptual distortion of the monophonic coded signal relative to the original monophonic signal.
  • Audio encoders of the state of the art MPEG 2/4 AAC encoder type provide rate reduction techniques that minimize perceptual distortion of the signal.
  • the coding of the multichannel signals of a sound scene includes, in certain cases, the introduction of a transformation (KLT, Ambiophonic, DCT, etc.) making it possible to better take into account the interactions that may exist between the different signals of the sound scene. to code.
  • KLT KLT, Ambiophonic, DCT, etc.
  • the present invention improves this situation by proposing, in a first aspect, a method of encoding components of an audio scene comprising N signals with N> 1, comprising a step of quantizing at least some of the components.
  • the method is characterized in that the quantization is defined as a function of at least one energy vector and / or a velocity vector associated with Gerzon criteria and function of the components.
  • a method according to the invention thus proposes a quantization which takes into account the interactions between the signals of a sound scene and which thus makes it possible to reduce the spatial distortion of the sound stage and thus to respect its original aspect.
  • the allocation of bits to the spatial components is performed by considering the spatial accuracy and spatial stability of the restored sound scene.
  • the audio quality of the decoded global sound stage is improved for a given coding rate.
  • the quantization is defined as a function of variations of at least one of said energy and velocity vectors during component variations.
  • the allocation of bits to the various components is thus performed as a function of the impact of their respective variations on the spatial accuracy and / or the spatial stability of the decoded sound scene.
  • component variations corresponding to the minimization, or limitation, of variations of at least one of the energy and velocity vectors are determined and, based on said component variations, values are derived. quantization errors to define the quantification of components. This arrangement makes it possible to determine the quantization function which will give rise to a minimum or limited disturbance of the restored sound scene.
  • a method according to the invention further comprises a step of detecting a transition frequency for determining which of the vectors among the energy vector or the velocity vector to be taken into account to define the quantization. components.
  • the components are components obtained by spatial transformation, for example of the ambiophonic type.
  • the transformation is a time / frequency transformation, for example a DCT, or a transformation combination.
  • the energy vector is calculated based on an inverse spatial transformation on said spatial components and / or the velocity vector is calculated based on an inverse spatial transformation on said spatial components.
  • the invention proposes a component processing module originating from an audio scene comprising N signals with N> 1, comprising means for determining elements for defining a quantization step of at least some of the components. , based at least on the energy vectors and / or the velocity vector associated with Gerzon criteria and function of the components.
  • the invention provides an audio coder adapted to encode components of an audio scene comprising N signals with N> 1, comprising: a component processing module according to the second aspect of the invention; and a quantization module adapted to define quantization indices associated with components as a function of at least elements determined by the processing module.
  • the invention proposes a computer program to be installed in a processing module, said program comprising instructions for implementing, during a program execution by means of processing said module, the steps of a method according to the first aspect of the invention.
  • FIG. 1 represents an encoder in one embodiment of the invention
  • Figure 2 illustrates the propagation of a plane wave in space
  • FIG. 3 represents a device for restoring a sound stage, comprising loudspeakers.
  • Gerzon's criteria are generally used to characterize the location of synthesized virtual sound sources when rendering signals from a 3D sound stage from the speakers of a given sound rendering system.
  • the velocity vector V, of polar coordinates (r v , ⁇ v ) is then defined as
  • the energy vector É, of polar coordinates (r E , ⁇ E ) is defined as follows:
  • the encoder described below in one embodiment of the invention utilizes the velocity and energy vectors associated with the Gerzon criteria in an application other than that of searching for the best angles ⁇ p t characterizing the position of the speakers. speakers of a sound rendering system considered.
  • Figure 1 shows an audio coder 1 in one embodiment of the invention.
  • the encoder 1 comprises a time / frequency transformation module 3, a spatial transformation module 4, a quantization module 6 and a module 7 for constituting a binary sequence.
  • a 3D sound stage to be coded includes
  • N channels (with N> 1) on each of which a respective signal Si, ..., S N is delivered.
  • the time / frequency conversion module 3 of the encoder 1 receives as input the N signals Si,..., S N of the 3D sound scene to be encoded.
  • An MDCT coefficient Y 1 k thus represents the element of the spectrum of the signal Si for the frequency F k .
  • the spatial transformation module 4 is adapted to perform a spatial transformation of the input signals provided, that is to say to determine the spatial components of these signals resulting from the projection on a spatial repository depending on the order of the transformation. .
  • the order of a spatial transformation is related to the angular frequency according to which it "scans" the sound field.
  • the spatial transformation considered is the ambiophonic transformation.
  • the sound scene is then represented by a set of signals called ambiophonic components, which make it possible to store the sound information relative to the acoustic field. This representation facilitates the manipulation of the acoustic field (rotation of the sound stage, distortion of perspective i.e. possibility of tightening the frontal scene and dilating the back scene) and the extraction of relevant parameters for a reproduction on a given device.
  • Another advantage of the surround transformation is that, in the case where the number N of signals of the sound stage is large, it is possible to represent them by a number L of ambiophonic components much lower than N, degrading very little the quality space of the sound stage. The volume of data to be transmitted is reduced and this without significant degradation of the audio quality of the sound scene.
  • the spatial transformation module 4 performs an ambiophonic transformation, which gives a compact spatial representation of a 3D sound scene, by producing projections of the sound field on the associated spherical or cylindrical harmonic functions.
  • ambiophonic transformations For more information on the ambiophonic transformations, one can refer to the following documents: "Representation of acoustic fields, application to the transmission and the reproduction of complex sound scenes in a multimedia context", Thesis of doctorate of the university Paris 6, Jerome DANIEL, July 31, 2001, "A highly scalable spherical array based microphone on an orthonormal decomposition of the sound field," Jens Meyer - Gary Elko, Vol. He - pp. 1781-1784 in Proc. ICASSP 2002.
  • the ambiophonic transform of a signal Si expressed in the time domain then comprises the following 2p + 1 components: (Pi, Pi. cos ⁇ i, Pi.sin ⁇ i, Pi.cos2 ⁇ i, Pi.sin2 ⁇ i, Pi.cos3 ⁇ i, Pi.sin3 ⁇ i, ..., Pi.cosp ⁇ i,
  • A (A i ⁇ ⁇ ⁇ L be the ambiophonic transformation matrix of order pl ⁇ J ⁇ N for the 3D scene.
  • yf2 cos p ⁇ N
  • X (x ⁇ k ⁇ ⁇ t ⁇ L
  • the matrix X of the surround components is determined using the following equation:
  • the method exploits relationships between variations in velocity and energy vectors used in Gerzon criteria and variations in surround components.
  • the quantization function thus defined is then applied to the ambiophonic components received by the quantization module 6.
  • D be the p-order ambiophonic decoding matrix for a regular loudspeaker audio rendering system (i.e., the loudspeakers are arranged regularly around a point).
  • ambiophonic components of order p with L Ip + 1 and ⁇ [k] is the vector of the powers of the respective signals delivered to the loudspeakers Q 'after surround decoding.
  • a variation of the values taken by the ambiophonic components therefore implies a corresponding variation or displacement of the Gerzon vectors around their original position.
  • the processing module 5 seeks to determine the quantization error h of the surround components with the Deb flow rate, which optimizes the displacement of the vectors. of Gerzon.
  • the optimization sought is the minimization, or the limitation within a given threshold, of the displacement of the Gerzon vectors around their position corresponding to a zero error. This amounts to looking for the value of the error vector h which allows the Gerzon vectors to keep an orientation and a module fairly close to the calculated Gerzon vectors without quantization.
  • Gerzon's vectors make it possible to control the degree of spatial fidelity (stability and accuracy of the sound image restored) during the rendering of a sound scene on a given device.
  • This vector (10) represents the variations of the Gerzon vectors for a displacement h of the values of the ambiophonic components (X n ) 1 ⁇ n ⁇ L -
  • the quantization module 6 is a high resolution quantizer
  • the optimization problem to be solved can be written as follows: r ⁇ d ⁇ v ⁇ (hf
  • Element ⁇ is a vector indicating a given threshold of spatial perception. This threshold vector ⁇ can be determined statistically by calculating for different rendering systems and for different ambiophonic transformation orders the threshold at which the change in the values taken by the surround components becomes perceptible.
  • this optimization problem is solved by the processing module using the Lagrangian method and gradient descent methods, for example using a computer program implementing the steps of the algorithm described below.
  • Lagrangian and gradient descent methods are known.
  • step b / it is determined, with respect to the frequency Fk,
  • This determination is made by searching the coordinates of
  • step d / the flow is determined Dj ( ⁇ allocated for coding the j ⁇ eme surround component in the frequency F k equal to
  • the value D (1> is then compared to the Deb value of the desired overall flow rate.
  • step d / an iteration (l ⁇ , the value of the flow D (l /> obtained
  • the coordinates h (//) of the vector h '''calculated during the iteration (l f ) for a frequency Fk are those of the error minimizing the displacement of the Gerzon vectors in the frequency F k .
  • the quantization function is thus defined for each surround component in each frequency F k: the coordinate h ⁇ (lf) (k) calculated for the frequency Fk represents the quantization error of the j ⁇ eme surround component in the frequency Fk.
  • the module 6 determines the corresponding quantization indices for each ambiophonic spectral component and supplies these data to the module 7 for constituting a binary sequence.
  • additional processing on the received data for example an entropy coding
  • the invention thus proposes a novel quantization technique applicable to multichannel signals, which takes into account spatial characteristics of the scene to be encoded.
  • the quantization defined by the allocation of the bits, by the quantization steps or by an index characterizing a quantizer among a set, is determined so as to cause a limited deviation of the Gerzon vectors, and thus to guarantee during the restitution of the Quantized signals an acoustic scene true to the original acoustic scene.
  • the velocity and energy vectors are two mathematical tools introduced by Gerzon whose objective is to translate the effect of the localization, in the low and high frequency domains respectively, of a synthesized sound source. For a listener placed in the center of a reproduction device, the velocity vector V and the energy vector E are respectively associated with the location effects at low and high frequencies.
  • a transition frequency is determined which determines the preponderance domains of the V and E criteria.
  • the prediction of the location is carried out thanks to the energy vector É and for the frequencies below this transition frequency, the location is based on the velocity vector V.
  • the transition frequency corresponds to the frequency beyond which the wavefront is smaller than the size of the head. In the case of first-order surround systems, this transition frequency is of the order of 700 Hz.
  • the first problem corresponds to seeking to optimize the position of the source reconstructed after quantization in the low frequency domain
  • the second problem corresponds to seeking to optimize it in the high frequency domain.
  • the invention is implemented using an inverse spatial transformation of a spatial transformation used during coding.
  • the Gerzon vectors are computed and used independently of a transform possibly used during coding, ie the invention may be implemented when the signals are or are not spatial transformation or other.
  • Gerzon vectors are physical parameters that make it possible to characterize the wavefront reconstructed by the superposition of the waves emitted by the different loudspeakers (see “Representation of acoustic fields, application to the transmission and reproduction of scenes”. complex sounds in a multimedia context ", Doctoral thesis of the Paris 6 University, July 31, 2001, Jércons Daniel).
  • Gerzon vectors can be computed without the prior use of surround encoding.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

The invention relates to a method for encoding the components ( Xi,k ) of an audio scene including N signals (Si,..., SN) with N>1, that comprises the step of quantifying at least some of said components, wherein the quantification is defined based on at least an energy vector and/or one velocity vector associated with Gerzon criteria and based on said components.

Description

PROCEDE, MODULE ET PROGRAMME D'ORDINATEUR AVEC QUANTIFICATION EN FONCTION DES VECTEURS DE GERZON METHOD, MODULE AND COMPUTER PROGRAM WITH QUANTIFICATION BASED ON GERZON VECTORS
La présente invention concerne les dispositifs de codage de signaux audio comprenant des modules de quantification et destinés notamment à prendre place dans des applications de transmission ou de stockage de signaux audio numérisés et compressés.The present invention relates to audio signal coding devices comprising quantization modules and intended in particular to take place in applications for transmission or storage of digitized and compressed audio signals.
L'invention concerne plus particulièrement le codage de scènes sonores 3D. Une scène sonore 3D, encore appelée son spatialisé, comprend une pluralité de canaux audio correspondant chacun à des signaux monophoniques.The invention relates more particularly to the coding of 3D sound scenes. A 3D sound scene, also called spatialized sound, comprises a plurality of audio channels each corresponding to monophonic signals.
Dans des techniques de codage de signaux d'une scène sonore, chaque signal monophonique est codé indépendamment des autres signaux sur la base de critères perceptuels visant à réduire le débit en minimisant la distorsion perceptuelle du signal monophonique codé par rapport au signal monophonique d'origine. Les codeurs audio de l'état de l'art de type codeur MPEG 2/4 AAC offrent des techniques de réduction du débit qui minimisent la distorsion perceptuelle du signal.In signal coding techniques of a sound scene, each monophonic signal is encoded independently of other signals based on perceptual criteria for reducing the bit rate by minimizing the perceptual distortion of the monophonic coded signal relative to the original monophonic signal. . Audio encoders of the state of the art MPEG 2/4 AAC encoder type provide rate reduction techniques that minimize perceptual distortion of the signal.
Une autre technique de codage de signaux d'une scène sonore, utilisée dans le codeur « MPEG Audio Surround » (cf. « Text of ISO/IEC FDIS 23003-1 , MPEG Surround », ISO/IEC JTC1 / SC29 / WG11 N8324, JuIy 2006, Klagenfurt,Another signal coding technique of a sound stage, used in the "MPEG Audio Surround" encoder (see "Text of ISO / IEC FDIS 23003-1, MPEG Surround", ISO / IEC JTC1 / SC29 / WG11 N8324, JuIy 2006, Klagenfurt,
Austria), comprend l'extraction et le codage de paramètres spatiaux à partir de l'ensemble des signaux audio monophoniques sur les différents canaux. Ces signaux sont ensuite mélangés pour obtenir un signal monophonique ou stéréophonique, qui est alors comprimé par un codeur mono ou stéréo classique (par exemple de type MPEG-4 AAC, HE-AAC, etc). Au niveau du décodeur, la synthèse de la scène sonore 3D restituée se fait à partir des paramètres spatiaux et du signal mono ou stéréo décodé.Austria), includes the extraction and coding of spatial parameters from all monophonic audio signals on the different channels. These signals are then mixed to obtain a monophonic or stereophonic signal, which is then compressed by a conventional mono or stereo encoder (for example of the MPEG-4 AAC, HE-AAC type, etc.). At the level of the decoder, the synthesis of the rendered 3D sound scene is made from the spatial parameters and the decoded mono or stereo signal.
Le codage des signaux multicanaux d'une scène sonore comprend dans certains cas l'introduction d'une transformation (KLT, Ambiophonique, DCT...) permettant de mieux prendre en compte les interactions qui peuvent exister entre les différents signaux de la scène sonore à coder.The coding of the multichannel signals of a sound scene includes, in certain cases, the introduction of a transformation (KLT, Ambiophonic, DCT, etc.) making it possible to better take into account the interactions that may exist between the different signals of the sound scene. to code.
Pour ces nouveaux types de codeurs, se pose alors le problème d'offrir une réduction du débit qui respecte l'aspect spatial de la scène sonore. La présente invention vient améliorer cette situation en proposant, suivant un premier aspect, un procédé de codage de composantes d'une scène audio comprenant N signaux avec N>1 , comportant une étape de quantification de certaines au moins des composantes. Le procédé est caractérisé en ce que la quantification est définie en fonction au moins d'un vecteur d'énergie et/ou d'un vecteur de vélocité associé(s) à des critères de Gerzon et fonction des composantes.For these new types of encoders, there is the problem of offering a reduction of the bit rate that respects the spatial aspect of the sound stage. The present invention improves this situation by proposing, in a first aspect, a method of encoding components of an audio scene comprising N signals with N> 1, comprising a step of quantizing at least some of the components. The method is characterized in that the quantization is defined as a function of at least one energy vector and / or a velocity vector associated with Gerzon criteria and function of the components.
Un procédé selon l'invention propose ainsi une quantification qui prend en compte les interactions entre les signaux d'une scène sonore et qui permet ainsi de réduire la distorsion spatiale de la scène sonore et donc de respecter son aspect original. L'allocation de bits aux composantes spatiales est réalisée en considérant la précision spatiale et la stabilité spatiale de la scène sonore restituée.A method according to the invention thus proposes a quantization which takes into account the interactions between the signals of a sound scene and which thus makes it possible to reduce the spatial distortion of the sound stage and thus to respect its original aspect. The allocation of bits to the spatial components is performed by considering the spatial accuracy and spatial stability of the restored sound scene.
La qualité audio de la scène sonore globale décodée est améliorée pour un débit de codage donné.The audio quality of the decoded global sound stage is improved for a given coding rate.
Dans un mode de réalisation, la quantification est définie en fonction de variations d'au moins un desdits vecteurs d'énergie et de vélocité lors de variations de composantes. L'allocation de bits aux différentes composantes est ainsi réalisée en fonction de l'impact de leurs variations respectives sur la précision spatiale et/ou la stabilité spatiale de la scène sonore décodée.In one embodiment, the quantization is defined as a function of variations of at least one of said energy and velocity vectors during component variations. The allocation of bits to the various components is thus performed as a function of the impact of their respective variations on the spatial accuracy and / or the spatial stability of the decoded sound scene.
Dans un mode de réalisation, on détermine des variations de composantes correspondant à la minimisation, ou à la limitation, de variations d'au moins un des vecteurs d'énergie et de vélocité et on déduit, en fonction desdites variations des composantes, des valeurs d'erreurs de quantification permettant de définir la quantification des composantes. Cette disposition permet de déterminer la fonction de quantification qui donnera lieu à une perturbation minimum, ou limitée, de la scène sonore restituée.In one embodiment, component variations corresponding to the minimization, or limitation, of variations of at least one of the energy and velocity vectors are determined and, based on said component variations, values are derived. quantization errors to define the quantification of components. This arrangement makes it possible to determine the quantization function which will give rise to a minimum or limited disturbance of the restored sound scene.
Dans un mode de réalisation, un procédé selon l'invention comporte en outre une étape de détection d'une fréquence de transition permettant de déterminer celui des vecteurs parmi le vecteur d'énergie ou le vecteur de vélocité à prendre en compte pour définir la quantification des composantes. Une telle disposition permet d'augmenter la qualité du codage tout en limitant le volume de calcul à réaliser. Dans un mode de réalisation, les composantes sont des composantes obtenues par transformation spatiale, par exemple de type ambiophonique.In one embodiment, a method according to the invention further comprises a step of detecting a transition frequency for determining which of the vectors among the energy vector or the velocity vector to be taken into account to define the quantization. components. Such an arrangement makes it possible to increase the quality of the coding while limiting the computation volume to be achieved. In one embodiment, the components are components obtained by spatial transformation, for example of the ambiophonic type.
Dans d'autres modes de réalisation, la transformation est une transformation de type temps/fréquence, par exemple une DCT, ou encore une combinaison de transformation.In other embodiments, the transformation is a time / frequency transformation, for example a DCT, or a transformation combination.
Dans un mode de réalisation, le vecteur d'énergie est calculé en fonction d'une transformation spatiale inverse sur lesdites composantes spatiales et/ou le vecteur de vélocité est calculé en fonction d'une transformation spatiale inverse sur lesdites composantes spatiales. Suivant un second aspect, l'invention propose un module de traitement de composantes provenant d'une scène audio comprenant N signaux avec N>1 , comprenant des moyens pour déterminer des éléments de définition d'une étape de quantification de certaines au moins des composantes, en fonction au moins du vecteurs d'énergie et/ou du vecteur de vélocité associé(s) à des critères de Gerzon et fonction des composantes.In one embodiment, the energy vector is calculated based on an inverse spatial transformation on said spatial components and / or the velocity vector is calculated based on an inverse spatial transformation on said spatial components. According to a second aspect, the invention proposes a component processing module originating from an audio scene comprising N signals with N> 1, comprising means for determining elements for defining a quantization step of at least some of the components. , based at least on the energy vectors and / or the velocity vector associated with Gerzon criteria and function of the components.
Suivant un troisième aspect, l'invention propose un codeur audio adapté pour coder des composantes d'une scène audio comprenant N signaux avec N>1 , comportant : un module de traitement de composantes suivant le deuxième aspect de l'invention ; et un module de quantification adapté pour définir des indices de quantification associés à des composantes en fonction au moins d'éléments déterminés par le module de traitement.According to a third aspect, the invention provides an audio coder adapted to encode components of an audio scene comprising N signals with N> 1, comprising: a component processing module according to the second aspect of the invention; and a quantization module adapted to define quantization indices associated with components as a function of at least elements determined by the processing module.
Suivant un quatrième aspect, l'invention propose un programme d'ordinateur à installer dans un module de traitement, ledit programme comprenant des instructions pour mettre en œuvre, lors d'une exécution du programme par des moyens de traitement dudit module, les étapes d'un procédé suivant le premier aspect de l'invention.According to a fourth aspect, the invention proposes a computer program to be installed in a processing module, said program comprising instructions for implementing, during a program execution by means of processing said module, the steps of a method according to the first aspect of the invention.
D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels : la figure 1 représente un codeur dans un mode de réalisation de l'invention ; la figure 2 illustre la propagation d'une onde plane dans l'espace ; la figure 3 représente un dispositif de restitution d'une scène sonore, comprenant des haut-parleurs.Other features and advantages of the invention will become apparent on reading the description which follows. This is purely illustrative and should be read in conjunction with the attached drawings in which: FIG. 1 represents an encoder in one embodiment of the invention; Figure 2 illustrates the propagation of a plane wave in space; FIG. 3 represents a device for restoring a sound stage, comprising loudspeakers.
Les critères de Gerzon sont généralement utilisés pour caractériser la localisation des sources sonores virtuelles synthétisées lors de la restitution de signaux d'une scène sonore 3D depuis les haut-parleurs d'un système de rendu sonore donné.Gerzon's criteria are generally used to characterize the location of synthesized virtual sound sources when rendering signals from a 3D sound stage from the speakers of a given sound rendering system.
Ces critères reposent sur l'étude des vecteurs de vélocité et d'énergie des pressions acoustiques générées par le système de rendu sonore utilisé.These criteria are based on the study of the velocity and energy vectors of the acoustic pressures generated by the sound rendering system used.
Lorsqu'un système de rendu sonore comprend n haut-parleurs, les n signaux générés par ces haut-parleurs, sont définis par une pression acoustique Pi et un angle de propagation acoustique <pt , i=1 à n.When a sound reproduction system comprises n loudspeakers, the n signals generated by these loudspeakers are defined by an acoustic pressure Pi and an acoustic propagation angle <p t , i = 1 to n.
Le vecteur de vélocité V , de coordonnées polaires (rvv) est alors défini ainsiThe velocity vector V, of polar coordinates (r v , θ v ) is then defined as
Le vecteur d'énergie É , de coordonnées polaires (rEE) est défini ainsi :The energy vector É, of polar coordinates (r E , θ E ) is defined as follows:
Les conditions nécessaires pour que la localisation des sources sonores virtuelles soit optimale se définissent en cherchant les angles <pt , caractérisant la position des haut-parleurs du système de rendu sonore considéré, qui vérifient les critères ci-dessous, dits critères de Gerzon, qui sont les critères suivants : - critère 1 , relatif à la précision de l'image sonore de la source S en basses fréquences : θv = θ ; où θ est l'angle de propagation de la source S réelle qu'on cherche à atteindre.The conditions necessary for the location of the virtual sound sources to be optimal are defined by looking for the angles <p t , characterizing the position of the speakers of the sound rendering system considered, which satisfy the criteria below, called Gerzon criteria, which are the following criteria: - criterion 1, relating to the accuracy of the sound image of the source S at low frequencies: θ v = θ; where θ is the propagation angle of the actual source S that we are trying to achieve.
- critère 2, relatif à la stabilité de l'image sonore de la source S en basses fréquences : rv = 1 ;- criterion 2, relating to the stability of the sound image of the source S at low frequencies: r v = 1;
- critère 3, relatif à la précision de l'image sonore de la source S en hautes fréquences : ΘE = Θ ;- criterion 3, relating to the accuracy of the sound image of the source S at high frequencies: Θ E = Θ;
- critère 4, relatif à la stabilité de l'image sonore de la source S en hautes fréquences : rE = 1.- criterion 4, relating to the stability of the sound image of the source S at high frequencies: r E = 1.
Le codeur décrit ci-dessous dans un mode de réalisation de l'invention utilise les vecteurs de vélocité et d'énergie associés aux critères de Gerzon dans une application autre que celle consistant à rechercher les meilleurs angles <pt caractérisant la position des haut-parleurs d'un système de rendu sonore considéré.The encoder described below in one embodiment of the invention utilizes the velocity and energy vectors associated with the Gerzon criteria in an application other than that of searching for the best angles <p t characterizing the position of the speakers. speakers of a sound rendering system considered.
La figure 1 représente un codeur audio 1 dans un mode de réalisation de l'invention.Figure 1 shows an audio coder 1 in one embodiment of the invention.
Le codeur 1 comprend un module 3 de transformation temps/fréquence, un module 4 de transformation spatiale, un module 6 de quantification et un module 7 de constitution d'une séquence binaire.The encoder 1 comprises a time / frequency transformation module 3, a spatial transformation module 4, a quantization module 6 and a module 7 for constituting a binary sequence.
Une scène sonore 3D à coder, considérée à titre d'illustration, comprendA 3D sound stage to be coded, as an illustration, includes
N canaux (avec N >1 ) sur chacun desquels un signal respectif Si, ..., SN est délivré. Le module 3 de transformation temps/fréquence du codeur 1 reçoit en entrée les N signaux Si,..., SN de la scène sonore 3D à coder.N channels (with N> 1) on each of which a respective signal Si, ..., S N is delivered. The time / frequency conversion module 3 of the encoder 1 receives as input the N signals Si,..., S N of the 3D sound scene to be encoded.
Chaque signal Si, i = 1 à N, est représenté par la variation de sa pression omnidirectionnelle acoustique Pi et l'angle θj de propagation, dans l'espace de la scène 3D, de l'onde acoustique associée. Sur chaque trame temporelle de chacun de ces signaux indiquant les différentes valeurs prises au cours du temps par la pression acoustique Pi, le module 3 de transformation temps/fréquence effectue une transformation temps/fréquence. Il détermine, dans le cas présent, pour chacun des signaux Si, i=1 à N, sa représentation spectrale caractérisée par M coefficients MDCT Y1 k , avec k= 0 à M-1. Un coefficient MDCT Y1 k représente ainsi l'élément du spectre du signal Si pour la fréquence Fk. Les représentations spectrales Y1 k , k= 0 à M-1 , des signaux Si, i= 1 à N, sont fournies en entrée du module 4 de transformation spatiale, qui reçoit en outre en entrée les angles θi de propagation acoustique caractérisant les signaux d'entrée Si.Each signal Si, i = 1 to N, is represented by the variation of its acoustic omnidirectional pressure Pi and the propagation angle θj, in the space of the 3D scene, of the associated acoustic wave. On each time frame of each of these signals indicating the different values taken over time by the sound pressure Pi, the time / frequency transformation module 3 performs a transformation. time / frequency. In the present case, it determines, for each of the signals Si, i = 1 to N, its spectral representation characterized by M coefficients MDCT Y 1 k , with k = 0 to M-1. An MDCT coefficient Y 1 k thus represents the element of the spectrum of the signal Si for the frequency F k . The spectral representations Y 1 k , k = 0 to M-1, signals Si, i = 1 to N, are provided at the input of the spatial transformation module 4, which also receives at input the angles θi of acoustic propagation characterizing the Si input signals.
Le module 4 de transformation spatiale est adapté pour effectuer une transformation spatiale des signaux d'entrée fournies, c'est-à-dire déterminer les composantes spatiales de ces signaux résultant de la projection sur un référentiel spatial dépendant de l'ordre de la transformation.The spatial transformation module 4 is adapted to perform a spatial transformation of the input signals provided, that is to say to determine the spatial components of these signals resulting from the projection on a spatial repository depending on the order of the transformation. .
L'ordre d'une transformation spatiale se rattache à la fréquence angulaire selon laquelle elle « scrute » le champ sonore. Dans un mode de réalisation, la transformation spatiale considérée est la transformation ambiophonique. La scène sonore est alors représentée par un ensemble de signaux appelés composantes ambiophoniques, qui permettent de stocker l'information sonore relative au champ acoustique. Cette représentation facilite la manipulation du champ acoustique (rotation de la scène sonore, distorsion de perspectif i.e. possibilité de resserrer la scène frontale et dilater la scène arrière) et l'extraction des paramètres pertinents pour une reproduction sur un dispositif donné.The order of a spatial transformation is related to the angular frequency according to which it "scans" the sound field. In one embodiment, the spatial transformation considered is the ambiophonic transformation. The sound scene is then represented by a set of signals called ambiophonic components, which make it possible to store the sound information relative to the acoustic field. This representation facilitates the manipulation of the acoustic field (rotation of the sound stage, distortion of perspective i.e. possibility of tightening the frontal scene and dilating the back scene) and the extraction of relevant parameters for a reproduction on a given device.
Un autre avantage de la transformation ambiophonique est que, dans le cas où le nombre N de signaux de la scène sonore est grand, il est possible de les représenter par un nombre L de composantes ambiophoniques bien inférieur à N, en dégradant très peu la qualité spatiale de la scène sonore. Le volume de données à transmettre est donc réduit et ceci sans dégradation importante de la qualité audio de la scène sonore.Another advantage of the surround transformation is that, in the case where the number N of signals of the sound stage is large, it is possible to represent them by a number L of ambiophonic components much lower than N, degrading very little the quality space of the sound stage. The volume of data to be transmitted is reduced and this without significant degradation of the audio quality of the sound scene.
Ainsi, dans le cas considéré, le module 4 de transformation spatiale effectue une transformation ambiophonique, qui donne une représentation spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées. Pour plus d'information sur les transformations ambiophoniques, on pourra se référer aux documents suivants : « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 31 juillet 2001 , « A highly scalable spherical microphone array based on an orthonormal décomposition of the sound field », Jens Meyer - Gary Elko, Vol. Il - pp. 1781-1784 in Proc. ICASSP 2002.Thus, in the case considered, the spatial transformation module 4 performs an ambiophonic transformation, which gives a compact spatial representation of a 3D sound scene, by producing projections of the sound field on the associated spherical or cylindrical harmonic functions. For more information on the ambiophonic transformations, one can refer to the following documents: "Representation of acoustic fields, application to the transmission and the reproduction of complex sound scenes in a multimedia context", Thesis of doctorate of the university Paris 6, Jerome DANIEL, July 31, 2001, "A highly scalable spherical array based microphone on an orthonormal decomposition of the sound field," Jens Meyer - Gary Elko, Vol. He - pp. 1781-1784 in Proc. ICASSP 2002.
En référence à la figure 2, la formule suivante donne la décomposition en harmoniques cylindriques à un ordre infini d'un signal Si de la scène sonore : Sj(r, φ) = Pi.[J0(kr) + ^ 2.jmJm(kr).(cosm.θrcosm.φ + smm.θrsmm.φ) ] l≤m≤∞ où (Jm) représentent les fonctions de Bessel, r la distance entre le centre du repère et la position d'un auditeur placé en un point M, Pi la pression acoustique du signal Si, θi l'angle de propagation de l'onde acoustique correspondant au signal Si et φ l'angle entre la position de l'auditeur et l'axe du repère.With reference to FIG. 2, the following formula gives the decomposition into cylindrical harmonics at an infinite order of a signal S 1 of the sound stage: Sj (r, φ) = Pi. [J 0 (kr) + ^ 2.j m J m (kr). (cosm.θ r cosm.φ + smm.θ r smm.φ)] l≤m≤∞ where (J m ) represent the functions of Bessel, r the distance between the center of the marker and the position of a listener placed at a point M, Pi the acoustic pressure of the signal Si, θi the propagation angle of the acoustic wave corresponding to the signal Si and φ the angle between the position of the listener and the axis of the marker.
Si la transformation ambiophonique est d'ordre fini p, pour une transformation ambiophonique 2D (selon le plan horizontal), la transformée ambiophonique d'un signal Si exprimée dans le domaine temporel comprend alors les 2p+1 composantes suivantes : (Pi, Pi.cosθi, Pi.sinθi, Pi.cos2θi, Pi.sin2θi, Pi.cos3θi, Pi.sin3θi, ..., Pi.cospθi,If the ambiophonic transformation is of finite order p, for a 2D ambiophonic transformation (in the horizontal plane), the ambiophonic transform of a signal Si expressed in the time domain then comprises the following 2p + 1 components: (Pi, Pi. cosθi, Pi.sinθi, Pi.cos2θi, Pi.sin2θi, Pi.cos3θi, Pi.sin3θi, ..., Pi.cospθi,
Pi.sinpθi).Pi.sinpθi).
Dans ce qui suit, il a été considéré une transformation ambiophonique 2D. Néanmoins l'invention peut être mise en œuvre avec une transformation ambiophonique 3D (dans un tel cas, on considère que les haut-parleurs sont disposés sur une sphère).In what follows, it was considered a 2D surround transformation. However, the invention can be implemented with a 3D surround transformation (in this case, it is considered that the speakers are arranged on a sphere).
Par ailleurs, l'invention peut être mise en œuvre avec un ordre p de transformation ambiophonique quelconque, par exemple p=2 ou plus.Furthermore, the invention can be implemented with any order p of any ambiophonic transformation, for example p = 2 or more.
Soit A = (Ai }\≤ι≤L la matrice de transformation ambiophonique d'ordre p l≤J≤N pour la scène 3D.Let A = (A i} \ ≤ι≤L be the ambiophonic transformation matrix of order pl≤J≤N for the 3D scene.
Ï - 1Ï - 1
Alors A1 ; = 1 , Kr Jî COS θ} si i pair et A1 } = Vïssiin θ ;, si iThen A 1; = 1, Kr Jî COS θ } if i is even and A 1} = Vîssiin θ;, if i
impair, soit : 1 1odd, that is: 1 1
V2 cos 6> yjï COS 6>2 . yfïcosθN V2 cos 6> yji COS 6> 2 . yfïcosθ N
V2 sin 6> 4l ήn θ2 . yfïsmθN yfïcos 2θ1 yfïcos2θ2 . V2 cos2#w V2 sin 6> 4l ήn θ 2 . yfimide N yfccos 2θ 1 yfccos2θ 2 . V2 cos2 # w
A = ^Jî SJn W1 T/Î sin W2 . 4ïήn2θN A = SJn W 1 T / I sin W 2 . 4ïήn2θ N
V2 COS pU1 yJ2 cos pθ2 . yf2 cos pθN V2 COS pU 1 yJ2 cos pθ 2 . yf2 cos pθ N
Soit Y la matrice des composantes fréquentielles des signaux Si, i= 1 à Let Y be the matrix of the frequency components of the signals Si, i = 1 to
Soit X la matrice des composantes ambiophoniques : X = (xι k\≤t≤L Let X be the matrix of the ambiophonic components: X = (x ι k \ ≤t≤L
O≤k≤M-lO≤k≤M-l
La matrice X des composantes ambiophoniques est déterminée à l'aide de l'équation suivante :The matrix X of the surround components is determined using the following equation:
X = A . Y (3)X = A. Y (3)
Le module 4 de transformation spatiale est ainsi adapté pour déterminer la matrice X , à l'aide de l'équation (3) en fonction des données Y1 k et θi (i=1 à N, k= 0 à M-1 ) qui lui sont fournies en entrée.The spatial transformation module 4 is thus adapted to determine the matrix X, using equation (3) as a function of the data Y 1 k and θ i (i = 1 to N, k = 0 to M-1) which are provided as input.
Les valeurs X1 k (i=1 à L, k= 0 à M-1 ), qui sont les éléments à coder par le codeur 1 dans une séquence binaire, sont fournies en entrée du module 6 de quantification.The values X 1 k (i = 1 to L, k = 0 to M-1), which are the elements to be encoded by the encoder 1 in a binary sequence, are provided at the input of the quantization module 6.
Le module 6 de quantification comprend un module 5 de traitement adapté pour mettre en œuvre un procédé pour définir la fonction de quantification à appliquer à des composantes ambiophoniques X1 k (i=1 à L, k= 0 à M-1 ) reçues. Le procédé exploite des relations entre les variations des vecteurs vélocité et énergie utilisés dans les critères de Gerzon et les variations des composantes ambiophoniques. La fonction de quantification ainsi définie est ensuite appliquée aux composantes ambiophoniques reçues par le module 6 de quantification.The quantization module 6 comprises a processing module 5 adapted to implement a method for defining the quantization function to be applied to ambiophonic components X 1 k (i = 1 to L, k = 0 to M-1) received. The method exploits relationships between variations in velocity and energy vectors used in Gerzon criteria and variations in surround components. The quantization function thus defined is then applied to the ambiophonic components received by the quantization module 6.
Les étapes de définition de la fonction de quantification mises en œuvre par le module 5 de traitement sont basées sur les principes décrits ci-dessous, relativement aux valeurs obtenues X1 k (i=1 à L, k= 0 à M-1 ), des composantes ambiophoniques à quantifier.The steps for defining the quantization function implemented by the processing module 5 are based on the principles described below, with respect to the values obtained X 1 k (i = 1 to L, k = 0 to M-1). , surround components to quantify.
Considérons D la matrice de décodage ambiophonique d'ordre p pour un système régulier de rendu audio à Q' haut-parleurs (c'est-à-dire que les haut- parleurs sont disposés régulièrement autour d'un point).Let D be the p-order ambiophonic decoding matrix for a regular loudspeaker audio rendering system (i.e., the loudspeakers are arranged regularly around a point).
χ[*] = est le vecteur pour la fréquence Fk (k=0 à M-1 ) des χ [*] = is the vector for the frequency F k (k = 0 to M-1) of
composantes ambiophoniques d'ordre p avec L = Ip + 1 et τ[k] est le vecteur des puissances des signaux respectifs délivrés aux Q' hauts parleurs après décodage ambiophonique.ambiophonic components of order p with L = Ip + 1 and τ [k] is the vector of the powers of the respective signals delivered to the loudspeakers Q 'after surround decoding.
On a alors τ[fc] = D.X[fc] (4)We then have τ [fc] = D.X [fc] (4)
Si [φv---,φQ^ est le vecteur des angles de propagation acoustique depuis les Q' hauts parleurs respectifs, alors la matrice D de décodage ambiophonique d'ordre p s'écrit de la manière suivante :If [φ v ---, φ Q ^ is the vector of the acoustic propagation angles from the respective Q 'speakers, then the p-order ambiophonic decoding matrix D is written as follows:
Q, On notera que le choix d'un système régulier a été fait parce que la matrice de décodage présente alors une complexité de calcul réduite (soit D' la matrice ambiophonique d'ordre p adaptée pour coder L signaux, alors la matrice de décodage Vdécodage =—D'τ ). Toutefois une autre matrice de décodage ambiophonique peut être utilisée par le module 5 de traitement.Q , It will be noted that the choice of a regular system has been made because the decoding matrix then has a reduced computation complexity (ie D the p-order ambiophonic matrix adapted to code L signals, then the V decoding decoding matrix = -D ' τ ). However, another surround decoding matrix may be used by the processing module.
Les coordonnées des vecteurs de vélocité V et d'énergie E , qu'on nommera ci-après vecteurs de Gerzon, vérifient pour la fréquence Fk , k=0 à M-1 :The coordinates of velocity vectors V and energy E, which will be named hereinafter Gerzon vectors, satisfy for frequency F k , k = 0 to M-1:
rv cosθv [k] r v cosθ v [k]
rE sin θE [k] = r E sin θ E [k] =
et par conséquent on obtient (équations (5)) :and therefore we get (equations (5)):
Σi≤ι≤β{∑i<-j<-L<rXj,k ) cos^Σi ≤ι≤β {Σi <-j <-L <r X j, k ) cos ^
Ce dernier système d'équations (5) définit la relation qui existe entre les composantes ambiophoniques et les vecteurs de Gerzon V et É , définis par leurs coordonnées polaires respectives (rvv) et (rEE) . This last system of equations (5) defines the relation that exists between the ambiophonic components and the Gerzon vectors V and É, defined by their respective polar coordinates (r v , θ v ) and (r E , θ E ).
Une variation des valeurs prises par les composantes ambiophoniques implique donc une variation ou un déplacement correspondant(e) des vecteurs de Gerzon autour de leur position originale.A variation of the values taken by the ambiophonic components therefore implies a corresponding variation or displacement of the Gerzon vectors around their original position.
Or, dans le cas où les composantes ambiophoniques sont quantifiées, leurs valeurs quantifiées ne sont autres que des valeurs approchées de leurs vraies valeurs.However, in the case where the surround components are quantized, their quantized values are only approximate values of their true values.
Il va maintenant être déterminé l'influence sur les vecteurs de Gerzon d'un déplacement élémentaire h autour des valeurs des composantes ambiophoniques.It will now be determined the influence on the Gerzon vectors of an elementary displacement h around the values of the ambiophonic components.
Par définition de la différentielle d'une fonction composée, on peut écrire que : d tm(θv [k](h)) = (l + tm2v [k](h))).dθv [k](h) d tan(θE [k](h)) = (l + tan2E [k](h))).dθE [k](h)By definition of the differential of a compound function, we can write that: d tm (θ v [k] (h)) = (l + tm 2v [k] (h))). Dθ v [k ] (h) d tan (θ E [k] (h)) = (l + tan 2E [k] (h))). dθ E [k] (h)
(6) dr2 (h) = 2rv (h).drv drE (h) = 2rE (h).drE (6) dr 2 (h) = 2r v (h) .dr v dr E (h) = 2r E (h) .dr E
On peut déduire de ces équations (6) que la connaissance des variations des fonctions tan(6^ [fc]) , tan(0£ [fc]) , r2 et r2 permet de déterminer la variation correspondante des vecteurs de Gerzon autour du vecteur h .We can deduce from these equations (6) that the knowledge of the variations of the functions tan (6 ^ [fc]), tan (0 £ [fc]), r 2 and r 2 makes it possible to determine the corresponding variation of the Gerzon vectors around of the vector h.
Le vecteur h = représente l'erreur de quantification pour une fréquence Fk des composantes ambiophoniques X1 k (i=1 à L) considérées.The vector h = represents the quantization error for a frequency F k of the ambiophonic components X 1 k (i = 1 to L) considered.
La différentielle de la fonction tanj^ [&]) autour du vecteur h peut s'écrire comme suit :The differential of the function tanj ^ [&] around the vector h can be written as follows:
d tm(θv [k](h)) = ∑hn. AJlUZ , (7).d tm (θ v [k] (h)) = Σh n . AJLUZ, ( 7 ).
H=I dX. En calculant alors, à l'aide des équations (5), les dérivées partielles des fonctions tan(#v[fc]) et ry 2 par rapport à la variation (K)ι<n<L de chaque composante ambiophonique on obtient pour «e[l,L], fce [O5Af-I], (équations (8)) :H = I dX. By calculating, using equations (5), the partial derivatives of the functions tan (# v [fc]) and r y 2 with respect to the variation (K) ι <n <L of each ambiophonic component we obtain for «e [l, L], fce [O 5 Af-I], (equations (8)):
De même on calcule les dérivées partielles des fonctions tan(0g[fc]) et ri (équations (9)), pour we[l,L] et ke [0,Af-I] :In the same way we calculate the partial derivatives of the functions tan (0g [fc]) and ri (equations (9)), for we [l, L] and ke [0, Af-I]:
Dans le paragraphe ci-dessus ont ainsi été déterminées les relations (8) et (9) qui lient les variations des vecteurs de Gerzon aux variations des composantes ambiophoniques. L'erreur que les vecteurs de Gerzon subissent est donc fonction de l'erreur introduite sur les composantes ambiophoniques. Dans ce qui suit, ces relations sont exploitées par le module 5 de traitement pour déterminer un nouveau type de quantification se basant sur les critères de spatialisation. In the above section, the relations (8) and (9) that link the variations of the Gerzon vectors to the variations of the surround components have been determined. The error that the Gerzon vectors undergo is therefore a function of the error introduced on the surround components. In what follows, these relationships are exploited by the processing module 5 to determine a new type of quantization based on the criteria of spatialization.
Dans un mode de réalisation de l'invention, étant donné un débit de valeur Deb octroyé pour la quantification, le module 5 de traitement cherche à déterminer l'erreur h de quantification des composantes ambiophoniques avec le débit Deb , qui optimise le déplacement des vecteurs de Gerzon.In one embodiment of the invention, given a rate of Deb value granted for quantization, the processing module 5 seeks to determine the quantization error h of the surround components with the Deb flow rate, which optimizes the displacement of the vectors. of Gerzon.
Dans un mode de réalisation, l'optimisation recherchée est la minimisation, ou encore la limitation en-deçà d'un seuil donné, du déplacement des vecteurs de Gerzon autour de leur position correspondant à une erreur nulle. Cela revient à chercher la valeur du vecteur d'erreur h qui permet aux vecteurs de Gerzon de garder une orientation et un module assez proche des vecteurs de Gerzon calculés sans quantification.In one embodiment, the optimization sought is the minimization, or the limitation within a given threshold, of the displacement of the Gerzon vectors around their position corresponding to a zero error. This amounts to looking for the value of the error vector h which allows the Gerzon vectors to keep an orientation and a module fairly close to the calculated Gerzon vectors without quantization.
En effet, les vecteurs de Gerzon permettent de contrôler le degré de fidélité spatiale (stabilité et précision de l'image sonore restituée) lors de la restitution d'une scène sonore sur un dispositif donné.Indeed, Gerzon's vectors make it possible to control the degree of spatial fidelity (stability and accuracy of the sound image restored) during the rendering of a sound scene on a given device.
Considérons le vecteur de fonctions suivantes:Consider the following function vector:
Ce vecteur (10) représente les variations des vecteurs de Gerzon pour un déplacement h des valeurs des composantes ambiophoniques (Xn)1<n<L - This vector (10) represents the variations of the Gerzon vectors for a displacement h of the values of the ambiophonic components (X n ) 1 <n <L -
Soit Deb le débit global alloué au module 6 de quantification pour quantifier les composantes ambiophoniques. Le débit global Deb est égal à la somme des débits D ;>s alloués à chaque fréquence Fs, s= 0 à M-1 , de chaque composante ambiophonique (Xn)1<n<L , M représentant le nombre de bandes spectrales des composantes ambiophoniquesLet Deb be the overall bit rate allocated to the quantization module 6 for quantizing the surround components. The overall bit rate Deb is equal to the sum of the bit rates D;> s allocated to each frequency F s, s = 0 to M-1, of each Surround component (X n ) 1 <n <L , M representing the number of spectral bands of the surround components
L M -IL M -I
Ainsi Deb = ∑ ∑ D] s .So Deb = Σ Σ D ] s .
Dans le cas où le module 6 de quantification est un quantificateur à haute résolution, on peut écrire que :In the case where the quantization module 6 is a high resolution quantizer, it can be written that:
X J,kX J, k
Dj,k = cte + -loèw (11 ) D j, k = cte + - lo èw (11)
Ainsi, dans un mode de réalisation, le problème d'optimisation à résoudre peut être écrit comme suit : r\dθv\(hfThus, in one embodiment, the optimization problem to be solved can be written as follows: r \ dθ v \ (hf
« Déterminer h minimisant κ(h) selon la norme de D Determine h minimizing κ (h) according to the D standard
L M-I dans chaque fréquence Fk, sous la contrainte du débit global Deb = ∑ ∑ D] s ».L MI in each frequency Fk, under the constraint of the global flow Deb = Σ Σ D ] s ".
/=1 k=0/ = 1 k = 0
La résolution de ce problème peut être faite à la place en considérant le problème dual : « Déterminer h minimisant dans chaque fréquence Fk le débit global Deb sous la contrainte |K(h)|2 < |δ|2 », une condition suffisante pour minimiser le débit global Deb consistant à minimiser le débit élémentaire dans chaque fréquence.The resolution of this problem can be done instead by considering the dual problem: "Determine h minimizing in each frequency Fk the overall flow Deb under the constraint | K (h) | 2 <| δ | 2 ", a sufficient condition to minimize the overall bit rate Deb by minimizing the elementary bit rate in each frequency.
L'élément δ est un vecteur indiquant un seuil de perception spatiale donné. Ce vecteur seuil δ peut être déterminé de façon statistique en calculant pour différents systèmes de rendu et pour différents ordres de transformation ambiophoniques le seuil à partir duquel le changement des valeurs prises par les composantes ambiophonique devient perceptible.Element δ is a vector indicating a given threshold of spatial perception. This threshold vector δ can be determined statistically by calculating for different rendering systems and for different ambiophonic transformation orders the threshold at which the change in the values taken by the surround components becomes perceptible.
Dans un mode de réalisation, ce problème d'optimisation est résolu par le module 5 de traitement en utilisant la méthode lagrangienne et des méthodes de descente du gradient, à l'aide par exemple d'un programme d'ordinateur mettant en œuvre les étapes de l'algorithme décrit ci-dessous. Les méthodes lagrangienne et de descente du gradient sont connues. Lors d'une itération de l'algorithme, chaque étape a/, b/ ou c/ est mise en œuvre en parallèle pour chaque fréquence Fk,, k=0 à M.In one embodiment, this optimization problem is solved by the processing module using the Lagrangian method and gradient descent methods, for example using a computer program implementing the steps of the algorithm described below. Lagrangian and gradient descent methods are known. During an iteration of the algorithm, each step a /, b / or c / is implemented in parallel for each frequency F k ,, k = 0 to M.
L'étape d/ utilise les résultats déterminés pour l'ensemble des fréquences Fk> k =0 à M-1.The step d / uses the results determined for the set of frequencies F k> k = 0 to M-1.
Soit la fonction lagrangienne suivante : L(X, λ) = D; jt -λ(κ(x)-δ) . • Dans une première étape a/ pour une fréquence Fk, les coordonnées du vecteur de Lagrange λ sont initialisées : λ = λ(0) .Let the following Lagrangian function: L (X, λ) = D ; jt -λ (κ (x) -δ). In a first step a / for a frequency F k , the coordinates of the Lagrange vector λ are initialized: λ = λ (0) .
Puis les étapes b/ à d/ sont réalisées successivement pour (Z) = (0) :Then the steps b / to d / are carried out successively for (Z) = (0):
Dans l'étape b/, on détermine, relativement à la fréquence Fk,In step b /, it is determined, with respect to the frequency Fk,
Cette détermination est effectuée en recherchant les coordonnées deThis determination is made by searching the coordinates of
X tel que les dérivées partielles fixe) sont nulles, à l'aide des équations (6), (7), (8) et (9).X such as partial derivatives fixed) are zero, using equations (6), (7), (8) and (9).
Dans l'étape c/, on calcule, relativement à la fréquence Fk, λ(/+7) = max|λ(/) + α.g(/i(/)j,θ| , où g représente la fonction gradient.In step c /, we calculate, relative to the frequency F k , λ (/ + 7) = max | λ (/) + α.g (/ i (/) j, θ |, where g represents the function gradient.
E (til) )E (ti l) )
On a s(hw) = drv (h«> )We have (h w ) = dr v (h ">)
A l'aide des équations (6), (7) et (8) et (9), on détermine la valeur de • Dans l'étape d/, on détermine le débit Dj( \ alloué pour le codage de la jιeme composante ambiophonique dans la fréquence Fk, égal àUsing equations (6), (7) and (8) and (9), the value of • In step d /, the flow is determined Dj (\ allocated for coding the j ιeme surround component in the frequency F k equal to
selon l'équation (11 ). according to equation (11).
L M-IL M-I
Puis on calcule la somme D(l) = V /—i V /—i D j(lk) des débits D( ιl-k), .Then we calculate the sum D (1) = V / -i V / -i D j (l k ) of the flow rates D ( ι l - k),.
On compare ensuite la valeur D(l> à la valeur Deb du débit global souhaité.The value D (1> is then compared to the Deb value of the desired overall flow rate.
Si la valeur du débit obtenu D(l) est supérieure à la valeur Deb souhaitée, on incrémente (Z) de 1 et on réitère les étapes b/ à d/.If the value of the obtained bit rate D (1) is greater than the desired value Deb, increment (Z) by 1 and repeat the steps b / to d /.
Sinon, on stoppe les itérations.Otherwise, we stop the iterations.
Lorsque à l'étape d/ d'une itération (lΛ , la valeur du débit D(l/> obtenuWhen in step d / an iteration (lΛ, the value of the flow D (l /> obtained
est inférieure à la valeur Deb souhaitée, les coordonnées h(//) du vecteur h''" calculée lors de l'itération (lf ) pour une fréquence Fk sont celles de l'erreur minimisant le déplacement des vecteurs de Gerzon dans la fréquence Fk.is less than the desired Deb value, the coordinates h (//) of the vector h '''calculated during the iteration (l f ) for a frequency Fk are those of the error minimizing the displacement of the Gerzon vectors in the frequency F k .
La fonction de quantification est ainsi définie pour chaque composante ambiophonique dans chaque fréquence Fk : la coordonnée h} (lf ) (k) calculée pour la fréquence Fk représente l'erreur de quantification de la jιeme composante ambiophonique dans la fréquence Fk.The quantization function is thus defined for each surround component in each frequency F k: the coordinate h} (lf) (k) calculated for the frequency Fk represents the quantization error of the j ιeme surround component in the frequency Fk.
Une fois la quantification à opérer ainsi définie par le module 5 de traitement, Le module 6 détermine les indices de quantification correspondant pour chaque composante spectrale ambiophonique et fournit ces données au module 7 de constitution d'une séquence binaire. Ce dernier, après avoir effectué le cas échéant un traitement supplémentaire sur les données reçues (par exemple un codage entropique), constitue, en fonction de ces données, une séquence binaire destinée par exemple à être transmise dans un flux binaire Φ.Once the quantization to operate thus defined by the processing module 5, the module 6 determines the corresponding quantization indices for each ambiophonic spectral component and supplies these data to the module 7 for constituting a binary sequence. The latter, after having carried out, if necessary, additional processing on the received data (for example an entropy coding) constitutes, according to these data, a binary sequence intended for example to be transmitted in a bit stream Φ.
L'invention propose ainsi une nouvelle technique de quantification applicable aux signaux multicanaux, qui prend en compte des caractéristiques spatiales de la scène à coder. La quantification, définie par l'allocation des bits, par les pas de quantification ou encore par un indice caractérisant un quantificateur parmi un ensemble, est déterminée de manière à provoquer une déviation limitée des vecteurs de Gerzon, et ainsi garantir lors de la restitution des signaux quantifiés une scène acoustique fidèle à la scène acoustique originale. Les vecteurs vélocité et énergie sont deux outils mathématiques introduits par Gerzon dont l'objectif est de traduire l'effet de la localisation, dans les domaines basse et haute fréquences respectivement, d'une source sonore synthétisée. Pour un auditeur placé au centre d'un dispositif de reproduction, le vecteur vélocité V et le vecteur d'énergie É sont associés respectivement aux effets de localisation en basse et haute fréquences.The invention thus proposes a novel quantization technique applicable to multichannel signals, which takes into account spatial characteristics of the scene to be encoded. The quantization, defined by the allocation of the bits, by the quantization steps or by an index characterizing a quantizer among a set, is determined so as to cause a limited deviation of the Gerzon vectors, and thus to guarantee during the restitution of the Quantized signals an acoustic scene true to the original acoustic scene. The velocity and energy vectors are two mathematical tools introduced by Gerzon whose objective is to translate the effect of the localization, in the low and high frequency domains respectively, of a synthesized sound source. For a listener placed in the center of a reproduction device, the velocity vector V and the energy vector E are respectively associated with the location effects at low and high frequencies.
Dans un mode de réalisation, en pratique, on détermine une fréquence de transition qui détermine les domaines de prépondérance des critères V et E .In one embodiment, in practice, a transition frequency is determined which determines the preponderance domains of the V and E criteria.
Ainsi, pour les fréquences supérieures à cette fréquence de transition, la prédiction de la localisation est effectuée grâce au vecteur d'énergie É et pour les fréquences en-dessous de cette fréquence de transition, la localisation se base sur le vecteur de vélocité V .Thus, for the frequencies higher than this transition frequency, the prediction of the location is carried out thanks to the energy vector É and for the frequencies below this transition frequency, the location is based on the velocity vector V.
Physiquement, la fréquence de transition correspond à la fréquence au delà de laquelle le front d'onde est plus petit que la dimension de la tête. Dans le cas des systèmes ambiophoniques du premier ordre, cette fréquence de transition est de l'ordre de 700 Hz.Physically, the transition frequency corresponds to the frequency beyond which the wavefront is smaller than the size of the head. In the case of first-order surround systems, this transition frequency is of the order of 700 Hz.
A partir de ces données, il est possible alors de scinder le problème d'optimisation en deux problèmes. Le premier problème correspond à chercher à optimiser la position de la source reconstruite après quantification dans le domaine des basses fréquences, et le deuxième problème correspond à chercher à l'optimiser dans le domaine des hautes fréquences. Ainsi, il est possible de réduire le nombre de contraintes à deux. On va f\dθv\(h)\ donc utiliser dans l'algorithme d'optimisation juste le couple ou le From these data, it is then possible to split the optimization problem into two problems. The first problem corresponds to seeking to optimize the position of the source reconstructed after quantization in the low frequency domain, and the second problem corresponds to seeking to optimize it in the high frequency domain. Thus, it is possible to reduce the number of constraints to two. We will f \ dθ v \ (h) \ so use in the optimization algorithm just the couple or the
couple selon qu'on se trouve dans le domaine basse fréquences ou haute fréquences.couple depending on whether one is in the low frequency domain or high frequencies.
Dans le mode de réalisation décrit ci-dessus, l'invention est mise en œuvre en utilisant une transformation spatiale inverse d'une transformation spatiale utilisée lors du codage.In the embodiment described above, the invention is implemented using an inverse spatial transformation of a spatial transformation used during coding.
Dans un mode de réalisation, les vecteurs de Gerzon sont calculés et utilisés indépendamment d'une transformée éventuellement utilisée lors du codage, c'est-à-dire que l'invention peut être mise en œuvre lorsque les signaux subissent, ou non, une transformation spatiale ou autre.In one embodiment, the Gerzon vectors are computed and used independently of a transform possibly used during coding, ie the invention may be implemented when the signals are or are not spatial transformation or other.
En effet, ces vecteurs de Gerzon sont des paramètres physiques qui permettent de caractériser le front d'onde reconstruit par la superposition des ondes émises par les différents hauts parleurs (voir « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, 31 juillet 2001 , Jérôme Daniel).Indeed, these Gerzon vectors are physical parameters that make it possible to characterize the wavefront reconstructed by the superposition of the waves emitted by the different loudspeakers (see "Representation of acoustic fields, application to the transmission and reproduction of scenes". complex sounds in a multimedia context ", Doctoral thesis of the Paris 6 University, July 31, 2001, Jérôme Daniel).
En référence à la figure 3 représentant un dispositif de restitution 10 comprenant N hauts parleurs Hj (i=1 à N) (dont seuls les haut-parleurs Hi, Hn et Hp sont représentés), on considère un point d'écoute E dans l'espace qui représente le centre du dispositif de restitution sonore 10 (figure 1 ).With reference to FIG. 3 representing a rendering device 10 comprising N loudspeakers Hj (i = 1 to N) (of which only the loudspeakers Hi, H n and Hp are represented), a listening point E in FIG. the space which represents the center of the sound reproduction device 10 (FIG. 1).
Il est possible dans ce cas de calculer les vecteurs vélocité et énergie relatif à ce point d'écoute E en utilisant les formules suivantes :It is possible in this case to calculate the velocity and energy vectors relative to this listening point E by using the following formulas:
- ∑ G1 2U1 où (G1,- -,G^) sont les gains des différents haut-parleurs Hj, i=1 à N constituant la scène sonore et les vecteurs U1 sont des vecteurs unitaires partant du point E vers les haut-parleurs Hj.- Σ G 1 2 U 1 where (G 1 , - -, G ^) are the gains of the different loudspeakers Hj, i = 1 to N constituting the sound stage and the vectors U 1 are unitary vectors starting from the point E towards the loudspeakers Hj.
A partir de cette formule, les vecteurs de Gerzon peuvent être calculés sans l'utilisation préalable de l'encodage ambiophonique.From this formula, Gerzon vectors can be computed without the prior use of surround encoding.
Dans le cadre de la réalisation d'un quantificateur spatial basé sur les vecteurs de Gerzon, il est possible alors de définir le problème de quantification comme suit :In the context of the realization of a spatial quantizer based on the Gerzon vectors, it is then possible to define the quantization problem as follows:
Pour un débit Deb donné, il faut minimiser la variation des vecteurs vélocité Ay = IIv -Vl et énergie ΔE = ||Ê' -Ê| , avec V et Ε représentantFor a given flow Deb must minimize the variation in velocity vectors Ay = IIv yl and energy .DELTA.E = || Ê '-e | , with V and Ε representing
II II2 II II2 respectivement le vecteur vélocité et le vecteur énergie calculés après quantification. La résolution de ce problème se fait de façon similaire à la résolution décrite ci-dessus avec l'utilisation de la transformée ambiophonique, basée sur la résolution du problème lagrangien. II II II II II respectively velocity vector and energy vector calculated after quantification. The resolution of this problem is similar to the resolution described above with the use of the ambiophonic transform, based on the resolution of the Lagrangian problem.

Claims

REVENDICATIONS
1. Procédé de codage de composantes ( X1 k ) d'une scène audio comprenant N signaux (Si,..., SN) avec N>1 , comportant une étape de quantification de certaines au moins des composantes, caractérisé en ce que ladite quantification est définie en fonction au moins d'un vecteur d'énergie (E ) et/ou d'un vecteur de vélocité (y ) associé(s) à des critères de Gerzon et fonction desdites composantes.A method of encoding components (X 1 k ) of an audio scene comprising N signals (Si, ..., S N ) with N> 1, comprising a step of quantizing at least some of the components, characterized in that said quantification is defined as a function of at least one energy vector (E) and / or a velocity vector (y) associated with Gerzon criteria and a function of said components.
2. Procédé selon la revendication 1 , selon lequel la quantification est définie en fonction de variations d'au moins un desdits vecteurs (y , E) lors de variations dé composantes ( X ι k ).2. Method according to claim 1, wherein the quantization is defined as a function of variations of at least one of said vectors (y, E) during component variations (X ι k ).
3. Procédé selon la revendication précédente, selon lequel on détermine des variations de composantes ( X1 k ) correspondant à la minimisation, ou à la limitation, de variations d'au moins un des vecteurs (V , E ) et on déduit, en fonction desdites variations déterminées des composantes, des valeurs d'erreurs de quantification permettant de définir la quantification des composantes.3. Method according to the preceding claim, according to which component variations (X 1 k ) corresponding to the minimization or limitation of variations of at least one of the vectors (V, E) are determined and function of said determined component variations, quantization error values making it possible to define the quantization of the components.
4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce qu'il comporte une étape de détection d'une fréquence de transition permettant de déterminer celui des vecteurs parmi le vecteur d'énergie ou le vecteur de vélocité à prendre en compte pour définir la quantification des composantes.4. Method according to one of claims 1 to 3, characterized in that it comprises a step of detecting a transition frequency for determining the one of the vectors of the energy vector or the velocity vector to be taken into account. account to define the quantification of the components.
5. Procédé selon l'une des revendications précédentes, caractérisé en ce que les composantes sont des composantes obtenues par transformation spatiale. 5. Method according to one of the preceding claims, characterized in that the components are components obtained by spatial transformation.
6. Procédé selon la revendication 5, caractérisé en ce que les composantes spatiales sont des composantes ambiophoniques, déterminées par une transformation spatiale ambiophonique.6. Method according to claim 5, characterized in that the spatial components are ambiophonic components, determined by an ambiophonic spatial transformation.
7. Procédé selon la revendication 5 ou 6, selon lequel le vecteur d'énergie (E ) est calculé en fonction d'une transformation spatiale inverse (D ) sur lesdites composantes spatiales et/ou le vecteur de vélocité (y ) est calculé en fonction d'une transformation spatiale inverse (D) sur lesdites composantes spatiales.The method according to claim 5 or 6, wherein the energy vector (E) is calculated as a function of an inverse spatial transformation (D) on said spatial components and / or the velocity vector (y) is calculated as function of an inverse spatial transformation (D) on said spatial components.
8. Module (5) de traitement de composantes ( X1 k ) provenant d'une scène audio comprenant N signaux (Si,..., SN) avec N>1 , comprenant des moyens pour déterminer des éléments de définition d'une étape de quantification de certains au moins des composantes, en fonction au moins du vecteur d'énergie (E ) et/ou du vecteur de vélocité (V ) associés à des critères de Gerzon et fonction desdites composantes.8. Module (5) for processing components (X 1 k ) from an audio scene comprising N signals (Si, ..., S N ) with N> 1, comprising means for determining definition elements of a step of quantizing at least some of the components, as a function at least of the energy vector (E) and / or the velocity vector (V) associated with Gerzon criteria and function of said components.
9. Codeur (1 ) audio adapté pour coder des composantes ( X1 k ) d'une scène audio comprenant N signaux (Si,..., SN) avec N>1 , comportant : un module de traitement (5) de composantes selon la revendication 8 ; un module de quantification adapté pour définir des données de quantification associés à des composantes en fonction au moins d'éléments déterminés par le module de traitement.An audio encoder (1) adapted to encode components (X 1 k ) of an audio scene comprising N signals (Si, ..., S N ) with N> 1, comprising: a processing module (5) of components according to claim 8; a quantization module adapted to define quantization data associated with components based on at least elements determined by the processing module.
10. Programme d'ordinateur à installer dans un module de traitement (5), ledit programme comprenant des instructions pour mettre en œuvre, lors d'une exécution du programme par des moyens de traitement dudit module, les étapes d'un procédé selon l'une quelconque des revendications 1 à 7. 10. Computer program to be installed in a processing module (5), said program comprising instructions for implementing, during a program execution by processing means of said module, the steps of a method according to the present invention. any of claims 1 to 7.
EP08840014A 2007-10-01 2008-09-30 Method, module and computer software with quantification based on gerzon vectors Withdrawn EP2198425A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0757972 2007-10-01
PCT/FR2008/051764 WO2009050409A1 (en) 2007-10-01 2008-09-30 Method, module and computer software with quantification based on gerzon vectors

Publications (1)

Publication Number Publication Date
EP2198425A1 true EP2198425A1 (en) 2010-06-23

Family

ID=39295969

Family Applications (1)

Application Number Title Priority Date Filing Date
EP08840014A Withdrawn EP2198425A1 (en) 2007-10-01 2008-09-30 Method, module and computer software with quantification based on gerzon vectors

Country Status (3)

Country Link
US (1) US20100241439A1 (en)
EP (1) EP2198425A1 (en)
WO (1) WO2009050409A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9338552B2 (en) 2014-05-09 2016-05-10 Trifield Ip, Llc Coinciding low and high frequency localization panning
WO2021138517A1 (en) 2019-12-30 2021-07-08 Comhear Inc. Method for providing a spatialized soundfield

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2009050409A1 *

Also Published As

Publication number Publication date
WO2009050409A1 (en) 2009-04-23
US20100241439A1 (en) 2010-09-23

Similar Documents

Publication Publication Date Title
EP2143102B1 (en) Audio encoding and decoding method and associated audio encoder, audio decoder and computer programs
EP2374123B1 (en) Improved encoding of multichannel digital audio signals
EP2374124B1 (en) Advanced encoding of multi-channel digital audio signals
EP2168121B1 (en) Quantification after linear conversion combining audio signals of a sound scene, and related encoder
EP2002424B1 (en) Device and method for scalable encoding of a multichannel audio signal based on a principal component analysis
JP7789811B2 (en) Spatialized audio coding with rotational interpolation and quantization.
JP2009524108A (en) Complex transform channel coding with extended-band frequency coding
EP2005420A1 (en) Device and method for encoding by principal component analysis a multichannel audio signal
EP2145167B1 (en) Audio encoding method, audio encoder, coded signal and associated computer program
EP2198425A1 (en) Method, module and computer software with quantification based on gerzon vectors
EP4042418B1 (en) Determining corrections to be applied to a multichannel audio signal, associated coding and decoding
EP4172986B1 (en) Optimised coding of an item of information representative of a spatial image of a multichannel audio signal
EP4268374B1 (en) Optimised encoding of rotation matrices for encoding a multichannel audio signal
EP4533449A1 (en) Title: spatialized audio encoding with configuration of a decorrelation processing operation
WO2023285748A1 (en) Optimised spherical vector quantisation

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20100329

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA MK RS

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20110110

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20120327