[go: up one dir, main page]

MX2007009559A - Codificacion de junta parametrica de fuentes de audio. - Google Patents

Codificacion de junta parametrica de fuentes de audio.

Info

Publication number
MX2007009559A
MX2007009559A MX2007009559A MX2007009559A MX2007009559A MX 2007009559 A MX2007009559 A MX 2007009559A MX 2007009559 A MX2007009559 A MX 2007009559A MX 2007009559 A MX2007009559 A MX 2007009559A MX 2007009559 A MX2007009559 A MX 2007009559A
Authority
MX
Mexico
Prior art keywords
audio
source signals
signals
source
mixer
Prior art date
Application number
MX2007009559A
Other languages
English (en)
Inventor
Christof Faller
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34938725&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=MX2007009559(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of MX2007009559A publication Critical patent/MX2007009559A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

El siguiente escenario de codificacion se dirige: un numero de senales de fuente de audio necesitan ser transmitidas o almacenadas para el proposito de mezclar sintesis de campo e ondas, multi-canales que rodean, o senales de estereo, despues de descodificar las senales de fuente. La tecnica propuesta ofrece ganancia de codificacion significante, cuando se codifica en conjunto las senales de fuentes, comparado a la codificacion separada de ellas, aun cuando ninguna redundancia este presente entre las senales de fuentes. Esto es posible considerando las propiedades estadisticas de las senales de fuentes, las propiedades de las tecnicas de mezcla y audiencia espacial. La suma de las senales de fuentes se transmite mas las propiedades estadisticas de las senales de fuente que determinan en su mayoria las filas espaciales importantes con percepcion de los canales de audio mixtos finales. Estas senales de fuentes se recuperan en el receptor, de modo que sus propiedades estadisticas se aproximen a las propiedades correspondientes de las senales de fuentes originales. Las evaluaciones subjetiva indican que se logra alta calidad de audio por este esquema propuesto.

Description

CODIFICACIÓN DE JUNTA PARAMETRICA DE FUENTES DE AUDIO 1. INTRODUCCIÓN En un problema de codificación general, tenemos un número de señales de (mono) fuente si (n) (1 < i < M y un vector de descripción de escena S (n) , donde n es el índice de tiempo. El vector de descripción de escena contiene parámetros, tal como posiciones de fuente (virtuales) , anchos de fuente y parámetros acústicos, tal como los parámetros del área (virtuales) . La descripción de escena puede ser invariante del tiempo o puede cambiar con el tiempo. Las señales de fuente y la descripción de escena se codifican y transmiten a un descodificador. Las señales de fuente codificadas, SÍ (n) son mezcladas sucesivamente como una función de la descripción de escena, S (n) , para generar síntesis de campo de onda, multi-canales o señales etéreo, como una función del vector de descripción de escena. Las señales de salida del descodificador se denotan como xi (n) ) 0 < i < ) . Nota, el vector de la descripción de escena S (n) puede no ser transmitido, pero puede ser determinado en el descodificador. En este documento, el término de ¡señal de audio de estéreo" siempre se refiere a señales de audio de estéreo de dos canales.
ISOMEC MPEG-4 dirige el escenario de codificación descrito. Define la descripción de escena y usa ara cada señal de fuente ("natural") un codificador de mono-audio separado, por ejemplo, un codificador de audio de AAC. Sin embargo, cuando una escena compleja con muchas fuentes se va a mezclar, el régimen de bits llega a ser alto, es decir, el régimen de bits escala en forma ascendente con el número de fuentes. La codificación de una señal de fuente con alta cualidad requiere de aproximadamente 60 a 90 kb/seg. Previamente, dirigimos un caso especial del problema de codificación descrito [1] [2] con un esquema denotado Codificación de Fila Binaural (BCC) para la Presentación Flexible. Por terminar solamente la suma de las señales de fuente dadas, más la información lateral de régimen de bits bajo, se logra este régimen de bits bajo. Sin embargo, las señales de fuente no pueden ser recuperadas en el descodificador y el esquema se limita a la generación de señales rodeantes de estéreo y de multi-canales . Igualmente, sólo se usa la mezcla sencilla, con base en la panorámica de amplitud y retardo. Así, la dirección de fuentes puede ser controlada, pero no otros atributos de imagen espacial de auditorio. Otra limitación del esquema es su cualidad de audio limitada. Especialmente, hay una disminución en la cualidad de audio conforme el número de señales de fuente aumenta.
El documento [1] (Codificación de Fila Binaural, Estéreo Paramétrica, MP3 Rodeante, MPEG Rodeante) cubre el caso donde N canales de audio se codifican y N canales de audio, con filas similares luego los canales de audio originales se descodifican. La información lateral transmitida incluye parámetros de fila de inter-canales relativos a las diferencias entre los canales de entrada . Los canales de las señales de audio estéreo y de múltiples canales contienen mezclas de señales de fuentes de audio y son así diferentes en naturaleza que las señales de fuente de audio puras . Las señales de audio estéreo y de múltiples canales se mezclan de modo que cuando se reproducen en un sistema de reproducción apropiado, el escucha percibirá una imagen espacial de auditorio ("etapa de sonido") como se captura por el ajuste de grabación o se diseña por el ingeniero de grabación durante la mezcla. Un número de esquemas para la codificación de juntas para los canales de una señal de audio de estéreo o de múltiples canales, se han propuesto previamente.
COMPENDIO DE LA INVENCIÓN El objeto de la invención es proporcionar un método para transmitir una pluralidad de señales de fuentes, mientras usa un ancho de banda mínimo. En la mayoría de los métodos conocidos, el formato de reproducción (por ejemplo estéreo, 5.1) es predefinido y tiene una influencia directa en el escenario de codificación. La corriente de audio en el costado del descodificador debe usar solamente este formato de reproducción predefinido, por lo tanto, une el usuario a un escenario de reproducción predefinido (por ejemplo, estéreo). La invención propuesta codifica N señales de fuente de audio, típicamente sin canales de señales de estéreo o de múltiples canales, pero señales independientes, tal como diferentes señales de voces o instrumentos. La información del costado transmitido incluye parámetros estadísticos que se relacionan a las señales de fuente de audio de entrada. La presente invención descodifica M canales de audio con diferentes filas que las señales de fuentes de audio originales. Estas diferentes filas son sintetizadas implícitamente por aplicar un mezclador a la señal de suma recibida. Este mezclador es controlado como una función de la información de fuente estadística recibida y los parámetros de formato de audio recibidos (o localmente determinados) , y los parámetros de mezcla. Alternativamente, estas diferentes filas son computadas explícitamente como una función de la información de fuente estadística recibida, y los parámetros de formato de audio (determinados localmente, y los parámetros de mezcla. Estas filas computadas se usan para controlar un descodificador de la técnica anterior (Binaural Cue Coding, Parametric Stereo, MPEG Surround) /Codificación de Fila Binaural, Estéreo Paramétrico, Rodead de MPEG) por sintetizar los canales de salida dada la suma de la señal recibida. El esquema propuesto para la codificación de junta de las señales de fuente de audio es el primero de su clase, se diseñó para la codificación de junta de las señales de fuente de audio. Estas señales de fuente de audio son usualmente señales de mono-audio que no son adecuadas para la reproducción sobre un sistema de audio de estéreo o de múltiples canales. Para brevedad, en lo siguiente, las señales de fuente de audio son a menudo denotadas como señales de fuente. Las señales de fuente de audio primero necesitan ser mezcladas a las señales de audio estéreo, de múltiples canales o de síntesis de campo de onda, antes de la reproducción. La señal de fuente de audio puede ser un instrumento sencillo o conversador, o la suma de un número de instrumentos y conversadores. Otro tipo de señal de fuente de audio es una señal de mono-audio capturada con un micrófono de zona durante un concierto. A menudo las señales de fuente de audio se almacenan en grabadoras de múltiples pistas o en sistemas de grabación de disco duro. El esquema reclamado para la codificación de junta de las señales de fuente de audio se basa en transmitir solamente la suma de las señales de fuente de audio, o una suma pesada de las señales de fuente. Opcionalmente, la suma pesada puede ser llevada a cabo con diferentes pesos en diferentes subbandas y los pesos pueden ser adaptados en el tiempo, la suma con igualación, como se describe en el Capítulo 3.3.2 en [1], puede también ser aplicada. En lo siguiente, cuando nos referimos a la suma o señal de suma, siempre se entiende una señal generada por (1) o generada como se describió. Además de la señal de suma, la información lateral se transmite. La suma y la información secundaria representan la corriente de audio producida. Opcionalmente, la señal de suma es codificada usando un codificador convencional de mono-audio. La corriente puede ser almacenada en un archivo (CD, DVD, Disco Duro) o transmitida al receptor. La información secundaria representa las propiedades estadísticas de las señales de fuente que son los factores más importantes que determinan las filas espaciales percibidas de las señales de salida del mezclador. Se mostrará que estas propiedades son sobres espectrales desarrollados temporalmente y funciones de auto-correlación. Alrededor de 3 kb/seg de información lateral es transmitida por la señal de fuente. En el receptor, las señales de fuente §?(n) (1 < u < M) se recuperan con las propiedades estadísticas antes mencionadas, que se aproximan a las propiedades correspondientes de las señales de fuente originales y la señal de suma.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La invención se comprenderá mejor, gracias a las Figuras adjuntas, en las cuales: la figura 1 muestra un esquema en el cual la transmisión de cada señal de fuente se hace independientemente para el proceso ulterior; la figura 2 muestra un número de fuentes transmitidas como la señal de suma más la información secundaria; la figura 3 muestra un diagrama de bloques del esquema de Codificación de Fila Binaural; - la figura 4 muestra un mezclador para generar señales estéreo, con base en las varias señales de fuente, la figura 5 muestra la dependencia entre ICTD, ICLD e ICC y la potencia de subbanda de la señal de fuente; la Figura 6 muestra el proceso de la generación de información secundaria; la figura 7 muestra el proceso de estimar los parámetros de LPC de cada señal de fuente; la figura 8 muestra el proceso de recrear las señales de fuente desde la señal de suma; la figura 9 muestra un esquema alternativo para la generación de cada señal desde la señal de suma; la figura 10 muestra un mezclador para generar señales estéreo en la señal de suma; - la figura 11 muestra un mezclador para generar señales estéreo, basadas en la señal de suma; la figura 11 muestra un algoritmo panorámico de la amplitud, que previene que los niveles de fuente dependan en los parámetros de mezcla; - la figura 12 muestra un arreglo de bocina del sistema de reproducción de síntesis de campo de onda; la figura 13 muestra cómo recuperar una estimación de las señales de fuente en el receptor por procesar la mezcla descendente de los canales transmitidos; y - la figura 14 muestra cómo recuperar una estimación de las señales de fuente en el receptor, por procesar los canales transmitidos .
II. DEFINICIONES. NOTACIÓN Y VARIABLES Se usan en este documento la siguiente notación y variables: n índice de tiempo; i canal de audio o índice de fuente; d índice de retardo; M número de señales de fuente de entrada del codificador; N número de canales de salida del descodificador ; x»(n) señales de fuentes originales mezcladas; xJ (n) señales de salida del descodificador mezcladas; Sj, (n) señales de fuente de entrada del codificador; s. (n) señales de fuente transmitidas, también llamadas señales de pseudo-fuente s (n) señal de suma transmitida; yi (n) señal de audio del canal L; (señal de audio que se van a re-mezclar) ; §! (k) una señal de subbanda de sJn) (definida similarmente para otras señales) ; E(sx2 (n) ] estimación de tiempo breve de sx2 (n) (definida similarmente para otras señales) ; ICLD diferencia de nivel ínter-canales ; ICTD diferencia de tiempo inter-canales; ICC coherencia ínter-canales ?L(n) ICLD de subbanda estimada; x(n) ICT de subbanda estimado; c(n) ICC de subbanda estimado; Pi (n) potencia de subbanda de fuente relativa; ax bx factores de escala del mezclador; Ci, di retardos del mezclador; ?Li, t(n) nivel del mezclador y diferencia de tiempo; Gi ganancia de fuente del mezclador III. CODIFICACIÓN DE JUNTA DE SEÑALES DE FUENTE DE AUDIO Primero, la codificación de Fila Binaural (BCC( una técnica de codificación de audio de múltiples canales, paramétrica, se describe. Luego se muestra que con la misma vista como BCC se basa en que uno puede idear un algoritmo para la codificación en conjunto de las señales de fuente para un escenario de codificación.
A, Codificación de fila binaural (BCC) Un esquema de BC [1] [2] para una codificación de audio de múltiples canales se muestra en la siguiente figura. La señal de audio de múltipoles canales de entrada se mezcla en forma descendente a un solo canal. En oposición a la información de codificación y transmisión, aproximadamente todas las formas de onda del canal, solamente la señal mezclada en forma descendente se codifica (con el codificador de monoaudio convencional) y transmite. Adicionalmente, las diferencias de canal de audio motivadas percibidas se estiman entre los canales de audio originales y también transmitidas al descodificador. Este descodificador genera sus canales de salida, de modo que las diferencias del canal de audio se aproximen a las diferencias de canal de audio correspondientes de la señal de audio original . La localización de suma implica que las diferencias del canal de audio relevantes con percepción para una pareja de canales de la señal de la bocina son la diferencia de tiempo inter-canales ICTD) y la diferencia de nivel inter-canales (ICLD) , ICTD e ICLD pueden estar relacionadas a la dirección percibida de los eventos de auditorio. Otros atributos de imagen espacial de auditorio, tal como un ancho de fuente aparente y el ambiente del escucha, pueden estar relacionados con la coherencia interaural (IC) . Para parejas de bocinas en el frente o parte posterior de un escucha, la coherencia interaural está a menudo relacionada directamente a la coherencia inter-canales por (ICC) , que es así considerada como la tercer medida de la diferencia de canal de audio por BCC, ICTD, ICLD e ICC se estima en las subbandas como una función del tiempo. Tanto la resolución espectral como temporal que se usan, son motivadas por percepción.
B. Codificación de junta paramétrica de fuentes de audio Un descodificador de BCC es capaz de generar una señal de audio de múltiples canales, con cualquier imagen espacial de auditorio, por tomar una mono-señal y sintetizar en intervalos de tiempo regulares una sola fila de ICTD, ICLD e ICC específica por subbanda y pareja de canales. El buen desempeño de los esquemas de BCC para un amplio intervalo de material de audio [véase 1] implica que la imagen espacial de auditorio percibida es grandemente determinada por ICTD, ICLD e ICC. Por lo tato en oposición a las señales de fuente "limpias" requeridas, s (n) como entrada del mezclador en la Figura 1, requiere justamente señales de pseudo-fuentes sJ (n) , con la propiedad que ellas resulten en ICTD, ICLD e ICC similares, en la salida del mezclador, como para el caso de suministro de las señales de fuente reales al mezclador Hay tres metas para la generación de s^Jn) : • Si ! (n) se suministra a un mezclador, los canales de salida del mezclador tendrán aproximadamente las mismas filas espaciales (ICLD, ICTD, ICC) como si sx (n) se suministrara al mezclador. • sJn) será generado con tan poca información como sea posible, alrededor de las señales de fuente originales s (n) (debido a la meta es tener la información del costado de régimen de bits bajo) . • Los sJn) se generan desde la señal de suma transmitida s (n) , de modo que una cantidad mínima de distorsión de señal sea introducida.
Para derivar el esquema propuesto, se considera un mezclador de estéreo Una simplificación más sobre el caso general es que sólo la panorámica de amplitud y retardo se aplican para la mezcla. Si las señales de fuente discretas están disponibles al descodificador, una señal de estéreo sería mezclada como se muestra en la Figura 4, es decir, En este caso, el vector de descripción de escena S (n) contiene justamente direcciones de fuente que determinan los parámetros de mezcla .
M(n) = (ai , Zi, ... , anf, o* , 62 bw , Cf , C2, ... , CM , df , da ... , dw ) (3) donde T es la transposición de un vector. Nótese que para los parámetros de mezcla, ignoramos el índice de tiempo por conveniencia de notación. Los parámetros más convenientes para controlar el mezclador son el tiempo y la diferencia de nivel, Ti y ?Li, que se relacionan a ai, bi, Ci y di por a, = b¡ = 10(G,+?L° 2V. c, = max {-T,-, 0} cfi = max {T/( 0} donde Gi es un factor de ganancia de fuente en dB . En lo siguiente, calculamos ICTD, ICLD e ICC de la salida del mezclador de estéreo como una función de las señales de fuente de entrada Si(n) . Las expresiones obtenidas darán indicación de cuáles propiedades de señales de fuentes determinar, ICTD, ICLD e ICC (junto con los parámetros de mezcla) . §i(n) son luego generadas de modo que las propiedades de la señal de fuente identificadas se aproximen a las propiedades correspondientes de las señales de fuente originales.
B.l ICTD, ICLD e ICC de la salida del mezclador. Las filas son estimadas en subbandas y como una función del tiempo. En lo siguiente, se supone que las señales de fuente Si(n) son cero y mutuamente independientes. Una pareja de señales de subbanda de la salida (2) del mezclador se denota xx (n) y x2 (n) .
Nótese que para simplicidad de notación usamos el mismo índice de tiempo n, para el dominio de tiempo y las señales de dominio de subbanda. Igualmente no se usa un índice de subbanda y el análisis / proceso descrito se aplica a cada subbanda independientemente. La potencia de la subbanda de las dos señales de salida del mezclador es : donde Si (n es una señal de subbanda de la fuente Si (n) y E[ ] denota la expectación de tiempo corto, por ejemplo, donde K determina la longitud del promedio de movimiento. Nótese E s2 {n) } que los valores de potencia de subbanda representan para cada señal de fuente, la envoltura espectral como una función de tiempo. El ICLD ?L(n), es (7) Para estimar ICTD e ICC, la función de correlación normalizada se estimó. La IC, c (n) se calculó de acuerdo con C(n) = max f(n>d) d (9) Para la computación de ICTD. T(n),la ubicación de la cresta más alta en el eje de retardo se calcula, T(n) = arg max f(n>d) d (10) Ahora la cuestión es, cómo se pude la función de auto-correlación normalizada ser computada como una función de los parámetros de mezcla. Junto con (2) , 8) , puede ser escrito como que es equivalente a (12) F(n.?) donde la función de auto-correlación normalizada es (13) y Ti = di - Cj Nótese que para calcular (12) dada (Ia se ha supuesto que las señales son estacionarias de sentido amplio, dentro del intervalo considerado de retardos, es decir, E{s (n)} = E {s;(n -Cl)} E {si (n)si(n + ci - dl + d)} ) = E{si (n -ci)sl(n -di A d)} Un ejemplo numérico para dos señales de fuente, que ilustra la dependencia entre ICTD, ICLD e ICC y la potencia de subbanda de fuente, se muestra en la Figura 5. La mitad superior y el panel de fondo de la Figura 5 muestran ?L(n) , T (n) y c (n) , respectivamente, como una función de la relación de la potencia de subbanda de las dos señales de fuente a = E{Si2(")}/ (E{SÍ2(?)} + E{£»2 1 ' (/.)}), para diferentes parámetros de mezcla ^ ' 1 ' *' 1 ' 2- . Nótese que cuando sólo una fuente tiene potencia en la subbanda (a = 0 o a = 1) luego ?L(n) y T(n) calculados son iguales a los parámetros de mezcla * 1 ' 2| ' ' l2>-Información secundaria necesaria La ICLD (7) depende de los parámetros de mezcla (ax, bx Ci, dx) y en la potencia de subbanda de tiempo corto de las fuentes, ' ' La función de correlación transversal de subbanda normalizada ' ' que es necesaria para la computación E {s, (n) \ de la ICTD (10) e (C (9) depende de y adicionalmente en F|(/7, ?) (13), la función de auto-correlacion de subbanda normalizada para cada señal de fuente. El máximo de ' ' radica dentro del min?{T?} < d < maxrfTi}. ^ . . . . intervalo Para fuente con parámetro de mezclador T-. = dj. -c-. el intervalo correspondiente para el cual la propiedad de la subbanda de señal de fuente '* ' ^ ' es necesaria, es min{T/} - T/< e < max {T,} - T, 1 l (14) Puesto que las filas de ICTD, ICLD e ICC dependen de las propiedades de subbanda de la señal de fuente , en el intervalo (14) , en principio esas propiedades de la subbanda de la señal de fuente, necesitan ser transmitidas como información secundaria. Suponemos que cualquier otra clase de mezclador (por ejemplo mezclador con efecto, mezclador de síntesis de campo de onda /enrollado, etc.) tiene propiedades similares y así esta información secundaria es útil también cuando otros mezcladores además del descrito se usan. Para reducir la cantidad de la información secundaria, uno puede almacenar un conjunto de funciones de auto-correlación predefinidas en el descodificador y solamente transmite índices de selección de aquellas que corresponden más estrechamente con las propiedades de la señal de fuente. Una primera versión de nuestro algoritmo supone que dentro del intervalo (14) F(n, ?) = 1 y así (12) se calcula cuando sólo los valores (6) de potencia de subbanda como la información secundaria. Los datos mostrados en a Figura 5 se han calculado suponiendo F(n, ?) = 1 Con el fin de reducir la cantidad de la información secundaria, el intervalo dinámico relativo de las señales de fuente se limita. En cada momento, para cada subbanda, la potencia de la fuente más fuerte se selecciona. Encontramos es suficiente disminuir el límite de la potencia de la subbanda correspondiente de todas las otras fuentes a un valor de 24 dB menor que la potencia de la subbanda más fuerte. Así, el intervalo dinámico del cuantificador puede ser limitado a 24 dB. Suponiendo que las señales de fuente son independientes. el descodificador puede calcular la suma de la potencia de E {s 2(n) \ . subbanda de todas las fuentes como Asi, en principio es suficiente transmitir al descodificador sólo los valores de potencia de subbanda de fuentes M-l, mientras la potencia de subbanda de la fuente restante se puede computar localmente. Dada esta idea, el régimen de información lateral puede ser reducido levemente por transmitir la potencia de subbanda de fuentes con índice 2 < i < N con relación a la potencia de la primera fuente.
Nótese que el intervalo dinámico que limita como se describió previamente, se lleva a cabo antes a (15) . Como una alternativa, los valores de potencia de subbanda pueden ser normalizados con relación a la potencia de subbanda de la señal de suma, en oposición a la normalización con relación a una potencia (15) de subbanda de fuente. Para una frecuencia de muestreo de 44.1 kHz, usamos 20 subbandas y transmite para cada subbanda ? (n) (2 i < M) alrededor de cada 12 ms . 20 subbandas corresponden a la mitad de la resolución espectral de un sistema e auditorio (una subbanda es de una amplitud de dos "anchos de banda críticos" . Los experimentos informales indican que sólo se logra una leve mejora usando más subbandas de 20, por ejemplo 40 subbandas. El número de subbandas y los anchos de banda de estas subbandas se escogen de acuerdo con el tiempo y la resolución de frecuencia del sistema de auditorio. Una realización de baja calidad del esquema requiere al menos tres subbandas (frecuencias baja, media y alta) .
De acuerdo con una modalidad particular, las subbandas tienen anchos de banda diferentes a frecuencias más bajas tienen anchos de banda menores que las subbandas a frecuencias mayores . Los valores de potencia relativos se cuantifican con un esquema similar al cuantificador de ICLD descrito en (2), que resulta en un régimen de bits de aproximadamente 3 (M-l) kb/s. La Figura 6 ilustra el proceso de la generación de información secundaria (que corresponde al bloque de "generación de información secundaria" en la Figura 2) . El régimen de información secundaria puede ser adicionalmente reducido por analizar la actividad para cada señal de fuente y sólo transmitir la información secundaria asociada con la fuente si es activa. En oposición a transmitir los valores de potencia de subbanda [R(s (b)] como información estadística, otra información que representa las envolturas espectrales de las señales de fuente puede ser transmitida. por ejemplo, los parámetros de la codificación predictiva lineal (LPC) pueden ser transmitidos o los otros parámetros correspondientes, tal como los parámetros del filtro de rejilla o los parámetros de la pareja espectral de línea (LP) . El proceso de estimar los parámetros de LPC de cada señal de fuente se ilustra en la Figura 7 , B.3 Computación , s¡ (n) . La Figura 8 ilustra el proceso que se usa para recrear las señales de fuente, dada la señal de suma (1) . , Este proceso es parte del bloque de "Síntesis" en la Figura 2. Las señales de fuente individuales se recuperaron por escalar cada subbanda de la señal de suma con g (n) y por aplicar un filtro de descorrelación con respuesta de impulso hi (n) . s,(») = hfn) * (g¡(n) s (n)) = h,(n) * (16) E {s 2(n) \ donde * es el operador de convolucion lineal y se calcula con la información secundaria por de otra manera (17) Como filtros de descorrelación h (n) , filtros de peine complementarios, filtros de todo paso, filtros de retardo o filtros con respuestas de impulso aleatorio, pueden ser usados. La meta para el proceso de descorrelación es reducir la correlación entre las señales, mientras no modifican cómo se perciben las formas de onda individuales. Diferentes técnicas de descorrelación causan diferentes artefactos. Los filtros tipo peine complementarios causan coloración . Todas las técnicas descritas son difundidas por la energía de transitorios en artefactos que causan tiempo, tal como loa "ecos previos!. Dado su potencial para artefactos, las técnicas de descorrelación deben ser aplicadas tan poco como se posible. La siguiente sección describe técnicas y estrategias que requieren menos procesos de descorrelación que la simple generación de señales independientes Sj. (n) . Un esquema alternativo para la generación de señale s± (n) se muestra en la Figura 9. Primero el espectro de s (n) es aplanado por medio del cómputo del error ? (n) de predicción lineal. Luego, dados los filtros de LPC estimados en el codificador, fu, los filtros de todos polos correspondientes son computados como la transformación z inversa de ?* = -i Los filtros resultantes de todos los polos fi, representan la envoltura espectral de las señales de fuente Si, Si otra información secundaria que los parámetros LPC es transmitida, los parámetros de LPC primero necesitan ser computados como una función de la información lateral. Como en el otro esquema, los filtros de descorrelación hi se usan para obtener las señales de fuente independientes .
REALIZACIÓN QUE CONSIDERA RESTRICCIONES PRACTICAS En la primera parte de esta sección, un ejemplo de realización se suministra, usando un esquema de síntesis de BCC, como un mezclador de estéreo o de múltiples canales. Esto es particularmente inherente, puesto que el esquema de síntesis de tipo BCC es parte de un estándar ISO/IEC MPEG próximo, denotado "codificación de audio espacial" . Las señales de fuentes s (n) no son computadas explícitamente en este caso, que resulta en complejidad reducida de computación. Igualmente, este esquema ofrece el potencial de mejor calidad de audio, puesto que efectivamente menos descorrelación es necesaria que en el caso donde s señales de fuente Si (n) se computan explícitamente. La segunda parte de esta sección discute los problemas cuando el esquema propuesto es aplicado con cualquier mezclador y sin proceso de descorrelación aplicada del todo. Tal esquema tiene una menor complejidad que un esquema con proceso de descorrelación, pero puede tener otros inconvenientes, como serán discutidos. Idealmente, uno podría aplicar el proceso de descorrelación, de modo que el i (n) generado se pueda considerar independiente. Sin embargo, puesto que el proceso de descorrelación es problemático en términos de introducir artefacto, es uno que podría aplicar el proceso de descorrelación tan poco como sea posible. La tercera parte de esta sección discute cómo la cantidad del proceso de descorrelación problemático puede ser reducida, mientras otorga beneficios como si el §i (n) generado fuera independiente.
A. Realización sin computación explícita de s¡ (n) La mezcla es aplicada directamente a la señal de suma transmitida (1), sin la computación explícita de §i (n) .En esquema de síntesis de BCC se usó para este propósito. En lo siguiente, consideramos el caso de estéreo, pero todos los principios descritos pueden ser aplicados para la generación de señales de audio de múltiples canales, igualmente. Un esquema de síntesis de BCC de estéreo para un esquema "estéreo-paramétrico" aplicado por el proceso de la señal de suma (1) , se muestra en la Figura 10. Sería conveniente que el esquema de síntesis de BCC genere una señal que es percibida similarmente como la señal de salida de un mezclador, como se muestra en la Figura 4. Esto es cuando ICTD, ICLD e ICC en los canales de salida del esquema de síntesis son similares, como las filas correspondientes que aparecen entre los canales de la señal de salida (4) del mezclador. La misma información secundaria como para el esquema general previamente descrito se usa, permitiendo que el descodificador compute los valores de potencia de subbanda de E {s 2 (n) }, \ E {s 2 (n) }, ¡ tiempo corto de las fuentes. Dado los factores de ganancia gi y g2 en la Figura 10, son computados como, (18) de modo que la potencia de subbanda de salida e ICLD (7( sen los mismos como para el mezclador en la Figura 4. La ICTD T(n) se computa de acuerdo con (10) , determinando los retardos Di y D2 en la Figura 10, í(n) = max{ -l(n), 0} 02(n) = max{ T(n), 0} Las IC c (n) se computan de acuerdo con (8), determinando el proceso de descorrelación en la Figura 10. Este proceso de descorrelación (síntesis de ICC) se describe en 1] . Las ventajas de aplicar el proceso de descorrelación a los canales de salida del mezclador, comparadas con aplicarlo para la generación independiente Si (n) son: • Usualmente, el número de señales M de fuentes es mayor que el número de canales N de salida de audio. Así, el número de canales de audio independiente que se necesitan generar es menor cuando la descorrelación de N canales de salida en oposición a la descorrelación de las M señales de fuente.
• A menudo, los canales de salida de audio se correlacionan (ICC > 0) y menos procesos de descorrelación se pueden aplicar que serían necesarios para generar canales M y N independientes . Debido a los menores procesos de descorrelación se espera mejor calidad de audio. Se espera mejor calidad de audio cuando los parámetros del mezclador se constriñen de modo que ai2 + bi2 = 1. es decir, G = 0 dB . En este caso, la potencia de cada fuente en la señal de suma transmitida (1) es la misma como la potencia de la misma fuente en la señal de salida del descodificador mixto. La señal de salida del descodificador (Figura 10 e la misma como si la señal de salida del mezclador (Figura 4) se codificara y descodificara por un codificador/ descodificador de BCC en este caso. Así, se puede esperar una calidad igualmente similar. El descodificador puede no sólo determinar la dirección en la cual cada fuente va a aparecer, pero también la ganancia de cada fuente puede ser variada. La ganancia es aumentada por seleccionar aA + bx2 > 1, (G-. > 0 dB) y disminuir por seleccionar Uso sin proceso de descorrelación La restricción de la técnica previamente descrita es que la mezcla se lleva a cabo sin el esquema de síntesis de BCC. Uno puede imaginar la realización no sólo de la síntesis de ICTD, ICLD e ICC sino el proceso de efectos adicionales con la síntesis de BCC. In embargo, puede ser deseado que los mezcladores y procesadores de efectos existentes puedan ser usados. Esto también incluye los mezcladores de síntesis del campo de onda (a menudo denotados como "enrollamientos" Por el uso de los mezcladores y procesadores de efectos existentes, se calculan los §i(n) explícitamente y se usan como si fueran las señales de fuentes originales. Cuando se aplica sin el proceso de descorelación (h(n) = d(n) en (16) puede también ser lograda buena calidad de audio. Es un compromiso entre los artefactos introducidos debido al proceso de descorrelación y los artefactos debido al hecho que las señales de fuente §i(n) se correlacionan. Cuando no se usa el proceso de descorrelación, la imagen espacial de auditorio resultante puede sufrir inestabilidad [1] . Pero el mezclador puede introducir alguna descorrelación cando los reverberadores u otros efectos se usan y sí hay menos necesidad del proceso de descorrelación. Si i (n) son generadas sin el proceso de descorrelación, el nivel de las fuentes depende en la dirección en la cual ellos se mezclan en relación con otras fuentes., Por reemplazar los algoritmos panorámicos de amplitud en los mezcladores existentes con un algoritmo compensado esta dependencia de nivel, el efecto negativo de la dependencia de la sonoridad en los parámetros de mezcla, pueden ser evitados. Una amplitud que compensa el algoritmo de nivel se muestra en la Figura 11, el cual se dirige a compensar la dependencia del nivel de fuente en los parámetros de mezcla. Dados los factores de ganancia de un algoritmo panorámico de amplitud (por ejemplo, Figura 4) ai y bi los pesos de la Figura 11, ' ' ' son computados por Nótese que ax y b se computan de modo que la potencia de subbanda de salida sea la misma como si §i(n) fuera independiente en cada subbanda .
Reducción de la cantidad del proceso de descorrelación Como se mencionó previamente, la generación de §i (n) independiente es problemática. Aquí, se describen estrategias para aplicar menor proceso de descorrelación, mientras se logra efectivamente un efecto similar como si si (n) fuera independiente . Consideremos por ejemplo, un sistema de síntesis de campo de ondas, como se muestra en la Figura 12. Las posiciones de fuente virtuales deseadas para si, s2 , ...s6 (M= 6) se indican. Una estrategia para computar §i(n) (16) sin generar M señales independientes completamente es : 1) generar grupos de índices de fuentes, que corresponden a las fuentes cercanas entre sí. Por ejemplo, en la Figura 8 ellas pueden ser (1, (2,5), (3), y (4,6). 2) En cada momento en cada subbanda seleccionar el índice de fuente de la fuente más fuerte = max£{ (n)} (21) Aplicar el proceso no de descorrelación para los índices de fuentes en parte del grupo que contiene lmax, es decir, hi(n) = d(n) . 3) Para cada otro grupo, seleccionar el mismo h(n) dentro del grupo . El algoritmo descrito modifica los componentes de señal más fuerte al menos. Adicionalmente, el número de diferentes h(n) que se usa, se educen. Esto es una ventaja debido a que la descorrelación es más fácil que los canales menos independientes, que se van a generar.
V, ESCALABILIDAD EN TÉRMINOS DE CUALIDAD Y REGÍMENES DE BITS. El esquema propuesto transmite solamente la suma de todas las señales de fuentes, la cual puede ser codificada con un codificador de mono-audio convencional. Cuando ninguna compatibilidad hacia atrás es necesaria y la capacidad está disponible para la transmisión / almacenamiento de más de una forma de onda de audio, el esquema propuesto puede ser escalado para el uso con más de un canal de transmisión. Esto se realiza generando varias señales de suma con diferentes subconjuntos de las señales de fuente dadas, es decir, a cada subconjunto de las señales de fuente se aplica individualmente el esquema de codificación propuesto. La calidad de audio se espera mejore conforme el número de canales de audio transmitidos es amentado, debido a que canales menos independientes tienen que ser generados por la descorrelación de cada canal transmitido (comparado con el caso se n canal transmitido) .
VI. COMPATIBILIDAD CONTRARIA A FORMATOS DE ESTÉREO Y AUDIO RODEANTES EXISTENTES Consideremos el escenario de entrega de audio siguiente. Un consumidor obtiene un estéreo de calidad máxima o una señal que rodea múltiples canales (por ejemplo, por medio de un CD, DVD de audio o música en línea almacenada, etc) La meta es entregar opcionalmente al consumidor la flexibilidad de generar una mezcla acostumbrada del contenido de audio obtenido, sin comprometer la generación de una mezcla acostumbrada del contenido de audio obtenido, sin comprometer la reproducción estándar de estéreo / rodeante. Esto es realizado por entregar al consumidor por ejemplo, como una opción de compra, n un almacén de música en línea) una corriente de bits de información secundaria que permitir la computación de Si (n) como una función de la señal de audio dada de estéreo y múltiples canales. El algoritmo de mezcla del consumidor es luego aplicado a §i (n) en lo siguiente, dos posibilidades para la computación de §i (n) , dadas las señales de audio de estéreo y múltiples canales, se describen A. Estimación de a suma de las señales de fuente en el receptor. La manera adelante mas directa de usar el esquema de codificación propuesto con una transmisión de audio estéreo o de múltiples canales se ilustra en la Figura 13, donde yi(n) (1 < u _< 1) son los canales L de la señal de audio estéreo o de múltiples canales. La señal de suma de las fuentes es estimada por la mezcla descendente de los canales transmitidos a un canal de audio sencillo. La mezcla descendente se lleva a cabo por medio de computación de la suma de los canales yi(n) 1 < u <_ L o técnicas más sofisticas pueden ser aplicadas. Para el mejor desempeño, se recomienda que el nivel de las señales de fuentes se adaptada antes a E([§i2(n)], estimación (6) de modo que la relación de potencia entre las señales de fuentes se aproxime a la relación de potencia con la cual las fuentes están contenidas en la señal de estéreo o múltiples canales dada. En este caso, la mezcla descendente de los canales transmitidos es una estimación relativamente buena de la suma de las fuentes (1) (o su versión escalada) . Un proceso automático puede ser usado para ajustar el nivel de las entradas de la señal de fuente del codificado s (n) antes de la computación de la información secundaria. Este proceso adaptado en tiempo estima el nivel al cual cada señal de fuente está contenida en la señal de estéreo o de múltales canales dada. Antes de la computación de la información secundaria, el nivel de cada señal de fuente es lego adaptada en el tiempo ajustada de modo que sea igual al nivel en el cual la fuente está contenida en la señal de estéreo o de múltiples canales de audio.
B. Uso de canales transmitidos individualmente La Figura 14 muestra una realización diferente del esquema propuesto con la transmisión de señal rodeante de estéreo o de múltiples canales. Aquí, los canales transmitidos no son mezclados en forma descenderte, pero se usan individuamente para la generación de i (n) . Más generalmente, las señales de subbanda Si (n) se computan por donde wx(n) son pesos que determinan las combinaciones lineales específicas de las subbandas de canales transmitidas. Las combinaciones lineales se escogen de modo que si (n) estén siempre muy descorrelacionadas en lo posible. Así, nada o sólo una pequeña cantidad del proceso de descorrelación necesita ser aplicado, lo cual es favorable, como se discutió antes.
Vil. APLICACIONES. Previamente mencionamos un número de aplicaciones para los esquemas de codificación propuestos. Aquí, resumimos ellos y mencionamos unas cuantas aplicaciones más. A. Codificación de audio por mezcla Siempre que las señales de fuente de audio necesiten ser almacenadas o transmitidas antes de mezclarlas a las señales de audio estéreo, de múltiples canales o de síntesis de campo de onda, el esquema propuesto se puede aplicar Con la técnica anterior, un codificador de mono-audio podrá ser aplicado a cada señal de fuente independientemente, que resulta en un régimen de bits que escala con el número de fuentes. El esquema del código propuesto puede codificar un alto número de señales de fuente de audio con un codificador de mono audio sencillo más la información lateral de régimen de bits relativamente bajo. Como se describe n la Sección V, la calidad de audio puede ser mejorada usando más de un canal transmitido, si la memoria / capacidad para hacerlo está disponible.
B. Remezcla con meta-datos Como se describió en la Sección VI, las señales de audio estero y de múltiples canales existentes, pueden ser remezcladas con la ayuda de información secundaria adicional (es decir "meta-datos" ) . En oposición al contenido de audio mezclado de estéreo y de múltiples canales optimizado solamente vendido, los meta-datos pueden ser vendidos mostrando a un usuario la remezcla de su música estéreo y de múltiples canales. Esto puede, por ejemplo, también ser usado para atenuar las vocales en una canción para karaoke o para atenuar instrumentos específicos para tocar un instrumento junto con la música. Aún si el almacenamiento no es un problema, el esquema descrito será muy atractivo para habilitar al cliente con mezcla de música. Es decir, debido a que probable que la industria de la música nunca será suministrada parte de las grabaciones de múltiples pistas. Existe demasiado peligro para el abuso. El esquema propuesto habilita la capacidad de la remezcla sin apartar las grabaciones de múltiples pistas.
Asimismo, tan pronto como las señales de estéreo o de múltiples canales se remezclan, un cierto grado de reducción de calidad ocurre, haciendo la distribución ilegal de la remezcla menos atractiva. c. Estéreo / múltiples canales a la conversión de síntesis de campo de ondas Otra aplicación para el esquema descrito en la Sección VI se describe en lo siguiente. Las películas de movimiento que acompañan el audio de estéreo y de múltiples canales (por ejemplo 5.1 rodeante), pueden ser extendidas para obtener a síntesis de campo de ondas, agregando la información secundaria. Por ejemplo Dolby ACC-3 (audio para DVD) puede extenderse por 5.1 al audio de codificación de compatibilidad hacia atrás para los sistemas de síntesis del campo de ondas, es decir reproducir DVD 5.1 el sonido rodeante en reproductores legales convencionales y el sonido de síntesis de campo de ondas en una nueva generación de reproductores que soportan el proceso de la información secundaria^ VIH: EVALUACIONES SUBJETIVAS Realizamos un descodificador de tiempo real de los algoritmos propuestos en la Sección IV-A y IV-B. Se usa un banco de filtros STFT basado en FFT. Un FFT de punto 1024 y un tamaño de ventana STFT de 768 (con cojín de cero) se usan. Los coeficientes espectrales se agrupan juntos de modo que cada grupo represente la señal con un ancho de banda de dos veces el ancho de anda rectangular equivalente (ERB) . El escucha informal reveló que la calidad de audio no mejora notablemente cuando se escoge la resolución de frecuencia mayor. Una resolución de frecuencia menor es favorable puesto que resulta en menos parámetros que transmitir. Para cada fuente, la panorámica y ganancia de amplitud/retardo pueden ser ajustados individualmente. El algoritmo se usó para codificar varias grabaciones de audio de múltiples pistas con 12 a 14 pistas. El descodificador permite que 5.1 la mezcla rodeante use un mezclador (VBPAP) de panorámica de amplitud. La dirección y ganancia de cada señal de fuente se pueden ajustar. El software permite la interrupción al vuelo entre la mezcla de la señal de fuente codificada y la mezcla de las señales de fuente discretas originales . El escucha casual usualmente revela nada o poca diferencia entre la mezcla de las señales de fuente originales o codificadas si para cada fuente una ganancia Gi de cero dB se usa. Cuanto más ganancias de fuente son variadas, mayores artefactos ocurren. La amplificación y atenuación leves de las fuentes (por ejemplo hasta ± 6 dB darán aún buenos sonidos. Un escenario crítico es cuando todas la fuentes se mezclan a un costado y solamente una fuente al otro costado opuesto. En este caso, la calidad de audio puede ser reducida, dependiendo de la mezcla específica y las señales de fuente IX. CONCLUSIONES Un esquema de codificación para la codificación de juntas de las señales de fuente de audio, por ejemplo los canales de una grabación de múltiples pistas, se propuso. La meta no es codificar las formas de onda de la señal de fuente con alta calidad, en dicho caso la codificación de unión será dada con mínima ganancia de codificación, puesto que las fuentes de audio son usualmente independientes . La meta es que cuando las señales de fuente codificadas se mezclan una señal de audio de alta calidad se obtenga. Considerando las propiedades estadísticas de las señales de fuente, las propiedades de los esquema de mezcla, y el sonido espacial, muestran que se logra una mejora en la ganancia de codificación significante por la codificación en conjunto de las señales de fuente. La mejora en la ganancia de codificación se debe al hecho que solamente se transmite una forma de onda de audio. Adicionalmente, la información secundaria, que representa las propiedades estadísticas de las señales de fuente que son factores relevantes que determinan la percepción espacial de la señal mezclada final se transmiten.
El régimen de información secundaria es de alrededor de 3 kbs por señal de fuente. Cualquier mezclador puede ser aplicado con las señales de fuente codificas, por ejemplo mezcladores de síntesis de estéreo, de múltiples canales o de campo de onda. Es directo adelante para escalar el esquema propuesto para el régimen de bits mayor y la calidad por medio de transmitir más de un canal de audio. Asimismo, una variación del esquema se propuso, el cual permite la remezcla de la señal de audio de estéreo o de múltiples canales dada (y aún cambiando el formato de audio, por ejemplo la síntesis de estéreo a múltiples canales o al campo de ondas. Las aplicaciones del esquema propuesto son los colectores. Por ejemplo MPEG-4 puede ser extendido con el esquema propuesto para reducir el reamen de bits cuando más de un "objeto de audio natural" (señal de fuente) necesita ser transmitido. Igualmente, el esquema propuesto ofrece la representación compacta del contenido de los sistemas de síntesis del campo de ondas. Como se mencionó, las señales etéreo o de múltiples canales existentes pueden ser complementadas con la información secundaria para permitir que el usuario remezcla las señales para su enlace.
REFERENCIAS [1] C. Fallßr, Parametric Coding of Spatial Audio, Ph.D. thesis, Swiss Federal Ipstitute of Technoloqy Lausanne (EPFL), 2004, Ph.D. Thesis No. 3062. [2] C. Faller and F. Baumgart?, "Binaural Cue Coding - Part II: Schemßs and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

Claims (20)

  1. REIVINDICACIONES 1. Un método para sintetizar una pluralidad de canales de audio, este método comprende las etapas de: - recuperar de la corriente de audio al menos una señal de suma, que representa la suma de las señales de fuentes; recuperar de la corriente de audio la información estadística acerca de una o más señales de fuentes; recibir de la corriente de audio, o determinar localmente, parámetros que describen el formato de audio de salida y los parámetros de mezcla; computar pseudo- señales de fuentes desde las señales de suma y la información estadística recibida; sintetizar la pluralidad de canales de audio desde las pseudo señales de fuente, usando un mezclador en el cual los parámetros de formato de audio recibidos y los parámetros de mezcla son aplicados .
  2. 2. Método para sintetizar una pluralidad de canales de audio, este método comprende las etapas de: recuperar de la corriente de audio al menos una señal de suma, que representa una suma de las señales de fuentes; recuperar de la corriente de audio, la información estadística acera de una o más señales de fuentes ; recibir de la corriente de audio, o determinar localmente, parámetros que describen el formato de audio de salida y los parámetros de mezcla; - computar las filas de las señales de salida desde la información estadística recibida, los parámetros del formato de audio y los parámetros de mezcla; sintetizar la pluralidad de canales de audio desde las señales de suma, con base en las filas computadas .
  3. 3. El método de las reivindicaciones 1 ó 2, en que la información estadística representa las envolturas espectrales de las señales de fuentes de audio.
  4. 4. El método de las reivindicaciones 1 ó 2, en que la información estadística representa la potencia relativa como una función de la frecuencia y el tiempo de una pluralidad de señales de fuentes.
  5. 5. El método de la reivindicación 1, en que las pseudo señales de fuentes se computan en el dominio de sub-banda de un banco de filtros.
  6. 6. El método de la reivindicación 2, en el cual los canales de audio se sintetizan en el dominio de sub-banda de un banco de filtros.
  7. 7. El método de las reivindicaciones 5 ó 6, en que el número y anchos de banda de la sub-banda se determinan de acuerdo con la resolución espectral y temporal del sistema de auditorio humano.
  8. 8. El método de las reivindicaciones 5 a 7, en que el número de sub-bandas está comprendido entre 3 y 40.
  9. 9. El método de las reivindicaciones 5 a 8,, en que las subbandas tienen diferentes anchos de bandas, las sub-bandas de frecuencias menores tienen anchos de banda menores que las sub-bandas de frecuencias mayores.
  10. 10. El método de las reivindicaciones 5 9 , en que se usa un banco de filtros, basado en la transformación de Fourier (STFT) de tiempo corto y los coeficientes espectrales se combinan de modo que cada grupo de coeficientes espectrales forman una sub-banda.
  11. 11. El método de las reivindicaciones 1 ó 2, en que la información estadística también comprende funciones de auto-correlación .
  12. 12. El método de la reivindicación 3, en el cual las envolturas espectrales se representan como parámetros de codificación predictivos lineales (LPC) .
  13. 13. El método de la reivindicación 2, en el cual la señal de suma se divide en una pluralidad de sub-bandas la información estadística se usa para determinar la potencia de cada sub-banda para cada pseudo señal de fuente .
  14. 14. El método de la reivindicación 2, en el cual un error de predicción lineal de la señal de suma es computado, seguido por la filtración de todos los polos, por imponer la envoltura espectral determinada por la información estadística para cada pseudo señal de fuente.
  15. 15. El método de las reivindicaciones 13 ó 14, donde se usa una técnica de descorrelación, tal como la filtración de todas los pasos, para obtener señales independientes de seudo fuente de salida.
  16. 16. El método de la reivindicación 2, donde las filas computadas son diferencia de nivel, diferencias de tiempo, o coherencia, como una función de diferentes frecuencias e instantes de tiempo.
  17. 17. El método de la reivindicación 1, donde el mezclador es un algoritmo panorámico de la amplitud, que compensa la dependencia del nivel de fuente en los parámetros de mezcla .
  18. 18. El método de la reivindicación 1, donde el mezclador es un mezclador de síntesis del ampo de ondas.
  19. 19. El método de la reivindicación 1, donde el mezclador es un mezclador binaural .
  20. 20. El método de la reivindicación 1, donde el mezclador es un mezclador de audio 3D.
MX2007009559A 2005-02-14 2006-02-13 Codificacion de junta parametrica de fuentes de audio. MX2007009559A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05101055A EP1691348A1 (en) 2005-02-14 2005-02-14 Parametric joint-coding of audio sources
PCT/EP2006/050904 WO2006084916A2 (en) 2005-02-14 2006-02-13 Parametric joint-coding of audio sources

Publications (1)

Publication Number Publication Date
MX2007009559A true MX2007009559A (es) 2007-12-10

Family

ID=34938725

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2007009559A MX2007009559A (es) 2005-02-14 2006-02-13 Codificacion de junta parametrica de fuentes de audio.

Country Status (17)

Country Link
US (12) US8355509B2 (es)
EP (4) EP1691348A1 (es)
JP (2) JP5179881B2 (es)
KR (1) KR100924577B1 (es)
CN (2) CN101133441B (es)
AT (1) ATE531035T1 (es)
AU (3) AU2006212191B2 (es)
BR (5) BRPI0607166B1 (es)
CA (2) CA2707761C (es)
ES (2) ES2374434T3 (es)
IL (1) IL185192A (es)
MX (1) MX2007009559A (es)
NO (1) NO338701B1 (es)
PL (1) PL1844465T3 (es)
RU (1) RU2376654C2 (es)
TR (1) TR201811059T4 (es)
WO (1) WO2006084916A2 (es)

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
MX2007011995A (es) * 2005-03-30 2007-12-07 Koninkl Philips Electronics Nv Codificacion y decodificacion de audio.
CA2613885C (en) 2005-06-30 2014-05-06 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
CN103366747B (zh) 2006-02-03 2017-05-17 韩国电子通信研究院 用于控制音频信号的渲染的设备和方法
US20090177479A1 (en) * 2006-02-09 2009-07-09 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
HUE043155T2 (hu) * 2006-07-04 2019-08-28 Dolby Int Ab Szûrõátalakítót és szûrõkrompresszort tartalmazó szûrõrendszer, és eljárás a szûrõrendszer mûködtetésére
USRE50697E1 (en) * 2006-07-07 2025-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for combining multiple parametrically coded audio sources
MX2009000086A (es) * 2006-07-07 2009-01-23 Fraunhofer Ges Forschung Concepto para combinar multiples fuentes de audio parametricamente codificadas.
BRPI0711102A2 (pt) 2006-09-29 2011-08-23 Lg Eletronics Inc métodos e aparelhos para codificar e decodificar sinais de áudio com base em objeto
WO2008039045A1 (en) 2006-09-29 2008-04-03 Lg Electronics Inc., Apparatus for processing mix signal and method thereof
RU2407072C1 (ru) * 2006-09-29 2010-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
KR100891665B1 (ko) 2006-10-13 2009-04-02 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
US9565509B2 (en) 2006-10-16 2017-02-07 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
US8687829B2 (en) * 2006-10-16 2014-04-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for multi-channel parameter transformation
KR101100221B1 (ko) * 2006-11-15 2011-12-28 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 그 장치
JP5139440B2 (ja) * 2006-11-24 2013-02-06 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
JP5081250B2 (ja) 2006-12-01 2012-11-28 エルジー エレクトロニクス インコーポレイティド 命令入力装置及び方法、メディア信号のユーザインタフェース表示方法及びその具現装置、並びにミックス信号処理装置及びその方法
WO2008069584A2 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
WO2008069596A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8463605B2 (en) * 2007-01-05 2013-06-11 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
TR201906713T4 (tr) * 2007-01-10 2019-05-21 Koninklijke Philips Nv Audio kod çözücü.
MX2008013073A (es) * 2007-02-14 2008-10-27 Lg Electronics Inc Metodos y aparatos para codificar y decodificar señales de audio basadas en objeto.
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5285626B2 (ja) * 2007-03-01 2013-09-11 ジェリー・マハバブ 音声空間化及び環境シミュレーション
WO2008111773A1 (en) * 2007-03-09 2008-09-18 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR20080082917A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
EP2130304A4 (en) 2007-03-16 2012-04-04 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
AU2008243406B2 (en) 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
KR101049144B1 (ko) * 2007-06-08 2011-07-18 엘지전자 주식회사 오디오 신호 처리방법 및 장치
JP5556175B2 (ja) 2007-06-27 2014-07-23 日本電気株式会社 信号分析装置と、信号制御装置と、そのシステム、方法及びプログラム
CN101715643B (zh) 2007-06-27 2012-12-26 日本电气株式会社 多地点连接装置、信号分析以及装置、其方法及程序
US8295494B2 (en) 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
MX2010002572A (es) 2007-09-06 2010-05-19 Lg Electronics Inc Un metodo y un aparato para descodificar una señal de audio.
GB2453117B (en) 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
WO2009050896A1 (ja) * 2007-10-16 2009-04-23 Panasonic Corporation ストリーム合成装置、復号装置、方法
BRPI0820488A2 (pt) 2007-11-21 2017-05-23 Lg Electronics Inc método e equipamento para processar um sinal
JP2009128559A (ja) * 2007-11-22 2009-06-11 Casio Comput Co Ltd 残響効果付加装置
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
WO2010045869A1 (zh) * 2008-10-20 2010-04-29 华为终端有限公司 一种3d音频信号处理的方法、系统和装置
CN101547265B (zh) * 2008-10-20 2014-07-30 华为终端有限公司 一种3d音频会议的信号处理方法、设备以及系统
EP2353161B1 (en) * 2008-10-29 2017-05-24 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
KR101137361B1 (ko) * 2009-01-28 2012-04-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CA2949616C (en) 2009-03-17 2019-11-26 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
RU2529591C2 (ru) * 2009-06-30 2014-09-27 Нокиа Корпорейшн Устранение позиционной неоднозначности при формировании пространственного звука
EP2522016A4 (en) * 2010-01-06 2015-04-22 Lg Electronics Inc DEVICE FOR PROCESSING AN AUDIO SIGNAL AND METHOD THEREFOR
EP2485213A1 (en) 2011-02-03 2012-08-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Semantic audio track mixer
TWI651005B (zh) 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
AU2012308184B2 (en) 2011-09-18 2015-08-06 Touch Tunes Music Corporation Digital jukebox device with karaoke and/or photo booth features, and associated methods
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
KR20130093783A (ko) * 2011-12-30 2013-08-23 한국전자통신연구원 오디오 객체 전송 장치 및 방법
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN107403624B (zh) 2012-05-18 2021-02-12 杜比实验室特许公司 用于音频信号的动态范围调整及控制的方法和设备
CN102695116B (zh) * 2012-05-30 2015-06-03 蒋憧 一种声音采集、处理和再现方法
MY181365A (en) 2012-09-12 2020-12-21 Fraunhofer Ges Forschung Apparatus and method for providing enhanced guided downmix capabilities for 3d audio
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
CN104956689B (zh) * 2012-11-30 2017-07-04 Dts(英属维尔京群岛)有限公司 用于个性化音频虚拟化的方法和装置
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
IL319169A (en) 2013-03-28 2025-04-01 Dolby Laboratories Licensing Corp Transforming audio objects with visible size into arbitrary speaker arrays
KR102738946B1 (ko) * 2013-04-26 2024-12-06 소니그룹주식회사 음성 처리 장치, 정보 처리 방법, 및 기록 매체
SG11201509001YA (en) 2013-05-24 2015-12-30 Dolby Int Ab Audio encoder and decoder
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
CN119049485A (zh) 2013-07-31 2024-11-29 杜比实验室特许公司 用于处理音频数据的方法和装置、介质及设备
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP3127110B1 (en) 2014-04-02 2018-01-31 Dolby International AB Exploiting metadata redundancy in immersive audio metadata
RU2571921C2 (ru) * 2014-04-08 2015-12-27 Общество с ограниченной ответственностью "МедиаНадзор" Способ фильтрации бинауральных воздействий в аудиопотоках
CN104036788B (zh) * 2014-05-29 2016-10-05 北京音之邦文化科技有限公司 音频文件的音质识别方法及装置
CN105336333B (zh) * 2014-08-12 2019-07-05 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
BR112017008015B1 (pt) * 2014-10-31 2023-11-14 Dolby International Ab Métodos e sistemas de decodificação e codificação de áudio
CN112802496B (zh) * 2014-12-11 2025-01-24 杜比实验室特许公司 元数据保留的音频对象聚类
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
CN107771346B (zh) * 2015-06-17 2021-09-21 三星电子株式会社 实现低复杂度格式转换的内部声道处理方法和装置
WO2017049400A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
US12125492B2 (en) 2015-09-25 2024-10-22 Voiceage Coproration Method and system for decoding left and right channels of a stereo sound signal
US11152014B2 (en) 2016-04-08 2021-10-19 Dolby Laboratories Licensing Corporation Audio source parameterization
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10424307B2 (en) * 2017-01-03 2019-09-24 Nokia Technologies Oy Adapting a distributed audio recording for end user free viewpoint monitoring
JP6787183B2 (ja) * 2017-02-28 2020-11-18 ヤマハ株式会社 音制御装置及び方法
EP3622509B1 (en) * 2017-05-09 2021-03-24 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
US11909509B2 (en) 2019-04-05 2024-02-20 Tls Corp. Distributed audio mixing
GB2590906A (en) * 2019-12-19 2021-07-14 Nomono As Wireless microphone with local storage
CN113096672B (zh) * 2021-03-24 2022-06-14 武汉大学 一种应用于低码率下的多音频对象编解码方法

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
JPH0650439B2 (ja) * 1986-07-17 1994-06-29 日本電気株式会社 マルチパルス駆動形音声符号化器
JP2659605B2 (ja) * 1990-04-23 1997-09-30 三菱電機株式会社 音声復号化装置及び音声符号化・復号化装置
US5764779A (en) * 1993-08-25 1998-06-09 Canon Kabushiki Kaisha Method and apparatus for determining the direction of a sound source
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5712437A (en) * 1995-02-13 1998-01-27 Yamaha Corporation Audio signal processor selectively deriving harmony part from polyphonic parts
JP2766466B2 (ja) * 1995-08-02 1998-06-18 株式会社東芝 オーディオ方式、その再生方法、並びにその記録媒体及びその記録媒体への記録方法
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
DE19632734A1 (de) * 1996-08-14 1998-02-19 Thomson Brandt Gmbh Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6005948A (en) * 1997-03-21 1999-12-21 Sony Corporation Audio channel mixing
JPH11109995A (ja) * 1997-10-01 1999-04-23 Victor Co Of Japan Ltd 音響信号符号化器
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6188987B1 (en) * 1998-11-17 2001-02-13 Dolby Laboratories Licensing Corporation Providing auxiliary information with frame-based encoded audio information
AU781629B2 (en) * 1999-04-07 2005-06-02 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
TW510143B (en) * 1999-12-03 2002-11-11 Dolby Lab Licensing Corp Method for deriving at least three audio signals from two input audio signals
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7212872B1 (en) * 2000-05-10 2007-05-01 Dts, Inc. Discrete multichannel audio with a backward compatible mix
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
DE60311794T2 (de) * 2002-04-22 2007-10-31 Koninklijke Philips Electronics N.V. Signalsynthese
JP4013822B2 (ja) 2002-06-17 2007-11-28 ヤマハ株式会社 ミキサ装置およびミキサプログラム
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
EP1523863A1 (en) 2002-07-16 2005-04-20 Koninklijke Philips Electronics N.V. Audio coding
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4399362B2 (ja) * 2002-09-23 2010-01-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号の生成
EP1552724A4 (en) * 2002-10-15 2010-10-20 Korea Electronics Telecomm METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE
US7243064B2 (en) * 2002-11-14 2007-07-10 Verizon Business Global Llc Signal processing of multi-channel data
US20040117186A1 (en) * 2002-12-13 2004-06-17 Bhiksha Ramakrishnan Multi-channel transcription-based speaker separation
US20040176950A1 (en) * 2003-03-04 2004-09-09 Docomo Communications Laboratories Usa, Inc. Methods and apparatuses for variable dimension vector quantization
JP2007507726A (ja) * 2003-09-29 2007-03-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の符号化
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
EP1914723B1 (en) * 2004-05-19 2010-07-07 Panasonic Corporation Audio signal encoder and audio signal decoder
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US20060009274A1 (en) * 2004-07-08 2006-01-12 Richard Finocchio Method of playing a game of roulette
TWI393121B (zh) * 2004-08-25 2013-04-11 杜比實驗室特許公司 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
WO2006022308A1 (ja) * 2004-08-26 2006-03-02 Matsushita Electric Industrial Co., Ltd. マルチチャネル信号符号化装置およびマルチチャネル信号復号装置
US20060048226A1 (en) * 2004-08-31 2006-03-02 Rits Maarten E Dynamic security policy enforcement
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
ATE521143T1 (de) * 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
MX2007014570A (es) * 2005-05-25 2008-02-11 Koninkl Philips Electronics Nv Codificacion predictiva de una senal de canales multiples.
CA2613885C (en) * 2005-06-30 2014-05-06 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
WO2008069596A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission
US8332229B2 (en) * 2008-12-30 2012-12-11 Stmicroelectronics Asia Pacific Pte. Ltd. Low complexity MPEG encoding for surround sound recordings
KR102429953B1 (ko) * 2012-07-19 2022-08-08 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스

Also Published As

Publication number Publication date
US11682407B2 (en) 2023-06-20
US20190066705A1 (en) 2019-02-28
US11621005B2 (en) 2023-04-04
CN102123341A (zh) 2011-07-13
US8355509B2 (en) 2013-01-15
RU2007134215A (ru) 2009-03-20
AU2010236053B2 (en) 2012-10-18
US20070291951A1 (en) 2007-12-20
US10643629B2 (en) 2020-05-05
US10339942B2 (en) 2019-07-02
AU2009200407B2 (en) 2010-11-25
CN101133441B (zh) 2011-05-25
JP2012234192A (ja) 2012-11-29
EP1691348A1 (en) 2006-08-16
BR122018072508B1 (pt) 2019-07-16
JP5638037B2 (ja) 2014-12-10
US20170055095A1 (en) 2017-02-23
AU2006212191A1 (en) 2006-08-17
KR100924577B1 (ko) 2009-11-02
US11621007B2 (en) 2023-04-04
ES2682073T3 (es) 2018-09-18
US10657975B2 (en) 2020-05-19
EP1844465B1 (en) 2011-10-26
CN102123341B (zh) 2013-07-03
HK1159392A1 (en) 2012-07-27
US11621006B2 (en) 2023-04-04
EP1995721A1 (en) 2008-11-26
EP2320414B1 (en) 2018-05-02
WO2006084916A2 (en) 2006-08-17
AU2010236053A1 (en) 2010-11-18
BR122018072505B1 (pt) 2019-07-16
US10650835B2 (en) 2020-05-12
US10643628B2 (en) 2020-05-05
CA2597746A1 (en) 2006-08-17
TR201811059T4 (tr) 2018-08-27
NO20073892L (no) 2007-11-14
US20220392467A1 (en) 2022-12-08
IL185192A (en) 2014-02-27
US20190066703A1 (en) 2019-02-28
US20120314879A1 (en) 2012-12-13
IL185192A0 (en) 2008-01-06
BRPI0607166A2 (pt) 2009-08-11
BR122018072501B1 (pt) 2019-07-09
ES2374434T3 (es) 2012-02-16
US20190066706A1 (en) 2019-02-28
US11495239B2 (en) 2022-11-08
US20200234721A1 (en) 2020-07-23
ATE531035T1 (de) 2011-11-15
CA2707761A1 (en) 2006-08-17
KR20070107698A (ko) 2007-11-07
JP2008530603A (ja) 2008-08-07
CA2707761C (en) 2014-04-29
US20190066704A1 (en) 2019-02-28
RU2376654C2 (ru) 2009-12-20
US20170103763A9 (en) 2017-04-13
JP5179881B2 (ja) 2013-04-10
HK1107723A1 (en) 2008-07-11
PL1844465T3 (pl) 2012-03-30
CN101133441A (zh) 2008-02-27
US20220392466A1 (en) 2022-12-08
US9668078B2 (en) 2017-05-30
US20220392469A1 (en) 2022-12-08
EP2320414A1 (en) 2011-05-11
BR122018072504B1 (pt) 2019-07-09
CA2597746C (en) 2016-02-16
BRPI0607166B1 (pt) 2019-06-25
NO338701B1 (no) 2016-10-03
AU2009200407A1 (en) 2009-02-26
AU2006212191B2 (en) 2009-01-15
WO2006084916A3 (en) 2007-03-08
US20220392468A1 (en) 2022-12-08
EP1844465A2 (en) 2007-10-17

Similar Documents

Publication Publication Date Title
US11621007B2 (en) Parametric joint-coding of audio sources
HK1123622A (en) Parametric joint-coding of audio sources
HK1159392B (en) Parametric joint-coding of audio sources
HK1107723B (en) Parametric joint-coding of audio sources

Legal Events

Date Code Title Description
FG Grant or registration