MX2007009559A

MX2007009559A - Codificacion de junta parametrica de fuentes de audio.

Info

Publication number: MX2007009559A
Application number: MX2007009559A
Authority: MX
Inventors: Christof Faller
Original assignee: Fraunhofer Ges Forschung
Priority date: 2005-02-14
Filing date: 2006-02-13
Publication date: 2007-12-10
Also published as: US11682407B2; US20190066705A1; US11621005B2; CN102123341A; US8355509B2; RU2007134215A; AU2010236053B2; US20070291951A1; US10643629B2; US10339942B2; AU2009200407B2; CN101133441B; JP2012234192A; EP1691348A1; BR122018072508B1; JP5638037B2; US20170055095A1; AU2006212191A1; KR100924577B1; US11621007B2

Abstract

El siguiente escenario de codificacion se dirige: un numero de senales de fuente de audio necesitan ser transmitidas o almacenadas para el proposito de mezclar sintesis de campo e ondas, multi-canales que rodean, o senales de estereo, despues de descodificar las senales de fuente. La tecnica propuesta ofrece ganancia de codificacion significante, cuando se codifica en conjunto las senales de fuentes, comparado a la codificacion separada de ellas, aun cuando ninguna redundancia este presente entre las senales de fuentes. Esto es posible considerando las propiedades estadisticas de las senales de fuentes, las propiedades de las tecnicas de mezcla y audiencia espacial. La suma de las senales de fuentes se transmite mas las propiedades estadisticas de las senales de fuente que determinan en su mayoria las filas espaciales importantes con percepcion de los canales de audio mixtos finales. Estas senales de fuentes se recuperan en el receptor, de modo que sus propiedades estadisticas se aproximen a las propiedades correspondientes de las senales de fuentes originales. Las evaluaciones subjetiva indican que se logra alta calidad de audio por este esquema propuesto.

Description

CODIFICACIÓN DE JUNTA PARAMETRICA DE FUENTES DE AUDIO 1. INTRODUCCIÓN En un problema de codificación general, tenemos un número de señales de (mono) fuente si (n) (1 < i < M y un vector de descripción de escena S (n) , donde n es el índice de tiempo. El vector de descripción de escena contiene parámetros, tal como posiciones de fuente (virtuales) , anchos de fuente y parámetros acústicos, tal como los parámetros del área (virtuales) . La descripción de escena puede ser invariante del tiempo o puede cambiar con el tiempo. Las señales de fuente y la descripción de escena se codifican y transmiten a un descodificador. Las señales de fuente codificadas, SÍ (n) son mezcladas sucesivamente como una función de la descripción de escena, S (n) , para generar síntesis de campo de onda, multi-canales o señales etéreo, como una función del vector de descripción de escena. Las señales de salida del descodificador se denotan como xi (n) ) 0 < i < ) . Nota, el vector de la descripción de escena S (n) puede no ser transmitido, pero puede ser determinado en el descodificador. En este documento, el término de ¡señal de audio de estéreo" siempre se refiere a señales de audio de estéreo de dos canales.

ISOMEC MPEG-4 dirige el escenario de codificación descrito. Define la descripción de escena y usa ara cada señal de fuente ("natural") un codificador de mono-audio separado, por ejemplo, un codificador de audio de AAC. Sin embargo, cuando una escena compleja con muchas fuentes se va a mezclar, el régimen de bits llega a ser alto, es decir, el régimen de bits escala en forma ascendente con el número de fuentes. La codificación de una señal de fuente con alta cualidad requiere de aproximadamente 60 a 90 kb/seg. Previamente, dirigimos un caso especial del problema de codificación descrito [1] [2] con un esquema denotado Codificación de Fila Binaural (BCC) para la Presentación Flexible. Por terminar solamente la suma de las señales de fuente dadas, más la información lateral de régimen de bits bajo, se logra este régimen de bits bajo. Sin embargo, las señales de fuente no pueden ser recuperadas en el descodificador y el esquema se limita a la generación de señales rodeantes de estéreo y de multi-canales . Igualmente, sólo se usa la mezcla sencilla, con base en la panorámica de amplitud y retardo. Así, la dirección de fuentes puede ser controlada, pero no otros atributos de imagen espacial de auditorio. Otra limitación del esquema es su cualidad de audio limitada. Especialmente, hay una disminución en la cualidad de audio conforme el número de señales de fuente aumenta.

El documento [1] (Codificación de Fila Binaural, Estéreo Paramétrica, MP3 Rodeante, MPEG Rodeante) cubre el caso donde N canales de audio se codifican y N canales de audio, con filas similares luego los canales de audio originales se descodifican. La información lateral transmitida incluye parámetros de fila de inter-canales relativos a las diferencias entre los canales de entrada . Los canales de las señales de audio estéreo y de múltiples canales contienen mezclas de señales de fuentes de audio y son así diferentes en naturaleza que las señales de fuente de audio puras . Las señales de audio estéreo y de múltiples canales se mezclan de modo que cuando se reproducen en un sistema de reproducción apropiado, el escucha percibirá una imagen espacial de auditorio ("etapa de sonido") como se captura por el ajuste de grabación o se diseña por el ingeniero de grabación durante la mezcla. Un número de esquemas para la codificación de juntas para los canales de una señal de audio de estéreo o de múltiples canales, se han propuesto previamente.

COMPENDIO DE LA INVENCIÓN El objeto de la invención es proporcionar un método para transmitir una pluralidad de señales de fuentes, mientras usa un ancho de banda mínimo. En la mayoría de los métodos conocidos, el formato de reproducción (por ejemplo estéreo, 5.1) es predefinido y tiene una influencia directa en el escenario de codificación. La corriente de audio en el costado del descodificador debe usar solamente este formato de reproducción predefinido, por lo tanto, une el usuario a un escenario de reproducción predefinido (por ejemplo, estéreo). La invención propuesta codifica N señales de fuente de audio, típicamente sin canales de señales de estéreo o de múltiples canales, pero señales independientes, tal como diferentes señales de voces o instrumentos. La información del costado transmitido incluye parámetros estadísticos que se relacionan a las señales de fuente de audio de entrada. La presente invención descodifica M canales de audio con diferentes filas que las señales de fuentes de audio originales. Estas diferentes filas son sintetizadas implícitamente por aplicar un mezclador a la señal de suma recibida. Este mezclador es controlado como una función de la información de fuente estadística recibida y los parámetros de formato de audio recibidos (o localmente determinados) , y los parámetros de mezcla. Alternativamente, estas diferentes filas son computadas explícitamente como una función de la información de fuente estadística recibida, y los parámetros de formato de audio (determinados localmente, y los parámetros de mezcla. Estas filas computadas se usan para controlar un descodificador de la técnica anterior (Binaural Cue Coding, Parametric Stereo, MPEG Surround) /Codificación de Fila Binaural, Estéreo Paramétrico, Rodead de MPEG) por sintetizar los canales de salida dada la suma de la señal recibida. El esquema propuesto para la codificación de junta de las señales de fuente de audio es el primero de su clase, se diseñó para la codificación de junta de las señales de fuente de audio. Estas señales de fuente de audio son usualmente señales de mono-audio que no son adecuadas para la reproducción sobre un sistema de audio de estéreo o de múltiples canales. Para brevedad, en lo siguiente, las señales de fuente de audio son a menudo denotadas como señales de fuente. Las señales de fuente de audio primero necesitan ser mezcladas a las señales de audio estéreo, de múltiples canales o de síntesis de campo de onda, antes de la reproducción. La señal de fuente de audio puede ser un instrumento sencillo o conversador, o la suma de un número de instrumentos y conversadores. Otro tipo de señal de fuente de audio es una señal de mono-audio capturada con un micrófono de zona durante un concierto. A menudo las señales de fuente de audio se almacenan en grabadoras de múltiples pistas o en sistemas de grabación de disco duro. El esquema reclamado para la codificación de junta de las señales de fuente de audio se basa en transmitir solamente la suma de las señales de fuente de audio, o una suma pesada de las señales de fuente. Opcionalmente, la suma pesada puede ser llevada a cabo con diferentes pesos en diferentes subbandas y los pesos pueden ser adaptados en el tiempo, la suma con igualación, como se describe en el Capítulo 3.3.2 en [1], puede también ser aplicada. En lo siguiente, cuando nos referimos a la suma o señal de suma, siempre se entiende una señal generada por (1) o generada como se describió. Además de la señal de suma, la información lateral se transmite. La suma y la información secundaria representan la corriente de audio producida. Opcionalmente, la señal de suma es codificada usando un codificador convencional de mono-audio. La corriente puede ser almacenada en un archivo (CD, DVD, Disco Duro) o transmitida al receptor. La información secundaria representa las propiedades estadísticas de las señales de fuente que son los factores más importantes que determinan las filas espaciales percibidas de las señales de salida del mezclador. Se mostrará que estas propiedades son sobres espectrales desarrollados temporalmente y funciones de auto-correlación. Alrededor de 3 kb/seg de información lateral es transmitida por la señal de fuente. En el receptor, las señales de fuente §?(n) (1 < u < M) se recuperan con las propiedades estadísticas antes mencionadas, que se aproximan a las propiedades correspondientes de las señales de fuente originales y la señal de suma.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La invención se comprenderá mejor, gracias a las Figuras adjuntas, en las cuales: la figura 1 muestra un esquema en el cual la transmisión de cada señal de fuente se hace independientemente para el proceso ulterior; la figura 2 muestra un número de fuentes transmitidas como la señal de suma más la información secundaria; la figura 3 muestra un diagrama de bloques del esquema de Codificación de Fila Binaural; - la figura 4 muestra un mezclador para generar señales estéreo, con base en las varias señales de fuente, la figura 5 muestra la dependencia entre ICTD, ICLD e ICC y la potencia de subbanda de la señal de fuente; la Figura 6 muestra el proceso de la generación de información secundaria; la figura 7 muestra el proceso de estimar los parámetros de LPC de cada señal de fuente; la figura 8 muestra el proceso de recrear las señales de fuente desde la señal de suma; la figura 9 muestra un esquema alternativo para la generación de cada señal desde la señal de suma; la figura 10 muestra un mezclador para generar señales estéreo en la señal de suma; - la figura 11 muestra un mezclador para generar señales estéreo, basadas en la señal de suma; la figura 11 muestra un algoritmo panorámico de la amplitud, que previene que los niveles de fuente dependan en los parámetros de mezcla; - la figura 12 muestra un arreglo de bocina del sistema de reproducción de síntesis de campo de onda; la figura 13 muestra cómo recuperar una estimación de las señales de fuente en el receptor por procesar la mezcla descendente de los canales transmitidos; y - la figura 14 muestra cómo recuperar una estimación de las señales de fuente en el receptor, por procesar los canales transmitidos .

II. DEFINICIONES. NOTACIÓN Y VARIABLES Se usan en este documento la siguiente notación y variables: n índice de tiempo; i canal de audio o índice de fuente; d índice de retardo; M número de señales de fuente de entrada del codificador; N número de canales de salida del descodificador ; x»(n) señales de fuentes originales mezcladas; xJ (n) señales de salida del descodificador mezcladas; Sj, (n) señales de fuente de entrada del codificador; s. (n) señales de fuente transmitidas, también llamadas señales de pseudo-fuente s (n) señal de suma transmitida; yi (n) señal de audio del canal L; (señal de audio que se van a re-mezclar) ; §! (k) una señal de subbanda de sJn) (definida similarmente para otras señales) ; E(sx2 (n) ] estimación de tiempo breve de sx2 (n) (definida similarmente para otras señales) ; ICLD diferencia de nivel ínter-canales ; ICTD diferencia de tiempo inter-canales; ICC coherencia ínter-canales ?L(n) ICLD de subbanda estimada; x(n) ICT de subbanda estimado; c(n) ICC de subbanda estimado; Pi (n) potencia de subbanda de fuente relativa; ax bx factores de escala del mezclador; Ci, di retardos del mezclador; ?Li, t(n) nivel del mezclador y diferencia de tiempo; Gi ganancia de fuente del mezclador III. CODIFICACIÓN DE JUNTA DE SEÑALES DE FUENTE DE AUDIO Primero, la codificación de Fila Binaural (BCC( una técnica de codificación de audio de múltiples canales, paramétrica, se describe. Luego se muestra que con la misma vista como BCC se basa en que uno puede idear un algoritmo para la codificación en conjunto de las señales de fuente para un escenario de codificación.

A, Codificación de fila binaural (BCC) Un esquema de BC [1] [2] para una codificación de audio de múltiples canales se muestra en la siguiente figura. La señal de audio de múltipoles canales de entrada se mezcla en forma descendente a un solo canal. En oposición a la información de codificación y transmisión, aproximadamente todas las formas de onda del canal, solamente la señal mezclada en forma descendente se codifica (con el codificador de monoaudio convencional) y transmite. Adicionalmente, las diferencias de canal de audio motivadas percibidas se estiman entre los canales de audio originales y también transmitidas al descodificador. Este descodificador genera sus canales de salida, de modo que las diferencias del canal de audio se aproximen a las diferencias de canal de audio correspondientes de la señal de audio original . La localización de suma implica que las diferencias del canal de audio relevantes con percepción para una pareja de canales de la señal de la bocina son la diferencia de tiempo inter-canales ICTD) y la diferencia de nivel inter-canales (ICLD) , ICTD e ICLD pueden estar relacionadas a la dirección percibida de los eventos de auditorio. Otros atributos de imagen espacial de auditorio, tal como un ancho de fuente aparente y el ambiente del escucha, pueden estar relacionados con la coherencia interaural (IC) . Para parejas de bocinas en el frente o parte posterior de un escucha, la coherencia interaural está a menudo relacionada directamente a la coherencia inter-canales por (ICC) , que es así considerada como la tercer medida de la diferencia de canal de audio por BCC, ICTD, ICLD e ICC se estima en las subbandas como una función del tiempo. Tanto la resolución espectral como temporal que se usan, son motivadas por percepción.

B. Codificación de junta paramétrica de fuentes de audio Un descodificador de BCC es capaz de generar una señal de audio de múltiples canales, con cualquier imagen espacial de auditorio, por tomar una mono-señal y sintetizar en intervalos de tiempo regulares una sola fila de ICTD, ICLD e ICC específica por subbanda y pareja de canales. El buen desempeño de los esquemas de BCC para un amplio intervalo de material de audio [véase 1] implica que la imagen espacial de auditorio percibida es grandemente determinada por ICTD, ICLD e ICC. Por lo tato en oposición a las señales de fuente "limpias" requeridas, s (n) como entrada del mezclador en la Figura 1, requiere justamente señales de pseudo-fuentes sJ (n) , con la propiedad que ellas resulten en ICTD, ICLD e ICC similares, en la salida del mezclador, como para el caso de suministro de las señales de fuente reales al mezclador Hay tres metas para la generación de s^Jn) : • Si ! (n) se suministra a un mezclador, los canales de salida del mezclador tendrán aproximadamente las mismas filas espaciales (ICLD, ICTD, ICC) como si sx (n) se suministrara al mezclador. • sJn) será generado con tan poca información como sea posible, alrededor de las señales de fuente originales s (n) (debido a la meta es tener la información del costado de régimen de bits bajo) . • Los sJn) se generan desde la señal de suma transmitida s (n) , de modo que una cantidad mínima de distorsión de señal sea introducida.

Para derivar el esquema propuesto, se considera un mezclador de estéreo Una simplificación más sobre el caso general es que sólo la panorámica de amplitud y retardo se aplican para la mezcla. Si las señales de fuente discretas están disponibles al descodificador, una señal de estéreo sería mezclada como se muestra en la Figura 4, es decir, En este caso, el vector de descripción de escena S (n) contiene justamente direcciones de fuente que determinan los parámetros de mezcla .

M(n) = (ai , Zi, ... , anf, o* , 62 bw , Cf , C2, ... , CM , df , da ... , dw ) (3) donde T es la transposición de un vector. Nótese que para los parámetros de mezcla, ignoramos el índice de tiempo por conveniencia de notación. Los parámetros más convenientes para controlar el mezclador son el tiempo y la diferencia de nivel, Ti y ?Li, que se relacionan a ai, bi, Ci y di por a, = b¡ = 10(G,+?L° 2V. c, = max {-T,-, 0} cfi = max {T/( 0} donde Gi es un factor de ganancia de fuente en dB . En lo siguiente, calculamos ICTD, ICLD e ICC de la salida del mezclador de estéreo como una función de las señales de fuente de entrada Si(n) . Las expresiones obtenidas darán indicación de cuáles propiedades de señales de fuentes determinar, ICTD, ICLD e ICC (junto con los parámetros de mezcla) . §i(n) son luego generadas de modo que las propiedades de la señal de fuente identificadas se aproximen a las propiedades correspondientes de las señales de fuente originales.

B.l ICTD, ICLD e ICC de la salida del mezclador. Las filas son estimadas en subbandas y como una función del tiempo. En lo siguiente, se supone que las señales de fuente Si(n) son cero y mutuamente independientes. Una pareja de señales de subbanda de la salida (2) del mezclador se denota xx (n) y x2 (n) .

Nótese que para simplicidad de notación usamos el mismo índice de tiempo n, para el dominio de tiempo y las señales de dominio de subbanda. Igualmente no se usa un índice de subbanda y el análisis / proceso descrito se aplica a cada subbanda independientemente. La potencia de la subbanda de las dos señales de salida del mezclador es : donde Si (n es una señal de subbanda de la fuente Si (n) y E[ ] denota la expectación de tiempo corto, por ejemplo, donde K determina la longitud del promedio de movimiento. Nótese E s2 {n) } que los valores de potencia de subbanda representan para cada señal de fuente, la envoltura espectral como una función de tiempo. El ICLD ?L(n), es (7) Para estimar ICTD e ICC, la función de correlación normalizada se estimó. La IC, c (n) se calculó de acuerdo con C(n) = max f(n>d) d (9) Para la computación de ICTD. T(n),la ubicación de la cresta más alta en el eje de retardo se calcula, T(n) = arg max f(n>d) d (10) Ahora la cuestión es, cómo se pude la función de auto-correlación normalizada ser computada como una función de los parámetros de mezcla. Junto con (2) , 8) , puede ser escrito como que es equivalente a (12) F(n.?) donde la función de auto-correlación normalizada es (13) y Ti = di - Cj Nótese que para calcular (12) dada (Ia se ha supuesto que las señales son estacionarias de sentido amplio, dentro del intervalo considerado de retardos, es decir, E{s (n)} = E {s;(n -Cl)} E {si (n)si(n + ci - dl + d)} ) = E{si (n -ci)sl(n -di A d)} Un ejemplo numérico para dos señales de fuente, que ilustra la dependencia entre ICTD, ICLD e ICC y la potencia de subbanda de fuente, se muestra en la Figura 5. La mitad superior y el panel de fondo de la Figura 5 muestran ?L(n) , T (n) y c (n) , respectivamente, como una función de la relación de la potencia de subbanda de las dos señales de fuente a = E{Si2(")}/ (E{SÍ2(?)} + E{£»2 1 ' (/.)}), para diferentes parámetros de mezcla ^ ' 1 ' *' 1 ' 2- . Nótese que cuando sólo una fuente tiene potencia en la subbanda (a = 0 o a = 1) luego ?L(n) y T(n) calculados son iguales a los parámetros de mezcla * 1 ' 2| ' ' l2>-Información secundaria necesaria La ICLD (7) depende de los parámetros de mezcla (ax, bx Ci, dx) y en la potencia de subbanda de tiempo corto de las fuentes, ' ' La función de correlación transversal de subbanda normalizada ' ' que es necesaria para la computación E {s, (n) \ de la ICTD (10) e (C (9) depende de y adicionalmente en F|(/7, ?) (13), la función de auto-correlacion de subbanda normalizada para cada señal de fuente. El máximo de ' ' radica dentro del min?{T?} < d < maxrfTi}. ^ . . . . intervalo Para fuente con parámetro de mezclador T-. = dj. -c-. el intervalo correspondiente para el cual la propiedad de la subbanda de señal de fuente '* ' ^ ' es necesaria, es min{T/} - T/< e < max {T,} - T, 1 l (14) Puesto que las filas de ICTD, ICLD e ICC dependen de las propiedades de subbanda de la señal de fuente , en el intervalo (14) , en principio esas propiedades de la subbanda de la señal de fuente, necesitan ser transmitidas como información secundaria. Suponemos que cualquier otra clase de mezclador (por ejemplo mezclador con efecto, mezclador de síntesis de campo de onda /enrollado, etc.) tiene propiedades similares y así esta información secundaria es útil también cuando otros mezcladores además del descrito se usan. Para reducir la cantidad de la información secundaria, uno puede almacenar un conjunto de funciones de auto-correlación predefinidas en el descodificador y solamente transmite índices de selección de aquellas que corresponden más estrechamente con las propiedades de la señal de fuente. Una primera versión de nuestro algoritmo supone que dentro del intervalo (14) F(n, ?) = 1 y así (12) se calcula cuando sólo los valores (6) de potencia de subbanda como la información secundaria. Los datos mostrados en a Figura 5 se han calculado suponiendo F(n, ?) = 1 Con el fin de reducir la cantidad de la información secundaria, el intervalo dinámico relativo de las señales de fuente se limita. En cada momento, para cada subbanda, la potencia de la fuente más fuerte se selecciona. Encontramos es suficiente disminuir el límite de la potencia de la subbanda correspondiente de todas las otras fuentes a un valor de 24 dB menor que la potencia de la subbanda más fuerte. Así, el intervalo dinámico del cuantificador puede ser limitado a 24 dB. Suponiendo que las señales de fuente son independientes. el descodificador puede calcular la suma de la potencia de E {s 2(n) \ . subbanda de todas las fuentes como Asi, en principio es suficiente transmitir al descodificador sólo los valores de potencia de subbanda de fuentes M-l, mientras la potencia de subbanda de la fuente restante se puede computar localmente. Dada esta idea, el régimen de información lateral puede ser reducido levemente por transmitir la potencia de subbanda de fuentes con índice 2 < i < N con relación a la potencia de la primera fuente.

Nótese que el intervalo dinámico que limita como se describió previamente, se lleva a cabo antes a (15) . Como una alternativa, los valores de potencia de subbanda pueden ser normalizados con relación a la potencia de subbanda de la señal de suma, en oposición a la normalización con relación a una potencia (15) de subbanda de fuente. Para una frecuencia de muestreo de 44.1 kHz, usamos 20 subbandas y transmite para cada subbanda ? (n) (2 i < M) alrededor de cada 12 ms . 20 subbandas corresponden a la mitad de la resolución espectral de un sistema e auditorio (una subbanda es de una amplitud de dos "anchos de banda críticos" . Los experimentos informales indican que sólo se logra una leve mejora usando más subbandas de 20, por ejemplo 40 subbandas. El número de subbandas y los anchos de banda de estas subbandas se escogen de acuerdo con el tiempo y la resolución de frecuencia del sistema de auditorio. Una realización de baja calidad del esquema requiere al menos tres subbandas (frecuencias baja, media y alta) .

De acuerdo con una modalidad particular, las subbandas tienen anchos de banda diferentes a frecuencias más bajas tienen anchos de banda menores que las subbandas a frecuencias mayores . Los valores de potencia relativos se cuantifican con un esquema similar al cuantificador de ICLD descrito en (2), que resulta en un régimen de bits de aproximadamente 3 (M-l) kb/s. La Figura 6 ilustra el proceso de la generación de información secundaria (que corresponde al bloque de "generación de información secundaria" en la Figura 2) . El régimen de información secundaria puede ser adicionalmente reducido por analizar la actividad para cada señal de fuente y sólo transmitir la información secundaria asociada con la fuente si es activa. En oposición a transmitir los valores de potencia de subbanda [R(s (b)] como información estadística, otra información que representa las envolturas espectrales de las señales de fuente puede ser transmitida. por ejemplo, los parámetros de la codificación predictiva lineal (LPC) pueden ser transmitidos o los otros parámetros correspondientes, tal como los parámetros del filtro de rejilla o los parámetros de la pareja espectral de línea (LP) . El proceso de estimar los parámetros de LPC de cada señal de fuente se ilustra en la Figura 7 , B.3 Computación , s¡ (n) . La Figura 8 ilustra el proceso que se usa para recrear las señales de fuente, dada la señal de suma (1) . , Este proceso es parte del bloque de "Síntesis" en la Figura 2. Las señales de fuente individuales se recuperaron por escalar cada subbanda de la señal de suma con g (n) y por aplicar un filtro de descorrelación con respuesta de impulso hi (n) . s,(») = hfn) * (g¡(n) s (n)) = h,(n) * (16) E {s 2(n) \ donde * es el operador de convolucion lineal y se calcula con la información secundaria por de otra manera (17) Como filtros de descorrelación h (n) , filtros de peine complementarios, filtros de todo paso, filtros de retardo o filtros con respuestas de impulso aleatorio, pueden ser usados. La meta para el proceso de descorrelación es reducir la correlación entre las señales, mientras no modifican cómo se perciben las formas de onda individuales. Diferentes técnicas de descorrelación causan diferentes artefactos. Los filtros tipo peine complementarios causan coloración . Todas las técnicas descritas son difundidas por la energía de transitorios en artefactos que causan tiempo, tal como loa "ecos previos!. Dado su potencial para artefactos, las técnicas de descorrelación deben ser aplicadas tan poco como se posible. La siguiente sección describe técnicas y estrategias que requieren menos procesos de descorrelación que la simple generación de señales independientes Sj. (n) . Un esquema alternativo para la generación de señale s± (n) se muestra en la Figura 9. Primero el espectro de s (n) es aplanado por medio del cómputo del error ? (n) de predicción lineal. Luego, dados los filtros de LPC estimados en el codificador, fu, los filtros de todos polos correspondientes son computados como la transformación z inversa de ?* = -i Los filtros resultantes de todos los polos fi, representan la envoltura espectral de las señales de fuente Si, Si otra información secundaria que los parámetros LPC es transmitida, los parámetros de LPC primero necesitan ser computados como una función de la información lateral. Como en el otro esquema, los filtros de descorrelación hi se usan para obtener las señales de fuente independientes .

REALIZACIÓN QUE CONSIDERA RESTRICCIONES PRACTICAS En la primera parte de esta sección, un ejemplo de realización se suministra, usando un esquema de síntesis de BCC, como un mezclador de estéreo o de múltiples canales. Esto es particularmente inherente, puesto que el esquema de síntesis de tipo BCC es parte de un estándar ISO/IEC MPEG próximo, denotado "codificación de audio espacial" . Las señales de fuentes s (n) no son computadas explícitamente en este caso, que resulta en complejidad reducida de computación. Igualmente, este esquema ofrece el potencial de mejor calidad de audio, puesto que efectivamente menos descorrelación es necesaria que en el caso donde s señales de fuente Si (n) se computan explícitamente. La segunda parte de esta sección discute los problemas cuando el esquema propuesto es aplicado con cualquier mezclador y sin proceso de descorrelación aplicada del todo. Tal esquema tiene una menor complejidad que un esquema con proceso de descorrelación, pero puede tener otros inconvenientes, como serán discutidos. Idealmente, uno podría aplicar el proceso de descorrelación, de modo que el i (n) generado se pueda considerar independiente. Sin embargo, puesto que el proceso de descorrelación es problemático en términos de introducir artefacto, es uno que podría aplicar el proceso de descorrelación tan poco como sea posible. La tercera parte de esta sección discute cómo la cantidad del proceso de descorrelación problemático puede ser reducida, mientras otorga beneficios como si el §i (n) generado fuera independiente.

A. Realización sin computación explícita de s¡ (n) La mezcla es aplicada directamente a la señal de suma transmitida (1), sin la computación explícita de §i (n) .En esquema de síntesis de BCC se usó para este propósito. En lo siguiente, consideramos el caso de estéreo, pero todos los principios descritos pueden ser aplicados para la generación de señales de audio de múltiples canales, igualmente. Un esquema de síntesis de BCC de estéreo para un esquema "estéreo-paramétrico" aplicado por el proceso de la señal de suma (1) , se muestra en la Figura 10. Sería conveniente que el esquema de síntesis de BCC genere una señal que es percibida similarmente como la señal de salida de un mezclador, como se muestra en la Figura 4. Esto es cuando ICTD, ICLD e ICC en los canales de salida del esquema de síntesis son similares, como las filas correspondientes que aparecen entre los canales de la señal de salida (4) del mezclador. La misma información secundaria como para el esquema general previamente descrito se usa, permitiendo que el descodificador compute los valores de potencia de subbanda de E {s 2 (n) }, \ E {s 2 (n) }, ¡ tiempo corto de las fuentes. Dado los factores de ganancia gi y g2 en la Figura 10, son computados como, (18) de modo que la potencia de subbanda de salida e ICLD (7( sen los mismos como para el mezclador en la Figura 4. La ICTD T(n) se computa de acuerdo con (10) , determinando los retardos Di y D2 en la Figura 10, í(n) = max{ -l(n), 0} 02(n) = max{ T(n), 0} Las IC c (n) se computan de acuerdo con (8), determinando el proceso de descorrelación en la Figura 10. Este proceso de descorrelación (síntesis de ICC) se describe en 1] . Las ventajas de aplicar el proceso de descorrelación a los canales de salida del mezclador, comparadas con aplicarlo para la generación independiente Si (n) son: • Usualmente, el número de señales M de fuentes es mayor que el número de canales N de salida de audio. Así, el número de canales de audio independiente que se necesitan generar es menor cuando la descorrelación de N canales de salida en oposición a la descorrelación de las M señales de fuente.

• A menudo, los canales de salida de audio se correlacionan (ICC > 0) y menos procesos de descorrelación se pueden aplicar que serían necesarios para generar canales M y N independientes . Debido a los menores procesos de descorrelación se espera mejor calidad de audio. Se espera mejor calidad de audio cuando los parámetros del mezclador se constriñen de modo que ai2 + bi2 = 1. es decir, G = 0 dB . En este caso, la potencia de cada fuente en la señal de suma transmitida (1) es la misma como la potencia de la misma fuente en la señal de salida del descodificador mixto. La señal de salida del descodificador (Figura 10 e la misma como si la señal de salida del mezclador (Figura 4) se codificara y descodificara por un codificador/ descodificador de BCC en este caso. Así, se puede esperar una calidad igualmente similar. El descodificador puede no sólo determinar la dirección en la cual cada fuente va a aparecer, pero también la ganancia de cada fuente puede ser variada. La ganancia es aumentada por seleccionar aA + bx2 > 1, (G-. > 0 dB) y disminuir por seleccionar Uso sin proceso de descorrelación La restricción de la técnica previamente descrita es que la mezcla se lleva a cabo sin el esquema de síntesis de BCC. Uno puede imaginar la realización no sólo de la síntesis de ICTD, ICLD e ICC sino el proceso de efectos adicionales con la síntesis de BCC. In embargo, puede ser deseado que los mezcladores y procesadores de efectos existentes puedan ser usados. Esto también incluye los mezcladores de síntesis del campo de onda (a menudo denotados como "enrollamientos" Por el uso de los mezcladores y procesadores de efectos existentes, se calculan los §i(n) explícitamente y se usan como si fueran las señales de fuentes originales. Cuando se aplica sin el proceso de descorelación (h(n) = d(n) en (16) puede también ser lograda buena calidad de audio. Es un compromiso entre los artefactos introducidos debido al proceso de descorrelación y los artefactos debido al hecho que las señales de fuente §i(n) se correlacionan. Cuando no se usa el proceso de descorrelación, la imagen espacial de auditorio resultante puede sufrir inestabilidad [1] . Pero el mezclador puede introducir alguna descorrelación cando los reverberadores u otros efectos se usan y sí hay menos necesidad del proceso de descorrelación. Si i (n) son generadas sin el proceso de descorrelación, el nivel de las fuentes depende en la dirección en la cual ellos se mezclan en relación con otras fuentes., Por reemplazar los algoritmos panorámicos de amplitud en los mezcladores existentes con un algoritmo compensado esta dependencia de nivel, el efecto negativo de la dependencia de la sonoridad en los parámetros de mezcla, pueden ser evitados. Una amplitud que compensa el algoritmo de nivel se muestra en la Figura 11, el cual se dirige a compensar la dependencia del nivel de fuente en los parámetros de mezcla. Dados los factores de ganancia de un algoritmo panorámico de amplitud (por ejemplo, Figura 4) ai y bi los pesos de la Figura 11, ' ' ' son computados por Nótese que ax y b se computan de modo que la potencia de subbanda de salida sea la misma como si §i(n) fuera independiente en cada subbanda .

Reducción de la cantidad del proceso de descorrelación Como se mencionó previamente, la generación de §i (n) independiente es problemática. Aquí, se describen estrategias para aplicar menor proceso de descorrelación, mientras se logra efectivamente un efecto similar como si si (n) fuera independiente . Consideremos por ejemplo, un sistema de síntesis de campo de ondas, como se muestra en la Figura 12. Las posiciones de fuente virtuales deseadas para si, s2 , ...s6 (M= 6) se indican. Una estrategia para computar §i(n) (16) sin generar M señales independientes completamente es : 1) generar grupos de índices de fuentes, que corresponden a las fuentes cercanas entre sí. Por ejemplo, en la Figura 8 ellas pueden ser (1, (2,5), (3), y (4,6). 2) En cada momento en cada subbanda seleccionar el índice de fuente de la fuente más fuerte = max£{ (n)} (21) Aplicar el proceso no de descorrelación para los índices de fuentes en parte del grupo que contiene lmax, es decir, hi(n) = d(n) . 3) Para cada otro grupo, seleccionar el mismo h(n) dentro del grupo . El algoritmo descrito modifica los componentes de señal más fuerte al menos. Adicionalmente, el número de diferentes h(n) que se usa, se educen. Esto es una ventaja debido a que la descorrelación es más fácil que los canales menos independientes, que se van a generar.

V, ESCALABILIDAD EN TÉRMINOS DE CUALIDAD Y REGÍMENES DE BITS. El esquema propuesto transmite solamente la suma de todas las señales de fuentes, la cual puede ser codificada con un codificador de mono-audio convencional. Cuando ninguna compatibilidad hacia atrás es necesaria y la capacidad está disponible para la transmisión / almacenamiento de más de una forma de onda de audio, el esquema propuesto puede ser escalado para el uso con más de un canal de transmisión. Esto se realiza generando varias señales de suma con diferentes subconjuntos de las señales de fuente dadas, es decir, a cada subconjunto de las señales de fuente se aplica individualmente el esquema de codificación propuesto. La calidad de audio se espera mejore conforme el número de canales de audio transmitidos es amentado, debido a que canales menos independientes tienen que ser generados por la descorrelación de cada canal transmitido (comparado con el caso se n canal transmitido) .

VI. COMPATIBILIDAD CONTRARIA A FORMATOS DE ESTÉREO Y AUDIO RODEANTES EXISTENTES Consideremos el escenario de entrega de audio siguiente. Un consumidor obtiene un estéreo de calidad máxima o una señal que rodea múltiples canales (por ejemplo, por medio de un CD, DVD de audio o música en línea almacenada, etc) La meta es entregar opcionalmente al consumidor la flexibilidad de generar una mezcla acostumbrada del contenido de audio obtenido, sin comprometer la generación de una mezcla acostumbrada del contenido de audio obtenido, sin comprometer la reproducción estándar de estéreo / rodeante. Esto es realizado por entregar al consumidor por ejemplo, como una opción de compra, n un almacén de música en línea) una corriente de bits de información secundaria que permitir la computación de Si (n) como una función de la señal de audio dada de estéreo y múltiples canales. El algoritmo de mezcla del consumidor es luego aplicado a §i (n) en lo siguiente, dos posibilidades para la computación de §i (n) , dadas las señales de audio de estéreo y múltiples canales, se describen A. Estimación de a suma de las señales de fuente en el receptor. La manera adelante mas directa de usar el esquema de codificación propuesto con una transmisión de audio estéreo o de múltiples canales se ilustra en la Figura 13, donde yi(n) (1 < u _< 1) son los canales L de la señal de audio estéreo o de múltiples canales. La señal de suma de las fuentes es estimada por la mezcla descendente de los canales transmitidos a un canal de audio sencillo. La mezcla descendente se lleva a cabo por medio de computación de la suma de los canales yi(n) 1 < u <_ L o técnicas más sofisticas pueden ser aplicadas. Para el mejor desempeño, se recomienda que el nivel de las señales de fuentes se adaptada antes a E([§i2(n)], estimación (6) de modo que la relación de potencia entre las señales de fuentes se aproxime a la relación de potencia con la cual las fuentes están contenidas en la señal de estéreo o múltiples canales dada. En este caso, la mezcla descendente de los canales transmitidos es una estimación relativamente buena de la suma de las fuentes (1) (o su versión escalada) . Un proceso automático puede ser usado para ajustar el nivel de las entradas de la señal de fuente del codificado s (n) antes de la computación de la información secundaria. Este proceso adaptado en tiempo estima el nivel al cual cada señal de fuente está contenida en la señal de estéreo o de múltales canales dada. Antes de la computación de la información secundaria, el nivel de cada señal de fuente es lego adaptada en el tiempo ajustada de modo que sea igual al nivel en el cual la fuente está contenida en la señal de estéreo o de múltiples canales de audio.

B. Uso de canales transmitidos individualmente La Figura 14 muestra una realización diferente del esquema propuesto con la transmisión de señal rodeante de estéreo o de múltiples canales. Aquí, los canales transmitidos no son mezclados en forma descenderte, pero se usan individuamente para la generación de i (n) . Más generalmente, las señales de subbanda Si (n) se computan por donde wx(n) son pesos que determinan las combinaciones lineales específicas de las subbandas de canales transmitidas. Las combinaciones lineales se escogen de modo que si (n) estén siempre muy descorrelacionadas en lo posible. Así, nada o sólo una pequeña cantidad del proceso de descorrelación necesita ser aplicado, lo cual es favorable, como se discutió antes.

Vil. APLICACIONES. Previamente mencionamos un número de aplicaciones para los esquemas de codificación propuestos. Aquí, resumimos ellos y mencionamos unas cuantas aplicaciones más. A. Codificación de audio por mezcla Siempre que las señales de fuente de audio necesiten ser almacenadas o transmitidas antes de mezclarlas a las señales de audio estéreo, de múltiples canales o de síntesis de campo de onda, el esquema propuesto se puede aplicar Con la técnica anterior, un codificador de mono-audio podrá ser aplicado a cada señal de fuente independientemente, que resulta en un régimen de bits que escala con el número de fuentes. El esquema del código propuesto puede codificar un alto número de señales de fuente de audio con un codificador de mono audio sencillo más la información lateral de régimen de bits relativamente bajo. Como se describe n la Sección V, la calidad de audio puede ser mejorada usando más de un canal transmitido, si la memoria / capacidad para hacerlo está disponible.

B. Remezcla con meta-datos Como se describió en la Sección VI, las señales de audio estero y de múltiples canales existentes, pueden ser remezcladas con la ayuda de información secundaria adicional (es decir "meta-datos" ) . En oposición al contenido de audio mezclado de estéreo y de múltiples canales optimizado solamente vendido, los meta-datos pueden ser vendidos mostrando a un usuario la remezcla de su música estéreo y de múltiples canales. Esto puede, por ejemplo, también ser usado para atenuar las vocales en una canción para karaoke o para atenuar instrumentos específicos para tocar un instrumento junto con la música. Aún si el almacenamiento no es un problema, el esquema descrito será muy atractivo para habilitar al cliente con mezcla de música. Es decir, debido a que probable que la industria de la música nunca será suministrada parte de las grabaciones de múltiples pistas. Existe demasiado peligro para el abuso. El esquema propuesto habilita la capacidad de la remezcla sin apartar las grabaciones de múltiples pistas.

Asimismo, tan pronto como las señales de estéreo o de múltiples canales se remezclan, un cierto grado de reducción de calidad ocurre, haciendo la distribución ilegal de la remezcla menos atractiva. c. Estéreo / múltiples canales a la conversión de síntesis de campo de ondas Otra aplicación para el esquema descrito en la Sección VI se describe en lo siguiente. Las películas de movimiento que acompañan el audio de estéreo y de múltiples canales (por ejemplo 5.1 rodeante), pueden ser extendidas para obtener a síntesis de campo de ondas, agregando la información secundaria. Por ejemplo Dolby ACC-3 (audio para DVD) puede extenderse por 5.1 al audio de codificación de compatibilidad hacia atrás para los sistemas de síntesis del campo de ondas, es decir reproducir DVD 5.1 el sonido rodeante en reproductores legales convencionales y el sonido de síntesis de campo de ondas en una nueva generación de reproductores que soportan el proceso de la información secundaria^ VIH: EVALUACIONES SUBJETIVAS Realizamos un descodificador de tiempo real de los algoritmos propuestos en la Sección IV-A y IV-B. Se usa un banco de filtros STFT basado en FFT. Un FFT de punto 1024 y un tamaño de ventana STFT de 768 (con cojín de cero) se usan. Los coeficientes espectrales se agrupan juntos de modo que cada grupo represente la señal con un ancho de banda de dos veces el ancho de anda rectangular equivalente (ERB) . El escucha informal reveló que la calidad de audio no mejora notablemente cuando se escoge la resolución de frecuencia mayor. Una resolución de frecuencia menor es favorable puesto que resulta en menos parámetros que transmitir. Para cada fuente, la panorámica y ganancia de amplitud/retardo pueden ser ajustados individualmente. El algoritmo se usó para codificar varias grabaciones de audio de múltiples pistas con 12 a 14 pistas. El descodificador permite que 5.1 la mezcla rodeante use un mezclador (VBPAP) de panorámica de amplitud. La dirección y ganancia de cada señal de fuente se pueden ajustar. El software permite la interrupción al vuelo entre la mezcla de la señal de fuente codificada y la mezcla de las señales de fuente discretas originales . El escucha casual usualmente revela nada o poca diferencia entre la mezcla de las señales de fuente originales o codificadas si para cada fuente una ganancia Gi de cero dB se usa. Cuanto más ganancias de fuente son variadas, mayores artefactos ocurren. La amplificación y atenuación leves de las fuentes (por ejemplo hasta ± 6 dB darán aún buenos sonidos. Un escenario crítico es cuando todas la fuentes se mezclan a un costado y solamente una fuente al otro costado opuesto. En este caso, la calidad de audio puede ser reducida, dependiendo de la mezcla específica y las señales de fuente IX. CONCLUSIONES Un esquema de codificación para la codificación de juntas de las señales de fuente de audio, por ejemplo los canales de una grabación de múltiples pistas, se propuso. La meta no es codificar las formas de onda de la señal de fuente con alta calidad, en dicho caso la codificación de unión será dada con mínima ganancia de codificación, puesto que las fuentes de audio son usualmente independientes . La meta es que cuando las señales de fuente codificadas se mezclan una señal de audio de alta calidad se obtenga. Considerando las propiedades estadísticas de las señales de fuente, las propiedades de los esquema de mezcla, y el sonido espacial, muestran que se logra una mejora en la ganancia de codificación significante por la codificación en conjunto de las señales de fuente. La mejora en la ganancia de codificación se debe al hecho que solamente se transmite una forma de onda de audio. Adicionalmente, la información secundaria, que representa las propiedades estadísticas de las señales de fuente que son factores relevantes que determinan la percepción espacial de la señal mezclada final se transmiten.

El régimen de información secundaria es de alrededor de 3 kbs por señal de fuente. Cualquier mezclador puede ser aplicado con las señales de fuente codificas, por ejemplo mezcladores de síntesis de estéreo, de múltiples canales o de campo de onda. Es directo adelante para escalar el esquema propuesto para el régimen de bits mayor y la calidad por medio de transmitir más de un canal de audio. Asimismo, una variación del esquema se propuso, el cual permite la remezcla de la señal de audio de estéreo o de múltiples canales dada (y aún cambiando el formato de audio, por ejemplo la síntesis de estéreo a múltiples canales o al campo de ondas. Las aplicaciones del esquema propuesto son los colectores. Por ejemplo MPEG-4 puede ser extendido con el esquema propuesto para reducir el reamen de bits cuando más de un "objeto de audio natural" (señal de fuente) necesita ser transmitido. Igualmente, el esquema propuesto ofrece la representación compacta del contenido de los sistemas de síntesis del campo de ondas. Como se mencionó, las señales etéreo o de múltiples canales existentes pueden ser complementadas con la información secundaria para permitir que el usuario remezcla las señales para su enlace.

REFERENCIAS [1] C. Fallßr, Parametric Coding of Spatial Audio, Ph.D. thesis, Swiss Federal Ipstitute of Technoloqy Lausanne (EPFL), 2004, Ph.D. Thesis No. 3062. [2] C. Faller and F. Baumgart?, "Binaural Cue Coding - Part II: Schemßs and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

Claims

REIVINDICACIONES 1. Un método para sintetizar una pluralidad de canales de audio, este método comprende las etapas de: - recuperar de la corriente de audio al menos una señal de suma, que representa la suma de las señales de fuentes; recuperar de la corriente de audio la información estadística acerca de una o más señales de fuentes; recibir de la corriente de audio, o determinar localmente, parámetros que describen el formato de audio de salida y los parámetros de mezcla; computar pseudo- señales de fuentes desde las señales de suma y la información estadística recibida; sintetizar la pluralidad de canales de audio desde las pseudo señales de fuente, usando un mezclador en el cual los parámetros de formato de audio recibidos y los parámetros de mezcla son aplicados .
2. Método para sintetizar una pluralidad de canales de audio, este método comprende las etapas de: recuperar de la corriente de audio al menos una señal de suma, que representa una suma de las señales de fuentes; recuperar de la corriente de audio, la información estadística acera de una o más señales de fuentes ; recibir de la corriente de audio, o determinar localmente, parámetros que describen el formato de audio de salida y los parámetros de mezcla; - computar las filas de las señales de salida desde la información estadística recibida, los parámetros del formato de audio y los parámetros de mezcla; sintetizar la pluralidad de canales de audio desde las señales de suma, con base en las filas computadas .
3. El método de las reivindicaciones 1 ó 2, en que la información estadística representa las envolturas espectrales de las señales de fuentes de audio.
4. El método de las reivindicaciones 1 ó 2, en que la información estadística representa la potencia relativa como una función de la frecuencia y el tiempo de una pluralidad de señales de fuentes.
5. El método de la reivindicación 1, en que las pseudo señales de fuentes se computan en el dominio de sub-banda de un banco de filtros.
6. El método de la reivindicación 2, en el cual los canales de audio se sintetizan en el dominio de sub-banda de un banco de filtros.
7. El método de las reivindicaciones 5 ó 6, en que el número y anchos de banda de la sub-banda se determinan de acuerdo con la resolución espectral y temporal del sistema de auditorio humano.
8. El método de las reivindicaciones 5 a 7, en que el número de sub-bandas está comprendido entre 3 y 40.
9. El método de las reivindicaciones 5 a 8,, en que las subbandas tienen diferentes anchos de bandas, las sub-bandas de frecuencias menores tienen anchos de banda menores que las sub-bandas de frecuencias mayores.
10. El método de las reivindicaciones 5 9 , en que se usa un banco de filtros, basado en la transformación de Fourier (STFT) de tiempo corto y los coeficientes espectrales se combinan de modo que cada grupo de coeficientes espectrales forman una sub-banda.
11. El método de las reivindicaciones 1 ó 2, en que la información estadística también comprende funciones de auto-correlación .
12. El método de la reivindicación 3, en el cual las envolturas espectrales se representan como parámetros de codificación predictivos lineales (LPC) .
13. El método de la reivindicación 2, en el cual la señal de suma se divide en una pluralidad de sub-bandas la información estadística se usa para determinar la potencia de cada sub-banda para cada pseudo señal de fuente .
14. El método de la reivindicación 2, en el cual un error de predicción lineal de la señal de suma es computado, seguido por la filtración de todos los polos, por imponer la envoltura espectral determinada por la información estadística para cada pseudo señal de fuente.
15. El método de las reivindicaciones 13 ó 14, donde se usa una técnica de descorrelación, tal como la filtración de todas los pasos, para obtener señales independientes de seudo fuente de salida.
16. El método de la reivindicación 2, donde las filas computadas son diferencia de nivel, diferencias de tiempo, o coherencia, como una función de diferentes frecuencias e instantes de tiempo.
17. El método de la reivindicación 1, donde el mezclador es un algoritmo panorámico de la amplitud, que compensa la dependencia del nivel de fuente en los parámetros de mezcla .
18. El método de la reivindicación 1, donde el mezclador es un mezclador de síntesis del ampo de ondas.
19. El método de la reivindicación 1, donde el mezclador es un mezclador binaural .
20. El método de la reivindicación 1, donde el mezclador es un mezclador de audio 3D.