MX2010012580A

MX2010012580A - Aparato de mezcla ascendente estereo parametrico, decodificador estereo parametrico, aparato de mezcla descendente estereo parametrico, codificador estereo parametrico.

Info

Publication number: MX2010012580A
Application number: MX2010012580A
Authority: MX
Inventors: Erik G P Schuijers
Original assignee: Koninkl Philips Electronics Nv
Priority date: 2008-05-23
Filing date: 2009-05-14
Publication date: 2010-12-20
Also published as: TW201011736A; RU2010152580A; JP2011522472A; US11871205B2; CN102037507A; US20190058960A1; US20170134875A1; EP2283483B1; TWI484477B; BRPI0908630B1; BRPI0908630A8; EP2283483A1; US11019445B2; US10136237B2; RU2497204C2; US12192734B2; BR122020009732B1; KR20110020846A; US20210274302A1; WO2009141775A1

Abstract

Un aparato de mezcla ascendente estéreo paramétrico (300, 400) para generar una señal izquierda (206) y una señal derecha (207) a partir de una señal monoaural de mezcla descendente (204) con base en parámetros espaciales (205). La mezcla ascendente estéreo paramétrico se caracteriza porque comprende un medio (310) para predecir una señal de diferencia (311) que comprende una diferencia entre la señal izquierda (206) y la señal derecha (207) con base en la señal monoaural de mezcla descendente (204) escalada con un coeficiente de predicción (321). El coeficiente de predicción se deriva de los parámetros espaciales (205). El aparato de mezcla ascendente estéreo paramétrico (300, 400) adicionalmente comprende un medio aritmético (330) para derivar la señal izquierda (206) y la señal derecha (207) con base en una suma y una diferencia de la señal monoaural de mezcla descendente (204) y la señal de diferencia (311).

Description

APARATO DE MEZCLA ASCENDENTE ESTEREO PARAMETRICO, DECODIPICADOR ESTEREO PARAMETRICO, APARATO DE MEZCLA DESCENDENTE ESTEREO PARAMETRICO, CODIFICADOR ESTEREO PARAMETRICO Campo de la Invención La invención se relaciona con un aparato de mezcla ascendente estéreo paramétrico para generar una señal izquierda y una señal derecha a partir de una señal monoaural de mezcla descendente basada en parámetros espaciales. La invención se relaciona además con un decodificador estéreo paramétrico que comprende un aparato de mezcla ascendente estéreo paramétrico, un método para generar una señal izquierda y una señal derecha a partir de una señal monoaural de mezcla descendente basada en parámetros espaciales, un dispositivo de reproducción de audio, un aparato de mezcla descendente estéreo paramétrico, un codificador estéreo paramétrico, un método para generar una señal residual de predicción para una señal de diferencia, y un producto de programa de cómputo.

Antecedentes de la Invención El Estéreo Paramétrico (PS, por sus siglas en inglés) es uno de los mayores avances en la codificación de audio en el último par de años. La base del Estéreo Paramétrico se explica en J. Breebaart, S. van de Par, A. Kohlrausch y E.

Ref.: 214281 Schuijers, "Parametric Coding of Stereo Audio", en EURASIP J. Appl. Signal Process., vol 9, páginas 1305-1322 (2004). En comparación con la codificación tradicional de señales de audio, también conocida como discreta, el codificador PS como se ilustra en la figura 1 transforma un par de señales estéreo (l,r) 101, 102 a una sola señal monoaural de mezcla descendente 104 más una pequeña cantidad de parámetros 103 que describen la imagen espacial . Estos parámetros comprenden Diferencias de Intensidad Intercanal, (iids, por sus siglas en inglés) , Diferencias de Fase (o Tiempo) Intercanal (ipds/itds, por sus siglas en inglés) y Coherencia/Correlación Intercanal (ices, por sus siglas en inglés) . En el codificador PS 100 la imagen espacial de la señal de entrada estéreo (l,r) es analizada dando como resultado los parámetros iid, ipd e ice. Preferentemente, los parámetros dependen del tiempo y la frecuencia. Para cada bloque de tiempo/frecuencia se determinan los parámetros de iid, ipd e ice. Estos parámetros son cuantificados y codificados 140 obteniendo el flujo de bits PS. Además, los parámetros también se usan típicamente para controlar la forma en la que se genera la mezcla descendente de la señal de entrada estéreo. La señal de suma monoaural resultante (s) 104 se codifica subsiguientemente usando un codificador de audio monoaural antiguo 120. Finalmente el flujo de bits monoaural y PS resultante se reúnen para construir el flujo de bits estéreo global 107.

En el decodificador PS 200 el flujo de bits estéreo se divide en un flujo de bits monoaural 202 y un flujo de bits PS 203. La señal de audio es decodificada dando como resultado una reconstrucción de la señal monoaural de mezcla descendente 204. La señal monoaural de mezcla descendente se alimenta a la mezcla ascendente PS 230 junto con · los parámetros de imagen espacial decodificados 205. La mezcla ascendente PS genera entonces el par de señales estéreo de salida (l,r) 206, 207. Con el fin de sintetizar las indicaciones de ice, la mezcla ascendente PS emplea una denominada señal descorrelacionada (sd) , es decir, una señal generada de la señal de audio monoaural que tiene aproximadamente la misma envolvente espectral y temporal, que sin embargo tiene una correlación sustancialmente de cero con respecto a la señal de entrada monoaural. Después, con base en los parámetros de imagen espacial, en la mezcla ascendente PS para cada bloque de tiempo/frecuencia se determina una matriz de 2x2 y se aplica: en donde Hij representa un entrada H de matriz de mezcla ascendente (i,j). Las entradas de la matriz H son funciones de los parámetros PS iid, ice y opcionalmente ipd/opd. En el sistema PS del estado de la técnica en caso de que se empleen parámetros ipd/opd, la matriz de mezcla ascendente H puede descomponerse como: en donde la matriz de la izquierda de 2x2 representa las rotaciones de fases, una función de los parámetros ipd y opd, y la matriz de la derecha de 2x2 representa la parte que restaura los parámetros iid e ice.

En WO2003090206 Al se propone distribuir igualmente el ipd en los canales izquierdo y derecho en el decodificador. Además, se propone generar una señal de mezcla descendente haciendo girar las señales izquierda y derecha una hacia la otra a la mitad de la ipd medida para obtener la alineación. En la práctica, en el caso de señales casi fuera de fase, esto da como resultado, tanto para la mezcla descendente en el decodificador como para la mezcla ascendente generada en el decodificador de que la ipd a través del tiempo varía ligeramente aproximadamente 180 grados, lo cual debido a la envolvente puede consistir de una secuencia de ángulos tales como 179, 178, -179, 177, -179, ... Como resultado de estos saltos los bloques de tiempo/frecuencia subsiguientes en la mezcla descendente presenta discontinuidades de fase o en otras palabras inestabilidad de fase. Debido a la estructura de síntesis de traslape agregado inherente esto resulta en artefactos audibles.

Como ejemplo, considere la mezcla descendente en donde en el bloque de tiempo/frecuencia la mezcla descendente se genera como: s = iej<n 2-e,+rej<-n/2'e> , en donde e es algún pequeño ángulo arbitrario, lo que significa que la ipd medida estaba cerca de 180 grados, mientras que para el siguiente bloque de tiempo-frecuencia la mezcla descendente se genera como: s = iej<-n/2'c>+rej'n/2''> , lo que significa que la ipd medida estaba cerca de -180 grados. Usando la síntesis de traslape agregado típica ocurre una cancelación de fases entre los puntos intermedios de los bloques de tiempo/frecuencia subsiguientes que producen artefactos.

Una desventaja principal de la codificación estéreo paramétrica como se discute arriba es la inestabilidad de una síntesis de las indicaciones de Diferencias de Fases Interaural (ipd) en el decodificador PS las cuales se usan en la generación del par estéreo de salida. Esta inestabilidad tiene su fuente en las modificaciones de fases realizadas en el codificador PS con el fin de generar la mezcla descendente, y en el decodificador PS con el fin de generar la señal de salida. Como resultado de esta inestabilidad se experimenta una calidad de audio inferior del par de estéreo de salida.

Con el fin de lidiar con este problema de inestabilidad de fases en la práctica la síntesis de ipd a menudo se descarta. Sin embargo, esto da como resultado una calidad de audio (espacial) reducida de la señal estéreo reconstruida.

Otra alternativa de lidiar con este problema de inestabilidad cuando se usan parámetros de ipd es incorporar las denominadas Diferencias de Fases Globales (opds) en el flujo de bits con el fin de proporcionar al decodificador una referencia de fase. En esta forma la continuidad en los bloques de tiempo/frecuencia puede aumentar permitiendo una rotación de fases común. Sin embargo, esto sucede a expensas de un aumento en la velocidad de transferencia de bits, y por lo tanto resulta en el deterioro del desempeño global del sistema .

Breve Descripción de la Invención Un objeto de la invención es proporcionar un aparato de mezcla ascendente estéreo paramétrico mejorado para generar una señal izquierda y una señal derecha a partir de una señal monoaural de mezcla descendente que tiene calidad de audio mejorada de las señales izquierdas y derecha generadas sin un aumento adicional de la velocidad de transmisión de bits, y ¦ no tiene las desventajas de las inestabilidades inferidas por la síntesis de diferencias de fases interaurales (ipds) .

Este objeto se logra por medio de un aparato de mezcla ascendente estéreo paramétrico (PS) que comprende un medio para predecir una señal . de diferencia que comprende una diferencia entre la señal izquierda y la señal derecha con base en la señal monoaural de mezcla descendente escalada con un coeficiente de predicción. El coeficiente de predicción se deriva de los parámetros espaciales. El aparato de mezcla ascendente PS adicionalmente comprende un medio aritmético para derivar la señal izquierda y la señal derecha con base en una suma y una diferencia de la señal monoaural de mezcla descendente y la señal de diferencia.

El aparato de mezcla ascendente PS propuesto ofrece una manera diferente de derivación de la señal de izquierda y la señal de derecha para esto del decodificador PS. En lugar de aplicar los parámetros espaciales para restaurar la imagen espacial correcta en un sentido estadístico como se hace en el decodificador PS conocido, el aparato de mezcla ascendente PS propuesto construye la señal de diferencia a partir de la señal monoaural de mezcla descendente y los parámetros espaciales. Tanto el PS conocido como propuesto tienen como objetivo restaurar las relaciones de energía correctas (iids) , correlaciones cruzadas (ices) y relaciones de fases (ipds) . Sin embargo, el decodificador PS conocido no está dirigido a obtener el ajuste de formas de onda más preciso. En lugar de asegurar que los parámetros del codificador medidos coinciden estadísticamente con los parámetros de decodificador restaurados. En la mezcla ascendente PS propuesta por medio de operaciones aritméticas simples, tales como una suma y una diferencia, aplicadas a la señal monoaural de mezcla descendente y la señal de diferencia estimada se obtienen la señal izquierda y la señal derecha. La construcción proporciona resultados mucho mejores para la calidad y estabilidad de las señales izquierda y derecha reconstruidas dado que proporciona un ajuste estrecho de formas de onda que restaura el comportamiento de fase original de la señal.

En una modalidad, el coeficiente de predicción se basa en el ajuste de formas de onda a la señal de mezcla descendente en la señal de diferencia. El ajuste de formas de onda como tal no tiene las desventajas de inestabilidades del enfoque estadístico usado en el decodificador PS conocido para la síntesis de ipd y opd dado que inherentemente proporciona la conservación de fase. Por lo tanto al usar la señal de diferencia derivada como una señal monoaural de mezcla descendente escalada (complejo valorado) y derivando el coeficiente de predicción con base en el ajuste de formas de onda se elimina la fuente de inestabilidades del decodificador PS conocido. El ajuste de formas de onda comprende por ejemplo un ajuste por mínimos cuadrados de la señal monoaural de mezcla descendente sobre la señal de diferencia, calculando la señal de diferencia como: d = a-s, en donde s es la señal de mezcla descendente y a es el coeficiente de predicción. Es bien sabido que la solución de predicción de mínimos cuadrados está dada por: n donde (s,d>* representa el conjugado complejo de la correlación cruzada de la mezcla descendente y la señal de diferencia y (s,s> representa la energía de la señal de mezcla descendente.

En una modalidad adicional, el coeficiente de predicción está dado como una función de los parámetros espaciales: iid - \ -j- 2- s' (ipd)- ice- "Jiid a = : r =~ iid+ \ + 2- cos(ipd)- ice- -y iid en donde iid, ipd, e ice son parámetros espaciales, e iid es una diferencia de intensidad intercanal, ipd es una diferencia de fases intercanal, e ice es una coherencia intercanal. Generalmente es difícil cuantificar el coeficiente de predicción de valor complejo a en un sentido de percepción significativa dado que la precisión requerida depende de las propiedades de las señales de audio izquierda y derecha que serán reconstruidas. Por lo tanto, la ventaja de esta modalidad es que en contraste al coeficiente de predicción compleja a, las precisiones de cuantificación requeridas para los parámetros espaciales son bien conocidas en la psicoacústica. Como tal, el uso óptimo del conocimiento de la psicoacústica puede emplearse para cuantificar eficientemente, es decir con el menor numero de etapas posibles, el coeficiente de predicción para disminuir la velocidad de transmisión de bits. Además, esta modalidad permite la mezcla ascendente usando contenido PS compatible hacia atrás.

En una modalidad adicional, los medios para predecir la señal de diferencia se disponen para mejorar la señal de diferencia por la adición de una señal monoaural de mezcla descendente descorrelacionada escalada. Dado que en general no es posible predecir completamente la señal de diferencia del codificador original a partir de la señal monoaural de mezcla descendente, esto da lugar a una señal residual. Esta señal residual no tiene correlación con la señal de mezcla descendente como de otra manera se hubiera tomado en cuenta mediante el coeficiente de predicción. En muchos casos la señal residual comprende un campo de sonido reverberante de una grabación. La señal residual puede sintetizarse efectivamente usando una señal monoaural de mezcla descendente descorrelacionada, derivada de la señal monoaural de mezcla descendente.

En una modalidad adicional, la mezcla monoaural descendente descorrelacionada . se obtiene por medio de filtración de la señal monoaural de mezcla descendente. El objetivo de esta filtración es generar efectivamente una • señal con una envolvente espectral y temporal similar a la señal monoaural de mezcla descendente, pero con una correlación sustancialmente cercana a cero de tal manera que corresponde con una variante sintética del componente residual derivado en el codificador. Esto puede, por ejemplo, lograrse por medio de filtración de todo paso, retardos, filtros de reverberación reticular, redes de retardos de retroalimentación o una combinación de los mismos. Adicionalmente, puede aplicarse la normalización de energía a la señal descorrelacionada con el fin de asegurar que la energía para cada bloque de tiempo/frecuencia de la señal descorrelacionada corresponde estrechamente con la de la señal monoaural de mezcla descendente. En esta forma se asegura que la señal de salida del decodificador contendrá la cantidad correcta de energía de señal descorrelacionada.

En una modalidad adicional, se establece un factor de escalamiento aplicado a la señal monoaural de mezcla descendente descorrelacionada para compensar una pérdida de energía de predicción. El factor de escalamiento aplicado a la señal monoaural de mezcla descendente descorrelacionada asegura que la energía de señal global de la señal izquierda y la señal derecha en el lado del decodificador coincide con la energía de señal de la energía de señal izquierda y derecha en el lado del decodificador, respectivamente. Como tal el factor de escalamiento ß también puede interpretarse como un factor de predicción de compensación de pérdida de energía.

En una modalidad adicional, el factor de escalamiento aplicado a la señal monoaural de mezcla descendente se da como una función de los parámetros espaciales: En donde iid, ipd, e ice son parámetros espaciales, e iid es una diferencia de intensidad intercanal, ipd es una diferencia de fase intercanal, ice es una coherencia intercanal, y OÍ es el coeficiente de predicción. Similarmente como en el caso del coeficiente de predicción, que expresa el factor de escalamiento descorrelacionado ß como una función de los parámetros espaciales permite el uso del conocimiento acerca de las precisiones de cuantificación requeridas de estos parámetros espaciales. Como tal, el uso óptimo del conocimiento psicoacústico puede emplearse para disminuir la velocidad de transmisión de bits.

En una modalidad adicional, la mezcla ascendente estéreo paramétrico tiene una señal residual de predicción para la señal de diferencia como una entrada adicional, con lo cual los medios aritméticos se disponen para derivar la señal izquierda y la señal derecha también con base en la señal residual de predicción para la señal de diferencia. Para evitar nombres largos de señales se usa una señal residual de predicción para la señal residual de predicción para la señal de diferencia a través del resto de la solicitud de patente. La señal residual de predicción opera como un reemplazo para la señal de descorrelación sintética por su contraparte de decodificador original. Esto permite restaurar la señal estéreo original en el decodificador . Sin embargo esto es a costa de la velocidad de transmisión de bits adicional dado que la señal de predicción necesita codificarse y transmitirse al decodificador . Por lo tanto, típicamente el ancho de banda de la señal residual de predicción está limitada. La señal residual de predicción puede ya sea, reemplazar completamente la señal monoaural de mezcla descendente descorrelacionada para un bloque de tiempo/frecuencia dado o puede trabajar en una forma complementaria. Esto último puede ser benéfico en el caso de que la señal residual de predicción solo esté escasamente codificada, por ejemplo, soló unos cuantos de los acumuladores de frecuencia más significativos estén codificados. En ese caso, en comparación con la situación del codificador, aún faltará energía. Esta falta de energía será llenada por la señal descorrelacionada. Entonces se calcula un nuevo factor de escalamiento ß' como: en donde (dres,cod, dres,cod> es la energía de señal de la señal residual de predicción codificada y <s,s) es la energía de la señal monoaural de mezcla descendente. Estas energías de señales pueden medirse en el lado del decodificador y por lo tanto no necesitan transmitirse como parámetros de señal.

La invención proporciona adicionalmente un decodificador estéreo paramétrico que comprende el aparato de mezcla ascendente estéreo paramétrico y un dispositivo de reproducción de audio que comprende el decodificador estéreo paramétrico .

La invención también proporciona un aparato de mezcla descendente estéreo paramétrico y un codificador estéreo paramétrico que comprende el aparato de mezcla descendente estéreo paramétrico.

La invención proporciona además reivindicaciones de método así como un producto de programa de cómputo que permite que un dispositivo programable realice el método de conformidad con la invención.

Breve Descripción de las Figuras Estos y otros aspectos de la invención serán evidentes y se determinarán al hacer referencia a las modalidades mostradas en las figuras, en las cuales: La figura 1 muestra esquemáticamente una arquitectura de un codificador estéreo paramétrico (técnica anterior) ; la figura 2 muestra esquemáticamente una arquitectura de un decodificador estéreo paramétrico (técnica anterior) ; la figura 3 muestra un aparato de mezcla ascendente estéreo paramétrico de conformidad con la invención, el aparato -de mezcla ascendente estéreo paramétrico genera una señal izquierda y una señal derecha a partir de una señal monoaural de mezcla descendente con base en parámetros espaciales; la figura 4 muestra el aparato de mezcla ascendente estéreo paramétrico que comprende un medio de predicción dispuesto para mejorar la señal de diferencia mediante la adición de una señal monoaural de mezcla descendente descorrelacionada escalada; la figura 5 muestra el aparato de mezcla ascendente estéreo paramétrico que tiene una señal residual de predicción para la señal de diferencia como una entrada adicional; la figura 6. muestra el decodificador estéreo paramétrico que comprende el aparato de mezcla ascendente estéreo paramétrico de conformidad con la invención; la figura 7 muestra un diagrama de flujo para un método para generar la señal izquierda y la señal derecha a partir de la señal monoaural de mezcla descendente con base en parámetros espaciales de conformidad con la invención; la figura 8 muestra un aparato de mezcla descendente estéreo paramétrico de conformidad con la invención, el aparato de mezcla descendente estéreo paramétrico genera una señal monoaural de mezcla descendente a partir de la señal izquierda y la señal derecha con base en parámetros espaciales; la figura 9 muestra el. codificador estéreo paramétrico que comprende el aparato de mezcla descendente estéreo paramétrico de conformidad con lá invención.

A lo largo de las figuras, los mismos números de referencia indican características similares o correspondientes. Algunas de las características indicadas en las figuras se implementan típicamente en software, y como tal representan entidades de software, tales como módulos u objetos de software.

Descripción Detallada de la Invención La figura 3 muestra un aparato de mezcla ascendente estéreo paramétrico 300 de conformidad con la invención. El aparato de mezcla ascendente estéreo paramétrico 300 genera una señal izquierda 206 y una señal derecha 207 a partir de una señal monoaural de mezcla descendente 204 con base en parámetros espaciales 205.

El aparato de mezcla ascendente estéreo paramétrico 300 comprende un medio 310 para predecir una señal de diferencia 311 que comprende una diferencia entre la señal izquierda 206 y la señal derecha 207 con basé en la señal monoaural de mezcla descendente 204 escalada con un coeficiente de predicción 321, mediante lo cual el coeficiente de predicción 321 se deriva de los parámetros espaciales 205 en una unidad 320 y un medio aritmético 330 para derivar la señal izquierda 206 y la señal derecha 207 con base en una suma y una diferencia de la señal monoaural de mezcla descendente 204 y la señal de diferencia 311.

La señal izquierda 206 y la señal derecha 207 se reconstruyen preferentemente como sigue: 1 = s+d, r = s-d, en donde s es la señal monoaural de mezcla descendente, y d es la señal de diferencia. Esto, suponiendo que la señal de suma del codificador se calcula como: l + r s = . 2 En la práctica la normalización de ganancias se aplica con frecuencia cuando se construye la señal izquierda 206 y la señal derecha 207: l = ^- (s + d), 2c r =™ (s - d), 2c en donde c es una constante de normalización de ganancias y es función de los parámetros espaciales. La normalización de ganancias asegura que una energía de la señal monoaural de mezcla descendente 204 es igual a una suma de energías de la señal izquierda 206 y la- señal derecha 207. En este caso la señal de suma del decodificador se calculó como: s = c · (1+r) .

Los parámetros espaciales se determinan de antemano en un codificador y se transmiten al decodificador que comprende un mezclador ascendente estéreo paramétrico 300. Los parámetros espaciales se determinan trama por trama para cada bloque de tiempo/frecuencia como: ipd = Z(l,r), en donde iid es una diferencia de intensidad intercanal, ice es una coherencia intercanal, ipd es una diferencia de fases intercanal, y (1,1) y (r,r) son las energías de las señales izquierda y derecha respectivamente y (l,r) representa el coeficiente de covarianza de valor complejo no normalizado entre las señales izquierda y derecha.

Para un dominio de frecuencia de valor complejo típico tal como DFT (FFT) , estas energías se miden como: (u)= ?/[*]·/?[*! ^€k (r,r) = ?r[k} r * [k\ (hr) = ?l[k r * [k en donde kbioque representa los acumuladores de DFT que corresponden a una banda de parámetros. Se apreciará que también podría usarse otra representación de dominio compleja, tal como por ejemplo, un banco QMF complejo exponencialmente modulado como se describe en P. Ekstrand, "Bandwidth extensión of audio signáis by spectral band replication" , en Proc. lst IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002) , Leuven, Bélgica, Nov. 2002, páginas 73-79.

Para bajas frecuencias hasta 1.5-2 kHz aplican las ecuaciones anteriores. Sin embargo, para frecuencias mayores los parámetros de ipd no son relevantes para la percepción y por lo tanto se fijan a un valor de cero dando como resultado: ipd = 0.

Alternativamente, dado que a frecuencias mayores, la envolvente de banda ancha es más importante que las diferencias de fases para la percepción, ice se calcula como: La constante de normalización de ganancias c se expresa como: ud+\ y iid+1 + 2· ice- cos(ipd)' ~Jtid Dado que c puede tender á infinito debido a que las señales izquierda y derecha están fuera de fase, el valor de la constante de normalización de ganancias c está limitada típicamente como: üd+ l c = minl I iid + 1 +2· ice · cos(ipd)- üd ' max / siendo cmax el factor de amplificación máxima, por ejemplo, cmax=2.

En una modalidad, el coeficiente de predicción se basa en estimar la señal de diferencia 311 a partir de la señal monoaural de mezcla descendente 204 usando el ajuste de formas de onda. El ajuste de formas de onda comprende, por ejemplo, un ajuste por mínimos cuadrados de la señal monoaural de mezcla descendente 204 sobre la señal de diferencia 311, dando como resultado la señal de diferencia que está dada como: d = - s, en donde s es la señal monoaural de mezcla descendente 204 y a es el coeficiente de predicción 321.

Además del ajuste por mínimos cuadrados puede usarse un ajuste de formas de onda usando una norma diferente de la norma L2. Alternativamente, el error de norma p ||d-Qí-s|| podría por ejemplo, ponderarse perceptivamente. Sin embargo, el ajuste por mínimos cuadrados es ventajoso porque produce cálculos relativamente simples para derivar el coeficiente de predicción de los parámetros de imágenes espaciales transmitidos .

Es bien sabido que la solución de predicción por mínimos cuadrados para el coeficiente de predicción o¡ está dada por: M* {s,s) en donde <s,d>* representa el conjugado complejo de la correlación cruzada de la señal monoaural de mezcla descendente 204 y la señal de diferencia 311 y <s,s) representa la energía de la señal monoaural de mezcla descendente .

En una modalidad adicional, el coeficiente de predicción 321 está dado como una función de los parámetros espaciales: iid- \ -j- 2- s pd)- ice- ?[? (X— ' · iid+1+2· cos(ipd)- ice- '•¡iid El coeficiente de predicción se calcula en la unidad 320 de acuerdo con la fórmula anterior.

La figura 4 muestra el aparato de mezcla ascendente estéreo paramétrico 300 que comprende un medio de predicción 310 dispuesto para, mejorar la señal de diferencia mediante la adición de una señal monoaural de mezcla descendente descorrelacionada escalada. La señal monoaural de mezcla descendente 204 se suministra a la unidad 340 para descorrelacionar. Como resultado la señal monoaural de mezcla descendente descorrelacionada 341 se suministra a la salida de la unidad 340. En el medio de predicción 310 una primera parte de la señal de diferencia se calcula escalando la señal monoaural de mezcla descendente 204 con el coeficiente de predicción 321. Adicionalmente la señal monoaural de mezcla descendente descorrelacionada 341 también es escalada en el medio de predicción 310 con el factor de escala 322. Una segunda parte resultante de la señal de diferencia se añade consecuentemente a la primera parte de la señal de diferencia dando como resultado la señal de diferencia mejorada 311. La señal monoaural de mezcla descendente 204 y la señal de diferencia mejorada 311 se proveen al medio aritmético 330, el cual calcula la señal izquierda 206 y la señal derecha 207.

En general no es posible predecir con precisión la señal de diferencia de la señal monoaural de mezcla descendente solo escalando con el coeficiente de predicción. Esto da lugar a una señal residual dres ~ d-a~s. Esta señal residual no tiene correlación con la señal de mezcla descendente como de otra manera se hubiera tomado en cuando por medio del coeficiente de predicción. En muchos casos la señal residual comprende un campo de sonido reverberante de una grabación. La señal residual se sintetiza efectivamente usando una señal monoaural de mezcla descendente descorrelacionada, derivada de la señal monoaural de mezcla descendente. La señal descorrelacionada es la segunda parte de la señal de diferencia que se calcula en el medio de predicción 310.

En una modalidad adicional, la señal monoaural de mezcla descendente descorrelacionada 341 se obtiene por medio de filtración de la señal monoaural de mezcla descendente 204. La filtración se realiza en la unidad 340. Esta filtración genera una señal con una envolvente espectral y temporal similar a la señal monoaural de mezcla descendente 204, pero con una correlación sustancialmente cercana a cero de tal manera que corresponde con una variante sintética del componente residual derivado en el codificador. Este efecto se logra por medio de, por ejemplo, filtración de todo paso, retardos, filtros de reverberación reticular, redes de retardos de retroalimentación o una combinación de los mismos .

En una modalidad adicional, se establece un factor de escalamiento 322 aplicado a la señal monoaural de mezcla descendente descorrelacionada 341 para compensar una pérdida de energía de predicción. El factor de escalamiento 322 aplicado a la señal monoaural de mezcla descendente descorrelacionada 341 asegura que toda la energía de señal de la señal izquierda 206 y la señal derecha 207 en la salida del aparato de mezcla ascendente estéreo paramétrico 300 coincide con la energía de señal de la energía de las señales izquierda y derecha en el lado del codificador, respectivamente. Como . tal el factor de escalamiento 322 indicado además como ß se interpreta como un factor de compensación de pérdida de energía de predicción. La señal de diferencia d se expresa entonces como : d = a¦ s + ß-Sd en donde Sd es . la señal monoaural de mezcla descendente descorrelacionada.

Puede verse que el factor de escalamiento 322 puede expresarse como: en términos de energías de señal que corresponden a la señal de diferencia d y a la señal monoaural de mezcla descendente s · En una modalidad adicional, el factor de escalamiento 322 aplicado a la señal monoaural de mezcla descendente descorrelacionada 341 está dado como una función de los parámetros espaciales 205: El factor de escalamiento 322 se deriva en la unidad 320.

En el caso de que no se aplique una normalización a la mezcla descendente en el codificador, es decir, la señal de mezcla descendente se calculó como s = l/2(l+r), la señal izquierda 206 y la señal derecha 207 se expresan entonces como : En el caso de aplicarse la normalización a la mezcla descendente, es decir que la señal de mezcla descendente se calculó como s = c(l+r), la señal izquierda 206 y la señal derecha 207 se expresan entonces como: La figura 5 muestra el aparato de mezcla ascendente estéreo paramétrico 500 que tiene una señal residual de predicción para la señal de diferencia 331 como una entrada adicional. Los medios aritmético 330 se disponen para derivar la señal izquierda 206 y la señal derecha 207 con base en la señal monoaural de mezcla descendente 204, la diferencia de señal 311, y la señal de predicción residual 331. Los medios 310 predicen una señal de diferencia 311 con base en la señal monoaural de mezcla descendente 204 escalada con un coeficiente de predicción 321. El coeficiente de predicción 321 se deriva en la unidad 320 con base en los parámetros espaciales 205.

. La señal izquierda 206 y la señal derecha 207, respectivamente, están dados como: 1 = s+d+ res, r = s-d-dres , en donde dres es la señal residual de predicción.

Alternativamente, en el caso de que se aplicara una normalización de energía a la mezcla descendente, pero no a la señal residual, la señal izquierda y la señal derecha pueden derivarse como: l = ^--(s+d) + dres, 2c r = -- (s-d)-dres. 2c La señal residual de predicción 331 opera como un reemplazo para la señal de descorrelación sintética 341 por su contraparte de codificador original. Esto permite restaurar la señal estéreo original por medio del aparato de mezcla ascendente estéreo paramétrico 300. La señal residual de predicción 331 puede ya sea reemplazar completamente la señal monoaural de mezcla descendente descorrelacionada 341 para un bloque de tiempo/frecuencia dado o puede trabajar en una forma complementaria. Esto último es benéfico en el caso de que la señal residual de predicción solo esté escasamente codificada, por ejemplo, solo unos cuantos de los acumuladores de frecuencia más significativos están codificados. En ese caso, aún falta energía en comparación con la señal residual de predicción del codificador. Esta falta de energía es llenada por la señal descorrelacionada 341. Entonces se calcula un nuevo factor de escalamiento ß' como: en donde (dres,cod, dres,cod> es la energía de señal de la señal residual de predicción codificada y (s,s> es la energía de la señal monoaural de mezcla descendente 204.

El aparato de mezcla ascendente estéreo paramétrico 300 puede usarse en la arquitectura del estado de la técnica del decodificador estéreo paramétrico sin ninguna adaptación adicional. El aparato de mezcla ascendente estéreo paramétrico 300 reemplaza entonces a la unidad de mezcla ascendente 230 como se ilustra en la figura 2. Cuando la señal residual de predicción 331 es utilizada por la mezcla ascendente estéreo paramétrico 400 se requieren un par de adaptaciones, las cuales se ilustran en la figura 6.

La figura 6 muestra el decodificador estéreo paramétrico que comprende el aparato de mezcla ascendente estéreo paramétrico 400 de conformidad con la invención. Un decodificador estéreo paramétrico comprende un medio de desmultiplexión 210 para dividir el flujo de bits de entrada en un flujo de bits monoaural 202, un flujo de bits residual de predicción 332, y un flujo de bits de parámetros 203. Un medio de decodificación monoaural 220 decodifica el flujo de bits monoaural 202 a una señal monoaural de mezcla descendente 204. El medio de decodificación monoaural está configurado adicionalmente para decodificar el flujo de bits residual de predicción 332 en la señal- residual de predicción 331. Un medio de decodificación de parámetros 240 decodifica el flujo de bits de parámetros 203 a parámetros espaciales 205. El aparato de mezcla ascendente estéreo paramétrico 400 genera una señal izquierda 206 y una señal derecha 207 a partir de la señal monoaural de mezcla descendente 204 y la señal residual de predicción 331 con base en parámetros espaciales 205. A pesar de que la descodificación de la señal monoaural de mezcla descendente 204 y la señal residual de predicción la realiza el medio de decodificación 220, es posible que la decodificación se realice por medio de un software y/o hardware de decodificación separado para cada una de las señales que serán decodificadas .

La figura 7 muestra un diagrama de flujo para un método para generar la señal izquierda 206 y la señal derecha 207 a partir de la señal monoaural de mezcla descendente 204 con base en parámetros espaciales de conformidad con la invención. En una primera etapa 710 una primera señal dé diferencia 311 que comprende una diferencia entre la señal izquierda 206 y la señal derecha 207 se predice con base en la señal monoaural de mezcla descendente 204 escalada con un coeficiente de predicción 321, con lo cual el coeficiente de predicción se deriva de los parámetros espaciales 205. En una segunda etapa 720 la señal izquierda 206 y la señal derecha 207 se derivan con base en una suma y una diferencia de la señal monoaural de mezcla descendente 204 y la señal de diferencia 311.

Cuando la señal residual de predicción está disponible en la segunda etapa 720 la señal residual de predicción enseguida de la señal monoaural de mezcla descendente 204 y la señal de diferencia 311 se usa para derivar la señal izquierda 206 y la señal derecha 207. .

Cuando la mezcla ascendente estéreo paramétrico 300 se usa en el decodificador estéreo paramétrico no se requiere ninguna modificación al codificador estéreo paramétrico.

Puede usarse el codificador estéreo paramétrico como se conoce en la técnica anterior.

Sin embargo, cuando se usa la mezcla ascendente estéreo paramétrico 400 el codificador estéreo paramétrico debe adaptarse para proporcionar la señal residual de predicción en el flujo de bits.

La figura 8 muestra un aparato de mezcla descendente estéreo paramétrico 800 de conformidad con la invención, el aparato de mezcla descendente estéreo paramétrico genera una señal monoaural de mezcla descendente a partir de la señal izquierda y la señal derecha con base en parámetros espaciales. El aparato de mezcla descendente estéreo paramétrico 800 emite enseguida de la señal monoaural de mezcla descendente 104 una señal adicional 801, la cual es la señal residual de predicción. El aparato de mezcla descendente estéreo paramétrico 800 comprende un medio aritmético adicional 810 para derivar la señal monoaural de mezcla descendente 104 y una señal de diferencia 811 que comprende una diferencia entre la señal izquierda 101 y la señal derecha 102. El aparato de mezcla descendente estéreo paramétrico 800 comprende adicionalmente un medio de predicción adicional 820 para derivar una señal residual de predicción (para la señal de diferencia) 801 como una diferencia entre la señal de diferencia 811 y la señal monoaural de mezcla descendente 104 escalada con un coeficiente de predicción predeterminado 831 derivado de los parámetros espaciales 103. El coeficiente de predicción predeterminado se determina en una unidad 830. El coeficiente de predicción predeterminado se selecciona para proporcionar la señal residual de predicción 801 que es ortogonal a la señal monoaural de mezcla descendente 104. Además puede usarse la normalización de energía de la señal de mezcla descendente (no se muestra en la figura 8) .

Aunque la numeración de las señales que corresponden con la mezcla descendente monoaural y la señal residual de predicción tienen diferentes números de referencia en el aparato de mezcla ascendente estéreo paramétrico y el aparato de mezcla descendente estéreo paramétrico, debe estar claro que cada una de las señales monoaurales de mezcla descendente 204 y 104 son correspondientes entre sí y la señal residual de predicción 331 y 801 también son correspondientes entre sí.

La figura 9 muestra el codificador estéreo paramétrico que comprende el aparato de mezcla descendente estéreo paramétrico 800 de conformidad con la invención. El codificador estéreo paramétrico comprende: - un medio de estimación 130 para derivar parámetros espaciales 103 de la señal izquierda 101 y la señal derecha 102, - un aparato de mezcla descendente estéreo paramétrico 110 de conformidad con la invención para generar una señal monoaural de mezcla descendente 104 de la señal izquierda 101 y la señal derecha 102 con base en parámetros espaciales 103, - un medio de codificación monoaural 120 para codificar la señal monoaural de mezcla descendente 104 a un flujo de bits monoaural 105, el medio codificador monoaural 120 está además dispuesto para codificar la señal residual de predicción 801 a un flujo de bits residual de predicción 802, - un medio de codificación paramétrico 140 para codificar parámetros espaciales 103 a un flujo de bits de parámetros 106, y - un medio de multiplexión 150 para reunir el flujo de bits monoaural 105, el flujo de bits de parámetros 106 y el flujo de bits residual de predicción 802 en un flujo de bits de salida 107.

A pesar de que la codificación de la señal monoaural de mezcla descendente 104 y la señal residual de predicción 801 la realiza el medio de codificación 120, es posible que la codificación la realice un software y/o hardware de decodificación separado para cada una de las señales que van a codificarse.

Además, aunque se enumera individualmente, pueden implementarse una pluralidad dé medios, elementos o etapas de método, por ejemplo, una sola unidad o procesador. Adicionalmente, aunque pueden incluirse características individuales en diferentes reivindicaciones, posiblemente éstas puedan combinarse ventajosamente, y la inclusión en diferentes reivindicaciones no implica que una combinación de características no sea factible' y/o ventajosa. También la inclusión ¦ de una característica en una categoría de reivindicaciones no implica una limitación a esta categoría sino más bien indica que la característica es igualmente aplicable a otras categorías de reivindicaciones según sea apropiado. Además, el orden de las características en las reivindicaciones no implica ningún orden específico en el cual las características deben trabajarse y en particular el orden de etapas individuales en una reivindicación de método no implica que las etapas deben realizarse en este orden. Más bien, las etapas pueden realizarse en cualquier orden apropiado. Además, las referencia singulares no excluyen una pluralidad. Por lo tanto las referencias a "un", "una", "primero", "segundo", etc., no. descartan una pluralidad. Los signos de referencia en las reivindicaciones se proporcionan simplemente como un ejemplo de aclaración y no deben considerarse como limitantes del alcance de las reivindicaciones en ninguna forma.

Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones :

1. Un aparato de mezcla ascendente estéreo paramétrico para generar una señal izquierda y una señal derecha a partir de una señal monoaural de mezcla descendente con base en parámetros espaciales, caracterizado porque comprende un medio para predecir una señal de diferencia que comprende una diferencia entre la señal izquierda y la señal derecha con base en la señal monoaural de mezcla descendente escalada con un coeficiente de predicción, mediante lo cual el coeficiente de predicción se deriva de los parámetros espaciales,, y un medio aritmético para derivar la señal izquierda y la señal derecha con base en una suma y una diferencia de la señal monoaural de mezcla descendente y la señal de diferencia.

2. Un aparato de mezcla ascendente estéreo paramétrico de conformidad con la reivindicación 1, caracterizado porque el coeficiente de predicción se basa en el ajuste de formas de onda de la señal de mezcla descendente sobre la señal de diferencia.

3. Un aparato de mezcla ascendente estéreo paramétrico de conformidad con la reivindicación 2, caracterizado porque el coeficiente de predicción está dado como una función los parámetros espaciales: en donde iid, ipd, e ice son parámetros espaciales, e iid es una diferencia de intensidad intercanal, ipd es una diferencia de fases intercanal, e ice es una coherencia intercanal .

4. Un aparato de mezcla ascendente estéreo paramétrico de conformidad con la reivindicación 1 a 3, caracterizado porque los medios para predecir la señal de diferencia se disponen para mejorar la señal de diferencia por la adición de una señal monoaural de mezcla descendente descorrelacionada escalada.

5.. Un aparato de mezcla ascendente estéreo paramétrico de conformidad con la reivindicación 4, caracterizado porque la mezcla monoaural descendente descorrelacionada se obtiene por medio dé filtración de la señal monoaural de mezcla descendente .

6. Un aparato de mezcla ascendente estéreo paramétrico de conformidad con la reivindicación 4, caracterizado porque el factor de escalamiento aplicado a la mezcla descendente descorrelacionada se establece para compensar una pérdida de energía de predicción.

7. Un aparato de mezcla ascendente estéreo paramétrico de conformidad con la reivindicación 6, caracterizado porque un factor de escalamiento aplicado a la mezcla descendente monoaural descorrelacionada se da como una función de los parámetros espaciales: en donde iid, ipd, e ice son parámetros espaciales, e iid es una diferencia de intensidad intercanal, ipd es una diferencia de fases intercanal, ice es una coherencia intercanal, y a es el coeficiente de predicción.

8. Un aparato de mezcla ascendente estéreo paramétrico de conformidad con la reivindicación 1 a 7, caracterizado porque la mezcla ascendente estéreo paramétrico tiene una señal residual de predicción para la señal de diferencia como una entrada adicional, con lo cual los medios aritméticos se disponen para derivar la señal izquierda y la señal derecha también con base en la señal monoaural de mezcla descendente, la señal de diferencia, y la señal residual de predicción para la señal de diferencia.

9. Un decodificador estéreo paramétrico caracterizado porque comprende medios de desmultiplexión para dividir el flujo de bits de entrada en un flujo de bits monoaural y un flujo de bits de parámetros, un medio de decodificación monoaural para decodificar el flujo de bits monoaural a una · señal' monoaural de mezcla descendente/ un medio de decodificación de parámetros para decodificar el flujo de bits de parámetros a parámetros espaciales, y un medio de mezcla ascendente estéreo paramétrico para generar una señal izquierda y una señal derecha a partir de la señal monoaural de mezcla descendente con base en parámetros espaciales, el decodificador estéreo paramétrico adicionalmente comprende el aparato de mezcla ascendente estéreo paramétrico de conformidad con las reivindicaciones 1-7.

10. Un decodificador estéreo paramétrico que comprende medios de desmultiplexión para dividir el flujo de bits de entrada en un flujo de bits monoaural y un flujo de bits de parámetros, un medio de decodificación monoaural para decodificar el flujo de bits monoaural a una señal monoaural de mezcla descendente, un medio de decodificación de parámetros para decodificar el flujo de bits de parámetros a parámetros espaciales, y un medio de mezcla ascendente estéreo paramétrico para generar una señal izquierda y una señal derecha a partir de una señal monoaural de mezcla descendente con base en parámetros espaciales, caracterizado porque los medios de desmultiplexión se disponen adicionalmente para extraer un flujo de bits residual de predicción del flujo de bits de entrada, los medios de decodificación monoaurales se disponen adicionalmente para decodificar una señal residual de predicción para la señal de diferencia a partir del flujo de bits residual de predicción, y los medios de mezcla ascendente estéreo paramétrico son el aparato de mezcla ascendente estéreo paramétrico de conformidad con la reivindicación 8.

11. Un método para generar una señal izquierda y una señal derecha a partir de una señal monoaural de mezcla descendente con base en parámetros espaciales, caracterizado porque comprende : predecir una señal de diferencia que comprende una diferencia entre la señal izquierda y la señal derecha con base en la señal monoaural de mezcla descendente con un coeficiente de predicción, mediante lo cual el coeficiente de predicción se deriva de parámetros espaciales; derivar la señal izquierda y la señal derecha con base en una suma y una diferencia de la señal monoaural de mezcla descendente y la señal de diferencia.

12. Un método para generar una señal izquierda y una señal derecha a partir de una señal monoaural de mezcla descendente con base en parámetros espaciales de conformidad con la reivindicación 11, caracterizado porque la etapa de derivar la señal izquierda y la señal derecha también se basa en la señal residual de predicción para la señal de diferencia.

13. Un dispositivo de reproducción de audio caracterizado porque comprende un decodificador estéreo paramétrico de conformidad con la reivindicación 9 ó 10.

14. Un aparato dé mezcla descendente estéreo paramétrico para generar una señal monoaural de mezcla descendente de una señal izquierda y una señal derecha con base en parámetros espaciales, caracterizado porque el aparato de 5- mezcla descendente estéreo paramétrico tiene una señal residual de predicción para una señal de diferencia como una salida adicional, mediante lo cual el aparato de mezcla descendente estéreo paramétrico comprende un medio aritmético adicional para derivar la señal monoaural de mezcla 0 descendente y una señal de diferencia que comprende una diferencia entre la señal izquierda y la señal derecha, y un medio de predicción adicional para derivar una señal residual de predicción para la señal de diferencia como una diferencia entre la señal de diferencia y la señal monoaural de mezcla 5 descendente escalada con un coeficiente de predicción predeterminado derivado de los parámetros espaciales.

15. Un codificador estéreo paramétrico que comprende un medio de estimación para derivar parámetros espaciales de una señal izquierda y una señal derecha, un medio de mezcla 0 descendente estéreo paramétrico para generar una señal monoaural de mezcla descendente a partir de la señal izquierda y la señal derecha con base en parámetros espaciales, un medio de codificación monoaural para codificar la señal monoaural de mezcla descendente a un flujo de bits 5 monoaural, un medio de codificación de parámetros para codificar parámetros espaciales a un flujo de bits de parámetros, y un medio de multiplexión para reunir el flujo de bits monoaural y el flujo de bits de parámetros en un flujo. de bits de salida, caracterizado porque los medios de mezcla descendente estéreo paramétrico son el aparato de mezcla descendente estéreo paramétrico de conformidad con la reivindicación 14, y los medios de codificación monoaural están además dispuestos para codificar la señal residual de predicción para la señal de diferencia a un flujo de bits residual de predicción, y los medios de multiplexión están además dispuestos para reunir el flujo de bits de predicción en el flujo de salida.

16. Un método para generar una señal residual de predicción para una señal de diferencia a partir de una señal izquierda y una señal derecha con base en parámetros espaciales, caracterizado porque comprende: derivar la señal de diferencia entre la señal izquierda y la señal derecha; derivar una señal residual para la señal de diferencia como una diferencia entre la señal de diferencia y la señal monoaural de mezcla descendente con un coeficiente de predicción derivado de los parámetros espaciales .

17. Un producto de programa de cómputo caracterizado porque es para ejecutar el método de conformidad con cualquiera de las reivindicaciones 11, 12 ó 16.