MX2008008829A

MX2008008829A - Decodificacion de señales de audio binaurales

Info

Publication number: MX2008008829A
Application number: MX/A/2008/008829A
Authority: MX
Inventors: Pasi Ojala; Julia Turku; Mauri Vaananen
Original assignee: Nokia Corporation; Pasi Ojala; Julia Turku; Vaeaenaenen Mauri
Priority date: 2006-01-09
Filing date: 2008-07-08
Publication date: 2008-09-26

Abstract

Un método para sintetizar una señal de audio binaural, el método comprende;introducir una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria que describe una imagen de sonido multi-canal;y aplicar un grupo predeterminado de filtros de función de transferencia relacionada con al cabeza a la o las señales combinadas, en una proporción determinada por el grupo correspondiente de información secundaria para sintetizar una señal de audio binaural. También se describe un decodificador paramétrico de audio correspondiente, un codificador paramétrico de audio, un producto de programa de computadora y un aparato para sintetizar una señal de audio binaural.

Description

DECODIFICACION DE SEÑALES DE AUDIO BINAURALES SOLICITUDES RELACIONADAS Esta solicitud reclama la prioridad de la solicitud internacional PCT/FI2006/050014 , presentada el 9 de Enero de 2006 y la solicitud de los Estados Unidos 11/334,041, presentada el 17 de Enero de 2006.

CAMPO DE LA INVENCIÓN La presente invención se relaciona con una codificación de audio espacial, y más particularmente con la decodificación de señales de audio binaurales.

ANTECEDENTES DE LA INVENCIÓN En la codificación de audio espacial, una señal de audio de dos/múltiples canales se procesa de tal manera que las señales de audio que se van a reproducir en diferentes canales de audio difieren entre sí, proporcionando así a los oyentes una impresión de un efecto espacial alrededor de la fuente de audio. El efecto espacial se puede crear al registrar directamente el audio en formatos adecuados para reproducción en múltiples canales o binaural, o el efecto espacial se puede crear artificialmente en cualquier señal de audio de dos/múltiples canales, el cual se conoce como espacialización. Generalmente se sabe que para la reproducción en auriculares, la espacialización artificial se puede realizar mediante filtración de la Función de Transferencia Relacionada con la Cabeza (HRTF, por sus siglas en inglés) , que produce señales binaurales para el oído izquierdo y derecho del oyente. Las señales de fuente de sonido se filtran con filtros derivados de las HRTF correspondientes a su dirección de origen. Una HRTF es la función de transferencia medida a partir de una fuente de sonido en campo libre para el oído de un ser humano o una cabeza artificial, dividida entre la función de transferencia para un micrófono que reemplaza la cabeza y se coloca en la parte media de la cabeza. El efecto de habitación artificial (por ejemplo reflexiones previas y/o reverberación posterior) se puede agregar a las señales espacializadas para mejorar la externalización y naturalidad de la fuente. Conforme se incrementa la variedad de dispositivos de interacción y escucha de audio, se vuelve más importante la compatibilidad. Entre los formatos de audio espacial, la compatibilidad se logra a través de técnicas de mezcla ascendente y mezcla descendente. Generalmente se sabe que existen algoritmos para convertir una señal de audio multi-canal en formato estéreo, tal como Dolby Digital® y Dolby Surround®, y para convertir después una señal estéreo en señal binaural. No obstante, en este tipo de procesamiento, la imagen espacial de la señal de audio original multi-canal no se puede reproducir totalmente. Una mejor manera de convertir una señal de audio multi-canal para escuchar en auricular es reemplazar los altavoces originales con altavoces virtuales mediante el empleo de filtración de HRTF y reproducir las señales de canales de altavoz a través de aquellos (por ejemplo Dolby Headphone®) . No obstante, este proceso tiene la desventaja de que, para generar una señal binaural, siempre se necesita primero una mezcla multi-canal. Es decir, las señales multi-canal (por ejemplo 5+1 canales) primero se codifican y se sintetizan, y después se aplican las HRTF a cada señal para formar una señal binaural. Este es un procedimiento computacionalmente problemático , comparado con la decodificación directamente a partir del formato comprimido multi-canal al formato binaural. La codificación de indicación binaural (BCC, por sus siglas en inglés) es un método de codificación de audio espacial paramétrico muy desarrollado. BCC representa una señal espacial multi-canal como un canal de audio simple (o varios) mezclado descendentemente y un grupo de diferencias intercanal perceptualmente relevantes, estimadas como una función de frecuencia y tiempo a partir de la señal original. El método permite que una señal de audio espacial mezclada para una configuración de altavoz arbitraria se convierta por alguna otra configuración de altavoz, que consiste ya sea del mismo o de un número diferente de altavoces. Por consiguiente, la BCC está diseñada para sistemas de altavoz multi-canal. Sin embargo, la generación de una señal binaural a partir de una monoseñal procesada por BCC y su información secundaria, requiere que primero se sintetice una representación multi-canal con base en la monoseñal y la información secundaria, y solamente entonces puede ser posible generar una señal binaural para la reproducción en auriculares espaciales a partir de la representación multi-canal. Es evidente que este procedimiento no está optimizado en vista de la generación de una señal binaural.

SUMARIO DE LA INVENCIÓN Ahora se ha inventado un método mejorado y equipo técnico que implementa el método, mediante el cual la generación de una señal binaural se hace posible directamente a partir de una señal de audio codificada paramétricamente . Varios aspectos de la invención incluyen: un método de decodificación, un decodificador, un aparato, un método de codificación, un codificador y programas de computadora, que están caracterizados por lo que se establece en las reivindicaciones independientes. Varias modalidades de la invención se describen en las reivindicaciones dependientes. De acuerdo a un primer aspecto, un método de acuerdo a la invención se basa en la idea de sintetizar una señal de audio binaural de tal manera que primero se introduce una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o más grupos correspondientes de información secundaria que describen una imagen de sonido multi-canal. Después, se aplica un grupo predeterminado de filtros de función de transferencia relacionada con la cabeza a la o las señales combinadas en una proporción determinada por el grupo correspondiente de información secundaria, para sintetizar una señal de audio binaural . De acuerdo a una modalidad, a partir del grupo predeterminado de filtros de función de transferencia relacionada con la cabeza, se elige para aplicarse un par izquierdo-derecho de filtros de función de transferencia relacionada con la cabeza que corresponden a cada dirección del altavoz de la configuración de altavoz original multi-canal . De acuerdo a una modalidad, el grupo mencionado de información secundaria comprende un grupo de estimaciones de ganancia para las señales de canal del audio multi-canal, que describe la imagen de sonido original . De acuerdo a una modalidad, las estimaciones de ganancia del audio original multi-canal se determinan como una función de tiempo y frecuencia; y las ganancias para cada canal de altavoz se ajustan de tal manera que la suma de los cuadrados de cada valor de ganancia es igual a uno. De acuerdo a una modalidad, al menos una señal combinada se divide en periodos de una longitud de cuadro empleada, los cuadros después se visualizan en una ventana; y la o las señales combinadas se transforman en el dominio de frecuencia antes de aplicar los filtros de función de transferencia relacionada con la cabeza. De acuerdo a una modalidad, al menos una señal combinada se divide en el dominio de frecuencia en una pluralidad de bandas de frecuencia motivadas psicoacústicamente, de tal manera que las bandas de frecuencia cumplen con la escala de Ancho de Banda Rectangular Equivalente (ERB, por sus siglas en inglés) , antes de aplicar los filtros de función de transferencia relacionada con la cabeza. De acuerdo a una modalidad, las salidas de los filtros de función de transferencia relacionada con la cabeza para cada banda de frecuencia para una señal del lado izquierdo y una señal del lado derecho, se suman separadamente; y la señal del lado izquierdo sumada y la señal del lado derecho sumada se transforman en el dominio de tiempo para crear un componente del lado izquierdo y un componente del lado derecho de una señal de audio binaural . Un segundo aspecto proporciona un método para generar una señal de audio codificada paramétricamente, el método comprende: introducir una señal de audio multi-canal que comprende una pluralidad de canales de audio; generar al menos una señal combinada de la pluralidad de canales de audio ; y generar uno o varios grupos correspondientes de información secundaria, la cual incluye estimaciones de ganancia para la pluralidad de canales de audio. De acuerdo a una modalidad, las estimaciones de ganancia se calculan por comparación del nivel de ganancia de cada canal individual con el nivel de ganancia acumulado de la o las señales combinadas. La configuración de acuerdo a la invención proporciona ventajas significativas. Una ventaja mayor es la simplicidad y la baja complejidad computacional de los procesos de decodificación. El decodificador también es flexible pues realiza la síntesis binaural completamente con base en los parámetros espaciales y de codificación dados por el codificador. Además, la espacialidad igual respecto a la señal original se mantiene en la conversión. Como para la información secundaria, es suficiente un grupo de estimaciones de ganancia de la mezcla original. Más significativamente, la invención hace posible el aprovechamiento mejorado del estado intermediario compresivo proporcionado en la codificación paramétrica de audio, mejorando la eficiencia en la transmisión así como en el almacenamiento del audio. Los aspectos adicionales de la invención incluyen varios aparatos configurados para llevar a cabo los pasos inventivos de los métodos anteriores BREVE DESCRIPCIÓN DE LOS DIBUJOS Enseguida, se describirán varias modalidades de la invención con mayor detalle, con referencia a los dibujos anexos, en los cuales: La figura 1 muestra un esquema de Codificación de Indicación Binaural (BCC) genérica de acuerdo a la técnica anterior; La figura 2 muestra la estructura general de un esquema de síntesis de BCC de acuerdo a la técnica anterior; La figura 3 muestra un diagrama de bloques del decodificador binaural de acuerdo a una modalidad de la invención; y La figura 4 muestra un dispositivo electrónico de acuerdo a una modalidad de la invención en un diagrama de bloques reducido.

DESCRIPCIÓN DE MODALIDADES Enseguida, la invención se ilustrará haciendo referencia a la Codificación de Indicación Binaural (BCC) como una plataforma ejemplificada para implementar el esquema de decodificación de acuerdo a las modalidades. No obstante, es evidente que la invención no está limitada a los métodos de codificación de audio espacial tipo BCC solamente, sino que se puede implementar en cualquier esquema de codificación de audio que proporcione al menos una señal de audio combinada a partir del grupo original de uno o varios canales de audio e información secundaria espacial apropiada. La Codificación de Indicación Binaural (BCC) es un concepto general para representación paramétrica de audio espacial, suministro de salida multi-canal con un número arbitrario de canales a partir de un canal de audio simple más alguna información secundaria. La figura 1 ilustra este concepto. Varios canales de audio de entrada (M) se combinan en una señal de salida simple (S; "suma") por un proceso de mezcla descendente. En paralelo, las indicaciones intercanal más destacadas que describen la imagen de sonido multi-canal se extraen de los canales de entrada y se codifican de manera compactada como información secundaria de BCC. Tanto la señal de suma como la información secundaria después se transmiten al lado del receptor, posiblemente utilizando un esquema apropiado de codificación de audio de baja velocidad de transferencia de bits para codificar la señal de suma. Finalmente, el decodificador ' de BCC genera una señal de salida multi-canal (N) para los altavoces de la señal de suma transmitida y la información de indicación espacial mediante la resíntesis de las señales de salida de canal, que llevan las indicaciones intercanal relevantes, tales como Diferencia de Tiempo Intercanal (ICTD, por sus en inglés) , Diferencia de Nivel Intercanal (ICLD, por sus en inglés) y Coherencia Intercanal (ICC, por sus siglas en inglés) . Por consiguiente, la información secundaria de BCC, es decir las indicaciones intercanal, se elige en vista de la optimización de la reconstrucción de la señal de audio multi-canal, particularmente para reproducción en altavoz. Existen dos esquemas de BCC, específicamente BCC para reproducción flexible (BCC tipo 1) , que está ideada para la transmisión de un número de señales fuente separadas con el fin de reproducirlas en el receptor, y BCC para reproducción natural (BCC tipo II) , que está ideada para la transmisión de un número de canales de audio de una señal estéreo o circundante. La BCC para Reproducción Flexible toma señales separadas de fuentes de audio (por ejemplo señales de voz, instrumentos grabados separadamente, reproducción de múltiples pistas) como entrada. La BCC para Reproducción Natural, a su vez, toma una señal estéreo "de mezcla final" o multi-canal como entrada (por ejemplo audio de disco compacto (CD, por sus siglas en inglés) , sonido circundante de disco versátil digital (DVD, por sus siglas en inglés) ) . Si estos procesos se llevan a cabo por medio de técnicas de codificación convencionales, la velocidad de transferencia de bits se escala proporcionalmente o al menos casi proporcionalmente al número de canales de audio, por ejemplo la transmisión de los seis canales de audio del sistema multi-canal 5.1. requiere una velocidad de transferencia de bits casi seis veces la de un canal de audio. No obstante, ambos esquemas BCC dan por resultado una velocidad de transferencia de bits que es solamente ligeramente superior a la velocidad de transferencia de bits requerida para la transmisión de un canal de audio, ya que la información secundaria de BCC requiere solamente una velocidad de transferencia de bits muy baja (por ejemplo 2 kb/s) . La figura 2 muestra la estructura general de un esquema de síntesis de BCC. La monoseñal transmitida ("suma") primero se visualiza en una ventana en el dominio de tiempo en cuadros y luego se mapea para una representación espectral de sub-bandas apropiadas por un proceso de Transformación Rápida de Fourier (FFT, por sus siglas en inglés) y un banco de filtro FB. En vez de los procesos en la FFT y FB, se puede utilizar un proceso de banco de filtro del tipo Filtro de Espejo en Cuadratura (QMF, por sus siglas en inglés) para llevar a cabo una descomposición de la señal. En el caso general de canales de reproducción, se consideran la ICLD e ICTD en cada sub-banda entre pares de canales, es decir para cada canal con respecto a un canal de referencia. Las sub-bandas se seleccionan de tal manera que se logre una resolución de frecuencia suficientemente alta, por ejemplo una anchura de sub-banda igual a dos veces la escala de Ancho de banda Rectangular Equivalente (ERB, por sus siglas en inglés) se considera típicamente adecuada. Para cada canal de salida que se va a generar, las ICTD por demoras de tiempo individual e ICLD por diferencias ,de nivel se imponen sobre los coeficientes espectrales, seguidas por un proceso de síntesis de coherencia que reintroduce los aspectos más relevantes de coherencia y/o correlación (ICC) entre los canales de audio sintetizados. Finalmente, todos los canales sintetizados de salida se reconvierten en una representación de dominio de tiempo por un proceso FFT inverso (IFFT, por sus siglas en inglés) , dando por resultado la salida multi-canal. Para una descripción más detallada del procedimiento BCC, se hace referencia a: F. Baumgarte y C. Faller: " Binaural Cue Coding - Part I: Psychoacoustic Fundamentáis and Design Principies" , IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, Noviembre 2003, y a: C. Faller y F. Baumgarte: nBinaural Cue Coding - Part II: Schemes and Applications" , IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6 Noviembre 2003. El BCC es un ejemplo de esquemas de codificación, que proporciona una plataforma adecuada para implementar el esquema de decodificación de acuerdo a las modalidades. El decodificador binaural de acuerdo a una modalidad recibe la señal monofonizada y la información secundaria como entradas. La idea es reemplazar cada altavoz en la mezcla original con un par de HRTF correspondientes a la dirección del altavoz con respecto a la posición del oyente. Cada canal de frecuencia de la señal monofonizada se alimenta a cada par de filtros, implementando las HRTF en la proporción indicada por un grupo de valores de ganancia, los cuales se pueden calcular con base en la información secundaria. Por consiguiente, el proceso se puede idear para implementar un grupo de altavoces virtuales, que corresponden a los originales, en el contexto de audio binaural. Por lo tanto, la invención agrega valor a la BCC al permitir, además de señales de audio multi-canal para varias configuraciones de altavoces, que se derive también una señal de audio binaural directamente de la señal de audio espacial codificada paramétricamente, sin ningún proceso de síntesis de BCC intermediario. Algunas modalidades de la invención se ilustran enseguida con referencia a la figura 3, que muestra un diagrama de bloques del decodificador binaural de acuerdo a un aspecto de la invención. El decodificador (300) comprende una primera entrada (302) para la señal monofonizada y una segunda entrada (304) para la información secundaria. Las entradas (302) , (304) se muestran como entradas distintivas con el fin de ilustrar I las modalidades, pero una persona experta apreciará que en la implementación práctica, la señal monofonizada y la información secundaria se pueden suministrar a través de la misma entrada. De acuerdo a una modalidad, la información secundaria no tiene que incluir las mismas indicaciones intercanal como en los esquemas de BCC, es decir Diferencia de Tiempo Intercanal (ICTD) , Diferencia de Nivel Intercanal (ICLD) y Coherencia Intercanal (ICC) , sino más bien solamente un grupo de estimaciones de ganancia que definen la distribución de presión de sonido entre los canales de la mezcla original, en cada banda de frecuencia suficiente. Además de las estimaciones de ganancia, la información secundaria de preferencia incluye el número y posiciones de los altavoces de la mezcla original con relación a la posición del oyente, así como la longitud del cuadro empleado. De acuerdo a una modalidad, en vez de transmitir las estimaciones de ganancia como una parte de la información secundaria de un codificador, las estimaciones de ganancia se calculan en el decodificador a partir de las indicaciones intercanal de los esquemas de BCC, por ejemplo a partir de ICLD. El codificador (300) comprende además una unidad de visualización en una ventana (306) , en donde la señal monofonizada primero se divide en cuadros de tiempo de la longitud de cuadro empleada, y después los cuadros se visualizan en una ventana apropiadamente, por ejemplo ventana sinusoidal. Una longitud de cuadro apropiada se debería ajustar de tal manera que los cuadros sean suficientemente grandes para la transformación de Fourier discreta (DFT, por sus siglas en inglés) mientras que sean simultáneamente lo suficientemente cortas para manejar variaciones rápidas en la señal . Los experimentos han mostrado que una longitud de cuadro adecuada es de aproximadamente 50 ms . Por consiguiente, si se utiliza la frecuencia de muestreo de 44.1 kHz (comúnmente utilizada en varios esquemas de codificación de audio) , entonces el cuadro puede comprender, por ejemplo, 2048 muestras que dan por resultado la longitud de cuadro de 46.4 ms . La visualización en una ventana se da preferentemente de tal manera que las ventanas adyacentes se traslapan por 50% con el fin de suavizar las transiciones provocadas por las modificaciones espectrales (nivel y demora) . Posteriormente, la señal monofonizada visualizada en una ventana se transforma en dominio de frecuencia en una unidad de FFT (308) . El procesamiento se realiza en el dominio de frecuencia con el objetivo de lograr computación eficiente. Una persona experta se dará cuenta que los pasos previos del procesamiento de señal se pueden llevar a cabo fuera del decodificador real (300) , es decir la unidad de visualización en una ventana (306) y la unidad de FFT (308) se pueden implementar en el aparato, en donde está incluido el decodificador, y la señal monofonizada que se va a procesar ya está visualizada en una ventana y se transforma en dominio de frecuencia, cuando se suministra al decodificador. Para fines del cómputo eficiente de la señal en dominio de frecuencia, la señal se alimenta a un banco de filtro (310) , que divide la señal en bandas de frecuencia motivadas psicoacústicamente . De acuerdo a una modalidad, el banco de filtro (310) está diseñado de tal manera que está configurado para dividir la señal en 32 bandas de frecuencia que cumplen con la escala de Ancho de banda Rectangular Equivalente (ERB) conocida comúnmente, que da por resultado los componentes de señal x0, ..., x31 en las 32 bandas de frecuencia mencionadas. Como una alternativa para los bloques (306) , (308) y (310) , el procesamiento de dominio de tiempo-frecuencia de la señal monofonizada se puede llevar a cabo en una unidad de banco de filtro QMF que realiza la descomposición de la señal. Una persona experta se dará cuenta que además de un procesamiento de FFT o un procesamiento de banco de filtro QMF, se puede utilizar cualquier otro método adecuado para llevar a cabo el procesamiento de dominio de tiempo- frecuencia deseado. El decodificador (300) comprende un grupo de HRTF (312) , (314) como información prealmacenada, a partir de la cual se elige un par izquierdo-derecho de HRTF correspondiente a cada dirección de altavoz. Para fines de ilustración, en la figura 3 se muestran dos grupos de HRTF (312) , (314) , uno para la señal del lado izquierdo y uno para la señal del lado derecho, pero es evidente que en la implementación práctica será suficiente un grupo de HRTF. Para ajustar los pares elegidos izquierdos-derechos de HRTF para que correspondan a cada nivel de sonido de canal de altavoz, de preferencia se estiman los valores de ganancia G. Como se mencionó anteriormente, las estimaciones de ganancia se pueden incluir en la información secundaria recibida del decodificador, o se pueden calcular en el decodificador con base en la información secundaria de BCC. Por consiguiente, se estima una ganancia para cada canal de altavoz como una función de tiempo y frecuencia, y con el fin de preservar el nivel de ganancia de la mezcla original, las ganancias para cada canal de altavoz se ajustan de preferencia de tal manera que la suma de los cuadrados de cada valor de ganancia es igual a uno. Esto proporciona la ventaja de que, si N es el número de los canales que se van a generar virtualmente, entonces solamente N-l estimaciones de ganancia se necesitan transmitir del codificador, y el valor de ganancia perdido se puede calcular con base en los valores de ganancia N-l. No obstante, una persona experta se dará cuenta que la operación de la invención no necesita ajustar la suma de los cuadrados de cada valor de ganancia para que sea igual a uno, pero el decodificador puede escalar los cuadrados de los valores de ganancia de tal manera que la suma sea igual a uno. Después cada par izquierdo-derecho de los filtros de HRTF (312), (314) se ajustan en la proporción dictada por el grupo de ganancias G, dando por resultado filtros de HRTF ajustados (312'), (314'). Nuevamente, se observa que en la práctica, las magnitudes de los filtros de HRTF originales (312) , (314) se escalan solamente de acuerdo a los valores de ganancia, pero para fines de ilustrar las modalidades, grupos "adicionales" de HRTF (312'), (314') se muestran en la figura 3. Para cada banda de frecuencia, los componentes de monoseñal x0, ..., x31 se alimentan a cada par izquierdo-derecho de los filtros de HRTF ajustados (312'), (314')-Las salidas de filtro para la señal del lado izquierdo y para la señal del lado derecho después se suman en unidades sumadoras (316), (318) para ambos canales binaurales. Las señales binaurales sumadas nuevamente se visualizan en ventana sinusoidal, y se retransforman en dominio de tiempo por un proceso de FFT inversa llevado a cabo en las unidades de IFFT (320) , (322) . En caso de que los filtros de análisis no sumen uno, o su respuesta de fase no sea lineal, entonces se utiliza de preferencia un banco de filtro de síntesis adecuado para evitar la distorsión en las señales binaurales finales BR y BL Nuevamente, si se utiliza una unidad de banco de filtro de QMF en la descomposición de la señal como se describe anteriormente, las unidades de IFFT (320) , (322) de preferencia se reemplazan por unidades de banco de filtro de IQMF (QMF inversa) . De acuerdo a una modalidad, con el fin de mejorar la externalización, es decir la localización fuera de la cabeza, de la señal binaural, una respuesta moderada de la habitación se puede agregar a la señal binaural. Para ese propósito, el decodificador puede comprender una unidad de reverberación, ubicada de preferencia entre las unidades sumadoras (316) , (318) y las unidades de IFFT (320) , (322) . La respuesta agregada de la habitación imita el efecto de la habitación en una situación de escuchar en altavoz . El tiempo de reverberación necesario es, no obstante, suficientemente corto de tal manera que la complejidad computacional no se incrementa notoriamente. El decodificador binaural (300) descrito en la figura 3 también hace posible un caso especial de una decodificación por un proceso de mezcla descendente, estéreo, en donde la imagen espacial se hace angosta. La operación del decodificador (300) se corrige de tal manera que cada filtro de HRTF ajustable (312) , (314) , que en las modalidades anteriores solamente se escaló de acuerdo a los valores de ganancia, se reemplaza por una ganancia predeterminada. Por consiguiente, la señal monofonizada se procesa a través de filtros de HRTF constantes que consisten de una ganancia simple multiplicada por un grupo de valores de ganancia calculados con base en la información secundaria. Como resultado, el audio espacial se mezcla descendentemente en una señal estéreo. Este caso especial proporciona la ventaja de que una señal estéreo se puede crear a partir de la o las señales combinadas utilizando la información secundaria espacial sin necesidad de decodificar el audio espacial, con ello el procedimiento de decodificación estéreo es más simple que la síntesis de BCC convencional. La estructura del decodificador binaural (300) sigue siendo la misma, al contrario que en la figura 3, solamente los filtros de HRTF ajustables (312), (314) se reemplazan por filtros de mezcla descendente que tienen ganancias predeterminadas para la mezcla descendente, estéreo. Si el decodificador binaural comprende filtros de HRTF, por ejemplo, para una configuración de audio circundante 5.1, entonces para el caso especial de la decodificación de mezcla descendente estéreo, las ganancias constantes para los filtros de HRTF pueden ser, por ejemplo, como se define en la tabla 1.

Tabla 1. Filtros de HRTF para mezcla descendente estéreo La configuración de acuerdo a la invención proporciona ventajas significativas. Una ventaja mayor es la simplicidad y la baja complejidad computacional del proceso de decodificación. El decodificador también es flexible en el sentido de que realiza la mezcla ascendente binaural completamente con base en los parámetros de codificación y espaciales dados por el codificador. Además, se mantiene igual espacialidad respecto a la señal original en la conversión. Como para la información secundaria, es suficiente un grupo de estimaciones de ganancia de la mezcla original. Desde el punto de vista de transmisión o almacenamiento del audio, la ventaja más significativa se gana a través de la eficiencia mejorada cuando se utiliza el estado intermediario compresivo proporcionado en la codificación paramétrica de audio. Una persona experta se dará cuenta que, ya que las HRTF son muy individuales y el promedio es imposible, la re-espacialización perfecta solamente se podría lograr midiendo el único grupo de HRTF por el propio oyente. Por consiguiente, el uso de HRTF inevitablemente colorea la señal de tal manera que la calidad del audio procesado no es equivalente al original. No obstante, ya que la medición de cada HRTF del oyente es una opción no realista, se logra el mejor resultado posible, cuando se utilice cualquiera de un grupo modelado o un grupo medido a partir de una cabeza de maniquí o de una persona con una cabeza de tamaño promedio y simetría notable. Como se estableció anteriormente, de acuerdo a una modalidad, las estimaciones de ganancia se pueden incluir en la información secundaria recibida del codificador. Por consiguiente, un aspecto de la invención se refiere a un codificador para señal de audio espacial multi-canal que estima una ganancia para cada canal de altavoz como una función de frecuencia y tiempo e incluye las estimaciones de ganancia en la información secundaria que se va a transmitir a lo largo de uno (o varios) canales combinados. El codificador puede ser, por ejemplo, un codificador de BCC conocido como tal, que está configurado además para calcular las estimaciones de ganancia, ya sea además de o en lugar de, las ICTD, ICLD e ICC de indicaciones intercanal que describen la imagen de sonido multi-canal. Posteriormente, tanto la señal de suma como la información secundaria, que comprenden al menos las estimaciones de ganancia, se transmiten al lado del receptor, de preferencia utilizando un esquema apropiado de codificación de audio de baja velocidad de transferencia de bits, para codificar la señal de suma. De acuerdo a una modalidad, si se calculan las estimaciones de ganancia en el codificador, el cálculo se lleva a cabo comparando el nivel de ganancia de cada canal individual con el nivel de ganancia acumulado del canal combinado; es decir, si denotamos los niveles de ganancia por X, los canales individuales de la configuración de altavoz original por "m" y las muestras por "k" , entonces para cada canal la estimación de ganancia se calcula como Xm(k) Xsum(k) . Por consiguiente, las estimaciones de ganancia determinan la magnitud de ganancia proporcional de cada canal individual en comparación con la magnitud de ganancia total de todos los canales . De acuerdo a una modalidad, si las estimaciones de ganancia se calculan en el decodificador con base en la información secundaria de BCC, el cálculo se puede llevar a cabo por ejemplo con base en los valores de la diferencia de nivel intercanal ICLD. Por consiguiente, si N es el número de los "altavoces" que se van a generar virtualmente, entonces las ecuaciones N-l, que comprenden N-l variables desconocidas, primero se componen con base en los valores de ICLD. Posteriormente la suma de los cuadrados de cada ecuación de altavoz se establece igual a 1, así se puede resolver la estimación de ganancia de un canal individual, y con base en la estimación de ganancia resuelta, se puede resolver el resto de las estimaciones de ganancia a partir de las ecuaciones N-l.

Por ejemplo, si el número de los canales que se va a generar virtualmente es de cinco (N=5) , las ecuaciones N-l se pueden formar como sigue: L2=L1+ICLD1, L3=L1+ICLD2, L4=L1+ICLD3 y L5=L1+ICLD4. Entonces, la suma de sus cuadrados se establece igual a 1: Ll2 + (L1+ICLD1)2 + (L1+ICLD2)2 + (L1+ICLD3)2 + (L1+ICLD4)2 = 1. Entonces de puede resolver el valor de Ll, y con base en Ll, se puede resolver el resto de los valores de nivel de ganancia L2 - L5. Para fines de simplicidad, los ejemplos previos se describen de tal manera que los canales de entrada (M) se mezclan descendentemente en el codificador para formar un canal combinado simple (por ejemplo mono) . No obstante, las modalidades son igualmente aplicables en implementaciones alternativas, en donde los canales de entrada múltiple (M) se mezclan descendentemente para formar dos o más canales combinados separados (S) , dependiendo de la aplicación de procesamiento de audio particular. Si la mezcla descendente genera múltiples canales combinados, los datos de canales combinados se pueden transmitir utilizando técnicas de transmisión de audio convencionales. Por ejemplo, si se generan dos canales combinados, se pueden emplear técnicas de transmisión estéreo convencionales. En este caso, un decodificador de BCC puede extraer y utilizar los códigos de BCC para sintetizar una señal binaural proveniente de los dos canales combinados . De acuerdo a una modalidad, el número (N) de los "altavoces" generados virtualmente en la señal binaural sintetizada, puede ser diferente (mayor o menor) que el número de canales de entrada (M) , dependiendo de la aplicación particular. Por ejemplo, el audio de entrada podría corresponder al sonido circundante 7.1 y el audio de salida binaural podría sintetizarse para que corresponda al sonido circundante 5.1, o viceversa. Las modalidades anteriores se pueden generalizar de tal manera que las modalidades de la invención permitan convertir canales de audio de entrada M en canales de audio combinados S y uno o varios grupos correspondientes de información secundaria, en donde M>S, y generar canales de audio de salida N a partir de los canales de audio combinados S y los grupos correspondientes de información secundaria, en donde N>S, y N puede ser igual o diferente de M. Ya que la velocidad de transferencia de bits requerida para la transmisión de un canal combinado y la información secundaria necesaria es muy baja, la invención es especialmente muy aplicable en sistemas, en donde la ancho de banda disponible es un recurso escaso, como en los sistemas de comunicación inalámbrica. Por consiguiente, las modalidades son especialmente aplicables en terminales móviles o en otro dispositivo portátil que carece típicamente de altavoces de alta calidad, en donde las características del sonido circundante multi-canal se pueden introducir a través de auriculares que escuchan la señal de audio binaural de acuerdo a las modalidades . Un campo adicional de aplicaciones viables incluye los servicios de teleconferencias, en donde los participantes de la teleconferencia se pueden distinguir fácilmente dando a los oyentes la . impresión de que los participantes que hablan en la conferencia están en sitios diferentes en la habitación de la conferencia. La figura 4 ilustra una estructura simplificada de un dispositivo de procesamiento de datos (TE) , en donde se puede implementar el sistema de decodificación binaural de acuerdo a la invención. El dispositivo de procesamiento de datos (TE) puede ser, por ejemplo, una terminal móvil, un dispositivo asistente digital personal (PDA, por sus siglas en inglés) o una computadora personal (PC, por sus siglas en inglés) . La unidad de procesamiento de datos (TE) comprende medios de entrada/salida (I/O, por su abreviatura en inglés) , una unidad de procesamiento central (CPU, por sus siglas en inglés) y memoria (MEM) . La memoria (MEM) comprende una porción de memoria de sólo lectura (ROM, por sus siglas en inglés) y una porción re-escribible, tal como una memoria de acceso aleatorio (RAM, por sus siglas en inglés) y memoria instantánea (FLASH) . La información utilizada para comunicarse con diferentes partes externas, por ejemplo un disco compacto de sólo lectura (CD-ROM, por sus siglas en inglés) , otros dispositivos y el usuario, se transmite a través de los medios 1/0 (1/0) hacia/desde la unidad de procesamiento central (CPU) . Si el dispositivo de procesamiento de datos se implementa como una estación móvil, éste típicamente incluye un transceptor Tx/Rx, que se comunica con la red inalámbrica, típicamente con una estación transceptora base (BTS, por sus siglas en inglés) por medio de una antena. El equipo de interfaz de usuario (Ul, por sus siglas en inglés) típicamente incluye una pantalla, un teclado, un micrófono y medios conectores para auriculares. El dispositivo de procesamiento de datos puede comprender además tarjetas de medios múltiples (MMC, por sus siglas en inglés) de medios conectores, tales como una ranura de forma estándar, para varios módulos de hardware o como circuitos integrados IC, que pueden proporcionar varias aplicaciones para que se ejecuten en el dispositivo de procesamiento de datos. Por consiguiente, el sistema de decodificación binaural de acuerdo a la invención se puede ejecutar en una unidad de procesamiento central CPU o en un procesador de señal digital (DSP, por sus siglas en inglés) dedicado (un procesador de códigos paramétricos) del dispositivo de procesamiento de datos, con ello el dispositivo de procesamiento de datos recibe una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria que describe una imagen de sonido multi-canal. La señal de audio codificada paramétricamente puede recibirse de medios de memoria, por ejemplo un CD-ROM, o de una red inalámbrica vía la antena y el transceptor Tx/Rx. El dispositivo de procesamiento de datos comprende además un banco de filtro adecuado y un grupo predeterminado de filtros de función de transferencia relacionada con la cabeza, así el dispositivo de procesamiento de datos transforma la o las señales combinadas en dominio de frecuencia y aplica un par izquierdo-derecho adecuado de filtros de función de transferencia relacionada con la cabeza, a la o las señales combinadas en una proporción determinada por el grupo correspondiente de información secundaria, para sintetizar una señal de audio binaural, que después se reproduce vía los auriculares . Igualmente, el sistema de codificación de acuerdo a la invención se puede ejecutar en una unidad de procesamiento central CPU o en un procesador de señal digital dedicado DSP del dispositivo de procesamiento de datos, así el dispositivo de procesamiento de datos genera una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria que incluye estimaciones de ganancia para las señales de canal del audio multi-canal. Las funcionalidades de la invención se pueden implementar en un dispositivo terminal, tal como una estación móvil, también como un programa de computadora el cual, cuando se ejecuta en una unidad de procesamiento central CPU o en un procesador de señal digital dedicado DSP, afecta al dispositivo terminal para implementar procedimientos de la invención. Las funciones del programa de computadora SW se pueden distribuir a varios componentes separados del programa que se comunican entre sí. El software de computadora se puede almacenar en cualquier medio de memoria, tal como el disco duro de una PC o un disco CD-ROM, de donde se puede cargar en la memoria de la terminal móvil. El software de computadora también se puede cargar a través de una red, por ejemplo utilizando un apilamiento de protocolo de control de transmisión/protocolo de Internet (TCP/IP, por sus siglas en inglés) . También es posible utilizar soluciones de hardware o una combinación de soluciones de hardware y software para implementar los medios inventivos. Por consiguiente, el producto de programa de computadora anterior se puede implementar al menos parcialmente como una solución de hardware, por ejemplo como circuitos integrados específicos de aplicación (ASIC, por sus siglas en inglés) o matriz de compuertas programables por campo (FPGA, por sus siglas en inglés) , en un módulo de hardware que comprende medios conectores para conectar el módulo a un dispositivo electrónico, o como uno o varios circuitos integrados IC, el módulo de hardware o los IC incluyen además varios medios para llevar a cabo las tareas de codificación de programa, los medios se implementan como hardware y/o software. Es obvio que la presente invención no está limitada solamente a las modalidades presentadas anteriormente, sino que se puede modificar dentro del alcance de las reivindicaciones anexas.

Claims

REIVINDICACIONES ; 1. Un método para sintetizar una señal de audio binaural, el método comprende: introducir una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria, la cual describe una imagen de sonido multi-canal; y aplicar un grupo predeterminado de filtros de función de transferencia relacionada con la cabeza a la o las señales combinadas, en una proporción determinada por el grupo correspondiente de información secundaria, con el fin de sintetizar una señal de audio binaural.
2. El método según la reivindicación 1, que comprende además: aplicar, a partir del grupo predeterminado de filtros de función de transferencia relacionada con la cabeza, un par izquierdo-derecho de filtros de función de transferencia relacionada con la cabeza que corresponde a cada dirección del altavoz del audio original multi-canal.
3. El método según la reivindicación 1 ó 2, en donde el grupo de información secundaria comprende un grupo de estimaciones de ganancia para las señales de canal del audio multi-canal que describe la imagen de sonido original .
4. El método según la reivindicación 3, en donde el grupo de información secundaria comprende además el número y posiciones de altavoces de la imagen de sonido original multi-canal, en relación a una posición del oyente, y una longitud del cuadro empleado.
5. El método según la reivindicación 1 ó 2, en donde el grupo de información secundaria comprende indicaciones intercanal utilizadas en un esquema de Codificación de Indicación Binaural (BCC) , tal como Diferencia de Tiempo Intercanal (ICTD) , Diferencia de Nivel Intercanal (ICLD) y Coherencia Intercanal (ICC) , el método comprende además: calcular un grupo de estimaciones de ganancia del audio original multi-canal con base en al menos una de las indicaciones intercanal del esquema de BCC.
6. El método según cualquiera de las reivindicaciones 3-5, que comprende además: determinar el grupo de las estimaciones de ganancia del audio original multi-canal como una función de tiempo y frecuencia; y ajustar las ganancias para cada canal de altavoz de tal manera que la suma de los cuadrados de cada valor de ganancia sea igual a uno.
7. El método según cualquier reivindicación precedente, que comprende además: dividir al menos una señal combinada en cuadros de tiempo de una longitud de cuadro empleado, cuyos cuadros después se visualizan en una ventana; y transformar la o las señales combinadas en el dominio de frecuencia antes de aplicar los filtros de función de transferencia relacionada con la cabeza.
8. El método según la reivindicación 7, que comprende además : dividir al menos una señal combinada en el dominio de frecuencia en una pluralidad de bandas de frecuencia motivadas psicoacústicamente, antes de aplicar los filtros de función de transferencia relacionada con la cabeza .
9. El método según la reivindicación 8, que comprende además : dividir la o las señales combinadas en el dominio de frecuencia, en 32 bandas de frecuencia que cumplen con la escala de Ancho de Banda Rectangular Equivalente (ERB) .
10. El método según cualquiera de las reivindicaciones 7-9, en donde el paso de transformar la o las señales combinadas en el dominio de frecuencia se realiza utilizando filtros de QMF para descomponer la o las señales combinadas .
11. El método según cualquiera de las reivindicaciones 8-10, que comprende además: sumar las salidas de los filtros de función de transferencia relacionada con la cabeza para cada una de las bandas de frecuencia para una señal del lado izquierdo y una señal del lado derecho separadamente; y transformar la señal del lado izquierdo sumada y la señal del lado derecho sumada en el dominio de tiempo para crear un componente del lado izquierdo y un componente del lado derecho de una señal de audio binaural.
12. Un método para sintetizar una señal de audio estéreo, el método comprende: introducir una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria la cual describe una imagen de sonido multi-canal; y aplicar un grupo de filtros de mezcla descendente, que tienen valores de ganancia predeterminada, a la o las señales combinadas, en la proporción determinada por el grupo correspondiente de información secundaria, para sintetizar una señal de audio estéreo.
13. Un decodificador paramétrico de audio, que comprende : un procesador de código paramétrico para procesar una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria que describe una imagen de sonido multi-canal; y un sintetizador para aplicar un grupo predeterminado de filtros de función de transferencia relacionada con la cabeza a la o las señales combinadas, en una proporción determinada por el grupo correspondiente de información secundaria con el fin de sintetizar una señal de audio binaural .
14. El decodificador según la reivindicación 13, en donde el sintetizador está configurado para aplicar, a partir del grupo predeterminado de filtros de función de transferencia relacionada con la cabeza, un par izquierdo-derecho de filtros de función de transferencia relacionada con la cabeza que corresponde a cada dirección del altavoz del audio original multi-canal.
15. El decodificador según la reivindicación 13 ó 14 , en donde el grupo de información secundaria comprende un grupo de estimaciones de ganancia para las señales de canal del audio multi-canal que describe la imagen de sonido original .
16. El decodificador según la reivindicación 13 ó 14 , en donde el grupo de información secundaria comprende indicaciones intercanal utilizadas en un esquema de Codificación de Indicación Binaural (BCC) , tal como Diferencia de Tiempo Intercanal (ICTD) , Diferencia de Nivel Intercanal (ICLD) y Coherencia Intercanal (ICC) , el decodificador está configurado para calcular un grupo de estimaciones de ganancia del audio original multi-canal con base en al menos una de las indicaciones intercanal del esquema de BCC.
17. El decodificador según cualquiera de las reivindicaciones 13-16, que comprende además: medios para dividir la o las señales combinadas en cuadros de tiempo de una longitud de cuadro empleado; medios para visualizar en una ventana los cuadros ; y medios para transformar la o las señales combinadas en el dominio de frecuencia antes de aplicar los filtros de función de transferencia relacionada con la cabeza.
18. El decodificador según la reivindicación 17, que comprende además: medio para dividir la o las señales combinadas en el dominio de frecuencia en una pluralidad de bandas de frecuencia motivadas psicoacústicamente antes de aplicar los filtros de función de transferencia relacionada con la cabeza.
19. El decodificador según la reivindicación 18, en donde : el medio para dividir la o las señales combinadas en el dominio de frecuencia comprende un banco de filtro configurado para dividir la o las señales combinadas en 32 bandas de frecuencia que cumplen con la escala de Ancho de Banda Rectangular Equivalente (ERB) .
20. El decodificador según cualquiera de las reivindicaciones 17-19 en donde los medios para transformar la o las señales combinadas en el dominio de frecuencia comprenden filtros de QMF configurados para descomponer la o las señales combinadas .
21. El decodificador según cualquiera de las reivindicaciones 17-20, que comprende además: una unidad sumadora para sumar las salidas de los filtros de función de transferencia relacionada con la cabeza para cada una de las bandas de frecuencia para una señal del lado izquierdo y una señal del lado derecho separadamente; y una unidad de transformación para transformar la señal del lado izquierdo sumada y la señal del lado derecho sumada en dominio de tiempo para crear un componente del lado izquierdo y un componente del lado derecho de una señal de audio binaural .
22. Un decodificador paramétrico de audio, que comprende : un procesador de códigos paramétricos para procesar una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria que describe una imagen de sonido multi-canal; y un sintetizador para aplicar un grupo de filtros de mezcla descendente que tienen valores de ganancia predeterminada a la o las señales combinadas en una proporción determinada por el grupo correspondiente de información secundaria para sintetizar una señal de audio estéreo.
23. Un producto de programa de computadora, almacenado en un medio legible en computadora y ejecutable en un dispositivo de procesamiento de datos, para procesar una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria que describen una imagen de sonido multi-canal, el producto de programa de computadora comprende : una sección de código de programa de computadora para controlar la transformación de la o las señales combinadas en el dominio de frecuencia; y una sección de código de programa de computadora para aplicar un grupo predeterminado de filtros de función de transferencia relacionada con la cabeza a la o las señales combinadas en una proporción determinada por el grupo correspondiente de información secundaria para sintetizar una señal de audio binaural.
24. Un aparato para sintetizar una señal de audio binaural, el aparato comprende: medios para introducir una señal de audio codificada paramétricamente que comprende al menos una señal combinada de una pluralidad de canales de audio y uno o varios grupos correspondientes de información secundaria que describe una imagen de sonido multi-canal; medios para aplicar un grupo predeterminado de filtros de función de transferencia relacionada con la cabeza a la o las señales combinadas, en una proporción determinada por el grupo correspondiente de información secundaria, con el fin de sintetizar una señal de audio binaural; y medios para suministrar la señal de audio binaural en medios de reproducción de audio.
25. El aparato según la reivindicación 24, el aparato es una terminal móvil, un dispositivo de agenda electrónica (PDA) o una computadora personal.
26. Un método para generar una señal de audio codificada paramétricamente, el método comprende: introducir una señal de audio multi-canal que comprende una pluralidad de canales de audio; generar al menos una señal combinada de la pluralidad de canales de audio; y generar uno o varios grupos correspondientes de información secundaria, la cual incluye estimaciones de ganancia para la pluralidad de canales de audio.
27. El método según la reivindicación 26, que comprende además : calcular las estimaciones de ganancia mediante la comparación del nivel de ganancia de cada canal individual con el nivel de ganancia acumulado de la señal combinada.
28. El método según la reivindicación 26 ó 27, en donde el grupo de información secundaria comprende además el número y las posiciones de los altavoces de una imagen de sonido original multi-canal en relación a una posición del oyente, y una longitud de cuadro empleado.
29. El método según cualquiera de las reivindicaciones 26-28, en donde el grupo de información secundaria comprende además indicaciones intercanal utilizadas en un esquema de Codificación de Indicación Binaural (BCC) , tal como Diferencia de Tiempo Intercanal (ICTD) , Diferencia de Nivel Intercanal (ICLD) y Coherencia Intercanal (ICC) .
30. El método según cualquiera de las reivindicaciones 26-29, que comprende además: determinar el grupo de las estimaciones de ganancia del audio original multi-canal como una función de tiempo y frecuencia; y ajustar las ganancias para cada canal de altavoz de tal manera que la suma de los cuadrados de cada valor de ganancia sea igual a uno.
31. Un codificador paramétrico de audio para generar una señal de audio codificada paramétricamente, el codificador comprende: medios para introducir una señal de audio multi-canal que comprende una pluralidad de canales de audio; medios para generar al menos una señal combinada de la pluralidad de canales de audio; y medios para generar uno o varios grupos correspondientes de información secundaria, la cual incluye estimaciones de ganancia para la pluralidad de canales de audio .
32. El codificador según la reivindicación 31, que comprende además : medios para calcular las estimaciones de ganancia mediante la comparación del nivel de ganancia de cada canal individual con el nivel de ganancia acumulado de la señal combinada.
33. Un producto de programa de computadora, almacenado en un medio legible en computadora y ejecutable en un dispositivo de procesamiento de datos, para generar una señal de audio codificada paramétricamente, el producto de programa de computadora comprende : una sección de código de programa de computadora para introducir una señal de audio multi-canal que comprende una pluralidad de canales de audio; una sección de código de programa de computadora para generar al menos una señal combinada de la pluralidad de canales de audio; y una sección de código de programa de computadora para generar uno o varios grupos correspondientes de información secundaria, la cual incluye estimaciones de ganancia para la pluralidad de canales de audio.