MX2008012246A

MX2008012246A - Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.

Info

Publication number: MX2008012246A
Application number: MX2008012246A
Authority: MX
Inventors: Hee Suk Pang; Dong Soo Kim; Jae Hyun Lim; Sung Yong Yoon; Hyun Kook Lee
Original assignee: Lg Electronics Inc
Priority date: 2006-09-29
Filing date: 2007-10-01
Publication date: 2008-10-07
Also published as: JP2010505141A; KR20090026121A; EP2070081A1; BRPI0710923A2; WO2008039043A1; BRPI0711104A2; MX2008012250A; US20080140426A1; BRPI0711102A2; EP2070080A4; WO2008039042A1; JP2010505142A; RU2551797C2; MX2008012251A; CA2645910C; AU2007300814A1; US20110196685A1; US9384742B2; US8762157B2; AU2007300814B2

Abstract

Se proporcionan un método y aparato para codificar audio y un método y aparato para descodificar audio. El método de descodificación de señal de audio incluye extraer una señal de mezcla descendente e información lateral basada en objeto de una señal de audio; generar una señal de mezcla descendente modificada basada en la señal de mezcla descendente e información extraída que se extrae de la información lateral basada en objeto; generar información lateral basada en canal basada en la información lateral basada en objeto y dato de control para entregar la señal de mezcla descendente; y generar una señal de audio de multicanal basada e la señal de mezcla descendente modificada y la información lateral basada en canal.

Description

MÉTODOS Y APARATOS PARA CODIFICAR Y DESCODIFICAR SEÑALES DE AUDIO BASADAS EN OBJETO Campo Técnico La presente invención se relaciona con un método y aparato de codificación de audio y un método y aparato de descodificación en el que las imágenes de sonido se pueden localizar en cualquier posición deseada para cada señal de audio de objeto. Ramo Anterior En general, en técnicas de codificación y descodificación de audio de multicanal, un número de señales de canal de una señal de multicanal se mezclan descendentemente en señales de menos canales, información lateral respecto a las señales de canal originales se transmite, y una señal de multicanal que tiene tantos canales como la señal de multicanal original se restaura. Las técnicas de codificación y descodificación de audio basadas en objeto son básicamente similares a técnicas de codificación y descodificación de audio de multicanal en términos de mezclar descendentemente varias fuentes de sonido en menos señales de fuente de sonido y transmitir información lateral respecto a las fuentes de sonido originales. Sin embargo, en técnicas de codificación y descodificación basadas en objeto, las señales de objeto, que son elementos básicos (v.gr., el sonido de un instrumento musical o una voz humana) de una señal de canal, se tratan igual que las señales de canal en técnicas de codificación. y descodificación de audio de multicanal y de esta manera se puede codificar. En otras palabras, en técnicas de codificación y descodificación de audio basadas en objeto, cada señal de objeto se considera la entidad que se va a codificar. A este respecto, las técnicas de codificación y descodificación de audio basadas en objeto son diferentes de técnicas de codificación y descodificación de audio de multicanal en las que una operación de codificación de audio de multicanal se realiza simplemente basada en información de intercanal independientemente del número de elementos de una señal de canal que se va a codificar. Exposición de la Invención Problema Técnico La presente invención proporciona un método y aparato de codificación de audio y un método y aparato de descodificación de audio en donde las señales de audio se pueden codificar o descodificar de manera que las imágenes de sonido se puedan localizar en cualquier posición deseada para cada señal de audio de objeto. Solución Técnica De conformidad con un aspecto de la presente invención, se proporciona un método de descodificación de audio incluyendo extraer una señal de mezcla descendente e información lateral basada en objeto de una señal de audio; generar una señal de mezcla descendente modificada basada en la señal de mezcla descendente e información extraída que se extrae de la información lateral basada en objeto; generar información lateral basada en canal basada en la información lateral basada en objeto y dato de control para entregar la señal de mezcla descendente; y generar una señal de audio de multicanal en la señal de mezcla descendente modificada y la información lateral basada en canal. De conformidad con otro aspecto de la presente invención, se proporciona un aparato de descodificación de audio que incluye un desmultiplexor que extrae una señal de mezcla descendente e información lateral basada en objeto de una señal de audio; un descodificador de objeto que genera una señal de mezcla descendente modificada basada en la señal de mezcla descendente e información predeterminada y genera información lateral basada en canal basada en la información lateral basada en objeto y datos de control para entregar la señal de mezcla descendente, la información predeterminada siendo extraída de la información lateral basada en objeto; y un descodificador de multicanal que genera una señal de audio de multicanal basada en la señal de mezcla descendente modificada y la información lateral basada en canal. De conformidad con otro aspecto de la presente invención, se proporciona un medio de registro legible por computadora que tiene grabado en el mismo un programa de computadora para ejecutar un método de descodificación de audio, el método de descodificación de audio incluyendo extraer una señal de mezcla descendente e información lateral basada en objeto de una señal de audio, generar una señal de mezcla descendente modificada basada en la señal de mezcla descendente e información predeterminada que se extrae de la información lateral basada en objeto; generar información lateral basada en canal basada en la información lateral basada en objeto y dato de control para entregar la señal de mezcla descendente; y generar una señal de audio de multi9canal basada en la señal de mezcla descendente modificada y la información lateral basada en canal. De conformidad con otro aspecto de la invención, se proporciona un medio de registro legible por computadora que tiene registrado en el mismo un programa de computadora para ejecutar un método de descodificación de audio, el método de codificación de audio incluyendo generar una señal de mezcla descendente mezclando descendentemente una señal de audio de objeto, generar información lateral basada en objeto extrayendo información respecto la señal de audio de objeto, e insertar información predeterminada para modificar la señal de mezcla descendente hacia la información lateral basada en objeto; y generar una corriente de bits combinando la información lateral basada en objeto con la información predeterminada insertada en la misma y la señal de mezcla descendente . Efectos Ventajosos El método de descodificación de señal de audio incluye extraer una señal de mezcla descendente e información lateral basada en objeto de una señal de audio, generar una señal de mezcla descendente modificada basada en la señal de mezcla descendente e información extraída que se extrae de la información lateral basada en objeto, generar información lateral basada en canal basada en la información lateral basada en objeto y dato de control para entregar la señal de mezcla descendente; y generar una señal de audio de multicanal basada en la señal de mezcla descendente modificada y la información lateral basada en canal.

Breve Descripción de los Dibujos La presente invención se entenderá más completamente de la descripción detallada proporcionada abajo y los dibujos que se acompañan, que se proporcionan por ilustración solamente, y de esta manera no son limitativos de la presente invención, y en donde: La Figura 1 es un diagrama de bloque de un sistema típico de codificación/descodificación de audio basado en objeto; La Figura 2 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una primera modalidad de la presente invención; La Figura 3 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una segunda modalidad de la presente invención; La Figura 4 es una gráfica para explicar la influencia de una diferencia de amplitud y una diferencia de tiempo, que son independientes una de la otra, en la localización de imágenes de sonido, La Figura 5 es una gráfica de funciones respecto a la correspondencia entre diferentes de amplitud y diferencias de tiempo que se requieren para localizar imágenes de sonido en una posición predeterminada, La Figura 6 ilustra el formato de dato de control incluyendo información armónica; La Figura 7 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una tercera modalidad de la presente invención, La Figura 8 es un diagrama de bloque de un módulo de ganancias dee mezcla descendente artística (ADG) que se puede usar en el aparato de descodificación de audio ilustrado en la Figura 7; La Figura 9 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una cuarta modalidad de la presente invención; La Figura 10 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una quinta modalidad de la presente invención; La Figura 11 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una sexta modalidad de la presente invención; La Figura 12 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una séptima modalidad de la presente invención; La Figura 13 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una octava modalidad de la presente invención; La Figura 14 es un diagrama para explicar la aplicación de información tridimensional (ED) a un cuadro por el aparato de descodificación de audio ilustrado en la Figura 13; La Figura 15 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una novena modalidad de la presente invención; La Figura 16 es un diagrama de bloque de un aparato de descodificación de audio de conformidad con una décima modalidad de la presente invención; Las Figuras 17 a 19 son diagramas para explicar un método de descodificación de audio de conformidad con una modalidad de la presente invención; y La Figura 20 es un diagrama de bloque de un aparato de codificación de audio de conformidad con una modalidad de la presente invención. Mejor Modo para Llevar a Cabo la Invención La presente invención se describirá a continuación con detalle con referencia a los dibujos que se acompañan en los que se muestran modalidades de ejemplo de la invención. Un método y aparato de codificación de audio y un método y aparato de descodificación de audio dee conformidad con la presente invención se puede aplicar a operaciones de procesamiento de audio basada en objeto, pero la presente invención no está restringida a esto. En otras palabras, el método y aparato de codificación de audio y el método y aparato de descodificación de audio se pueden aplicar a diversas operaciones de procesamiento de señal distintas a las operaciones de procesamiento de audio basado en objeto. La Figura 1 es un diagrama de bloque de un sistema típico de codificación/descodificación de audio basado en objeto. En general, las señales de audio entradas a un aparato de codificación de audio basado en objeto no corresponden a canales de una señal de multicanal pero son señales de objeto independientes. A este respecto, un aparato de codificación de audio basado en objeto se diferencia de un aparato de codificación de audio de multicanal al que las señales de canal de una señal de multicanal tienen entrada. Por ejemplo, las señales de canal tales como una señal de canal izquierdo frontal y una señal de canal derecho frontal de una señal de 5.1-canal puede tener entrada a una señal de audio de multicanal, mientras que las señales de audio de objeto tales como una voz humana o el sonido de un instrumento musical (v.gr., el sonido de un violín o un piano) que son entidades menores que las señales de canal pueden tener entrada a un aparato de codificación de audio basado en objeto. Haciendo referencia a la Figura 1, el sistema de codificación/descodificación de audio basado en objeto incluye un aparato de codificación de audio basado en objeto y un aparato de descodificación de audio basado en objeto. El aparato de codificación de audio basado en objeto incluye un codificador 100 de objeto, y el aparato de descodificación de audio basado en objeto incluye un descodificador 111 de objeto y un servidor 113. El codificador 100 de objeto recibe N señales de audio de objeto, y genera una señal de mezcla descendente basada en objeto con uno o más canales e información lateral que incluye un número de piezas de información extraídas de las N señales de audio de objeto tal como diferencia de energía, diferencia de fase, y valor de correlación. La información lateral y la señal de mezcla descendente basada en objeto se incorporan hacia una sola corriente de bits, y la corriente de bits se transmite al aparato de descodificación basado en objeto. La información lateral puede incluir una bandera que indica si realizar codificación de audio basada en canal o codificación de audio basada en objeto, y de esta manera, se puede determinar si realizar codificación de audio basada en canal o codificación de audio basada en objeto basada en la bandera de la información lateral. La información lateral también puede incluir información de envolvente, información de agrupación, información de periodo de silencio e información de retraso respecto a las señales de objeto. La información lateral también puede incluir información de diferencias de nivel, información de correlación cruzada de interobjeto, información de ganancia de mezcla descendente, información de diferencia de nivel de canal de mezcla descendente, e información de energía de objeto absoluta. El descodificador 111 de objeto recibe la señal de mezcla descendente basada en objeto y la información lateral del aparato de codificación de audio basado en objeto, y restaura las señales de objeto que tienen propiedades similares a aquellas de las N señales de audio de objeto basadas en la señal de mezcla descendente basada en objeto y la información lateral. Las señales de objeto generadas por el descodificador 111 de objeto todavía no se han asignado a ninguna posición en un espacio de multicanal. De esta manera, el servidor 113 asigna cada una de las señales de objeto generadas por el descodificador 111 de objeto a una posición predeterminada en un espacio de multicanal y determina los niveles de las señales de objeto de manera que las señales de objeto se puedan reproducir de las posiciones correspondientes respectivas designadas por el servidor 113 con niveles respectivos correspondientes determinados por el servidor 113. La información de control respecto a cada una de las señales de objeto generadas por el descodificador 111 de objeto puede variar con el tiempo, y de esta manera, las posiciones espaciales y los niveles de las señales de objeto generadas por el descodificador 111 de objeto pueden variar de acuerdo con la información de control. La Figura 2 es un diagrama de bloque de un aparato 120 de descodificación de audio de conformidad con una primera modalidad de la presente invención. Haciendo referencia a la Figura 2, el aparato 120 de descodificación de audio incluye un descodificador 121 de objeto, un servidor 123, y un converti8dor 125 de parámetro. El aparato 120 de descodificación de audio también puede incluir un desmultiplexor (no mostrado) que extrae una señal de mezcla descende4nte e información lateral de una corriente de bits entrada en la misma, y esto aplicará a todos los aparatos de descodificación de audio de conformidad con otras modalidades de la presente invención. El descodificador 121 de objeto genera un número de señales de objeto basadas en una señal de mezcla descendente e información lateral modificada proporcionada por el convertidor 125 de parámetro. El servidor 123 asigna cada una de las señales de objeto generadas por el descodificador 121 de objeto a una posición predeterminada en un espacio de multicanal y determina los niveles de las señales de objeto generadas por el descodificador 121 de objeto de conformidad con información de control. El convertidor 125 de parámetro genera la información lateral modificada combinando la información lateral y la información de control. Luego, el convertidor 125 de parámetro transmite la información lateral modificada al descodificador 121 de objeto. El descodificador 121 de objeto puede ser capaz de realizar descodificación de adaptación analizando la información de control en la información lateral modificada. Por ejemplo, si la información de control indica que una primera señal de objeto y una segunda señal de objeto se asignan a la misma posición en un espacio de multicanal y tienen el mismo nive31, un aparato de descodificación de audio típico puede descodificar la primera y segunda señales de objeto separadamente, y luego disponerlas en un espacio de multicanal a través de una operación de mezcla/entrega. Por otra parte, el descodificador 121 de objeto del aparato 120 de descodificación de audio sabe de la información de control en la información lateral modificada que la primera y segunda señales de objeto están asignadas a la misma posición en un espacio de multicanal y tienen el mismo nivel como si fueran una sola fuente de sonido. Consecuenteme4nte, el descodificador 121 de objeto descodifica las primera y segunda señales de objeto tratándolas como una sola fuente de sonido sin descodificarles separadamente. Como resultado, disminuye la complejidad de descodificación. Además, debido a una disminución en el número de fuentes de sonido que necesitan procesarse, también disminuye la complejidad de mezcla/entrega. El aparato 120 de descodificación de audio se puede usar5 efectivamente en la situación cuando el número de señales de objeto es mayor que el número de canales de salida debido a una pluralidad de señales de objeto son altamente probables de ser asignadas a la misma posición espacial. Alternativamente, el aparato 120 de descodificación de audio se puede usar en la situación cuando la primera señal de objeto y la segunda señal de objeto se asignan a la misma posición en un espacio de multicanal pero tienen niveles diferentes. En este caso, el aparato 120 de descodificación de audio descodifica la primera y segunda señales de objeto tratando la primera y segunda señales de objeto como una sola, en lugar de descodificar las primera y segunda señales de objeto separadamente y transmitir la primera y segunda señales de objeto descodificadas al servidor 123. Más específicamente, el descodificador 121 de objeto puede obtener información respecto a la diferencia entre los niveles de las primera y segunda señales de objeto de la información de control en la información lateral modificada, y descodificar las primera y segunda señales de objeto basado en la información obtenida. Como resultado, aún cuando la primera y segunda señales de objeto tienen niveles diferentes, la primera y segunda señales de objeto se pueden descodificar como si fueran una sola fuente de sonido. Todavía alternativamente, el descodificador 121 de objeto puede ajustar los niveles de las señales de objeto generadas por el descodificador 121 de objeto de conformidad con la información de control. Luego, el descodificador 121 de objeto puede descodificar las señales de objeto cuyos niveles se ajustan. Consecuentemente, el servidor 123 no necesita ajustar los niveles de las señales de objeto descodificadas por el descodificador 121 de objeto sino simplemente dispone las señales de objeto descodificadas por el descodificador 121 de objeto en un espacio de multicanal. Brevemente, puesto que el descodificador 121 de objeto ajusta los niveles de las señales de objeto generadas por el descodificador 121 de objeto de conformidad con la información de control, el servidor 123 puede disponer fácilmente las señales de objeto generadas por el descodificador 121 de objeto en un espacio de multicanal sin necesidad de ajustar adicionalmente los niveles de las señales de objeto generadas por el descodificador 121 de objeto. Por lo tanto, es posible reducir la complejidad de mezcla/entrega . De conformidad con la modalidad de la Figura 2, el descodificador de objeto del aparato 120 de descodificación de audio puede realizar de manera adaptable una operación de descodificación a través del análisis de la información de control, reduciendo de esta manera la complejidad de descodificación y la complejidad de mezcla/entrega. Una combinación de los métodos arriba descritos realizados por el aparato 120 de descodificación de audio se puede usar. La Figura 3 es un diagrama de bloque de un aparato 130 de descodificación de audio de conformidad con una segunda modalidad de la present6e invención. Haciendo referencia a la Figura 3, el aparato 130 de descodificación de audio incluye un descodificador 131 de objeto y un servidor 133. El aparato 130 de descodificación de audio se caracteriza proporcionando información lateral no solamente al descodificador 131 de objeto sino también al servidor 133. El aparato 130 de descodificación de audio puede realizar efectivamente una operación de descodificación aún cuando haya una señal de objeto correspondiente a un periodo de silencio. Por ejemplo, la se3gunda a cuarta señales de objeto pueden corresponder a un periodo de reproducción de música durante el que se toca un instrumento musical, y una primera señal de objeto puede corresponder a un periodo de silencio durante el que se toca un acompañamiento. En este caso, la información que indica cual de una pluralidad de señales de objeto corresponde a un periodo de silencio se puede incluir en la información lateral, y la información lateral se puede proporcionar al servidor 133 asi como al descodificador 131 de objeto. El descodificador 131 de objeto puede reducir al mínimo la complejidad de descodificación al no descodificar una señal de objeto correspondiente a un período de silencio. El descodificador 131 de objeto establece una señal de objeto correspondiente a un valor de 0 y6 transmite el nivel de la señal de objeto al servidor 133. En general, las señales de objeto que tienen un valor de 0 se tratan igual que señales de objeto que tienen un valor, distinto a 0, y de esta manera se someten a una operación de mezcla/entrega. Por otra parte, el aparato 130 de descodificación de audio transmite información lateral que incluye3 información indicando cual de una pluralidad de señales de objeto corresponde a un período de silencio al servidor 33 y de esta manera puede prevenir que una señal de objeto correspondiente a un período de silencio sea sometida a una operación de mezcla/entrega realizada por el servidor 133. Por lo tanto, el aparato 130 de descodificación de audio puede prevenir un aumento innecesario en la complejidad de mezcla/entrega . El servidor 133 puede usar información de parámetro de mezcla que se incluye en información de control para localizar una imagen de sonido de cada señal de objeto en una escena estéreo. La información de parámetro de mezcla puede incluir información de amplitud solamente o ambas, información de amplitud e información de tiempo. La información de parámetro de mezcla afecta no solamente la localización de imágenes de sonido estéreo sino también la percepción psicoacüstica de una calidad de sonido espacial por un usuario.

Por ejemplo, al comparar dos imágenes de sonido que se generan usando un método de encuadramiento de tiempo y un método de encuadramiento de amplitud, respectivamente, y reproducidas en la misma ubicación usando un parlante estéreo de 2-canal, se reconoce que el método de encuadramiento de amplitud puede contribuir a una localización precisa de i9mágenes de sonido, y que el método de encuadramiento de tiempo puede proporcionar sonidos naturales con una sensación profunda de espacio. De esta manera, si el servidor 133 solamente utiliza el método de encuadramiento de amplitud para disponer señales de objeto en un espacio de multicanal, el servidor 133 puede ser capaz de localizar de manera precisa cada imagen de sonido, pero puede no ser capaz de proporcionar una sensación tan profunda de sonido como cuando se usa el método de encuadramiento de tiempo. Los usuarios en ocasiones pueden preferir una localización precisa de imágenes de sonido a una sensación profunda de sonido o viceversa, de conformidad con el tipo de fuentes de sonido. Las Figuras 4(a) y 4(b) explican la influencia de intensidad (diferencia de amplitud) y una diferencia de tiempo en la localización de imágenes de sonido como se realiza en la reproducción de señales con un parlante estéreo de 2-canal. Haciendo referencia a las Figuras 4(a) y 4(b), una imagen de sonido se puede localizar en un ángulo predeterminado de acuerdo con una diferencia de amplitud y una diferencia de tiempo que son independientes una de la otra. Por ejemplo, una diferencia de amplitud de alrededor de 8 dB o una diferencia de tiempo de alrededor de 0.5 ms, que es equivalente a la diferencia de amplitud de 8 dB, se puede usar a fin de localizar una imagen de sonido a un ángulo de 20. Por lo tanto, aún cuando solamente se proporcione una diferencia de amplitud como información de parámetro de mezclado, es posible obtener varios sonidos con diferentes propiedades convirtiendo la diferencia reamplitud en una diferencia de tiempo que es equivalente a la diferencia de amplitud durante la localización de imágenes de sonido. La Figura 5 ilustra funciones respecto a la correspondencia entre diferencias de amplitud y diferencias de tiempo que s requieren para localizar imágenes de sonido a ángulos de 10, 20 y 30. La función ilustrada en la Figura 5 se puede obtener basado en las Figuras 4(a) y 4(b). Haciendo referencia a la Figura 5, diversas combinaciones de diferencia de amplitud-diferencia de tiempo se pueden proporcionar para localizar una imagen de sonido en una posición predeterminada. Por ejemplo, supóngase que una diferencia de amplitud de 8 dB se proporciona como información de parámetro de mezclado a fin de localizar una imagen de sonido a un ángulo de 20. De conformidad con la función ilustrada en la Figura 5, una imagen de sonido también se pueden localizar en el ángulo de 20 usando la combinación de una diferencia de amplitud de 3 dB y una diferencia de tiempo de 0.3 ms. En este caso, no solamente la información de diferenta de amplitud sino también información de diferencia de tiempo se puede proporcionar como información de parámetro de mezclado, mejorando de esta manera la sensación de espacio. Por lo tanto, a fin de generar sonidos con propiedades deseadas por un usuario durante una operación de mezcla/entrega, información de parámetro de mezcla se puede convertir apropiadamente de manera que cualquiera de encuadramiento de amplitud y encuadramiento de tiempo es apropiada para que el usuario pueda realizar. Es decir, si la información de parámetro de mezcla solamente incluye información de diferencia de amplitud y el usuario desea sonidos con una sensación profunda de espacio, la información de diferencia de amplitud se puede convertir en información de diferencia de tiempo equivalente a la información de diferencia de amplitud con referencia a dato psicoacústico . Alternativamente, si el usuario desea que ambos sonidos con una sensación profunda de espacio y una localización precisa de imágenes de sonido, la información de diferencia de amplitud se puede convertir en la combinación de información de diferencia de amplitud e información de diferencia de tiempo equivalente a la información de amplitud original. Alte3rnativamente, si el usuario desea ambos sonidos con una sensación profunda de espacio y una localización precisa de imágenes de sonido, la información de diferencia de amplitud se puede convertir en la combinación de información de diferencia de amplitud e información de diferencia de tiempo equivalente a la información de amplitud original. Alternativamente, si la información de parámetro de mezcla solamente incluye información de diferencia de tiempo y un usuario prefiere una localización precisa de imágenes de sonido, la información diferencia de tiempo se puede convertir en información de diferencia de amplitud equivalente a la información de diferencia de tiempo, o se puede convertir en la combinación de información de diferencia de amplitud e información de diferencia de tiempo que puede satisfacer la preferencia del usuario mejorando tanto la precisión de localización de imágenes de sonido como la sensación de espacio. Todavía alternativamente, si la información de parámetro de mezcla incluye tanto información de diferencia de amplitud y la información de diferencia de tiempo y un usuario prefiere una localización precisa de imágenes de sonido, la combinación de la información de diferencia de amplitud y 1 información de diferencia de tiempo se puede convertir en información de diferencia de amplitud equivalente a la combinación de la información de diferencia de amplitud original y la información de diferencia de tiempo. Por otra parte, si la información de parámetro de mezcla incluye tanto información de diferencia de amplitud como información de diferencia de tiempo y un usuario prefiere la mejora de la sensación de espacio, la combinación de la información rediferencia de amplitud y la información de diferencia de tiempo se puede convertir en información de diferencia de tiempo equivalente a la combinación de la información de diferencia de amplitud y la información de diferencia de tiempo original. Haciendo referencia a la Figura 6, la información de control puede incluir información de mezcla/entrega e información armónica respecto a un o más señales de objeto. La información armónica puede incluir cuando menos una de información de paso, información de frecuencia fundamental, e información de banda de frecuencia dominante respecto a una o más señales de objeto, y descripciones de la energía y espectro de cada subbandas de cada una de las señales de objeto. La información armónica se puede usar para procesar una señal objeto durante una operación de entrega debido a que la resolución de un servidor que realiza su operación en unidades de subbandas es insuficiente. Si la información armónica incluye información de paso respecto a una o más señales de objeto, la ganancia de cada una de las señales de objeto se puede ajustar atenuando o reforzando un dominio de frecuencia predeterminado usando un filtro de peine o un filtro de peine invertido. Por ejemplo, si una de una pluralidad de señales de objeto es una señal vocal, las señales de objeto se pueden usar como un karaoke atenuando solamente la señal vocal. Alternativamente, si la información armónica incluye información de dominio de frecuencia dominante respecto a una o más señales de objeto, un proceso de atenuar o reforzar un dominio de frecuencia dominante se puede realizar. Todavía alternativamente, si la información armónica incluye información de espectro respecto a una o más señales de objeto, la ganancia de cada una de las señales de objeto se puede controlar realizando atenuación o refuerzo sin estar restringidos por ningunos límites de subbandas .

La Figura 7 es un diagrama de bloque de un aparato 140 de descodificación de audio de conformidad con otra modalidad de la presente invención. Haciendo referencia a la Figura 7, el aparato 140 de descodificación de audio usa un descodificador 141 de multicanal, en lugar de un descodificador de objeto y un servidor, y descodifica un número de señales de objeto después de que las señales de objeto se disponen apropiadamente en un espacio de multicanal . Más específicamente, el aparato 140 de descodificación de audio incluye el descodificador 141 de multicanal y un convertidor 145 de parámetro. El descodificador 141 de multicanal genera una señal de multicanal cuyas señales de objeto ya se han dispuesto en un espacio de multicanal basado en una señal de mezcla descendente e información de parámetro espacial, que es información lateral basada en canal provista por el convertidor 145 de parámetro. El convertidor 145 de parámetro analiza información lateral e información de control transmitidas por un aparato de codificación de audio (no mostrado) , y genera la información de parámetro espacial basado en el resultado del análisis. Más específicamente, el convertidor 145 de parámetro genera la información de parámetro espacial combinando la información lateral y la información de control que incluye información de establecimiento de reproducción e información de mezclado. Es decir, la conversión 145 de parámetro realiza la conversión de la combinación de la información lateral y la información de control a dato espacial correspondiente a una caja de Uno-A-Dos (OTT) o una caja de Dos-A-Tres (TTT) . El aparato 140 de descodificación de audio puede realizar operación de descodificación de multicanal hacia la que una operación de descodificación basada en objeto y una operación de mezcla/entrega se incorporan y de esta manera puede saltar la descodificación de cada señal de objeto. Por lo tanto, es posible reducir la complejidad de descodificación y/o mezclado/entrega. Por ejemplo, cuando hay 10 señales de objeto y una señal de multicanal obtenida basada en las 10 señales de objeto se va a reproducir mediante un sistema de reproducción de parlante de 5.1 canal, un aparato de descodificación deaudio basado en objeto típico genera señales descodificadas respectivamente correspondientes a las 10 señales de objeto basado en una señal de mezcla descendente e información lateral y luego genera una señal de 5.1 canal disponiendo apropiadamente las 10 señales de objeto en un espacio de multicanal de modo que las señales de objeto puedan hacerse apropiadas para un ambiente de parlante de 5.1 canal. Sin embargo, es ineficiente para generar 10 señales de objeto durante la generación de una señal de 5.1 canal, y este problema se hace más severo a medida que aumenta la diferencia entre el número de señales de objeto y el número de canales de una señal de multicanal que se va a generar. Por otra parte, de conformidad con la modalidad de la Figura 7, el aparato 140 de descodificación de audio genera información de parámetro espacial apropiada para una señal de 5.1-canal basada en información lateral e información de control y proporciona la información de parámetro espacial y una señal de mezcla descendente al descodificador 141 de multicanal. Luego, el descodificador 141 de multicanal genera una señal de 5.1-canal basada en la información de parámetro espacial y la señal de mezcla descendente. En otras palabras, cuando el número de canales a que se va dar salida es 5.1 canales, el aparato 140 de descodificación de audio puede generar fácilmente una señal de 5.1-canal basado en una señal de mezcla descendente sin necesidad de generar 10 señales de objeto y de esta manera es más eficiente que un aparato de descodificación de audio convencional en términos de complejidad.

El aparato 140 de descodificación de audio se considera eficiente cuando la cantidad de computación requerida calcula información de parámetro espacial correspondiente a cada una de la caja OTT y una caja TTT a través del análisis de información lateral e información de control transmitidas por un aparato de codificación de audio es menos que la cantidad de computación requerida para realizar una operación de mezcla/entrega después de la descodificación de cada señal de objeto. El aparato 140 de descodificación de audio se puede obtener simplemente añadiendo un módulo para generar información de parámetro espacial a través del análisis de información lateral e información de control a un aparato de descodificación de audio de multicanal típico, y de esta manera puede mantener la compatibilidad con un aparato de descodificación de audio de multicanal típico. Asimismo, el aparato 140 de descodificación de audio puede mejorar la calidad de sonido usando herramientas existentes de un aparato de descodificación de audio de multicanal típico, tal como un configurador de envolvente, una herramienta de procesamiento temporal de subbandas (STP) , y un descorrelacionado. Dado todo esto se concluye que todas las ventajas de un método de descodificación de audio de multicanal típico se pueden aplicar fácilmente a un método de descodificación de audio de objeto. La información de parámetro espacial transmitida al descodificador 141 de multicanal mediante el convertidor 145 de parámetro puede haberse comprimido de manera de ser apropiada para ser transmitida. Alternativamente, la información de parámetro espacial puede tener el mismo formato que aquel del dato transmitido por un aparato e codificación de multicanal típico. Es decir, la información de parámetro espacial puede haberse sometido a una operación de descodificación de Huffman o una operación de descodificación piloto y de esta manera se puede transmitir a cada módulo como dato de marca espacial no comprimido. El formador es apropiado para transmitir la información de parámetro espacial a un aparato de descodificación de audio de multicanal en un lugar remoto, y el último es conveniente debido a que no hay necesidad de un aparato de descodificación de audio de multicanal para convertir dato de marca espacial comprimido en dato de marca espacial no comprimido que se puede usar fácilmente en una operación de descodificació . La configuración de información de parámetro espacial basada en el análisis de información lateral e información de control puede ocasionar un retraso entre una señal de mezcla descendente y la información de parámetro espacial. A fin de dirigir esto, una memoria intermedia adicional se puede proporcionar ya sea para una señal de mezcla descendente o para información de parámetro espacial de manera que la señal dee mezcla descendente y la información de parámetro espacial se puedan sincronizar entre si. Estos métodos, sin embargo, son inconvenientes debido al requerimiento de proporcionar una memoria intermedia adicional. Alternativamente, la información lateral se puede transmitir antes de una señal de mezcla descendente en consideración a la posibilidad de ocurrencia de un retraso entre una señal de mezcla descendente e información de parámetro espacial. En este caso, la información de parámetro espacial obtenida combinando la información lateral y la información de control no necesita ajustarse sino que se puede usar fácilmente. Si una pluralidad de señales de objeto de una señal de mezcla descendente tienen niveles diferentes, un módulo de ganancias de mezcla descendente artística .(ADG) que puede compensar directamente la señal de mezcla descendente puede determinar los niveles relativos de las señales de objeto, y cada una de las señales de objeto se puede asignar a una posición predeterminada en un espacio de multicanal usando dato de marca espacial tal como información de diferencia de nivel de canal, información de correlación de intercanal (ICC) e información de coeficiente de predicción de canal (CPC) . Por ejemplo, si la información de control indica que una señal de objeto predeterminada se va a asignar a una posición predeterminada en un espacio de multicanal y tiene un nivel más elevado que otras señales de objeto, un descodificador de multicanal típico puede calcular la diferencia entre las energías de canales de una señal de mezcla descendente, y dividir la señal de mezcla descendente en un número de canales de salida basado en los resultados del cálculo. Sin embargo, un descodificador de multicanal típico no puede aumentar ni reducir el volumen de un cierto sonido en una señal de mezcla descendente. En otras palabras, un descodificador de multicanal típico simplemente distribuye una señal de mezcla descendente a un número de canales de salida y de esta manera no puede aumentar ni reducir el volumen de un sonido en la señal de mezcla descendente. Es relativamente sencillo asignar cada uno de un número de señales de objeto de una señal de mezcla descendente generada por un codificador de objeto a una posición predeterminada en un espacio de multicanal de conformidad con la información de control. Sin embargo, se requieren técnicas especiales para aumentar o reducir la amplitud de una señal de objeto predeterminada. En otras palabras, si una señal de mezcla descendente generada por un codificador de objeto se usa como está, es difícil reducir la amplitud de cada señal de objeto de la señal de mezcla descendente . Por lo tanto, de conformidad con una modalidad de la presente invención, las amplitudes relativas de las señales de objeto se puede variar de conformidad con la información de control usando un módulo 147 de ADG ilustrado en la Figura 8. Más específicamente, la amplitud de cualquiera de una pluralidad de señales de objeto de una señal de mezcla descendente transmitida por un codificador de objeto se puede aumentar o reducir usando el módulo 147 de ADG. Una señal de mezcla descendente obtenida mediante compensación realizada por el módulo 147 de ADG se puede someter a descodificación de multicanal. Si las amplitudes relativas de señales de objeto de una señal de mezcla descendente están apropiadamente ajustadas usando el módulo 147 de ADG, es posible realizar descodificación de objeto usando un descodificador de multicanal típico. Si una señal de mezcla descendente generada por un codificador de objeto es una señal mono o estéreo o una señal de multicanal con tres o más canales, la señal de mezcla descendente se puede procesar por el módulo 147 de ADG. Si una señal de mezcla descendente generada por un codificador de objeto tiene dos o más canales y una señal de objeto predeterminada que necesita ajustarse por el módulo 147 de ADG solamente existe en uno de los canales de la señal de mezcla descendente, el módulo 147 de ADG se puede aplicar solamente a los canales que incluyen la señal de objeto predeterminada, en lugar de ser aplicado a todos los canales de la señal de mezcla descendente. Una señal de mezcla descendente procesada por el módulo 147 de ADG en la forma arriba descrita se puede procesar fácilmente usando un descodi icador de multicanal típico sin la necesidad de modificar la estructura del descodificador de multicanal. Aún cuando una señal de salida final no sea una señal de multicanal que se pueda reproducir por un parlante de multicanal pero es una señal biaural, el módulo 147 de ADG se puede usar para ajustar las amplitudes relativas de las señales de objeto de la señal de salida final. Alternativamente al uso del módulo 147 de ADG, información de ganancia que especifica un valor de ganancia que se va a aplicar a cada señal de objeto se puede incluir en información de control durante la generación de un número de señales de objeto. Para esto, la estructura de un descodificador de multicanal típico se puede modificar. Aún cuando se requiera una modificación a la estructura de un descodificador de multicanal existente, este método es conveniente en términos de reducir la complejidad de descodificar aplicando un valor de ganancia a cada señal de objeto durante una operación de descodificación sin la necesidad de calcular ADG y de compensar para cada señal de objeto. La Figura 9 es un diagrama de bloque de un aparato 150 de descodificación de audio de conformidad con una cuarta modalidad de la presente invención. Haciendo referencia a la figura 9, el aparato 150 de descodificación de audio se caracteriza por generar una señal biaural. Más específicamente, el aparato 150 de descodificación de audio incluye un descodificador 1512 biaural de multicanal, un primer convertidor 157 de parámetro y un segundo convertidor 159 de parámetro. El segundo convertidor 159 de parámetro analiza información lateral e información de control que se proporcionan por un aparato de codificación de audio, y configura la información de parámetro espacial basado en el resultado del análisis. El primer convertidor 157 de parámetro configura información de parámetro biaural, que se puede usar por el descodificador 151 biaural de multicanal, añadiendo información tridimensional (3D) tal como parámetros de función de transferencia relacionada con cabeza (HRTF) a la información de parámetro espacial. El descodificador 151 biaural de multicanal genera una señal tridimensional (3D) virtual aplicando la información de parámetro 3D virtual a una señal de mezcla descendente. El primer convertidor 157 de parámetro y el segundo convertidor 159 de parámetro se pueden reemplazar por un solo módulo, es decir, un módulo 155 de conversión de parámetro que recibe la información lateral, la información de control, y los parámetros HRTF y configura la información de parámetro biaural basado en la información lateral, la información de control, y los parámetros de HRTF. Convencionalmente, a fin de generar una señal biaural para la reproducción de una señal de mezcla descendente que incluye 10 señales de objeto con un casco telefónico, una señal de objeto debe generar 10 señales descodificadas respectivamente correspondientes a las 10 señales de objeto basado en la señal de mezcla descendente e información lateral. A continuación, el servidor asigna cada una de las 10 señales de objeto a una posición predeterminada en un espacio de multicanal con referencia a información de control de manera de ser apropiada a un ambiente de parlante de 5-canal. A continuación, el servidor genera una señal de 5-canal que se puede reproducir usando un parlante de 5-canal. A continuación, el servidor aplica parámetros de HRTF a la señal de 5-canal, generando de esta manera una señal de 2-canal. Brevemente, el método de descodificación de audio convencional arriba mencionado incluye reproducir 10 señales de objeto, convertir las 10 señales de objeto en una señal de 5-canal, y generar una señal de 2-canal basado en la señal de 5-canal, y de esta manera es ineficiente. Por otra parte, el aparato 150 de descodificación de audio puede generar fácilmente una señal biaural que se puede reproducir usando un casco telefónico basado en señales de audio de objeto. Además, el aparato 150 de descodificación de audio configura información de parámetro espacial a través del análisis de información lateral e información de control, y de esta manera puede generar una señal biaural usando un descodificador biaural de multicanal típico. Además, el aparato 150 de descodificación de audio todavía puede usar un descodificador biaural de multicanal típico aún cuando esté equipado con un convertidor de parámetro incorporado que recibe información lateral, información de control y parámetros de HRTF y configura la información de parámetro biaural basado en la información lateral, la información de control y los parámetros de HRTF. La Figura 10 es un diagrama de bloque de un aparato 160 de descodificación de audio de conformidad con una quinta modalidad de la presente invención. Haciendo referencia a la figura 10, el aparato 160 de descodificación de audio incluye un procesador 161 de mezcla descendente, un descodificador 163 de multicanal, y un convertidor 165 de parámetro. El procesador 161 de mezcla descendente y el convertidor 163 de parámetro se pueden reemplazar por un solo módulo 167. El convertidor 165 de parámetro genera información de parámetro espacial, que se puede usar por el descodificador 163 de multicanal, e información de parámetro, que se puede usar por el procesador 161 de mezcla descendente. El procesador 161 de mezcla descendente reali8za una o9peración de procesamiento previo en una señal de mezcla descendente, y transmite una señal de mezcla descendente que resulta de la operación de procesamiento previo al descodificador 163 de multicanal. El descodificador 163 de multicanal realiza una operación de descodificación en la señal de mezcla descendente transmitida por el procesador4 161 de mezcla descendente, dando salida de esta manera a una señal estéreo, una señal estéreo biaural o una señal de multicanal. Ejemplos de la operación de procesamiento previo relazada por el procesador 161 de mezcla descendente incluyen la modificación o conversión de una señal de mezcla descendente en un dominio de tiempo o un dominio de frecuencia usando filtración. Si una entrada de señal de mezcla descendente al aparato 160 de descodificación de audio es una señal estéreo, k la señal de mezcla descendente puede haberse sometido a procesamiento previo de mezcla descendente realizado por el procesador 161 de mezcla descendente antes de tener entrada al descodificador 163 de multicanal debido a que el descodificador 163 de multicanal no puede mapear un componente de la señal de mezcla descendente correspondiente a un canal izquierdo, que es uno de múltiples canales, a un canal derecho, que es otro de los múltiples canales. Por lo tanto, a fin de desplazar la posición de una señal de objeto clasificada hacia el canal izquierdo a la dirección del canal derecho, la entrada de señal de mezcla descendente al aparato 160 de descodificación de audio puede ser procesada previamente por el procesador 161 de mezcla descendente, y la señal de mezcla descendente previamente procesada puede tener entrada al descodificador 163 de multicanal . El procesamiento previo de una señal de mezcla descendente estéreo se puede realizar basado en información de procesamiento previo obtenida de la información lateral y de la información de control. La Figura 11 es un diagrama de bloque de un aparato 170 de descodificación de audio de conformidad con una sexta modalidad de la presente invención. Haciendo referencia a la Figura 11, el aparato 170 de descodificación de audio incluye un descodificador 171 de multicanal, un procesador 173 de canal y un convertidor 175 de parámetro. El convertidor 175 de parámetro genera información de parámetro espacial, que se puede usar por el descodificador 173 de multicanal, e información de parámetro, que se puede usar por el procesador 173 de canal. El procesador 173 de canal realiza una operación de procesamiento posterior en una señal salida por el descodificador 173 de multicanal. Ejemplos de la señal salida por el descodificador 173 de multicanal incluyen una señal estéreo, una señal estéreo biaural y una señal de multicanal. Ejemplos de la operación de procesamiento posterior realizada por el procesador 173 posterior incluyen la modificación y conversión de cada canal o todos los canales de una señal de salida. Por ejemplo, si la información lateral incluye información de frecuencia fundamental respecto a una señal de objeto predeterminada, el procesador 173 de canal puede remover los componentes armónicos de la señal de objeto predeterminada con referencia a la información de frecuencia fundamental. Un método de descodificación de audio de multicanal puede no ser suficientemente eficiente para usarse en un sistema de karaoke. Sin embargo, si la información de frecuencia fundamental respecto a señales de objeto vocal se incluye en información lateral y componentes armónicos de las señales de objeto vocal se remueven durante una operación de procesamiento posteri9or es posible realizar un sistema de karaoke usando la modalidad de la Figura 11. La modalidad de la Figura 11 también se puede aplicar a señales de objeto, distintas a señales de objeto vocal. Por ejemplo, es posible remover el sonido de un instrumento musical predeterminado usando la modalidad de la figura 11. Asimismo, es posible amplificar componentes armónicos predeterminados usando información de frecuencia fundamental respecto a señales de objeto utilizando la modalidad de la Figura 11. El procesador 173 de canal puede realizar procesamiento de efecto adicional en una señal de mezcla descendente. Alternativamente, el procesador 173 de canal puede añadir una señal obtenida por el procesamiento de efecto adicional a una señal salida por el descodificador 171 de multicanal. El procesador 173 de canal puede cambiar el espectro de un objeto o modificar una señal de mezcla descendente siempre que sea necesario. Si no es apropiado realizar directamente una operación de procesamiento de efecto tal como reverberación en una señal de mezcla descendente y transmitir una señal obtenida por la operación de procesamiento de efecto al descodificador 171 de multicanal, el procesador 173 de mezcla descendente puede añadir la señal obtenida por la operación de procesamiento de efecto a la salida del descodificador 171 de multicanal, en lugar de realizar procesamiento de efecto en la señal de mezcla descendente. El aparato 170 de descodificación de audio se puede diseñar para incluir no solamente el procesador 173 de canal sino también un procesador de mezcla descendente. En este caso, el procesador de mezcla descendente puede disponerse en frente del descodificador 173 de multicanal, y el procesador 173 de canal se puede disponer detrás del descodificador 173 de multicanal.

La Figura 121 es un diagrama de bloque de un aparato 210 de descodificación de audio de conformidad con una séptima modalidad de la presente invención. Haciendo referencia a la Figura 12, el aparato 210 de descodificación de audio utiliza un descodificador5 213 de multicanal en lugar de un descodificador de objeto. Más específicamente, el aparato 210 de descodificación de audio incluye el descodificador 213 de multicanal, un transcodificador 215, un servidor 217, k y6 una base 217 de datos de información 3D. El servidor 217 determina las posiciones 3D de una pluralidad de señales de objeto basado en información 3D correspondiente al dato de índice incluido en la información de control. El transcodificador 215 genera información lateral basada en canal sintetizando información de posición respecto a un número de señales de audio de objeto a las que la información 3D se aplica por el servidor 217. El descodificador 213 de multicanal da salida a una señal 3D aplicando la información lateral basada en canal a una señal de mezcla descendente. Una función de transferencia relacionada con cabeza (HRTF) se puede usar comjo la información 3D. Una HRTF es una función de transferencia que describe la transmisión de ondas de sonido entre una fuente de sonido en una posición arbitraria y el tambor de oido, y regresa un valor que varia de acuerdo co la dirección y altitud de la fuente de sonido. Si una señal sin directividad se filtra usando la HRTF, la señal puede ser oída como si fuera reproducida desde una cierta dirección. Cuando una corriente de bits de entrada se recibe, el aparato 210 de descodificación de audio extrae una señal de mezcla descendente basada en objeto e información de parámetro basada en objeto de la corriente de bits de entrada usando un desmultiplexor (no mostrado) . Luego, el servidor 217 extrae dato de índice de la información de control, que se usa para determinar las posiciones de una pluralidad de señales de audio de objeto, y retira información 3D correspondiente al dato de índice extraído de la base 219 de datos de información 3D. Más específicamente, la información de parámetro de mezcla, que se incluye en información de control que se usa por el aparato 210 de descodificación de audio puede incluir no solamente información de nivel sino tambié3n dato de índice necesario para buscar información 3D. La información de parámetro de mezcla también puede incluir información de tiempo respecto a la diferencia de tiempo entre canales, información de posición y uno o más parámetros obtenidos combinando apropiadamente la información de nivel y la información de tiempo. La posición de una señal de audio de objeto se puede determinar inicialmente de acuerdo con información de parámetro de mezcla de falla, y se puede cambiar posteriormente aplicando información 3D correspondiente a una posición deseada por un usuario a la señal de audio de objeto. Alternativamente. Si el usuario desea aplicar un efecto 3D solamente a varias señales de audio de objeto, la información de nivel y la información de tiempo respecto a otras señales de audio de objeto a las que el usuario no desea aplicar un efecto 3D se pueden usar como información de parámetro de mezcla. El transcodificador 217 genera información lateral basda en canal respecto a M canales sintetizando información de parámetro basada en objeto respecto a N señales de objeto transmitidas por un aparato de codificación de audio e información de posición de un número de señales de objeto a las que la información 3D tal como una HRTF se aplica por el servidor 217. El descodificador 213 de multicanal genera una señal de audio basado en una señal de mezcla descendente y la información lateral basada en canal provista por el transcodificador 217, y genera una señal de multicanal 3D realizando una operación de entrega de 3D usando información 3D incluida en la información lateral basada en canal. La Figura 13 es un diagrama de bloque de un aparato 220 de descodificación de audio de conformidad con una octava modalidad de la presente invención. Haciendo referencia a la Figura 13, el aparato 220 de descodificación de audio es diferente del aparato 210 de descodificación de audio ilustrado en la Figura 12 en que un transcodificador 225 transmite información lateral basada en canal e información 3D separadamente a un descodificador 223 de multicanal. En otras palabras, el transcodificador 225 del aparato 220 de descodificación de audio obtiene información lateral basada en canal respecto a M canales de información de parámetro basada en objeto respecto a N señales de objeto y transmite la información lateral basada en canal e información 3D, que se aplica a cada una de las N señales de objeto, al descodificador 223 de multicanal, mientras que el transcodificador 217 del aparato 210 de descodificación de audio transmite información lateral basada en canal que incluye información 3D al descodificador 213 de multicanal. Haciendo referencia a la Figura 14, la información lateral basada en canal e información 3D pueden incluir una pluralidad de índices de cuadro. De esta manera, el descodificador 223 de multicanal puede sincronizar la información lateral basada en canal y la información 3D con referencia a los índices de cuadro de cada una de la información lateral basada en canal y la información 3D, y de esta manera pede aplicar información 3D a un cuadro de una corriente de bits correspondiente a la información 3D. Por ejemplo, la información 3D que tiene el índice 2 se puede aplicar al principio del cuadro 2 que tiene el índice 2. Puesto que la información lateral basada en canal e información 3D ambas incluyen índices de cuadro, es posible determinar efectivamente una posición temporal de la información lateral basada en canal a la que la información 3D se va a aplicar, aún cuando la información 3D esté actualizada con el tiempo. En otras palabras, el transcodi icador 225 incluye información 3D y un número de índices de cuadro en información lateral basada en canal y6, de esta manera el descodificador 223 de multicanal puede sincronizar fácilmente la información lateral basada en canal y la información 3D. El procesador 231 de mezcla descendente, el transcodificador 235, el servidor 237 y la base de datos de información 3D se pueden reemplazar por un solo módulo 239. La Figura 15 es un diagrama de bloque de un aparato 230 de descodificación de audio de conformidad con una novena modalidad de la presente invención. Haciendo referencia a la Figura 15, el aparato 230 de descodificación de audio se diferencia del aparato 220 de descodificación de audio ilustrado en la Figura 14 por incluir además un procesador 231 de mezcla descendente. Más específicamente, el aparato 230 de descodificación de audio incluye un transcodificador 235, un servidor 237, una base 239 de datos de información 3D, un descodificador 233 de multicanal, y el procesador 231 de mezcla descendente. El transcodificador 235, el servidor 237, la base 239 de datos de información 3D y el descodificador 233 de multicanal son los mismos que sus contrapartes respectivas ilustradas en la Figura 14. El procesador 231 de mezcla descendente realiza una operación de procesamiento previo en una señal de mezcla descendente estéreo para ajuste de posición. La base 239 de datos de información 3d se puede incorporar con el servidor 237. Un módulo para aplicar un efecto predeterminado a una señal de mezcla descendente también se puede proporcionar en el aparato 230 de descodificación de audio.

La Figura 16 ilustra un diagrama de bloque de un aparato 240 de descodificación de audio de conformidad con una décima modalidad de la presente invención. Haciendo referencia a la Figura 16, el aparato 240 de descodificación de audio se diferencia del aparato 230 de descodificación de audio ilustrado en la Figura 15 porque incluye un combinador 241 de unidad de control de multipunto. Es decir, el aparato 240 de descodificación de audio, como el aparato 230 de descodificación de audio, incluye un procesador 243 de mezcla descendente, un descodificador 244 de multicanal, un tanscodificador 245, un servidor 247, y una base 249 de datos de información 3D. El combinador 241 de unidad de control de multipunto combina una pluralidad de corrientes de bits obtenidas mediante4 codificación basada en objeto, obteniendo de esta manera una sola corriente de bits. Por ejemplo, cuando una primera corriente dee bits para una primera se3ñal de audio y una segunda corriente de bits para una segunda señal de audio tienen entrada, el combinador 241 de unidad de control de multipunto extrae una primera señal de mezcla descendente de la primera corriente de bits, extrae una segunda señal de mezcla descendente de la segunda corriente de bits y genera una tercera señal de mezcla descendente combinando la primera y segunda señales de mezcla descendente. Además, el combinador 241 de unidad de control de multipunto extrae una primera información lateral basada en objeto de la primera corriente de bits, extrae segunda información lateral basada en objeto de la segunda corriente de bits, y genera tercera información lateral basada en objeto combinando la primera información lateral basada en objeto y la segunda información basada en objeto. A continuación, el combinador 241 de unidad de control de multipunto genera una corriente de bits combinando la tercera señal de mezcla descendente y la tercera información lateral basada en objeto y da salida a la corriente de bits generada. Por lo tanto, de conformidad con la décima modalidad de la presente invención, es posible procesar eficientemente señales pares transmitidas por dos o más socios de comunicación comparada con el caso de codificar o descodificar cada señal de objeto. A fin de que el combinador 241 de unidad de control de multipunto pueda incorporar una pluralidad de señales de mezcla descendente, que se extraen respectivamente de una pluralidad de corrientes de bits y están asociadas con diferentes codificaciones de compresión, en una sola señal de mezcla descendente, las señales de mezcla descendente pueden necesitar se3r convertidas en señales de modulación de código de impulso (PCM) o señales en un dominio de frecuencia predeterminada de conformidad con los tipos de las codificaciones de compresión de las señales de mezcla descendente, las señales de PCM o las señales obtenidas mediante la conversión pueden necesitar combinarse juntas, y una señal obtenida por la combinación pude necesitar ser convertida usando una codificación de compresión pr3edterminada . En este caso, puede ocurrir un retraso de acuerdo con si las señales de mezcla descendente se incorporan en una señal de PCM o en una señal del dominio de frecuencia predeterminado. El retraso, sin embargo, puede no ser capaz de calcularse apropiadamente por un descodificador . Por lo tanto, el retraso puede necesitar ser incluido en una corriente de bits y transmitido junto con la corriente de bits. El retraso puede indicar el número de muestras de retraso en la señal de PCM o el número de muestras de retraso en el dominio de frecuencia predeterminado. Durante una operación de codificación de audio basada en objeto, un número considerable de señales de entrada en ocasiones puede necesitar ser procesado comparado con el número de señales de entrada generalmente procesadas durante una operación de codificación de multicanal tipica 8v.gr., una operación de codificación de 5.1-canal o 7.1-canal) . Por lo tanto, el método de codificación de audio basado en objeto requiere biestratos mucho más elevados que un método de codificación de audio de multicanal basado en canal. Sin embargo, puesto que un método de codificación de audio basado en objeto involucra el procesamiento de señales de objeto que son menores que las señales de canal, es posible generar señales de salida dinámicas usando un método de codificación de audio basado en objeto. Un método de codificación de audio de conformidad con una modalidad de la presente invención se describirá a continuación con detalle con referencia a las Figuras 17 a 20. En un método de codificación de audio basado en objeto, las señales de objeto se pueden definir para representar sonidos individuales tales como la voz de un humano o el sonido de un instrumento musical. Alternativamente, los sonidos que tienen características similares tales como los sonidos de instrumentos musicales de cuerda (v.gr., un violín, una viola, y un chelo), sonidos pertenecientes a la misma banda de frecuencia, o sonidos clasificados en la misma categoría de conformidad con las direcciones y ángulos de sus fuentes de sonido, se pueden agrupar juntos, y definirse por las mismas señales de objeto. Todavía alternativamente, las señales de objeto se pueden definir usando la combinación de los métodos arriba descritos . Un número de señales de objeto se puede transmitir como una señal de mezcla descendente e información lateral. Durante la creación de información que se va a transmitir, la energía o potencia de una señal de mezcla descendente o cada una de una pluralidad de señales de objeto de la señal de mezcla descendente se calcula originalmente con el propósito de detectar el envolvente de la señal de mezcla descendente. Los resultados del cálculo se pueden usar para transmitir las señales de objeto o la señal de mezcla descendente o para calcular la relación de los niveles de las señales de objeto. Un algoritmo de codificación predictiva lineal (LPC) se puede usar para reducir bistratos. Más específicamente, un número de coeficientes de LPC que representan el envolvente de una señal se generan a través del análisis de la señal, y los coeficientes de LPC se transmite, en lugar de transmitir información de envolvente respecto a la señal. Este método es eficiente en términos de bistratos. Sin embargo, puesto que los coeficientes LPC muy probablemente son discrepantes del envolvente real de la señal, este método requiere un proceso de adición tal como corrección de error. Brevemente, un método que 9involucra transmitir información de envolvente de una señal puede garantizar una alta calidad de sonido, pero resulta en un aumento considerable en la cantidad de información que necesita ser transmitida. Por otra parte, un método que involucra el uso de coeficientes LPC puede reducir la cantidad de información que necesita ser transmitida, pero requiere un proceso adicional tal como corrección de error y resulta en una disminución en la calidad de sonido. De conformidad con una modalidad de la presente invención, una combinación de estos métodos se puede usar. En otras palabras, el envolvente de una señal se puede representar por la energía o potencia de la señal o un valor de índice u otro valor tal como un coeficiente LPC correspondiente a la energía o potencia de la señal. La información de envolvente respecto a una señal se puede obtener en unidades de secciones temporales o secciones de frecuencia. Más específicamente, haciendo referencia a la Figura 17, la información de envolvente respecto a una señal se puede obtener en unidades de cuadros. Alternativamente, si una señal se representa por una estructura de banda de frecuencia usando un bando de filtro tal como un banco de filtro de espejo de cuadratura (QMF) , la información de envolvente respecto a una señal se puede obtener en unidades de subbandas de frecuencia, divisiones de subbandas de frecuencia que son entidades menores que las subbandas de frecuencia, grupos de subbandas de frecuencia o grupos de divisiones de subbandas de frecuencia. Todavía alternativamente, una combinación del método basado en cuadro, el método basado en subbandas de frecuencia, y el método basado en división de subbandas de frecuencia se pueden usar dentro del alcance de la presente invención. Todavía alternativamente, dado que los componentes de baja frecuencia de una señal generalmente tienen más información que los componentes de alta frecuencia de la señal, la información de envolvente respecto a componentes de baja frecuencia de una señal se puede transmitir como está, mientras que la información de envolvente respecto a componentes de alta frecuencia de la señal se pueden representar mediante coeficientes LPC u otros valores y los coeficientes LPC o los otros valores se pueden transmitir en lugar de la información de envolvente respecto a los componentes de alta frecuencia de la señal. Sin embargo, los componentes de baja frecuencia de una señal pueden no tener necesariamente más información que los componentes de alta frecuencia de la señal. Por lo tanto, el método arriba descrito se debe aplicar flexiblemente de acuerdo con las circunstancias. De conformidad con una modalidad de la presente invención, la información de envolvente o dato de índice correspondiente a una porción (a continuación referida como la porción dominante) de una señal que aparece dominante en un eje de tiempo/frecuencia se puede transmitir, y ninguna de la información de envolvente y dato de índice correspondiente a una porción no dominante de la señal se puede transmitir. Alternativamente, valores 8v.gr., coeficientes LPC) que representan la energía y potencia de la porción dominante de la señal se pueden transmitir, y ninguno de dichos valores correspondientes a la porción no dominante de la señal se puede transmitir. Todavía alternativamente, la información de envolvente o dato de índice correspondiente a la porción dominante de la señal se puede transmitir, y los valores que representan la energía o potencia de la porción no dominante de la señal se pueden transmitir. Todavía alternativamente, la información solamente respecto a la porción dominante de la señal se puede transmitir de modo que la porción no dominante de la señal se pueda calcular basado en la información respecto a la porción domi9nante de la señal.

Todavía alternativamente, se puede usar una combinación de los métodos arriba descritos. Por ejemplo, haciendo referencia a la figura 18, si una señal se divide en un período dominante y un período no dominante, la información respecto a la señal se puede transmitir en cuatro maneras diferentes, como se indica mediante (a) a (d) . A fin de transmitir un número de señales de objeto como la combinación de una señal de mezcla descendente e información lateral, la señal de mezcla descendente necesita ser dividida en una pluralidad de elementos como parte de una operación de descodificación, por ejemplo, en consideración a la relación de los niveles de las señales de objeto. A fin de garantizar independencia entre los elementos de la señal de mezcla descendente, necesita realizarse adicionalmente una operación de descorrelación. Otras señales que son las unidades de codificación en un método de codificación basado en objeto tienen más independencia que las señales de canal que son las unidades de codificación en un método de codificación de multicanal. En otras palabras, una señal de canal incluye un número de señales de objeto, y de esta manera necesita ser descorrelacionada. Por otra parte, las señales de objeto son independientes una de la otra, y de esta manera, la separación de canal se puede realizar fácilmente usando las características de las señales de objeto sin un requerimiento de una operación de descorrelación. Más específicamente, haciendo referencia a la figura 19, las señales de objeto A, B, 1 y C toman turnos para aparecer dominantes en un eje de frecuencia. En este caso, no hay necesidad de dividir una señal de mezcla descendente en un número de señales de acuerdo con la relación de los niveles de las señales de objeto A, B, y C y para realizar descorrelación. En su lugar, la información respecto a los períodos dominantes de las señales de objeto a, B, y C se pueden transmitir, o un valor de ganancia se puede aplicar a cada componente de frecuencia de cada una de las señales de objeto A, B, y C, saltando de esta manera la descorrelación. Por lo tanto, es posible reducir la cantidad de compu5tación y reducir el biestrato por la cantidad que de otra manera se habría requerido por información lateral necesaria para descorrelación. Brevemente, a fin de saltar la descorrelación, que se realiza de manera de garantizar independencia entre un número de señales obtenidas dividiendo una señal de mezcla descendente de acuerdo con la relación de las relaciones de señales de objeto de la señal de mezcla descendente, información respecto a un dominio de frecuencia que incluye cada señal de objeto se puede transmitir como información lateral. Alternativamente, diferentes valores de ganancia se pueden aplicar a un periodo dominante durante el cual cada señal de objeto aparece dominante y un periodo no dominante durante el que cada señal de objeto aparece menos dominante y, de esta manera, la información respecto al periodo dominante se puede proporcionar principalmente como información lateral. Todavía alternativamente, la información respecto al período dominante se puede transmitir como información lateral, y ninguna información respecto al período no dominante se pueda transmitir. Todavía alternativamente, una combinación de los métodos arriba descritos que son alternativas a un método de descorrelación se puede usar. Los métodos arriba descritos que son alternativas a un método de descorrelación se pueden aplicar a todas las señales de objeto o solamente a algunas señales de objeto con períodos dominantes fácilmente distinguibles. Asimismo, los métodos arriba descritos que son alternativas a un método de descorrelación se pueden aplicar variablemente en unidades de cuadro.

La codificación de señales de audio de objeto usando una señal residual se describirá con detalle a continuación. En general, en un método de codificación de audio basado en objeto, un número de señales de objeto se codifican, y los resultados de la codificación se transmiten como la combi nación de una señal de mezcla descendente e información lateral. Luego, un número de señales de objeto se restauran de la señal de mezcla descendente a través de descodificación de conformidad con la información lateral, y las señales de objeto restauradas se mezclan apropiadamente, por ejemplo, a la solicitud de un usuario de acuerdo con la información de control, generando de esta manera una señal de canal final. Un método de codificación de audio basado en objeto generalmente se dirige a variar libremente una señal de canal de salida de acuerdo con la información de control con la ayuda de un mezclador. Sin embargo, un método de codificación de audio basado en objeto también se puede usar para generar una salida de canal de una manera predefinida independientemente de la información de control. Para esto, la información lateral puede incluir no solamente información necesaria para obtener un número de señales de objeto de una señal de mezcla descendiente pero también información de parámetro de mezcla necesaria para generar una señal de canal. De esta manera, es posible generar una señal de salida de canal final sin la ayuda de un mezclador. En este caso, dicho algoritmo como codificación residual se puede usar para mejorar la calidad de sonido. Un método de codificación residual típico incluye codificar una señal y codificar el error entre la señal codificada y la señal original, es decir, una señal residual. Durante una operación de descodificación, la señal codificada se descodifica mientras que se compensa por el error entre la señal codificada y la señal original, restaurando de esta manera una señal que es tan similar a la señal original como es posible. Puesto que el error entre la señal codificada y la señal original es generalmente inconsiderable, es posible reducir la cantidad de información adicionalmente necesaria para realizar codificación residual. Si una salida de canal final de un descodificador es fija, no solamente información de parámetro de mezcla necesaria para generar un señal de canal final sino también información de codificación residual se puede proporcionar como información lateral. En este caso, es posible mejorar la calidad de sonido. La Figura 20 es un diagrama de bloque de un aparato 310 de codificación de audio de conformidad con una modalidad de la presente invención. Haciendo referencia a la Figura 20, el aparato 310 de codificación de audio se caracteriza por usar una señal residual. Más específicamente, el aparato 310 de codificación de audio incluye un codificador 311, un descodificador 313, un primer mezclador 315, un segundo mezclador 319, un sumador 317 y un generador 321 de corriente de bits. El primer mezclador 315 realiza una operación de mezclado en una señal original, y el segundo mezclador 319 realiza una operación de mezclado en una señal obtenida realizando una operación de codificación y luego una operación de descodificación en la señal original. El sumador 317 calcula una señal residual entre una señal salida por el primer mezclador 315 y una señal salida por el segundo mezclador 319. El generador 321 de corriente de bits añade la señal residual a información lateral y transmite el resultado de la adición. De esta manera, es posible mejorar la calidad de sonido. El cálculo de una señal residual se puede aplicar a todas las porciones de una señal o solamente para porciones de baja frecuencia de una señal. Alternativamente, el cálculo de una señal residual se puede aplicar variablemente solo a dominios de frecuencia que incluyen señales dominantes en una base de cuadro por cuadro. Todavía alternativamente, se puede usar una combinación de los métodos arriba descritos. Puesto que la cantidad de información lateral que incluye información de señal residual es mucho mayor que la cantidad de información lateral que no incluye información de señal residual, el cálculo de una señal residual se puede aplicar solamente a algunas porciones de una señal que afectan directamente la calidad de sonido, previniendo de esta manera un aumento excesivo en bistrato. La presente invención se puede realizar como código legible por computadora escrito en un medio de registro legible por computadora. El medio de regi8stro legible por computadora puede ser cualquier tipo de dispositivo de registro en el que el dato se almacena de una manera legible por computadora. Ejemplos del medio de registro legible por computadora incluyen una ROM, una RAM, una CD-ROM, una cinta magnética, un disco suave, un almacenamiento de datos ópticos, y una onda portadora (v.gr., transmisión de datos a través del Internet) . El medio de registro legible por computadora se puede distribuir a través de una pluralidad de sistemas de computadora conectados a una red de manera que el código legible por computadora esté escrito al mismo y se ejecute del mismo de una manera descentralizada. Los programas funcionales, código, segmentos de código necesarios para realizar la presente invención se pueden construir fácilmente por uno de experiencia ordinaria en el ramo. Aplicabilidad Industrial Como se describe arriba, de conformidad con la presente invención, imágenes de sonido son localizadas para cada señal de audio de objeto beneficiándose de las ventajas de métodos de codificación y descodificación de audio basados en objeto. De esta manera es posible ofrecer sonidos más realistas a través de la reproducción de señales de audio de objeto. Además, la presente invención se puede aplicar a juegos interactivos, y de esta manera puede proporcionar a un usuario con una experiencia de realidad virtual más realista. Mientras que la presente invención se ha mostrado y descrito particularmente con referencia a modalidades de ejemplo de la misma, se entenderá por aquellos de experiencia ordinaria en el ramo que se pueden hacer varios cambios en forma y detalles en la misma sin abandonar el espíritu y alcance de la presente invención como se define por las siguientes reivindicaciones.

Claims

REIVINDICACIONES 1.- Un método de descodificación de audio que comprende : extraer una señal de mezcla descendente e información lateral basada en objeto de una señal de audio; generar una señal de mezcla descendente modificada basada en la señal de mezcla descendente y la información extraída de la información lateral basada en objeto; generar información lateral basada en canal basada en la información lateral basada en objeto y dato de control para entregar la señal de mezcla descendente; y generar una señal de audio de multicanal basada en la señal de mezcla descendente modificada y la información lateral basada en canal.
2.- El método de descodificación d audio de conformidad con la reivindicación 1, en donde la información lateral basada en objeto comprende cuando menos una de información de diferencias de nivel de objeto, información e correlación cruzada de interobjeto, información de ganancia de mezcla descendente, información de diferencia de nivel de canal de mezcla descendente, e información de energía de objeto absoluta.
3.- El método de descodificación de audio de conformidad con la reivindicación 1, en donde la información extraída comprende cuando menos una de información de envolvente, información de agrupación, información de ganancia, información de período de silencio, información de diferencia de nivel e información de señal residual de señales de objeto.
4. - El método de descodi icación de audio de conformidad con la reivindicación3 , en donde la información de envolvente comprende cuando menos una de información de coeficiente de codificación predictiva lineal (LPC) , información de energía e información de potencia.
5. - El método de descodificación de audio de conformidad con la reivindicación 3, en donde la información de envolvente comprende información respecto a envolventes de porciones de señales de objeto que aparecen dominantes en un eje de tiempo/frecuencia.
6. - El método de descodificación de audio de conformidad con la reivindicación 1, en donde la información lateral basada en objeto comprende información respecto a un retraso entre la señal de mezcla descendente y la información lateral basada en objeto.
7. - El método de descodificación de audio de conformidad con la reivindicación 1, en donde la información lateral basada en objeto comprende información que indica si la señal de audio se ha producido ya sea por codificación basada en objeto o codificación basada en canal.
8. - Un aparato de descodificación de audio que comprende : un desmultiplexor que extrae una señal de mezcla descendente e información lateral basada en objeto de una señal de audio; un descodificador de objeto que genera una señal de mezcla descendiente modificada basada en la señal de mezcla descendente e información predeterminada y genera información lateral basada en canal basada en la información lateral basada en objeto y dato de control para entregar la señal de mezcla descendente, la información predeterminada siendo extraída de la información lateral basada en objeto; y un descodificador de multicanal que general una señal de audio de multicanal basada en la señal de mezcla descendente modificada y la información lateral basada en canal .
9. - El aparato de descodificación de audio de conformidad con la reivindicación 8, en donde la información lateral basada en objeto comprende cuando menos una de información de diferencias de nivel de objeto, información de correlación cruzada de interobjeto, información de ganancia de mezcla descendente, información de diferencia de nivel de canal de mezcla descendente, e información de energía de objeto absoluta.
10. - El aparato de descodificación de audio de conformidad con la reivindicación 8, en donde la información predeterminada comprende cuando menos una información de envolvente, información de agrupación, información de ganancia, información de período de silencio, información de diferencia de nivel, información de señal residual e información de retraso de señales de objeto.
11. - El aparato de descodificación de audio de conformidad con la reivindicación 10, en donde la información de envolvente comprende cuando menos una de información de coeficiente de codificación predictiva lineal (LPC) , información de energía e información de potencia.
12. - El aparato de descodificación de audio de conformidad con la reivindicación 8, en donde la información lateral basada en objeto comprende información respecto a un retraso entre la señal de mezcla descendente y la información lateral basada en objeto.
13. - El aparato de descodificación de audio de conformidad con la reivindicación 8, en donde la información lateral basada en objeto comprende información respecto a un retraso entre la señal de mezcla descendente y la información lateral basada en objeto.
14.- ün método de codificación de audio que comprende . generar una señal de mezcla descendente mezclando descendentemente una señal de audio de objeto; generar información lateral basada en objeto extrayendo información respecto a la señal de audio de objeto, e insertar información predeterminada para modificar la señal de mezcla descendente en la información lateral basada en objeto; y generar una corriente de bits combinando la información lateral basada en objeto con la información predeterminada insertada en la misma y la señal de mezcla descendente .
15.- El método de codificación de audio de conformidad con la reivindicación 14, en donde la información pa5ra modificar la señal de mezcla descendente comprende información de envolvente, información de agrupación, información de periodo de silencio e información de señal residual de señales de objeto.
16.- El método de codificación de audio de conformidad con la reivindicación 14, en donde la información para modificar la señal de mezcla descendente comprende información respecto a un retraso entre la señal de mezcla descendente y la información lateral basada en objeto.
17.- El método de codificación de audio de conformidad con la reivindicación 14, que comprende además insertar información que indica que la señal de audio de objeto se ha codificado a través de codificación basada en objeto en la corriente de bits.
18.- Un medio de registro legible por computadora que tiene grabado en el mismo un programa de computadora para ejecutar un método de descodificación de audio, el método de descodificación de audio comprendiendo: extraer una señal de mezcla descendente e información lateral basada en objeto de una señal de audio; generar una señal de mezcla descendente modificada en la señal de mezcla descendente e información predeterminada que se extrae de la información lateral basada en objeto; generar información lateral basada en canal basada en la información lateral basada en objeto e información recontrol para entregar la señal de mezcla descendente; y generar una señal de audio de multicanal basada en la señal de mezcla descendente modificada y la información lateral basada en canal.
19.- Un medio de registro legible por computadora que tiene grabado en el mismo un programa de computadora para ejecutar un método de codificación de audio, el método de descodificación de audio comprendiendo: generar una señal de mezcla descendente mezclando descendentemente una señal de audio de objeto, generar información lateral basada en objeto extrayendo información respecto a la señal de audio de objeto, e insertar la información predeterminada para modificar la señal de mezcla descendente hacia la información lateral basada e objeto, y generar una corriente de bits combinando la información lateral basada en objeto con la información predeterminada insertada en la misma y la señal de mezcla descendente .