"MÉTODO E APARELHO PARA PROCESSAR UM SINAL DE ÁUDIO" CAMPO TÉCNICO
A presente invenção se refere a um método e aparelho para processar um sinal de áudio, e mais especificamente, a um método e aparelho para decodificar um sinal de áudio recebido em um meio digital, como um sinal de transmissão, e assim por diante.
FUNDAMENTOS DA TÉCNICA
Enquanto mixando descendentemente vários objetos de áudio para um final mono ou estéreo, os parâmetros a partir dos sinais de objetos individuais podem ser extraídos. Esses parâmetros podem ser usados em um decodificador de um sinal de áudio, e o reposi- cionamento/panning das fontes individuais pode ser controlado por intermédio de seleção do usuário.
REVELAÇÃO
PROBLEMA TÉCNICO
Contudo, para controlar os sinais de objetos individuais, o reposicionamen- to/panning das fontes individuais incluídas em um sinal de mixagem descendente deve ser realizado adequadamente.
Contudo, para compatibilidade retroativa com relação ao método de decodificação orientado para canal (como um MPEG Surround), um parâmetro de objeto deve ser conver- tido de modo flexível em um parâmetro de multicanal exigido no processo e mixagem as- cendente.
SOLUÇÃO TÉCNICA
Consequentemente, a presente invenção se refere a um método e aparelho para processar um sinal de áudio que substancialmente obvia um ou mais problemas devido às limitações e desvantagens da técnica relacionada. Um objetivo da presente invenção é o de prover um método e aparelho para pro-
cessar um sinal de áudio para controlar ganho de objeto e panning de forma irrestrita.
Outro objetivo da presente invenção é o de prover um método e aparelho para pro- cessar um sinal de áudio para controlar ganho de objeto e panning com base em seleção do usuário.
Vantagens, objetivos e características adicionais a invenção serão apresentados
em parte na descrição a seguir e em parte se tornarão evidentes para aqueles de conheci- mento comum na técnica a partir do exame do que se segue, ou podem ser aprendidos a partir da prática da invenção. Os objetivos e outras vantagens da invenção podem ser reali- zados e obtidos através da estrutura particularmente assinalada na descrição escrita e nas suas reivindicações assim como nos desenhos anexos.
EFEITOS VANTAJOSOS
A presente invenção provê os seguintes efeitos ou vantagens. Em primeiro lugar, a presente invenção é capaz de prover um método e aparelho para processar um sinal de áudio para controlar ganho de objeto e panning de forma irrestri- ta.
Em segundo lugar, a presente invenção é capaz de prover um método e um apare- Iho para processar um sinal de áudio para controlar ganho de objeto e panning com base em seleção de usuário.
DESCRIÇÃO DOS DESENHOS
Os desenhos anexos, os quais são incluídos para prover um entendimento adicio- nal da invenção e são incorporados e constituem uma parte desse pedido, ilustram modali- dades da invenção e em conjunto com a descrição servem para explicar o princípio da in- venção. Nos desenhos;
A Figura 1 é um diagrama exemplar de blocos para explicar o conceito básico de renderizar um sinal de mixagem descendente com base em configuração de reprodução e controle de usuário.
A Figura 2 é um diagrama exemplar de blocos de um aparelho para processar um
sinal de áudio de acordo com uma modalidade da presente invenção correspondendo ao primeiro esquema.
ι A Figura 3 é um diagrama exemplar de blocos de um aparelho para processar um
sinal de áudio de acordo com outra modalidade da presente invenção correspondendo ao primeiro esquema.
A Figura 4 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com uma modalidade da presente invenção correspondendo ao segundo esquema.
A Figura 5 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com outra modalidade da presente invenção correspondendo ao segundo esquema.
A Figura 6 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com outra modalidade da presente invenção correspondendo ao segundo esquema.
A Figura 7 é um diagrama exemplar de blocos de um aparelho para processar um
sinal de áudio de acordo com uma modalidade da presente invenção correspondendo ao terceiro esquema.
A Figura 8 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com outra modalidade da presente invenção correspondendo ao terceiro esquema.
A Figura 9 é diagrama exemplar de blocos para explicar o conceito básico da uni- dade de renderização. As Figuras 10A a 10C são diagramas exemplares de blocos de uma primeira moda- lidade de uma unidade de processamento de mixagem descendente ilustrada na Figura 7.
A Figura 11 é um diagrama exemplar de blocos de uma segunda modalidade de uma unidade de processamento de mixagem descendente ilustrada na Figura 7.
A Figura 12 é um diagrama exemplar de blocos de uma terceira modalidade de uma
unidade de processamento de mixagem descendente ilustrada na Figura 7.
A Figura 13 é um diagrama exemplar de blocos de uma quarta modalidade de uma unidade de processamento de mixagem descendente ilustrada na Figura 7.
A Figura 14 é um diagrama exemplar de blocos de uma estrutura de fluxo de bits de um sinal de áudio compactado de acordo com uma segunda modalidade da presente inven- ção.
A Figura 15 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com uma segunda modalidade da presente invenção.
A Figura 16 é um diagrama exemplar de blocos de uma estrutura de fluxo de bits de um sinal de áudio compactado de acordo com uma terceira modalidade da presente inven- ção.
A Figura 17 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com uma quarta modalidade da presente invenção.
A Figura 18 é um diagrama exemplar de blocos para explicar o esquema de trans- missão para tipo variável de objeto.
A Figura 19 é um diagrama exemplar de blocos para um aparelho para processar um sinal de áudio de acordo com uma quinta modalidade da presente invenção.
MELHOR MODO
Para alcançar esses objetivos e outras vantagens e de acordo com o propósito da invenção, conforme incorporado e amplamente descrito aqui, um método para processar um sinal de áudio, compreendendo receber um sinal de mixagem descendente, uma informação de objeto, e uma informação de mixagem; gerar uma informação de processamento de mi- xagem descendente utilizando a informação de objeto e a informação de mixagem; proces- sar o sinal de mixagem descendente utilizando a informação de processamento de mixagem descendente, e, gerar uma informação de multicanal utilizando a informação de objeto e a informação de mixagem, em que o número de canal do sinal de mixagem descendente é igual ao número de canal do sinal de mixagem descendente é igual ao número de canal do sinal de mixagem descendente processado.
De acordo com a presente invenção, em que a informação de objeto inclui ao me- nos uma de uma informação de nível de objeto e uma informação de correlação de objeto.
De acordo com a presente invenção, em que a informação de processamento de mixagem descendente corresponde a uma informação para controlar panning de objeto se o número de canal da mixagem descendente corresponder a pelo menos dois.
De acordo com a presente invenção, em que a informação de processamento de mixagem descendente corresponde a uma informação para controlar ganho de objeto.
De acordo com a presente invenção, em que o processamento do sinal de mixagem descendente é realizado por um módulo 2x2 no caso em que o sinal de mixagem descen- dente corresponde a um sinal estéreo.
De acordo com a presente invenção, em que um canal do sinal de mixagem des- cendente processado corresponde a uma combinação de um canal do sinal de mixagem descendente multiplicado por um primeiro ganho e o outro canal do sinal de mixagem des- cendente multiplicado por um segundo ganho no caso em que o sinal de mixagem descen- dente corresponde a um sinal estéreo.
De acordo com a presente invenção, compreendendo ainda, gerar um sinal de saí- da no domínio de tempo utilizando o sinal de mixagem descendente processado.
De acordo com a presente invenção, em que o sinal de mixagem descendente cor- responde a um sinal de domínio de sub-banda gerado através de banco de filtros de análise de sub-banda.
De acordo com a presente invenção, em que a informação de multicanal inclui ao menos uma de informação de nível de canal e informação de correlação de canal.
De acordo com a presente invenção, compreendendo ainda, gerar um sinal de mul- ticanal utilizando o sinal de mixagem descendente processado e a informação de multicanal.
De acordo com a presente invenção, em que a informação de mixagem é gerada u- tilizando ao menos uma de uma informação de posição de objeto e uma informação de con- figuração de reprodução.
De acordo com a presente invenção, em que o sinal de mixagem descendente é re- cebido como um sinal de transmissão.
De acordo com a presente invenção, em que o sinal de mixagem descendente é re- cebido em um meio digital.
De acordo com a presente invenção, em que o sinal de mixagem descendente é re- cebido como um sinal de transmissão. De acordo com a presente invenção, em que o sinal de mixagem descendente é re-
cebido em um meio digital.
Em outro aspecto da presente invenção, um método para processar um sinal de áudio, compreendendo: receber um sinal de mixagem descendente, uma informação de ob- jeto, e uma informação de mixagem; decompor o sinal de mixagem descendente em um sinal de sub-banda; gerar uma informação de processamento de mixagem descendente uti- lizando a informação de objeto e a informação de mixagem; e, processar o sinal de sub- banda utilizando a informação de processamento de mixagem descendente; gerar um sinal de saída utilizando o sinal de sub-banda processado, em que o número de canal do sinal de mixagem descendente é igual ao número do sinal de saída, e o sinal de saída corresponde a um sinal de domínio de tempo.
Em outro aspecto da presente invenção, um meio legível por computador tendo ins- truções armazenadas no mesmo, as quais, quando executadas por um processador, fazem com que o processador realize operações, compreendendo: receber um sinal de mixagem descendente, uma informação de objeto, e uma informação de mixagem; gerar uma infor- mação de processamento de mixagem descendente utilizando a informação de objeto e a informação de mixagem; processar o sinal de mixagem descendente utilizando a informação de processamento de mixagem descendente; e, gerar uma informação de multicanal utili- zando a informação de objeto e a informação de mixagem, em que o número de canal do sinal de mixagem descendente é igual ao número de canal do sinal de mixagem descenden- te processado.
Em outro aspecto da presente invenção, um meio legível por computador tendo ins- truções armazenadas no mesmo, as quais, quando executadas por um processador, fazem com que o processador realize operações, compreendendo: receber um sinal de mixagem descendente, uma informação de objeto e uma informação de mixagem; decompor o sinal de mixagem descendente em um sinal de sub-banda; gerar uma informação de processa- mento de mixagem descendente utilizando a informação de objeto e a informação de mixa- gem; e, processar o sinal de sub-banda utilizando a informação de processamento de mixa- gem descendente; gerar um sinal de saída utilizando o sinal de sub-banda processado, em que o número de canal do sinal de mixagem descendente é igual ao número do sinal de saída, e o sinal de saída corresponde a um sinal de domínio de tempo.
Em outro aspecto da presente invenção, um aparelho para processar um sinal de áudio, compreendendo: uma unidade geradora de informação recebendo uma informação de objeto e uma informação de mixagem, e gerando uma informação de processamento de mixagem descendente utilizando a informação de objeto e a informação de mixagem, e ge- rando uma informação de multicanal utilizando a informação de objeto e a informação de mixagem; e, uma unidade de processamento de mixagem descendente recebendo um sinal de mixagem descendente e a informação de processamento de mixagem descendente, e processando o sinal de mixagem descendente utilizando a informação de processamento de mixagem descendente; em que o número de canal do sinal de mixagem descendente é igual ao número de canal do sinal de mixagem descendente processado.
Em outro aspecto da presente invenção, um aparelho para processar um sinal de áudio, compreendendo: uma unidade geradora de informação recebendo um sinal de mixa- gem descendente, uma informação de objeto, e uma informação de mixagem, a unidade geradora de informação gerando uma informação de processamento de mixagem descen- dente utilizando a informação de objeto e a informação de mixagem; e, uma unidade de pro- cessamento de mixagem descendente decompondo o sinal de mixagem descendente em um sinal de sub-banda, processando o sinal de sub-banda utilizando a informação de pro- cessamento de mixagem descendente, e gerando um sinal de saída usando o sinal de sub- banda processado, em que o número de canal do sinal de mixagem descendente é igual ao número do sinal de saída, e o sinal de saída corresponde a um sinal de domínio de tempo.
Em outro aspecto da presente invenção, um método para processar um sinal de áudio, compreendendo: obter um sinal de mixagem descendente utilizando múltiplos sinais de objeto; gerar uma informação de objeto representando uma relação entre os múltiplos sinais de objeto utilizando os múltiplos sinais de objeto e o sinal de mixagem descendente e, transmitindo o sinal de mixagem descendente e a informação de objeto, em que o sinal de mixagem descendente pode ser um sinal de mixagem descendente processado para que o número de canal do sinal de mixagem descendente seja igual ao número de mixagem des- cendente processado.
Deve ser entendido que a descrição geral precedente e a descrição detalhada a seguir da presente invenção são exemplares e explanatórias e pretendem prover explana- ção adicional da invenção conforme reivindicada.
MODO PARA A INVENÇÃO
Será feita agora em detalhe referência às modalidades preferidas da presente in- venção, cujos exemplos são ilustrados nos desenhos anexos. Sempre que possível, os mesmos números de referência serão usados por todos os desenhos para se referir às mesmas partes ou partes semelhantes.
Antes de descrever a presente invenção, deve ser observado que a maioria dos termos revelados na presente invenção correspondem aos termos gerais conhecidos na técnica, mas alguns termos foram selecionados pelo requerente conforme necessário e se- rão em seguida revelados na descrição a seguir da presente invenção. Portanto, é preferível que os termos definidos pelo requerente sejam entendidos com base em seus significados na presente invenção.
Especificamente, “parâmetro” na descrição a seguir significa informação incluindo valores, parâmetros de sentido estreito, coeficientes, elementos, e assim por diante. Em seguida, o termo “parâmetro” será usado em vez do termo “informação” como um parâmetro de objeto, um parâmetro de mixagem, um parâmetro de processamento de mixagem des- cendente, e assim por diante, o que não impõe limitação à presente invenção.
Na mixagem descendente de vários sinais de canal ou sinais de objeto, um parâ- metro de objeto e um parâmetro espacial podem ser extraídos. Um decodificador pode gerar sinal de saída utilizando um sinal de mixagem descendente e o parâmetro de objeto (ou o parâmetro espacial). O sinal de saída pode ser renderizado com base na configuração de reprodução e no controle de usuário pelo decodificador. O processo de renderização será explicado em detalhe com referência à Figura 1 a seguir.
A Figura 1 é um diagrama exemplar para explicar o conceito básico de renderizar mixagem descendente com base em configuração de reprodução e controle de usuário. Com referência à Figura 1, um decodificador 100 pode incluir uma unidade geradora de in- formação de renderização 110 e uma unidade de renderização 120, e também pode incluir um renderizador 110a e uma síntese 120a em vez da unidade geradora de informação de renderização 110 e da unidade de renderização 120.
Uma unidade geradora de informação de renderização 110 pode ser configurada para receber uma informação secundária incluindo um parâmetro de objeto ou um parâme- tro espacial a partir de um decodificador, e também receber uma configuração de reprodu- ção ou um controle de usuário a partir de uma configuração de dispositivo ou de uma inter- face de usuário. O parâmetro de objeto pode corresponder a um parâmetro extraído na mi- xagem descendente de ao menos um sinal de objeto, e o parâmetro espacial pode corres- ponder a um parâmetro extraído na mixagem descendente de ao menos um sinal de canal. Adicionalmente, informação de tipo, e informação de característica para cada objeto, podem ser incluídas na informação lateral. A informação de tipo e a informação de característica podem descrever nome de instrumento, nome de dispositivo de reprodução, e assim por diante. A configuração de reprodução pode incluir posição de altofalante e informação de ambiente (posição virtual do altofalante), e o controle de usuário pode corresponder a uma informação de controle introduzida por um usuário para controlar as posições do objeto e os ganhos do objeto, e também pode corresponder a uma informação de controle para a confi- guração de reprodução. Entretanto, a configuração de reprodução e o controle de usuário podem ser representados como uma informação de mixagem, a qual não impõe limitação à presente invenção.
Uma unidade geradora de informação de renderização 110 pode ser configurada para gerar uma informação de renderização utilizando uma informação de mixagem (a con- figuração de reprodução e controle de usuário) e a informação secundária recebida. Uma unidade de renderização 120 pode ser configurada para gerar um parâmetro de multicanal utilizando a informação de renderização no caso em que a mixagem descendente de um sinal de áudio (abreviado “sinal de mixagem descendente”) não é transmitida, e gerar sinais de multicanal utilizando a informação de renderização e a mixagem descendente no caso em que a mixagem descendente de um sinal de áudio é transmitida.
Um renderizador 110a pode ser configurado para gerar sinais de multicanal usando informação de mixagem (a configuração de reprodução e o controle de usuário) e a informa- ção secundária recebida. Uma síntese 120a pode ser configurada para sintetizar os sinais de multicanal usando os sinais de multicanal gerados pelo renderizador 110a. Como declarado anteriormente, o decodificador pode renderizar o sinal de mixagem descendente com base na configuração de reprodução e controle de usuário. Entretanto, para controlar os sinais de objetos individuais, um decodificador pode receber um parâmetro de objeto como uma informação secundária e controlar a panning de objeto e o ganho de objeto com base no parâmetro de objeto transmitido.
1. Controlando o ganho e a panning dos sinais de objeto
Métodos variáveis para controlar os sinais de objetos individuais podem ser provi- dos. Em primeiro lugar, no caso em que um decodificador recebe um parâmetro de objeto e gera os sinais de objeto individuais utilizando o parâmetro de objeto, então, pode controlar os sinais de objetos individuais com base em uma informação de mixagem (a configuração de reprodução, o nível de objeto, etc.).
Em segundo lugar, no caso em que um decodificador gera o parâmetro de multica- nal a ser introduzido em um decodificador de multicanal, o decodificador de multicanal pode mixar ascendentemente um sinal de mixagem descendente recebido a partir de um codifica- dor utilizando o parâmetro de multicanal. O segundo método mencionado acima pode ser classificado em três tipos de esquema. Especificamente: 1) utilizando um decodificador de multicanal convencional, 2) modificando um decodificador de multicanal, 3) processamento de mixagem descendente de sinais de áudio antes de serem introduzidos em um decodifi- cador de multicanal pode ser provido. O decodificador de multicanal convencional pode cor- responder a uma codificação de áudio espacial orientada para canal (por exemplo, decodifi- cador MPEG Surround) o qual não impõe limitação à presente invenção. Detalhes de três tipos de esquema serão explicados conforme a seguir.
1.1 Utilizando um decodificador de multicanal
O primeiro esquema pode usar um decodificador de multicanal convencional no es- tado em que se encontra sem modificar um decodificador de multicanal. Primeiramente, um caso de usar o ADG (ganho de mixagem descendente arbitrária) para controlar ganhos de objeto e um caso de utilizar a configuração 5-2-5 para controlar panning de objeto serão explicados com referência à Figura 2 conforme a seguir. Subsequentemente, um caso de ser ligado com uma unidade de remixagem de cena será explicado com referência à Figura 3.
A Figura 2 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com uma modalidade da presente invenção correspondendo ao primeiro esquema. Com referência à Figura 2, um aparelho para processar um sinal de áu- dio 200 (em seguida simplesmente um decodificador 200’) pode incluir uma unidade gerado- ra de informação 210 e um decodificador de multicanal 230. A unidade geradora de informa- ção 210 pode receber uma informação secundária incluindo um parâmetro de objeto a partir de um codificador e uma informação de mixagem a partir de uma interface de usuário, e pode gerar um parâmetro de multicanal incluindo um ganho de mixagem descendente arbi- trário ou um ganho de modificação de ganho (em seguida simplesmente “ADG”). O ADG pode descrever uma relação de um primeiro ganho estimado com base na informação de mixagem e a informação de objeto em relação a um segundo ganho estimado com base na 5 informação de objeto. Especificamente, a unidade geradora de informação 210 pode gerar o ADG apenas se o sinal de mixagem descendente corresponder a um sinal modo. O decodi- ficador de multicanal 230 pode receber uma mixagem descendente de um sinal de áudio a partir de um codificador e um parâmetro de multicanal a partir da unidade geradora de in- formação 210, e pode gerar uma saída de multicanal usando o sinal de mixagem descen- 10 dente e o parâmetro de multicanal.
O parâmetro de multicanal pode incluir uma diferença de nível de canal (em segui- da, abreviado, “CLD”), uma correlação intercanal (em seguida abreviado “ICC”), um coefici- ente de predição de canal (em seguida abreviado “CPC”).
Como CLD, ICC, e CPC descrevem diferença de intensidade ou correlação entre 15 dois canais, e serve para controlar panning e correlação de objetos. Podem-se controlar posições de objeto e difusão (sonoridade) de objeto utilizando o CLD, o ICC, etc. Entretanto, o CLD descreve a diferença relativa de nível em vez do nível absoluto, e a energia dos dois canais divididos é economizada. Portanto, não se podem controlar os ganhos de objeto me- diante manejo de CLD, etc. Em outras palavras, o objeto específico não pode ser emudecido 20 ou ter o volume aumentado mediante uso do CLD, etc.
Adicionalmente, o ADG descreve o ganho dependente de tempo e frequência para controlar o fator de correção por um usuário. Se esse fator de correção for empregado, ele é capaz de processar modificação de sinal de mixagem descendente antes de uma mixagem ascendente de multicanal. Portanto, no caso em que o parâmetro ADG é recebido a partir da 25 unidade geradora de informação 210, o decodificador de multicanal 230 pode controlar os ganhos de objeto de tempo e frequência específicos utilizando o parâmetro ADG.
Entretanto, um caso em que o sinal de mixagem descendente estéreo recebido é emitido como um canal estéreo pode ser definido na fórmula 1 a seguir.
Fórmula 1
j[0] ^ w,, · S0 - x[0]+>%-£,· 41]
M = * gS ■ *[$]+ »21 * g% '41]
onde xQ são os canais de entrada, ^ são os canais de saída, Sx são os ganhos,
e Wxx é o peso.
É necessário controlar diafonia entre o canal esquerdo e o canal direito para pan- ning de objeto. Especificamente, uma parte do canal esquerdo de sinal de mixagem des- cendente pode ser emitida como um canal direito do sinal de saída, e uma parte do canal direito do sinal de mixagem descendente pode ser emitida como canal esquerdo do sinal de saída. Na fórmula 1, W12 e w2i podem constituir um componente de diafonia (em outras pala- vras, termo cruzado).
O caso mencionado acima corresponde a uma configuração 2-2-2, o que significa entrada de canal-2, transmissão de canal-2, e saída de canal-2. Para realizar a configuração 2-2-2, a configuração 5-2-5 (entrada de canal-2, transmissão de canal-5, e saída de canal-2) de codificação de áudio espacial orientada para canal convencional (por exemplo, MPEG surround) pode ser usada. Primeiramente, para emitir dois canais para configuração 2-2-2, certo canal entre cinco canais de saída de configuração 5-2-5 podem ser aplicados para um canal desabilitado (um canal falso). Para proporcionar diafonia entre os dois canais transmi- tidos, e os dois canais de saída, o CLD e o CPC; mencionados acima; podem ser ajustados.
Resumidamente, o fator de ganho Sx na fórmula 1 é obtido utilizando-se o ADG mencionado acima, e o fator de ponderação Wi1-W22 na fórmula 1 é obtido utilizando-se o CLD e o CPC.
Na implementação da configuração 2-2-2 utilizando a configuração 5-2-5, para re- duzir a complexidade, o modo padrão de codificação de áudio espacial convencional pode ser empregada. Como característica de CLD padrão é supostamente de emitir 2-canal, é possível reduzir a quantidade de computação se o CLD padrão for empregado. Particular- mente, como não há necessidade e sintetizar um canal falso, se pode reduzir a quantidade de computação de forma ampla. Portanto, aplicação do modo padrão é associada. Especifi- camente, apenas o CLD padrão de três CLDs (correspondendo a 0, 1 e 2 no padrão MPEG surround) é usado para decodificação. Por outro lado, 4 CLDs entre canal esquerdo, canal direito, e canal central (correspondendo a 3, 4, 5, e 6 no padrão MPEG surround) e dos ADGs (correspondendo a 7 e 8 no padrão MPEG surround) são gerados para controlar obje- to. Nesse caso, os CLDs correspondendo a 3 e 5 descrevem a diferença de nível de canal entre o canal esquerdo mais o canal direito e o canal central ((l+r)/c é apropriado para ajuste para 150 dB (aproximadamente infinito) para emudecer o canal central. E, para implementar diafonia, mixagem ascendente baseada em energia ou mixagem ascendente baseada em predição pode ser realizada, o que é invocado no caso em que o modo TTT (“bsTttMode- Low” no padrão MPEG surround) corresponde ao modo baseado em energia (com subtra- ção, compatibilidade de matriz habilitada) (3o modo), ou modo de predição (1o modo ou 2o modo).
A Figura 3 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com outra modalidade da presente invenção correspondendo ao primeiro esquema. Com referência à Figura 3, um aparelho para processar um sinal de áu- dio de acordo com outra modalidade da presente invenção 300 (em seguida simplesmente um decodificador 300) pode incluir uma unidade geradora de informação 310, uma unidade de renderização de cena 320, um decodificador de multicanal 330, e uma unidade de remi- xagem de cena 350.
A unidade geradora de informação 310 pode ser configurada para receber uma in- formação secundária incluindo um parâmetro de objeto a partir de um codificador se o sinal 5 de mixagem descendente corresponder ao sinal de canal mono (isto é, o número do canal de mixagem descendente é “1”) pode receber uma informação de mixagem a partir da inter- face de usuário, e pode gerar um parâmetro de multicanal utilizando a informação secundá- ria e a informação de mixagem. O número de canal de mixagem descendente pode ser es- timado com base em uma informação de indicador também incluída na informação lateral 10 como o próprio sinal de mixagem descendente e seleção de usuário. A unidade geradora de informação 310 pode ter a mesma configuração da unidade geradora de informação prece- dente 210. O parâmetro de multicanal é introduzido no decodificador de multicanal 330, o decodificador de multicanal 330 pode ter a mesma configuração do decodificador de multi- canal precedente 230.
A unidade de renderização de cena 320 pode ser configurada para receber uma in-
formação secundária incluindo um parâmetro de objeto a partir de um codificador se o sinal de mixagem descendente corresponder ao sinal de canal não-mono (isto é, o número do canal de mixagem descendente for superior a “2”) pode receber uma informação de mixa- gem a partir de uma interface de usuário, e pode gerar um parâmetro de remixagem utili- 20 zando a informação secundária e a informação de mixagem. O parâmetro de remixagem corresponde a um parâmetro para remixar um canal estéreo e gerar saídas de mais do que
2-canais. O parâmetro de remixagem é introduzido na unidade de remixagem de cena 350. A unidade de remixagem de cena 350 pode ser configurada para remixar o sinal de mixa- gem descendente utilizando o parâmetro de remixagem se o sinal de mixagem descendente for superior a sinal de 2-canais.
Resumidamente, dois caminhos poderiam ser considerados como implementações separadas para aplicações separadas em um decodificador 300.
1.2. Modificando um decodificador de multicanal
O segundo esquema pode modificar um decodificador de multicanal convencional. 30 Primeiramente, um caso de uso de saída virtual para controlar ganho de objeto, e um caso de modificar uma configuração de dispositivo para controlar panning de objeto, serão expli- cados com referência à Figura 4, a seguir. Subsequentemente, um caso de realizar funcio- nalidade TBT(2x2) em um decodificador de multicanal será explicado com referência à Figu- ra 5.
A Figura 4 é um diagrama exemplar de blocos de um aparelho para processar um
sinal de áudio de acordo com uma modalidade da presente invenção correspondendo ao segundo esquema. Com referência à Figura 4, um aparelho para processar um sinal de áu- dio de acordo com uma modalidade da presente invenção correspondendo ao segundo es- quema 400 (em seguida simplesmente “um decodificador 400”) pode incluir uma unidade geradora de informação 410, uma síntese de multicanal interna 420, e uma unidade de ma- peamento de saída 430. A síntese interna de multicanal 420, e a unidade de mapeamento de saída 430, podem ser incluídas em uma unidade de síntese.
A unidade geradora de informação 410 pode ser configurada para receber uma in- formação secundária incluindo um parâmetro de objeto a partir de um codificador, e um pa- râmetro de mixagem a partir de uma interface de usuário. E a unidade geradora de informa- ção 410 pode ser configurada para gerar um parâmetro de multicanal e uma informação de configuração de dispositivo utilizando a informação secundária e a informação de mixagem. O parâmetro de multicanal pode ter a mesma configuração que o parâmetro de multicanal precedente. Assim, detalhes do parâmetro de multicanal serão omitidos na descrição a se- guir. A informação de configuração de dispositivo pode corresponder à HRTF parametrizada para processamento binaural, o que será explicado na descrição de “1.2.2 Usando uma in- formação de configuração de dispositivo”.
A síntese interna de multicanal 420 pode ser configurada para receber um parâme- tro de multicanal e uma informação de configuração de dispositivo a partir da unidade gera- dora de parâmetro 410 e sinal de mixagem descendente a partir de um codificador. A sínte- se interna de multicanal 420 pode ser configurada para gerar uma saída de multicanal tem- poral incluindo uma saída virtual, a qual será explicada na descrição de “1.2.1 Usando uma saída virtual”.
1.2.1 Usando uma saída virtual
Como o parâmetro de multicanal (por exemplo: CLD) pode controlar a panning de objeto, é difícil controlar o ganho de objeto assim como a panning de objeto por intermédio de um decodificador de multicanal convencional.
Entretanto, para ganho de objeto, o decodificador 400 (especialmente a síntese in- terna de multicanal 420) pode mapear a energia relativa de objeto para um canal virtual (por exemplo: canal central). A energia relativa de objeto corresponde à energia a ser reduzida. Por exemplo, para emudecer certo objeto, o decodificador 400 pode mapear mais do que 99,9% da energia de objeto para um canal virtual. Então, o decodificador 400 (especialmen- te, a unidade de mapeamento de saída 430) não emite o canal virtual para o qual a energia de objeto restante é mapeada. Concluindo, se mais do que 99,9% do objeto forem mapea- dos para um canal virtual o qual não é emitido, o objeto desejado pode ser quase que emu- decido.
1.2.2 Utilizando uma informação de ajuste de dispositivo
O decodificador 400 pode ajustar uma informação de ajuste de dispositivo para con- trolar a panning de objeto e o ganho de objeto. Por exemplo, o decodificador pode ser confi- gurado para gerar uma HRTF parametrizada para processamento binaural no padrão MPEG Surround. A HRTF parametrizada pode ser variável de acordo com a configuração do dispo- sitivo. Pode-se supor que os sinais de objeto podem ser controlados de acordo com a fórmu- la 2 a seguir.
Eikw = bi * obji * ba* obfz + bs * objs + .. + bn ^objhil
onde objk são os sinais de objeto, Lnew e Rnew constituem um sinal estéreo desejado, ak e bk são coeficientes para controle de objeto.
Uma informação de objeto dos sinais de objeto objk pode ser estimada a partir de um parâmetro de objeto incluído na informação secundária transmitida. Os coeficientes ak, os quais são definidos de acordo com o ganho de objeto e a panning de objeto podem ser estimados a partir da informação de mixagem. O ganho de objeto e a panning de objeto de- sejadas podem ser ajustados utilizando os coeficientes ak, bk.
Os coeficientes ak, bk podem ser definidos para corresponder ao parâmetro HRTF para processamento binaural, o que será explicado em detalhe a seguir.
No padrão MPEG Surround (configuração 5-1-50 (a partir de ISO/IEC FDIS 23003-
1:2006(E), Information Technology - MPEG Audio Technologies - Parti: MPEG Surround), o processamento binaural é como abaixo.
5
Fórmula 2
jl + 32 * Ob|2 + 93 * Objs + - + %
Fórmula 3
<K
r
20
onde yB é saída, a matriz H é a matriz de conversão para processamento binaural. Fórmula 4
Os elementos da matriz H são definidos como a seguir:
Fórmula 5
Fórmula 6 c-os(c)+- «»(#)+ - «*(«)+-
oos(c)
Fórmula 7
(o*·)2 =»i(C£ííJ-)ji(ctOf')íi(aD'·*)
(<'í =r,(CLDÍ-)r,{CLDl~)r,{CLD,,-‘) {^c"f -’i(ODÍ'h(CLD:'')/ir «)3 =T3 (ODi-)r, (CWf)Isl
(<#)*-r,(clDÍ·*)^^')/^
1.2.3 Realizando a funcionalidade TBT(2x2) em um decodificador de multicanal A Figura 5 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com outra modalidade da presente invenção correspondendo ao segundo esquema. A Figura 5 é um diagrama exemplar de blocos de funcionalidade TBT em um decodificador de multicanal. Com referência à Figura 5, um módulo TBT 510 pode ser configurado para receber sinais de entrada e uma informação de controle TBT, e gerar sinais de saída. O módulo TBT 510 pode ser incluído no decodificador 200 da Figura 2 (ou especificamente, no decodificador multicanal 230). O decodificador multicanal 230 pode ser implementado de acordo com o padrão MPEG Surround, o qual não impõe limitação à pre- sente invenção.
onde x são os canais de entrada, y são os canais de saída, e w é o peso.
A saída yi pode corresponder a uma entrada X1 combinada da mixagem descen- dente multiplicada por um primeiro ganho W11 e entrada x2 multiplicada por um segundo ga- nho W12.
A informação de controle TBT introduzida no módulo TBT 510 inclui elementos que podem compor o peso w (W11, w12, w2-i, w22).
No padrão MPEG Surround, o módulo OTT (Um-Para-Dois) e o módulo TTT (Dois-
e
Fórmula 9 Para-Três) não é adequado para remixar o sinal de entrada embora o módulo OTT e o mó- dulo TTT possam misturar ascendentemente o sinal de entrada.
Para remixar o sinal de entrada, o módulo TBT (2x2) 510 (em seguida abreviado “módulo TBT 510”) pode ser provido. O módulo TBT 510 pode ser configurado para receber um sinal estéreo e emitir o sinal estéreo remixado. O peso w pode ser composto de CLD(s) e ICC(s).
Se o termo de peso W11-W22 for transmitido como uma informação de controle TBT1 o decodificador pode controlar o ganho de objeto assim como panning de objeto utilizando o termo de peso recebido. Ao transmitir o termo de peso w, esquema variável pode ser provi- do. Primeiramente, uma informação de controle TBT inclui termo cruzado como o W12 e w21. Em segundo lugar, uma informação TBT não inclui o termo cruzado como W12 e W21. Em ter- ceiro lugar, o número do termo como uma informação de controle TBT varia de forma adap- tativa.
Primeiramente, existe a necessidade de receber o termo cruzado como o W12 e w21 para controlar a panning de objeto como sinal à esquerda de canal de entrada segue para a direita do canal de saída. No caso de N canais de entrada e M canais de saída, os termos cujo número é NxM podem ser transmitidos como informação de controle TBT. Os termos podem ser quantizados com base em uma tabela de quantização de parâmetro CLD intro- duzida em um MPEG Surround, o qual não impõe limitação à presente invenção.
Em segundo lugar, a menos que o objeto à esquerda seja deslocado para posição à direita, (isto é, quando o objeto à esquerda é deslocado para a posição mais à esquerda ou posição à esquerda adjacente à posição central, ou quando apenas o nível do objeto é ajus- tado), não há a necessidade de usar o termo cruzado. Nesse caso, é adequado que o termo excerto o termo cruzado seja transmitido. No caso de N canais de entrada e M canais de saída, os termos, cujo número é exatamente N, podem ser transmitidos.
Em terceiro lugar, o número da informação de controle TBT varia de forma adapta- tiva de acordo com a necessidade de termo cruzado para reduzir a taxa de bits de uma in- formação de controle TBT. Uma informação de indicação “cross_flag” indicando se o termo cruzado está presente ou não é definida para ser transmitida como uma informação de con- trole TBT. O significado da informação de indicação “cross_flag” é mostrado na tabela 1 a seguir. ■
Tabela 1 - significado de cross_flag
cross-flag significado 0 nenhum termo cruzado (inclui apenas termo não-cruzado) (apenas W11 e W22 estão presentes) 1 inclui termo cruzado (W11, w12, W21 e W22 estão presentes) No caso em que cross_flag é igual a 0, a informação de controle TBT não inclui o termo cruzado, apenas o termo não-cruzado como Wn e W22 estão presentes. Caso contrário (“cross_flag” é igual a 1), a informação de controle TBT inclui o termo cruzado.
Além disso, uma informação de indicação “reverse_flag” indicando se termo cruza- do está presente ou termo não-cruzado está presente é definida para ser transmitida como uma informação de controle TBT. O significado da informação de indicação “reverse_flag” é mostrado na tabela 2 a seguir.
Tabela 2 - significado de reverse_flag
reverse-flag significado 0 nenhum termo cruzado (inclui apenas termo não-cruzado) (apenas W11 e W22 estão presentes) 1 apenas termo cruzado (apenas W12 e W21 estão presentes) No caso em que reverse_flag é igual a 0, a informação de controle TBT não inclui o termo cruzado, apenas o termo não-cruzado como o W1I e W22 está presente. Caso contrário (“reverse_flag” é igual a 1), a informação de controle TBT inclui apenas o termo cruzado.
Adicionalmente, a informação de indicação “side_flag” indicando se o termo cruza- do está presente e o termo não-cruzado está presente é definida para ser transmitida como uma informação de controle TBT. O significado da informação de indicação “side_flag” é mostrado na tabela 3 a seguir.
Tabela 3 - significado de side_config
side-config significado 0 nenhum termo cruzado (inclui apenas termo não-cruzado) (apenas W11 e W22 estão presentes) 1 inclui o termo cruzado (W11, w12, W21 e w22 estão presentes) 2 inverso (apenas W12 e W21 estão presentes) Como a tabela 3 corresponde à combinação da tabela 1 e da tabela 2, os detalhes da tabela 3 serão omitidos.
1.2.4 Realizando a funcionalidade TBT (2x2) em um decodificador de multicanal mediante modificação de um decodificador binaural
O caso de “1.2.2 Utilizando uma informação de configuração de dispositivo” pode ser realizado sem modificar o decodificador binaural. Em seguida, realizando a funcionalida- de TBT mediante modificação de um decodificador binaural empregado em um decodifica- 10
15
20
25
dor MPEG Surround, com referência à Figura 6.
A Figura 6 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com a outra modalidade da presente invenção correspondendo ao segundo esquema. Especificamente, um aparelho para processar um sinal de áudio 630 mostrado na Figura 6 pode corresponder a um decodificador binaural incluído no decodifica- dor de multicanal 230 da Figura 2 ou a unidade de síntese da Figura 4, que não impõe limi- tação à presente invenção.
Um aparelho para processar um sinal de áudio 630 (em seguida “um decodificador binaural 630”) pode incluir uma análise QMF 632, uma conversão de parâmetro 634, uma síntese espacial 636, e uma síntese QMF 638. Elementos do decodificador binaural 630 podem ter a mesma configuração do decodificador binaural MPEG Surround no padrão MPEG Surround. Por exemplo, a síntese espacial 636 pode ser configurada para consistir em uma matriz 2x2 (filtro), de acordo com a seguinte fórmula:
Fórmula 10
JM
N,™I
JwO
M>
1n-i^t O12 Lrii V*- “22 _ 0^k<K
com y0 sendo os canais de entrada de domínio QMF e yB sendo os canais de saída binaurais, k representa o índice de canal QMF híbrido, e i é o índice de derivação de filtro HRTF, e n é o índice de partição QMF. O decodificador binaural 630 pode ser configurado para realizar a funcionalidade mencionada acima descrita na subcláusula “1.2.2 Utilizando uma informação de configuração de dispositivo”. Contudo, os elementos Iiij podem ser gera- dos utilizando um parâmetro de multicanal e uma informação de mixagem em vez de um parâmetro de multicanal e parâmetro HRTF. Nesse caso, o decodificador binaural 600 pode realizar a funcionalidade do módulo TBT 510 na Figura 5. Detalhes dos elementos do deco- dificador binaural 630 serão omitidos.
O decodificador binaural 630 pode ser operado de acordo com uma informação de indicação “binaural_flag”. Particularmente, o decodificador binaural 630 pode ser saltado no caso em que uma informação de indicação binaural_flag é “0”, caso contrário (o binau- ral_flag é “1”), o decodificador binaural 630 pode ser operado como abaixo.
Tabela 4 - significado de binaural_flag
binaural-flag significado 0 nenhum modo binaural (um decodificador binaural é desativado) 1 modo binaural (um decodificador binaural é ativado) 1.3 Processando mixagem descendente de sinais de áudio antes de serem introdu- zidos em um decodificador de multicanal O primeiro esquema de uso de um decodificador de multicanal convencional foi ex- plicado na subcláusula em “1.1”, o segundo esquema de modificação de um decodificador de multicanal foi explicado na subcláusula em “1.2”. O terceiro esquema de processamento de mixagem descendente de sinais de áudio, antes de serem introduzidos em um decodifi- cador de multicanal, será explicado como a seguir.
A Figura 7 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com uma modalidade da presente invenção correspondendo ao terceiro esquema. A Figura 8 é um diagrama exemplar de blocos de um aparelho para pro- cessar um sinal de áudio de acordo com outra modalidade da presente invenção correspon- 10 dendo ao terceiro esquema. Primeiramente, com referência à Figura 7, um aparelho para processar um sinal de áudio 700 (em seguida simplesmente “um decodificador 700”) pode incluir uma unidade geradora de informação 710, uma unidade de processamento de mixa- gem descendente 720, e um decodificador de multicanal 730. Com referência à Figura 8, um aparelho para processar um sinal de áudio 800 (em seguida simplesmente “um decodifica- 15 dor 800”) pode incluir uma unidade geradora de informação 810 e uma unidade de síntese de multicanal 840 tendo um decodificador de multicanal 830. O decodificador 800 pode ser outro aspecto do decodificador 700. Em outras palavras, a unidade geradora de informação 810 tem a mesma configuração a unidade geradora de informação 710, o decodificador de multicanal 830 tem a mesma configuração do decodificador de multicanal 730 e, a unidade 20 de síntese de multicanal 840 pode ter a mesma configuração da unidade de processamento de unidade descendente 720 e unidade de multicanal 730. Portanto, os elementos do deco- dificador 700 serão explicados em detalhe, mas detalhes dos elementos do decodificador 800 serão omitidos.
A unidade geradora de informação 710 pode ser configurada para receber uma in- formação secundária incluindo um parâmetro de objeto a partir de um codificador e uma informação de mixagem a partir de uma interface e usuário, e para gerar um parâmetro de multicanal a ser emitido para o decodificador de multicanal 730. A partir desse ponto de vis- ta, a unidade geradora de informação 710 tem a mesma configuração da unidade geradora de informação precedente 210 da Figura 2. O parâmetro de processamento de mixagem descendente pode corresponder a um parâmetro para controlar o ganho de objeto e a pan- ning de objeto. Por exemplo, ele é capaz de mudar a posição de objeto ou o ganho e objeto no caso em que o sinal de objeto está localizado tanto no canal esquerdo como no canal direito. Ele também é capaz de renderizar o sinal de objeto para estar localizado em posição oposta no caso em que o sinal de objeto está localizado apenas em um de canal esquerdo e canal direito. Para que esses casos sejam realizados, a unidade de processamento de mi- xagem descendente 720 pode ser um módulo TBT (operação de matriz 2x2). No caso em que a unidade geradora de informação 710 pode ser configurada para gerar o ADG descrito com referência à Figura 2 para controlar o ganho de objeto, o parâmetro de processamento de mixagem descendente pode incluir parâmetro para controlar a panning de objeto exceto o ganho de objeto.
Além disso, a unidade geradora de informação 710 pode ser configurada para re- ceber informação HRTF a partir do banco de dados HRTF, e para gerar um parâmetro de multicanal extraordinário incluindo um parâmetro HRTF a ser introduzido no decodificador de multicanal 730. Nesse caso, a unidade geradora de informação 710 pode gerar parâme- tro de multicanal e parâmetro de multicanal extraordinário no mesmo domínio de sub-banda e transmitir em sincronização mútua para o decodificador de multicanal 730. O parâmetro de multicanal extraordinário incluindo o parâmetro HRTF será explicado em detalhe na sub- cláusula “3. Processando Modo Binaural”.
A unidade de processamento de mixagem descendente 720 pode ser configurada para receber mixagem descendente de um sinal de áudio a partir de um codificador e o pa- râmetro de processamento de mixagem descendente a partir da unidade geradora de infor- mação 710, e decompor um sinal de domínio de sub-banda utilizando banco de filtros de análise de sub-banda. A unidade de processamento de mixagem descendente 720 pode ser configurada para gerar o sinal de mixagem descendente processado utilizando o sinal de mixagem descendente e o parâmetro de processamento de mixagem descendente. Nesse processamento, pode-ser pré-processar o sinal de mixagem descendente para controlar a panning de objeto e o ganho de objeto. O sinal de mixagem descendente processado pode ser introduzido ao decodificador de multicanal 730 para ser mixado ascendentemente.
Além disso, o sinal de mixagem descendente processado também pode ser emitido e reproduzido por intermédio do altofalante. Para emitir diretamente o sinal processado por intermédio dos altofalantes, a unidade de processamento de mixagem descendente 720 pode executar o banco de filtros de síntese utilizando o sinal de domínio de sub-banda pré- processado e emitir um sinal PCM de tempo-domínio. Ela pode selecionar se emite direta- mente como sinal PCM ou entrada para o decodificador de multicanal por intermédio de se- leção de usuário.
O decodificador de multicanal 730 pode ser configurado para gerar sinal de saída de multicanal utilizando a mixagem descendente processada e o parâmetro de multicanal. O decodificador de multicanal 730 pode introduzir um retardo quando o sinal de mixagem des- cendente processado e o parâmetro de multicanal são introduzidos no decodificador de mul- ticanal 730. O sinal de mixagem descendente processado pode ser sintetizado em domínio de frequência (por exemplo: domínio QMF, domínio QMF híbrido, etc.), e o parâmetro de multicanal pode ser sintetizado no domínio de tempo. No padrão MPEG surround, retardo e sincronização para conectar HE-AAC são introduzidos. Portanto, o decodificador de multica- nal 730 pode introduzir o retardo de acordo com o padrão MPEG Surround. A configuração da unidade de processamento de mixagem descendente 720 será explicada em detalhe com referência à Figura 9 - Figura 13.
1.3.1 Um caso geral e casos especiais de unidade de processamento de mixagem descendente
A Figura 9 é um diagrama exemplar de blocos para explicar o conceito básico da
unidade de renderização. Com referência à Figura 9, um módulo de renderização 900 pode ser configurado para gerar M sinais de saída utilizando N sinais de entrada, uma configura- ção de reprodução, e um controle de usuário. Os N sinais de entrada podem corresponder aos sinais de objeto ou aos sinais de canal. Além disso, os N sinais de entrada podem cor- 10 responder quer seja ao parâmetro de objeto ou ao parâmetro de multicanal. A configuração do módulo de renderização 900 pode ser implementada em uma de unidade de processa- mento de mixagem descendente 720 da Figura 7, a unidade de renderização anteriormente mencionada 120 da Figura 1, e o renderizador anteriormente mencionado 110a da Figura 1,
o que não impõe limitação à presente invenção.
Se o módulo de renderização 900 puder ser configurado para gerar diretamente M
sinais de canal utilizando N sinais de objeto sem somar sinais de objeto individuais corres- pondendo a certo canal, a configuração do módulo de renderização 900 pode ser represen- tada pela seguinte fórmula 11.
Fórmula 11
C = RO
"C1' *** Rm o; = Ra ^22 ■ - - Rn2 Oi R-2M ... R \ jxNM . * Ot Ci é um i° sinal de canal, Oj é j° sinal de entrada, e Rji é uma matriz mapeando j° si-
nal de entrada para i° canal.
Se a matriz R for separada em componente de energia E e componente de descor- relação, a fórmula 11 pode ser representada conforme a seguir.
Fórmula 12
C=RO=EO+DO
■ 'En Esi ■·· Em 'Ai Ai Aví 'O1' Ci En F - Em O2 A2 Aa Ara O2 22 : : : 1 : Cm. F ■®2 M £*> I..........." .Ak Aaí - -! NM i c? _I Pode-se controlar as posições de objeto utilizando o componente de energia E, e se
pode controlar a difusão de objeto utilizando o componente de descorrelação D.
Supondo que apenas i° sinal de entrada é introduzido para ser emitido por intermé- 10
15
20
dio de j° canal e k° canal, a fórmula 12 pode ser representada conforme a seguir. Fórmula 13
C
Tc, Γ C^i “ R1O1
a, ,
O,
}j_i) &j_i A , cos(&A .)
aJj é a porção de ganho mapeada para j° canal, PkJ é a porção de ganho mape- ada para k° canal, Θ é o nível de difusão, e é a saída descorrelacionada.
Supondo que a descorrelação é omitida, a fórmula 13 pode ser simplificada como a
seguir.
Fórmula 14
jk_l = RfO, Ϊ I _&_rCOS(0*_,)_ Se os valores de peso para todas as entradas mapeadas para certo canal forem es- timadas de acordo com o método mencionado acima, pode-se obter valores de peso para cada canal por intermédio do seguinte método.
1) Somando-se os valores de peso para todas as entradas mapeadas para certo canal. Por exemplo, no caso em que a entrada 1 O1 e entrada 2 O2 são introduzidas e o ca- nal de saída corresponde ao canal esquerdo L, canal central C, e canal direito R, valores e peso total atMM' Cfc(M), GRflot) podem ser obtidos conforme a seguir:
Fórmula 15
a
a
at
a
Ll
aCI+aCZ
~ aM2 *
onde ciW é um valor e peso para entrada 1 mapeada para canal esquerdo L, é um valor de peso para entrada 1 mapeada para canal central C, σα é um valor de peso para entrada 2 mapeada para canal central C, e é um valor de peso para entrada 2 ma- peada para canal direito R.
Nesse caso, apenas a entrada 1 é mapeada para o canal esquerdo, apenas a en- trada 2 é mapeada para o canal direito, a entrada 1 e a entrada 2 são mapeadas em conjun- to para o canal central. 2) Somar os valores de peso para todas as entradas mapeadas para certo canal, então dividir a soma no par de canais mais dominantes, e mapear o sinal descorrelacionado para o outro canal para efeito surround. Nesse caso, o par de canais dominantes pode cor- responder ao canal esquerdo e ao canal central no caso em que certa entrada está posicio-
nada no ponto entre a esquerda e o centro.
3) Estimar o valor de peso do canal mais dominante, fornecendo o canal correlacio- nado atenuado para o outro canal, cujo valor é um valor relativo do valor de peso estimado.
4) Utilizando valores de peso para cada par de canais, combinar adequadamente o sinal descorrelacionado, então definindo para uma informação secundária para cada canal.
1.3.2 Um caso em que a unidade de processamento de mixagem descendente in-
clui uma parte de mixagem correspondendo à matriz 2x4
As Figuras 10A a 10C são diagramas exemplares de bloco de uma primeira moda- lidade de uma unidade de processamento de mixagem descendente ilustrada na Figura 7. Como declarado anteriormente, uma primeira modalidade de uma unidade de processamen-
to de mixagem descendente 720a (em seguida simplesmente “uma unidade de processa- mento de mixagem descendente 720a”) pode ser implementação de módulo de renderiza- ção 900.
Em primeiro lugar, supondo que D11 = D21 = aD e D12 = D22 = bD, a fórmula 12 é simplificada como a seguir.
Fórmula 15
C1" Mn Eoa aD aD r°n TZ C2 _ LA. bD bD AJ A unidade de processamento de mixagem descendente de acordo com a fórmula 15 é ilustrada na Figura 10A. Com referência à Figura 10A, uma unidade de processamento de mixagem descendente 720a pode ser configurada para ignorar o sinal de entrada no ca- so de sinal de entrada mono (m), e para processar o sinal de entrada no caso de sinal de 25 entrada estéreo (L, R). A unidade de processamento de mixagem descendente 720a pode incluir uma parte de descorrelação 722a e uma parte de mixagem 724a. A parte de descor- relação 722a tem um descorrelacionador aD e um descorrelacionador bD que pode ser con- figurado para descorrelacionar o sinal de entrada. A parte de descorrelação 722a pode cor- responder a uma matriz 2x2. A parte de mixagem 724a pode ser configurada para mapear o 30 sinal de entrada e o sinal descorrelacionado para cada canal. A parte de mixagem 724a po- de corresponder a uma matriz 2x4.
Em segundo lugar, supondo que D11 = aD!, D21 = 6D1; D12 = cD2 =, e D22 = CfD2, a fórmula 12 é simplificada como a seguir.
Fórmula 15-2 10
15
20
C,
'B1 ^21 O. + CiDl A E Pt. SD1 22 _ Oi
α
A unidade de processamento de mixagem descendente de acordo com a fórmula é ilustrada na Figura 10B. Com referência à Figura 10B, uma parte de descorrelação 722’ incluindo dois descorrelacionadores D1, D2 pode ser configurada para gerar sinais descorre- lação D1(BiO^biO2)l D2(c*0!+d*02).
Em terceiro lugar, supondo que D11 = D1 , D21 - 0, D12 = 0, e D22 = D2, a fórmula 12 é simplificada como a seguir.
Fórmula 15-3
'C1' O1' + “A o] or O2 \J£\2 ^22 „ 0 .o Ad Pt. 1 A unidade de processamento de mixagem descendente de acordo com a fórmula é ilustrada na Figura 10C. Com referência à Figura 10C, uma parte de descorrelação 722” incluindo dois descorrelacionadores D1, D2 pode ser configurada para gerar os sinais descorrelacionados D1(O1)1 D2(O2).
1.3.2 Um caso em que a unidade de processamento de mixagem descendente in- clui uma parte de mixagem correspondendo à matriz 2x3
A fórmula anterior 15 pode ser representada como a seguir:
Fórmula 16
'<k _p?n EliI 'O1' JL. CiDiOl + O2) Pl. LeU ^22j Pi. BDiOl+O2) W W
21
22
a
β
Oi O,
[DCO1+ o2)J
A matriz R é uma matriz 2x3, a matriz O é uma matriz 3x1, e o C é uma matriz 2x1.
A Figura 11 é um diagrama exemplar de blocos de uma segunda modalidade de uma unidade de processamento de mixagem descendente ilustrada na Figura 7. Como pre- viamente declarado, uma segunda modalidade de uma unidade de processamento de mixa- gem descendente 720b (em seguida simplesmente “uma unidade de processamento de mi- xagem descendente 720b”) pode ser implementação do módulo de renderização 900 como a unidade de processamento de mixagem descendente 720a. Com referência à Figura 11, uma unidade de processamento de mixagem descendente 720b pode ser configurada para saltar o sinal de entrada no caso de sinal de entrada mono (m), e para processar o sinal de entrada no caso de sinal de entrada estéreo (L, R). A unidade de processamento de mixa- gem descendente 720b pode incluir uma parte de descorrelação 722b e uma parte de mixa- gem 724b. A parte de descorrelação 722b tem um descorrelacionador D que pode ser confi- gurado para descorrelacionar o sinal de entrada O1, O2 e produzir o sinal descorrelacionado 5 D(O^O2). A parte de descorrelação 722b pode corresponder a uma matriz 1x2. A parte de mixagem 724b pode ser configurada para mapear o sinal de entrada e o sinal descorrelacio- nado para cada canal. A parte de mixagem 724b pode corresponder a uma matriz 2x3 a qual pode ser mostrada como uma matriz R na fórmula 16.
Adicionalmente, a parte de descorrelação 722b pode ser configurada para descor- relacionar um sinal de diferença O1-O2 como sinal comum de dois sinais de entrada O1, O2. A parte de mixagem 724b pode ser configurada para mapear o sinal de entrada e o sinal comum descorrelacionado para cada canal.
1.3.3 Um caso em que a unidade de processamento de mixagem descendente in- clui uma parte de mixagem com várias matrizes Certo sinal de objeto pode ser audível como uma impressão similar em qualquer lu-
gar sem estar posicionado em uma posição especificada, o qual pode ser denominado “sinal de som espacial”. Por exemplo, aplauso ou ruídos de uma sala de concerto pode ser um exemplo o sinal de som espacial. O sinal de som espacial precisa reproduzido por intermé- dio de todos os altofalantes. Se o sinal de som espacial reproduz como o mesmo sinal por 20 intermédio de todos os altofalantes, é difícil perceber a característica espacial do sinal devi- do à elevada intercorrelação (IC) do sinal. Portanto, há a necessidade de acrescentar sinal correlacionado ao sinal de cada sinal de canal.
A Figura 12 é um diagrama exemplar de blocos de uma terceira modalidade de uma unidade de processamento de mixagem descendente ilustrada na Figura 7. Com referência 25 à Figura 12, uma terceira modalidade de uma unidade de processamento de mixagem des- cendente 720c (em seguida simplesmente “uma unidade de processamento de mixagem descendente 720c”) pode ser configurada para gerar sinal de som espacial utilizando sinal de entrada Oi, o qual pode incluir uma parte de descorrelação 722c com N descorrelaciona- dores e uma parte de mixagem 724c. A parte de descorrelação 722c pode ter N descorrela- 30 cionadores D1, D2.....Dn que podem ser configurados para descorrelacionar o sinal de en- trada Oi. A parte de mixagem 724c pode ter N matriz Rj, Rkl ..., R| que pode ser configurada para gerar sinais de saída Cjl Ck.....Q utilizando o sinal de entrada Oi e o sinal descorrela- cionado Dx(Oi). A matriz Rj pode ser representada como a seguinte fórmula.
Fórmula 17 Oi é o i° sinal de entrada, Rj é uma matriz mapeando i° sinal de entrada Oi para j° canal, e Cj., é j° sinal de saída . O valor é a taxa de descorrelação.
O valor pode ser estimado com base em ICC incluído no parâmetro de multica-
nal. Adicionalmente, a parte de mixagem 724c pode gerar sinais de saída com base na in-
da interface de usuário por intermédio da unidade geradora de informação 710, a qual não impõe limitação à presente invenção.
O número de descorrelacionadores (N) pode ser igual ao número de canais de saí- da. Por outro lado, o sinal descorrelacionado pode ser adicionado aos canais de saída sele- cionados pelo usuário. Por exemplo, pode-se posicionar certo sinal de som espacial à es- querda, à direita, e centro e emitir como um sinal de som espacial por intermédio do altofa- lante de canal esquerdo.
1.3.4 Um caso em que a unidade de processamento de mixagem descendente in- clui uma parte de mixagem descendente adicional A Figura 13 é um diagrama exemplar de blocos de uma quarta modalidade de uma
unidade de processamento de mixagem descendente ilustrada na Figura 7. Uma quarta mo- dalidade de uma unidade de processamento de mixagem descendente 720d (aqui simples- mente “uma unidade de processamento de mixagem descendente 720d”) pode ser configu- rada para ignorar se o sinal de entrada corresponde a um sinal mono (m). A unidade de pro- 20 cessamento de mixagem descendente 720d inclui uma parte de mixagem descendente adi- cional 722d que pode ser configurada para mixar descendentemente o sinal estéreo para ser sinal mono se o sinal de entrada corresponder a um sinal estéreo. O canal mono mixado descendentemente (m) adicional é usado como entrada para o decodificador de multicanal 730. O decodificador de multicanal 730 pode controlar a panning de objeto (especialmente 25 diafonia) mediante uso do sinal de entrada modo. Nesse caso, a unidade geradora de infor- mação 710 pode gerar um parâmetro de multicanal com base na configuração 5-1-S1 do padrão MPEG Surround.
Adicionalmente, se ganho para o sinal de mixagem descendente mono como o ga- nho de mixagem descendente artística mencionado acima ADG a Figura 2 for aplicado, po- de-se controlar a panning de objeto e o ganho de objeto mais facilmente. O ADG pode ser gerado pela unidade geradora de informação 710 com base na informação de mixagem.
formação de característica espacial compondo a taxa de descorrelação
recebida a partir
2. Mixagem ascendente de sinais de canal e controlando sinais de obieto A Figura 14 é um diagrama exemplar de blocos de uma estrutura de fluxo de bits de um sinal de áudio compactado de acordo com uma segunda modalidade da presente inven- ção. A Figura 15 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com uma segunda modalidade da presente invenção. Com refe- rência à (a) da Figura 14, o sinal de mixagem descendente a, parâmetro de multicanal β, e
parâmetro de objetivo Y são incluído na estrutura de fluxo de bits. O parâmetro de multica- nal β é um parâmetro para mixar ascendentemente o sinal de mixagem descendente. Por
outro lado, o parâmetro de objeto Y é um parâmetro para controlar a panning de objeto e o ganho de objeto. Com referência à Figura (b) da Figura 14, o sinal de mixagem descendente
a, um parâmetro padrão β’, e o parâmetro de objeto Y são incluídos na estrutura de fluxo de bits. O parâmetro padrão β’ pode incluir informação pré-estabelecida para controlar o ganho de objeto e panning de objeto. A informação pré-estabelecida pode corresponder de um co- dificador. Por exemplo, a informação pré-estabelecida pode descrever que o sinal de guitar- ra está localizado em um ponto entre a esquerda e o centro, e o nível a guitarra é ajustado 15 em certo volume, e o número do canal de saída nesse momento é ajustado para certo canal. O parâmetro padrão para cada quadro ou quadro específico pode estar presente no fluxo de bits. Informação de indicação indicando se o parâmetro padrão para esse quadro é diferente do parâmetro padrão do quadro anterior ou não pode estar presente no fluxo de bits. Medi- ante inclusão do parâmetro padrão no fluxo de bits, se pode pegar menos taxas de bits do 20 que informação secundária com o parâmetro de objeto incluído no fluxo de bits. Adicional- mente, informação de cabeçalho do fluxo de bits é omitida na Figura 14. A seqüência do fluxo de bits pode ser rearranjada.
Com referência à Figura 15, um aparelho para processar um sinal de áudio de a- cordo com uma segunda modalidade da presente invenção 1000 (em seguida simplesmente 25 “um decodificador 1000”) pode incluir um demultiplexador de fluxo de bits 1005, uma unida- de geradora de informação 1010, uma unidade de processamento de mixagem descendente 1020, e um decodificador de multicanal 1030. O demultiplexador 1005 pode ser configurado para dividir o sinal de áudio multiplexado em uma mixagem descendente a, um primeiro pa- râmetro de multicanal β, e um parâmetro de objeto Y. A unidade geradora de informação 30 1010 pode ser configurada para gerar um segundo parâmetro de multicanal utilizando um
parâmetro de objeto Y e um parâmetro de mixagem. O parâmetro de mixagem compreende uma informação de modo indicando se a primeira informação de multicanal β é aplicada à mixagem descendente processada. A informação de modo pode corresponder a uma infor- mação para seleção por um usuário. De acordo com a informação de modo, a informação 35 geradora de informação 1020 decide se transmite o primeiro parâmetro de multicanal β ou o segundo parâmetro de multicanal. A unidade de processamento de mixagem descendente 1020 pode ser configurada para determinar um esquema de processamento de acordo com a informação de modo in- cluída na informação de mixagem. Adicionalmente, a unidade de processamento de mixa- gem descendente 1020 pode ser configurada para processar a mixagem descendente α de acordo com o esquema de processamento determinado. Então a unidade de processamento de mixagem descendente 1020 transmite a mixagem descendente processada para o deco- dificador de multicanal 1030.
O decodificador de multicanal 1030 pode ser configurado para receber ou o primei- ro parâmetro de multicanal β ou o segundo parâmetro de multicanal. No caso em que o pa- râmetro padrão β’ é incluído no fluxo de bits, o decodificador de multicanal 1030 pode usar o parâmetro padrão β’ em vez do parâmetro de multicanal β.
Então, o decodificador de multicanal 1030 pode ser configurado para gerar saída de multicanal utilizando o sinal de mixagem descendente processado e o parâmetro de multi- canal recebido. O decodificador de multicanal 1030 pode ter a mesma configuração do de- codificador de multicanal mencionado primeiro 730, o que não impõe limitação à presente invenção.
3. Processamento Binaural
Um decodificador de multicanal pode ser operado em um modo binaural. Isso per- mite uma impressão de multicanal através dos fones de ouvido por intermédio de filtração de Função de Transferência Relacionada à Cabeça Humana (HRTF). Para decodificação bi- naural, o sinal de mixagem descendente e os parâmetros de multicanal são usados em combinação com filtros HRTF fornecidos ao decodificador.
A Figura 16 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com uma terceira modalidade da presente invenção. Com referên- cia à Figura 16, um aparelho para processar um sinal de áudio de acordo com uma terceira modalidade (em seguida simplesmente “um decodificador 1100”) pode compreender uma unidade geradora de informação 1110, uma unidade de processamento de mixagem des- cendente 1120, e um decodificador de multicanal 1130 com uma parte de equiparação de sincronização 1130a.
A unidade geradora de informação 1110 pode ter a mesma configuração da unida- de geradora de informação 710 ad Figura 7, com HRTF dinâmica de geração. A unidade de processamento de mixagem descendente 1120 pode ter a mesma configuração da unidade de processamento de mixagem descendente 720 da Figura 7. Como os elementos prece- dentes, o decodificador de multicanal 1130 exceto pela parte de equiparação de sincroniza- ção 1130a é o mesmo caso dos elementos anteriormente mencionados. Portanto, detalhes da unidade geradora de informação 1110, da unidade de processamento de mixagem des- cendente 1120, e do decodificador de multicanal 1130 serão omitidos. A HRTF dinâmica descreve a relação entre os sinais de objeto e sinais de altofalan- te virtual correspondendo ao azimute HRTF e ângulos de elevação, que é informação de- pendente de tempo de acordo com controle de usuário de tempo real.
A HRTF dinâmica pode corresponder a um dos próprios coeficientes de filtro HTRF, informação de coeficiente parametrizada, e informação de índice no caso em que o decodifi- cador de multicanal compreende todo o conjunto de filtros HRTF.
Não há necessidade de equiparar uma informação HRTF dinâmica com o quadro de sinal de mixagem descendente independente do tipo da HRTF dinâmica. Para equiparar informação HRTF com sinal de mixagem descendente, pode se prover três tipos de esque- mas como a seguir:
1) Inserir uma informação de indicador em cada informação HRTF e sinal de mixa- gem descendente de fluxo de bits, então combinar a HRTF com o sinal de mixagem des- cendente de fluxo de bits com base na informação de indicador inserida. Nesse esquema, é adequado que a informação de indicador possa ser incluída no campo auxiliar no padrão MPEG Surround. A informação de indicador pode ser representada como uma informação de tempo, uma informação de contador, uma informação de índice, etc.
2) Inserir informação HRTF no quadro de fluxo de bits. Nesse esquema, é possível aplicar informação de modo indicando se o quadro atual corresponde ou não a um modo padrão. Se o modo padrão o qual descreve informação HRTF do quadro atual for igual à informação HRTF do quadro anterior aplicado, pode-se reduzir as taxas de bit da informação HRTF.
2-1) Além disso, é possível definir informação de transmissão indicando se a infor- mação HRTF do quadro atual já foi transmitida. Se a informação de transmissão que des- creve a informação HRTF do quadro atual é igual à informação HRTF transmitida do quadro aplicado, também é possível reduzir as taxas de bits da informação HRTF.
3) Transmitir várias informações HRTF antecipadamente, então transmitir informa- ção de identificação indicando qual HRTF entre as informações HRTF transmitidas por cada quadro.
Além disso, no caso em que o coeficiente HTRF varia subitamente, distorção pode ser gerada. Para reduzir essa distorção, é apropriado realizar suavização de coeficiente ou do sinal renderizado.
4. Renderização
A Figura 17 é um diagrama exemplar de blocos de um aparelho para processar um sinal de áudio de acordo com uma quarta modalidade da presente invenção. O aparelho para processar um sinal de áudio de acordo com uma quarta modalidade da presente inven- ção 1200 (em seguida simplesmente “um processador 1200”) pode compreender um codifi- cador 1210 pelo lado do codificador 1200A, e uma unidade de renderização 1220 e uma unidade de síntese 1230 pelo lado do decodificador 1200B. O codificador 1210 pode ser configurado para receber sinal de objeto de multicanal e gerar uma mixagem descendente de sinal de áudio e uma informação secundária. A unidade de renderização 1220 pode ser configurada para receber informação secundária a partir do codificador 1210, configuração de reprodução e controle de usuário a partir de uma configuração de dispositivo ou uma in- terface de usuário, e gerar informação de renderização utilizando a informação secundária, configuração de reprodução, e controle de usuário. A unidade de síntese 1230 pode ser con- figurada para sintetizar sinal de saída de multicanal utilizando a informação de renderização e o sinal de mixagem descendente recebido a partir de um codificador 1210.
4.1 Aplicando efeito-modo
O efeito-modo é um modo para sinal remixado ou reconstruído. Por exemplo, modo ao vivo, modo banda de música, modo karaokê, etc. podem estar presentes. A informação de efeito-modo pode corresponder a um conjunto de parâmetros de mixagem gerado por um produtor, outro usuário, etc. Se a informação de efeito-modo for aplicada, um usuário final não tem que controlar a panning de objeto e ganho de objeto integralmente porque o usuário pode selecionar uma das informações de efeito-modo predeterminadas.
Dois métodos de gerar uma informação de efeito-modo podem ser distinguidos. Em primeiro lugar, é possível que uma informação de efeito-modo seja gerada pelo codificador 1200A e transmitida para o decodificador 1200B. Em segundo lugar, a informação de efeito- modo pode ser gerada automaticamente pelo lado do decodificador. Detalhes dos dois mo- dos serão descritos como a seguir.
4.1.1 Transmitindo informação de efeito-modo para o lado de decodificador
A informação de efeito-modo pode ser gerada em um codificador 1200A por inter- médio de um produtor. De acordo com esse método, o decodificador 1200B pode ser confi- gurado para receber informação secundária incluindo a informação de efeito-modo e emitir interface de usuário através do qual um usuário pode selecionar uma das informações de efeito-modo. O decodificador 1200B pode ser configurado para gerar canal de saída com base na informação de efeito-modo selecionada.
Além disso, é inadequado ouvir sinal de mixagem descendente no estado em que se encontra para um ouvinte no caso em que o codificador 1200A realiza a mixagem des- cendente do sinal para elevar a qualidade dos sinais de objeto. Contudo, se a informação de efeito-modo for aplicada no decodificador 1200B, é possível reproduzir o sinal de mixagem descendente como a qualidade máxima.
4.1.2 Gerando informação de efeito-modo no lado de decodificador
A informação de efeito-modo pode ser gerada em um decodificador 1200B. O de- codificador 1200B pode ser configurado para pesquisar informações de efeito-modo apropri- adas para o sinal de mixagem descendente. Então, o decodificador 1200B pode ser configu- rado para selecionar um dos efeitos-modos pesquisados por ele próprio (modo de ajuste automático) ou habilitar que um usuário selecione um deles (modo de seleção de usuário). Então o decodificador 1200B pode ser configurado para obter informação de objeto (número de objetos, nomes de instrumento, etc.) incluída na informação secundária, e objeto de con- trole com base na informação de efeito-modo selecionada e na informação de objeto.
Adicionalmente, pode-se controlar objetos similares globalmente. Por exemplo, ins- trumentos associados a um ritmo podem ser objetos similares no caso de “modo de impres- são de ritmo”. Controlar globalmente significa controlar cada objeto simultaneamente mais propriamente do que controlar objetos utilizando o mesmo parâmetro.
Além disso, pode-se controlar o objeto com base na configuração do decodificador e ambiente do dispositivo (incluindo se fones de ouvido ou altofalantes). Por exemplo, objeto correspondendo à melodia principal pode ser enfatizado no caso em que o ajuste de volume do dispositivo está baixo, objeto correspondendo à melodia principal pode ser reprimido no caso em que o ajuste do volume do dispositivo está alto.
4.2 Tipo de objeto do sinal de entrada pelo lado do codificador
O sinal de entrada introduzido em um codificador 1200A pode ser classificado em três tipos como a seguir.
1) Objeto mono (objeto de canal mono)
Objeto mono é o tipo mais geral de objeto. É possível sintetizar o sinal de mixagem descendente interna simplesmente mediante soma dos objetos. Também é possível sinteti- zar o sinal de mixagem descendente interno utilizando ganho de objeto e panning de objeto que pode ser um de controle de usuário e informação provida. Ao gerar o sinal de mixagem descendente interno, também é possível gerar informação de renderização utilizando ao menos uma característica de objeto, entrada de usuário, e informação provida com objeto.
No caso em que o sinal de mixagem descendente externa está presente, é possível extrair e transmitir informação indicando a relação entre mixagem descendente externa e o objeto.
2) Objeto estéreo (objeto de canal estéreo)
É possível sintetizar o sinal de mixagem descendente interna simplesmente medi- ante soma de objetos como o caso do objeto mono mencionado primeiro. Também é possí- vel sintetizar o sinal de mixagem descendente interna utilizando ganho de objeto e panning de objeto que pode ser um de controle de usuário e informação provida. No caso em que o sinal de mixagem descendente corresponde a um sinal mono, é possível que o codificador 1200A utilize objeto convertido em sinal mono para gerar sinal de mixagem descendente. Nesse caso, pode-se extrair e transferir informação associada ao objeto (por exemplo: in- formação de panning em cada domínio de tempo-frequência) na conversão para sinal mono. Como o objeto mono precedente, ao gerar sinal de mixagem descendente interna, também é possível gerar informação de renderização utilizando ao menos uma de: característica de objeto, entrada de usuário, informação provida com o objeto. Como o objeto mono prece- dente, no caso em que o sinal de mixagem descendente externa está presente, é possível extrair e transmitir informação indicando a relação entre mixagem descendente externa e o objeto.
3) Objeto de multicanal
No caso de objeto de multicanal, pode-se realizar o método mencionado acima descrito com objeto mono e objeto estéreo. Adicionalmente, pode-se introduzir objeto de multicanal com uma forma de MPEG Surround. Nesse caso, pode-se gerar mixagem des- 10 cendente baseado em objeto (por exemplo, mixagem descendente SAOC) utilizando canal de mixagem descendente de objeto, e usar informação de multicanal (por exemplo: informa- ção espacial em MPEG Surround) para gerar informação de multicanal e informação de ren- derização. Portanto, é possível reduzir a quantidade de computação porque o objeto de mul- ticanal presente na forma de MPEG Surround não tem que decodificar e codificar utilizando 15 codificador orientado para objeto (por exemplo, codificador SAOC). Se mixagem descenden- te de objeto corresponder a estéreo e mixagem descendente baseada em objeto (por exem- plo: mixagem descendente SAOC) corresponder a mono nesse caso, é possível aplicar o método mencionado acima descrito com objeto estéreo.
4) Esquema de transmissão para tipo variável de objeto
Como declarado anteriormente, tipo variável de objeto (objeto mono, objeto estéreo,
e objeto de multicanal) pode ser transmitido a partir do codificador 1200A para o decodifica- dor 1200B. O esquema de transmissão para tipo variável de objeto pode ser provido como a seguir:
Com referência à Figura 18, quando a mixagem descendente inclui múltiplos obje- tos, uma informação secundária inclui informação para cada objeto. Por exemplo, quando múltiplos objetos consistem ern enésimo objeto mono (A), canal esquerdo de N+1° objeto (B), e canal direito de N+1° objeto (C), uma informação secundária inclui informação para três objetos (A, B, C).
A informação secundária pode compreender informação de indicação de correlação 30 indicando se um objeto é parte de um objeto estéreo ou objeto de multicanal, por exemplo, objeto mono, um canal (L ou R) de objeto estéreo, e assim por diante. Por exemplo, infor- mação de indicação de correlação é “0” se objeto mono estiver presente, informação de in- dicação de correlação é “1” se um canal de objeto estéreo estiver presente. Quando uma parte de objeto estéreo e a outra parte de objeto estéreo forem transmitidas em sucessão, 35 informação de indicação de correlação para outra parte de objeto estéreo pode ser qualquer valor (por exemplo: “0”, “1” ou tudo quanto). Além disso, informação de indicação de correla- ção para outra parte de objeto estéreo pode não ser transmitida. Além disso, no caso de objeto de multicanal, informação de indicação de correlação para uma parte de objeto de multicanal pode ser um valor descrevendo o número de objeto de multicanal. Por exemplo, no caso de objeto de canal 5.1, informação de indicação de cor- relação para canal esquerdo do canal 5.1 pode ser “5”, informação de indicação de correla- ção para o outro canal (R, Lr, Rr, C, LFE) do canal 5.1 pode ser ou “0” ou não transmitido.
4.3 Atributo de objeto
O objeto pode ter os três tipos de atributo como a seguir:
a) Objeto único
Objeto único pode ser configurado como uma fonte. Ele é capaz de empregar um parâmetro ao objeto único para controlar panning de objeto e ganho de objeto na geração de sinal de mixagem descendente e reprodução. O “um parâmetro” pode significar não ape- nas um parâmetro para todo o domínio de tempo/frequência, mas também um parâmetro para cada partição de tempo/frequência.
b) Objeto agrupado
Como o objeto único pode ser configurado como mais do que duas fontes. Pode-se
empregar um parâmetro para objeto agrupado para controlar panning de objeto e ganho de objeto embora objeto agrupado seja introduzido como ao menos duas fontes. Detalhes do objeto agrupado devem ser explicados com referência à Figura 19 como a seguir: Com refe- rência à Figura 19, um codificador 1300 inclui uma unidade de agrupamento 1310 e uma 20 unidade de mixagem descendente 1320. A unidade de agrupamento 1310 pode ser configu- rada para agrupar ao menos dois objetos entre entrada de multiobjeto introduzida, com base em uma informação de agrupamento. A informação de agrupamento pode ser gerada pelo produtor pelo lado do codificador. A unidade de mixagem descendente 1320 pode ser confi- gurada para gerar sinal de mixagem descendente utilizando o objeto agrupado gerado pela 25 unidade de agrupamento 1310. A unidade de mixagem descendente 1320 pode ser configu- rada para gerar uma informação secundária para objeto agrupado.
c) Objeto em combinação
Objeto em combinação é um objeto combinado com ao menos uma fonte. É possí- vel controlar a panning de objeto e ganho globalmente, mas manter inalterada a relação en- 30 tre os objetos combinados. Por exemplo, no caso de tambor, é possível controlar o tambor, mas manter inalterada a relação entre o tambor base, tam-tam, e símbolo. Por exemplo, quando o tambor base está localizado no ponto central e o símbolo está localizado no ponto à esquerda, é possível posicionar o tambor base no ponto à direita e posicionar o símbolo no ponto entre o centro e a direita no caso em que o tambor é deslocado para a direita.
Informação de relação entre objetos combinados pode ser transmitida para um de-
codificador. Por outro lado, o decodificador pode extrair a informação de relação utilizando objeto em combinação. 4.4 Controlando hierarquicamente os objetos Pode-se controlar hierarquicamente os objetos. Por exemplo, após controlar a bate- ria, pode-se controlar cada sub-elemento da bateria. Para controlar hierarquicamente os objetos, três esquemas são providos como a seguir:
a) Ul (interface de usuário)
Apenas o elemento representativo pode ser exibido sem exibir todos os objetos. Se o elemento representativo for selecionado por um usuário, todos os objetos são exibidos.
b) Agrupamento de objeto
Após agrupar os objetos para representar elementos representativos, é possível controlar elemento representativo para controlar todos os objetos agrupados como elemento representativo. Informação extraída no processo de agrupamento pode ser transmitida para um decodificador. Além disso, a informação de agrupamento pode ser gerada em um deco- dificador. Aplicar informação de controle globalmente pode ser realizado com base na infor- mação de controle predeterminada para cada elemento.
c) Configuração de objeto
É possível usar o objeto em combinação mencionado acima. Informação referente ao elemento de objeto em combinação pode ser gerada ou em um codificador ou em um decodificador. Informação relacionada aos elementos a partir de um codificador pode ser transmitida como uma forma diferente a partir da informação relacionada ao objeto em com- binação.
Será evidente para aqueies versados na técnica que diversas modificações e varia- ções podem ser feitas na presente invenção sem se afastar do espírito ou escopo das in- venções. Assim, pretende-se que a presente invenção abranja as modificações e variações dessa invenção desde que elas estejam dentro do escopo das reivindicações anexas e de seus equivalentes.
APLICABILIDADE INDUSTRIAL
Consequentemente, a presente invenção é aplicável para codificar e decodificar um sinal de áudio.