BRPI0816556A2

BRPI0816556A2 - codificação de áudio usando downmix

Info

Publication number: BRPI0816556A2
Application number: BRPI0816556-4A
Authority: BR
Inventors: Oliver Hellmuth; Juergen Herre; Leonid Terentiev; Andreas Hoelzer; Cornelia Falch; Johannes Hilpert
Original assignee: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forsschung E.V.
Priority date: 2007-10-17
Filing date: 2008-10-17
Publication date: 2019-03-06
Also published as: KR101244515B1; TWI395204B; AU2008314029B2; US8407060B2; AU2008314030B2; US8280744B2; KR101244545B1; CN101821799B; KR20120004547A; RU2474887C2; EP2076900A1; US8538766B2; AU2008314030A1; CA2702986A1; BRPI0816557A2; CA2702986C; CN101849257A; WO2009049896A1; TW200926147A; JP2011501544A

Abstract

codificação de áudio usando downmix é descrito um decodificador de áudio para decodificar um sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo nele codificados, o sinal multi-áudio-objeto consistindo em um sinal de downmix (56) e informações auxiliares (58) f as informações auxiliares compreendendo informações de nível ( 60) do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/ frequência ( 42), e um sinal residual ( 62) que especifica valores de nível residual em uma segunda resolução predeterminada de tempo/frequência, o decodificado r de áudio compreendendo meios (52) para a computação de coeficientes de predição (64) com base nas informações de nível (60); e meios (54) para upmixing do sinal de downmix (56) com base nos coeficientes de predição ( 64) e no sinal residual ( 62) para obter um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo.

Description

Descrição

O presente pedido se refere à codificação de áudio usando o downmixing de sinais.

Foram propostos muitos algoritmos de codificação de áudio para codificar ou comprimir efetivamente dados de áudio de um canal, isto é, sinais de áudio mono. Usando a psicoacústica, amostras de áudio são pesadas de forma adequada, quantificadas ou mesmo ajustadas em zero para remover a irrelevância, por exemplo, do sinal de áudio PCM codificado. É também feita a remoção da redundância.

Como outra etapa, foi explorada a similaridade entre os canais esquerdo e direito dos sinais de áudio estéreo para efetivamente codificar/comprimir os sinais de áudio estéreo.

Entretanto, novas aplicações colocam outras demandas sobre os algoritmos de codificação de áudio. Por exemplo, na teleconferência, games de computador, desempenhos musicais e similares, vários sinais de áudio que são parcialmente ou até totalmente descorrelacionados devem ser transmitidos em paralelo. Para manter a necessária taxa de bits para a codificação desses sinais de áudio suficientemente baixos para serem compatíveis com os aplicativos de transmissão com baixa taxa de bits, recentemente, foram propostos codecs de áudio que realizam o downmix dos múltiplos sinais de áudio de entrada em um sinal de downmix, como um downmix de sinal estéreo ou até mono. Por exemplo, o MPEG Surround padrão realiza o downmix dos canais de entrada no sinal de downmix da forma indicada no padrão. O downmix é feito com o uso dos denominados boxes OTT”¹ e TTT’¹ para o downmix de dois sinais em um e de três sinais em dois, respectivamente. Para fazer o downmix de mais que três sinais, é usada uma estrutura hierárquica desses boxes. Cada box OTT’¹ produz, além do sinal de downmix mono, diferenças de níveis de canais entre os dois canais de entrada, assim como parâmetros de coerência intercanais/correlação cruzada representando a coerência ou a correlação cruzada entre os dois canais de entrada. Os parâmetros são produzidos juntamente com o sinal de downmix do codificador MPEG Surround dentro do fluxo de dados MPEG Surround. De forma 10 similar, cada box TTT^-1 transmite coeficientes de predição de canais que permitem a recuperação dos três canais de entrada do sinal estéreo downmix resultante. Os coeficientes de predição de canais também são transmitidos como informações auxiliares dentro do fluxo de dados do MPEG Surround. O decodificador MPEG Surround 15 realiza o upmix do sinal de downmix usando as informações auxiliares transmitidas e recupera a entrada do canal original no codificador MPEG Surround.

Entretanto, o MPEG Surround, infelizmente, não preenche todos os requisitos exigidos por muitas aplicações. Por 20 exemplo, o decodificador MPEG Surround é dedicado ao upmix do sinal de downmix do codificador MPEG Surround, de maneira que os canais de entrada do codificador MPEG Surround são recuperados no estado. Em outras palavras, o fluxo de dados MPEG Surround é dedicado a fazer o play back com o uso da configuração do alto25 falante que tiver sido usada para a codificação...

Entretanto, de acordo com algumas implicações, seria favorável se a configuração do alto-falante pudesse ser mudada no lado do decodificador.

Para a solução dessas últimas necessidades, é projetado no presente o padrão de codificação de objeto de áudio espacial (SAOC). Cada canal é tratado como um objeto individual, e todos os objetos são downmixados em um sinal de downmix. Entretanto, além de os objetos individuais também poderem compreender fontes de som individuais como, por exemplo, trilhas de instrumentos ou vocais. Entretanto, diferindo do decodificador MPEG Surround, o decodificador SAOC é livre para realizar individualmente o upmix do sinal de downmix e fazer o replay dos objetos individuais em qualquer configuração do alto-falante. Para permitir que o decodificador SAOC recupere os objetos individuais que tiverem sido codificados no fluxo de dados SAOC, diferenças de nível de objeto e, para objetos que formam em conjunto um sinal estéreo (ou multi-canal) , são transmitidos parâmetros interobjetos de correlação cruzada como informações auxiliares dentro do fluxo de bits SAOC. Além disso, o decodificador/transcodificador SAOC é dotado de informações que revelam como os objetos individuais foram downmixados no sinal de downmix. Assim, no lado do decodificador, é possível recuperar os canais SAOC individuais e submeter esses sinais em qualquer configuração do alto-falante utilizando as informações de submissão controladas pelo usuário.

Entretanto, apesar de o codec SAOC ter sido projetado para tratar individualmente os objetos de áudio, algumas aplicações são mais exigentes. Por exemplo, aplicações de Karaokê exigem uma separação completa do sinal de áudio de fundo do sinal de áudio de primeiro plano ou sinais de áudio de primeiro plano. Vice versa, no modo solo, os objetos de primeiro plano devem ser separados do objeto de fundo. Entretanto, devido ao igual tratamento dos objetos individuais de áudio, não foi possível remover completamente os objetos de fundo ou os objetos de primeiro plano, respectivamente, do sinal de downmix.

Assim, é o objetivo da presente invenção prover um codec de áudio usando o downmixing de sinais de áudio, de forma a ser obtida uma melhor separação dos objetos individual como, por exemplo, em uma aplicação Karaokê de modo solo.

Esse objetivo é alcançado por um decodificador de áudio, de acordo com a reivindicação 1, um codificador de áudio de acordo com a reivindicação 18, um método de decodificação de acordo com a reivindicação 20, um método de codificação de acordo com a reivindicação 21, e um sinal multi-áudio-objeto de acordo com a reivindicação 23.

Com referência às Figuras, as configurações preferidas do presente pedido são descritas em mais detalhes. Entre essas Figuras:

A Fig. 1 mostra um diagrama de blocos de uma disposição codificador/decodificador SAOC onde podem ser implementadas as configurações da presente invenção;

A	Fig.	2 mostra um diagrama	esquemático e
ilustrativo de uma	representação espectral de um	sinal de áudio
mono;..
A	Fig.	3 mostra um diagrama de	blocos de um

decodificador de áudio de acordo com uma configuração da presente invenção;

A Fig. 4 mostra um diagrama de blocos de um codificador de áudio de acordo com uma configuração da presente invenção;

A Fig. 5 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo, como configuração de comparação;

A Fig. 6 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com uma configuração;

A Fig. 7a mostra um diagrama de blocos de um codificador de áudio para uma aplicação de modo Karaokê/Solo, de acordo com uma configuração de comparação;

A Fig. 7b mostra um diagrama de blocos de um codificador de áudio para uma aplicação de modo Karaokê/Solo, de acordo com uma configuração;

As Figs. 8a e b mostram plotagens de resultados de medições de qualidade;

A Fig. 9 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo, com propósitos de comparação;

A Fig. 10 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com uma configuração;

A Fig. 11 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com outra configuração;

A Fig. 12 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com outra configuração;

As Figs. 13a a h mostram tabelas que refletem uma possível sintaxe do fluxo de bits SAOC de acordo com uma configuração da presente invenção;

A Fig. 14 mostra um diagrama de blocos de um decodificador de áudio para -uma aplicação de modo Karaokê/Solo, de acordo com uma configuração; e

A Fig. 15 mostra uma tabela que reflete uma possível sintaxe para a sinalização da quantidade de dados gastos para transferir o sinal residual.

Antes que as configurações da presente invenção 10 sejam descritas abaixo em mais detalhes, o codec SAOC e os parâmetros SAOC transmitidos em um fluxo de bits SAOC são apresentados para facilitar a compreensão das configurações específicas ressaltadas abaixo em mais detalhes.

A Fig. 1 mostra um arranjo geral de um » 15 codificador SAOC 10 e de um decodificador SAOC 12. O codificador

SAOC 10 recebe como entrada N objetos, isto é, sinais de áudio 14i a 14_n. Em particular, o codificador 10 compreende um downmixer 16

	que recebe os	sinais	de áudio	14i	a 1 4_n	e	realiza o downmix desses
	em um sinal	de downmix 18.	Na	Fig.	1,	o sinal de	downmix é
20	mostrado de	forma	exemplar	como um	sinal estéreo	downmix.
	Entretanto, é	também	possível	um	sinal	de	downmix mono.	Os canais

do sinal estéreo downmix 18 são indicados como L0 e RO, no caso de um mono downmix do mesmo ser simplesmente indicado como L0. Para permitir que o decodificador SAOC 12 recupere os objetos individuais 14i a 14_N, o downmixer 16 fornece ao decodificador SAOC as informações auxiliares, incluindo os parâmetros SAOC com as diferenças de nível de objeto (OLD), parâmetros inter-objetos de correlação cruzada (IOC), valores de ganho downmix (DMG) e diferenças de níveis de canais downmix (DCLD). As informações auxiliares 20 incluindo os parâmetros SAOC, junto com o sinal de downmix 18, formam o fluxo de dados de saída SAOC recebido pelo decodificador SAOC 12.

O decodificador SAOC 12 compreende um upmixer 22 que recebe o sinal de downmix 18 assim como as informações auxiliares 20 para recuperar e submeter os sinais de áudio 14_x e 14_n em qualquer conjunto selecionado de usuários de canais 24_x a 24«, com o rendering sendo indicado pelas informações de rendering 10 26 enviadas para o decodificador SAOC 12.

Os sinais de áudio 14_x a 14_N podem ser enviados ao downmixer 16 em qualquer domínio de codificação como, por exemplo, em domínio de tempo ou espectral. No caso, os sinais de áudio 14_xa 14_n são enviados ao downmixer 16 no domínio de tempo, como 15 codificado PCM, o downmixer 16 usa um banco de filtros, como um banco QMF híbrido, isto é, um banco de filtros de modulação exponencialmente complexa com uma extensão de filtros Nyquist para as bandas de frequências mais baixas para aí aumentar a resolução das frequências, para transferir os sinais no domínio espectral em 20 que os sinais de áudio são representados em várias sub-bandas associadas a diferentes porções espectrais, em uma resolução específica de banco de filtros. Se os sinais de áudio 14_x a 14_N já estiverem na representação esperada pelo downmixer 16, este não precisa realizar a decomposição espectral.

A Fig. 2 mostra um sinal de áudio no recém mencionado domínio espectral. Como pode ser visto, o sinal de áudio é representado como uma pluralidade de sinais de sub-banda. Cada sinal de sub-banda 30_x a 30_P consiste de uma sequência de valores de sub-banda indicados pelos pequenos boxes 32. Como pode ser visto, os valores de sub-banda 32 dos sinais de sub-bandas 30i a 30_P são sincronizados entre si em tempo, de forma que para cada um dos slots de tempo do banco de filtros consecutivos 34 cada 5 sub-banda 30i a 30_P compreende exatamente um valor de sub-banda 32.

Como ilustrado pelo eixo de frequências 36, os sinais de subbandas 30i a 30_P estão associados a diferentes regiões de frequência, e como ilustrado pelo eixo do tempo 38, os slots de

tempo do banco de	filtros 34	são	dispostos	de forma	consecutiva	no
10 tempo.
	Como	acima	ressaltado, o	downmixer	16	computa	os
parâmetros SAOC	dos	sinais	de	áudio de	entrada	14!	a 14_N.	0

downmixer 16 realiza esta computação em uma resolução tempo/frequência que pode ser reduzida com relação à resolução i 15 tempo/frequência original como determinada pelos slots de tempo do banco de filtros 34 e pela decomposição de sub-banda de um certo valor, com este certo valor sendo sinalizado para o lado do decodificador dentro das informações auxiliares 20 pelos respectivos elementos de sintaxe bsFrameLength e bsFreqRes. Por exemplo, grupos de slots de tempo do banco de filtros consecutivos podem formar um quadro 40. Em outras palavras, o sinal de áudio pode ser dividido em quadros que se sobrepõem no tempo ou que sejam imediatamente adjacentes no tempo, por exemplo. Neste caso, bsFrameLength pode definir um número de slots paramétricos de tempo 41, isto é, a unidade de tempo em que os parâmetros SAOC como OLD e IOC, são computados em um quadro SAOC 40 e bsFreqRes pode definir o número de bandas processadoras de frequência para as quais os parâmetros SAOC são computados. Por essa medição, cada quadro é dividido nos tiles de tempo/frequência exemplificados na

Fig. 2 pelas linhas tracejadas 42...

O downmixer 16 calcula os parâmetros SAOC de acordo com as seguintes fórmulas. Em particular, o downmixer computa diferenças de nível de objeto para cada objeto como

OLD, =----------Η ΣΣ«“

	^J k	n kem	/
onde	as	somas	e	os índices n	e
respectivamente, passam	por	todos	os	slots de tempo do	banco
filtros 34, todas as	sub-	bandas	de	banco de filtros	30

k, de que determinado pertencem a tile de tempo/frequência 42. Portanto, as energias de todos os valores de sub-banda Xi de um sinal ou objeto de áudio são somadas e normalizadas no maior valor de energia daquele tile entre todos os objetos ou sinais de áudio.

Além disso, o downmixer SAOC 16 pode computar uma medida de similaridade dos correspondentes tiles de tempo/frequência de pares de diferentes objetos de entrada 14_x a

14_n. Apesar de o downmixer

SAOC 16 poder computar a medida de similaridade entre todos os pares de objetos de entrada 14χ a 14_N, o downmixer também pode suprimir a sinalização das medidas de similaridade ou restringir a computação das medidas de similaridade a objetos de áudio 14_: a 14_N que formam os canais esquerdo ou direito de um canal estéreo comum. Em qualquer caso, a medida de similaridade é denominada de parâmetro de correlação cruzada inter-objetos IOCi,j. A computação é a seguinte:

IOC, J=IOC^=Ren kem

n,k n,k*

C Xj novamente com os indices nek percorrendo todos

os valores de sub-banda que	pertencem a	um determinado tile	de
tempo/frequência	42, e i e	j	indicando	um determinado par	de
objetos de áudio	14i a 14_n.
	0 downmixer	16	realiza o	downmix dos objetos	14i

a 14_n usando os fatores de ganho aplicados a cada objeto 14i a 14_N. Isto é, um fator de ganho Di é aplicado ao objeto i e então todos os objetos assim pesados 14i a 14_N são somados para obter um sinal de downmix mono. No caso de um sinal estéreo downmix, caso exemplificado na Fig. 1, é aplicado um fator de ganho Di,í ao objeto i e então todos esses objetos amplificados de ganho são somados para obter o canal downmix esquerdo L0, sendo os fatores de ganho D₂,í aplicados ao objeto i e então os objetos de ganho amplificado são somados para obter o canal downmix direito RO.

Essa indicação downmix é sinalizada para o lado do decodificador por meio de ganhos downmix DMGí e, no caso de um sinal estéreo downmix, as diferenças de níveis de canais downmix

DCLDi.

Os ganhos downmix são calculados de acordo com:

DMG, = 201og_l0 (D_z+£·) , (mono downmix),

DMG,= 101og_w (Z),², +D],+£) , (estéreo downmix), onde ε é um pequeno número como IO'⁹.

Para o DCLD aplica-se a seguinte fórmula:

DCLD. = 201og₁₀

No modo normal, o downmixer 16 gera o sinal de downmix de acordo com:

para urn mono downmix, ou

Έθ' 'Objf

S^)bJ^ para um estére

Assim, nas parâmetros OLD e IOC são uma parâmetros DMG e DCLD são uma que D pode variar com o tempo.

Assim, no mo > downmix, respectivamente.

formulas supramencionadas, os função dos sinais de áudio e os função de D. Aliás, deve-se notar o normal, o downmixer 16 faz a mistura tratando downmix de todos os objetos igualmente todos os

O upmixer

14! a ob j etos faz e a implementação das

14_n sem preferências, isto é inversão do procedimento informações de rendering representadas pela matriz A em uma etapa de computação, isto é, = AED~\DED-^^X 'LO

RO onde a matriz E é uma função dos parâmetros OLD e

IOC...

Em outras palavras, no modo normal, não é feita nenhuma classificação dos objetos 14i a 14_N em BGO, isto é, objeto de fundo, ou FGO, isto é, objeto de primeiro plano. As informações com as quais o objeto será apresentado na saída do upmixer 22 devem ser fornecidas pela matriz de rendering A. Se, por exemplo, um objeto de índice 1 for o canal esquerdo de um objeto estéreo de fundo, o objeto com índice 2 seria seu canal direito, e o objeto com índice 3 seria o objeto de primeiro plano, então a matriz de rendering A seria

		'bgoG
Obj₂	=	bgo_r	-> A =
S^)bh,

o (P

0, para produzir um sinal de saída do tipo Karaokê.

Entretanto, como já indicado acima, a transmissão de BGO e FGO com o uso desse modo normal do codec SAOC não alcança resultados aceitáveis.

As Figs. 3 e 4, descrevem uma configuração da presente invenção que supera a deficiência descrita. O decodificador e o codificador descritos nessas Figs. e suas funcionalidades associadas podem representar um modo adicional como um modo ampliado no qual o codec SAOC da Fig. 1 pudesse ser comutável. Serão posteriormente apresentados os exemplos da última possibilidade.

A Fig. 3 mostra um decodificador 50. O decodificador 50 compreende meios 52 para computar os coeficientes de predição e os meios 54 para realizar o upmix de um sinal de downmix.

decodificador de áudio 50 da Fig. 3 é dedicado à decodificação de um sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo neles codificado. O sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo podem ser um sinal de áudio mono ou estéreo, respectivamente. 0 sinal de áudio do primeiro tipo, por exemplo, é um objeto de fundo, considerando que o sinal de áudio do segundo tipo é um objeto de primeiro plano. Isto é, a configuração da Fig. 3 e da Fig. 4 não está necessariamente restrita a aplicações de Karaokê/Solo. Em vez disso, o decodificador da Fig. 3 e o codificador da Fig. 4 podem ser usados com vantagens em outros locais.

O sinal multi-áudio-objeto consiste de um sinal de downmix 56 e das informações auxiliares 58. As informações auxiliares 58 compreendem informações de nível 60 descrevendo, por exemplo, as energias espectrais do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo na primeira resolução predeterminada de tempo/frequência como, por exemplo, a resolução tempo/frequência 42. Em particular, as informações de nível 60 podem compreender um valor escalar normalizado da energia espectral por objeto e tile de tempo/frequência. A normalização pode estar relacionada com o maior valor da energia espectral entre os sinais de áudio do primeiro e o segundo tipo no respectivo tile de tempo/frequência. A última possibilidade resulta em OLDs para representar as informações de nível, também denominados na presente de informações de diferenças de nível. Apesar de as seguintes configurações usarem OLDs, estas podem, apesar de não declarado explicitamente na presente, usar outra representação de energia espectral normalizada.

As informações auxiliares 58 compreendem também um sinal residual 62 especificando valores de nível residual na segunda resolução predeterminada de tempo/frequência que podem ser iguais ou diferentes à da primeira resolução predeterminada de tempo/frequência.

Os meios 52 para a computação de coeficientes de predição são configurados para computarem os coeficientes de predição com base nas informações de nível 60. Além disso, os meios 52 podem computar os coeficientes de predição ainda com base nas informações de intercorrelação também compreendidas pelas informações auxiliares 58. Mais ainda, os meios 52 podem usar informações de indicação downmix com variação de tempo, compreendidas pelas informações auxiliares 58 para a computação dos coeficientes de predição. Os coeficientes de predição computados pelos meios 52 são necessários para a recuperação ou o upmixing dos objetos de áudio originais ou dos sinais de áudio do sinal de downmix 56.

Assim, os meios 54 para o upmixing são configurados para realizar o upmix do sinal de downmix 56 com base nos coeficientes de predição 64 recebidos dos meios 52 e, opcionalmente, do sinal residual 62. Ao usar o residual 62, o decodificador 50 pode até melhor suprimir conversas cruzadas do sinal de áudio de um tipo para o sinal de áudio do outro tipo. Além do sinal residual 62, meios 54 também podem usar a indicação downmix de variação de tempo para realizar o upmix do sinal de downmix. Além disso, os meios 54 para upmixing podem usar a entrada do usuário 66 para decidir quais dos sinais de áudio recuperados do sinal de downmix 56 devem ser realmente enviados para a saída 68 ou até certo ponto. Como um primeiro extremo, a entrada de usuário 66 pode instruir os meios 54 a simplesmente enviarem o primeiro sinal de upmix aproximando o sinal de áudio do primeiro tipo. O oposto é verdade para o segundo extremo de acordo com quais meios 54 devem somente enviar o segundo sinal de upmix aproximando o sinal de áudio do segundo tipo. São possíveis opções intermediárias, assim como, de acordo com qual mistura de ambos os sinais de upmix é submetida para envio para a saída 68.

A Fig. 4 mostra uma configuração de um codificador de áudio adequado para a geração de um sinal de objeto multi-áudio decodificado pelo decodificador da Fig. 3. O codificador da Fig. 4 que é indicado pelo sinal de referência 80, pode compreender meios 82 para decompor espectralmente no caso em que os sinais de áudio 84 a serem codificados não estejam no domínio espectral. Entre os sinais de áudio 84, por sua vez, há pelo menos um sinal de áudio de um primeiro tipo e pelo menos um sinal de áudio de um segundo tipo. Os meios 82 para a decomposição espectral são configurados para decompor espectralmente cada um desses sinais 84 em uma representação como mostrada na Fig. 2, por exemplo. Isto é, os meios 82 para a decomposição espectral decompor espectralmente os sinais de áudio 84 na resolução predeterminada de tempo/frequência. Os meios 82 podem compreender um banco de filtros, como um banco QMF híbrido...

O codificador de áudio 80 compreende ainda meios 8 6 para a computação das informações de nível, meios 88 para o downmixing, meios 90 para a computação dos coeficientes de predição e meios 92 para o estabelecimento de um sinal residual. Além disso, o codificador de áudio 80 pode compreender meios para a computação das informações de intercorrelação, isto é, dos meios 94. Os meios 86 computam as informações de nível que descrevem o nível do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo na primeira resolução predeterminada de tempo/frequência do sinal de áudio como enviada opcíonalmente pelos meios 82. De forma similar, os meios 88 realizam o downmix dos sinais de áudio. Os meios 88, portanto, enviam o sinal de downmix 56. Os meios 86 também enviam as informações de nível 60. Os meios 90 para a computação dos coeficientes de predição atuam de forma similar aos meios 52. Isto é, os meios 90 computam os coeficientes de predição das informações de nível 60 e enviam os coeficientes de predição 64 para os meios 92. Os meios 92, por sua vez, estabelecem o sinal residual 62 com base no sinal de downmix 56 nos coeficientes de predicação 64 e nos sinais originais de áudio na segunda resolução predeterminada de tempo/frequência, de maneira que o upmixing do sinal de downmix 56 com base em ambos os coeficientes de predição 64 e no sinal residual 62 resulta em um primeiro sinal de áudio de upmix aproximando o sinal de áudio do primeiro tipo e o segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo, a aproximação sendo melhorada quando comparada à ausência do sinal residual 62.

O sinal residual 62 e as informações de nível 60, são compreendidos pelas informações auxiliares 58 que formam, junto com o sinal de downmix 56, o sinal multi-áudio-objeto a ser

decodificado pelo decodificador	Fig. 3.
Como mostrado	na Fig. 4, e de	forma	análoga	à
descrição da Fig. 3, os meios	90 também podem	usar a	saída	de
informações de intercorrelação	pelos meios 94	e/ou a	saída	da
indicação downmix de variação	de tempo pelos	meios	88 para

computarem o coeficiente de predição 64. Além disso, os meios 92 para o estabelecimento do sinal residual 62 também podem usar a saída da indicação downmix de variação de tempo pelos meios 88 para estabelecer aproximadamente o sinal residual 62.

Novamente, nota-se que o sinal de áudio do primeiro tipo pode ser um sinal de áudio mono ou estéreo. O mesmo se aplica para o sinal de áudio do segundo tipo. O sinal residual 62 pode ser sinalizado dentro das informações auxiliares na mesma

resolução tempo/frequência	que	o	parâmetro	resolução
tempo/frequência	usado	para computar,	por	exemplo, as	informações
de nivel, ou	pode	ser	usada	uma	diferente	resolução
tempo/frequência.	Além	disso,	pode ser	pos	sivel que a	sinalização

do sinal residual esteja restrita a uma sub-porção da faixa espectral ocupada pelos tiles de tempo/frequência 42 para o qual as informações de nível são sinalizadas. Por exemplo, a resolução tempo/frequência em que o sinal residual está sinalizado, pode ser indicada dentro das informações auxiliares 58 com o uso de elementos de sintaxe bsResidualBands e bsResidualFramesPerSAOCFrame. Esses dois elementos de sintaxe podem definir outra subdivisão de um quadro nos tiles de tempo/frequência além da subdivisão que leva aos tiles 42.

Aliás, nota-se que o sinal residual 62 pode ou não refletir a perda das informações que resultam de um codificador núcleo potencialmente usado 96, usado opcionalmente para codificar o sinal de downmix 56 pelo codificador de áudio 80. Como mostrado na Fig. 4, os meios 92 podem fazer o ajuste do sinal residual 62 com base na versão do sinal de downmix reconstruivel a partir da saida do codificador núcleo 96 ou a partir da entrada da versão no codificador núcleo 96' . De forma similar, o decodificador de áudio 50 pode compreender um decodificador núcleo para decodificar ou descomprimir o sinal de downmix 56.

A capacidade de aj ustar dentro do sinal múltiplo-áudio-objeto, a resolução tempo/frequência usada para o sinal residual 62 diferente da resolução tempo/frequência usada para computar as informações de nível 60, permitem obter um bom compromisso entre a qualidade do áudio por um lado e taxa de compressão do sinal múltiplo-áudio-objeto por outro lado. Em qualquer caso, o sinal residual 62 permite a melhor supressão das conversas cruzadas de um sinal de áudio para outro dentro do primeiro e do segundo sinais de upmix a serem enviados para a saída 68 de acordo com a entrada de usuário 66.

Como ficará claro a partir da seguinte configuração, mais de um sinal residual 62 pode ser transmitido dentro das informações auxiliares no caso em que esteja codificado mais de um objeto de primeiro plano ou sinal de áudio do segundo tipo. As informações auxiliares podem permitir uma decisão individual sobre se um sinal residual 62 é transmitido para um sinal de áudio específico de um segundo tipo ou não. Assim, o número de sinais residuais 62 pode variar entre um e o número de sinais de áudio do segundo tipo.

No decodificador de áudio da Fig.3, os meios 54 para a computação podem ser configurados para computar a matriz C de coeficientes de predição que consiste dos coeficientes de predição com base nas informações de nível (OLD) e os meios 56 podem ser configurados para produzir o primeiro sinal de upmix Si e/ou o segundo sinal de upmix s₂ do sinal de downmix d de acordo com a computação representável por

onde 1 indica - dependendo do número de canais de d - um escalar, ou uma matriz de identidade, e D”¹ é uma matriz exclusivamente determinada pela indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal de downmix, e que também é compreendido pelas informações auxiliares, e H é um termo independente de d, mas dependente do sinal residual.

Como notado acima e descrito melhor abaixo, a indicação downmix pode variar no tempo e/ou pode variar espectralmente dentro das informações auxiliares. Se o sinal de áudio do primeiro tipo for um sinal de áudio estéreo tendo um primeiro (L) e um segundo canal de entrada (R) , as informações de nível, por exemplo, descrevem as energias espectrais normalizadas do primeiro canal de entrada (L) , do segundo canal de entrada (R) e do sinal de áudio do segundo tipo, respectivamente, na resolução tempo/frequência 42.

Ά computação mencionada acima de acordo com a qual os meios 56 para upmix realizam o upmix também podem ser representados por

R

S₂ upmix upmix onde L é um primeiro aproximando L e R é um segundo canal do canal do primeiro sinal primeiro sinal de de aproximando R, e 1 é um escalar, no caso d é mono, e a matriz de identidade 2x2, no caso d, é estéreo. Se o sinal de downmix 56 é um sinal de áudio estéreo tendo um primeiro (L0) e um segundo canal de saída (RO) , e a computação de acordo com a qual os meios 56 para upmix realizam o upmix podem ser representados por

S₂ . ί 1 }( LO = zr'

IcJlflO

Até onde o termo H é dependente do sinal residual res a computação de acordo com a qual os meios 56 para upmix realiza o upmix pode ser representável por..

(S. j . f 1 OY d Ί = 0

J (C 1 J

O sinal multi-áudio-objeto pode até compreender uma pluralidade de sinais de áudio do segundo tipo e as informações auxiliares podem compreender um sinal residual por sinal de áudio do segundo tipo. Um parâmetro de resolução residual pode estar presente nas informações auxiliares, definindo uma faixa espectral na qual o sinal residual é transmitido dentro das informações auxiliares. Pode até definir um limite inferior e um limite superior da faixa espectral.

Além disso, o sinal multi-áudio-objeto também pode compreender informações de rendering espacial para fazer o rendering espacial do sinal de áudio do primeiro tipo em uma configuração predeterminada do alto-falante. Em outras palavras, o sinal de áudio do primeiro tipo pode ser um sinal MPEG Surround multicanais (mais de dois canais) onde é feito o downmix até estéreo.

A seguir, serão descritas configurações que usam a sinalização do sinal residual acima. Entretanto, nota-se que o termo objeto é geralmente usado com duplo sentido. Algumas vezes, um objeto indica um sinal individual de áudio mono. Assim, um objeto estéreo pode ter um sinal de áudio mono formando um canal de um sinal estéreo. Entretanto, em outras situações, um objeto estéreo pode indicar, na realidade, dois objetos, sendo um objeto referente ao canal direito e outro objeto referente ao canal esquerdo do objeto estéreo. O sentido real ficará aparente a partir do contexto.

Antes de descrever a próxima configuração, esta é motivada pelas deficiências notadas com a tecnologia de base do padrão SAOC selecionado como modelo de referência 0 (RMO) em 2007. O RMO permitiu a manipulação individual de vários objetos sonoros em termos de suas posições de formatação e de amplificação/atenuação. Foi apresentado um cenário especial no contexto de uma aplicação do tipo Karaokê. Nesse caso • Uma cena mono, estéreo ou surround de fundo (a seguir denominada Objeto de Fundo, BGO) é transportada a partir de um conjunto de determinados objetos SAOC, que é reproduzida sem alterações, isto é, todos os sinais de canais de entrada são reproduzidos pelo mesmo canal de saída em um nível inalterado, e • Um objeto específico de interesse (a seguir denominado Objeto de Primeiro Plano FGO) (tipicamente a primeira voz) que é reproduzido com alterações (o FGO é tipicamente posicionado na metade do estágio sonoro e pode ser emudecido, isto é, pesadamente atenuado para permitir o canto grupai).

Como fica visível a partir de procedimentos de avaliação subjetiva e que podem ser esperados a partir do princípio da tecnologia subjacente, as manipulações da posição do objeto conduzem a resultados de alta qualidade, enquanto as manipulações do nível do objeto são geralmente mais desafiadoras. Normalmente, quanto maior for a amplificação/atenuação do sinal adicional, mais surgem potenciais problemas. Neste sentido, o

cenário de Karaokê é	extremamente	exigente,	já	que é necessária
uma atenuação extrema	(idealmente:	total) do	FGO.
0 caso de uso	duplo é	a	capacidade para

reproduzir somente o FGO sem o background/MBO, e é mencionado a seguir como o modo solo.

Nota-se, entretanto, que se uma cena de fundo (background) surround estiver envolvida, é denominada como um Objeto de Fundo Multicanais (MBO). 0 manuseio do MBO é o seguinte, como está mostrado na Fig.5:

• 0 MBO é codificado usando uma árvore regular 5-2-5 MPEG Surround 102. Isso resulta em um sinal de downmix MBO estéreo 104, e um fluxo de informações auxiliares MBO MPS 106.

• 0 downmix MBO é então codificado por um subsequente codificador SAOC 108 como um objeto estéreo, (isto é, duas diferenças de nível de objeto, mais uma correlação intercanais), junto com o (ou vários) FGO 110. Isto resulta em um sinal de downmix comum 112, e um fluxo de informações auxiliares SAOC 114.

No transcodificador 116, o sinal de downmix 112 é pré-processado e os fluxos de informações auxiliares SAOC e MPS 106, 114 são transcodificados em um único fluxo de informações auxiliares de saída MPS 118. Isso acontece normalmente de forma descontínua, isto é, seja somente suportada a total supressão do(s) FGO(s) ou a total supressão do MBO.

Finaimente, o downmix resultante 120 e as informações auxiliares MPS 118 são submetidas a um decodificador MPEG Surround 122.

Na Fig. 5, tanto o downmix MBO 104 como o(s) sinal (is) de objeto controlável 110 são combinados em um único downmix estéreo 112. Essa poluição do downmix pelo objeto controlável 110 é o motivo da dificuldade da recuperação de uma versão Karaokê com o objeto controlável 110 sendo removido, que tem qualidade de áudio suficientemente grande. A seguinte proposta visa a remoção deste problema.

Supondo um FGO (por exemplo, um vocal líder), a principal observação usada pela seguinte configuração da Fig. 6 é que o sinal de downmix SAOC é uma combinação dos sinais BGO e FGO, isto é, três sinais de áudio são downmixados e transmitidos via 2 canais downmix. Idealmente, esses sinais deveríam ser separados novamente no transcodificador para produzirem um sinal Karaokê limpo (isto é, remover o sinal FGO), ou para produzir um sinal solo limpo (isto é, remover o sinal BGO) . Isto é feito, de acordo com a configuração da Fig. 6, usando um elemento codificador dois para três (TTT) 124 (TTT^-1 como é conhecido na especificação MPEG Surround) dentro do codificador SAOC 108 para combinar o BGO e o FGO em um único sinal de downmix SAOC no codificador SAOC. Aqui, o FGO alimenta a entrada do sinal centro do box TTT^-1 124, enquanto o BGO 104 alimenta as entradas esquerda/direita TTT’¹ L.R. O transcodificador 116 pode então produzir aproximações do BGO 104 usando um elemento decodificador TTT 12 6 (TTT como é conhecido no MPEG Surround), isto é, as saídas esquerda/direita TTT L,R levam uma aproximação do BGO, considerando que a saída centro TTT C leva uma aproximação do FGO 110.

Ao comparar a configuração da Fig. 6 com uma configuração de o codificador e decodificador das Figs. 3 e 4, o sinal de referência 104 corresponde ao sinal de áudio do primeiro tipo entre sinais de áudio 84, os meios 82 são compreendidos pelo codificador MPS 102, o sinal de referência 110 corresponde aos sinais de áudio do segundo tipo entre o sinal de áudio 84, o box TTT'¹ 124 assume a responsabilidade das funcionalidades dos meios 88 to 92, com as funcionalidades dos meios 86 e 94 sendo implementadas no codificador SAOC 108, o sinal de referência 112 corresponde ao sinal de referência 56, o sinal de referência 114 corresponde às informações auxiliares 58 menos o sinal residual 62, o box TTT 126 assume a responsabilidade pela funcionalidade dos meios 52 e 54 com a funcionalidade da caixa de mixagens 128 também estando compreendida pelos meios 54. Finalmente, o sinal 120 corresponde à saida de sinal na saida 68. Além disso, nota-se que a Fig. 6 também mostra um caminho codificador/decodificador núcleo 131 para o transporte do downmix 112 do codificador SAOC 108 para o transcodif icador SAOC 116. Esse caminho codificador/decodificador núcleo 131 corresponde ao codificador núcleo opcional 96 e ao decodificador núcleo 98. Como indicado na Fig. 6, este caminho codificador/decodificador núcleo 131 também pode codificar/comprimir o sinal transportado das informações auxiliares do codificador 108 para o transcodificador 116.

As vantagens resultantes da introdução do box TTT da Fig. 6 se tornarão claras a partir da seguinte descrição. Por exemplo, • simplesmente alimentando as saídas esquerda/direita TTT L.R. no downmix MPS 120 (e passando o fluxo de bits transmitido MBO MPS 106 no fluxo 118), somente o MBO é reproduzido pelo decodificador MPS final. Isto corresponde ao modo Karaokê.

• simplesmente alimentando a saída centro TTT C. no downmix MPS esquerdo e direito 120 (e produzindo um fluxo trivial de bits MPS 118 que submete o FGO 110 na posição e nível desejados), somente o FGO 110 é reproduzido pelo decodificador MPS final 122. Isto corresponde ao modo Solo.

O manuseio dos três sinais de saída TTT L.R.C. é feito na caixa de mixagem 128 do transcodificador SAOC 116.

A estrutura de processamento da Fig. 6 provê várias vantagens com relação à Fig. 5:

• O framework provê uma clara separação estrutural dos sinais de fundo (background) (MBO) 100 e dos sinais FGO 110 • A estrutura do elemento TTT 126 tenta uma melhor reconstrução possível dos três sinais L.R.C. com base na forma de onda. Assim, os sinais de saída MPS finais 130 não são somente formados pela pesagem de energia (e decorrelação) dos sinais de downmix, como também são mais próximos em termos de formas de ondas devidas ao processamento TTT.

• Junto ao box TTT MPEG Surround 126 vem a possibilidade de ampliar a precisão de reconstrução usando a codificação residual. Assim, pode ser obtida uma significativa ampliação na qualidade de reconstrução quando são aumentadas a largura residual de banda e a taxa residual de bits da saída do sinal residual 132 em TTT”¹ 124 e usadas pelo box TTT para realizar o upmix. Idealmente, é cancelada (isto é, para quantificação infinitamente fina na codificação residual e na codificação do sinal de downmix) a interferência entre o sinal de fundo (MBO) e o sinal FGO.

A estrutura de processamento da Fig. 6 possui algumas características:

• Dualidade de modo Karaokê/Solo: A abordagem da Fig. 6 oferece tanto funcionalidade Karaokê e Solo usando os mesmos meios técnicos. Isto é, são reutilizados os parâmetros SAOC, por exemplo.

• Capacidade de refino: A qualidade do sinal Karaokê/Solo pode ser refinada como necessário controlando a quantidade das informações de codificação residuais usadas nos boxes TTT. Por exemplo, podem ser usados os parâmetros bsResidualSamplingFrequencylndex, bsResidualBands e bsResidualFramesPerSAOCFrame.

• Posicionamento de FGO em downmix: Ao usar um box TTT como mencionado na especificação MPEG Surround, o FGO sempre seria mixado na posição central entre os canais downmix esquerdo e direito. Para permitir maior flexibilidade de posicionamento, é empregada uma caixa codif icadora TTT generalizada que segue os mesmos princípios, enquanto permite o posicionamento não simétrico do sinal associado às entradas/saídas de centro.

• FGOs Múltiplos: na configuração descrita, foi descrito o uso de somente um FGO (isto pode corresponder ao mais importante caso de aplicação). Entretanto, o conceito proposto também pode acomodar vários FGOs usando uma ou uma combinação das seguintes medidas ίο FGOs Agrupados: Como mostrado na Figura 6, o sinal que está conectado à entrada/saída central do box TTT pode na realidade ser a soma de vários sinais FGO em vez de ser somente um. Esses FGOs podem ser posicionados/controlados de forma independente no sinal de saída multicanais 130 (é obtida a vantagem de qualidade máxima; entretanto, quando são escalados e posicionados da mesma forma). Compartilham uma posição comum no sinal estéreo downmix 112, e existe somente um sinal residual 132. Em qualquer caso, a interferência entre os objetos de fundo (MBO) e os objetos controláveis é cancelada (apesar de não ser entre os objetos controláveis).

o FGOs em Cascata: AS restrições referentes às posições FGO comuns no downmix 112 podem ser solucionadas ampliando a abordagem da Fig. 6. Podem ser acomodados múltiplos FGOs fazendo a cascata de vários estágios da estrutura TTT descrita, cada estágio correspondendo a um FGO e produzindo um fluxo residual de codificação. Assim, também seria idealmente cancelada a interferência entre cada FGO. É claro que esta opção exige uma maior taxa de bits do que usando uma abordagem FGO agrupada. Será descrito posteriormente um exemplo.

• Informações auxiliares SAOC: No MPEG Surround, as informações auxiliares associadas a um box TTT são um par de Coeficientes de Predição de Canais (CPCs). Em contraste, a parametrização SAOC e o cenário MBO/Karaokê transmitem energias de objeto para cada sinal objeto e uma correlação inter-sinais entre os dois canais do downmix MBO (isto é, a parametri zação de um objeto estéreo). Para minimizar o número de alterações em uma parametrização relativa ao caso, sem o modo Karaokê/Solo ampliado, e assim o formato do fluxo de bits, os CPCs podem ser calculados a partir das energias dos sinais downmixados (downmix MBO e FGOs) e a correlação inter-sinais do objeto downmix MBO estéreo. Portanto, não há necessidade de alterar ou aumentar a parametrização transmitida e os CPCs podem ser calculados a partir da parametrização SAOC transmitida no transcodificador SAOC 116. Assim, também podería ser codificado um fluxo de bits usando o modo Karaokê/Solo ampliado por meio de um decodificador de modo comum (sem codificação residual) ao ignorar os dados residuais.

Em resumo, a configuração da Fig. 6 visa uma reprodução ampliada de determinados objetos selecionados (ou a cena sem esses objetos) e se prolonga até a abordagem de codificação SAOC corrente usando a downmix estéreo da seguinte forma:

• No modo normal, cada sinal objeto é pesado por meio de suas entradas na matriz downmix (por sua contribuição com os canais downmix esquerdo e direito, respectivamente). Então, todas as contribuições pesadas dos canais downmix esquerdo e direito são somadas para formar os canais downmix esquerdo e direito.

• No desempenho ampliado Karaokê/Solo, isto é, no modo ampliado, todas as contribuições de objetos são divididas em um conjunto de contribuições de objetos que formam um Objeto de Primeiro Plano (FGO) e as contribuições de objetos restantes (BGO) . A contribuição FGO é somada em um sinal de downmix mono, e as restantes contribuições de fundo são somadas em um estéreo downmix, e ambas são somadas usando um elemento codificador generalizado TTT para formarem o estéreo downmix SAOC comum.

Assim, uma soma normal é substituída por uma soma TTT (que pode ser cascateada se desejado).

Para enfatizar a diferença mencionada entre o modo normal do codificador SAOC e o modo ampliado, é feita referência às Figs. 7a e 7b, onde a Fig. 7a se refere ao modo normal, considerando que a Fig. 7b se refere ao modo ampliado. Como pode ser visto, no modo normal, o codificador SAOC 108 usa os parâmetros DMX supramencionados ϋ₁₃ para pesar os objetos j e somar os objetos assim pesados j ao canal SAOC i, isto é, L0 ou RO. No caso do modo ampliado da Fig. 6, é somente necessário um vetor dos parâmetros DMX Dt, isto é, parâmetros DMX Di indicando como formar uma soma pesada dos FGOs 110, obtendo assim o canal central C do box TTT¹ 124, e os parâmetros DMX Di, instruindo o box TTT¹ sobre como distribuir o sinal central C para o canal MBO esquerdo e para o canal MBO direito respectivamente, obtendo assim o L_DMX ou R_DMX, respectivamente.

Problematicamente, o processamento de acordo com a Fig. 6 não funciona muito bem com os codecs de preservação não em forma de onda (HE-AAC/SBR). Uma solução para esse problema pode ser um modo TTT generalizado com base em energia para HE-AAC e altas frequências. Uma configuração que soluciona o problema será descrita posteriormente.

Um possível formato de fluxo de bits para aquele com TTTs em cascata podería ser o seguinte:

Além do fluxo de bits SAOC que deve poder ser pulado, caso seja digerido no modo comum de decodificação:

numTTTs int for (ttt=0; ttt<numTTTs; ttt++) { no_TTT_obj[ttt] int

TTT_bandwidth[ttt];

TTT_residual_stream[ttt] }

Para as exigências de complexidade e memória, Pode ser declarado o seguinte. Como pode ser visto nas explanações anteriores, o modo Karaokê/Solo ampliado da Fig. 6 é implementado adicionando os estágios de um elemento conceituai em cada codificador e decodificador/transcodificador, isto é, no elemento codificador generalizado TTT-l/TTT. Ambos os elementos são idênticos em complexidade nas suas contrapartes normais centradas TTT (a alteração nos valores do coeficiente não influencia a complexidade). Para a principal aplicação visada (um FGO como vocais principais), é suficiente um único TTT.

A relação entre essa estrutura adicional com a complexidade de um sistema MPEG Surround pode ser apreciada observando a estrutura de todo o decodificador MPEG Surround que, para o caso do relevante estéreo downmix (configuração 5-2-5) consiste de um elemento TTT e 2 elementos OTT. Isto já mostra que a funcionalidade adicionada vem com um preço moderado em termos de complexidade computacional e de consumo de memória (notar que os elementos conceituais que usam codificação residual estão na média não mais complexa que suas contrapartes que, em vez disso, incluem decorrelatores).

Esta extensão da Fig. 6 do modelo de referência MPEG SAOC provê um aperfeiçoamento da qualidade de áudio para aplicações do tipo solo especial ou mudo/Karaokê. Novamente se nota que a descrição correspondente âs Figs. 5, 6 e 7 se referem a um MBO como cena de fundo ou BGO que, que em geral não se limita a esse tipo de objeto e pode também, por sua vez, ser um objeto mono ou estéreo.

Um procedimento de avaliação subjetiva revela o aperfeiçoamento em termos de qualidade de áudio do sinal de saída de uma aplicação Karaokê ou solo. As condições avaliadas são:

• RMO • Modo ampliado (res 0) (= sem codificação residual) • Modo ampliado (res 6) (= com codificação residual nas 6 menores bandas híbridas QMF) • Modo ampliado (res 12) (=com codificação residual nas 12 menores bandas híbridas QMF) • Modo ampliado (res 24) (= com codificação residual nas 24 menores bandas híbridas QMF) • Referência Oculta • Menor ancoragem (versão de referência limitada da banda de 3,5 kHz)

A taxa de bits do modo ampliado proposto é similar ao RMO se usado sem codificação residual. Todos os demais modos ampliados exigem cerca de 10 kbit/s para cada 6 bandas de codificação residual.

A Figura 8a mostra os resultados de um teste mudo/Karaokê com 10 indivíduos ouvintes. A solução proposta tem uma classificação média MUSHRA que é sempre maior que o RMO e aumenta a cada etapa de codificação residual adicional. Pode ser observado um aperfeiçoamento estatisticamente significativo com relação ao desempenho do RMO para os modos com 6 e mais bandas de codificação residual.

Os resultados do teste solo com 9 indivíduos na Figura 8b mostram vantagens similares da solução proposta. A classificação MUSHRA média aumenta claramente ao ser adicionada mais e mais codificação residual. O ganho entre o modo ampliado sem 24 bandas e o modo ampliado com 24 bandas de codificação residual é de quase 50 pontos MUSHRA.

No geral, uma boa qualidade de uma aplicação Karaokê pode ser obtida com o custo aproximado de uma taxa de bits maior em 10 kbit/s que o RMO. É possível uma excelente qualidade ao adicionar aproximadamente 40 kbit/s ao topo da taxa de bits do RMO. Em um cenário de aplicação real, onde é dada a máxima taxa fixada de bits, o modo ampliado proposto permite muito bem gastar a taxa de bits não usada para a codificação residual até que a máxima taxa permissível seja alcançada. Portanto, é obtida a melhor qualidade possível geral de áudio. É possível outro aperfeiçoamento com relação aos resultados experimentais apresentados devido ao uso mais inteligente da taxa residual de bits: Enquanto o ajuste apresentado sempre esteve usando a codificação residual de DC até uma determinada frequência limite superior, uma implementação ampliada somente gastaria bits da faixa de frequências relevante para a separação do FGO e dos objetos de fundo.

Na descrição apresentada, foi descrita uma ampliação da tecnologia SAOC para as aplicações do tipo Karaokê. São apresentadas outras configurações detalhadas de uma aplicação do modo Karaokê/solo ampliado para o processamento da cena de áudio multicanais FGO para MPEG SAOC.

Em contraste com os FGOs, que são reproduzidos com alterações, os sinais MBO devem ser reproduzidos sem alterações, isto é, cada sinal de canal de entrada é reproduzido pelo mesmo canal de saída em nível inalterado. Como consequência, foi proposto o pré-processamento dos sinais MBO por um codificador MPEG Surround, produzindo um sinal de downmix estéreo que serve como um objeto de fundo (BGO) (estéreo) a ser enviado aos subsequentes estágios de processamento do modo Karaokê/solo, compreendendo um codificador SAOC, um transcodificador MBO e um decodificador MPS. Novamente, a Figura 9 mostra um diagrama da estrutura geral.

Como pode ser visto, de acordo com a estrutura do codificador do modo Karaokê/solo, os objetos de entrada são classificados em um objeto estéreo de fundo (BGO) 104 e em objetos de primeiro plano (FGO) 110.

Apesar de em RMO o manuseio desses cenários de aplicação ser feito por um sistema codificador/transcodificador SAOC, a ampliação da Fig. 6 também explora um bloco de construção elementar da estrutura MPEG Surround. Incorporando o bloco (TTT^-1) três-para-dois no codificador e o correspondente complemento (TTT) dois-para três ao transcodificador melhora o desempenho quando é necessária forte boost/atenuação do determinado objeto de áudio. As duas características primárias da estrutura ampliada são:

Melhor separação de sinal devido à exploração do sinal residual (comparado ao RMO),

Posicionamento flexível do sinal que é denominado de entrada central (isto é, o FGO) do box TTT”¹ pela generalização de sua especificação de mixagem.

Como a implementação direta do bloco de construção TTT envolve três sinais de entrada no lado do codificador, foi focalizada a Fig. 6 no processamento dos FGOs como um sinal (downmixado) mono, como mostrado na Figura 10. Também foi declarado o tratamento de sinais FGO multicanais, mas será explicado em mais detalhes no capitulo subsequente.

Como pode ser visto na Fig. 10, no modo ampliado da Fig. 6, é enviada uma combinação de todos os FGOs para o canal central do box TTT”¹.

No caso de um downmix FGO mono como no caso da Fig. 6 e da Fig. 10, a configuração do box TTT’¹ no codificador compreende o FGO que é enviado para a entrada central e o BGO que

fornece a	entrada	esquerda	e	direita.	Ά matriz simétrica
subjacente é	dada	por
			' 1	0	m_}
		D =	0	1	m₂	r	que provê	o downmix (L0 R0)^T e
				m₂	-b
um sinal F0:
		po'		f^L)
		R0	= D	R
			/

É descartado o 3° sinal obtido por este sistema linear, mas pode ser reconstruído no lado do transcodificador que incorpora dois coeficientes de predição Ci e c₂ (CPC) de acordo com:..

F0 = c_}L0 + c₂R0 .

O processo inverso no transcodificador é dado por :

/ 2 λ \ + m₂+am_x -m_xm₂ + βτη_λ

D~'C = --------- -m,m, + am, 1 + ml + βτη, + pz + m₂

V ^m\~^c\ m₂—c₂ )

Os parâmetros m_x e m₂ correspondem a:

w,=cos(//) e m₂=sin(/z) e μ é responsável pelo posicionamento panorâmico do FGO no dowmix TTT comum (L0 R0)^T. Os coeficientes de predição Ci e c₂ exigidos pela unidade upmix TTT no lado do transcodificador podem ser estimados usando os parâmetros SAOC transmitidos, isto é, as diferenças de nível de objeto (OLDs) de todos os objetos de áudio de entrada e de correlação inter-objetos (IOC) dos sinais BGO downmix (MBO). Supondo a independência estatística dos sinais

FGO e BGO, a seguinte relação é válida para a estimativa CPC:

P P _ P P P P _ p p _c _ I.0F0¹ Ro ¹ RoFo¹ LoRo _ ¹ RoFo¹ Lo ‘ LoFo¹ LoRo ¹ p p _ P^{2 * * * * * * *} ' ² PP_P²

Lo¹ Ro ¹ LoRo ¹ Lo¹ Ro ^Γ LoRo

As variáveis P_Io, P_Ro , P_JoRo, P_loFo e P_RoFa podem ser estimadas como a seguir, onde os parâmetros OLD_l, OLD_r e I0C_LRcorrespondem ao BGO, e OLD_F é um parâmetro FGO:

P_l(S=OLD_L+m]OLD_F ,

P_Ro = OLD_r + m² ₂OLD_F , ^ploro = ^IOC_LR + m_xm₂OLD_F ,

P_LoFl> = m_x (OLD, - OLD,. ) + m₂IOC_LR , ^PRoFo = ^m2 (°^LDR - ^0LDF ) + ^mJOC,_R .

Além disso, o erro introduzido pela implicação dos CPCs é representado pelo sinal residual 132 que pode ser transmitido dentro do fluxo de bits, de forma que:

res = F0- F0 .

Em alguns cenários de aplicação, a restrição de um único downmix mono a todos os FGOs é inadequada, precisando assim ser superada. Por exemplo, os FGOs podem ser divididos em dois ou mais grupos independentes com diferentes posições no downmix estéreo transmitido e/ou na atenuação individual. Portanto, a estrutura em cascata mostrada na Fig. 11 implica em dois ou mais elementos ΤΤΤ'¹ consecutivos 124a, 124b, produzindo um downmix passo a passo de todos os grupos FGO F_lz F₂ no lado do codificador, até que o desejado downmix estéreo 112 seja obtido. Cada - ou pelo menos algumas - dos boxes TTT¹ 124a,b (na Fig. 11 cada) estabelece um sinal residual 132a, 132b que corresponde ao estágio respectivo ou ao box TTT¹ 124a,b, respectivamente. Por outro lado, o transcodificador realiza o upmix sequencial com o uso dos respectivos boxes TTT 126a,b aplicados sequencialmente, incorporando os CPCs correspondentes e os sinais residuais, sempre que possível. A ordem de processamento FGO é especificada pelo codificador e deve ser considerada no lado do transcodificador.

A matemática detalhada envolvida com a cascata de dois estágios mostrada na Fig. 11 é descrita a seguir.

Sem a perda da generalidade, mas para uma ilustração simplificada, a seguinte explicação se baseia em uma cascata que consiste de dois elementos TTT, como mostrado na Figura 11. As duas matrizes simétricas são similares ao downmix FGO mono, mas devem ser adequadamente aplicadas aos sinais respectivos:

	( 1	0			r i	0	m_n ^y
D,=	0	1	w₂,	e D₂ =	0	1	^m22
	<*11	m₂,	-d			^m22	-u

de

Aqui, os dois conjuntos

CPCs resultam na seguinte reconstrução de sinal:

FO, =c₁₁Z,0₁ + c,₂Ã0, e F0₂ = c₂₁Z,0₂+c₂₂T?0₂ .

O processo inverso é representado por:

d;

+ m², + nf

Z)₂-

z	1 + mf, + C,,»!,,
	-m_um_2}+c_nm_2}	1 + m², +c_l2m₂₁	r
	m_n-c_u	^m2\ ~^C\2 ,
z	l + m₂₂ +c_2lm_l2	-m_í2m₂₂ +c₂₂m_}2	A
	-m_l2m₂₂ + c₂₁m₂₂	1 + w² ₂ + c₂₂m₂₂
	m_l2 — c_2l	^m22 — ^C22	/

e

Um caso especial da cascata de dois estágios compreende um FGO estéreo com seus canais esquerdo e direito sendo somados de forma adequada aos correspondentes de BGO, produzindo η ^π //,=0 e //₂ = d_l = d_r =

Para este estilo de posicionamento panorâmico particular e negligenciando a correlação inter-objetos, OLD_lr-Q a estimativa dos dois conjuntos de CPCs se reduz a:

OLD, -OLD_fl ^{C, ]} ” OLD, +OLD_Fl ^Cl.2 ^c/?i — 0 old_r-old_fr ^/i2 old_r+old_fr com OLD,, e OLD,,_R indicando os OLDs do sinal FGO esquerdo e direito, respectivamente.

caso da cascata geral de N estágios se refere a um downmix FGO multicanais de acordo com:

f 1	0			( 1	0	^m\2^
0	1	W₂1	II	0	1	^m22
^11	W₂\|	-d			^m22	-d

^mx_N ^m2N ^m2N onde cada estágio caracteriza seus próprios CPCs e sinal residual.

No lado do transcodif icador, as etapas de cascateamento inverso são dadas por:

Ώ,-¹ + mi^ + ra_2l / o l + /w₂₁ +

-m_um₂,+c_}]m_2]m_n-c_n —m_um₂\ +c_um_u ^y + /M]²] +c_I2w_2l ^m2\ ~^C\2 ;

1 + m_2N +c_Nlm_{} N}

O_N — - ₂ 2 -m_lNm_2N +c_N}m_2N \ + m_w+m_2N

C_Nl

-m_XNm_2N+c_N2m^ + V + ^CN2^m2N ^m2N ~^CN2 j

Para abolir a necessidade de preservação da ordem dos elementos TTT, a estrutura em cascata pode ser facilmente convertida em um paralelo equivalente por meio do rearranjo das N 15 matrizes em uma única matriz TTN simétrica, produzindo assim um estilo TTN geral:

		( 1	0	^mu ·	•
		0	1	w_2l .	^m2N
D_N	—	W,1	^W21	-1 .	. 0
			^m2N	0 .	• -b

onde as primeiras duas linhas da matriz denotam o downmix estéreo a ser transmitido. Por outro lado, o termo TTN dois-para-N (two-to-N) - se refere ao processo de upmixing no lado do transcodificador.

Usando esta descrição, o caso especial do FGO estéreo particularmente em posicionamento panorâmico (panned) reduz a matriz a:

Ί o 1 o'

10 1 r> =

10-10 _vo ¹ θ -b

Assim, esta unidade pode ser denominada elemento dois-para-quatro ou TTF.

É também possível produzir uma estrutura TTF reusando o módulo pré-processador estéreo SAOC.

Para a limitação de N=4, torna-se viável uma implementação da estrutura dois-para-quatro (TTF), que reutiliza partes do sistema existente SAOC. O processamento é descrito nos seguintes parágrafos.

O texto padrão SAOC descreve o pré-processamento downmix estéreo do modo de transcodificação estéreo-paraestéreo. Precisamente, o sinal estéreo de saída Y é calculado a partir do sinal estéreo de entrada X junto com um sinal decorrelacionado X como a seguir:

Y = G_ModX + P₂X_d

A componente decorrelacionada X_d é uma representação sintética das partes do sinal original submetido que já foram descartadas no processo de codificação. De acordo com a Fig. 12, o sinal decorrelacionado é substituído por um sinal residual gerado pelo codificador 132 para uma determinada faixa de frequências .

A nomenclatura é definida como:

é uma matriz downmix 2 x N é uma matriz de rendering 2 x N é um modelo de covariância N x N dos objetos de entrada S

Gwod (correspondendo a G na

Figura 12) é a matriz upmix preditiva

2x2

Notar que Gm_oc, é uma função de D

A e E.

Para calcular o sinal residual

X_Res é necessário imitar o processamento do decodificador no codificador, isto é, determinar Gm_ocI. Nos caso especial de um cenários gerais A não são conhecidos, mas no cenário de Karaokê (por exemplo, com um fundo estéreo e um objeto de primeiro plano estéreo,

N=4) é suposto que

O que significa que somente o

BGO é submetido.

Para uma estimativa do objeto de primeiro plano o objeto de fundo reconstruído é subtraído do sinal de downmix X.

Isto e rendering final são feitos no bloco de processamento

Mix .

Os detalhes são apresentados a seguir...

A matriz de rendering A é estabelecida para onde é suposto que as primeiras colunas representam os 2 canais do FGO e as segundas 2 colunas representam os 2 canais do BGO.

As saídas estéreo BGO e FGO são calculadas de acordo com as seguintes fórmulas.

^r — c

BGO Mod

Res

E a matriz de pesagem downmix D é definida como com

D BGO “12

C/₂2 , bgo o FGO .Vbgo \>BGO7 objeto pode ser estabelecido para

FGO = D ^BGO ^11 ’ T’bGO ^+<^12 ’ TbGO _k<Í₂l 5bGO ⁺ ^22 ’ 5 BGO J_

Como exemplo, isto se reduz

FGO

BGO acima.

Favor para matriz downmix de ^Res sao os sinais residuais obtidos como descrito notar que não são adicionados decorrelacionados.

A saida final Y é dada por

FGO

BGO )

As configurações acima também podem se aplicar se for usado um FGO mono em vez de um FGO estéreo. O processamento é então alterado de acordo com o seguinte.

A matriz de rendering A é estabelecida em

FGO — οΊ onde é suposto que a primeira coluna representa o

FGO mono e as colunas subsequentes representam

A saída estéreo BGO e FGO é com as seguintes formulas.

Res

E a matriz de pesagem downmix os 2 canais do BGO.

calculada de acordo

D é definida como com

D FGO d ) ^QFGO k^FGO y

FGO

Xfgo

O objeto BGO pode ser estabelecido com

BGO = D ¹ ^BGO dpQQ

Τ’FGO

Como exemplo, <^FGO isto se reduz a

Tfgo

BGO \Tfgo 7 para uma matriz downmix de

X_Res são os sinais residuais obtidos como acima descrito .

Favor notar que não são adicionados sinais decorrelacionados.

A saída final Y é dada por

FGO

BGO 7

Para o manuseio de mais de objetos

FGO, as configurações acima podem ser estendidas montando estágios paralelos das etapas descritas de processamento.

As configurações acima descritas fornecem a descrição detalhada do modo ampliado

Karaokê/solo para os casos de cena de áudio FGO multicanais. Esta generalização ampliar a classe dos cenários de aplicação Karaokê, para a qual a qualidade do som do modelo de referência MPEG SAOC também pode ser melhorada pela aplicação do modo ampliado Karaokê/solo.

O aperfeiçoamento é obtido introduzindo uma estrutura NTT geral na parte downmix do codificador SAOC e as contrapartes correspondentes no transcodificador SAOCtoMPS. O uso de sinais residuais ampliou resultado da qualidade.

As Figs. 13a a 13h mostram uma possível sintaxe do fluxo de bits das informações auxiliares SAOC de acordo com uma configuração da presente invenção.

Após ter descrito algumas configurações referentes a um modo ampliado para o codec SAOC, deve ser notado que algumas configurações se referem a cenários de aplicação onde a entrada de áudio para o codificador SAOC contém não somente fontes sonoras regulares mono ou estéreo, como objetos multicanais. Isto foi explicitamente descrito com relação às Figs.

a 7b. Este objeto de fundo MBO multicanais pode ser considerado como uma cena Sonora complexa que envolve um grande e geralmente desconhecido número de fontes sonoras, para o qual não é necessária funcionalidade controlável de rendering. Individualmente, essas fontes de áudio não podem ser manuseadas de forma eficiente pela arquitetura do codificador/decodificador SAOC. O conceito da arquitetura SAOC pode, portanto, ser imaginado como estendido para tratar desses sinais complexos de entrada, isto é, dos canais MBO, em conjunto com os objetos SAOC de áudio típicos. Portanto, nas configurações mencionadas da Fig. 5 à 7b, o codificador MPEG Surround é imaginado como sendo incorporado ao codificador SAOC como indicado pela linha pontilhada que circunda o codificador SAOC 108 e o codificador MPS 100. O downmix resultante 104 serve como um objeto de entrada estéreo para o codificador SAOC 108 em conjunto com um objeto SAOC controlável 110 produzindo um downmix estéreo combinado 112 transmitido para o lado do transcodificador. No domínio paramétrico, tanto o fluxo de bits MPS 106 e como o fluxo de bits SAOC 114 são enviados ao transcodificador SAOC 116 que, dependendo do cenário particular das aplicações MBO, provê o adequado fluxo de bits MPS 118 para o decodificador MPEG Surround 122. Essa tarefa é feita usando as informações de rendering ou da matriz de rendering e empregando alguns pré-processamentos downmix para transformar o sinal de downmix 112 em um sinal de downmix 120 para o decodificador MPS 122.

Outra configuração para um modo ampliado Karaokê/Solo é descrita abaixo. Esta permite a manipulação individual de alguns objetos de áudio em termos de seus níveis de amplificação/atenuação sem redução significativa na qualidade resultante de som. Um cenário de aplicação especial do tipo Karaokê exige a total supressão dos objetos específicos, tipicamente do vocal principal, (a seguir denominado Objeto de Primeiro Plano FGO) mantendo a qualidade perceptual da cena sonora de fundo sem ser prejudicada. Isto também leva à capacidade de reproduzir individualmente os sinais FGO específicos sem a cena de áudio de fundo estático (a seguir denominada de Objeto de Fundo BGO) , que não exige o poder de controle do usuário em termos de posicionamento panorâmico. Este cenário é denominado de modo Solo. Um caso típico de aplicação contém um BGO estéreo e até quatro sinais FGO, que pode, por exemplo, representar dois objetos estéreo independentes.

De acordo com essa configuração e a Fig. 14, o transcodificador ampliado Karaokê/Solo 150 incorpora seja um elemento dois-para-N (TTN) ou um-para-N (OTN) 152, ambos representando uma modificação generalizada e ampliada do box TTT conhecida na especificação MPEG Surround. A escolha do elemento adequado depende do número de canais downmix transmitidos, isto é, um box TTN é dedicado ao sinal estéreo downmix, enquanto que para um sinal de downmix mono se aplica ao box OTN. O correspondente box TTN’¹ ou OTN’¹ no codificador SAOC combina os sinais BGO e FGO em um downmix SAOC estéreo ou mono comum 112 e gera o fluxo de bits 114. O posicionamento arbitrário pré-definido de todos os FGOs individuais no sinal de downmix 112 é suportado por cada elemento, isto é, TTN ou OTN 152. No lado do transcodificador, o sinal BGO 154 ou qualquer combinação de sinais FGO 156 (dependendo do modo de operação 158 aplicado externamente) é recuperado do downmix 112 pelo box TTN ou OTN 152 usando somente as informações auxiliares SAOC 114 e opcionalmente sinais residuais incorporados. Os objetos de áudio recuperados 154/156 e informações de rendering 160 são usados para produzir o fluxo de bits MPEG Surround 162 e o correspondente sinal de downmix pré-processado 164. A unidade de mixagem 166 realiza o processamento do sinal de downmix 112 para obter o downmix MPS de entrada 164 e o transcodificador MPS 168 é responsável pela transcodificaçâo dos parâmetros SAOC 114 nos parâmetros MPS 162. O box TTN/OTN 152 e a unidade de mixagem 166 em conjunto realizam o processamento do modo ampliado Karaokê/solo 170 correspondente aos meios 52 e 54 na Fig. 3 com a função da unidade de mixagem ser compreendida pelos meios 54.

Um MBO pode ser tratado da mesma forma explicada acima, isto é, é pré-processado por um codificador MPEG Surround que produz um sinal de downmix estéreo ou mono que serve como BGO para ser enviado ao subsequente codificador SAOC ampliado. Nesse caso, o transcodificador deve ser provido com um fluxo adicional de bits MPEG Surround próximo ao fluxo de bits SAOC.

Depois, é explicado o cálculo realizado pelo elemento TTN (OTN). A matriz TTN/OTN expressa na primeira resolução predeterminada de tempo/frequência 42, M, é o produto de duas matrizes..

M = D~'C , onde D~' compreende as informações downmix e C encerra os coeficientes de predição de canais (CPCs) para cada canal FGO. C é computado pelos meios 52 e box 152, respectivamente, e D ¹ é computado e aplicado, junto com C, no downmix SAOC pelos computação é feita de meros e

box 152 acordo com

	( 1	0	0	··
	0	1	0	·· 0
c =	^cu	C\|₂	1	·· 0
	\^CN\	^CN2	0	·· b
par;	a o	elemento	TTN,
	< 1	0 ··	0>
c =	^Cl	1 ··	0
		0 ··	υ

isto é elemento OTN para o

Os CPCs são obtidos transmitidos, isto respectivamente .

um downmix estéreo e um downmix mono.

a partir dos parâmetros SAOC dos OLDs, lOCs, DMGs e DCLDs. Pra um canal

FGO especifico j, os CPCs podem ser estimados por p p - p p P P _ P P * Loboj¹· Ro ¹ RoRo,]¹ LoRo ¹ RoFoJ¹ Lo ¹ LoRoJ* LoRo * = ^J çs c — - ^J_______

P P -P^{1 j2} P P -P² ¹ Lo¹ Ro ¹ LoRo ¹ Lo¹ Ro ¹LoRo

P_hl =OLD, + Y_jm²OLD,+2Ym_J Σ mgOC^OLDflLD, , ' j k=j+]

P_Ro = OLD_r + Yn²OLD, + X n_kIOC_jk^OLDfiLD, , / j k=j+\

Fro = IOC,_r^OLD,OLD_r X +m_knj)lOC_Jky/OLD_jOLD_k, ^Plofo,j = m_jOLD_I + n_]IOC,_R ^OLD,OLD_R - mfíLDj - X mJOCj, ^OLD/JLD, ,

P^^^OLD. + mfOC^OLD^LD,-n_JOLD_J-^nJOC^OLDfiLD, .

‘*j

Os parâmetros OLD, , OLD_R e IOC,_R correspondem ao BGO, os demais são valores FGO.

Os coeficientes m e n, denotam os valores downmix de cada FGO j dos canais downmix obtidos a partir dos ganhos downmix DMG de níveis de canais DCLD

J, ^O.lDC'LD, — o.incw, ^e direito e esquerdo, e são e das diferenças downmix , «0.05ΛΜ.Λ,·, n,= 10 ‘

p.lDCLD,

Com relação ao elemento OTN a computação dos segundos valores CPC c_j2 se torna redundante.

Para reconstruir os dois grupos de objetos BGO e

FGO, as informações downmix são exploradas pelo inverso da downmix matriz D que se prolonga para ainda indicar a combinação linear dos sinais FCd a F0_N, isto é

' LO ' RO F0_t	= D	( R 6

A seguir, o downmix no lado do codificador é explicado: Dentro do elemento TTN \ a matriz downmix estendida é

	( 1 0	0 1	\ ... i n_} ...	^mN n
D =		«1	i-l ...	0
			⁰ ’’·
	[^mN	ⁿN	: 0 ...	-1
	(	1	...	^mN
		1	«i ...	n_N
D =		+ n_}	-1 ...	0
			0 ·.
		+ ”_N	0 ...	-1
E para	o elemento	OTN

para para

-i é

um BGO estéreo, um BGO mono

para um BGO estéreo, m, ^mN o”

para um BGO mono.

^mN ί ⁰

A saída do elemento TTN/OTN produz

RO res.

\res_NJ

Para um BGO estéreo e um downmix estéreo. No caso de o BGO e/ou downmix ser um sinal mono, o sistema linear muda de acordo.

sinal residual res, corresponde ao objeto FGO i e se não transferido pelo fluxo SAOC- porque, por exemplo, fica 10 fora da faixa de frequência residual, ou é sinalizado que para o objeto FGO i não é transferido nenhum sinal residual - resi é inferido como sendo zero. F_t é o sinal reconstruído/upmixado aproximando o objeto FGO i. Após a computação, pode ser passado por um banco de filtros de síntese para obter o domínio de tempo, 15 como a versão PCM codificada do objeto FGO i. É lembrado que L0 e

RO denotam os	canais	do	sinal de	downmix	SAOC e são
disponíveis/sinalizados	em	uma	crescente	resolução
tempo/frequência	comparada	aos	índices s	ubj acentes	da resolução
paramétrica (n,k)	. L e R	são	os sinais	reconstruídos/upmixados

aproximando os canais esquerdo e direito do objeto BGO. Junto ao fluxo de bits do lado MPS, pode ser submetido ao número original de canais.

De acordo com uma configuração, a seguinte matriz TTN é usada em um modo de energia.

O procedimento de codificação/decodificação com base em energia é projetado para a codificação da não preservação da forma de onda do sinal de downmix. Assim, a matriz upmix TTN do modo correspondente de energia não depende de formas especificas de onda, mas somente descreve a distribuição relativa de energia dos objetos de áudio de entrada. Os elementos desta matriz M_Energysão obtidos a partir dos correspondentes OLDs de acordo com

OLD, ^Energy ^—

OLD, +YrfOLD, i

m(OLD_}

OLD, + fjfOLD,

V o

old_r

OLD,, + fj^OLD, n(OLD_}

OLD_K + Yn;OLD, para um BGO estéreo, m²NOLDN n²NOLD_N

OLD, + fjfOLD, OLD_{R +} YfOLD, \ ' I J ^Energy ^—

' ^OLD1.	OLD_l
OLD, + ^_lrfOLD_l	OLD, OLD,
m~~OLD,	n²OLD,
OLD, + ^m²OLD,	OLD, +^n-OLD, i
nLOLD,,	n² _NOLD_N
OLD, +YrfOLD,	OLD, +^n;OLD_i

para um BGO mono,

De maneira que a saida do elemento TTN produz

M Energy ou respectivamente = M

Energy

R<0

Assim, para um downmix mono a matriz de upmix com base em energia M_Energy se torna

Energy

yJmfOLD, + _yJn²OLD_l

OLD, +^rfOLD,

OLD_K +YrfOLDi ^m.\F)LD„ + yJn_NOLD_N

Para um BGO estéreo, e ^Energy

yJOLD,	r	λ
y/mfOLD.	1
	JOLD, +Ym²OLD,
^mlOLD_f,	\ v

para um BGO mono, de maneira que a saida do elemento OTN resulta em.

= V,,^(L0), ou respectivamente = M_Ener^L0).

Assim, de acordo com a configuração mencionada, a classificação de todos os objetos (Obj\

Obj_N} em BGO e FGO respectivamente é feita no lado do codificador. O BGO pode ser um objeto mono (Z,) ou estéreo

O downmix do BGO no sinal de downmix é fixado. Com relação aos FGOs, seu número é teoricamente ilimitado. Entretanto, para a maioria das aplicações urn total de quatro objetos FGO parece adequado .

Quaisquer combinações de objetos mono e estéreo são possíveis .

Por meio dos parâmetros (pesando no sinal de downmix esquerdo/mono) e n_: (pesando no sinal de downmix direito), o downmix FGO é variável tanto no tempo como na frequência. Como consequência, o sinal de downmix pode ser mono (£0) ou estéreo

Novamente, os sinais (F0, ... ZO^)⁷ não são transmitidos para o decodificador/transcodificador. Em vez disso, são previstos no lado do decodif icador por intermédio dos CPCs supramencionados .

Com relação a isto, nota-se novamente que os sinais residuais res podem até ser desconsiderados por um decodificador. Nesse caso, um decodificador - meios 52, por exemplo - prevêem os sinais virtuais somente com base nos CPCs, de acordo com:

Downmix Estéreo:

í LO

RO

F0_}

FO

II o o' <i	r i 0	0 1	'LO'
	^C!2
	.^CN\	^CN2 >

Downmix

Mono:

' LO FO,	= C(Z0) =	f¹Ί ^CI1
		\^CN\)

(£0).

Então, BGO e/ou FGO são obtidos por por exemplo, pelos meios 54 inversão de uma das quatro possíveis combinações lineares do codificador,

por exemplo,	'if R	= D~^]	' LO ' RO F0_x
			)

onde novamente D ¹ é e DCLD.

uma função dos parâmetros DMG

Assim, no total, um

Box TTN (OTN) 152 omitindo o residual computa ambas as etapas mencionadas de computação por exemplo:

LO

RO

Nota-se, que o inverso de D pode ser diretamente obtido no caso de D ser quadrático. No caso de uma matriz D não quadrática, o inverso de D será um pseudo-inverso, isto é, pinv(D) = D* ou pinv(D) = D} D* . Em qualquer caso, existe um inverso de D.

Finalmente, a Fig. 15 mostra outra possibilidade de como estabelecer, dentro das informações auxiliares, a quantidade de dados gastos para a transferência dos dados residuais. De acordo com esta sintaxe, as informações auxiliares compreendem bsResidualSamplingFrequencylndex, isto é, um índice de uma tabela que associa, por exemplo, uma resolução de frequência ao índice. De forma alternativa, a resolução pode ser pensada como sendo uma resolução predeterminada, como a resolução do banco de filtros ou a resolução paramétrica. Além disso, as informações auxiliares compreendem bsResidualFramesPerSAOCFrame definindo a resolução de tempo no qual o sinal residual é transferido. BsNumGroupsFGO também compreendido pelas informações auxiliares, indica o número de FGOs. Para cada FGO, é transmitido um elemento de sintaxe bsResidualPresent, indicando se o respectivo sinal residual FGO é transmitido ou não. Se presente, bsResidualBands indica o número de bandas espectrais para o qual os valores residuais são transmitidos.

Dependendo da implementação real, os métodos de codificação/decodificação do invento podem ser implementados em hardware ou em software. Portanto, a presente invenção também se refere a um programa de computador, que pode ser armazenado em uma mídia de leitura por computador como um CD, um disco ou qualquer outro veículo de dados. A presente invenção é, portanto, também um programa de computador dotado de um código de programas que, quando operado em um computador, realiza o método do invento de codificação ou o método do invento de decodificação descrito em relação às figuras acima.

Claims

REIVINDICAÇÕES

1. Decodificador de áudio para a decodificaçâo de um sinal multi-áudio-objeto caracterizado pelo fato de que é dotado de um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo aí codificados, o sinal multi-áudioobjeto consistindo de um sinal de downmix (56) e de informações auxiliares (58), as informações auxiliares compreendendo as informações de nível (60) do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência (42), e um sinal residual (62) que especifica os valores de nível residual em uma segunda resolução predeterminada de tempo/frequência, o decodificador de áudio compreendendo meios (52) para a computação de coeficientes de predição (64) com base nas informações de nível (60); e meios (54) para realizar o upmixing do sinal de downmix (56) com base nos coeficientes de predição (64) e o sinal residual (62) para ser obtido um primeiro sinal de áudio de upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio de upmix aproximando o sinal de áudio do segundo tipo.
2. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que as informações auxiliares (58) compreendem ainda uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal de downmix (56), onde o meio de upmixing é configurado para realizar o upmixing ainda com base na indicação downmix.
3. Decodificador de áudio, de acordo com a reivindicação 2, caracterizado pelo fato que a indicação downmix varia no tempo dentro das informações auxiliares.
4. Decodificador de áudio, de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que a indicação downmix varia no tempo dentro das informações auxiliares em uma
5 resolução de tempo menos refinada que um tamanho de quadro.

5. Decodificador de áudio, de acordo com qualquer uma das reivindicações de 2 a 4, caracterizado pelo fato de que a indicação downmix indica a pesagem por meio da qual o sinal de downmix foi upmixado com base no sinal de áudio do primeiro tipo e

10 no sinal de áudio do segundo tipo.
6. Decodificador de áudio, de acordo com qualquer uma das reivindicações de 1 a 5, caracterizado pelo fato que o sinal de áudio do primeiro tipo é um sinal de áudio estéreo tendo um primeiro e um segundo canais de entrada, ou um sinal de áudio

15 mono tendo somente um primeiro canal de entrada, e o sinal de downmix é um sinal de áudio estéreo tendo um primeiro e um segundo canais de saída, ou um sinal de áudio mono tendo somente um primeiro canal de saída, em que as informações de nível descrevem as diferenças de nível entre o primeiro canal de entrada, o

20 segundo canal de entrada e o sinal de áudio do segundo tipo, respectivamente, na primeira resolução predeterminada de tempo/frequência, em que as informações auxiliares compreendem ainda informações de intercorrelação definindo similaridades de nível entre o primeiro e o segundo canais de entrada em uma

25 terceira resolução predeterminada de tempo/frequência, onde os meios para a computação são configurados para realizar a computação ainda com base nas informações de intercorrelação.
7. Decodificador de áudio, de acordo com a reivindicação 6, caracterizado pelo fato que as primeira e terceira resoluções de tempo/frequência são determinadas por um elemento de sintaxe comum dentro das informações auxiliares.
8. Decodificador de áudio, de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que os meios para a computação e os meios para upmixing são configurados de modo que o upmixing seja representável pela aplicação de um vetor composto pelo sinal de downmix e pelo sinal residual, a uma sequência de uma primeira e uma segunda matrizes, a primeira matriz (C) sendo composta pelos coeficientes de predição e a segunda matriz (D) sendo definida por uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal de downmix, e que também é compreendido pelas informações auxiliares.
9. Decodificador de áudio, de acordo com a reivindicação 8, caracterizado pelo fato de que os meios para a computação e os meios para upmixing são configurados de modo que a primeira matriz mapeie o vetor até um vetor intermediário tendo uma primeira componente para o sinal de áudio do primeiro tipo e/ou uma segunda componente para o sinal de áudio do segundo tipo e sendo definida de modo que o sinal de downmix seja mapeado na primeira componente 1-para-l, e uma combinação linear do sinal residual e do sinal de downmix é mapeada na segunda componente.
10. Decodificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato que o sinal multi-áudio-objeto compreende uma pluralidade de sinais de áudio do segundo tipo e as informações auxiliares compreendem um sinal residual por sinal de áudio do segundo tipo.
11. Decodificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato que a segunda resolução predeterminada de tempo/frequência está relacionada à primeira resolução predeterminada de tempo/frequência via um parâmetro de resolução residual contido nas informações auxiliares, em que o decodificador de áudio compreende meios para a obtenção do parâmetro de resolução residual das informações auxiliares...
12. Decodificador de áudio, de acordo com a reivindicação 11, caracterizado pelo fato que o parâmetro de resolução residual define uma faixa espectral sobre a qual o sinal residual é transmitido dentro das informações auxiliares.
13. Decodificador de áudio, de acordo com a reivindicação 12, caracterizado pelo fato que o parâmetro de resolução residual define um limite inferior e um limite superior da faixa espectral.
14. Decodificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato que os meios para a computação dos coeficientes de predição com base nas informações de nível são configurados para computar os coeficientes de predição de canais c'f” para cada tile de tempo/frequência (l,m) da primeira resolução tempo/frequência, para cada canal de saída i do sinal de downmix, e para cada canal j do sinal (ais) de áudio do segundo tipo como pl,m pl,m _ p/,m pl_ym p/,w pl_tm _ pl,m pl,m

Lm *LoFoj*Ro *RoFoJ^LoRo Lm ^RoFoJ^Lo *LoFo,j*LoRo

Q = ' ¹¹ A C — ¹ .........

/1 p!,m p!,m _ p2 l,m j2 pl,mpljn _ p2 l,m *Lo ÍRo *LoR_o *Lo ÍRo *LoRo com

No = OLD, + X ml OLD, + X m_kIOC_jk jOLD/LLD* , ' J k=j+\

No = OLD_K + Xnl OLD, + X «_kIOC_Jk jOLD/JLD, , ' 7 *=J+1

Norn, = lOC^OLD^LD^+^m^OLD, +2^ X (m^ + m^IOC^OLD/JLD, ' j *=y+i

Νοΐ·ο,_} = mjOLD, + njIOC,_K jOLD,OLD_K - mOLD, - X mJOCj, JOLDjOLD, i*j

Proi-oj = jOLD, + mjIOC_IR fOLD,OLD_l( - η^ΰ_} - X η,ΙΟΟ_μ jOLD^LD, i*J com OLD_l indicando uma energia espectral normalizada de um primeiro canal de entrada do sinal de áudio do primeiro tipo no respectivo tile de tempo/frequência, OLD_Rindicando a energia espectral normalizada de um segundo canal de entrada do sinal de áudio do primeiro tipo no respectivo tile de tempo/frequência, e IOC_LR indicando informações de intercorrelaçâo definindo a similaridade da energia espectral entre o primeiro e o segundo canal de entrada no respectivo tile de tempo/frequência no caso, o sinal de áudio do primeiro tipo é estéreo ou OLD_lindicando a energia espectralmente normalizada do sinal de áudio do primeiro tipo no respectivo tile de tempo/frequência, e OLD_R e IOC_LR sendo zero - no caso, este é mono,..

e com OLDj indicando a energia espectralmente normalizada de um canal j do sinal (ais) de áudio do segundo tipo no respectivo tile de tempo/frequência e lOCij indicando informações de intercorrelaçâo definindo a similaridade da energia espectral entre os canais i e j do sinal(ais) de áudio do segundo tipo dentro do respectivo tile de tempo/frequência, com , .05DMG.

m, =10 ⁷ ₁ rfADCLDj I ' __in0.05DMG_l I 1

1 + 10°¹°^ ^e Vi + io⁰¹^ ' onde DCLD e DMG são indicações downmix em que os meios para upmix são configurados para produzirem o primeiro sinal de upmix Si e/ou o segundo sinal (ais) de upmix S₂,i do sinal de downmix d e um sinal residual resi por segundo sinal de upmix

S₂,i f ^S' ⁵2,l d-^kresf onde 1 no canto esquerdo superior indica dependendo do número de canais de d^n,k um escalar, ou uma matriz de identidade no canto inferior direito sendo uma matriz de identidade com tamanho

N, indica um vetor ou matriz zero também dependendo do número de canais de d^n,k e D sendo uma matriz exclusivamente determinada por uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal de downmix, e que é também compreendido pelas informações auxiliares, d^n,k e reSi^n,k o sinal de downmix e o sinal residual para o segundo sinal de upmix

S₂,i no tile de tempo/frequência (n,k), respectivamente, onde resi^n,k não compreendidos pelas informações auxiliares são ajustados em zero.
15. Decodificador de áudio, de acordo com a reivindicação 14, caracterizado pelo fato que D é a inversão de ⁰ í

Ι-Ιλ.

^Wl «| ‘ -í : : 0 ^lN m, ⁿ.^N o

no caso do sinal de downmix sendo estéreo e S estéreo sendo

D =

1 ί ^m\ · ·· ^mN 1 ; «i _L n_N W, + «, -1 · . 0 o ·· ^m _N +n_N 0 .. -1

downmix ser estéreo e S mono

1 ; m_} . · w, / 1 Ί /2 ί· . 0 m_N ^w.v/ . u 2 /2 u • J

de downmix ser mono e Si ser estéreo ser mono qualquer fato que no caso do no caso uma ser mono.

sinal de do sinal θ’
16. Decodificador das sinal espacial no de caso do sinal de downmix áudio, de acordo com reivindicações anteriores, caracterizado pelo multi audio objeto compreende informações de para fazer rendering espacial do sinal de áudio _do primeiro tipo _em uma configuragão predeterminada do falante .

alto
17. Decodificador de áudio, de acordo qualquer _UM das reivindicações anteriores, caracterisado com pelo fato que os meios para upmix são configurados para fazer o rendering espacial do primeiro sinal de áudio de upmix separado do segundo sinal de áudio upmix, fazer o rendering espacial do segundo sinal de áudio upmix separado do primeiro sinal de áudio de upmix, ou mixar o primeiro sinal de áudio de upmix e o segundo sinal de áudio upmix e fazer o rendering espacial de sua versão mixada em uma configuração predeterminada do alto-falante.
18. Codificador de objeto de áudio caracterizado pelo fato de que compreende: meios para a computação das informações de nivel de um sinal de áudio do primeiro tipo e de um sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência; meios para a computação de coeficientes de predição com base nas informações de nivel; meios para o downmixing do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo para obter um sinal de downmix; meios para o estabelecimento de um sinal residual que especifica valores de nivel residual em uma segunda resolução predeterminada de tempo/freqüência, de modo que o upmixing do sinal de downmix com base tanto nos coeficientes de predição como no sinal residual resulte em um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo, a aproximação sendo melhorada quando comparada à ausência do sinal residual, sendo as informações de nível e o sinal residual compreendidos por uma informação auxiliar que forma, com o sinal de downmix, um sinal multi-áudio-obj eto.
19. Codificador de objeto de áudio, de acordo com a reivindicação 18, caracterizado pelo fato de que compreende ainda: meios para decompor espectralmente o sinal de áudio de um primeiro tipo e o sinal de áudio de um segundo tipo.
20. Método para decodificar um sinal multi-áudioobjeto caracterizado pelo fato de que tem um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo nele codificados, o sinal multi-áudio-objeto consistindo em um sinal de downmix (56) e informações auxiliares (58), as informações auxiliares compreendendo informações de nivel (60) do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência (42), e um sinal residual (62) que especifica valores de nivel residual em uma segunda resolução predeterminada de tempo/frequência, o método compreendendo computação dos coeficientes de predição (64) com base nas informações de nivel (60); e upmixing do sinal de downmix (56) com base nos coeficientes de predição (64) e no sinal residual (62) para obter um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo.
21. Método de codificação de multi-áudio-objeto, caracterizado pelo fato de que compreende: computação das informações de nivel de um sinal de áudio do primeiro tipo e de um sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência; computação dos coeficientes de predição com base nas informações de nivel; downmixing do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo para obter um sinal de downmix; estabelecimento de um sinal residual que especifica valores de nível residual em uma segunda resolução predeterminada de tempo/frequência de modo que o upmixing do sinal de downmix com base tanto nos coeficientes de predição como no sinal residual resulte em um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo, a aproximação sendo melhorada quando comparada à ausência do sinal residual, as informações de nível e o sinal residual sendo compreendidos por uma informação auxiliar que forma, com o sinal de downmix, um sinal multi-áudio-obj eto...
22. Programa com um código de programa para executar, caracterizado pelo fato de que quando opera em um processador, um método de acordo com a reivindicação 20 ou de acordo com a reivindicação 21.
23. Sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo nele codificados, o sinal multi-áudio-objeto consistindo em um sinal de downmix e informações auxiliares, as informações auxiliares compreendendo informações de nível do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência, e um sinal residual que especifica valores de nível residual em uma segunda resolução predeterminada de tempo/frequência, caracterizado pelo fato de que o sinal residual é estabelecido de modo que a computação dos coeficientes de predição com base nas informações de nível e o upmixing do sinal de downmix com base nos coeficientes de predição e no sinal residual resulte em um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo.
24. Decodificador #. SAOC para decodificar um sinal de downmix estéreo SAOC (112), informações auxiliares SAOC (106, 114) e uma codificação residual (132), caracterizado pelo fato de que o sinal de downmix estéreo SAOC é uma combinação de um sinal de objeto estéreo (104) que forma um primeiro e um segundo sinais de áudio, e um sinal de objeto mono (110) que forma um terceiro sinal de áudio, as informações auxiliares SAOC compreendendo proporções de energia de objeto para cada um dos três sinais de áudio e correlação inter-sinais entre o primeiro e o segundo sinais de áudio, e a codificação residual servindo para aumentar a qualidade da reconstrução de um upmix, o decodificador SAOC compreendendo um box TTT (TTT = Dois para Três) configurado para realizar o cálculo (52) dos coeficientes de predição de canal a partir das energias de objeto e a correlação inter-sinais, e reconstrução de upmix (54) do primeiro e segundo sinais de áudio e/ou do terceiro sinal de áudio com base em uma forma de onda pelo processamento de TTT utilizando os coeficientes de predição de canal e o sinal residual.
25. Decodificador #+l. SAOC, de acordo com a reivindicação 24, caracterizado pelo fato de que as informações auxiliares SAOC (106, 114) compreendem ainda uma matriz downmix, cujas entradas indicam um peso pelo qual o primeiro a terceiro sinais de áudio contribuem com os canais downmix esquerdo e direito do sinal de downmix estéreo SAOC por soma, onde o primeiro sinal de áudio contribui com o canal downmix esquerdo enquanto não contribui com o canal downmix direito, e o segundo sinal de áudio contribui com o canal downmix direito enquanto não contribui com o canal downmix esquerdo, e o terceiro sinal de áudio é mixado entre os canais downmix esquerdo e direito, onde o box TTT é configurado para realizar a reconstrução de upmix utilizando ainda a matriz downmix .
26. Método de decodif icação #+2. SAOC caracterizado pelo fato de que é para decodificar um sinal de downmix estéreo SAOC (112), informações auxiliares SAOC (106, 114) e uma codificação residual (132), sendo o sinal de downmix estéreo SAOC uma combinação de um sinal de objeto estéreo (104) que forma um primeiro e um segundo sinais de áudio, e um sinal de objeto mono (110) que forma um terceiro sinal de áudio, as informações auxiliares SAOC compreendendo proporções de energia de objeto para cada um dos três sinais de áudio e correlação inter-sinais entre o primeiro e o segundo sinais de áudio, e a codificação residual servindo para aumentar a qualidade da reconstrução de um upmix, o método de decodificação SAOC compreendendo cálculo (52) dos coeficientes de predição de canal a partir da informação de proporção de energia de objeto e da correlação inter-sinais, e reconstrução de upmix (54) do primeiro e segundo sinais de áudio e/ou do terceiro sinal de áudio com base em uma forma de onda pelo processamento de TTT utilizando os coeficientes de predição de canal e o sinal residual.

1/18

1«n

5° 16

Downmi

V. Codificador objy^ Obj_K7—►

1,2 iDecodificador/Transcodificador ownmix i

LO -RO —[ -v->OLD, IOC, -4 /DMG.DCLD 20 Parâmetros SAOC

Upmix

M

M

26^y Informações de Rendering

FIG1

FIG 2

2/18

I I

I | indicação de

I I downmix de

ambos

FIG 3

3/18

FIG 4

4/18

5/18

6/18

7/18

i-ι Modo ampliado (res 6) ·— Modo ampliado (res 12) « Modo ampliado (res 24)

FIG 8A

i—i Modo ampliado (res 6) <—< Modo ampliado (res 12) —> Modo ampliado (res 24)

FIG 8B

8/18

FIG 9

9/18

FIG 10

tPjram,______ί [_____126a

FIG 11

10/18

FIG 12

11/18

Sintaxe

Sintaxe de SAOCSpecificConfig()

N° de bits Mnemônico

SAOCSpecificConfigO { bsSamplingFrequency Index; if (bsSamplingFrequencylndex = = 15 { bsSamplingFrequency;

} bsFreqRes; bsFrameLength; frameljengm=bsFrarneLength +1; bsNumObjects;

numObjects = bsNumObjects +1; for (i=0; i<numObjects; i++) { objectlsGrouped[i] = 0;

} for (i=0; icnumObjects; i++){ bsRelatedTojijji] = 1;

for (j=I+1; j < numObjects; j++) { if (iobjectlsGroupedjj] && IbsRelatedTojijjjj) { bsRelatedTo(lHj); bsRelatedTojjjji] = bsRelatedTojijjj]; if (bsRelatedTo[i]Ol == 1) { ob|ectlsGrouped[i]=1; objectlsGrouped[jí=1; for (k=l; k<|; k++){ if (bsFtelatedTo[IJ[kj == 1){ bsRelatedTo[j][k] = 1; bsRelatedTo[k][|j = 1;

} } } } } } bsTransmitAbsNrg; bsNumOmxChannels; numDmxChanneis = bsNumOmxChannels +1; if (numDmxChanneis == 2) { bsTttDualMode;

if (bsTttDualMode) { bsTttBandslow;

} else{ bsTttBandsLow = numBands;

} } bsObjectMetaDataAvallable; if (bsObjectMetaDataAvallable) { ObjectMetaData (numObjects);

} bsReseved; ByteAHgnO; SAOCExtensionConfigO;

1___________________________________________________________,______________________________________________________________________

Nota 1: numBands é definido em bsFreqRes e depende deste uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf

Nota 1 uimsbf uimsbf

FIG13A

12/18

Sintaxe de SAOCExtensionConfig()

FIG13B

13/18 ___________________Sintaxe de SAOCExtensionConfigData(O)__________________ Sintaxe________________________________________________N° de bits Mnemônico

SAOCExtensionConfigData(O) {

bsResidualSamplingFrequencylndex; 4 uimsbf bsResidualFramesPerSAOCFrame; 2 uimsbf bsNumGroupsFGO; 2 uimsbf

NumGroupsFGO = bsNumGroupsFGO + 1;

for (i=0;i< NumGroupsFGO; i++){

ResidualConfig(i);

} }__________________________________________________________

Nota 1: numOttBoxes e numTttBoxes são definidos e dependem de bsTreeConfig.

FIG13C

Tabela 1 - Sintaxe de ResidualConfig()

Sintaxe N° de bits IV nemônico ResidualConfig(i) { bsResidualPresentfi]; 1 uimsbf if (bsResidualPresent[i]){ bsResidualBands[i]; 5 uimsbf } }

FIG 13D

14/18 ________________________Sintaxe de SAQCFrameQ_______________________ Sintaxe________________________________________ N° de bits Mnemônico

SAOCFrameO {

Framinginfo; Nota 1 bsindependencyFlag; 1 uimsbf startBand = 0;

for (í—O;i<numObjects; i++){ [old[i] ,o IdQuantCoarse [i], oldFreqResStride[i)] = ^Nota 2,³

EcData(t_OLD, prevOldQuantCoarse [i], prevOldFreqResStr ide [i], numParamSets, bsindependencyFlag, startBand, numBands);

} if (bsTransmitAbsNrg) { [nrg, nrgQuantCoarse, nrgFreqResStride] = Nota 2,3

EcData(t_NRG, prevNrgQuantCoarse, prevNrgFreqResStride, numParamSets, bsindependencyFlag, startBand, numBands);

} for (i=O;i< numObjects; i++){ for (j=i+1 ;j< numObjects; j++) { if (bsRelatedTo[i][j]i=0){ [ioc[i][j], iocQuantCoarse[i] [j], iocFreqResStride[i] [j] = Notes 2,3

EcData(t_ICC, prevIocQuantCoarse [i] ü], prevl ocFreq ResStr i d e [i] [j], numParamSets, bsindependencyFlag, startBand, numBands);

} }

} firstObject = 0;

[dmg, dmgQuantCoarse, dmgFreqResStride] =

EcData (t_CLD, prevDmgQuantCoarse, prevIocFreqResStride, numParamSets, bsindependencyFlag, firstObject, numObjects);

if (numDmxChannels > 1){ [cld, cldQuantCoarse, cldFreqResStride] = EcData (t_CLD, prevOldQuantCoarse, prevCIdFreqResStride, numParamSets, bsindependencyFlag, firstObject, numObjects);

}

ByteAlignO;

SAOCExtensionFrameO;

}___________________________________________________________________________________

Nota 1: FraminglnfoQ é definido em ISO/IEC FDIS 23003 -1:2006, Tabela 16.

Nota 2: EcDataQ é definido em ISO/IEC FDIS 23003 -1:2006, Tabela 23.

Nota 3 - numBands é definido em ISO/IEC FDIS 23003 -1:2006, Tabela 39 e depende de bsFreqRes.

FIG13E

15/18

Sintaxe de SAOCExtensionFrame()

Sintaxe N° de bits Mnemônico SAOCExtensionFrame() { for (ec=0; ec<sacExtNum; ec++){ if (sacExtType[ec]<12) { cnt=bsSacExtLen; if(cnt==255){ 8 uimsbf cnt+=bsSacExtLenAdd; } 16 uimsbf bitsRead=SAOCExtensionFrameData(sacExtType[ec]) nFilIBits = 8*cnt-bitsRead; Nota 1 bsFílIBits; } } } nFilIBits bslbf Nota 1: SAOCExtensionFrameData () devolve o número de lidos.

FIG13F

Tabela 2 - Sintaxe de SAOCExtensionFrameData(O)

Sintaxe N° dê bits MrtèlYiôniõõ SAOCExtensionFrameData(O) { ResidualData () }

FIG 13G