[go: up one dir, main page]

BRPI0816556A2 - codificação de áudio usando downmix - Google Patents

codificação de áudio usando downmix Download PDF

Info

Publication number
BRPI0816556A2
BRPI0816556A2 BRPI0816556-4A BRPI0816556A BRPI0816556A2 BR PI0816556 A2 BRPI0816556 A2 BR PI0816556A2 BR PI0816556 A BRPI0816556 A BR PI0816556A BR PI0816556 A2 BRPI0816556 A2 BR PI0816556A2
Authority
BR
Brazil
Prior art keywords
signal
audio
downmix
audio signal
type
Prior art date
Application number
BRPI0816556-4A
Other languages
English (en)
Inventor
Oliver Hellmuth
Juergen Herre
Leonid Terentiev
Andreas Hoelzer
Cornelia Falch
Johannes Hilpert
Original Assignee
Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forsschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40149576&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0816556(A2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forsschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forsschung E.V.
Publication of BRPI0816556A2 publication Critical patent/BRPI0816556A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

codificação de áudio usando downmix é descrito um decodificador de áudio para decodificar um sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo nele codificados, o sinal multi-áudio-objeto consistindo em um sinal de downmix (56) e informações auxiliares (58) f as informações auxiliares compreendendo informações de nível ( 60) do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/ frequência ( 42), e um sinal residual ( 62) que especifica valores de nível residual em uma segunda resolução predeterminada de tempo/frequência, o decodificado r de áudio compreendendo meios (52) para a computação de coeficientes de predição (64) com base nas informações de nível (60); e meios (54) para upmixing do sinal de downmix (56) com base nos coeficientes de predição ( 64) e no sinal residual ( 62) para obter um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo.

Description

Descrição
O presente pedido se refere à codificação de áudio usando o downmixing de sinais.
Foram propostos muitos algoritmos de codificação de áudio para codificar ou comprimir efetivamente dados de áudio de um canal, isto é, sinais de áudio mono. Usando a psicoacústica, amostras de áudio são pesadas de forma adequada, quantificadas ou mesmo ajustadas em zero para remover a irrelevância, por exemplo, do sinal de áudio PCM codificado. É também feita a remoção da redundância.
Como outra etapa, foi explorada a similaridade entre os canais esquerdo e direito dos sinais de áudio estéreo para efetivamente codificar/comprimir os sinais de áudio estéreo.
Entretanto, novas aplicações colocam outras demandas sobre os algoritmos de codificação de áudio. Por exemplo, na teleconferência, games de computador, desempenhos musicais e similares, vários sinais de áudio que são parcialmente ou até totalmente descorrelacionados devem ser transmitidos em paralelo. Para manter a necessária taxa de bits para a codificação desses sinais de áudio suficientemente baixos para serem compatíveis com os aplicativos de transmissão com baixa taxa de bits, recentemente, foram propostos codecs de áudio que realizam o downmix dos múltiplos sinais de áudio de entrada em um sinal de downmix, como um downmix de sinal estéreo ou até mono. Por exemplo, o MPEG Surround padrão realiza o downmix dos canais de entrada no sinal de downmix da forma indicada no padrão. O downmix é feito com o uso dos denominados boxes OTT”1 e TTT’1 para o downmix de dois sinais em um e de três sinais em dois, respectivamente. Para fazer o downmix de mais que três sinais, é usada uma estrutura hierárquica desses boxes. Cada box OTT’1 produz, além do sinal de downmix mono, diferenças de níveis de canais entre os dois canais de entrada, assim como parâmetros de coerência intercanais/correlação cruzada representando a coerência ou a correlação cruzada entre os dois canais de entrada. Os parâmetros são produzidos juntamente com o sinal de downmix do codificador MPEG Surround dentro do fluxo de dados MPEG Surround. De forma 10 similar, cada box TTT-1 transmite coeficientes de predição de canais que permitem a recuperação dos três canais de entrada do sinal estéreo downmix resultante. Os coeficientes de predição de canais também são transmitidos como informações auxiliares dentro do fluxo de dados do MPEG Surround. O decodificador MPEG Surround 15 realiza o upmix do sinal de downmix usando as informações auxiliares transmitidas e recupera a entrada do canal original no codificador MPEG Surround.
Entretanto, o MPEG Surround, infelizmente, não preenche todos os requisitos exigidos por muitas aplicações. Por 20 exemplo, o decodificador MPEG Surround é dedicado ao upmix do sinal de downmix do codificador MPEG Surround, de maneira que os canais de entrada do codificador MPEG Surround são recuperados no estado. Em outras palavras, o fluxo de dados MPEG Surround é dedicado a fazer o play back com o uso da configuração do alto25 falante que tiver sido usada para a codificação...
Entretanto, de acordo com algumas implicações, seria favorável se a configuração do alto-falante pudesse ser mudada no lado do decodificador.
Para a solução dessas últimas necessidades, é projetado no presente o padrão de codificação de objeto de áudio espacial (SAOC). Cada canal é tratado como um objeto individual, e todos os objetos são downmixados em um sinal de downmix. Entretanto, além de os objetos individuais também poderem compreender fontes de som individuais como, por exemplo, trilhas de instrumentos ou vocais. Entretanto, diferindo do decodificador MPEG Surround, o decodificador SAOC é livre para realizar individualmente o upmix do sinal de downmix e fazer o replay dos objetos individuais em qualquer configuração do alto-falante. Para permitir que o decodificador SAOC recupere os objetos individuais que tiverem sido codificados no fluxo de dados SAOC, diferenças de nível de objeto e, para objetos que formam em conjunto um sinal estéreo (ou multi-canal) , são transmitidos parâmetros interobjetos de correlação cruzada como informações auxiliares dentro do fluxo de bits SAOC. Além disso, o decodificador/transcodificador SAOC é dotado de informações que revelam como os objetos individuais foram downmixados no sinal de downmix. Assim, no lado do decodificador, é possível recuperar os canais SAOC individuais e submeter esses sinais em qualquer configuração do alto-falante utilizando as informações de submissão controladas pelo usuário.
Entretanto, apesar de o codec SAOC ter sido projetado para tratar individualmente os objetos de áudio, algumas aplicações são mais exigentes. Por exemplo, aplicações de Karaokê exigem uma separação completa do sinal de áudio de fundo do sinal de áudio de primeiro plano ou sinais de áudio de primeiro plano. Vice versa, no modo solo, os objetos de primeiro plano devem ser separados do objeto de fundo. Entretanto, devido ao igual tratamento dos objetos individuais de áudio, não foi possível remover completamente os objetos de fundo ou os objetos de primeiro plano, respectivamente, do sinal de downmix.
Assim, é o objetivo da presente invenção prover um codec de áudio usando o downmixing de sinais de áudio, de forma a ser obtida uma melhor separação dos objetos individual como, por exemplo, em uma aplicação Karaokê de modo solo.
Esse objetivo é alcançado por um decodificador de áudio, de acordo com a reivindicação 1, um codificador de áudio de acordo com a reivindicação 18, um método de decodificação de acordo com a reivindicação 20, um método de codificação de acordo com a reivindicação 21, e um sinal multi-áudio-objeto de acordo com a reivindicação 23.
Com referência às Figuras, as configurações preferidas do presente pedido são descritas em mais detalhes. Entre essas Figuras:
A Fig. 1 mostra um diagrama de blocos de uma disposição codificador/decodificador SAOC onde podem ser implementadas as configurações da presente invenção;
A Fig. 2 mostra um diagrama esquemático e
ilustrativo de uma representação espectral de um sinal de áudio
mono;..
A Fig. 3 mostra um diagrama de blocos de um
decodificador de áudio de acordo com uma configuração da presente invenção;
A Fig. 4 mostra um diagrama de blocos de um codificador de áudio de acordo com uma configuração da presente invenção;
A Fig. 5 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo, como configuração de comparação;
A Fig. 6 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com uma configuração;
A Fig. 7a mostra um diagrama de blocos de um codificador de áudio para uma aplicação de modo Karaokê/Solo, de acordo com uma configuração de comparação;
A Fig. 7b mostra um diagrama de blocos de um codificador de áudio para uma aplicação de modo Karaokê/Solo, de acordo com uma configuração;
As Figs. 8a e b mostram plotagens de resultados de medições de qualidade;
A Fig. 9 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo, com propósitos de comparação;
A Fig. 10 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com uma configuração;
A Fig. 11 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com outra configuração;
A Fig. 12 mostra um diagrama de blocos de um arranjo de codificador/decodificador de áudio para aplicação em modo Karaokê/solo de acordo com outra configuração;
As Figs. 13a a h mostram tabelas que refletem uma possível sintaxe do fluxo de bits SAOC de acordo com uma configuração da presente invenção;
A Fig. 14 mostra um diagrama de blocos de um decodificador de áudio para -uma aplicação de modo Karaokê/Solo, de acordo com uma configuração; e
A Fig. 15 mostra uma tabela que reflete uma possível sintaxe para a sinalização da quantidade de dados gastos para transferir o sinal residual.
Antes que as configurações da presente invenção 10 sejam descritas abaixo em mais detalhes, o codec SAOC e os parâmetros SAOC transmitidos em um fluxo de bits SAOC são apresentados para facilitar a compreensão das configurações específicas ressaltadas abaixo em mais detalhes.
A Fig. 1 mostra um arranjo geral de um » 15 codificador SAOC 10 e de um decodificador SAOC 12. O codificador
SAOC 10 recebe como entrada N objetos, isto é, sinais de áudio 14i a 14n. Em particular, o codificador 10 compreende um downmixer 16
que recebe os sinais de áudio 14i a 1 4n e realiza o downmix desses
em um sinal de downmix 18. Na Fig. 1, o sinal de downmix é
20 mostrado de forma exemplar como um sinal estéreo downmix.
Entretanto, é também possível um sinal de downmix mono. Os canais
do sinal estéreo downmix 18 são indicados como L0 e RO, no caso de um mono downmix do mesmo ser simplesmente indicado como L0. Para permitir que o decodificador SAOC 12 recupere os objetos individuais 14i a 14N, o downmixer 16 fornece ao decodificador SAOC as informações auxiliares, incluindo os parâmetros SAOC com as diferenças de nível de objeto (OLD), parâmetros inter-objetos de correlação cruzada (IOC), valores de ganho downmix (DMG) e diferenças de níveis de canais downmix (DCLD). As informações auxiliares 20 incluindo os parâmetros SAOC, junto com o sinal de downmix 18, formam o fluxo de dados de saída SAOC recebido pelo decodificador SAOC 12.
O decodificador SAOC 12 compreende um upmixer 22 que recebe o sinal de downmix 18 assim como as informações auxiliares 20 para recuperar e submeter os sinais de áudio 14x e 14n em qualquer conjunto selecionado de usuários de canais 24x a 24«, com o rendering sendo indicado pelas informações de rendering 10 26 enviadas para o decodificador SAOC 12.
Os sinais de áudio 14x a 14N podem ser enviados ao downmixer 16 em qualquer domínio de codificação como, por exemplo, em domínio de tempo ou espectral. No caso, os sinais de áudio 14x a 14n são enviados ao downmixer 16 no domínio de tempo, como 15 codificado PCM, o downmixer 16 usa um banco de filtros, como um banco QMF híbrido, isto é, um banco de filtros de modulação exponencialmente complexa com uma extensão de filtros Nyquist para as bandas de frequências mais baixas para aí aumentar a resolução das frequências, para transferir os sinais no domínio espectral em 20 que os sinais de áudio são representados em várias sub-bandas associadas a diferentes porções espectrais, em uma resolução específica de banco de filtros. Se os sinais de áudio 14x a 14N já estiverem na representação esperada pelo downmixer 16, este não precisa realizar a decomposição espectral.
A Fig. 2 mostra um sinal de áudio no recém mencionado domínio espectral. Como pode ser visto, o sinal de áudio é representado como uma pluralidade de sinais de sub-banda. Cada sinal de sub-banda 30x a 30P consiste de uma sequência de valores de sub-banda indicados pelos pequenos boxes 32. Como pode ser visto, os valores de sub-banda 32 dos sinais de sub-bandas 30i a 30P são sincronizados entre si em tempo, de forma que para cada um dos slots de tempo do banco de filtros consecutivos 34 cada 5 sub-banda 30i a 30P compreende exatamente um valor de sub-banda 32.
Como ilustrado pelo eixo de frequências 36, os sinais de subbandas 30i a 30P estão associados a diferentes regiões de frequência, e como ilustrado pelo eixo do tempo 38, os slots de
tempo do banco de filtros 34 são dispostos de forma consecutiva no
10 tempo.
Como acima ressaltado, o downmixer 16 computa os
parâmetros SAOC dos sinais de áudio de entrada 14! a 14N. 0
downmixer 16 realiza esta computação em uma resolução tempo/frequência que pode ser reduzida com relação à resolução i 15 tempo/frequência original como determinada pelos slots de tempo do banco de filtros 34 e pela decomposição de sub-banda de um certo valor, com este certo valor sendo sinalizado para o lado do decodificador dentro das informações auxiliares 20 pelos respectivos elementos de sintaxe bsFrameLength e bsFreqRes. Por exemplo, grupos de slots de tempo do banco de filtros consecutivos podem formar um quadro 40. Em outras palavras, o sinal de áudio pode ser dividido em quadros que se sobrepõem no tempo ou que sejam imediatamente adjacentes no tempo, por exemplo. Neste caso, bsFrameLength pode definir um número de slots paramétricos de tempo 41, isto é, a unidade de tempo em que os parâmetros SAOC como OLD e IOC, são computados em um quadro SAOC 40 e bsFreqRes pode definir o número de bandas processadoras de frequência para as quais os parâmetros SAOC são computados. Por essa medição, cada quadro é dividido nos tiles de tempo/frequência exemplificados na
Fig. 2 pelas linhas tracejadas 42...
O downmixer 16 calcula os parâmetros SAOC de acordo com as seguintes fórmulas. Em particular, o downmixer computa diferenças de nível de objeto para cada objeto como
OLD, =----------Η ΣΣ«“
J k n kem /
onde as somas e os índices n e
respectivamente, passam por todos os slots de tempo do banco
filtros 34, todas as sub- bandas de banco de filtros 30
k, de que determinado pertencem a tile de tempo/frequência 42. Portanto, as energias de todos os valores de sub-banda Xi de um sinal ou objeto de áudio são somadas e normalizadas no maior valor de energia daquele tile entre todos os objetos ou sinais de áudio.
Além disso, o downmixer SAOC 16 pode computar uma medida de similaridade dos correspondentes tiles de tempo/frequência de pares de diferentes objetos de entrada 14x a
14n. Apesar de o downmixer
SAOC 16 poder computar a medida de similaridade entre todos os pares de objetos de entrada 14χ a 14N, o downmixer também pode suprimir a sinalização das medidas de similaridade ou restringir a computação das medidas de similaridade a objetos de áudio 14: a 14N que formam os canais esquerdo ou direito de um canal estéreo comum. Em qualquer caso, a medida de similaridade é denominada de parâmetro de correlação cruzada inter-objetos IOCi,j. A computação é a seguinte:
IOC, J=IOC^=Ren kem
Figure BRPI0816556A2_D0001
n,k n,k*
C Xj novamente com os indices nek percorrendo todos
os valores de sub-banda que pertencem a um determinado tile de
tempo/frequência 42, e i e j indicando um determinado par de
objetos de áudio 14i a 14n.
0 downmixer 16 realiza o downmix dos objetos 14i
a 14n usando os fatores de ganho aplicados a cada objeto 14i a 14N. Isto é, um fator de ganho Di é aplicado ao objeto i e então todos os objetos assim pesados 14i a 14N são somados para obter um sinal de downmix mono. No caso de um sinal estéreo downmix, caso exemplificado na Fig. 1, é aplicado um fator de ganho Di,í ao objeto i e então todos esses objetos amplificados de ganho são somados para obter o canal downmix esquerdo L0, sendo os fatores de ganho D2,í aplicados ao objeto i e então os objetos de ganho amplificado são somados para obter o canal downmix direito RO.
Essa indicação downmix é sinalizada para o lado do decodificador por meio de ganhos downmix DMGí e, no caso de um sinal estéreo downmix, as diferenças de níveis de canais downmix
DCLDi.
Os ganhos downmix são calculados de acordo com:
DMG, = 201ogl0 (Dz+£·) , (mono downmix),
DMG,= 101ogw (Z),2, +D],+£) , (estéreo downmix), onde ε é um pequeno número como IO'9.
Para o DCLD aplica-se a seguinte fórmula:
DCLD. = 201og10
No modo normal, o downmixer 16 gera o sinal de downmix de acordo com:
para urn mono downmix, ou
Έθ' 'Objf
S)bJ^ para um estére
Assim, nas parâmetros OLD e IOC são uma parâmetros DMG e DCLD são uma que D pode variar com o tempo.
Assim, no mo > downmix, respectivamente.
formulas supramencionadas, os função dos sinais de áudio e os função de D. Aliás, deve-se notar o normal, o downmixer 16 faz a mistura tratando downmix de todos os objetos igualmente todos os
O upmixer
14! a ob j etos faz e a implementação das
14n sem preferências, isto é inversão do procedimento informações de rendering representadas pela matriz A em uma etapa de computação, isto é, = AED~\DED-^X 'LO
RO onde a matriz E é uma função dos parâmetros OLD e
IOC...
Em outras palavras, no modo normal, não é feita nenhuma classificação dos objetos 14i a 14N em BGO, isto é, objeto de fundo, ou FGO, isto é, objeto de primeiro plano. As informações com as quais o objeto será apresentado na saída do upmixer 22 devem ser fornecidas pela matriz de rendering A. Se, por exemplo, um objeto de índice 1 for o canal esquerdo de um objeto estéreo de fundo, o objeto com índice 2 seria seu canal direito, e o objeto com índice 3 seria o objeto de primeiro plano, então a matriz de rendering A seria
'bgoG
Obj2 = bgor -> A =
S)bh,
o (P
0, para produzir um sinal de saída do tipo Karaokê.
Entretanto, como já indicado acima, a transmissão de BGO e FGO com o uso desse modo normal do codec SAOC não alcança resultados aceitáveis.
As Figs. 3 e 4, descrevem uma configuração da presente invenção que supera a deficiência descrita. O decodificador e o codificador descritos nessas Figs. e suas funcionalidades associadas podem representar um modo adicional como um modo ampliado no qual o codec SAOC da Fig. 1 pudesse ser comutável. Serão posteriormente apresentados os exemplos da última possibilidade.
A Fig. 3 mostra um decodificador 50. O decodificador 50 compreende meios 52 para computar os coeficientes de predição e os meios 54 para realizar o upmix de um sinal de downmix.
decodificador de áudio 50 da Fig. 3 é dedicado à decodificação de um sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo neles codificado. O sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo podem ser um sinal de áudio mono ou estéreo, respectivamente. 0 sinal de áudio do primeiro tipo, por exemplo, é um objeto de fundo, considerando que o sinal de áudio do segundo tipo é um objeto de primeiro plano. Isto é, a configuração da Fig. 3 e da Fig. 4 não está necessariamente restrita a aplicações de Karaokê/Solo. Em vez disso, o decodificador da Fig. 3 e o codificador da Fig. 4 podem ser usados com vantagens em outros locais.
O sinal multi-áudio-objeto consiste de um sinal de downmix 56 e das informações auxiliares 58. As informações auxiliares 58 compreendem informações de nível 60 descrevendo, por exemplo, as energias espectrais do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo na primeira resolução predeterminada de tempo/frequência como, por exemplo, a resolução tempo/frequência 42. Em particular, as informações de nível 60 podem compreender um valor escalar normalizado da energia espectral por objeto e tile de tempo/frequência. A normalização pode estar relacionada com o maior valor da energia espectral entre os sinais de áudio do primeiro e o segundo tipo no respectivo tile de tempo/frequência. A última possibilidade resulta em OLDs para representar as informações de nível, também denominados na presente de informações de diferenças de nível. Apesar de as seguintes configurações usarem OLDs, estas podem, apesar de não declarado explicitamente na presente, usar outra representação de energia espectral normalizada.
As informações auxiliares 58 compreendem também um sinal residual 62 especificando valores de nível residual na segunda resolução predeterminada de tempo/frequência que podem ser iguais ou diferentes à da primeira resolução predeterminada de tempo/frequência.
Os meios 52 para a computação de coeficientes de predição são configurados para computarem os coeficientes de predição com base nas informações de nível 60. Além disso, os meios 52 podem computar os coeficientes de predição ainda com base nas informações de intercorrelação também compreendidas pelas informações auxiliares 58. Mais ainda, os meios 52 podem usar informações de indicação downmix com variação de tempo, compreendidas pelas informações auxiliares 58 para a computação dos coeficientes de predição. Os coeficientes de predição computados pelos meios 52 são necessários para a recuperação ou o upmixing dos objetos de áudio originais ou dos sinais de áudio do sinal de downmix 56.
Assim, os meios 54 para o upmixing são configurados para realizar o upmix do sinal de downmix 56 com base nos coeficientes de predição 64 recebidos dos meios 52 e, opcionalmente, do sinal residual 62. Ao usar o residual 62, o decodificador 50 pode até melhor suprimir conversas cruzadas do sinal de áudio de um tipo para o sinal de áudio do outro tipo. Além do sinal residual 62, meios 54 também podem usar a indicação downmix de variação de tempo para realizar o upmix do sinal de downmix. Além disso, os meios 54 para upmixing podem usar a entrada do usuário 66 para decidir quais dos sinais de áudio recuperados do sinal de downmix 56 devem ser realmente enviados para a saída 68 ou até certo ponto. Como um primeiro extremo, a entrada de usuário 66 pode instruir os meios 54 a simplesmente enviarem o primeiro sinal de upmix aproximando o sinal de áudio do primeiro tipo. O oposto é verdade para o segundo extremo de acordo com quais meios 54 devem somente enviar o segundo sinal de upmix aproximando o sinal de áudio do segundo tipo. São possíveis opções intermediárias, assim como, de acordo com qual mistura de ambos os sinais de upmix é submetida para envio para a saída 68.
A Fig. 4 mostra uma configuração de um codificador de áudio adequado para a geração de um sinal de objeto multi-áudio decodificado pelo decodificador da Fig. 3. O codificador da Fig. 4 que é indicado pelo sinal de referência 80, pode compreender meios 82 para decompor espectralmente no caso em que os sinais de áudio 84 a serem codificados não estejam no domínio espectral. Entre os sinais de áudio 84, por sua vez, há pelo menos um sinal de áudio de um primeiro tipo e pelo menos um sinal de áudio de um segundo tipo. Os meios 82 para a decomposição espectral são configurados para decompor espectralmente cada um desses sinais 84 em uma representação como mostrada na Fig. 2, por exemplo. Isto é, os meios 82 para a decomposição espectral decompor espectralmente os sinais de áudio 84 na resolução predeterminada de tempo/frequência. Os meios 82 podem compreender um banco de filtros, como um banco QMF híbrido...
O codificador de áudio 80 compreende ainda meios 8 6 para a computação das informações de nível, meios 88 para o downmixing, meios 90 para a computação dos coeficientes de predição e meios 92 para o estabelecimento de um sinal residual. Além disso, o codificador de áudio 80 pode compreender meios para a computação das informações de intercorrelação, isto é, dos meios 94. Os meios 86 computam as informações de nível que descrevem o nível do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo na primeira resolução predeterminada de tempo/frequência do sinal de áudio como enviada opcíonalmente pelos meios 82. De forma similar, os meios 88 realizam o downmix dos sinais de áudio. Os meios 88, portanto, enviam o sinal de downmix 56. Os meios 86 também enviam as informações de nível 60. Os meios 90 para a computação dos coeficientes de predição atuam de forma similar aos meios 52. Isto é, os meios 90 computam os coeficientes de predição das informações de nível 60 e enviam os coeficientes de predição 64 para os meios 92. Os meios 92, por sua vez, estabelecem o sinal residual 62 com base no sinal de downmix 56 nos coeficientes de predicação 64 e nos sinais originais de áudio na segunda resolução predeterminada de tempo/frequência, de maneira que o upmixing do sinal de downmix 56 com base em ambos os coeficientes de predição 64 e no sinal residual 62 resulta em um primeiro sinal de áudio de upmix aproximando o sinal de áudio do primeiro tipo e o segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo, a aproximação sendo melhorada quando comparada à ausência do sinal residual 62.
O sinal residual 62 e as informações de nível 60, são compreendidos pelas informações auxiliares 58 que formam, junto com o sinal de downmix 56, o sinal multi-áudio-objeto a ser
decodificado pelo decodificador Fig. 3.
Como mostrado na Fig. 4, e de forma análoga à
descrição da Fig. 3, os meios 90 também podem usar a saída de
informações de intercorrelação pelos meios 94 e/ou a saída da
indicação downmix de variação de tempo pelos meios 88 para
computarem o coeficiente de predição 64. Além disso, os meios 92 para o estabelecimento do sinal residual 62 também podem usar a saída da indicação downmix de variação de tempo pelos meios 88 para estabelecer aproximadamente o sinal residual 62.
Novamente, nota-se que o sinal de áudio do primeiro tipo pode ser um sinal de áudio mono ou estéreo. O mesmo se aplica para o sinal de áudio do segundo tipo. O sinal residual 62 pode ser sinalizado dentro das informações auxiliares na mesma
resolução tempo/frequência que o parâmetro resolução
tempo/frequência usado para computar, por exemplo, as informações
de nivel, ou pode ser usada uma diferente resolução
tempo/frequência. Além disso, pode ser pos sivel que a sinalização
do sinal residual esteja restrita a uma sub-porção da faixa espectral ocupada pelos tiles de tempo/frequência 42 para o qual as informações de nível são sinalizadas. Por exemplo, a resolução tempo/frequência em que o sinal residual está sinalizado, pode ser indicada dentro das informações auxiliares 58 com o uso de elementos de sintaxe bsResidualBands e bsResidualFramesPerSAOCFrame. Esses dois elementos de sintaxe podem definir outra subdivisão de um quadro nos tiles de tempo/frequência além da subdivisão que leva aos tiles 42.
Aliás, nota-se que o sinal residual 62 pode ou não refletir a perda das informações que resultam de um codificador núcleo potencialmente usado 96, usado opcionalmente para codificar o sinal de downmix 56 pelo codificador de áudio 80. Como mostrado na Fig. 4, os meios 92 podem fazer o ajuste do sinal residual 62 com base na versão do sinal de downmix reconstruivel a partir da saida do codificador núcleo 96 ou a partir da entrada da versão no codificador núcleo 96' . De forma similar, o decodificador de áudio 50 pode compreender um decodificador núcleo para decodificar ou descomprimir o sinal de downmix 56.
A capacidade de aj ustar dentro do sinal múltiplo-áudio-objeto, a resolução tempo/frequência usada para o sinal residual 62 diferente da resolução tempo/frequência usada para computar as informações de nível 60, permitem obter um bom compromisso entre a qualidade do áudio por um lado e taxa de compressão do sinal múltiplo-áudio-objeto por outro lado. Em qualquer caso, o sinal residual 62 permite a melhor supressão das conversas cruzadas de um sinal de áudio para outro dentro do primeiro e do segundo sinais de upmix a serem enviados para a saída 68 de acordo com a entrada de usuário 66.
Como ficará claro a partir da seguinte configuração, mais de um sinal residual 62 pode ser transmitido dentro das informações auxiliares no caso em que esteja codificado mais de um objeto de primeiro plano ou sinal de áudio do segundo tipo. As informações auxiliares podem permitir uma decisão individual sobre se um sinal residual 62 é transmitido para um sinal de áudio específico de um segundo tipo ou não. Assim, o número de sinais residuais 62 pode variar entre um e o número de sinais de áudio do segundo tipo.
No decodificador de áudio da Fig.3, os meios 54 para a computação podem ser configurados para computar a matriz C de coeficientes de predição que consiste dos coeficientes de predição com base nas informações de nível (OLD) e os meios 56 podem ser configurados para produzir o primeiro sinal de upmix Si e/ou o segundo sinal de upmix s2 do sinal de downmix d de acordo com a computação representável por
Figure BRPI0816556A2_D0002
onde 1 indica - dependendo do número de canais de d - um escalar, ou uma matriz de identidade, e D”1 é uma matriz exclusivamente determinada pela indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal de downmix, e que também é compreendido pelas informações auxiliares, e H é um termo independente de d, mas dependente do sinal residual.
Como notado acima e descrito melhor abaixo, a indicação downmix pode variar no tempo e/ou pode variar espectralmente dentro das informações auxiliares. Se o sinal de áudio do primeiro tipo for um sinal de áudio estéreo tendo um primeiro (L) e um segundo canal de entrada (R) , as informações de nível, por exemplo, descrevem as energias espectrais normalizadas do primeiro canal de entrada (L) , do segundo canal de entrada (R) e do sinal de áudio do segundo tipo, respectivamente, na resolução tempo/frequência 42.
Ά computação mencionada acima de acordo com a qual os meios 56 para upmix realizam o upmix também podem ser representados por
R
S2 upmix upmix onde L é um primeiro aproximando L e R é um segundo canal do canal do primeiro sinal primeiro sinal de de aproximando R, e 1 é um escalar, no caso d é mono, e a matriz de identidade 2x2, no caso d, é estéreo. Se o sinal de downmix 56 é um sinal de áudio estéreo tendo um primeiro (L0) e um segundo canal de saída (RO) , e a computação de acordo com a qual os meios 56 para upmix realizam o upmix podem ser representados por
S2 . ί 1 }( LO = zr'
IcJlflO
Até onde o termo H é dependente do sinal residual res a computação de acordo com a qual os meios 56 para upmix realiza o upmix pode ser representável por..
(S. j . f 1 OY d Ί = 0
J (C 1 J
O sinal multi-áudio-objeto pode até compreender uma pluralidade de sinais de áudio do segundo tipo e as informações auxiliares podem compreender um sinal residual por sinal de áudio do segundo tipo. Um parâmetro de resolução residual pode estar presente nas informações auxiliares, definindo uma faixa espectral na qual o sinal residual é transmitido dentro das informações auxiliares. Pode até definir um limite inferior e um limite superior da faixa espectral.
Além disso, o sinal multi-áudio-objeto também pode compreender informações de rendering espacial para fazer o rendering espacial do sinal de áudio do primeiro tipo em uma configuração predeterminada do alto-falante. Em outras palavras, o sinal de áudio do primeiro tipo pode ser um sinal MPEG Surround multicanais (mais de dois canais) onde é feito o downmix até estéreo.
A seguir, serão descritas configurações que usam a sinalização do sinal residual acima. Entretanto, nota-se que o termo objeto é geralmente usado com duplo sentido. Algumas vezes, um objeto indica um sinal individual de áudio mono. Assim, um objeto estéreo pode ter um sinal de áudio mono formando um canal de um sinal estéreo. Entretanto, em outras situações, um objeto estéreo pode indicar, na realidade, dois objetos, sendo um objeto referente ao canal direito e outro objeto referente ao canal esquerdo do objeto estéreo. O sentido real ficará aparente a partir do contexto.
Antes de descrever a próxima configuração, esta é motivada pelas deficiências notadas com a tecnologia de base do padrão SAOC selecionado como modelo de referência 0 (RMO) em 2007. O RMO permitiu a manipulação individual de vários objetos sonoros em termos de suas posições de formatação e de amplificação/atenuação. Foi apresentado um cenário especial no contexto de uma aplicação do tipo Karaokê. Nesse caso • Uma cena mono, estéreo ou surround de fundo (a seguir denominada Objeto de Fundo, BGO) é transportada a partir de um conjunto de determinados objetos SAOC, que é reproduzida sem alterações, isto é, todos os sinais de canais de entrada são reproduzidos pelo mesmo canal de saída em um nível inalterado, e • Um objeto específico de interesse (a seguir denominado Objeto de Primeiro Plano FGO) (tipicamente a primeira voz) que é reproduzido com alterações (o FGO é tipicamente posicionado na metade do estágio sonoro e pode ser emudecido, isto é, pesadamente atenuado para permitir o canto grupai).
Como fica visível a partir de procedimentos de avaliação subjetiva e que podem ser esperados a partir do princípio da tecnologia subjacente, as manipulações da posição do objeto conduzem a resultados de alta qualidade, enquanto as manipulações do nível do objeto são geralmente mais desafiadoras. Normalmente, quanto maior for a amplificação/atenuação do sinal adicional, mais surgem potenciais problemas. Neste sentido, o
cenário de Karaokê é extremamente exigente, que é necessária
uma atenuação extrema (idealmente: total) do FGO.
0 caso de uso duplo é a capacidade para
reproduzir somente o FGO sem o background/MBO, e é mencionado a seguir como o modo solo.
Nota-se, entretanto, que se uma cena de fundo (background) surround estiver envolvida, é denominada como um Objeto de Fundo Multicanais (MBO). 0 manuseio do MBO é o seguinte, como está mostrado na Fig.5:
• 0 MBO é codificado usando uma árvore regular 5-2-5 MPEG Surround 102. Isso resulta em um sinal de downmix MBO estéreo 104, e um fluxo de informações auxiliares MBO MPS 106.
• 0 downmix MBO é então codificado por um subsequente codificador SAOC 108 como um objeto estéreo, (isto é, duas diferenças de nível de objeto, mais uma correlação intercanais), junto com o (ou vários) FGO 110. Isto resulta em um sinal de downmix comum 112, e um fluxo de informações auxiliares SAOC 114.
No transcodificador 116, o sinal de downmix 112 é pré-processado e os fluxos de informações auxiliares SAOC e MPS 106, 114 são transcodificados em um único fluxo de informações auxiliares de saída MPS 118. Isso acontece normalmente de forma descontínua, isto é, seja somente suportada a total supressão do(s) FGO(s) ou a total supressão do MBO.
Finaimente, o downmix resultante 120 e as informações auxiliares MPS 118 são submetidas a um decodificador MPEG Surround 122.
Na Fig. 5, tanto o downmix MBO 104 como o(s) sinal (is) de objeto controlável 110 são combinados em um único downmix estéreo 112. Essa poluição do downmix pelo objeto controlável 110 é o motivo da dificuldade da recuperação de uma versão Karaokê com o objeto controlável 110 sendo removido, que tem qualidade de áudio suficientemente grande. A seguinte proposta visa a remoção deste problema.
Supondo um FGO (por exemplo, um vocal líder), a principal observação usada pela seguinte configuração da Fig. 6 é que o sinal de downmix SAOC é uma combinação dos sinais BGO e FGO, isto é, três sinais de áudio são downmixados e transmitidos via 2 canais downmix. Idealmente, esses sinais deveríam ser separados novamente no transcodificador para produzirem um sinal Karaokê limpo (isto é, remover o sinal FGO), ou para produzir um sinal solo limpo (isto é, remover o sinal BGO) . Isto é feito, de acordo com a configuração da Fig. 6, usando um elemento codificador dois para três (TTT) 124 (TTT-1 como é conhecido na especificação MPEG Surround) dentro do codificador SAOC 108 para combinar o BGO e o FGO em um único sinal de downmix SAOC no codificador SAOC. Aqui, o FGO alimenta a entrada do sinal centro do box TTT-1 124, enquanto o BGO 104 alimenta as entradas esquerda/direita TTT’1 L.R. O transcodificador 116 pode então produzir aproximações do BGO 104 usando um elemento decodificador TTT 12 6 (TTT como é conhecido no MPEG Surround), isto é, as saídas esquerda/direita TTT L,R levam uma aproximação do BGO, considerando que a saída centro TTT C leva uma aproximação do FGO 110.
Ao comparar a configuração da Fig. 6 com uma configuração de o codificador e decodificador das Figs. 3 e 4, o sinal de referência 104 corresponde ao sinal de áudio do primeiro tipo entre sinais de áudio 84, os meios 82 são compreendidos pelo codificador MPS 102, o sinal de referência 110 corresponde aos sinais de áudio do segundo tipo entre o sinal de áudio 84, o box TTT'1 124 assume a responsabilidade das funcionalidades dos meios 88 to 92, com as funcionalidades dos meios 86 e 94 sendo implementadas no codificador SAOC 108, o sinal de referência 112 corresponde ao sinal de referência 56, o sinal de referência 114 corresponde às informações auxiliares 58 menos o sinal residual 62, o box TTT 126 assume a responsabilidade pela funcionalidade dos meios 52 e 54 com a funcionalidade da caixa de mixagens 128 também estando compreendida pelos meios 54. Finalmente, o sinal 120 corresponde à saida de sinal na saida 68. Além disso, nota-se que a Fig. 6 também mostra um caminho codificador/decodificador núcleo 131 para o transporte do downmix 112 do codificador SAOC 108 para o transcodif icador SAOC 116. Esse caminho codificador/decodificador núcleo 131 corresponde ao codificador núcleo opcional 96 e ao decodificador núcleo 98. Como indicado na Fig. 6, este caminho codificador/decodificador núcleo 131 também pode codificar/comprimir o sinal transportado das informações auxiliares do codificador 108 para o transcodificador 116.
As vantagens resultantes da introdução do box TTT da Fig. 6 se tornarão claras a partir da seguinte descrição. Por exemplo, • simplesmente alimentando as saídas esquerda/direita TTT L.R. no downmix MPS 120 (e passando o fluxo de bits transmitido MBO MPS 106 no fluxo 118), somente o MBO é reproduzido pelo decodificador MPS final. Isto corresponde ao modo Karaokê.
• simplesmente alimentando a saída centro TTT C. no downmix MPS esquerdo e direito 120 (e produzindo um fluxo trivial de bits MPS 118 que submete o FGO 110 na posição e nível desejados), somente o FGO 110 é reproduzido pelo decodificador MPS final 122. Isto corresponde ao modo Solo.
O manuseio dos três sinais de saída TTT L.R.C. é feito na caixa de mixagem 128 do transcodificador SAOC 116.
A estrutura de processamento da Fig. 6 provê várias vantagens com relação à Fig. 5:
• O framework provê uma clara separação estrutural dos sinais de fundo (background) (MBO) 100 e dos sinais FGO 110 • A estrutura do elemento TTT 126 tenta uma melhor reconstrução possível dos três sinais L.R.C. com base na forma de onda. Assim, os sinais de saída MPS finais 130 não são somente formados pela pesagem de energia (e decorrelação) dos sinais de downmix, como também são mais próximos em termos de formas de ondas devidas ao processamento TTT.
• Junto ao box TTT MPEG Surround 126 vem a possibilidade de ampliar a precisão de reconstrução usando a codificação residual. Assim, pode ser obtida uma significativa ampliação na qualidade de reconstrução quando são aumentadas a largura residual de banda e a taxa residual de bits da saída do sinal residual 132 em TTT”1 124 e usadas pelo box TTT para realizar o upmix. Idealmente, é cancelada (isto é, para quantificação infinitamente fina na codificação residual e na codificação do sinal de downmix) a interferência entre o sinal de fundo (MBO) e o sinal FGO.
A estrutura de processamento da Fig. 6 possui algumas características:
• Dualidade de modo Karaokê/Solo: A abordagem da Fig. 6 oferece tanto funcionalidade Karaokê e Solo usando os mesmos meios técnicos. Isto é, são reutilizados os parâmetros SAOC, por exemplo.
• Capacidade de refino: A qualidade do sinal Karaokê/Solo pode ser refinada como necessário controlando a quantidade das informações de codificação residuais usadas nos boxes TTT. Por exemplo, podem ser usados os parâmetros bsResidualSamplingFrequencylndex, bsResidualBands e bsResidualFramesPerSAOCFrame.
• Posicionamento de FGO em downmix: Ao usar um box TTT como mencionado na especificação MPEG Surround, o FGO sempre seria mixado na posição central entre os canais downmix esquerdo e direito. Para permitir maior flexibilidade de posicionamento, é empregada uma caixa codif icadora TTT generalizada que segue os mesmos princípios, enquanto permite o posicionamento não simétrico do sinal associado às entradas/saídas de centro.
• FGOs Múltiplos: na configuração descrita, foi descrito o uso de somente um FGO (isto pode corresponder ao mais importante caso de aplicação). Entretanto, o conceito proposto também pode acomodar vários FGOs usando uma ou uma combinação das seguintes medidas ίο FGOs Agrupados: Como mostrado na Figura 6, o sinal que está conectado à entrada/saída central do box TTT pode na realidade ser a soma de vários sinais FGO em vez de ser somente um. Esses FGOs podem ser posicionados/controlados de forma independente no sinal de saída multicanais 130 (é obtida a vantagem de qualidade máxima; entretanto, quando são escalados e posicionados da mesma forma). Compartilham uma posição comum no sinal estéreo downmix 112, e existe somente um sinal residual 132. Em qualquer caso, a interferência entre os objetos de fundo (MBO) e os objetos controláveis é cancelada (apesar de não ser entre os objetos controláveis).
o FGOs em Cascata: AS restrições referentes às posições FGO comuns no downmix 112 podem ser solucionadas ampliando a abordagem da Fig. 6. Podem ser acomodados múltiplos FGOs fazendo a cascata de vários estágios da estrutura TTT descrita, cada estágio correspondendo a um FGO e produzindo um fluxo residual de codificação. Assim, também seria idealmente cancelada a interferência entre cada FGO. É claro que esta opção exige uma maior taxa de bits do que usando uma abordagem FGO agrupada. Será descrito posteriormente um exemplo.
• Informações auxiliares SAOC: No MPEG Surround, as informações auxiliares associadas a um box TTT são um par de Coeficientes de Predição de Canais (CPCs). Em contraste, a parametrização SAOC e o cenário MBO/Karaokê transmitem energias de objeto para cada sinal objeto e uma correlação inter-sinais entre os dois canais do downmix MBO (isto é, a parametri zação de um objeto estéreo). Para minimizar o número de alterações em uma parametrização relativa ao caso, sem o modo Karaokê/Solo ampliado, e assim o formato do fluxo de bits, os CPCs podem ser calculados a partir das energias dos sinais downmixados (downmix MBO e FGOs) e a correlação inter-sinais do objeto downmix MBO estéreo. Portanto, não há necessidade de alterar ou aumentar a parametrização transmitida e os CPCs podem ser calculados a partir da parametrização SAOC transmitida no transcodificador SAOC 116. Assim, também podería ser codificado um fluxo de bits usando o modo Karaokê/Solo ampliado por meio de um decodificador de modo comum (sem codificação residual) ao ignorar os dados residuais.
Em resumo, a configuração da Fig. 6 visa uma reprodução ampliada de determinados objetos selecionados (ou a cena sem esses objetos) e se prolonga até a abordagem de codificação SAOC corrente usando a downmix estéreo da seguinte forma:
• No modo normal, cada sinal objeto é pesado por meio de suas entradas na matriz downmix (por sua contribuição com os canais downmix esquerdo e direito, respectivamente). Então, todas as contribuições pesadas dos canais downmix esquerdo e direito são somadas para formar os canais downmix esquerdo e direito.
• No desempenho ampliado Karaokê/Solo, isto é, no modo ampliado, todas as contribuições de objetos são divididas em um conjunto de contribuições de objetos que formam um Objeto de Primeiro Plano (FGO) e as contribuições de objetos restantes (BGO) . A contribuição FGO é somada em um sinal de downmix mono, e as restantes contribuições de fundo são somadas em um estéreo downmix, e ambas são somadas usando um elemento codificador generalizado TTT para formarem o estéreo downmix SAOC comum.
Assim, uma soma normal é substituída por uma soma TTT (que pode ser cascateada se desejado).
Para enfatizar a diferença mencionada entre o modo normal do codificador SAOC e o modo ampliado, é feita referência às Figs. 7a e 7b, onde a Fig. 7a se refere ao modo normal, considerando que a Fig. 7b se refere ao modo ampliado. Como pode ser visto, no modo normal, o codificador SAOC 108 usa os parâmetros DMX supramencionados ϋ13 para pesar os objetos j e somar os objetos assim pesados j ao canal SAOC i, isto é, L0 ou RO. No caso do modo ampliado da Fig. 6, é somente necessário um vetor dos parâmetros DMX Dt, isto é, parâmetros DMX Di indicando como formar uma soma pesada dos FGOs 110, obtendo assim o canal central C do box TTT1 124, e os parâmetros DMX Di, instruindo o box TTT1 sobre como distribuir o sinal central C para o canal MBO esquerdo e para o canal MBO direito respectivamente, obtendo assim o LDMX ou RDMX, respectivamente.
Problematicamente, o processamento de acordo com a Fig. 6 não funciona muito bem com os codecs de preservação não em forma de onda (HE-AAC/SBR). Uma solução para esse problema pode ser um modo TTT generalizado com base em energia para HE-AAC e altas frequências. Uma configuração que soluciona o problema será descrita posteriormente.
Um possível formato de fluxo de bits para aquele com TTTs em cascata podería ser o seguinte:
Além do fluxo de bits SAOC que deve poder ser pulado, caso seja digerido no modo comum de decodificação:
numTTTs int for (ttt=0; ttt<numTTTs; ttt++) { no_TTT_obj[ttt] int
TTT_bandwidth[ttt];
TTT_residual_stream[ttt] }
Para as exigências de complexidade e memória, Pode ser declarado o seguinte. Como pode ser visto nas explanações anteriores, o modo Karaokê/Solo ampliado da Fig. 6 é implementado adicionando os estágios de um elemento conceituai em cada codificador e decodificador/transcodificador, isto é, no elemento codificador generalizado TTT-l/TTT. Ambos os elementos são idênticos em complexidade nas suas contrapartes normais centradas TTT (a alteração nos valores do coeficiente não influencia a complexidade). Para a principal aplicação visada (um FGO como vocais principais), é suficiente um único TTT.
A relação entre essa estrutura adicional com a complexidade de um sistema MPEG Surround pode ser apreciada observando a estrutura de todo o decodificador MPEG Surround que, para o caso do relevante estéreo downmix (configuração 5-2-5) consiste de um elemento TTT e 2 elementos OTT. Isto já mostra que a funcionalidade adicionada vem com um preço moderado em termos de complexidade computacional e de consumo de memória (notar que os elementos conceituais que usam codificação residual estão na média não mais complexa que suas contrapartes que, em vez disso, incluem decorrelatores).
Esta extensão da Fig. 6 do modelo de referência MPEG SAOC provê um aperfeiçoamento da qualidade de áudio para aplicações do tipo solo especial ou mudo/Karaokê. Novamente se nota que a descrição correspondente âs Figs. 5, 6 e 7 se referem a um MBO como cena de fundo ou BGO que, que em geral não se limita a esse tipo de objeto e pode também, por sua vez, ser um objeto mono ou estéreo.
Um procedimento de avaliação subjetiva revela o aperfeiçoamento em termos de qualidade de áudio do sinal de saída de uma aplicação Karaokê ou solo. As condições avaliadas são:
• RMO • Modo ampliado (res 0) (= sem codificação residual) • Modo ampliado (res 6) (= com codificação residual nas 6 menores bandas híbridas QMF) • Modo ampliado (res 12) (=com codificação residual nas 12 menores bandas híbridas QMF) • Modo ampliado (res 24) (= com codificação residual nas 24 menores bandas híbridas QMF) • Referência Oculta • Menor ancoragem (versão de referência limitada da banda de 3,5 kHz)
A taxa de bits do modo ampliado proposto é similar ao RMO se usado sem codificação residual. Todos os demais modos ampliados exigem cerca de 10 kbit/s para cada 6 bandas de codificação residual.
A Figura 8a mostra os resultados de um teste mudo/Karaokê com 10 indivíduos ouvintes. A solução proposta tem uma classificação média MUSHRA que é sempre maior que o RMO e aumenta a cada etapa de codificação residual adicional. Pode ser observado um aperfeiçoamento estatisticamente significativo com relação ao desempenho do RMO para os modos com 6 e mais bandas de codificação residual.
Os resultados do teste solo com 9 indivíduos na Figura 8b mostram vantagens similares da solução proposta. A classificação MUSHRA média aumenta claramente ao ser adicionada mais e mais codificação residual. O ganho entre o modo ampliado sem 24 bandas e o modo ampliado com 24 bandas de codificação residual é de quase 50 pontos MUSHRA.
No geral, uma boa qualidade de uma aplicação Karaokê pode ser obtida com o custo aproximado de uma taxa de bits maior em 10 kbit/s que o RMO. É possível uma excelente qualidade ao adicionar aproximadamente 40 kbit/s ao topo da taxa de bits do RMO. Em um cenário de aplicação real, onde é dada a máxima taxa fixada de bits, o modo ampliado proposto permite muito bem gastar a taxa de bits não usada para a codificação residual até que a máxima taxa permissível seja alcançada. Portanto, é obtida a melhor qualidade possível geral de áudio. É possível outro aperfeiçoamento com relação aos resultados experimentais apresentados devido ao uso mais inteligente da taxa residual de bits: Enquanto o ajuste apresentado sempre esteve usando a codificação residual de DC até uma determinada frequência limite superior, uma implementação ampliada somente gastaria bits da faixa de frequências relevante para a separação do FGO e dos objetos de fundo.
Na descrição apresentada, foi descrita uma ampliação da tecnologia SAOC para as aplicações do tipo Karaokê. São apresentadas outras configurações detalhadas de uma aplicação do modo Karaokê/solo ampliado para o processamento da cena de áudio multicanais FGO para MPEG SAOC.
Em contraste com os FGOs, que são reproduzidos com alterações, os sinais MBO devem ser reproduzidos sem alterações, isto é, cada sinal de canal de entrada é reproduzido pelo mesmo canal de saída em nível inalterado. Como consequência, foi proposto o pré-processamento dos sinais MBO por um codificador MPEG Surround, produzindo um sinal de downmix estéreo que serve como um objeto de fundo (BGO) (estéreo) a ser enviado aos subsequentes estágios de processamento do modo Karaokê/solo, compreendendo um codificador SAOC, um transcodificador MBO e um decodificador MPS. Novamente, a Figura 9 mostra um diagrama da estrutura geral.
Como pode ser visto, de acordo com a estrutura do codificador do modo Karaokê/solo, os objetos de entrada são classificados em um objeto estéreo de fundo (BGO) 104 e em objetos de primeiro plano (FGO) 110.
Apesar de em RMO o manuseio desses cenários de aplicação ser feito por um sistema codificador/transcodificador SAOC, a ampliação da Fig. 6 também explora um bloco de construção elementar da estrutura MPEG Surround. Incorporando o bloco (TTT-1) três-para-dois no codificador e o correspondente complemento (TTT) dois-para três ao transcodificador melhora o desempenho quando é necessária forte boost/atenuação do determinado objeto de áudio. As duas características primárias da estrutura ampliada são:
Melhor separação de sinal devido à exploração do sinal residual (comparado ao RMO),
Posicionamento flexível do sinal que é denominado de entrada central (isto é, o FGO) do box TTT”1 pela generalização de sua especificação de mixagem.
Como a implementação direta do bloco de construção TTT envolve três sinais de entrada no lado do codificador, foi focalizada a Fig. 6 no processamento dos FGOs como um sinal (downmixado) mono, como mostrado na Figura 10. Também foi declarado o tratamento de sinais FGO multicanais, mas será explicado em mais detalhes no capitulo subsequente.
Como pode ser visto na Fig. 10, no modo ampliado da Fig. 6, é enviada uma combinação de todos os FGOs para o canal central do box TTT”1.
No caso de um downmix FGO mono como no caso da Fig. 6 e da Fig. 10, a configuração do box TTT’1 no codificador compreende o FGO que é enviado para a entrada central e o BGO que
fornece a entrada esquerda e direita. Ά matriz simétrica
subjacente é dada por
' 1 0 m}
D = 0 1 m2 r que provê o downmix (L0 R0)T e
m2 -b
um sinal F0:
po' fL)
R0 = D R
/
É descartado o 3° sinal obtido por este sistema linear, mas pode ser reconstruído no lado do transcodificador que incorpora dois coeficientes de predição Ci e c2 (CPC) de acordo com:..
F0 = c}L0 + c2R0 .
O processo inverso no transcodificador é dado por :
/ 2 λ \ + m2+amx -mxm2 + βτηλ
D~'C = --------- -m,m, + am, 1 + ml + βτη, + pz + m2
V m\~c\ m2—c2 )
Os parâmetros mx e m2 correspondem a:
w,=cos(//) e m2=sin(/z) e μ é responsável pelo posicionamento panorâmico do FGO no dowmix TTT comum (L0 R0)T. Os coeficientes de predição Ci e c2 exigidos pela unidade upmix TTT no lado do transcodificador podem ser estimados usando os parâmetros SAOC transmitidos, isto é, as diferenças de nível de objeto (OLDs) de todos os objetos de áudio de entrada e de correlação inter-objetos (IOC) dos sinais BGO downmix (MBO). Supondo a independência estatística dos sinais
FGO e BGO, a seguinte relação é válida para a estimativa CPC:
P P _ P P P P _ p p c _ I.0F01 Ro 1 RoFo1 LoRo _ 1 RoFo1 Lo ‘ LoFo1 LoRo 1 p p _ P2 * * * * * * * ' 2 PP_P2
Lo1 Ro 1 LoRo 1 Lo1 Ro Γ LoRo
As variáveis PIo, PRo , PJoRo, PloFo e PRoFa podem ser estimadas como a seguir, onde os parâmetros OLDl, OLDr e I0CLR correspondem ao BGO, e OLDF é um parâmetro FGO:
Pl(S=OLDL+m]OLDF ,
PRo = OLDr + m2 2OLDF , ploro = IOCLR + mxm2OLDF ,
PLoFl> = mx (OLD, - OLD,. ) + m2IOCLR , PRoFo = m2 (°LDR - 0LDF ) + mJOC,R .
Além disso, o erro introduzido pela implicação dos CPCs é representado pelo sinal residual 132 que pode ser transmitido dentro do fluxo de bits, de forma que:
res = F0- F0 .
Em alguns cenários de aplicação, a restrição de um único downmix mono a todos os FGOs é inadequada, precisando assim ser superada. Por exemplo, os FGOs podem ser divididos em dois ou mais grupos independentes com diferentes posições no downmix estéreo transmitido e/ou na atenuação individual. Portanto, a estrutura em cascata mostrada na Fig. 11 implica em dois ou mais elementos ΤΤΤ'1 consecutivos 124a, 124b, produzindo um downmix passo a passo de todos os grupos FGO Flz F2 no lado do codificador, até que o desejado downmix estéreo 112 seja obtido. Cada - ou pelo menos algumas - dos boxes TTT1 124a,b (na Fig. 11 cada) estabelece um sinal residual 132a, 132b que corresponde ao estágio respectivo ou ao box TTT1 124a,b, respectivamente. Por outro lado, o transcodificador realiza o upmix sequencial com o uso dos respectivos boxes TTT 126a,b aplicados sequencialmente, incorporando os CPCs correspondentes e os sinais residuais, sempre que possível. A ordem de processamento FGO é especificada pelo codificador e deve ser considerada no lado do transcodificador.
A matemática detalhada envolvida com a cascata de dois estágios mostrada na Fig. 11 é descrita a seguir.
Sem a perda da generalidade, mas para uma ilustração simplificada, a seguinte explicação se baseia em uma cascata que consiste de dois elementos TTT, como mostrado na Figura 11. As duas matrizes simétricas são similares ao downmix FGO mono, mas devem ser adequadamente aplicadas aos sinais respectivos:
( 1 0 r i 0 mn y
D,= 0 1 w2, e D2 = 0 1 m22
<*11 m2, -d m22 -u
de
Aqui, os dois conjuntos
CPCs resultam na seguinte reconstrução de sinal:
FO, =c11Z,01 + c,2Ã0, e F02 = c21Z,02+c22T?02 .
O processo inverso é representado por:
d;
+ m2, + nf
Z)2-
z 1 + mf, + C,,»!,,
-mum2}+cnm2} 1 + m2, +cl2m21 r
mn-cu m2\ ~C\2 ,
z l + m22 +c2lml2 -mí2m22 +c22m}2 A
-ml2m22 + c21m22 1 + w2 2 + c22m22
ml2 — c2l m22 — C22 /
e
Um caso especial da cascata de dois estágios compreende um FGO estéreo com seus canais esquerdo e direito sendo somados de forma adequada aos correspondentes de BGO, produzindo η π //,=0 e //2 = dl = dr =
Para este estilo de posicionamento panorâmico particular e negligenciando a correlação inter-objetos, OLDlr-Q a estimativa dos dois conjuntos de CPCs se reduz a:
OLD, -OLDfl C, ] ” OLD, +OLDFl Cl.2 c/?i — 0 oldr-oldfr /i2 oldr+oldfr com OLD,, e OLD,,R indicando os OLDs do sinal FGO esquerdo e direito, respectivamente.
caso da cascata geral de N estágios se refere a um downmix FGO multicanais de acordo com:
f 1 0 ( 1 0 m\2^
0 1 W21 II 0 1 m22
^11 W2| -d m22 -d
mxN m2N m2N onde cada estágio caracteriza seus próprios CPCs e sinal residual.
No lado do transcodif icador, as etapas de cascateamento inverso são dadas por:
Ώ,-1 + mi^ + ra2l / o l + /w21 +
-mum2,+c}]m2] mn-cn —mum2\ +cumu y + /M]2] +cI2w2l m2\ ~C\2 ;
1 + m2N +cNlm} N
ON — - 2 2 -mlNm2N +cN}m2N \ + mw+m2N
CNl
-mXNm2N+cN2m^ + V + CN2m2N m2N ~CN2 j
Para abolir a necessidade de preservação da ordem dos elementos TTT, a estrutura em cascata pode ser facilmente convertida em um paralelo equivalente por meio do rearranjo das N 15 matrizes em uma única matriz TTN simétrica, produzindo assim um estilo TTN geral:
( 1 0 mu ·
0 1 w2l . m2N
DN W,1 W21 -1 . . 0
m2N 0 . • -b
onde as primeiras duas linhas da matriz denotam o downmix estéreo a ser transmitido. Por outro lado, o termo TTN dois-para-N (two-to-N) - se refere ao processo de upmixing no lado do transcodificador.
Usando esta descrição, o caso especial do FGO estéreo particularmente em posicionamento panorâmico (panned) reduz a matriz a:
Ί o 1 o'
10 1 r> =
10-10 vo 1 θ -b
Assim, esta unidade pode ser denominada elemento dois-para-quatro ou TTF.
É também possível produzir uma estrutura TTF reusando o módulo pré-processador estéreo SAOC.
Para a limitação de N=4, torna-se viável uma implementação da estrutura dois-para-quatro (TTF), que reutiliza partes do sistema existente SAOC. O processamento é descrito nos seguintes parágrafos.
O texto padrão SAOC descreve o pré-processamento downmix estéreo do modo de transcodificação estéreo-paraestéreo. Precisamente, o sinal estéreo de saída Y é calculado a partir do sinal estéreo de entrada X junto com um sinal decorrelacionado X como a seguir:
Y = GModX + P2Xd
A componente decorrelacionada Xd é uma representação sintética das partes do sinal original submetido que já foram descartadas no processo de codificação. De acordo com a Fig. 12, o sinal decorrelacionado é substituído por um sinal residual gerado pelo codificador 132 para uma determinada faixa de frequências .
A nomenclatura é definida como:
é uma matriz downmix 2 x N é uma matriz de rendering 2 x N é um modelo de covariância N x N dos objetos de entrada S
Gwod (correspondendo a G na
Figura 12) é a matriz upmix preditiva
2x2
Notar que Gmoc, é uma função de D
A e E.
Para calcular o sinal residual
XRes é necessário imitar o processamento do decodificador no codificador, isto é, determinar GmocI. Nos caso especial de um cenários gerais A não são conhecidos, mas no cenário de Karaokê (por exemplo, com um fundo estéreo e um objeto de primeiro plano estéreo,
N=4) é suposto que
O que significa que somente o
BGO é submetido.
Para uma estimativa do objeto de primeiro plano o objeto de fundo reconstruído é subtraído do sinal de downmix X.
Isto e rendering final são feitos no bloco de processamento
Mix .
Os detalhes são apresentados a seguir...
A matriz de rendering A é estabelecida para onde é suposto que as primeiras colunas representam os 2 canais do FGO e as segundas 2 colunas representam os 2 canais do BGO.
As saídas estéreo BGO e FGO são calculadas de acordo com as seguintes fórmulas.
r — c
BGO Mod
Res
E a matriz de pesagem downmix D é definida como com
D BGO “12
C/22 , bgo o FGO .Vbgo \>BGO7 objeto pode ser estabelecido para
FGO = D ^BGO ^11 ’ T’bGO +<^12 ’ TbGO k2l 5bGO + ^22 ’ 5 BGO J_
Como exemplo, isto se reduz
FGO
BGO acima.
Favor para matriz downmix de ^Res sao os sinais residuais obtidos como descrito notar que não são adicionados decorrelacionados.
A saida final Y é dada por
FGO
BGO )
As configurações acima também podem se aplicar se for usado um FGO mono em vez de um FGO estéreo. O processamento é então alterado de acordo com o seguinte.
A matriz de rendering A é estabelecida em
FGO — οΊ onde é suposto que a primeira coluna representa o
FGO mono e as colunas subsequentes representam
A saída estéreo BGO e FGO é com as seguintes formulas.
Res
E a matriz de pesagem downmix os 2 canais do BGO.
calculada de acordo
D é definida como com
D FGO d ) QFGO k^FGO y
FGO
Xfgo
O objeto BGO pode ser estabelecido com
BGO = D 1 ^BGO dpQQ
Τ’FGO
Como exemplo, <^FGO isto se reduz a
Tfgo
BGO \Tfgo 7 para uma matriz downmix de
XRes são os sinais residuais obtidos como acima descrito .
Favor notar que não são adicionados sinais decorrelacionados.
A saída final Y é dada por
FGO
BGO 7
Para o manuseio de mais de objetos
FGO, as configurações acima podem ser estendidas montando estágios paralelos das etapas descritas de processamento.
As configurações acima descritas fornecem a descrição detalhada do modo ampliado
Karaokê/solo para os casos de cena de áudio FGO multicanais. Esta generalização ampliar a classe dos cenários de aplicação Karaokê, para a qual a qualidade do som do modelo de referência MPEG SAOC também pode ser melhorada pela aplicação do modo ampliado Karaokê/solo.
O aperfeiçoamento é obtido introduzindo uma estrutura NTT geral na parte downmix do codificador SAOC e as contrapartes correspondentes no transcodificador SAOCtoMPS. O uso de sinais residuais ampliou resultado da qualidade.
As Figs. 13a a 13h mostram uma possível sintaxe do fluxo de bits das informações auxiliares SAOC de acordo com uma configuração da presente invenção.
Após ter descrito algumas configurações referentes a um modo ampliado para o codec SAOC, deve ser notado que algumas configurações se referem a cenários de aplicação onde a entrada de áudio para o codificador SAOC contém não somente fontes sonoras regulares mono ou estéreo, como objetos multicanais. Isto foi explicitamente descrito com relação às Figs.
a 7b. Este objeto de fundo MBO multicanais pode ser considerado como uma cena Sonora complexa que envolve um grande e geralmente desconhecido número de fontes sonoras, para o qual não é necessária funcionalidade controlável de rendering. Individualmente, essas fontes de áudio não podem ser manuseadas de forma eficiente pela arquitetura do codificador/decodificador SAOC. O conceito da arquitetura SAOC pode, portanto, ser imaginado como estendido para tratar desses sinais complexos de entrada, isto é, dos canais MBO, em conjunto com os objetos SAOC de áudio típicos. Portanto, nas configurações mencionadas da Fig. 5 à 7b, o codificador MPEG Surround é imaginado como sendo incorporado ao codificador SAOC como indicado pela linha pontilhada que circunda o codificador SAOC 108 e o codificador MPS 100. O downmix resultante 104 serve como um objeto de entrada estéreo para o codificador SAOC 108 em conjunto com um objeto SAOC controlável 110 produzindo um downmix estéreo combinado 112 transmitido para o lado do transcodificador. No domínio paramétrico, tanto o fluxo de bits MPS 106 e como o fluxo de bits SAOC 114 são enviados ao transcodificador SAOC 116 que, dependendo do cenário particular das aplicações MBO, provê o adequado fluxo de bits MPS 118 para o decodificador MPEG Surround 122. Essa tarefa é feita usando as informações de rendering ou da matriz de rendering e empregando alguns pré-processamentos downmix para transformar o sinal de downmix 112 em um sinal de downmix 120 para o decodificador MPS 122.
Outra configuração para um modo ampliado Karaokê/Solo é descrita abaixo. Esta permite a manipulação individual de alguns objetos de áudio em termos de seus níveis de amplificação/atenuação sem redução significativa na qualidade resultante de som. Um cenário de aplicação especial do tipo Karaokê exige a total supressão dos objetos específicos, tipicamente do vocal principal, (a seguir denominado Objeto de Primeiro Plano FGO) mantendo a qualidade perceptual da cena sonora de fundo sem ser prejudicada. Isto também leva à capacidade de reproduzir individualmente os sinais FGO específicos sem a cena de áudio de fundo estático (a seguir denominada de Objeto de Fundo BGO) , que não exige o poder de controle do usuário em termos de posicionamento panorâmico. Este cenário é denominado de modo Solo. Um caso típico de aplicação contém um BGO estéreo e até quatro sinais FGO, que pode, por exemplo, representar dois objetos estéreo independentes.
De acordo com essa configuração e a Fig. 14, o transcodificador ampliado Karaokê/Solo 150 incorpora seja um elemento dois-para-N (TTN) ou um-para-N (OTN) 152, ambos representando uma modificação generalizada e ampliada do box TTT conhecida na especificação MPEG Surround. A escolha do elemento adequado depende do número de canais downmix transmitidos, isto é, um box TTN é dedicado ao sinal estéreo downmix, enquanto que para um sinal de downmix mono se aplica ao box OTN. O correspondente box TTN’1 ou OTN’1 no codificador SAOC combina os sinais BGO e FGO em um downmix SAOC estéreo ou mono comum 112 e gera o fluxo de bits 114. O posicionamento arbitrário pré-definido de todos os FGOs individuais no sinal de downmix 112 é suportado por cada elemento, isto é, TTN ou OTN 152. No lado do transcodificador, o sinal BGO 154 ou qualquer combinação de sinais FGO 156 (dependendo do modo de operação 158 aplicado externamente) é recuperado do downmix 112 pelo box TTN ou OTN 152 usando somente as informações auxiliares SAOC 114 e opcionalmente sinais residuais incorporados. Os objetos de áudio recuperados 154/156 e informações de rendering 160 são usados para produzir o fluxo de bits MPEG Surround 162 e o correspondente sinal de downmix pré-processado 164. A unidade de mixagem 166 realiza o processamento do sinal de downmix 112 para obter o downmix MPS de entrada 164 e o transcodificador MPS 168 é responsável pela transcodificaçâo dos parâmetros SAOC 114 nos parâmetros MPS 162. O box TTN/OTN 152 e a unidade de mixagem 166 em conjunto realizam o processamento do modo ampliado Karaokê/solo 170 correspondente aos meios 52 e 54 na Fig. 3 com a função da unidade de mixagem ser compreendida pelos meios 54.
Um MBO pode ser tratado da mesma forma explicada acima, isto é, é pré-processado por um codificador MPEG Surround que produz um sinal de downmix estéreo ou mono que serve como BGO para ser enviado ao subsequente codificador SAOC ampliado. Nesse caso, o transcodificador deve ser provido com um fluxo adicional de bits MPEG Surround próximo ao fluxo de bits SAOC.
Depois, é explicado o cálculo realizado pelo elemento TTN (OTN). A matriz TTN/OTN expressa na primeira resolução predeterminada de tempo/frequência 42, M, é o produto de duas matrizes..
M = D~'C , onde D~' compreende as informações downmix e C encerra os coeficientes de predição de canais (CPCs) para cada canal FGO. C é computado pelos meios 52 e box 152, respectivamente, e D 1 é computado e aplicado, junto com C, no downmix SAOC pelos computação é feita de meros e
box 152 acordo com
( 1 0 0 ··
0 1 0 ·· 0
c = cu C|2 1 ·· 0
\CN\ CN2 0 ·· b
par; a o elemento TTN,
< 1 0 ·· 0>
c = Cl 1 ·· 0
0 ·· υ
isto é elemento OTN para o
Os CPCs são obtidos transmitidos, isto respectivamente .
um downmix estéreo e um downmix mono.
a partir dos parâmetros SAOC dos OLDs, lOCs, DMGs e DCLDs. Pra um canal
FGO especifico j, os CPCs podem ser estimados por p p - p p P P _ P P * Loboj1· Ro 1 RoRo,]1 LoRo 1 RoFoJ1 Lo 1 LoRoJ* LoRo * = J çs c — - J_______
P P -P1 j2 P P -P2 1 Lo1 Ro 1 LoRo 1 Lo1 Ro 1LoRo
Phl =OLD, + Yjm2OLD,+2YmJ Σ mgOC^OLDflLD, , ' j k=j+]
PRo = OLDr + Yn2OLD, + X nkIOCjk^OLDfiLD, , / j k=j+\
Fro = IOC,r^OLD,OLDr X +mknj)lOCJky/OLDjOLDk, Plofo,j = mjOLDI + n]IOC,R ^OLD,OLDR - mfíLDj - X mJOCj, ^OLD/JLD, ,
P^^^OLD. + mfOC^OLD^LD,-nJOLDJ-^nJOC^OLDfiLD, .
‘*j
Os parâmetros OLD, , OLDR e IOC,R correspondem ao BGO, os demais são valores FGO.
Os coeficientes m e n, denotam os valores downmix de cada FGO j dos canais downmix obtidos a partir dos ganhos downmix DMG de níveis de canais DCLD
J, ^O.lDC'LD, — o.incw, e direito e esquerdo, e são e das diferenças downmix , «0.05ΛΜ.Λ,·, n,= 10 ‘
p.lDCLD,
Com relação ao elemento OTN a computação dos segundos valores CPC cj2 se torna redundante.
Para reconstruir os dois grupos de objetos BGO e
FGO, as informações downmix são exploradas pelo inverso da downmix matriz D que se prolonga para ainda indicar a combinação linear dos sinais FCd a F0N, isto é
' LO ' RO F0t = D ( R 6
A seguir, o downmix no lado do codificador é explicado: Dentro do elemento TTN \ a matriz downmix estendida é
( 1 0 0 1 \ ... i n} ... mN n
D = «1 i-l ... 0
0 ’’·
[mN nN : 0 ... -1
( 1 ... mN
1 «i ... nN
D = + n} -1 ... 0
0 ·.
+ ”N 0 ... -1
E para o elemento OTN
para para
-i é
um BGO estéreo, um BGO mono
Figure BRPI0816556A2_D0003
para um BGO estéreo, m, mN o”
Figure BRPI0816556A2_D0004
para um BGO mono.
mN ί 0
A saída do elemento TTN/OTN produz
Figure BRPI0816556A2_D0005
RO res.
\resNJ
Para um BGO estéreo e um downmix estéreo. No caso de o BGO e/ou downmix ser um sinal mono, o sistema linear muda de acordo.
sinal residual res, corresponde ao objeto FGO i e se não transferido pelo fluxo SAOC- porque, por exemplo, fica 10 fora da faixa de frequência residual, ou é sinalizado que para o objeto FGO i não é transferido nenhum sinal residual - resi é inferido como sendo zero. Ft é o sinal reconstruído/upmixado aproximando o objeto FGO i. Após a computação, pode ser passado por um banco de filtros de síntese para obter o domínio de tempo, 15 como a versão PCM codificada do objeto FGO i. É lembrado que L0 e
RO denotam os canais do sinal de downmix SAOC e são
disponíveis/sinalizados em uma crescente resolução
tempo/frequência comparada aos índices s ubj acentes da resolução
paramétrica (n,k) . L e R são os sinais reconstruídos/upmixados
aproximando os canais esquerdo e direito do objeto BGO. Junto ao fluxo de bits do lado MPS, pode ser submetido ao número original de canais.
De acordo com uma configuração, a seguinte matriz TTN é usada em um modo de energia.
O procedimento de codificação/decodificação com base em energia é projetado para a codificação da não preservação da forma de onda do sinal de downmix. Assim, a matriz upmix TTN do modo correspondente de energia não depende de formas especificas de onda, mas somente descreve a distribuição relativa de energia dos objetos de áudio de entrada. Os elementos desta matriz MEnergy são obtidos a partir dos correspondentes OLDs de acordo com
OLD, ^Energy
OLD, +YrfOLD, i
m(OLD}
OLD, + fjfOLD,
V o
oldr
OLD,, + fj^OLD, n(OLD}
OLDK + Yn;OLD, para um BGO estéreo, m2NOLDN n2NOLDN
OLD, + fjfOLD, OLDR + YfOLD, \ ' I J ^Energy
' OLD1. OLDl
OLD, + ^lrfOLDl OLD, OLD,
m~~OLD, n2OLD,
OLD, + ^m2OLD, OLD, +^n-OLD, i
nLOLD,, n2 NOLDN
OLD, +YrfOLD, OLD, +^n;OLDi
para um BGO mono,
De maneira que a saida do elemento TTN produz
M Energy ou respectivamente = M
Energy
R<0
Assim, para um downmix mono a matriz de upmix com base em energia MEnergy se torna
Energy
Figure BRPI0816556A2_D0006
yJmfOLD, + yJn2OLDl
OLD, +^rfOLD,
OLDK +YrfOLDi m.\F)LD„ + yJnNOLDN
Para um BGO estéreo, e ^Energy
yJOLD, r λ
y/mfOLD. 1
JOLD, +Ym2OLD,
^mlOLDf, \ v
para um BGO mono, de maneira que a saida do elemento OTN resulta em.
= V,,^(L0), ou respectivamente = MEner^L0).
Assim, de acordo com a configuração mencionada, a classificação de todos os objetos (Obj\
ObjN} em BGO e FGO respectivamente é feita no lado do codificador. O BGO pode ser um objeto mono (Z,) ou estéreo
O downmix do BGO no sinal de downmix é fixado. Com relação aos FGOs, seu número é teoricamente ilimitado. Entretanto, para a maioria das aplicações urn total de quatro objetos FGO parece adequado .
Quaisquer combinações de objetos mono e estéreo são possíveis .
Por meio dos parâmetros (pesando no sinal de downmix esquerdo/mono) e n: (pesando no sinal de downmix direito), o downmix FGO é variável tanto no tempo como na frequência. Como consequência, o sinal de downmix pode ser mono (£0) ou estéreo
Novamente, os sinais (F0, ... ZO^)7 não são transmitidos para o decodificador/transcodificador. Em vez disso, são previstos no lado do decodif icador por intermédio dos CPCs supramencionados .
Com relação a isto, nota-se novamente que os sinais residuais res podem até ser desconsiderados por um decodificador. Nesse caso, um decodificador - meios 52, por exemplo - prevêem os sinais virtuais somente com base nos CPCs, de acordo com:
Downmix Estéreo:
í LO
RO
F0}
FO
II o o' <i r i 0 0 1 'LO'
C!2
.CN\ CN2 >
Downmix
Mono:
' LO FO, = C(Z0) = f1Ί CI1
\CN\)
(£0).
Então, BGO e/ou FGO são obtidos por por exemplo, pelos meios 54 inversão de uma das quatro possíveis combinações lineares do codificador,
por exemplo, 'if R = D~] ' LO ' RO F0x
)
onde novamente D 1 é e DCLD.
uma função dos parâmetros DMG
Assim, no total, um
Box TTN (OTN) 152 omitindo o residual computa ambas as etapas mencionadas de computação por exemplo:
LO
RO
Nota-se, que o inverso de D pode ser diretamente obtido no caso de D ser quadrático. No caso de uma matriz D não quadrática, o inverso de D será um pseudo-inverso, isto é, pinv(D) = D* ou pinv(D) = D} D* . Em qualquer caso, existe um inverso de D.
Finalmente, a Fig. 15 mostra outra possibilidade de como estabelecer, dentro das informações auxiliares, a quantidade de dados gastos para a transferência dos dados residuais. De acordo com esta sintaxe, as informações auxiliares compreendem bsResidualSamplingFrequencylndex, isto é, um índice de uma tabela que associa, por exemplo, uma resolução de frequência ao índice. De forma alternativa, a resolução pode ser pensada como sendo uma resolução predeterminada, como a resolução do banco de filtros ou a resolução paramétrica. Além disso, as informações auxiliares compreendem bsResidualFramesPerSAOCFrame definindo a resolução de tempo no qual o sinal residual é transferido. BsNumGroupsFGO também compreendido pelas informações auxiliares, indica o número de FGOs. Para cada FGO, é transmitido um elemento de sintaxe bsResidualPresent, indicando se o respectivo sinal residual FGO é transmitido ou não. Se presente, bsResidualBands indica o número de bandas espectrais para o qual os valores residuais são transmitidos.
Dependendo da implementação real, os métodos de codificação/decodificação do invento podem ser implementados em hardware ou em software. Portanto, a presente invenção também se refere a um programa de computador, que pode ser armazenado em uma mídia de leitura por computador como um CD, um disco ou qualquer outro veículo de dados. A presente invenção é, portanto, também um programa de computador dotado de um código de programas que, quando operado em um computador, realiza o método do invento de codificação ou o método do invento de decodificação descrito em relação às figuras acima.

Claims (26)

  1. REIVINDICAÇÕES
    1. Decodificador de áudio para a decodificaçâo de um sinal multi-áudio-objeto caracterizado pelo fato de que é dotado de um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo aí codificados, o sinal multi-áudioobjeto consistindo de um sinal de downmix (56) e de informações auxiliares (58), as informações auxiliares compreendendo as informações de nível (60) do sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência (42), e um sinal residual (62) que especifica os valores de nível residual em uma segunda resolução predeterminada de tempo/frequência, o decodificador de áudio compreendendo meios (52) para a computação de coeficientes de predição (64) com base nas informações de nível (60); e meios (54) para realizar o upmixing do sinal de downmix (56) com base nos coeficientes de predição (64) e o sinal residual (62) para ser obtido um primeiro sinal de áudio de upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio de upmix aproximando o sinal de áudio do segundo tipo.
  2. 2. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que as informações auxiliares (58) compreendem ainda uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal de downmix (56), onde o meio de upmixing é configurado para realizar o upmixing ainda com base na indicação downmix.
  3. 3. Decodificador de áudio, de acordo com a reivindicação 2, caracterizado pelo fato que a indicação downmix varia no tempo dentro das informações auxiliares.
  4. 4. Decodificador de áudio, de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que a indicação downmix varia no tempo dentro das informações auxiliares em uma
  5. 5 resolução de tempo menos refinada que um tamanho de quadro.
    5. Decodificador de áudio, de acordo com qualquer uma das reivindicações de 2 a 4, caracterizado pelo fato de que a indicação downmix indica a pesagem por meio da qual o sinal de downmix foi upmixado com base no sinal de áudio do primeiro tipo e
    10 no sinal de áudio do segundo tipo.
  6. 6. Decodificador de áudio, de acordo com qualquer uma das reivindicações de 1 a 5, caracterizado pelo fato que o sinal de áudio do primeiro tipo é um sinal de áudio estéreo tendo um primeiro e um segundo canais de entrada, ou um sinal de áudio
    15 mono tendo somente um primeiro canal de entrada, e o sinal de downmix é um sinal de áudio estéreo tendo um primeiro e um segundo canais de saída, ou um sinal de áudio mono tendo somente um primeiro canal de saída, em que as informações de nível descrevem as diferenças de nível entre o primeiro canal de entrada, o
    20 segundo canal de entrada e o sinal de áudio do segundo tipo, respectivamente, na primeira resolução predeterminada de tempo/frequência, em que as informações auxiliares compreendem ainda informações de intercorrelação definindo similaridades de nível entre o primeiro e o segundo canais de entrada em uma
    25 terceira resolução predeterminada de tempo/frequência, onde os meios para a computação são configurados para realizar a computação ainda com base nas informações de intercorrelação.
  7. 7. Decodificador de áudio, de acordo com a reivindicação 6, caracterizado pelo fato que as primeira e terceira resoluções de tempo/frequência são determinadas por um elemento de sintaxe comum dentro das informações auxiliares.
  8. 8. Decodificador de áudio, de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que os meios para a computação e os meios para upmixing são configurados de modo que o upmixing seja representável pela aplicação de um vetor composto pelo sinal de downmix e pelo sinal residual, a uma sequência de uma primeira e uma segunda matrizes, a primeira matriz (C) sendo composta pelos coeficientes de predição e a segunda matriz (D) sendo definida por uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal de downmix, e que também é compreendido pelas informações auxiliares.
  9. 9. Decodificador de áudio, de acordo com a reivindicação 8, caracterizado pelo fato de que os meios para a computação e os meios para upmixing são configurados de modo que a primeira matriz mapeie o vetor até um vetor intermediário tendo uma primeira componente para o sinal de áudio do primeiro tipo e/ou uma segunda componente para o sinal de áudio do segundo tipo e sendo definida de modo que o sinal de downmix seja mapeado na primeira componente 1-para-l, e uma combinação linear do sinal residual e do sinal de downmix é mapeada na segunda componente.
  10. 10. Decodificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato que o sinal multi-áudio-objeto compreende uma pluralidade de sinais de áudio do segundo tipo e as informações auxiliares compreendem um sinal residual por sinal de áudio do segundo tipo.
  11. 11. Decodificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato que a segunda resolução predeterminada de tempo/frequência está relacionada à primeira resolução predeterminada de tempo/frequência via um parâmetro de resolução residual contido nas informações auxiliares, em que o decodificador de áudio compreende meios para a obtenção do parâmetro de resolução residual das informações auxiliares...
  12. 12. Decodificador de áudio, de acordo com a reivindicação 11, caracterizado pelo fato que o parâmetro de resolução residual define uma faixa espectral sobre a qual o sinal residual é transmitido dentro das informações auxiliares.
  13. 13. Decodificador de áudio, de acordo com a reivindicação 12, caracterizado pelo fato que o parâmetro de resolução residual define um limite inferior e um limite superior da faixa espectral.
  14. 14. Decodificador de áudio, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato que os meios para a computação dos coeficientes de predição com base nas informações de nível são configurados para computar os coeficientes de predição de canais c'f” para cada tile de tempo/frequência (l,m) da primeira resolução tempo/frequência, para cada canal de saída i do sinal de downmix, e para cada canal j do sinal (ais) de áudio do segundo tipo como pl,m pl,m _ p/,m plym p/,w pltm _ pl,m pl,m
    Lm *LoFoj*Ro *RoFoJ^LoRo Lm ^RoFoJ^Lo *LoFo,j*LoRo
    Q = ' 11 A C — 1 .........
    /1 p!,m p!,m _ p2 l,m j2 pl,mpljn _ p2 l,m *Lo ÍRo *LoRo *Lo ÍRo *LoRo com
    No = OLD, + X ml OLD, + X mkIOCjk jOLD/LLD* , ' J k=j+\
    No = OLDK + Xnl OLD, + X «kIOCJk jOLD/JLD, , ' 7 *=J+1
    Norn, = lOC^OLD^LD^+^m^OLD, +2^ X (m^ + m^IOC^OLD/JLD, ' j *=y+i
    Νοΐ·ο,} = mjOLD, + njIOC,K jOLD,OLDK - mOLD, - X mJOCj, JOLDjOLD, i*j
    Proi-oj = jOLD, + mjIOCIR fOLD,OLDl( - η^ΰ} - X η,ΙΟΟμ jOLD^LD, i*J com OLDl indicando uma energia espectral normalizada de um primeiro canal de entrada do sinal de áudio do primeiro tipo no respectivo tile de tempo/frequência, OLDR indicando a energia espectral normalizada de um segundo canal de entrada do sinal de áudio do primeiro tipo no respectivo tile de tempo/frequência, e IOCLR indicando informações de intercorrelaçâo definindo a similaridade da energia espectral entre o primeiro e o segundo canal de entrada no respectivo tile de tempo/frequência no caso, o sinal de áudio do primeiro tipo é estéreo ou OLDl indicando a energia espectralmente normalizada do sinal de áudio do primeiro tipo no respectivo tile de tempo/frequência, e OLDR e IOCLR sendo zero - no caso, este é mono,..
    e com OLDj indicando a energia espectralmente normalizada de um canal j do sinal (ais) de áudio do segundo tipo no respectivo tile de tempo/frequência e lOCij indicando informações de intercorrelaçâo definindo a similaridade da energia espectral entre os canais i e j do sinal(ais) de áudio do segundo tipo dentro do respectivo tile de tempo/frequência, com , .05DMG.
    m, =10 7 1 rfADCLDj I ' _in0.05DMGl I 1
    1 + 10°1°^ e Vi + io01^ ' onde DCLD e DMG são indicações downmix em que os meios para upmix são configurados para produzirem o primeiro sinal de upmix Si e/ou o segundo sinal (ais) de upmix S2,i do sinal de downmix d e um sinal residual resi por segundo sinal de upmix
    S2,i f S' 52,l d-k resf onde 1 no canto esquerdo superior indica dependendo do número de canais de dn,k um escalar, ou uma matriz de identidade no canto inferior direito sendo uma matriz de identidade com tamanho
    N, indica um vetor ou matriz zero também dependendo do número de canais de dn,k e D sendo uma matriz exclusivamente determinada por uma indicação downmix de acordo com a qual o sinal de áudio do primeiro tipo e o sinal de áudio do segundo tipo são downmixados no sinal de downmix, e que é também compreendido pelas informações auxiliares, dn,k e reSin,k o sinal de downmix e o sinal residual para o segundo sinal de upmix
    S2,i no tile de tempo/frequência (n,k), respectivamente, onde resin,k não compreendidos pelas informações auxiliares são ajustados em zero.
  15. 15. Decodificador de áudio, de acordo com a reivindicação 14, caracterizado pelo fato que D é a inversão de 0 í
    Ι-Ιλ.
    Wl «| ‘ -í : : 0 lN m, n.N o
    no caso do sinal de downmix sendo estéreo e S estéreo sendo
    D =
    1 ί m\ · ·· mN 1 ; «i L nN W, + «, -1 · . 0 o ·· m N +nN 0 .. -1
    downmix ser estéreo e S mono
    1 ; m} . · w, / 1 Ί /2 ί· . 0 mN w.v/ . u 2 /2 u • J
    de downmix ser mono e Si ser estéreo ser mono qualquer fato que no caso do no caso uma ser mono.
    sinal de do sinal θ’
  16. 16. Decodificador das sinal espacial no de caso do sinal de downmix áudio, de acordo com reivindicações anteriores, caracterizado pelo multi audio objeto compreende informações de para fazer rendering espacial do sinal de áudio do primeiro tipo em uma configuragão predeterminada do falante .
    alto
  17. 17. Decodificador de áudio, de acordo qualquer UM das reivindicações anteriores, caracterisado com pelo fato que os meios para upmix são configurados para fazer o rendering espacial do primeiro sinal de áudio de upmix separado do segundo sinal de áudio upmix, fazer o rendering espacial do segundo sinal de áudio upmix separado do primeiro sinal de áudio de upmix, ou mixar o primeiro sinal de áudio de upmix e o segundo sinal de áudio upmix e fazer o rendering espacial de sua versão mixada em uma configuração predeterminada do alto-falante.
  18. 18. Codificador de objeto de áudio caracterizado pelo fato de que compreende: meios para a computação das informações de nivel de um sinal de áudio do primeiro tipo e de um sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência; meios para a computação de coeficientes de predição com base nas informações de nivel; meios para o downmixing do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo para obter um sinal de downmix; meios para o estabelecimento de um sinal residual que especifica valores de nivel residual em uma segunda resolução predeterminada de tempo/freqüência, de modo que o upmixing do sinal de downmix com base tanto nos coeficientes de predição como no sinal residual resulte em um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo, a aproximação sendo melhorada quando comparada à ausência do sinal residual, sendo as informações de nível e o sinal residual compreendidos por uma informação auxiliar que forma, com o sinal de downmix, um sinal multi-áudio-obj eto.
  19. 19. Codificador de objeto de áudio, de acordo com a reivindicação 18, caracterizado pelo fato de que compreende ainda: meios para decompor espectralmente o sinal de áudio de um primeiro tipo e o sinal de áudio de um segundo tipo.
  20. 20. Método para decodificar um sinal multi-áudioobjeto caracterizado pelo fato de que tem um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo nele codificados, o sinal multi-áudio-objeto consistindo em um sinal de downmix (56) e informações auxiliares (58), as informações auxiliares compreendendo informações de nivel (60) do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência (42), e um sinal residual (62) que especifica valores de nivel residual em uma segunda resolução predeterminada de tempo/frequência, o método compreendendo computação dos coeficientes de predição (64) com base nas informações de nivel (60); e upmixing do sinal de downmix (56) com base nos coeficientes de predição (64) e no sinal residual (62) para obter um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e/ou um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo.
  21. 21. Método de codificação de multi-áudio-objeto, caracterizado pelo fato de que compreende: computação das informações de nivel de um sinal de áudio do primeiro tipo e de um sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência; computação dos coeficientes de predição com base nas informações de nivel; downmixing do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo para obter um sinal de downmix; estabelecimento de um sinal residual que especifica valores de nível residual em uma segunda resolução predeterminada de tempo/frequência de modo que o upmixing do sinal de downmix com base tanto nos coeficientes de predição como no sinal residual resulte em um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo, a aproximação sendo melhorada quando comparada à ausência do sinal residual, as informações de nível e o sinal residual sendo compreendidos por uma informação auxiliar que forma, com o sinal de downmix, um sinal multi-áudio-obj eto...
  22. 22. Programa com um código de programa para executar, caracterizado pelo fato de que quando opera em um processador, um método de acordo com a reivindicação 20 ou de acordo com a reivindicação 21.
  23. 23. Sinal multi-áudio-objeto tendo um sinal de áudio de um primeiro tipo e um sinal de áudio de um segundo tipo nele codificados, o sinal multi-áudio-objeto consistindo em um sinal de downmix e informações auxiliares, as informações auxiliares compreendendo informações de nível do sinal de áudio do primeiro tipo e do sinal de áudio do segundo tipo em uma primeira resolução predeterminada de tempo/frequência, e um sinal residual que especifica valores de nível residual em uma segunda resolução predeterminada de tempo/frequência, caracterizado pelo fato de que o sinal residual é estabelecido de modo que a computação dos coeficientes de predição com base nas informações de nível e o upmixing do sinal de downmix com base nos coeficientes de predição e no sinal residual resulte em um primeiro sinal de áudio upmix aproximando o sinal de áudio do primeiro tipo e um segundo sinal de áudio upmix aproximando o sinal de áudio do segundo tipo.
  24. 24. Decodificador #. SAOC para decodificar um sinal de downmix estéreo SAOC (112), informações auxiliares SAOC (106, 114) e uma codificação residual (132), caracterizado pelo fato de que o sinal de downmix estéreo SAOC é uma combinação de um sinal de objeto estéreo (104) que forma um primeiro e um segundo sinais de áudio, e um sinal de objeto mono (110) que forma um terceiro sinal de áudio, as informações auxiliares SAOC compreendendo proporções de energia de objeto para cada um dos três sinais de áudio e correlação inter-sinais entre o primeiro e o segundo sinais de áudio, e a codificação residual servindo para aumentar a qualidade da reconstrução de um upmix, o decodificador SAOC compreendendo um box TTT (TTT = Dois para Três) configurado para realizar o cálculo (52) dos coeficientes de predição de canal a partir das energias de objeto e a correlação inter-sinais, e reconstrução de upmix (54) do primeiro e segundo sinais de áudio e/ou do terceiro sinal de áudio com base em uma forma de onda pelo processamento de TTT utilizando os coeficientes de predição de canal e o sinal residual.
  25. 25. Decodificador #+l. SAOC, de acordo com a reivindicação 24, caracterizado pelo fato de que as informações auxiliares SAOC (106, 114) compreendem ainda uma matriz downmix, cujas entradas indicam um peso pelo qual o primeiro a terceiro sinais de áudio contribuem com os canais downmix esquerdo e direito do sinal de downmix estéreo SAOC por soma, onde o primeiro sinal de áudio contribui com o canal downmix esquerdo enquanto não contribui com o canal downmix direito, e o segundo sinal de áudio contribui com o canal downmix direito enquanto não contribui com o canal downmix esquerdo, e o terceiro sinal de áudio é mixado entre os canais downmix esquerdo e direito, onde o box TTT é configurado para realizar a reconstrução de upmix utilizando ainda a matriz downmix .
  26. 26. Método de decodif icação #+2. SAOC caracterizado pelo fato de que é para decodificar um sinal de downmix estéreo SAOC (112), informações auxiliares SAOC (106, 114) e uma codificação residual (132), sendo o sinal de downmix estéreo SAOC uma combinação de um sinal de objeto estéreo (104) que forma um primeiro e um segundo sinais de áudio, e um sinal de objeto mono (110) que forma um terceiro sinal de áudio, as informações auxiliares SAOC compreendendo proporções de energia de objeto para cada um dos três sinais de áudio e correlação inter-sinais entre o primeiro e o segundo sinais de áudio, e a codificação residual servindo para aumentar a qualidade da reconstrução de um upmix, o método de decodificação SAOC compreendendo cálculo (52) dos coeficientes de predição de canal a partir da informação de proporção de energia de objeto e da correlação inter-sinais, e reconstrução de upmix (54) do primeiro e segundo sinais de áudio e/ou do terceiro sinal de áudio com base em uma forma de onda pelo processamento de TTT utilizando os coeficientes de predição de canal e o sinal residual.
    1/18
    1«n
    5° 16
    Downmi
    V. Codificador objy^ ObjK7—►
    Figure BRPI0816556A2_C0001
    1,2 iDecodificador/Transcodificador ownmix i
    LO -RO —[ -v->OLD, IOC, -4 /DMG.DCLD 20 Parâmetros SAOC
    Upmix
    Figure BRPI0816556A2_C0002
    M
    M
    Figure BRPI0816556A2_C0003
    26y Informações de Rendering
    FIG1
    Figure BRPI0816556A2_C0004
    FIG 2
    2/18
    I I
    I | indicação de
    I I downmix de
    Figure BRPI0816556A2_C0005
    ambos
    FIG 3
    3/18
    Figure BRPI0816556A2_C0006
    FIG 4
    4/18
    Figure BRPI0816556A2_C0007
    5/18
    Figure BRPI0816556A2_C0008
    6/18
    Figure BRPI0816556A2_C0009
    Figure BRPI0816556A2_C0010
    7/18
    Figure BRPI0816556A2_C0011
    i-ι Modo ampliado (res 6) ·— Modo ampliado (res 12) « Modo ampliado (res 24)
    FIG 8A
    Figure BRPI0816556A2_C0012
    i—i Modo ampliado (res 6) <—< Modo ampliado (res 12) —> Modo ampliado (res 24)
    FIG 8B
    8/18
    Figure BRPI0816556A2_C0013
    FIG 9
    9/18
    Figure BRPI0816556A2_C0014
    FIG 10
    Figure BRPI0816556A2_C0015
    tPjram,______ί [_____126a
    FIG 11
    10/18
    Figure BRPI0816556A2_C0016
    FIG 12
    11/18
    Sintaxe
    Sintaxe de SAOCSpecificConfig()
    N° de bits Mnemônico
    SAOCSpecificConfigO { bsSamplingFrequency Index; if (bsSamplingFrequencylndex = = 15 { bsSamplingFrequency;
    } bsFreqRes; bsFrameLength; frameljengm=bsFrarneLength +1; bsNumObjects;
    numObjects = bsNumObjects +1; for (i=0; i<numObjects; i++) { objectlsGrouped[i] = 0;
    } for (i=0; icnumObjects; i++){ bsRelatedTojijji] = 1;
    for (j=I+1; j < numObjects; j++) { if (iobjectlsGroupedjj] && IbsRelatedTojijjjj) { bsRelatedTo(lHj); bsRelatedTojjjji] = bsRelatedTojijjj]; if (bsRelatedTo[i]Ol == 1) { ob|ectlsGrouped[i]=1; objectlsGrouped[jí=1; for (k=l; k<|; k++){ if (bsFtelatedTo[IJ[kj == 1){ bsRelatedTo[j][k] = 1; bsRelatedTo[k][|j = 1;
    } } } } } } bsTransmitAbsNrg; bsNumOmxChannels; numDmxChanneis = bsNumOmxChannels +1; if (numDmxChanneis == 2) { bsTttDualMode;
    if (bsTttDualMode) { bsTttBandslow;
    } else{ bsTttBandsLow = numBands;
    } } bsObjectMetaDataAvallable; if (bsObjectMetaDataAvallable) { ObjectMetaData (numObjects);
    } bsReseved; ByteAHgnO; SAOCExtensionConfigO;
    1___________________________________________________________,______________________________________________________________________
    Nota 1: numBands é definido em bsFreqRes e depende deste uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf uimsbf
    Nota 1 uimsbf uimsbf
    FIG13A
    12/18
    Sintaxe de SAOCExtensionConfig()
    Figure BRPI0816556A2_C0017
    FIG13B
    13/18 ___________________Sintaxe de SAOCExtensionConfigData(O)__________________ Sintaxe________________________________________________N° de bits Mnemônico
    SAOCExtensionConfigData(O) {
    bsResidualSamplingFrequencylndex; 4 uimsbf bsResidualFramesPerSAOCFrame; 2 uimsbf bsNumGroupsFGO; 2 uimsbf
    NumGroupsFGO = bsNumGroupsFGO + 1;
    for (i=0;i< NumGroupsFGO; i++){
    ResidualConfig(i);
    } }__________________________________________________________
    Nota 1: numOttBoxes e numTttBoxes são definidos e dependem de bsTreeConfig.
    FIG13C
    Tabela 1 - Sintaxe de ResidualConfig()
    Sintaxe N° de bits IV nemônico ResidualConfig(i) { bsResidualPresentfi]; 1 uimsbf if (bsResidualPresent[i]){ bsResidualBands[i]; 5 uimsbf } }
    FIG 13D
    14/18 ________________________Sintaxe de SAQCFrameQ_______________________ Sintaxe________________________________________ N° de bits Mnemônico
    SAOCFrameO {
    Framinginfo; Nota 1 bsindependencyFlag; 1 uimsbf startBand = 0;
    for (í—O;i<numObjects; i++){ [old[i] ,o IdQuantCoarse [i], oldFreqResStride[i)] = Nota 2,3
    EcData(t_OLD, prevOldQuantCoarse [i], prevOldFreqResStr ide [i], numParamSets, bsindependencyFlag, startBand, numBands);
    } if (bsTransmitAbsNrg) { [nrg, nrgQuantCoarse, nrgFreqResStride] = Nota 2,3
    EcData(t_NRG, prevNrgQuantCoarse, prevNrgFreqResStride, numParamSets, bsindependencyFlag, startBand, numBands);
    } for (i=O;i< numObjects; i++){ for (j=i+1 ;j< numObjects; j++) { if (bsRelatedTo[i][j]i=0){ [ioc[i][j], iocQuantCoarse[i] [j], iocFreqResStride[i] [j] = Notes 2,3
    EcData(t_ICC, prevIocQuantCoarse [i] ü], prevl ocFreq ResStr i d e [i] [j], numParamSets, bsindependencyFlag, startBand, numBands);
    } }
    } firstObject = 0;
    [dmg, dmgQuantCoarse, dmgFreqResStride] =
    EcData (t_CLD, prevDmgQuantCoarse, prevIocFreqResStride, numParamSets, bsindependencyFlag, firstObject, numObjects);
    if (numDmxChannels > 1){ [cld, cldQuantCoarse, cldFreqResStride] = EcData (t_CLD, prevOldQuantCoarse, prevCIdFreqResStride, numParamSets, bsindependencyFlag, firstObject, numObjects);
    }
    ByteAlignO;
    SAOCExtensionFrameO;
    }___________________________________________________________________________________
    Nota 1: FraminglnfoQ é definido em ISO/IEC FDIS 23003 -1:2006, Tabela 16.
    Nota 2: EcDataQ é definido em ISO/IEC FDIS 23003 -1:2006, Tabela 23.
    Nota 3 - numBands é definido em ISO/IEC FDIS 23003 -1:2006, Tabela 39 e depende de bsFreqRes.
    FIG13E
    15/18
    Sintaxe de SAOCExtensionFrame()
    Sintaxe N° de bits Mnemônico SAOCExtensionFrame() { for (ec=0; ec<sacExtNum; ec++){ if (sacExtType[ec]<12) { cnt=bsSacExtLen; if(cnt==255){ 8 uimsbf cnt+=bsSacExtLenAdd; } 16 uimsbf bitsRead=SAOCExtensionFrameData(sacExtType[ec]) nFilIBits = 8*cnt-bitsRead; Nota 1 bsFílIBits; } } } nFilIBits bslbf Nota 1: SAOCExtensionFrameData () devolve o número de lidos.
    FIG13F
    Tabela 2 - Sintaxe de SAOCExtensionFrameData(O)
    Sintaxe N° dê bits MrtèlYiôniõõ SAOCExtensionFrameData(O) { ResidualData () }
    FIG 13G
BRPI0816556-4A 2007-10-17 2008-10-17 codificação de áudio usando downmix BRPI0816556A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US98057107P 2007-10-17 2007-10-17
US60/980,571 2007-10-17
US99133507P 2007-11-30 2007-11-30
US60/991,335 2007-11-30
PCT/EP2008/008799 WO2009049895A1 (en) 2007-10-17 2008-10-17 Audio coding using downmix

Publications (1)

Publication Number Publication Date
BRPI0816556A2 true BRPI0816556A2 (pt) 2019-03-06

Family

ID=40149576

Family Applications (2)

Application Number Title Priority Date Filing Date
BRPI0816557-2A BRPI0816557B1 (pt) 2007-10-17 2008-10-17 Codificação de áudio usando upmix
BRPI0816556-4A BRPI0816556A2 (pt) 2007-10-17 2008-10-17 codificação de áudio usando downmix

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BRPI0816557-2A BRPI0816557B1 (pt) 2007-10-17 2008-10-17 Codificação de áudio usando upmix

Country Status (12)

Country Link
US (4) US8280744B2 (pt)
EP (2) EP2082396A1 (pt)
JP (2) JP5883561B2 (pt)
KR (4) KR101303441B1 (pt)
CN (2) CN101849257B (pt)
AU (2) AU2008314030B2 (pt)
BR (2) BRPI0816557B1 (pt)
CA (2) CA2701457C (pt)
MX (2) MX2010004220A (pt)
RU (2) RU2452043C2 (pt)
TW (2) TWI395204B (pt)
WO (2) WO2009049895A1 (pt)

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
JP5173839B2 (ja) * 2006-02-07 2013-04-03 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
JP5139440B2 (ja) * 2006-11-24 2013-02-06 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
MX2008013073A (es) 2007-02-14 2008-10-27 Lg Electronics Inc Metodos y aparatos para codificar y decodificar señales de audio basadas en objeto.
EP2130304A4 (en) 2007-03-16 2012-04-04 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
RU2452043C2 (ru) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования
WO2009054665A1 (en) * 2007-10-22 2009-04-30 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2194526A1 (en) 2008-12-05 2010-06-09 Lg Electronics Inc. A method and apparatus for processing an audio signal
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8255821B2 (en) * 2009-01-28 2012-08-28 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
JP5163545B2 (ja) * 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
CN101930738B (zh) * 2009-06-18 2012-05-23 晨星软件研发(深圳)有限公司 多声道音频信号译码方法与装置
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
CN103489449B (zh) * 2009-06-24 2017-04-12 弗劳恩霍夫应用研究促进协会 音频信号译码器、提供上混信号表示型态的方法
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
WO2011039195A1 (en) 2009-09-29 2011-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
CN102714038B (zh) * 2009-11-20 2014-11-05 弗兰霍菲尔运输应用研究公司 用以基于下混信号表示型态而提供上混信号表示型态的装置、用以提供表示多声道音频信号的位流的装置、方法
MX2012006823A (es) * 2009-12-16 2012-07-23 Dolby Int Ab Mezcla descendente de parametros de corriente de bits sbr.
EP2522016A4 (en) * 2010-01-06 2015-04-22 Lg Electronics Inc DEVICE FOR PROCESSING AN AUDIO SIGNAL AND METHOD THEREFOR
EP2372704A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
BR112012025863B1 (pt) 2010-04-09 2020-11-17 Dolby International Ab sistema decodificador e método de decodificação para codificação estéreo por predição complexa baseada em mdct
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source
CN103503063B (zh) * 2011-03-10 2015-12-09 瑞典爱立信有限公司 填充变换编码音频信号中的非编码子向量
TWI573131B (zh) * 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
EP2523472A1 (en) 2011-05-13 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
TWI576829B (zh) 2011-05-13 2017-04-01 三星電子股份有限公司 位元配置裝置
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
JP5715514B2 (ja) * 2011-07-04 2015-05-07 日本放送協会 オーディオ信号ミキシング装置およびそのプログラム、ならびに、オーディオ信号復元装置およびそのプログラム
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
BR112014010062B1 (pt) 2011-11-01 2021-12-14 Koninklijke Philips N.V. Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio
BR112013026452B1 (pt) * 2012-01-20 2021-02-17 Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V. aparelho e método para codificação e decodificação de áudio empregando substituição sinusoidal
US9674587B2 (en) * 2012-06-26 2017-06-06 Sonos, Inc. Systems and methods for networked music playback including remote add to queue
BR112014004129A2 (pt) * 2012-07-02 2017-06-13 Sony Corp dispositivos e métodos de decodificação e de codificação, e, programa
CN104428835B (zh) * 2012-07-09 2017-10-31 皇家飞利浦有限公司 音频信号的编码和解码
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
US9564138B2 (en) 2012-07-31 2017-02-07 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
EP2883366B8 (en) * 2012-08-07 2016-12-14 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
RU2628900C2 (ru) * 2012-08-10 2017-08-22 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, декодер, система и способ, использующие концепцию остатка для параметрического кодирования аудиобъектов
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
KR20140046980A (ko) 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
EP2936485B1 (en) * 2012-12-21 2017-01-04 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
HUE032831T2 (en) * 2013-01-08 2017-11-28 Dolby Int Ab Model-based prediction in a critically sampled filter block
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9786286B2 (en) 2013-03-29 2017-10-10 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN105393304B (zh) 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
EP3312835B1 (en) * 2013-05-24 2020-05-13 Dolby International AB Efficient coding of audio scenes comprising audio objects
CN105247611B (zh) 2013-05-24 2019-02-15 杜比国际公司 对音频场景的编码
ES2640815T3 (es) 2013-05-24 2017-11-06 Dolby International Ab Codificación eficiente de escenas de audio que comprenden objetos de audio
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
WO2015011015A1 (en) 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
TWI713018B (zh) 2013-09-12 2020-12-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
CN110634494B (zh) * 2013-09-12 2023-09-01 杜比国际公司 多声道音频内容的编码
CN105531761B (zh) * 2013-09-12 2019-04-30 杜比国际公司 音频解码系统和音频编码系统
EP2854133A1 (en) 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
US20160269847A1 (en) * 2013-10-02 2016-09-15 Stormingswiss Gmbh Method and apparatus for downmixing a multichannel signal and for upmixing a downmix signal
CN105593932B (zh) * 2013-10-09 2019-11-22 索尼公司 编码设备和方法、解码设备和方法、以及程序
KR102381216B1 (ko) * 2013-10-21 2022-04-08 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US10492014B2 (en) 2014-01-09 2019-11-26 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10468036B2 (en) * 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
EP3127109B1 (en) 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
CN110992964B (zh) * 2014-07-01 2023-10-13 韩国电子通信研究院 处理多信道音频信号的方法和装置
CN106576204B (zh) * 2014-07-03 2019-08-20 杜比实验室特许公司 声场的辅助增大
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
UA120372C2 (uk) * 2014-10-02 2019-11-25 Долбі Інтернешнл Аб Спосіб декодування і декодер для посилення діалогу
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
BR112017008015B1 (pt) * 2014-10-31 2023-11-14 Dolby International Ab Métodos e sistemas de decodificação e codificação de áudio
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2016168408A1 (en) 2015-04-17 2016-10-20 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
WO2017049400A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
US12125492B2 (en) 2015-09-25 2024-10-22 Voiceage Coproration Method and system for decoding left and right channels of a stereo sound signal
ES2830954T3 (es) * 2016-11-08 2021-06-07 Fraunhofer Ges Forschung Mezclador descendente y método para la mezcla descendente de al menos dos canales y codificador multicanal y decodificador multicanal
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
EP4435783A3 (en) * 2018-04-05 2024-12-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for estimating an inter-channel time difference
CN109451194B (zh) * 2018-09-28 2020-11-24 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 一种会议混音方法及装置
EP3874491B1 (en) * 2018-11-02 2024-05-01 Dolby International AB Audio encoder and audio decoder
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
US10779105B1 (en) 2019-05-31 2020-09-15 Apple Inc. Sending notification and multi-channel audio over channel limited link for independent gain control
CA3143408C (en) 2019-06-14 2025-10-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. PARAMETER ENCODING AND DECODING
GB2587614A (en) 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法
WO2021232376A1 (zh) 2020-05-21 2021-11-25 华为技术有限公司 一种音频数据传输方法及相关装置
HUE071538T2 (hu) * 2020-06-11 2025-09-28 Dolby Laboratories Licensing Corp Eljárások és eszközök térbeli háttérzaj kódolására és dekódolására egy többcsatornás bemeneti jelben
WO2021252748A1 (en) 2020-06-11 2021-12-16 Dolby Laboratories Licensing Corporation Encoding of multi-channel audio signals comprising downmixing of a primary and two or more scaled non-primary input channels
WO2022074201A2 (en) 2020-10-09 2022-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
EP4226367A2 (en) 2020-10-09 2023-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
JP7521596B2 (ja) * 2020-11-05 2024-07-24 日本電信電話株式会社 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
KR20230116895A (ko) * 2020-12-02 2023-08-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응적 다운믹스 전략을 통한 몰입형 음성 및 오디오서비스(ivas)

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19549621B4 (de) 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6356639B1 (en) * 1997-04-11 2002-03-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
AU781629B2 (en) * 1999-04-07 2005-06-02 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
EP1375614A4 (en) 2001-03-28 2004-06-16 Mitsubishi Chem Corp METHOD FOR COATING WITH RADIATION-CURABLE RESIN COMPOSITION AND LAMINATES
DE10163827A1 (de) 2001-12-22 2003-07-03 Degussa Strahlen härtbare Pulverlackzusammensetzungen und deren Verwendung
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
US7395210B2 (en) * 2002-11-21 2008-07-01 Microsoft Corporation Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
EP1576602A4 (en) 2002-12-28 2008-05-28 Samsung Electronics Co Ltd METHOD AND DEVICE FOR MIXING AN AUDIOSTROME AND INFORMATION STORAGE MEDIUM
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20050058307A1 (en) * 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
ATE527654T1 (de) * 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
US7317601B2 (en) 2004-07-29 2008-01-08 United Microelectronics Corp. Electrostatic discharge protection device and circuit thereof
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
JP2006197391A (ja) * 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
ES2347274T3 (es) * 2005-03-30 2010-10-27 Koninklijke Philips Electronics N.V. Codificacion de audio multicanal ajustable a escala.
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
JP4988717B2 (ja) * 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR20080010980A (ko) * 2006-07-28 2008-01-31 엘지전자 주식회사 부호화/복호화 방법 및 장치.
CN103366747B (zh) 2006-02-03 2017-05-17 韩国电子通信研究院 用于控制音频信号的渲染的设备和方法
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
BRPI0711102A2 (pt) * 2006-09-29 2011-08-23 Lg Eletronics Inc métodos e aparelhos para codificar e decodificar sinais de áudio com base em objeto
US8687829B2 (en) * 2006-10-16 2014-04-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for multi-channel parameter transformation
US9565509B2 (en) * 2006-10-16 2017-02-07 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
RU2452043C2 (ru) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования

Also Published As

Publication number Publication date
KR101244515B1 (ko) 2013-03-18
TWI395204B (zh) 2013-05-01
AU2008314029B2 (en) 2012-02-09
US8407060B2 (en) 2013-03-26
AU2008314030B2 (en) 2011-05-19
US8280744B2 (en) 2012-10-02
KR101244545B1 (ko) 2013-03-18
CN101821799B (zh) 2012-11-07
KR20120004547A (ko) 2012-01-12
RU2474887C2 (ru) 2013-02-10
EP2076900A1 (en) 2009-07-08
US8538766B2 (en) 2013-09-17
AU2008314030A1 (en) 2009-04-23
CA2702986A1 (en) 2009-04-23
BRPI0816557A2 (pt) 2016-03-01
CA2702986C (en) 2016-08-16
CN101849257A (zh) 2010-09-29
WO2009049896A1 (en) 2009-04-23
TW200926147A (en) 2009-06-16
JP2011501544A (ja) 2011-01-06
TW200926143A (en) 2009-06-16
WO2009049896A8 (en) 2010-05-27
KR20100063119A (ko) 2010-06-10
WO2009049896A9 (en) 2011-06-09
WO2009049895A1 (en) 2009-04-23
JP5883561B2 (ja) 2016-03-15
EP2082396A1 (en) 2009-07-29
JP5260665B2 (ja) 2013-08-14
WO2009049895A9 (en) 2009-10-29
MX2010004220A (es) 2010-06-11
RU2010114875A (ru) 2011-11-27
US20120213376A1 (en) 2012-08-23
RU2452043C2 (ru) 2012-05-27
CN101849257B (zh) 2016-03-30
US8155971B2 (en) 2012-04-10
KR20120004546A (ko) 2012-01-12
US20090125314A1 (en) 2009-05-14
RU2010112889A (ru) 2011-11-27
TWI406267B (zh) 2013-08-21
US20130138446A1 (en) 2013-05-30
JP2011501823A (ja) 2011-01-13
AU2008314029A1 (en) 2009-04-23
KR101303441B1 (ko) 2013-09-10
BRPI0816557B1 (pt) 2020-02-18
CA2701457A1 (en) 2009-04-23
US20090125313A1 (en) 2009-05-14
KR20100063120A (ko) 2010-06-10
KR101290394B1 (ko) 2013-07-26
MX2010004138A (es) 2010-04-30
CA2701457C (en) 2016-05-17
CN101821799A (zh) 2010-09-01

Similar Documents

Publication Publication Date Title
BRPI0816556A2 (pt) codificação de áudio usando downmix
CN102157155B (zh) 多声道音频信号表示方法
ES2378734T3 (es) Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal
BRPI0618002A2 (pt) método para uma melhor conformação temporal e espacial dos sinais de áudio multicanais
BR122018072505B1 (pt) Codificação paramétrica conjunta de fontes de áudio
PT1829026T (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial
NO342863B1 (no) Konsept for kopling av gapet mellom parametrisk flerkanals audiokoding og matrise-surround flerkanalkoding
BRPI0515623B1 (pt) Dispositivo e método para a geração de um sinal multicanais codificado e dispositivo e método para a decodificação de um sinal multicanais codificado
BR112017025314B1 (pt) Aparelho e método para codificação ou decodificação de um sinal multicanal utilizando reamostragem de domínio espectral

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]
B12B Appeal against refusal [chapter 12.2 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 17/10/2008, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.