BRPI0816638B1

BRPI0816638B1 - Dispositivo e método para geração de sinal multicanal incluindo processamento de sinal de voz

Info

Publication number: BRPI0816638B1
Application number: BRPI0816638-2A
Authority: BR
Inventors: Christian Uhle; Oliver Hellmuth; Juergen Herre; Harald Popp; Thorsten Kastner
Original assignee: Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V.
Priority date: 2007-10-12
Filing date: 2008-10-01
Publication date: 2020-03-10
Also published as: ES2364888T3; EP2206113B1; EP2206113A1; BRPI0816638A2; KR101100610B1; MX2010003854A; HK1146424A1; RU2461144C2; DE102007048973A1; KR20100065372A; DE102007048973B4; CN101842834A; DE502008003378D1; AU2008314183B2; WO2009049773A1; RU2010112890A; CN101842834B; US8731209B2; CA2700911C; AU2008314183A1

Abstract

dispositivo e método para geração de sinal multicanal incluindo processamento oe sinal de voz para gerar um sinal multi canal composto de um número de canais de saída maior que um número de canais de entrada, é utilizado um mixer para fazer upmixing do sinal de entrada, para formar pelo menos um sinal de canal direto e pelo menos um sinal de canal de ambiência. um detector de voz ( 18) é provido para detectar uma seção do sinal de entrada, o sinal de canal direto ou o sinal de canal de ambiência no qual ocorrem as porções de voz. com base nesta detecção, um modificador de sinal (20) modifica o sinal de entrada ou o sinal de canal de ambiência, para atenuar as porções de voz do sinal de canal de ambiência, enquanto essas porções de voz do sinal de canal direto são atenuadas em menor escala ou nem são atenuadas. um meio de saída de sinal de alto-falante (22) mapeia então os sinais de canais diretos e os sinais de canal de ambiência para sinais de altofalante que são associados a um esquema de reprodução definido, como por exemplo, um esquema 5.1.

Description

"DISPOSITIVO E MÉTODO PARA GERAÇÃO DE SINAL MULTI CANAL INCLUINDO PROCESSAMENTO DE SINAL DE VOZ" DESCRIÇÃO A presente invenção refere-se ao campo de processamento de sinal de áudio e, em particular, à geração de vários canais de saída originários de menos canais de entrada, como por exemplo, um (mono) canal ou dois canais (estéreo) de entrada.

Materiais de áudio multicanal estão se tornando cada vez mais populares. Isto resultou em muitos usuários finais, entrementes, possuindo sistemas de reprodução multicanal. Isto pode ser atribuído principalmente ao fato de que os DVD estão se tornando cada vez mais populares, e consequentemente, muitos usuários de DVD entrementes possuem equipamentos multicanal 5.1.

Sistemas de reprodução deste tipo em geral são compostos de três alto-falantes L (esquerdo) , C (central) e R (direito) , que ficam tipicamente dispostos à frente do usuário, e dois alto-falantes Ls e Rs que ficam dispostos atrás do usuário, e tipicamente um canal LFE que também é denominado canal de efeito de baixa frequência, ou subwoofer. Essa configuração de canais é indicada nas Figuras 5b e 5c. Apesar dos alto-falantes L, C, R, Ls e Rs deverem ser posicionados em relação ao usuário como mostram as Figuras 10 e 11, para que o usuário receba a melhor experiência auditiva possível, o posicionamento do canal LFE (não mostrado nas Figuras 5b e 5c) não é tão decisivo, pois o ouvido não consegue executar a localização em frequências tão baixas, e o canal LFE pode consequentemente ser disposto de qualquer maneira, devido ao seu tamanho considerável, ele não fica no caminho.

Um sistema multicanal desse tipo apresenta várias vantagens, em comparação a uma reprodução estéreo típica que seja uma reprodução de dois canais, como mostra a Fig. 5a, a título de exemplo.

Mesmo fora da posição auditiva central ideal, ocorre uma melhora na estabilidade da experiência auditiva frontal, que também é denominada "imagem frontal", devido ao canal central. O resultado é um "ponto ideal", sendo que "ponto ideal" representa a posição auditiva ideal.

Além disso, o ouvinte recebe uma experiência aperfeiçoada de "aprofundamento" na cena auditiva, devido aos dois alto-falantes traseiros Ls e Rs.

Todavia, existe uma quantidade enorme de materiais de áudio, de propriedade do usuário ou disponíveis em geral, que somente existem como material estéreo, isto é, incluem somente dois canais, a saber, o canal esquerdo e o canal direito. CD são veículos de som típicos para peças estéreos deste tipo. A ITU [União Internacional de Telecomunicações] recomenda duas opções para tocar materiais estéreo deste tipo usando-se o equipamento de áudio multicanal 5.1.

Esta primeira opção é tocar os canais esquerdo e direito usando os alto-falantes esquerdo e direito do sistema de reprodução multicanal. Porém, esta solução é desvantajosa, pois a pluralidade de alto-falantes que já estão presentes não é utilizada, o que significa que o alto-falante central e os dois alto-falantes traseiros presentes não são utilizados vantajosamente.

Outra opção é converter os dois canais em um sinal multicanal. Isto pode ser feito durante a reprodução ou através de um pré-processamento especial, o qual vantajosamente utiliza todos os seis alto-falantes do sistema de reprodução 5.1 presentes como exemplo, resultando assim em uma experiência auditiva aperfeiçoada quando é feito upmix de dois canais para cinco ou seis canais de uma maneira isenta de erros.

Somente assim a segunda opção, isto é, usar todos os alto-falantes do sistema multicanal, será vantajosa, em comparação à primeira solução, isto é, quando não houver nenhum erro de upmixing. Erros de upmixing deste tipo podem ser particularmente perturbadores quando não puderem ser gerados sinais para os alto-falantes traseiros, que também são conhecidos como sinais de ambiência, de uma maneira isenta de erros.

Uma maneira de executar este assim chamado processo de upmixing é conhecida pela palavra-chave "conceito de ambiência direta". As fontes diretas de som são reproduzidas pelos três canais frontais, de maneira que sejam percebidos pelo usuário como estando na mesma posição que na versão original de dois canais. A versão original de dois canais está ilustrada esquematicamente na Fig. 5, usando diferentes instrumentos de percussão. A Fig. 5b mostra uma versão com upmix do conceito onde todas as fontes originais de som, isto é, os instrumentos de percussão, são reproduzidas pelos três alto-falantes frontais L, C e R, onde sinais de ambiência especiais adicionais são emitidos pelos dois alto-falantes traseiros. O termo "fonte direta de som" é, portanto, utilizado para descrever um tom proveniente só e diretamente de uma fonte discreta de som, como por exemplo, um instrumento de percussão ou outro instrumento, ou em geral um objeto de áudio especial, como o exemplo ilustrado na Fig. 5a usando um instrumento de percussão. Não existem tons adicionais como por exemplo, causados por reflexos de parede, etc. nesse tipo de fonte direta de som. Neste panorama, os sinais de som emitidos pelos dois alto-falantes traseiros Ls, Rs, na Fig. 5b, são compostos somente de sinais de ambiência que podem estar presentes na gravação original ou não. Sinais de ambiência deste tipo não pertencem a uma única fonte de som, mas contribuem para reproduzir a acústica da sala de uma gravação, resultando assim em uma assim chamada experiência de "aprofundamento" para o ouvinte.

Outro conceito alternativo que é mencionado como conceito "na faixa" é ilustrado esquematicamente na Fig. 5c. Todos os tipos de som, isto é, fontes diretas de som e tons do tipo de ambiência, são todos posicionados ao redor do ouvinte. A posição de um tom é independente da sua característica (fontes diretas de som ou tons do tipo de ambiência) , e depende somente do design específico do algoritmo, como ilustra o exemplo da Fig. 5c. Assim, foi determinado na Fig. 5c pelo algoritmo de upmix que os dois instrumentos 1100 e 1102 sejam posicionados lateralmente em relação ao ouvinte, enquanto os dois instrumentos 1104 e 1106 sejam posicionados à frente do usuário. O resultado disto é que os dois alto-falantes traseiros Ls e Rs, passam também a conter partes dos dois instrumentos 1100 e 1102, e não mais somente tons do tipo de ambiência, como foi o caso na Fig. 5b, onde os mesmos instrumentos estão todos posicionados à frente do usuário. A publicação especializada "C. Avendano and J.M.

Jot: 'Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix', IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 02, Orlando, Fl, May 2002" revela uma técnica de domínio de frequência para identificação e extração de informações de ambiência em sinais de áudio estéreo. Este conceito baseia-se no cálculo de uma coerência intercanal e uma função de mapeamento não linear que permite a determinação de regiões de frequência de tempo no sinal estéreo, o qual consiste principalmente em componentes de ambiência. Os sinais de ambiência são então sintetizados e usados para armazenar os canais traseiros ou canais "surround" Ls, Rs (figuras 10 e 11) de um sistema de reprodução multicanal.

Na publicação especializada "R. Irwan and Ronald M. Aarts: Ά method to convert stereo to multi-channel sound', The proceedings of the AES 19th International Conference, Schloss Elmau, Germany, June 21-24, pages 139-143, 2001", é apresentado um método para converter um sinal estéreo em um sinal multicanal. O sinal para o canal surround é calculado usando-se uma técnica de correlação cruzada. Uma análise de componente de princípio (PCA) é usada para calcular um vetor que indica uma direção do sinal dominante. Este vetor é então mapeado, de uma representação de dois canais a uma representação de três canais, para gerar os três canais frontais.

Todas as técnicas conhecidas tentam, de maneiras diferentes, extrair os sinais de ambiência dos sinais estéreos originais, ou até mesmo sintetizá-los a partir de ruído ou outras informações, onde informações que não estão no sinal estéreo podem ser usadas para sintetizar os sinais de ambiência. No entanto, no final, trata-se somente de extrair informações do sinal estéreo, e/ou fornecer, em um cenário de reprodução, informações que não estão presentes de forma explicita, pois tipicamente somente um sinal estéreo de dois canais e, talvez, informações adicionais e/ou metainformações, estejam disponíveis.

Subsequentemente, outros métodos de upmixing conhecidos que funcionam sem parâmetros de controle serão detalhados. Métodos de upmixing deste tipo também são mencionados como métodos de upmixing cegos. A maioria das técnicas deste tipo para gerar um assim chamado sinal de pseudoestereofonia a partir de um monocanal (isto é, um upmix l-para-2) não são adaptáveis ao sinal. Isto significa que elas sempre processarão um mono-sinal da mesma maneira, independentemente do teor que ele contiver no mono-sinal.

Sistemas deste tipo frequentemente funcionam usando estruturas simples de filtragem e/ou de retardos de tempo, para descorrelacionar os sinais gerados, por exemplo, processando o sinal de entrada de um canal por um par dos assim chamados filtros em pente complementares, conforme descrito em M. Schroeder, "An artificial stereophonic effect obtained from using a single signal", JAES, 1957. Outra visão de sistemas deste tipo pode ser encontrada em C. Faller, "Pseudo stereophony revisited", Proceedings of the AES 118th Convention, 2005.

Além disso, existe a técnica de extração de sinal de ambiência através do uso de uma fatorização de matriz não-negativa, em particular no contexto de um upmix 1-a-N, com N sendo maior que dois. Aqui, uma distribuição tempo-frequência (TFD) do sinal de entrada é calculada, por exemplo, através de uma transformada de Fourier de curto prazo. Um valor estimado da TFD dos componentes do sinal direto é derivado através de um método de otimização numérica que é mencionado como fatorização de matriz não- negativa. Um valor estimado para a TFD do sinal de ambiência é determinado calculando-se a diferença da TFD do sinal de entrada e o valor estimado da TFD para o sinal direto. É realizada re-sintese ou síntese do sinal de tempo do sinal de ambiência, usando-se o espectrograma de fase do sinal de entrada. Um pós-processamento adicional é realizado opcionalmente para aperfeiçoar a experiência auditiva do sinal multicanal gerado. Este método é descrito em detalhe por C. Uhle, Ά. Walther, O. Hellmuth and J. Herre in "Ambience separation from mono recordings using non-negative matrix factorization", Proceedings of the AES 30th Conference 2007.

Existem diferentes técnicas para fazer upmixing de gravações estéreo. Uma técnica é usar decodificadores de matriz. Decodificadores de matriz são conhecidos pela palavra- chave Dolby Pro Logic II, DTS Neo: 6 ou HarmanKardon/Lexicon Logic 7, e estão contidos em quase todos os receptores de áudio/vídeo vendidos atualmente. Como subproduto de sua funcionalidade pretendida, estes métodos também são capazes de executar upmixing cego. Estes decodificadores usam diferenças intercanais e mecanismos de controle adaptáveis ao sinal para gerar sinais de saída multicanal.

Como já foi discutido, as técnicas de domínio de frequência descritas por Avendano e Jot são usadas para identificar e extrair as informações de ambiência em sinais de áudio estéreo. Este método baseia-se no cálculo de um índice de coerência intercanal e uma função de mapeamento não-linear, permitindo assim a determinação das regiões de tempo-frequência que consistem, em sua maioria, em componentes de sinal de ambiência. Os sinais de ambiência são então sintetizados e usados para alimentar os canais surround do sistema de reprodução multicanal.

Um componente do processo de upmixing direto/de ambiência é extrair um sinal de ambiência que é fornecido aos dois canais traseiros Ls, Rs. Existem determinados requisitos para que um sinal seja utilizado como sinal ambiência-tempo no contexto de um processo de upmixing direto/de ambiência. Um pré-requisito é que as partes relevantes das fontes de som diretas não devem ser audíveis, para que o ouvinte consiga localizar as fontes diretas de som como seguramente estando à frente. Isto será particularmente importante quando o sinal de áudio contiver voz, ou um ou vários falantes distinguíveis. Sinais de voz que, pelo contrário, forem gerados por uma multidão de pessoas, não necessariamente precisam ser perturbadores para o ouvinte quando não estiverem localizados à frente do ouvinte.

Se uma quantidade especial de componentes de voz tivesse que ser reproduzida pelos canais traseiros, isto resultaria na posição do falante ou dos poucos falantes sendo colocada da frente para trás, ou a uma certa distância do usuário, ou até atrás do usuário, o que resulta em uma experiência sonora muito perturbadora. Em particular, em um caso no qual materiais de áudio e vídeo são apresentados ao mesmo tempo, como por exemplo, em uma sala de cinema, esse tipo de experiência é particularmente perturbadora.

Um pré-requisito básico para o sinal de tom de um filme (de uma trilha sonora) é que a experiência auditiva esteja em conformidade com a experiência gerada pelas imagens. Pistas audíveis relacionadas à localização não devem, portanto, ser contrárias a pistas visíveis relacionadas à localização.

Consequentemente, quando um falante vai ser visto na tela, a fala correspondente também deve ser apresentada ao usuário. O mesmo aplica-se a todos os outros sinais de áudio, isto é, isto não está necessariamente limitado a situações onde sinais de áudio e sinais de vídeo são apresentados ao mesmo tempo. Outros sinais de áudio deste tipo são, por exemplo, sinais de radiodifusão ou livros em áudio. O ouvinte está acostumado à voz sendo gerada pelos canais frontais, e quando de repente a voz viesse dos canais traseiros, ele provavelmente se viraria para trás para restaurar sua experiência convencional.

Para melhorar a qualidade dos sinais de ambiência, o pedido de patente alemã DE 102006017280.9-55 sugere submeter um sinal de ambiência extraído uma vez a uma detecção de transiente, e causar supressão de transiente sem perdas consideráveis de energia no sinal de ambiência. É realizada aqui a substituição de sinal, para substituir regiões que incluam transientes por sinais correspondentes sem transientes, porém, com aproximadamente a mesma energia. O trabalho da Convenção AES "Descriptor-based spatialization", J. Monceaux, F. Pachet et al. , May 28-31, 2005, Barcelona, Spain, revela espacialização baseada no descritor, onde a voz detectada deve ser atenuada com base em descritores extraídos ajustando-se somente o canal central em mudo. Um extrator de voz é empregado aqui. Os tempos de ação e de transiente são usados para suavizar as modificações do sinal de saída. Assim, uma trilha sonora multicanal sem voz pode ser extraída de um filme. Quando uma determinada característica de reverberação estérea está presente no sinal downmix estéreo original, isto resulta em uma ferramenta de upmixing para distribuir esta reverberação para todos os canais, com exceção do canal central, de maneira que a reverberação possa ser ouvida.

Para evitar isto, é feito controle do nível dinâmico para L, R, Ls e Rs, a fim de atenuar a reverberação de uma voz. O objeto da presente invenção é prover um conceito para gerar um sinal multicanal que inclua alguns canais de saída, o que é flexível por um lado, e provê um produto de alta qualidade por outro.

Este objetivo é atingido por um dispositivo para gerar um sinal multicanal de acordo com a reivindicação 1, um método para gerar um sinal multicanal de acordo com a reivindicação 23 ou um programa de computador de acordo com a reivindicação 24. A presente invenção baseia-se na descoberta que os componentes de voz dos canais traseiros, isto é, nos canais de ambiência, são suprimidos para que os canais traseiros fiquem isentos de componentes de voz. Um sinal de entrada com um ou vários canais passa por upmix para prover um canal de sinal direto e para prover um canal de sinal de ambiência ou, dependendo da implementação, o canal do sinal de ambiência já modificado. Um detector de voz é provido para buscar componentes de voz no sinal de entrada, no canal direto ou no canal de ambiência, onde componentes de voz deste tipo podem ocorrer, por exemplo, em partes temporais e/ou de frequência, ou também em componentes de resolução ortogonal. Um modificador de sinal é provido para modificar o sinal direto gerado pelo upmixer ou uma cópia do sinal de entrada, de maneira a suprimir os componentes do sinal de voz nele, enquanto os componentes de sinal direto são menos atenuados ou nem são atenuados, nas partes correspondentes que incluem componentes de sinal de voz. Esse sinal de canal de ambiência modificado é usado então para gerar sinais de alto-falante para os alto-falantes correspondentes.

No entanto, quando o sinal de entrada tiver sido modificado, o sinal de ambiência gerado pelo upmixer é usado diretamente, pois os componentes de voz já estão suprimidos nele, uma vez que o sinal de áudio subjacente também tinha componentes de voz suprimidos. Neste caso, porém, quando o processo de upmixing também gerar um canal direto, o canal direto não é calculado com base no sinal de entrada modificado, mas sim com base no sinal de entrada inalterado, para que se consiga a supressão dos componentes de voz seletivamente, somente no canal de ambiência, mas não no canal direto onde os componentes de voz são explicitamente desejados.

Isto impede que a reprodução de componentes de voz ocorra nos canais traseiros ou nos canais de ambiência de sinal, o que de outra maneira perturbaria ou até mesmo confundiría o ouvinte. Consequentemente, a invenção garante que os diálogos e outros tipos de voz compreensíveis por um ouvinte, isto é, que apresentem uma característica espectral típica de voz, sejam colocados à frente do ouvinte.

Os mesmos requisitos aplicam-se também ao conceito na faixa, onde é também desejável que os sinais diretos não sejam colocados nos canais traseiros, mas sim à frente do ouvinte e, talvez, lateralmente ao ouvinte, porém não atrás do ouvinte, como mostra a Fig. 5c, onde os componentes de sinal direto (e componentes de sinal de ambiência também) são todos colocados à frente do ouvinte.

De acordo com a invenção, é realizado um processamento dependente do sinal, a fim de remover ou suprimir os componentes de voz dos canais traseiros ou do sinal de ambiência.

Duas etapas básicas são aqui realizadas, a saber, a detecção de ocorrência de voz e a supressão da voz, onde a detecção de ocorrência de voz pode ser feita no sinal de entrada, no canal direto ou no canal de ambiência, e onde a supressão de voz pode ser feita diretamente no canal de ambiência ou indiretamente no sinal de entrada, que será então usado para gerar o canal de ambiência, onde este sinal de entrada modificado não é usado para gerar o canal direto. A invenção atinge esse objetivo, portanto, quando um sinal de surround multicanal é gerado a partir de um sinal de áudio com menos canais, e como o sinal contém componentes de voz, fica garantido que os sinais resultantes para, pelo ponto de vista do usuário, os canais traseiros, incluam uma quantidade mínima de voz, para manter o tom-imagem original à frente do usuário (imagem frontal) . Quando uma quantidade especial de componentes de voz tivesse de ser reproduzida pelos canais traseiros, a posição do falante ficaria fora da região frontal, em qualquer ponto entre o ouvinte e os alto-falantes frontais ou, em casos extremos, até mesmo atrás do ouvinte. Isto resultaria em uma experiência sonora muito perturbadora, em particular quando os sinais de áudio são apresentados simultaneamente a sinais visuais, como ocorre, por exemplo, em filmes. Assim, muitas trilhas sonoras multicanais de filmes contêm pouquíssimos componentes de voz nos canais traseiros. De acordo com a invenção, os componentes de sinal de voz são detectados e suprimidos quando for apropriado.

Configurações preferidas da presente invenção serão detalhadas subsequentemente, com referência aos desenhos anexos, nos quais: A Fig. 1 mostra um diagrama em bloco de uma configuração da presente invenção; A Fig. 2 mostra uma associação das seções de tempo/frequência de um sinal de análise e um canal de ambiência ou sinal de entrada para discussão das "seções correspondentes"; A Fig. 3 mostra modificação de sinal de ambiência de acordo com uma configuração preferida da presente invenção; A Fig. 4 mostra cooperação entre um detector de voz e um modificador de sinal de ambiência de acordo com outra configuração da presente invenção; A Fig. 5a mostra um cenário de reprodução estéreo incluindo fontes diretas (instrumentos de percussão) e componentes difusos; A Fig. 5b mostra um cenário de reprodução multicanal onde todas as fontes diretas de som são reproduzidas pelos canais frontais e os componentes difusos são reproduzidos por todos os canais, sendo que este cenário também é denominado conceito de ambiência direta; A Fig. 5c mostra um cenário de reprodução multicanal onde fontes discretas de som podem também, pelo menos parcialmente, ser reproduzidas pelos canais traseiros, e onde canais de ambiência não são reproduzidos pelos alto-falantes traseiros, ou em uma menor escala que na Fig. 5b; A Fig. 6a mostra outra configuração que inclui detecção de voz no canal de ambiência e modificação do canal de ambiência; A Fig. 6b mostra uma configuração que inclui detecção de voz no sinal de entrada e modificação do canal de ambiência; A Fig. 6c mostra uma configuração que inclui detecção de voz no sinal de entrada e modificação do sinal de entrada; A Fig. 6d mostra outra configuração que inclui detecção de voz no sinal de entrada e modificação do sinal de ambiência, sendo que a modificação está especialmente sintonizada à voz; A Fig. 7 mostra uma configuração que inclui cálculo de fator de amplificação faixa após faixa, com base em um sinal de passagem de faixa/sinal de subfaixa; e A Fig. 8 mostra uma ilustração detalhada de um bloco de cálculo de amplificação da Fig. 7. A Fig. 1 mostra um diagrama em bloco de um dispositivo para gerar um sinal multicanal 10, que é mostrado na Fig. 1, incluindo um canal esquerdo L, um canal direito R, um canal central C, um canal LFE, um canal traseiro esquerdo LS e um canal traseiro direito RS. Salienta-se que a presente invenção, no entanto, também é apropriada para qualquer representação que não seja a representação 5.1 selecionada aqui, como por exemplo, uma representação 7.1 ou até mesmo uma representação 3.0, onde somente um canal esquerdo, um canal direito e um canal central são gerados aqui. O sinal multicanal 10 que inclui, por exemplo, seis canais mostrados na Fig. 1 é gerado a partir de um sinal de entrada 12 ou "x", incluindo alguns canais de entrada, sendo o número de canais de entrada igual a 1 ou maior que 1 e, por exemplo, igual a 2 quando entra um downmix estéreo. Em geral, porém, o número de canal de saídas é maior que o número de canais de entrada. O dispositivo mostrado na Fig. 1 inclui um upmixer 14 para fazer upmixing do sinal de entrada 12, a fim de gerar pelo menos um canal de sinal direto 15 e um canal de sinal de ambiência 16 ou, talvez, um canal de sinal de ambiência modificado 16' . Além disso, um detector de voz 18 é provido, o qual é implementado para usar o sinal de entrada 12 como sinal de análise, como é provido em 18a, ou para usar o canal de sinal direto 15, como é provido em 18b, ou para usar outro sinal que, em relação à ocorrência temporal/de frequência ou em relação às suas características relacionada a componentes de voz, seja semelhante ao sinal de entrada 12. O detector de voz detecta uma seção do sinal de entrada, do canal direto ou, por exemplo, o canal de ambiência, como está ilustrado em 18c, onde uma porção de voz está presente. Esta porção de voz pode ser uma porção de voz significativa, isto é, por exemplo, uma porção de voz cuja característica foi derivada dependendo de uma determinada medida qualitativa ou quantitativa, sendo que a medida qualitativa e a medida quantitativa excedem um limite que também é denominado limite de detecção de voz.

Com uma medida quantitativa, uma característica de voz é quantizada usando-se um valor numérico, e este valor numérico é comparado a um limite. Com uma medida qualitativa, uma decisão é tomada por seção, onde a decisão pode ser tomada em relação a um ou vários critérios de decisão. Critérios de decisão deste tipo podem ser, por exemplo, diferentes características quantitativas, as quais podem ser comparadas umas com as outras/ponderadas ou processadas de alguma maneira, para se chegar a uma decisão de sim/não. O dispositivo mostrado na Fig. 1 inclui também um modificador de sinal 20 implementado para modificar o sinal de entrada original, como é mostrado em 20a, ou implementado para modificar o canal de ambiência 16. Quando o canal de ambiência 16 é modificado, o modificador de sinal 20 produz um canal de ambiência modificado 21, enquanto quando o sinal de entrada 20a é modificado, um sinal de entrada modificado 20b é produzido para o upmixer 14, o qual gera então o canal de ambiência modificado 16' , como por exemplo pelo mesmo processo de upmixing que foi usado para o canal direto 15. Caso este processo de upmixing, devido ao sinal de entrada modificado 20b, resulte também em um canal direto, este canal direto seria dispensado, pois, de acordo com a invenção, um canal direto que tenha sido derivado do sinal de entrada inalterado 12 (sem supressão de voz) e não o sinal de entrada modificado 20b é usado como canal direto. O modificador de sinal é implementado para modificar seções do pelo menos um canal de ambiência ou o sinal de entrada, onde estas seções podem, por exemplo, ser seções temporais ou de frequência, ou partes de uma resolução ortogonal.

Em particular, as seções correspondentes às seções que foram detectadas pelo detector de voz são modificadas de maneira que o modificador de sinal, como foi ilustrado, gere o canal de ambiência modificado 21, ou o sinal de entrada modificado 20b, no qual uma porção de voz é atenuada ou eliminada, onde a porção de voz foi atenuada em menor escala ou opcionalmente não foi atenuada na seção correspondente do canal direto.

Além disso, o dispositivo mostrado na Fig. 1 inclui um meio de saida de sinal de alto-falante 22 para produzir sinais de alto-falante em um cenário de reprodução, como por exemplo, o cenário 5.1 mostrado como exemplo na Fig. 1, onde, no entanto, um cenário 7.1, um cenário 3.0 ou outro, ou até mesmo um cenário mais alto, também é possível. Em particular, o pelo menos um canal direto e o pelo menos um canal de ambiência modificado são usados para gerar os sinais de alto-falante para um cenário de reprodução, onde o canal de ambiência modificado pode originar-se do modificador de sinal 20, como mostrado em 21, ou do upmixer 14, como mostrado em 16'.

Quando são providos, por exemplo, dois canais de ambiência modificados 21, estes dois canais de ambiência modificados podem ser alimentados diretamente nos dois sinais de alto-falante Ls, Rs, enquanto os canais diretos são alimentados somente nos três alto-falantes frontais L, R, C, de maneira que uma divisão completa tenha ocorrido entre os componentes de sinal de ambiência e os componentes de sinal direto. Os componentes de sinal direto estarão então todos à frente do usuário, e os componentes de sinal de ambiência estarão todos atrás do usuário. Alternativamente, os componentes de sinal de ambiência podem também ser introduzidos nos canais frontais em uma porcentagem menor de maneira típica para que o resultado seja o cenário direto/de ambiência mostrado na Fig. 5b, onde sinais de ambiência não são gerados somente por canais surround, mas também pelos alto-falantes frontais, como por exemplo, L, C, R.

Porém, quando o cenário na faixa é preferido, os componentes do sinal de ambiência serão também principalmente produzidos pelos alto-falantes frontais, como por exemplo, L, R, C, onde os componentes de sinal direto, porém, podem também ser alimentados pelo menos parcialmente nos dois alto-falantes traseiros Ls, Rs. Para que seja possível colocar as duas fontes de sinal direto 1100 e 1102 da Fig. 5c nos locais indicados, a porção da fonte 1100 do alto-falante L será aproximadamente do mesmo tamanho que a do alto-falante Ls, para que a fonte 1100 seja colocada no centro entre L e Ls, de acordo com uma típica regra de panorama. O meio de saída do sinal do alto-falante 22 pode, dependendo da implementação, causar passagem direta por um canal alimentado ao lado de entrada, ou pode mapear os canais de ambiência e canais diretos, como por exemplo, por um conceito na faixa ou por um conceito direto/de ambiência, de maneira que os canais sejam distribuídos aos alto-falantes individuais, e no final as partes dos canais individuais possam ser somadas para gerar o sinal de alto-falante real. A Fig. 2 mostra uma distribuição de tempo/frequência de um sinal de análise na parte superior, e de um canal de ambiência ou sinal de entrada na parte inferior. Em particular, o tempo plotado ao longo do eixo horizontal e a frequência é plotada ao longo do eixo vertical. Isto significa que na Figura 2, para cada sinal 15, existem blocos de tempo/frequência ou seções de tempo/frequência que têm o mesmo número, tanto no sinal de análise como no canal de ambiência/sinal de entrada. Isto significa que o modificador de sinal 20, por exemplo, quando o detector de voz 18 detecta um sinal de voz na parte 22, processará a seção do sinal de canal de ambiência/sinal de entrada de alguma maneira, como por exemplo, atenuando, eliminando completamente ou substituindo-o por um sinal de síntese que não inclui uma característica de voz. Deve-se enfatizar que, na presente invenção, a distribuição não precisa ser tão seletiva quanto mostra a Fig. 2. Ao invés disso, a detecção temporal pode já prover um efeito satisfatório, onde for detectado que uma determinada seção temporal do sinal de análise, por exemplo, do segundo 2 ao segundo 2.1, contém um sinal de voz, para então processar a seção do canal de ambiência ou sinal de entrada, também entre o segundo 2 e o segundo 2.1, para se obter a supressão de voz.

Alternativamente, uma resolução ortogonal pode também ser realizada, como por exemplo, através de uma análise de componente de princípio, onde neste caso será usada a mesma distribuição de componente, tanto no canal de ambiência ou sinal de entrada como no sinal de análise. Determinados componentes detectados no sinal de análise como componentes de voz são atenuados ou suprimidos completamente ou eliminados no canal de ambiência ou sinal de entrada. Dependendo da implementação, uma seção será detectada no sinal de análise, sendo que esta seção não será necessariamente processada no sinal de análise mas, talvez, também em um outro sinal. Ά Fig. 3 mostra uma implementação de um detector de voz em cooperação com um modificador de canal de ambiência, sendo que o detector de voz provê somente informações de tempo, isto é, quando se olha para a Fig. 2, identifica-se somente, de uma maneira de banda larga, o primeiro, segundo, terceiro, quarto ou quinto intervalo de tempo, e comunica-se esta informação ao modificador de canal de ambiência 20 através de uma linha de controle 18d (Fig. 1) . O detector de voz 18 e o modificador de canal de ambiência 20 que funcionam sincronicamente, ou funcionam de maneira armazenada, obtêm juntos o sinal de voz ou componente de voz a ser atenuado no sinal a ser modificado, o qual pode ser, por exemplo, o sinal 12 ou o sinal 16, enquanto garante-se que essa atenuação da Seção correspondente não ocorrerá no canal direto, ou somente em menor escala. Dependendo da implementação, isto pode também ser obtido pelo upmixer 14 funcionando sem considerar os componentes de voz, como por exemplo, em um método de matriz ou em um outro método que não execute processamento de voz especial. O sinal direto obtido desta maneira é então alimentado ao meio de saída 22 sem processamento adicional, enquanto o sinal de ambiência é processado em relação á supressão de voz.

Alternativamente, quando o modificador de sinal submete o sinal de entrada à supressão de voz, o upmixer 14 pode de certa maneira funcionar duas vezes, para extrair o componente de canal direto com base no sinal de entrada original por um lado, mas também extrair o canal de ambiência modificado 16' , com base no sinal de entrada modificado 20b. O mesmo algoritmo de upmixing ocorrería duas vezes, porém, usando-se um outro respectivo sinal de entrada, onde o componente de voz é atenuado no sinal de entrada e o componente de voz não é atenuado no outro sinal de entrada.

Dependendo da implementação, o modificador de canal de ambiência apresenta uma funcionalidade de atenuação de banda larga, ou uma funcionalidade de filtração de alta frequência, como será explicado subsequentemente.

Subsequentemente, diferentes implementações do dispositivo inventivo serão explicadas com referência às Figs. 6a, 6b, 6c e 6d.

Na Fig. 6a, o sinal de ambiência a é extraído do sinal de entrada x, sendo que esta extração é parte da funcionalidade do upmixer 14. A voz que ocorre no sinal de ambiência a é detectada. O resultado da detecção d é usado no modificador de canal de ambiência 20, calculando-se o sinal de ambiência modificado 21, no qual porções de voz são suprimidas. A Fig. 6b mostra uma configuração que difere da Fig 6a pelo fato de que o sinal de entrada, e não o sinal de ambiência, é alimentado ao detector de voz 18 como sinal de análise 18a. Em particular, o sinal de canal de ambiência modificado as é calculado de maneira semelhante à configuração da Figura 6a, porém, a voz no sinal de entrada é detectada. Isto pode ser explicado pelo fato de que os componentes de voz são em geral mais fáceis de serem encontrados no sinal de entrada x que no sinal de ambiência a. Assim, pode-se obter uma melhor confiabilidade com a configuração mostrada na Fig. 6b.

Na Figura 6c, o sinal de ambiência modificado por voz as é extraído de uma versão xs do sinal de entrada que já foi submetido a supressão de sinal de voz. Como os componentes de voz em x são tipicamente mais proeminentes que em um sinal de ambiência extraído, eles podem ser suprimidos de uma maneira que seja segura e mais duradoura que na Fig. 6a. A desvantagem da configuração mostrada na Fig. 6c em comparação à configuração da Fig. 6a é que potenciais artefatos de supressão de voz e do processo de extração de ambiência podem, dependendo do tipo do método de extração, ser agravados. No entanto, na Fig. 6c, a funcionalidade do extrator de canal de ambiência 14 é usada somente para extrair o canal de ambiência do sinal de áudio modificado. Porém, o canal direto não é extraído do sinal de áudio modificado xs (20b) , mas sim com base no sinal de entrada original x (12) .

Na configuração mostrada na Fig. 6d, o sinal de ambiência a é extraído do sinal de entrada x pelo upmixer. A voz que ocorre no sinal de entrada x é detectada. Além disso, informações laterais adicionais e, que também controlam a funcionalidade do modificador do canal de ambiência 20 são calculadas por um analisador de voz 30. Estas informações laterais são calculadas diretamente a partir do sinal de entrada, e podem ser a posição de componentes de voz em uma representação de tempo/frequência, por exemplo, na forma de um espectrograma da Fig. 2, ou podem ser outras informações adicionais que serão explicadas em mais detalhes abaixo. A funcionalidade do detector de voz 18 será detalhada abaixo. O objetivo da detecção de voz é analisar uma mistura de sinais de áudio para estimar uma probabilidade de a voz estar presente. O sinal de entrada pode ser um sinal que pode ser composto de uma pluralidade de diferentes tipos de sinais de áudio, por exemplo, de um sinal de música, de ruído ou de efeitos de tom especiais, como os conhecidos através de filmes. Uma maneira de detectar a voz é empregar-se um sistema de reconhecimento de padrão. Reconhecimento de padrão significa analisar dados brutos e fazer um processamento especial, com base em uma categoria de um padrão que tenha sido descoberto nos dados brutos. Em particular, o termo "padrão" descreve uma semelhança subjacente a ser encontrada entre as medições de objetos de categorias (classes) iguais. As operações básicas de um sistema de reconhecimento de padrão são detecção, isto é, registro de dados usando-se um conversor, pré-processamento, extração de recursos e classificação, onde estas operações básicas podem ser realizadas na ordem indicada.

Em geral, microfones são usados como sensores para um sistema de detecção de voz. A preparação pode ser conversão A/D, reamostragem ou redução de ruído. Extrair recursos significa calcular recursos característicos para cada objeto a partir das medições. Os recursos são selecionados de maneira a serem semelhantes entre objetos da mesma classe, isto é, de maneira que seja obtida uma boa compactação intraclasses, e de maneira que sejam diferentes para objetos de diferentes classes, para que possa ser obtida separabilidade interclasses. Um terceiro requisito é que os recursos devem ser robustos em relação a ruído, condições de ambiência e transformações do sinal de entrada irrelevantes para a percepção humana. Extrair as características pode ser dividido em dois estágios separados. O primeiro estágio é calcular os recursos e o segundo estágio é projetar ou transformar os recursos em uma base em geral ortogonal, para minimizar uma correlação entre vetores de característica e reduzir a dimensionalidade de recursos não utilizando elementos de energia baixa.

Classificação é o processo de decidir se há voz ou não, com base nos recursos extraídos e um classif icador treinado. A equação a seguir é dada: Ωχγ ={(ΧηΤι)ν.·,(χ/,^ζ)},Χ, e9J”,yeY = {l,...,c} Na equação acima, uma quantidade de vetores de treinamento Ωχγ é definida, sendo os vetores de recurso mencionados como Xi e o conjunto de classes por Y. Isto significa que para detecção básica de voz, Y tem dois valores, a saber (voz, não- voz) .

Na fase de treinamento, os recursos xy são calculados a partir de dados designados, isto é, sinais de áudio dos quais sabe-se a qual classe y eles pertencem. Após terminar o treinamento, o classificador terá aprendido os recursos de todas as classes.

Na fase de aplicação do classif icador, os recursos são calculados e projetados a partir dos dados desconhecidos, como na fase de treinamento, e classificados pelo classificador com base no conhecimento sobre os recursos das classes, conforme aprendido no treinamento.

Implementações especiais de supressão de voz, como pode ser, por exemplo, realizado pelo modificador de sinal 20, serão detalhadas abaixo. Assim, diferentes métodos podem ser empregados para suprimir a voz em um sinal de áudio. Existem métodos que não são conhecidos no campo de amplificação de voz e redução de ruído para aplicações de comunicação. Originalmente, métodos de amplificação de voz foram usados para amplificar a voz em uma mistura de voz e ruído de fundo. Métodos deste tipo podem ser modificados de maneira a causar o contrário, a saber, a supressão da voz, como é feito na presente invenção.

Existem abordagens de solução para amplificação de voz e redução de ruído que atenuam ou amplificam os coeficientes de uma representação tempo/frequência de acordo com um valor estimado do grau de ruído contido nesse tipo de coeficiente de tempo/frequência. Quando não é conhecida nenhuma informação adicional sobre o ruído de fundo, como por exemplo, informações a priori ou informações medidas por um sensor de ruído especial, uma representação de tempo/frequência é obtida a partir de uma medição infestada por ruído, por exemplo, usando- se métodos estatísticos mínimos especiais. Uma regra de supressão de ruído calcula um fator de atenuação usando os valores de ruído estimados. Este princípio é conhecido como atenuação espectral de curto prazo, ou ponderação espectral, como é conhecido, por exemplo, em G. Schmid, "Single-channel noise suppression based on spectral weighting", Eurasip Newsletter 2004. Subtração espectral, Filtragem de Wiener e o algoritmo de Ephraim-Maiah são métodos de processamento de sinal que funcionam de acordo com o princípio de atenuação espectral de curto prazo (STSA). Uma formulação mais generalizada da abordagem de STSA resulta em um método de sub-espaço de sinal, que também é conhecido como método de classe reduzida, e está descrito em P. Hansen and S. Jensen, "Fir filter representation of reduced-rank noise reduction", IEEE TSP, 1998.

Em princípio, todos os métodos que amplificam a voz ou suprimem componentes de não-voz podem, em uma maneira invertida de uso em relação ao seu uso conhecido, ser usados para suprimir voz e/ou amplificar não-voz. O modelo geral de amplificação de voz ou supressão de ruído é o fato de que o sinal de entrada é uma mistura de um sinal desejado (voz) e o ruído de fundo (não-voz). Consegue-se suprimir a voz, por exemplo, invertendo-se os fatores de atenuação em um método baseado em STSA, ou trocando-se as definições do sinal desejado e do ruído de fundo.

No entanto, um requisito importante na supressão de voz é que, em relação ao contexto de upmixing, o sinal de áudio resultante é percebido como um sinal de áudio de alta qualidade de áudio. É sabido que métodos de aperfeiçoamento de voz e métodos de redução de ruído introduzem artefatos audíveis no sinal de saída.

Um exemplo de artefatos deste tipo é conhecido como ruído musical ou tons musicais, e resulta de uma estimativa predisposta a erro de ruídos mínimos e fatores de atenuação de sub-faixa variáveis.

Alternativamente, métodos de separação de fonte cega podem também ser usados para separar as porções de sinal de voz do sinal ambiente, e para subsequentemente manipulá-las separadamente.

No entanto, determinados métodos, os quais são detalhados subsequentemente, são preferidos para o requisito especial de gerar sinais de áudio de alta qualidade, devido ao fato de que, em comparação a outros métodos, eles são consideravelmente melhores. Um dos métodos é a atenuação de banda larga, como indica a Fig. 3 em 20. O sinal de áudio é atenuado a intervalos de tempo onde existe voz. Os fatores de amplificação especiais estão em uma faixa entre -12 dB e -3 dB, estando uma atenuação preferida em 6 decibéis. Como outros componentes/partes de sinal podem também ser suprimidos, pode-se pressupor que toda a perda de energia do sinal de áudio é percebida claramente. Porém, descobriu-se que este efeito não é perturbador, pois o usuário concentra-se em particular nos alto-falantes frontais L, C, R de qualquer maneira, quando uma sequência de voz se inicia, de maneira que o usuário não experimentará a redução de energia dos canais traseiros, nem o sinal de ambiência, quando estiver concentrado em um sinal de voz. Isto é particularmente reforçado pelo efeito típico adicional que o nível de sinal de áudio aumentará de qualquer maneira, devido ao início da voz. Ao introduzir uma atenuação em uma faixa entre -12 decibéis e 3 decibéis, a atenuação não é experimentada como perturbadora. Ao invés disso, o usuário a considerará consideravelmente mais agradável e, devido à supressão de componentes de voz nos canais traseiros, é obtido um efeito que resulta nos componentes de voz sendo posicionados exclusivamente nos canais frontais para o usuário.

Um método alternativo que também é indicado nas Figs. 3 em 20, é a filtragem de alta frequência. O sinal de áudio é submetido à filtragem de alta frequência onde existe voz, onde uma frequência de corte está em uma faixa entre 600 Hz e 3000 Hz. 0 ajuste para a frequência de corte resulta da característica de sinal da voz em relação à presente invenção. O espectro de potência de longo prazo de um sinal de voz é concentrado em uma faixa abaixo de 2,5 kHz. A faixa preferida da frequência fundamental de voz manifestada está em uma faixa entre 75 Hz e 330 Hz. Uma faixa entre 60 Hz e 250 Hz funciona para adultos do sexo masculino. Os valores médios para falantes do sexo masculino ficam em 120 Hz, e para falantes do sexo feminino, em 215 Hz. Devido à ressonância no trato vocal, determinadas frequências de sinal são amplificadas. Os picos correspondentes do espectro também são denominados frequências de formato, ou simplesmente formantes.

Tipicamente, existem aproximadamente três formantes significativos abaixo de 3500 Hz. Consequentemente, a voz apresenta uma natureza 1/F, isto é, a energia espectral diminui com uma frequência maior.

Assim, para os propósitos da presente invenção, os componentes de voz podem ser filtrados bem por filtragem de alta frequência, incluindo a faixa de frequência de corte indicada.

Outra implementação preferida é a modelagem sinoidal de sinal, que é ilustrada com referência à Fig. 4. Em uma primeira etapa 40, a onda fundamental de voz é detectada, onde esta detecção pode ser realizada no detector de voz 18 ou, como mostra a Fig. 6e, no analisador de voz 30. Depois disso, na etapa 41, é feita uma análise para descobrir a harmônica que pertence à onda fundamental. Esta funcionalidade pode ser realizada no detector de voz/analisador de voz, ou até mesmo já no modificador de sinal de ambiência. Subsequentemente, é calculado um espectrograma para o sinal de ambiência, com base em uma transformação bloco após bloco, como ilustrado em 42. Subsequentemente, a verdadeira supressão de voz é realizada na etapa 43, atenuando-se a onda fundamental e a harmônica do espectrograma. Na etapa 44, o sinal de ambiência modificado no qual a onda fundamental e a harmônica são atenuadas ou eliminadas é submetido à retransformação, para obtenção do sinal de ambiência modificado ou sinal de entrada modificado.

Esta modelagem sinoidal de sinal é frequentemente empregada para síntese de tom, codificação de áudio, separação de fonte, manipulação de tom e supressão de ruído. Um sinal é representado aqui como um conjunto feito de ondas sinoidais de amplitudes e frequências variáveis no tempo. Componentes de sinal de voz manifestada são manipulados identificando-se e modificando- se os tons parciais, isto é, sua onda e harmônica fundamentais.

Os tons parciais são identificados através de um buscador de tom parcial, como está ilustrado em 41. Tipicamente, é realizada uma busca parcial de tom no domínio de tempo/frequência. É feito um espectrograma através de uma transformada de Fourier de curto prazo, como indicado em 42. Os máximos locais são detectados em cada espetro do espectrograma, e as trajetórias são determinadas por máximos locais de espectros vizinhos. Estimar a frequência fundamental pode dar apoio ao processo de classificação de pico, sendo que esta estimativa da frequência fundamental é feita em 40. Uma representação de sinal sinoidal pode então ser obtida a partir das trajetórias. Deve-se enfatizar que a ordem entre as etapas 40, 41 e etapa 42 podem também variar, de maneira que a transformação 42, que é feita no analisador de voz 30 da Fig. 6d, ocorra primeiro.

Foram sugeridos diferentes desenvolvimentos de derivação de uma representação de sinal sinoidal. Uma abordagem de processamento multi-resolução para redução de ruído está ilustrada em D. Andersen and M. Clements, "Audio signal noise reduction using multi-resolution sinusoidal modeling", Proceedings of ICASSP 1999. Um processo iterativo para derivar a representação sinoidal foi apresentado em J. Jensen and J. Hansen, "Speech enhancement using a constrained iterative sinusoidal model", IEEE TSAP 2001.

Usando-se a representação de sinal sinoidal, é obtido um sinal aperfeiçoado de voz amplificando-se o componente sinoidal. Ά supressão de voz inventiva, no entanto, pretende fazer o contrário, a saber, suprimir os tons parciais, os tons parciais incluindo sua onda fundamental e harmônica, para um segmento de voz incluindo voz manifestada. Tipicamente, componentes de voz de alta energia são de natureza tonal. Assim, a voz está em um nivel de 60-75 decibéis para vogais e aproximadamente 20-30 decibéis mais baixa para consoantes. A excitação de um sinal periódico do tipo de pulso é para voz manifestada (vogais) . O sinal de excitação é filtrado pelo trato vocal. Consequentemente, quase toda a energia de um segmento de voz manifestada é concentrada em sua onda fundamental e harmônica. Ao suprimirem-se estes tons parciais, os componentes de voz são significativamente suprimidos.

Outra maneira de obter supressão de voz está ilustrada nas Figs. 7 e 8. As Figs. 7 e 8 explicam o principio básico de atenuação espectral de curto prazo ou ponderação espectral. Primeiramente, o espectro de densidade de potência do ruído de fundo é estimado. O método ilustrado estima a quantidade de voz contida em um bloco de tempo/frequência, usando os assim chamados recursos de nível baixo, que são uma medida de "semelhança à voz" de um sinal em uma determinada seção de frequência. Recursos de nível baixo são recursos de níveis baixos em relação à interpretação da sua relevância e complexidade de cálculo. O sinal de áudio é quebrado em várias faixas de frequência usando-se um banco de filtros ou uma transformada de Fourier de curto prazo, conforme ilustrado na Figura 7, em 70.

Então, como ilustrado por exemplo em 71a e 71b, são calculados fatores de amplificação variáveis no tempo para todas as sub- faixas de recursos de nível baixo deste tipo, a fim de atenuar sinais de sub-faixa proporcionalmente à quantidade de voz que elas contêm. Recursos de nível baixo adequados são a medida de nivelamento espectral (SFM) e energia de modulação de 4 Hz (4HzME) . A SFM mede o grau de tonalidade de um sinal de áudio e resulta em uma faixa do quociente do valor da média geométrica de todos os valores espectrais de uma faixa e o valor da média aritmética dos componentes espectrais dessa faixa. A 4HzME é motivada pelo fato de que a voz tem um pico de modulação de energia característico de aproximadamente 4 Hz, que corresponde ao índice médio de sílabas de um falante. A Fig. 8 mostra uma ilustração detalhada do bloco de cálculo de amplificação 71a e 71b da Fig. 7. Uma pluralidade de diferentes recursos de nível baixo, isto é, LLF1, ..., LLFn, é calculada, com base em uma sub-faixa xi. Estes recursos são então combinados em um combinador 8 0 para obter-se um fator de amplificação gi para uma sub-faixa.

Deve-se enfatizar que, dependendo da implementação, os recursos de nível baixo não precisam necessariamente ser usados, como por exemplo, recursos de energia, etc., que são então combinados em um combinador, de acordo com a implementação da Fig. 8, para obter-se um fator de amplificação quantitativa gír de maneira que cada faixa (em qualquer momento do tempo) seja atenuada variavelmente para obtenção de supressão de voz.

Dependendo das circunstâncias, o método inventivo pode ser implementado em hardware ou em software. A implementação pode ser feita em um meio de armazenamento digital, em particular em um disco ou CD com sinais de controle que possam ser lidos eletronicamente, o que pode cooperar com um sistema de computador programável de maneira a executar o método. Em geral,a invenção está, portanto, também em um produto programa para computador que inclui um código de programa, armazenado em um portador legível em máquina, para executar o método inventivo quando o produto programa para computador for executado em um computador. Em outras palavras, a invenção pode, portanto, ser realizada em forma de programa de computador com um código de programa para executar o método quando o programa de computador for executado em um computador.

REIVINDICAÇÕES

Claims

1. Dispositivo para gerar um sinal multicanal (10) incluindo um número de sinais de canal de saída maior que um número de sinais de canal de entrada de um sinal de entrada (12), sendo o número de sinais de canal de saída igual a um ou maior, caracterizado pelo fato de que inclui: um upmixer (14) para fazer upmixing do sinal de entrada, incluindo uma porção de voz, a fim de prover pelo menos um sinal de canal direto e pelo menos um sinal de canal de ambiência incluindo uma porção de voz; um detector de voz (18) para detectar uma seção do sinal de entrada, o sinal de canal direto ou o sinal de canal de ambiência no qual a porção de voz ocorre; e um modificador de sinal (20) para modificar uma seção do sinal de canal de ambiência que corresponde à seção que foi detectada pelo detector de voz (18), a fim de obter um sinal de canal de ambiência modificado no qual a porção de voz seja atenuada ou eliminada, sendo a seção do sinal de canal direto atenuada em menor escala ou nem sendo atenuada; e meio de saída de sinal do alto-falante (22) para produzir sinais de alto- falante em um esquema de reprodução, usando o sinal de canal direto e o sinal de canal de ambiência modificado, sendo os sinais de alto-falante os sinais de canal de saída.

2. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que o meio de saída de sinal de alto- falante (22) é implementado para funcionar de acordo com um esquema direto/de ambiência no qual cada canal direto pode ser mapeado para um alto-falante próprio, e todos os sinais de canal de ambiência podem ser mapeados para um alto-falante próprio, sendo o meio de saída de sinal de alto-falante (22) implementado para mapear somente o sinal de canal de ambiência, mas não o canal direto, para sinais de alto-falante de alto-falantes atrás do ouvinte no esquema de reprodução.

3. Dispositivo, de acordo com a reivindicação 1, caracterizado pelo fato de que o meio de saída de sinal do alto- falante (22) é implementado para funcionar de acordo com um esquema na faixa no qual cada sinal de canal direto pode, dependendo de sua posição, ser mapeado para um ou vários alto- falantes, e onde o meio de saída de sinal de alto-falante (22) é implementado para adicionar o sinal de canal de ambiência e o canal direto ou uma porção do sinal de canal de ambiência, ou o canal direto determinado para um alto-falante, para obter um sinal de saída de alto-falante para o alto-falante.

4. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o meio de saída de sinal de alto-falante é implementado para prover sinais de alto-falante a pelo menos três canais, que podem ser colocados à frente do ouvinte no esquema de reprodução, e para gerar pelo menos dois canais que podem ser colocados atrás do ouvinte no esquema de reprodução.

5. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o detector de voz (18) é implementado para funcionar temporalmente de maneira bloco-a-bloco, e para analisar cada bloco temporal faixa-a-faixa, de maneira seletiva pela freqüência, para determinar uma faixa de frequência para um bloco temporal, e onde o modificador de sinal (20) é implementado para modificar uma faixa de frequência nesse bloco temporal do sinal de canal de ambiência que corresponde ao da faixa que foi detectada pelo detector de voz (18).

6. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o modificador de sinal é implementado para atenuar o sinal de canal de ambiência ou partes do sinal de canal de ambiência em um intervalo de tempo que foi detectado pelo detector de voz (18), e onde o upmixer (14) e o meio de saída de sinal de alto-falante (22) são implementados para gerar pelo menos um canal direto, de maneira que o mesmo intervalo de tempo seja atenuado em menor escala ou nem seja atenuado, de modo que o canal direto inclua um componente de voz que, quando reproduzido, possa ser percebido mais forte que um componente de voz no sinal de canal de ambiência modificado.

7. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o modificador de sinal (20) é implementado para submeter o pelo menos um sinal de canal de ambiência à filtragem de alta frequência, quando o detector de voz (18) tiver detectado um intervalo de tempo no qual existe uma porção de voz, estando uma frequência de corte do filtro de alta frequência entre 400 Hz e 3.500 Hz.

8. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o detector de voz (18) é implementado para detectar a ocorrência temporal de um componente de sinal de voz, e onde o modificador de sinal (20) é implementado para encontrar uma frequência fundamental do componente de sinal de voz, e para atenuar (43) tons no sinal de canal de ambiência ou no sinal de entrada seletivamente na frequência fundamental e harmônica, para obter o sinal de canal de ambiência modificado ou o sinal de entrada modificado.

9. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o detector de voz (18) é implementado para encontrar uma medida de teor de voz por faixa de frequência, e onde o modificador de sinal (20) é implementado para atenuar (72a, 72b), por um fator de atenuação, uma faixa correspondente do sinal de canal de ambiência de acordo com a medida, sendo que uma medida mais alta resulta em um fator de atenuação mais alto e uma medida mais baixa resulta em um fator de atenuação mais baixo.

10. Dispositivo, de acordo com a reivindicação 9, caracterizado pelo fato de que o modificador de sinal (20) inclui: um conversor de domínio de tempo-frequência (70) para converter o sinal de ambiência em uma representação espectral; um atenuador (72a, 72b) para atenuação com seleção de frequência e variavelmente da representação espectral; e um conversor de domínio frequência- tempo (73) para converter a representação espectral variavelmente atenuada no domínio de tempo, para obter o sinal de canal de ambiência modificado.

11. Dispositivo, de acordo com a reivindicação 9 ou 10, caracterizado pelo fato de que o detector de voz (18) inclui: um conversor de domínio frequência-tempo (42), para prover uma representação espectral de um sinal de análise; meio para calcular um ou vários recursos (71a, 71b) por faixa do sinal de análise; e meio (80) para calcular uma medida de teor de voz com base em uma combinação de um ou vários recursos por faixa.

12. Dispositivo, de acordo com a reivindicação 11, caracterizado pelo fato de que o modificador de sinal (20) é implementado para calcular como recursos uma medida de nivelamento espectral (SFM), ou uma energia de modulação de 4 Hz (4HzME).

13. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o detector de voz (18) é implementado para analisar o sinal de canal de ambiência (18c), e onde o modificador de sinal (20) é implementado para modificar o sinal do canal de ambiência (16).

14. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que o detector de voz (18) é implementado para analisar o sinal de entrada (18a), e onde o modificador de sinal (20) é implementado para modificar o sinal de canal de ambiência (16), com base em informações de controle (18d) do detector de voz (18).

15. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que o detector de voz (18) é implementado para analisar o sinal de entrada (18a), e onde o modificador de sinal (20) é implementado para modificar o sinal de entrada com base em informações de controle (18d) do detector de voz (18), e onde o upmixer (14) inclui um extrator de canal de ambiência que é implementado para encontrar o sinal de canal de ambiência modificado (16'), com base no sinal de entrada modificado, sendo o upmixer (14) também implementado para encontrar o sinal de canal direto (15) com base no sinal de entrada (12) na entrada do modificador de sinal (20).

16. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que o detector de voz (18) é implementado para analisar o sinal de entrada (18a), onde é provido também um analisador de voz (30), para submeter o sinal de entrada a uma análise de voz; e onde o modificador de sinal (20) é implementado para modificar o sinal de canal de ambiência (16) com base em informações de controle (18d) do detector de voz (18) e com base nas informações de análise de voz (18e) do analisador de voz (30).

17. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o upmixer (14) é implementado como decodificador de matriz.

18. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o upmixer (14) é implementado como um upmixer cego que gera o sinal de canal direto (15), o sinal de canal de ambiência (16), somente com base no sinal de entrada (12), mas sem informações adicionais transmitidas de upmix.

19. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o upmixer (14) é implementado para executar análise estatística do sinal de entrada (12), para gerar o sinal de canal direto (15), o sinal de canal de ambiência (16).

20. Dispositivo, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o sinal de entrada é um mono-sinal que inclui um canal, e onde o sinal de saída é um sinal multicanal que inclui dois ou mais sinais de canal.

21. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 19, caracterizado pelo fato de que o upmixer (14) é implementado para obter um sinal estéreo incluindo dois sinais de canal estéreo como sinal de entrada, e onde o upmixer (14) também é implementado para realizar o sinal de canal de ambiência (16) com base em um cálculo de correlação cruzada dos sinais de canal estéreo.

22. Método para gerar um sinal multicanal (10), incluindo um número de sinais de canal de saída maior que um número de sinais de canal de entrada de um sinal de entrada (12), sendo o número de sinais de canal de entrada igual a um ou maior, caracterizado pelo fato de que incluir as etapas de: upmixing (14) do sinal de entrada para prover pelo menos um sinal de canal direto e pelo menos um sinal de canal de ambiência; detecção (18) de uma seção do sinal de entrada, do sinal de canal direto ou do sinal do canal de ambiência no qual ocorre uma porção de voz; e modificação (20) de uma seção do sinal de canal de ambiência que corresponde à seção que foi detectada na etapa de detecção (18), para obter um canal de ambiência modificado no qual a porção de voz seja atenuada ou eliminada, sendo que a seção do sinal de canal direto é atenuada em menor escala ou nem é atenuada; e produção (22) de sinais de alto-falante em um esquema de reprodução usando-se o sinal de canal direto e de canal de ambiência modificado, sendo os sinais de alto-falante os sinais do canal de saída.