HK1218018B

HK1218018B - Low-frequency emphasis for lpc-based coding in frequency domain

Info

Publication number: HK1218018B
Application number: HK16105887.7A
Authority: HK
Inventors: Stefan DÖHLA; Bernhard Grill; Christian Helmrich; Nikolaus Rettelbach
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2018-04-20

Claims

Codeur audio pour coder un signal audio non vocal (AS) de manière à produire à partir de ce dernier un flux binaire (BS), le codeur audio (1) comprenant:
une combinaison (2, 3) d'un filtre de codage prédictif linéaire (2) présentant une pluralité de coefficients de codage prédictifs linéaires (LC) et d'un convertisseur temps-fréquence (3), où la combinaison (2, 3) est configurée pour filtrer et convertir une trame (FI) du signal audio (AS) en un domaine fréquentiel pour sortir un spectre (SP) sur base de la trame (FI) et des coefficients de codage prédictifs linéaires (LC);

un moyen d'accentuation de basses fréquences (4) configuré pour calculer un spectre traité (PS) sur base du spectre (SP), où les lignes spectrales (SL) du spectre traité (PS) représentant une fréquence plus basse qu'une ligne spectrale de référence (RSL) sont accentuées;

un dispositif de commande (5) configuré pour commander le calcul du spectre traité (PS) par le moyen d'accentuation de basses fréquences (4) en fonction des coefficients de codage prédictifs linéaires (LC) du filtre de codage prédictif linéaire (2);

un dispositif de quantification (6) configuré pour produire un spectre quantifié (QS) sur base du spectre traité (PS);

et un producteur de flux binaire (7) configuré pour incorporer le spectre quantifié (QS) et les coefficients de codage prédictifs linéaires (LC) dans le flux binaire (BS).
Codeur audio selon la revendication précédente, dans lequel la trame (FI) du signal audio (AS) est entrée dans le filtre de codage prédictif linéaire (2), dans lequel une trame filtrée (FF) est sortie par le filtre de codage prédictif linéaire (2) et dans lequel le convertisseur temps-fréquence (3) est configuré pour estimer le spectre (SP) sur base de la trame filtrée (FF).
Codeur audio selon la revendication 1, dans lequel la trame (FI) du signal audio (AS) est entrée dans le convertisseur temps-fréquence (3), dans lequel une trame convertie (FC) est sortie par le convertisseur temps-fréquence (3) et dans lequel le filtre de codage prédictif linéaire (2) est configuré pour estimer le spectre (SP) sur base de la trame convertie (FC).
Codeur audio selon l'une des revendications précédentes, dans lequel le dispositif de commande (5) comprend un analyseur spectral (8) configuré pour estimer une représentation spectrale (SR) des coefficients de codage prédictifs linéaires (LC), un analyseur de minimum-maximum (9) configuré pour estimer un minimum (MI) de la représentation spectrale (SR) et un maximum (MA) de la représentation spectrale (SR) au-dessous d'une autre ligne spectrale de référence et un calculateur de facteurs d'accentuation (10, 11) configuré pour calculer des facteurs d'accentuation de ligne spectrale (SEF) pour calculer les lignes spectrales (SL) du spectre traité (PS) représentant une fréquence plus basse que la ligne spectrale de référence (RSL) sur base du minimum (MI) et du maximum (MA), dans lequel les lignes spectrales (SL) du spectre traité (PS) sont accentuées en appliquant les facteurs d'accentuation de ligne spectrale (SEF) aux lignes spectrales du spectre de la trame filtrée.
Codeur audio selon la revendication 4, dans lequel le calculateur de facteur d'accentuation (10, 11) est configuré de sorte que les facteurs d'accentuation de ligne spectrale (SEF) augmentent dans une direction allant de la ligne spectrale de référence (RSL) à la ligne spectrale (SL) représentant la fréquence la plus basse du spectre (SP).
Codeur audio selon la revendication 4 ou 5, dans lequel le calculateur de facteur d'accentuation (10, 11) comprend un premier étage (10) configuré pour calculer un facteur d'accentuation de base (BEF) selon une première formule y = (α · min/max) ^β, où α est une première valeur préréglée, avec α > 1, β est une deuxième valeur préréglée, avec 0 <β ≤ 1, min est le minimum (MI) de la représentation spectrale (SR), max est le maximum (MA) de la représentation spectrale (SR) et y est le facteur d'accentuation de base (BEF), et dans lequel le calculateur de facteur d'accentuation (10, 11) comprend un deuxième étage (11) configuré pour calculer des facteurs d'accentuation de ligne spectrale (SEF) selon une deuxième formule ε _i = y^i'-i, où i 'est un nombre des lignes spectrales (SL) à accentuer, i est un indice de la ligne spectrale respective (SL), l'indice augmentant avec les fréquences des lignes spectrales, avec i = 0 à i'-1, y est le facteur d'accentuation de base (BEF) et ε _i est le facteur d'accentuation de ligne spectrale (SEF) à l'indice i.
Codeur audio selon la revendication 6, dans lequel la première valeur préréglée est inférieure à 42 et supérieure à 22, en particulier inférieure à 38 et supérieure à 26, plus particulièrement inférieure à 34 et supérieure à 30.
Codeur audio selon la revendication 6 ou 7, dans lequel la deuxième valeur préréglée est déterminée selon la formule β = 1 / (θ · i '), où i' est le nombre de lignes spectrales accentuées, θ est un facteur entre 3 et 5, en particulier entre 3,4 et 4,6, plus particulièrement entre 3,8 et 4,2.
Codeur audio selon l'une des revendications précédentes, dans lequel la ligne spectrale de référence (RSL) représente une fréquence entre 600 Hz et 1000 Hz, en particulier entre 700 Hz et 900 Hz, plus particulièrement entre 750 Hz et 850 Hz.
Codeur audio selon l'une des revendications 4 à 9, dans lequel l'autre ligne spectrale de référence représente la même fréquence ou une fréquence plus élevée que la ligne spectrale de référence (RSL).
Codeur audio selon l'une des revendications précédentes, dans lequel le dispositif de commande (5) est configuré de sorte que les lignes spectrales (SL) du spectre traité (PS) représentant une fréquence plus basse que la ligne spectrale de référence (RSL) soient accentuées uniquement si le maximum (MA) est inférieur au minimum (MI) multiplié par la première valeur préréglée.
Décodeur audio pour décoder un flux binaire (BS) sur base d'un signal audio non vocal (AS) pour produire à partir du flux binaire (BS) un signal de sortie audio non vocal (OS), en particulier pour décoder un flux binaire (BS) produit par un codeur audio (1) selon les revendications 1 à 11, le flux binaire (BS) contenant des spectres quantifiés (QS) et une pluralité de coefficients de codage prédictifs linéaires (LC), le décodeur audio (12) comprenant:
un récepteur de flux binaire (13) configuré pour extraire le spectre quantifié (QS) et les coefficients de codage prédictifs linéaires (LC) du flux binaire (BS);

un dispositif de déquantification (14) configuré pour produire un spectre déquantifié (DQ) sur base du spectre quantifié (QS);

un moyen de désaccentuation de basses fréquences (15) configuré pour calculer un spectre traité inverse (RS) sur base du spectre déquantifié (DQ), où les lignes spectrales (SLD) du spectre traité inverse (RS) représentant une fréquence plus basse que la ligne spectrale de référence (RSLD) sont désaccentuées; et

un dispositif de commande (16) configuré pour commander le calcul du spectre traité inverse (RS) par le moyen de désaccentuation de basses fréquences (15) en fonction des coefficients de codage prédictifs linéaires (LC) contenus dans le flux binaire (BS).
Décodeur audio selon la revendication précédente, dans lequel le décodeur audio (12) comprend une combinaison (17, 18) d'un convertisseur fréquence-temps (17) et d'un filtre de codage prédictif linéaire inverse (18) recevant la pluralité de coefficients de codage prédictifs linéaires (LC) contenus dans le flux binaire (BS), dans lequel la combinaison (17, 18) est configurée pour filtrer inversement et convertir le spectre traité inverse (RS) en un domaine temporel pour sortir le signal de sortie (OS) sur base du spectre traité inverse (RS) et des coefficients de codage prédictifs linéaires (LC).
Décodeur audio selon la revendication précédente, dans lequel le convertisseur fréquence-temps (17) est configuré pour estimer un signal temporel (TS) sur base du spectre traité inverse (RS) et dans lequel le filtre de codage prédictif linéaire inverse (18) est configuré pour sortir le signal de sortie (OS) sur base du signal temporel (TS).
Décodeur audio selon la revendication 13, dans lequel le filtre de codage prédictif linéaire inverse (18) est configuré pour estimer un signal filtré inverse (IFS) sur base du spectre traité inverse (RS) et dans lequel le convertisseur fréquence-temps (17) est configuré pour sortir le signal de sortie (OS) sur base du signal filtré inverse (IFS).
Décodeur audio selon l'une des revendications 12 à 15, dans lequel le dispositif de commande (16) comprend un analyseur spectral (19) configuré pour estimer une représentation spectrale (SR) des coefficients de codage prédictifs linéaires (LC), un analyseur de minimum-maximum (20) configuré pour estimer un minimum (MI) de la représentation spectrale (SR) et un maximum (MA) de la représentation spectrale (SR) au-dessous d'une autre ligne spectrale de référence et un calculateur de facteurs de désaccentuation (21, 22) configuré pour calculer des facteurs de désaccentuation de ligne spectrale (SDF) pour calculer les lignes spectrales (SLD) du spectre traité inverse (RS) représentant une fréquence plus basse que la ligne spectrale de référence (RSLD) sur base du minimum (MI) et du maximum (MA), dans lequel les lignes spectrales (SLD) du spectre traité inverse (RS) sont désaccentuées en appliquant les facteurs de désaccentuation de ligne spectrale (SDF) aux lignes spectrales du spectre déquantifié (DQ).
Décodeur audio selon la revendication précédente, dans lequel le calculateur de facteurs de désaccentuation (21, 22) est configuré de sorte que les facteurs de désaccentuation de ligne spectrale (SDF) diminuent dans une direction allant de la ligne spectrale de référence (RSLD) à la ligne spectrale (SL) représentant la fréquence la plus basse du spectre traité inverse (RS).
Décodeur audio selon la revendication 16 ou 17, dans lequel le calculateur de facteurs de désaccentuation (21, 22) comprend un premier étage (21) configuré pour calculer un facteur de désaccentuation de base (BDF) selon une première formule δ = (α · min/max) ^-β, où α est une première valeur préréglée, avec α > 1, β est une deuxième valeur préréglée, avec 0 < β ≤ 1, min est le minimum (MI) de la représentation spectrale (SR), max est le maximum (MA) de la représentation spectrale (SR) et δ est le facteur de désaccentuation de base (BDF), et dans lequel le calculateur de facteurs de désaccentuation (21, 22) comprend un deuxième étage (22) configuré pour calculer les facteurs de désaccentuation de ligne spectrale (SDF) selon une deuxième formule ζ _i = δ ^i'-i, où i' est un nombre de lignes spectrales (SLD) à désaccentuer, i est un indice de la ligne spectrale respective (SLD), l'indice augmentant avec les fréquences des lignes spectrales, avec i = 0 à i' -1, δ est le facteur de désaccentuation de base (BDF) et ζ _i est le facteur de désaccentuation de la ligne spectrale (SDF) à l'indice i.
Décodeur audio selon la revendication précédente, dans lequel la première valeur préréglée est inférieure à 42 et supérieure à 22, en particulier inférieure à 38 et supérieure à 26, plus particulièrement inférieure à 34 et supérieure à 30.
Décodeur audio selon la revendication 18 ou 19, dans lequel la deuxième valeur préréglée est déterminée selon la formule β = 1 / (θ · i '), où i' est le nombre de lignes spectrales (SLD) qui sont désaccentuées, θ est un facteur compris entre 3 et 5, en particulier entre 3,4 et 4,6, plus particulièrement entre 3,8 et 4,2.
Décodeur audio selon l'une des revendications 12 à 20, dans lequel la ligne spectrale de référence (RSLD) représente une fréquence comprise entre 600 Hz et 1000 Hz, en particulier entre 700 Hz et 900 Hz, plus particulièrement entre 750 Hz et 850 Hz.
Décodeur audio selon l'une des revendications 16 à 21, dans lequel l'autre ligne spectrale de référence représente la même fréquence ou une fréquence plus élevée que la ligne spectrale de référence (RSLD).
Décodeur audio selon l'une des revendications 12 à 22, dans lequel le dispositif de commande (16) est configuré de sorte que les lignes spectrales (SLD) du spectre traité inverse (RS) représentant une fréquence plus basse que la ligne spectrale de référence (RSLD) soient désaccentuées uniquement si le maximum (MA) est inférieur au minimum (MI) multiplié par la première valeur préréglée.
Système comprenant un décodeur (12) et un codeur (1), dans lequel le codeur (1) est conçu selon l'une des revendications 1 à 11 et/ou le décodeur est conçu selon l'une des revendications 12 à 23.
Procédé de codage d'un signal audio non vocal (AS) de manière à produire à partir de ce dernier un flux binaire (BS), le procédé comprenant les étapes consistant à:
filtrer par un filtre de codage prédictif linéaire (2) présentant une pluralité de coefficients de codage prédictifs linéaires (LC) et convertir une trame (FI) du signal audio (AS) en un domaine fréquentiel pour sortir un spectre (SP) sur base de la trame (FI) et des coefficients de codage prédictifs linéaires (LC);

calculer un spectre traité (PS) sur base du spectre (SP), où les lignes spectrales (SL) du spectre traité (PS) représentant une fréquence plus basse qu'une ligne spectrale de référence (RSL) sont accentuées; et

commander le calcul du spectre traité (PS) en fonction des coefficients de codage prédictifs linéaires (LC) du filtre de codage prédictif linéaire (2);

produire un spectre quantifié (QS) sur base du spectre traité (PS); et

incorporer le spectre quantifié (QS) et les coefficients de codage prédictifs linéaires (LC) dans le flux binaire (BS).
Procédé de décodage d'un flux binaire (BS) sur base d'un signal audio non vocal (AS) de manière à produire à partir du flux binaire (BS) un signal de sortie audio non vocal (OS), en particulier pour décoder un flux binaire (BS) produit par le procédé selon la revendication précédente, le flux binaire (BS) contenant des spectres quantifiés (QS) et une pluralité de coefficients de codage prédictifs linéaires (LC), le procédé comprenant les étapes consistant à:
extraire le spectre quantifié (QS) et les coefficients de codage prédictifs linéaires (LC) du flux binaire (BS);

produire un spectre déquantifié (DQ) sur base du spectre quantifié (QS);

calculer un spectre traité inverse (RS) sur base du spectre déquantifié (DQ), où les lignes spectrales (SLD) du spectre traité inverse (RS) représentant une fréquence plus basse qu'une ligne spectrale de référence (RSLD) sont désaccentuées; et commander le calcul du spectre traité inverse (RS) en fonction des coefficients de codage prédictifs linéaires (LC) contenus dans le flux binaire (BS).
Programme d'ordinateur pour réaliser, lorsqu'il est exécuté sur un ordinateur ou un processeur, le procédé selon la revendication 25 ou 26.