RU2016119010A

RU2016119010A - Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра

Info

Publication number: RU2016119010A
Application number: RU2016119010A
Authority: RU
Inventors: Гийом ФУКС; Маркус МУЛЬТРУС; Эммануэль РАВЕЛЛИ; Маркус ШНЕЛЛЬ
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2013-10-18
Filing date: 2014-10-10
Publication date: 2017-11-23
Also published as: BR112016008662B1; JP2016533528A; CA2927716C; CA2927716A1; CN111370009B; US20210098010A1; TWI575512B; US10909997B2; PL3058568T3; CN105745705A; US11881228B2; US20160232909A1; WO2015055531A1; AU2014336356A1; US20190333529A1; MX355091B; BR112016008662A2; ES2856199T3; KR20160073398A; ES3044088T3

Claims

1. Кодер (100; 200; 300) для кодирования аудиосигнала (102), причем кодер содержит:

- анализатор (120; 320), выполненный с возможностью извлечения коэффициентов (122; 322) прогнозирования и остаточного сигнала (124; 324) из кадра аудиосигнала (102);

- модуль (160) вычисления информации формант, выполненный с возможностью вычисления информации (162) формирования речевого спектра из коэффициентов (122; 322) прогнозирования;

- модуль (150; 350; 350'; 550) вычисления параметров усиления, выполненный с возможностью вычисления параметра (g_n; g_c) усиления из невокализованного остаточного сигнала и информации (162) формирования спектра; и

- модуль (190; 690) формирования потоков битов, выполненный с возможностью формирования выходного сигнала (192; 692) на основе информации (142), связанной с вокализованным кадром сигнала, параметром (g_n; g_c) усиления или параметром (

;

) квантованного усиления и коэффициентами (122; 322) прогнозирования.

2. Кодер по п. 1, дополнительно содержащий решающий модуль (130), выполненный с возможностью определения того, определен или нет остаточный сигнал из аудиокадра невокализованного сигнала;

3. Кодер по п. 1 или 2, в котором модуль (150; 350; 350'; 550) вычисления параметров усиления содержит:

- генератор (350a) шума, выполненный с возможностью формирования шумоподобного сигнала (n(n)) для кодирования;

- формирователь (350c), выполненный с возможностью усиления (350e) и формирования (350d) спектра шумоподобного сигнала (n(n)) для кодирования с использованием информации (162) формирования речевого спектра и параметра (g_n) усиления в качестве временного параметра (g_n(temp)) усиления, чтобы получать усиленный шумоподобный сигнал (350g) для кодирования определенной формы;

- модуль (350h) сравнения, выполненный с возможностью сравнения невокализованного остаточного сигнала и усиленного шумоподобного сигнала (350g) для кодирования определенной формы, чтобы получать показатель для сходства между невокализованным остаточным сигналом и усиленным шумоподобным сигналом (350g) для кодирования определенной формы; и

- контроллер (350k), выполненный с возможностью определения параметра (g_n) усиления и адаптации временного параметра (g_n(temp)) усиления на основе результата сравнения;

- при этом контроллер (350k; 550n) выполнен с возможностью предоставлять параметр (g_n) усиления при кодировании в модуль формирования потоков битов, когда значение показателя для сходства выше порогового значения.

4. Кодер по п. 1 или 2, в котором модуль (150; 350; 350'; 550) вычисления параметров усиления содержит:

- генератор (350a) шума, выполненный с возможностью формирования шумоподобного сигнала для кодирования;

- синтезатор (350m'), выполненный с возможностью синтезирования синтезированного сигнала (350l') из усиленного шумоподобного сигнала (350g) для кодирования определенной формы и коэффициентов (122; 322) прогнозирования и предоставлять синтезированный сигнал (350l');

- модуль (350h') сравнения, выполненный с возможностью сравнения аудиосигнала (102) и синтезированного сигнала (350l'), чтобы получать показатель для сходства между аудиосигналом (102) и синтезированным сигналом (350l'); и

- при этом контроллер (350k) выполнен с возможностью предоставлять параметр (g_n) усиления при кодировании в модуль формирования потоков битов, когда значение показателя для сходства выше порогового значения.

5. Кодер по п. 4, дополнительно содержащий запоминающее устройство (350n') усилений, выполненное с возможностью записи информации кодирования, содержащей параметр (g_n; g_c) усиления при кодировании или информацию

, связанную с ним, при этом контроллер (350k) выполнен с возможностью записи информации кодирования во время обработки аудиокадра и определения параметра (g_n; g_c) усиления для последующего кадра аудиосигнала (102) на основе информации кодирования предшествующего кадра аудиосигнала (102).

6. Кодер по одному из пп. 3-5, в котором генератор (350a) шума выполнен с возможностью формирования множества случайных сигналов и комбинирования множества случайных сигналов, чтобы получать шумоподобный сигнал (n(n)) для кодирования.

7. Кодер по одному из предшествующих пунктов, дополнительно содержащий квантователь (170), выполненный с возможностью приема параметра (g_n; g_c) усиления, квантования параметра (g_n; g_c) усиления, чтобы получать параметр (

;

) квантованного усиления.

8. Кодер по одному из предшествующих пунктов, в котором формирователь (350; 350') выполнен с возможностью комбинирования спектра шумоподобного сигнала (n(n)) для кодирования или спектра, извлекаемого из него, и передаточной функции (Ffe(z)), содержащей:

,

при этом A(z) соответствует полиному фильтра кодирующего фильтра для фильтрации адаптированного шумоподобного сигнала для кодирования определенной формы, взвешенного посредством весовых коэффициентов w1 или w2, при этом w1 содержит положительное ненулевое скалярное значение самое большее в 1,0, и при этом w2 содержит положительное ненулевое скалярное значение самое большее в 1,00, при этом w2 превышает w1.

9. Кодер по одному из предшествующих пунктов, в котором формирователь (350; 350') выполнен с возможностью комбинирования спектра шумоподобного сигнала для кодирования или спектра, извлекаемого из него, с передаточной функцией (Ft(z)), содержащей:

,

при этом z указывает представление в z-области, при этом β представляет показатель (вокализацию) для вокализации, определенной посредством связи энергии предыдущего кадра аудиосигнала и энергии текущего кадра аудиосигнала, при этом показатель β определяется в функции значения вокализации.

10. Декодер (200) для декодирования принимаемого сигнала (202), содержащего информацию, связанную с коэффициентами (122; 322) прогнозирования, причем декодер (200) содержит:

- модуль (220) вычисления информации формант, выполненный с возможностью вычисления информации (222) формирования речевого спектра из коэффициентов прогнозирования;

- генератор (240) шума, выполненный с возможностью формирования шумоподобного сигнала (n(n)) для декодирования;

- формирователь (250), выполненный с возможностью формирования (252) спектра шумоподобного сигнала (n(n)) для декодирования или его усиленного представления с использованием информации (222) формирования спектра, чтобы получать шумоподобный сигнал (258) для декодирования определенной формы; и

- синтезатор (260), выполненный с возможностью синтезирования синтезированного сигнала (262) из усиленного шумоподобного сигнала (258) для кодирования определенной формы и коэффициентов (122; 322) прогнозирования.

11. Декодер по п. 10, в котором принимаемый сигнал (202) содержит информацию, связанную с параметром (g_n; g_c) усиления, при этом формирователь (250) содержит усилитель (254), выполненный с возможностью усиления шумоподобного сигнала (n(n)) для декодирования или шумоподобного сигнала (256) для декодирования определенной формы.

12. Декодер по п. 10 или 11, в котором принимаемый сигнал (202) дополнительно содержит вокализованную информацию (142), связанную с вокализованным кадром кодированного аудиосигнала (102), при этом декодер (200) дополнительно содержит процессор (270) вокализованных кадров, выполненный с возможностью определения вокализованного сигнала (272) на основе вокализованной информации (142), при этом декодер (200) дополнительно содержит модуль (280) комбинирования, выполненный с возможностью комбинирования синтезированного сигнала (262) и вокализованного сигнала (272), чтобы получать кадр последовательности (282) аудиосигналов.

13. Кодированный аудиосигнал (192; 202; 692), содержащий информацию коэффициентов (122; 322) прогнозирования для вокализованного кадра и невокализованного кадра, дополнительную информацию (142), связанную с вокализованным кадром сигнала, и информацию, связанную с параметром (g_n; g_c) усиления или параметром (

;

) квантованного усиления для невокализованного кадра.

14. Способ (1200) для кодирования аудиосигнала (102), содержащий этапы, на которых:

- извлекают (1210) коэффициенты (122; 322) прогнозирования и остаточный сигнал из кадра (102) аудиосигнала;

- вычисляют (1220) информацию (162) формирования речевого спектра из коэффициентов (122; 322) прогнозирования;

- вычисляют (1230) параметр (g_n; g_c) усиления из невокализованного остаточного сигнала и информации (162) формирования спектра; и

- формируют (1240) выходной сигнал (192; 692) на основе информации (142), связанной с вокализованным кадром сигнала, параметром (g_n; g_c) усиления или параметром (

;

15. Способ (1300) для декодирования принимаемого аудиосигнала (202), содержащего информацию, связанную с коэффициентам прогнозирования и параметрами (g_n; g_c) усиления, при этом способ содержит этапы, на которых:

- вычисляют (1310) информацию (222) формирования речевого спектра из коэффициентов (122; 322) прогнозирования;

- формируют (1320) шумоподобный сигнал (n(n)) для декодирования;

- формируют (1330) спектр шумоподобного сигнала (n(n)) для декодирования или его усиленное представление с использованием информации (222) формирования спектра, чтобы получать шумоподобный сигнал (258) для декодирования определенной формы; и

- синтезируют (1340) синтезированный сигнал (262) из усиленного шумоподобного сигнала (258) для кодирования определенной формы и коэффициентов (122; 322) прогнозирования.

16. Компьютерная программа, имеющая программный код для осуществления, при выполнении на компьютере, способа по п. 14 или 15.