Claims (39)
1. Способ кодирования входного аудиосигнала, основывающегося на канале или объекте, для воспроизведения, каковой способ содержит этапы, на которых1. A method of encoding an input audio signal based on a channel or an object for reproduction, which method comprises the steps of
(a) выполняют первоначальный рендеринг входного аудиосигнала, основывающегося на канале или объекте, в начальное выходное представление;(a) perform initial rendering of an input audio signal based on a channel or an object into an initial output representation;
(b) определяют оценку доминантного аудиокомпонента из входного аудиосигнала, основывающегося на канале или объекте, и определяют последовательность весовых компонентов доминантного аудиокомпонента для отображения начального выходного представления в доминантный аудиокомпонент, с тем чтобы обеспечить возможность использования весовых коэффициентов доминантного аудиокомпонента и начального выходного представления для определения оценки доминантного компонента;(b) determining an estimate of the dominant audio component from an input audio signal based on a channel or an object, and determining the sequence of weight components of the dominant audio component to map the initial output representation to the dominant audio component so as to enable the use of the weights of the dominant audio component and the initial output representation to determine the estimate dominant component;
(c) определяют оценку направления или положения доминантного аудиокомпонента; и(c) determine an estimate of the direction or position of the dominant audio component; and
(d) кодируют начальное выходное представление, весовые коэффициенты доминантного аудиокомпонента, направление или положение доминантного аудиокомпонента как кодированный сигнал для воспроизведения.(d) encode the initial output representation, the weights of the dominant audio component, the direction or position of the dominant audio component as an encoded signal for playback.
2. Способ по п. 1, дополнительно содержащий этап, на котором определяют оценку остаточного микса, представляющую собой начальное выходное представление за вычетом рендеринга либо доминантного аудиокомпонента, либо его оценки.2. The method of claim 1, further comprising determining an estimate of the residual mix, which is the initial output representation minus the rendering of either the dominant audio component or its estimation.
3. Способ по п. 1, дополнительно содержащий этап, на котором генерируют безэховый бинауральный микс входного аудиосигнала, основывающегося на канале или объекте, и определяют оценку остаточного микса, причем оценкой остаточного микса является безэховый бинауральный микс за вычетом либо рендеринга доминантного аудиокомпонента, либо его оценки.3. The method of claim 1, further comprising generating an anechoic binaural mix of the input audio signal based on the channel or object, and determining an estimate of the residual mix, the estimate of the residual mix being the anechoic binaural mix minus either rendering the dominant audio component, or its assessment.
4. Способ по п. 2 или 3, дополнительно содержащий этап, на котором определяют последовательность остаточных матричных коэффициентов для отображения начального выходного представления в оценку остаточного микса.4. The method of claim 2 or 3, further comprising determining a sequence of residual matrix coefficients for mapping the initial output representation into an estimate of the residual mix.
5. Способ по любому из предшествующих пунктов, в котором начальное выходное представление содержит представление посредством наушников или громкоговорителя.5. The method according to any one of the preceding paragraphs, in which the initial output presentation comprises a presentation by means of headphones or a speaker.
6. Способ по любому из предшествующих пунктов, в котором входной аудиосигнал, основывающийся на канале или объекте, разбивается на элементы разбиения по времени и частоте, и упомянутый этап кодирования повторяется в отношении последовательности временных шагов и последовательности полос частот.6. The method according to any one of the preceding paragraphs, in which the input audio signal based on a channel or an object is divided into elements of the division of time and frequency, and said coding step is repeated with respect to a sequence of time steps and a sequence of frequency bands.
7. Способ по любому из предшествующих пунктов, в котором начальное выходное представление содержит микс стереогромкоговорителей.7. The method according to any one of the preceding paragraphs, in which the initial output representation comprises a mix of stereo speakers.
8. Способ декодирования кодированного аудиосигнала, причем кодированный аудиосигнал включает в себя:8. A method for decoding an encoded audio signal, wherein the encoded audio signal includes:
начальное выходное представление; initial output presentation;
весовые коэффициенты доминантного аудиокомпонента и направления доминантного аудиокомпонента; weighting factors of the dominant audio component and the direction of the dominant audio component;
при этом способ содержит этапы, на которых:wherein the method comprises the steps in which:
(a) используют весовые коэффициенты доминантного аудиокомпонента и начальное выходное представление, чтобы определить оценочный доминантный компонент;(a) using weights of the dominant audio component and the initial output representation to determine the estimated dominant component;
(b) выполняют рендеринг оценочного доминантного компонента с бинаурализацией в пространственном местоположении относительно целевого слушателя в соответствии с направлением доминантного аудиокомпонента, чтобы сформировать отрендеренный бинаурализированный оценочный доминантный компонент;(b) rendering the estimated dominant component with binauralization at a spatial location relative to the target listener in accordance with the direction of the dominant audio component to form a rendered binauralized estimated dominant component;
(c) реконструируют оценку остаточного компонента из начального выходного представления; и(c) reconstructing an estimate of the residual component from the initial output representation; and
(d) объединяют отрендеренный бинаурализированный оценочный доминантный компонент и оценку остаточного компонента для формирования выходного пространственно ориентированного кодированного аудиосигнала.(d) combine the rendered binauralized estimated dominant component and the residual component estimate to form an output spatially oriented encoded audio signal.
9. Способ по п. 8, в котором кодированный аудиосигнал дополнительно включает в себя последовательность остаточных матричных коэффициентов, представляющих остаточный аудиосигнал, и этап (c) дополнительно содержит этап, на котором9. The method of claim 8, wherein the encoded audio signal further includes a sequence of residual matrix coefficients representing the residual audio signal, and step (c) further comprises the step of
(c1) применяют упомянутые остаточные матричные коэффициенты к начальному выходному представлению, чтобы реконструировать оценку остаточного компонента.(c1) apply said residual matrix coefficients to the initial output representation to reconstruct the estimate of the residual component.
10. Способ по п. 8, в котором оценка остаточного компонента реконструируется вычитанием отрендеренного бинаурализированного оценочного доминантного компонента из начального выходного представления.10. The method of claim 8, wherein the residual component estimate is reconstructed by subtracting the rendered binauralized estimated dominant component from the initial output representation.
11. Способ по любому из пп. 8-10, в котором этап (b) включает в себя начальный поворот оценочного доминантного компонента в соответствии с входным сигналом слежения за движением головы, указывающим ориентацию головы целевого слушателя.11. The method according to any one of paragraphs. 8-10, in which step (b) includes an initial rotation of the estimated dominant component in accordance with an input signal tracking the head movement indicating the orientation of the head of the target listener.
12. Способ декодирования и воспроизведения аудиопотока для слушателя, использующего наушники, каковой способ содержит этапы, на которых12. A method of decoding and reproducing an audio stream for a listener using headphones, which method comprises the steps of
(a) принимают поток данных, содержащий первую аудиопрезентацию и дополнительные данные аудиопреобразования;(a) receiving a data stream comprising a first audio presentation and additional audio conversion data;
(b) принимают данные ориентации головы, представляющие ориентацию слушателя;(b) receiving head orientation data representing the orientation of the listener;
(c) создают один или более вспомогательных сигналов на основе первой аудиопрезентации и принятых данных преобразования;(c) creating one or more auxiliary signals based on the first audio presentation and received transform data;
(d) создают вторую аудиопрезентацию, состоящую из сочетания первой аудиопрезентации и вспомогательного сигнала(ов), где один или более вспомогательных сигналов модифицированы в ответ на данные ориентации головы; и(d) creating a second audio presentation consisting of a combination of the first audio presentation and an auxiliary signal (s), where one or more auxiliary signals are modified in response to the head orientation data; and
(e) выводят вторую аудиопрезентацию в качестве выходного аудиопотока.(e) outputting a second audio presentation as an output audio stream.
13. Способ по п. 12, в котором упомянутая модификация вспомогательных сигналов состоит из моделирования акустического пути прохождения от положения источника звука до ушей слушателя.13. The method according to p. 12, in which said modification of the auxiliary signals consists of modeling the acoustic path from the position of the sound source to the ears of the listener.
14. Способ по п. 12 или 13, в котором упомянутые данные преобразования состоят из коэффициентов матрицирования и по меньшей мере одного из положения источника звука и направления источника звука.14. The method of claim 12 or 13, wherein said transform data consists of matrix coefficients and at least one of a position of the sound source and a direction of the sound source.
15. Способ по любому из пп. 12-14, в котором процесс преобразования применяется как функция времени или частоты.15. The method according to any one of paragraphs. 12-14, in which the conversion process is applied as a function of time or frequency.
16. Способ по любому из пп. 12-15, в котором упомянутые вспомогательные сигналы представляют по меньшей мере один доминантный компонент.16. The method according to any one of paragraphs. 12-15, wherein said auxiliary signals represent at least one dominant component.
17. Способ по любому из пп. 12-16, в котором положение или направление источника звука, принятое как часть данных преобразования, поворачивается в качестве реакции на данные ориентации головы.17. The method according to any one of paragraphs. 12-16, in which the position or direction of the sound source, adopted as part of the conversion data, is rotated in response to head orientation data.
18. Способ по п. 17, в котором максимальная величина поворота ограничивается значением менее 360 градусов по азимуту или по углу места.18. The method according to p. 17, in which the maximum amount of rotation is limited to less than 360 degrees in azimuth or elevation.
19. Способ по любому из пп. 12-17, в котором вторичная презентация получается из первой презентации путем матрицирования в области преобразования или блока фильтров.19. The method according to any one of paragraphs. 12-17, in which the secondary presentation is obtained from the first presentation by matrixing in the transform area or filter block.
20. Способ по любому из пп. 12-19, в котором данные преобразования дополнительно содержат добавочные коэффициенты матрицирования, и этап (d) дополнительно содержит этап, на котором модифицируют первую аудиопрезентацию в качестве реакции на эти добавочные коэффициенты матрицирования, до объединения первой аудиопрезентации и вспомогательного аудиосигнала(ов).20. The method according to any one of paragraphs. 12-19, in which the transform data further comprises additional matrix coefficients, and step (d) further comprises modifying the first audio presentation in response to these additional matrix coefficients, before combining the first audio presentation and the auxiliary audio signal (s).
21. Аппаратура, содержащая одно или более устройств, выполненных с возможностью осуществления способа по любому из пп. 1-20.21. Equipment containing one or more devices configured to implement the method according to any one of paragraphs. 1-20.
22. Машиночитаемый носитель, содержащий программу, состоящую из команд, которые при их исполнении одним или более процессорами предписывают одному или более устройствам выполнять способ по любому из пп. 1-20.22. Machine-readable medium containing a program consisting of instructions that, when executed by one or more processors, instruct one or more devices to perform the method according to any one of claims. 1-20.