RU2833441C1

RU2833441C1 - Method and apparatus for decoding compressed audio representation of audio or sound field using hoa

Info

Publication number: RU2833441C1
Application number: RU2023121354A
Authority: RU
Inventors: Свен КОРДОН; Александр КРЮГЕР
Original assignee: Долби Интернешнл Аб
Filing date: 2023-08-15
Publication date: 2025-01-21

Abstract

FIELD: physics.

SUBSTANCE: present invention relates to sound recording technologies. When compressing the HOA data frame representation, a gain control is applied for each channel signal before its perceptual coding. Gain values are transmitted in differential mode as side information. However, to start decoding such a streaming compressed representation of a HOA data frame, absolute gain values are required, which must be encoded with a minimum number of bits. To determine such a smallest integer ( β _e) bits representation of the HOA data frame ( C ( k )) is reproduced in the spatial domain in the form of signals of virtual loudspeakers lying on the unit sphere, with subsequent normalization of HOA data frame representation ( C ( k )). Then the least integer number of bits is taken equal to: ( ΑΑ ).

EFFECT: providing the least integer number of bits required to represent undifferentiated gain values.

3 cl, 6 dwg

Description

Область техникиField of technology

Настоящее изобретение относится к способу и устройству определения для сжатия представления кадра данных HOA наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления, связанных с сигналами каналов конкретного одного из указанных кадров данных HOA.The present invention relates to a method and device for determining, for compressing the representation of a HOA data frame, the smallest integer number of bits required to represent non-differentiable gain values associated with channel signals of a specific one of said HOA data frames.

Уровень техникиState of the art

Технология звукозаписи, создающей «эффект присутствия», (Ambisonics) высшего порядка, обозначаемая HOA (Higher Order Ambisonics) предлагает одну из возможностей представления стереозвука. Другими методами являются синтез волнового поля (wave field synthesis, WFS) или подходы на базе канала, такие как 22.2. В отличие от методов на базе каналов, представление на основе HOA предлагает преимущество, состоящее в отсутствии зависимости от конкретной установки громкоговорителя. Однако такая гибкость существует за счет процесса декодирования, который необходим для воспроизведения представления HOA на конкретной установке громкоговорителя. По сравнению с подходом WFS, в котором число требуемых громкоговорителей обычно очень велико, технология HOA также может быть воспроизведена в установках, состоящих всего из нескольких громкоговорителей. Дополнительным преимуществом HOA является то, что то же самое представление также может быть использовано без каких-либо изменений для стереофонического воспроизведения в наушниках.Higher Order Ambisonics (HOA) is one of the possibilities for representing stereo sound. Other methods are wave field synthesis (WFS) or channel-based approaches such as 22.2. Unlike channel-based methods, HOA-based representation offers the advantage of not being dependent on a specific loudspeaker setup. However, this flexibility comes at the expense of the decoding process that is required to reproduce the HOA representation on a specific loudspeaker setup. Compared to the WFS approach, where the number of loudspeakers required is usually very large, HOA can also be reproduced in setups consisting of only a few loudspeakers. An additional advantage of HOA is that the same representation can also be used without any modifications for stereo reproduction on headphones.

Технология HOA основана на представлении пространственной плотности комплексных амплитуд гармонической плоской волны с помощью усеченного разложения по сферическим гармоникам (Spherical Harmonics, SH). Каждый коэффициент разложения является функцией угловой частоты, которая может быть эквивалентно представлена с помощью функции временной области. Следовательно, без потери общности, полное представление звукового поля HOA действительно можно считать состоящим из O функций временной области, где O обозначает число коэффициентов разложения. Данные функции временной области в дальнейшем будут эквивалентно упоминаться как последовательности коэффициентов HOA или как каналы HOA.The HOA technology is based on the representation of the spatial density of complex amplitudes of a harmonic plane wave by a truncated decomposition in spherical harmonics (SH). Each decomposition coefficient is a function of angular frequency, which can be equivalently represented by a time-domain function. Therefore, without loss of generality, the complete HOA sound field representation can indeed be considered as consisting of O time-domain functions, where O denotes the number of decomposition coefficients. These time-domain functions will henceforth be referred to equivalently as HOA coefficient sequences or HOA channels.

Пространственное разрешение представления HOA улучшается с ростом максимального порядка N разложения. К сожалению, число коэффициентов разложения O растет квадратично с порядком N , в частности, O = ( N + 1)². Например, типичные представления HOA, использующие порядок N = 4, требуют коэффициентов (расширения) HOA O = 25. Общая скорость передачи битов для передачи представления HOA, учитывая желаемую одноканальную частоту дискретизации f _s и число битов N _b в выборке, определяется как O · f _S · N _b. Передача представления HOA с порядком N = 4 с частотой дискретизации f _s = 48 кГц, с использованием N _b = 16 бит в выборке приводит к скорости передачи битов 19,2 Мбит/с, которая является очень высокой для многих практических применений, например, потоковой передачи данных. Таким образом, сжатие представления HOA является весьма желательным.The spatial resolution of the HOA representation improves with increasing maximum order N expansion. Unfortunately, the number of expansion coefficients O grows quadratically with order N , in particular, O = ( N + 1)². For example, typical HOA representations using the order N = 4, require HOA coefficients (expansion) O = 25. Total bit rate for transmitting the HOA representation, given the desired single-channel sampling frequency f _sand the number of bits N _bin the sample, is defined as O · f _S · N _b. Transfer of HOA representation with order N = 4 with sampling frequency f _s= 48 kHz, using N _b= 16 bits per sample results in a bit rate of 19.2 Mbps, which is very high for many practical applications, such as streaming data. Thus, compression of the HOA representation is highly desirable.

Ранее сжатие представлений звукового поля HOA предлагалось в документах EP 2665208 A1, EP 2743922 A1, EP 2800401 A1, см. ISO/IEC JTC1/SC29/WG11, N14264, WD1-HOA Text of MPEG-H 3D Audio, январь 2014 г. Эти подходы объединяет то, что они выполняют анализ звукового поля и разлагают данное представление HOA на компонент направления и остаточный компонент окружающей среды. Конечное сжатое представление, с одной стороны, как предполагается, состоит из ряда квантованных сигналов, являющихся результатом перцепционного кодирования направленных и векторных сигналов, а также релевантных последовательностей коэффициентов компонента окружающей среды HOA. С другой стороны, оно содержит дополнительную побочную информацию, относящуюся к квантованным сигналам, причем данная побочная информация требуется для восстановления представления HOA из его сжатого варианта.Previously, compression of HOA sound field representations was proposed in EP 2665208 A1, EP 2743922 A1, EP 2800401 A1, cf. ISO/IEC JTC1/SC29/WG11, N14264, WD1-HOA Text of MPEG-H 3D Audio, January 2014. These approaches have in common that they perform sound field analysis and decompose the given HOA representation into a directional component and a residual ambience component. The final compressed representation is assumed to consist, on the one hand, of a number of quantized signals resulting from perceptual coding of directional and vectorial cues, as well as relevant sequences of HOA ambience component coefficients. On the other hand, it contains additional side information related to the quantized signals, where this side information is required to reconstruct the HOA representation from its compressed version.

Перед передачей к перцепционному кодеру эти промежуточные сигналы временной области должны иметь максимальную амплитуду в пределах диапазона значений [-1,1[, что является требованием, возникающим в связи с реализацией имеющихся в настоящее время перцепционных кодеров. Чтобы удовлетворять данному требованию при сжатии представлений HOA, блок обработки регулятора усиления (см. EP 2824661 A1 и вышеупомянутый документ ISO/IEC JTC1/SC29/WG11 N14264) используют перед перцепционными кодерами, которые плавно ослабляют или усиливают входные сигналы. Предполагается, что полученное изменение сигнала является обратимым и применяется по кадрам, при этом, в частности, изменение амплитуд сигнала между последовательными кадрами предполагается равным степени «2». Для облегчения обратного преобразования данного изменения сигнала в декомпрессоре на основе HOA соответствующая нормализация побочной информации включается в общую побочную информацию. Данная нормализация побочной информации может состоять из показателей по основанию «2», причем показатели описывают относительное изменение амплитуды между двумя последовательными кадрами. Эти показатели кодируются, используя кодирование длины серий согласно вышеупомянутому документу ISO/IEC JTC1/ SC29/WG11 N14264, так как незначительные изменения амплитуды между последовательными кадрами более вероятны, чем большие изменения.Before being passed to the perceptual encoder, these intermediate time domain signals shall have a maximum amplitude within the range of values [-1,1[, which is a requirement arising from the implementation of currently available perceptual coders. To satisfy this requirement when compressing HOA representations, a gain controller processing unit (see EP 2824661 A1 and the above-mentioned ISO/IEC JTC1/SC29/WG11 N14264) is used in front of the perceptual coders, which smoothly attenuate or amplify the input signals. The resulting signal change is assumed to be reversible and is applied frame by frame, wherein in particular the change in signal amplitudes between successive frames is assumed to be a power of "2". To facilitate the inverse transformation of this signal change in the HOA-based decompressor, the corresponding normalization of the side information is included in the total side information. This normalization of the side information may consist of base-2 metrics, where the metrics describe the relative change in amplitude between two successive frames. These metrics are encoded using run-length coding according to the above-mentioned ISO/IEC JTC1/SC29/WG11 N14264 document, since small changes in amplitude between successive frames are more likely than large changes.

Раскрытие сущности изобретенияDisclosure of the essence of the invention

Использование дифференцированно кодированных изменений амплитуды для восстановления исходных амплитуд сигнала в декомпрессии HOA возможно, например, в случае, когда одиночный файл распаковывается от начала до конца без каких-либо временных скачков. Однако для облегчения произвольного доступа в кодированном представлении должны присутствовать независимые блоки доступа (которые обычно представляют собой поток битов), чтобы обеспечивать начало декомпрессии с требуемого положения (или по меньшей мере в непосредственной близости от него), независимо от информации из предыдущих кадров. Такой независимый блок доступа должен содержать полное абсолютное изменение амплитуды (т. е. недифференцируемое значение коэффициента усиления), вызванное блоком обработки регулятора усиления от первого кадра до текущего кадра. Предполагая, что изменения амплитуды между двумя последовательными кадрами являются степенью «2», это является достаточным, чтобы описать полное абсолютное изменение амплитуды с помощью показателя по основанию «2». Для эффективного кодирования данного показателя важно знать возможные максимальные коэффициенты усиления сигналов перед применением блока обработки регулятора усиления. Однако эти сведения в значительной степени зависят от спецификации ограничений на диапазон значений представлений HOA, подлежащих сжатию. К сожалению, документ касательно MPEG-H 3D аудио стандарта ISO/IEC JTC1/SC29/WG11 N14264 только представляет описание формата для ввода представления HOA, без установления каких-либо ограничений на диапазон значений.Using differentially coded amplitude changes to reconstruct the original signal amplitudes in HOA decompression is possible, for example, in the case where a single file is decompressed from start to finish without any time jumps. However, to facilitate random access, independent access units (usually a bit stream) must be present in the coded representation to ensure that decompression starts from the desired position (or at least in its immediate vicinity), regardless of the information from previous frames. Such an independent access unit must contain the total absolute amplitude change (i.e., the non-differentiable gain value) caused by the gain controller processing block from the first frame to the current frame. Assuming that the amplitude changes between two consecutive frames are a power of 2, this is sufficient to describe the total absolute amplitude change using a base 2 exponent. To efficiently encode this exponent, it is important to know the possible maximum gains of the signals before applying the gain controller processing block. However, this information is highly dependent on the specification of the limits on the range of values of the HOA representations to be compressed. Unfortunately, the document concerning the MPEG-H 3D audio standard ISO/IEC JTC1/SC29/WG11 N14264 only provides a description of the format for input of the HOA representation, without specifying any limits on the range of values.

Проблема, решаемая с помощью изобретения, заключается в обеспечении наименьшего целого числа бит, необходимого для представления недифференцируемых значений коэффициентов усиления. Данную проблему решают с помощью способа, раскрытого в пункте 1 формулы изобретения. Устройство, которое использует данный способ, раскрыто в пункте 2 формулы изобретения.The problem solved by the invention is to provide the smallest integer number of bits necessary to represent non-differentiable gain values. This problem is solved by the method disclosed in claim 1 of the invention formula. The device that uses this method is disclosed in claim 2 of the invention formula.

Преимущества дополнительных вариантов осуществления раскрыты в соответствующих зависимых пунктах формулы изобретения.The advantages of additional embodiments are disclosed in the corresponding dependent claims.

Изобретение устанавливает взаимосвязь между диапазоном значений входного представления HOA и возможными максимальными коэффициентами усиления сигналов перед применением блока обработки регулятора усиления в компрессоре на основе HOA.The invention establishes a relationship between the range of values of the input representation of the HOA and the possible maximum gain factors of signals before applying the gain control processing unit in the compressor based on the HOA.

На основе взаимосвязи определяется количество требуемых битов (для данной спецификации в диапазоне значений входного представления HOA) для эффективного кодирования показателей по основанию «2» для описания в пределах блока доступа полных абсолютных изменений амплитуды (т. е. недифференцируемого значения коэффициента усиления) измененных сигналов, вызванных блоком обработки регулятора усиления от первого кадра до текущего кадра.Based on the relationship, the number of bits required (for a given specification in the range of values of the HOA input representation) is determined for the efficient coding of base-2 metrics for describing, within an access block, the total absolute changes in amplitude (i.e., the non-differentiable value of the gain) of the changed signals caused by the gain controller processing block from the first frame to the current frame.

Кроме того, после того как правило для вычисления количества требуемых битов для кодирования показателя выполнено, изобретение использует обработку для проверки того, удовлетворяет ли данное представление HOA требуемым ограничениям диапазона значений, так чтобы оно могло быть сжато должным образом.Furthermore, after the rule for calculating the number of required bits for encoding the indicator is satisfied, the invention uses processing to check whether the given HOA representation satisfies the required value range constraints so that it can be compressed properly.

В принципе, способ согласно изобретению подходит для определения сжатия представления кадра данных HOA наименьшего целого числа β _e битов, требуемого для представления недифференцируемых значений коэффициентов усиления для сигналов каналов конкретного одного из указанных кадров данных HOA, в котором каждый сигнал канала в каждом кадре содержит группу значений выборки, и в котором каждому сигналу канала каждого одного из указанных кадров данных HOA присвоено дифференцируемое значение коэффициента усиления, и такое дифференцируемое значение коэффициента усиления вызывает изменение амплитуд значений выборки сигнала канала в текущем кадре данных HOA относительно значений выборки этого сигнала канала в предыдущем кадре данных HOA, и при этом такие сигналы каналов с адаптированным коэффициентом усиления кодируются в кодирующем устройстве,In principle, the method according to the invention is suitable for determining the compression of the representation of a HOA data frame of the smallest integer number β _e of bits required for the representation of non-differentiable gain values for channel signals of a specific one of said HOA data frames, in which each channel signal in each frame comprises a group of sample values, and in which each channel signal of each one of said HOA data frames is assigned a differentiable gain value, and such differentiable gain value causes a change in the amplitudes of the sample values of the channel signal in the current HOA data frame relative to the sample values of this channel signal in the previous HOA data frame, and wherein such channel signals with an adapted gain are encoded in the encoding device,

и при этом указанное представление кадра данных HOA воспроизведено в пространственной области для O сигналов виртуальных громкоговорителей w _j( t ), где положения виртуальных громкоговорителей лежат на единичной сфере и должны быть распределены равномерно по этой единичной сфере, причем указанное воспроизведение представлено произведением матриц w ( t ) = ( Ψ )^-1 • c ( t ), где w ( t ) - вектор, содержащий все сигналы виртуальных громкоговорителей, Ψ - модовая матрица положений виртуальных громкоговорителей, и c ( t ) - вектор соответствующих последовательностей коэффициентов HOA указанного представления кадра данных HOA,and wherein said representation of the HOA data frame is reproduced in the spatial domain for O virtual loudspeaker signals w _j ( t ), where the positions of the virtual loudspeakers lie on a unit sphere and are to be distributed uniformly over this unit sphere, wherein said reproduction is represented by the product of matrices w ( t ) = ( Ψ ) ^-1 • c ( t ), where w ( t ) is a vector containing all the virtual loudspeaker signals, Ψ is a mode matrix of the virtual loudspeaker positions, and c ( t ) is a vector of corresponding sequences of HOA coefficients of said representation of the HOA data frame,

и при этом указанное представление кадра данных HOA было нормализовано, так что ,and the specified HOA data frame representation was normalized so that ,

указанный способ включает в себя этапы:The specified method includes the following steps:

- формирование указанных сигналов каналов на одном или более подэтапов a), b), c) из указанного нормализованного представления кадра данных HOA:- generating said channel signals in one or more sub-steps a), b), c) from said normalized representation of the HOA data frame:

a) для представления доминирующих звуковых сигналов в указанных сигналах каналов, умножение указанного вектора последовательностей коэффициентов HOA c ( t ) на матрицу смешивания Α , при этом евклидова норма матрицы смешивания Α не больше, чем «1», причем матрица смешивания Α представляет линейную комбинацию последовательностей коэффициентов указанного нормализованного представления кадра данных HOA;a) for representing dominant audio signals in said channel signals, multiplying said vector of HOA coefficient sequences c ( t ) by a mixing matrix Α , wherein the Euclidean norm of the mixing matrix Α is not greater than "1", wherein the mixing matrix Α represents a linear combination of the coefficient sequences of said normalized representation of the HOA data frame;

b) для представления компонента окружающей среды c _AMB( t ) в указанных сигналах каналов, вычитание указанных доминирующих звуковых сигналов из указанного нормализованного представления кадра данных HOA, и выбор по меньшей мере части из последовательностей коэффициентов указанного компонента окружающей среды c _AMB( t ), причем || c _AMB( t )||₂ ² ≤ || c ( t )||₂ ², и преобразование результирующего минимального компонента окружающей среды c _AMB,MIN( t ) путем вычисления w _MIN(t) = Ψ ^-1 _MIN ⋅ c _AMB,MIN( t ), гдеb) for representing an ambient component c _AMB ( t ) in said channel signals, subtracting said dominant audio signals from said normalized representation of the HOA data frame, and selecting at least a portion of the coefficient sequences of said ambient component c _AMB ( t ), where || c _AMB ( t )|| ₂ ² ≤ || c ( t )|| ₂ ² , and transforming the resulting minimum ambient component c _AMB,MIN ( t ) by computing w _MIN (t) = Ψ ^-1 _MIN ⋅ c _AMB,MIN ( t ), where

|| Ψ ^-1 _MIN||₂ < 1 и Ψ _MIN - модовая матрица для указанного минимального компонента окружающей среды c _AMB,MIN( t );|| Ψ ^-1 _MIN || ₂ < 1 and Ψ _MIN is the mode matrix for the specified minimum component of the environment c _AMB,MIN ( t );

c) выбор части указанных последовательностей коэффициентов HOA c ( t ), причем выбранные последовательности коэффициентов связаны с последовательностями коэффициентов компонента окружающей среды HOA, к которым применено пространственное преобразование, и минимальный порядок N _MIN , описывающий число указанных выбранных последовательностей коэффициентов, равен N _MIN ≤ 9;c) selecting a portion of the said sequences of HOA coefficients c ( t ), wherein the selected sequences of coefficients are related to the sequences of coefficients of the HOA environmental component to which the spatial transformation has been applied, and the minimum order N _MIN describing the number of said selected sequences of coefficients is N _MIN ≤ 9 ;

- установление указанного наименьшего целого числа β _e битов, требуемого для представления указанных недифференцируемых значений коэффициентов усиления для указанных сигналов каналов до,- establishing the specified smallest integer number β _e of bits required to represent the specified non-differentiable gain values for the specified channel signals up to ,

где , N - порядок, N _MAX - максимальный порядок, представляющий интерес, направления указанных виртуальных громкоговорителей, O = ( N + l)² - число последовательностей коэффициентов HOA, и K - отношение между квадратом евклидовой нормы || Ψ ||₂ ² указанной модовой матрицы и O .Where , N is the order, N _MAX is the maximum order of interest, directions of the specified virtual loudspeakers, O = ( N + l) ² is the number of sequences of HOA coefficients, and K is the ratio between the square of the Euclidean norm || Ψ || ₂ ² of the specified mode matrix and O .

По существу, устройство согласно изобретению подходит для определения при сжатии представления кадра данных HOA наименьшего целого числа β _e битов, требуемого для представления недифференцируемых значений коэффициентов усиления для сигналов каналов конкретного одного из указанных кадров данных HOA, в котором каждый сигнал канала в каждом кадре содержит группу значений выборки, и в котором каждому сигналу канала каждого одного из указанных кадров данных HOA присвоено дифференцируемое значение коэффициента усиления, и такое дифференцируемое значение коэффициента усиления вызывает изменение амплитуд значений выборки сигнала канала в текущем кадре данных HOA относительно значений выборки этого сигнала канала в предыдущем кадре данных HOA, и при этом такие сигналы каналов с адаптированным коэффициентом усиления кодируются в кодирующем устройстве,In essence, the device according to the invention is suitable for determining, when compressing the representation of a HOA data frame, the smallest integer number β _e of bits required to represent non-differentiable gain values for channel signals of a particular one of said HOA data frames, in which each channel signal in each frame comprises a group of sample values, and in which each channel signal of each one of said HOA data frames is assigned a differentiable gain value, and such differentiable gain value causes a change in the amplitudes of the sample values of the channel signal in the current HOA data frame relative to the sample values of this channel signal in the previous HOA data frame, and wherein such channel signals with an adapted gain are encoded in the encoding device,

указанное устройство включает в себя:The specified device includes:

- средства, которые формируют указанные сигналы каналов за одну или более операций a), b), c) из указанного нормализованного представления кадра данных HOA:- means that generate the specified channel signals in one or more operations a), b), c) from the specified normalized representation of the HOA data frame:

b) для представления компонента окружающей среды c _AMB( t ) в указанных сигналах каналов, вычитание указанных доминирующих звуковых сигналов из указанного нормализованного представления кадра данных HOA, и выбор по меньшей мере части из последовательностей коэффициентов указанного компонента окружающей среды c _AMB( t ), причем || c _AMB( t )||₂ ² ≤ || c ( t )||₂ ², и преобразование результирующего минимального компонента окружающей среды c _AMB,MIN( t ) путем вычисления w _MIN( t ) = Ψ ^-1 _MIN · c _AMB,MIN( t ), гдеb) to represent a component of the environment c _AMB( t ) in said channel signals, subtracting said dominant audio signals from said normalized representation of the HOA data frame, and selecting at least a portion of the coefficient sequences of said environment component c _AMB( t ), and || c _AMB( t )||₂ ²≤ || c ( t )||₂ ², and the transformation of the resulting minimum component of the environment c _AMB,MIN( t ) by calculation w _MIN( t )= Ψ ^-1 _MIN · c _AMB,MIN( t ), Where

|| Ψ ^-1 _MIN || ₂ < 1, и Ψ _MIN - модовая матрица для указанного минимального компонента окружающей среды c _AMB,MIN ( t );|| Ψ ^-1 _MIN || ₂ < 1, and Ψ _MIN is the mode matrix for the specified minimum component of the environment c _AMB,MIN ( t ) ;

- средства, которые задают указанное наименьшее целое число β _e битов, требуемое для представления указанных недифференцируемых коэффициентов усиления для указанных сигналов каналов ,- means that specify the specified smallest integer number β _e of bits required to represent the specified non-differentiable gains for the specified channel signals ,

где , N - порядок, N _MAX - максимальный порядок, представляющий интерес, - направления указанных виртуальных громкоговорителей, O = ( N + 1)² - число последовательностей коэффициентов HOA, и K - отношение между квадратом евклидовой нормы || Ψ ||₂ ² указанной модовой матрицы и O .Where , N is the order, N _MAX is the maximum order of interest, - the directions of the specified virtual loudspeakers, O = ( N + 1) ² is the number of HOA coefficient sequences, and K is the ratio between the square of the Euclidean norm || Ψ || ₂ ² of the specified mode matrix and O .

Краткое описание чертежейBrief description of the drawings

Примеры вариантов осуществления изобретения описаны со ссылками на прилагаемые чертежи, на которых показаны:Examples of embodiments of the invention are described with reference to the accompanying drawings, which show:

на фиг. 1 приведен компрессор на основе HOA;Fig. 1 shows a compressor based on HOA;

на фиг. 2 приведен декомпрессор на основе HOA;Fig. 2 shows a decompressor based on HOA;

на фиг. 3 приведены значения масштабных коэффициентов K для виртуальных направлений Ωj ⁽ ^N ⁾ , 1 ≤ j ≤ O , для порядков HOA N = 1, … ,29;Fig. 3 shows the values of the scale factors K for the virtual directions Ωj ⁽ ^N ⁾ , 1 ≤ j ≤ O , for the HOA orders N = 1, … ,29;

на фиг. 4 приведены евклидовы нормы обратных модовых матриц Ψ ^- ¹ для виртуальных направлений Ω _MIN, _d, d = 1, … , O _MIN для порядков HOA N _MIN = 1, … ,9;Fig. 4 shows the Euclidean norms of the inverse mode matrices Ψ ^- ¹ for the virtual directions Ω _MIN, _d , d = 1, … , O _MIN for the orders HOA N _MIN = 1, … ,9;

на фиг. 5 приведено определение максимально допустимых амплитуд γ _d _B сигналов виртуальных громкоговорителей в положениях Ωj ⁽ ^N ⁾ , 1 ≤ j < O , где O = ( N + 1)²;Fig. 5 shows the definition of the maximum permissible amplitudes γ _d _Bvirtual loudspeaker signals in positions Ωj ⁽ ^N ⁾ , 1 ≤ j < O , Where O =( N + 1)²;

на фиг. 6 приведена сферическая система координат.Fig. 6 shows a spherical coordinate system.

Описание вариантов осуществленияDescription of embodiments

Даже если явно не описано, следующие варианты осуществления могут быть использованы в любой комбинации или субкомбинации.Even if not explicitly described, the following embodiments can be used in any combination or subcombination.

В дальнейшем представлен принцип сжатия и декомпрессии HOA, чтобы представить более подробный контекст, в котором возникает вышеупомянутая проблема. Основой для данного представления является обработка, описанная в документе касательно MPEG-H 3D аудио стандарта ISO/IEC JTC1/SC29/WG11 N14264, см. также EP 2665208 A1, EP 2800401 A1 и EP 2743922 A1. В документе N14264 выражение «компонент направления» распространяется на «доминирующий звуковой компонент». Что касается компонента направления, предполагается, что доминирующий звуковой компонент частично представлен направленными сигналами, что означает монофонические сигналы c соответствующим направлением, из которого, как предполагается, они воздействуют на слушателя, вместе с некоторыми расчетными параметрами для расчета частей исходного представления HOA из направленных сигналов. Кроме того, предполагается, что доминирующий звуковой компонент представлен «векторными сигналами», что означает монофонические сигналы с соответствующим вектором, который определяет распределение по направлениям векторных сигналов.In the following, the principle of HOA compression and decompression is presented in order to provide a more detailed context in which the above problem arises. The basis for this presentation is the processing described in the document concerning MPEG-H 3D audio of the ISO/IEC JTC1/SC29/WG11 standard N14264, see also EP 2665208 A1, EP 2800401 A1 and EP 2743922 A1. In the document N14264, the expression "directional component" is extended to "dominant audio component". For the directional component, it is assumed that the dominant audio component is partially represented by directional cues, which means monophonic cues with the corresponding direction from which they are supposed to affect the listener, together with some calculation parameters for calculating parts of the original HOA representation from the directional cues. In addition, it is assumed that the dominant sound component is represented by "vector signals", which means monophonic signals with a corresponding vector that determines the directional distribution of the vector signals.

Сжатие HOAHOA compression

Общая архитектура компрессора на основе HOA, описанная в документе EP 2800401 A1, показана на фиг. 1. Он имеет часть пространственного кодирования HOA, изображенную на фиг. 1A, и часть перцепционного кодирования и часть кодирования источника, изображенную на фиг. 1B. Пространственный кодер HOA создает первое сжатое представление HOA, состоящее из I сигналов, вместе с побочной информацией, описывающей то, каким образом создать их представление HOA. В кодерах источника перцепционной и побочной информации I сигналов являются перцепционно кодированными, и побочная информация подвергается кодированию источника перед мультиплексированием двух кодированных представлений.The general architecture of a HOA-based compressor described in EP 2800401 A1 is shown in Fig. 1. It has a HOA spatial coding part shown in Fig. 1A and a perceptual coding part and a source coding part shown in Fig. 1B. The HOA spatial coder produces a first compressed HOA representation consisting of I signals together with side information describing how to produce their HOA representation. In the perceptual and side information source coders, the I signals are perceptually coded and the side information is source coded before the two coded representations are multiplexed.

Пространственное кодирование HOASpatial encoding of HOA

На первом этапе текущий k -й кадр C ( k ) исходного представления HOA вводят на этапе или стадии 11 оценочной обработки направления и вектора, который предполагает создание наборов последовательностей M_DIR( k ) и M_VEC( k ). Набор последовательностей M_DIR( k ) состоит из последовательностей, первый элемент которых обозначает индекс направленного сигнала, а второй элемент обозначает соответствующее квантованное направление. Набор последовательностей M_VEC( k ) состоит из последовательностей, первый элемент которых обозначает индекс векторного сигнала, а второй элемент обозначает вектор, определяющий распределение по направлениям сигналов, т. е. то, каким образом вычисляется представление HOA векторного сигнала.In the first stage, the current k -th frame C ( k ) of the original HOA representation is input to the direction and vector evaluation processing stage or step 11, which involves creating sets of sequences M _DIR ( k ) and M _VEC ( k ). The set of sequences M _DIR ( k ) consists of sequences whose first element denotes the index of the directional signal, and whose second element denotes the corresponding quantized direction. The set of sequences M _VEC ( k ) consists of sequences whose first element denotes the index of the vector signal, and whose second element denotes the vector defining the distribution of the signals by directions, i.e., how the HOA representation of the vector signal is calculated.

Используя оба набора последовательностей M_DIR( k ) и M_VEC( k ), начальный кадр HOA C ( k ) разлагается на этапе или стадии 12 декомпрессии HOA в кадр X _PS( k - 1) всех доминирующих звуковых (т. е. на базе направления и вектора) сигналов, и кадр C _AMB( k - 1) компонента окружающей среды HOA. Следует отметить задержку одного кадра, которая происходит вследствие обработки с наложением-добавлением, чтобы избежать блокирующих артефактов. Кроме того, предполагается, что этап/ступень 12 декомпрессии HOA выводит некоторые расчетные параметры ζ ( k - 1), описывающие, каким образом рассчитывать части исходного представления HOA из направленных сигналов, чтобы обогатить доминирующий звуковой компонент HOA. Дополнительно, предполагается, что должен быть создан вектор назначения цели v _A,T( k - 1), содержащий информацию о распределении доминирующих звуковых сигналов, которые были определены на этапе или ступени 12 обработки с разложением HOA, для I доступных каналов. Находящиеся под воздействием каналы могут считаться занятыми, имеется в виду, что они недоступны для передачи каких-либо последовательностей коэффициентов компонента окружающей среды HOA в соответствующем временном кадре.Using both sets of sequences M_DIR( k ) and M_VEC( k ), initial frame HOA C ( k ) is decomposed at stage or stage 12 of HOA decompression into the frame X _P.S.( k - 1) of all dominant sound (i.e. based on direction and vector) signals, and the frame C _AMB( k - 1) HOA environment component. It should be noted that there is a one frame delay, which occurs due to the superposition-addition processing to avoid blocking artifacts. In addition, it is assumed that the HOA decompression stage/step 12 outputs some calculated parameters ζ ( k - 1), describing how to calculate parts of the original HOA representation from the directional signals in order to enrich the dominant sound component of the HOA. Additionally, it is assumed that a target assignment vector should be created v _A,T( k - 1), containing information on the distribution of dominant sound signals that were determined at stage or step 12 of processing with HOA decomposition, for I available channels. The affected channels can be considered as busy, meaning that they are not available to transmit any sequences of HOA environment component coefficients in the corresponding time frame.

На этапе или ступени 13 обработки с изменением компонента окружающей среды кадр C _AMB( k - 1) компонента окружающей среды HOA изменяется в соответствии с информацией, представленной вектором назначения цели v _A,T( k - 1). В частности, определяется, какие последовательности коэффициентов компонента окружающей среды HOA должны быть переданы в данных I каналах, в зависимости (среди других аспектов) от информации (содержащейся в векторе назначения цели v _A,T( k - 1), о том, какие каналы являются доступными и еще не заняты доминирующими звуковыми сигналами. Кроме того, плавное увеличение и плавное уменьшение последовательностей коэффициентов выполняется, если показатели выбранных последовательностей коэффициентов изменяются между последовательными кадрами.In the step or stage 13 of the environment component change processing, the frame C _AMB ( k - 1) of the environment component HOA is changed in accordance with the information represented by the target assignment vector v _A,T ( k - 1). In particular, it is determined which sequences of coefficients of the environment component HOA are to be transmitted in these I channels, depending (among other aspects) on the information (contained in the target assignment vector v _A,T ( k - 1) on which channels are available and not yet occupied by dominant audio signals. In addition, a smooth increase and a smooth decrease of the coefficient sequences is performed if the indices of the selected coefficient sequences change between successive frames.

Кроме того, предполагается, что первые последовательности коэффициентов O _MIN компонента окружающей среды HOA C _AMB( k - 2) всегда выбирают так, чтобы они были перцепционно кодированными и переданными, где O _MIN = ( N _MIN + 1)² с N _MIN ≤ N , как правило, меньшего порядка, чем в исходном представлении HOA. Чтобы декоррелировать эти последовательности коэффициентов HOA, они могут быть преобразованы на этапе/ступени 13 в направленные сигналы (т. е. обобщенная функция планарной волны), падающие из некоторых предопределенных направлений Ω _MIN, _d, d = 1, … , O _MIN.Furthermore, it is assumed that the first sequences of coefficients O _MIN of the environmental component HOA C _AMB ( k - 2) are always chosen to be perceptually encoded and transmitted, where O _MIN = ( N _MIN + 1) ² with N _MIN ≤ N , typically of lower order than in the original HOA representation. In order to decorrelate these sequences of HOA coefficients, they can be transformed in step/stage 13 into directional signals (i.e., a generalized planar wave function) incident from some predetermined directions Ω _MIN, _d , d = 1, … , O _MIN .

Вместе с измененным компонентом окружающей среды HOA C _M,A ( k - 1) временной расчетный измененный компонент окружающей среды HOA C _P _, _M,A ( k - 1) вычисляют на этапе/ступени 13 и используют на этапах или ступенях 15, 151 обработки регулятора усиления, чтобы обеспечить рациональный предварительный просмотр, причем информация об изменении компонента окружающей среды HOA непосредственно связана с распределением всех возможных типов сигналов по доступным каналам на этапе или ступени 14 распределения каналов. Предполагается, что конечная информация об этом распределении содержится в конечном векторе назначения v _A( k - 2). Для вычисления этого вектора на этапе/ступени 13, используют информацию, содержащуюся в векторе назначения цели v _A,T( k - 1).Together with the changed environmental component HOA C _M,A ( k - 1 ), the time-estimated changed environmental component HOA C _P _, _M,A ( k - 1) is calculated at step/stage 13 and used at the gain controller processing stages or steps 15, 151 to provide a rational preview, wherein the information about the change in the environmental component HOA is directly related to the distribution of all possible signal types over the available channels at the channel distribution stage or step 14. It is assumed that the final information about this distribution is contained in the final assignment vector v _A ( k - 2). To calculate this vector at step/stage 13, the information contained in the target assignment vector v _A,T ( k - 1) is used.

Распределение каналов на этапе/ступени 14 устанавливает с помощью информации, представляемой вектором назначения v _A( k - 2), соответствующих сигналов, содержащихся в кадре X _PS( k - 2), и содержащихся в кадре C _M,A( k - 2) для I доступных каналов, дающих кадры сигналов y _i( k - 2), i = 1, … , I . Кроме того, соответствующие сигналы, содержащиеся в кадре X _PS( k - 1) и в кадре C _P,AMB( k - 1), также распределяются по I доступным каналам, давая расчетные кадры сигналов y _P, _i( k - 1), i = 1, … , I .The channel allocation at stage/step 14 is established, using the information represented by the assignment vector v _A ( k - 2), of the corresponding signals contained in the frame X _PS ( k - 2) and contained in the frame C _M,A ( k - 2) for I available channels, yielding signal frames y _i ( k - 2), i = 1, … , I . In addition, the corresponding signals contained in the frame X _PS ( k - 1) and in the frame C _P,AMB ( k - 1) are also allocated to I available channels, yielding calculated signal frames y _P, _i ( k - 1), i = 1, … , I .

Каждый из кадров сигналов y _i( k - 2), i = 1, … , I , наконец, обрабатывается регулятором усиления 15, 151, давая в результате показатели e _i( k - 2) и флаги исключения β _i( k - 2), i = 1, … , I , а в сигналах z _i( k - 2), i = 1, … , I , в которых усиление сигнала является плавно изменяемым, таким образом, чтобы достичь диапазона значений, который подходит для этапов или ступеней 16 перцепционного кодирующего устройства. Выходной сигнал этапов/ступеней 16 соответствует кодированным кадрам сигналов , i = 1, … , I .Each of the signal frames y _i ( k - 2), i = 1, … , I , is finally processed by the gain controller 15, 151, resulting in the exponents e _i ( k - 2) and the exclusion flags β _i ( k - 2), i = 1, … , I , and in the signals z _i ( k - 2), i = 1, … , I , in which the signal gain is smoothly variable, so as to achieve a range of values that is suitable for the stages or steps 16 of the perceptual encoder. The output signal of the stages/steps 16 corresponds to the encoded signal frames , i = 1, … , I .

Расчетные кадры сигналов y _P, _i( k - 1), i = 1, … , I обеспечивают вид предварительного просмотра, чтобы избежать резких изменений усиления между последовательными блоками. Побочные информационные данные M_DIR( k - 1), M_VEC( k - 1), e _i( k - 2), β _i( k - 2), ζ ( k - 1) и v _A( k - 2) являются источником, кодируемым на этапе или ступени 17 кодера источника побочной информации, дающим в результате кодированный кадр побочной информации . В мультиплексоре 18 кодированные сигналы кадра ( k - 2) и кодированные данные побочной информации для этого кадра объединяются, давая в результате выходной кадр .The calculated frames of the signals y _P, _i ( k - 1), i = 1, … , I provide a preview view to avoid abrupt gain changes between successive blocks. The side information data M _DIR ( k - 1), M _VEC ( k - 1), e _i ( k - 2), β _i ( k - 2), ζ ( k - 1 ) and v _A ( k - 2) are source coded in the side information source encoder stage or stage 17, resulting in a coded side information frame . In the multiplexer 18 coded signals frames ( k - 2) and encoded side information data for this frame are combined, resulting in the output frame .

Предполагается, что в пространственном декодере HOA изменения усиления на этапах/ступенях 15, 151 возвращаются за счет использования побочной информации регулятора усиления, состоящей из показателей e _i( k - 2) и флагов исключения β _i( k - 2), i = 1, … , I .It is assumed that in the spatial decoder HOA, the gain changes at stages/steps 15, 151 are fed back by using the gain controller side information consisting of the exponents e _i ( k - 2) and the exclusion flags β _i ( k - 2), i = 1, … , I .

Декомпрессия HOAHOA Decompression

Общая архитектура декомпрессора на основе HOA, описанная в документе EP 2800401 A1, показана на фиг. 2. Он состоит из аналогов компонентов компрессора на основе HOA, которые расположены в обратном порядке и включают в себя часть перцепционного декодирования и часть декодирования источника, изображенную на фиг. 2A и часть пространственного декодирования HOA, изображенную на фиг. 2B.The general architecture of the HOA-based decompressor described in EP 2800401 A1 is shown in Fig. 2. It consists of analogs of the HOA-based compressor components, which are arranged in reverse order and include a perceptual decoding part and a source decoding part, shown in Fig. 2A, and a spatial decoding part of the HOA, shown in Fig. 2B.

В части перцепционного декодирования и части декодирования источника (представляющей декодер источника перцепционной и побочной информации) этап или ступень 21 демультиплексирования принимает входной кадр из потока битов и предоставляет перцепционное кодированное представление , i = 1, … , I для I сигналов и кодированных данных побочной информации , описывающее, каким образом создавать их представление HOA. Сигналы перцепционно декодируются на этапе или ступени 22 перцепционного декодера, давая в результате декодированные сигналы , i = 1, … , I . Кодированные данные побочной информации декодируются на этапе или ступени 23 декодера источника побочной информации, давая в результате наборы данных M_DIR( k + 1), M_VEC( k + 1), показатели e _i( k ), флаги исключения β _i( k ), расчетные параметры ζ ( k + 1) и вектор назначения v _AMB,ASSIGN( k ). Относительно разницы между v _A и v _AMB,ASSIGN, см. вышеупомянутый документ N14264 касательно MPEG.In the perceptual decoding part and the source decoding part (representing the source decoder of perceptual and side information), the demultiplexing stage or step 21 receives an input framefrom a bit stream and provides a perceptually encoded representation, i = 1, … , I For I signals and coded data of side information, describing how to create their HOA representation. Signalsare perceptually decoded at stage or step 22 of the perceptual decoder, resulting in decoded signals, i = 1, … , I . Coded side information dataare decoded at stage or step 23 of the side information source decoder, resulting in data sets M_DIR( k + 1), M_VEC( k + 1), indicators e _i( k ), exception flags β _i( k ), calculation parameters ζ ( k + 1) and the destination vector v _AMB,ASSIGN( k ). Regarding the difference between v _A And v _AMB,ASSIGN, see the above mentioned document N14264 regarding MPEG.

Пространственное декодирование HOASpatial Decoding of HOA

В части пространственного декодирования HOA каждый из перцепционно декодированных сигналов , i = 1, … , I , является входным на этапе или ступени 24, 241 инверсной обработки регулятора усиления вместе со связанным с ним показателем коррекции усиления e _i( k ) и флагом исключения коррекции усиления β _i( k ). На i -м этапе/ступени инверсной обработки регулятора усиления создается кадр скорректированного сигнала усиления .In the spatial decoding part of HOA, each of the perceptually decoded signals , i = 1, … , I , is input to the gain controller inversion processing stage or step 24, 241 together with the associated gain correction index e _i ( k ) and the gain correction exclude flag β _i ( k ). At the i -th gain controller inversion processing stage/step, a frame of the corrected gain signal is created .

Все I кадры скорректированных сигналов усиления , i = 1, … , I , подаются вместе с вектором назначения v _AMB,ASSIGN( k ) и наборами последовательностей M_DIR( k + 1) и M_VEC( k + 1) на этап или ступень 25 перераспределения каналов, см. вышеописанное определение наборов последовательностей M_DIR( k + 1) и M_VEC( k + 1). Вектор назначения v _AMB,ASSIGN( k ) состоит из I компонентов, которые показывают для каждого канала передачи, содержит ли он последовательность коэффициентов компонента окружающей среды HOA, и какой из них он содержит. На этапе/ступени 25 перераспределения каналов кадры скорректированных сигналов усиления перераспределяются, чтобы реконструировать кадр всех доминирующих звуковых сигналов (т. е. всех сигналов на базе направления и вектора) и кадр C _I,AMB( k ) промежуточного представления компонента окружающей среды HOA. Кроме того, набор J _AMB,ACT( k ) показателей последовательностей коэффициентов компонента окружающей среды HOA активен в k -м кадре, и представляются наборы данных J _E( k - 1), J _D( k - 1) и J _U( k - 1) показателей коэффициентов компонента окружающей среды HOA, который должен быть включен, выключен и оставаться активным в ( k - 1)-м кадре.All I frames of adjusted gain signals, i = 1, … , I ,are submitted together with the destination vector v _AMB,ASSIGN( k ) and sets of sequences M_DIR( k + 1) and M_VEC( k + 1) to the stage or step 25 of channel redistribution, see the above-described definition of sequence sets M_DIR( k + 1) and M_VEC( k + 1). Destination vector v _AMB,ASSIGN( k ) consists of I components that indicate for each transmission channel whether it contains a sequence of HOA environment component coefficients and which one it contains. At channel reallocation stage 25, frames of the adjusted gain signalsare redistributed to reconstruct the frameall dominant audio signals (i.e. all direction and vector based signals) and frame C _I,AMB( k ) intermediate representation of the HOA environment component. In addition, the set J _AMB,ACT( k ) indicators of the sequences of coefficients of the component of the environment HOA is active in k -m frame, and data sets are presented J _E( k - 1), J _D( k - 1) and J _U( k - 1) the coefficients of the HOA environmental component that must be turned on, off and remain active in ( k - 1)-th frame.

На этапе или ступени 26 синтеза доминирующего звука представление HOA доминирующего компонента звука вычисляется из кадра всех доминирующих звуковых сигналов, использующих набор последовательностей M_DIR( k + 1), набор ζ ( k + 1) расчетных параметров, набор последовательностей M_VEC( k + 1) и наборы данных J _E( k - 1), J _D( k - 1) и J _U( k - 1).At stage or step 26 of the dominant sound synthesis, the HOA representation of the dominant sound component calculated from the frame of all dominant audio signals using a set of sequences M _DIR ( k + 1 ), a set ζ ( k + 1 ) of estimated parameters, a set of sequences M _VEC ( k + 1 ) and data sets J _E ( k - 1 ), J _D ( k - 1 ) and J _U ( k - 1 ).

На этапе или ступени 27 синтеза окружающей среды компонента окружающей среды HOA кадр создается из кадра C _I,AMB( k ) промежуточного представления компонента окружающей среды HOA, используя набор J _AMB,ACT( k ) показателей последовательностей коэффициентов компонента окружающей среды HOA, которые активны в k -м кадре. Задержка одного кадра вводится вследствие синхронизации с доминирующим звуковым компонентом HOA. Наконец, на этапе или ступени 28 смешивания HOA компонента окружающей среды HOA кадр и кадр доминирующего звукового компонента HOA налагаются таким образом, чтобы создавать декодированный кадр HOA .At stage or step 27 of the synthesis of the environment of the component of the environment HOA frame is created from frame C _I,AMB ( k ) of the intermediate representation of the HOA environment component using the set J _AMB,ACT ( k ) of indices of the HOA environment component coefficient sequences that are active in the k -th frame. A delay of one frame is introduced due to synchronization with the dominant HOA audio component. Finally, in the HOA environment component mixing stage or step 28, the HOA frame and frame dominant HOA audio component are superimposed in such a way as to create a decoded HOA frame .

Затем пространственный декодер HOA создает из I сигналов и побочной информации реконструированное представление HOA.The HOA spatial decoder then creates a reconstructed HOA representation from the I signals and side information.

В случае, когда на стороне кодирования компонент окружающей среды HOA был преобразован в направленные сигналы, это преобразование инвертируется на стороне декодера на этапе/ступени 27.In the case where the HOA environment component has been transformed into directional signals on the encoding side, this transformation is inverted on the decoder side at stage/step 27.

Возможные максимальные коэффициенты усиления сигналов перед этапами/ступенями 15, 151 обработки регулятора усиления в компрессоре на основе HOA в значительной степени зависят от диапазона значений входного представления HOA. Следовательно, вначале определяется значимый диапазон значений для входного представления HOA, с последующим заключением о возможных максимальных коэффициентах усиления сигналов, перед поступлением на этапы/ступени обработки регулятора усиления.The possible maximum gains of the signals before the gain control processing stages 15, 151 in the HOA-based compressor depend to a large extent on the range of values of the HOA input representation. Therefore, a meaningful range of values for the HOA input representation is first determined, followed by a conclusion on the possible maximum gains of the signals before entering the gain control processing stages.

Нормализация входного представления HOANormalization of the input representation of HOA

Для использования обработки согласно изобретению раньше должна проводиться нормализация (полного) входного сигнала представления HOA. Для сжатия HOA выполняется обработка по кадрам, где k -й кадр C ( k ) исходного входного представления HOA определяется по вектору c ( t ) непрерывных во времени последовательностей коэффициентов HOA, определенных в уравнении (54) в разделе Основы технологии Ambisonics высшего порядка, какIn order to use the processing according to the invention, the (full) input signal of the HOA representation must be normalized first. For HOA compression, the processing is performed frame by frame, where the k -th frame C ( k ) of the original input HOA representation is determined by the vector c ( t ) of time-continuous sequences of HOA coefficients defined in equation (54) in the section Fundamentals of Higher-Order Ambisonics Technology as

(1) (1)

где k обозначает индекс кадра, L протяженность кадра (в выборках), O = ( N + l)² число последовательностей коэффициентов HOA и T _s показывает период дискретизации.where k denotes the frame index, L is the frame length (in samples), O = ( N + l) ² is the number of HOA coefficient sequences and T _s indicates the sampling period.

Как указано в документе EP 2824661 A1, значащая нормализация представления HOA, рассматривая с практической точки зрения, не достигается путем наложения ограничений на диапазон значений отдельных последовательностей HOA коэффициентов c _n ^m( t ), поскольку эти функции временной области не являются сигналами, которые действительно воспроизводятся громкоговорителями после восстановления. Вместо того, более удобно учитывать «эквивалентное представление пространственной области», которое получают при восстановлении представления HOA в O сигналах виртуальных громкоговорителей w _j( t ), 1 ≤ j ≤ O . Предполагается, что соответствующие положения виртуальных громкоговорителей выражаются посредством сферической системы координат, где считается, что каждое положение лежит на единичной сфере и имеет радиус «1». Следовательно, положения могут быть эквивалентно выражены направлениями, зависимыми от порядка Ω _j ⁽ ^N ⁾ = ( θ _j ⁽ ^N ⁾, φ _j ⁽ ^N ⁾), 1 ≤ j ≤ O , где θ _j ⁽ ^N ⁾ и φ _j ⁽ ^N ⁾ обозначают углы наклона и азимуты, соответственно (см. также фиг. 6 и ее описание для определения сферической системы координат). Эти направления должны быть распределены по единичной сфере как можно равномернее, см., например, технический отчет J. Fliege, U. Maier, "A two-stage approach for computing cubature formulae for the sphere", Technical report, Fachbereich Mathematik, University of Dortmund, 1999. Число узлов находится по ссылке http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html для вычисления конкретных направлений. Эти положения, главным образом, зависят от вида определения «однородного распределения по сфере» и, следовательно, неоднозначны.As stated in document EP 2824661 A1, a meaningful normalization of the HOA representation, considered from a practical point of view, is not achieved by imposing restrictions on the range of values of the individual sequences of HOA coefficients c _n ^m ( t ), since these time domain functions are not the signals that are actually reproduced by the loudspeakers after reconstruction. Instead, it is more convenient to consider an "equivalent spatial domain representation" that is obtained by reconstructing the HOA representation in O virtual loudspeaker signals w _j ( t ), 1 ≤ j ≤ O . It is assumed that the corresponding positions of the virtual loudspeakers are expressed by means of a spherical coordinate system, where each position is considered to lie on the unit sphere and to have a radius of "1". Therefore, the positions can be equivalently expressed by the order-dependent directions Ω _j ⁽ ^N ⁾ = ( θ _j ⁽ ^N ⁾ , φ _j ⁽ ^N ⁾ ), 1 ≤ j ≤ O , where θ _j ⁽ ^N ⁾ and φ _j ⁽ ^N ⁾ denote the tilt angles and azimuths, respectively (see also Fig. 6 and its description for the definition of a spherical coordinate system). These directions should be distributed over the unit sphere as uniformly as possible, see, for example, the technical report by J. Fliege, U. Maier, "A two-stage approach for computing cubature formulae for the sphere", Technical report, Fachbereich Mathematik, University of Dortmund, 1999. The number of nodes can be found at http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html for computing specific directions. These provisions mainly depend on the type of definition of "uniform distribution over a sphere" and are therefore ambiguous.

Преимущество определения диапазонов значений для сигналов виртуальных громкоговорителей перед определением диапазонов значений для последовательностей коэффициентов HOA заключается в том, что диапазон значений для первого может быть установлен интуитивно равным интервалу [-1,1[, как в случае обычных сигналов громкоговорителей, предполагающих представление PCM. Это ведет к пространственно однородно распределенной ошибке квантования, таким образом, что преимущественно квантование применяют в области, релевантной в отношении реального прослушивания. Важным аспектом в данном контексте является то, что число битов на выборку может быть выбрано таким же низким, каким оно обычно является для обычных сигналов громкоговорителей, т.е. 16, что повышает эффективность по сравнению с прямым квантованием последовательностей коэффициентов HOA, где обычно требуется большее число битов (например, 24 или даже 32) на выборку.The advantage of defining value ranges for virtual loudspeaker signals over defining value ranges for HOA coefficient sequences is that the value range for the former can be intuitively set to the interval [-1,1[ , as in the case of conventional loudspeaker signals assuming PCM representation. This leads to a spatially uniformly distributed quantization error, so that quantization is preferably applied in the region relevant for real listening. An important aspect in this context is that the number of bits per sample can be chosen as low as it is typically for conventional loudspeaker signals, i.e. 16, which improves efficiency compared to direct quantization of HOA coefficient sequences, where a higher number of bits (e.g. 24 or even 32) per sample is typically required.

Для подробного описания процесса нормализации в пространственной области, все сигналы виртуальных громкоговорителей суммируются в векторе как w ( t ):= [ w ₁( t ) … w _O( t )]^T, (2)To describe the normalization process in the spatial domain in detail, all virtual loudspeaker signals are summed into a vector as w ( t ) : = [ w ₁ ( t ) … w _O ( t )] ^T , (2)

где (·)^T обозначает преобразование. Обозначая модовую матрицу по виртуальным направлениям Ω _j ⁽ ^N ⁾, 1 ≤ j ≤ O , как Ψ , которая определяется в виде (3)where ( ) ^T denotes the transformation. Denoting the mode matrix in the virtual directions Ω _j ⁽ ^N ⁾ , 1 ≤ j ≤ O , as Ψ , which is defined as (3)

с , (4)With , (4)

процесс восстановления может быть выражен как умножение матриц w ( t ) = ( Ψ )^-1 · c ( t ). (5)the reconstruction process can be expressed as matrix multiplication w ( t ) = ( Ψ ) ^-1 · c ( t ). (5)

Используя эти определения, обоснованным требованием к сигналам виртуальных громкоговорителей является:Using these definitions, a reasonable requirement for virtual loudspeaker signals is:

(6) (6)

что означает, что амплитуда каждого сигнала виртуального громкоговорителя должна лежать в диапазоне [-1,1[. Мгновение времени t представлено индексом выборки l и периодом выборки T _S для значений выборки указанных кадров данных HOA.which means that the amplitude of each virtual loudspeaker signal must lie in the range [-1,1[ . The time instant t is represented by the sample index l and the sample period T _S for the sample values of the specified HOA data frames.

Полная мощность сигналов громкоговорителей, следовательно, удовлетворяет условиюThe total signal power of the loudspeakers therefore satisfies the condition

(7) (7)

Восстановление и нормализация представления кадра данных HOA выполняется перед вводом C ( k ) по фиг. 1A.The reconstruction and normalization of the HOA data frame representation is performed before the input C ( k ) in Fig. 1A.

Последствия для диапазона значений сигнала перед регулятором усиленияConsequences for the signal value range before the gain control

Предполагая, что нормализация входного представления HOA выполняется в соответствии с описанием, приведенным в разделе Нормализация входного представления HOA, диапазон значений сигналов y _i, i = 1, … , I , которые вводятся в блок 15, 151 обработки регулятора усиления в компрессоре на основе HOA, учитывается в дальнейшем. Эти сигналы создаются путем распределения по доступным I каналам одной или более последовательностей коэффициентов HOA, или доминирующих звуковых сигналов x _PS, _d, d = l, … , D , и/или конкретных последовательностей коэффициентов компонента окружающей среды HOA c _AMB, _n, n = l, …, O , к части которых применяется пространственное преобразование. Следовательно, необходимо анализировать возможный диапазон значений данных упомянутых различных типов сигналов при допущении нормализации в уравнении (6). Поскольку все виды сигналов косвенно вычисляют из исходных последовательностей коэффициентов HOA, рассматриваются их возможные диапазоны значений.Assuming that the normalization of the input representation HOA is performed in accordance with the description given in the section Normalization of the Input Representation HOA , the range of values of the signals y _i , i = 1, … , I , which are input to the gain controller processing block 15, 151 in the HOA-based compressor, is taken into account in the following. These signals are created by distributing, over the available I channels, one or more sequences of HOA coefficients, or dominant audio signals x _PS, _d , d = l, … , D , and/or specific sequences of HOA environment component coefficients c _AMB, _n , n = l, …, O , to a part of which a spatial transformation is applied. Therefore, it is necessary to analyze the possible range of data values of the mentioned different types of signals when assuming normalization in equation (6). Since all types of signals are indirectly calculated from the original sequences of HOA coefficients, their possible ranges of values are considered.

Случай, в котором только одна или более последовательностей коэффициентов HOA содержится в I каналах, не изображен на фиг. 1A и фиг. 2B, т. е. в таком случае разложения HOA изменение компонента окружающей среды и соответствующие блоки синтеза не требуются.The case in which only one or more HOA coefficient sequences are contained in the I channels is not shown in Fig. 1A and Fig. 2B, i.e. in such a case the HOA decomposition does not require the environment component change and the corresponding synthesis blocks.

Последствия для диапазона значений представления HOAImplications for the HOA representation value range

Непрерывное во времени представление HOA получают из сигналов виртуальных громкоговорителей по уравнению c ( t ) = Ψw ( t ), (8)The continuous-time representation of the HOA is obtained from the virtual loudspeaker signals using the equation c ( t ) = Ψw ( t ), (8)

которое является обратной операцией относительно уравнения (5).which is the inverse operation of equation (5).

Следовательно, полная мощность последовательностей коэффициентов HOA связана следующим образом:Therefore, the total power of the HOA coefficient sequences is related as follows:

, (9) , (9)

используя уравнения (8) и (7).using equations (8) and (7).

При допущении N3D нормализации функций сферических гармоник, квадрат евклидовой нормы модовой матрицы может быть записан в виде || Ψ ||₂ ² = K · O (10a) Assuming N3D normalization of the spherical harmonic functions, the square of the Euclidean norm of the mode matrix can be written as || Ψ ||₂ ²= K · O (10a)

где (10b)Where (10b)

обозначает отношение между квадратом евклидовой нормы модовой матрицы и числом O последовательностей коэффициентов HOA. Данное отношение зависит от конкретного порядка N HOA и конкретных направлений виртуальных громкоговорителей Ω _j ⁽ ^N ⁾, 1 ≤ j ≤ O , которые могут быть выражены путем дополнения к отношению соответствующего списка параметров следующим образом:denotes the ratio between the square of the Euclidean norm of the mode matrix and the number O of HOA coefficient sequences. This ratio depends on the specific order N of the HOA and the specific directions of the virtual loudspeakers Ω _j ⁽ ^N ⁾ , 1 ≤ j ≤ O , which can be expressed by complementing the ratio with the appropriate list of parameters as follows:

K = K ( N , Ω ₁ ⁽ ^N ⁾ _{, …} Ω _O ⁽ ^N ⁾). (10c) K = K ( N , Ω ₁ ⁽ ^N ⁾ _{, …} Ω _O ⁽ ^N ⁾). (10c)

На фиг. 3 показаны значения K для виртуальных направлений Ω _j ⁽ ^N ⁾, 1 ≤ j ≤ O , в соответствии с вышеупомянутой статьей Fliege и др. для порядков HOA N = 1, …, 29.Fig. 3 shows the values of K for the virtual directions Ω _j ⁽ ^N ⁾ , 1 ≤ j ≤ O , according to the above-mentioned paper by Fliege et al. for HOA orders N = 1, …, 29.

Объединение всех предыдущих аргументов и соображений дает верхнюю границу для величины последовательностей коэффициентов HOA следующим образом:Combining all the previous arguments and considerations gives an upper bound for the magnitude of the HOA coefficient sequences as follows:

(11) (11)

где первое неравенство вытекает непосредственно из определений нормы.where the first inequality follows directly from the definitions of the norm.

Важно заметить, что условие в уравнении (6) заключает в себе условие в уравнении (11), но обратное не имеет места, т. е. уравнение (11) не заключает в себе уравнение (6).It is important to note that the condition in equation (6) implies the condition in equation (11), but the converse does not hold, i.e. equation (11) does not imply equation (6).

Другим важным аспектом является то, что при условии почти равномерно распределенных положений виртуальных громкоговорителей векторы-столбцы модовой матрицы Ψ , которые представляют векторы мод по положениям виртуальных громкоговорителей, являются почти ортогональными друг к другу и имеют евклидову норму N + 1 каждого. Данное свойство означает, что пространственное преобразование почти сохраняет евклидову норму, за исключением постоянного множителя, т. е.Another important aspect is that, given nearly uniformly distributed virtual speaker positions, the column vectors of the mode matrix Ψ , which represent the mode vectors over the virtual speaker positions, are nearly orthogonal to each other and have Euclidean norm N + 1 each. This property means that the spatial transformation nearly preserves the Euclidean norm, except for a constant factor, i.e.

. (12) . (12)

Истинная норма || c ( lT _S)||₂ тем больше отличается от приближения в уравнении (12), чем больше нарушается допущение об ортогональности векторов мод.The true norm || c ( lT _S )|| ₂ differs more from the approximation in equation (12) the more the assumption of orthogonality of the mode vectors is violated.

Последствия для диапазона значений доминирующих звуковых сигналовConsequences for the range of values of dominant sound signals

Оба типа доминирующих звуковых сигналов (направленных и векторных) имеют то общее, что их вклад в представление HOA описывается одним вектором с евклидовой нормой N + 1, т. е. || v ₁||₂ = N + 1. (13)Both types of dominant sound signals (directional and vectorial) have in common that their contribution to the HOA representation is described by a single vector with the Euclidean norm N + 1, i.e. || v ₁ || ₂ = N + 1. (13)

В случае направленного сигнала этот вектор соответствует вектору моды по определенному направлению источника сигнала Ω _S _,1, т. е.In the case of a directional signal, this vector corresponds to the mode vector in a certain direction of the signal source Ω _S _,1 , i.e.

v ₁ = S ( Ω _S,1) (14) v ₁= S ( Ω _S,1) (14)

(15) (15)

Данный вектор описывает с помощью представления HOA направленный луч в направлении источника сигнала Ω _S,1. В случае векторных сигналов, вектор v ₁ не ограничен тем, чтобы быть вектором моды по какому-либо направлению, и, следовательно, может описывать более общее распределение по направлениям монофонического векторного сигнала.This vector describes, using the HOA representation, a directional ray in the direction of the signal source Ω _S,1 . In the case of vector signals, the vector v ₁ is not restricted to being a mode vector in any direction, and can therefore describe a more general directional distribution of a monophonic vector signal.

В дальнейшем рассматривается общий случай D доминирующих звуковых сигналов x _d( t ), d = 1, … , D , которые могут быть заключены в векторе x ( t ) в соответствии сIn what follows, we consider the general case of D dominant sound signals x _d ( t ), d = 1, … , D , which can be contained in the vector x ( t ) in accordance with

x ( t ) = [ x ₁( t ) x ₂ ( t ) … x _D( t )]^T. (16) x ( t ) = [ x ₁( t ) x ₂( t ) … x _D( t )]^T. (16)

Данные сигналы должны определяться на основе матрицыThese signals must be determined based on the matrix

V: = [ v ₁ v ₂ … v _D] (17) V : = [ v ₁ v ₂ … v _D ] (17)

которая образована всеми векторами v _d, d = l, … , D , представляющими распределение по направлениям монофонических доминирующих сигналов x _d( t ), d = 1, …, D .which is formed by all vectors v _d , d = l, … , D , representing the distribution in directions of monophonic dominant signals x _d ( t ), d = 1, …, D .

Для получения значимого извлечения доминирующих звуковых сигналов x ( t ) сформулированы следующие ограничения:To obtain meaningful extraction of dominant sound signals x ( t ), the following constraints are formulated:

a) Каждый доминирующий звуковой сигнал получают как линейную комбинацию последовательностей коэффициентов исходного представления HOA, т. е.a) Each dominant sound signal is obtained as a linear combination of the sequences of coefficients of the original HOA representation, i.e.

x ( t )= A · c ( t ), (18) x ( t )= A · c ( t ), (18)

где обозначает матрицу смешивания.Where denotes the mixing matrix.

b) Матрица смешивания Α должна выбираться таким образом, чтобы ее евклидова норма не превышала значения «1», т. е.b) The mixing matrix A should be chosen in such a way that its Euclidean norm does not exceed the value “1”, i.e.

, (19) , (19)

и таким образом, чтобы квадрат евклидовой нормы (или эквивалентная мощность) остатка между исходным представлением HOA и представлением доминирующих звуковых сигналов был не больше, чем квадрат евклидовой нормы (или эквивалентная мощность) исходного представления HOA, т. е.and such that the square of the Euclidean norm (or equivalent power) of the residual between the original HOA representation and the representation of the dominant sound signals is no greater than the square of the Euclidean norm (or equivalent power) of the original HOA representation, i.e.

. (20) . (20)

При вводе уравнения (18) в уравнение (20) видно, что уравнение (20) эквивалентно ограничениюWhen introducing equation (18) into equation (20), it is seen that equation (20) is equivalent to the constraint

, (21) , (21)

где I обозначает единичную матрицу.where I denotes the identity matrix.

Из ограничений в уравнении (18) и (19) и из совместимости евклидовой матрицы и векторных норм, верхнюю границу для амплитуд доминирующих звуковых сигналов находят с помощью уравненийFrom the constraints in equations (18) and (19) and from the compatibility of the Euclidean matrix and vector norms, the upper bound for the amplitudes of the dominant sound signals is found using the equations

(22) (22)

(23) (23)

, (24) , (24)

используя уравнения (18), (19) и (11). Следовательно, гарантируется, что доминирующие звуковые сигналы остаются в том же диапазоне, что и исходные последовательности коэффициентов HOA (сравните с уравнением (11)), т. е. (25)using equations (18), (19) and (11). Therefore, it is guaranteed that the dominant audio signals remain in the same range as the original HOA coefficient sequences (compare with equation (11)), i.e. (25)

Пример выбора матрицы смешиванияExample of choosing a mixing matrix

Пример того, как определить матрицу смешивания, удовлетворяющую ограничению (20), получают путем вычисления доминирующих звуковых сигналов таким образом, что евклидова норма остатка после извлечения сведена к минимуму, т. е.An example of how to determine a mixing matrix satisfying constraint (20) is obtained by computing the dominant audio signals in such a way that the Euclidean norm of the residual after extraction is minimized, i.e.

x ( t ) = argmin _x ₍ _t ₎|| V • x ( t ) - c ( t ) ||₂. (26) x ( t ) =argmin _x ₍ _t ₎|| V • x ( t ) - c ( t ) ||₂. (26)

Решение для минимизации проблемы в уравнении (26) дано с помощью x ( t ) = V ⁺ + c ( t ), (27)The solution to minimize the problem in equation (26) is given by x ( t ) = V ⁺ + c ( t ), (27)

где (•)⁺ показывает псевдоинверсию Мура-Пенроуза. Из сравнения уравнения (27) с уравнением (18) следует, что, в данном случае, матрица смешивания равна псевдоинверсии Мура-Пенроуза матрицы V , т. е. A = V ⁺. Тем не менее, матрица V по-прежнему должна выбираться так, чтобы удовлетворять ограничению (19), т. е. . (28)where (•) ⁺ indicates the Moore-Penrose pseudo-inverse. Comparing equation (27) with equation (18) shows that, in this case, the mixing matrix is equal to the Moore-Penrose pseudo-inverse of V , i.e., A = V ⁺ . However, V must still be chosen to satisfy constraint (19), i.e., . (28)

В случае только направленных сигналов, когда матрица V представляет собой модовую матрицу по некоторым направлениям сигналов источникаIn the case of only directional signals, when the matrix V is the mode matrix in some directions of the source signals

Ω _S, _d , d = 1, … , D , т. е. V = [ S ( Ω _S,1) S ( Ω _S, ₂) … S ( Ω _S, _D)], (29) Ω _S, _d , d = 1, … , D , i.e. V = [ S ( Ω _S,1) S ( Ω _S, ₂) … S ( Ω _S, _D)], (29)

ограничение (28) может быть удовлетворено при выборе направлений сигналов источника Ω _S, _d, d = 1, …, D , таким образом, чтобы расстояние между двумя соседними направлениями было не слишком малым.constraint (28) can be satisfied by choosing the directions of the source signals Ω _S, _d , d = 1, …, D , in such a way that the distance between two adjacent directions is not too small.

Последствия для диапазона значений последовательностей коэффициентов компонента окружающей среды HOAImplications for the range of values of the HOA environmental component coefficient sequences

Компонент окружающей среды HOA представляет собой компонент, вычисленный путем вычитания из исходного представления HOA представления HOA доминирующих звуковых сигналов, т. е. c _AMB( t ) = c ( t ) - V • x ( t ). (30)The ambient component of the HOA is the component calculated by subtracting the dominant sound cues HOA representation from the original HOA representation, i.e. c _AMB ( t ) = c ( t ) - V • x ( t ). (30)

Если вектор доминирующих звуковых сигналов x ( t ) определен в соответствии с критерием (20), можно сделать вывод, чтоIf the vector of dominant sound signals x ( t ) is determined in accordance with criterion (20), it can be concluded that

(31) (31)

(32) (32)

(33) (33)

. (34) . (34)

Диапазон значений пространственно преобразованных последовательностей коэффициентов компонента окружающей среды HOARange of values of spatially transformed sequences of HOA environmental component coefficients

Дополнительный аспект обработки сжатия HOA, предложенный в документе EP 2743922 A1 и в вышеупомянутом документе MPEG N14264, заключается в том, что последовательности коэффициентов O _MIN и компонента окружающей среды HOA всегда выбираются так, чтобы быть распределенными по каналам передачи, где O _MIN = ( N _MIN + 1)² с N _MIN ≤ N , как правило, меньшего порядка, чем в исходном представлении HOA. Чтобы декоррелировать эти последовательности коэффициентов HOA, они могут быть преобразованы в сигналы виртуальных громкоговорителей, падающие из некоторых предопределенных направлений Ω _MIN _, _d, d = 1, … , O _MIN (по аналогии с принципами, описанными в разделе Нормализация входного представления HOA).An additional aspect of the HOA compression processing proposed in EP 2743922 A1 and in the above-mentioned MPEG N14264 is that the HOA coefficient sequences O _MIN and the ambient component are always chosen to be distributed over the transmission channels where O _MIN = ( N _MIN + 1) ² with N _MIN ≤ N , typically of lower order than in the original HOA representation. In order to decorrelate these HOA coefficient sequences, they can be transformed into virtual loudspeaker signals incident from some predefined directions Ω _MIN _, _d , d = 1, … , O _MIN (similar to the principles described in Normalization of the HOA Input Representation ).

Определение вектора всех последовательностей коэффициентов компонента окружающей среды HOA с порядковым индексом n ≤ N _MIN по c _AMB,MIN( t ) и модовой матрицей по виртуальным направлениям Ω _MIN, _d, d = 1, … , O _MIN, на Ψ _M _I _N, вектор всех сигналов виртуальных громкоговорителей (определяемых по) w _MIN( t ), получают из уравненияDetermination of the vector of all sequences of coefficients of the environment component HOA with the ordinal index n ≤ N _MIN by c _AMB,MIN ( t ) and the mode matrix by virtual directions Ω _MIN, _d , d = 1, … , O _MIN , on Ψ _M _I _N , the vector of all signals of virtual loudspeakers (determined by) w _MIN ( t ), is obtained from the equation

(35) (35)

Следовательно, используя совместимость евклидовой матрицы и векторных норм,Therefore, using the compatibility of the Euclidean matrix and vector norms,

(36) (36)

(37) (37)

(38) (38)

В вышеупомянутом документе N14264 касательно MPEG виртуальные направления Ω _MIN, _d, d = 1, … , O _MIN, выбирают в соответствии с вышеупомянутой статьей Fliege и др. Соответствующие евклидовы нормы инверсии модовых матриц Ψ _MIN показаны на фиг. 4 для порядков N _MIN = 1, … , 9. Показано, что для N _MIN = 1, … , 9. (39).In the above-mentioned document N14264 concerning MPEG, the virtual directions Ω _MIN, _d , d = 1, … , O _MIN , are chosen in accordance with the above-mentioned paper by Fliege et al. The corresponding Euclidean norms of the inversion of the mode matrices Ψ _MIN are shown in Fig. 4 for the orders N _MIN = 1, … , 9. It is shown that for N _MIN = 1, …, 9. (39).

Однако, это, в общем, не действует для N _MIN > 9, где значения обычно больше, чем «1». Тем не менее, по меньшей мере для 1 ≤ N _MIN ≤ 9 амплитуды сигналов виртуальных громкоговорителей связаны по уравнениюHowever, this does not generally hold for N _MIN > 9, where the values is usually greater than "1". However, at least for 1 ≤ N _MIN ≤ 9 the virtual loudspeaker signal amplitudes are related by the equation

(40) (40)

Путем ограничения входного представления HOA для удовлетворения условию (6), которое требует, чтобы амплитуды сигналов виртуальных громкоговорителей из данного представления HOA не превышали значения «1», может быть гарантировано, что эти амплитуды сигналов перед регулятором усиления не будут превышать значения (см. уравнения (25), (34) и (40)) при следующих условиях:By constraining the input HOA representation to satisfy condition (6), which requires that the signal amplitudes of the virtual loudspeakers from a given HOA representation do not exceed the value "1", it can be guaranteed that these signal amplitudes before the gain control will not exceed the value (see equations (25), (34) and (40)) under the following conditions:

a) Вектор всех доминирующих звуковых сигналов x ( t ) вычисляют в соответствии с уравнением/ограничениями (18), (19) и (20);a) The vector of all dominant sound signals x ( t ) is calculated according to equation/constraints (18), (19) and (20);

b) Минимальный порядок N _MIN, который определяет число O _MIN первых последовательностей коэффициентов компонента окружающей среды HOA, к которым применяется пространственное преобразование, должен быть меньше, чем «9», при использовании в качестве положений виртуальных громкоговорителей, которые определены в вышеупомянутой статье Fliege и др.b) The minimum order N _MIN , which defines the number O _MIN of the first sequences of HOA environment component coefficients to which the spatial transform is applied, shall be less than '9' when used as virtual loudspeaker positions as defined in the above-mentioned Fliege et al. paper.

Далее, можно сделать вывод, что амплитуды сигналов перед регулятором усиления не будут превышать значения для любого порядка N вплоть до максимального порядка N _MAX, представляющего интерес, т. е. 1 ≤ N ≤ N _MAX, где . (41a)Further, it can be concluded that the signal amplitudes before the gain controller will not exceed the value for any order N up to the maximum order N _MAX of interest, i.e. 1 ≤ N ≤ N _MAX , where . (41a)

В частности, исходя из фиг. 3, можно сделать вывод, что если направления виртуальных громкоговорителей Ω _j ⁽ ^N ⁾, 1 ≤ j ≤ O , для исходного пространственного преобразования, как предполагается, выбраны в соответствии с распределением по статье Fliege и др., и если дополнительно максимальный порядок, представляющий интерес, предполагается равным N _MAX = 29 (как, например, в документе N14264 касательно MPEG), то амплитуды сигналов перед регулятором усиления не будут превышать значения 1,5 O , поскольку < 1,5 в данном особом случае. Т. е. можно выбрать = 1,5.In particular, from Fig. 3, it can be concluded that if the directions of the virtual loudspeakers Ω _j ⁽ ^N ⁾ , 1 ≤ j ≤ O , for the original spatial transform are assumed to be chosen according to the distribution in the paper by Fliege et al., and if additionally the maximum order of interest is assumed to be N _MAX = 29 (as, for example, in the MPEG document N14264), then the signal amplitudes before the gain control will not exceed the value 1.5 O , since < 1.5 in this special case. That is, you can choose = 1.5.

K _MAX зависит от максимального порядка, представляющего интерес, N _MAX и направлений виртуальных громкоговорителей Ω _j ⁽ ^N ⁾, 1 ≤ j ≤ O , которые могут быть выражены как K _MAX depends on the maximum order of interest, N _MAXand directions of virtual loudspeakers Ω _j ⁽ ^N ⁾, 1 ≤ j ≤ O , which can be expressed as

. (41b) . (41b)

Следовательно, минимальный коэффициент усиления, применяемый с помощью регулятора усиления, для гарантии, что сигналы перед перцепционным кодированием лежат в пределах интервала [-1.1], задается посредством , гдеTherefore, the minimum gain applied by the gain controller to ensure that the signals before perceptual encoding lie within the interval [-1.1] is given by , Where

. (41c) . (41c)

В случае, когда амплитуды сигналов перед регулятором усиления слишком малы, в документе MPEG N14264 предлагается, что возможно их плавное усиление с коэффициентом до , где e _MAX ≥ 0 передается в качестве побочной информации в кодированном представлении HOA.In the case where the signal amplitudes before the gain controller are too small, the MPEG N14264 document suggests that they can be smoothly amplified by a factor of up to , where e _MAX ≥ 0 is transmitted as side information in the HOA encoded representation.

Таким образом, каждый показатель по основанию «2», описывающий в блоке доступа полное абсолютное изменение амплитуды измененного сигнала, вызванное блоком обработки регулятора усиления, от первого до текущего кадра, может принимать любое целое значение в пределах интервала [ e _MIN , e _MAX]. Следовательно, (наименьшее целое) число β _e битов, требуемое для кодирования, задано уравнениемThus, each base-2 exponent describing in the access block the total absolute change in the amplitude of the modified signal caused by the gain controller processing block from the first to the current frame can take any integer value within the interval [ e _MIN , e _MAX ]. Therefore, the (least integer) number β _e of bits required for encoding is given by the equation

. (42) . (42)

В случае, когда амплитуды сигналов перед регулятором усиления не слишком малые, уравнение (42) может быть упрощено:In the case where the signal amplitudes before the gain controller are not too small, equation (42) can be simplified:

. (42a) . (42a)

Данное число битов β _e может быть вычислено на входе этапов/ступеней 15, … , 151 регулятора усиления.This number of bits β _e can be calculated at the input of stages/steps 15, …, 151 of the gain controller.

Использование этого числа β _e битов для показателя гарантирует, что все возможные абсолютные изменения амплитуды, вызванные блоками 15, … , 151 обработки регулятора усиления компрессора на основе HOA, могут быть зарегистрированы, позволяя начинать декомпрессию в некоторых заранее определенных точках входа в пределах сжатого представления.Using this number β _e bits for the exponent ensures that all possible absolute amplitude changes caused by the HOA-based compressor gain control processing blocks 15, …, 151 can be registered, allowing decompression to start at some predetermined entry points within the compressed representation.

При начале декомпрессии сжатого представления HOA в декомпрессоре на основе HOA недифференцируемые значения коэффициентов усиления, представляющие полные абсолютные изменения амплитуды, присвоенные побочной информации для некоторых кадров данных, и принимаемые от демультиплексора 21 вне принятого потока данных , используются на этапах или ступенях 24,…, 241 обратного регулятора усиления для применения соответствующего регулятора усиления, в режиме, противоположном обработке, которая выполнялась на этапах/ступенях 15,…, 151 регулятора усиления.At the start of decompression of the compressed HOA representation in the HOA-based decompressor, non-differentiable gain values representing the total absolute amplitude changes assigned to the side information for some data frames and received from the demultiplexer 21 outside the received data stream , are used in the stages or steps 24,…, 241 of the inverse gain control to apply the corresponding gain control in a mode opposite to the processing that was performed in the stages/steps 15,…, 151 of the gain control.

Дополнительный вариант осуществленияAdditional embodiment

При реализации конкретной системы компрессии/декомпрессии HOA, как описано в разделах Компрессия HOA, Пространственное кодирование HOA, Декомпрессия HOA и Пространственное декодирование HOA, число β _e битов для кодирования показателя должно быть установлено в соответствии с уравнением (42), в зависимости от масштабного коэффициента K _MAX.DES, который сам зависит от желаемого максимального порядка N _MAX.DES представления HOA, подлежащего сжатию, и определенных направлений виртуальных громкоговорителей , 1 ≤ N ≤ N _MAX.When implementing a specific HOA compression/decompression system as described in sectionsHOA Compression, HOA Spatial Coding, HOA Decompression and HOA Spatial Decoding, number β _ebits for encoding the indicator must be set according to equation (42), depending on the scale factor K _MAX.DES, which itself depends on the desired maximum order N _MAX.DES representation of the HOA to be compressed and the defined directions of the virtual loudspeakers, 1 ≤ N ≤ N _MAX.

Например, предполагая, что N _MAX _, _DES = 29, и выбирая направления виртуальных громкоговорителей в соответствии со статьей Fliege и др., обоснованным выбором будет . В этой ситуации правильное сжатие гарантировано для представлений HOA с порядковым номером N при 1 ≤ N ≤ N _MAX, которые нормализованы в соответствии с разделом Нормализация входного представления HOA, используя те же направления виртуальных громкоговорителей . Однако, эта гарантия не может быть предоставлена в случае представления HOA, которое также (по соображениям эффективности) эквивалентно представлено сигналами виртуальных громкоговорителей в формате PCM, но в котором направления , 1 ≤ j ≤ O , виртуальных громкоговорителей выбраны так, чтобы отличаться от направлений виртуальных громкоговорителей , предполагаемых на этапе проектирования системы.For example, assuming N _MAX _, _DES = 29, and choosing the virtual speaker directions according to Fliege et al., a reasonable choice would be . In this situation, correct compression is guaranteed for HOA representations with ordinal number N for 1 ≤ N ≤ N _MAX , which are normalized according to the section Normalization of the HOA input representation using the same virtual speaker directions . However, this guarantee cannot be given in the case of the HOA representation, which is also (for efficiency reasons) equivalently represented by virtual loudspeaker signals in PCM format, but in which the directions , 1 ≤ j ≤ O , the virtual loudspeakers are chosen to differ from the directions of the virtual loudspeakers , assumed at the system design stage.

Вследствие такого отличающегося выбора положений виртуальных громкоговорителей, даже если амплитуды этих сигналов виртуальных громкоговорителей лежат в пределах интервала [1,1[, больше не может быть гарантировано, что амплитуды сигналов перед регулятором усиления не будут превышать значения . И, следовательно, невозможно гарантировать, что это представление HOA имеет соответствующую нормализацию для сжатия, в соответствии с обработкой, описанной в документе MPEG N14264.Due to this different choice of virtual loudspeaker positions, even if the amplitudes of these virtual loudspeaker signals lie within the interval [1,1[ , it can no longer be guaranteed that the amplitudes of the signals before the gain control will not exceed the value . And therefore it is not possible to guarantee that this HOA representation has the appropriate normalization for compression, in accordance with the processing described in MPEG N14264.

В данной ситуации предпочтительно иметь систему, которая обеспечивает, основываясь на знании положений виртуальных громкоговорителей, максимально допустимую амплитуду сигналов виртуальных громкоговорителей, чтобы гарантировать соответствующее представление HOA, пригодное для сжатия в соответствии с обработкой, описанной в документе N14264 касательно MPEG. На фиг. 5 проиллюстрирована такая система. Она принимает в качестве входных данных положения виртуальных громкоговорителей , 1 ≤ j ≤ O , где O = ( N + 1)² при , и создает в качестве выходных данных максимально допустимую амплитуду γ _d _B (измеряемую в децибелах) сигналов виртуальных громкоговорителей. На этапе или ступени 51 вычисляется модовая матрица Ψ по положениям виртуальных громкоговорителей, в соответствии с уравнением (3). На следующем этапе или ступени 52 вычисляется евклидова норма || Ψ ||₂ модовой матрицы. На третьем этапе или ступени 53 вычисляется амплитуда γ как минимум «1» и отношение между произведением квадратного корня из числа положений виртуальных громкоговорителей и K _MAX,DES, и евклидовой нормой модовой матрицы, т. е.,In this situation, it is preferable to have a system that provides, based on knowledge of the virtual loudspeaker positions, the maximum permissible amplitude of the virtual loudspeaker signals in order to ensure an appropriate HOA representation suitable for compression according to the processing described in document N14264 concerning MPEG. Fig. 5 illustrates such a system. It takes as input the positions of the virtual loudspeakers , 1 ≤ j ≤ O , where O = ( N + 1) ² at , and produces as output the maximum allowable amplitude γ _d _B (measured in decibels) of the virtual loudspeaker signals. In step or stage 51, the mode matrix Ψ is calculated from the virtual loudspeaker positions, according to equation (3). In the next step or stage 52, the Euclidean norm || Ψ || ₂ of the mode matrix is calculated. In the third step or stage 53, the amplitude γ is at least "1" and the ratio between the product of the square root of the number of virtual loudspeaker positions and K _MAX,DES , and the Euclidean norm of the mode matrix, i.e.,

. (43) . (43)

Значение в децибелах получено по формуле . (44)The value in decibels is obtained using the formula . (44)

Для пояснения: из вывода вышеуказанного видно, что, если величина последовательностей коэффициентов HOA не превышает значения , т. е., еслиTo clarify: from the above derivation it is clear that if the magnitude of the HOA coefficient sequences does not exceed the value , i.e., if

, (45) , (45)

все сигналы перед блоками 15, 151 обработки регулятора усиления будут, соответственно, не превышать этого значения, что является требованием к соответствующему сжатию HOA.all signals before the gain controller processing blocks 15, 151 will, accordingly, not exceed this value, which is a requirement for the corresponding HOA compression.

Из уравнения (9) найдено, что величина последовательностей коэффициентов HOA связана отношениемFrom equation (9) it is found that the magnitude of the HOA coefficient sequences is related by the ratio

. (46) . (46)

Следовательно, если значение γ установлено в соответствии с уравнением (43), и сигналы виртуальных громкоговорителей в формате PCM удовлетворяют отношениюTherefore, if the value of γ is set according to equation (43) and the virtual loudspeaker signals in PCM format satisfy the relation

, (47) , (47)

из уравнения (7) следует, что (48)from equation (7) it follows that (48)

и что требование (45) удовлетворено.and that requirement (45) is satisfied.

Т. е. максимальное значение величины «1» в уравнении (6) заменено максимальным значением величины γ в уравнении (47).That is, the maximum value of the quantity “1” in equation (6) is replaced by the maximum value of the quantity γ in equation (47).

Основы технологии Ambisonics высшего порядкаFundamentals of Higher Order Ambisonics Technology

Технология Ambisonics высшего порядка (Higher Order Ambisonics, HOA) основана на описании звукового поля в пределах компактной области, представляющей интерес, которая считается свободной от источников звука. В этом случае пространственно-временное поведение звукового давления p ( t,x ) при времени t и положении x в пределах области, представляющей интерес, физически полностью определяется уравнением однородной волны. В дальнейшем предполагается сферическая система координат, как показано на фиг. 6. В используемой системе координат ось x указывает на фронтальное положение, ось y указывает влево, а ось z указывает вверх. Положение в пространстве x = ( r, θ, φ )^T представлено радиусом r > 0 (т. е. расстоянием до начала координат), углом наклона , измеренным от полярной оси z, и азимутальным углом формула, измеренным против часовой стрелки в плоскости x - y от оси x . Кроме того, (·)^T обозначает преобразование.Higher Order Ambisonics (HOA) is based on the description of the sound field within a compact region of interest, which is assumed to be free of sound sources. In this case, the spatiotemporal behavior of the sound pressure p ( t,x ) at time t and position x within the region of interest is physically determined by the equation of a homogeneous wave. In what follows, a spherical coordinate system is assumed, as shown in Fig. 6. In the coordinate system used, the x- axis points to the frontal position, the y- axis points to the left, and the z- axis points upward. The spatial position x = ( r, θ, φ ) ^T is represented by the radius r > 0 (i.e., the distance to the origin), the tilt angle , measured from the polar z-axis, and the azimuthal angle formula , measured counterclockwise in the x - y plane from the x- axis. In addition, ( ) ^T denotes the transformation.

Затем, можно показать, согласно учебнику «Fourier Acoustics», что преобразование Фурье звукового давления по времени, обозначенное F _t(·), т. е.Then, it can be shown, according to the textbook "Fourier Acoustics", that the Fourier transform of the sound pressure with respect to time, denoted F _t ( ), i.e.

(49) (49)

при ω, обозначающей угловую частоту, и i, указывающей мнимую единицу, может быть развернуто в ряд сферических гармоник в соответствии сwith ω denoting the angular frequency and i indicating the imaginary unit, can be expanded into a series of spherical harmonics according to

, (50) , (50)

где c _s обозначает скорость звука, а k обозначает угловой индекс моды, который связан с угловой частотой ω по формуле . Кроме того, j _n(·) обозначает сферические функции Бесселя первого рода, а обозначает вещественные сферические гармоники с порядком n и степенью m , которые определены в разделе Определение вещественных сферических гармоник. Коэффициенты расширения зависят только от углового индекса моды k . Следует заметить, что неявно предполагается, что звуковое давление является пространственно ограниченным по полосе частот. Таким образом, ряд усечен по порядковому индексу n при верхнем пределе N , который называется порядком представления HOA.where c _s denotes the speed of sound and k denotes the angular mode index, which is related to the angular frequency ω by the formula . In addition, j _n ( ) denotes the spherical Bessel functions of the first kind, and denotes the real spherical harmonics of order n and degree m , which are defined in the section Definition of real spherical harmonics . Expansion coefficients depend only on the angular mode index k . It should be noted that it is implicitly assumed that the sound pressure is spatially band-limited. Thus, the series is truncated at the ordinal index n at an upper limit N , which is called the order of the HOA representation.

Если звуковое поле представлено в виде суперпозиции бесконечного числа гармонических плоских волн с различными угловыми частотами ω , прибывающих со всех возможных направлений, указанных последовательностью углов ( θ , φ ), может быть показано (см. B. Rafaely, "Plane-wave decomposition of the sound field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol.4(116), pages 2149-2157, October 2004), что соответствующая комплексная функция амплитуды плоской волны c ( ω,θ , φ ) может быть выражена следующим разложением по сферическим гармоникамIf the sound field is represented as a superposition of an infinite number of harmonic plane waves with different angular frequencies ω arriving from all possible directions specified by a sequence of angles ( θ , φ ), it can be shown (see B. Rafaely, "Plane-wave decomposition of the sound field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol.4(116), pages 2149-2157, October 2004) that the corresponding complex function of the plane wave amplitude c ( ω,θ , φ ) can be expressed by the following expansion in spherical harmonics

, (51) , (51)

где коэффициенты разложения связаны с коэффициентами разложения как . (52)where are the expansion coefficients are related to the expansion coefficients How . (52)

Предполагая, что индивидуальные коэффициенты являются функциями угловой частоты ω , применение обратного преобразования Фурье (обозначенного через F ^- ¹(·)), дает функции временной областиAssuming that the individual coefficients are functions of the angular frequency ω , applying the inverse Fourier transform (denoted by F ^- ¹ ( )), yields time domain functions

(53) (53)

для каждого порядка n и степени m . Эти функции временной области здесь называют непрерывными во времени последовательностями коэффициентов HOA, которые могут быть заключены в одном векторе c ( t ) в видеfor each order n and degree m . These time-domain functions are here called time-continuous sequences of HOA coefficients, which can be contained in a single vector c ( t ) as

(54) (54)

Индекс положения последовательности коэффициентов HOA в векторе c ( t ) дан в виде n ( n + 1) + 1 + m . Полное число элементов в векторе c ( t ) дано в виде O = ( N + 1)².HOA Coefficient Sequence Position Index in the vector c ( t ) is given as n ( n + 1) + 1 + m . The total number of elements in the vector c ( t ) is given as O = ( N + 1) ² .

Конечный формат Ambisonics дает квантованный вариант c ( t ), использующий частоту дискретизации f _S какThe final Ambisonics format yields a quantized version of c ( t ) using the sampling frequency f _S as

(55) (55)

где T _S= 1/ f _S обозначает период дискретизации. Элементы c ( lT _S) называют дискретными по времени последовательностями коэффициентов HOA, которые, как может быть показано, всегда являются вещественными. Это свойство также справедливо для непрерывных во времени вариантов .where T _S = 1/ f _S denotes the sampling period. The elements of c ( lT _S ) are called discrete-time sequences of HOA coefficients, which can be shown to be always real. This property also holds for continuous-time variants .

Определение вещественных сферических гармоникDefinition of real spherical harmonics

Вещественные сферические гармоники (предполагающие SN3D нормализацию в соответствии с диссертацией J. Daniel, "Representation de champs acoustiques, application a la transmission et a la reproduction de scenes sonores complexes dans un contexte multimedia", PhD thesis, Universite Paris, 6, 2001, chapter 3.1), даны в видеReal spherical harmonics (assuming SN3D normalization in accordance with the thesis of J. Daniel, "Representation of acoustic waves, application of transmission and reproduction of complex sound scenes in a multimedia context", PhD thesis, Universite Paris, 6, 2001, chapter 3.1), are given in the form

(56) (56)

сWith

(57) (57)

Присоединенные функции Лежандра P _n _, _m( x ) определяются какThe associated Legendre functions P _n _, _m ( x ) are defined as

(58) (58)

с полиномом Лежандра P _n( x ) и, в отличие от учебника E.G. Williams, "Fourier Acoustics", vol. 93 of Applied Mathematical Sciences, Academic Press, 1999, не содержат фазовой составляющей Кондона-Шортли (-1)^m.with the Legendre polynomial P _n ( x ) and, unlike the textbook by E. G. Williams, "Fourier Acoustics", vol. 93 of Applied Mathematical Sciences, Academic Press, 1999, do not contain the Condon-Shortley phase component (-1) ^m .

Обработка согласно изобретению может быть выполнена с помощью одного процессора или электронной схемы или с помощью нескольких процессоров или электронных схем, работающих параллельно и/или работающих на различных частях обработки согласно изобретению.The processing according to the invention may be performed by means of a single processor or electronic circuit or by means of several processors or electronic circuits operating in parallel and/or operating on different parts of the processing according to the invention.

Инструкции по эксплуатации процессора или процессоров могут быть сохранены в одном или более запоминающих устройств.Instructions for operating the processor or processors may be stored in one or more memory devices.

Claims

1. A method for decoding a compressed audio representation of a sound recording that creates a "presence effect" of higher order (HOA) sound or a sound field, the method comprising:

decoding a bitstream containing a compressed audio representation of an HOA based on the least integer , while the smallest integer are determined on the basis of

at the same time Where - order, - the maximum order of interest, - directions of virtual loudspeakers, while where O represents the number of HOA coefficients of the compressed HOA audio representation, and

at the same time

2. A device for decoding a compressed audio representation of a sound recording that creates a "presence effect" of higher order (HOA) sound or a sound field, the device comprising:

a decoder configured to decode a bitstream containing an audio representation of an HOA based on the least integer , while the smallest integer is determined on the basis of

at the same time Where - order,- the maximum order of interest,- directions of virtual loudspeakers, while Where Orepresents the number of HOA coefficients of the compressed HOA audio representation, and

at the same time

3. A non-volatile machine-readable data carrier containing instructions that, when executed by a processor, perform the method according to paragraph 1.